メイン 革新する Googleの新しいテキスト読み上げAIは非常に優れているため、実際の人間からはわかりません。

Googleの新しいテキスト読み上げAIは非常に優れているため、実際の人間からはわかりません。

明日のためのあなたの星占い

AIで生成されたコンピューターの音声と、実際の生きている人間との違いを理解できますか?多分あなたはいつもあなたができると思っていました。 AlexaとSiriが好きかもしれませんが、どちらも実際の女性と混同することはないと信じています。

物事はもっともっと面白くなりそうです。 Googleのエンジニアは、と呼ばれるテキスト読み上げシステムの作成に熱心に取り組んできました。 タコトロン2 。によると 論文 彼らは今月公開し、システムは最初にテキストのスペクトログラムを作成します。これは、スピーチがどのように聞こえるかを視覚的に表したものです。その画像は、Googleの既存のWaveNetアルゴリズムを介して配置されます。このアルゴリズムは、画像を使用して非常に自然な響きの人間の音声を生成します。

レイチェル・レイはまだ結婚していますか 2016

この方法を使用して、研究者は、「私たちのモデルは、専門的に録音された音声のMOS 4.58に匹敵する4.53の平均オピニオン評点(MOS)を達成します」と報告しています。 (平均オピニオン評点は、実際の何かがどのように聞こえるかを測定する電気通信用語です。)

Googleの音声サンプルが示すように、Tacotron 2は、名詞「desert」と動詞「desert」、および名詞「present」と動詞「present」の違いをコンテキストから検出し、それに応じて発音を変更できます。声明を出すのではなく、大文字の単語に重点を置き、質問をするときに適切な語尾変化を適用することができます。

また、人間の発話に非常によく似たテキストを生成できるため、違いを知ることは困難または不可能です。それがどれほど難しいかを知りたい場合は、Googleの オーディオサンプルページ 、「Tacotron 2またはHuman?」というタイトルのサンプルの最後のセットまで下にスクロールします。そこには、タコトロン2と、「あの女の子がスターウォーズの口紅についてのビデオを作った」などの文章を言っている実在の人物がいます。

ネタバレ注意:自分自身をテストするには、このコラムの残りの部分を読む前に、サンプルを聞いてどれがどれであるかを推測してください。

では、どのサンプルがテキスト読み上げであり、どれが本当の人間の声ですか?グーグルのエンジニアは言っていないが、彼らは非常に大きな手がかりを残している。各.wavファイルサンプルには、「gen」または「gt」という用語を含むファイル名があります。この論文によると、「gen」はTacotron 2によって生成された音声を示し、「gt」は実際の人間の音声である可能性が高いです。 (「GT」は「グラウンドトゥルース」を表す可能性があります。これは、基本的に「本物」を意味する機械学習用語です。)

これが正しいと仮定して、テストの答えは次のとおりです。

リー・アン・ウォマック 純資産

「あの女の子はスターウォーズの口紅についてのビデオを作りました。」

サンプル1:本物の人間

サンプル2:タコトロン2

「彼女はコロンビア大学で社会学の博士号を取得しました。」

サンプル1:タコトロン2

サンプル2:本物の人間

「ジョージ・ワシントンはアメリカ合衆国の初代大統領でした。」

サンプル1:タコトロン2

サンプル2:本物の人間

ニコールリハビリ中毒者の純資産

「私はロマンスには忙しすぎます。」

サンプル1:本物の人間

サンプル2:タコトロン2

何人正解しましたか?そして、あなたは本当に違いを言うことができますか、それともあなたはただ推測する必要がありましたか?