JP7522246B2

JP7522246B2 - エンドツーエンドの音声変換

Info

Publication number: JP7522246B2
Application number: JP2023036090A
Authority: JP
Inventors: ビアジー、ファディ; ジェイ．ワイス、ロン; クラカン、アレクサンダー; メンヒバル、ペドロジェイ．モレノ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-02-21
Filing date: 2023-03-09
Publication date: 2024-07-24
Anticipated expiration: 2039-11-26
Also published as: JP7244665B2; CN113678200B; US20230230572A1; EP3928316A1; JP2022521289A; CN113678200A; US12300216B2; JP2023065681A; KR20210114518A; EP4531037A3; EP4531037A2; US20220122579A1; KR102889648B1; KR20230165395A; EP3928316B1; WO2020171868A1; CN119446160A

Description

本明細書は、一般に音声処理に関する。

音声処理は、信号の処理方法および音声信号を対象とする。信号は通常デジタル表現で処理されるため、音声処理は音声信号に適用されるデジタル信号処理の特殊なケースと言える。音声処理の態様は、音声信号の取得、操作、記憶、転送、および出力を含む。

音声シンセサイザは通常、入力として転写を必要とする。音声シンセサイザは転写を受信し、転写の合成発話のオーディオデータを出力する。ユーザの音声を合成発話に変換するには、自動音声レコグナイザは、ユーザの音声の転写を生成するために、ユーザの音声のオーディオデータに対して自動音声認識を実行する必要がある。次に、音声シンセサイザは、ユーザの音声の転写の合成発話を生成する。

自動音声認識および音声合成を実行するこの技術は、コンピューティングシステムに負担をかける可能性がある。ユーザの音声に対して自動音声認識を実行する必要なしに、ユーザから受信した音声オーディオをユーザのボイス以外のボイスの音声オーディオに変換できるプロセスがあれば有益であろう。

以下の説明では、機械学習を使用して訓練されたモデルを使用して、音声認識を実行せずに、発言者のボイスでのオーディオを異なるボイスでの音声オーディオに変換するプロセスについて説明する。モデルは、発言者が話した音声オーディオを受信し、音声オーディオを数学的表現に変換する。モデルは、発言者が話した音声オーディオに対して音声認識を実行せずに、数学的表現を異なるボイスでの音声オーディオに変換する。

一部の実装形態では、音声合成システムは、第１のボイスでの発話を含む第１のオーディオデータを、第２のボイスでの同じ発話を含む第２のオーディオデータに変換することができる。変換は、オーディオを中間表現（テキスト、電話など）に変換せずに、第１のオーディオデータのサンプルまたはフィーチャに直接作用することによって実行される。システムは、シーケンスツーシーケンスを使用して、バックグラウンドノイズを含む可能性のある任意の音声を正規化し、事前定義された単一のターゲット発言者のボイスで同じコンテンツを生成できる。ソース音声は、任意の訛りのまたは発言者からのものであり、複雑な韻律パターン、欠陥、およびバックグラウンドノイズが含まれている可能性があり、これらはすべて、第１のオーディオデータが、固定された訛りと一貫したアーティキュレーションと韻律を有するクリーンな第２のオーディオデータに変換されるときに、正規化プロセスによって除去される。言い換えれば、このシステムを使用して、発言者の特性を含むすべての非言語情報を除外し（ｐｒｏｊｅｃｔａｗａｙ）、誰が、どのように、どこで話したかではなく、言ったことのみを保持することができる。

このタイプの正規化には、複数の潜在的な用途がある。ボイスをクリーンなオーディオの単一の発言者に完全に正規化すると、音声認識モデルが大幅に簡素化され、単一の発言者をサポートするだけでよい。発言者の識別情報を除去すると、機密性の高いプライベートな音声データをログに記録するときに役立つ場合があり、これにより、ユーザは変換された音声のみをサーバに送信できる（「音響」識別情報は消去）。すべての訛りを事前定義された訛りの単一のボイスにすると、たとえば採用委員会に与えられる録音された候補者の話または電話インタビューなどの音響的にマスクされたオーディオとは対照的に、自然な人間のボイスを維持しながら、偏見や差別を軽減することもできる。別の用途は、聞き手にとって異質な訛りの音声内容の理解を容易にすること、すなわち、訛りの強い音声の理解し易さを改善することであろう。

本出願に記載される主題の革新的な態様によれば、エンドツーエンドの音声変換の方法は、コンピューティングデバイスが、ユーザによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信することと、コンピューティングデバイスが、第１のボイスで話された１つまたは複数の所与の第１の語からなる所与の第１の発話の所与の第１のオーディオデータを受信し、所与の第１のオーディオデータに対して音声認識を実行せずに、合成ボイスで話される１つまたは複数の所与の第１の語からなる所与の第２の発話の所与の第２のオーディオデータを出力するように構成されるモデルへの入力として第１のオーディオデータを提供することと、モデルへの入力として第１のオーディオデータを提供することに応じて、コンピューティングデバイスが、合成ボイスで話される１つまたは複数の第１の語からなる第２の発話の第２のオーディオデータを受信することと、コンピューティングデバイスによる出力のために、合成ボイスで話される１つまたは複数の第１の語からなる第２の発話の第２のオーディオデータを提供することと、のアクションを含む。

これらおよびその他の実装には、それぞれ任意選択により次のフィーチャの１つ以上を含めることができる。アクションは、コンピューティングデバイスが、所与の人間と会話を行うように構成されたボットが人間から受信した第３の発話に対する応答を生成するように構成されていないことを示すデータを受信することと、ボットが人間から受信した第３の発話に対して応答を生成するように構成されていないことを示すデータを受信することに基づいて、コンピューティングデバイスが、人間のオペレータに、人間から受信した第３の発話に応じるよう要求を送信することと、をさらに含む。ユーザによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信するアクションは、第３の発話に応じて人間のオペレータによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信することを含む。ユーザによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信するアクションは、電話に応えている間にユーザによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信することを含む。

アクションは、複数の発話からなるコレクションのオーディオデータを受信することと、複数の発話からなるコレクションにおける各発話の転写を取得することと、テキストを音声にするモデルへの入力として、各発話の転写を提供することと、各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、複数の発話からなるコレクションのオーディオデータと、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを使用して、モデルを訓練することと、をさらに含む。アクションは、コンピューティングデバイスが、追加のユーザによって話された１つまたは複数の第３の語からなる第３の発話の第３のオーディオデータを受信することと、コンピューティングデバイスが、モデルへの入力として第３のオーディオデータを提供することと、モデルへの入力として第３のオーディオデータを提供することに応じて、コンピューティングデバイスが、合成ボイスで話される１つまたは複数の第３の語からなる第４の発話の第４のオーディオデータを受信することと、コンピューティングデバイスによる出力のために、合成ボイスで話される１つまたは複数の第３の語からなる第４の発話の第４のオーディオデータを提供することと、をさらに含む。アクションは、コンピューティングデバイスが、第１の発話の転写を取得することを省略することをさらに含む。モデルは、所与の１つまたは複数の第１の語のそれぞれの間の期間を調整するように構成されている。モデルは、所与の１つまたは複数の第１の語のそれぞれの発言時間を調整するように構成されている。

この態様の他の実装は、対応するシステム、装置、およびコンピュータ記憶装置に記録されたコンピュータプログラムを含み、それぞれが方法の動作を実行するように構成されている。

本明細書に記載されている主題の特定の実装は、以下の利点のうちの１つまたは複数を実現するように実施することができる。コンピューティングシステムは、ユーザのボイスで話された発話のオーディオデータを受信し、受信したオーディオデータに対して自動音声認識を実行する追加のオーバーヘッドなしに、合成ボイスで話される合成発話のオーディオデータを出力することができる。

本明細書に記載の主題の１つまたは複数の実装の詳細は、添付の図面および以下の説明に記載されている。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかとなる。

音声認識を実行せずに、ユーザから受信した音声オーディオを合成音声オーディオに変換するシステム例を示す図。自動ボットとユーザとの間の会話に入り込んでいるオペレータから受信した音声オーディオを、自動ボットを模倣した音声オーディオに変換するシステム例を示す図。電話をスクリーニングしている着信者から受信した音声オーディオを、着信者が電話に応えたと発信者が判断することを抑止する音声オーディオに変換するシステム例を示す図。音声認識を実行せずに、ユーザから受信した音声オーディオを合成音声オーディオに変換するための例示的なプロセスのフローチャート。ユーザから受信した音声オーディオを、音声認識を実行せずにユーザよりもピッチが高く、発話速度が速い合成音声オーディオに変換するシステムのネットワークアーキテクチャの例を示す図。コンピューティングデバイスおよびモバイルコンピューティングデバイスの例を示す図。

さまざまな図面での同様の参照番号と指示は、同様の要素を示す。
図１は、音声認識を実行せずに、ユーザ１０４から受信した音声オーディオ１０２を合成音声オーディオ１０６に変換する例示的なシステム１００を示している。以下で簡潔に、および、より詳細に説明するように、英国訛りで話すユーザ１０４は、コンピューティングデバイス１１０の近くで発話１０８を行う。コンピューティングデバイス１１０は、発話１０８のオーディオデータ１０２を音声間変換サーバ（音声から音声への変換サーバ）１１２に送信する。音声間変換サーバ１１２は、発話１０８のオーディオデータ１０２を、合成発話１１４のオーディオデータ１０６に変換する。音声間変換サーバ１１２は、合成発話１１４のオーディオデータ１０６をコンピューティングデバイス１１６に送信し、コンピューティングデバイス１１６は、合成発話１１４を出力する。一部の実装形態では、エンドツーエンド音声変換サーバ１１２の機能は、コンピューティングデバイス１１０またはコンピューティングデバイス１１６、あるいはその両方に組み込まれている。

より詳細には、ユーザ１０４とユーザ１１８は、コンピューティングデバイス１１０およびコンピューティングデバイス１１６を介して互いに話している。ユーザ１０４およびユーザ１１８は、電話または別のタイプのボイス通信プロトコル、例えば、ボイスオーバーインターネットプロトコルを介して話していてもよい。ユーザ１０４とユーザ１１８は同じ言語を話すことができるが、ユーザ１０４の訛りが強いので、ユーザ１１８がユーザ１０４を理解するのが難しい可能性がある。この例では、ユーザ１０４は英国人である可能性があり、ユーザ１１８は、ユーザ１０４の英国訛り１２２よりも米国訛り１２０を理解する方が容易である場合がある。

この問題に対処するために、コンピューティングデバイス１１０は、発話１０８のオーディオデータ１０２、およびユーザ１０４によって話された他の発話を音声間変換サーバ１１２に提供することができる。音声間変換サーバ１１２は、訛りを有して話し得るユーザによって話された発話のオーディオデータを、異なる訛りを有し得る合成発話のオーディオデータへと変換するように構成され得る。この変換を達成するには、サーバは、通常であれば、ユーザが訛りを有して話した発話のオーディオデータに対して音声認識を実行するように構成されている。音声レコグナイザは、ユーザの訛りで話された音声を認識するように構成され得るか、または任意の訛りで話された音声を認識するように構成され得る。次に、サーバは、異なる訛りの合成音声のオーディオデータを生成する音声シンセサイザに転写を提供することが考えられる。音声間変換サーバ１１２は、これとは異なる方法で動作する。

音声間変換サーバ１１２は、コンピューティングデバイス１１０から発話１０８のオーディオデータ１０２を受信し、発話１０８のオーディオデータ１０２をモデル１２４に提供する。音声間変換サーバ１１２は、英国訛り１２２で話された発話１０８のオーディオデータ１０２を、米国訛り１２０による合成発話１１４のオーディオデータ１０６に変換するようにモデル１２４を訓練する。音声間変換サーバ１１２は、この変換を実行するために音声レコグナイザ１２６を使用しない。音声レコグナイザ１２６は、変換プロセス中、非アクティブのままであり得る。代わりに、モデル１２４は、発話１０８のオーディオデータ１０２をエンコーダ１２８に提供する。エンコーダ１２８は、発話１０８のオーディオデータ１０２を一連のベクトルなどの内部表現に変換するように構成され得る。例えば、エンコーダ１２８が発話１０８のオーディオデータ１０２を受信すると、エンコーダ１２８は５フレームのオーディオを処理し、それらの５フレームのオーディオを１０個のベクトルに変換することができる。ベクトルは、オーディオデータ１０２のフレームの転写ではなく、オーディオデータ１０２のフレームの数学的表現である。モデル１２４は、一連のベクトルをスペクトログラムデコーダ１３０に提供する。スペクトログラムデコーダ１３０は、エンコーダ１２８から受信したベクトルに基づいて、合成発話のオーディオデータを生成するように構成され得る。例えば、スペクトログラムデコーダ１３０は、オーディオの５つのフレームを表すエンコーダ１２８からの１０個のベクトルを受信することができる。スペクトログラムデコーダ１３０は、オーディオデータの５つのフレームと同じ単語または単語の一部を含むが、ユーザ１０４とは異なるボイスを有する、合成発話１１４のオーディオデータ１０６の５つのフレームを生成する。

音声間変換サーバ１１２は、合成発話１１４のオーディオデータ１０６をコンピューティングデバイス１１６に提供する。図１に示す例では、音声間変換サーバ１１２は、「明日の予約はできますか？（ＣａｎＩｍａｋｅａｎａｐｐｏｉｎｔｍｅｎｔｆｏｒｔｏｍｏｒｒｏｗ？）」という合成発話のオーディオデータ１０６を提供する。合成発話１１４は、米国訛り１２０を有し得る。一部の実装形態では、合成発話１１４は、ユーザ１０４と同じ訛りでユーザ１０４とは異なるボイスとすることができる。合成発話１１４のボイスは、ユーザ１１８または別のユーザがユーザ１０４を発話１０８の発言者として識別できないようなものであり得る。一部の実装形態では、合成発話１１４の抑揚（ｃａｄｅｎｃｅ）は、発話１０８の抑揚とは異なる可能性がある。音声間変換サーバ１１２は、合成発話１１４の抑揚を調整して、ユーザ１１８が合成発話１１４を理解することができる可能性を高めることができる。

コンピューティングデバイス１１６は、合成発話１１４のオーディオデータ１０６を受信し、スピーカーまたは他のオーディオ出力デバイスを介してオーディオデータ１０６を出力する。一部の実装形態では、音声間変換サーバ１１２は、ユーザ１０４が発話１０８のうちの対応する部分を話すときに、合成発話１１４のうちの部分を継続的に生成する。例えば、音声間変換サーバ１１２は、発話１０８のうちの１秒分を受信した後、合成発話１１４のうちの１秒分を生成することができる。合成発話１１４のうちの部分を連続的に生成することにより、ユーザ１０４とユーザ１１１８との間の会話は、より自然なペースで行われることができる。一部の実装形態では、音声間変換サーバ１１２は、ユーザ１０４がいつ話すのを停止したかを決定することができる。ユーザ１０４が話すのを停止したと判断した後、音声間変換サーバ１１２は、発話１０８のオーディオデータ１０２を、合成発話１１４のオーディオデータ１０６に変換する。

音声間変換サーバ１１２は、訓練データを生成し、モデル１２４を訓練するための様々な構成要素を含む。音声間変換サーバ１１２は、発話転写１３２および発話オーディオデータ１３４を含む。発話は、異なるタイプの訛りを持つ異なるユーザによって話された発話である可能性がある。一部の実装形態では、発話転写１３２は、自動音声レコグナイザによって生成される。各発話の発言者は、転写が発話転写１３２に記憶され、オーディオデータが発話オーディオデータ１３４に記憶される前に、転写の正確さを検証することができる。一部の実装形態では、発話転写１３２は、１人または複数の人によって生成される。

音声間変換サーバ１１２は、発話転写１３２を音声シンセサイザ１３６に提供する。音声シンセサイザは、転写１３２の合成発話オーディオデータ１３８を生成するように構成される。音声シンセサイザは、単一のボイスによる合成発話オーディオデータ１３８を生成するように構成され得る。ボイスには、米国訛りまたは英国訛りなどの特定の訛りがある場合がある。合成発話オーディオデータ１３８は、バックグラウンドノイズまたは他の音声アーチファクトを有していない場合がある。

音声間変換サーバ１１２は、合成発話オーディオデータ１３８および発話オーディオデータ１３４をモデル訓練部１４０に提供する。モデル訓練部１４０は、機械学習技術を使用してモデル１２４を訓練する。モデル訓練部１４０は、発話オーディオデータ１３４と同様のオーディオデータを受信し、受信したオーディオデータに対して音声認識を実行せずに、合成発話オーディオデータ１３８と同様のオーディオデータを出力するようにモデル１２４を訓練する。モデル訓練部１４０は、モデル１２４が様々なボイスの様々な発話のオーディオデータを含む様々な入力を受信する場合でさえ、音声シンセサイザ１３６からの合成発話と同じボイスで発話を出力するようにモデル１２４を訓練する。

一部の実装形態では、音声間変換サーバ１１２は、様々なオーディオ特性を含む発話オーディオデータ１３４を使用することができる。これにより、それらの様々な特性を有するオーディオデータの入力を扱うように構成されたモデル１２４が得られる可能性がある。一部の実装形態では、音声間変換サーバ１１２は、発話オーディオデータ１３４にオーディオ特性を追加することができ、その結果、モデル訓練部１４０は、追加されたオーディオ特性と同様のオーディオ特性を扱うようにモデル１２４を訓練する。

例えば、音声間変換サーバ１１２は、発話オーディオデータ１３４に様々なレベルのノイズを追加することができる。様々なレベルのノイズには、定常ノイズおよび／または非定常ノイズなどの様々なタイプのノイズが含まれる場合がある。定常ノイズには、様々なレベルのロードノイズ、カクテルパーティーまたはレストランに似た様々なレベルのバックグラウンド音声ノイズ、様々なレベルのファンノイズ、および／または他の同様のタイプのノイズが含まれる。非定常ノイズには、様々なレベルのテレビノイズ、様々なレベルの突風ノイズ、様々なレベルのバックグラウンドミュージックノイズ、および／または他の同様のタイプのノイズが含まれる可能性がある。音声間変換サーバ１１２は、同じ発話のオーディオデータに様々なレベルおよび様々なタイプのノイズを追加することができる。これにより、同じ転写に一致する複数のオーディオデータサンプルが生じる可能性があり、ここで、各オーディオデータサンプルは、様々なレベルと様々なタイプのノイズが追加された、同じ土台の発話オーディオデータを含む。ノイズを追加することにより、モデル１２４は、発話オーディオデータに加えてバックグラウンドノイズを含む受信されたオーディオデータを処理するように、より適切に構成され得る。

別例として、音声間変換サーバ１１２は、筋萎縮性側索硬化症を有するユーザなど、ユーズ（ｕｓｅ）が流暢に話すことを妨げる音声障害を有する可能性があるユーザからの発話オーディオデータ１３４を処理することができる。モデル訓練部１４０は、音声障害を有するユーザからの発話のオーディオデータと発話の転写とを使用してモデル１２４を訓練することができ、これによって、モデル１２４は、音声障害のあるユーザによって話された発話のオーディオデータを受信し、他のユーザが理解しやすいより一貫した抑揚で発話のオーディオデータを出力することができる。

別例として、音声間変換サーバ１１２は、発話を転写することなく、発話を異なる言語に翻訳するように構成され得る。この例では、発話オーディオデータ１３４は、英語などの第１の言語で話された発話を含み得る。発話転写１３２は、スペイン語の翻訳などの第２の言語での発話の翻訳の転写を含み得る。音声シンセサイザ１３６は、スペイン語の合成発話など、第２の言語による合成音声を生成するように構成され得る。モデル訓練部１４０は、機械学習を使用するとともに、第１の言語の発話オーディオデータ１３４および第２の言語の合成発話オーディオデータ１３８を使用して、モデル１２４を訓練する。結果として得られるモデル１２４は、第１の言語、例えば英語での発話のオーディオデータを受信し、受信した発話を転写することなく第２の言語、例えばスペイン語の合成発話オーディオデータを出力するように構成される。

図２は、自動エージェント２０６とユーザ２０８との間の会話に入り込んでいるオペレータ２０４から受信した音声オーディオ２０２を、自動エージェント２０６を模倣した音声オーディオ２１０に変換する例示的システム２００を示している。以下で簡潔に、および、より詳細に説明するように、ユーザ２０８は、自動エージェント２０６と会話を行っている。会話中、ユーザ２０８は、自動エージェント２０６が応答できない発話２１２を行う。オペレータ２０４は、自動エージェント２０６が発話２１２に応答できないという標示を受け取る。オペレータ２０４は、発話２１２に応答するために発話２１４を提供する。音声間変換サーバ２１６は、発話２１４の音声オーディオ２０２を自動エージェント２０６のボイスに変換し、これによって、ユーザ２０８は、ユーザ２０８が引き続き同じ当事者と会話をしているかのような印象を持つ。一部の実装形態では、自動エージェント２０６の機能は、コンピューティングデバイス２２０またはコンピューティングデバイス２３４、あるいはその両方に組み込まれている。一部の実装形態では、エンドツーエンド音声変換サーバ２１６の機能は、コンピューティングデバイス２２０またはコンピューティングデバイス２３４、あるいはその両方に組み込まれている。

より詳細に、段階Ａでは、ユーザ２０８は、自動エージェント２０６と電話の会話を始める。コンピューティングデバイス２２０は、自動エージェント２０６に接続する。ユーザは発話２１８を行い、自動エージェントに「２名でテーブルを予約できますか（Ｃａｎ
Ｉｒｅｓｅｒｖｅａｔａｂｌｅｆｏｒｔｗｏ）」と尋ねる。自動エージェント２０６は、ユーザ２０８が自動エージェント２０６を実際の人から区別することができないように、人を模倣することができる。一部の実装形態では、自動エージェント２０６は、ユーザ２０８との電話の会話を始めることができる。一部の実装形態では、ユーザ２０８と自動エージェント２０６との間の会話は、ＶＯＩＰ通話または他のタイプのボイス通信などの電話以外の通信チャネルであり得る。

段階Ｂでは、コンピューティングデバイス２２０は、マイクロフォンまたは別の入力デバイスを介して発話２１８を検出し、オーディオサブシステムを使用して発話２１８のオーディオデータを処理する。オーディオサブシステムは、マイクロフォン、アナログ－デジタル変換器、バッファ、および他の様々なオーディオフィルタを含み得る。マイクロフォンは、音声（例えば、発話２１８）などの周囲領域の音を検出するように構成することができる。アナログ－デジタル変換器は、マイクロフォンによって検出されたオーディオデータをサンプリングするように構成され得る。バッファは、コンピューティングデバイス２２０による処理のために、またはコンピューティングデバイス２２０による送信のために、サンプリングされたオーディオデータを格納することができる。一部の実装形態では、オーディオサブシステムは、継続的にアクティブであり得るか、またはコンピューティングデバイス２２０が電話中などのオーディオを受信することが予期される時間中にアクティブであり得る。この場合、マイクロフォンは、自動エージェント２０６との電話の開始に応じてオーディオを検出することができる。アナログ－デジタル変換器は、電話中において、検出されたオーディオデータを常にサンプリングし得る。バッファは、音の最後の１０秒などの最新のサンプリングされたオーディオデータを記憶することができる。コンピューティングデバイス２２０は、発話２１８についてサンプリングされフィルタリングされたオーディオデータ２２２を自動エージェント２０６に提供することができる。

自動エージェント２０６は、発話２１８のオーディオデータ２２２を受信し、適切な応答を決定する。自動エージェント２０６は、一連のルール、決定木、ニューラルネットワーク、および／または別の決定プロセスを適用して、適切な応答を決定することができる。自動エージェント２０６は、適切な応答の転写を生成し、その転写を音声シンセサイザに提供することができる。段階Ｃでは、音声シンセサイザは、「２名でテーブルを予約できますか？」への応答として、「今日の夜でしょうか？（Ｆｏｒｔｏｎｉｇｈｔ？）」という発話２２６を表すオーディオデータ２２４を生成することができる。音声シンセサイザは発話２２６を生成することができるが、ユーザ２０８は、ユーザ２０８がコンピュータと話していることを決定できない場合がある。

段階Ｄでは、コンピューティングデバイス２２６は、発話２２６のオーディオデータ２２４を受信する。コンピューティングデバイス２２６は、スピーカーまたは他のタイプのオーディオ出力デバイスを介してオーディオデータ２２４を出力する。ユーザ２０８は、合成音声２２８の発話２２６を聞く。

段階Ｅでは、ユーザ２０８は、「私は今夜試合を見なければならない。スミスがプレーすることを知っていましたか？（Ｉｈａｖｅｔｏｗａｔｃｈｔｈｅｇａｍｅｔｏｎｉｇｈｔ．ＤｉｄｙｏｕｋｎｏｗｔｈａｔＳｍｉｔｈｉｓｐｌａｙｉｎｇ？）」との発話２１２を行うことによって発話２２６に応答する。コンピューティングデバイス２２０は、発話２２６を検出し、オーディオサブシステムを使用して発話２２６を処理する。段階Ｆでは、コンピューティングデバイス２２０は、発話２１２のオーディオデータ２３０を自動エージェント２０６に提供する。

自動エージェント２０６は、発話２１２のオーディオデータ２３０を受信する。自動エージェント２０６は、発話２１８のオーディオデータ２２２を処理するのと同様の方法で、発話２１２のオーディオデータ２３０を処理する。自動エージェント２０６は、一連のルール、決定木、ニューラルネットワーク、および／または別の決定プロセスを適用して、発話２１２に対する適切な応答を決定することができる。この例では、自動エージェント２０６は、適切な応答を決定することができない。自動エージェント２０６は、ユーザの発話が会話においてトピックから外れている場合に、ユーザの発話に対する適切な応答を決定することができない場合がある。

会話を続けるために、自動エージェント２０６は、自動エージェント２０６または他の自動エージェントがユーザの発話２１２に対して適切な応答を生成することができないときに支援するために待機しているオペレータ２０４に通知することができる。段階Ｇでは、自動エージェント２０６は、自動エージェント２０６とユーザ２０８との間の会話の要約２３２を生成する。要約２３２は、自動エージェント２０６がユーザの発話２１２に対して適切な応答を生成することができなかった時点までの会話の転写から構成され得る。これに代えてまたは加えて、要約２３２は、自動エージェント２０６とユーザ２０８との間でなされた会話または合意の結果として達成された任意のタスクの説明から構成され得る。図２の例では、要約２３２は、自動エージェント２０６とユーザ２１２との間の会話の転写からなる。自動エージェント２０６はまた、会話のステータス２３６を含み得る。ステータス２３６は、自動エージェント２０６が実行できなかったタスクを説明し得る。ステータス２３６は、自動エージェント２０６が、発話２１２のオーディオデータ２３０に対して音声認識を実行できなかったことを示し得る。その場合、要約２３２は、発話２１２のオーディオデータ２３０を含むと考えられる。ステータス２３６は、自動エージェントが発話２１２への応答を生成できなかったことを示し得る。

段階Ｈでは、オペレータ２０４のコンピューティングデバイス２３４は、要約２３２およびステータス２３６を受信する。オペレータ２０４は、要約２３２およびステータス２３６を検討する。オペレータ２０４は、ユーザ２０８の発話２３８への応答として、および、会話を元のトピックに戻すか、または、自動エージェント２０６が理解する可能性が高いトピックに戻す試みとして、発話２１０を行う。コンピューティングデバイス２２０が発話２１２および発話２１８を処理するのと同様の方法で、コンピューティングデバイス２３４は、発話２１４を検出し、オーディオサブシステムを使用して発話２１４を処理する。図２に示す例では、ユーザ２０４は、「存じませんでした。それはエキサイティングでしょう。予約日はいかがなさいますか？（Ｉｄｉｄｎ’ｔ．Ｉｔｓｈｏｕｌｄ
ｂｅｅｘｃｉｔｉｎｇ．Ｗｈａｔｄａｙｄｉｄｙｏｕｗａｎｔｔｈｅｒｅｓｅｒｖａｔｉｏｎ？）」と話す。

段階Ｉでは、コンピューティングデバイス２３４は、発話２１４のオーディオデータ２０２を音声間変換サーバ２１６に送信する。音声間変換サーバ２１６は、音声間変換サーバ２１６が第１のボイスで話された発話のオーディオデータを受信するように構成されるという点で、音声間変換サーバ１１２と同様であり得る。第１のボイスで話された発話のオーディオデータに対して音声認識を実行せずに、異なる第２のボイスで話される同じ単語と語を含む発話の音声データを出力する。音声間変換サーバ２１６は、自動エージェント２０６と同じ合成ボイス２２８の発話のオーディオデータを生成するように構成することができる。

段階Ｊでは、音声間変換サーバ２１６は、発話２１４のオーディオデータを、発話２３８のオーディオデータ２１０に変換する。音声間変換サーバ２１６は、発話２３８のオーディオデータ２１０をコンピューティングデバイス２２０に送信する。一部の実装形態では、音声間変換サーバ２１６は、発話２３８のオーディオデータ２１０をコンピューティングデバイス２３４に送信する。次いで、コンピューティングデバイス２３４は、発話２３８のオーディオデータ２１０を自動エージェント２０６に送信する。自動エージェントは、発話２３８のオーディオデータ２１０をコンピューティングデバイス２２０に送信する。一部の実装形態では、音声間変換サーバ２１６は、発話２３８のオーディオデータ２１０を自動エージェント２０６に送信する。自動エージェントは、発話２３８のオーディオデータ２１０をコンピューティングデバイス２２０に送信する。一部の実装形態では、コンピューティングデバイス２３４は、発話２１４の転写を自動エージェント２０６に提供する。これにより、自動エージェントは、ユーザ２０８との会話の内容を把握した状態を維持できる。自動エージェント２０６は、発話２１４の転写を使用して、応答を生成するために自動エージェント２０６によって使用されるモデルおよび／またはルールを更新してもよい。

段階Ｋでは、コンピューティングデバイス２２０は、スピーカーまたは他のタイプのオーディオ出力デバイスを介して発話２３８を出力する。ユーザ２０８は、発話２３８を聞き、発話２３８は、発話２２６と同じ合成音声２２８によるので、ユーザ２０８は、他の当事者が会話に参加していることに気付かない。ユーザ２０８は、新しい発話を行うことによって発話２３８に応答することができる。オペレータ２０４は、自動エージェント２０６が会話をシームレスに引き継ぐことができることを確実にするために、会話を監視し続けることができる。必要に応じて、オペレータ２０４は、会話の残りの間、または残りの会話の一部において、音声間変換サーバ２１６を介してユーザ２０８と話し続けることができる。会話中、ユーザ２０８は、ユーザ２０８が同じ実在の人物と話しているかのような印象を受けている可能性がある。

図３は、電話をスクリーニングしている着信者３０４から受信した音声オーディオ３０２を、着信者３０４が電話に応えたと発信者３０８が判断することを抑止する音声オーディオ３０６に変換する例示的なシステム３００を示している。以下で簡潔に、および、より詳細に説明するように、発信者３０８は、着信者３０４に電話をかける。着信者３０４は、電話を取ることに確信が持てないか可能性があるが、電話をボイスメールに送る（ｌｅｔｔｉｎｇｔｈｅｃａｌｌｇｏｔｏｖｏｉｃｅｍａｉ）代わりに、着信者３０４は、電話に応え、スクリーニングする。着信者３０４は、音声間変換サーバ３１２にアクセスするコンピューティングデバイス２１０の電話スクリーニングフィーチャを使用することができる。音声間変換サーバ３１２は、着信者のボイスで話された発話３１４のオーディオデータ３０２を、一般的なボイスで話された合成発話３１６のオーディオデータ３０６に変換する。発信者３０８は、着信者３０４、おそらく実際の人が電話に応えたことに気付かずに、スクリーニング質問に応える。一部の実装形態では、エンドツーエンド音声変換サーバ３１２の機能は、コンピューティングデバイス３１０またはコンピューティングデバイス３１８、あるいはその両方に組み込まれている。

より詳細に、段階Ａでは、発信者３０８であるアリス（Ａｌｉｃｅ）は、着信者３０４であるボブ（Ｂｏｂ）との電話を開始する。コンピューティングデバイス３１０は、コンピューティングデバイス３１０が通知３１１を出力することによって着信呼を受信していることを示す。電話の代わりに、発信者３０８は、ＶＯＩＰまたは同様のタイプのボイス通信などの代替タイプの通信チャネルを介してボイス通信を開始することができる。発信者３０８は、コンピューティングデバイス３１８により電話を開始することができる。着信者３０４のコンピューティングデバイス３１０は、着信者３０４が電話を受けていることを示している。コンピューティングデバイス３１０は、着信者３０４に、電話に直接応える、電話を無視する、電話をボイスメールに送信する、または電話スクリーニングを開始するオプションを与えることができる。

段階Ｂでは、着信者３０４は、電話スクリーニングオプションを開始する。電話スクリーニングオプションを選択すると、コンピューティングデバイス３１０は、音声間変換サーバ３１２との通信を開始する。コンピューティングデバイス３１０は、コンピューティングデバイス３１０が、別のボイスに変換するために音声間変換サーバ３１２にオーディオデータを送信することを示している。

段階Ｃでは、着信者３０４は発話３１４を行う。コンピューティングデバイス３１０は、マイクロフォンまたは別のタイプのオーディオ入力デバイスを介して発話３１４を検出し、オーディオサブシステムを使用してオーディオデータを処理する。オーディオサブシステムは、マイクロフォン、アナログ－デジタル変換器、バッファ、および他の様々なオーディオフィルタを含み得る。マイクロフォンは、音声（例えば、発話３１４）などの周囲領域の音を検出するように構成することができる。アナログ－デジタル変換器は、マイクロフォンによって検出されたオーディオデータをサンプリングするように構成され得る。バッファは、コンピューティングデバイス３１０による処理のために、またはコンピューティングデバイス３１０による送信のために、サンプリングされたオーディオデータを格納することができる。一部の実装形態では、オーディオサブシステムは、継続的にアクティブであり得るか、またはコンピューティングデバイス３１０が電話中などのオーディオを受信することが予期される時間中にアクティブであり得る。この場合、マイクロフォンは、電話スクリーニングオプションの開始に応じてオーディオを検出することができる。アナログ－デジタル変換器は、電話中において、検出されたオーディオデータを常にサンプリングし得る。バッファは、音の最後の１０秒などの最新のサンプリングされたオーディオデータを記憶することができる。コンピューティングデバイス３１０は、発話３１４についてサンプリングされフィルタリングされたオーディオデータ３０２を、段階Ｄにおいて、音声間変換サーバ３１２に提供することができる。

音声間変換サーバ３１２は、コンピューティングデバイス３１０から、着信者３０４によって話された発話３１４のオーディオデータ３０２を受信する。一部の実装形態では、コンピューティングデバイス３１０は、着信者３０４によって話された発話３１４のオーディオデータ３０２を別のボイスで話される発話に変換するために、音声間変換サーバ３１２に命令を提供する。一部の実装形態では、コンピューティングデバイス３１０は、音声間変換サーバ３１２が、異なるボイスで話される合成発話３１６のオーディオデータ３０６をどこに送信すべきかについての命令を提供する。例えば、コンピューティングデバイス３１０は、コンピューティングデバイス３１８の電話番号またはデバイス識別子と、異なるボイスで話される合成発話３１６のオーディオデータ３０６を送信するための命令とを提供することができる。一部の実装形態では、コンピューティングデバイス３１０は、異なるボイスで話される合成発話３１６のオーディオデータ３０６をコンピューティングデバイス３１０に送り返すために、音声間変換サーバ３１２に命令を提供することができ、これによって、コンピューティングデバイスは、異なるボイスで話される合成発話３１６のオーディオデータ３０６をコンピューティングデバイス３１８に送信することができる。

段階Ｅでは、音声間変換サーバ３１２は、着信者３０４のボイスとは異なるボイスで話される合成発話３１６のオーディオデータ３０６を生成する。音声間変換サーバ３１２は、音声間変換サーバ３１２が第１のボイスで話された発話のオーディオデータを受信するとともに、第１のボイスで話された発話のオーディオデータに対して音声認識を実行せずに、異なる第２のボイスで話される同じ単語と語を含む発話の音声データを出力するように構成されるという点で、音声間変換サーバ１１２と同様であってもよい。この例では、音声間変換サーバ３１２は、着信者３０４のボイスで話された発話３１４のオーディオデータ３０２を受信する。音声間変換サーバ３１２は、オーディオデータ３０２に対して音声認識を実行することなく、実際の人のように聞こえ、着信者３０４のようには聞こえない一般的なボイスで話される発話３１６のオーディオデータ３０６を生成するモデルに、着信者３０４のボイスで話された発話３１４のオーディオデータ３０２を提供する。音声間変換サーバ３１２は、発話３１６のオーディオデータ３０６をコンピューティングデバイス３１８に提供する。一部の実装形態では、音声間変換サーバ３１２は、発話３１６のオーディオデータ３０６をコンピューティングデバイス３１０に提供し、コンピューティングデバイス３１０は、発話３１６のオーディオデータ３０６をコンピューティングデバイス３１８に提供する。

段階Ｆでは、コンピューティングデバイス３１８は、コンピューティングデバイス３１８のスピーカーまたは他のオーディオ出力デバイスを介して、発話３１６のオーディオデータ３０６を出力する。発話３１６は、着信者３０４の声ではなく、実際の人のように聞こえ、着信者３０４のようには聞こえない、異なる一般的なボイスである。図３の例では、発信者３０８は、「お名前と電話のご用件をおっしゃってください（Ｐｌｅａｓｅｓｔａｔｅｙｏｕｒｎａｍｅａｎｄｔｈｅｐｕｒｐｏｓｅｏｆｙｏｕｒｃａｌｌ）」と、着信者３０４のように聞こえないボイスで聞く。発信者３０８は、発信者３０８が、着信者３０４の秘書またはアシスタントと会話しているかのような印象を受ける可能性がある。

段階Ｇでは、発信者３０８は、発話３２０を行うことによって発話３１６に応答する。発話３２０は、コンピューティングデバイス３１８のマイクロフォンまたは他のオーディオ入力デバイスによって検出される。コンピューティングデバイス３１８のオーディオサブシステムは、発話３２０を処理する。図３の例では、発信者３０８は、「アリスです。ボブとの会議をスケジュールするために電話しています（ＴｈｉｓｉｓＡｌｉｃｅ．
Ｉ’ｍｃａｌｌｉｎｇｔｏｓｃｈｅｄｕｌｅａｍｅｅｔｉｎｇｗｉｔｈＢｏｂ．）」と言う。

段階Ｈでは、コンピューティングデバイス３１８は、発話３２０のオーディオデータ３２２をコンピューティングデバイス３１０に送信する。この例の電話スクリーニングフィーチャは、一方向的に機能する場合がある。言い換えれば、電話スクリーニングフィーチャを使用すると、電話スクリーニングフィーチャをアクティブにした着信者３０４のボイスが変更される（ｄｉｓｇｕｉｓｅｓ）。発信者３０８のボイスは変更されない状態が維持される。

段階Ｉでは、コンピューティングデバイス３１０は、コンピューティングデバイス３１０のスピーカーまたは他のオーディオ出力デバイスを介して、発話３２０のオーディオデータ３２２を出力する。発話３２０は、発信者３０８のボイスによる。着信者３０４は、発信者３０８のボイスで「アリスです。ボブとの会議をスケジュールするために電話をかけています（ＴｈｉｓｉｓＡｌｉｃｅ．Ｉ’ｍｃａｌｌｉｎｇｔｏｓｃｈｅｄｕｌｅａｍｅｅｔｉｎｇｗｉｔｈＢｏｂ）」と聞く。

段階Ｊで、電話スクリーニングがまだアクティブな状態で、着信者３０４は発話３２６を行う。発話３２６は、コンピューティングデバイス３１０のマイクロフォンまたは他のオーディオ入力デバイスによって検出される。コンピューティングデバイス３１０のオーディオサブシステムは、発話３２６を処理する。図３の例では、着信者３０４は、「少々お待ちください（Ｏｎｅｍｏｍｅｎｔ）」と言う。

段階Ｋで、電話スクリーニングがまだアクティブな状態で、コンピューティングデバイス３１０は、発話３２６のオーディオデータ３２８を音声間変換サーバ３１２に送信する。音声間変換サーバ３１２は、段階Ｄのモデルと同じモデルに、発話３２６のオーディオデータ３２８を提供する。モデルは、着信者３０４のボイス以外のボイスで発話３３２のオーディオデータ３３０を生成する。一部の実装形態では、発話３３２のボイスは、発話３１６のボイスと同じである。音声間変換サーバ３１２は、オーディオデータ３２８に対して音声認識を実行することなく、発話３３２のオーディオデータ３３０を生成する。

段階Ｌでは、音声間変換サーバ２１２は、発話３３２のオーディオデータ３３０をコンピューティングデバイス３１８に提供する。一部の実装形態では、音声間変換サーバ３１２は、発話３３２のオーディオデータ３３０をコンピューティングデバイス３１０に提供し、コンピューティングデバイス３１０は、発話３３２のオーディオデータ３３０をコンピューティングデバイス３１８に提供する。

段階Ｍでは、コンピューティングデバイス３１８は、コンピューティングデバイス３１８のスピーカーまたは他のオーディオ出力デバイスを介して、発話３３２のオーディオデータ３３０を出力する。発話３３２は、着信者３０４のボイスによるものではなく、発話３１６と同じ一般的なボイス、または実際の人のように聞こえる別のボイスである。図３の例では、発信者３０８は、着信者３０４のように聞こえないボイスで「少々お待ちください」と聞く。発信者３０８は、発信者３０８が、着信者３０４の秘書またはアシスタントと会話しているかのような印象を受けた状態が続く可能性がある。

段階Ｎでは、着信者３０４は発話３３４を行う。発話３３４は、コンピューティングデバイス３１０のマイクロフォンまたは他のオーディオ入力デバイスによって検出される。コンピューティングデバイス３１０のオーディオサブシステムは、発話３３４を処理する。図３の例では、着信者３０４は、「こんにちは、アリス。ボブです（ＨｉＡｌｉｃｅ．ＴｈｉｓｉｓＢｏｂ）」と言う。発話３３４を行う前に、着信者３０４は、コンピューティングデバイス３１０の電話スクリーニングモードを非アクティブ化することができる。着信者３０４は、段階Ｋ、Ｌ、またはＭの実行中および段階Ｎの前であればいつでも、電話スクリーニングモードを非アクティブ化することができる。電話スクリーニングモードを無効にすることによって、コンピューティングデバイス３１０は、着信者３０４によって行われた発話のオーディオデータを音声間変換サーバ３１２に送信するのではなく、着信者３０４によって行われた発話のオーディオデータをコンピューティングデバイス３１８に送信するようになる。一部の実装形態では、コンピューティングデバイス３１０は、コンピューティングデバイス３１０が、別のボイスに変換するために、その後受信された発話のオーディオデータを音声間変換サーバ３１２に送信しないことを示す標示を、音声間変換サーバ３１２に提供する。

段階Ｏで、電話スクリーニングが非アクティブな状態で、コンピューティングデバイス３１０は、オーディオデータ３３６をコンピューティングデバイス３１８に送信する。このオーディオデータ送信は、コンピューティングデバイス３１０およびコンピューティングデバイス３１８と同様のコンピューティングデバイスを使用する２人のユーザ間の典型的なボイス会話中に発生するオーディオデータ送信と同様であり得る。

段階Ｐでは、コンピューティングデバイス３１８は、コンピューティングデバイス３１８のスピーカーまたは他のオーディオ出力デバイスを介して、発話３３８を出力する。図３の例では、コンピューティングデバイス３１８は、「こんにちは、アリス。ボブです（ＨｉＡｌｉｃｅ．ＴｈｉｓｉｓＢｏｂ）」との発話３３８を出力する発話３３８のボイスは、着信者３０４のボイスである。発信者３０８は、電話をスクリーニングした人が電話を着信者３０４に転送し、発信者３０８が電話全体の間、着信者３０４と話していなかったという印象を受けている可能性が高い。

図４は、音声認識を実行せずに、ユーザから受信した音声オーディオを合成音声オーディオに変換するための例示的なプロセス４００のフローチャートである。一般に、プロセス４００は、ユーザによって話された発話のオーディオデータを受信する。プロセス４００は、発話のオーディオデータをモデルに適用することにより、発話のオーディオデータを別のボイスの別の発話のオーディオデータに変換する。別のボイスは、実際の人のように聞こえる合成ボイスである。別のボイスで他の発話を聞いている人は、元のユーザが別のボイスに変換する前に発話を行ったことに気付かない場合がある。プロセス４００は、受信されたオーディオデータに対して音声認識を実行することなく、異なるボイスにおける他の発話のオーディオデータを生成する。プロセス４００は、他の発話のオーディオデータを異なるボイスで出力する。プロセス４００は、１つまたは複数のコンピュータを含むコンピュータシステム、例えば、図１のシステム１００、図２のシステム２００、または図３のシステム３００によって実行されるものとして説明される。

システムが、ユーザによって話された１つまたは複数の第１の語からなる第１の発話の第１のオーディオデータを受信する（４１０）。ユーザは、ユーザの典型的なボイスで話す場合がある。一部の実装形態では、ユーザは、電話に応えながら第１の発話を行う。一部の実装形態では、ユーザは、電話に応える前に、システムの電話スクリーニング機能をアクティブにすることができる。

システムが、第１のボイスで話された１つまたは複数の所与の第１の語からなる所与の第１の発話の所与の第１のオーディオデータを受信し、所与の第１のオーディオデータに対して音声認識を実行せずに、合成ボイスで話される１つまたは複数の所与の第１の語からなる所与の第２の発話の所与の第２のオーディオデータを出力するように構成されるモデルへの入力として第１のオーディオデータを提供する（４２０）。モデルは、エンコーダを使用して、第１のオーディオデータを、オーディオデータを表す一連のベクトルにエンコードすることができる。ベクトルは、第１の音声データの転写とは異なる場合がある。モデルは、デコーダを使用して、出力されるオーディオデータを生成することができる。デコーダは、ベクトルを、ユーザのボイスとは異なるボイスの合成音声に変換するように構成されてよい。一部の実装形態では、モデルは、第１の発話の第１のオーディオデータの転写を省略する。

システムは、モデルへの入力として第１のオーディオデータを提供することに応じて、合成ボイスで話される１つまたは複数の第１の語からなる第２の発話の第２のオーディオデータを受信する（４３０）。一部の実装形態では、第１の発話における１つまたは複数の第１の語のそれぞれの発言時間は、第２の発話における１つまたは複数の第１の語のそれぞれの発言時間とは異なる場合がある。一部の実装形態では、第１の発話における１つまたは複数の第１の語のそれぞれの間の期間は、第２の発話における１つまたは複数の語のそれぞれの間の期間とは異なる場合がある。

システムは、出力のために、合成ボイスで話される１つまたは複数の第１の語からなる第２の発話の第２のオーディオデータを提供する（４４０）。システムは、第２のオーディオデータをスピーカーまたは他のオーディオ出力デバイスに出力することができる。別のユーザが第２の発話を聞いて、元のユーザが第１の発話を話したことに気付いていない可能性がある。システムがモデルを使用して第２の発話のオーディオデータを生成した場合でも、第２の発話は実際の人のボイスのように聞こえる場合がある。一部の実装形態では、合成ボイスは、発言者が男性であるか女性であるかを聴取者が判断できないような、性別に中立な性質を持っている可能性がある。性別に中立な合成ボイスのピッチは、女性の合成ボイスのピッチと男性の合成ボイスのピッチの平均である可能性がある。

一部の実装形態では、システムは、異なるユーザから発話を受信する場合がある。システムは、異なるユーザからの発話のオーディオデータをモデルに適用することができる。モデルは、同じ合成ボイスで合成発話のオーディオデータを出力することができる。言い換えれば、モデルは、異なる人々によって話された発話のオーディオデータを同じ合成ボイスの発話に変換するように構成され得る。

一部の実装形態では、システムは、システムおよび他のシステムによって受信された発話のコレクションを使用してモデルを訓練することができる。システムは、複数の発話からなるコレクションにおける各発話の転写を取得する。システムは、自動音声認識を使用して、または手動の転写によって、転写を生成してもよい。システムは、合成ボイスで合成発話を生成する音声シンセサイザまたはテキスト読み上げモデルに各転写を提供する。システムは、機械学習、発話の収集、および対応する合成発話を使用してモデルを訓練する。訓練されたモデルは、ユーザによって話された発話を受信することに基づいて、同じ合成ボイスで合成発話を生成するように構成されている。訓練されたモデルは、合成発話を生成するために音声認識を使用しない。

一部の実装形態では、システムは、ユーザとのボイス会話を行うように構成された自動エージェントまたはボットの一部である場合がある。ユーザは、コンピュータと話すのではなく、生きている人と話しているという印象を受ける可能性がある。自動エージェントは、自動エージェントがユーザから受信する可能性のあるすべての発話に対して適切な応答を生成できない場合がある。この場合、オペレータは、自動エージェントがユーザの発話に対する応答を生成して会話を継続できるように割り込むべく待機している可能性がある。システムは、ユーザがまだ同じ人と話しているという印象をユーザが受けるように、オペレータのボイスを変更する（ｄｉｓｇｕｉｓｉｎｇ）のを支援することができる。システムは、オペレータのボイスを自動エージェントのボイスに変換して、これによって、オペレータが自動エージェントの代わりに応答を生成した場合でも、ユーザが同じボイスを聞くことができるようにすることができる。

より詳細には、本明細書では、中間の離散表現を使用せずに、入力スペクトログラムを別のスペクトログラムに直接マッピングするエンドツーエンドの音声間モデルについて説明する。ネットワークは、エンコーダ、スペクトログラムデコーダ、音素デコーダで構成され、その後にボコーダーが続き、時間領域の波形を合成する。このモデルは、訛り、感情、複雑な韻律パターン、欠陥、および背景ノイズを含む音声に係る発言者からの音声であっても、固定アクセントと一貫したアーティキュレーションと韻律を備えたクリーンな単一の事前定義されたターゲット発言者のボイスに正規化するように訓練される。本明細書では、このアプローチが音声認識のパフォーマンスに与える影響について説明する。さらに、本明細書は、同じアーキテクチャを音声分離タスクでトレーニングできることを示している。一部の実装形態では、エンドツーエンドのスピーチツー音声モデルは、スペイン語の音声を英語の合成音声に変換できる。

アテンション付きのエンコーダ－デコーダモデルは、さまざまな複雑なシーケンスツーシーケンス問題のモデリングに使用できる。これらのモデルは、機械翻訳、音声認識、複合音声翻訳などの音声および自然言語処理に使用されてよい。モデルは、実質的に未処理の入力が与えられた場合に、ターゲットシーケンスを直接生成する単一のニューラルネットワークを使用して、エンドツーエンドのテキスト読み上げ（ＴＴＳ）合成および自動音声認識（ＡＳＲ）で使用することもできる。

本明細書では、最先端の音声認識モデルと合成モデルを組み合わせて、中間の離散表現に依存することなく、様々な入力スペクトログラムの関数として音声スペクトログラムを生成する直接的なエンドツーエンドの音声から音声へのシーケンストランスデューサを構築する方法について説明する。このモデルは、最初に、ボイスの正規化および音声分離タスクに適用される。このモデルは、ある言語を別の言語に、たとえばスペイン語の音声から英語の音声に、直接翻訳するために使用されてよい。

一部の実装形態では、統一化されたシーケンスツーシーケンスモデルは、バックグラウンドノイズを含む可能性のある任意の音声を正規化し、事前定義された単一のターゲット発言者のボイスで同じコンテンツを生成できる。ソース音声は、任意の訛りのまたは発言者からのものであり、複雑な韻律パターン、欠陥、およびバックグラウンドノイズが含まれている可能性があり、これらはすべて、固定された訛りと一貫したアーティキュレーションと韻律を備えたクリーンな信号に変換される。タスクは、発言者の特性を含むすべての非言語情報を除外し（ｐｒｏｊｅｃｔａｗａｙ）、誰が、どのように、どこで話したかではなく、言ったことのみを保持することができる。

そのような正規化システムには、複数の潜在的な用途がある。ボイスをクリーンなオーディオの単一の発言者に完全に正規化すると、ＡＳＲモデルが簡素化され、単一の発言者をサポートするだけでよい。発言者の識別情報を除去すると、機密性の高いプライベートな音声データをログに記録するときに役立つ場合があり、これにより、ユーザは変換された音声のみをサーバに送信できる（「音響」識別情報は消去）。すべての訛りを事前定義された訛りの単一のボイスにすると、たとえば採用委員会に与えられる録音された候補者の話または電話インタビューなどの音響的にマスクされたオーディオとは対照的に、自然な人間のボイスを維持しながら、偏見や差別を軽減することもできる。別の用途は、聞き手にとって異質な訛りの音声内容の理解を容易にすること、例えば、訛りの強い音声の理解し易さを改善することであろう。

一部の実装形態では、ボイス変換には、マッピングコードブック、ニューラルネットワーク、動的周波数ワーピング、およびガウス混合モデルの使用が含まれる場合がある。これらの手法では、入力発言者の音声のみが変更される場合がある。一部の実装形態では、ボイス変換には、訛り変換が含まれる場合がある。本明細書で説明されているモデルは、すべての発言者を単一のボイスと訛りに正規化し、韻律を正規化し、ターゲット信号を直接生成するエンドツーエンドのニューラルアーキテクチャを使用する場合がある。一部の実装形態では、ボイス変換は、フィルタリングおよび／または変換ベースのアプローチである可能性がある。

エンドツーエンドのシーケンスツーシーケンスモデルアーキテクチャは、入力ソース音声を受信し、出力としてターゲット音声を生成／合成する。一部の実装形態では、このようなモデルの唯一の訓練要件は、ペアの入出力音声発話の対訳コーパスである。

図５に示すように、ネットワークは、アテンション付きのエンコーダとデコーダで構成され、その後にボコーダーが続き、時間領域の波形を合成する。エンコーダは、音響フレームのシーケンスを、スペクトログラムを予測するためにデコーダが使用する（ｃｏｎｓｕｍｅｓ）隠れ特徴表現に変換する。一部の実装形態では、このモデルのコアアーキテクチャには、アテンションベースのエンドツーエンドＡＳＲモデルおよび／またはエンドツーエンドＴＴＳモデルが含まれる。

ベースエンコーダ構成は、他のエンコーダと同様である場合があるが、以下で説明するように、いくつかのバリエーションがある。１６ｋＨｚでサンプリングされた例示的入力音声信号から、エンコーダは、ハンウィンドウ、５０ミリ秒のフレーム長、１２．５ミリ秒のフレームシフト、および１０２４ポイントの短時間フーリエ変換（ＳＴＦＴ）を使用して計算された、１２５～７６００Ｈｚの範囲にわたる８０次元のログメルスペクトログラム音響特徴フレームを抽出できる。

この例では、入力フィーチャは、ＲｅＬＵ活性化を使用して２つの畳み込み層のスタックに渡され、それぞれが３２個のカーネルで構成され（時間ｘ周波数で３ｘ３）、２ｘ２でストライドし、時間で４のトータルファクタでダウンサンプリングし、これにより、次のレイヤーの計算を減らす。バッチ正規化は、各レイヤーの後に適用される。

結果として得られるダウンサンプリングされたシーケンスは、１ｘ３フィルターを使用して双方向畳み込みＬＳＴＭ（ＣＬＳＴＭ）レイヤーに渡され、例えば、各タイムステップ内で周波数軸全体でのみ畳み込みを行う。最後に、これは、各方向にサイズ２５６の３つの双方向ＬＳＴＭレイヤーのスタックに渡され、５１２次元の線形射影でインターリーブされ、続いて、バッチ正規化とＲｅＬＵ活性化を行い、最終的な５１２－ｄｉｍエンコーダ表現を計算する。

一部の実装形態では、デコーダのターゲットは１０２５次元のＳＴＦＴの大きさであり、入力フィーチャと同じフレーミングである２０４８ポイントのＳＴＦＴで計算される。
システムは、自己回帰ＲＮＮで構成されるデコーダネットワークを使用して、エンコードされた入力シーケンスから一度に１フレームずつ出力スペクトログラムを予測する。前のデコーダのタイムステップからの予測は、最初に２５６ＲｅＬＵユニットの２つの完全に接続されたレイヤーを含む小さなプリネットを通過し、これは、アテンションの学習に役立つ場合がある。プレネット出力とアテンションコンテキストベクトルは連結され、１０２４ユニットの２つの単方向ＬＳＴＭレイヤーのスタックを通過する場合がある。次に、ＬＳＴＭ出力とアテンションコンテキストベクトルの連結が線形変換によって投影され、ターゲットスペクトログラムフレームの予測が生成される。最後に、これらの予測は、最初の予測に追加する残余を予測する５層の畳み込みポストネットを通過する。各ポストネットレイヤーには、５ｘ１の形状の５１２個のフィルターがあり、その後にバッチ正規化とｔａｎｈ活性化が続く。

予測されたマグニチュードスペクトログラムからオーディオ信号を合成するために、システムはグリフィンリム（Ｇｒｉｆｆｉｎ－Ｌｉｍ）アルゴリズムを使用して、予測されたマグニチュードと一致する位相を推定し、続いて逆ＳＴＦＴを使用する。一部の実装形態では、ウェーブネット（ＷａｖｅＮｅｔ）などのニューラルボコーダーは、合成品質を向上させる可能性がある。一部の実装形態では、ウェーブネット（ＷａｖｅＮｅｔ）はグリフィンリム（Ｇｒｉｆｆｉｎ－Ｌｉｍ）に取って代わる可能性がある。

一部の実装形態では、システムは、任意のオーディオの代わりに音声サウンドを生成するように構成できる。基礎となる言語の高レベルの表現を同時に学習するようにエンコーダネットワークを共同で訓練することは、スペクトログラムデコーダの予測を同じ基礎となる音声コンテンツの表現にバイアスするのに役立つ。エンコーダの潜在表現を条件として、出力音声の転写（書記素または音素）を予測するために、補助ＡＳＲデコーダを追加することができる。このようなマルチタスクで訓練されたエンコーダは、基礎となる転写に関する情報を維持する入力の潜在的表現を学習するものと考えることができ、たとえば、ＴＴＳシーケンス間ネットワーク内で学習された潜在的表現に近いものと言える。

一部の実装形態では、デコーダ入力は、前のタイムステップで放出された書記素の６４次元埋め込みと、５１２次元のアテンションコンテキストベクトルを連結することによって作成される。これは、２５６ユニットのＬＳＴＭレイヤーに渡される。最後に、アテンションコンテキストとＬＳＴＭ出力の連結は、出力語彙の各書記素を放出する確率を予測するソフトマックス層に渡される。

音声から音声へのモデルを使用して、任意の発言者からの音声を変換して、事前定義された正規発言者の音声を使用することができる。上述したように、システムには、さまざまな発言者と録音条件にまたがる発話の対訳コーパスが必要な場合があり、それぞれが正規の発言者からの音声にマッピングされる。クリーンな音響環境で１人の発言者の数時間の発話を録音することは実用的でない場合があるため、ＴＴＳシステムを使用して、大きな手または機械で転写された音声コーパスから訓練ターゲットを生成できる。基本的に、これにより、シングルスピーカーＴＴＳシステムのボイスで入力音声を再生するタスクが軽減される。ＴＴＳシステムを使用してこの対訳コーパスを生成することには次の複数の利点がある。（１）オーディオは、標準言語を使用して、事前定義された単一の発言者および訛りで話される。（２）バックグラウンドノイズはない。（３）非流暢性のない高品質の発音を使用する。（４）大規模なコーパスにスケーリングするために必要に応じて大量のデータを合成する。

本明細書では、中間のシンボリック表現を使用せずに、入力スペクトログラムを別のスペクトログラムに直接変換するエンドツーエンドの音声間モデルについて説明する。モデルは、任意の発言者からの発話を単一の事前定義された発言者のボイスに正規化し、言語コンテンツを保持し、非言語コンテンツを除外（ｐｒｏｊｅｃｔｉｎｇａｗａｙ）するように訓練される。一部の実装形態では、同じモデルをトレーニングして、重複する音声が混在する中で最も声の大きな発言者を正常に識別、分離、および再構築できるため、ＡＳＲのパフォーマンスが向上する。場合によっては、モデルはある言語の音声を別の言語の音声に直接翻訳することがある。

発言者の識別情報を保持することが目標であるタスクの場合、ＴＴＳ合成を活用して、ターゲットの発言者の識別情報にバリエーションを導入することができ、例えば、元の発言者と一致させ、発言のスタイルまたは韻律を直接制御する。このようなテクノロジーは、発言者の識別情報を維持するがニュートラルな韻律を適用する正規化モデルの訓練ターゲットを合成するために使用でき、逆もまたしかりであり、発言者の識別情報を正規化するが入力音声の韻律を維持するものも可能である。

図６は、本明細書に記載した技術を実装するために使用され得るコンピューティング装置６００およびモバイルコンピューティング装置６５０の例を示す。コンピューティング装置６００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すよう意図されている。モバイルコンピューティング装置６５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティング装置等、様々な形態のモバイル装置を表すよう意図されている。本明細書に示された構成要素、構成要素の接続および関係、ならびに構成要素の機能は、例示的であることのみを意図されており、限定的であることは意図されていない。

コンピューティング装置６００は、プロセッサ６０２、メモリ６０４、記憶装置６０６、メモリ６０４および複数の高速拡張ポート６１０に接続する高速インタフェース６０８、ならびに低速拡張ポート６１４および記憶装置６０６に接続する低速インタフェース６１２を含む。プロセッサ６０２、メモリ６０４、記憶装置６０６、高速インタフェース６０８、高速拡張ポート６１０、および低速インタフェース６１２の各々は、様々なバスを介して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実装されてよい。プロセッサ６０２は、高速インタフェース６０８に接続されたディスプレイ６１６等の外部入力／出力装置にＧＵＩのグラフィック情報を表示するために、メモリ６０４または記憶装置６０６に記憶された命令を含む、コンピューティング装置６００内で実行するための命令を処理することが可能である。他の実装においては、複数のメモリおよび種類のメモリとともに、必要に応じて複数のプロセッサおよび／または複数のバスが使用されてよい。また、複数のコンピューティング装置が接続され、各装置が必要な動作の一部を提供してよい（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ６０４は、コンピューティング装置６００内の情報を記憶する。いくつかの実装においては、メモリ６０４は、単数または複数の揮発性メモリユニットである。いくつかの実装においては、メモリ６０４は、単数または複数の不揮発性メモリユニットである。メモリ６０４は、磁気ディスクまたは光学ディスク等の別の形態のコンピュータ可読媒体であってもよい。

記憶装置６０６は、コンピューティング装置６００に大容量記憶を提供することができる。いくつかの実装においては、記憶装置６０６は、フロッピー（登録商標）ディスク装置、ハードディスク装置、光学ディスク装置、またはテープ装置、フラッシュメモリ、もしくは他の同様のソリッドステートメモリ装置等のコンピュータ可読媒体、またはストレージエリアネットワークもしくは他の構成における装置を含む装置のアレイであるか、もしくはそれを含んでよい。命令は情報担体に記憶されてよい。命令は、１つまたは複数の処理装置（例えば、プロセッサ６０２）によって実行されると、上記のような１つまたは複数の方法を実行する。命令は、コンピュータ可読媒体または機械可読媒体（例えば、メモリ６０４、記憶装置６０６、またはプロセッサ６０２上のメモリ）等の１つまたは複数の記憶装置に記憶されてもよい。

高速インタフェース６０８は、コンピューティング装置６００の帯域幅集中型の動作を管理する一方、低速インタフェース６１２は、より低帯域幅集中型の動作を管理する。このような機能の割り当ては一例に過ぎない。いくつかの実装形態では、高速インタフェース６０８は、メモリ６０４、ディスプレイ６１６（例えば、グラフィックプロセッサまたはアクセラレータを通じて）、および様々な拡張カード（図示せず）を受け得る高速拡張ポート６１０に接続される。実装において、低速インタフェース６１２は、記憶装置６０６および低速拡張ポート６１４に接続される。低速拡張ポート６１４は、種々の通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、無線イーサネット）を含んでよく、例えばネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナー、または、スイッチまたはルータ等のネットワーク装置等の、１つまたは複数の入力／出力装置に接続されてもよい。

コンピューティング装置６００は、図に示すように、多くの異なる形態で実装されてよい。例えば、標準のサーバ６２０として、またはそのようなサーバのグループに複数回実装されてよい。また、ラップトップコンピュータ６２２等のパーソナルコンピュータに実装されてよい。また、ラックサーバシステム６２４の一部として実装されてもよい。あるいは、コンピューティング装置６００からの構成要素は、モバイルコンピューティング装置６５０等のモバイル装置（図示せず）内の他の構成要素と組み合わされてよい。そのような装置のそれぞれは、コンピューティング装置６００およびモバイルコンピューティング装置６５０のうちの１つまたは複数を含んでよく、システム全体は、互いに通信する複数のコンピューティング装置で構成されてよい。

モバイルコンピューティング装置６５０は、構成要素の中でも特に、プロセッサ６５２、メモリ６６４、ディスプレイ６５４等の入力／出力装置、通信インタフェース４６、送受信機６６８を含む。モバイルコンピューティング装置６５０は、追加のストレージを提供するために、マイクロドライブまたは他の装置等の記憶装置を備えてもよい。プロセッサ６５２、メモリ６６４、ディスプレイ６５４、通信インタフェース６６６、および送受信機６６８は、様々なバスを介して各々に相互接続され、複数の構成要素は、共通のマザーボード上に、または必要に応じて他の方法で実装されてよい。

プロセッサ６５２は、メモリ６６４に記憶された命令を含む、モバイルコンピューティング装置６５０内の命令を実行することができる。プロセッサ６５２は、別個で複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装されてよい。プロセッサ６５２は、例えば、ユーザインタフェースス、モバイルコンピューティング装置６５０によって実行されるアプリケーション、およびモバイルコンピューティング装置６５０による無線通信の制御等、モバイルコンピューティング装置６５０の他の構成要素の調整を提供してよい。

プロセッサ６５２は、ディスプレイ６５４に接続された制御インタフェース６５８およびディスプレイインタフェース６５６を通じてユーザと通信してよい。ディスプレイ６５４は、例えば、ＴＦＴ（薄膜トランジスタ液晶ディスプレイ）ディスプレイ、ＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってよい。ディスプレイインタフェース６５６は、ディスプレイ６５４を駆動してグラフィックおよび他の情報をユーザに提示するための適切な回路を含んでよい。制御インタフェース６５８は、ユーザからコマンドを受け取り、プロセッサ６５２に供給するために、コマンドを変換してよい。さらに、外部インタフェース６６２は、プロセッサ６５２との通信を提供して、モバイルコンピューティング装置６５０と他の装置との近領域通信を可能にしてよい。外部インタフェース６６２は、例えば、いくつかの実装では有線通信を提供し、他の実装では無線通信を提供してよく、複数のインタフェースを使用してもよい。

メモリ６６４は、コンピューティング装置６５０内の情報を記憶する。メモリ６６４は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットの１つまたは複数として実装することができる。拡張メモリ６７４が提供され、拡張インタフェース６７２を介してモバイルコンピューティング装置６５０に接続されてよい。拡張インタフェース６７２は、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインタフェースを含んでよい。拡張メモリ６７４は、モバイルコンピューティング装置６５０に余分な記憶領域を提供してよく、またはモバイルコンピューティング装置６５０のアプリケーションまたは他の情報を記憶してもよい。具体的には、拡張メモリ６７４は、上述のプロセスを実行または補完する命令を含んでよく、保安情報を含んでもよい。したがって、例えば、拡張メモリ６７４は、モバイルコンピューティング装置６５０のセキュリティモジュールとして提供されてよく、モバイルコンピューティング装置６５０の安全な使用を可能にする命令でプログラムされてよい。さらに、ＳＩＭＭカードを介して、ハッキング不能な方法でＳＩＭＭカードに識別情報を配置する等の追加情報とともに、保安アプリケーションが提供されてよい。

メモリは、以下で検討されるように、例えば、フラッシュメモリおよび／またはＮＶＲＡＭメモリ（不揮発性ランダムアクセスメモリ）を含んでよい。いくつかの実装においては、命令は、情報担体に記憶される。命令は、１つまたは複数の処理装置（例えば、プロセッサ６５２）によって実行されると、上記のような１つまたは複数の方法を実行する。命令は、１つまたは複数のコンピュータ可読媒体または１つまたは複数の機械可読媒体（例えば、メモリ６６４、拡張メモリ６７４、またはプロセッサ６５２上のメモリ）等の１つまたは複数の記憶装置に記憶されてもよい。いくつかの実装においては、命令は、例えば送受信機６６８または外部インタフェース６６２を通じて、伝搬信号で受信することができる。

モバイルコンピューティング装置６５０は、必要に応じてデジタル信号処理回路を含み得る通信インタフェース６６６を通じて無線で通信してよい。通信インタフェース６６６は、特に、ＧＳＭ（登録商標）音声通話（モバイル通信用グローバルシステム）、ＳＭＳ（ショートメッセージサービス）、ＥＭＳ（エンハンストメッセージングサービス）、ＭＭＳメッセージング（マルチメディアメッセージングサービス）、ＣＤＭＡ（符号分割多元接続）、ＴＤＭＡ（時分割多元接続）、ＰＤＣ（パーソナルデジタルセルラ）、ＷＣＤＭＡ（登録商標）（広帯域符号分割多元接続）、ＣＤＭＡ２０００、またはＧＰＲＳ（汎用パケット無線サービス）等、様々な態様またはプロトコルの下で通信を提供してよい。このような通信は、例えば、無線周波数を使用する送受信機６６８を通じて行われてよい。加えて、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ（登録商標）、または他のそのような送受信機（図示せず）の使用等により、近距離通信が発生してよい。加えて、ＧＰＳ（全地球測位システム）受信機モジュール６７０は、モバイルコンピューティング装置６５０上で実行されるアプリケーションにより適宜使用され得る、追加的なナビゲーションおよび位置関連の無線データをモバイルコンピューティング装置６５０に提供してよい。

モバイルコンピューティング装置６５０は、オーディオコーデック６６０を使用して可聴的に通信してよく、オーディオコーデック６６０は、ユーザから口頭の情報を受信し、それを使用可能なデジタル情報に変換してよい。オーディオコーデック６６０は、同様に、例えば、モバイルコンピューティング装置６５０のハンドセット内のスピーカー等を通じて、ユーザに可聴音を生成してよい。このような音は、音声通話の音を含んでよく、録音された音（例えば、音声メッセージ、音楽ファイル等）を含んでよく、モバイルコンピューティング装置６５０上で動作するアプリケーションによって生成される音を含んでもよい。

モバイルコンピューティング装置６５０は、図に示すように、多くの異なる形態で実装されてよい。例えば、モバイルコンピューティング装置６５０は、携帯電話６８０として実装されてよい。モバイルコンピューティング装置６５０は、スマートフォン６８２、携帯情報端末、または他の同様のモバイル装置の一部として実装されてもよい。

本明細書で説明するシステムおよび技法のさまざまな実装は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実装は、記憶装置、１つ以上の入力装置、および１つ以上の出力装置に対してデータおよび命令を送信すると共にこれらからデータおよび命令を受信するよう接続された、特定目的または汎用目的の１つ以上のプログラマブルプロセッサを備えたプログラマブルシステム上で実行可能および／または翻訳可能な１つまたは複数のコンピュータプログラムでの実装を含んでよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラマブルプロセッサのための機械語命令を含み、高水準手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械語で実装することができる。本明細書で使用されるように、機械可読媒体およびコンピュータ可読媒体という語は、プログラマブルプロセッサに機械語命令及び／又はデータを供給するために使用される、機械可読信号として機械語命令を受け取る機械可読媒体を含む、任意のコンピュータプログラムプロダクト、装置及び／又はデバイス（例えば、磁気ディスク、光学ディスク、メモリ、ＰＬＤ（プログラマブルロジックデバイス））を指す。機械可読信号という語は、機械語命令および／またはデータをプログラマブルプロセッサに提供するために使用される信号を指す。

ユーザとの対話を提供するため、本明細書で説明したシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、ユーザが入力をコンピュータに提供可能なキーボードおよびポインティング装置（例えば、マウスまたはトラックボール）と、を含むコンピュータ上で実装されてよい。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）であってよく、ユーザからの入力は、音響的入力、音声的入力、または触覚的入力を含む任意の形式で取り込まれてよい。

本明細書で説明したシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を備えたコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を備えたコンピュータシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書で説明されたシステムおよび技術の実装と対話をすることが可能なグラフィカルインタフェースまたはウェブブラウザを有するクライアントコンピュータ）を備えたコンピュータシステム、または、このようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せを備えたコンピュータシステムで実施されてよい。システムの構成要素は、デジタルデータ通信（例えば、通信ネットワーク）の任意の形式または媒体によって相互接続されてよい。通信ネットワークの例は、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（ワイドエリアネットワーク）、およびインターネットを含む。一部の実装形態では、本明細書において説明するシステムおよび技術は、音声認識および他の処理がデバイス上で直接実行される組み込みシステム上に実装することができる。

コンピューティングシステムは、クライアントおよびサーバを含んでよい。クライアントとサーバは、一般には相互に離れており、典型的には通信ネットワークを通じて対話する。クライアントとサーバの関係は、各コンピュータ上で実行され、相互にクライアント・サーバ関係を有するコンピュータプログラムにより発生する。

いくつかの実装が詳細に説明されたが、他の変更も可能である。例えば、クライアントアプリケーションはデリゲートにアクセスするものとして説明されているが、他の実装では、デリゲートは、１つまたは複数のサーバで実行されるアプリケーション等、１つまたは複数のプロセッサによって実装された他のアプリケーションによって使用されてよい。さらに、図に示された論理の流れは、望ましい結果を得るために、示された特定の順序または連続した順序を必要とはしない。さらに、説明された流れに他の動作が提供されたり、または流れから除去されてよく、説明されたシステムに他の構成要素が追加されたり、またはシステムから除去されてよい。したがって、他の実装は、以下の特許請求の範囲内にある。

Claims

データ処理ハードウェア上で実行されるコンピュータにより実装される方法であって、
第１の訛りで行われた発話の特徴を示す複数のソースオーディオフレームからなるシーケンスを受信することと、
音声変換モデルのエンコーダを用いて、複数のソースオーディオフレームからなる前記シーケンスを処理することにより、前記第１の訛りで行われた前記発話の特徴を示す複数のソース内部表現からなるシーケンスを生成することと、
前記音声変換モデルのデコーダを用いて、複数のソース内部表現からなる前記シーケンスを処理することにより、前記第１の訛りとは異なる第２の訛りでの前記発話の合成音声表現の特徴を示す複数のターゲットオーディオフレームからなるシーケンスを生成することと、
コンピューティングデバイスによる出力のために、前記第２の訛りでの前記発話の前記合成音声表現を提供することと、
を含む動作を前記データ処理ハードウェアに実行させ、
前記音声変換モデルは、前記第１の訛りで行われた前記発話における語のそれぞれの間の期間を調整するように構成されており、
前記第１の訛りで行われた前記発話における前記語のそれぞれの間の前記期間は、前記第２の訛りでの前記発話における語のそれぞれの間の期間とは異なる、方法。
複数のソース内部表現からなる前記シーケンスを処理することにより、第２の訛りでの前記発話の合成音声表現を生成することは、
複数のソースオーディオフレームからなる前記シーケンスに対する音声認識を実行せずに、複数のソース内部表現からなる前記シーケンスを処理することにより、前記合成音声表現を生成することを含む、
請求項１に記載のコンピュータにより実装される方法。
複数のソースオーディオフレームからなる前記シーケンスは、複数の入力スペクトログラムからなるシーケンスを含む、
請求項１に記載のコンピュータにより実装される方法。
複数のターゲットオーディオフレームからなる前記シーケンスは、複数の出力スペクトログラムからなるシーケンスを含む、
請求項１に記載のコンピュータにより実装される方法。
前記第１の訛りで行われた前記発話の抑揚は、前記第２の訛りでの前記発話の前記合成音声表現の抑揚とは異なる、
請求項１に記載のコンピュータにより実装される方法。
前記エンコーダは、双方向長短期記憶メモリ（ＬＳＴＭ）レイヤーを含む、
請求項１に記載のコンピュータにより実装される方法。
前記デコーダは、アテンション付きのスペクトログラムデコーダを含む、
請求項１に記載のコンピュータにより実装される方法。
前記動作は、
複数の発話からなるコレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションにおける各発話の転写を取得することと、
テキストを音声にするモデルへの入力として、各発話の前記転写を提供することと、
各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションの前記オーディオデータと、合成ボイスでの複数の発話からなる追加コレクションの前記オーディオデータを使用して、前記モデルを訓練することと、を含む、
請求項１に記載のコンピュータにより実装される方法。
前記動作は、前記発話の転写を取得することを省略することを含む、
請求項１に記載のコンピュータにより実装される方法。
前記第１の訛りで行われた前記発話における前記語のそれぞれの発言時間は、前記第２の訛りでの前記発話における前記語のそれぞれの発言時間とは異なる、
請求項１に記載のコンピュータにより実装される方法。
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと、を備えるシステムであって、前記メモリハードウェアは命令を記憶し、該命令は、前記データ処理ハードウェア上で実行されたとき、
第１の訛りで行われた発話の特徴を示す複数のソースオーディオフレームからなるシーケンスを受信することと、
音声変換モデルのエンコーダを用いて、複数のソースオーディオフレームからなる前記シーケンスを処理することにより、前記第１の訛りで行われた前記発話の特徴を示す複数のソース内部表現からなるシーケンスを生成することと、
前記音声変換モデルのデコーダを用いて、複数のソース内部表現からなる前記シーケンスを処理することにより、前記第１の訛りとは異なる第２の訛りでの前記発話の合成音声表現の特徴を示す複数のターゲットオーディオフレームからなるシーケンスを生成することと、
コンピューティングデバイスによる出力のために、前記第２の訛りでの前記発話の前記合成音声表現を提供することと、
を含む動作を前記データ処理ハードウェアに実行させ、
前記音声変換モデルは、前記第１の訛りで行われた前記発話における語のそれぞれの間の期間を調整するように構成されており、
前記第１の訛りで行われた前記発話における前記語のそれぞれの間の前記期間は、前記第２の訛りでの前記発話における語のそれぞれの間の期間とは異なる、システム。
複数のソース内部表現からなる前記シーケンスを処理することにより、第２の訛りでの前記発話の合成音声表現を生成することは、
複数のソースオーディオフレームからなる前記シーケンスに対する音声認識を実行せずに、複数のソース内部表現からなる前記シーケンスを処理することにより、前記合成音声表現を生成することを含む、
請求項１１に記載のシステム。
複数のソースオーディオフレームからなる前記シーケンスは、複数の入力スペクトログラムからなるシーケンスを含む、
請求項１１に記載のシステム。
複数のターゲットオーディオフレームからなる前記シーケンスは、複数の出力スペクトログラムからなるシーケンスを含む、
請求項１１に記載のシステム。
前記第１の訛りで行われた前記発話の抑揚は、前記第２の訛りでの前記発話の前記合成音声表現の抑揚とは異なる、
請求項１１に記載のシステム。
前記エンコーダは、双方向長短期記憶メモリ（ＬＳＴＭ）レイヤーを含む、
請求項１１に記載のシステム。
前記デコーダは、アテンション付きのスペクトログラムデコーダを含む、
請求項１１に記載のシステム。
前記動作は、
複数の発話からなるコレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションにおける各発話の転写を取得することと、
テキストを音声にするモデルへの入力として、各発話の前記転写を提供することと、
各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションの前記オーディオデータと、合成ボイスでの複数の発話からなる追加コレクションの前記オーディオデータを使用して、前記モデルを訓練することと、を含む、
請求項１１に記載のシステム。
前記動作は、前記発話の転写を取得することを省略することを含む、
請求項１１に記載のシステム。
前記第１の訛りで行われた前記発話における前記語のそれぞれの発言時間は、前記第２の訛りでの前記発話における前記語のそれぞれの発言時間とは異なる、
請求項１１に記載のシステム。