JP7407580B2

JP7407580B2 - システム、及び、方法

Info

Publication number: JP7407580B2
Application number: JP2019220476A
Authority: JP
Inventors: フランチェスコネスタ; サイードモサイエブプールカスカリ
Original assignee: シナプティクスインコーポレイテッド
Priority date: 2018-12-06
Filing date: 2019-12-05
Publication date: 2024-01-04
Anticipated expiration: 2039-12-05
Also published as: CN111370014B; US11158333B2; CN111370014A; JP2020109498A; US11694710B2; US20200184985A1; US20220013134A1

Description

本出願は、２０１８年１２月６日に出願され、MULTI-STREAM TARGET-SPEECH DETECTION AND CHANNEL FUSIONと題する米国特許仮出願第６２／７７６，４２２号からの優先権を主張する。この出願全体が参照により本願に組み込まれる。

本願は、１以上の実施形態において、一般にはオーディオ処理を行うシステム及び方法に関する。より詳しくは、例えば、キーワード検出のために１以上のオーディオターゲットを検出、追跡、及び／又は、強調することに関する。

音声対話に基づくヒューマンコンピューターインターフェース（ＨＣＩ，ｈｕｍａｎ－ｃｏｍｐｕｔｅｒｉｎｔｅｒｆａｃｅｓ）は、スマートフォンや音声制御式のデバイス、音声対話を含む他のデバイスの発展に伴い、近年非常に普及し始めている。音声起動式システムでは、対話は一般に２つのステージで取得される：（ｉ）特定の起動キーワードを発言することで起動する、そして（ｉｉ）システムに処理させるための具体的な質問や音声コマンドを発言する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、一般的に自動キーワードスポッティング（ＫＷＳ，ａｕｔｏｍａｔｉｃｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ）アルゴリズムで処理される。２番目の段階は、一般に自然言語及び自動発話認識システムにより処理される。既存のシステムは、一般的に、多くの現実世界の状況で許容可能な結果を出しているが、強いノイズが存在する環境では、結果に問題がしばしば生じる。同様に、遠距離ＶｏＩＰアプリケーションでは、しばしば目的である特定のターゲット音声のみをストリーミング配信することが必要とされるが、これは大きなノイズや他の話者の干渉がある場合には困難な処理である。そのため、ＡＳＲとＶｏＩＰアプリケーションの両方について、ノイズが多い環境でのキーワードスポッティングと音声強調とが改善されたシステムと方法に対する継続的なニーズが存在する。

本開示は、ノイズが多いオーディオ信号における、例えば人の発話のようなターゲット音源を検出、追跡、及び／又は、強調するための方法、及び、システムを提供する。オーディオ処理システム、及び、方法は、マルチチャンネルオーディオ入力を受音すること及び対応するマルチチャンネルオーディオ信号を生成するように作動可能なオーディオセンサアレーと、ターゲット発話決定ロジックと、自動発話認識エンジンと、を含む。オーディオプロセッシングデバイスは、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質、及び／又は、存在の信頼性を決定するようにそれぞれが作動可能な複数の事前学習された検出エンジンを備えるマルチストリーム事前学習ターゲット発話検出生成部であって、複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、複数の重みを前記強調ターゲットストリームに適用して、強調出力信号を生成するように作動可能な融合サブシステムと、を備える。

本開示の範囲は、このセクションに参照として含まれている請求項により定義される。１以上の例についての後述する詳細な説明を考慮することで、当業者は、その追加的な利点の実現と同様に、本発明の実施形態の内容をより完全に理解し得る。最初に簡単に説明される、添付された複数枚の図が参照されよう。

本開示の側面とその利点は、以下の図面と後述の詳細な説明とを参照することでより良く理解され得る。１以上の図で示されている同様の要素を示すために、同様の参照番号が用いられるが、そこで示すものは、本開示の例を図示することを目的としているのであり、同じものに限定することを目的とはしていないことが理解されなくてはならない。図の構成要素は必ずしも正寸ではなく、本開示の原理を明確に示すことがより重視される。

図１は、１以上の実施形態に係る、マルチストリームターゲット発話スポッティングとストリーム信号融合の例を示す図である。

図２は、１以上の実施形態に係る、マルチストリームキーワードスポッティングシステムの実装例を示す図である。

図３は、１以上の実施形態に係る、キーワードスポッティングシステムの例を示す図である。

図４は、１以上の実施形態に係る、キーワードスポッティングシステムのために用いられるオーディオ処理コンポーネントの例を示す図である。

ノイズを多く含むオーディオ信号におけるターゲット音源（例えば人の発話）を検出、追跡、及び／又は、強調するための方法、及び、システムがここに開示される。本システム及び方法は、改善されたマルチストリームターゲット発話検出及びチャンネル融合を含む。

様々な実施形態では、音声起動式システムは、ユーザが（ｉ）特定の起動キーワードを発言することで起動する、そして（ｉｉ）システムに処理させるための具体的な質問や音声コマンドを発言する、ことによって作動する。最初の段階は、ノイズを多く含むオーディオ信号の中に埋もれた特定のワードを認識するように、機械学習法を用いた自動キーワードスポッティング（ＫＷＳ，ｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ）アルゴリズムで処理される。第２の段階は、一般にはクラウドサーバー上で動作する自然言語及び自動発話認識システムにより処理される。ここに開示される実施形態は、ＫＷＳに供給する前に、クラウドのＡＳＲエンジンに送る前に、又は、ＶｏＩＰアプリケーションを通じて配信する前に、オーディオ信号を事前処理する改善されたマルチチャンネル発話強調を含む。

オーディオ信号からノイズを減少するためのオンラインのマルチチャンネル発話強調技術には、音声対応デバイスのユーザビリティを改善するために本開示において取り組まれる、いくつかの概念的な限界がある。例えば、オンラインのマルチチャンネル発話強調技術は、概して、何が強調されるターゲット発話を構成するかについて明確な定義を必要とする。この定義は、音声活性検出（ＶＡＤ，ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ）により、又は、予想される音源の到達方向（ＤＯＡ，ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ）といったいくつかの幾何学的な知識を活用することで、取得し得る。ＶＡＤに基づくマルチチャンネルシステムは、一般に、発話を含まないノイズを低減させることが出来る。しかしながら、多くの状況で、ノイズ源は、テレビ又はラジオからの音声や、競合する話者の発話といった、音声活性としてとして同定される発話コンテンツを含む場合がある。一方で、幾何学的な知識に基づく強調法は、目的の話者の物理的な位置についての予備知識を必要とする。ハンズフリーな遠距離音声アプリケーションでは、この位置はしばしば未知であり、同じ環境に二人の話者がいるときには、曖昧性無く決定することは困難であり得る。オンラインのマルチチャンネル発話強調技術の他の制限は、その技術が、主として話者の位置がマイクに対して不変である場合に効果的であることである。話者の位置が大きく変化するときには、フィルタリングのパラメーターを新たな幾何学的な構成に適応させる必要があり、適用させている間に信号の品質が深刻に低下する恐れがある。

ＶＡＤに基づく強調の限界を部分的に解決する一つのアプローチは、マルチチャンネルブラインド音源分離（ＢＢＳ，ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）である。ＢＢＳ法は、何が目的のターゲット音源であるか明確な定義抜きで、出力音源信号を推定し得る。実際に、それらは、例えば３Ｄ空間における異なる物理的な位置から伝わった個別の音源といった個別の空間成分に、混合物を分解しようとするのみである。このことが、ＢＢＳに複数の話者に関連する信号を分離させることを可能にする。しかしながら、特定のアプリケーションでは、依然として何が目的となる“ターゲット”の発話であるかを事後的に定義する必要がある。

前述の問題を解決するため、マルチチャンネル音源強調／分離を並列の事前学習検出部と組合せた、目的となる特定の発話をスポットするシステム構成がここに開示される。マルチストリームが生成され、目的たる特定の信号／音源を認識するように学習された複数の検出部に供給される。そして、全てのストリームを、より検出の信頼性が高いストリームが含まれる、あるいは、優位を占める単一のストリームに組合せるために用いられる重みを生成するために、検出の尤度が用いられる。

様々な実施形態において、ここに開示されたシステム構成は、発話と重複する継続的なノイズ源が存在する状況において、ＡＳＲアプリケーションのためのＫＷＳ検出の性能を改善し得る。この状況の例として、ユーザがシステムと対話しようとしている間に継続的に大きなオーディオ信号を発するＴＶが存在する、という場合が挙げられる。本システム構成は、ターゲット発話検出の反応に応じた最適な出力信号を組合せることにより、ＡＳＲエンジンにとって最適に強調された出力信号もまた生成し得る。

図１を参照して、本願の１以上の実施形態におけるターゲット発話検出システム１００の例が図示されている。システム１００は、マルチストリーム信号生成サブシステム１０２と、マルチストリームターゲット発話検出部（ＴＳＤ，ｔａｒｇｅｔ－ｓｐｅｅｃｈｄｅｔｅｃｔｏｒ）エンジン１２０と、（ｉｉｉ）融合サブシステム１４０と、を備える。

マルチストリーム信号生成サブシステム１０２は、複数であるＮ個の異なる発話強調モジュールを備える。各発話強調モジュールは、異なる強調分離の基準を用いる。様々な実施形態では、強調分離の基準は、（ｉ）目的方向が異なるように固定されたビームフォーミング（複数）、又は、目的方向が異なるように適応するビームフォーミング（複数）のような適応空間フィルタリングアルゴリズム（複数）、（ｉｉ）例えば、遅延和ビームフォーミングやカーディオイド形状のもの等といったような、固定ビームフォーミングアルゴリズム（複数）、（ｉｉｉ）独立した音源（複数）に対応する複数の出力を作るブラインド音源分離アルゴリズム（複数）、（ｉｖ）発話の統計モデル（複数）と信号ノイズ比（ＳＮＲ，ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）追跡に基づく伝統的な単一チャンネル強調、（ｖ）非負値行列因子分解（ＮＭＦ，Ｎｏｎ－ＮｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）やニューラルネットワークに基づくような、データ駆動方式の発話強調法（複数）、及び／又は、（ｖｉ）他のアプローチ、を含む場合がある。各モジュールは、発話強調に用いられる個々のアルゴリズムに依存し得る、異なる数の出力ストリームＳ_Ｎを作っても良い。

マルチストリーム信号生成サブシステム１０２によって作られた出力ストリーム１１０（複数）は、複数の並列なＴＳＤエンジン１２２に供給される。ＴＳＤエンジン１２２は、伝統的な混合ガウスモデルと隠れマルコフモデル、及び／又は、長・短期記憶型（ＬＳＴＭ，ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）、ゲート付き再帰型ユニット（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ，ＧＲＵ）、あるいは、他のニューラルネットワークの技術といった再帰型ニューラルネットワークを含み、ターゲット発話／発話者又はキーワードスポッティング技術に基づき得る。各ＴＳＤエンジン１２２は、対応するＴＳＤエンジン１２２への入力信号が特定の学習済みターゲット発話を含むことの信頼性に相関する事後重み１２４を作るように作動可能である。いくつかの実施形態では、ＴＳＤエンジン１２２は、クリーンな発話に対してより高い事後（例えば、学習データ内のノイズ量を限定することにより）を作るようなバイアスを持つように学習される。そのため、マルチストリーム信号を生成するステージに供給される入力信号１０４（複数）が同じであるため、高い事後は、対応する入力発話信号がクリーンで歪みがない状態に近いことを暗示する。様々な実施形態では、重み１２４は、個別のＴＳＤ事後確率

を次のように標準化することで得られる。

融合サブシステム１４０は、重み１２４を用い、プログラム可能な発見的手法を適用して、出力ストリーム１１０を組合せる。組合せは、次のように信号の重み付き和で求められる。

ここで、ｆ（・）は重みの非線形関数（例えば、“ｍａｘ”演算や他のコントラスト関数）である。チャンネルの時間一致性を活用するといった、メモリを使った関数ｆ（・）を用いて、より洗練された組合せが実現可能である。例えば、いくつかのストリームの重みが互いに同じであった場合に、融合サブシステムはこの同じチャンネルの寄与度を選択するようなバイアスを持つようにされても良い。これにより、チャンネルの不連続性が低減される。いくつかの実施形態では、優先度が動的に定義され得る。

ＴＳＤエンジン１２０は、ターゲット発話検出ｄ（ｌ）のための組合せ事後を生成するように作動可能な、プログラム可能なロジックを更に備える。この事後は、次のように定義される最終検出に用いることができる。

ここで、

は出力である

に接続された検出のための検出閾値であり、

は、個々の検出から組合せ検出を計算する関数であり、論理演算子の組合せであると理解され得る。組合せ出力ｙ（ｌ）と組合せ検出ｄ（ｌ）とは、クラウド、ネットワークサーバー、又は、他のホストシステムで実装され得る自動発話認識エンジン１５０に供給される。

前述の観点では、本開示の１以上の実施形態は、マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように構成されたターゲット発話強調エンジンと、ストリームの中の特定のターゲット発話の品質の信頼性、及び／又は、存在の信頼性を決定するようにそれぞれが構成された複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であって、強調ターゲットストリームに関する複数の重みを決定するように構成されたマルチストリームターゲット発話検出生成部と、複数の重みを強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように構成された融合サブシステムと、を備えるシステムを含む。

本システムは、人間の発話と環境ノイズとを感知し、対応するマルチチャンネルオーディオ入力信号を生成するように構成されたオーディオセンアレーを更に備えても良い。いくつかの実施形態では、ターゲット発話強調エンジンが、マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれ構成された、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び／又は、ニューラルネットワークを備える複数の発話強調モジュールを備える。いくつかの実施形態では、ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び／又は、ニューラルワーク、を備え、入力オーディオストリームが特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように構成される。

図２を参照して、システムの可能な特定の実装の例がここに説明される。図示された例は、特定の発話キーワードを含み、かつ、発話の品質が最も良いストリームを選択することを目的とする事例に対応する。キーワードスポッティングシステム２００は、マルチストリーム信号生成サブシステム２０２と、マルチストリームＫＷＳ（ＭＳＫＷＳ，ＭｕｌｔｉＳｔｒｅａｍＫＷＳ）エンジン２２０と、（ｉｉｉ）融合サブシステム２４０と、を備える。マルチストリーム信号生成サブシステム２０２は、複数の発話強調モジュール２０２ａ―ｇを備える。各発話強調モジュールは異なる強調分離の基準を用いる。マルチストリーム信号生成サブシステム２０２により生成された出力ストリーム２１０は、複数の並列のＫＷＳエンジン２２２ａ―ｈに供給される。各ＫＷＳエンジン２２２ａ－ｈは、ＫＷＳエンジン２２２ａ－ｈに対応する入力信号に特定のターゲットキーワードが含まれることの信頼性に相関する、対応する事後重みである

を作るように作動可能である。

融合サブシステム２４０は、信号重みである

を用い、出力ストリーム２１０を組合わせて、組合せ出力ｙ（ｌ）を作るようにプログラムされている。ＭＳＫＷＳエンジン２２０は、ＫＷＳ検出ｄ（ｌ）のための組合せ事後を作るように作動可能なプログラム可能なロジック２２４を更に備える。組合せ出力ｙ（ｌ）と検出ｄ（ｌ）はその後、更なる処理のために自動発話認識エンジンへ供給される。

この例では、４つの異なる“強調”アルゴリズムのカテゴリーが定義されている。第１のカテゴリーは、予め定められた異なる方向に指向されたビームフォーマー（強調ブロック２０２ａ、２０２ｂ、２０２ｃ、及び、２０２ｄ）を用いて４つの強調出力ストリームを作る。各ビームフォーマーは、指向された方向に単一のゲインを維持する間、ノイズを抑制するために複数の入力信号を組合わせる。ビームフォーマーのアルゴリズムは、遅延和（Ｄ＆Ｓ，ＤｅｌａｙａｎｄＳｕｍ）のような固定フィルタアンドサム、又は、最小分散無歪応答（ＭＶＤＲ，ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ)のような適応アルゴリズムであってよい。

第２のカテゴリーは、方向θ（ｌ）に指向された適応ビームフォーマー（強調ブロック２０２ｅ）に代表される。この方向は入ってくるデータによりオンラインで適応される。例えば、音声活性検出（ＶＡＤ，ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ）が方向θ（ｌ）の更新に用いられる。θ（ｌ）は更に、ビデオキャプチャー、活性超音波イメージング、ＲＦＩＤ勾配マップ、等といった他のマルチモーダル信号から取得され得る。この強調アルゴリズムの目的は、θ（ｌ）の推定が信頼できる場合に、より正確な出力信号を供給することである。このカテゴリーは、複数の方向θ（ｌ）が取得可能である場合に、より多くの出力ストリームを生成可能であることに注意されたい。例えば、複数の音源を追跡するためのシステムは、最も優位な音源の角度方向と仰角とを推測することが出来る。適応ビームフォーミングは、その後、それらの方向（複数）で強調されたストリームを複数生成し得る。しかし、システムのユーザの発話を含むストリームはただ一つであり得る。強調された信号それ自体は、ＭＶＤＲ又は広義固有値（又は最大ＳＮＲ）ビームフォーマーにより取得され得る。

第１及び第２カテゴリーのアルゴリズムに関しては空間手がかりが用いられるが、第３のカテゴリーはいかなる空間的手がかりにも依存しない強調方法（例えば、信号チャンネル強調ブロック２０２ｆ）に代表される。この方法は、単一チャンネルの観測から取得され得るノイズのスペクトラル統計量のみを推定し、任意のノイズを強調することを目的とし得る。この方法は、従来のデータ非依存ＳＮＲに基づく発話強調（例えば、ウイナーフィルタリング）、又は、データ依存若しくはモデルベースアルゴリズム（例えば、ディープニューラルネットワーク又はＮＭＦによるスペクトラムマスク推定）により実現され得る。

第４のカテゴリーは、入力（複数）を統計的に独立な出力ストリーム（複数）に分解するＢＳＳアルゴリズム（２０２ｇ）に代表される。この方法は、ターゲット発話をノイズ又は他の干渉発話源から分離するものであり、独立ベクトル分析、独立成分分析、マルチチャンネルＮＭＦ、深層クラスタリング、又は、教師なし音源分離のための他の方法、をとして実装され得る。

図示された実施形態では、強調の４つの異なるカテゴリーは、異なる現実の条件における異なる特定の動作でそれぞれに特徴づけられるように選択される。例えば、第１のカテゴリーにおける出力信号は、ユーザが、指向の方向に位置し、反響音が無視できる場合に、良好な出力信号を生成することが期待される。しかし、状況が適合しない場合には出力は目立って破壊される。一方で、第２のカテゴリーのアプローチでは、それらがデータにより更新されるにつれ、真なる音源の方向に適応することができる。一方で、ノイズがターゲット発話と同方向に位置する場合、指向性のビームフォーミングと比較して、ＢＢＳに基づく第４の方法がより良い分離されたストリームを供給し得る。同時に、音源が移動している、又は、断続的に活動する場合、指向性又はＢＢＳフィルター推定を用いると本質的な不確実性が存在し得る。これらの状況では、音源の空間情報に完全に非依存であるため、第３のカテゴリーにより供給される信号が、より信頼性が高くなりえる。

互いに直交するカテゴリー（複数）に属する技術（複数）により生成された出力ストリームを有することにより、システムは、観測された特定のシナリオにとって最適な出力ストリームを少なくとも１つ作ることが出来る。最終検出を生成し、かつ、自然言語ＡＳＲエンジンに送信される組合せ出力を生成するように、ＫＷＳエンジンが全てのストリームに適用されても良い。この例では、最大（正規化）検出事後重みを有するストリームが次のように選択される。

さらに、図示された実施形態の最終検出の状態が、全ての個別のトリガー検出の組合せ論理ＯＲとして決定される。図２で示されたシステムは、図１や本明細書の他の場所で示された一般的な構成の範囲をより良く理解するために例示されたものであり、他のシステムの実装も本開示の範囲に含まれることが理解され得る。図示されたシステムでは、改善されたＫＷＤ検出とＡＳＲアプリケーションのためのチャンネル選択とを対象としているが、他の実施形態ではここで開示された構成が他のアプリケーションに変更され得る。例えば、図２で示されたようなＫＷＳエンジンを用いる代わりに、発話活性を予測し、又は、平均ＳＮＲに関連する正規化スコアを生成して信号の品質を予測し、そして、ボイスオーバーＩＰ（ＶｏＩＰ，Ｖｏｉｃｅ－ｏｖｅｒ－ＩＰ）アプリケーションのために使用可能な結合チャンネルを生成する再帰ニューラルネットワークが実装されても良い。そして、これらのネットワークの事後は、ストリームをどのように結合すればＶｏＩＰアプリケーションのためのＳＮＲが最大化されるか、についての指標を与える。他の実施形態では、ＫＷＳは、特定の話者の発話を含むチャンネルのみに焦点を当てるために、音声認証（ＶＡ，ｖｏｉｃｅａｕｔｈｅｎｔｉｃａｔｉｏｎ）システムに置き換えられ得る。

図３は、本開示の様々な実施形態に係る、キーワードスポッティングサブシステムを実装し得るオーディオプロセッシングデバイス３００を図示している。オーディオプロセッシングデバイス３００は、オーディオセンサアレー３０５のようなオーディオ入力、オーディオ信号プロセッサ３２０、及び、ホストシステムコンポーネント３５０を備えている。オーディオセンサアレー３０５は、それぞれが音波をオーディオ信号に変換し得る１以上のセンサを備える。図示された環境では、オーディオセンサアレー３０５は、それぞれがマルチチャンネルオーディオ信号の一つのオーディオチャンネルを生成する複数のマイクロフォン３０５ａ～３０５ｎを備える。

オーディオ信号プロセッサ３２０は、オーディオ入力回路部３２２と、デジタルシグナルプロセッサ３２４と、オプションとしてオーディオ出力回路部３２６と、を備える。様々な実施形態では、オーディオ信号プロセッサ３２０は、アナログ回路部と、デジタル回路部と、メモリに記憶されたプログラムの命令を実行するように作動可能なデジタルシグナルプロセッサ３２４と、を備える集積回路として実装され得る。オーディオ入力回路部３２２は、例えば、オーディオセンサアレー３０５とのインターフェースと、アンチエイリアシングフィルターと、アナログ―デジタル変換回路部と、エコー除去回路部と、他のオーディオプロセッシング回路部及びコンポーネントと、を備える場合がある。

デジタルシグナルプロセッサ３２４は、本開示の実施形態としてここで議論された様々な演算を実行するような、１以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）（ＰＬＤ）例えばフィールドプログラマブルゲートアレー（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）（ＦＰＧＡ）、デジタルシグナルプロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ）（ＤＳＰ）、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイス、を含み得る。

デジタルシグナルプロセッサ３２４は、マルチチャンネルデジタルオーディオ入力信号を処理して、１以上のホストシステムコンポーネント３５０に出力される強調オーディオ信号を生成するように作動可能である。１以上の実施形態では、デジタルシグナルプロセッサ３２４は、バス又は他の電気的通信インターフェースを介して、ホストシステム３５０とインターフェース及び通信を行うように作動可能である。様々な実施形態では、マルチチャンネルオーディオ信号は、ノイズ信号と、少なくとも１つの所望のターゲットオーディオ信号（例えば、人の発話）と、を混合したものを含み、デジタルシグナルプロセッサ３２４は、目的外のノイズ信号を低減又は除去して、所望のターゲット信号を分離又は強調するように作動可能である。デジタルシグナルプロセッサ３２４は、エコー除去と、ノイズ除去と、ターゲット信号強調と、ポストフィルタリングと、他のオーディオ信号処理と、を実行するように作動可能であり得る。

オプションとしてのオーディオ出力回路部３２６は、少なくとも１つのスピーカー（例えばスピーカー３１０ａ及び３１０ｂ）に出力するために、デジタルシグナルプロセッサ３２４から受信したオーディオ信号を処理する。様々な実施形態では、オーディオ出力回路部３２６は、１以上のデジタルオーディオ信号を対応するアナログ信号に変換するデジタル―アナログ変換器と、スピーカー３１０ａ及び３１０ｂを駆動するための１以上のアンプを備え得る。

オーディオプロセッシングデバイス３００は、ターゲットオーディオデータを受信及び検出するように作動可能な如何なるデバイス、例えば、携帯電話、スマートスピーカー、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、音声で制御可能な機器、又は、自動車、として実装されても良い。ホストシステムコンポーネント３５０は、オーディオプロセッシングデバイス３００を作動されるための様々なハードウェア及びソフトウェアのコンポーネントを備え得る。図示された実施形態では、ホストシステムコンポーネント３５０は、プロセッサ３５２と、ユーザインターフェースコンポーネント３５４と、ネットワーク３８０（例えば、インターネット、クラウド、ロカールエリアネットワーク、又は、電話ネットワークなど）、モバイルデバイス３８４といった外部のデバイスやネットワークと通信するための通信インターフェース３５６と、メモリ３５８と、を備える。

プロセッサ３５２は、本開示の実施形態としてここで議論された様々な演算を実行するような、１以上のプロセッサ、マイクロプロセッサ、シングルコアのプロセッサ、マルチコアのプロセッサ、マイクロコントローラ、プログラマブル論理デバイス（ＰＬＤ）例えばフィールドプログラマブルゲートアレー（ＦＰＧＡ）、デジタルシグナルプロセッサ（ＤＳＰ）、又は、ハード配線、ソフトウェアの命令の実行、若しくは、両者の組合せ、により構成され得る他の論理デバイスを含み得る。ホストシステムコンポーネント３５０は、バス又は他の電気的通信インターフェース等を介して、オーディオ信号プロセッサ３２０及び他のシステムコンポーネント３５０とインターフェース及び通信を行うように作動可能である。

オーディオ信号プロセッサ３２０及びホストシステムコンポーネント３５０が、ハードウェアコンポーネントと、回路部と、ソフトウェアと、の組合せを組み込むように示されているが、いくつかの実施形態では、ハードウェアコンポーネント及び回路部が実行するように作動可能に設けられている機能の少なくとも一部またはすべてが、メモリ３５８又はデジタルシグナルプロセッサ３２４のファームウェアに記憶されたソフトウェアの命令及び／又は構成データに応じてプロセッサ３５２及び／又はデジタルシグナルプロセッサ３２４が実行するソフトウェアモジュールとして実装され得ることが理解され得る。

メモリ３５８は、オーディオデータやプログラムの命令を含む、データ及び情報を記憶するように作動可能な１以上のメモリデバイスとして実装され得る。メモリ３５８は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥｒａｓａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ハードディスクドライブ、及び／又は、他の種類のメモリといった、揮発性及び不揮発性の１以上の様々な種類のメモリデバイスを含む、メモリデバイスを備え得る。

プロセッサ３５２は、メモリ３５８に記憶されているソフトウェアの命令を実行するように作動可能であり得る。様々な実施形態では、発話認識エンジン３６０は、オーディオシグナルプロセッサ３２０から受信した強調オーディオ信号に対して、音声命令の同定及び実行を含む処理を実行可能に設けられている。音声コミュニケーションコンポーネント３６２は、モバイル若しくはセルラー方式の電話ネットワークを通じた音声通話、又は、ＩＰ（ｉｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌ）ネットワークを介したＶｏＩＰ通話等を通じて、モバイルデバイス３８４又はユーザデバイス３８６といったような１以上の外部デバイスとの音声コミュニケーションを促進するように作動可能であり得る。様々な実施形態では、音声コミュニケーションは強調オーディオ信号を外部のコミュニケーションデバイスへ伝送することを含む。

ユーザインターフェースコンポーネント３５４は、ディスプレイ、タッチパッドのディスプレイ、キーパッド、１以上のボタン、及び／又は、ユーザにオーディオプロセッシングデバイス３００と直接情報交換を可能にする他の入力／出力コンポーネントを含み得る。

通信インフェース３５６は、オーディオプロセッシングデバイス３００と外部デバイスの通信を促進する。例えば、通信インターフェース３５６は、オーディオプロセッシングデバイス３００と、モバイルデバイス３８４といった１以上のローカルデバイス、又は、（例えば、ネットワーク３８０を介した）リモートサーバ３８２とのネットワークアクセスを提供するワイヤレスルーターと、の（例えば、８０２．１１といった）Ｗｉ－Ｆｉ又はブルートゥース（登録商標）接続を可能にする場合がある。様々な実施形態では、通信インターフェース３５６は、オーディオプロセッシングデバイス３００と１以上の他のデバイスとの直接又は間接の通信を促進する他の有線及び無線通信コンポーネントを含み得る。

図４は、本開示の様々な実施形態に係るオーディオ信号プロセッサ４００を示している。いくつかの実施形態では、オーディオ信号プロセッサ４００は、図３のデジタルシグナルプロセッサ３２４のようなデジタルシグナルプロセッサとして実装された、アナログ及びデジタル回路部及びファームウェアロジックとを含む１以上の集積回路として具体化される。図示されているように、オーディオシグナルプロセッサ４００はオーディオ入力回路部４１５と、サブバンド周波数アナライザ４２０と、ターゲット発話強調エンジン４３０と、キーワードスポッティングエンジン４４０と、融合エンジン４５０と、を備える。

オーディオ信号プロセッサ４００は、マルチチャンネルオーディオ入力を、複数のオーディオセンサ４０５ａ―ｎを備えるセンサアレー４０５のような複数のオーディオセンサから受信する。オーディオセンサ４０５ａ―４０５ｎは、図３のオーディオプロセッシングデバイス３００、それに対して接続された外部コンポーネント、又は、リアルタイムでマルチチャンネルオーディオ入力をオーディオ信号プロセッサ４００に提供するための他の装置、といったオーディオプロセッシングデバイスと統合されたマイクロフォンを含み得る。

オーディオ信号は、アンチエイリアシングフィルター、アナログ―デジタル変換器、及び／又は、他のオーディオ入力回路部を含み得るオーディオ入力回路部４１５によって初めに処理され得る。様々な実施形態では、オーディオ入力回路部４１５は、デジタルで、マルチチャンネルな、時間領域のＮチャンネルを有するオーディオ信号を出力する。なお、Ｎはセンサ（例えば、マイクロフォン）入力の数である。マルチチャンネルオーディオ信号は、サブバンド周波数アナライザ４２０に入力される。サブバンド周波数アナライザ４２０は、マルチチャンネルオーディオ信号を連続するフレーム（複数）に区分し、各チャンネルの各フレームを複数の周波数サブバンドへ分解する。様々な実施形態では、サブバンド周波数アナライザ４２０は、フーリエ変換処理と、複数の周波数値域を含む出力と、を含む。分解されたオーディオ信号は、その後、ターゲット発話強調エンジン４３０に供給される。発話ターゲット強調エンジン４３０は、オーディオチャンネル（複数）のフレーム（複数）を分析し、所望の発話を含む信号を生成するように作動可能である。ターゲット発話強調エンジン４３０は、オーディオデータのフレームを受信し、フレーム内に人の発話が存在するかしないかを決定するように作動可能な音声活性検出部を含み得る。いくつかの実施形態では、発話ターゲット強調エンジンは、複数の音源を検出及び追跡し、１以上のターゲット音源から人の発話が存在するかしないかを同定する。ターゲット発話強調エンジン４３０は、サブバンド周波数アナライザ４２０からサブバンドのフレーム（複数）を受信し、マルチストリームキーワード検出と、チャンネル選択システムと、ここで開示された方法と、により、発話ターゲットであると決定されたオーディオ信号の部分を強調し、ノイズであると決定されたオーディオ信号の他の部分を抑制する。様々な実施形態では、ターゲット発話強調エンジン４３０は、一フレーム毎にマルチチャンネルオーディオ信号を復元して、複数の強調オーディオ信号を形成する。強調オーディオ信号は、キーワードスポッティングエンジン４４０と融合エンジン４５０とに伝達される。キーワードスポッティングエンジン４４０は、複数の強調オーディオ信号にそれぞれ適用される重みを計算し、強調オーディオ信号の中にキーワードが検出された確率を決定する。融合エンジン４５０は、複数の強調オーディオ信号に重みを適用して、さらなる処理のためにキーワードを強調した出力強調オーディオ信号を作る。

適用可能な場合には、本開示の様々な実施形態は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組合せ、を用いて実装され得る。さらに、適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び／又は、ソフトウェアのコンポーネントは、本開示の精神から逸脱せず、ソフトウェア、ハードウェア、及び／又は、その組合せを備える複合コンポーネントに結合され得る。適用可能な場合には、ここで示された様々なハードウェアのコンポーネント、及び／又は、ソフトウェアのコンポーネントは、本開示の範囲から逸脱せず、ソフトウェア、ハードウェア、及び／又は、両者を備えるサブコンポーネントに分離され得る。加えて、適用可能な場合には、ソフトウェアのコンポーネントはハードウェアのコンポーネントとして実装され得ること、及びその逆も可能であることが理解される。

プログラムコード、及び／又は、データといったソフトウェアは、本開示のとおり、１以上のコンピュータ読取り可能な媒体に記憶され得る。ここで示されたソフトウェアは、１以上の一般用途の又は専用のコンピュータで、及び／又は、コンピューターシステムで、ネットワーク上で、及び／又は、他の方法により、実装され得ることも更に理解される。適用可能な場合には、ここに記載された様々なステップの順序は、ここに記載された機能を供給するように、変更、複合ステップへの結合、及び／又は、サブステップに分割され得る。

上述の開示は、開示されたそのままの形態や特定の用途分野に本開示を限定するように意図されたものではない。従って、ここに明示されたか暗示されたかにかかわらず、本開示に照らして、様々な代替例、及び／又は、修正が本開示に対して可能であることが理解される。ここまで本開示の例を説明してきたが、本開示の範囲を逸脱することなく形態や詳細を変更し得ることを当業者は認識し得る。よって、本開示は請求項のみによって限定される。

Claims

マルチチャンネルオーディオ入力信号を分析し、複数の強調ターゲットストリームを生成するように作動可能なターゲット発話強調エンジンと、
前記ストリームの中の特定のターゲット発話の品質、及び／又は、存在の信頼性を決定するようにそれぞれが作動可能な複数のターゲット発話検出エンジンを備えるマルチストリームターゲット発話検出生成部であり、前記複数の強調ターゲットストリームに関する複数の重みを決定するように作動可能なマルチストリームターゲット発話検出生成部と、
前記複数の重みを前記強調ターゲットストリームに適用して、組合せ強調出力信号を生成するように作動可能な融合サブシステムと、
を備えるシステム。
人間の発話と環境ノイズとを感知し、対応する前記マルチチャンネルオーディオ入力信号を生成するように作動可能なオーディオセンサアレーを更に備える、
請求項１に記載のシステム。
前記ターゲット発話強調エンジンが、前記マルチチャンネルオーディオ入力信号を分析し、前記複数の強調ターゲットストリームの一つを出力するようにそれぞれが作動可能な複数の発話強調モジュールを備える、
請求項１に記載のシステム。
前記複数の発話強調モジュールが、適応空間フィルタリングアルゴリズム、ビームフォーミングアルゴリズム、ブラインド音源分離アルゴリズム、シングルチャンネル強調アルゴリズム、及び／又は、ニューラルネットワーク、を備える、
請求項３に記載のシステム。
前記ターゲット発話検出エンジンが、混合ガウスモデル、隠れマルコフモデル、及び／又は、ニューラルワーク、を備える、
請求項１に記載のシステム。
各ターゲット発話検出エンジンが、入力オーディオストリームが前記特定のターゲット発話を含んでいる信頼性に相関する事後重みを作るように作動可能な、
請求項１に記載のシステム。
各ターゲット発話検出エンジンが、クリーンな発話に対してはより高い事後を作るように作動可能な、
請求項６のシステム。
前記強調出力信号が、前記強調ターゲットストリームの重み付き和である、
請求項１のシステム。
前記マルチストリームターゲット発話検出生成部が、前記ストリームの中に特定のターゲット発話が検出される組合せ確率を決定するように更に作動可能であり、前記組合せ確率が検出閾値を超えている場合に前記ターゲット発話が検出される、
請求項１のシステム。
ターゲット発話強調エンジンを用いて、マルチチャンネルオーディオ入力信号を解析し、複数の強調ターゲットストリームを生成し、
マルチストリームターゲット発話検出生成部を用いて前記ストリームにターゲット発話を検出する確率を決定し、
前記複数の強調ターゲットストリームのそれぞれについて重みを計算し、
計算した前記重みを前記複数の強調ターゲットストリームに適用して、強調出力信号を生成する、
方法。