JP7775309B2

JP7775309B2 - 可変ピッチエコーキャンセルのための方法およびデバイス

Info

Publication number: JP7775309B2
Application number: JP2023523159A
Authority: JP
Inventors: クレマン・ゴルティエ; アレクサンドル・ゲラン; マルク・エメリ; グレゴリー・パローネ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2020-10-15
Filing date: 2021-09-27
Publication date: 2025-11-25
Anticipated expiration: 2041-09-27
Also published as: KR102935363B1; US12444428B2; FR3115390A1; CA3195536A1; EP4229636A1; CN116420315A; CN116420315B; KR20230087525A; MX2023004351A; EP4229636B1; WO2022079365A1; JP2023546417A; US20230395090A1

Description

本明細書は、エコーキャンセルのための方法およびデバイスに関する。

同時の音取込みおよび再生の状況では、音響エコーキャンセル(または以下では「AEC」)を含む処理を使用することが適切である。

図1に示すように、機器アイテムは、少なくとも1つのラウドスピーカーHPと、マイクロフォン信号y(t)を取り込む少なくとも1つのマイクロフォンMICとを含む。ラウドスピーカーHPは、信号x(t)を供給され、信号x(t)は、ラウドスピーカーHPによって発せられると、環境(起こり得る残響、ラーセン効果など)によって変換され、マイクロフォンMICによって現在収集されている有用な信号s(t)とともにマイクロフォンによって取り込まれる。マイクロフォン信号y(t)はしたがって、
- 以下では状況に応じて「対象の信号s(t)」または「局所信号s」とも呼ばれる、(場合によっては会話からの音声信号データ、ボイスコマンドなどに関係する)有用な信号s(t)と、
- 機器アイテムに含まれ、1つまたは複数のラウドスピーカーHPから構成される音再生システムによって発せられる、エコー信号z(t)と
から構成される。

このエコー信号は、マイクロフォンと再生システムとの間の直接経路に、ならびに伝搬環境の信号x(t)の何らかの反射に関連する。

音響経路全体は、伝搬環境の特性に応じてそれの長さが決まる有限インパルス応答フィルタwによって、以下のように、モデル化され得る。
z(t)=x(t)*w(t)

マイクロフォン信号y(t)からエコー信号z(t)の寄与を除去することからなる動作は、「音響エコーキャンセル」(またはAEC)と呼ばれる。この動作を行うための処理は、エコー信号

を、音響経路

の推定から導き出すことからなることが可能であり、この動作は、「適応フィルタリング」と呼ばれる。推定される有用な信号

は、以下のように、マイクロフォン信号y(t)から推定されるエコー信号

を引くことによって導出される。

適応フィルタリングは、一般に、ラウドスピーカーによって発せられる信号x(t)と対象の信号s(t)との間の統計的独立を活用しながら、マイクロフォン信号とラウドスピーカー信号との間の相関関係に基づいて実行される。実際には、フィルタwによって表される音響チャネル(便宜上以下では音響経路wと呼ばれる)の変化を追跡するために、短期デッドラインでこの処理を実行することが適切である。これらの変化は一般には、発話者が上記の環境を形成する部屋中を移動しているとき、現れる可能性がある。

この短期処理の結果は、対象の信号s(t)とラウドスピーカー信号x(t)との間の統計的独立が、信号s(t)がゼロである、取るに足らない場合を除く、いくつかの状況においてもはや維持されないというものである。実際、この独立性は、一般的にデジタル信号の従来のフレーム長に対応する数十から数百ミリ秒の短い時間帯について計算されるとき、もはや当てはまらない。

「ダブルトーク」と呼ばれるこれらの状況では、すなわち有用な信号s(t)がゼロでないとき、結果は、音響チャネルの推定に偏りがあり、エコーキャンセルを劣化させる。たとえば「正規化最小2乗平均」(NLMS)技法およびそれの導関数などの確率勾配を使用する処理に基づく、あまり複雑でないソリューションは、局所信号s(t)の存在に非常に敏感である。これらのダブルトークの状況の間、フィルタが適応し続ける場合、それは発散すらし、最終的には望ましい効果の反対の、エコー増幅を引き起こす可能性がある。また、効果的であるためには、適応フィルタリングソリューションは、音響経路の変化を迅速に追跡可能でありながら、ダブルトークの状況にロバストでなければならない。

理想的には、このフィルタリングは、再生中のデータ、すなわち参照信号x(t)およびマイクロフォン信号y(t)のみを処理すべきである。

ダブルトークの状況を克服するために、いくつかの知られている適応フィルタリング処理ソリューションは、ダブルトーク検出(DTD)システムを実装する。このタイプのシステムは、たとえば参考文献[@jung2005new]に記載されており、これについては、本明細書の終わりの付属書類に公開の詳細を示す。そのようなシステムは、ダブルトークと識別された期間の間の適応を無効にする。しかしながら、実際にはDTDは、検出遅延の問題があり、これがエコーにつながる可能性がある。一方、バイナリ決定のこの特定の場合では、ダブルトーク期間の間、フィルタの適応が凍結され、これは、フィルタがまだ収束し終えていない場合、実際には気が散るものであり、知覚できる残留エコーとなる。

他の方法は、代わりに、音響経路の推定において、適応ステップサイズを導出することを提案している。知られている参考文献では、このステップサイズは連続している。そのような実装形態は、DTDなどのバイナリ決定手法とは異なり、ダブルトークの期間中を含めて、音響経路の追跡を続けることを可能にする。これらのタイプの適応は、通常、以下のように周波数バンドによって導出される。

ただし、ΔWは、推定される音響チャネル

の各瞬間kおよび各周波数fにおける更新である。

周波数での作業が、一方では検討される周波数範囲全体にわたって収束をより一様にすることを可能にする。他方では、信号のスペクトルスパース性が、1つの周波数バンドで音響チャネルを推定し続けると同時に、別の周波数バンドで推定を凍結することを可能にする。「可変ステップサイズ」またはVSSと呼ばれるいくつかの方法が、異なる基準に従って適応ΔWを調節することを提案する。

あまりにランダムであると見なされる反復を凍結することによって確率適応を平滑化すること、詳細にはダブルトークの存在に起因するランダムな更新を回避することが試みられてきた。

局所信号のエネルギー

とエコー信号のそれ

との比の形態で、局所発話存在率を直接測定することもまた試みられてきたが、この比が高すぎるとき、この適応は固定した。分散

の推定値は、特にノイズが多いので、適応ステップサイズの調節にそれらを直接使用すると、これらの手法を実際には無効にし、それらは適応を凍結しすぎ、収束の速度を落とすか、またはそれらはダブルトーク期間の間にミスマッチを十分に制限しない。

他の方法は、最小エコーに鑑みて、推定されるフィルタの最小分散を保証する適応ステップサイズの最適なソリューションに基づいている。この基準は、「最良線形不偏推定量 (Best Linear Unbiased Estimate)」の「BLUE」と呼ばれる[@trump1998frequency]。この基準に従って適応フィルタリングプロセスで音響経路ΔW^(k)を更新すると、適応フィルタの解(分散の最小)の辺りの適応フィルタの変動に関係している残留エコーを制限することが可能になる。しかしながら、実際にはBLUE式(expression)は、一般的には音声などの非定常信号の場合のように、未知であるのみならず、一般的に時間とともに変動する信号s(t)の二次統計によって(およびより正確にはそれの統計的自己相関行列Γ_sによって)決まる[@van2007double]。[@trump1998frequency]に提示されるソリューションはしたがって、まだ十分に申し分のないものではない。

[@Borrallo1992implementation]: Borrallo, J. P.およびOtero, M. G.(1992). On the implementation of a partitioned block frequency domain adaptive filter (PBFDAF) for long acoustic echo cancellation. Signal Processing, 27(3), 301～315 [@Trump1998frequency]: Trump, T.(1998, May). A frequency domain adaptive algorithm for colored measurement noise environment. In Proceedings of the 1998 IEEE International Conference on Acoustics、Speech and Signal Processing、ICASSP'98(Cat.No.98CH36181) (Vol.3、1705～1708頁) [@Jung2005new]: Jung, H. K.、Kim, N. S.、およびKim, T.(2005). A new double-talk detector using echo path estimation. Speech communication、45(1)、41～48 [@van2007double]: Van Waterschoot,T.、Rombouts,G.、Verhoeve,P.、およびMoonen, M.(2007)。Double-talk-robust prediction error identification algorithms for acoustic echo cancellation. IEEE Transactions on Signal Processing、55(3)、846～858 [@gil2014frequency]: Gil-Cacho, J. M.、Van Waterschoot, T.、Moonen, M.、およびJensen, S. H. (2014). A frequency-domain adaptive filter (FDAF) prediction error method (PEM) framework for double-talk-robust acoustic echo cancellation. IEEE/ACM Transactions on Audio, Speech, and Language Processing、22(12)、2074～2086

本発明は、この状況を改善する。

機器アイテムの少なくとも1つのマイクロフォンから来る信号y(t)を処理するための方法が提案され、機器アイテムが、信号x(t)を供給されるよう意図された少なくとも1つのラウドスピーカーをさらに含み、
マイクロフォンからの上記の信号y(t)の処理が、
- マイクロフォンが機器アイテムの環境でラウドスピーカーによって発せられた音を取り込むことによって誘発されるエコー効果を少なくとも制限することを目指し、ラウドスピーカーによって発せられた上記の音および何らかの起こり得る音響反射が、ラウドスピーカーからマイクロフォンまでの音響経路w(t)をたどり、
- エコー効果を制限するために、ラウドスピーカーに供給される信号x(t)にフィルタ

を適用することによって与えられるエコー信号

の推定値を、マイクロフォンから来る信号y(t)から引くことによる有用な信号s(t)の決定

を含み、フィルタ

は、上記の音響経路w(t)の経時的な変化を考慮に入れるために可変ステップサイズによって適応可能であり、
* ラウドスピーカーに供給される信号x(t)が、信号サンプルのフレームの経時的な連続の形態で取得され、
* 適応フィルタ

が、サンプルの各フレームkについての音響経路w(t)の更新ΔW^(k)に応じて、最小分散に選ばれた基準を満たす正規化Λを適用することによって、このフレームkで生成され、上記の正規化Λが、有用な信号s(t)の統計的期待値を表すパラメータの関数である、方法。

以下で詳述するように、そのような実装形態は、特にダブルトークの状況にロバストである音響エコーキャンセルソリューションを提示する。

一実施形態では、上述の、選ばれた基準は、「最良線形不偏推定量」の「BLUE」タイプである。

上記の統計的期待値は、有用な信号sの行列表現の場合E{ss^H}と書くことができる(s^Hは行列sの共役転置を示す)。たとえば、時間領域において、および単にスカラーである表現の場合、それは時間パラメータτによって決まる可能性があり、E{s(t)s(t-τ)}と書くことができる。

周波数領域では、上記の統計的期待値は、パワースペクトル密度に対応するパラメータによって表され得る。したがって、適応フィルタがたとえば周波数サブバンドfの領域で生成される実装形態では、それの式は、有用な信号s(f)のパワースペクトル密度Γ_s(f)に対応するパラメータの関数とすることができる。詳細には、周波数領域で表される、上記の正規化Λ(f)は、それ自体が、有用な信号sのパワースペクトル密度Γ_sに対応するパラメータの関数である。

そのような実施形態では、上記の正規化Λ^(k)は、有用な信号sのパワースペクトル密度

の関数として、またラウドスピーカーに供給される信号xのパワースペクトル密度

の関数として、より正確に定義される。

この実施形形態では、fが行インデックス(またここでは周波数サブバンドのインデックス)を示し、bが列インデックスを示す行列表現において、正規化Λ^(k)(f,b)は、以下によって与えられ得る。

、μ∈[0,2[とし、ただしγは選ばれた正の係数である(この選択は、実際の実装形態に照らして経験的とすることができる)。

有用な信号sのパワースペクトル密度

は、それ自体が、マイクロフォンによって取り込まれた信号yのパワースペクトル密度

の関数として、およびエコー対信号エネルギー比の表現

の関数として、推定され得る。

この実施形態では、fが行インデックスを示し、bが列インデックスを示す行列表現において、有用な信号sのパワースペクトル密度

は、以下によって与えられる。

ただしAは、選ばれた正の極限であり(たとえば、10¹⁰などの、実際には「極めて大きい」選ばれた正の項)、

は、周波数サブバンドfで、パーティションbについて、先行フレームk-1について評価された有用な信号sのパワースペクトル密度である。

エコー対信号エネルギー比の表現

は、それ自体が、少なくともマイクロフォンから来る信号yとラウドスピーカーに供給するよう意図された信号Xとの間のパワースペクトル間密度(power inter-spectral density)

の関数として推定され得る。

たとえば、fが行インデックスを示し、bが列インデックスを示す行列表現では、エコー対信号エネルギー比の表現

は、以下によって与えられ得る。

、ただしβは、1よりも小さい正の忘却係数であり、表記^(k-1)は、前のフレーム(k-1)に決定された式を指す。

この式では、パワースペクトル間密度

は、以下によって与えられ得る。

、{α,δ,η,ξ}∈]0,1]とする。

ラウドスピーカーXに供給するよう意図された信号のパワースペクトル密度、およびマイクロフォンから来る信号yのパワースペクトル密度は、Xが行列であり、yがベクトルである行列表現において、以下によって与えられ得る。

ただし、αおよびηは、0よりも大きく、1よりも小さい忘却係数である。ここで、|.|²と示される、行列(またはベクトル)の2乗ノルムは、行列の各要素について2乗されたノルムの行列として定義される。

適応フィルタの推定の利点を提案する一実施形態では、適応フィルタは、連続したパーティションによって表され得る。したがって、そのような実施形態では、フィルタwは、有限インパルス応答タイプとすることができ、N個のサンプルの長さ(samples long)とすることができる。詳細には、フィルタは、各々Lサンプルの

パーティションw_bに再分割される。

そのような実施形態では、

のように、パーティションw_bの変換された領域の(たとえば、周波数サブバンドの前述の領域の)式に対応し、

として、変換された領域のフィルタを表す、ただしFは領域変換行列である、行列

を推定することができる。

この実施形態では、上記の列インデックス「b」がここではパーティションインデックスw_bに対応し得ることに留意されたい。とはいえ、行インデックスfおよび列インデックスbを用いて上記で提示した行列表現は、フィルタのパーティションを含む状況以外の状況に適用され得る。直接の例示的な例として、上記で与えられた式は、たとえば、b=1であって、したがってパーティションを含まない、劣化した実施形態において、依然として有効である。

さらに、ラウドスピーカーx(t)に供給するよう意図された信号のM個のサンプルの、

と示される、各時間フレームに対して、ラウドスピーカーに供給するよう意図された信号を表し、x_b=Fx_bとして、

のような最後のB個のフレームx_bの変換に対応する行列

が形成される。マイクロフォンから来る信号y(t)の時間フレーム

について、ベクトル

が最終的に形成される。

このベクトルyは、以下のように構築され得る。

この形式では、現在のフレームkについての音響経路ΔW^(k)の更新は、したがって

によって与えられ、ただし、
-

はアダマール積を示し、
-

は、以下の式、すなわち
G=FF^HおよびG=I_Mのいずれかによって与えられる行列であり、
-

は、前述の正規化を表す行列であり、
- e^(k)は、フレームkについて信号xおよびyから推定される事前誤差である。

事前誤差は、以下によって与えられ得る。

適応フィルタが、音響経路ΔW^(k)の更新に応じて現在のフレームkから次のフレームk+1へ更新される一実施形態では、この更新は、現在のフレームkについて推定でき、音響経路の更新は、以下のタイプの関係によって与えられる。
W^(k+1)=W^(k)+ΔW^(k)

本明細書はまた、コンピュータプログラムに関し、このプログラムは、プロセッサによって実行されると、上記の方法を実施するための命令を含む。別の態様では、そのようなプログラムがその上に記憶された、非一時的、コンピュータ可読記憶媒体が提供される。
本明細書はまた、少なくとも1つのマイクロフォンから来る信号y(t)を処理するためのデバイスに関し、このデバイスは、上記で定義した方法を実行するように構成されたプロセッサを備える。

他の特徴、詳細、および利点は、以下の詳細な説明を読み、添付の図を分析すると明らかになるであろう。

一実施形態による、本明細書の目的が実装され得る機器アイテムを示す図である。前述の有用な信号を配信するための、一実施形態による処理を示す図である。前述の音響経路の推定の更新を配信するための、一実施形態による処理を示す図である。一実施形態による、本明細書の目的を実装するためのデバイスを示す図である。

以下の大部分の図面および説明は、本質的に確実な要素を含む。したがってそれらは、本開示をより良く理解することを可能にするのに役立つだけでなく、適用可能な場合、それらはそれの定義にも寄与する。

以下で本明細書は、ダブルトークの状況にロバストな音響エコーキャンセルソリューションを提案する。それは、一般的にはフレームの連続の各フレームに連続的に適用される、適応フィルタリングを含む処理、たとえばNLMS処理に基づいている。フレームは、ここでは、ラウドスピーカーx(t)に供給される信号の所与の数の連続サンプルを意味するように理解され、この信号は当然ながら、デジタルであると仮定される。

一実施形態では、適応フィルタリングに使用されるフィルタは、好ましくは周波数領域(ここでは「分割ブロック周波数領域(Partitioned-Block Frequency Domain)NLMS」または「PBFD-NLMS」と呼ばれる技法)において、分割される(各パーティションの長さは、フレームの長さに対応しても、しなくてもよい)。このタイプの技法は、たとえば、参考文献[@borrallo1992implementation]において提示されている。

より詳細にはここでは、ソリューションは、BLUE最適ステップサイズの導出に基づくが、補助情報を追加せずに、参照およびマイクロフォン信号から直接、必要な統計値を推定する。これは、従来技術の参考文献、詳細には[@gil2014frequency]の場合のように、音響経路について誤差予測モデルまたは事前誤差予測モデルなしにΔW^(k)を計算することを可能にする。

そのような実施形態は、処理自体によって直接推論される情報以外の補助情報なしに、収束の速度、収束時のゼロバイアスという意味において最適に近い収束と、ダブルトーク状況において発散がないことの両方を保証する。

周波数領域で表現されるとき、適応フィルタリングは、詳細には、関連する周波数バンドとは無関係に、音響経路の更新を制御および正規化することを可能にする。したがって、複雑さの減少に加えて、このソリューションは、検討される周波数範囲全体にわたってより一様な収束から恩恵を受ける。

周波数領域のフィルタリングに関連する、パーティショニングによるそれの動作もまた、処理の各反復において、音響経路wの時間周波数表現W^(k)を推定することを可能にする。これは、パーティションに従って異なる適応戦略を実施することを可能にする。またそれは、非常に長いフィルタの場合のより良い収束を保証することも可能にする。

そのような処理は、ダブルトーク状況における挙動と音響チャネル追跡の両方を最適化するステップサイズを導出することを可能にする。

図2は、適応フィルタリングソリューションの異なるステップを示す。適応フィルタリング処理の各反復において、信号x(t)およびy(t)のL個の新しいサンプルのフレームが検討され、

のL個の新しいサンプルが生成される。ステップS1において、(たとえば話者と別の関係者との間の会話の開始時に)検討される音響経路を初期化することが必要であるかどうかが決定され、その場合、音響経路の初期化は、ステップS2において行われる。そうでない場合、ステップS3において、音響エコーキャンセルAEC処理は、直ちに始められる。ステップS4において、参照信号x(t)の時間フレームが検索され、説明した例では、周波数表現x^(k)を取得するためにステップS5において、投影が周波数領域で(たとえば、周波数サブバンドの領域で)それに適用される。同様の処理が、マイクロフォン信号y(t)の各時間フレームで行われて(ステップS6)、ステップS7において周波数領域の投影y^(k)を取得する。フレームx(t)およびy(t)に基づいて(または本明細書で説明するように、それらの周波数表現に基づいて)、エコーキャンセル処理が、以下のように事前誤差e^(k)を推定するためにステップS8において適用される。

「パーティションブロック」技法に従ってパーティションによりフィルタを生成することによる、エコーキャンセルのための適応フィルタリングの実施形態について、以下で説明する。

N個のサンプルの長さを有し、

個のパーティション

に分かれた有限インパルス応答フィルタw(t)によってモデル化されたターゲット音響経路を検討すると、以下のように、パーティションw_bの周波数変換に対応する行列

を推定することができる。

、ここで

、M≧Lとする。

Fは、領域変換行列であり、たとえばここでは、各要素が

によって特徴づけられるような、冗長な離散フーリエ変換(DFT)行列である。実際には、冗長性は、時間領域においてゼロで埋めることによって実現される。

同様にして、時間フレームが参照信号x(t)のM個のサンプルを含む

を検討し、最後のB個のフレームx_bの周波数変換に対応する行列

を、以下のように形成する。

、ここでx_b=Fx_bとする。

マイクロフォン信号y(t)の時間フレーム

をさらに検討することによって、ベクトル

を以下のように示すことができる。

周波数領域で行われる畳み込み演算に関連する問題を回避するために、処理は、重複保持演算(OLS)に基づく。ここでは、指数・^(k)は、処理のk番目の反復を反映する。W⁽⁰⁾、X⁽⁰⁾、y⁽⁰⁾および他の指標(characteristic)の反復後に、処理は、事前誤差

を計算することによって継続することができる。

ただし、

はここではアダマール積を示し、(.)^*は行列またはベクトルの共役を示す。

上記のように、DFTの冗長性は、事前誤差の式において見つけられ、有利には巡回畳み込みによるアーティファクトを回避することを可能にする、ゼロ埋めによって実現される。

この方法は次いで、以下のように、ステップS9において音響経路

の更新を計算することを続ける。

すなわち、

、ここで

とする。

更新が(ゼロ埋めのおかげで)最適である実施形態では、G=FF^Hを設定する(「制約付き」更新と呼ばれる)。

更新が準最適である実施形態では、代わりにG=I_Mを設定することができる(「制約付きでない」と呼ばれる更新)。そのような実装形態は、消費するリソースがより少ないという利点を有する。

次いでステップS10は、音響経路を更新するために、W^(k+1)を計算することを目指す。
W^(k+1)=W^(k)+ΔW^(k)

およびステップS11において、有用な信号

は、W^(k)によるx^(k)の畳み込み後に取得され、時間領域に戻される。

図3は、音響経路W^(k)の更新、詳細にはダブルトーク状況に内在するロバスト性を可能にする最適な正規化項Λを計算するステップを詳述する。

エコーキャンセルソリューションが、上記で説明した状況においてロバストになるように、BLUE基準を満たすスペクトル正規化項Λ^(k)が選ばれる。これは、マイクロフォン信号x(t)の、および局所信号s(t)のパワースペクトル密度(PSD)を知ることにより実現され得る。

参考文献[@van2007double]では、発話であると見なされた自己回帰モデル、および誤差予測方法の使用を受け入れなければならない、局所信号についての強い仮定という代償を払って、BLUEが取得される。一方、[@trump1998frequency]は、誤差信号e^(k)のみによって事後に、局所信号のPSDを推定し、安定性の減少という代償を払ってそれを行い、また局所信号上の強い制約(定常有色雑音)を有して動作することによってBLUEを実現する。

以下で説明する、提案するソリューションは、経時的DSPのロバスト推定により上記で使用される制約を克服する。

以下を仮定する。
-

(resp.

)各周波数および(resp.各周波数にyの)各パーティションにXのパワースペクトル密度(PSD)推定と、
- マイクロフォン信号および参照信号のスペクトル間

およびそれのパワースペクトル間密度

、
各周波数および各パーティションの局所信号sのパワースペクトル密度は、

と示される。

最終的に、各周波数バンドおよび各パーティションについて、エコーおよび局所信号のエネルギーの比を表す行列を、

(「エコー対信号比(Echo-to-Signal Ratio)」のESR)と示す。

および他の指標の初期化後に、処理は、以下の演算を行う。

- パワースペクトル密度(PSD)の推定:

、ただし

ここで{α,δ,η,ξ}∈]0,1]とする。

- 瞬間エコー対信号比(ESR)の推定:

、
ここでβ∈]0,1]とする。

- 正規化Λ^(k)の推定:

次いで、この説明の意味の範囲内で方法を適用することによって、BLUE基準を満たすために正規化パラメータは、以下によって表される。

、ここでμ∈[0,2[とする。

正規化パラメータのこの最後の式は、最終的に、各フレームkについて、この説明の意味の範囲内で推定される(当然ながら信号x(t)とともに)唯一のパラメータとなり得るエコー対信号比の推定の関数である項

を含む。

場合によっては、PBFD-NLMSの伝統的な技法を実装するために、たとえば[@borrallo1992implementation]に記載されている最先端の教示を代わりに適用することによって、フィルタの正規化パラメータは以下のように表されることに留意されたい。

、ここでμ∈[0,2[とし、エコー対信号比の推定にどんな測定値も含まない。

次に図3のステップに進むことによって、第1のステップS20は、パワースペクトル密度推定を初期化するかどうかを決定するためにテストを開始する。そうである場合、ステップS21において、マイクロフォンyからの信号および参照信号xのそれぞれのスペクトル密度は、初期化される。そうでない場合、スペクトル正規化係数Λを推定するための手順が、ステップS22において直ちに開始される。ステップS23において、マイクロフォン信号の現在の周波数フレームが検索され、ステップS25において前述のスペクトル間密度を推定するために、ステップS24において参照信号の現在の周波数フレームが検索される。次いで、ステップS26において、マイクロフォン信号のパワースペクトル密度が推定され、上記で説明したように、ステップS28において瞬間エコー対信号比(ESR)の推定値をそこから推論するために、ステップS27において、参照信号のパワースペクトル密度が推定される。スペクトル正規化係数Λ^(k)の推定値が、ステップS29においてこれから推論され、この推定値から、ステップS30において音響経路の更新を決定することができる。

時間領域において実行される適応フィルタリングを用いてBLUE基準を達成することは、以下のような解

を見つけることに等しい。

、ただし

はマイクロフォンの信号ベクトルであり、

はラウドスピーカー信号の行列であり、

は信号sの自己相関行列である。

現在のエコーキャンセル方法は、周波数領域の適応フィルタリングに基づいている。[@Trump1998frequency]において提示される手法は、以下のように周波数領域の音響チャネル

ソリューションを探すことによって、BLUE基準の正則化されたバージョンを実現することを提案する。

、ただしΓ_s(resp.Γ_x)は、信号s(resp.x)のパワースペクトル密度の対角行列である。

しかしながら、局所信号sはわかっていない。BLUE基準を満たす推定量はしたがって、実際には、sについての他の情報またはモデルなしに取得するのは極めて困難である。

局所信号sおよび参照信号xが無相関化される、すなわちE{Xs^T}=0(E{・}が期待値演算子を表すものとする)の場合、[@Borrallo1992implementation]に記載されているソリューションは、単に、音響チャネル

の不偏推定値(したがってBLUE基準を満たす)を生成することができる。実際には、この条件は、信号sがホワイトノイズである場合に満たされるにすぎない可能性がある。すべての他の状況では、不偏推定値

に達するために、正規化係数Λ^(k)の分母に、局所信号sの分散部分、すなわち周波数領域のE{ss^H}またはそれのパワースペクトル密度(PSD)(上記で提示した式ではパラメータ

の形態をとる)を追加する必要がある。

期待値E{ss^H}が未知であるので、ここで提案されるソリューションは、パワースペクトル密度の、および詳細には上記の分母で行われるもの、すなわちΓ_s、局所信号sのパワースペクトル密度の経時的ロバスト推定により、上記で使用される制約を克服する。

上記で説明した処理は、詳細には、音を取り込み、同時にそれを再生することが必要である状況において使用することができる。最も一般的な使用事例は、ハンズフリー電話(ある距離を置いて話している者は、相手方の声と混じり合った自分自身の遅れた声、すなわちエコーが聞こえる)、ボイスアシスタントとの対話(対話システムからの応答および/またはボイスアシスタントで再生される音楽が、ユーザによって発行されるコマンドと混じり合い、ボイス認識を妨げる)、インターコム、ビデオ会議システムなどである。

上記の方法を実装するためのデバイスが、図4に表され、これは図1の左側の2つのモジュール(マイクロフォンによって取り込まれた信号y(t)に適用される適応フィルタリングおよび引き算)によって示されることもある。図4を参照すると、このデバイスは、一般的に、マイクロフォンMICから収集された信号y(t)を受信するための第1の入力インターフェースIN1、ならびに、示した例ではラウドスピーカーHPで再生される信号(たとえば、声または音楽信号などの電気通信信号)を受信するためのものである、第2の入力インターフェースIN2を備えることができる。デバイスは、このオーディオ信号を処理し、デバイスに備えられた第1の出力インターフェースOUT1を介して、ラウドスピーカーHPに供給するよう意図された信号x(t)を配信するために、メモリMEMと協働することができるプロセッサPROCを備える。詳細には、メモリMEMは、少なくともこの説明の一態様によるコンピュータプログラムの命令データを記憶し、命令データは、例示的な一実施形態においてデバイスに備えられた第2の出力インターフェースOUT2を介して有用な信号s(t)を配信するために、上記で説明した処理を実行し、それを詳細にはマイクロフォンy(t)からの信号に適用するためにプロセッサPROCによって読取り可能である。

当然、これは例示的な実施形態であり、ここでは一般的に、有用な信号s(t)は、出力インターフェースOUT2を介して、たとえば遠く離れた相手に送信されることがある。この場合、インターフェースOUT2は、たとえば電気通信ネットワークNETの通信アンテナまたはルータに接続されることがある。ラウドスピーカーを通じて再生される信号を「外側から」受信する入力インターフェースIN2にも、同じことが言える。

たとえば、ボイスアシスタントなどのデバイスでは、一般的に、アシスタントがたとえば前のコマンドに応答しているのと同時にユーザがボイスコマンドを話しているダブルトークの状況でもあることが考えられる。この場合、ボイスアシスタントの応答の少なくとも一部が、たとえばリモートサーバおよび電気通信ネットワークを利用する必要なしに、メモリMEMのコンテンツからローカルで発行され得る。加えて、有用な信号s(t)は、ユーザからのボイスコマンドに応答するために、単にプロセッサPROCによってローカルで解釈され得る。インターフェースIN2およびOUT2はしたがって、必要ではない可能性がある。

ボイスアシスタントを用いた「ダブルトーク」処理と呼ばれる処理の一般的な使用事例は、たとえば、ユーザがアシスタントを起動するコマンド(WakeUpWord)を話しながら、ボイスアシスタントのラウドスピーカーを通じて音楽を聴くことからなる。この場合、実際に話されたコマンド信号s(t)を正しく検出することができるようにするために、アシスタントがまさに置かれた環境において(それの残響とともに)取り込まれた音信号y(t)から、再生中の音楽x(t)^*w(t)を消去することが賢明である。

当然ながら、本発明は、上記で提示した実施形態に限定されず、他の変形形態に拡大し得る。

たとえば、信号が周波数サブバンドの領域で処理される実際の実施形態について、上記で説明した。とはいえ、本発明は、周波数領域の局所信号sのパワースペクトル密度Γ_sと同等の期待値E{ss^T}などのパラメータを活用することによって、代替的に時間領域で実施され得る。

結果として、パワースペクトル密度の前述の推定は、1つの可能だが必須ではない実装形態において効果的に実行され得る。

サブバンド領域でも作動することができる適応フィルタパーティションにも同じことが言えるが、これも必須ではない。

さらに、図4では、エコーキャンセルデバイス(したがってプロセッサPROCと、メモリMEMと、少なくとも1つの入力インターフェースおよび少なくとも1つの出力インターフェースとによって示され得る)、ならびにマイクロフォンMICおよびラウドスピーカーHPを備えたコンパクトな機器アイテムが示されている。変形形態では、一方のデバイス、1つまたは複数のマイクロフォン、および他方の1つまたは複数のラウドスピーカーは、異なる場所に位置し、たとえば電気通信ネットワーク、または(ホームゲートウェイによって作動される)ローカルエリアネットワーク、または他の手段によって接続されることがある。

付属物:参考文献
[@Borrallo1992implementation]: Borrallo, J. P.およびOtero, M. G.(1992). On the implementation of a partitioned block frequency domain adaptive filter (PBFDAF) for long acoustic echo cancellation. Signal Processing, 27(3), 301～315

[@Trump1998frequency]: Trump, T.(1998, May). A frequency domain adaptive algorithm for colored measurement noise environment. In Proceedings of the 1998 IEEE International Conference on Acoustics、Speech and Signal Processing、ICASSP'98(Cat.No.98CH36181) (Vol.3、1705～1708頁) IEEE

[@Jung2005new]: Jung, H. K.、Kim, N. S.、およびKim, T.(2005). A new double-talk detector using echo path estimation. Speech communication、45(1)、41～48

[@van2007double]: Van Waterschoot,T.、Rombouts,G.、Verhoeve,P.、およびMoonen, M.(2007)。Double-talk-robust prediction error identification algorithms for acoustic echo cancellation. IEEE Transactions on Signal Processing、55(3)、846～858

[@gil2014frequency]: Gil-Cacho, J. M.、Van Waterschoot, T.、Moonen, M.、およびJensen, S. H. (2014). A frequency-domain adaptive filter (FDAF) prediction error method (PEM) framework for double-talk-robust acoustic echo cancellation. IEEE/ACM Transactions on Audio, Speech, and Language Processing、22(12)、2074～2086

f 周波数、周波数サブバンド
HP ラウドスピーカー
IN1 第1の入力インターフェース
IN2 第2の入力インターフェース
k 瞬間、フレーム
MEM メモリ
OUT1 第1の出力インターフェース
OUT2 第2の出力インターフェース
PROC プロセッサ
s 局所信号
s(f) 有用な信号
s(t) 信号、局所信号
w 音響チャネル、フィルタ
w(t) 音響経路
x(t) マイクロフォンMIC信号、参照信号
y(t) マイクロフォン信号
z(t) エコー信号

Claims

機器アイテムの少なくとも1つのマイクロフォン(MIC)から来る信号y(t)を処理するための方法であって、前記機器アイテムが、信号x(t)を供給されるよう意図された少なくとも1つのラウドスピーカー(HP)をさらに含み、
前記マイクロフォン(MIC)からの前記信号y(t)の処理が、
エコー効果を制限するために、前記ラウドスピーカー(HP)に供給される前記信号x(t)にフィルタ
を適用することによって与えられるエコー信号
の推定値を、前記マイクロフォン(MIC)から来る前記信号y(t)から引くことによる有用な信号s(t)の決定
を含み、
前記フィルタ
が、前記ラウドスピーカーから前記マイクロフォンまでの音響経路w(t)の経時的な変化を考慮に入れるために可変ステップサイズによって適応可能であり、
前記ラウドスピーカーに供給される前記信号x(t)が、信号サンプルのフレームの経時的な連続の形態で取得され、
適応可能な前記フィルタ
が、サンプルの各フレームkについての前記音響経路w(t)の更新ΔW^(k)に応じて、最小分散に選ばれた基準を満たす正規化Λを適用することによって、このフレームkで生成され、
前記正規化Λが、前記有用な信号s(t)の統計的期待値を表すパラメータの関数であり、
適応可能な前記フィルタが、周波数サブバンドfの領域で生成され、
前記正規化Λが、
前記有用な信号sのパワースペクトル密度
と、
前記ラウドスピーカーに供給される前記信号xのパワースペクトル密度
と
の関数として定義され、
前記有用な信号sの前記パワースペクトル密度
が、前記マイクロフォンによって取り込まれた前記信号yのパワースペクトル密度
、およびエコー対信号エネルギー比の表現
の関数として推定される、方法。
前記選ばれた基準が、最良線形不偏推定量のBLUEタイプである、請求項1に記載の方法。
fが行インデックスを示し、bが列インデックスを示す行列表現において、正規化Λ^(k)(f,b)が、
によって与えられ、
ここで、μ∈[0,2[とし、ただしγは選ばれた正の係数である、請求項1または2に記載の方法。
fが行インデックスを示し、bが列インデックスを示す行列表現において、前記有用な信号sの前記パワースペクトル密度
が、
によって与えられ、
ただし、Aは選ばれた正の極限であり、
は、周波数サブバンドfで、パーティションbについて、先行フレームk-1について評価された前記有用な信号sの前記パワースペクトル密度である、請求項1から3のいずれか一項に記載の方法。
前記エコー対信号エネルギー比の前記表現
が、少なくとも前記マイクロフォンから来る前記信号yと前記ラウドスピーカーに供給するよう意図された信号Xとの間のパワースペクトル間密度
の関数として推定される、請求項1から4のいずれか一項に記載の方法。
fが行インデックスを示し、bが列インデックスを示す行列表現において、前記エコー対信号エネルギー比の前記表現
が、
によって与えられ、
ただし、βは、1よりも小さい正の忘却係数であり、表記^(k-1)は、前のフレーム(k-1)に決定された式を指す、請求項5に記載の方法。
前記パワースペクトル間密度
が、
によって与えられ、
ここで、{α,δ,η,ξ}∈]0,1]とする、請求項6に記載の方法。
行列Xによって表される、前記ラウドスピーカーに供給するよう意図された信号、および
ベクトルyによって表される、前記マイクロフォンから来る信号
の前記パワースペクトル密度が、それぞれ
、および
によって与えられ、
ただし、αおよびηは、0よりも大きく、1よりも小さい忘却係数である、請求項6または7に記載の方法。
適応可能な前記フィルタが、N個のサンプルの長さであって、各々L個のサンプルの
のパーティションw_bに再分割される有限インパルス応答フィルタwである、請求項1から8のいずれか一項に記載の方法。
のように、前記パーティションw_bの変換された領域の式に対応し、
として、ただしFは領域変換行列である、前記変換された領域の前記フィルタを表す、行列
を推定し、
前記ラウドスピーカーに供給するよう意図された前記信号x(t)のM個のサンプルの、
と示される、各時間フレームについて、x_b=Fx_bとすると、
のように最後のB個のフレームx_bの変換に対応して行列
が形成され、
前記マイクロフォンから来る前記信号y(t)の時間フレーム
について、ベクトル
が形成される、請求項9に記載の方法。
前記ベクトルyが、
である、請求項10に記載の方法。
現在のフレームkについての前記音響経路w(t)の前記更新ΔW ^(k)が、
によって与えられ、ただし、
はアダマール積を示し、
は、以下の式、すなわち
G=FF^HおよびG=I_Mのいずれかによって与えられる行列であり、
は、前述の正規化を表す行列であり、
e^(k)は、フレームkについて信号xおよびyから推定される事前誤差である、請求項10または11に記載の方法。
前記事前誤差が、
によって与えられる、請求項12に記載の方法。
適応可能な前記フィルタが、タイプの関係、すなわちW^(k+1)=W^(k)+ΔW^(k)に従って、現在のフレームkについて前記音響経路W ^(k)の推定された更新ΔW ^(k)に応じて、前記現在のフレームkから次のフレームk+1へ更新される、請求項1から13のいずれか一項に記載の方法。
プロセッサによって実行されると、前記プロセッサに請求項1から14のいずれか一項に記載の方法を実行させる命令を含むコンピュータプログラム。
少なくとも1つのマイクロフォン(MIC)から来る信号y(t)を処理するためのデバイスであって、請求項1から14のいずれか一項に記載の方法を実行するように構成されたプロセッサ(PROC)を備える、デバイス。