JP7630723B2 - スピーチ信号の残響除去方法およびシステム - Google Patents
スピーチ信号の残響除去方法およびシステム Download PDFInfo
- Publication number
- JP7630723B2 JP7630723B2 JP2024524152A JP2024524152A JP7630723B2 JP 7630723 B2 JP7630723 B2 JP 7630723B2 JP 2024524152 A JP2024524152 A JP 2024524152A JP 2024524152 A JP2024524152 A JP 2024524152A JP 7630723 B2 JP7630723 B2 JP 7630723B2
- Authority
- JP
- Japan
- Prior art keywords
- direct path
- estimate
- target direct
- signal
- path signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示は、概して音声信号処理に関し、より特定的にはスピーチ信号の残響除去のための方法およびシステムに関する。
一般的に言って、密閉された部屋では、遠隔会議およびスマートスピーカのマイクロフォンなどのスマートデバイスとの対話などの現代のハンズフリースピーチコミュニケーションの際に音声信号(例えば、スピーチ)の残響が発生する。そのような密閉された部屋では、スピーチ信号は、空気中を伝播していき、マイクロフォンによって取り込まれる前に壁、床、天井および部屋の中のその他の物体によって反射されることがある。残響は、ソースまたは話者からマイクロフォンなどの受信端までのスピーチ信号のマルチパス伝播である。そのようなスピーチ残響は、音が環境内の面から反射する場合に発生する。音の一部は、それらの面によって吸収され得て、これによりスピーチ信号の多重減衰が発生する。それらの面による音の反射および吸収は、スピーチ信号の多重減衰コピーおよび遅延コピーを生成し得る。これらの多重減衰コピーおよび遅延コピーは、スピーチの質を低下させ、自動音声認識(ASR:Automatic Speech Recognition)システムまたは任意のスピーチ/音声処理システムのパフォーマンスを妨げる可能性がある。例えば、ASRは、スピーチの質が低下した音声入力に起因して不正確な出力を生成する可能性がある。
スピーチ残響は、残響の影響を音から除去することによって軽減することができる。そのような残響の影響の除去は、残響除去として知られている。残響除去は、ダイレクトパス信号を識別してダイレクトパス信号と減衰コピーおよび遅延コピーとを区別することを含み得る。ダイレクトパス信号は、ソースおよびマイクロフォンが見通し線内にある場合に音がたどる信号に対応する。しかし、特に残響が大きく、かつ、非定常ソースのノイズが存在する場合には、ダイレクトパス信号を識別してダイレクトパス信号とコピーとを区別することは困難であろう。例えば、空調システムなどの非定常ソースを有する密閉された部屋などの環境は、大きな室内残響を有し得る。空調システムからのノイズまたは任意のマルチソース環境ノイズのために、残響を減少させることは難易度が高いであろう。マルチソース環境ノイズは、当該環境において複数の人が話をしているシナリオにも対応し得る。
したがって、上記の問題を克服する必要がある。より具体的には、残響状況および残響環境における非定常ノイズを克服しながらスピーチ信号の残響除去を行うための方法およびシステムを開発する必要がある。
いくつかの実施形態の目的は、スピーチ信号の残響除去のための方法およびシステムを開発することである。いくつかの実施形態の別の目的は、ディープラーニング技術を使用してスピーチ信号の残響除去を実行することである。スピーチ信号の残響除去は、残響の低減、音声強調、話者分離などのタスクに拡張することができる。
いくつかの実施形態は、クリーンなスピーチはスペクトル-時間パターンを示す、という理解に基づく。そのようなスペクトル-時間パターンは、時間-周波数ドメインにおいて示される固有のパターンであり、残響減少のための有益なきっかけを提供することができる。これらのパターンの中には、スピーチ信号自体の構造に由来するものもあるが、いくつかのパターンは、記録がなされる物理的空間内に存在する全ての物体、構造またはエンティティ、ならびにソーススピーチ信号および信号を記録するマイクロフォンなどの受信機の位置を含む、当該空間に特有の残響(すなわち、音波の反射)の線形フィルタ構造にも対応し得る。この線形フィルタ構造を使用して、マイクロフォン位置においてソース信号から生じる信号と、空間内の物体の壁および面または人からの当該信号の反射とを説明することができ、線形フィルタ構造は、入力信号に対する残響の影響を入力信号の線形畳み込みおよび室内インパルス応答(RIR:Room Impulse Response)として表現する。入力信号は、ドライソース信号としても知られているオリジナルソース信号である。室内インパルス応答は、入力信号に対する空間および当該空間内の全てのものの影響を表現したものである。例えば短期間の時間ドメイン信号である衝撃音(例えば、空砲または風船破裂)を部屋の中のソース位置で鳴らし、結果として生じる信号を受信機位置で記録することによって、ソース位置と受信機位置との間のRIRの推定値を部屋などの物理的空間において記録することができる。インパルスは、部屋を励起して残響インパルス信号を生じさせ、この残響インパルス信号は、RIRの推定に使用することができる。次いで、同一のソース位置で再生されて同一の受信機位置で記録されるであろうドライソース音信号の残響は、ドライソース信号および推定されたRIRを畳み込み処理することによってモデル化され得る。その目的のために、いくつかの実施形態の目的は、RIRを近似またはモデル化するための基本的なフィルタを推定することである。いくつかの例示的な実施形態では、RIRは、時間-周波数ドメインにおいて周波数ごとに解かれる線形回帰問題に基づいて推定され得る。RIRをモデル化するフィルタ推定値は、スピーチ信号の残響除去のための入力信号の遅延コピーおよび減衰コピーの識別に使用することができる。
さらに、そのような線形フィルタは、残響除去プロセスを向上させるための正則化として活用することができる。例えば、正則化としての線形フィルタは、残響除去プロセスのモデルの、訓練データへの過剰適合を防止する。いくつかの実施形態は、シングルチャネルおよびマルチチャネル残響話者分離および残響除去タスクのために線形予測とディープラーニングとの組み合わせで線形フィルタ構造を利用することができる、という認識に基づく。その目的のために、畳み込み予測によってサポートされたディープラーニング技術が、ノイズ信号、音声信号の残響などを有する環境での残響除去に使用され得る。畳み込み予測は、残響状況におけるスピーチ残響除去のための線形予測方法であって、ディープニューラルネットワーク(DNN:Deep Neural Network)によって得られるソース推定値に依拠し、ソース推定値と観察された入力信号におけるソース信号の残響バージョンとの間の線形フィルタ構造を利用する。
ソース推定値を得るために、DNNは、残響スピーチからターゲットスピーチを予測するように時間-周波数ドメインまたは時間ドメインにおいて訓練される。ターゲットスピーチは、ソースとマイクロフォンなどの受信機との間のターゲットダイレクトパス信号に対応する。このアプローチは、スピーチパターンの事前知識を活用することができる。
以前の研究も、残響除去を実行するために何らかの形態の線形フィルタ構造を活用しようと試みている。例えば、重み付き予測誤差(WPE:Weighted Prediction Error)がスピーチ信号の残響除去に使用される場合がある。WPE法は、分散正規化遅延線形予測に基づいて逆線形フィルタを算出する。算出された線形フィルタは、残響および場合によってはノイズを含む混合物入力信号の過去の観察結果に適用されて、残響除去のために、残響の過去の観察結果から混合物入力信号におけるターゲットソース信号の後期残響(late reverberation)が推定される。推定された後期残響は、さまざまなソースから受信された音響信号混合物から差し引かれて、音響信号混合物におけるターゲットスピーチ信号が推定される。いくつかの実施形態では、フィルタも、ターゲットスピーチ信号の時間変化するパワースペクトル密度(PSD:Power Spectral Density)を用いて推定され得る。PSDは、信号の周波数領域にわたる信号のパワーの分布である。そのような線形フィルタは、教師なしの態様でWPEを使用して繰り返し推定され得る。しかし、フィルタ推定のためのWPEの反復手順は、準最適な結果につながる可能性があり、計算コストが高い可能性がある。
上記のWPEの不備を克服するために、フィルタ推定のための反復手順は、DNNベースのWPE(DNN-WPE)アプローチに置換され得る。DNN-WPEは、フィルタ推定のために、DNNによって推定された振幅をターゲットスピーチ信号のPSDとして使用する。しかし、DNN-WPEは、初期反射(early reflection)を減少させることができない。なぜなら、DNN-WPEは、自明な解を回避するために厳密な非ゼロフレーム遅延を必要とし、DNNによって推定された位相をフィルタ推定に利用するための機構を有することができないからである。また、DNN-WPEは、ノイズ信号に起因する干渉に対するロバスト性が無い場合がある。例えば、DNN-WPEは、ノイズを含む過去の観察結果をノイズを含む現在の観察結果に関連付けるフィルタを推定し、それによってフィルタ推定精度を制限する場合がある。また、DNN-WPEは、線形予測結果をその出力として直接使用し、その結果、残響の減少が部分的または最小限になる場合がある。
その目的のために、いくつかの実施形態の別の目的は、残響除去のために初期反射も後期残響も除去することである。初期反射および後期残響は、畳み込み予測アプローチを使用して除去することができる。畳み込み予測アプローチは、DNNによって推定された振幅および位相を両方ともフィルタ推定に活用する。また、畳み込み予測アプローチは、(上記のDNN-WPEアプローチと同様に)線形フィルタに対して閉形式解を提供し、これらの閉形式解は、オンラインリアルタイム処理アプリケーションに適しており、音響モデルなどの他のDNNモジュールと共同で訓練され得る。
いくつかの実施形態では、スピーチ信号の残響除去のために、2つのDNNが畳み込み予測アプローチに基づいて訓練される。最初に、2つのDNNのうちの第1のDNNは、入力、すなわち話者の発話を含む音響信号混合物から、ターゲットソース(以下で話者と称される、話をしている人)のダイレクトパス信号の第1の推定値を出力する。ターゲットソースのダイレクトパス信号は、以下ではターゲットダイレクトパス信号と称される。ターゲットダイレクトパス信号の第1の推定値は、畳み込み予測アプローチを使用したフィルタの決定に使用される。フィルタは、何らかの重み付けされた距離関数下で、ターゲットダイレクトパス推定値へのフィルタの適用が、ターゲットダイレクトパス推定値を混合物から差し引くことによって得られる残差にできる限り近くなるようなものである。さらに、フィルタは、時間-周波数ドメインにおいてターゲットダイレクトパス信号の第1の推定値に適用される。フィルタがターゲットダイレクトパス信号の第1の推定値に適用されると、推定されたターゲットダイレクトパス信号の遅延コピーおよび減衰コピーを音響信号混合物から識別する結果が得られる。これらの遅延コピーおよび減衰コピーは、本明細書では、残響に起因して複数の経路において反射されるターゲットダイレクトパス信号の派生信号である。例えば、ターゲットダイレクトパス信号は、部屋などの環境内のさまざまな物体によってさまざまな方向に反射される。そのような識別された遅延コピーおよび減衰コピーは、残響除去のために音響信号混合物から除去される。遅延コピーおよび減衰コピーの除去は、残響を減少させた混合物を生成する。
フィルタがターゲットダイレクトパス信号の第1の推定値に適用されたときに得られた結果は、上記の構成によって、距離関数に従って音響信号混合物とターゲットダイレクトパス信号の第1の推定値との間の残差に最も近くなる。距離関数は、フィルタリングされたターゲットダイレクトパス信号と、ターゲットダイレクトパス推定値を混合物から差し引くことによって得られる残差との間の重み付けされた距離であり、時間-周波数ドメインにおける各時間-周波数点における重みは、音響信号混合物およびターゲットダイレクトパス信号の第1の推定値のうちの1つまたはこれらの組み合わせによって決定される。いくつかの実施形態では、距離関数は、最小二乗距離に基づく。さらに、フィルタをターゲットダイレクトパス信号の第1の推定値に適用した結果が音響信号混合物から除去されて、ターゲットダイレクトパス信号の残響を減少させた混合物が得られる。いくつかの実施形態では、この残響を減少させた混合物は、2つのDNNのうちの第2のDNNに入力される。第2のDNNは、ターゲットダイレクトパス信号の第2の推定値を出力し、この第2の推定値は、ターゲットダイレクトパス信号の第1の推定値と比較して、ターゲットダイレクトパス信号の向上した推定値であり得る。また、第2のDNNは、第1のDNNのステップと同様のステップを実行し得る。しかし、いくつかの実施形態では、第2のDNNは、音響信号混合物、残響を減少させた混合物、およびターゲットダイレクトパス信号の第1の推定値のうちの1つまたはこれらの組み合わせなどの、信号の異なるセットを入力とすることができる。
いくつかの実施形態では、第1のDNNは、話者分離の目的で訓練され得る。その目的のために、第1のDNNは、複数の話者からのある話者についてのターゲットダイレクトパス信号の第1の推定値に対応する複数の出力を生成する。さらに、フィルタの推定および残響を減少させた混合物の取得が複数の話者の各々について繰り返されて、複数の話者の各々について対応するフィルタおよび対応する残響を減少させた混合物が生成される。次いで、複数の話者の各々についての対応する残響を減少させた混合物が組み合わせられて、複数の話者の各々についての組み合わせられた残響を減少させた混合物が第2のDNNに投入される。次いで、第2のDNNは、複数の話者の各々についてターゲットダイレクトパス信号の第2の推定値を生成する。
追加的にまたは代替的に、残響を減少させた混合物、すなわち遅延コピーおよび減衰コピーは、第2のDNNがターゲットダイレクトパス信号の第2の推定値を決定するための追加の特徴として利用されてもよく、これは、残響除去を向上させる。追加的にまたは代替的に、遅延コピーおよび減衰コピーに対応する特徴は、話者分離タスクにも使用されてもよい。いくつかの例示的な実施形態では、遅延コピーおよび減衰コピーは、線形回帰問題に基づいて識別され得る。いくつかの実施形態では、音響信号混合物およびターゲットダイレクトパス信号の第1の推定値のうちの1つまたはこれらの組み合わせが第2のDNNへの入力として提供されて、ターゲットダイレクトパス信号の第2の推定値が生成され得る。いくつかの実施形態では、音響信号混合物、第1の推定値、および残響を減少させた混合物が第2のDNNへの入力として提供されて、ターゲットダイレクトパス信号の第2の推定値が決定される。
また、いくつかの実施形態は、複数の話者の個々の話者または各話者が異なるRIRで畳み込み処理される、という理解に基づく。WPE法は、全てのソースの残響を減少させるために単一のフィルタを推定する。しかし、混合物の残響除去のために単一のフィルタを算出することは、ノイズまたは競合話者がターゲットソースよりも大音響である場合には実現不可能であろう。このように計算されたフィルタは、より高いエネルギのソースの残響を抑制する方に偏っている。その目的のために、各ソースについて残響除去フィルタを推定する必要があり、その理由は、各ソースが異なるRIRで畳み込み処理されるからである。DNN-WPE法は、各ソースについて異なるフィルタを算出することができるが、各ソースの推定されたPSDを、DNN-WPEが線形予測フィルタの推定に使用する距離関数における重みとして使用することによってのみ異なるフィルタを算出することができ、これは、それらの異なるフィルタの精度および種類を制限する可能性がある。
いくつかの実施形態は、部屋の中に複数の話者がいる場合には、残響除去のために、対応するフィルタが各々の個々の話者について推定される、という認識に基づく。複数話者の場合、音響信号混合物は、複数の話者からのスピーチ信号を含む。そのような場合、第1のDNNは、複数の話者の各々についてターゲットダイレクトパス信号の対応する第1の推定値を生成する。複数の話者の各々について残響を減少させた混合物を生成するために、各話者について第1の推定値を決定するためのステップと、各話者についてフィルタを決定するためのステップと、各話者についての第1の推定値および残響を減少させた混合物のうちの1つまたはこれらの組み合わせを投入するためのステップとは、組み合わせられて、第2のDNNに投入されて、複数の話者の各々についてターゲットダイレクトパス信号の第2の推定値が生成され得る。
いくつかのケースでは、音響信号混合物は、単一のマイクロフォンなどの単一のチャネルから受信される場合もあれば、マイクロフォンのアレイなどの複数のチャネルから受信される場合もある。各々の異なるチャネルは、音響信号混合物の異なるバージョンを測定する。DNNは、基準チャネルまたは各チャネルにおけるターゲットダイレクトパス信号を推定するように訓練され得る。訓練は、1つまたは複数のチャネルにおける複合スペクトルマッピングに基づき得る。DNNは、1つまたは複数のチャネルにおけるターゲットダイレクトパス信号の時間-周波数ドメインにおける推定値と基準との間の距離が最小化されるように1つまたは複数のチャネルにおけるターゲットダイレクトパス信号の時間-周波数ドメインにおける推定値を出力するように訓練される。マイクロフォンのアレイの場合、ビームフォーミング出力を得ることができる。ビームフォーミング出力は、マイクロフォンのアレイの各マイクロフォンにおけるターゲットダイレクトパス信号の第1の推定値およびターゲットダイレクトパス信号の残響を減少させた混合物のうちの1つまたはこれらの組み合わせから算出された統計に基づいて取得することができる。ビームフォーミング出力は、第2のDNNに入力されて、複数の話者の各々についてターゲットダイレクトパス信号の第2の推定値が生成され得る。追加的にまたは代替的に、ビームフォーミング出力および残響除去結果は、第2のDNNがよりよい分離および残響除去タスクを実行するための追加の特徴として使用されてもよい。
いくつかの実施形態では、第1のDNNは、観察された音響信号混合物からターゲットダイレクトパス信号の第1の推定値を得るように事前に訓練され得る。第1のDNNの事前訓練は、音響信号混合物の訓練データセットと当該訓練データセットの中の対応する基準ターゲットダイレクトパス信号とを使用して実行され得る。特に、第1のDNNの事前訓練は、損失関数を最小化することによって実行され得る。損失関数は、複合時間-周波数ドメインにおけるターゲットダイレクトパス信号の第1の推定値の実数および虚数(RI:Real and Imaginary)成分と、対応する基準ターゲットダイレクトパス信号のRI成分とに基づいて定義される距離関数のうちの1つまたはこれらの組み合わせを含み得る。また、距離関数は、複素時間-周波数ドメインにおけるターゲットダイレクトパス信号の第1の推定値のRI成分から得られる大きさと、基準ターゲットダイレクトパス信号の対応する大きさとに基づいて定義され得る。
追加的にまたは代替的に、距離関数は、時間ドメインでの再構築によってターゲットダイレクトパス信号の第1の推定値のRI成分から得られる再構築された波形と、基準ターゲットダイレクトパス信号の対応する波形とに基づいて定義されてもよい。
いくつかの代替的な実施形態では、距離関数は、再構築された波形を第2の時間-周波数ドメインにおいてさらに変換することによって得られる第2の複素時間-周波数ドメインにおける第1の推定値のRI成分と、第2の時間-周波数ドメインにおける基準ターゲットダイレクトパス信号の対応するRI成分とに基づいて定義されてもよい。
いくつかの代替的な実施形態では、距離関数は、再構築された波形を第2の時間-周波数ドメインにおいてさらに変換することによって得られる第2の複素時間-周波数ドメインにおける第1の推定値のRI成分から得られる大きさと、第2の時間-周波数ドメインにおける基準ターゲットダイレクトパス信号の対応する大きさとに基づいて定義されてもよい。
いくつかの例示的な実施形態では、ターゲットダイレクトパス信号の第1の推定値をターゲットダイレクトパス信号の第2の推定値と置換して、ターゲットダイレクト信号の更新された第1の推定値を得ることができる。第1の推定値を得るステップと、フィルタを得るステップと、第1の推定値および残響を減少させた混合物を投入するステップとを、ターゲットダイレクト信号の更新された第1の推定値について繰り返して、ターゲットダイレクト信号の更新された第2の推定値を得ることができる。
いくつかの例において、複数話者のシナリオでは、上記のステップは、複数の話者の各々について繰り返されて、複数の話者の各々について対応するフィルタが生成される。さらに、複数の話者のうちの他の話者の残響スピーチを音響信号混合物から除去することによって、複数の話者のうちのある話者に対応する、受信された音響信号混合物の部分が抽出され得る。複数の話者のうちの他の話者の残響スピーチの推定値は、他の話者についての対応するフィルタを他の話者についてのターゲットダイレクトパス信号の第1の推定値に適用した結果に、他の話者についてのターゲットダイレクトパス信号の第1の推定値を追加することによって得られる。抽出後、複数の話者の各話者について残響を減少させた混合物を推定するためのフィルタが、受信された混合物の当該部分に基づいて推定され得る。
いくつかの実施形態は、畳み込み予測アプローチに基づくスピーチ信号の残響除去の有効性を示す、スピーチ残響除去および話者分離に関する評価結果を提供する。
したがって、本開示の一実施形態は、スピーチ信号の残響除去のための、コンピュータによって実行される方法を開示する。上記方法は、ターゲットダイレクトパス信号と上記ターゲットダイレクトパス信号の複数の残響とを含む音響信号混合物を入力インターフェイスを介して受信するステップを含む。上記方法は、上記受信された音響信号混合物を第1のDNNに投入して、上記ターゲットダイレクトパス信号の第1の推定値を生成するステップを含む。上記方法は、上記ターゲットダイレクトパス信号の上記第1の推定値の室内インパルス応答(RIR)をモデル化するフィルタを推定するステップを含み、上記フィルタは、上記ターゲットダイレクトパス信号の上記第1の推定値に適用されると、距離関数に従って上記音響信号混合物と上記ターゲットダイレクトパス信号の上記第1の推定値との間の残差に最も近い結果を生成する。上記方法は、上記フィルタを上記ターゲットダイレクトパス信号の上記第1の推定値に適用した上記結果を上記音響信号混合物から除去することによって、上記ターゲットダイレクトパス信号の残響を減少させた混合物を得るステップを含む。上記方法は、上記残響を減少させた混合物を第2のDNNに投入して、上記ターゲットダイレクトパス信号の第2の推定値を生成するステップを含む。上記方法はさらに、上記ターゲットダイレクトパス信号の上記第2の推定値を出力インターフェイスを介して出力するステップを含む。
したがって、本開示の別の実施形態は、スピーチ信号の残響除去のためのシステムを開示する。上記システムは、ターゲットダイレクトパス信号と上記ターゲットダイレクトパス信号の残響とを含む音響信号混合物を受信するように構成された入力インターフェイスを含む。上記システムは、第1のディープニューラルネットワーク(DNN)および第2のDNNを格納するメモリを含む。上記システムは、プロセッサを含み、上記プロセッサは、上記受信された混合物を上記第1のDNNに投入して、上記ターゲットダイレクトパス信号の第1の推定値を生成し、上記ターゲットダイレクトパス信号の上記第1の推定値の室内インパルス応答(RIR)をモデル化するフィルタを推定するように構成されている。上記フィルタは、上記ターゲットダイレクトパス信号の上記第1の推定値に適用されると、距離関数に従って上記音響信号混合物と上記ターゲットダイレクトパス信号の上記第1の推定値との間の残差に最も近い結果を生成する。上記プロセッサはさらに、上記フィルタを上記ターゲットダイレクトパス信号の上記第1の推定値に適用した上記結果を上記受信された混合物から除去することによって、上記ターゲットダイレクトパス信号の残響を減少させた混合物を得るとともに、上記残響を減少させた混合物を第2のDNNに投入して、上記ターゲットダイレクトパス信号の第2の推定値を生成するように構成されている。上記システムはさらに、上記ターゲットダイレクトパス信号の上記第2の推定値を出力するように構成された出力インターフェイスを含む。
さらなる特徴および利点は、以下の詳細な説明を添付の図面と併せ読むことにより、さらに容易に明らかになるであろう。
本開示の例示的な実施形態の非限定的な例としての複数の図面を参照しながら、以下の詳細な説明において本開示をさらに説明する。図中、同様の参照番号は、図面のいくつかの図を通して同様の部分を表す。示されている図面は、必ずしも一定の縮尺で描かれておらず、その代わりに、全体として、ここに開示される実施形態の原理を説明することに重点が置かれている。
上記の図面はここに開示される実施形態を述べているが、説明で述べられるように、他の実施形態も考えられる。本開示は、例示的な実施形態を限定ではなく表現として示す。ここに開示される実施形態の原理の範囲および精神に含まれる、多くの他の修正および実施形態が、当業者によって考案され得る。
以下の説明では、説明の目的で、多数の具体的な詳細が、本開示の完全な理解を提供するために述べられる。しかし、これらの具体的な詳細がなくても本開示を実施できるということは当業者に明らかであろう。他の事例では、本開示を不明瞭にすることを回避するために、装置および方法はブロック図の形式でのみ示される。添付の特許請求の範囲に記載されている開示されている主題の精神および範囲から逸脱することなく要素の機能および配置に対してなされ得るさまざまな変更が意図されている。
本明細書および特許請求の範囲で使用されている「例えば(for example)」、「例として(for instance)」および「など(such as)」という用語、ならびに「備える(comprising)」、「有する(having)」、「含む(including)」という動詞およびこれらの動詞の他の形態は、1つもしくは複数の構成要素または他のアイテムの列挙とともに使用される場合、その列挙がさらに他の構成要素またはアイテムを除外するとみなされてはならないことを意味する、オープンエンドであると解釈されるべきである。「基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される言い回しおよび専門用語は、説明のためのものであって、限定とみなされるべきではない、ということが理解されるべきである。この説明の中で使用される見出しはいずれも、便宜的なものにすぎず、法的または限定的な効果を有するものではない。
以下の説明では、具体的な詳細が、実施形態の完全な理解を提供するために示される。しかし、これらの具体的な詳細がなくても実施形態を実施できるということは当業者によって理解され得る。例えば、開示されている主題におけるシステム、プロセスおよび他の要素は、実施形態を不必要な詳細で不明瞭にすることのないように、ブロック図の形式で構成要素として示され得る。他の事例では、周知のプロセス、構造および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細なしに示され得る。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
説明の大部分は、スピーチをターゲット音源として使用してなされているが、同一の方法は、他のタイプの音声信号にも適用することができる。
図1Aは、本開示の実施形態に係る、スピーチ信号の残響除去のための環境100Aの表現を示す図である。環境100Aは、話者102Aを伴う密閉された環境に対応し得る。図1Aでは、マイクロフォンまたはマイクロフォンのアレイを少なくとも含むデバイス104も示されている。いくつかの例示的な実施形態では、デバイス104は、自動音声認識(ASR:Automatic Speech Recognition)システム、音声信号処理システム、または任意のスピーチ処理システムに対応し得る。
図示された例示的なシナリオでは、話者102Aがスピーチを出力すると、対応する音響スピーチ信号が異なる経路でデバイス104の方に移動し得る。これらの音響スピーチ信号は、図1Aに示されるように、壁反射、天井反射などの物体反射によって線形に歪ませられ得る。特に、話者102Aの音響スピーチ信号は、デバイス104に到達する前にマルチパス方向に歪ませられ、その結果、音響スピーチ信号の残響が生じる。
したがって、デバイス104は、話者102Aのそのような音響スピーチ信号を音響信号混合物として受信する。この音響信号混合物は、無響スピーチ信号と、残響スピーチ信号とを含む。無響スピーチ信号は、ターゲットダイレクトパス信号106Aである。以下で残響108Aと総称される残響スピーチ信号は、非ダイレクトパス信号またはマルチパス信号を含む。いくつかのケースでは、環境100A内に話者102Aが別の話者102Bとともに存在するなど、複数の話者が存在する場合がある。そのような場合、音響信号混合物は、ターゲットダイレクトパス信号106Bと、以下で話者102Bに対応する残響108Bと総称される残響スピーチ信号とを含む。音響信号混合物は、環境100A内の空調装置110などの非ターゲットソースの残響ノイズ信号110Aも含み得る。
いくつかのケースでは、話者102Aおよび/または話者102Bのスピーチ信号は、デバイス104に到達する前に遮られる場合があり、これは図1Bに示されている。
図1Bは、本開示の別の実施形態に係る、スピーチ信号の残響除去のための例示的な表現を示す図である。図1Bの環境100Bに示されるように、話者102Aまたは話者102Bのスピーチ信号は、デバイス104に到達する前にブロック114によって遮られる。ブロック114は、対応する話者(話者102Aまたは話者102Bなど)のスピーチ信号を異なる方向に反射させ得る。そのような反射は、話者102Aまたは話者102Bのスピーチ信号の減衰コピーおよび遅延コピー(図1Bには図示せず)を増加させ得る。デバイス104がブロック114によって遮られる場合、話者102Aまたは話者102Bのスピーチ信号は、対応するターゲットダイレクトパス信号を有することができない。その代わりに、スピーチ信号は、話者102Aに対応するスピーチ信号の最短パス106Cおよび/または話者102Bに対応するスピーチ信号の最短パス106Dなどの最短パスを含み得る。そのような状況において、説明の目的で、本願では、最短パス信号をターゲットダイレクトパス信号とみなし、最短パスよりも長いパスに対応する信号を残響とみなす。
デバイス104は、デバイス104に一体化され得るかまたは組み込まれ得るシステム112を使用して、例えば残響108Aおよび108Bなどの残響を減少させることができる。システム112については、図2を参照してさらに説明する。
図2は、本開示の実施形態に係る、スピーチ信号の残響除去のためのシステム200の概略ブロック図である。システム200は、図1Aおよび図1Bのシステム112に対応する。
いくつかの例示的な実施形態では、システム200は、入力インターフェイス202と、第1のディープニューラルネットワーク(DNN1)(例えば、DNN1206A)および第2のディープニューラルネットワーク(DNN2)(例えば、DNN2206B)を格納するメモリ204と、プロセッサ208と、出力インターフェイス210とを含む。
入力インターフェイス202は、ターゲットダイレクトパス信号(例えば、ターゲットダイレクトパス信号106Aまたはターゲットダイレクトパス信号106B)と、ターゲットダイレクトパス信号の残響(例えば、残響108Aおよび/または残響108B)とを含む音響信号混合物を受信するように構成されている。いくつかの例示的な実施形態では、入力インターフェイス202は、少なくともデバイス104のマイクロフォンまたはデバイス104のマイクロフォンのアレイと接続するように構成され得る。
プロセッサ208は、ターゲットダイレクトパス信号106Aと残響108Aとを含む音響信号混合物をDNN1206Aに投入する。DNN1206Aは、ターゲットダイレクトパス信号106Aの第1の推定値を出力する。環境100Aまたは環境100Bにおいて音信号を生成する話者102Aおよび話者102Bを含む複数話者のシナリオでは、話者102Aおよび102Bの各々に対応するターゲットダイレクトパス信号がDNN1206Aによって推定される。DNN1206Aは、話者102Aおよび102Bの各々についてターゲットダイレクトパス信号の対応する推定値を1つずつ決定する場合もあれば、同時に決定する場合もある。例えば、DNN1206Aは、話者102Aのターゲットダイレクトパス信号106Aの第1の推定値および話者102Bのターゲットダイレクトパス信号106Bの第1の推定値を同時に決定する。
ターゲットダイレクトパス信号106Aの第1の推定値は、受信された音響信号混合物とともに使用されて、ターゲットダイレクトパス信号106Aの第1の推定値の室内インパルス応答(RIR)をモデル化するフィルタが推定される。RIRは、音源(例えば、話者102Aおよび話者102B)とデバイス104内のマイクロフォンとの間の、例えば環境100Aまたは環境100Bなどの部屋のインパルス応答である。RIRをモデル化するフィルタは、出力インターフェイス210を介して出力され得る。
いくつかの実施形態では、ターゲットダイレクトパス信号の第1の推定値のRIRをモデル化するフィルタは、フィルタがターゲットダイレクトパス信号106Aの第1の推定値に適用されると、対応する結果が、距離関数に従って、音響信号混合物とターゲットダイレクトパス信号の第1の推定値との間の残差に最も近くなるように推定される。いくつかの実施形態では、この距離関数は、時間-周波数ドメインにおける各時間-周波数点における重みで重み付けされた距離に対応し得る。この重みは、受信された音響信号混合物およびターゲットダイレクトパス信号の第1の推定値のうちの1つまたはこれらの組み合わせによって決定され得る。例示的な実施形態では、距離関数は、最小二乗距離に基づき得る。
フィルタをターゲットダイレクトパス信号106Aの第1の推定値に適用した結果が音響信号混合物から除去されると、ターゲットダイレクトパス信号106Aの残響を減少させた混合物が得られる。ターゲットダイレクトパス信号106Aの残響を減少させた混合物は、DNN2206Bへの入力として提供される。DNN2206Bは、ターゲットダイレクトパス信号106Aの第2の推定値を生成する。ターゲットダイレクトパス信号106Aの第2の推定値は、出力インターフェイス210を介して出力される。
話者102Bについても同様に、ターゲットダイレクトパス信号106Bの第2の推定値は、受信された音響信号混合物とともに使用されて、ターゲットダイレクトパス信号106Bの第1の推定値のRIRをモデル化するフィルタが推定される。このフィルタは、ターゲットダイレクトパス信号106Bの第1の推定値に適用されて、対応する結果が得られる。この結果は、音響信号混合物から除去されて、ターゲットダイレクトパス信号106Bの残響を減少させた混合物が得られる。ターゲットダイレクトパス信号106Bの残響を減少させた混合物は、DNN2206Bに入力されて、DNN2206Bは、ターゲットダイレクトパス信号106Bの第2の推定値を生成する。
ターゲットダイレクトパス信号の第2の推定値(ターゲットダイレクトパス信号106Aの第2の推定値またはターゲットダイレクトパス信号106Bの第2の推定値など)が、対応する話者(話者102Aまたは話者102Bなど)の残響除去されたスピーチ信号として得られる。システム200によるスピーチ信号の残響除去については、図3を参照してさらに詳細に説明する。
図3Aは、本開示の実施形態に係る、スピーチ信号の残響除去のためのプロセス300の概略ブロック図である。プロセス300は、システム200によって実行される。例示的な実施形態では、音響信号混合物302(Y)は、システム200の入力インターフェイス202を介して受信される。この音響信号混合物は、話者102Aのターゲットダイレクトパス信号106Aなどのターゲットダイレクトパス信号およびターゲットダイレクトパス信号106Aの残響108Aなどの残響、または、話者102Bのターゲットダイレクトパス信号106Bおよびターゲットダイレクトパス信号106Bの残響108Bを、デバイス110のノイズ信号110Aなどの他のソースの残響とともに含む。受信された音響信号混合物302は、DNN1206Aに投入される。
DNN1206Aは、ターゲットダイレクトパス信号106Aまたはターゲットダイレクトパス信号106Bなどのターゲットダイレクトパス信号の第1の推定値304を決定する。さらに、ターゲットダイレクトパス信号106Aの第1の推定値304の室内インパルス応答(RIR)308をモデル化するためのフィルタ推定値306(以下では、同義的にフィルタ306と称される)が決定される。以下でRIR308と称されるRIRモデル308は、話者102Aおよび/または話者102Bなどのソースとデバイス104などの受信機との間の環境100Aまたは環境100Bなどの環境のインパルス応答に対応し得る。その目的のために、ソースからマイクロフォンへの伝播に起因する絶対遅延および絶対減衰はモデル化されず、ダイレクトパス信号を基準として使用する相対遅延および相対減衰のみがモデル化される。インパルス応答は、ソース位置における実際のドライソース信号については検討されず、基準としての混合物の中の受信されたダイレクトパス信号に対して検討される。説明を簡単にするために、フィルタ推定値306は、ダイレクトパス信号へのフィルタ推定値306の適用がダイレクトパス信号ではなくダイレクトパス信号の初期反射および後期残響のみを含むようなものである。ダイレクトパス信号をさらに含むようにフィルタ推定値306を変更することによって、関連付けられたフルフィルタ推定値307が同等に得られる。これら2つのフィルタ推定値は同等であって、一方は他方から直接的に得ることができる。
いくつかの例示的な実施形態では、音響信号混合物302は、環境100Aまたは環境100Bなどの雑音残響環境において記録されたモノラル信号に対応し得る。そのようなモノラル信号は、ある時間ドメインにおける物理モデルに構築され得る。この物理モデルは、音響信号混合物302(y)と、残響ターゲットスピーチ信号(x)(ターゲットダイレクトパス信号106Aなどのターゲットダイレクトパス信号および残響108Aなどの残響を両方とも含む)と、残響ノイズ信号(例えば、残響ノイズ信号110A)および残響競合話者(例えば、話者102B)を含む非ターゲットソース(v)(例えば、デバイス110)との間の関係を表す。
音響信号混合物302の構築された物理モデルは、表記を簡単にするためにターゲットダイレクトパス信号106Aを固有のターゲットであると考えて、当該時間ドメインにおいて以下のように表すことができる。
式中、「n」は離散時間を表し、「*」は畳み込み演算子を表し、「x」はドライソース信号「a」(例えば、話者102Aからの信号のオリジナルソース)と環境100のRIR「r」、すなわちRIRモデル308との間の線形畳み込みである。
式中、「n」は離散時間を表し、「*」は畳み込み演算子を表し、「x」はドライソース信号「a」(例えば、話者102Aからの信号のオリジナルソース)と環境100のRIR「r」、すなわちRIRモデル308との間の線形畳み込みである。
項「rd」、「re」および「rl」は、それぞれ、環境100のRIR308の直接部分、初期部分および後期部分を表す。項「s」は、ターゲットダイレクトパス信号(ターゲットダイレクトパス信号106Aなど)を表し、ターゲットダイレクトパス信号は、s=a*rdとして定義される。項「h」は、非ダイレクトパス信号(例えば、残響108A)を表し、非ダイレクトパス信号は、初期反射a*reと後期残響a*rlとの合計、すなわちh=a*re+a*rl=a*re+lとして定義される。ダイレクトパスおよび初期反射の両方に対応するRIR308の部分rd+eは、rというダイレクトパスピーク後50ミリ秒までのインパルスのセットとして定義することができ、RIRの初期反射成分reは、re=rd+e-rdとして定義することができる。本願におけるRIRをモデル化するフィルタは、rdに関連して考えられる。すなわち、フィルタの時間の起点は、rdのインパルスの時間であると暗黙的に考えられ、フィルタの要素のスケーリングは、rdのインパルスの高さを基準として考えられる。
音響信号混合物302の上記の物理モデルは、時系列を評価するための短時間フーリエ変換(STFT:Short-Time Fourier Transform)、すなわち短期間ウィンドウにわたる音響信号混合物302のフーリエ変換で構築され得る。STFTドメインにおける音響信号混合物302の物理モデルは、以下のように構築される。
式中、Y(t,f)、X(t,f)、S(t,f)、H(t,f)およびV(t,f)は、それぞれ、時間tおよび周波数fにおける、デバイス104によって取り込まれた音響信号混合物302のSTFT係数、残響ターゲットスピーチのSTFT係数、ターゲットダイレクトパス信号のSTFT係数、初期反射と後期残響とを組み合わせたもののSTFT係数、および非ターゲットソース(例えば、空調装置110)のSTFT係数を表す。対応するスペクトログラムは、Y,X,S,HおよびVによって表される。
式中、Y(t,f)、X(t,f)、S(t,f)、H(t,f)およびV(t,f)は、それぞれ、時間tおよび周波数fにおける、デバイス104によって取り込まれた音響信号混合物302のSTFT係数、残響ターゲットスピーチのSTFT係数、ターゲットダイレクトパス信号のSTFT係数、初期反射と後期残響とを組み合わせたもののSTFT係数、および非ターゲットソース(例えば、空調装置110)のSTFT係数を表す。対応するスペクトログラムは、Y,X,S,HおよびVによって表される。
式(2)においてS(t,f)として表されるターゲットダイレクトパス信号106Aは、DNNを使用して音響信号混合物302のSTFT係数(Y(t,f))から推定される。ターゲットダイレクトパス信号106Aの第1の推定値304として、回復されたターゲットダイレクトパス信号106A(S(t,f))を使用することができる。
その目的のために、いくつかの実施形態では、フィルタ306は、畳み込み予測に基づいて推定される。畳み込み予測は、DNN1206Aによって得られたターゲットダイレクトパス信号106Aの第1の推定値304を順方向にフィルタリングする順方向畳み込み予測(FCP:Forward Convolutive Prediction)に対応する。順方向フィルタリングは、以下の最小化問題を解くことによってフィルタ306を推定し得る。
また、式(6)を解くことは、話者102Aまたは話者102Bなどの対応するターゲット話者の干渉が存在する場合でも優れたフィルタ推定につながる。式(6)は、話者102Aの残響ターゲットスピーチ(X)の観点から再構築され得る。例えば、残響ターゲットスピーチと干渉とを含む音響信号混合物(Y)302は、以下のように定義される。
フィルタ306の推定は、残響ターゲットスピーチXの推定値を得ることができる場合には式(7)を使用してフルフィルタ推定値307を算出することによって向上させることができる。いくつかの実施形態では、各話者の残響スピーチの推定値は、音響信号混合物302から繰り返し除去されて、フィルタ306の推定に使用される残響ターゲット信号が精緻化される。
本実施形態では、FCPの式(4)は、ターゲット話者102Aに関連する残響を除去することができる。ターゲット話者102Aの残響を得ることができることは、複数話者分離タスクにおいて特に有用であり得る。なぜなら、各ターゲット話者は、異なるRIRで畳み込み処理されるからである。その目的のために、いくつかの実施形態では、各話者を残響除去するために異なるフィルタが算出され得る(図6において説明)。例えばフィルタ306などの推定されたフィルタは、別の話者(例えば、話者102B)と非ターゲットソース(例えば、空調装置110)との組み合わせの残響ではなく、ターゲット話者102Aの残響を減少させることに焦点を合わせ得る。非ターゲットソースが存在する場合でもスピーチ信号を残響除去するために、ターゲットダイレクトパス信号106Aの第1の推定値304などのDNN1206Aの出力と、フィルタ306を使用して得られる残響を減少させた混合物とが、スピーチ信号の残響除去に活用され得る。その目的のために、第1の推定値304およびフィルタ306を使用して得られる残響を減少させた混合物がDNN2206Bに入力されて、ターゲットダイレクトパス信号106A(または、ターゲットダイレクトパス信号106B)の第2の推定値314が出力され得る。第2の推定値314などの、DNN2206Bによって生成された出力は、DNN1206Aの出力よりも優れているであろう。なぜなら、DNN2206Bへの入力(すなわち、第1の推定値304およびフィルタ306を使用して得られる残響を減少させた混合物)は、DNN1206Aの入力よりも精緻化されているからである。例えば、第1の推定値304と、DNN1206Aによって出力される、フィルタ306を使用して得られる残響を減少させた混合物とは、干渉が少ないであろう。干渉が少ないこれらの第1の推定値304およびフィルタ306を使用して得られる残響を減少させた混合物がDNN2206Bによって処理されると、対応する出力(すなわち、第2の推定値314)は、DNN1206Aの出力(すなわち、第1の推定値304)よりも優れたものになり得る。したがって、DNN2206Bによって生成された第2の推定値を使用して、畳み込み予測の別の繰り返しを実行して、第2のフィルタおよび第2の残響を減少させた混合物を得ることができ、第2の残響を減少させた混合物は、第2の推定値とともにDNN2206Bに入力されて、精緻化された出力が生成され得る。
いくつかの例示的な実施形態では、RIR308などの、各話者の対応するRIRは、時間-周波数ドメインまたは時間ドメインにおいて周波数ごとに線形回帰問題を解くことによって推定され得る。RIR308をモデル化するフィルタ306は、話者102Aおよび/または話者102Bのターゲットダイレクトパス信号の遅延コピーおよび減衰コピーの識別に使用することができる。残響に起因する繰り返しパターンである遅延コピーおよび減衰コピーは、受信された音響信号混合物302から除去され得る。その目的のために、フィルタ306が第1の推定値304に適用されて、結果310が出力される。結果310は、重み付けされた最小二乗距離関数などの距離関数に基づいて、音響信号混合物302とターゲットダイレクトパス信号の第1の推定値304との間の残差に最も近くなり得る。結果310が音響信号混合物302から除去されると、残響を減少させた混合物312が得られる。
結果310の除去は、残響を減少させた混合物312から遅延コピーおよび減衰コピーを減少させる。遅延コピーおよび減衰コピーは、ターゲットダイレクトパス信号の後期残響および初期反射に対応し得る。これらの初期反射および後期残響は、フィルタ推定値306によってモデル化されるRIR308から識別され得る。初期反射および後期残響を有するRIR308は、図3Bに示されている。
図3Bは、話者102Aなどの話者からの信号のオリジナルソースについての室内インパルス応答(RIR)モデル316Aの表現316を示す図であり、ターゲットダイレクトパス信号320Aに対応するインパルスと、初期反射320Bに対応するインパルスと、後期残響320Cに対応するインパルスとを示している。本願では、話者からの信号のオリジナルソースの代わりに、ターゲットダイレクトパス信号を基準とみなす。言い換えれば、ターゲットダイレクトパス信号へのRIRの適用は、ターゲットダイレクトパス信号とターゲットダイレクトパス信号の初期反射および後期残響との合計である話者の残響信号をもたらす。
図3Cは、本開示の実施形態に係る、周波数ビンfにおいてRIR316Aをモデル化するフィルタ316Bの適用326を示す図である。RIRモデル316AはRIRモデル308に対応し、第1の推定値316Bは、フィルタ推定値306に関連するフルフィルタ推定値307に対応する。
RIRモデル316Aは、時間ドメインにおけるインパルスのシーケンスとして表すことができる構造を有する。例えば、RIRモデル316Aは、振幅軸318Aと時間遅延を表すタップ数軸318Bとを有するグラフとして表される。RIRモデル316Aの構造は、環境100などの環境内の残響に起因して、ターゲットダイレクトパス信号320A(rd)に対応するインパルスと、ターゲットダイレクトパス信号320Aの後期残響320C(rl)が後続するターゲットダイレクトパス信号320A(rd)の離散的な初期反射320B(re)に対応するいくつかのインパルスとを含み得る。ターゲットダイレクトパス信号320Aは、ターゲットダイレクトパス信号106Aまたはターゲットダイレクトパス信号106Bに対応し得る。
いくつかの例示的な実施形態では、初期反射320Bおよび後期残響320Cは,RIRモデル316Aから識別される。各周波数fにおいてK個の係数を使用してフィルタがモデル化されるとすると、周波数fにおけるフィルタ推定値307の係数は、同一の周波数fにおける時刻t-k+1(全てk=1,...,K)における第1の推定値の時間-周波数ビンにk番目の係数を掛けた結果を合計することによるターゲットダイレクトパス信号の第1の推定値304へのフィルタの適用326が、現在の時刻tにおける同一の周波数fにおける残響混合物322に最もよく近づけることができるように得られる。
グラフ316Bに示されるように、グラフ316Bは、ターゲットダイレクトパス信号の第1の推定値304へのK-タップフィルタ324の適用326によって音響信号混合物322(Y)に近づけることを表す。フィルタ324は、ターゲットダイレクトパス信号302Aの第1の推定値304の順方向フィルタリングを最適化することによって推定される。フィルタ324は、フィルタ307の一例である。例えば、フィルタ324のタップKの数は40個に設定されてもよく、これは、時間ドメインにおけるフィルタ長が((40-1)×8+32)ミリ秒であることを意味し得る。
DNN1206AおよびDNN2206Bによるスピーチ信号の残響除去のためのシナリオはさまざまあり得る。例えば、音響信号混合物302は、デバイス104の単一のマイクロフォンによって、またはデバイス104のマイクロフォンのアレイによって、単一の話者(例えば、話者102A)から、または複数の話者(例えば、話者102Aおよび102B)から受信され得る。複数話者の場合、第1のDNN1206Aは、複数の話者の各々についてターゲットダイレクトパス信号の異なる第1の推定値を推定する。さまざまなシナリオでのスピーチ信号の残響除去については、図4、図5および図6を参照してさらに説明する。
図4は、本開示の実施形態に係る、スピーチ信号の残響除去のためのアーキテクチャ表現400の概略図である。図4に示されるように、アーキテクチャ表現400は、DNN1402、DNN2406、およびDNN1402とDNN2406との間の畳み込み予測モジュール404を含む。DNN1402はDNN1206Aに対応し、DNN2406はDNN2206Bに対応する。
いくつかの実施形態は、DNN2406が、残響を減少させた混合物412である精緻化された音響信号混合物を処理するので、第2の推定値410が第1の推定値408よりも優れている、という認識に基づく。第2の推定値410は、第1の推定値408よりもよく機能するようにさらに改良され得る。その目的のために、DNN2406は、第2の推定値410を生成するために、音響信号混合物302および第1の推定値408のうちの1つまたはこれらの組み合わせを入力され得る。いくつかのケースでは、第2の推定値410を生成するために、音響信号混合物302、第1の推定値408および残響を減少させた混合物412がDNN2406に入力されてもよい。いくつかの他のケースでは、第2の推定値410を生成するために、第1の推定値408および残響を減少させた混合物412がDNN2406に入力されてもよい。さらに、ターゲットダイレクトパス信号106Aの第2の推定値410を徐々に精緻化して話者102Aのスピーチ信号の残響除去を向上させるために、フィルタの推定、残響を減少させた混合物412の取得、および残響を減少させた混合物412の投入が繰り返され得る。この繰り返しは、終了条件が満たされると終了され得る。この終了条件は、ユーザ定義の条件に対応し得る。このように、第2の推定値410は、残響を減少させた混合物412を用いて精緻化されるので、第2の推定値410は、第1の推定値408よりも優れているであろう。いくつかの実施形態では、DNN2406は、スピーチ信号の残響除去を向上させる第2の推定値410を出力するように、音響信号混合物302、残響を減少させた混合物412、および第1の推定値408を使用して訓練され得る。
複数話者のいくつかの場合には、受信された音響信号混合物302は、話者102Aおよび話者102Bなどの複数の話者からのスピーチ信号を含み得る。そのような場合、DNN1402は、ターゲットダイレクトパス信号のさまざまな第1の推定値などの複数の出力を生成し得て、これらの複数の出力から、複数の話者についての対応するRIRをモデル化するさまざまなフィルタを得ることができる。これについては図5を参照してさらに説明する。
図5は、本開示のいくつかの実施形態に係る、複数の話者(例えば、話者102Aおよび102B)の場合のスピーチ信号の残響除去のためのアーキテクチャ表現500を示す概略図である。図5に示されるように、アーキテクチャ表現500は、複数話者のシナリオに対応し、DNN1502、DNN2506、およびDNN1502とDNN2506との間の畳み込み予測モジュール504Aおよび畳み込み予測モジュール504Bなどの畳み込み予測モジュールの複数のインスタンスを含む。DNN1502はDNN1206Aに対応し、DNN2506はDNN2206Bに対応する。
残響を減少させた混合物510Aおよび残響を減少させた混合物510Bは、連結されてDNN2506への入力として提供されて、話者102Aおよび102Bについての対応する第2の推定値512Aおよび第2の推定値512Bが出力される。いくつかの例示的な実施形態では、DNN2506には、第2の推定値512Aおよび512Bを出力するために、残響を減少させた混合物510Aとともに第1の推定値508Aが入力され、残響を減少させた混合物510Bとともに第1の推定値508Bが入力され、音響信号混合物302が入力され得る。
いくつかの例示的な実施形態では、複数の話者102Aおよび102Bの各々について対応するフィルタおよび対応する残響を減少させた混合物を生成するために、第1の推定値508Aおよび508Bを第2の推定値512Aおよび512Bと置換することによって第1の推定値508Aおよび508Bについてのフィルタならびに残響を減少させた混合物510Aおよび残響を減少させた混合物510Bが、繰り返され得る。この繰り返しは、ユーザ定義の終了条件が満たされると終了される。この終了条件は、例えば3回の繰り返しの後に終了するなどのユーザ定義の終了条件を含み得る。
いくつかの例示的な実施形態では、残響を減少させた混合物510Aおよび残響を減少させた混合物510Bは組み合わせられてテンソルにされ得る。テンソルは、複数の話者102Aおよび102Bの全ての残響を減少させた混合物を表す次元データ構造である。テンソルは、DNN2506に投入されて、複数の話者102Aおよび102Bの各々について対応する第2の推定値512Aおよび第2の推定値512Bが出力される。
いくつかのケースでは、複数の話者102Aおよび102Bの各々の対応する第2の推定値は、1つずつ推定されてもよく、これについては次に図6で説明する。
図6は、本開示のいくつかの他の実施形態に係る、複数の話者102Aおよび102Bの場合のスピーチ信号の残響除去のためのアーキテクチャ表現600を示す概略図である。図6に示されるように、アーキテクチャ表現600は、複数話者のシナリオに対応し、DNN1602と、DNN2606AおよびDNN2606Bなどの第2のDNNの複数のインスタンスと、DNN1602とDNN2606AおよびDNN2606Bなどの第2のDNNの複数のインスタンスとの間の畳み込み予測モジュール604Aおよび畳み込み予測モジュール604Bなどの畳み込み予測モジュールの複数のインスタンスとを含む。DNN1602はDNN1206Aに対応し、DNN2606AおよびDNN2606Bの各々はDNN2206Bに対応する。
DNN1602は、音響信号混合物302を受信して、複数の話者102Aおよび102Bの各々について対応するターゲットダイレクトパス信号を推定する。例えば、DNN1602は、話者102Aのターゲットダイレクトパス信号106Aの第1の推定値608Aを推定する。DNN1602は、話者102Bのターゲットダイレクトパス信号106Bの第1の推定値608Bを推定する。第1の推定値608Aは畳み込み予測モジュール604Aに入力され、第1の推定値608Bは畳み込み予測モジュール604Bに入力される。
畳み込み予測モジュール604Aは、第1の推定値608AのRIRをモデル化するフィルタを推定する。このフィルタは、第1の推定値608Aに適用されて、ターゲットダイレクトパス信号106Aの残響を減少させた混合物610Aが得られる。同様に、畳み込み予測モジュール604Bは、第1の推定値608BのRIRをモデル化するフィルタを推定する。畳み込み予測モジュール604Bによって出力された推定されたフィルタは、第1の推定値608Bに適用されて、ターゲットダイレクトパス信号106Bの残響を減少させた混合物610Bが得られる。
いくつかの実施形態では、残響を減少させた混合物610Aおよび残響を減少させた混合物610Bの各々は、単にフィルタを対応する話者のターゲットダイレクトパス信号の第1の推定値に適用した結果の代わりに、各フィルタを複数の話者102Aおよび102Bの各々のターゲットダイレクトパス信号の第1の推定値の各々に適用した結果の合計を受信された音響信号混合物から除去することによって得ることができる。したがって、全ての話者cについて、残響を減少させた混合物は、以下のように得ることができる。
同じことが全てのcに当てはまる。
同じことが全てのcに当てはまる。
さらに、残響を減少させた混合物の各々は、DNN2のインスタンスに投入される。残響を減少させた混合物610Aおよび残響を減少させた混合物610Bの各々は、対応するインスタンスDNN2606AおよびDNN2606B(基本的に同一のDNN2であるが異なる入力に適用される)にそれぞれ投入される。DNN2606Aは、話者102Aのターゲットダイレクトパス信号106Aの第2の推定値612Aを出力する。DNN2606Bは、話者102Bのターゲットダイレクトパス信号106Bの第2の推定値612Bを出力する。対応する話者102Aおよび102Bの第2の推定値612Aおよび612Bの各々を出力するDNN2606AおよびDNN2606Bなどの第2のDNNの複数のインスタンスは、複数の話者からの個々の話者のはっきりしたスピーチの取得に使用することができる。
第2の推定値612Aおよび第2の推定値612Bを向上させるために、DNN2606AおよびDNN2606Bは、音響信号混合物、第1の推定値608Aおよび第1の推定値608B、ならびに残響を減少させた混合物610Aおよび610Bのうちの1つまたはこれらの組み合わせを入力され得る。
いくつかの例示的な実施形態では、第1の推定値608Aは、第2の推定値612Aと置換されて、ターゲットダイレクトパス信号106Aの更新された第1の推定値608Aが生成され得る。同様に、第1の推定値608Bは、第2の推定値612Bと置換されて、ターゲットダイレクトパス信号106Bの更新された第1の推定値608Bが生成され得る。さらに、DNN1602によるフィルタの推定、残響を減少させた混合物610Aおよび610Bの推定、ならびに残響を減少させた混合物610Aおよび610Bの投入が繰り返されて、複数の話者102Aおよび102Bの各々のターゲットダイレクトパス信号の更新された第2の推定値が出力され得る。
いくつかの他の例示的な実施形態では、話者(例えば、話者102A)に対応する音響信号混合物の部分が抽出され得る。この部分は、例えば話者102Bなどの他の話者の残響スピーチを音響信号混合物から除去することによって抽出される。複数の話者のうちの他の話者の残響スピーチの推定値は、当該他の話者のターゲットダイレクトパス信号の第1の推定値を、当該他の話者の対応するフィルタを当該他の話者のターゲットダイレクトパス信号の第1の推定値に適用した結果に追加することによって得られる。話者102Aに対応する音響信号の部分の抽出後、抽出された部分の第1の推定値についてのフィルタが推定される。このフィルタは、当該部分に基づいて話者102Aについての残響を減少させた混合物を推定するのに使用される。当該部分の処理は、話者についての推定されたフィルタの品質および対応する第2の推定値の品質を向上させることができる。
いくつかの例示的な実施形態では、単一の話者102Aおよび/または複数の話者102Aおよび102Bの音響信号混合物は、単一のマイクロフォンから受信される場合もあれば、マイクロフォンのアレイから受信される場合もある。その目的のために、DNN1602ならびにDNN2606AおよびDNN2606BなどのDNNは、単一のマイクロフォンおよびマイクロフォンのアレイに対応するスペクトルマッピングに基づいて訓練され得る。このスペクトルマッピングは、音響信号混合物302のRI成分から、例えばターゲットダイレクトパス信号106Aの第1の推定値608Aなどの推定値の実数および虚数(RI)成分(すなわち、周波数)を予測するようにDNN1602を訓練する。音響信号混合物302のRI成分および第1の推定値608AのRI成分は、DNN2606Aに入力されて、ターゲットダイレクトパス信号106Aの第2の推定値が予測され得る。DNN1602は、音響信号混合物の訓練データセットと訓練データセットの中の対応する基準ターゲットダイレクトパス信号とを使用して事前に訓練され得る。
いくつかの実施形態では、DNN1602の事前訓練は、損失関数を最小化することによって実行され得る。この損失関数は、第1の時間-周波数ドメインにおけるターゲットダイレクトパス信号106AのRI成分と、第1の時間-周波数ドメインにおける基準ターゲットダイレクトパス信号のRI成分とに基づいて定義される距離関数のうちの1つまたはこれらの組み合わせを含み得る。基準ターゲットダイレクトパス信号は、発話の訓練データセットから得ることができ、対応する残響混合物は、記録されたRIRまたは合成RIRで基準ターゲットダイレクトパス信号を畳み込み処理して他の干渉信号と合計することによって得ることができる。距離関数は、第1の時間-周波数ドメインにおける推定されたターゲットダイレクトパス信号のRI成分から得られる大きさと、基準ターゲットダイレクトパス信号の対応する大きさとに基づいて定義され得る。
代替的な実施形態では、距離関数は、時間ドメインにおける再構築によって第1の時間-周波数ドメインにおける推定されたターゲットダイレクトパス信号のRI成分から得られる再構築された波形と、基準ターゲットダイレクトパス信号の波形とに基づいて定義されてもよい。また、距離関数は、再構築された波形を第2の時間-周波数ドメインにおいてさらに変換することによって得られる複素時間-周波数ドメインにおけるRI成分と、第2の時間-周波数ドメインにおける基準ターゲットダイレクトパス信号のRI成分とに基づいて定義されてもよい。また、距離関数は、再構築された波形を第2の時間-周波数ドメインにおいて変換することによって得られる第2の時間-周波数ドメインにおけるRI成分から得られる大きさと、第2の時間-周波数ドメインにおける基準ターゲットダイレクトパス信号の対応する大きさとに基づいて定義されてもよい。
話者分離のために、発話に関する順列不変トレーニング(PIT:Permutation-Invariant Training)を使用して、予測されたRI成分に基づく損失が算出され得る。話者102Aおよび102Bなどの複数の話者の話者インデックスc∈{1,...,C}を使用して、C人の話者S(1),...,S(C)間を区別する。損失関数は、以下のように定義される。
いくつかの例示的な実施形態では、音響信号混合物302は、マイクロフォンのアレイから受信され得るマルチチャネル信号に対応し得る。そのようなマルチチャネル信号に対してビームフォーミングが実行され、これについては図7を参照してさらに説明する。
図7は、本開示のいくつかの実施形態に係る、スピーチ信号の残響除去を向上させるためのアーキテクチャ表現700を示す概略図である。アーキテクチャ表現700は、図5のアーキテクチャ表現に類似しているが、最小分散無歪応答(MVDR:Minimum Variance Distortionless Response)ビームフォーミングモジュール704のいくつかのインスタンスをさらに含む。いくつかの例示的な実施形態では、MVDRモジュールの各インスタンスは、マルチチャネル信号についてビームフォーミング出力を出力し得る。ビームフォーミングフィルタは、DNN1502などの第1のDNNによって出力された第1の推定値508A(および/または、第1の推定値508B)などの第1の推定値、残響を減少させた混合物510A(および/または、残響を減少させた混合物510B)、ならびにDNN2506などの第2のDNNによって出力された第2の推定値512A(および/または、第2の推定値512B)などの第2の推定値のうちの1つまたはこれらの組み合わせから算出された統計に基づいて得ることができ、第2の推定値は、2つのDNNの間に畳み込み予測モジュールのみを含む図5のアーキテクチャ表現、またはMVDRビームフォーミングを含む図7のアーキテクチャ表現の以前の繰り返しを使用して得られたであろう。話者についてのビームフォーミング出力は、ビームフォーミングフィルタを残響を減少させた混合物510Aまたは混合物510Bに適用することによって得ることができる。MVDRビームフォーミングモジュールは、DNN1502およびDNN2506などの2つのDNNの間で使用され得る。ビームフォーミング出力514A(および/または、ビームフォーミング出力514B)などのMVDRビームフォーミングモジュールの出力は、DNN2506などの第2のDNNへの入力として使用され得る。いくつかの例示的な実施形態では、ビームフォーミング出力514AなどのMVDRビームフォーミングモジュールの出力は、第1の推定値508Aなどの第1の推定値、残響を減少させた混合物510Aなどの残響を減少させた混合物、および混合物510Bのうちの1つまたはこれらの組み合わせと組み合わせられ得る。いくつかの例示的な実施形態では、全ての話者についてのビームフォーミング出力は、全ての話者についての残響を減少させた混合物、全ての話者についての第1の推定値、および混合物と組み合わせられて、DNN2506への入力として使用される。いくつかの例示的な実施形態では、MVDRビームフォーミングモジュールは、複数のチャネルからの信号を組み合わせてターゲットダイレクトパス信号の優れた推定値を導くことができるように、MVDR技術を使用してビームフォーミングを出力し得る。
その目的のために、MVDRビームフォーミングは、残響を減少させた混合物に適用されて、残響除去および分離タスクをさらに向上させることができる。
さらに、例えばDNN1602およびDNN2606AなどのDNNは、大きさまたは時間ドメインモデルと容易に置換することができ、より高度なDNNアーキテクチャと容易に置換することができる。そのようなモデルのうちの1つについては、図8A、図8B、図8Cおよび図8Dを参照してさらに説明する。
図8A、図8B、図8Cおよび図8Dは、本開示のいくつかの他の実施形態に係る、スピーチ信号の残響除去のためのネットワークアーキテクチャ800を示す概略図である。ネットワークアーキテクチャ800は、DNN1206AおよびDNN2206BなどのDNNに対応する。
ネットワークアーキテクチャ800は、時間畳み込みネットワーク(TCN:Temporal Convolutional Network)806である。TCN806は、4つの層を含んでおり、それらの層の各々は、拡張畳み込みブロック802A、拡張畳み込みブロック802B、拡張畳み込みブロック802C、拡張畳み込みブロック802D、拡張畳み込みブロック802Eおよび拡張畳み込みブロック802F(以下では、拡張畳み込みブロック802A~802Fと称される)などの6つの拡張畳み込みブロックを有している。拡張畳み込みブロック802A~802Fの各々において、パラメータの数を減少させるために1つの一次元(1D)の深さ単位分離可能畳み込み804が使用される。例えば、拡張畳み込みブロック802A~802Fの各々は、スピーチ信号の残響除去のためにおよそ690万個のパラメータを含み得る。これらの多数のパラメータは、1Dの深さ単位分離可能畳み込み804によって減少させることができる。
さらに、TCN806は、エンコーダ808とデコーダ810とを含むU-Netによってはさまれる。エンコーダ808およびデコーダ810の各々において、複数の周波数スケールにおいてDenseNetブロックが挿入される。DenseNetブロックは、DNNの層間のより短い接続を使用してDNN1602およびDNN2606AなどのDNNを訓練するアーキテクチャである。例えば、エンコーダ808は、複数の周波数スケールにおいて、DenseNetブロック808A、DenseNetブロック808B、DenseNetブロック808C、DenseNetブロック808DおよびDenseNetブロック808E(以下では、単にDenseNetブロック808A~808Eと称される)を含む。同様に、U-Netのデコーダ810は、複数の周波数スケールにおいて、DenseNetブロック810A、DenseNetブロック810B、DenseNetブロック810C、DenseNetブロック810DおよびDenseNetブロック810E(以下では、単にDenseNetブロック810A~810Eと称される)を含む。U-Netは、ダウンサンプリングおよびアップサンプリングを通じてスキップ接続および周波数に沿ったモデルコンテキスト情報によってきめ細やかな局所構造を維持することができる。TCN806は、時間ドメインに沿った拡張畳み込みを使用することによって、受信された音響信号混合物の長期的な情報を活用する。DenseNetブロック808A~808Eは、特徴の再使用を可能にし、話者分離タスクにおける複数の話者102Aおよび102Bのスピーチ信号の識別性を向上させる。
エンコーダ808は、1つの二次元(2D)畳み込み812と、畳み込みブロック814A、畳み込みブロック814B、畳み込みブロック814C、畳み込みブロック814D、畳み込みブロック814E、畳み込みブロック814Fおよび畳み込みブロック814G(以下では、畳み込みブロック814A~814Gと称される)などの7つの畳み込みブロックとを含む。畳み込みブロック814A~814Gの各々は、ダウンサンプリング、すなわち例えば音響信号混合物704などの入力信号のサンプリングレートまたはサンプルサイズ(サンプル当たりのビット)を下げるために、2D畳み込みと、指数関数的線形ユニット(ELU:Exponential Linear Unit)非線形性と、インスタンス正規化(IN:Instance Normalization)とを含む。2D畳み込みは、ターゲットダイレクトパス信号の推定値に対応する特徴抽出の必須成分を形成する。ELUは、DNN(例えば、DNN1602およびDNN2606A)のための活性化関数であり、INは、DNN1602およびDNN2606Aにおいて隠れ状態ダイナミクスを安定させるための正規化層である。
デコーダ810は、元のサンプル間にゼロ値サンプルを追加してサンプリングレートを上げることによるアップサンプリングのために、ELUおよびINおよび1つの2D逆畳み込み820とともに、逆畳み込み816A、逆畳み込み816B、逆畳み込み816C、逆畳み込み816D、逆畳み込み816E、逆畳み込み816Fおよび逆畳み込み816G(以下では、逆畳み込み816A~816Gと称される)などの2D逆畳み込みの7つのブロックを含む。
上記のように、複数の話者102Aおよび102Bの残響を減少させた混合物(残響を減少させた混合物510Aおよび残響を減少させた混合物510Bなど)は、テンソルで表現される。テンソルは、featureMapstimeStepsfrequencyChannelsの形式である。畳み込みブロック814A~814G(すなわち、Conv2D+ELU+IN)および逆畳み込み816A~816G(すなわち、Deconv2D+ELU+IN)ブロックの各々は、kernelSizeTimekernelSizeFreq, (stridesTime,stridesFreq), (paddingsTime,paddingsFreq)およびfeatureMapsの形式で指定される。
DenseBlock(g1,g2)などのDenseNetブロック808A~808Eの各々は、DenseNetブロック808A~808Eの最初の4つの層の成長率g1および最後の層の成長率g2を有する5つのConv2D+ELU+INブロックを含む。各TCNブロック806後のテンソル形状は、featureMapstimeStepsの形式である。各IN+ELU+Conv1Dブロックは、kernelSizeTime, stridesTime, paddingsTime, dilationTime, featureMapsの形式で指定される。
図9は、本開示の実施形態に係る、スピーチ信号の残響除去のための方法900のフロー図である。方法900は、システム200によって実行される。動作902において、方法900は、ターゲットダイレクトパス信号(例えば、ターゲットダイレクトパス信号106A)とターゲットダイレクトパス信号の残響とを含む音響信号混合物(例えば、音響信号混合物302を入力インターフェイスを介して受信するステップを含む。音響信号混合物は、入力インターフェイスに接続された単一のマイクロフォンまたはマイクロフォンのアレイから受信され得るシングルチャネル信号またはマルチチャネル信号のうちの少なくとも1つを含み得る。
動作904において、受信された音響信号混合物は、DNN1206などの第1のDNNに投入されて、ターゲットダイレクトパス信号106Aの第1の推定値(例えば、第1の推定値408)が生成される。複数話者のシナリオでは、第1のDNNは、複数の話者の各々について対応する第1の推定値を決定する。対応する第1の推定値は、複数の話者の各々について1つずつ決定されてもよく、または複数の話者について同時に決定されてもよい。いくつかの実施形態では、第1のDNNは、観察された音響信号混合物または音響信号混合物の訓練データセットおよび訓練データセットの中の対応する基準ターゲットダイレクトパス信号のうちの少なくとも1つに基づいて第1の推定値を生成するように事前に訓練され得る。第1のDNNの事前訓練は、損失関数を最小化することによって実行され得る。
動作906において、室内インパルス応答(RIR)(例えば、RIRモデル308)をモデル化するフィルタ(例えば、フィルタ306)がターゲットダイレクトパス信号106Aの第1の推定値408について推定され、フィルタは、フィルタをターゲットダイレクトパス信号の第1の推定値に適用した結果が、距離関数(例えば、最小二乗距離関数)に従って、音響信号混合物とターゲットダイレクトパス信号の第1の推定値との間の残差に最も近くなるように推定される。いくつかの実施形態では、フィルタは、畳み込み予測に基づいて推定される線形フィルタ構造に対応する。第1の推定値は、(図3A、図3B、図4、図5および図6において説明した)畳み込み予測の線形フィルタを使用して時間-周波数ドメインにおいて周波数ごとに順方向にフィルタリングされる。いくつかの例示的な実施形態では、受信された音響信号混合物は、複数の話者からのスピーチ信号を含む。第1のDNNは、複数の出力を生成し、各出力は、複数の話者からのある話者についてのターゲットダイレクトパス信号の第1の推定値を含む。いくつかの実施形態では、第1の推定値の初期反射(例えば、初期反射320B)および後期残響(例えば、後期残響320C)は、フィルタによってモデル化されたRIRに基づいて識別され得る。識別された初期反射および後期残響は、第1の推定値から除去されて、音響信号混合物が推定され得る。
動作908において、ターゲットダイレクトパス信号106Aの残響を減少させた混合物は、フィルタをターゲットダイレクトパス信号106Aの第1の推定値408に適用した結果を、受信された混合物から除去することによって、得られる。いくつかの実施形態では、第2のDNNは、推定されたフィルタのセットと推定されたターゲットダイレクトパス信号のセットとを使用して得られた拡張データから作成された訓練データセットに基づいて訓練されて、残響混合物が作成され得る。
動作910において、残響を減少させた混合物は、第2のDNN(例えば、DNN2206B)に投入されて、ターゲットダイレクトパス信号の第2の推定値が生成される。いくつかの例示的な実施形態では、受信された音響信号混合物およびターゲットダイレクトパス信号の第1の推定値のうちの1つまたはこれらの組み合わせが第2のDNNに投入されて、ターゲットダイレクトパス信号の第2の推定値が生成される。いくつかの他の例示的な実施形態では、受信された音響信号混合物、ターゲットダイレクトパス信号の第1の推定値、および残響を減少させた混合物が第2のDNNに投入されて、ターゲットダイレクトパス信号の第2の推定値が生成される。いくつかのさらに他の例示的な実施形態では、ターゲットダイレクトパス信号の第1の推定値および残響を減少させた混合物が第2のDNNに投入されて、ターゲットダイレクトパス信号の第2の推定値が生成される。いくつかの実施形態では、第2のDNNは、推定されたフィルタのセットと推定されたターゲットダイレクトパス信号のセットとを使用して得られた拡張データから作成された訓練データセットに基づいて訓練されて、残響混合物が作成され得る。
動作912において、ターゲットダイレクトパス信号の第2の推定値は、出力インターフェイス210などの出力インターフェイスを介して出力される。スピーチ信号の残響除去をさらに向上させるために、フィルタを推定するステップ、残響を減少させた混合物を得るステップ、および残響を減少させた混合物を投入するステップが第1のDNNの複数の出力の各々について繰り返され得る。また、出力インターフェイスは、フィルタによってモデル化されたRIRを出力するように構成され得る。出力されたRIRは、室内音響パラメータ分析、部屋ジオメトリ再構築、音声強調、およびスピーチ信号の残響除去のうちの1つまたはこれらの組み合わせのための音声分析の実行に使用することができる。
いくつかの例示的な実施形態では、推定値、すなわちターゲットダイレクトパス信号の第1の推定値および第2の推定値と、ターゲットダイレクトパス信号のフィルタとを使用したスピーチ信号の残響除去は、3つのタスク、すなわち1)弱い定常ノイズを用いたスピーチ残響除去、2)ホワイトノイズを用いた残響状況における二話者分離、および3)難易度の高い非定常ノイズを用いた残響状況における二話者分離、について評価される。評価結果は、図10、図11および図12に示される。
図10は、本開示の実施形態に係る、スピーチ信号の残響除去のためのシミュレートされたテストセットに対応する表形式表現1000を示す図である。表形式表現1000は、残響除去に使用されるデータセット、残響話者分離および音声強調タスク、ハイパーパラメータ設定、ならびにスピーチ信号の残響除去のためのベースラインシステムを示す。また、表形式表現1000は、REVERBコーパスのASRタスクに関する結果も示す。
スピーチ信号の残響除去のために、例えばDNN1206AおよびDNN2206BなどのDNNは、空調ノイズが弱い状態で、シミュレートされた残響データセットを使用して訓練され得る。訓練されたDNNをシミュレートされたテストセット上で評価することに加えて、DNNは、残響音声強調および認識ベンチマーク(REVERB:Reverberant Voice Enhancement and Recognition Benchmark)コーパスに直接適用されて、実際に記録された雑音残響発話の処理に対する有効性が示される。REVERBコーパスは、自動音声認識技術の評価のためのベンチマークである。データセットは、WSJCAM0コーパスから得られるシミュレーションのためのクリーンな信号も含む。WSJCAM0コーパスは、その訓練セット、検証セットおよびテストセットの中に、それぞれ7,861個の発話、742個の発話および1,088個の発話を含んでいる。WSJCAM0コーパスにおけるこれらの発話を使用して、訓練セット、検証セットおよびテストセットとして、それぞれ39,305(7,861×5)個のノイズを含む残響混合物、2,968(742×4)個のノイズを含む残響混合物、および3,264(1,088×3)個の雑音残響混合物をシミュレートする。続いて、データ空間化プロセスが実行されて、スピーチ信号の残響除去のために推定されたRIRを使用して、ランダムな部屋特徴ならびに話者およびマイクロフォン位置で、各発話について、部屋がランダムにサンプリングされる。話者とマイクロフォンとの間の距離は、範囲[0.75,2.5]mからサンプリングされる。残響時間(T60)は、範囲[0.2,1.3]秒から導き出される。各発話について、拡散空調ノイズがREVERBコーパスからサンプリングされて、話者の残響スピーチに追加される。無響スピーチとノイズとの間の信号対雑音比は、範囲[5,25]dBからサンプリングされる。サンプリングレートは16kHzである。
訓練されたモデルは、再訓練なしに実際的な残響記録に適用され、REVERBのASRタスクに適用される。テスト混合物は、残響時間T60がおよそ0.7秒である状態で、話者とマイクロフォンとの間の距離が近傍界の場合にはおよそ1mであって、遠方界の場合には2.5mである状態で、部屋(例えば、環境100)において記録された実際の記録から得られる。記録されたノイズは、拡散空調ノイズであり、弱い。
雑音残響スピーチとREVERBのクリーンなソース信号とを使用して訓練されるASRのためのバックエンドを構築するために、Kaldiなどのソフトウェアにおいて、公式のREVERBコーパスが使用される。例示的な実施形態では、続いて、ASRのためにプラグアンドプレイアプローチが実行されて、強調された時間ドメイン信号が復号のためにバックエンドに直接入力される。
残響話者分離タスクのために、6チャネル空間化複数話者ウォールストリートジャーナル(SMS-WSJ:Spatialized Multi-Speaker Wall Street Journal)データセットが使用される。SMS-WSJデータセットは、残響状況におけるシミュレートされた二話者混合物を含む。クリーンなスピーチは、WSJ0データセットおよびWSJ1データセットからサンプリングされる。コーパスは、訓練、検証およびテストのために、それぞれ33,561個の二話者混合物、982個の二話者混合物、および1,332個の二話者混合物を含んでいる。話者とアレイとの間の距離は、範囲[1.0,2.0]mからサンプリングされ、T60は、範囲[0.2,0.5]秒から導き出される。マイクロフォンノイズをシミュレートするために、弱いホワイトノイズが追加される。残響ターゲットスピーチ信号の合計とノイズとの間のエネルギレベルは、範囲[20,30]dBからサンプリングされる。サンプリングレートは8kHzである。6チャネルSMS-WSJデータセットの第1のチャネルが訓練および評価に使用される。さらに、訓練ターゲットとしての直接音が使用され、残響除去タスクも分離タスクも実行される。
ASRのために、SMS-WSJデータセットに規定されたデフォルトのKaldiベースのバックエンド音響モデルが使用され、このモデルは、単一話者雑音残響スピーチを入力として使用し、その対応するダイレクトパス信号の状態アラインメントをラベルとして使用して、訓練される。第1のチャネル、第3のチャネルおよび第5のチャネルにおける信号(すなわち、マイクロフォンよりも多くのもの)が音響モデルの訓練に使用される。タスク標準トリグラム言語モデルが復号に使用される。
雑音残響話者分離タスクは、雑音残響WSJ0ヒップスター周囲混合物(WHAMR!)データセットを使用して評価される。WHAMR!は、wsj0-2mixデータセットにおける二話者混合物と、雑音残響バイノーラル二話者分離に使用されるノイズ背景シーンとを対にする。この評価において、クリーンな二話者混合物はWSJ0-2mixデータセットにおいて再使用されて、各々のクリーンな信号が反響されて、WHAM!に記録された非定常環境ノイズが追加される。残響時間T60は、範囲[0.2,1.0]秒からランダムにサンプリングされる。より大声の話者とノイズとの間の信号対雑音比は、範囲[-6,3]dBから導き出される。各混合物における二話者間のエネルギレベルは、範囲[-5,5]dBからサンプリングされる。話者とアレイとの間の距離は、範囲[0.66,2.0]mからサンプリングされる。訓練セット、検証セットおよびテストセットには、それぞれ20,000個のバイノーラル混合物、5,000個のバイノーラル混合物および3,000個のバイノーラル混合物がある。使用されるコーパスは、1分および8kHzバージョンである。
STFTのために、ウィンドウ長は32ミリ秒であり、ホップサイズは8ミリ秒であり、分析ウィンドウはHannウィンドウの平方根である。サンプリングレートが16kHzである場合には、257次元のSTFT特徴を抽出するために512ポイントFFTが適用され、サンプリングレートが8kHzである場合には、129次元の特徴を抽出するために256ポイントFFTが使用される。センテンスレベルまたはグローバルレベルの平均分散正規化は入力特徴に対して実行されない。各混合物について、任意の処理の前にそのサンプル分散を1に正規化する。訓練中、混合物のスケーリングに使用される係数と同一の係数によってターゲット信号をスケーリングする必要がある。
WPEおよびDNN-WPEのために、フィルタタップの数Kは37に設定され、フィルタ遅延Δは3に設定される。WPEにおける繰り返し回数は3に設定される。PSDコンテキストは使用されない。検証セットに基づいて、KおよびΔは、40および0、39および1、38および2、37および3、ならびに36および4に調整され、それらのうち、フィルタタップおよびフィルタ遅延を37および3に設定することがデータセット全体にわたって最も上手く機能した。畳み込み予測のために、Kは40に設定され、これにより、WPEにおけるコンテキストの量と同一のコンテキストの量になる。これは、時間ドメインにおけるフィルタ長が344(=(40-1)×8+32)ミリ秒であることを意味する。フィルタタップKは、125まで増やされ、これは1.0秒までのRIR長に対応する。これは、線形回帰ステップに費やされる計算の量の増加を招くが、評価スコアの点では大きな差がない。RIRは、ピークインパルス後に大部分が0.35秒の範囲内にエネルギを有する。残響除去結果の算出に使用されるフロア値εは、重みが使用されないことを示す1.0に設定されるか、または0.001に設定される。各T-F単位におけるPSDは、最も高いエネルギを有するT-F単位よりも-30dB低いであろう。
全てのタスクのために、主要な評価メトリックは、スケール不変信号対歪み比(SI-SDR:Scale-Invariant Signal-to-Distortion Ratio)である。SI-SDRは、時間ドメインサンプルレベル予測の品質を測定する。拡張短時間客観的了解度(eSTOI:extended Short-Time Objective Intelligibility)および音声品質の知覚評価(PESQ:Perceptual Evaluation of Speech Quality)スコアが測定される。PESQでは、パイソン-pesqツールキットを使用して、ITU P.862.1規格に基づいて、狭帯域MOS-LQOスコアが報告される。メトリック算出のための基準は、RIRにおいて残響時間T60パラメータをゼロに設定することによって得られるターゲットダイレクトパス信号から使用される。ASRの単語誤り率(WER:Word Error Rate)も表形式表現1000に示されている。
表形式表現1000において、ターゲットダイレクトパス信号は「d」で表され、初期反射を有するターゲットダイレクトパス信号は「d+e」で表され、初期反射およびノイズを有するターゲットダイレクトパス信号は「d+e+v」で表される。
表形式表現1000に示されるように、第1のDNN(DNN1)の第1の推定値が最終的な予測であると考えられる場合、DNN1の訓練ターゲットは、他の2つ(すなわち、「d+e」および「d+e+v」)よりも優れたパフォーマンスを示す。DNN1の訓練ターゲットとしてさまざまなものを使用する場合と比較して、DNN1出力を適用してWPEを向上させるDNN1-WPEでは大きな差はない。しかし、ターゲットダイレクトパス信号を使用してDNN1を訓練することは、音響信号混合物とDNN1の出力とを使用して2つのDNNを積層するDNN1+DNN2、すなわちターゲットダイレクトパス信号の第1の推定値を使用して第2のDNN2を訓練するDNN1+DNN2においてパフォーマンスの向上を示す、ということが分かる。
また、表形式表現1000は、2つのDNN、すなわちDNN1およびDNN2の間で逆畳み込み予測(ICP:Inverse Convolutive Prediction)法、順方向畳み込み予測(FCP:Forward Convolutive Prediction)法または重み付き予測誤差(WPE)法を使用することの比較を含み、フロア値εが0.001に設定されたDNN1+FCP+DNN2は、DNN1+WPE+DNN2およびDNN1+ICP+DNN2よりも優れたパフォーマンスを示す。表形式表現1000に示されるように、実行時に線形または畳み込み予測およびDNN2を1回または複数回の繰り返しで実行することによって、DNN1+(WPE+DNN2)×2およびDNN1+(ICP+DNN2)×2は、SI-SDRおよびPESQの点でわずかな向上を示し、単語誤り率(WER)の点でわずかな低下を示す。一方で、DNN1+(FCP+DNN2)×2は、全てのメトリックに関して向上を示す。これらの結果は、WPEおよびDNN1+WPE+DNN2よりもDNN1+FCP+DNN2アプローチが有効であることを示している。
DNN1+ICP+DNN2において、SI-SDRおよびPESQスコアは、フロア値εを1.0に設定することによって向上した。フロア値が0.001に設定されると、DNN1+FCP+DNN2におけるSI-SDRスコアおよびPESQスコアはさらに向上する。例えば、フロア値が1.0である場合、SI-SDRスコアは11.9であり、PESQスコアは3.15である。フロア値が0.001である場合、SI-SDRスコアは12.3であり、PESQスコアは3.18である。1.0および0.001というフロア値は、訓練されたDNN1をICPおよびFCPを使用して評価するのにも使用される。表形式表現1000に示されるように、フロア値が1.0であるDNN1+ICPでは、SI-SDRスコアは3.2であり、PESQスコアは1.78であり、フロア値が0.001であるDNN1+ICPでは、SI-SDRスコアは0.7であり、PESQスコアは1.77であり、フロア値が1.0であるDNN1+FCPでは、SI-SDRスコアは3.6であり、PESQスコアは1.82であり、フロア値が0.001であるDNN1+FCPでは、SI-SDRスコアは3.0であり、PESQスコアは1.82である。したがって、DNN1+FCP+DNN2は、ICP法およびFCP法を使用してDNN1を訓練するよりも優れたスコアを示す。
全体的に見て、スピーチ残響除去のために、混合物SI-SDRおよびPESQは、1つのDNN(すなわち、DNN1)を使用することによって-3.6dBおよび1.64から8.2dBおよび2.65に向上し、2つのDNN(すなわち、DNN1+DNN2)を使用することによって9.1dBおよび2.82に向上し、2つのDNNの間にFCPモジュールを追加すること(DNN1+FCP+DNN2)によって12.3dBおよび3.18に向上し、FCPおよびDNN2に1回の追加の繰り返しを使用すること(DNN1+(FCP+DNN2)×2)によって12.8dBおよび3.24に向上する。
最後に、第2のDNN2の訓練中に大きさドメイン損失が追加される。単語誤り率(WER)およびPESQに関しては向上が得られるが、SI-SDRはおよそ0.5dBだけ低下する。
図11は、本開示の実施形態に係る、テストデータセットを使用したスピーチ信号の残響除去のための評価結果を示す表形式表現1100を示す図である。評価結果は、SMS-WSJデータセットに関するパフォーマンスと、初期反射を有するターゲットダイレクトパス信号または初期反射を有しないターゲットダイレクトパス信号ならびにスペクトル強度マスク(|S|/|Y|)および位相敏感マスク(|S|/|Y|cos(∠S-∠Y))などのオラクルマスクを使用することによって得られるオラクル結果とを示している。表形式表現1100に示されるように、ASRにオラクルターゲットダイレクトパス信号を使用することにより、初期反射を有するターゲットダイレクトパス信号を使用するよりも優れたWERが得られ(6.4%対7.04%)、これは、初期反射を除去することの潜在的利益を示している。
DNN-WPEでは、複数話者のシナリオのための2つの変形体が使用される。第1の変形体は、DNN1によって生成された各推定ターゲット話者のPSDを使用して、各話者について異なるWPEを算出する。表形式表現1100において、複数話者のシナリオでのDNN-WPEは、DNN1+mfWPE+DNN2で表され、「mf」はマルチフィルタを示す。マルチフィルタは、DNN1によって提供された全ての推定ターゲット話者を合計して、合計された信号のPSDを使用して単一のWPEフィルタを算出して混合物を残響除去する。第2の変形体は、DNN1+sfWPE+DNN2で表され、「sf」はシングルフィルタを示す。
表形式表現1100に示されるように、DNN1+sfWPE+DNN2では、DNN1+mfWPE+DNN2よりもわずかに優れたパフォーマンスが得られ、これは、各ターゲット話者について別々のフィルタを算出することがWPEにとって有効でないことを示唆している。
全ての話者がスピーチ信号を提供しているシナリオは、表形式表現1100において「allSpks」で表され、DNN2は、全てのターゲット話者を同時に強調するように訓練される。表形式表現1100に示されるように、DNN1+sfWPE+DNN2およびDNN1+ICP+DNN2と比較して、DNN1+FCP+DNN2は、全てのメトリックにおいて優れたパフォーマンスを示している。これは、競合話者が存在する場合の残響除去においてWPEよりも(図5および図6において説明した)畳み込み予測の順方向フィルタリングが有効であることを証明している。
DNN2が図6において説明したようにターゲット話者を一人ずつ強調するように訓練される場合(表形式表現1100において「perSpk」で表される)、さらなる向上が実現される。これは、各話者を個々に残響除去することが話者の音声強調を向上させ得ることを示唆している。表形式表現1100に示されるように、畳み込み予測およびDNN2を1回または複数回の繰り返しで繰り返すことにより、着実な向上を実現することができる。また、大きさレベルの損失を含めることによって訓練されるDNN2は、PESQ、eSTOIおよびWERを向上させるが、SI-SDRは低下する。
表形式表現1100において、大きさレベルの損失関数を用いて訓練されたDNN1+(FCP+DNN2)×2ではSI-SDRのスコア、PESQのスコア、eSTOIのスコアおよびWERのスコアがそれぞれ12.2、3.24、89.0および12.77であることがさらに示されている。大きさレベルの損失関数を用いて訓練されたDNN1+(FCP+DNN2)×2は、単一入力単一出力マイクロフォン(SISO1)などの単一のマイクロフォンに対応するスペクトルマッピング、別の複素スペクトルマッピングを用いて訓練されたDNN1+(FCP+DNN2)×2よりも上手く機能することができる(SI-SDRが12.5dB対5.1dB)。大きさレベルの損失関数を用いて訓練されたDNN1+(FCP+DNN2)×2は、DPRNN-TasNetを用いて訓練されたDNN1+(FCP+DNN2)×2よりも上手く機能することができる(SI-SDRが12.5dB対6.5dB)。
また、表形式表現1100は、マイクロフォンのアレイのビームフォーミングを有する6-マイクロフォンSISO(SISO1-BF-SISO2)などのマイクロフォンのアレイに対応するスペクトルマッピングに基づいて訓練されたDNN1およびDNN2のパフォーマンスを示しており、当該SISOは、モノラル複素スペクトルマッピングとビームフォーミングおよび事後フィルタリングとを組み合わせている。これらの結果は、エンドツーエンドDNNと畳み込み予測とを組み合わせることが、話者(例えば、話者102Aおよび102B)のスピーチ信号を含む音響信号混合物における残響を減少させることに有効であり得ることを示唆している。
図12は、本開示のいくつかの他の実施形態に係る、テストデータセットを使用したスピーチ信号の残響除去のための評価結果を示す表形式表現1200を示す図である。表形式表現1200は、WHAMR!データセットに関するSI-SDRを示している。表形式表現1200に示されるように、DNN1+FCP+DNN2は、DNN1+mfWPE+DNN2よりも優れた結果を生成する(SI-SDRが7.4dB対6.8dB)。これは、ノイズおよび競合話者が存在する場合の残響除去においてDNN-FCPがDNN-WPEよりもロバストであり得ることを示している。
また、表形式表現1200は、Wavesplitなどのエンドツーエンド音声分離システムとの比較を示している。DNN1+(FCP+DNN2)×2では、SI-SDRスコアが7.5dBであり、WavesplitのSI-SDRスコア、すなわち5.9dBよりも高い。Wavesplitは、ターゲット話者抽出のために訓練中に話者アイデンティティを副次的情報として使用し得る。DNN1+(FCP+DNN2)×2は、話者アイデンティティの情報の入手可能性に依拠しない。また、データ拡張のためにダイナミックミキシングが適用されてもよく、これにより、SI-SDRがよりよくなる(7.1dB)。DNN1+(FCP+DNN2)×2は、データ拡張なしに訓練されてもよく、これは、ダイナミックミキシングを有するWavesplitよりも上手く機能する。
図13は、本開示の実施形態に係る、音声信号処理システム1300のブロック図である。音声信号処理システム1300は、システム200を使用する。いくつかの例示的な実施形態では、例えばDNN1206AおよびDNN2206Bなどの、スピーチ信号の残響除去のためのDNNを有するシステム200は、リモートサーバ上で実現されてもよく、またはクラウドネットワーク内で実現されてもよい。いくつかの実施形態では、音声信号処理システム1300(以下では、システム1300と称される)は、音声信号処理システム1300へのRIRモデル316AなどのRIRモデルを受信し得る。システム1300は、このRIRモデルを処理して、部屋ジオメトリ再構築、音声強調、およびスピーチ信号の残響除去のうちの少なくとも1つまたはこれらの組み合わせのために音声分析を実行し得る。
いくつかの例示的な実施形態では、システム1300は、音響信号1304を含むデータを環境1306から収集する音響センサなどの1つまたは複数のセンサ1302を含む。環境1306は、環境100に対応する。
音響信号1304は、1つまたは複数のターゲットダイレクトパス信号と、それらの残響とを含み得る。例えば、音響信号1304は、重なり合うスピーチを有する複数の話者と、それらの残響とを含み得る。さらに、センサ1302は、音響入力を音響信号1304に変換し得る。
音声信号処理システム1300は、メモリ1310などのコンピュータストレージメモリと通信するハードウェアプロセッサ1308を含む。メモリ1310は、ハードウェアプロセッサ1308によって実行され得るアルゴリズム、命令および他のデータを含む格納データを含む。特定の用途の要件によってはハードウェアプロセッサ1308が2つ以上のハードウェアプロセッサを含んでいてもよい、ということが考えられる。これらの2つ以上のハードウェアプロセッサは、内部または外部のいずれかにあり得る。音声信号処理システム1300は、数あるデバイスの中で特に出力インターフェイスおよび送受信機を含む他の構成要素に組み込まれてもよい。
いくつかの代替的な実施形態では、ハードウェアプロセッサ1308は、ネットワーク1312に接続され得て、ネットワーク1312は、1つまたは複数のデータソース1314、コンピュータデバイス1316、携帯電話デバイス1318およびストレージデバイス1320と通信する。ネットワーク1312は、非限定的な例として、1つまたは複数のローカルエリアネットワーク(LAN:Local Area Network)および/またはワイドエリアネットワーク(WAN:Wide Area Network)を含み得る。また、ネットワーク1312は、企業規模のコンピュータネットワーク、イントラネットおよびインターネットを含み得る。音声信号処理システム1300は、1つまたは複数の数のクライアントデバイス、ストレージコンポーネントおよびデータソースを含み得る。1つまたは複数の数のクライアントデバイス、ストレージコンポーネントおよびデータソースの各々は、単一のデバイスを含んでいてもよく、またはネットワーク1312の分散環境において協働する複数のデバイスを含んでいてもよい。
いくつかの他の代替的な実施形態では、ハードウェアプロセッサ1308は、クライアントデバイス1324に接続されたネットワーク対応サーバ1322に接続され得る。ハードウェアプロセッサ1308は、外部メモリデバイス1326および送信機1328に接続され得る。さらに、特定のユーザが意図した使用1330に従って、各ターゲット話者について出力が出力され得る。例えば、特定のユーザが意図した使用1330は、モニタまたは画面などの1つまたは複数のディスプレイデバイス上にスピーチをテキスト(スピーチコマンドなど)で表示すること、またはさらなる分析のために各ターゲット話者についてのテキストをコンピュータ関連デバイスに入力することなどに対応し得る。
データソース1314は、音声分離タスクのためにDNN1206AおよびDNN2206BなどのDNNを訓練するためのデータリソースを含み得る。例えば、一実施形態では、訓練データは、同時に話している話者102Aおよび話者102Bなどの複数の話者の音響信号を含み得る。また、訓練データは、一人で話している単一の話者の音響信号、雑音環境で話している単一または複数の話者の音響信号、および雑音環境(例えば、残響ノイズ信号110Aを有する環境100)の音響信号を含み得る。
また、データソース1314は、音声認識タスクのためにDNN1206AおよびDNN2206Bを訓練するためのデータリソースを含み得る。データソース1314によって提供されるデータは、転写データおよび非転写データなどのラベル付きデータおよびラベル無しデータを含み得る。例えば、一実施形態では、データは、1つまたは複数の音を含み、音声認識タスクの初期化に使用され得る対応する転写情報またはラベルも含み得る。
さらに、データソース1314の中のラベル無しデータは、1つまたは複数のフィードバックループによって提供され得る。例えば、サーチエンジン上で実行される口頭のサーチクエリからの使用状況データが非転写データとして提供されてもよい。データソースの他の例は、限定としてではなく例として、ストリーミングサウンドもしくはビデオ、ウェブクエリ、モバイルデバイスカメラもしくは音声情報、ウェブカムフィード、スマートグラスおよびスマートウォッチフィード、顧客ケアシステム、セキュリティカメラフィード、ウェブドキュメント、カタログ、ユーザフィード、SMSログ、インスタントメッセージングログ、話された言葉のトランスクリプト、音声コマンドもしくは取り込まれた画像(例えば、深度カメラ画像)などのゲームシステムユーザ対話、ツイート、チャットもしくはビデオ通話記録、またはソーシャルネットワーキングメディアを含むさまざまな口頭言語音声または画像ソースを含み得る。使用される特定のデータソース1314は、データが特定のクラスのデータ(例えば、マシンシステム、エンターテイメントシステムを含む特定のタイプの音にのみ関連するデータ)であるか、事実上一般的な(クラスに特有でない)データであるかを含むアプリケーションに基づいて決定され得る。
また、音声信号処理システム1300は、コンピューティングデバイス上の自動音声認識(ASR)システムなどの任意のタイプのコンピューティングデバイスで構成され得る第三者デバイスを含み得る。例えば、第三者デバイスは、コンピュータデバイスまたはモバイルデバイス1318を含み得る。モバイルデバイス1318は、携帯情報端末(PDA:Personal Data Assistant)、スマートフォン、スマートウォッチ、スマートグラス(もしくは、他のウェアラブルスマートデバイス)、拡張現実ヘッドセット、仮想現実ヘッドセット、ラップトップ、タブレット、リモート制御装置、エンターテイメントシステム、車両コンピュータシステム、組込型システムコントローラ、アプライアンス、ホームコンピュータシステム、セキュリティシステム、民生電子機器、または他の同様の電子機器を含み得る。また、モバイルデバイス1318は、音声情報を受信するためのマイクロフォンもしくはライン入力端子、映像情報もしくは画像情報を受信するためのカメラ、またはそのような情報をインターネットもしくはデータソース1314などの別のソースから受信するための通信コンポーネント(例えば、Wi-Fi機能)を含み得る。1つの例示的な実施形態では、モバイルデバイス1318は、音声情報および画像情報などの入力データを受信することが可能であり得る。例えば、入力データは、部屋の中の複数の話者が話している間のモバイルデバイス1318のマイクロフォンへの話者の照会を含み得る。照会内容を判断するために、入力データは、システム200を使用して、モバイルデバイス1318内のASRによって処理され得る。システム200は、話者の環境内のノイズを減少させること、話者を他の話者から分離すること、または照会の音声信号を強調することによって入力データを強調して、ASRが照会に対する正確な応答を出力することができるようにする。
いくつかの例示的な実施形態では、ストレージ1320は、データ、コンピュータ命令(例えば、ソフトウェアプログラム命令、ルーチンもしくはサービス)、および/または、システム200のDNN1206AおよびDNN2206BなどのDNNに関連するデータを含む情報を格納し得る。例えば、ストレージ1320は、1つまたは複数のデータソース1314からのデータ、1つまたは複数のディープニューラルネットワークモデル、ディープニューラルネットワークモデルを生成および訓練するための情報、および1つまたは複数のディープニューラルネットワークモデルによって出力されるコンピュータ使用可能情報を格納し得る。
図14Aは、本開示のいくつかの例示的な実施形態に係る、スピーチ信号の残響除去のためのシステム1400Aのブロック図である。システム1400は、環境1406をモニタリングするセンサ1404から得られた入力音声信号1402からターゲット音声信号を推定するのに使用することができる。
入力音声信号1402は、ターゲットダイレクトパス信号(例えば、ターゲットダイレクトパス信号106A)と対応する残響(例えば、残響108A)とを含む音響信号混合物を含む。システム1400Aは、特徴抽出モジュール1410を使用して、プロセッサ1408を介して、音声信号1402を処理する。特徴抽出モジュール1410は、入力音声信号1402から音声特徴シーケンスを算出する。第1のターゲットダイレクトパス信号推定モジュール1412は、音声特徴シーケンスを処理して、第1の推定値(例えば、ターゲットダイレクトパス信号106Aの第1の推定値408)を出力する。ターゲットダイレクトパス信号の第1の推定値は、フィルタ推定モジュール1414によって処理されて、ターゲットダイレクトパス信号に影響を及ぼす室内インパルス応答をモデル化するフィルタが出力される。例えば、ターゲットダイレクトパス信号は、ターゲット残響信号に変化するように影響を及ぼされ得る。フィルタは、第1の推定値に適用されて、残響を減少させた混合物が出力される。フィルタおよび第1の推定値は、ターゲットダイレクトパス残響を減少させた混合物を推定するターゲットダイレクトパス残響減少混合物推定モジュール1416によってさらに処理される。ターゲットダイレクトパス残響を減少させた混合物、第1の推定値および特徴は、第2のターゲットダイレクトパス推定モジュール1418によってさらに処理されて、ターゲットダイレクトパス信号の信号推定値1424(例えば、第2の推定値410)が算出される。信号推定値1424は、出力インターフェイス1422を介して出力される。いくつかの実施形態では、フィルタによってモデル化された室内インパルス応答が出力インターフェイス1422を介して出力され得る。出力された室内インパルス応答は、部屋ジオメトリ再構築、音声強調、およびスピーチ信号の残響除去のうちの1つまたはこれらの組み合わせを実行するために音声分析アプリケーションにおいて使用することができる。
いくつかの例示的な実施形態では、ネットワークパラメータ1420は、第1のターゲットダイレクトパス信号推定モジュール1412、フィルタ推定モジュール1414、ターゲットダイレクトパス残響減少混合物推定モジュール1416および第2のターゲットダイレクトパス推定モジュール1418に入力され得る。ネットワークパラメータ1420は、音声認識タスクの初期化に使用され得るさまざまな音または発話についての転写データおよび非転写データなどのラベル付きデータおよびラベル無しデータを含み得る。
図14Bは、本開示のいくつかの他の例示的な実施形態に係る、スピーチ信号の残響除去のためのシステム1400Bのブロック図である。
システム1400Bは、格納された命令を実行するように構成されたプロセッサ1426と、音声分離および残響減少を実現することを可能にする、残響減少を伴う音声分離ネットワーク1432を含むニューラルネットワーク1430に関する命令を格納するメモリ1428とを含む。プロセッサ1426は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィック処理ユニット(GPU:Graphic Processing Unit)、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ/ストレージ1428は、ランダムアクセスメモリ(RAM:Random Access Memory)、リードオンリメモリ(ROM:Read Only Memory)、フラッシュメモリ、またはその他の好適なメモリシステムを含み得る。また、メモリ1428は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを含み得る。プロセッサ1426は、バス1434を介して1つまたは複数の入力および出力インターフェイス/デバイスに接続されている。さらに、システム1400Bは、バス1434を介して接続された1つまたは複数のマイクロフォン1438を含み得る。システム1400Bは、1つまたは複数のマイクロフォン1438を介して、または、スピーチ信号1456のデータソースに接続されたネットワークインターフェイス1452およびネットワーク1454を介して、スピーチ信号1456を受信/取得するように構成されている。
メモリ1428は、スピーチ信号混合物と対応する残響とを含む音響信号混合物を、残響を減少させた分離されたスピーチ信号に変換するように訓練されたニューラルネットワーク1430を格納している。格納された命令を実行するプロセッサ1426は、メモリ1428から取り出されたニューラルネットワーク1430を使用して音声分離を実行する。ニューラルネットワーク1430は、スピーチ信号混合物を含む音響信号を、分離されたスピーチ信号に変換するように訓練される。ニューラルネットワーク1430は、分離された信号を音響信号の音響特徴から推定するように訓練された音声分離ネットワーク1432を含み得る。
図15は、本開示のいくつかの例示的な実施形態に係る、スピーチ信号の残響除去のためのユースケース1500を示す図である。ユースケース1500は、話者1502A、話者1502B、話者1502C、話者1502D、話者1502Eおよび話者1502Fなどの話者の群(話者1502A~1502Fの群)を含むテレカンファレンスルームに対応する。話者1502A~1502Fの群のうちの1人または複数人の話者のスピーチ信号は、デバイス1504のオーディオレシーバ1506によって受信される。オーディオレシーバ1506は、システム200を備えており、話者1502A~1502Fの群からのある話者または1人または複数人の話者の音響スピーチ信号を受信する。
オーディオレシーバ1506は、テレカンファレンスルームにおいて話者1502A~1502Fの群からの音響信号混合物およびノイズ信号を受信するための単一のマイクロフォンおよび/またはマイクロフォンのアレイを含み得る。話者1502A~1502Fの群からのこれらの音響信号混合物は、システム200を使用して処理され得る。例えば、システム200は、テレカンファレンスルームのRIRモデルを分析し得る。このRIRモデルは、テレカンファレンスルームの部屋ジオメトリ構造を生成するのに使用することができる。部屋ジオメトリ構造は、テレカンファレンスルーム内の反射境界の配置に使用することができる。例えば、対応する部屋ジオメトリ構造は、テレカンファレンスルーム内のノイズおよび他の外乱を相殺するためにスピーカの設置場所、話者1502A~1502Fの群の座席配置などを決定するのに使用することができる。さらに、RIRモデルは、話者1502A~1502Fの群のうちの1人または複数人の話者のスピーチ信号の反射および残響を除去するのに使用することができる。
図示された例示的なシナリオでは、話者1502A~1502Fの群の中の複数の話者は、同時にスピーチ信号を出力する場合がある。そのようなシナリオでは、システム200は、テレカンファレンスルーム内の残響を減少させて、話者1502A~1502Fの各々のスピーチ信号を分離する。また、システム200は、マイクロフォンのアレイからの音響信号混合物のビームフォーミングを実行して、話者1502A~1502Fの群の中の対応する話者のスピーチ信号を強調し得る。強調されたスピーチ信号は、話者の発話のトランスクリプションに使用することができる。例えば、デバイス1504は、ASRモジュールを含み得る。ASRモジュールは、強調されたスピーチ信号を受信して、トランスクリプションを出力し得る。トランスクリプションは、デバイス1504のディスプレイ画面によって表示され得る。
図16は、本開示のいくつかの他の例示的な実施形態に係る、スピーチ信号の残響除去のためのユースケース1600を示す図である。ユースケース1600は、話者1602Aおよび話者1602Bなどの1人または複数人の話者を含む工場現場に対応する。この工場現場は、さまざまな産業用機械の動作のために、高い残響信号およびノイズを有し得る。また、この工場現場は、工場現場の制御オペレータ(図示せず)と工場現場内の1人または複数人の話者1602Aおよび1602Bとの通信を容易にするためのオーディオデバイス1604を備え得る。オーディオデバイス1604は、システム200を備え得る。
図示された例示的なシナリオでは、オーディオデバイス1604は、工場現場を管理する人1602Aにアドレス指定され得る音声コマンドを送信中であり得る。この音声コマンドは、「機械1の状態を報告してください」を含み得る。話者1602Aは、「機械1 動作中」と発し得る。しかし、話者1602Aの発話のスピーチ信号は、機械からのノイズ、背景からのノイズ、および背景内の話者1602Bからの他の発話と混ざり合う場合がある。
そのようなノイズおよび残響信号をシステム200によって軽減することができる。システム200は、話者1602Aのクリーンなスピーチを出力する。このクリーンなスピーチがオーディオデバイス1604に入力される。オーディオデバイス1604は、このクリーンなスピーチを受信して、話者1602Aの発話に対応するクリーンなスピーチから音声コマンドに対する応答を取り込む。システム200は、オーディオデバイスが話者1602Aなどの意図した話者との通信の向上を実現することを可能にする。
図17は、本開示のいくつかのさらに他の例示的な実施形態に係る、スピーチ信号の残響除去のためのユースケース1700を示す図である。ユースケース1700は、運転手支援システム1702に対応する。運転手支援システム1702は、手動操作車両、自動化車両または半自動化車両などの車両に実装される。車両は、人1704Aおよび人1704Bなどの1人または複数人の人によって占められる。運転手支援システム1702は、システム200を備える。例えば、運転手支援システム1702は、ネットワーク1454などのネットワークを介してシステム1702にリモートで接続され得る。いくつかの代替的な例示的な実施形態では、システム200は、運転手支援システム1702内に組み込まれてもよい。
また、運転手支援システム1702は、音響信号混合物を受信するために1つのマイクロフォンまたは複数のマイクロフォンを含み得る。この音響信号混合物は、人1704Aおよび1704Bからのスピーチ信号と、他の車両のクラクション音などの外部ノイズ信号とを含み得る。いくつかのケースでは、人1704Aが運転手支援システム1702にスピーチコマンドを送信しているときに、他の人1704Bは人1704Aよりも大声で言葉を発する場合がある。人1704Bからの発話は、人1704Aのスピーチコマンドを邪魔し得る。例えば、人1704Aのスピーチコマンドは「最寄りの駐車場を探し出してください」というものであり得て、人1704Bの発話は「駐車するためのショッピングモールを探してください」というものであり得る。そのような事例では、システム200は、人1704Aおよび人1704Bの各々の発話を同時にまたは別々に処理する。システム200は、人1704Aの発話と人1704Bの発話とを分離する。分離された発話は、運転手支援システム1702によって使用される。運転手支援システム1702は、人1704Aのスピーチコマンドおよび人1704Bの発話を処理および実行し、それに応じて、各発話に対する応答を出力し得る。
図18は、本開示のいくつかのさらに他の例示的な実施形態に係る、スピーチ信号の残響除去のためのユースケース1800を示す図である。いくつかの例示的な実施形態では、システム200(図2に図示)は、音の事前に記録されたデータまたはライブ記録を処理して、ターゲットダイレクトパス信号の推定値を決定し得る。音の事前に記録されたデータは、ネットワーク1808を介してデータベースからアクセスされ得る。ネットワーク1808は、ネットワーク1312の一例である。同様に、ソースのライブ記録は、ネットワーク1808を介して遠隔地における対応するソースからストリーミングされ得る。
ターゲットダイレクトパス信号の推定値は、システム200によってフィルタリングされて、RIRモデルが決定され得る。このRIRモデルは、システム200に接続された音声信号処理システム1300などの音声信号処理システムによって分析され得る。音声信号処理システム1300は、音楽コンサートホール1806などの環境の部屋音響シミュレーション1802のためにRIRモデルを処理し得る。RIRモデルは、記録されたサウンドトラックソースを用いて畳み込み処理されて、部屋音響シミュレーション1802に基づいて音楽コンサートホール1806の音響が刻み込まれ得る。部屋音響シミュレーション1802を使用して、音楽コンサートホール1806の実情のシミュレートされた環境または仮想現実環境が作成され得る。音楽コンサートホール1806のシミュレートされた環境は、演奏家が音楽コンサートホール1806で実際に演奏する前にリハーサルを行うことを可能にし得る。
いくつかのケースでは、部屋音響シミュレーション1802は、部屋ジオメトリ再構築1804のために部屋音響挙動をモデル化するのに使用することができる。部屋ジオメトリ再構築1804は、音楽コンサートホール1806などの音楽コンサートホール内の聴衆のリスニング体験を最大化するための設計および構造に対して建築的側面を提供することができる。
上記のような態様で動作902~912を組み込むことによって、システム200内に配置されたプロセッサ208を使用して実行される方法900は、残響の大きさおよび位相を両方とも含むフィルタを推定することを可能にすることができるため、スピーチ信号の残響除去を向上させることができる。フィルタは、畳み込み予測アプローチに基づいて推定されるため、フィルタがターゲットダイレクトパス信号の初期反射を減少させることを可能にする。さらに、フィルタは、部屋内の信号伝播、すなわちRIRをモデル化するため、残響の推定の精度を向上させることができる。また、システム200での2つのDNNの使用は、スピーチ信号の残響除去のパフォーマンス、ならびに音声強調および話者分離などのタスクを向上させることができる。より具体的には、第1のDNNは、残響を含む音響信号混合物からターゲットダイレクトパス信号の第1の推定値を推定する。第2のDNNは、フィルタおよびフィルタによって推定された残響の減少などの他のデータとともに第1の推定値を使用してターゲットダイレクトパス信号の精緻化された推定値を推定する。このように、2つのDNNは、効率的かつ実現可能な態様で高い残響およびノイズからターゲットダイレクトパス信号を識別および区別することを可能にする。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして記載される場合がある。フローチャートは、動作をシーケンシャルなプロセスとして記載する場合があるが、これらの動作の多くは、並行してまたは同時に実行することができる。また、これらの動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了され得るが、論じられていないまたは図に含まれていない追加のステップを有してもよい。さらに、具体的に記載されている任意のプロセスにおける全ての動作が全ての実施形態において行われるわけではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、当該関数が呼び出し関数またはメイン関数に戻ることに対応し得る。
さらに、開示されている主題の実施形態は、少なくとも部分的に手動でまたは自動で実現されてもよい。手動での実現または自動での実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせを使用することによって行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。
本開示の上記の実施形態は、多数の方法のうちのいずれかで実現することができる。例えば、これらの実施形態は、ハードウェア、ソフトウェアまたはそれらの組み合わせを使用して実現されてもよい。ソフトウェアで実現される場合、任意の好適なプロセッサまたはプロセッサの集合体上でソフトウェアコードが実行され得て、これらのプロセッサが1つのコンピュータの中に設けられていようと複数のコンピュータに分散されていようとソフトウェアコードが実行され得る。このようなプロセッサは、集積回路構成要素として1つまたは複数のプロセッサを有する集積回路として実現されてもよい。しかし、プロセッサは、任意の好適な形式の回路を使用して実現されてもよい。
また、本明細書で概要を述べたさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを利用する1つまたは複数のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。さらに、このようなソフトウェアは、複数の好適なプログラミング言語および/またはプログラミングもしくはスクリプティングツールのうちのいずれかを使用して書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードまたは中間コードとしてコンパイルされてもよい。一般に、プログラムモジュールの機能は、さまざまな実施形態における要望に応じて組み合わせたり分散させたりしてもよい。
また、本開示の実施形態は方法として具体化されてもよく、その一例が提供されている。この方法の一部として実行される動作は、任意の好適な方法で順序付けられてもよい。したがって、示されている順序とは異なる順序で動作が実行される実施形態が構築されてもよく、これは、いくつかの動作を、例示的な実施形態ではシーケンシャルな動作として示されていても、同時に実行することを含み得る。したがって、本開示の真の精神および範囲内に含まれるこのような変形および修正を全てカバーすることが添付の特許請求の範囲の目的である。
特定の好ましい実施形態を参照しながら本開示を説明してきたが、本開示の精神および範囲内でさまざまな他の適合化および修正がなされてもよい、ということが理解されるべきである。したがって、本開示の真の精神および範囲内に含まれるこのような変形および修正を全てカバーすることが添付の特許請求の範囲の側面である。
Claims (20)
- スピーチ信号の残響除去のための、コンピュータによって実行される方法であって、
ターゲットダイレクトパス信号と前記ターゲットダイレクトパス信号の残響とを含む音響信号混合物を入力インターフェイスを介して受信するステップと、
前記受信された音響信号混合物を第1のディープニューラルネットワーク(DNN:Deep Neural Network)に投入して、前記ターゲットダイレクトパス信号の第1の推定値を生成するステップと、
前記ターゲットダイレクトパス信号の前記第1の推定値の室内インパルス応答(RIR:Room Impulse Response)をモデル化するフィルタを推定するステップとを備え、前記フィルタは、前記ターゲットダイレクトパス信号の前記第1の推定値に適用されると、距離関数に従って前記音響信号混合物と前記ターゲットダイレクトパス信号の前記第1の推定値との間の残差に最も近い結果を生成し、前記方法はさらに、
前記フィルタを前記ターゲットダイレクトパス信号の前記第1の推定値に適用した前記結果を前記受信された音響信号混合物から除去することによって、前記ターゲットダイレクトパス信号の残響を減少させた混合物を得るステップと、
前記残響を減少させた混合物を第2のDNNに投入して、前記ターゲットダイレクトパス信号の第2の推定値を生成するステップと、
前記ターゲットダイレクトパス信号の前記第2の推定値を出力インターフェイスを介して出力するステップとを備える、方法。 - 前記フィルタを推定するステップは、畳み込み予測に基づいて線形フィルタを推定するステップを含む、請求項1に記載の方法。
- 前記受信された音響信号混合物および前記ターゲットダイレクトパス信号の前記第1の推定値のうちの1つまたはこれらの組み合わせを前記第2のDNNに投入して、前記ターゲットダイレクトパス信号の前記第2の推定値を生成するステップをさらに備える、請求項1に記載の方法。
- 前記受信された音響信号混合物は、複数の話者からのスピーチ信号を含み、前記第1のDNNは複数の出力を生成し、前記複数の出力の各出力は前記複数の話者からのある話者についての前記ターゲットダイレクトパス信号の前記第1の推定値を含む、請求項1に記載の方法。
- 前記フィルタを推定するステップと、前記残響を減少させた混合物を得るステップと、前記残響を減少させた混合物を投入するステップとを、前記第1のDNNの前記複数の出力の各々について繰り返すステップをさらに備える、請求項4に記載の方法。
- 前記フィルタを推定するステップと、前記残響を減少させた混合物を得るステップとを、前記複数の話者の各々について繰り返して、前記複数の話者の各々について対応するフィルタおよび対応する残響を減少させた混合物を生成するステップと、
前記複数の話者の各々についての前記対応する残響を減少させた混合物を組み合わせるステップと、
前記複数の話者の各々についての前記組み合わせられた残響を減少させた混合物を前記第2のDNNに投入して、前記複数の話者の各々について前記ターゲットダイレクトパス信号の第2の推定値を生成するステップとをさらに備える、請求項4に記載の方法。 - 前記複数の話者の各々について対応するフィルタを推定するステップをさらに備え、前記残響を減少させた混合物は、前記複数の話者の各々について前記フィルタの各々を前記ターゲットダイレクトパス信号の前記第1の推定値の各々に適用した対応する結果を前記受信された音響信号混合物から除去することによって得られ、
前記複数の話者の前記残響を減少させた混合物を前記第2のDNNに投入して、前記複数の話者の各々について前記ターゲットダイレクトパス信号の前記第2の推定値を生成するステップをさらに備える、請求項4に記載の方法。 - 前記ターゲットダイレクトパス信号の前記第1の推定値を前記ターゲットダイレクトパス信号の前記第2の推定値と置換して、前記ターゲットダイレクトパス信号の更新された第1の推定値を生成するステップと、
終了条件が満たされるまで、前記フィルタを推定するステップと、前記残響を減少させた混合物を得るステップと、前記残響を減少させた混合物を投入するステップとを、前記ターゲットダイレクトパス信号の前記更新された第1の推定値について繰り返すステップと、
前記ターゲットダイレクトパス信号の更新された第2の推定値を得るステップとをさらに備える、請求項1に記載の方法。 - 前記フィルタを推定するステップを前記複数の話者の各々について繰り返して、前記複数の話者の各々について対応するフィルタを生成するステップと、
前記複数の話者のうちの他の話者の残響スピーチの対応する推定値を前記受信された音響信号混合物から除去することによって、前記複数の話者のうちのある話者に対応する、前記受信された音響信号混合物の部分を抽出するステップとをさらに備え、前記複数の話者のうちの他の話者の残響スピーチの前記推定値は、前記他の話者についての前記対応するフィルタを前記他の話者についての前記ターゲットダイレクトパス信号の前記第1の推定値に適用した前記結果に、前記他の話者についての前記ターゲットダイレクトパス信号の前記第1の推定値を追加することによって得られ、
前記受信された音響信号混合物の前記部分に基づいて、前記複数の話者の各話者について前記残響を減少させた混合物を推定するための前記フィルタを推定するステップをさらに備える、請求項4に記載の方法。 - 前記音響信号混合物を受信するステップは、
前記入力インターフェイスに接続された単一のマイクロフォンからシングルチャネル信号を受信するステップ、および
前記入力インターフェイスに接続されたマイクロフォンのアレイからマルチチャネル信号を受信するステップ、のうちの少なくとも1つを含む、請求項1に記載の方法。 - 前記マイクロフォンのアレイから前記マルチチャネル信号を受信するステップは、
前記マイクロフォンのアレイの各マイクロフォンにおける前記ターゲットダイレクトパス信号の前記第1の推定値および前記ターゲットダイレクトパス信号の前記残響を減少させた混合物のうちの1つまたはこれらの組み合わせから算出された統計に基づいて、ビームフォーミング出力を得るステップと、
前記ビームフォーミング出力を前記第2のDNNに投入して、前記ターゲットダイレクトパス信号の前記第2の推定値を生成するステップとをさらに含む、請求項10に記載の方法。 - 前記フィルタは、時間-周波数ドメインにおいて前記ターゲットダイレクトパス信号の前記第1の推定値に適用され、前記距離関数は、前記時間-周波数ドメイン内の各時間-周波数点における重みで重み付けされた距離であり、前記重み付けされた距離は前記受信された音響信号混合物および前記ターゲットダイレクトパス信号の前記第1の推定値のうちの1つまたはこれらの組み合わせによって決定され、前記距離関数は最小二乗距離に基づく、請求項1に記載の方法。
- 前記第1のDNNは、観察された音響信号混合物から前記ターゲットダイレクトパス信号の前記第1の推定値を得るように事前に訓練される、請求項1に記載の方法。
- 前記第1のDNNの前記事前訓練は、損失関数を最小化することによって、音響信号混合物の訓練データセットと前記訓練データセットの中の対応する基準ターゲットダイレクトパス信号とを使用して実行され、前記損失関数は、
第1の時間-周波数ドメインにおける前記ターゲットダイレクトパス信号の前記第1の推定値の実数および虚数(RI:Real and Imaginary)成分と、前記第1の時間-周波数ドメインにおける前記対応する基準ターゲットダイレクトパス信号のRI成分とに基づいて定義される距離関数、
前記第1の時間-周波数ドメインにおける前記ターゲットダイレクトパス信号の前記第1の推定値の前記RI成分から得られる大きさと、前記第1の時間-周波数ドメインにおける前記基準ターゲットダイレクトパス信号の対応する大きさとに基づいて定義される距離関数、
ある時間ドメインでの再構築によって前記第1の時間-周波数ドメインにおける前記ターゲットダイレクトパス信号の前記第1の推定値の前記RI成分から得られる再構築された波形と、前記基準ターゲットダイレクトパス信号の波形とに基づいて定義される距離関数、
前記再構築された波形を第2の時間-周波数ドメインにおいてさらに変換することによって得られる前記時間-周波数ドメインにおける前記第1の推定値の前記RI成分と、前記第2の時間-周波数ドメインにおける前記基準ターゲットダイレクトパス信号の前記RI成分とに基づいて定義される距離関数、
前記時間-周波数ドメインにおける前記再構築された波形をさらに変換することによって得られる前記第2の時間-周波数ドメインにおける前記ターゲットダイレクトパス信号の前記第1の推定値の前記RI成分から得られる前記大きさと、前記第2の時間-周波数ドメインにおける前記基準ターゲットダイレクトパス信号の前記対応する大きさとに基づいて定義される距離関数、のうちの1つまたはこれらの組み合わせを含む、請求項13に記載の方法。 - スピーチ信号の残響除去のためのシステムであって、
ターゲットダイレクトパス信号と前記ターゲットダイレクトパス信号の残響とを含む音響信号混合物を受信するように構成された入力インターフェイスと、
前記スピーチ信号の残響除去のために第1のディープニューラルネットワーク(DNN)および第2のDNNを格納するメモリと、
プロセッサとを備え、前記プロセッサは、
前記受信された音響信号混合物を前記第1のDNNに投入して、前記ターゲットダイレクトパス信号の第1の推定値を生成し、
前記ターゲットダイレクトパス信号の前記第1の推定値の室内インパルス応答(RIR)をモデル化するフィルタを推定するように構成されており、前記フィルタは、前記ターゲットダイレクトパス信号の前記第1の推定値に適用されると、距離関数に従って前記音響信号混合物と前記ターゲットダイレクトパス信号の前記第1の推定値との間の残差に最も近い結果を生成し、前記プロセッサはさらに、
前記フィルタを前記ターゲットダイレクトパス信号の前記第1の推定値に適用した前記結果を前記受信された音響信号混合物から除去することによって、前記ターゲットダイレクトパス信号の残響を減少させた混合物を得て、
前記残響を減少させた混合物を第2のDNNに投入して、前記ターゲットダイレクトパス信号の第2の推定値を生成するように構成されており、
前記システムはさらに、
前記ターゲットダイレクトパス信号の前記第2の推定値を出力するように構成された出力インターフェイスを備える、システム。 - 前記フィルタを推定するために、前記プロセッサは、線形フィルタを推定するように構成されている、請求項15に記載のシステム。
- 前記プロセッサはさらに、前記受信された音響信号混合物および前記ターゲットダイレクトパス信号の前記第1の推定値のうちの1つまたはこれらの組み合わせを前記第2のDNNに投入して、前記ターゲットダイレクトパス信号の前記第2の推定値を生成するように構成されている、請求項15に記載のシステム。
- 前記受信された音響信号混合物は、複数の話者からのスピーチ信号を含み、前記第1のDNNは複数の出力を生成し、前記複数の出力の各出力は前記複数の話者からのある話者についての前記ターゲットダイレクトパス信号の前記第1の推定値を含む、請求項15に記載のシステム。
- 前記プロセッサはさらに、
前記フィルタを推定することと、前記残響を減少させた混合物を得ることと、前記残響を減少させた混合物を投入することとを、前記第1のDNNの前記複数の出力の各々について繰り返すように構成されている、請求項18に記載のシステム。 - 前記プロセッサはさらに、
前記フィルタを推定することと、前記残響を減少させた混合物を得ることとを、前記複数の話者の各々について繰り返して、前記複数の話者の各々について対応するフィルタおよび対応する残響を減少させた混合物を生成し、
前記複数の話者の各々についての前記対応する残響を減少させた混合物を組み合わせてテンソルにし、
前記テンソルを前記第2のDNNに投入して、前記複数の話者の各々について前記ターゲットダイレクトパス信号の第2の推定値を生成するように構成されている、請求項18に記載のシステム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163227126P | 2021-07-29 | 2021-07-29 | |
| US63/227,126 | 2021-07-29 | ||
| US17/654,302 US11790930B2 (en) | 2021-07-29 | 2022-03-10 | Method and system for dereverberation of speech signals |
| US17/654,302 | 2022-03-10 | ||
| PCT/JP2022/028550 WO2023008349A1 (en) | 2021-07-29 | 2022-07-15 | Method and system for dereverberation of speech signals |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024524770A JP2024524770A (ja) | 2024-07-05 |
| JP7630723B2 true JP7630723B2 (ja) | 2025-02-17 |
Family
ID=83004981
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024524152A Active JP7630723B2 (ja) | 2021-07-29 | 2022-07-15 | スピーチ信号の残響除去方法およびシステム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11790930B2 (ja) |
| EP (1) | EP4260315B1 (ja) |
| JP (1) | JP7630723B2 (ja) |
| WO (1) | WO2023008349A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12272369B1 (en) * | 2022-01-19 | 2025-04-08 | Amazon Technologies, Inc. | Dereverberation and noise reduction |
| US20230306980A1 (en) * | 2022-03-17 | 2023-09-28 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Audio Signal Enhancement with Reduced Latency |
| US12400673B2 (en) | 2022-08-15 | 2025-08-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for reverberation modeling of speech signals |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019026973A1 (ja) | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
| JP2020503570A (ja) | 2017-03-13 | 2020-01-30 | 三菱電機株式会社 | 音声認識システム |
| WO2021044647A1 (ja) | 2019-09-04 | 2021-03-11 | 日本電信電話株式会社 | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10529349B2 (en) * | 2018-04-16 | 2020-01-07 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
| US10971130B1 (en) * | 2019-12-10 | 2021-04-06 | Facebook Technologies, Llc | Sound level reduction and amplification |
| GB2593170A (en) * | 2020-03-16 | 2021-09-22 | Nokia Technologies Oy | Rendering reverberation |
| CN113496699A (zh) * | 2020-04-01 | 2021-10-12 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法、装置、存储介质及终端 |
| KR102410850B1 (ko) * | 2020-08-18 | 2022-06-20 | 부산대학교 산학협력단 | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 |
-
2022
- 2022-03-10 US US17/654,302 patent/US11790930B2/en active Active
- 2022-07-15 JP JP2024524152A patent/JP7630723B2/ja active Active
- 2022-07-15 EP EP22757704.6A patent/EP4260315B1/en active Active
- 2022-07-15 WO PCT/JP2022/028550 patent/WO2023008349A1/en not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020503570A (ja) | 2017-03-13 | 2020-01-30 | 三菱電機株式会社 | 音声認識システム |
| WO2019026973A1 (ja) | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
| WO2021044647A1 (ja) | 2019-09-04 | 2021-03-11 | 日本電信電話株式会社 | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US11790930B2 (en) | 2023-10-17 |
| JP2024524770A (ja) | 2024-07-05 |
| US20230042468A1 (en) | 2023-02-09 |
| EP4260315B1 (en) | 2024-04-10 |
| WO2023008349A1 (en) | 2023-02-02 |
| EP4260315A1 (en) | 2023-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7848410B2 (ja) | スピーチ信号の残響モデル化のための方法およびシステム | |
| Wang et al. | Deep learning based target cancellation for speech dereverberation | |
| Kinoshita et al. | A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research | |
| Kuklasiński et al. | Maximum likelihood PSD estimation for speech enhancement in reverberation and noise | |
| Wang et al. | Sequential multi-frame neural beamforming for speech separation and enhancement | |
| Luo et al. | Real-time single-channel dereverberation and separation with time-domain audio separation network. | |
| JP7630723B2 (ja) | スピーチ信号の残響除去方法およびシステム | |
| KR102064902B1 (ko) | 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링 | |
| EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
| JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
| CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
| Sadjadi et al. | Blind spectral weighting for robust speaker identification under reverberation mismatch | |
| US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
| Mack et al. | Single-Channel Blind Direct-to-Reverberation Ratio Estimation Using Masking. | |
| Gamper et al. | Predicting word error rate for reverberant speech | |
| Chen et al. | MEAN-RIR: Multi-Modal Environment-Aware Network for Robust Room Impulse Response Estimation | |
| Laska et al. | Room acoustic characterization with smartphone-based automated speech recognition | |
| CN117730369A (zh) | 用于语音信号去混响的方法和系统 | |
| Raj et al. | Srib-leap submission to far-field multi-channel speech enhancement challenge for video conferencing | |
| Xu et al. | Personalized Dereverberation of Speech. | |
| Zhao et al. | Effect of reverberation in speech-based emotion recognition | |
| JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
| Kim et al. | Generalized optimal multi-microphone speech enhancement using sequential minimum variance distortionless response (MVDR) beamforming and postfiltering | |
| Dai | Speech-preserving active noise control: a deep learning approach in reverberant environments | |
| Chi et al. | End-to-end multi-channel speaker extraction and binaural speech synthesis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240109 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250107 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250204 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7630723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |






















