JP2012253771A

JP2012253771A - 特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置

Info

Publication number: JP2012253771A
Application number: JP2012125653A
Authority: JP
Inventors: Vitte Guillanme; ヴィッテギヨーム; Herve Michael; ヘルヴェミシャエル
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-06-01
Filing date: 2012-06-01
Publication date: 2012-12-20
Anticipated expiration: 2032-06-01
Also published as: US20120310637A1; EP2530673A1; FR2976111B1; EP2530673B1; CN103002170B; JP6150988B2; FR2976111A1; CN103002170A; US8682658B2; ES2430121T3

Abstract

【課題】近傍の話者により発される音声を示す音声信号を離れた話者に配信するために、効果的にノイズを除去すること。
【解決手段】本装置は、２つのマイクロホン、サンプリング手段、およびノイズ除去手段を含む。ノイズ除去手段は、一方のマイクロホンによりピックアップされるノイズを、他方のマイクロホンセンサにより与えられるノイズ参照信号に基づいて除去する反復探索を実行する適応型フィルタを有するコンバイナを含む非周波数ノイズ低減手段である。適応型フィルタは、サンプリング周期よりも短い遅延量をモデル化する小数遅延フィルタである。本装置は、装置のユーザからの音声の存在または不在を示す信号を、配信する音声活動検出器手段をさらに有する。適応型フィルタは、ｉ）音声が存在しないとき、フィルタパラメータ用の適応型探索を実行し、ｉｉ）または別に音声が存在するとき、フィルタのこれらのパラメータを「固定」するために、選択的に働くことができるように、この信号を入力として受け取る。
【選択図】図１

Description

本発明は、ノイズの多い環境における音声の処理に関する。

本発明は、具体的には、ノイズの多い環境において使用するための「ハンズフリー」タイプの電話デバイスによりピックアップされる音声信号の処理に関する。

これらの装置は、ユーザの声だけでなく、いくつかの状況下で、話者の音声を不明瞭にまでする可能性がある妨害成分を構成する環境ノイズもピックアップする、１つまたは複数の高感度のマイクロホンを有する。同じことは、音声認識技法を実行することが望ましいときに当てはまるが、それは、高レベルのノイズに埋もれている言葉の形状認識を実行することが極めて難しいためである。

特に、環境ノイズに関するこの問題は、自動車内の「ハンズフリー」デバイスが、自動車に内蔵される装置、または、電話通信用の信号を処理するための部品および機能のすべてを内蔵する着脱可能ユニットの形態の付属品を含むかどうかにかかわらず、それらのデバイスを拘束している。

マイクロホン（ダッシュボード上またはキャビンの天井の上隅部に配置される）と、話者（その位置が、運転位置により決定される）との間の大きい距離は、比較的高いレベルのノイズがピックアップされ、それにより、ノイズに埋もれた有用な信号を抽出することを難しくすることを意味する。さらに、自動車環境に特有の極めてノイズの多い環境は、安定することなく、すなわち、凸凹道または丸石上の走行、動作中のカーラジオなどの運転状態に応じて予測不可能に変化するスペクトル特性を示す。

ヘッドセットが接続される装置から生じる音源（音楽など）を聴くのに加えて、デバイスが、「ハンズフリー」電話機能などの通信機能に使用されるマイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットであるとき、同じ種類の問題が生じる。

そうした状況下で、マイクロホンによりピックアップされる信号、すなわち、近傍の話者（ヘッドセット装着者）からの音声信号の十分な明瞭性を確実にすることが重要である。都合が悪いことに、ノイズの多い環境（地下鉄、混雑した街路、列車など）で使用する可能性があり、マイクロホンは、ヘッドセット装着者の音声だけでなく、環境の干渉ノイズもピックアップするようになる。実際に、特にヘッドセットが耳を外部から遮断する密閉イヤピースを有するモデルであるとき、装着者は、ヘッドセットによりノイズから保護され、ヘッドセットに「能動ノイズ制御」を提供されるとき、なおさらそうである。対照的に、離れた話者（通信チャネルの他端の話者）は、マイクロホンによりピックアップされる干渉ノイズを受け、干渉ノイズは、近傍の話者（ヘッドセットの装着者）からの音声信号と重なり、干渉する。特に、声を理解するために必要ないくつかの音声フォルマントは、日常の環境で通常遭遇するノイズ成分にしばしば埋もれる。

より具体的には、本発明は、有用な音声成分を干渉ノイズ成分から遮断するために適当な方法で、両マイクロホンにより同時にピックアップされる信号を組み合わせるために、複数のマイクロホン、通常、２つのマイクロホンを実装するノイズ除去技法に関する。

従来の技法は、一方のマイクロホンが主に話者の声をピックアップするように、そのマイクロホンを配置し、それを方向付ける一方、主マイクロホンによりピックアップされるノイズ成分よりも大きいノイズ成分をピックアップするように、他方のマイクロホンを配置することにある。次いで、ピックアップされた信号の比較は、比較的単純なソフトウェア手段を使用して、２つの信号間の空間的整合性を分析することにより、声を環境ノイズから抽出することを可能にする。

米国特許出願公開第２００８／０２８０６５３（Ａ１）号は、１つのそうした構成を説明し、一方のマイクロホン（主に声をピックアップするマイクロホン）は、自動車ドライバに装着されるワイヤレスイヤホンのマイクロホンである一方、他方のマイクロホン（主にノイズをピックアップするマイクロホン）は、自動車キャビン内に離れて配置され、例えばダッシュボードに取り付けられる電話装置のマイクロホンである。

それでも、この技法は、その効果がマイクロホン間の距離の増大と共に増大する互いに離間した２つのマイクロホンを必要とするという、欠点を示す。その結果、この技法は、２つのマイクロホンが自動車のカーラジオの前部に内蔵されている場合、または２つのマイクロホンがオーディオヘッドセットのイヤピースの殻の一方に配置されている場合など、２つのマイクロホンが互いに近接しているデバイスには適用することができない。

「ビーム形成」として知られている別の技法は、マイクロホンアレイまたは「アンテナ」の信号対ノイズ比を改善するように働く指向性を作るソフトウェア手段を使用することにある。米国特許出願公開第２００７／０１６５８７９（Ａ１）号は、１つのそうした技法を説明し、背面合せで配置される無指向性のマイクロホンの対に適用される。マイクロホンがピックアップする信号の適応型フィルタリングは、音声成分が増強された出力信号を取り出すことを可能にする。

それでも、そうした方法は、少なくとも８つのマイクロホンのアレイを有する条件でのみ良好な結果をもたらし、２つのマイクロホンのみを使用するときは、性能が極めて限定されることがわかる。

米国特許出願公開第２００８／０２８０６５３（Ａ１）号米国特許出願公開第２００７／０１６５８７９（Ａ１）号ＷＯ２００７／０９９２２２Ａ１

Ｂ．Ｗｉｄｒｏｗ、ＡｄａｐｔｉｖｅＦｉｌｔｅｒｓ、ＡｓｐｅｃｔｏｆＮｅｔｗｏｒｋａｎｄＳｙｓｔｅｍＴｈｅｏｒｙ、Ｒ．Ｅ．ＫａｌｍａｎａｎｄＮ．ＤｅＣｌａｒｉｓＥｄｓ．、ＮｅｗＹｏｒｋ、Ｈｏｌｔ，ＲｉｎｅｈａｒｔａｎｄＷｉｎｓｔｏｎ、５６３〜５８７頁、１９７０年Ｂ．Ｗｉｄｒｏｗｅｔａｌ．、ＡｄａｐｔｉｖｅＮｏｉｓｅＣａｎｃｅｌｌｉｎｇ、ＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、Ｐｒｏｃ．ＩＥＥＥ、Ｖｏｌ．６３、Ｎｏ．１２１６９２〜１７１６頁，１９７５年１２月Ｂ．ＷｉｄｒｏｗａｎｄＳ．Ｓｔｅａｒｎｓ、ＡｄａｐｔｉｖｅＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、Ｐｒｅｎｔｉｃｅ−ＨａｌｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＳｅｒｉｅｓ、ＡｌａｎＶ．ＯｐｐｅｎｈｅｉｍＳｅｒｉｅｓＥｄｉｔｏｒ、１９８５年Ｇ．Ｐｏｔａｍｉａｎｏｓｅｔａｌ．、Ａｕｄｉｏ−ＶｉｓｕａｌＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡｎＯｖｅｒｖｉｅｗ、Ａｕｄｉｏ−ＶｉｓｕａｌＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇ、Ｇ．Ｂａｉｌｌｙｅｔａｌ．Ｅｄｓ．、ＭＩＴＰｒｅｓｓ、１〜３０頁、２００４年

そうした文脈では、本発明の全体的な課題は、近傍の話者（自動車のドライバまたはヘッドセットの装着者）の環境に存在する外部ノイズの干渉成分を音声信号から除去することにより、近傍の話者により発される音声を示す音声信号を離れた話者に配信するために、効果的にノイズを除去することである。

さらに、そうした状況では、本発明の課題は、マイクロホンの数が少なく（有利には２つのみ）、さらにマイクロホンが互いに比較的近接している（一般的には数センチメートルのみ離れて位置する）、１組のマイクロホンを使用することができることである。

課題の別の重要な態様は、自然で明瞭な、すなわち歪みのなく、有用な周波数スペクトルがノイズ除去処理により除去されていない音声信号を再生する必要性である。

このため、本発明は、上述した米国特許出願公開第２００８／０２８０６５３（Ａ１）号に開示された一般的なタイプのオーディオ装置、すなわち、本装置のユーザの音声をピックアップし、それぞれのノイズの多い音声信号を配信するのに適した２つのマイクロホンセンサの組と、マイクロホンセンサにより配信される音声信号をサンプリングするためのサンプリング手段と、音声信号のノイズ除去を行うためのノイズ除去手段において、２つのマイクロホンセンサにより配信される音声信号のサンプルを入力として受け取り、装置のユーザにより発される音声を示すノイズ除去音声信号を出力として配信する、ノイズ除去手段とを含む、オーディオ装置を提案する。ノイズ除去手段は、２つのマイクロホンセンサにより配信される信号を結合するための適応型フィルタコンバイナにおいて、一方のマイクロホンセンサによりピックアップされるノイズを、他方のマイクロホンセンサにより配信される信号により与えられるノイズ参照信号に基づいて除去するように反復探索により動作する、適応型フィルタコンバイナを含む、非周波数ノイズ低減手段である。

本発明によれば、適応型フィルタは、サンプリング手段のサンプリング周期よりも短い遅延量をモデル化するのに適した小数遅延フィルタである。本装置は、音声の存在または不在を示す信号を、装置のユーザから配信するのに適した音声活動検出器手段をさらに含み、適応型フィルタは、ｉ）音声が存在しないとき、フィルタパラメータ用の適応型探索を実行し、ｉｉ）または別に音声が存在するとき、フィルタのこれらのパラメータを「固定」するために、選択的に働くように、音声の存在または不在の信号を入力としてさらに受け取る。

適応型フィルタは、以下のように、特に、最適化フィルタＨを推定するのに適している。

ここで、

および、Ｇ（ｋ）＝ｓｉｎｃ（ｋ＋τ／Ｔｅ）、

は、小数遅延量を含むインパルス応答のために、２つのマイクロホンセンサ間に伝達するノイズの推定最適化フィルタＨを示す。

は、２つのマイクロホンセンサ間の推定小数遅延フィルタＧを示す。

は、環境の推定音響応答を示す。

は、重畳和を示す。
ｘ（ｎ）は、フィルタＨへの信号入力のサンプルの級数である。
ｘ’（ｎ）は、オフセット量が遅延量τの級数ｘ（ｎ）である。
Ｔｅは、フィルタＨへの信号入力のサンプリング周期である。
τは、Ｔｅの約数に等しい、前記小数遅延量である。
ｓｉｎｃは、カーディナルサイン関数を示す。

適応型フィルタは、最小２乗平均（ＬＭＳ）タイプの線形予測アルゴリズムを有するフィルタであることが好ましい。

一実施形態では、本装置は、本装置のユーザに向かって方向付けられ、ユーザの画像をピックアップするのに適したビデオカメラを含み、音声活動検出器手段は、カメラにより生成された信号を分析し、前記ユーザからの、音声の存在または不在を示す前記信号を応答的に配信するのに適したビデオ分析手段を含む。

別の実施形態では、本装置は、内部骨伝導により伝達される非音響音声振動をピックアップするために、本装置のユーザの頭部に結合するように、ユーザの頭部と接触するのに適した生体センサを含み、音声活動検出器手段は、特に、生体センサにより配信される信号のエネルギーを評価し、それを閾値と比較することにより、生体センサにより配信された信号を分析し、前記ユーザによる音声の存在または不在を示す前記信号を応答的に配信するのに適した手段を含む。

特に、本装置は、マイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットとすることができ、前記ヘッドセットは、それぞれが音声信号の音声を再生するための変換器を含み、耳周囲のクッションを設けられた殻内に収容されたイヤピースと、イヤピースの一方の殻上に配置された前記２つのマイクロホンセンサと、イヤピースの一方のクッション内に内蔵され、ヘッドセットの装着者の頬またはこめかみと接触するのに適した、イヤピースの領域内に配置された前記生体センサとを含む。これら２つのマイクロホンセンサは、本装置のユーザの口に向かって方向付けられた主方向上のリニアアレイとして並ぶのが好ましい。

同一の、または機能的に類似する要素を示すのに、どの図でも同じ参照番号が使用される、添付の図面を参照して本発明のデバイスの実施形態を続いて説明する。

本発明のノイズ除去処理が実行される方法を示すブロック図である。本発明のノイズ除去処理においてモデル化されるカーディナルサイン関数を示すグラフである。信号サンプルの級数の様々な点に関する、図２のカーディナルサイン関数を示すグラフである。ある小数値だけ時間的にオフセットした同じ信号サンプルの級数に関する、図２のカーディナルサイン関数を示すグラフである。振幅を縦軸にプロットし、この伝達を示すフィルタの係数を横軸にプロットして、環境の音響応答を示すグラフである。カーディナルサイン応答を伴う重畳和の後の図４に対応するグラフである。音声活動を検出するためのカメラを使用することにある一実施形態を示す概略図である。本発明の教示を適用することができる、マイクロホンおよびイヤホンヘッドセットの組合せユニットの全体図である。図７のヘッドセットの装着者により発される音声を示すノイズ除去信号を出力するために、信号処理をどのように実行することができるかを示す全体ブロック図である。それぞれ、マイクロホンによりピックアップされる生信号の例、および、音声時間と話者が沈黙している時間とを識別するように働く生体センサによりピックアップされる信号の例に相当する、２つのタイムチャートである。

図１は、本発明により実行される様々な機能を示すブロック図である。

本発明の処理は、マイクロコントローラまたはデジタル信号プロセッサにより実行される、適当なアルゴリズムに対応する様々な機能ブロックにより示されるソフトウェア手段によって実行される。明瞭に説明するために、様々な機能を異なるモジュールの形態で示すが、複数の機能は、要素を共通に利用し、実際には単一のソフトウェアにより全体が実行される複数の機能に対応する。

ノイズ除去することが望ましい信号は、図示されている最小構成では、所定の構成で配置される２つのセンサのみのアレイを含むことができるマイクロホンセンサのアレイから生じ、各センサは、対応するそれぞれのマイクロホン１０、１２により構成される。

それでも、本発明は、３つ以上のマイクロホンセンサのアレイ、ならびに／または、複数のマイクロホンの組合せ、および／もしくは他の音声センサの組合せなどの、各センサが単一のマイクロホンよりも複雑な構造により構成されるマイクロホンセンサに一般化することができる。

マイクロホン１０、１２は、有効な信号源により発される信号（話者からの音声信号）をピックアップするマイクロホンであり、２つのマイクロホン間の位置の差が、有効な信号源からピックアップされる信号の位相オフセット量および振幅変動量の組をもたらす。

実際に、両マイクロホン１０および１２は、自動車キャビンの天井上、カーラジオのフロントプレート上、またはダッシュボード上の適当な場所、またはオーディオヘッドセットのイヤピースの一方のシェルの真上などで互いに数センチメートルだけ離間した全方向性マイクロホンである。

以下に説明するように、本発明の技法により、互いに極めて近接するマイクロホンを用いても、効果的なノイズ除去を行うことが可能になり、すなわち、それらのマイクロホンが互いに間隔ｄだけ離間しているとき、一方のマイクロホンによりピックアップされ、次いで他方のマイクロホンよりピックアップされる信号の最大位相遅延が、信号をデジタル化するのに使用されるコンバータのサンプリング周期よりも小さくなるようにする。これは、サンプリング周波数Ｆ_ｅが８キロヘルツ（ｋＨｚ）であるときの、４．７センチメートル（ｃｍ）程度の最大距離ｄ（２倍の周波数でサンプリングするとき、間隔ｄはその半分など）に相当する。

近傍の話者により発される音声信号は、他方のマイクロホンよりも前に一方のマイクロホンに到達し、したがって、遅延ひいては、ほぼ一定の位相シフト

を示す。ノイズに関して、実際に、２つのマイクロホン１０と１２との間に位相シフトも存在する可能性がある。対照的に、位相シフトの概念は、入射波が進行している方向の概念に関係するので、ノイズの位相シフトは、音声の位相シフトと異なることが予想される可能性がある。例えば、指向性ノイズが、口からの方向とは反対方向に進行しているとき、指向性ノイズの位相シフトは、音声の位相シフトが

であるとき、

となる。

本発明では、マイクロホン１０および１２によりピックアップされる信号のノイズ低減は、（従来のノイズ除去技法の場合によくあるように）周波数領域では実行されず、むしろ、時間領域で実行される。

このノイズ低減は、ＬＭＳタイプの予測フィルタ１６を実行する適応型コンバイナ１４により、一方のマイクロホン（例えばマイクロホン１０）と他方のマイクロホン（すなわちマイクロホン１２）との間の伝達関数を探索するアルゴリズムによって実行される。フィルタ１６からの出力は、フィルタ１６に再び加えられるノイズ除去信号Ｓをもたらすために、１８においてマイクロホン１０からの信号より減算され、フィルタ１６の予測誤差の関数として反復的に適応させることができるようにする。したがって、マイクロホン１０によりピックアップされる信号に含まれるノイズ成分（ノイズの伝達を特定する伝達関数）を予測するのに、マイクロホン１２によりピックアップされる信号を使用することができる。

２つのマイクロホン間の伝達関数の適応型探索は、音声が存在しない段階中だけ実行される。このため、音声活動検出器（ＶＡＤ）２０がセンサ２２の制御の下で近傍の話者が話していないことを示すときだけ、フィルタ１６の反復適応が活動する。この機能は、スイッチ２４により示され：音声活動検出器２０により確認される音声信号が存在しないとき、適応型コンバイナ１４は、ノイズ成分を低減するために、２つのマイクロホン１０と１２との間の伝達関数を最適化しようとし（図に示すように、スイッチ２４は閉鎖位置である）；対照的に、音声活動検出器２０により確認される音声信号が存在するとき、適応型コンバイナ１４は、フィルタ１６のパラメータを音声が検出される直前にそれらのパラメータが有していた値に「固定」し（スイッチ２４を開放する）、それにより、近傍の話者からの音声信号のいかなる劣化も回避する。

このように進行することは、近傍の話者が話すのをやめる度にフィルタ１６のパラメータの更新が行われれば、フィルタ１６のパラメータの更新が極めて頻繁であるので、変化しているノイズの多い環境が存在しても、問題ないことが観測されるはずである。

本発明によれば、適応型コンバイナ１４のフィルタリングは、小数遅延（fractional delay）フィルタリングであり、すなわち、適応型コンバイナ１４は、信号のデジタル化サンプルの時間よりも短い遅延量を考慮しながら、２つのマイクロホンによりピックアップされる信号間にフィルタリングを適用するように働く。

通過帯域［０，Ｆｅ／２］の時間変化信号ｘ（ｔ）は、離散級数ｘ（ｋ）で完全に再構成することができることが知られているが、サンプルｘ（ｋ）は、時刻ｋ．Ｔｅ（Ｔｅ＝１／Ｆｅはサンプリング周期である）において、ｘ（ｔ）の値に相当する。

数式は、以下の通りである。

カーディナルサイン関数ｓｉｎｃは、以下のように定義される。

図２は、この関数ｓｉｎｃ（ｔ）のグラフ表示である。

わかるように、この関数は、急激に減少し、総和の中で有限で比較的少ない数の係数ｋで、実際の結果の極めて良好な近似値を与えるという結果を伴う。

サンプリング周期Ｔｅでデジタル化される信号に関して、２つのサンプル間の時間間隔またはオフセット量は、時間的にＴｅ秒（ｓ）の時間に相当する。

したがって、ピックアップされる信号のｎ個の連続するデジタル化サンプルの級数ｘ（ｎ）は、すべての整数ｎに関して以下の式により示すことができる。

ｓｉｎｃ項は、ｋ＝ｎ以外のすべてのｋに関して０であることが観測されるはずである。

図３ａは、この関数のグラフ表示を与える。

小数値τ、すなわち１つのデジタル化サンプルの時間Ｔｅよりも短い遅延量だけオフセットした、同じ級数ｘ（ｎ）を計算したいとき、以上の式は、以下のようになる。

図３ｂは、τ＝０．５（サンプルの１／２）の小数値の例に関する、この関数のグラフ表示を与える。

級数ｘ’（ｎ）（τオフセットした級数）は、以下のように、非因果性フィルタＧによるｘ（ｎ）の重畳和となることがわかる。

したがって、以下のように、最適化フィルタＧの推定値

を決定することが必要である。

および、Ｇ（ｋ）＝ｓｉｎｃ（ｋ＋τ／Ｔｅ）

は、小数遅延量を含む、２つのマイクロホン間のノイズの伝達に関する推定値であり、

は、環境の音響応答の推定値である。

２つのマイクロホン間のノイズ伝達フィルタを推定するために、推定値

は、以下の誤差を最小化するフィルタに相当する。

ＭｉｃＦｒｏｎｔ（ｎ）およびＭｉｃＢａｃｋ（ｎ）は、マイクロホンセンサ１０および１２からの信号のそれぞれの値である。

このフィルタは、非因果性の特性を有し、すなわち、将来のサンプルを使用する。実際に、このことは、時間遅延量が、アルゴリズム処理を実行するときに導かれることを意味する。フィルタは非因果性であるので、フィルタは、小数遅延量をモデル化することができ、したがって、

と書くことができる（一方、従来の因果性フィルタの場合には、式は

となる）。

具体的には、アルゴリズムでは、

は、

および

を別々に推定する、いかなる必要性も存在することなく、上述の誤差ｅ（ｎ）を最小化することにより、直接推定される。

従来の因果性の場合（例えばエコー除去フィルタの場合）には、最小化する誤差ｅ（ｎ）は、以下のような発展形式で書かれる。

ここで、Ｌは、フィルタ長である。

本発明（非因果性フィルタ）の場合には、誤差は、以下のようになる。

将来のサンプルを考慮するために、フィルタ長が２倍になることが観測されるはずである。

フィルタＨの予測値は、音声が存在しないとき、参照値としてマイクロホン１２を使用して、マイクロホン１０からのノイズを理想的に除去する小数遅延フィルタを与える（上述のように、音声時間中、フィルタは、局所的な音声のいかなる劣化も回避するために「固定」される）。

具体的には、マイクロホン１０とマイクロホン１２との間のノイズの伝達を推定する適応型アルゴリズムにより計算されるフィルタ

は、２つのフィルタ

および

の重畳和

と見なすことができる。ここで、

は、（カーディナルサイン波形を有する）小数部分に相当し、

は、２つのマイクロホン間の音響伝達、すなわち、フィルタが動作している環境の音響を示す、システムの「環境」部分に相当する。

図４は、フィルタＦの係数ｋの関数として振幅Ａを与える特性曲線の形態の、２つのマイクロホン間の音響応答の例を示す。自動車キャビンの窓または他の壁上などの環境に応じて生じる可能性がある様々な音響反射は、この音響応答特性曲線に見ることができるピークをもたらす。

図５は、重畳和フィルタの係数ｋの関数として振幅Ａを与える特性曲線の形態の２つのフィルタＧ（カーディナルサイン応答）およびＦ（使用環境）の重畳和

の結果の例を示す。

推定値

は、最適化フィルタに収束するために、誤差

を最小化しようとする反復ＬＭＳアルゴリズムにより計算することができる。

ＬＭＳタイプ、または、ＬＭＳタイプの規格化バージョンである規格化ＬＭＳ（ＮＬＭＳ）タイプのフィルタは、比較的単純であり、大量の計算資源を必要としないアルゴリズムである。これらのアルゴリズムは、それ自体、例えば以下に記載するように知られている。
［１］Ｂ．Ｗｉｄｒｏｗ、ＡｄａｐｔｉｖｅＦｉｌｔｅｒｓ、ＡｓｐｅｃｔｏｆＮｅｔｗｏｒｋａｎｄＳｙｓｔｅｍＴｈｅｏｒｙ、Ｒ．Ｅ．ＫａｌｍａｎａｎｄＮ．ＤｅＣｌａｒｉｓＥｄｓ．、ＮｅｗＹｏｒｋ、Ｈｏｌｔ，ＲｉｎｅｈａｒｔａｎｄＷｉｎｓｔｏｎ、５６３〜５８７頁、１９７０年、
［２］Ｂ．Ｗｉｄｒｏｗｅｔａｌ．、ＡｄａｐｔｉｖｅＮｏｉｓｅＣａｎｃｅｌｌｉｎｇ、ＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、Ｐｒｏｃ．ＩＥＥＥ、Ｖｏｌ．６３、Ｎｏ．１２１６９２〜１７１６頁，１９７５年１２月、
［３］Ｂ．ＷｉｄｒｏｗａｎｄＳ．Ｓｔｅａｒｎｓ、ＡｄａｐｔｉｖｅＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、Ｐｒｅｎｔｉｃｅ−ＨａｌｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＳｅｒｉｅｓ、ＡｌａｎＶ．ＯｐｐｅｎｈｅｉｍＳｅｒｉｅｓＥｄｉｔｏｒ、１９８５年。

上述のように、以上の処理を可能にするために、音声が存在しない段階（フィルタの適応が、ノイズ評価を最適化するように働く間）と音声が存在する段階（フィルタのパラメータが、それらの最近見つけられた値に「固定（フリーズ）」される時間）とを識別することを可能にする音声活動検出器を有することが必要である。

より正確には、この例では、音声活動検出器は、「完全」な検出器とし、すなわち、音声活動検出器は、バイナリ信号（音声が存在するか否か）を配信するのが好ましい。したがって、この音声活動検出器は、既知のノイズ除去システムに使用されるほとんどの音声活動検出器が、連続的に、または連続したステップで０から１００％の間で確率的に変化する、音声の存在確率のみを配信するため、既知のノイズ除去システムに使用される音声活動検出器とは異なる。音声の存在確率のみに基づく、そうした検出器を用いれば、ノイズの多い環境では、偽検出は、重大である可能性がある。

「完全」であるために、音声活動検出器は、マイクロホンによりピックアップされる信号だけに依存することはできず、音声の段階と、近傍の話者が沈黙している段階とを識別することを可能にする追加情報を有しなければならない。

そうした検出器の第１の実施例を図６に示し、音声活動検出器２０は、カメラにより生成される信号に応答して動作する。

例えば、カメラは、自動車キャビンに取り付けられ、その視野２８が、あらゆる状況下で、近傍の話者であると見なされるドライバの頭部３０をカバーするように方向付けられたカメラ２６である。口および唇の動きに基づいて話者が話しているか否かを決定するために、カメラ２６により配信された信号が分析される。

このため、具体的に下記のものに説明されるものなどの、顔画像中の口領域を検出するためのアルゴリズム、および唇の輪郭を追跡するためのアルゴリズムを使用することができる。
［４］Ｇ．Ｐｏｔａｍｉａｎｏｓｅｔａｌ．、Ａｕｄｉｏ−ＶｉｓｕａｌＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡｎＯｖｅｒｖｉｅｗ、Ａｕｄｉｏ−ＶｉｓｕａｌＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇ、Ｇ．Ｂａｉｌｌｙｅｔａｌ．Ｅｄｓ．、ＭＩＴＰｒｅｓｓ、１〜３０頁、２００４年。

この文献は、特に劣化した音響状態の音声を認識するために、音声信号に加えて視覚情報の寄与を一般的に説明する。このように、ビデオデータは、音声情報を改善するために、従来の音声データに追加される（音声向上）。

そうした処理は、本発明の文脈では、話者が話している段階と、話者が沈黙している段階とを識別するために使用することができる。自動車キャビン内のユーザの動きが緩慢でありながら、口の動きが速いことを考慮するために、例えば、口に焦点を合わされると、２つの連続する画像を比較し、所与のピクセルのシフトを評価することができる。

この画像分析技法の利点は、それが音響ノイズ環境から完全に独立する追加情報を提供することである。

音声活動の「完全」な検出に適したセンサの別の実施例は、環境ノイズが仮にあっても、それによりほとんど破壊されない、話者の一定の音声振動を検出するのに適した生体センサである。

そうしたセンサは、特に、話者の頬またはこめかみに適用される加速度計または圧電センサにより構成することができる。

人が音声（すなわち、声帯の振動に付随して生成される音声成分）を発しているとき、振動は、声帯から咽頭および口鼻腔に伝播し、変調され、増幅され、調整される。その際、口、軟口蓋、咽頭、副鼻腔、および鼻腔は、この音声の共鳴器として働き、それらの壁には弾性があるので、それらの壁は、次々に振動し、それらの振動は、内部骨伝導により伝達され、頬およびこめかみを介して感知することができる。

頬およびこめかみのこれらの振動は、まさにその本質から、環境ノイズによってはほとんど破壊されない特性を示すが、外部ノイズが存在するとき、それが極めて大きいノイズであっても、頬およびこめかみの組織は、ほとんど振動することなく、このことは、外部ノイズのスペクトル成分にかかわらず、当てはまる。

ノイズのないこれらの音声振動をピックアップする生体センサは、話者により発される音声の存在または不在を示す信号を与え、したがって、音声の段階と、話者が沈黙している段階とを極めて良好に識別する。

そうした生体センサは、具体的には、図７に示す種類のマイクロホンおよびイヤホンの組合せヘッドセットユニットに内蔵することができる。

この図では、符号３２は、本発明のヘッドセット全体の符号であり、それは、ヘッドバンドにより結合された２つのイヤピース３４を含む。イヤピースのそれぞれは、音声再生変換器を収容する密閉殻３６により構成され、耳を外部から遮断する間置クッション３８をユーザの耳の周りに押し当てるのが好ましい。

音声活動を検出するのに使用される生体センサ４０は、例えば、ユーザの頬またはこめかみに押し当てて可能な限り近くで結合するように、クッション３８に内蔵される加速度計とすることができる。生体センサ４０は、具体的には、クッション３８の表皮の内側面上に配置することができ、ヘッドセットが適当な位置にくると、センサは、クッションの材料が平らになることから生じる少量の圧力の効果の下で、ユーザの頬またはこめかみに押し当てられるようにし、クッションの外表皮のみがその間に配置される。

ヘッドセットは、さらに、話者の音声をピックアップし、そのノイズを除去するための回路を有するマイクロホン１０および１２を保持する。これら２つのマイクロホンは、殻３６をベースとする全方向性マイクロホンであり、これらのマイクロホンは、マイクロホン１０を前（ヘッドセットの装着者の口のより近く）に配置し、マイクロホン１２をより後ろに配置して構成される。さらに、２つのマイクロホン１０および１２が並ぶ方向４２は、ヘッドセットの装着者のほぼ口４４の方を向く。

図８は、図７のマイクロホンおよびヘッドセットのユニットにより実行される様々な機能を示すブロック図である。

この図は、２つのマイクロホン１０および１２を音声活動検出器２０と共に示す。前部マイクロホン１０が、主マイクロホンであり、後部マイクロホン１２が、コンバイナ１４の適応型フィルタ１６に入力を供給する。音声活動検出器２０は、例えば、生体センサ４０により配信される信号の出力を以下のように平滑化しながら、前記生体センサ４０により配信される信号により制御される。

Ｐｏｗｅｒ_{ｓｅｎｓｏｒ}（ｎ）＝α．Ｐｏｗｅｒ_{ｓｅｎｓｏｒ}（ｎ−１）＋（１−α）．（ｓｅｎｓｏｒ（ｎ））^２
αは、１に近い平滑化定数である。その際、αは、話者が話し始めると直ちに閾値を超えるように、閾値ξを設定するのに十分となる。

図９は、以下のような、ピックアップされる信号の外形を示す。

・上のタイムチャートの信号Ｓ_１０は、前部マイクロホン１０によりピックアップされる信号に相当し、この（ノイズの多い）信号に基づいて、音声が存在する段階と、音声が存在しない段階とを効果的に識別することが不可能であることがわかる。

・下のタイムチャートの信号Ｓ_４０は、生体センサ４０により同時に配信される信号に相当し、音声が存在し、および存在しない連続する段階は、その中で極めて明確に識別される。ＶＡＤが参照されるバイナリ信号は、信号Ｓ_４０の出力を評価し、それを所定の閾値ξと比較した後、音声活動検出器２０により配信される指示値（「１」＝音声が存在する、「０」＝音声が存在しない）に相当する。

生体センサ４０により配信される信号は、音声活動検出器への入力信号としてだけでなく、特にスペクトルの低周波数領域において、マイクロホン１０および１２によりピックアップされる信号を質的に向上させるための信号としても使用することができる。

当然、音声に相当する、生体センサにより配信される信号は、音声が声から形成されるだけでなく、声帯から生じたものでない成分も含むので、適切に話す音声ではないが、周波数成分は、例えば、咽頭から生じ、口から発する音声を極めて豊富にすることができる。さらに、内部骨伝導および皮膚を通じた伝達は、いくつかの音声成分をフィルタ除去する効果を有する。

それに加えて、こめかみまたは頬全体にわたって伝播する振動によるフィルタリングのために、生体センサによりピックアップされる信号は、低周波数、主に音声スペクトルの低い領域（通常、０〜１５００ヘルツ（Ｈｚ））でのみ使用するのに適している。

しかし、日常の環境で通常遭遇するノイズ（街路、地下鉄、列車など）は、主に低周波数に集中しているので、生体センサからの信号は、本質的にいかなる寄生ノイズ成分もない重要な利点を提供し、その結果、この信号をスペクトルの低領域で使用する一方、マイクロホン１０および１２によりピックアップされる（ノイズの多い）信号が適応型コンバイナ１４により実行されるノイズ低減を受けた後、それらの信号を有する、この信号をスペクトルの高領域（約１５００Ｈｚ）に関係付けることができる。

完全なスペクトルは、生体センサ４０からのスペクトルの低領域に関する信号、および適応型コンバイナ１４によりノイズ除去された後のマイクロホン１０および１２からのスペクトルの高領域に関する信号を並列に受け取る混合器ブロック４６により再構成される。この再構成は、いかなる変形も回避するために混合器ブロック４６に同期して加えられる信号を総和することにより実行される。

ブロック４６により配信される得られた信号は、回路４８により最終的なノイズ低減を受けることができ、このノイズ低減は、最終的なノイズ除去信号Ｓを出力するために、例えばＷＯ２００７／０９９２２２Ａ１（Ｐａｒｒｏｔ）に説明されるものに相当する従来の技法を使用して、周波数領域で実行される。

それでも、この技法の実行は、例えば、上述の文献の教示と比較して大幅に単純化されている。現在の状況では、もはやピックアップされる信号に基づいて音声の存在確率を評価する必要がないが、それは、この情報を、生体センサ４０により実行される音声の発生の検出に応答して、音声活動検出器ブロック２０から直接取得することができるためである。したがって、アルゴリズムを、単純化し、より効果的、かつより高速にすることができる。

有利なことに、周波数ノイズ低減は、音声が存在するとき、および音声が存在しないとき（完全な音声活動検出器２０により与えられる情報）で別々に実行される。

・音声が存在しないとき、ノイズ低減は、すべての周波数帯域で最大化され、すなわち、最大ノイズ除去に対応するゲインは、信号成分のすべてに同様に適用される（そうした環境の下で、信号成分は、いかなる有用な成分も含まないことは確かなので）。

・対照的に、音声が存在するとき、ノイズ低減は、従来の方法で各周波数帯域に別々に適用される周波数低減である。

上述のシステムは、優れた全体性能を獲得することを可能にし、ノイズ低減は、通常、近傍の話者からの音声信号に関して３０デシベル（ｄＢ）〜４０ｄＢ程度である。適応型コンバイナ１４は、マイクロホン１０および１２によりピックアップされる信号に対して動作するので、適応型コンバイナ１４は、高周波数範囲で極めて良好なノイズ除去性能を獲得するために、特に小数遅延フィルタリングを用いて働く。

干渉ノイズのすべてを除去することにより、離れた話者（ヘッドセットの装着者が通信する話者）は、他の関係者（ヘッドセットの装着者）が無音の部屋にいる印象を与えられる。

Claims

オーディオ装置のユーザの音声をピックアップし、それぞれのノイズの多い音声信号を配信するのに適した２つのマイクロホンセンサの組と、
前記マイクロホンセンサにより配信される前記音声信号をサンプリングするためのサンプリング手段と、
音声信号のノイズ除去を行うためのノイズ除去手段において、前記２つのマイクロホンセンサにより配信される前記音声信号のサンプルを入力として受け取り、前記装置の前記ユーザにより発される前記音声を示すノイズ除去音声信号を出力として配信する、ノイズ除去手段とを含む、オーディオ装置であって、
前記ノイズ除去手段は、前記２つのマイクロホンセンサにより配信される前記信号を結合するための適応型フィルタコンバイナにおいて、前記マイクロホンセンサの一方によりピックアップされるノイズを、前記マイクロホンセンサの他方により配信される信号により与えられるノイズ参照信号に基づいて除去するように反復探索により動作する、適応型フィルタコンバイナを含む、非周波数ノイズ低減手段であり、
前記適応型フィルタは、前記サンプリング手段のサンプリング周期よりも短い遅延量をモデル化するのに適した小数遅延フィルタであり、
前記装置は、音声の存在または不在を示す信号を、前記装置の前記ユーザから配信するのに適した音声活動検出器手段をさらに含み、
前記適応型フィルタは、ｉ）音声が存在しないとき、フィルタパラメータ用の適応型探索を実行し、ｉｉ）または別に音声が存在するとき、前記フィルタのこれらのパラメータを「固定」するために、選択的に働くように、前記音声の存在または不在の信号を入力としてさらに受け取る、オーディオ装置。
前記適応型フィルタは、以下のように、最適化フィルタＨを推定するのに適しており、

ここで、

および、Ｇ（ｋ）＝ｓｉｎｃ（ｋ＋τ／Ｔｅ）

は、小数遅延量を含むインパルス応答のために、前記２つのマイクロホンセンサ間に伝達するノイズの推定最適化フィルタＨを示し、

は、前記２つのマイクロホンセンサ間の推定小数遅延フィルタＧを示し、

は、環境の推定音響応答を示し、

は、重畳和を示し、
ｘ（ｎ）は、前記フィルタＨへの信号入力のサンプルの級数であり、
ｘ’（ｎ）は、オフセット量が遅延量τの級数ｘ（ｎ）であり、
Ｔｅは、前記フィルタＨへの信号入力のサンプリング周期であり、
τは、Ｔｅの約数に等しい、前記小数遅延量であり、
ｓｉｎｃは、カーディナルサイン関数を示す、請求項１に記載のオーディオ装置。
前記適応型フィルタは、最小２乗平均タイプの線形予測アルゴリズムを有するフィルタである、請求項１に記載のオーディオ装置。
前記装置は、前記装置の前記ユーザに向かって方向付けられ、前記ユーザの画像をピックアップするのに適したビデオカメラをさらに含み、
前記音声活動検出器手段は、前記カメラにより生成された信号を分析し、前記ユーザからの、音声の存在または不在を示す前記信号を応答的に配信するのに適したビデオ分析手段を含む、請求項１に記載のオーディオ装置。
前記装置は、内部骨伝導により伝達される非音響音声振動をピックアップするために、前記装置の前記ユーザの頭部に結合するように、前記装置の前記ユーザの前記頭部と接触するのに適した生体センサをさらに含み、
前記音声活動検出器手段は、前記生体センサにより配信された信号を分析し、前記ユーザによる音声の存在または不在を示す前記信号を応答的に配信するのに適した手段を含む、請求項１に記載のオーディオ装置。
前記音声活動検出器手段は、前記生体センサにより配信される前記信号のエネルギーを評価するための手段と、閾値手段とを含む、請求項５に記載のオーディオ装置。
マイクロホンおよびイヤホンの組合せタイプのオーディオヘッドセットであるオーディオ装置であって、前記ヘッドセットは、
それぞれが音声信号の音声を再生するための変換器を含み、耳周囲のクッションを設けられた殻内に収容されたイヤピースと、
前記イヤピースの一方の前記殻上に配置された前記２つのマイクロホンセンサと、
前記イヤピースの一方の前記クッション内に内蔵され、前記ヘッドセットの装着者の頬またはこめかみと接触するのに適した、イヤピースの領域内に配置された前記生体センサとを含む、請求項６に記載のオーディオ装置。
前記２つのマイクロホンセンサは、前記装置の前記ユーザの口に向かって方向付けられた主方向上のリニアアレイとして並ぶ、請求項７に記載のオーディオ装置。