JP2010507105A

JP2010507105A - 音声会議通信システムにおいて音響エコーをキャンセルするためのシステム及び方法

Info

Publication number: JP2010507105A
Application number: JP2009532431A
Authority: JP
Inventors: ロナルドシェーファー，
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2006-10-12
Filing date: 2007-10-12
Publication date: 2010-03-04
Also published as: US20080091415A1; EP2097896A2; WO2008045537A2; WO2008045537A3

Abstract

本発明の種々の実施の形態は、音響エコーキャンセレーション機能を含む音声会議通信システムのための周波数領域符号器／復号器８０２に関する。本発明の一実施の形態では、音響エコーキャンセラ８１２は、周波数領域符号器／復号器８０２に組み込まれ、周波数領域に変換されており、且つ周波数領域符号器／復号器８０２によって部分帯域に分割されている音声信号からの音響エコーを緩和するか、又はその音響エコーを除去する。

Description

本発明は音響エコーキャンセレーションに関し、詳細には、音声会議通信システムにおいて音響エコーをキャンセルするためのシステム及び方法に関する。

一般のインターネット、電子プレゼンテーション、ボイスメール及び音声会議通信システムのような通信媒体が、さらに良好な音声及び通信技術の需要を拡大している。現在、効率及び生産性を高めると同時に、コストを削減し、構成を簡単にするために、数多くの個人及び企業がこれらの通信媒体を使用する。音声会議通信システムによって、第１の場所にいる１人又は複数の人が、ヘッドセットを装着することなく、又は携帯通信デバイスを用いることなく、全二重通信線を通じて、他の場所にいる１人又は複数の人と同時に会話することができるようになる。典型的には、音声会議通信システムは、各場所に、複数のマイクロフォン及びラウドスピーカを備える。これらのマイクロフォン及びラウドスピーカは、他の場所との間で音声信号を送受信するために、多数の人によって使用される。音声信号を伝送するためにデジタル通信システムが用いられるとき、伝送前に音声信号を圧縮し、伝送後に音声信号を解凍するために、多くの場合に、音声会議通信システムの中に符号器／復号器が組み込まれる。

最新の音声会議通信システムは、聞き取れるほどの歪み、背景雑音及び他の望ましくない音声アーティファクトがない、音声信号の明瞭な伝送の提供を試みている。１つの一般的なタイプの望ましくない音声アーティファクトは音響エコーである。マイクロフォンとスピーカとの結合に起因して、送信された音声信号が電話会議通信システムを通じて戻されるときに、音響エコーが生じることがある。たとえば、音声信号が、第１の場所にあるマイクロフォンから第２の場所にあるラウドスピーカまで伝送されるとき、その音声信号が、第２の場所において結合されるマイクロフォンに伝達されることがあり、その後、第１の場所にあるラウドスピーカに戻されることがある。そのような場合に、第１の場所においてマイクロフォンに向かって話をしている人は、もともと自分が送信した音声信号の遅延したエコーを聞くことがある。信号増幅又は利得、及び各場所におけるマイクロフォンのスピーカへの接近に応じて、第１の場所においてマイクロフォンに向かって話をしている人は、うるさいほどのハウリング音を聞く可能性さえある。

音声会議通信システムの設計者は、種々の方法で音響エコーの補償を試みてきた。１つの補償技法は、エコーをキャンセルするために、「音響エコーキャンセラ」と呼ばれるフィルタリングシステムを使用する。音響エコーキャンセラは、元の音声信号の送り手に音響エコーが達する前に、音響エコーをキャンセルしようと試みる。典型的には、音響エコーキャンセラは適応フィルタを使用し、適応フィルタは、音響エコーの特性に影響を及ぼすことがある音声信号受信場所の条件変化に適応する。

しかしながら、適応フィルタは一般的に、大量の計算を実行してフィルタ性能を調整するので、多くの場合に、条件変化に合わせるのに時間がかかる。それゆえ、電話会議通信システムの設計者、製造者及び使用者は、音声信号受信場所の条件変化にさらに迅速に適応し、電話会議通信システム内の望ましくないエコーを効率的に相殺することができる音響エコーキャンセラが必要であることを認識している。

本発明の種々の実施の形態は、音響エコーキャンセレーション機能を含む音声会議通信システムのための周波数領域符号器／復号器に関する。本発明の一実施の形態では、音響エコーキャンセラは、周波数領域符号器／復号器に組み込まれ、音声信号からの音響エコーを緩和するか又はその音響エコーを除去し、その音声信号は、周波数領域に変換されており、且つ周波数領域符号器／復号器によって部分帯域に分割されている。

１つの例示的な２地点音声会議通信システムの概略図である。２地点のうちの一方において音響エコーキャンセラを使用する、１つの例示的な２地点音声会議通信システムの概略図である。周波数領域音声符号器の全体的な構造を示すブロック図である。図２に示される周波数領域音声符号器において音声信号の周波数解析を実行するのに適しているフィルタバンクシステムを示す図である。図２に示される周波数領域音声符号器と共に用いるのに適している周波数領域音声復号器の全体的な構造を示すブロック図である。図４に示される周波数領域音声復号器において音声信号の周波数合成を実行するのに適しているフィルタバンクシステムを示す図である。音響エコーキャンセラ及び周波数領域符号器／復号器を使用する、図１Ａ及び図１Ｂに示される例示的な２地点音声会議通信システムの概略図である。図６に示される、周波数領域符号器／復号器を基にする、例示的な２地点音声会議通信システムの部屋１のさらに詳細な概略図である。１つの例示的な２地点電話会議通信システムの部屋１内の周波数領域符号器／復号器に組み込まれ、本発明の一実施形態を表す音響エコーキャンセラの概略図である。線形フィルタリングと、これに続く周波数解析の概略図である。図９Ａ及び図９Ｂの出力が均等であるようにする、周波数解析と、これに続く部分帯域信号の線形フィルタリングの概略図である。

本発明の一実施形態は、周波数領域符号器／復号器内に組み込まれ、音声会議通信システム内に含まれる音響エコーキャンセラに関する。音響エコーキャンセラは、音声信号受信場所において、１つ又は複数のラウドスピーカが１つ又は複数のマイクロフォンに結合されるときに引き起こされる音響エコーをキャンセルする。音声信号受信場所の条件変化によって、音声信号受信場所において結合したラウドスピーカとマイクロフォンとの間のインパルス応答に変化が生じ、それにより、音響エコーの特性に変化が生じる。音響エコーキャンセラ内の適応フィルタは、音声信号受信場所のインパルス応答を追跡し、インパルス応答推定値を生成する。そのインパルス応答推定値を用いて、音響エコーキャンセラにおいてエコー信号推定値が生成される。その後、エコー信号推定値は、音声信号受信場所にあるマイクロフォンから伝搬する信号から減算され、結果として生成される誤差信号が出力され、音声信号送信場所に戻される。

適応フィルタは、音声信号を圧縮するために、音声信号の符号化及び復号化を実施するために用いられるものと同じ周波数解析及び合成演算を用いることによって、周波数領域において実施される。適応フィルタは、周波数領域符号器／復号器内で一連の相対的に平坦なスペクトルの部分帯域に分割された周波数領域音声信号を入力及び出力する。部分帯域信号は、全帯域音声信号の場合に典型的に用いられるサンプリングレートよりもはるかに低いサンプリングレートにおいてサンプリングされる。さらに、本発明の代替的な実施形態では、音響エコーキャンセラは、音響エコーキャンセラ内の周波数領域符号器／復号器の既存の雑音低減構成要素及び知覚符号化構成要素を組み込み、それにより、エコーキャンセリング性能を向上させることができる。

本発明は、次の３つのサブセクション、すなわち（１）音響エコーキャンセレーションの概説、（２）音声信号圧縮の概説、及び（３）本発明の周波数領域音響エコーキャンセラ実施形態において以下に説明される。

［音響エコーキャンセレーションの概説］
１つ又は複数の場所において、１つ又は複数のマイクロフォンと１つ又は複数のラウドスピーカとの間に結合が生じるために、音声会議通信システムにおいて音響エコーが生じる。図１Ａは、１つの例示的な２地点音声会議通信システムの概略図を示す。音声会議通信システム１００は、２つの場所、すなわち部屋１の１０２及び部屋２の１０４を含む。通信媒体１０６及び１０８によって、部屋１の１０２と部屋２の１０４との間で音声信号が伝送される。音声信号は、マイクロフォン１１０及び１１２によって通信媒体に入力され、音声信号は、ラウドスピーカ１１４及び１１６において通信媒体から出力される。

図１Ａでは、部屋２の１０４内の音声信号源１１８が音声信号ｓ_out（ｔ）１２０を生成する。下付き文字「ｏｕｔ」は、本出願全体を通して種々の図面において、その信号が通信媒体の外部で伝送されていることを表すために、いくつかの異なる信号を参照する際に用いられ、一方、下付き文字「ｉｎ」は、通信媒体内部で伝送される信号を参照する際に用いられる。表記「（ｔ）」は、本出願全体を通して種々の図面において、その信号が時間の関数であることを表すために、いくつかの異なる信号を参照する際に用いられる。部屋１の１０２及び部屋２の１０４内で生じる音響信号を検討するときに、「（ｔ）」は連続した（アナログ）時間を表す。デジタル伝送及びデジタル信号処理の場合に用いられるように、サンプリングされた信号を検討するときには、「（ｔ）」はサンプリング周期Ｔ_s＝１／ｆ_sの間隔（又は倍数）だけ離れて位置する離散した時点を表す。

音声信号ｓ_out（ｔ）１２０は、部屋２の１０４内で多数の経路をとる。経路のうちのいくつかは、直接経路によって、又は部屋２の１０４内の物体からの反射によって、マイクロフォン１１０によって受信される。音声信号ｓ_out（ｔ）１２０が音声信号源１１８からマイクロフォン１１０の出力までに辿る種々の経路は、まとめて、部屋２の１０４のインパルス応答と呼ばれる。図１Ａにおいて、部屋２の１０４のインパルス応答、ｇ_Room2（ｔ）１２２は、音声信号源１１８からマイクロフォン１１０までを指している点線によって表される。インパルス応答ｇ_Room2（ｔ）１２２は、部屋２の１０４内部の条件が変化するのに応じて変化することがある。変化の例は、人の移動、ドアの開閉、及び部屋２の１０４内の家具の位置変更を含む。例示を簡単にするために、インパルス応答ｇ_Room2（ｔ）１２２は、一本の線として示されるが、一般的には、数多くの異なる方向を有する数多くの異なる音波経路の複雑な重ね合わせである。

標準的な条件下において、室内の音波伝送は、線形システムとして十分にモデル化することができる。線形システムは数学的に畳み込み演算によって記述されることがよく知られている。したがって、音声信号ｘ_in（ｔ）１２４、すなわちマイクロフォン１１０の出力は、以下に記述される音声信号ｓ_out（ｔ）１２０とインパルス応答ｇ_Room2（ｔ）１２２との間の畳み込みの結果である。図１Ａにおいて、音声信号ｘ_in（ｔ）１２４は、以下のように表すことができる。

ただし、ｓ_out（ｔ）１２０は音声信号源１１８によって出力される音声信号であり、ｇ_Room2（ｔ）１２２は部屋２の１０４のインパルス応答であり、ｘ_in（ｔ）１２４は通信媒体１０６に入力される信号であり、「^*」は連続時間畳み込みを表す。上記の例では、ｇ_Room2（ｔ）１２２は、線形であると仮定されるマイクロフォン応答と、部屋２１０４のマルチパル伝送とを含む。

部屋２の１０４内の音声信号ｘ_in（ｔ）１２４は、マイクロフォン１１０から、通信媒体１０６を経由して、部屋１の１０２内のラウドスピーカ１１４に送られる。音声信号ｘ_in（ｔ）１２４は、ラウドスピーカ１１４を通り（図１Ａにおいて、部屋１の１０２内の音声信号「ｘ_out（ｔ）」として示される）、その後、部屋１の１０２を通って、マイクロフォン１１２まで進む。音声信号ｘ_in（ｔ）１２４がラウドスピーカ１１４からマイクロフォン１１２の出力ｙ_in（ｔ）１２６までに辿る一連の経路はまとめて、部屋１１０２のインパルス応答と呼ばれる。図１Ａにおいて、部屋１の１０２のインパルス応答、すなわちｈ_Room1（ｔ）１２８は、ラウドスピーカ１１４からマイクロフォン１１２まで指している点線によって表される。例示を簡単にするために、インパルス応答ｈ_Room1（ｔ）１２８は、一本の線として示されるが、一般的には、数多くの異なる方向及び反射を有する数多くの異なる音波経路の複雑な重ね合わせである。ラウドスピーカ及びマイクロフォンはいずれも線形システムであり、その応答特性は、部屋２の１０２のマルチパスインパルス応答と線形結合することができるものと仮定されることに留意されたい。マイクロフォン１１２から出力される音声信号は、エコー信号ｙ_in（ｔ）１２６であり、音声信号ｘ_in（ｔ）１２４とインパルス応答ｈ_Room1（ｔ）１２８との間の畳み込みの結果である。誰かが部屋１の１０２において話をしているときなどのように、部屋１の１０２において音声信号が生じるとき、その音声信号もマイクロフォン１１２によって拾われることに留意されたい。マイクロフォン１１２が、部屋２の１０４からの音声信号及び部屋１の１０２からの音声信号の両方から伝送している音を拾っているとき、この条件は「ダブルトーク」として知られている。ダブルトーク状態は一般的に、音響エコーキャンセラによって検出され、エコーキャンセレーションが一時中止される。数多くのダブルトーク検出アルゴリズムが、音響エコーキャンセラの技術分野において知られており、本発明のための制御機構の一部として適用することができる。

部屋１の１０２において、マイクロフォン１１２によって拾われている音声信号が生じていないものと仮定するとき、エコー信号ｙ_in（ｔ）１２６は、以下の式によって表すことができる。

ただし、ｘ_in（ｔ）１２４はラウドスピーカ１１４に入力される音声信号であり、ｈ_Room1（ｔ）１２８は部屋１の１０２のインパルス応答であり、ｙ_in（ｔ）１２６は通信媒体１０８に入力される信号であり、「^*」は連続時間畳み込みを表す。

エコー信号ｙ_in（ｔ）１２６は、マイクロフォン１１２から、通信媒体１０８を経由して、部屋２の１０４内のラウドスピーカ１１６に送られる。ラウドスピーカ１１６が、エコー信号ｙ_out（ｔ）１３０を出力する。音声信号源１１８が話をしている人であるとき、その人は、自分が依然として話をしている間に、自分の声の時間遅れのエコーを聞くことがある。遅延時間は、部屋１の１０２と部屋２の１０４とを隔てている距離、場所間のデジタル伝送の前後に音声信号を処理するために電話会議通信システム１００によって使用される周波数領域符号器／復号器（図１Ａには示されない）のような、付加的な信号処理によって必要とされる時間の長さなどの複数の要因によって異なることがある。マイクロフォンによる音声信号の増幅、及びラウドスピーカとマイクロフォンとの間の距離にもよるが、マイクロフォン１１０に向かって話をしている人は、自分の声の遅延したエコーを聞くことがあり、ループ利得が十分に高いときには、うるさいほどのハウリング音を聞くこともある。音声信号ｙ_out（ｔ）１３０は、マイクロフォン１１０によって受信されることがあり、それにより、音響エコーを除去するために何もなされなければ、音声会議通信システム１００の中で音響エコーが無限に繰り返されることがある。

図１Ｂは、２つの場所のうちの一方において音響エコーキャンセラを使用する１つの例示的な２地点音声会議通信システムの概略図を示す。図１Ｂにおいて破線の長方形によって表される音響エコーキャンセラ１３４が、通信媒体１０６と相互接続される通信媒体１３６を経由して、サンプリングされた音声信号ｘ_in（ｔ）１２４を受信する。図１Ｂにおいて、音響エコーキャンセラは、アナログシステムとして現れる。しかしながら、電話会議通信システムのための適応フィルタは、通常、有限インパルス応答デジタルフィルタである。有限応答デジタルシステムの場合、音声信号は一般的にサンプリングされ、畳み込みは一般的に数値計算によって実行される。サンプリング及び数値計算は、たとえば、部屋１の１０２内のアナログ／デジタルコンバータを用いて、ｙ_in（ｔ）１２６をサンプリングし、離散時間バージョンを生成することによって果たすことができる。同様に、部屋２の１０４内のアナログ／デジタルコンバータを用いて、離散時間バージョンの信号ｘ_in（ｔ）１２４を生成することができる。図１Ｂにおいて、デジタル／アナログコンバータを用いて、ｘ_in（ｔ）１２４をアナログ信号に変換し、ラウドスピーカ１１４に入力することができる。アナログ／デジタルコンバータ及びデジタル／アナログコンバータは図１Ｂには示されないが、上記の説明において、図１Ｂ内の信号は、適切なサンプリングレートにおいてサンプリングされること、部屋１の１０２と部屋２の１０４との間でデジタル伝送が用いられること、並びにエコーキャンセレーションを実施するために、デジタルフィルタリングが用いられることが仮定される。

音響エコーキャンセラ１３４は、適応フィルタ１３８と、加算接合部１４０とを備える。適応フィルタ１３８は、２つの入力を介して、信号を受信する。第１の入力は、通信媒体１３６を介して、音声信号ｘ_in（ｔ）１２４を受信し、第２の入力は、通信媒体１４２を介して、フィードバック信号、すなわち音響エコーキャンセラ１３４から出力される信号を受信する。適応フィルタ１３８は、２つの入力信号に含まれる情報を用いて、インパルス応答推定値

１４４を生成し、部屋１の１０２内の条件変化に応じてインパルス応答ｈ_Room1（ｔ）１２８が変化するときに、そのインパルス応答推定値は、インパルス応答ｈ_Room1（ｔ）１２８を追跡するために調整される。音声信号ｘ_in（ｔ）１２４が、音響エコーキャンセラ１３４によって、インパルス応答推定値

１４２と畳み込まれ、離散畳み込み

によって、エコー信号推定値

１４６が生成される。エコー信号推定値

１４６は、通信媒体１４８を経由して、加算接合部１４０に送られ、加算接合部１４０には、通信線１５０を介して、マイクロフォン１１２から、エコー信号ｙ_in（ｔ）１２６も入力される。加算接合部１４０は、エコー信号ｙ_in（ｔ）１２６から、エコー信号推定値

１４６を減算し、誤差音声信号ｅ_in（ｔ）１５２、すなわち部屋２の１０４に伝送されることになる信号

を生成する。誤差音声信号ｅ_in（ｔ）１５２は、通信線１５４を介して、ラウドスピーカ１１６に送られ、部屋２の１０４に誤差音声信号ｅ_out（ｔ）１５６として出力される。インパルス応答推定値

１４４がインパルス応答ｈ_Room1（ｔ）１２８に十分に近いとき、誤差音声信号ｅ_in（ｔ）１５２の大きさは小さく、部屋２の１０４内に音響エコーはほとんど伝送されない。ダブルトークの状況中には、線形性によって、誤差信号は部屋１の１０２内の人の発話信号（図１Ｂには示されない）も含み、これが適応フィルタ１３８の発散を引き起こすことがあるので、適応フィルタ１３８の適応を一時中止する必要があることに留意されたい。音響エコーキャンセラ１３４は、最新の導出された

１４４を用いて、部屋２の１０４内の音声信号源１１８によって生成された音響エコーのキャンセルを試み続けることができるが、システムは全二重動作を利用するので、部屋１１０２内の人の発話（図１Ｂには示されない）はそれでも、部屋２の１０４に伝送される。

フィルタ係数値

１４４（ただし、ｔ＝０、１、２、．．．、Ｍ）は、離散時間フィルタの特性を決定する。適応フィルタの場合、それらの係数は時間と共に調整される。フィルタ係数は、最小平均二乗アルゴリズム（「ＬＳＭ」）又はアフィン投影のような、当該技術分野においてよく知られている技法を用いて導出される。そのようなアルゴリズムを用いて、適応フィルタ１３８のフィルタ係数を絶えず適応させて、インパルス応答推定値

１４４を部屋１１０２のインパルス応答ｈ_Room1（ｔ）１２８に近づけることができる。図１Ｂを参照しながら先に説明されたように、通信媒体１４２によって、適応フィルタ１３８にフィードバックが与えられ、通信媒体１４２は通信媒体１５４と接続し、誤差音声信号ｅ_in（ｔ）１５２のための最新値を適応フィルタ１３８に戻す。

図１Ｂを参照しながら説明された音響エコーキャンセラは、部屋２の１０４から生じる音声信号から導出される音響エコーをキャンセルようにだけ動作することに留意されたい。大部分の双方向の会話では、音声信号は、それぞれの場所において送信され、受信される。部屋１の１０２から生じる音響エコーをキャンセルするために、一般的には、部屋２の１０４において、第２の音響エコーキャンセラが使用される。

［音声信号圧縮の概説］
音声会議通信システムを含む、デジタル電気通信技術の主な要素は、データを記憶すること及び場所間でデータを転送することである。データの記憶及び伝送は費用がかかり、時間を要することがあるので、記憶又は伝送前にデータを圧縮することによって、データをより効率的に格納し、伝送するために、種々の技法が生み出されてきた。圧縮されたデータの個々のユニットは一般的に、直にアクセスすることはできない。圧縮されたデータの伝送及び記憶は、より効率的であるが、データの個々のユニットにアクセスするには、圧縮されたデータが解凍される必要がある。

圧縮技法は一般的に、非可逆圧縮及び可逆圧縮に分けられる。非可逆圧縮は、可逆圧縮によって達成される圧縮比よりも高い圧縮比を達成するが、非可逆圧縮は、後に解凍する結果として、情報が失われる。音声信号の場合、圧縮／解凍される音声信号が聞き取れるほど劣化するのを避けるために、非可逆圧縮／解凍サイクルから生じるデータ損失は巧みに処理される必要がある。人の聴覚系の固有の限界を使用することによって、音質を犠牲にすることなく、音声信号を圧縮及び解凍することができる。知覚現象は多くの場合に、周波数領域において最もよく理解され、表現されるので、高品質音声符号化システムの大部分は、周波数解析を伴う。

図２は、周波数領域音声符号器の全体的な構造を示すブロック図を示す。ブロック図２００は、単一のサンプリングされた時間波形ｘ（ｔ）２０２を、時間及び周波数の両方の関数であるデジタルデータストリームに符号化するための過程を示す。そのような音声符号化システムのいくつかの例は、ＭＰＥＧ−２及びＡＡＣを含む。図２では、時間波形ｘ（ｔ）２０２は、「周波数解析」を付されるブロック２０４に入力されるように示される。周波数解析ブロック２０４は、入力時間波形ｘ（ｔ）２０２の時間と共に変化する周波数解析を得る。時間シフトブロック変換又はフィルタバンクを用いて、時間と共に変化する周波数解析を実行することができる。たとえば、フィルタバンクが利用されるとき、フィルタバンクは、各時刻ｔにおいてベクトル時間信号Ｘ_sub（ω_k，ｔ）２０６（ただし、ｋ＝０、１、２、．．．、Ｎ−１）を形成する集合的な１組Ｎ個の出力を出力する。下付き文字「ｓｕｂ」は、図２及び後続の図面においていくつかの異なる信号を参照する際に、その信号が部分帯域を集めたものであることを表すために用いられる。図２において、ベクトル信号Ｘ_sub（ω_k，ｔ）２０６は、太い矢印として表される。図２及び後続の図面において、時間及び周波数の両方の関数である信号は、太い矢印として示される。

ベクトル信号Ｘ_sub（ω_k，ｔ）２０６は、「Ｑ」を付されたブロック２０８に入力され、そのブロックにおいて、ベクトル信号Ｘ_sub（ω_k，ｔ）２０６は、量子化及び符号化されて、信号Ｘ_in（ω_k，ｔ）２１０として出力される。特定の周波数の音が、近傍周波数の大きな音によって聞き取れなくなることがあること、すなわち「マスクされる」ことがあることが、信号処理の分野において十分に確立されている。図２において、時間波形ｘ（ｔ）２０２が、「知覚モデル」を付されるブロック２１２に入力され、ブロック２１２は、補助的なきめの細かいスペクトル解析を用いて、マスク効果を計算し、周波数解析の量子化を導く。この音声知覚のモデルを用いて、知覚することができない周波数成分は、数ビット又は０ビットを与えられ、一方、最も知覚することができる周波数成分は、最大のビットを与えられる。

図３は、図２に示される周波数領域音声符号器において音声信号の周波数解析を実行するのに適しているフィルタバンクシステムを示す。図３において、時間波形ｘ（ｔ）２０２が示されており、フィルタバンク３００に入力され、ベクトル時間信号Ｘ_sub（ω_k，ｔ）２０６（ただし、ｋ＝０、１、２、．．．、Ｎ−１）を形成する集合的な１組Ｎ個の出力として出力される。フィルタバンク３００は、Ｎ個のバンドパスフィルタＧ_k３０４を含み、その中心周波数はω_kであり、その通過帯域は、表現されるべき音声周波数の所望の帯域を含む。図３は、Ｎ＝４の場合を示すが、典型的な値は一般的にＮ＝３２以上である。バンドパスフィルタ３０４の出力ｘ_k（ｔ）３０６は、サンプル／秒の合計数が一定のままであるように、Ｎ分の１にダウンサンプリングされている（３０８）時間信号である。

一般的に、２つのタイプのマスキング、すなわち（１）空間的マスキング及び（２）時間的マスキングが考えられる。空間的マスキングでは、低い強度の音が、同時に生じている高い強度の音によってマスクされる。２つの音の周波数が近いほど、低い強度の音をマスクするのに要する音の強度の差が小さくなる。時間的マスキングは、低い強度の音が、高い強度の音の伝送直前又は直後に伝送されるときに、低い強度の音が高い強度の音によってマスクされる。２つ音の時間が近いほど、低い強度の音をマスクするのに要する音の強度の差が小さくなる。

通常、周波数領域符号化システムは、対応する周波数領域復号化システムを有する。図４は、図２において示される周波数領域音声符号器と共に用いるのに適している周波数領域音声復号器の全体的な構造を示すブロック図を示す。図４において、信号Ｘ_in（ω_k，ｔ）４０２が、「Ｑ^-1」を付されたブロック４０４に入力され、ブロック４０４は、符号化されたデジタル信号を取り込み、そのデータを変換して、周波数合成のための１組の適切な入力に戻す。図４において、周波数領域符号化信号Ｘ_sub（ω_k，ｔ）４０６（ただし、ｋ＝０、１、２、．．．、Ｎ−１）が、Ｑ^-1ブロック４０４から出力され、「周波数合成」を付されたブロック４０６に入力され、そのブロック４０６において、信号Ｘ_sub（ω_k，ｔ）４０６（ただし、ｋ＝０、１、２、．．．、Ｎ−１）は、サンプリングされた音声時間波形ｘ（ｔ）４１０に再構成される。

図５は、図４に示される周波数領域音声復号器において音声信号の周波数合成を実行するのに適しているフィルタバンクシステムを示す。集合的な１組の信号Ｘ_sub（ω_k，ｔ）４０６（ただし、ｋ＝０、１、２、．．．、Ｎ−１）がアップサンプリングされ（５０２）、Ｎ個のバンドパスフィルタＧ_k５０４を通じて送られ、その中心周波数はω_kであり、その通過帯域は、表現されるべき音声周波数の所望の帯域を含む。その出力ｘ_k（ｔ）５０６は合算され（５０８）、サンプリングされた音声時間波形ｘ（ｔ）４１０が再構成される。バンドパスフィルタ５０４を適切に設計し、元の周波数解析データを細かく量子化することによって、サンプリングされた音声時間波形ｘ（ｔ）４１０は、ごくわずかな量の誤差しか含むことなく、再構成することができる。

［本発明の周波数領域音響エコーキャンセラ実施形態］
デジタル伝送を使用する音声会議通信システムでは、ＭＰＥＧ２及びＡＡＣに基づく周波数領域符号器／復号器のような、周波数領域符号器／復号器を用いることによって音声信号を圧縮することにより、高品質の音声伝送のために必要とされるビットレートを低減するのが一般的である。伝送前に、音声信号は最初に周波数領域符号器を通じて送られ、その後、受信時に、周波数領域復号器を通じて送られる。周波数領域符号器は、音声信号を送信する前に、送出される音声信号を圧縮されたデジタル音声信号に変換し、周波数領域復号器は、圧縮されている受信デジタル音声信号を解凍して、ラウドスピーカに送ることができるアナログ音声信号を復元する。

図６は、音響エコーキャンセラ及び周波数領域符号器／復号器を使用する、図１Ａ及び図１Ｂに示される例示的な２地点電話会議通信システムの概略図である。部屋２の１０４内の周波数領域符号器６０２は、音声信号源１１８から生じる音声信号をデジタル化及び圧縮し、圧縮されたデジタル音声信号を、部屋１の１０２内の周波数領域復号器６０４に送信する。周波数領域復号器６０４は、圧縮されている受信デジタル音声信号を解凍することによって、アナログ音声信号を復元し、復元された音声信号は、離散時間形式において、適応フィルタ１３８に送られ、ラウドスピーカ１１４に送る前に、アナログ形式に変換される。エコー推定値信号

１４６がエコー信号ｙ_in（ｔ）１２６から減算され、結果として生成された誤差音声信号ｅ_in（ｔ）１５２が、部屋１１０２内の周波数領域符号器６０６に送られる。誤差音声信号ｅ_in（ｔ）１５２は、デジタル化及び圧縮され、部屋２の１０４内の周波数領域復号器６０８に送信され、そこで、誤差音声信号ｅ_in（ｔ）１５２は、離散時間信号に復元され、アナログ形式に変換され、ラウドスピーカ１１６に送られる。

図７は、図６に示される、周波数領域符号器／復号器に基づく例示的な２地点音声会議通信システムの部屋１のさらに詳細な概略図を示す。部屋１の１０２において点線の長方形として示される周波数領域符号器／復号器７００は、周波数領域符号器７０２と、周波数領域復号器７０４とを備える。周波数領域符号器７０２は、音声信号が部屋２に送信される前に、音声信号をデジタル化及び圧縮し、周波数領域復号器７０４は、圧縮されている受信デジタル音声信号を解凍することによって、部屋２から受信される音声信号を復元する。

図２において先に示されたように、図７に示される周波数領域符号器７０２は、周波数解析ステージ７０６及び量子化器７０８を備えており、量子化器は知覚モデル（図７には示されない）によって制御される。周波数解析ステージ７０６は、バンドパスフィルタのアレイ、すなわち図３に示されるフィルタバンクに類似のフィルタバンクを使用することによって、入力音声信号を周波数領域に変換し、入力音声信号を、太い矢印としてまとめて示される、複数の類似の帯域制限された信号７１０、すなわち部分帯域に分離する。各部分帯域は、入力音声信号の周波数範囲全体の周波数サブセットを含む。各部分帯域７１０内の分離された周波数成分は量子化器７０８に送られ、そこで、部分帯域は量子化及び符号化される。部分帯域は、量子化誤差が強い音声信号成分によってマスクされるように量子化される。図２に示されるように、音声信号内の情報ビットを捨てるために、知覚符号化が用いられており、知覚符号化は、信号が単一の音声波形に再構成されるときに、聞き取られる歪みを増大させることなく、音声信号のデータ速度を低減するように設計される。図７に示される概略図を簡単にするために、知覚モデル計算を省略した。しかしながら、量子化器を制御するために、通常知覚モデル計算が用いられる。可変ビット割当てを用いて信号が符号化され、一般的に、人の聴覚が最も敏感である中央の周波数範囲において、サンプル当たり、より多くのビットが用いられ、中央の周波数範囲において、より細かい分解能が与えられている。

その後、圧縮されたデジタル音声信号は、部屋２内の周波数領域復号器に送信され、そこで、圧縮された音声信号は復元されることができる。部屋１の１０２では、復号器７０４が部屋２からの圧縮された入力音声信号に関して逆演算を実行する。復号器７０４は、逆量子化器７１２を備えており、逆量子化器において、量子化されている受信音声信号が逆量子化され、適切な共通振幅スケールにおいて、まとめて太い矢印として示される部分帯域７１６が生成される。部分帯域は周波数合成ステージ７１４に送られ、そこで、部分帯域は、たとえば、図５に示されるように、元の周波数帯域の場所にアップサンプリングすることによって周波数シフトされ、フィルタバンクを通じて送られ、単一の音声波形に合算され、変換されて、時間領域に戻される。解析及び合成フィルタバンク、並びに周波数領域符号器／復号器によって実行される圧縮及び解凍ルーチンは、電話会議通信システムの中に遅延をもたらすことに留意されたい。

本発明の種々の実施形態は、音響エコーキャンセラ機能を含む音声会議通信システムのための周波数領域符号器／復号器に向けられる。音声会議通信システムに組み込まれる周波数領域符号器／復号器において一連の部分帯域に分割されるときに、音響エコーがキャンセルされる。畳み込みは線形演算であり、周波数解析及び周波数合成ステージも線形演算を利用するので、音響エコーキャンセレーションは、周波数領域において実行することができる。音響エコーキャンセレーションを周波数領域符号器／復号器に組み込むことによって、音響エコーキャンセレーションを周波数領域において実行することができ、その際に、音響エコーキャンセラのための冗長な音声信号変換装置を設ける必要はない。

本発明では、音響エコーキャンセラは、部分帯域が音声会議通信システム内の周波数領域復号器内にある間に、一連の部分帯域に分割される音声信号を受信する。音響エコーキャンセラは、音声会議通信システム内の周波数領域符号器に一連の部分帯域を出力する。図８は、１つの例示的な２地点電話会議通信システムの部屋１内の周波数領域符号器／復号器に組み込まれ、本発明の一実施形態を表す音響エコーキャンセラの概略図を示す。部屋１の８００は、点線の長方形として表される周波数領域符号器／復号器８０２と、ラウドスピーカ８０４と、マイクロフォン８０６とを備える。周波数領域符号器／復号器８０２は、周波数領域符号器８０８と、周波数領域復号器８１０と、破線の長方形によって表される音響エコーキャンセラ８１２とを備える。部屋２から入ってくる圧縮されたデジタル音声信号Ｘ_in（ω_k，ｔ）８１４が、周波数復号器８１０に入力される。デジタル音声信号Ｘ_in（ω_k，ｔ）８１４、すなわち周波数領域の音声信号は圧縮され、逆量子化器８１６によって受信され、部分帯域信号Ｘ_sub（ω_k，ｔ）８１８として図８において示される、一連の部分帯域信号に変換される。

音声信号Ｘ_sub（ω_k，ｔ）８１８は２つの場所、すなわち周波数合成ステージ８２０及び音響エコーキャンセラ８１２に出力される。周波数合成ステージ８２０は、音声信号Ｘ_sub（ω_k，ｔ）８１８を音声信号ｘ_in（ｔ）８２２に変換する。音声信号Ｘ_sub（ω_k，ｔ）８１８は、再構成された１組のバンドパスフィルタ出力であり、音声信号ｘ_in（ｔ）８２２は、単一の離散時間領域信号であることに留意されたい。音声信号ｘ_in（ｔ）８２２は、周波数領域復号器８１０から出力され、デジタル／音声変換器（図８には示されない）を通じて送られ、その後、ラウドスピーカ８０４に送られ、部屋１の７００の中に音響信号ｘ_out（ｔ）８２３として送出される。マイクロフォン８０６の出力はエコー信号ｙ_in（ｔ）８２６であり、これは、音声信号ｘ_in（ｔ）８２２とインパルス応答ｈ_Room1（ｔ）８２４との畳み込みである。エコー信号ｙ_in（ｔ）８２６は、周波数領域符号器８０８に入力され、周波数解析ステージ８２８によって変換され、一連の部分帯域、すなわちエコー信号Ｙ_sub（ω_k，ｔ）８３０に分割され、そしてＮ個の部分帯域信号のベクトル減算を表す加算接合部８３２に送られる。

音響エコーキャンセラ８１２は、音声信号Ｘ_sub（ω_k，ｔ）８１８を受信し、部分帯域信号に１組のフィルタを適用する。１組のフィルタは、図８において、フィルタリング行列

を付されたブロック８３４によって表される。フィルタリング行列

８３４は、図１Ｂを参照しながら先に説明された

の演算に等価である。フィルタリング行列

８３４によって表されるフィルタは、音声信号Ｘ_sub（ω_k，ｔ）８１８に適用されて、エコー信号推定値

８３８が生成され、これはフィルタリング行列

８３４から出力され、ベクトル加算接合部８３２によって受信される。エコー信号推定値

８３８がエコー信号Ｙ_sub（ω_k，ｔ）８３０から減算され、誤差音声信号Ｅ_sub（ω_k，ｔ）８４０が生成され、これが、フィードバックを与えるために適応フィルタ８３４に戻され、また量子化器８４２にも送られ、ここで、誤差音声信号Ｅ_sub（ω_k，ｔ）８４０は量子化され、その結果が、Ｅ_in（ω_k，ｔ）８４４として表される。誤差音声信号Ｅ_in（ω_k，ｔ）８４４は、周波数領域符号器８０８から出力され、部屋２に伝送される。

誤差信号の量子化は知覚モデルによって導かれる。部屋２からの信号が存在しない場合に、信号ｙ_in（ｔ）８２６はまさに、部屋２に送られることになる所望の信号であるので、知覚モデルは一般的に、信号ｙ_in（ｔ）８２６から計算される高分解能スペクトルによって制御される。したがって、信号ｙ_in（ｔ）８２６は、正確に量子化され、符号化される必要がある。部屋１において誰も話をしていない場合には、信号Ｅ_sub（ω_k，ｔ）８４０はキャンセルされることが望ましいエコーを表すので、信号Ｅ_sub（ω_k，ｔ）８４０を正確に量子化することは重要ではなくなる。この場合、誤差信号Ｅ_sub（ω_k，ｔ）８４０は、信号ｙ_in（ｔ）８２６を減衰させて、フィルタリングしたものであるので、それでも、信号ｙ_in（ｔ）８２６に基づく知覚モデルを使用することは妥当である。図８に示される量子化演算は、音声会議信号の品質を高めるためのさらに別の機会をもたらす。部分帯域信号に関する音響エコーキャンセレーションの技術分野において、量子化過程の一部としてよく知られている非線形エコー抑圧技法を実施することによって、残留音響エコーのさらなるマスキングを組み込むことができる。

線形フィルタリングの前後いずれかにおいて、周波数解析を実行することができる。図９Ａは、線形フィルタリングと、それに続く周波数解析の概略図を示す。図９Ａでは、周波数解析は、畳み込み

の後に実行され、部分帯域信号

が得られる。図９Ｂは、図９Ａ及び図９Ｂの出力が等価になるように、周波数解析の後に部分帯域信号の線形フィルタリングを実施する概略図を示す。C. A. Lanciani及びR. W. Schafer著「Psychoacoustically-based processing of MPEG-I layer 1-2 signals」（IEEE First Workshop on Multimedia Signal Processing, June 1997, pp 53-58）、並びにC. A. Lanciani及びR. W. Schafer著「Subband-domain filtering of MPEG audio signals」（Proc. IEEE ICASSP '99, vol. 2, March 1999, pp 917-920）において、Lanciani及びSchaferは、周波数解析が線形フィルタリング前に実行されるときに、部分帯域信号に適用することができる１組のバンドパスフィルタを見つけることができることを示した。フィルタリング行列

によって表される、この１組の線形フィルタを求めることは、図９Ｂにおいて示される線形フィルタを実現するのに重要である。フィルタリング行列

にＸ_sub（ω_k，ｔ）が入力されるとき、図９Ｂにおいて得られる

が図９Ａにおいて示される結果と等価になるように、フィルタリング行列

を調整することができる。

一般的に、図９Ｂの出力信号が図９Ａの出力信号に等価になる場合、

の各個別の部分帯域は、解析／合成フィルタバンクシステムのエイリアスキャンセレーション特性を保持するために、Ｘ_sub（ω_k，ｔ）の全ての部分帯域に依存する。しかしながら、C. A. Lanciani及びR. W. Schafer著「Subband-domain filtering of MPEG audio signals」（Proc. IEEE ICASSP '99, vol. 2, March 1999, pp 917-920）において、Lanciani及びSchaferは、音声符号器において用いられるタイプのフィルタバンクの場合、隣接する部分帯域の影響しか含む必要がないことを示した。フィルタリング行列

を含むインパルス応答は、音響エコーキャンセレーションの技術分野においてよく知られている技法を用いて適応させることができ、バンドパスフィルタが音声信号のサンプリングレートの１／Ｎ倍であるサンプリングレートにおいて動作するという利点、及び部分帯域信号が、その制限された周波数帯域にわたって比較的平坦なスペクトルを有するという利点がある。

電話会議通信システム内の周波数領域符号器／復号器によって実行される音声信号処理を用いて、音声信号が異なる場所に伝送される前に、音声信号内の可聴背景雑音の量を低減することもできる。１つの手法は、ウィーナタイプのフィルタリングを用いることである。ウィーナフィルタは、各信号の周波数スペクトルに基づいて信号を分離する。ウィーナフィルタは、主に音声信号を含む周波数を通し、主に雑音を含む周波数を遮断する。さらに、各周波数におけるウィーナフィルタの利得は、各周波数における音声信号及び雑音の相対的な量によって決定される。ウィーナフィルタは、音声信号と共に、信号対雑音比を最大にする。ウィーナタイプのフィルタリングを使用するために、信号は周波数領域内にある必要があり、且つ現在の場所内の雑音スペクトルがわかっている必要があり、それにより、ウィーナフィルタの周波数応答を計算することができる。本発明の現在の実施形態では、音響エコーキャンセラの適応フィルタを使用して、周波数領域符号器／復号器が配置される場所における雑音スペクトルを推定することによって、音声信号においてウィーナタイプのフィルタリングを実行し、音声信号が別の場所に伝送される前に、雑音を低減することができる。

本発明は、特定の実施形態に関して説明されてきたが、本発明がこの実施形態に限定されることを意図していない。本発明の精神の中にある変更が、当業者には明らかになるであろう。たとえば、電話会議通信システム内の場所の数は、２つよりも多くの数にすることができる。例示を明確にするために、上記の説明における例の多くにおいて、２つの場所が説明される。各場所において用いられるマイクロフォン及びラウドスピーカの数も変更することができる。例示を明確にするために、上記の説明における例の多くにおいて、１つのマイクロフォン及び１つのラウドスピーカが用いられる。各場所において、多数のマイクロフォン及び／又は多数のラウドスピーカを用いることができる。多数のマイクロフォン及び多数のラウドスピーカを有する場所の場合のインパルス応答はさらに複雑になることがあり、それに応じて、フィルタリング係数を調整して、音声信号受信場所のインパルス応答の変化に適応フィルタを適応させるために、さらに多くの計算が実行される必要があることに留意されたい。

これまでの詳細な説明は、本発明を完全に理解してもらうために、例示するのを目的として、特有の用語を使用した。しかしながら、本発明を実施するのに、具体的な細部が不要であることは当業者には明らかであろう。したがって、本発明の具体的な実施形態のこれまでの説明は、例示し、説明するために提示される。それらの実施形態は、本発明を余す所なく述べることや、本発明を開示されるのと全く同じ形態に限定することは意図していない。上記の教示に鑑みて、数多くの変更及び変形が可能であることは明らかである。それらの実施形態は、本発明の原理及びその実用的な用途を最もわかりやすく説明し、それにより、当業者が、意図している特定の用途に相応しいように、本発明及び種々の実施形態に種々の変更を加えて最大限に利用することができるようにするために選択され、説明された。

Claims

第１の場所（８００）にある音声会議通信システムの周波数領域符号器／復号器構成要素（８０２）であって、前記周波数領域符号器／復号器構成要素（８０２）は、
第２の場所（１０４）から受信される量子化された周波数領域音声信号（８１４）を１組の第２の場所の部分帯域信号（８１８）に変換する復号器（８１０）と、
前記第１の場所（８００）から受信される時間領域エコー音声信号（８２６）を１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に変換する符号器（８０８）と、
前記１組の第２の場所の部分帯域信号（８１８）及び前記１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に基づいて１組の周波数領域誤差音声部分帯域信号（８４０）を生成し、前記生成された１組の周波数領域誤差音声部分帯域信号（８４０）に基づいて、第１の場所のインパルス応答（８２４）を追跡する音響エコーキャンセラ（８１２）と、
前記第２の場所（１０４）に、量子化された周波数領域誤差音声部分帯域信号（８４４）を出力する音声信号出力とを備えることを特徴とする周波数領域符号器／復号器構成要素。
周波数領域符号器／復号器構成要素（８０２）であって、
前記復号器（８１０）は、
前記第２の場所（１０４）から受信される前記量子化された周波数領域音声信号（８１４）を前記１組の第２の場所の部分帯域信号（８１８）に変換するための逆量子化器（８１６）と、
前記第２の場所の部分帯域信号（８１８）を単一のサンプリングされた音声時間領域波形（８２２）に変換するための周波数合成ステージ（８２０）とを備えることを特徴とする、請求項１に記載の周波数領域符号器／復号器構成要素。
周波数領域符号器／復号器構成要素（８０２）であって、
前記符号器（８０８）は、
前記第１の場所（８００）から受信される前記時間領域エコー音声信号（８２６）を、前記音響エコーキャンセラ（８１２）に入力される、前記１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に変換するための周波数解析ステージ（８２８）と、
前記音響エコーキャンセラ（８１２）によって生成される前記１組の周波数領域誤差音声部分帯域信号（８４０）を、前記第２の場所（１０４）に出力される前記量子化された周波数領域誤差音声部分帯域信号（８４４）に変換するための量子化器（８４２）とを備えることを特徴とする請求項１に記載の周波数領域符号器／復号器構成要素。
周波数領域符号器／復号器構成要素（８０２）であって、
前記１組の量子化された周波数領域誤差音声部分帯域信号（８４０）が前記第２の場所（１０４）に出力される前に、前記１組の周波数領域誤差音声部分帯域信号（８４０）に関して、
知覚符号化、
雑音低減、及び
ウィーナタイプフィルタリングのうちの１つ又は複数が実施されることを特徴とする請求項１に記載の周波数領域符号器／復号器構成要素。
周波数領域符号器／復号器構成要素（８０２）であって、
前記音響エコーキャンセラ（８１２）は、
前記生成された１組の周波数領域誤差音声部分帯域信号（８４０）に基づいて前記第１の場所のインパルス応答（８２４）を追跡し、１組の第１の場所のエコー部分帯域信号推定値（８３８）を出力する適応フィルタ（８３４）と、
前記受信された１組の第１の場所の周波数領域エコー部分帯域信号（８３０）から前記受信された１組の第１の場所のエコー部分帯域信号推定値（８３８）を減算し、前記１組の周波数領域誤差音声部分帯域信号（８４０）を出力する加算接合部（８３２）とをさらに備えることを特徴とする請求項１に記載の周波数領域符号器／復号器構成要素。
音声会議通信システムにおいて音響エコーをキャンセルする方法であって、
復号器（８１０）と、符号器（８０８）と、音響エコーキャンセラ（８１２）とを備える周波数領域符号器／復号器（８０２）を第１の場所（８００）に設け、
第２の場所（１０４）から前記復号器（８１０）に、量子化された周波数領域音声信号（８１４）を送信し、前記量子化された周波数領域音声信号（８１４）を１組の第２の場所の部分帯域信号（８１８）に変換し、
前記第１の場所（８００）から前記符号器（８０８）に、時間領域エコー音声信号（８２６）を送信し、前記時間領域エコー音声信号（８２６）を１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に変換し、
前記音響エコーキャンセラ（８１２）によって、前記１組の第２の場所の部分帯域信号（８１８）及び前記１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に基づいて１組の周波数領域誤差音声部分帯域信号（８４０）を生成し、前記生成された１組の周波数領域誤差部分帯域信号（８４０）に基づいて、第１の場所のインパルス応答（８２４）を追跡し、
前記第２の場所（１０４）に、量子化された周波数領域誤差音声部分帯域信号（８４４）を出力することを含むことを特徴とする方法。
前記復号器（８１０）は、
前記第２の場所（１０４）から受信される前記量子化された周波数領域音声信号（８１４）を前記１組の第２の場所の部分帯域信号（８１８）に変換するための逆量子化器（８１６）と、
前記第２の場所の部分帯域信号（８１８）を単一のサンプリングされた音声時間領域波形（８２２）に変換するための周波数合成ステージ（８２０）とを備えることを特徴とする、請求項６に記載の方法。
前記符号器（８０８）は、
前記第１の場所（８００）から受信される前記時間領域エコー音声信号（８２６）を、前記音響エコーキャンセラ（８１２）に入力される、前記１組の第１の場所の周波数領域エコー部分帯域信号（８３０）に変換するための周波数解析ステージ（８２８）と、
前記音響エコーキャンセラ（８１２）によって生成される前記１組の周波数領域誤差音声部分帯域信号（８４０）を、前記第２の場所に出力される前記量子化された周波数領域誤差音声部分帯域信号（８４４）に変換するための量子化器（８４２）とを備えることを特徴とする請求項６に記載の方法。
前記１組の量子化された周波数領域誤差音声部分帯域信号（８４０）が前記第２の場所（１０４）に出力される前に、前記１組の周波数領域誤差音声部分帯域信号（８４０）に関して、
知覚符号化、
雑音低減、及び
ウィーナタイプフィルタリングのうちの１つ又は複数が実施されることを特徴とする請求項６に記載の方法。
前記音響エコーキャンセラ（８１２）は、
前記生成された１組の周波数領域誤差音声部分帯域信号（８４０）に基づいて前記第１の場所のインパルス応答（８２４）を追跡し、１組の第１の場所のエコー部分帯域信号推定値（８３８）を出力する適応フィルタ（８３４）と、
前記受信された１組の第１の場所の周波数領域エコー部分帯域信号（８３０）から前記受信された１組の第１の場所のエコー部分帯域信号推定値（８３８）を減算し、前記１組の周波数領域誤差音声部分帯域信号（８４０）を出力する加算接合部（８３２）とをさらに備えることを特徴とする請求項６に記載の方法。