JP2001516902A

JP2001516902A - デジタル音声信号中のノイズを抑制する方法

Info

Publication number: JP2001516902A
Application number: JP2000512196A
Authority: JP
Inventors: フィリプロクウド、; ステファンルビアール、
Original assignee: マトラノーテルコミュニカショーン
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 2001-10-02
Also published as: EP1016073B1; DE69804329D1; ES2174484T3; BR9812655A; DE69804329T2; AU9169098A; WO1999014739A1; FR2768546A1; FR2768546B1; EP1016073A1; CN1276896A; CA2304015A1

Abstract

(57)【要約】本発明は、各フレームにおいて信号スペクトル成分（Ｓ_n,f，Ｓ_n,i）を計算することと、スピーチ信号に含まれているノイズのスペクトル成分の最大にされた推定量【数１】を計算することと、調波解析を行ってピッチを推定することと、フレームにおけるスピーチ信号の各スペクトル成分（Ｓ_n,f）から、スペクトル成分に対応するノイズの最大にされた推定量と推定されたピッチとを含むパラメータに依存する量をそれぞれ差し引くことにあるステップを少なくとも備えるスペクトル差し引きを実行することと、差し引き結果に時間領域へ向かう変換を適用して強められたスピーチ信号（ｓ³）を構成することとを備える、引き続くフレームにより処理されるデジタル中のノイズを抑制する方法に関するものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明はデジタルスピーチ信号中のノイズを抑制する方法に関するものである
。更に詳しくいえば、それは非直線スペクトル差し引きによるノイズ抑制に関す
るものである。

【０００２】新しい形態の通信、特に移動電話、が広く採用されているために、通話はノイ
ズが非常に多い環境内で次第に行われるようになっている。ノイズは、会話に加
えて、スピーチ信号の最適圧縮を阻止することによって通話を妨害し、不自然な
背景ノイズを生ずる。ノイズは話されたメッセージお理解を困難にし、かつ疲れ
させる。

【０００３】

【従来の技術】

通話におけるノイズの影響を小さくしようとして多くのアルゴリズムが研究さ
れた。Ｓ．Ｆ．Ｂｏｌｌが（「スペクトル差し引きを用いるスピーチ中のノイズ
の抑制（Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎ
ｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）」
，音響、スピーチおよび信号処理についてのＩＥＥＥＴｒａｎｓ．（ＩＥＥＥ
Ｔｒａｎｓ．ｏｎＡｃｏｕｓｉｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａ
ｌＰｒｏｃｅｓｓｉｎｇ），Ｖｏｌ．ＡＳＳＰ−２７，Ｎｏ．２１９７９年４
月）スペクトル差し引きを基にしたアルゴリズムを提案している。この技術は沈
黙相中のノイズのスペクトルを見積ることと、受けた信号からそれを差し引くこ
ととで構成されている。それは受けたノイズレベルを低下する。それの主な欠陥
は、不自然であるために特にうるさい楽音ノイズ（ｍｕｓｉｃａｌｎｏｉｓｅ
）を生ずることである。

【０００４】この研究はＤ．Ｂ．Ｐａｕｌ（「スペクトル包絡線推定ボコーダ（Ｔｈｅｓ
ｐｒｃｔｒａｌｅｎｖｅｌｏｐｅｅｓｔｉｍａｔｉｏｎｖｏｃｏｄｅｒ）
」、音響、スピーチおよび信号処理についてのＩＥＥＥＴｒａｎｓ．（ＩＥＥ
ＥＴｒａｎｓ．ｏｎＡｃｏｕｓｉｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａ
ｌＰｒｏｃｅｓｓｉｎｇ），Ｖｏｌ．ＡＳＳＰ−２９，Ｎｏ．４１９８１年
８月））、およびＰ．ＬｏｃｋｗｏｏｄおよびＪ．Ｂｏｕｄｙ（「自動車内での
強力なスピーチ認識のための非直線スペクトル減算器と、隠されたマルコフ・モ
デルおよびプロジェクションによる実験（Ｅｘｐｅｒｉｍｅｎｔｓｗｉｔｈａ
ｎｏｎｌｉｎｅａｒｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｏｒ（ＮＳＳ）
，ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓａｎｄｔｈｅｐｒｏｊｅｃ
ｔｉｏｎ，ｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉ
ｎｃａｒｓ）、ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，ｖｏｌ．１１、
１９９２年６月、２１５〜２２８ページ、およびＥＰＯ特許出願公開明細書０５
３４８３７）により引き継がれて、改良され、ノイズレベルを大幅に低下させ
、しかもそれの自然の特色を保持している。更に、この寄与は、最初にノイズ抑
制フィルタの計算をマスキングする原理を包含するという利点を持つ。この考え
を基にして、スペクトル差し引きにおいて明示的に計算されたマスキングカーブ
を使用するために、最初の試みがＳ．ＮａｎｄｋｕｍａｒとＪ．Ｈ．Ｌ．Ｈａｎ
ｓｅｎによって行われた（「聴力を制約するパラメータの新しい集合におけるス
ピーチ強調（Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｏｎａｎｅｗｓｅ
ｔｏｆａｕｄｉｔｏｒｙｃｏｎｓｔｒａｉｎｅｄｐａｒａｍｅｔｅｒｓ）
Ｐｒｏｃ．ＩＣＡＳＳＰ９４、Ｉ．１〜Ｉ．４ページ）。上記技術の期待はず
れな結果にもかかわらず、この寄与はノイズ抑制中にスピーチ信号を劣化させな
いことの重要性を強調するという利点を持っていた。

【０００５】スピーチ信号をそれぞれの値に分割すること、したがって、スピーチ信号をよ
り小さいスペースに向けることを基にしたその他の方法が、ＢａｒｔＤｅＭ
ｏｏｒｅ（「単一値分解能およびノイズの多いマトリックスの長いスペースおよ
び短いスペース（Ｔｈｅｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉ
ｔｉｏｎａｎｄｌｏｎｇａｎｄｓｈｏｒｔｓｐａｃｅｓｏｆｎｏ
ｉｓｙｍａｔｒｉｃｅｓ）」、信号処理についてのＩＥＥＥＴｒａｎｓ．（
ＩＥＥＥＴｒａｎｓ．ｏｎｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ）、Ｖｏ
ｌ．４１、Ｎｏ．９、１９９３年９月、２８２６〜２８３８ページ）、およびＳ
．Ｈ．Ｊｅｎｓｅｎ他（「切り捨てられたＱＳＶＤによるスピーチ中の広帯域ノ
イズの減少（Ｒｅｄｕｃｔｉｏｎｏｆｂｒｏａｄ−ｂａｎｄｎｏｉｓｅ
ｉｎｓｐｅｅｃｈｂｙｔｒｕｎｃａｔｅｄＱＳＶＤ）」、スピーチおよ
びオーディオ処理についてのＩＥＥＥＴｒａｎｓ．（ＩＥＥＥＴｒａｎｓ．
ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ）、Ｖｏｌ．
３、Ｎｏ．６、１９９５年１１月）によって研究された。上記技術の原理はスピ
ーチ信号とノイズ信号を完全に相関していないものとみなすこと、および限られ
たパラメータ集合を基にしてスピーチ信号が予測されるのに十分な予測可能性を
持っているとみなすことである。この技術は高度な有声信号の許容できるノイズ
抑制を行うが、スピーチ信号の性質を全面的に変えてしまう。車両のタイヤ騒音
またはエンジン音などの比較的コヒーレントなノイズに直面すると、無声スピー
チ信号よりもはるかに容易にノイズを予測できる。そうすると、スピーチ信号を
ノイズのベクトルスペースの一部に投影する傾向がある。この方法はスピーチ信
号を、特に予測可能性が低い無声スピーチ領域、を考慮に入れない。更に、パラ
メータの小さい集合を基にしてスピーチ信号を予測すると、スピーチの固有の豊
富さの全てを考慮に入れることを阻止する。数学的考察およびスピーチの特定の
性質を監視することのみを基にした技術の限界は明らかである。

【０００６】最後に、他の技術はコヒーレンスの基準を基にしている。コヒーレンス関数は
Ｊ．Ａ．ＣａｄｚｏｗおよびＯ．Ｍ．Ｓｏｌｏｍｏｎによって特に良く開発され
た（「リニヤモデル化およびコヒーレンス関数（Ｌｉｎｅａｒｍｏｄｅｌｌｉ
ｎｇａｎｄｔｈｅｃｏｈｅｒｅｎｃｅｆｕｎｃｔｉｏｎ）」音響、スピ
ーチおよび信号処理についてのＩＥＥＥＴｒａｎｓ．、Ｖｏｌ．ＡＳＳＰ−３
５、Ｎｏ．１、１９８７年１月、１９〜２８ページ）。また、ノイズ抑制へのそ
れの応用がＲ．ＬｅＲｏｕｑｕｉｎにより開発されている（「ノイズが含まれ
ているスピーチ信号の強化：移動無線通信への応用（Ｅｎｈａｎｃｅｍｅｎｔ
ｏｆｎｏｉｓｙｓｐｅｅｃｈｓｉｇｎａｌｓ：ａｐｐｌｉｃａｔｉｏｎｔ
ｏｍｏｂｉｌｅｒａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎｓ）」、スピーチ通
信（ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ）、Ｖｏｌ．１８、３〜１９ペ
ージ）。この方法は、複数の独立チャネルが使用されるならば、スピーチ信号が
ノイズよりもはるかにコヒーレントである、という事実を基にしている。得られ
る結果はかなり勇気づけるもののようである。しかし、この技術は不幸なことに
複数の音声ピックアップ点を必要とする。これは必ずしも常にできるものではな
い。

【０００７】米国特許第５，２２８，０８８号が、周波数領域内で動作し、ピッチ検出器が
組み込まれているノイズ抑制装置を記述している。ノイズ抑制係数を調整し、か
つ「音声帯域」を探すために、そのような検出の結果が用いられる。ノイズ抑制
係数は、ノイズの推定量を信号から差し引く前にそれに重み付けするためにスペ
クトル差し引きモジュールによって用いられる。抑制係数を調整するそのモジュ
ールは、ピッチが検出されたか否かを示す情報のみを用いる。しかし、ピッチは
用いられる抑制係数に何の影響も及ぼさない。検出されたピッチの支援によって
決定された「音声帯」は全体的な信号強調を受ける。それは、その代わりに、全
体的な注意が向けられる「ノイズ帯」を決定するために使用できる。スペクトル
の一部、および信号の一部のそのような強調または減衰は、スペクトル差し引き
とは非常に異なるノイズ抑制法である。

【０００８】

【発明が解決しようとする課題】

本発明の主な目的は、スピーチ発生の特性を考慮に入れて、スピーチの知覚を
劣化することなく効率的なノイズ抑制を可能にする新規なノイズ抑制技術を提供
することである。

【０００９】

【課題を解決するための手段】

したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、各フレームごとにスピーチ信号のスペクトル成分を計算し、スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも１つの
ステップを含めて、スペクトル差し引きを行い、ノイズが抑制されたスピーチ信号を構成するためにスペクトル差し引きの結果
の時間領域への変換を行う、引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制す
る方法を提案するものである。

【００１０】その中で音声活動性を特徴とする各フレームにわたってスピーチ信号のピッチ
周波数を推定するためにスピーチ信号の調波解析が行われる。差し引かれる量が
依存するパラメータはそのようにして推定されたピッチ周波数を含む。

【００１１】ノイズのスペクトル包絡線を過大に推定することによって得られた過大推定量
がノイズの急激な変化に対して強いように、ノイズのスペクトル包絡線を過大に
推定することが一般に望ましい。しかし、大きすぎる過大な推定はスピーチ信号
を歪ませるという欠点を通常持つ。スピーチ信号が最もエネルギーを有している
のが有声領域であるので、この欠点は電話で非常にやっかいである。ノイズ抑制
においてスピーチ信号のピッチ周波数を考慮に入れると、それらの有声領域内の
信号の調波含有量を保護する。

【００１２】一般的な規則として、所与のスペクトル成分をスピーチ信号から差し引くため
に、前記スペクトル成分が、保護されている周波数に一致する成分、すなわち、
推定されたピッチ周波数の整数倍に最も近いならば、そのような保護される周波
数のいずれにも前記スペクトル成分が一致しない場合の量よりも少ない量が採用
される。この少ない量は特に零にできる。後者の場合には、スペクトル差し引き
は、推定されたピッチ周波数とそれの調波との少なくとも一方における信号に影
響を及ぼさない。そうするとノイズの過大推定によって導入される非直線性のい
くらか無くされ、それらは有声領域に対しては特に敏感である。それの励振信号
の一層ランダムな性質のために、無声領域はこれに対してより鈍感である。

【００１３】１つの有利な実施態様では、フレーム中のスピーチ信号のピッチ周波数を推定
した後で、そのフレームのスピーチ信号を推定されたピッチ周波数の倍数である
過大標本化周波数で過標本化することにより、そのスピーチ信号は調整され、そ
のフレーム内のスピーチ信号のスペクトル成分が調整された信号を基にして計算
されて、前記量をそれから差し引く。これによって推定されたピッチ周波数に最
も近い周波数の方が他の周波数よりも好都合である。これは、ピッチ周波数の調
波からかなり大きく離れている調波を保護することを避ける。したがって、スピ
ーチ信号の調波の性質は可能な限り保持される。スピーチ信号のスペクトル成分
を計算するために、調整された信号が、周波数領域に変換されるＮ個の標本のブ
ロックの間に分布させられ、過標本化周波数と推定されたピッチ周波数との間の
比が数Ｎの因数として選択される。

【００１４】従来の技術は、下記のやり方、すなわち、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する２つの切れ目の間
の時間間隔を推定する。その推定されたピッチ周波数は前記時間間隔に逆比例す
る、 −そのスピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての調
整された信号が連続する２つの切れ目の間に一定の時間間隔を持つようにする、
でフレームにわたってスピーチ信号のピッチを推定することにより、一層優れた
ものにできる。

【００１５】これは、スピーチ信号が一定の間隔で切れ目を持つような信号フレームを人工
的に構成する。したがって、フレームの持続する間におけるピッチのどのような
変化も考慮に入れられる。

【００１６】他の改良では、各フレームを処理した後で、ノイズが抑制されて、この処理に
より供給されたスピーチ信号の、標本化周波数と推定されたピッチ周波数との間
の比の整数倍に等しいいくつかの標本が保持される。これは、フレームの間の位
相不連続性によってひき起こされる歪み問題を避ける。それは一般に従来の重畳
加え合わせ（ｏｖｅｒｌａｐ−ａｄｄ）技術によって全面的には修正されない。

【００１７】過大標本化技術による信号の調整は、調整された信号を基にして計算されたス
ペクトル成分の自己相関のエントロピーの計算から、フレーム中のスピーチ信号
の有声度の良い測定値を与える。スペクトルが一層乱されると、すなわち、スペ
クトルの有声度が高くなると、エントロピー値が低くなる。スピーチ信号を調整
するとスペクトルの不規則性が強められ、したがって、エントロピーの変化が強
められ、その結果として後者は高い感度の測定を構成する。最高の性能を達成す
るために、自己相関はノイズが抑制された信号を基にして一般に計算される。け
れども、ノイズ抑制の前に調整された信号を基にしてそれらを計算することが可
能である。

【００１８】聴覚モデルを適用することによってマスキングカーブを計算するために、前記
量をスピーチ信号スペクトル成分から差し引くことにより得られる、ノイズが抑
制された信号のスペクトル成分を使用できる。フレーム中のスピーチ信号スペク
トル成分から差し引れる量が依存するパラメータは、ノイズのスペクトル成分の
過大推定と、計算されたマスキングカーブとの間の差を含むことが好ましい。差
し引かれる量は、マスキングカーブより上であるノイズに対応するスペクトル成
分の過大推定の一部に特に限定される。この手法は、可聴ノイズ周波数を抑制す
るために十分であるという観察を基にしている。対照的に、スピーチによりマス
クされないノイズの抑制には有用性はない。

【００１９】有利な実施態様では、スピーチ信号に含まれているノイズの各過大推定量は、
ノイズの前記スペクトル成分の長時間推定量と、ノイズの前記スペクトル成分の
長時間推定量についての可変性の測定値とを組合わせることによって得られる。
これは、長時間ノイズ変動に注意するノイズ推定子（ｎｏｉｓｅｅｓｔｉｍａ
ｔｏｒ）と、ノイズの短時間可変性に注意するノイズ推定子の２つの別々のノイ
ズ推定子を組合わせているために、ノイズの変動に特に強いノイズ推定子を生ず
る。

【００２０】

【発明の実施の形態】

本発明のその他の特徴およびその他の利点は、添付図面を参照して与えられる
、本発明の非限定的な実施形態についての以下の説明の中で明らかになるであろ
う。

【００２１】図１に示されているノイズ抑制装置はデジタルスピーチ信号ｓを処理する。ウ
ィンドウ化モジュール１０が信号ｓを引き続くウィンドウすなわちフレームの形
にフォーマット化する。各フレームは数Ｎのデジタル信号標本で構成されている
。通常のやり方で、それらのフレームは相互に重なり合うことができる。この説
明の残りでは、フレームはＮ＝２５６個の標本で構成され、標本化周波数Ｆ_eが８ｋＨｚ、各ウィンドウにはハミング重み付けがされ、連続するウィンドウの間
の重なり合いが５０％であるとみなすが、これは本発明を限定するものではない
。

【００２２】信号フレームは、信号のスペクトルのモジュラスを計算するために従来の高速
フーリエ変換（ＦＦＴ）アルゴリズムを用いているモジュール１１により、周波
数領域に変換される。その後でモジュール１１は、スピーチ信号のＮ＝２５６個
の周波数成分Ｓ_n,fの集合を出力する。ここに、ｎは現在のフレームの数、ｆは個別スペクトルからの周波数である。周波数領域内のデジタル信号の諸特性のた
めに、初めのＮ／２＝１２８個の標本だけが用いられる。

【００２３】信号ｓに含まれているノイズの推定量を計算するために、高速フーリエ変換の
下流側で利用できる周波数分解能を使用する代りに、信号の帯域幅［０，Ｆ_e／２］をカバーする数Ｉの周波数帯により決定される、より低い分解能が用いられ
る。各帯域ｉ

【００２４】

【数１９】はより低い周波数ｆ（ｉ−１）からより高い周波数ｆ（ｉ）まで延びる。ここに
、ｆ（０）＝０、ｆ（Ｉ）＝Ｆ_e／２である。周波数帯への細分は一様で、（ｆ（ｉ）−ｆ（Ｉ−１）＝Ｆ_e／２Ｉ）である。それは一様でなくすることもできる（たとえば、バルク尺度に従って）。モジュール１２は帯域内のスピーチ信号
のスペクトル成分Ｓ_n,fのそれぞれの平均を、たとえば、

【００２５】

【数２０】などの一様な重み付けにより計算する。

【００２６】この平均化で、帯域内のノイズの寄与を平均化することにより、帯域の間の変
動を減少する。それはノイズ推定子の多様性を減少する。また、この平均化は装
置の複雑さを大幅に減少する。

【００２７】平均化されたスペクトル成分Ｓ_n,iは音声活動検出器モジュール１５とノイズ推定子モジュール１６へ送られる。２つのモジュール１５と１６は、モジュール
１５により種々の帯域について測定された音声活動度γ_n,iが、種々の帯域内のノイズの長時間エネルギーを推定するためにモジュール１６により用いられ、一
方、音声活動度γ_n,iを決定するために種々の帯域内のスピーチ信号中のノイズの先験的抑制のために長時間推定量

【００２８】

【数２１】がモジュール１５により使用される。

【００２９】モジュール１５と１６の動作は図２と図３に示されている流れ図に一致させる
ことができる。

【００３０】ステップ１７ないし２０において、モジュール１５は信号フレームｎに対する
帯域ｉ内のスピーチ信号中のノイズの先験的抑制を行う。この先験的抑制は、１
つまたは複数の先行するフレーム中に含まれているノイズの推定量を基にして従
来の非直線スペクトル差し引きのやり方で行われる。ステップ１７では、帯域Ｉ
の分解能力を用いて、モジュール１５は式

【００３１】

【数２２】から先験的ノイズ抑制フィルタの周波数応答Ｈｐ_n,iを計算する。ここに、τ１およびτ２はフレームの数として表される遅延

【００３２】

【数２３】、α′_n,iは後で説明するようにして決定されるノイズ過大推定係数である。音声活動度の検出における信頼度が高くなるほど、τ１の値が小さくなる。

【００３３】ステップ１８ないし２０では、スペクトル成分

【００３４】

【数２４】が

【００３５】

【数２５】から計算される。ここに、βｐ_iは０に近いフロア係数（ｆｌｏｏｒｃｏｅｆｆｉｃｉｅｎｔ）であって、ノイズが抑制された信号のスペクトルが負の値、ま
たは楽音ノイズを生ずるような過度に小さい値を取ることを阻止するために従来
用いられていたものである。

【００３６】したがって、ステップ１７ないし２０は信号のスペクトルから先験的に推定さ
れたノイズスペクトルの推定量を差し引き、それに係数

【００３７】

【数２６】により過大重み付けされたものでほぼ構成されている。

【００３８】ステップ２１では、モジュール１５はフレームｎに対する種々の帯域ｉ内の先
験的にノイズが抑制された信号のエネルギー

【００３９】

【数２７】を計算する。それは、先験的にノイズが抑制された信号のエネルギーの大域平均
（ｇｌｏｂａｌａｖｅｒａｇｅ）も、帯域の幅により重み付けられた、各帯域
についてのエネルギーＥ_n,iを加え合わせることによって計算する。インデックスｉ＝０は信号の大域帯域を示すために用いられる。

【００４０】ステップ２２と２３では、モジュール１５は、各帯域ｉ

【００４１】

【数２８】に対して、帯域ｉ内のノイズが抑制された信号のエネルギーにおける短時間変化
を表す大きさΔＥ_n,iと、帯域ｉ内のノイズが抑制された信号のエネルギーの長時間値

【００４２】

【数２９】とを計算する。大きさΔＥ_n,iは簡単にされた式

【００４３】

【数３０】から計算できる。長時間エネルギー

【００４４】

【数３１】については、０＜Ｂ１＜１であるように忘却係数Ｂ１を用いて計算できる、すな
わち、

【００４５】

【数３２】ノイズが抑制された信号のエネルギーＥ_n,iと、それの短時間変化ΔＥ_n,iと、
それの長時間値

【００４６】

【数３３】とを図２に示されているやり方で計算した後で、モジュール１５は、各帯域

【００４７】

【数３４】に対して、ノイズが抑制された信号のエネルギーの展開（ｅｖｏｌｕｔｉｏｎ）
を表す値ρ_iを計算する。この計算は図３のステップ２５ないし３６で行われ、ｉ＝０からｉ＝Ｉまでの各帯域ｉについて実行される。その計算は長時間ノイズ
包絡線推定子ｂａ_iと、内部推定子ｂｉ_iと、ノイズを含むフレームカウンタｂ_i とを用いる。

【００４８】ステップ２５では、大きさΔＥ_n,iはしきい値ε１と比較される。そのしきい値ε１に達していないとすると、ステップ２６でカウンタｂ_iが１単位だけ増加させられる。ステップ２７では、長時間推定子ｂａ_iはなめらかにされたエネルギー値

【００４９】

【数３５】と比較される。

【００５０】

【数３６】であれば、推定子ｂａ_iは、ステップ２８において、なめらかにされた値

【００５１】

【数３７】に等しいものとしてとられ、カウンタｂ_iは零にリセットされる。そうすると、

【００５２】

【数３８】に等しいものとしてとられている（ステップ３６）、大きさρ_iは１に等しい。

【００５３】

【数３９】であることをステップ２７が示したとすると、ステップ２９でカウンタｂ_iが限界値ｂｍａｘと比較される。ｂｉ＞ｂｍａｘであれば、信号は音声活動度を支持
するには一定でありすぎると考えられる。フレームがノイズのみを含んでいると
考えるようになる、上記ステップ２８がその後で実行される。ステップ２９で

【００５４】

【数４０】であれば、内部推定子ｂｉ_iがステップ３３で式

【００５５】

【数４１】から計算される。上の式において、Ｂｍは更新係数を表す。それの値は音声活動
検出器オートーマトンの状態に従って異なる（ステップ３０ないし３２）。状態
δ_n-1は先行するフレームの処理中に決定されるものである。オートーマトンがスピーチ検出状態（ステップ３０でδ_n-1＝２）にあるとすると、係数Ｂｍは１に非常に近い値Ｂｍｐをとるので、ノイズ推定子はスピーチの存在する中で非常
に僅かに更新される。さもなければ、沈黙相でノイズ推定子のより意味のある更
新を可能にするために、係数Ｂｍはより小さい値Ｂｍｓをとる。ステップ３４で
、長時間推定子と内部ノイズ推定子との間の差ｂａ_i−ｂｉ_iがしきい値ε２と比
較される。そのしきい値ε２に達していないとすると、ステップ３５において長
時間推定子ｂａ_iが内部推定子ｂｉ_iの値で更新される。さもなければ、長時間推
定子ｂａ_iは不変のままである。これはノイズ推定子を更新させるスピーチ信号に起因する急変を阻止する。

【００５６】大きさρ_iが得られた後で、モジュール１５は音声活動判定ステップ３７へ進む。モジュール１５は、信号の全ての帯域について計算された大きさρ₀に従って検出オートマトンの状態を最初に更新する。図４に示すようにオートマトンの
新しい状態δ_nは先行する状態δ_n-1とρ₀に依存する。

【００５７】４つの状態が可能である：δ＝０は沈黙、すなわちスピーチの不存在、を検出
し、δ＝２は音声活動の存在を検出し、状態δ＝１とδ＝３は中間の立ち上がり
状態と立ち下がり状態である。オートマトンが沈黙状態（δ_n-1＝０）にあるとすると、ρ₀が最初のしきい値ＳＥ１を超えなければそれはそこに留まり、他の場合には立上がり状態へ行く。立上がり状態（δ_n-1＝１）では、ρ₀が最初のし
きい値ＳＥ１より小さければそれは沈黙状態に戻り、ρ₀がしきい値ＳＥ１より大きい第２のしきい値ＳＥ２より大きければスピーチ状態へ行き、

【００５８】

【数４２】ならば立上がり状態に留まる。オートマトンがスピーチ状態（δ_n-1＝２）にあるとすると、ρ₀がしきい値ＳＥ２より小さい第３のしきい値ＳＥ３を超えればそれはそこに留まり、他の場合には立下がり状態に入る。立下がり状態（δ_n-1 ＝３）では、ρ₀がしきい値ＳＥ２より大きければオートーマトンはスピーチ状態へ戻り、ρ₀がしきい値ＳＥ２より小さい第２のしきい値ＳＥ４より小さければ沈黙状態へ戻り、

【００５９】

【数４３】ならば立下がり状態に留まる。

【００６０】ステップ３７では、モジュール１５は各帯域

【００６１】

【数４４】において音声活動度γ_n,iを計算もする。この度γ_n,iは非２進パラメータである
こと、すなわち、菅巣γ_n,i＝Ｇ（ρ_i）が０から１までの範囲で大きさρ_iにより取られる値の関数として連続変化する関数であること、が好ましい。この関数
はたとえば図５に示されている形を持つ。

【００６２】モジュール１６はノイズの推定量を帯域ごとのベースで計算し、それらの推定
量は、成分Ｓ_n,iの引き続く値と音声活動度γ_n,iを用いるノイズ抑制プロセスで
用いられる。これは図３におけるステップ４０ないし４２に対応する。ステップ
４０は音声活動検出器オートマトンが立上がり状態から立下がり状態へ進んだば
かりかどうかを判定する。もしそうであれば、各帯域

【００６３】

【数４５】について以前に計算された最後の２つの推定量

【００６４】

【数４６】と

【００６５】

【数４７】が先行する推定量

【００６６】

【数４８】に従って修正される。その修正は、立上がり相（δ＝１）において、音声活動検
出プロセス（ステップ３０ないし３３）におけるノイズのエネルギーの長時間推
定が、信号がノイズのみを含んでいる（Ｂｍ＝Ｂｍｓ）かのように計算され、そ
の結果としてそれらに誤りが生ずる、という事実を許容するために行われる。

【００６７】ステップ４２では、モジュール１６は、式

【００６８】

【数４９】

【００６９】

【数５０】を用いて帯域ごとのベースでノイズの推定量を更新する。その式でλ_Bは０＜λ_B ＜１であるような忘却係数を示す。式（６）は非線形音声活動度γ_n,iが考慮に入れられることを示す。

【００７０】先に示したように、ノイズの長時間推定量

【００７１】

【数５１】が、非直線スペクトル差し引きによるノイズ抑制の前にモジュール４５（図１）
により過推定される。モジュール４５は前記過推定係数α′_n,iを、

【００７２】

【数５２】にほぼ一致する過推定量

【００７３】

【数５３】とともに計算する。

【００７４】図６は過推定モジュール４５の構成を示す。推定量

【００７５】

【数５４】は、長時間推定量

【００７６】

【数５５】と、それの長時間推定量の周囲の帯域ｉ内のノイズの成分の可変性の測定値ΔＢ ^max _n,i とを組合わせることによって得られる。ここで考えている例では、その組
合わせは加算器４６により行われるほぼ簡単な加算である。それの代わりにそれ
を重み付け加算とすることができる。

【００７７】過推定係数α′_n,iは、加算器４６により供給される和

【００７８】

【数５６】と遅延させられた長時間推定量

【００７９】

【数５７】との間の差に等しく、最高限界値α_max、たとえばα_max＝４、を有する（ブロッ
ク４８）。遅延τ３は、必要があれば、立上がり相（δ＝１）において、図３か
らステップ４０と４１により長時間推定量が修正される前に、過推定係数α′_n _,i の値を修正するために用いられる（たとえば、τ３＝３）。

【００８０】過推定量

【００８１】

【数５８】は最後に

【００８２】

【数５９】としてとられる（掛算器４９）。

【００８３】ノイズの可変性の測定値ΔＢ^max _n,iはノイズ推定子の変動を反映する。そこに
おいてはスピーチ信号が帯域ｉ内のどの様な音声活動も特徴としないような、あ
る数の先行するフレームについて計算されたＳ_n,iの値と

【００８４】

【数６０】の値との関数としてそれは得られる。それは数Ｋの沈黙フレームについて計算さ
れた差

【００８５】

【数６１】の関数である

【００８６】

【数６２】。図示の例では、この関数は単なる最大である（ブロック５０）。各フレームｎ
に対して、音声活動度γ_n,iがしきい値と比較されて（ブロック５１）、５２〜５３で計算された差

【００８７】

【数６３】を、先入れ／先出し（ＦＩＦＯ）モードで構成されている、Ｋ個の場所を持つ待
ち行列５４にロードしなければならないか、否かを判定する。γ_n,iがしきい値（これは関数ｇ()が図５に示されているような形を有するならば０に等しくでき
る）を超えなければ、ＦＩＦＯ５４はロードされず、そうでなければそれはロー
ドされる。その後で、ＦＩＦＯ５４に含まれている最大値が測定された可変性Δ
Ｂ^max _n,iとして供給される。

【００８８】測定された可変性ΔＢ^max _n,iは、代わりに値Ｓ_n,f（Ｓ_n,iではない）および

【００８９】

【数６４】の関数として得ることができる。そうすると、ＦＩＦＯ５４が各帯域ｉに対して

【００９０】

【数６５】の代わりに、

【００９１】

【数６６】を含むことを除いて、手順は同じである。

【００９２】ノイズの長時間変動

【００９３】

【数６７】と短時間可変性ΔＢ^max _n,iの独立した推定のために、過推定子

【００９４】

【数６８】はノイズ抑制プロセスを樂音ノイズに対して極めて強くする。

【００９５】図１に示されているモジュール５５は最初のスペクトル差し引き段階を実行す
る。この段階は、帯域ｉ

【００９６】

【数６９】の分解で、第１のノイズ抑制フィルタの周波数応答Ｈ¹ _n,iを、成分Ｓ_n,iと、Ｂ_n _,i と、過推定係数α′_n,iとの関数として供給する。この計算は各帯域ｉに対して、式

【００９７】

【数７０】を用いて実行できる。ここに、τ４は

【００９８】

【数７１】である（たとえば、τ４＝０）ような整数遅延である。式（７）中の係数β¹ _iは
、式（３）における係数βｐ_iのように、ノイズを抑制された信号の負値または過度に小さい値を避けるために従来用いられていたフロアを表す。

【００９９】この技術で知られているやり方（ＥＰＯ特許出願公開公告０５３４８３７参照
）で、式（７）の過推定係数α′_n,iをα′_n,iおよび信号対ノイズ比の推定量（
たとえば、

【０１００】

【数７２】）の関数に等しい他の係数で置き換えることができる。この関数は信号対ノイズ
比の推定された値の減関数である。そうするとこの関数は、信号対ノイズ比の最
低値に対してα′_n,iに等しい。信号にノイズが非常に多く含まれているとすると、過推定係数を小さくすることには明らかに有用性はない。この関数は、信号
／ノイズ比の最高値に対して零へ向かって減少するので有利である。これは、そ
の中でスピーチ信号が最も意味を持つようなスペクトルの最大エネルギー領域を
保護する。量はその時零へ向かっている信号から差し引かれる。

【０１０１】このやり方は、後者が音声活動性を特徴とするものであるならば、スピーチ信
号のピッチ周波数の調波に選択的に適用することによって、洗練できる。

【０１０２】したがって、図１に示されている実施態様では、調波保護モジュール５６によ
り第２のノイズ抑制段階が実行される。このモジュールは、フーリエ変換の分解
能で、第２のノイズ抑制フィルタの周波数応答Ｈ² _n,fを、パラメータＨ¹ _n,i、α
′_n,i、

【０１０３】

【数７３】、δ_n、Ｓ_n,iの関数、および調波解析モジュール５７により沈黙段階の外で計算
されたピッチ周波数ｆ_p＝Ｆ_e／Ｔ_pの関数として計算する。沈黙段階（δ_n＝０）
では、モジュール５６は動作しない。すなわち、帯域ｉの各周波数ｆに対してＨ ² _n,f ＝Ｈ¹ _n,iである。モジュール５７は、フレームのスピーチ信号を解析して、
整数または分数の標本として表現されているピッチ周期Ｔ_p'を決定するために、
フレームのスピーチ信号を解析するための任意の従来の方法、たとえば、直線予
測法、を使用できる。

【０１０４】モジュール５６により行われる保護は、帯域ｉに属する各周波数ｆに対して、

【０１０５】

【数７４】を行うことで構成できる。

【０１０６】 Δｆ＝Ｆ_e／Ｎはフーリエ変換のスペクトル分解能を表す。Ｈ² _n,f＝１であるとすると、成分Ｓ_n,fから差し引かれる量は零である。この計算では、フロア係数β² _i（たとえば、β² _i＝β¹ _i）は、ピッチ周波数ｆ_pのいくつかの調波をノイズでマスクでき、したがってそれらを保護することに有用性がない、という事実
を表す。

【０１０７】この保護の方策はｆ_pの調波に最も近い周波数のおのおのに、すなわち、任意の整数ηに、適用することが好ましい。

【０１０８】推定されるピッチ周波数ｆ_pを解析モジュール５７が生ずる際の周波数分解能をδｆ_pが示すものとすると、すなわち、実際のピッチ周波数がｆ_p−δｆ_p／２とｆ_p＋δｆ_p／２の間にあるものとすると、実際のピッチ周波数のη次調波とそ
れの推定量η×ｆ_pとの間の差（条件（９））が±ｆ_p×δｆ_p／２まで進むことができる。ηの高い値に対しては、その差はフーリエ変換のスペクトル半分解能
より高くできる。この不確実さを考慮に入れるため、および実際のピッチの調波
の良い保護を保証するために、範囲［η×ｆ_p−η×δｆ_p／２，η×ｆ_p＋η× δｆ_p／２］内の各周波数を保護できる、すなわち、上の条件（９）を

【０１０９】

【数７５】このやり方（９′）は、ηの値を高くできるならば、特にこの装置が広帯域装置
で用いられるならば、特に有利である。

【０１１０】保護される各周波数に対して、修正された周波数応答Ｈ² _n,fを、上記のように
、１に等しくできる。これは、スペクトル差し引きという面では、零量の差し引
きに対応する、すなわち、問題の周波数の保護を終了することに対応する。より
一般的には、こに修正された周波数応答Ｈ² _n,fは、求められる保護の程度に従っ
て、１からＨ¹ _n,fまでの値に等しいものとしてとることができる。これは、問題
の周波数が保護されなかったならば差し引かれるであろう量よりも少ない量を差
し引くことに対応する。

【０１１１】ノイズが抑制された信号ののスペクトル成分Ｓ² _n,fは掛算器５８により計算さ
れる。

【０１１２】Ｓ² _n,f ＝Ｈ² _n,f・Ｓ_n,f この信号Ｓ² _n,fは、人の耳の音の知覚するやり方を模した心理音響モデル（ｐ
ｓｙｃｈｏａｃｏｕｓｔｉｃｍｏｄｅｌ）を適用することにより各フレームの
ためのマスキングカーブを計算するモジュール６０に供給される。

【０１１３】マスキング現象は人の耳の周知の動作原理である。２つの周波数が同時に存在
するものとすると、それらの周波数のうちの１つが聞こえないことが有り得る。
そうするとそれがマスクされたといわれる。

【０１１４】マスキングカーブを計算する方法は種々ある。たとえば、Ｊ．ＤＪｏｈｎｓｔ
ｏｎにより開発された方法を使用できる（「知覚ノイズ基準を用いるオーディオ
信号の変換符号化（ＴｒａｎｓｆｏｒｍＣｏｄｉｎｇｏｆＡｕｄｉｏＳ
ｉｇｎａｌｓＵｓｉｎｇＰｅｒｃｅｐｔｕａｌＮｏｉｓｅＣｒｉｔｅｒ
ｉａ）」、通信における選択された領域についてのＩＥＥＥジャーナル（ＩＥＥ
ＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎ
ｉｃａｔｉｏｎｓ）、Ｖｏｌ，６、Ｎｏ．２、１９８８年２月）。その方法はバ
ルク周波数尺度で動作する。マスキングカーブはバルク領域内の基底膜のスペク
トル拡張関数の、励振信号、この応用では信号Ｓ² _n,fによるコンボリューション
として見られる。スペクトル拡張関数は図７に示されているようにしてモデル化
できる。各バルク帯域に対して、基底膜の拡張関数でコンボリュートされたより
低い帯域とより高い帯域の寄与が式から計算される。

【０１１５】

【数７６】この式で指数ｑとｑ′はバルク帯域

【０１１６】

【数７７】を示し、Ｓ² _n,qは、バルク帯域ｑ′に属する個別周波数ｆに対するノイズが抑制
された励振信号の成分Ｓ² _n,fの平均を示す。

【０１１７】モジュール６０は、式Ｍ_n,q＝Ｃ_n,q／Ｒ_q から各バルク帯域ｑに対するマスキングしきい値Ｍ_n,qを得る。この式でＲ_qは、
信号に比較的多くの、または比較的少ない、有声音が含まれているかどうかに依
存する。この技術で周知のように、Ｒ_qの可能な形は１０・ｌｏｇ₁₀（Ｒ_q）＝（Ａ＋ｑ）・χ＋Ｂ・（１−χ）である。Ａ＝１４．５、Ｂ＝５．５である。χは、０（音声なし）から１（有声度が非常
に高い信号）まで変化するスピーチ信号の有声度を示している。パラメータχは
この技術で知られている形

【０１１８】

【数７８】ここにＳＦＭはバルク帯域のエネルギーの算術平均と幾何平均との間の、デシ
ベルで表した、比を表し、ＳＦＭ_max＝−６０ｄＢである。

【０１１９】ノイズ抑制装置は、ノイズ抑制フィルタの周波数応答を、モジュール６０によ
り計算されたマスキングカーブＭ_n,qと、モジュール４５により計算された過推定量

【０１２０】

【数７９】との関数として修正するモジュール６２を更に含む。ノイズ過推定量の包絡線を
、マスキングしきい値Ｍ_n,qにより形成された包絡線と比較することにより、信号中のノイズを過推定量

【０１２１】

【数８０】がマスキングカーブの上である範囲までのみ抑制するための判定を行う。これは
、スピーチによりマスクされるノイズの不必要な抑制を避ける。

【０１２２】モジュール１２により定められた帯域ｉとバルク帯域ｑとに属する周波数ｆに
対する新しい応答Ｈ³ _n,fは、ノイズの対応するスペクトル成分の過推定量

【０１２３】

【数８１】と、マスキングカーブＭ_n,qとに次のようにして依存する。

【０１２４】

【数８２】いいかえると、周波数応答Ｈ³ _n,fを持つスペクトル差し引きプロセスにおいて
スペクトル成分Ｓ_n,fから差し引かれる量は、周波数応答Ｈ² _n,fを持つスペクトル差し引きプロセスにおいてスペクトル成分から差し引かれる量と、マスキング
カーブＭ_n,qをおそらく超えるノイズの対応するスペクトル成分の過推定量

【０１２５】

【数８３】の部分とのうちの小さい方にほぼ等しい。

【０１２６】図８は、モジュール６２により適用される修正の原理を示す。それは、ノイズ
が抑制された信号のスペクトル成分Ｓ² _n,fと、ノイズスペクトルの過推定量

【０１２７】

【数８４】とを基にして計算されたマスキングカーブＭ_n,qの例を概略的な形で示す。成分Ｓ_n,fから最後に差し引かれる量は、陰線を施されている部分により示されている、すなわち、それはノイズのスペクトル成分の過推定量

【０１２８】

【数８５】のうち、マスキングカーブより上の部分に限定される。

【０１２９】差し引きは、ノイズ抑制フィルタの周波数応答Ｈ³ _n,fにスピーチ信号のスペク
トル成分Ｓ_n,fを乗ずることによって行われる（掛算器６４）。その後で、掛算器６４により供給された周波数Ｓ³ _n,fの標本に逆高速フーリエ変換（ＩＦＦＴ）
を加えることによって、モジュール６５が時間領域内でノイズを抑制された信号
を再構成する。各フレームに対して、モジュール６５により発生された信号の初
めのＮ／２＝１２８個の標本のみが、先行するフレームの後のＮ／２＝１２８個
の標本での重畳−加算の後で、ノイズを抑制された最後の信号として供給される
（モジュール６６）。

【０１３０】図９は本発明を用いているノイズ抑制装置の好適な実施形態を示す。この装置
は、図１に示されている装置の対応する部品に類似するいくつかの部品を含んで
いる。それらの部品には同じ参照番号が用いられている。したがって、モジュー
ル１０、１１、１、１５、１６、４５および５５は選択的ノイズ抑制のために用
いられる量Ｓ_n,i、

【０１３１】

【数８６】、α′_n,i、

【０１３２】

【数８７】およびＨ¹ _n,fを特に供給する。

【０１３３】高速フーリエ変換１１の周波数分解能は図１に示されている装置の制約を構成
する。モジュール５５により保護される周波数は必ずしも正確なピッチ周波数ｆ
ｐではなく、個別スペクトル中でそれに最も近い周波数である。ある場合には、
ピッチ周波数から比較的離れている調波を保護することがある。図９に示されて
いる装置は、スピーチ信号を適切に調整することによってこの欠点を小さくする
。

【０１３４】この調整は、周期１／ｆ_pが調整された信号の整数の標本時間をちょうどカバーするように、信号の標本化周波数を修正する。

【０１３５】モジュール５７によって使用できる多くの調波解析方法が、初めの標本化周波
数Ｆ_eでのいくつかの標本として表される、遅延Ｔ_p'の分数値を供給できる。その後で、推定されたピッチ周波数の整数倍に等しい新しい標本化周波数ｆｅが選
択される。すなわち、ｆ_e＝ｐ・ｆ_p＝ｐ・Ｆ_e／Ｔ_p＝Ｋ・Ｆ_eここにｐは整数である。信号標本が失われることを避けるために、ｆ_eはＦ_eより高くなければなら
ない。特に、調整を容易にするために、ｆ_eがＦ_eから２Ｆ_eまでの範囲

【０１３６】

【数８８】になければならないという条件を課することが可能である。

【０１３７】もちろん、現在のフレームで有声活動が検出されないか（δ_n≠０）、モジュール５７により推定された遅延Ｔｐが整数遅延であるならば、信号を調整する必
要はない。

【０１３８】各ピッチ調波を調整された信号の整数の標本に一致させるために、整数ｐは、
モジュール１０により発生された信号窓の寸法Ｎの係数：Ｎ＝αｐ、でなければ
ならない。ここにαは整数である。この寸法Ｎは、ＦＦＴの実現のためには通常
は２の羃でなければならない。ここで考えている例ではそれは２５６である。

【０１３９】調整された信号の個別フーリエ変換のスペクトル分解能Δｆは式Δｆ＝ｐ・ｆ _p ／Ｎ＝ｆ_p／αにより与えられる。したがって、ｐを小さくし、αを最小にする
ことが有利であるが、過標本化を行うためには十分委大きくする。Ｆ_e＝８ｋＨｚおよびＮ＝２５６である、ここで考えている例では、パラメータｐとαのため
に選択された値が表１に示されている。

【０１４０】

【数８９】調波解析モジュール５７により供給された遅延Ｔ_pの値に従って選択がモジュール７０により行われる。モジュール７０は標本化周波数の間の比Ｋを３つの周
波数変化器モジュール７１、７２、７３に供給する。

【０１４１】モジュール７１は、モジュール１２により定められた帯域ｉに関連する値Ｓ_n, _i 、

【０１４２】

【数９０】、α′_n,i、

【０１４３】

【数９１】およびＨ¹ _n,fを、修正された周波数尺度に変換する（標本化周波数ｆ_e）。この変換は帯域ｉを係数Ｋにより単に拡張するだけである。変換された値は調波保護
モジュール５６に供給される。

【０１４４】その後で、後者のモジュールは前と同様に動作してノイズ抑制フィルタの周波
数応答Ｈ² _n,fを供給する。この応答Ｈ² _n,fは図１におけるものと同様にして（条
件（８）と（９））得られる。ただし、条件（９）では、ピッチ周波数ｆ_p＝ｆ_e ／ｐが、モジュール７０により供給される整数遅延ｐの値に従って定められるこ
とを除く。モジュール７０は周波数分解能Δｆも供給する。

【０１４５】モジュール７２は、ウィンドウ化モジュール１０により供給されたＮ個の標本
のフレームを過標本化する。有理係数Ｋ（Ｋ＝Ｋ１／Ｋ２）による過標本化は、
最初に整数係数Ｋ１により過標本化することと、その後で整数係数Ｋ２により過
小標本化することで構成されている。整数係数によるこの過標本化と過小標本化
は、多相フィルタのバンクにより従来のやり方で行うことができる。

【０１４６】モジュール７２により供給された調整された信号フレームｓ′は周波数ｆ_eの標本をＫＮ個含む。それらの標本は、それらの標本のフーリエ変換を計算するモ
ジュール７５へ送られる。変換はＮ＝２５６個の標本の２つのブロックを基にし
て行うことができる。１つのブロックは調整された信号ｓ′の長さＫＮのフレー
ムの初めのＮ個の標本により構成され、他のブロックはそのフレームの後のＮ個
の標本により構成されている。したがって、２つのブロックは（２−Ｋ）×１０
０％の重畳を有する。２つのブロックのおのおのに対して、フーリエ成分Ｓ_n,f のセットが得られる。成分Ｓ_n,fは掛算器５８に供給される。その掛算器はそれらの成分にスペクトル応答Ｈ² _n,fを乗じて、最初のノイズが抑制された信号のス
ペクトル成分Ｓ² _n,fを供給する。

【０１４７】成分Ｓ² _n,fは、先に示したやり方でマスキングカーブを計算するモジュール６
０へ送られる。

【０１４８】マスキングカーブを計算すると、スピーチ信号の有声度を示す大きさχ（式（
１３））は形χ＝１−Ｈでとられることが好ましい。ここにＨはノイズが抑制さ
れた調整された信号のスペクトル成分Ｓ² _n,fの自己相関のエントロピーである。
自己相関Ａ（ｋ）は、たとえば、式

【０１４９】

【数９２】を用いてモジュール７６により計算される。

【０１５０】その後でモジュール７７が正規化されたエントロピーＨを計算して、マスキン
グカーブを計算するためのモジュール６０にそれを供給する（Ｓ．Ａ．ＭｃＣｌ
ｅｌｌａｎ他：「スペクトル・エントロピー：レート割り当てのための代わりの
標識？（ＳｐｅｃｔｒａｌＥｎｔｒｏｐｙ：ａｎＡｌｔｅｒｎａｔｉｖｅＩｎｄｉｃａｔｏｒｆｏｒＲａｔｅＡｌｌｏｃａｔｉｏｎ？）」）、Ｐｒ
ｏｃ．ＩＣＡＳＳＰ′９４、２０１〜２０４ページ参照）。

【０１５１】

【数９３】信号の調整と、フィルタＨ² _n,fによるノイズ抑制とのために、正規化されたエ
ントロピーＨは、ノイズとピッチの変化とに対して非常に強い有声化の測定値を
構成する。

【０１５２】修正モジュール６２は図１に示されている装置と同じようにして動作して、周
波数変化器モジュール７１によって再スケールされた過推定されたノイズ

【０１５３】

【数９４】を許容する。それは最後のノイズ抑制フィルタ周波数応答Ｈ³ _n,fを供給する。そ
れに、モジュール６４により調整された信号のスペクトル成分Ｓ_n,fが乗ぜられる。その結果の成分Ｓ³ _n,fがＩＦＦＴモジュール６５により処理されて時間領域
へ戻される。ＩＦＦＴモジュール６５の出力端子におけるモジュール８０が、Ｆ
ＦＴ７５によって供給された重なり会っている２つのブロックの処理の結果とし
ての２つの信号ブロックを、各フレームに対して、組合わせる。この組合わせは
、ＫＮ個の標本のノイズが抑制されて調整された信号フレームを形成するために
、標本のハミング重み付けされた和で構成できる。

【０１５４】モジュール７３は、モジュール８０により供給されたノイズが抑制されて調整
された信号の標本化周波数を変更する。標本化周波数は、モジュール７５により
行われる動作とは逆である動作によってＦ_e＝ｆ_e／Ｋへ戻される。モジュール７
３はフレームごとにＮ＝２５６個の標本を供給する。先行するフレームの後のＮ
／２＝１２８個の標本を用いる重畳加算再構成の後で、現在のフレームの初めの
Ｎ／２＝１２８個の標本のみが最後に保持されて、最後のノイズが抑制された信
号ｓ³を形成する（モジュール６６）。

【０１５５】好適な実施形態では、モジュール１０により形成されて、モジュール６６によ
り保持されていたウィンドウをモジュール８２が管理して、Ｔ_p＝Ｆ_e／ｆ_pの整数倍に等しい数Ｍの標本を保持する。これはフレームの間の位相不連続の問題を
避ける。対応するやり方で、現在のフレームと次のフレームとの間の重なり合い
がＮ−Ｍに一致するように、管理モジュール８２がウィンドウ化モジュール１０
を制御する。このＮ−Ｍ個の標本の重なり合いは、次のフレームを処理する時に
モジュール６６により行われる重畳加算動作において考慮に入れられる。調波解
析モジュール５７により供給されたＴ_pの値からモジュール８２は、保持すべき標本の数Ｍ＝Ｔ_p×Ｅ［Ｎ／（２Ｔ_p）］、Ｅ［］は整数部を示す、を計算し、そ
れに従ってモジュール１０と６６を制御する。

【０１５６】今説明した実施形態では、ピッチ周波数はフレームにわたる平均として推定さ
れる。ピッチはこの持続時間にわたって僅かに変化できる。人工的な手段により
フレーム中に一定のピッチを得るために、本発明の文脈では、それらの変化を許
容することが可能である。

【０１５７】これは、調波解析モジュール５７が、フレームの持続時間中に起きる話者の声
紋閉鎖に起因できるスピーチ信号の連続する切れ目の間に時間間隔を供給するこ
とを要求する。そのような短い切れ目を検出するために使用できる方法はスピー
チ信号の調波解析技術において周知である。これに関連して、次の論文を参照で
きる。Ｍ．ＢＡＳＳＥＶＩＬＬＥ他、「デジタル信号のスペクトル特性の急変の
順次検出（Ｓｅｑｕｅｎｔｉａｌｄｅｔｅｃｔｉｏｎｏｆａｂｒｕｐｔｃ
ｈａｎｇｅｓｉｎｓｐｅｃｔｒａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆ
ｄｉｇｉｔａｌｓｉｇｎａｌｓ）」、情報理論についてのＩＥＥＥＴｒａ
ｎｓ．、１９８３、Ｖｐｌ．ＩＴ−２９、Ｎｏ．５，７０８〜７２３ページ；Ｒ
．ＡＮＤＲＥ−ＯＢＲＥＣＨＴ、「連続スピーチ信号の自動区分化のための新し
い統計的取組み（Ａｎｅｗａｐｐｒｏａｃｈｆｏｒｔｈｅａｕｔｏｍ
ａｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｆｃｏｎｔｉｎｕｏｕｓｓｐｅｅ
ｃｈｓｉｇｎａｌｓ）」、ＩＥＥＥＴｒａｎｓ．ｏｎＡｃｏｕｓ．，Ｓｐ
ｅｅｃｈａｄＳｉｇ．Ｐｒｏｃ．Ｖｏｌ．３６、Ｎｏ．Ｊａｎｕａｒｙ１９
８８；Ｃ．ＭＵＲＧＩＡ他、「スピーチ信号の急変の順次検出を用いる声門閉鎖
時の推定のためのアルゴリズム（Ａｎａｌｇｏｌｏｉｔｈｍｆｏｒｔｈｅ
ｅｓｔｉｍａｔｉｏｎｏｆｇｌｏｔｔａｌｃｌｏｓｕｒｅｉｎｓｔａ
ｎｔｕｓｉｎｇｔｈｅｓｅｑｕｅｎｔｉａｌｄｅｔｅｃｔｉｏｎｏｆ
ａｂｒｕｐｔｃｈａｎｇｅｉｎｓｐｅｅｃｈｓｉｇｎａｌｓ）、Ｓｉｇ
ｎａｌＰｒｏｃｅｓｓｉｎｇＶＩＩ，１９９４，１６８５〜１６８８ページ
。

【０１５８】上記方法の原理は短時間モデルと長時間モデルとの間の統計的試験を行うこと
である。両方のモデルは適応直線予測モデルである。統計的試験の値ｗｍはクル
バック発散（Ｋｕｌｌｂａｃｋｄｉｖｅｒｇｅｎｃｅ）により修正された、２
つの分布の帰納的可能性比の累積的和である。ガウス統計を持つ剰余の分布のた
めに、値ｗ_mは

【０１５９】

【数９５】によって与えられる。ここにｅ⁰ _mとσ² ₀はフレームの標本ｍおよび長時間モデル
の変化の時に計算された剰余を表し、ｅ¹ _mとσ² ₁は短時間モデルの剰余と変化を
同様に表す。２つのモデルが接近するほど、統計試験値ｗ_mは０に近付く。対照的に、２つのモデルが相互に離れるとすると、値ｗ_mは負になる。それは信号中の切れ目Ｒを示す。

【０１６０】したがって、図１０は値ｗ_mの展開（ｅｖｏｌｕｔｉｏｎ）の１つの可能な例を示すものであって、スピーチ信号中の切れ目Ｒを示すものである。２つの引き
続く切れ目Ｒの間の時間間隔ｔ_r（ｒ＝１，２，等）が計算され、スピーチ信号の標本の例の数として表されている。各間隔ｔ_rはピッチ周波数ｆ_pに逆比例する
。したがって、それは局部的に推定される：ｒ番目の間隔におけるｆ_p＝Ｆ_e／ｔ _r 。

【０１６１】そうすると、各解析フレームにおいて一定ピッチ周波数を得るために、ピッチ
の時間変化（すなわち、間隔ｔ_rが所与のフレームにおいて必ずしも全て等しくないという事実）、を修正できる。この修正は、標本化周波数を各間隔ｔ_rにわたって修正することにより行われて、過標本化の後の２つの声門閉鎖の間に一定
の間隔を得る。したがって、２つの切れ目の間の持続時間は、最大の間隔にロッ
クするように、可変比で過標本化することにより修正される。また、過標本化周
波数が推定されたピッチ周波数の倍数であるようにされるような調整制約が満た
される。

【０１６２】図１１は後者の場合に信号の調整を行うために用いられる手段を示す。調波解
析モジュール５７が上記解析法を用い、モジュール１０により発生された信号フ
レームに関連する間隔ｔ_rを供給する。それらの各間隔に対して、モジュール７０（図１１のブロック９０）は過標本化比Ｋ_r＝ｐ_r／ｔ_rを計算する。ここに、整数ｐ_rは、ｔ_rが表１の第２の欄に示されている値を取るならば、表１の第３の
欄により与えられる。それらの過標本化比Ｋ_rは、対応する時間間隔ｔ_rにわたっ
て標本化比Ｋ_rで補間が行われるように、周波数変化器モジュール７２と７３に供給される。

【０１６３】フレームに対してモジュール５７により供給される時間間隔ｔ_rの最長の時間間隔Ｔ_pは、表１に示されているように対ｐ、αを得るためにモジュール７０により選択される（図１１のブロック９１）。そうすると修正された標本化周波数
は前のようにｆ_e＝ｐ・Ｆ_e／Ｔ_pである。調整された信号の個別フーリエ変換のスペクトル分解能ΔｆはΔｆ＝Ｆ_e／（α・Ｔ_p）によりいぜんとして与えられる
。周波数変化器モジュール７１に対して、過標本化比ＫはＫ＝ｐ／Ｔ_pにより与えられる（ブロック９２）。ピッチ調波を保護するためのモジュール５６は、条
件（９）に対して、ブロック９１により供給されたスペクトル分解能Δｆと、ブ
ロック９１により供給された整数遅延ｐの値に従って定められたピッチ周波数ｆ _p ＝ｆ_e／ｐとを用いて、前と同じようにして動作する。

【０１６４】本発明のこの実施形態はウィンドウ管理モジュール８２の適用も含むものであ
る。現在のフレームにわたって保持すべき、ノイズが抑制された信号の標本の数
Ｍはここでは、２つの声門閉鎖の間の引き続く時間間隔ｔ_rの整数に一致する（ブロック１０）。これはフレームの間の位相不連続の諸問題を避け、しかもフレ
ームにわたる時間間隔ｔ_rの起こり得る変化を許容する。

【図面の簡単な説明】

【図１】本発明を実現するノイズ抑制装置のブロック図である。

【図２】図１に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。

【図３】図１に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。

【図４】有声活動検出オートマトンの状態を表す図である。

【図５】有声活動度における変動を示すグラフである。

【図６】図１に示されている装置のノイズを過推定するモジュールのブロック図である
。

【図７】マスキングカーブの計算を示すグラフである。

【図８】図１に示されている装置におけるマスキングカーブの使用を示すグラフである
。

【図９】本発明を実現する他のノイズ抑制装置のブロック図である。

【図１０】本発明の方法で使用できる調波解析法を示すグラフである。

【図１１】図９に示されているブロック図の変形の一部を示す。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年３月２１日（２０００．３．２１）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項５

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項２２

【補正方法】変更

【補正内容】

【数３】は、前記ノイズの前記スペクトル成分の長時間推定量

【数４】と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値（ΔＢ^max _n,i）とを組合わせることによって得られる請求項１ない
し２１のいずれか１項に記載の方法。

【手続補正書】

【提出日】平成１２年９月１３日（２０００．９．１３）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項１

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項２１

【補正方法】変更

【補正内容】

【数１】と推定されたピッチ周波数（ｆｐ）を含むパラメータに依存しているそれぞれの
第１の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分（Ｓ_n,f）から差し引いてノイズが抑制された第１の信号のスペクトル成分（Ｓ² _n,f ）を得る第１の差し引きステップと、 −ノイズが抑制された前記第１の信号のスペクトル成分（Ｓ² _n,f ）を基にして聴覚モデルを適用することによりマスキングカーブ（Ｍ_n,q）を計算するステップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量

【数２】を計算された前記マスキングカーブ（Ｍ_n,q）と比較するステップと、 −前記対応する第１の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第２の量を、前記スピーチ信号のスペクトル成分（Ｓ_n,f）から差し引いて、ノイズが抑制された第２の信号のスペクトル成分（Ｓ³ _n,f）を得る第
２の差し引きステップと、を含む請求項１ないし２０のいずれか１項に記載の方法。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】請求項２２

【補正方法】変更

【補正内容】

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】請求項２６

【補正方法】変更

【補正内容】

【数５】を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量（Ｅ_n,i）と比較して周波数帯域ｉ内の前記フレームｎについての前記スピーチ信号の音声活動度（γ_n,i）を得る請求項２４または２５記載の方法。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】請求項２９

【補正方法】変更

【補正内容】

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】請求項３０

【補正方法】変更

【補正内容】

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正内容】

【０００９】

【課題を解決するための手段】したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、各フレームごとにスピーチ信号のスペクトル成分を計算し、スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも１つの
ステップを含めて、スペクトル差し引きを行う、引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制
する方法を提案するものである。スペクトル差し引きの結果は時間領域へ変換され、ノイズが抑制されたスピーチ信号を構成する。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷＦターム(参考） 5D015 CC03 CC14 EE05 FF03 5K046 AA05 HH11

Claims

【特許請求の範囲】

【請求項１】内部での音声活動を特徴とする各フレーム内の前記スピーチ
信号のピッチ周波数（ｆ_p）を推定するために前記スピーチ信号の調波解析を行うステップと、各フレームごとに前記スピーチ信号のスペクトル成分（Ｓ_n,f、Ｓ_n,i）を計算
するステップと、前記スピーチ信号に含まれているノイズのスペクトル成分の計算値を、各フレ
ームごとに、計算するステップと、前記フレーム（Ｓ_n,f）中の前記スピーチ信号の各スペクトル成分から、前記フレームについてのノイズの対応する前記スペクトル成分の推定量と、推定され
た前記ピッチ周波数の値とを少なくとも含むパラメータに依存するそれぞれの量
を差し引く少なくとも１つのステップを含めたスペクトル差し引きを実行するス
テップと、前記スペクトル差し引きの結果に時間領域への変換を適用してノイズが抑制さ
れたスピーチ信号（ｓ³）を構成するステップと、を備える、引き続くフレームによって処理されるデジタルスピーチ信号（ｓ）中
のノイズを抑制する方法。
【請求項２】前記スピーチ信号のスペクトル成分がそのために計算される
ような周波数の集合から保護される周波数を選択するために、推定された前記ピ
ッチ周波数（ｆ_p）を用い、前記スピーチ信号の所与のスペクトル成分（Ｓ_n,f）
からの差し引きのために、前記スペクトル成分が保護される周波数に対応するの
であれば、前記スペクトル成分が保護される周波数に対応しない場合に採用する
量よりも少ない量を採用する請求項１記載の方法。
【請求項３】保護される各前記周波数に対応する前記スピーチ信号の前記
スペクトル成分が、ノイズの対応するスペクトル成分の対応する推定量から決定
されたノイズレベルを超えるように、保護される前記周波数を選択する請求項２
記載の方法。
【請求項４】それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の前記集合内で、保護される各周波数は推定された前記ピッチ周
波数（ｆ_p）の整数倍に最も近いものである請求項２または３記載の方法。
【請求項５】それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の集合内で、保護される各周波数は［η×ｆ_p−η×δｆ_p／２、
η×ｆ_p＋η×δｆ_p／２］の形の範囲の周波数に最も近く、ｆ_pは推定された前記ピッチ周波数の周波数分解能を示し、ηは整数を示し、および請求項２また
は３記載の方法。
【請求項６】保護される周波数における前記スピーチ信号の前記スペクト
ル成分（Ｓ_n,f）から差し引かれる前記量はほぼ零である請求項２ないし５のいずれか１項に記載の方法。
【請求項７】フレーム内の前記スピーチ信号の前記ピッチ周波数（ｆ_p）を推定した後で、前記フレームの前記スピーチ信号を、前記推定された周波数の
倍数であるる過標本化周波数（ｆ_e）でそれを過標本化することにより調整し、前記フレーム内の前記スピーチ信号の前記スペクトル成分（Ｓ_n,f）を、前記調整された信号（ｓ′）を基にして計算して前記量をそれから差し引く請求項１な
いし６のいずれか１項に記載の方法。
【請求項８】前記調整された信号（ｓ′）を、周波数領域変換されたＮ個
の標本のブロックに分布させることによって前記スピーチ信号のスペクトル成分
（Ｓ_n,f）を計算し、過標本化周波数（ｆ_e）と推定されたピッチ周波数との間の
比（ｐ）は数Ｎの因数である請求項７記載の方法。
【請求項９】前記スピーチ信号の有声度（χ）を、調整された信号を基に
して計算された前記スペクトル成分の自己相関のエントロピー（Ｈ）の計算を基
にして、前記フレームに対して推定する請求項７または８記載の方法。
【請求項１０】それの自己相関（Ｈ）が計算される前記スペクトル成分（
Ｓ² _n,f）を、前記量の差し引きの後の前記調整された信号（ｓ′）を基にして計
算する請求項９記載の方法。
【請求項１１】前記有声度（χ）を、【数１】の形の正規化されたエントロピーＨを基にして計算し、ここに、Ｎは前記調整された信号（ｓ′）を基にして前記スペクトル成分（Ｓ _n,f ）を計算するために用いられる標本の数、Ａ（ｋ）は、【数２】により定められる正規化された自己相関、Ｓ² _n,fは前記調整された信号を基にし
て計算された階層ｆの前記スペクトル成分を示す請求項９または１０記載の方法
。
【請求項１２】各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、前記標本化周波数（Ｆ_e）と推定された前記ピッチ周波数（ｆ_p）との間の比（Ｔ_p）の整数倍に等しい標本の数
（Ｍ）を保持するステップを備える請求項１ないし１１のいずれか１項に記載の
方法。
【請求項１３】フレーム中のスピーチ信号のピッチ周波数の推定が、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する２つの切れ目（Ｒ
）の間の時間間隔（ｔ_r）を推定し、それによって前記推定されたピッチ周波数が前記時間間隔に逆比例するステップと、 −前記スピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての前
記調整された信号（ｓ′）が連続する２つの切れ目の間に一定の時間間隔を持つ
ようにするステップと、を備える請求項１ないし１１のいずれか１項に記載の方法。
【請求項１４】各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、推定された時間間隔（ｔ_r）に対応する標本の数（Ｍ）を保持するステップを備える請求項１３記載の方法。
【請求項１５】各フレーム内の前記スピーチ信号の信号対ノイズ比をスペ
クトル領域内で推定し、差し引きされる前記量が依存する前記パラメータが推定
された前記信号対ノイズ比を含み、前記フレームにわたって前記スピーチ信号の
各スペクトル成分から差し引かれる前記量は対応する推定された前記信号対ノイ
ズ比の減関数である請求項１ないし１4のいずれか１項に記載の方法。
【請求項１６】前記信号対ノイズ比を最高にするために前記関数が零へ向
かって減少する請求項１５記載の方法。
【請求項１７】前記スピーチ信号のスペクトル成分（Ｓ_n,f）から前記量を差し引くことによって得られた、ノイズが抑制された信号のスペクトル成分（
Ｓ² _n,f）を用いて、聴覚モデルを適用することによってマスキングカーブ（Ｍ_n, _q ）を計算する請求項１ないし１６のいずれか１項に記載の方法。
【請求項１８】マスキングカーブ（Ｍ_n,q）の計算が、正規化されたエントロピーＨによって測定された前記有声度（χ）を使用する請求項１１および１
７記載の方法。
【請求項１９】フレーム内の前記スピーチ信号のスペクトル成分（Ｓ_n,f ）から前記量を差し引かれる前記量が依存する前記パラメータが、前記ノイズの
前記対応するスペクトル成分の過大推定量【数３】と計算された前記マスキングカーブ（Ｍ_n,q）との間の差を含む請求項１７または１８記載の方法。
【請求項２０】フレームに対するノイズの前記スペクトル成分の前記過大
推定量【数４】を、計算された前記マスキングカーブ（Ｍ_n,q）および前記スピーチ信号のスペクトル成分（Ｓ_n,f）から差し引かれた量と比較して、前記時間領域に変換される成分（Ｓ³ _n,f）を得、前記マスキングカーブの上である前記ノイズの対応する
スペクトル成分の過大推定量の一部に制限される請求項１９記載の方法。
【請求項２１】スペクトル差し引きは、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量【数５】と推定されたピッチ周波数（ｆｐ）を含むパラメータに依存しているそれぞれの
第１の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分（Ｓ_n,f）から差し引いてノイズが抑制された第１の信号のスペクトル成分（Ｓ² _n,f ）を得る第１の差し引きステップと、 −ノイズが抑制された前記第１の信号のスペクトル成分（Ｓ² _n,f ）を基にして聴覚モデルを適用することによりマスキングカーブ（Ｍ_n,q）を計算するステップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量【数６】を計算された前記マスキングカーブ（Ｍ_n,q）と比較するステップと、 −前記対応する第１の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第２の量を、前記スピーチ信号のスペクトル成分（Ｓ_n,f）から差し引いて、前記時間領域変換されたノイズが抑制された第２の信号のスペクトル
成分（Ｓ³ _n,f）を得る第２の差し引きステップと、を含む請求項１ないし２０のいずれか１項に記載の方法。
【請求項２２】スペクトル差し引きにおいて考慮に入れられる前記ノイズ
のスペクトル成分の前記推定量のおのおのを過大に推定し、前記スピーチ信号に
含まれている前記ノイズのスペクトル成分の各過大推定量【数７】は、前記ノイズの前記スペクトル成分の長時間推定量【数８】と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値（ΔＢ^max _n,i）とを組合わせることによって得られる請求項１ない
し２１のいずれか１項に記載の方法。
【請求項２３】帯域ｉ内に含まれている周波数に対応する、フレームｎ内
の前記ノイズのスペクトル成分の長時間推定量【数９】を、【数１０】の形で出力し、 γ_n,iは前記周波数帯域ｉに対する前記フレームｎについて決定された、前記スピーチ信号の非２進音声活動度を示し、Ｓ_n,iは帯域ｉ内のフレームｎの前記スピーチ信号のスペクトルの振幅の平均を示し、λ_Bは忘却係数を示す請求項２２記載の方法。
【請求項２４】少なくとも１つの先行するフレーム中に得られた前記ノイ
ズの推定量【数１１】を基にしてフレームｎのスピーチ信号の先験的ノイズ抑制を実行することにより
、かつ、先験的ノイズ抑制信号のエネルギー変化を解析することにより、前記フ
レームｎについてのスピーチ活動度γ_n,iを決定する請求２３項記載の方法。
【請求項２５】周波数帯域ｉに関連する音声活動度（γ_n,i）は０から１までの範囲で連続的に変化する関数である請求項２４記載の方法。
【請求項２６】前記先験的いノイズ抑制された信号の前記エネルギーの長
時間推定量【数１２】を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量（Ｅ_n,i）と比較して周波数帯域ｉ内の前記フレームｎについての前記スピーチ信号の音声活動度（γ_n,i）を得る請求項２４または２５記載の方法。
【請求項２７】前記ノイズのフレームに対する長時間推定【数１３】についての前記ノイズの、帯域ｉに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値（ΔＢ^max _n,i）が、その中では前記スピーチ信号
が帯域ｉ内のスピーチ活動性を特徴としないような所与の数【数１４】のフレームについて計算された差【数１５】の関数である請求項２３ないし２６のいずれか１項に記載の方法。
【請求項２８】前記ノイズのフレームに対する長時間推定【数１６】についての前記ノイズの、帯域ｉに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値（ΔＢ^max _n,i）が、そこでは前記スピーチ信号が
帯域ｉ内のどのようなスピーチ活動性をも特徴としないような所与の数【数１７】のフレームについて計算された最大の差【数１８】の関数であり、Ｓ_n-k,fはフレームｎ−ｋについての周波数に対応するスペクト
ル成分を示し、周波数範囲［ｆ（ｉ−１），ｆ（ｉ）］は帯域ｉに対応する請求
項２３ないし２６のいずれか１項に記載の方法。