JP2001516902A - デジタル音声信号中のノイズを抑制する方法 - Google Patents
デジタル音声信号中のノイズを抑制する方法Info
- Publication number
- JP2001516902A JP2001516902A JP2000512196A JP2000512196A JP2001516902A JP 2001516902 A JP2001516902 A JP 2001516902A JP 2000512196 A JP2000512196 A JP 2000512196A JP 2000512196 A JP2000512196 A JP 2000512196A JP 2001516902 A JP2001516902 A JP 2001516902A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- frame
- signal
- speech signal
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Picture Signal Circuits (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
(57)【要約】
本発明は、各フレームにおいて信号スペクトル成分(Sn,f,Sn,i)を計算することと、スピーチ信号に含まれているノイズのスペクトル成分の最大にされた推定量
【数1】
を計算することと、調波解析を行ってピッチを推定することと、フレームにおけるスピーチ信号の各スペクトル成分(Sn,f)から、スペクトル成分に対応するノイズの最大にされた推定量と推定されたピッチとを含むパラメータに依存する量をそれぞれ差し引くことにあるステップを少なくとも備えるスペクトル差し引きを実行することと、差し引き結果に時間領域へ向かう変換を適用して強められたスピーチ信号(s3)を構成することとを備える、引き続くフレームにより処理されるデジタル中のノイズを抑制する方法に関するものである。
Description
【0001】
本発明はデジタルスピーチ信号中のノイズを抑制する方法に関するものである
。更に詳しくいえば、それは非直線スペクトル差し引きによるノイズ抑制に関す
るものである。
。更に詳しくいえば、それは非直線スペクトル差し引きによるノイズ抑制に関す
るものである。
【0002】 新しい形態の通信、特に移動電話、が広く採用されているために、通話はノイ
ズが非常に多い環境内で次第に行われるようになっている。ノイズは、会話に加
えて、スピーチ信号の最適圧縮を阻止することによって通話を妨害し、不自然な
背景ノイズを生ずる。ノイズは話されたメッセージお理解を困難にし、かつ疲れ
させる。
ズが非常に多い環境内で次第に行われるようになっている。ノイズは、会話に加
えて、スピーチ信号の最適圧縮を阻止することによって通話を妨害し、不自然な
背景ノイズを生ずる。ノイズは話されたメッセージお理解を困難にし、かつ疲れ
させる。
【0003】
通話におけるノイズの影響を小さくしようとして多くのアルゴリズムが研究さ
れた。S.F.Bollが(「スペクトル差し引きを用いるスピーチ中のノイズ
の抑制(Suppression of acoustic noise in
speech using spectral subtraction)」
,音響、スピーチおよび信号処理についてのIEEE Trans.(IEEE
Trans.on Acousitics,Speechand Signa
lProcessing),Vol.ASSP−27,No.2 1979年4
月)スペクトル差し引きを基にしたアルゴリズムを提案している。この技術は沈
黙相中のノイズのスペクトルを見積ることと、受けた信号からそれを差し引くこ
ととで構成されている。それは受けたノイズレベルを低下する。それの主な欠陥
は、不自然であるために特にうるさい楽音ノイズ(musical noise
)を生ずることである。
れた。S.F.Bollが(「スペクトル差し引きを用いるスピーチ中のノイズ
の抑制(Suppression of acoustic noise in
speech using spectral subtraction)」
,音響、スピーチおよび信号処理についてのIEEE Trans.(IEEE
Trans.on Acousitics,Speechand Signa
lProcessing),Vol.ASSP−27,No.2 1979年4
月)スペクトル差し引きを基にしたアルゴリズムを提案している。この技術は沈
黙相中のノイズのスペクトルを見積ることと、受けた信号からそれを差し引くこ
ととで構成されている。それは受けたノイズレベルを低下する。それの主な欠陥
は、不自然であるために特にうるさい楽音ノイズ(musical noise
)を生ずることである。
【0004】 この研究はD.B.Paul(「スペクトル包絡線推定ボコーダ(The s
prctral envelope estimation vocoder)
」、音響、スピーチおよび信号処理についてのIEEE Trans.(IEE
ETrans.on Acousitics,Speechand Signa
l Processing),Vol.ASSP−29,No.4 1981年
8月))、およびP.LockwoodおよびJ.Boudy(「自動車内での
強力なスピーチ認識のための非直線スペクトル減算器と、隠されたマルコフ・モ
デルおよびプロジェクションによる実験(Experiments witha
nonlinear spectral subtractor (NSS)
,Hidden Markov Models and the projec
tion,for robust speech recognition i
n cars)、Speech Communication,vol.11、
1992年6月、215〜228ページ、およびEPO特許出願公開明細書05
34 837)により引き継がれて、改良され、ノイズレベルを大幅に低下させ
、しかもそれの自然の特色を保持している。更に、この寄与は、最初にノイズ抑
制フィルタの計算をマスキングする原理を包含するという利点を持つ。この考え
を基にして、スペクトル差し引きにおいて明示的に計算されたマスキングカーブ
を使用するために、最初の試みがS.NandkumarとJ.H.L.Han
senによって行われた(「聴力を制約するパラメータの新しい集合におけるス
ピーチ強調(Speech enhancement on a new se
tof auditory constrained parameters)
Proc.ICASSP 94、I.1〜I.4ページ)。上記技術の期待はず
れな結果にもかかわらず、この寄与はノイズ抑制中にスピーチ信号を劣化させな
いことの重要性を強調するという利点を持っていた。
prctral envelope estimation vocoder)
」、音響、スピーチおよび信号処理についてのIEEE Trans.(IEE
ETrans.on Acousitics,Speechand Signa
l Processing),Vol.ASSP−29,No.4 1981年
8月))、およびP.LockwoodおよびJ.Boudy(「自動車内での
強力なスピーチ認識のための非直線スペクトル減算器と、隠されたマルコフ・モ
デルおよびプロジェクションによる実験(Experiments witha
nonlinear spectral subtractor (NSS)
,Hidden Markov Models and the projec
tion,for robust speech recognition i
n cars)、Speech Communication,vol.11、
1992年6月、215〜228ページ、およびEPO特許出願公開明細書05
34 837)により引き継がれて、改良され、ノイズレベルを大幅に低下させ
、しかもそれの自然の特色を保持している。更に、この寄与は、最初にノイズ抑
制フィルタの計算をマスキングする原理を包含するという利点を持つ。この考え
を基にして、スペクトル差し引きにおいて明示的に計算されたマスキングカーブ
を使用するために、最初の試みがS.NandkumarとJ.H.L.Han
senによって行われた(「聴力を制約するパラメータの新しい集合におけるス
ピーチ強調(Speech enhancement on a new se
tof auditory constrained parameters)
Proc.ICASSP 94、I.1〜I.4ページ)。上記技術の期待はず
れな結果にもかかわらず、この寄与はノイズ抑制中にスピーチ信号を劣化させな
いことの重要性を強調するという利点を持っていた。
【0005】 スピーチ信号をそれぞれの値に分割すること、したがって、スピーチ信号をよ
り小さいスペースに向けることを基にしたその他の方法が、Bart De M
oore(「単一値分解能およびノイズの多いマトリックスの長いスペースおよ
び短いスペース(The singular value decomposi
tion and long and short spaces of no
isy matrices)」、信号処理についてのIEEE Trans.(
IEEE Trans. on signal processing)、Vo
l.41、No.9、1993年9月、2826〜2838ページ)、およびS
.H.Jensen他(「切り捨てられたQSVDによるスピーチ中の広帯域ノ
イズの減少(Reduction of broad−band noise
in speech by truncated QSVD)」、スピーチおよ
びオーディオ処理についてのIEEE Trans.(IEEE Trans.
on Speech and Audio Processing)、Vol.
3、No.6、1995年11月)によって研究された。上記技術の原理はスピ
ーチ信号とノイズ信号を完全に相関していないものとみなすこと、および限られ
たパラメータ集合を基にしてスピーチ信号が予測されるのに十分な予測可能性を
持っているとみなすことである。この技術は高度な有声信号の許容できるノイズ
抑制を行うが、スピーチ信号の性質を全面的に変えてしまう。車両のタイヤ騒音
またはエンジン音などの比較的コヒーレントなノイズに直面すると、無声スピー
チ信号よりもはるかに容易にノイズを予測できる。そうすると、スピーチ信号を
ノイズのベクトルスペースの一部に投影する傾向がある。この方法はスピーチ信
号を、特に予測可能性が低い無声スピーチ領域、を考慮に入れない。更に、パラ
メータの小さい集合を基にしてスピーチ信号を予測すると、スピーチの固有の豊
富さの全てを考慮に入れることを阻止する。数学的考察およびスピーチの特定の
性質を監視することのみを基にした技術の限界は明らかである。
り小さいスペースに向けることを基にしたその他の方法が、Bart De M
oore(「単一値分解能およびノイズの多いマトリックスの長いスペースおよ
び短いスペース(The singular value decomposi
tion and long and short spaces of no
isy matrices)」、信号処理についてのIEEE Trans.(
IEEE Trans. on signal processing)、Vo
l.41、No.9、1993年9月、2826〜2838ページ)、およびS
.H.Jensen他(「切り捨てられたQSVDによるスピーチ中の広帯域ノ
イズの減少(Reduction of broad−band noise
in speech by truncated QSVD)」、スピーチおよ
びオーディオ処理についてのIEEE Trans.(IEEE Trans.
on Speech and Audio Processing)、Vol.
3、No.6、1995年11月)によって研究された。上記技術の原理はスピ
ーチ信号とノイズ信号を完全に相関していないものとみなすこと、および限られ
たパラメータ集合を基にしてスピーチ信号が予測されるのに十分な予測可能性を
持っているとみなすことである。この技術は高度な有声信号の許容できるノイズ
抑制を行うが、スピーチ信号の性質を全面的に変えてしまう。車両のタイヤ騒音
またはエンジン音などの比較的コヒーレントなノイズに直面すると、無声スピー
チ信号よりもはるかに容易にノイズを予測できる。そうすると、スピーチ信号を
ノイズのベクトルスペースの一部に投影する傾向がある。この方法はスピーチ信
号を、特に予測可能性が低い無声スピーチ領域、を考慮に入れない。更に、パラ
メータの小さい集合を基にしてスピーチ信号を予測すると、スピーチの固有の豊
富さの全てを考慮に入れることを阻止する。数学的考察およびスピーチの特定の
性質を監視することのみを基にした技術の限界は明らかである。
【0006】 最後に、他の技術はコヒーレンスの基準を基にしている。コヒーレンス関数は
J.A.CadzowおよびO.M.Solomonによって特に良く開発され
た(「リニヤモデル化およびコヒーレンス関数(Linear modelli
ng and the coherence function)」音響、スピ
ーチおよび信号処理についてのIEEE Trans.、Vol.ASSP−3
5、No.1、1987年1月、19〜28ページ)。また、ノイズ抑制へのそ
れの応用がR.Le Rouquinにより開発されている(「ノイズが含まれ
ているスピーチ信号の強化:移動無線通信への応用(Enhancement
ofnoisy speech signals:application t
omobile radio communications)」、スピーチ通
信(Speech Communication)、Vol.18、3〜19ペ
ージ)。この方法は、複数の独立チャネルが使用されるならば、スピーチ信号が
ノイズよりもはるかにコヒーレントである、という事実を基にしている。得られ
る結果はかなり勇気づけるもののようである。しかし、この技術は不幸なことに
複数の音声ピックアップ点を必要とする。これは必ずしも常にできるものではな
い。
J.A.CadzowおよびO.M.Solomonによって特に良く開発され
た(「リニヤモデル化およびコヒーレンス関数(Linear modelli
ng and the coherence function)」音響、スピ
ーチおよび信号処理についてのIEEE Trans.、Vol.ASSP−3
5、No.1、1987年1月、19〜28ページ)。また、ノイズ抑制へのそ
れの応用がR.Le Rouquinにより開発されている(「ノイズが含まれ
ているスピーチ信号の強化:移動無線通信への応用(Enhancement
ofnoisy speech signals:application t
omobile radio communications)」、スピーチ通
信(Speech Communication)、Vol.18、3〜19ペ
ージ)。この方法は、複数の独立チャネルが使用されるならば、スピーチ信号が
ノイズよりもはるかにコヒーレントである、という事実を基にしている。得られ
る結果はかなり勇気づけるもののようである。しかし、この技術は不幸なことに
複数の音声ピックアップ点を必要とする。これは必ずしも常にできるものではな
い。
【0007】 米国特許第5,228,088号が、周波数領域内で動作し、ピッチ検出器が
組み込まれているノイズ抑制装置を記述している。ノイズ抑制係数を調整し、か
つ「音声帯域」を探すために、そのような検出の結果が用いられる。ノイズ抑制
係数は、ノイズの推定量を信号から差し引く前にそれに重み付けするためにスペ
クトル差し引きモジュールによって用いられる。抑制係数を調整するそのモジュ
ールは、ピッチが検出されたか否かを示す情報のみを用いる。しかし、ピッチは
用いられる抑制係数に何の影響も及ぼさない。検出されたピッチの支援によって
決定された「音声帯」は全体的な信号強調を受ける。それは、その代わりに、全
体的な注意が向けられる「ノイズ帯」を決定するために使用できる。スペクトル
の一部、および信号の一部のそのような強調または減衰は、スペクトル差し引き
とは非常に異なるノイズ抑制法である。
組み込まれているノイズ抑制装置を記述している。ノイズ抑制係数を調整し、か
つ「音声帯域」を探すために、そのような検出の結果が用いられる。ノイズ抑制
係数は、ノイズの推定量を信号から差し引く前にそれに重み付けするためにスペ
クトル差し引きモジュールによって用いられる。抑制係数を調整するそのモジュ
ールは、ピッチが検出されたか否かを示す情報のみを用いる。しかし、ピッチは
用いられる抑制係数に何の影響も及ぼさない。検出されたピッチの支援によって
決定された「音声帯」は全体的な信号強調を受ける。それは、その代わりに、全
体的な注意が向けられる「ノイズ帯」を決定するために使用できる。スペクトル
の一部、および信号の一部のそのような強調または減衰は、スペクトル差し引き
とは非常に異なるノイズ抑制法である。
【0008】
本発明の主な目的は、スピーチ発生の特性を考慮に入れて、スピーチの知覚を
劣化することなく効率的なノイズ抑制を可能にする新規なノイズ抑制技術を提供
することである。
劣化することなく効率的なノイズ抑制を可能にする新規なノイズ抑制技術を提供
することである。
【0009】
したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行い、 ノイズが抑制されたスピーチ信号を構成するためにスペクトル差し引きの結果
の時間領域への変換を行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制す
る方法を提案するものである。
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行い、 ノイズが抑制されたスピーチ信号を構成するためにスペクトル差し引きの結果
の時間領域への変換を行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制す
る方法を提案するものである。
【0010】 その中で音声活動性を特徴とする各フレームにわたってスピーチ信号のピッチ
周波数を推定するためにスピーチ信号の調波解析が行われる。差し引かれる量が
依存するパラメータはそのようにして推定されたピッチ周波数を含む。
周波数を推定するためにスピーチ信号の調波解析が行われる。差し引かれる量が
依存するパラメータはそのようにして推定されたピッチ周波数を含む。
【0011】 ノイズのスペクトル包絡線を過大に推定することによって得られた過大推定量
がノイズの急激な変化に対して強いように、ノイズのスペクトル包絡線を過大に
推定することが一般に望ましい。しかし、大きすぎる過大な推定はスピーチ信号
を歪ませるという欠点を通常持つ。スピーチ信号が最もエネルギーを有している
のが有声領域であるので、この欠点は電話で非常にやっかいである。ノイズ抑制
においてスピーチ信号のピッチ周波数を考慮に入れると、それらの有声領域内の
信号の調波含有量を保護する。
がノイズの急激な変化に対して強いように、ノイズのスペクトル包絡線を過大に
推定することが一般に望ましい。しかし、大きすぎる過大な推定はスピーチ信号
を歪ませるという欠点を通常持つ。スピーチ信号が最もエネルギーを有している
のが有声領域であるので、この欠点は電話で非常にやっかいである。ノイズ抑制
においてスピーチ信号のピッチ周波数を考慮に入れると、それらの有声領域内の
信号の調波含有量を保護する。
【0012】 一般的な規則として、所与のスペクトル成分をスピーチ信号から差し引くため
に、前記スペクトル成分が、保護されている周波数に一致する成分、すなわち、
推定されたピッチ周波数の整数倍に最も近いならば、そのような保護される周波
数のいずれにも前記スペクトル成分が一致しない場合の量よりも少ない量が採用
される。この少ない量は特に零にできる。後者の場合には、スペクトル差し引き
は、推定されたピッチ周波数とそれの調波との少なくとも一方における信号に影
響を及ぼさない。そうするとノイズの過大推定によって導入される非直線性のい
くらか無くされ、それらは有声領域に対しては特に敏感である。それの励振信号
の一層ランダムな性質のために、無声領域はこれに対してより鈍感である。
に、前記スペクトル成分が、保護されている周波数に一致する成分、すなわち、
推定されたピッチ周波数の整数倍に最も近いならば、そのような保護される周波
数のいずれにも前記スペクトル成分が一致しない場合の量よりも少ない量が採用
される。この少ない量は特に零にできる。後者の場合には、スペクトル差し引き
は、推定されたピッチ周波数とそれの調波との少なくとも一方における信号に影
響を及ぼさない。そうするとノイズの過大推定によって導入される非直線性のい
くらか無くされ、それらは有声領域に対しては特に敏感である。それの励振信号
の一層ランダムな性質のために、無声領域はこれに対してより鈍感である。
【0013】 1つの有利な実施態様では、フレーム中のスピーチ信号のピッチ周波数を推定
した後で、そのフレームのスピーチ信号を推定されたピッチ周波数の倍数である
過大標本化周波数で過標本化することにより、そのスピーチ信号は調整され、そ
のフレーム内のスピーチ信号のスペクトル成分が調整された信号を基にして計算
されて、前記量をそれから差し引く。これによって推定されたピッチ周波数に最
も近い周波数の方が他の周波数よりも好都合である。これは、ピッチ周波数の調
波からかなり大きく離れている調波を保護することを避ける。したがって、スピ
ーチ信号の調波の性質は可能な限り保持される。スピーチ信号のスペクトル成分
を計算するために、調整された信号が、周波数領域に変換されるN個の標本のブ
ロックの間に分布させられ、過標本化周波数と推定されたピッチ周波数との間の
比が数Nの因数として選択される。
した後で、そのフレームのスピーチ信号を推定されたピッチ周波数の倍数である
過大標本化周波数で過標本化することにより、そのスピーチ信号は調整され、そ
のフレーム内のスピーチ信号のスペクトル成分が調整された信号を基にして計算
されて、前記量をそれから差し引く。これによって推定されたピッチ周波数に最
も近い周波数の方が他の周波数よりも好都合である。これは、ピッチ周波数の調
波からかなり大きく離れている調波を保護することを避ける。したがって、スピ
ーチ信号の調波の性質は可能な限り保持される。スピーチ信号のスペクトル成分
を計算するために、調整された信号が、周波数領域に変換されるN個の標本のブ
ロックの間に分布させられ、過標本化周波数と推定されたピッチ周波数との間の
比が数Nの因数として選択される。
【0014】 従来の技術は、下記のやり方、すなわち、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する2つの切れ目の間
の時間間隔を推定する。その推定されたピッチ周波数は前記時間間隔に逆比例す
る、 −そのスピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての調
整された信号が連続する2つの切れ目の間に一定の時間間隔を持つようにする、
でフレームにわたってスピーチ信号のピッチを推定することにより、一層優れた
ものにできる。
の時間間隔を推定する。その推定されたピッチ周波数は前記時間間隔に逆比例す
る、 −そのスピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての調
整された信号が連続する2つの切れ目の間に一定の時間間隔を持つようにする、
でフレームにわたってスピーチ信号のピッチを推定することにより、一層優れた
ものにできる。
【0015】 これは、スピーチ信号が一定の間隔で切れ目を持つような信号フレームを人工
的に構成する。したがって、フレームの持続する間におけるピッチのどのような
変化も考慮に入れられる。
的に構成する。したがって、フレームの持続する間におけるピッチのどのような
変化も考慮に入れられる。
【0016】 他の改良では、各フレームを処理した後で、ノイズが抑制されて、この処理に
より供給されたスピーチ信号の、標本化周波数と推定されたピッチ周波数との間
の比の整数倍に等しいいくつかの標本が保持される。これは、フレームの間の位
相不連続性によってひき起こされる歪み問題を避ける。それは一般に従来の重畳
加え合わせ(overlap−add)技術によって全面的には修正されない。
より供給されたスピーチ信号の、標本化周波数と推定されたピッチ周波数との間
の比の整数倍に等しいいくつかの標本が保持される。これは、フレームの間の位
相不連続性によってひき起こされる歪み問題を避ける。それは一般に従来の重畳
加え合わせ(overlap−add)技術によって全面的には修正されない。
【0017】 過大標本化技術による信号の調整は、調整された信号を基にして計算されたス
ペクトル成分の自己相関のエントロピーの計算から、フレーム中のスピーチ信号
の有声度の良い測定値を与える。スペクトルが一層乱されると、すなわち、スペ
クトルの有声度が高くなると、エントロピー値が低くなる。スピーチ信号を調整
するとスペクトルの不規則性が強められ、したがって、エントロピーの変化が強
められ、その結果として後者は高い感度の測定を構成する。最高の性能を達成す
るために、自己相関はノイズが抑制された信号を基にして一般に計算される。け
れども、ノイズ抑制の前に調整された信号を基にしてそれらを計算することが可
能である。
ペクトル成分の自己相関のエントロピーの計算から、フレーム中のスピーチ信号
の有声度の良い測定値を与える。スペクトルが一層乱されると、すなわち、スペ
クトルの有声度が高くなると、エントロピー値が低くなる。スピーチ信号を調整
するとスペクトルの不規則性が強められ、したがって、エントロピーの変化が強
められ、その結果として後者は高い感度の測定を構成する。最高の性能を達成す
るために、自己相関はノイズが抑制された信号を基にして一般に計算される。け
れども、ノイズ抑制の前に調整された信号を基にしてそれらを計算することが可
能である。
【0018】 聴覚モデルを適用することによってマスキングカーブを計算するために、前記
量をスピーチ信号スペクトル成分から差し引くことにより得られる、ノイズが抑
制された信号のスペクトル成分を使用できる。フレーム中のスピーチ信号スペク
トル成分から差し引れる量が依存するパラメータは、ノイズのスペクトル成分の
過大推定と、計算されたマスキングカーブとの間の差を含むことが好ましい。差
し引かれる量は、マスキングカーブより上であるノイズに対応するスペクトル成
分の過大推定の一部に特に限定される。この手法は、可聴ノイズ周波数を抑制す
るために十分であるという観察を基にしている。対照的に、スピーチによりマス
クされないノイズの抑制には有用性はない。
量をスピーチ信号スペクトル成分から差し引くことにより得られる、ノイズが抑
制された信号のスペクトル成分を使用できる。フレーム中のスピーチ信号スペク
トル成分から差し引れる量が依存するパラメータは、ノイズのスペクトル成分の
過大推定と、計算されたマスキングカーブとの間の差を含むことが好ましい。差
し引かれる量は、マスキングカーブより上であるノイズに対応するスペクトル成
分の過大推定の一部に特に限定される。この手法は、可聴ノイズ周波数を抑制す
るために十分であるという観察を基にしている。対照的に、スピーチによりマス
クされないノイズの抑制には有用性はない。
【0019】 有利な実施態様では、スピーチ信号に含まれているノイズの各過大推定量は、
ノイズの前記スペクトル成分の長時間推定量と、ノイズの前記スペクトル成分の
長時間推定量についての可変性の測定値とを組合わせることによって得られる。
これは、長時間ノイズ変動に注意するノイズ推定子(noise estima
tor)と、ノイズの短時間可変性に注意するノイズ推定子の2つの別々のノイ
ズ推定子を組合わせているために、ノイズの変動に特に強いノイズ推定子を生ず
る。
ノイズの前記スペクトル成分の長時間推定量と、ノイズの前記スペクトル成分の
長時間推定量についての可変性の測定値とを組合わせることによって得られる。
これは、長時間ノイズ変動に注意するノイズ推定子(noise estima
tor)と、ノイズの短時間可変性に注意するノイズ推定子の2つの別々のノイ
ズ推定子を組合わせているために、ノイズの変動に特に強いノイズ推定子を生ず
る。
【0020】
本発明のその他の特徴およびその他の利点は、添付図面を参照して与えられる
、本発明の非限定的な実施形態についての以下の説明の中で明らかになるであろ
う。
、本発明の非限定的な実施形態についての以下の説明の中で明らかになるであろ
う。
【0021】 図1に示されているノイズ抑制装置はデジタルスピーチ信号sを処理する。ウ
ィンドウ化モジュール10が信号sを引き続くウィンドウすなわちフレームの形
にフォーマット化する。各フレームは数Nのデジタル信号標本で構成されている
。通常のやり方で、それらのフレームは相互に重なり合うことができる。この説
明の残りでは、フレームはN=256個の標本で構成され、標本化周波数Feが 8kHz、各ウィンドウにはハミング重み付けがされ、連続するウィンドウの間
の重なり合いが50%であるとみなすが、これは本発明を限定するものではない
。
ィンドウ化モジュール10が信号sを引き続くウィンドウすなわちフレームの形
にフォーマット化する。各フレームは数Nのデジタル信号標本で構成されている
。通常のやり方で、それらのフレームは相互に重なり合うことができる。この説
明の残りでは、フレームはN=256個の標本で構成され、標本化周波数Feが 8kHz、各ウィンドウにはハミング重み付けがされ、連続するウィンドウの間
の重なり合いが50%であるとみなすが、これは本発明を限定するものではない
。
【0022】 信号フレームは、信号のスペクトルのモジュラスを計算するために従来の高速
フーリエ変換(FFT)アルゴリズムを用いているモジュール11により、周波
数領域に変換される。その後でモジュール11は、スピーチ信号のN=256個
の周波数成分Sn,fの集合を出力する。ここに、nは現在のフレームの数、fは 個別スペクトルからの周波数である。周波数領域内のデジタル信号の諸特性のた
めに、初めのN/2=128個の標本だけが用いられる。
フーリエ変換(FFT)アルゴリズムを用いているモジュール11により、周波
数領域に変換される。その後でモジュール11は、スピーチ信号のN=256個
の周波数成分Sn,fの集合を出力する。ここに、nは現在のフレームの数、fは 個別スペクトルからの周波数である。周波数領域内のデジタル信号の諸特性のた
めに、初めのN/2=128個の標本だけが用いられる。
【0023】 信号sに含まれているノイズの推定量を計算するために、高速フーリエ変換の
下流側で利用できる周波数分解能を使用する代りに、信号の帯域幅[0,Fe/ 2]をカバーする数Iの周波数帯により決定される、より低い分解能が用いられ
る。各帯域i
下流側で利用できる周波数分解能を使用する代りに、信号の帯域幅[0,Fe/ 2]をカバーする数Iの周波数帯により決定される、より低い分解能が用いられ
る。各帯域i
【0024】
【数19】 はより低い周波数f(i−1)からより高い周波数f(i)まで延びる。ここに
、f(0)=0、f(I)=Fe/2である。周波数帯への細分は一様で、(f (i)−f(I−1)=Fe/2I)である。それは一様でなくすることもでき る(たとえば、バルク尺度に従って)。モジュール12は帯域内のスピーチ信号
のスペクトル成分Sn,fのそれぞれの平均を、たとえば、
、f(0)=0、f(I)=Fe/2である。周波数帯への細分は一様で、(f (i)−f(I−1)=Fe/2I)である。それは一様でなくすることもでき る(たとえば、バルク尺度に従って)。モジュール12は帯域内のスピーチ信号
のスペクトル成分Sn,fのそれぞれの平均を、たとえば、
【0025】
【数20】 などの一様な重み付けにより計算する。
【0026】 この平均化で、帯域内のノイズの寄与を平均化することにより、帯域の間の変
動を減少する。それはノイズ推定子の多様性を減少する。また、この平均化は装
置の複雑さを大幅に減少する。
動を減少する。それはノイズ推定子の多様性を減少する。また、この平均化は装
置の複雑さを大幅に減少する。
【0027】 平均化されたスペクトル成分Sn,iは音声活動検出器モジュール15とノイズ 推定子モジュール16へ送られる。2つのモジュール15と16は、モジュール
15により種々の帯域について測定された音声活動度γn,iが、種々の帯域内の ノイズの長時間エネルギーを推定するためにモジュール16により用いられ、一
方、音声活動度γn,iを決定するために種々の帯域内のスピーチ信号中のノイズ の先験的抑制のために長時間推定量
15により種々の帯域について測定された音声活動度γn,iが、種々の帯域内の ノイズの長時間エネルギーを推定するためにモジュール16により用いられ、一
方、音声活動度γn,iを決定するために種々の帯域内のスピーチ信号中のノイズ の先験的抑制のために長時間推定量
【0028】
【数21】 がモジュール15により使用される。
【0029】 モジュール15と16の動作は図2と図3に示されている流れ図に一致させる
ことができる。
ことができる。
【0030】 ステップ17ないし20において、モジュール15は信号フレームnに対する
帯域i内のスピーチ信号中のノイズの先験的抑制を行う。この先験的抑制は、1
つまたは複数の先行するフレーム中に含まれているノイズの推定量を基にして従
来の非直線スペクトル差し引きのやり方で行われる。ステップ17では、帯域I
の分解能力を用いて、モジュール15は式
帯域i内のスピーチ信号中のノイズの先験的抑制を行う。この先験的抑制は、1
つまたは複数の先行するフレーム中に含まれているノイズの推定量を基にして従
来の非直線スペクトル差し引きのやり方で行われる。ステップ17では、帯域I
の分解能力を用いて、モジュール15は式
【0031】
【数22】 から先験的ノイズ抑制フィルタの周波数応答Hpn,iを計算する。ここに、τ1 およびτ2はフレームの数として表される遅延
【0032】
【数23】 、α′n,iは後で説明するようにして決定されるノイズ過大推定係数である。音 声活動度の検出における信頼度が高くなるほど、τ1の値が小さくなる。
【0033】 ステップ18ないし20では、スペクトル成分
【0034】
【数24】 が
【0035】
【数25】 から計算される。ここに、βpiは0に近いフロア係数(floor coef ficient)であって、ノイズが抑制された信号のスペクトルが負の値、ま
たは楽音ノイズを生ずるような過度に小さい値を取ることを阻止するために従来
用いられていたものである。
たは楽音ノイズを生ずるような過度に小さい値を取ることを阻止するために従来
用いられていたものである。
【0036】 したがって、ステップ17ないし20は信号のスペクトルから先験的に推定さ
れたノイズスペクトルの推定量を差し引き、それに係数
れたノイズスペクトルの推定量を差し引き、それに係数
【0037】
【数26】 により過大重み付けされたものでほぼ構成されている。
【0038】 ステップ21では、モジュール15はフレームnに対する種々の帯域i内の先
験的にノイズが抑制された信号のエネルギー
験的にノイズが抑制された信号のエネルギー
【0039】
【数27】 を計算する。それは、先験的にノイズが抑制された信号のエネルギーの大域平均
(global average)も、帯域の幅により重み付けられた、各帯域
についてのエネルギーEn,iを加え合わせることによって計算する。インデック スi=0は信号の大域帯域を示すために用いられる。
(global average)も、帯域の幅により重み付けられた、各帯域
についてのエネルギーEn,iを加え合わせることによって計算する。インデック スi=0は信号の大域帯域を示すために用いられる。
【0040】 ステップ22と23では、モジュール15は、各帯域i
【0041】
【数28】 に対して、帯域i内のノイズが抑制された信号のエネルギーにおける短時間変化
を表す大きさΔEn,iと、帯域i内のノイズが抑制された信号のエネルギーの長 時間値
を表す大きさΔEn,iと、帯域i内のノイズが抑制された信号のエネルギーの長 時間値
【0042】
【数29】 とを計算する。大きさΔEn,iは簡単にされた式
【0043】
【数30】 から計算できる。長時間エネルギー
【0044】
【数31】 については、0<B1<1であるように忘却係数B1を用いて計算できる、すな
わち、
わち、
【0045】
【数32】 ノイズが抑制された信号のエネルギーEn,iと、それの短時間変化ΔEn,iと、
それの長時間値
それの長時間値
【0046】
【数33】 とを図2に示されているやり方で計算した後で、モジュール15は、各帯域
【0047】
【数34】 に対して、ノイズが抑制された信号のエネルギーの展開(evolution)
を表す値ρiを計算する。この計算は図3のステップ25ないし36で行われ、 i=0からi=Iまでの各帯域iについて実行される。その計算は長時間ノイズ
包絡線推定子baiと、内部推定子biiと、ノイズを含むフレームカウンタbi とを用いる。
を表す値ρiを計算する。この計算は図3のステップ25ないし36で行われ、 i=0からi=Iまでの各帯域iについて実行される。その計算は長時間ノイズ
包絡線推定子baiと、内部推定子biiと、ノイズを含むフレームカウンタbi とを用いる。
【0048】 ステップ25では、大きさΔEn,iはしきい値ε1と比較される。そのしきい 値ε1に達していないとすると、ステップ26でカウンタbiが1単位だけ増加 させられる。ステップ27では、長時間推定子baiはなめらかにされたエネル ギー値
【0049】
【数35】 と比較される。
【0050】
【数36】 であれば、推定子baiは、ステップ28において、なめらかにされた値
【0051】
【数37】 に等しいものとしてとられ、カウンタbiは零にリセットされる。そうすると、
【0052】
【数38】 に等しいものとしてとられている(ステップ36)、大きさρiは1に等しい。
【0053】
【数39】 であることをステップ27が示したとすると、ステップ29でカウンタbiが限 界値bmaxと比較される。bi>bmaxであれば、信号は音声活動度を支持
するには一定でありすぎると考えられる。フレームがノイズのみを含んでいると
考えるようになる、上記ステップ28がその後で実行される。ステップ29で
するには一定でありすぎると考えられる。フレームがノイズのみを含んでいると
考えるようになる、上記ステップ28がその後で実行される。ステップ29で
【0054】
【数40】 であれば、内部推定子biiがステップ33で式
【0055】
【数41】 から計算される。上の式において、Bmは更新係数を表す。それの値は音声活動
検出器オートーマトンの状態に従って異なる(ステップ30ないし32)。状態
δn-1は先行するフレームの処理中に決定されるものである。オートーマトンが スピーチ検出状態(ステップ30でδn-1=2)にあるとすると、係数Bmは1 に非常に近い値Bmpをとるので、ノイズ推定子はスピーチの存在する中で非常
に僅かに更新される。さもなければ、沈黙相でノイズ推定子のより意味のある更
新を可能にするために、係数Bmはより小さい値Bmsをとる。ステップ34で
、長時間推定子と内部ノイズ推定子との間の差bai−biiがしきい値ε2と比
較される。そのしきい値ε2に達していないとすると、ステップ35において長
時間推定子baiが内部推定子biiの値で更新される。さもなければ、長時間推
定子baiは不変のままである。これはノイズ推定子を更新させるスピーチ信号 に起因する急変を阻止する。
検出器オートーマトンの状態に従って異なる(ステップ30ないし32)。状態
δn-1は先行するフレームの処理中に決定されるものである。オートーマトンが スピーチ検出状態(ステップ30でδn-1=2)にあるとすると、係数Bmは1 に非常に近い値Bmpをとるので、ノイズ推定子はスピーチの存在する中で非常
に僅かに更新される。さもなければ、沈黙相でノイズ推定子のより意味のある更
新を可能にするために、係数Bmはより小さい値Bmsをとる。ステップ34で
、長時間推定子と内部ノイズ推定子との間の差bai−biiがしきい値ε2と比
較される。そのしきい値ε2に達していないとすると、ステップ35において長
時間推定子baiが内部推定子biiの値で更新される。さもなければ、長時間推
定子baiは不変のままである。これはノイズ推定子を更新させるスピーチ信号 に起因する急変を阻止する。
【0056】 大きさρiが得られた後で、モジュール15は音声活動判定ステップ37へ進 む。モジュール15は、信号の全ての帯域について計算された大きさρ0に従っ て検出オートマトンの状態を最初に更新する。図4に示すようにオートマトンの
新しい状態δnは先行する状態δn-1とρ0に依存する。
新しい状態δnは先行する状態δn-1とρ0に依存する。
【0057】 4つの状態が可能である:δ=0は沈黙、すなわちスピーチの不存在、を検出
し、δ=2は音声活動の存在を検出し、状態δ=1とδ=3は中間の立ち上がり
状態と立ち下がり状態である。オートマトンが沈黙状態(δn-1=0)にあると すると、ρ0が最初のしきい値SE1を超えなければそれはそこに留まり、他の 場合には立上がり状態へ行く。立上がり状態(δn-1=1)では、ρ0が最初のし
きい値SE1より小さければそれは沈黙状態に戻り、ρ0がしきい値SE1より 大きい第2のしきい値SE2より大きければスピーチ状態へ行き、
し、δ=2は音声活動の存在を検出し、状態δ=1とδ=3は中間の立ち上がり
状態と立ち下がり状態である。オートマトンが沈黙状態(δn-1=0)にあると すると、ρ0が最初のしきい値SE1を超えなければそれはそこに留まり、他の 場合には立上がり状態へ行く。立上がり状態(δn-1=1)では、ρ0が最初のし
きい値SE1より小さければそれは沈黙状態に戻り、ρ0がしきい値SE1より 大きい第2のしきい値SE2より大きければスピーチ状態へ行き、
【0058】
【数42】 ならば立上がり状態に留まる。オートマトンがスピーチ状態(δn-1=2)にあ るとすると、ρ0がしきい値SE2より小さい第3のしきい値SE3を超えれば それはそこに留まり、他の場合には立下がり状態に入る。立下がり状態(δn-1 =3)では、ρ0がしきい値SE2より大きければオートーマトンはスピーチ状 態へ戻り、ρ0がしきい値SE2より小さい第2のしきい値SE4より小さけれ ば沈黙状態へ戻り、
【0059】
【数43】 ならば立下がり状態に留まる。
【0060】 ステップ37では、モジュール15は各帯域
【0061】
【数44】 において音声活動度γn,iを計算もする。この度γn,iは非2進パラメータである
こと、すなわち、菅巣γn,i=G(ρi)が0から1までの範囲で大きさρiによ り取られる値の関数として連続変化する関数であること、が好ましい。この関数
はたとえば図5に示されている形を持つ。
こと、すなわち、菅巣γn,i=G(ρi)が0から1までの範囲で大きさρiによ り取られる値の関数として連続変化する関数であること、が好ましい。この関数
はたとえば図5に示されている形を持つ。
【0062】 モジュール16はノイズの推定量を帯域ごとのベースで計算し、それらの推定
量は、成分Sn,iの引き続く値と音声活動度γn,iを用いるノイズ抑制プロセスで
用いられる。これは図3におけるステップ40ないし42に対応する。ステップ
40は音声活動検出器オートマトンが立上がり状態から立下がり状態へ進んだば
かりかどうかを判定する。もしそうであれば、各帯域
量は、成分Sn,iの引き続く値と音声活動度γn,iを用いるノイズ抑制プロセスで
用いられる。これは図3におけるステップ40ないし42に対応する。ステップ
40は音声活動検出器オートマトンが立上がり状態から立下がり状態へ進んだば
かりかどうかを判定する。もしそうであれば、各帯域
【0063】
【数45】 について以前に計算された最後の2つの推定量
【0064】
【数46】 と
【0065】
【数47】 が先行する推定量
【0066】
【数48】 に従って修正される。その修正は、立上がり相(δ=1)において、音声活動検
出プロセス(ステップ30ないし33)におけるノイズのエネルギーの長時間推
定が、信号がノイズのみを含んでいる(Bm=Bms)かのように計算され、そ
の結果としてそれらに誤りが生ずる、という事実を許容するために行われる。
出プロセス(ステップ30ないし33)におけるノイズのエネルギーの長時間推
定が、信号がノイズのみを含んでいる(Bm=Bms)かのように計算され、そ
の結果としてそれらに誤りが生ずる、という事実を許容するために行われる。
【0067】 ステップ42では、モジュール16は、式
【0068】
【数49】
【0069】
【数50】 を用いて帯域ごとのベースでノイズの推定量を更新する。その式でλBは0<λB <1であるような忘却係数を示す。式(6)は非線形音声活動度γn,iが考慮に 入れられることを示す。
【0070】 先に示したように、ノイズの長時間推定量
【0071】
【数51】 が、非直線スペクトル差し引きによるノイズ抑制の前にモジュール45(図1)
により過推定される。モジュール45は前記過推定係数α′n,iを、
により過推定される。モジュール45は前記過推定係数α′n,iを、
【0072】
【数52】 にほぼ一致する過推定量
【0073】
【数53】 とともに計算する。
【0074】 図6は過推定モジュール45の構成を示す。推定量
【0075】
【数54】 は、長時間推定量
【0076】
【数55】 と、それの長時間推定量の周囲の帯域i内のノイズの成分の可変性の測定値ΔB max n,i とを組合わせることによって得られる。ここで考えている例では、その組
合わせは加算器46により行われるほぼ簡単な加算である。それの代わりにそれ
を重み付け加算とすることができる。
合わせは加算器46により行われるほぼ簡単な加算である。それの代わりにそれ
を重み付け加算とすることができる。
【0077】 過推定係数α′n,iは、加算器46により供給される和
【0078】
【数56】 と遅延させられた長時間推定量
【0079】
【数57】 との間の差に等しく、最高限界値αmax、たとえばαmax=4、を有する(ブロッ
ク48)。遅延τ3は、必要があれば、立上がり相(δ=1)において、図3か
らステップ40と41により長時間推定量が修正される前に、過推定係数α′ n ,i の値を修正するために用いられる(たとえば、τ3=3)。
ク48)。遅延τ3は、必要があれば、立上がり相(δ=1)において、図3か
らステップ40と41により長時間推定量が修正される前に、過推定係数α′ n ,i の値を修正するために用いられる(たとえば、τ3=3)。
【0080】 過推定量
【0081】
【数58】 は最後に
【0082】
【数59】 としてとられる(掛算器49)。
【0083】 ノイズの可変性の測定値ΔBmax n,iはノイズ推定子の変動を反映する。そこに
おいてはスピーチ信号が帯域i内のどの様な音声活動も特徴としないような、あ
る数の先行するフレームについて計算されたSn,iの値と
おいてはスピーチ信号が帯域i内のどの様な音声活動も特徴としないような、あ
る数の先行するフレームについて計算されたSn,iの値と
【0084】
【数60】 の値との関数としてそれは得られる。それは数Kの沈黙フレームについて計算さ
れた差
れた差
【0085】
【数61】 の関数である
【0086】
【数62】 。図示の例では、この関数は単なる最大である(ブロック50)。各フレームn
に対して、音声活動度γn,iがしきい値と比較されて(ブロック51)、52〜 53で計算された差
に対して、音声活動度γn,iがしきい値と比較されて(ブロック51)、52〜 53で計算された差
【0087】
【数63】 を、先入れ/先出し(FIFO)モードで構成されている、K個の場所を持つ待
ち行列54にロードしなければならないか、否かを判定する。γn,iがしきい値 (これは関数g()が図5に示されているような形を有するならば0に等しくでき
る)を超えなければ、FIFO54はロードされず、そうでなければそれはロー
ドされる。その後で、FIFO54に含まれている最大値が測定された可変性Δ
Bmax n,iとして供給される。
ち行列54にロードしなければならないか、否かを判定する。γn,iがしきい値 (これは関数g()が図5に示されているような形を有するならば0に等しくでき
る)を超えなければ、FIFO54はロードされず、そうでなければそれはロー
ドされる。その後で、FIFO54に含まれている最大値が測定された可変性Δ
Bmax n,iとして供給される。
【0088】 測定された可変性ΔBmax n,iは、代わりに値Sn,f(Sn,iではない)および
【0089】
【数64】 の関数として得ることができる。そうすると、FIFO54が各帯域iに対して
【0090】
【数65】 の代わりに、
【0091】
【数66】 を含むことを除いて、手順は同じである。
【0092】 ノイズの長時間変動
【0093】
【数67】 と短時間可変性ΔBmax n,iの独立した推定のために、過推定子
【0094】
【数68】 はノイズ抑制プロセスを樂音ノイズに対して極めて強くする。
【0095】 図1に示されているモジュール55は最初のスペクトル差し引き段階を実行す
る。この段階は、帯域i
る。この段階は、帯域i
【0096】
【数69】 の分解で、第1のノイズ抑制フィルタの周波数応答H1 n,iを、成分Sn,iと、Bn ,i と、過推定係数α′n,iとの関数として供給する。この計算は各帯域iに対し て、式
【0097】
【数70】 を用いて実行できる。ここに、τ4は
【0098】
【数71】 である(たとえば、τ4=0)ような整数遅延である。式(7)中の係数β1 iは
、式(3)における係数βpiのように、ノイズを抑制された信号の負値または 過度に小さい値を避けるために従来用いられていたフロアを表す。
、式(3)における係数βpiのように、ノイズを抑制された信号の負値または 過度に小さい値を避けるために従来用いられていたフロアを表す。
【0099】 この技術で知られているやり方(EPO特許出願公開公告0534837参照
)で、式(7)の過推定係数α′n,iをα′n,iおよび信号対ノイズ比の推定量(
たとえば、
)で、式(7)の過推定係数α′n,iをα′n,iおよび信号対ノイズ比の推定量(
たとえば、
【0100】
【数72】 )の関数に等しい他の係数で置き換えることができる。この関数は信号対ノイズ
比の推定された値の減関数である。そうするとこの関数は、信号対ノイズ比の最
低値に対してα′n,iに等しい。信号にノイズが非常に多く含まれているとする と、過推定係数を小さくすることには明らかに有用性はない。この関数は、信号
/ノイズ比の最高値に対して零へ向かって減少するので有利である。これは、そ
の中でスピーチ信号が最も意味を持つようなスペクトルの最大エネルギー領域を
保護する。量はその時零へ向かっている信号から差し引かれる。
比の推定された値の減関数である。そうするとこの関数は、信号対ノイズ比の最
低値に対してα′n,iに等しい。信号にノイズが非常に多く含まれているとする と、過推定係数を小さくすることには明らかに有用性はない。この関数は、信号
/ノイズ比の最高値に対して零へ向かって減少するので有利である。これは、そ
の中でスピーチ信号が最も意味を持つようなスペクトルの最大エネルギー領域を
保護する。量はその時零へ向かっている信号から差し引かれる。
【0101】 このやり方は、後者が音声活動性を特徴とするものであるならば、スピーチ信
号のピッチ周波数の調波に選択的に適用することによって、洗練できる。
号のピッチ周波数の調波に選択的に適用することによって、洗練できる。
【0102】 したがって、図1に示されている実施態様では、調波保護モジュール56によ
り第2のノイズ抑制段階が実行される。このモジュールは、フーリエ変換の分解
能で、第2のノイズ抑制フィルタの周波数応答H2 n,fを、パラメータH1 n,i、α
′ n,i、
り第2のノイズ抑制段階が実行される。このモジュールは、フーリエ変換の分解
能で、第2のノイズ抑制フィルタの周波数応答H2 n,fを、パラメータH1 n,i、α
′ n,i、
【0103】
【数73】 、δn、Sn,iの関数、および調波解析モジュール57により沈黙段階の外で計算
されたピッチ周波数fp=Fe/Tpの関数として計算する。沈黙段階(δn=0)
では、モジュール56は動作しない。すなわち、帯域iの各周波数fに対してH 2 n,f =H1 n,iである。モジュール57は、フレームのスピーチ信号を解析して、
整数または分数の標本として表現されているピッチ周期Tp'を決定するために、
フレームのスピーチ信号を解析するための任意の従来の方法、たとえば、直線予
測法、を使用できる。
されたピッチ周波数fp=Fe/Tpの関数として計算する。沈黙段階(δn=0)
では、モジュール56は動作しない。すなわち、帯域iの各周波数fに対してH 2 n,f =H1 n,iである。モジュール57は、フレームのスピーチ信号を解析して、
整数または分数の標本として表現されているピッチ周期Tp'を決定するために、
フレームのスピーチ信号を解析するための任意の従来の方法、たとえば、直線予
測法、を使用できる。
【0104】 モジュール56により行われる保護は、帯域iに属する各周波数fに対して、
【0105】
【数74】 を行うことで構成できる。
【0106】 Δf=Fe/Nはフーリエ変換のスペクトル分解能を表す。H2 n,f=1である とすると、成分Sn,fから差し引かれる量は零である。この計算では、フロア係 数β2 i(たとえば、β2 i=β1 i)は、ピッチ周波数fpのいくつかの調波をノイ ズでマスクでき、したがってそれらを保護することに有用性がない、という事実
を表す。
を表す。
【0107】 この保護の方策はfpの調波に最も近い周波数のおのおのに、すなわち、任意 の整数ηに、適用することが好ましい。
【0108】 推定されるピッチ周波数fpを解析モジュール57が生ずる際の周波数分解能 をδfpが示すものとすると、すなわち、実際のピッチ周波数がfp−δfp/2 とfp+δfp/2の間にあるものとすると、実際のピッチ周波数のη次調波とそ
れの推定量η×fpとの間の差(条件(9))が±fp×δfp/2まで進むこと ができる。ηの高い値に対しては、その差はフーリエ変換のスペクトル半分解能
より高くできる。この不確実さを考慮に入れるため、および実際のピッチの調波
の良い保護を保証するために、範囲[η×fp−η×δfp/2,η×fp+η× δfp/2]内の各周波数を保護できる、すなわち、上の条件(9)を
れの推定量η×fpとの間の差(条件(9))が±fp×δfp/2まで進むこと ができる。ηの高い値に対しては、その差はフーリエ変換のスペクトル半分解能
より高くできる。この不確実さを考慮に入れるため、および実際のピッチの調波
の良い保護を保証するために、範囲[η×fp−η×δfp/2,η×fp+η× δfp/2]内の各周波数を保護できる、すなわち、上の条件(9)を
【0109】
【数75】 このやり方(9′)は、ηの値を高くできるならば、特にこの装置が広帯域装置
で用いられるならば、特に有利である。
で用いられるならば、特に有利である。
【0110】 保護される各周波数に対して、修正された周波数応答H2 n,fを、上記のように
、1に等しくできる。これは、スペクトル差し引きという面では、零量の差し引
きに対応する、すなわち、問題の周波数の保護を終了することに対応する。より
一般的には、こに修正された周波数応答H2 n,fは、求められる保護の程度に従っ
て、1からH1 n,fまでの値に等しいものとしてとることができる。これは、問題
の周波数が保護されなかったならば差し引かれるであろう量よりも少ない量を差
し引くことに対応する。
、1に等しくできる。これは、スペクトル差し引きという面では、零量の差し引
きに対応する、すなわち、問題の周波数の保護を終了することに対応する。より
一般的には、こに修正された周波数応答H2 n,fは、求められる保護の程度に従っ
て、1からH1 n,fまでの値に等しいものとしてとることができる。これは、問題
の周波数が保護されなかったならば差し引かれるであろう量よりも少ない量を差
し引くことに対応する。
【0111】 ノイズが抑制された信号ののスペクトル成分S2 n,fは掛算器58により計算さ
れる。
れる。
【0112】 S2 n,f =H2 n,f・Sn,f この信号S2 n,fは、人の耳の音の知覚するやり方を模した心理音響モデル(p
sychoacoustic model)を適用することにより各フレームの
ためのマスキングカーブを計算するモジュール60に供給される。
sychoacoustic model)を適用することにより各フレームの
ためのマスキングカーブを計算するモジュール60に供給される。
【0113】 マスキング現象は人の耳の周知の動作原理である。2つの周波数が同時に存在
するものとすると、それらの周波数のうちの1つが聞こえないことが有り得る。
そうするとそれがマスクされたといわれる。
するものとすると、それらの周波数のうちの1つが聞こえないことが有り得る。
そうするとそれがマスクされたといわれる。
【0114】 マスキングカーブを計算する方法は種々ある。たとえば、J.DJohnst
onにより開発された方法を使用できる(「知覚ノイズ基準を用いるオーディオ
信号の変換符号化(Transform Coding of Audio S
ignals Using Perceptual Noise Criter
ia)」、通信における選択された領域についてのIEEEジャーナル(IEE
EJournal on Selected Areas in Commun
ications)、Vol,6、No.2、1988年2月)。その方法はバ
ルク周波数尺度で動作する。マスキングカーブはバルク領域内の基底膜のスペク
トル拡張関数の、励振信号、この応用では信号S2 n,fによるコンボリューション
として見られる。スペクトル拡張関数は図7に示されているようにしてモデル化
できる。各バルク帯域に対して、基底膜の拡張関数でコンボリュートされたより
低い帯域とより高い帯域の寄与が式から計算される。
onにより開発された方法を使用できる(「知覚ノイズ基準を用いるオーディオ
信号の変換符号化(Transform Coding of Audio S
ignals Using Perceptual Noise Criter
ia)」、通信における選択された領域についてのIEEEジャーナル(IEE
EJournal on Selected Areas in Commun
ications)、Vol,6、No.2、1988年2月)。その方法はバ
ルク周波数尺度で動作する。マスキングカーブはバルク領域内の基底膜のスペク
トル拡張関数の、励振信号、この応用では信号S2 n,fによるコンボリューション
として見られる。スペクトル拡張関数は図7に示されているようにしてモデル化
できる。各バルク帯域に対して、基底膜の拡張関数でコンボリュートされたより
低い帯域とより高い帯域の寄与が式から計算される。
【0115】
【数76】 この式で指数qとq′はバルク帯域
【0116】
【数77】 を示し、S2 n,qは、バルク帯域q′に属する個別周波数fに対するノイズが抑制
された励振信号の成分S2 n,fの平均を示す。
された励振信号の成分S2 n,fの平均を示す。
【0117】 モジュール60は、式 Mn,q=Cn,q/Rq から各バルク帯域qに対するマスキングしきい値Mn,qを得る。この式でRqは、
信号に比較的多くの、または比較的少ない、有声音が含まれているかどうかに依
存する。この技術で周知のように、Rqの可能な形は 10・log10(Rq)=(A+q)・χ+B・(1−χ) である。 A=14.5、B=5.5である。χは、0(音声なし)から1(有声度が非常
に高い信号)まで変化するスピーチ信号の有声度を示している。パラメータχは
この技術で知られている形
信号に比較的多くの、または比較的少ない、有声音が含まれているかどうかに依
存する。この技術で周知のように、Rqの可能な形は 10・log10(Rq)=(A+q)・χ+B・(1−χ) である。 A=14.5、B=5.5である。χは、0(音声なし)から1(有声度が非常
に高い信号)まで変化するスピーチ信号の有声度を示している。パラメータχは
この技術で知られている形
【0118】
【数78】 ここにSFMはバルク帯域のエネルギーの算術平均と幾何平均との間の、デシ
ベルで表した、比を表し、SFMmax=−60dBである。
ベルで表した、比を表し、SFMmax=−60dBである。
【0119】 ノイズ抑制装置は、ノイズ抑制フィルタの周波数応答を、モジュール60によ
り計算されたマスキングカーブMn,qと、モジュール45により計算された過推 定量
り計算されたマスキングカーブMn,qと、モジュール45により計算された過推 定量
【0120】
【数79】 との関数として修正するモジュール62を更に含む。ノイズ過推定量の包絡線を
、マスキングしきい値Mn,qにより形成された包絡線と比較することにより、信 号中のノイズを過推定量
、マスキングしきい値Mn,qにより形成された包絡線と比較することにより、信 号中のノイズを過推定量
【0121】
【数80】 がマスキングカーブの上である範囲までのみ抑制するための判定を行う。これは
、スピーチによりマスクされるノイズの不必要な抑制を避ける。
、スピーチによりマスクされるノイズの不必要な抑制を避ける。
【0122】 モジュール12により定められた帯域iとバルク帯域qとに属する周波数fに
対する新しい応答H3 n,fは、ノイズの対応するスペクトル成分の過推定量
対する新しい応答H3 n,fは、ノイズの対応するスペクトル成分の過推定量
【0123】
【数81】 と、マスキングカーブMn,qとに次のようにして依存する。
【0124】
【数82】 いいかえると、周波数応答H3 n,fを持つスペクトル差し引きプロセスにおいて
スペクトル成分Sn,fから差し引かれる量は、周波数応答H2 n,fを持つスペクト ル差し引きプロセスにおいてスペクトル成分から差し引かれる量と、マスキング
カーブMn,qをおそらく超えるノイズの対応するスペクトル成分の過推定量
スペクトル成分Sn,fから差し引かれる量は、周波数応答H2 n,fを持つスペクト ル差し引きプロセスにおいてスペクトル成分から差し引かれる量と、マスキング
カーブMn,qをおそらく超えるノイズの対応するスペクトル成分の過推定量
【0125】
【数83】 の部分とのうちの小さい方にほぼ等しい。
【0126】 図8は、モジュール62により適用される修正の原理を示す。それは、ノイズ
が抑制された信号のスペクトル成分S2 n,fと、ノイズスペクトルの過推定量
が抑制された信号のスペクトル成分S2 n,fと、ノイズスペクトルの過推定量
【0127】
【数84】 とを基にして計算されたマスキングカーブMn,qの例を概略的な形で示す。成分 Sn,fから最後に差し引かれる量は、陰線を施されている部分により示されてい る、すなわち、それはノイズのスペクトル成分の過推定量
【0128】
【数85】 のうち、マスキングカーブより上の部分に限定される。
【0129】 差し引きは、ノイズ抑制フィルタの周波数応答H3 n,fにスピーチ信号のスペク
トル成分Sn,fを乗ずることによって行われる(掛算器64)。その後で、掛算 器64により供給された周波数S3 n,fの標本に逆高速フーリエ変換(IFFT)
を加えることによって、モジュール65が時間領域内でノイズを抑制された信号
を再構成する。各フレームに対して、モジュール65により発生された信号の初
めのN/2=128個の標本のみが、先行するフレームの後のN/2=128個
の標本での重畳−加算の後で、ノイズを抑制された最後の信号として供給される
(モジュール66)。
トル成分Sn,fを乗ずることによって行われる(掛算器64)。その後で、掛算 器64により供給された周波数S3 n,fの標本に逆高速フーリエ変換(IFFT)
を加えることによって、モジュール65が時間領域内でノイズを抑制された信号
を再構成する。各フレームに対して、モジュール65により発生された信号の初
めのN/2=128個の標本のみが、先行するフレームの後のN/2=128個
の標本での重畳−加算の後で、ノイズを抑制された最後の信号として供給される
(モジュール66)。
【0130】 図9は本発明を用いているノイズ抑制装置の好適な実施形態を示す。この装置
は、図1に示されている装置の対応する部品に類似するいくつかの部品を含んで
いる。それらの部品には同じ参照番号が用いられている。したがって、モジュー
ル10、11、1、15、16、45および55は選択的ノイズ抑制のために用
いられる量Sn,i、
は、図1に示されている装置の対応する部品に類似するいくつかの部品を含んで
いる。それらの部品には同じ参照番号が用いられている。したがって、モジュー
ル10、11、1、15、16、45および55は選択的ノイズ抑制のために用
いられる量Sn,i、
【0131】
【数86】 、α′n,i、
【0132】
【数87】 およびH1 n,fを特に供給する。
【0133】 高速フーリエ変換11の周波数分解能は図1に示されている装置の制約を構成
する。モジュール55により保護される周波数は必ずしも正確なピッチ周波数f
pではなく、個別スペクトル中でそれに最も近い周波数である。ある場合には、
ピッチ周波数から比較的離れている調波を保護することがある。図9に示されて
いる装置は、スピーチ信号を適切に調整することによってこの欠点を小さくする
。
する。モジュール55により保護される周波数は必ずしも正確なピッチ周波数f
pではなく、個別スペクトル中でそれに最も近い周波数である。ある場合には、
ピッチ周波数から比較的離れている調波を保護することがある。図9に示されて
いる装置は、スピーチ信号を適切に調整することによってこの欠点を小さくする
。
【0134】 この調整は、周期1/fpが調整された信号の整数の標本時間をちょうどカバ ーするように、信号の標本化周波数を修正する。
【0135】 モジュール57によって使用できる多くの調波解析方法が、初めの標本化周波
数Feでのいくつかの標本として表される、遅延Tp'の分数値を供給できる。そ の後で、推定されたピッチ周波数の整数倍に等しい新しい標本化周波数feが選
択される。すなわち、fe=p・fp=p・Fe/Tp=K・Feここにpは整数で ある。信号標本が失われることを避けるために、feはFeより高くなければなら
ない。特に、調整を容易にするために、feがFeから2Feまでの範囲
数Feでのいくつかの標本として表される、遅延Tp'の分数値を供給できる。そ の後で、推定されたピッチ周波数の整数倍に等しい新しい標本化周波数feが選
択される。すなわち、fe=p・fp=p・Fe/Tp=K・Feここにpは整数で ある。信号標本が失われることを避けるために、feはFeより高くなければなら
ない。特に、調整を容易にするために、feがFeから2Feまでの範囲
【0136】
【数88】 になければならないという条件を課することが可能である。
【0137】 もちろん、現在のフレームで有声活動が検出されないか(δn≠0)、モジュ ール57により推定された遅延Tpが整数遅延であるならば、信号を調整する必
要はない。
要はない。
【0138】 各ピッチ調波を調整された信号の整数の標本に一致させるために、整数pは、
モジュール10により発生された信号窓の寸法Nの係数:N=αp、でなければ
ならない。ここにαは整数である。この寸法Nは、FFTの実現のためには通常
は2の羃でなければならない。ここで考えている例ではそれは256である。
モジュール10により発生された信号窓の寸法Nの係数:N=αp、でなければ
ならない。ここにαは整数である。この寸法Nは、FFTの実現のためには通常
は2の羃でなければならない。ここで考えている例ではそれは256である。
【0139】 調整された信号の個別フーリエ変換のスペクトル分解能Δfは式Δf=p・f p /N=fp/αにより与えられる。したがって、pを小さくし、αを最小にする
ことが有利であるが、過標本化を行うためには十分委大きくする。Fe=8kH zおよびN=256である、ここで考えている例では、パラメータpとαのため
に選択された値が表1に示されている。
ことが有利であるが、過標本化を行うためには十分委大きくする。Fe=8kH zおよびN=256である、ここで考えている例では、パラメータpとαのため
に選択された値が表1に示されている。
【0140】
【数89】 調波解析モジュール57により供給された遅延Tpの値に従って選択がモジュ ール70により行われる。モジュール70は標本化周波数の間の比Kを3つの周
波数変化器モジュール71、72、73に供給する。
波数変化器モジュール71、72、73に供給する。
【0141】 モジュール71は、モジュール12により定められた帯域iに関連する値Sn, i 、
【0142】
【数90】 、α′n,i、
【0143】
【数91】 およびH1 n,fを、修正された周波数尺度に変換する(標本化周波数fe)。この 変換は帯域iを係数Kにより単に拡張するだけである。変換された値は調波保護
モジュール56に供給される。
モジュール56に供給される。
【0144】 その後で、後者のモジュールは前と同様に動作してノイズ抑制フィルタの周波
数応答H2 n,fを供給する。この応答H2 n,fは図1におけるものと同様にして(条
件(8)と(9))得られる。ただし、条件(9)では、ピッチ周波数fp=fe /pが、モジュール70により供給される整数遅延pの値に従って定められるこ
とを除く。モジュール70は周波数分解能Δfも供給する。
数応答H2 n,fを供給する。この応答H2 n,fは図1におけるものと同様にして(条
件(8)と(9))得られる。ただし、条件(9)では、ピッチ周波数fp=fe /pが、モジュール70により供給される整数遅延pの値に従って定められるこ
とを除く。モジュール70は周波数分解能Δfも供給する。
【0145】 モジュール72は、ウィンドウ化モジュール10により供給されたN個の標本
のフレームを過標本化する。有理係数K(K=K1/K2)による過標本化は、
最初に整数係数K1により過標本化することと、その後で整数係数K2により過
小標本化することで構成されている。整数係数によるこの過標本化と過小標本化
は、多相フィルタのバンクにより従来のやり方で行うことができる。
のフレームを過標本化する。有理係数K(K=K1/K2)による過標本化は、
最初に整数係数K1により過標本化することと、その後で整数係数K2により過
小標本化することで構成されている。整数係数によるこの過標本化と過小標本化
は、多相フィルタのバンクにより従来のやり方で行うことができる。
【0146】 モジュール72により供給された調整された信号フレームs′は周波数feの 標本をKN個含む。それらの標本は、それらの標本のフーリエ変換を計算するモ
ジュール75へ送られる。変換はN=256個の標本の2つのブロックを基にし
て行うことができる。1つのブロックは調整された信号s′の長さKNのフレー
ムの初めのN個の標本により構成され、他のブロックはそのフレームの後のN個
の標本により構成されている。したがって、2つのブロックは(2−K)×10
0%の重畳を有する。2つのブロックのおのおのに対して、フーリエ成分Sn,f のセットが得られる。成分Sn,fは掛算器58に供給される。その掛算器はそれ らの成分にスペクトル応答H2 n,fを乗じて、最初のノイズが抑制された信号のス
ペクトル成分S2 n,fを供給する。
ジュール75へ送られる。変換はN=256個の標本の2つのブロックを基にし
て行うことができる。1つのブロックは調整された信号s′の長さKNのフレー
ムの初めのN個の標本により構成され、他のブロックはそのフレームの後のN個
の標本により構成されている。したがって、2つのブロックは(2−K)×10
0%の重畳を有する。2つのブロックのおのおのに対して、フーリエ成分Sn,f のセットが得られる。成分Sn,fは掛算器58に供給される。その掛算器はそれ らの成分にスペクトル応答H2 n,fを乗じて、最初のノイズが抑制された信号のス
ペクトル成分S2 n,fを供給する。
【0147】 成分S2 n,fは、先に示したやり方でマスキングカーブを計算するモジュール6
0へ送られる。
0へ送られる。
【0148】 マスキングカーブを計算すると、スピーチ信号の有声度を示す大きさχ(式(
13))は形χ=1−Hでとられることが好ましい。ここにHはノイズが抑制さ
れた調整された信号のスペクトル成分S2 n,fの自己相関のエントロピーである。
自己相関A(k)は、たとえば、式
13))は形χ=1−Hでとられることが好ましい。ここにHはノイズが抑制さ
れた調整された信号のスペクトル成分S2 n,fの自己相関のエントロピーである。
自己相関A(k)は、たとえば、式
【0149】
【数92】 を用いてモジュール76により計算される。
【0150】 その後でモジュール77が正規化されたエントロピーHを計算して、マスキン
グカーブを計算するためのモジュール60にそれを供給する(S.A.McCl
ellan他:「スペクトル・エントロピー:レート割り当てのための代わりの
標識?(Spectral Entropy:an Alternative Indicator for Rate Allocation?)」)、Pr
oc.ICASSP′94、201〜204ページ参照)。
グカーブを計算するためのモジュール60にそれを供給する(S.A.McCl
ellan他:「スペクトル・エントロピー:レート割り当てのための代わりの
標識?(Spectral Entropy:an Alternative Indicator for Rate Allocation?)」)、Pr
oc.ICASSP′94、201〜204ページ参照)。
【0151】
【数93】 信号の調整と、フィルタH2 n,fによるノイズ抑制とのために、正規化されたエ
ントロピーHは、ノイズとピッチの変化とに対して非常に強い有声化の測定値を
構成する。
ントロピーHは、ノイズとピッチの変化とに対して非常に強い有声化の測定値を
構成する。
【0152】 修正モジュール62は図1に示されている装置と同じようにして動作して、周
波数変化器モジュール71によって再スケールされた過推定されたノイズ
波数変化器モジュール71によって再スケールされた過推定されたノイズ
【0153】
【数94】 を許容する。それは最後のノイズ抑制フィルタ周波数応答H3 n,fを供給する。そ
れに、モジュール64により調整された信号のスペクトル成分Sn,fが乗ぜられ る。その結果の成分S3 n,fがIFFTモジュール65により処理されて時間領域
へ戻される。IFFTモジュール65の出力端子におけるモジュール80が、F
FT75によって供給された重なり会っている2つのブロックの処理の結果とし
ての2つの信号ブロックを、各フレームに対して、組合わせる。この組合わせは
、KN個の標本のノイズが抑制されて調整された信号フレームを形成するために
、標本のハミング重み付けされた和で構成できる。
れに、モジュール64により調整された信号のスペクトル成分Sn,fが乗ぜられ る。その結果の成分S3 n,fがIFFTモジュール65により処理されて時間領域
へ戻される。IFFTモジュール65の出力端子におけるモジュール80が、F
FT75によって供給された重なり会っている2つのブロックの処理の結果とし
ての2つの信号ブロックを、各フレームに対して、組合わせる。この組合わせは
、KN個の標本のノイズが抑制されて調整された信号フレームを形成するために
、標本のハミング重み付けされた和で構成できる。
【0154】 モジュール73は、モジュール80により供給されたノイズが抑制されて調整
された信号の標本化周波数を変更する。標本化周波数は、モジュール75により
行われる動作とは逆である動作によってFe=fe/Kへ戻される。モジュール7
3はフレームごとにN=256個の標本を供給する。先行するフレームの後のN
/2=128個の標本を用いる重畳加算再構成の後で、現在のフレームの初めの
N/2=128個の標本のみが最後に保持されて、最後のノイズが抑制された信
号s3を形成する(モジュール66)。
された信号の標本化周波数を変更する。標本化周波数は、モジュール75により
行われる動作とは逆である動作によってFe=fe/Kへ戻される。モジュール7
3はフレームごとにN=256個の標本を供給する。先行するフレームの後のN
/2=128個の標本を用いる重畳加算再構成の後で、現在のフレームの初めの
N/2=128個の標本のみが最後に保持されて、最後のノイズが抑制された信
号s3を形成する(モジュール66)。
【0155】 好適な実施形態では、モジュール10により形成されて、モジュール66によ
り保持されていたウィンドウをモジュール82が管理して、Tp=Fe/fpの整 数倍に等しい数Mの標本を保持する。これはフレームの間の位相不連続の問題を
避ける。対応するやり方で、現在のフレームと次のフレームとの間の重なり合い
がN−Mに一致するように、管理モジュール82がウィンドウ化モジュール10
を制御する。このN−M個の標本の重なり合いは、次のフレームを処理する時に
モジュール66により行われる重畳加算動作において考慮に入れられる。調波解
析モジュール57により供給されたTpの値からモジュール82は、保持すべき 標本の数M=Tp×E[N/(2Tp)]、E[]は整数部を示す、を計算し、そ
れに従ってモジュール10と66を制御する。
り保持されていたウィンドウをモジュール82が管理して、Tp=Fe/fpの整 数倍に等しい数Mの標本を保持する。これはフレームの間の位相不連続の問題を
避ける。対応するやり方で、現在のフレームと次のフレームとの間の重なり合い
がN−Mに一致するように、管理モジュール82がウィンドウ化モジュール10
を制御する。このN−M個の標本の重なり合いは、次のフレームを処理する時に
モジュール66により行われる重畳加算動作において考慮に入れられる。調波解
析モジュール57により供給されたTpの値からモジュール82は、保持すべき 標本の数M=Tp×E[N/(2Tp)]、E[]は整数部を示す、を計算し、そ
れに従ってモジュール10と66を制御する。
【0156】 今説明した実施形態では、ピッチ周波数はフレームにわたる平均として推定さ
れる。ピッチはこの持続時間にわたって僅かに変化できる。人工的な手段により
フレーム中に一定のピッチを得るために、本発明の文脈では、それらの変化を許
容することが可能である。
れる。ピッチはこの持続時間にわたって僅かに変化できる。人工的な手段により
フレーム中に一定のピッチを得るために、本発明の文脈では、それらの変化を許
容することが可能である。
【0157】 これは、調波解析モジュール57が、フレームの持続時間中に起きる話者の声
紋閉鎖に起因できるスピーチ信号の連続する切れ目の間に時間間隔を供給するこ
とを要求する。そのような短い切れ目を検出するために使用できる方法はスピー
チ信号の調波解析技術において周知である。これに関連して、次の論文を参照で
きる。M.BASSEVILLE他、「デジタル信号のスペクトル特性の急変の
順次検出(Sequential detection of abruptc
hanges in spectral characteristicsof
digital signals)」、情報理論についてのIEEE Tra
ns.、1983、Vpl.IT−29、No.5,708〜723ページ;R
.ANDRE−OBRECHT、「連続スピーチ信号の自動区分化のための新し
い統計的取組み(A new approach for the autom
atic segmentation of continuous spee
ch signals)」、IEEE Trans.on Acous.,Sp
eech ad Sig.Proc.Vol.36、No.January19
88;C.MURGIA他、「スピーチ信号の急変の順次検出を用いる声門閉鎖
時の推定のためのアルゴリズム(An algoloithm for the
estimation of glottal closure insta
nt using the sequential detectionof
abrupt change in speech signals)、Sig
nal Processing VII,1994,1685〜1688ページ
。
紋閉鎖に起因できるスピーチ信号の連続する切れ目の間に時間間隔を供給するこ
とを要求する。そのような短い切れ目を検出するために使用できる方法はスピー
チ信号の調波解析技術において周知である。これに関連して、次の論文を参照で
きる。M.BASSEVILLE他、「デジタル信号のスペクトル特性の急変の
順次検出(Sequential detection of abruptc
hanges in spectral characteristicsof
digital signals)」、情報理論についてのIEEE Tra
ns.、1983、Vpl.IT−29、No.5,708〜723ページ;R
.ANDRE−OBRECHT、「連続スピーチ信号の自動区分化のための新し
い統計的取組み(A new approach for the autom
atic segmentation of continuous spee
ch signals)」、IEEE Trans.on Acous.,Sp
eech ad Sig.Proc.Vol.36、No.January19
88;C.MURGIA他、「スピーチ信号の急変の順次検出を用いる声門閉鎖
時の推定のためのアルゴリズム(An algoloithm for the
estimation of glottal closure insta
nt using the sequential detectionof
abrupt change in speech signals)、Sig
nal Processing VII,1994,1685〜1688ページ
。
【0158】 上記方法の原理は短時間モデルと長時間モデルとの間の統計的試験を行うこと
である。両方のモデルは適応直線予測モデルである。統計的試験の値wmはクル
バック発散(Kullback divergence)により修正された、2
つの分布の帰納的可能性比の累積的和である。ガウス統計を持つ剰余の分布のた
めに、値wmは
である。両方のモデルは適応直線予測モデルである。統計的試験の値wmはクル
バック発散(Kullback divergence)により修正された、2
つの分布の帰納的可能性比の累積的和である。ガウス統計を持つ剰余の分布のた
めに、値wmは
【0159】
【数95】 によって与えられる。ここにe0 mとσ2 0はフレームの標本mおよび長時間モデル
の変化の時に計算された剰余を表し、e1 mとσ2 1は短時間モデルの剰余と変化を
同様に表す。2つのモデルが接近するほど、統計試験値wmは0に近付く。対照 的に、2つのモデルが相互に離れるとすると、値wmは負になる。それは信号中 の切れ目Rを示す。
の変化の時に計算された剰余を表し、e1 mとσ2 1は短時間モデルの剰余と変化を
同様に表す。2つのモデルが接近するほど、統計試験値wmは0に近付く。対照 的に、2つのモデルが相互に離れるとすると、値wmは負になる。それは信号中 の切れ目Rを示す。
【0160】 したがって、図10は値wmの展開(evolution)の1つの可能な例 を示すものであって、スピーチ信号中の切れ目Rを示すものである。2つの引き
続く切れ目Rの間の時間間隔tr(r=1,2,等)が計算され、スピーチ信号 の標本の例の数として表されている。各間隔trはピッチ周波数fpに逆比例する
。したがって、それは局部的に推定される:r番目の間隔におけるfp=Fe/t r 。
続く切れ目Rの間の時間間隔tr(r=1,2,等)が計算され、スピーチ信号 の標本の例の数として表されている。各間隔trはピッチ周波数fpに逆比例する
。したがって、それは局部的に推定される:r番目の間隔におけるfp=Fe/t r 。
【0161】 そうすると、各解析フレームにおいて一定ピッチ周波数を得るために、ピッチ
の時間変化(すなわち、間隔trが所与のフレームにおいて必ずしも全て等しく ないという事実)、を修正できる。この修正は、標本化周波数を各間隔trにわ たって修正することにより行われて、過標本化の後の2つの声門閉鎖の間に一定
の間隔を得る。したがって、2つの切れ目の間の持続時間は、最大の間隔にロッ
クするように、可変比で過標本化することにより修正される。また、過標本化周
波数が推定されたピッチ周波数の倍数であるようにされるような調整制約が満た
される。
の時間変化(すなわち、間隔trが所与のフレームにおいて必ずしも全て等しく ないという事実)、を修正できる。この修正は、標本化周波数を各間隔trにわ たって修正することにより行われて、過標本化の後の2つの声門閉鎖の間に一定
の間隔を得る。したがって、2つの切れ目の間の持続時間は、最大の間隔にロッ
クするように、可変比で過標本化することにより修正される。また、過標本化周
波数が推定されたピッチ周波数の倍数であるようにされるような調整制約が満た
される。
【0162】 図11は後者の場合に信号の調整を行うために用いられる手段を示す。調波解
析モジュール57が上記解析法を用い、モジュール10により発生された信号フ
レームに関連する間隔trを供給する。それらの各間隔に対して、モジュール7 0(図11のブロック90)は過標本化比Kr=pr/trを計算する。ここに、 整数prは、trが表1の第2の欄に示されている値を取るならば、表1の第3の
欄により与えられる。それらの過標本化比Krは、対応する時間間隔trにわたっ
て標本化比Krで補間が行われるように、周波数変化器モジュール72と73に 供給される。
析モジュール57が上記解析法を用い、モジュール10により発生された信号フ
レームに関連する間隔trを供給する。それらの各間隔に対して、モジュール7 0(図11のブロック90)は過標本化比Kr=pr/trを計算する。ここに、 整数prは、trが表1の第2の欄に示されている値を取るならば、表1の第3の
欄により与えられる。それらの過標本化比Krは、対応する時間間隔trにわたっ
て標本化比Krで補間が行われるように、周波数変化器モジュール72と73に 供給される。
【0163】 フレームに対してモジュール57により供給される時間間隔trの最長の時間 間隔Tpは、表1に示されているように対p、αを得るためにモジュール70に より選択される(図11のブロック91)。そうすると修正された標本化周波数
は前のようにfe=p・Fe/Tpである。調整された信号の個別フーリエ変換の スペクトル分解能ΔfはΔf=Fe/(α・Tp)によりいぜんとして与えられる
。周波数変化器モジュール71に対して、過標本化比KはK=p/Tpにより与 えられる(ブロック92)。ピッチ調波を保護するためのモジュール56は、条
件(9)に対して、ブロック91により供給されたスペクトル分解能Δfと、ブ
ロック91により供給された整数遅延pの値に従って定められたピッチ周波数f p =fe/pとを用いて、前と同じようにして動作する。
は前のようにfe=p・Fe/Tpである。調整された信号の個別フーリエ変換の スペクトル分解能ΔfはΔf=Fe/(α・Tp)によりいぜんとして与えられる
。周波数変化器モジュール71に対して、過標本化比KはK=p/Tpにより与 えられる(ブロック92)。ピッチ調波を保護するためのモジュール56は、条
件(9)に対して、ブロック91により供給されたスペクトル分解能Δfと、ブ
ロック91により供給された整数遅延pの値に従って定められたピッチ周波数f p =fe/pとを用いて、前と同じようにして動作する。
【0164】 本発明のこの実施形態はウィンドウ管理モジュール82の適用も含むものであ
る。現在のフレームにわたって保持すべき、ノイズが抑制された信号の標本の数
Mはここでは、2つの声門閉鎖の間の引き続く時間間隔trの整数に一致する( ブロック10)。これはフレームの間の位相不連続の諸問題を避け、しかもフレ
ームにわたる時間間隔trの起こり得る変化を許容する。
る。現在のフレームにわたって保持すべき、ノイズが抑制された信号の標本の数
Mはここでは、2つの声門閉鎖の間の引き続く時間間隔trの整数に一致する( ブロック10)。これはフレームの間の位相不連続の諸問題を避け、しかもフレ
ームにわたる時間間隔trの起こり得る変化を許容する。
【図1】 本発明を実現するノイズ抑制装置のブロック図である。
【図2】 図1に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。
る。
【図3】 図1に示されている装置の有声活動検出器により用いられる手順の流れ図であ
る。
る。
【図4】 有声活動検出オートマトンの状態を表す図である。
【図5】 有声活動度における変動を示すグラフである。
【図6】 図1に示されている装置のノイズを過推定するモジュールのブロック図である
。
。
【図7】 マスキングカーブの計算を示すグラフである。
【図8】 図1に示されている装置におけるマスキングカーブの使用を示すグラフである
。
。
【図9】 本発明を実現する他のノイズ抑制装置のブロック図である。
【図10】 本発明の方法で使用できる調波解析法を示すグラフである。
【図11】 図9に示されているブロック図の変形の一部を示す。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年3月21日(2000.3.21)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項5
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】請求項22
【補正方法】変更
【補正内容】
【数3】 は、前記ノイズの前記スペクトル成分の長時間推定量
【数4】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
【手続補正書】
【提出日】平成12年9月13日(2000.9.13)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項1
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】請求項21
【補正方法】変更
【補正内容】
【数1】 と推定されたピッチ周波数(fp)を含むパラメータに依存しているそれぞれの
第1の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分(Sn,f) から差し引いてノイズが抑制された第1の信号のスペクトル成分(S2 n,f )を 得る第1の差し引きステップと、 −ノイズが抑制された前記第1の信号のスペクトル成分(S2 n,f )を基にし て聴覚モデルを適用することによりマスキングカーブ(Mn,q)を計算するステ ップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量
第1の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分(Sn,f) から差し引いてノイズが抑制された第1の信号のスペクトル成分(S2 n,f )を 得る第1の差し引きステップと、 −ノイズが抑制された前記第1の信号のスペクトル成分(S2 n,f )を基にし て聴覚モデルを適用することによりマスキングカーブ(Mn,q)を計算するステ ップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量
【数2】 を計算された前記マスキングカーブ(Mn,q)と比較するステップと、 −前記対応する第1の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第2の量を、前記スピーチ信号のスペクトル成分(Sn,f)から差 し引いて、ノイズが抑制された第2の信号のスペクトル成分(S3 n,f)を得る第
2の差し引きステップと、 を含む請求項1ないし20のいずれか1項に記載の方法。
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第2の量を、前記スピーチ信号のスペクトル成分(Sn,f)から差 し引いて、ノイズが抑制された第2の信号のスペクトル成分(S3 n,f)を得る第
2の差し引きステップと、 を含む請求項1ないし20のいずれか1項に記載の方法。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】請求項22
【補正方法】変更
【補正内容】
【数3】 は、前記ノイズの前記スペクトル成分の長時間推定量
【数4】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】請求項26
【補正方法】変更
【補正内容】
【数5】 を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量(En,i)と比較して周波数帯域i内の前記フレームnについて の前記スピーチ信号の音声活動度(γn,i)を得る請求項24または25記載の 方法。
ーの瞬時推定量(En,i)と比較して周波数帯域i内の前記フレームnについて の前記スピーチ信号の音声活動度(γn,i)を得る請求項24または25記載の 方法。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】請求項29
【補正方法】変更
【補正内容】
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】請求項30
【補正方法】変更
【補正内容】
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正内容】
【0009】
【課題を解決するための手段】 したがって、本発明は、 −内部での音声活動を特徴とする各フレーム内のスピーチ信号のピッチ周波数
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制
する方法を提案するものである。 スペクトル差し引きの結果は時間領域へ変換され、ノイズが抑制されたスピー チ信号を構成する。
を推定するためにスピーチ信号の調波解析を行い、 各フレームごとにスピーチ信号のスペクトル成分を計算し、 スピーチ信号に含まれているノイズのスペクトル成分の推定量を各フレームご
とに計算し、 フレーム中のスピーチ信号の各スペクトル成分から、前記フレームについての
ノイズの対応するスペクトル成分の推定量と、推定されたピッチ周波数の値とを
少なくとも含むパラメータに依存するそれぞれの量を差し引く少なくとも1つの
ステップを含めて、スペクトル差し引きを行う、 引き続くフレームによって処理されるデジタルスピーチ信号中のノイズを抑制
する方法を提案するものである。 スペクトル差し引きの結果は時間領域へ変換され、ノイズが抑制されたスピー チ信号を構成する。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SZ,UG,ZW),EA(AM ,AZ,BY,KG,KZ,MD,RU,TJ,TM) ,AL,AM,AT,AU,AZ,BA,BB,BG, BR,BY,CA,CH,CN,CU,CZ,DE,D K,EE,ES,FI,GB,GE,GH,GM,HR ,HU,ID,IL,IS,JP,KE,KG,KP, KR,KZ,LC,LK,LR,LS,LT,LU,L V,MD,MG,MK,MN,MW,MX,NO,NZ ,PL,PT,RO,RU,SD,SE,SG,SI, SK,SL,TJ,TM,TR,TT,UA,UG,U S,UZ,VN,YU,ZW Fターム(参考) 5D015 CC03 CC14 EE05 FF03 5K046 AA05 HH11
Claims (28)
- 【請求項1】 内部での音声活動を特徴とする各フレーム内の前記スピーチ
信号のピッチ周波数(fp)を推定するために前記スピーチ信号の調波解析を行 うステップと、 各フレームごとに前記スピーチ信号のスペクトル成分(Sn,f、Sn,i)を計算
するステップと、 前記スピーチ信号に含まれているノイズのスペクトル成分の計算値を、各フレ
ームごとに、計算するステップと、 前記フレーム(Sn,f)中の前記スピーチ信号の各スペクトル成分から、前記 フレームについてのノイズの対応する前記スペクトル成分の推定量と、推定され
た前記ピッチ周波数の値とを少なくとも含むパラメータに依存するそれぞれの量
を差し引く少なくとも1つのステップを含めたスペクトル差し引きを実行するス
テップと、 前記スペクトル差し引きの結果に時間領域への変換を適用してノイズが抑制さ
れたスピーチ信号(s3)を構成するステップと、 を備える、引き続くフレームによって処理されるデジタルスピーチ信号(s)中
のノイズを抑制する方法。 - 【請求項2】 前記スピーチ信号のスペクトル成分がそのために計算される
ような周波数の集合から保護される周波数を選択するために、推定された前記ピ
ッチ周波数(fp)を用い、前記スピーチ信号の所与のスペクトル成分(Sn,f)
からの差し引きのために、前記スペクトル成分が保護される周波数に対応するの
であれば、前記スペクトル成分が保護される周波数に対応しない場合に採用する
量よりも少ない量を採用する請求項1記載の方法。 - 【請求項3】 保護される各前記周波数に対応する前記スピーチ信号の前記
スペクトル成分が、ノイズの対応するスペクトル成分の対応する推定量から決定
されたノイズレベルを超えるように、保護される前記周波数を選択する請求項2
記載の方法。 - 【請求項4】 それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の前記集合内で、保護される各周波数は推定された前記ピッチ周
波数(fp)の整数倍に最も近いものである請求項2または3記載の方法。 - 【請求項5】 それのために前記スピーチ信号のスペクトル成分が計算され
るような周波数の集合内で、保護される各周波数は[η×fp−η×δfp/2、
η×fp+η×δfp/2]の形の範囲の周波数に最も近く、fpは推定された前 記ピッチ周波数の周波数分解能を示し、ηは整数を示し、および 請求項2また
は3記載の方法。 - 【請求項6】 保護される周波数における前記スピーチ信号の前記スペクト
ル成分(Sn,f)から差し引かれる前記量はほぼ零である請求項2ないし5のい ずれか1項に記載の方法。 - 【請求項7】 フレーム内の前記スピーチ信号の前記ピッチ周波数(fp) を推定した後で、前記フレームの前記スピーチ信号を、前記推定された周波数の
倍数であるる過標本化周波数(fe)でそれを過標本化することにより調整し、 前記フレーム内の前記スピーチ信号の前記スペクトル成分(Sn,f)を、前記調 整された信号(s′)を基にして計算して前記量をそれから差し引く請求項1な
いし6のいずれか1項に記載の方法。 - 【請求項8】 前記調整された信号(s′)を、周波数領域変換されたN個
の標本のブロックに分布させることによって前記スピーチ信号のスペクトル成分
(Sn,f)を計算し、過標本化周波数(fe)と推定されたピッチ周波数との間の
比(p)は数Nの因数である請求項7記載の方法。 - 【請求項9】 前記スピーチ信号の有声度(χ)を、調整された信号を基に
して計算された前記スペクトル成分の自己相関のエントロピー(H)の計算を基
にして、前記フレームに対して推定する請求項7または8記載の方法。 - 【請求項10】 それの自己相関(H)が計算される前記スペクトル成分(
S2 n,f)を、前記量の差し引きの後の前記調整された信号(s′)を基にして計
算する請求項9記載の方法。 - 【請求項11】 前記有声度(χ)を、 【数1】 の形の正規化されたエントロピーHを基にして計算し、 ここに、Nは前記調整された信号(s′)を基にして前記スペクトル成分(S n,f )を計算するために用いられる標本の数、A(k)は、 【数2】 により定められる正規化された自己相関、S2 n,fは前記調整された信号を基にし
て計算された階層fの前記スペクトル成分を示す請求項9または10記載の方法
。 - 【請求項12】 各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、前記標本化周波数(Fe)と推 定された前記ピッチ周波数(fp)との間の比(Tp)の整数倍に等しい標本の数
(M)を保持するステップを備える請求項1ないし11のいずれか1項に記載の
方法。 - 【請求項13】 フレーム中のスピーチ信号のピッチ周波数の推定が、 −フレーム中の話者の声門閉鎖に起因できる信号の連続する2つの切れ目(R
)の間の時間間隔(tr)を推定し、それによって前記推定されたピッチ周波数 が前記時間間隔に逆比例するステップと、 −前記スピーチ信号を前記時間間隔内に内挿して、その内挿の結果としての前
記調整された信号(s′)が連続する2つの切れ目の間に一定の時間間隔を持つ
ようにするステップと、 を備える請求項1ないし11のいずれか1項に記載の方法。 - 【請求項14】 各フレームの処理の後で、前記処理によって供給されるノ
イズが抑制されたスピーチ信号の標本のうちで、推定された時間間隔(tr)に 対応する標本の数(M)を保持するステップを備える請求項13記載の方法。 - 【請求項15】 各フレーム内の前記スピーチ信号の信号対ノイズ比をスペ
クトル領域内で推定し、差し引きされる前記量が依存する前記パラメータが推定
された前記信号対ノイズ比を含み、前記フレームにわたって前記スピーチ信号の
各スペクトル成分から差し引かれる前記量は対応する推定された前記信号対ノイ
ズ比の減関数である請求項1ないし14のいずれか1項に記載の方法。 - 【請求項16】 前記信号対ノイズ比を最高にするために前記関数が零へ向
かって減少する請求項15記載の方法。 - 【請求項17】 前記スピーチ信号のスペクトル成分(Sn,f)から前記量 を差し引くことによって得られた、ノイズが抑制された信号のスペクトル成分(
S2 n,f)を用いて、聴覚モデルを適用することによってマスキングカーブ(Mn, q )を計算する請求項1ないし16のいずれか1項に記載の方法。 - 【請求項18】 マスキングカーブ(Mn,q)の計算が、正規化されたエン トロピーHによって測定された前記有声度(χ)を使用する請求項11および1
7記載の方法。 - 【請求項19】 フレーム内の前記スピーチ信号のスペクトル成分(Sn,f )から前記量を差し引かれる前記量が依存する前記パラメータが、前記ノイズの
前記対応するスペクトル成分の過大推定量 【数3】 と計算された前記マスキングカーブ(Mn,q)との間の差を含む請求項17また は18記載の方法。 - 【請求項20】 フレームに対するノイズの前記スペクトル成分の前記過大
推定量 【数4】 を、計算された前記マスキングカーブ(Mn,q)および前記スピーチ信号のスペ クトル成分(Sn,f)から差し引かれた量と比較して、前記時間領域に変換され る成分(S3 n,f)を得、前記マスキングカーブの上である前記ノイズの対応する
スペクトル成分の過大推定量の一部に制限される請求項19記載の方法。 - 【請求項21】 スペクトル差し引きは、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量 【数5】 と推定されたピッチ周波数(fp)を含むパラメータに依存しているそれぞれの
第1の量を、前記フレーム内の前記スピーチ信号の各スペクトル成分(Sn,f) から差し引いてノイズが抑制された第1の信号のスペクトル成分(S2 n,f )を 得る第1の差し引きステップと、 −ノイズが抑制された前記第1の信号のスペクトル成分(S2 n,f )を基にし て聴覚モデルを適用することによりマスキングカーブ(Mn,q)を計算するステ ップと、 −前記フレームに対するノイズの対応するスペクトル成分の過大推定量 【数6】 を計算された前記マスキングカーブ(Mn,q)と比較するステップと、 −前記対応する第1の量と、前記マスキングカーブの上である前記ノイズの前
記対応するスペクトル成分の前記過大見積もり一部とのいずれか小さい方に等し
いそれぞれの第2の量を、前記スピーチ信号のスペクトル成分(Sn,f)から差 し引いて、前記時間領域変換されたノイズが抑制された第2の信号のスペクトル
成分(S3 n,f)を得る第2の差し引きステップと、 を含む請求項1ないし20のいずれか1項に記載の方法。 - 【請求項22】 スペクトル差し引きにおいて考慮に入れられる前記ノイズ
のスペクトル成分の前記推定量のおのおのを過大に推定し、前記スピーチ信号に
含まれている前記ノイズのスペクトル成分の各過大推定量 【数7】 は、前記ノイズの前記スペクトル成分の長時間推定量 【数8】 と、前記ノイズの長時間推定量についての前記ノイズの前記スペクトル成分の可
変性の測定値(ΔBmax n,i)とを組合わせることによって得られる請求項1ない
し21のいずれか1項に記載の方法。 - 【請求項23】 帯域i内に含まれている周波数に対応する、フレームn内
の前記ノイズのスペクトル成分の長時間推定量 【数9】 を、 【数10】 の形で出力し、 γn,iは前記周波数帯域iに対する前記フレームnについて決定された、前記ス ピーチ信号の非2進音声活動度を示し、Sn,iは帯域i内のフレームnの前記ス ピーチ信号のスペクトルの振幅の平均を示し、λBは忘却係数を示す請求項22 記載の方法。 - 【請求項24】 少なくとも1つの先行するフレーム中に得られた前記ノイ
ズの推定量 【数11】 を基にしてフレームnのスピーチ信号の先験的ノイズ抑制を実行することにより
、かつ、先験的ノイズ抑制信号のエネルギー変化を解析することにより、前記フ
レームnについてのスピーチ活動度γn,iを決定する請求23項記載の方法。 - 【請求項25】 周波数帯域iに関連する音声活動度(γn,i)は0から1 までの範囲で連続的に変化する関数である請求項24記載の方法。
- 【請求項26】 前記先験的いノイズ抑制された信号の前記エネルギーの長
時間推定量 【数12】 を計算し、かつ前記長時間推定量を、フレームについて計算された前記エネルギ
ーの瞬時推定量(En,i)と比較して周波数帯域i内の前記フレームnについて の前記スピーチ信号の音声活動度(γn,i)を得る請求項24または25記載の 方法。 - 【請求項27】 前記ノイズのフレームに対する長時間推定 【数13】 についての前記ノイズの、帯域iに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値(ΔBmax n,i)が、その中では前記スピーチ信号
が帯域i内のスピーチ活動性を特徴としないような所与の数 【数14】 のフレームについて計算された差 【数15】 の関数である請求項23ないし26のいずれか1項に記載の方法。 - 【請求項28】 前記ノイズのフレームに対する長時間推定 【数16】 についての前記ノイズの、帯域iに含まれている周波数に対応する、スペクトル
成分の前記可変性の前記測定値(ΔBmax n,i)が、そこでは前記スピーチ信号が
帯域i内のどのようなスピーチ活動性をも特徴としないような所与の数 【数17】 のフレームについて計算された最大の差 【数18】 の関数であり、Sn-k,f はフレームn−kについての周波数に対応するスペクト
ル成分を示し、周波数範囲[f(i−1),f(i)]は帯域iに対応する請求
項23ないし26のいずれか1項に記載の方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR97/11642 | 1997-09-18 | ||
| FR9711642A FR2768546B1 (fr) | 1997-09-18 | 1997-09-18 | Procede de debruitage d'un signal de parole numerique |
| PCT/FR1998/001981 WO1999014739A1 (fr) | 1997-09-18 | 1998-09-16 | Procede de debruitage d'un signal de parole numerique |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001516902A true JP2001516902A (ja) | 2001-10-02 |
Family
ID=9511229
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000512196A Pending JP2001516902A (ja) | 1997-09-18 | 1998-09-16 | デジタル音声信号中のノイズを抑制する方法 |
Country Status (10)
| Country | Link |
|---|---|
| EP (1) | EP1016073B1 (ja) |
| JP (1) | JP2001516902A (ja) |
| CN (1) | CN1276896A (ja) |
| AU (1) | AU9169098A (ja) |
| BR (1) | BR9812655A (ja) |
| CA (1) | CA2304015A1 (ja) |
| DE (1) | DE69804329T2 (ja) |
| ES (1) | ES2174484T3 (ja) |
| FR (1) | FR2768546B1 (ja) |
| WO (1) | WO1999014739A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009531906A (ja) * | 2006-03-28 | 2009-09-03 | フランス テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
| WO2014206265A1 (zh) * | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 谐波分析方法和装置以及确定谐波间杂波的方法和装置 |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2379550A (en) * | 2001-09-11 | 2003-03-12 | Barrington Dyer | Printed code recording and playing system, for music, speech and sounds |
| ES2349718T3 (es) * | 2004-09-16 | 2011-01-10 | France Telecom | Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento. |
| KR101320963B1 (ko) | 2009-03-31 | 2013-10-23 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템 |
| CN101859569B (zh) * | 2010-05-27 | 2012-08-15 | 上海朗谷电子科技有限公司 | 数字音频信号处理降噪的方法 |
| CN109741757B (zh) * | 2019-01-29 | 2020-10-23 | 桂林理工大学南宁分校 | 用于窄带物联网的实时语音压缩和解压的方法 |
| CN109817241B (zh) * | 2019-02-18 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
| CN116580712B (zh) * | 2023-07-14 | 2023-09-15 | 深圳攀高医疗电子有限公司 | 一种语音处理方法、系统及腰部治疗仪 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
| DE69124005T2 (de) * | 1990-05-28 | 1997-07-31 | Matsushita Electric Ind Co Ltd | Sprachsignalverarbeitungsvorrichtung |
| US5469087A (en) * | 1992-06-25 | 1995-11-21 | Noise Cancellation Technologies, Inc. | Control system using harmonic filters |
| US5555190A (en) * | 1995-07-12 | 1996-09-10 | Micro Motion, Inc. | Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement |
-
1997
- 1997-09-18 FR FR9711642A patent/FR2768546B1/fr not_active Expired - Fee Related
-
1998
- 1998-09-16 BR BR9812655-5A patent/BR9812655A/pt not_active IP Right Cessation
- 1998-09-16 EP EP98944000A patent/EP1016073B1/fr not_active Expired - Lifetime
- 1998-09-16 JP JP2000512196A patent/JP2001516902A/ja active Pending
- 1998-09-16 ES ES98944000T patent/ES2174484T3/es not_active Expired - Lifetime
- 1998-09-16 WO PCT/FR1998/001981 patent/WO1999014739A1/fr not_active Ceased
- 1998-09-16 CN CN 98810358 patent/CN1276896A/zh active Pending
- 1998-09-16 AU AU91690/98A patent/AU9169098A/en not_active Abandoned
- 1998-09-16 DE DE69804329T patent/DE69804329T2/de not_active Expired - Fee Related
- 1998-09-16 CA CA002304015A patent/CA2304015A1/fr not_active Abandoned
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009531906A (ja) * | 2006-03-28 | 2009-09-03 | フランス テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
| US8045718B2 (en) | 2006-03-28 | 2011-10-25 | France Telecom | Method for binaural synthesis taking into account a room effect |
| JP4850948B2 (ja) * | 2006-03-28 | 2012-01-11 | フランス・テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
| WO2014206265A1 (zh) * | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 谐波分析方法和装置以及确定谐波间杂波的方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP1016073B1 (fr) | 2002-03-20 |
| DE69804329D1 (de) | 2002-04-25 |
| ES2174484T3 (es) | 2002-11-01 |
| BR9812655A (pt) | 2000-08-22 |
| DE69804329T2 (de) | 2002-11-14 |
| AU9169098A (en) | 1999-04-05 |
| WO1999014739A1 (fr) | 1999-03-25 |
| FR2768546A1 (fr) | 1999-03-19 |
| FR2768546B1 (fr) | 2000-07-21 |
| EP1016073A1 (fr) | 2000-07-05 |
| CN1276896A (zh) | 2000-12-13 |
| CA2304015A1 (fr) | 1999-03-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6477489B1 (en) | Method for suppressing noise in a digital speech signal | |
| US7957965B2 (en) | Communication system noise cancellation power signal calculation techniques | |
| US6766292B1 (en) | Relative noise ratio weighting techniques for adaptive noise cancellation | |
| US6839666B2 (en) | Spectrally interdependent gain adjustment techniques | |
| US6415253B1 (en) | Method and apparatus for enhancing noise-corrupted speech | |
| US8374855B2 (en) | System for suppressing rain noise | |
| EP2546831B1 (en) | Noise suppression device | |
| EP1141948B1 (en) | Method and apparatus for adaptively suppressing noise | |
| US8010355B2 (en) | Low complexity noise reduction method | |
| US20070232257A1 (en) | Noise suppressor | |
| US6671667B1 (en) | Speech presence measurement detection techniques | |
| US6658380B1 (en) | Method for detecting speech activity | |
| JP2003280696A (ja) | 音声強調装置及び音声強調方法 | |
| JP2001516902A (ja) | デジタル音声信号中のノイズを抑制する方法 | |
| US6775650B1 (en) | Method for conditioning a digital speech signal | |
| CA2401672A1 (en) | Perceptual spectral weighting of frequency bands for adaptive noise cancellation | |
| Beaugeant et al. | Noise reduction using perceptual spectral change | |
| Puder | Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation | |
| JPH113094A (ja) | ノイズ除去装置 | |
| Kim et al. | Speech enhancement via Mel-scale Wiener filtering with a frequency-wise voice activity detector | |
| JP2003517761A (ja) | 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置 |