JP2012506073A

JP2012506073A - オーディオ信号における雑音推定の方法および装置

Info

Publication number: JP2012506073A
Application number: JP2011532248A
Authority: JP
Inventors: モハンマド、アシフ・アイ．; ラマクリシュナン、ディネッシュ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-10-15
Filing date: 2009-10-15
Publication date: 2012-03-08
Anticipated expiration: 2029-10-15
Also published as: US20100094625A1; WO2010045450A1; TW201028996A; US8380497B2; KR20130019017A; CN102187388A; JP5596039B2; KR20110081295A; EP2351020A1; KR20130042649A; KR101246954B1

Abstract

雑音レベル／スペクトル推定および音声活動検出のためのシステムおよび方法が開示される。ある幾つかの実施形態は、雑音レベルを推定し、引き続いて音声の存在を検出するための確率モデルを含む。これらの実施形態は、標準的音声活動検出子(ＶＡＤ)より性能が優れており、種々の雑音の多い環境において改善された検出を実現する。

Description

関連出願への相互参照

本出願は、出願の全体が引用によってここに組み込まれている２００８年１０月１５日に出願された米国仮特許出願第６１／１０５，７２７号からの優先権を主張する。

本開示は、概して雑音レベル／スペクトル推定および音声活動検出のための方法および装置に関し、また特に雑音レベルを推定し音声の存在を検出する確率モデルの使用に関する。

通信技術は、しばしば新しい課題を提示しながら、多くの分野で発展し続けている。携帯電話および無線ヘッドセットの出現によって現在、人々は極めて耳障りな環境すなわち低い信号対雑音比(ＳＮＲ)を有する環境において真の全二重通信会話を行うことができる。信号増強および雑音抑制は、これらの状況において極めて重要になる。所望される音声の了解度は、他端部における聞き手に信号を送信する前に不要な雑音の多い信号を抑制することによって改善される。雑音の多い背景(バックグラウンド)内で音声の存在を検出することは、信号増強および雑音抑制の１つの重要な構成要素である。改善された音声検出を達成するために、ある幾つかのシステムは、着信信号を複数の異なる時間／周波数フレームに分割し、各フレームにおける音声の存在の確率を推定する。

音声の存在を検出する際の最も大きな課題の１つは、ノイズフロア(noise floor)を追跡すること、特に単一のマイクロホン／センサーを使用して非定常的雑音レベルを追跡することである。音声活動検出は、最近の通信デバイスにおいて、特に携帯電話および無線ハンドセット・デバイスといった低い信号対雑音比の下で動作する最近の移動デバイスで広く使用されている。これらのデバイスの大部分において信号増強および雑音抑制は、他端部における聞き手に雑音の多い信号を送信する前にこの雑音の多い信号に対して実行される。これは所望の音声の了解度を改善するために行われる。信号増強／雑音抑制において音声またはボイス活動検出子(ＶＡＤ)は、雑音で汚染された信号における所望の音声の存在を検出するために使用される。この検出子は、音声の存在または不在の２値的決定を生成でき、あるいはまた音声存在の確率を生成することもできる。

音声の存在を検出する際の１つの課題は、ノイズ「シーリング」および「フロア」としても知られる信号内の背景雑音のレベルの上限および下限を決定することである。これは特に、単一のマイクロホン入力を使用する非定常雑音について真である。更にデバイスの、またはデバイスを使用する人の物理的移動に起因する雑音レベルの急速な変化を追跡することは、なおさら困難である。

ある幾つかの実施形態においてオーディオ信号の現在フレームにおける雑音レベルを推定する方法が開示される。この方法は、複数のオーディオフレームの雑音レベルを決定すること、ならびにこれら複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算することを備える。現在フレームの雑音レベル推定は、平均値から減算される標準偏差の値を使用して計算される。

ある幾つかの実施形態において、雑音決定システムが開示される。このシステムは、複数のオーディオフレームの雑音レベルを決定するように構成された１つのモジュールと、これら複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算するように構成された１つ以上のモジュールと、を備える。このシステムはまた、現在フレームの雑音レベル推定値を上記平均値から減算される標準偏差の値として計算するように構成されたモジュールも含み得る。

ある幾つかの実施形態において、複数の時間・周波数ビン(bin)における信号の雑音レベルを推定する方法であって、１つ以上のコンピュータシステム上で実現され得る方法が開示される。信号の各ビンに関してこの方法は、複数のオーディオフレームの雑音レベルを決定し、時間・周波数ビンにおける雑音レベルを推定し、時間・周波数ビンにおける仮の雑音レベルを決定し、この仮の雑音レベルから時間・周波数ビンにおける２次雑音レベルを決定し、そして限界設定された雑音レベルを時間・周波数ビンにおける２次雑音レベルから決定する。

ある幾つかの実施形態は、オーディオ信号の現在フレームにおける雑音レベルを推定するシステムを開示する。このシステムは、複数のオーディオフレームの雑音レベルを決定する手段と、これら複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算する手段と、現在フレームの雑音レベル推定値を上記平均値から減算される標準偏差の値として計算する手段と、を備え得る。

ある幾つかの実施形態において、ある方法を実行するためにプロセッサ上で実行される命令を備えるコンピュータ可読媒体が開示される。この方法は、複数のオーディオフレームの雑音レベルを決定することと、これら複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算することと、現在フレームの雑音レベル推定値を上記平均値から減算される標準偏差の値として計算することと、を備える。

下記の添付図面において種々の構成が限定としてではなく例として図示される。
本発明の原理によるＶＡＤの単純化されたブロック図である。周波数ドメインＶＡＤのための周波数選択性重み付けベクトルを示すグラフである。ピンク雑音環境下における提案された時間ドメインＶＡＤの性能を示すグラフである。バブル雑音環境下における提案された時間ドメインＶＡＤの性能を示すグラフである。トラヒック雑音環境下における提案された時間ドメインＶＡＤの性能を示すグラフである。パーティ雑音環境下における提案された時間ドメインＶＡＤの性能を示すグラフである。

本実施形態は、信号における雑音レベルを決定し、またある幾つかの事例で、引き続いて音声を検出する方法およびシステムを備える。これらの実施形態は、従来技術に対して多数の重要な進歩を備える。１つの改善点は、従前および現在のオーディオフレームからの背景雑音の平均値に基づいて音声信号における背景雑音の推定を実行することに関する。これは、より前および現在のオーディオフレームからの最小雑音値に基づいて音声のフレームに関する現在の背景雑音レベルを計算した他のシステムとは異なる。伝統的に研究者等は、現在雑音レベルを推定するために前の雑音値の最小値を見てきた。しかしながら一実施形態では、推定された雑音信号レベルが幾つかの過去のフレームから計算され、最小値よりむしろこの集合体(アンサンブル(ensemble))の平均値が計算され、調整された(scaled)標準偏差がこの集合体から減算される。結果として得られた値は好都合にも、典型的に集合体の最小値を使用して与えられるより、現在オーディオフレームの雑音レベルの正確な推定を与える。

更にこの推定された雑音レベルは、雑音のより正確な推定を維持するように着信信号レベルに基づいて動的に限定され得る。この推定された雑音レベルは、不連続性を最小にするために前の値によって更に「平滑化」または「平均化」され得る。推定雑音レベルはそれから、この雑音レベルより高いエネルギーレベルを有するフレーム内の音声を識別するために使用され得る。これは、音声の存在の較正された確率を生成するために非線形シグモイド活性化関数によって使用され得る帰納的(a posteriori)信号対雑音比(ＳＮＲ)を計算することによって決定され得る。

図１を参照すると従来の音声活動検出(ＶＡＤ)システム１００は、背景雑音を有するセグメントと背景雑音および音声の両者を有するセグメントとを備える着信信号１０１を受信する。このＶＡＤシステム１００は、時間信号１０１をフレーム１０３ａ〜１０３ｄに分割する。それからこれらのフレーム１０３ａ〜１０３ｄの各々は、(雑音または音声)に所定のフレームを配置すべきクラスを決定する類別モジュール１０４に渡される。

類別モジュール１０４は、所定の信号のエネルギーを計算して、このエネルギーをノイズフロアの推定値に対応する時間的に変化する閾値と比較する。このノイズフロア推定値は、各着信フレームによって更新され得る。ある幾つかの実施形態ではフレームは、フレーム信号の推定エネルギーレベルがこの特定のフレーム内の測定されたノイズフロアより高い場合に音声活動として類別される。したがってこのモジュールでは雑音スペクトル推定は、音声認識の、そして所望であればこれに続く改善の基本的構成要素である。特に、低ＳＮＲの、および非定常雑音の環境下におけるこのようなシステムのローバスト(堅牢)性は、雑音統計における急速な変化を信頼度高く追跡するための能力によって最大限に影響される。

ＶＡＤに基づく従来の雑音推定方法は、雑音推定値の更新を音声不在の期間に限定する。しかしながらこれらのＶＡＤの信頼度は、弱い音声成分と低入力ＳＮＲとのために大幅に劣化する。パワースペクトル密度ヒストグラムに基づく他の技法は、コンピュータ的に高価であり、高価なメモリ資源を必要とし、低ＳＮＲ条件下でうまく働かず、したがって携帯電話およびブルートゥースヘッドセット・アプリケーションのためには適さない。最小統計は、過去の複数のフレームの最小値を雑音推定値であると見なすことによって動作する雑音スペクトル推定のために使用されるもう１つの方法である。不都合なことにこの方法は、定常雑音に対しては有利に働くが、非定常的環境を取り扱うときには極めて不利になる。

一実施形態は、「パーティ雑音」または「バブル雑音」といった極めて非定常的雑音の環境を含む多種類の望ましくないオーディオ信号を追跡する際に極めて有効である雑音スペクトル推定システムおよび方法を備える。このシステムは、このような推定に助けとならない環境においても正確なノイズフロアを生成する。この推定されたノイズフロアは、音声の存在の確率を決定するためにシグモイド関数「ロジスティック関数」において使用される帰納的(a posteriori)ＳＮＲを計算する際に使用される。ある幾つかの実施形態では、この関数のために音声決定モジュールが使用される。

ｘ[ｎ]およびｄ[ｎ]がそれぞれ所望の音声および無相関の付加的雑音信号を表すとする。観測された信号または汚染された信号ｙ[ｎ]は、単に(数式１)によって与えられるこれらの追加分である：

２つの仮定Ｈ_０[ｎ]およびＨ_１[ｎ]はそれぞれ、ｎ番目の(ｎ^ｔｈ)時間フレームにおける音声の不在および存在を示す。ある幾つかの実施形態では雑音の多い測定の過去のエネルギーレベル値は、音声不在の期間中に再帰的に平均化され得る。これとは対照的に推定値は音声存在の期間中、一定に保持され得る。具体的には、

ここで

は時間フレームｎにおける雑音の多い信号のエネルギーであり、α_ｄは０と１の間の平滑化パラメータを示す。しかしながら音声が存在するときは必ずしも明らかでないので、方法Ｈ_０またはＨ_１の各々を適用するべきときは明らかでない可能性がある。その代わりに時間の経過と共に平滑化係数α_ｓを更新することによって再帰的平均を推定する「条件付き音声存在確率」を使用することができる：

ここで

この仕方で、音声の存在が分からないときに、より正確な推定値が取得され得る。

他には、雑音レベル推定のために前に考えられた最小統計に基づく方法がある。例えば過去の１００フレームに関して推定された雑音の多い信号レベルλ_ｄを見て、アンサンブルの最小値を計算し、これを推定雑音レベルとして宣言することができる。すなわち：

ここでｍｉｎ[ｘ]はベクトルｘのエントリーの最小値を示し、

は時間フレームｎにおける推定雑音レベルである。１００より多い、または少ないフレームに関して演算を実行することができるが、１００はここおよび本明細書全体を通して単なる例示的範囲として提示されている。このアプローチは定常的雑音環境には有効に働くが、非定常的環境ではうまく行かない。

中でもこの問題に取り組むために本実施形態は、システムの全体的検出効率を改善するために以下に説明される技法を使用する。

[平均統計値]
一実施形態では本発明のシステムおよび方法は、ノイズフロアを計算するために最小統計値よりむしろ平均統計値を使用する。具体的に信号エネルギーσ_１ ^２は，過去のフレーム値のスケール(scaled)標準偏差σを平均値λ_dバーから減算することによって計算される。それから現在のエネルギーレベルσ_２ ^２は過去のフレームから前に計算されたすべての信号エネルギーσ_１ ^２の最小値として選択される：

ここでｘバーはベクトルｘのエントリーの平均値である。本実施形態は、過去の１００フレームにわたる推定雑音レベルのスケール(scaled)標準偏差を同数のフレームにわたる推定雑音レベルの平均値から減算することを考えている。

[雑音推定値を使用する音声検出]
いったん雑音推定値σ_１ ^２が計算されると、音声は高いＳＮＲの領域を識別することによって推測され得る。特にロジスティック回帰ベースの類別子に基づいて音声の存在の較正された確率を正確に推定する数学的モデルが開発され得る。ある幾つかの実施形態では特徴要素ベースの類別子が使用され得る。音声の短期間スペクトルは対数(log)分布によってうまくモデル化されるので、特徴要素の集合としてＳＮＲ自身よりむしろ推定された帰納的ＳＮＲの対数を使用できる。すなわち

安定のために上記の量の時間的平滑化をすることもできる。

それから所望の音声検出のために、ロジスティック関数として知られる非線形・メモリなし活性化関数が使用され得る。時間フレームｎにおける音声の存在の確率は下記によって与えられえる。

所望であれば推定確率ｐｒｏｂ[ｎ]はまた、音声におけるサドンバースト(sudden burst)を追跡するために小さな忘却因子(forgetting factor)を使用して時間的平滑化されることも可能である。音声の不在および存在の２値的決定を取得するために推定確率(ｐｒｏｂ∈1[０，１])は、事前選択された閾値と比較され得る。ｐｒｏｂの高い値は音声の存在の、より高い確率を示す。例えばもしｐｒｏｂ[ｎ]＞０．７であれば、時間フレームｎにおける音声の存在が宣言され得る。そうでなければこのフレームは単に非音声活動だけを有すると考えられ得る。提案された実施形態は、より正確な雑音レベル決定の結果として、より正確な音声検出を実現する。

[雑音推定の改善]
平均値および標準偏差の計算は、過去のフレーム推定値を記憶するために十分なメモリを必要とする。この要件は、限定されたメモリを有するある幾つかのアプリケーション／デバイス(ある幾つかの極めて小さな携帯型デバイスといった)に関して禁止的であり得る。このような場合、上記の計算に取って代わるために下記の近似式が使用され得る。平均推定値の近似値は、平滑定数α_Ｍを用いてパワー推定値ｘ(ｎ)を指数関数的に平均化することによって計算され得る。同様に分散推定値の近似値は、ｎがフレームインデックスを表すとして平滑化定数α_Ｖを用いてパワー推定値の平方を指数関数的に平均化することによって計算され得る：

代替として標準偏差推定値の近似値は、分散推定値

の平方根を取ることによって取得され得る。平滑化定数α_Ｍ＆ α_Ｖは、２０〜１００フレームにわたる平均化に対応するように範囲[０．９５，０．９９]内で選択され得る。更に

の近似値は、平均およびスケール(scaled)標準偏差推定値の間の差異を計算することによって取得され得る。いったん平均マイナススケールされた標準偏差推定値(mean-minus-scaled standard deviation)が取得されると、１セットの例えば１００フレームにわたる差異に対する最小統計が実行され得る。

この特徴要素は単に、最小統計値と比較して非定常的雑音のピークの優れた追跡を与える。ある幾つかの実施形態では雑音レベル推定に影響を与える所望の音声ピークを補償するために、雑音レベルの標準偏差が減算される。しかしながら方程式７における過剰な減算は、過小評価雑音レベルという結果をもたらす可能性がある。この問題に取り組むために音声不在時における長期間平均が実行され得る。すなわち：

ここでα_１＝０．９９９９は平滑化係数であり、雑音レベルは下記のように推定される：

(雑音の限界設定)
典型的には着信信号が極めて清浄(高いＳＮＲ)であるとき、雑音レベルは典型的に過小評価される。この問題を解決する１つの方法は、雑音レベルを所望信号レベルσ^２ _{ｄｅｓｉｒｅｄ}未満の例えば少なくとも１８ｄＢになるように低く限界設定することである。低く限界設定することは下記のフロアリング演算を使用して達成され得る：

もし

であって
もしσ^２ _{ｎｏｉｓｅ}[ｎ−１]＞Δ_２であれば
ｆｌｏｏｒ_１[ｎ]＝σ^２ _{ｄｅｓｉｒｅｄ}[ｎ]／Δ_３であり、
もしｆｌｏｏｒ[ｎ−１]＜ｆｌｏｏｒ_１[ｎ]であれば
ｆｌｏｏｒ[n]＝ｆｌｏｏｒ_１[ｎ]であり、
そうでなく、もしＳＮＲｄｉｆｆ[ｎ−１]＞Δ_４であって
もしσ^２ _{ｎｏｉｓｅ}[ｎ−１]＜Δ_５であれば
ｆｌｏｏｒ[ｎ]＝ｆｌｏｏｒ_１[ｎ]である
終了
終了
終了
終了

ここで因数Δ_１〜Δ_５は調整可能であり、ＳＮＲＥｓｔｉｍａｔｅおよびＬｏｎｇｔｅｒｍＡｖｇＳＮＲはそれぞれ雑音推定値σ^２ _{ｎｏｉｓｅ}[ｎ]およびλ_ｄ１[n]を使用して取得される帰納的ＳＮＲ推定値および長期間ＳＮＲ推定値である。この仕方で雑音レベルは必要とされるアクティブな所望信号レベル未満の１２〜２４ｄＢの間に限界設定され得る。

[周波数ベースの雑音推定]
実施形態は更に、他で使用され得る周波数ドメイン・サブバンド・ベースのコンピュータ関連音声検出子を含む。ここで各時間フレームは、時間フレームのフーリエ変換で表される１群の成分周波数に分割される。これらの周波数は、「時間・周波数」ビン内のそれぞれのフレーム関連付けられた状態に留まる。この説明されている実施形態はそれから、各時間・周波数ビン(ｋ，ｎ)における、すなわちｋ番目の周波数ビンおよびｎ番目の時間フレームにおける音声の存在の確率を推定する。ある幾つかのアプリケーションは、音声存在の確率が時間・周波数アトムレベルおよび時間フレームレベルの両者において推定されることを必要とする。

各時間・周波数ビン(bin)における音声検出子の動作は、各周波数ビンにおいて実行されることを除いて上記に説明された時間ドメイン実現形態に類似している。特に各時間・周波数ビン(ｋ，ｎ)における雑音レベルλ_ｄは、平滑化係数α_Ｓを使用して過去のフレームλ_ｄ[ｋ，ｎ−１]における雑音レベルとこの周波数における過去の１００フレームに関する信号エネルギー

との間を補間することによって推定される：

平滑化係数α_Ｓはそれ自身、音声の存在確率と１との間の補間(すなわち音声が存在することがどれほどの頻度で想定され得るか)に依存している可能性がある。

Ｅｒｒｏｒ！Ｏｂｊｅｃｔｓｃａｎｎｏｔｂｅｃｒｅａｔｅｄｆｒｏｍｅｄｉｔｉｎｇｆｉｅｌｄｃｏｄｅｓ．(１９)
(誤り！オブジェクトは編集フィールドコードから作成できない)。

上記の方程式においてＹ(ｋ，ｉ)は、ｋ番目の周波数ビンおよびｉ番目の時間フレームにおける汚染された信号である。各ビンにおける仮の雑音レベルは下記のように推定され得る：

時間ドメインＶＡＤと同様に、音声存在Ｈ_０および不在Ｈ_１の期間中の長期間平均は下記の方程式にしたがって実行され得る：

それから各時間・周波数ビンにおける２次雑音レベルは下記のように推定される：

ある幾つかの高ＳＮＲビンに関する雑音レベルにおける過小評価の問題に取り組むために、下記の限界設定条件および方程式が使用され得る：

もし

であって
もしσ^２ _{ｎｏｉｓｅ}[ｎ−１]＞Δ_２であれば
ｆｌｏｏｒ_１[ｋ，ｎ]＝σ^２ _{ｄｅｓｉｒｅｄ}[ｋ，ｎ]／Δ_３であり、
もしｆｌｏｏｒ[ｋ，ｎ−１]＜ｆｌｏｏｒ_１[ｋ，ｎ]であれば
ｆｌｏｏｒ[ｋ，ｎ]＝ｆｌｏｏｒ_１[ｋ，ｎ]であり、
そうでなく、もしＳＮＲｄｉｆｆ[ｋ，ｎ−１]＞Δ_４であって
もしσ^２ _{ｎｏｉｓｅ}[ｋ，ｎ−１]＜Δ_５であれば
ｆｌｏｏｒ[ｋ，ｎ]＝ｆｌｏｏｒ_１[ｋ，ｎ]である
終了
終了
終了
終了

ここで因数Δ_１〜Δ_５は調整可能であり、ＳＮＲＥｓｔｉｍａｔｅおよびＬｏｎｇｔｅｒｍＡｖｇＳＮＲはそれぞれ雑音推定値σ^２ _{ｎｏｉｓｅ}[ｋ，ｎ]およびλ_ｄ１[ｋ，ｎ]を使用して取得される帰納的ＳＮＲ推定値および長期間ＳＮＲ推定値である。σ^２ _{ｎｏｉｓｅ}(ｋ，ｎ)は各時間・周波数ビンにおける最終的雑音レベルを表す。

次に上記に説明された時間ドメイン数学モデルに基づく方程式(方程式２〜１７)は、各時間・周波数ビンにおける音声の存在の確率を推定するために使用され得る。特に各時間・周波数アトムにおける帰納的ＳＮＲは下記によって与えられる：

安定のために上記の量の時間的平滑化をすることもできる：

そして各時間・周波数アトムにおける音声の存在の確率は

によって与えられる。

ここでｐｒｏｂ[ｋ，ｎ]はｋ番目の周波数ビンとｎ番目の時間フレームとにおける音声の存在の確率を表す。

[２レベル・アーキテクチャ]
上記の数学モデルは、各時間フレームにおける音声存在の確率の改善された推定値を取得するために任意選択的に各時間・周波数ビンにおける出力確率を柔軟に組み合わせることを可能にする。一実施形態は例えば、検出子の第１のレベルが時間・周波数ビンレベルで動作し、出力が第２の時間フレームレベル音声検出子に入力される２レベル・アーキテクチャを考えている。

２レベル・アーキテクチャは、各時間フレームにおける音声の存在の確率のより良好な推定値を取得するために各時間・周波数ビンにおける推定された確率を組み合わせる。このアプローチは、音声がある周波数帯域(６００Ｈｚ〜１５５０Ｈｚ)において支配的であるという事実を利用し得る。図２は、ある幾つかの実施形態で使用された複数の周波数重み付けのプロット２０３を示す。ある幾つかの実施形態ではこれらの重み付けは、下記に示されたようなビンレベルの確率の重み付け平均値を決定するために使用される：

ここで重み付けベクトルＷは、図２に示された値を備える。最後に、各フレームにおける音声の存在または不在の２値的決定は、時間ドメイン・アプローチと同様に、推定された確率を事前選択された閾値と比較することによって行われ得る。

[例]
上記の実施形態の利点を評価するために音声検出は、上記に説明された時間および周波数実施形態ならびに２つの先行するＶＡＤシステムを使用して実行された。種々の雑音環境下におけるこれらの実例の各々に関するＲＯＣカーブは、図３〜６に示されている。上記の実施形態の時間および周波数バージョンの各々は、標準的ＶＡＤよりかなり良好に機能した。これらの例の各々に関して使用された雑音データベースは、勧告された規格ＥＴＳＩＥＧ２０２３９６−１に基づいていた。このデータベースは、音声品質および雑音抑制評価目的のために車両雑音、街路雑音、バブル雑音などの標準的記録を提供する。ＶＡＤ性能を評価するために更なる現実世界の記録も使用された。これらの雑音環境は、定常的雑音および非定常的雑音の両者を含んでおり、テストすべき挑戦的な集大成(コーパス(corpus))を提供している。更に、検出を極めて困難にするために５ｄＢのＳＮＲが選択された(典型的なオフィス雑音はおよそ３０ｄＢであろう)。

[例１]
提案された時間ドメイン音声検出子を評価するために、種々の雑音環境下で５ｄＢのＳＮＲにおける受信機動作特性(ＲＯＣ)がプロットされている。図２に示されているようにＲＯＣカーブは、検出の確率(音声が存在するときに音声の存在を検出する)３０１対誤警報の確率(音声が存在しないときに音声の存在を宣言する)３０２をプロットしている。適切な検出率で極めて低い誤警報を有することが望ましい。所定の誤警報に関するより高い検出確率の値はより良好な性能を示すので、一般により高いカーブはより良好な検出子である。

ＲＯＣは、４つの異なる雑音−ピンク雑音、バブル雑音、トラヒック雑音およびパーティ雑音に関して示されている。ピンク雑音は、周波数に反比例するパワースペクトル密度を有する定常雑音である。これは、一般に自然の物理システムにおいて観測され、しばしばオーディオ信号処理ソリューション(解決策)をテストするために使用される。バブル雑音およびトラヒック雑音は事実上、準定常的であって、一般に移動体通信環境において遭遇する雑音源である。バブル雑音信号およびトラヒック雑音信号は、ＥＴＳＩＥＧ２０２３９６−１規格勧告によって与えられる雑音データベースにおいて利用可能である。パーティ雑音は、高度に非定常的な雑音であって、ＶＡＤの性能を評価するための極端な場合の例として使用される。大抵の単一マイクロホン音声活動検出子は、雑音の高度に非定常的な性質のためにパーティ雑音の存在において高い誤警報を発生させる。しかしながら本発明において提案された方法は、パーティ雑音の場合でも低い誤警報を発生させる。

図３は、第１の標準的ＶＡＤのＲＯＣカーブ３０３ｃと第２の標準的ＶＡＤのＲＯＣカーブ３０３ｂと本時間ベース実施形態のＲＯＣカーブ３０３ａと本周波数ベース実施形態のＲＯＣカーブ３０３ｄとを示しており、これらはピンク雑音環境においてプロットされている。図示のように本実施形態３０３ａ、３０３ｄは、第１のＶＡＤ３０３ｂおよび第２のＶＡＤ３０３ｃの各々より大幅に優れた性能を示しており、誤警報制約３０２が緩和されたという理由から常により高い検出３０１を記録した。

[例２]
図４は、第１の標準的ＶＡＤのＲＯＣカーブ４０３ｃと第２の標準的ＶＡＤのＲＯＣカーブ４０３ｂと本時間ベース実施形態のＲＯＣカーブ４０３ａと本周波数ベース実施形態のＲＯＣカーブ４０３ｄとを示しており、これらはバブル雑音環境においてプロットされている。図示のように本実施形態４０３ａ、４０３ｄは、第１のＶＡＤ４０３ｂおよび第２のＶＡＤ４０３ｃの各々より大幅に優れた性能を示しており、誤警報制約４０２が緩和されたという理由から常により高い検出４０１を記録した。

[例３]
図５は、第１の標準的ＶＡＤのＲＯＣカーブ５０３ｃと第２の標準的ＶＡＤのＲＯＣカーブ５０３ｂと本時間ベース実施形態のＲＯＣカーブ５０３ａと本周波数ベース実施形態のＲＯＣカーブ５０３ｄとを示しており、これらはトラヒック雑音環境においてプロットされている。図示のように本実施形態５０３ａ、５０３ｄは、第１のＶＡＤ５０３ｂおよび第２のＶＡＤ５０３ｃの各々より大幅に優れた性能を示しており、誤警報制約５０２が緩和されたという理由から常により高い検出５０１を記録した。

[例４]
図６は、第１の標準的ＶＡＤのＲＯＣカーブ６０３ｃと第２の標準的ＶＡＤのＲＯＣカーブ６０３ｂと本時間ベース実施形態のＲＯＣカーブ６０３ａと本周波数ベース実施形態のＲＯＣカーブ６０３ｄとを示しており、これらはＲＯＣ−ＩＣＡＳＳＰオーディトリウム(聴衆席)雑音環境においてプロットされている。図示のように本実施形態６０３ａ、６０３ｄは、第１のＶＡＤ６０３ｂおよび第２のＶＡＤ６０３ｃの各々より大幅に優れた性能を示しており、誤警報制約６０２が緩和されたという理由から常により高い検出６０１を記録した。

本開示において説明された技法は、ハードウエア、ソフトウエア、ファームウエア、またはこれらの任意の組合せで実現され得る。ユニットまたはコンポーネントとして説明された如何なる特徴要素も、集積された論理デバイスまたは個別ではあるが相互動作可能な論理デバイスに一緒に実現され得る。ソフトウエアで実現された場合にはこれらの技法は少なくともある程度は、実行されたときに上記の方法の１つ以上を実行する命令を備えたコンピュータ可読媒体によって実現され得る。コンピュータ可読媒体は、パッケージ資料を含み得るコンピュータプログラム製品の一部を形成し得る。コンピュータ可読媒体は、同期ダイナミック・ランダム・アクセス・メモリ(ＳＤＲＡＭ)といったランダムアクセスメモリ(ＲＡＭ)、読み出し専用メモリ(ＲＯＭ)、不揮発性ランダムアクセスメモリ(ＮＶＲＡＭ)、電気的消去可能プログラム可能読み出し専用メモリ(ＥＥＰＲＯＭ)、ＦＬＡＳＨメモリ、磁気または光データ記憶媒体などを備え得る。これらの技法は更に、または代替として少なくともある程度は、命令またはデータ構造体の形をしたコードを搬送または伝達し、コンピュータによってアクセス、読み取り、および／または実行され得るコンピュータ可読通信媒体によって実現され得る。

コードは、１つ以上のディジタル信号プロセッサ(ＤＰＳ)、汎用マイクロプロセッサ、特定用途向け集積回路(ＡＳＩＣ)、フィールドプログラマブル論理アレイ(ＦＰＧＡ)、または他の同等な集積された、または個別の論理回路といった１つ以上のプロセッサによって実行され得る。したがってここで使用される用語「プロセッサ」は、上記の構造体のいずれか、またはここで説明された技法の実現のために適した他の任意の構造体を指す可能性がある。更に、ある幾つかの態様ではここで説明された機能は、符号化および復号するように構成された、または複合符号器・復号器(ＣＯＤＥＣ)に組み込まれた専用のソフトウエアユニットまたはハードウエアユニット内に備えられ得る。ユニットまたはモジュールとしての種々の特徴要素の描写は、説明されたデバイスの種々の機能的態様を強調するように意図されており、このようなユニットが別々のハードウエアまたはソフトウエアコンポーネントによって実現されなければならないことを必ずしも意味しない。むしろ１つ以上のユニットまたはモジュールに関連した機能は、共通の、または別々のハードウエアまたはソフトウエアコンポーネント内に統合され得る。これらの実施形態は、コンピュータプロセッサおよび／または電気回路を使用して実現され得る。

本開示の種々の実施形態が説明されてきた。これらおよび他の実施形態は下記の請求項の範囲内にある。

α _s [k,n] ＝ α _d ＋ (1−α _d )prob[k,n] (１９)

コードは、１つ以上のディジタル信号プロセッサ（ＤＰＳ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＬＡ）、または他の同等な集積された、または個別の論理回路といった１つ以上のプロセッサによって実行され得る。したがってここで使用される用語「プロセッサ」は、上記の構造体のいずれか、またはここで説明された技法の実現のために適した他の任意の構造体を指す可能性がある。更に、ある幾つかの態様ではここで説明された機能は、符号化および復号するように構成された、または複合符号器・復号器（ＣＯＤＥＣ）に組み込まれた専用のソフトウエアユニットまたはハードウエアユニット内に備えられ得る。ユニットまたはモジュールとしての種々の特徴要素の描写は、説明されたデバイスの種々の機能的態様を強調するように意図されており、このようなユニットが別々のハードウエアまたはソフトウエアコンポーネントによって実現されなければならないことを必ずしも意味しない。むしろ１つ以上のユニットまたはモジュールに関連した機能は、共通の、または別々のハードウエアまたはソフトウエアコンポーネント内に統合され得る。これらの実施形態は、コンピュータプロセッサおよび／または電気回路を使用して実現され得る。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[１] オーディオ信号の現在フレームにおける雑音レベルを推定する方法であって、
複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算することと、
前記現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法。
[２] 前記平均値からの減算に先立って前記標準偏差をスケール(scaling)することを更に備える[１]に記載の方法。
[３] 複数の雑音レベル推定値の最小値を決定することによって前記現在雑音レベル推定値を決定することを更に備える[１]に記載の方法。
[４] 前記複数のオーディオフレームは約１００フレームを備える[１]に記載の方法。
[５] 前記雑音レベル推定値を計算することは平滑化係数を使用することを備える[１]に記載の方法。
[６] 前記雑音レベル推定値は音声活動の期間中一定に保持される[５]に記載の方法。
[７] 前記平滑化係数は第２の平滑化係数を使用して前記現在フレームにおける音声の確率と１との間を補間することによって再帰的に平均化される[５]に記載の方法。
[８] 前記雑音レベル推定値は複数の予め決められた雑音レベルの最小値を備える[１]に記載の方法。
[９] 前記雑音レベルの平均値は前記雑音レベルの予め計算された平均値を現在雑音レベルによって補間することによって推定される[１]に記載の方法。
[１０] 前記計算された雑音レベル推定値を所望の信号レベル未満の１２〜２４ｄＢの間に限界設定することを更に備える[１]に記載の方法。
[１１] 前記現在フレームを、非雑音セグメントを有するものとして識別することによって音声活動を検出することを更に備える[１]に記載の方法。
[１２] すべてのτがτ∈[０．２，１)であるとして、音声の確率＞τであるときに音声活動が宣言される[１１]に記載の方法。
[１３] 複数のオーディオフレームの雑音レベルを決定するように構成された第１のモジュールと、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算するように構成された第２のモジュールと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算するように構成された第３のモジュールと、
を備える雑音決定システム。
[１４] 前記第３のモジュールは前記平均値からの減算に先立って前記標準偏差をスケール(scale)するように構成される[１３]に記載の雑音決定システム。
[１５] 前記雑音レベル推定値を計算することは平滑化係数を使用することを備える[１３]に記載の雑音決定システム。
[１６] 前記雑音レベル推定値は音声活動の期間中一定に保持される[１５]に記載の雑音決定システム。
[１７] 前記平滑化係数は第２の平滑化係数を使用して現在フレームにおける音声の確率と１という値との間を補間することによって再帰的に平均化される[１５]に記載の雑音決定システム。
[１８] 信号の複数の時間・周波数ビンにおける前記信号の雑音レベルを推定する方法であって、前記信号の前記ビンの各々に関して、
複数のオーディオフレームの雑音レベルを決定することと、
前記時間・周波数ビンにおける雑音レベルを推定することと、
前記時間・周波数ビンにおける仮の雑音レベルを決定することと、
前記仮の雑音レベルから前記時間・周波数ビンにおける２次雑音レベルを決定することと、
前記時間・周波数ビンにおける２次雑音レベルから限界設定された雑音レベルを決定することと、
を備える方法。
[１９] 前記限界設定された雑音レベルを決定することはアクティブな所望信号レベル未満の１２〜２４ｄＢの間で前記推定雑音レベルを限界設定することを備える[１８]に記載の方法。
[２０] 現在フレームにおける各周波数に関する音声の確率の重み付け合計を取ることによって前記現在フレームにおける音声の確率を計算することを更に備える[１８]に記載の方法。
[２１] ６００Ｈｚ〜１５５０Ｈｚの範囲内の重み付けが少なくとも０．０２という値を与えられる[２０]に記載の方法。
[２２] オーディオ信号の現在フレームにおける雑音レベルを推定するシステムであって、
複数のオーディオフレームの雑音レベルを決定する手段と、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算する手段と、
前記現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算する手段と、
を備えるシステム。
[２３] 前記現在フレームの雑音レベル推定値を計算する前記手段は前記平均値からの減算に先立って前記標準偏差をスケールする[２２]に記載の雑音決定システム。
[２４] 前記雑音レベルを決定する前記手段は信号のエネルギーレベルを決定するように構成されたモジュールを備える[２２]に記載のシステム。
[２５] 前記雑音レベルの平均値と標準偏差とを計算する前記手段は数学的演算を実行するように構成されたモジュールを備える[２２]に記載のシステム。
[２６] 雑音レベル推定値を計算する前記手段は数学的演算を実行するように構成されたモジュールを備える[２２]に記載のシステム。
[２７] プロセッサ上で実行されたときに、
複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる前記雑音レベルの平均値と標準偏差とを計算することと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法を実行する命令を備えるコンピュータ可読媒体。
[２８] 前記平均値からの減算に先立って前記標準偏差をスケールすることを更に備える[２７]に記載の方法。
[２９] 複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる前記雑音レベルの平均値と標準偏差とを計算することと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法を実行するようにプログラムされたプロセッサ。
[３０] 前記平均値からの減算に先立って前記標準偏差をスケールすることを更に備える[２９]に記載の方法。

Claims

オーディオ信号の現在フレームにおける雑音レベルを推定する方法であって、
複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算することと、
前記現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法。
前記平均値からの減算に先立って前記標準偏差をスケール(scaling)することを更に備える請求項１に記載の方法。
複数の雑音レベル推定値の最小値を決定することによって前記現在雑音レベル推定値を決定することを更に備える請求項１に記載の方法。
前記複数のオーディオフレームは約１００フレームを備える請求項１に記載の方法。
前記雑音レベル推定値を計算することは平滑化係数を使用することを備える請求項１に記載の方法。
前記雑音レベル推定値は音声活動の期間中一定に保持される請求項５に記載の方法。
前記平滑化係数は第２の平滑化係数を使用して前記現在フレームにおける音声の確率と１との間を補間することによって再帰的に平均化される請求項５に記載の方法。
前記雑音レベル推定値は複数の予め決められた雑音レベルの最小値を備える請求項１に記載の方法。
前記雑音レベルの平均値は前記雑音レベルの予め計算された平均値を現在雑音レベルによって補間することによって推定される請求項１に記載の方法。
前記計算された雑音レベル推定値を所望の信号レベル未満の１２〜２４ｄＢの間に限界設定することを更に備える請求項１に記載の方法。
前記現在フレームを、非雑音セグメントを有するものとして識別することによって音声活動を検出することを更に備える請求項１に記載の方法。
すべてのτがτ∈[０．２，１]であるとして、音声の確率＞τであるときに音声活動が宣言される請求項１１に記載の方法。
複数のオーディオフレームの雑音レベルを決定するように構成された第１のモジュールと、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算するように構成された第２のモジュールと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算するように構成された第３のモジュールと、
を備える雑音決定システム。
前記第３のモジュールは前記平均値からの減算に先立って前記標準偏差をスケール(scale)するように構成される請求項１３に記載の雑音決定システム。
前記雑音レベル推定値を計算することは平滑化係数を使用することを備える請求項１３に記載の雑音決定システム。
前記雑音レベル推定値は音声活動の期間中一定に保持される請求項１５に記載の雑音決定システム。
前記平滑化係数は第２の平滑化係数を使用して現在フレームにおける音声の確率と１という値との間を補間することによって再帰的に平均化される請求項１５に記載の雑音決定システム。
信号の複数の時間・周波数ビンにおける前記信号の雑音レベルを推定する方法であって、前記信号の前記ビンの各々に関して、
複数のオーディオフレームの雑音レベルを決定することと、
前記時間・周波数ビンにおける雑音レベルを推定することと、
前記時間・周波数ビンにおける仮の雑音レベルを決定することと、
前記仮の雑音レベルから前記時間・周波数ビンにおける２次雑音レベルを決定することと、
前記時間・周波数ビンにおける２次雑音レベルから限界設定された雑音レベルを決定することと、
を備える方法。
前記限界設定された雑音レベルを決定することはアクティブな所望信号レベル未満の１２〜２４ｄＢの間で前記推定雑音レベルを限界設定することを備える請求項１８に記載の方法。
現在フレームにおける各周波数に関する音声の確率の重み付け合計を取ることによって前記現在フレームにおける音声の確率を計算することを更に備える請求項１８に記載の方法。
６００Ｈｚ〜１５５０Ｈｚの範囲内の重み付けが少なくとも０．０２という値を与えられる請求項２０に記載の方法。
オーディオ信号の現在フレームにおける雑音レベルを推定するシステムであって、
複数のオーディオフレームの雑音レベルを決定する手段と、
前記複数のオーディオフレームにわたる雑音レベルの平均値と標準偏差とを計算する手段と、
前記現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算する手段と、
を備えるシステム。
前記現在フレームの雑音レベル推定値を計算する前記手段は前記平均値からの減算に先立って前記標準偏差をスケールする請求項２２に記載の雑音決定システム。
前記雑音レベルを決定する前記手段は信号のエネルギーレベルを決定するように構成されたモジュールを備える請求項２２に記載のシステム。
前記雑音レベルの平均値と標準偏差とを計算する前記手段は数学的演算を実行するように構成されたモジュールを備える請求項２２に記載のシステム。
雑音レベル推定値を計算する前記手段は数学的演算を実行するように構成されたモジュールを備える請求項２２に記載のシステム。
プロセッサ上で実行されたときに、
複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる前記雑音レベルの平均値と標準偏差とを計算することと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法を実行する命令を備えるコンピュータ可読媒体。
前記平均値からの減算に先立って前記標準偏差をスケールすることを更に備える請求項２７に記載の方法。
複数のオーディオフレームの雑音レベルを決定することと、
前記複数のオーディオフレームにわたる前記雑音レベルの平均値と標準偏差とを計算することと、
現在フレームの雑音レベル推定値を前記平均値から減算される標準偏差の値として計算することと、
を備える方法を実行するようにプログラムされたプロセッサ。
前記平均値からの減算に先立って前記標準偏差をスケールすることを更に備える請求項２９に記載の方法。