JP2017538151A

JP2017538151A - 適応チャネル間弁別的リスケーリングフィルタ

Info

Publication number: JP2017538151A
Application number: JP2017525347A
Authority: JP
Inventors: エリクシャーウッド，; カールグルンドストルム，
Original assignee: シラスロジック、インコーポレイテッド
Priority date: 2014-11-12
Filing date: 2015-11-12
Publication date: 2017-12-21
Anticipated expiration: 2035-11-12
Also published as: EP3219028A1; EP3219028A4; KR102532820B1; CN107969164B; CN107969164A; WO2016077557A1; US20160133272A1; JP7179144B2; KR20170082598A; JP2022022393A; JP6769959B2; US10013997B2; JP2020122990A

Abstract

オーディオ信号をフィルタ処理する方法は、一次および基準チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、基準チャネルの雑音の大きさの推定値と一次チャネルの雑音の大きさの推定値との間の弁別的関連性差（ＤＲＤ）を提供するために、ＰＤＦを最大化することとを含む。一次チャネルは、一次チャネルのスペクトルの大きさが基準チャネルのものよりも強いとき、強調され、基準チャネルのスペクトルの大きさが一次チャネルのものよりも強いとき、強調は抑えられる。乗算リスケーリング係数が、音声増強フィルタチェーンの事前段階において算出された利得に適用され、いかなる事前段階も存在しない場合、利得は、直接適用される。

Description

（関連出願の引用）
本願は、米国仮出願第６２／０７８，８４４号（２０１４年１１月１２日出願、名称「ＡｄａｐｔｉｖｅＩｎｔｅｒｃｈａｎｎｅｌＤｉｓｃｒｉｍｉｎａｔｉｖｅＲｅｓｃａｌｉｎｇＦｉｌｔｅｒ」）に対する優先権を主張し、上記出願は、その全体が参照により本明細書に引用される。

（技術分野）
本開示は、概して、音声データを隔離すること、オーディオ信号から雑音を除去すること、または別様にオーディオ信号を出力することに先立ってオーディオ信号を増強することを行うための技法を含むオーディオ信号を処理する技法に関する。オーディオ信号を処理するための装置およびシステムも、開示される。

最新技術のモバイル電話を含む種々のオーディオデバイスは、意図された源からオーディオを受信するように位置付けられ、向けられる一次マイクロホンと、意図された源から背景雑音を受信する一方、オーディオを殆どまたは全く受信しないように位置付けられ、向けられる基準マイクロホンとを含む。多くの使用シナリオでは、基準マイクロホンは、一次マイクロホンによって取得されるオーディオ信号の一次チャネルに存在する可能性が高い雑音の量のインジケータを提供する。特に、一次チャネルと基準チャネルとの間の所与の周波数帯域に対する相対スペクトル電力レベルは、その周波数帯域が一次チャネルにおいて雑音によって支配されているか、または信号によって支配されているかを示し得る。次いで、その周波数帯域における一次チャネルオーディオは、適宜、選択的に抑制または増強され得る。

しかしながら、一次チャネルと基準チャネルとの間の修正されていない相対スペクトル電力レベルの関数と考えられる一次チャネルにおける音声（それぞれ、雑音）支配の確率は、周波数ビンによって変動し得、経時的に固定されていない場合があることが事実である。したがって、チャネル間の比較ベースのフィルタ処理における生の電力比、固定された閾値、および／または固定されたリスケーリング係数の使用は、一次チャネルオーディオにおける望ましくない音声抑制および／または雑音増幅をよくもたらし得る。

故に、入力チャネル間の雑音支配／音声支配電力レベルにおける差異を推定すること、一次入力チャネルにおいて雑音を抑制し、音声存在を増強することにおける改良が、追求される。

本発明の一側面は、いくつかの実施形態では、オーディオ信号を変換する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、複数の周波数ビンに対するオーディオ信号の一次チャネルのスペクトルの大きさを推定することと、複数の周波数ビンに対するオーディオ信号の基準チャネルのスペクトルの大きさを推定することとを含む。方法はさらに、一次分数変換および高次有理関数変換のうちの少なくとも１つを適用することによって、１つ以上の周波数ビンに対するスペクトルの大きさのうちの１つ以上のものを変換することと、１つ以上の周波数ビンに対するスペクトルの大きさのうちの１つ以上のものをさらに変換することとを含む。さらなる変換は、スペクトルの大きさのうちの１つ以上のものを再正規化することと、スペクトルの大きさのうちの１つ以上のものを累乗することと、スペクトルの大きさのうちの１つ以上のものを時間平滑化することと、スペクトルの大きさのうちの１つ以上のものを周波数平滑化することと、スペクトルの大きさのうちの１つ以上のものをＶＡＤベースで平滑化することと、スペクトルの大きさのうちの１つ以上のものを心理音響的に平滑化することと、位相差の推定値を変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることと、ＶＡＤ推定値を変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることとのうちの１つ以上のものを含むことができる。

いくつかの実施形態では、方法は、増加的入力に基づいて、一次分数変換および高次有理関数変換のうちの少なくとも１つをビン毎に更新することを含む。

いくつかの実施形態では、方法は、事前ＳＮＲ推定値および事後ＳＮＲ推定値のうちの少なくとも１つを、変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることを含む。

いくつかの実施形態では、方法は、信号電力レベル差（ＳＰＬＤ）データを、変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることを含む。

いくつかの実施形態では、方法は、雑音の大きさの推定値および雑音電力レベル差（ＮＰＬＤ）に基づいて、基準チャネルの補正されたスペクトルの大きさを計算することを含む。いくつかの実施形態では、方法は、雑音の大きさの推定値およびＮＰＬＤに基づいて、一次チャネルの補正されたスペクトルの大きさを計算することを含む。

いくつかの実施形態では、方法は、スペクトルの大きさのうちの１つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、スペクトルの大きさのうちの１つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも１つを含む。

本発明の別の側面は、いくつかの実施形態では、オーディオ信号に適用されるフィルタ処理の程度を調節する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の一次チャネルのスペクトルの大きさを推定することと、オーディオ信号の基準チャネルのスペクトルの大きさを推定することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、オーディオ信号の基準チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、基準チャネルの雑音の大きさの推定値と一次チャネルの雑音の大きさの推定値との間の弁別的関連性差（ＤＲＤ）を提供するために、単一チャネルＰＤＦおよび結合チャネルＰＤＦのうちの少なくとも１つを最大化することと、所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することとを含む。方法はさらに、一次チャネルのスペクトルの大きさが基準チャネルのスペクトルの大きさよりも強いとき、一次チャネルを強調することと、基準チャネルのスペクトルの大きさが一次チャネルのスペクトルの大きさよりも強いとき、一次チャネルの強調を抑えることとを含み、強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む。

いくつかの実施形態では、乗算リスケーリング係数は、利得として使用される。

いくつかの実施形態では、方法は、一次および基準オーディオチャネルのうちの少なくとも１つの各スペクトルフレームに増加的入力を含めることを含む。

いくつかの実施形態では、増加的入力は、一次チャネルに対するスペクトルフレームの各ビンにおける事前ＳＮＲおよび事後ＳＮＲの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりＮＰＬＤの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりＳＰＬＤの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルと基準チャネルとの間のフレームあたり位相差の推定値を含む。

本発明の別の側面は、いくつかの実施形態では、オーディオ信号を受信し、オーディオ信号の一次チャネルを通信するための一次マイクロホンと、オーディオ信号を一次マイクロホンとは異なる状況で受信し、オーディオ信号の基準チャネルを通信するための基準マイクロホンと、オーディオ信号を処理し、オーディオ信号をフィルタ処理および／または明瞭化するための少なくとも１つの処理要素であって、本明細書に説明される方法のいずれかを行うためのプログラムを実行するように構成される、少なくとも１つの処理要素とを含む、オーディオデバイスを特徴とする。

本発明のより完全な理解が、図と併せて考慮されるとき、発明を実施するための形態を参照することによってもたらされ得る。

図１は、一実施形態による、適応チャネル間弁別的リスケーリングフィルタプロセスを例証する。図２は、一実施形態による、適応チャネル間弁別的リスケーリングフィルタプロセスにおいて使用するための入力変換を例証する。図３は、一実施形態による、雑音および音声電力レベルの比較を例証する。図４は、一実施形態による、雑音および音声電力レベル確率分布関数の推定を例証する。図５は、一実施形態による、雑音および音声電力レベルの比較を例証する。図６は、一実施形態による、雑音および音声電力レベル確率分布関数の推定を例証する。図７は、一実施形態による、雑音および音声電力レベルと弁別的利得関数の推定値との比較を例証する。図８は、デジタルオーディオデータを分析するためのコンピュータアーキテクチャを例証する。

以下の説明は、本発明の例示的実施形態にすぎず、本発明の範囲、可用性、または構成を限定することは意図されない。むしろ、以下の説明は、本発明の種々の実施形態を実装するための便宜な例証を提供することが意図される。明白になるであろうように、種々の変更が、本明細書に記載されるような本発明の範囲から逸脱することなく、これらの実施形態に説明される要素の機能および配列において成され得る。したがって、本明細書における発明を実施するための形態は、限定ではなく、例証のみを目的として提示される。

本明細書における「一実施形態」または「ある実施形態」の言及は、実施形態と関連して説明される特定の特徴、構造、または特性が、本発明の少なくともある実施形態に含まれること示すことが意図される。本明細書の種々の箇所における語句「一実施形態では」または「ある実施形態」の出現は、必ずしも、全てが同一の実施形態を指すわけではない。

本発明は、デジタルデータを分析する方法、システム、およびコンピュータプログラム製品に及ぶ。分析されるデジタルデータは、例えば、デジタルオーディオファイル、デジタルビデオファイル、リアルタイムオーディオストリーム、およびリアルタイムビデオストリーム等の形態であり得る。本発明は、デジタルデータのソースにおけるパターンを識別し、識別されたパターンを使用し、デジタルデータを分析、分類、およびフィルタ処理し、例えば、音声データを隔離または増強する。本発明の特定の実施形態は、デジタルオーディオに関する。任意のオーディオソースからの非破壊オーディオ隔離および分離を実施するための実施形態が、設計される。

適応チャネル間弁別的リスケーリング（ＡＩＤＲ）フィルタの目的は、一次スペクトルＹ_１および基準スペクトルＹ_２の関連性調節相対電力レベルに基づいて、雑音からの電力よりも所望される信号からの電力をより多く含むと推測される一次マイクロホンからの入力のスペクトル表現のフィルタ処理の程度を調節することである。基準マイクロホンからの入力は、所望される信号からよりも交絡雑音からの関連性調節電力をより多く含むと推測される。

二次マイクロホン入力が一次マイクロホン入力よりも多くの音声を含む傾向がある（例えば、ユーザが電話を逆転された向きにおいて保持している）ことが検出される場合、Ｙ_１およびＹ_２の相対的大きさに関する期待値も、逆転されるであろう。次いで、以下の説明では、Ｙ_１およびＹ_２等の役割は、利得修正がＹ_１に適用され続け得ることを除いて、単純に置換される。

ＡＩＤＲフィルタの論理は、大まかに言えば、所与の周波数に対して、基準入力が一次入力よりも強いとき、一次入力における対応するスペクトルの大きさは、信号よりも雑音を表し、抑制されるべきである（または少なくとも強調されない）。基準および一次入力の相対強度が逆転されると、一次入力における対応するスペクトルの大きさは、雑音よりも信号を表し、強調されるべきである（または少なくとも抑制されない）。

しかしながら、雑音抑制／音声増強文脈に関連する様式において、一次入力の所与のスペクトル成分が、実際には基準チャネルにおけるその対応物よりも「強い」かどうかを正確に決定することは、典型的には、一次および基準スペクトル入力の一方または両方が、好適な形態にアルゴリズム的に変換されることを要求する。変換に続いて、フィルタ処理および雑音抑制が、一次入力チャネルのスペクトル成分の弁別的リスケーリングを介して行われる。この抑制／増強は、典型的には、音声増強フィルタチェーンの事前段階において算出された利得に適用されるべき乗算リスケーリング係数を算出することによって達成されるが、リスケーリング係数は、パラメータの適切な選定によって利得自体としても使用され得る。

（１フィルタ入力）
ＡＩＤＲフィルタの多段階推定および弁別プロセスの図式的概観が、図１に提示される。一次および二次（基準）マイクロホンからの時間領域信号ｙ_１、ｙ_２が、ＡＩＤＲフィルタの上流でサンプルの等しい長さのフレームｙ_ｉ（ｓ，ｔ）に処理されていると仮定され、ｉ∈｛１，２｝であり、ｓ＝０，１，・・・は、フレーム内のサンプル指数であり、ｔ＝０，１，・・・は、フレーム指数である。これらのサンプルは、フーリエ変換を介してスペクトル領域にさらに変換されており、したがって、ｙ_ｉ−＞Ｙ_ｉであり、Ｙ_ｉ（ｋ，ｍ）は、ｍ番目のスペクトルフレームのｋ番目の離散周波数成分（「ビン」）を示し、ｋ＝１，２，・・・，Ｋであり、ｍ＝０，１，・・・である。スペクトルフレームあたりの周波数ビンの数Ｋは、典型的には、時間領域におけるサンプリング率に従って決定され、例えば、１６ｋＨｚのサンプリング率に対して５１２ビンであることに留意されたい。Ｙ_１（ｋ，ｍ）およびＹ_２（ｋ，ｍ）は、ＡＩＤＲフィルタに必要な入力であると見なされる。

ＡＩＤＲフィルタが、他の処理構成要素に続く音声増強フィルタチェーンに組み込まれる場合、追加の情報を伝える増加的入力が、各スペクトルフレームに加わり得る。（異なるフィルタ変形において使用される）特定の例示的着目入力は、以下を含む。
１．一次信号に対するスペクトルフレームの各ビンにおける事前ＳＮＲξ（ｋ，ｍ）および事後ＳＮＲη（ｋ，ｍ）の推定値。これらの値は、典型的には、前の統計的フィルタ処理段階、例えば、ＭＭＳＥ、電力レベル差（ＰＬＤ）等によって算出されているであろう。これらは、Ｙ_ｉと同一の長さのベクトル入力である。
２．一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり雑音電力レベル差（ＮＰＬＤ）であるα_ＮＰＬＤ（ｋ，ｍ）の推定値。これらの値は、ＰＬＤフィルタによって算出されているであろう。これらは、Ｙ_ｉと同一の長さのベクトル入力である。
３．一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり音声電力レベル差（ＳＰＬＤ）である、α_ＳＰＬＤ（ｋ，ｍ）の推定値。これらの値は、ＰＬＤフィルタによって算出されるであろう。これらは、Ｙ_ｉと同一の長さのベクトル入力である。
４．前の音声活動検出（ＶＡＤ）段階によって算出される、一次および二次信号における音声存在の確率である、Ｓ_１および／またはＳ_２の推定値。スカラーＳ_ｉ∈［０，１］であると仮定される。
５．好適な事前処理段階、例えば、ＰＨＡＴ（位相変換）、ＧＣＣ−ＰＨＡＴ（位相変換との一般化交差相関）等によって提供されるような、ｍ番目のフレームにおける一次および基準入力のスペクトル間の位相角分離である、Δφ（ｍ）の推定値。

（２段階１ａ：入力変換）
必要な入力Ｙ_ｉは、まもなく説明されるであろうような弁別的リスケーリング（段階２）において使用するための単一ベクトルに組み合わせられる。ＡＩＤＲフィルタの入力変換および組み合わせプロセスの拡大図が、図２に提示される。この組み合わせプロセスは、必ずしも、大きさＹ_ｉ（ｋ，ｍ）に直接作用するわけではなく、むしろ、生の大きさは、最初に、より好適な表現
に変換され得、それは、例えば、時間および周波数間変動を平滑化すること、または周波数依存性様式において大きさを再重みづけ／リスケールすることを行うように作用する。

プロトタイプの変換（「段階１事前処理」）は、以下を含む。
１．大きさの再正規化、例えば、
２．ある電力への大きさの引き上げ、すなわち
である。ｐ_ｉは、負数であり得、必ずしも、整数値ではない場合があり、ｐ_１は、ｐ_２に等しくない場合があることに留意されたい。適切に選定されたｐ_ｉに対して、そのような変換の１つの効果は、所与のフレーム内のスペクトルピークを引き上げ、かつスペクトルトラフを平坦にすることによって、差異を強調することであり得る。
３．フレーム内の近傍の周波数ビンにわたりとられる加重平均による大きさの置き換え。この変換は、周波数における局所平滑化を提供し、すでにＦＦＴの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。例として、大きさＹ（ｋ，ｍ）は、
を介して、その値および隣接する周波数ビンの大きさの値の加重平均に置き換えられ得、式中、ｗ_ｋ＝（１，２，１）は、周波数ビン重みのベクトルである。下付き文字ｋは、局所平均に対する重みベクトルが異なる周波数に対して異なり得る（例えば、低周波数に対してより狭く、高周波数に対してより広い）可能性を表すために、ｗに対して含まれる。重みベクトルは、ｋ番目の（中央の）ビンに対して対称的である必要はない。例えば、それは、中央のビンの（ビン指数および対応する周波数の両方の）上方のビンをより重く重みづけするために非対称にされ得る。これは、有声音声中、基本周波数およびその高調波の近傍のビンに重点を置くために、有用であり得る。

４．前のフレームからの対応するビンにわたりとられる加重平均による大きさの置き換え。この変換は、各周波数ビン内の時間平滑化を提供し、すでにＦＦＴの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。時間平滑化は、種々の方法において実装され得る。例えば、
ａ）単純な加重平均化
ｂ）指数平滑化
である。ここは、β∈［０，１］は、前のフレームに対する現在のフレームからのビンの大きさの相対的重みづけを決定する平滑化パラメータである。
５．ＶＡＤベースの重みづけを用いた指数平滑化。音声情報を含む／含まないそれらの前のフレームのみからのビンの大きさが含まれる時間平滑化を実施することも、有用であり得る。これは、事前信号処理段階によって算出される十分に正確なＶＡＤ情報（増加的入力）を要求する。ＶＡＤ情報は、以下のように指数平滑化に組み込まれ得る。
ａ）
この変形では、ｍ^＊＜ｍは、Ｓ_ｉ（ｍ^＊）が音声存在／不在を示す規定された閾値を上回る（または下回る）ような最も近い前のフレームの指数である。
ｂ）代替として、音声存在の確率は、平滑化率を直接修正するために使用され得る。
この変形では、βは、Ｓ_ｉの関数、例えば、シグモイド関数であり、パラメータは、Ｓ_ｉが所与の閾値を下回って（上回って）移動するにつれて、β（Ｓ_ｉ）が固定値β_ａ（β_ｂ）に接近するように選定される。
６．心理音響的重要性による再重みづけ：メル周波数およびＥＲＢスケール重みづけ。

上記の段階のいずれかおよび／または全ては、組み合わせられ得る、またはいくつかの段階は、省略され得、それらのそれぞれのパラメータは、用途（例えば、モバイル電話ではなく、自動音声認識のために使用されるメルスケール再重みづけ）に従って調節されることに留意されたい。

（３段階１ｂ：適応入力組み合わせ）
フレーム指数ｍに対する入力変換段階の最終出力は、ｕ（ｍ）と指定される。ｕ（ｍ）は、Ｙ_ｉと同一の長さＫを有するベクトルであり、ｕ（ｋ，ｍ）は、ｍ番目のスペクトルフレームのｋ番目の離散周波数成分に関連付けられるｕの成分を示すことに留意されたい。ｕ（ｍ）の算出は、修正された必要な入力
を要求し、一般的形態では、これは、ベクトル値関数
によって遂行される。

その最も単純な実装では、
に対するｆのビンあたり作用は、一次分数変換として表され得る：

一般性を失うことなく、より大きい値のｕ（ｋ，ｍ）が、ｋ番目の周波数ビンにおいて、時間指数ｍにおいて交絡雑音からよりも所望される信号からより多くの電力があることを示すと推測され得る。

より一般的には、ｆ_ｋの分子および分母が、代わりに、
において高次有理式を伴い得る：

さらに、任意の区分的平滑変換が、この一般的表現（チザム近似）を用いて任意の所望される正確度内で表され得る。加えて、変換パラメータ（これらの例におけるＡ_ｋ、Ｂ_ｋ、Ｃ_ｋ、Ｄ_ｋ、またはＡ_ｉ，ｋ、Ｃ_ｊ，ｋ）は、周波数ビンによって変動し得る。例えば、予期される雑音電力特性がより低い周波数とより高い周波数とにおいて異なる場合、より低い周波数とより高い周波数とにおけるビンに対して異なるパラメータを使用することが有用であり得る。

実践では、ｆ_ｋのパラメータは、固定されず、むしろ、増加的入力に基づいてフレーム毎に更新され、例えば、
または、
等である。

生の入力Ｙ_１（ｋ，ｍ），Ｙ_２（ｋ，ｍ）に対する調節は、入力Ｙ_１（ｋ，ｍ）のどの成分が所望される信号に主として関連するかを弁別する目的により関連する量への生のスペクトル電力推定値のビンあたり変換をもたらす。変換は、例えば、一次および／または基準スペクトルにおける相対ピークおよびトラフをリスケーリングすること、スペクトル過渡を平滑化（または鮮鋭化）すること、ならびに／または一次マイクロホンと基準マイクロホンとの間の向きもしくは空間的分離における差異を補正することを行うように作用し得る。そのような要因は経時的に変化し得るので、変換の関連パラメータは、典型的には、ＡＩＤＲフィルタがアクティブである間、フレーム毎に１回更新される。

（４段階２：弁別的リスケーリング）
第２段階の目標は、所望される音声よりも多く雑音を含むと推定されるそれらのＹ_１（ｋ，ｍ）の大きさを低減させることによって、一次信号から雑音成分をフィルタ処理することである。段階１の出力ｕ（ｍ）は、この推定値としての役割を果たす。段階２の出力をＹ_１（ｍ）の各周波数成分に対する乗算利得のベクトルであるとする場合、ｋ番目の利得は、ｕ（ｋ，ｍ）が非常に低いＳＮＲを示すとき、小さく（０に近似する）、ｕ（ｋ，ｍ）が非常に高いＳＮＲを示す場合、大きく（１に近似する、例えば、利得が非構成的であると制限される場合）すべきである。中間的な場合に対して、これらの極の間で漸進遷移であることが望ましい。

一般的に言って、フィルタの第２のステップでは、ベクトルｕは、小さい値ｕ_ｋが小さい値ｗ_ｋにマッピングされ、大きい値ｕ_ｋがより大きい非負値ｗ_ｋにマッピングされるような方式で、ベクトルｗに区分的に平滑に変換される。ここで、ｋは、周波数ビン指数を示す。この変換は、ｇ（ｕ）＝ｗを与えるベクトル値関数
を介して達成される。要素毎のｇは、非負区分的平滑関数
によって説明される。ある有限Ｂｋに対して、０≦ｗ_ｋ≦Ｂ_ｋであれば、ｇは、有界でなくても、非負でなくてもよい。しかしながら、各ｇ_ｋは、妥当な範囲の入力ｕ_ｋにわたって有限かつ非負であるべきである。

ｇのプロトタイプの例は、各座標における単純なシグモイド関数
を特徴とする。

一般化ロジスティック関数は、より柔軟性がある：

パラメータα_ｋは、ｗ_ｋに対する最小値を設定する。これは、典型的には、Ｙ（ｋ，ｍ）の全体的抑制を回避するために、小さい正値、例えば、０．１であるように選定される。

パラメータβ_ｋは、ｗ_ｋに対する最大値の一次決定因子であり、それは、概して、１に設定され、それによって、高ＳＮＲ成分は、フィルタによって修正されない。しかしながら、いくつかの用途に対して、β_ｋは、１よりもわずかに大きくされ得る。ＡＩＤＲが、例えば、より大きいフィルタ処理アルゴリズムにおける後処理構成要素として使用され、事前フィルタ処理段階が一次信号を（全体的に、または特定の周波数帯域において）減衰させる傾向にあるとき、β_ｋ＞１が、前に抑制されたいくつかの音声成分を復元するように作用し得る。

ｕ（ｋ，ｍ）値の過渡的な中間範囲内のｇ_ｋの出力は、最大勾配の程度、横座標、および縦座標を制御する、パラメータδ_ｋ、ν_ｋ、およびμ_ｋによって決定される。

これらのパラメータの初期値は、広い範囲の雑音条件下の種々の話者に対するｕ（ｋ，ｍ）値の分布を調べ、ｕ（ｋ，ｍ）値を雑音および音声の相対電力レベルと比較することによって決定される。これらの分布は、混合ＳＮＲおよび雑音タイプによって実質的に変動し得、すなわち、話者間の変動は、少ない。（心理音響／周波数）帯域間にも明確な差異が存在する。種々の周波数帯域内の雑音対音声電力レベルに対する確率分布の実施例が、図３−６に示される。

そのように取得された経験的曲線は、一般化ロジスティック関数によって良好に合致される。一般化ロジスティック関数は、最良適合を提供するが、単純なシグモイドが、多くの場合、適切である。図７は、経験的確率データに対する基本シグモイド関数および一般化ロジスティック関数適合を示す。単一「最良」パラメータセットが、多くの話者および雑音タイプを集約することによって見出されることができるか、またはパラメータセットが、具体的話者および雑音タイプに適合され得る。

（５補記）
便宜上、
が、段階２の（一般化）ロジスティック関数においてｕ（ｋ，ｍ）に代入され得る。これは、数桁を上回って及び得る値をはるかに小さい間隔に集中させる効果を及ぼす。しかしながら、同一の最終結果が、対数を使用するパラメータ値のリスケーリングおよび代数再結合によって、関数入力の対数をとることに頼らずに達成され得る。

段階２におけるパラメータ値は、固定された制限内で「デシジョンダイレクテッドベース」で調節され得る。

ベクトルｗは、一次入力のスペクトルの大きさに適用されるべき乗算利得のスタンドアロンベクトルとして使用され得るか、または、それは、事前フィルタ処理段階において算出された利得に対するスケーリングおよび／もしくはシフト係数として使用され得る。

スタンドアロンフィルタが使用されるとき、ＡＩＤＲフィルタは、事前ＳＮＲのアドホック推定値としてのスペクトル電力の修正された相対レベルと、利得関数としてのシグモイド関数とを使用して、基本雑音抑制を提供する。

本発明の実施形態はまた、デジタルデータを分析するためのコンピュータプログラム製品にも及び得る。そのようなコンピュータプログラム製品は、デジタルデータを分析する方法を実施するために、コンピュータプロセッサ上でコンピュータ実行可能命令を実行することが意図され得る。そのようなコンピュータプログラム製品は、エンコードされたコンピュータ実行可能命令を有するコンピュータ読み取り可能な媒体を備え得、コンピュータ実行可能命令は、好適なコンピュータ環境内の好適なプロセッサ上で実行されると、本明細書にさらに説明されるようなデジタルデータを分析する方法を実施する。

本発明の実施形態は、以下にさらに詳細に議論されるように、例えば、１つ以上のコンピュータプロセッサおよびデータ記憶装置もしくはシステムメモリ等のコンピュータハードウェアを含む専用または汎用コンピュータを備えているか、または利用し得る。本発明の範囲内の実施形態はまた、コンピュータ実行可能命令および／またはデータ構造を伝搬もしくは記憶するための物理的および他のコンピュータ読み取り可能な媒体を含む。そのようなコンピュータ読み取り可能な媒体は、汎用または専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ読み取り可能な媒体は、コンピュータ記憶媒体である。コンピュータ実行可能命令を伝搬するコンピュータ読み取り可能な媒体は、伝送媒体である。したがって、限定ではなく、例として、本発明の実施形態は、少なくとも２つの明確に異なる種類のコンピュータ読み取り可能な媒体、すなわち、コンピュータ記憶媒体と、伝送媒体とを備えていることができる。

コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体を含む。

「ネットワーク」は、コンピュータシステムおよび／またはモジュールおよび／または他の電子デバイス間の電子データの転送を可能にする、１つ以上のデータリンクとして定義される。情報がネットワークまたは別の通信接続（有線、無線、または有線もしくは無線の組み合わせのいずれか）を経由してコンピュータに伝達もしくは提供されると、コンピュータは、適切に、接続を伝送媒体と見なす。伝送媒体は、汎用または専用コンピュータによって受信もしくはアクセスされ得る、コンピュータ実行可能命令および／もしくはデータ構造の形態の所望されるプログラムコード手段を伝搬もしくは伝送するように使用され得る、ネットワークおよび／もしくはデータリンクを含むことができる。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。

さらに、種々のコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令またはデータ構造の形態のプログラムコード手段は、伝送媒体からコンピュータ記憶媒体に自動的に伝達されることができる（逆もまた同様である）。例えば、ネットワークまたはデータリンクを経由して受信されるコンピュータ実行可能命令もしくはデータ構造は、ネットワークインターフェースモジュール（例えば、「ＮＩＣ」）内のＲＡＭにおいてバッファリングされ、次いで、最終的に、コンピュータシステムＲＡＭおよび／またはコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体に伝達されることができる。したがって、コンピュータ記憶媒体は、また、（または場合によっては主として）伝送媒体を利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。

コンピュータ実行可能命令は、例えば、プロセッサにおいて実行されると、汎用コンピュータ、専用コンピュータ、または専用処理デバイスに、ある機能もしくは機能群を実施させる命令およびデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上で直接実行され得るバイナリ、アセンブリ言語等の中間フォーマット命令、または特定の機械もしくはプロセッサを標的とするコンパイラによるコンパイルを要求し得るさらに高レベルのソースコードであり得る。本主題は、構造的特徴および／または方法論的行為に特有の言語で説明されたが、添付される請求項に定義される主題は、必ずしも、上記に説明される、説明される特徴または行為に限定されないことを理解されたい。むしろ、説明される特徴および行為は、本請求項を実装する例示的形態として開示される。

当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル消費者用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、モバイル電話、ＰＤＡ、ページャ、ルータ、スイッチ等を含む、多くのタイプのコンピュータシステム構成を伴うネットワークコンピューティング環境において実践され得ることを理解するであろう。本発明はまた、ネットワークを通して（有線データリンク、無線データリンク、または有線および無線データリンクの組み合わせのいずれかによって）リンクされる、ローカルおよびリモートコンピュータシステムが両方ともタスクを実施する、分散システム環境において実践され得る。分散システム環境では、プログラムモジュールが、ローカルおよびリモート両方のメモリ記憶デバイスに位置し得る。

図８を参照すると、デジタルオーディオデータを分析するための例示的コンピュータアーキテクチャ６００が、例証される。本明細書ではコンピュータシステム６００とも称されるコンピュータアーキテクチャ６００は、１つ以上のコンピュータプロセッサ６０２と、データ記憶装置とを含む。データ記憶装置は、コンピューティングシステム６００内のメモリ６０４であり得、揮発性または不揮発性メモリであり得る。コンピューティングシステム６００はまた、データまたは他の情報の表示のためのディスプレイ６１２も備え得る。コンピューティングシステム６００はまた、コンピューティングシステム６００が、例えば、ネットワーク（おそらくインターネット６１０等）を経由して他のコンピューティングシステム、デバイス、またはデータソースと通信することを可能にする、通信チャネル６０８も含み得る。コンピューティングシステム６００はまた、デジタルまたはアナログデータのソースがアクセスされることを可能にする、マイクロホン６０６等の入力デバイスも備え得る。そのようなデジタルまたはアナログデータは、例えば、オーディオまたはビデオデータであり得る。デジタルまたはアナログデータは、ライブマイクロホンン等からのリアルタイムストリーミングデータの形態であり得る、またはコンピューティングシステム６００によって直接アクセス可能である、もしくは通信チャネル６０８を通して、もしくはインターネット６１０等のネットワークを介してより遠隔でアクセスされ得る、データ記憶装置６１４からアクセスされる記憶されたデータであり得る。

通信チャネル６０８は、伝送媒体の例である。伝送媒体は、典型的には、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータを搬送波もしくは他の転送機構等の変調データ信号に具現化し、任意の情報送達媒体を含む。限定ではなく、例として、伝送媒体は、有線ネットワークおよび直接有線接続等の無線媒体、ならびに音響、高周波、赤外線、および他の無線媒体等の無線媒体を含む。本明細書で使用されるような用語「コンピュータ読み取り可能な媒体」は、コンピュータ記憶媒体および伝送媒体を両方とも含む。

本発明の範囲内の実施形態はまた、その上に記憶されるコンピュータ実行可能命令またはデータ構造を伝搬もしくは有するためのコンピュータ読み取り可能な媒体を含む。「コンピュータ記憶媒体」と称される、そのような物理的コンピュータ読み取り可能な媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な物理的媒体であり得る。限定ではなく、例として、そのようなコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体等の物理的記憶装置および／またはメモリ媒体を含むことができる。

コンピュータシステムは、例えば、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、無線広域ネットワーク（「ＷＷＡＮ」）、およびさらにはインターネット１１０等のネットワークを経由して互いに接続され得る（またはその一部である）。故に、描写されるコンピュータシステムならびに任意の他の接続されるコンピュータシステムおよびそれらの構成要素はそれぞれ、メッセージ関連データを作成し、ネットワークを経由してメッセージ関連データ（例えば、インターネットプロトコル（「ＩＰ」）データグラムおよびＩＰデータグラムを利用する、伝送制御プロトコル（「ＴＣＰ」）、ハイパーテキスト輸送プロトコル（「ＨＴＴＰ」）、または簡易メール転送プロトコル（「ＳＭＴＰ」）等の他の上位層プロトコル）を交換することができる。

開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。

前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。

最後に、本発明は、種々の例示的実施形態に対して上記に説明されたが、多くの変更、組み合わせ、および修正が、本発明の範囲から逸脱することなく、実施形態に成され得る。例えば、本発明は、音声検出における使用に対して説明されたが、本発明の側面は、他のオーディオ、ビデオ、データ検出スキームに容易に適用され得る。さらに、種々の要素、構成要素、および／またはプロセスが、代替方法において実装され得る。これらの代替は、特定の用途に応じて、または方法もしくはシステムの実装もしくは動作と関連付けられる任意の数の要因を考慮して、好適に選択されることができる。加えて、本明細書に説明される技法は、他のタイプの用途およびシステムと併用するために拡張または修正され得る。これらおよび他の変更または修正は、本発明の範囲内に含まれることが意図される。

Claims

オーディオ信号を変換する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも１つを適用することによって、１つ以上の周波数ビンに対する前記スペクトルの大きさのうちの１つ以上のものを変換することと、
前記スペクトルの大きさのうちの１つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの１つ以上のものを累乗すること、
前記スペクトルの大きさのうちの１つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものをＶＡＤベースで平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせること、および、
ＶＡＤ推定値を前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせること
のうちの１つ以上によって、１つ以上の周波数ビンに対する前記スペクトルの大きさのうちの１つ以上のものを変換することと
を含む、方法。
増加的入力に基づいて、前記一次分数変換および前記高次有理関数変換のうちの少なくとも１つをビン毎に更新することをさらに含む、請求項１に記載の方法。
事前ＳＮＲ推定値および事後ＳＮＲ推定値のうちの少なくとも１つを、前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることをさらに含む、請求項１に記載の方法。
信号電力レベル差（ＳＰＬＤ）データを、前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせることをさらに含む、請求項１に記載の方法。
雑音の大きさの推定値および雑音電力レベル差（ＮＰＬＤ）に基づいて、前記基準チャネルの補正されたスペクトルの大きさを計算することをさらに含む、請求項１に記載の方法。
前記雑音の大きさの推定値および前記ＮＰＬＤに基づいて、前記一次チャネルの補正されたスペクトルの大きさを計算することをさらに含む、請求項５に記載の方法。
前記スペクトルの大きさのうちの１つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、前記スペクトルの大きさのうちの１つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも１つをさらに含む、請求項１に記載の方法。
オーディオ信号に適用されるフィルタ処理の程度を調節する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
単一チャネルＰＤＦおよび結合チャネルＰＤＦのうちの少なくとも１つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差（ＤＲＤ）を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、
方法。
前記乗算リスケーリング係数は、利得として使用される、請求項８に記載の方法。
前記一次および基準オーディオチャネルのうちの少なくとも１つの各スペクトルフレームに増加的入力を含めることをさらに含む、請求項８に記載の方法。
前記増加的入力は、前記一次チャネルに対するスペクトルフレームの各ビンにおける事前ＳＮＲおよび事後ＳＮＲの推定値を含む、請求項１０に記載の方法。
前記増加的入力は、前記一次チャネルおよび前記基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりＮＰＬＤの推定値を含む、請求項１０に記載の方法。
前記増加的入力は、前記一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりＳＰＬＤの推定値を含む、請求項１０に記載の方法。
前記増加的入力は、前記一次チャネルと前記基準チャネルとの間のフレームあたり位相差の推定値を含む、請求項１０に記載の方法。
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および／または明瞭化するために前記オーディオ信号を処理する少なくとも１つの処理要素と
を備え、
前記少なくとも１つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
単一チャネルＰＤＦおよび結合チャネルＰＤＦのうちの少なくとも１つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差（ＤＲＤ）を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、オーディオデバイス。
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および／または明瞭化するために前記オーディオ信号を処理する少なくとも１つの処理要素であって、
前記少なくとも１つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも１つを適用することによって、１つ以上の周波数ビンに対する前記スペクトルの大きさのうちの１つ以上のものを変換することと、
前記スペクトルの大きさのうちの１つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの１つ以上のものを累乗すること、
前記スペクトルの大きさのうちの１つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものをＶＡＤベースで平滑化すること、
前記スペクトルの大きさのうちの１つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせること、および、
ＶＡＤ推定値を前記変換されたスペクトルの大きさのうちの１つ以上のものと組み合わせること
のうちの１つ以上によって、１つ以上の周波数ビンに対する前記スペクトルの大きさのうちの１つ以上のものを変換することと
を含む、オーディオデバイス。