JP6059112B2

JP6059112B2 - 音源分離装置とその方法とプログラム

Info

Publication number: JP6059112B2
Application number: JP2013171079A
Authority: JP
Inventors: 慶介木下; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2013-08-21
Filing date: 2013-08-21
Publication date: 2017-01-11
Anticipated expiration: 2033-08-21
Also published as: JP2015040934A

Description

この発明は、入力信号に複数の目的信号が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。

複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号（以下、目的信号）の性質を抽出することが困難となり、自動音声認識（以下、音声認識）システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫（方法）が必要である。

この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるＴＶ会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。

図７に、例えば非特許文献１に開示されている従来の音源分離装置９００の機能構成を示してその動作を簡単に説明する。音源分離装置９００は、全マイク共通音源存在事後確率推定部９０、フィルタリング部９１、を備える。

全マイク共通音源存在事後確率推定部９０は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率を計算する。フィルタリング部９１は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。

H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011.

しかし、複数のマイクロホンが空間的に大きく分散された形で配置されていると、各マイクロホンで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンで異なる音源存在確率（アクティビティパタン）を仮定することが妥当である。しかし、従来の方法では、マイクロホン別に音源存在確率を計算することができないため、分散マイクロホンアレイ環境において、効率的な音源分離を行うことができない課題があった。

この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる音源分離装置とその方法とプログラムを提供することを目的とする。

この発明の音源分離装置は、マイク別音源存在事後確率推定部と、モデルパラメータ推定部と、出力音推定部と、を具備する。マイク別音源存在事後確率推定部は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定する。モデルパラメータ推定部は、複数チャネルの観測信号と、音源存在事後確率を入力として、観測信号のモデルパラメータを推定する。出力音推定部は、複数チャネルの観測信号と、音源存在事後確率と、モデルパラメータと、を入力として各マイクロホンごとに各音源からの到来信号を推定して出力する。

この発明の音源分離装置によれば、複数のマイクロホンごとに各音源に関して推定した音源存在事後確率を用いて、音源ごとに音源からの到来信号（音源イメージ）を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。評価実験で確認した具体的な効果については後述する。

この発明の音源分離装置１００の機能構成例を示す図。音源分離装置１００の動作フローを示す図。この発明のＥＭアルゴリズムとNewton-Raphson法を用いる音源分離装置１００′の機能構成例を示す図。モデルパラメータ最適化の動作フローを示す図。評価実験に使用した音響環境を示す図。評価実験結果を示す図従来の音声分離装置９００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。

〔観測信号のモデル化〕
複数の点音源（１，２，…Ｎ_ｉ）から発音する音声を、複数のマイクロホン（１，２，…Ｎ_ｍ）のｍ番目のマイクロホンで観測した場合、ｉ番目の音源から到来する信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}は、時間周波数領域において以下のように表される。ｔ（ｔ＝１，…Ｎ_ｔ），ｆ（ｆ＝１，…，Ｎ_ｆ）は、時間と周波数のインデックスである。

ここでＳ_ｔ，ｆ ^（ｉ）とｓ_ｔ，ｆ ^（ｉ）は、それぞれｉ番目の音源からのクリーン音声信号の短時間フーリエ変換領域での信号と対数パワー領域での信号に相当し、それぞれマイク位置非依存のパラメータである。また、Ｈ_ｆ ^{（ｉ，ｍ）}とβ_ｆ ^{（ｉ，ｍ）}は、同様に短時間フーリエ変換領域と対数パワースペクトル領域での伝達関数に相当する。

以降の説明では、変数β_ｆ ^{（ｉ，ｍ）}はマイク位置依存・音源時不変ゲインと称する。ｉ番目の音源から到来する信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を音源イメージと称する。ｅ_ｔ，ｆ ^{（ｉ，ｍ）}はエラー項であり、ｘ_ｔ，ｆ ^{（ｉ，ｍ）}とｌｏｇ｜Ｓ_ｔ，ｆ ^（ｉ）Ｈ_ｆ ^{（ｉ，ｍ）}｜^２の差であり、例えば伝達関数の揺らぎを表す。このエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}は、平均０、分散σ_ｔ，ｆ ^{（ｉ，ｍ）}の白色信号であると仮定する。

以上の定義に従うと、ｉ番目の音源からのクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）とその音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}との関係は、ガウス分布の確率密度関数として次のようにモデル化することができる。

ここで、θ^（ｉ）はモデルパラメータ一式を表す。Ｎは正規分布（Normal distribution）を意味する。

次に、LogMax近似を用いて、複数の点音源が存在する環境におけるｍ番目のマイクロホンで収音した観測信号ｏ_ｔ，ｆ ^（ｍ）をモデル化する。その近似を用いれば、次式に示すように観測信号ｏ_ｔ，ｆ ^（ｍ）は、全点音源の中で最大の音圧を持つ支配的な音源信号の値と同値となる。

このモデル化では支配的ではない音源は、観測信号の対数パワースペクトル以下の値であれば、任意の値を取ることができる。上記したLogMax近似モデルは、次式に示すように確率的に定式化される。

ここで、Ｉ_ｔ，ｆ ^（ｍ）は、ｍ番目のマイクロホンの観測信号の各時間周波数ビンにおける支配的な音源の音源インデックスを表し、δ（・）はディラックのデルタ関数を表す。以降の説明では、変数Ｉ_ｔ，ｆ ^（ｍ）は支配的音源インデックス（ＤＳＩ：Dominant Source Index）と称し、簡単のために添え字は省略する。

式（３）は、ｍ番目のマイクロホンにおける観測信号ｏ_ｔ，ｆ ^（ｍ）が、そのマイクロホンにおける支配的な音源イメージと同値であることを表している。ここで、マイクロホンごとに異なる音声のアクティビティパタン、つまり支配的音源インデックスＤＳＩが割り当てられていることに注意されたい。

上記した確率モデルを用いると観測信号ｏ_ｔ，ｆ ^（ｍ）とＩ（支配的音源インデックスＤＳＩ）の同時確率は次式のように導出される。

なお、θ^（ｉ）は各音源ｉに関するパラメータを表し、θはすべての音源に関するパラメータを表す。すなわち、式（６）は、観測信号ｏ_ｔ，ｆ ^（ｍ）とＩ（支配的音源インデックスＤＳＩ）を含むモデルパラメータθの同時確率である。各音源の音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}と観測信号の確率モデルを、上記したようにモデル化した前提で、以下の実施例を説明する。なお、以降の説明では、上述のLogMax近似モデル（式（４））を、「LogMax観測モデル」あるいは「観測信号の確率モデル」として参照する。

〔この発明の考え〕
この発明の音源分離方法は、上記した音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}に含まれる重要なパラメータに着目することで、複数のマイクロホンごとに異なるアクティビティパタンの推定を可能にする。

この発明の音源分離方法を特徴付ける重要なパラメータは、支配的音源インデックスＤＳＩである。支配的音源インデックスＤＳＩは、各音源の各マイクロホンにおけるアクティビティパタンを示しているので、このパラメータを推定できれば、各マイクロホンごとに異なるアクティビティパタンを推定することが直接的に可能となる。

この支配的音源インデックスＤＳＩに加えて、当該パラメータを暗に支える形となっている時不変のマイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}と、時変のマイク非依存・音源対数パワースペクトルｓ_ｔ，ｆ ^（ｉ）を用いる（式（１）参照）。

これらのパラメータを用いることで、アクティビティパタンが推定できる原理を簡単に説明する。例えば、仮にある音源がｍ番目のマイクロホンに高いＳＮＲで到来すると、ＳＮＲに対応するパラメータであるマイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}は相対的に高い値を取る傾向にあり、その音源はLogMax観測モデルの元で支配的な音源として観測される。

ある時間周波数ビンにおいて支配的な音源として陽に観測された信号は、その音源の対数パワースペクトルを推定することを可能にする。一方で、ある音源がｍ番目のマイクロホンに低いＳＮＲで到来すると、マイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}は相対的に低い値を取る傾向にあり、その音源はLogMax観測モデルの元で非支配的な音源となる。LogMax観測モデルの元では、非支配的な音源のスペクトルは陽には観測されないので、その音源の対数パワースペクトルの推定は行われない。

このようにこの発明では、各音源の対数パワースペクトルの推定を行うのにＳＮＲの高い、一般的には音源に近いマイクロホンの観測信号を主に用いるようになる。その結果、複数のマイクロホンからの情報を効果的に加味しながら、各マイクロホンごとに異なるアクティビティパタンの推定が可能となる。

具体的な実施例では、支配的音源インデックスＤＳＩを潜在変数とした期待値最大化法（ＥＭアルゴリズム）を用いてアクティビティパタンの推定を行う。Ｅステップ（期待値）では、支配的音源インデックスＤＳＩに関する事後確率を更新し、どの音源がどのマイクロホンのどの時間周波数ビンで支配的かという情報を推定する。Ｍステップ（更新）では、その事後確率に基づいて、各音源のマイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}とマイク非依存・音源対数パワースペクトルｓ_ｔ，ｆ ^（ｉ）とエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}を更新する。

図１に、この発明の音源分離装置１００の機能構成例を示す。その動作フローを図２に示す。音源分離装置１００は、マイク別音源存在事後確率推定部１０と、モデルパラメータ推定部２０と、出力音推定部３０と、を具備する。音源分離装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

マイク別音源存在事後確率推定部１０は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号ｏ_ｔ，ｆ ^（ｍ）と、マイクロホンの各々で観測される上記複数の音源ｉの各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンｍごとに各音源ｉに関する音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を推定する（ステップＳ１０）。ここで、観測信号のモデルは、ｍ番目のマイクロホンで観測される信号ｏ_ｔ，ｆ ^{（ｉ，ｍ）}が、複数の音源の各々から到来し当該ｍ番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるように定義されたモデル（LogMax観測モデル、式（４））である。また、到来信号のモデルは、ｍ番目のマイクロホンで観測されるｉ番目の音源の音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}が、ｉ番目の音源のマイク非依存・音源対数パワースペクトルｓ_ｔ，ｆ ^（ｉ）と、ｉ番目の音源からｍ番目のマイクロホンに到来する信号の音圧に対応するマイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}と、ｉ番目の音源からｍ番目のマイクロホンに到来する信号とｍ番目のマイクロホンで観測されるｉ番目の音源からの信号との差に対応するエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}と、により定義した確率モデルである（式（１））。

なお、マイク非依存・音源対数パワースペクトルｓ_ｔ，ｆ ^（ｉ）は、マイクロホンに依存しない音源からのクリーン音声信号と称しても良いものである。また、マイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}は、音源とマイクロホン位置によって変化する値であり、伝達関数と称しても良いものである。なお、＾等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。

モデルパラメータ推定部２０は、複数チャネルの観測信号ｏ_ｔ，ｆ ^（ｍ）と、マイク別音源存在事後確率推定部１０で推定した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を入力として、観測信号のモデルパラメータ＾θ^（ｉ）を推定する（ステップＳ２０）。モデルパラメータ＾θ^（ｉ）は、マイク非依存・音源対数パワースペクトルｓ_ｔ，ｆ ^（ｉ）と、マイク位置依存・音源時不変ゲインβ_ｆ ^{（ｉ，ｍ）}と、エラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}と、である。

出力音推定部３０は、複数チャネルの観測信号ｏ_ｔ，ｆ ^（ｍ）と、マイク別音源存在事後確率推定部１０で推定した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}と、モデルパラメータ推定部２０で推定したモデルパラメータ＾θ^（ｉ）と、を入力として各マイクロホンｍごとに各音源ｉに関する音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}を推定して出力する（ステップＳ３０）。

以上説明したように動作する音源分離装置１００は、複数の各マイクロホンｍにおいて各音源ｉごとに推定した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を用いて、音源ｉごとの音源イメージｘ_ｔ，ｆ ^{（ｉ，ｍ）}を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。以降において、音源分離装置１００の動作を更に詳しく説明する。

音源分離装置１００は、最大事後確率（ＭＡＰ）基準で効果的にモデルパラメータ＾θ^（ｉ）の推定を行う。この実施例では、支配的音源インデックスＤＳＩを潜在変数とみなして、モデルパラメータ＾θ^（ｉ）＝（ｓ_ｔ，ｆ ^（ｉ），β_ｆ ^{（ｉ，ｍ）}，σ_ｔ，ｆ ^{（ｉ，ｍ）}）を推定する。効率的な最大事後確率パラメータ推定を行うために、この実施例ではＥＭアルゴリズムを用い以下の補助関数を繰り返し最大化する。

ここで、θはモデルパラメータの事前推定値、＾θはモデルパラメータの推定値を表す。また、式（７）におけるｐ（ｘ_ｔ，ｆ ^{（ｉ，ｍ）}；θ^（ｉ））は、式（２）で定義されている通り、モデルパラメータの事前推定値θから算出することができる。なお、事前推定値θは予め与えられているものとする。すなわち、上述の補助関数Ｑ（θ｜＾θ）は、観測信号ｏ_ｔ，ｆ ^（ｍ）と支配的音源インデックスＤＳＩを含むモデルパラメータの事前推定値との同時確率ｐ（ｏ_ｔ，ｆ ^（ｍ），Ｉ_ｔ，ｆ ^（ｍ）＝ｉ；θ^（ｉ））に、音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和である。ＥＭアルゴリズムでは、この補助関数の値が大きくなるように、モデルパラメータを更新する。

各マイクロホンｍにおける音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}は次式で表せる。

式（７）は、第二項の複雑性により、解析的に最大化することができない。そこで、この実施例では、Newton-Raphson法を用いて効率的に補助関数を最大化する。

図３に、ＥＭアルゴリズムとNewton-Raphson法を用いる音源分離装置１００′の機能構成例を示す。音源分離装置１００′は、音源分離装置１００の構成に加えて、更に記憶部４０と、反復処理部５０と、を備える。モデルパラメータ推定部２０は、マイク位置依存・音源時不変ゲイン推定手段２０１と、マイク非依存・音源対数パワースペクトル推定手段２０２と、を含む。

パラメータの最適化手順は、マイク別音源存在事後確率推定部１０とモデルパラメータ推定部２０と記憶部４０と反復処理部５０と、で行う。図４に、パラメータの最適化手順の動作フローを示す。

記憶部４０には、モデルパラメータ＾θ^（ｉ）＝（＾ｓ_ｔ，ｆ ^（ｉ），＾β_ｆ ^{（ｉ，ｍ）}，＾σ_ｔ，ｆ ^{（ｉ，ｍ）}）の初期値θと、更新された値とが記憶される。記憶部４０は、更新されたモデルパラメータ＾θ^（ｉ）のみを記憶し、初期値θはその値を必要とする各部に予め定数として持たせるようにしても良い。

マイク別音源存在事後確率推定部１０は、複数のマイクロホンごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と、記憶部４０に記憶されたモデルパラメータ＾θ^（ｉ）＝（＾ｓ_ｔ，ｆ ^（ｉ），＾β_ｆ ^{（ｉ，ｍ）}，＾σ_ｔ，ｆ ^{（ｉ，ｍ）}）とを入力として、各マイクロホンごとに、式（８）により、各音源ｉに関する音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を計算する（ステップＳ１０）。すなわち、マイク別音源存在事後確率推定部１０は、観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）とを観測信号のモデルに当てはめたときの、観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）との同時確率に基づいて、音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を計算する。この処理は、ＥＭアルゴリズムのＥステップに当たる。

マイク位置依存・音源時不変ゲイン推定手段２０１は、複数のマイクロホンごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と、マイク別音源存在事後確率推定部１０で計算した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}と、記憶部４０に記憶されたモデルパラメータ＾θ^（ｉ）のマイク非依存・音源対数パワースペクトル＾ｓ_ｔ，ｆ ^（ｉ）を入力として、次式でマイク位置依存・音源時不変ゲイン＾β_ｆ ^{（ｉ，ｍ）}と分散σ_ｔ，ｆ ^{（ｉ，ｍ）}を計算して、記憶部４０に記憶されている当該パラメータの値を更新する（ステップＳ２０１）。なお、以下の式では、条件ｏ_ｔ，ｆ ^（ｍ）＞（＾ｓ_ｔ，ｆ ^（ｉ）+＾β_ｆ ^{（ｉ，ｍ）}）が満たされる場合は、＾κ_ｔ，ｆ ^{（ｉ、ｍ）}＝＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}とし、満たされない場合は＾κ_ｔ，ｆ ^{（ｉ、ｍ）}＝１とする。

マイク非依存・音源対数パワースペクトル推定手段２０２は、マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と、記憶部４０に記憶されたモデルパラメータ＾θ^（ｉ）と、マイク別音源存在事後確率推定部１０で計算した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を入力として、複数のマイクロホンｍとの間で共通となるｉ番目の音源からのクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）を次式で計算して、記憶部４０に記憶されている当該パラメータの値を更新する（ステップＳ２０２）。ステップＳ２０１とＳ２０２の処理（ステップＳ２０）は、ＥＭアルゴリズムのＭステップに当たる。

また、＾ｓ_ｔ，ｆ ^（ｉ）と＾β_ｆ ^{（ｉ，ｍ）}の更新式は類似していることが分かる。これらの更新式の違いは平均化処理にあり、＾ｓ_ｔ，ｆ ^（ｉ）はマイクロホン番号に関する平均として計算され、一方で＾β_ｆ ^{（ｉ，ｍ）}は、時間インデックスに関する平均として計算される。

なお、式（９）における補助関数は、式（７）で定義される補助関数と式（１２）で計算される値に重みρを乗じたものを加算した値とする。これは、あるマイクロホンにおいて全く支配的にならない音源（LogMax観測モデルの元では陽には全く観測されない音源）があると、マイク位置依存・音源時不変ゲイン＾β_ｆ ^{（ｉ，ｍ）}の最適解は無限小となってしまい推定処理全体が不安定になる。前述のように、マイク非依存・音源対数パワースペクトル＾ｓ_ｔ，ｆ ^（ｉ）に関して以下のような正規化項（事前分布）２０３を定義し、補助関数に重みρで加算すれば、このような問題を回避することができる。

正規化項２０３は、記憶部４０に予め記憶させておいても良いし、図３に示すようにモデルパラメータ推定部２０の内部に定数として持たせるようにしても良い。

以上のように、モデルパラメータ推定部２０では、式（７）の補助関数、つまり、観測信号ｏ_ｔ，ｆ ^（ｍ）と現在のモデルパラメータ推定値θ^（ｉ）を観測モデルに当てはめたときの、観測信号ｏ_ｔ，ｆ ^（ｍ）と支配的音源インデックスＤＳＩを含むモデルパラメータ推定値θ^（ｉ）との同時確率ｐ（ｏ_ｔ，ｆ ^（ｍ），Ｉ_ｔ，ｆ ^（ｍ）＝ｉ；θ^（ｉ））に、音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、モデルパラメータ（マイク位置依存・音源時不変ゲイン＾β_ｆ ^{（ｉ，ｍ）}と分散σ_ｔ，ｆ ^{（ｉ，ｍ）}とマイク非依存・音源対数パワースペクトル＾ｓ_ｔ，ｆ ^（ｉ））を更新する（式（９）〜（１１））。

反復処理部５０は、所定の基準を満たすまでＥステップとＭステップを繰り返す（ステップＳ５１）。所定の基準としては、例えば更新前のモデルパラメータ＾θ及び各音源に関する音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}から計算される式（７）に示したＱ関数（補助関数）の値と、更新後のモデルパラメータ及び各音源に関する音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}から計算されるＱ関数の値との差が所定の閾値未満となった時を、所定の基準を満たしたと判定する方法や、予め定めた繰り返す回数に達した場合に所定の基準を満たしたと判定する方法が考えられる。繰り返し処理を行うことで補助関数を最大化することができる。

所定の基準を満たすと、出力音推定部３０は、複数のマイクロホンごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と、マイク別音源存在事後確率推定部１０で計算した音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}と、記憶部４０に記憶されたモデルパラメータ＾θ^（ｉ）と、を入力として、ｍ番目のマイクロホンにおけるｉ番目の音源イメージ＾ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を計算して出力する。ＥＭアルゴリズムを用いてパラメータ推定を行うと最小二乗誤差推定で音源イメージ＾ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を求めることが可能となる。推定される音源イメージ＾ｘ_ｔ，ｆ ^{（ｉ，ｍ）}は、次式で表される。

〔評価実験〕
この発明の音源分離装置１００の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。

図５に、シミュレーションに用いた音響環境を示す。部屋のサイズは１０ｍ（Ｗ）×５ｍ（Ｄ）×５ｍ（Ｈ）であり、残響時間は１００ｍｓである。この音響環境を鏡像法（参考文献１：J. B. Allen and D. A. Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., vol. 65(4), pp. 943-950, 1979.）を用いてシミュレーションした。

音響環境としては４つの環境を模擬した。第１音響環境と第２音響環境は、３人の話者が半径８０ｃｍの円状に等間隔を開けて座り、同時会話する状況を想定した。第１音響環境は、３つのマイクロホンが半径１０ｃｍの同心円状に配置されている状況とし、第２音響環境は、同じマイクロホンが半径５０ｃｍの同心円状に配置されている状況とした。図３において、第１音響環境と第２音響環境は一方の２人の話者とマイクロホンのグループが存在しない状態である。

第３音響環境と第４音響環境は、３人の話者と２人の話者の２つのグループが同じ部屋で会話している状況を想定した。第３音響環境は、５つのマイクロホンが半径１０ｃｍの同心円状に配置されている状況とし、第４音響環境は、同じマイクロホンが半径５０ｃｍの同心円状に配置されている状況とした。

第１番目と第２番目の音響環境においては３音源の分離を行った。第３番目と第４番目の音響環境においては５音源の分離を行った。この発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源アクティビティパタンを仮定して、ソフトマスクを用いた音源分離を行う非特許文献１に示された方法とした。従来法では、各音源に最も近いマイク観測信号にソフトマスク処理を行い、分離信号を算出した。

この発明の方法では、ＥＭアルゴリズムの初期値として従来方法の処理結果を使用した。式（１２）に示した正規化項の計算にも従来法の処理結果を用いた。正規化項の重みρはρ＝０.００００１とした。

評価指標としてはケプストラム距離を用いた。ケプストラム距離は、比較対象信号と各音源に最も近いマイクロホンにおける各音源イメージの距離とした。評価音声としては、TIMIT（参考文献２：W. Fisher, G.R. Doddington, and K. M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.）から無作為に抽出した音声を用い、各音響環境において計２０個の異なる混合音声を用意し、結果はそれらの平均値として算出した。

図６に、評価実験の結果を示す。横軸は音響環境、縦軸はケプストラム距離（ｄＢ）である。音響環境ごとに観測信号と従来法と本発明のケプストラム距離を示す。ここで、観測信号のケプストラム距離の算出のためには、各話者に最も近いマイクロホンの観測信号を用いており、最近傍マイクロホンを既知とした際のマイクロホン選択処理の結果に相当する。

第１音響環境における結果では、従来法でもケプストラム距離を減らしているが、本発明は更にケプストラム距離を減らすことができている。これは、この発明の方法がケプストラム領域と類似する対数パワースペクトル領域にてパラメータ最適推定を行っているためと考えられる。

第２〜第４音響環境では、従来法による性能改善を確認することができない。従来法はケプストラム距離尺度で性能が劣化しており、過抑圧などにより歪が増大していることが予想される。本発明の方法では、全ての音響環境において、効果的にケプストラム距離を減少させることができた。このように本発明の音源分離装置１００によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。

上記した音声分離装置１００における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

なお、効率的に最大事後確率パラメータ推定を行う目的で、ＥＭアルゴリズムNewton-Raphson法を用いた音源分離装置１００′について説明を行ったが、この発明はこの実施例に限定されない。例えば最大事後確率パラメータ推定を行うのに、ＥＭアルゴリズムを用いる必要はない。全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定部と、
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定部と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定部と、
を具備する音源分離装置。
請求項１に記載した音源分離装置において、
上記観測信号のモデルは、
ｍ番目のマイクロホンで観測される信号ｏ_ｔ，ｆ ^（ｍ）（但し、ｔは時間のインデックス、ｆは周波数のインデックスとする）が、上記複数の音源の各々から到来し当該ｍ番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
ｍ番目のマイクロホンで観測されるｉ番目の音源からの到来信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を、
ｉ番目の音源のクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）と、
ｉ番目の音源からｍ番目のマイクロホンに到来する信号の音圧に対応する伝達関数β_ｆ ^{（ｉ，ｍ）}と、
ｉ番目の音源からｍ番目のマイクロホンに到来する信号とｍ番目のマイクロホンで観測されるｉ番目の音源からの信号との差に対応するエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）と上記伝達関数β_ｆ ^{（ｉ，ｍ）}と上記エラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}とである、
ことを特徴とする音源分離装置。
請求項２に記載した音源分離装置において、
更に、記憶部と反復処理部とを備え、
上記記憶部は上記観測信号のモデルパラメータ＾θ^（ｉ）を記憶するものであり、
上記マイク別音源存在事後確率推定部は、上記マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と上記記憶部に記憶されたモデルパラメータ＾θ^（ｉ）とを入力として、当該マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）とを上記観測信号のモデルに当てはめたときの上記観測信号ｏ_ｔ，ｆ ^（ｍ）と上記観測信号のモデルパラメータ＾θ^（ｉ）との同時確率に基づいて、上記マイクロホンｍと音源ｉごとに音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を推定するものであり、
上記モデルパラメータ推定部は、上記マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と上記記憶部に記憶されたモデルパラメータ＾θ^（ｉ）と上記音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}とを入力として、当該マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）とを上記観測信号のモデルに当てはめたときの上記観測信号ｏ_ｔ，ｆ ^（ｍ）と上記観測信号のモデルパラメータ＾θ^（ｉ）との同時確率の対数に、上記音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β_ｆ ^{（ｉ，ｍ）}とエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}とクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）とを更新するものであり、
上記反復処理部は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定部と上記モデルパラメータ推定部の処理を繰り返すものであり、
上記出力音推定部は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ＾θ^（ｉ）とを入力として上記音源ｉごとの到来信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を計算するもの、
であることを特徴とする音源分離装置。
複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定過程と、
上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定過程と、
上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定過程と、
を備える音源分離方法。
請求項４に記載した音源分離方法において、
上記観測信号のモデルは、
ｍ番目のマイクロホンで観測される信号ｏ_ｔ，ｆ ^（ｍ）（但し、ｔは時間のインデックス、ｆは周波数のインデックスとする）が、上記複数の音源の各々から到来し当該ｍ番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
上記到来信号のモデルは、
ｍ番目のマイクロホンで観測されるｉ番目の音源からの到来信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を、
ｉ番目の音源のクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）と、
ｉ番目の音源からｍ番目のマイクロホンに到来する信号の音圧に対応する伝達関数β_ｆ ^{（ｉ，ｍ）}と、
ｉ番目の音源からｍ番目のマイクロホンに到来する信号とｍ番目のマイクロホンで観測されるｉ番目の音源からの信号との差に対応するエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}と、
により定義した確率モデルであり、
上記モデルパラメータは、上記音源のクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）と上記伝達関数β_ｆ ^{（ｉ，ｍ）}と上記エラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}とである、
ことを特徴とする音源分離方法。
請求項５に記載した音源分離方法において、
更に、反復処理過程を備え、
上記マイク別音源存在事後確率推定過程は、上記マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と記憶部に記憶されたモデルパラメータ＾θ^（ｉ）とを入力として、当該マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）とを上記観測信号のモデルに当てはめたときの上記観測信号ｏ_ｔ，ｆ ^（ｍ）と上記観測信号のモデルパラメータ＾θ^（ｉ）との同時確率に基づいて、上記マイクロホンｍと音源ｉごとに音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}を推定するものであり、
上記モデルパラメータ推定過程は、上記マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）と上記記憶部に記憶されたモデルパラメータ＾θ^（ｉ）と上記音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}とを入力として、当該マイクロホンｍごとの観測信号ｏ_ｔ，ｆ ^（ｍ）とモデルパラメータ＾θ^（ｉ）とを上記観測信号のモデルに当てはめたときの上記観測信号ｏ_ｔ，ｆ ^（ｍ）と上記観測信号のモデルパラメータ＾θ^（ｉ）との同時確率の対数に、上記音源存在事後確率＾Ｍ_ｔ，ｆ ^{（ｉ，ｍ）}に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β_ｆ ^{（ｉ，ｍ）}とエラー項ｅ_ｔ，ｆ ^{（ｉ，ｍ）}の分散σ_ｔ，ｆ ^{（ｉ，ｍ）}とクリーン音声信号ｓ_ｔ，ｆ ^（ｉ）とを更新するものであり、
上記反復処理過程は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定過程と上記モデルパラメータ推定過程の処理を繰り返すものであり、
上記出力音推定過程は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ＾θ^（ｉ）とを入力として上記音源ｉごとの到来信号ｘ_ｔ，ｆ ^{（ｉ，ｍ）}を計算する過程、
であることを特徴とする音源分離方法。
請求項４乃至６の何れかに記載した音源分離方法を、コンピュータで処理するためのプログラム。