JP6059112B2 - 音源分離装置とその方法とプログラム - Google Patents

音源分離装置とその方法とプログラム Download PDF

Info

Publication number
JP6059112B2
JP6059112B2 JP2013171079A JP2013171079A JP6059112B2 JP 6059112 B2 JP6059112 B2 JP 6059112B2 JP 2013171079 A JP2013171079 A JP 2013171079A JP 2013171079 A JP2013171079 A JP 2013171079A JP 6059112 B2 JP6059112 B2 JP 6059112B2
Authority
JP
Japan
Prior art keywords
sound source
signal
microphone
observed
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013171079A
Other languages
English (en)
Other versions
JP2015040934A (ja
Inventor
慶介 木下
慶介 木下
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013171079A priority Critical patent/JP6059112B2/ja
Publication of JP2015040934A publication Critical patent/JP2015040934A/ja
Application granted granted Critical
Publication of JP6059112B2 publication Critical patent/JP6059112B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、入力信号に複数の目的信号が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。
複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号(以下、目的信号)の性質を抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫(方法)が必要である。
この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。
図7に、例えば非特許文献1に開示されている従来の音源分離装置900の機能構成を示してその動作を簡単に説明する。音源分離装置900は、全マイク共通音源存在事後確率推定部90、フィルタリング部91、を備える。
全マイク共通音源存在事後確率推定部90は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率を計算する。フィルタリング部91は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。
H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011.
しかし、複数のマイクロホンが空間的に大きく分散された形で配置されていると、各マイクロホンで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンで異なる音源存在確率(アクティビティパタン)を仮定することが妥当である。しかし、従来の方法では、マイクロホン別に音源存在確率を計算することができないため、分散マイクロホンアレイ環境において、効率的な音源分離を行うことができない課題があった。
この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる音源分離装置とその方法とプログラムを提供することを目的とする。
この発明の音源分離装置は、マイク別音源存在事後確率推定部と、モデルパラメータ推定部と、出力音推定部と、を具備する。マイク別音源存在事後確率推定部は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定する。モデルパラメータ推定部は、複数チャネルの観測信号と、音源存在事後確率を入力として、観測信号のモデルパラメータを推定する。出力音推定部は、複数チャネルの観測信号と、音源存在事後確率と、モデルパラメータと、を入力として各マイクロホンごとに各音源からの到来信号を推定して出力する。
この発明の音源分離装置によれば、複数のマイクロホンごとに各音源に関して推定した音源存在事後確率を用いて、音源ごとに音源からの到来信号(音源イメージ)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。評価実験で確認した具体的な効果については後述する。
この発明の音源分離装置100の機能構成例を示す図。 音源分離装置100の動作フローを示す図。 この発明のEMアルゴリズムとNewton-Raphson法を用いる音源分離装置100′の機能構成例を示す図。 モデルパラメータ最適化の動作フローを示す図。 評価実験に使用した音響環境を示す図。 評価実験結果を示す図 従来の音声分離装置900の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。
〔観測信号のモデル化〕
複数の点音源(1,2,…N)から発音する音声を、複数のマイクロホン(1,2,…N)のm番目のマイクロホンで観測した場合、i番目の音源から到来する信号xt,f (i,m)は、時間周波数領域において以下のように表される。t(t=1,…N),f(f=1,…,N)は、時間と周波数のインデックスである。
Figure 0006059112
ここでSt,f (i)とst,f (i)は、それぞれi番目の音源からのクリーン音声信号の短時間フーリエ変換領域での信号と対数パワー領域での信号に相当し、それぞれマイク位置非依存のパラメータである。また、H (i,m)とβ (i,m)は、同様に短時間フーリエ変換領域と対数パワースペクトル領域での伝達関数に相当する。
以降の説明では、変数β (i,m)はマイク位置依存・音源時不変ゲインと称する。i番目の音源から到来する信号xt,f (i,m)を音源イメージと称する。et,f (i,m)はエラー項であり、xt,f (i,m)とlog|St,f (i) (i,m)の差であり、例えば伝達関数の揺らぎを表す。このエラー項et,f (i,m)は、平均0、分散σt,f (i,m)の白色信号であると仮定する。
以上の定義に従うと、i番目の音源からのクリーン音声信号st,f (i)とその音源イメージxt,f (i,m)との関係は、ガウス分布の確率密度関数として次のようにモデル化することができる。
Figure 0006059112
ここで、θ(i)はモデルパラメータ一式を表す。Nは正規分布(Normal distribution)を意味する。
次に、LogMax近似を用いて、複数の点音源が存在する環境におけるm番目のマイクロホンで収音した観測信号ot,f (m)をモデル化する。その近似を用いれば、次式に示すように観測信号ot,f (m)は、全点音源の中で最大の音圧を持つ支配的な音源信号の値と同値となる。
Figure 0006059112
このモデル化では支配的ではない音源は、観測信号の対数パワースペクトル以下の値であれば、任意の値を取ることができる。上記したLogMax近似モデルは、次式に示すように確率的に定式化される。
Figure 0006059112
ここで、It,f (m)は、m番目のマイクロホンの観測信号の各時間周波数ビンにおける支配的な音源の音源インデックスを表し、δ(・)はディラックのデルタ関数を表す。以降の説明では、変数It,f (m)は支配的音源インデックス(DSI:Dominant Source Index)と称し、簡単のために添え字は省略する。
式(3)は、m番目のマイクロホンにおける観測信号ot,f (m)が、そのマイクロホンにおける支配的な音源イメージと同値であることを表している。ここで、マイクロホンごとに異なる音声のアクティビティパタン、つまり支配的音源インデックスDSIが割り当てられていることに注意されたい。
上記した確率モデルを用いると観測信号ot,f (m)とI(支配的音源インデックスDSI)の同時確率は次式のように導出される。
Figure 0006059112
なお、θ(i)は各音源iに関するパラメータを表し、θはすべての音源に関するパラメータを表す。すなわち、式(6)は、観測信号ot,f (m)とI(支配的音源インデックスDSI)を含むモデルパラメータθの同時確率である。各音源の音源イメージxt,f (i,m)と観測信号の確率モデルを、上記したようにモデル化した前提で、以下の実施例を説明する。なお、以降の説明では、上述のLogMax近似モデル(式(4))を、「LogMax観測モデル」あるいは「観測信号の確率モデル」として参照する。
〔この発明の考え〕
この発明の音源分離方法は、上記した音源イメージxt,f (i,m)に含まれる重要なパラメータに着目することで、複数のマイクロホンごとに異なるアクティビティパタンの推定を可能にする。
この発明の音源分離方法を特徴付ける重要なパラメータは、支配的音源インデックスDSIである。支配的音源インデックスDSIは、各音源の各マイクロホンにおけるアクティビティパタンを示しているので、このパラメータを推定できれば、各マイクロホンごとに異なるアクティビティパタンを推定することが直接的に可能となる。
この支配的音源インデックスDSIに加えて、当該パラメータを暗に支える形となっている時不変のマイク位置依存・音源時不変ゲインβ (i,m)と、時変のマイク非依存・音源対数パワースペクトルst,f (i)を用いる(式(1)参照)。
これらのパラメータを用いることで、アクティビティパタンが推定できる原理を簡単に説明する。例えば、仮にある音源がm番目のマイクロホンに高いSNRで到来すると、SNRに対応するパラメータであるマイク位置依存・音源時不変ゲインβ (i,m)は相対的に高い値を取る傾向にあり、その音源はLogMax観測モデルの元で支配的な音源として観測される。
ある時間周波数ビンにおいて支配的な音源として陽に観測された信号は、その音源の対数パワースペクトルを推定することを可能にする。一方で、ある音源がm番目のマイクロホンに低いSNRで到来すると、マイク位置依存・音源時不変ゲインβ (i,m)は相対的に低い値を取る傾向にあり、その音源はLogMax観測モデルの元で非支配的な音源となる。LogMax観測モデルの元では、非支配的な音源のスペクトルは陽には観測されないので、その音源の対数パワースペクトルの推定は行われない。
このようにこの発明では、各音源の対数パワースペクトルの推定を行うのにSNRの高い、一般的には音源に近いマイクロホンの観測信号を主に用いるようになる。その結果、複数のマイクロホンからの情報を効果的に加味しながら、各マイクロホンごとに異なるアクティビティパタンの推定が可能となる。
具体的な実施例では、支配的音源インデックスDSIを潜在変数とした期待値最大化法(EMアルゴリズム)を用いてアクティビティパタンの推定を行う。Eステップ(期待値)では、支配的音源インデックスDSIに関する事後確率を更新し、どの音源がどのマイクロホンのどの時間周波数ビンで支配的かという情報を推定する。Mステップ(更新)では、その事後確率に基づいて、各音源のマイク位置依存・音源時不変ゲインβ (i,m)とマイク非依存・音源対数パワースペクトルst,f (i)とエラー項et,f (i,m)の分散σt,f (i,m)を更新する。
図1に、この発明の音源分離装置100の機能構成例を示す。その動作フローを図2に示す。音源分離装置100は、マイク別音源存在事後確率推定部10と、モデルパラメータ推定部20と、出力音推定部30と、を具備する。音源分離装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
マイク別音源存在事後確率推定部10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号ot,f (m)と、マイクロホンの各々で観測される上記複数の音源iの各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンmごとに各音源iに関する音源存在事後確率^Mt,f (i,m)を推定する(ステップS10)。ここで、観測信号のモデルは、m番目のマイクロホンで観測される信号ot,f (i,m)が、複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるように定義されたモデル(LogMax観測モデル、式(4))である。また、到来信号のモデルは、m番目のマイクロホンで観測されるi番目の音源の音源イメージxt,f (i,m)が、i番目の音源のマイク非依存・音源対数パワースペクトルst,f (i)と、i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応するマイク位置依存・音源時不変ゲインβ (i,m)と、i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、により定義した確率モデルである(式(1))。
なお、マイク非依存・音源対数パワースペクトルst,f (i)は、マイクロホンに依存しない音源からのクリーン音声信号と称しても良いものである。また、マイク位置依存・音源時不変ゲインβ (i,m)は、音源とマイクロホン位置によって変化する値であり、伝達関数と称しても良いものである。なお、^等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。
モデルパラメータ推定部20は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)を入力として、観測信号のモデルパラメータ^θ(i)を推定する(ステップS20)。モデルパラメータ^θ(i)は、マイク非依存・音源対数パワースペクトルst,f (i)と、マイク位置依存・音源時不変ゲインβ (i,m)と、エラー項et,f (i,m)の分散σt,f (i,m)と、である。
出力音推定部30は、複数チャネルの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で推定した音源存在事後確率^Mt,f (i,m)と、モデルパラメータ推定部20で推定したモデルパラメータ^θ(i)と、を入力として各マイクロホンmごとに各音源iに関する音源イメージxt,f (i,m)を推定して出力する(ステップS30)。
以上説明したように動作する音源分離装置100は、複数の各マイクロホンmにおいて各音源iごとに推定した音源存在事後確率^Mt,f (i,m)を用いて、音源iごとの音源イメージxt,f (i,m)を推定するので分散マイクロホンアレイ環境においても効率的に音源分離を行うことができる。以降において、音源分離装置100の動作を更に詳しく説明する。
音源分離装置100は、最大事後確率(MAP)基準で効果的にモデルパラメータ^θ(i)の推定を行う。この実施例では、支配的音源インデックスDSIを潜在変数とみなして、モデルパラメータ^θ(i)=(st,f (i),β (i,m),σt,f (i,m))を推定する。効率的な最大事後確率パラメータ推定を行うために、この実施例ではEMアルゴリズムを用い以下の補助関数を繰り返し最大化する。
Figure 0006059112
ここで、θはモデルパラメータの事前推定値、^θはモデルパラメータの推定値を表す。また、式(7)におけるp(xt,f (i,m);θ(i))は、式(2)で定義されている通り、モデルパラメータの事前推定値θから算出することができる。なお、事前推定値θは予め与えられているものとする。すなわち、上述の補助関数Q(θ|^θ)は、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータの事前推定値との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和である。EMアルゴリズムでは、この補助関数の値が大きくなるように、モデルパラメータを更新する。
各マイクロホンmにおける音源存在事後確率^Mt,f (i,m)は次式で表せる。
Figure 0006059112
式(7)は、第二項の複雑性により、解析的に最大化することができない。そこで、この実施例では、Newton-Raphson法を用いて効率的に補助関数を最大化する。
図3に、EMアルゴリズムとNewton-Raphson法を用いる音源分離装置100′の機能構成例を示す。音源分離装置100′は、音源分離装置100の構成に加えて、更に記憶部40と、反復処理部50と、を備える。モデルパラメータ推定部20は、マイク位置依存・音源時不変ゲイン推定手段201と、マイク非依存・音源対数パワースペクトル推定手段202と、を含む。
パラメータの最適化手順は、マイク別音源存在事後確率推定部10とモデルパラメータ推定部20と記憶部40と反復処理部50と、で行う。図4に、パラメータの最適化手順の動作フローを示す。
記憶部40には、モデルパラメータ^θ(i)=(^st,f (i),^β (i,m),^σt,f (i,m))の初期値θと、更新された値とが記憶される。記憶部40は、更新されたモデルパラメータ^θ(i)のみを記憶し、初期値θはその値を必要とする各部に予め定数として持たせるようにしても良い。
マイク別音源存在事後確率推定部10は、複数のマイクロホンごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)=(^st,f (i),^β (i,m),^σt,f (i,m))とを入力として、各マイクロホンごとに、式(8)により、各音源iに関する音源存在事後確率^Mt,f (i,m)を計算する(ステップS10)。すなわち、マイク別音源存在事後確率推定部10は、観測信号ot,f (m)とモデルパラメータ^θ(i)とを観測信号のモデルに当てはめたときの、観測信号ot,f (m)とモデルパラメータ^θ(i)との同時確率に基づいて、音源存在事後確率^Mt,f (i,m)を計算する。この処理は、EMアルゴリズムのEステップに当たる。
マイク位置依存・音源時不変ゲイン推定手段201は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)のマイク非依存・音源対数パワースペクトル^st,f (i)を入力として、次式でマイク位置依存・音源時不変ゲイン^β (i,m)と分散σt,f (i,m)を計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS201)。なお、以下の式では、条件ot,f (m)>(^st,f (i)+^β (i,m))が満たされる場合は、^κt,f (i、m)=^Mt,f (i,m)とし、満たされない場合は^κt,f (i、m)=1とする。
Figure 0006059112
マイク非依存・音源対数パワースペクトル推定手段202は、マイクロホンmごとの観測信号ot,f (m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)を入力として、複数のマイクロホンmとの間で共通となるi番目の音源からのクリーン音声信号st,f (i)を次式で計算して、記憶部40に記憶されている当該パラメータの値を更新する(ステップS202)。ステップS201とS202の処理(ステップS20)は、EMアルゴリズムのMステップに当たる。
Figure 0006059112
また、^st,f (i)と^β (i,m)の更新式は類似していることが分かる。これらの更新式の違いは平均化処理にあり、^st,f (i)はマイクロホン番号に関する平均として計算され、一方で^β (i,m)は、時間インデックスに関する平均として計算される。
なお、式(9)における補助関数は、式(7)で定義される補助関数と式(12)で計算される値に重みρを乗じたものを加算した値とする。これは、あるマイクロホンにおいて全く支配的にならない音源(LogMax観測モデルの元では陽には全く観測されない音源)があると、マイク位置依存・音源時不変ゲイン^β (i,m)の最適解は無限小となってしまい推定処理全体が不安定になる。前述のように、マイク非依存・音源対数パワースペクトル^st,f (i)に関して以下のような正規化項(事前分布)203を定義し、補助関数に重みρで加算すれば、このような問題を回避することができる。
Figure 0006059112
正規化項203は、記憶部40に予め記憶させておいても良いし、図3に示すようにモデルパラメータ推定部20の内部に定数として持たせるようにしても良い。
以上のように、モデルパラメータ推定部20では、式(7)の補助関数、つまり、観測信号ot,f (m)と現在のモデルパラメータ推定値θ(i)を観測モデルに当てはめたときの、観測信号ot,f (m)と支配的音源インデックスDSIを含むモデルパラメータ推定値θ(i)との同時確率p(ot,f (m),It,f (m)=i;θ(i))に、音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、モデルパラメータ(マイク位置依存・音源時不変ゲイン^β (i,m)と分散σt,f (i,m)とマイク非依存・音源対数パワースペクトル^st,f (i))を更新する(式(9)〜(11))。
反復処理部50は、所定の基準を満たすまでEステップとMステップを繰り返す(ステップS51)。所定の基準としては、例えば更新前のモデルパラメータ^θ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算される式(7)に示したQ関数(補助関数)の値と、更新後のモデルパラメータ及び各音源に関する音源存在事後確率^Mt,f (i,m)から計算されるQ関数の値との差が所定の閾値未満となった時を、所定の基準を満たしたと判定する方法や、予め定めた繰り返す回数に達した場合に所定の基準を満たしたと判定する方法が考えられる。繰り返し処理を行うことで補助関数を最大化することができる。
所定の基準を満たすと、出力音推定部30は、複数のマイクロホンごとの観測信号ot,f (m)と、マイク別音源存在事後確率推定部10で計算した音源存在事後確率^Mt,f (i,m)と、記憶部40に記憶されたモデルパラメータ^θ(i)と、を入力として、m番目のマイクロホンにおけるi番目の音源イメージ^xt,f (i,m)を計算して出力する。EMアルゴリズムを用いてパラメータ推定を行うと最小二乗誤差推定で音源イメージ^xt,f (i,m)を求めることが可能となる。推定される音源イメージ^xt,f (i,m)は、次式で表される。
Figure 0006059112
〔評価実験〕
この発明の音源分離装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
図5に、シミュレーションに用いた音響環境を示す。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は100msである。この音響環境を鏡像法(参考文献1:J. B. Allen and D. A. Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., vol. 65(4), pp. 943-950, 1979.)を用いてシミュレーションした。
音響環境としては4つの環境を模擬した。第1音響環境と第2音響環境は、3人の話者が半径80cmの円状に等間隔を開けて座り、同時会話する状況を想定した。第1音響環境は、3つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第2音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。図3において、第1音響環境と第2音響環境は一方の2人の話者とマイクロホンのグループが存在しない状態である。
第3音響環境と第4音響環境は、3人の話者と2人の話者の2つのグループが同じ部屋で会話している状況を想定した。第3音響環境は、5つのマイクロホンが半径10cmの同心円状に配置されている状況とし、第4音響環境は、同じマイクロホンが半径50cmの同心円状に配置されている状況とした。
第1番目と第2番目の音響環境においては3音源の分離を行った。第3番目と第4番目の音響環境においては5音源の分離を行った。この発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源アクティビティパタンを仮定して、ソフトマスクを用いた音源分離を行う非特許文献1に示された方法とした。従来法では、各音源に最も近いマイク観測信号にソフトマスク処理を行い、分離信号を算出した。
この発明の方法では、EMアルゴリズムの初期値として従来方法の処理結果を使用した。式(12)に示した正規化項の計算にも従来法の処理結果を用いた。正規化項の重みρはρ=0.00001とした。
評価指標としてはケプストラム距離を用いた。ケプストラム距離は、比較対象信号と各音源に最も近いマイクロホンにおける各音源イメージの距離とした。評価音声としては、TIMIT(参考文献2:W. Fisher, G.R. Doddington, and K. M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。
図6に、評価実験の結果を示す。横軸は音響環境、縦軸はケプストラム距離(dB)である。音響環境ごとに観測信号と従来法と本発明のケプストラム距離を示す。ここで、観測信号のケプストラム距離の算出のためには、各話者に最も近いマイクロホンの観測信号を用いており、最近傍マイクロホンを既知とした際のマイクロホン選択処理の結果に相当する。
第1音響環境における結果では、従来法でもケプストラム距離を減らしているが、本発明は更にケプストラム距離を減らすことができている。これは、この発明の方法がケプストラム領域と類似する対数パワースペクトル領域にてパラメータ最適推定を行っているためと考えられる。
第2〜第4音響環境では、従来法による性能改善を確認することができない。従来法はケプストラム距離尺度で性能が劣化しており、過抑圧などにより歪が増大していることが予想される。本発明の方法では、全ての音響環境において、効果的にケプストラム距離を減少させることができた。このように本発明の音源分離装置100によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。
上記した音声分離装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
なお、効率的に最大事後確率パラメータ推定を行う目的で、EMアルゴリズムNewton-Raphson法を用いた音源分離装置100′について説明を行ったが、この発明はこの実施例に限定されない。例えば最大事後確率パラメータ推定を行うのに、EMアルゴリズムを用いる必要はない。全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定部と、
    上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定部と、
    上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定部と、
    を具備する音源分離装置。
  2. 請求項1に記載した音源分離装置において、
    上記観測信号のモデルは、
    m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
    上記到来信号のモデルは、
    m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
    i番目の音源のクリーン音声信号st,f (i)と、
    i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数β (i,m)と、
    i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
    により定義した確率モデルであり、
    上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数β (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
    ことを特徴とする音源分離装置。
  3. 請求項2に記載した音源分離装置において、
    更に、記憶部と反復処理部とを備え、
    上記記憶部は上記観測信号のモデルパラメータ^θ(i)を記憶するものであり、
    上記マイク別音源存在事後確率推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
    上記モデルパラメータ推定部は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
    上記反復処理部は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定部と上記モデルパラメータ推定部の処理を繰り返すものであり、
    上記出力音推定部は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算するもの、
    であることを特徴とする音源分離装置。
  4. 複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号と、上記複数のマイクロホンの各々で観測される上記複数の音源の各々からの信号の音圧が異なると仮定した観測信号のモデルを用いて、各マイクロホンごとに各音源に関する音源存在事後確率を推定するマイク別音源存在事後確率推定過程と、
    上記複数チャネルの観測信号と、上記音源存在事後確率を入力として、観測信号のモデルパラメータを推定するモデルパラメータ推定過程と、
    上記複数チャネルの観測信号と、上記音源存在事後確率と、上記モデルパラメータと、を入力として上記各マイクロホンごとに上記各音源からの到来信号を推定して出力する出力音推定過程と、
    を備える音源分離方法。
  5. 請求項4に記載した音源分離方法において、
    上記観測信号のモデルは、
    m番目のマイクロホンで観測される信号ot,f (m)(但し、tは時間のインデックス、fは周波数のインデックスとする)が、上記複数の音源の各々から到来し当該m番目のマイクロホンで観測される到来信号のうち、最大の音圧を持つ到来信号と同値となるよう定義されたモデルであり、
    上記到来信号のモデルは、
    m番目のマイクロホンで観測されるi番目の音源からの到来信号xt,f (i,m)を、
    i番目の音源のクリーン音声信号st,f (i)と、
    i番目の音源からm番目のマイクロホンに到来する信号の音圧に対応する伝達関数β (i,m)と、
    i番目の音源からm番目のマイクロホンに到来する信号とm番目のマイクロホンで観測されるi番目の音源からの信号との差に対応するエラー項et,f (i,m)と、
    により定義した確率モデルであり、
    上記モデルパラメータは、上記音源のクリーン音声信号st,f (i)と上記伝達関数β (i,m)と上記エラー項et,f (i,m)の分散σt,f (i,m)とである、
    ことを特徴とする音源分離方法。
  6. 請求項5に記載した音源分離方法において、
    更に、反復処理過程を備え、
    上記マイク別音源存在事後確率推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と記憶部に記憶されたモデルパラメータ^θ(i)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率に基づいて、上記マイクロホンmと音源iごとに音源存在事後確率^Mt,f (i,m)を推定するものであり、
    上記モデルパラメータ推定過程は、上記マイクロホンmごとの観測信号ot,f (m)と上記記憶部に記憶されたモデルパラメータ^θ(i)と上記音源存在事後確率^Mt,f (i,m)とを入力として、当該マイクロホンmごとの観測信号ot,f (m)とモデルパラメータ^θ(i)とを上記観測信号のモデルに当てはめたときの上記観測信号ot,f (m)と上記観測信号のモデルパラメータ^θ(i)との同時確率の対数に、上記音源存在事後確率^Mt,f (i,m)に対応する重みを乗じた値を、全ての観測信号について足し合わせた重み付き和が大きくなるように、上記記憶部に記憶された伝達関数β (i,m)とエラー項et,f (i,m)の分散σt,f (i,m)とクリーン音声信号st,f (i)とを更新するものであり、
    上記反復処理過程は、所定の基準を満たすまで、上記マイク別音源存在事後確率推定過程と上記モデルパラメータ推定過程の処理を繰り返すものであり、
    上記出力音推定過程は、上記複数チャネルの観測信号と上記音源存在事後確率と上記記憶部に記憶されたパラメータ^θ(i)とを入力として上記音源iごとの到来信号xt,f (i,m)を計算する過程、
    であることを特徴とする音源分離方法。
  7. 請求項4乃至6の何れかに記載した音源分離方法を、コンピュータで処理するためのプログラム。
JP2013171079A 2013-08-21 2013-08-21 音源分離装置とその方法とプログラム Active JP6059112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013171079A JP6059112B2 (ja) 2013-08-21 2013-08-21 音源分離装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013171079A JP6059112B2 (ja) 2013-08-21 2013-08-21 音源分離装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2015040934A JP2015040934A (ja) 2015-03-02
JP6059112B2 true JP6059112B2 (ja) 2017-01-11

Family

ID=52695141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013171079A Active JP6059112B2 (ja) 2013-08-21 2013-08-21 音源分離装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP6059112B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6339520B2 (ja) * 2015-04-01 2018-06-06 日本電信電話株式会社 音源分離装置、音源分離方法および音源分離プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008079256A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム
JP5568530B2 (ja) * 2011-09-06 2014-08-06 日本電信電話株式会社 音源分離装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2015040934A (ja) 2015-03-02

Similar Documents

Publication Publication Date Title
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
JP4875656B2 (ja) 信号区間推定装置とその方法と、プログラムとその記録媒体
KR20200145219A (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP6723120B2 (ja) 音響処理装置および音響処理方法
KR102087307B1 (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
CN115668366A (zh) 一种声学回声消除方法和系统
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP7760090B2 (ja) ターゲット音源分離のための方法およびシステム
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
JP6339520B2 (ja) 音源分離装置、音源分離方法および音源分離プログラム
EP3557576A1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
Nakagome et al. Efficient and stable adversarial learning using unpaired data for unsupervised multichannel speech separation
US12417777B2 (en) Information processing device and method for outputting a target sound signal from a mixed sound signal
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
JP2010181467A (ja) 複数信号強調装置とその方法と、プログラム
Imoto et al. Acoustic scene classification using asynchronous multichannel observations with different lengths
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161208

R150 Certificate of patent or registration of utility model

Ref document number: 6059112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350