JPH09258788A

JPH09258788A - 音声分離方法およびこの方法を実施する装置

Info

Publication number: JPH09258788A
Application number: JP8063141A
Authority: JP
Inventors: Tomohiro Nakatani; 智広中谷; Hiroshi Okuno; 博奥乃; Takeshi Kawabata; 豪川端
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1996-03-19
Filing date: 1996-03-19
Publication date: 1997-10-03

Abstract

(57)【要約】【課題】混合音声の音色或は基本周波数が近接してい
る場合であってもこれらの音声を適切に区別分離するこ
とができると共に、音源の数に制限されない、分離音声
の品質の良好な音声の分離をすることができる音声分離
方法および装置を提供する。【解決手段】入力音響信号中に含まれる音声信号の有
声音部分と無声音部分の内の有声音部分は有声音の音源
方向の情報を加味しながら個別に抽出し、抽出された有
声音部分を複数の有声音に分化して有声音の群として抽
出し、音声信号の無声音部分は入力音響信号から有声音
部分を減算して抽出した残差から各有声音の群の無声音
に相当する音響信号の成分として抽出し、各別に抽出さ
れた有声音の群に無声音を補充して音声信号を抽出する
音声分離方法および装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声分離方法お
よびこの方法を実施する装置に関し、特に、複数の音声
が生成される環境中に配置される複数のマイクロフォン
から音響信号が入力される場合に、これら音響信号中に
含まれる個別の音声信号を、音声の発話者の空間的位置
と共に抽出する音声分離方法およびこの方法を実施する
装置に関する。

【０００２】

【従来の技術】音響分離装置の従来例を図２を参照して
説明する。図２において、２０１は音響信号を入力する
音響入力端子である。２０２は入力音響信号から音声の
有声音部分を抽出する有声音抽出部である。２０３は有
声音を有声音の群に分けて抽出する有声音群化部であ
る。２０５は入力音響信号から有声音を減算した残差を
抽出する残差抽出部である。２０４は残差を各有声音の
群に補完する残差補充部である。ここで、有声音抽出部
２０２は入力音響信号中に含まれる有声音を個別の音と
して抽出し、有声音群化部２０３は個々の有声音を各有
声音の属性に基づいて特定の数の群に分配し、残差補充
部２０４は残差抽出部２０５が抽出した有声音以外のす
べての残差をすべての有声音の群に割り当てることによ
り音声分離する。

【０００３】音響分離装置の他の従来例を図３を参照し
て説明する。この音響分離装置は複数の入力端子３０１
および３０２を具備している。３０３は入力音響信号中
に含まれる音源の方向を特定する音源定位部であり、３
０４は特定の音源方向の音響信号成分だけを取り出す音
源方向成分抽出部である。ここで、入力音響信号から音
源定位部３０３が抽出した音声信号の音源の方向につい
て、音源方向成分抽出部３０４がその方向に由来する音
響信号だけを抽出することにより音声分離する。

【０００４】

【発明が解決しようとする課題】上述された先の従来例
は、一つの入力端子に対して動作する様に設定されたも
のであり、複数の入力端子の音響信号から得られる音源
方向の属性を利用することはできない。従って、異なる
方向属性を持つ有声音であっても、音色或は基本周波数
が近接している場合は適切に区別することはできず、更
に、無声音部分を有声音の群に適切に分配することがで
きなかった。

【０００５】また、他の従来例は音源の方向属性のみを
使用して音声を分離するものであるので、周波数帯或は
音源の数に制限があり、更に、調波構造の様な有声音の
分離に好都合な手がかりを使用することができないとこ
ろから、分離音声の品質が良好であるとは言い難かっ
た。この発明は、上述の問題を解消した音声分離方法お
よびこの方法を実施する装置を提供するものである。

【０００６】

【課題を解決するための手段】入力音響信号中に含まれ
る音声信号の有声音部分と無声音部分の内の有声音部分
は有声音の音源方向の情報を加味しながら個別に抽出
し、抽出された有声音部分を複数の有声音に分化して有
声音の群として抽出し、音声信号の無声音部分は入力音
響信号から有声音部分を減算して抽出した残差から各有
声音の群の無声音に相当する音響信号の成分として抽出
し、各別に抽出された有声音の群に無声音を補充して音
声信号を抽出する音声分離方法を構成した。

【０００７】そして、音響信号を入力する複数の音響入
力端子１０１および１０２を具備し、各音響入力端子１
０１および１０２の入力信号から音声の有声音部分を個
別に抽出する有声音抽出部１０３を具備し、有声音抽出
部１０３が抽出する各有声音の音源方位を抽出する音源
定位部１０４を具備し、有声音抽出部１０３が抽出した
個別の有声音を、各話者毎の有声音の群に分けて抽出す
る有声音群化部１０６を具備し、入力音響信号から有声
音を減算した残差を抽出する残差抽出部１０５を具備
し、残差抽出部１０５が抽出した残差から有声音群化部
１０６が抽出した各有声音の群の無声音に相当する音響
成分を抽出する無声音抽出部１０８を具備し、無声音抽
出部１０８が抽出した無声音を各有声音の群に割り当て
る無声音補充部１０７を具備する音声分離装置を構成し
た。

【０００８】

【発明の実施の形態】この発明の実施の形態を図１、図
４、図５を参照して説明する。ここにおいては、複数の
話者が同時に発生する音声をダミーヘッドを使用してバ
イノーラル録音した混合音を個別の音声に分離する場合
について説明する。この場合の入力端子数は２である。

【０００９】図１において、１０１および１０２は音響
信号を入力する複数の音響入力端子を示す。１０３は有
声音抽出部であり、各音響入力端子１０１および１０２
の入力音響信号から音声の有声音部分を各別に抽出す
る。１０４は音源定位部であり、有声音抽出部１０３が
抽出する各有声音の音源方位を抽出するところである。
ところで、この有声音分抽出部１０３および音源定位部
１０４の技術内容は以下の通りである。即ち、特願平７
−１８０２８３号明細書には、図４を参照して音源方向
を抽出しながら整次倍音構造を有する音を分離する技術
が説明されている。整次倍音構造を有する音とは１個の
音が基本周波数成分の音とその周波数の整数倍の周波数
の成分の音とにより構成されている音をいい、音声の有
声部分は整次倍音構造を有している。この技術説明にお
いては、有声音抽出部と有声音の音源定位部とが画然と
説明されていた訳ではないが、これを図４に示される通
り、音響信号分配部４０３および４０４、音響信号数制
御部４０５および４０６、音響信号追跡部４０７、４０
８、４０９および４１０、音響信号数調整部４１１、音
響信号抽出部４１２および４１３より成る有声音抽出部
１０３と、音源定位部１０４とに分割して示すことがで
きる。これにより、有声音抽出部１０３は、抽出した個
々の有声音をそれぞれバイノーラル音響信号として合成
した２チャネルの波形を出力する。

【００１０】以下、図１および図４を参照して説明する
に、音響入力端子１０１および１０２から音響信号数調
整部４１１に到るブロックは、電子計算機により構成さ
れるこの音響分離装置が無音の状態にあるところを示し
ている。この無音状態において、一つの音が新規に音響
入力端子１０１および１０２に入力されたものとする
と、音響信号分配部４０３および４０４はそれぞれ入力
をそのまま音響信号数制御部４０５および４０６に出力
する。音響信号数制御部４０５および４０６は、各チャ
ネルｃｈ（＝１か２）の入力信号中において、幾つかの
基本周波数ωについて、各倍音の強さＡ_i,chを（１）式
に基づいて求め、次に、倍音群の強さＩ_chを（２）式に
基づいて求める。そして、音響信号数調整部４１１は、
その倍音群の強さの総計Ｅを（３）式に基づいて求め
る。

【００１１】Ａ_i,ch＝‖Σ_t ｘ_ch(t)・ｅｘｐ（−ｊ（ｉω）ｔ）‖ （１）Ｉ_ch＝Σⁿ _i=1Ａ² _i,ch （２）Ｅ＝Σ² _ch=1Ｉ_ch （３）ここで、ｔ：時刻ｉ：第ｉ番目の倍音成分ｘ_ch(t)：時刻ｔにおけるｃｈ番目の入力端子の音響入
力 ω：基本周波数である。

【００１２】求められた倍音の強さＡ_i,chの内、或る閾
値を超えているものがある場合、音響信号数制御部４０
５および４０６は音の存在を検知する。音響信号数制御
部４０５および４０６の何れかが音の存在を検知した
時、音響信号数調整部４１１は倍音群の強さの総計Ｅの
最大を与える基本周波数ωを求め、求められた周波数近
傍に基本周波数を有する倍音群を追跡する音響信号追跡
部４０７および４０８を、各音響信号数制御部４０５お
よび４０６により、図４に示される如くそれぞれ１個ず
つ生成し、同時に音響信号抽出部４１２を生成する。以
降、各入力信号に対して、音響信号追跡部４０７および
４０８は、（２）式により追跡している音響信号の各入
力信号中での強さを求める。求められた音響信号の各入
力信号中の強さＩ_chを使用して、音響信号抽出部４１２
は（３）式を極大にする周波数ωを求めることにより基
本周波数を追跡する。音響信号追跡部４０７および４０
８は、求められた基本周波数に対して倍音成分の周期と
強さＡ_i,chと位相φ_i,chを式（１）、式（４）より求
め、次に、Ａ_i,ch、φ_i,chより作られる正弦波をすべて
の倍音について加算することにより音響信号を合成す
る。

【００１３】 φ_i,ch＝ａｒｇ（Σ_tｘ_ch(t)・ｅｘｐ（−ｊ（ｉω）ｔ））（４）音響信号追跡部４０７および４０８は合成した音響信号
およびＡ_i,ch、φ_i,chの値を音響信号抽出部４１２に渡
す。音響信号抽出部４１２は、音響信号追跡部４０７お
よび４０８から受けとった音響信号を、２チャネルのバ
イノーラル音響信号として出力する。これと同時に音響
信号抽出部４１２は、音響信号追跡部４０７および４０
８から受けとったＡ _i,ch、φ_i,chの値を音源定位部１０
４に送り込み、これにより音響信号の由来する音源のダ
ミーヘッドから見た存在方向を決定する。一般に、単一
音源が存在する時に、バイノーラル録音された２チャネ
ルの音響信号から音源の方向を決定するには、二つの音
響信号の位相差および強度差を利用する方法が知られて
いる。混合音から音響信号追跡部４０７および４０８が
取り出した各音響信号の強度および位相は、近似的に単
一音源の位相および強度とみなせるので、音響信号抽出
部４１２および音源定位部１０４は次の位相差ω_i、強
度比Ｉ_t,kの値を用いて音源方向を決定する。

【００１４】Δω_i＝φ_i,1−φ_i,2 ΔＩ_i＝Ａ_i,1／Ａ_i,2 このために、音源定位部１０４は、これらの値をもとに
音響信号抽出部４１２が抽出した信号についての方向ヒ
ストグラムを作成する。方向ヒストグラムは、配列変数
であって、配列の各要素は特定の方向の候補Ｄを表わ
す。先ず、音源定位部１０４は、音響信号抽出部４１２
が抽出した各倍音について、すべての方向候補Ｄに関し
て、次の二つの条件式が満足されるか否かを調べる。

【００１５】（Ｄ−θ₁）・ω≦Δω_i＋２ｎπ≦（Ｄ＋θ₁）・ω ΔＩ_t,k＞０、 if Ｄ＞２θ₁ ΔＩ_t,k＜０、 if Ｄ＜２θ₁ θ₂＞ΔＩ_t,k＞−θ₂、otherwise ここで、ω：倍音の周波数、θ₁＝０.０８ｍｓ、θ₂＝
０.４ｍｓである。

【００１６】或る方向候補Ｄに関して、上の条件が満た
された時、Ｄに相当する配列の要素に、この倍音のＡ
_i,chの値を加算する。これを、すべての倍音について加
算した結果、最大値をとる配列要素に相当する方向候補
Ｄを、音源の方向とする。一旦、音源の方向が求まる
と、以後、音響信号抽出部４１２および音源定位部１０
４は、音響信号追跡部４０７および４０８に、音源と同
一の方向から来る音響成分だけをもとに、音響信号を追
跡させる。このために、音響信号抽出部４１２は、音響
信号追跡部４０７および４０８に基本周波数追跡時に一
時刻前に求めた各倍音の方向Ｄが音源方向と一致してい
た倍音だけを用いて（１）式の加算式を計算させる様に
する。この方法により、音響信号抽出部４１２は、音源
と同一方向から来る倍音だけを用いて基本周波数を追跡
する様になるので、より正確な基本周波数の値を得るこ
とができる様になる。各チャネル毎に、音響信号分配部
４０３および４０４が音響信号を分配する機構について
は、参考文献［中谷９３］の方法を利用するものとす
る。一つの音が入力信号中からなくなった時、対応する
音響的信号追跡部４０７および４０８は、（３）式の値
が或る閾値より小さくなることを条件として音の特徴の
追跡に失敗したものと判断する。この時、対応する音響
信号追跡部４０７或は４０８と音響信号抽出部４１２は
自動的に消滅する。

【００１７】図１において、１０６は有声音群化部であ
り、有声音抽出部１０３が抽出した各別の有声音を各話
者毎の有声音の群に分けて抽出する。この有声音群化部
１０６は特願平７−１８０２８２号明細書に開示される
図５の音源数制御部５０３、音源追跡部５０４および５
０５により構成する。これにより、有声音群化部１０６
は、継続的に生成される有声音を有声音抽出部１０３よ
り受けとり、各話者の音声に含まれる一連の有声音群に
まとめて、バイノーラル音響信号として、その音源の方
向ｄと共に出力する。

【００１８】ここで、図１および図５を参照して説明す
る。図５に着目するに、音響入力端子５０１ないし音源
数制御部５０３は電子計算機により構成されるこの音響
分離装置が無音状態において一つの音源も検知していな
い初期状態を示している。この初期状態において、一つ
の音が音響入力端子５０１に入力されると連続信号分離
部５０２は、この音を検知してからこの音が再び無音に
なる迄一つの連続音として出力する。この時、連続信号
分離部５０２は、この音の基本周波数、およびこの音を
発生している音源の入力装置から見た空間的方向も同時
に抽出して出力する。なお、連続信号分離部５０２が混
合音を連続した個別の音に分離する方法、および基本周
波数と音源の方向を抽出する方法については、先に図４
を参照して説明した通りである。即ち、図５において有
声音抽出部１０３を構成する連続信号分離部５０２の出
力する信号は、図４において有声音抽出部１０３が出力
する信号と同一のものである。

【００１９】有声音群化部１０６を構成する音源数制御
部５０３に、連続信号分離部５０２が分離した音響信号
が入力されると、音源数制御部５０３は新規の音源が音
を発生したものと判断し、新しく音源追跡部５０４を生
成し、この時の音響信号を音源追跡部５０４に渡す。以
後、音源追跡部５０４は連続信号分離部５０２が出力す
る個別の連続音響信号の内の基本周波数および音源の方
向が近接した音響信号を一連の音として接続、群化して
出力する。即ち、音源追跡部５０４は連続信号分離部５
０２が新たな音響信号を出力する度に、先ずその音響信
号とその直前に音源追跡部５０４が追跡していた音響信
号との間において、基本周波数の差および方向属性の差
を計算する。そして、これらの値が或る閾値以下である
場合に音源追跡部５０４は、この時の音響信号を音源追
跡部５０４が追跡している音源に由来するものと判断す
る。音源追跡部５０４は、この音響信号を受けとって音
源追跡部５０４が追跡している音に加えると共にこの音
が音源数制御部５０３には渡されない様にする。一方、
音源数制御部５０３は、音源追跡部５０４が受けとらな
かった音響信号を受けとると新規の音源が音を発生した
ものと判断し、新しく音源追跡部５０５を生成し、この
時の音響信号を音源追跡部５０５に渡す。以後、音源追
跡部５０５は、音源追跡部５０４と同様の操作により一
つの音源に由来する音を分離群化して出力する。

【００２０】二つ以上の音源追跡部５０４および５０５
が生成されている場合、連続信号分離部５０２が分離し
た一つの音響信号を、二つ以上の音源追跡部５０４およ
び５０５が、それぞれが自身の追跡している音源に由来
する音であると判定する場合がある。この場合、その音
響信号と音源追跡部５０４および５０５が追跡している
音響信号との間の次式で定義される距離Ｄが最小になる
音源追跡部が、排他的にその音響信号を受けとるものと
する。

【００２１】Ｄ＝α｜Ｆ_f−Ｆ_s｜＋（１−α）｜Ｄ_f−Ｄ_s｜ここで、Ｆ_f：連続音響信号の基本周波数Ｆ_s：連続音響信号が生成される直前に音源追跡部が追
跡していた音響信号の基本周波数Ｄ_f：連続音響信号の音源方向Ｄ_s：連続音響信号が生成される直前に音源追跡部が追
跡していた音響信号の音源方向 α：或る重み定数である。

【００２２】これにより、連続信号分離部５０２が分離
した音響信号は、音源数制御部５０３、音源追跡部５０
４および５０５の内の何れか一つだけに、必ず、渡され
ることになる。音源追跡部５０５は、一定時間以上対応
する連続音響信号を受けとらなかった時、対応する音源
の音の生成が終了したものと判断する。この時、音源追
跡部５０５は自動的に消滅する。

【００２３】図１において、１０５は残差抽出部であ
る。残差抽出部１０５は、２個の音響入力端子１０１お
よび１０２から入力した混合音響入力信号波形から有声
音抽出部１０３から入力したすべての有声音の波形を減
算することにより残差を計算して出力する。ここで、残
差は無声音と有声音の抽出誤差より成る混合音である。
無声音抽出部１０８は、残差抽出部１０５から残差を入
力し、有声音群化部１０６から各有声音の群の音源方向
ｄを受けとり、残差中の各音源方向の音響成分を抽出し
て出力する。残差中の特定の音源方向の音響成分抽出
は、以下の方法により行なう。

【００２４】先ず、残差信号を離散時間フーリエ変換し
て各入力チャネル毎に周波数領域の信号に変換して以下
の値を得る。Ｉ_ch（ｆ_i）：各チャネルの周波数ｆ_iにおける残差の
強度 φ_ch（ｆ_i）：各チャネルの周波数ｆ_iにおける残差の
位相ここで、ｆ_i：離散時間フーリエ変換に用いられる離散
周波数の各値、ｉ：離散周波数のインデックス（＝１，…，ｎ）ｃｈ：チャネルを表すインデックス（＝１か２）バイノーラル録音された信号の場合、特定の方向から到
来する音響信号は、２つのチャネル間でＩ_ch（ｆ_i）、
φ_ch（ｆ_i）の値の差は或る一定の範囲に収まることが
わかっている。即ち、特定の方向ｄから到来する音の場
合、次の２つの関係が成り立つ。

【００２５】ここで、Δφ^l（ｆ_i，ｄ）：チャネル間の位相差の閾
値関数 γ^l（ｆ_i，ｄ）：チャネル間の強度比の閾値関数各閾値関数、Δφ^l（ｆ_i，ｄ）、γ^l（ｆ_i，ｄ）は
バイノーラル録音に使用するダミーヘッドの音響特性で
ある頭部音響伝達関数をもとに決まる関数である。この
関係式を使用して、各チャネルの値が特定の方向ｄに由
来する音であるか否かを判定し、この方向ｄと異なる方
向であると判定された周波数に関しては、各チャネルの
対応する周波数の強度Ｉ_ch（ｆ_i）を０とする。その結
果、以上の操作により得られる周波数領域の信号Ｉ
_ch（ｆ_i）、φ_ch（ｆ_i）を各チャネル毎に離散時間逆
フーリエ変換を行なうことにより、残差中の特定方向ｄ
の音響成分を抽出する。

【００２６】図１の無声音補充部１０７は、有声音群化
部１０６から各有声音の群を受けとると共に、無声音抽
出部１０８から各有声音の群と同一方向の残差中の音響
成分として抽出された無声音を受けとり、各有声音の群
の波形に無声音の波形を加算することにより各音声を抽
出する。ここで、複数の話者が同時に発生した音声より
成る混合音声を分離する場合についてこの発明の効果を
実証する。音響入力として、ダミーヘッドの正面から見
て左右３０度の位置に配置された２個のスピーカから、
２つの女性の声“うちわ”と“いっしゅん”とを、開始
時刻を１５０ｍｓずらして発生させることにより形成さ
れる混合音声をバイノーラル録音し、これを１２ｋＨｚ
により標本化し、１６ｂｉｔでＡＤ変換し、３０ｍｓの
ハミング窓をかけたものを使用する。フレーム周期は
７．５ｍｓである。図６は入力として与えられた二つの
女性の声の波形６０１および６０２、およびその混合音
声の波形６０３を示す。

【００２７】図７はこの発明により分離した二つの女性
の声の波形７０１および７０２を示す。横軸は時間を表
わし、縦軸は振幅を表わす。図７の分離音声７０１およ
び７０２を、それぞれ、図６の入力音声６０１および６
０２と比較してみると、分離音声の品質は良好であると
することができる。

【００２８】

【発明の効果】以上の通りであって、この発明は、複数
の音響入力端子から音響信号を入力して入力音響信号中
に含まれる音声信号の有声音部分を有声音の音源方向の
情報を加味しながら個別に抽出して音源方向の属性を利
用することにより、混合音声の音色或は基本周波数が近
接している場合であってもこれらの音声を適切に区別分
離することができる。そして、無声音部分については、
混合音声から抽出された有声音をすべて減算した残差に
ついて、方向属性を利用して、各話者の有声音を付加す
ることによって、調波構造だけを用いて分離を行なう場
合よりも、適切な無声音部分の割り当てをすることがで
きる。また、単に音源の方向属性のみを使用して音声を
分離するものとは異なり、音声の調波構造を有する有声
音の分離に好都合な有声音部分を追跡処理するものであ
り、音源の数に制限されない、分離音声の品質の良好な
音声の分離をすることができる。

【図面の簡単な説明】

【図１】実施例を説明するロック図。

【図２】従来例を説明するロック図。

【図３】他の従来例を説明するロック図。

【図４】有声音分離部を説明するブロック図。

【図５】有声音群化部を説明するブロック図。

【図６】入力音声の波形を示す図。

【図７】分離した二つの音声の波形を示す図。

【符号の説明】

１０１音響入力端子１０２音響入力端子１０３有声音抽出部１０４音源定位部１０５残差抽出部１０６有声音群化部１０７無声音補充部１０８無声音抽出部

Claims

【特許請求の範囲】

【請求項１】入力音響信号中に含まれる音声信号の有
声音部分と無声音部分の内の有声音部分は有声音の音源
方向の情報を加味しながら個別に抽出し、抽出された有声音部分を複数の有声音に分化して有声音
の群として抽出し、音声信号の無声音部分は入力音響信号から有声音部分を
減算して抽出した残差から各有声音の群の無声音に相当
する音響信号の成分として抽出し、各別に抽出された有声音の群に無声音を補充して音声信
号を抽出することを特徴とする音声分離方法。
【請求項２】音響信号を入力する複数の音響入力端子
を具備し、各音響入力端子の入力信号から音声の有声音
部分を個別に抽出する有声音抽出部を具備し、有声音抽
出部が抽出する各有声音の音源方位を抽出する音源定位
部を具備し、有声音抽出部が抽出した個別の有声音を、
各話者毎の有声音の群に分けて抽出する有声音群化部を
具備し、入力音響信号から有声音を減算した残差を抽出
する残差抽出部を具備し、残差抽出部が抽出した残差か
ら有声音群化部が抽出した各有声音の群の無声音に相当
する音響成分を抽出する無声音抽出部を具備し、無声音
抽出部が抽出した無声音を各有声音の群に割り当てる無
声音補充部を具備することを特徴とする音声分離装置。