以下図面に基づいて本発明の実施の形態を詳述する。
(1)第1の実施の形態
図1において、1は全体としてスティックタイプの携帯電話機を示し、ほぼ偏平矩形状に形成された筐体2の正面2a上部に日時等の各種情報を表示する表示部3が設けられているとともに、当該筐体2の正面2a下部に各種操作情報を入力し得る複数の操作キーからなる操作部4が設けられている。
この携帯電話機1は、テレビ電話モード時に通話相手から送信された映像信号及び音声信号を受信すると、その映像信号に基づく映像を表示部3に表示するとともに、その音声信号に基づく音声をスピーカ5から出力し得る。
これに加えてこの携帯電話機1では、筐体2の正面2aに設けられた撮像部6によってユーザ自身の顔を撮像しながら、筐体2の下端面2cの4隅近くに設けた無指向性の前部無指向性マイクロフォンMC1,MC3と、同じく無指向性の後部無指向性マイクロフォンMC2,MC4との合計4つの無指向性マイクロフォンによってユーザの音声を集音し、かくして通話相手とテレビ電話による通話を行なえ得る。
実際上、携帯電話機1の筐体面としての下端面2cには、一方の前部角側に設けた前部無指向性マイクロフォンMC1と対向させて一方の後部角側に後部無指向性マイクロフォンMC2が設けられており、これら前部無指向性マイクロフォンMC1と後部無指向性マイクロフォンMC2とが対として機能し、一つの指向性マイクロフォンを構成し得る。
また、筐体2の下端面2cには、前部無指向性マイクロフォンMC1に対向させて他方の前部角側に前部無指向性マイクロフォンMC3が設けられているとともに、当該前部無指向性マイクロフォンMC3と対向させて他方の後部角側に後部無指向性マイクロフォンMC4が設けられており、これら前部無指向性マイクロフォンMC3と後部無指向性マイクロフォンMC4とが対として機能し、一つの指向性マイクロフォンを構成し得る。
つまりこれら前部無指向性マイクロフォンMC1と後部無指向性マイクロフォンMC2のマイクロフォン対ならびに前部無指向性マイクロフォンMC3と後部無指向性マイクロフォンMC4のマイクロフォン対は、筐体2の正面2a及び背面2b方向にそれぞれ受音感度が高い双指向性パターン及びヌルを持つカージオイド(単一指向性パターン)を形成している。
そして、これら前部無指向性マイクロフォンMC1,MC3及び後部無指向性マイクロフォンMC2,MC4は、ユーザの音声を目的音として集音するとともに、当該目的音の到来方向とは異なる任意方向から到来する指向性雑音や、雑音音源からの各種雑音が周壁等ではね返えることによりあらゆる方向に拡散して周囲一様から到来する指向性のない拡散性雑音を同時に集音し得る。
かかる構成に加えて、この携帯電話機1には、図2に示すような音源分離装置10が内蔵されており、この音源分離装置10によって、前部無指向性マイクロフォンMC1から出力された受音信号X1(t)と、後部無指向性マイクロフォンMC2から出力された受音信号X2(t)と、前部無指向性マイクロフォンMC3から出力された受音信号X3(t)と、後部無指向性マイクロフォンMC4から出力された受音信号X4(t)とを用いて音源分離処理を実行することにより、指向性雑音及び拡散性雑音を除去し、これによりユーザの音声に相当する目的音スペクトルF15(ω)(後述する)を生成し得るようになされている。
これにより携帯電話機1では、目的音スペクトルF15(ω)だけを通話相手の携帯電話機へ送信して指向性雑音及び拡散性雑音を除去した目的音(すなわちユーザの音声)を、通話相手の携帯電話機のスピーカから出力させたり、或いは音声認識処理等の各種処理に目的音スペクトルF15(ω)を利用し得るようになされている。
実際上、この音源分離装置10は、第1雑音除去部7、第2雑音除去部8及び合成部9を備えており、これら第1雑音除去部7及び第2雑音除去部8において音源分離処理のうち指向性雑音除去処理を実行することにより、受音信号X1(t),X2(t)及び受音信号X3(t),X4(t)から指向性雑音を除去した指向性雑音除去音声スペクトルF5(ω)及び指向性雑音除去音声スペクトルF6(ω)をそれぞれ生成する。
そして、合成部9は、指向性雑音除去音声スペクトルF5(ω)と指向性雑音除去音声スペクトルF6(ω)とを合成することにより合成スペクトルF7(ω)を生成するようになされている。
また、音源分離装置10は、音源分離処理のうち拡散性雑音除去処理を実行することにより、出力信号としての受音信号X1(t),X2(t),X3(t),X4(t)に基づいて解析パラメータとしての二乗コヒーレンス(以下、これを単にMSC(Magnitude Squared Coherence)と呼ぶ)データを生成し、これを用いて合成スペクトルF7(ω)から拡散性雑音を除去した目的音スペクトルF15(ω)を生成するようになされている。
ここではまず始めに音源分離処理のうち、第1雑音除去部7及び第2雑音除去部8でそれぞれ行われる指向性雑音除去処理について以下説明する。
この場合、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2は、それぞれユーザの音声を集音し、かくして得られた受音信号X1(t),X2(t)を第1指向性制御部11に送出するようになされている。
第1指向性制御部11は、図3に示すように、加算回路12を備えており、当該加算回路12において、前部無指向性マイクロフォンMC1から出力された受音信号X1(t)と、後部無指向性マイクロフォンMC2から出力された受音信号X2(t)との差をとる処理を行ない双指向性信号D1(t)(すなわち、X1(t)−X2(t))を生成し、これを周波数分析部13(図2)へ送出する。
ここで、この双指向性信号D1(t)を周波数解析して得られるスペクトル(以下、これを双指向性スペクトルと呼ぶ)|F1(ω)|の指向特性は、図4に示す点線のように、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2を結んだx軸上を中心に横「8」の字状の双指向性パターンP1となる。
なお、この実施の形態の場合、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2は、筐体2の下端面2cに配置されていることにより、双指向性パターンP1により筐体2の正面2a及び背面2b側での受音感度が最大となり、筐体2の正面2a及び背面2b間の中間位置で、かつ正面2aと平行する平面上で受音感度が理論上0となり最小になる。
これに加えて、このとき第1指向性制御部11では、前部無指向性マイクロフォンMC1からの受音信号X1(t)を遅延回路14に送出し、当該遅延回路14で受音信号X1(t)を、前部無指向性マイクロフォンMC1から後部無指向性マイクロフォンMC2までの音波伝播時間だけ遅延させ、これにより得られた遅延信号X1’(t)を加算回路15に送出する。
加算回路15では、遅延信号X1’(t)と、後部無指向性マイクロフォンMC2からの受音信号X2(t)との差をとった単一指向性信号D2(t)(すなわち、1次差分特性となるX1’(t)−X2(t))を生成し、これを周波数分析部13へ送出する。
ここで単一指向性信号D2(t)を周波数分析部13で周波数解析して得られるスペクトル(以下、これを単一指向性スペクトルと呼ぶ)|F2(ω)|の指向特性は、図4に示す点線のように、x軸上を中心にして図中左側(筐体2の正面2a側)にヌルを有した単一指向性パターンP2となる。
このように単一指向性パターンP2では、筐体2の正面2a側にヌルが形成されることにより筐体2の正面2a方向から到来する音の受音感度が最小となる。
また、これに加えて第1指向性制御部11は、後部無指向性マイクロフォンMC2からの受音信号X2(t)を遅延回路20に送出し、当該遅延回路20で受音信号X2(t)を、前部無指向性マイクロフォンMC1から後部無指向性マイクロフォンMC2までの音波伝播時間だけ遅延させ、これにより得られた遅延信号X2’(t)を加算回路21に送出する。
加算回路21では、遅延信号X2’(t)と、前部無指向性マイクロフォンMC1からの受音信号X1(t)との差をとった単一指向性信号D3(t)(すなわち、1次差分特性となるX2’(t)−X1(t))を生成し、これを周波数分析部13へ送出する。
ここで単一指向性信号D3(t)を周波数分析部13で周波数解析して得られるスペクトル(以下、これを単一指向性スペクトルと呼ぶ)|F3(ω)|の指向特性は、図4に示す点線のように、x軸の図中右側(筐体2の背面2b側)にヌルを有した単一指向性パターンP3となる。
このように単一指向性パターンP3では、筐体2の背面2b側にヌルが形成されることにより筐体2の背面2b方向から到来する音の受音感度が最小となる。
周波数分析部13は、単一指向性信号D2(t)、単一指向性信号D3(t)及び双指向性信号D1(t)を高速フーリエ変換(FFT:First Fourier Transform)することにより周波数領域に変換し、これにより得られた単一指向性スペクトルF2(ω)、単一指向性スペクトルF3(ω)及び双指向性スペクトルF1(ω)を切替部16に送出する。
切替部16は、ユーザが操作部4を操作することにより得られる操作情報に基づいて切替動作し、周波数分析部13から受け取った単一指向性スペクトルF2(ω)及び単一指向性スペクトルF3(ω)のうちいずれか一方を選択し、選択した単一指向性スペクトルF2(ω)又は単一指向性スペクトルF3(ω)を指向性雑音分離部17に送出するようになされている。
具体的には、ユーザが筐体2の正面2aに顔を向け、表示部3を視認しながら自己の音声を前部無指向性マイクロフォンMC1,MC3及び後部無指向性マイクロフォンMC2,MC4で集音して通話相手とテレビ電話による通話を行なうテレビ電話モードの場合、指向性雑音除去用として筐体2の正面2a側から到来する目的音(すなわちユーザ自身の音声)をスペクトル・サブトラクション(SS:Spectral Subtraction)法等により、強調させる単一指向性パターンP2が切替部16で選択される。なおこの場合、目的音が到来する目的音方向とは、音源であるユーザから筐体2の正面2aへ向かう方向v(図1)となる
これにより切替部16は、筐体2の正面2a側から到来する目的音の受音感度が低く、かつ背面2b側から到来する指向性雑音の受音感度が高い単一指向性スペクトルF2(ω)のみを指向性雑音分離部17へ送出する。
またユーザーが前部無指向性マイクロフォンMC1,MC3及び後部無指向性マイクロフォンMC2,MC4で撮像対象からの音声等を集音しながら筐体2の背面2b側に有するカメラ(図示せず)により静止画もしくは動画を撮像する録画モードのときには、筐体2の背面2b側から到来する撮像対象からの目的音(例えば、撮像対象である友人の音声)をスペクトル・サブトラクション(SS)法等により、強調させる単一指向性パターンP3が切替部16で選択されるようにする。なお、この場合、目的音が到来する目的音方向とは、音源である撮像対象から筐体2の背面2bへ向かう方向(図示せず)となる。
これにより切替部16は、筐体2の背面2b側から到来する目的音の受音感度が低く、かつ正面2a側から到来する指向性雑音の受音感度が高い単一指向性スペクトルF3(ω)のみを指向性雑音分離部17へ送出する。
指向性雑音分離部17では、例えば切替部16において単一指向性スペクトルF2(ω)が選択された場合、スペクトラル・サブトラクション(SS)法を用いて、周波数帯域毎に、双指向性スペクトルF1(ω)のパワーγから、単一指向性スペクトルF2(ω)のパワーδに係数Kを乗じた値(K×δ)を減じ、これにより筐体2の背面2b側から到来する指向性雑音等を除去した指向性雑音除去音声スペクトルF5(ω)を生成し、これを合成部9に送出する。
一方、切替部16において単一指向性スペクトルF3(ω)が選択された場合、指向性雑音分離部17では、スペクトラル・サブトラクション(SS)法を用いて、周波数帯域毎に、双指向性スペクトルF1(ω)のパワーγから、単一指向性スペクトルF3(ω)のパワーδに係数Kを乗じた値(K×δ)を減じ、これにより筐体2の正面2a側から到来する指向性雑音等を除去した指向性雑音除去音声スペクトルF5(ω)を生成し、これを合成部9に送出する。
なお、係数Kは、例えば、双指向性スペクトルF1(ω)のパワーγと、単一指向性スペクトルF2(ω)のパワーδとの差の大きさや、双指向性スペクトルF1(ω)のパワーγと、単一指向性スペクトルF3(ω)のパワーδとの差の大きさに依存する係数等である。
また、例えば双指向性スペクトルF1(ω)のパワーγの方が、単一指向性スペクトルF2(ω)や単一指向性スペクトルF3(ω)のパワーδに係数Kを乗じた値(K×δ)よりも小さくなる周波数帯域においては、例えば、一定のルールで定められた最小値(各周波数帯域につき一定の値でもよく、単一指向性スペクトルF2(ω)や単一指向性スペクトルF3(ω)の周波数帯域毎の各パワーの値に比例する値等でもよい。)を算出値としてもよく、あるいはゼロとしてもよい。
以上では前部無指向性マイクロフォンMC1から出力される受音信号X1(t)と、後部無指向性マイクロフォンMC2から出力されるX2(t)とによって指向性雑音除去音声スペクトルF5(ω)を得る指向性雑音除去処理について説明したが、同様の指向性雑音除去処理は前部無指向性マイクロフォンMC3から出力される受音信号X3(t)と、後部無指向性マイクロフォンMC4から出力される受音信号X4(t)とを用いて周波数分析部25、切替部26及び指向性雑音分離部27によっても行なわれ、さらにもう1つの指向性雑音除去音声スペクトルF6(ω)を生成し、これを合成部9に送出するようになされている。
実際上、第2指向性制御部30は、図3に示したように、加算回路31において、前部無指向性マイクロフォンMC3から出力された受音信号X3(t)と、後部無指向性マイクロフォンMC4から出力された受音信号X4(t)との差をとる処理を行ない双指向性信号D8(t)(すなわち、X3(t)−X4(t))を生成し、これを第2雑音除去部8の周波数分析部25へ送出する。
なお、この双指向性信号D8(t)を周波数分析部25で周波数解析して得られる双指向性スペクトル|F8(ω)|の指向特性は、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4を結ぶy軸を中心とし、筐体2の正面2a及び背面2b側での受音感度が最大となる横「8」の字状の双指向性パターン(図4の双指向性パターンP1と同じ形状)となる。
これに加えて、このとき第2指向性制御部30では、前部無指向性マイクロフォンMC3からの受音信号X3(t)を、遅延回路32で前部無指向性マイクロフォンMC3から後部無指向性マイクロフォンMC4までの音波伝播時間だけ遅延させ、これにより得られた遅延信号X3’(t)を加算回路33に送出し、受音信号X4(t)との差をとった単一指向性信号D9(t)(すなわち、X3’(t)−X4(t))を生成して、これを第2雑音除去部8の周波数分析部25へ送出する。
なお、単一指向性信号D9(t)を周波数分析部25で周波数解析して得られる単一指向性スペクトル|F9(ω)|の指向特性は、y軸を中心とし、筐体2の正面2a側にヌルが形成されて筐体2の背面2b方向への受音感度が最大となる単一指向性パターン(図4の単一指向性パターンP2と同じカージオイド)となる。
また、これに加えて第2指向性制御部30は、後部無指向性マイクロフォンMC4からの受音信号X4(t)を、遅延回路34で前部無指向性マイクロフォンMC3から後部無指向性マイクロフォンMC4までの音波伝播時間だけ遅延させ、これにより得られた遅延信号X4’(t)を加算回路35に送出し、受音信号X3(t)との差をとった単一指向性信号D10(t)(すなわち、X4’(t)−X3(t))を生成して、これを第2雑音除去部8の周波数分析部25へ送出する。
なお、単一指向性信号D10(t)を周波数分析部25で周波数解析して得られる単一指向性スペクトル|F10(ω)|の指向特性は、y軸を中心とし、筐体2の背面2b側にヌルが形成されて筐体2の正面2a方向への受音感度が最大となる単一指向性パターンP3aとなる。
そして、切替部26は、第1雑音除去部7の切替部16と同様に動作し、テレビ電話モード時、筐体2の正面2a側から到来する目的音を減衰させる単一指向性パターンとなる単一指向性スペクトルF9(ω)を選択し得る。これにより切替部26は、筐体2の正面2a側から到来する目的音の受音感度が低い単一指向性スペクトルF9(ω)を指向性雑音分離部27へ送出する。
これに対して録画モード時には、筐体2の背面2b側から到来する撮像対象からの目的音を減衰させる単一指向性パターンとなる単一指向性スペクトルF10(ω)が切替部26で選択され得る。これにより切替部26は、筐体2の背面2b側から到来する撮像対象からの目的音の受音感度が低い単一指向性スペクトルF10(ω)のみを指向性雑音分離部27へ送出する。
指向性雑音分離部27では、スペクトラル・サブトラクション(SS:Spectral Subtraction)法を用いて、周波数帯域毎に、双指向性スペクトルF8(ω)のパワーγから、単一指向性スペクトルF9(ω)又は単一指向性スペクトルF10(ω)のパワーδに係数Kを乗じた値(K×δ)を減じ、これによりモード選択に応じて筐体2の背面2b側又は正面2a側から到来する指向性雑音等を除去した指向性雑音除去音声スペクトルF6(ω)を生成し、これを合成部9に送出する。
合成部9は、第1雑音除去部7からの指向性雑音除去音声スペクトルF5(ω)と、第2雑音除去部8からの指向性雑音除去音声スペクトルF6(ω)との和として合成スペクトルF7(ω)を得ることで、指向性雑音に比してユーザの音声を目的音として一段と強調して集音し得るようになされている。
次に音源分離処理のうち、例えば筐体2の正面2a方向から目的音が到来するテレビ電話モード時において指向性雑音成分を除去した合成スペクトルF7(ω)から拡散性雑音成分を除去する拡散性雑音除去処理について以下説明する。
第1指向性制御部11は、前部無指向性マイクロフォンMC1からの受音信号X1(t)と、後部無指向性マイクロフォンMC2からの受音信号X2(t)とに基づいて生成した単一指向性信号D3(t)を周波数分析部40へ送出する。
また、第2指向性制御部30は、前部無指向性マイクロフォンMC3からの受音信号X3(t)と、後部無指向性マイクロフォンMC4からの受音信号X4(t)とに基づいて生成され単一指向性信号D10(t)を周波数解析部40へ送出する。
なお、ここで単一指向性信号D10(t)を周波数分析部40で周波数解析して得られる単一指向性スペクトル|F10(ω)|の指向特性は、y軸を中心にして筐体2の背面2b側にヌルが形成されて筐体2の正面2a方向への受音感度が最大となり、かつ背面2b側の受音感度が最小となる単一指向性パターンP3a(図4)となる。
周波数分析部40は、第1指向制御部11から得られる単一指向性信号D3(t)と、第2指向制御部30から得られる単一指向性信号D10(t)とを、高速フーリエ変換することにより周波数領域に変換し、これにより得られた単一指向性スペクトルF3(ω)及び単一指向性スペクトルF10(ω)をMSC算出部41に送出する。
因みに、この場合、目的音が到来する目的音方向v側にヌルが形成されると、目的音の受音感度が低下するため、筐体2の正面2a側から目的音が到来するテレビ電話モード時においては、筐体2の正面2a側の受音感度が高い単一指向性スペクトルF3(ω)及び単一指向性スペクトルF10(ω)を用いるが、これら指向性の方向が同じ出力信号を用いてMSC算出部41でMSC関数の演算(後述する)を行なうと、この計算結果として低域まで含めて全周波数帯域で低いMSC値が得られない。
従って、周波数分析部40は、低域を含む全周波数帯域でMSC値を小さくするために、単一指向性スペクトルF3(ω)及び単一指向性スペクトルF10(ω)のうちいずれか一方に替えて、例えば前部無指向性マイクロフォンMC3から出力された受音信号X3(t)を周波数領域に変換し、これにより得られる無指向性スペクトルF11(ω)をMSC算出部41へ送出する。
なお、この実施の形態の場合には、前部無指向性マイクロフォンMC3から出力された受音信号X3(t)を用いているが、本発明はこれに限らず、前部無指向性マイクロフォンMC1から出力された受音信号X1(t)、後部無指向性マイクロフォンMC2から出力された受音信号X2(t)又は後部無指向性マイクロフォンMC4から出力された受音信号X4(t)のいずれかを用いるようにしても良い。
実際上、MSC算出部41は、単一指向性スペクトルF3(ω)及び単一指向性スペクトルF10(ω)を受け取ると、単一指向性スペクトルF3(ω)を自乗したパワースペクトル強度値Wxxと、単一指向性スペクトルF10(ω)を自乗したパワースペクトル強度値Wyyとを算出するとともに、単一指向性スペクトルF3(ω)及び単一指向性スペクトルF10(ω)間のクロスパワースペクトル強度値Wxyを算出する。
そして、MSC算出部41は、この計算結果を利用して、下記式(1)に基づき所定の観測周波数帯域におけるMSC関数の演算を行なうことにより、低域から高域までの各周波数帯域におけるMSC値を算出し、これらをMSCデータM1としてスムージング部42に送出する。因みに、ここで「*」は複素共役を示している。
この場合、MSC算出部41では、単一指向性スペクトルF3(ω)と、単一指向性スペクトルF10(ω)とを用いてMSC値を算出することにより、MSC値のうち高域成分について「1」以下に抑えることができる。
かかる構成に加えて、MSC算出部41は、単一指向性スペクトルF10(ω)に替えて前部無指向性マイクロフォンMC3の出力たる無指向性スペクトルF11(ω)を周波数分析部40から受け取ると、当該単一指向性スペクトルF10(ω)に替えて無指向性スペクトルF11(ω)を用いて上述したMSC関数の演算を行なう。
この場合、MSC算出部41は、単一指向性スペクトルF3(ω)を自乗したパワースペクトル強度値Wxxと、無指向性スペクトルF11(ω)を自乗したパワースペクトル強度値Wyyと、単一指向性スペクトルF3(ω)及び無指向性スペクトルF11(ω)間のクロスパワースペクトル強度値Wxyとを算出し、これら計算結果を利用して、上記式(1)に基づき所定の観測周波数帯域におけるMSC関数の演算を行なう。
これによりMSC算出部41は、低域から高域までの各周波数帯域におけるMSC値を算出し、これらをMSCデータM1としてスムージング部42に送出する。このようにして単一指向性スペクトルF3(ω)及び無指向性スペクトルF11(ω)を用いて算出したMSC値は、図5の実線で示すように、高域成分だけでなく低域成分も含めて全周波数帯域に亘って低い値に抑制され得る。すなわち、この場合、MSC算出部41では、特に低域の周波数帯域においてもMSC値を「1」よりも低い値に抑えるようになされている。
スムージング部42は、入力されたMSCデータM1について時間に関するスムージング処理を行なう。スムージング処理は以下の式(2)に基づいて行われる。
ここでαは時間平均化の程度を変えるための乗数で、例えばα=0.8の値がとられる。またβは拡散性雑音低減に関する緩和乗数で、拡散性雑音低減の程度を調整する。
例えばβとしては、β=0.5の値がとられる。かくしてスムージング部42は、MSCデータm1に対して時間に関するスムージング処理を施したMSCデータm2を得、これを拡散性雑音分離部43に送出する。
拡散性雑音分離部43では、合成部9から受け取った合成スペクトルF7(ω)を自乗した後、スムージング部42から受け取ったスムージング処理されたMSCデータm2に基づいた値を、当該自乗した合成スペクトルF7(ω)に対して各周波数帯域毎に乗することにより、当該時間に関するスムージング処理を施したMSCデータm2でフィルタリングを行い、合成スペクトルF7(ω)を修正し、目的音のみの目的音スペクトルF15(ω)を得る。
このように拡散性雑音分離部43では、合成スペクトルF7(ω)のパワー値をMSC値に対応させて低減させ、高域での周波数帯域だけでなく、低域での周波数帯域においても拡散性雑音成分を除去した目的音スペクトルF15(ω)を生成し得る。
このようにして拡散性雑音と目的音とを分離した後には、会話を行う通話相手の携帯電話機等に送信したり、事前に適応処理又は学習処理を行って得られた音響モデルを用いて音声認識を行うことができる。
この際、拡散性雑音分離部43による処理で得られた周波数領域上の信号である目的音スペクトルF15(ω)を、時間領域上の信号である音声波形に変換する合成処理を行なった後、雑音を付与して周波数分析を行ない、その後、音声認識を行ってもよい。また、雑音の付与は、時間領域上ではなく、周波数領域上で行ってもよい。
以上の構成において、音源分離装置10では、単一指向性スペクトルF3(ω)と、単一指向性スペクトルF10(ω)とを用いてMSC値を算出するようにしたことにより、MSC値のうち高域成分について「1」以下に抑えることができる。
また、音源分離装置10では、単一指向性スペクトルF10(ω)に替えて無指向性スペクトルF11(ω)を用い、単一指向性スペクトルF3(ω)及び無指向性スペクトルF11(ω)を基にMSC値を算出するようにしたことにより、低域成分も含めてさらに全周波数帯域においてMSC値を従来よりも低い値にできる。
特に、低域の周波数帯域においては、従来のように無指向性マイクロフォンからのスペクトルのみを用いてMSC関数を演算すると、図5の点線で示すように、MSC値が「1」となり、このようなMSC値を用いても拡散性雑音を除去することができない。
これ対して本発明においては目的音方向vが既知であることを活用して、空間フィルタを用いる場合にも空間フィルタの指向特性が安定で大きな方向に目的音を設定でき、かくして良好な目的音をとりだせる。そして、低域の周波数帯域においてMSC値を最大値である「1」よりも低い値に抑えることができるので、当該MSC値を用いることにより低域の周波数帯域においても拡散性雑音を除去できる。
また、この音源分離装置10では、前部無指向性マイクロフォンMC1からの受音信号X1(t)及び後部無指向性マイクロフォンMC2からの受音信号X2(t)を用いてスペクトラル・サブトラクション(SS)法によって指向性雑音を除去するようにしたことにより、指向性雑音を除去するために別途マイクロフォン等を設ける必要がなく、その分だけ複雑な構成となることを防止し、装置全体として小型化を図ることができる。
さらに、この音源分離装置10では、指向性雑音を除去するために利用される前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2からの単一指向性信号D3(t)と、同じく指向性雑音を除去するために利用される前部無指向性マイクロフォンMC3からの受音信号X3(t)とを利用して、MSC算出部41、スムージング部42及び拡散性雑音分離部43によって拡散性雑音除去処理を行なうようにしたことにより、指向性雑音だけでなく、低域周波数帯域を含めて拡散性雑音を同時に除去できる統合的な装置を実現できる。
このように前部無指向性マイクロフォンMC1,MC3及び後部無指向性マイクロフォンMC2,MC4(アンプやA/Dも含め)を共用化して指向性雑音及び拡散性雑音を同時に低減することができるので、指向性雑音除去専用マイクロフォン及び拡散性雑音除去専用マイクロフォン等をそれぞれ個別に設けない分だけ、システム全体として簡易な構成とし、コスト低減を図ることができる。
さらに、この実施の形態においては、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2による単一指向性パターンP3の最大感度軸方向と、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4による単一指向性パターンP3aの最大感度軸方向とが、互いに同じ方向になるように形成され、当該最大感度軸方向から目的音(ユーザの音声)を到来させるようにしたことで、指向性雑音と同時に拡散性雑音の低減を行なうことができる。
また、MSC値の算出のために、単一指向性スペクトルF10(ω)に替えて無指向性スペクトルF11(ω)を用いることにより、さらに全周波数帯域においてMSC値を従来よりも低い値にでき、かくして低域周波数帯域も含めて全周波数帯域で拡散性雑音を除去することができる。
なお、この実施の形態の場合、前部無指向性マイクロフォンMC1,MC3及び後部無指向性マイクロフォンMC2,MC4は、無指向性であることから、振幅位相周波数特性の乱れを抑制できるとともに、風雑音の低減を図ることもできる。
以上の構成によれば、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフ
ォンMC2と、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4とを目的音が到来する目的音方向vに間隔を置いて配置し、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2を結ぶx軸がその指向特性の最大感度軸と同一となり、かつ前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4を結ぶy軸がその指向特性の最大感度軸と同一となるようにした。
また、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2による単一指向性信号D3(t)と、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4からの単一指向性信号D10(t)との2個の出力信号を用いてクロスパワースペクトル強度値を算出し、このクロスパワースペクトル強度値に基づいて、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2の出力信号と、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4と出力信号とに基づいた周波数成分のMSCデータm1(解析パラメータ)をMSC算出部41で算出し、このMSCデータm1に基づいて拡散性雑音とその他の音を拡散性雑音分離部43で分離するようにした。これにより指向性雑音と同時に拡散性雑音の低減を行なうことができる。
また、単一指向性スペクトルF10(ω)に替えて無指向性スペクトルF11(ω)を用いてMSC値の算出を行なうようにしたことにより、低域も含めてさらに全周波数帯域においてMSC値を従来よりも一段と低い値にでき、かくして低域周波数帯域も含めて全周波数帯域で拡散性雑音を除去することができる。
従って、この音源分離装置10では、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2間の間隔や、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4間の間隔を従来のように所定以上の距離まで離さなくても、低域周波数帯域で低くなったMSC値により、拡散性雑音について高域の周波数成分だけでなく、低域の周波数成分についても確実に除去できるので、従来よりも前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2間の間隔や、前部無指向性マイクロフォンMC3及び後部無指向性マイクロフォンMC4間の間隔を狭めることができ、かくして一段と小型化を図ることができる。よって携帯電話機等の小型通信端末に対しても確実に搭載することができる。
なお、本発明は、上記の実施の形態に限定されるものではなく、種々の変形実施が可能である。例えば、上述した第1の実施の形態においては、スペクトラル・サブトラクション(SS)法を用いて指向性雑音を除去した指向性雑音除去音声スペクトルを生成するようにした場合について述べたが、本発明はこれに限らず、バイナリマスク法を用いて指向性妨害音を除去した指向性妨害音除去音声スペクトルを生成するようにしても良い。
実際上、スペクトラル・サブトラクション(SS)法の替わりにバイナリマスク法を用いた場合、指向性雑音分離部は、双指向性スペクトルF1(ω)と、例えば単一指向性スペクトルF2(ω)との間で同一の周波数帯域の各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で双指向性スペクトルF1(ω)の方が単一指向性スペクトルF2(ω)よりも大きい時、双指向性スペクトルF1(ω)の方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行なう。
なお、筐体2の背面2b側から目的音が到来する録画モードにおいては、筐体2の背面2b側の受音感度が高い単一指向性スペクトルF2(ω)及び単一指向性スペクトルF9(ω)と、例えば無指向性スペクトルF11(ω)をMSC算出部41に送出する構成とし、これら単一指向性スペクトルF2(ω)及び単一指向性スペクトルF9(ω)、若しくは単一指向性スペクトルF2(ω)及び単一指向性スペクトルF9(ω)のいずれかの替わり無指向性スペクトルF11(ω)を用いてMSCデータを算出すれば、上述した実施の形態と同様の効果を得ることができる。
(2)第2の実施の形態
図1との対応部分に同一符号を付して示す図6は第2の実施の形態による折り畳み式携帯電話機50を示すもので、この折り畳み式携帯電話機50は、表示部3、スピーカ5及びカメラ6が正面51aに設けられた表示部筐体51と、操作部4及び4つの無指向性マイクロフォンMC5,MC6,MC7,MC8が筐体面としての正面52aに設けられた操作部筐体52とがヒンジ部53を介して折り畳み及び展開可能に構成されている。
実際上、この折り畳み式携帯電話機50は、スティックタイプの携帯電話機1(図1)の筐体2に比べて表示部筐体51及び操作部筐体52の厚さ寸法が極力薄くなるように形成されていることから、無指向性マイクロフォンMC5,MC6,MC7,MC8が下端面52cではなく、ユーザの音声(目的音)が到来する目的音方向vと直角方向となる操作部筐体52の正面52a四隅にそれぞれ配置された構成を有する。
この実施の形態の場合には、無指向性マイクロフォンMC5,MC6,MC7,MC8
は、所定位置での目的音方向vとヌル方向とを異ならせ、所定位置での目的音方向vを軸として回転させたときに、同一となる指向性を形成するように、折り畳み式携帯電話機50の操作面としての操作部筐体52の正面52aに設けられている。なお、本発明はこれに限らず、所定位置での目的音方向vとヌル方向とを異ならせ、所定位置での目的音方向vを軸として回転させたときに、同一となる指向性を形成できれば、無指向性マイクロフォンMC5,MC6,MC7,MC8を折り畳み式携帯電話機50の表示面としての表示部筐体51の正面51aに設けるようにしても良い。
図2との対応部分に同一符号を付して示す図7のように、折り畳み式携帯電話機50に内蔵されている音源分離装置54は、テレビ電話モード及び表示部筐体52の背面側に有するカメラ(図示せず)で撮像する録画モードの両モード時において、上述した第1の実施の形態と同様に、無指向性マイクロフォンMC5,MC6から出力された受信信号X1(t),X2(t)を用いて、第1指向性制御部11により、双指向性信号D1(t)、単一指向性信号D2(t)及び単一指向性信号D3(t)を生成し、これらを第1雑音除去部54の周波数分析部13へ送出するとともに、単一指向性信号D3(t)を周波数解析部40にも送出する。
周波数分析部13は、これら双指向性信号D1(t)、単一指向性信号D2(t)及び単一指向性信号D3(t)の周波数解析を行い、双指向性スペクトルF1(ω)、単一指向性スペクトルF2(ω)及び単一指向性スペクトルF3(ω)を求めた後、これらを指向性雑音分離部56へ送出する。
ここで双指向性スペクトル|F1(ω)|の指向特性は、図8に示すように、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC6を結ぶx´軸を中心として、操作部筐体52の両側面側での受音感度が最大となる縦「8」の字状の双指向性パターンP1となる。また、単一指向性スペクトル|F2(ω)|の指向特性は、x´軸を中心として、操作部筐体52の一側面側にヌルが形成されて受音感度が最小となる単一指向性パターンP2なり、単一指向性スペクトル|F3(ω)|の指向特性は、x´軸を中心として、単一指向性パターンP2とは逆方向に操作部筐体52の他側面側にヌルが形成されて受音感度が最小となる単一指向性パターンP3となる。
指向性雑音分離部56は、単一指向性スペクトルF3(ω)と、双指向性スペクトルF1(ω)とを用いて、スペクトラル・サブトラクション(SS)法を行ない、各周波数における単一指向性スペクトルF3(ω)の大きさから、双指向性スペクトルF1(ω)の大きさを差し引くことにより、図8に示すように、操作部筐体52の側面側から到来する雑音を低減したスペクトルを生成する。
この時同時に指向性雑音分離部56は、一方の無指向性マイクロフォンMC6の設置された側の空間(図8では右側空間)から到来する、目的音を含む音に対する利得が、目的音方向vから他方の無指向性マイクロフォンMC5の設置された側の空間(図8では左側空間)方向にずれるとき、急激に小さくなることを利用して、目的音に対する指向性を高めるように働く。
また、指向性雑音分離部56は、単一指向性スペクトルF2(ω)と、双指向性スペクトルF1(ω)とを用いて、スペクトラル・サブトラクション(SS)法を行ない、各周波数における単一指向性スペクトルF2(ω)の大きさから、双指向性スペクトルF1(ω)の大きさを差し引くことにより、操作部筐体52の側面側から到来する雑音を低減したスペクトルを生成する。
この時同時に指向性雑音分離部56は、他方の無指向性マイクロフォンMC5の設置された側の空間(図8では左側空間)から到来する、目的音を含む音に対する利得が、目的音方向vから一方の無指向性マイクロフォンMC6の設置された側の空間(図8では右側空間)方向にずれるとき、急激に小さくなることを利用して、目的音に対する指向性を高めるように働く。
また、これに加えて指向性雑音分離部56は、以上で作られた2種のスペクトルについてミニマイゼーション処理を行なうようになされている。
ここでミニマイゼーション処理は、周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを目的音のスペクトルとして帰属させる処理であり、これにより指向性雑音分離部56は、スペクトル統合処理を行い指向性雑音を除去した指向性雑音除去音声スペクトルF20(ω)を生成し、これを合成部57へ送出する。
因みに、ミニマイゼーションによるスペクトル統合処理では、同一の周波数帯域のパワー同士を比較し、各周波数帯域で劣勢の方のパワーが選択され、これらを音声の音声スペクトルとして帰属させることにより、音声と指向性雑音とを分離することができる。
なお、ミニマイゼーションによるスペクトル統合処理は、各周波数帯域毎の劣勢の方のパワーを捨てることなく、指向性雑音除去音声スペクトルF20(ω)として帰属させ得る。
かかる構成に加えて無指向性マイクロフォンMC6と対角線上に配置された無指向性マイクロフォンMC7は、無指向性マイクロフォンMC5とともに、第3指向性制御部58に接続されており、当該無指向性マイクロフォンMC5から出力された受音信号X1(ω)と、無指向性マイクロフォンMC7から出力された受音信号X3(ω)とが第3指向性制御部58に送出される。
周波数分析部59及び指向性雑音分離部60からなる第2雑音除去部55と、第3指向性制御部58とは、先に説明した第1雑音除去部54と第1指向性制御部11と同様の構成からなり、指向性雑音除去音声スペクトルF20(ω)の生成処理と同様の生成処理を実行し得ることにより、無指向性マイクロフォンMC5からの受音信号X1(ω)と、無指向性マイクロフォンMC7からの受音信号X3(ω)とに基づいて指向性雑音除去音声スペクトルF21(ω)を生成し得るようになされている。
なお、この場合、第3指向性制御部58は、第1指向性制御部11と同様に加算回路や遅延回路(図示せず)が設けられており、これら加算回路等により、無指向性マイクロフォンMC5からの受音信号X1(t)及び無指向性マイクロフォンMC7からの受音信号X3(t)との差をとる処理を行って双指向性信号D22(t)(すなわち、X1(t)−X3(t))を生成し、周波数分析部59を介して指向性雑音分離部60に送出する。
ここで双指向性信号D22(t)を周波数分析部59で周波数解析して得られる双指向性スペクトル|F22(ω)|の指向特性は、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC7を結ぶ軸を中心として、操作部筐体52の上端(すなわちヒンジ部53側)及び下端面52c方向での受音感度が最大となる縦「8」の字状の双指向性パターン(図示せず)となる。
また、第3指向性制御部58は、遅延回路で無指向性マイクロフォンMC5から無指向性マイクロフォンMC7までの音波伝播時間だけ、当該無指向性マイクロフォンMC7からの受音信号X3(t)を遅延させた遅延信号X3’(t)と、受音信号X1(t)との差をとった単一指向性信号D23(t)(すなわち、X3’(t)−X1(t))を生成し、周波数分析部59を介して指向性雑音分離部60に送出する。
ここで単一指向性信号D23(t)を周波数分析部59で周波数解析して得られる単一指向性スペクトル|F23(ω)|の指向特性は、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC7を結ぶ軸を中心として、操作部筐体52のヒンジ部53側にヌルが形成されて操作部筐体52のヒンジ部53方向への受音感度が最小となる単一指向性パターン(図示せず)となる。
さらに、第3指向性制御部58は、遅延回路で無指向性マイクロフォンMC5から無指向性マイクロフォンMC7までの音波伝播時間だけ、当該無指向性マイクロフォンMC5からの受音信号X1(t)を遅延させた遅延信号X1’(t)と、受音信号X3(t)との差をとった単一指向性信号D24(t)(すなわち、X1’(t)−X3(t))を生成し、周波数分析部59を介して指向性雑音分離部60に送出する。
ここで単一指向性信号D24(t)を周波数分析部59で周波数解析して得られる単一指向性スペクトル|F24(ω)|の指向特性は、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC7を結ぶ軸を中心として、操作部筐体52の下端面52c側にヌルが形成されて操作部筐体52の下端面52c方向への受音感度が最小となる単一指向性パターン(図示せず)となる。
指向性雑音除去部60は、上述した指向性雑音除去部56と同様にスペクトラル・サブトラクション(SS)法を行ない、各周波数帯域毎に単一指向性スペクトルF23(ω)の大きさから、双指向性スペクトルF22(ω)の大きさを差し引くことにより、操作部筐体52の上下端方向(図8)から到来する雑音を低減したスペクトルを生成する。
また、指向性雑音分離部60は、スペクトラル・サブトラクション(SS)法を行ない、各周波数帯域毎に単一指向性スペクトルF24(ω)の大きさから、双指向性スペクトルF22(ω)の大きさを差し引くことにより、操作部筐体52の上下端方向から到来する雑音を低減したスペクトルを生成する。
これに加えて指向性雑音分離部60は、以上で作られた2種のスペクトルについて、上述と同じミニマイゼーション処理を行ない、スペクトル統合して指向性雑音を除去した指向性雑音除去音声スペクトルF21(ω)を生成し、これを合成部57へ送出する。
合成部57は、第1雑音除去部54からの指向性雑音除去音声スペクトルF20(ω)と、第2雑音除去部55からの指向性雑音除去音声スペクトルF21(ω)とをミ二マイゼーション処理して合成スペクトルF7(ω)を得ることで、指向性雑音に比してユーザの音声を目的音として一段と強調して集音し得るようになされている。
つまり、x´軸方向である無指向性マイクロフォンMC5及び無指向性マイクロフォンMC6を結ぶ軸方向からの指向性雑音を除去することと、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC7を結ぶ軸方向からの指向性雑音を除去することとを、ミニマイゼーション処理によって同時に実現し、x´軸方向と、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC7を結ぶ軸方向ともに利得が制限されたビーム状指向性とするように制限を加えるためである。
一方、音源分離処理のうち、合成スペクトルF7(ω)から拡散性雑音成分を除去する本発明の拡散性雑音除去処理については、上述した第1の実施の形態と同様にして実行され得る。
すなわち、周波数解析部40は、第2指向制御部61から得られる単一指向性信号D4(t)と、第1指向制御部11から得られる単一指向性信号D3(t)とを、高速フーリエ変換することにより周波数領域に変換し、これにより得られた単一指向性スペクトルF3(ω)及び単一指向性スペクトルF4(ω)をMSC算出部41に送出する。
MSC算出部41は、この計算結果を利用して、上記式(1)に基づき所定の観測周波数帯域におけるMSC値を算出し、この低域から高域までの周波数帯域において変化するMSC値をMSCデータm3としてスムージング部42に送出する。
スムージング部42は、MSCデータm3に対して時間に関するスムージング処理を施したMSCデータm4を得、これを拡散性雑音分離部43に送出する。
拡散性雑音分離部43では、合成部57からの合成スペクトルF7(ω)を自乗し、MSCデータm4を基にMSC値を各周波数帯域毎に乗することにより、当該MSCデータm4でフィルタリングを行い、目的音のパワースペクトルを修正する。
このように拡散性雑音分離部43では、合成スペクトルF7(ω)のパワー値をMSC値に対応させて低減させ、高域の周波数帯域だけでなく低域の周波数帯域においても拡散性雑音成分を除去した目的音スペクトルF15(ω)を生成し得る。
以上の構成によれば、目的音方向vと直角をなす方向である操作部筐体52の正面52aに、互いの位置関係が長方形の頂点の位置をなすように4つの無指向性マイクロフォンMC5,MC6,MC7,MC8を設けるようにした。
このように無指向性マイクロフォンMC5,MC6,MC7,MC8によって形成され
た指向特性を、所定位置での目的音方向vを軸として回転させたときに、同一となる無指向性マイクロフォンMC5,MC6,MC7,MC8によって、テレビ電話モード時及び録画モード時のとき、指向性雑音を除去する構成の携帯電話機50であっても、上述した第1の実施の形態と同様に、低域周波数帯域でも低くなったMSC値を算出し、このMSC値を用いて合成スペクトルF7(ω)の周波数成分の解析を行なえ、目的音と拡散性雑音とを分離することができる。
従って、音源分離装置54では、無指向性マイクロフォンMC5,MC6,MC7,MC8間の間隔を所定距離以上まで離さずに、低域周波数帯域でも低くなったMSC値により、拡散性雑音について高域の周波数成分とともに低域の周波数成分についても確実に除去できるので、従来よりも無指向性マイクロフォンMC5,MC6,MC7,MC8間の間隔を狭めることができ、かくして一段と小型化を図ることができる。
またこの実施の形態においては、無指向性マイクロフォンMC5及び無指向性マイクロフォンMC6による単一指向性パターンP3と、無指向性マイクロフォンMC7及び無指向性マイクロフォンMC8による単一指向性パターンP4とが、互いにヌルを対向させ、最大感度軸方向が互いに逆方向に形成され、当該最大感度軸方向と直交する方向から目的音(ユーザの音声)を到来させるようにしたことで、低域周波数帯域も含めて全周波数帯域で拡散性雑音を効率的に除去させることができる。
(3)第3の実施の形態
図2との対応部分に同一符号を付して示す図9は、第3の実施の形態による音源分離装置70を示し、この音源分離装置70は、上述した第1の実施の形態と異なり、筐体2(図1)の下端面2cに2つの無指向性の前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2のみを用いて、指向性雑音成分及び拡散性雑音成分を除去し得る点で異なるものである。
この場合、音源分離装置70は、先ず始めに通話時にユーザが声を発していない状態(以下、これを無目的音状態と呼ぶ)において、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2で周囲の指向性雑音や拡散性雑音を集音する。
音源分離装置70は、このとき前部無指向性マイクロフォンMC1から出力された受音信号X1n(t)と、後部無指向性マイクロフォンMC2から出力された受音信号X2n(t)とをそのまま周波数分析部13へ送出し、当該周波数分析部13において受音信号X1n(t)及び受音信号X2n(t)を高速フーリエ変換することにより周波数領域に変換し、当該受音信号X1n(t)から得られた無目的音スペクトルFX1n(ω)及び受音信号X2n(t)から得られた無目的音スペクトルFX2n(ω)をMSC算出部41に送出する。
MSC算出部41は、無目的音スペクトルFX1n(ω)を自乗したパワースペクトル強度値Wxxと、無目的音スペクトルFX2n(ω)を自乗したパワースペクトル強度値Wyyとを算出するとともに、この無目的音スペクトルFX1n(ω)及び無目的音スペクトルFX2n(ω)間のクロスパワースペクトル強度値Wxyを算出する。
MSC算出部41は、この計算結果を利用して、上記した第1の実施の形態の式(1)に基づき所定の観測周波数帯域におけるMSC関数の演算を行なうことにより、無目的音状態での低域から高域までの各周波数帯域におけるMSC値を算出し、これらをMSCデータm5として差分算出部72に送出する。
そして、その後、ユーザが声を発して通話相手と実際に通話が開始された状態(以下、これを目的音受音状態と呼ぶ)になると、この音源分離装置70は、ユーザの音声を目的音として前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2で集音し得る。
指向性制御部71は、前部無指向性マイクロフォンMC1からの受音信号X1(t)及び後部無指向性マイクロフォンMC2からの受音信号X2(t)をそのまま周波数分析部13へ送出し、当該周波数分析部13において受音信号X1(t)及び受音信号X2(t)を高速フーリエ変換することにより周波数領域に変換し、当該受音信号X1(t)から得られたMSC用音声スペクトルFX1(ω)及び受音信号X2(t)から得られたMSC用音声スペクトルFX2(ω)をMSC算出部41に送出する。
MSC算出部41は、MSC用音声スペクトルFX1(ω)を自乗したパワースペクトル強度値Wxxと、MSC用音声スペクトルFX2(ω)を自乗したパワースペクトル強度値Wyyとを算出するとともに、このMSC用音声スペクトルFX1(ω)及びMSC用音声スペクトルFX2(ω)間のクロスパワースペクトル強度値Wxyを算出する。
MSC算出部41は、この計算結果を利用して、上記した第1の実施の形態の式(1)に基づき所定の観測周波数帯域におけるMSC関数の演算を行なうことにより、目的音受音状態での低域から高域までの各周波数帯域におけるMSC値を算出し、これらをMSCデータm6として差分算出部72に送出する。
差分算出部72は、無目的音状態での受音信号X1n(t)及び受音信号X2n(t)から得られたMSCデータm5と、目的音受音状態での受音信号X1(t)及び受音信号X2(t)から得られた解析パラメータとしてのMSCデータm6との各周波数帯域毎に差分を算出し、目的音受音状態において算出したMSCデータm6を、無目的音状態において算出したMSCデータm5によって補正する。
そして、差分算出部72は、このようにして各周波数帯域毎に算出した補正操作値としての差分MSC値を差分MSCデータm7としてスムージング部42に送出する。
スムージング部42は、差分MSCデータm7について時間に関するスムージング処理を行ない、これにより得られた差分MSCデータm8を拡散性雑音分離部43に送出する。
そして、これと同時に指向性制御部71は、上述した第1の実施の形態と同様に、前部無指向性マイクロフォンMC1からの受音信号X1(t)及び後部無指向性マイクロフォンMC2からの受音信号X2(t)に基づいて加算回路や遅延回路等により双指向性信号D1(t)、単一指向性信号D2(t)及び単一指向性信号D3(t)を生成し、これらを周波数解析部13に送出する。
周波数解析部13は、双指向性信号D1(t)、単一指向性信号D2(t)及び単一指向性信号D3(t)を高速フーリエ変換することにより周波数領域に変換し、これにより得られた双指向性信号D1(t)の双指向性スペクトルF1(ω)を指向性雑音分離部17に送出するとともに、単一指向性信号D2(t)の単一指向性スペクトルF2(ω)と、単一指向性信号D3(t)の単一指向性スペクトルF3(ω)とを切替部16に送出する。
切替部16は、ユーザによるテレビ電話モード又は録画モードの選択により操作部4の操作に応じて切替動作し、周波数分析部13から受け取った単一指向性スペクトルF2(ω)及び単一指向性スペクトルF3(ω)のうちいずれか一方を選択して、単一指向性スペクトルF2(ω)又は単一指向性スペクトルF3(ω)を指向性雑音分離部17に送出する。
指向性雑音分離部17では、スペクトラル・サブトラクション(SS)法を用いて、周波数帯域毎に、双指向性スペクトルF1(ω)のパワーγから、例えばテレビ電話モード時では単一指向性スペクトルF2(ω)(録画モード時では単一指向性スペクトルF3(ω))のパワーδに係数Kを乗じた値(K×δ)を減じ、これにより筐体6の正面6a側から到来する指向性雑音を除去した指向性雑音除去音声スペクトルF5(ω)を生成し、これを拡散性雑音分離部43に送出する。
拡散性雑音分離部43では、指向性雑音除去音声スペクトルF5(ω)を指向性雑音分離部17から受け取ると、当該指向性雑音除去音声スペクトルF5(ω)を自乗した後、差分MSCデータm8を各周波数帯域毎に乗することにより、当該差分MSCデータm8でフィルタリングを行い、指向性雑音除去音声スペクトルF5(ω)を修正し、目的音のみの目的音スペクトルF15(ω)を生成し得る。
このようにして拡散性雑音分離部43では、指向性雑音除去音声スペクトルF5(ω)のパワー値を、無目的音状態と目的音受音状態とでのMSC値の差分をとった差分MSC値に対応させて低減させ、高域の周波数帯域だけでなく低域の周波数帯域においても拡散性雑音成分を除去した目的音スペクトルF15(ω)を生成し得るようになされている。
以上の構成によれば、無目的音状態での前部無指向性マイクロフォンMC1からの受音信号X1n(t)及び後部無指向性マイクロフォンMC2からの受音信号X2n(t)と、目的音受音状態での前部無指向性マイクロフォンMC1からの受音信号X1(t)及び後部無指向性マイクロフォンMC2からの受音信号X2(t)とを入力として、周波数分析部13を介してMSC算出部41で各周波数帯域毎にそれぞれMSC値を算出するとともに、差分算出部72においてこれらMSC値の各周波数帯域毎での差分MSC値を算出し、これら差分値としての差分MSC値を用いて拡散性除去処理を行なうようにした。
従って、音源分離装置70では、2つの前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2間の間隔を所定以上の距離まで離さなくても、低域周波数帯域で低くなった差分MSC値により、拡散性雑音について高域の周波数成分とともに低域の周波数成分についても確実に除去できるので、従来よりも前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2間の間隔を狭めることができ、かくして一段と小型化を図ることができる。
また、この音源分離装置70では、指向性雑音を除去するために用いられる前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2を用い、これら前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2から得られる無目的音状態での受音信号X1n(t)及び受音信号X2n(t)と、目的音受音状態での受音信号X1(t)及び受音信号X2(t)とに基づき差分MSCデータm8を生成して、この差分MSCデータm8を基に拡散性雑音除去処理を行なうようにしたことにより、前部無指向性マイクロフォンMC1及び後部無指向性マイクロフォンMC2のみで指向性雑音だけでなく、拡散性雑音をも同時に除去できる統合的な装置を実現できる。
(4)第4の実施の形態
図6との対応部分に同一符号を付して示す図10は、第4の実施の形態による折り畳み式携帯電話機80を示し、この折り畳み式携帯電話機80は、上述した第2の実施の形態における4つの無指向性マイクロフォンMC5,MC6,MC7,MC8に替えて、操作部筐体52の一方の側面52dに指向性マイクロフォンMC10を設けるとともに、当該一方の側面52dと対向した他方の側面52eに指向性マイクロフォンMC11が設けられている。
この場合、一方の指向性マイクロフォンMC10の指向特性は、図11に示すように、指向性マイクロフォンMC10及び指向性マイクロフォンMC11を結んだx´´軸と、指向特性の最大感度軸とが同一であり、図中右側(操作部筐体52の他方の側面52e側)にヌルを有した単一指向性パターンP10となるように配置されている。
また、他方の指向性マイクロフォンMC11の指向特性は、x´´軸と、指向特性の最大感度軸とが同一で、かつ図中左側(操作部筐体52の一方の側面52d側)にヌルを有した単一指向性パターンP11となるように配置されている。
このように指向性マイクロフォンMC10及び指向性マイクロフォンMC11は、互いに逆方向に指向特性の最大感度を有するように配置されている。
また、指向性マイクロフォンMC10及び指向性マイクロフォンMC11は、当該指向性マイクロフォンMC10からの受音信号X10(t)と、指向性マイクロフォンMC11からの受音信号X11(t)とに基づいて、x´´軸を指向特性の最大感度軸の中心とした横「8」の字状の双指向性パターンP11を形成し得るようになされている。
そして、上述した第2の実施の形態と同様にして、折り畳み式携帯電話機80では、単一指向性パターンP10の指向性マイクロフォンMC10から得た受音信号X10(t)に基づく単一指向性スペクトルと、単一指向性パターンP11の指向性マイクロフォンMC11から得た受音信号X11(t)に基づく単一指向性スペクトルと、双指向性パターンP11を形成する指向性マイクロフォンMC10及び指向性マイクロフォンMC11からの出力信号に基づく双指向性スペクトルとを生成する。
そして、折り畳み式携帯電話機80に内蔵した音源分離装置は、スペクトラル・サブトラクション(SS)法を行ない、各周波数における単一指向性スペクトルの大きさから、双指向性スペクトルの大きさを差し引くことにより、操作部筐体52の側面52e,52d方向にあたるx´´軸方向側から到来する雑音を低減した2種のスペクトルを生成した後、ミニマイゼーション処理を行なう。
かくしてこの折り畳み式携帯電話機80ではミニマイゼーション処理によって音声と指向性雑音とを分離した指向性雑音除去音声スペクトルを生成できる。
また、指向性雑音除去音声スペクトルから拡散性雑音成分を除去する本発明の拡散性雑音除去処理については、単一指向性パターンP10の指向特性信号と、単一指向性パターンP11の指向特性信号とを用いて、上述した第1の実施の形態と同様にして実行され、指向性雑音除去音声スペクトルのパワー値をMSC値に対応させて低減させ、高域の周波数帯域だけでなく低域の周波数帯域においても拡散性雑音成分を除去した目的音スペクトルF8(ω)を生成し得る。
以上の構成において、折り畳み式携帯電話機80では、上述した第2の実施の形態と同様に、指向性マイクロフォンMC10及び指向性マイクロフォンMC11を結んだx´´軸方向からの指向性雑音を除去できるとともに、高域から低域にかけて全周波数帯域で拡散性雑音を除去できる。
また、この折り畳み式携帯電話機80では、第2の実施の形態に比してマイクロフォンの数を低減することができるので、装置全体として簡易な構成にできる。
なお、上述した実施の形態においては、折り畳み式携帯電話機80の操作部筐体52における一方の側面52dに指向性マイクロフォンMC10を設け、他方の側面52eに指向性マイクロフォンMC11を設けるようにした場合について述べたが、本発明はこれに限らず、図6との対応部分に同一符号を付して示す図12のように、折り畳み式携帯電話機90の操作部筐体52の正面52a下部に指向性マイクロフォンMC13を設け、当該指向性マイクロフォンMC13に対向する背面52f下部に指向性マイクロフォンMC14を設ける等この他種々の位置に指向性マイクロフォンを設けるようにしても良い。
この場合、図13に示すように、一方の指向性マイクロフォンMC13の指向特性は、指向性マイクロフォンMC13及び指向性マイクロフォンMC14を結んだ、x´´´軸と、指向特性の最大感度軸とが同一で、かつ操作部筐体52の背面52f側にヌルを有した単一指向性パターンP13となるように配置される。
また、他方の指向性マイクロフォンMC14の指向特性は、x´´´軸と指向特性の最大感度軸とが同一で、かつ操作部筐体52の正面52aにヌルを有した単一指向性パターンP14となるように配置される。
このように指向性マイクロフォンMC13及び指向性マイクロフォンMC14は、互いに逆方向に指向特性の最大感度を有するように配置され、かつ受音信号X13(t)及び受音信号X14(t)に基づいて、x´´´軸を指向特性の最大感度軸の中心とし、正面52a側及び背面52f側が最大感度となる双指向性パターンP15を形成し得るようになされている。
これにより折り畳み式携帯電話機90では、上述した第1の実施の形態と同様に、音源分離処理のうち指向性雑音除去処理を実行することにより、受音信号X13(t)及び受音信号X14(t)から指向性雑音成分を除去した指向性雑音除去音声スペクトルを生成する。
また、指向性雑音除去音声スペクトルから拡散性雑音成分を除去する本発明の拡散性雑音除去処理については、単一指向性パターンP13の指向特性信号と、双指向性パターンP15の指向特性信号とを用いて、上述した第1の実施の形態と同様にして実行され、指向性雑音除去音声スペクトルのパワー値をMSC値に対応させて低減させ、高域の周波数帯域だけでなく低域の周波数帯域においても拡散性雑音成分を除去した目的音スペクトルF8(ω)を生成し得る。
以上の構成において、折り畳み式携帯電話機90では、操作部筐体52と側面方向(図12中の左右方向)及び正面52a背面52f方向から到来する指向性雑音を除去できるとともに、高域から低域にかけて全周波数帯域で拡散性雑音を除去できる。
(5)他の実施の形態
以上、本発明の第1〜第4の実施の形態について説明したが、本発明は、当該第1〜第
4の実施の形態に限定されるものではなく、種々の変形実施が可能である。例えば、第2
の実施の形態において表示部筐体51の正面51aや背面等のこの他種々の箇所にマイクロフ
ォンMC5等の各種マイクロフォンを設けるようにしても良い。所定位置での目的音方向vとヌル方向とを異ならせ、当該目的音方向vを軸として回転させたときに指向特性が同一となるように指向性マイクロフォン、またそのような指向性を形成する無指向性マイクロフォンを種々の箇所に設けるようにしても良い。
また、第2の実施の形態においては、マイクロフォンMC5,MC6,MC7,MC8から選択した2個の組み合わせのマイクロフォン対の出力信号2個に遅延差を与えた後、差をとることで得られた指向性信号を複数個生成し、この指向性信号2個づつで、複数のクロスパワースペクトル強度値を算出して、当該クロスパワースペクトル強度値に基づいて、マイクロフォンMC5,MC6,MC7,MC8の出力信号における周波数成分のMSCデータを複数個求め、複数個のMSCデータの各周波数最小値により目的音と拡散性雑音とを分離するようにしても良い。
このような場合には、複数個のMSCデータの各周波数最小値を用いることから、各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を確実に除去することができる。
さらに、第2の実施の形態においては、複数の指向性信号を高速フーリエ変換することにより周波数スペクトルに変換して各周波数スペクトルを大きさ成分と位相成分とに分け、当該大きさ成分(以下、これをマグニチュードと呼ぶ)サンプルのうち最小のマグニチュードサンプル(以下、これを最小マグニチュードサンプルと呼ぶ)を選択して、これを利用して各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を除去するようにしても良い。
この場合、最小マグニチュードサンプルを選択して、指向性信号の生成に用いた無指向性マイクロフォン対の出力信号の差分信号における各周波数スペクトルのマグニチュードサンプルとの間で、マグニチュード差分値を算出してこれを拡散性分離部の入力とし、マグニチュード差分値を用いて各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を確実に除去することができる。
さらに、第2の実施の形態においては、複数の無指向性マイクロフォンで生成した複数の指向性信号を高速フーリエ変換し、これにより得られた各周波数スペクトルの最小マグニチュードサンプルを選択して、指向性信号の生成に用いた無指向性マイクロフォン対の出力信号の差分信号における各周波数スペクトルのマグニチュードサンプルとの間で、最小マグニチュードサンプル値の方が大きいときに、当該最小マグニチュードサンプル値を出力とし、それ以外は出力値を概略0として拡散性分離部の入力とするようにしても良い。
このような場合でも最小マグニチュードサンプル値及び概略0の出力値から、各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を確実に除去することができる。
さらに、上述した実施の形態のうち任意に選択した実施の形態を組み合わせた音源分離装置を実現するようにしても良い。
例えば、第2の実施の形態による音源分離装置50においても、第3の実施の形態のように、無目的音状態のときに前部無指向性マイクロフォンMC5及び後部無指向性マイクロフォンMC6を無指向性として機能させ、このとき得られた受音信号に基づいて上記式(1)を用いMSCデータを生成し、その後、目的音受音状態で得られた受音信号に基づいてMSCデータを生成した後、これらMSCデータの差分でなる補正操作値としての差分MSCデータを得て拡散性雑音を除去するようにしても良い。
また、例えば、第2の実施の形態において、複数のMSCデータや差分MSCデータを同時に生成し、これらMSCデータや差分MSCデータのうち各周波数帯域毎に適宜最小値のものを選定し、これにより拡散性雑音を除去するようにしても良い。
すなわち、例えば閾値として所定周波数帯域を設定しておき、当該所定周波数帯域よりも高域の周波数帯域においては、差分MSC値を用いるとともに、当該所定周波数帯域よりも低い周波数帯域では、指向性を持たせたマイクロフォンMC5及びマイクロフォンMC6等によって生成したMSCデータm4を用い、これにより状況に応じた最適な拡張性雑音除去処理を行なうことができる。
さらに、上述した第2の実施の形態においては、マイクロフォンMC5及びマイクロフォンMC6と、マイクロフォンMC7及びマイクロフォンMC8とで2つの指向性マイクロフォンを構築するようにした場合について述べたが、本発明はこれに限らず、3つの第1〜第3マイクロフォンを設け、これら第1〜第3マイクロフォンによって2つの指向性マイクロフォンを構築するようにしても良い。
このように3つの第1〜第3マイクロフォンを用いる場合には、互いの位置関係が二等辺三角形や三角形の頂点の位置をなすように3つの第1〜第3マイクロフォンが配置され、これら第1〜第3マイクロフォンからそれぞれ出力される受音信号に対して適宜、遅延処理を施すことにより、第1マイクロフォン及び第2マイクロフォンにより指向性マイクロフォンを構築するとともに、第1マイクロフォン及び第3マイクロフォンにより他の指向性マイクロフォンを構築させるようにしても良く、この場合、拡散性雑音を除去できるという上述した効果と同様の効果を得ることができるとともに、マイクロフォン数を減らすことができ、一段と小型化を図ることができる。
さらに、この第2の実施の形態においては、目的音受音状態での受音信号から得られたMSC値と無目的音状態での受音信号から得られた無目的音MSC値の差分値と、MSC値の最大値である1と当該無目的音MSC値の差分値との比を求め、これを補正操作値としての差分MSC値として用いて各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を除去するようにしても良い。
さらに、目的音受音状態での受音信号から得られたMSCデータと無目的音状態での受音信号から得られた無目的音MSCデータの差分MSC値を算出するとともに、当該差分MSC値と最大値である1及び無目的音MSC値の差分値の比とを算出し、これらを選択的に利用して拡散性雑音とその他の音を分離するようにしても良い。
実際上、この場合、複数の指向性マイクロフォンからの受音信号の組み合わせを基にMSC算出部で算出された複数のMSCデータと、目的音受音状態での受音信号から得られたMSCデータと無目的音状態での受音信号から得られた無目的音MSCデータの差分MSC値からなる差分MSCデータと、上述した差分値の比との中から少なくとも2個を選びだし、各周波数帯域毎の最小値を利用することにより拡散性雑音とその他の音を分離することができる。
さらに、上述した第1〜第4の実施の形態において、上述した例により複数個のMSCデータを算出し、これら複数のMSCデータの各周波数線形加算値により目的音と拡散性雑音とを分離するようにしても良い。このような場合には、複数個のMSCデータの各周波数線形加算値を用いて、MSCデータの重み付けすることで、各周波数帯域毎に合成スペクトルF7(ω)に対して最適な特性を与えて、各周波数帯域毎に合成スペクトルF7(ω)に含まれる拡散性雑音成分を確実に除去できる。
また、上述した第1〜第4の実施の形態においては、携帯電話機1や折り畳み式携帯電話機50,80,90内のHDDに予め格納された音源分離プログラムをCPUがRAM上に展開し、当該音源分離プログラムに従って音源分離処理を行なうようになされているが、本発明はこれに限らず、音源分離プログラムが格納されたプログラム格納媒体を用いて携帯電話機1や折り畳み式携帯電話機50,80,90にインストールすることにより上述の処理を行なうようにしても良い。
このように上述した一連の処理を実行するための音源分離プログラムをインストールして実行可能な状態にするためのプログラム格納媒体としては、例えばフロッピー(登録商標)ディスク、CD−ROM(Compact Disc-Read Only Memory )、DVD(Digital Versatile Disc )等のパッケージメディアのみならず、音源分離プログラムが一時的もしくは永続的に格納される半導体メモリや磁気ディスク等で実現しても良い。 またこれらプログラム格納媒体に音源分離プログラムを格納する手段としては、ローカルエリアネットワークやインターネット、ディジタル衛星放送等の有線及び無線通信媒体を利用しても良く、ルータやモデム等の各種通信インターフェースを介して格納するようにしても良い。特に半導体メモリや磁気ディスク等で実現した場合、インターネットを介してのデータのダウンロードによって不特定多数の顧客に対し販売を行なうビジネスモデルを構築できる。ダウンロードを行った顧客は、使用するPC(パーソナル・コンピュータ)やさらに転送した先の機器において、プログラムを使用し、音源分離を実行することができる。
さらに、上述した実施の形態においては、上述の処理を携帯電話機1や折り畳み式携帯電話機50,80,90に適用するようにした場合について述べたが、本発明はこれに限らず、PDA(Personal Data Assistant)等の小型通信端末や、ナビゲーションシステム等に搭載された音声認識装置、さらには補聴器等のような目的音と指向性雑音及び拡散性雑音とを分離する必要がある他の種々の装置に適用するようにしても良い。