JP7776016B2

JP7776016B2 - 信号処理装置、信号処理方法、プログラム

Info

Publication number: JP7776016B2
Application number: JP2024541328A
Authority: JP
Inventors: 林太郎池下; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2025-11-26
Anticipated expiration: 2042-08-17
Also published as: JPWO2024038522A1; WO2024038522A1

Description

本発明は、マイクロホンを用いて収録した信号に含まれる音声信号を高品質に推定する技術に関する。

雑音残響環境においてマイクロホンを用いて音声信号を収録する際、マイクロホンには収録したい音声成分に加えて、雑音、残響、妨害音といった不要な成分が混入するため、収録信号に含まれる音声信号の品質は低い。そこで、収録信号に含まれる音声信号を高品質に推定するために、信号源抽出技術が盛んに研究されてきた。複数のセンサを用いて信号源抽出を行う手法として、畳み込みビームフォーマ（Convolutional Beamformer: CBF, 非特許文献１参照）を用いた手法が知られている。CBFを最適化する基準としては、これまで無歪最小分散(Minimum-Variance Distortionless Response: MVDR)という基準が用いられてきた（非特許文献１参照）。

T. Nakatani, C. Boeddeker, K. Kinoshita, R. Ikeshita, M. Delcroix and R. Haeb-Umbach, "Jointly Optimal Denoising, Dereverberation, and Source Separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2267-2282, 2020.

しかしながら、CBFをMVDR基準で設計する場合、抽出対象である目的音源の空間情報（空間共分散行列）をステアリングベクトルに圧縮してCBFを設計するため、目的音源が有する空間情報をすべて用いることができないという問題がある。

本発明は、MVDR基準に代えて、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができる信号処理装置、信号処理方法、プログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、信号処理装置は、非目的音源の空間時間共分散行列の推定値を用いて、非目的音源の空間共分散行列を推定する第二空間共分散行列推定部と、非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定部と、観測信号または目的音源の空間共分散行列の推定値と、非目的音源の空間共分散行列の推定値と、推定した残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定部と、観測信号と推定した畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出部とを含む。

本発明によれば、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができるという効果を奏する。

第一実施形態に係る信号処理装置の機能ブロック図。第一実施形態に係る信号処理装置の処理フローの例を示す図。第二実施形態に係る信号処理装置の機能ブロック図。第二実施形態に係る信号処理装置の処理フローの例を示す図。第三実施形態に係る信号処理装置の機能ブロック図。第三実施形態に係る信号処理装置の処理フローの例を示す図。本手法を適用するコンピュータの構成例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」「^-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜音源抽出問題＞
本実施形態で対象とする問題は、音源抽出問題であり、マイクロホンで観測した信号x_f,tから、音源信号s_f,tあるいは、音源信号s_f,tの残響が取り除かれた空間イメージs_f,t ^image=a_fs_f,tを推定する問題である。ただし、a_fは音源の音響伝達関数を表す。なお、音源信号とはマイクロホンの収録対象である音源(目的音源)が発した音に基づく信号であり、本実施形態では、目的音源を話者(以下「目的話者」ともいう)とし、目的音を目的話者が発話した音声（以下「目的音声」ともいう）とし、目的信号を目的音声に対応する信号とする。ただし、これらに限定されるものではなく、目的音源は話者に限らず楽器などの音源や再生装置等の何らかの音源であってもよく、目的音は音声に限らず音声以外の音であってもよい。目的音源以外の音源を非目的音源ともいう。

＜第一実施形態のポイント＞
MVDR CBFが用いるステアリングベクトルは空間共分散行列V_Sの主成分に対応し、MVDR CBFは空間共分散行列V_Sがもつ空間情報をすべて用いることはできない。本実施形態では、CBFを設計する新たな基準として、MaxSNR基準を導入する。MaxSNR基準を用いてCBFを設計する際、目的音源の空間情報（空間共分散行列V_S）をフルに活用できるという利点がある。

まず、MaxSNR基準のCBFについて説明する。Mをマイクロホンの数を表す2以上の整数の何れかとし、L+1をCBFのタップ数とし、S_＋を非負定値行列の全体からなる集合とし、行列A^BをB行B列の正方行列とし、行列A^B×CをB行C列の行列とし、^R_N∈S^M+ML _＋を非目的音源の空間時間共分散行列とし、V_S∈S^M _＋を目的音源の空間共分散行列とし、O_A×BをA行B列の零行列とし、

とすると、MaxSNR CBF ^wは、以下のように定義される。

なお、L=0のときMaxSNR CBFはMaxSNR beamformerになる。

また、本実施形態のMaxSNR CBF ^wは、次式のように、残響除去フィルタ^Gと、瞬時混合に対するMaxSNRビームフォーマwの積に分解できるという特徴がある。

ただし、下付き添え字optは最適解を意味し、Cは複素数(Complex numbers)の全体の集合である。言い換えると、MaxSNR CBFは、残響除去フィルタ^GとMaxSNRビームフォーマwを統合的に最適化できるという特徴がある。

式(2)が式(3)のように分解できることについて説明するために、^w、^R_Nを以下のように記載する。

ただし、S₊₊は正定値行列の全体からなる集合である。

ここで、MaxSNR CBF ^wの最適解^w_optを

として得ることができる。ただし、

である。ただし、I_MはM行M列の単位行列であり、A^HはAのエルミート転置を示す。

なお、式(7)は、一般化された固有値分解の最適の固有ベクトルとして解くことができる。

V_Sw_opt = λ_maxV_Nw_opt
ただし、λ_maxは最大固有値である。

式(8)の^Gは、残響除去で用いられる多チャネル線形予測(multi-channel linear prediction: MCLP)ベースの残響除去フィルタである。また、式(9)のV_Nは^R_Nのシューア補行列であり、残響が取り除かれた、非目的音源の空間共分散行列とみなすことができる。

＜第一実施形態＞
図１は第一実施形態に係る信号処理装置の機能ブロック図を、図２はその処理フローを示す。

信号処理装置１００は、第一空間共分散行列推定部１１０と、空間時間共分散行列推定部１２０と、第二空間共分散行列推定部１４０と、残響除去フィルタ推定部１３０と、ビームフォーマ推定部１５０と、音源抽出部１６０と、空間イメージ推定部１７０とを含む。

信号処理装置１００は、マイクロホンで観測した観測信号x_f,tを入力とし、音源信号s_f,tあるいは、音源信号s_f,tの（残響が取り除かれた）空間イメージs_f,t ^image=a_fs_f,tを推定して、出力する。なお、観測信号は、例えば複数のマイクロホンからなるマイクロホンアレーで観測した音響信号である。マイクロホンの出力信号をそのまま入力としてもよいし、何らかの記憶装置に記憶された出力信号を読み出して入力としてもよいし、マイクロホンの出力信号に対して何らかの処理を行ったものを入力としてもよい。なお、f(f=1,…,F)は周波数を示し、t(t=1,…,T)はフレーム番号を示し、観測信号x_f,t、音源信号s_f,tは周波数領域の信号である。ただし、時間領域の観測信号を入力とし図示しない周波数領域変換部において周波数領域の観測信号x_f,tに変換し、音源信号s_f,tの推定値を図示しない時間領域変換部において時間領域の音源信号に変換し出力してもよい。周波数領域変換、時間領域変換はどのような方法によって行ってもよく、例えば、フーリエ変換、逆フーリエ変換等を用いることができる。

信号処理装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。信号処理装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。信号処理装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。信号処理装置１００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。信号処理装置１００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも信号処理装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、信号処理装置１００の外部に備える構成としてもよい。

以下、各部について説明する。

＜第一空間共分散行列推定部１１０＞
第一空間共分散行列推定部１１０は、目的音源の空間共分散行列を推定し（Ｓ１１０）、推定値V_S∈S^M _＋を出力する。目的音源の空間共分散行列の推定方法として、様々な方法を用いることができる。例えば、第一空間共分散行列推定部１１０は、観測信号x_f,tを入力とし、観測信号x_f,tから目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する。また、目的音源の方向が既知の場合には、予め実験やシミュレーションで目的音源の空間共分散行列を近似して近似値を推定値V_S∈S^M _＋として用いてもよい。
＜空間時間共分散行列推定部１２０＞
空間時間共分散行列推定部１２０は、非目的音源の空間時間共分散行列を推定し（Ｓ１２０）、推定値^R_N∈S^M+ML _＋を出力する。非目的音源の空間時間共分散行列の推定方法として、様々な方法を用いることができる。例えば、空間時間共分散行列推定部１２０は、観測信号x_f,tを入力とし、観測信号x_f,tから目的音源が発した音を含まない区間(以下、非目的信号ともいう)を推定し、推定した非目的信号を用いて、非目的音源の空間時間共分散行列を推定する。
＜残響除去フィルタ推定部１３０＞
残響除去フィルタ推定部１３０は、空間時間共分散行列の推定値^R_Nを入力とし、推定値^R_Nに含まれるブロック行列^-P_N,^-R_Nから残響除去フィルタを推定し（Ｓ１３０）、推定した残響除去フィルタ^Gを出力する。例えば、残響除去フィルタは式(8)により推定される。

なお、

である。つまり、R_Nは推定値^R_Nの1行1列～M行M列の要素からなるブロック行列であり、^-P_Nは推定値^R_Nの(M+1)行1列～(M+ML)行M列の要素からなるブロック行列であり、(^-P_N)^Hは推定値^R_Nの1行(M+1)列～M行(M+ML)列の要素からなるブロック行列であり、^-R_Nは推定値^R_Nの(M+1)行(M+1)列～(M+ML)行(M+ML)列の要素からなるブロック行列である。

＜第二空間共分散行列推定部１４０＞
第二空間共分散行列推定部１４０は、空間時間共分散行列の推定値^R_Nを入力とし、推定値^R_Nに含まれるブロック行列R_N,^-P_N,^-R_Nから非目的音源の空間共分散行列を推定し（Ｓ１４０）、推定値V_N∈S^M+ML _＋を出力する。例えば、非目的音源の空間共分散行列は式(9)により推定される。

である。

なお、第二空間共分散行列推定部１４０は、空間時間共分散行列の推定値^R_Nと残響除去フィルタ推定部１３０で推定した残響除去フィルタ^Gとを入力とし、推定値^R_Nと残響除去フィルタ^Gとから式(9)により非目的音源の空間共分散行列を推定してもよい。

＜ビームフォーマ推定部１５０＞
ビームフォーマ推定部１５０は、目的音源の空間共分散行列の推定値V_Sと、非目的音源の空間共分散行列の推定値V_Nと、推定した残響除去フィルタ^Gとを入力とする。ビームフォーマ推定部１５０は、目的音源の空間共分散行列の推定値V_Sと、非目的音源の空間共分散行列の推定値V_Nとから、式(7)により、瞬時混合に対するMaxSNRビームフォーマw_optを求める。

なお、式(7)は、一般化された固有値分解の最適の固有ベクトルとして解くことができる。

V_Sw_opt = λ_maxV_Nw_opt
ただし、λ_maxは最大固有値である。

ビームフォーマ推定部１５０は、瞬時混合に対するMaxSNRビームフォーマw_optと推定した残響除去フィルタ^Gとから、式(3)により、畳み込みビームフォーマを推定し（Ｓ１５０）、推定した畳み込みビームフォーマ^wを出力する。

＜音源抽出部１６０＞
音源抽出部１６０は、観測信号x_f,tと推定した畳み込みビームフォーマ^wとを入力とし、次式により、ビームフォーミング処理を行い、音源信号を推定し（Ｓ１６０）、推定値y_f,tを出力する。

＜空間イメージ推定部１７０＞
各周波数ビンｆの畳み込みビームフォーマ^w_fのスケールは不定であるが、次式により、空間イメージs_f,t ^imageを近似するベクトルu_fを推定することで、復元することができる。

s_f,t ^image=a_fs_f,t≒u_fy_f,t=(u_fw_f ^H)(^G_f ^H^x_f,t)∈C^M
^G=[^G₁ | … | ^G_F]、ただし、ベクトルu_fは以下の条件を満たすことを要求される。

(i) w_f ^Hu_f=1(歪無し制約条件)
(ii) u_f∝V_N,fw_f(理想的にはa_f∝V_N,fw_fが成立するため)
V_N=[V_N,1 | … | V_N,F]、二つの制約により、ベクトルu_fは次式の通り一意に決定される。

空間イメージ推定部１７０は、非目的音源の空間共分散行列の推定値V_Nと、推定値y_f,tと、瞬時混合に対するMaxSNRビームフォーマw_optとを入力とし、推定値V_Nと瞬時混合に対するMaxSNRビームフォーマw_optから式(11)により、ベクトルu_fを求め、推定値y_f,tとベクトルu_fから次式により、空間イメージs_f,t ^imageを近似し、近似値u_fy_f,tを出力する。

s_f,t ^image≒u_fy_f,t
＜効果＞
以上の構成により、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができる。

＜第二実施形態のポイント＞
MVDR CBF（MVDR基準でCBFを推定する手法）は、目的音源のステアリングベクトルを別途事前に推定する必要があり、ステアリングベクトルの推定性能に、MVDR CBFの音源抽出性能が強く依存するという問題や、使い勝手が悪いという問題がある。本実施形態では、この問題を解消する。

MaxSNR CBFを推定するには、式(1),(2)の通り、目的音源の空間共分散行列の推定値V_Sと、非目的音源の空間時間共分散行列の推定値^R_Nを事前に求めておく必要がある。

本実施形態では、これら２つの推定値を事前に求めておくことを不要にした、Blind MaxSNR CBFについて説明する。なお、ここで、「Blind」は、事前知識が不要という意味であることを意味する。

本実施形態のBlind MaxSNR CBFは、式(2)あるいは式(7)で与えられるMaxSNR CBFと類似の計算を繰り返し行うことで、MaxSNR CBFを推定する方法である。

本実施形態のBlind MaxSNR CBFは、任意のスーパーガウス関数φ:R_≧0→Rと以下の行列^R_Xのシューア補行列V_Xを用いて、ブラインドMaxSNR CBFを以下の局所最適解として定義する(式(20a),(20b))。

θ=(^w_f)_f=1 ^Fは変数であり、y_f,t=(^w_f)^H^x_f,tは音源信号の推定値であり、y_t=[y_1,t| … |y_F,t]^T∈C^F、ベクトルAに対して||A||₂=√(A^HA)はユークリッドノルムであり、式(20b)の右辺のCは関数を最大化または最小化するアルゴリズムの反復毎に適応的かつ発見的に決定する定数である。

より具体的には、非目的音源の空間時間共分散行列の推定値^R_N,fとして解釈される空間時間共分散行列^R_Z,fを以下の式(21)、(22)に基づき求める処理と、以下の式(23)-(26)に基づくMaxSNR CBF ^wの推定処理とを交互に繰り返す反復最適化によって、事前知識なしでMaxSNR CBFを最適化していく。

y_t ^k=[…|y_f,t ^k|…]^T, y_f,t ^k=(^w_f ^k)^H^x_f,t (22)

ただし、kは繰り返し回数を示すインデックスである。

また、上記の反復最適化の各反復において、以下の式(27)に基づいて、周波数f=1,…,FごとにMaxSNR CBF ^w_fのスケールを揃えることを特徴とする。

w_f←(u_f,m)^*w_f=(e_m ^Tu_f)^*w_f (27)
ただし、m(1≦m≦M)は参照マイクロホンのインデックスであり、*は複素共役を示し、u_fは式(11)で表され(ただし、V_N,fに代えてV_Z,fを用いる)、u_f,m=e_m ^Tu_f∈Cはu_fのm番目の要素である。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

図３は第一実施形態に係る信号処理装置の機能ブロック図を、図４はその処理フローを示す。

信号処理装置２００は、初期化部２０１と、第一空間共分散行列推定部２１０と、空間時間共分散行列推定部２２０と、第二空間共分散行列推定部２４０と、残響除去フィルタ推定部２３０と、ビームフォーマ推定部２５０と、音源抽出部１６０と、判定部２８０とを含む。

信号処理装置２００は、マイクロホンで観測した観測信号x_f,tと参照マイクロホンのイデックスmを入力とし、音源信号s_f,tを推定して、出力する。なお、fは周波数を示し、tはフレーム番号を示し、観測信号x_f,t、音源信号s_f,tは周波数領域の信号である。ただし、時間領域の観測信号を入力とし図示しない周波数領域変換部において周波数領域の観測信号x_f,tに変換し、音源信号s_f,tを図示しない時間領域変換部において時間領域の音源信号に変換し出力してもよい。周波数領域変換、時間領域変換はどのような方法によって行ってもよく、例えば、フーリエ変換、逆フーリエ変換等を用いることができる。

＜初期化部２０１＞
初期化部２０１は、参照マイクロホンのイデックスmを入力とし、推定対象の畳み込みビームフォーマ^wの初期値^w⁰=[^w₁ ⁰,…,^w_F ⁰]を次式により設定し（Ｓ２０１）、出力する。

ただし、e_mは、参照マイクロホンに対応する単位ベクトルである。
＜第一空間共分散行列推定部２１０＞
第一空間共分散行列推定部２１０は、観測信号x_f,tを入力とし、式(28)～(30)を用いて観測信号x_f,tの空間共分散行列を推定し（Ｓ２１０）、推定値V_Xを出力する。

^x_f,t=[x_f,t ^T|x_f,t-D-1 ^T|…|x_f,t-D-L ^T]^T ∈ C^M+ML

R_X,fは推定値^R_X,fの1行1列～M行M列の要素からなるブロック行列であり、^-P_X,fは推定値^R_X,fの(M+1)行1列～(M+ML)行M列の要素からなるブロック行列であり、(^-P_X,f)^Hは推定値^R_X,fの1行(M+1)列～M行(M+ML)列の要素からなるブロック行列であり、^-R_X,fは推定値^R_X,fの(M+1)行(M+1)列～(M+ML)行(M+ML)列の要素からなるブロック行列である。

V_X=[V_X,1,...,V_X,f,...,V_X,F]
＜空間時間共分散行列推定部２２０＞
空間時間共分散行列推定部２２０は、1回前の繰り返し処理で推定した畳み込みビームフォーマ^w^kまたはその初期値^w⁰と観測信号x_f,tとを入力とし、非目的音源の空間時間共分散行列の推定値^R_N,fとして解釈される空間時間共分散行列^R_Z=[^R_Z,1,...,^R_Z,f,...,^R_Z,F]を以下の式(21)、(22)に基づき求め（Ｓ２２０）、出力する。

y_t ^k=[…|y_f,t ^k|…]^T, y_f,t ^k=(^w_f ^k)^H^x_f,t (22)
なお、初めて空間時間共分散行列^R_Z,fを求める際、言い換えると、後述するビームフォーマ推定部２５０で畳み込みビームフォーマ^wを推定する前には、初期化部２０１の出力値を畳み込みビームフォーマの初期値^w⁰=[^w₁ ⁰,…,^w_F ⁰]として用いる。

＜残響除去フィルタ推定部２３０＞
残響除去フィルタ推定部２３０は、空間時間共分散行列^R_Z,fを入力とし、推定値^R_Z,fに含まれる^-P_Z,f,^-R_Z,fから残響除去フィルタを推定し（Ｓ２３０）、推定した残響除去フィルタ^Gを出力する。例えば、残響除去フィルタは式(25)により推定される。

なお、

である。つまり、R_Z,fは空間時間共分散行列^R_Z,fの1行1列～M行M列の要素からなるブロック行列であり、^-P_Z,fは空間時間共分散行列^R_Z,fの(M+1)行1列～(M+ML)行M列の要素からなるブロック行列であり、(^-P_Z,f)^Hは空間時間共分散行列^R_Z,fの1行(M+1)列～M行(M+ML)列の要素からなるブロック行列であり、^-R_Z,fは空間時間共分散行列^R_Z,fの(M+1)行(M+1)列～(M+ML)行(M+ML)列の要素からなるブロック行列である。

＜第二空間共分散行列推定部２４０＞
第二空間共分散行列推定部２４０は、空間時間共分散行列^R_Z,fを入力とし、空間時間共分散行列^R_Z,fに含まれるR_Z,f,^-P_Z,f,^-R_Z,fから非目的音源の空間共分散行列を推定し（Ｓ２４０）、推定値V_Z,f∈S^M+ML _＋を出力する。例えば、非目的音源の空間共分散行列は式(31)により推定される。

である。

なお、第二空間共分散行列推定部２４０は、空間時間共分散行列^R_Z,fと残響除去フィルタ推定部２３０で推定した残響除去フィルタ^Gとを入力とし、空間時間共分散行列^R_Z,fと残響除去フィルタ^Gとから式(31)により非目的音源の空間共分散行列を推定してもよい。

＜ビームフォーマ推定部２５０＞
ビームフォーマ推定部２５０は、観測信号x_f,tの空間共分散行列の推定値V_X=[V_X,1,…,V_X,F]と、非目的音源の空間共分散行列の推定値V_Z=[V_Z,1,…,V_Z,F]と、推定した残響除去フィルタ^G=[^G_,1,…,^G_F]とを入力とする。ビームフォーマ推定部２５０は、観測信号x_f,tの空間共分散行列の推定値V_Xと、非目的音源の空間共分散行列の推定値V_Zとから、式(24)により、w_f ^k+1を求める。

ビームフォーマ推定部２５０は、瞬時混合に対するMaxSNRビームフォーマw_f ^k+1と推定した残響除去フィルタ^Gとから、式(23)により、畳み込みビームフォーマを推定する（Ｓ２５０）。

ビームフォーマ推定部２５０は、非目的音源の空間共分散行列の推定値V_Z=[V_Z,1,…,V_Z,F]と、畳み込みビームフォーマ^w^k+1から次式によりベクトルu_fを求める。

さらに、ビームフォーマ推定部２５０は、以下の式(29)に基づいて、ベクトルu_fのm番目の要素u_f,mを用いて、周波数f=1,…,FごとにMaxSNR CBF ^w_f ^k+1のスケールを揃え、スケールを揃えた畳み込みビームフォーマ^w^k+1を出力する。

^w^k+1←(u_f,m)^*^w^k+1=(e_m ^Tu_f)^*^w^k+1 (29)
＜音源抽出部１６０＞
音源抽出部１６０は、観測信号x_f,tと推定した畳み込みビームフォーマ^w^k+1とを入力とし、次式により、ビームフォーミング処理を行い、音源信号を推定し（Ｓ１６０）、推定値y_f,tを出力する。

y_f,t=(^w_f ^k+1)^H^x_f,t∈ C
^w^k+1 ∈C^M+ML
^w^k+1=[^w₁ ^k+1| … | ^w_F ^k+1]
＜判定部２８０＞
判定部２８０は、収束条件を満たすか否かを判定し（Ｓ２８０）、収束条件を満たす場合（Ｓ２８０のYESの場合）には、その時点の推定値y_f,tを信号処理装置の出力として出力し処理を終了する。収束条件を満たさない場合（Ｓ２８０のNOの場合）には、判定部２８０は、Ｓ２２０～Ｓ１６０を繰り返すように各部に制御信号を送って、各部の処理を制御する。なお、音源抽出部１６０の出力する推定値y_f,tを空間時間共分散行列推定部２２０で用い、式(22)の計算を省略することができる。なお、収束条件には、学習を一定回数（例えば数回）繰り返したか？推定前後の畳み込みビームフォーマ^w^k+1の差分が所定の閾値以下か?などの条件を利用できる。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施形態のBlind MaxSNR CBFは、高々数回の反復でMaxSNR CBFを高精度に推定できる超高速な手法である。

なお、本実施形態では、音源信号s_f,tの推定値y_f,tを出力しているが、空間イメージ推定部１７０を設け、収束条件を満たした時点の推定値y_f,tを用いて、空間イメージs_f,t ^imageの近似値u_fy_f,tを求め、出力する構成としてもよい。

＜第三実施形態のポイント＞
本実施形態では、第二実施形態のBlind MaxSNR CBFの副産物として、目的音源の空間共分散行列V_Sは既知（= 事前に推定する）で、一方で、不要音の空間時間共分散行列^R_Nは未知（＝事前に推定しない）、という状況下で MaxSNR CBFを高精度に推定する手法である「Iteratively Reweighted MaxSNR CBF (IR-MaxSNR CBF)」を実現する。

目的音源の空間共分散行列V_Sが高精度に推定できる場合に、その情報を用いることで、第二実施形態のBlind MaxSNR CBFと比べて精度良くMaxSNR CBFを推定できる。

＜第三実施形態＞
第二実施形態と異なる部分を中心に説明する。

図５は第三実施形態に係る信号処理装置の機能ブロック図を、図６はその処理フローを示す。

信号処理装置３００は、初期化部２０１と、第一空間共分散行列推定部１１０と、空間時間共分散行列推定部２２０と、第二空間共分散行列推定部２４０と、残響除去フィルタ推定部２３０と、ビームフォーマ推定部２５０と、音源抽出部１６０と、判定部２８０とを含む。

本実施形態では、第一空間共分散行列推定部２１０に代えて第一空間共分散行列推定部１１０を含む点が第二実施形態とは異なる。なお、第一空間共分散行列推定部１１０は第一実施形態で説明した通りである。また、ビームフォーマ推定部２５０は、観測信号x_f,tの空間共分散行列の推定値V_Xに代えて、目的音源の空間共分散行列の推定値V_Sを用いる点が第二実施形態と異なる。他の処理は第二実施形態と同様である。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述の各種の処理は、図７に示すコンピュータ２０００の記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０、表示部２０５０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

非目的音源の空間時間共分散行列の推定値を用いて、前記非目的音源の空間共分散行列を推定する第二空間共分散行列推定部と、
前記非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定部と、
観測信号または目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定部と、
前記観測信号と推定した前記畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出部とを含む、
信号処理装置。
請求項１の信号処理装置であって、
前記観測信号から目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する第一空間共分散行列推定部と、
前記観測信号から目的音源が発した音を含まない区間(以下、非目的信号ともいう)を推定し、推定した非目的信号を用いて、非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
前記ビームフォーマ推定部は、前記目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定する、
信号処理装置。
請求項１の信号処理装置であって、
前記観測信号を用いて、前記観測信号の空間共分散行列を推定する第一空間共分散行列推定部と、
前記観測信号と推定した前記畳み込みビームフォーマとを用いて、前記非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
前記ビームフォーマ推定部は、前記観測信号の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定し、
収束条件を満たすまで、前記空間時間共分散行列推定部、前記第二空間共分散行列推定部、前記残響除去フィルタ推定部、前記ビームフォーマ推定部および前記音源抽出部における処理を繰り返す、
信号処理装置。
請求項１の信号処理装置であって、
前記観測信号から目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する第一空間共分散行列推定部と、
前記観測信号と推定した前記畳み込みビームフォーマとを用いて、前記非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
前記ビームフォーマ推定部は、前記目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定し、
収束条件を満たすまで、前記空間時間共分散行列推定部、前記第二空間共分散行列推定部、前記残響除去フィルタ推定部、前記ビームフォーマ推定部および前記音源抽出部における処理を繰り返す、
信号処理装置。
コンピュータが、非目的音源の空間時間共分散行列の推定値を用いて、前記非目的音源の空間共分散行列を推定する第二空間共分散行列推定ステップと、
コンピュータが、前記非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定ステップと、
コンピュータが、観測信号または目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定ステップと、
コンピュータが、前記観測信号と推定した前記畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出ステップとを含む、
信号処理方法。
請求項１から請求項４の何れかに記載の信号処理装置としてコンピュータを機能させるためのプログラム。