JP7776016B2 - 信号処理装置、信号処理方法、プログラム - Google Patents

信号処理装置、信号処理方法、プログラム

Info

Publication number
JP7776016B2
JP7776016B2 JP2024541328A JP2024541328A JP7776016B2 JP 7776016 B2 JP7776016 B2 JP 7776016B2 JP 2024541328 A JP2024541328 A JP 2024541328A JP 2024541328 A JP2024541328 A JP 2024541328A JP 7776016 B2 JP7776016 B2 JP 7776016B2
Authority
JP
Japan
Prior art keywords
covariance matrix
sound source
signal
target sound
beamformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024541328A
Other languages
English (en)
Other versions
JPWO2024038522A1 (ja
Inventor
林太郎 池下
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2024038522A1 publication Critical patent/JPWO2024038522A1/ja
Application granted granted Critical
Publication of JP7776016B2 publication Critical patent/JP7776016B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、マイクロホンを用いて収録した信号に含まれる音声信号を高品質に推定する技術に関する。
雑音残響環境においてマイクロホンを用いて音声信号を収録する際、マイクロホンには収録したい音声成分に加えて、雑音、残響、妨害音といった不要な成分が混入するため、収録信号に含まれる音声信号の品質は低い。そこで、収録信号に含まれる音声信号を高品質に推定するために、信号源抽出技術が盛んに研究されてきた。複数のセンサを用いて信号源抽出を行う手法として、畳み込みビームフォーマ(Convolutional Beamformer: CBF, 非特許文献1参照)を用いた手法が知られている。CBFを最適化する基準としては、これまで無歪最小分散(Minimum-Variance Distortionless Response: MVDR)という基準が用いられてきた(非特許文献1参照)。
T. Nakatani, C. Boeddeker, K. Kinoshita, R. Ikeshita, M. Delcroix and R. Haeb-Umbach, "Jointly Optimal Denoising, Dereverberation, and Source Separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2267-2282, 2020.
しかしながら、CBFをMVDR基準で設計する場合、抽出対象である目的音源の空間情報(空間共分散行列)をステアリングベクトルに圧縮してCBFを設計するため、目的音源が有する空間情報をすべて用いることができないという問題がある。
本発明は、MVDR基準に代えて、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができる信号処理装置、信号処理方法、プログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、信号処理装置は、非目的音源の空間時間共分散行列の推定値を用いて、非目的音源の空間共分散行列を推定する第二空間共分散行列推定部と、非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定部と、観測信号または目的音源の空間共分散行列の推定値と、非目的音源の空間共分散行列の推定値と、推定した残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定部と、観測信号と推定した畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出部とを含む。
本発明によれば、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができるという効果を奏する。
第一実施形態に係る信号処理装置の機能ブロック図。 第一実施形態に係る信号処理装置の処理フローの例を示す図。 第二実施形態に係る信号処理装置の機能ブロック図。 第二実施形態に係る信号処理装置の処理フローの例を示す図。 第三実施形態に係る信号処理装置の機能ブロック図。 第三実施形態に係る信号処理装置の処理フローの例を示す図。 本手法を適用するコンピュータの構成例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」「-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<音源抽出問題>
本実施形態で対象とする問題は、音源抽出問題であり、マイクロホンで観測した信号xf,tから、音源信号sf,tあるいは、音源信号sf,tの残響が取り除かれた空間イメージsf,t image=afsf,tを推定する問題である。ただし、afは音源の音響伝達関数を表す。なお、音源信号とはマイクロホンの収録対象である音源(目的音源)が発した音に基づく信号であり、本実施形態では、目的音源を話者(以下「目的話者」ともいう)とし、目的音を目的話者が発話した音声(以下「目的音声」ともいう)とし、目的信号を目的音声に対応する信号とする。ただし、これらに限定されるものではなく、目的音源は話者に限らず楽器などの音源や再生装置等の何らかの音源であってもよく、目的音は音声に限らず音声以外の音であってもよい。目的音源以外の音源を非目的音源ともいう。
<第一実施形態のポイント>
MVDR CBFが用いるステアリングベクトルは空間共分散行列VSの主成分に対応し、MVDR CBFは空間共分散行列VSがもつ空間情報をすべて用いることはできない。本実施形態では、CBFを設計する新たな基準として、MaxSNR基準を導入する。MaxSNR基準を用いてCBFを設計する際、目的音源の空間情報(空間共分散行列VS)をフルに活用できるという利点がある。
まず、MaxSNR基準のCBFについて説明する。Mをマイクロホンの数を表す2以上の整数の何れかとし、L+1をCBFのタップ数とし、Sを非負定値行列の全体からなる集合とし、行列ABをB行B列の正方行列とし、行列AB×CをB行C列の行列とし、^RN∈SM+ML を非目的音源の空間時間共分散行列とし、VS∈SM を目的音源の空間共分散行列とし、OA×BをA行B列の零行列とし、

とすると、MaxSNR CBF ^wは、以下のように定義される。

なお、L=0のときMaxSNR CBFはMaxSNR beamformerになる。
また、本実施形態のMaxSNR CBF ^wは、次式のように、残響除去フィルタ^Gと、瞬時混合に対するMaxSNRビームフォーマwの積に分解できるという特徴がある。

ただし、下付き添え字optは最適解を意味し、Cは複素数(Complex numbers)の全体の集合である。言い換えると、MaxSNR CBFは、残響除去フィルタ^GとMaxSNRビームフォーマwを統合的に最適化できるという特徴がある。
式(2)が式(3)のように分解できることについて説明するために、^w、^RNを以下のように記載する。



ただし、S++は正定値行列の全体からなる集合である。
ここで、MaxSNR CBF ^wの最適解^wopt


として得ることができる。ただし、


である。ただし、IMはM行M列の単位行列であり、AHはAのエルミート転置を示す。
なお、式(7)は、一般化された固有値分解の最適の固有ベクトルとして解くことができる。
VSwopt = λmaxVNwopt
ただし、λmaxは最大固有値である。
式(8)の^Gは、残響除去で用いられる多チャネル線形予測(multi-channel linear prediction: MCLP)ベースの残響除去フィルタである。また、式(9)のVNは^RNのシューア補行列であり、残響が取り除かれた、非目的音源の空間共分散行列とみなすことができる。
<第一実施形態>
図1は第一実施形態に係る信号処理装置の機能ブロック図を、図2はその処理フローを示す。
信号処理装置100は、第一空間共分散行列推定部110と、空間時間共分散行列推定部120と、第二空間共分散行列推定部140と、残響除去フィルタ推定部130と、ビームフォーマ推定部150と、音源抽出部160と、空間イメージ推定部170とを含む。
信号処理装置100は、マイクロホンで観測した観測信号xf,tを入力とし、音源信号sf,tあるいは、音源信号sf,tの(残響が取り除かれた)空間イメージsf,t image=afsf,tを推定して、出力する。なお、観測信号は、例えば複数のマイクロホンからなるマイクロホンアレーで観測した音響信号である。マイクロホンの出力信号をそのまま入力としてもよいし、何らかの記憶装置に記憶された出力信号を読み出して入力としてもよいし、マイクロホンの出力信号に対して何らかの処理を行ったものを入力としてもよい。なお、f(f=1,…,F)は周波数を示し、t(t=1,…,T)はフレーム番号を示し、観測信号xf,t、音源信号sf,tは周波数領域の信号である。ただし、時間領域の観測信号を入力とし図示しない周波数領域変換部において周波数領域の観測信号xf,tに変換し、音源信号sf,tの推定値を図示しない時間領域変換部において時間領域の音源信号に変換し出力してもよい。周波数領域変換、時間領域変換はどのような方法によって行ってもよく、例えば、フーリエ変換、逆フーリエ変換等を用いることができる。
信号処理装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。信号処理装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。信号処理装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。信号処理装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。信号処理装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも信号処理装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、信号処理装置100の外部に備える構成としてもよい。
以下、各部について説明する。
<第一空間共分散行列推定部110>
第一空間共分散行列推定部110は、目的音源の空間共分散行列を推定し(S110)、推定値VS∈SM を出力する。目的音源の空間共分散行列の推定方法として、様々な方法を用いることができる。例えば、第一空間共分散行列推定部110は、観測信号xf,tを入力とし、観測信号xf,tから目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する。また、目的音源の方向が既知の場合には、予め実験やシミュレーションで目的音源の空間共分散行列を近似して近似値を推定値VS∈SM として用いてもよい。
<空間時間共分散行列推定部120>
空間時間共分散行列推定部120は、非目的音源の空間時間共分散行列を推定し(S120)、推定値^RN∈SM+ML を出力する。非目的音源の空間時間共分散行列の推定方法として、様々な方法を用いることができる。例えば、空間時間共分散行列推定部120は、観測信号xf,tを入力とし、観測信号xf,tから目的音源が発した音を含まない区間(以下、非目的信号ともいう)を推定し、推定した非目的信号を用いて、非目的音源の空間時間共分散行列を推定する。
<残響除去フィルタ推定部130>
残響除去フィルタ推定部130は、空間時間共分散行列の推定値^RNを入力とし、推定値^RNに含まれるブロック行列-PN,-RNから残響除去フィルタを推定し(S130)、推定した残響除去フィルタ^Gを出力する。例えば、残響除去フィルタは式(8)により推定される。

なお、


である。つまり、RNは推定値^RNの1行1列~M行M列の要素からなるブロック行列であり、-PNは推定値^RNの(M+1)行1列~(M+ML)行M列の要素からなるブロック行列であり、(-PN)Hは推定値^RNの1行(M+1)列~M行(M+ML)列の要素からなるブロック行列であり、-RNは推定値^RNの(M+1)行(M+1)列~(M+ML)行(M+ML)列の要素からなるブロック行列である。
<第二空間共分散行列推定部140>
第二空間共分散行列推定部140は、空間時間共分散行列の推定値^RNを入力とし、推定値^RNに含まれるブロック行列RN,-PN,-RNから非目的音源の空間共分散行列を推定し(S140)、推定値VN∈SM+ML を出力する。例えば、非目的音源の空間共分散行列は式(9)により推定される。

である。
なお、第二空間共分散行列推定部140は、空間時間共分散行列の推定値^RNと残響除去フィルタ推定部130で推定した残響除去フィルタ^Gとを入力とし、推定値^RNと残響除去フィルタ^Gとから式(9)により非目的音源の空間共分散行列を推定してもよい。
<ビームフォーマ推定部150>
ビームフォーマ推定部150は、目的音源の空間共分散行列の推定値VSと、非目的音源の空間共分散行列の推定値VNと、推定した残響除去フィルタ^Gとを入力とする。ビームフォーマ推定部150は、目的音源の空間共分散行列の推定値VSと、非目的音源の空間共分散行列の推定値VNとから、式(7)により、瞬時混合に対するMaxSNRビームフォーマwoptを求める。

なお、式(7)は、一般化された固有値分解の最適の固有ベクトルとして解くことができる。
VSwopt = λmaxVNwopt
ただし、λmaxは最大固有値である。
ビームフォーマ推定部150は、瞬時混合に対するMaxSNRビームフォーマwoptと推定した残響除去フィルタ^Gとから、式(3)により、畳み込みビームフォーマを推定し(S150)、推定した畳み込みビームフォーマ^wを出力する。

<音源抽出部160>
音源抽出部160は、観測信号xf,tと推定した畳み込みビームフォーマ^wとを入力とし、次式により、ビームフォーミング処理を行い、音源信号を推定し(S160)、推定値yf,tを出力する。
yf,t=^wf H^xf,t∈ C
^w ∈ CM+ML
^w=[^w1 | … | ^wF]
^xf,t=[xf,t T|xf,t-D-1 T|…|xf,t-D-L T]T ∈ CM+ML
AHはAのエルミート転置を示し、ATはAの転置を示し、Y=(yt)t=1 Tは音源信号Sの推定値であり、Dは予測遅延である。
<空間イメージ推定部170>
各周波数ビンfの畳み込みビームフォーマ^wfのスケールは不定であるが、次式により、空間イメージsf,t imageを近似するベクトルufを推定することで、復元することができる。
sf,t image=afsf,t≒ufyf,t=(ufwf H)(^Gf H^xf,t)∈CM
^G=[^G1 | … | ^GF]、ただし、ベクトルufは以下の条件を満たすことを要求される。
(i) wf Huf=1(歪無し制約条件)
(ii) uf∝VN,fwf(理想的にはaf∝VN,fwfが成立するため)
VN=[VN,1 | … | VN,F]、二つの制約により、ベクトルufは次式の通り一意に決定される。

空間イメージ推定部170は、非目的音源の空間共分散行列の推定値VNと、推定値yf,tと、瞬時混合に対するMaxSNRビームフォーマwoptとを入力とし、推定値VNと瞬時混合に対するMaxSNRビームフォーマwoptから式(11)により、ベクトルufを求め、推定値yf,tとベクトルufから次式により、空間イメージsf,t imageを近似し、近似値ufyf,tを出力する。
sf,t image≒ufyf,t
<効果>
以上の構成により、MaxSNR基準を導入することで、目的音源の空間情報をすべて用いることができる。
<第二実施形態のポイント>
MVDR CBF(MVDR基準でCBFを推定する手法)は、目的音源のステアリングベクトルを別途事前に推定する必要があり、ステアリングベクトルの推定性能に、MVDR CBFの音源抽出性能が強く依存するという問題や、使い勝手が悪いという問題がある。本実施形態では、この問題を解消する。
MaxSNR CBFを推定するには、式(1),(2)の通り、目的音源の空間共分散行列の推定値VSと、非目的音源の空間時間共分散行列の推定値^RNを事前に求めておく必要がある。


本実施形態では、これら2つの推定値を事前に求めておくことを不要にした、Blind MaxSNR CBFについて説明する。なお、ここで、「Blind」は、事前知識が不要という意味であることを意味する。
本実施形態のBlind MaxSNR CBFは、式(2)あるいは式(7)で与えられるMaxSNR CBFと類似の計算を繰り返し行うことで、MaxSNR CBFを推定する方法である。
本実施形態のBlind MaxSNR CBFは、任意のスーパーガウス関数φ:R≧0→Rと以下の行列^RXのシューア補行列VXを用いて、ブラインドMaxSNR CBFを以下の局所最適解として定義する(式(20a),(20b))。



θ=(^wf)f=1 Fは変数であり、yf,t=(^wf)H^xf,tは音源信号の推定値であり、yt=[y1,t| … |yF,t]T∈CF、ベクトルAに対して||A||2=√(AHA)はユークリッドノルムであり、式(20b)の右辺のCは関数を最大化または最小化するアルゴリズムの反復毎に適応的かつ発見的に決定する定数である。
より具体的には、非目的音源の空間時間共分散行列の推定値^RN,fとして解釈される空間時間共分散行列^RZ,fを以下の式(21)、(22)に基づき求める処理と、以下の式(23)-(26)に基づくMaxSNR CBF ^wの推定処理とを交互に繰り返す反復最適化によって、事前知識なしでMaxSNR CBFを最適化していく。

yt k=[…|yf,t k|…]T, yf,t k=(^wf k)H^xf,t (22)




ただし、kは繰り返し回数を示すインデックスである。
また、上記の反復最適化の各反復において、以下の式(27)に基づいて、周波数f=1,…,FごとにMaxSNR CBF ^wfのスケールを揃えることを特徴とする。
wf←(uf,m)*wf=(em Tuf)*wf (27)
ただし、m(1≦m≦M)は参照マイクロホンのインデックスであり、*は複素共役を示し、ufは式(11)で表され(ただし、VN,fに代えてVZ,fを用いる)、uf,m=em Tuf∈Cはufのm番目の要素である。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
図3は第一実施形態に係る信号処理装置の機能ブロック図を、図4はその処理フローを示す。
信号処理装置200は、初期化部201と、第一空間共分散行列推定部210と、空間時間共分散行列推定部220と、第二空間共分散行列推定部240と、残響除去フィルタ推定部230と、ビームフォーマ推定部250と、音源抽出部160と、判定部280とを含む。
信号処理装置200は、マイクロホンで観測した観測信号xf,tと参照マイクロホンのイデックスmを入力とし、音源信号sf,tを推定して、出力する。なお、fは周波数を示し、tはフレーム番号を示し、観測信号xf,t、音源信号sf,tは周波数領域の信号である。ただし、時間領域の観測信号を入力とし図示しない周波数領域変換部において周波数領域の観測信号xf,tに変換し、音源信号sf,tを図示しない時間領域変換部において時間領域の音源信号に変換し出力してもよい。周波数領域変換、時間領域変換はどのような方法によって行ってもよく、例えば、フーリエ変換、逆フーリエ変換等を用いることができる。
<初期化部201>
初期化部201は、参照マイクロホンのイデックスmを入力とし、推定対象の畳み込みビームフォーマ^wの初期値^w0=[^w1 0,…,^wF 0]を次式により設定し(S201)、出力する。

ただし、emは、参照マイクロホンに対応する単位ベクトルである。
<第一空間共分散行列推定部210>
第一空間共分散行列推定部210は、観測信号xf,tを入力とし、式(28)~(30)を用いて観測信号xf,tの空間共分散行列を推定し(S210)、推定値VXを出力する。

^xf,t=[xf,t T|xf,t-D-1 T|…|xf,t-D-L T]T ∈ CM+ML

RX,fは推定値^RX,fの1行1列~M行M列の要素からなるブロック行列であり、-PX,fは推定値^RX,fの(M+1)行1列~(M+ML)行M列の要素からなるブロック行列であり、(-PX,f)Hは推定値^RX,fの1行(M+1)列~M行(M+ML)列の要素からなるブロック行列であり、-RX,fは推定値^RX,fの(M+1)行(M+1)列~(M+ML)行(M+ML)列の要素からなるブロック行列である。

VX=[VX,1,...,VX,f,...,VX,F]
<空間時間共分散行列推定部220>
空間時間共分散行列推定部220は、1回前の繰り返し処理で推定した畳み込みビームフォーマ^wkまたはその初期値^w0と観測信号xf,tとを入力とし、非目的音源の空間時間共分散行列の推定値^RN,fとして解釈される空間時間共分散行列^RZ=[^RZ,1,...,^RZ,f,...,^RZ,F]を以下の式(21)、(22)に基づき求め(S220)、出力する。

yt k=[…|yf,t k|…]T, yf,t k=(^wf k)H^xf,t (22)
なお、初めて空間時間共分散行列^RZ,fを求める際、言い換えると、後述するビームフォーマ推定部250で畳み込みビームフォーマ^wを推定する前には、初期化部201の出力値を畳み込みビームフォーマの初期値^w0=[^w1 0,…,^wF 0]として用いる。
<残響除去フィルタ推定部230>
残響除去フィルタ推定部230は、空間時間共分散行列^RZ,fを入力とし、推定値^RZ,fに含まれる-PZ,f,-RZ,fから残響除去フィルタを推定し(S230)、推定した残響除去フィルタ^Gを出力する。例えば、残響除去フィルタは式(25)により推定される。

なお、


である。つまり、RZ,fは空間時間共分散行列^RZ,fの1行1列~M行M列の要素からなるブロック行列であり、-PZ,fは空間時間共分散行列^RZ,fの(M+1)行1列~(M+ML)行M列の要素からなるブロック行列であり、(-PZ,f)Hは空間時間共分散行列^RZ,fの1行(M+1)列~M行(M+ML)列の要素からなるブロック行列であり、-RZ,fは空間時間共分散行列^RZ,fの(M+1)行(M+1)列~(M+ML)行(M+ML)列の要素からなるブロック行列である。
<第二空間共分散行列推定部240>
第二空間共分散行列推定部240は、空間時間共分散行列^RZ,fを入力とし、空間時間共分散行列^RZ,fに含まれるRZ,f,-PZ,f,-RZ,fから非目的音源の空間共分散行列を推定し(S240)、推定値VZ,f∈SM+ML を出力する。例えば、非目的音源の空間共分散行列は式(31)により推定される。

である。
なお、第二空間共分散行列推定部240は、空間時間共分散行列^RZ,fと残響除去フィルタ推定部230で推定した残響除去フィルタ^Gとを入力とし、空間時間共分散行列^RZ,fと残響除去フィルタ^Gとから式(31)により非目的音源の空間共分散行列を推定してもよい。
<ビームフォーマ推定部250>
ビームフォーマ推定部250は、観測信号xf,tの空間共分散行列の推定値VX=[VX,1,…,VX,F]と、非目的音源の空間共分散行列の推定値VZ=[VZ,1,…,VZ,F]と、推定した残響除去フィルタ^G=[^G,1,…,^GF]とを入力とする。ビームフォーマ推定部250は、観測信号xf,tの空間共分散行列の推定値VXと、非目的音源の空間共分散行列の推定値VZとから、式(24)により、wf k+1を求める。

ビームフォーマ推定部250は、瞬時混合に対するMaxSNRビームフォーマwf k+1と推定した残響除去フィルタ^Gとから、式(23)により、畳み込みビームフォーマを推定する(S250)。

ビームフォーマ推定部250は、非目的音源の空間共分散行列の推定値VZ=[VZ,1,…,VZ,F]と、畳み込みビームフォーマ^wk+1から次式によりベクトルufを求める。

さらに、ビームフォーマ推定部250は、以下の式(29)に基づいて、ベクトルufのm番目の要素uf,mを用いて、周波数f=1,…,FごとにMaxSNR CBF ^wf k+1のスケールを揃え、スケールを揃えた畳み込みビームフォーマ^wk+1を出力する。
^wk+1←(uf,m)*^wk+1=(em Tuf)*^wk+1 (29)
<音源抽出部160>
音源抽出部160は、観測信号xf,tと推定した畳み込みビームフォーマ^wk+1とを入力とし、次式により、ビームフォーミング処理を行い、音源信号を推定し(S160)、推定値yf,tを出力する。
yf,t=(^wf k+1)H^xf,t∈ C
^wk+1 ∈CM+ML
^wk+1=[^w1 k+1| … | ^wF k+1]
<判定部280>
判定部280は、収束条件を満たすか否かを判定し(S280)、収束条件を満たす場合(S280のYESの場合)には、その時点の推定値yf,tを信号処理装置の出力として出力し処理を終了する。収束条件を満たさない場合(S280のNOの場合)には、判定部280は、S220~S160を繰り返すように各部に制御信号を送って、各部の処理を制御する。なお、音源抽出部160の出力する推定値yf,tを空間時間共分散行列推定部220で用い、式(22)の計算を省略することができる。なお、収束条件には、学習を一定回数(例えば数回)繰り返したか?推定前後の畳み込みビームフォーマ^wk+1の差分が所定の閾値以下か?などの条件を利用できる。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施形態のBlind MaxSNR CBFは、高々数回の反復でMaxSNR CBFを高精度に推定できる超高速な手法である。
なお、本実施形態では、音源信号sf,tの推定値yf,tを出力しているが、空間イメージ推定部170を設け、収束条件を満たした時点の推定値yf,tを用いて、空間イメージsf,t imageの近似値ufyf,tを求め、出力する構成としてもよい。
<第三実施形態のポイント>
本実施形態では、第二実施形態のBlind MaxSNR CBFの副産物として、目的音源の空間共分散行列VSは既知(= 事前に推定する)で、一方で、不要音の空間時間共分散行列^RNは未知(=事前に推定しない)、という状況下で MaxSNR CBFを高精度に推定する手法である「Iteratively Reweighted MaxSNR CBF (IR-MaxSNR CBF)」を実現する。
目的音源の空間共分散行列VSが高精度に推定できる場合に、その情報を用いることで、第二実施形態のBlind MaxSNR CBFと比べて精度良くMaxSNR CBFを推定できる。
<第三実施形態>
第二実施形態と異なる部分を中心に説明する。
図5は第三実施形態に係る信号処理装置の機能ブロック図を、図6はその処理フローを示す。
信号処理装置300は、初期化部201と、第一空間共分散行列推定部110と、空間時間共分散行列推定部220と、第二空間共分散行列推定部240と、残響除去フィルタ推定部230と、ビームフォーマ推定部250と、音源抽出部160と、判定部280とを含む。
本実施形態では、第一空間共分散行列推定部210に代えて第一空間共分散行列推定部110を含む点が第二実施形態とは異なる。なお、第一空間共分散行列推定部110は第一実施形態で説明した通りである。また、ビームフォーマ推定部250は、観測信号xf,tの空間共分散行列の推定値VXに代えて、目的音源の空間共分散行列の推定値VSを用いる点が第二実施形態と異なる。他の処理は第二実施形態と同様である。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図7に示すコンピュータ2000の記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040、表示部2050などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 非目的音源の空間時間共分散行列の推定値を用いて、前記非目的音源の空間共分散行列を推定する第二空間共分散行列推定部と、
    前記非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定部と、
    観測信号または目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定部と、
    前記観測信号と推定した前記畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出部とを含む、
    信号処理装置。
  2. 請求項1の信号処理装置であって、
    前記観測信号から目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する第一空間共分散行列推定部と、
    前記観測信号から目的音源が発した音を含まない区間(以下、非目的信号ともいう)を推定し、推定した非目的信号を用いて、非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
    前記ビームフォーマ推定部は、前記目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定する、
    信号処理装置。
  3. 請求項1の信号処理装置であって、
    前記観測信号を用いて、前記観測信号の空間共分散行列を推定する第一空間共分散行列推定部と、
    前記観測信号と推定した前記畳み込みビームフォーマとを用いて、前記非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
    前記ビームフォーマ推定部は、前記観測信号の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定し、
    収束条件を満たすまで、前記空間時間共分散行列推定部、前記第二空間共分散行列推定部、前記残響除去フィルタ推定部、前記ビームフォーマ推定部および前記音源抽出部における処理を繰り返す、
    信号処理装置。
  4. 請求項1の信号処理装置であって、
    前記観測信号から目的音源が発した音を含む区間(以下、目的信号ともいう)を推定し、推定した目的信号を用いて、目的音源の空間共分散行列を推定する第一空間共分散行列推定部と、
    前記観測信号と推定した前記畳み込みビームフォーマとを用いて、前記非目的音源の空間時間共分散行列を推定する空間時間共分散行列推定部とを含み、
    前記ビームフォーマ推定部は、前記目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定し、
    収束条件を満たすまで、前記空間時間共分散行列推定部、前記第二空間共分散行列推定部、前記残響除去フィルタ推定部、前記ビームフォーマ推定部および前記音源抽出部における処理を繰り返す、
    信号処理装置。
  5. コンピュータが、非目的音源の空間時間共分散行列の推定値を用いて、前記非目的音源の空間共分散行列を推定する第二空間共分散行列推定ステップと、
    コンピュータが、前記非目的音源の空間時間共分散行列の推定値を用いて、残響除去フィルタを推定する残響除去フィルタ推定ステップと、
    コンピュータが、観測信号または目的音源の空間共分散行列の推定値と、前記非目的音源の空間共分散行列の推定値と、推定した前記残響除去フィルタとを用いて、畳み込みビームフォーマを推定するビームフォーマ推定ステップと、
    コンピュータが、前記観測信号と推定した前記畳み込みビームフォーマとを用いて、ビームフォーミング処理を行い、音源信号を推定する音源抽出ステップとを含む、
    信号処理方法。
  6. 請求項1から請求項4の何れかに記載の信号処理装置としてコンピュータを機能させるためのプログラム。
JP2024541328A 2022-08-17 2022-08-17 信号処理装置、信号処理方法、プログラム Active JP7776016B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031099 WO2024038522A1 (ja) 2022-08-17 2022-08-17 信号処理装置、信号処理方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2024038522A1 JPWO2024038522A1 (ja) 2024-02-22
JP7776016B2 true JP7776016B2 (ja) 2025-11-26

Family

ID=89941461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024541328A Active JP7776016B2 (ja) 2022-08-17 2022-08-17 信号処理装置、信号処理方法、プログラム

Country Status (2)

Country Link
JP (1) JP7776016B2 (ja)
WO (1) WO2024038522A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020121545A1 (ja) 2018-12-14 2020-06-18 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020121545A1 (ja) 2018-12-14 2020-06-18 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2024038522A1 (ja) 2024-02-22
WO2024038522A1 (ja) 2024-02-22

Similar Documents

Publication Publication Date Title
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
Lee et al. Fast generation of sound zones using variable span trade-off filters in the DFT-domain
US20170251301A1 (en) Selective audio source enhancement
JP2020503552A (ja) 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP6106611B2 (ja) モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
JP7428251B2 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
CN112242145B (zh) 语音滤波方法、装置、介质和电子设备
WO2021112066A1 (ja) 音響解析装置、音響解析方法及び音響解析プログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP7776016B2 (ja) 信号処理装置、信号処理方法、プログラム
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
JP7709139B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP6087856B2 (ja) 音場収音再生装置、システム、方法及びプログラム
JP7582439B2 (ja) 音響信号強調装置、方法及びプログラム
WO2021144934A1 (ja) 音声強調装置、学習装置、それらの方法、およびプログラム
JP7444243B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7375904B2 (ja) フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム
Chang et al. Distributed parameterized topology-independent noise reduction in acoustic sensor networks
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
JP7810178B2 (ja) 音響信号強調装置、音響信号強調方法、プログラム
CN108322858B (zh) 基于张量分解的多麦克风语音增强方法
WO2025032710A1 (ja) 信号処理装置、及び信号処理方法
JP2019086581A (ja) 音場推定装置、その方法、及びプログラム
JP7375905B2 (ja) フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20251014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251027

R150 Certificate of patent or registration of utility model

Ref document number: 7776016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150