WO2007100137A1

WO2007100137A1 - 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体

Info

Publication number: WO2007100137A1
Application number: PCT/JP2007/054205
Authority: WO
Inventors: Keisuke Kinoshita; Tomohiro Nakatani; Masato Miyoshi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2006-03-03
Filing date: 2007-03-05
Publication date: 2007-09-07
Anticipated expiration: 2008-09-03
Also published as: EP1993320A4; EP1993320A1; JP4774100B2; EP1993320B1; JPWO2007100137A1; US8271277B2; US20090248403A1; CN101385386B; CN101385386A

Abstract

　モデル適用部１０ｂが、離散音響信号を用い、マルチステップ線形予測モデルの各線形予測係数を算出する。次に、後部残響予測部１０ｃが、各線形予測係数と離散音響信号とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値として算出する。次に、周波数領域変換部１０ｄが、離散音響信号を周波数領域の離散音響信号に変換し、後部残響予測値を周波数領域の後部残響予測値に変換する。そして、後部残響除去部１０ｅが、周波数領域の離散音響信号の振幅スペクトルと、周波数領域の後部残響予測値の振幅スペクトルとの相対値を求め、当該相対値を後部残響除去信号の振幅スペクトル予測値とする。

Description

明細書

残響除去装置、残響除去方法、残響除去プログラム及び記録媒体技術分野

[0001] 本発明は、音響信号処理の技術分野に係わり、特に、残響を含む音響信号から残響を除去する技術に関する。

背景技術

[0002] 残響のある環境で音響信号を収音すると、本来の信号に残響が重畳された信号が観測される。この場合、重畳した残響成分によって音響信号の明瞭性が大きく低下し、音響信号本来の性質を抽出することが困難となる。例えば、残響を含む音声信号を自動音声認識 (以下、音声認識)システムによって認識した場合、この残響の影響によって、音声認識システムの認識率は著しく低下してしまう。

残響除去処理は、このような場合に、重畳した残響を取り除き、音響信号を本来の音質に戻すことができる技術である。これにより、例えば、音声信号の明瞭性を回復し、音声認識率等を改善することが可能となる。

[0003] 長、残響を除去する残響除去処理の従来例として、非特許文献 1に示す方法がある。

この従来例では、後部残響が指数関数的に減衰すると仮定し、指数関数を用いて後部残響のエネルギーを推定し、残響除去を行う。すなわち、観測信号を周波数領域信号に変換し、各周波数にぉ、て周波数領域信号が直接音と後部残響との和であると仮定し、残響エネルギーが指数関数的に減少するモデル (multi-band decay m ◦del)を用いて、そのモデルパラメータを推定し、推定された後部残響エネルギーと観測信号エネルギーとにスペクトル減算法 (Spectral subtraction)を適用し、後部残響を除去している。なお、モデルパラメータの推定には、後部残響のみが観測される音声の末尾部分を用いて、る。

非特干文献 1 : 1. Tashev and D. Allrea everoeration Reduction for Improved Speec h Recognition 2005 Joint Workshop on hands-Free Speech Communication and Mi crophone Arrays. 発明の開示

発明が解決しょうとする課題

[0004] しかし、上述の従来例では、環境によって、精度の良い残響除去を自動的に行うことができない場合があるという問題点があった。

すなわち、上述の従来例の場合、用いた指数関数が観測音中の後部残響を良くモデリングできていれば、後部残響を精度良く除去できる。しかし、一般的に部屋、話者とマイク間距離により多様に変化する残響を正確に指数関数で近似することは難しい。また、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合は、この枠組みを用いることはできない。このように、上述の従来例では、後部残響を指数関数でモデルィ匕しているため、そのモデルと観測音中の後部残響がうまく合わない場合や、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合に精度の良、残響除去を自動的に行うことはできな力つた。

[0005] 本発明はこのような点に鑑みてなされたものであり、どのような環境でも精度の良い残響除去処理を行うことが可能な残響除去技術を提供することを目的とする。課題を解決するための手段

[0006] 本発明では、上述の課題を解決するために、まず、 M (M≥1)個のセンサによってそれぞ; ^測された M個のチャネル m(m= l, ..., M)の音響信号をそれぞれ複数の時点でサンプリングして得られた離散音響信号値をメモリに記憶する離散音響信号記憶過程と、チャネル w(w= l, ..., M)のマルチステップ線形予測モデル (長時間区間における M個のチャネルの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間 nにおけるチャネル wの離散音響信号値を表現した線形予測モデル)の各線形予測係数を、複数の上記離散音響信号値を用いて算出するモデル適用過程と、上記チャネル w のマルチステップ線形予測モデルの各線形予測係数と複数の上記離散音響信号値とを、上記チャネル wのマルチステップ線形予測モデルの上記線形予測項に代入して得られた線形予測値を、離散時間 nにおけるチャネル wの後部残響予測値として出力する後部残響予測過程とが実行される。

[0007] なお、「モデル」とは、物理的な状態を表現した関係式を意味する。また、「チャネル」とは、センサ毎の処理系列を意味し、同じセンサで観測された音響信号の処理系列は同じチャネルに属する。また、 M≥2の場合、センサのうちの少なくとも一部は、他のセンサと異なる位置に配置される。すなわち、 M≥2の場合、全てのセンサが全く同じ位置に配置されることはない。また、 M≥ 2の場合における「マルチステップ線形予測モデル」を「マルチチャネルマルチステップ線形予測モデル」と呼ぶ。すなわち、本発明における「マルチステップ線形予測モデル」は、「マルチチャネルマルチステツプ線形予測モデル」の上位概念である。

[0008] このように本発明では、マルチステップ線形予測モデルの線形予測項から、音響信号の後部残響予測値を算出し (詳細は後述)、当該後部残響予測値を用いることにより音響信号の残響を除去する。

ここで、本発明では、マルチステップ線形予測モデルによって音響信号をモデルィ匕するため、指数関数のみで後部残響をモデルィ匕する場合に比べ、より正確な近似が可能である。すなわち、音響信号の後部残響成分は、過去の各時点の音響信号に起因するものであり、或る時間区間において自己相関性を持つ。そのため、各時点の時系列データを複数時点の時系列データの線形結合で表現するマルチステップ線形予測モデルは、残響信号のモデルィ匕に適して、ると、える。

[0009] また、本発明のマルチステップ線形予測モデルは、長時間区間における M (M≥ 1 )個のチャネルの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間 nにおけるチャネル wの離散音響信号値を表現した線形予測モデルである。このような「当該長時間区間より所定時間後の離散音響信号値を表現した線形予測モデル」を用いることで、「当該長時間区間直後の離散音響信号値を表現した線形予測モデル」を用いる場合よりも、後部残響信号を精度良く推定できる (詳細は後述)。その結果、適切な後部残響除去を行うことができる。

[0010] また、本発明では、マルチステップ線形予測モデルのモデルパラメータの推定に、音響信号の末尾部分のみではなぐ離散音響信号の全体を用いるため、音響信号の末尾部分とそれ以外の部分で残響特性が異なる場合でも、適切な後部残響除去を行うことができる。また、本発明において好ましくは M≥ 2である。マルチチャネルマルチステップ線形予測モデルを用いることにより、室内伝達関数中の最大位相成分が多、環境であつても、精度良く後部残響除去を行うことが可能となる (詳細は後述)。

また、本発明において好ましくは、上記モデル適用過程は、各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分 (short-term correlation)を抑制し、擬似白色化 (pre- whitening)した離散音響信号値を生成する擬似白色化過程と、上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第 1線形予測係数算出過程と、を有する。ここで、上記短時間区間は、上記長時間区間よりも短い。

[0011] マルチステップ線形予測モデルは、後部残響成分を線形予測項として推定するモデルである。よって、その線形予測係数の算出に用いる離散音響信号値の自己相関成分は、後部残響成分に起因するもののみであることが理想的である。しかし、音響信号の直接音成分は、後部残響成分に比べ極めて短い時間区間での自己相関性を持つ。擬似白色化は、この短い時間区間での自己相関性を抑制する処理である。擬似白色化した離散音響信号を用いてマルチステップ線形予測モデルの各線形予測係数を算出することは、後部残響除去処理の精度を向上させることになる。

[0012] また、本発明において好ましくは、上記擬似白色化過程は、上記短時間区間におけるチャネル mの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、上記短時間区間直後の離散時間 nにおける当該チャネル mの離散音響信号値を表現した線形予測モデルである、チャネル mの短時間線形予測モデルの各線形予測係数を、上記離散音響信号値を用いて算出する第 2線形予測係数算出過程と、上記第 2線形予測係数算出過程で算出された上記各線形予測係数をチャネル mの上記短時間線形予測モデルに代入して得られる逆フィルタに当該チヤネル mの上記離散音響信号値を代入し、それによつて得られる当該短時間線形予測モデルの上記予測誤差項の値を当該チャネル mの上記擬似白色化した離散音響信号値として出力する逆フィルタ処理過程と、を有する。これにより、観測された音響信号の直接音成分の自己相関性を抑制できる。 [0013] また、この場合に好ましくは、 M≥2であり、上記第 2線形予測係数算出過程は、チャネル毎に上記離散音響信号値の自己相関係数を算出する自己相関係数算出過程と、チャネル毎に求められた上記自己相関係数をチャネル間で平均した平均自己相関係数を算出する自己相関係数平均化過程と、上記平均自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算過程と、を有する。

このように、各チャネルで求められた自己相関関数をチャネル間で平均した平均自己相関係数を、短時間線形予測モデルの各線形予測係数の算出に用いることにより、短時間線形予測モデルの各線形予測係数の算出精度が向上し、擬似白色化した離散音響信号の生成精度が向上する。これは、後部残響除去処理の精度向上に貢献する。

[0014] 上述の平均自己相関係数を用いる代わりに、上記 M個のセンサのうち、音響信号の音源に最も近い 1つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出し、上記自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出してもよい。これにより、精度良く短時間線形予測モデルの各線形予測係数を算出することができ、擬似白色化した離散音響信号の生成精度が向上する。これは、後部残響除去処理の精度向上に貢献する。

また、本発明において好ましくは、各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換過程と、上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チャネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去過程と、を有する。これにより、後部残響除去信号値の振幅スぺ外ル予測値を算出できる。

[0015] また、この場合において好ましくは、上記後部残響予測過程では、上記モデル適用部で算出された上記各線形予測係数と複数の擬似白色化された上記離散音響信号値とを上記線形予測項に代入して得られた線形予測値を、離散時間 nにおけるチヤネル wの後部残響予測値として算出し、上記周波数領域変換部では、擬似白色化された各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換する。これにより、擬似白色化された後部残響除去信号値の振幅スぺ外ル予測値を算出することができる。このような値は、擬似白色化されたデータを必要とするシステムの入力値として好適である。

[0016] また、本発明にお、て好ましくは、チャネル wの上記後部残響除去信号値の振幅スベクトル予測値と、チャネル wの上記周波数領域の離散音響信号値の位相情報とを用い、チャネル wの後部残響除去信号値の複素スぺ外ル予測値を算出する複素スベクトル生成過程と、チャネル wの上記後部残響除去信号値の複素スペクトル予測値を時間領域に変換したチャネル wの後部残響除去信号推定値を算出する時間領域変換過程とを、さらに有する。これにより、後部残響が除去された音響信号の推定値 (後部残響除去信号推定値)を得ることができる。

[0017] また、この場合において好ましくは、 M≥2であり、上記モデル適用過程は、複数のチャネルに対してそれぞれ上記各線形予測係数を算出する過程であり、上記後部残響予測過程は、複数のチャネルに対してそれぞれ上記後部残響予測値を算出する過程であり、上記後部残響除去過程は、複数のチャネルに対してそれぞれ上記後部残響除去信号値の振幅スぺ外ル予測値を算出する過程であり、上記複素スぺクトル生成過程は、複数のチャネルに対してそれぞれ上記後部残響除去信号値の複素スペクトル予測値を算出する過程であり、上記時間領域変換過程は、複数のチヤネルに対してそれぞれ上記後部残響除去信号推定値を算出する過程であり、当該残響除去方法は、各チャネルの上記後部残響除去信号推定値をそれぞれ或る遅延量で遅延させた場合に、遅延後の各チャネルの上記後部残響除去信号推定値のチヤネル間相互相関が極大となる、各チャネルの当該遅延量を決定する遅延量算出過程を有する。なお、遅延させない後部残響除去信号推定値については遅延量 0と決定する。これにより、各チャネルで算出された後部残響除去信号推定値のチャネル相互での遅延量を補正することが可能となる。

[0018] そして、この場合には、各チャネルの上記後部残響除去信号推定値を、それぞれのチャネルに対して算出された上記遅延量だけ遅延させ、遅延させた上記後部残響除去信号推定値 (遅延量 0の後部残響除去信号推定値も含む)の和を、補正残響除去信号値として算出する。これにより、残響除去信号の推定精度が向上する。

また、本発明において好ましくは、上記マルチステップ線形予測モデルは、

X (n)をチャネル w(w= l, ..., M)に対応する離散時間 nの離散音響信号値とし、 w

X (n)をチャネル m (m= l, ..., M)に対応する離散時間 nの離散音響信号値とし、 e (n)をチャネル w及び離散時間 nに対応する予測誤差とし、 Nを正の整数とし、 [·]を w

ガウス記号とし、 α (Ρ)を、 X (η)に対応する線形予測項のチャネル mに対応する w, m w

P番目の線形予測係数とし、 Dをステップサイズ (遅延）を示す定数とした場合における、

[数 1]

M [N/M]

x_w =∑ a_{w m}(p) - x_m(n - p - D) + e_w (n)

m=〗 p=l である。

発明の効果

[0019] 以上のように、本発明では、どのような環境でも精度の良い残響除去を行うことができる。

図面の簡単な説明

[0020] [図 1]図 1は、第 1実施形態の残響除去装置の機能構成を例示したブロック図である

[図 2]図 2Aは、モデル適用部の機能構成の詳細を例示したブロック図である。図 2B は、遅延調節部の機能構成の詳細を例示したブロック図である。

[図 3]図 3は、第 1実施形態における残響除去装置 10のハードウェア構成を例示したブロック図である。

[図 4]図 4は、第 1実施形態の残響除去処理の全体を説明するためのフローチャートである。

[図 5]図 5、第 1実施形態の残響除去処理の全体を説明するためのフローチャートである。 [図 6]図 6Aは、図 4のステップ SI (モデル適用過程）の詳細を説明するためのフローチャートである。図 6Bは、図 6Aのステップ S21 (擬似白色化過程)の詳細を説明するためのフローチャートである。

[図 7]図 7Aは、図 6Bのステップ S31 (第 2線形予測係数算出過程)の詳細を説明するためのフローチャートである。図 7Bは、図 4のステップ S4の詳細を説明するためのフローチャートである。

[図 8]図 8は、第 2実施形態の残響除去装置の機能構成を例示したブロック図である

[図 9]図 9は、モデル適用部の機能構成の詳細を例示したブロック図である。

[図 10]図 10は、第 2実施形態の残響除去処理の全体を説明するためのフローチヤ一トである。

[図 11]図 11は、第 2実施形態の残響除去処理の全体を説明するためのフローチヤ一トである。

[図 12]図 12Aは、第 3実施形態の第 2線形予測係数算出部の機能構成を示したプロック図である。図 12Bは、第 3実施形態の [第 2線形予測係数算出過程 (ステップ S31 ；) ]を説明するためのフローチャートである。

[図 13]図 13は、第 4実施形態のモデル適用部の機能構成を示したブロック図である

[図 14]図 14は、第 4実施形態の [擬似白色化過程 (ステップ S21) ]を説明するためのフローチャートである。

[図 15]図 15は、第 5実施形態の残響除去装置の機能構成を例示したブロック図である。

[図 16]図 16は、第 5実施形態の残響除去処理の全体を説明するためのフローチヤ一トである。

[図 17]図 17は、第 6実施形態の残響除去装置の機能構成を例示したブロック図である。

[図 18]図 18は、第 6実施形態の残響除去処理の全体を説明するためのフローチヤ一トである。 [図 19]図 19は、第 7実施形態の残響除去装置の機能構成を例示したブロック図である。

[図 20]図 20は、図 19のモデル適用部の機能構成の詳細を例示したブロック図である

[図 21]図 21は、第 7実施形態の残響除去処理の全体を説明するためのフローチヤ一トである。

[図 22]図 22Aは、図 21のステップ S301 (モデル適用過程）の詳細を説明するためのフローチャートである。図 22Bは、図 22Aのステップ S311 (擬似白色化過程）の詳細を説明するためのフローチャートである。

[図 23]図 23Aは室内伝達関数値 hを縦軸にとり時間（ms)を横軸にとったグラフである。図 23Bは合成伝達関数値 gを縦軸にとり時間（ms)を横軸にとったグラフである。また、図 23Cは室内伝達関数 hと合成伝達関数 gとのエネルギー差を縦軸にとり時間 (ms)を横軸にとったグラフである。

[図 24]図 24A、図 24Bは、それぞれ、残響除去前の振幅スペクトラム値及び音声波形を示した図である。また、図 24C、図 24Dは、それぞれ、本発明（M= lの場合）による残響除去後の振幅スペクトラム値及び音声波形を示した図である。

[図 25]図 25Aは、実験条件を示す図である。図 25Bは、音声認識結果 (単語誤り率）を示すグラフである。

符号の説明

[0021] 10, 310, 610, 620, 710 残響除去装置

発明を実施するための最良の形態

[0022] 以下、本発明の実施の形態を図面を参照して説明する。

〔原理 1〕

まず、本発明の原理 1を説明する。なお、ここでは、原則、 z変換表記を用いる (後述の式 (5)以外)。

原音響信号 _s(_z)をモデル化すると、以下の式（1)のような、白色信号 u(z) (予測誤差項）と短、（次数力 S小さな）自己回帰（AR: Auto-Regressive)モデル d(z)=l/(l- β (ζ))とを掛けたものとなる。すなわち、原音響信号 s(z)は、 d(z)に従った短期的な自己相関性を持つ。

[0023] s(z)=u(z)/(l— |8 (ζ》

=u(z)-d(z) -(1)

なお、 |8 (z)は以下のような AR多項式である。ここで qは線形予測の次数であり、 b(i) は i番目の項の線形予測係数である。

[数 2] (z) =∑b(i) - z-ⁱ この場合、センサ (例えば、マイクロフォン)で観測される音響信号 X (z)は、

1

x (z)=u(z)- [d(z) -h(z)]

1

=u(z)-g(z) -(2)

と表される。なお、 h(z)は音響信号源力もセンサまでの室内伝達関数を示し、 g(z)は、 g(z)=d(z) -h(z) -(3)

を満たすものとする。なお、 g(z)を合成伝達関数と呼ぶ。

[0024] これより、原音響信号 s(z)の d(z)に従った短期的な自己相関性を無視できるのであれば (原音響信号 s(z)を白色信号とみなすことができるのであれば)、式 (2)は、以下のように近似できる。

x (z) = u(z)-h(z) -(4)

1

すなわち、 d(z)を 1とみなすことができるのであれば、センサで観測される音響信号 X

(Z)は、白色信号 u(z)に、 d(z)よりも長い (次数が大きな）自己回帰過程が掛カつたものとしてモデル化できる。

[0025] 式 (4)のようなモデルィ匕は、 d(z)を 1に近づけられるほど適切なものとなる。原理 1では、擬似白色化 (Pre-whitening)処理により、センサで観測される音響信号 x(z)の短期的な自己相関性を抑制する。これにより、センサで観測される音響信号 x(z)の d(z) を 1に近づけ、式 (4)のモデルへの適用を適切なものとする。しかし、 d(z)の自己相関力あまり強くない原音響信号 s(z)を対象とするのであれば、擬似白色化処理を行わなくても、式 (4)のモデルへの適用はある程度適切なものとなる。

この場合、観測される音響信号は、センサ数 M= lの場合のマルチステップ線形予測モデル (長時間区間における各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散音響信号値を表現した線形予測モデル)で近似できる。すなわち、観測される音響信号は、例えば

、以下の式（5)のようにモデルィ匕できる。なお、 nを離散時間とし、 X (n)を (必要に応じ

1

て短時間相関を取り除いた)離散時間 nに対応する音響信号とし、 a (p)を線形予

1,1

測係数とし、 Nを線形予測係数の数とし、 Dをステップサイズ (遅延）とし、 e (n)を離散

1

時間 nに対応する予測誤差とする。また、式（5)の場合、（n-N-D)以上 (η-1-D)以下の時間区間がマルチステップ線形予測モデルの定義中の「長時間区間」に相当し、 X (

1 n)が「長時間区間より所定時間後の離散音響信号値」に相当する。

[0026] [数 3]

N

x,(n)=∑ct, , (p)-x₁(n-p-D) + e,(n) '··(5)

P=l ' ここで、式 (2)の g(z)の直接音成分を g (z)とし、後部残饗成分を g(z)とすると、以下

d r

の式 (6)が仮定できる。

g(z :=g (z)+z 'g(z) -"(6)

d r

この場合、式（5)の線形予測係数 a (p)を z変換した a (z)は、以下の式（7)のよう

1,1

に表せる。

[0027] [数 4]

ただし、

g、z) ^:=g_min(z) ' g_nax(z) ·'·(8)

g(z)： =g_min(z) - min[g_max(z)] …（9) と仮定する。なお、 g (z)と g (z)とは、それぞれ g(z)の最小位相成分 (Z平面上の単

min max

位円内のゼロ点に対応する成分）と最大位相成分 (Z平面上の単位円外のゼロ点に対応する成分）を意味する。また、前述のように pre-whitening処理によって g(z)は室内伝達関数 h(z)に近似する。また、一般に室内伝達関数 h(z)は非最小位相である（最小位相成分だけではなく最大位相成分も有する）。そのため、 g(z):=g (z)-g (z)との仮定は妥当である。また、 min[g (z)]は、 g (z)を最小位相化したものを意味し、 g ( max max max z)の全てのゼロ点がそれらの共役逆である Z平面上の単位円内にプロットされたものを意味する。

[0028] ここで、式（7)の線形予測係数 α (ζ)を pre-whitening処理された観測信号 x'(z)=u(z)

•g(z)に掛け、式 (7) （9)を代入すると、以下の式（10)が得られる。

[0029] [数 5] g(z)' z一 ^ug_r(z)

u(z)-[g(z)- α(ζ)] = u(z)- g(z) z一 ^Dg_r(z) (10)

ここで、 g (z)/min[g (z)]はオールパスフィルタ (掛け合わされる信号の振幅はそ max max

のまま保持され、位相が変更され得る関数)となる。よって、

[数 6]

は、 u(z)と同じ分散を持つ白色信号であることがわかる。また、式 (6)に示した通り、 z" D ' g (z)は、後部残響成分に起因する成分である。そして、音響信号は、式 (2)のように表されるのだから、式（10)の振幅スペクトル値は、音響信号の後部残響成分の振幅スペクトル値に近似する。すなわち、 pre-whitening処理によって短時間相関を取り除ヽた音響信号を用い、式 (5)のマルチステップ線形予測モデルの数値的最適化を行って線形予測係数を求め、これを pre-whitening処理された観測信号に掛け合わせることで、後部残響成分に振幅スペクトル値が近似する信号を求めることができる。そして、この推定した振幅スペクトルを、観測された音響信号 x(z)の振幅スペクトルから減算することによって、後部残響が除去された振幅スぺ外ルを得ることができる。

[0030] 〔原理 2〕

しかし、原理 1の方法では、精度の良い後部残響除去を行うことができない場合がある。以下にその理由を説明する。

上述した式（10)は分析フレーム長を無限長とした場合に成立する関係式である。有限長の分析フレーム単位でみた場合、式（10)は完全に成立するとは限らない。式 (10)の右辺のオールパスフィルタ g (z)/min[g (z)]の応答は、室内伝達関数 h(z)中 max max

の最大位相成分が多くなるほど長くなる。そのため、有限長の分析フレーム単位でみた場合、室内伝達関数 h(z)中の最大位相成分が多くなりオールパスフィルタ g (z)/m max in[g (z)]の応答が長くなるほど、式（10)の左辺と右辺との乖離が大きくなる。

max

[0031] 通常、原理 1の方法は有限長の分析フレーム単位で実行される。室内伝達関数 h(z )中の最大位相成分が少な、のであれば、分析フレーム単位でみた式（10)も比較的よく近似され、原理 1の方法によって精度良く後部残響除去を行うことができる。しかし、一般に、信号源とセンサとの距離が遠くなるほど、室内伝達関数 h(z)中の最大位相成分は増加する。この場合には、分析フレーム単位でみた式（10)の近似が成り立たなくなり、式（10)が成立することを前提とする原理 1の方法による後部残響除去の精度は低下する。

すなわち、信号源力センサまでの室内伝達関数中に最大位相成分が存在する場合、 1つのセンサのみで観測された単一チャネルの音響信号を用いて完全な逆フィルタを構成することはできない。ここで、逆フィルタを構成可能であることと、上記の線形予測係数を算出できることは等価である。このことは、例えば、「M. Miyoshi and Y. Kaneda, inverse Filtering of Room Acoustics, ΙϋβΕ Trans, on Acoustics, bpeech and Signal Processing, 36(2), pp. 145-152, 1988 (以下『参考文献 1』という）に開示されている。一方、参考文献 1には、信号源力もセンサまでの室内伝達関数中に最大位相成分が存在する場合に、複数のセンサで観測された複数チャネルの音響信号を用いて逆フィルタを構成できることが開示されて、る。

[0032] そこで原理 2では、線形予測モデルとして上述のマルチチャネルマルチステップ線形予測モデル (センサ数 M≥ 2の場合のマルチステップ線形予測モデル)を採用し、複数のセンサによって観測された複数チャネルの音響信号を用いて線形予測係数を求める。これにより、線形予測モデルを用いた後部残響除去処理が可能となる。なお、原理 2の手法において線形予測フィルタを求めることができることは、室内伝達関数中の最大位相成分の大小に依存しない。以下、この原理 2を説明する。

センサ m (m= l, . . . , M)で観測される音響信号 X (z)は、以下のようにモデルィ匕できる。なお、 _g (z)=d(z) -h ωを満たす合成伝達関数とし、 h

m ωを音響信号源力ゝらセ m m

ンサ mまでの室内伝達関数とする。

[0033] X (z)=u(z)-(d(z)-h (z))

m m

=u(z) - g (z) -(11)

m

これより、原音響信号 s(z)の d(z)に従った短期的な自己相関性を無視できるのであれば (原音響信号 s(z)を白色信号とみなすことができるのであれば)、式（11)は、以下のように近似できる。

X (z)=u(z)-h (z) ー(12)

m m

すなわち、 d(z)を 1とみなすことができるのであれば、センサ mで観測される音響信号 X (z)は、白色信号 u(z)に、 d(z)よりも長い (次数が大きな）自己回帰過程が掛カつた m

ものとしてモデル化できる。

[0034] 式（12)のようなモデルィ匕は、 d(z)を 1に近づけられるほど適切なものとなる。原理 2 では、擬似白色化 (Pre-whitening)処理により、センサ mで観測される音響信号 x (z) m の短期的な自己相関性を抑制する。これにより、センサ mで観測される音響信号 X (z m

)の(½)を 1に近づけ、式（12)のモデルへの適用を適切なものとする。し力し、 d(z)の自己相関があまり強くない原音響信号 s(z)を対象とするのであれば、擬似白色化処理を行わなくても、式（12)のモデルへの適用はある程度適切なものとなる。

一方、室内伝達関数 h (z)には、最大位相成分が存在する。前述した『参考文献 1』 m

で開示されているように、室内伝達関数 h (z)に最大位相成分が存在する場合、 1つ m

のセンサのみで観測された単一チャネルの音響信号のみを用いて逆フィルタを構成することはできず、複数チャネルの音響信号を用いた場合にのみ逆フィルタを構成できる。これを式（12)のモデルに当てはめて考えると、複数チャネルの音響信号を対象として式（12)のモデルを構成した場合にのみ、正しい線形予測係数を算出でき、正確な後部残響信号を予測し、除去することができるといえる。以上より、原理 2では、マルチチャネルマルチステップ線形予測モデル (長時間区間における M個（M≥ 2 )のチャネルの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間における離散音響信号値を表現した線形予測モデル）によって、式（12)のモデルを構成する。マルチチヤネルマルチステップ線形予測モデルとしては、以下の式（13)を例示できる。なお、式（ 13)のマルチチャネルマルチステップ線形予測モデルは、時間領域のものである。

[0035] [数 7]

M [N /M]

xw (ⁿ) = ∑ 2_J a_{w m} (p) ' x_m (n— p— D) + e_w ( i) , , ' (13)

m=l p=l ここで、 nは離散時間を示す。また、 X (n)は、センサ w (w= l , ..., M)で観測され w

、離散時間 nにおいてサンプリングされたチャネル wの離散音響信号、又は、それらを擬似白色化した離散音響信号に相当する。また、 X (n)は、センサ mで観測され、離 m

散時間 nにおいてサンプリングされた離散音響信号、又は、それらを擬似白色化した離散音響信号に相当する。さらに、 e (n)は、センサ w及び離散時間 nに対応する予測誤差であり、当該予測誤差項以外の式（13)右辺の項が線形予測項に相当する。また、 Mはセンサの総数を示す。 N—1はフィルタ長 (線形予測次数)である。なお、 [· ]はガウス記号であり、 'を超えない最大の整数を示す。また、 a (p)は、 X (n)に対応 w,m w する線形予測項のセンサ mに対応する p番目の線形予測係数である。また、 Dはステップサイズ (遅延）を示す。また、式（13)の場合、（n-[N/M]- D)以上 (η-1-D)以下の時間区間が、マルチチャネルマルチステップ線形予測モデルの定義に示した「長時間区間」に相当し、 X ( が「長時間区間より所定時間後の離散音響信号値」に相当する

[0036] 原理 2では、複数チャネルの離散音響信号又はそれらを擬似白色化した離散音響信号を用い、このようなマルチチャネルマルチステップ線形予測モデルの線形予測係数 oc (p)を求め、マルチチャネルマルチステップ線形予測モデルの線形予測項 w,m

の値を求める。この線形予測項の値が、後部残響成分の予測値 (後部残響予測値）となる。その後、周波数領域における離散音響信号の振幅スペクトルと後部残響予測値の振幅スペクトルとの相対値を求め、それを後部残響除去信号の振幅スぺタトノレ予測他とす O (例は、「¾. F. Boll, Suppression of acoustic noise in speecn using spectral subtraction," IEEE Trans, on Acoustics, Speech and Signal Processing, 27( 2), pp. 113-120, 1979」参照)。このような方法により、音声認識処理等にとって重要な、直接音成分の振幅スペクトルを精度良く抽出できる。 [0037] 〔別の観点力の原理 1， 2の説明〕

上記の原理 1, 2を別の観点力説明する。

[問題設定]

まず、時間領域での離散時間 nに対応する原音響信号 s(n)を、 V次の FIRフィルタ d(k)と白色信号 u(n)を用いて以下のように表現する。

[0038] [数 8] s(n)=∑d(k)-u(n-k) (14)

k=0 これを用いると、センサ mで観測された音響信号 X (n)は以下のようにモデルィ匕できる。

[0039] [数 9] x_m(n) =∑h_m(t)-s(n-t)

t

(15)

= g_m(L).u(n- L)

L=0 ただし、

[0040] [数 10] g_m(L) =∑h_m(L-k)-d(k) (16) であり、 h (n)はセンサ mと音源との間のインノルス応答を表す,

m

式（15)を行列表現によって書き換えると以下のようになる。

X (n)=G -U(n) ー(17)

m m

なお、

U(n)=[u(n),u(n-l),...,u(n-T-N+l)]^T

X (n)=[x (n),x (n— l)，...，x (n— N)]^T

m m m m

g =[g (0),g (l),...,g (T-l)]

m m m m

[数 11] G_m二

である、また、 [·]は行列，の転置を意味する。

[M= 1 (原理 1)の場合の後部残響の推定]

前述のように原理 1では、観測される音響信号を例えば式（5)のようにモデルィ匕する。式（5)において予測誤差成分 e (n)のエネルギーを最小にする線形予測係数 α

1 1

(Ρ)を求めることは、以下の正規方程式を解くことと等価である。

[0042] (E{x (n-l-D)-x (n— 1— D)})' A=E{x (n— 1— D)'x (n)} •(18)

なお、 Ε{·}は，の時間平均を示し、 Αは式（5)の線形予測係数 α (ρ)の行列表現 A

1,1

=ί (1)， (2)，···，α (Ν— 1)]^Τを示す。

1,1 1,1 1,1

よって、以下のように Αを求めることができる。

A=(E{x (n-l-D)-x ^T(n-1-D)})^_1-E{x (n- 1- D)'x (n)} 〜(19)

1 1 1 1

式（19)の ( —¹内を展開すると以下のようになる。

E{x (n-l-D)-x ^τ(η- 1- D)}=G ·Ε{υ(η- 1- D)'U^T(n- 1- D)}'G ^T

σ -G -G ---(20)

ここで、白色信号 u(n)の自己相関行列は、 E{U(n-l-D)'U^T(n-l-D)}= σ ^·Ιとなると仮定した。なお、 σ ²は u(n)の分散を示し、 Iは単位行列を示す。

[0043] また、式（19)の E{x (n-l-D)-x (n)}は、以下のように展開できる。

E{x(n-l-D)-x(n)}=G ·Ε{υ(η- 1- D)'U (n)}'g '=σ -G -g •(21)

late'l

なお、 g =[g(D),g(D+l),...,g(T- 1),0,...,0]^T ある。すなわち、 g は g(n)の D個目 late'l late'l 以降の要素を表し、後部残響に相当する。

式（20) (21)を用い、式（19)の Aは以下のように書き直すことができる。なお、（·)— は-の逆行列を表す。

A=(G -G T -G -g •(22)

late'l

：で、（5)の線形予測係数の行列表現 Aを音響信号の行列表現 X (n)に掛け合わせ、その 2乗の平均をとると以下のようになる。

=|| A^T-G -E{U(n)-U^T(n)}-G^T-A ||

1 1

=|| σ ²-A^T-G -G^T-A II 〜(23)

=11 σ"²·_§ ^T.G^T.(G .G^T)— i.G .g ^T||

u late'l 1 1 1 1 late'l

≤ll σ ²·_§

late'l ^T|H|G^T.(G .G^T)— || . ||g ^T|| -(24)

u 1 1 1 1 late'l

=11 σ ²-g ΊΙ² -(25)

u late'l

ここで II · IIは行列'の Lノルムを示す。また、式（23)の導出のため、白色信号 u(n) の自己相関行列は、

² ·Ιのように展開されると仮定した。十分に長い音響信号に対してこの分解が成立する。また、式 (24)の導出には、式 (22)とコーシ一'シュワルツの不等式を用いた。さらに、式（25)の導出には、 II G^T'(G -G^T)^_1-G

1 1 1 1

IIが射影行列であり、そのノルムが 1になることを用いた。

[0045] また、 σ ²は白色信号 u(n)の分散を示し、 g は後部残響に対応する成分であるた u late'l

め、式（25)の II σ ²-g ^τ

late'l II ²は後部残響成分のパワーを示す。よって、（5)の線形 u

予測係数の行列表現 Aを音響信号の行列表現 X (n)に掛け合わせ、その 2乗の平均

1

をとつた値は、後部残響成分のパワーを常に正確に推定する値であるとはいえないまでも、後部残響成分のパワーを過大推定する値ではな、。

[M≥ 2 (原理 2)の場合の後部残響の推定]

マルチチャネルマルチステップ線形予測モデルは、前述の式（ 13)で定式化できる。ここで、式（13)の [N/M]を Lとすると、式（13)は以下のようになる。

[0046] [数 12]

M L

x_w(n)=∑∑a_w,_m(p)-x_m(n— p— D) + e_w(j^ —(26)

m=】 p=I 式（26)において予測誤差成分 e (n)のエネルギーを最小にする線形予測係数 a w w,m

(P)を求めることは、以下の正規方程式を解くことと等価である。

(E{X(n-l-D) . X^T(n-l-D)}) . A =E{X(n— 1— D) . X(n)} · "(27)

なお、 X(n)=[X ^T(n),X ^T(n),...,X ^T(n)]^Tであり、 Aは式 (26)の線形予測係数 a (p)

1 2 w w,m の行列表現であり A =[ a (l),...,a (L),a (l),...,a (L)]^Tである。

w w,l w,l w,2 w, [0047] よって、 Aは以下のように得られる。なお、（·)+は、行列 ( のムーア.ペンローズ型一般化逆行列を示す。

A =(E{X(n-l-D) . Χ^τ(η— 1— D)})+ . E{X(n— 1— D) . X(n)} · "(28)

M=lの場合と同様に式（28)を展開すると、 Aは以下のように変形できる。

A =(G-G^T)⁺-G-g

w late,w

=(G^T)⁺-g -(29)

late,w

なお、 G=[G ^T,G ^T,...,G ^T]^Tであり、 g =[g (D),g (D+l),...,g (T- 1),0,...,0]丁である。

1 2 late,w w w w また、 Gは列フルランクである。

[0048] 次に、推定された線形予測係数 α (ρ)の行列表現 Αを用いて、複数のセンサで w,m w

観測された多チャンネルの音響信号力後部残響を推定する。そのために、ベクトル X(n)の転置と式（26)の線形予測係数 a (p)の行列表現 Aとを掛け合わせると以下 w,m w

のようになる。

Χ^τ(η)· A =U^T(n)-G^T- A

=U^T(n)-G^T-(G^T)⁺-g -(30)

late,w

=U^T(n)-G^T-G-(G^T-G)^_1-g ·'·(31)

late,w

=U^T(n)-g ー(32)

late,w

なお、式（30)の導出には式（29)を用い、式（31)の導出にはのムーア.ペンローズ型一般ィ匕逆行列の定義を用いた。ここで、 U^T(n)-g

late,wは音響信号の後部残響成分を意味する。よって、式（28)のベクトルの転置と式（26)の線形予測係数 a (p)の行 w,m 列表現 Aとを掛け合わせることにより、音響信号の後部残響成分を正確に推定できることがわ力る。言い換えると、マルチチャネルマルチステップ線形モデルを用いることにより、常に正確に後部残響成分を推定することができることがわかる。

[0049] 〔マルチステップ線形予測モデルの Dの値と音響信号の短時間相関〕

次に、マルチステップ線形予測モデルの Dの値と音響信号の短時間相関との関係について説明する。

原理 1, 2の方法は、式 (4) (12)の近似が成り立つことを前提にした方法である。つまり、原理 1, 2の方法では、室内伝達関数 h (n)と式（15)に示される合成伝達関数 g m m

(n)との差 ( II h (n) II - II g (n) || ) (m≥l)が十分小さい場合に、正確な後部残響除 m m 去ができる。

[0050] 図 23Aは室内伝達関数値 hを縦軸にとり時間（ms)を横軸にとったグラフである。図 23Bは合成伝達関数値 gを縦軸にとり時間（ms)を横軸にとったグラフである。また、図 23Cは室内伝達関数 hと合成伝達関数 gとのエネルギー差を縦軸にとり時間（ms) を横軸にとったグラフである。

図 23Aに例示するように、室内伝達関数値 hは時間の経過とともに指数減衰する。また、図 23Bに例示するように、合成伝達関数値 gも時間の経過とともに指数減衰する。また、図 23Cに例示するように、室内伝達関数値 hや合成伝達関数値 gが大きな時間ではそれらのエネルギー差も大きぐ室内伝達関数値 hや合成伝達関数値 gが小さな時間ではそれらのエネルギー差も小さい。すなわち、時間の経過とともに室内伝達関数 hと合成伝達関数 gとのエネルギー差も小さくなつていく。そして、「或る時間」の経過後には、当該エネルギー差は、音声信号全体のエネルギーに対して無視できるほど小さくなる (所定の閾値以下又は未満となる)。そのため、正確な後部残響除去を行うためには、式（5) (13)のマルチステップ線形予測モデルの Dを当該「或る時間」以上に設定することが望ましい。しかし、室内伝達関数 hと合成伝達関数 gとのェネルギー比や d(z)は未知であり当該「或る時間」も不定である。従って、一般に、経験則から当該「或る時間」を推測し、その推測に基づ、てマルチステップ線形予測モデルの Dの値を設定することになる。そして、より望ましくは、この「或る時間」の推測が困難であることを想定し、前述の擬似白色化によって d(z)成分を抑制する。これにより、室内伝達関数 hと合成伝達関数 gとのエネルギー差を無視でき正確な後部残響除去が可能となる、 Dの設定可能範囲が広がる。なお、一般に Dの下限値は 1であるが、擬似白色化によって d(z)成分を十分抑制できるなら D = 0であっても力まわない。また、マルチステップ線形予測モデルの Dの上限値としては、離散時刻 nでの X (n) m の η+1+D時点での残響成分が所定値 (例えば、離散時刻 nでの X (n)よりも 60dB低い m

値)以上又は超える値を例示できる。

[0051] 〔第 1実施形態〕

次に、本発明の第 1実施形態について説明する。第 1実施形態はセンサ数 Mが M ≥ 2の場合の実施形態である。 [0052] <ハードウェア構成 >

図 3は、本実施形態における残響除去装置 10のハードウェア構成を例示したブロック図である。

図 3に例示するように、この例の残響除去装置 10は、 CPU (Central Processing Uni t) 11、入力部 12、出力部 13、補助記憶装置 14、 ROM (Read Only Memory) 15、 R AM (Random Access Memory) 16及びバス 17を有している。

この例の CPU11は、制御部 l la、演算部 l ib及びレジスタ 11cを有し、レジスタ 11 cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部 12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部 13は、データが出力される出力インターフェース等である。補助記憶装置 14は、例えば、ハードディスク、 MO (Magneto- Optical disc)、半導体メモリ等であり、残響除去装置 10としてコンピュータを機能させるためのプログラムが格納されるプログラム領域 14a及び各種データが格納されるデータ領域 14bを有している。また、 RAM16 【ま、 SRAM (Static Random Access Memory) ^ DRAM (Dynamic Random Access M emory)等であり、上記のプログラムが格納されるプログラム領域 16a及び各種データが格納されるデータ領域 16bを有している。また、ノス 17は、 CPU11、入力部 12、出力部 13、補助記憶装置 14、 ROM 15及び RAM 16を通信可能に接続する。

なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。

[0053] <プログラム構成 >

上述のように、プログラム領域 14a, 16aには、本形態の残響除去装置 10の各処理を実行するための残響除去プログラムが格納される。残響除去プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよぐまた、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。

[0054] くハードウェアとプログラムとの協働 >

CPU11 (図 3)は、読み込まれた OS (Operating System)プログラムに従!、、補助記憶装置 14のプログラム領域 14aに格納されている上述のプログラムを RAM16のプログラム領域 16aに書き込む。同様に CPU11は、補助記憶装置 14のデータ領域 14 bに格納されている各種データを、 RAM16のデータ領域 16bに書き込む。そして、このプログラムやデータが書き込まれた RAM16上のアドレスが CPU11のレジスタ 1 lc に格納される。 CPU11の制御部 11aは、レジスタ 11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示す RAM16上の領域力もプログラムゃデータを読み出し、そのプログラムが示す演算を演算部 l ibに順次実行させ、その演算結果をレジスタ 1 lcに格納して!/、く。

[0055] 図 1は、このように CPU11に上述のプログラムが読み込まれて実行されることにより構成される残響除去装置 10の機能構成を例示したブロック図である。また、図 2Aは、モデル適用部 10bの機能構成の詳細を例示したブロック図であり、図 2Bは、遅延調節部 lOiの機能構成の詳細を例示したブロック図である。

図 1に例示するように、残響除去装置 10は、メモリ 10aと、モデル適用部 10bと、後部残響予測部 10cと、周波数領域変換部 10dと、後部残響除去部 10eと、複素スぺタトル生成部 10fと、時間領域変換部 10gと、遅延量算出部 10hと、遅延調節部 10iと、メモリ 10jと、制御部 10kとを有する。

[0056] また、図 2Aに例示するように、モデル適用部 10bは、擬似白色化部 100と第 1線形予測係数算出部 200とを有しており、擬似白色化部 100は、第 2線形予測係数算出部 110と逆フィルタ処理部 120とを有している。また、第 2線形予測係数算出部 110 は、自己相関係数算出部 111と、自己相関係数平均化部 112と、方程式演算部 113 とを有している。また、図 2Bに例示するように、遅延調節部 10iは、遅延部 10iaと、遅延補正部 10ibとを有している。

ここで、メモリ 10a及びメモリ 10jは、補助記憶装置 14、 RAM16、レジスタ l lc、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、モデル適用部 10b、後部残響予測部 10c、周波数領域変換部 10d、後部残響除去部 10e、複素スペクトル生成部 10f、時間領域変換部 10g、遅延量算出部 10h、遅延調節部 10i及び制御部 10kは、 CPU11に残響除去プログラムを実行させることにより構成されるものである。 [0057] また、本形態の残響除去装置 10は、制御部 10kの制御のもと各処理を実行する。また、特に示さない限り、演算過程の各データは、逐一、メモリ 10jに格納 ·読み出され、各演算処理が進められる。メモリ 10aやメモリ 10jには、 X (n)、 a (p)等の各デー

1 1,2

タが格納されるが、それらはデータ属性、下付き添え字の値〔例えば、データ X

1 ( の下付添え字「1」〕及び（·）内の各値〔例えば、データ X (n)の n〕に対応付けられて格納

1

され、これらを指定することにより、対応するデータを抽出できるものとする。

[0058] <残響除去処理 >

次に、本形態の残響除去処理について説明する。

図 4, 5は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図 6Aは、図 4のステップ S 1 (モデル適用過程）の詳細を説明するためのフローチャートであり、図 6Bは、図 6Aのステップ S21 (擬似白色化過程)の詳細を説明するためのフローチャートである。また、図 7Aは、図 6Bのステップ S31 (第 2線形予測係数算出過程)の詳細を説明するためのフローチャートであり、図 7Bは、図 4のステップ S4の詳細を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。

[0059] [前処理]

まず、 M (M≥2)個のセンサでそれぞれ観測された M個のチャネル w (w= l , M)の音響信号が所定の標本ィヒ周波数でサンプリングされ、チャネル毎の離散音響信号値 X (η)· · ·χ (η)が生成される。なお、 ηは離散時間を示す。生成された各チヤネ

1

ルの離散音響信号値 X (η · ·χ (η)は、それぞれメモリ 10aに格納される。なお、本形

1

態では、残響除去を行う全時間区間の離散音響信号値 X (n) -x (n)を事前に取得し

1

、メモリ 10aに格納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値 X (η · ·χ (η)の取得をリアルタイムで行いつつ、以下の各過程を実

1

行してちょい。

[0060] また、残響除去装置 10が最終的に出力する情報が、後部残響除去信号の振幅スベクトルのみであるのか、それとも位相成分をも有する音響信号なのかを示す情報をメモリ 10jに格納しておく。本形態では、フラグ (データ） δをメモリ 10jに格納しておく。そして、出力する情報が直接音の振幅スペクトルのみである場合 δ = 1とし、位相成分をも有する音響信号である場合 δ = 0とする。なお、残響除去装置 10が最終的に出力する情報が後部残響除去信号の振幅スペクトルのみでよい場合とは、例えば

、残響除去装置 10が最終的に出力する情報を音声認識システムの入力情報として利用する場合を例示できる。

[0061] 以下、本形態の後部残響除去処理を説明する。なお、以下では、 1つの分析フレームの処理過程のみを説明するが、実際は複数の分析フレームに対して同様な処理が行われる。また、分析フレームとは、複数の離散時間 ηを含む時間区間を意味する。

[モデル適用過程 (ステップ S 1) ]

モデル適用過程では、モデル適用部 10bが、メモリ 10aから読み込んだ 1分析フレーム分の Mチャネルの離散音響信号値 X (η · ·χ (η)を用い、式（13)に示したマルチ

1

ステップ線形予測モデルの各線形予測係数 α (ρ · · o (p)を算出する (ステップ S w,l w,

Do以下、この処理の詳細を階層的に説明する。

[0062] [モデル適用過程 (ステップ S 1)の詳細（図 6A) ]

図 6Aに例示するように、モデル適用過程では、まず、擬似白色化（Pre-whitening) 部 100 (図 2A)が、入力された離散音響信号値 X (n)-x (n)が有する短時間区間で

1

の自己相関成分を抑制し、擬似白色化した離散音響信号値 X ' (I！)… X ' (η)

1 を生成して出力する (擬似白色化過程 Ζステップ S21)。すなわち、各離散時間の上記離散音響信号値 χ (ι！)… X (n)

1 から、当該離散時間 n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値 X ' (η)· · ·χ ，(η)を生成する。

1 Μ

[0063] 前述したように、マルチステップ線形予測モデルは、 d(z)に従った短期的な自己相関 (短時間区間での自己相関成分)が抑制された離散音響信号によく合致する。よつて、このような短期的な自己相関を離散音響信号値 X (η)· · ·χ (η)から抑制することは、

1

後部残響を精度良く推定する上で望まし、。

次に、上述の擬似白色化された離散音響信号値 X ' (η · ·χ ' (η)が第 1線形予測係

1

数算出部 200 (図 2Α)に入力され、第 1線形予測係数算出部 200は、当該擬似白色化された離散音響信号値 X ' (η)〜χ ' (η)を用い、式（13)に示したマルチステップ線形予測モデルの各線形予測係数 α (Ρ · · « (ρ)

w,l w, を算出して出力する (第 1線形予測係数算出過程 Zステップ S22)。なお、一例として、式（13)における遅延 Dを、例えば 30ms (標本化周波数 12000Hzの場合、 300タップに相当）とし、 Nを例えば 30 00程度とする。また、x ' (I！)… X ' (η)を用いて α (ρ · · α (ρ)を算出する方法として

1 w,l w,

は、自己相関法 (correlation method)や共分散法 (covariance method)を例示できる。また、 MATLAB (登録商標）等を利用してこの処理を行ってもよい。

[0064] [擬似白色化過程 (ステップ S21)の詳細（図 6B) ]

次に、擬似白色化過程 (ステップ S21)の詳細を説明する。本形態では、一例として、線形予測によって擬似白色化過程を行う。まず、図 6Bに例示するように、第 2線形予測係数算出部 110が、入力された離散音響信号値 X (n)-x (n)を用い、短時間線

1

形予測モデルの各線形予測係数 b(l) b(q)を算出して出力する (第 2線形予測係数算出過程 Zステップ S31)。なお、「短時間線形予測モデル」とは、短時間区間におけるチャネル wの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、短時間区間直後の離散時間 nにおける当該チャネル wの離散音響信号値を表現した線形予測モデルを意味する。ここで、「短時間区間」は、マルチステツプ線形予測モデルの定義で示した「長時間区間」よりも短い。本形態では、以下の短時間線形予測モデルを用いる。

[0065] [数 13] x_m (n) =∑ b(i) - x_m(n - i) + x_m'(n) …（33)

i=l なお、式（33)における x '(η)の項が予測誤差項に相当し、それ以外の右辺の項が m

線形予測項に相当する。また、 b(i)は、線形予測項の i番目の線形予測係数を意味する。また、式 (33)における短時間区間は、離散音響信号値 X (η)· · ·χ (η)の短時間相

1

関成分の系列長やパワーに応じて適宜設定すればよい。一例として、短時間区間を 30ms (標本ィ匕周波数 12000Hzの場合 q = 300)程度とすることができる。この場合、以下のステップ S32により、短時間区間 30ms内で自己相関を持つ初期反射音成分や直接音成分が抑制できる。

[0066] 次に、逆フィルタ処理部 120 (図 2A)に、各線形予測係数 b(l)"'b(q)と、離散音響信号値 x (η ··χ (η)とが入力される。逆フィルタ処理部 120は、各線形予測係数 b(l)

1

• · -b(q)を短時間線形予測モデル (式（33) )に代入して得られる逆フィルタ

[0067] [数 14]

q

x_m '(η) = x_m (n) -∑b(i) -x_m(n-i) ■·· (34)

i=l に、離散音響信号値 x (η)···χ (η)を代入し、それによつて得られる短時間線形予測モ

1

デルの予測誤差項の値を、擬似白色化した離散音響信号値 X '(I！)… X '(η)として算

1

出して出力する（逆フィルタ処理過程 Ζステップ S32)。

[第 2線形予測係数算出過程 (ステップ S31)の詳細（図 7A) ]

次に、第 2線形予測係数算出過程 (ステップ S31)の詳細を説明する。本形態の例では、自己相関法を用いて第 2線形予測係数算出過程を実行する。しかし、共分散法などその他の公知の線形予測係数算出方法を用いて第 2線形予測係数算出過程を実行してもよい。

[0068] まず、図 7Aに例示するように、まず、自己相関係数算出部 111 (図 2A)力入力された離散音響信号値 X (η)···χ (η)を用い、チャネル毎に離散音響信号値 X (η)···χ (η)

1 1 の自己相関係数 c G)〜c (0

1 を算出して出力する（自己相関係数算出過程 Zステップ

S41)。具体的には、例えば、自己相関係数算出部 111が、以下の式（35)に従って、自己相関係数 c(i) c (0を算出して出力する。なお、 Tは、 q(式 (33) (34))よりも

1

大きぐ 1分析フレームが有するサンプル数より小さな自然数である。また、以下の演算は、例えば、上述の離散音響信号値 X (n)〜x (n)に、 n<0, n≥Tの範囲で 0となる

1

ような有限長の窓 (ハミング窓など）を乗じた後に行われる。また、 i=0,l,...,qである。

[0069] [数 15] c_m(i)= ∑x_m(n)-x_m(n + i) -(35)

η=0 次に、自己相関係数平均化部 112(図 2Α)に各チャネルの自己相関係数 c(i) c (

1

0が入力され、自己相関係数平均化部 112は、これら自己相関係数 c G)〜c (0をチヤ

1

ネル間で平均した平均自己相関係数 c(i)を算出して出力する（自己相関係数平均化過程 Zステップ S42)。この平均自己相関係数 c(i)の算出は、例えば、以下の式（36) に従って行われる。

[0070] [数 16]

次に、上述のように求められた各平均自己相関係数 c(i)が方程式演算部 113に入力され、方程式演算部 113は、各平均自己相関係数 c(i)を用い、以下のように Yule- Walkerの方程式 (正規方程式)の解を求めることにより、短時間線形予測モデルの各線形予測係数 b(l) b(q)を算出して出力する (方程式演算過程 Zステップ S43)。

[0071] [数 17] b(l)、 c(0) c(l) - c(q - l)

b(2) c(l) c(0) c(2)

― (37)

c(l)

、b(q)ノ、c(q— 1) - c(l) c(q). 以上のように、チャネル毎に生成された自己相関係数 c (i)〜c

1 (0をチャネル間で平均した平均自己相関係数 c(i)を用い、各線形予測係数 b(l) b(q)を算出する構成としたため、何れかのチャネルで生成された自己相関係数を用いる場合に比べ、線形予測係数 b(l) b(q)の算出精度が向上し、離散音響信号値 X (n)-x (n)が具備する d(z)

1

に従った短期的な自己相関をより効果的に抑制することができる。前述のように、これは、後部残響除去の精度向上につながる（モデル適用過程 (ステップ S1)の詳細の説明終わり)。

[0072] [後部残響予測過程 (ステップ S2) ]

モデル適用過程 (ステップ S1)の後、後部残響予測部 10cに、メモリ 10aから読み込まれた離散音響信号値 X (η) · · ·χ (η)と、モデル適用過程 (ステップ SI)で算出され

1

た各線形予測係数 α ( )… α (ρ)とが入力される。そして、後部残響予測部 10cは

w,l w,

、各線形予測係数 α (ρ)… ひ（ρ)と離散音響信号値 X (η)· · ·χ (η)とをマルチステツ

w,l w, 1

プ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測 i (n)(w=l,...,M)として算出して出力する (ステップ S2)。本形態では、式（13)のマルチステップ線形予測モデルを用いているため、後部残響予測部 10cは、以下の式 (38)に従って後部残響予測値 r (n)を求めて出力する。

[0073] [数 18]

M [N/M]

r_w (n) =∑ ∑ _W;m(p) - x_m (n - p - D) 〜(38)

m=l p-1

[周波数領域変換過程 (ステップ S3) ]

次に、周波数領域変換部 10dに、メモリ 10aから読み込まれた離散音響信号値 X (n

1 · ·χ (η)と、後部残響予測過程 (ステップ S2)で算出された後部残響予測値 r (ι！)… r (

1 n)とが入力される。周波数領域変換部 10dは、入力された離散音響信号値 X (η)· · ·χ (

1 η)を周波数領域の離散音響信号値 X (f,t)-X (f,t)に変換し、後部残響予測値 r (I！)…

1 1 r (n)を周波数領域の後部残響予測値 R (f,t)〜R (f,t)に変換する (ステップ S3)。本形

1

態では、例えば、窓長 30msのハユング窓などの有限長の窓関数を用い、短時間フ一リエ変換（DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部 10dは、これらの処理により、周波数領域の離散音響信号値 X (f,t)-X (f,t)の振幅スペクトル |X (f,tル ·'|Χ (f,t)|と位相情報 arg[X (f,t)]-a

1 1 1 rg[X (f,t)]、及び、周波数領域の後部残響予測値 R (f,t)"'R (f,t)の振幅スペクトル |R (

1 1 f,tル |R (f,t)|と位相情報 arg[R (f,t)]〜arg[R (f,t)]とを抽出し、出力する。なお、 arg[']

1

は、 'の偏角を意味する。

[0074] [後部残響除去過程 (ステップ S4) ]

次に、後部残響除去部 10eに、周波数領域の離散音響信号値の振幅スペクトル |X (f,tル ·'|Χ (f,t)|と、周波数領域の後部残響予測値の振幅スペクトル |R (f,tル "|R (f,t)|と

1

が入力される。そして、後部残響除去部 10eは、周波数領域の離散音響信号値の振幅スペクトル |X (f,tル ·'|Χ (f,t)|と、周波数領域の後部残響予測値の振幅スペクトル |R (

1 1 f,tル "|R (f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スペクトル予測値 |S (f,tル |S (f,t)|として出力する (ステップ S4)。以下に、この処

1

理の詳細を例示する。

[0075] [後部残響除去過程 (ステップ S4)の詳細（図 7B) ]

M 1 M

各 m (m= l, . . . , M)に対して

|X (f,t)|^k-|R (f,t)|^k- const ー(39)

m m

の演算を行い、各演算結果をメモリ 10jに格納する（ステップ S51)。なお、 constは定数を示し、 kは自然数を示す。本形態では、 const=1.0とし、 k=2とする。

[0076] 次に、制御部 10kは、変数 mに 1を代入して、当該 mをメモリ 10jに格納する (ステツプ S52)。次に、制御部 10kは、メモリ 10jに格納された式（39)の演算結果が以下の関係を満たすか否かを判断する (ステップ S53)。

|X (f,t)|^k-|R (f,t)|^k-const>0 〜(40)

m m

ここで、式 (40)の関係を満たすと判断された場合、制御部 10kは後部残響除去部 10eに命令を与え、後部残響除去部 10eは、

IS (f,t)|=(|X (f,t)|^k-|R (f,t)|^k-const)^1A -(41)

m m m

によって、変数 mに対応する |S (f,t)|を算出して出力する (ステップ S54)。一方、式 (4 m

0)の関係を満たさないと判断された場合、制御部 10kは後部残響除去部 10eに命令を与え、後部残響除去部 10eは、 0又は十分小さい値を変数 mに対応する |S (f,t)| m として出力する（ステップ S55)。なお、ステップ S53〜S55の処理は半波整流処理に相当する。ステップ S53〜S55以外の方法によって半波整流を行ってもよい。

[0077] 半波整流後、制御部 10kはメモリ 10jを参照し、変数 mが Mである力否かを判断する（ステップ S56)。ここで、 m=Mでなければ、制御部 10kは、 m+ 1を新たな変数 m の値としてメモリ 10jに格納し (ステップ S57)、処理をステップ S53に戻す。一方、 m =Mであれば、制御部 10kは、ステップ S4の処理を終了させる（後部残響除去過程 (ステップ S4)の詳細の説明終わり）。

[フラグ判定過程 (ステップ S5, S6) ]

ステップ S4の後、制御部 10kが、メモリ 10jに格納されているフラグ δを読み出し、そのフラグ δ力振幅スペクトルのみを出力することを示すフラグである力否力すなわち、 δ = 1であるか否かを判断する (ステップ S5)。ここで、 δ = 1であれば、制御部 10kは、後部残響除去過程 (ステップ S4)で後部残響除去部 10eが生成した後部残響除去信号値の振幅スぺ外ル予測値 |S (f,tル "|S (f,t)|を、残響除去装置 10の最終的な出力情報として出力し (ステップ S6)、当該分析フレームの処理を終了させる。このように出力された振幅スぺ外ル予測値 Is (f,t)|-|s (f,t)|は、例えば、残響除去装置

1

10の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。

[0078] 一方、 δ =0であれば、制御部 10kは、以下のステップ S7以降の処理を実行させる [複素スペクトル生成過程 (ステップ S7) ]

複素スペクトル生成過程では、まず、複素スペクトル生成部 10fに、後部残響除去部 10eから出力 (ステップ S4)された後部残響除去信号値の振幅スペクトル予測値 |S

1

(f,tル |S (f,t)|と、周波数領域変換部 10dから出力 (ステップ S3)された周波数領域の離散音響信号値の位相情報 arg[X (f,t)]-arg[X (f,t)]とが入力される。複素スぺ外ル

1

生成部 10fは、これらの情報を用い、以下の式 (42)に従って、後部残響除去信号値の複素スペクトル予測値 S (f,t)-S (f,t)を算出して出力する (ステップ S7)。なお、 exp(

1

は、ネィピア数を底とした指数関数であり、 jは虚数単位である。

[0079] S (f,t)=|S (f,t)卜 exp(j'arg[X (f,t)]) - --(42)

m m m

[時間領域変換過程 (ステップ S8) ]

ステップ S7の後、時間領域変換部 10gに、上述の後部残響除去信号値の複素スベクトル予測値 S (f,t)〜S (f,t)が入力される。そして、時間領域変換部 10gは、後部残

1

響除去信号値の複素スぺ外ル予測値 S (f,t)-S (f,t)を時間領域に変換した後部残

1

響除去信号推定値 s (n)-s (η)を算出して出力する (ステップ S8)。なお、時間領域

1 M

への変換は、例えば、逆フーリエ変換によって行う。

[0080] [遅延量算出過程 (ステップ S9) ]

ステップ S8の後、遅延量算出部 10hに、後部残響除去信号推定値 s (n)-s (η)が

1

入力される。そして、遅延量算出部 10hは、後部残響除去信号推定値 s (n)-s (η)の

1

チャネル間相互相関を極大にする後部残響除去信号推定値の遅延量 τ …てを、

1 各チャネルについて決定する（ステップ S9)。以下にこの具体例を示す。

[遅延量算出過程 (ステップ S9)の具体例]

まず、遅延量算出部 10hは、入力された分析フレーム内の後部残響除去信号推定値 s (η)· ··8 (n)に対し、以下の式 (43)のようなチャネル間相関関数 A ( τ )の関数値

1 m

を求める。なお、 Ε{·}は平均演算子である。

[0081] A ( て )=E{s (n) - s (η+ τ )} · · '(43)

m 1 m

次に、遅延量算出部 lOhは、各 mについて、チャネル間相関関数 A ( τ )を極大 (例 m

えば最大）とする τを τ として求める。例えば、チャネル間相関関数 A ( τ )を最大と m m

する τを τ とする場合には、遅延量算出部 lOhは、

て =max{ A ( τ )} - "(44)

m m

を算出して出力する。なお、 max{'}は ·の最大値を検出する。また、 τ は、チャネル m の後部残響除去信号推定値の遅延量であり、遅延量には τ =0も含む (遅延両算出過程 (ステップ S9)の具体例の説明終わり）。

[0082] [遅延調節過程 (ステップ S 10, S 11) ]

ステップ S9の後、各遅延量 τ … τ と、後部残響除去信号推定値 s (n)-s (n)とが

1 1

、遅延調節部 10i (図 1)に入力される。そして、遅延調節部 lOiの遅延部 lOia (図 2B )は、各チャネルの後部残響除去信号推定値 s (n)-s (η)

1 を、それぞれ遅延量 τ

1… てだけ遅延させて s n+ τ )· ··8 (η+ τ )を算出して出力する (ステップ S 10)。

1 1

次に、 s (η+ τ )-s (η+ τ )が、遅延補正部 lOib ( (図 2Β) )に入力され、遅延補正

1 1

部 lOibは、以下の式（45)に従い、 s di+ τ )' "s (η+ τ )の和を算出し (ステップ Sl l

1 1

)、この和を補正残響除去信号値 s(n)として出力して (ステップ S12)、当該分析フレームの処理を終了する。各チャネルの後部残響信号に含まれる誤差成分は統計的に独立であると過程した場合、この操作により誤差を抑圧できることになる。

[0083] [数 19]

M

s(nj =∑s_m(n + T_m) —（45) 〔第 2実施形態〕

次に、本発明の第 2実施形態について説明する。第 2実施形態は、第 1実施形態の変形例である。

第 1実施形態の [後部残響予測過程 (ステップ S2) ]では、各線形予測係数 α (ρ) w,l

… (p)と擬似白色化していない離散音響信号値 x (η)· · ·χ (η)とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値 r (n)(_W=l,...,M)として算出していた。また、 [後部残響除去過程 (ステップ S4) ]では、擬似白色化して!ヽな、周波数領域の離散音響信号値の振幅スぺ外ル |x 1 (f,t)| · · - |x

(f,t)|と周波数領域の後部残響予測値の振幅スペクトル |R (f,tル |R (f,t)|とのセンサ毎

1

の相対値を求め、当該相対値を後部残響除去信号値の振幅スぺ外ル予測値 Is 1 (f,t) 卜 "Is (f,t)|としていた。

[0084] これに対し、第 2実施形態では、 [後部残響予測過程]にお!、て、各線形予測係数 a (p)…ひ（p)と擬似白色化した離散音響信号値 X (I！)… X (n)とをマルチステップ w,l w, 1

線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値 r (n)(_W=l,...,M)として算出する。また、第 2実施形態では、 [後部残響除去過程]において、擬似白色化後の周波数領域の離散音響信号値の振幅スペクトル |X (f,t)|-|x

1'

(f,t)|と、周波数領域の後部残響予測値の振幅スペクトル |R

1 (f,tル R (f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去信号値の振幅スぺ外ル予測値 Is (f ,tル "Is (f,t)|する。このようにして得られた後部残響除去信号値の振幅スペクトル予測値 Is (f,tル |s (f,t)|は、短時間相関成分が抑制された (擬似白色化された)ものとな

1

る。そのため、このように得られた振幅スペクトル予測値 Is 1 (f,tル |s (f,t)|は、例えば音声認識システムのように、擬似白色化されたデータが必要なシステムへの入力として好適である。このようなシステムにおいて、擬似白色化する前処理が不要となるからである。

[0085] これらが第 1実施形態と第 2実施形態との相違点である。以下では、第 1実施形態との相違点を中心に説明し、第 1実施形態と共通する事項については説明を省略する

<ノヽードウエア構成 >

第 1実施形態で説明したのと同様である。

<ハードウェアとプログラムとの協働 >

本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されることにより構成される。図 8は、本形態の残響除去装置 310の機能構成を例示したブロック図である。また、図 9は、モデル適用部 310bの機能構成の詳細を例示したブロック図である。なお、図 8, 9において、第 1実施形態と共通する部分については第 1実施形態と同じ符号を用いた。

[0086] 図 8に例示するように、残響除去装置 310は、メモリ 10aと、モデル適用部 310bと、後部残響予測部 310cと、周波数領域変換部 310dと、後部残響除去部 310eと、複素スペクトル生成部 310fと、時間領域変換部 10gと、遅延量算出部 10hと、遅延調節部 10iと、メモリ 10jと、制御部 10kとを有する。

また、図 9に例示するように、モデル適用部 310bは、擬似白色化部 100と第 1線形予測係数算出部 200とを有しており、擬似白色化部 100は、第 2線形予測係数算出部 110と逆フィルタ処理部 120とを有している。また、第 2線形予測係数算出部 110 は、自己相関係数算出部 111と、自己相関係数平均化部 112と、方程式演算部 113 とを有している。モデル適用部 310bと第 1実施形態のモデル適用部 10bとの相違点は、モデル適用部 310bの逆フィルタ処理部 120が、擬似白色化した離散音響信号値 X ' (I！)… X ' (η)を後部残響予測部 310cや周波数領域変換部 310dにも転送する

1

点である。

[0087] <残響除去処理 >

次に、本形態の残響除去処理について説明する。

図 10, 11は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、これらの図を用い、本形態の残響除去処理を説明する。

[前処理]

第 1実施形態と同様である。

[モデル適用過程 (ステップ S101) ]

モデル適用過程では、モデル適用部 310bが、メモリ 10aから読み込んだ 1分析フレーム分の Mチャネルの離散音響信号値 X (n)〜x (n)を用い、式（13)に示したマル

1

チステップ線形予測モデルの各線形予測係数 α (ρ · · (X (p)を算出する (ステップ

w,l w,

S 101)。この処理は、第 1実施形態の [モデル適用過程 (ステップ S1) ]と同様であり、離散音響信号値 X (η · ·_χ (n)を擬似白色化する過程を含む。

1

[0088] [後部残響予測過程 (ステップ S102) ]

モデル適用過程 (ステップ S101)の後、後部残響予測部 310cに、モデル適用過程 (ステップ S101)で擬似白色化された離散音響信号値 x '(I！)… X ，(n)と、モデル適

1

用過程 (ステップ S101)で算出された各線形予測係数 α (ρ ·· α (ρ)とが入力され w,l w,

る。

そして、後部残響予測部 310cは、各線形予測係数 α (ρ ·· o (p)と擬似白色化 w,l w,

された離散音響信号値 χ '(η ··_Χ '(η)とをマルチステップ線形予測モデルの線形予

1

測項に代入して得られた線形予測値を、後部残響予測値 r (n)(_W=l,...,M)として算出して出力する（ステップ S102)。式（13)のマルチステップ線形予測モデルを用いていた場合、後部残響予測部 310cは、以下の式 (46)に従って後部残響予測値 r (n) を求めて出力する。

[0089] [数 20]

M [N/M]

r_w(n)= ∑ 厶 a_{w m}(p)'x_m'(n— p— D) '·'(46)

m=l p=l

[周波数領域変換過程 (ステップ S103)]

次に、周波数領域変換部 310dに、モデル適用過程 (ステップ S 101)で擬似白色化された離散音響信号値 X '(I！)… X '(η)と、後部残響予測過程 (ステップ S102)で算

1

出された後部残響予測値 r (η)··τ (η)とが入力される。周波数領域変換部 31 Odは、

1

入力された擬似白色化後の離散音響信号値 X '(I！)… X '(η)

1 を周波数領域の離散音響信号値 X '(f,t)-X '(f,t)に変換し、後部残響予測値 r(n) r (n)を周波数領域の

1 1

後部残響予測値 R (f,t)-R (f,t)に変換する (ステップ S103)。周波数領域変換部 31

1

Odは、これらの処理により、周波数領域の離散音響信号値 X '(f,t)-X '(f,t)の振幅

1

スペクトル |X，(f,tル ·'|Χ '(f,t)|と位相情報 arg[X '(f,t)]〜arg[X ' (f,t)]、及び、周波数

1 1

領域の後部残響予測値 R (f,t)〜R (f,t)の振幅スぺ外ル |R(f,tル "|R (f,t)|と位相情報

1 1

arg[R(f,t) arg[R (f,t)]とを抽出し、出力する。

1

[0090] [後部残響除去過程 (ステップ S 104)]

次に、後部残響除去部 310eに、周波数領域の離散音響信号値の振幅スペクトル I X '(f,t)|-|X '(f,t)|と、周波数領域の後部残響予測値の振幅スぺ外ル |R(f,tル "|R (f

1 1

1

信号値の振幅スペクトル予測値 |S (f,tル "|S (f,t)|として出力する (ステップ S104)。

1

[0091] [フラグ判定過程 (ステップ S 105, S106) ]

ステップ S104の後、制御部 10kが、メモリ 10jに格納されているフラグ δを読み出し、そのフラグ δ力振幅スペクトルのみを出力することを示すフラグであるか否力、すなわち、 δ = 1であるか否かを判断する（ステップ S 105)。ここで、 δ = 1であれば、制御部 10kは、後部残響除去過程 (ステップ S104)で後部残響除去部 310eが生成した後部残響除去信号値の振幅スぺ外ル予測値 |S (f,tル |S (f,t)|を、残響除去装置

1

310の最終的な出力情報として出力し (ステップ S106)、当該分析フレームの処理を終了させる。一方、 δ =0であれば、制御部 10kは、以下のステップ S107以降の処理を実行させる。

[0092] [複素スペクトル生成過程 (ステップ S 107) ]

複素スペクトル生成過程では、まず、複素スペクトル生成部 310fに、後部残響除去部 310eから出力（ステップ S104)された後部残響除去信号値の振幅スペクトル予測値 |S (f,tル |S (f,t)|と、周波数領域変換部 10dから出力 (ステップ S3)された周波数領

1

域の離散音響信号値の位相情報 arg[X ' (f,t)]〜arg[X ' (f,t)]とが入力される。複素ス

1

ベクトル生成部 310fは、これらの情報を用い、以下の式 (47)に従って、後部残響除去信号値の複素スペクトル予測値 S (f,t)-S (f,t)を算出して出力する (ステップ S107

1

) o

[0093] S (f,t)=|S (f,t)卜 exp(j'arg[X ' (f,t)]) - --(47)

m m m

[時間領域変換過程 (ステップ S108) ·遅延量算出過程 (ステップ S109) ·遅延調節過程 (ステップ S 110, S111) ]

時間領域変換過程 (ステップ S108) ·遅延量算出過程 (ステップ S109) ·遅延調節過程 (ステップ S110, S111)は、第 1実施形態の時間領域変換過程 (ステップ S8) · 遅延量算出過程 (ステップ S9) ·遅延調節過程 (ステップ S 10, S11)と同様である。

[0094] 〔第 3実施形態〕

次に、本発明の第 3実施形態について説明する。第 3実施形態は、第 1, 2実施形態の変形例である。第 1実施形態で例示した [第 2線形予測係数算出過程 (ステップ S31) ]では、第 2線形予測係数算出部 110が、チャネル毎に生成した自己相関係数 c G)〜c (0をチヤネ

1

ル間で平均した平均自己相関係数 c(i)を用い、短時間線形予測モデルの各線形予測係数 b(i)' · 'b(_q)を算出して、た。

[0095] これに対し、第 3実施形態の [第 2線形予測係数算出過程 (ステップ S31) ]では、第 2線形予測係数算出部 410が、 M個のセンサのうち、音響信号の音源に最も近い 1 つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出し、当該自己相関係数を用い、短時間線形予測モデルの各線形予測係数を算出する。

この点が第 1実施形態との相違点である。そして、この構成は第 2実施形態へも適用可能である。以下では、第 1, 2実施形態との相違点である第 2線形予測係数算出部 410の構成及び [第 2線形予測係数算出過程 (ステップ S31 ) ]の処理のみを説明し、第 1, 2実施形態と共通する事項については説明を省略する。

[0096] 図 12Aは、本形態の第 2線形予測係数算出部 410の機能構成を示したブロック図である。なお、図 12Aにおいて、第 1実施形態と共通する部分については第 1実施形態と同じ符号を用いた。また、図 12Bは、本形態の [第 2線形予測係数算出過程 (ステツプ S31) ]を説明するためのフローチャートである。

図 12Aに例示するように、本形態の第 2線形予測係数算出部 410は、自己相関係数算出部 411と方程式演算部 113とを有する。本形態の第 2線形予測係数算出過程では、まず、自己相関係数算出部 411 (図 12A)が、入力された離散音響信号値 X (η · ·χ (η)を用い、 Μ (Μ≥ 2)個のセンサのうち音響信号の音源に最も近い 1つのセ

1

ンサ y(_y=l,...,M)で観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値 X (n)の自己相関係数 c (i)G=0,l,...,q)を算出する (ステップ S141)。な

y y

お、音響信号の音源に最も近い 1つのセンサ yの情報は、自己相関係数算出部 411 が具備する固定情報であってもよいし、自己相関係数算出部 411に与えられる変動情報であってもよい。

[0097] 次に、上述のように求められた各自己相関係数 c(i)が方程式演算部 113に入力され、方程式演算部 113は、各平均自己相関係数 c(i)を用い、 Yule-Walkerの方程式（正規方程式)の解を求めることにより、短時間線形予測モデルの各線形予測係数 b(l ) b(q)を算出して出力する（方程式演算過程 Zステップ S142)。

以上のように、本形態では、音響信号の音源に最も近い 1つのセンサに対応する音響信号値の自己相関係数を用い、各線形予測係数 b(l) b(q)を算出する構成とした。これにより、他のセンサに対応する音響信号値の自己相関係数を用いる場合に比ベて線形予測係数 b(l) b(q)の算出精度が向上し、離散音響信号値 X (η)· · ·χ (η)が

1

具備する d(z)に従った短期的な自己相関をより効果的に抑制することができる。前述のように、これは、後部残響除去の精度向上につながる。

[0098] 〔第 4実施形態〕

次に、本発明の第 4実施形態について説明する。第 4実施形態は、第 1, 2実施形態の変形例である。

第 1実施形態の [擬似白色化過程 (ステップ S21) ]では、短時間線形予測モデルを用いて離散音響信号値の擬似白色化を行った。

これに対し、第 4実施形態の [擬似白色化過程 (ステップ S21) ]では、 Cepstral Mea n Subtraction (し M¾バ f列？ J 、「B. b. Atal, "Effectiveness of linear prediction charact eristics of the speech wave for automatic speaker identification and verification, Jo urnal of Acoustical Society of America, 55(6), pp. 1304-1312, 1974.」参照）を用いて離散音響信号値の擬似白色化を行う。

[0099] この点が第 1実施形態との相違点である。そして、この構成は第 2実施形態へも適用可能である。以下では、第 1, 2実施形態との相違点である擬似白色化部 510の構成及び [擬似白色化過程 (ステップ S21) ]の処理のみを説明し、第 1, 2実施形態と共通する事項については説明を省略する。

図 13は、本形態のモデル適用部 500の機能構成を示したブロック図である。なお、図 13において第 1実施形態と共通する部分については、第 1実施形態と同じ符号を用いた。

[0100] 図 13に例示するように、本形態のモデル適用部 500は、擬似白色化部 510と第 1 線形予測係数算出部 200とを有する。また、擬似白色化部 510は、周波数領域変換部 511と、時間平均化部 512と、減算部 513と、時間領域変換部 514とを有する。図 14は、本形態の [擬似白色化過程 (ステップ S21)]を説明するためのフローチヤートである。以下、この図を用いて、本形態の [擬似白色化過程 (ステップ S21)]を説明する。

まず、擬似白色化部 510の周波数領域変換部 511が、メモリ 10aから音響信号 1分析フレーム分の Mチャネルの離散音響信号値 X (n)〜x (n)を読み込む。そして、周波

1

数領域変換部 511は、短時間フーリエ変換等によって離散音響信号値 χ(η)···χ (η)

1 を周波数領域の離散音響信号値 X (f,t)-X (f,t)に変換して出力する (ステップ S201

1

)oなお、短時間フーリエ変換によってこの処理を行う場合は、例えば以下の式 (48) を用いる。また、 F[']は短時間フーリエ変換関数を示し、 Log[']は対数関数を示す

[0101] X (f, t)=Log[F[x (n)]] 〜(48)

m m

次に、時間平均化部 512に周波数領域の離散音響信号値 X (f,t)-X (f,t)が読み

1

込まれ、時間平均化部 512は、以下の式 (49)によって、周波数領域の離散音響信号値 X(f,t) 'X (f,t)の時間平均 X '(Dを求め、出力する (ステップ S202)。

1 m

[0102] [数 21]

1 τ

E{Xm(f, t)} = -∑ Xm(f, t)(m = 1,...,M) … (49)

T t=i 次に、減算部 513に周波数領域の離散音響信号値 X (f,t)-X (f,t)とそれらの時間

1

平均 E{X (f,t)}とが読み込まれ、減算部 513は、以下の式（50)によって X '(f,t)(m=l,. m m

..,Μ)を算出し、出力する (ステップ S203)。

X ' (f,t)=X (f,t) -E{X (f,t)} ---(50)

m m m

次に、時間領域変換部 514に X '(f,t)-X '(f,t)が読み込まれ、時間領域変換部 51

1

4は、逆フーリエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値 X '(η ··χ '(η)を算出し、出力する (ステップ S204)。なお、逆フーリエ変

1

換によってこの処理を行う場合は、例えば以下の式（51)を用いる。また、 invF[']は逆フーリエ変換関数を示し、 exp [-]はネィピア数を底とした指数関数を表す。

[0103] X ' (n)=invF[exp[X ' (f,t)]] ·'·(51)

m m

なお、上述した短時間フーリエ変換関数 F [ · ]や逆フーリエ変換関数 invF [ · ]において窓長 25msの窓関数を用いた場合、 25ms以内の初期反射成分及び短時間相関を取り除くことができる。

また、本形態を第 2実施形態に適用する場合には、時間領域変換部 514で生成された擬似白色化後の離散音響信号値 X ' (η · ·χ ' (η)は、後部残響予測部 310cや周

1

波数領域変換部 310d (図 8)にも転送される。

[0104] 〔第 5実施形態〕

次に、本発明の第 5実施形態について説明する。第 5実施形態は、第 4実施形態の擬似白色化手法を第 1実施形態に適用する際の変形例である。

第 1実施形態の [周波数領域変換過程 (ステップ S3) ]では、離散音響信号値 X (n)

1

-X (n)を周波数領域の離散音響信号値 X (f,t) X (f,t)に変換し、後部残響予測値 r

1

(η)· ·τ (η)を周波数領域の後部残響予測値 R (f,t)〜R (f,t)に変換していた。しかし、

1 1

第 4実施形態の擬似白色化を行う場合、その過程で (ステップ S201)で周波数領域の離散音響信号値 X (f,t)-X (f,t)が得られている。

1

第 5実施形態では、第 4実施形態の擬似白色化の過程で得られた周波数領域の離散音響信号値 X (f,t)-X (f,t)を流用し、周波数領域変換過程の処理を簡略化する。

1

以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。

[0105] <ハードウェア構成 >

第 1実施形態で説明したのと同様である。

<ハードウェアとプログラムとの協働 >

本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されること〖こより構成される。図 15は、本形態の残響除去装置 610の機能構成を例示したブロック図である。なお、図 15において、これまで説明した実施形態と共通する部分につ 1、てはそれらと同じ符号を用いた。

[0106] 図 15に例示するように、残響除去装置 610は、メモリ 10aと、モデル適用部 500と、後部残響予測部 10cと、周波数領域変換部 5 lOdと、後部残響除去部 10eと、複素スベクトル生成部 10fと、時間領域変換部 10gと、遅延量算出部 10hと、遅延調節部 10 iと、メモリ 10jと、制御部 10kとを有する。 <残響除去処理 >

次に、本形態の残響除去処理について説明する。

図 16は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。

[0107] [前処理]

第 1実施形態と同様である。

[モデル適用過程 (ステップ S211) ]

モデル適用過程では、モデル適用部 500力メモリ 10aから読み込んだ 1分析フレーム分の Mチャネルの離散音響信号値 X (η ··χ (η)を用い、式（13)に示したマルチ

1

ステップ線形予測モデルの各線形予測係数 α (ρ ·· o (p)を算出する (ステップ S w,l w,

211)。この処理うち、擬似白色化処理は第 4実施形態で説明した通りであり、その他の処理は第 1実施形態と同様である。

[0108] [後部残響予測過程 (ステップ S212)]

モデル適用過程 (ステップ S211)の後、後部残響予測部 10cに、メモリ 10aから読み出された離散音響信号値 χ(η)···χ (η)と、モデル適用過程 (ステップ S211)で算出

1

された各線形予測係数 α (ρ ··α (ρ)

w, 1 w, とが入力される。

そして、後部残響予測部 10cは、各線形予測係数 α (ρ ··α (ρ)と離散音響信 w,l w,

号値 x (η ··χ (η)とをマルチステップ線形予測モデルの線形予測項に代入して得ら

1

れた線形予測値を、後部残響予測値 r (n)(_W=l,...,M)として算出して出力する (ステツプ S212)。

[0109] [周波数領域変換過程 (ステップ S213)]

次に、周波数領域変換部 510dに後部残響予測過程 (ステップ S212)で算出された後部残響予測値 r (η)··τ (η)が入力される。周波数領域変換部 51 Odは、入力され

1

た後部残響予測値 r (I！)… r (n)を周波数領域の後部残響予測値 R(f,t) R (f,t)に変

1 1

換する (ステップ S213)。周波数領域変換部 510dは、この処理により、周波数領域の後部残響予測値 R (f,t)-R (f,t)の振幅スペクトル |R (f,tル "|R (f,t)|と位相情報 arg[R

1 1

(f,t)]-arg[R (f,t)]とを抽出し、出力する。

1

[0110] [後部残響除去過程 (ステップ S214)] 次に、後部残響除去部 10eに、擬似白色化部 510の周波数領域変換部 511 (図 1 3)から転送された周波数領域の離散音響信号値の振幅スペクトル |X ' (f,t)|-|X ，(f,t

1

)|と、周波数領域変換部 510dで生成された周波数領域の後部残響予測値の振幅スベクトル |R (f,tル |R (f,t)|とが入力される。そして、後部残響除去部 310eは、周波数

1

領域の離散音響信号値の振幅スペクトル |x 1 '(α)ΐ···|χ '(f,t)iと、周波数領域の後部残響予測値の振幅スペクトル |R (f,tル R (f,t)|とのセンサ毎の相対値を求め、当該相

1

対値を後部残響除去信号値の振幅スペクトル予測値 Is (f,tル |s (f,t)|として出力する

1 M

(ステップ S214)。

[0111] [フラグ判定過程 (ステップ S215, S216) ]

本形態の [フラグ判定過程 (ステップ S215, S216) ]は、第 1実施形態の [フラグ判定過程 (ステップ S 5, S 6) ]と同様である。

[その他の過程]

その他の過程は、第 1実施形態と同様である。ただし、 [複素スペクトル生成過程（ステップ S7) ]において、擬似白色化部 510の周波数領域変換部 511 (図 13)から転送された位相情報 arg[X (f,t)]-arg[X (f,t)]を用いる点のみが第 1実施形態と相違す

1

る。

[0112] 〔第 6実施形態〕

次に、本発明の第 6実施形態について説明する。第 6実施形態は、第 4実施形態の擬似白色化手法を第 2実施形態に適用する際の変形例である。

第 2実施形態の [周波数領域変換過程 (ステップ S 103) ]では、離散音響信号値 X (

1

I！)… X (n)を周波数領域の離散音響信号値 X (f,t) X (f,t)に変換し、後部残響予測

1

値 r (n) r (n)を周波数領域の後部残響予測値 R (f,t) R (f,t)に変換していた。しか

1 1

し、第 4実施形態の擬似白色化を行う場合、その過程で (ステップ S201)で周波数領域の離散音響信号値 X (f,t)-X (f,t)が得られている。

1

[0113] 第 6実施形態では、第 4実施形態の擬似白色化の過程で得られた周波数領域の離散音響信号値 X (f,t)-X (f,t)を流用し、周波数領域変換過程の処理を簡略化する。

1

以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する部分については説明を省略する。 <ノヽードウエア構成 >

第 1実施形態で説明したのと同様である。

<ハードウェアとプログラムとの協働 >

本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されること〖こより構成される。

[0114] 図 17は、本形態の残響除去装置 620の機能構成を例示したブロック図である。図 1 7において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。

図 17に例示するように、残響除去装置 620は、メモリ 10aと、モデル適用部 500と、後部残響予測部 310cと、周波数領域変換部 510dと、後部残響除去部 310eと、複素スペクトル生成部 310fと、時間領域変換部 10gと、遅延量算出部 10hと、遅延調節部 10iと、メモリ 10jと、制御部 10kとを有する。

[0115] <残響除去処理 >

次に、本形態の残響除去処理について説明する。

図 18は、本形態の残響除去処理の全体を説明するためのフローチャートである。以下、この図を用い、本形態の残響除去処理を説明する。

[前処理]

第 1実施形態と同様である。

[モデル適用過程 (ステップ S221) ]

1

w,l w,

S221) ₀この処理うち、擬似白色化処理は第 4実施形態で説明した通りであり、その他の処理は第 1実施形態と同様である。

[0116] [後部残響予測過程 (ステップ S222) ]

モデル適用過程 (ステップ S221)の後、後部残響予測部 310cに、モデル適用過程 (ステップ S221)で擬似白色化された離散音響信号値 X ' (I！)… X ，(n)と、モデル適

1

用過程 (ステップ S221)で算出された各線形予測係数 α (ρ · · α (ρ)とが入力される。

1

測項に代入して得られた線形予測値を、後部残響予測値 r (n)(_W=l,...,M)として算出して出力する (ステップ S222)。

[0117] [周波数領域変換過程 (ステップ S223)]

次に、周波数領域変換部 510dに後部残響予測過程 (ステップ S222)で算出された後部残響予測値 r (η)··τ (η)が入力される。周波数領域変換部 51 Odは、入力され

1

1 1

換する (ステップ S223)。周波数領域変換部 510dは、この処理により、周波数領域の後部残響予測値 R (f,t)-R (f,t)の振幅スペクトル |R (f,tル "|R (f,t)|と位相情報 arg[R

1 1

(f,t)]-arg[R (f,t)]とを抽出し、出力する。

1

[0118] [後部残響除去過程 (ステップ S224)]

1 1

,t)|とが入力される。そして、後部残響除去部 310eは、周波数領域の離散音響信号値の振幅スペクトル |X，(f,tル ·'|Χ '(f,t)|と、周波数領域の後部残響予測値の振幅ス

1

ベクトル |R(f,tル R (f,t)|とのセンサ毎の相対値を求め、当該相対値を後部残響除去

1

信号値の振幅スペクトル予測値 |S (f,tル |S (f,t)|として出力する (ステップ S224)。な

1

お、本ステップで使用される周波数領域の離散音響信号値の振幅スペクトル |x '(f,t)

1

|···|Χ ，(f,t)|は、擬似白色化部 510の減算部 513 (図 13)から転送されたものである。

[0119] [フラグ判定過程 (ステップ S225, S226)]

本形態の [フラグ判定過程 (ステップ S225, S226)]は、第 1実施形態の [フラグ判定過程 (ステップ S 5, S 6)]と同様である。

[その他の過程]

その他の過程は、第 1実施形態と同様である。ただし、 [複素スペクトル生成過程（ステップ S7) ]において、擬似白色化部 510の減算部 513 (図 13)から転送された位相情報 arg[X '(f,t)]-arg[X ' (f,t)]を用いる点のみが第 1実施形態と相違する。 [0120] 〔第 7実施形態〕

次に、本発明の第 7実施形態について説明する。第 7実施形態は、 M= lとし、遅延量算出部 lOhや遅延調節部 lOiを不要とした第 1〜6実施形態の変形例である。その代表例として、 M= lとし、第 2実施形態に第 4実施形態の擬似白色化方法を適用し、遅延量算出部 lOhや遅延調節部 lOiが存在しない構成について説明する。しかし、その他第 1〜6実施形態又はそれらの組合せにおいて M= lとし、遅延量算出部 lOhや遅延調節部 lOiが存在しない構成としてもよい。さらに、遅延量算出部 lOh や遅延調節部 lOiは存在する力 M= lの場合には、それらを機能させない構成であってもよい。

[0121] また、以下では、これまで説明した実施形態との相違点を中心に説明し、それらと共通する事項については説明を省略する。

<ノヽードウエア構成 >

第 1実施形態と同様である。

<ハードウェアとプログラムとの協働 >

本形態の残響除去装置もコンピュータに所定のプログラムが読み込まれて実行されること〖こより構成される。図 19は、本形態の残響除去装置 710の機能構成を例示したブロック図である。また、図 20は、図 19のモデル適用部 800の機能構成の詳細を例示したブロック図である。なお、図 19,図 20において、これまで説明した実施形態と共通する部分についてはそれらと同じ符号を用いた。

[0122] 図 19に例示するように、残響除去装置 710は、メモリ 10aと、モデル適用部 800と、後部残響予測部 310cと、周波数領域変換部 310dと、後部残響除去部 310eと、複素スペクトル生成部 310fと、時間領域変換部 10gと、メモリ 10jと、制御部 10kとを有する。

また、モデル適用部 800は、擬似白色化部 810と第 1線形予測係数算出部 200とを有する。また、擬似白色化部 810は、周波数領域変換部 811と、時間平均化部 81 2と、減算部 813と、時間領域変換部 814とを有する。

[0123] <残響除去処理 >

次に、本形態の残響除去処理について説明する。図 21は、本形態の残響除去処理の全体を説明するためのフローチャートである。また、図 22Aは、図 21のステップ S301 (モデル適用過程）の詳細を説明するためのフローチャートであり、図 22Bは、図 22Aのステップ S311 (擬似白色化過程）の詳細を説明するためのフローチャートである。

以下、これらの図を用い、本形態の残響除去処理を説明する。

[0124] [前処理]

まず、 M (M = 1)個のセンサで観測された 1チャネルの音響信号が所定の標本ィ匕周波数でサンプリングされ、離散音響信号値 X (n)が生成される。生成された各チヤネ

1

ルの離散音響信号値 X (n)は、それぞれメモリ 10aに格納される。なお、本形態では、

1

残響除去を行う全時間区間の離散音響信号値 X (n)を事前に取得し、メモリ 10aに格

1

納しておき、分析フレーム毎に、以下の各過程を実行する。しかし、離散音響信号値

X (n)の取得をリアルタイムで行いつつ、以下の各過程を実行してもよい。

1

[0125] また、残響除去装置 710が最終的に出力する情報が、後部残響除去信号の振幅スペクトルのみであるのカゝ、それとも位相成分をも有する音響信号なのかを示す情報をメモリ 10jに格納しておく。本形態では、フラグ (データ） δをメモリ 10jに格納しておく。そして、出力する情報が直接音の振幅スペクトルのみである場合 δ = 1とし、位相成分をも有する音響信号である場合 δ = 0とする。

以下、本形態の後部残響除去処理を説明する。なお、以下では、 1つの分析フレームの処理過程のみを説明するが、実際は複数の分析フレームに対して同様な処理が行われる。

[0126] [モデル適用過程 (ステップ S301) ]

モデル適用過程では、モデル適用部 800力メモリ 10aから読み込んだ 1分析フレーム分の離散音響信号値 X (n)を用い、式（5)に示したマルチステップ線形予測モデ

1

ルの各線形予測係数 a (p)を算出する (ステップ S301)。以下、この処理の詳細を

1,1

階層的に説明する。

[モデル適用過程 (ステップ S301)の詳細（図 22A) ]

図 22Aに例示するように、モデル適用過程では、まず、擬似白色化（Pre-hitening) 部 810 (図 20)が、入力された離散音響信号値 X (n)が有する短時間区間での自己相関成分を抑制し、擬似白色化した離散音響信号値 X

1 'を生成して出力する (擬似白色化過程 Zステップ S31 1)。すなわち、各離散時間の上記離散音響信号値 X (n)か

1 ら、当該離散時間 _n直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値 X ' (η)

1 を生成する。

[0127] 次に、上述の擬似白色化された離散音響信号値 X ' (η)が第 1線形予測係数算出部

1

200 (図 20)に入力され、第 1線形予測係数算出部 200は、当該擬似白色化された離散音響信号値 X ' (η)を用い、式 (5)に示したマルチステップ線形予測モデルの各

1

線形予測係数 α (ρ)を算出して出力する (第 1線形予測係数算出過程 Ζステップ

1,1 s

312)。なお、一例として、式（5)における遅延 Dを、例えば 25ms (標本ィ匕周波数周波数 12000Hzの場合、 300タップに相当）とし、各線形予測係数 ex (p)の数 Nは、

1,1

例えば、 5000程度とする。また、各線形予測係数 α (ρ)を算出する方法としては、

1,1

自己相関法（correlation method)や共分散法（covariance method)を例示できる。また、 MATLAB (登録商標）等を利用してこの処理を行ってもよ!、。

[0128] [擬似白色化過程 (ステップ S31 1)の詳細（図 22B) ]

次に、擬似白色化過程 (ステップ S 31 1)の詳細を説明する。

本形態では、一例として、 Cepstral Mean Subtraction(CMS)を用いて離散音響信号値の擬似白色化を行う。

まず、擬似白色化部 810の周波数領域変換部 81 1が、メモリ 10aから音響信号 1分析フレーム分の 1チャネルの離散音響信号値 X (n)を読み込む。そして、周波数領域

1

変換部 81 1は、短時間フーリエ変換等によって離散音響信号値 X (n)を周波数領域

1

の離散音響信号値 X (f,t)に変換して出力する (ステップ S 321)。なお、短時間フーリ

1

ェ変換によってこの処理を行う場合は、例えば以下の式（52)を用いる。また、 F [ - ] は短時間フーリエ変換関数を示し、 Log[ ' ]は対数関数を示す。

[0129] X (f, t)=Log[F[x (n)]] · "(52)

1 1

次に、時間平均化部 812に周波数領域の離散音響信号値 X (f,t)が読み込まれ、時

1

間平均化部 812は、以下の式 (53)によって、周波数領域の離散音響信号値 X (f,t)

1 の時間平均 X ' Dを求め、出力する (ステップ S322)。

1

[0130] [数 22] Ε{Χι(ί,ΐ)} = ^∑Χι(ί,ΐ) - (53)

i t=l 次に、減算部 813に周波数領域の離散音響信号値 X (f,t)とその時間平均 E{X (f,t)}

1 1 とが読み込まれ、減算部 513は、以下の式（54)によって X ' (f,t)を算出し、出力する（

1

ステップ S323)。

X ' (f,t)=X (f,t) -E{X (f,t)} 〜(54)

1 1 1

次に、時間領域変換部 514に X ' (f,t)が読み込まれ、時間領域変換部 814は、逆フ

1

一リエ変換等によってこれらを時間領域に変換し、擬似白色化された離散音響信号値 X，(n)を算出し、出力する (ステップ S324)。なお、逆フーリエ変換によってこの処

1

理を行う場合は、例えば以下の式 (55)を用いる。また、 invF [ ' ]は逆フーリエ変換関数を示す。

[0131] X ' (n)=invF[exp[X ' (f,t)]] 〜(55)

1 1

また、本形態の例では、時間領域変換部 814で生成された擬似白色化後の離散音響信号値 X ' (η)は、後部残響予測部 310cや周波数領域変換部 310d (図 19)にも

1

転送される ( [モデル適用過程 (ステップ S301)の詳細]の説明終わり）。

[0132] [後部残響予測過程 (ステップ S302) ]

モデル適用過程 (ステップ S301)の後、後部残響予測部 310cに、時間領域変換部 814で生成された擬似白色化後の離散音響信号値 X ' (η)と、モデル適用過程 (ス

1

テツプ S301)で算出された各線形予測係数 a (ρ)

1,1 とが入力される。

そして、後部残響予測部 310cは、前述の式（10)のように、各線形予測係数 α (ρ

1,1

)と擬似白色化後の離散音響信号値 X ' (η)

1 とをマルチステップ線形予測モデルの線形予測項に代入して得られた線形予測値を、後部残響予測値 r (n)

1 として算出して出力する (ステップ S302)。本形態では、式（5)のマルチステップ線形予測モデルを用いているため、後部残響予測部 310cは、以下の式（56)に従って後部残響予測値 r

1

(n)を求めて出力する。 [0133] [数 23] ri (n) =∑a_u(p) - Xj(n -p-D) - (56)

P=I

[周波数領域変換過程 (ステップ S303) ]

次に、周波数領域変換部 310dに、時間領域変換部 814 (図 20)で生成された擬似白色化後の離散音響信号値 X ' (η)と、後部残響予測過程 (ステップ S302)で算出

1

された後部残響予測値 r (n)とが入力される。周波数領域変換部 310dは、入力され

1

た擬似白色化後の離散音響信号値 X ' (η)

1 を周波数領域の離散音響信号値 X ' (f,t)

1 に変換し、後部残響予測値 r (n)を周波数領域の後部残響予測値 R (f,t)に変換する (ス

1 1

テツプ S303)。本形態では、例えば、窓長 25msのハユング窓などの有限長の窓関数を用い、短時間フーリエ変換（DFT: Discrete Fourier Transform)等によって、これらの周波数領域への変換を行う。周波数領域変換部 310dは、これらの処理により、周波数領域の離散音響信号値 X ' (f,t)の振幅スぺ外ル |X ' (f,t)|と位相情報 arg[X ' (f

1 1 1

,t)]、及び、周波数領域の後部残響予測値 R (f,t)の振幅スぺ外ル |R (f,t)|と位相情報

1 1

arg[R (f,t)]とを抽出し、出力する。

1

[0134] [後部残響除去過程 (ステップ S304) ]

次に、後部残響除去部 310eに、周波数領域の離散音響信号値の振幅スペクトル I X ' (f,t)|と、周波数領域の後部残響予測値の振幅スペクトル |R (f,t)|とが入力される。

1 1

[0135] [フラグ判定過程 (ステップ S305, S306) ]

ステップ S304の後、制御部 10kが、メモリ 10jに格納されているフラグ δを読み出し、そのフラグ δ力振幅スペクトルのみを出力することを示すフラグであるか否力、すなわち、 δ = 1であるか否かを判断する（ステップ S305)。ここで、 δ = 1であれば、制御部 10kは、後部残響除去過程 (ステップ S304)で後部残響除去部 310eが生成した後部残響除去信号値の振幅スぺ外ル予測値 |S (f,t)|を、残響除去装置 710の最終的な出力情報として出力し (ステップ S306)、当該分析フレームの処理を終了させる。このように出力された振幅スペクトル予測値 |S (f,t)|は、例えば、残響除去装置 71

1

0の後段に続く音声認識システム等のアプリケーションに渡され、特徴量に変換される。

一方、 δ =0であれば、制御部 10kは、以下のステップ S307以降の処理を実行させる。

[0136] [複素スペクトル生成過程 (ステップ S307) ]

複素スペクトル生成過程では、まず、複素スペクトル生成部 310fに、後部残響除去部 310eから出力（ステップ S304)された後部残響除去信号値の振幅スペクトル予測値 |S (f,t)|と、周波数領域変換部 310dから出力 (ステップ S303)された周波数領域の

1

離散音響信号値の位相情報 arg[X (f,t)]とが入力される。複素スペクトル生成部 310f

1，

は、これらの情報を用い、以下の式 (57)に従って、後部残響除去信号値の複素スぺタトル予測値 S (f,t)を算出して出力する (ステップ S307)。

1

S (f,t)=|S (f,t)| · expO- arg[X (f,t)]) · · -(57)

[0137] [時間領域変換過程 (ステップ S308) ]

ステップ S307の後、時間領域変換部 10gに、上述の後部残響除去信号値の複素スペクトル予測値 S (f,t)が入力される。そして、時間領域変換部 10gは、後部残響除去信号値の複素スぺ外ル予測値 S (f,t)を時間領域に変換した後部残響除去信号推

1

定値 s (n)を算出して出力する (ステップ S308)。なお、時間領域への変換は、例えば

1

、逆フーリエ変換によって行う。

[0138] 〔シミュレーション結果〕

次に、 M= 1の場合における本発明の効果を示すためのシミュレーション結果を示す。ここでは、第 2実施形態に第 4実施形態の擬似白色化方法を適用した構成でシミユレーシヨンを行った。

このシミュレーションでは、連続発話データセットから女声と男性のそれぞれ 50発話を取り出し、 3000タップのインパルス応答と畳み込み残響環境をシミュレートした。また、式（5)のマルチステップ線形予測モデルのステップサイズ（遅延） Dを 25msとし、線形予測係数 α (ρ)の数 Νを 5000とした。また、時間領域から周波数領域への変換には、窓長 25msの短時間フーリエ変換を用いた。

[0139] 図 24にこのシミュレーション結果を示す。ここで、図 24A、図 24Bは、それぞれ、残響除去前の振幅スペクトラム値及び音声波形を示した図である。また、図 24C、図 24 Dは、それぞれ、本発明（M= 1)による残響除去後の振幅スペクトラム値及び音声波形を示した図である。なお、図 24A、図 24Cの縦軸は振幅スペクトラム値を示し、横軸は時間（s)を示す。また、図 24B、図 24Dの縦軸は周波数 (Hz)を示し、横軸は時間（s)を示す。これらの図からも、本発明によって後部残響が精度良く抑圧されることがわカゝる。

[0140] 次に、本発明の効果を音声認識の観点力評価したシミュレーション結果を示す。

このシミュレーションでは、クリーン音声を用いて構築された音響モデルを用いた。表 1に、それぞれの認識対象の単語誤り率を示す。残響音声、残響除去音声の単語誤り率は、それぞれ「1¾ .」と「1^ .」と表されている。音響モデル力クリーン音声から学習されたにもかかわらず、本発明により認識率が大幅に改善されていることがわかる。

[0141] [表 1]

〔実験結果〕

次に、本発明の効果を示すための実験結果を示す。この実験は、後部残響除去を行わない場合 (処理無)、 M= lとし、第 2実施形態に第 4実施形態の擬似白色化方法を適用した方法 (第 7実施形態)、第 1実施形態 (M≥ 2)で遅延調節を行うことなく 1つのチャネル (m=l)で得られた後部残響除去信号推定値を用いた場合 (第 1実施形態 (遅延調節無)）、及び、第 1実施形態 (M≥2)で遅延調節を行って後部残響除去を行った場合 (第 1実施形態 (遅延調節無)）について、各々の音声認識率を測定した。

図 25Aは、この実験条件を示す図である。この実験では、縦 3. 5m、横 4. 5m、高さ 2. 5mの室内に、 4つのマイクロフォン 1010 (M=4)を一列に配置し、 m= lのマイクロフオン 1010 (実線）から、 0、 5m, 1. Om, l . 5m,2. Omの距離に 4つのスピーカ 1 020を一直線に配置した場合を想定した。また、連続発話データセットから女性と男性のそれぞれ 100発話を取り出し、これらに、シミュレートした 3000タップのインパルス応答と畳み込んで後部残響音声を作成した。また、音声認識の際には、音響モデノレ適 J心処 ¾とし飞 Cepstral Mean Subtraction (B.S. Atal, Effectiveness of linear prea iction characteristics of the speech wave for automatic speaker identification and ver ification," Journal of the Acoustical Society of America, vol. 55(6), pp. 1304-1312, J un. 1974. )を用いた。なお、 M= lとし、第 2実施形態に第 4実施形態の擬似白色化方法を適用した方法 (第 7実施形態)では、 m= lのマイクロフォン 1010を使用した。

[0143] 図 25Bは、上記の 4つの場合〔処理無、第 7実施形態、第 1実施形態 (遅延調節無）、第 1実施形態 (遅延調節有)〕につ、ての音声認識結果 (単語誤り率)を示すグラフである。なお、図 25Bでは、マイクロフォン 1010 (m= l)と各スピーカ 1020との距離 (m)を横軸とし、単語誤り率 (％)を縦軸としている。

図 25Bに例示するように、マイクロフォン 1010 (m= l)と各スピーカ 1020との距離が比較的近い場合には、第 7実施形態 (M= l)に対する第 1実施形態 (M≥2) (遅延調節無)及び第 1実施形態 (M≥2) (遅延調節有)の単語誤り率の改善量はあまり大きくない。し力し、マイクロフォン 1010 (m= l)と各スピーカ 1020との距離が離れるにつれ、伝達関数中の最大位相成分 (ゼロ点）が増えるため、第 7実施形態 (M= l) に対する第 1実施形態 (M≥2) (遅延調節無)の単語誤り率の改善量は顕著になつていく。さらに、第 1実施形態 (M≥2) (遅延調節有)場合には、より一層単語誤り率を改善することができる。

[0144] 〔変形例等〕

なお、本発明は上述の各実施形態に限定されるものではない。例えば、各実施形態では、後部残響除去部が、短時間フーリエ変換等により各データを周波数領域に変換して各処理を実行した。したし、残響除去装置の出力として要求される信号が直接音の振幅スペクトルのみであるならば、後部残響除去部が、各データを z変換し、 z 領域で各処理を実行してもよヽ。

また、各実施形態では、擬似白色化部によって離散音響信号値から短時間相関を取り除いた後、各処理を実行した。しかし、短時間相関を取り除いていない離散音響信号値を用いて各処理を実行してもよヽ。

[0145] また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、 2以上の実施形態を結合した形態であってもよい。その他、本発明の趣旨を逸脱しな、範囲で適宜変更が可能であることは、うまでもな、。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

[0146] この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、 DVD (Digital Versatile Disc)、 DVD— RAM (Random Access Memory)、 CD— ROM (Compact Disc Read Only Memory) 、 CD— R (Recordable) ZRW (Rewritable)等を、光磁気記録媒体として、 MO (Magn eto- Optical disc)等を、半導体メモリとして EEP— ROM (Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。

[0147] また、このプログラムの流通は、例えば、そのプログラムを記録した DVD、 CD-R

OM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サ一バコンピュータカ他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよ!/、。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータ力も転送されたプログラムを、ー且、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体力直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータ力プログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆる ASP (Application Service Pr ovider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。

[0148] また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとした力これらの処理内容の少なくとも一部をノ、一ドウア的に実現することとしてもよい。

産業上の利用可能性

[0149] 本発明を、各種音響信号処理システムの要素技術として用いることで、そのシステム全体の性能を向上させることができる。本発明が適用可能な音響信号処理システムとしては、例えば、以下のようなものを列挙できる。環境で収録された音声には、常に残響 (反射音）が含まれる力以下にあげるシステムは、そのような状況で用いられることを想定した例である。

•残響環境での音声認識システム

'歌われたり、楽器で演奏されたり、スピーカで演奏された楽曲の残響を除去してメモリ格納しておき、それら楽曲を検索したり、採譜したりする音楽情報処理システム

•人が発した音に反応して機械にコマンドを渡す機械制御インターフェース、及び機械と人間との対話装置

•残響環境下で残響を除去することで聞き取り易さを向上させる補聴器

•残響除去により音声の明瞭度を向上させる TV会議システムなどの通信システム

Claims

請求の範囲

[1] 後部残響を伴う音響信号から後部残響を除去する残響除去装置であって、

M (M≥1)個のセンサによってそれぞれ観測された M個のチャネル m (m= l, M)の上記音響信号をそれぞれ複数の時点でサンプリングして得られた離散音響信号値を記憶するメモリと、

長時間区間における M個のチャネル mの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間 nにおけるチャネル w (w= l, ..., M)の離散音響信号値を表現した線形予測モデルである、チャネル wのマルチステップ線形予測モデルの各線形予測係数を、複数の上記離散音響信号値を用いて算出するモデル適用部と、

上記チャネル wのマルチステップ線形予測モデルの各線形予測係数と複数の上記離散音響信号値とを上記チャネル wのマルチステップ線形予測モデルの上記線形予測項に代入して得た線形予測値を、離散時間 nにおけるチャネル wの後部残響予測値として出力する後部残響予測部と、を有する。

[2] 請求項 1に記載の残響除去装置であって、

上記モデル適用部は、

各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値を生成する擬似白色化部と、

上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第 1線形予測係数算出部と、を有し、

上記短時間区間は、上記長時間区間よりも短い。

[3] 請求項 2に記載の残響除去装置であって、

上記擬似白色化部は、

上記短時間区間におけるチャネル mの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、上記短時間区間直後の離散時間 nにおける当該チャネル mの離散音響信号値を表現した線形予測モデルである、チャネル mの短時間線形予測モデルの各線形予測係数を、上記離散音響信号値を用いて算出する第 2線形予測係数算出部と、

上記第 2線形予測係数算出部で算出された上記各線形予測係数をチャネル mの上記短時間線形予測モデルに代入して得られる逆フィルタに当該チャネル mの上記離散音響信号値を代入し、それによつて得られる当該短時間線形予測モデルの上記予測誤差項の値を当該チャネル mの上記擬似白色化した離散音響信号値として出力する逆フィルタ処理部と、を有する。

[4] 請求項 3に記載の残響除去装置であって、

M≥2であり、

上記第 2線形予測係数算出部は、

チャネル毎に上記離散音響信号値の自己相関係数を算出する自己相関係数算出部と、

チャネル毎に求められた上記自己相関係数をチャネル間で平均した平均自己相関係数を算出する自己相関係数平均化部と、

上記平均自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算部と、を有する。

[5] 請求項 3に記載の残響除去装置であって、

M≥2であり、

上記第 2線形予測係数算出部は、

上記 M個のセンサのうち、音響信号の音源に最も近い 1つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出する自己相関係数算出部と、

上記自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算部と、を有する。

[6] 請求項 1に記載の残響除去装置であって、

各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換部と、

上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チヤネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去部と、を有する。

[7] 請求項 6に記載の残響除去装置であって、

上記後部残響予測部は、

上記モデル適用部で算出された上記各線形予測係数と複数の擬似白色化された上記離散音響信号値とを上記線形予測項に代入して得られた線形予測値を、離散時間 nにおけるチャネル wの後部残響予測値として算出し、

上記周波数領域変換部は、

擬似白色化された各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換する。

[8] 請求項 6に記載の残響除去装置であって、

チャネル wの上記後部残響除去信号値の振幅スペクトル予測値と、チャネル wの上記周波数領域の離散音響信号値の位相情報とを用い、チャネル wの後部残響除去信号値の複素スペクトル予測値を算出する複素スペクトル生成部と、

チャネル wの上記後部残響除去信号値の複素スペクトル予測値を時間領域に変換したチャネル wの後部残響除去信号推定値を算出する時間領域変換部とを、さらに有する。

[9] 請求項 8に記載の残響除去装置であって、

M≥2であり、

上記モデル適用部は、

複数のチャネルに対してそれぞれ上記各線形予測係数を算出し、

上記後部残響予測部は、

複数のチャネルに対してそれぞれ上記後部残響予測値を算出し、

上記後部残響除去部は、

複数のチャネルに対してそれぞれ上記後部残響除去信号値の振幅スペクトル予測値を算出し、

上記複素スペクトル生成部は、複数のチャネルに対してそれぞれ上記後部残響除去信号値の複素スペクトル予測値を算出し、

上記時間領域変換部は、

複数のチャネルに対してそれぞれ上記後部残響除去信号推定値を算出し、当該残響除去装置は、

各チャネルの上記後部残響除去信号推定値をそれぞれ或る遅延量で遅延させた場合に、遅延後の各チャネルの上記後部残響除去信号推定値のチャネル間相互相関が極大となる、各チャネルの当該遅延量を決定する遅延量算出部を有する。

[10] 請求項 9に記載の残響除去装置であって、

各チャネルの上記後部残響除去信号推定値を、それぞれのチャネルに対して算出された上記遅延量だけ遅延させる遅延部と、

上記遅延部で遅延させた上記後部残響除去信号推定値の和を、補正残響除去信号値として算出する遅延補正部と、を有する。

[11] 請求項 1に記載の残響除去装置であって、

M≥2である。

[12] 請求項 1に記載の残響除去装置であって、

上記マルチステップ線形予測モデルは、

ガウス記号とし、 a (p)を、 X ' (n)に対応する線形予測項のチャネル mに対応す w, m w

る P番目の線形予測係数とし、 Dをステップサイズを示す定数とした場合における、 [数 24]

M [N /M]

x_w(ⁿ) = L ∑a_w,_m(p) ' x n - p- D) + e_w(nj

m=l p=l である。

[13] 後部残響を伴う音響信号から後部残響を除去する残響除去方法であって、

M (M≥1)個のセンサによってそれぞれ観測された M個のチャネル m (m= l, M)の上記音響信号をそれぞれ複数の時点でサンプリングして得られた離散音響信号値をメモリに記憶する離散音響信号記憶過程と、

長時間区間における M個のチャネル mの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、当該長時間区間より所定時間後の離散時間 nにおけるチャネル wの離散音響信号値を表現した線形予測モデルである、チヤネル wのマルチステップ線形予測モデルの各線形予測係数を、複数の上記離散音響信号値を用いて算出するモデル適用過程と、

上記チャネル wのマルチステップ線形予測モデルの各線形予測係数と複数の上記離散音響信号値とを上記チャネル wのマルチステップ線形予測モデルの上記線形予測項に代入して得た線形予測値を、離散時間 nにおけるチャネル wの後部残響予測値として出力する後部残響予測過程と、を有する。

[14] 請求項 13に記載の残響除去方法であって、

上記モデル適用過程は、

各離散時間の上記離散音響信号値から、当該離散時間直前の短時間区間内の各離散音響信号値と自己相関性を持つ自己相関成分を抑制し、擬似白色化した離散音響信号値を生成する擬似白色化過程と、

上記擬似白色化した離散音響信号値を用い、上記マルチステップ線形予測モデルの各線形予測係数を算出する第 1線形予測係数算出過程と、を有し、

上記短時間区間は、上記長時間区間よりも短い。

[15] 請求項 14に記載の残響除去方法であって、

上記擬似白色化過程は、

上記短時間区間におけるチャネル mの各離散音響信号値を線形結合した線形予測項と、予測誤差項と、の和によって、上記短時間区間直後の離散時間 nにおける当該チャネル mの離散音響信号値を表現した線形予測モデルである、チャネル mの短時間線形予測モデルの各線形予測係数を、上記離散音響信号値を用いて算出する第 2線形予測係数算出過程と、

上記第 2線形予測係数算出過程で算出された上記各線形予測係数をチャネル m の上記短時間線形予測モデルに代入して得られる逆フィルタに当該チャネル mの上記離散音響信号値を代入し、それによつて得られる当該短時間線形予測モデルの上記予測誤差項の値を当該チャネル mの上記擬似白色化した離散音響信号値として出力する逆フィルタ処理過程と、を有する。

[16] 請求項 15に記載の残響除去方法であって、

M≥2であり、

上記第 2線形予測係数算出過程は、

チャネル毎に上記離散音響信号値の自己相関係数を算出する自己相関係数算出過程と、

チャネル毎に求められた上記自己相関係数をチャネル間で平均した平均自己相関係数を算出する自己相関係数平均化過程と、

上記平均自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算過程と、を有する。

[17] 請求項 15に記載の残響除去方法であって、

M≥2であり、

上記第 2線形予測係数算出過程は、

上記 M個のセンサのうち、音響信号の音源に最も近い 1つのセンサで観測された音響信号を複数の時点でサンプリングして得られた離散音響信号値の自己相関係数を算出する自己相関係数算出過程と、

上記自己相関係数を用い、上記短時間線形予測モデルの各線形予測係数を算出する方程式演算過程と、を有する。

[18] 請求項 13に記載の残響除去方法であって、

各チャネルの上記離散音響信号値を周波数領域の離散音響信号値に変換し、各チャネルの上記後部残響予測値を周波数領域の後部残響予測値に変換する周波数領域変換過程と、

上記周波数領域の離散音響信号値の振幅スペクトルと、上記周波数領域の後部残響予測値の振幅スペクトルとの相対値をチャネル毎に求め、当該相対値を各チヤネルの後部残響除去信号値の振幅スペクトル予測値として出力する後部残響除去過程と、を有する。

[19] 請求項 18に記載の残響除去方法であって、

上記後部残響予測過程は、

上記モデル適用部で算出された上記各線形予測係数と複数の擬似白色化された上記離散音響信号値とを上記線形予測項に代入して得られた線形予測値を、離散時間 nにおけるチャネル wの後部残響予測値として算出する過程であり、

上記周波数領域変換部では、

[20] 請求項 18に記載の残響除去方法であって、

チャネル wの上記後部残響除去信号値の振幅スペクトル予測値と、チャネル wの上記周波数領域の離散音響信号値の位相情報とを用い、チャネル wの後部残響除去信号値の複素スペクトル予測値を算出する複素スペクトル生成過程と、

チャネル wの上記後部残響除去信号値の複素スペクトル予測値を時間領域に変換したチャネル wの後部残響除去信号推定値を算出する時間領域変換過程とを、さらに有する。

[21] 請求項 20に記載の残響除去方法であって、

M≥2であり、

上記モデル適用過程は、

複数のチャネルに対してそれぞれ上記各線形予測係数を算出する過程であり、上記後部残響予測過程は、

複数のチャネルに対してそれぞれ上記後部残響予測値を算出する過程であり、上記後部残響除去過程は、

複数のチャネルに対してそれぞれ上記後部残響除去信号値の振幅スペクトル予測値を算出する過程であり、

上記複素スペクトル生成過程は、

複数のチャネルに対してそれぞれ上記後部残響除去信号値の複素スペクトル予測値を算出する過程であり、

上記時間領域変換過程は、複数のチャネルに対してそれぞれ上記後部残響除去信号推定値を算出する過程であり、

当該残響除去方法は、

各チャネルの上記後部残響除去信号推定値をそれぞれ或る遅延量で遅延させた場合に、遅延後の各チャネルの上記後部残響除去信号推定値のチャネル間相互相関が極大となる、各チャネルの当該遅延量を決定する遅延量算出過程を有する。

[22] 請求項 21に記載の残響除去方法であって、

各チャネルの上記後部残響除去信号推定値を、それぞれのチャネルに対して算出された上記遅延量だけ遅延させる遅延過程と、

上記遅延過程で遅延させた上記後部残響除去信号推定値の和を、補正残響除去信号値として算出する遅延補正過程と、を有する。

[23] 請求項 13に記載の残響除去方法であって、

M≥2である。

[24] 請求項 13に記載の残響除去方法であって、

上記マルチステップ線形予測モデルは、

X (n)をチャネル w (w= l , ..., M)に対応する離散時間 nの離散音響信号値とし、 w

る P番目の線形予測係数とし、 Dをステップサイズを示す定数とした場合における、 [数 25]

M [N/M]

x n) =∑ ∑a_w,_m (p) ' x_m(n - p - D) + e_w (n)

m=l p=l である。

[25] 請求項 13に記載された残響除去方法の各過程をコンピュータに実行させるための残響除去プログラム。

[26] 請求項 25に記載の残響除去プログラムを格納したコンピュータ読み取り可能な記録媒体。