JP5486567B2

JP5486567B2 - 狭指向音声再生処理方法、装置、プログラム

Info

Publication number: JP5486567B2
Application number: JP2011190776A
Authority: JP
Inventors: 健太丹羽; 弘章伊藤; 澄宇阪内; 賢一古家; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2010-12-21
Filing date: 2011-09-01
Publication date: 2014-05-07
Anticipated expiration: 2031-09-01
Also published as: JP2012147413A

Description

本発明は、所望の方向を含む狭い範囲に音声を再生するための信号処理技術（狭指向音声再生処理技術）に関する。

スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向（目的方向）を含む狭い範囲に音声を再生するための信号処理技術（狭指向音声再生処理技術）は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係（音圧分布）は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する３つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。

[１]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板（放物面）の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。

[２]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる（例えば特許文献１参照）。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。

[３]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる（例えば非特許文献１参照）。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。

特開２０１０−２５８９３８号公報

羽田陽一、片岡章俊、「自由空間伝達関数を用いた多点制御に基づく小型スピーカアレーの実空間性能」、日本音響学会春季講演論文集、pp.631-632，2008.

カテゴリ[１]で説明した狭指向音声再生処理技術によると、例えばホーンスピーカとパラボラスピーカの例から理解できるように、目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、ホーンスピーカとパラボラスピーカは共に、例えば見込み角５°〜１０°程度の狭指向性（目的方向に対して±５°〜±１０°程度の鋭い指向性）を実現することが困難である。

カテゴリ[２]で説明した狭指向音声再生処理技術によると、狭指向性の観点で優れているが、目的方向にパラメトリックスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、パラメトリックスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、超音波暴露(超音波を大音量で浴びていて健康上の問題がないかどうか)について未だに検討されている問題もある。

カテゴリ[３]で説明した狭指向音声再生処理技術によると、狭指向性を実現するためには、スピーカ数を増やし、アレーサイズ（アレーの全長）を大きくすることが必要となる。フェーズドスピーカアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なスピーカ数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なスピーカでリアルタイム処理が可能な信号の最大値は１００程度であるところ、１００本程度のスピーカを用いたフェーズドスピーカアレーで実現可能な指向性は目的方向に対して±３０°程度であり、例えば±５°〜±１０°程度の鋭い指向性で目的方向への音声を再生することは困難である。また、カテゴリ[３]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。

このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する狭指向音声再生処理技術を提供することを目的とする。

音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対するＭ個のスピーカからの音声の伝達特性ａ_φを用いて、音声再生の対象となる方向についてフィルタを求める[フィルタ設計処理]。Ｍは２以上の整数であり、Ｍ個のスピーカはスピーカアレーを構成する。（１）スピーカアレーから放射された音声であって、（２）当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各伝達特性ａ_φは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Ｓに適用してＭチャネルの周波数領域信号Ｘを得る[フィルタ適用処理]。Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得られるＭチャネルの時間領域信号ｘは、通常、スピーカアレーで再生されることとなる。

各伝達特性ａ_φは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。

フィルタ設計処理では、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、Ｍ個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される一つまたは複数の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。

あるいは、フィルタ設計処理では、（１）音声再生の対象となる方向への音声の全帯域通過、および（２）一つ以上の死角への音声の全帯域抑制、の条件の下、音声再生の対象となる方向と各死角以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向φ＝sの伝達特性ａ_sを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向以外の各方向に対応する伝達特性ａ_φによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。

本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性ａ_φを、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。

（ａ）直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図、（ｂ）直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図。従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図。実施形態１に係る狭指向音声再生処理装置の機能構成を示す図。実施形態１に係る狭指向音声再生処理方法の処理手順を示す図。第１の実施例の構成を示す図。第１の実施例の実験結果を示す図。第１の実施例の実験結果を示す図。第１の実施例にてフィルタW^→(ω,θ)による指向性を示す図。第２の実施例の構成を示す図。第２の実施例の実験結果を示す図。第２の実施例の実験結果を示す図。本発明の実施構成例を示す図。（ａ）平面図。（ｂ）正面図。（ｃ）側面図。（ａ）本発明の別の実施構成例を示す側面図。（ｂ）本発明の別の実施構成例を示す側面図。図１３（ｂ）に示す実施構成例における使用形態を示す図。本発明の実施構成例を示す図。（ａ）平面図。（ｂ）正面図。（ｃ）側面図。本発明の実施構成例を示す側面図。実施形態２に係る狭指向音声再生処理装置の機能構成を示す図。実施形態２に係る狭指向音声再生処理方法の処理手順を示す図。

《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。

周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω（周波数ｆと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう）、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θ_sを音声再生対象の方向として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW^→(ω,θ_s)、音源信号の周波数領域信号S(ω,k)にフィルタW^→(ω,θ_s)を適用して得られるMチャネルの周波数領域信号（以下、再生信号と呼ぶ）をX^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]とする。Mは2以上の整数とする。このとき、第kフレームの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]は式（１）で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される（詳細は後述する）。スピーカの個数はMである。

「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー（M個のスピーカが直線状に並べられたスピーカアレー）であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m（m²=M）の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。

フィルタW^→(ω,θ_s)の設計法としては種々あるが、ここでは最小分散無歪応答法（MVDR method;minimum variance distortion response method）に拠る場合を説明する。最小分散無歪応答法では、フィルタW^→(ω,θ_s)は、式（３）の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θ_s以外の方向への音声（以下、「目的方向θ_s以外の方向への音声」を「漏れ音声」とも呼ぶ）のパワーが周波数ωで最小となるように設計される（式（２）参照）。a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは、方向θ_sに受聴位置が在るとして、当該受聴位置とM個のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは、スピーカアレーに含まれる各スピーカから方向θ_sへの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー（好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー）によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。

式（２）の最適解であるフィルタW^→(ω,θ_s)は式（４）で与えられることが知られている。
（参考文献１）Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001．pp.66-73,248-255

空間相関行列Q(ω)の逆行列が式（４）に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式（２）から、漏れ音声のパワーは空間相関行列Q(ω)の構造に依存することもわかる。

漏れ音声の進行方向（伝搬方向）のインデックスpが属する集合を{1,2,…,P-1}とする。目的方向θ_sのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき空間相関行列Q(ω)は式（５ａ）で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から目的方向θ_sがあたかも特定の方向の如く説明しているが（それ故、目的方向θ_s以外の方向を「漏れ音声」の方向としている）、後述の実施形態で明らかになるように、実際には、目的方向θ_sは音声再生の対象となりえる任意の方向であり、目的方向θ_sになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θ_sと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の進行方向として想定される複数の方向に含まれる各方向θ_φに対する各スピーカからの音声の伝達特性a^→(ω,θ_φ)＝[a₁(ω,θ_φ),…,a_M(ω,θ_φ)]^T（φ∈Φ）によって表される空間相関行列であり、式（５ｂ）で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。

ここで、目的方向θ_sへの音声の伝達特性a^→(ω,θ_s)と、方向p∈{1,2,…,P-1}への音声の伝達特性a^→(ω,θ_p)=[a₁(ω,θ_p),…,a_M(ω,θ_p)]^Tがお互いに直交すると仮定する。つまり、式（６）で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A^→⊥B^→である場合、ベクトルA^→とベクトルB^→の内積値はゼロである。ここでP≦Mを満たすとする。なお、式（６）で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。

このとき、空間相関行列Q(ω)は式（７）のように展開できる。式（７）は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a^→(ω,θ_s),a^→(ω,θ₁),…,a^→(ω,θ_P-1)]^Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式（６）を満たす伝達特性a^→(ω,θ_φ)の固有値であり実数である。

このとき、空間相関行列Q(ω)の逆行列は式（８）で与えられる。

式（８）を式（２）に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば目的方向θ_sに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θ_sに対する指向性を実現する上で、重要な条件となる。

以下、従来技術において目的方向θ_sに対して鋭い指向性を実現することが困難な理由について考察する。

従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θへの直接音のみのステアリングベクトルをh^→ _d(ω,θ)=[h_d1(ω,θ),…,h_dM(ω,θ)]^Tとすると、従来では、伝達特性a^→ _conv(ω,θ)=[a₁(ω,θ),…,a_M(ω,θ)]^Tをa^→ _conv(ω,θ)=h^→ _d(ω,θ)としていた。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。

線形スピーカアレーから音声が平面波として放射されると仮定すると、直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)は例えば式（９ａ）で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うスピーカ間の距離を表す。ｊは虚数単位である。基準点は線形スピーカアレーの全長の半分の位置（線形スピーカアレーの中心）である。方向θは線形スピーカアレーの中心から見て直接音の方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した（図５参照）。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)は例えば式（９ｂ）で与えられる。以下、直接音のステアリングベクトルh^→ _d(ω,θ)を構成するm番目の要素h_dm(ω,θ)は式（９ａ）で与えられるとして説明する。

方向θの伝達特性と目的方向θ_sの伝達特性との内積値γ_conv(ω,θ)は式（１０）で表される。なお、θ≠θ_sとする。

以後、γ_conv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγ_conv(ω,θ)が０となる方向θは式（１１）で与えられる。ｑは０を除く任意の整数である。また、０＜θ＜π／２であるから、ｑの範囲は周波数帯域ごとに制限されることになる。

式（１１）にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ（Mとu）のみであるから、方向の差（角度差）|θ-θ_s|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγ_conv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図１（ａ）に模式的に示すように、目的方向θ_sに対して広いビーム幅を持った指向性となってしまう。

他方、本発明は、このような考察に基づき、目的方向θ_sに対して鋭い指向性を持つためのフィルタ設計には、方向の差（角度差）|θ-θ_s|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。

ここで「双対音」を定義する。（１）スピーカアレーから放射された音声であって、（２）当該音声が反射物で反射して、反射音の進行方向が目的方向となる、という条件を満たす音声を目的方向の「双対音」と呼ぶ。

音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声（直接音）と、双対音が反射物３００で反射した反射音との二種類の平面波が向かうことになる。反射音（あるいは双対音）の数をΞとする。Ξは１以上の予め定められた整数である。このとき、伝達特性a^→(ω,θ)＝[a₁(ω,θ),…,a_M(ω,θ)]^Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差をτ_ξ(θ)とし、α_ξ（1≦ξ≦Ξ）を反射による音の減衰を考慮するための係数とすると、式（１２ａ）のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h^→ _rξ(ω,θ)=[h_r1ξ(ω,θ),…,h_rMξ(ω,θ)]^Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。α_ξ（1≦ξ≦Ξ）は、通常、α_ξ≦1（1≦ξ≦Ξ）である。各反射音について、スピーカアレーからの音声（双対音）が反射物で反射する回数が１回であるならば、α_ξ（1≦ξ≦Ξ）は、ξ番目の双対音が反射する物体の音の反射率を表していると考えて差し支えない。

Ｍ個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声（双対音）が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、２次元形状（例えば平板）または３次元形状（例えばパラボラ形状）である。また、各反射物の大きさはスピーカアレーと同等かそれ以上（１〜２倍程度）の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率α_ξ（1≦ξ≦Ξ）は少なくとも０よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体（例えば反射板）であっても移動不能な物体（床や壁や天井）であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり（後述する関数Ψ(θ)やΨ_ξ(θ)を参照のこと）、ひいてはフィルタ計算のやり直し（再設定）が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい（この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる）。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係（幾何学的関係）を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。

以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は１回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式（１２ａ）は式（１２ｂ）のように表すことができる。

双対音のステアリングベクトルh^→ _r(ω,θ)=[h_r1(ω,θ),…,h_rM(ω,θ)]^Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に（式（９ａ）参照）、式（１３ａ）で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式（９ｂ）で表す場合には、双対音のステアリングベクトルh^→ _r(ω,θ)=[h_r1(ω,θ),…,h_rM(ω,θ)]^Tのm番目の要素は式（１３ｂ）で表される。一般的に、ξ番目（1≦ξ≦Ξ）のステアリングベクトルh^→ _rξ(ω,θ)=[h_r1ξ(ω,θ),…,h_rMξ(ω,θ)]^Tのm番目の要素は、式（１３ｃ）や式（１３ｄ）で表される。関数Ψ_ξ(θ)はスピーカアレーから見たξ番目（1≦ξ≦Ξ）の双対音の進行方向を出力する。

反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。

平板状の反射物がスピーカアレーの近傍にある（距離Lがスピーカアレーのサイズに比して極端に大きくない）と仮定すると、コヒーレンスγ(ω,θ)は式（１４）で表される。なお、θ≠θ_sとする。

式（１４）から、式（１１）の従来のコヒーレンスγ_conv(ω,θ)よりも式（１４）のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ（Ψ(θ)やL）が式（１４）の第２〜４項目の中に存在するので第１項目のh^→ _d ^H(ω,θ)h^→ _d(ω,θ)を除去できる可能性がある。

例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式（１５）が成立するので、式（１４）を構成する要素に式（１６）（１７）の各条件が生成される。記号＊は複素共役を表す演算子である。

h^→ _d ^H(ω,θ)h^→ _r(ω,θ)の絶対値はh^→ _d ^H(ω,θ)h^→ _d(ω,θ)よりも十分に小さいので、式（１４）の第２項、第３項を無視すると、コヒーレンスγ(ω,θ)は式（１８）のように近似できる。

仮にh^→ _d ^H(ω,θ)h^→ _d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式（１９）の極小解θを持つ。ｑは任意の正整数である。また、ｑの範囲は周波数帯域ごとに制限される。

つまり、式（１１）で与えられる方向だけではなく、式（１９）で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図１（ｂ）に模式的に示すように、鋭い指向性の実現が可能になる。

なお、図１では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図２に、式（１１）で与えられるθと式（１９）で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s]，L=0.70[m]，θ_s=π/4[rad]である。図２では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式（１１）で与えられるθであり、記号＋で示された方向が式（１９）で与えられるθである。図２から明らかなように、従来技術に拠るとθ_s=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθ_s=π/4[rad]に対してコヒーレンスがゼロとなるθは記号＋で示される多数の方向に存在し、特に、記号○で示された方向よりもθ_s=π/4[rad]にはるかに近い方向に記号＋で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。

上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a^→(ω,θ)＝[a₁(ω,θ),…,a_M(ω,θ)]^Tを、例えば式（１２ａ）のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW^→(ω,θ_s)を設計することができる。

上述の最小分散無歪応答法以外の手法として、<１>SN比最大化規準によるフィルタ設計法、<２>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<３>一つ以上の死角（漏れ音声のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<４>遅延合成（Delay-and-Sum Beam Forming）法によるフィルタ設計法、<５>最尤法によるフィルタ設計法、<６>AMNOR（Adaptive Microphone-array for noise reduction）法によるフィルタ設計法を説明する。<１>SN比最大化規準によるフィルタ設計法と<２>パワーインバージョンに基づくフィルタ設計法については参考文献２を参照のこと。<３>一つ以上の死角（漏れ音声のゲインが抑圧される方向）を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献３を参照のこと。<６>AMNOR（Adaptive Microphone-array for noise reduction）法によるフィルタ設計法については参考文献４を参照のこと。
（参考文献２）菊間信良著、「アダプティブアンテナ技術」、第１版、株式会社オーム社、２００３年、pp.35-90
（参考文献３）浅野太著、「日本音響学会編音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
（参考文献４）金田豊著、「適応形雑音抑圧マイクロホンアレー（AMNOR）の指向特性」、日本音響学会誌44巻1号（1988）、pp.23-30

<１>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θ_sでのSN比（SNR）を最大化する規準でフィルタW^→(ω,θ_s)を決定する。目的方向θ_sへの音声の空間相関行列をR_ss(ω)、目的方向θ_s以外の方向への音声の空間相関行列をR_nn(ω)とする。このとき、SNRは式（２０）で表される。なお、R_ss(ω)は式（２１）、R_nn(ω)は式（２２）で表される。伝達特性a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは式（１２ａ）で表される（正確には、式（１２ａ）のθをθ_sとしたものである）。

式（２０）のSNRを最大にするフィルタW^→(ω,θ_s)は、フィルタW^→(ω,θ_s)に関する勾配をゼロとすること、つまり式（２３）によって求めることができる。

これにより、式（２０）のSNRを最大にするフィルタW^→(ω,θ_s)は式（２４）で与えられる。

式（２４）には目的方向θ_s以外の方向への音声の空間相関行列R_nn(ω)の逆行列が含まれているが、R_nn(ω)の逆行列を、目的方向θ_sへの音声と目的方向θ_s以外の方向への音声を含む入力全体の空間相関行列R_xx(ω)の逆行列に置換してもよいことが知られている。なお、R_xx(ω)=R_ss(ω)+R_nn(ω)=Q(ω)である（式（５ａ）、式（２１）、式（２２）参照）。つまり、式（２０）のSNRを最大にするフィルタW^→(ω,θ_s)を式（２５）で求めてもよい。

<２>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW^→(ω,θ_s)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW^→(ω,θ_s)は、式（２７）の拘束条件の下、空間相関行列R_xx(ω)を用いて全方向（スピーカアレーからの音声の進行方向として想定される全ての方向）への音声のパワーが最小となるように設計される（式（２６）参照）。伝達特性a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは式（１２ａ）で表される（正確には、式（１２ａ）のθをθ_sとしたものである）。なお、R_xx(ω)=Q(ω)である（式（５ａ）、式（２１）、式（２２）参照）。

式（２６）の最適解であるフィルタW^→(ω,θ_s)は式（２８）で与えられることが知られている（参考文献２参照）。

<３>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式（３）で表されるように目的方向θ_sの音声の全帯域通過を拘束条件とし、式（２）で表されるビームフォーマの平均出力パワーが最小となる（つまり、目的方向以外の方向への音声である漏れ音声のパワーが最小となる）フィルタを求める、という単一拘束条件の下の規準でフィルタW^→(ω,θ_s)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の方向への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定方向（つまり、死角）を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、（１）目的方向θ_sの音声の全帯域通過、および（２）既知のB個（Bは１以上の予め定められた整数）の死角θ_N1，θ_N2，…，θ_NBの音声の全帯域抑制、を拘束条件として、式（２）で表されるビームフォーマの平均出力パワーが最小となる（つまり、目的方向と各死角とを除く方向への音声のパワーが最小となる）フィルタを求める。既述のように、音声の伝搬方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}（ただし、j∈{1,2,…,B}），B≦P-1である。

このとき、a^→(ω,θ_i)＝[a₁(ω,θ_i),…,a_M(ω,θ_i)]^Tを、方向θ_sに受聴位置が在り方向θ_Nj（ただし、j∈{1,2,…,B}）に死角が在るとして、方向θ_i（ただし、i∈{s,N1,N2,…,NB}）とM個のスピーカとの間の周波数ωでの伝達特性、換言すれば、a^→(ω,θ_i)＝[a₁(ω,θ_i),…,a_M(ω,θ_i)]^Tは、スピーカアレーに含まれる各スピーカから方向θ_iへの音声の周波数ωでの伝達特性とすると、拘束条件は式（２９）で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a^→(ω,θ_i)＝[a₁(ω,θ_i),…,a_M(ω,θ_i)]^Tは式（１２ａ）で表される（正確には、式（１２ａ）のθをθ_iとしたものである）。ｆ_i(ω)は、方向θ_iに関する周波数ωでの通過特性を表す。

式（２９）を行列形式で表現すると、例えば式（３０）のように表すことができる。ただし、A^→(ω,θ_s)=[a^→(ω,θ_s),a^→(ω,θ_N1),…,a^→(ω,θ_NB)]である。

（１）目的方向θ_sの音声の全帯域通過、および（２）既知のB個の死角θ_N1，θ_N2，…，θ_NBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、ｆ_s(ω)=1.0、ｆ_i(ω)=0.0（i∈{N1,N2,…,NB}）とされるべきである。これは、目的方向θ_sの音声の全帯域完全通過と、既知のB個の死角θ_N1，θ_N2，…，θ_NBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、ｆ_s(ω)の絶対値を1.0に近い値、ｆ_i(ω)（i∈{N1,N2,…,NB}）の絶対値を0.0に近い値に設定すればよい。もちろん、ｆ_i(ω)とｆ_j(ω)（i≠j、i，j∈{N1,N2,…,NB}）は等しくても異なってもよい。

ここで説明したフィルタ設計法によると、拘束条件を表す式（２９）の下での式（２）の最適解であるフィルタW^→(ω,θ_s)は式（３１）で与えられる（参考文献３参照）。

<４>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW^→(ω,θ_s)は式（３２）で与えられる。つまり、フィルタW^→(ω,θ_s)は伝達特性a^→(ω,θ_s)を正規化して得られる。伝達特性a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは式（１２ａ）で表される（正確には、式（１２ａ）のθをθ_sとしたものである）。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。

<５>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式（５ａ）の右辺第二項、つまり、式（５ｃ）で表す。フィルタW^→(ω,θ_s)は式（４）や式（３１）で与えられる。このとき、式（４）や式（３１）に含まれるQ(ω)あるいは式（２５）や式（２８）に含まれるR_xx(ω)=Q(ω)は、式（５ｃ）で表される空間相関行列である。

<６>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し（例えば劣化量Dを或る閾値D＾以下に保つようにする）、［ａ］目的方向の仮想的な信号（以下、仮想目的信号という）に音源とマイクロホンとの間の伝達特性を作用させた信号と［ｂ］（例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる）雑音との混合信号を入力としたときのフィルタ出力信号が最小２乗誤差の観点から仮想目的信号を最も良く再現する（つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる）フィルタを求める方式である。

ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、目的方向への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、目的方向への音声の劣化量Dを或る程度許容し（例えば劣化量Dを或る閾値D＾以下に保つようにする）、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小２乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する（つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる）フィルタを求める。フィルタ出力信号は、［ａ］スピーカアレーに含まれる各スピーカから目的方向θ_sへの音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号（以下、受聴信号という）と［ｂ］（例えば雑音環境でのM個のマイクロホンによる観測によって得られる）雑音との混合信号である。

ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW^→(ω,θ_s)は式（３３）で与えられる（参考文献４参照）。なお、R_ss(ω)は式（２１）、R_nn(ω)は式（２２）で表される。伝達特性a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^Tは式（１２ａ）で表される（正確には、式（１２ａ）のθをθ_sとしたものである）。

P_sは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルP_sは、周波数に依存しない定数である。受聴信号レベルP_sは、経験則に基づいて決められてもよく、あるいは、目的方向への音声の劣化量Dと閾値D＾との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW^→(ω,θ_s)の目的方向θ_sの音声の周波数応答F(ω)は、式（３４）で表される。式（３３）で与えられるフィルタW^→(ω,θ_s)を用いたときの劣化量DをD(P_s)と表記すると、劣化量D(P_s)は式（３５）で定義される。ω₀は、対象となる周波数ωの上限（通常は、離散的な周波数ωに隣接する高域側周波数である）を表す。劣化量D(P_s)はP_sの単調減少関数である。従って、D(P_s)の単調性によって、P_sを変化させながら劣化量D(P_s)を求めることを繰り返すことで、劣化量D(P_s)と閾値D＾との差が任意に定められた誤差範囲内となる受聴信号レベルP_sを求めることができる。

＜変形例＞
上述の説明では、空間相関行列Q(ω)、R_ss(ω)、R_nn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、R_ss(ω)、R_nn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、R_ss(ω)、R_nn(ω)についても同様である（Q(ω)をR_ss(ω)あるいはR_nn(ω)に読み替えればよい）。なお、空間相関行列R_ss(ω)は目的方向への音声のみが存在する環境でのマイクロホンアレー（M個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列R_nn(ω)は目的方向への音声が無い環境（つまり雑音環境）でのマイクロホンアレー（M個のマイクロホンを含む）による観測によって得られたアナログ信号の周波数領域表現によって得られる。

周波数領域信号U^→(ω,k)＝[U₁(ω,k),…,U_M(ω,k)]^Tを用いた空間相関行列Q(ω)は式（３６）で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし２次定常である場合、演算子E[・]は算術平均値（期待値）演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U^→(ω,k-i)（i=0,1,…,ζ-1）を用いて式（３７）で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式（３６）ないし式（３７）による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい（特に、フィルタ設計にR_ss(ω)あるいはR_nn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である）。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式（３６ａ）や式（３７ａ）のように明示的に空間相関行列をQ(ω,k)と表すことにする。

式（３６ａ）や式（３７ａ）で表される空間相関行列Q(ω,k)を用いるとフィルタW^→(ω,θ_s)も現在と過去のフレームに依存するから、明示的にこれをW^→(ω,θ_s,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式（４）、式（２４）、式（２５）、式（２８）、式（３１）、式（３３）のいずれかで表されるフィルタW^→(ω,θ_s)は、表記上、式（４ｍ）、式（２４ｍ）、式（２５ｍ）、式（２８ｍ）、式（３１ｍ）、式（３３ｍ）に修正される。

《実施形態１》
本発明の実施形態１の機能構成および処理フローを図３と図４に示す。この実施形態１の狭指向音声再生処理装置１は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ設計部２６０、記憶部２９０を含む。

[ステップＳ１]
予め、フィルタ設計部２６０が音声再生の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW^→(ω,θ_i)を計算しておく。音声再生の対象となりえる離散的な方向の総数をI（Iは１以上の予め定められた整数であり、I≦Pを満たす）とすると、W^→(ω,θ₁)，…，W^→(ω,θ_i)，…，W^→(ω,θ_I)（1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合）を事前に計算しておくのである。

このためには、上述の＜変形例＞で説明した場合を除き、伝達特性a^→(ω,θ_i)＝[a₁(ω,θ_i),…,a_M(ω,θ_i)]^T（1≦i≦I, ω∈Ω）を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（１２ａ）によって具体的に計算できる（正確には、式（１２ａ）のθをθ_iとしたものである）。なお、上述の<３>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a^→(ω,θ_i)（1≦i≦I, ω∈Ω）を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。

反射音（あるいは双対音）の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a^→(ω,θ_i)は式（１２ｂ）によって具体的に計算できる（正確には、式（１２ｂ）のθをθ_iとしたものである）。

ステアリングベクトルの計算には、例えば式（９ａ）、式（９ｂ）、式（１３ａ）、式（１３ｂ）、式（１３ｃ）、式（１３ｄ）を用いることができる。なお、フィルタ設計に用いる伝達特性として、式（１２ａ）や式（１２ｂ）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。

そして、上述の＜変形例＞で説明した場合を除き、伝達特性a^→(ω,θ_i)を用いて、例えば式（４）、式（２４）、式（２５）、式（２８）、式（３１）、式（３２）、式（３３）のいずれかによってW^→(ω,θ_i)（1≦i≦I）を求める。なお、上述の<５>最尤法によるフィルタ設計法で説明した場合を除き、式（４）または式（２５）または式（２８）または式（３１）を用いる場合には空間相関行列Q(ω)（あるいはR_xx(ω)）は式（５ｂ）で計算できる。上述の<５>最尤法によるフィルタ設計法に拠って、式（４）または式（２５）または式（２８）または式（３１）を用いる場合には空間相関行列Q(ω)（あるいはR_xx(ω)）は式（５ｃ）で計算できる。式（２４）を用いる場合には空間相関行列R_nn(ω)は式（２２）で計算できる。I×|Ω|個のフィルタW^→(ω,θ_i)（1≦i≦I,ω∈Ω）は記憶部２９０に記憶される。|Ω|は集合Ωの要素数を表す。

[ステップＳ２]
音源２００が音源信号ss(t)を出力する。この実施形態１では、音源２００からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。

[ステップＳ３]
ＡＤ変換部２１０が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでｔは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップＳ３の処理を行う必要がなく、音源信号をＡＤ変換部２１０の出力信号であるs(t)と見なすことができる。

[ステップＳ４]
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。

[ステップＳ５]
周波数領域変換部２３０は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。

[ステップＳ６]
フィルタ適用部２４０は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θ_sに対応するフィルタW^→(ω,θ_s)を適用して、再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を出力する（式（３８）参照）。目的方向θ_sのインデックスsは、s∈{1,…,I}であり、フィルタW^→(ω,θ_s)は記憶部２９０に記憶されているので、例えば、ステップＳ６の処理の都度、フィルタ適用部２４０は、再生したい目的方向θ_sに対応するフィルタW^→(ω,θ_s)を記憶部２９０から取得すればよい。目的方向θ_sのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θ_sに対応するフィルタW^→(ω,θ_s)がステップＳ１の処理で計算されていない場合、臨時に目的方向θ_sに対応するフィルタW^→(ω,θ_s)をフィルタ設計部２６０に計算させてもよいし、あるいは目的方向θ_sに近い方向θ_s'に対応するフィルタW^→(ω,θ_s')を用いてよい。

[ステップＳ７]
時間領域変換部２５０は、第kフレームの各周波数ω∈Ωの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]を得て、さらに、得られたフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θ_sに向けて音声が強調された時間領域信号x^→(t)＝[x₁(t),…,x_M(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ５の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。

[ステップＳ８]
Mチャネルの時間領域信号x₁(t),…,x_M(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍのうち、チャネルに対応するスピーカで再生される。つまり、ｍ番目(1≦m≦M)のチャネルの時間領域信号x_m(t)はｍ番目のスピーカ２８０−ｍで再生される。

なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、２次元または３次元的にM個のスピーカを配置するアレー構成でもよい。また、再生方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θ_sになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。

ここでは、ステップＳ１の処理で予めフィルタW^→(ω,θ_i)を計算しておく実施形態１を説明したが、狭指向音声再生処理装置１の計算処理能力などに応じて、再生方向である目的方向θ_sが定まってからフィルタ設計部２６０が周波数ごとのフィルタW^→(ω,θ_s)を計算する実施形態を採用することもできる。

《実施形態２》
本発明の実施形態２の機能構成および処理フローを図１７と図１８に示す。この実施形態２の狭指向音声再生処理装置２は、ＡＤ変換部２１０、フレーム生成部２２０、周波数領域変換部２３０、フィルタ適用部２４０、時間領域変換部２５０、フィルタ計算部２６１、記憶部２９０、ＡＤ変換部３１０、フレーム生成部３２０、周波数領域変換部３３０を含む。

[ステップＳ１１]
音源２００が音源信号ss(t)を出力する。この実施形態２では、音源２００からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。

[ステップＳ１２]
ＡＤ変換部２１０が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでｔは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップＳ１２の処理を行う必要がなく、音源信号をＡＤ変換部２１０の出力信号であるs(t)と見なすことができる。

[ステップＳ１３]
フレーム生成部２２０は、ＡＤ変換部２１０が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。

[ステップＳ１４]
周波数領域変換部２３０は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。

[ステップＳ１５]
フィルタ計算部２６１が、現在の第kフレームで用いられる、目的方向θ_sに対応する周波数毎のフィルタW^→(ω,θ_s,k)（ω∈Ω; Ωは周波数ωの集合）を計算する。

このためには、伝達特性a^→(ω,θ_s)＝[a₁(ω,θ_s),…,a_M(ω,θ_s)]^T（ω∈Ω）を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（１２ａ）によって具体的に計算できる（正確には、式（１２ａ）のθをθ_sとしたものである）。なお、上述の<３>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a^→(ω,θ_Nj)（1≦j≦B, ω∈Ω）も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目（1≦ξ≦Ξ）の反射音との時間差、反射物の音の反射率などの環境情報を基に式（１２ａ）によって具体的に計算できる（正確には、式（１２ａ）のθをθ_Njとしたものである）。

反射音の数Ξは１≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a^→(ω,θ_s)は式（１２ｂ）によって具体的に計算できる（正確には、式（１２ｂ）のθをθ_sとしたものである）。この場合、同様に、伝達特性a^→(ω,θ_Nj)（1≦j≦B, ω∈Ω）は式（１２ｂ）によって具体的に計算できる（正確には、式（１２ｂ）のθをθ_Njとしたものである）。

ステアリングベクトルの計算には、例えば式（９ａ）、式（９ｂ）、式（１３ａ）、式（１３ｂ）、式（１３ｃ）、式（１３ｄ）を用いることができる。フィルタ設計に用いる伝達特性として、なお、式（１２ａ）や式（１２ｂ）に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。

そして、フィルタ計算部２６１は、伝達特性a^→(ω,θ_s)（ω∈Ω）や必要に応じて伝達特性a^→(ω,θ_Nj)（1≦j≦B, ω∈Ω）を用いて、フィルタW^→(ω,θ_s,k)（ω∈Ω）を、式（４ｍ）、式（２４ｍ）、式（２５ｍ）、式（２８ｍ）、式（３１ｍ）、式（３３ｍ）のいずれかに従って求める。なお、空間相関行列Q(ω)（あるいはR_xx(ω)）は例えば式（３６ａ）や式（３７ａ）で計算できる。空間相関行列Q(ω)の計算には、記憶部２９０に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X^→(ω,k-i)（i=0,1,…,ζ-1）が用いられる。

周波数領域信号X^→(ω,k)は、下記のようにして記憶部２９０に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン３００−１，…，３００−Ｍを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
ＡＤ変換部３１０が、M個のマイクロホン３００−１，…，３００−Ｍで収音されたアナログ信号（収音信号）をディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]へ変換する。ｔは離散時間のインデックスを表す。
フレーム生成部３２０は、ＡＤ変換部３１０が出力したディジタル信号x^→(t)＝[x₁(t),…,x_M(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x^→(k)＝[x^→ ₁(k),…,x^→ _M(k)]を出力する。kはフレーム番号のインデックスである。x^→ _m(k)=[x_m((k-1)N+1),…,x_m(kN)]（1≦m≦M）である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部３３０は、各フレームのディジタル信号x^→(k)を周波数領域の信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X^→(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部２９０に蓄積される。

[ステップＳ１６]
フィルタ適用部２４０は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θ_sに対応するフィルタW^→(ω,θ_s,k)を適用して、再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を出力する（式（３９）参照）。

[ステップＳ１７]
時間領域変換部２５０は、第kフレームの各周波数ω∈Ωの再生信号X^→(ω,k)＝[X₁(ω,k),…,X_M(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]を得て、さらに、得られたフレーム単位時間領域信号x^→(k)＝[x₁(k),…,x_M(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θ_sに向けて音声が強調された時間領域信号x^→(t)＝[x₁(t),…,x_M(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップＳ１４の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。

[ステップＳ１８]
Mチャネルの時間領域信号x₁(t),…,x_M(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍのうち、チャネルに対応するスピーカで再生される。つまり、ｍ番目(1≦m≦M)のチャネルの時間領域信号x_m(t)はｍ番目のスピーカ２８０−ｍで再生される。

本発明の実施形態１（単一拘束条件の最小分散無歪応答法）による実験結果を説明する。図５に示すように、24本の無指向性スピーカを直線的に配置し、この線形スピーカアレーの配列方向が反射板３００の法線となるように反射板３００を配置した。反射板３００の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板の反射率αを0.8とした。目的方向θ_sを45度に設定した。線形スピーカアレーから音声が平面波として放射されると仮定し、伝達特性を式（１２ｂ）（式（９ａ）、式（１３ａ）を参照）で算出して、生成されるフィルタの指向性を検証した。比較対象として、上記非特許文献１に記載された従来法（反射板無しの最小分散無歪応答法）を用いた。

実験結果を図６、図７に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態１の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される（人の声は１００Hz程度から２kHz程度の周波数成分を多く含んでいる）。また、図８には、本発明の実施形態１に従って生成したフィルタW^→(ω,θ)による指向性を示した。図８から、目的方向θ_s=45度に直接音が送波されているだけでなく、反射板３００が置かれた方向へも音声が送波されていることが分かる。

また、図９に示すように、線形スピーカアレーに含まれるスピーカの配列方向と反射板３００の平面とのなす角が45度になるように反射板３００を配置した場合についても上述の実験と同様の実験を行った。目的方向θ_sを22.5度に設定し、その他の実験条件は線形スピーカアレーに含まれるスピーカの配列方向が反射板３００の法線となるように反射板３００を配置した場合と同じとした。

実験結果を図１０、図１１に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態１の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される。

次に、本発明の実施構成の例を図１２〜図１６を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。

図１２に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ２８０−１，…，２８０−Ｍは矩形平板状の支持部材４００に固定されており、この状態で各スピーカの拡声孔は支持部材４００の或る一つの平面（以下、開口面と呼ぶ）に配置されている（図示の例ではM=13）。なお、各スピーカ２８０−１，…，２８０−Ｍに接続される配線は図示していない。そして、各スピーカ２８０−１，…，２８０−Ｍの配列方向が矩形平板状の反射板３００の法線となるように反射板３００が支持部材４００の端部に固定されている。支持部材４００の開口面は、反射板３００と９０度をなす面である。図１２に示す実施構成例では、反射板３００の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材４００の性状については特に限定はなく各スピーカ２８０−１，…，２８０−Ｍをしっかりと固定できる剛性を持っていれば十分である。

図１３（ａ）に示す実施構成例では、支持部材４００の端部に軸部４１０が固定されており、反射板３００は軸部４１０に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板３００の幾何学的配置を変更することが可能である。

図１３（ｂ）に示す実施構成例では、図１２に示す実施構成例において、さらに二つの反射板３１０，３２０が追加されている。追加された二つの反射板３１０，３２０の性状は反射板３００の性状と同じでも異なってもよい。また、反射板３１０の性状は反射板３２０の性状と同じでも異なってもよい。以下、反射板３００を固定反射板３００と呼称する。固定反射板３００の端部（支持部材４００に固定されている固定反射板３００の端部とは反対側の端部）に軸部５１０が固定されており、反射板３１０は軸部５１０に回動自在に取り付けられている。また、支持部材４００の端部（固定反射板３００が固定されている支持部材４００の端部とは反対側の端部）に軸部５２０が固定されており、反射板３２０は軸部５２０に回動自在に取り付けられている。以下、反射板３１０，３２０を可動反射板３１０，３２０と呼称する。図１３（ｂ）に示す実施構成例によると、例えば固定反射板３００の反射面と可動反射板３１０の反射面が一致するように可動反射板３１０の位置を設定すると、固定反射板３００と可動反射板３１０の組み合わせを、固定反射板３００よりも大きい反射面を持つ反射板として機能させることができる。また、図１３（ｂ）に示す実施構成例によると、可動反射板３１０，３２０を適切な位置に設定することによって、例えば図１４に示すように支持部材４００、固定反射板３００、可動反射板３１０，３２０で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図１３（ｂ）に示す実施構成例の場合、支持部材４００は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。

図１５に示す実施構成例は、反射板３００にもスピーカアレー（図示の例では線形スピーカアレー）が設けられていることが図１２に示す実施構成例と異なる。図１５に示す実施構成例では、支持部材４００に固定されたM個のスピーカの配列方向と反射板３００に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない（図示の例ではM’=13）。例えば、支持部材４００に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板３００にM’個のスピーカが固定されていてもよい。図１５に示す実施構成例によると、支持部材４００に設けられたスピーカアレーと反射板３００（反射板３００に設けられたスピーカアレーを使用せず、反射板３００を反射物として使用する）との組み合わせで本発明を実施したり、支持部材４００（支持部材４００に設けられたスピーカアレーを使用せず、支持部材４００を反射物として使用する）と反射板３００に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。

また、図１５に示す実施構成例の拡張実施構成例として、図１３（ｂ）に示す実施構成例と同様に、図１５に示す実施構成例においてさらに二つの反射板３１０，３２０を追加した構成としてもよい（図１６参照）。また、図示していないが、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けてもよい。可動反射板３１０に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材４００の開口面と対向可能な可動反射板３１０の平面（開口面）に配置される。可動反射板３２０に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面（開口面）に配置される。このような実施構成例であっても図１３（ｂ）に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材４００の開口面と可動反射板３２０の開口面が一致するように可動反射板３２０の位置を設定すると、支持部材４００と可動反射板３２０の組み合わせを、支持部材４００に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図１６に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けた実施構成例においても、図１４に示す実施構成例と同様の使用形態が可能である。また、図１６に示す実施構成例においても、可動反射板３１０，３２０の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板３１０，３２０を通常の反射物として用い、支持部材４００に設けられたスピーカアレーと固定反射板３００に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。

可動反射板３１０にスピーカアレーを設ける場合、可動反射板３１０に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材４００の開口面と対向可能な可動反射板３１０の平面の反対側の平面（開口面）に配置されるように、可動反射板３１０にスピーカアレーを設けてもよい。また、可動反射板３２０にスピーカアレーを設ける場合、可動反射板３２０に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材４００の開口面と同一平面を形成可能な可動反射板３２０の平面の反対側の平面（開口面）に配置されるように、可動反射板３２０にスピーカアレーを設けてもよい。もちろん、可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。

［Ａ］スピーカアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面とした場合、図１４に示す使用形態では、視線方向に対して可動反射板３１０および/または可動反射板３２０の開口面が見えないように可動反射板３１０および/または可動反射板３２０が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板３１０および/または可動反射板３２０に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。

［Ｂ］スピーカアレーを可動反射板３１０，３２０の少なくとも一つに設けた場合であって、可動反射板３１０の開口面を支持部材４００の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板３２０の開口面を支持部材４００の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図１４に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。

可動反射板３１０，３２０の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、［Ａ］と［Ｂ］の双方の効果を得ることも可能である。

＜応用例＞
以下、本発明である狭指向音声再生技術が有用なサービス例について述べる。

第１の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。

第２の例として、ＴＶ会議システム（音声会議システムでもよい）への応用が挙げられる。ＴＶ会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。

＜狭指向音声再生処理装置のハードウェア構成例＞
上述の実施形態に関わる狭指向音声再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ＣＰＵ（Central Processing Unit）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、狭指向音声再生処理装置に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

狭指向音声再生処理装置の外部記憶装置には、目的方向を含む狭い範囲に向けて音声を再生するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

狭指向音声再生処理装置の記憶部には、音声再生の対象となる方向について式（５ａ）ないし式（５ｂ）で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してＡＤ変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声再生の対象となる方向に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。

狭指向音声再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（フィルタ設計部、ＡＤ変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部）を実現することで狭指向音声再生が実現される。

＜補記＞
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上述の実施形態では音波が平面波として進行することを仮定したが、音波が球面波として進行する場合であってもよい。この場合、ステアリングベクトルは球面波に応じた表現に変更される。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記実施形態において説明したハードウェアエンティティ（狭指向音声再生処理装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを２以上の整数として、Ｍ個のスピーカで構成されるスピーカアレーで再生されるＭチャネルの時間領域信号ｘを、音源信号が周波数領域に変換された周波数領域信号Ｓに、当該周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するフィルタを周波数ごとに適用して得られた当該Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得る狭指向音声再生処理方法であって、
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性ａ_φを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Ｓに適用して上記Ｍチャネルの周波数領域信号Ｘを得るフィルタ適用ステップと
を有し、
（１）上記スピーカアレーから放射された音声であって、（２）当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各上記伝達特性ａ_φは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする狭指向音声再生処理方法。
請求項１に記載の狭指向音声再生処理方法において、
各上記伝達特性ａ_φは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
ことを特徴とする狭指向音声再生処理方法。
請求項１に記載の狭指向音声再生処理方法において、
各上記伝達特性ａ_φは、実環境下において実測で得られたものである
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、Ｍ個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される上記一つまたは複数の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、（１）音声再生の対象となる上記方向への音声の全帯域通過、および（２）一つ以上の死角の音声の全帯域抑制、の条件の下、音声再生の対象となる上記方向と各上記死角以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向φ＝sの伝達特性ａ_sを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の各方向に対応する上記伝達特性ａ_φによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
請求項１から請求項３のいずれかに記載の狭指向音声再生処理方法において、
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。
Ｍを２以上の整数として、Ｍ個のスピーカで構成されるスピーカアレーで再生されるＭチャネルの時間領域信号ｘを、音源信号が周波数領域に変換された周波数領域信号Ｓに、当該周波数領域信号ＳをＭチャネルの周波数領域信号Ｘに変換するフィルタを周波数ごとに適用して得られた当該Ｍチャネルの周波数領域信号Ｘを時間領域に変換して得る狭指向音声再生処理装置であって、
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性ａ_φを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Ｓに適用して上記Ｍチャネルの周波数領域信号Ｘを得るフィルタ適用部と
を含み、
（１）上記スピーカアレーから放射された音声であって、（２）当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声を、双対音として、各上記伝達特性ａ_φは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする狭指向音声再生処理装置。
請求項１２に記載の狭指向音声再生処理装置において、
上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする狭指向音声再生処理装置。
コンピュータに、請求項１から請求項１１のいずれかに記載の狭指向音声再生処理方法の処理を実行させるためのプログラム。