JP5486567B2 - 狭指向音声再生処理方法、装置、プログラム - Google Patents

狭指向音声再生処理方法、装置、プログラム Download PDF

Info

Publication number
JP5486567B2
JP5486567B2 JP2011190776A JP2011190776A JP5486567B2 JP 5486567 B2 JP5486567 B2 JP 5486567B2 JP 2011190776 A JP2011190776 A JP 2011190776A JP 2011190776 A JP2011190776 A JP 2011190776A JP 5486567 B2 JP5486567 B2 JP 5486567B2
Authority
JP
Japan
Prior art keywords
sound
filter
narrow
reproduction processing
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011190776A
Other languages
English (en)
Other versions
JP2012147413A (ja
Inventor
健太 丹羽
弘章 伊藤
澄宇 阪内
賢一 古家
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011190776A priority Critical patent/JP5486567B2/ja
Publication of JP2012147413A publication Critical patent/JP2012147413A/ja
Application granted granted Critical
Publication of JP5486567B2 publication Critical patent/JP5486567B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、所望の方向を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)に関する。
スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向(目的方向)を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係(音圧分布)は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する3つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。
[1]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板(放物面)の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。
[2]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる(例えば特許文献1参照)。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。
[3]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる(例えば非特許文献1参照)。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。
特開2010−258938号公報
羽田陽一、片岡章俊、「自由空間伝達関数を用いた多点制御に基づく小型スピーカアレーの実空間性能」、日本音響学会春季講演論文集、pp.631-632,2008.
カテゴリ[1]で説明した狭指向音声再生処理技術によると、例えばホーンスピーカとパラボラスピーカの例から理解できるように、目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、ホーンスピーカとパラボラスピーカは共に、例えば見込み角5°〜10°程度の狭指向性(目的方向に対して±5°〜±10°程度の鋭い指向性)を実現することが困難である。
カテゴリ[2]で説明した狭指向音声再生処理技術によると、狭指向性の観点で優れているが、目的方向にパラメトリックスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、パラメトリックスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、超音波暴露(超音波を大音量で浴びていて健康上の問題がないかどうか)について未だに検討されている問題もある。
カテゴリ[3]で説明した狭指向音声再生処理技術によると、狭指向性を実現するためには、スピーカ数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。フェーズドスピーカアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なスピーカ数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なスピーカでリアルタイム処理が可能な信号の最大値は100程度であるところ、100本程度のスピーカを用いたフェーズドスピーカアレーで実現可能な指向性は目的方向に対して±30°程度であり、例えば±5°〜±10°程度の鋭い指向性で目的方向への音声を再生することは困難である。また、カテゴリ[3]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。
このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する狭指向音声再生処理技術を提供することを目的とする。
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対するM個のスピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向についてフィルタを求める[フィルタ設計処理]。Mは2以上の整数であり、M個のスピーカはスピーカアレーを構成する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号SをMチャネルの周波数領域信号Xに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る[フィルタ適用処理]。Mチャネルの周波数領域信号Xを時間領域に変換して得られるMチャネルの時間領域信号xは、通常、スピーカアレーで再生されることとなる。
各伝達特性aφは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。
フィルタ設計処理では、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される一つまたは複数の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。
あるいは、フィルタ設計処理では、(1)音声再生の対象となる方向への音声の全帯域通過、および(2)一つ以上の死角への音声の全帯域抑制、の条件の下、音声再生の対象となる方向と各死角以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向φ=sの伝達特性asを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向以外の各方向に対応する伝達特性aφによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。
本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性aφを、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。
(a)直接音だけを考慮した場合に狭指向性が十分に実現できないことを模式的に示す図、(b)直接音と反射音を考慮した場合に狭指向性が十分に実現できることを模式的に示す図。 従来技術による場合と本発明の原理による場合のコヒーレンスの方向依存性を示す図。 実施形態1に係る狭指向音声再生処理装置の機能構成を示す図。 実施形態1に係る狭指向音声再生処理方法の処理手順を示す図。 第1の実施例の構成を示す図。 第1の実施例の実験結果を示す図。 第1の実施例の実験結果を示す図。 第1の実施例にてフィルタW(ω,θ)による指向性を示す図。 第2の実施例の構成を示す図。 第2の実施例の実験結果を示す図。 第2の実施例の実験結果を示す図。 本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。 (a)本発明の別の実施構成例を示す側面図。(b)本発明の別の実施構成例を示す側面図。 図13(b)に示す実施構成例における使用形態を示す図。 本発明の実施構成例を示す図。(a)平面図。(b)正面図。(c)側面図。 本発明の実施構成例を示す側面図。 実施形態2に係る狭指向音声再生処理装置の機能構成を示す図。 実施形態2に係る狭指向音声再生処理方法の処理手順を示す図。
《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θsを音声再生対象の方向として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW(ω,θs)、音源信号の周波数領域信号S(ω,k)にフィルタW(ω,θs)を適用して得られるMチャネルの周波数領域信号(以下、再生信号と呼ぶ)をX(ω,k)=[X1(ω,k),…,XM(ω,k)]とする。Mは2以上の整数とする。このとき、第kフレームの再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]は式(1)で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される(詳細は後述する)。スピーカの個数はMである。
Figure 0005486567
「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー(M個のスピーカが直線状に並べられたスピーカアレー)であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。
フィルタW(ω,θs)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW(ω,θs)は、式(3)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向への音声(以下、「目的方向θs以外の方向への音声」を「漏れ音声」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(2)参照)。a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに受聴位置が在るとして、当該受聴位置とM個のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、スピーカアレーに含まれる各スピーカから方向θsへの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー(好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー)によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
Figure 0005486567
式(2)の最適解であるフィルタW(ω,θs)は式(4)で与えられることが知られている。
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66-73,248-255
Figure 0005486567
空間相関行列Q(ω)の逆行列が式(4)に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(2)から、漏れ音声のパワーは空間相関行列Q(ω)の構造に依存することもわかる。
漏れ音声の進行方向(伝搬方向)のインデックスpが属する集合を{1,2,…,P-1}とする。目的方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき空間相関行列Q(ω)は式(5a)で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「漏れ音声」の方向としている)、後述の実施形態で明らかになるように、実際には、目的方向θsは音声再生の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の進行方向として想定される複数の方向に含まれる各方向θφに対する各スピーカからの音声の伝達特性a(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(5b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
Figure 0005486567
ここで、目的方向θsへの音声の伝達特性a(ω,θs)と、方向p∈{1,2,…,P-1}への音声の伝達特性a(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]Tがお互いに直交すると仮定する。つまり、式(6)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A⊥Bである場合、ベクトルAとベクトルBの内積値はゼロである。ここでP≦Mを満たすとする。なお、式(6)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
Figure 0005486567
このとき、空間相関行列Q(ω)は式(7)のように展開できる。式(7)は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a(ω,θs),a(ω,θ1),…,a(ω,θP-1)]Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式(6)を満たす伝達特性a(ω,θφ)の固有値であり実数である。
Figure 0005486567
このとき、空間相関行列Q(ω)の逆行列は式(8)で与えられる。
Figure 0005486567
式(8)を式(2)に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば目的方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θsに対する指向性を実現する上で、重要な条件となる。
以下、従来技術において目的方向θsに対して鋭い指向性を実現することが困難な理由について考察する。
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θへの直接音のみのステアリングベクトルをh d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa conv(ω,θ)=h d(ω,θ)としていた。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。
線形スピーカアレーから音声が平面波として放射されると仮定すると、直接音のステアリングベクトルh d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うスピーカ間の距離を表す。jは虚数単位である。基準点は線形スピーカアレーの全長の半分の位置(線形スピーカアレーの中心)である。方向θは線形スピーカアレーの中心から見て直接音の方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した(図5参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9b)で与えられる。以下、直接音のステアリングベクトルh d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(9a)で与えられるとして説明する。
Figure 0005486567
方向θの伝達特性と目的方向θsの伝達特性との内積値γconv(ω,θ)は式(10)で表される。なお、θ≠θsとする。
Figure 0005486567
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(11)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
Figure 0005486567
式(11)にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ-θs|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図1(a)に模式的に示すように、目的方向θsに対して広いビーム幅を持った指向性となってしまう。
他方、本発明は、このような考察に基づき、目的方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ-θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。
ここで「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が目的方向となる、という条件を満たす音声を目的方向の「双対音」と呼ぶ。
音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の平面波が向かうことになる。反射音(あるいは双対音)の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(12a)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h (ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射する物体の音の反射率を表していると考えて差し支えない。
Figure 0005486567
M個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声(双対音)が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはスピーカアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係(幾何学的関係)を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。
以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は1回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(12a)は式(12b)のように表すことができる。
Figure 0005486567
双対音のステアリングベクトルh r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(9a)参照)、式(13a)で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式(9b)で表す場合には、双対音のステアリングベクトルh r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(13b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh (ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(13c)や式(13d)で表される。関数Ψξ(θ)はスピーカアレーから見たξ番目(1≦ξ≦Ξ)の双対音の進行方向を出力する。
Figure 0005486567
反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。
平板状の反射物がスピーカアレーの近傍にある(距離Lがスピーカアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(14)で表される。なお、θ≠θsとする。
Figure 0005486567
式(14)から、式(11)の従来のコヒーレンスγconv(ω,θ)よりも式(14)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(14)の第2〜4項目の中に存在するので第1項目のh d H(ω,θ)h d(ω,θ)を除去できる可能性がある。
例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式(15)が成立するので、式(14)を構成する要素に式(16)(17)の各条件が生成される。記号*は複素共役を表す演算子である。
Figure 0005486567
h d H(ω,θ)h r(ω,θ)の絶対値はh d H(ω,θ)h d(ω,θ)よりも十分に小さいので、式(14)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(18)のように近似できる。
Figure 0005486567
仮にh d H(ω,θ)h d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(19)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
Figure 0005486567
つまり、式(11)で与えられる方向だけではなく、式(19)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図1(b)に模式的に示すように、鋭い指向性の実現が可能になる。
なお、図1では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図2に、式(11)で与えられるθと式(19)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図2では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(11)で与えられるθであり、記号+で示された方向が式(19)で与えられるθである。図2から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。
上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tを、例えば式(12a)のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW(ω,θs)を設計することができる。
上述の最小分散無歪応答法以外の手法として、<1>SN比最大化規準によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の死角(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を説明する。<1>SN比最大化規準によるフィルタ設計法と<2>パワーインバージョンに基づくフィルタ設計法については参考文献2を参照のこと。<3>一つ以上の死角(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献3を参照のこと。<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法については参考文献4を参照のこと。
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
<1>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW(ω,θs)を決定する。目的方向θsへの音声の空間相関行列をRss(ω)、目的方向θs以外の方向への音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(20)で表される。なお、Rss(ω)は式(21)、Rnn(ω)は式(22)で表される。伝達特性a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。
Figure 0005486567
式(20)のSNRを最大にするフィルタW(ω,θs)は、フィルタW(ω,θs)に関する勾配をゼロとすること、つまり式(23)によって求めることができる。
Figure 0005486567
これにより、式(20)のSNRを最大にするフィルタW(ω,θs)は式(24)で与えられる。
Figure 0005486567
式(24)には目的方向θs以外の方向への音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsへの音声と目的方向θs以外の方向への音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である(式(5a)、式(21)、式(22)参照)。つまり、式(20)のSNRを最大にするフィルタW(ω,θs)を式(25)で求めてもよい。
Figure 0005486567
<2>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW(ω,θs)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW(ω,θs)は、式(27)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(スピーカアレーからの音声の進行方向として想定される全ての方向)への音声のパワーが最小となるように設計される(式(26)参照)。伝達特性a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である(式(5a)、式(21)、式(22)参照)。
Figure 0005486567
式(26)の最適解であるフィルタW(ω,θs)は式(28)で与えられることが知られている(参考文献2参照)。
Figure 0005486567
<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(3)で表されるように目的方向θsの音声の全帯域通過を拘束条件とし、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向以外の方向への音声である漏れ音声のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW(ω,θs)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の方向への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定方向(つまり、死角)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)目的方向θsの音声の全帯域通過、および(2)既知のB個(Bは1以上の予め定められた整数)の死角θN1,θN2,…,θNBの音声の全帯域抑制、を拘束条件として、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向と各死角とを除く方向への音声のパワーが最小となる)フィルタを求める。既述のように、音声の伝搬方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P-1である。
このとき、a(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tを、方向θsに受聴位置が在り方向θNj(ただし、j∈{1,2,…,B})に死角が在るとして、方向θi(ただし、i∈{s,N1,N2,…,NB})とM個のスピーカとの間の周波数ωでの伝達特性、換言すれば、a(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは、スピーカアレーに含まれる各スピーカから方向θiへの音声の周波数ωでの伝達特性とすると、拘束条件は式(29)で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは式(12a)で表される(正確には、式(12a)のθをθiとしたものである)。fi(ω)は、方向θiに関する周波数ωでの通過特性を表す。
Figure 0005486567
式(29)を行列形式で表現すると、例えば式(30)のように表すことができる。ただし、A(ω,θs)=[a(ω,θs),a(ω,θN1),…,a(ω,θNB)]である。
Figure 0005486567
(1)目的方向θsの音声の全帯域通過、および(2)既知のB個の死角θN1,θN2,…,θNBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})とされるべきである。これは、目的方向θsの音声の全帯域完全通過と、既知のB個の死角θN1,θN2,…,θNBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs(ω)の絶対値を1.0に近い値、fi(ω)(i∈{N1,N2,…,NB})の絶対値を0.0に近い値に設定すればよい。もちろん、fi(ω)とfj(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。
ここで説明したフィルタ設計法によると、拘束条件を表す式(29)の下での式(2)の最適解であるフィルタW(ω,θs)は式(31)で与えられる(参考文献3参照)。
Figure 0005486567
<4>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW(ω,θs)は式(32)で与えられる。つまり、フィルタW(ω,θs)は伝達特性a(ω,θs)を正規化して得られる。伝達特性a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
Figure 0005486567
<5>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(5a)の右辺第二項、つまり、式(5c)で表す。フィルタW(ω,θs)は式(4)や式(31)で与えられる。このとき、式(4)や式(31)に含まれるQ(ω)あるいは式(25)や式(28)に含まれるRxx(ω)=Q(ω)は、式(5c)で表される空間相関行列である。
Figure 0005486567
<6>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、目的方向への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、目的方向への音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小2乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する(つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる)フィルタを求める。フィルタ出力信号は、[a]スピーカアレーに含まれる各スピーカから目的方向θsへの音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号(以下、受聴信号という)と[b](例えば雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号である。
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW(ω,θs)は式(33)で与えられる(参考文献4参照)。なお、Rss(ω)は式(21)、Rnn(ω)は式(22)で表される。伝達特性a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。
Figure 0005486567
Psは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルPsは、周波数に依存しない定数である。受聴信号レベルPsは、経験則に基づいて決められてもよく、あるいは、目的方向への音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW(ω,θs)の目的方向θsの音声の周波数応答F(ω)は、式(34)で表される。式(33)で与えられるフィルタW(ω,θs)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(35)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる受聴信号レベルPsを求めることができる。
Figure 0005486567
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は目的方向への音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は目的方向への音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
周波数領域信号U(ω,k)=[U1(ω,k),…,UM(ω,k)]Tを用いた空間相関行列Q(ω)は式(36)で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U(ω,k-i)(i=0,1,…,ζ-1)を用いて式(37)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(36)ないし式(37)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(36a)や式(37a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
Figure 0005486567
式(36a)や式(37a)で表される空間相関行列Q(ω,k)を用いるとフィルタW(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW(ω,θs,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(4)、式(24)、式(25)、式(28)、式(31)、式(33)のいずれかで表されるフィルタW(ω,θs)は、表記上、式(4m)、式(24m)、式(25m)、式(28m)、式(31m)、式(33m)に修正される。
Figure 0005486567
《実施形態1》
本発明の実施形態1の機能構成および処理フローを図3と図4に示す。この実施形態1の狭指向音声再生処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
[ステップS1]
予め、フィルタ設計部260が音声再生の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW(ω,θi)を計算しておく。音声再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W(ω,θ1),…,W(ω,θi),…,W(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
このためには、上述の<変形例>で説明した場合を除き、伝達特性a(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθiとしたものである)。なお、上述の<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a(ω,θi)(1≦i≦I, ω∈Ω)を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。
反射音(あるいは双対音)の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a(ω,θi)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθiとしたものである)。
ステアリングベクトルの計算には、例えば式(9a)、式(9b)、式(13a)、式(13b)、式(13c)、式(13d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(12a)や式(12b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、上述の<変形例>で説明した場合を除き、伝達特性a(ω,θi)を用いて、例えば式(4)、式(24)、式(25)、式(28)、式(31)、式(32)、式(33)のいずれかによってW(ω,θi)(1≦i≦I)を求める。なお、上述の<5>最尤法によるフィルタ設計法で説明した場合を除き、式(4)または式(25)または式(28)または式(31)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5b)で計算できる。上述の<5>最尤法によるフィルタ設計法に拠って、式(4)または式(25)または式(28)または式(31)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5c)で計算できる。式(24)を用いる場合には空間相関行列Rnn(ω)は式(22)で計算できる。I×|Ω|個のフィルタW(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
[ステップS2]
音源200が音源信号ss(t)を出力する。この実施形態1では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
[ステップS3]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW(ω,θs)を適用して、再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(38)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、再生したい目的方向θsに対応するフィルタW(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW(ω,θs')を用いてよい。
Figure 0005486567
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[ステップS8]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、再生方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。
ここでは、ステップS1の処理で予めフィルタW(ω,θi)を計算しておく実施形態1を説明したが、狭指向音声再生処理装置1の計算処理能力などに応じて、再生方向である目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW(ω,θs)を計算する実施形態を採用することもできる。
《実施形態2》
本発明の実施形態2の機能構成および処理フローを図17と図18に示す。この実施形態2の狭指向音声再生処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290、AD変換部310、フレーム生成部320、周波数領域変換部330を含む。
[ステップS11]
音源200が音源信号ss(t)を出力する。この実施形態2では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
[ステップS12]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS12の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、目的方向θsに対応する周波数毎のフィルタW(ω,θs,k)(ω∈Ω; Ωは周波数ωの集合)を計算する。
このためには、伝達特性a(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω)を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθsとしたものである)。なお、上述の<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a(ω,θNj)(1≦j≦B, ω∈Ω)も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθNjとしたものである)。
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a(ω,θs)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθsとしたものである)。この場合、同様に、伝達特性a(ω,θNj)(1≦j≦B, ω∈Ω)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθNjとしたものである)。
ステアリングベクトルの計算には、例えば式(9a)、式(9b)、式(13a)、式(13b)、式(13c)、式(13d)を用いることができる。フィルタ設計に用いる伝達特性として、なお、式(12a)や式(12b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。
そして、フィルタ計算部261は、伝達特性a(ω,θs)(ω∈Ω)や必要に応じて伝達特性a(ω,θNj)(1≦j≦B, ω∈Ω)を用いて、フィルタW(ω,θs,k)(ω∈Ω)を、式(4m)、式(24m)、式(25m)、式(28m)、式(31m)、式(33m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(36a)や式(37a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X(ω,k-i)(i=0,1,…,ζ-1)が用いられる。
周波数領域信号X(ω,k)は、下記のようにして記憶部290に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン300−1,…,300−Mを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
AD変換部310が、M個のマイクロホン300−1,…,300−Mで収音されたアナログ信号(収音信号)をディジタル信号x(t)=[x1(t),…,xM(t)]へ変換する。tは離散時間のインデックスを表す。
フレーム生成部320は、AD変換部310が出力したディジタル信号x(t)=[x1(t),…,xM(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x(k)=[x 1(k),…,x M(k)]を出力する。kはフレーム番号のインデックスである。x m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部330は、各フレームのディジタル信号x(k)を周波数領域の信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部290に蓄積される。
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW(ω,θs,k)を適用して、再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(39)参照)。
Figure 0005486567
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[ステップS18]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
本発明の実施形態1(単一拘束条件の最小分散無歪応答法)による実験結果を説明する。図5に示すように、24本の無指向性スピーカを直線的に配置し、この線形スピーカアレーの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板の反射率αを0.8とした。目的方向θsを45度に設定した。線形スピーカアレーから音声が平面波として放射されると仮定し、伝達特性を式(12b)(式(9a)、式(13a)を参照)で算出して、生成されるフィルタの指向性を検証した。比較対象として、上記非特許文献1に記載された従来法(反射板無しの最小分散無歪応答法)を用いた。
実験結果を図6、図7に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される(人の声は100Hz程度から2kHz程度の周波数成分を多く含んでいる)。また、図8には、本発明の実施形態1に従って生成したフィルタW(ω,θ)による指向性を示した。図8から、目的方向θs=45度に直接音が送波されているだけでなく、反射板300が置かれた方向へも音声が送波されていることが分かる。
また、図9に示すように、線形スピーカアレーに含まれるスピーカの配列方向と反射板300の平面とのなす角が45度になるように反射板300を配置した場合についても上述の実験と同様の実験を行った。目的方向θsを22.5度に設定し、その他の実験条件は線形スピーカアレーに含まれるスピーカの配列方向が反射板300の法線となるように反射板300を配置した場合と同じとした。
実験結果を図10、図11に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される。
次に、本発明の実施構成の例を図12〜図16を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。
図12に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ280−1,…,280−Mは矩形平板状の支持部材400に固定されており、この状態で各スピーカの拡声孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されている(図示の例ではM=13)。なお、各スピーカ280−1,…,280−Mに接続される配線は図示していない。そして、各スピーカ280−1,…,280−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図12に示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各スピーカ280−1,…,280−Mをしっかりと固定できる剛性を持っていれば十分である。
図13(a)に示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板300の幾何学的配置を変更することが可能である。
図13(b)に示す実施構成例では、図12に示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図13(b)に示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図13(b)に示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図14に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図13(b)に示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
図15に示す実施構成例は、反射板300にもスピーカアレー(図示の例では線形スピーカアレー)が設けられていることが図12に示す実施構成例と異なる。図15に示す実施構成例では、支持部材400に固定されたM個のスピーカの配列方向と反射板300に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板300にM’個のスピーカが固定されていてもよい。図15に示す実施構成例によると、支持部材400に設けられたスピーカアレーと反射板300(反射板300に設けられたスピーカアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明を実施したり、支持部材400(支持部材400に設けられたスピーカアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。
また、図15に示す実施構成例の拡張実施構成例として、図13(b)に示す実施構成例と同様に、図15に示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図16参照)。また、図示していないが、可動反射板310,320の少なくとも一つにスピーカアレーを設けてもよい。可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図13(b)に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図16に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、図14に示す実施構成例と同様の使用形態が可能である。また、図16に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたスピーカアレーと固定反射板300に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。
可動反射板310にスピーカアレーを設ける場合、可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にスピーカアレーを設けてもよい。また、可動反射板320にスピーカアレーを設ける場合、可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にスピーカアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。
[A]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図14に示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
[B]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図14に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
<応用例>
以下、本発明である狭指向音声再生技術が有用なサービス例について述べる。
第1の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。TV会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。
<狭指向音声再生処理装置のハードウェア構成例>
上述の実施形態に関わる狭指向音声再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、狭指向音声再生処理装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
狭指向音声再生処理装置の外部記憶装置には、目的方向を含む狭い範囲に向けて音声を再生するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
狭指向音声再生処理装置の記憶部には、音声再生の対象となる方向について式(5a)ないし式(5b)で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声再生の対象となる方向に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。
狭指向音声再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで狭指向音声再生が実現される。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上述の実施形態では音波が平面波として進行することを仮定したが、音波が球面波として進行する場合であってもよい。この場合、ステアリングベクトルは球面波に応じた表現に変更される。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(狭指向音声再生処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (14)

  1. Mを2以上の整数として、M個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る狭指向音声再生処理方法であって、
    音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
    上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用ステップと
    を有し、
    (1)上記スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各上記伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
    ことを特徴とする狭指向音声再生処理方法。
  2. 請求項1に記載の狭指向音声再生処理方法において、
    各上記伝達特性aφは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
    ことを特徴とする狭指向音声再生処理方法。
  3. 請求項1に記載の狭指向音声再生処理方法において、
    各上記伝達特性aφは、実環境下において実測で得られたものである
    ことを特徴とする狭指向音声再生処理方法。
  4. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  5. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  6. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、M個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される上記一つまたは複数の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  7. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、(1)音声再生の対象となる上記方向への音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声再生の対象となる上記方向と各上記死角以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  8. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向φ=sの伝達特性asを正規化することによって、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  9. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の各方向に対応する上記伝達特性aφによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  10. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  11. 請求項1から請求項3のいずれかに記載の狭指向音声再生処理方法において、
    上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
    ことを特徴とする狭指向音声再生処理方法。
  12. Mを2以上の整数として、M個のスピーカで構成されるスピーカアレーで再生されるMチャネルの時間領域信号xを、音源信号が周波数領域に変換された周波数領域信号Sに、当該周波数領域信号SをMチャネルの周波数領域信号Xに変換するフィルタを周波数ごとに適用して得られた当該Mチャネルの周波数領域信号Xを時間領域に変換して得る狭指向音声再生処理装置であって、
    音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
    上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用部と
    を含み、
    (1)上記スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声を、双対音として、各上記伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
    ことを特徴とする狭指向音声再生処理装置。
  13. 請求項12に記載の狭指向音声再生処理装置において、
    上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
    ことを特徴とする狭指向音声再生処理装置。
  14. コンピュータに、請求項1から請求項11のいずれかに記載の狭指向音声再生処理方法の処理を実行させるためのプログラム。
JP2011190776A 2010-12-21 2011-09-01 狭指向音声再生処理方法、装置、プログラム Expired - Fee Related JP5486567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011190776A JP5486567B2 (ja) 2010-12-21 2011-09-01 狭指向音声再生処理方法、装置、プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010285178 2010-12-21
JP2010285178 2010-12-21
JP2011190776A JP5486567B2 (ja) 2010-12-21 2011-09-01 狭指向音声再生処理方法、装置、プログラム

Publications (2)

Publication Number Publication Date
JP2012147413A JP2012147413A (ja) 2012-08-02
JP5486567B2 true JP5486567B2 (ja) 2014-05-07

Family

ID=46790477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011190776A Expired - Fee Related JP5486567B2 (ja) 2010-12-21 2011-09-01 狭指向音声再生処理方法、装置、プログラム

Country Status (1)

Country Link
JP (1) JP5486567B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190191241A1 (en) * 2016-05-30 2019-06-20 Sony Corporation Local sound field forming apparatus, local sound field forming method, and program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6228945B2 (ja) * 2015-02-04 2017-11-08 日本電信電話株式会社 音場再生装置、音場再生方法、プログラム
CN116612777A (zh) * 2023-06-28 2023-08-18 歌尔智能科技有限公司 噪声协方差确定方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3821228B2 (ja) * 2002-11-15 2006-09-13 ソニー株式会社 オーディオ信号の処理方法および処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190191241A1 (en) * 2016-05-30 2019-06-20 Sony Corporation Local sound field forming apparatus, local sound field forming method, and program
US10708686B2 (en) * 2016-05-30 2020-07-07 Sony Corporation Local sound field forming apparatus and local sound field forming method

Also Published As

Publication number Publication date
JP2012147413A (ja) 2012-08-02

Similar Documents

Publication Publication Date Title
JP5486694B2 (ja) 音声強調方法、装置、プログラム、記録媒体
Teutsch et al. Acoustic source detection and localization based on wavefield decomposition using circular microphone arrays
JP5728094B2 (ja) 到来方向推定から幾何学的な情報の抽出による音取得
Molés-Cases et al. Weighted pressure matching with windowed targets for personal sound zones
Chang et al. Experimental validation of sound field control with a circular double-layer array of loudspeakers
JP6329296B2 (ja) 収音装置
JP5486567B2 (ja) 狭指向音声再生処理方法、装置、プログラム
JP5738218B2 (ja) 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
Caviedes-Nozal et al. A Bayesian spherical harmonics source radiation model for sound field control
JP6117142B2 (ja) 変換装置
Poletti et al. Sound reproduction systems using variable-directivity loudspeakers
Bouchard et al. Beamforming with microphone arrays for directional sources
JP5337189B2 (ja) フィルタ設計における反射物の配置決定方法、装置、プログラム
JP5486568B2 (ja) 音声スポット再生処理方法、装置、プログラム
Bountourakis et al. Parametric spatial post-filtering utilising high-order circular harmonics with applications to underwater sound-field visualisation
Peled et al. Objective performance analysis of spherical microphone arrays for speech enhancement in rooms
JP5815489B2 (ja) 音源別音声強調装置、方法、プログラム
Wang et al. Spherical harmonic representation of the observed directional wave front in the time domain
JP2020058085A (ja) 収音装置
JP2013135373A (ja) ズームマイク装置
JP6063890B2 (ja) 変換装置
JP6031364B2 (ja) 収音装置及び再生装置
Bai et al. Particle velocity estimation based on a two-microphone array and Kalman filter
Bouchard et al. Beamforming for directional sources: Additional estimator and evaluation of performance under different acoustic scenarios
Hur et al. A bank of beamformers implementing a constant-amplitude panning law

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140221

R150 Certificate of patent or registration of utility model

Ref document number: 5486567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees