WO2016103709A1

WO2016103709A1 - 音声処理装置

Info

Publication number: WO2016103709A1
Application number: PCT/JP2015/006446
Authority: WO
Inventors: サシャヴラジック
Original assignee: Aisin Seiki Co Ltd
Current assignee: Aisin Corp
Priority date: 2014-12-26
Filing date: 2015-12-24
Publication date: 2016-06-30
Anticipated expiration: 2017-06-26
Also published as: CN107113498A; EP3240301A4; EP3240301A1; US20170352349A1; JP2016127300A

Abstract

　車両に配された複数のマイクロフォン２２と、複数のマイクロフォンの各々によって取得される受音信号に含まれる音声の発生源である音声源が近傍界に位置する場合には、受音信号を球面波として扱って音声源の方位を判定し、音声源が遠方界に位置する場合には、受音信号を平面波として扱って音声源の方位を判定する音声源方位判定部１６と、音声源の方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行うビームフォーミング処理部１２とを有している。

Description

音声処理装置

　本発明は、音声処理装置に関する。

　自動車等の車両には、様々な機器が設けられている。これらの様々な機器に対する操作は、例えば、操作ボタンや操作パネル等を操作することにより行われている。

　一方、近時では、音声認識の技術も提案されている（特許文献１～３）。

特開２０１２－２１５６０６号公報特開２０１２－１８９９０６号公報特開２０１２－４２４６５号公報

　しかしながら、車両においては、様々なノイズが存在する。このため、車両内で発せられる音声に対しての音声認識は容易ではなかった。

　本発明の目的は、音声認識の確実性を向上し得る良好な音声処理装置を提供することにある。

　本発明の一観点によれば、車両に配された複数のマイクロフォンと、前記複数のマイクロフォンの各々によって取得される受音信号に含まれる音声の発生源である音声源が近傍界に位置する場合には、前記受音信号を球面波として扱って前記音声源の方位を判定し、前記音声源が前記遠方界に位置する場合には、前記受音信号を平面波として扱って前記音声源の方位を判定する音声源方位判定部と、前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行うビームフォーミング処理部とを有することを特徴とする音声処理装置が提供される。

　本発明によれば、音声源が近傍界に位置する場合には、音声を球面波として扱うため、音声源が近傍界に位置する場合であっても、音声源の方位を高精度に判定することができる。音声源の方位を高精度に判定し得るため、本発明によれば、目的音以外の音を確実に抑制することができる。しかも、音声源が遠方界に位置する場合には、音声を平面波として扱って音声源の方位を判定するため、音声源の方位を判定するための処理負荷を軽くすることができる。従って、本発明によれば、音声認識の確実性を向上し得る良好な音声処理装置を提供することができる。

車両の構成を示す概略図である。本発明の一実施形態による音声処理装置のシステム構成を示すブロック図である。マイクロフォンの数が３個の場合におけるマイクロフォンの配置の例を示す概略図である。マイクロフォンの数が２個の場合におけるマイクロフォンの配置の例を示す概略図である。音声源が遠方界に位置する場合を示す図である。音声源が近傍界に位置する場合を示す図である。音楽の除去のアルゴリズムを示す概略図である。音楽の除去前と除去後の信号波形を示す図である。音声源の方位の判定のアルゴリズムを示す図である。適応フィルタ係数を示す図である。音声源の方位角を示す図である。音声信号の振幅を示す図である。ビームフォーマの指向性を概念的に示す図である。ビームフォーマのアルゴリズムを示す図である。ビームフォーマにより得られる指向性の例を示すグラフである。ビームフォーマと音声源方位判定キャンセル処理とを組み合わせた場合の角度特性を示す図である。ビームフォーマにより得られる指向性の例を示すグラフである。ノイズの除去のアルゴリズムを示す図である。ノイズの除去前と除去後の信号波形を示す図である。本発明の一実施形態による音声処理装置の動作を示すフローチャートである。

　以下、本発明の実施の形態について図面を用いて説明する。なお、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲において適宜変更可能である。また、以下で説明する図面において、同じ機能を有するものは同一の符号を付し、その説明を省略又は簡潔にすることもある。

　［一実施形態］
　本発明の一実施形態による音声処理装置を図１乃至図１７を用いて説明する。

　本実施形態による音声処理装置について説明するに先立って、車両の構成について図１を用いて説明する。図１は、車両の構成を示す概略図である。

　図１に示すように、車両（自動車）の車体（車室）４６の前部には、運転者用の座席である運転席４０と助手席者用の座席である助手席４４とが配されている。運転席４０は、例えば車室４６の右側に位置している。運転席４０の前方には、ステアリングホイール（ハンドル）７８が配されている。助手席４４は、例えば車室４６の左側に位置している。運転席４０と助手席４４とにより、前部座席が構成されている。運転席４０の近傍には、運転者が音声を発する場合における音声源７２ａが位置する。助手席４４の近傍には、助手席者が音声を発する場合における音声源７２ｂが位置する。運転者も助手席者も座席４０，４４に着座した状態で上半身を動かし得るため、音声源７２の位置は変化し得る。車体４６の後部には、後部座席７０が配されている。なお、ここでは、個々の音声源を区別しないで説明する場合には、符号７２を用い、個々の音声源を区別して説明する場合には、符号７２ａ、７２ｂを用いることとする。

　前部座席４０，４４の前方には、複数のマイクロフォン２２（２２ａ～２２ｃ）、即ち、マイクロフォンアレイが配されている。なお、ここでは、個々のマイクロフォンを区別しないで説明する場合には、符号２２を用い、個々のマイクロフォンを区別して説明する場合には、符号２２ａ～２２ｃを用いることとする。マイクロフォン２２は、ダッシュボード４２に配されていてもよいし、ルーフに近い部位に配されていてもよい。

　前部座席４０，４４の音声源７２とマイクロフォン２２との間の距離は、数十ｃｍ程度である場合が多い。しかし、マイクロフォン２２と音声源７２との間の距離は、数十ｃｍより小さくなることもあり得る。また、マイクロフォン２２と音声源７２との間の距離は、１ｍを超えることもあり得る。

　車体４６の内部には、車載音響機器（カーオーディオ機器）８４（図２参照）のスピーカシステムを構成するスピーカ（ラウドスピーカ）７６が配されている。スピーカ７６から発せられる音楽（ミュージック）は、音声認識を行う上でのノイズとなり得る。

　車体４６には、車両を駆動するためのエンジン８０が配されている。エンジン８０から発せられる音は、音声認識を行う上でのノイズとなり得る。

　車両の走行中に路面の刺激によって車室４６内に発生する騒音、即ち、ロードノイズも、音声認識を行う上でのノイズとなり得る。また、車両が走行する際に生ずる風切り音も、音声認識を行う上でのノイズ源となり得る。また、車体４６の外部にも、ノイズ源８２は存在し得る。外部ノイズ源８２から発せられる音も、音声認識を行う上でのノイズとなり得る。

　車体４６に配された様々な機器に対する操作を、音声による指示によって行い得ると便利である。音声による指示は、例えば図示しない自動音声認識装置を用いて認識される。本実施形態による音声処理装置は、音声認識の精度の向上に資するものである。

　図２は、本実施形態による音声処理装置のシステム構成を示すブロック図である。

　図２に示すように、本実施形態による音声処理装置は、前処理部１０と、処理部１２と、後処理部１４と、音声源方位判定部１６と、適応アルゴリズム決定部１８と、ノイズモデル決定部２０とを含む。

　本実施形態による音声処理装置が更に図示しない自動音声認識装置を含んでいてもよいし、本実施形態による音声処理装置と自動音声認識装置とが別個の装置であってもよい。これらの構成要素と自動音声認識装置とを含む装置は、音声処理装置と称することもできるし、自動音声認識装置と称することもできる。

　前処理部１０には、複数のマイクロフォン２２ａ～２２ｃの各々によって取得される信号、即ち、受音信号が入力されるようになっている。マイクロフォン２２としては、例えば、無指向性のマイクロフォンが用いられる。

　図３Ａ及び図３Ｂは、マイクロフォンの配置の例を示す概略図である。図３Ａは、マイクロフォン２２の数が３個の場合を示している。図３Ｂは、マイクロフォン２２の数が２個の場合を示している。複数のマイクロフォン２２は、直線上に位置するように配されている。

　図４Ａ及び図４Ｂは、音声源が遠方界に位置する場合と近傍界に位置する場合とを示す図である。図４Ａは、音声源７２が遠方界に位置する場合を示しており、図４Ｂは、音声源７２が近傍界に位置する場合を示している。ｄは、音声源７２からマイクロフォン２２までの距離の差を示している。θは、音声源７２の方位を示している。

　図４Ａに示すように、音声源７２が遠方界に位置する場合には、マイクロフォン２２に到達する音声は、平面波とみなすことができる。このため、本実施形態では、音声源７２が遠方界に位置する場合には、マイクロフォン２２に到達する音声を平面波として取り扱って、音声源７２の方位（方向）、即ち、音源方位（ＤＯＡ：Direction Of Arrival）を判定する。マイクロフォン２２に到達する音声を平面波として扱うことが可能なため、音声源７２が遠方界に位置する場合には、２個のマイクロフォン２２を用いて音声源７２の方位を判定し得る。なお、音声源７２の位置やマイクロフォン２２の配置によっては、マイクロフォン２２の数が２個の場合であっても、近傍界に位置する音声源７２の方位を判定し得る。

　図４Ｂに示すように、音声源７２が近傍界に位置する場合には、マイクロフォン２２に到達する音声は、球面波とみなすことができる。このため、本実施形態では、音声源７２が近傍界に位置する場合には、マイクロフォン２２に到達する音声を球面波として扱って、音声源７２の方位を判定する。マイクロフォン２２に到達する音声を球面波として扱うことを要するため、音声源７２が近傍界に位置する場合には、少なくとも３個のマイクロフォン２２を用いて音声源７２の方位を判定する。ここでは、説明の簡略化のため、マイクロフォン２２の数を３個とする場合を例に説明する。

　マイクロフォン２２ａとマイクロフォン２２ｂとの距離Ｌ１は、比較的長く設定されている。マイクロフォン２２ｂとマイクロフォン２２ｃとの距離Ｌ２は、比較的短く設定されている。

　本実施形態において距離Ｌ１と距離Ｌ２とを異ならせているのは、以下のような理由によるものである。即ち、本実施形態では、各々のマイクロフォン２２に到達する音声（受音信号の到来時間差（ＴＤＯＡ：Time Delay Of Arrival）に基づいて、音声源７２の方位を特定する。周波数が比較的低い音声は波長が比較的長いため、周波数が比較的低い音声に対応するためには、マイクロフォン２２間の距離を比較的大きく設定することが好ましい。このため、本実施形態では、マイクロフォン２２ａとマイクロフォン２２ｂとの間の距離Ｌ１を比較的長く設定している。一方、周波数が比較的高い音声は波長が比較的短いため、周波数が比較的高い音声に対応するためには、マイクロフォン２２間の距離を比較的小さく設定することが好ましい。そこで、本実施形態では、マイクロフォン２２ｂとマイクロフォン２２ｃとの間の距離Ｌ２を比較的短く設定している。

　マイクロフォン２２ａとマイクロフォン２２ｂとの間の距離Ｌ１は、例えば３４００Ｈｚ以下の周波数の音声に対して好適とすべく、例えば５ｃｍ程度とする。マイクロフォン２２ｂとマイクロフォン２２ｃとの間の距離Ｌ２は、例えば３４００Ｈｚを超える周波数の音声に対して好適とすべく、例えば２．５ｃｍ程度とする。なお、距離Ｌ１、Ｌ２は、これらに限定されるものではなく、適宜設定し得る。

　本実施形態において、音声源７２が遠方界に位置する場合に、マイクロフォン２２に到達する音声を平面波として扱うのは、音声を平面波として扱う場合の方が、音声を球面波として扱う場合よりも、音声源７２の方位を判定するための処理が簡略なためである。このため、本実施形態では、音声源７２が遠方界に位置する場合には、マイクロフォン２２に到達する音声を平面波として扱う。マイクロフォン２２に到達する音声を平面波として扱うため、遠方界に位置する音声源７２の方位を判定する際には、音声源７２の方位を判定するための処理の負荷を軽くすることができる。

　なお、音声源７２の方位を判定するための処理の付加は重くなるが、音声源７２が近傍界に位置する場合には、マイクロフォン２２に到達する音声を球面波として扱う。音声源７２が近傍界に位置する場合には、マイクロフォン２２に到達する音声を球面波として扱わないと、音声源７２の方位を正確に判定し得ないためである。

　このように、本実施形態では、音声源７２が遠方界に位置する場合には、音声を平面波として扱って音声源７２の方位を判定し、音声源７２が近傍界に位置する場合には、音声を球面波として扱って音声源７２の方位を判定する。

　図２に示すように、複数のマイクロフォン２２によって取得される受音信号が、前処理部１０に入力されるようになっている。前処理部１０では、音場補正が行われる。音場補正においては、音響空間である車室４６の音響特性を考慮したチューニングが行われる。

　マイクロフォン２２によって取得される受音信号に音楽が含まれている場合には、前処理部１０は、マイクロフォン２２によって取得される受音信号から音楽を除去する。前処理部１０には、参照用音楽信号（参照信号）が入力されるようになっている。前処理部１０は、マイクロフォン２２によって取得される受音信号に含まれている音楽を、参照用音楽信号を用いて除去する。

　図５は、音楽の除去のアルゴリズムを示す概略図である。車載音響機器８４によって音楽が再生されている際には、マイクロフォン２２によって取得される受音信号には音楽が含まれる。マイクロフォン２２によって取得される音楽を含む受音信号は、前処理部１０内に設けられた音楽除去処理部２４に入力されるようになっている。また、参照用音楽信号が、音楽除去処理部２４に入力されるようになっている。参照用音楽信号は、例えば、車載音響機器８４のスピーカ７６から出力された音楽を、マイクロフォン２６ａ、２６ｂによって取得することにより得ることが可能である。また、スピーカ７６によって音に変換される前の音楽ソース信号を、参照用音楽信号として、音楽除去処理部２４に入力するようにしてもよい。

　音楽除去処理部２４からの出力信号は、前処理部１０内に設けられたステップサイズ判定部２８に入力されるようになっている。ステップサイズ判定部２８は、音楽除去処理部２４の出力信号のステップサイズの判定を行うものである。ステップサイズ判定部２８によって判定されたステップサイズは、音楽除去処理部２４にフィードバックされるようになっている。音楽除去処理部２４は、参照用音楽信号を用い、ステップサイズ判定部２８により判定されたステップサイズに基づき、周波数領域の正規化最小二乗法（ＮＬＭＳ：Normalized Least-Mean Square）のアルゴリズムによって、音楽を含む信号から音楽を除去する。車室４６内における音楽の反響成分をも十分に除去すべく、十分な処理段数で音楽の除去の処理が行われる。

　図６は、音楽の除去前と除去後の信号波形を示す図である。横軸は時間を示しており、縦軸は振幅を示している。グレーで示した信号は音楽の除去前を示しており、ブラックで示した信号は音楽の除去後を示している。図６から分かるように、音楽が確実に除去されている。

　このようにして音楽が除去された信号が、前処理部１０の音楽除去処理部２４から出力され、処理部１２に入力される。なお、前処理部１０において音楽を十分に除去し得ない場合には、後処理部１４においても、音楽の除去の処理を行うようにしてもよい。

　音声源方位判定部１６では、音声源の方位の判定が行われる。図７は、音声源の方位の判定のアルゴリズムを示す図である。複数のマイクロフォン２２のうちのあるマイクロフォン２２からの信号が、音声源方位判定部１６内に設けられた遅延部３０に入力されるようになっている。複数のマイクロフォン２２のうちの他のマイクロフォン２２からの信号が、音声源方位判定部１６内に設けられた適応フィルタ３２に入力されるようになっている。遅延部３０の出力信号と適応フィルタ３２の出力信号とが、減算点３４に入力されるようになっている。減算点３４においては、遅延部３０の出力信号から適応フィルタ３４の出力信号が減算される。減算点３４において減算処理が行われた信号に基づいて、適応フィルタ３２が調整される。適応フィルタ３２からの出力は、ピーク検出部３６に入力されるようになっている。ピーク検出部３６は、適応フィルタ係数のピーク（最大値）を検出するものである。適応フィルタ係数のピークに対応する到来時間差τが、目的音の到来方位に対応する到来時間差τである。従って、こうして求められた到来時間差τに基づいて、音声源７２の方位、即ち、目的音の到来方位を判定することが可能となる。

　音の速度をｃ［ｍ／ｓ］、マイクロフォン間の距離をｄ［ｍ］、到来時間差をτ［秒］とすると、音声源７２の方向θ［度］は、以下のような式（１）によって表される。なお、音速ｃは、３４０［ｍ／ｓ］程度である。

　図８Ａは、適応フィルタ係数を示す図である。図８Ｂは、音声源の方位角を示す図である。図８Ｃは、音声信号の振幅を示す図である。図８Ａでは、適応フィルタ係数がピークとなる部分にハッチングを付している。図８Ｂは、到来時間差τに基づいて判定された音声源７２の方位を示している。図８Ｃは、音声信号の振幅を示している。なお、図８Ａ～図８Ｃは、運転者と助手席者とで交互に音声を発した場合を示している。ここでは、運転者が音声を発する場合の音声源７２ａの方位は、α１とした。助手席者が音声を発する場合の音声源７２ｂの方位は、α２とした。

　図８Ａに示すように、適応フィルタ係数ｗ（ｔ，τ）のピークに基づいて、到来時間差τを検出することが可能である。運転者が音声を発した場合には、適応フィルタ係数のピークに対応する到来時間差τは、例えば－ｔ１程度となる。そして、到来時間差τに基づいて音声源７２ａの方位角を判定すると、音声源７２ａの方位角は例えばα１程度と判定される。一方、助手席者が音声を発した場合には、適応フィルタ係数のピークに対応する到来時間差τは、例えばｔ２程度となる。そして、到来時間差τに基づいて音声源７２ｂの方位角を判定すると、音声源７２ｂの方位角は例えばα２度程度と判定される。なお、ここでは、α１の方位に運転者が位置しており、α２の方位に助手席者が位置している場合を例に説明したが、これに限定されるものではない。音声源７２が近傍界に位置する場合であっても、音声源７２が遠方界に位置する場合であっても、到来時間差τに基づいて、音声源７２の位置を特定することが可能である。但し、音声源７２が近傍界に位置する場合には、上述したように、マイクロフォン２２が３個以上必要であるため、音声源７２の方位を求めるための処理の負荷は重くなる。

　音声源方位判定部１６の出力信号、即ち、音声源７２の方位を示す信号が、適応アルゴリズム決定部１８に入力されるようになっている。適応アルゴリズム決定部１８は、音声源７２の方位に基づいて適応アルゴリズムを決定するものである。適応アルゴリズム決定部１８によって決定された適応アルゴリズムを示す信号が、適応アルゴリズム決定部１８から処理部１２に入力されるようになっている。

　処理部１２は、適応的に指向性を形成する信号処理である適応ビームフォーミングを行うものである（適応ビームフォーマ）。ビームフォーマとしては、例えばＦｒｏｓｔビームフォーマを用いることができる。なお、ビームフォーミングは、Ｆｒｏｓｔビームフォーマに限定されるものではなく、様々なビームフォーマを適宜適用することができる。処理部１２は、適応アルゴリズム決定部１８によって決定された適応アルゴリズムに基づいて、ビームフォーミングを行う。本実施形態において、ビームフォーミングを行うのは、目的音の到来方位に対しての感度を確保しつつ、目的音の到来方向以外の感度を低下させるためである。目的音は、例えば運転者から発せられる音声である。運転者は運転席４０に着座した状態で上半身を動かし得るため、音声源７２ａの位置は変化し得る。音声源７２ａの位置の変化に応じて、目的音の到来方位は変化する。良好な音声認識を行うためには、目的音の到来方向以外の感度を確実に低下させることが好ましい。そこで、本実施形態では、上記のようにして判定される音声源７２の方位に基づいて、当該方位を含む方位範囲以外の方位範囲からの音声を抑圧すべく、ビームフォーマを順次更新する。

　図９は、ビームフォーマの指向性を概念的に示す図である。図９は、音声認識の対象とすべき音声源７２ａが運転席４０に位置している場合のビームフォーマの指向性を概念的に示している。図９におけるハッチングは、到来音が抑圧（抑制、低減）される方位範囲を示している。図９に示すように、運転席４０の方位を含む方位範囲以外の方位範囲から到来する音が抑圧される。

　なお、音声認識の対象とすべき音声源７２ｂが助手席４４に位置している場合には、助手席４４の方位を含む方位範囲以外の方位範囲から到来する音が抑圧されるようにすればよい。

　図１０は、ビームフォーマのアルゴリズムを示す図である。マイクロフォン２２ａ～２２ｃによって取得される受音信号が、前処理部１０（図２参照）を介して、処理部１２内に設けられた窓関数／高速フーリエ変換処理部４８ａ～４８ｃにそれぞれ入力されるようになっている。窓関数／高速フーリエ変換処理部４８ａ～４８ｃは、窓関数処理及び高速フーリエ変換処理を行うものである。本実施形態において、窓関数処理及び高速フーリエ変換処理を行うのは、周波数領域での計算は時間領域での計算より速いためである。窓関数／高速フーリエ変換処理部４８ａの出力信号Ｘ_１，ｋとビームフォーマの重みテンソルＷ_１，ｋ ^＊とが、乗算点５０ａにおいて乗算されるようになっている。窓関数／高速フーリエ変換処理部４８ｂの出力信号Ｘ_２，ｋとビームフォーマの重みテンソルＷ_２，ｋ ^＊とが、乗算点５０ｂにおいて乗算されるようになっている。窓関数／高速フーリエ変換処理部４８ｃの出力信号Ｘ_３，ｋとビームフォーマの重みテンソルＷ_３，ｋ ^＊とが、乗算点５０ｃにおいて乗算されるようになっている。乗算点５０ａ～５０ｃにおいてそれぞれ乗算処理された信号が、加算点５２において加算されるようになっている。加算点５２において加算処理された信号Ｙ_ｋは、処理部１２内に設けられた逆高速フーリエ変換／重畳加算処理部５４に入力されるようになっている。逆高速フーリエ変換／重畳加算処理部５４は、逆高速フーリエ変換処理及び重畳加算（ＯＬＡ：OverLap-Add）法による処理を行うものである。重畳加算法による処理を行うことにより、周波数領域の信号が時間領域の信号に戻される。逆高速フーリエ変換処理及び重畳加算法による処理が行われた信号が、逆高速フーリエ変換／重畳加算処理部５４から後処理部１４に入力されるようになっている。

　図１１は、ビームフォーマにより得られた指向性（角度特性）を示す図である。横軸は方位角を示しており、縦軸は出力信号パワーを示している。図１１から分かるように、例えば方位角β１と方位角β２とにおいて出力信号パワーが極小となる。方位角β１と方位角β２との間においても、十分な抑圧が行われている。図１１に示すような指向性のビームフォーマを用いれば、助手席から到来する音を十分に抑圧することができる。一方、運転席から到来する音声は、殆ど抑圧されることなくマイクロフォン２２に到達する。

　本実施形態では、音声源７２から到来する音声の大きさよりも、音声源７２の方位を含む方位範囲以外の方位範囲から到来する音の方が大きい場合には、音声源７２の方位の判定を中断する（音声源方位判定キャンセル処理）。例えば、運転者からの音声を取得するようにビームフォーマが設定されている場合において、運転者からの音声よりも助手席者からの音声の方が大きい場合には、音声源の方位の推定を中断する。この場合、マイクロフォン２２によって取得される受音信号を十分に抑圧する。図１２は、ビームフォーマと音声源方位判定キャンセル処理とを組み合わせた場合の指向性（角度特性）を示す図である。実線は、ビームフォーマの指向性を示している。一点鎖線は、音声源方位判定キャンセル処理の角度特性を示している。例えばγ１より小さい方位から到来する音声、又は、例えばγ２より大きい方位から到来する音声が、運転者からの音声よりも大きい場合には、音声源方位判定キャンセル処理が行われる。なお、ここでは、運転者からの音声を取得するようにビームフォーマが設定されている場合を例に説明したが、助手席者からの音声を取得するようにビームフォーマが設定されていてもよい。この場合には、助手席者からの音声よりも運転者からの音声の方が大きい場合には、音声源の方位の推定を中断する。

　図１３は、マイクロフォンが２個の場合におけるビームフォーマにより得られる指向性を示すグラフである。横軸は方位角であり、縦軸は出力信号パワーである。マイクロフォン２２が２個であるため、極小値となる角度が１箇所のみである。図１３から分かるように、例えば方位角β１においては著しい抑圧が可能であるが、音声源７２の方位の変化に対するロバスト性はあまり高くない。

　こうして、音声源７２の方位を含む方位範囲以外の方位範囲から到来する音が抑圧された信号が、処理部１２から出力される。処理部１２からの出力信号は、後処理部１４に入力されるようになっている。

　後処理部（後処理適応フィルタ）１４においては、ノイズの除去が行われる。かかるノイズとしては、例えばエンジンノイズ、ロードノイズ、風切り音等が挙げられる。図１４は、ノイズの除去のアルゴリズムを示す図である。ノイズモデル決定部２０内に設けられた基本波判定部５６によって、ノイズの基本波が判定される。基本波判定部５６は、ノイズの基本波に基づいた正弦波を出力する。基本波判定部５６から出力される正弦波は、ノイズモデル決定部２０内に設けられたモデリング処理部５８に入力されるようになっている。モデリング処理部５８は、非線形マッピング処理部６０と、線形フィルタ６２と、非線形マッピング処理部６４とを有している。モデリング処理部５８は、Hammerstein-Wiener非線形モデルによるモデリング処理を行うものである。モデリング処理部５８には、非線形マッピング処理部６０、線形フィルタ６２及び非線形マッピング処理部６４が設けられている。モデリング処理部５８は、基本波判定部５６から出力される正弦波に対してモデリング処理を行うことにより、参照用ノイズ信号を生成する。モデリング処理部５８から出力される参照用ノイズ信号は、ノイズが含まれた信号からノイズを除去するための参照信号となる。参照用ノイズ信号は、後処理部１４内に設けられたノイズ除去処理部６６に入力されるようになっている。ノイズ除去処理部６６には、処理部１２からのノイズを含む信号も入力されるようになっている。ノイズ除去処理部６６は、参照用ノイズ信号を用い、正規化最小二乗法のアルゴリズムによって、ノイズを含む信号からノイズを除去する。ノイズ除去処理部６６からは、ノイズが除去された信号が出力される。

　図１５は、ノイズの除去前と除去後の信号波形を示す図である。横軸は時間を示しており、縦軸は振幅を示している。グレーで示した信号はノイズ除去前を示しており、ブラックで示した信号はノイズ除去後を示している。図１５から分かるように、ノイズが確実に除去されている。

　後処理部１４においては、歪低減処理も行われる。なお、ノイズの除去は、後処理部１４においてのみ行われるわけではない。マイクロフォン２２を介して取得された音に対して、前処理部１０、処理部１２及び後処理部１４において行われる一連の処理によって、ノイズの除去が行われる。

　こうして、後処理部１４によって後処理が行われた信号が、図示しない自動音声認識装置に音声出力として出力される。目的音以外の音が抑圧された良好な目的音が自動音声認識装置に入力されるため、自動音声認識装置は、音声認識の精度を向上することができる。自動音声認識装置による音声認識結果に基づいて、車両に搭載されている機器等に対しての操作が自動で行われる。

　次に、本実施形態による音声処理装置の動作について図１７を用いて説明する。図１７は、本実施形態による音声処理装置の動作を示すフローチャートである。

　まず、音声処理装置の電源がＯＮにされる（ステップＳ１）。

　次に、乗員による呼びかけが音声処理装置に対して行われる（ステップＳ２）。かかる呼びかけによって、音声処理が開始される。ここでは、例えば、運転者によって呼びかけが行われる場合を例に説明する。なお、呼びかけは、運転者が行わなくてもよい。例えば、助手席者が呼びかけを行ってもよい。また、呼びかけは、特定の言葉であってもよいし、単なる発声であってもよい。

　次に、呼びかけを行った音声源７２の方位が判定される（ステップＳ３）。音声源７２の方位の判定は、上述したように、音声源方位判定部１６等によって行われる。

　次に、音声源７２の方位に応じて、ビームフォーマの指向性を設定する（ステップＳ４）。ビームフォーマの指向性の設定は、上述したように、適応アルゴリズム決定部１８、処理部１２等によって行われる。

　音声源７２の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源７２から到来する音声の大きさ以上である場合には（ステップＳ５においてＹＥＳ）、音声源７２の判定を中断する（ステップＳ６）。

　一方、音声源７２の方位を含む所定の方位範囲以外の方位範囲から到来する音の大きさが、音声源７２から到来する音声の大きさ以上でない場合には（ステップＳ５においてＮＯ）、ステップＳ３、Ｓ４を繰り返し行う。

　こうして、音声源７２の位置の変化に応じて、ビームフォーマが適応的に設定され、目的音以外の音が確実に抑制される。

　このように、本実施形態によれば、音声源７２が近傍界に位置する場合には、音声を球面波として扱うため、音声源７２が近傍界に位置する場合であっても、音声源７２の方位を高精度に判定することができる。音声源７２の方位を高精度に判定し得るため、本実施形態によれば、目的音以外の音を確実に抑制することができる。しかも、音声源７２が遠方界に位置する場合には、音声を平面波として扱って音声源７２の方位を判定するため、音声源７２の方位を判定するための処理負荷を軽くすることができる。従って、本実施形態によれば、音声認識の確実性を向上し得る良好な音声処理装置を提供することができる。

　また、本実施形態によれば、受音信号に含まれる音楽を除去する音楽除去処理部２４が設けられているため、車載音響機器８４から音楽が再生されている場合であっても、良好な音声認識を行うことが可能となる。

　また、本実施形態によれば、受音信号に含まれるノイズを除去するノイズ除去処理部６６が設けられているため、車両が走行中であっても、良好な音声認識を行うことが可能となる。

　［変形実施形態］
　上記実施形態に限らず種々の変形が可能である。

　例えば、上記実施形態では、マイクロフォン２２の数が３個である場合を例に説明したが、マイクロフォン２２の数は３個に限定されるものではなく、４個以上であってもよい。多くのマイクロフォン２２を用いれば、音声源７２の方位をより高精度に判定し得る。

　また、上記実施形態では、本実施形態による音声処理装置の出力が自動音声認識装置に入力される場合、即ち、本実施形態による音声処理装置の出力が音声認識に用いられる場合を例に説明したが、これに限定されるものではない。本実施形態による音声処理装置の出力が、自動音声認識に用いられなくてもよい。例えば、本実施形態による音声処理装置を、電話での会話における音声処理に適用してもよい。具体的には、本実施形態による音声処理装置を用いて目的音以外の音を抑圧し、良好な音声を送信するようにしてもよい。本実施形態による音声処理装置を電話での会話に適用すれば、良好な音声での通話を実現することができる。

　この出願は２０１４年１２月２６日に出願された日本国特許出願第２０１４－２６３９１８号からの優先権を主張するものであり、その内容を引用してこの出願の一部とするものである。

２２，２２ａ～２２ｃ…マイクロフォン
４０…運転席
４２…ダッシュボード
４４…助手席
４６…車体
７２、７２ａ、７２ｂ…音声源
７６…スピーカ
７８…ステアリングホイール
８０…エンジン
８２…外部ノイズ源
８４…車載音響機器

Claims

　車両に配された複数のマイクロフォンと、
　前記複数のマイクロフォンの各々によって取得される受音信号に含まれる音声の発生源である音声源が近傍界に位置する場合には、前記受音信号を球面波として扱って前記音声源の方位を判定し、前記音声源が前記遠方界に位置する場合には、前記受音信号を平面波として扱って前記音声源の方位を判定する音声源方位判定部と、
　前記音声源の前記方位を含む方位範囲以外の方位範囲から到来する音を抑圧するようにビームフォーミングを行うビームフォーミング処理部と
　を有することを特徴とする音声処理装置。
　前記複数のマイクロフォンの数は、２つである
　ことを特徴とする請求項１記載の音声処理装置。
　前記複数のマイクロフォンの数は、少なくとも３つであり、
　前記複数のマイクロフォンのうちの第１のマイクロフォンと前記複数のマイクロフォンのうちの第２のマイクロフォンとの間の距離である第１の距離は、前記複数のマイクロフォンのうちの第３のマイクロフォンと前記第２のマイクロフォンとの間の距離である第２の距離とは異なる
　ことを特徴とする請求項１記載の音声処理装置。
　前記受音信号に混入された音楽信号を、音響機器から取得された参照用音楽信号を用いて除去する音楽除去処理部を更に有する
　ことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
　前記音声源方位判定部は、前記第２の方位範囲内から前記マイクロフォンに到来した音が、前記第１の方位範囲内から前記マイクロフォンに到来した音よりも大きい場合には、前記音声源の前記方位の判定を中断する
　ことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
　前記受音信号に混入されたノイズの除去処理を行うノイズ除去処理部を更に有する
　ことを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。