JP5115944B2

JP5115944B2 - 音声認識装置

Info

Publication number: JP5115944B2
Application number: JP2006117300A
Authority: JP
Inventors: 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2006-04-20
Filing date: 2006-04-20
Publication date: 2013-01-09
Anticipated expiration: 2026-04-20
Also published as: JP2007292814A

Description

本発明は、音声認識装置において、マイクから入力されるオーディオ音を消去することにより音声認識率を高める音声認識装置に関する。

近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。

近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばナビゲーション装置の近隣施設検索を音声で指示し、ナビゲーション装置では検索結果を画面に表示し、また音声でこれに応える、というシステムが実用化されている。

しかしながら、音声認識装置を上記のような車載機器の制御を行うために、車両に搭載すると、車内にはエンジン音、タイヤの走行音、車の風切り音、更にはオーディオ音や周囲の人の話し声等が混在し、このような騒音の中でマイクに向かって話した言葉に基づいて、操作指示の内容を認識することはきわめて困難である。したがって、広く研究開発が行われている音声認識の技術分野において、車載機器の操作指示のための音声認識は、最も困難な分野の一つということができる。このように騒音の多い環境下で音声認識を行うためには、マイクから入力される音声に混って入ってくる騒音成分を取り除いて、できる限り使用者の音声のみを入力することが必要となる。

そのための技術として、騒音や音声を適応フィルタを通し、各種処理を行い、所望の特性の音声を得る研究が行われている。適応フィルタによる制御方式自体は広く知られている技術であり、例えば図４に示すように、第２信号入力ｘ（ｎ）をタップ係数ｗ（ｎ）が可変のＦＩＲフィルタ（有限インパルス応答フィルタ）２２を通し、出力ｙ（ｎ）を得る。この出力ｙ（ｎ）と目標信号としての第１信号入力ｄ（ｎ）を減算器２３に入れ、その誤差ｅ（ｎ）を得る。この誤差ｅ（ｎ）によって変化する適応アルゴリズム（例えばＬＭＳ）２４により、ＦＩＲフィルタ２２のタップ係数ｗ（ｎ）を制御し、誤差ｅ（ｎ）のパワーをできる限り０に近づける。この適応フィルタで用いられる適応アルゴリズムとしては種々のものが提案されており、例えば学習同定法、ＬＭＳ法、ＲＭＳ法、射影法等が知られている。このような適応フィルタを用いることにより、フィルタ係数は、任意の初期状態から逐次書き換えられ、徐々に誤差を最小にするタップ係数ｗ０に近づけていくことができる。

上記適応フィルタにおいて例えばＬＭＳアルゴリズムを用いてタップ係数をリアルタイムに更新するものにおいては、
ｗｊ（ｎ＋１）＝ｗｊ（ｎ）＋２μ（ｎ）・ｅ（ｎ）・ｘｊ（ｎ）
ｊ＝０，１・・・，Ｎ
ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）
の更新式を用いている。

ここでμはステップサイズパラメータと呼ばれ、適応フィルタのタップ係数の更新の度合いを制御するパラメータであり、これが大きいとタップ係数の修正量が多くなるため収束が速くなる。しかしながら、修正量が大きい分だけ、係数更新の妨害となる成分が存在する場合にはその影響を強く受けて、残留誤差量が多くなる。一方、反対にステップサイズパラメータが小さい場合には、収束が遅くなるが、妨害信号成分の影響が少なく残留誤差量は小さくなる。

一方、例えば車室内で音声認識装置を用いるに際して、車室内で最も音声認識を妨害する大きな音としては、オーディオ装置からの音が存在し、したがって、音声認識時にはこのオーディオ装置の音を消すことが好ましい。しかしながら、音声で指示を行うたびにオーディオ装置を消す操作は面倒であり、且つ、例えばオーディオの使用中にオーディオ装置に対して音量の変更等の操作指示を行うときには、そのたび毎にオーディオ装置の音を消すことは適切ではない。その対策として、音声認識装置において、マイクから入るオーディオ音をキャンセルするために、スピーカから出力されるオーディオ信号を直接入力して、このオーディオ信号を前記適応フィルタに入力し、適応フィルタから出力されたオーディオの調整信号と、マイクから音声信号と共に入力されたオーディオ信号とを減算器に入力し、その誤差が最小になるように、あるいは所定の状態になるように適応フィルタを調整し、それにより減算器からの出力信号中にオーディオ信号が残留しないようにすることが考えられている。

このようなオーディオキャンセルシステムの基本的な構成は、図５に示すように、前記図４の適応フィルタの構成を備え、特にこのシステムにおいては、ＬＭＳアルゴリズム２４でタップ係数ｗ（ｎ）が制御されるＦＩＲフィルタ２２への入力信号である第２入力として、車室内のスピーカ２６に出力するオーディオ出力部が参照信号発生部２７として接続しており、また、減算器２３への第２入力としては、車室内に設けた音声認識装置用のマイク２８からの信号を対応させ、このマイク２８からの信号は遅延回路２９を介して減算器２３に出力するようにしている。この時マイク２８からは、利用者３０からの認識すべき音声ＣｓＸｓと、音声認識装置作動中はキャンセルされるべき騒音となるオーディオ音ＣｎＸｎが入力される。図５中において二点鎖線で示すように、減算器２３における誤差信号ｅ（ｎ）を図４と同様にＬＭＳアルゴリズム２４に入力し、この信号をそのまま音声認識エンジン３６に出力するシステムが、図４の適応フィルタをそのまま用いた構成となる。ここで
ｙ（ｎ）＝ｗ（ｎ）^Ｔ・ｘ（ｎ）・・（１）
ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）・・（２）
ｗ（ｎ＋１）＝ｗ（ｎ）＋２μ（ｎ）・ｅ（ｎ）・ｘ（ｎ）
・・（３）
ｗ（ｎ）＝［ｗ（０，ｎ）ｗ（１，ｎ）・・・ｗ（Ｎ−１，ｎ）］^Ｔ・・（４）
ｘ（ｎ）＝［ｘ（ｎ）ｘ（ｎ−１）・・・ｘ（ｎ−Ｎ＋１）］^Ｔ・・（５）

の各式が成り立ち、特に適応更新式（３）により更新を行う。

このようなシステムにおいて、利用者３０が車室内でスピーカ２６からのオーディオを聴いている状態で、音声認識装置を利用するためマイク２８に音声を発するときには、マイク２８には車室内において特に大きな音であるオーディオからの音も入力される。マイク２８から入力されたこれら音声等の信号は、遅延回路２９を介して減算器２３のプラス側にｄ（ｎ）として入力される。一方、スピーカ２６にオーディオ信号を出力しているオーディオ出力部の信号を参照信号ｘ（ｎ）としてＦＩＲフィルタ２２に入力し、ＦＩＲフィルタ２２においてはＬＭＳアルゴリズム２４によりタップ係数ｗ（ｎ）が制御され、出力信号ｙ（ｎ）を得る。

この出力信号ｙ（ｎ）を減算器のマイナス側に入力し、両者の減算値、即ち両者の誤差である、ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）を得る。この誤差ｅ（ｎ）は理想的には車室内のスピーカからマイクに入力されたオーディオ音が、適応フィルタで処理されたオーディオ信号によりキャンセルされたものとなる。したがって、これを音声認識エンジン３６に入力すると、車室内のオーディ音がキャンセルされた、ほぼ利用者の音声のみの信号となる。このとき両者に誤差が生じている際には、この誤差ｅ（ｎ）をフィードバックしてＬＭＳアルゴリズム２４に入れ、ＦＩＲフィルタ２２のタップ係数ｗ（ｎ）を調整して、前記誤差ｅ（ｎ）のパワーを最小にするように制御する。

上記のように、車室内においてオーディオ装置が作動しスピーカから音が出ている状態の中で、音声認識装置により各種機器の作動を行わせるため、マイクから音声認識装置に音声を入力するときに混入するオーディオ音キャンセルするに際して、適応フィルタを用いたオーディオサウンドキャンセレーション（ＡＳＣ）システムの開発が行われている。このシステムでは各スピーカーからマイク位置までの伝達関数を推定し、マイク位置でのオーディオ音を模擬生成することにより、音楽再生下での音声認識処理において、マイク入力信号からこのオーディオ信号のみを減算することで、発話音声のみを残すことができ、その結果、音楽再生下での音声認識を可能とすることができる。

このシステムにおける伝達関数の推定には、オーディオ信号をリファレンスとしたノーマライズド（Normalized）ＬＭＳアルゴリズムを用いている前記のような現行システムにおける出力結果例を図６に示す。ここで、ステップサイズパラメータμ（ｎ）は、係数更新の程度を調節するものであるが、これが大きいと追従速度が向上する一方、走行ノイズや会話音声、発話音声等の外乱の影響を受けやすく、エコーがかかった波形が出力され、その結果音声認識が失敗してしまう。このように追従性と外乱耐性はトレードオフの関係にある。

そこで、本件出願人は特開２００１−１９５０８５号公報において、図５に示すようなステップサイズパラメータ変更部３１を設けることを提案し開示している。即ち、通常μの値を安定条件を満たす大きめの値μ１で適応動作させており、音声認識作動を開始するために利用者が押下する音声入力スイッチ３５の押下情報を入力し、音声認識処理が終わるまで、もしくは予め設定された一定時間が経過するまでの間、μの値をμ１より小さいμ２に切り換える。このようにすることにより、音声認識エンジン３６にデータを入力させる区間のみエコーがかからない発話音声のみを抽出して、適切な音声認識をすることができるようになる。なお、前記ステップサイズパラメータμの値を音声入力スイッチ３５の押下に対応してμ２に切り換えた後、音声入力スイッチの押下を待たず、予め設定した時間後、更には音声認識応答が行われたときに元のμ１の値に戻すことも考えられている。
特開２００１−１９５０８５号公報

上記のような処理が行われた音声認識処理の結果を図６に示す。この例からわかるように、図６（ｃ）の音声入力スイッチ押下から前記のようなオーディオ音の除去処理を行うためにステップサイズパラメータをμ１からμ２に減少させ、その後予め設定した所定の時間後、或いは音声認識応答が行われたときに元のμ１に復帰するように設定している際に、同図（ｂ）に示すように、利用者は音声入力スイッチ押下から各人特有の時間の後に発話を開始することとなる。その後発話が行われ、この音声認識装置においては例えば単語が一つ入力される場合と、比較的長い文章が入力される場合とが存在するので、発話時のそれぞれの場合によって入力される発話信号が大きく異なることに対応するため、利用者の発話に関わらず所定時間待つこととなる。

図６（ａ）のようなマイクからの音声信号が存在するとき、前記のようなオーディオ音の除去処理を行うことにより、同図（ｂ）ような処理済み信号を得ることができ、この処理済み信号に基づいて音声認識を行うと、このようなオーディオ音の除去処理を行わないものに比べてはるかに音声認識率が向上するものであるが、それでも未だ十分ではなく、実際には音声認識に失敗することも多い。

その原因を検討すると、主たる要因として、利用者による音声入力スイッチ押下から発話までの時間、及び実際の発話終了後のしばらくの時間において、図６（ｂ）に示すようなオーディオ音の消し残り成分が残ってしまい、音声認識エンジンの音声区間検出およびパターン照合処理に悪影響を及ぼしているためであることがわかった。

また、音声認識に成功した場合でも、応答時間は音楽再生を行っていない通常使用時に比べて長くなっており、前記オーディオキャンセレーション（ＡＳＣ）システムの使い勝手を阻害していた。この阻害の程度は短い単語ほど差は顕著であり、２〜３秒程度遅くなることも多い。その対策として、音声認識エンジン内部の処理を向上させる手法も存在するが、音声認識エンジン内部はこれを設計し製造している企業は公表しておらず、この音声認識エンジンを用いて例えばナビゲーション装置に適用しようとするものにとっては、この部分はブラックボックスとなっているため、いじることができず、それ以外の手法で対処するしかない。

したがって本発明は、利用者の発話音声のほかにオーディオ音が入力される環境下で音声認識を確実に行うため、オーディオ信号をリファレンス信号としたＬＭＳアルゴリズムを用いたオーディオサウンドキャンセレーションシステムにおいて、従来のシステムで未だ消すことができなかったオーディオ音をほぼ消すことができるようにし、音声認識率を向上させることができるようにすると共に、音声認識処理速度を向上することができるようにした音声認識装置を提供することを主たる目的とする。

本発明に係る音声認識エンジンは、上記課題を解決するため、音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、前記誤差信号の音声強度を計算する音声強度計算手段と、前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点以降から予め設定した所定時間に発話の有無を判定する発話有無判定手段と、前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えたことを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記ステップサイズパラメータ調整手段で、利用者が音声入力スイッチを押下した後の予め設定した所定期間後にステップサイズパラメータを徐々に減少させることを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声強度閾値は、音声認識処理結果により学習して変更することを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間は、音声認識処理結果により学習して変更することを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声入力スイッチを押下した後の所定期間は、音声認識処理結果により学習して変更することを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記発話有無判定手段は、利用者毎に予め設定する個人発話情報設定手段の個人情報により判定基準を変更することを特徴とする。

また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記発話有無判定手段において発話が無いと判別したときには、音声認識エンジンに零データを出力する出力制御手段を備えたことを特徴とする。

本発明は、上記のように構成したので、利用者の発話音声のほかにオーディオ音が入力される環境下で音声認識を確実に行うため、オーディオ音を出力するオーディオ信号をリファレンス信号として、ＬＭＳアルゴリズムを用いたオーディオサウンドキャンセレーションシステムでオーディオ音を消去する際、従来のシステムで未だ消すことができなかったオーディオ音をほぼ消すことができるようにし、音声認識率を向上させることができるようにすると共に、音声認識処理速度を向上することができる。

本発明はオーディオキャンセレーションシステムにおける従来取り残していたオーディオ音を除去し、処理速度を向上するという課題を、音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、前記誤差信号の音声強度を計算する音声強度計算手段と、前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間を求める発話有無判定手段と、前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えることにより実現した。

本発明の実施の形態を図面に沿って説明する。図１は本発明の音声認識用オーディオキャンセル装置の実施例を示す。この実施例においては車内用オーディオ装置からのオーディオ出力ｘ（ｎ）が出力されており、この出力は車室内に配置したスピーカー１に出力すると共に、同じ信号を適応フィルタ５に対しても出力している。マイク３にはこのスピーカー１からの音声の他、音声認識処理を行うときには利用者２の発話も入力し、マイク３への入力音声信号はｈ（ｎ）となる。

適応フィルタ５は前記図４の基本原理に基づき作動するものであり、前記図５に示す音声認識装置用オーディオキャンセルシステムにおける適応フィルタ２２と同様に作動する。オーディオ信号に対応する適応フィルタ５の出力ｙ（ｎ）は減算器４で、前記マイクに入力した音声信号ｈ（ｎ）による被処理信号ｄ（ｎ）を適宜遅延処理した信号に対して減算を行い、それによりｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）を演算し、誤差信号ｅ（ｎ）を得ている。減算器４において得られた誤差信号ｅ（ｎ）は前記従来のものと同様にＬＭＳアルゴリズム６に入力し、図１に示すＬＭＳアルゴリズム６ではこの誤差信号の他に、オーディオ音の参照信号ｘ（ｎ）により、更には後述するステップサイズパラメータ（μ）調整部７の信号によっても調整できるようにしている。

図１における音声認識装置においては減算器４からの誤差信号ｅ（ｎ）をバンドパスフィルター８で音声帯域を抽出する処理を行った後の音声データを、音声強度計算部９でその音声データの音声強度を計算し、その値を発話有無判定部１０に入力している。発話有無判定部１０では、この音声強度計算部９の信号の他、音声入力スイッチ１１からの特に音声入力スイッチを押下した信号を入力し、またタイマー１２の信号、更には後述するような個人発話情報設定部１８の個人特有のデータを入力している。

発話有無判定部１０においてはこれらのデータや信号によって、後述するように発話の有無を適切に判定し、真の発話区間においてステップサイズパラメータを小さな値であるμ２にする処理を行う。また、この発話有無判定部１０において種々のデータや信号により得られた発話／非発話信号は、個人発話情報設定部１８での個人特有の情報を設定するに際して発話情報の学習を行う発話情報学習部１９にも用いる。更にこの発話／非発話信号は、無音信号生成ブロック１３を構成する切換スイッチ１４作動用の出力制御部１５にも出力し、出力制御部１５では発話信号によりｓ１側に接続して、音声認識エンジン２１に利用者の発話音声を主とする誤差信号ｅ（ｎ）を出力する。また、非発話信号によりｓ２側に接続して音声認識エンジンに音声信号を出力しないように零データを出力する。

前記個人発話情報設定部１８及び発話情報学習部１９を含む個人設定反映部１６には、個人発話設定情報を記憶する個人発話設定情報記憶部１７を備え、個人発話情報設定部１８によってこの情報を適宜更新しつつ利用する。個人設定反映部１６にはその他個人特定部２０を備え、例えば電話保有者、車両情報、予め登録した利用者の選択、指紋声紋等の生体情報等々により利用者個人を特定し、それによっても個人発話情報を適切に設定できるようにしている。

上記のようなブロック図からなる本発明による音声認識装置においては、例えば図２に示す作動フローにより順に作動させることができる。以下に本発明の作動を、本発明の主要機能であるステップサイズパラメータの設定を主として説明する図２の作動フローに従い、図１の機能ブロックを参照しつつ、また図３の処理例等に基づいて説明する。図２にの例においては、オーディオサウンドキャンセレーション（ＡＳＣ）システムの出力として図１の誤差信号ｅ（ｎ）に相当する、現在の誤差信号であるｅ（ｉ）が出力された後の処理として、最初に図１のバンドパスフィルター８で音声帯域を抽出するためのフィルター処理を行う（ステップＳ１）。この音声帯域の抽出に際しては、予め得られている現在の利用者が男性であるか女性であるかの個別情報等により帯域の切り替えを行い、以降の適切な処理を行うようにする。

次いで、そのフィルター処理を行った信号に対して、図１の音声強度計算部９において音声強度計算を行い、現在の出力信号ｐ（ｉ）を得る（ステップＳ２）。このときの信号は例えば図３（ａ）のＡＳＣ処理によって得られた誤差信号ｅ（ｎ）に基づいて、図３（ｂ）に示すような音声強度情報の信号が得られる。この信号は以降に述べるステップＳ８及びステップＳ９において用いられる。次いで、音声入力スイッチを押下したか否かを判別する（ステップＳ３）。この処理は図１における発話有無判定部１０において、音声入力スイッチ１１の信号を入力して判別する。従来はこの音声入力スイッチが押下されたときには、例えば図３（ｃ）に示すように、その時点で直ちにステップサイズパラメータμを低くしていたものであるが、本発明においては更に以降の処理を行い、できる限り発話時期に合わせて適切なμの値に設定する処理を行う。

ステップＳ３において音声入力スイッチが押下されたと判別したときには、この音声認識処理において用いられる各種変数の初期化を行う（ステップＳ４）。このときの状態は、音声入力スイッチがＯＮとなり、発話を行っていることを示す発話フラグは未だ０となっている。その後、前記ステップＳ３において音声入力スイッチは既に押下されていると判別したときも含めてステップＳ５に進み、音声入力スイッチがＯＮの状態の元で、始端カウント開始時刻になったか否かを判別する。即ち、本発明においては、音声入力スイッチが押下されてから、各人の個性によって実際の発話開始時刻が異なるため、発話開始時刻に近くなったときから次第にステップサイズパラメータ（μ）を減少させるフェードイン作動をおこない、実際の発話時には最もμを小さく保ち、且つ急激な変化を避けるため、ここでフェードイン作動を行うための始端カウントの開始時刻になったか否かを判別している。

この処理は、図３（ｄ）において、音声入力スイッチが押下された時点ｔ１から時間のカウントを行い、図中の時間Ｔ２、即ち時刻ｔ２になったか否かを判別することにより行われる。ここで、音声入力スイッチがオンで且つ始端カウント開始時刻となったと判別したときには、発話フラグを１とし、現在がフェードイン中だと判別する（ステップＳ６）。このときの始端カウント値は開始時刻の学習に用いることができる。ステップＳ５において始端カウント開始時刻ではなく、既に開始時刻を過ぎていると判別したときには、始端カウントアップを継続する（ステップＳ７）。

ステップＳ６及びステップＳ７の作動の後、発話フラグが１で且つ現在の発話音量ｐ（ｉ）が発話音量の閾値以下であるか否かを判別する（ステップＳ８）。ここで現在の発話音量が閾値以下ではないと判別したときには、例えば図３（ｂ）において発話音量としての音声強度情報が閾値ｐ１より大きいと判別したときであり、したがってステップＳ１４として示すように現在発話中となっている。ここで発話音量の閾値は、音声認識エンジンの処理結果を活用して学習させることができる。

また、ステップＳ８において現在の発話音量が閾値以下であると判別したときには、続いて前回の発話音量ｐ（ｉ−１）が閾値以上であったか否かを判別する（ステップＳ９）。即ち、前記ステップＳ５で音声入力スイッチがオンで且つ始端カウント開始時刻と判別したことにより、ステップＳ６でμのフェードイン処理がなされ、且つ発話フラグを１にする処理を行った後において、前回の発話音量値であるｐ（ｉ−１）は発話音量の閾値以上であったか否かを判別する。即ち、発話音量が閾値を連続して下回り続けているかをチェックする。ここで、発話音量が所定値以上であるか否かは図１の発話有無判定部１０において、音声強度計算部９により得られた図３（ｂ）のようなデータに基づき、今回の値ｐ（ｉ）及び前回の値ｐ（ｉ−１）が、所定の閾値ｐ１以上であるか否かを検出することにより行われる。

前記ステップＳ８で今回の発話音量が閾値以下であり、且つステップＳ９で前回の発話音量が閾値以上であると判別したとき、即ち、図３（ｂ）の時刻ｔ５において、終端カウントを０にセットする（ステップＳ１０）。また、ステップＳ９で前回の発話音量が閾値以上ではないと判別したときには、終端のカウントを継続する（ステップＳ１１）。

ステップＳ１０及びステップＳ１１の作動の後は、終端カウントは所定間隔長以上か否かを判別する（ステップＳ１２）。この所定間隔長は、図３（ｄ）においてはＴ６の時間であり、例えば１秒程度に設定することができる。この期間の設定は、入力音声が１単語で終わらないことを考慮して設定されている。また、この時の終端カウント値は間隔長の学習に用いることができる。

ステップＳ１２において終端カウントが所定間隔長以上ではない、と判別したときには、未だ発話中であるとして（ステップＳ１４）、次のステップＳ１５に進む。また、ステップＳ１２において終端カウントが所定間隔長以上になったと判別したときには、ステップＳ１３において現在フェードアウト状態だと判別する。この状態は図３（ｄ）において時刻ｔ６以降でＴ７の時間に行う。

図２の例においては上記のような作動を行った後、ステップＳ１５以降ステップサイズパラメータμの各種処理を行う。即ち、ステップＳ１５において現在発話中であるか否かの判別を行い、現在発話中であると判別したときにはμを最小の値とする。これは図３（ｄ）においてＴ５の期間、或いはＴ４及びＴ６を含んだ期間となる。また、ステップＳ１５において現在発話中ではないと判別したときには、ステップＳ１７において現在はフェードアウト中であるか否かを判別する。ここでフェードアウト中の期間に相当する時点であると判別したときには、ステップＳ１８においてμのフェードアウト処理を行う。この処理は図３（ｄ）においてＴ７の期間となる。このときの処理は決められた区間の線形補間により徐々にフェードアウト処理を行う。

ステップＳ１５で現在発話中ではないと判別し、ステップＳ１７で現在フェードアウト中ではないと判別したときには、ステップＳ１９において、現在フェードイン中の期間に相当する時点であるか否かを判別する。ここで現在はフェードイン中の期間に相当する時点であると判別したときには、μのフェードイン処理を行う（ステップＳ２０）。この処理は図３（ｄ）においてＴ３の期間となる。また、このときの処理は前記フェードアウト処理と同様に、決められた区間の線形補間によって徐々にフェードイン処理を行う。また、ステップＳ１９において、現在フェードイン中ではないと判別したとき、即ちステップＳ１５で現在発話中ではなく、ステップＳ１７で現在フェードアウト中ではないと判別し、ステップＳ１９で現在フェードイン中でもないと判別したときには、音声認識処理を行わないことにより、μの値を所定の最大値とする（ステップＳ２１）。

上記のような各種処理を行った後、ステップＳ２２において音声認識エンジンへの出力を現在の誤差信号ｅ（ｉ）に発話フラグを乗算したもの、即ち発話フラグが０の時は出力を０とし、発話フラグが存在するときには前記のような処理を行った後の誤差信号を音声認識エンジンに出力する。この処理は図１における無信号生成部１３において行う。上記処理の後、フィルタ計数の更新処理を行い、以降同様の作動を繰り返す。

上記のような処理において、特に図１の個人設定反映部１６に示すように、前記各処理における種々の設定時間や設定値の発話情報を徐々に学習させ、各個人に対応した適切な設定値とすることができる。即ち、個人設定反映部１６では、本発明で使用されるパラメータである、発話開始時間、発話間隔、発話音量は個人ごとにほぼ同じような値になるとの仮定のもとに、学習によるカスタマイズ、設定値の反映を行うことで更なる性能改善を行う。具体的には、電話保持者や車両情報、声紋などの生体情報をキーとして、あらかじめ登録された個人設定データベースからパラメータａをロードする。発話情報学習部にて実際に認識エンジンを使った際のパラメータ情報ｔを算出し、これらの情報をａ’＝ａ＋ｋ（ａ−ｔ）の更新式により更新する。ここでｋは学習結果を反映する微小な係数である。ここで、使用者が切替るとパラメータａ’をデータベースに格納し、新たにパラメータｂをロードする。

本発明の実施例の機能ブロック図である。本発明の実施例の作動フロー図である。本発明の信号処理を説明する図である。本発明で用いられる適応フィルタの作動を説明する図である。従来の音声認識装置の機能ブロック図である。従来の装置における信号処理を説明する図である。

符号の説明

１スピーカ
２利用者
３マイク
４減算器
５適応フィルタ
６ＬＭＳアルゴリズム
７ステップサイズパラメータ（μ）調整部
８バンドパスフィルタ
９音声強度計算部
１０発話有無判定部
１１音声入力スイッチ
１２タイマー
１３無音信号生成部
１４切換スイッチ
１５出力制御部
１６個人設定反映部
１７個人発話設定情報記憶部
１８個人発話情報設定部
１９発話情報学習部
２０個人特定部
２１音声認識エンジン

Claims

音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、
前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、
前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、
前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、
前記誤差信号の音声強度を計算する音声強度計算手段と、
前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点以降から予め設定した所定時間に発話の有無を判定する発話有無判定手段と、」
前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えたことを特徴とする音声認識装置。
前記ステップサイズパラメータ調整手段は、利用者が音声入力スイッチを押下した後の予め設定した所定期間後にステップサイズパラメータを徐々に減少させることを特徴とする請求項１記載の音声認識装置。
前記音声強度閾値は、音声認識処理結果により学習して変更することを特徴とする請求項１記載の音声認識装置。
前記音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間は、音声認識処理結果により学習して変更することを特徴とする請求項１記載の音声認識装置。
前記音声入力スイッチを押下した後の所定期間は、音声認識処理結果により学習して変更することを特徴とする請求項２記載の音声認識装置。
前記発話有無判定手段は、利用者毎に予め設定する個人発話情報設定手段の個人情報により判定基準を変更することを特徴とする請求項１記載の音声認識装置。
前記発話有無判定手段において発話が無いと判別したときには、音声認識エンジンに零データを出力する出力制御手段を備えたことを特徴とする請求項１記載の音声認識エンジン。