JP5115944B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5115944B2
JP5115944B2 JP2006117300A JP2006117300A JP5115944B2 JP 5115944 B2 JP5115944 B2 JP 5115944B2 JP 2006117300 A JP2006117300 A JP 2006117300A JP 2006117300 A JP2006117300 A JP 2006117300A JP 5115944 B2 JP5115944 B2 JP 5115944B2
Authority
JP
Japan
Prior art keywords
speech
voice
speech recognition
signal
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006117300A
Other languages
English (en)
Other versions
JP2007292814A (ja
Inventor
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2006117300A priority Critical patent/JP5115944B2/ja
Publication of JP2007292814A publication Critical patent/JP2007292814A/ja
Application granted granted Critical
Publication of JP5115944B2 publication Critical patent/JP5115944B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声認識装置において、マイクから入力されるオーディオ音を消去することにより音声認識率を高める音声認識装置に関する。
近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。
近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばナビゲーション装置の近隣施設検索を音声で指示し、ナビゲーション装置では検索結果を画面に表示し、また音声でこれに応える、というシステムが実用化されている。
しかしながら、音声認識装置を上記のような車載機器の制御を行うために、車両に搭載すると、車内にはエンジン音、タイヤの走行音、車の風切り音、更にはオーディオ音や周囲の人の話し声等が混在し、このような騒音の中でマイクに向かって話した言葉に基づいて、操作指示の内容を認識することはきわめて困難である。したがって、広く研究開発が行われている音声認識の技術分野において、車載機器の操作指示のための音声認識は、最も困難な分野の一つということができる。このように騒音の多い環境下で音声認識を行うためには、マイクから入力される音声に混って入ってくる騒音成分を取り除いて、できる限り使用者の音声のみを入力することが必要となる。
そのための技術として、騒音や音声を適応フィルタを通し、各種処理を行い、所望の特性の音声を得る研究が行われている。適応フィルタによる制御方式自体は広く知られている技術であり、例えば図4に示すように、第2信号入力x(n)をタップ係数w(n)が可変のFIRフィルタ(有限インパルス応答フィルタ)22を通し、出力y(n)を得る。この出力y(n)と目標信号としての第1信号入力d(n)を減算器23に入れ、その誤差e(n)を得る。この誤差e(n)によって変化する適応アルゴリズム(例えばLMS)24により、FIRフィルタ22のタップ係数w(n)を制御し、誤差e(n)のパワーをできる限り0に近づける。この適応フィルタで用いられる適応アルゴリズムとしては種々のものが提案されており、例えば学習同定法、LMS法、RMS法、射影法等が知られている。このような適応フィルタを用いることにより、フィルタ係数は、任意の初期状態から逐次書き換えられ、徐々に誤差を最小にするタップ係数w0に近づけていくことができる。
上記適応フィルタにおいて例えばLMSアルゴリズムを用いてタップ係数をリアルタイムに更新するものにおいては、
wj(n+1)=wj(n)+2μ(n)・e(n)・xj(n)
j=0,1・・・,N
e(n)=d(n)−y(n)
の更新式を用いている。
ここでμはステップサイズパラメータと呼ばれ、適応フィルタのタップ係数の更新の度合いを制御するパラメータであり、これが大きいとタップ係数の修正量が多くなるため収束が速くなる。しかしながら、修正量が大きい分だけ、係数更新の妨害となる成分が存在する場合にはその影響を強く受けて、残留誤差量が多くなる。一方、反対にステップサイズパラメータが小さい場合には、収束が遅くなるが、妨害信号成分の影響が少なく残留誤差量は小さくなる。
一方、例えば車室内で音声認識装置を用いるに際して、車室内で最も音声認識を妨害する大きな音としては、オーディオ装置からの音が存在し、したがって、音声認識時にはこのオーディオ装置の音を消すことが好ましい。しかしながら、音声で指示を行うたびにオーディオ装置を消す操作は面倒であり、且つ、例えばオーディオの使用中にオーディオ装置に対して音量の変更等の操作指示を行うときには、そのたび毎にオーディオ装置の音を消すことは適切ではない。その対策として、音声認識装置において、マイクから入るオーディオ音をキャンセルするために、スピーカから出力されるオーディオ信号を直接入力して、このオーディオ信号を前記適応フィルタに入力し、適応フィルタから出力されたオーディオの調整信号と、マイクから音声信号と共に入力されたオーディオ信号とを減算器に入力し、その誤差が最小になるように、あるいは所定の状態になるように適応フィルタを調整し、それにより減算器からの出力信号中にオーディオ信号が残留しないようにすることが考えられている。
このようなオーディオキャンセルシステムの基本的な構成は、図5に示すように、前記図4の適応フィルタの構成を備え、特にこのシステムにおいては、LMSアルゴリズム24でタップ係数w(n)が制御されるFIRフィルタ22への入力信号である第2入力として、車室内のスピーカ26に出力するオーディオ出力部が参照信号発生部27として接続しており、また、減算器23への第2入力としては、車室内に設けた音声認識装置用のマイク28からの信号を対応させ、このマイク28からの信号は遅延回路29を介して減算器23に出力するようにしている。この時マイク28からは、利用者30からの認識すべき音声CsXsと、音声認識装置作動中はキャンセルされるべき騒音となるオーディオ音CnXnが入力される。図5中において二点鎖線で示すように、減算器23における誤差信号e(n)を図4と同様にLMSアルゴリズム24に入力し、この信号をそのまま音声認識エンジン36に出力するシステムが、図4の適応フィルタをそのまま用いた構成となる。ここで
y(n)=w(n)・x(n) ・・(1)
e(n)=d(n)−y(n) ・・(2)
w(n+1)=w(n)+2μ(n)・e(n)・x(n)
・・(3)
w(n)=[w(0,n) w(1,n) ・・・ w(N−1,n)] ・・(4)
x(n)=[x(n) x(n−1) ・・・ x(n−N+1)] ・・(5)

の各式が成り立ち、特に適応更新式(3)により更新を行う。
このようなシステムにおいて、利用者30が車室内でスピーカ26からのオーディオを聴いている状態で、音声認識装置を利用するためマイク28に音声を発するときには、マイク28には車室内において特に大きな音であるオーディオからの音も入力される。マイク28から入力されたこれら音声等の信号は、遅延回路29を介して減算器23のプラス側にd(n)として入力される。一方、スピーカ26にオーディオ信号を出力しているオーディオ出力部の信号を参照信号x(n)としてFIRフィルタ22に入力し、FIRフィルタ22においてはLMSアルゴリズム24によりタップ係数w(n)が制御され、出力信号y(n)を得る。
この出力信号y(n)を減算器のマイナス側に入力し、両者の減算値、即ち両者の誤差である、e(n)=d(n)−y(n)を得る。この誤差e(n)は理想的には車室内のスピーカからマイクに入力されたオーディオ音が、適応フィルタで処理されたオーディオ信号によりキャンセルされたものとなる。したがって、これを音声認識エンジン36に入力すると、車室内のオーディ音がキャンセルされた、ほぼ利用者の音声のみの信号となる。このとき両者に誤差が生じている際には、この誤差e(n)をフィードバックしてLMSアルゴリズム24に入れ、FIRフィルタ22のタップ係数w(n)を調整して、前記誤差e(n)のパワーを最小にするように制御する。
上記のように、車室内においてオーディオ装置が作動しスピーカから音が出ている状態の中で、音声認識装置により各種機器の作動を行わせるため、マイクから音声認識装置に音声を入力するときに混入するオーディオ音キャンセルするに際して、適応フィルタを用いたオーディオサウンドキャンセレーション(ASC)システムの開発が行われている。このシステムでは各スピーカーからマイク位置までの伝達関数を推定し、マイク位置でのオーディオ音を模擬生成することにより、音楽再生下での音声認識処理において、マイク入力信号からこのオーディオ信号のみを減算することで、発話音声のみを残すことができ、その結果、音楽再生下での音声認識を可能とすることができる。
このシステムにおける伝達関数の推定には、オーディオ信号をリファレンスとしたノーマライズド(Normalized)LMSアルゴリズムを用いている前記のような現行システムにおける出力結果例を図6に示す。ここで、ステップサイズパラメータμ(n)は、係数更新の程度を調節するものであるが、これが大きいと追従速度が向上する一方、走行ノイズや会話音声、発話音声等の外乱の影響を受けやすく、エコーがかかった波形が出力され、その結果音声認識が失敗してしまう。このように追従性と外乱耐性はトレードオフの関係にある。
そこで、本件出願人は特開2001−195085号公報において、図5に示すようなステップサイズパラメータ変更部31を設けることを提案し開示している。即ち、通常μの値を安定条件を満たす大きめの値μ1で適応動作させており、音声認識作動を開始するために利用者が押下する音声入力スイッチ35の押下情報を入力し、音声認識処理が終わるまで、もしくは予め設定された一定時間が経過するまでの間、μの値をμ1より小さいμ2に切り換える。このようにすることにより、音声認識エンジン36にデータを入力させる区間のみエコーがかからない発話音声のみを抽出して、適切な音声認識をすることができるようになる。なお、前記ステップサイズパラメータμの値を音声入力スイッチ35の押下に対応してμ2に切り換えた後、音声入力スイッチの押下を待たず、予め設定した時間後、更には音声認識応答が行われたときに元のμ1の値に戻すことも考えられている。
特開2001−195085号公報
上記のような処理が行われた音声認識処理の結果を図6に示す。この例からわかるように、図6(c)の音声入力スイッチ押下から前記のようなオーディオ音の除去処理を行うためにステップサイズパラメータをμ1からμ2に減少させ、その後予め設定した所定の時間後、或いは音声認識応答が行われたときに元のμ1に復帰するように設定している際に、同図(b)に示すように、利用者は音声入力スイッチ押下から各人特有の時間の後に発話を開始することとなる。その後発話が行われ、この音声認識装置においては例えば単語が一つ入力される場合と、比較的長い文章が入力される場合とが存在するので、発話時のそれぞれの場合によって入力される発話信号が大きく異なることに対応するため、利用者の発話に関わらず所定時間待つこととなる。
図6(a)のようなマイクからの音声信号が存在するとき、前記のようなオーディオ音の除去処理を行うことにより、同図(b)ような処理済み信号を得ることができ、この処理済み信号に基づいて音声認識を行うと、このようなオーディオ音の除去処理を行わないものに比べてはるかに音声認識率が向上するものであるが、それでも未だ十分ではなく、実際には音声認識に失敗することも多い。
その原因を検討すると、主たる要因として、利用者による音声入力スイッチ押下から発話までの時間、及び実際の発話終了後のしばらくの時間において、図6(b)に示すようなオーディオ音の消し残り成分が残ってしまい、音声認識エンジンの音声区間検出およびパターン照合処理に悪影響を及ぼしているためであることがわかった。
また、音声認識に成功した場合でも、応答時間は音楽再生を行っていない通常使用時に比べて長くなっており、前記オーディオキャンセレーション(ASC)システムの使い勝手を阻害していた。この阻害の程度は短い単語ほど差は顕著であり、2〜3秒程度遅くなることも多い。その対策として、音声認識エンジン内部の処理を向上させる手法も存在するが、音声認識エンジン内部はこれを設計し製造している企業は公表しておらず、この音声認識エンジンを用いて例えばナビゲーション装置に適用しようとするものにとっては、この部分はブラックボックスとなっているため、いじることができず、それ以外の手法で対処するしかない。
したがって本発明は、利用者の発話音声のほかにオーディオ音が入力される環境下で音声認識を確実に行うため、オーディオ信号をリファレンス信号としたLMSアルゴリズムを用いたオーディオサウンドキャンセレーションシステムにおいて、従来のシステムで未だ消すことができなかったオーディオ音をほぼ消すことができるようにし、音声認識率を向上させることができるようにすると共に、音声認識処理速度を向上することができるようにした音声認識装置を提供することを主たる目的とする。
本発明に係る音声認識エンジンは、上記課題を解決するため、音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、前記誤差信号の音声強度を計算する音声強度計算手段と、前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点以降から予め設定した所定時間に発話の有無を判定する発話有無判定手段と、前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えたことを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記ステップサイズパラメータ調整手段で、利用者が音声入力スイッチを押下した後の予め設定した所定期間後にステップサイズパラメータを徐々に減少させることを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声強度閾値は、音声認識処理結果により学習して変更することを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間は、音声認識処理結果により学習して変更することを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記音声入力スイッチを押下した後の所定期間は、音声認識処理結果により学習して変更することを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記発話有無判定手段は、利用者毎に予め設定する個人発話情報設定手段の個人情報により判定基準を変更することを特徴とする。
また、本発明に係る他の音声認識装置は、前記音声認識装置において、前記発話有無判定手段において発話が無いと判別したときには、音声認識エンジンに零データを出力する出力制御手段を備えたことを特徴とする。
本発明は、上記のように構成したので、利用者の発話音声のほかにオーディオ音が入力される環境下で音声認識を確実に行うため、オーディオ音を出力するオーディオ信号をリファレンス信号として、LMSアルゴリズムを用いたオーディオサウンドキャンセレーションシステムでオーディオ音を消去する際、従来のシステムで未だ消すことができなかったオーディオ音をほぼ消すことができるようにし、音声認識率を向上させることができるようにすると共に、音声認識処理速度を向上することができる。
本発明はオーディオキャンセレーションシステムにおける従来取り残していたオーディオ音を除去し、処理速度を向上するという課題を、音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、前記誤差信号の音声強度を計算する音声強度計算手段と、前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間を求める発話有無判定手段と、前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えることにより実現した。
本発明の実施の形態を図面に沿って説明する。図1は本発明の音声認識用オーディオキャンセル装置の実施例を示す。この実施例においては車内用オーディオ装置からのオーディオ出力x(n)が出力されており、この出力は車室内に配置したスピーカー1に出力すると共に、同じ信号を適応フィルタ5に対しても出力している。マイク3にはこのスピーカー1からの音声の他、音声認識処理を行うときには利用者2の発話も入力し、マイク3への入力音声信号はh(n)となる。
適応フィルタ5は前記図4の基本原理に基づき作動するものであり、前記図5に示す音声認識装置用オーディオキャンセルシステムにおける適応フィルタ22と同様に作動する。オーディオ信号に対応する適応フィルタ5の出力y(n)は減算器4で、前記マイクに入力した音声信号h(n)による被処理信号d(n)を適宜遅延処理した信号に対して減算を行い、それによりe(n)=d(n)−y(n)を演算し、誤差信号e(n)を得ている。減算器4において得られた誤差信号e(n)は前記従来のものと同様にLMSアルゴリズム6に入力し、図1に示すLMSアルゴリズム6ではこの誤差信号の他に、オーディオ音の参照信号x(n)により、更には後述するステップサイズパラメータ(μ)調整部7の信号によっても調整できるようにしている。
図1における音声認識装置においては減算器4からの誤差信号e(n)をバンドパスフィルター8で音声帯域を抽出する処理を行った後の音声データを、音声強度計算部9でその音声データの音声強度を計算し、その値を発話有無判定部10に入力している。発話有無判定部10では、この音声強度計算部9の信号の他、音声入力スイッチ11からの特に音声入力スイッチを押下した信号を入力し、またタイマー12の信号、更には後述するような個人発話情報設定部18の個人特有のデータを入力している。
発話有無判定部10においてはこれらのデータや信号によって、後述するように発話の有無を適切に判定し、真の発話区間においてステップサイズパラメータを小さな値であるμ2にする処理を行う。また、この発話有無判定部10において種々のデータや信号により得られた発話/非発話信号は、個人発話情報設定部18での個人特有の情報を設定するに際して発話情報の学習を行う発話情報学習部19にも用いる。更にこの発話/非発話信号は、無音信号生成ブロック13を構成する切換スイッチ14作動用の出力制御部15にも出力し、出力制御部15では発話信号によりs1側に接続して、音声認識エンジン21に利用者の発話音声を主とする誤差信号e(n)を出力する。また、非発話信号によりs2側に接続して音声認識エンジンに音声信号を出力しないように零データを出力する。
前記個人発話情報設定部18及び発話情報学習部19を含む個人設定反映部16には、個人発話設定情報を記憶する個人発話設定情報記憶部17を備え、個人発話情報設定部18によってこの情報を適宜更新しつつ利用する。個人設定反映部16にはその他個人特定部20を備え、例えば電話保有者、車両情報、予め登録した利用者の選択、指紋声紋等の生体情報等々により利用者個人を特定し、それによっても個人発話情報を適切に設定できるようにしている。
上記のようなブロック図からなる本発明による音声認識装置においては、例えば図2に示す作動フローにより順に作動させることができる。以下に本発明の作動を、本発明の主要機能であるステップサイズパラメータの設定を主として説明する図2の作動フローに従い、図1の機能ブロックを参照しつつ、また図3の処理例等に基づいて説明する。図2にの例においては、オーディオサウンドキャンセレーション(ASC)システムの出力として図1の誤差信号e(n)に相当する、現在の誤差信号であるe(i)が出力された後の処理として、最初に図1のバンドパスフィルター8で音声帯域を抽出するためのフィルター処理を行う(ステップS1)。この音声帯域の抽出に際しては、予め得られている現在の利用者が男性であるか女性であるかの個別情報等により帯域の切り替えを行い、以降の適切な処理を行うようにする。
次いで、そのフィルター処理を行った信号に対して、図1の音声強度計算部9において音声強度計算を行い、現在の出力信号p(i)を得る(ステップS2)。このときの信号は例えば図3(a)のASC処理によって得られた誤差信号e(n)に基づいて、図3(b)に示すような音声強度情報の信号が得られる。この信号は以降に述べるステップS8及びステップS9において用いられる。次いで、音声入力スイッチを押下したか否かを判別する(ステップS3)。この処理は図1における発話有無判定部10において、音声入力スイッチ11の信号を入力して判別する。従来はこの音声入力スイッチが押下されたときには、例えば図3(c)に示すように、その時点で直ちにステップサイズパラメータμを低くしていたものであるが、本発明においては更に以降の処理を行い、できる限り発話時期に合わせて適切なμの値に設定する処理を行う。
ステップS3において音声入力スイッチが押下されたと判別したときには、この音声認識処理において用いられる各種変数の初期化を行う(ステップS4)。このときの状態は、音声入力スイッチがONとなり、発話を行っていることを示す発話フラグは未だ0となっている。その後、前記ステップS3において音声入力スイッチは既に押下されていると判別したときも含めてステップS5に進み、音声入力スイッチがONの状態の元で、始端カウント開始時刻になったか否かを判別する。即ち、本発明においては、音声入力スイッチが押下されてから、各人の個性によって実際の発話開始時刻が異なるため、発話開始時刻に近くなったときから次第にステップサイズパラメータ(μ)を減少させるフェードイン作動をおこない、実際の発話時には最もμを小さく保ち、且つ急激な変化を避けるため、ここでフェードイン作動を行うための始端カウントの開始時刻になったか否かを判別している。
この処理は、図3(d)において、音声入力スイッチが押下された時点t1から時間のカウントを行い、図中の時間T2、即ち時刻t2になったか否かを判別することにより行われる。ここで、音声入力スイッチがオンで且つ始端カウント開始時刻となったと判別したときには、発話フラグを1とし、現在がフェードイン中だと判別する(ステップS6)。このときの始端カウント値は開始時刻の学習に用いることができる。ステップS5において始端カウント開始時刻ではなく、既に開始時刻を過ぎていると判別したときには、始端カウントアップを継続する(ステップS7)。
ステップS6及びステップS7の作動の後、発話フラグが1で且つ現在の発話音量p(i)が発話音量の閾値以下であるか否かを判別する(ステップS8)。ここで現在の発話音量が閾値以下ではないと判別したときには、例えば図3(b)において発話音量としての音声強度情報が閾値p1より大きいと判別したときであり、したがってステップS14として示すように現在発話中となっている。ここで発話音量の閾値は、音声認識エンジンの処理結果を活用して学習させることができる。
また、ステップS8において現在の発話音量が閾値以下であると判別したときには、続いて前回の発話音量p(i−1)が閾値以上であったか否かを判別する(ステップS9)。即ち、前記ステップS5で音声入力スイッチがオンで且つ始端カウント開始時刻と判別したことにより、ステップS6でμのフェードイン処理がなされ、且つ発話フラグを1にする処理を行った後において、前回の発話音量値であるp(i−1)は発話音量の閾値以上であったか否かを判別する。即ち、発話音量が閾値を連続して下回り続けているかをチェックする。ここで、発話音量が所定値以上であるか否かは図1の発話有無判定部10において、音声強度計算部9により得られた図3(b)のようなデータに基づき、今回の値p(i)及び前回の値p(i−1)が、所定の閾値p1以上であるか否かを検出することにより行われる。
前記ステップS8で今回の発話音量が閾値以下であり、且つステップS9で前回の発話音量が閾値以上であると判別したとき、即ち、図3(b)の時刻t5において、終端カウントを0にセットする(ステップS10)。また、ステップS9で前回の発話音量が閾値以上ではないと判別したときには、終端のカウントを継続する(ステップS11)。
ステップS10及びステップS11の作動の後は、終端カウントは所定間隔長以上か否かを判別する(ステップS12)。この所定間隔長は、図3(d)においてはT6の時間であり、例えば1秒程度に設定することができる。この期間の設定は、入力音声が1単語で終わらないことを考慮して設定されている。また、この時の終端カウント値は間隔長の学習に用いることができる。
ステップS12において終端カウントが所定間隔長以上ではない、と判別したときには、未だ発話中であるとして(ステップS14)、次のステップS15に進む。また、ステップS12において終端カウントが所定間隔長以上になったと判別したときには、ステップS13において現在フェードアウト状態だと判別する。この状態は図3(d)において時刻t6以降でT7の時間に行う。
図2の例においては上記のような作動を行った後、ステップS15以降ステップサイズパラメータμの各種処理を行う。即ち、ステップS15において現在発話中であるか否かの判別を行い、現在発話中であると判別したときにはμを最小の値とする。これは図3(d)においてT5の期間、或いはT4及びT6を含んだ期間となる。また、ステップS15において現在発話中ではないと判別したときには、ステップS17において現在はフェードアウト中であるか否かを判別する。ここでフェードアウト中の期間に相当する時点であると判別したときには、ステップS18においてμのフェードアウト処理を行う。この処理は図3(d)においてT7の期間となる。このときの処理は決められた区間の線形補間により徐々にフェードアウト処理を行う。
ステップS15で現在発話中ではないと判別し、ステップS17で現在フェードアウト中ではないと判別したときには、ステップS19において、現在フェードイン中の期間に相当する時点であるか否かを判別する。ここで現在はフェードイン中の期間に相当する時点であると判別したときには、μのフェードイン処理を行う(ステップS20)。この処理は図3(d)においてT3の期間となる。また、このときの処理は前記フェードアウト処理と同様に、決められた区間の線形補間によって徐々にフェードイン処理を行う。また、ステップS19において、現在フェードイン中ではないと判別したとき、即ちステップS15で現在発話中ではなく、ステップS17で現在フェードアウト中ではないと判別し、ステップS19で現在フェードイン中でもないと判別したときには、音声認識処理を行わないことにより、μの値を所定の最大値とする(ステップS21)。
上記のような各種処理を行った後、ステップS22において音声認識エンジンへの出力を現在の誤差信号e(i)に発話フラグを乗算したもの、即ち発話フラグが0の時は出力を0とし、発話フラグが存在するときには前記のような処理を行った後の誤差信号を音声認識エンジンに出力する。この処理は図1における無信号生成部13において行う。上記処理の後、フィルタ計数の更新処理を行い、以降同様の作動を繰り返す。
上記のような処理において、特に図1の個人設定反映部16に示すように、前記各処理における種々の設定時間や設定値の発話情報を徐々に学習させ、各個人に対応した適切な設定値とすることができる。即ち、個人設定反映部16では、本発明で使用されるパラメータである、発話開始時間、発話間隔、発話音量は個人ごとにほぼ同じような値になるとの仮定のもとに、学習によるカスタマイズ、設定値の反映を行うことで更なる性能改善を行う。具体的には、電話保持者や車両情報、声紋などの生体情報をキーとして、あらかじめ登録された個人設定データベースからパラメータaをロードする。発話情報学習部にて実際に認識エンジンを使った際のパラメータ情報tを算出し、これらの情報をa’=a+k(a−t)の更新式により更新する。ここでkは学習結果を反映する微小な係数である。ここで、使用者が切替るとパラメータa’をデータベースに格納し、新たにパラメータbをロードする。
本発明の実施例の機能ブロック図である。 本発明の実施例の作動フロー図である。 本発明の信号処理を説明する図である。 本発明で用いられる適応フィルタの作動を説明する図である。 従来の音声認識装置の機能ブロック図である。 従来の装置における信号処理を説明する図である。
符号の説明
1 スピーカ
2 利用者
3 マイク
4 減算器
5 適応フィルタ
6 LMSアルゴリズム
7 ステップサイズパラメータ(μ)調整部
8 バンドパスフィルタ
9 音声強度計算部
10 発話有無判定部
11 音声入力スイッチ
12 タイマー
13 無音信号生成部
14 切換スイッチ
15 出力制御部
16 個人設定反映部
17 個人発話設定情報記憶部
18 個人発話情報設定部
19 発話情報学習部
20 個人特定部
21 音声認識エンジン

Claims (7)

  1. 音声認識装置に入力する利用者の音声とオーディオ音とを集音するマイクと、
    前記オーディオ音を出力するオーディオ信号を入力し、ステップサイズパラメータを用いた適応アルゴリズムによりタップ係数を変化させる適応フィルタと、
    前記適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、
    前記減算器から出力する両信号の誤差信号を前記適応アルゴリズムに入力すると共に、音声認識エンジンに出力するようにした音声認識装置において、
    前記誤差信号の音声強度を計算する音声強度計算手段と、
    前記音声強度計算手段で計算した音声強度が予め設定した閾値以上から以下に切り替わった時点以降から予め設定した所定時間に発話の有無を判定する発話有無判定手段と、」
    前記発話有無判定手段で発話が無いと判定したとき、予め減少させていたステップサイズパラメータを徐々に増加するステップサイズパラメータ調整手段とを備えたことを特徴とする音声認識装置。
  2. 前記ステップサイズパラメータ調整手段は、利用者が音声入力スイッチを押下した後の予め設定した所定期間後にステップサイズパラメータを徐々に減少させることを特徴とする請求項1記載の音声認識装置。
  3. 前記音声強度閾値は、音声認識処理結果により学習して変更することを特徴とする請求項1記載の音声認識装置。
  4. 前記音声強度が予め設定した閾値以上から以下に切り替わった時点からの予め設定した所定時間は、音声認識処理結果により学習して変更することを特徴とする請求項1記載の音声認識装置。
  5. 前記音声入力スイッチを押下した後の所定期間は、音声認識処理結果により学習して変更することを特徴とする請求項2記載の音声認識装置。
  6. 前記発話有無判定手段は、利用者毎に予め設定する個人発話情報設定手段の個人情報により判定基準を変更することを特徴とする請求項1記載の音声認識装置。
  7. 前記発話有無判定手段において発話が無いと判別したときには、音声認識エンジンに零データを出力する出力制御手段を備えたことを特徴とする請求項1記載の音声認識エンジン。
JP2006117300A 2006-04-20 2006-04-20 音声認識装置 Expired - Fee Related JP5115944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006117300A JP5115944B2 (ja) 2006-04-20 2006-04-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006117300A JP5115944B2 (ja) 2006-04-20 2006-04-20 音声認識装置

Publications (2)

Publication Number Publication Date
JP2007292814A JP2007292814A (ja) 2007-11-08
JP5115944B2 true JP5115944B2 (ja) 2013-01-09

Family

ID=38763524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006117300A Expired - Fee Related JP5115944B2 (ja) 2006-04-20 2006-04-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP5115944B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347834A (zh) 2010-02-18 2019-10-18 株式会社尼康 信息处理装置、便携式装置以及信息处理系统
JP2011170634A (ja) * 2010-02-18 2011-09-01 Nikon Corp 情報処理装置
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
JP6539940B2 (ja) 2013-12-19 2019-07-10 株式会社デンソー 音声認識装置及び音声認識プログラム
WO2017039575A1 (en) * 2015-08-28 2017-03-09 Hewlett-Packard Development Company, L.P. Remote sensor voice recognition
JP2016122467A (ja) * 2016-03-08 2016-07-07 株式会社ニコン 情報処理装置
CN115394307B (zh) * 2022-08-26 2025-09-12 上海傅里叶半导体股份有限公司 一种数字声音信号动态范围控制方法、系统、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2768703B2 (ja) * 1988-11-14 1998-06-25 株式会社東芝 マイクロホン
JPH09258744A (ja) * 1996-03-26 1997-10-03 Unisia Jecs Corp 自動車用アクティブ騒音制御装置
JP3293575B2 (ja) * 1998-12-09 2002-06-17 日本電気株式会社 雑音消去方法及びそれを用いた雑音消去装置
JP3877271B2 (ja) * 1999-11-05 2007-02-07 アルパイン株式会社 音声認識用オーディオキャンセル装置
JP2002032094A (ja) * 2000-07-14 2002-01-31 Toyota Central Res & Dev Lab Inc 音声処理装置
JP4166000B2 (ja) * 2001-03-02 2008-10-15 アルパイン株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2007292814A (ja) 2007-11-08

Similar Documents

Publication Publication Date Title
US7698133B2 (en) Noise reduction device
CN1216364C (zh) 具有声音输出装置的设备及其控制方法
EP1933303A1 (en) Speech dialog control based on signal pre-processing
JP4209247B2 (ja) 音声認識装置および方法
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
WO2016013667A1 (ja) エコーキャンセラ装置
JP5115944B2 (ja) 音声認識装置
US20220165264A1 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP3877271B2 (ja) 音声認識用オーディオキャンセル装置
JP6759058B2 (ja) 音声認識装置および音声認識方法
US10540985B2 (en) In-vehicle media vocal suppression
JP3510458B2 (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP2002091489A (ja) 音声認識装置
JP4166000B2 (ja) 音声認識装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置
JP2009031809A (ja) 音声認識装置
JP3445117B2 (ja) 音声認識のための音響分析方法
JP2010041188A (ja) 音声認識装置
JPH11327593A (ja) 音声認識システム
JP4765394B2 (ja) 音声対話装置
JP4948019B2 (ja) 適応信号処理装置およびその適応信号処理方法
JPH0695693A (ja) 音声認識装置用騒音低減回路
JPH0695694A (ja) 音声認識装置用騒音低減回路
JP3097764B2 (ja) ガイダンス音声付き音声入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121010

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5115944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees