JPH06149285A

JPH06149285A - 音声認識装置

Info

Publication number: JPH06149285A
Application number: JP4294884A
Authority: JP
Inventors: Hiroyuki Fujimoto; 博之藤本; Kazuya Sako; 和也佐古; Shoji Fujimoto; 昇治藤本
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 1992-11-04
Filing date: 1992-11-04
Publication date: 1994-05-27
Anticipated expiration: 2017-10-15
Also published as: JP3335389B2

Abstract

(57)【要約】【目的】本発明は音声を認識することにより機器の制
御を行うための音声認識装置に関し、音声認識の誤認識
を低減することを目的とする。【構成】音声の入力信号を前処理し音声を認識し、こ
の認識結果に基づき機器を制御する音声認識装置に、音
声のスペクトルパターンをそれぞれの特徴に基づき大別
し、大別された音声のスペクトルパターン毎に前処理の
最適化が図れるパラメータを格納するパラメータ設定部
１０と、音声の入力信号を周波数分析し、周波数分析さ
れたスペクトル分析が大別されたどの音声のスペクトル
パターンに属するかを判定してパラメータ設定部１０の
設定パラメータを切り換えるパラメータ切換部１１とを
設ける。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声を認識することによ
り機器の制御を行うための音声認識装置に関し、特に本
発明では音声認識の誤認識を低減することに関する。

【０００２】

【従来の技術】従来このような分野の技術として以下に
説明するものがあった。図５は従来の音声認識装置を用
いた制御システムを示す図である。本図に示すように、
音声認識装置を用いた制御システムは、車両の車室３０
０内の話者の音声を捕捉するマイクロフォン２００と、
該マイクロフォン２００からの音声の方向、音源からの
距離から話者を識別する話者方向・距離判定部２０１
と、該話者方向・距離判定部２０１に接続され話者を識
別した音声信号から雑音を消去する適応形処理さらに自
動利得制御（ＡＧＣ）を行う音声認識の前処理部２０２
と、該前処理部２０２に接続され音声を登録されたどの
単語に一致するかを認識する音声認識部２０３と、該音
声認識部２０３で認識された単語に基づき制御信号を形
成する各種制御部２０４と、該各種制御部２０４を介し
て認識された単語を音声に合成する音声合成部２０５
と、該音声合成部２０５に接続され合成された音声を再
生するスピーカ２０６と、前記各種制御部２０４により
制御されるオーディオ２０７と、エアコンデショナー２
０８と、電話２０９と、ナビゲーション２１０と、オー
トドライブ２１１等を含む。

【０００３】すなわち、マイクロフォン２００で捕捉さ
れた音声は、話者方向距離判定部２０１、前処理部２０
２を介して音声認識部２０３により認識され、その結果
を各種制御部２０４、音声合成２０５を介してスピーカ
２０６により話者に伝え、各種制御部２０４によりオー
ディオ２０７等のそれぞれが制御される。ここでマイク
ロフォン２００〜スピーカ２０６は音声認識装置を構成
する。このような制御システムにおいては、制御の信頼
性の向上の観点から音声の認識率が高いことが要求され
ている。このため音声認識部２０３の性能向上が求めら
れるが、その前段である信号処理の結果にも大きく影響
を受ける。したがって、特にマイクロフォン２００につ
いては話者方向距離判定部２０１によりマイクロフォン
相互間の遅延量の差、利得量の差の最適化を図ってい
る。さらに前処理部２０２により、雑音低減用適応型フ
ィルタ（ＡＤＦ）のタップ長、遅延量、更新係数の最適
化、自動利得制御装置（ＡＧＣ）の設定値の最適化、帯
域制限フィルタのカットオフ周波数の最適化、遮断特性
（減衰特性）の最適化を行っている。

【０００４】

【発明が解決しようとする課題】しかしながら従来の音
声認識装置の前処理部２０２では、前記各種最適化は経
験的に行われるが、話者の影響を強く受け最適化するの
が困難で、話者による認識率のばらつきが大きく安定し
て高認識率を得ることができないという問題があった。

【０００５】したがって本発明は上記問題点に鑑み異な
る話者に対しても認識率が高められる信号前処理を行う
ことができる音声認識装置を提供することを目的とす
る。

【０００６】

【課題を解決するための手段】本発明は前記問題点を解
決するために、音声の入力信号を前処理し音声を認識
し、この認識結果に基づき機器を制御する音声認識装置
に、パラメータ設定部及びパラメータ切換部を設ける。
前記パラメータ設定部は前記音声のスペクトルパターン
をそれぞれの特徴に基づき大別し、大別された音声のス
ペクトルパターン毎に前記前処理の最適化が図れるパラ
メータを格納するようにしてある。

【０００７】前記パラメータ切換部は前記音声の入力信
号を周波数分析し、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かを判定して前記パラメータ設定部の設定パラメータを
切り換えるようにしてある。さらに音声のスペクトルパ
ターンを特徴づける第１ホルマント周波数を基準にして
前記音声のスペクトルパターンを大別し、さらに入力信
号の第１ホルマント周波数により前記パラメータを切り
換えるようにしてある。

【０００８】

【作用】本発明の音声認識装置によれば、音声のスペク
トルパターンがそれぞれの特徴に基づき大別され、大別
された音声のスペクトルパターン毎に前記前処理の最適
化が図れるパラメータが格納され、前記音声の入力信号
が周波数分析され、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かが判定されて前記パラメータが切り換えられることに
より、従来ではパラメータを固定していたものを話者に
より可変にしたので、発声話者による認識率のばらつき
がなくなり、安定して高認識率を得ることができる。

【０００９】さらに音声のスペクトルパターンを特徴づ
ける第１ホルマント周波数が基準にされ前記音声のスペ
クトルパターンが大別され、さらに入力信号の第１ホル
マント周波数により前記パラメータが切り換えられるこ
とにより、容易に実現可能できる。また前記第１ホルマ
ント周波数が基準とされ前記音声のスペクトルパターン
が男女に大別され、さらに入力信号の第１ホルマント周
波数により男女のパラメータが切り換えられることによ
り、男女の第１ホルマント周波数の顕著な相違を利用し
てさらに容易に実現が可能になる。

【００１０】

【実施例】以下本発明の実施例について図面を参照して
説明する。図１は本発明の実施例に係る音声認識装置を
示す図である。なお、全図を通じて同様の構成要素につ
いては同一参照番号又は記号をもって表す。本図に示す
音声認識装置は、話者の音声を捕捉する複数のマイクロ
フォン２００と、該マイクロフォン２００に接続され音
声の方向、音源からの距離から話者を識別する話者方向
距離判定部２０１と、該話者方向距離判定部２０１に接
続され話者を識別した音声信号から雑音を消去する適応
形処理さらに自動利得制御（ＡＧＣ）を行う音声認識の
前処理部２０２と、該前処理部２０２に接続され音声を
登録されたどの単語に一致するかを認識しその結果を各
種制御部２０４（図５参照）に出力する音声認識部２０
３と、前記前処理部２０２の各種処理のパラメータを切
換設定するパラメータ設定部１０と、前記マイクロフォ
ン２００からの音声信号に基づき前記パラメータ設定部
のパラメータの切換を判定するパラメータ切換判定部１
１を具備する。

【００１１】次にパラメータ設定部１０及びパラメータ
切換判定部１１について説明する。図２は図１のパラメ
ータ設定部１０及びパラメータ切換判定部における信号
処理を説明するフローチャートである。本図に示すよう
に、ステップ１及び２は認識システム外の処理であって
予め下記パラメータ値を決定するものであり、ステップ
３以降では認識システム内の処理を行う。

【００１２】先ずステップ１においては、マイクロフォ
ン２００からの音声に基づきパラメータ切換判定部１１
により音声波形のスペクトルパターン（第１ホルマント
周波数）の違いにより音声をｎ個のパターンに大別して
設定され、このｎ個のスペクトルパターンが格納され
る。この格納技術自体は周知のものなものであるから、
説明を省略する。ここで音声をｎ個のパターンに大別す
る方法として第１ホルマント周波数により音声をパター
ン化するものを以下に説明する。先ず音声生成について
簡単に説明する。音声の音響的特性を決める物理的要因
は、音源の特性、声道の共鳴特性及び唇ないし鼻孔から
の音波の放射特性であるといわれている。図３は音声波
のスペクトルを示す図である。本図に示すように、音声
波のスペクトルでは、周波数が高くなると一定の傾斜で
音声の強さが小さくなり、声道の共鳴に対応したいくつ
かの山がありこれをホルマントという。周波数が一番低
い山を第１ホルマントと呼ぶ。この第１ホルマントが生
じる第１ホルマント周波数は個人差があり、個人により
ばらつくが生じている。この第１ホルマント周波数のば
らつきに対応して認識率のばらつきが生じていることに
本発明者は気がついた。このため、第１ホルマント周波
数に対応して前記前処理部２０２に設定すべきパラメー
タを変更することにより前処理の最適化が図れることに
なる。したがってパラメータ切換判定部１１にはスペク
トルパターンとしてｎ個の第１ホルマント周波数領域、
例えば第ホルマント周波数を１００Ｈｚ、１２５Ｈｚ、
１５０Ｈｚ、１７５Ｈｚを中心に一定幅を記憶する。

【００１３】ステップ２においては、ステップ１で第１
ホルマント周波数により大別したｎ種類の音声パターン
についてシミュレーション、エミュレーションを繰り返
し、各制御パラメータの最適を決定する。この最適値は
理論的裏付けがなく実験による経験則により決定され
る。なおシミュレーションでは本制御システムの音声認
識装置を用いず、例えば、パーソナルコンピュータに前
処理部２０２、音声認識装置を構成し、理想状態で、各
大別された第１ホルマントで最適パラーメタを求めるも
のである。エミューレションでは、ＤＳＰ（Digital Si
gnal Processor)で構成され、実機である本制御システ
ムの音声認識装置により、シミュレーションで決定され
たパラメータが実用できるかをチェックするものであ
る。

【００１４】ここでパラメータの内容は前述したよう
に、前処理部２０２における雑音低減用適応型フィルタ
（ＡＤＦ）のタップ長、遅延量、更新係数、自動利得制
御装置（ＡＧＣ）の設定値、帯域制限フィルタのカット
オフ周波数、遮断特性（減衰特性）等である。ステップ
３においては、メモリで構成されるパラメータ設定部１
０に、上記のようにして得られた各最適パラメータが第
１ホルマント周波数別に格納される。

【００１５】ステップ４においては、マイクロフォン２
００に入力した音声をパラメータ切換判定部１１により
スペクトル分析し、話者の音声パターンとパラメータ切
換判定部１１に格納されたｎ種の音声パターンを比較す
る。すなわち、スペクトル分析により得られた第１ホル
マント周波数がパラメータ切換判定部１１に格納された
第１ホルマント周波数を求め、この第１ホルマント周波
数が格納されているｎ個の第１ホルマント周波数のどの
領域に属するかを比較する。

【００１６】ステップ５においては、ステップ４での比
較からパラメータ切換判定部１１によりｎ種の音声パタ
ーンの中から話者の音声パターンと最も類似したものを
選ぶ。ステップ６においては、ステップ５で選択した音
声パターンの各制御パラメータをパラメータ設定部１０
のメモリから読み出し、このパラメータを用いて前処理
部２０２で信号の前処理を行い、この前処理された信号
により音声認識部２０３により音声認識を行う。

【００１７】したがって本実施例によれば、従来では前
処理の最適パラメータが固定されていたが、話者により
最適パラメータを変化させるので、話者に依存せず安定
して高い認識率を得ることが可能になる。図４は図１の
パラメータ設定部１０及びパラメータ切換判定部におけ
る別の信号処理を説明するフローチャートである。本図
に示すように、ステップ１１は認識システム外の信号処
理を説明し、ステップ１２以降では認識システム内の信
号処理を説明する。ステップ１１において、シミュレー
ション、エミュレーションで各制御パラメータの最適値
を男女別に決定する。このように、大別するのは音声ス
ペクトルのパターンについては、男性の場合には概ね第
１ホルマント周波数が１００Ｈｚ〜１７５Ｈｚにあり、
女性の場合には第１ホルマント周波数が２００Ｈｚ〜３
００Ｈｚにあるからである。すなわち、特に第１ホルマ
ント周波数において男女間の差異が顕著に現れている。
なお、前記制御パラメータついては、前述のように、そ
の最適値は理論的裏付けがなく経験則から決定される。

【００１８】ステップ１２において、ステップ１１で決
定した制御パラメータ、すなわち男女用、女性用の２系
列のパラメータの最適パラメータをパラメータ設定部１
０に格納する。ステップ１３において、パラメータ切換
判定部１１によりマイクロフォン２００からの入力音声
のスペクトルのパターンを分析し、この分析により第１
ホルマント周波数から音声パターンが男性のものか、又
は女性のものかを判定する。

【００１９】ステップ１４において、話者の性別により
パラメータ設定部１０のメモリ内に格納したパラメータ
のうち該当する方を選択する。ステップ１５において、
ステップ４で選択したパラメータを用いて前処理部２０
２に設定し音声認識を行う。本信号処理例によれば、前
記例と比較して構成が簡単化するという効果がある。

【００２０】

【発明の効果】以上説明したように本発明によれば、音
声のスペクトルパターンをそれぞれの特徴に基づき大別
し、大別された音声のスペクトルパターン毎に前処理の
最適化が図れるパラメータを格納し、音声の入力信号を
周波数分析し、周波数分析されたスペクトル分析が大別
されたどの音声のスペクトルパターンに属するかを判定
しパラメータを切り換えるようにし、従来ではパラメー
タを固定していたものを話者により可変にしたので、発
声話者による認識率のばらつきがなくなり、安定して高
認識率を得ることができる。音声のスペクトルパターン
を特徴づける第１ホルマント周波数が基準にされ前記音
声のスペクトルパターンが大別され、さらに入力信号の
第１ホルマント周波数によりパラメータが切り換えられ
ることにより、容易に実現可能できる。

【図面の簡単な説明】

【図１】本発明の実施例に係る音声認識装置を示す図で
ある。

【図２】図１のパラメータ設定部１０及びパラメータ切
換判定部１１における信号処理を説明するフローチャー
トである。

【図３】音声波のスペクトルを示す図である。

【図４】図１のパラメータ設定部１０及びパラメータ切
換判定部１１における別の信号処理を説明するフローチ
ャートである。

【図５】従来の音声認識装置を用いた制御システムを示
す図である。

【符号の説明】

１０…パラメータ設定部１１…パラメータ切換判定部２００…マイクロフォン２０１…話者方向・距離判定部２０２…前処理部２０３…音声認識部

Claims

【特許請求の範囲】

【請求項１】音声の入力信号を前処理し音声を認識
し、この認識結果に基づき機器を制御する音声認識装置
であって、前記音声のスペクトルパターンをそれぞれの特徴に基づ
き大別し、大別された音声のスペクトルパターン毎に前
記前処理の最適化が図れるパラメータを格納するパラメ
ータ設定部（１０）と、前記音声の入力信号を周波数分析し、周波数分析された
スペクトル分析が前記大別されたどの音声のスペクトル
パターンに属するかを判定して前記パラメータ設定部
（１０）の設定パラメータを切り換えるパラメータ切換
部（１１）とを備えることを特徴とする音声認識装置。
【請求項２】音声のスペクトルパターンを特徴づける
第１ホルマント周波数を基準にして前記音声のスペクト
ルパターンを大別し、この大別結果に基づき前記パラメ
ータを最もスペクトルパターンの類似したパラメータに
切り換える請求項１記載の音声認識装置。