JPH06149285A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06149285A
JPH06149285A JP4294884A JP29488492A JPH06149285A JP H06149285 A JPH06149285 A JP H06149285A JP 4294884 A JP4294884 A JP 4294884A JP 29488492 A JP29488492 A JP 29488492A JP H06149285 A JPH06149285 A JP H06149285A
Authority
JP
Japan
Prior art keywords
voice
speech
parameter
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4294884A
Other languages
English (en)
Other versions
JP3335389B2 (ja
Inventor
Hiroyuki Fujimoto
博之 藤本
Kazuya Sako
和也 佐古
Shoji Fujimoto
昇治 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP29488492A priority Critical patent/JP3335389B2/ja
Publication of JPH06149285A publication Critical patent/JPH06149285A/ja
Application granted granted Critical
Publication of JP3335389B2 publication Critical patent/JP3335389B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は音声を認識することにより機器の制
御を行うための音声認識装置に関し、音声認識の誤認識
を低減することを目的とする。 【構成】 音声の入力信号を前処理し音声を認識し、こ
の認識結果に基づき機器を制御する音声認識装置に、音
声のスペクトルパターンをそれぞれの特徴に基づき大別
し、大別された音声のスペクトルパターン毎に前処理の
最適化が図れるパラメータを格納するパラメータ設定部
10と、音声の入力信号を周波数分析し、周波数分析さ
れたスペクトル分析が大別されたどの音声のスペクトル
パターンに属するかを判定してパラメータ設定部10の
設定パラメータを切り換えるパラメータ切換部11とを
設ける。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声を認識することによ
り機器の制御を行うための音声認識装置に関し、特に本
発明では音声認識の誤認識を低減することに関する。
【0002】
【従来の技術】従来このような分野の技術として以下に
説明するものがあった。図5は従来の音声認識装置を用
いた制御システムを示す図である。本図に示すように、
音声認識装置を用いた制御システムは、車両の車室30
0内の話者の音声を捕捉するマイクロフォン200と、
該マイクロフォン200からの音声の方向、音源からの
距離から話者を識別する話者方向・距離判定部201
と、該話者方向・距離判定部201に接続され話者を識
別した音声信号から雑音を消去する適応形処理さらに自
動利得制御(AGC)を行う音声認識の前処理部202
と、該前処理部202に接続され音声を登録されたどの
単語に一致するかを認識する音声認識部203と、該音
声認識部203で認識された単語に基づき制御信号を形
成する各種制御部204と、該各種制御部204を介し
て認識された単語を音声に合成する音声合成部205
と、該音声合成部205に接続され合成された音声を再
生するスピーカ206と、前記各種制御部204により
制御されるオーディオ207と、エアコンデショナー2
08と、電話209と、ナビゲーション210と、オー
トドライブ211等を含む。
【0003】すなわち、マイクロフォン200で捕捉さ
れた音声は、話者方向距離判定部201、前処理部20
2を介して音声認識部203により認識され、その結果
を各種制御部204、音声合成205を介してスピーカ
206により話者に伝え、各種制御部204によりオー
ディオ207等のそれぞれが制御される。ここでマイク
ロフォン200〜スピーカ206は音声認識装置を構成
する。このような制御システムにおいては、制御の信頼
性の向上の観点から音声の認識率が高いことが要求され
ている。このため音声認識部203の性能向上が求めら
れるが、その前段である信号処理の結果にも大きく影響
を受ける。したがって、特にマイクロフォン200につ
いては話者方向距離判定部201によりマイクロフォン
相互間の遅延量の差、利得量の差の最適化を図ってい
る。さらに前処理部202により、雑音低減用適応型フ
ィルタ(ADF)のタップ長、遅延量、更新係数の最適
化、自動利得制御装置(AGC)の設定値の最適化、帯
域制限フィルタのカットオフ周波数の最適化、遮断特性
(減衰特性)の最適化を行っている。
【0004】
【発明が解決しようとする課題】しかしながら従来の音
声認識装置の前処理部202では、前記各種最適化は経
験的に行われるが、話者の影響を強く受け最適化するの
が困難で、話者による認識率のばらつきが大きく安定し
て高認識率を得ることができないという問題があった。
【0005】したがって本発明は上記問題点に鑑み異な
る話者に対しても認識率が高められる信号前処理を行う
ことができる音声認識装置を提供することを目的とす
る。
【0006】
【課題を解決するための手段】本発明は前記問題点を解
決するために、音声の入力信号を前処理し音声を認識
し、この認識結果に基づき機器を制御する音声認識装置
に、パラメータ設定部及びパラメータ切換部を設ける。
前記パラメータ設定部は前記音声のスペクトルパターン
をそれぞれの特徴に基づき大別し、大別された音声のス
ペクトルパターン毎に前記前処理の最適化が図れるパラ
メータを格納するようにしてある。
【0007】前記パラメータ切換部は前記音声の入力信
号を周波数分析し、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かを判定して前記パラメータ設定部の設定パラメータを
切り換えるようにしてある。さらに音声のスペクトルパ
ターンを特徴づける第1ホルマント周波数を基準にして
前記音声のスペクトルパターンを大別し、さらに入力信
号の第1ホルマント周波数により前記パラメータを切り
換えるようにしてある。
【0008】
【作用】本発明の音声認識装置によれば、音声のスペク
トルパターンがそれぞれの特徴に基づき大別され、大別
された音声のスペクトルパターン毎に前記前処理の最適
化が図れるパラメータが格納され、前記音声の入力信号
が周波数分析され、周波数分析されたスペクトル分析が
前記大別されたどの音声のスペクトルパターンに属する
かが判定されて前記パラメータが切り換えられることに
より、従来ではパラメータを固定していたものを話者に
より可変にしたので、発声話者による認識率のばらつき
がなくなり、安定して高認識率を得ることができる。
【0009】さらに音声のスペクトルパターンを特徴づ
ける第1ホルマント周波数が基準にされ前記音声のスペ
クトルパターンが大別され、さらに入力信号の第1ホル
マント周波数により前記パラメータが切り換えられるこ
とにより、容易に実現可能できる。また前記第1ホルマ
ント周波数が基準とされ前記音声のスペクトルパターン
が男女に大別され、さらに入力信号の第1ホルマント周
波数により男女のパラメータが切り換えられることによ
り、男女の第1ホルマント周波数の顕著な相違を利用し
てさらに容易に実現が可能になる。
【0010】
【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る音声認識装置を
示す図である。なお、全図を通じて同様の構成要素につ
いては同一参照番号又は記号をもって表す。本図に示す
音声認識装置は、話者の音声を捕捉する複数のマイクロ
フォン200と、該マイクロフォン200に接続され音
声の方向、音源からの距離から話者を識別する話者方向
距離判定部201と、該話者方向距離判定部201に接
続され話者を識別した音声信号から雑音を消去する適応
形処理さらに自動利得制御(AGC)を行う音声認識の
前処理部202と、該前処理部202に接続され音声を
登録されたどの単語に一致するかを認識しその結果を各
種制御部204(図5参照)に出力する音声認識部20
3と、前記前処理部202の各種処理のパラメータを切
換設定するパラメータ設定部10と、前記マイクロフォ
ン200からの音声信号に基づき前記パラメータ設定部
のパラメータの切換を判定するパラメータ切換判定部1
1を具備する。
【0011】次にパラメータ設定部10及びパラメータ
切換判定部11について説明する。図2は図1のパラメ
ータ設定部10及びパラメータ切換判定部における信号
処理を説明するフローチャートである。本図に示すよう
に、ステップ1及び2は認識システム外の処理であって
予め下記パラメータ値を決定するものであり、ステップ
3以降では認識システム内の処理を行う。
【0012】先ずステップ1においては、マイクロフォ
ン200からの音声に基づきパラメータ切換判定部11
により音声波形のスペクトルパターン(第1ホルマント
周波数)の違いにより音声をn個のパターンに大別して
設定され、このn個のスペクトルパターンが格納され
る。この格納技術自体は周知のものなものであるから、
説明を省略する。ここで音声をn個のパターンに大別す
る方法として第1ホルマント周波数により音声をパター
ン化するものを以下に説明する。先ず音声生成について
簡単に説明する。音声の音響的特性を決める物理的要因
は、音源の特性、声道の共鳴特性及び唇ないし鼻孔から
の音波の放射特性であるといわれている。図3は音声波
のスペクトルを示す図である。本図に示すように、音声
波のスペクトルでは、周波数が高くなると一定の傾斜で
音声の強さが小さくなり、声道の共鳴に対応したいくつ
かの山がありこれをホルマントという。周波数が一番低
い山を第1ホルマントと呼ぶ。この第1ホルマントが生
じる第1ホルマント周波数は個人差があり、個人により
ばらつくが生じている。この第1ホルマント周波数のば
らつきに対応して認識率のばらつきが生じていることに
本発明者は気がついた。このため、第1ホルマント周波
数に対応して前記前処理部202に設定すべきパラメー
タを変更することにより前処理の最適化が図れることに
なる。したがってパラメータ切換判定部11にはスペク
トルパターンとしてn個の第1ホルマント周波数領域、
例えば第ホルマント周波数を100Hz、125Hz、
150Hz、175Hzを中心に一定幅を記憶する。
【0013】ステップ2においては、ステップ1で第1
ホルマント周波数により大別したn種類の音声パターン
についてシミュレーション、エミュレーションを繰り返
し、各制御パラメータの最適を決定する。この最適値は
理論的裏付けがなく実験による経験則により決定され
る。なおシミュレーションでは本制御システムの音声認
識装置を用いず、例えば、パーソナルコンピュータに前
処理部202、音声認識装置を構成し、理想状態で、各
大別された第1ホルマントで最適パラーメタを求めるも
のである。エミューレションでは、DSP(Digital Si
gnal Processor)で構成され、実機である本制御システ
ムの音声認識装置により、シミュレーションで決定され
たパラメータが実用できるかをチェックするものであ
る。
【0014】ここでパラメータの内容は前述したよう
に、前処理部202における雑音低減用適応型フィルタ
(ADF)のタップ長、遅延量、更新係数、自動利得制
御装置(AGC)の設定値、帯域制限フィルタのカット
オフ周波数、遮断特性(減衰特性)等である。ステップ
3においては、メモリで構成されるパラメータ設定部1
0に、上記のようにして得られた各最適パラメータが第
1ホルマント周波数別に格納される。
【0015】ステップ4においては、マイクロフォン2
00に入力した音声をパラメータ切換判定部11により
スペクトル分析し、話者の音声パターンとパラメータ切
換判定部11に格納されたn種の音声パターンを比較す
る。すなわち、スペクトル分析により得られた第1ホル
マント周波数がパラメータ切換判定部11に格納された
第1ホルマント周波数を求め、この第1ホルマント周波
数が格納されているn個の第1ホルマント周波数のどの
領域に属するかを比較する。
【0016】ステップ5においては、ステップ4での比
較からパラメータ切換判定部11によりn種の音声パタ
ーンの中から話者の音声パターンと最も類似したものを
選ぶ。ステップ6においては、ステップ5で選択した音
声パターンの各制御パラメータをパラメータ設定部10
のメモリから読み出し、このパラメータを用いて前処理
部202で信号の前処理を行い、この前処理された信号
により音声認識部203により音声認識を行う。
【0017】したがって本実施例によれば、従来では前
処理の最適パラメータが固定されていたが、話者により
最適パラメータを変化させるので、話者に依存せず安定
して高い認識率を得ることが可能になる。図4は図1の
パラメータ設定部10及びパラメータ切換判定部におけ
る別の信号処理を説明するフローチャートである。本図
に示すように、ステップ11は認識システム外の信号処
理を説明し、ステップ12以降では認識システム内の信
号処理を説明する。ステップ11において、シミュレー
ション、エミュレーションで各制御パラメータの最適値
を男女別に決定する。このように、大別するのは音声ス
ペクトルのパターンについては、男性の場合には概ね第
1ホルマント周波数が100Hz〜175Hzにあり、
女性の場合には第1ホルマント周波数が200Hz〜3
00Hzにあるからである。すなわち、特に第1ホルマ
ント周波数において男女間の差異が顕著に現れている。
なお、前記制御パラメータついては、前述のように、そ
の最適値は理論的裏付けがなく経験則から決定される。
【0018】ステップ12において、ステップ11で決
定した制御パラメータ、すなわち男女用、女性用の2系
列のパラメータの最適パラメータをパラメータ設定部1
0に格納する。ステップ13において、パラメータ切換
判定部11によりマイクロフォン200からの入力音声
のスペクトルのパターンを分析し、この分析により第1
ホルマント周波数から音声パターンが男性のものか、又
は女性のものかを判定する。
【0019】ステップ14において、話者の性別により
パラメータ設定部10のメモリ内に格納したパラメータ
のうち該当する方を選択する。ステップ15において、
ステップ4で選択したパラメータを用いて前処理部20
2に設定し音声認識を行う。本信号処理例によれば、前
記例と比較して構成が簡単化するという効果がある。
【0020】
【発明の効果】以上説明したように本発明によれば、音
声のスペクトルパターンをそれぞれの特徴に基づき大別
し、大別された音声のスペクトルパターン毎に前処理の
最適化が図れるパラメータを格納し、音声の入力信号を
周波数分析し、周波数分析されたスペクトル分析が大別
されたどの音声のスペクトルパターンに属するかを判定
しパラメータを切り換えるようにし、従来ではパラメー
タを固定していたものを話者により可変にしたので、発
声話者による認識率のばらつきがなくなり、安定して高
認識率を得ることができる。音声のスペクトルパターン
を特徴づける第1ホルマント周波数が基準にされ前記音
声のスペクトルパターンが大別され、さらに入力信号の
第1ホルマント周波数によりパラメータが切り換えられ
ることにより、容易に実現可能できる。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声認識装置を示す図で
ある。
【図2】図1のパラメータ設定部10及びパラメータ切
換判定部11における信号処理を説明するフローチャー
トである。
【図3】音声波のスペクトルを示す図である。
【図4】図1のパラメータ設定部10及びパラメータ切
換判定部11における別の信号処理を説明するフローチ
ャートである。
【図5】従来の音声認識装置を用いた制御システムを示
す図である。
【符号の説明】
10…パラメータ設定部 11…パラメータ切換判定部 200…マイクロフォン 201…話者方向・距離判定部 202…前処理部 203…音声認識部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声の入力信号を前処理し音声を認識
    し、この認識結果に基づき機器を制御する音声認識装置
    であって、 前記音声のスペクトルパターンをそれぞれの特徴に基づ
    き大別し、大別された音声のスペクトルパターン毎に前
    記前処理の最適化が図れるパラメータを格納するパラメ
    ータ設定部(10)と、 前記音声の入力信号を周波数分析し、周波数分析された
    スペクトル分析が前記大別されたどの音声のスペクトル
    パターンに属するかを判定して前記パラメータ設定部
    (10)の設定パラメータを切り換えるパラメータ切換
    部(11)とを備えることを特徴とする音声認識装置。
  2. 【請求項2】 音声のスペクトルパターンを特徴づける
    第1ホルマント周波数を基準にして前記音声のスペクト
    ルパターンを大別し、この大別結果に基づき前記パラメ
    ータを最もスペクトルパターンの類似したパラメータに
    切り換える請求項1記載の音声認識装置。
JP29488492A 1992-11-04 1992-11-04 音声認識装置 Expired - Fee Related JP3335389B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29488492A JP3335389B2 (ja) 1992-11-04 1992-11-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29488492A JP3335389B2 (ja) 1992-11-04 1992-11-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06149285A true JPH06149285A (ja) 1994-05-27
JP3335389B2 JP3335389B2 (ja) 2002-10-15

Family

ID=17813499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29488492A Expired - Fee Related JP3335389B2 (ja) 1992-11-04 1992-11-04 音声認識装置

Country Status (1)

Country Link
JP (1) JP3335389B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164988A (ja) * 2003-12-03 2005-06-23 Xanavi Informatics Corp 周波数切替装置および情報処理装置
JP2006039447A (ja) * 2004-07-30 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2006047447A (ja) * 2004-08-02 2006-02-16 Nissan Motor Co Ltd 音声入力装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164988A (ja) * 2003-12-03 2005-06-23 Xanavi Informatics Corp 周波数切替装置および情報処理装置
JP2006039447A (ja) * 2004-07-30 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2006047447A (ja) * 2004-08-02 2006-02-16 Nissan Motor Co Ltd 音声入力装置

Also Published As

Publication number Publication date
JP3335389B2 (ja) 2002-10-15

Similar Documents

Publication Publication Date Title
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
US20150256930A1 (en) Masking sound data generating device, method for generating masking sound data, and masking sound data generating system
KR20240033108A (ko) 음성인식 오디오 시스템 및 방법
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
JP2023539121A (ja) オーディオコンテンツの識別
JP2002051392A (ja) 車内会話補助装置
US20080082327A1 (en) Sound Processing Apparatus
JPH0968997A (ja) 音声処理方法及び装置
JPH06149285A (ja) 音声認識装置
JP2000081900A (ja) 収音方法、その装置及びプログラム記録媒体
US12322366B2 (en) Masking sound adjustment method and masking sound adjustment device
US9318126B2 (en) Voice clarification apparatus
JP3822397B2 (ja) 音声入出力方式
JP2020194093A (ja) 音声認識装置、音声認識プログラム、及び音声認識方法
JP4552533B2 (ja) 音響信号処理装置及び音声度合算出方法
JPH04230800A (ja) 音声信号処理装置
CN118900380B (zh) 车载音频的调节方法、车载信息娱乐系统和可读存储介质
JP3958009B2 (ja) 音声認識装置
JP4079478B2 (ja) 音声信号の処理回路および処理方法
US20250285633A1 (en) Audio processing system, audio processing method, and recording medium
JP2008224960A (ja) 音声認識装置
JP2886879B2 (ja) 音声認識方法
JP4044916B2 (ja) 音声入力装置
CN121148388A (zh) 一种基于ai的蓝牙耳机语音控制方法、系统及设备

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090802

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees