JPH11143485A

JPH11143485A - 音声認識方法及び音声認識装置

Info

Publication number: JPH11143485A
Application number: JP9313673A
Authority: JP
Inventors: Hiroshi Shinozuka; 弘篠塚; Noritoshi Hino; 紀敏日野
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-11-14
Filing date: 1997-11-14
Publication date: 1999-05-28
Also published as: KR19990045241A; KR100395713B1; US6301559B1; EP0916972A2; EP0916972A3

Abstract

(57)【要約】【目的】認識すべきでない単語や周囲環境の音に対す
る誤認識を抑制し、認識能力を向上した音声認識方法及
び音声認識装置を実現する。【解決手段】辞書部４０に認識すべき単語の特徴パラ
メータと、認識すべきでない単語や周囲環境の音の特徴
パラメータとを予め登録しておき、音声認識部３０に
て、入力された単語（または音）に対する特徴パラメー
タと、辞書部４０に登録された特徴パラメータ全てとの
類似度を求め、辞書部４０に登録された特徴パラメータ
のうち、入力された単語（または音）に対する特徴パラ
メータに近似した１つを指示する情報を認識結果とす
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者に対す
る音声認識方法及び音声認識装置に関し、特にテンプレ
ートマッチング方式による単語音声の認識における認識
能力を向上するようにした音声認識方法及び音声認識装
置に関するものである。

【０００２】

【従来の技術】近年において、音声認識の技術は様々な
分野での活用が行われている。例えば、車の運転中にお
ける車内に整備された機構の動作制御を音声にて行うも
のがある。より具体的には、オーディオ装置やエアコン
の操作、ウインドウの開閉操作、車内灯の消灯／点灯等
を音声にて行うものである。このような場合、不特定話
者である運転者が発した音声を正確に認識して各機構の
動作を確実に行わせることが要求される。

【０００３】ここで、音声認識方法としては様々な方式
があり、その１つとしてテンプレートマッチング方式が
ある。テンプレートマッチング方式とは、特定の音声と
しての認識すべき音声、例えば複数の単語に対する特徴
パラメータを予め登録（格納）した辞書部を持たせてお
くものである。つまり、不特定話者が発した音声である
単語から特徴パラメータを抽出し、この抽出した特徴パ
ラメータと辞書部に登録された各単語の特徴パラメータ
との類似度を比較する。この比較により、辞書部に登録
された特徴パラメータのうち、不特定話者が発した音声
の特徴パラメータに最も近似している特徴パラメータに
対応する単語を、不特定話者が発した単語として認識す
る。なお、特徴パラメータとは、各単語の音声波形、周
波数スペクトラム等のことである。

【０００４】

【発明が解決しようとする課題】しかしながら、上述の
テンプレートマッチング方式を用いた音声認識方法にお
いては次のような問題点があった。

【０００５】例えば、特定の音声とは異なる音声として
の認識すべきでない単語（特徴パラメータが辞書部に予
め登録されていない単語）を不特定話者が音声として発
した場合、上記の音声認識方法では、その認識すべきで
ない単語の特徴パラメータに最も近似した単語（特徴パ
ラメータが辞書部に予め登録された単語の１つ）を認識
結果としてしまうことがあった。このような問題点は、
特に、認識すべき特定の音声（単語）に類似した単語に
おいて顕著に生ずる。

【０００６】また、このような誤認識は音声だけでな
く、突発的に発生する周囲環境の音においても生ずるこ
とがあった。突発的に発生する周囲環境の音とは、例え
ば、上述の車内における音声認識に対しては、ドアの開
閉音、エアコンの作動音、走行中のウインドウの風切り
音、道路の継ぎ目や中央線を越える時のタイヤ音等であ
る。つまり、これらの音に対しても、音声認識装置が動
作すると、特徴パラメータが辞書部に予め登録された単
語のうち、最も近似した単語を認識結果としてしまうこ
とがあった。

【０００７】このような誤認識への対応も、出来るだけ
音声認識装置の大型化したり、コストが増大したりする
ことなく、従来の音声認識装置を大幅に変更することな
く実現することが望ましい。

【０００８】本発明は上記の課題を解決するため、認識
すべき特定の音声とは異なる音声（例えば、認識すべき
でない単語や周囲環境の音）に対する誤認識を抑制し、
認識能力を向上した音声認識方法の実現を目的とする。

【０００９】また、本発明は、上記目的を音声認識装置
の大型化したり、コストが増大したりすることなく、従
来の音声認識装置を大幅に変更することなく実現するこ
とを目的とする。

【００１０】

【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識方法は、複数の音声に対する特徴
パラメータを予め登録した辞書部を有し、入力された音
声に対して辞書部を用いて音声の認識を行う音声認識方
法において、辞書部には、複数の認識すべき特定の音声
に対する特徴パラメータと特定の音声とは異なる音声に
対する特徴パラメータとを予め登録しておくステップ
と、入力された音声から特徴パラメータを検出するステ
ップと、検出された音声の特徴パラメータと辞書部に登
録された各特徴パラメータとの類似度を求め、その結果
として辞書部に登録された特徴パラメータのうち抽出さ
れた音声に近似する１つを指示する情報を出力するステ
ップとを含むものである。

【００１１】また、本発明の音声認識方法は、上記目的
を達成するため、更に、類似度を求めた結果として、辞
書部に格納された特定の音声に対する音声パラメータの
１つが選択された場合には、音声に対応する音声コード
の出力を行い、辞書部に格納された特定の音声に対する
音声パラメータとは異なる音声が選択された場合には、
特定の処理を行うステップを含むものである。

【００１２】また、本発明の音声認識方法は、上記目的
を達成するため、特定の処理として、特定の音声とは異
なる音声に対応する音声コードの出力を禁止するもので
ある。

【００１３】また、本発明の音声認識方法は、上記目的
を達成するため、特定の処理として、特定の音声とは異
なる音声に対応する特定の音声コードを出力するもので
ある。

【００１４】また、本発明の音声認識装置は、上記目的
を達成するため、予め登録した複数の音声に対する特徴
パラメータと入力された音声に対する特徴パラメータと
の類似度により音声の認識を行う音声認識装置におい
て、複数の認識すべき特定の音声に対する特徴パラメー
タと特定の音声とは異なる音声に対する特徴パラメータ
とを予め格納する特徴パラメータ格納手段と、入力され
た音声に対する特徴パラメータを抽出する特徴パラメー
タ抽出手段と、抽出した音声に対する特徴パラメータと
特徴パラメータ格納手段に格納された特徴パラメータと
の類似度を求める類似度比較手段と、類似度比較手段に
より求められた類似度のうち特徴パラメータ格納手段に
格納された特徴パラメータのうち抽出された音声に近似
する１つを指示する情報を出力する比較結果出力手段と
を有するものである。

【００１５】また、本発明の音声認識装置は、上記目的
を達成するため、比較結果出力手段から出力された情報
に対応して外部装置にて認識可能な音声コードに変換す
るための音声コードテーブルと、比較結果出力手段から
出力された情報に基づき、音声コードテーブルから所望
の音声コードを検出し、出力する音声コード変換手段と
を有するものである。

【００１６】また、本発明の音声認識装置は、上記目的
を達成するため、音声コード変換手段は、比較結果出力
手段から出力された情報により前記音声コードテーブル
から所望の音声コードを検出する検出部と、検出した所
望の音声コードが特定の音声か、特定の音声とは異なる
音声かを判定し、その結果が特定の音声とは異なる音声
の場合にその音声コードの出力を禁止する判定部とを有
するものである。

【００１７】

【発明の実施の形態】本発明の音声認識方法及び音声認
識装置についてを図面を用いて以下に詳細に説明する。

【００１８】図１は本発明の実施例の音声認識装置１の
一構成例を示す構成ブロック図である。１０はマイクロ
フォン、２０は音声分析部、３０は音声認識部、４０は
辞書部、５０は音声コード変換部、６０はテーブル部で
ある。なお、一般的には、音声認識を行う部分としては
音声認識部３０、及び辞書部４０で行われる処理が対象
となる。よって、図１におけるマイクロフォン１０、音
声分析部２０、音声コード変換部５０及びテーブル部６
０は音声認識装置１の外部装置として配置してもよい。
この実施例では、図１に示す構成を有するものを音声認
識装置としている。

【００１９】マイクロフォン１０は、不特定話者が発し
た音声を受けてアナログ音声データとして音声分析部２
０へ転送するものである。

【００２０】音声分析部２０は、マイクロフォン１０か
ら転送されてきたアナログ音声データをデジタル音声デ
ータに変換するものである。

【００２１】辞書部４０は、メモリからなり、音声認識
装置１にて認識すべき複数の特定の音声、この実施例に
おいては認識すべき単語の特徴パラメータを予め登録
（格納）しておくものである。また、本発明の辞書部４
０には、特定の音声とは異なる音声として認識すべきで
ない単語、特に、認識すべき単語（特徴パラメータが辞
書部４０に予め登録されている単語）に類似した単語の
特徴パラメータや周囲環境の音の特徴パラメータについ
ても辞書部４０に予め登録しておく。このように、辞書
部４０は特徴パラメータ格納手段としての機能を有す
る。

【００２２】音声認識部３０は、音声分析部２０から転
送されてきたデジタル音声データから特徴パラメータを
抽出し、この抽出した特徴パラメータと辞書部４０に予
め登録してある複数の特徴パラメータとの類似度の比較
を行うものである。更に、音声認識部３０は、特徴パラ
メータの類似度の比較の結果、辞書部４０に登録された
特徴パラメータのうち、マイクロフォン１０から入力さ
れた音声に対する特徴パラメータであるところの抽出し
た特徴パラメータに最も近似した１つの特徴パラメータ
を指示する情報を出力するものである。このように、音
声認識部３０は、特徴パラメータ抽出手段、類似度比較
手段、及び比較結果出力手段としての機能を有する。

【００２３】テーブル部６０は、音声認識部３０から出
力される情報を音声コードに変換するためのテーブルで
あり、メモリから構成される。つまり、テーブル部６０
は音声コードテーブルとしての機能を有する。

【００２４】音声コード変換部５０は、音声認識部３０
から出力される情報からテーブル部６０を参照して所望
の音声コードを出力するものである。ここで、音声コー
ドとは、音声認識装置１の出力を受け取る外部装置、例
えば、車内におけるウインドウやエアコン等の機構の動
作を制御するコントローラに対して、このコントローラ
による内部処理（エアコンのスイッチをオンにすること
やウインドウを閉じること等の動作処理）にて音声に対
応した指示を行わせるためのデジタルデータである。

【００２５】ここで、音声分析部２０についてを図面を
用いて、以下により詳細に説明する。図２は、音声分析
部２０の一構成例を示す構成ブロック図である。

【００２６】音声分析部２０は、図２に示すように、入
力音声増幅部２１、フィルタ部２３、アナログ／デジタ
ル変換部２５から構成されている。

【００２７】入力音声増幅部２１は、マイクロフォン１
０から転送されてくるアナログ音声データを受信し、受
信したアナログ音声データの信号振幅を増幅するもので
ある。これにより、マイクロフォン１０が受けた音声が
小さな音声であっても、その音声の信号振幅が増幅され
るので、アナログ／デジタル変換部２５による処理をよ
り正確に行うことができる。フィルタ部２３は、入力音
声増幅部２１で増幅処理されたアナログ音声データに対
して所定の帯域、例えば雑音成分に相当する帯域を除去
するバンドパスフィルタである。アナログ／デジタル変
換部２５は、フィルタ部２３を通過したアナログ音声デ
ータを、後段に位置する音声認識部３０にてデジタル処
理可能なように、デジタル音声データに変換するもので
ある。このデジタル音声データが音声分析部２０の出力
となる。

【００２８】次に、音声認識部３０についてを図面を用
いて、以下により詳細に説明する。図３は、音声認識部
３０の一構成例を示す構成ブロック図である。

【００２９】図３において、音声認識部３０は、特徴パ
ラメータ抽出部３１、比較演算部３２、一時格納部３
３、比較結果格納部３４、制御部３５、及びプログラマ
ブルな読み出し専用メモリ（以下、ＰＲＯＭと称する）
３６から構成されている。

【００３０】特徴パラメータ抽出部３１は、音声分析部
２０から出力されたデジタル音声データから特徴パラメ
ータを抽出するものである。この特徴パラメータとして
は、上述したように、デジタル音声データに対応する音
声の音声波形、周波数スペクトラム等である。このよう
に、特徴パラメータ抽出部３１は、特徴パラメータ抽出
手段としての機能を有する。比較演算部３２は、特徴パ
ラメータ抽出部３１にて抽出された特徴パラメータと辞
書部４０に登録されている特徴パラメータとを比較し、
類似度を求めるものである。

【００３１】より具体的には、比較演算部３２は、例え
ば、辞書部４０からまず最初に１つの特徴パラメータを
読み出して、特徴パラメータ抽出部３１で抽出された特
徴パラメータとの類似度を求める。求めた類似度と予め
用意しておいた初期比較用の類似度のうち、特徴パラメ
ータ抽出部３１から出力された特徴パラメータにより類
似すると判断された特徴パラメータの情報（どの単語に
対応するものか等）及び類似度を一時格納部３３に格納
しおく。この場合、予め用意していく初期比較用の類似
度は必ず辞書部４０から読み出した方の特徴パラメータ
が一時格納部３３に格納されるような値としておけばよ
い。なお、この実施例においては初期比較用の類似度を
準備するようにしたが、初期比較用の類似度を用意せず
に、辞書部４０から最初に読み出した１つの特徴パラメ
ータの類似度を、類似度比較をせずに一時格納部３３に
格納するようにしてもよいし、辞書部４０から２つの特
徴パラメータを読み出して、その２つの特徴パラメータ
の類似度を比較して、それぞれの類似度のうち特徴パラ
メータ抽出部３１からの出力により近似する方を一時格
納部３３に格納するようにしてもよい。

【００３２】次に、別の特徴パラメータを辞書部４０か
ら読み出し、類似度を求める。この求めた類似度と一時
格納部３３に格納しておいた類似度を比較し、特徴パラ
メータ抽出部３１から出力された特徴パラメータにより
類似すると判断された特徴パラメータの情報及び類似度
を一時格納部３３に格納しおく。このような処理を、辞
書部４０に登録されている特徴パラメータ全てに対して
行う。つまり、辞書部４０に登録された特徴パラメータ
全てに対して類似度を比較した後に残った１つ、例え
ば、最後に一時格納部３３に格納される特徴パラメータ
の情報が比較演算部３２の出力となる。なお、図３にお
ける一時格納部３３は比較演算部３２の内部に設けても
よい。比較演算部３２に一時格納部３３の機能を設ける
ことができれば、音声認識装置１の小型化、コストの低
減や処理の高速化が望めるため、より好ましい。このよ
うに、比較演算部３２は類似度比較手段としての機能を
有する。

【００３３】比較結果格納部３４は、比較演算部３２か
ら出力された情報を一時的に格納して出力するものであ
る。この出力が音声認識部３０の出力となる。つまり、
比較結果格納部３４は比較結果出力手段としての機能を
有する。なお、この実施例においては、比較演算部３２
が、所定の入力音声に対する特徴パラメータの類似度の
比較処理を終了した後、新たにマイクロフォン１０から
入力されてくる音声に対する特徴パラメータの類似度の
比較処理をただちに行えるようにするため、比較結果格
納部３４を設けているものである。つまり、比較結果格
納部３４を設けることで、音声認識装置１としての連続
的な単語音声認識処理が高速に行える効果が望める。ま
た、比較結果格納部３４を設けなくとも、比較演算部３
２から出力する情報を音声認識部３０の出力としてもよ
い。この場合は、比較結果格納部３４の分だけ音声認識
装置１の小型化、コストの低減が望める。

【００３４】制御部３５は、特徴パラメータ抽出部３
１、比較演算部３２、比較結果格納部３４、辞書部４０
の動作を制御するもので、各部に対して動作を制御する
制御信号を出力するものである。この制御部３５の制御
信号出力動作は、この実施例においては、音声分析部２
０からの出力を制御部３５が受けることで開始される。
なお、制御部３５から出力される制御信号は、ＰＲＯＭ
３６に格納されたプログラムに基づいて各部に対する上
記処理をタイミングよく行わせるように出力されるもの
である。

【００３５】例えば、制御部３５は、特徴パラメータ抽
出部３１に対しては、音声分析部２０からの出力に対す
る特徴パラメータ抽出処理の開始及び終了を指示する制
御信号を出力する。また、比較演算部３２に対しては、
特徴パラメータ抽出部３１からの出力と辞書部４０から
の出力との類似度を求める処理の開始及び終了を指示す
る制御信号を出力する。また、辞書部４０に対しては、
格納されている特徴パラメータの読み出しを指示する制
御信号を出力する。比較結果格納部３４に対しては、比
較演算部３２からの出力の格納を指示する制御信号を出
力する。なお、音声認識装置１の動作電源が投入されて
いる時には、特徴パラメータ抽出部３１や比較演算部３
２を常時処理可能状態としておくのであれば、制御部３
５から出力される制御信号のうち、特徴パラメータ抽出
部３１や比較演算部３２に対する開始及び終了を指示す
る信号は特に必要ない場合も考えられる。しかしなが
ら、このような制御信号により特徴パラメータ抽出部３
１や比較演算部３２の動作を制御すれば、音声認識部３
０を構成する各部の動作をよりタイミングよく行うこ
と、及び消費電力を押さえることができるので、より好
ましい。

【００３６】ここで、辞書部４０の格納内容について図
面を用いて説明する。図４は辞書部４０の格納内容を示
す図である。

【００３７】辞書部４０には、アドレス番号に対応して
特徴パラメータが複数格納されている。図４において
は、アドレス番号００００Ｈ〜ＦＦＦＦＨ（Ｈは１６進
表示を示すものである）にそれぞれ特徴パラメータが格
納されている。例えば、アドレス番号００００Ｈには認
識すべき単語である”エアコン”の特徴パラメータが格
納されている。アドレス番号０００１Ｈには認識すべき
単語である”ウインドウ”の特徴パラメータが格納され
ている。アドレス番号０００２Ｈには認識すべき単語で
ある”オン”の特徴パラメータが格納されている。アド
レス番号０００３Ｈには認識すべき単語である”オープ
ン”の特徴パラメータが格納されている。同様に、必要
な数の認識すべき単語に対する特徴パラメータがそれぞ
れ所定のアドレス番号にて読み出し可能に格納されてい
る。このような認識すべき音声は特定の音声として定義
される。

【００３８】また、辞書部４０には、認識すべき単語の
特徴パラメータの他に、認識すべきでないもの、例え
ば、認識すべき単語の類似語や周囲環境の音の特徴パラ
メータをも格納している。例えば、図４においては、ア
ドレス番号ＦＦＦＤＨには、本来認識すべきでない音で
あるところの、認識すべき音声”オン”の類似語とし
て”サン”の特徴パラメータが格納されている。また、
アドレス番号ＦＦＦＥＨには、本来認識すべきでない音
であるところの、周囲環境の音としてドアの開閉音の特
徴パラメータが格納されている。また、アドレス番号Ｆ
ＦＦＦＨには、本来認識すべきでない音であるところ
の、周囲環境の音としてエアコンの作動音の特徴パラメ
ータが格納されている。このような認識すべき音声の類
似語や周囲環境の音は特定の音声とは異なる音声として
定義される。なお、この定義において、認識すべき音声
である特定の音声とは異なる音声であれば、類似語や周
囲環境の音以外の音（音声）を含めてもよいことは言う
までもない。

【００３９】つまり、辞書部４０は認識すべき音声であ
る特定の音声の特徴パラメータを格納する領域と、認識
すべきでない音である、認識すべき音声の類似語や周囲
環境の音等の特定の音声とは異なる音声の特徴パラメー
タを格納する領域とを有している。

【００４０】図４においては、認識すべき音声の類似語
と周囲環境の音の特徴パラメータの両方を格納するよう
にしているが、音声認識装置１を用いる状況に応じて、
認識すべき音声の類似語あるいは周囲環境の音のどちら
か一方の特徴パラメータを格納するものとしてもよい。
例えば、静かな場所のため、周囲環境の音がほとんど問
題にならない場合において音声認識装置１を用いるので
あれば、辞書部４０には、認識すべき音声の特徴パラメ
ータとこの認識すべき音声の類似語の特徴パラメータを
格納しておけばよい。また、認識すべき音声が類似語を
ほとんど持たないような、類似語に対する問題がほとん
ど問題にならない場合において音声認識装置１を用いる
のであれば、辞書部４０には、認識すべき音声の特徴パ
ラメータと周囲環境の音の特徴パラメータを格納してお
けばよい。

【００４１】このように、音声認識装置１を用いる状況
に応じて、辞書部４０に認識すべき音声の類似語あるい
は周囲環境の音のどちらか一方の特徴パラメータを格納
することによって、辞書部４０を構成するメモリの容量
が小さくてもよく、また、これにより、辞書部４０のサ
イズを小さくすることや音声認識部３０による比較処理
する対象も必要数のみにすることもできる。よって、音
声認識装置１の小型化、コスト低減、音声認識処理の高
速化が望める。

【００４２】また、辞書部４０に認識すべき音声の類似
語及び周囲環境の音の両方の特徴パラメータを格納する
ことによっては、誤認識を抑制する能力をより向上する
ことが望める。

【００４３】また、図４においては、辞書部４０内にお
いて、認識すべき音声の特徴パラメータを格納する領域
としてアドレス番号の若い方から順に格納し、認識すべ
きでない音声であるところの、認識すべき音声の類似語
や周囲環境の音の特徴パラメータを格納する領域とし
て、認識すべき音声が格納されている領域の最後のアド
レス番号に続くアドレス番号から順に格納するようにし
ている。辞書部４０に格納されている全ての特徴パラメ
ータに対して音声認識部３０での音声認識処理を行うの
であれば、特に、上述のようなアドレス番号にて領域分
けしなくともよいのであるが、領域分けしておくこと
で、格納された特徴パラメータの書き換えが容易に行え
るのでより好ましい。

【００４４】上述のように構成された音声認識部３０の
動作について、図面を用いて説明する。図５は音声認識
部３０の動作を説明するフローチャートである。

【００４５】まず、図５におけるステップＳ１において
は、音声認識部３０は音声分析部２０の出力として転送
されてくるデジタル音声データを特徴パラメータ抽出部
３１にて受け取る。この受け取りは、音声分析部２０か
らの出力があったことを制御部３５が受けて、制御部３
５から特徴パラメータ抽出部３１に動作開始を指示する
制御信号を転送することで行われる。特徴パラメータ抽
出部３１は、受け取ったデジタル音声データから特徴パ
ラメータの抽出処理を行う。特徴パラメータの抽出処理
が完了したら、特徴パラメータ抽出部３１は制御部３５
に抽出処理の完了を指示する信号を転送する。

【００４６】次に、図５におけるステップＳ２におい
て、制御部３５は、特徴パラメータ抽出部３１に動作の
終了を指示する制御信号を送るとともに、比較演算部３
２へ動作の開始を指示する信号及び辞書部４０へ特徴パ
ラメータの読み出しを指示する制御信号を転送する。こ
の辞書部４０からの特徴パラメータの読み出しに際して
は、制御部３５は読み出し指示をする信号とともにアド
レス番号００００Ｈのアドレスデータを送ればよい。

【００４７】次に、図５におけるステップＳ３におい
て、比較演算部３２は、辞書部４０から読み出されたア
ドレス番号００００Ｈの”エアコン”の特徴パラメータ
を受けて、特徴パラメータ抽出部３１から出力される特
徴パラメータと”エアコン”の特徴パラメータとの類似
度を求める。この求めた類似度と、初期比較用の類似度
とを比較し、特徴パラメータ抽出部３１からの出力によ
り近似すると判断された方の特徴パラメータに関する情
報（例えば、アドレス番号）と求めた類似度とを少なく
とも格納しておく。一時格納部３３からの情報の読み出
しは、比較演算部３２が制御部３５から受ける比較処理
開始を指示する制御信号を、更に一時格納部３３に対す
る読み出し信号として適用するものとし、一時格納部３
３への情報の書き込みは、制御部３５に転送すべき、比
較演算部３２による類似度比較処理の終了を指示する信
号を、更に一時格納部３３に対する書き込み信号として
適用するものとすればよい。１回目の特徴パラメータの
比較が終了したら、比較演算部３２はその旨を指示する
信号を制御部３５へ転送する。

【００４８】次に、図５におけるステップＳ４におい
て、制御部３５は辞書部４０内に格納された特徴パラメ
ータ全てに対して比較演算部３２での比較処理が終了し
たか否かを判断する。これは、制御部３５にて、比較演
算部３２による比較処理開始とともに、辞書部４０から
の読み出しを行うことに１ずつカウント数を更新するカ
ウンタを設けておいて、カウント数が所定の値（実施例
においてはＦＦＦＦＨに当たるカウント数）に達したか
否かを判断するようにすればよい。つまり、カウンタの
カウント値がＦＦＦＦＨに達していなければ、ステップ
Ｓ５へ進む。また、カウンタのカウント値がＦＦＦＦＨ
に達したならば、ステップＳ６へ進む。

【００４９】ステップＳ５へ進む場合には、制御部３５
は、辞書部４０から次の特徴パラメータである、アドレ
ス番号０００１Ｈの”ウインドウ”の特徴パラメータの
読み出しを指示するとともに、比較演算部３２に、再び
比較処理開始を指示する制御信号を転送する。これによ
り、ステップＳ３の類似度比較動作が、一時格納部３３
に格納された情報と辞書部４０から新たに読み出され
た”ウインドウ”の特徴パラメータとの間で行われる。

【００５０】ステップＳ６に進む場合には、制御部３５
は比較演算部３２に類似度比較処理の終了を指示する制
御信号を転送するとともに、比較結果格納部３４に対し
て、比較演算部３２からの出力（つまり、類似度比較処
理の結果、辞書部４０に格納された特徴パラメータのう
ち、特徴パラメータ抽出部３１にて抽出された特徴パラ
メータに最も近似していた特徴パラメータを有する音声
の情報）を格納する。比較演算部３２から出力される情
報として、例えば、この実施例ではアドレス番号であ
る。つまり、類似度比較処理の結果、”オン”の特徴パ
ラメータが選ばれたならば、比較演算部３２からの出力
はアドレス番号００００Ｈを指示するデータとなる。

【００５１】なお、ステップＳ４の処理であるカウンタ
による処理は比較演算部３２内で行わせるようにしても
よい。この場合は、制御部３５からの類似度比較処理の
開始を指示する制御信号及び比較演算部３２からの類似
度比較処理の終了を指示する信号がそれぞれ１回ずつで
済む。この場合、音声認識装置１の音声認識処理をより
高速にすることが望める。

【００５２】ここで、本発明においては、上述したよう
に、認識すべきでない音声として”サン”、ドアの開閉
音、エアコンの作動音等の特徴パラメータをも辞書部４
０に格納している。上記ステップＳ２〜Ｓ５において、
これらの特徴パラメータに対しても、類似度比較処理が
行われる。このため、例えば、不特定話者が誤って”サ
ン”と発声した事に対して、音声認識装置１が類似度比
較処理を行った場合、辞書部４０に格納されている特徴
パラメータの中では、類似する単語である”オン”の特
徴パラメータとの類似度より、”サン”の特徴パラメー
タとの類似度の方がより近似するものとして選択され
る。このため、”サン”と発声した音声に対して音声認
識装置１が音声認識処理を行ったとしても、誤って認識
すべき音声”オン”と判断することがない。同様に、ド
アの開閉音やエアコンの作動音等により、音声認識装置
１が音声認識処理を行ったとしても、それぞれ誤って認
識すべき音声の１つを認識結果として判断することがな
い。

【００５３】よって、本発明の音声認識装置１の音声認
識処理における誤認識を抑制することができ、認識能力
を向上できる。また、上記実施例においては、辞書部４
０に、本来認識すべきでない音（音声）の特徴パラメー
タを追加して格納し、これらの特徴パラメータに対して
も類似度比較処理を行うようにしたものなので、音声認
識装置１の構成として、上述の認識能力の向上を達成す
るために回路構成を大幅に変更することや特別な回路構
成の追加等は必要としていない。よって、本発明の音声
認識装置１を大型化したり、コストが増大したりするこ
となく、従来の音声認識装置を大幅に変更することな
く、認識能力の向上を実現することができる。

【００５４】また、本発明の実施例における音声認識装
置１の音声認識部３０からの出力に対する処理を行う音
声コード変換部５０について、図面を用いて以下に説明
する。図６は音声コード変換部５０の構成を示す構成ブ
ロック図である。

【００５５】図６において、音声コード変換部５０は、
音声コード照合部５１及び出力判定部５３から構成され
ている。音声コード照合部５１は、音声認識部３０から
の出力である認識結果の情報（上記説明においてはアド
レス番号）を受け取り、この情報を音声認識装置１の後
段に配置される外部装置、例えば、コントローラのよう
なものにて、どの単語を示すものかを認識できるデータ
（コントローラの動作にて処理可能なデータ）である音
声コードに変換するものである。つまり、音声コード照
合部５１は、音声認識部３０からの出力に対応する音声
コードを出力する。このように、音声コード照合部５１
は音声コードを検出する検出部としての機能を有する。
なお、この変換にはテーブル部６０が用いられる。

【００５６】ここで、テーブル部６０の格納内容を図７
を用いて説明する。図７において、テーブル部６０に
は、アドレス番号に対応して音声コードが複数格納され
ている。図７においては、アドレス番号００００Ｈ〜Ｆ
ＦＦＦＨ（Ｈは１６進表示を示すものである）にそれぞ
れ対応する音声コードが格納されている。例えば、アド
レス番号００００Ｈには認識すべき単語である”エアコ
ン”に対応する音声コードが格納されている。アドレス
番号０００１Ｈには認識すべき単語である”ウインド
ウ”に対応する音声コードが格納されている。アドレス
番号０００２Ｈには認識すべき単語である”オン”に対
応する音声コード格納されている。アドレス番号０００
３Ｈには認識すべき単語である”オープン”に対応する
音声コードが格納されている。アドレスＦＦＦＤＨには
認識すべきでない単語である”サン”に対応する音声コ
ードが格納されている。アドレス番号ＦＦＦＥＨには認
識すべきでない音であるドアの開閉音に対応する音声コ
ードが格納されている。アドレス番号ＦＦＦＦＨには認
識すべきでない音であるエアコンの作動音に対応する音
声コードが格納されている。同様に、複数の音声コード
がそれぞれ所定のアドレス番号にて読み出し可能に格納
されている。

【００５７】ここで、テーブル部６０に格納してある音
声コードのアドレス番号と辞書部４０に格納してある特
徴パラメータのアドレス番号とは対応するようにしてい
る。つまり、単語”オン”に対する特徴パラメータの辞
書部４０におけるアドレス番号と、単語”オン”に対す
る音声コードのテーブル部６０におけるアドレス番号と
は同じアドレス番号０００３Ｈとしている。このように
することで、音声認識部３０からの出力としてアドレス
番号を、音声コード変換部５０にて受けることで容易に
音声コードへ変換することができる。

【００５８】なお、音声コードは、例えば、デジタルデ
ータであり、実施例においてはテーブル部６０に格納さ
れた全ての音声コードが互いに異なる値を有するものと
する。

【００５９】出力判定部５３は音声コード照合部５１の
出力を受け取る。出力判定部５３は比較部５４とメモリ
５５を有する。メモリ５５には、認識すべきでない音声
の音声コードが格納されている。例えば、図７において
は、認識すべき単語の類似語である”サン”に対応する
音声コードや、周囲環境の音であるドアの開閉音やエア
コンの作動音に対応する音声コードが格納されている。
比較部５４は、音声コード照合部５１の出力とメモリ５
５に格納された音声コード全てとをそれぞれ比較する。
この比較の結果、一致するものがなければ、つまり、音
声コード照合部５１から出力された音声コードが認識す
べき音声（単語）であると判断された場合には、音声コ
ード照合部５１の出力を出力判定部５３を介してそのま
ま音声コード変換部５０の出力とする。また、この比較
の結果、一致するものがあれば、つまり、音声コード照
合部５１から出力された音声コードが認識すべきでない
音声（音）であると判断された場合には、音声コード照
合部５１の出力を音声コード変換部５０の出力とするこ
とを禁止する。つまり、出力判定部５３は音声コードの
判定を行う判定部としての機能を有する。

【００６０】なお、出力判定部５３を設けずに、音声コ
ード照合部５１の出力を音声コード変換部５０の出力と
してもよいが、この場合、音声コード変換部５０の出力
を受け取るべき、音声認識装置１の次段の外部装置は、
誤動作を防止するために、受け取った音声コードが必要
なものなのか否かを判断しなければならない。しかし、
出力判定部５３を設けておけば、音声認識装置１の次段
に配置される外部装置は従来のものをそのまま使用する
ことができる。

【００６１】なお、上述の実施例においては、テーブル
部６０に格納しておく全ての音声コードは互いに異なる
ものとして説明したが、認識すべきでない音声（音）に
ついては共通の音声コードとしてもよい。このようにす
れば、出力判定部５３内のメモリ５５は１つの音声コー
ドを格納したレジスタ程度のものでよく、また、比較部
５４における比較処理も１回で済む。このため、メモリ
５５の不要による音声認識装置１の小型化、コストの低
減、及び音声認識処理の高速化が望める。

【００６２】以上、本発明の音声認識装置１について詳
細に説明したが、本発明の音声認識装置１は上述の実施
例に限定されるものではない。

【００６３】例えば、上記実施例においては、認識すべ
きでない音声としてドアの開閉音やエアコンの作動音等
を挙げ、これらの特徴パラメータをそれぞれ辞書部に準
備するようにしている。しかしながら、必ずしもこれら
全ての特徴パラメータについて準備しなくてもよいこと
を以下に説明する。

【００６４】本発明者の研究により、例えば、マイクを
叩いたり、マイクが他の物にぶつかった時に発せられる
音、ドアを閉める時の音、机を叩いた時の音、手を叩い
たときの音、本やイス等物体が倒れたときの音等の衝撃
音（以下、これらの音を機械的振動ノイズと称する）に
ついてはその特徴パラメータの１つである周波数スペク
トラムの分布が同様であることがわかった。

【００６５】図８は機械的振動ノイズと音声との周波数
スペクトラムの時間的変化を示す図で、（ａ）は機械的
振動ノイズ、（ｂ）は音声を示している。また、
（ａ）、（ｂ）ともｔで示される軸は時間軸、ｆで示さ
れる軸は周波数軸、ｅで示される軸はエネルギー軸であ
る。時間軸は矢印方向に時間の進みを示し、周波数軸は
矢印方向に進むにつれて低周波から高周波となることを
示し、エネルギー軸は矢印方向に進むにつれて高いエネ
ルギーになることを示している。図８（ａ）に示される
ように、機械的振動ノイズはその音が発せられた瞬間に
高周波部分において特に高いエネルギーの分布が見られ
るが、時間ｔが進む（図の時間軸に示す矢印方向）につ
れ、その高周波成分のエネルギーが急激に減衰している
ことがわかる。これに対して、図８（ｂ）に示されるよ
うに、音声はエネルギーの分布は、その音声を発生した
瞬間のみならず、時間ｔの推移に対して高周波成分も低
周波成分もランダムに分布していることがわかる（つま
り、高周波成分の減衰が見られない）。

【００６６】このように、機械的振動ノイズはその種類
（マイクにぶつかった時に生ずる音、机を叩く音や物体
が倒れる音等）に関わらず、図８（ａ）に示すような急
速な高周波成分の減衰を生ずる。よって、この図８
（ａ）ような特徴パラメータを辞書部に予め格納してお
けば、複数の音、特に上記のような機械的ノイズに対し
ては１つの特徴パラメータを格納しておけばよいことと
なる。よって、辞書部の格納する特徴パラメータを少な
くすることができるため、辞書部を縮小化することがで
き、また、辞書部に格納する特徴パラメータの数を少な
くすることができるので、比較処理する対象が少なくて
よい。よって、音声認識方法としては認識能力を向上す
るとともに認識処理速度を向上することができる。ま
た、音声認識装置としては小型化することができる。

【００６７】例えば、図３に示す音声認識部３０におけ
る構成における動作が、例えば、１つのＣＰＵのような
もので実現可能であるならば、必ずしも図３に示すよう
な別々の構成要素でなくともよい。例えば、一時格納部
３３と比較結果格納部３４が兼用できるものであっても
よい。また、比較演算部３２は辞書部４０から複数の特
徴パラメータを受け取り、それらを並列処理するように
してもよい。つまり、上述したように、音声認識部３０
における動作として、音声分析部２０からの出力から特
徴パラメータを抽出し、辞書部４０に格納された特徴パ
ラメータとの比較処理を行うことが実現できるものであ
ればよい。この比較処理を少ない構成で行うことで、音
声認識装置の小型化をより望むことができる。

【００６８】また、辞書部４０に格納された複数の特徴
パラメータとテーブル部６０に格納された音声コードと
を１つのメモリに格納としてもよい。この場合、同じ音
声（音）に対する特徴パラメータと音声コードの格納位
置の対応がそれぞれつくようにしておけば、上述の実施
例の適用が可能であることは言うまでもない。

【００６９】また、上述の実施例においては、車内での
各機構の動作を制御するのに用いられる音声認識装置に
おいてを説明し、この場合は運転の安全性をより高める
ことができる効果が望めるが、本発明の音声認識装置の
適用はこれに限られるものではない。例えば、音声認識
装置を玩具において適用すれば、その玩具が用いられる
環境下で発生することが想定される音の特徴パラメータ
を辞書部に予め登録しておけば、特定の音声に対しての
み動作するようにすることができ、消費電力を低減する
ことができる。このように、音声認識装置を適用する環
境下に応じて、その環境下で発生することが想定される
音の特徴パラメータを辞書部に登録しておけば、様々な
環境下で本発明の音声認識装置を適用することができ、
その認識能力を向上することができる。

【００７０】また、上述の実施例においては、不特定話
者に対する音声認識方法及び音声認識装置についてを説
明したが、特定話者に対して、本発明の音声認識方法及
び音声認識装置を適用してもよい。この場合は、上記と
同様な効果が得られるとともに、辞書部に格納すべき特
徴パラメータが、不特定話者を考慮した特徴パラメータ
ほど準備する必要がないので、辞書部の小型化及び比較
処理対象が少なくてすむので、音声認識装置として小型
化することができ、音声認識方法としてその処理速度を
高速化することが望める。

【００７１】

【発明の効果】以上のように、本発明の音声認識方法を
適用することにより、認識すべきでない単語や周囲環境
の音に対する誤認識を抑制し、認識能力を向上すること
ができる。

【００７２】また、本発明の音声認識装置を適用するこ
とにより、上記効果を音声認識装置の大型化したり、コ
ストが増大したりすることなく、従来の音声認識装置を
大幅に変更することなく実現することができる。

【図面の簡単な説明】

【図１】本発明の実施例を示す音声認識装置１の構成ブ
ロック図である。

【図２】本発明の実施例における音声分析部２０の構成
ブロック図である。

【図３】本発明の実施例における音声認識部３０の構成
ブロック図である。

【図４】本発明の実施例における辞書部４０の格納内容
を示す図である。

【図５】本発明の実施例における音声認識部３０の動作
を示すフローチャートである。

【図６】本発明の実施例における音声コード変換部５０
の構成ブロック図である。

【図７】本発明の実施例におけるテーブル部６０の格納
内容を示す図である。

【図８】本発明の他の実施例における機械的ノイズと音
声との高周波スペクトラムを示す図で、（ａ）は機械的
ノイズのもの、（ｂ）は音声のものである。

【符号の説明】

１音声認識装置２０音声分析部３０音声認識部４０辞書部５０音声コード変換部６０テーブル部

Claims

【特許請求の範囲】

【請求項１】複数の音声に対する特徴パラメータを予
め登録した辞書部を有し、入力された音声に対して該辞
書部を用いて音声の認識を行う音声認識方法において、前記辞書部には、複数の認識すべき特定の音声に対する
特徴パラメータと該特定の音声とは異なる音声に対する
特徴パラメータとを予め登録しておくステップと、入力
された音声から特徴パラメータを検出するステップと、検出された音声の特徴パラメータと前記辞書部に登録さ
れた各特徴パラメータとの類似度を求め、その結果とし
て該辞書部に登録された特徴パラメータのうち該抽出さ
れた音声に近似する１つを指示する情報を出力するステ
ップと、を含むことを特徴とする音声認識方法。
【請求項２】請求項１記載の音声認識方法において、
更に、前記類似度を求めた結果として、前記辞書部に格
納された前記特定の音声に対する音声パラメータの１つ
が選択された場合には、該音声に対応する音声コードの
出力を行い、該辞書部に格納された該特定の音声に対す
る音声パラメータとは異なる音声が選択された場合に
は、特定の処理を行うステップ、を含むことを特徴とす
る音声認識方法。
【請求項３】請求項２記載の音声認識方法において、
前記特定の処理として、前記特定の音声とは異なる音声
に対応する音声コードの出力を禁止することを特徴とす
る音声認識方法。
【請求項４】請求項２記載の音声認識方法において、
前記特定の処理として、前記特定の音声とは異なる音声
に対応する特定の音声コードを出力することを特徴とす
る音声認識方法。
【請求項５】予め登録した複数の音声に対する特徴パ
ラメータと入力された音声に対する特徴パラメータとの
類似度により音声の認識を行う音声認識装置において、複数の認識すべき特定の音声に対する特徴パラメータと
該特定の音声とは異なる音声に対する特徴パラメータと
を予め格納する特徴パラメータ格納手段と、入力された音声に対する特徴パラメータを抽出する特徴
パラメータ抽出手段と、前記抽出した音声に対する特徴パラメータと前記特徴パ
ラメータ格納手段に格納された特徴パラメータとの類似
度を求める類似度比較手段と、前記類似度比較手段により求められた類似度のうち前記
特徴パラメータ格納手段に格納された特徴パラメータの
うち該抽出された音声に近似する１つを指示する情報を
出力する比較結果出力手段と、を有することを特徴とす
る音声認識装置。
【請求項６】請求項５記載の音声認識装置において、
前記比較結果出力手段から出力された情報に対応して外
部装置にて認識可能な音声コードに変換するための音声
コードテーブルと、前記比較結果出力手段から出力された情報に基づき、前
記音声コードテーブルから所望の音声コードを検出し、
出力する音声コード変換手段と、を有することを特徴と
する音声認識装置。
【請求項７】請求項６記載の音声認識装置において、
前記音声コード変換手段は、前記比較結果出力手段から
出力された情報により前記音声コードテーブルから所望
の音声コードを検出する検出部と、検出した前記所望の音声コードが前記特定の音声か、該
特定の音声とは異なる音声かを判定し、その結果が該特
定の音声とは異なる音声の場合にその音声コードの出力
を禁止する判定部とを有することを特徴とする音声認識
装置。