JPH11143485A - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置Info
- Publication number
- JPH11143485A JPH11143485A JP9313673A JP31367397A JPH11143485A JP H11143485 A JPH11143485 A JP H11143485A JP 9313673 A JP9313673 A JP 9313673A JP 31367397 A JP31367397 A JP 31367397A JP H11143485 A JPH11143485 A JP H11143485A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- feature parameter
- output
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Air Conditioning Control Device (AREA)
- Document Processing Apparatus (AREA)
Abstract
る誤認識を抑制し、認識能力を向上した音声認識方法及
び音声認識装置を実現する。 【解決手段】 辞書部40に認識すべき単語の特徴パラ
メータと、認識すべきでない単語や周囲環境の音の特徴
パラメータとを予め登録しておき、音声認識部30に
て、入力された単語(または音)に対する特徴パラメー
タと、辞書部40に登録された特徴パラメータ全てとの
類似度を求め、辞書部40に登録された特徴パラメータ
のうち、入力された単語(または音)に対する特徴パラ
メータに近似した1つを指示する情報を認識結果とす
る。
Description
る音声認識方法及び音声認識装置に関し、特にテンプレ
ートマッチング方式による単語音声の認識における認識
能力を向上するようにした音声認識方法及び音声認識装
置に関するものである。
分野での活用が行われている。例えば、車の運転中にお
ける車内に整備された機構の動作制御を音声にて行うも
のがある。より具体的には、オーディオ装置やエアコン
の操作、ウインドウの開閉操作、車内灯の消灯/点灯等
を音声にて行うものである。このような場合、不特定話
者である運転者が発した音声を正確に認識して各機構の
動作を確実に行わせることが要求される。
があり、その1つとしてテンプレートマッチング方式が
ある。テンプレートマッチング方式とは、特定の音声と
しての認識すべき音声、例えば複数の単語に対する特徴
パラメータを予め登録(格納)した辞書部を持たせてお
くものである。つまり、不特定話者が発した音声である
単語から特徴パラメータを抽出し、この抽出した特徴パ
ラメータと辞書部に登録された各単語の特徴パラメータ
との類似度を比較する。この比較により、辞書部に登録
された特徴パラメータのうち、不特定話者が発した音声
の特徴パラメータに最も近似している特徴パラメータに
対応する単語を、不特定話者が発した単語として認識す
る。なお、特徴パラメータとは、各単語の音声波形、周
波数スペクトラム等のことである。
テンプレートマッチング方式を用いた音声認識方法にお
いては次のような問題点があった。
の認識すべきでない単語(特徴パラメータが辞書部に予
め登録されていない単語)を不特定話者が音声として発
した場合、上記の音声認識方法では、その認識すべきで
ない単語の特徴パラメータに最も近似した単語(特徴パ
ラメータが辞書部に予め登録された単語の1つ)を認識
結果としてしまうことがあった。このような問題点は、
特に、認識すべき特定の音声(単語)に類似した単語に
おいて顕著に生ずる。
く、突発的に発生する周囲環境の音においても生ずるこ
とがあった。突発的に発生する周囲環境の音とは、例え
ば、上述の車内における音声認識に対しては、ドアの開
閉音、エアコンの作動音、走行中のウインドウの風切り
音、道路の継ぎ目や中央線を越える時のタイヤ音等であ
る。つまり、これらの音に対しても、音声認識装置が動
作すると、特徴パラメータが辞書部に予め登録された単
語のうち、最も近似した単語を認識結果としてしまうこ
とがあった。
音声認識装置の大型化したり、コストが増大したりする
ことなく、従来の音声認識装置を大幅に変更することな
く実現することが望ましい。
すべき特定の音声とは異なる音声(例えば、認識すべき
でない単語や周囲環境の音)に対する誤認識を抑制し、
認識能力を向上した音声認識方法の実現を目的とする。
の大型化したり、コストが増大したりすることなく、従
来の音声認識装置を大幅に変更することなく実現するこ
とを目的とする。
め、本発明の音声認識方法は、複数の音声に対する特徴
パラメータを予め登録した辞書部を有し、入力された音
声に対して辞書部を用いて音声の認識を行う音声認識方
法において、辞書部には、複数の認識すべき特定の音声
に対する特徴パラメータと特定の音声とは異なる音声に
対する特徴パラメータとを予め登録しておくステップ
と、入力された音声から特徴パラメータを検出するステ
ップと、検出された音声の特徴パラメータと辞書部に登
録された各特徴パラメータとの類似度を求め、その結果
として辞書部に登録された特徴パラメータのうち抽出さ
れた音声に近似する1つを指示する情報を出力するステ
ップとを含むものである。
を達成するため、更に、類似度を求めた結果として、辞
書部に格納された特定の音声に対する音声パラメータの
1つが選択された場合には、音声に対応する音声コード
の出力を行い、辞書部に格納された特定の音声に対する
音声パラメータとは異なる音声が選択された場合には、
特定の処理を行うステップを含むものである。
を達成するため、特定の処理として、特定の音声とは異
なる音声に対応する音声コードの出力を禁止するもので
ある。
を達成するため、特定の処理として、特定の音声とは異
なる音声に対応する特定の音声コードを出力するもので
ある。
を達成するため、予め登録した複数の音声に対する特徴
パラメータと入力された音声に対する特徴パラメータと
の類似度により音声の認識を行う音声認識装置におい
て、複数の認識すべき特定の音声に対する特徴パラメー
タと特定の音声とは異なる音声に対する特徴パラメータ
とを予め格納する特徴パラメータ格納手段と、入力され
た音声に対する特徴パラメータを抽出する特徴パラメー
タ抽出手段と、抽出した音声に対する特徴パラメータと
特徴パラメータ格納手段に格納された特徴パラメータと
の類似度を求める類似度比較手段と、類似度比較手段に
より求められた類似度のうち特徴パラメータ格納手段に
格納された特徴パラメータのうち抽出された音声に近似
する1つを指示する情報を出力する比較結果出力手段と
を有するものである。
を達成するため、比較結果出力手段から出力された情報
に対応して外部装置にて認識可能な音声コードに変換す
るための音声コードテーブルと、比較結果出力手段から
出力された情報に基づき、音声コードテーブルから所望
の音声コードを検出し、出力する音声コード変換手段と
を有するものである。
を達成するため、音声コード変換手段は、比較結果出力
手段から出力された情報により前記音声コードテーブル
から所望の音声コードを検出する検出部と、検出した所
望の音声コードが特定の音声か、特定の音声とは異なる
音声かを判定し、その結果が特定の音声とは異なる音声
の場合にその音声コードの出力を禁止する判定部とを有
するものである。
識装置についてを図面を用いて以下に詳細に説明する。
一構成例を示す構成ブロック図である。10はマイクロ
フォン、20は音声分析部、30は音声認識部、40は
辞書部、50は音声コード変換部、60はテーブル部で
ある。なお、一般的には、音声認識を行う部分としては
音声認識部30、及び辞書部40で行われる処理が対象
となる。よって、図1におけるマイクロフォン10、音
声分析部20、音声コード変換部50及びテーブル部6
0は音声認識装置1の外部装置として配置してもよい。
この実施例では、図1に示す構成を有するものを音声認
識装置としている。
た音声を受けてアナログ音声データとして音声分析部2
0へ転送するものである。
ら転送されてきたアナログ音声データをデジタル音声デ
ータに変換するものである。
装置1にて認識すべき複数の特定の音声、この実施例に
おいては認識すべき単語の特徴パラメータを予め登録
(格納)しておくものである。また、本発明の辞書部4
0には、特定の音声とは異なる音声として認識すべきで
ない単語、特に、認識すべき単語(特徴パラメータが辞
書部40に予め登録されている単語)に類似した単語の
特徴パラメータや周囲環境の音の特徴パラメータについ
ても辞書部40に予め登録しておく。このように、辞書
部40は特徴パラメータ格納手段としての機能を有す
る。
送されてきたデジタル音声データから特徴パラメータを
抽出し、この抽出した特徴パラメータと辞書部40に予
め登録してある複数の特徴パラメータとの類似度の比較
を行うものである。更に、音声認識部30は、特徴パラ
メータの類似度の比較の結果、辞書部40に登録された
特徴パラメータのうち、マイクロフォン10から入力さ
れた音声に対する特徴パラメータであるところの抽出し
た特徴パラメータに最も近似した1つの特徴パラメータ
を指示する情報を出力するものである。このように、音
声認識部30は、特徴パラメータ抽出手段、類似度比較
手段、及び比較結果出力手段としての機能を有する。
力される情報を音声コードに変換するためのテーブルで
あり、メモリから構成される。つまり、テーブル部60
は音声コードテーブルとしての機能を有する。
から出力される情報からテーブル部60を参照して所望
の音声コードを出力するものである。ここで、音声コー
ドとは、音声認識装置1の出力を受け取る外部装置、例
えば、車内におけるウインドウやエアコン等の機構の動
作を制御するコントローラに対して、このコントローラ
による内部処理(エアコンのスイッチをオンにすること
やウインドウを閉じること等の動作処理)にて音声に対
応した指示を行わせるためのデジタルデータである。
用いて、以下により詳細に説明する。図2は、音声分析
部20の一構成例を示す構成ブロック図である。
力音声増幅部21、フィルタ部23、アナログ/デジタ
ル変換部25から構成されている。
0から転送されてくるアナログ音声データを受信し、受
信したアナログ音声データの信号振幅を増幅するもので
ある。これにより、マイクロフォン10が受けた音声が
小さな音声であっても、その音声の信号振幅が増幅され
るので、アナログ/デジタル変換部25による処理をよ
り正確に行うことができる。フィルタ部23は、入力音
声増幅部21で増幅処理されたアナログ音声データに対
して所定の帯域、例えば雑音成分に相当する帯域を除去
するバンドパスフィルタである。アナログ/デジタル変
換部25は、フィルタ部23を通過したアナログ音声デ
ータを、後段に位置する音声認識部30にてデジタル処
理可能なように、デジタル音声データに変換するもので
ある。このデジタル音声データが音声分析部20の出力
となる。
いて、以下により詳細に説明する。図3は、音声認識部
30の一構成例を示す構成ブロック図である。
ラメータ抽出部31、比較演算部32、一時格納部3
3、比較結果格納部34、制御部35、及びプログラマ
ブルな読み出し専用メモリ(以下、PROMと称する)
36から構成されている。
20から出力されたデジタル音声データから特徴パラメ
ータを抽出するものである。この特徴パラメータとして
は、上述したように、デジタル音声データに対応する音
声の音声波形、周波数スペクトラム等である。このよう
に、特徴パラメータ抽出部31は、特徴パラメータ抽出
手段としての機能を有する。比較演算部32は、特徴パ
ラメータ抽出部31にて抽出された特徴パラメータと辞
書部40に登録されている特徴パラメータとを比較し、
類似度を求めるものである。
ば、辞書部40からまず最初に1つの特徴パラメータを
読み出して、特徴パラメータ抽出部31で抽出された特
徴パラメータとの類似度を求める。求めた類似度と予め
用意しておいた初期比較用の類似度のうち、特徴パラメ
ータ抽出部31から出力された特徴パラメータにより類
似すると判断された特徴パラメータの情報(どの単語に
対応するものか等)及び類似度を一時格納部33に格納
しおく。この場合、予め用意していく初期比較用の類似
度は必ず辞書部40から読み出した方の特徴パラメータ
が一時格納部33に格納されるような値としておけばよ
い。なお、この実施例においては初期比較用の類似度を
準備するようにしたが、初期比較用の類似度を用意せず
に、辞書部40から最初に読み出した1つの特徴パラメ
ータの類似度を、類似度比較をせずに一時格納部33に
格納するようにしてもよいし、辞書部40から2つの特
徴パラメータを読み出して、その2つの特徴パラメータ
の類似度を比較して、それぞれの類似度のうち特徴パラ
メータ抽出部31からの出力により近似する方を一時格
納部33に格納するようにしてもよい。
ら読み出し、類似度を求める。この求めた類似度と一時
格納部33に格納しておいた類似度を比較し、特徴パラ
メータ抽出部31から出力された特徴パラメータにより
類似すると判断された特徴パラメータの情報及び類似度
を一時格納部33に格納しおく。このような処理を、辞
書部40に登録されている特徴パラメータ全てに対して
行う。つまり、辞書部40に登録された特徴パラメータ
全てに対して類似度を比較した後に残った1つ、例え
ば、最後に一時格納部33に格納される特徴パラメータ
の情報が比較演算部32の出力となる。なお、図3にお
ける一時格納部33は比較演算部32の内部に設けても
よい。比較演算部32に一時格納部33の機能を設ける
ことができれば、音声認識装置1の小型化、コストの低
減や処理の高速化が望めるため、より好ましい。このよ
うに、比較演算部32は類似度比較手段としての機能を
有する。
ら出力された情報を一時的に格納して出力するものであ
る。この出力が音声認識部30の出力となる。つまり、
比較結果格納部34は比較結果出力手段としての機能を
有する。なお、この実施例においては、比較演算部32
が、所定の入力音声に対する特徴パラメータの類似度の
比較処理を終了した後、新たにマイクロフォン10から
入力されてくる音声に対する特徴パラメータの類似度の
比較処理をただちに行えるようにするため、比較結果格
納部34を設けているものである。つまり、比較結果格
納部34を設けることで、音声認識装置1としての連続
的な単語音声認識処理が高速に行える効果が望める。ま
た、比較結果格納部34を設けなくとも、比較演算部3
2から出力する情報を音声認識部30の出力としてもよ
い。この場合は、比較結果格納部34の分だけ音声認識
装置1の小型化、コストの低減が望める。
1、比較演算部32、比較結果格納部34、辞書部40
の動作を制御するもので、各部に対して動作を制御する
制御信号を出力するものである。この制御部35の制御
信号出力動作は、この実施例においては、音声分析部2
0からの出力を制御部35が受けることで開始される。
なお、制御部35から出力される制御信号は、PROM
36に格納されたプログラムに基づいて各部に対する上
記処理をタイミングよく行わせるように出力されるもの
である。
出部31に対しては、音声分析部20からの出力に対す
る特徴パラメータ抽出処理の開始及び終了を指示する制
御信号を出力する。また、比較演算部32に対しては、
特徴パラメータ抽出部31からの出力と辞書部40から
の出力との類似度を求める処理の開始及び終了を指示す
る制御信号を出力する。また、辞書部40に対しては、
格納されている特徴パラメータの読み出しを指示する制
御信号を出力する。比較結果格納部34に対しては、比
較演算部32からの出力の格納を指示する制御信号を出
力する。なお、音声認識装置1の動作電源が投入されて
いる時には、特徴パラメータ抽出部31や比較演算部3
2を常時処理可能状態としておくのであれば、制御部3
5から出力される制御信号のうち、特徴パラメータ抽出
部31や比較演算部32に対する開始及び終了を指示す
る信号は特に必要ない場合も考えられる。しかしなが
ら、このような制御信号により特徴パラメータ抽出部3
1や比較演算部32の動作を制御すれば、音声認識部3
0を構成する各部の動作をよりタイミングよく行うこ
と、及び消費電力を押さえることができるので、より好
ましい。
面を用いて説明する。図4は辞書部40の格納内容を示
す図である。
特徴パラメータが複数格納されている。図4において
は、アドレス番号0000H〜FFFFH(Hは16進
表示を示すものである)にそれぞれ特徴パラメータが格
納されている。例えば、アドレス番号0000Hには認
識すべき単語である”エアコン”の特徴パラメータが格
納されている。アドレス番号0001Hには認識すべき
単語である”ウインドウ”の特徴パラメータが格納され
ている。アドレス番号0002Hには認識すべき単語で
ある”オン”の特徴パラメータが格納されている。アド
レス番号0003Hには認識すべき単語である”オープ
ン”の特徴パラメータが格納されている。同様に、必要
な数の認識すべき単語に対する特徴パラメータがそれぞ
れ所定のアドレス番号にて読み出し可能に格納されてい
る。このような認識すべき音声は特定の音声として定義
される。
特徴パラメータの他に、認識すべきでないもの、例え
ば、認識すべき単語の類似語や周囲環境の音の特徴パラ
メータをも格納している。例えば、図4においては、ア
ドレス番号FFFDHには、本来認識すべきでない音で
あるところの、認識すべき音声”オン”の類似語とし
て”サン”の特徴パラメータが格納されている。また、
アドレス番号FFFEHには、本来認識すべきでない音
であるところの、周囲環境の音としてドアの開閉音の特
徴パラメータが格納されている。また、アドレス番号F
FFFHには、本来認識すべきでない音であるところ
の、周囲環境の音としてエアコンの作動音の特徴パラメ
ータが格納されている。このような認識すべき音声の類
似語や周囲環境の音は特定の音声とは異なる音声として
定義される。なお、この定義において、認識すべき音声
である特定の音声とは異なる音声であれば、類似語や周
囲環境の音以外の音(音声)を含めてもよいことは言う
までもない。
る特定の音声の特徴パラメータを格納する領域と、認識
すべきでない音である、認識すべき音声の類似語や周囲
環境の音等の特定の音声とは異なる音声の特徴パラメー
タを格納する領域とを有している。
と周囲環境の音の特徴パラメータの両方を格納するよう
にしているが、音声認識装置1を用いる状況に応じて、
認識すべき音声の類似語あるいは周囲環境の音のどちら
か一方の特徴パラメータを格納するものとしてもよい。
例えば、静かな場所のため、周囲環境の音がほとんど問
題にならない場合において音声認識装置1を用いるので
あれば、辞書部40には、認識すべき音声の特徴パラメ
ータとこの認識すべき音声の類似語の特徴パラメータを
格納しておけばよい。また、認識すべき音声が類似語を
ほとんど持たないような、類似語に対する問題がほとん
ど問題にならない場合において音声認識装置1を用いる
のであれば、辞書部40には、認識すべき音声の特徴パ
ラメータと周囲環境の音の特徴パラメータを格納してお
けばよい。
に応じて、辞書部40に認識すべき音声の類似語あるい
は周囲環境の音のどちらか一方の特徴パラメータを格納
することによって、辞書部40を構成するメモリの容量
が小さくてもよく、また、これにより、辞書部40のサ
イズを小さくすることや音声認識部30による比較処理
する対象も必要数のみにすることもできる。よって、音
声認識装置1の小型化、コスト低減、音声認識処理の高
速化が望める。
語及び周囲環境の音の両方の特徴パラメータを格納する
ことによっては、誤認識を抑制する能力をより向上する
ことが望める。
いて、認識すべき音声の特徴パラメータを格納する領域
としてアドレス番号の若い方から順に格納し、認識すべ
きでない音声であるところの、認識すべき音声の類似語
や周囲環境の音の特徴パラメータを格納する領域とし
て、認識すべき音声が格納されている領域の最後のアド
レス番号に続くアドレス番号から順に格納するようにし
ている。辞書部40に格納されている全ての特徴パラメ
ータに対して音声認識部30での音声認識処理を行うの
であれば、特に、上述のようなアドレス番号にて領域分
けしなくともよいのであるが、領域分けしておくこと
で、格納された特徴パラメータの書き換えが容易に行え
るのでより好ましい。
動作について、図面を用いて説明する。図5は音声認識
部30の動作を説明するフローチャートである。
は、音声認識部30は音声分析部20の出力として転送
されてくるデジタル音声データを特徴パラメータ抽出部
31にて受け取る。この受け取りは、音声分析部20か
らの出力があったことを制御部35が受けて、制御部3
5から特徴パラメータ抽出部31に動作開始を指示する
制御信号を転送することで行われる。特徴パラメータ抽
出部31は、受け取ったデジタル音声データから特徴パ
ラメータの抽出処理を行う。特徴パラメータの抽出処理
が完了したら、特徴パラメータ抽出部31は制御部35
に抽出処理の完了を指示する信号を転送する。
て、制御部35は、特徴パラメータ抽出部31に動作の
終了を指示する制御信号を送るとともに、比較演算部3
2へ動作の開始を指示する信号及び辞書部40へ特徴パ
ラメータの読み出しを指示する制御信号を転送する。こ
の辞書部40からの特徴パラメータの読み出しに際して
は、制御部35は読み出し指示をする信号とともにアド
レス番号0000Hのアドレスデータを送ればよい。
て、比較演算部32は、辞書部40から読み出されたア
ドレス番号0000Hの”エアコン”の特徴パラメータ
を受けて、特徴パラメータ抽出部31から出力される特
徴パラメータと”エアコン”の特徴パラメータとの類似
度を求める。この求めた類似度と、初期比較用の類似度
とを比較し、特徴パラメータ抽出部31からの出力によ
り近似すると判断された方の特徴パラメータに関する情
報(例えば、アドレス番号)と求めた類似度とを少なく
とも格納しておく。一時格納部33からの情報の読み出
しは、比較演算部32が制御部35から受ける比較処理
開始を指示する制御信号を、更に一時格納部33に対す
る読み出し信号として適用するものとし、一時格納部3
3への情報の書き込みは、制御部35に転送すべき、比
較演算部32による類似度比較処理の終了を指示する信
号を、更に一時格納部33に対する書き込み信号として
適用するものとすればよい。1回目の特徴パラメータの
比較が終了したら、比較演算部32はその旨を指示する
信号を制御部35へ転送する。
て、制御部35は辞書部40内に格納された特徴パラメ
ータ全てに対して比較演算部32での比較処理が終了し
たか否かを判断する。これは、制御部35にて、比較演
算部32による比較処理開始とともに、辞書部40から
の読み出しを行うことに1ずつカウント数を更新するカ
ウンタを設けておいて、カウント数が所定の値(実施例
においてはFFFFHに当たるカウント数)に達したか
否かを判断するようにすればよい。つまり、カウンタの
カウント値がFFFFHに達していなければ、ステップ
S5へ進む。また、カウンタのカウント値がFFFFH
に達したならば、ステップS6へ進む。
は、辞書部40から次の特徴パラメータである、アドレ
ス番号0001Hの”ウインドウ”の特徴パラメータの
読み出しを指示するとともに、比較演算部32に、再び
比較処理開始を指示する制御信号を転送する。これによ
り、ステップS3の類似度比較動作が、一時格納部33
に格納された情報と辞書部40から新たに読み出され
た”ウインドウ”の特徴パラメータとの間で行われる。
は比較演算部32に類似度比較処理の終了を指示する制
御信号を転送するとともに、比較結果格納部34に対し
て、比較演算部32からの出力(つまり、類似度比較処
理の結果、辞書部40に格納された特徴パラメータのう
ち、特徴パラメータ抽出部31にて抽出された特徴パラ
メータに最も近似していた特徴パラメータを有する音声
の情報)を格納する。比較演算部32から出力される情
報として、例えば、この実施例ではアドレス番号であ
る。つまり、類似度比較処理の結果、”オン”の特徴パ
ラメータが選ばれたならば、比較演算部32からの出力
はアドレス番号0000Hを指示するデータとなる。
による処理は比較演算部32内で行わせるようにしても
よい。この場合は、制御部35からの類似度比較処理の
開始を指示する制御信号及び比較演算部32からの類似
度比較処理の終了を指示する信号がそれぞれ1回ずつで
済む。この場合、音声認識装置1の音声認識処理をより
高速にすることが望める。
に、認識すべきでない音声として”サン”、ドアの開閉
音、エアコンの作動音等の特徴パラメータをも辞書部4
0に格納している。上記ステップS2〜S5において、
これらの特徴パラメータに対しても、類似度比較処理が
行われる。このため、例えば、不特定話者が誤って”サ
ン”と発声した事に対して、音声認識装置1が類似度比
較処理を行った場合、辞書部40に格納されている特徴
パラメータの中では、類似する単語である”オン”の特
徴パラメータとの類似度より、”サン”の特徴パラメー
タとの類似度の方がより近似するものとして選択され
る。このため、”サン”と発声した音声に対して音声認
識装置1が音声認識処理を行ったとしても、誤って認識
すべき音声”オン”と判断することがない。同様に、ド
アの開閉音やエアコンの作動音等により、音声認識装置
1が音声認識処理を行ったとしても、それぞれ誤って認
識すべき音声の1つを認識結果として判断することがな
い。
識処理における誤認識を抑制することができ、認識能力
を向上できる。また、上記実施例においては、辞書部4
0に、本来認識すべきでない音(音声)の特徴パラメー
タを追加して格納し、これらの特徴パラメータに対して
も類似度比較処理を行うようにしたものなので、音声認
識装置1の構成として、上述の認識能力の向上を達成す
るために回路構成を大幅に変更することや特別な回路構
成の追加等は必要としていない。よって、本発明の音声
認識装置1を大型化したり、コストが増大したりするこ
となく、従来の音声認識装置を大幅に変更することな
く、認識能力の向上を実現することができる。
置1の音声認識部30からの出力に対する処理を行う音
声コード変換部50について、図面を用いて以下に説明
する。図6は音声コード変換部50の構成を示す構成ブ
ロック図である。
音声コード照合部51及び出力判定部53から構成され
ている。音声コード照合部51は、音声認識部30から
の出力である認識結果の情報(上記説明においてはアド
レス番号)を受け取り、この情報を音声認識装置1の後
段に配置される外部装置、例えば、コントローラのよう
なものにて、どの単語を示すものかを認識できるデータ
(コントローラの動作にて処理可能なデータ)である音
声コードに変換するものである。つまり、音声コード照
合部51は、音声認識部30からの出力に対応する音声
コードを出力する。このように、音声コード照合部51
は音声コードを検出する検出部としての機能を有する。
なお、この変換にはテーブル部60が用いられる。
を用いて説明する。図7において、テーブル部60に
は、アドレス番号に対応して音声コードが複数格納され
ている。図7においては、アドレス番号0000H〜F
FFFH(Hは16進表示を示すものである)にそれぞ
れ対応する音声コードが格納されている。例えば、アド
レス番号0000Hには認識すべき単語である”エアコ
ン”に対応する音声コードが格納されている。アドレス
番号0001Hには認識すべき単語である”ウインド
ウ”に対応する音声コードが格納されている。アドレス
番号0002Hには認識すべき単語である”オン”に対
応する音声コード格納されている。アドレス番号000
3Hには認識すべき単語である”オープン”に対応する
音声コードが格納されている。アドレスFFFDHには
認識すべきでない単語である”サン”に対応する音声コ
ードが格納されている。アドレス番号FFFEHには認
識すべきでない音であるドアの開閉音に対応する音声コ
ードが格納されている。アドレス番号FFFFHには認
識すべきでない音であるエアコンの作動音に対応する音
声コードが格納されている。同様に、複数の音声コード
がそれぞれ所定のアドレス番号にて読み出し可能に格納
されている。
声コードのアドレス番号と辞書部40に格納してある特
徴パラメータのアドレス番号とは対応するようにしてい
る。つまり、単語”オン”に対する特徴パラメータの辞
書部40におけるアドレス番号と、単語”オン”に対す
る音声コードのテーブル部60におけるアドレス番号と
は同じアドレス番号0003Hとしている。このように
することで、音声認識部30からの出力としてアドレス
番号を、音声コード変換部50にて受けることで容易に
音声コードへ変換することができる。
ータであり、実施例においてはテーブル部60に格納さ
れた全ての音声コードが互いに異なる値を有するものと
する。
出力を受け取る。出力判定部53は比較部54とメモリ
55を有する。メモリ55には、認識すべきでない音声
の音声コードが格納されている。例えば、図7において
は、認識すべき単語の類似語である”サン”に対応する
音声コードや、周囲環境の音であるドアの開閉音やエア
コンの作動音に対応する音声コードが格納されている。
比較部54は、音声コード照合部51の出力とメモリ5
5に格納された音声コード全てとをそれぞれ比較する。
この比較の結果、一致するものがなければ、つまり、音
声コード照合部51から出力された音声コードが認識す
べき音声(単語)であると判断された場合には、音声コ
ード照合部51の出力を出力判定部53を介してそのま
ま音声コード変換部50の出力とする。また、この比較
の結果、一致するものがあれば、つまり、音声コード照
合部51から出力された音声コードが認識すべきでない
音声(音)であると判断された場合には、音声コード照
合部51の出力を音声コード変換部50の出力とするこ
とを禁止する。つまり、出力判定部53は音声コードの
判定を行う判定部としての機能を有する。
ード照合部51の出力を音声コード変換部50の出力と
してもよいが、この場合、音声コード変換部50の出力
を受け取るべき、音声認識装置1の次段の外部装置は、
誤動作を防止するために、受け取った音声コードが必要
なものなのか否かを判断しなければならない。しかし、
出力判定部53を設けておけば、音声認識装置1の次段
に配置される外部装置は従来のものをそのまま使用する
ことができる。
部60に格納しておく全ての音声コードは互いに異なる
ものとして説明したが、認識すべきでない音声(音)に
ついては共通の音声コードとしてもよい。このようにす
れば、出力判定部53内のメモリ55は1つの音声コー
ドを格納したレジスタ程度のものでよく、また、比較部
54における比較処理も1回で済む。このため、メモリ
55の不要による音声認識装置1の小型化、コストの低
減、及び音声認識処理の高速化が望める。
細に説明したが、本発明の音声認識装置1は上述の実施
例に限定されるものではない。
きでない音声としてドアの開閉音やエアコンの作動音等
を挙げ、これらの特徴パラメータをそれぞれ辞書部に準
備するようにしている。しかしながら、必ずしもこれら
全ての特徴パラメータについて準備しなくてもよいこと
を以下に説明する。
叩いたり、マイクが他の物にぶつかった時に発せられる
音、ドアを閉める時の音、机を叩いた時の音、手を叩い
たときの音、本やイス等物体が倒れたときの音等の衝撃
音(以下、これらの音を機械的振動ノイズと称する)に
ついてはその特徴パラメータの1つである周波数スペク
トラムの分布が同様であることがわかった。
スペクトラムの時間的変化を示す図で、(a)は機械的
振動ノイズ、(b)は音声を示している。また、
(a)、(b)ともtで示される軸は時間軸、fで示さ
れる軸は周波数軸、eで示される軸はエネルギー軸であ
る。時間軸は矢印方向に時間の進みを示し、周波数軸は
矢印方向に進むにつれて低周波から高周波となることを
示し、エネルギー軸は矢印方向に進むにつれて高いエネ
ルギーになることを示している。図8(a)に示される
ように、機械的振動ノイズはその音が発せられた瞬間に
高周波部分において特に高いエネルギーの分布が見られ
るが、時間tが進む(図の時間軸に示す矢印方向)につ
れ、その高周波成分のエネルギーが急激に減衰している
ことがわかる。これに対して、図8(b)に示されるよ
うに、音声はエネルギーの分布は、その音声を発生した
瞬間のみならず、時間tの推移に対して高周波成分も低
周波成分もランダムに分布していることがわかる(つま
り、高周波成分の減衰が見られない)。
(マイクにぶつかった時に生ずる音、机を叩く音や物体
が倒れる音等)に関わらず、図8(a)に示すような急
速な高周波成分の減衰を生ずる。よって、この図8
(a)ような特徴パラメータを辞書部に予め格納してお
けば、複数の音、特に上記のような機械的ノイズに対し
ては1つの特徴パラメータを格納しておけばよいことと
なる。よって、辞書部の格納する特徴パラメータを少な
くすることができるため、辞書部を縮小化することがで
き、また、辞書部に格納する特徴パラメータの数を少な
くすることができるので、比較処理する対象が少なくて
よい。よって、音声認識方法としては認識能力を向上す
るとともに認識処理速度を向上することができる。ま
た、音声認識装置としては小型化することができる。
る構成における動作が、例えば、1つのCPUのような
もので実現可能であるならば、必ずしも図3に示すよう
な別々の構成要素でなくともよい。例えば、一時格納部
33と比較結果格納部34が兼用できるものであっても
よい。また、比較演算部32は辞書部40から複数の特
徴パラメータを受け取り、それらを並列処理するように
してもよい。つまり、上述したように、音声認識部30
における動作として、音声分析部20からの出力から特
徴パラメータを抽出し、辞書部40に格納された特徴パ
ラメータとの比較処理を行うことが実現できるものであ
ればよい。この比較処理を少ない構成で行うことで、音
声認識装置の小型化をより望むことができる。
パラメータとテーブル部60に格納された音声コードと
を1つのメモリに格納としてもよい。この場合、同じ音
声(音)に対する特徴パラメータと音声コードの格納位
置の対応がそれぞれつくようにしておけば、上述の実施
例の適用が可能であることは言うまでもない。
各機構の動作を制御するのに用いられる音声認識装置に
おいてを説明し、この場合は運転の安全性をより高める
ことができる効果が望めるが、本発明の音声認識装置の
適用はこれに限られるものではない。例えば、音声認識
装置を玩具において適用すれば、その玩具が用いられる
環境下で発生することが想定される音の特徴パラメータ
を辞書部に予め登録しておけば、特定の音声に対しての
み動作するようにすることができ、消費電力を低減する
ことができる。このように、音声認識装置を適用する環
境下に応じて、その環境下で発生することが想定される
音の特徴パラメータを辞書部に登録しておけば、様々な
環境下で本発明の音声認識装置を適用することができ、
その認識能力を向上することができる。
者に対する音声認識方法及び音声認識装置についてを説
明したが、特定話者に対して、本発明の音声認識方法及
び音声認識装置を適用してもよい。この場合は、上記と
同様な効果が得られるとともに、辞書部に格納すべき特
徴パラメータが、不特定話者を考慮した特徴パラメータ
ほど準備する必要がないので、辞書部の小型化及び比較
処理対象が少なくてすむので、音声認識装置として小型
化することができ、音声認識方法としてその処理速度を
高速化することが望める。
適用することにより、認識すべきでない単語や周囲環境
の音に対する誤認識を抑制し、認識能力を向上すること
ができる。
とにより、上記効果を音声認識装置の大型化したり、コ
ストが増大したりすることなく、従来の音声認識装置を
大幅に変更することなく実現することができる。
ロック図である。
ブロック図である。
ブロック図である。
を示す図である。
を示すフローチャートである。
の構成ブロック図である。
内容を示す図である。
声との高周波スペクトラムを示す図で、(a)は機械的
ノイズのもの、(b)は音声のものである。
Claims (7)
- 【請求項1】 複数の音声に対する特徴パラメータを予
め登録した辞書部を有し、入力された音声に対して該辞
書部を用いて音声の認識を行う音声認識方法において、 前記辞書部には、複数の認識すべき特定の音声に対する
特徴パラメータと該特定の音声とは異なる音声に対する
特徴パラメータとを予め登録しておくステップと、入力
された音声から特徴パラメータを検出するステップと、 検出された音声の特徴パラメータと前記辞書部に登録さ
れた各特徴パラメータとの類似度を求め、その結果とし
て該辞書部に登録された特徴パラメータのうち該抽出さ
れた音声に近似する1つを指示する情報を出力するステ
ップと、を含むことを特徴とする音声認識方法。 - 【請求項2】 請求項1記載の音声認識方法において、
更に、前記類似度を求めた結果として、前記辞書部に格
納された前記特定の音声に対する音声パラメータの1つ
が選択された場合には、該音声に対応する音声コードの
出力を行い、該辞書部に格納された該特定の音声に対す
る音声パラメータとは異なる音声が選択された場合に
は、特定の処理を行うステップ、を含むことを特徴とす
る音声認識方法。 - 【請求項3】 請求項2記載の音声認識方法において、
前記特定の処理として、前記特定の音声とは異なる音声
に対応する音声コードの出力を禁止することを特徴とす
る音声認識方法。 - 【請求項4】 請求項2記載の音声認識方法において、
前記特定の処理として、前記特定の音声とは異なる音声
に対応する特定の音声コードを出力することを特徴とす
る音声認識方法。 - 【請求項5】 予め登録した複数の音声に対する特徴パ
ラメータと入力された音声に対する特徴パラメータとの
類似度により音声の認識を行う音声認識装置において、 複数の認識すべき特定の音声に対する特徴パラメータと
該特定の音声とは異なる音声に対する特徴パラメータと
を予め格納する特徴パラメータ格納手段と、 入力された音声に対する特徴パラメータを抽出する特徴
パラメータ抽出手段と、 前記抽出した音声に対する特徴パラメータと前記特徴パ
ラメータ格納手段に格納された特徴パラメータとの類似
度を求める類似度比較手段と、 前記類似度比較手段により求められた類似度のうち前記
特徴パラメータ格納手段に格納された特徴パラメータの
うち該抽出された音声に近似する1つを指示する情報を
出力する比較結果出力手段と、を有することを特徴とす
る音声認識装置。 - 【請求項6】 請求項5記載の音声認識装置において、
前記比較結果出力手段から出力された情報に対応して外
部装置にて認識可能な音声コードに変換するための音声
コードテーブルと、 前記比較結果出力手段から出力された情報に基づき、前
記音声コードテーブルから所望の音声コードを検出し、
出力する音声コード変換手段と、を有することを特徴と
する音声認識装置。 - 【請求項7】 請求項6記載の音声認識装置において、
前記音声コード変換手段は、前記比較結果出力手段から
出力された情報により前記音声コードテーブルから所望
の音声コードを検出する検出部と、 検出した前記所望の音声コードが前記特定の音声か、該
特定の音声とは異なる音声かを判定し、その結果が該特
定の音声とは異なる音声の場合にその音声コードの出力
を禁止する判定部とを有することを特徴とする音声認識
装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9313673A JPH11143485A (ja) | 1997-11-14 | 1997-11-14 | 音声認識方法及び音声認識装置 |
| KR10-1998-0048460A KR100395713B1 (ko) | 1997-11-14 | 1998-11-12 | 음성인식방법및음성인식장치 |
| EP98309275A EP0916972A3 (en) | 1997-11-14 | 1998-11-12 | Speech recognition method and speech recognition device |
| US09/192,197 US6301559B1 (en) | 1997-11-14 | 1998-11-16 | Speech recognition method and speech recognition device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9313673A JPH11143485A (ja) | 1997-11-14 | 1997-11-14 | 音声認識方法及び音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11143485A true JPH11143485A (ja) | 1999-05-28 |
Family
ID=18044142
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9313673A Pending JPH11143485A (ja) | 1997-11-14 | 1997-11-14 | 音声認識方法及び音声認識装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6301559B1 (ja) |
| EP (1) | EP0916972A3 (ja) |
| JP (1) | JPH11143485A (ja) |
| KR (1) | KR100395713B1 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001083989A (ja) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置 |
| JP2002225713A (ja) * | 2001-02-02 | 2002-08-14 | Funai Electric Co Ltd | 自動報知装置および携帯型音響再生装置 |
| JP2002304189A (ja) * | 2001-04-05 | 2002-10-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体 |
| WO2008111462A1 (ja) * | 2007-03-06 | 2008-09-18 | Nec Corporation | 雑音抑圧の方法、装置、及びプログラム |
| WO2013051072A1 (ja) * | 2011-10-07 | 2013-04-11 | 三菱電機株式会社 | ナビゲーション装置、方法およびプログラム |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7283953B2 (en) * | 1999-09-20 | 2007-10-16 | International Business Machines Corporation | Process for identifying excess noise in a computer system |
| US20060241946A1 (en) * | 2003-08-12 | 2006-10-26 | Martin Oerder | Speech input interface for dialog systems |
| EP1703471B1 (en) * | 2005-03-14 | 2011-05-11 | Harman Becker Automotive Systems GmbH | Automatic recognition of vehicle operation noises |
| KR100737780B1 (ko) * | 2006-07-10 | 2007-07-10 | 주식회사 대우일렉트로닉스 | 음성 인식 전자 레인지 및 전자 레인지 제어 방법 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
| CA2015410C (en) * | 1989-05-17 | 1996-04-02 | Chin H. Lee | Speech recognition employing key word modeling and non-key word modeling |
| JPH0566790A (ja) | 1991-09-10 | 1993-03-19 | Oki Electric Ind Co Ltd | 音声認識方法 |
| US5764852A (en) * | 1994-08-16 | 1998-06-09 | International Business Machines Corporation | Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events |
-
1997
- 1997-11-14 JP JP9313673A patent/JPH11143485A/ja active Pending
-
1998
- 1998-11-12 EP EP98309275A patent/EP0916972A3/en not_active Withdrawn
- 1998-11-12 KR KR10-1998-0048460A patent/KR100395713B1/ko not_active Expired - Fee Related
- 1998-11-16 US US09/192,197 patent/US6301559B1/en not_active Expired - Fee Related
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001083989A (ja) * | 1999-09-09 | 2001-03-30 | Xanavi Informatics Corp | 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置 |
| JP2002225713A (ja) * | 2001-02-02 | 2002-08-14 | Funai Electric Co Ltd | 自動報知装置および携帯型音響再生装置 |
| JP2002304189A (ja) * | 2001-04-05 | 2002-10-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体 |
| WO2008111462A1 (ja) * | 2007-03-06 | 2008-09-18 | Nec Corporation | 雑音抑圧の方法、装置、及びプログラム |
| JPWO2008111462A1 (ja) * | 2007-03-06 | 2010-06-24 | 日本電気株式会社 | 雑音抑圧の方法、装置、及びプログラム |
| US9047874B2 (en) | 2007-03-06 | 2015-06-02 | Nec Corporation | Noise suppression method, device, and program |
| WO2013051072A1 (ja) * | 2011-10-07 | 2013-04-11 | 三菱電機株式会社 | ナビゲーション装置、方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| KR19990045241A (ko) | 1999-06-25 |
| KR100395713B1 (ko) | 2004-02-05 |
| US6301559B1 (en) | 2001-10-09 |
| EP0916972A2 (en) | 1999-05-19 |
| EP0916972A3 (en) | 2000-04-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
| US6088669A (en) | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling | |
| JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| JPH0962293A (ja) | 音声認識対話装置および音声認識対話処理方法 | |
| JPH11119791A (ja) | 音声感情認識システムおよび方法 | |
| KR100742888B1 (ko) | 음성 인식 방법 | |
| CN1639768B (zh) | 自动语音识别方法及装置 | |
| JP2009145755A (ja) | 音声認識装置 | |
| JPH11143485A (ja) | 音声認識方法及び音声認識装置 | |
| JP3578587B2 (ja) | 音声認識装置および音声認識方法 | |
| JP2009288815A (ja) | 機器制御装置、音声認識装置、エージェント装置、機器制御方法及びプログラム | |
| JP2000029486A (ja) | 音声認識システムおよび方法 | |
| JPH11231895A (ja) | 音声認識方法及びその装置 | |
| JPH09134193A (ja) | 音声認識装置 | |
| WO1994002936A1 (en) | Voice recognition apparatus and method | |
| JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| EP1426924A1 (en) | Speaker recognition for rejecting background speakers | |
| JP3533773B2 (ja) | 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置 | |
| JP2008136530A (ja) | 録音データ自動出力システム | |
| JPH0392900A (ja) | 音声認識制御装置 | |
| WO2001037261A1 (en) | Coding and training of the vocabulary for speech recognition | |
| JP2004004182A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| JPS607492A (ja) | 単音節音声認識方式 | |
| JP2000155600A (ja) | 音声認識システムおよび入力音声レベル警告方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040830 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060418 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060613 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060923 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060929 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061013 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061121 |