JP3523949B2

JP3523949B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP3523949B2
Application number: JP31062395A
Authority: JP
Inventors: 晴剛安田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-11-29
Filing date: 1995-11-29
Publication date: 2004-04-26
Anticipated expiration: 2015-11-29
Also published as: JPH09152888A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識における
認識結果の後処理機能を有し特に単語音声認識の分野に
応用可能な音声認識装置及び音声認識方法に関する。

【０００２】

【従来の技術】音声認識装置における基本機能の一例
は、例えば日本音響学会講論集３−１−８（１９８３年
１０月）の公開論文に記載されており、その中でも不特
定話者に関する認識方法の一例は、第１０回情報理論と
その応用シンポジウム講演論文集「ファジィパターンマ
ッチングを用いた不特定話者単語音声認識」に開示さ
れ、その不特定話者の辞書作成方法は、電子通信学会論
文集Ｖｏｌ．Ｊ６９−ＡＮｏ．１（１９８６年）「不特
定話者単語音声認識」に記載されている。

【０００３】

【発明が解決しようとする課題】音声認識装置におい
て、未知入力音声と、上記未知入力音声の認識を行うた
めに使用され予め登録し格納されている標準パターンと
の照合動作について図２を参照し説明する。マイクロフ
ォン１から入力された未知入力音声は、前処理手段２で
その入力レベルが最適化され不要な帯域の信号が除かれ
た後、特徴抽出手段３において当該未知入力音声の認識
に必要な特徴パターンに変換される。変換された上記特
徴パターンは、標準パターン格納手段４に予め登録し格
納されている複数の標準パターンと認識処理手段５にお
いて比較照合され、上記標準パターン毎に、上記標準パ
ターンと上記特徴パターンとの類似度が決定される。こ
のようにして求められた各々の標準パターンの類似度に
応じて、その類似度の高い順に、当該未知入力音声に対
する候補単語が決定される。次に後処理手段６では決定
された上記候補単語に基づいて、ある基準を満たす場合
にはその候補単語を結果出力手段７を介して外部へ出力
し、上記基準を満たさない場合には候補単語を棄却（リ
ジェクトともいう）する。

【０００４】次に、上記標準パターンの作成方法に関し
て説明する。音声認識装置の標準パターンの作成法は多
数報告されているが、ここでは例えば従来より用いられ
ているパターンマッチング方法を用いて説明する。まず
特定話者方法の場合は、当該音声認識装置を使用する前
に１回または複数回、上記特定話者が発声し、この発声
に基づく入力パターンを荷重平均化し、入力パターンの
辞書を作成する。不特定話者を扱う音声認識装置では複
数話者の発声に基づく入力パターンを荷重平均化して入
力パターンの辞書を作成するが、その場合、標準パター
ンに一般性をもたせるため、複数の評価入力パターンを
入力し最も認識率が高くなるように標準パターンの最適
化を行う場合が多い。その方法の一例が特開平５−３１
３６８７号公報に開示されている。このように作成され
た標準パターンを標準パターン格納手段４に格納してお
く。尚、このとき、特定話者と不特定話者とをそれぞれ
個別に認識する場合と双方を混在させて認識する場合と
の二通りがある。

【０００５】又、従来より、音声認識装置には当該音声
認識装置を使用する使用者の音声だけでなく、当該音声
認識装置が使用されている環境における周囲の騒音や使
用者の本来の使用目的以外の音声、例えば私語などが入
力され、これらの騒音や私語などに音声入力装置が反応
してしまい問題となっていた。更に予め登録されていな
い単語を使用者が発声した場合など、得られる類似度は
低いにもかかわらず有効な棄却機能が備わっていないた
め、音声認識装置から何らかの結果が出力され、弊害を
生じてしまう場合もあった。従ってこのような弊害を防
止するために、従来の音声認識装置では、確度の低い認
識結果に対してはその結果そのものを棄却（リジェク
ト）し、再度、使用者に入力を促す機能が必要となって
いた。このような棄却機能に関する音声認識装置は、特
開昭６１−７３２００号公報及び特開平１−１５６８０
０号公報に開示される。即ち、これの標準パターンを使
用しての未知入力音声の音声認識を行い最も大きい第１
位類似度を有する第１位標準パターンと第２位の類似度
を有する第２位標準パターンを求め、上記第１位類似度
と上記第２位類似度との比率を求め、求めた比率が第１
閾値以上でかつ、上記第１位標準パターンの第１位類似
度が第２閾値以上を満たす場合には、上記第１位標準パ
ターンを音声認識結果として出力し、満たさない場合に
は上記第１位標準パターンを棄却する機能を有する。

【０００６】しかしこの場合、上記第１閾値及び上記第
２閾値は、ある一定の値に固定されているため、未知入
力音声と標準パターンとの類似度が未知入力音声の発せ
られる環境によってばらついたり、不特定話者と特定話
者が混在する場合には上記類似度の基準が異なるという
現象が生じる。よってある未知入力音声によっては候補
に挙げられた標準パターンが正答であるにも拘わらず棄
却されやすかったり、誤答であるにも拘わらず棄却され
にくくなったりするという問題点があった。本発明は上
述したような問題点を解決するためになされたもので、
未知入力音声に対して安定した認識結果を得ることがで
きる音声認識装置及び音声認識方法を提供することを目
的とする。

【０００７】

【課題を解決するための手段及び作用】本発明の一態様
によれば音声認識装置は、標準パターンを格納する標準
パターン格納手段と、未知入力音声と上記標準パターン
とを比較照合することで上記未知入力音声の認識を行う
認識手段と、を備えた音声認識装置であって、上記未知
入力音声に対して選択された標準パターンの各標準パタ
ーン毎に設けられる基準類似度を格納する基準類似度格
納手段と、上記未知入力音声に対して選択された標準パ
ターンの採用を棄却する基準となり上記基準類似度格納
手段に格納された上記基準類似度に基づき生成される棄
却閾値を格納する棄却閾値格納手段とを備え、上記認識
手段は上記比較照合にて選択された上記標準パターンに
ついて上記選択された標準パターンを認識結果とするか
否かを上記基準類似度に基づき決定するとき、さらに、
未知入力音声と各標準パターンとの類似度を算出し最も
類似度が大きい第１位類似度を有する第１位標準パター
ンと第２位の類似度を有する第２位標準パターンとを求
めさらに上記第１位類似度と第２位類似度との比率が第
１閾値以上で、かつ上記第１位類似度が第２閾値以上で
ある上記第１位標準パターンについて、上記認識手段は
上記第１位標準パターンの上記第１位類似度が上記棄却
閾値以上である場合に上記第１位標準パターンを採用す
ることを特徴とする。

【０００８】

【０００９】このような音声認識装置によれば、各標準
パターンにはそれぞれ基準類似度が付加されており、該
基準類似度に基づき選択され候補に挙げられた標準パタ
ーンを音声認識結果として採用するか否かが判断され
る。よって、単に、未知入力音声と標準パターンとの類
似度の大小によってのみ音声認識を行うのではなく、さ
らに基準類似度を加味して音声認識を行うので、音声認
識結果における正答率を向上させることができる。この
ように上述の態様に記載する発明特定事項は、入力音声
に対して安定した認識結果を得ることができるように作
用する。

【００１０】又、本発明の別の態様によれば音声認識方
法は、標準パターンを格納し、未知入力音声と上記標準
パターンとを比較照合することで上記未知入力音声の認
識を行う音声認識方法であって、上記未知入力音声に対
して最も類似性の高い上記標準パターンの各標準パター
ン毎に設けられる基準類似度を格納し、上記基準類似度
に基づき生成され未知入力音声に対して選択された標準
パターンの採用を棄却するための棄却閾値を格納し、上
記比較照合にて選択された上記標準パターンについて上
記選択された標準パターンを認識結果とするか否かを上
記基準類似度に基づき決定するとき、さらに未知入力音
声と各標準パターンとの類似度を算出し最も類似度が大
きい第１位類似度を有する第１位標準パターンと第２位
の類似度を有する第２位標準パターンとを求めさらに上
記第１位類似度と第２位類似度との比率が第１閾値以上
で、かつ上記第１位類似度が第２閾値以上である上記第
１位標準パターンについて、上記第１位標準パターンの
上記第１位類似度が上記棄却閾値以上である場合に上記
第１位標準パターンを採用する、ことを特徴とする。

【００１１】

【００１２】

【発明の実施の形態】本発明の一実施形態である音声認
識装置について図を参照しながら以下に説明する。本音
声認識装置は音声認識における後処理機能を有するもの
であり、予め登録されていない単語である未知入力の音
声、即ち未知入力音声を音声認識装置に発声した場合、
当該未知入力音声を効果的に棄却する機能をもたせ音声
認識の誤認識を防ごうとするものである。尚、図１にお
いて図２に示す構成部分と同じ構成部分については同じ
符号を付しその説明を省力する。又、説明を容易にする
ために以下の説明では不特定話者の認識方式を例に取っ
て説明する。本実施形態において、特徴抽出手段３の出
力側は、標準パターンの作成時には標準パターン生成手
段１１に接続され、標準パターンが作成された後におけ
る未知入力音声の認識時には認識手段１５に含まれる認
識処理手段５に接続される。又、標準パターン生成手段
１１の出力側は、標準パターン格納手段４に接続され
る。標準パターン生成手段１１には、標準パターン生成
用入力音声が特徴抽出手段３にて認識に必要なパターン
に変換された音声パターンが供給される。不特定話者の
場合、標準パターン生成手段１１は、標準パターンを作
成する公知の装置であり、各単語毎について複数人が発
声した標準パターン生成用入力音声から得た音声パター
ンを用いて当該各単語に対応するそれぞれの標準パター
ンを一つづつ生成する。尚、特定話者の場合には、各単
語について一人が複数回発声して得られる音声パターン
を用いて当該各単語に対応するそれぞれの標準パターン
を一つづつ生成する。標準パターン格納手段４の出力側
は認識処理手段５に接続され、未知入力音声の認識動作
時には、標準パターン格納手段４に格納されている標準
パターンが認識処理手段５へ送出される。又、認識処理
手段５の出力側は、後述の基準類似度を生成する基準類
似度生成時には基準類似度生成手段１２に接続され、一
方上記認識動作時には認識手段５に含まれる棄却決定手
段１４に接続される。

【００１３】基準類似度生成手段１２には、基準類似度
の生成時において、特徴抽出手段３から変換された音声
パターンが認識処理手段５を介して供給される。基準類
似度生成手段１２は、予め当該基準類似度生成手段１２
に格納され、又は外部から供給される複数の評価パター
ンと、特徴抽出手段３から供給される上記音声パターン
とに基づき、上記評価パターンと上記音声パターンとの
類似度を上記評価パターン毎に算出し、この算出結果を
もとに基準類似度を算出する。上記評価パターンとは、
上述した標準パターンを作成するために発声した複数者
とは別の複数者（例えば１００人）によって、例えば
「鉛筆」という単語について基準類似度生成用入力音声
を発声したときに得られる数十ないし数百通りの音声パ
ターンをいう。具体的に説明すると、基準類似度生成手
段１２は、特徴抽出手段３から供給された「鉛筆」に対
応した音声パターンと、例えば上記数十ないし数百通り
の「鉛筆」の音声パターンとの類似度をそれぞれ算出す
る。よって「鉛筆」の単語に対して数十ないし数百個の
類似度が得られ、さらに基準類似度生成手段１２では、
これらの数十ないし数百個の類似度について統計的処理
を行う。統計的処理として本実施形態では平均値を算出
しているが、これに限られず例えば分散等の値を算出す
るようにしてもよい。このようにして得られた例えば上
記平均値が上記基準類似度となる。よって基準類似度が
大きいことは、未知入力音声の音声パターンに近似する
音声パターンを発声する人数が多いことを意味する。即
ち基準類似度は、未知入力音声に対して候補に挙げられ
た標準パターンと上記未知入力音声との一致する程度、
換言すると選択された上記標準パターンの選択正答率を
表すものである。そして生成された基準類似度は、各標
準パターンに対応させながら基準類似度格納手段１６へ
格納される。このようにして各標準パターン毎に基準類
似度が設けられる。

【００１４】認識動作時に特徴抽出手段３と接続される
認識手段１５は、認識処理手段５と棄却決定手段１４と
を有する。認識処理手段５は、未知入力音声について特
徴抽出手段３にて変換された音声パターンと、標準パタ
ーン格納手段４から読み出した標準パターンとの類似度
を算出し、算出した類似度に基づき、最大の第１位類似
度を有する第１位標準パターン、第２位類似度を有する
第２位標準パターン、…を決定しこれらを順次送出す
る。一方、基準類似度格納手段１６の出力は認識処理手
段５へ接続されるとともに棄却閾値生成手段１３に接続
される。棄却閾値生成手段１３は、基準類似度格納手段
１６に格納されている各基準類似度に対して１以下の値
のある係数を乗じることで棄却閾値を生成し、該棄却閾
値を棄却決定手段１４又は棄却閾値格納手段１７へ送出
する。棄却閾値格納手段１７の出力側は棄却決定手段１
４に接続され、棄却閾値格納手段１７に棄却閾値が格納
された場合で音声認識動作時には、棄却閾値格納手段１
７から読み出された棄却閾値が棄却決定手段１４へ送出
される。

【００１５】棄却決定手段１４は、認識動作時において
認識処理手段５から供給される上記第１位標準パターン
の上記第１位類似度が、該第１位標準パターンの基準類
似度から算出された上記棄却閾値未満である場合には上
記第１位標準パターンの採用を棄却する。一方、上記第
２位標準パターンの上記第２位類似度が、該第２位標準
パターンの基準類似度から算出された上記棄却閾値以上
である場合には上記第２位標準パターンを未知入力音声
の認識結果として採用する。棄却決定手段１４の出力は
結果出力手段７に接続され結果出力手段７は上記認識結
果として採用された標準パターンを外部へ送出する。
尚、上述した実施形態における音声認識装置では図１に
示すように、標準パターン生成手段１１、基準類似度生
成手段１２及び棄却閾値生成手段１３を設けている。し
かし、標準パターン、基準類似度及び棄却閾値について
変更を要しないタイプの音声認識装置である場合には、
標準パターン生成手段１１、基準類似度生成手段１２及
び棄却閾値生成手段１３は設けられていない構成とな
る。このような音声認識装置においては、予め標準パタ
ーン格納手段４、基準類似度格納手段１６及び棄却閾値
格納手段１７にそれぞれ対応して予め標準パターン、基
準類似度及び棄却閾値が格納されている。

【００１６】このように構成される音声認識装置におけ
る動作を以下に説明する。音声認識処理が実行される前
に、まず標準パターンの生成、基準類似度及び棄却閾値
の生成を行う。標準パターンの生成は、例えば５０人に
より「鉛筆」の発声が行われ、特徴抽出手段３から送出
される例えば５０通りの音声パターンに基づき、最も認
識率が高くなるような「鉛筆」のパターンが生成され
る。この様にして各単語毎に標準パターンが生成され
る。又、基準類似度の生成は、上述したように、評価パ
ターンと未知入力音声の音声パターンとの類似度の算出
結果から各標準パターン毎に生成される。生成された各
基準類似度は、各標準パターンに対応させて基準類似度
格納手段１６に格納される。棄却閾値は、上記基準類似
度に係数を乗じることで各基準類似度毎に生成される。
生成された棄却閾値は、棄却閾値格納手段１７に格納し
て棄却閾値格納手段１７から棄却決定手段１４へ送出し
てもよいが、棄却閾値生成手段１３から直接棄却決定手
段１４へ送出するようにしてもよい。尚、以下の説明で
は棄却閾値生成手段１３から直接棄却決定手段１４へ送
出する場合を例にとる。

【００１７】次に音声認識動作を説明する。マイクロフ
ォン１から入力された未知入力音声は、前処理手段２で
入力レベルが最適化され不要な帯域が除かれた後、特徴
抽出手段３において認識に必要な音声パターンに変換さ
れる。該音声パターンは認識処理手段５へ送出され、標
準パターン格納手段４から読み出された各標準パターン
と認識処理手段５において比較照合され、それぞれの標
準パターンとの類似度が求められる。又、認識処理手段
５には、標準パターン格納手段４から読み出された各標
準パターンに対応した基準類似度が基準類似度格納手段
１６から供給される。認識処理手段５は、求めた各類似
度に応じて、類似度の高い順に第１位標準パターン、第
２位標準パターン、…と候補単語を決定する。尚、標準
パターンとの比較照合動作において、例えば、男性、女
性の区別を認識させたり、方言に対応するために同一単
語に複数の標準パターンを定義することもできる。

【００１８】棄却決定手段１４には、認識処理手段５か
ら例えば上記第１位標準パターン、第２位標準パター
ン、…の順に候補単語である標準パターンが供給され、
又、これらの標準パターンに対応する各基準類似度に基
づく各棄却閾値が棄却閾値生成手段１３から供給され
る。棄却決定手段１４は、認識処理手段５から供給され
る各標準パターンにおける上記類似度が棄却閾値生成手
段１３から供給される各棄却閾値以下であるか否かを第
１位標準パターン、第２位標準パターンの順に判断す
る。そして棄却決定手段１４は、上記類似度が上記棄却
閾値未満であればその類似度を有する標準パターンを誤
答とみなし棄却する。逆に、上記類似度が上記棄却閾値
以上であればその類似度を有する標準パターンを正答と
みなし結果出力手段７へ送出し結果出力手段７は該標準
パターンを外部へ送出する。

【００１９】例えば「電話」という未知入力音声が入力
された場合を例に採り、上述した棄却動作について、よ
り具体的に説明する。認識処理手段５における、「電
話」の未知入力音声と各標準パターンとの比較照合の結
果、上記未知入力音声と、例えば標準パターンＡとの類
似度が１００であり、標準パターンＢとの類似度が７０
であり、標準パターンＣとの類似度が８０であるとする
と、認識処理手段５は、第１位標準パターンとして標準
パターンＡを、第２位標準パターンとして標準パターン
Ｃを、第３位標準パターンとして標準パターンＢを順位
づける。又、標準パターンＡには基準類似度として１５
０が付され、標準パターンＢには基準類似度として２０
０が付され、標準パターンＣには基準類似度として６０
が付されているとする。又、棄却閾値を決定する係数を
例えば０．８とすると、標準パターンＡに対する棄却閾
値は１２０、標準パターンＢに対する棄却閾値は１６
０、標準パターンＣに対する棄却閾値は４８となる。従
って、棄却決定手段１４において、標準パターンＡにつ
いて、標準パターンＡの類似度１００は標準パターンＡ
の棄却閾値である１２０未満であることから、類似度で
は第１位であるが標準パターンＡは棄却される。第２位
の標準パターンＣ、第３位の標準パターンＢはともに各
類似度が各棄却閾値以上であるので、棄却されず、これ
らの内で最も類似度の大きい標準パターンＣが認識結果
として結果出力手段７から送出される。

【００２０】更に、上述した基準類似度を使用した比較
を行う前に、まず従来用いていた棄却決定方法を行って
も良い。又、逆に上記基準類似度又は上記棄却閾値を上
回る類似度を有する標準パターンに対して従来用いてい
た棄却決定方法を適用しても良い。即ち、例えば、第１
位標準パターンと第２位標準パターンとを求めさらに第
１位標準パターンにおける類似度である第１位類似度と
第２位標準パターンにおける類似度である第２位類似度
との比率が第１閾値以上で、かつ上記第１位類似度が第
２閾値以上である上記第１位標準パターンについて、上
記第１位標準パターンの第１位類似度又は基準類似度が
棄却閾値以上である場合に上記第１位標準パターンを認
識結果に採用する方法を採ってもよい。このような構成
を採ることで、基準類似度に基づき音声認識を行う場合
に比べさらに精度良く音声認識結果を得ることができ
る。

【００２１】さらに又、以下のように構成してもよい。
音声認識装置が使用される環境の差異によっては標準パ
ターンの作成時に用いた音声サンプルとは異なった未知
入力音声のパターンを生じる場合がある。このような場
合にも対応可能なように、標準パターンの作成時には各
種の環境において入力を行い、各環境に応じて環境別の
標準パターンを作成し、さらにこのような異なる環境に
おける標準パターン毎に上記基準類似度に相当する環境
別基準類似度を生成する。このように環境に応じた複数
個の環境別基準類似度を各標準パターン毎に保持してお
き、使用者の指示に従って使用する環境別基準類似度を
切り替え、さらに該環境別基準類似度に基づき生成され
る環境別棄却閾値を切り替えて用いるようにすることも
できる。又、音声認識装置が含まれるシステムに、その
設置環境やその騒音種類等の検知機能が設けられている
場合には、それらを利用して上記環境別基準類似度や環
境別棄却閾値の切り替えを指示しても良い。このような
構成を採ることで、未知入力音声が発せられる種々の環
境に応じた環境別棄却閾値が設定可能となることから、
上記環境に応じて音声認識動作が行われ、よって精度良
く音声認識結果を得ることができる。

【００２２】上述した説明は不特定話者の場合を対象に
行ったが、特定話者の場合は例えば音声の登録時とは別
に登録単語の評価モードを設けておき、その評価モード
の認識結果に対する類似度に基づき上述の基準類似度を
生成しても良い。更に実際の使用時において上記生成し
た基準類似度を再計算したり、更新演算する機能をもた
せておいても良い。

【００２３】又、上述の説明は単語単位のパターンマッ
チング方式を用いて行ったが、本実施形態における音声
認識装置及び音声認識方法は単語単位の方式に限定する
ものでも、パターンマッチング方式に限定するものでも
なく、統計的手法を用いた認識方式に適用することも可
能である。

【００２４】以上説明したように、各標準パターン毎に
基準類似度を付加し、未知入力音声について単に各標準
パターンとの類似度のみから認識結果を求めるのではな
く、さらに基準類似度に基づき認識結果を求めるように
したことより、従来の棄却機能では棄却できなかった、
誤答の発生を抑えることができ、さらに、音声以外の騒
音や私語などによる誤認識をより確実に防止することが
できる。特に単語毎にその棄却基準を有しているため、
類似度が高いことのみで一律に認識結果とすることはな
く、よって標準パターンの作成時の音声サンプルのばら
つきにより、棄却単語の偏りが減り認識結果が安定す
る。また各単語の標準パターン作成時の音声サンプルが
良い場合は比較的棄却単語が減り、逆の場合は棄却単語
が増えるため、使用者に標準パターンの作成状態の良否
を自動的に知らしめることが可能になる。

【００２５】

【発明の効果】以上詳述したように本発明によれば、各
標準パターンにはそれぞれ基準類似度が付加されてお
り、選択され候補に挙げられた標準パターンを音声認識
結果として採用するか否かが上記基準類似度に基づき判
断される。よって、単に、未知入力音声と標準パターン
との類似度の大小によってのみ音声認識を行うのではな
く、さらに基準類似度を加味して音声認識を行うので、
音声認識結果における正答率を向上させることができ、
未知入力音声に対して安定した認識結果を得ることがで
きる。

【図面の簡単な説明】

【図１】本発明の一実施形態である音声認識装置の構
成を示すブロック図である。

【図２】従来の音声認識装置の構成を示すブロック図
である。

【符号の説明】

２…前処理手段、３…特徴抽出手段、４…標準パターン
格納手段、５…認識処理手段、７…結果出力手段、１１
…標準パターン生成手段、１２…基準類似度生成手段、
１３…棄却閾値生成手段、１４…棄却決定手段。

Claims

(57)【特許請求の範囲】

【請求項１】標準パターンを格納する標準パターン格
納手段と、未知入力音声と上記標準パターンとを比較照
合することで上記未知入力音声の認識を行う認識手段
と、を備えた音声認識装置であって、上記未知入力音声に対して選択された標準パターンの各
標準パターン毎に設けられる基準類似度を格納する基準
類似度格納手段と、上記未知入力音声に対して選択された標準パターンの採
用を棄却する基準となり上記基準類似度格納手段に格納
された上記基準類似度に基づき生成される棄却閾値を格
納する棄却閾値格納手段とを備え、上記認識手段は上記比較照合にて選択された上記標準パ
ターンについて上記選択された標準パターンを認識結果
とするか否かを上記基準類似度に基づき決定するとき、
さらに、未知入力音声と各標準パターンとの類似度を算
出し最も類似度が大きい第１位類似度を有する第１位標
準パターンと第２位の類似度を有する第２位標準パター
ンとを求めさらに上記第１位類似度と第２位類似度との
比率が第１閾値以上で、かつ上記第１位類似度が第２閾
値以上である上記第１位標準パターンについて、上記認
識手段は上記第１位標準パターンの上記第１位類似度が
上記棄却閾値以上である場合に上記第１位標準パターン
を採用することを特徴とする音声認識装置。
【請求項２】上記標準パターンを生成し生成した標準
パターンを上記標準パターン格納手段へ送出する標準パ
ターン生成手段と、上記基準類似度を生成し生成した基
準類似度を上記基準類似度格納手段へ送出する基準類似
度生成手段とを備えた、請求項１記載の音声認識装置。
【請求項３】上記基準類似度は、一つの標準パターン
に対して複数の環境別基準類似度を有し、上記棄却閾値
格納手段は上記複数の環境別基準類似度に対してそれぞ
れ生成された環境別棄却閾値を格納し、上記認識手段は
未知入力音声が発せられる環境に応じて上記環境別棄却
閾値を選択し標準パターンを認識結果とするか否かの判
断に使用する、請求項１又は２記載の音声認識装置。
【請求項４】上記基準類似度は、同一単語について複
数の標準パターン生成用入力音声から生成される一つの
標準パターンと、上記標準パターン生成用入力音声とは
異なる者の入力音声であって上記同一単語について複数
の基準類似度生成用入力音声から生成される複数の評価
パターンとの類似度を求め、求まった複数の類似度に基
づき統計的処理を行うことで生成される、請求項１から
３のいずれかに記載の音声認識装置。
【請求項５】上記標準パターンは、複数人による複数
回の発声による不特定話者認識用の標準パターンであ
る、請求項１から４のいずれかに記載の音声認識装置。
【請求項６】標準パターンを格納し、未知入力音声と
上記標準パターンとを比較照合することで上記未知入力
音声の認識を行う音声認識方法であって、上記未知入力音声に対して最も類似性の高い上記標準パ
ターンの各標準パターン毎に設けられる基準類似度を格
納し、上記基準類似度に基づき生成され未知入力音声に対して
選択された標準パターンの採用を棄却するための棄却閾
値を格納し、上記比較照合にて選択された上記標準パターンについて
上記選択された標準パターンを認識結果とするか否かを
上記基準類似度に基づき決定するとき、さらに未知入力
音声と各標準パターンとの類似度を算出し最も類似度が
大きい第１位類似度を有する第１位標準パターンと第２
位の類似度を有する第２位標準パターンとを求めさらに
上記第１位類似度と第２位類似度との比率が第１閾値以
上で、かつ上記第１位類似度が第２閾値以上である上記
第１位標準パターンについて、上記第１位標準パターン
の上記第１位類似度が上記棄却閾値以上である場合に上
記第１位標準パターンを採用する、ことを特徴とする音
声認識方法。