JP3523949B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP3523949B2
JP3523949B2 JP31062395A JP31062395A JP3523949B2 JP 3523949 B2 JP3523949 B2 JP 3523949B2 JP 31062395 A JP31062395 A JP 31062395A JP 31062395 A JP31062395 A JP 31062395A JP 3523949 B2 JP3523949 B2 JP 3523949B2
Authority
JP
Japan
Prior art keywords
similarity
standard pattern
standard
voice
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP31062395A
Other languages
English (en)
Other versions
JPH09152888A (ja
Inventor
晴剛 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP31062395A priority Critical patent/JP3523949B2/ja
Publication of JPH09152888A publication Critical patent/JPH09152888A/ja
Application granted granted Critical
Publication of JP3523949B2 publication Critical patent/JP3523949B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識における
認識結果の後処理機能を有し特に単語音声認識の分野に
応用可能な音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】音声認識装置における基本機能の一例
は、例えば日本音響学会講論集3−1−8(1983年
10月)の公開論文に記載されており、その中でも不特
定話者に関する認識方法の一例は、第10回情報理論と
その応用シンポジウム講演論文集「ファジィパターンマ
ッチングを用いた不特定話者単語音声認識」に開示さ
れ、その不特定話者の辞書作成方法は、電子通信学会論
文集Vol.J69−ANo.1(1986年)「不特
定話者単語音声認識」に記載されている。
【0003】
【発明が解決しようとする課題】音声認識装置におい
て、未知入力音声と、上記未知入力音声の認識を行うた
めに使用され予め登録し格納されている標準パターンと
の照合動作について図2を参照し説明する。マイクロフ
ォン1から入力された未知入力音声は、前処理手段2で
その入力レベルが最適化され不要な帯域の信号が除かれ
た後、特徴抽出手段3において当該未知入力音声の認識
に必要な特徴パターンに変換される。変換された上記特
徴パターンは、標準パターン格納手段4に予め登録し格
納されている複数の標準パターンと認識処理手段5にお
いて比較照合され、上記標準パターン毎に、上記標準パ
ターンと上記特徴パターンとの類似度が決定される。こ
のようにして求められた各々の標準パターンの類似度に
応じて、その類似度の高い順に、当該未知入力音声に対
する候補単語が決定される。次に後処理手段6では決定
された上記候補単語に基づいて、ある基準を満たす場合
にはその候補単語を結果出力手段7を介して外部へ出力
し、上記基準を満たさない場合には候補単語を棄却(リ
ジェクトともいう)する。
【0004】次に、上記標準パターンの作成方法に関し
て説明する。音声認識装置の標準パターンの作成法は多
数報告されているが、ここでは例えば従来より用いられ
ているパターンマッチング方法を用いて説明する。まず
特定話者方法の場合は、当該音声認識装置を使用する前
に1回または複数回、上記特定話者が発声し、この発声
に基づく入力パターンを荷重平均化し、入力パターンの
辞書を作成する。不特定話者を扱う音声認識装置では複
数話者の発声に基づく入力パターンを荷重平均化して入
力パターンの辞書を作成するが、その場合、標準パター
ンに一般性をもたせるため、複数の評価入力パターンを
入力し最も認識率が高くなるように標準パターンの最適
化を行う場合が多い。その方法の一例が特開平5−31
3687号公報に開示されている。このように作成され
た標準パターンを標準パターン格納手段4に格納してお
く。尚、このとき、特定話者と不特定話者とをそれぞれ
個別に認識する場合と双方を混在させて認識する場合と
の二通りがある。
【0005】又、従来より、音声認識装置には当該音声
認識装置を使用する使用者の音声だけでなく、当該音声
認識装置が使用されている環境における周囲の騒音や使
用者の本来の使用目的以外の音声、例えば私語などが入
力され、これらの騒音や私語などに音声入力装置が反応
してしまい問題となっていた。更に予め登録されていな
い単語を使用者が発声した場合など、得られる類似度は
低いにもかかわらず有効な棄却機能が備わっていないた
め、音声認識装置から何らかの結果が出力され、弊害を
生じてしまう場合もあった。従ってこのような弊害を防
止するために、従来の音声認識装置では、確度の低い認
識結果に対してはその結果そのものを棄却(リジェク
ト)し、再度、使用者に入力を促す機能が必要となって
いた。このような棄却機能に関する音声認識装置は、特
開昭61−73200号公報及び特開平1−15680
0号公報に開示される。即ち、これの標準パターンを使
用しての未知入力音声の音声認識を行い最も大きい第1
位類似度を有する第1位標準パターンと第2位の類似度
を有する第2位標準パターンを求め、上記第1位類似度
と上記第2位類似度との比率を求め、求めた比率が第1
閾値以上でかつ、上記第1位標準パターンの第1位類似
度が第2閾値以上を満たす場合には、上記第1位標準パ
ターンを音声認識結果として出力し、満たさない場合に
は上記第1位標準パターンを棄却する機能を有する。
【0006】しかしこの場合、上記第1閾値及び上記第
2閾値は、ある一定の値に固定されているため、未知入
力音声と標準パターンとの類似度が未知入力音声の発せ
られる環境によってばらついたり、不特定話者と特定話
者が混在する場合には上記類似度の基準が異なるという
現象が生じる。よってある未知入力音声によっては候補
に挙げられた標準パターンが正答であるにも拘わらず棄
却されやすかったり、誤答であるにも拘わらず棄却され
にくくなったりするという問題点があった。本発明は上
述したような問題点を解決するためになされたもので、
未知入力音声に対して安定した認識結果を得ることがで
きる音声認識装置及び音声認識方法を提供することを目
的とする。
【0007】
【課題を解決するための手段及び作用】本発明の一態様
によれば音声認識装置は、標準パターンを格納する標準
パターン格納手段と、未知入力音声と上記標準パターン
とを比較照合することで上記未知入力音声の認識を行う
認識手段と、を備えた音声認識装置であって、上記未知
入力音声に対して選択された標準パターンの各標準パタ
ーン毎に設けられる基準類似度を格納する基準類似度格
納手段と、 上記未知入力音声に対して選択された標準パ
ターンの採用を棄却する基準となり上記基準類似度格納
手段に格納された上記基準類似度に基づき生成される棄
却閾値を格納する棄却閾値格納手段とを備え、上記認識
手段は上記比較照合にて選択された上記標準パターンに
ついて上記選択された標準パターンを認識結果とするか
否かを上記基準類似度に基づき決定するとき、さらに、
未知入力音声と各標準パターンとの類似度を算出し最も
類似度が大きい第1位類似度を有する第1位標準パター
ンと第2位の類似度を有する第2位標準パターンとを求
めさらに上記第1位類似度と第2位類似度との比率が第
1閾値以上で、かつ上記第1位類似度が第2閾値以上で
ある上記第1位標準パターンについて、上記認識手段は
上記第1位標準パターンの上記第1位類似度が上記棄却
閾値以上である場合に上記第1位標準パターンを採用す
ことを特徴とする。
【0008】
【0009】このような音声認識装置によれば、各標準
パターンにはそれぞれ基準類似度が付加されており、該
基準類似度に基づき選択され候補に挙げられた標準パタ
ーンを音声認識結果として採用するか否かが判断され
る。よって、単に、未知入力音声と標準パターンとの類
似度の大小によってのみ音声認識を行うのではなく、さ
らに基準類似度を加味して音声認識を行うので、音声認
識結果における正答率を向上させることができる。この
ように上述の態様に記載する発明特定事項は、入力音声
に対して安定した認識結果を得ることができるように作
用する。
【0010】又、本発明の別の態様によれば音声認識方
法は、標準パターンを格納し、未知入力音声と上記標準
パターンとを比較照合することで上記未知入力音声の認
識を行う音声認識方法であって、上記未知入力音声に対
して最も類似性の高い上記標準パターンの各標準パター
ン毎に設けられる基準類似度を格納し、上記基準類似度
に基づき生成され未知入力音声に対して選択された標準
パターンの採用を棄却するための棄却閾値を格納し、
記比較照合にて選択された上記標準パターンについて上
記選択された標準パターンを認識結果とするか否かを上
記基準類似度に基づき決定するとき、さらに未知入力音
声と各標準パターンとの類似度を算出し最も類似度が大
きい第1位類似度を有する第1位標準パターンと第2位
の類似度を有する第2位標準パターンとを求めさらに上
記第1位類似度と第2位類似度との比率が第1閾値以上
で、かつ上記第1位類似度が第2閾値以上である上記第
1位標準パターンについて、上記第1位標準パターンの
上記第1位類似度が上記棄却閾値以上である場合に上記
第1位標準パターンを採用する、ことを特徴とする。
【0011】
【0012】
【発明の実施の形態】本発明の一実施形態である音声認
識装置について図を参照しながら以下に説明する。本音
声認識装置は音声認識における後処理機能を有するもの
であり、予め登録されていない単語である未知入力の音
声、即ち未知入力音声を音声認識装置に発声した場合、
当該未知入力音声を効果的に棄却する機能をもたせ音声
認識の誤認識を防ごうとするものである。尚、図1にお
いて図2に示す構成部分と同じ構成部分については同じ
符号を付しその説明を省力する。又、説明を容易にする
ために以下の説明では不特定話者の認識方式を例に取っ
て説明する。本実施形態において、特徴抽出手段3の出
力側は、標準パターンの作成時には標準パターン生成手
段11に接続され、標準パターンが作成された後におけ
る未知入力音声の認識時には認識手段15に含まれる認
識処理手段5に接続される。又、標準パターン生成手段
11の出力側は、標準パターン格納手段4に接続され
る。標準パターン生成手段11には、標準パターン生成
用入力音声が特徴抽出手段3にて認識に必要なパターン
に変換された音声パターンが供給される。不特定話者の
場合、標準パターン生成手段11は、標準パターンを作
成する公知の装置であり、各単語毎について複数人が発
声した標準パターン生成用入力音声から得た音声パター
ンを用いて当該各単語に対応するそれぞれの標準パター
ンを一つづつ生成する。尚、特定話者の場合には、各単
語について一人が複数回発声して得られる音声パターン
を用いて当該各単語に対応するそれぞれの標準パターン
を一つづつ生成する。標準パターン格納手段4の出力側
は認識処理手段5に接続され、未知入力音声の認識動作
時には、標準パターン格納手段4に格納されている標準
パターンが認識処理手段5へ送出される。又、認識処理
手段5の出力側は、後述の基準類似度を生成する基準類
似度生成時には基準類似度生成手段12に接続され、一
方上記認識動作時には認識手段5に含まれる棄却決定手
段14に接続される。
【0013】基準類似度生成手段12には、基準類似度
の生成時において、特徴抽出手段3から変換された音声
パターンが認識処理手段5を介して供給される。基準類
似度生成手段12は、予め当該基準類似度生成手段12
に格納され、又は外部から供給される複数の評価パター
ンと、特徴抽出手段3から供給される上記音声パターン
とに基づき、上記評価パターンと上記音声パターンとの
類似度を上記評価パターン毎に算出し、この算出結果を
もとに基準類似度を算出する。上記評価パターンとは、
上述した標準パターンを作成するために発声した複数者
とは別の複数者(例えば100人)によって、例えば
「鉛筆」という単語について基準類似度生成用入力音声
を発声したときに得られる数十ないし数百通りの音声パ
ターンをいう。具体的に説明すると、基準類似度生成手
段12は、特徴抽出手段3から供給された「鉛筆」に対
応した音声パターンと、例えば上記数十ないし数百通り
の「鉛筆」の音声パターンとの類似度をそれぞれ算出す
る。よって「鉛筆」の単語に対して数十ないし数百個の
類似度が得られ、さらに基準類似度生成手段12では、
これらの数十ないし数百個の類似度について統計的処理
を行う。統計的処理として本実施形態では平均値を算出
しているが、これに限られず例えば分散等の値を算出す
るようにしてもよい。このようにして得られた例えば上
記平均値が上記基準類似度となる。よって基準類似度が
大きいことは、未知入力音声の音声パターンに近似する
音声パターンを発声する人数が多いことを意味する。即
ち基準類似度は、未知入力音声に対して候補に挙げられ
た標準パターンと上記未知入力音声との一致する程度、
換言すると選択された上記標準パターンの選択正答率を
表すものである。そして生成された基準類似度は、各標
準パターンに対応させながら基準類似度格納手段16へ
格納される。このようにして各標準パターン毎に基準類
似度が設けられる。
【0014】認識動作時に特徴抽出手段3と接続される
認識手段15は、認識処理手段5と棄却決定手段14と
を有する。認識処理手段5は、未知入力音声について特
徴抽出手段3にて変換された音声パターンと、標準パタ
ーン格納手段4から読み出した標準パターンとの類似度
を算出し、算出した類似度に基づき、最大の第1位類似
度を有する第1位標準パターン、第2位類似度を有する
第2位標準パターン、…を決定しこれらを順次送出す
る。一方、基準類似度格納手段16の出力は認識処理手
段5へ接続されるとともに棄却閾値生成手段13に接続
される。棄却閾値生成手段13は、基準類似度格納手段
16に格納されている各基準類似度に対して1以下の値
のある係数を乗じることで棄却閾値を生成し、該棄却閾
値を棄却決定手段14又は棄却閾値格納手段17へ送出
する。棄却閾値格納手段17の出力側は棄却決定手段1
4に接続され、棄却閾値格納手段17に棄却閾値が格納
された場合で音声認識動作時には、棄却閾値格納手段1
7から読み出された棄却閾値が棄却決定手段14へ送出
される。
【0015】棄却決定手段14は、認識動作時において
認識処理手段5から供給される上記第1位標準パターン
の上記第1位類似度が、該第1位標準パターンの基準類
似度から算出された上記棄却閾値未満である場合には上
記第1位標準パターンの採用を棄却する。一方、上記第
2位標準パターンの上記第2位類似度が、該第2位標準
パターンの基準類似度から算出された上記棄却閾値以上
である場合には上記第2位標準パターンを未知入力音声
の認識結果として採用する。棄却決定手段14の出力は
結果出力手段7に接続され結果出力手段7は上記認識結
果として採用された標準パターンを外部へ送出する。
尚、上述した実施形態における音声認識装置では図1に
示すように、標準パターン生成手段11、基準類似度生
成手段12及び棄却閾値生成手段13を設けている。し
かし、標準パターン、基準類似度及び棄却閾値について
変更を要しないタイプの音声認識装置である場合には、
標準パターン生成手段11、基準類似度生成手段12及
び棄却閾値生成手段13は設けられていない構成とな
る。このような音声認識装置においては、予め標準パタ
ーン格納手段4、基準類似度格納手段16及び棄却閾値
格納手段17にそれぞれ対応して予め標準パターン、基
準類似度及び棄却閾値が格納されている。
【0016】このように構成される音声認識装置におけ
る動作を以下に説明する。音声認識処理が実行される前
に、まず標準パターンの生成、基準類似度及び棄却閾値
の生成を行う。標準パターンの生成は、例えば50人に
より「鉛筆」の発声が行われ、特徴抽出手段3から送出
される例えば50通りの音声パターンに基づき、最も認
識率が高くなるような「鉛筆」のパターンが生成され
る。この様にして各単語毎に標準パターンが生成され
る。又、基準類似度の生成は、上述したように、評価パ
ターンと未知入力音声の音声パターンとの類似度の算出
結果から各標準パターン毎に生成される。生成された各
基準類似度は、各標準パターンに対応させて基準類似度
格納手段16に格納される。棄却閾値は、上記基準類似
度に係数を乗じることで各基準類似度毎に生成される。
生成された棄却閾値は、棄却閾値格納手段17に格納し
て棄却閾値格納手段17から棄却決定手段14へ送出し
てもよいが、棄却閾値生成手段13から直接棄却決定手
段14へ送出するようにしてもよい。尚、以下の説明で
は棄却閾値生成手段13から直接棄却決定手段14へ送
出する場合を例にとる。
【0017】次に音声認識動作を説明する。マイクロフ
ォン1から入力された未知入力音声は、前処理手段2で
入力レベルが最適化され不要な帯域が除かれた後、特徴
抽出手段3において認識に必要な音声パターンに変換さ
れる。該音声パターンは認識処理手段5へ送出され、標
準パターン格納手段4から読み出された各標準パターン
と認識処理手段5において比較照合され、それぞれの標
準パターンとの類似度が求められる。又、認識処理手段
5には、標準パターン格納手段4から読み出された各標
準パターンに対応した基準類似度が基準類似度格納手段
16から供給される。認識処理手段5は、求めた各類似
度に応じて、類似度の高い順に第1位標準パターン、第
2位標準パターン、…と候補単語を決定する。尚、標準
パターンとの比較照合動作において、例えば、男性、女
性の区別を認識させたり、方言に対応するために同一単
語に複数の標準パターンを定義することもできる。
【0018】棄却決定手段14には、認識処理手段5か
ら例えば上記第1位標準パターン、第2位標準パター
ン、…の順に候補単語である標準パターンが供給され、
又、これらの標準パターンに対応する各基準類似度に基
づく各棄却閾値が棄却閾値生成手段13から供給され
る。棄却決定手段14は、認識処理手段5から供給され
る各標準パターンにおける上記類似度が棄却閾値生成手
段13から供給される各棄却閾値以下であるか否かを第
1位標準パターン、第2位標準パターンの順に判断す
る。そして棄却決定手段14は、上記類似度が上記棄却
閾値未満であればその類似度を有する標準パターンを誤
答とみなし棄却する。逆に、上記類似度が上記棄却閾値
以上であればその類似度を有する標準パターンを正答と
みなし結果出力手段7へ送出し結果出力手段7は該標準
パターンを外部へ送出する。
【0019】例えば「電話」という未知入力音声が入力
された場合を例に採り、上述した棄却動作について、よ
り具体的に説明する。認識処理手段5における、「電
話」の未知入力音声と各標準パターンとの比較照合の結
果、上記未知入力音声と、例えば標準パターンAとの類
似度が100であり、標準パターンBとの類似度が70
であり、標準パターンCとの類似度が80であるとする
と、認識処理手段5は、第1位標準パターンとして標準
パターンAを、第2位標準パターンとして標準パターン
Cを、第3位標準パターンとして標準パターンBを順位
づける。又、標準パターンAには基準類似度として15
0が付され、標準パターンBには基準類似度として20
0が付され、標準パターンCには基準類似度として60
が付されているとする。又、棄却閾値を決定する係数を
例えば0.8とすると、標準パターンAに対する棄却閾
値は120、標準パターンBに対する棄却閾値は16
0、標準パターンCに対する棄却閾値は48となる。従
って、棄却決定手段14において、標準パターンAにつ
いて、標準パターンAの類似度100は標準パターンA
の棄却閾値である120未満であることから、類似度で
は第1位であるが標準パターンAは棄却される。第2位
の標準パターンC、第3位の標準パターンBはともに各
類似度が各棄却閾値以上であるので、棄却されず、これ
らの内で最も類似度の大きい標準パターンCが認識結果
として結果出力手段7から送出される。
【0020】更に、上述した基準類似度を使用した比較
を行う前に、まず従来用いていた棄却決定方法を行って
も良い。又、逆に上記基準類似度又は上記棄却閾値を上
回る類似度を有する標準パターンに対して従来用いてい
た棄却決定方法を適用しても良い。即ち、例えば、第1
位標準パターンと第2位標準パターンとを求めさらに第
1位標準パターンにおける類似度である第1位類似度と
第2位標準パターンにおける類似度である第2位類似度
との比率が第1閾値以上で、かつ上記第1位類似度が第
2閾値以上である上記第1位標準パターンについて、上
記第1位標準パターンの第1位類似度又は基準類似度が
棄却閾値以上である場合に上記第1位標準パターンを認
識結果に採用する方法を採ってもよい。このような構成
を採ることで、基準類似度に基づき音声認識を行う場合
に比べさらに精度良く音声認識結果を得ることができ
る。
【0021】さらに又、以下のように構成してもよい。
音声認識装置が使用される環境の差異によっては標準パ
ターンの作成時に用いた音声サンプルとは異なった未知
入力音声のパターンを生じる場合がある。このような場
合にも対応可能なように、標準パターンの作成時には各
種の環境において入力を行い、各環境に応じて環境別の
標準パターンを作成し、さらにこのような異なる環境に
おける標準パターン毎に上記基準類似度に相当する環境
別基準類似度を生成する。このように環境に応じた複数
個の環境別基準類似度を各標準パターン毎に保持してお
き、使用者の指示に従って使用する環境別基準類似度を
切り替え、さらに該環境別基準類似度に基づき生成され
る環境別棄却閾値を切り替えて用いるようにすることも
できる。又、音声認識装置が含まれるシステムに、その
設置環境やその騒音種類等の検知機能が設けられている
場合には、それらを利用して上記環境別基準類似度や環
境別棄却閾値の切り替えを指示しても良い。このような
構成を採ることで、未知入力音声が発せられる種々の環
境に応じた環境別棄却閾値が設定可能となることから、
上記環境に応じて音声認識動作が行われ、よって精度良
く音声認識結果を得ることができる。
【0022】上述した説明は不特定話者の場合を対象に
行ったが、特定話者の場合は例えば音声の登録時とは別
に登録単語の評価モードを設けておき、その評価モード
の認識結果に対する類似度に基づき上述の基準類似度を
生成しても良い。更に実際の使用時において上記生成し
た基準類似度を再計算したり、更新演算する機能をもた
せておいても良い。
【0023】又、上述の説明は単語単位のパターンマッ
チング方式を用いて行ったが、本実施形態における音声
認識装置及び音声認識方法は単語単位の方式に限定する
ものでも、パターンマッチング方式に限定するものでも
なく、統計的手法を用いた認識方式に適用することも可
能である。
【0024】以上説明したように、各標準パターン毎に
基準類似度を付加し、未知入力音声について単に各標準
パターンとの類似度のみから認識結果を求めるのではな
く、さらに基準類似度に基づき認識結果を求めるように
したことより、従来の棄却機能では棄却できなかった、
誤答の発生を抑えることができ、さらに、音声以外の騒
音や私語などによる誤認識をより確実に防止することが
できる。特に単語毎にその棄却基準を有しているため、
類似度が高いことのみで一律に認識結果とすることはな
く、よって標準パターンの作成時の音声サンプルのばら
つきにより、棄却単語の偏りが減り認識結果が安定す
る。また各単語の標準パターン作成時の音声サンプルが
良い場合は比較的棄却単語が減り、逆の場合は棄却単語
が増えるため、使用者に標準パターンの作成状態の良否
を自動的に知らしめることが可能になる。
【0025】
【発明の効果】以上詳述したように本発明によれば、各
標準パターンにはそれぞれ基準類似度が付加されてお
り、選択され候補に挙げられた標準パターンを音声認識
結果として採用するか否かが上記基準類似度に基づき判
断される。よって、単に、未知入力音声と標準パターン
との類似度の大小によってのみ音声認識を行うのではな
く、さらに基準類似度を加味して音声認識を行うので、
音声認識結果における正答率を向上させることができ、
未知入力音声に対して安定した認識結果を得ることがで
きる。
【図面の簡単な説明】
【図1】 本発明の一実施形態である音声認識装置の構
成を示すブロック図である。
【図2】 従来の音声認識装置の構成を示すブロック図
である。
【符号の説明】
2…前処理手段、3…特徴抽出手段、4…標準パターン
格納手段、5…認識処理手段、7…結果出力手段、11
…標準パターン生成手段、12…基準類似度生成手段、
13…棄却閾値生成手段、14…棄却決定手段。

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 標準パターンを格納する標準パターン格
    納手段と、未知入力音声と上記標準パターンとを比較照
    合することで上記未知入力音声の認識を行う認識手段
    と、を備えた音声認識装置であって、 上記未知入力音声に対して選択された標準パターンの各
    標準パターン毎に設けられる基準類似度を格納する基準
    類似度格納手段と、 上記未知入力音声に対して選択された標準パターンの採
    用を棄却する基準となり上記基準類似度格納手段に格納
    された上記基準類似度に基づき生成される棄却閾値を格
    納する棄却閾値格納手段とを備え、 上記認識手段は上記比較照合にて選択された上記標準パ
    ターンについて上記選択された標準パターンを認識結果
    とするか否かを上記基準類似度に基づき決定するとき、
    さらに、未知入力音声と各標準パターンとの類似度を算
    出し最も類似度が大きい第1位類似度を有する第1位標
    準パターンと第2位の類似度を有する第2位標準パター
    ンとを求めさらに上記第1位類似度と第2位類似度との
    比率が第1閾値以上で、かつ上記第1位類似度が第2閾
    値以上である上記第1位標準パターンについて、上記認
    識手段は上記第1位標準パターンの上記第1位類似度が
    上記棄却閾値以上である場合に上記第1位標準パターン
    を採用することを特徴とする音声認識装置。
  2. 【請求項2】 上記標準パターンを生成し生成した標準
    パターンを上記標準パターン格納手段へ送出する標準パ
    ターン生成手段と、上記基準類似度を生成し生成した基
    準類似度を上記基準類似度格納手段へ送出する基準類似
    度生成手段とを備えた、請求項1記載の音声認識装置。
  3. 【請求項3】 上記基準類似度は、一つの標準パターン
    に対して複数の環境別基準類似度を有し、上記棄却閾値
    格納手段は上記複数の環境別基準類似度に対してそれぞ
    れ生成された環境別棄却閾値を格納し、上記認識手段は
    未知入力音声が発せられる環境に応じて上記環境別棄却
    閾値を選択し標準パターンを認識結果とするか否かの判
    断に使用する、請求項1又は2記載の音声認識装置。
  4. 【請求項4】 上記基準類似度は、同一単語について複
    数の標準パターン生成用入力音声から生成される一つの
    準パターンと、上記標準パターン生成用入力音声とは
    異なる者の入力音声であって上記同一単語について複数
    の基準類似度生成用入力音声から生成される複数の評価
    パターンとの類似度を求め、求まった複数の類似度に基
    づき統計的処理を行うことで生成される、請求項1から
    3のいずれかに記載の音声認識装置。
  5. 【請求項5】 上記標準パターンは、複数人による複数
    回の発声による不特定話者認識用の標準パターンであ
    る、請求項1から4のいずれかに記載の音声認識装置。
  6. 【請求項6】 標準パターンを格納し、未知入力音声と
    上記標準パターンとを比較照合することで上記未知入力
    音声の認識を行う音声認識方法であって、 上記未知入力音声に対して最も類似性の高い上記標準パ
    ターンの各標準パターン毎に設けられる基準類似度を格
    納し、 上記基準類似度に基づき生成され未知入力音声に対して
    選択された標準パターンの採用を棄却するための棄却閾
    値を格納し、上記比較照合にて選択された上記標準パターンについて
    上記選択された標準パターンを認識結果とするか否かを
    上記基準類似度に基づき決定するとき、さらに未知入力
    音声と各標準パターンとの類似度を算出し最も類似度が
    大きい第1位類似度を有する第1位標準パターンと第2
    位の類似度を有する第2位標準パターンとを求めさらに
    上記第1位類似度と第2位類似度との比率が第1閾値以
    上で、かつ上記第1位類似度が第2閾値以上である上記
    第1位標準パターンについて、上記第1位標準パターン
    の上記第1位類似度が上記棄却閾値以上である場合に上
    記第1位標準パターンを採用する 、ことを特徴とする音
    声認識方法。
JP31062395A 1995-11-29 1995-11-29 音声認識装置及び音声認識方法 Expired - Lifetime JP3523949B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31062395A JP3523949B2 (ja) 1995-11-29 1995-11-29 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31062395A JP3523949B2 (ja) 1995-11-29 1995-11-29 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH09152888A JPH09152888A (ja) 1997-06-10
JP3523949B2 true JP3523949B2 (ja) 2004-04-26

Family

ID=18007494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31062395A Expired - Lifetime JP3523949B2 (ja) 1995-11-29 1995-11-29 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3523949B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5293478B2 (ja) * 2009-07-17 2013-09-18 富士通株式会社 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP5599064B2 (ja) * 2010-12-22 2014-10-01 綜合警備保障株式会社 音認識装置および音認識方法

Also Published As

Publication number Publication date
JPH09152888A (ja) 1997-06-10

Similar Documents

Publication Publication Date Title
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
US6754629B1 (en) System and method for automatic voice recognition using mapping
US6651043B2 (en) User barge-in enablement in large vocabulary speech recognition systems
US7203644B2 (en) Automating tuning of speech recognition systems
US6836758B2 (en) System and method for hybrid voice recognition
US6397180B1 (en) Method and system for performing speech recognition based on best-word scoring of repeated speech attempts
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
CN1639768B (zh) 自动语音识别方法及装置
CN1178203C (zh) 话音识别拒绝方法
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
US6499011B1 (en) Method of adapting linguistic speech models
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP3523949B2 (ja) 音声認識装置及び音声認識方法
JP2996019B2 (ja) 音声認識装置
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JP5215512B2 (ja) 発声内に含まれる会社名の自動認識方法
JP3114757B2 (ja) 音声認識装置
JP3100208B2 (ja) 音声認識装置
JPH10124084A (ja) 音声処理装置
JPH0997095A (ja) 音声認識装置
KR100382473B1 (ko) 음성 인식 방법
JPH06337700A (ja) 音声合成装置
JP2004309504A (ja) 音声キーワード認識装置
JP2002132293A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 10

EXPY Cancellation because of completion of term