JPS58129497A

JPS58129497A - 単語音声認識方法

Info

Publication number: JPS58129497A
Application number: JP57010873A
Authority: JP
Inventors: 入間野　孝雄
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1982-01-28
Filing date: 1982-01-28
Publication date: 1983-08-02
Also published as: JPS6310438B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】とするところは、認識音素系列と辞書音素系列の尤度（
ユウド）計算に必要な、実用上十分な精度を有する音素
のコンフユージヨンマトリクス（以下、Ｃ．Ｍ　　と略
称する）を作成して使用するもので、そのＣ．Ｍ　　を
短時間に作成し得る点にある。

１ず、単語の音声認識方法について第１図とともに説明
する。入力音声を分析し、特徴を抽出した後、音素認識
を行なう。音素認識とは、入力音声を母音、子音等の音
素毎に区切った土で、音素の種類を識別することであり
、その結果の認識音素系列は、表現法にもよるが、一例
としてローマ字表記のようになる。例えば、「オーサカ
」が正しく音素認識されればｒｏＯｓＡＫＡＪとなる。

次に、認識音素系列と単語辞書の照合を行なう。

単語辞書は、認識の対象となる全ての語を含み、各単語
は、下表に示したように音素系列の形で入っでいる。入
力音声の認識音素系列と、単語辞書中の各単語の音素系
列との尤度を次々に計算し、最大尤度を与える辞書中の
単語をもって認識単語とする。

以上のプロセスにより、単語音声認識がなされるが、次
に、認識音素系列と辞書音素系列の尤度の計算法を述べ
る。いま辞書音素系列をＤ（Ｄｌ。

Ｄ！−Ｄｌ）、認識音素系列をＷ　（ＷＩ、　Ｗ２　＝
・ｗＪ）とする。ＤＩ　＋　Ｄ２　ｒ・・・、Ｗ、　、
Ｗ、　、・・・は各音素であシ、１、ＪはＤおよびＷの
音素数である。このとき尤度は、成るＷ（、りる入力音
声の認識音素系列）に対し、それが成るＤ（ある一つの
辞書項目の音素系列）である事後確率Ｐ（ＤｌＷ）とし
て与えられる。

そして、全ての辞書項目に対して計算し、Ｐ（ＤｌＷ）
が最大となるＤをもって単語認識確度とするものである
。ところで、Ｐ（ＤｌＷ）の値は、Ｉ＝Ｊのときには、Ｐ（ＤｌＷ）−に、ＩＬ、Ｐ（Ｄ１／ｗ１）萌・・（１
）で計算される。つまり、音素系列間の尤度は、それぞ
れの音素系列を構成する各音素間の尤度の積で表わされ
る。また、一般には■笑Ｊであるが、この場合はり、の
脱落確率、ｗｌの付加確率を考えることによシ、同様に
Ｐ（ＤｌＷ）を求めることができる。

さて、（１）式におけるｐ（ｎ！／Ｗｉ、）の値である
が、これを与えるのがＣＭである。つまり、Ｃ，Ｍは辞
書中のある音素が、何という音素に認識されるがという
確率を、各音素の全ての組合わせについて求め、検索し
ゃすいテーブルとして表わしたものであり、その−例を
第３図に示す。即ち、第３図において、辞書中の音素Ａ
が、Ｅ、ｌ！：認識される確率は１％、ＥとＡの中間音
として認識される確率Ｖｉ２％、正しくＡと認識される
確率は８７％、Ａの存在そのものが認識されずに脱落し
てしまう確率が１チとなっている。

ところで、このよう々Ｃ，Ｍ　　の作成法であるが、従
来は全て手作業で作られていた。即ち、各単語毎に辞書
音素系列と認識音素系列とを見比べて、勘により双方の
各音素の対応関係を求め、辞書のどの種類の音素が何の
種類の音素として認識されたか、あるいは脱落したか、
あるいは辞書にない音素が付加したかを調べ、各々の場
合の頻度を累計して求めていた。この方法は、人間の勘
にたよる部分があるので厳密とはいえないが、熟練者の
場合、誤り率は数チ以下であって、品質上それ程問題は
彦い。しかしながら、重大な欠点は、その作業は音声を
熟知した者でなければできないこと、およびその作業量
の大きさである。つまシ、１語処理するのに３分程度か
かるので、５０００語では２５０時間もかかることにな
る。そのため従来は、音素認識方法の小変更を行なった
場合や、認識の条件が標準とは異なる場合も、その変化
に応じた最適Ｃ，Ｍ−を作ることは、容易でないため行
なわれなかった。

本発明は、上記従来技術の欠点を改善したもので、実用
１１分な精度を有する新Ｃ，Ｍ　　を短時間で作成し、
との（、Ｍ　　を使用して単語認識確度を高めるように
した単語音声認識方法を提供するものである。以下、図
面によシ実施例を詳細に説明する。

第４図は、本発明の一実施例における新ＣＭ作成フロー
を示したもので、まず、入力音声を音素認識した後、認
識音素系列と辞書音素系列の尤度計算を行ない、かつ最
大尤度を与える２音素系列の最適マツチング経路を記録
する。この場合、入力音声がどの単語を発声したもので
あるかはわかっているので、その単語の辞書音素系列と
のみ尤度計算を行なえばよい。ところで尤度計算を行な
うに当たり、（１）式のＰ　（Ｄｉ、／Ｗｉ　）が必要
である。

これは′ＣＭ　そのものであって、つまり本発明による
Ｃ、Ｍ、作成には種になるＣ　、Ｍ、を必要とする本実
施例の場合、種のＣ，Ｍ　　は１前に手作業で作成した
Ｃ　Ｍ　を使用した。次に、を度計算結果を検定する。

即ち、尤度が予め定められたスレッシュホールドより小
さい場合には　入力音声が不良、あるいは異常であるも
のとみなし、データを棄却する。尤度がスレッシュホー
ル１より大きい場合には、前ステップで求められ六ノ　
　よマツチング経路に基づき、辞書の各音素が（ｊ］　
二ｌｌｉ識されたか、あるいは脱落したか、あるいｔ７
．とこに音素が付加したかを記録し、これを積算す２７
９以上のプロセスを全ての入力音声データにつｌ／）’
Ｃ繰り返し、積算された音素認識結果より音素認識確率
を計算して新しいＣＭ、を作成する。でき上がったＣＭ
は、見掛は土は従来のＣ，Ｍ　　と同形であシ、第３図
の如きものである。

本実施例における認識音素系列と辞書音素系列の最適マ
ツチング経路を見出す方法を、例を用いて説明する。第
２図は、「ウペ」という単語のマ、チングの様子を示し
たものであるが、辞書音素系列はＵＢＥであり、両端の
÷は語境界を示す。

このとき、この単語の音素認識結果はＮＵＰＡであり、
両端の＋は語境界を示す。折線りはｔＪＢＥとＮＵＰＡ
の最適マツチング経路であるが、この経路の求め方を述
べる。始点からＤＰ（ダイナミックゾログラミング）を
用いて各音素のす・ｊ応点毎に、次々に尤度の途中経過
を計算する。このとき、始点から辞書音素系列中の音素
Ｄｉ（ｌ−１，２，・・・、■）と認識音素系列中の音
素Ｗ、（ｊ＝１．２．・・・、Ｊ）が対応するｉ−ｊ点
のＤＰ計算における尤度の途中経過値（以下、Ｐｉ、と
する）が確定する度に、そのＰｉｊを与えるｉ−ｊ点に
至る経路の直前の点を記録する。第２図の例でいえば、
例えばｉ＝２゜ｊ＝３（Ｂ−Ｐ点）における尤度途中値
Ｐ２３が確定したならば、その値Ｐ２３が得られた経路
の直前の点は当然確定している。つまシこの場合は、ｉ
＝１　、ｊ＝２の点が直前の点であることがわかるから
、経路を記録するためのマ）　ＩＪクスを用意しておき
、そのマトリクスのｉ＝２．ｊ＝３の部分に、その点に
至る直前の点はｉ−１，ｊ−２であると記録する。この
操作を後の語境界まで続ければ、音素系列どうしの尤度
計算終了後、終点から逆向きに最適マツチング経路をた
どることができる。最適マツチング経路が求まれば、そ
の経路子で、各音素毎の認識の様子を調べてカウントす
るのであるが、第２図の例の場合は、語頭のＵの直前に
Ｎが付加され、ＵがＵ、ＢがＰ、ＥがＡと認識されたも
の各１個ということになる。

以上、本発明の方法によれば、５０００語程度０認識音
素系列データより、３０分程度（音素認識に要する時間
を除く）の短時間で新Ｃ，Ｍ、を作成することができ、
従来に比べて大幅な時間短縮が可能になる。そして、こ
のＣ，Ｍ、は、特定の偏りを持った単語群や話者を対象
とする場合、その対象に対して最適なパターンを具備す
るものであるから、標準的Ｃ，Ｍ　　を使用する従来方
法に比較して、極めて確度の高い単語音声認識を行なう
ことができる利点を有するものであ・る。

【図面の簡単な説明】

第１図は、単語音声認識アルゴリズムの概略図、第２図
は、辞書音素系列と認識音素系列の最適マツチング経路
図、第３図は、Ｃ，Ｍ　　の−例を示す図、第４図は、
本発明の一実施例におけるＣＭ、作成アルゴリズムの概
略図である。第１図第２図＄ＵＢＥａ４１１４１４未第３図

Claims

【特許請求の範囲】

（１）　　予め正解のわかっている単語音声データの音
素認識結果である認識音素系列と、該認識音素系列に対
応する単語辞書中の単語の辞書音素系列とを、予め作成
しておいた種となるコンフユージョンマ）　ＩＪクスを
用いて照合し、前記認識音素系列と辞書音素系列の尤度
が最大となるような音素系列の最適マツチング経路を見
出して各音素毎の識別頻度を求め、それを累計して新コ
ンフユーノヨン７トリクスを作成し、この新コンフユー
ジヨンマトリクスを使用して音声認識方法なうことを特
徴とする単語音声認識方法。
（２）前記新コンフユージヨンマトリクスの作成におい
て、前記認識音素系列と辞書音素系列の尤度計算結果が
予め定められたスレッシ−ホールド値より小さい場合は
、入力音声の不良とみなし、そのデータをコンフユージ
ヨンマトリクスの作成に利用せずに棄却することを特徴
とする特許請求の範囲第（１）項記載の単語音声認識方
法。