JPS58129497A - 単語音声認識方法 - Google Patents

単語音声認識方法

Info

Publication number
JPS58129497A
JPS58129497A JP57010873A JP1087382A JPS58129497A JP S58129497 A JPS58129497 A JP S58129497A JP 57010873 A JP57010873 A JP 57010873A JP 1087382 A JP1087382 A JP 1087382A JP S58129497 A JPS58129497 A JP S58129497A
Authority
JP
Japan
Prior art keywords
phoneme
word
phoneme sequence
dictionary
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57010873A
Other languages
English (en)
Other versions
JPS6310438B2 (ja
Inventor
入間野 孝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57010873A priority Critical patent/JPS58129497A/ja
Publication of JPS58129497A publication Critical patent/JPS58129497A/ja
Publication of JPS6310438B2 publication Critical patent/JPS6310438B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 とするところは、認識音素系列と辞書音素系列の尤度(
ユウド)計算に必要な、実用上十分な精度を有する音素
のコンフユージヨンマトリクス(以下、C.M  と略
称する)を作成して使用するもので、そのC.M  を
短時間に作成し得る点にある。
1ず、単語の音声認識方法について第1図とともに説明
する。入力音声を分析し、特徴を抽出した後、音素認識
を行なう。音素認識とは、入力音声を母音、子音等の音
素毎に区切った土で、音素の種類を識別することであり
、その結果の認識音素系列は、表現法にもよるが、一例
としてローマ字表記のようになる。例えば、「オーサカ
」が正しく音素認識されればroOsAKAJとなる。
次に、認識音素系列と単語辞書の照合を行なう。
単語辞書は、認識の対象となる全ての語を含み、各単語
は、下表に示したように音素系列の形で入っでいる。入
力音声の認識音素系列と、単語辞書中の各単語の音素系
列との尤度を次々に計算し、最大尤度を与える辞書中の
単語をもって認識単語とする。
以上のプロセスにより、単語音声認識がなされるが、次
に、認識音素系列と辞書音素系列の尤度の計算法を述べ
る。いま辞書音素系列をD(Dl。
D!−Dl)、認識音素系列をW (WI、 W2 =
・wJ)とする。DI + D2 r・・・、W、 、
W、 、・・・は各音素であシ、1、JはDおよびWの
音素数である。このとき尤度は、成るW(、りる入力音
声の認識音素系列)に対し、それが成るD(ある一つの
辞書項目の音素系列)である事後確率P(DlW)とし
て与えられる。
そして、全ての辞書項目に対して計算し、P(DlW)
が最大となるDをもって単語認識確度とするものである
。ところで、P(DlW)の値は、I=Jのときには、 P(DlW)−に、IL、P(D1/w1)萌・・(1
)で計算される。つまり、音素系列間の尤度は、それぞ
れの音素系列を構成する各音素間の尤度の積で表わされ
る。また、一般には■笑Jであるが、この場合はり、の
脱落確率、wlの付加確率を考えることによシ、同様に
P(DlW)を求めることができる。
さて、(1)式におけるp(n!/Wi、)の値である
が、これを与えるのがCMである。つまり、C,Mは辞
書中のある音素が、何という音素に認識されるがという
確率を、各音素の全ての組合わせについて求め、検索し
ゃすいテーブルとして表わしたものであり、その−例を
第3図に示す。即ち、第3図において、辞書中の音素A
が、E、l!:認識される確率は1%、EとAの中間音
として認識される確率Vi2%、正しくAと認識される
確率は87%、Aの存在そのものが認識されずに脱落し
てしまう確率が1チとなっている。
ところで、このよう々C,M  の作成法であるが、従
来は全て手作業で作られていた。即ち、各単語毎に辞書
音素系列と認識音素系列とを見比べて、勘により双方の
各音素の対応関係を求め、辞書のどの種類の音素が何の
種類の音素として認識されたか、あるいは脱落したか、
あるいは辞書にない音素が付加したかを調べ、各々の場
合の頻度を累計して求めていた。この方法は、人間の勘
にたよる部分があるので厳密とはいえないが、熟練者の
場合、誤り率は数チ以下であって、品質上それ程問題は
彦い。しかしながら、重大な欠点は、その作業は音声を
熟知した者でなければできないこと、およびその作業量
の大きさである。つまシ、1語処理するのに3分程度か
かるので、5000語では250時間もかかることにな
る。そのため従来は、音素認識方法の小変更を行なった
場合や、認識の条件が標準とは異なる場合も、その変化
に応じた最適C,M−を作ることは、容易でないため行
なわれなかった。
本発明は、上記従来技術の欠点を改善したもので、実用
11分な精度を有する新C,M  を短時間で作成し、
との(、M  を使用して単語認識確度を高めるように
した単語音声認識方法を提供するものである。以下、図
面によシ実施例を詳細に説明する。
第4図は、本発明の一実施例における新CM作成フロー
を示したもので、まず、入力音声を音素認識した後、認
識音素系列と辞書音素系列の尤度計算を行ない、かつ最
大尤度を与える2音素系列の最適マツチング経路を記録
する。この場合、入力音声がどの単語を発声したもので
あるかはわかっているので、その単語の辞書音素系列と
のみ尤度計算を行なえばよい。ところで尤度計算を行な
うに当たり、(1)式のP (Di、/Wi )が必要
である。
これは′CM そのものであって、つまり本発明による
C、M、作成には種になるC 、M、を必要とする本実
施例の場合、種のC,M  は1前に手作業で作成した
C M を使用した。次に、を度計算結果を検定する。
即ち、尤度が予め定められたスレッシュホールドより小
さい場合には 入力音声が不良、あるいは異常であるも
のとみなし、データを棄却する。尤度がスレッシュホー
ル1より大きい場合には、前ステップで求められ六ノ 
 よマツチング経路に基づき、辞書の各音素が(j] 
二lli識されたか、あるいは脱落したか、あるいt7
.とこに音素が付加したかを記録し、これを積算す27
9以上のプロセスを全ての入力音声データにつl/)’
C繰り返し、積算された音素認識結果より音素認識確率
を計算して新しいCM、を作成する。でき上がったCM
は、見掛は土は従来のC,M  と同形であシ、第3図
の如きものである。
本実施例における認識音素系列と辞書音素系列の最適マ
ツチング経路を見出す方法を、例を用いて説明する。第
2図は、「ウペ」という単語のマ、チングの様子を示し
たものであるが、辞書音素系列はUBEであり、両端の
÷は語境界を示す。
このとき、この単語の音素認識結果はNUPAであり、
両端の+は語境界を示す。折線りはtJBEとNUPA
の最適マツチング経路であるが、この経路の求め方を述
べる。始点からDP(ダイナミックゾログラミング)を
用いて各音素のす・j応点毎に、次々に尤度の途中経過
を計算する。このとき、始点から辞書音素系列中の音素
Di(l−1,2,・・・、■)と認識音素系列中の音
素W、(j=1.2.・・・、J)が対応するi−j点
のDP計算における尤度の途中経過値(以下、Pi、と
する)が確定する度に、そのPijを与えるi−j点に
至る経路の直前の点を記録する。第2図の例でいえば、
例えばi=2゜j=3(B−P点)における尤度途中値
P23が確定したならば、その値P23が得られた経路
の直前の点は当然確定している。つまシこの場合は、i
=1 、j=2の点が直前の点であることがわかるから
、経路を記録するためのマ) IJクスを用意しておき
、そのマトリクスのi=2.j=3の部分に、その点に
至る直前の点はi−1,j−2であると記録する。この
操作を後の語境界まで続ければ、音素系列どうしの尤度
計算終了後、終点から逆向きに最適マツチング経路をた
どることができる。最適マツチング経路が求まれば、そ
の経路子で、各音素毎の認識の様子を調べてカウントす
るのであるが、第2図の例の場合は、語頭のUの直前に
Nが付加され、UがU、BがP、EがAと認識されたも
の各1個ということになる。
以上、本発明の方法によれば、5000語程度0認識音
素系列データより、30分程度(音素認識に要する時間
を除く)の短時間で新C,M、を作成することができ、
従来に比べて大幅な時間短縮が可能になる。そして、こ
のC,M、は、特定の偏りを持った単語群や話者を対象
とする場合、その対象に対して最適なパターンを具備す
るものであるから、標準的C,M  を使用する従来方
法に比較して、極めて確度の高い単語音声認識を行なう
ことができる利点を有するものであ・る。
【図面の簡単な説明】
第1図は、単語音声認識アルゴリズムの概略図、第2図
は、辞書音素系列と認識音素系列の最適マツチング経路
図、第3図は、C,M  の−例を示す図、第4図は、
本発明の一実施例におけるCM、作成アルゴリズムの概
略図である。 第1図 第2図 $UBEa 411414未 第3図

Claims (2)

    【特許請求の範囲】
  1. (1)  予め正解のわかっている単語音声データの音
    素認識結果である認識音素系列と、該認識音素系列に対
    応する単語辞書中の単語の辞書音素系列とを、予め作成
    しておいた種となるコンフユージョンマ) IJクスを
    用いて照合し、前記認識音素系列と辞書音素系列の尤度
    が最大となるような音素系列の最適マツチング経路を見
    出して各音素毎の識別頻度を求め、それを累計して新コ
    ンフユーノヨン7トリクスを作成し、この新コンフユー
    ジヨンマトリクスを使用して音声認識方法なうことを特
    徴とする単語音声認識方法。
  2. (2)前記新コンフユージヨンマトリクスの作成におい
    て、前記認識音素系列と辞書音素系列の尤度計算結果が
    予め定められたスレッシ−ホールド値より小さい場合は
    、入力音声の不良とみなし、そのデータをコンフユージ
    ヨンマトリクスの作成に利用せずに棄却することを特徴
    とする特許請求の範囲第(1)項記載の単語音声認識方
    法。
JP57010873A 1982-01-28 1982-01-28 単語音声認識方法 Granted JPS58129497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57010873A JPS58129497A (ja) 1982-01-28 1982-01-28 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57010873A JPS58129497A (ja) 1982-01-28 1982-01-28 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS58129497A true JPS58129497A (ja) 1983-08-02
JPS6310438B2 JPS6310438B2 (ja) 1988-03-07

Family

ID=11762448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57010873A Granted JPS58129497A (ja) 1982-01-28 1982-01-28 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS58129497A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146995A (ja) * 1984-08-11 1986-03-07 富士通株式会社 音声認識システム
JPS61147299A (ja) * 1984-12-20 1986-07-04 松下電器産業株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146995A (ja) * 1984-08-11 1986-03-07 富士通株式会社 音声認識システム
JPS61147299A (ja) * 1984-12-20 1986-07-04 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
JPS6310438B2 (ja) 1988-03-07

Similar Documents

Publication Publication Date Title
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
US4819271A (en) Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US7756710B2 (en) Method and apparatus for error correction in speech recognition applications
US5072452A (en) Automatic determination of labels and Markov word models in a speech recognition system
EP0241768B1 (en) Synthesizing word baseforms used in speech recognition
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
EP0573553A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
JPH0372989B2 (ja)
JPS62231995A (ja) 音声認識方法
EP0535929A2 (en) Speech recognition system
TWI241555B (en) Device and method for recognizing consecutive speech, and program recording medium
JPS58129497A (ja) 単語音声認識方法
US20050049873A1 (en) Dynamic ranges for viterbi calculations
Rosenberg et al. Recognition of spoken spelled names for directory assistance using speaker-independent templates
EP0202534B1 (en) Continuous word recognition system
JP3353334B2 (ja) 音声認識装置
JPS6147999A (ja) 音声認識装置
JP3818154B2 (ja) 音声認識方法
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPS615300A (ja) 学習機能付音声入力装置
JPS60149096A (ja) 単語音声認識方法
JPH06348291A (ja) 単語音声認識方法
Cremelie et al. A single pass heuristic search for segmental speech recognizers
JPS6155680B2 (ja)
JPS636599A (ja) 単語予備選択方式