JPS58129497A - 単語音声認識方法 - Google Patents
単語音声認識方法Info
- Publication number
- JPS58129497A JPS58129497A JP57010873A JP1087382A JPS58129497A JP S58129497 A JPS58129497 A JP S58129497A JP 57010873 A JP57010873 A JP 57010873A JP 1087382 A JP1087382 A JP 1087382A JP S58129497 A JPS58129497 A JP S58129497A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- phoneme sequence
- dictionary
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000002950 deficient Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000255925 Diptera Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
とするところは、認識音素系列と辞書音素系列の尤度(
ユウド)計算に必要な、実用上十分な精度を有する音素
のコンフユージヨンマトリクス(以下、C.M と略
称する)を作成して使用するもので、そのC.M を
短時間に作成し得る点にある。
ユウド)計算に必要な、実用上十分な精度を有する音素
のコンフユージヨンマトリクス(以下、C.M と略
称する)を作成して使用するもので、そのC.M を
短時間に作成し得る点にある。
1ず、単語の音声認識方法について第1図とともに説明
する。入力音声を分析し、特徴を抽出した後、音素認識
を行なう。音素認識とは、入力音声を母音、子音等の音
素毎に区切った土で、音素の種類を識別することであり
、その結果の認識音素系列は、表現法にもよるが、一例
としてローマ字表記のようになる。例えば、「オーサカ
」が正しく音素認識されればroOsAKAJとなる。
する。入力音声を分析し、特徴を抽出した後、音素認識
を行なう。音素認識とは、入力音声を母音、子音等の音
素毎に区切った土で、音素の種類を識別することであり
、その結果の認識音素系列は、表現法にもよるが、一例
としてローマ字表記のようになる。例えば、「オーサカ
」が正しく音素認識されればroOsAKAJとなる。
次に、認識音素系列と単語辞書の照合を行なう。
単語辞書は、認識の対象となる全ての語を含み、各単語
は、下表に示したように音素系列の形で入っでいる。入
力音声の認識音素系列と、単語辞書中の各単語の音素系
列との尤度を次々に計算し、最大尤度を与える辞書中の
単語をもって認識単語とする。
は、下表に示したように音素系列の形で入っでいる。入
力音声の認識音素系列と、単語辞書中の各単語の音素系
列との尤度を次々に計算し、最大尤度を与える辞書中の
単語をもって認識単語とする。
以上のプロセスにより、単語音声認識がなされるが、次
に、認識音素系列と辞書音素系列の尤度の計算法を述べ
る。いま辞書音素系列をD(Dl。
に、認識音素系列と辞書音素系列の尤度の計算法を述べ
る。いま辞書音素系列をD(Dl。
D!−Dl)、認識音素系列をW (WI、 W2 =
・wJ)とする。DI + D2 r・・・、W、 、
W、 、・・・は各音素であシ、1、JはDおよびWの
音素数である。このとき尤度は、成るW(、りる入力音
声の認識音素系列)に対し、それが成るD(ある一つの
辞書項目の音素系列)である事後確率P(DlW)とし
て与えられる。
・wJ)とする。DI + D2 r・・・、W、 、
W、 、・・・は各音素であシ、1、JはDおよびWの
音素数である。このとき尤度は、成るW(、りる入力音
声の認識音素系列)に対し、それが成るD(ある一つの
辞書項目の音素系列)である事後確率P(DlW)とし
て与えられる。
そして、全ての辞書項目に対して計算し、P(DlW)
が最大となるDをもって単語認識確度とするものである
。ところで、P(DlW)の値は、I=Jのときには、 P(DlW)−に、IL、P(D1/w1)萌・・(1
)で計算される。つまり、音素系列間の尤度は、それぞ
れの音素系列を構成する各音素間の尤度の積で表わされ
る。また、一般には■笑Jであるが、この場合はり、の
脱落確率、wlの付加確率を考えることによシ、同様に
P(DlW)を求めることができる。
が最大となるDをもって単語認識確度とするものである
。ところで、P(DlW)の値は、I=Jのときには、 P(DlW)−に、IL、P(D1/w1)萌・・(1
)で計算される。つまり、音素系列間の尤度は、それぞ
れの音素系列を構成する各音素間の尤度の積で表わされ
る。また、一般には■笑Jであるが、この場合はり、の
脱落確率、wlの付加確率を考えることによシ、同様に
P(DlW)を求めることができる。
さて、(1)式におけるp(n!/Wi、)の値である
が、これを与えるのがCMである。つまり、C,Mは辞
書中のある音素が、何という音素に認識されるがという
確率を、各音素の全ての組合わせについて求め、検索し
ゃすいテーブルとして表わしたものであり、その−例を
第3図に示す。即ち、第3図において、辞書中の音素A
が、E、l!:認識される確率は1%、EとAの中間音
として認識される確率Vi2%、正しくAと認識される
確率は87%、Aの存在そのものが認識されずに脱落し
てしまう確率が1チとなっている。
が、これを与えるのがCMである。つまり、C,Mは辞
書中のある音素が、何という音素に認識されるがという
確率を、各音素の全ての組合わせについて求め、検索し
ゃすいテーブルとして表わしたものであり、その−例を
第3図に示す。即ち、第3図において、辞書中の音素A
が、E、l!:認識される確率は1%、EとAの中間音
として認識される確率Vi2%、正しくAと認識される
確率は87%、Aの存在そのものが認識されずに脱落し
てしまう確率が1チとなっている。
ところで、このよう々C,M の作成法であるが、従
来は全て手作業で作られていた。即ち、各単語毎に辞書
音素系列と認識音素系列とを見比べて、勘により双方の
各音素の対応関係を求め、辞書のどの種類の音素が何の
種類の音素として認識されたか、あるいは脱落したか、
あるいは辞書にない音素が付加したかを調べ、各々の場
合の頻度を累計して求めていた。この方法は、人間の勘
にたよる部分があるので厳密とはいえないが、熟練者の
場合、誤り率は数チ以下であって、品質上それ程問題は
彦い。しかしながら、重大な欠点は、その作業は音声を
熟知した者でなければできないこと、およびその作業量
の大きさである。つまシ、1語処理するのに3分程度か
かるので、5000語では250時間もかかることにな
る。そのため従来は、音素認識方法の小変更を行なった
場合や、認識の条件が標準とは異なる場合も、その変化
に応じた最適C,M−を作ることは、容易でないため行
なわれなかった。
来は全て手作業で作られていた。即ち、各単語毎に辞書
音素系列と認識音素系列とを見比べて、勘により双方の
各音素の対応関係を求め、辞書のどの種類の音素が何の
種類の音素として認識されたか、あるいは脱落したか、
あるいは辞書にない音素が付加したかを調べ、各々の場
合の頻度を累計して求めていた。この方法は、人間の勘
にたよる部分があるので厳密とはいえないが、熟練者の
場合、誤り率は数チ以下であって、品質上それ程問題は
彦い。しかしながら、重大な欠点は、その作業は音声を
熟知した者でなければできないこと、およびその作業量
の大きさである。つまシ、1語処理するのに3分程度か
かるので、5000語では250時間もかかることにな
る。そのため従来は、音素認識方法の小変更を行なった
場合や、認識の条件が標準とは異なる場合も、その変化
に応じた最適C,M−を作ることは、容易でないため行
なわれなかった。
本発明は、上記従来技術の欠点を改善したもので、実用
11分な精度を有する新C,M を短時間で作成し、
との(、M を使用して単語認識確度を高めるように
した単語音声認識方法を提供するものである。以下、図
面によシ実施例を詳細に説明する。
11分な精度を有する新C,M を短時間で作成し、
との(、M を使用して単語認識確度を高めるように
した単語音声認識方法を提供するものである。以下、図
面によシ実施例を詳細に説明する。
第4図は、本発明の一実施例における新CM作成フロー
を示したもので、まず、入力音声を音素認識した後、認
識音素系列と辞書音素系列の尤度計算を行ない、かつ最
大尤度を与える2音素系列の最適マツチング経路を記録
する。この場合、入力音声がどの単語を発声したもので
あるかはわかっているので、その単語の辞書音素系列と
のみ尤度計算を行なえばよい。ところで尤度計算を行な
うに当たり、(1)式のP (Di、/Wi )が必要
である。
を示したもので、まず、入力音声を音素認識した後、認
識音素系列と辞書音素系列の尤度計算を行ない、かつ最
大尤度を与える2音素系列の最適マツチング経路を記録
する。この場合、入力音声がどの単語を発声したもので
あるかはわかっているので、その単語の辞書音素系列と
のみ尤度計算を行なえばよい。ところで尤度計算を行な
うに当たり、(1)式のP (Di、/Wi )が必要
である。
これは′CM そのものであって、つまり本発明による
C、M、作成には種になるC 、M、を必要とする本実
施例の場合、種のC,M は1前に手作業で作成した
C M を使用した。次に、を度計算結果を検定する。
C、M、作成には種になるC 、M、を必要とする本実
施例の場合、種のC,M は1前に手作業で作成した
C M を使用した。次に、を度計算結果を検定する。
即ち、尤度が予め定められたスレッシュホールドより小
さい場合には 入力音声が不良、あるいは異常であるも
のとみなし、データを棄却する。尤度がスレッシュホー
ル1より大きい場合には、前ステップで求められ六ノ
よマツチング経路に基づき、辞書の各音素が(j]
二lli識されたか、あるいは脱落したか、あるいt7
.とこに音素が付加したかを記録し、これを積算す27
9以上のプロセスを全ての入力音声データにつl/)’
C繰り返し、積算された音素認識結果より音素認識確率
を計算して新しいCM、を作成する。でき上がったCM
は、見掛は土は従来のC,M と同形であシ、第3図
の如きものである。
さい場合には 入力音声が不良、あるいは異常であるも
のとみなし、データを棄却する。尤度がスレッシュホー
ル1より大きい場合には、前ステップで求められ六ノ
よマツチング経路に基づき、辞書の各音素が(j]
二lli識されたか、あるいは脱落したか、あるいt7
.とこに音素が付加したかを記録し、これを積算す27
9以上のプロセスを全ての入力音声データにつl/)’
C繰り返し、積算された音素認識結果より音素認識確率
を計算して新しいCM、を作成する。でき上がったCM
は、見掛は土は従来のC,M と同形であシ、第3図
の如きものである。
本実施例における認識音素系列と辞書音素系列の最適マ
ツチング経路を見出す方法を、例を用いて説明する。第
2図は、「ウペ」という単語のマ、チングの様子を示し
たものであるが、辞書音素系列はUBEであり、両端の
÷は語境界を示す。
ツチング経路を見出す方法を、例を用いて説明する。第
2図は、「ウペ」という単語のマ、チングの様子を示し
たものであるが、辞書音素系列はUBEであり、両端の
÷は語境界を示す。
このとき、この単語の音素認識結果はNUPAであり、
両端の+は語境界を示す。折線りはtJBEとNUPA
の最適マツチング経路であるが、この経路の求め方を述
べる。始点からDP(ダイナミックゾログラミング)を
用いて各音素のす・j応点毎に、次々に尤度の途中経過
を計算する。このとき、始点から辞書音素系列中の音素
Di(l−1,2,・・・、■)と認識音素系列中の音
素W、(j=1.2.・・・、J)が対応するi−j点
のDP計算における尤度の途中経過値(以下、Pi、と
する)が確定する度に、そのPijを与えるi−j点に
至る経路の直前の点を記録する。第2図の例でいえば、
例えばi=2゜j=3(B−P点)における尤度途中値
P23が確定したならば、その値P23が得られた経路
の直前の点は当然確定している。つまシこの場合は、i
=1 、j=2の点が直前の点であることがわかるから
、経路を記録するためのマ) IJクスを用意しておき
、そのマトリクスのi=2.j=3の部分に、その点に
至る直前の点はi−1,j−2であると記録する。この
操作を後の語境界まで続ければ、音素系列どうしの尤度
計算終了後、終点から逆向きに最適マツチング経路をた
どることができる。最適マツチング経路が求まれば、そ
の経路子で、各音素毎の認識の様子を調べてカウントす
るのであるが、第2図の例の場合は、語頭のUの直前に
Nが付加され、UがU、BがP、EがAと認識されたも
の各1個ということになる。
両端の+は語境界を示す。折線りはtJBEとNUPA
の最適マツチング経路であるが、この経路の求め方を述
べる。始点からDP(ダイナミックゾログラミング)を
用いて各音素のす・j応点毎に、次々に尤度の途中経過
を計算する。このとき、始点から辞書音素系列中の音素
Di(l−1,2,・・・、■)と認識音素系列中の音
素W、(j=1.2.・・・、J)が対応するi−j点
のDP計算における尤度の途中経過値(以下、Pi、と
する)が確定する度に、そのPijを与えるi−j点に
至る経路の直前の点を記録する。第2図の例でいえば、
例えばi=2゜j=3(B−P点)における尤度途中値
P23が確定したならば、その値P23が得られた経路
の直前の点は当然確定している。つまシこの場合は、i
=1 、j=2の点が直前の点であることがわかるから
、経路を記録するためのマ) IJクスを用意しておき
、そのマトリクスのi=2.j=3の部分に、その点に
至る直前の点はi−1,j−2であると記録する。この
操作を後の語境界まで続ければ、音素系列どうしの尤度
計算終了後、終点から逆向きに最適マツチング経路をた
どることができる。最適マツチング経路が求まれば、そ
の経路子で、各音素毎の認識の様子を調べてカウントす
るのであるが、第2図の例の場合は、語頭のUの直前に
Nが付加され、UがU、BがP、EがAと認識されたも
の各1個ということになる。
以上、本発明の方法によれば、5000語程度0認識音
素系列データより、30分程度(音素認識に要する時間
を除く)の短時間で新C,M、を作成することができ、
従来に比べて大幅な時間短縮が可能になる。そして、こ
のC,M、は、特定の偏りを持った単語群や話者を対象
とする場合、その対象に対して最適なパターンを具備す
るものであるから、標準的C,M を使用する従来方
法に比較して、極めて確度の高い単語音声認識を行なう
ことができる利点を有するものであ・る。
素系列データより、30分程度(音素認識に要する時間
を除く)の短時間で新C,M、を作成することができ、
従来に比べて大幅な時間短縮が可能になる。そして、こ
のC,M、は、特定の偏りを持った単語群や話者を対象
とする場合、その対象に対して最適なパターンを具備す
るものであるから、標準的C,M を使用する従来方
法に比較して、極めて確度の高い単語音声認識を行なう
ことができる利点を有するものであ・る。
第1図は、単語音声認識アルゴリズムの概略図、第2図
は、辞書音素系列と認識音素系列の最適マツチング経路
図、第3図は、C,M の−例を示す図、第4図は、
本発明の一実施例におけるCM、作成アルゴリズムの概
略図である。 第1図 第2図 $UBEa 411414未 第3図
は、辞書音素系列と認識音素系列の最適マツチング経路
図、第3図は、C,M の−例を示す図、第4図は、
本発明の一実施例におけるCM、作成アルゴリズムの概
略図である。 第1図 第2図 $UBEa 411414未 第3図
Claims (2)
- (1) 予め正解のわかっている単語音声データの音
素認識結果である認識音素系列と、該認識音素系列に対
応する単語辞書中の単語の辞書音素系列とを、予め作成
しておいた種となるコンフユージョンマ) IJクスを
用いて照合し、前記認識音素系列と辞書音素系列の尤度
が最大となるような音素系列の最適マツチング経路を見
出して各音素毎の識別頻度を求め、それを累計して新コ
ンフユーノヨン7トリクスを作成し、この新コンフユー
ジヨンマトリクスを使用して音声認識方法なうことを特
徴とする単語音声認識方法。 - (2)前記新コンフユージヨンマトリクスの作成におい
て、前記認識音素系列と辞書音素系列の尤度計算結果が
予め定められたスレッシ−ホールド値より小さい場合は
、入力音声の不良とみなし、そのデータをコンフユージ
ヨンマトリクスの作成に利用せずに棄却することを特徴
とする特許請求の範囲第(1)項記載の単語音声認識方
法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57010873A JPS58129497A (ja) | 1982-01-28 | 1982-01-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57010873A JPS58129497A (ja) | 1982-01-28 | 1982-01-28 | 単語音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58129497A true JPS58129497A (ja) | 1983-08-02 |
| JPS6310438B2 JPS6310438B2 (ja) | 1988-03-07 |
Family
ID=11762448
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57010873A Granted JPS58129497A (ja) | 1982-01-28 | 1982-01-28 | 単語音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58129497A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6146995A (ja) * | 1984-08-11 | 1986-03-07 | 富士通株式会社 | 音声認識システム |
| JPS61147299A (ja) * | 1984-12-20 | 1986-07-04 | 松下電器産業株式会社 | 音声認識装置 |
-
1982
- 1982-01-28 JP JP57010873A patent/JPS58129497A/ja active Granted
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6146995A (ja) * | 1984-08-11 | 1986-03-07 | 富士通株式会社 | 音声認識システム |
| JPS61147299A (ja) * | 1984-12-20 | 1986-07-04 | 松下電器産業株式会社 | 音声認識装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6310438B2 (ja) | 1988-03-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
| US4819271A (en) | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments | |
| US7756710B2 (en) | Method and apparatus for error correction in speech recognition applications | |
| US5072452A (en) | Automatic determination of labels and Markov word models in a speech recognition system | |
| EP0241768B1 (en) | Synthesizing word baseforms used in speech recognition | |
| JP2002533789A (ja) | 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略 | |
| EP0573553A1 (en) | Method for recognizing speech using linguistically-motivated hidden markov models | |
| JPH0372989B2 (ja) | ||
| JPS62231995A (ja) | 音声認識方法 | |
| EP0535929A2 (en) | Speech recognition system | |
| TWI241555B (en) | Device and method for recognizing consecutive speech, and program recording medium | |
| JPS58129497A (ja) | 単語音声認識方法 | |
| US20050049873A1 (en) | Dynamic ranges for viterbi calculations | |
| Rosenberg et al. | Recognition of spoken spelled names for directory assistance using speaker-independent templates | |
| EP0202534B1 (en) | Continuous word recognition system | |
| JP3353334B2 (ja) | 音声認識装置 | |
| JPS6147999A (ja) | 音声認識装置 | |
| JP3818154B2 (ja) | 音声認識方法 | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| JPS615300A (ja) | 学習機能付音声入力装置 | |
| JPS60149096A (ja) | 単語音声認識方法 | |
| JPH06348291A (ja) | 単語音声認識方法 | |
| Cremelie et al. | A single pass heuristic search for segmental speech recognizers | |
| JPS6155680B2 (ja) | ||
| JPS636599A (ja) | 単語予備選択方式 |