JPS6335997B2 - - Google Patents
Info
- Publication number
- JPS6335997B2 JPS6335997B2 JP55174340A JP17434080A JPS6335997B2 JP S6335997 B2 JPS6335997 B2 JP S6335997B2 JP 55174340 A JP55174340 A JP 55174340A JP 17434080 A JP17434080 A JP 17434080A JP S6335997 B2 JPS6335997 B2 JP S6335997B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- candidate phoneme
- candidate
- reliability
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Description
本発明は、入力音声信号を一定期間毎にサンプ
リングして音韻の系列に変換し、しかる後に予め
音韻記号で登録されている単語辞書の各単語と比
較し、最も類似度の高い単語を認識結果とする音
声認識装置において、前記変換された音韻系列を
マージングすることにより前記単語辞書との比較
照合の速度を上げることを目的とするものであ
る。
第1図は、入力音声信号を一たん音韻の系列に
分解してから、単語認識を行う音声認識装置の従
来構成を示すブロツク図である。1は音声信号入
力端子、2は例えばnチヤンネルのフイルタバン
クからなり、入力音声信号の周波数分析を行う周
波数分析部である。すなわち、入力される音声信
号に対し、前記フイルタバンクを構成する各帯域
フイルタの出力の大きさに対応した電圧が、それ
ぞれの周波数成分の大きさとして出力される。こ
れを例えば10msec毎にサンプリングすれば、
10msec毎にn次元のベクトル系列に前記音声信
号が変換されることになる。(ここでそれぞれの
10msecをフレームという)3は音韻の標準パタ
ーンを記憶している標準パターン記憶部であつ
て、各音韻を前記フイルタバンクで周波数分析し
た結果得られたn次元のベクトルとして各音韻が
記憶されている。4は音韻認識部であつて、周波
数分析部2から出力されるn次元ベクトルの系列
のそれぞれが、標準パターン記憶部3のどの音韻
のパターンに最も近いかを計算し、最も近い標準
パターンに対応する音韻を認識結果として出力す
る。この時点で入力音声は、音韻系列に変換され
たことになる。5は単語辞書であつて、認識すべ
き語彙を構成する各単語が、略ローマ字書きのよ
うに音韻の組合せの形で予め登録されている。6
は単語認識部であつて、予め各音韻間で実験的あ
るいは理論的に求められた音韻間類似度に基づ
き、音韻認識部4で得られた音韻系列と、単語辞
書5のそれぞれの単語と比較照合を行い、最も類
似度の高い単語を認識結果として出力する。7は
判定結果の出力端子である。
この場合、音韻認識部4によつて認識される音
韻列は、間違いを多く含んでいるので、入力され
るn次元のベクトルのそれぞれに、唯一の音韻を
対応させるのではなく、第1候補音韻、第2候補
音韻、第1候補音韻の信頼度の組として出力され
る。第2図はこの例を示す。すなわち、i番目の
ベクトルViに対しAiが第1候補音韻、Biが第2
候補音韻、riが第1候補の信頼度である。これら
音韻と、信頼度の決定は、各標準パターンベクト
ルとViとの距離を計算し、最も距離の小さい標
準パターンを第1候補、次に距離の小さい標準パ
ターンを第2候補とし、前者の距離をdi1、後者
の距離をdi2とするとき信頼度riとしてri=di2/
(di1+di2)で求められる。音韻Ai,Biに対する標
準パターンベクトルAi,Biと入力ベクトルViの
距離は通常のベクトル間の距離として定義でき
る。例えば、この距離をユークリツド距離で定義
すれば
Ai=(Ai1,Ai2,……,Aio)
Bi=(Bi1,Bi2,……,Bio)
Vi=(Vi1,Vi2,……,Vio)
とするとき
になる。このようにすれば、AiとBiの確からし
さが同程度のときはri=0.5で、Aiの確からしさ
が増大するにつれてriは1に近づくことになる。
このようにして得られた音韻系列と単語辞書の
各単語との比較を行うためには、この音韻系列の
それぞれと各単語を構成する音韻との間の類似度
を定義しておく必要がある。音韻間の類似度例え
ば音韻PとQの類似度は、音韻PとQに対応する
n次元ベクトルとして集められた多数のデータか
ら統計的に処理することによつて求められた両音
韻間の距離を線形変換することにより求められ
る。これを類似度S0(P,Q)とする。このとき、
前記音韻系列のi番目の音韻の組と単語辞書の比
較の対称となつているk番目の単語Wkのj番目
の音韻Djとの類似度S(i,j)は、例えば
S(i,j)=riS0(Ai,Dj)
+(1−ri)S0(Bi,Dj)
で与えることができる。
前記入力音韻系列と単語Wkの類似度は、この
S(i,j)を基にして、縦軸j、横軸iの格子
グラフ上で周知の動的計画法により求めることが
できる。
以上の認識において、音韻認識部4の出力音韻
系列はそのまま単語認識部6へ入力されるのでは
なく、マージングして音韻数を減らすことが普通
行われる。これは、10msec程度のサンプリング
であると、同一の音韻が連続する場合が多く、冗
長度が高いため、そのまま単語辞書と照合をする
のは非能率であることから、認識速度を上げるた
めと、音韻のわたりの部分などの不安定なところ
では音韻の認識結果が誤つていることが多く、こ
れを取り除くために行われる。
本発明は、以上の認識方式において、新しいマ
ージングの方式を備えた音声認識装置を提供する
ものである。
第2図の説明のように第iフレームの第1候補
音韻をAi、第2候補音韻をBi,Aiの信頼度をriと
すれば、Biの信頼度は1−riとなる。いま、第j
フレームから第j+kフレームまでの音韻系列を
マージングして、第1候補音韻Fl、第2候補音韻
Sl、信頼度Rlを求める方法について述べる。こ
の範囲に含まれる音韻はAj,A(j+1),……,
A(j+k),Bj,B(j+1),……,B(j+k)であり、それぞ
れには前記説明における信頼度rj,r(j+1),
……,r(j+k),1−rj,1−r(j+1),…
…,1−r(j+k)が付随している。この中に
m種の異なつた音韻が存在しているものとし、そ
れぞれをX1,X2,……,Xnとすれば、前記Aj,
……,B(j+k)のそれぞれはX1,……,Xnの何れか
に含まれることになる。このとき、Aj,……,
B(j+k)のうち、Xiに含まれるものに対応する前記
信頼度の合計をuiとする。u1,u2,……,unの最
大のものをuλ、2番目に大きいものをuμとすれ
ば第1候補音韻Fl=Xλ、第2候補音韻Sl=Xμ、
信頼度Rl=uλ/(uλ+uμ)で与えることができ
る。
第3図は、本発明になるマージング方式を導入
した音声認識装置の構成を示し、1〜7は前記従
来例と同様な動作を行うもので、8が本発明によ
る前記マージングを行う音韻列修正部である。
マージングの範囲としては、実験的に3フレー
ム単位(すなわちm=3)で固定して行うのが最
も簡単な方法で、比較的効果が高い。
例として、i−1フレームからi+1フレーム
までをマージングする場合を述べる(k=2の場
合)第2図においてこのフレームに含まれる各音
韻の信頼度は下表のようになる。
The present invention samples an input speech signal at regular intervals, converts it into a phoneme sequence, and then compares it with each word in a word dictionary registered in advance using phoneme symbols, and selects the word with the highest degree of similarity as a recognition result. In the speech recognition device, the purpose is to increase the speed of comparison with the word dictionary by merging the converted phoneme sequences. FIG. 1 is a block diagram showing the conventional structure of a speech recognition device that once decomposes an input speech signal into a series of phonemes and then performs word recognition. Reference numeral 1 denotes an audio signal input terminal, and 2 represents a frequency analysis section that includes, for example, an n-channel filter bank and performs frequency analysis of the input audio signal. That is, with respect to the input audio signal, a voltage corresponding to the magnitude of the output of each band filter constituting the filter bank is outputted as the magnitude of each frequency component. For example, if you sample this every 10msec,
The audio signal is converted into an n-dimensional vector sequence every 10 msec. (Here each
(10 msec is called a frame) 3 is a standard pattern storage unit that stores standard patterns of phonemes, and each phoneme is stored as an n-dimensional vector obtained as a result of frequency analysis of each phoneme using the filter bank. . 4 is a phoneme recognition unit that calculates which phoneme pattern in the standard pattern storage unit 3 each of the n-dimensional vector series output from the frequency analysis unit 2 is closest to, and corresponds to the closest standard pattern. Outputs the phoneme that is recognized as a recognition result. At this point, the input speech has been converted into a phoneme sequence. Reference numeral 5 denotes a word dictionary, in which each word constituting the vocabulary to be recognized is registered in advance in the form of a combination of phonemes, roughly written in Roman letters. 6
is a word recognition unit that compares the phoneme sequence obtained by the phoneme recognition unit 4 with each word in the word dictionary 5 based on the degree of similarity between phonemes determined experimentally or theoretically between each phoneme in advance. A comparison is made and the word with the highest degree of similarity is output as the recognition result. 7 is an output terminal for the determination result. In this case, the phoneme sequence recognized by the phoneme recognition unit 4 contains many mistakes, so instead of making each of the input n-dimensional vectors correspond to a unique phoneme, the first candidate phoneme , the second candidate phoneme, and the first candidate phoneme are output as a reliability set. Figure 2 shows an example of this. That is, for the i-th vector Vi, A i is the first candidate phoneme, and B i is the second candidate phoneme.
Candidate phoneme, r i is the reliability of the first candidate. To determine these phonemes and reliability, calculate the distance between each standard pattern vector and Vi, select the standard pattern with the shortest distance as the first candidate, then choose the standard pattern with the shortest distance as the second candidate, and select the standard pattern with the shortest distance as the second candidate. When the distance is d i1 and the latter distance is d i2 , the reliability r i is r i = d i2 /
It is obtained by (d i1 + d i2 ). The distance between the standard pattern vectors Ai and Bi for the phonemes A i and B i and the input vector V i can be defined as the distance between normal vectors. For example, if this distance is defined as Euclidean distance, then Ai = (A i1 , A i2 , ..., A io ) Bi = (B i1 , B i2 , ..., B io ) Vi = (V i1 , V i2 , ..., V io ) become. In this way, when the certainty of Ai and Bi is about the same, ri=0.5, and as the certainty of Ai increases, ri approaches 1. In order to compare the phoneme series obtained in this way with each word in the word dictionary, it is necessary to define the degree of similarity between each of the phoneme series and the phonemes that make up each word. . Similarity between phonemes For example, the similarity between phonemes P and Q is the distance between the two phonemes obtained by statistically processing a large amount of data collected as n-dimensional vectors corresponding to phonemes P and Q. It is obtained by linear transformation of . This is defined as similarity S 0 (P, Q). At this time,
The degree of similarity S(i, j) between the kth word W k and the jth phoneme D j , which is the target of the comparison between the i-th phoneme set of the phoneme series and the word dictionary, is, for example, S(i , j)=riS 0 (A i , D j ) + (1−ri) S 0 (B i , D j ). The degree of similarity between the input phoneme sequence and the word W k can be determined by well-known dynamic programming on a lattice graph with the vertical axis j and the horizontal axis i based on this S(i, j). In the above recognition, the output phoneme sequence of the phoneme recognition unit 4 is not input as is to the word recognition unit 6, but is usually merged to reduce the number of phonemes. This is done in order to increase the recognition speed, as it would be inefficient to directly check with a word dictionary because the same phoneme is often consecutive if the sampling is about 10 msec, and there is a high degree of redundancy. The phoneme recognition results are often erroneous in unstable areas such as transitions between phonemes, and this is done to eliminate this. The present invention provides a speech recognition device equipped with a new merging method in the above recognition method. As explained in Figure 2, if the first candidate phoneme of the i-th frame is A i , the second candidate phoneme is B i , and the reliability of A i is ri, then the reliability of B i is 1-ri. . Now, the jth
The phoneme sequence from the frame to the j+kth frame is merged, and the first candidate phoneme Fl and the second candidate phoneme are
We will explain how to obtain Sl and reliability Rl. The phonemes included in this range are A j , A (j+1) , ...,
A (j+k) , B j , B (j+1) , ..., B (j+k) , and each has the reliability rj, r(j+1),
..., r(j+k), 1-rj, 1-r(j+1),...
..., 1-r(j+k) are attached. Assume that there are m types of different phonemes, and let them be X 1 , X 2 , ..., X n , then the above A j ,
..., B (j+k) will be included in any one of X 1 , ..., X n . At this time, A j ,...,
Among B (j+k) , let ui be the sum of the reliabilities corresponding to those included in X i . If the largest one of u 1 , u 2 , ..., u n is uλ and the second largest one is uμ, then the first candidate phoneme Fl=Xλ, the second candidate phoneme Sl=Xμ,
The reliability can be given as Rl=uλ/(uλ+uμ). FIG. 3 shows the configuration of a speech recognition device incorporating the merging method according to the present invention, in which 1 to 7 perform the same operations as the conventional example, and 8 is a phoneme string modification that performs the merging according to the present invention. Department. As for the range of merging, experimentally fixing it in units of three frames (that is, m=3) is the simplest method and is relatively effective. As an example, we will discuss the case of merging frames from i-1 to i+1 (when k=2). In FIG. 2, the reliability of each phoneme included in this frame is as shown in the table below.
【表】【table】
【表】
いま例えば、A(i-1),Ai,B(i+1)が音韻X1,
B(i-1),Biが音韻X2,A(i+1)が音韻X3であつたとす
れば(m=3の場合)、このとき、
u1=r(i−1)+ri+(1−r(i+1))
u2=(1−r(i-1))+(1−ri)
u3=r(i+1)
となる。従つてu1≧u2≧u3であつたとすれば
uλ=u1,uμ=u2
となるから、マージングされた結果は、
Fl=X1,Sl=X2,Rl=u1/(u1+u2)
となる。
以上のように本発明によれば、マージングすべ
き範囲に含まれる同一音韻の数と、それぞれの信
頼度から合理的にそれらのフレームをマージング
することができ、すなわち冗長度を低減して単語
辞書との照合が可能となることから、従来よりも
効率的に認識速度を向上させ、あわせて正確さも
実現できるものである。[Table] For example, A (i-1) , A i , B (i+1) are phonemes X 1 ,
If B (i-1) , B i is the phoneme X 2 and A (i+1) is the phoneme X 3 (if m = 3), then u 1 = r (i-1) + ri + (1-r (i+1) ) u 2 = (1-r (i-1) ) + (1-ri) u 3 = r (i+1) . Therefore, if u 1 ≧u 2 ≧u 3 , then uλ=u 1 and uμ=u 2 , so the merged results are Fl=X 1 , Sl=X 2 , Rl=u1/(u 1 + u 2 ). As described above, according to the present invention, it is possible to rationally merge frames based on the number of identical phonemes included in the range to be merged and their reliability, that is, to reduce redundancy and create a word dictionary. This makes it possible to improve recognition speed and accuracy more efficiently than before.
第1図は音韻分析を行う従来の音声認識装置の
ブロツク図、第2図は音韻認識の結果得られる音
韻列を説明する図、第3図は本発明の音声認識装
置の一実施例を示すブロツク図である。
2……周波数分析部、3……標準パタン記憶
部、4……音韻認識部、5……単語辞書、6……
単語認識部、8……音韻列修正部。
Fig. 1 is a block diagram of a conventional speech recognition device that performs phoneme analysis, Fig. 2 is a diagram explaining a phoneme sequence obtained as a result of phoneme recognition, and Fig. 3 shows an embodiment of the speech recognition device of the present invention. It is a block diagram. 2...Frequency analysis unit, 3...Standard pattern storage unit, 4...Phonological recognition unit, 5...Word dictionary, 6...
Word recognition section, 8...Phone sequence correction section.
Claims (1)
る手段と、該ベクトル系列を構成するそれぞれの
特徴ベクトルを第1候補音韻、第2候補音韻、第
1候補音韻と第2候補音韻が、同様の確からしさ
を有するときは0.5で、第1候補音韻の確からし
さが増大するにつれて1に近づくように定義した
第1候補音韻の信頼度の組に変換する音韻認識手
段と、該音韻認識手段により得られた第1候補音
韻、第2候補音韻、第1候補音韻の信頼度の組の
系列の連続する数組をマージングする手段とを備
え、該マージング手段の出力系列と、認識語彙を
構成する各単語を音韻の組合せで表現した単語辞
書の各単語と比較照合し、最も類似度の高い単語
を認識結果として出力する音声認識装置におい
て、前記マージング手段として、前記音韻認識手
段の出力系列の第i番の組の第1候補音韻をAi、
第2候補音韻をBi、第1候補音韻の信頼度をri従
つて第2候補音韻の信頼度を1−riとするとき、
第j番の組から第j+k番までの組をマージング
する場合、この中に含まれるm種類の音韻X1,
X2,……,Xnに対し、前記Aj,Aj+1,……,
Aj+k,Bj,Bj+1,……,Bj+kのうち、音韻
Xiに等しいもののそれぞれに対応する信頼度の合
計をuiとし、u1,u2,……,unの最大のものを
uλ、その次に大きなものをuμとすれば、マージ
ング後の第1候補音韻をXλ、第2候補音韻を
Xμ、第1候補音韻の信頼度をuλ/(uλ+uμ)と
する手段を有することを特徴とする音声認識装
置。1 A means for converting an input speech signal into a series of feature vectors, and a means for converting each feature vector constituting the vector series into a first candidate phoneme, a second candidate phoneme, and a means for converting the first candidate phoneme and the second candidate phoneme with the same certainty. a phoneme recognition means that converts into a set of reliability of the first candidate phoneme, which is defined as 0.5 when the first candidate phoneme has a certainty, and approaches 1 as the certainty of the first candidate phoneme increases; means for merging several successive sets of a first candidate phoneme, a second candidate phoneme, and a reliability set of the first candidate phoneme, and an output sequence of the merging means and each word constituting the recognition vocabulary. In a speech recognition device that compares and collates a word with each word in a word dictionary expressed as a combination of phonemes and outputs the word with the highest degree of similarity as a recognition result, the merging means includes the i-th number of the output series of the phoneme recognition means. Let A i be the first candidate phoneme of the set of
When the second candidate phoneme is B i , the reliability of the first candidate phoneme is ri, and the reliability of the second candidate phoneme is 1−ri,
When merging sets from the j-th set to the j+k-th set, the m types of phonemes included therein X 1 ,
For X 2 , ..., X n , the above A j , A j +1, ...,
Among A j +k, B j , B j +1, ..., B j + k , phoneme
Let u i be the sum of the reliability corresponding to each thing equal to X i , and let the maximum of u 1 , u 2 , ..., u n be
If uλ is the next largest one, then the first candidate phoneme after merging is Xλ, and the second candidate phoneme is
A speech recognition device characterized in that it has means for setting the reliability of the first candidate phoneme to uλ/(uλ+uμ).
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174340A JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP55174340A JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5797598A JPS5797598A (en) | 1982-06-17 |
| JPS6335997B2 true JPS6335997B2 (en) | 1988-07-18 |
Family
ID=15976920
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP55174340A Granted JPS5797598A (en) | 1980-12-10 | 1980-12-10 | Voice recognizer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5797598A (en) |
-
1980
- 1980-12-10 JP JP55174340A patent/JPS5797598A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5797598A (en) | 1982-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4400828A (en) | Word recognizer | |
| EP0435282B1 (en) | Voice recognition apparatus | |
| JP2815579B2 (en) | Word candidate reduction device in speech recognition | |
| EP0109190A1 (en) | Monosyllable recognition apparatus | |
| JPH07306691A (en) | Apparatus and method for speaker-independent speech recognition | |
| US4581756A (en) | Recognition of speech or speech-like sounds using associative memory | |
| EP0108609B1 (en) | Method and apparatus for the phonetic recognition of words | |
| JPH0247760B2 (en) | ||
| JPS6335997B2 (en) | ||
| Rabiner et al. | On the application of embedded training to connected letter recognition for directory listing retrieval | |
| JP2813209B2 (en) | Large vocabulary speech recognition device | |
| JP2980382B2 (en) | Speaker adaptive speech recognition method and apparatus | |
| JP3503862B2 (en) | Speech recognition method and recording medium storing speech recognition program | |
| JP3438293B2 (en) | Automatic Word Template Creation Method for Speech Recognition | |
| JPH0449719B2 (en) | ||
| JP2520392B2 (en) | Word speech recognizer | |
| JP2577891B2 (en) | Word voice preliminary selection device | |
| JPS599080B2 (en) | Voice recognition method | |
| JPS62111295A (en) | Voice recognition equipment | |
| JP2655637B2 (en) | Voice pattern matching method | |
| Nakatsu | A speech recognition machine for connected words | |
| Raman et al. | Performance of isolated word recognition system for confusable vocabulary | |
| JPS63161498A (en) | Voice information input device | |
| JPS60159798A (en) | Voice recognition equipment | |
| JPH01177094A (en) | Data retrieving device |