JPS617892A - Word speech recognition method - Google Patents
Word speech recognition methodInfo
- Publication number
- JPS617892A JPS617892A JP59128814A JP12881484A JPS617892A JP S617892 A JPS617892 A JP S617892A JP 59128814 A JP59128814 A JP 59128814A JP 12881484 A JP12881484 A JP 12881484A JP S617892 A JPS617892 A JP S617892A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- vector
- word
- frequency distribution
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
辣J1釈ニ一
本発明は、ベクトル量子化を用いた音声認識方式に関す
る。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech recognition method using vector quantization.
災米挟皿
単語の標準パターンと未知入カバターンとのパターンマ
ツチングを行なう方法にDPマツチング法(動的B[画
法)と呼ばれる方法がある。これは。There is a method called the DP matching method (dynamic B [picture method]) for pattern matching between the standard pattern of the word "disaster" and the unknown cover pattern. this is.
前記標準パターンの時間軸を非線形に伸縮し、前記未知
入カバターンの時間軸に揃えて両パターンが最も類似す
るようにして即ち前記パターン間の距離を最小にしてパ
ターンマツチングを行なうものである。しかし、上記D
Pマツチング法は、パターンマツチング時、少なくとも
I XJ XN(I :未知入カバターンのフレーム数
、J:標準パターンのフレーム数、N:登録単語数)回
の計算量を必要とし、膨大な計算量を必要とする。Pattern matching is performed by non-linearly expanding or contracting the time axis of the standard pattern and aligning it with the time axis of the unknown input pattern so that both patterns are most similar, that is, the distance between the patterns is minimized. However, the above D
The P matching method requires at least I Requires.
目 的
本発明は、上述のごとき従来技術の欠点を解消するため
になされたもので、特に、標準パターンの特徴ベクトル
をベクトル量子化した擬音韻パターンベクトルの頻度分
布パターンと入カバターンの特徴ベクトルをベクトル量
子化した擬音韻パターンベクトルの頻度分布パターンと
の間の形状に基づいて単語音声を認識するようにした音
声認識方式において、前記パターンベクトルにパターン
ベケトル間相互の類似性を付加し、もって、計算量を減
らし、認識速度を向上させることを目的としてなされた
ものである。Purpose The present invention was made in order to eliminate the drawbacks of the prior art as described above, and in particular, the frequency distribution pattern of the onomatopoeic pattern vector, which is obtained by vector quantizing the feature vector of the standard pattern, and the feature vector of the input pattern. In a speech recognition method that recognizes a word sound based on the shape between a vector quantized onomatopoeic pattern vector and a frequency distribution pattern, mutual similarity between pattern vectors is added to the pattern vector, and This was done with the aim of reducing the amount of calculation and improving the recognition speed.
遭−炭
本発明の構成について、以下、一実施例に基づいて説明
する。The structure of the present invention will be described below based on one embodiment.
図は1本発明を構成するシステムのブロック図で、図中
、1は音声入力部、2はスペクトル解析部、3はコード
ブック蓄積部、4は未知入力フレームのベクトル量子化
部、5はコードベクトルの使用頻度分布パターン生成部
、6は標準頻度分布パターン蓄積部、7はコードベクト
ル間の類似度テーブル、8は類似度テーブル7によって
変換された頻度分布パターン生成部、9はパターンマツ
チング部、10は単語同定部、】1は認識結果出力部で
ある。The figure is a block diagram of a system constituting the present invention. In the figure, 1 is an audio input section, 2 is a spectrum analysis section, 3 is a codebook storage section, 4 is an unknown input frame vector quantization section, and 5 is a code 6 is a standard frequency distribution pattern storage unit, 7 is a similarity table between code vectors, 8 is a frequency distribution pattern generator converted by the similarity table 7, 9 is a pattern matching unit , 10 is a word identification section, and ] 1 is a recognition result output section.
標準頻度分布パターン蓄積部6において、まず。First, in the standard frequency distribution pattern storage section 6.
単語nの標準パターンをRnで表わし、Rn = b、
n b、 n 、、、、、bn’、、、、、、 bn
J ・Jn
(n=1.2.・・・・・・、NUN:単語数)とする
。ここで、bnは単語nの第3番目のフレームの特徴ベ
クトル )nは継続フレーム長である。Let Rn represent the standard pattern of word n, and Rn = b,
n b, n , , , bn', , , , bn
Let J ・Jn (n=1.2..., NUN: number of words). Here, bn is the feature vector of the third frame of word n, and n is the continuous frame length.
次に、前記標準パターンRnをコートブック3に含まれ
る擬音銀パターンベクトル(コードベクトルともいう)
Ck (k=1.2.・・・・・、に;に:量子化レベ
ル数)で表わす。即ち、前記b 、n (、i=1..
2.・・・・・、Jn)の各々を前記コードベクトルC
kのうち最も近いもので表わす。Next, the standard pattern Rn is converted into an onomatopoeic silver pattern vector (also referred to as a code vector) included in the coat book 3.
It is expressed as Ck (k=1.2..., ni; ni: number of quantization levels). That is, the above b , n (, i=1..
2. ..., Jn) as the code vector C
It is expressed as the closest one among k.
ここで、距離尺度をd(b7.ch)とし、する。Here, let the distance measure be d(b7.ch).
面して、前記り、n(j= ]、 + 2 +・・・・
・Jn)で表わしだ標準パターンを
とする。Facing, above, n(j= ], + 2 +...
・Let Jn) represent the standard pattern.
単語nに対して前記コードベクトルCkの使用頻度をY
k’とし、ベクトル量子化された前記標準パターン良1
を前記Yknにより表わしたものを41準頻度分布パタ
ーンR’とすると、のように表現できる。ここで、前記
コードベクトルCj (i =1.2.・・・・・・、
■()相互間の類似性を反映した類似度テーブル7にs
(++jL(i。Let Y be the usage frequency of the code vector Ck for word n.
k', and the vector quantized standard pattern is
When expressed by the above Ykn as the 41 quasi-frequency distribution pattern R', it can be expressed as follows. Here, the code vector Cj (i = 1.2...,
■() In the similarity table 7 that reflects the similarity between the s
(++jL(i.
j=1.2.・・・・・、K)を作成しておく。類似性
の尺度としては前記コードベタ1〜ルC」 とCjどの
距離d (Ci 、 Cj )を用いて、d (Ci
、 C,])の値が小さければs(+、j)に大きな値
を入れておく。例えば、あるiの値に列してd (C」
、C,1) +(j=]、2.・・・・・、K)が最小
どなる場合(]=Jのときd(Ci 、Cj )=Oと
なる)には、S(i。j=1.2. ..., K) is created in advance. As a measure of similarity, the distance d (Ci, Cj) between the code patterns 1 to C' and Cj is used, and d (Ci
, C, ]) is small, put a large value in s(+, j). For example, for a certain value of i, d (C''
, C, 1) + (j=], 2..., K) is the minimum (when ]=J, d(Ci, Cj)=O), then S(i.
に対しては、S(+1J)=5というように前記類似度
テーブルS(i、j)の要素を
決定する。, the elements of the similarity table S(i,j) are determined such that S(+1J)=5.
次に、前記標$頻度分布パターンR’ =Y 、 。Next, the target $ frequency distribution pattern R' = Y.
¥−・・’Yj Ykを前記類似度テーブルS(i、j
)を用いて、
のように変換する。変換後の標4!頻度分布パターと表
わせる。Rnのパターンを全ての単語n (n=1.2
.・・・・・・、N)t:ついて予め求めておき、標僧
頻度分布パターン蓄積部6に格納しておく。¥-...'Yj Yk is calculated from the similarity table S(i, j
) to convert as follows. Mark 4 after conversion! It can be expressed as a frequency distribution pattern. The pattern of Rn is all words n (n=1.2
.. . . ., N) t: is determined in advance and stored in the mark frequency distribution pattern storage section 6.
一方、音声入力部1に入力された未知入力音声をスペク
トル解析部2で周波数分析し、未知入・カバターンTを
得る。Tは、
T=a1a2・・・・・・ai・・・・・aIと表現で
きる。ここで、ailt、第jフレームの特徴ベクトル
、■は継続フレーム長である。。On the other hand, the unknown input voice input to the voice input unit 1 is frequency-analyzed by the spectrum analysis unit 2 to obtain an unknown input/cover turn T. T can be expressed as T=a1a2...ai...aI. Here, ailt is the feature vector of the j-th frame, and ■ is the continuous frame length. .
前記未知入カバターンTもコードブック3によってベタ
1−ル量子化部4においてベクトル量子化し、各フレー
ムaiごとに最も近いコードベタ(・ルCkによって表
わしたパターンを千とする。予は、
T=qIQ、 ・−81・・・8丁
と表わす。次に1゛を前記コー1〜べ月−ルC7,kの
使用頻度Xkによって表わしたパターンをパターン生成
部5で求め、このときのパターンをT=X、X、−・・
・・・・Xk・・・・・・XI<とする。この1゛も前
記と同様にして類似度テープ/L/7(7) S l
、j) ニヨって変換し、変換したものをパターン変換
部8で求め。こJしをTとすると、′1゛は、T=X、
X2・・・・・・Xl・・・・・Xkとなる。The unknown input pattern T is also vector quantized by the code book 3 in the solid quantizer 4, and the pattern represented by the nearest code pattern (Ck) for each frame ai is assumed to be 1,000. , . =X,X,-...
...Xk...XI<. Similarity tape/L/7 (7) S l for this 1゛ as well as above.
, j) The pattern conversion section 8 obtains the converted result. If this is T, '1' is T=X,
X2...Xl...Xk.
次に、前記パターン蓄積部6の標準頻度分布バ知入力の
頻度分布パターンTとのパターンマツチングをパターン
マツチング部9で行なう。即ち、前記標準4パターンR
nと未知人力パターンTとの単語間距離をD (Rn
、 T)とし、前記標′$頻度分布パターン12..
nの使用頻度Ykと前記未知人力をdfとり、、前ia
単M 間距′NID (Rn+ T ) ヲ前記入力
フレーム長■と単語nのフレーム長Jnの和で正規化し
て、
で表わす。Next, a pattern matching section 9 performs pattern matching with the frequency distribution pattern T of the standard frequency distribution information inputted to the pattern storage section 6. That is, the standard four patterns R
The word distance between n and unknown human pattern T is D (Rn
, T), and the target '$ frequency distribution pattern 12. ..
Taking the frequency of use Yk of n and the unknown human power as df, the previous ia
The distance between single M'NID (Rn+T) is normalized by the sum of the input frame length ■ and the frame length Jn of word n, and is expressed as follows.
前記距MA[dfとしては、通′#絶対値距離を用い、
df(’Yn k、 Xk) = l Yn k−Xk
1とする。As the distance MA [df, the absolute value distance is used, and df ('Yn k, Xk) = l Yn k - Xk
Set to 1.
また、(1)式における距離尺度dfとして、知入力頻
度分布パターンTの頻度数Xkとの値の差が例えば1/
2〜2倍の範囲であれば、前記距離尺度dfを0とする
。In addition, as the distance measure df in equation (1), the difference in value between the frequency number Xk of the knowledge input frequency distribution pattern T and the frequency number Xk is, for example, 1/
If it is in the range of 2 to 2 times, the distance scale df is set to 0.
なる距離尺度を使用することもできる。但し、α。It is also possible to use a distance measure. However, α.
β、γはパラメータであり、αは、(2)式の分母を0
としないために例えばα=1とする。βは距離尺度の調
整用パラメータであるが、通常β=0とし、γはγ=1
として使用する。β and γ are parameters, and α is the denominator of equation (2).
In order to avoid this, for example, α=1. β is a parameter for adjusting the distance scale, but normally β = 0, and γ is γ = 1
Use as.
上述のごとき距離尺度を使用することにより標準パター
ン並びに未知入カバターンの時間的な非線形伸縮に強い
パターンマツチングを行なうことカテキル。(2)式(
7) df(Y、” k、 Xk) ノ計xtt。By using the distance measure described above, pattern matching that is resistant to temporal nonlinear expansion and contraction of standard patterns and unknown input cover patterns can be performed. (2) Equation (
7) df(Y, "k, Xk) total xtt.
予め行なっておき、テーブルに格納しておけば、〜
任意のY’に、Xkとの組み合せに対する距離df(Y
’ k、 Xk )は、前記テーブルを引用することに
よって直ちに求められる。If you do this in advance and store it in a table, ~ to any Y', the distance df(Y
'k, Xk) can be immediately determined by quoting the table above.
而して、前記単語間距離D (Rn、T)を全ての辞書
単語n (n=1.2.・・・・・、N)について計算
し、単語同定部10において前記D(Rn 、T)の値
が最小となる辞書単語nを前記未知入力単語の認識結果
として認識結果出力部11で出力する。Then, the inter-word distance D (Rn, T) is calculated for all dictionary words n (n=1.2..., N), and the word identification section 10 calculates the inter-word distance D (Rn, T). ) is output by the recognition result output unit 11 as the recognition result of the unknown input word.
すなわちRは、
n = arg min D(R’ + T)で表わさ
れる。That is, R is expressed as n=arg min D(R'+T).
なお、以上には、類似度テーブルを用いてコードベクト
ル間相互の類似性を導入するようにした実施例について
説明したが、本発明は、上記実施例に限定されたもので
はなく1例えば、前記頻度近い第1候補のコードベクト
ルに対しては例えば頻度数(カウント数)を2.第2候
補のコードベタ1−ルに対しては例えば頻度数(カウン
ト数)を1とし、コードベクトル間の類似性を反映させ
るようにしてもよい。Note that although an embodiment in which mutual similarity between code vectors is introduced using a similarity table has been described above, the present invention is not limited to the above embodiment. For example, for the first candidate code vector with a similar frequency, the frequency number (count number) is set to 2. For example, the frequency number (count number) may be set to 1 for the second candidate code vector to reflect the similarity between the code vectors.
上述のように、本発明によるとDPマツチングの際に必
要な計算回数IXJXNに比べて、KXN回(K<<
I X J)程度で済むことになり、また、コードベク
トル間相互の類似性を導入してパターンマツチングを行
なうことにより、認識精度の向上を図ることができるの
で、高速でかつ正確な認識が可能となる。As described above, according to the present invention, the number of calculations required for DP matching is KXN times (K<<
I It becomes possible.
助−1
以」二の説明から明らかなように、本発明によると、単
語標準パターンおよび未知入カバターンの特徴ベクトル
の頻度分布パターンに基づいてパターンマツチングを行
なう際に、コードベタトル間相互の類似性を導入するよ
うにしたので、認識精度の向上を図ることができ、また
、パターンマツチングに必要な計算量を減少せしめ、高
速かつ正確に未知入力音声単語を認識することができる
。更には、大語霊単語を高速かつ正確に予備選択する手
段に応用することが可能である等の利点がある。As is clear from the explanations given below, according to the present invention, when pattern matching is performed based on the frequency distribution pattern of the feature vectors of word standard patterns and unknown input cover patterns, mutual similarities between code vectors are determined. By introducing this method, it is possible to improve recognition accuracy, reduce the amount of calculation required for pattern matching, and recognize unknown input speech words quickly and accurately. Furthermore, it has the advantage that it can be applied as a means for quickly and accurately preselecting big word meaning words.
図は1本発明の一実施例を説明するためのブロック線図
である。
1・・音声入力部、2・・・スペクトル解析部、3・・
・コードブック蓄積部、4・・未知入力フレームのベク
トル量子化部、5・・・コードベタ1−ルの使用頻度分
布パターン生成部、6・・・標準頻度分布パターン蓄積
部、7・・・コードベタ1−ル間の類似度テーブル、8
・・・頻度分布パターン変換部、9パタ一ンマツチング
部、10・・・単語同定部、11・・認識結果出力部。
手続術[til三書(方式)
%式%
:
1、事件の表示
昭和59年 特許願 第12881.4号2、発明の名
称
単語音声認識方式
、補正をする者
事件との関係 特許出願人
オオタ り ナカマゴメ
住所 東京都大田区中馬込1丁目3番6号氏名(名称
) (674)株式会社 リ コ −代表者 浜
1) 広 (ばか1名)、代 理 人
住 所 〒231 横浜市中区不老町1−2−
7シヤトレーイン横浜807号
、補正の対象
(1)、明細書の発明の詳細な説明の欄7、補正の内容
(1)、明細書第3頁第7行目及び第11頁第12行目
に記載の1図は、」を「第1図は、」に補正する。
(2)、図に、朱書の通り「第1図」を加入する。
8、添付書類
上申書 1通
第 11〆[The figure is a block diagram for explaining one embodiment of the present invention. 1...Audio input section, 2...Spectrum analysis section, 3...
・Codebook storage unit, 4: Unknown input frame vector quantization unit, 5: Code pattern usage frequency distribution pattern generation unit, 6: Standard frequency distribution pattern storage unit, 7: Code pattern 1- similarity table between rules, 8
. . . Frequency distribution pattern conversion section, 9 pattern matching section, 10. . . Word identification section, 11. . . Recognition result output section. Procedural technique [til three books (method) % formula %: 1. Display of the case 1982 Patent Application No. 12881.4 2. Name of the invention Word speech recognition method, person making the amendment Relationship with the case Patent applicant Ota ri Nakamagome Address 1-3-6 Nakamagome, Ota-ku, Tokyo Name (674) Ricoh Co., Ltd. - Representative Hama 1) Hiro (1 idiot), Agent Address 231 Naka-ku, Yokohama Furocho 1-2-
7 Shear Train Yokohama No. 807, subject of amendment (1), detailed description of the invention column 7 of the specification, content of amendment (1), page 3, line 7 of the specification, and page 11, line 12 1 in the description is corrected to ``Fig. 1 is''. (2) Add "Figure 1" to the diagram as written in red. 8. Attached documents report form 1st copy No. 11 [
Claims (1)
た擬音韻パターンベクトルの頻度分布パターンを予め蓄
積しておき、未知入力単語音声をスペクトル分析した特
徴ベクトルを同じくベクトル量子化して擬音韻パターン
ベクトルの頻度分析パターンによつて表わし、前記単語
標準パターンの頻度分布パターンとのパターンマッチン
グを行なう音声認識方式において、前記パターンベクト
ルにパターンベクトル間相互の類似性を付加したことを
特徴とする音声認識方式。Frequency distribution patterns of onomatopoeic pattern vectors obtained by vector quantizing feature vectors of standard patterns of words are stored in advance, and feature vectors obtained by spectrum analysis of unknown input word speech are also vector quantized to perform frequency analysis of onomatopoeic pattern vectors. A speech recognition method that performs pattern matching with a frequency distribution pattern of the word standard pattern represented by a pattern, characterized in that mutual similarity between pattern vectors is added to the pattern vector.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128814A JPS617892A (en) | 1984-06-22 | 1984-06-22 | Word speech recognition method |
| DE19853522364 DE3522364A1 (en) | 1984-06-22 | 1985-06-22 | Speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128814A JPS617892A (en) | 1984-06-22 | 1984-06-22 | Word speech recognition method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS617892A true JPS617892A (en) | 1986-01-14 |
Family
ID=14994072
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59128814A Pending JPS617892A (en) | 1984-06-22 | 1984-06-22 | Word speech recognition method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS617892A (en) |
-
1984
- 1984-06-22 JP JP59128814A patent/JPS617892A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH079600B2 (en) | Method and apparatus for encoding and decoding audio signals | |
| JPS6247320B2 (en) | ||
| CN110570876A (en) | Singing voice synthesis method and device, computer equipment and storage medium | |
| JPH01997A (en) | Speech recognition method using vector quantization | |
| JPH067345B2 (en) | Speech recognition method using vector quantization | |
| JPH01998A (en) | How to normalize spectrograms | |
| JP2001034280A (en) | E-mail receiving device and e-mail system | |
| JPS617892A (en) | Word speech recognition method | |
| KR100624440B1 (en) | Voice conversion method by codebook mapping by phoneme | |
| RU61924U1 (en) | STATISTICAL SPEECH MODEL | |
| JPS617893A (en) | Large vocaburary word voice recognition system | |
| JPS617891A (en) | Word voice recognition system | |
| JPS607496A (en) | voice recognition device | |
| JPS621000A (en) | Voice processor | |
| JPS5999496A (en) | Vector quantization | |
| TW569181B (en) | Natural frequency speech recognition method and its device | |
| JPS62999A (en) | Zonal optimum function approximation | |
| JPS60216391A (en) | Dictionary generation system for voice recognition | |
| JPS5968793A (en) | Voice synthesizer | |
| JPS60164800A (en) | Voice recognition equipment | |
| CN117711375A (en) | Speech generation method, device, computer equipment and storage medium | |
| JPS61172200A (en) | Voice synthesizer | |
| JPH01161399A (en) | Method of suiting voice recognition apparatus to speaker | |
| JPH059800B2 (en) | ||
| JPS6386944A (en) | Inteligent work station |