JPH0566600B2 - - Google Patents
Info
- Publication number
- JPH0566600B2 JPH0566600B2 JP59033407A JP3340784A JPH0566600B2 JP H0566600 B2 JPH0566600 B2 JP H0566600B2 JP 59033407 A JP59033407 A JP 59033407A JP 3340784 A JP3340784 A JP 3340784A JP H0566600 B2 JPH0566600 B2 JP H0566600B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- input
- standard pattern
- feature vectors
- recurrence formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声等のパターンを標準パターンと比
較し、その距離あるいは類似度を求めるパターン
比較装置に関する。
従来例の構成とその問題点
パターンマツチングによる音声認識における時
間軸の正規化のように、長さの異る特徴ベクトル
の系列同志をその系列の長さを正規化して比較
し、両者の類似度あるいは相異度(距離)を求め
るパターン比較装置においては、この目的のため
に動的計画法を用いるのが最も一般的であり最も
良い結果が得られていることは既に知られている
ところである。
即ち、入力パターンA=a→1,a→2,…,a→Iの
i番目の特徴ベクトルをai、標準パターンRn=b→
n 1,b→n 2…b→n Joのi番目の特徴ベクトルをb→n j
とし、
両者のベクトル間距離をdn(i,j)とするとき、
AとRnの距離D(A,Rn)は例えば次の漸化式を
解くことによつて求められる。
gn(i,j)=mingn(i−2,j−1)+dn(i−
1,j)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j) ……(1)
初期値 gn(1,1)=dn(1,1)
D(A,Rn)=gn(I,Jn)
第1図、第2図はこの式を図的に説明するもの
である。即ち、入力パターンAと標準パターン
Rnの距離は、第1図のようにiを横軸、jを縦
軸とする格子グラフにおいて、両系列を構成する
特徴ベクトル間の対応付を表す径路1を予め定め
た拘束条件の許に、その径路に沿うdn(i,j)
の荷重平均が最小になるように求め、その値をD
(A,Rn)とすることになる。式(1)に対応する径
路選択の拘束条件は第2図aに示すものである。
即ち、点(i,j)に至る径路は、点(i−2,
j−1)→点(i−1,j)→点(i,j)か、
点(i−1,j−1)→点(i,j)か、点(i
−1,j−2)→点(i,j)かの何れかに限ら
れ、gn(i,j)が最小になる径路が選ばれる。
同図において径路上に付した数値はその径路が選
ばれたときの重み系数であつて、本例では1であ
る。径路選択の拘束条件としては他にも種々考え
られ、第2図はその代表的なものを示している。
第2図a〜eはいわゆる非対称型の径路であつ
て、径路の重みの和はa〜cは入力パターン長
(入力パターンの特徴ベクトルの数)に等しく、
d,eは標準パターン長(標準パターンの特徴ベ
クトルの数)に等しい。また、fはいわゆる対称
型の径路であつて、径路の重みの和は入力パター
ン長と標準パターン長との和になる。fの対称型
の径路は孤立単語音声の認識によく使われる。a
〜cの非対称型の径路は連続単語音声の認識に、
d,eの非対称型の径路はword spottingや連続
単語音声の認識に使われている。この径路の拘束
条件が変れば、それに対応して式(1)の漸化式の形
も変るのは勿論である。
第2図b〜fに対応する漸化式は次のようにな
る。
(b)
gn(i,j)=mingn(i−2,j−1)+dn(i−
1,j)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j−1)
(c)
gn(i,j)=mingn(i−1,j)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j)
(d)
gn(i,j)=mingn(i−2,j−1)+dn(i,
j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j−1)+dn(i,j
)
(e)
gn(i,j)=mingn(i−2,j−1)+dn(i−
1,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j−1)+dn(i,j
)
(f)
gn(i,j)=mingn(i−2,j−1)+2dn(i−
1,j)+dn(i,j)
gn(i−1,j−1)+2dn(i,j)
gn(i−1,j−1)+2dn(i,j)
gn(i−1,j−2)+2dn(i,j−1)+dn(i,
j)
a〜cは径路の重みの和は標準パターンに係り
なく一定であるからD(A,Rn)=g(I,Jn)と
することができ、d,eはD(A,Rn)=g(I,
Jn)/Jn,fはD(A,Jn)=g(I,Jn)/(I
+Jn)となる。
第2図a,b,d,e,fは所謂傾斜制限と呼
ばれるものであつて、本例の場合選ばれる径路は
傾き1/2以上2以下となる。従つて、第1図の場
合は、入力パターンと標準パターンの始端ベクト
ル同志、終端ベクトル同志を必ず対応させること
にすれば、選ばれる径路は、直線2,3,4,5
で囲まれる領域内に限定される。また、第2図c
の拘束条件の場合は、選ばれる径路は、同様な考
案により、直線4,5,6,7で囲まれる領域と
なる。第3図はこの径路選択の拘束条件がパター
ンマツチングの際にどのような差となつて現れて
くるかを説明している。即ち、入力パターンの長
さが標準パターンのそれに比して可成り長い場合
は、第2図a,b,d,e,fの許ではマツチン
グ径路が存在し得ないが、第2図cの許では8の
ような径路が存在し得るのであつて、cの方がマ
ツチングの自由度が高く、入力パターンと標準パ
ターンの可成り無理な対応づけも可能となつてし
まう。その為に、a,b等の傾斜制限型の方が良
い結果が得られている。
ところが、第2図からも明らかなように、傾斜
制限型の拘束条件を用いるときは、a→iに対して
j=1,2,…,Jnについてgn(i,j)を求め
るには、j=1,2,…,Jnについてgn(i−1,
j),gn(i−2,j),dn(i−1,j)を記憶し
ておく必要があり、特に、新しい入力特徴ベクト
ルa→iが到来する毎にj=1,2,…,Jn;n=
1,2,…,Nについてgn(i,j)を求め、a→I
が入力された直後n=1,2,…,Nについてgn
(I,Jn)の結果が全部出揃うような、所謂実時
間処理を行うときなど前記途中結果はn=1,
2,…,Nの全てについて記憶されねばならない
からその量は可成り大きくなる。例えば、特徴ベ
クトルの平均数が50の1000単語の音声を認識する
場合は、傾斜制限型の場合は150Kワードの記憶
を必要とする。連続単語認識の場合はバツクポイ
ンタ用にも100Kワードの記憶量が必要であるか
ら、計250Kワードに達する。
また、単音節音声の認識等においては、母音部
の時間軸伸縮は大であるが子音部はそれほど伸縮
しないから、子音部はマツチングの制限をきつく
して傾斜制限型のマツチングを行い、母音部はよ
り自由度の高いマツチングを行うことが認識精度
の向上にとつて望ましいと考えられるが、従来は
マツチングの拘束条件は全範囲一様であつた。
発明の目的
本発明は、動的計画法によるパターン比較装置
において、漸化式計算の途中結果を記憶する記憶
量の削減と認識精度の向上を目的とする。
発明の構成
本発明は、入力信号を特徴ベクトルの系列a→1,
a→2,…,a→Iに変換する特徴抽出手段と、特徴ベ
クトルの系列b→n 1,b→n 2,…,b→n Joから成る標
準パ
ターンBn(ただし、n=1,2,…,N)を記憶
する標準パターン記憶手段と、前記入力パターン
と前記標準パターンRnとのパターン間の距離を、
前記入力パターンを構成する特徴ベクトルa→1,
a→2,…,a→Iと前記標準パターンRnを構成する特
徴ベクトルb→n 1,b→n 2,…,b→n Joとから成る函
数と
して、動的計画法により最小化する手段から成
り、この最小化手段は入力パターンあるいは標準
パターンまたはその両方の特徴ベクトルの番号に
対応して前記動的計画法の漸化式を可変とするこ
とを特徴とするものである。
実施例の説明
マツチングの径路に傾斜制限の効果を導入する
ためには、標準パターンのベクトルb→n jに入力パ
ターンのベクトルがある数以上対応することがな
いようにすれば良いのであつて、前記第2図の例
で言えば、cはこのような制限はないが、aにお
けるように径路9を付加すれば傾斜制限の効果が
出ることになる。しかし、前述のように必要とさ
れる記憶量も増加する。
第4図は、この欠点を補うようにした本発明の
原理を説明する図である。即ち、入力パターンの
a→i毎にマツチング径路の拘束条件を変えること
によつて傾斜制限が実現できる。同図a,c,e
の径路選択の拘束条件と、b,d,eのそれとを
入力パターンの特徴ベクトルのa→iのi毎に交互
に切り替えれば良い。例えば、iが偶(奇)数の
場合はa,c,e,iが奇(偶)数の場合はb,
d,fを適用する等である。
第4図a,bはマツチング径路の重み和が入力
パターン長に等しくなる場合、c,dはマツチン
グ径路の重み和が標準パターン長に等しくなる場
合、e,fはマツチング径路の重み和が入力パタ
ーン長と標準パターン長の和になる場合である。
それぞれに対応する漸化式は、iの奇偶によつて
変えることにすれば、次のようになる。
a,bの組合せの場合、
iが奇(偶)数のとき
gn(i,j)=mingn(i−1,j)
gn(i−1,j−1)
gn(i−1,j−2)+dn(i,j)
iが偶(奇)数のとき
gn(i,j)=mingn(i−1,j−1)
gn(i−1,j−2)+dn(i,j)
c,dの組合せの場合
iが奇(偶)数の場合
gn(i,j)=mingn(i−1,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+dn(i,j−1)+dn(i,j
)
iが偶(奇)数の場合
gn(i,j)=mingn(i−1,j−1)
gn(i,j)=mingn(i−1,j−1)
gn(i−1,j−2)+dn(i,j−1)+dn(i,j
)
e,fの組合せの場合
iが奇(偶)数の場合
gn(i,j)=mingn(i−1,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−1)+dn(i,j)
gn(i−1,j−2)+2dn(i,j−1)+dn(i,
j)
iが偶(奇)数の場合
gn(i,j)=mingn(i−1,j−1)+dn(i,
j)
gn(i,j)=mingn(i−1,j−1)+dn(i,
j)
gn(i−1,j−2)+2dn(i,j−1)+dn(i,
j)
このようにした場合、孤立単語音声認識の場合
は累積距離gn(i,j)に関してはj=1,2,
…,Jnに対してgn(i−1,j)のみ記憶すれば
よく、dn(i,j)は記憶する必要がないから、
途中結果の必要記憶量は50Kワードと前記傾斜制
限型の従来例の1/3となる。また、連続単語認識
の場合は、100Kワードとなり、前記従来例の1/
2.5となる。
本例では、iの奇偶によつて漸化式を切り換え
るとしたが本発明はこれに限定されるものではな
い。即ち、a,bの組合せに対しては、aを2
回、bを1回の割合で交互に適用する等も本発明
に含まれるものである。また、径路の拘束条件も
本例に限られるものではなく、種々可能であるこ
とは勿論である。
第5図はiが奇数の場合a、偶数の場合bを適
用した場合の例であつて、実線が選択可能な径路
を示しており、傾斜制限の効果は明瞭である。
第6図は第4図a,bの拘束条件をiの奇偶に
対して切り換るとした場合の本発明の一実施例で
ある。10は入力パターンの入力端子である。1
1は入力パターンを一時的に記憶する入力バツフ
アである。12は標準パターンを記憶する標準パ
ターン記憶部である。13は入力バツフア11か
ら読み出した入力パターンの特徴ベクトルと標準
パターン記憶部12から読み出した標準パターン
の特徴ベクトルとのベクトル間距離を計算するベ
クトル間距離計算部である。14は累積距離記憶
部であつて、動的計画の漸化式の途中結果gn(i
−1,j)をj=1,2,…,Jn;n=1,2,
…,Nについて記憶する。15は漸化式計算部1
であつて、漸化式2を計算する。16は漸化式計
算部2であつて、漸化式3を計算する。17は選
択ゲートであつて、iが奇数であるか偶数である
かにより、動的計画漸化式の値として漸化式計算
部1の結果か、漸化式計算部2の結果を選択す
る。得られた結果は次の計算に備えて再び累積距
離記憶部14に記憶される。このとき、前記漸化
式の計算を、j=Jn,Jn−1,…,2,1の順に
行えば、gn(i,j)の計算に用いたgn(i−1,
j)は再び用いることはないから、求められたgn
(i,j)をgn(i−1,j)を記憶していた場所
に記憶することができる。従つて、このようにす
れば、中間累積距離gn(i,j)を記憶するに要
するメモリ量は、Jnのnに間する平均をJとすれ
ば、平均JNで良いことになる。18は偶数奇数
判定部であつて、iが偶数であるか奇数であるか
を判定するものである。19はnカウンタであつ
て、標準パターン記憶部に記憶されている各標準
パターンのアドレスを順次指定するものである。
20はjカウンタであつて、各i、各nの組み合
せに対し、標準パターン記憶部12に記憶されて
いる標準パターンnの第j特徴ベクトルb→n jのア
ドレスをJnから1まで順次指定するものである。
21はiカウンタであつて、入力バツフア11へ
の入力パターンの書き込み、読み出しを行うため
のa→iに対するアドレスを指定する。19〜21
の各カウンタは、音声が入力される前にリセツト
され、nカウンタ19はiカウンタの計数値が1
増加する毎にリセツトされ、jカウンタはnカウ
ンタの計数値が1増加する毎に初期値Jnがセツト
され、計数値は1ずつ減少する。従つて、標準パ
ターン記憶部12には、各nについてJnも記憶さ
れている。
以上の実施例においては、第4図に示される径
路の拘束条件を、iに関して交互に切り換えるも
のであるが、一般的には交互である必要はない。
また、径路の形もa,bに限定されるものではな
く、その形は勿論、種類も2種類に限るものでは
ない。さらに、本実施例はiに関して適用すべき
漸化式を切り換えるとしたが、これはjに関して
行うことも、i,jの両者に関して行うことも勿
論可能である。
本実施例では必要記憶量を削減することを目的
として説明したが、パターン認識に用いる場合、
この漸化式を複数種類持つという考え方は認識精
度を上げるという目的のために用いることもでき
る。即ち、単音節音声の認識等の場合、語頭の子
音部のマツチングは時間軸の伸縮が小さいので傾
斜制限により無理な対応を避け、母音部において
は時間軸の伸縮が大きいので、i軸方向の自由度
を大きくするようなマツチングを行う等である。
一例として、この場合は、語頭の子音部数フレー
ムに対しては、第2図aに対応する漸化式を適用
し、母音部においては、第2図cに対応する漸化
式を適用する等である。さらに、必要記憶量も減
らしつつ、認識精度を上げるには、子音部に対し
ては、第4図a,bの組合せを適用し、母音部に
おいては第4図aのみ適用するとかaの適用回路
をbよりふやす等することが有効である。
発明の効果
動的計画法によるパターン比較装置において、
計算すべき漸化式を複数種類持ち、それらを適当
に切り換えることにより、漸化式計算の途中結果
の必要記憶量の削減や認識精度の向上が可能とな
つたものである。
本発明を連続数字音声認識と連続音節音声認識
に適用した場合の結果を第1表に示す。この結
果、従来のものに比べて同等以上の認識精度が得
られていることがわかる。
【表】DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a pattern comparison device that compares a pattern of speech or the like with a standard pattern and determines the distance or similarity between the patterns. Configuration of conventional examples and their problems Similar to the normalization of the time axis in speech recognition using pattern matching, series of feature vectors with different lengths are compared by normalizing the length of the series, and the similarity between the two is compared. It is already known that in pattern comparison devices that calculate degree or dissimilarity (distance), it is most common to use dynamic programming for this purpose, and the best results are obtained. be. That is, the i-th feature vector of input pattern A=a→ 1 , a→ 2 , ..., a→ I is a i , and the standard pattern R n = b→
n 1 ,b→ n 2 ...b→ n The i-th feature vector of Jo is b→ n j
year,
When the distance between both vectors is d n (i, j),
The distance D (A, R n ) between A and R n can be found, for example, by solving the following recurrence formula. g n (i, j) = ming n (i-2, j-1) + d n (i-
1, j) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2) + d n (i, j) ...( 1) Initial value g n (1, 1) = d n (1, 1) D (A, R n ) = g n (I, J n ) Figures 1 and 2 explain this formula graphically. It is something to do. That is, input pattern A and standard pattern
The distance R n is determined by the tolerance of the predetermined constraint condition for path 1, which represents the correspondence between the feature vectors constituting both series, in a grid graph with i as the horizontal axis and j as the vertical axis, as shown in Figure 1. d n (i, j) along the path
Find the minimum weighted average of D
(A, R n ). The constraint conditions for route selection corresponding to equation (1) are shown in FIG. 2a.
In other words, the path leading to point (i, j) is point (i-2,
j-1) → point (i-1, j) → point (i, j), or
Point (i-1, j-1) → point (i, j) or point (i
−1, j−2)→point (i, j), and the path that minimizes g n (i, j) is selected.
In the figure, the numerical value attached to the route is the weighting system when that route is selected, and is 1 in this example. Various other constraints on route selection can be considered, and FIG. 2 shows typical ones. Figure 2 a to e are so-called asymmetric paths, and the sum of the weights of the paths a to c is equal to the input pattern length (the number of feature vectors of the input pattern).
d and e are equal to the standard pattern length (the number of feature vectors of the standard pattern). Further, f is a so-called symmetrical path, and the sum of the weights of the path is the sum of the input pattern length and the standard pattern length. The symmetrical path of f is often used in isolated word speech recognition. a
The asymmetric path of ~c is used for continuous word speech recognition,
The d and e asymmetric paths are used in word spotting and continuous word speech recognition. Of course, if the constraint conditions for this path change, the form of the recurrence formula of equation (1) will change accordingly. The recurrence formulas corresponding to FIG. 2 b to f are as follows. (b) g n (i, j) = ming n (i-2, j-1) + d n (i-
1, j) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2) + d n (i, j-1) ( c) g n (i, j) = ming n (i-1, j) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1 , j-2) + d n (i, j) (d) g n (i, j) = ming n (i-2, j-1) + d n (i,
j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2) + d n (i, j-1) + d n (i, j
) (e) g n (i, j) = ming n (i-2, j-1) + d n (i-
1, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2 )+d n (i, j-1)+d n (i, j
) (f) g n (i, j) = ming n (i-2, j-1) + 2d n (i-
1, j) + d n (i, j) g n (i-1, j-1) + 2d n (i, j) g n (i-1, j-1) + 2d n (i, j) g n ( i-1, j-2)+2d n (i, j-1)+d n (i,
j) For a to c, the sum of the weights of the paths is constant regardless of the standard pattern, so D(A, R n )=g(I, J n ), and d and e can be set as D(A, R n )=g(I,
J n )/J n , f is D(A, J n )=g(I, J n )/(I
+J n ). The lines a, b, d, e, and f in FIG. 2 are so-called inclination restrictions, and in this example, the selected route has an inclination of 1/2 or more and 2 or less. Therefore, in the case of Fig. 1, if the starting end vectors and ending vectors of the input pattern and the standard pattern are always made to correspond, the selected path will be straight lines 2, 3, 4, 5.
limited to the area enclosed by. Also, Figure 2c
In the case of the constraint condition, the selected route is the area surrounded by straight lines 4, 5, 6, and 7 based on a similar idea. FIG. 3 explains how the constraint conditions for route selection result in differences during pattern matching. That is, if the length of the input pattern is considerably longer than that of the standard pattern, matching paths cannot exist in Figure 2 a, b, d, e, and f, but in Figure 2 c, there is no matching path. In the above example, there may be 8 paths, but path c has a higher degree of freedom in matching, and it becomes possible to make a rather unreasonable correspondence between the input pattern and the standard pattern. For this reason, better results have been obtained with slope-limited types such as a and b. However, as is clear from Fig. 2, when using slope-limited constraint conditions, it is difficult to find g n (i, j) for j = 1, 2, ..., J n for a→i. is g n ( i-1,
j), g n (i-2, j), d n (i-1, j), and in particular, each time a new input feature vector a→ i arrives, j = 1, 2 ,...,J n ;n=
Find g n (i, j) for 1, 2,...,N, and a→ I
Immediately after input g n for n = 1, 2, ..., N
When performing so-called real-time processing in which all the results of (I, J n ) are obtained, the intermediate results are n=1,
Since all of 2,...,N must be stored, the amount becomes quite large. For example, to recognize 1000 words of speech with an average number of feature vectors of 50, the gradient-limited method requires 150K words of memory. In the case of continuous word recognition, 100K words of memory are required for the back pointer, resulting in a total of 250K words. In addition, in the recognition of monosyllabic speech, the time axis expansion and contraction of the vowel part is large, but the consonant part does not expand and contract so much. It is considered desirable to perform matching with a higher degree of freedom in order to improve recognition accuracy, but conventionally, the constraint conditions for matching have been uniform over the entire range. OBJECTS OF THE INVENTION The present invention aims to reduce the amount of memory for storing intermediate results of recurrence formula calculations and improve recognition accuracy in a pattern comparison device using dynamic programming. Configuration of the Invention The present invention converts an input signal into a sequence of feature vectors a→ 1 ,
A standard pattern B n ( where n = 1 , 2,...,N), and a pattern distance between the input pattern and the standard pattern R n ,
Feature vector a→ 1 , which constitutes the input pattern
Minimize by dynamic programming as a function consisting of a→ 2 ,..., a→ I and feature vectors b→ n 1 , b→ n 2 ,..., b→ n Jo that constitute the standard pattern R n The minimizing means is characterized in that the recurrence formula of the dynamic programming method is made variable in accordance with the number of feature vectors of the input pattern, the standard pattern, or both. Description of the Embodiment In order to introduce the effect of slope restriction on the matching path, it is sufficient to prevent the vector b→ n j of the standard pattern from corresponding to more than a certain number of vectors of the input pattern. In the example shown in FIG. 2, c is not subject to such restrictions, but if path 9 is added as in a, the effect of restricting the inclination will be produced. However, as mentioned above, the amount of storage required also increases. FIG. 4 is a diagram illustrating the principle of the present invention that compensates for this drawback. That is, the slope restriction can be realized by changing the constraint condition of the matching path for each input pattern a→ i . Figure a, c, e
It is only necessary to alternately switch the constraint conditions for path selection of and those of b, d, and e for each i of the feature vector a→ i of the input pattern. For example, if i is an even number, a, c, e, if i is an odd number, b,
d, f, etc. Figure 4 a and b are when the sum of weights of the matching paths is equal to the input pattern length, c and d are when the sum of weights of the matching paths is equal to the standard pattern length, and e and f are when the sum of weights of the matching paths is input. This is the case when the pattern length is the sum of the standard pattern length.
The recurrence formulas corresponding to each are changed depending on whether i is odd or even, and become as follows. In the case of a combination of a and b, when i is an odd (even) number, g n (i, j) = ming n (i-1, j) g n (i-1, j-1) g n (i- 1, j-2) + d n (i, j) When i is even (odd) g n (i, j) = ming n (i-1, j-1) g n (i-1, j- 2) +d n (i, j) For the combination of c, d When i is an odd (even) number g n (i, j) = ming n (i-1, j) g n (i-1, j -1) +d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2) + d n (i, j-1) + d n (i, j
) If i is an even (odd) number, g n (i, j) = ming n (i-1, j-1) g n (i, j) = ming n (i-1, j-1) g n (i-1, j-2)+d n (i, j-1)+d n (i, j
) For combinations of e and f When i is an odd (even) number g n (i, j) = ming n (i-1, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-1) + d n (i, j) g n (i-1, j-2) + 2d n (i, j-1) + d n (i,
j) When i is even (odd) g n (i, j) = ming n (i-1, j-1) + d n (i,
j) g n (i, j) = ming n (i-1, j-1) + d n (i,
j) g n (i-1, j-2) + 2d n (i, j-1) + d n (i,
j) In this case, in the case of isolated word speech recognition, the cumulative distance g n (i, j) is j=1, 2,
..., for J n, it is only necessary to remember g n (i-1, j), and there is no need to remember d n (i, j), so
The required storage capacity for intermediate results is 50K words, which is 1/3 of that of the prior art example of the slope-limited type. In addition, in the case of continuous word recognition, it is 100K words, which is 1/1/2 of the conventional example.
It becomes 2.5. In this example, the recurrence formula is switched depending on whether i is odd or even, but the present invention is not limited to this. That is, for the combination of a and b, a is set to 2.
The present invention also includes alternating application of 1 time and 1 time of b. In addition, the constraint conditions for the route are not limited to this example, and it goes without saying that various conditions are possible. FIG. 5 shows an example where a is applied when i is an odd number and b is applied when an even number, and the solid line shows the selectable routes, and the effect of the slope restriction is clear. FIG. 6 shows an embodiment of the present invention in which the constraint conditions shown in FIGS. 4a and 4b are switched for odd and even i. 10 is an input terminal for input patterns. 1
Reference numeral 1 denotes an input buffer for temporarily storing input patterns. 12 is a standard pattern storage section that stores standard patterns. Reference numeral 13 denotes an inter-vector distance calculation unit that calculates the inter-vector distance between the input pattern feature vector read from the input buffer 11 and the standard pattern feature vector read from the standard pattern storage unit 12. Reference numeral 14 is a cumulative distance storage unit in which intermediate results g n (i
-1, j) as j=1,2,...,J n ;n=1,2,
..., N is memorized. 15 is recurrence formula calculation unit 1
Then, recurrence formula 2 is calculated. Reference numeral 16 denotes a recurrence formula calculation unit 2, which calculates recurrence formula 3. Reference numeral 17 is a selection gate that selects the result of recurrence formula calculation unit 1 or the result of recurrence formula calculation unit 2 as the value of the dynamic programming recurrence formula, depending on whether i is an odd number or an even number. . The obtained results are stored again in the cumulative distance storage unit 14 in preparation for the next calculation. At this time, if the calculation of the recurrence formula is performed in the order of j=J n , J n -1, ..., 2, 1, the g n (i, j) used in the calculation of g n (i, j)
j) will not be used again, so the obtained g n
(i,j) can be stored in the location where g n (i-1,j) was stored. Therefore, if this is done, the amount of memory required to store the intermediate cumulative distance g n (i, j) can be the average JN, where J is the average of J n over n. Reference numeral 18 denotes an even/odd determining section, which determines whether i is an even number or an odd number. Reference numeral 19 denotes an n counter, which sequentially specifies the address of each standard pattern stored in the standard pattern storage section.
20 is a j counter, which sequentially specifies the address of the j-th feature vector b→ n j of the standard pattern n stored in the standard pattern storage unit 12 from J n to 1 for each combination of i and each n. It is something to do.
Reference numeral 21 denotes an i counter, which specifies an address for a→ i for writing and reading an input pattern into the input buffer 11. 19-21
Each counter is reset before the voice is input, and the n counter 19 is reset when the count value of the i counter is 1.
The j counter is reset each time the count value of the n counter increases by 1, and the initial value J n is set, and the count value decreases by 1. Therefore, the standard pattern storage unit 12 also stores J n for each n. In the embodiments described above, the constraint conditions for the paths shown in FIG. 4 are alternately switched with respect to i, but generally they do not need to be alternate.
Further, the shape of the path is not limited to a and b, and the shape and type are not limited to two types. Further, in this embodiment, the recurrence formula to be applied with respect to i is switched, but it is of course possible to perform this with respect to j or with respect to both i and j. In this example, the purpose of the explanation was to reduce the amount of memory required, but when used for pattern recognition,
This idea of having multiple types of recurrence formulas can also be used for the purpose of increasing recognition accuracy. In other words, in the case of recognition of monosyllabic speech, matching of the consonant part at the beginning of a word has a small expansion/contraction of the time axis, so unreasonable matching is avoided by using slope restrictions, and for vowel parts, the expansion/contraction of the time axis is large, so matching in the i-axis direction is For example, matching is performed to increase the degree of freedom.
As an example, in this case, the recurrence formula corresponding to Figure 2 a is applied to the consonant part number frame at the beginning of the word, and the recurrence formula corresponding to Figure 2 c is applied to the vowel part, etc. It is. Furthermore, in order to increase recognition accuracy while reducing the amount of memory required, apply the combination of Figure 4 a and b to the consonant part, and apply only Figure 4 a to the vowel part, or apply the combination of Figure 4 a to the vowel part. It is effective to increase the number of circuits from b. Effects of the invention In a pattern comparison device using dynamic programming,
By having multiple types of recurrence formulas to be calculated and appropriately switching between them, it is possible to reduce the amount of storage required for intermediate results of recurrence formula calculations and improve recognition accuracy. Table 1 shows the results when the present invention was applied to continuous digit speech recognition and continuous syllable speech recognition. As a result, it can be seen that the recognition accuracy is equivalent to or higher than that of the conventional method. 【table】
第1図、第2図は動的計画法によるパターンマ
ツチングを説明するための模式図、第3図は従来
例を説明するための模式図、第4図、第5図は本
発明の原理を説明するための模式図、第6図は本
発明の一実施例におけるパターン比較装置を説明
するブロツク図である。
11……入力バツフア、12……標準パターン
記憶部、13……ベクトル間距離計算部、14…
…累積距離記憶部、15……漸化式計算部1、1
6……漸化式計算部2、17……選択ゲート、1
8……偶数、奇数判定部、19……nカウンタ、
20……jカウンタ、21……iカウンタ。
Figures 1 and 2 are schematic diagrams for explaining pattern matching using dynamic programming, Figure 3 is a schematic diagram for explaining the conventional example, and Figures 4 and 5 are the principles of the present invention. FIG. 6 is a block diagram illustrating a pattern comparison device according to an embodiment of the present invention. 11...Input buffer, 12...Standard pattern storage section, 13...Vector distance calculation section, 14...
... Cumulative distance storage unit, 15... Recurrence formula calculation unit 1, 1
6... Recurrence formula calculation unit 2, 17... Selection gate, 1
8...Even number, odd number determination unit, 19...n counter,
20...j counter, 21...i counter.
Claims (1)
…,a→Iに変換する特徴抽出手段と、特徴ベクト
ルの系列→bn 1,b→n 2,…,b→n Joから成る標準パ
ター
ンBn(ただし、n=1,2,…,N)を記憶する
標準パターン記憶手段と、前記入力パターンと前
記標準パターンRnとのパターン間の距離を、前
記入力パターンを構成する特徴ベクトルa→1,a→
2,…,a→Iと前記標準パターンRnを構成する特徴
ベクトルb→n 1,b→n 2,…,b→n Joとから成る函数
とし
て、動的計画法により最小化する手段を有し、こ
の最小化手段は入力パターンあるいは標準パター
ンまたはその両方の特徴ベクトルの番号に対応し
て前記動的計画法の漸化式を可変とすることを特
徴とするパターン比較装置。1 The input signal is converted into a sequence of feature vectors a→ 1 , a→ 2 ,
..., a→ I , and a standard pattern B n consisting of a series of feature vectors → b n 1 , b→ n 2 ,..., b→ n Jo (where n=1, 2,..., N), and a standard pattern storage means for storing the distance between the input pattern and the standard pattern R n as feature vectors a→ 1 , a→ that constitute the input pattern.
2 ,..., a→ I and the feature vectors b→ n 1 , b→ n 2 ,..., b→ n Jo constituting the standard pattern R n as a function to be minimized by dynamic programming. 2. A pattern comparison device, characterized in that said minimization means makes the recurrence formula of said dynamic programming variable in accordance with the number of feature vectors of an input pattern, a standard pattern, or both.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59033407A JPS60177398A (en) | 1984-02-23 | 1984-02-23 | Pattern comparator |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59033407A JPS60177398A (en) | 1984-02-23 | 1984-02-23 | Pattern comparator |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60177398A JPS60177398A (en) | 1985-09-11 |
| JPH0566600B2 true JPH0566600B2 (en) | 1993-09-22 |
Family
ID=12385741
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59033407A Granted JPS60177398A (en) | 1984-02-23 | 1984-02-23 | Pattern comparator |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60177398A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7488564B2 (en) | 2004-09-17 | 2009-02-10 | Ricoh Company, Ltd. | Toner and method for producing the same, and image-forming method using the same |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61123890A (en) * | 1984-11-20 | 1986-06-11 | 日本電気株式会社 | Pattern matching apparatus |
-
1984
- 1984-02-23 JP JP59033407A patent/JPS60177398A/en active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7488564B2 (en) | 2004-09-17 | 2009-02-10 | Ricoh Company, Ltd. | Toner and method for producing the same, and image-forming method using the same |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60177398A (en) | 1985-09-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4882756A (en) | Pattern matching system using dynamic programming | |
| JPH029359B2 (en) | ||
| JPH0566600B2 (en) | ||
| US5121465A (en) | Pattern matching system | |
| JPH0247760B2 (en) | ||
| JPS61145599A (en) | Continuous voice recognition equipment | |
| JPH02750B2 (en) | ||
| EP0138166A1 (en) | Pattern matching apparatus | |
| JPS6073698A (en) | pattern comparison device | |
| JPS59172696A (en) | Voice pattern analogy computing system | |
| JPH0636155B2 (en) | Pattern comparison device | |
| EP0280064A1 (en) | Pattern matching system | |
| JPS61123890A (en) | Pattern matching apparatus | |
| JP2785939B2 (en) | Continuous speech recognition device | |
| JPH0336436B2 (en) | ||
| JPH0361957B2 (en) | ||
| JPS60179799A (en) | Voice recognition equipment | |
| JPS59172693A (en) | Continuous word voice recognition system | |
| JPS6126679B2 (en) | ||
| JPS62209497A (en) | Continuous voice recognition equipment | |
| JPS62111295A (en) | Voice recognition equipment | |
| JPH022159B2 (en) | ||
| JPH0534680B2 (en) | ||
| JPH0355836B2 (en) | ||
| JPH0773215A (en) | Line segment search type wiring method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |