JPH0449954B2 - - Google Patents
Info
- Publication number
- JPH0449954B2 JPH0449954B2 JP58183361A JP18336183A JPH0449954B2 JP H0449954 B2 JPH0449954 B2 JP H0449954B2 JP 58183361 A JP58183361 A JP 58183361A JP 18336183 A JP18336183 A JP 18336183A JP H0449954 B2 JPH0449954 B2 JP H0449954B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- pattern
- frame
- storage means
- cumulative distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000001186 cumulative effect Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 16
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 101150015148 mimD gene Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
産業上の利用分野
本発明は連続する音声等のパターンを一連のパ
ターンとして自動的に認識するパターン比較装置
に関する。 従来例の構成とその問題点 パターンマツチングによる音声認識装置の一般
的な構成は次のようなものである。 入力音声信号を、フイルタバンク、周波数分析
LPC分析等によつて特徴ベクトルの系列に変換
する特徴抽出手段と、予め発声され、この特徴抽
出手段により抽出された特徴ベクトルの系列を認
識単語全部について標準パターンとして登録して
おく標準パターン記憶手段と、認識させるべく発
声され、前記特徴抽出手段により抽出された入力
パターンと前記標準パターン記憶手段に記憶され
ている標準パターンの全てと特徴ベクトルの系列
としての類似度あるいは距離を計算するパターン
比較手段と、パターン比較の結果、最も類似度の
高かつた(距離の小さかつた)標準パターンに対
応する単語を認識結果として判定出力する判定手
段からなる。 このとき、同一話者が同一の単語を発声しても
発声の都度、その発声時間長が異るので、前記パ
ターン比較手段で標準パターンと入力パターンの
比較を行う際には、両者の時間軸を伸縮させ、両
者のパターン長を揃えて比較する必要がある。そ
の際、発声時間長の変化は、発声単語の各部で一
様に生じているわけではないので、各部を不均一
に伸縮する必要がある。その伸縮は、比較すべき
両者のパターンの類似度が最大になる(距離が最
小になる以下距離で説明するように行われるのが
最も良い結果が得られている。このようなマツチ
ングを効果的に行うのに動的計画法を用いる装置
が一般的である(以下このマツチングをDPマツ
チングと称する。) DPマツチングの方法は格子グラフによつて説
明できる。第1図は格子グラフであつて、横軸は
入力パターンT=a1,a2…aIに対応するi座標、
縦軸は標準パターンRn=bn 1,bn 2…bn Joに対応する
j座標を表す。入力パターンTと標準パターンを
時間軸を非線形に伸縮してマツチングすることは
この格子グラフ上において、両パターンの各特徴
ベクトルの対応関係を示す経路(1)を何らかの標価
基準によつて決定し、この径路に関して両パター
ンの距離を評価することである。この径路を決定
する際には音声の性質を考慮して制限条件を設け
る。第2図aは径路選択の制限条件の一例であ
る。即ち、この例では点(i,j)へ至る径路
は、点(i−2,j−1)から点(i−1,j)
を通る径路(2)か、点(i−1,j−1)から来る
径路(3)か、点(i−1,j−2)から点(i,j
−1)を通る径路(4)かの何れかしか取り得ないと
いうことを意味している。 このとき、入力パターンと標準パターンの始端
と終端は必ず対応させるという条件をつければ、
前記マツチングの径路は第1図の斜線の部分に制
限される。この制限は、いかに時間軸が伸縮する
といつても、同一単語に対してはそれ程極端に伸
縮するはずはないという事実からあまり極端な対
応づけが生じないようにするためである。 aiとbn Jのベクトル間距離をdn(i,j)とすれ
ば、入力パターンTと標準パターンRnのパター
ン間の前記径路に沿う距離は、その径路に沿うdn
(i,j)の荷重平均として定義される。第2図
の径路上のa,b,c,dはそれに対応する径路
が選ばれたときの荷重であるDPマツチングが適
用できるためにはこの荷重の決め方は、格子グラ
フ上で前記制限条件の下でいかなる径路が選ばれ
ようともその径路に沿う荷重の和が一定になるよ
うに決めれば良い。a=c=e=2,b=d=1
とすれば、この荷重の和はI+Jn,a=b=c=
1,d=e=0.5とすれば、この荷重の和はI,
a=b=0.5,c=d=e=1とすれば、この荷
重の和はJnとなり径路の選ばれ方によらず一定と
なる。これらは共によく用いられる。また、前記
荷重の和一定という条件の下でこの荷重をjに関
する関数とすることにより、より重視してマツチ
ングしたい径路上の部分の荷重を重くする等の操
作も可能である。 入力パターンTと標準パターンRnの距離は、
前記制限条件の下で、前記荷重平均の最小値とし
て定義される。即ち、次の漸化式を解くことによ
つて前記荷重平均の最小値とその最小値を与える
径路が決定され得る。 gn(i,j)=mimgn(i−2,j−1)+adn(
i−1,j)+bdn(i,j) gn(i−1,j−1)+cdn(i,j) gn(i−1,j−1)+cdn(i,j) gn(i−1,j−2)+edn(i,j−1)+ddn(i,
j)……(1) 初期条件gn(1,1)=dn(1,1) D(T,Rn)=gn(I,Jn)/荷重の和 ここにD(T,Rn)は入力パターンTと標準パ
ターンRoの距離である。 径路選択の条件としては他にも種々考えられる
第2図b〜j等は他の例である。この他にもさら
に種々の変形が考えられ得る。これら径路の選択
条件に伴つて前記漸化式は対応するものに書き換
えられるのは勿論である。 孤立して発声された単語を認識する場合は勿論
連続して発声された(単語と単語の間に切れ目な
く発声された)音声を認識する場合もDPマツチ
ングは良好な成績をおさめている。 連続単語音声認識の問題は次のように定式化さ
れる。 入力パターンのフレーム数をI、第iフレーム
の特徴ベクトルをai、単語nの標準パターンのフ
レーム数をJn、第jフレームの特徴ベクトルをbn j
とするとき、単語nの標準パターンRnは次のよ
うに表わされる。 Rn=bn 1bn 2…bn j…bn jn そこでx個の単語列に対応する標準パターンの
結合、 R=Rq(1)Rq(2)…Rq(x) =bq(1) 1bq(1) 2…bq(1) Jq(1)bq(2) 1bq(2) 2…bq(x) Jq(
2) …bq(x) 1bq(x) 2…bq(x) Jq(x) ……(2) と入力パターンT=a1,a2…ai…aIとのベクトル
系列間の距離が最小になる単語列q(1)q(2)…q
(x)を求める。 以上の計算を前記孤立単語の場合と同様にして
そのままDPマツチングで解こうとすれば、例え
ば10数字の単語を標準パターンとしてもつてい
るとき、3数字の連続発声された音声を認識する
には103=1000種類の標準パターンとマツチング
しなければならない。標準パターンの数が増せば
たちまちその組合せの数は禁止的な量になる。 そこで、連続単語の認識にもDPマツチングを
適用するために、マツチングの累積距離の正規化
係数(前記荷重の和のこと)は入力のフレーム数
にのみ依存するように径路の選択の条件を設定す
れば、以下に示すように標準パターンの単語の組
合せにも動的計画法が適用でき計算量を大幅に減
らし得る。 径路の選択条件としては一般に第3図a〜eに
示すものがある。径路上に示した数値はその径路
が選ばれたときの荷重係数である。 入力パターンTの第iフレーム(の特徴ベント
ル、以後フレームとのみ称する)aiとX個の標準
パターン連結からなる連続標準パターンRの第j
フレームbR jのフレーム間距離(ベクトル距離)を
dR(i,j)とし、入力パターンと連続標準パタ
ーンとの対応づけをする時間関数(前記マツチン
グの径路)をu(i)として、この時間関数に沿
つて求められる次の累積距離(フレーム間距離の
荷重の和)D(T,R)を最小化するR(R^と記
す)が求めるものであるとする。即ち、 D(T,R)= min u(i)〔I 〓i=1 dR(i,u(i))〕 ……(3) R^= argmjn R〔D(T,R)〕 ここで、第3図aの径路のときは、 0<u(i)−u(i−1)<2,u(1)=1,u(I
)
=JR である。また、min〔f(z)〕はzに関して最小
化されたf(z),argmin〔f(z)〕はf(z)を
最小にするzの値を意味する。 式(3)は単語数既知の場合、未知の場合、あるい
はオートマトン制御を組み込んだ形で解くことが
でき、その方法については既に種々提案されてお
り、製品化されている例もある。 本願はこのうち、オートマトン制御を組み込ん
だ形で式(3)を解くことによつて、連続して発声さ
れた音声を認識する装置に関するものである。 次に、オートマトン制御を組み込んだ形で式(3)
を解く従来の方法について説明する。 我々が実際に単語を連続して発声する場合は、
それらの順序が決つている場合が多い。従つて、
入力パターン(入力文)は、有限状態オートマト
ンαと等価な正規文法によつて生成された文であ
るとし、オートマトンαで受理されるあらゆる単
語列のうち、式(3)を最小にする単語列(q(1),q
(2),…,q(x))を求めるというようにすること
によつて、認識率を向上させることができる。こ
こで、単語列(q(1),q(2),…,q(x))が、オ
ートマトンαで受理されるとはΔ(qp,q(1))=qi
CS,Δ(qi,q(2)=qjCS,…,Δ(qk,q(x−
1))=qlCS,Δ(ql,q(x))=qfCFCSとなるよ
うな状態遷移が存在する場合である。各記号の意
味は、Sは状態qの有限集合{q∈q0,q1,…,
q|S|-1},〓は入力単語nの有限集合{n∈1,
2,…,N}、Δは状態遷移関数で、S×〓→S,
{Δ(q1,n)=qj}、qpは初期状態でqp∈S,Fは
最終状態の集合FCSである。ここでq(1),…q
(x)∈{1,2,…N}である。 通常のオートマトンの認識問題と異る点は、時
間を表わすフレーム番号も変数として入つている
点であり、しかも単に受理、拒否の出力でなく、
受理可能な度合(累積距離)が出力される点であ
る。 Dqj(i)を状態qjで入力のiフレームで終端す
ると仮定したあらゆる単語列のうちの最小累積距
離、Nqj(i)をDqj(i)に対応する単語列の最後
尾単語名、Bqj(i)をNqj(i)の始点位置マイナ
ス1(Nqj(i)の一つ前の単語の最終フレーム、
バツクポインタと称する)、Qqj(i)をqjへの状
態遷移によつてDqj(i)を満たした状態名即ち Δ(Qqj(i),Nqj(i))=qjとするとき、次の漸化
式を解くことで、オートマトン制御による式(3)の
解が得られる。即ち、 初期条件Dqj(o)=O,Bqj(o)=0として Dq(i)=min 〔Dqj(m)+Dn(m+1:i)〕, q=Δ(qk,n) ……(4) をq=q1,q2,…,q|S|-1について求め、この
式を満たすn,m,qkをn,m,qkとするとき Nq(i)=n^,Bq(i)=m,Qq(i)=qk とする。i=Iまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち i=I,q=agmingf Dqf(i),qf∈Fとし
て n^=Nq(i) Bq(i)≠なら、i=Bq(i),q=Qq(i)と
してへ、Bq(i)=0なら終了する。 第6図はフローチヤートである。 なお、Dn(m+1:i)は次式で定義され、前
記の孤立単語のDPマツチングと同じ方法で求め
られる。 Dn(m+1:i)= min u(i)〔i 〓k=m+1 dn(k,u(k))〕
……(5) ここで、第3図aの径路のときは ou(k)−u(k−1)2,u(m+1)=1,
u(i)=Jn である。 式(3)は、予め定められたmの範囲i1〜i2につい
てDn(m+1:i)を求め、各mについて既に求
められているDqk(m)とDn(m+1:i)の和が
最小となるmとqk∈{q0,q1,…,q|s|−
1}(ただしqkはq=Δ(qk,n)を満足する)と
nを求め、これをDq(i)とするのであるが、こ
の計算量を減ずる方法として、i=m+1以後は
単語nで、次の状態がqであるとしたときの、
(i,j)=(1,1)から(i,j)=(i′,j′)
ま
での累積距離をDn q(i′,j′)とするとき、Dn q(i,
Jn)の前記n,qkについての最小値としてDq(i)
を求める方法が提案されている。 これらの方法の問題点は、オートマトンの構造
によつては、さらに計算量を減じ得るものである
が、従来はその点が考慮されていなかつた点にあ
る。 発明の目的 オートマトン制御による連続音声認識における
計算量を大幅に削減したパターン比較装置を提案
することを目的とする。 発明の構成 本発明はオートマトン制御による連続パターン
のDPマツチングにおいて、オートマトンの制御
規則をq=Δ(qk,n)とするとき、パターンn
に対して、状態qkが複数存在するとき、それぞれ
の状態に対してその状態までの累積距離が、最小
であるものをq^kとすれば、状態qまでの最後尾パ
ターンnに対する累積距離は直前の状態がq^kのみ
であるとして計算することにより、従来qkのすべ
てに対して行つていた累積距離の計算を減らすも
のである。 実施例の説明 以下に本発明の原理及び実施例を説明する。 第5図は本発明の原理を説明するための図で、
第5図aは、bに書かれた単語に対する有限オー
トマトン表現である。ここでの説明は簡単のため
に前記単語の代りに単音節としている。上記従来
例における計算では、すべての状態遷移(第7図
においてその数は22)に対して計算を行なわなけ
ればならなかつた。ところが、第7図の例では、
状態S12には状態S6,S7,S8から同じ“O”が入
つてきている。このような場合、状態S6,S7,S8
を一時的に縮退化してやれば、状態S12の“O”
に関しては一回のみ計算で済む。このことは、状
態S14の“YA”についても言える。本発明は、
この原理を利用して計算量の削減をはかつたパタ
ーン比較装置である。 第7図の例において、q=S12,np=np(npは、
音節“O”に付された番号)とすれば、q=S12
に対して式(3)の意味するところは DS12(i)= min qk,m 〔Dno qk(m)+Dno(m+1:i)〕 = min mminDno S6(m) Dno S7(m) Dno S8(n)+Dno(m+1:i) ……(7) となる。換言すれば、第5図において、S6,S7,
S8から“O”を発してS12に遷移するとき、Ds
(i)を最小にするためには、DS6(m),DS7(m),
DS8(m)のうちの最小の状態から遷移することに
なるということである。これを一般的にかけば、
qpを初期状態として、 Dqp(o)=0,Bqp(o) Dq(i)= min n,m〔 min qk〔Dqk(m)〕+Dn(m+1:
i)〕 ……(8) ただしq=Δ(qk,q) Nq(i)=n^,Bq(i)=m^,Qq(i)=argmin〔Dqk
(m^)〕 となる。即ち、フレームiにおいて状態qとなる
直前の状態のうち、同じ音節(あるいは単語)n
で連がるものがあるときは、それら状態に到るま
での累積距離が最小である状態から連がるという
ことである。 このことを利用すれば、第5図の例の場合は
“O”と“YA”について以上のことが言えるか
ら式(3)の計算は19回となり、3回減る。Dn(m+
1:i)を求めて式(3)を直接解く場合は、この量
は殆んど無視できるが、前記高速計算法を用いる
場合には大きな差となる。また、タスクによつて
は大きな計算量の削減が期待される。 上記高速計算法の一つに対し、本発明を適用し
た一実施例について説明する。 第3図bの径路制限条件によれば、Dn(m+
1:i)は第6図の斜線の内部における径路に沿
う(i,j)=(m,1)から(i,j)=(i,
jn)までの累積距離である。ここで(6)は傾き1/2、
(7)は傾き2の直線である。いま、径路(5)が(i,
j)=(1,1)から(i,j)=(i,jn)までの
最小の累積距離を与えるものとすれば、動的計画
法の原理に従つて、(i,j)=(1,1)から径
路(5)上の点(i,j)=(i′,j′)までの累積距離
を最小にする径路は、径路(5)の(i,j)=(i′,
j′)までの径路と全く一致する。従つて、Dn(m
+1:i)は特に求めなくても、Dn q(i,j)を
漸化式 Dn q(i,j)=mimDn q(i−2,j−1)+dn
(i−1,j)+dn(i,j)…(1) Dn q(i−1,j−1)+dn(i,j)…(2) Dn q(i−1,j−2)+dn(i,j)…(3)……(9) から求め、Dn q(i)=Dn q(i,jn)として求めるこ
とができる。ただし、漸化式(9)の初期値は Dn q(−1,j)=∞ (J= 0,1,…,Jn) Dn q(0,0)=0 Dn q(0,j)=∞ (J=−1,1,2,…,
Jn) Dn q(i,−1)=∞ (i= 1,2,…,I) Dn q(i,0)=Dqk(i−1)(qkはq=U(qk,
nを満たすqk) であり、Dn q(i,j)に対応するバツクポインタ
Bn q(i,j)は式(6)において Dn q(i,j)=のときBn q(i,j)=Bn q(i−
2,j−1) Dn q(i,j)=のときBn q(i,j)=Bn q(i−
1,j−1) Dn q(i,j)=のときBn q(i,j)=Bn q(i−
1,j−2) となる。また、Bn q(i,j)の初期値は Bn q(i,1)=i−1 である。 第6図はi=i上におけるDn q(i,j)がどの
ような意味をもつているかを説明している。8,
10,12なる直線は傾き1/2、9,11,13
なる直線は傾き2であつて、(i,j)=(i,jn)
(点26)へ到る径路は直線8と9で挾まれた領
域に含まれ、点16を通るマツチング径路は直線
10と11で挾まれた領域に含まれ、点17を通
るマツチング径路は直線12と13で挾まれる領
域に含まれる。言い換えれば、点16を通る径路
は単語nに対して、始端は18〜19の間にあ
り、終端は20〜21の間にあり、点17を通る
径路は始端は22〜23の間にあり、終端は24
〜25の間にあるということになる。結局、i=
i上のDn q(i,j)は、直線28の傾きを1/2と
するとき、フレームi〜i′におけるi″に対する累
積距離Dn q(i″)=Dn q(i″,Jn)に対する途中の累積
距離を表していることになる。(以後Dn q(i,j)
を中間累積距離と呼ぶことにする)また、漸化式
(9)から明らかなようにDn q(i,j)を求めるに
は、フレームi−2とi−1における中間累積距
離と、フレームi−1とiにおけるフレーム間距
離のみ既知であればよく、それ以前の値は忘れて
しまつても良い。 以上のことをまとめて言えば、Dq(i)を求め
るには、フレームi毎にj=1,2,…,Jn,n
=1,2,…,N,q=q1,q2,…,q|s|-1に
対してDn q(i,j)を求め、 m^,q^k=argmin〔Dn q(i,jn),q=Δ(qk,n) とするとき、 Dq(i)=Dn^q(i,jn^) Bq(i)=Bn q(i,jn^) Qq(i)=q^k Nq(i)=n^ とすることができる。このようにすれば、各格子
点(i,j)におけるdn(i,j)の計算は単語
n毎に1回で済み、Dn q(i,j)の計算はq,
n,Δ(qk,n)=qなるqkについて1回で済み、
毎フレーム第5図に示す斜線内部の格子点につい
てdn(i′,j),Dn(m+1:i)を計算しなけれ
ばならない式(3)を直接解く方法に比べて大幅に計
算量が減少する。 また、この方法は入力パターンのフレームi毎
に処理を進めてゆくものであるが、標準パターン
のフレームj毎に処理してゆくこともできる。即
ち、漸化式(6)から明らかなように、j方向につい
ても、Dn q(i,j)を求めるには、フレームj−
1とフレームjのフレーム間距離Dn(i,j)と
フレームj−2とフレームj−1の中間累積距離
がわかつていればよいから、フレームj毎にj=
j上のDn q(i,j)を求めてゆくこともできる。 以上の方法は、オートマトン制御クロツク同期
伝播形DP法(FSACWDP)と呼ばれるものであ
る。 このとき、式(8)の考え方を導入するには、漸化
式(9)の計算において、Dn q(i,j)の初期値を次
のようにすればよい。即ち、q=Δ(qk,n)を
満足するqkに対し、q^k=argmin〔Dqk(i−1)〕
とするとき、 Dn q(i,0)=Dq^k(i−1) ……(10) とすればよい。 第8図は本発明の一実施例を示すブロツク図で
ある。100は音声信号の入力端子である。10
1は特徴抽出部であつて入力音声信号を特徴ベク
トルの系列に変換する。102は標準パターン記
憶部であつて、認識すべき単語(音節)のそれぞ
れが同様な特徴ベクトルの系列として記憶されて
いる。 103はフレーム間距離計算部であつて、特徴
抽出部101の出力の特徴ベクトルと標準パター
ン記憶部102の特徴ベクトルとの差を計算す
る。104は計算されたフレーム間距離を一時的
に記憶するフレーム間距離記憶部である。105
はオートマトン制御規則記憶部である。106は
累積距離記憶部であつて、累積距離Dq(i)が各
フレーム毎に記憶されている。107は初期値計
算部であつて、漸化式(9)の計算における初期値を
式(10)に従つて計算する部分である。108は漸化
式計算部であつて、107で計算された初期値を
もとに、漸化式(10)を計算する部分である。109
は最終値決定部であつて、漸化式計算部108の
結果から各フレームにおける最終値として n^=argmin〔Dn q(i,Jn) Nq(i)=n^ Dq(i)=Dn^q(i,Jn^) Bq(i)=Bn^q(i,jn^) Qq(i)=argmin〔Dqk(Bq(i))〕 を計算する部分である。113,114,115
はそれぞれ最後尾単語記憶部、直前状態記憶部、
バツクポインタ記憶部であつて、それぞれ、最終
値決定部109で求められた、最後尾単語Nq
(i),qの直前の状態Qq(i),バツクポインタ
Bq(i)が各フレームについて記憶される。11
2は入力音声の最終フレームにおける状態を決定
する部分である。即ち、qf Fとするとき最終フ
レームIの状態qは q=argmin(Dqf(I)〕 と決定される。110は音声区間検出部、111
はフレーム数係数部である。116はバツクトレ
ース制御部であつて、最後尾単語記憶部113
と、直前状態記憶部114と、バツクポインタ記
憶部115の内容から、第4図に示すフローチヤ
ートに従つて逆の順序で、最後尾単語記憶部11
3から認識結果を出力せしめる。 第9図は、以上の実施例の動作をソフトウエア
で実現する場合の一例を示すチヤートである。 ステツプ200〜ステツプ204は、全体としての初
期化を行う部分、ステツプ205〜ステツプ214はフ
レームiにおける処理を行う部分であつて、ステ
ツプ206〜ステツプ212は、各標準パターンn(n
=1,2,…,N)に対してDn q(i),Bn q(i)を
求める部分、ステツプ213〜ステツプ214は、入力
音声がフレームiで終端すると仮定したときの最
後尾単語(音節)名、それに対応する累積距離、
バツクポインタ、直前の状態を各状態について求
める部分である。ステツプ208はフレーム間距離
計算部103、フレーム間距離記憶部104の動
作に対応する。ステツプ210は初期値計算部10
7の動作に対応する。ステツプ211〜ステツプ212
は漸化式計算部108の動作に対応する。ステツ
プ213〜ステツプ214は最終値決定部109の動作
に対応する。ステツプ215〜ステツプ217は入力音
声の最終フレームから逆の順序で認識結果を決定
していく処理であつて、最終フレーム状態決定部
118、最後尾単語記憶部113、直前状態記憶
部114バツクポインタ記憶部115、バツクト
レース制御部116の間で行われる動作に対応し
ている。 Dn q(i,j)を直接求めて解く方法としては他
にオートマトン制御Level.Buildling法
(FSALB)が知られている。これにも、本発明
の考え方を導入することができ、計算量を大幅に
減らし得る。 第10図は、5桁の数字の棒読み音声例えば、
七万三千二百八十六という具合に○万○千○百○
十○と読む場合のオートマトン表現である。これ
に対し、従来のFSACWDP、FSALBを用いた装
置と、本発明による縮退化FSACWDPと縮退化
FSALBを用いた装置に関して、計算量、ワーク
メモリの記憶量を比較したのが第1表である。こ
の表によれば、第10図に示すタスクの場合は、
計算量が大幅に減り、記憶量も同等以下となつて
おり、実用的に効果の大きいものである。
ターンとして自動的に認識するパターン比較装置
に関する。 従来例の構成とその問題点 パターンマツチングによる音声認識装置の一般
的な構成は次のようなものである。 入力音声信号を、フイルタバンク、周波数分析
LPC分析等によつて特徴ベクトルの系列に変換
する特徴抽出手段と、予め発声され、この特徴抽
出手段により抽出された特徴ベクトルの系列を認
識単語全部について標準パターンとして登録して
おく標準パターン記憶手段と、認識させるべく発
声され、前記特徴抽出手段により抽出された入力
パターンと前記標準パターン記憶手段に記憶され
ている標準パターンの全てと特徴ベクトルの系列
としての類似度あるいは距離を計算するパターン
比較手段と、パターン比較の結果、最も類似度の
高かつた(距離の小さかつた)標準パターンに対
応する単語を認識結果として判定出力する判定手
段からなる。 このとき、同一話者が同一の単語を発声しても
発声の都度、その発声時間長が異るので、前記パ
ターン比較手段で標準パターンと入力パターンの
比較を行う際には、両者の時間軸を伸縮させ、両
者のパターン長を揃えて比較する必要がある。そ
の際、発声時間長の変化は、発声単語の各部で一
様に生じているわけではないので、各部を不均一
に伸縮する必要がある。その伸縮は、比較すべき
両者のパターンの類似度が最大になる(距離が最
小になる以下距離で説明するように行われるのが
最も良い結果が得られている。このようなマツチ
ングを効果的に行うのに動的計画法を用いる装置
が一般的である(以下このマツチングをDPマツ
チングと称する。) DPマツチングの方法は格子グラフによつて説
明できる。第1図は格子グラフであつて、横軸は
入力パターンT=a1,a2…aIに対応するi座標、
縦軸は標準パターンRn=bn 1,bn 2…bn Joに対応する
j座標を表す。入力パターンTと標準パターンを
時間軸を非線形に伸縮してマツチングすることは
この格子グラフ上において、両パターンの各特徴
ベクトルの対応関係を示す経路(1)を何らかの標価
基準によつて決定し、この径路に関して両パター
ンの距離を評価することである。この径路を決定
する際には音声の性質を考慮して制限条件を設け
る。第2図aは径路選択の制限条件の一例であ
る。即ち、この例では点(i,j)へ至る径路
は、点(i−2,j−1)から点(i−1,j)
を通る径路(2)か、点(i−1,j−1)から来る
径路(3)か、点(i−1,j−2)から点(i,j
−1)を通る径路(4)かの何れかしか取り得ないと
いうことを意味している。 このとき、入力パターンと標準パターンの始端
と終端は必ず対応させるという条件をつければ、
前記マツチングの径路は第1図の斜線の部分に制
限される。この制限は、いかに時間軸が伸縮する
といつても、同一単語に対してはそれ程極端に伸
縮するはずはないという事実からあまり極端な対
応づけが生じないようにするためである。 aiとbn Jのベクトル間距離をdn(i,j)とすれ
ば、入力パターンTと標準パターンRnのパター
ン間の前記径路に沿う距離は、その径路に沿うdn
(i,j)の荷重平均として定義される。第2図
の径路上のa,b,c,dはそれに対応する径路
が選ばれたときの荷重であるDPマツチングが適
用できるためにはこの荷重の決め方は、格子グラ
フ上で前記制限条件の下でいかなる径路が選ばれ
ようともその径路に沿う荷重の和が一定になるよ
うに決めれば良い。a=c=e=2,b=d=1
とすれば、この荷重の和はI+Jn,a=b=c=
1,d=e=0.5とすれば、この荷重の和はI,
a=b=0.5,c=d=e=1とすれば、この荷
重の和はJnとなり径路の選ばれ方によらず一定と
なる。これらは共によく用いられる。また、前記
荷重の和一定という条件の下でこの荷重をjに関
する関数とすることにより、より重視してマツチ
ングしたい径路上の部分の荷重を重くする等の操
作も可能である。 入力パターンTと標準パターンRnの距離は、
前記制限条件の下で、前記荷重平均の最小値とし
て定義される。即ち、次の漸化式を解くことによ
つて前記荷重平均の最小値とその最小値を与える
径路が決定され得る。 gn(i,j)=mimgn(i−2,j−1)+adn(
i−1,j)+bdn(i,j) gn(i−1,j−1)+cdn(i,j) gn(i−1,j−1)+cdn(i,j) gn(i−1,j−2)+edn(i,j−1)+ddn(i,
j)……(1) 初期条件gn(1,1)=dn(1,1) D(T,Rn)=gn(I,Jn)/荷重の和 ここにD(T,Rn)は入力パターンTと標準パ
ターンRoの距離である。 径路選択の条件としては他にも種々考えられる
第2図b〜j等は他の例である。この他にもさら
に種々の変形が考えられ得る。これら径路の選択
条件に伴つて前記漸化式は対応するものに書き換
えられるのは勿論である。 孤立して発声された単語を認識する場合は勿論
連続して発声された(単語と単語の間に切れ目な
く発声された)音声を認識する場合もDPマツチ
ングは良好な成績をおさめている。 連続単語音声認識の問題は次のように定式化さ
れる。 入力パターンのフレーム数をI、第iフレーム
の特徴ベクトルをai、単語nの標準パターンのフ
レーム数をJn、第jフレームの特徴ベクトルをbn j
とするとき、単語nの標準パターンRnは次のよ
うに表わされる。 Rn=bn 1bn 2…bn j…bn jn そこでx個の単語列に対応する標準パターンの
結合、 R=Rq(1)Rq(2)…Rq(x) =bq(1) 1bq(1) 2…bq(1) Jq(1)bq(2) 1bq(2) 2…bq(x) Jq(
2) …bq(x) 1bq(x) 2…bq(x) Jq(x) ……(2) と入力パターンT=a1,a2…ai…aIとのベクトル
系列間の距離が最小になる単語列q(1)q(2)…q
(x)を求める。 以上の計算を前記孤立単語の場合と同様にして
そのままDPマツチングで解こうとすれば、例え
ば10数字の単語を標準パターンとしてもつてい
るとき、3数字の連続発声された音声を認識する
には103=1000種類の標準パターンとマツチング
しなければならない。標準パターンの数が増せば
たちまちその組合せの数は禁止的な量になる。 そこで、連続単語の認識にもDPマツチングを
適用するために、マツチングの累積距離の正規化
係数(前記荷重の和のこと)は入力のフレーム数
にのみ依存するように径路の選択の条件を設定す
れば、以下に示すように標準パターンの単語の組
合せにも動的計画法が適用でき計算量を大幅に減
らし得る。 径路の選択条件としては一般に第3図a〜eに
示すものがある。径路上に示した数値はその径路
が選ばれたときの荷重係数である。 入力パターンTの第iフレーム(の特徴ベント
ル、以後フレームとのみ称する)aiとX個の標準
パターン連結からなる連続標準パターンRの第j
フレームbR jのフレーム間距離(ベクトル距離)を
dR(i,j)とし、入力パターンと連続標準パタ
ーンとの対応づけをする時間関数(前記マツチン
グの径路)をu(i)として、この時間関数に沿
つて求められる次の累積距離(フレーム間距離の
荷重の和)D(T,R)を最小化するR(R^と記
す)が求めるものであるとする。即ち、 D(T,R)= min u(i)〔I 〓i=1 dR(i,u(i))〕 ……(3) R^= argmjn R〔D(T,R)〕 ここで、第3図aの径路のときは、 0<u(i)−u(i−1)<2,u(1)=1,u(I
)
=JR である。また、min〔f(z)〕はzに関して最小
化されたf(z),argmin〔f(z)〕はf(z)を
最小にするzの値を意味する。 式(3)は単語数既知の場合、未知の場合、あるい
はオートマトン制御を組み込んだ形で解くことが
でき、その方法については既に種々提案されてお
り、製品化されている例もある。 本願はこのうち、オートマトン制御を組み込ん
だ形で式(3)を解くことによつて、連続して発声さ
れた音声を認識する装置に関するものである。 次に、オートマトン制御を組み込んだ形で式(3)
を解く従来の方法について説明する。 我々が実際に単語を連続して発声する場合は、
それらの順序が決つている場合が多い。従つて、
入力パターン(入力文)は、有限状態オートマト
ンαと等価な正規文法によつて生成された文であ
るとし、オートマトンαで受理されるあらゆる単
語列のうち、式(3)を最小にする単語列(q(1),q
(2),…,q(x))を求めるというようにすること
によつて、認識率を向上させることができる。こ
こで、単語列(q(1),q(2),…,q(x))が、オ
ートマトンαで受理されるとはΔ(qp,q(1))=qi
CS,Δ(qi,q(2)=qjCS,…,Δ(qk,q(x−
1))=qlCS,Δ(ql,q(x))=qfCFCSとなるよ
うな状態遷移が存在する場合である。各記号の意
味は、Sは状態qの有限集合{q∈q0,q1,…,
q|S|-1},〓は入力単語nの有限集合{n∈1,
2,…,N}、Δは状態遷移関数で、S×〓→S,
{Δ(q1,n)=qj}、qpは初期状態でqp∈S,Fは
最終状態の集合FCSである。ここでq(1),…q
(x)∈{1,2,…N}である。 通常のオートマトンの認識問題と異る点は、時
間を表わすフレーム番号も変数として入つている
点であり、しかも単に受理、拒否の出力でなく、
受理可能な度合(累積距離)が出力される点であ
る。 Dqj(i)を状態qjで入力のiフレームで終端す
ると仮定したあらゆる単語列のうちの最小累積距
離、Nqj(i)をDqj(i)に対応する単語列の最後
尾単語名、Bqj(i)をNqj(i)の始点位置マイナ
ス1(Nqj(i)の一つ前の単語の最終フレーム、
バツクポインタと称する)、Qqj(i)をqjへの状
態遷移によつてDqj(i)を満たした状態名即ち Δ(Qqj(i),Nqj(i))=qjとするとき、次の漸化
式を解くことで、オートマトン制御による式(3)の
解が得られる。即ち、 初期条件Dqj(o)=O,Bqj(o)=0として Dq(i)=min 〔Dqj(m)+Dn(m+1:i)〕, q=Δ(qk,n) ……(4) をq=q1,q2,…,q|S|-1について求め、この
式を満たすn,m,qkをn,m,qkとするとき Nq(i)=n^,Bq(i)=m,Qq(i)=qk とする。i=Iまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち i=I,q=agmingf Dqf(i),qf∈Fとし
て n^=Nq(i) Bq(i)≠なら、i=Bq(i),q=Qq(i)と
してへ、Bq(i)=0なら終了する。 第6図はフローチヤートである。 なお、Dn(m+1:i)は次式で定義され、前
記の孤立単語のDPマツチングと同じ方法で求め
られる。 Dn(m+1:i)= min u(i)〔i 〓k=m+1 dn(k,u(k))〕
……(5) ここで、第3図aの径路のときは ou(k)−u(k−1)2,u(m+1)=1,
u(i)=Jn である。 式(3)は、予め定められたmの範囲i1〜i2につい
てDn(m+1:i)を求め、各mについて既に求
められているDqk(m)とDn(m+1:i)の和が
最小となるmとqk∈{q0,q1,…,q|s|−
1}(ただしqkはq=Δ(qk,n)を満足する)と
nを求め、これをDq(i)とするのであるが、こ
の計算量を減ずる方法として、i=m+1以後は
単語nで、次の状態がqであるとしたときの、
(i,j)=(1,1)から(i,j)=(i′,j′)
ま
での累積距離をDn q(i′,j′)とするとき、Dn q(i,
Jn)の前記n,qkについての最小値としてDq(i)
を求める方法が提案されている。 これらの方法の問題点は、オートマトンの構造
によつては、さらに計算量を減じ得るものである
が、従来はその点が考慮されていなかつた点にあ
る。 発明の目的 オートマトン制御による連続音声認識における
計算量を大幅に削減したパターン比較装置を提案
することを目的とする。 発明の構成 本発明はオートマトン制御による連続パターン
のDPマツチングにおいて、オートマトンの制御
規則をq=Δ(qk,n)とするとき、パターンn
に対して、状態qkが複数存在するとき、それぞれ
の状態に対してその状態までの累積距離が、最小
であるものをq^kとすれば、状態qまでの最後尾パ
ターンnに対する累積距離は直前の状態がq^kのみ
であるとして計算することにより、従来qkのすべ
てに対して行つていた累積距離の計算を減らすも
のである。 実施例の説明 以下に本発明の原理及び実施例を説明する。 第5図は本発明の原理を説明するための図で、
第5図aは、bに書かれた単語に対する有限オー
トマトン表現である。ここでの説明は簡単のため
に前記単語の代りに単音節としている。上記従来
例における計算では、すべての状態遷移(第7図
においてその数は22)に対して計算を行なわなけ
ればならなかつた。ところが、第7図の例では、
状態S12には状態S6,S7,S8から同じ“O”が入
つてきている。このような場合、状態S6,S7,S8
を一時的に縮退化してやれば、状態S12の“O”
に関しては一回のみ計算で済む。このことは、状
態S14の“YA”についても言える。本発明は、
この原理を利用して計算量の削減をはかつたパタ
ーン比較装置である。 第7図の例において、q=S12,np=np(npは、
音節“O”に付された番号)とすれば、q=S12
に対して式(3)の意味するところは DS12(i)= min qk,m 〔Dno qk(m)+Dno(m+1:i)〕 = min mminDno S6(m) Dno S7(m) Dno S8(n)+Dno(m+1:i) ……(7) となる。換言すれば、第5図において、S6,S7,
S8から“O”を発してS12に遷移するとき、Ds
(i)を最小にするためには、DS6(m),DS7(m),
DS8(m)のうちの最小の状態から遷移することに
なるということである。これを一般的にかけば、
qpを初期状態として、 Dqp(o)=0,Bqp(o) Dq(i)= min n,m〔 min qk〔Dqk(m)〕+Dn(m+1:
i)〕 ……(8) ただしq=Δ(qk,q) Nq(i)=n^,Bq(i)=m^,Qq(i)=argmin〔Dqk
(m^)〕 となる。即ち、フレームiにおいて状態qとなる
直前の状態のうち、同じ音節(あるいは単語)n
で連がるものがあるときは、それら状態に到るま
での累積距離が最小である状態から連がるという
ことである。 このことを利用すれば、第5図の例の場合は
“O”と“YA”について以上のことが言えるか
ら式(3)の計算は19回となり、3回減る。Dn(m+
1:i)を求めて式(3)を直接解く場合は、この量
は殆んど無視できるが、前記高速計算法を用いる
場合には大きな差となる。また、タスクによつて
は大きな計算量の削減が期待される。 上記高速計算法の一つに対し、本発明を適用し
た一実施例について説明する。 第3図bの径路制限条件によれば、Dn(m+
1:i)は第6図の斜線の内部における径路に沿
う(i,j)=(m,1)から(i,j)=(i,
jn)までの累積距離である。ここで(6)は傾き1/2、
(7)は傾き2の直線である。いま、径路(5)が(i,
j)=(1,1)から(i,j)=(i,jn)までの
最小の累積距離を与えるものとすれば、動的計画
法の原理に従つて、(i,j)=(1,1)から径
路(5)上の点(i,j)=(i′,j′)までの累積距離
を最小にする径路は、径路(5)の(i,j)=(i′,
j′)までの径路と全く一致する。従つて、Dn(m
+1:i)は特に求めなくても、Dn q(i,j)を
漸化式 Dn q(i,j)=mimDn q(i−2,j−1)+dn
(i−1,j)+dn(i,j)…(1) Dn q(i−1,j−1)+dn(i,j)…(2) Dn q(i−1,j−2)+dn(i,j)…(3)……(9) から求め、Dn q(i)=Dn q(i,jn)として求めるこ
とができる。ただし、漸化式(9)の初期値は Dn q(−1,j)=∞ (J= 0,1,…,Jn) Dn q(0,0)=0 Dn q(0,j)=∞ (J=−1,1,2,…,
Jn) Dn q(i,−1)=∞ (i= 1,2,…,I) Dn q(i,0)=Dqk(i−1)(qkはq=U(qk,
nを満たすqk) であり、Dn q(i,j)に対応するバツクポインタ
Bn q(i,j)は式(6)において Dn q(i,j)=のときBn q(i,j)=Bn q(i−
2,j−1) Dn q(i,j)=のときBn q(i,j)=Bn q(i−
1,j−1) Dn q(i,j)=のときBn q(i,j)=Bn q(i−
1,j−2) となる。また、Bn q(i,j)の初期値は Bn q(i,1)=i−1 である。 第6図はi=i上におけるDn q(i,j)がどの
ような意味をもつているかを説明している。8,
10,12なる直線は傾き1/2、9,11,13
なる直線は傾き2であつて、(i,j)=(i,jn)
(点26)へ到る径路は直線8と9で挾まれた領
域に含まれ、点16を通るマツチング径路は直線
10と11で挾まれた領域に含まれ、点17を通
るマツチング径路は直線12と13で挾まれる領
域に含まれる。言い換えれば、点16を通る径路
は単語nに対して、始端は18〜19の間にあ
り、終端は20〜21の間にあり、点17を通る
径路は始端は22〜23の間にあり、終端は24
〜25の間にあるということになる。結局、i=
i上のDn q(i,j)は、直線28の傾きを1/2と
するとき、フレームi〜i′におけるi″に対する累
積距離Dn q(i″)=Dn q(i″,Jn)に対する途中の累積
距離を表していることになる。(以後Dn q(i,j)
を中間累積距離と呼ぶことにする)また、漸化式
(9)から明らかなようにDn q(i,j)を求めるに
は、フレームi−2とi−1における中間累積距
離と、フレームi−1とiにおけるフレーム間距
離のみ既知であればよく、それ以前の値は忘れて
しまつても良い。 以上のことをまとめて言えば、Dq(i)を求め
るには、フレームi毎にj=1,2,…,Jn,n
=1,2,…,N,q=q1,q2,…,q|s|-1に
対してDn q(i,j)を求め、 m^,q^k=argmin〔Dn q(i,jn),q=Δ(qk,n) とするとき、 Dq(i)=Dn^q(i,jn^) Bq(i)=Bn q(i,jn^) Qq(i)=q^k Nq(i)=n^ とすることができる。このようにすれば、各格子
点(i,j)におけるdn(i,j)の計算は単語
n毎に1回で済み、Dn q(i,j)の計算はq,
n,Δ(qk,n)=qなるqkについて1回で済み、
毎フレーム第5図に示す斜線内部の格子点につい
てdn(i′,j),Dn(m+1:i)を計算しなけれ
ばならない式(3)を直接解く方法に比べて大幅に計
算量が減少する。 また、この方法は入力パターンのフレームi毎
に処理を進めてゆくものであるが、標準パターン
のフレームj毎に処理してゆくこともできる。即
ち、漸化式(6)から明らかなように、j方向につい
ても、Dn q(i,j)を求めるには、フレームj−
1とフレームjのフレーム間距離Dn(i,j)と
フレームj−2とフレームj−1の中間累積距離
がわかつていればよいから、フレームj毎にj=
j上のDn q(i,j)を求めてゆくこともできる。 以上の方法は、オートマトン制御クロツク同期
伝播形DP法(FSACWDP)と呼ばれるものであ
る。 このとき、式(8)の考え方を導入するには、漸化
式(9)の計算において、Dn q(i,j)の初期値を次
のようにすればよい。即ち、q=Δ(qk,n)を
満足するqkに対し、q^k=argmin〔Dqk(i−1)〕
とするとき、 Dn q(i,0)=Dq^k(i−1) ……(10) とすればよい。 第8図は本発明の一実施例を示すブロツク図で
ある。100は音声信号の入力端子である。10
1は特徴抽出部であつて入力音声信号を特徴ベク
トルの系列に変換する。102は標準パターン記
憶部であつて、認識すべき単語(音節)のそれぞ
れが同様な特徴ベクトルの系列として記憶されて
いる。 103はフレーム間距離計算部であつて、特徴
抽出部101の出力の特徴ベクトルと標準パター
ン記憶部102の特徴ベクトルとの差を計算す
る。104は計算されたフレーム間距離を一時的
に記憶するフレーム間距離記憶部である。105
はオートマトン制御規則記憶部である。106は
累積距離記憶部であつて、累積距離Dq(i)が各
フレーム毎に記憶されている。107は初期値計
算部であつて、漸化式(9)の計算における初期値を
式(10)に従つて計算する部分である。108は漸化
式計算部であつて、107で計算された初期値を
もとに、漸化式(10)を計算する部分である。109
は最終値決定部であつて、漸化式計算部108の
結果から各フレームにおける最終値として n^=argmin〔Dn q(i,Jn) Nq(i)=n^ Dq(i)=Dn^q(i,Jn^) Bq(i)=Bn^q(i,jn^) Qq(i)=argmin〔Dqk(Bq(i))〕 を計算する部分である。113,114,115
はそれぞれ最後尾単語記憶部、直前状態記憶部、
バツクポインタ記憶部であつて、それぞれ、最終
値決定部109で求められた、最後尾単語Nq
(i),qの直前の状態Qq(i),バツクポインタ
Bq(i)が各フレームについて記憶される。11
2は入力音声の最終フレームにおける状態を決定
する部分である。即ち、qf Fとするとき最終フ
レームIの状態qは q=argmin(Dqf(I)〕 と決定される。110は音声区間検出部、111
はフレーム数係数部である。116はバツクトレ
ース制御部であつて、最後尾単語記憶部113
と、直前状態記憶部114と、バツクポインタ記
憶部115の内容から、第4図に示すフローチヤ
ートに従つて逆の順序で、最後尾単語記憶部11
3から認識結果を出力せしめる。 第9図は、以上の実施例の動作をソフトウエア
で実現する場合の一例を示すチヤートである。 ステツプ200〜ステツプ204は、全体としての初
期化を行う部分、ステツプ205〜ステツプ214はフ
レームiにおける処理を行う部分であつて、ステ
ツプ206〜ステツプ212は、各標準パターンn(n
=1,2,…,N)に対してDn q(i),Bn q(i)を
求める部分、ステツプ213〜ステツプ214は、入力
音声がフレームiで終端すると仮定したときの最
後尾単語(音節)名、それに対応する累積距離、
バツクポインタ、直前の状態を各状態について求
める部分である。ステツプ208はフレーム間距離
計算部103、フレーム間距離記憶部104の動
作に対応する。ステツプ210は初期値計算部10
7の動作に対応する。ステツプ211〜ステツプ212
は漸化式計算部108の動作に対応する。ステツ
プ213〜ステツプ214は最終値決定部109の動作
に対応する。ステツプ215〜ステツプ217は入力音
声の最終フレームから逆の順序で認識結果を決定
していく処理であつて、最終フレーム状態決定部
118、最後尾単語記憶部113、直前状態記憶
部114バツクポインタ記憶部115、バツクト
レース制御部116の間で行われる動作に対応し
ている。 Dn q(i,j)を直接求めて解く方法としては他
にオートマトン制御Level.Buildling法
(FSALB)が知られている。これにも、本発明
の考え方を導入することができ、計算量を大幅に
減らし得る。 第10図は、5桁の数字の棒読み音声例えば、
七万三千二百八十六という具合に○万○千○百○
十○と読む場合のオートマトン表現である。これ
に対し、従来のFSACWDP、FSALBを用いた装
置と、本発明による縮退化FSACWDPと縮退化
FSALBを用いた装置に関して、計算量、ワーク
メモリの記憶量を比較したのが第1表である。こ
の表によれば、第10図に示すタスクの場合は、
計算量が大幅に減り、記憶量も同等以下となつて
おり、実用的に効果の大きいものである。
【表】
発明の効果
以上述べたように、オートマトンの制御規制を
q=Δ(qk,n)とするとき、パターンnに対し
て、状態qkが複数存在するとき、従来は最後尾パ
ターンnに対する累積距離を直前の状態qkに対し
てすべて行つていたのを、状態qとなる直前の状
態のうち、同じパターンnで連がるものがあると
きは、それら直前の状態に至るまでの累積距離が
最小である状態から連がるという事実を利用する
ことにより、タスクによつては計算量を大幅に減
らすことが可能となつたものである。
q=Δ(qk,n)とするとき、パターンnに対し
て、状態qkが複数存在するとき、従来は最後尾パ
ターンnに対する累積距離を直前の状態qkに対し
てすべて行つていたのを、状態qとなる直前の状
態のうち、同じパターンnで連がるものがあると
きは、それら直前の状態に至るまでの累積距離が
最小である状態から連がるという事実を利用する
ことにより、タスクによつては計算量を大幅に減
らすことが可能となつたものである。
第1図〜第3図はDPマツチングの基本原理を
説明する図、第4図はオートマトン制御による連
続単語音声認識におけるセグメンテーシヨンおよ
び認識単語の決定手順を示すフローチヤート、第
5図は本発明の原理を説明するオートマトン表現
の一例を示す図、第6図、第7図は本発明の一実
施例の原理を説明する図、第8図は本発明の一実
施例を示すブロツク図、第9図は同実施例装置の
機能をソフトウエアで実現したときのチヤート、
第10図は同実施例の効果を示す図である。 101……特徴抽出部、102……標準パター
ン記憶部、103……フレーム間距離計算部、1
04……フレーム間距離記憶部、105……オー
トマトン制御規則記憶部、106……累積距離記
憶部、107……初期値計算部、108……漸化
式計算部、109……最終値決定部、110……
音声区間検出部、111……フレーム数係数部、
112……最終フレーム状態決定部、113……
最後尾単語記憶部、114……直前状態記憶部、
115……バツクポインタ記憶部、116……バ
ツクトレース制御部。
説明する図、第4図はオートマトン制御による連
続単語音声認識におけるセグメンテーシヨンおよ
び認識単語の決定手順を示すフローチヤート、第
5図は本発明の原理を説明するオートマトン表現
の一例を示す図、第6図、第7図は本発明の一実
施例の原理を説明する図、第8図は本発明の一実
施例を示すブロツク図、第9図は同実施例装置の
機能をソフトウエアで実現したときのチヤート、
第10図は同実施例の効果を示す図である。 101……特徴抽出部、102……標準パター
ン記憶部、103……フレーム間距離計算部、1
04……フレーム間距離記憶部、105……オー
トマトン制御規則記憶部、106……累積距離記
憶部、107……初期値計算部、108……漸化
式計算部、109……最終値決定部、110……
音声区間検出部、111……フレーム数係数部、
112……最終フレーム状態決定部、113……
最後尾単語記憶部、114……直前状態記憶部、
115……バツクポインタ記憶部、116……バ
ツクトレース制御部。
Claims (1)
- 1 入力信号を特徴ベクトルa1,a2,…ai,…aI
の系列に変換する特徴抽出手段と、特徴ベクトル
の系列bn 1,bn 2,…bn J,…bn Joから成る標準パター
ンRn(ただしn=1,2,…,N)を記憶する標
準パターン記憶手段と、入力パターンの第iフレ
ームにおいて、前記特徴ベクトルaiとbjとの距離
dn(i,j)をj=1,2,…,jn;n=1,2,
…,Nについて計算するフレーム間距離計算手段
と、入力パターンの第iフレームにおいて、j=
1,2,…,jn;n=1,2,…,Nについて、
状態がqであるとしたときの中間累積距離Dn q
(i,j)を、パターンnでqに連がる直前の状
態qkのうち、第i−1フレームにおいて状態qkに
至る径路に沿う累積距離Dqk(i−1)の最小値
の続きとして求めると共に、それを求めるに至つ
た経路に沿う中間バツクポインタBn q(i,j)を
求める累積距離計算手段と、第iフレームにおい
て状態qで終端すると仮定したときの最後尾パタ
ーンn^を中間累積距離Dn q(i,jn)を最小にするn
として決定し、そのときのパターン名をNq(i)
=n^、累積距離をDq(i)=Dn^q(i,jn^)、バツク
ポ
インタをBq(i)=Bn^q(i,jn^)、1つ前の状態で
Dqk(Bq(i))を最小にするqkをq^kとするときQq
(i)=q^kとする最終決定手段と、それらの値をフ
レーム毎に記憶する最後尾パターン記憶手段、バ
ツクポインタ記憶手段、直前状態記憶手段と、入
力パターンの最終フレームIで入力が完了したと
き、最終の状態として許される状態qfに対する累
積距離Dqf(I)を前記累積距離記憶手段から読み
出し、Dqf(I)の最小値を与えるq^fを最終フレー
ムにおける状態qとなし、前記パツクポインタ記
憶手段と、前記直前状態記憶手段と、前記最後尾
単語記憶手段の内容から、Bq(i)=0となるま
でn=Nq(i),i=Bq(i),q=Qq(i)とし
て逆の順序で認識結果を出力せしめるバツクトレ
ース制御手段からなることを特徴とするパターン
比較装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58183361A JPS6073698A (ja) | 1983-09-30 | 1983-09-30 | パタ−ン比較装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58183361A JPS6073698A (ja) | 1983-09-30 | 1983-09-30 | パタ−ン比較装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6073698A JPS6073698A (ja) | 1985-04-25 |
| JPH0449954B2 true JPH0449954B2 (ja) | 1992-08-12 |
Family
ID=16134410
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58183361A Granted JPS6073698A (ja) | 1983-09-30 | 1983-09-30 | パタ−ン比較装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6073698A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0634169B2 (ja) * | 1985-12-10 | 1994-05-02 | ヤマハ株式会社 | 発音割当て機能付電子楽器 |
| JPH01321498A (ja) * | 1988-06-23 | 1989-12-27 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
-
1983
- 1983-09-30 JP JP58183361A patent/JPS6073698A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6073698A (ja) | 1985-04-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0103245A1 (en) | Pattern matching apparatus | |
| JPH0247760B2 (ja) | ||
| JP2980026B2 (ja) | 音声認識装置 | |
| JPH029359B2 (ja) | ||
| JPS61219099A (ja) | 音声認識装置 | |
| JPH0449954B2 (ja) | ||
| US4794645A (en) | Continuous speech recognition apparatus | |
| JP3477751B2 (ja) | 連続単語音声認識装置 | |
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| JPS62111295A (ja) | 音声認識装置 | |
| JPH0534680B2 (ja) | ||
| JPH0361957B2 (ja) | ||
| JP3097134B2 (ja) | Dpマッチング法 | |
| JPS6247100A (ja) | 音声認識装置 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JP3251430B2 (ja) | 状態遷移モデル作成方法 | |
| JPH02293899A (ja) | 音声認識装置 | |
| JPS62265699A (ja) | 単語音声認識装置 | |
| JPH08110797A (ja) | パターンマッチング装置 | |
| JPH0568717B2 (ja) | ||
| JPH0313600B2 (ja) | ||
| JPH02148100A (ja) | 音声認識装置 | |
| JPH0567037B2 (ja) | ||
| JPH0568716B2 (ja) |