JPH0247760B2 - - Google Patents

Info

Publication number
JPH0247760B2
JPH0247760B2 JP58048600A JP4860083A JPH0247760B2 JP H0247760 B2 JPH0247760 B2 JP H0247760B2 JP 58048600 A JP58048600 A JP 58048600A JP 4860083 A JP4860083 A JP 4860083A JP H0247760 B2 JPH0247760 B2 JP H0247760B2
Authority
JP
Japan
Prior art keywords
pattern
input
frame
distance
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58048600A
Other languages
English (en)
Other versions
JPS59172700A (ja
Inventor
Seiichi Nakagawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP58048600A priority Critical patent/JPS59172700A/ja
Publication of JPS59172700A publication Critical patent/JPS59172700A/ja
Priority to US07/183,692 priority patent/US4910783A/en
Publication of JPH0247760B2 publication Critical patent/JPH0247760B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明はパターン比較装置に関し、より詳細に
は連続する音声等のパターンを一連のパターンと
して自動的に認識する装置に関する。
従来例の構成とその問題点 パターンマツチングによる音声認識装置の一般
的な構成は次のようなものである。
入力音声信号を、フイルタバンク、周波数分
析、LPC分析等によつて特徴ベクトルの系列に
変換する特徴抽出手段と、予め発声され、その特
徴抽出手段により抽出されたグリコールの系列を
認識単語全部について標準パターンとして登録し
ておく標準パターン記憶手段と、認識させるべく
発声され、前記特徴抽出手段により抽出された入
力パターンと前記標準パターン記憶手段に記憶さ
れている標準パターンの全てと特徴ベクトルとの
系列としての類似度あるいは距離を計算するパタ
ーン比較手段と、パターン比較の結果、最も類似
度の高かつた(距離の小さかつた)標準パターン
に対応する単語を認識結果として判定出力する判
定出段からなる。
このとき、同一話者が同一の単語を発声して
も、発声の都度、その発声時間長が異なるので、
前記パターン比較手段で標準パターンと入力パタ
ーンの比較を行う際には、両者の時間軸を伸縮さ
せ、両者のパターン長を揃えて比較する必要があ
る。その際、発声時間長の変化は、発声単語の各
部で一様に生じているわけではないので、各部を
不均一に伸縮する必要がある。その伸縮は、比較
すべき両者のパターンの類似度が最大になる(距
離が最小になる、以下距離で説明する)ように行
われるのが最も良い結果が得られている。このよ
うなマツチングを効率的に行うのに動的計画法を
用いる装置が一般的である(以下このマツチング
をDPマツチングと称する)。
DPマツチングの方法は格子グラフによつて説
明できる。第1図は格子グラフであつて、横軸は
入力パターンT=a1,a2…aIに対応するi座標、
縦軸は標準パターンRn=bn 1,bn 2…bn Joに対応する
j座標を表わす。入力パターンTと標準パターン
Rnを時間軸を非線形に伸縮してマツチングする
とは、この格子グラフ上において、両パターンの
各特徴ベクトルの対応関係を示す径路1を何らか
の標価基準によつて決定し、この径路に関して両
パターンの距離を評価することである。この径路
を決定する際には音声の性質を考慮して制限条件
を設ける。第2図aは径路選択の制限条件の一例
である。即ち、この例では点(i,j)へ至る径
路は、点(i−2,j−1)から点(i−1,
j)を通る径路2か、点(i−1,j−1)から
来る径路3か、点(i−1,j−2)から点
(i,j−1)を通る径路4かの何れかしか取り
得ないということを意味している。このとき、入
力パターンと標準パターンの始端と終端は必ず対
応させるという条件をつければ、前記マツチング
の径路は第1図の斜線の部分に制限される。この
制限は、いかに時間軸が伸縮するといつても、同
一単語に対してはそれ程極端に伸縮するはずはな
いという事実からあまり極端な対応づけが生じな
いようにするためである。
aiとbn jのベクトル間距離をdn(i,j)とすれ
ば、入力パターンTと標準パターンRnのパター
ン間の前記径路に沿う距離は、その径路に沿うdn
(i,j)の荷重平均として定義される。第2図
の径路上のa,b,c,d,eはそれに対応する
径路が選ばれたときの荷重である。DPマツチン
グが適用できるためには、この荷重の決め方は、
格子グラフ上で前記制限条件の下でいかなる径路
が選ばれようともその径路に沿う荷重の和が一定
になるように決めれば良い。a=c=e=2,b
=d=1とすれば、この荷重の和は1+Jn,a=
b=c=1,d=e=0.5とすれば、この荷重の
和はI,a=b=0.5,c=d=e=1とすれば、
この荷重の和はJnとなり、径路の選ばれ方によれ
ず一定となる。これらは共によく用いられる。ま
た、前記荷重の和一定という条件の下で、この荷
重をjに関する関数とすることにより、より重視
してマツチングしたい径路上の部分の荷重を重く
する等の操作も可能である。
入力パターンTと標準パターンRnの距離は前
記制限条件の下で前記荷重平均の最小値として定
義される。即ち、次の漸化式を解くことによつて
前記荷重平均の最小値とその最小値を与える径路
が決定され得る。
gn(i,j)=mingn(i−2,j−1)+a
dn(i−1,j)+bdn(i,j) gn(i−1,j+1)+cdn(i,j) gn(i−1,j+1)+cdn(i,j) gn(i−1,j−2)+edn(i,j−1)+ddn(i,
j)…(1) 初期条件gn(1,1)=dn(1,1), D(T,Rn)=gn(I,Jn)/荷重の和 ここにD(T,Rn)は入力パターンTと標準パ
ターンRnの距離である。
径路選択の条件としては他にも種々考えられ
る。第2図b〜j等は他の例である。この他にも
さらに種々の変形が考えられ得る。これら径路の
選択条件に伴つて前記漸化式は対応するものに書
き換えられるのは勿論である。
また、孤立して発声された単語を認識する場合
は勿論、連続して発声された(単語と単語の間に
切れ目なく発声された)音声を認識する場合も
DPマツチングは良好な成績をおさめている。
連続単語音声認識の問題は次のように定式化さ
れる。
入力パターンのフレーム数をI、第iフレーム
の特徴ベクトルをai、単語nの標準パターンのフ
レーム数をJn、第jフレームの特徴ベクトルをbn j
とするとき、単語nの標準パターンRnは次のよ
うに表わされる。
Rn=bn 1,bn 2…bn j…bn Jo そこでX個の単語列に対応する標準パターンの
結合 R=Rq(1)Rq(2)…Rq(X) =bq(1) 1,bq(1) 2…bq(1) Jq(1),bq(2) 1,bq(2) 2
bq(1) Jq(2) …bq(X) 1,bq(X) 2…bq(X) Jq(X) ……(2) と入力パターンT=a1,a2=ai…aIとのベクトル
系列間の距離が最小になる単語列q(1)q(2)…q
(x)を求める。
以上の計算を前記孤立単語の場合と同様にして
そのままDPマツチングで解こうとすれば、例え
ば10数字の単語を標準パターンとしてもつている
とき、3数字の連続発声された音声を認識するに
は103=1000種類の標準パターンとマツチングし
なければならない。標準パターンの数が増せば、
たちまちその組合せの数は禁止的な量になる。
そこで、連続単語の認識にもDPマツチングを
適用するために、マツチングの累積距離の正規化
係数(前記荷重の和のこと)は入力のフレーム数
にのみ依存するように径路の選択の条件を設定す
れば、以下に示すように標準パターンの単語の組
合せにも動的計画法が適用でき計算量を大幅に減
らし得る。
径路の選択条件としては一般に第3図a〜eに
示すものがあるが、以後の説明は簡単化のために
第3図aを用いる。径路上に示した数値はその径
路が選ばれたときの荷重係数である。
入力パターンTの第iフレームの特徴ベクトル
(以後フレームとのみ称する)a1とx個の標準パ
ターンの連結からなる連続標準パターンRの第j
フレームbR jのフレーム間距離(ベクトル間距離)
をdR(i,j)とし、入力パターンと連続標準パ
ターンとの対応づけする時間関数(前記マツチン
グの径路)をu(i)として、この時間関数に沿つて
求められる次の累積距離(フレーム間距離の荷重
の和)D(T,R)を最小化するR(以下R^と記
す)が求めるものであるとする。即ち D(T,R)=min u(i)〔Ii=1 dR(i,u(i))〕 ……(3) R^=argmin R〔D(T,R)〕 ここで、第3図aの径路のときは、 0u(i)−u(i−1)2,u(1)=1,u
()=JR である。また、min z〔f(z)〕はzに関して最小
化されたf(z)、argmin z〔f(z)〕はf(z)を
最小にするzの値を意味する。
式(3)は次の漸化式を解くことで求められる。た
だし、Dx(i)は入力が第iフレームで終端すると
仮定したx単語列に対する最小累積距離、Nx(i)
はDx(i)に対応する単語列の最後尾単語名、Bx(i)
はNx(i)の始点位置マイナス1(Nx(i)の一つ前の
単語の最終フレーム、バツクポインタと称する)、
Dn(s:t)は入力のs〜tフレームと単語nと
の最小累積距離、Dn x(i,j)はDx-1(m)と、
入力のm+1〜iフレームと単語nの1〜jフレ
ームとの最小累積距離の和のmについての最小値
である。
初期条件D(0)=0,B(0)=0として Dx(i)=min n,m{Dx-1(m) +Dn(m+1:i)} ……(4) =min nDn x(i,Jn) をx=1,2,…,Xについて求め、この式を満
たすn^,m^をn^,m^とするとき、 Nx(i)=n^,Bx(i)=m^ とする。i=までこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち 最後尾の単語:Nx() 最後から2番目の単語:Nx-1(Bx()) 最後から3番目の単語:Nx-2(Bx-1(Bx
())) 〓 最初の単語:N1(B2(B3(…Bx())…))) でB1(B2(B3(…(Bx())…)))=0となつて終
了する。第4図はNx(i),Bx(i)から上の単語列を
求めるフローチヤートである。
Xについても最適化する場合は、次のようにな
る。ここで、D(i)は入力のiフレームで終端する
と仮定したときの単語列の最小累積距離D(i)=min xDx(i)),N(i)はD(i)に対応する単語列の最後尾
単語名、B(i)はN(i)の始点位置マイナス1(N(i)
の一つ前の単語の最終フレーム)、Dn(i,j)
はD(m)と入力のm+1〜iフレームと単語n
の1〜jフレームとの最小累積距離の和のmにつ
いての最小値である。
初期条件 D(0)=0,B(0)=0として D(i)=min xDx(i)=min n,m,x〔Dx-1(m) +Dn(m+1:i)〕 =min n,m〔D(m)+Dn(m+1:i)〕=min n 〔Dn(i,Jn)〕 …(5) を求め、この式を満たすm,nをn^,m^とすると
き、 N(i)=n^ , B(i)=m^ とする。認識結果は次のようにXが既知の場合と
同様に求まる。
最後の単語:N() 最後から2番目の単語:N(B()) 最後から3番目の単語:N(B(B())) 〓 最初の単語:N(B(B(…(B())…))) でB(B(B(…(B())…)))=0となつたと

終了する。第5図はN(i),B(i)から上の単語列を
求めるフローチヤートである。
なおDn(m+1:i)は次式で定義され、前記
の孤立単語のDPマツチングと同じ方法で求めら
れる。
Dn(m+1:i)=min u(i)i 〓 k=m+1dn(k,u(k))……(6) 0u(k)−u(k−1)2,u(m+1) =1,u(i)=Jn ところで、例えば0〜9までの数字の他にジユ
ー、ヒヤク、ビヤク等の単語を標準パターンとし
て持つておれば、235をニヒヤクサンジユーゴと
発声した場合連続単語認識を行えば二百三十五と
認識されることになるが、前記の方法では二十三
百五等と誤認識されるかも知れない。我々が実際
に単語を連続して発生する場合は、それらの単語
の許される順序が決つている場合が多い。従つて
入力パターン(入力文)は、有限状態オートマト
ンαと等価な正規文法によつて生成された文であ
るとし、オートマトンαで受理されるあらゆる単
語列のうち、式(3)を最小にする単語列(q(1),q
(2),…,q(x))を求めるというようにすること
によつて認識率を向上させることができる。ここ
で単語列(q(1),q(2),…,q(x))がオートマ
トンαで受理されるとはΔ(q0,q(1))=qi⊂S,
Δ(qi,q(2)=qi⊂S,…,Δ(qk,q(x-1))=ql
S,Δ(ql,q(x)=qf⊂F⊂Sとなるような状態遷
移が存在する場合である。各記号の意味は、Sは
状態qの有限集合{q∈q0,q1,…,q|s|-1}、
Σは入力単語nの有限集合{n∈1,2,…,
N}、Δは状態遷移関数で、S×Σ→S,{Δ(q1
n)=qj}、q0は初期状態でq0∈S,Fは最終状態
の集合F⊂Sである。ここで、q(1),…,q(x)
∈−{1,2,…,N}である。
通常のオートマトンの認識問題と異なる点は、
時間を表わすフレーム番号も変数として入つてい
る点であり、しかも単に受理、拒否の出力でな
く、受理可能な度合(累積距離)が出力される点
である。
Dqj(i)を状態qjで入力のiフレームで終端する
と仮定したあらゆる単語列のうちの最小累積距
離、Nqj(i)をDqj(i)に対応する単語列の最後尾単
語名、Bqj(i)をNqj(i)の始点位置マイナス1(Nqj
(i)の一つ前の単語の最終フレーム、バツクポイン
タと称する)、Qqj(i)をqjへ状態遷移によつてDqj
(i)を満たした状態名即ちΔ(Qqj(i),Nqj(i)=qj
するとき、次に漸化式を解くことで、オートマト
ン制御による式(3)の解が得られる。即ち式(4)のx
を状態qと読み代えることによつて、Dqj(i)を求
める漸化式が得られる。
初期条件 Dq0(0)=0,Bq0(0)=0として Dq(i)=min m,n,qk〔Dqk(m) +Do(m+1:i),q=Δ(qk,n) …(7) をq=q1,q2,…,q|s|-1について求め、この
式を満たすn,m,qkをn^,m^,q^kとするとき、 Nq(i)=n^,Bq(i)=m^,Qq(i)=q^k とする。i=Iまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち i=I,q=minDqf(i),qf∈Fとして n^=Nq(i) Bq(i)≠0なら、i=Bq(i),q=Qq(i)として
へ、Bq(i)=0なら終了する。
第6図はフローチヤートである。
以上、(イ)単語数未知の場合、(ロ)単語数既知の場
合、(ハ)オートマトン制御を導入した場合を比較す
れば次のようになる。
(イ)は計算量、記憶量共に最小で済むが、例えば
三桁の整数を連続発声して入力した場合、四桁あ
るいは二桁の数字としてのマツチング結果の方が
良かつた場合は、そのまま、四桁あるいは二桁の
数字として認識してしまう。(ロ)は入力音声が予め
三桁とわかつているから、入力が三桁とした場合
におけるマツチング結果の中で最適のものを認識
結果とするから(イ)よりも認識の精度は向上する。
(ハ)は構文情報を導入することにより、さらに認識
の精度を上げることができる。
式(4)(5)(7)を解く具体的な方法がこれまでにも
種々提案され、式(2)で表わされる標準パターンと
そのまま直接マツチングするよりは大幅に計算量
が減り、それらの方法を用いたパターン比較装置
が実現されている。しかし、前記(イ)(ロ)(ハ)の何れも
可能なパターン比較装置は、それでも計算量記憶
量はかなり多く、計算量の最も少ないパターン比
較装置では、(イ)の場合しか実現できないのが現状
である。
発明の目的 本発明は、単語数未知の場合は勿論、単語数の
指定やオートマトン制御の可能な連続単語音声の
認識が最小の計算量で可能なパターン比較装置を
実現することを目的とする。
発明の構成 入力単語数既知の連続単語音声認識の解法の漸
化式((4)式)、入力単語数未知の連続単語音声認
識の解法の漸化式((5)式)、オートマトン制御の
連続単語音声認識の解法の漸化式((7)式)の何れ
もDn(m+1:i)の計算を必要としている。
本発明は、このDn(m+1:i)の求め方に特
徴があるパターン比較装置であつて、これを求め
るための計算量が大幅に削減できたものである。
入力パターンの部分パターンan,an+1…aiと標準
パターンan,an+1…aiと標準パターンn=bn 1,bn 2
…bn Jnの部分パターンbn 1,bn 2…bn jとの、最小累積
距離のmについての最小値n(i,j)を、DP
マツチングの径路が標準パターン側の軸を基本軸
とする径路(正規化係数が標準パターン長にのみ
依存する径路)で求め、 Dn(m+1:i)≒n(i,Jn) ×i−m/Jn ……(8) とするものである。即ち、Dn(m+1:i)の正
規化係数はi−mであり、n(i,Jn)の正規
化係数はJnであるから、正規化係数が入力パター
ン長にのみ依存するように変換するのである。こ
のとき、n(i,j)を満たす前記入力パター
ンの部分パターンの始点位置をn(i,j)と
すれば m+1=n(i,Jn) となる。
ここで、入力パターンのn(i,jn)〜iフレ
ームは、iを終端フレームと仮定したとき標準パ
ターンnの最も信頼できる存在候補区間である
が、(4),(5),(7)式では様々なmについてDn(m+
1:i)を必要としている。そこで、上述のm以
外についてもDn(m+1:i)の値を次のように
近似的に推定する。
ここでrはDn(m+1:i)の推定の範囲
(窓)であり、結局 {n(i,Jn)−rm+1 n(i,Jn)+r} ……(10) の任意の点を始点、iを終点とするDn(m+1:
i)を近似的に指定できたことになる。勿論r=
0とすることも可能であるが、認識精度の上から
妥当なrが選ばれるべきである。
次に、このようにすれば計算量が減る理由につ
いて述べる。DPマツチングの径路の拘束条件は
第7図a〜e等が考えられる。各径路上の数値は
その径路が選ばれたときの荷重係数である。この
ようにすることによつて、正規化係数(荷重係数
の和)は標準パターンの長さにのみ依存するよう
になる。
入力パターンの第sフレームから第tフレーム
までの部分パターンをT(s:t)として、第8
図において、T(m1+1:i)とT(m2+1:
i)の何れが標準パターンnに近いかを計算する
とき、最適の径路がT(m2+1:i)に対しては
5、T(m1+1:i)に対しては6が選ばれたと
する(m2<m1)。このとき、前記したように、
動的計画法が適用できるためには、いかなるマツ
チング径路が選ばれようとも、その径路に沿う荷
重の和は不変でなければならないが、これが入力
パターン長に依存する場合は第8図から径路5と
径路6では明らかに異る。ところが、正規化係数
が標準パターン長にのみ依存する場合は、明らか
に入力パターン長に関係なく両径路に沿う荷重の
和は一定になるので、入力パターン側を端点自由
として動的計画法によりマツチングを行うことが
できる。ゆえに、正規化係数が標準パターン長に
のみ依存するようにしなければならない。
マツチング径路の拘束条件を第7図aとすれ
ば、n(i,Jnn(i,Jn)は次の漸化式で
計算できる。
n(i,j)=minDn(i−2,j−1) Dn(i−1,j−1) Dn(i,j−1)〕+dn(i,j) ……(11) また、この式を満足するi座標値をi^とすれば
(i^はi,i−1,i−2のいずれかである)、 n(i,j)=n(i,j) ……(12) となる。第9図はこの間の事情を図解したもので
あつて、格子点7へ至る一つ前の格子点は8,
9,10のうちその格子点までの累積距離が最小
のものである。同様にして格子点8,9,10の
それぞれの一つ前の格子点は格子点8については
11,12,13、格子点9については12,1
3,14、格子点10については13,14,1
5のうちそれぞれの点までの累積距離が最小のも
のである。従つて、格子点(i,Jn)に至る径路
は第10図aの斜線部の内部に限定される。16
は傾斜1/2の直線である。横軸は入力パターン、
縦軸は標準パターンnである。従つてまた、入力
の第iフレームを終端と仮定して、標準パターン
nとマツチングしたときの累積距離n(i,Jn
は、入力パターンに対する始端候補点i′〜iのう
n(i,Jn)が最小になるという意味で最適
な点が標準パターンnに対応する始端点として自
動的に選択された結果として計算される。その点
n(i,Jn)である。ここでi′は直線16とi
軸の交点である。
また、明らかに第iフレームにおけるフレーム
間距離dn(i,j)、累積距離n(i,Jn)はiが
変る度に対応する前記斜線部のすべての格子点に
ついて累積距離を求め直す必要はなく、各格子点
について1回計算するのみで良い。
マツチング径路の拘束条件を第7図b〜eとす
れば、取り得る径路は第10図bの斜線部とな
る。17は傾斜1/2の直線、18は傾斜2の直線
である。始端点は直線17,18とi軸の交点
i′,i″に対しi′〜i″の中から自動的に最適点が選ば
れる。
以上のような本発明の原理によれば、1つの標
準パターンに対し、各格子点におけるフレーム間
距離、累積距離は1回計算するのみであり、計算
量が非常に少くて済み、前記(イ),(ロ),(ハ)何れの場
合にも適用可能なパターン比較装置を実現し得る
ものである。
実施例の説明 第11図は以上の原理に基づく本発明の一実施
例である。入力単語数既知の場合について本発明
の実施例を説明する。100は音声信号の入力端
子である。101はフイルタバンク等で構成され
た特徴抽出部であつて、入力音声信号を特徴ベク
トルの系列a1,…ai,…aIに変換する。102は
単語標準パターン記憶部であつて、認識語彙であ
るN個の単語のそれぞれが特徴ベクトルの系列と
して予め登録されている。103はフレーム間距
離計算部であつて、入力の第iフレームにおける
特徴ベクトルaiとn番目の単語標準パターンRn
bn 1,bn 2…bn Jnのそれぞれの特徴ベクトルとの距離
dn(i,j)を1nN,1jJnについて
求める。dn(i,j)は例えばaiとbiの市街地距離
として定義できる。即ち、ベクトルの次元をlと
し、ai=(ai1,ai2,…,ail),bn j=(bn j1,bn j2
…,
bn jl)とするとき、 dn(i,j)=lk=1 |aik−bn jk| とすることができる。104はこのフレーム間距
離を必要がなくなるまで記憶するフレーム間距離
記憶部である。105は部分累積距離計算部であ
つて、例えば、径路の拘束条件を第7図aとする
式(11),(12)の漸化式を計算し、式(9)により1n
Nについて部分累積距離Dn(m:i)を式(10)のm
の範囲で求める。106はこの部分累積距離を必
要がなくなるまで記憶する。107は終端累積距
離計算部であつて、部分累積距離記憶部106の
内容と終端累積距離記憶部108の内容から、漸
化式(4)に従つて、Dx(i),Nx(i),Bx(i)を計算す
る。終端累積距離記憶部108は、終端累積距離
計算部107で計算された終端累積距離Dx(i)を
必要がなくなるまで記憶する。このDx(i)は終端
累積距離計算部107における漸化式(4)の計算に
用いられる。109はバツクポインタ記憶部であ
つて、終端累積距離計算部107で計算されたバ
ツクポインタBx(i)を記憶する。110は最後尾
単語記憶部で、終端累積距離記憶部107で求め
られた第iフレームにおける最後尾単語を記憶す
る。111は音声区間検出部であつて、入力信号
の大きさ等から音声区間を判定するもので、この
音声区間検出部111が音声入力が開始されたこ
とを検出すると、フレーム数計数部112はフレ
ーム毎に計数を始める。前記の処理は第iフレー
ムについての処理であつたが、このフレーム数計
数部112の計数値がこのiを設定している。従
つて、前記と同様の処理がフレームが1進む毎に
行われることになる。フレーム数計数部112は
音声区間が検出されると計数を始め、音声区間が
終了するとリセツトされる。最後尾単語記憶部1
10、バツクポインタ記憶部109には、Nx(i),
Bx(i)がi=1,2,…,について記憶される
ことになる。セグメンテーシヨン部113はバツ
クポインタ記憶部109に対し、所定のバツクポ
インタを読出すべき命令を発するものである。即
ち、セグメンテーシヨン部113がiなる値をバ
ツクポインタ記憶部109に発すると、バツクポ
インタ記憶部109からはバツクポインタBx(i)
が読出される。セグメンテーシヨン部113はバ
ツクポインタ記憶部109からBx(i)なる値を受
け取ると、その同じ値をバツクポインタ記憶部1
09に発する。従つて、音声区間検出部111が
音声入力の終了を検知すると、フレーム数計数部
112の最終値がセグメンテーシヨン部113
に供給され、セグメンテーシヨン部113は先ず
なる値をバツクポインタ記憶部109に発す
る。以後、前記説明の動作に従つて、バツクポイ
ンタ記憶部16からBx(),Bx-1(Bx())…,
0なる出力が順次得られることになる。これらの
値は、最後から2番目の単語の終りのフレーム、
同3番目の終りのフレーム、同4番目のフレー
ム、…というものであり、Nx(i)はiフレームで
終る単語であつたから、この値をそのまま最後尾
単語記憶部110に力えると、最後の単語から逆
の順序で認識結果が得られることになる。この順
序を逆に(あたりまえの順序に)するには、順序
の変換をバツクポインタ記憶部109の出力か、
最後尾単語記憶部110の出力に対して行えばよ
い。
第12図は、以上の実施例の動作をプログラム
で表現したものであり、ソフトウエアで実現する
場合もこれに従えばよい。なお第12図におい
て、 DOWHiLEA B ENDDO なる記法は、条件Aが成立する間Bを行うという
ことを意味する。また、 DOUNTiLA B ENDDO なる記法は、条件Aが成立するまでBを行うとい
うことを意味する。
ステツプ200,201は累積距離Dx(i)n
(i,j)バツクポインタBx(i),n(i,j)の
初期化を行う部分である。
ステツプ203はiフレームにおける処理を示
しており、大きくわけて部分累積距離を求める部
分204と終端累積距離を求める部分205に分
かれる。
ステツプ204はn=1,2,…,Nについて
部分累積距離Dn(m:i)を求める部分であつ
て、第11図103〜106で行う動作に対応す
る。ステツプ206はステツプ207における計
算の初期値を与える部分、ステツプ207は格子
点(i,j)における累積距離n(i,j)、バ
ツクポインタn(i,j)を求めている。本実
施例では第7図aの径路の拘束条件の場合を示し
ている。ステツプ208は前記式(9)の計算を行つ
ている。
ステツプ205は第11図の終端累積距離計算
部107で行う動作に対応しており、漸化式(5)を
解いて、Dx(i),Nx(i),Bx(i)を求める部分であ
る。
ステツプ209,210は、ステツプ203で
得られたi=1,2,…,についてのBx(i),
Nx(i)から認識単語列を得る判定処理部であつて、
第11図のバツクポインタ記憶部109、セグメ
ンテーシヨン部113最後尾単語記憶部110で
行う動作に対応した処理を行つている。
本パターン比較装置における計算量は、標準パ
ターンの平均のフレーム長をJとすれば、フレー
ム間距離dn(i,j)、累積距離n(i,j)(n
=1,2,…,N)の何れもNIJとなる。従来の
2段DP法のNI3/4J2と比べると計算量は1/
(3/4J)になる。いま、フレーム長が10msecで
単語長が0.5秒であつたとすれば、J=50である
からこの値は1/37.5になる。
第13図は、本実施例において、標準パターン
nとのマツチングを行なつてDn(s:t)を求め
る場合の始端の選ばれ方を示している。sと示し
た部分が始端として選ばれる範囲である。sはも
ともと最適と思われる始端の前後数フレームの範
囲であつて、これで十分とも考えられるが、より
広い範囲に対して始端として採用される可能性を
もたせることにより、より精度の高いパターン比
較装置の実現が可能である。それは、最適と思わ
れる始端点sを複数個求めることにより実現でき
る。
n(i,j,k)を入力パターンのm〜iフ
レームと標準パターンnの1〜jフレームとの最
小累積距離のmについてのk番目の最小値、n
(i,j,k)をn(i,j,k)を満たす入力
パターンの始点位置とする。ここでn (i,j)=n(i,j,k),n(i,j)
n(i,j,1) n(i,j,1)n(i,j,2)…
n(i,j,K) n(i,j,k)≠n(i,j,h)for
k≠h である。
そこで、n(i,Jnk),n(i,Jnk)をn
(i,j,k)≠n(i,j,h)for k≠hと
いう条件のもとでk=1,2,…Kについて求
め、それぞれの始端点n(i,Jn,k)の前後
rフレームの幅を可能な始端点とするものであ
る。
第14図はそのようにして求めた始端点の範囲
を示すものであつて、本例ではK=3の場合であ
る。
このようにして求めたn(i,j,k)から
k=1,2,…,K;r′=0,1,2,…,rに
ついて次の計算によりDn(s:t)を計算する。
m+1=n(i,Jn,k) ここでn(i,j,k)≠n(i,j,h)
fof k≠hとしたのは、同じ始端点が選ばれては
意味がないからである。また、式(13)の計算に
おいて、求められた複数の区間に重なりを生じる
ときは、部分累積距離の小さくなる方を選ぶと
か、1hkに対してn(i,j,k)<n
(i,j,h)−rあるいはn(i,j,k)>n
(i,j,h)+rとすることによつて、重なりを
生じないようにすればよい。
第11図の実施例に対し、部分累積距離計算部
105の動作を以上のように変更し、終端累積距
離計算部107における累積距離の計算において
始端点m+1の範囲をk=1,2,…,Kに対
し、 〔n(i,Jn,k)〕−rm+1 〔n(i,Jn,k)〕+r と変更することにより、他は全く同じ構成、動作
で、第11図の実施例の改良装置が実現できる。
第11図の実施例はK=1の場合である。
第15図はこの改良された装置の動作をプログ
ラムで表現したものである。第12図と同一の番
号を付したステツプは、全く同じ処理をしている
部分である。ステツプ306はステツプ206に
相当する部分であり、k=1,2,…,Kについ
てステツプ307で行う計算の初期値を与える。
ステツプ307はステツプ207に相当する部分
であり、格子点(i,j)における累積距離n
(i,j,k)、バツクポインタn(i,j,k)
を求める部分である。ここでarg−k−th−min
〔f(z)〕はf(z)をk番目に最小にするzのこ
とを意味する。ステツプ308はステツプ208
に相当する部分で、拡大された始端点の範囲で部
分累積距離Dn(s:t)を求める部分である。ス
テツプ305はステツプ205に相当する部分
で、拡大された始端点の範囲で終端累積距離Dx
(i)を求める部分である。
以上、実施例では入力単語数既知の場合につい
てのみ実施例を説明したが、入力単語数未知の場
合にもオートマトン制御による場合にも本発明を
適用できることは今までの説明から明らかであ
る。
また、マツチング径路の拘束条件として、本実
施例では第7図aを用いて説明したが、実用的に
は第7図bが用いられる。この場合、格子点
(i,j)における累積距離n(i,j,k)、
バツクポインタn(i,j,k)は次のように
して求められる。
n(i,j,k)=min1k1,k2,k3kDn(i‐2,j‐1,k1)
+dn(i,j) Dn(i‐1,j‐1,k2)+dn(i,j) Dn(i‐1,j‐2,k3)+dn(i,j‐1)+dn(i,j)n (i,j,k)=Bn(i−2,j−1,k^1)Dn(i,j,k)=Dn
(i−2,j−1,k^1)+dn(i,j)のときn (i,j,k)=Bn(i−2,j−1,k^1)Dn(i,j,k)=Dn
(i−2,j−1,k^1)+dn(i,j)のとき Bn(i−1,j−1,k^2)Dn(i,j,k)=Dn(i−1,j
−1,k^2)+dn(i,j)のときn (i,j,k)=Bn(i−2,j−1,k^1)Dn(i,j,k)=Dn
(i−2,j−1,k^1)+dn(i,j)のとき Bn(i−1,j−1,k^2)Dn(i,j,k)=Dn(i−1,j
−1,k^2)+dn(i,j)のとき Bn(−1,j−2,k^3)Dn(i,j,k)=Dn(i−
1,j−2,k^3) +dn(i,j−1)+dn(i,j)のとき なお、実施例では音声を認識する場合を例にと
つたが、音声に限らず、本発明は特徴ベクトルの
系列で表わされた他の連続パターンの認識にも応
用可能である。
発明の効果 本発明によれば、単語数未知の場合は勿論、単
語数の指定やオートマトン制御の可能な連続単語
音声の認識が従来の装置と比べて非常に少ない計
算量で行えるパターン比較装置の実現が可能とな
つたものである。
【図面の簡単な説明】
第1図はDPマツチングを説明するための格子
グラフ、第2図a〜jは径路選択の制限条件の例
を示す図、第3図a〜eは径路の選択条件と荷重
係数の例を示す図、第4図〜第6図は最後尾の単
語から逆順に最初の単語までを求めるための方法
を示すフローチヤート、第7図a〜e、第8図、
第9図および第10図a,bは本発明の原理を説
明するための図、第11図は本発明の一実施例に
おけるパターン比較装置の構成を示すブロツク
図、第12図、第13図および第14図は同実施
例の動作を説明するための図、第15図は他の実
施例における動作を説明するためのフローチヤー
トである。 101…特徴抽出部、102…単語標準パター
ン記憶部、103…フレーム間距離計算部、10
5…部分累積距離記憶部、107…終端累積距離
計算部、109…バツクポインタ記憶部、110
…最後尾単語記憶部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力信号を特徴ベクトルの系列T=a1,a2
    aIに変換する特徴抽出手段と、特徴ベクトルの系
    列bn 1bn 2…bn Jnから成る標準パターンRn(ただしn
    =1,2,…,N)を記憶する標準パターン記憶
    手段と、X個の標準パターンの結合Rq(1)Rq(2)
    …Rq(X)=bq(1) 1,bq(1) 2…bq(1) Jq(1)bq(2) 1,bq(2)
    2…bq(2) Jq(2)
    bq(X) 1,bq(X) 2…bq(X) Jq(X)と入力パターンAとの累積
    照合
    距離が最小になる標準パターン列Rq(1)Rq(2)…Rq(X)
    を動的計画法で求めるに際し、入力パターンの第
    iフレームの特徴ベクトルaiと標準パターンRn
    第jフレームの特徴ベクトルbn j(n=1,2,…,
    N;j=1,2,…Jn)とのベクトル間距離dn
    (i,j)を計算するフレーム間距離計算手段と、
    入力パターンの部分パターンan+1an+2…aiと標準
    パターンRn(n=1,2,…,N)のパターン間
    の距離を、i−j平面における径路で、それに沿
    う荷重の和がその径路の選ばれ方如何にかかわら
    ず常に標準パターンの長さにのみ依存するような
    マツチング径路を、前記mについてその径路に沿
    う前記フレーム間距離の荷重和が最小になるもの
    からK番目に最小になるものまでのK種類につい
    て、動的計画法によつて見出し、得られたK種類
    の各々の径路のi軸上の始端点S1<S2<…<SK
    のそれぞれから前後rフレームを始端点としたと
    きの前記パターン間の距離を推定し、そのパター
    ン間の距離を入力パターンのフレーム長にのみ依
    存するように変換することによつて、前記それぞ
    れの始端点m+1(S1−rm+1S1+r,S2
    −rm+1S2+r,……,SK−rm+1
    SK+r)から座標(i,Jn)に至るまでの入力
    パターンの部分パターンと標準パターンRnの累
    積照合距離Dn(m+1:i)を求める部分累積距
    離計算手段と、入力パターンの第1フレームから
    前記第mフレームまでの入力パターンの部分パタ
    ーンと標準パターンの最適の結合パターンとの累
    積照合距離と、前記始端点m+1フレームから第
    iフレームまでの入力の部分パターンDn(m+
    1:i)との和をn(1n<N)と前記範囲の
    mについて最小化したものを、入力パターンの第
    1フレームから前記第iフレームまでの入力パタ
    ーンの部分パターンと標準パターンの最適の結合
    パターンとの累積照合距離となす終端累積距離計
    算手段と、そのときの標準パターンRnを入力フ
    レームiが最終フレームであるとしたときの最後
    尾パターンとして記憶する最後尾パターン記憶手
    段と、そのときのmをバツクポインタとして記憶
    するバツクポインタ記憶手段とを備え、入力が終
    了したとき、前記最後尾パターン記憶手段とバツ
    クポインタ記憶手段の内容から入力とは逆の順序
    で、入力された個々のパターンを決定してゆくこ
    とを特徴とするパターン比較装置。
JP58048600A 1983-03-22 1983-03-22 パタ−ン比較装置 Granted JPS59172700A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP58048600A JPS59172700A (ja) 1983-03-22 1983-03-22 パタ−ン比較装置
US07/183,692 US4910783A (en) 1983-03-22 1988-04-19 Method and apparatus for comparing patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58048600A JPS59172700A (ja) 1983-03-22 1983-03-22 パタ−ン比較装置

Publications (2)

Publication Number Publication Date
JPS59172700A JPS59172700A (ja) 1984-09-29
JPH0247760B2 true JPH0247760B2 (ja) 1990-10-22

Family

ID=12807895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58048600A Granted JPS59172700A (ja) 1983-03-22 1983-03-22 パタ−ン比較装置

Country Status (2)

Country Link
US (1) US4910783A (ja)
JP (1) JPS59172700A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04194999A (ja) * 1990-11-27 1992-07-14 Sharp Corp 学習を用いた動的計画法
DE4130633A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
JP2964881B2 (ja) * 1994-09-20 1999-10-18 日本電気株式会社 音声認識装置
DE4433366A1 (de) * 1994-09-20 1996-03-21 Sel Alcatel Ag Verfahren und Einrichtung zur Bestimmung eines Maßes der Übereinstimmung zwischen zwei Mustern sowie Spracherkennungseinrichtung damit und Programm-Modul dafür
US6195638B1 (en) * 1995-03-30 2001-02-27 Art-Advanced Recognition Technologies Inc. Pattern recognition system
IL113204A (en) * 1995-03-30 1999-03-12 Advanced Recognition Tech Pattern recognition system
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB9602699D0 (en) * 1996-02-09 1996-04-10 Canon Kk Pattern matching method and apparatus
FI118067B (fi) * 2001-05-04 2007-06-15 Nokia Corp Menetelmä audiosignaalin pakkauksen purkamisessa, pakkauksen purkulaite, ja elektroniikkalaite
CN110083158B (zh) * 2019-04-28 2022-08-16 深兰科技(上海)有限公司 一种确定局部规划路径的方法和设备
CN119811375B (zh) * 2025-03-13 2025-07-15 深圳市友杰智新科技有限公司 命令词确认方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4608708A (en) * 1981-12-24 1986-08-26 Nippon Electric Co., Ltd. Pattern matching system

Also Published As

Publication number Publication date
US4910783A (en) 1990-03-20
JPS59172700A (ja) 1984-09-29

Similar Documents

Publication Publication Date Title
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US20090076817A1 (en) Method and apparatus for recognizing speech
JPH0247760B2 (ja)
JP3914709B2 (ja) 音声認識方法およびシステム
US4794645A (en) Continuous speech recognition apparatus
JP3315565B2 (ja) 音声認識装置
JPH0823758B2 (ja) 話者適応形音声認識装置
JPH0449954B2 (ja)
JP2574242B2 (ja) 音声入力装置
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JPH0247758B2 (ja)
JPH0449718B2 (ja)
JP2792720B2 (ja) 音声認識装置
JP3097134B2 (ja) Dpマッチング法
JPH0632006B2 (ja) 音声認識装置
KR100293465B1 (ko) 음성인식방법
JPH0464077B2 (ja)
JPH0320759B2 (ja)
JPH0635495A (ja) 音声認識装置
EP0540328A2 (en) Voice recognition
JPH0552516B2 (ja)
JP2000099089A (ja) 連続音声認識用の探索装置および連続音声認識用の探索方法
JPS6247100A (ja) 音声認識装置
JPH0534680B2 (ja)
JPH06100920B2 (ja) 音声認識装置