JPH0566599B2 - - Google Patents
Info
- Publication number
- JPH0566599B2 JPH0566599B2 JP59269955A JP26995584A JPH0566599B2 JP H0566599 B2 JPH0566599 B2 JP H0566599B2 JP 59269955 A JP59269955 A JP 59269955A JP 26995584 A JP26995584 A JP 26995584A JP H0566599 B2 JPH0566599 B2 JP H0566599B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- matching
- segment
- distance
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
産業上の利用分野
本発明は連続発声された単語や文節を音節等の
音声素片単位で認識する音声認識装置に関する。 従来の技術 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規即によつて計算
し、最も類似している単語を認識結果とするもの
である。 ところが、この方法によると、認識単語数が少
いときには良いが、数百、数千単語といつたよう
に増加してくると、主として次の三つの問題が無
視し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。 しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。 発明が解決しようとする問題点 本発明は前記連続発声された音声に対するセグ
メンテーシヨンの不確実さを回避し、あわせて、
連続発声された単語または文節を認識することが
できる連続音声認識装置を提供することを目的と
する。 問題点を解決するための手段 本発明は、単語・文節等を連続発声して得られ
る入力音声信号を特徴ベクトルの系列に変換する
特徴抽出手段と母音、子音あるいはそれらの結合
したもの等として定義される音声素片のそれぞれ
に対応した特徴ベクトルの系列を前記音声素片名
に対応づけて記憶する標準パターン記憶手段と、
入力パターンに対して素片の境界を検出する素片
境界候補検出手段と標準パターンのそれぞれと前
記入力パターンから検出された前記素片境界候補
の任意または定められた種々の組合せによつて決
定される部分区間(第1の部分区間)とのマツチ
ングを行つて両者の距離(類似度)を計算する素
片マツチング手段と、認識さるべき各単語・文節
等を前記音声素片名の系列として表現した単語・
文節等を記憶する単語・文節辞書と、この認識さ
るべき各単語・文節と前記入力パターンの任意ま
たは定められた前記素片境界候補の種々の部分区
間(第2の部分区間)との距離(類似度)を、前
記単語・文節辞書によつて指定される素片名の系
列に対応するように、前記第2の部分区間に含ま
れる前記第1の部分区間群を隣り合う区間が連続
するように最適に定めることにより、前記第1の
各部分区間の始点と終点およびその部分区間の前
記素片名に対応する距離(類似度)の総和を最小
(最大)とし、得られる最小値(最大値)を各単
語・文節に対する前記第2の部分区間の距離とし
て出力する機能を有する単語・文節マツチング手
段と、前記第2の部分区間群を隣り合う区間が連
続するように最適に定めることにより、前記第2
の各部分区間の始点と終点およびその部分区間の
前記単語・文節名に対応する距離(類似度)の総
和を最小(最大)となし、そのときの単語・文節
列を認識結果として判定する連続単語・文節判定
手段とを備えた連続音声認識装置である。 作 用 本発明は前記した構成により、単語・文節等を
連続発声して得られる入力音声信号を特徴ベクト
ルの系列に変換し、母音、子音あるいはそれらの
結合したもの等として定義される音声素片のそれ
ぞれに対応した特徴ベクトルの系列を前記音声素
片名に対応づけて記憶された標準パターンと、こ
の標準パターンのそれぞれと前記入力パターンか
ら検出された素片境界候補の任意または予め定め
られた種々の組合せによつて決定される部分区間
(第1の部分区間)とのマツチングを行つて両者
の距離(類似度)を計算し、認識さるべき各単
語・文節等を前記音声素片名の系列として表現し
た単語・文節等の認識さるべき各単語・文節と前
記入力パターンの任意または定められた前記素片
境界候補の種々の部分区間(第2の部分区間)と
の距離(類似度)を、前記単語・文節によつて指
定される素片名の系列に対応するように、前記第
2の部分区間に含まれる前記第1の部分区間群を
隣り合う区間が連続するように最適に定めること
により、前記第1の各部分区間の始点と終点およ
びその部分区間の前記素片名に対応する距離(類
似度)の総和を最小(最大)とし、得られる最小
値(最大値)を各単語・文節に対する前記第2の
部分区間の距離とし、前記第2の部分区間群を隣
り合う区間が連続するように最適に定めることに
より、前記第2の各部分区間の始点と終点および
その部分区間の前記単語・文節名に対応する距離
(類似度)の総和を最小(最大)となし、そのと
きの単語・文節列を認識結果として判定する。 実施例 以後、「単語」という言葉は「文節」という言
葉も代表するものとする。また、「類似度」は
「距離」で代表して説明する。即ち、距離が小さ
いとは類似度が大きいということである。先ず本
発明の基本であるDPマツチングについて述べる。 第2図は離散単語の認識を行う場合のDPマツ
チングを説明する格子グラフである。即ち、入力
パターンA=a1,a2…ai…aIと標準パターンBn=
bn 1,bn 2…bn j…bn jnとの距離を求める場合を示して
いる。横軸は入力パターン、縦軸は標準パターン
を示し、1は両者の特徴ベクトルの対応関係を示
す曲線である。DPマツチングは、この径路を最
適に定めることにより、その径路によつて対応づ
けられるaiとbn jとの距離dn(i,j)のこの径路
に沿う荷重平均を最小化し、その最小値を以つて
両者の距離とするものであつて、この計算を効率
的に行うものである。dn(i,j)は例えば、dn
(i,j)=|ai−bn j|等で表すことが可能であ
る。この場合、径路1を求めるについては、径路
選択のための拘束条件が設けられる。同図bは、
その径路拘束条件の一例である。即ち、点(i,
j)に至る前の点は、点(i+1,j+2)、点
(i+1,j+1)、点(i+2,j+1)であ
り、点(i,j)に至る径路は同図に示す径路に
限定される。 同図の径路上に示した数字は、その径路が選ば
れたときの重み係数を示す。本例のような、径路
の拘束を行う場合は、図aの格子グラフ上におい
て、任意の格子点間を結ぶ径路は、その選び方の
如何によらず荷重和は一定で、両点の間の入力パ
ターンの長さに等しくなる。従つて、この場合は
径路に沿う前記dn(i,j)の総和を荷重和で平
均する必要はなく総和そのものを入力パターンと
標準パターンとの距離とすることができる。具体
的な計算は次の漸化式を解くことによつて実行さ
れる。即ち Dn(i,j)=minDn(i+1,j+2)+dn(i,j
) Dn(i+1,j+1)+dn(i,j) Dn(i+1,j+1)+dn(i,j) Dn(i+2,j+1)+dn(i+1,j)+dn(i,j
)…(1) をi=I,I−1,…,2,1,i=Jn,Jn−
1,…,2,1について初期値Dn(I,Jn)=dn
(I,Jn)のもとで解き、Dn(1,1)を両者の
距離とするものである。 径路の拘束条件を同図bのように選ぶことによ
り実際に選択可能な径路は同図aの斜線の内部に
制限される。このことは、パターンAとパターン
Bnは、同じ単語に対するものであるときは、そ
れ程ずれるはずはなく、異つた単語に対するもの
であるときは、無理な対応付をして両パターンの
距離値を不当に小さくする虞れのないようにする
という目的に合致したものである。 第3図、第4図は、DPマツチングによつて、
連続単語認識を行う場合の本発明の原理を説明す
る図である。第3図はk番目の音節境界を終点と
し、後述の範囲を始点とする入力パターンの部分
パターンと、V,CV,VV,VCV(Vは母音、C
は子音)等の音節(音声素片)標準パターンとの
DPマツチングの様子を説明する図であつて、横
軸を入力パターン、縦軸を標準パターンとする格
子グラフである。4はj=1の直線、n1,n2はそ
れぞれ音声素片標準パターンの1例を示すもので
あり、素片nのフレーム数をJnとしている。い
ま、前記入力の部分パターンと素片n1の標準パタ
ーンとマツチングする場合を考える。このとき、
第1図bの径路の拘束条件を適用すると第k番の
素片境界候補をSt(k)(k=0は語頭)とすれば、
点(St(k),Jn1)のマツチングの開始点に対して、
マツチングの範囲は直線5,6,4で囲まれる範
囲となり、点9〜点10の間の素片境界候補点を
k′とすれば、漸化式(1)の計算に従つて、k′〜kの
入力パターンの部分パターンと、n1の標準パター
ンRn1との素片累積照合距離Dn1(k′:k)はDn1
(k′:k)=Dn1(St(k′),1)で与えられる。こ
こ
に、点9は直線5と直線4との交点、点10は直
線6と直線4との交点であつて、直線5は傾き1/
2、直線6は傾き2である。この場合、第k素片
境界候補点を終点とする入力パターンの部分パタ
ーンと、標準パターンRn1とのマツチングにおい
て、始点k′の範囲は、点9〜点10の間というこ
とになり、漸化式1によりj=Jn,Jn−1,…,
1のそれぞれに対して、i′=max{St(k)−2(jn−
j),1},{St(k)−2(Jn−j)+1,1},…,
max{St(k)−〔(Jn−j+1)/2〕,1}について
Dn1(i′,j)を順次計算してゆくことにより、点
9、点10の間のk′に対するDn1(k′:k)=Dn1
(St(k′),1)は同時に求まる。ここで、max
{x,y}はx,yのうち大きい方の値を意味し、
〔x〕はxを越えない最大の整数を示す。またj
=jにおけるi′の範囲は、Dn(i′,j)はi′0に
おいては定義されていないので、上記の如くな
る。同様に、標準パターンRn2に対しては、点
(St(k),Jn2)を通る傾き1/2の直線2と直線4と
の交点7と、点(St(k),Jn2)を通る傾き2の直
線3と直線4との交点8の範囲のk′に対し、Dn2
(k′:k)=Dn2(St(k′),1)が求まる。入力の
各
境界候補フレームSt(k)において、n=1,2,
…,Nに対してこのようにして、Dn(k′:k)を
求める。 第4図は、標準パターンを単語としたとき、前
記素片標準パターンに対するのと同様な計算を行
う方法を説明している。即ち、入力の第St(k)フレ
ームを終点とし、後述の範囲を始点とする入力パ
ターンの部分パターンと単語wに対する標準パタ
ーンwとのDPマツチングの様子を説明してお
り、横軸を入力パターン、縦軸を標準パターンと
する格子グラフである。11はj′=1の直線、
w=Rs(w,1)、Rs(w,2),Rs(w,3)は単語標準パターンw
の一例を示している。ここでj′は単語標準パター
ンwの第1フレームから最終フレームまで通し
て付されたフレーム番号とし、s(w,)は単
語wの第番目の音声素片名を表す番号で、本例
では単語wは3つの素片名の系列からなり、単語
wの標準パターンwはこれに対応する3つの素
片標準パターンRs(w,1)、Rs(w,2),Rs(w,3)の結合した
ものとして表わされている。この場合も第2図b
の拘束条件を適用すると、単語wのフレーム数は
Jw=Js(w,1)+Js(w,2),+Js(w,3)であつて、点(St(k
),
Jw)のマツチングの開始点に対して、マツチン
グの範囲は、直線12,13,11で囲まれる範
囲となり、点14〜点15の間の境界候補番号を
k′とすれば、漸化式(1)と同様な計算に従つて、
k′〜kの入力パターンの部分パターンと、wと
の単語累積照合距離w(k′:k)が求まる。即
ち、この場合の漸化式はw (i′,j′)=minw(i′+1,j′+2)+w(
i′,j′)w (i′+1,j′+1)+w(i′,j′)w (i′+1,j′+1)+w(i′,j′)w (i′+2,j′+1)+w(i′+1,j′)+w
(i′,j′)…(2) 初期値 w(St(k),w)=w(St(k),w)
となり、w(i′,j′)をj′=w,w−1,…,
2,1の各々に対しi′を直線12〜13の範囲で
逐次計算してゆくことにより、w(k′:k)=
w(St(k′),1)として求めることができる。こ
こで、w(i′,j′)は入力の第i′フレームの入力
パターンの特徴ベクトルai′と単語wの標準パタ
ーンwの第j′フレームの特徴ベクトルw j′とのベ
クトル間距離であり前記dn(i,j)と同様の定
義w(i′,j′)=|ai′−bn j′|が用いられる。ま
た、
直線12は点(St(k),w)を通る傾き1/2の、直
線13は点(St(k),w)を通る傾き2の直線で
あり、点14は直線12と11との、点15は直
線13と11との交点である。次いでw∧=arg
minw〔w(k′:k)〕を計算する。argminx
in〔f(x)〕はf(x)を最小にするxを意味する。連
続発声された単語を認識するには、k=1,2,
…,Kについて以上の計算を行い、入力パターン
を個数、位置等に関して最適に分割し、分割され
たそれぞれの部分区間に対する前記最小の単語累
積照合距離を最小となし、そのときのそれぞれの
部分区間に対して求められた前記単語をそれぞれ
の区間に対する認識結果とすれば良いのである
が、単語数が厖大になつてくると前記方法で単語
累積照合距離w(k′:k)を求めるのは計算量
が厖大となる。そこで、本発明では、この単語累
積照合距離を求めるのに前記素片累積照合距離を
用いることによりこの計算量を大幅に削減してい
る点に特徴がある。即ち、本例においては、w
の最後の素片標準パターンRs(w,3)と入力パターン
のマツチングは直線12,13,16で囲まれる
領域について行われ、その結果w(St(k′),3)
は直線16上、直線12,13で挾まれる部分に
既に素片累積照合距離Ds(w,3)(k′:k)として求め
られている。k′は前記部分に含まれる素片境界候
補番号である。直線16はj′=w−Js(w,3)+1で
ある。単語標準パターンwの最終フレームから、
最後から2番目の素片Rs(w,2)までのマツチング
は、直線12,13,17で囲まれる領域につい
て行われ、その結果w(k′,2)は、直線17
の、直線12と13で挾まれる部分に求められる
ものであるが、これは、動的計画法の原理に従つ
てw (k′,2)=min k″ 〔w(k″,3)+Ds(w,2)(k′:k″)〕 として求められる。素片累積照合距離Ds(w,2)(k′:
k″)および途中累積照合距離w(k′,3)は既
に求められているものである。ここで、直線17
はj′=w−Js(w,3)−Js(w,2)+1であつて、k′は直
線
17の直線12,13に挾まれる部分に含まれる
入力パターンの素片境界候補番号である。また
k″は例えばk′が直線17上の点20のときは、直
線16上の点であつて、点20を通り直線13に
平行な直線18と直線12に平行は直線19に挾
まれる部分と直線12と13に挾まれる部分の共
通部分の素片境界候補番号である。k′が点23の
ときも同様に、k″は、直線16の点であつて、
点23を通りそれぞれ直線13,12に平行な直
線21,22に挾まれる部分と、直線12,13
に挾まれる部分の共通部分の素片境界候補番号で
ある。これは、径路の拘束条件を図2bのように
したときは、点(St(k),w)から点20へ至る
マツチングの径路は直線12,13,18,19
で囲まれる平行四辺形の内部に限定され、点(St
(k),w)から点23へ至るマツチング径路は直
線12,13,21,22で囲まれる平行四辺形
の内部に限定されることを意味する。同様に、単
語標準パターンの最終フレームから、最後から3
番目までの素片(本例では単語wの最初の素片)
Rs(w,1)までのマツチングは直線11,12,13
で囲まれる領域について行われ、その結果w
(k′,1)は点14〜点15の部分について求め
られるものであるが、これも、動的計画法の原理
に従つて、w (k′,1)=min k″ 〔w(k″,2)+Ds(w,1)(k′:k″)〕 として求められ、素片累積照合距離Ds(w,1)(k′:
k″)、単語途中累積照合距離w(k″,2)は既
に求められているものである。以上のようにし
て、素片累積照合距離を予め求めておき、これか
ら単語累積照合距離w(k′:k)をw(k′:
k)=w(k′,1)として求めることができる。
それぞれの単語wをそれを構成する素片標準パタ
ーンの結合で表わし、それと入力パターンと直接
マツチングする場合は各フレームにおいて単語数
だけのマツチング計算が必要であるのに比べて、
本発明の方法によれば入力の各フレームにおいて
はたかだか素片数のマツチングのみすれば良いか
ら数千語にも及ぶような大語彙単語に対する認識
の場合ははるかに少い計算量で、等価な結果が得
られるものである。 単語累積照合距離w(k′:k″)が求まると、
第St(k)フレームを最終フレームと仮定したとき、
第1フレームから第St(k)フレーム迄の最適の単語
列は動的計画法の原理により次の漸化式により求
めることができる。即ち、D〜(k)を入力の第1フレ
ームから第St(k)フレーム迄の部分パターンとそれ
に対する最適の単語列に対する特徴ベクトルの系
列との累積照合距離、B〜((k)を最後尾単語から1
つ手前の単語の最終境界候補番号、N〜(k)を最後尾
単語名とすれば、初期条件D〜(o)=0,B〜(o)=0と
して D〜(k)=min k′,w〔D〜(k′)+D〜w(k′:k)〕 B〜(k)=k^′ B〜(k)=k^′ N〜(k)=w^ (k^′,w^は上式を満足するk′,
w)…(3) で与えられる。k=1,2,…,Kについて上記
計算を行えば、認識結果は次のように求まる。 最後の単語:N〜(K) 最後から2番目の単語:N〜(B(K)) 最後から3番目の単語:N〜(B(B(K))) … 最初の単語:N〜(B〜(B〜(…(B〜(K))…
))) でB〜(B〜(…(B〜(K))…)))=0となつた
とき
終了する。 第5図はN〜(K),B〜(K)から上の単語列を
求めるフローチヤートである。 以上は単語数未知の場合の最適解を求める例で
あるが、単語数が既知の場合、オートマトン制御
による場合も式(3)の変更により簡単に本発明方法
を用いることができる。 単語数既知の場合は、Xを単語数、D〜x(k)を入
力パターンの第1フレームから第St(k)フレームま
での部分パターンと、x個の単語標準パターンを
最適に連結した標準パターンとの累積照合距離、
B〜x(k)を前記D〜x(k)に対するバツクポインタ、N〜
x
(k)を前記D〜x(k)に対する最後尾単語とすれば、式
(3)の漸化式は、初期条件D〜p(O)=0,B〜p(O
)
=0として D〜x(k)=min i′,w〔D〜x-1(k′)+w(k′:k)〕 B〜x(k)=k^′ B〜x(k)=k^′ N〜x(k)=w^ (k^′,w^は上式を満足するk′
,w)…(4) によつて与えられる。 k=1,2,…,Kについて式(4)の計算を行え
ば、認識結果は次のように求まる。 最後の単語:N〜x(K) 最後から2番目の単語:N〜x-1(B〜x(K)) 最後から3番目の単語:N〜x-2(B〜x-1(Bx
(K))) … 最初の単語:N〜1(B〜2(B〜3(…(B〜x(K)
)
…))) でB〜1(B〜2(B〜3(…(B〜x(K))…)))=
0とな
つて終了する。 第6図はN〜x(k),B〜x(k)から上の単語列を求める
フローチヤートである。 オートマトン制御の場合は次のようになる。 通常のオートマトンの認識問題と異なる点は、
時間を表わすフレーム番号も変数として入つてい
る点であり、しかも単に受理、拒否の出力でな
く、受理可能な度合(累積距離)が出力される点
である。 D〜q(k)を状態qで入力のSt(k)フレームで終端す
ると仮定したあらゆる単語列のうちの最小累積距
離、N〜q(k)をD〜q(k)に対応する単語列の最後尾単語
名、B〜q(k)をN〜q(k)の始点位置マイナス1(N〜q(
k)の
一つ前の単語の長終フレーム、即ちバツクポイン
タ)、Q〜q(k)をqへの状態遷移によつてD〜q(k)を満
たした状態名即ちΔを状態遷移規則とするときΔ
(Q〜q(k),N〜q(k))=qとするとき、次の漸化式を
解
くことで、オートマトン制御による解が得られ
る。即ち式(4)のxを状態qと読み代えることによ
つて、D〜q(k)を求める漸化式は次のようになる。 初期条件D〜p(O)=0,B〜p(O)=0として D〜q(k)=min k′,w,p 〔D〜p(k′)+w(k′:k)〕,q=Δ(p,n)
…(5) をq=1,2,…,|s|−1について求め(s
は状態qの有限集合)、この式を満たすk′,w,
pをk^′,w^,p^とするとき、 N〜q(k)=w^,B〜q(k)=k^′,Q〜q(k)=p^ とする。k=Kまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち、 k=K,q=minqf D〜qf∈F(Fは最終状
態の集合)として w^=N〜q(k) B〜q(k)≠0なら、k=B〜q(k),q=Q〜q(k)と
し
てへ、B〜q(k)=0なら終了する。 第7図はフローチヤートである。 第1図は本発明の一実施例である。本実施例は
単語数未知の場合の例である。音声素片として
は、VCV音節、CV音節等を用いる場合について
説明する。この場合、音節の境界は母音定常部の
中心であるとする。100は音声信号端子であ
る。101は特徴抽出部で、フイルタバンク等で
構成されており、入力音声信号を特徴ベクトルの
系列a1,a2,…,aIに変換する。 116は母音標準パターン記憶部であつて、各
母音の標準パターンを記憶している。117は母
音認識部であつて、入力パターンの各フレームに
ついて母音標準パターン記憶部116の各母音標
準パターンと比較を行い、各フレームを母音とみ
なして母音認識を行う。これは例えば入力の各フ
レームと各母音標準パターンの距離を求めること
によつてできる。118は母音中心検出部であつ
て、母音認識部117の出力母音系列から、入力
パターンの各母音部の中心を検出する。例えば、
同一母音が連続する場合、その中心部をその母音
の母音中心とする等である。119は入力パター
ンから無音区間の検出、子音の大まかな分類を行
うものである。無音区間の検出は、入力パターン
から電力を求め、その値が予め定めた閾値より下
にあれば無音、上にあれば有音として判定でき
る。子音の大分類は、スペクトルの偏より等の周
知の方法を用いることにより、子音部の検出と摩
擦性、破裂性等の大まかな識別を行う。120は
特徴系列記憶部であつて、母音中心検出部118
で得られる母音中心の母音系列と、無音区間検
出・子音大分類部119で得られる無音、子音等
の系列を記憶するものである。102は素片標準
パターン記憶部であつて、CV,VCVのそれぞれ
に対応する特徴ベクトルの系列を標準パターンと
して記憶している。103は素片マツチング部で
あつて、入力パターンと、素片標準パターンとの
DPマツチングを行う。このとき例えば、k番目
の母音中心における処理をする場合を考えるとk
番目の母音中心部の母音の認識結果をV(k)とすれ
ば、k′k−1に対して入力パターンのフレーム
St(k′)からSt(k)までの部分パターンと、先行
母音が、V(k′)、後続母音がV(k)、子音が特徴系
列記憶部120で記憶されている第k′番の母音中
心と第k番の母音中心の間の子音大分粒結果を満
たすVCV音節標準パターンRnとのDPマツチング
を行い、素片累積照合距離Dn(k′:k)を計算す
る。ここにk′は前記第3図において説明し各音節
標準パターンに対して決定される三角形の底辺の
上に存在するもののみを考慮すれば良い。ただ
し、k=1,2,…,kに対し、max{St(k)−2
(Jn−1),1}St(k′)max{St(k)−〔(Jn−
j
+1)/2〕,1}, nは前記条件を満たすnである。 また、Dn(k′:k)はSt(k′)0においては定
義されていないので、St(k′)の範囲は第2図b
の径路の拘束条件を用いるときはここに示した範
囲となる。104は素片マツチング部で計算され
た素片累積照合距離Dn(k′:k)を記憶する部分
である。105は単語辞書であつて、認識すべき
各単語wが音声素片名の系列として表わされたも
のが記憶されている。 121は候補単語判定部であつて、単語辞書1
05から読み出される単語がマツチングすべき単
語か否かを特徴系列記憶部120の記憶内容と比
較し、予め候補単語を予備選択するものである。
今、母音中心の検出は挿入はあつても脱落はない
ものとし、挿入は2つ続けては生じないものとす
れば、第8図aに示すマツチング径路を用いて、
特徴系列同志のマツチングをとり、候補単語の選
出を行うものである。即ち、素片をVCV音節と
すれば単語辞書の単語の第+1音節の特徴が、
入力パターンの第k′番の母音中心から第k′+1あ
るいは第k′+2番の母音中心までの特徴に含まれ
れば、両者の距離dd(k′,)=0とし、含まれ
なければdd(k′,)=1とし、漸化式 DD(k′,)=minDD(k′+1,+1)+dd(k′,
) DD(k′+2,+1)+dd(k′,) …(6) 初期値DD(k,Lw)=0 を=Lw−1,Lw−2,…,1,0について繰
り返して計算し、k−2Lwk′k−Lwの範囲で
DD(k′:o)の値が0であるか否かを判定し、
DD(k′,o)=0であればその単語は候補単語で
あり、単語マツチングの対象として採用しDD
(k′,o)≠0であれば候補外の単語であるとし
て単語マツチングの対象から省くものである。即
ち、漸化式(6)は、DPマツチングの径路の正規化
係数が標準パターンの音節数に等しくなるもので
あつて、入力側の端点自由のマツチングを行つて
いることになる。これを図的に説明すると、3音
節の単語に対する例としてマツチングの範囲は第
8図bの傾き1/2の直線122と傾き2の直線1
23で挾まれる領域となる。但し、同図におい
て、横軸は入力パターンの母音中心番号列、縦軸
はマツチングすべき単語の音節標準パターン列で
あつて、時間軸を伸縮することによつて、これら
は全て同じ間隔になるように画いてある。この図
においては、始端が、k−6〜k−3の何かから
終端が、k迄の特徴系列の中に、単語wの可能性
のある特徴系列があればDD(k′,o)=0なる
k′が存在し、その可能性がない場合は、DD(k′,
o)=0なるk′は存在しないことになる。ここで、
Lwは単語wの素片数である。 106は単語マツチング部であつて、候補単語
判定部121で選ばれた候補単語の各wに対し
て、入力パターンの第k′母音中心から第k母音中
心までの部分パターンと単語標準パターンw=
Rs(w,1),Rs(w,2),…Rs(w,Lw)とのマツチングを、前
記素片累積照合距離を基に行い、単語累積照合距
離w(k′:k)を計算する部分である。 本実施例の場合は、第9図にその例が図解され
る。これは第8図と同様に、入力パターンの母音
中心間の長さ、標準パターンの長さを同じ長さに
なるように、それぞれの軸を伸縮して画いてあ
り、3音節の単語とマツチングする場合である。
入力パターンの母音中心番号kと標準パターンの
音節番号の対応は第9図aで表わされるから、
入力パターンと標準パターンのマツチングパスは
点p=(k,3)を通り、傾き1/2と傾き1の直線
125,126で挾まれる範囲に限定される。こ
の場合、線分Aを=1なる直線の直線125と
直線126で挾まれる部分、線分Bを直線=2
の直線125と直線126で挾まれる部分とし、
rを線分A上の点、qを線分B上の点とすれば、
点pから点rまでの最小累積照合距離は点pから
線分B上の点qまでの最小累積照合距離と点qか
ら点rまでの最小累積照合距離の和を点qに関し
て最小にしたときの最小値とすることができる。
この場合、前記の説明から点pから点qまで、点
qから点rまでのそれぞれ最小累積照合距離が既
に求まつているから、点pから点rまでの最小累
積照合距離は、 w(k−3,1)= min min k″=k−2,k−1〔w(k″,2)+Ds(w,2)(k−
3:k)〕 として求めることができる。w(k,3)=0と
して、=Lw−1,Lw−2,…,1,0につい
てこの操作を順次繰返すことにより入力パターン
の母音中心k−6〜k−3を始点、kを終点とす
る部分パターンと単語wのマツチング距離はw
(k′:k)=w(k′,1)として求まる。但し、
k−6k′k−3である。一般に、=にお
いてw(k′,)を計算するk′の範囲は、max
{k−2(Lw−),o}k′max{k−(Lw−
,o}となる。ここで、w(k′:k)はk′
−1では定義されていないので、k′の範囲はここ
に示したようになる。 107は単語マツチング結果記憶部であつて単
語累積照合距離w(k′:k)を記憶する部分で
ある。108は終端累積距離計算部であつて、単
語マツチング結果記憶部107の内容と終端累積
距離記憶部108の内容から漸化式3に従つて、
D〜(k),N〜(k),B〜(k)を計算する。終端累積距離
記憶
部109は、終端累積距離計算部108で計算さ
れた終端累積距離D〜(k)を必要がなくなるまで記憶
する。このD〜(k)は終端累積距離計算部108にお
ける漸化式3の計算に用いられる。110はバツ
クポインタ記憶部であつて、終端累積距離計算部
108で計算されたバツクポインタB〜(k)を記憶す
る。111は最後尾単語記憶部で、終端累積距離
記憶部109で求められた第k母音中心における
最後尾単語を記憶する。112は音声区間検出部
であつて、入力信号の大きさ等から音声区間を判
定するもので、この音声区間検出部112が音声
入力が開始されたことを検出すると、母音中心計
数部113は母音中心毎に計数を始める。前記の
処理はk母音中心についての処理であつたが、こ
の母音中心計数部113の計数値がこのkを設定
している。従つて、前記と同様の処理が母音中心
が1進む毎に行われることになる。母音中心計数
部113は音声区間が検出されると計数を始め、
音声区間が終了するとリセツトされる。最後尾単
語記憶部111、バツクポインタ記憶部100に
は、N〜(k),B〜(k)がk=1,2,…,Kについて記
憶されることになる。セグメンテーシヨン部11
4はバツクポインタ記憶部110に対し、所定の
バツクポインタを読出すべき命令を発するもので
ある。即ち、セグメンテーシヨン部、114がk
なる値をバツクポインタ記憶部110に発する
と、バツクポインタ記憶部110からはバツクポ
インタB〜(k)が読出される。セグメンテーシヨン部
114はバツクポインタ記憶部100からB〜(k)な
る値を受け取ると、その同じ値をバツクポインタ
記憶部110に発する。従つて、音声区間検出部
112が音声入力の終了が検知すると、母音中心
計数部113の最終値Kがセグメンテーシヨン部
114に供給され、セグメンテーシヨン部114
は先ずKなる値をバツクポインタ記憶部110に
発する。以後、前記、説明の動作に従つて、バツ
クポインタ記憶部110B(K),B(B(K)),
…,Oなる出力が順次得られることになる。これ
らの値は、最後から2番目の単語の終りのフレー
ム、同3番目の終りのフレーム、同4番目のフレ
ーム、…というものであり、N〜(k)はkフレームで
終る単語であつたから、この値をそのまま最後尾
単語記憶部111に与えると、最後の単語から逆
の順序で認識結果が得られることになる。この順
序を逆に(あたりまえの順序に)するには、順序
の変換をバツクポインタ記憶部110の出力か、
最後尾単語記憶部111の出力に対して行えばよ
い。 第10図は、以上の実施例の動作をプログラム
で表現したものであり、ソフトウエアで実現する
場合もこれに従えばよい。なお第10図におい
て、
音声素片単位で認識する音声認識装置に関する。 従来の技術 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規即によつて計算
し、最も類似している単語を認識結果とするもの
である。 ところが、この方法によると、認識単語数が少
いときには良いが、数百、数千単語といつたよう
に増加してくると、主として次の三つの問題が無
視し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 以上の欠点を回避するための方法として認識の
単位を子音+母音および母音の単音節(以後それ
ぞれCV,Vで表す。Cは子音、Vは母音を意味
する。)とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する(認識する)
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行う決
定的な方法は未だ見出されていない。この2つの
問題を解決するために、現在のところ各単音節を
区切つて、発声することが行われており、実用化
されている装置もある。 しかし、単音節を離散的に発声するのは不自然
であり、話者に緊張を強いるものである。 発明が解決しようとする問題点 本発明は前記連続発声された音声に対するセグ
メンテーシヨンの不確実さを回避し、あわせて、
連続発声された単語または文節を認識することが
できる連続音声認識装置を提供することを目的と
する。 問題点を解決するための手段 本発明は、単語・文節等を連続発声して得られ
る入力音声信号を特徴ベクトルの系列に変換する
特徴抽出手段と母音、子音あるいはそれらの結合
したもの等として定義される音声素片のそれぞれ
に対応した特徴ベクトルの系列を前記音声素片名
に対応づけて記憶する標準パターン記憶手段と、
入力パターンに対して素片の境界を検出する素片
境界候補検出手段と標準パターンのそれぞれと前
記入力パターンから検出された前記素片境界候補
の任意または定められた種々の組合せによつて決
定される部分区間(第1の部分区間)とのマツチ
ングを行つて両者の距離(類似度)を計算する素
片マツチング手段と、認識さるべき各単語・文節
等を前記音声素片名の系列として表現した単語・
文節等を記憶する単語・文節辞書と、この認識さ
るべき各単語・文節と前記入力パターンの任意ま
たは定められた前記素片境界候補の種々の部分区
間(第2の部分区間)との距離(類似度)を、前
記単語・文節辞書によつて指定される素片名の系
列に対応するように、前記第2の部分区間に含ま
れる前記第1の部分区間群を隣り合う区間が連続
するように最適に定めることにより、前記第1の
各部分区間の始点と終点およびその部分区間の前
記素片名に対応する距離(類似度)の総和を最小
(最大)とし、得られる最小値(最大値)を各単
語・文節に対する前記第2の部分区間の距離とし
て出力する機能を有する単語・文節マツチング手
段と、前記第2の部分区間群を隣り合う区間が連
続するように最適に定めることにより、前記第2
の各部分区間の始点と終点およびその部分区間の
前記単語・文節名に対応する距離(類似度)の総
和を最小(最大)となし、そのときの単語・文節
列を認識結果として判定する連続単語・文節判定
手段とを備えた連続音声認識装置である。 作 用 本発明は前記した構成により、単語・文節等を
連続発声して得られる入力音声信号を特徴ベクト
ルの系列に変換し、母音、子音あるいはそれらの
結合したもの等として定義される音声素片のそれ
ぞれに対応した特徴ベクトルの系列を前記音声素
片名に対応づけて記憶された標準パターンと、こ
の標準パターンのそれぞれと前記入力パターンか
ら検出された素片境界候補の任意または予め定め
られた種々の組合せによつて決定される部分区間
(第1の部分区間)とのマツチングを行つて両者
の距離(類似度)を計算し、認識さるべき各単
語・文節等を前記音声素片名の系列として表現し
た単語・文節等の認識さるべき各単語・文節と前
記入力パターンの任意または定められた前記素片
境界候補の種々の部分区間(第2の部分区間)と
の距離(類似度)を、前記単語・文節によつて指
定される素片名の系列に対応するように、前記第
2の部分区間に含まれる前記第1の部分区間群を
隣り合う区間が連続するように最適に定めること
により、前記第1の各部分区間の始点と終点およ
びその部分区間の前記素片名に対応する距離(類
似度)の総和を最小(最大)とし、得られる最小
値(最大値)を各単語・文節に対する前記第2の
部分区間の距離とし、前記第2の部分区間群を隣
り合う区間が連続するように最適に定めることに
より、前記第2の各部分区間の始点と終点および
その部分区間の前記単語・文節名に対応する距離
(類似度)の総和を最小(最大)となし、そのと
きの単語・文節列を認識結果として判定する。 実施例 以後、「単語」という言葉は「文節」という言
葉も代表するものとする。また、「類似度」は
「距離」で代表して説明する。即ち、距離が小さ
いとは類似度が大きいということである。先ず本
発明の基本であるDPマツチングについて述べる。 第2図は離散単語の認識を行う場合のDPマツ
チングを説明する格子グラフである。即ち、入力
パターンA=a1,a2…ai…aIと標準パターンBn=
bn 1,bn 2…bn j…bn jnとの距離を求める場合を示して
いる。横軸は入力パターン、縦軸は標準パターン
を示し、1は両者の特徴ベクトルの対応関係を示
す曲線である。DPマツチングは、この径路を最
適に定めることにより、その径路によつて対応づ
けられるaiとbn jとの距離dn(i,j)のこの径路
に沿う荷重平均を最小化し、その最小値を以つて
両者の距離とするものであつて、この計算を効率
的に行うものである。dn(i,j)は例えば、dn
(i,j)=|ai−bn j|等で表すことが可能であ
る。この場合、径路1を求めるについては、径路
選択のための拘束条件が設けられる。同図bは、
その径路拘束条件の一例である。即ち、点(i,
j)に至る前の点は、点(i+1,j+2)、点
(i+1,j+1)、点(i+2,j+1)であ
り、点(i,j)に至る径路は同図に示す径路に
限定される。 同図の径路上に示した数字は、その径路が選ば
れたときの重み係数を示す。本例のような、径路
の拘束を行う場合は、図aの格子グラフ上におい
て、任意の格子点間を結ぶ径路は、その選び方の
如何によらず荷重和は一定で、両点の間の入力パ
ターンの長さに等しくなる。従つて、この場合は
径路に沿う前記dn(i,j)の総和を荷重和で平
均する必要はなく総和そのものを入力パターンと
標準パターンとの距離とすることができる。具体
的な計算は次の漸化式を解くことによつて実行さ
れる。即ち Dn(i,j)=minDn(i+1,j+2)+dn(i,j
) Dn(i+1,j+1)+dn(i,j) Dn(i+1,j+1)+dn(i,j) Dn(i+2,j+1)+dn(i+1,j)+dn(i,j
)…(1) をi=I,I−1,…,2,1,i=Jn,Jn−
1,…,2,1について初期値Dn(I,Jn)=dn
(I,Jn)のもとで解き、Dn(1,1)を両者の
距離とするものである。 径路の拘束条件を同図bのように選ぶことによ
り実際に選択可能な径路は同図aの斜線の内部に
制限される。このことは、パターンAとパターン
Bnは、同じ単語に対するものであるときは、そ
れ程ずれるはずはなく、異つた単語に対するもの
であるときは、無理な対応付をして両パターンの
距離値を不当に小さくする虞れのないようにする
という目的に合致したものである。 第3図、第4図は、DPマツチングによつて、
連続単語認識を行う場合の本発明の原理を説明す
る図である。第3図はk番目の音節境界を終点と
し、後述の範囲を始点とする入力パターンの部分
パターンと、V,CV,VV,VCV(Vは母音、C
は子音)等の音節(音声素片)標準パターンとの
DPマツチングの様子を説明する図であつて、横
軸を入力パターン、縦軸を標準パターンとする格
子グラフである。4はj=1の直線、n1,n2はそ
れぞれ音声素片標準パターンの1例を示すもので
あり、素片nのフレーム数をJnとしている。い
ま、前記入力の部分パターンと素片n1の標準パタ
ーンとマツチングする場合を考える。このとき、
第1図bの径路の拘束条件を適用すると第k番の
素片境界候補をSt(k)(k=0は語頭)とすれば、
点(St(k),Jn1)のマツチングの開始点に対して、
マツチングの範囲は直線5,6,4で囲まれる範
囲となり、点9〜点10の間の素片境界候補点を
k′とすれば、漸化式(1)の計算に従つて、k′〜kの
入力パターンの部分パターンと、n1の標準パター
ンRn1との素片累積照合距離Dn1(k′:k)はDn1
(k′:k)=Dn1(St(k′),1)で与えられる。こ
こ
に、点9は直線5と直線4との交点、点10は直
線6と直線4との交点であつて、直線5は傾き1/
2、直線6は傾き2である。この場合、第k素片
境界候補点を終点とする入力パターンの部分パタ
ーンと、標準パターンRn1とのマツチングにおい
て、始点k′の範囲は、点9〜点10の間というこ
とになり、漸化式1によりj=Jn,Jn−1,…,
1のそれぞれに対して、i′=max{St(k)−2(jn−
j),1},{St(k)−2(Jn−j)+1,1},…,
max{St(k)−〔(Jn−j+1)/2〕,1}について
Dn1(i′,j)を順次計算してゆくことにより、点
9、点10の間のk′に対するDn1(k′:k)=Dn1
(St(k′),1)は同時に求まる。ここで、max
{x,y}はx,yのうち大きい方の値を意味し、
〔x〕はxを越えない最大の整数を示す。またj
=jにおけるi′の範囲は、Dn(i′,j)はi′0に
おいては定義されていないので、上記の如くな
る。同様に、標準パターンRn2に対しては、点
(St(k),Jn2)を通る傾き1/2の直線2と直線4と
の交点7と、点(St(k),Jn2)を通る傾き2の直
線3と直線4との交点8の範囲のk′に対し、Dn2
(k′:k)=Dn2(St(k′),1)が求まる。入力の
各
境界候補フレームSt(k)において、n=1,2,
…,Nに対してこのようにして、Dn(k′:k)を
求める。 第4図は、標準パターンを単語としたとき、前
記素片標準パターンに対するのと同様な計算を行
う方法を説明している。即ち、入力の第St(k)フレ
ームを終点とし、後述の範囲を始点とする入力パ
ターンの部分パターンと単語wに対する標準パタ
ーンwとのDPマツチングの様子を説明してお
り、横軸を入力パターン、縦軸を標準パターンと
する格子グラフである。11はj′=1の直線、
w=Rs(w,1)、Rs(w,2),Rs(w,3)は単語標準パターンw
の一例を示している。ここでj′は単語標準パター
ンwの第1フレームから最終フレームまで通し
て付されたフレーム番号とし、s(w,)は単
語wの第番目の音声素片名を表す番号で、本例
では単語wは3つの素片名の系列からなり、単語
wの標準パターンwはこれに対応する3つの素
片標準パターンRs(w,1)、Rs(w,2),Rs(w,3)の結合した
ものとして表わされている。この場合も第2図b
の拘束条件を適用すると、単語wのフレーム数は
Jw=Js(w,1)+Js(w,2),+Js(w,3)であつて、点(St(k
),
Jw)のマツチングの開始点に対して、マツチン
グの範囲は、直線12,13,11で囲まれる範
囲となり、点14〜点15の間の境界候補番号を
k′とすれば、漸化式(1)と同様な計算に従つて、
k′〜kの入力パターンの部分パターンと、wと
の単語累積照合距離w(k′:k)が求まる。即
ち、この場合の漸化式はw (i′,j′)=minw(i′+1,j′+2)+w(
i′,j′)w (i′+1,j′+1)+w(i′,j′)w (i′+1,j′+1)+w(i′,j′)w (i′+2,j′+1)+w(i′+1,j′)+w
(i′,j′)…(2) 初期値 w(St(k),w)=w(St(k),w)
となり、w(i′,j′)をj′=w,w−1,…,
2,1の各々に対しi′を直線12〜13の範囲で
逐次計算してゆくことにより、w(k′:k)=
w(St(k′),1)として求めることができる。こ
こで、w(i′,j′)は入力の第i′フレームの入力
パターンの特徴ベクトルai′と単語wの標準パタ
ーンwの第j′フレームの特徴ベクトルw j′とのベ
クトル間距離であり前記dn(i,j)と同様の定
義w(i′,j′)=|ai′−bn j′|が用いられる。ま
た、
直線12は点(St(k),w)を通る傾き1/2の、直
線13は点(St(k),w)を通る傾き2の直線で
あり、点14は直線12と11との、点15は直
線13と11との交点である。次いでw∧=arg
minw〔w(k′:k)〕を計算する。argminx
in〔f(x)〕はf(x)を最小にするxを意味する。連
続発声された単語を認識するには、k=1,2,
…,Kについて以上の計算を行い、入力パターン
を個数、位置等に関して最適に分割し、分割され
たそれぞれの部分区間に対する前記最小の単語累
積照合距離を最小となし、そのときのそれぞれの
部分区間に対して求められた前記単語をそれぞれ
の区間に対する認識結果とすれば良いのである
が、単語数が厖大になつてくると前記方法で単語
累積照合距離w(k′:k)を求めるのは計算量
が厖大となる。そこで、本発明では、この単語累
積照合距離を求めるのに前記素片累積照合距離を
用いることによりこの計算量を大幅に削減してい
る点に特徴がある。即ち、本例においては、w
の最後の素片標準パターンRs(w,3)と入力パターン
のマツチングは直線12,13,16で囲まれる
領域について行われ、その結果w(St(k′),3)
は直線16上、直線12,13で挾まれる部分に
既に素片累積照合距離Ds(w,3)(k′:k)として求め
られている。k′は前記部分に含まれる素片境界候
補番号である。直線16はj′=w−Js(w,3)+1で
ある。単語標準パターンwの最終フレームから、
最後から2番目の素片Rs(w,2)までのマツチング
は、直線12,13,17で囲まれる領域につい
て行われ、その結果w(k′,2)は、直線17
の、直線12と13で挾まれる部分に求められる
ものであるが、これは、動的計画法の原理に従つ
てw (k′,2)=min k″ 〔w(k″,3)+Ds(w,2)(k′:k″)〕 として求められる。素片累積照合距離Ds(w,2)(k′:
k″)および途中累積照合距離w(k′,3)は既
に求められているものである。ここで、直線17
はj′=w−Js(w,3)−Js(w,2)+1であつて、k′は直
線
17の直線12,13に挾まれる部分に含まれる
入力パターンの素片境界候補番号である。また
k″は例えばk′が直線17上の点20のときは、直
線16上の点であつて、点20を通り直線13に
平行な直線18と直線12に平行は直線19に挾
まれる部分と直線12と13に挾まれる部分の共
通部分の素片境界候補番号である。k′が点23の
ときも同様に、k″は、直線16の点であつて、
点23を通りそれぞれ直線13,12に平行な直
線21,22に挾まれる部分と、直線12,13
に挾まれる部分の共通部分の素片境界候補番号で
ある。これは、径路の拘束条件を図2bのように
したときは、点(St(k),w)から点20へ至る
マツチングの径路は直線12,13,18,19
で囲まれる平行四辺形の内部に限定され、点(St
(k),w)から点23へ至るマツチング径路は直
線12,13,21,22で囲まれる平行四辺形
の内部に限定されることを意味する。同様に、単
語標準パターンの最終フレームから、最後から3
番目までの素片(本例では単語wの最初の素片)
Rs(w,1)までのマツチングは直線11,12,13
で囲まれる領域について行われ、その結果w
(k′,1)は点14〜点15の部分について求め
られるものであるが、これも、動的計画法の原理
に従つて、w (k′,1)=min k″ 〔w(k″,2)+Ds(w,1)(k′:k″)〕 として求められ、素片累積照合距離Ds(w,1)(k′:
k″)、単語途中累積照合距離w(k″,2)は既
に求められているものである。以上のようにし
て、素片累積照合距離を予め求めておき、これか
ら単語累積照合距離w(k′:k)をw(k′:
k)=w(k′,1)として求めることができる。
それぞれの単語wをそれを構成する素片標準パタ
ーンの結合で表わし、それと入力パターンと直接
マツチングする場合は各フレームにおいて単語数
だけのマツチング計算が必要であるのに比べて、
本発明の方法によれば入力の各フレームにおいて
はたかだか素片数のマツチングのみすれば良いか
ら数千語にも及ぶような大語彙単語に対する認識
の場合ははるかに少い計算量で、等価な結果が得
られるものである。 単語累積照合距離w(k′:k″)が求まると、
第St(k)フレームを最終フレームと仮定したとき、
第1フレームから第St(k)フレーム迄の最適の単語
列は動的計画法の原理により次の漸化式により求
めることができる。即ち、D〜(k)を入力の第1フレ
ームから第St(k)フレーム迄の部分パターンとそれ
に対する最適の単語列に対する特徴ベクトルの系
列との累積照合距離、B〜((k)を最後尾単語から1
つ手前の単語の最終境界候補番号、N〜(k)を最後尾
単語名とすれば、初期条件D〜(o)=0,B〜(o)=0と
して D〜(k)=min k′,w〔D〜(k′)+D〜w(k′:k)〕 B〜(k)=k^′ B〜(k)=k^′ N〜(k)=w^ (k^′,w^は上式を満足するk′,
w)…(3) で与えられる。k=1,2,…,Kについて上記
計算を行えば、認識結果は次のように求まる。 最後の単語:N〜(K) 最後から2番目の単語:N〜(B(K)) 最後から3番目の単語:N〜(B(B(K))) … 最初の単語:N〜(B〜(B〜(…(B〜(K))…
))) でB〜(B〜(…(B〜(K))…)))=0となつた
とき
終了する。 第5図はN〜(K),B〜(K)から上の単語列を
求めるフローチヤートである。 以上は単語数未知の場合の最適解を求める例で
あるが、単語数が既知の場合、オートマトン制御
による場合も式(3)の変更により簡単に本発明方法
を用いることができる。 単語数既知の場合は、Xを単語数、D〜x(k)を入
力パターンの第1フレームから第St(k)フレームま
での部分パターンと、x個の単語標準パターンを
最適に連結した標準パターンとの累積照合距離、
B〜x(k)を前記D〜x(k)に対するバツクポインタ、N〜
x
(k)を前記D〜x(k)に対する最後尾単語とすれば、式
(3)の漸化式は、初期条件D〜p(O)=0,B〜p(O
)
=0として D〜x(k)=min i′,w〔D〜x-1(k′)+w(k′:k)〕 B〜x(k)=k^′ B〜x(k)=k^′ N〜x(k)=w^ (k^′,w^は上式を満足するk′
,w)…(4) によつて与えられる。 k=1,2,…,Kについて式(4)の計算を行え
ば、認識結果は次のように求まる。 最後の単語:N〜x(K) 最後から2番目の単語:N〜x-1(B〜x(K)) 最後から3番目の単語:N〜x-2(B〜x-1(Bx
(K))) … 最初の単語:N〜1(B〜2(B〜3(…(B〜x(K)
)
…))) でB〜1(B〜2(B〜3(…(B〜x(K))…)))=
0とな
つて終了する。 第6図はN〜x(k),B〜x(k)から上の単語列を求める
フローチヤートである。 オートマトン制御の場合は次のようになる。 通常のオートマトンの認識問題と異なる点は、
時間を表わすフレーム番号も変数として入つてい
る点であり、しかも単に受理、拒否の出力でな
く、受理可能な度合(累積距離)が出力される点
である。 D〜q(k)を状態qで入力のSt(k)フレームで終端す
ると仮定したあらゆる単語列のうちの最小累積距
離、N〜q(k)をD〜q(k)に対応する単語列の最後尾単語
名、B〜q(k)をN〜q(k)の始点位置マイナス1(N〜q(
k)の
一つ前の単語の長終フレーム、即ちバツクポイン
タ)、Q〜q(k)をqへの状態遷移によつてD〜q(k)を満
たした状態名即ちΔを状態遷移規則とするときΔ
(Q〜q(k),N〜q(k))=qとするとき、次の漸化式を
解
くことで、オートマトン制御による解が得られ
る。即ち式(4)のxを状態qと読み代えることによ
つて、D〜q(k)を求める漸化式は次のようになる。 初期条件D〜p(O)=0,B〜p(O)=0として D〜q(k)=min k′,w,p 〔D〜p(k′)+w(k′:k)〕,q=Δ(p,n)
…(5) をq=1,2,…,|s|−1について求め(s
は状態qの有限集合)、この式を満たすk′,w,
pをk^′,w^,p^とするとき、 N〜q(k)=w^,B〜q(k)=k^′,Q〜q(k)=p^ とする。k=Kまでこの計算を行えば、次のよう
にして最後尾の単語から逆順に単語が求まる。即
ち、 k=K,q=minqf D〜qf∈F(Fは最終状
態の集合)として w^=N〜q(k) B〜q(k)≠0なら、k=B〜q(k),q=Q〜q(k)と
し
てへ、B〜q(k)=0なら終了する。 第7図はフローチヤートである。 第1図は本発明の一実施例である。本実施例は
単語数未知の場合の例である。音声素片として
は、VCV音節、CV音節等を用いる場合について
説明する。この場合、音節の境界は母音定常部の
中心であるとする。100は音声信号端子であ
る。101は特徴抽出部で、フイルタバンク等で
構成されており、入力音声信号を特徴ベクトルの
系列a1,a2,…,aIに変換する。 116は母音標準パターン記憶部であつて、各
母音の標準パターンを記憶している。117は母
音認識部であつて、入力パターンの各フレームに
ついて母音標準パターン記憶部116の各母音標
準パターンと比較を行い、各フレームを母音とみ
なして母音認識を行う。これは例えば入力の各フ
レームと各母音標準パターンの距離を求めること
によつてできる。118は母音中心検出部であつ
て、母音認識部117の出力母音系列から、入力
パターンの各母音部の中心を検出する。例えば、
同一母音が連続する場合、その中心部をその母音
の母音中心とする等である。119は入力パター
ンから無音区間の検出、子音の大まかな分類を行
うものである。無音区間の検出は、入力パターン
から電力を求め、その値が予め定めた閾値より下
にあれば無音、上にあれば有音として判定でき
る。子音の大分類は、スペクトルの偏より等の周
知の方法を用いることにより、子音部の検出と摩
擦性、破裂性等の大まかな識別を行う。120は
特徴系列記憶部であつて、母音中心検出部118
で得られる母音中心の母音系列と、無音区間検
出・子音大分類部119で得られる無音、子音等
の系列を記憶するものである。102は素片標準
パターン記憶部であつて、CV,VCVのそれぞれ
に対応する特徴ベクトルの系列を標準パターンと
して記憶している。103は素片マツチング部で
あつて、入力パターンと、素片標準パターンとの
DPマツチングを行う。このとき例えば、k番目
の母音中心における処理をする場合を考えるとk
番目の母音中心部の母音の認識結果をV(k)とすれ
ば、k′k−1に対して入力パターンのフレーム
St(k′)からSt(k)までの部分パターンと、先行
母音が、V(k′)、後続母音がV(k)、子音が特徴系
列記憶部120で記憶されている第k′番の母音中
心と第k番の母音中心の間の子音大分粒結果を満
たすVCV音節標準パターンRnとのDPマツチング
を行い、素片累積照合距離Dn(k′:k)を計算す
る。ここにk′は前記第3図において説明し各音節
標準パターンに対して決定される三角形の底辺の
上に存在するもののみを考慮すれば良い。ただ
し、k=1,2,…,kに対し、max{St(k)−2
(Jn−1),1}St(k′)max{St(k)−〔(Jn−
j
+1)/2〕,1}, nは前記条件を満たすnである。 また、Dn(k′:k)はSt(k′)0においては定
義されていないので、St(k′)の範囲は第2図b
の径路の拘束条件を用いるときはここに示した範
囲となる。104は素片マツチング部で計算され
た素片累積照合距離Dn(k′:k)を記憶する部分
である。105は単語辞書であつて、認識すべき
各単語wが音声素片名の系列として表わされたも
のが記憶されている。 121は候補単語判定部であつて、単語辞書1
05から読み出される単語がマツチングすべき単
語か否かを特徴系列記憶部120の記憶内容と比
較し、予め候補単語を予備選択するものである。
今、母音中心の検出は挿入はあつても脱落はない
ものとし、挿入は2つ続けては生じないものとす
れば、第8図aに示すマツチング径路を用いて、
特徴系列同志のマツチングをとり、候補単語の選
出を行うものである。即ち、素片をVCV音節と
すれば単語辞書の単語の第+1音節の特徴が、
入力パターンの第k′番の母音中心から第k′+1あ
るいは第k′+2番の母音中心までの特徴に含まれ
れば、両者の距離dd(k′,)=0とし、含まれ
なければdd(k′,)=1とし、漸化式 DD(k′,)=minDD(k′+1,+1)+dd(k′,
) DD(k′+2,+1)+dd(k′,) …(6) 初期値DD(k,Lw)=0 を=Lw−1,Lw−2,…,1,0について繰
り返して計算し、k−2Lwk′k−Lwの範囲で
DD(k′:o)の値が0であるか否かを判定し、
DD(k′,o)=0であればその単語は候補単語で
あり、単語マツチングの対象として採用しDD
(k′,o)≠0であれば候補外の単語であるとし
て単語マツチングの対象から省くものである。即
ち、漸化式(6)は、DPマツチングの径路の正規化
係数が標準パターンの音節数に等しくなるもので
あつて、入力側の端点自由のマツチングを行つて
いることになる。これを図的に説明すると、3音
節の単語に対する例としてマツチングの範囲は第
8図bの傾き1/2の直線122と傾き2の直線1
23で挾まれる領域となる。但し、同図におい
て、横軸は入力パターンの母音中心番号列、縦軸
はマツチングすべき単語の音節標準パターン列で
あつて、時間軸を伸縮することによつて、これら
は全て同じ間隔になるように画いてある。この図
においては、始端が、k−6〜k−3の何かから
終端が、k迄の特徴系列の中に、単語wの可能性
のある特徴系列があればDD(k′,o)=0なる
k′が存在し、その可能性がない場合は、DD(k′,
o)=0なるk′は存在しないことになる。ここで、
Lwは単語wの素片数である。 106は単語マツチング部であつて、候補単語
判定部121で選ばれた候補単語の各wに対し
て、入力パターンの第k′母音中心から第k母音中
心までの部分パターンと単語標準パターンw=
Rs(w,1),Rs(w,2),…Rs(w,Lw)とのマツチングを、前
記素片累積照合距離を基に行い、単語累積照合距
離w(k′:k)を計算する部分である。 本実施例の場合は、第9図にその例が図解され
る。これは第8図と同様に、入力パターンの母音
中心間の長さ、標準パターンの長さを同じ長さに
なるように、それぞれの軸を伸縮して画いてあ
り、3音節の単語とマツチングする場合である。
入力パターンの母音中心番号kと標準パターンの
音節番号の対応は第9図aで表わされるから、
入力パターンと標準パターンのマツチングパスは
点p=(k,3)を通り、傾き1/2と傾き1の直線
125,126で挾まれる範囲に限定される。こ
の場合、線分Aを=1なる直線の直線125と
直線126で挾まれる部分、線分Bを直線=2
の直線125と直線126で挾まれる部分とし、
rを線分A上の点、qを線分B上の点とすれば、
点pから点rまでの最小累積照合距離は点pから
線分B上の点qまでの最小累積照合距離と点qか
ら点rまでの最小累積照合距離の和を点qに関し
て最小にしたときの最小値とすることができる。
この場合、前記の説明から点pから点qまで、点
qから点rまでのそれぞれ最小累積照合距離が既
に求まつているから、点pから点rまでの最小累
積照合距離は、 w(k−3,1)= min min k″=k−2,k−1〔w(k″,2)+Ds(w,2)(k−
3:k)〕 として求めることができる。w(k,3)=0と
して、=Lw−1,Lw−2,…,1,0につい
てこの操作を順次繰返すことにより入力パターン
の母音中心k−6〜k−3を始点、kを終点とす
る部分パターンと単語wのマツチング距離はw
(k′:k)=w(k′,1)として求まる。但し、
k−6k′k−3である。一般に、=にお
いてw(k′,)を計算するk′の範囲は、max
{k−2(Lw−),o}k′max{k−(Lw−
,o}となる。ここで、w(k′:k)はk′
−1では定義されていないので、k′の範囲はここ
に示したようになる。 107は単語マツチング結果記憶部であつて単
語累積照合距離w(k′:k)を記憶する部分で
ある。108は終端累積距離計算部であつて、単
語マツチング結果記憶部107の内容と終端累積
距離記憶部108の内容から漸化式3に従つて、
D〜(k),N〜(k),B〜(k)を計算する。終端累積距離
記憶
部109は、終端累積距離計算部108で計算さ
れた終端累積距離D〜(k)を必要がなくなるまで記憶
する。このD〜(k)は終端累積距離計算部108にお
ける漸化式3の計算に用いられる。110はバツ
クポインタ記憶部であつて、終端累積距離計算部
108で計算されたバツクポインタB〜(k)を記憶す
る。111は最後尾単語記憶部で、終端累積距離
記憶部109で求められた第k母音中心における
最後尾単語を記憶する。112は音声区間検出部
であつて、入力信号の大きさ等から音声区間を判
定するもので、この音声区間検出部112が音声
入力が開始されたことを検出すると、母音中心計
数部113は母音中心毎に計数を始める。前記の
処理はk母音中心についての処理であつたが、こ
の母音中心計数部113の計数値がこのkを設定
している。従つて、前記と同様の処理が母音中心
が1進む毎に行われることになる。母音中心計数
部113は音声区間が検出されると計数を始め、
音声区間が終了するとリセツトされる。最後尾単
語記憶部111、バツクポインタ記憶部100に
は、N〜(k),B〜(k)がk=1,2,…,Kについて記
憶されることになる。セグメンテーシヨン部11
4はバツクポインタ記憶部110に対し、所定の
バツクポインタを読出すべき命令を発するもので
ある。即ち、セグメンテーシヨン部、114がk
なる値をバツクポインタ記憶部110に発する
と、バツクポインタ記憶部110からはバツクポ
インタB〜(k)が読出される。セグメンテーシヨン部
114はバツクポインタ記憶部100からB〜(k)な
る値を受け取ると、その同じ値をバツクポインタ
記憶部110に発する。従つて、音声区間検出部
112が音声入力の終了が検知すると、母音中心
計数部113の最終値Kがセグメンテーシヨン部
114に供給され、セグメンテーシヨン部114
は先ずKなる値をバツクポインタ記憶部110に
発する。以後、前記、説明の動作に従つて、バツ
クポインタ記憶部110B(K),B(B(K)),
…,Oなる出力が順次得られることになる。これ
らの値は、最後から2番目の単語の終りのフレー
ム、同3番目の終りのフレーム、同4番目のフレ
ーム、…というものであり、N〜(k)はkフレームで
終る単語であつたから、この値をそのまま最後尾
単語記憶部111に与えると、最後の単語から逆
の順序で認識結果が得られることになる。この順
序を逆に(あたりまえの順序に)するには、順序
の変換をバツクポインタ記憶部110の出力か、
最後尾単語記憶部111の出力に対して行えばよ
い。 第10図は、以上の実施例の動作をプログラム
で表現したものであり、ソフトウエアで実現する
場合もこれに従えばよい。なお第10図におい
て、
【表】
なる記法は、条件Aが成立する間Bを行うという
ことを意味する。また、
ことを意味する。また、
【表】
なる記法は、条件Aが成立するまでBを行うとい
うことを意味する。 ステツプ200は累積距離D〜(k)、バツクポインタ
B〜(k),Dn(k−1:k),Dn(k−2:k)の初期
化を行う部分である。 ステツプ201は第k母音中心における処理を示
しており、大きくわけて素片累積照合距離Dn
(k′:k)を求める部分202と単語累積照合距
離w(k′:k)を求める部分203と終端累積
距離D〜(k)、終端バツクポインタB〜(k)、最後尾単語
N〜(k)を求める部分219に分かれる。 ステツプ202はn=1,2,…,Nについて素
片累積照合距離Dn(k′:k)を求める部分であつ
て、第1図103で行う動作に対応する。ステツ
プ204,205はステツプ206における計算の初期値
を与える部分、ステツプ209はステツプ211におけ
る計算の初期値を与える部分、ステツプ210はベ
クトル間距離dn(i′,j)を計算する部分、ステ
ツプ211は格子点(i,j)における素片累製照
合距離の途中結果Dn(i′,j)を求めている。本
実施例では第2図bの径路の拘束条件の場合を示
している。ステツプ207はDn(k′,1)を素片累
積照合距離としてDn(k′:k)に置き換えてい
る。このDn(k′:k)が素片マツチング結果記憶
部109に記憶される。 ステツプ204〜ステツプ207はnがマツチングの
条件を満たす場合に限つて実行される。即ち、n
の先行母音をVf(n),nの後続母音をVr(n),第k
母音中心の母音認識結果をV(k)とするとき、V
(k−1)orV(k−2)=Vf(n),V(k)=Vr(n)かつ
k−1〜kあるいはk−2〜kの間の子音、無音
等の特徴が標準パターンRnの特徴と一致してい
る可能性があるときのみ実行される。 ステツプ207′は、 max(St(k)−2(Jn−1),1}St(k′)max
{St(k)−〔Jn/2〕,1} の場合にのみ実行される。 ステツプ203はw=1,2,…,Wについて単
語累積照合距離w(k′:k),wを最後尾単語と
するときの累積距離D〜w(k)、バツクポインタB〜w(k)
を計算する部分であつて、第1図の候補単語判定
部121、単語マツチング部106で行う動作に
対応する。 ステツプ203′は前記説明に従つて、DD(k′,
o)を求める部分であり、ステツプ203″は、DD
(k′,o)=0のときはw(k′:k)=(k′,
o),DD(k′,o)≠0のときはw(k′:k)=
∞とするものである。 ステツプ213はステツプ214の計算を行うに当つ
て初期化を行う部分である。ステツプ214は単語
wに対応する素片系列の最終素片s(w,Lw)か
ら、最初の素片から番目の素片までに対応す
る標準パターンの系列Rs(w,Lw),Rs(w,Lw-1),…
Rs(w, )と入力パターンの部分パターンaSt(k),aSt
(k)−1,aSt(k)−2,…,aSt(k′)との累積照合距
離を既に求めた素片累積照合距離から求める部分
である。ただし、ステツプ216の漸化式において、
s(w,)は先行母音V(k″)後続CVはwの第
1音節に等しいVCV音節である。ステツプ217,
217′は累積照合距離w(k′,1)あるいは∞を
単語累積照合距離w(k′:k)に代入する部分
である。このw(k′:k)は第1図単語マツチ
ング結果記憶部107に記憶される。ステツプ
218はwを最後尾単語とするときの累積距離D〜w
(k)、バツクポインタB〜w(k)を求める部分であある。 ステツプ219は第7図の終端累積距離計算部1
08で行う動作に対応しており、漸化式3を解い
て、D〜(k),N〜(k),B〜(k)を求める部分である。 ステツプ220,221は、ステツプ201で得られた
k=1,2,…,KについてのB〜(k),N〜(k)から認
識単語列を得る判定処理であつて、第7図のバツ
クポインタ記憶部110、セグメンテーシヨン部
114最後尾単語記憶部110で行う動作に対応
した処理を行つている。 発明の効果 本発明は、以上のように、CVやCCV音節のよ
うな音声素片を認識の単位としているので、標準
パターンの登録はいくら単語が増加してもこの音
声素片のみで済み、単語辞書はこれら素片名の系
列として表わされるので特徴ベクトルの系列とし
て記憶するのに比べて格段に少い記憶量で済み、
マツチングは前記各素片とのマツチングに費やさ
れるのがほとんどで、単語数がいくら増加しても
計算量の増加は僅かである。またDPマツチング
を行うに先立つて、母音中心、およびその認識結
果、子音、無音等に関して得られる情報のうち確
かなものを用いて、前記各素片のうちマツチング
すべき素片標準パターンを限定すること、マツチ
ングすべき単語を限定することができ、計算量は
非常に少くなる。さらに、セグメンテーシヨン
は、少々間違つていても、DPマツチングにより
最適化された結果として正しいセグメンテーシヨ
ンおよび認識が行われ、セグメンテーシヨンの不
完全さに基づく誤認識を避けることができる。 以上のことから、本発明によれば、連続発声さ
れた単語を高精度に認識することが可能となり、
実用性の高い装置である。
うことを意味する。 ステツプ200は累積距離D〜(k)、バツクポインタ
B〜(k),Dn(k−1:k),Dn(k−2:k)の初期
化を行う部分である。 ステツプ201は第k母音中心における処理を示
しており、大きくわけて素片累積照合距離Dn
(k′:k)を求める部分202と単語累積照合距
離w(k′:k)を求める部分203と終端累積
距離D〜(k)、終端バツクポインタB〜(k)、最後尾単語
N〜(k)を求める部分219に分かれる。 ステツプ202はn=1,2,…,Nについて素
片累積照合距離Dn(k′:k)を求める部分であつ
て、第1図103で行う動作に対応する。ステツ
プ204,205はステツプ206における計算の初期値
を与える部分、ステツプ209はステツプ211におけ
る計算の初期値を与える部分、ステツプ210はベ
クトル間距離dn(i′,j)を計算する部分、ステ
ツプ211は格子点(i,j)における素片累製照
合距離の途中結果Dn(i′,j)を求めている。本
実施例では第2図bの径路の拘束条件の場合を示
している。ステツプ207はDn(k′,1)を素片累
積照合距離としてDn(k′:k)に置き換えてい
る。このDn(k′:k)が素片マツチング結果記憶
部109に記憶される。 ステツプ204〜ステツプ207はnがマツチングの
条件を満たす場合に限つて実行される。即ち、n
の先行母音をVf(n),nの後続母音をVr(n),第k
母音中心の母音認識結果をV(k)とするとき、V
(k−1)orV(k−2)=Vf(n),V(k)=Vr(n)かつ
k−1〜kあるいはk−2〜kの間の子音、無音
等の特徴が標準パターンRnの特徴と一致してい
る可能性があるときのみ実行される。 ステツプ207′は、 max(St(k)−2(Jn−1),1}St(k′)max
{St(k)−〔Jn/2〕,1} の場合にのみ実行される。 ステツプ203はw=1,2,…,Wについて単
語累積照合距離w(k′:k),wを最後尾単語と
するときの累積距離D〜w(k)、バツクポインタB〜w(k)
を計算する部分であつて、第1図の候補単語判定
部121、単語マツチング部106で行う動作に
対応する。 ステツプ203′は前記説明に従つて、DD(k′,
o)を求める部分であり、ステツプ203″は、DD
(k′,o)=0のときはw(k′:k)=(k′,
o),DD(k′,o)≠0のときはw(k′:k)=
∞とするものである。 ステツプ213はステツプ214の計算を行うに当つ
て初期化を行う部分である。ステツプ214は単語
wに対応する素片系列の最終素片s(w,Lw)か
ら、最初の素片から番目の素片までに対応す
る標準パターンの系列Rs(w,Lw),Rs(w,Lw-1),…
Rs(w, )と入力パターンの部分パターンaSt(k),aSt
(k)−1,aSt(k)−2,…,aSt(k′)との累積照合距
離を既に求めた素片累積照合距離から求める部分
である。ただし、ステツプ216の漸化式において、
s(w,)は先行母音V(k″)後続CVはwの第
1音節に等しいVCV音節である。ステツプ217,
217′は累積照合距離w(k′,1)あるいは∞を
単語累積照合距離w(k′:k)に代入する部分
である。このw(k′:k)は第1図単語マツチ
ング結果記憶部107に記憶される。ステツプ
218はwを最後尾単語とするときの累積距離D〜w
(k)、バツクポインタB〜w(k)を求める部分であある。 ステツプ219は第7図の終端累積距離計算部1
08で行う動作に対応しており、漸化式3を解い
て、D〜(k),N〜(k),B〜(k)を求める部分である。 ステツプ220,221は、ステツプ201で得られた
k=1,2,…,KについてのB〜(k),N〜(k)から認
識単語列を得る判定処理であつて、第7図のバツ
クポインタ記憶部110、セグメンテーシヨン部
114最後尾単語記憶部110で行う動作に対応
した処理を行つている。 発明の効果 本発明は、以上のように、CVやCCV音節のよ
うな音声素片を認識の単位としているので、標準
パターンの登録はいくら単語が増加してもこの音
声素片のみで済み、単語辞書はこれら素片名の系
列として表わされるので特徴ベクトルの系列とし
て記憶するのに比べて格段に少い記憶量で済み、
マツチングは前記各素片とのマツチングに費やさ
れるのがほとんどで、単語数がいくら増加しても
計算量の増加は僅かである。またDPマツチング
を行うに先立つて、母音中心、およびその認識結
果、子音、無音等に関して得られる情報のうち確
かなものを用いて、前記各素片のうちマツチング
すべき素片標準パターンを限定すること、マツチ
ングすべき単語を限定することができ、計算量は
非常に少くなる。さらに、セグメンテーシヨン
は、少々間違つていても、DPマツチングにより
最適化された結果として正しいセグメンテーシヨ
ンおよび認識が行われ、セグメンテーシヨンの不
完全さに基づく誤認識を避けることができる。 以上のことから、本発明によれば、連続発声さ
れた単語を高精度に認識することが可能となり、
実用性の高い装置である。
第1図は本発明の一実施例を示す図、第2図は
DPマツチングの原理を説明する図、第3図、第
4図は本発明の原理を説明する図、第5図、第6
図、第7図はそれぞれ、単語数未知の場合、単語
数既知の場合、オートマトン制御の場合に本発明
を適用した場合の認識方法の一部の動作を説明す
る図、第8図、第9図は本発明の実施例の要部の
原理を説明する図、第10図は本発明の原理をソ
フトウエア的に表現した図である。 100……音声信号入力端子、101……特徴
抽出部、102……音声素片標準パターン記憶
部、103……素片マツチング部、104……素
片マツチング結果記憶部105……単語辞書、1
06……単語マツチング部、107……単語マツ
チング結果記憶部、108……終端累積距離計算
部、109……終端累積距離記憶部、110……
バツクポインタ記憶部、111……最後尾単語記
憶部、112……音声区間検出部、113……フ
レーム数計数部、114……セグメンテーシヨン
部、115……認識結果出力端子、116……母
音標準パターン記憶部、117……母音認識部、
118……母音中心検出部、119……無音区間
検出・子音大分類部、120……特徴系列記憶
部、121……候補単語判定部。
DPマツチングの原理を説明する図、第3図、第
4図は本発明の原理を説明する図、第5図、第6
図、第7図はそれぞれ、単語数未知の場合、単語
数既知の場合、オートマトン制御の場合に本発明
を適用した場合の認識方法の一部の動作を説明す
る図、第8図、第9図は本発明の実施例の要部の
原理を説明する図、第10図は本発明の原理をソ
フトウエア的に表現した図である。 100……音声信号入力端子、101……特徴
抽出部、102……音声素片標準パターン記憶
部、103……素片マツチング部、104……素
片マツチング結果記憶部105……単語辞書、1
06……単語マツチング部、107……単語マツ
チング結果記憶部、108……終端累積距離計算
部、109……終端累積距離記憶部、110……
バツクポインタ記憶部、111……最後尾単語記
憶部、112……音声区間検出部、113……フ
レーム数計数部、114……セグメンテーシヨン
部、115……認識結果出力端子、116……母
音標準パターン記憶部、117……母音認識部、
118……母音中心検出部、119……無音区間
検出・子音大分類部、120……特徴系列記憶
部、121……候補単語判定部。
Claims (1)
- 1 単語・文節等を連続発声して得られる入力音
声信号を特徴ベクトルの系列に変換する特徴抽出
手段と、母音、子音あるいはそれらの結合したも
の等として定義される音声素片のそれぞれに対応
した特徴ベクトルの系列を前記音声素片名に対応
づけて記憶する標準パターン記憶手段と、入力パ
ターンに対して素片の境界を検出する素片境界候
補検出手段と、標準パターンのそれぞれと前記入
力パターンから検出された前記素片境界候補の任
意または定められた種々の組合せによつて決定さ
れる部分区間(第1の部分区間)とのマツチング
を行つて両者の距離(類似度)を計算する素片マ
ツチング手段と、認識されるべき各単語・文節等
を前記音声素片名の系列として表現した単語・文
節等を記憶する単語・文節辞書と、前記認識され
るべき各単語・文節と前記入力パターンの任意ま
たは定められた前記素片境界候補の種々の部分区
間(第2の部分区間)との距離(類似度)を、前
記単語・文節辞書によつて指定される素片名の系
列に対応するように、前記第2の部分区間に含ま
れる前記第1の部分区間群を隣り合う区間が連続
するように最適に定めることにより、前記第1の
各部分区間の始点と終点およびその部分区間の前
記素片名に対応する距離(類似度)の総和を最小
(最大)とし、得られる最小値(最大値)を各単
語・文節に対する前記第2の部分区間の距離とし
て出力する機能を有する単語・文節マツチング手
段と、前記第2の部分区間群を隣り合う区間が連
続するように最適に定めることにより、前記第2
の各部分区間の始点と終点およびその部分区間の
前記単語・文節名に対応する距離(類似度)の総
和を最小(最大)となし、そのときの単語・文節
列を認識結果として判定する連続単語・文節判定
手段とを備えたことを特徴とする連続音声認識装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59269955A JPS61148498A (ja) | 1984-12-21 | 1984-12-21 | 連続音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59269955A JPS61148498A (ja) | 1984-12-21 | 1984-12-21 | 連続音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS61148498A JPS61148498A (ja) | 1986-07-07 |
| JPH0566599B2 true JPH0566599B2 (ja) | 1993-09-22 |
Family
ID=17479541
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59269955A Granted JPS61148498A (ja) | 1984-12-21 | 1984-12-21 | 連続音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS61148498A (ja) |
-
1984
- 1984-12-21 JP JP59269955A patent/JPS61148498A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS61148498A (ja) | 1986-07-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
| US6236965B1 (en) | Method for automatically generating pronunciation dictionary in speech recognition system | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| JPWO2015118645A1 (ja) | 音声検索装置および音声検索方法 | |
| JPH07306691A (ja) | 不特定話者音声認識装置およびその方法 | |
| JP2955297B2 (ja) | 音声認識システム | |
| JPH0247760B2 (ja) | ||
| EP0103258B1 (en) | Pattern matching apparatus | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
| JPH0566599B2 (ja) | ||
| JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
| JPH0566598B2 (ja) | ||
| KR100560916B1 (ko) | 인식 후 거리를 이용한 음성인식 방법 | |
| JPH0464077B2 (ja) | ||
| JP3231365B2 (ja) | 音声認識装置 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JPH0534680B2 (ja) | ||
| KR100316776B1 (ko) | 연속 숫자음 인식 장치 및 그 방법 | |
| Stephenson | Speech recognition using phonetically featured syllables | |
| JP2721341B2 (ja) | 音声認識方法 | |
| JPS6180298A (ja) | 音声認識装置 | |
| JPS59173884A (ja) | パタ−ン比較装置 | |
| JPH0554678B2 (ja) | ||
| JPH01302295A (ja) | 単語位置検出方法及びその音素標準パターン作成方法 | |
| JPS60150098A (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |