JPH0251519B2

JPH0251519B2 -

Info

Publication number: JPH0251519B2
Application number: JP58047623A
Authority: JP
Inventors: Yasuo Sato; Takayuki Fujimoto; Koji Tajima; Mitsuo Furumura; Hiroo Tanaka; Takahisa Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-22
Filing date: 1983-03-22
Publication date: 1990-11-07
Also published as: JPS59172693A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、連続して発声した複数の単語音声を
認識処理する方法に関し、特に、単語認識のため
の入力音声パターンと標準パターンとのマツチン
グ処理において、組み合わされる標準パターンの
隣接する端部同士の間に、一定範囲内での重複あ
るいは離隔した関係を許容することにより、最適
な連続単語認識を可能にする音声認識処理方法に
関する。

〔技術の背景〕

従来の連続単語音声認識方法としては、２段
D.Pマツチング法がある。これは入力パターンと
すべての標準パターン系列とのマツチングを動的
計画法を用いて行なうとき、第１図に示すよう
に、入力パターンＣ中に存在するものとしたとき
の各単語に対応する標準パターン系列Aⁿ⁽¹⁾，
Aⁿ⁽²⁾，…が照合される入力パターンＣ中の各部
分パターンＣ（ｂ(i)，ｅ(i)）の始点ｂ(i)を、その
単語より先に発声されたとされる単語に対応する
標準パターンが照合される部分パターンＣ（ｂ（ｉ
−１），ｅ（ｉ−１））の終点ｅ（ｉ−１）の次の点
に固定する、すなわちｂ(i)＝ｅ（ｉ−１）＋１とい
う条件を課す方法である。

しかしながら、このような単純な条件では、連
続して単語を発声した場合に、単語境界で生じる
調音結合や単語長の短縮化、さらに無音区間など
の影響による入力パターンの種々の変化に十分対
応できず、そのため認識やセグメンテーシヨンの
誤りを引き起こす欠点があつた。

〔発明の目的〕

本発明の目的は、調音結合や単語長の短縮化、
さらに無音区間などの影響による入力パターンの
種々の変化に柔軟に対応して、標準パターンが照
合される入力パターンの部分パターンの始点と終
点の位置を決定することにより、認識やセグメン
テーシヨンの誤りを減らすことにある。

〔発明の要点〕

本発明は、標準パターン系列を入力パターンの
各部分パターンにマツチングさせるとき、隣り合
う２つの部分パターンに共通部分をもたせること
により、単語境界における調音結合や単語境界に
共通部分があるような、単語長が短縮されている
場合が認識処理上考慮できることを利用して、認
識やセグメンテーシヨンの誤りを減らすものであ
る。

本発明はまた、標準パターン系列を入力パター
ンの各部分パターンにマツチングさせるとき、隣
り合う２つの部分パターンの間に標準パターンに
照合されない部分をもたせることにより、単語境
界における調音結合や無音区間の影響をとりのぞ
くことができることを利用して、認識やセグメン
テーシヨンの誤りを減らすものである。

そしてそのための構成として、本発明は、複数
個の単語を連続して発声した未知入力音声を分析
して得られた音響的特徴を表す入力パターンの各
部分に、前以つて記憶しておいた単語音声の標準
パターンを必要な個数だけマツチングさせるた
め、該マツチングに於て、各隣合う標準パターン
の端部同士がその境界で離隔している場合と重複
している場合とのいずれか一方または双方との場
合を対象に行ない、それに依り入力パターンとの
距離が最小となる標準パターン系列をもとめ、得
られた標準パターン系列に対応する単語系列を認
識結果として出力することを特徴とする連続単語
音声認識方法に於て、入力パターン系列と標準パターン系列との距離
が、入力パターンの各部分と標準パターンの部分
距離の総和を、部分距離を求める際の入力部分パ
ターン長または径路長の総和によつて正規化した
ものであることを特徴としている。

〔発明の実施例〕

はじめに、本発明の基礎となつていて、、かつ
改良が意図されている従来の２段DPマツチング
法による連続単語音声認識処理システムについて
説明する。図面は第１図が参照される。

認識の対象となる単語がＮ個あり、そのｎ番目
の単語の標準パターンAⁿがつぎのように特徴ベ
クトルの時系列で表わされるものとする。

Aⁿ＝（〓ⁿ ₁，〓ⁿ ₂，…，〓ⁿ _P1，…，〓ⁿ _Jo），ｎ＝１，２，…，Ｎ (1) ここで、〓ⁿ _PはＭ次元ベクトルとする。すなわ
ち、〓ⁿ _P＝（aⁿ _P1，aⁿ _P2，…，aⁿ _PM），Ｐ＝１，２，…，Jⁿ (2) とする。また入力パターンＣは、１個の特徴ベク
トル（〓_qを用いて、Ｃ＝（〓₁，〓₂，…，〓_q，…，〓_I） (3) で表わされるものとする。ここで、〓_qは、〓_q＝（C_q1，C_q2，…，C_qM），ｑ＝１，２，…，Ｉ
(4) とする。

入力パターンＣとｋ個の単語の標準パターン系
列Aⁿ⁽¹⁾，Aⁿ⁽²⁾，…，An^(k)との間の距離Ｓを、つ
ぎのように定義する。

Ｓ＝_k 〓ⁱ⁼¹ Ｄ（Ｃ（ｂ(i)，ｅ(i)），Aⁿ⁽¹⁾） (5) ここで、Ｃ（ｂ(i)，ｅ(i)）は、標準パターンAⁿ⁽¹⁾
が照合される入力パターンのｉ番目の部分パター
ンであつて、第１図に示すように、ｂ(i)からｅ(i)
までの特徴ベクトルにより表わされ、Ｃ（ｂ(i)，ｅ(i)）＝（〓_b(i)，〓_b(i)+1，…，〓_e(i)）， (6) １≦ｂ(i)≦ｅ(i)≦Ｉで定義される。またＤ（Ｃ（ｂ(i)，ｅ(i)），Aⁿ⁽ⁱ⁾）
は、部分パターンＣ（ｂ(i)，ｅ(i)）と標準パター
ンAⁿ⁽ⁱ⁾との間の距離であつて、Ｄ（Ｃ（ｂ(i)，ｅ(i)），Aⁿ⁽ⁱ⁾）＝min_k 〓ⁱ⁼¹ _e(i) 〓^j=j(l)l=b(i) ｄ（〓_l，〓ⁿ⁽ⁱ⁾ _j） (7) で定義される。ここで、ｄ（〓_l，〓ⁿ⁽ⁱ⁾ _j）は特徴ベ
クトル〓_lおよび〓ⁿ⁽ⁱ⁾ _j間の距離であつて、ｄ（〓_l，〓ⁿ⁽ⁱ⁾ _j）＝_M 〓^m=1 ｜C_ln−aⁿ⁽ⁱ⁾ _jn｜ (8) で定義される。また(7)式中のｌとｊとの対応関係
を示す関数ｊ(l)には、つぎのような条件が仮定さ
れる。

ｊ（ｌ＋１）∈｛ｊ(l)，ｊ(l)＋１，ｊ(l)＋２｝
(9) ｊ（ｂ(i)）＝１，ｊ（ｅ(i)＝Jⁿ⁽ⁱ⁾ (10) ｌ−ｂ(i)＋１−Ｒ≦ｊ(l)≦ｊ(l)−ｂ(i)＋１＋Ｒ（Ｒはある正の定数） (11) さらに部分パターンＣ（ｂ(i)，ｅ(i)）の始点ｂ
(i)と終点ｅ(i)に対しては、ｋを連続する標準パタ
ーン数すなわち部分パターン数として、つぎのよ
うな条件を仮定する。

ｂ(i)＝ｅ（ｉ−１）＋１，ｉ＝２，３，…，ｋｂ(1)＝１，ｅ(k)＝Ｉ (13) （13）の条件は、第１図にしたがつて既に述べ
たように、任意の相隣る２つの部分パターンの端
点が、連続して配置されていることを表わしてい
る。

以上が、従来の連続単語音声認識方法の概要で
ある。

本発明の原理は、相隣る２つの部分パターンの
端部に対する条件（13）を変更して、両方の端部
同士について、一定範囲内での重複（重なり合
い）と離隔の関係を認めることにより、入力パタ
ーンの単語境界に関しての多様さに対して、認識
性能の改善を図るものである。

相隣る２つの部分パターンの端部同士間に、予
め定められた長さＰ以下の範囲での重複を認める
場合の条件は、次の通りである。

ｅ（ｉ−１）＋１−Ｐ≦ｂ(i)≦ｅ（ｉ−１）＋１
(13)′ ｉ＝２，３，…，ｋ第２図は、この条件の下での部分パターンと標
準パターンとのマツチングの例を示したものであ
る。

また、相隣る２つの部分パターンの端部同士間
に、予め定められた長さＱ以下の範囲での離隔を
認める場合の条件は、次の通りである。

ｅ（ｉ−１）＋１≦ｂ(i)≦ｅ（ｉ−１）＋１＋Ｑ
(13)″ ｉ＝２，３，…，ｋ第３図は、この条件にもとづくパターンマツチ
ングの例である。

更に上記Ｐの範囲の重複と、Ｑの範囲の離隔を
ともに認める場合の条件は、（13）′および
（13）″を合成することにより得られ、次のように
表わされる。

ｅ（ｉ−１）＋１−Ｐ≦ｂ(i)≦ｅ（ｉ−１）＋１＋
Ｑ (13) ｉ＝２，３，…，ｋ第４図は、この条件にもとづくパターンマツチ
ングの例である。

本発明は、隣接する２つの部分パターンの端部
に対する上記した条件（13）′，（13）″，（13）
のいずれかのもとで、入力パターンと標準パター
ン系列との間の距離(5)式を最小にするような、
ｋ，｛ｎ(i)，ｂ(i)，ｅ(i)，ｉ＝１，２，…，ｋ｝
を求め、それらを認識結果とするものである。た
だし、標準パターン数すなわち部分パターン数ｋ
は１≦ｋ≦Ｋ（Ｋはある定数）であり、ｎ(i)は選
択された標準パターンの番号を示す。

２段DP法やLB法などの従来の連続音声の認識
システムでは、未知入力パターンの始点ｂフレー
ムから終点ｅフレームまでの部分パターンと標準
パターンAⁿとDP距離を、(7)式のＤ（Ｃ（ｂ，ｅ），
Aⁿ）として第１図のマツチング方法により、Ｓ＝ min^k _k 〓ⁱ⁼¹ min^e(i) minⁿ Ｄ（ｃ（ｅ（ｉ−１）＋１，ｅ(i)）Aⁿ） (14) （ｅ（Ｏ）＝Ｏ，ｅ(k)＝Ｉ（入力の最
終フレーム）を求め、このＳを与えるような、標準パターン系
列を、認識結果とするものが多い。これに対して
本発明では（14）式を改良し、標準パターンの結
合に、部分的な重複と離隔の関係を許した式を使
用する。

次式はその１例である。

Ｓ＝ min^k _k 〓ⁱ⁼¹ min^e(i) min min ｅ（ｉ−１）＋１−Ｐ＜ｂ（ｉ）＜ｅ（ｉ−１）＋１＋
Ｑ minⁿ Ｄ（ｃ（ｂ(i)，ｅ(i)）），Aⁿ） (15) この式は、入力パターンをｋ個に分割し、その
部分パターンC_iの終点ｅ(i)を固定し、始点ｂ(i)
を、ｅ（ｉ−１）＋１−Ｐとｅ（ｉ−１）＋１＋Ｑの
範囲で変化させて、最小のDP距離を与える標準
パターンAⁿとそれらｋ個の最小距離の総和を求
め、この総和についてさらに異なる入力パターン
の分割数ｈについて最小値を求めることを表わし
ている。

第５図は、本発明による連続単語音声認識処理
の基本的な流れを示す図である。１の入力パター
ンは、２で部分パターンに分割され、それぞれ、
３の標準パターンとの間で４の距離計算Ｄ（Ｃ
（ｂ，ｅ），Aⁿ）が行なわれる。５の最小値計算
では、 D^（ｂ，ｅ）＝ min ｂ−Ｐb′ｂ＋Ｑ minⁿ Ｄ（Ｃ（b′，ｅ），Aⁿ） (16) を計算し、最小距離D^（ｂ，ｅ）を与える標準パ
ターンAⁿのｎをN^（ｂ，ｅ）として記憶する。６
の類似計算では、Ｓ（０，０）＝Ｏを初期値として、次の漸化式を
求める。

Ｓ（ｋ，ｉ）＝ min^j 〔Ｓ（ｋ−１，ｊ）＋D^（ｊ＋１，ｉ）〕 (17) このとき、同時に、（ｋ，ｉ）を与える。ｊをj^
（ｋ，ｉ）として記憶する。またN^′（ｋ，ｉ）＝N^
（ｊ＋１，ｉ）として記憶する。Ｓ（ｋ，ｉ）が、
全てのｋ，ｉに対して求まつたところで、 k₀＝ argmin^k Ｓ（ｋ，Ｉ） (18) ｋ＝k₀＝，ｉ＝Ｉを初期値として、 N_k＝N^′（ｈ，ｉ） (19) 次に、ｉ＝j^（ｋ，ｉ）ｋ＝ｋ−１として、（19）から繰り返し、ｋ＝０となつたら
終了する。結局、N₁，N₂，N₃，…，N_k0が７の
認識結果となる。

ところで、上述した（15）式を用いた認識処理
方式によれば、、各入力部分パターンと標準パタ
ーンとの間の照合区間の和は、入力部分パターン
間の重複、離隔により、通常は入力パターン長に
一致しない。他方DP距離は、一般に照合区間が
短いものほど小さくなる傾向を示すから、認識に
脱落を生じやすい欠点がある。

たとえば、第６図に例示するように、パターン
長Ｉの入力パターンの部分パターンC_i-1，C_i，
C_i+1と標準パターンA^n-1，Aⁿ，Aⁿ⁺¹との間で照
合が行なわれたとき、重複区間δ₁と離隔区間δ₂が
存在していれば、、多くの場合C_i-1，C_i，C_i+1の照
合区間長の総和Ｈは、パターン長Ｉと異なつてい
る。図ではＩ＜Ｈの場合を示しているが、離隔区
間が多くなると、Ｉ＞Ｈの状態になる。

そこで、各部分パターンと標準パターンとの間
のDP距離の総和を、照合区間長の総和Ｈで正規
化することにより、上記した欠点を解決すること
ができる。

なお、照合区間長の総和Ｈの代りに、径路
R_i-1，R_i，R_i+1の総和を使用して正規化しても、
ほぼ同様の効果を得ることができる。

照合区間長の総和による正規化処理方法につい
て説明すると、（15）式の代りに次式を使用する。

Ｓ＝ min^k １／Ｌ_k 〓ⁱ⁼¹ min^e(i) min min ｅ（ｉ−１）＋１−Ｐ＜ｂ（ｉ）＜ｅ（ｉ−１）＋１＋
Ｑ minⁿ Ｄ（ｃ（ｂ(i)，ｅ(i)）），Aⁿ）
(20) ただし、Ｌは照合区間長の総和であり、Ｌ＝_k 〓ⁱ⁼¹ ｛ｅ(i)−ｂ(i)＋１｝ (21) で表わされる。

計算処理は、まずＤ（ｌ，ｍ，ｎ）≡Ｄ（Ｃ（ｌ，
ｍ），Aⁿ）を求めておき、次に最小距離D^（ｌ，
ｍ）とそのときの標準パターンAⁿの番号N^（ｌ，
ｍ）を、 D^（ｌ，ｍ）＝ minⁿ Ｄ（ｌ，ｍ，ｎ） (22) N^（ｌ，ｍ）＝ argminⁿ Ｄ（ｌ，ｍ，ｎ） (23) で求めて、それぞれ記憶する。

次に、Ｔ（ｉ，１，０）＝D^（１，ｉ）１
ｉＴ）を初期値として、Ｔ（ｍ，ｋ，δ）＝ min^j min min 〓′｛Ｔ（ｊ，ｋ−１，δ＋δ′）＋D^（ｊ＋δ′＋１
，ｍ）｝(24) （１ｊｍ，−Ｐδ′Ｑ，ｊ＋δ′＜ｍ，−Ｐ・
（ｈ−２）δ＋δ′Ｑ・（ｈ−２））を求める。ただし、ｍ，ｋ，δの範囲は、｛１ｍＩ，２ｋkmax， −Ｐ・（ｋ−１）δＱ・（ｋ−１）である。

（24）式を求める際、同時に、Ｂ（ｍ，ｋ，δ）＝ argmin^j 〔 min min 〓′｛Ｔ（ｊ，ｋ−１，δ＋δ′）＋D^（ｊ＋δ′＋１
，ｍ）｝〕(25) △（ｍ，ｈ，δ）＝δ＋ argmin 〓′〔 min min^j ｛Ｔ（ｊ，ｋ−１，δ＋δ′）＋D^（ｊ＋δ′＋１，
ｍ）｝〕(26) を求めて、記憶しておく。

最小正規化累積距離は、 min^h min 〓Ｔ（Ｉ，ｋ，δ）／（Ｉ＋δ） (27) で与えられる。

さらに、 k₀＝ argmin^h min 〓Ｔ（Ｉ，ｈ，δ）／Ｉ＋δ (28) δ₀＝ argmin 〓Ｔ（Ｉ，h₀，δ）／Ｉ＋δ (29) とする。

ｉ＝Ｉ，ｋ＝k₀，δ＝δ₀を初期値として、 N_k＝N^（Ｂ（ｉ，ｋ，δ）＋１，ｉ） (30) とし、次にｉ，δを同時に、以下のように置き換
える。

ｉ←Ｂ（ｉ，ｋ，δ） δ←△（ｉ，ｋ，δ）さらに、ｋ←ｋ−１とし、（30）式から繰り返し、N₁が求まつたとこ
ろで中止する。このようにして、N₁，N₂，N₃，
…，N_k0 が認識結果として得られる。

第７図に本発明の方法を応用した場合の認識結
果の１例を示す。同図において、入力音声は／
949／であり、２６，２７，２８，２９，３０，
３１は本発明方法による正しい認識結果／949／
と、入力パターンのセグメンテーシヨンを示して
いる。２７と２８で表わされた標準パターンの重
なりは調音結合に対する効果を示し、２９と３０
で表わされた標準パターンの引き離しは、無音区
間に対する効果を示している。３２，３３，３
４，３５は、２段DPマツチング法による誤つた
認識結果／99／と入力パターンのセグメンテーシ
ヨンを示している。

なお、本実施例においては、特徴ベクトル間の
距離として、(8)式が用いられているが、他の距離
尺度を用いてもよい。また特徴ベクトル間の対応
を示す関数ｊ(l)についての条件(9)〜(11)式およびパ
ターン間距離Ｄ（Ｃ（ｂ，ｅ），Aⁿ）の計算法につ
いても他の種々の方法が考えられ、これらは本発
明の範囲を限定するものではない。

〔発明の効果〕

本発明によれば、連続単語音声中の単語境界で
の調音結合や単語長の短縮化、さらに無音区間な
どの影響による認識や、セグメンテーシヨンの誤
りを減少させることができる。

【図面の簡単な説明】

第１図は従来方法による入力パターンの各部分
パターンと標準パターンとのマツチングの方法を
説明する図であり、第２図乃至第４図は本発明方
法における入力パターンの各部分パターンと標準
パターンとのマツチングの方法を説明する図であ
り、第５図は本発明の実施例における処理の概要
図、第６図は照合区間長あるいは径路長の総和を
用いた正規化処理の説明図、第７図は音声認識処
理の実例を示す図である。図中、Ｃは入力音声パターン、Ｃ（ｂ(1)，ｅ(1)）
乃至Ｃ（ｂ(k)，ｅ(k)）はその部分パターン、ｂ(1)
乃至ｂ(k)は各部分パターンの始点、ｅ(1)乃至ｅ(k)
は終点、Aⁿ⁽¹⁾乃至A^n(k)は標準パターン、ｎは標
準パターン番号、ｋは部分パターン数すなわち単
語数を表わす。

Claims

【特許請求の範囲】１複数個の単語を連続して発声した未知入力音
声を分析して得られた音響的特徴を表す入力パタ
ーンの各部分に、前以つて記憶しておいた単語音
声の標準パターンを必要な個数だけマツチングさ
せるため、該マツチングに於て、各隣合う標準パ
ターンの端部同士がその境界で離隔している場合
と重複している場合とのいずれか一方または双方
との場合を対象に行ない、それに依り入力パター
ンとの距離が最小となる標準パターン系列をもと
め、得られた標準パターン系列に対応する単語系
列を認識結果として出力することを特徴とする連
続単語音声認識方法に於て、入力パターン系列と標準パターン系列との距離
が、入力パターンの各部分と標準パターンの部分
距離の総和を、部分距離を求める際の入力部分パ
ターン長の総和によつて正規化したものであるこ
とを特徴とする連続単語音声認識方法。２複数個の単語を連続して発声した未知入力音
声を分析して得られた音響的特徴を表す入力パタ
ーンの各部分に、前以つて記憶しておいた単語音
声の標準パターンを必要な個数だけマツチングさ
せるため、該マツチングに於て、各隣合う標準パ
ターンの端部同士がその境界で離隔している場合
と重複している場合とのいずれか一方または双方
との場合を対象に行ない、それに依り入力パター
ンとの距離が最小となる標準パターン系列をもと
め、得られた標準パターン系列に対応する単語系
列を認識結果として出力することを特徴とする連
続単語音声認識方法に於て、入力パターン系列と標準パターン系列との距離
が、入力パターンの各部分と標準パターンの部分
距離の総和を、部分距離を求める際の径路長の総
和によつて正規化したものであることを特徴とす
る連続単語音声認識方法。