JPH0251519B2 - - Google Patents

Info

Publication number
JPH0251519B2
JPH0251519B2 JP58047623A JP4762383A JPH0251519B2 JP H0251519 B2 JPH0251519 B2 JP H0251519B2 JP 58047623 A JP58047623 A JP 58047623A JP 4762383 A JP4762383 A JP 4762383A JP H0251519 B2 JPH0251519 B2 JP H0251519B2
Authority
JP
Japan
Prior art keywords
pattern
input
standard
standard pattern
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58047623A
Other languages
English (en)
Other versions
JPS59172693A (ja
Inventor
Yasuo Sato
Takayuki Fujimoto
Koji Tajima
Mitsuo Furumura
Hiroo Tanaka
Takahisa Kimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58047623A priority Critical patent/JPS59172693A/ja
Publication of JPS59172693A publication Critical patent/JPS59172693A/ja
Publication of JPH0251519B2 publication Critical patent/JPH0251519B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、連続して発声した複数の単語音声を
認識処理する方法に関し、特に、単語認識のため
の入力音声パターンと標準パターンとのマツチン
グ処理において、組み合わされる標準パターンの
隣接する端部同士の間に、一定範囲内での重複あ
るいは離隔した関係を許容することにより、最適
な連続単語認識を可能にする音声認識処理方法に
関する。
〔技術の背景〕
従来の連続単語音声認識方法としては、2段
D.Pマツチング法がある。これは入力パターンと
すべての標準パターン系列とのマツチングを動的
計画法を用いて行なうとき、第1図に示すよう
に、入力パターンC中に存在するものとしたとき
の各単語に対応する標準パターン系列An(1)
An(2),…が照合される入力パターンC中の各部
分パターンC(b(i),e(i))の始点b(i)を、その
単語より先に発声されたとされる単語に対応する
標準パターンが照合される部分パターンC(b(i
−1),e(i−1))の終点e(i−1)の次の点
に固定する、すなわちb(i)=e(i−1)+1とい
う条件を課す方法である。
しかしながら、このような単純な条件では、連
続して単語を発声した場合に、単語境界で生じる
調音結合や単語長の短縮化、さらに無音区間など
の影響による入力パターンの種々の変化に十分対
応できず、そのため認識やセグメンテーシヨンの
誤りを引き起こす欠点があつた。
〔発明の目的〕
本発明の目的は、調音結合や単語長の短縮化、
さらに無音区間などの影響による入力パターンの
種々の変化に柔軟に対応して、標準パターンが照
合される入力パターンの部分パターンの始点と終
点の位置を決定することにより、認識やセグメン
テーシヨンの誤りを減らすことにある。
〔発明の要点〕
本発明は、標準パターン系列を入力パターンの
各部分パターンにマツチングさせるとき、隣り合
う2つの部分パターンに共通部分をもたせること
により、単語境界における調音結合や単語境界に
共通部分があるような、単語長が短縮されている
場合が認識処理上考慮できることを利用して、認
識やセグメンテーシヨンの誤りを減らすものであ
る。
本発明はまた、標準パターン系列を入力パター
ンの各部分パターンにマツチングさせるとき、隣
り合う2つの部分パターンの間に標準パターンに
照合されない部分をもたせることにより、単語境
界における調音結合や無音区間の影響をとりのぞ
くことができることを利用して、認識やセグメン
テーシヨンの誤りを減らすものである。
そしてそのための構成として、本発明は、複数
個の単語を連続して発声した未知入力音声を分析
して得られた音響的特徴を表す入力パターンの各
部分に、前以つて記憶しておいた単語音声の標準
パターンを必要な個数だけマツチングさせるた
め、該マツチングに於て、各隣合う標準パターン
の端部同士がその境界で離隔している場合と重複
している場合とのいずれか一方または双方との場
合を対象に行ない、それに依り入力パターンとの
距離が最小となる標準パターン系列をもとめ、得
られた標準パターン系列に対応する単語系列を認
識結果として出力することを特徴とする連続単語
音声認識方法に於て、 入力パターン系列と標準パターン系列との距離
が、入力パターンの各部分と標準パターンの部分
距離の総和を、部分距離を求める際の入力部分パ
ターン長または径路長の総和によつて正規化した
ものであることを特徴としている。
〔発明の実施例〕
はじめに、本発明の基礎となつていて、、かつ
改良が意図されている従来の2段DPマツチング
法による連続単語音声認識処理システムについて
説明する。図面は第1図が参照される。
認識の対象となる単語がN個あり、そのn番目
の単語の標準パターンAnがつぎのように特徴ベ
クトルの時系列で表わされるものとする。
An=(〓n 1,〓n 2,…,〓n P1,…,〓n Jo), n=1,2,…,N (1) ここで、〓n PはM次元ベクトルとする。すなわ
ち、 〓n P=(an P1,an P2,…,an PM), P=1,2,…,Jn (2) とする。また入力パターンCは、1個の特徴ベク
トル(〓qを用いて、 C=(〓1,〓2,…,〓q,…,〓I) (3) で表わされるものとする。ここで、〓qは、 〓q=(Cq1,Cq2,…,CqM),q=1,2,…,I
(4) とする。
入力パターンCとk個の単語の標準パターン系
列An(1),An(2),…,An(k)との間の距離Sを、つ
ぎのように定義する。
S=ki=1 D(C(b(i),e(i)),An(1)) (5) ここで、C(b(i),e(i))は、標準パターンAn(1)
が照合される入力パターンのi番目の部分パター
ンであつて、第1図に示すように、b(i)からe(i)
までの特徴ベクトルにより表わされ、 C(b(i),e(i)) =(〓b(i),〓b(i)+1,…,〓e(i)), (6) 1≦b(i)≦e(i)≦I で定義される。またD(C(b(i),e(i)),An(i)
は、部分パターンC(b(i),e(i))と標準パター
ンAn(i)との間の距離であつて、 D(C(b(i),e(i)),An(i))=minki=1 e(i)j=j(l)l=b(i) d(〓l,〓n(i) j) (7) で定義される。ここで、d(〓l,〓n(i) j)は特徴ベ
クトル〓lおよび〓n(i) j間の距離であつて、 d(〓l,〓n(i) j)=Mm=1 |Cln−an(i) jn| (8) で定義される。また(7)式中のlとjとの対応関係
を示す関数j(l)には、つぎのような条件が仮定さ
れる。
j(l+1)∈{j(l),j(l)+1,j(l)+2}
(9) j(b(i))=1,j(e(i)=Jn(i) (10) l−b(i)+1−R≦j(l)≦j(l)−b(i)+1+R (Rはある正の定数) (11) さらに部分パターンC(b(i),e(i))の始点b
(i)と終点e(i)に対しては、kを連続する標準パタ
ーン数すなわち部分パターン数として、つぎのよ
うな条件を仮定する。
b(i)=e(i−1)+1,i=2,3,…,k b(1)=1,e(k)=I (13) (13)の条件は、第1図にしたがつて既に述べ
たように、任意の相隣る2つの部分パターンの端
点が、連続して配置されていることを表わしてい
る。
以上が、従来の連続単語音声認識方法の概要で
ある。
本発明の原理は、相隣る2つの部分パターンの
端部に対する条件(13)を変更して、両方の端部
同士について、一定範囲内での重複(重なり合
い)と離隔の関係を認めることにより、入力パタ
ーンの単語境界に関しての多様さに対して、認識
性能の改善を図るものである。
相隣る2つの部分パターンの端部同士間に、予
め定められた長さP以下の範囲での重複を認める
場合の条件は、次の通りである。
e(i−1)+1−P≦b(i)≦e(i−1)+1
(13)′ i=2,3,…,k 第2図は、この条件の下での部分パターンと標
準パターンとのマツチングの例を示したものであ
る。
また、相隣る2つの部分パターンの端部同士間
に、予め定められた長さQ以下の範囲での離隔を
認める場合の条件は、次の通りである。
e(i−1)+1≦b(i)≦e(i−1)+1+Q
(13)″ i=2,3,…,k 第3図は、この条件にもとづくパターンマツチ
ングの例である。
更に上記Pの範囲の重複と、Qの範囲の離隔を
ともに認める場合の条件は、(13)′および
(13)″を合成することにより得られ、次のように
表わされる。
e(i−1)+1−P≦b(i)≦e(i−1)+1+
Q (13) i=2,3,…,k 第4図は、この条件にもとづくパターンマツチ
ングの例である。
本発明は、隣接する2つの部分パターンの端部
に対する上記した条件(13)′,(13)″,(13)
のいずれかのもとで、入力パターンと標準パター
ン系列との間の距離(5)式を最小にするような、
k,{n(i),b(i),e(i),i=1,2,…,k}
を求め、それらを認識結果とするものである。た
だし、標準パターン数すなわち部分パターン数k
は1≦k≦K(Kはある定数)であり、n(i)は選
択された標準パターンの番号を示す。
2段DP法やLB法などの従来の連続音声の認識
システムでは、未知入力パターンの始点bフレー
ムから終点eフレームまでの部分パターンと標準
パターンAnとDP距離を、(7)式のD(C(b,e),
An)として第1図のマツチング方法により、 S= mink ki=1 mine(i) minn D(c(e(i−1)+1,e(i))An) (14) (e(O)=O,e(k)=I(入力の最
終フレーム) を求め、このSを与えるような、標準パターン系
列を、認識結果とするものが多い。これに対して
本発明では(14)式を改良し、標準パターンの結
合に、部分的な重複と離隔の関係を許した式を使
用する。
次式はその1例である。
S= mink ki=1 mine(i) min min e(i−1)+1−P<b(i)<e(i−1)+1+
Q minn D(c(b(i),e(i))),An) (15) この式は、入力パターンをk個に分割し、その
部分パターンCiの終点e(i)を固定し、始点b(i)
を、e(i−1)+1−Pとe(i−1)+1+Qの
範囲で変化させて、最小のDP距離を与える標準
パターンAnとそれらk個の最小距離の総和を求
め、この総和についてさらに異なる入力パターン
の分割数hについて最小値を求めることを表わし
ている。
第5図は、本発明による連続単語音声認識処理
の基本的な流れを示す図である。1の入力パター
ンは、2で部分パターンに分割され、それぞれ、
3の標準パターンとの間で4の距離計算D(C
(b,e),An)が行なわれる。5の最小値計算
では、 D^(b,e)= min b−Pb′b+Q minn D(C(b′,e),An) (16) を計算し、最小距離D^(b,e)を与える標準パ
ターンAnのnをN^(b,e)として記憶する。6
の類似計算では、 S(0,0)=Oを初期値として、次の漸化式を
求める。
S(k,i)= minj 〔S(k−1,j)+D^(j+1,i)〕 (17) このとき、同時に、(k,i)を与える。jをj^
(k,i)として記憶する。またN^′(k,i)=N^
(j+1,i)として記憶する。S(k,i)が、
全てのk,iに対して求まつたところで、 k0= argmink S(k,I) (18) k=k0=,i=Iを初期値として、 Nk=N^′(h,i) (19) 次に、 i=j^(k,i) k=k−1 として、(19)から繰り返し、k=0となつたら
終了する。結局、N1,N2,N3,…,Nk0が7の
認識結果となる。
ところで、上述した(15)式を用いた認識処理
方式によれば、、各入力部分パターンと標準パタ
ーンとの間の照合区間の和は、入力部分パターン
間の重複、離隔により、通常は入力パターン長に
一致しない。他方DP距離は、一般に照合区間が
短いものほど小さくなる傾向を示すから、認識に
脱落を生じやすい欠点がある。
たとえば、第6図に例示するように、パターン
長Iの入力パターンの部分パターンCi-1,Ci
Ci+1と標準パターンAn-1,An,An+1との間で照
合が行なわれたとき、重複区間δ1と離隔区間δ2
存在していれば、、多くの場合Ci-1,Ci,Ci+1の照
合区間長の総和Hは、パターン長Iと異なつてい
る。図ではI<Hの場合を示しているが、離隔区
間が多くなると、I>Hの状態になる。
そこで、各部分パターンと標準パターンとの間
のDP距離の総和を、照合区間長の総和Hで正規
化することにより、上記した欠点を解決すること
ができる。
なお、照合区間長の総和Hの代りに、径路
Ri-1,Ri,Ri+1の総和を使用して正規化しても、
ほぼ同様の効果を得ることができる。
照合区間長の総和による正規化処理方法につい
て説明すると、(15)式の代りに次式を使用する。
S= mink 1/Lki=1 mine(i) min min e(i−1)+1−P<b(i)<e(i−1)+1+
Q minn D(c(b(i),e(i))),An
(20) ただし、Lは照合区間長の総和であり、 L=ki=1 {e(i)−b(i)+1} (21) で表わされる。
計算処理は、まずD(l,m,n)≡D(C(l,
m),An)を求めておき、次に最小距離D^(l,
m)とそのときの標準パターンAnの番号N^(l,
m)を、 D^(l,m)= minn D(l,m,n) (22) N^(l,m)= argminn D(l,m,n) (23) で求めて、それぞれ記憶する。
次に、T(i,1,0)=D^(1,i) 1
) を初期値として、 T(m,k,δ)= minj min min 〓′{T(j,k−1,δ+δ′)+D^(j+δ′+1
,m)}(24) (1jm,−Pδ′Q,j+δ′<m,−P・
(h−2)δ+δ′Q・(h−2)) を求める。ただし、m,k,δの範囲は、 {1mI,2kkmax, −P・(k−1)δQ・(k−1) である。
(24)式を求める際、同時に、 B(m,k,δ)= argminj 〔 min min 〓′{T(j,k−1,δ+δ′)+D^(j+δ′+1
,m)}〕(25) △(m,h,δ)=δ+ argmin 〓′〔 min minj {T(j,k−1,δ+δ′)+D^(j+δ′+1,
m)}〕(26) を求めて、記憶しておく。
最小正規化累積距離は、 minh min 〓T(I,k,δ)/(I+δ) (27) で与えられる。
さらに、 k0= argminh min 〓T(I,h,δ)/I+δ (28) δ0= argmin 〓T(I,h0,δ)/I+δ (29) とする。
i=I,k=k0,δ=δ0を初期値として、 Nk=N^(B(i,k,δ)+1,i) (30) とし、次にi,δを同時に、以下のように置き換
える。
i←B(i,k,δ) δ←△(i,k,δ) さらに、 k←k−1 とし、(30)式から繰り返し、N1が求まつたとこ
ろで中止する。このようにして、N1,N2,N3
…,Nk0 が認識結果として得られる。
第7図に本発明の方法を応用した場合の認識結
果の1例を示す。同図において、入力音声は/
949/であり、26,27,28,29,30,
31は本発明方法による正しい認識結果/949/
と、入力パターンのセグメンテーシヨンを示して
いる。27と28で表わされた標準パターンの重
なりは調音結合に対する効果を示し、29と30
で表わされた標準パターンの引き離しは、無音区
間に対する効果を示している。32,33,3
4,35は、2段DPマツチング法による誤つた
認識結果/99/と入力パターンのセグメンテーシ
ヨンを示している。
なお、本実施例においては、特徴ベクトル間の
距離として、(8)式が用いられているが、他の距離
尺度を用いてもよい。また特徴ベクトル間の対応
を示す関数j(l)についての条件(9)〜(11)式およびパ
ターン間距離D(C(b,e),An)の計算法につ
いても他の種々の方法が考えられ、これらは本発
明の範囲を限定するものではない。
〔発明の効果〕
本発明によれば、連続単語音声中の単語境界で
の調音結合や単語長の短縮化、さらに無音区間な
どの影響による認識や、セグメンテーシヨンの誤
りを減少させることができる。
【図面の簡単な説明】
第1図は従来方法による入力パターンの各部分
パターンと標準パターンとのマツチングの方法を
説明する図であり、第2図乃至第4図は本発明方
法における入力パターンの各部分パターンと標準
パターンとのマツチングの方法を説明する図であ
り、第5図は本発明の実施例における処理の概要
図、第6図は照合区間長あるいは径路長の総和を
用いた正規化処理の説明図、第7図は音声認識処
理の実例を示す図である。 図中、Cは入力音声パターン、C(b(1),e(1))
乃至C(b(k),e(k))はその部分パターン、b(1)
乃至b(k)は各部分パターンの始点、e(1)乃至e(k)
は終点、An(1)乃至An(k)は標準パターン、nは標
準パターン番号、kは部分パターン数すなわち単
語数を表わす。

Claims (1)

  1. 【特許請求の範囲】 1 複数個の単語を連続して発声した未知入力音
    声を分析して得られた音響的特徴を表す入力パタ
    ーンの各部分に、前以つて記憶しておいた単語音
    声の標準パターンを必要な個数だけマツチングさ
    せるため、該マツチングに於て、各隣合う標準パ
    ターンの端部同士がその境界で離隔している場合
    と重複している場合とのいずれか一方または双方
    との場合を対象に行ない、それに依り入力パター
    ンとの距離が最小となる標準パターン系列をもと
    め、得られた標準パターン系列に対応する単語系
    列を認識結果として出力することを特徴とする連
    続単語音声認識方法に於て、 入力パターン系列と標準パターン系列との距離
    が、入力パターンの各部分と標準パターンの部分
    距離の総和を、部分距離を求める際の入力部分パ
    ターン長の総和によつて正規化したものであるこ
    とを特徴とする連続単語音声認識方法。 2 複数個の単語を連続して発声した未知入力音
    声を分析して得られた音響的特徴を表す入力パタ
    ーンの各部分に、前以つて記憶しておいた単語音
    声の標準パターンを必要な個数だけマツチングさ
    せるため、該マツチングに於て、各隣合う標準パ
    ターンの端部同士がその境界で離隔している場合
    と重複している場合とのいずれか一方または双方
    との場合を対象に行ない、それに依り入力パター
    ンとの距離が最小となる標準パターン系列をもと
    め、得られた標準パターン系列に対応する単語系
    列を認識結果として出力することを特徴とする連
    続単語音声認識方法に於て、 入力パターン系列と標準パターン系列との距離
    が、入力パターンの各部分と標準パターンの部分
    距離の総和を、部分距離を求める際の径路長の総
    和によつて正規化したものであることを特徴とす
    る連続単語音声認識方法。
JP58047623A 1983-03-22 1983-03-22 連続単語音声認識方法 Granted JPS59172693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58047623A JPS59172693A (ja) 1983-03-22 1983-03-22 連続単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58047623A JPS59172693A (ja) 1983-03-22 1983-03-22 連続単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS59172693A JPS59172693A (ja) 1984-09-29
JPH0251519B2 true JPH0251519B2 (ja) 1990-11-07

Family

ID=12780335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58047623A Granted JPS59172693A (ja) 1983-03-22 1983-03-22 連続単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS59172693A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61180295A (ja) * 1985-02-05 1986-08-12 富士通株式会社 連続音節認識方法
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
JP6597048B2 (ja) * 2015-08-21 2019-10-30 ヤマハ株式会社 アライメント装置およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5972578A (ja) * 1982-10-19 1984-04-24 Matsushita Electric Ind Co Ltd パタ−ン比較装置
JPS59124387A (ja) * 1982-12-29 1984-07-18 富士通株式会社 連続単語音声認識方法

Also Published As

Publication number Publication date
JPS59172693A (ja) 1984-09-29

Similar Documents

Publication Publication Date Title
US5651094A (en) Acoustic category mean value calculating apparatus and adaptation apparatus
US4882759A (en) Synthesizing word baseforms used in speech recognition
EP0049283A1 (en) CONTINUOUS SPEECH RECOGNITION SYSTEM.
US4910783A (en) Method and apparatus for comparing patterns
JPH0251519B2 (ja)
JP2570448B2 (ja) 標準パターン学習方法
JPH0436400B2 (ja)
JPH0251518B2 (ja)
US5956677A (en) Speech recognizer having a speech data memory storing speech data and a reference pattern memory storing partial symbol trains of words for recognition
JPS59161782A (ja) パタ−ン・マツチング方法
JP3353334B2 (ja) 音声認識装置
JPS62144200A (ja) 連続音声認識装置
JPS62173498A (ja) 音声認識装置
JPH0228160B2 (ja)
JP2577891B2 (ja) 単語音声予備選択装置
JPS59198A (ja) パタ−ン比較装置
JP3011984B2 (ja) パターン照合方法
JP3097134B2 (ja) Dpマッチング法
JPS5975298A (ja) 音声認識方法
JPS646514B2 (ja)
JPH0554678B2 (ja)
JPH0449954B2 (ja)
JPH04281496A (ja) 音声認識装置のパターンマッチング装置
JPS62111295A (ja) 音声認識装置
JPH07175493A (ja) 連続音声認識方法