JPH0552516B2 - - Google Patents
Info
- Publication number
- JPH0552516B2 JPH0552516B2 JP58048112A JP4811283A JPH0552516B2 JP H0552516 B2 JPH0552516 B2 JP H0552516B2 JP 58048112 A JP58048112 A JP 58048112A JP 4811283 A JP4811283 A JP 4811283A JP H0552516 B2 JPH0552516 B2 JP H0552516B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- word
- frame
- distance
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
産業上の利用分野
本発明は、特徴ベクトルの系列で表わされた複
数種類の標準パターンと入力パターンとの比較を
行い、入力パターンの識別を行うパターン比較装
置に関し、特に単語音声の認識等の適用可能なパ
ターン比較装置に関する。 従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、単語音声認識装置として特定話者登録方
式によるものが、実用化されている。即ち、認識
装置を使用しようとする話者が、予め、認識すべ
きすべての単語を自分の声で特徴ベクトルの系列
に変換したものとして単語辞書に標準パターンと
して登録しておき、認識時に発声された音声を、
同様に特徴ベクトルの系列に変換し、前記単語辞
書中のどの単語に最も近いかを予め定められた規
則によつて計算し、最も類似している単語を認識
結果とするものである。 ところが、この方法によると、認識すべき単語
数が少いときは良いが、数百、数千単語といつた
ように増加してくると、主として次の三つの問題
が無視し得なくなる。 (1) 前記登録における話者の負担が著しく増大す
る。 (2) 前記認識時に発声された音声と標準パターン
との類似度あるいは距離を計算するのに要する
時間が著しく増大し、認識装置の応答速度が遅
くなる。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 発明の目的 本発明は、以上の主として三つの問題点を解決
した新規のパターン比較装置を提供するものであ
る。 発明の構成 本発明は、単語音声を認識する場合、認識の基
本単位を単音節音声とし、各単音節音声を特徴ベ
クトルの系列で表したものを単音節標準パターン
として記憶しておき、各単語を各単音節を示すコ
ードの結合として記憶する単語辞書を設け、この
単語辞書をもとに各単語毎の単音節の結合の仕方
を知り、各単音節に対応する前記単音節標準パタ
ーンを形成する特徴ベクトルの結合を前記単語音
声の単語標準パターンとし、認識時に発声された
音声の特徴ベクトルの系列に変換された入力パタ
ーンがどの単語標準パターンに最も近いかを計算
し、最も類似している単語認識結果とするもので
ある。 このようにすれば日本語の場合、任意の単語は
単音節の結合で表し得るから、任意の単語の単語
標準パターンは単音節標準パターンの結合として
表すことができ、話者は、登録時に全単語を発声
する必要はなく、単音節のみ発声すればよいこと
になる。単音節の数は日本語の場合101種である
から、単語数が如何に増えようとも101種類の単
音節音声を登録するのみでよい。これで前記(1)の
問題は解決される。また、後述するように、最も
計算量を必要とするベクトル関距離は、前記単語
標準パターンのそれぞれとマツチングする度に求
める必要はなく、入力音声の各フレームについて
前記各単音節標準パターンに対して1回求めてお
けば良い。これは単語数がいくらか増加しても変
らないから、前記(2)の問題が解決されることにな
る。さらに、各単音節に対応する特徴ベクトルの
系列のみ記憶しておけば、単語辞書は各単語に対
応する単音節列を記号の列として記憶しておくだ
けで良いので、認識単語数が増加してもメモリの
増加量は少くて済み、前記(3)の問題も解決される
ことになる。いま、w番目の単語のl番目の単語
節名をq(w,l)、いくつかの単音節を連続して
発声したときの音声パターンをA=a1,a2……
aI,n番目の単音節の標準パターンをRn=bn 1bn 2…
…bn Jo,(ただし、w=1,2,……,W;l=
1,2,……,Lw;n=1,2,……,N;ai,
bn jはそれぞれ特徴ベクトル)とするとき、w番目
の単語の標準パターンwは w=Rq(w,1)Rq(w,2)……Rq(w,Lw) =bq(w,1) 1,bq(w,1) 2……bq(w,1) Jq(w,1)bq(w,2
) 1bq(w,2) 2……bq(w,2) Jq(w,2)……bq(w,Lw) 1bq(w,Lw) 2
……bq(w,Lw) Jq(w,Lw) で表わされる。ここではパターンの接続を表わ
す。 本発明のパターン比較装置は、このRwと入力
音声パターンAとの間でDPマツチングを実行し、
その際得られる両パターン間の距離D(A,Rw)
が最小となるようなwを見出すものである。 実施例の説明 第1図は本発明の第一の実施例を示すブロツク
図である。1は音声信号の入力端子、2は入力音
声信号を周波数分析、LPC分析、PARCOR分析、
相関分析等により幾つかの数値の組(特徴ベクト
ル)の系列に変換する特徴抽出部である。3は日
本語N単音節のn番目の単音節(n=1,2,…
…,N)について特徴抽出部2により特徴ベクト
ルの系列{bn j}に変換されたパターンRnを単音
節標準パターンとして認識に先立つて予め登録し
ておく単音節標準パターン記憶部である。4は特
徴抽出部2の出力から例えば各フレームにおける
電力を求め、その電力が予め定められた閾値を越
えている期間を以て音声区間と定める等周知の方
法によつて音声区間を検出する音声区間検出部で
ある。5は、音声区間が始つてから終るまでのフ
レーム数を計数するフレーム数計数部であつて、
端子6には現在のフレームが音声区間開始後何フ
レーム目であるかが出力される。7は、ベクトル
間距離計算部があつて、入力の第iフレーム目の
ベクトルaiとn番目の単音節標準パターンRnを構
成する各ベクトルbn jとの距離dn(i,j)をn=
1,2,……,N;j=1,2,……Jnについて
計算するベクトル間距離計算部である。ベクトル
間の距離の定義としては、最も簡単には市街地距
離である。すなわち、それぞれのベクトルをai=
(ai1,ai2,……,ain)、bn j=(bn j1,bn j2,……,
bn jn
とすれば、 dn(i,j)=o 〓k=1 |aik−bn jk| ……(1) となし得る。8はベクトル間距離記憶部であつ
て、ベクトル間距離計算部7で得られたベクトル
間距離dn(i,j)を記憶する。9は単語辞書で
あつて、認識すべき単語が各単音節を示すコード
の結合として記憶されている。10は累積距離記
憶部であつて次に説明する累積距離の計算に必要
なそれ以前の累積距離を記憶している。11は累
積距離計算部であつて、単語辞書9に記憶してい
るコード列をもとに各単語毎の単音節の結合の仕
方を知り、この結合の順序に従つてベクトル間距
離記憶部8に記憶されているベクトル間距離と累
積距離記憶部10に記憶されている累積距離とか
ら現フレームまでの累積距離を計算する累積距離
計算部である。この累積距離計算部11での計算
結果は累積距離記憶部10に記憶される。12は
判定部であつて、単語音声の入力が完了したとき
各単語について最終フレームの累積距離を累積距
離記憶部10から読み出し、それが最小である単
語を認識結果として判定する。13は認識結果の
出力端子である。 以上の構成における各部の動作を次により詳細
に説明する。この説明は第iフレームにおける動
作について行なう。 本実施例においては、DPマツチングの径路と
して第2図に示すものを採用した場合について説
明する。すなわち、この径路を採用した場合、入
力フレーム番号iを横軸に標準パターンのフレー
ム番号jを縦軸にとつた格子グラフトにおいて、
座標1,1から座標i,jまでの標準パターン
Rnの第1〜第jフレームの部分パターンと、入
力パターンAの第1〜第iフレームの部分パター
ンとの累積距離をDn(i,j)とするとき、次の
漸化式を満足する。 Dn(i,j)=dn(i,j)+minDn(i−2,j−
1+dn(i−1,j) Dn(i−1,j−1) Dn(i−1,j−2) ……(2) まず、特徴抽出部2の出力ベクトルaiと単音節
標準パターンを構成する全てのベクトルとの距離
がベクトル間距離計算部7で前記の如く計算さ
れ、ベクトル間距離記憶部8に記憶される。式(2)
を計算するのに必要なベクトル間距離は、dn(i,
j)とdn(i−1,j)であるから、ベクトル間
距離記憶部8は入力パターンの現フレームiと一
つ前のフレームi−1におけるベクトル間距離を
n=1,2……,N,j=1,2,……,Jnにつ
いて覚えておれば良い。累積距離計算部11は基
本的には式(2)の計算を行うのであるが、単語辞書
9により提示される単音節列に従つて計算され
る。今単語w(w=1,2,……,W)とマツチ
ングする場合について説明する。単語wはLwの
単音節から成るものとし、単語wのl番目の単音
節を(w,l)とし、単語wに対し、(w,1)
の座標(1,1)から(w,l)の座標(i,
j)までの累積距離D(w,l)(i,j)を直前の単音
節(w,l−1)までのマツチング結果の続きと
して計算し、 D(w,Lw)(I,JLw)を入力パターンと単語wのマツ
チング結果である累積距離とするものである。従
つて、第2図のマツチング径路を採用する場合、
単語wのl番目の単音節における累積距離は単語
wのl−1番目の単音節の最終2フレームまでの
累積距離が初期値となるから、式(2)の計算はj=
1,2と3jJq(w,1)の場合に分けて計算する
のがわかり易い。従つて、単音節(w,l)の単
音節名をq(w,l)とすると、
数種類の標準パターンと入力パターンとの比較を
行い、入力パターンの識別を行うパターン比較装
置に関し、特に単語音声の認識等の適用可能なパ
ターン比較装置に関する。 従来例の構成とその問題点 人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。 従来、単語音声認識装置として特定話者登録方
式によるものが、実用化されている。即ち、認識
装置を使用しようとする話者が、予め、認識すべ
きすべての単語を自分の声で特徴ベクトルの系列
に変換したものとして単語辞書に標準パターンと
して登録しておき、認識時に発声された音声を、
同様に特徴ベクトルの系列に変換し、前記単語辞
書中のどの単語に最も近いかを予め定められた規
則によつて計算し、最も類似している単語を認識
結果とするものである。 ところが、この方法によると、認識すべき単語
数が少いときは良いが、数百、数千単語といつた
ように増加してくると、主として次の三つの問題
が無視し得なくなる。 (1) 前記登録における話者の負担が著しく増大す
る。 (2) 前記認識時に発声された音声と標準パターン
との類似度あるいは距離を計算するのに要する
時間が著しく増大し、認識装置の応答速度が遅
くなる。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。 発明の目的 本発明は、以上の主として三つの問題点を解決
した新規のパターン比較装置を提供するものであ
る。 発明の構成 本発明は、単語音声を認識する場合、認識の基
本単位を単音節音声とし、各単音節音声を特徴ベ
クトルの系列で表したものを単音節標準パターン
として記憶しておき、各単語を各単音節を示すコ
ードの結合として記憶する単語辞書を設け、この
単語辞書をもとに各単語毎の単音節の結合の仕方
を知り、各単音節に対応する前記単音節標準パタ
ーンを形成する特徴ベクトルの結合を前記単語音
声の単語標準パターンとし、認識時に発声された
音声の特徴ベクトルの系列に変換された入力パタ
ーンがどの単語標準パターンに最も近いかを計算
し、最も類似している単語認識結果とするもので
ある。 このようにすれば日本語の場合、任意の単語は
単音節の結合で表し得るから、任意の単語の単語
標準パターンは単音節標準パターンの結合として
表すことができ、話者は、登録時に全単語を発声
する必要はなく、単音節のみ発声すればよいこと
になる。単音節の数は日本語の場合101種である
から、単語数が如何に増えようとも101種類の単
音節音声を登録するのみでよい。これで前記(1)の
問題は解決される。また、後述するように、最も
計算量を必要とするベクトル関距離は、前記単語
標準パターンのそれぞれとマツチングする度に求
める必要はなく、入力音声の各フレームについて
前記各単音節標準パターンに対して1回求めてお
けば良い。これは単語数がいくらか増加しても変
らないから、前記(2)の問題が解決されることにな
る。さらに、各単音節に対応する特徴ベクトルの
系列のみ記憶しておけば、単語辞書は各単語に対
応する単音節列を記号の列として記憶しておくだ
けで良いので、認識単語数が増加してもメモリの
増加量は少くて済み、前記(3)の問題も解決される
ことになる。いま、w番目の単語のl番目の単語
節名をq(w,l)、いくつかの単音節を連続して
発声したときの音声パターンをA=a1,a2……
aI,n番目の単音節の標準パターンをRn=bn 1bn 2…
…bn Jo,(ただし、w=1,2,……,W;l=
1,2,……,Lw;n=1,2,……,N;ai,
bn jはそれぞれ特徴ベクトル)とするとき、w番目
の単語の標準パターンwは w=Rq(w,1)Rq(w,2)……Rq(w,Lw) =bq(w,1) 1,bq(w,1) 2……bq(w,1) Jq(w,1)bq(w,2
) 1bq(w,2) 2……bq(w,2) Jq(w,2)……bq(w,Lw) 1bq(w,Lw) 2
……bq(w,Lw) Jq(w,Lw) で表わされる。ここではパターンの接続を表わ
す。 本発明のパターン比較装置は、このRwと入力
音声パターンAとの間でDPマツチングを実行し、
その際得られる両パターン間の距離D(A,Rw)
が最小となるようなwを見出すものである。 実施例の説明 第1図は本発明の第一の実施例を示すブロツク
図である。1は音声信号の入力端子、2は入力音
声信号を周波数分析、LPC分析、PARCOR分析、
相関分析等により幾つかの数値の組(特徴ベクト
ル)の系列に変換する特徴抽出部である。3は日
本語N単音節のn番目の単音節(n=1,2,…
…,N)について特徴抽出部2により特徴ベクト
ルの系列{bn j}に変換されたパターンRnを単音
節標準パターンとして認識に先立つて予め登録し
ておく単音節標準パターン記憶部である。4は特
徴抽出部2の出力から例えば各フレームにおける
電力を求め、その電力が予め定められた閾値を越
えている期間を以て音声区間と定める等周知の方
法によつて音声区間を検出する音声区間検出部で
ある。5は、音声区間が始つてから終るまでのフ
レーム数を計数するフレーム数計数部であつて、
端子6には現在のフレームが音声区間開始後何フ
レーム目であるかが出力される。7は、ベクトル
間距離計算部があつて、入力の第iフレーム目の
ベクトルaiとn番目の単音節標準パターンRnを構
成する各ベクトルbn jとの距離dn(i,j)をn=
1,2,……,N;j=1,2,……Jnについて
計算するベクトル間距離計算部である。ベクトル
間の距離の定義としては、最も簡単には市街地距
離である。すなわち、それぞれのベクトルをai=
(ai1,ai2,……,ain)、bn j=(bn j1,bn j2,……,
bn jn
とすれば、 dn(i,j)=o 〓k=1 |aik−bn jk| ……(1) となし得る。8はベクトル間距離記憶部であつ
て、ベクトル間距離計算部7で得られたベクトル
間距離dn(i,j)を記憶する。9は単語辞書で
あつて、認識すべき単語が各単音節を示すコード
の結合として記憶されている。10は累積距離記
憶部であつて次に説明する累積距離の計算に必要
なそれ以前の累積距離を記憶している。11は累
積距離計算部であつて、単語辞書9に記憶してい
るコード列をもとに各単語毎の単音節の結合の仕
方を知り、この結合の順序に従つてベクトル間距
離記憶部8に記憶されているベクトル間距離と累
積距離記憶部10に記憶されている累積距離とか
ら現フレームまでの累積距離を計算する累積距離
計算部である。この累積距離計算部11での計算
結果は累積距離記憶部10に記憶される。12は
判定部であつて、単語音声の入力が完了したとき
各単語について最終フレームの累積距離を累積距
離記憶部10から読み出し、それが最小である単
語を認識結果として判定する。13は認識結果の
出力端子である。 以上の構成における各部の動作を次により詳細
に説明する。この説明は第iフレームにおける動
作について行なう。 本実施例においては、DPマツチングの径路と
して第2図に示すものを採用した場合について説
明する。すなわち、この径路を採用した場合、入
力フレーム番号iを横軸に標準パターンのフレー
ム番号jを縦軸にとつた格子グラフトにおいて、
座標1,1から座標i,jまでの標準パターン
Rnの第1〜第jフレームの部分パターンと、入
力パターンAの第1〜第iフレームの部分パター
ンとの累積距離をDn(i,j)とするとき、次の
漸化式を満足する。 Dn(i,j)=dn(i,j)+minDn(i−2,j−
1+dn(i−1,j) Dn(i−1,j−1) Dn(i−1,j−2) ……(2) まず、特徴抽出部2の出力ベクトルaiと単音節
標準パターンを構成する全てのベクトルとの距離
がベクトル間距離計算部7で前記の如く計算さ
れ、ベクトル間距離記憶部8に記憶される。式(2)
を計算するのに必要なベクトル間距離は、dn(i,
j)とdn(i−1,j)であるから、ベクトル間
距離記憶部8は入力パターンの現フレームiと一
つ前のフレームi−1におけるベクトル間距離を
n=1,2……,N,j=1,2,……,Jnにつ
いて覚えておれば良い。累積距離計算部11は基
本的には式(2)の計算を行うのであるが、単語辞書
9により提示される単音節列に従つて計算され
る。今単語w(w=1,2,……,W)とマツチ
ングする場合について説明する。単語wはLwの
単音節から成るものとし、単語wのl番目の単音
節を(w,l)とし、単語wに対し、(w,1)
の座標(1,1)から(w,l)の座標(i,
j)までの累積距離D(w,l)(i,j)を直前の単音
節(w,l−1)までのマツチング結果の続きと
して計算し、 D(w,Lw)(I,JLw)を入力パターンと単語wのマツ
チング結果である累積距離とするものである。従
つて、第2図のマツチング径路を採用する場合、
単語wのl番目の単音節における累積距離は単語
wのl−1番目の単音節の最終2フレームまでの
累積距離が初期値となるから、式(2)の計算はj=
1,2と3jJq(w,1)の場合に分けて計算する
のがわかり易い。従つて、単音節(w,l)の単
音節名をq(w,l)とすると、
【表】
となる。ただし、初期条件は
D(w,0)(−1,0)=0
dq(w,1)(0,1)=0
D(w,0)(i,0)=∞
D(w,0)(i,−1)=∞
D(w,l)(−1,j)=∞
D(w,l)(0,j)=∞
Jq(w,0)=0
である。
以上の計算の結果は累積距離記憶部10に逐次
記憶されるが、式(2)あるいは第2図からも明らか
なように、第iフレームの計算を行うに必要な過
去の累積距離は第i−1フレームと第i−2フレ
ームの値だけであるから、累積距離記憶部10は
1つ前と2つ前のフレームの累積距離のみ記憶し
ておけばよい。 さらに以上のような計算の結果、各単語に対し
て第iフレームにおける介単語に対する最終値
D(w,Lw)(i,Jq(w,Lw))も累積距離記憶部10に記
憶される。以上第iフレームの処理について述べ
たが、フレーム数計数部5の計数値が以上のiを
設定している。従つて以上の処理はフレームが1
進む毎に行われ、音声区間が終了すなわちi=I
となると、累積距離記憶部10には各単語につい
ての最終の累積距離D(w,Lw)(I,Jq(w,Lw))が記憶
され、音声区間検出部4が音声の終了を検出する
と、このD(w,Lw)(I,Jq(w,Lw))がw=1,……,
Wについて読み出され、判定部12は w=argmin〔D(w,Lw)(I,Jq(w,Lw))〕 w を見出し、wを認識結果とする。ここで、 argmin〔f(x)〕はf(x)を最小にするxのこ
とを意味する。 第3図は、以上の実施例の動作をフローチヤー
トにしたものであつて、ソフトウエアで実現する
場合もこのフローチヤートに従えば良い。 ステツプ(100)〜(105)は初期化を行う部分
である。ステツプ(106)〜(115)は第iフレー
ムにおける処理を表し、ステツプ(107)〜
(109)はベクトル間距離を求める部分、ステツプ
(110)〜(115)は累積距離を求める部分であつ
て、ステツプ(111)は初期化を行う部分、ステ
ツプ(113)はj=1,2についての累積距離、
ステツプ(114)〜(115)は3jJq(w,l)につ
いての累積距離を求める部分である。ステツプ
(118)は最終的に単語として最も累積距離の小さ
い単語を判定する部分で、第1図判定部12で行
われる計算に相当する。 次に第2の実施例を説明する。これは、第1の
実施例の改良である。すなわち、単音節を連続さ
せたとき、単音節の境界付近のパターンは曖味に
なるので、標準パターンの各単音節の始端と終端
を自由にしてマツチングすること、言い換えれば
マツチングにおいて、始終端のフレームを適当に
とばしてマツチングすることを許すことにより、
より精度の高いマツチングを行うことが可能とな
る。これは、第1図において、累積距離計算部1
1での累積距離の求め方を少々変更することによ
つて簡単に実現できる。すなわち、累積距離計算
部11における漸化式の計算を次のように変更す
る。 標準パターンの単音節音声パターンの頭尾部に
おける端点自由区間をそれぞれδ1フレーム、δ2フ
レームとする。すなわち、各単音節標準パターン
nに対するマツチングの開始フレームを第1〜δ1
フレームの間のフレームとし、マツチングの終了
フレームを第Jn−δ2〜Jnフレームの間のフレーム
とし、それぞれの最適のフレームを選ぶ。この場
合もマツチング径路に第2図の拘束条件を採用す
るものとすれば累積距離D(w,l)(i,j)は次のよ
うに変更される。即ち、第l番目の単音節の累積
距離を求めるとき
記憶されるが、式(2)あるいは第2図からも明らか
なように、第iフレームの計算を行うに必要な過
去の累積距離は第i−1フレームと第i−2フレ
ームの値だけであるから、累積距離記憶部10は
1つ前と2つ前のフレームの累積距離のみ記憶し
ておけばよい。 さらに以上のような計算の結果、各単語に対し
て第iフレームにおける介単語に対する最終値
D(w,Lw)(i,Jq(w,Lw))も累積距離記憶部10に記
憶される。以上第iフレームの処理について述べ
たが、フレーム数計数部5の計数値が以上のiを
設定している。従つて以上の処理はフレームが1
進む毎に行われ、音声区間が終了すなわちi=I
となると、累積距離記憶部10には各単語につい
ての最終の累積距離D(w,Lw)(I,Jq(w,Lw))が記憶
され、音声区間検出部4が音声の終了を検出する
と、このD(w,Lw)(I,Jq(w,Lw))がw=1,……,
Wについて読み出され、判定部12は w=argmin〔D(w,Lw)(I,Jq(w,Lw))〕 w を見出し、wを認識結果とする。ここで、 argmin〔f(x)〕はf(x)を最小にするxのこ
とを意味する。 第3図は、以上の実施例の動作をフローチヤー
トにしたものであつて、ソフトウエアで実現する
場合もこのフローチヤートに従えば良い。 ステツプ(100)〜(105)は初期化を行う部分
である。ステツプ(106)〜(115)は第iフレー
ムにおける処理を表し、ステツプ(107)〜
(109)はベクトル間距離を求める部分、ステツプ
(110)〜(115)は累積距離を求める部分であつ
て、ステツプ(111)は初期化を行う部分、ステ
ツプ(113)はj=1,2についての累積距離、
ステツプ(114)〜(115)は3jJq(w,l)につ
いての累積距離を求める部分である。ステツプ
(118)は最終的に単語として最も累積距離の小さ
い単語を判定する部分で、第1図判定部12で行
われる計算に相当する。 次に第2の実施例を説明する。これは、第1の
実施例の改良である。すなわち、単音節を連続さ
せたとき、単音節の境界付近のパターンは曖味に
なるので、標準パターンの各単音節の始端と終端
を自由にしてマツチングすること、言い換えれば
マツチングにおいて、始終端のフレームを適当に
とばしてマツチングすることを許すことにより、
より精度の高いマツチングを行うことが可能とな
る。これは、第1図において、累積距離計算部1
1での累積距離の求め方を少々変更することによ
つて簡単に実現できる。すなわち、累積距離計算
部11における漸化式の計算を次のように変更す
る。 標準パターンの単音節音声パターンの頭尾部に
おける端点自由区間をそれぞれδ1フレーム、δ2フ
レームとする。すなわち、各単音節標準パターン
nに対するマツチングの開始フレームを第1〜δ1
フレームの間のフレームとし、マツチングの終了
フレームを第Jn−δ2〜Jnフレームの間のフレーム
とし、それぞれの最適のフレームを選ぶ。この場
合もマツチング径路に第2図の拘束条件を採用す
るものとすれば累積距離D(w,l)(i,j)は次のよ
うに変更される。即ち、第l番目の単音節の累積
距離を求めるとき
【表】
となる。
第4図はこの第2の実施例の動作をフローチヤ
ートにしたものであつて、第3図と同じ番号を付
したステツプは第3図と同様な処理を行つてい
る。ステツプ(117′)は、終端点自由の区間を Jq(w,l)−δ2〜Jq(w,l)としたので、l=1の場合の累
積距離の計算に現れてくる Dq(w,0)(i−1,Jq(w-0)−k)をk=0,1,2,
……,δ2にわたつて∞とするためのものである。
ステツプ(118)は単音節(w,l−1)の第i
−1フレームまでの累積距離を前記終端点自由区
間内の中で最小のものとして求める部分である。
ステツプ(119)はj=1,2のときの処理、ス
テツプ(120),(121)は3jδ1のときの処
理、ステツプ(122),(123)はδ1+1j
Jq(w,l)のときの処理を行う部分である。以上のよ
うにすることによつて、前記始端自由のマツチン
グを実現することができる。 以上のように第2の実施例では、単音節の結合
部の不安定な部分を適当に飛ばしてマツチングで
きるので、認識率の向上が図れたのであるが、よ
りきめの細かいマツチングを行うために重みを導
入する方法を提案する。即ち、通常のマツチング
においては、マツチングすべき全てのフレームを
一様な重みでマツチングを行つていることになる
が、それぞれのパターンにおいて、その特徴をよ
りよく表す重要な部分は大きな重みで、そうでな
い部分は小さな重みでマツチングすることによつ
て、互に距離的に近く従つて混同が起り易いパタ
ーンも十分に識別することができるようになる。 第5図は第1の実施例に重みを導入することに
より、より信頼性の高い認識装置として実現した
第3の実施例である。第1図に示す第一の実施例
と異る点は、重み計数記憶部14が加わり、累積
距離計算部11の動作がこの重み計数を用いて計
算する点である。第2図のマツチング径路を採用
するとき、各径路に対する重みは第6図に示すよ
うにすることができる。このように重み付を行う
と、n番目の標準パターンと入力パターンのマツ
チング径路をどのように選ぼうともその径路に沿
う重みの和は入力パターンのフレーム数をMとす
ると Jo 〓j=1 Hn(j)+M となりその標準パターンと入力パターンについて
一定となる。 累積距離計算部11における計算は次のように
なる。
ートにしたものであつて、第3図と同じ番号を付
したステツプは第3図と同様な処理を行つてい
る。ステツプ(117′)は、終端点自由の区間を Jq(w,l)−δ2〜Jq(w,l)としたので、l=1の場合の累
積距離の計算に現れてくる Dq(w,0)(i−1,Jq(w-0)−k)をk=0,1,2,
……,δ2にわたつて∞とするためのものである。
ステツプ(118)は単音節(w,l−1)の第i
−1フレームまでの累積距離を前記終端点自由区
間内の中で最小のものとして求める部分である。
ステツプ(119)はj=1,2のときの処理、ス
テツプ(120),(121)は3jδ1のときの処
理、ステツプ(122),(123)はδ1+1j
Jq(w,l)のときの処理を行う部分である。以上のよ
うにすることによつて、前記始端自由のマツチン
グを実現することができる。 以上のように第2の実施例では、単音節の結合
部の不安定な部分を適当に飛ばしてマツチングで
きるので、認識率の向上が図れたのであるが、よ
りきめの細かいマツチングを行うために重みを導
入する方法を提案する。即ち、通常のマツチング
においては、マツチングすべき全てのフレームを
一様な重みでマツチングを行つていることになる
が、それぞれのパターンにおいて、その特徴をよ
りよく表す重要な部分は大きな重みで、そうでな
い部分は小さな重みでマツチングすることによつ
て、互に距離的に近く従つて混同が起り易いパタ
ーンも十分に識別することができるようになる。 第5図は第1の実施例に重みを導入することに
より、より信頼性の高い認識装置として実現した
第3の実施例である。第1図に示す第一の実施例
と異る点は、重み計数記憶部14が加わり、累積
距離計算部11の動作がこの重み計数を用いて計
算する点である。第2図のマツチング径路を採用
するとき、各径路に対する重みは第6図に示すよ
うにすることができる。このように重み付を行う
と、n番目の標準パターンと入力パターンのマツ
チング径路をどのように選ぼうともその径路に沿
う重みの和は入力パターンのフレーム数をMとす
ると Jo 〓j=1 Hn(j)+M となりその標準パターンと入力パターンについて
一定となる。 累積距離計算部11における計算は次のように
なる。
【表】
【表】
【表】
によつて、すなわち、各単語の最終フレームまで
の累積類似度をその単語についての重みの総和で
割つたものが最小となる単語が認識結果となる
(Iはすべての単語に対して共通であるから省略
できる。)。このとき、各単音節についての重み和 Jo 〓j=1 Hn(j)が一定となるようにしておけば、I
もすべての標準パターン(単語)とマツチングす
る間一定であるから、wは次のようにして求める
ことができる。 w=argmin w〔Dq(w,Lw)(I,Jq(w,Lw)))/Lw〕 第7図は、第3の実施例の動作をフローチヤー
トに示したものである。ステツプ(200)〜
(201)は前以てdn(1,1)を求めておく部分で
ある。ステツプ(202)〜(207)は漸化式を計算
する場合の初期値を設定する部分である。ステツ
プ(207)でi=1のときの処理は完了するので、
ステツプ(208)〜(217)はi=2以後の処理で
ある。ステツプ(209)〜(211)は入力のフレー
ムiにおけるベクトル間距離をすべての単音節に
対して求めておく部分である。ステツプ(212)
〜(217)は各単語wについて累積距離 D(w,Lw)(I,Jq(w,Lw))を求める部分である。ステ
ツプ(213)はそのときの初期値を与える部分で
ある。ステツプ(214)〜(217)は単語wのl番
目の単音節について累積距離を計算する部分であ
つて、ステツプ(215)は各単音節に対してj=
1,2の場合、ステツプ(216)〜(217)は3
jJq(w,l)の場合について累積距離を計算してい
る。ステツプ(218)は判定部12に相当すると
ころであつて、前述した通りである。 以上、第1〜第3の実施例においてはマツチン
グ径路の拘束条件として第2図に示すものを用い
たが、その他第9図a〜dに示すような種々の径
路を考えることができる。このとき、各径路に対
する重みは、比較すべき標準パターンと入力パタ
ーンを固定したときそのマツチング径路に沿う重
みの和が径路の選び方によらないようにすれば良
いのであつて重みの決め方の一例を第8図に示
す。Hn(j)=0とすれば各径路の重みが1の通
常の場合になる。 また以上の実施例においては標準パターンとし
て単音節音声のパターンを登録する場合について
述べたが、これを単誤音声のパターンとすれば全
く同様にして連続単語音声の認識を行うようにす
ることもできる。特に連続のさせ方が予め定まつ
ている場合に有効である。 また、単音節の代りに,VCV(母音+子音+母
音)のパターンを標準パターンとしてもつてお
き、その結合として単語の標準パターンを構成す
るようにしておけば、より自然な発声の入力音声
に対して認識率の向上が図れる。 第3の実施例では、マツチングの径路に沿う重
みの総和が径路によらず単音節毎に一定になるよ
うにして説明したが、これは単語全体として一定
になるようにしても良いのは勿論である。 また、第2の実施例の始終端点自由のマツチン
グに第3の実施例で説明したような重み付の方法
を導入することも当然考えられる。これを行うに
は始終端点自由の区間に対する重みHn(j)を零
とすることで簡単に実現できる。 さらに、実施例では音声信号に対する場合につ
いてのみ述べたが、基本パターンの連続として構
成されているパターンを認識する場合で、その基
本パターンの連続のさせ方が何通りか予め定まつ
ているような場合は、標準パターンとして前記基
本パターンを準備しておけば、本実施例と同様に
して前記連続パターンを認識できる。 発明の効果 本発明によれば、大語彙単語の特定話者登録方
式による認識装置の持つていた問題点 (1) 標準パターン登録時の話者の負担が大きい。 (2) 標準パターンと入力パターンとのマツチング
に時間がかかり認識装置の応答が遅くなる。 (3) 標準パターンを記憶するメモリが膨大にな
る。 等を一挙に解決することができたものである。ま
た、始終端点自由や重みの導入により認識率を向
上させることも可能となつたものである。
の累積類似度をその単語についての重みの総和で
割つたものが最小となる単語が認識結果となる
(Iはすべての単語に対して共通であるから省略
できる。)。このとき、各単音節についての重み和 Jo 〓j=1 Hn(j)が一定となるようにしておけば、I
もすべての標準パターン(単語)とマツチングす
る間一定であるから、wは次のようにして求める
ことができる。 w=argmin w〔Dq(w,Lw)(I,Jq(w,Lw)))/Lw〕 第7図は、第3の実施例の動作をフローチヤー
トに示したものである。ステツプ(200)〜
(201)は前以てdn(1,1)を求めておく部分で
ある。ステツプ(202)〜(207)は漸化式を計算
する場合の初期値を設定する部分である。ステツ
プ(207)でi=1のときの処理は完了するので、
ステツプ(208)〜(217)はi=2以後の処理で
ある。ステツプ(209)〜(211)は入力のフレー
ムiにおけるベクトル間距離をすべての単音節に
対して求めておく部分である。ステツプ(212)
〜(217)は各単語wについて累積距離 D(w,Lw)(I,Jq(w,Lw))を求める部分である。ステ
ツプ(213)はそのときの初期値を与える部分で
ある。ステツプ(214)〜(217)は単語wのl番
目の単音節について累積距離を計算する部分であ
つて、ステツプ(215)は各単音節に対してj=
1,2の場合、ステツプ(216)〜(217)は3
jJq(w,l)の場合について累積距離を計算してい
る。ステツプ(218)は判定部12に相当すると
ころであつて、前述した通りである。 以上、第1〜第3の実施例においてはマツチン
グ径路の拘束条件として第2図に示すものを用い
たが、その他第9図a〜dに示すような種々の径
路を考えることができる。このとき、各径路に対
する重みは、比較すべき標準パターンと入力パタ
ーンを固定したときそのマツチング径路に沿う重
みの和が径路の選び方によらないようにすれば良
いのであつて重みの決め方の一例を第8図に示
す。Hn(j)=0とすれば各径路の重みが1の通
常の場合になる。 また以上の実施例においては標準パターンとし
て単音節音声のパターンを登録する場合について
述べたが、これを単誤音声のパターンとすれば全
く同様にして連続単語音声の認識を行うようにす
ることもできる。特に連続のさせ方が予め定まつ
ている場合に有効である。 また、単音節の代りに,VCV(母音+子音+母
音)のパターンを標準パターンとしてもつてお
き、その結合として単語の標準パターンを構成す
るようにしておけば、より自然な発声の入力音声
に対して認識率の向上が図れる。 第3の実施例では、マツチングの径路に沿う重
みの総和が径路によらず単音節毎に一定になるよ
うにして説明したが、これは単語全体として一定
になるようにしても良いのは勿論である。 また、第2の実施例の始終端点自由のマツチン
グに第3の実施例で説明したような重み付の方法
を導入することも当然考えられる。これを行うに
は始終端点自由の区間に対する重みHn(j)を零
とすることで簡単に実現できる。 さらに、実施例では音声信号に対する場合につ
いてのみ述べたが、基本パターンの連続として構
成されているパターンを認識する場合で、その基
本パターンの連続のさせ方が何通りか予め定まつ
ているような場合は、標準パターンとして前記基
本パターンを準備しておけば、本実施例と同様に
して前記連続パターンを認識できる。 発明の効果 本発明によれば、大語彙単語の特定話者登録方
式による認識装置の持つていた問題点 (1) 標準パターン登録時の話者の負担が大きい。 (2) 標準パターンと入力パターンとのマツチング
に時間がかかり認識装置の応答が遅くなる。 (3) 標準パターンを記憶するメモリが膨大にな
る。 等を一挙に解決することができたものである。ま
た、始終端点自由や重みの導入により認識率を向
上させることも可能となつたものである。
第1図は本発明の第1の実施例におけるパター
ン比較装置のブロツク図、第2図はDPマツチン
グ径路を示す図、第3図は第1の実施例における
動作を示すフロチヤート、第4図は第2の実施例
における動作を示すフローチヤート、第5図は本
発明の第3の実施例におけるパターン比較装置の
ブロツク図、第6図は各径路における重み付けを
示す図、第7図は第3の実施例の動作を示すフロ
ーチヤート、第8図は各種重み付けの例を示す
図、第9図a〜dは各種径路を示す図である。 2……特徴抽出部、3……単音節標準パターン
記憶部、9……単語辞書、11……累積距離計算
部、12……判定部。
ン比較装置のブロツク図、第2図はDPマツチン
グ径路を示す図、第3図は第1の実施例における
動作を示すフロチヤート、第4図は第2の実施例
における動作を示すフローチヤート、第5図は本
発明の第3の実施例におけるパターン比較装置の
ブロツク図、第6図は各径路における重み付けを
示す図、第7図は第3の実施例の動作を示すフロ
ーチヤート、第8図は各種重み付けの例を示す
図、第9図a〜dは各種径路を示す図である。 2……特徴抽出部、3……単音節標準パターン
記憶部、9……単語辞書、11……累積距離計算
部、12……判定部。
Claims (1)
- 【特許請求の範囲】 1 入力信号を特徴ベクトルの系列a1,a2,…
…,aIに変換する特徴抽出手段と、特徴ベクトル
の系列からなる第n標準パターン Ro=bn 1,bn 2,……,bn jo (ただし、nはその種類数をNとするとき、n
∈{1,2,……,N}) を記憶する標準パターン記憶手段と、この標準パ
ターンの結合によつて出来る結合パターン(以
後、この結合パターンの名称をw∈{1,2,…
…,W}で表し、各wを単語と呼ぶ)を、前記n
の配列によつて表現したものを記憶する単語辞書
と、単語wに対応する前記標準パターンの結合パ
ターン Rq(w,1)Rq(w,2)……Rq(w,Lw) (ただし、q(w,k)は、単語w∈{1,2,
……,W}を構成するLw個の標準パターンの
中の、k∈{1,2,……,Lw}番目の標準
パターン名、はパターンの結合を表す) と前記入力パターンa1,a2,……,aIとの距離
(類似度)を前記標準パターンの結合パターンを
構成する特徴ベクトルbq(w,k) jと前記入力パターン
を構成する特徴ベクトルaiとの組合せからなる関
数として動的計画法により最小(最大)化したも
のとして求める累積距離(類似度)計算手段と、
この累積距離(類似度)が最小(最大)になる前
記単語を見出す判定手段とを備え、前記累積距離
(類似度)計算手段は、標準パターンRnの第jフ
レームbojと入力パターンの第iフレームaiとの距
離(類似度)do(i,j)をn=1,……,N、
j=1,……,Joについて計算するベクトル間距
離(類似度)計算手段と、単語wを形成するk番
目の標準パターンを(w,k)とするとき、(w,
1)の最初のフレームから(w,k)の第jフレ
ームまでの部分パターンと、入力パターンの第1
フレームから第iフレームまでの部分パターンと
の累積距離(類似度)D(w,k)(i,j)を、フレー
ムi毎に、k=1,……,Lw,j=1,……,
Jq(w,k)について、前記算出されたdn(i,j)を用
いて、直前の標準パターン(w,k−1)までの
マツチング結果の続きとして算出する中間累積距
離(類似度)算出手段を含み、D(w,Lw)(I,
Jq(w,Lw))を単語wに対する標準パターン列と前記
入力パターンとの距離(類似度)とすることを特
徴とするパターン比較装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58048112A JPS59173884A (ja) | 1983-03-22 | 1983-03-22 | パタ−ン比較装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58048112A JPS59173884A (ja) | 1983-03-22 | 1983-03-22 | パタ−ン比較装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59173884A JPS59173884A (ja) | 1984-10-02 |
| JPH0552516B2 true JPH0552516B2 (ja) | 1993-08-05 |
Family
ID=12794226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58048112A Granted JPS59173884A (ja) | 1983-03-22 | 1983-03-22 | パタ−ン比較装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59173884A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62217297A (ja) * | 1986-03-19 | 1987-09-24 | 富士通株式会社 | 単語音声認識装置 |
| JP4834399B2 (ja) * | 2005-12-21 | 2011-12-14 | 東芝エレベータ株式会社 | 乗場ドア装置の仮吊部材、仮吊部材を用いた乗場ドア装置及び乗場ドア据付方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS597998A (ja) * | 1982-07-06 | 1984-01-17 | 日本電気株式会社 | 連続音声認識装置 |
-
1983
- 1983-03-22 JP JP58048112A patent/JPS59173884A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59173884A (ja) | 1984-10-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
| US5165007A (en) | Feneme-based Markov models for words | |
| JP6437581B2 (ja) | 話者適応型の音声認識 | |
| JPH07306691A (ja) | 不特定話者音声認識装置およびその方法 | |
| JPH06102899A (ja) | 音声認識装置 | |
| Paliwal | Lexicon-building methods for an acoustic sub-word based speech recognizer | |
| CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
| JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
| JPH0247760B2 (ja) | ||
| GB2240203A (en) | Automated speech recognition system | |
| JPH0552516B2 (ja) | ||
| JPH0827638B2 (ja) | 音素を単位とした音声認識装置 | |
| JP2019219598A (ja) | 音声認識装置、音声認識方法及びプログラム | |
| JP3231365B2 (ja) | 音声認識装置 | |
| JP3291073B2 (ja) | 音声認識方式 | |
| JPS60164800A (ja) | 音声認識装置 | |
| JP2862306B2 (ja) | 音声認識装置 | |
| An et al. | A Study on Speech Recognition using DMS Model | |
| JP2574242B2 (ja) | 音声入力装置 | |
| JPH04271397A (ja) | 音声認識装置 | |
| JP3009962B2 (ja) | 音声認識装置 | |
| JPH0827640B2 (ja) | 音声認識装置 | |
| JPH0247757B2 (ja) | ||
| MomayyezSiahkal | Integration of multiple feature sets for reducing ambiguity in automatic speech recognition | |
| JPH0638198B2 (ja) | 連続音声認識装置 |