JPH0552516B2

JPH0552516B2 -

Info

Publication number: JPH0552516B2
Application number: JP58048112A
Authority: JP
Inventors: Seiichi Nakagawa; Hidekazu Tsuboka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-03-22
Filing date: 1983-03-22
Publication date: 1993-08-05
Also published as: JPS59173884A

Description

【発明の詳細な説明】

産業上の利用分野本発明は、特徴ベクトルの系列で表わされた複
数種類の標準パターンと入力パターンとの比較を
行い、入力パターンの識別を行うパターン比較装
置に関し、特に単語音声の認識等の適用可能なパ
ターン比較装置に関する。従来例の構成とその問題点人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。従来、単語音声認識装置として特定話者登録方
式によるものが、実用化されている。即ち、認識
装置を使用しようとする話者が、予め、認識すべ
きすべての単語を自分の声で特徴ベクトルの系列
に変換したものとして単語辞書に標準パターンと
して登録しておき、認識時に発声された音声を、
同様に特徴ベクトルの系列に変換し、前記単語辞
書中のどの単語に最も近いかを予め定められた規
則によつて計算し、最も類似している単語を認識
結果とするものである。ところが、この方法によると、認識すべき単語
数が少いときは良いが、数百、数千単語といつた
ように増加してくると、主として次の三つの問題
が無視し得なくなる。 (1) 前記登録における話者の負担が著しく増大す
る。 (2) 前記認識時に発声された音声と標準パターン
との類似度あるいは距離を計算するのに要する
時間が著しく増大し、認識装置の応答速度が遅
くなる。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。発明の目的本発明は、以上の主として三つの問題点を解決
した新規のパターン比較装置を提供するものであ
る。発明の構成本発明は、単語音声を認識する場合、認識の基
本単位を単音節音声とし、各単音節音声を特徴ベ
クトルの系列で表したものを単音節標準パターン
として記憶しておき、各単語を各単音節を示すコ
ードの結合として記憶する単語辞書を設け、この
単語辞書をもとに各単語毎の単音節の結合の仕方
を知り、各単音節に対応する前記単音節標準パタ
ーンを形成する特徴ベクトルの結合を前記単語音
声の単語標準パターンとし、認識時に発声された
音声の特徴ベクトルの系列に変換された入力パタ
ーンがどの単語標準パターンに最も近いかを計算
し、最も類似している単語認識結果とするもので
ある。このようにすれば日本語の場合、任意の単語は
単音節の結合で表し得るから、任意の単語の単語
標準パターンは単音節標準パターンの結合として
表すことができ、話者は、登録時に全単語を発声
する必要はなく、単音節のみ発声すればよいこと
になる。単音節の数は日本語の場合101種である
から、単語数が如何に増えようとも101種類の単
音節音声を登録するのみでよい。これで前記(1)の
問題は解決される。また、後述するように、最も
計算量を必要とするベクトル関距離は、前記単語
標準パターンのそれぞれとマツチングする度に求
める必要はなく、入力音声の各フレームについて
前記各単音節標準パターンに対して１回求めてお
けば良い。これは単語数がいくらか増加しても変
らないから、前記(2)の問題が解決されることにな
る。さらに、各単音節に対応する特徴ベクトルの
系列のみ記憶しておけば、単語辞書は各単語に対
応する単音節列を記号の列として記憶しておくだ
けで良いので、認識単語数が増加してもメモリの
増加量は少くて済み、前記(3)の問題も解決される
ことになる。いま、ｗ番目の単語のｌ番目の単語
節名をｑ（ｗ，ｌ）、いくつかの単音節を連続して
発声したときの音声パターンをＡ＝a₁，a₂……
a_I，ｎ番目の単音節の標準パターンをRⁿ＝bⁿ ₁bⁿ ₂…
…bⁿ _Jo，（ただし、ｗ＝１，２，……，Ｗ；ｌ＝
１，２，……，Lw；ｎ＝１，２，……，Ｎ；a_i，
bⁿ _jはそれぞれ特徴ベクトル）とするとき、ｗ番目
の単語の標準パターンｗはｗ＝R^q(w,1)R^q(w,2)……R^q(w,Lw) ＝b^q(w,1) ₁，b^q(w,1) ₂……b^q(w,1) _Jq(w,1)b^q(w,2
) ₁b^q(w,2) ₂……b^q(w,2) _Jq(w,2)……b^q(w,Lw) ₁b^q(w,Lw) ₂……b^q(w,Lw) _Jq(w,Lw) で表わされる。ここではパターンの接続を表わ
す。本発明のパターン比較装置は、このＲｗと入力
音声パターンＡとの間でDPマツチングを実行し、
その際得られる両パターン間の距離Ｄ（Ａ，Ｒｗ）
が最小となるようなｗを見出すものである。実施例の説明第１図は本発明の第一の実施例を示すブロツク
図である。１は音声信号の入力端子、２は入力音
声信号を周波数分析、LPC分析、PARCOR分析、
相関分析等により幾つかの数値の組（特徴ベクト
ル）の系列に変換する特徴抽出部である。３は日
本語Ｎ単音節のｎ番目の単音節（ｎ＝１，２，…
…，Ｎ）について特徴抽出部２により特徴ベクト
ルの系列｛bⁿ _j｝に変換されたパターンRⁿを単音
節標準パターンとして認識に先立つて予め登録し
ておく単音節標準パターン記憶部である。４は特
徴抽出部２の出力から例えば各フレームにおける
電力を求め、その電力が予め定められた閾値を越
えている期間を以て音声区間と定める等周知の方
法によつて音声区間を検出する音声区間検出部で
ある。５は、音声区間が始つてから終るまでのフ
レーム数を計数するフレーム数計数部であつて、
端子６には現在のフレームが音声区間開始後何フ
レーム目であるかが出力される。７は、ベクトル
間距離計算部があつて、入力の第ｉフレーム目の
ベクトルa_iとｎ番目の単音節標準パターンRⁿを構
成する各ベクトルbⁿ _jとの距離dⁿ（ｉ，ｊ）をｎ＝
１，２，……，Ｎ；ｊ＝１，２，……Jⁿについて
計算するベクトル間距離計算部である。ベクトル
間の距離の定義としては、最も簡単には市街地距
離である。すなわち、それぞれのベクトルをa_i＝
（a_i1，a_i2，……，a_in）、bⁿ _j＝（bⁿ _j1，bⁿ _j2，……，
bⁿ _jn
とすれば、 dⁿ（ｉ，ｊ）＝_o 〓^k=1 ｜a_ik−bⁿ _jk｜ ……(1) となし得る。８はベクトル間距離記憶部であつ
て、ベクトル間距離計算部７で得られたベクトル
間距離dⁿ（ｉ，ｊ）を記憶する。９は単語辞書で
あつて、認識すべき単語が各単音節を示すコード
の結合として記憶されている。１０は累積距離記
憶部であつて次に説明する累積距離の計算に必要
なそれ以前の累積距離を記憶している。１１は累
積距離計算部であつて、単語辞書９に記憶してい
るコード列をもとに各単語毎の単音節の結合の仕
方を知り、この結合の順序に従つてベクトル間距
離記憶部８に記憶されているベクトル間距離と累
積距離記憶部１０に記憶されている累積距離とか
ら現フレームまでの累積距離を計算する累積距離
計算部である。この累積距離計算部１１での計算
結果は累積距離記憶部１０に記憶される。１２は
判定部であつて、単語音声の入力が完了したとき
各単語について最終フレームの累積距離を累積距
離記憶部１０から読み出し、それが最小である単
語を認識結果として判定する。１３は認識結果の
出力端子である。以上の構成における各部の動作を次により詳細
に説明する。この説明は第ｉフレームにおける動
作について行なう。本実施例においては、DPマツチングの径路と
して第２図に示すものを採用した場合について説
明する。すなわち、この径路を採用した場合、入
力フレーム番号ｉを横軸に標準パターンのフレー
ム番号ｊを縦軸にとつた格子グラフトにおいて、
座標１，１から座標ｉ，ｊまでの標準パターン
Rⁿの第１〜第ｊフレームの部分パターンと、入
力パターンＡの第１〜第ｉフレームの部分パター
ンとの累積距離をDⁿ（ｉ，ｊ）とするとき、次の
漸化式を満足する。 Dⁿ（ｉ，ｊ）＝dⁿ（ｉ，ｊ）＋minDⁿ（ｉ−２，ｊ−
１＋dⁿ（ｉ−１，ｊ） Dⁿ（ｉ−１，ｊ−１） Dⁿ（ｉ−１，ｊ−２） ……(2) まず、特徴抽出部２の出力ベクトルa_iと単音節
標準パターンを構成する全てのベクトルとの距離
がベクトル間距離計算部７で前記の如く計算さ
れ、ベクトル間距離記憶部８に記憶される。式(2)
を計算するのに必要なベクトル間距離は、dⁿ（ｉ，
ｊ）とdⁿ（ｉ−１，ｊ）であるから、ベクトル間
距離記憶部８は入力パターンの現フレームｉと一
つ前のフレームｉ−１におけるベクトル間距離を
ｎ＝１，２……，Ｎ，ｊ＝１，２，……，Jⁿにつ
いて覚えておれば良い。累積距離計算部１１は基
本的には式(2)の計算を行うのであるが、単語辞書
９により提示される単音節列に従つて計算され
る。今単語ｗ（ｗ＝１，２，……，Ｗ）とマツチ
ングする場合について説明する。単語ｗはLwの
単音節から成るものとし、単語ｗのｌ番目の単音
節を（ｗ，ｌ）とし、単語ｗに対し、（ｗ，１）
の座標（１，１）から（ｗ，ｌ）の座標（ｉ，
ｊ）までの累積距離D^(w,l)（ｉ，ｊ）を直前の単音
節（ｗ，ｌ−１）までのマツチング結果の続きと
して計算し、 D^(w,Lw)（Ｉ，J^Lw）を入力パターンと単語ｗのマツ
チング結果である累積距離とするものである。従
つて、第２図のマツチング径路を採用する場合、
単語ｗのｌ番目の単音節における累積距離は単語
ｗのｌ−１番目の単音節の最終２フレームまでの
累積距離が初期値となるから、式(2)の計算はｊ＝
１，２と３ｊJ^q(w,1)の場合に分けて計算する
のがわかり易い。従つて、単音節（ｗ，ｌ）の単
音節名をｑ（ｗ，ｌ）とすると、

【表】となる。ただし、初期条件は D^(w,0)（−１，０）＝０ d^q(w,1)（０，１）＝０ D^(w,0)（ｉ，０）＝∞ D^(w,0)（ｉ，−１）＝∞ D^(w,l)（−１，ｊ）＝∞ D^(w,l)（０，ｊ）＝∞ J_q(w,0)＝０である。以上の計算の結果は累積距離記憶部１０に逐次
記憶されるが、式(2)あるいは第２図からも明らか
なように、第ｉフレームの計算を行うに必要な過
去の累積距離は第ｉ−１フレームと第ｉ−２フレ
ームの値だけであるから、累積距離記憶部１０は
１つ前と２つ前のフレームの累積距離のみ記憶し
ておけばよい。さらに以上のような計算の結果、各単語に対し
て第ｉフレームにおける介単語に対する最終値
D^(w,Lw)（ｉ，J^q(w,Lw)）も累積距離記憶部１０に記
憶される。以上第ｉフレームの処理について述べ
たが、フレーム数計数部５の計数値が以上のｉを
設定している。従つて以上の処理はフレームが１
進む毎に行われ、音声区間が終了すなわちｉ＝Ｉ
となると、累積距離記憶部１０には各単語につい
ての最終の累積距離D^(w,Lw)（Ｉ，J^q(w,Lw)）が記憶
され、音声区間検出部４が音声の終了を検出する
と、このD^(w,Lw)（Ｉ，J^q(w,Lw)）がｗ＝１，……，
Ｗについて読み出され、判定部１２はｗ＝argmin〔D^(w,Lw)（Ｉ，J^q(w,Lw)）〕ｗを見出し、ｗを認識結果とする。ここで、 argmin〔ｆ（ｘ）〕はｆ（ｘ）を最小にするｘのこ
とを意味する。第３図は、以上の実施例の動作をフローチヤー
トにしたものであつて、ソフトウエアで実現する
場合もこのフローチヤートに従えば良い。ステツプ（100）〜（105）は初期化を行う部分
である。ステツプ（106）〜（115）は第ｉフレー
ムにおける処理を表し、ステツプ（107）〜
（109）はベクトル間距離を求める部分、ステツプ
（110）〜（115）は累積距離を求める部分であつ
て、ステツプ（111）は初期化を行う部分、ステ
ツプ（113）はｊ＝１，２についての累積距離、
ステツプ（114）〜（115）は３ｊJ^q(w,l)につ
いての累積距離を求める部分である。ステツプ
（118）は最終的に単語として最も累積距離の小さ
い単語を判定する部分で、第１図判定部１２で行
われる計算に相当する。次に第２の実施例を説明する。これは、第１の
実施例の改良である。すなわち、単音節を連続さ
せたとき、単音節の境界付近のパターンは曖味に
なるので、標準パターンの各単音節の始端と終端
を自由にしてマツチングすること、言い換えれば
マツチングにおいて、始終端のフレームを適当に
とばしてマツチングすることを許すことにより、
より精度の高いマツチングを行うことが可能とな
る。これは、第１図において、累積距離計算部１
１での累積距離の求め方を少々変更することによ
つて簡単に実現できる。すなわち、累積距離計算
部１１における漸化式の計算を次のように変更す
る。標準パターンの単音節音声パターンの頭尾部に
おける端点自由区間をそれぞれδ₁フレーム、δ₂フ
レームとする。すなわち、各単音節標準パターン
ｎに対するマツチングの開始フレームを第１〜δ₁
フレームの間のフレームとし、マツチングの終了
フレームを第Jⁿ−δ₂〜Jⁿフレームの間のフレーム
とし、それぞれの最適のフレームを選ぶ。この場
合もマツチング径路に第２図の拘束条件を採用す
るものとすれば累積距離D^(w,l)（ｉ，ｊ）は次のよ
うに変更される。即ち、第ｌ番目の単音節の累積
距離を求めるとき

【表】となる。第４図はこの第２の実施例の動作をフローチヤ
ートにしたものであつて、第３図と同じ番号を付
したステツプは第３図と同様な処理を行つてい
る。ステツプ（117′）は、終端点自由の区間を J^q(w,l)−δ₂〜J^q(w,l)としたので、ｌ＝１の場合の累
積距離の計算に現れてくる D^q(w,0)（ｉ−１，J^q(w-0)−ｋ）をｋ＝０，１，２，
……，δ₂にわたつて∞とするためのものである。
ステツプ（118）は単音節（ｗ，ｌ−１）の第ｉ
−１フレームまでの累積距離を前記終端点自由区
間内の中で最小のものとして求める部分である。
ステツプ（119）はｊ＝１，２のときの処理、ス
テツプ（120），（121）は３ｊδ₁のときの処
理、ステツプ（122），（123）はδ₁＋１ｊ
J_q(w,l)のときの処理を行う部分である。以上のよ
うにすることによつて、前記始端自由のマツチン
グを実現することができる。以上のように第２の実施例では、単音節の結合
部の不安定な部分を適当に飛ばしてマツチングで
きるので、認識率の向上が図れたのであるが、よ
りきめの細かいマツチングを行うために重みを導
入する方法を提案する。即ち、通常のマツチング
においては、マツチングすべき全てのフレームを
一様な重みでマツチングを行つていることになる
が、それぞれのパターンにおいて、その特徴をよ
りよく表す重要な部分は大きな重みで、そうでな
い部分は小さな重みでマツチングすることによつ
て、互に距離的に近く従つて混同が起り易いパタ
ーンも十分に識別することができるようになる。第５図は第１の実施例に重みを導入することに
より、より信頼性の高い認識装置として実現した
第３の実施例である。第１図に示す第一の実施例
と異る点は、重み計数記憶部１４が加わり、累積
距離計算部１１の動作がこの重み計数を用いて計
算する点である。第２図のマツチング径路を採用
するとき、各径路に対する重みは第６図に示すよ
うにすることができる。このように重み付を行う
と、ｎ番目の標準パターンと入力パターンのマツ
チング径路をどのように選ぼうともその径路に沿
う重みの和は入力パターンのフレーム数をＭとす
ると _Jo 〓^j=1 Hⁿ（ｊ）＋Ｍとなりその標準パターンと入力パターンについて
一定となる。累積距離計算部１１における計算は次のように
なる。

【表】

【表】によつて、すなわち、各単語の最終フレームまで
の累積類似度をその単語についての重みの総和で
割つたものが最小となる単語が認識結果となる
（Ｉはすべての単語に対して共通であるから省略
できる。）。このとき、各単音節についての重み和 _Jo 〓^j=1 Hⁿ（ｊ）が一定となるようにしておけば、Ｉ
もすべての標準パターン（単語）とマツチングす
る間一定であるから、ｗは次のようにして求める
ことができる。ｗ＝^argmin _w〔D^q(w,Lw)（Ｉ，J^q(w,Lw)））／Lw〕第７図は、第３の実施例の動作をフローチヤー
トに示したものである。ステツプ（200）〜
（201）は前以てdⁿ（１，１）を求めておく部分で
ある。ステツプ（202）〜（207）は漸化式を計算
する場合の初期値を設定する部分である。ステツ
プ（207）でｉ＝１のときの処理は完了するので、
ステツプ（208）〜（217）はｉ＝２以後の処理で
ある。ステツプ（209）〜（211）は入力のフレー
ムｉにおけるベクトル間距離をすべての単音節に
対して求めておく部分である。ステツプ（212）
〜（217）は各単語ｗについて累積距離 D^(w,Lw)（Ｉ，J^q(w,Lw)）を求める部分である。ステ
ツプ（213）はそのときの初期値を与える部分で
ある。ステツプ（214）〜（217）は単語ｗのｌ番
目の単音節について累積距離を計算する部分であ
つて、ステツプ（215）は各単音節に対してｊ＝
１，２の場合、ステツプ（216）〜（217）は３
ｊJ^q(w,l)の場合について累積距離を計算してい
る。ステツプ（218）は判定部１２に相当すると
ころであつて、前述した通りである。以上、第１〜第３の実施例においてはマツチン
グ径路の拘束条件として第２図に示すものを用い
たが、その他第９図ａ〜ｄに示すような種々の径
路を考えることができる。このとき、各径路に対
する重みは、比較すべき標準パターンと入力パタ
ーンを固定したときそのマツチング径路に沿う重
みの和が径路の選び方によらないようにすれば良
いのであつて重みの決め方の一例を第８図に示
す。Hⁿ（ｊ）＝０とすれば各径路の重みが１の通
常の場合になる。また以上の実施例においては標準パターンとし
て単音節音声のパターンを登録する場合について
述べたが、これを単誤音声のパターンとすれば全
く同様にして連続単語音声の認識を行うようにす
ることもできる。特に連続のさせ方が予め定まつ
ている場合に有効である。また、単音節の代りに，VCV（母音＋子音＋母
音）のパターンを標準パターンとしてもつてお
き、その結合として単語の標準パターンを構成す
るようにしておけば、より自然な発声の入力音声
に対して認識率の向上が図れる。第３の実施例では、マツチングの径路に沿う重
みの総和が径路によらず単音節毎に一定になるよ
うにして説明したが、これは単語全体として一定
になるようにしても良いのは勿論である。また、第２の実施例の始終端点自由のマツチン
グに第３の実施例で説明したような重み付の方法
を導入することも当然考えられる。これを行うに
は始終端点自由の区間に対する重みHⁿ（ｊ）を零
とすることで簡単に実現できる。さらに、実施例では音声信号に対する場合につ
いてのみ述べたが、基本パターンの連続として構
成されているパターンを認識する場合で、その基
本パターンの連続のさせ方が何通りか予め定まつ
ているような場合は、標準パターンとして前記基
本パターンを準備しておけば、本実施例と同様に
して前記連続パターンを認識できる。発明の効果本発明によれば、大語彙単語の特定話者登録方
式による認識装置の持つていた問題点 (1) 標準パターン登録時の話者の負担が大きい。 (2) 標準パターンと入力パターンとのマツチング
に時間がかかり認識装置の応答が遅くなる。 (3) 標準パターンを記憶するメモリが膨大にな
る。等を一挙に解決することができたものである。ま
た、始終端点自由や重みの導入により認識率を向
上させることも可能となつたものである。

【図面の簡単な説明】

第１図は本発明の第１の実施例におけるパター
ン比較装置のブロツク図、第２図はDPマツチン
グ径路を示す図、第３図は第１の実施例における
動作を示すフロチヤート、第４図は第２の実施例
における動作を示すフローチヤート、第５図は本
発明の第３の実施例におけるパターン比較装置の
ブロツク図、第６図は各径路における重み付けを
示す図、第７図は第３の実施例の動作を示すフロ
ーチヤート、第８図は各種重み付けの例を示す
図、第９図ａ〜ｄは各種径路を示す図である。２……特徴抽出部、３……単音節標準パターン
記憶部、９……単語辞書、１１……累積距離計算
部、１２……判定部。

Claims

【特許請求の範囲】１入力信号を特徴ベクトルの系列a₁，a₂，…
…，a_Iに変換する特徴抽出手段と、特徴ベクトル
の系列からなる第ｎ標準パターン R_o＝bⁿ ₁，bⁿ ₂，……，bⁿ _jo （ただし、ｎはその種類数をＮとするとき、ｎ
∈｛１，２，……，Ｎ｝）を記憶する標準パターン記憶手段と、この標準パ
ターンの結合によつて出来る結合パターン（以
後、この結合パターンの名称をｗ∈｛１，２，…
…，Ｗ｝で表し、各ｗを単語と呼ぶ）を、前記ｎ
の配列によつて表現したものを記憶する単語辞書
と、単語ｗに対応する前記標準パターンの結合パ
ターン R^q(w,1)R^q(w,2)……R^q(w,Lw) （ただし、ｑ（ｗ，ｋ）は、単語ｗ∈｛１，２，
……，Ｗ｝を構成するL_w個の標準パターンの
中の、ｋ∈｛１，２，……，L_w｝番目の標準
パターン名、はパターンの結合を表す）と前記入力パターンa₁，a₂，……，a_Iとの距離
（類似度）を前記標準パターンの結合パターンを
構成する特徴ベクトルb^q(w,k) _jと前記入力パターン
を構成する特徴ベクトルa_iとの組合せからなる関
数として動的計画法により最小（最大）化したも
のとして求める累積距離（類似度）計算手段と、
この累積距離（類似度）が最小（最大）になる前
記単語を見出す判定手段とを備え、前記累積距離
（類似度）計算手段は、標準パターンRⁿの第ｊフ
レームb_ojと入力パターンの第ｉフレームa_iとの距
離（類似度）d_o（ｉ，ｊ）をｎ＝１，……，Ｎ、
ｊ＝１，……，J_oについて計算するベクトル間距
離（類似度）計算手段と、単語ｗを形成するｋ番
目の標準パターンを（ｗ，ｋ）とするとき、（ｗ，
１）の最初のフレームから（ｗ，ｋ）の第ｊフレ
ームまでの部分パターンと、入力パターンの第１
フレームから第ｉフレームまでの部分パターンと
の累積距離（類似度）D_(w,k)（ｉ，ｊ）を、フレー
ムｉ毎に、ｋ＝１，……，L_w，ｊ＝１，……，
J_q(w,k)について、前記算出されたdⁿ（ｉ，ｊ）を用
いて、直前の標準パターン（ｗ，ｋ−１）までの
マツチング結果の続きとして算出する中間累積距
離（類似度）算出手段を含み、D_(w,Lw)（Ｉ，
J_q(w,Lw)）を単語ｗに対する標準パターン列と前記
入力パターンとの距離（類似度）とすることを特
徴とするパターン比較装置。