JPH044600B2

JPH044600B2 -

Info

Publication number: JPH044600B2
Application number: JP56076472A
Authority: JP
Priority date: 1981-05-22
Filing date: 1981-05-22
Publication date: 1992-01-28
Also published as: JPS57191699A

Description

【発明の詳細な説明】本発明は、音声認識などのパターン認識システ
ムに使用されるパターンマツチング装置に関する
ものである。

現在、実用化が進められている音声認識等のパ
ターン認識システムでは、入力パターンを認識す
るために、あらかじめ記憶した各種の標準パター
ンと入力パターンを比較して認識を行うパターン
マツチング法が用いられている。例えば音声認識
では、標準パターンとして、認識したい単語分の
標準パターンを記憶して用いる。

このような音声認識において、パターンマツチ
ング法を用いるとき問題になるのは、入力音声が
発声毎に時間軸に対して任意に伸縮することであ
る。すなわち、同一の話者が同一の単語を発声し
ても、全く同じ長さには発声できない。したがつ
て標準パターンとのマツチングにおいて、記憶さ
れている標準パターンが入力音声を発声した話者
のものであつても、発声速度が任意に変化するた
め類似度が発声毎に変化し、正しい認識結果が得
られない。この入力パターンと標準パターンの時
間軸のずれを整合しながらマツチングを行う方法
として、動的計画法（Ｄynamic Ｐ
rogramming以下DPと略す。）を用いたマツチン
グ法が広く用いられている（例えば特開昭47−
30242号公報参照）。次にDPの概要について説明
する。

音声パターンは、特徴ベクトルA_i＝（a_1i、a_2i、
a_ni、……a_oi）の時系列としてＡ＝A₁、A₂、A₃、…、A_i、…、A_I ……(1) と表わされる。この特徴ベクトルA_iは音声信号を
時間領域でＩ個の区間に区切つたときの（この時
区切られた１つの区間をフレームと呼ぶ）ｉ番目
のフレームの音声の特徴ベクトルであり、特徴ベ
クトルとしては、たとえば中心周波数の異なつた
ｎ個の帯域フイルタ群の出力が考えられる。a_ni
とは、音声のｉ番目のフレームのｎ個の帯域フイ
ルタのうちｍ番目のフイルタ出力である。入力音
声パターンＸ、標準音声パターンＹは、特徴ベク
トルの時系列として、Ｘ＝X₁、X₂、X₃、…、X_i、…、X_I Ｙ＝Y₁、Y₂、Y₃、…、Y_j、…、Y_J ……(2) と表現される。

ここで入力パターンＸ、標準パターンＹの類似
度を求めるため、両特徴ベクトルの距離を求める
必要があり、距離ｄは例えば、ユークリツド距離
として、ｄ（ｉ，ｊ）＝（X₁−Y_j）²＝_o 〓（x_iu−y_ju）² ……(3) で求められる。仮に入力パターンＸと標準パター
ンＹの時間軸の伸縮が全く無いとするとＸとＹは
１対１に対応し、類似度Ｓは、距離ｄの総和とし
て、Ｓ＝｛_n 〓（X_n−Y_n）²｝／ｍ＝｛_n 〓ｄ（ｍ，ｍ）｝／ｍ ……(4) として求められる。ここでｍは入力パターンと標
準パターンのそれぞれｎ個のフレームのうちいず
れかを指定するフレーム番号を示す。Ｓは小さい
ほど、類似度が高い、すなわち良く似たパターン
（単語）であることを示す。

先に述べたように、音声は発声する毎に伸び縮
みしてしまうため、(4)式では正確に類似度Ｓを求
めることができない。したがつてDPでは、次の
ように時間軸を整合しながらＳを求める。第１図
に時間軸上での入力パターンＸと標準パターンＹ
の整合の過程を示し、第２図に入力パターンＸ、
標準パターンＹを縦座標、横座標に変換したもの
を示す。矢印は整合過程を示したもので、時間軸
の伸縮を整合している様子を示している。矢印で
示す経路で距離を求めながら、類似度Ｓを求める
と、Ｓ＝｛ｄ（１，１）＋ｄ（２，２）＋ｄ（２，
３）＋…＋ｄ（８，７）｝／９……(5) が求められる。

DPを用いたパターンマツチングには各種ある
が単語のように、時間軸の伸縮がある程度限定さ
れる場合の認識では、時間軸の整合の幅を限定し
たDP（以下、DPと呼ぶのは全てこのようなDPと
する。）が用いられる。本DPのバスの選択は次の
ようにして行なわれる。

すなわち、第３図の点Ｅに到る経過としては、
点Ｆ、Ｇ、Ｈの３方向が許されるが、点Ｆ、Ｇ、
Ｈに至るまでの距離ｄの累和をＤ（ｉ、ｊ−１）、
Ｄ（ｉ−１、ｊ−１）、Ｄ（ｉ−１、ｊ）とすると、
点Ｅの累和Ｄ（ｉ、ｊ）は３方向の内どこからく
るかによつて(6)式のようになる。累和Ｄ（ｉ、ｊ）
としては(6)式のうち、値が最小になる経過のもの
が選択される。

Ｄ（ｉ、ｊ−１）＋ｄ（ｉ、ｊ）Ｄ（ｉ−１、ｊ−１）＋Ｗ・ｄ（ｉ、ｊ）Ｄ（ｉ−１、ｊ）＋ｄ（ｉ、ｊ） ……(6) 但しＷは対角線方向へのバス選択の重みを示し、
通常は２である。また点Ｅに到るまでの経過長Ｌ
（ｉ、ｊ）としては(6)式で選ばれた経過に応じた
経過長が(7)式にしたがつ選択される。点Ｆ、Ｇ、
Ｈまでの経過長をＬ（ｉ、ｊ−１）、Ｌ（ｉ−１、
ｊ−１）、Ｌ（ｉ−１、ｊ）とするとＬ（ｉ、ｊ−１）＋１Ｌ（ｉ−１、ｊ−１）＋ＷＬ（ｉ−１、ｊ）＋１ ……(7) なお初期値Ｄ（１、１）、Ｌ（１、１）は次のよ
うに表わされる。

Ｄ（１、１）＝ｄ（１、１）Ｌ（１、１）＝１ ……(8) また(6)式は次式の制約条件で計算される。

１ｉＩ、１ｊＪｊ−γｉｊ＋γ γ＝整数 ……(9) γは入力パターンＸと標準パターンＹの時間軸
の変化を吸収して整合するときの範囲すなわち整
合幅を決めるもので、γを大きくするにつれ、伸
縮の大きな、入力パターンと標準パターン間の整
合がとれることになる。しかし、γが大きすぎる
と処理量が増加し、また整合しすぎることにな
る。第２図の場合はｌ＝2γ＋１、γ＝±１であ
り、ｌ＝３で整合できることを示している。第２
図において、最終的な類似度Ｓは、累和Ｄ（８、
７）と経過長Ｌ（８、７）によつて、Ｓ＝Ｄ（８、７）／Ｌ（８、７） ……(10) として求められ、これは(5)式に相当する。

このように本DPは、第２図のように点線内の
範囲のみマツチングを行えばよいため、距離計算
も点線内の処理のみでよい。したがつて、処理量
が少なく、多量の標準パターンのマツチングが可
能となる。

本DPにおいて問題になるのが入力音声の切出
しである。本DPは(8)式のように始端が固定され
ており、また(9)式のように整合可能な幅がγに限
定されている。したがつて、始端の切出しを間違
えると、始点がずれため、整合幅γでは整合でき
なくなることが考えられる。また終端の切出しを
間違えると入力音声の長さが本DPで許している
（±γ）をこえてしまい、異なつた単語と判断さ
れることが考えられる。DP処理を実時間で行う
場合、この入力音声の切出しも実時間で行う必要
がある。しかし入力音声の切出しを実時間で行う
ためには、色々な問題点が生じる。

つぎに、実時間でのDP処理、切出し処理にお
ける具体的な問題点について述べる。入力音声の
切出し、すなわち始端、終端の検出には例えば入
力音声のパワーが用いられる。音声が発声されて
いないときは、パワーが小さく（無音）、発声さ
れるとパワーが上がることを利用したものであ
る。

さて、終端の決定において、切手（キツテ）な
ど促音のある場合、ツのところが無音区間となつ
てしまい終端と間違う危険性が生じる（第４図Ａ
点付近）。また語尾が無声化しやすい単語、例え
ば浜松（HAMAMATSU）などでは、終端で音
声信号の有無がはつきりしない場合がある（第４
図Ｂ−Ｃ点間）。両者とも終端らしい点が見つか
つても、その点以降数百ｍsecの様子を見ないと、
その点が終端であると断定できない。すなわち第
４図のような入力音声があつた場合、実際の終端
はＣ点であるのにＡ、Ｂ点が終端と間違える恐れ
がある。またＣ点を終端と決定するためには、Ｄ
点まで入力音声の様子を見る必要がある。Ａ点あ
るいはＢ点が終端と間違つて判定され、入力音声
が途中で切られた場合実際の入力音声より短かい
音声と判断される。これを避けるため数百ｍsec
の無音区間を確認できた後、終端を決定する場合
にはＤ点で初めて終端が決定されることになる。
しかしDP処理を実時間で行うとＤ点までの入力
音声がすでにDP処理部で処理されている。すな
わち入力音声がＤ点までの長さの音声として処理
され、実際の入力音声より長い音声と判断され
る。前述したDP処理では、処理量を少なくする
ため時間軸の変動幅を、±γ（標準パターンの時間
長）と制限しているため、終端がＡ、Ｂあるいは
Ｄ点と間違つて判断されると、この変動幅以上の
入力となり、リジエクトされる。

したがつて、従来の方法では、まず入力音声の
切出し処理をおこなつて入力音声をメモリに格納
しておき、切出し終了後、音声区間の入力音声を
メモリより読み出し、マツチング処理を行つてい
た。

この従来法の問題点を明確にするため、まず第
５図を用いて音声などの認識処理装置の従来例の
概略を説明する。入力された音声は、特徴抽出部
１で特徴が抽出される。距離計算部２は、特徴抽
出された入力音声と、あらかじめ標準パターンメ
モリ３に格納されている複数の標準パターン（単
語）との間の距離を計算する。

DP処理部４では、距離計算部２からの距離を
時間軸整合しながらマツチングを行なう。判定部
５では、DP処理部４から出力される各標準パタ
ーンとの類似度から最大の類似度にたいする標準
パターンを解として出力する。従来の装置は、前
記の理由により特徴抽出部１の後に１単語分の入
力音声を格納するためのメモリ１０を持ち、音声
切出し部６により検出された始端から終端までの
入力音声を格納する。メモリ１０には正しく切出
された入力音声が格納される。終端検出後メモリ
１０に格納されている入力音声に対して、距離演
算以降のマツチング処理を行う。

従来の装置では実時間処理ができないが、第５
図におけるメモリ１０の構成を、特徴抽出部１か
らの書込みと、距離計算部２からの読出しを同時
に行なえるようにすることにより実時間処理が可
能になる。この場合、メモリ１０の容量は、第４
図のＣ点からＤ点までの数百ｍsecにわたる情報
を格納可能なものでよく、メモリ容量は従来の装
置に比べて少なくできる。以下、第５図の装置に
ついて説明する。

メモリ１０により、特徴パラメータ抽出部１よ
り出力されたデータは、数百ｍsec後に距離計算
部２に入力される。したがつて、Ｄ点の入力音声
が特徴抽出部１に入力して、音声切出し部６で終
端が検出された時、実際の終端であるＣ点のデー
タはまだメモリ１０に格納されており、距離計算
部２には入力されていない。音声切出し部６は、
Ｃ点まで入力音声をメモリ１０から、距離計算部
２に送つた後、Ｄ点でDP処理部４に終端検出信
号EEを送り、DP演算を完了させ、そのときの
DP演算結果を判定部５に転送し、判定部５でDP
演算結果にもとづき類似度最大の標準パターンを
見出し、解として出力することにより、ほぼ実時
間処理可能な装置を実現していた。しかし、従来
の装置では、メモリ１０は、読出し書込みが競合
する回路となり、また実際の終端であるＣ点か
ら、Ｃ点を実際の終端と決定できるＤ点までの時
間も一定でないため、メモリ１０の制御回路およ
び音声切出し部６の制御は共に複雑になつてしま
う。

したがつて、本発明の目的は上記問題点を解決
して、入力音声にたいして実時間処理をおこなえ
るようにした音声認識などに用いられるパターン
マツチング装置を提供することにある。この目的
を達成するため本発明においては、実時間処理を
おこないながら終端候補が検出されたときのDP
演算結果を順次メモリに格納し、上記終端候補が
真の終端であることが検出されたとき真の終端に
対応したDP演算結果をメモリより読み出し、こ
れを真のDP演算結果をする点に特徴がある。

以下、実施例を参照して本発明を説明する。

本発明にもとづく音声認識装置のブロツク構成
図を第７図に、第４図の入力パターン（横軸）と
ある標準パターン（縦軸）との整合関係を第６図
に示す。

第６図のＡ、Ｂ、ＣおよびＤ点は第４図の入力
音声の各時点Ａ、Ｂ、ＣおよびＤに対応する。

第７図に示す装置では第５図に示す従来の装置
のDP処理部４と判定部５の間に新たにメモリ７
を設ける。このメモリ７は、標準パターンメモリ
３に格納されている単語数すなわち認識語数だけ
の容量を持つ。さらに本装置の音声切出し部６に
は、始端検出部６０のほかに終端らしい点（終端
候補）を検出し、この情報をDP処理部４に伝え
る終端候補検出部６１と、終端を検出し、DP処
理部４と判定部５にこの情報を伝える終端検出部
６２がある。始端検出部６０は入力パターンの始
端において始端信号SSを発生し、終端候補検出
部６１は、第４図のＡ、Ｂ、Ｃ点で終端候補信号
SEを発生し、終端検出部８はＤ点で終端信号EE
を発生する。DP処理部４は終端候補信号SEを受
けると、その時点の各標準パターンと入力パター
ンとの類似度をメモリ７に書込む。また終端信号
EEを受けると処理を終了する。判定部５は、終
端信号EEを受けるとメモリ７の値を読出し、第
５図の場合と同様の判定処理を行う。

つぎに、第６図を用いて本装置の動作を説明す
る。本装置では、入力パターンより特徴抽出部１
で抽出された自己相関係数やパワーなどの特徴量
にもとづいて、まず始端を検出すると距離計算部
２以降の処理を開始する。処理が進み特徴抽出部
１にＡ点にあたる音声が入力すると、Ａ点ではパ
ワーがほとんど無くなり終端である可能性がある
から終端候補検出部６１はこのＡ点を終端候補と
して検出し、DP処理部４に終端候補信号SEを送
る。この信号SEにもとづきDP処理部４は、終端
候補検出部６１が終端候補を検出した点すなわ
ち、Ａ点までのDPマツチング結果をメモリ７に
退避するか否かの制御をおこなう。第６図の場
合、標準パターンの長さと、Ａ点までの入力音声
の長さは大きく異り、整合幅ｌ以内でおさまらな
いため、メモリ７に退避されるデータはマツチン
グ結果そのものではなく、リジエクトデータまた
は類似度が最低となるデータである。終端検出部
６２は、終端候補検出部６１が終端候補を検出し
た後数百ｍsec以内に再び音声が入力されない、
すなわちパワーが無いとき終端を確認する回路で
Ａ点からＢ点の間では数百ｍsec以内にＢ点で再
び音声が入力するため、終端信号EEは出力され
ない。

同様にＢ、Ｃ点においても終端候補検出部６１
は上記の理由により終端候補であると判断するた
め、Ｂ、Ｃ点では終端候補検出部６１はDP処理
部４に終端候補信号SEを送る。ここでメモリ７
はDP処理部４からマツチング結果が送られる毎
に、新しいマツチング結果に書き換えられる。例
えば、Ａ点においては、メモリ７にすでに書きこ
まれているＡ点での入力パターンと各標準パター
ンとのマツチング結果がＢ点においては、Ｂ点で
の入力パターンと各標準パターンのマツチング結
果に書き換えられる。同様に、Ｂ点でのマツチン
グ結果がＣ点においてはＣ点でのマツチング結果
に書き換えられる。ここで第６図の標準パターン
に対するＣ点のマツチング結果は、標準パターン
と音声（単語）の長さの変動が−γ〜＋γの範囲
内におさまつているため、白丸の点までのDP処
理された結果としてある値をとる。終端検出部６
２は、Ｂ−Ｃ点間ではＢ点の終端候補検出後再び
音声が入力されるため、終端信号は出さない。し
かしＣ−Ｄ点間では、数百ｍsecの間音声が入力
しないため、すでに音声の発声は終つたと判断で
きる。したがつて終端検出部はＤ点でDP処理部
４および判定部５に終端信号EEを送る。これに
より、DP処理部４は処理を停止し、判定部５は、
各標準パターンとの類似度をメモリ７より読出
し、最大の類似度を持つ標準パターンを検出し、
それを解として出力する。ここでメモリ７にはＣ
点以降音声の再入力は無いため、終端候補は現わ
れない。したがつてメモリ７には、実際の終端で
あるＣ点までのマツチング結果が格納されてい
る。このようにして、本発明によれば実時間で切
出し処理およびDPによるマツチング処理が実現
できる。

つぎに、第５図の従来の回路と本発明の実施例
にあげた第７図の回路とのハードウエア量を比較
してみる。第７図で入力音声切出し部６の能力と
しては従来のものと全く同じで、ただ終端を決定
する途中で終端らしい点（終端候補）が求まつた
時、この情報をフラグの形で出力する機能を追加
するのみであるため、従来の回路に対するハード
ウエア量の増加はほとんど無いといえる。次にメ
モリ７にたいしてはDP処理部４からの書込み、
判定部５からの読出し処理があるが、同時にはア
クセスしない、すなわち競合は起きないため、従
来の実時間の回路に比べ制御は簡単でハードウエ
ア量も少なくなる。メモリ７の容量は標準パター
ンの単語数だけ必要となり、認識しない単語数が
増えるとメモリ容量も大きくなつてくる。しか
し、数百語以下の実用的な認識装置では、第５図
の従来の装置に用いられるメモリ１０に比べて容
量は少なくてすむ。

以上のように本発明によれば、従来の装置に比
べてハードウエア量が少なく、かつ実時間で入力
パターンの切出しおよび切出し後の処理をおこな
う装置が実現可能になり、その効果は大きい。

【図面の簡単な説明】

第１図〜第３図はDPによるパターンマツチン
グの原理を説明する図、第４図は入力音声パター
ンのパワーの変化を示す図、第５図は従来のパタ
ーンマツチング装置のブロツク構成を示す図、第
６図は第４図の入力パターンと標準パターンとの
整合関係を示す図、第７図は本発明にもとづくパ
ターンマツチング装置の１実施例のブロツク構成
を示す図である。６……音声切出し部。

Claims

【特許請求の範囲】

１実時間で有効信号区間を切り出しながら入力
パターンと複数の標準パターンとのマツチングを
行なうパターンマツチング装置において、前記有
効信号区間の始端を検出する手段と、前記有効信
号区間の終端候補を検出する手段と、前記有効信
号区間の終端を検出する手段と、前記始端の検出
に基づいて前記入力パターンと各標準パターンと
の類似度を求めるマツチング処理を開始し、前記
終端候補の検出に基づいて終端候補検出時におけ
る前記入力パターンと各標準パターンとの類似度
を出力するマツチング処理手段と、前記終端候補
検出時における前記マツチング処理手段の出力を
保持する記憶手段と、前記終端の検出に基づいて
前記終端に対応する終端候補検出時における前記
マツチング処理手段からの出力を前記記憶手段よ
り読出し、最大の類似度を持つ標準パターンを判
定して出力する判定手段とを備えたことを特徴と
するパターンマツチング装置。