JPH0465396B2

JPH0465396B2 -

Info

Publication number: JPH0465396B2
Application number: JP62061735A
Authority: JP
Inventors: Hiroaki Sekoe
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1987-03-16
Filing date: 1987-03-16
Publication date: 1992-10-19
Also published as: JPS63226696A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は人間が発声した音声を自動認識する音
声認識等の主要処理であるパタースマツチング方
式に関する。

（従来の技術）音声認識のパターンマツチングに関しては種々
の技術が開発されているが、それらの中で最も重
用されているものの一つとして「日本音響学会誌
第42巻９号（昭和61年９月発行の第725頁」に記
載される如きDPマツチング法がある。これは音
声の時間軸歪を整合する手法として極めて有効と
されている。また、DPマツチング法を連続単語
認識に拡張したものとして、特願昭56−199098号
明細書に記載されるが如きクロツクワイズDP法
がある。この手法は構文制御を有する連続単語認
識法として説明されているが、その特殊形として
当然離散単語認識をも包含している。ここでは簡
単のため離散単語認識の形式で、クロツクワイズ
DP法の要部を説明する。

単語名を番号ｎで指定することとして｛ｎ｜ｎ＝１、２、…Ｎ｝なる単語セツトを認識対象とする。各単語に標準
パターン Bⁿ＝〓₁ ⁿ、〓₂ ⁿ、…〓_j ⁿ…〓ⁿ _Jo を考える。ここにｊは時刻を示し、〓_j ⁿは標準パ
ターンBⁿの時刻ｊの特徴を意味する。入力音声
パターンを同様にＡ＝ａ｜₁、ａ｜₂…ａ｜_i…ａ｜_I と示す。

音声認識は、入力パターンＡと標準パターン
Bⁿとのパターン間距離Ｄ（Ａ、Bⁿ）を求め、それ
が最小となるｎを定め、認識結果とすることによ
つて行なわれる。

DPマツチングではこのパターン間距離の計算
を一例として次のような動的計画法計算によつて
行なう。

Γ初期条件 gⁿ（１、１）＝dⁿ（１、１） ……(1) Γ漸化式 gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋mingⁿ（ｉ−１
、ｊ） gⁿ（ｉ−１、ｊ−１） gⁿ（ｉ−１、ｊ−２） ……(2) ｉ＝１、２、…Ｉｊ＝１、２、…Ｊ Γパターン間距離Ｄ（Ａ、Bⁿ）＝gⁿ（Ｉ、Jⁿ） ……(3) ここにdⁿ（ｉ、ｊ）は特徴ａ｜_iと〓_j ⁿの距離dⁿ
（ｉ、ｊ）＝‖ａ｜_i−〓_j ⁿ‖である。これを積分した
形式となる。gⁿ（ｉ、ｊ）を最適累積距離と呼ぶ。

このDPマツチング処理は当初、単語ごとに実
行されていたが、クロツクワイズDP法では各単
語に対して並列的に実行される形式に改良され
た。すなわち、第１図のような、ｉ，ｊ，ｎが張
る空間において入力パターンの各時刻ｉにおい
て、各標準パターンBⁿの指定ｎと、それらの中
のｊのすべての組み合わせで指定されるｎ、に対
してgⁿ（ｉ、ｊ）なる最適累積値を計算し、しか
る後に時刻ｉを進めて処理を実行するという方式
になつている。

実際の計算においては図の空間のすべてのワー
クエリアを用意する必要はなく、ｉ方向に関して
は、時刻ｉとｉ−１の２時刻分があれば(2)式の計
算を進めることができる。このような方法は、入
力パターンの特徴ａ｜_iの入力に同期して処理を進
めることができるので、発声と並行して認識のた
めの計算を進行することができ、実時間性が良い
とされている。

（発明が解決しようとする問題点）しかし、この方法を大語いの認識に適用しよう
とすると計算量が大となるという問題がある。(2)
式の漸化式はｉの１サイクル内で、ｎとｊのすべ
ての組合せについて実行しなくてはならない。標
準パターン長がJⁿ＝30で、1000語を認識しようと
すると、３×10⁴の点で(2)式を計算することにな
る。１点あたり10μsで実行したとしても300ｍｓ
を要する。通常の音声認識ではｉの量子化は20μs
程度で行なわれるので、このような大語いでは実
時間実行はとても不可能である。

本発明はクロツクワイズ型DPマツチングの有
する計算量が多いという上記欠点を改良して、高
速で大語い認識が可能でありながら低価格な音声
認識装置のパターンマツチング方式を提供するこ
とを目的とする。

（問題点を解決するための手段）本発明によるパターンマツチング方式は、上記
クロツクワイズ型のDPマツチングの(2)式の漸化
式計算を実行するに当り、過去に計算された最適
累積値に基づいて新たな最適累積値gⁿ（ｉ、ｊ）
を計算する点（ｎ、ｊ）を制限し、かつ各（ｎ、
ｊ）点における漸化式計算処理を、その近傍で計
算が実行された点（n′、j′）との相互関係に基づ
いて制御することを特徴とする。

（作用・原理）元来DPマツチングは第１図の如きｎ、ｉ、ｊ
が張る空間において、各単語ごとに、（１、１）
点から（Ｉ、Jⁿ）点に至る経路でdⁿ（ｉ、ｊ）の
総和、すなわち累積値が最小となるものを探索す
るものである。この過程で計算される最適累積値
gⁿ（ｉ、ｊ）は、単語ｎの（１、１）点から（ｉ、
ｊ）点に至る距離dⁿ（ｉ、ｊ）の累積値を与えて
いる。したがつてgⁿ（ｉ、ｊ）の値が大であると
いうことはこの点（ｉ、ｊ）が最適経路上にある
可能性が低いことを意味する。本発明の第１の特
徴はgⁿ（ｉ、ｊ）が大となると予測される場合に
は、DPの漸化式計算を省略することによつて高
速化を図る点にある。

具体的には第２図に示すように、過去のクロツ
ク（ｉ−１）で計算された最適累積値gⁿ（ｉ、ｊ）
を所定の基準で検定し、その値が小である（ｎ、
ｊ）の点の集合ｗ（図に○で表示）を定め、新た
な最適累積値gⁿ（ｉ、ｊ）を算出するための(2)式
の漸化式計算は、これらの点の近傍のみで行なう
ものとする。

しかし、この方法をこのまま実行しようとする
第３図のような問題が残る。この図は単語ｎの
（ｉ、ｊ）点の近傍を拡大した図である。参照数
字１で示す孤立した点gⁿ（ｉ−１、ｊ）が集合ｗ
に含まれていたとする。(2)式の漸化式計算を行な
うとすると、このgⁿ（ｉ−１、ｊ）は参照数字２，
３，４で示す３点の最適累積値、すなわちgⁿ（ｉ、
ｊ）、gⁿ（ｉ、ｊ＋１）、gⁿ（ｉ、ｊ＋２）に影響を
及ぼす。したがつて、これら３点での漸化式計算
を行なう必要があるが、(2)式をそのまま実行した
のでは効率が悪い。なぜならば（ｉ−１、ｊ）の
近傍ではこの点だけが集合ｗに含まれていること
から gⁿ（ｉ−１、ｊ）＜gⁿ（ｉ−１、ｋ） ……(4) ｋ＝ｊ−２、ｊ−１、ｊ＋１、ｊ＋２であり、(2)式の漸化式計算結果が gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋gⁿ（ｉ−
１、ｊ） gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋gⁿ（ｉ−
１、ｊ） gⁿ（ｉ、ｊ＋１）＝dⁿ（ｉ、ｊ＋１）＋gⁿ（ｉ−１
、ｊ） gⁿ（ｉ、ｊ）＝dⁿ（ｉ、ｊ）＋gⁿ（ｉ−
１、ｊ） gⁿ（ｉ、ｊ＋１）＝dⁿ（ｉ、ｊ＋１）＋gⁿ（ｉ−１
、ｊ） gⁿ（ｉ、ｊ＋２）＝dⁿ（ｉ、ｊ＋２）＋gⁿ（ｉ−１
、ｊ）……(5) となるのは自明であるからである。それにもかか
わらず、(2)式をそのまま計算するのは不利であ
り、特に参照数字５，６，１，７，８のgⁿ（ｉ−
１、ｋ）に対する３×３＝９回のメモリアクセス
は処理速度を低下させる。

以上では集合ｗに含まれる点がその近傍で完全
に孤立している場合の例を上げたが、同様のこと
は、集合ｗに含まれる点の近傍の点との関係にお
いて、程度の差こそあれ生じる。本発明は集合ｗ
に含まれる点の近傍の相互関係によつて漸化式計
算を制御することによつて効率良くクロツクワイ
ズ型のDPマツチングを実行することを第２の特
徴とする。

DP漸化式の例とし(2)式を考える。（ｎ、ｊ）∈
ｗとし、その直前に処理を行なつた点を（n′、j′）
∈ｗとする。いま漸化式計算を実行するプロセツ
サに密に結合されたレジスタR0、R1とR2をワー
クエリアとして考える。このとき（ｎ、ｊ）と
（n′、j′）との相互関係によつて制御される計算処
理の例は次のごとくである。

(A) ｎ≠n′のとき (A) ｎ≠n′のとき min（R1、R2）＋dⁿ′（ｉ、j′＋１）→gⁿ′（ｉ、
j′＋１） R1＋dⁿ′（ｉ、j′＋２）→gⁿ′（ｉ、j′＋２） gⁿ（ｉ−１、ｊ）→R1 R1＋dⁿ（ｉ、ｊ）→gⁿ（ｉ、ｊ） ∞→R2 ｎ→n′、ｊ→j′ ……（６−１） (B) ｎ−n′、ｊ−j′＞２のとき (B) ｎ−n′、ｊ−j′＞２のとき min（R1、R2）＋dⁿ（ｉ、j′＋１）→gⁿ′（ｉ、j
′＋１） R1＋dⁿ（ｉ、j′＋２）→gⁿ′（ｉ、j′＋２） gⁿ′（ｉ−１、ｊ）→R1 R1＋dⁿ（ｉ、ｊ）→gⁿ（ｉ、ｊ） ∞→R2 ｊ→j′ ……（６−２） (C) ｎ＝n′、ｊ−j′＝２のとき (C) ｎ＝n′、ｊ−j′＝２のとき min（R1、R2）＋dⁿ（ｉ、j′＋１）→gⁿ（ｉ、j′
＋１） gⁿ（ｉ−ｊ、ｊ）→R0 min（R0、R1）＋dⁿ（ｉ、ｊ）→gⁿ（ｉ、ｊ） R0→R1 ∞→R2 ｊ→j′ ……（６−３） (D) ｊ−j′＝１のとき gⁿ（ｉ−１、ｊ）→R0 min（R0、R1、R2）＋dⁿ（ｉ、ｊ）→gⁿ（ｉ、ｊ） R1→R2 R0→R1 ｊ→j′ ……（６−４）以上の各処理の始まる時点では、手続（６−
１）における、、、手続（６−２）におけ
る、、、手続（６−３）における、、
、手続（６−４）における、、の処理か
ら分るように、n′、j′には前回処理を行なつた
（n′、j′）点の情報が含まれ、R1にはgⁿ（ｉ−１、
j′）、R2にはgⁿ′（ｉ−１、j′−１）が記憶された状
態になつている。

上記(A)は単語が切り替つた場合の処理で、直前
に処理していた単語n′に対して手続（６−１）の
、の処理を行なう。このとき、R1にはgⁿ（ｉ
−１、j′）が、R2にはgⁿ（ｉ−１、j′−１）が含ま
れている。(2)式に照し合わせて、これらのデータ
から計算可能なのはgⁿ′（ｉ、j′＋１）とgⁿ′（ｉ、
j′＋２）であることが分かる。それゆえ、これら
のレジスタ内のデータを基にして、 gⁿ′（ｉ、j′＋１）＝dⁿ（ｉ、j′＋１）＋
mingⁿ′（ｉ、j′） gⁿ′（ｉ、j′−１） ……(7) と、 gⁿ′(i、j′+2)＝dⁿ(i、j′+2)＋gⁿ′(i、j′) ……(8) なる形で(2)式を簡略化して計算を行なう。続いて
（ｎ、ｊ）点に対する処理を行なう。R1にgⁿ（ｉ
−１、を読み出す。（ｎ、ｊ−１）、（ｎ、ｊ−２）
は集合ｗに含まれていないので、gⁿ（ｉ、ｊ）は
このデータのみで確定するとしてが実行され
る。やはり、（ｎ、ｊ−１）が集合ｗに含まれて
いないことからgⁿ（ｉ−１、ｊ−１）＝∞とみなし
てR2には∞をセツトしておく。

上記(B)は同一単語でｊがj′より２以上離れてい
る場合であるが、処理の内容は(a)の場合と類似し
ている。（ｎ＝n′とすればまつたく同じ）ので説
明を省略する。

上記の(C)は同一単語でｊがj′と２だけ離れてい
る場合である。このときR1にはgⁿ（ｉ−１、j′）、
R2にはgⁿ（ｉ−１、j′−１）が記憶されている。
（ｎ、j′＋１）が集合ｗに含まれないことから、
gⁿ（ｉ、j′＋１）はこれらの２データより決定さ
れるゆえによつて gⁿ（ｉ、j′＋１）＝mingⁿ（ｉ−１、j′） gⁿ（ｉ−１、j′−１）
……(9) なる形で(2)式を簡略化して実行する。次いでR0
にgⁿ（ｉ、ｊ）を読み出す。（ｎ、ｊ−１）が集合
ｗに含まれていないこと、R1にgⁿ（ｉ−１、j′）
としてgⁿ（ｉ−１、ｊ−２）が記憶されているこ
とからによつて gⁿ（ｉ、ｊ）＝mingⁿ（ｉ−１、ｊ） gⁿ（ｉ−１、ｊ−２） ……(10) なる(2)式の簡略形を実行する。によつてR1に
gⁿ（ｉ−１、ｊ）をセツトし、によつて集合ｗ
に含まれないgⁿ（ｉ−１、ｊ−１）に代わるもの
として∞をR2にセツトする。

最後の(D)は、同一単語でｊとj′が１だけ離れて
いる場合、すなわち連続している場合である。
によつてR0にgⁿ（ｉ−１、ｊ）を読み出した後、
によつて(2)式をそのまま実行する。、によ
つてR1にはgⁿ（ｉ−１、ｊ）が、R2にはgⁿ（ｉ−
１、ｊ−１）がセツトされる。

以上述べた方法によると、多くの場合漸化式(2)
を(7)〜(10)式のように簡略化して計算することがで
き、第３図のような不利を避けることができる。
しかもgⁿ（ｉ−１、ｊ）のメモリへのアクセスは
上記(A)〜(D)のいずれのケースでも各１回であり、
実効的な高速化が可能となる。

（実施例）第４図は本発明によるパターンマツチング方式
に基づいた離散単語型の音声認識装置の構成例を
示すブロツク図であり、第５図はその動作を示す
フローチヤートである。マイクロホン１０より入
力された音声信号は分析部１０によつて周波数分
析され、マイクロプロセツサ３０に入力される。
マイクロプロセツサ３０には前記の手続（６−
１）〜（６−４）で使用するためのレジスタR0、
R1、R2が内蔵されている。また外部には標準パ
ターンBⁿ＝〓₁ ⁿ、…〓ⁿ _j、…〓ｎ_Joを記憶するため
の標準パターン記憶部４０と、gⁿ（ｉ、ｊ）のワ
ークメモりとなるｇメモリ５０とが接続されてい
る。

このｇメモリ５０は、gⁿ（ｉ−１、ｊ）とgⁿ
（ｉ、ｊ）のための２段分用意され、各単語ｎご
とにｊ＝１、２、…Jⁿ、Jⁿ＋１、Jⁿ＋２のアドレ
スを有している。この最後の２個は、手続（６−
１）の処理においてj′−Jⁿ′であつたとき、が
空回りするためのエリアとなるものである。ま
た、ｎ＝０に対してはｊ＝０、ｊ＝−１の２アド
レスが余分に用意されている。これについては後
で説明する。

最初の入力ベクトルａ｜₁が与えらえると、ｇメ
モリ５０内のgⁿ（ｉ−１、ｊ）に対して次のよう
な初期設定が行なわれる。

gⁿ（１、１）＝dⁿ（１、１） gⁿ（１、ｊ）＝∞（ｊ≠１） ……（11）これらは特願56−199098号明細書第６図ａの場
合と同様である。

一般的に時刻ｉでは第５図に示す処理が実行さ
れる。まずａ｜_iが入力されるとブロツク100により
ｇメモリ５０内のgⁿ（ｉ、ｊ）のテーブルを総て
∞でリセツトする。これは虫喰い的に漸化式計算
を行なうことにより生じる未定義の累積距離gⁿ
（ｉ、ｊ）が次の時刻ｉ＋１で不都合を生じさせ
ないようにするためである。次にｎ＝１、n′＝
０、j′＝−２なる初期設定がなされる。n′＝０、
j′＝−２とするのは、このｉサイクルで最初に手
続（６−１）の処理が実行されるときとの処
理が、先に説明したg⁰（ｉ、−１）とg⁰（ｉ、０）
で空回りできるようにするためである。

一般的な（ｎ、ｊ）に対しては、ブロツク120
でgⁿ（ｉ−１、ｊ）をR0に読み出し、130で閾値
θ(i)との比較を行なう。これは先に述べた集合ｗ
にこの（ｎ、ｊ）が含まれるか否かのテストであ
る。閾値θ(i)はｉの単調増加関数として予かじめ
与えられている。R0＞θ(i)のときは、このｊに
対する処理はすべて省略される。R0＜θ(i)のと
きはｎとn′、ｊとj′の関係がテストされ、それぞ
れに応じて（６−１）、（６−３）、（６−４）のい
ずれかの処理がなされる。なお、（６−２）の処
理は本質的に同等な（６−１）とまとめてブロツ
ク140に示している。また、gⁿ（ｉ−１、ｊ）は
120のブロツクでR0に読み出されているので、
（６−１）式の等はR0からの転送でよく、（６
−３）の等は省略してもよい。

以上の処理をｎ、ｊの２重ループとして回すこ
とによつて時刻ｉのサイクルは終了する。このサ
イクルで計算されたgⁿ（ｉ、ｊ）を過去の最適累
積値gⁿ（ｉ−１、ｊ）として切り替えて次のｉ＋
１のサイクルに移行する。

かくして時刻Ｉまでの処理が行なわれ、入力音
声が終了しｉ＝Ｉ＋１となつた時点では、各単語
ｎごとにｇメモリ５０内にgⁿ（ｉ−１、Jⁿ）とし
てパターン間距離Ｄ（Ａ、Bⁿ）が得られる。これ
らを比較して最小となる単語ｎ＝n^として認識結
果を定め出力する。

以上、本発明の原理を実施例に基づいて述べた
が、これらは本発明の範囲を限定するものではな
い。特に、第３図におけるブロツク130の判定処
理には種々の変形が考えられる。閾値θ(i)の定め
方に関しても、予じめ人手によつて定義しておく
方法の他に、gⁿ（ｉ−１、ｊ）の最小値にリンク
させて設定するなどの変形が考えられ、本発明の
権利範囲に属するものである。

また以上の説明では、基本的な漸化式として(2)
式を用いたが、「日経エレクトロニクスの1983年
11月７日号第184頁の表１」に記載されるが如き、
種々の変形の漸化式についても本発明の原理は適
用される。さらに本発明は特願昭56−199098記載
のクロツクワイズDP法と同様連続単語認識に利
用できるものである。

（発明の効果）以上述べた本発明の原理によるとDP漸化式の
計算を、必要な（ｎ、ｊ）点のみで、極めて無駄
なく実行することができ、安価かつ高速な音声認
識装置を実現・提供できる。

【図面の簡単な説明】

第１図、第２図、第３図は本発明の原理説明
図、第４図は実施例ブロツク図、第５図はその動
作を説明するフローチヤートである。１０……マイクロホン、２０……分析部、３０
……マイクロプロセツサ、４０……標準パターン
記憶部、５０……ｇメモリ。

Claims

【特許請求の範囲】

１各単語ｎの標準パターンを特徴〓_j ⁿの時系列
Bⁿ＝〓₁ ⁿ…〓_j ⁿ…〓ⁿ _Joとして記憶する手段と、入
力音声パターンの特徴ａ｜_iを一時保存する手段と、
それぞれの単語ｎに対応して前記特徴ａ｜_iと〓_j ⁿと
の距離dⁿ（ｉ、ｊ）の最適累積値gⁿ（ｉ、ｊ）を動
的計画法の漸化式によつて計算する手段とを有
し、各時刻ｉにて、過去の最適累積値に基づいて
新たな最適累積値gⁿ（ｉ、ｊ）を計算する（ｎ、
ｊ）を制限し、かつ各（ｎ、ｊ）点における漸化
式計算処理を、直前に計算されたｎとｊの点
（n′、j′）との相互関係で制御することを特徴とす
る高能率パターンマツチング方式。