JPH0228875B2

JPH0228875B2 -

Info

Publication number: JPH0228875B2
Application number: JP56085895A
Authority: JP
Inventors: Kaaru Beekaa Jeemuzu; Matsukiibaa Beekaa Janetsuto
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1980-07-02
Filing date: 1981-06-05
Publication date: 1990-06-26
Also published as: US4348553A; EP0043006B1; JPS5730900A; EP0043006A2; EP0043006A3; DE3173355D1

Description

【発明の詳細な説明】

本発明の分野本発明はデイジタル・パターン認識システムに
関し、具体的には入力パターンと記憶された模範
パターンの集合とを比較する認識システムに関す
る。背景の技術パターン認識適用分野において、時間変動パタ
ーンを、一群の模範パターンと比較する必要が生
じる。ここで所与のパターンが必ずしも均一の速
度で再発生しない場合、大きな問題が起る。短時
間しか持続しないパターンの場合、測定されたパ
ターンと記憶されたプロトタイプ（prototype）
とは、周知の技法（例えば交差相関法、フイルタ
比較法、最小距離測定法など）によつて比較され
てよい。長時間持続するパターンの場合、測定されたパ
ターンと記憶されたプロトタイプとの部分ごとの
時間的配列を調整することが必要である。例え
ば、米国特許第3700815号は、話し手の音声のサ
ンプルと、予め記憶されたサンプルから引出され
た同一テキストの標準音声とを比較することによ
つて、話し手の真偽を確かめるシステムを開示し
ている。話し手が本人として受入れられるか拒絶
されるかは、多数の音声パラメータ（例えばフオ
ーマツト周波数、ピツチ速度、音声エネルギな
ど）が一致するかどうかによつてきめられる。一
致の程度は、サンプルと標準音声とを時間的に配
列することによつて評価される。時間的配列は、
非線形的処理によつてなされるが、この処理は、
時間尺度をこま切れ的かつ連続的に線形変換する
ことによつてサンプルと標準との類似性を最大に
しようと試みる。最大の類似性を達成するのに必
要な時間変換の程度は、本人であることを認める
か拒絶するかの決定に影響を与える。時間的配列の問題は、簡単な例によつて説明で
きる。パターンがアルフアベツト文字のストリン
グよりなるものと仮定する。パターンの基本部分
は単一の文字である。測定されたパターンの基本
部分と記憶されたプロトタイプの基本部分との差
異の程度は、アルフアベツト順に配置された文字
の距離によつて表わされる。表Ａ　　Ｙ　　Ｍ　　Ｂ　　Ｐ　　Ｗ　　Ｃ
……測定されたパターンＤ　　Ｗ　　Ｒ　　Ｅ　　Ｑ　　Ｚ　　Ｈ
……記憶されたプロトタイプ３　　２　　５　　３　　１　　３　　５
……距離全体の距離：22 表に例においては、時間的配列の問題は発生
せず、測定されたパターンと記憶されたプロトタ
イプとの全体の距離は、容易に22であると分る。

【表】挿入：３
置換距離：０
表の例において、挿入された文字及び削除さ
れた文字について配列の問題が生じる。表で
は、置換（文字の変更）がないから、正しい配列
状態を発見することは容易である。

〔log γ_w（ｔ−１、ｉ）＋a〓_w（ｉ、ｊ）〕

＋b〓_w〔ｉ、ｊ、Ｐ（ｔ）〕この値は、部分結果メモリ３２中に記憶され
る。第１図において、左方の２個の局部決定モジユ
ールを除く各モジユールは、２個の先行するモジ
ユールへ接続される。この構造は、任意の時間的
圧縮を可能とし（即ち、測定されたパターンから
セグメントを削除すること）、かつ２又は１のフ
アクタだけ時間的伸長を行うことを可能とする
（即ち、セグメントの挿入）。しかし、局部決定モ
ジユールは、どのような態様でも接続することが
できる。どのような態様を選択するかは、モデル
化されるプロセスによつて決定されるべきであ
る。時間的再配列の範囲は、Ｒコントロール及び
局部決定モジユールの相互接続によつて、完全に
決定される。第６図は、測定されたパターンと記憶されたプ
ロトタイプ・パターンの全ての可能な時間ずれと
を比較するため、局部決定モジユール中で使用さ
れるハードウエアを例示する回路図である。局部
決定モジユールは、256個の記憶されたプロトタ
イプを与える。一般的なパターン・プロトタイプ
における各ノードのために別個の比較モジユール
を並列に動作させることにより、システムは、１
秒当り1000回の測定を超える良好な速度で、256
個のプロトタイプの全てと測定パターンのシーケ
ンスとを比較することができる。確率の乗算は、その対数を加算することによつ
て実行される。対数関数は単調であるから、確率
の比較はその対数比較によつて実行される。部分
結果メモリ７０は、256×８ビツトのランダム・
アクセス・メモリであり、現在の測定パターンま
での（但し、それを含まない）最良比較の対数確
率を含む。部分結果メモリ７０は、第３図に示さ
れる部分結果メモリと同じ機能及び動作を実行す
る。同様に、第６図に示される他のハードウエ
ア・エレメントは第３図、第４図、第５図に示さ
れた対応エレメントと同じ機能及び動作を実行す
る。第５図及び第４図に示されるＷコントロール
６４及びＲコントロール４０は、第６図において
同一の番号で示されている。Ｗコントロール６４は線６６上に現在のワー
ド・アドレスを与える。このアドレスは、部分結
果メモリ７０において256個のプロトタイプの中
で更新されつつあるものを選択する。メモリ７０
は、８×256ビツトのランダム・アクセス・メモ
リである。それぞれの局部決定モジユール１０ａ
―１０ｎは、所与の時点で、Ｗコントロール６４
によつて得られた同じワード上で動作する。それ
ぞれの測定パターンについて、Ｗコントロール６
４は局部決定モジユールを256個のプロトタイプ
の各々へ進める。次いで、測定パターンが準備さ
れる。第６図において、１０４はセレクタであり、１
０６はワード・プロトタイプ・コントローラであ
る。それぞれの局部決定モジユールは線７２を介
してそれ自体の部分結果メモリ７０から入力を受
取ると共に、マルチプレクサ７６へ入る入力７４
によつて示されるように、７個までの他の局部決
定モジユールから部分結果メモリの内容を受取
る。マルチプレクサ７６は８対１のマルチプレク
サであり、線４１を介してＲコントロール４０に
よつて制御される。マルチプレクサ７６は８個の
入力の１つを選択し、アキユムレータ・メモリ７
８において、入力対数確率は、推移見込メモリ８
２から線８０を介して受取られた推移確率の対数
へ加えられる。アキユムレータ・メモリ７８は４
ビツト加算器であり、推移見込メモリ８２は16×
４のランダム・アクセス・メモリである。一時的
記憶レジスタ８４は、アキユムレータ・メモリ７
８から線８６を介して受取られた入力及び推移確
率の対数の最良の組合せを記憶する。一時的記憶
レジスタ８４は、Ｒコントロール４０からのＲ出
力が１から８まで変化するにつれて、４ビツト比
較器８８から出る出力線９０により連続的に更新
される。一時的記憶レジスタ８４は、Ｗコントロ
ール６４が津進されるときクリアされる。前述したように、入力及び推移確率の対数の最
良の組合せは、一時的記憶レジスタ８４によつて
線９２へ与えられる。線９２は比較器８８及びア
キユムレータ９４へ接続されている。アキユムレ
ータ９４は４ビツト加算器である。一般的なパターン・プロトタイプにおけるそれ
ぞれのノードについて、256個のパターンごとに
内部事象を指定する識別情報が存在する。上記の
内部事象は、特定のパターンについてそのノード
に対応する。スクランブル・インデツクス・メモ
リ９６は、そのような識別情報を記憶する。便宜
上、識別情報の数は256と設定されたが、その数
は、スクランブル・インデツクス・メモリ９６の
ワードの長さ、及び基本認識結果メモリ９８にお
けるワードの数を増加させることによつて拡張す
ることができる。実施例において、スクランブ
ル・インデツクス・メモリは８×256ビツトのラ
ンダム・アクセス・メモリより成る音声辞書であ
る。もし比較されるべきパターンのセツトが固定
していれば、推移見込メモリ８２及びスクランブ
ル・インデツクス・メモリ９６は、読取専用メモ
リで構成することができる。基本認識結果メモリ９８は４×256ビツトのラ
ンダム・アクセス・メモリであつて、内部事象へ
条件件づけられた現在の測定パターンの対数確率
を保持する。上記の内部事象は、スクランブル・
インデツクス・メモリ９６から得られた識別情報
によつて指定される。それぞれの測定パターンに
ついて、確率は中央プロセツサによつて計算さ
れ、計算結果は全ての局部決定モジユール１０ａ
―１０ｎの基本認識結果メモリ９８へ並列にロー
ドされる。アキユムレータ９４は、一時的記憶レ
ジスタ８４から線９２を介して得られた最良の入
力及び推移の組合せを、基本認識結果メモリ９８
から線１００を介して受取られた現在の測定結果
へ加算し、加算結果を部分結果メモリ７０への線
１０２へ与える。この時点で、局部決定モジユー
ルは、Ｗコントロール６４から得られたカウンタ
値を増進することによつて、次のプロトタイプ・
パターンを処理する準備を整える。第６図を参照して説明された局部決定モジユー
ルは、８個のそれらモジユールが使用されるシス
テムにおいて、256個のプロトタイプを選択する
特殊のハードウエアを含むが、本質的には第３
図、第４図、第５図を参照して説明された局部決
定モジユールと同じ機能及び動作を実行する。具
体的に説明すると、第３図に示される部分結果メ
モリ３２は、第６図に示される部分結果メモリ７
０と同じである。第３図及び第４図に示されるセ
レクタ２６は、第６図のセレクタ１０４と同じで
ある。セレクタ１０４はマルチプレクサ７６、ア
キユムレータ・メモリ７８、推移見込メモリ８
２、比較器８８、一時的記憶レジスタ８４を含
む。Ｒコントロール４０も含まれる。更に、第５
図に示されるワード・プロトタイプ・コントロー
ラ２０は、第６図のワード・プロトタイプ・コン
トローラ１０６と同じものである。ワード・プロ
トタイプ・コントローラ１０６はＷコントロール
６４、スクランブル・インデツクス・メモリ９
６、基本認識結果メモリ９８を含む。第３図に示
されるアキユムレータ２８は、第６図に示される
４ビツト加算器のアキユムレータ９４と同じであ
る。以上説明したように、本発明では、複数の継続
した局所決定装置（１０ａ〜１０ｎ、第１図）を
設け、これを標準ワード音声パターンの継続した
セグメント（たとえば0.01秒）に順次対応付け、
各局所決定装置のメモリ（２２、第５図）にすべ
ての標準ワード音声パターンにつき、対応するセ
グメント位置の標準セグメント・パターンをスト
アするようにして、さらにすべての局所決定装置
の他のメモリ（５６、第５図）にすべての種類の
標準セグメント・パターンとすべての種類の入力
セグメント・パターンとの相関値をストアするよ
うにしている。入力セグメント・パターンは入力
音声パターンをセグメントごとに分類して生成す
るものであるが、標準セグメント・パターンのセ
ツトを用いてもよい。本発明ではこのようにすることによりヒドン・
マルコフ・モデル（Hidden Markov Model）
の音声認識を極めて高速に行る。すなわち、この
音声認識ではｒ（ｔ、ｊ）＝ Maxⁱ 〔ｒ（ｔ−１、ｉ） ×ａ（ｉ、ｊ）〕×ｂ〔ｉ、ｊ、Ｐ（ｔ）〕の計算を行うが、ｂ〔ｉ、ｊ、Ｐ（ｔ）〕すなわち
位置ｉからｊへの遷移でパターンＰ（ｔ）を出力
する確率をｂ〔ｌ、Ｐ（ｔ）〕で近似し、これらｂ
〔ｌ、Ｐ（ｔ）〕を各局所決定装置にストアしてお
き、高速処理を行えるようにしているのである。
なおｂ〔ｌ、Ｐ（ｔ）〕は標準セグメント・パター
ンｌ（レーベル）と入力セグメント・パターンＰ
（ｔ）との相関値で、トレーニング時に予め作つ
ておく。

【図面の簡単な説明】

第１図は本発明に従う音声認識システムの全体
的ブロツク図、第２図は第１図に示される基本認
識装置の詳細図、第３図は第１図に示される局部
決定モジユールの詳細図、第４図は局部決定モジ
ユールで使用される局部的最適時間ひずみのセレ
クタを示すブロツク図、第５図は局部決定モジユ
ールで使用されるワード・プロトタイプ・コント
ローラを示すブロツク図、第６図は記憶されたプ
ロトタイプの全ての可能な時間ひずみと測定され
たパターンとを比較するため局部決定モジユール
中で使用されるハードウエアを示す回路図であ
る。第７図は本発明に従う上述音声認識システム
の例の原理的な構成を示すブロツク図である。１０ａ―１０ｎ…局部結定モジユール、１２…
基本認識装置、１４…Ａ／Ｄ変換器、１２ｄ…相
関装置、２０…ワード・プロトタイプ・コントロ
ーラ、２６…局部的最適時間ひずみのセレクタ、
２８…局部比較のアキユムレータ。

Claims

【特許請求の範囲】１認識対象ワードを発音したときに測定される
音声パターンを一定時間間隔のパターン・セグメ
ントに分割し、このパターン・セグメントを分類
して入力パターン・セグメントの識別子を出力す
る基本認識装置２１２と、標準ワード音声パター
ンに共通な縦続した一定時間間隔のパターン・セ
グメント位置ごとに設けられた複数の局部決定モ
ジユール２１０ａ，…，２１０ｎとを有し、上記局部決定モジユールの各々は、当該局部決定モジユールに対応するパターン・
セグメント位置における各標準ワード音声パター
ンの標準時パターン・セグメントの識別子を記憶
する識別子記憶部２２２と、各標準パターン・セグメントおよび各入力パタ
ーン・セグメントの間の相関値を記憶する相関値
記憶部２５６と、上記基本認識装置から出力される入力パター
ン・セグメントの識別子および上記音声パターン
に比較しようとしている標準ワード音声パターン
の標準パターン・セグメントの識別子に応じて上
記識別子記憶部および相関値記憶部を制御して対
応する相関値を取り出し、上記基本認識装置から
出力された入力パターン・セグメントが、当該局
部決定モジユールに対応するパターン・セグメン
ト位置に関連して生成される入力パターン・セグ
メント生成確率として出力する生成確率発生部２
２０と、標準ワード音声パターンの１つのパターン・セ
グメント位置から１つのパターン・セグメント位
置へ遷移する遷移確率を記憶する遷移確率記憶部
２４４と、当該局部決定モジユールの出力を送出する出力
部２３２と、当該局部決定モジユールの出力および先行する
パターン・セグメント位置に対応する他の局部決
定モジユールからの出力を択一的に受け取る切換
部２４２と、上記切換部から択一的に出力される、当該局部
決定モジユールの出力および先行するパターン・
セグメント位置に対応する他の局部決定モジユー
ルからの出力のうちの１つに、対応する遷移確率
を累積する遷移確率累積部２５２と、当該局部決定モジユールの出力および先行する
パターン・セグメント位置に対応する他の局部決
定モジユールからの出力の各々に応じて上記遷移
確率累積部で累積された累積結果の最適値を出力
する最適値決定部２５４と、上記最適値に上記入力パターン・セグメント生
成確率を累積して、当該局部決定モジユールに対
応するパターン・セグメント位置までの、上記音
声パターンと、この音声パターンに比較しようと
している標準ワード音声パターンとの間の部分的
な尤度として上記出力手段から出力される生成確
率累積部２２８とを有し、上記音声パターンに比較しようとしている標準
ワード音声パターンの最終のパターン・セグメン
ト位置に対応する局部決定モジユールからの出力
を、上記音声パターンと上記比較しようとしてい
る標準ワード音声パターンとの間の尤度とし、こ
の尤度に基づいて上記音声パターンの認識を行う
ようにしたことを特徴とする音声認識システム。