JPH02296298A

JPH02296298A - パターン認識方法および標準パターン学習方法

Info

Publication number: JPH02296298A
Application number: JP1117706A
Authority: JP
Inventors: Kenichi Iso; 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-05-10
Filing date: 1989-05-10
Publication date: 1990-12-06
Anticipated expiration: 2011-10-23
Also published as: EP0397136A3; CA2016342C; EP0397136B1; DE69029425D1; CA2016342A1; EP0397136A2; DE69029425T2; JP2545982B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声信号などのように特徴ベクトルの時系列と
して表されるパターンを認識するパターン認識方式に関
する。

（従来の技術）音声などのベクトル時系列を認識する方式として、隠れ
マルコフモデル（以下、ｒＨＭＭＪと略記する）がよく
知られている。ＨＭＭではベクトル時系列がマルコフ確
率過程によって生成されたとしてモデル化している。Ｈ
ＭＭの標準パターンは複数の状態とその状態間の遷移で
表されており、各状態はあらかじめ決められた確率分布
に従ってパターンベクトルを出力し、状態間の遷移には
あらかじめ決められた遷移確率が付随している。入力パ
ターンと標準パターンの間の距離は、標準パターンであ
るマルコフ確率モデルが入力パターンベクトル列を生成
する尤度によって与えられる。ＨＭＭの詳細に関しては
［確率モデルによる音声認識ｊ（電子情報通信学会編、
中耕を一著、１９８８年）に解説されている。

（発明が解決しようとする問題点）ＨＭＭはパターンベクトル系列がマルコフ確率過程に従
って生成されたことを仮定綻してモデル化を行なってい
るために、パターンベクトル系列のベクトル間の時間的
相関は隣接フレーム間の相関だけしか考慮されていない
。したがって、音声パターンなどにおける時間的に離れ
た相関、たとえば、発声の前半部の発声速度と後半部の
発声速度の間の相関などを直接モデル化することは困難
である。

またＨＭＭは［パターンベクトル系列の時間的な構造」
と「各ベクトルのベクトル空間内の分布Ｊを独立にモデ
ル化しているために、音声パターンなどにおける発声の
時間的構造と各時点のスペクトルパターンベクトルの間
の相互依存性（相関）を考慮にいれたモデル化を行なう
ことが難しい。

本発明の目的は認識対象とするパターンベクトル系列の
時間構造における任意の長さの時間的相関と、時間構造
と各ベクトルのベクトル空間内の分布の間の相関を取り
入れることができるような表現能力の高い標準パターン
のモデルを用いたパターン認識方式と、学習用のパター
ンベクトル系列から自動学習によって標準パターンモデ
ルを構築することができるような学習方式を提供するこ
とにある。

（問題点を解決するための手段）本発明は音声などのように特徴ベクトルの時系列として
表されたパターンを認識するパターン認識方式で、各認
識対象カテゴリ毎に順序づけられた状態モデルから構成
される標準パターンを有し、各状態モデルは固定長のパ
ターンベクトル列と過去の予測の際に出力された状態ベ
クトルを入力として予測パターンベクトルと新しい状態
ベクトルを出力する、機能を有し、認識時には入力パタ
ーンを部分列に分割して前記状態モデルを各部分列に割
り当てて、各部分列の始点から順次固定長のパターンベ
クトル列を切り出して割り当てられた状態モデルに入力
して予測パターンベクトル部分列を算出し、各状態モデ
ルによる予測パターンベクトル部分列を連結して得られ
る予測パターンベクトル系列と入力パターンベクトル系
列の間の予測誤差を最小にするような入力パターンの部
分列への分割を選び出し、その時の予測誤差を入力パタ
ーンと該標準パターンとの距離とすることを特徴とする
。

標準パターンを学習により構成する標準パターン学習方
式は、状態モデルのパラメータの初期値を設定し、カテ
ゴリ既知の学習パターンと同カテゴリの標準パターンの
間の予測誤差を認識時と同様の手順で算出し、この予測
誤差を必ず減少さぜる方向に各状態モデルのパラメータ
を微小量修正する機能を有し、予測誤差の算出とパラメ
ータの修正を繰り返し行なうことにより標準パターンを
作成することを特徴とする。

（作用）本発明のパターン認識方式および標準パターン学習方式
では、各認識対象カテゴリの標準パターンは順序づけら
れた複数の状態モデルから構成されている。基本単位と
なる状態モデルは固定長のパターンベクトル列と過去の
予測のときに出力された二犬態ベクトルを入力として、
予測パターンベクトルと新しい状態ベクトルを出力する
。この状態モデルは一種の予測器として動作し、時刻ｔ
までの入力パターンベクトル系列から次の時刻ｔ＋１に
出現すべきパターンベクトルを予測して出力する。

さらにより良い予測を行なうために複数の予測器を予測
誤差が最小になるように動的計画法などを用いて適応的
に切り替えて、最適な予測を行なう。認識には入力パタ
ーンベクトル列と入力パターンベクトル列から予測され
た予測パターンベクトル列の間の予測誤差（２乗距離な
ど）を距離として用いる。標準パターンの学習は予測誤
差を評価関数とした最急降下法を用いて行なう。

以下に本発明のパターン認識方式および標準パターン学
習方式の詳細を説明する。説明では音声パターンを認識
する場合を中心に議論することにする。その他の時系列
パターンに対しても音声パターンの部分をパターンベク
トル列に読み変えれば同様に適用できる。

基本単位となる状態モデル（予測器）は時刻ｔまでの入
力音声・の特徴ベクトル系列（ａ１ａ２・・・ａｔ）か
ら次の時刻ｔ＋１に出現するべき特徴ベクトルＡｔ＋１
を予測する。過去の特徴ベクトルの履歴を予測器に与え
る方法としては入力音声から切り出した過去の固定長の
特徴ベクトル列を入力するＦＩＲフィルタ的な方法と、
これにさらにフィードバックを導入して等測的に無限の
過去の特徴ベクトルを入力するＩＩＲフィルタ的な方法
とがある。ｒＩＲフィルタ的な状態モデルはＩＩＲフィ
ルタ的な状態モデルにおいて、フィードバックのパラメ
ータをＯにした特別な場合と考えられるので以下ではＩ
ＩＲフィルタ的な状態モデル（予測器）に関して説明す
る。

単語５（ｓ＝１．・・・、Ｓ）の標準パターンモデルの
第ｎ番目の状態モデル（ｎ”　ｌ、１．−．１’Ｊ、）
の特性は次式で与えられる。

ここで、Ａｔ＋１（ｓ＋ｎ）は時刻ｔ＋１の予測ベクト
ルｈｔ＋　ｔ（ｓ、ｎ）は時刻ｔ＋１の予測Ａｔ＋１（
ｓ、ｎ）の際に出力された状態ベクトル、ｆ（・）、ｇ
（・）はそれぞれパラメータＸ、Ｙによって特徴づけら
れる非線形のベクトル値関数である。ここでｘ、Ｙはそ
れぞれ複数のパラメータを代表して表している。予測に
用いる固定長のベクトル列として表記を簡単にするため
に上式では１フレ一ム分のベクトル却だけを与えている
が、ここに３フレームのベクトル（ａｔ−２ａｔ−□ａ
ｔ）を与えることも可能で、本方式は複数フレームにし
ても全く同様に適用することができる。

また１、状態モデルとして再帰型ニューラルネットワー
ク（ｒＰＤＰモデル」産業図書、１９８９年、３５７頁
に解説がある）を用いる場合は状態モデルの特性は次式
で与えられる。

ここでｆ（・）は引き数のベクトルの各成分にシグモイ
ド関数を適用して得られるベクトル、Ｕ（ｓ、ｎ）、Ｖ（ｓ、ｎ）、Ｗ（ｓ、ｎ）はニューラ
ルネットワークのユニット間結合係数行列で、式（１）
のパラメータＸ、Ｙに対応しており、式（２）は式（１
）の特別な場合であることは容易にわかる。この場合状
態ベクトルｈｔ＋１（Ｓ、ｎ）はニューラルネットワー
クの隠れ層の出力値の組に対応する。第１図に再帰型ニ
ューラルネットワークを用いた状態モデルを示す。

式（１）または（２）においては、入力に１フレーム前
の予測の際に出力された状態ベクトルｈｔ（ｓ、ｎ）を
与えることによってフィードバックを実現しており、状
態ベクトルｈｔ（Ｓ＋ｎ）を介して、予測には時刻を以
前の無限の過去のベクトル系列が反映されている。

以下では表記を簡単にするために式（２）で表される状
態モデル（再帰型ニューラルネットワーク）を用いた場
合に関して説明するが、より一般的な式（１）の場合も
以下の説明は全く同様に成り立つ。

式（１）で定義される状態モデルの集合で表される標準
パターン（単語モデル）を用いて未知入力音声を認識す
るアルゴリズムを述べる。未知入力音声を分析して得ら
れる長さＴの特徴ベクトル系列をａｌ、ａ２）・・・町
とする。このとき入力音声と単語Ｓのモデルの間の距離
Ｄ（ｓ）を次式で定義する。

Ｄ（ｓ）＝ｍｉｎΣ　ＩＩＡｔ（ｓ、ｎ（ｔ））＝ａｔ
ｌ１２（３）ｎ（ｔ）　　　ｔ＝　１ここで記号１１・１１はベクトルのノルム、ｎ（ｔ）は
長さＴの入力音声をＮｓ個の状態で分担して予測する際
の分割を定めるものでｎ（ｔ）は時刻ｔの予測に使われ
る状態の番号ｎ（ｎ＝１・・・Ｎ８）を表している。こ
のｎ（ｔ）は次の条件を満たず単調非減少関数である。

ｎ（１）＝　１゜ｎ（Ｔ）＝　Ｎｓ、　　　　　　　　　　　　　　　（
４）ｎ（Ｔ）＝ｎ（ｔ−１）　ｏｒ　ｎ（ｔ−１）＋１
．　　（１＜ｔ≦Ｔ）。

式（３）、（４）を満足するようなｎ（ｔ）は第２図の
平面上での動的計画法（ＤＰマツチング、文献「確率モ
デルによる音声認識」前出に詳しい）で容易に求めるこ
とができる。

しかしここでＤＰパス１に対応する状態間の遷移が生じ
たときの境界点（第２図の■で表された格子点）での処
理には注意を要する。即ち各状態は独立した予測器であ
るが、予測のために１フレーム前の時点での状態ベクト
ルを必要とするので、状態間の遷移が生じた場合はその
境界点でどちらの状態の状態ベクトルを用いるのかあら
かじめ定めておかなければならない。以下の説明では、
接続される可能性のあるすべての状態の状態ベクトルの
次元数を等しくしておき、境界点では１フレーム前の予
測の際に出力された状態ベクトルをそのまま用いること
にする。

次に境界点処理も含めた基本的な認識アルゴリズムを示
しておく。

・初期条件（ｔ＝１）Ｈｌ（ｓ、１）＝ｆ（Ｕ（ｓ、１）ａｌ）　、、、、、
、、、、、、、、、、、、　（Ａｌ）Ａ１（ｓ、１）＝
ｆ（Ｗ（ｓ、１）Ｈｌ（ｓ、１））　　、、、、、、、
、、、、、　　（Ａ２）ｇ（ｓ、１．１）＝　ＩＩ　Ａ
１（ｓ、１）　−ａＩ　Ｉｆ　、、、、、、、、、、、
、、　（Ａ３）、漸化式（１＜ｔ≦Ｔ、ｐ＝（０，１）
）ｈ（（ｓ、ｎ、ｐ）＝ｆ（Ｕ（ｓ、ｎ）ａｔｌｌＶ（
ｓ、ｎ）Ｈｔｌ（ｓ、ｎ−ｐ））　、、、、、、、、、
、　（Ｂｌ）Ａｔ（Ｓ、ｎ、Ｐ）”ｆ（Ｗ（Ｓ、ｎ）ｈ
ｔ（ｓ、ｎ、ｐ））　、、、、、、、、、、　（Ｂ２）
ｄ（ｓ＋ｔ＋ｎ、ｐ）＝　Ｉｆ　ＡＨ（ｓ、ｎ、ｐ）−
ａｔｌｌ　、、、、、、、、、、　（Ｂ３）ｇ（ｓ＋ｔ
＋ｎｔｐ）＝［ｄ（ｓ、ｔ、ｎ、ｐ）　十ｇ（ｓ、ｔ、
ｎ　　ｐ）］　、、１．（Ｂ４）ｇ（ｓ、ｔ、ｎ）＝ｍ
ｉｎｐ＝（ｏ、ｘ）［ｇ（Ｓ、ｔ、ｎ＋Ｐ）］　、、、
−−−６（Ｂ５）Ｐ＝ａｒｇｍｉｎｐ［ｇ（ｓ、ｔ、ｎ
、ｐ）］　、、、、、、、、、、、、、、、　（Ｂ６）
Ｈｔ（ｓ、ｎ）＝＝ｈｔ（ｓ、ｎ＋ｐ）　Ｈ＋、＋　Ｈ
Ｈ＋＋　＋、＋　＋、＋　＋、＋　、−（Ｂ７）・認識
結果ＯＤ（ｓ）＝ｇ（ｓ、Ｔ、Ｎ、）　、、、、、、、、、、
、’、、、、、、、、、、　（Ｃ１）ｏ＝ａｒｇｍｉｎ
８［Ｄ（ｓ）］　、、、、、、、、、、、、、、、６．
．．　（Ｃ２）時刻ｔ＝ｉでは過去の情報はないのでこ
こでは入力ａ１から同じ時刻の予測ベクトルＡ工（ｓ、
１）を予測している。これは入力ａ１のコピーをａＱと
しているのと同じことである。ｇ（ｓ＋Ｌ’）は始端格
子点（ｔ、ｎ）＝（１，１）での累積距離である。

漸化式において変数ｐはＤＰパスを表し、ｐ＝Ｑがパス
０、ｐ＝１がパス１を表している。各格子点（ｔ、ｎ）
ではパスＯとパス１のそれぞれに対応する隠れユニット
の出力ｈｔ（Ｓ＋ｎ＞ｐ）を算出し、対応する予測ベク
トルＡｔ（ｓ、ｎ、ｐ）とその入力特徴ベクトルａＨ＆
の間の距離ｄ（ｓ、ｔ、ｎ、ｐ）をそれぞれ計算してお
き、ＤＰ漸化式（Ｂ４）、（Ｂ５）によって最適なりＰ
パスＰと累積距離ｇ（ｓ、ｔ、ｎ）を求める。また最適
経路上の予測に用いられた状態ベクトルｈｔ（ｓ、ｎ、
Ｐ）を格子点（ｔ、ｎ）における状態ベクトルＨ１（ｓ
、ｎ）として格納する。

認識はｇ（ｓ、ｔ、Ｎｓ）を単語Ｓと入力音声の間の距
離Ｄ（ｓ）として、認識対象単語の中で最小の距離を与
える単語σを認識結果とする。

また以上の説明から知れるように本方式では、隣接する
状態モデルの間に直接の依存性がないために、複数の標
準パターンを連結して新たな標準パターンとして連続音
声を認識することが可能である。さらにこの場合、累積
距離を入力音声のフレームに同期して計算でき、累積距
離がフレーム数の増加に関して加法的に増加するので、
有限状態オートマトン制御クロック同期伝播型ＤＰ法（
［クロック同期伝播ＤＰ法による連続音声認識の検討］
迫江、亘理、音声研究会資料８８１−６５．１９８１年
１２月）を用いて連続音声認識を非常に効率よく行なう
ことが可能になる。

次に標準パターンのモデルを学習によって自動的に構築
する標準パターン学習方式について説明する。単語Ｓの
モデルをＭ３個の学習用音声（単語Ｓ。

Ｍｓ回全発声ｍ＝１・・Ｍ、）から学習するアルゴリズ
ムは次の通りである。モデルのパラメータにニューラル
ネットワークの場合はユニット間結合行列、閾値なと）
はあらかじめ乱数などで初期化しておく。学習は最急降
下法（岩披講座情報料学「最適化Ｊ　１９８２年）によ
るパラメータの繰り返し修正によって行なう。ｋ回目の
繰り返しにおけるパラメータの修正前の平均の予測誤差
Ｄｋ（ｓ）を次式で定義する。

Ｄｋ（ｓ）　＝　（１／Ｍｓ）　　Σ　Ｄｋ（ｓ、ｍ）
　　　　　　　　　（５）ｍ舞１ｎ（ｔ）　　　ｔ＝１ここでＡ（（ｓ、ｎ（ｔ、）、ｍ、ｋ）は単語Ｓのｍ＃
目の学習データ（ａｌ（ｍ）・ａＴｍ（ｍ））を入力と
して、単語Ｓのｎ（ｔ）番目の、状態モデルが出力した
予測ベクトルである。平均予測誤差を減少させるために
は、式（７）の計算から得られる最適なりＰ経路上（学
習データパターン系列の最適な分割ｎ（ｔ）上）で最急
降下法を行なえば良い。

すなわち、各状態モデルの出力ベクトル４（ｓ、ｎ（ｔ
）、ｍ、ｋ）に対して、教師信号ベクトルａｔ（ｍ）と
して、２つのベクトル間の誤差（２乗距離など）を減少
さぜるように最急降下法によってパラメータを微小量修
正する。パラメータＸの修正量δＸは次式で与えられる
。

δＸ＝−ｅΣ　（ａＤｋ（ｓ、ｍ）／ａＸ）　　　　　
　　　　（７）＋ｎ＝１ここで８は微小な正の定数である。状態モデルとして再
帰型ニューラルネットワークを用いた場合は、この最急
降下法はパックプロパゲーション学習（ＦＰＤＰモデル
」前出）と完全に一致する。パラメータの微小量修正の
後に上記のＤＰ経路ｎ（ｔ）上での平均予測誤差の値を
Ｄｋ、ｂｐ（ｓ）とすると、最急降下法の性質上必ず平
均予測誤差は減少しているはずである。

Ｄｋ（ｓ）≧Ｄｋｌｂｐ（Ｓ）　　　　　　　　　　（
８）この時点ではモデルのパラメータが修正されたため
に修正前と同じＤＰ経路ｎ（ｔ）は最適な経路（最小の
予測誤差を与える経路）ではなくなっている。そこでに
＋１回目の繰り返しにおけるパラメータ修正前の平均予
測誤差Ｄｋ＋１（Ｓ）を計算すると修正されたパラメー
タに関する最適なりＰ経路が求められる。ＤＰの最適性
から次式が成り立つ。

Ｄｋ、ｂｐ（Ｓ）≧Ｄｋ＋１（ｓ）　　　　　　　　（
９）よって以上の式（８）−（９）から、繰り返し学習
によって平均予測誤差は必ず減少することがわかる。

Ｄｋ＋１（Ｓ）≦Ｄｋ（Ｓ）（１０）このように学習の最適性が保証されるのは、予測誤差と
状態モデルの出力の誤差が同じ２次形式で、ＤＰマツチ
ングとバックプロパゲーション学習がそれぞれこの誤差
を減少させるように働くからである。

また誤認識を減少させるために有効な学習法（反例学習
と呼ぶことにする）として、標準パターンの属するカテ
ゴリとは異なるカテゴリの学習パターンを用いて、式（
７）のパラメータ修正量δＸの符号を反転させることを
除いて上記と同様の繰り返し学習を行なうことによって
、異なるカテゴリの入力音声に対しては予測誤差が大き
くなるような標準パターンを構成することが可能である
。

以上述べたように本発明によれば、状態ベクトルを介し
たフィードバックを導入したことにより、認識対象とす
るパターンベクトル系列の時間構造における任意の長さ
の時間的相関をモデル化することができるようになる。

また状態モデルが状態ベクトルと固定長パターンベクト
ルを一つの非線形関数への入力として処理を行なうため
、パターンベクトル系列内の時間構造と各ベクトル空間
内の構造の間の相関もモデル内に表現することが可能と
なる。さらに上記の最急降下法に基づく標準パターン学
習方式により学習用のパターンベクトル系列から自動学
習によって標準パターンモデルを構築することができる
ようになる。

（実施例）第３図は本発明のパターン認識方式による認識のフロー
チャートを示すもので、長さＴの入力パターンベクトル
系列および、標準パターンモデルのパラメータは外部か
ら与えられているとする。このフローチャートは作用の
中で説明した認識アルゴリズム（以下認識アルゴリズム
と呼ぶ）を具体化したものであり、変数などの表記はそ
こで与えたものに従うことにする。以下流れに沿って説
明する。

ステップ１０１から１０３でカウンターの初期設定を行
なう。ステップ１０４は入力パターンの始端点を検出し
、始点であればステップ１０９に、そうでなければステ
ップ１０５へ分岐する。ステップ１０９では認識アルゴ
リズムの中の初期条件の式（Ａ１）から（Ａ３）の計算
を行なう。ステップ１０５ではＤＰパスを示す変数ｐを
０にして（ＤＰパス０に対応）、ステップ１０６で認識
アルゴリズムの中の漸化式の式（Ｂ１）から（Ｂ４）の
計算を行なう。ステップ１０７でｐを１増やして、ｐが
１を超えるまでふたたびステップ１０６で漸化式計算を
行なう。ステップ１１０では２つのＤＰパスｐ＝Ｑとｐ
＝ｌに対応する累積距離の値を比較して、ステップ１１
１〜１１２で小さい方のＤＰパスを最適パスＰとする。

ステップ１１３では最適ＤＰパス上の累積距離および状
態ベクトルを設定する（認識アルゴリズムの中の漸化式
の式（Ｂ５）、（Ｂ７）に対応）。ステップ１１４で状
態番号ｎをインクリメントし、単語Ｓの終状態Ｎｓに達
していなければ■に戻って繰り返し計算を続ける。

ステップ１１６では単語番号Ｓをインクリメントし、単
語数の最大値Ｓに達していなければ■に戻って繰り返し
計算を続ける。ステップ１１８ではフレーム番号ｔをイ
ンクリメントし、入力パターンの終端点に達していなけ
れば■に戻って計算を絖ける。

入力パターンの終端点に達していれば、ステップ１２０
で認識アルゴリズムの中の認識結果の式（Ｂｌ）、（Ｂ
２）に従って認識結果を選出する。

このフローチャートより明らかなようにステップ１０１
から１１９までの間の処理はすべて入力パターンの１フ
レーム内で行なうことができるので、入力パターンの時
間軸に沿ってフレームに同期して処理を進めることがで
きる。このことを利用すれば、音声認識などで発声が終
わらない内に処理を進めることができ、原理的には発声
が終わってから終端点の１フレ一ム分だけの処理時間で
認識を行なうことができ、実時間性に優れた認識システ
ムを構築することができる。

また連続音声認識を実現するためには標準パターンとし
て、複数のカテゴリの標準パターンを並べたパターンを
連結標準パターンとして用いて、上記の認識処理を行な
い、予測誤差が最小になる連結標準パターンを認識結果
とする。

第４図は本発明の標準パターン学習方式による学習のフ
ローチャートを示したものである。以下処理の流れに沿
って説明する。ステップ４０１はモデルのパラメータを
初期設定する。ステップ４０２から４０４はカウンター
を初期化している。ｋは繰り返し学習の回数を表すカウ
ンターで１からＫまで、Ｓは単語番号で１からＳまで、
ｍは学習データの番号で１からＭ８までの値をとる。ス
テップ４０５では学習回数に回目で単語Ｓのｍ番目のデ
ータに対する予測誤差Ｄｋ（ｓ、ｍ）を減少させるよう
に最急降下法でモデルパラメータδＸの修正量を算出す
る。ステップ４０６は前記修正量に従ってパラメータを
修正する。ステップ４０７から４１２は繰り返し計算の
カウンターのインクリメントおよび繰り返しの終了判定
を行なう。

皮剥学習を行なう場合には、第４図のステップ４０５で
計算される修正量の符号を反転すればよい。

（発明の効果）以上述べたように本発明によれば、認識対象とするパタ
ーンベクトル系列の時間構造における任意の長さの時間
的相関と、時間構造と各ベクトル空間内の構造の間の相
関を考慮した表現能力の高い標準パターンのモデルを用
いたパターン認識方式と、学習用のパターンベクトル系
列から自動学習によって標準パターンモデルを構築する
ことができるような学習方式を提供することができる。

【図面の簡単な説明】

第１図は再帰型ニューラルネットワークによる状態モデ
ルの構成例を示す図、第２図は単語標準パターンと入力
パターンの間の予測誤差の算出に動的計画法（ＤＰマツ
チング）を用いる際のマツチング平面を示した図、第３
図は本発明のパターン認識方式によって時系列パターン
を認識するためのフローチャートを示す図、第４図は本
発明の標準パターン学習方式によって学習データから標
準パターンを自動作成するためのフローチャートを示す
図である。

Claims

【特許請求の範囲】

（１）特徴ベクトルの時系列として表されたパターンを
認識するパターン認識方式で、各認識対象カテゴリ毎に
順序づけられた状態モデルから構成される標準パターン
を有し、各状態モデルは固定長のパターンベクトル列と
過去の予測の際に出力された状態ベクトルを入力として
予測パターンベクトルと新しい状態ベクトルを出力する
機能を有し、認識時には入力パターンを部分列に分割し
て前記状態モデルを各部分列に割り当てて、各部分列の
始点から順次固定長のパターンベクトル列を切り出して
割り当てられた状態モデルに入力して予測パターンベク
トル部分列を算出し、各状態モデルによる予測パターン
ベクトル部分列を連結して得られる予測パターンベクト
ル系列と入力パターンベクトル系列の間の予測誤差を最
小にするような入力パターンの部分列への分割を選び出
し、その時の予測誤差を入力パターンと該標準パターン
との距離とすることを特徴とするパターン認識方式。
（２）請求項１記載のパターン認識方式において、動的
計画法を用いて予測誤差を最小にするような入力パター
ンの部分列への分割を選び出すことを特徴とするパター
ン認識方式。
（３）請求項１記載のパターン認識方式において、状態
モデルとして複数のパラメータによって特徴づけられる
非線形関数を用いることを特徴とするパターン認識方式
。
（４）請求項３記載のパターン認識方式において、非線
形関数として再帰型のニューラルネットワークモデルを
用いることを特徴とするパターン認識方式。
（５）請求項３記載のパターン認識方式における状態モ
デルを学習により構成する標準パターン学習方式で、状
態モデルのパラメータの初期値を設定し、カテゴリ既知
の学習パターンと同カテゴリの標準パターンの予測誤差
を認識時と同様の手順で算出し、この予測誤差を必ず減
少させる方向に各状態モデルのパラメータを微小量修正
する機能を有し、予測誤差の算出とパラメータの修正を
繰り返し行なうことにより標準パターンを作成すること
を特徴とする標準パターン学習方式。
（６）請求項３記載のパターン認識方式における状態モ
デルを学習により構成する標準パターン学習方式で、状
態モデルのパラメータの初期値を設定し、標準パターン
の学習の際に該標準パターンとは異なるカテゴリの学習
パターンとの間の予測誤差を認識時と同様の手順で算出
し、この予測誤差を必ず増加させる方向に各状態モデル
のパラメータを微小量修正する機能を有し、予測誤差の
算出とパラメータの修正を繰り返し行なうことを特徴と
する標準パターン学習方式。
（７）特徴ベクトルの時系列として表された音声パター
ンを認識する連続音声認識方式で各認識対象カテゴリ毎
に順序づけられた状態モデルから構成される標準パター
ンを有し、各状態モデルは固定長のパターンベクトル列
と過去の予測の際に出力された状態ベクトルを入力とし
て予測パターンベクトルと新しい状態ベクトルを出力す
る機能を有し、認識時には複数の標準パターンを並べて
連結標準パターンとし、入力パターンを部分列に分割し
て前記連結標準パターンの状態モデルを各部分列に割り
当てて、各部分列の始点から順次固定長のパターンベク
トル列を切り出して割り当てられた状態モデルに入力し
て予測パターンベクトル部分列を算出し、各状態モデル
による予測パターンベクトル部分列を連結して得られる
予測パターンベクトル系列と入力パターンベクトル系列
の間の予測誤差を最小にするような入力パターンの部分
列への分割を選び出し、その時の予測誤差を入力パター
ンと該連結標準パターンとの距離とすることを特徴とす
るパターン認識方式。