JP3168004B2

JP3168004B2 - 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Info

Publication number: JP3168004B2
Application number: JP51351991A
Authority: JP
Inventors: エルベブールラール; モーガン，ネルソン
Original assignee: レルナウトアンドハウスピイスピーチプロダクツ
Priority date: 1991-08-19
Filing date: 1991-08-19
Publication date: 2001-05-21
Anticipated expiration: 2016-05-21
Also published as: WO1993004468A1; JPH06502927A; EP0553101A1; DE69126983T2; EP0553101B1; DE69126983D1

Description

【発明の詳細な説明】本発明は、KxM個の出力ユニットを有し、所定の文脈
（contextual）モデル（c_m）（１≦ｍ≦Ｍ）に条件付け
られたクラス（q_k）（１≦ｋ≦Ｋ）に関する特徴ベクト
ル（x_t）を観測（observing）する確率を計算するため
に設けられた、人工ニューラルネットワーク組織（set
−up）を備えた、パターン認識装置に関するものであ
り、前記装置は、データ流を受け取るための入力を有
し、前記データ流をサンプリングすることにより連続的
にデータサンプルを取り込むと共に、データサンプルか
ら前記特徴ベクトル（x_t）を決定するために設けられた
サンプリング手段を備えており、前記クラスの各々は、
統計法則によって支配されるモデル（Ｍ）の有限集合に
属する少なくとも１つのモデルによって表されるもので
ある。

このような装置は、「マルコフモデルと多層パーセプ
トロン間のリンク（Links between Markob Models
and Multilayer Perceptrons）」と題され、1990年12
月のパターン分析および機械知能のIEEE論文誌、vol.1
2,No.12において発表された、エッチ．ブーラード（H.B
ourlard）及びシー．ジェイ．ウェレケンス（C.J.Welle
kens）の論文から、公知である。前記公知装置では、認
識すべきパターンは、人間の音声パターンである。この
パターンの認識のために用いられたのは、ハイブリッド
ANN（人工ニューラルネットワーク）/HMM（隠れマルコ
フモデル）音声認識である。隠れマルコフモデルは、音
声特性の良好な表現を提供している。人工ニューラルネ
ットワークが音声認識における困難な問題を解消するた
めに用いられ、出力（emission）確率を計算するための
アルゴリズムが開発されている。HMMによれば、音声
は、統計法則によって支配されるクラスＱ＝｛q₁、
q₂、...、q_k｝の集合から構築された特定の有限状態オ
ートマトンによって、生成されるものと仮定されてい
る。入力されたデータ流を認識するために、入力された
音声をサンプルし、そして一連の音響ベクトルＸ＝
｛x₁、x₂、...x_t、...x_T｝に変形する。ここで、x_tは、
時間ｔにおける音響ベクトルを表す。この公知の装置
は、ANNの特殊な形状である多層パーセプトロン（MLP）
を用いている。MLPは、ベイズ（Bayes）確率、即ち事後
確率（posteriori−probabilities）ｐ（q_k|x_t）を発生
するために訓練され（train）、ベイズ規則を用いるこ
とによって、出力確率を決定するために変形することが
できる。

この公知装置の欠点は、文脈依存（context−depende
nt）モデルのようにより複雑なモデルに対して、同じ限
定されたデータ量で、多くのパラメータを推定（estima
te）しなければならないことである。実際、Ｋ個の可能
性のあるクラスとＭ個の可能性のある文脈（context）
がある場合、考慮されるクラスの左及び右の文脈の情報
を用いると、q_k、▲ｃ^l _j▼、▲ｃ^r _m▼のKxMxM個の組み
合せ可能となる。ここで、▲ｃ^l _j▼及び▲ｃ^r _m▼は、そ
れぞれ、可能性のある文脈モデルの集合Ｃ＝｛c₁、
c₂、...c_M｝に属する左及び右の文脈を表すものであ
る。尤度（likelihood）がMLPによって或はHMMの標準訓
練方法によって発生されても、いずれも音声状態の良好
な確率推定とはならなず、それはほとんどまたは全く観
測されない。所定の文脈モデル▲ｃ^l _j▼、▲ｃ^r _m▼）内
の現在のクラス（q_k）に関するベクトル（x_t）を観測す
る出力確率を計算するために、この公知装置を単純に用
いると、出力層が数千ものユニット及び数百万もの訓練
すべきパラメータを有することになってしまう。この問
題を解決するために、HMMシステムにおいて補間法が用
いられている。この解決法は、十分な訓練材料がないた
めに貧弱に推定される詳細なモデルと、パラメータ数が
制限されているために良好に推定される大まかなモデル
との間の折衷案を表すものである。しかしながら、補間
法は、パターンの認識においてエラーの原因ともなり、
前記装置を十分信頼できないものにしている。

本発明の目的は、前述の欠点を軽減することである。

したがって、本発明による装置は、前記ニューラルネ
ットワーク組織が、Ｋ個の出力ユニットを有し前記観測
されるベクトル（x_t）を与えられた前記クラス（q_k）の
事後確率を計算するために設けられた第１のニューラル
ネットワークと、Ｍ個の出力ユニットを有し、前記クラ
スによって条件付けられた前記文脈モデルの事後確率を
計算するために設けられた少なくとも１つの他のニュー
ラルネットワークとに分割されていることを特徴とす
る。ネットワーク組織を第１のネットワーク及び少なく
とも１つの他のネットワークに分割し、各ネットワーク
を前述のように特定事後確率の決定のために備えるよう
にすることによって、所定の文脈モデル（▲ｃ^l _j▼、▲
ｃ^r _m▼）によってって条件付けられたクラス（q_k）に関
するベクトルを観測する出力確率を得るためのいかなる
仮定及び簡素化も、もはや行う必要がなくなる。直接ネ
ットワークの実行を行っている、公知の装置と比較し
て、この解決法はパラメータの数、したがって装置のメ
モリ容量を大幅に減少させるものである。

本発明の装置の第１の好適実施例は、前記他のニュー
ラルネットワークは、各各から独立して第１のZ_j（x_t）
及び第２のy_j（ｃ）プレーシグモイド出力値若しくは事
前シグモイド出力値（pre−sigmoid output values）
を決定するために設けられたもので、前記第１のZ
_j（x_t）及び前記第２のy_j（ｃ）事前シグモイド出力値
は、それぞれ入力されたクラスに関する入力された特徴
ベクトルを基に決定され、前記他のニューラルネットワ
ークは、前記事前シグモイド出力値からｐ（c|q_k、x_t）
値を決定するために設けられた１組の上位（upper）ユ
ニットを備えていることを特徴とする。事前シグモイド
出力値Z_j及びY_jが互いに独立であるということは、それ
らを互いに独立して決定することができ、ニューラルネ
ットワークを更に簡素化できることを暗示している。出
力値の決定は、前記事前シグモイド値を受け取る１組の
上位ユニットによって簡単に実現され、より効率的な組
織を得る結果となる。

好ましくは、前記他のニューラルネットワークは、受
け取った特徴ベクトルx_tに基づいてを決定するために設けられた第１の隠れ層（hidden la
yer）を備えており、ここで、d_ihは重み付け係数、ｆは
シグモイド関数（sigmoid function）で１ｈＨで
あり、Ｈは前記第１の隠れ層内の隠れユニットの総数で
あり、前記第１の隠れ層は、次の式の前記第１の事前シ
グモイド値を決定するために設けられた合計（加算）ユ
ニットと接続されており、ここで、b_hjは重み付け係数である。このようにして、
第１の事前シグモイド値を決定するための効率的なアー
キテクチャが得られる。

本発明による装置の第２の好適実施例は、前記他のニ
ューラルネットワークが、前記第２の事前シグモイド出
力値Y_j（ｃ）を記憶するために設けられたメモリを備え
ており、前記装置は、更に、クラスq_kを受け取った時
に、該クラスq_kに割り当てられた第２の事前シグモイド
値Y_j（ｃ）が記憶されているアドレスを備えていること
を特徴とする。Z_j及びY_jの独立性が、出力に対する文脈
の寄与を前もって計算することを可能にしている。この
計算は、例えば、訓練段階の最後に実行され、これによ
り各モデルに対する第２の事前シグモイド値の記憶を可
能とする。それら事前シグモイド値がメモリ内に記憶さ
れているので、それらをいちいち計算する必要がもはや
なくなり、このため計算時間を非常に節約することがで
きる。このように、事前シグモイド値は、一旦記憶され
れば、メモリから読み出すだけでよい。

好ましくは、受け取ったクラスq_kに基づいて、更なる
値を決定するために設けられた第２の隠れ層を備えてお
り、ここで、w_k1は訓練された重み付け係数、ｆはシグ
モイド関数であり、前記第２の隠れ層は、前記第２の事
前シグモイド値を決定するために設けられたもう１つの合計ユニットを
接続されており、ここで、a_ljは訓練された重み係数
で、１ｌＬであり、Ｌは前記第２の隠れ層内にある
隠れユニットの総数である。このようにして、第２の事
前シグモイド値を決定するための効率的なアーキテクチ
ャが得られる。

本発明による装置の第３の好適実施例は、入力された
クラス（q_k）及び文脈モデル（c_m）によって決定される
第３の事前シグモイド出力値Y_j（q_k、c_m）を記憶するた
めに設けられたメモリを備えており、前記事前シグモイ
ド値はKxMxNマトリクスにしたがって記憶可能であり、
前記装置は、更に、q_k、m_n集合を受け取った時、前記集
合に割り当てられた前記第３の事前シグモイド値が記憶
されているアドレスを発生するために設けられたアドレ
ス発生器を備えていることを特徴とする。事前シグモイ
ド出力値Y_j（q_k、c_m）も特徴ベクトルとは独立している
ので、その前計算及び記憶が可能であり、これによって
計算量を減少する。

好ましくは、前記クラス及び前記文脈モデルは、共に
トライフォン（triphone）（▲ｃ^l _j▼、q_k、▲ｃ^r _m▼）
を形成し、前記第１のネットワークはｐ（q_k|x_t）を計
算するために設けられており、前記他のネットワーク
は、ｐ（▲ｃ^r _m▼|q_k、x_t）、それぞれｐ（▲ｃ^l _j▼|
q_k、▲ｃ^r _m▼、xt）、ｐ（▲ｃ^l _j▼|q_k、▲ｃ^r _m▼）、
及びｐ（▲ｃ^l _j▼|q_k）を計算するために設けられた、
第２、それぞれ第３、第４及び第５ネットワークを備え
ている。このようにして、トライフォン認識（triphone
recognition）が容易に実現される。

本発明を、図面に関連してこれより詳細に説明する。

ここで、第１図は、本発明による装置の概略図を示す。

第２図は、本発明による装置の動作を示す流れ図を示
す。

第３及び４図は、本発明による装置に属する、それぞ
れニューラルネットワークを概略的に示す。

認識すべきパターンは、例えば、絵または音声のよう
に、様々な種類のものが可能である。本発明は、音声を
例として用いて説明する。しかしながら、これは明確性
の目的のためにのみ行われるのであり、記載される装置
が音声以外のパターン認識にも用いることができること
は、明らかであろう。

音声は、音素から成り立っている。例えば、「cat」
という単語は、３つの音素「ｋ」の音、短い「ａ」及び
最後の「ｔ」から構成されている。音声認識とは、言語
内容を判断するために、少なくとも音素と同じ大きさの
一連の要素の判断を、意味するものである。

あるパターン、特に音声の認識装置が第１図に概略的
に示されている。データ、特に音声が、線１を介してサ
ンプリング手段２に供給される。サンプリング手段によ
ってサンプルされた後、データサンプルは、出力確率を
決定するために設けられた、略してANNと呼ばれる人工
ニューラルネットワーク組織を備えた、処理装置３に供
給される。それら出力確率は次に、例えば音声の場合入
力された文である、入力データを認識するために設けら
れた、もう１つの処理装置４に供給される。

第１図に示された装置によって行われる自動音声認識
（ASR）は、第２図の流れ図に示したような数個のステ
ップを含んでいる。最初のステップ５では、入力データ
が、例えば音声の場合では、マイクロフォンによって、
収集される。マイクロフォンから出力された電気信号
は、その後処理されるが（６）、これには、例えば音声
フレームよりかなり大きな時定数を用いてスペクトル傾
斜を平坦化するためのフィルタ処理を含んでいる。

前処理ステップ６の後、特徴抽出７を行うが、これ
は、音響的ばらつきには依存せず言語内容（linguistic
contents）を感知する音声信号表現の判断（決定）を
含んでいる。典型的に、音声分析は、ある固定長の「フ
レーム」即ち分析窓にわたって実施される。例えば、音
声を、スペクトルの「エイリアシング（aliasing）」を
防止するために6.4kHzで濾波した後に、16kHzでサンプ
ルする。32msec（512点）の窓を、例えば、スペクトル
分析モデュールへの入力として用いて、一定間隔、例え
ば10msec（160点）毎に１回の分析を行う。このように
して、音声信号は、一連の特徴ベクトルＸ＝｛x₁、
x₂、...、x_t、...x_T｝に変形される。ここで、x_tは時刻
ｔにおける特徴ベクトルを表す。音声の場合、このよう
な特徴ベクトルは、音響ベクトルである。

一旦特徴抽出が実行されたなら、仮説発生（８）を開
始するが、ここでニューラルネットワークが用いられ
る。仮説発生ステップは、例えば単語のような音声セグ
メントに対するラベルを生成するための分類、または音
声フレームと「基準」音声部分との間の類似性の測定を
含んでいる。代替的に、入力を、適合性の不確定度の確
率的測定を生じる統計モデルに適合させることもでき
る。

仮説発生ステップ８の後、費用推定（cost estimata
tion）ステップ９が開始する。ここでは、最少費用の一
致を判定するために、例えば、プリンストン大学出版
（Princeton University Press）から1962に応用動的
プログラミング（Applied Dynamic Programming）に
おいて発表された、アールベルマンアールエス
ドレイフュス（R.Bellman R.S.Dreyfus）の論文に記載
されている、ベルマンの動的プログラミングアルゴリズ
ムを用いる。認識10自体は、一旦費用推定が得られてか
ら、行われる。

本発明の詳細な説明を始める前に、音声認識の一般的
知識について述べ、用いられる用語に明確な定義を示し
ておく。

ほとんどの最先端技術の音声認識装置は、統計的手法
である隠れマルコフモデル（HMM）を基にしている。こ
の形式主義では、統計法則によって支配されるクラスＱ
＝｛q₁、q₂、...q_k｝の集合によって構築された特定の
有限状態オートマトン（finite state automaton）に
よって、音声が生成されていると仮定している。その場
合、各音声単位（例えば、各語彙の単語または各音素）
は、前もって定義された位相にしたがって、Ｌ個のクラ
スq1∈Ｑ（ｌ＝１、...、Ｌ）から成る特定のHMMと関連
付けられている。HMM手法では、各仮説的音声音に対し
て観測スペクトルの確率、並びに各許される遷移の確率
を推定しなくてはならない。これらの確率の負対数（ne
gative log）を、動的プログラミングアルゴリズム（D
ynamic Programming algorithm）［ベルマン及びドレ
イフュス（Bellman ＆ Dreyfus）、1962］における距
離として用い、最少費用経路（局所距離の最少合計と許
された遷移に対する全費用の最少合計との一致として定
義されている）を決定することができる。この経路は、
データと一致するモデルの最良の時間軸正規化（warpin
g）を表すものである。

音声音（音素）用モデルでは、音は、先頭、中間、及
び終端を有し、各々固有の特性がある。この音声は、各
フレーム（例えば10msec）の間それらの「クラス」の１
つに完全に留まり、その時刻において次の許されるクラ
スに移行することができるものと仮定する。

各遷移に関連するのは、現在のクラスq_kから新しいク
ラスq₁に移動する時に、音声特徴ベクトルx_tを出力する
確率ｐ（x_t、q₁|q_k）である。出力確率ｐ（x_t|、q_k）
（各クラスq_kに対して）と、遷移確率ｐ（q₁|q_k）（各
遷移q_k→q₁に対して）とは、区別される。いかなる特定
の発声に対しても、観測される特徴は、各クラスについ
ての出力確率と対応する遷移との積である確率（可能性
のあるクラスを通るいずれかの仮説経路に対する）を有
している。これが正しいのは、局部的な確率間に想定さ
れた独立性のためである。例えば、q₁→q₁→q₂という経
路及び入力の特徴x₁、x₂、x₃を仮定する。すると想定さ
れた経路の確率は、以下のようになる。

ｐ（x₁|q₁）.p（q₁|q₁）.p（x₂|q₁）.p（q₂|q₁）.p（x₃|q₂）．費用を得るために負対数を取ると、乗算の代わりに加
算が行われ、そして動的プログラミングを用いて最少費
用経路を決定することができる。

連続的音声認識に対しては、音素HMMを連結して複数
の単語を表し、更にこれらを連結して完全な発声を表す
ことができる。モデルの変種も導入して、隣接する音素
または単語間の調音結合（coarticulation）の一般的効
果を表すこともできる。特に、例えばトライフォンのよ
うな文脈依存音声モデルを用いて、隣接する音声からの
調音結合に起因する様々な異音（allophonic）を表すこ
とができる。この場合、３つの音素の連続が、調音結合
効果をもたらすものと、考えられる。各音素には、その
右側及び左側の音素的文脈にしたがって、それに関連す
るいくつかのモデルを有している。もちろん、この手法
の欠点は、モデルの数そして結果的に判断すべきパラメ
ータの数が急激に増加することである。Ｍ個の音素とＫ
個の可能なクラスがあるとすると、各クラスに対して最
大KxMxM個の可能性のある音素的文脈がある。それら全
てが許されているわけではないが（音声学的規則または
類似文脈の類別のため）、可能性のあるトライフォンモ
デルの数は、膨大には変りない。

本発明者によって書かれ、IEEE 90CH 2847−２、p4
13−416に発表された、「隠れマルコフモデルによる多
層パーセプトロン（MLP）を用いた連続音声認識」とい
う題の論文は、どのようにANNの特殊な形態であるMLPを
用いて、HMMシステムに用いられる出力確率を計算する
かについて、述べたものである。これらの研究におい
て、１つのMLPの各出力ユニットが、マルコフモデルを
定義したクラスＱ＝｛q₁、q₂、...q_k｝の集合の特定の
クラスq_kと関連付けられている場合、当該MLPを訓練し
て、その出力にx_tが与えられる時のｐ（q_k|x_t）のよう
な確率を発生できることが示されている。ｐ（q_k|x_t）
のような確率は、一般的にベイズの確率または事後確率
と呼ばれており、下記のベイズの規則によってHMMにお
いて出力確率として用いられる尤度（likelihoods）に
変形することができる。

引用した論文に示されているように、このような手法
の利点は、データの確率的分布に関する仮説を用いず
に、HMMに必要とされる出力確率を、よりよい判別特性
（discriminant properties）によって推定する可能性
があることである。結果的に文脈または他の情報を考慮
するMLPへの入力領域の変更を可能としているので、こ
の手法がいかにしてHMMの他の重大な欠点を克服するこ
とができるかも、示されている。

上述のように、MLPは、HMMのための出力確率を推定す
るために設けられたものである。これらの推定は、かな
り単純なHMMが用いられた場合に計数推定（counting e
stimation）またはガウス推定の性能を向上するに至っ
たことが示されている。しかしながら、現在最先端の連
続音声認識装置は、大幅に複雑なHMM、例えば音声当り
多数の密度及び／または文脈依存のモデルを必要とす
る。最先端のHMMを基本とした音声認識装置は、音素の
代わりにトライフォンのような文脈依存音声単位をモデ
ルとして用い、その性能を向上させている。例えば、既
にあげた例に戻ると、英語の「cat」という単語は３つ
の音素、「ｋ」の音、短い「ａ」、そして最後の「ｔ」
から構成されている。標準的な音声手法では、単語「ca
t」のマルコフモデルを、その構成音素、即ち「ｋ−ａ
−ｔ」のモデルを連結することによって、得ている。ト
ライフォン手法では、音素のモデルは、その左側及び右
側の音声文脈に依存し、分離された単語「cat」を構成
する一連のモデルは、「＃ka−kat−at＃」となる。こ
こで、「＃」は「無」即ち「無声」記号である。この例
では、「＃ka」は、音素「＃」が左側に、そして音素
「ａ」が右側にある音素「ｋ」のモデルを表している。
この手法は、音声的（phonetic）調音結合を考慮してい
る。この場合、HMM（または混合ANN/HMM）に用いるため
に推定しなければならない出力確率ｐ（x_t|q_k）が、ｐ
（x_t|q_k、▲ｃ^l _j▼｜▲ｃ^r _m▼）、即ち音素文脈▲ｃ^l _j
▼が左側、そして▲ｃ^r _m▼が右側にある、現音素クラス
q_kに関する音響特徴ベクトルxtを観測する確率に置き換
えられている。文脈モデル、▲ｃ^r _m▼及び▲ｃ^l _j▼は、
集合Ｃ＝｛c₁、...、c_m、...c_M｝に属するものである。
各クラスq_kは、少なくとも１つのモデルによって表され
ている。前記集合Ｃのモデルは、統計的規則によって支
配されている。

しかしながら、これらの更に複雑なモデルに伴う困難
は、同じ限られた量のデータで、更に多くのパラメータ
を推定しなければならないことである。実際、Ｋ個の可
能性のあるクラスとＭ個の可能性のある音素的文脈モデ
ルがあるとすると、我々は、▲ｑ^c _k▼、▲ｃ^r _m▼、及び
▲ｃ^l _j▼のKxMxM個の可能性のある組み合せを有するこ
とになる。ニューラルネットワークでも同様に、これは
重大な問題である。KxMxM個の出力ユニットを有するMLP
によって、或はHMM用の標準訓練方法によって尤度を発
生するにしても、いずれも音声状態のための良好な確率
推定ではなく、ほとんどまたは全く観測がなされない。
更に、公知の技術を、例えばトライフォンに単に応用す
ると、出力層は数千もの出力ユニット、及び数百万もの
訓練すべき接続（即ちパラメータ）を有する結果とな
る。これは、100000ないし1000000個程度の訓練トーク
ンを有する本データ集合にとってはかなり嵩張るもので
ある。HMMシステムでは、文脈依存性のレベル間、即ち
フォン（phones）、バイフォン（biphones）及びトライ
フォン（triphones）で、各レベルの発生頻度にしたが
って、補間を行うことによって、これらの問題を扱って
きた。この場合、ｐ（x_t|q_k、▲ｃ^l _j▼、▲ｃ^r _m▼）
は、ｐ（x_t|q_k、▲ｃ^l _j▼、▲ｃ^r _m▼）、ｐ（x_t|q_k、▲
ｃ^r _m▼）、ｐ（x_t|▲ｃ^l _j▼、q_k）及びｐ（x_t|q_k）の推
定に関して、表される。実際、この解決法は、不十分な
訓練材料のために貧弱に推定されるよい（即ち詳細な）
モデルと、それらのパラメータ数が制限されているため
に良好に推定される大まかなモデルとの間の折衷案を表
している。

この文脈モデリングにおける主要な問題は、以下のよ
うな出力確率の推定にある。

これらの確率を推定するために、KxMxM個の出力ユニ
ットを有する、人工ニューラルネットワーク組織を用い
る。統計数学的規則を基に、以下の関係が与えられる。

出力確率（１）にベイズの法則を適用すると、次の式
が与えられる。

（２）及び（３）を（４）に代入すると、次の式が与
えられる。

以下に説明するが、この変形は、計算すべき出力確率
のよく定義された数学的変形を基にしており、想定を行
うことなく後者の正確な計算を可能にするものである。
本発明の要旨は、計算すべき出力確率の（１）式を変形
するための異なる数学的可能性から、正確な選択を行っ
たことである。この選択は、大幅に簡素化されたニュー
ラルネットワークを、後者の出力確率の計算のために用
いることができるようにするものである。

式（５）から推察されるように、KxMxM個の出力ユニ
ットを有するニューラルネットワークは、Ｋ＋Ｍ＋Ｍ個
またはＫ＋Ｍ個の出力ユニットを有するネットワークに
分割することができる。音素モデル用混合ANN/HMMの定
理に基づいて、先に簡単に論じたように、即ち、ANNの
出力値を、入力に条件付けられた出力クラスの事後確率
から推定する分類モデルにおいて、式（５）で表される
全ての確率は、それぞれのニューラルネットワークによ
って推定することができる。

＊ｐ（q_k|x_t）は、音素をモデリングするために設け
られた第１のニューラルネットワークによって推定さ
れ、ここで入力領域は、現在の特徴ベクトルx_tのみを含
み、出力の限度が現在のクラスq_kに関連付けられてい
る。このようなニューラルネットワークは、前述の「マ
ルコフモデルと多層パーセプトロン間のリンク」と題さ
れ、1990年12月のパターン分析および機械知能のIEEE論
文誌、vol.12,No.12のp1167−1178において発表され
た、エッチ．ブーラード（H.Bourlard）及びシー．ジェ
イ・ウェレケンス（C.J.Wellekens）の論文に詳細に記
載されている。

＊ｐ（▲ｃ^r _m▼|q_k、x_t）は、第２のニューラルネッ
トワーク（第３図に示されるような）によって推定さ
れ、ここでは出力ユニット（117）は、トライフォンの
右側の音素c_rと関連付けられており、出力領域は、現在
の音響ベクトルx_tの要素x_ti（ｓ≦ｉ≦Ｉ）とx_tに関連
付けられた現在のクラスq_kとによって構成されている。

＊ｐ（▲ｃ^l _j▼|q_k、▲ｃ^r _m▼、x_t）は、第４図に示
されるような第３のニューラルネットワークによって推
定され、ここでは出力ユニットがトライフォンの左側の
音素と関連付けられており、そして入力領域が現在の音
響ベクトルxt、現在のクラスq_k及びトライフォンにおけ
る右側の音声文脈▲ｃ^r _m▼によって構成されている。

＊ｐ（▲ｃ^l _j▼|q_k、▲ｃ^r _m▼）は、第４のニューラルネットワークによって推定され、
ここでは出力ユニットが、トライフォンの左側の音素▲
ｃ^l _j▼と関連付けられており、入力領域は現在のクラス
q_kと右側の音素▲ｃ^r _m▼とを表している。これは、特定
の現クラスを与えられたトライフォンの左部分の特定の
音素と右側の音声文脈を観測する事前確率を与えるもの
である。

＊（ｃ▲ｃ^r _m▼|q_k）は、第５のニューラルネットワ
ークによって推定され、ここでは出力ユニットがトライ
フォンの右側の音素▲ｃ^r _m▼と関連があり、入力領域は
現在のクラスq_kを表している。これは、特定のクラスの
右側の特定の音素を観測する事前確率を与えるものであ
る。このモデルにおいて限定した数のパラメータを与え
れば（即ち、KxM）、この確率も計数によって推定する
ことができる（即ちこれはニューラルネットワークを必
要としない）。

＊ｐ（q_k）は、標準的な混合ANN/HMM音声手法におい
ても用いられている、音素の事前確率であり、訓練集合
に依存することによって、単純に推定される。この確率
を決定するためには、ニューラルネットワークは不要で
ある。

＊ｐ（x_t）は、クラスには独立した一定値であり、し
たがって分類の目的には重要ではない。この確率を決定
するためには、ニューラルネットワークは不要である。

先に説明したように、出力確率の計算は、このよう
に、第１のニューラルネットワーク及び第２のニューラ
ルネットワークによって行われ、これらは各々前記文脈
的モデル、即ち現在のクラスq_kに条件付けられた▲ｃ^r _m
▼及び▲ｃ^l _j▼の事後確率を計算するために設けられた
ものである。限られた訓練集合に対しては、これらの推
定は未だ、従来のHMMシステムにおいて行われているよ
うな、単音モデルによる平滑化を行う必要があり得る。
加えて、c^l及びc^rが音素ではなく広い音声クラスまたは
クラスタを表す場合、上記結果は「一般化されたトライ
フォン」の推定に適合する。最後に、左側及び右側の文
脈のみが用いられる場合、この技術は２つのネットワー
ク、単音ネットワークと及びその推定ｐ（c|q_k、x_t）の
１つにのみ有効である。

音声データ（例えばx_t）を含む入力領域に文脈情報を
供給することもできる。この場合、x_tの確率は、Ｘ▲ｃ
^t+c _t-c▼で置き換えなければならない。すると、これは
音声文脈情報を与えられたトライフォン確率の推定を行
うことになり、トライフォンモデルの場合更に重要なも
のとなる。

先に説明したように、トライフォンモデルに対する出
力確率は、今や想定を全く行わずに計算することができ
る。しかしながら、各ニューラルネットワークによって
行うべき計算量は大量のままである。例えば、第２のニ
ューラルネットワーク（第３図）の場合、KxM回の計算
が必要である。十分な性能のニューラルネットワークが
入手可能であれば、これはさほどの問題ではないだろ
う。

行うべき計算量は、しかしながら、ネットワークの位
相に単純な制限を設けることによって、減少することが
できる。第３図に示すように、ネットワークは、終端層
においてのみ結合されている２つの別個の部分から成っ
ている。入力された特徴ベクトルx_tに適用される計算
は、クラスq_kに適用されるものから分離されたより低い
層においてである。この制約が可能なのは、クラスは二
進値を有し有限の状態集合に属するからである。この制
約によって、出力に対する文脈の寄与度を事前に計算す
ることができる。この計算は、訓練段階の終了時に、パ
ターン認識に先だって行われる。

第３図に示された、ｐ（▲ｃ^r _m▼|q_k、x_t）を決定す
るための第２のニューラルネットワークについて考慮す
ると、ユニット12に入力される特徴ベクトルx_tは、層14
の隠れユニットに供給される。各隠れユニットｈ（１≦
ｈ≦Ｈ）は、重み付けされた合計値を与え、ここでｆは、標準シグモイド関数であり、であり、d_ihは、重み係数である。

次に重み付けされた合計値zhは、次の第１の事前シグ
モイド値を決定するために設けられたｊ個の合計ユニッ
トZ_jに供給される。

ここでb_hjは重み係数である。

入力11に供給される状態q_k（１≦ｋ≦Ｋ）のために、
同等の組織を実現する。隠れ層13が、更に別の重み付け
した合計値を決定するために設けられる。

ここで、w_klは訓練された重み係数である。後者の重
み付け合計値y_lは、次の事前シグモイド値を決定するた
めに設けられたＬ個の合計ユニットY_j（15）に供給され
る。

ここで、a_ljも、訓練された重み付け係数である。確
率ｐ（▲ｃ^r _j▼|q_k、x_t）は、ｆ（Y_j＋Z_j）を計算する
ために設けられた上層17によって決定される。

文脈（ｃ）及び入力特徴ベクトル（x_t）の両方から入
力を受け取る隠れたユニットがないように全体を分割す
ることによって、簡素化を図ることができる。更に、文
脈モデルｃの各々に対して事前シグモイド値Y_jは入力さ
れた特徴ベクトルとは独立しているので、全ての可能性
のある文脈モデルについて事前シグモイド値を前もって
計算することができる。それらの事前シグモイド値Y
_jは、次にメモリに記憶され、決定すべき各確率ｐ（▲
ｃ^r _m▼|q_k、x_t）についてもはやその事前シグモイド値
を計算する必要がないようにする。所定値Y_j（q_k）に対
して適切にアドレスするために、２次元マトリクス組織
を選択し、各可能性のある▲ｃ^r _m▼モデルに関連するＫ
個の値を記憶する。入力されたq_k及び▲ｃ^r _m▼値による
簡単なアドレッシングによって、対応するY_j値が得ら
れ、これを次にｆ（Y_j＋Z_j）の計算のために用いる。主
要な新たな計算は（単音声の場合と比較して）、単に文
脈の寄与度と最終的シグモイド値の非線型性の両方に対
する探索であり、これは各仮説を立てられたトライフォ
ンに対して再計算しなくてはならない。

先に述べた組織は、事前計算の最大の可能性を、事前
に計算された値の記憶と共に与えるものである。しかし
ながら、事前計算を少なくした別の実施例も可能である
ことは、明確であろう。したがって、y_l値のみを事前計
算し、入力されたc_k値によってアドレス可能なメモリに
それらを記憶することも可能である。

第３図に示したものと同等の組織は、ｐ（ｃ▲ｃ^l _j▼
|q_k、▲ｃ^r _m▼、x_t）を決定するために設けられた第３
のニューラルネットワークにも適用される。入力される
q_k、▲ｃ^r _m▼の各集合に対して、事前シグモイド値y
_j（q_k、▲ｃ^r _m▼）を前もって計算し、メモリに記憶す
ることができる。事前シグモイド値を得るための特徴ベクトルx_tの計算は、第３図に関して
説明したものに類似している。

ここでは、q_k値が与えられるユニット20からと同様
に、▲ｃ^r _m▼値が与えられるユニット21からも隠れ層22
への入力があるので、事前シグモイド値Y_j（q_k、▲ｃ^r _m
▼）について詳細に説明する。隠れ層22は、値y_lを決定
するために設けられたものである。

ここで、ｆは再び標準シグモイド関数であり、s_kl及
びr_nlは訓練された重み付け係数である。そして、事前
シグモイド値は、加算器23によって決定される。

式（６）及び（７）から解るように、事前シグモイド
値Y_j（q_k、▲ｃ^r _m▼）は、両方の入力値q_k及び▲ｃ^r _m▼
に依存しており、したがってY_jに対してKxM個の値を与
える。メモリに記憶されている事前に決定されたY
_j（q_k、▲ｃ^r _m▼）に適切にアドレスするために、３次
元マトリクス組織を選択し、各可能性のある▲ｃ^l _j▼
（１≦ｊ≦Ｍ）に関連付けられたKxMxM個の値を、KxMxM
のマトリクスにしたがって記憶する。特定の▲ｃ^l _j▼が
与えられると、これは１つのマトリクスを与え、そのマ
トリクスのｋ番目の行及びｎ番目の列に事前シグモイド
値Y_j（q_k、▲ｃ^r _m▼）が記憶される。このように、記憶
された値は、事前シグモイド値が記憶されているマトリ
クス位置を示すアドレスを共に形成する入力q_k及び▲ｃ
^r _m▼値によって、容易にアドレスされる。

先に説明した組織は、トライフォンの場合ばかりでな
く、所定の文脈モデルｃで条件付けられたクラスｑに関
する特徴ベクトル（x_t）を観測する確率を計算する、よ
り一般的な文脈においても適用可能なものである。現在
のクラスｑを特定の隣接した文脈モデルｃによって観測
する確率を推定するための式は、ｐ（q,c|x_t）＝ｐ（q|x_t）.p（c|q,x_t）である。

このように、確率は、事後確率の積に分解されるので
ある。これは、KxM個の出力を有する単一ネットワーク
の訓練を、それぞれＫ個及びＭ個の出力を有する２つの
ネットワークの訓練に減少させるのであり、したがっ
て、時間及びパラメータに関して潜在的に膨大な節約を
可能とするものである。ｑ及びx_tの入力間で隠れユニッ
トを共用しないと仮定することにより、ｑから発する出
力ベクトル（事前シグモイド）への寄与度は、ｑ及びｃ
の全ての値に対して前もって計算することが可能とな
る。

フロントページの続き (56)参考文献特開平４−180099（ＪＰ，Ａ) 特公平６−73080（ＪＰ，Ｂ２) 特公平６−42159（ＪＰ，Ｂ２) 欧州特許553101（ＥＰ，Ｂ１) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｉｇｅｎｃｅ，Ｖｏｌ．ＰＡＭＩ− 12，Ｎｏ．12，Ｄｅｃｅｍｂｅｒ 1990，Ｈ．Ｂｏｕｒｌａｒｄｅｔａｌ，”ＬｉｎｋｓｂｅｔｗｅｅｎＭａｒｋｏｖＭｏｄｅｌｓａｎｄＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ”，ｐ．1167−1178 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1990 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｓ８．３，Ｗ．Ｍａｅｔａｌ，”ＴＤＮＮＬａｂｅｌｉｎｇｆｏｒａＨＭＭＲｅｃｏｇｎｉｚｅｒ”，ｐ．421−423，Ａｐｒｉｌ３−６，1990 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1990 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｓ８．２，Ｌ．Ｔ．Ｎｉｌｅｓｅｔａｌ，”ＣｏｍｂｉｎｉｎｇＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋＣｌａｓｓｉｆｉｅｒｓ”，ｐ．417−420，Ａｐｒｉｌ３− ６，1990 ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．３, Ｎｏ．１，Ｊａｎｕａｒｙ 1989，Ｈ. Ｂｏｕｒｌａｒｄｅｔａｌ，”ＳｐｅｅｃｈＰａｔｔｅｒｎＤｉｓｃｒｉｍｉｎａｔｉｏｎａｎｄＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ”，ｐ．１−19 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1991 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｓ２．18，Ｍ．Ｍ．Ｈｏｃｈｂｅｒｇｅｔａｌ，”ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ／ＮｅｕｒａｌＮｅｔｗｏｒｋＴｒａｉｎｉｎｇＴｅｃｈｎｉｑｕｅｓｆｏｒＣｏｎｎｅｃｔｅｄＡｌｐｈａｄｉｇｉｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”，ｐ．109−112，14 Ｍａｙ 1991 ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ，Ｖｏｌ．５，Ｎｏ．３，Ｆｅｂｕｒａｒｙ 1991，Ｅ．Ｌｅｖｉｎ，”ＣｏｎｎｅｃｔｅｄＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＨｉｄｄｅｎＣｏｎｔｒｏｌＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅ”，ｐ．102− 107 Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1990 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｓ８．１，Ｎ．Ｍｏｒｇａｎｅｔａｌ，”ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓｗｉｔｈＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ”，ｐ．413−416，Ａｐｒｉｌ３−６，1990 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/16 G10L 15/18 ＪＩＣＳＴファイル（ＪＯＩＳ) ＩＥＥＥ／ＩＥＥＥｌｅｃｔｒｏｎｉｃＬｉｂｒａｒｙＯｎｌｉｎｅ

Claims

(57)【特許請求の範囲】

【請求項１】KxM個の出力ユニットを有し、所定の文脈
モデルc_m（１≦ｍ≦Ｍ）によって条件付けられたクラス
q_k（１≦ｋ≦Ｋ）に関する特徴ベクトルx_tを観測する確
率を計算するために設けられた人工ニューラルネットワ
ーク組織を備えたパターン認識装置であって、データ流
を受け取るための入力を有し、かつ前記データ流をサン
プリングすることによってデータサンプルを連続的に取
り込み、データサンプルから前記特徴ベクトルx_tを決定
するサンプリング手段を備えており、前記クラスの各々
は、統計法則によって支配されているモデル（Ｍ）の有
限集合に属する少なくとも１つのモデルによって表され
るものであり、前記ニューラルネットワーク組織は、Ｋ
個の出力ユニットを有し前記観測されるベクトルx_tを与
えられた前記クラスq_kの事後確率を計算するために設け
られた第１のニューラルネットワークと、Ｍ個の出力ユ
ニットを有し前記クラスによって条件付けられた前記文
脈モデルの事後確率を計算するために設けられた少なく
とも１つの他のニューラルネットワークとに分割されて
いることを特徴とする、パターン認識装置。
【請求項２】請求項１記載のパターン認識装置であっ
て、前記他のニューラルネットワークは、各々から独立
して第１のZ_j（x_t）及び第２のY_j（ｃ）事前シグモイド
出力値を決定するために設けられて、前記第１及び前記
第２の事前シグモイド出力値は、それぞれ入力されたク
ラスに関する入力された特徴ベクトルを基に決定され、
更に前記他のニューラルネットワークは前記事前シグモ
イド出力値からｐ（c|q_k、x_t）を決定するために設けら
れた１組の上位ユニットを備えていることを特徴とす
る、パターン認識装置。
【請求項３】請求項２記載のパターン認識装置であっ
て、前記他のニューラルネットワークは、受け取った特
徴ベクトルx_tに基づいて値を決定するために設けられた第１の隠れ層を備えてお
り、ここで、d_ihは重み付け係数、ｆはシグモイド関数で１
≦ｈ≦Ｈであり、Ｈは前記第１の隠れ層内の隠れユニッ
トの総数であり、前記第１の隠れ層は、次の式によって
前記第１の事前シグモイド値を決定するために設けられ
た合計ユニットと接続されており、ここで、b_hjは重み付け係数である、ことを特徴とする
パターン認識装置。
【請求項４】請求項２または３記載のパターン認識装置
であって、前記他のニューラルネットワークは、前記第
２の事前シグモイド出力値Y_j（ｃ）を記憶するために設
けられたメモリを備えて、前記装置は、更に、受け取っ
たクラスq_kに基づいて、該クラスq_kに割り当てられた第
２の事前シグモイド値Y_j（ｃ）が記憶されるアドレスを
発生するために設けられたアドレス発生器を備えている
ことを特徴とする、パターン認識装置。
【請求項５】請求項２または３記載のパターン認識装置
であって、受け取ったクラスq_kに基づいて、更なる値を決定するために設けられた第２の隠れ層を備えてお
り、ここで、w_k1は訓練された重み付け係数、ｆはシグ
モイド関数であり、前記第２の隠れ層は、前記第２の事
前シグモイド値を決定するために設けられたもう１つの合計ニットを接
続されており、ここで、a_ljは訓練された重み係数で、
１≦ｌ≦Ｌ、Ｌは前記第２の隠れ層内にある隠れユニッ
トの総数であることを特徴とする、パターン認識装置。
【請求項６】請求項２または３記載のパターン認識装置
であって、入力されたクラスq_k及び文脈モデルc_mによっ
て決定される第３の事前シグモイド出力値Y_j（q_k、c_m）
を記憶するために設けられたメモリを備えており、前記
事前シグモイド値はKxMxNマトリクスにしたがって記憶
可能であり、前記装置は、更に、q_k、m_n集合を受け取っ
た時、前記集合に割り当てられた前記第３の事前シグモ
イド値が記憶されるアドレスを発生するために設けられ
たアドレス発生器を備えていることを特徴とする、パタ
ーン認識装置。
【請求項７】請求項１乃至６のいずれかに記載のパター
ン認識装置であって、該装置は特に音声認識装置であっ
て、前記クラス及び前記文脈モデルは共にトライフォン
（▲ｃ^l _j▼、q_k、▲ｃ^r _m▼）を形成し、前記第１のネッ
トワークはｐ（q_k|x_t）を計算するために設けられてお
り、前記他のネットワークは、ｐ（▲ｃ^r _m▼|q_k、
x_t）、ｐ（▲ｃ^l _j▼|q_k、▲ｃ^r _m▼、x_t）、ｐ（▲ｃ^l _j
▼|q_k、▲ｃ^r _m▼）、及びｐ（▲ｃ^r _m▼|q_k）を夫れ夫れ
計算するために設けられた、第２、第３、第４及び第５
ネットワークを備えていることを特徴とする、パターン
認識装置。
【請求項８】請求項７記載のパターン認識装置であっ
て、前記ネットワークは、を出力するために設けられていることを特徴とする、パ
ターン認識装置。
【請求項９】請求項４または６記載のパターン認識装置
において用いられるメモリであって、前記事前シグモイ
ド値が記憶されることを特徴とする、メモリ。