JP3168004B2 - 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 - Google Patents

文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Info

Publication number
JP3168004B2
JP3168004B2 JP51351991A JP51351991A JP3168004B2 JP 3168004 B2 JP3168004 B2 JP 3168004B2 JP 51351991 A JP51351991 A JP 51351991A JP 51351991 A JP51351991 A JP 51351991A JP 3168004 B2 JP3168004 B2 JP 3168004B2
Authority
JP
Japan
Prior art keywords
sigmoid
pattern recognition
class
neural network
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP51351991A
Other languages
English (en)
Other versions
JPH06502927A (ja
Inventor
エルベ ブールラール
モーガン,ネルソン
Original Assignee
レルナウト アンド ハウスピイ スピーチプロダクツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レルナウト アンド ハウスピイ スピーチプロダクツ filed Critical レルナウト アンド ハウスピイ スピーチプロダクツ
Publication of JPH06502927A publication Critical patent/JPH06502927A/ja
Application granted granted Critical
Publication of JP3168004B2 publication Critical patent/JP3168004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、KxM個の出力ユニットを有し、所定の文脈
(contextual)モデル(cm)(1≦m≦M)に条件付け
られたクラス(qk)(1≦k≦K)に関する特徴ベクト
ル(xt)を観測(observing)する確率を計算するため
に設けられた、人工ニューラルネットワーク組織(set
−up)を備えた、パターン認識装置に関するものであ
り、前記装置は、データ流を受け取るための入力を有
し、前記データ流をサンプリングすることにより連続的
にデータサンプルを取り込むと共に、データサンプルか
ら前記特徴ベクトル(xt)を決定するために設けられた
サンプリング手段を備えており、前記クラスの各々は、
統計法則によって支配されるモデル(M)の有限集合に
属する少なくとも1つのモデルによって表されるもので
ある。
このような装置は、「マルコフモデルと多層パーセプ
トロン間のリンク(Links between Markob Models
and Multilayer Perceptrons)」と題され、1990年12
月のパターン分析および機械知能のIEEE論文誌、vol.1
2,No.12において発表された、エッチ.ブーラード(H.B
ourlard)及びシー.ジェイ.ウェレケンス(C.J.Welle
kens)の論文から、公知である。前記公知装置では、認
識すべきパターンは、人間の音声パターンである。この
パターンの認識のために用いられたのは、ハイブリッド
ANN(人工ニューラルネットワーク)/HMM(隠れマルコ
フモデル)音声認識である。隠れマルコフモデルは、音
声特性の良好な表現を提供している。人工ニューラルネ
ットワークが音声認識における困難な問題を解消するた
めに用いられ、出力(emission)確率を計算するための
アルゴリズムが開発されている。HMMによれば、音声
は、統計法則によって支配されるクラスQ={q1
q2、...、qk}の集合から構築された特定の有限状態オ
ートマトンによって、生成されるものと仮定されてい
る。入力されたデータ流を認識するために、入力された
音声をサンプルし、そして一連の音響ベクトルX=
{x1、x2、...xt、...xT}に変形する。ここで、xtは、
時間tにおける音響ベクトルを表す。この公知の装置
は、ANNの特殊な形状である多層パーセプトロン(MLP)
を用いている。MLPは、ベイズ(Bayes)確率、即ち事後
確率(posteriori−probabilities)p(qk|xt)を発生
するために訓練され(train)、ベイズ規則を用いるこ
とによって、出力確率を決定するために変形することが
できる。
この公知装置の欠点は、文脈依存(context−depende
nt)モデルのようにより複雑なモデルに対して、同じ限
定されたデータ量で、多くのパラメータを推定(estima
te)しなければならないことである。実際、K個の可能
性のあるクラスとM個の可能性のある文脈(context)
がある場合、考慮されるクラスの左及び右の文脈の情報
を用いると、qk、▲cl j▼、▲cr m▼のKxMxM個の組み
合せ可能となる。ここで、▲cl j▼及び▲cr m▼は、そ
れぞれ、可能性のある文脈モデルの集合C={c1
c2、...cM}に属する左及び右の文脈を表すものであ
る。尤度(likelihood)がMLPによって或はHMMの標準訓
練方法によって発生されても、いずれも音声状態の良好
な確率推定とはならなず、それはほとんどまたは全く観
測されない。所定の文脈モデル▲cl j▼、▲cr m▼)内
の現在のクラス(qk)に関するベクトル(xt)を観測す
る出力確率を計算するために、この公知装置を単純に用
いると、出力層が数千ものユニット及び数百万もの訓練
すべきパラメータを有することになってしまう。この問
題を解決するために、HMMシステムにおいて補間法が用
いられている。この解決法は、十分な訓練材料がないた
めに貧弱に推定される詳細なモデルと、パラメータ数が
制限されているために良好に推定される大まかなモデル
との間の折衷案を表すものである。しかしながら、補間
法は、パターンの認識においてエラーの原因ともなり、
前記装置を十分信頼できないものにしている。
本発明の目的は、前述の欠点を軽減することである。
したがって、本発明による装置は、前記ニューラルネ
ットワーク組織が、K個の出力ユニットを有し前記観測
されるベクトル(xt)を与えられた前記クラス(qk)の
事後確率を計算するために設けられた第1のニューラル
ネットワークと、M個の出力ユニットを有し、前記クラ
スによって条件付けられた前記文脈モデルの事後確率を
計算するために設けられた少なくとも1つの他のニュー
ラルネットワークとに分割されていることを特徴とす
る。ネットワーク組織を第1のネットワーク及び少なく
とも1つの他のネットワークに分割し、各ネットワーク
を前述のように特定事後確率の決定のために備えるよう
にすることによって、所定の文脈モデル(▲cl j▼、▲
r m▼)によってって条件付けられたクラス(qk)に関
するベクトルを観測する出力確率を得るためのいかなる
仮定及び簡素化も、もはや行う必要がなくなる。直接ネ
ットワークの実行を行っている、公知の装置と比較し
て、この解決法はパラメータの数、したがって装置のメ
モリ容量を大幅に減少させるものである。
本発明の装置の第1の好適実施例は、前記他のニュー
ラルネットワークは、各各から独立して第1のZj(xt
及び第2のyj(c)プレーシグモイド出力値若しくは事
前シグモイド出力値(pre−sigmoid output values)
を決定するために設けられたもので、前記第1のZ
j(xt)及び前記第2のyj(c)事前シグモイド出力値
は、それぞれ入力されたクラスに関する入力された特徴
ベクトルを基に決定され、前記他のニューラルネットワ
ークは、前記事前シグモイド出力値からp(c|qk、xt
値を決定するために設けられた1組の上位(upper)ユ
ニットを備えていることを特徴とする。事前シグモイド
出力値Zj及びYjが互いに独立であるということは、それ
らを互いに独立して決定することができ、ニューラルネ
ットワークを更に簡素化できることを暗示している。出
力値の決定は、前記事前シグモイド値を受け取る1組の
上位ユニットによって簡単に実現され、より効率的な組
織を得る結果となる。
好ましくは、前記他のニューラルネットワークは、受
け取った特徴ベクトルxtに基づいて を決定するために設けられた第1の隠れ層(hidden la
yer)を備えており、ここで、dihは重み付け係数、fは
シグモイド関数(sigmoid function)で1hHで
あり、Hは前記第1の隠れ層内の隠れユニットの総数で
あり、前記第1の隠れ層は、次の式の前記第1の事前シ
グモイド値を決定するために設けられた合計(加算)ユ
ニットと接続されており、 ここで、bhjは重み付け係数である。このようにして、
第1の事前シグモイド値を決定するための効率的なアー
キテクチャが得られる。
本発明による装置の第2の好適実施例は、前記他のニ
ューラルネットワークが、前記第2の事前シグモイド出
力値Yj(c)を記憶するために設けられたメモリを備え
ており、前記装置は、更に、クラスqkを受け取った時
に、該クラスqkに割り当てられた第2の事前シグモイド
値Yj(c)が記憶されているアドレスを備えていること
を特徴とする。Zj及びYjの独立性が、出力に対する文脈
の寄与を前もって計算することを可能にしている。この
計算は、例えば、訓練段階の最後に実行され、これによ
り各モデルに対する第2の事前シグモイド値の記憶を可
能とする。それら事前シグモイド値がメモリ内に記憶さ
れているので、それらをいちいち計算する必要がもはや
なくなり、このため計算時間を非常に節約することがで
きる。このように、事前シグモイド値は、一旦記憶され
れば、メモリから読み出すだけでよい。
好ましくは、受け取ったクラスqkに基づいて、更なる
を決定するために設けられた第2の隠れ層を備えてお
り、ここで、wk1は訓練された重み付け係数、fはシグ
モイド関数であり、前記第2の隠れ層は、前記第2の事
前シグモイド値 を決定するために設けられたもう1つの合計ユニットを
接続されており、ここで、aljは訓練された重み係数
で、1lLであり、Lは前記第2の隠れ層内にある
隠れユニットの総数である。このようにして、第2の事
前シグモイド値を決定するための効率的なアーキテクチ
ャが得られる。
本発明による装置の第3の好適実施例は、入力された
クラス(qk)及び文脈モデル(cm)によって決定される
第3の事前シグモイド出力値Yj(qk、cm)を記憶するた
めに設けられたメモリを備えており、前記事前シグモイ
ド値はKxMxNマトリクスにしたがって記憶可能であり、
前記装置は、更に、qk、mn集合を受け取った時、前記集
合に割り当てられた前記第3の事前シグモイド値が記憶
されているアドレスを発生するために設けられたアドレ
ス発生器を備えていることを特徴とする。事前シグモイ
ド出力値Yj(qk、cm)も特徴ベクトルとは独立している
ので、その前計算及び記憶が可能であり、これによって
計算量を減少する。
好ましくは、前記クラス及び前記文脈モデルは、共に
トライフォン(triphone)(▲cl j▼、qk、▲cr m▼)
を形成し、前記第1のネットワークはp(qk|xt)を計
算するために設けられており、前記他のネットワーク
は、p(▲cr m▼|qk、xt)、それぞれp(▲cl j▼|
qk、▲cr m▼、xt)、p(▲cl j▼|qk、▲cr m▼)、
及びp(▲cl j▼|qk)を計算するために設けられた、
第2、それぞれ第3、第4及び第5ネットワークを備え
ている。このようにして、トライフォン認識(triphone
recognition)が容易に実現される。
本発明を、図面に関連してこれより詳細に説明する。
ここで、 第1図は、本発明による装置の概略図を示す。
第2図は、本発明による装置の動作を示す流れ図を示
す。
第3及び4図は、本発明による装置に属する、それぞ
れニューラルネットワークを概略的に示す。
認識すべきパターンは、例えば、絵または音声のよう
に、様々な種類のものが可能である。本発明は、音声を
例として用いて説明する。しかしながら、これは明確性
の目的のためにのみ行われるのであり、記載される装置
が音声以外のパターン認識にも用いることができること
は、明らかであろう。
音声は、音素から成り立っている。例えば、「cat」
という単語は、3つの音素「k」の音、短い「a」及び
最後の「t」から構成されている。音声認識とは、言語
内容を判断するために、少なくとも音素と同じ大きさの
一連の要素の判断を、意味するものである。
あるパターン、特に音声の認識装置が第1図に概略的
に示されている。データ、特に音声が、線1を介してサ
ンプリング手段2に供給される。サンプリング手段によ
ってサンプルされた後、データサンプルは、出力確率を
決定するために設けられた、略してANNと呼ばれる人工
ニューラルネットワーク組織を備えた、処理装置3に供
給される。それら出力確率は次に、例えば音声の場合入
力された文である、入力データを認識するために設けら
れた、もう1つの処理装置4に供給される。
第1図に示された装置によって行われる自動音声認識
(ASR)は、第2図の流れ図に示したような数個のステ
ップを含んでいる。最初のステップ5では、入力データ
が、例えば音声の場合では、マイクロフォンによって、
収集される。マイクロフォンから出力された電気信号
は、その後処理されるが(6)、これには、例えば音声
フレームよりかなり大きな時定数を用いてスペクトル傾
斜を平坦化するためのフィルタ処理を含んでいる。
前処理ステップ6の後、特徴抽出7を行うが、これ
は、音響的ばらつきには依存せず言語内容(linguistic
contents)を感知する音声信号表現の判断(決定)を
含んでいる。典型的に、音声分析は、ある固定長の「フ
レーム」即ち分析窓にわたって実施される。例えば、音
声を、スペクトルの「エイリアシング(aliasing)」を
防止するために6.4kHzで濾波した後に、16kHzでサンプ
ルする。32msec(512点)の窓を、例えば、スペクトル
分析モデュールへの入力として用いて、一定間隔、例え
ば10msec(160点)毎に1回の分析を行う。このように
して、音声信号は、一連の特徴ベクトルX={x1
x2、...、xt、...xT}に変形される。ここで、xtは時刻
tにおける特徴ベクトルを表す。音声の場合、このよう
な特徴ベクトルは、音響ベクトルである。
一旦特徴抽出が実行されたなら、仮説発生(8)を開
始するが、ここでニューラルネットワークが用いられ
る。仮説発生ステップは、例えば単語のような音声セグ
メントに対するラベルを生成するための分類、または音
声フレームと「基準」音声部分との間の類似性の測定を
含んでいる。代替的に、入力を、適合性の不確定度の確
率的測定を生じる統計モデルに適合させることもでき
る。
仮説発生ステップ8の後、費用推定(cost estimata
tion)ステップ9が開始する。ここでは、最少費用の一
致を判定するために、例えば、プリンストン大学出版
(Princeton University Press)から1962に応用動的
プログラミング(Applied Dynamic Programming)に
おいて発表された、アール ベルマン アール エス
ドレイフュス(R.Bellman R.S.Dreyfus)の論文に記載
されている、ベルマンの動的プログラミングアルゴリズ
ムを用いる。認識10自体は、一旦費用推定が得られてか
ら、行われる。
本発明の詳細な説明を始める前に、音声認識の一般的
知識について述べ、用いられる用語に明確な定義を示し
ておく。
ほとんどの最先端技術の音声認識装置は、統計的手法
である隠れマルコフモデル(HMM)を基にしている。こ
の形式主義では、統計法則によって支配されるクラスQ
={q1、q2、...qk}の集合によって構築された特定の
有限状態オートマトン(finite state automaton)に
よって、音声が生成されていると仮定している。その場
合、各音声単位(例えば、各語彙の単語または各音素)
は、前もって定義された位相にしたがって、L個のクラ
スq1∈Q(l=1、...、L)から成る特定のHMMと関連
付けられている。HMM手法では、各仮説的音声音に対し
て観測スペクトルの確率、並びに各許される遷移の確率
を推定しなくてはならない。これらの確率の負対数(ne
gative log)を、動的プログラミングアルゴリズム(D
ynamic Programming algorithm)[ベルマン及びドレ
イフュス(Bellman & Dreyfus)、1962]における距
離として用い、最少費用経路(局所距離の最少合計と許
された遷移に対する全費用の最少合計との一致として定
義されている)を決定することができる。この経路は、
データと一致するモデルの最良の時間軸正規化(warpin
g)を表すものである。
音声音(音素)用モデルでは、音は、先頭、中間、及
び終端を有し、各々固有の特性がある。この音声は、各
フレーム(例えば10msec)の間それらの「クラス」の1
つに完全に留まり、その時刻において次の許されるクラ
スに移行することができるものと仮定する。
各遷移に関連するのは、現在のクラスqkから新しいク
ラスq1に移動する時に、音声特徴ベクトルxtを出力する
確率p(xt、q1|qk)である。出力確率p(xt|、qk
(各クラスqkに対して)と、遷移確率p(q1|qk)(各
遷移qk→q1に対して)とは、区別される。いかなる特定
の発声に対しても、観測される特徴は、各クラスについ
ての出力確率と対応する遷移との積である確率(可能性
のあるクラスを通るいずれかの仮説経路に対する)を有
している。これが正しいのは、局部的な確率間に想定さ
れた独立性のためである。例えば、q1→q1→q2という経
路及び入力の特徴x1、x2、x3を仮定する。すると想定さ
れた経路の確率は、以下のようになる。
p(x1|q1).p(q1|q1).p(x2|q1).p(q2|q1).p(x3|q2). 費用を得るために負対数を取ると、乗算の代わりに加
算が行われ、そして動的プログラミングを用いて最少費
用経路を決定することができる。
連続的音声認識に対しては、音素HMMを連結して複数
の単語を表し、更にこれらを連結して完全な発声を表す
ことができる。モデルの変種も導入して、隣接する音素
または単語間の調音結合(coarticulation)の一般的効
果を表すこともできる。特に、例えばトライフォンのよ
うな文脈依存音声モデルを用いて、隣接する音声からの
調音結合に起因する様々な異音(allophonic)を表すこ
とができる。この場合、3つの音素の連続が、調音結合
効果をもたらすものと、考えられる。各音素には、その
右側及び左側の音素的文脈にしたがって、それに関連す
るいくつかのモデルを有している。もちろん、この手法
の欠点は、モデルの数そして結果的に判断すべきパラメ
ータの数が急激に増加することである。M個の音素とK
個の可能なクラスがあるとすると、各クラスに対して最
大KxMxM個の可能性のある音素的文脈がある。それら全
てが許されているわけではないが(音声学的規則または
類似文脈の類別のため)、可能性のあるトライフォンモ
デルの数は、膨大には変りない。
本発明者によって書かれ、IEEE 90CH 2847−2、p4
13−416に発表された、「隠れマルコフモデルによる多
層パーセプトロン(MLP)を用いた連続音声認識」とい
う題の論文は、どのようにANNの特殊な形態であるMLPを
用いて、HMMシステムに用いられる出力確率を計算する
かについて、述べたものである。これらの研究におい
て、1つのMLPの各出力ユニットが、マルコフモデルを
定義したクラスQ={q1、q2、...qk}の集合の特定の
クラスqkと関連付けられている場合、当該MLPを訓練し
て、その出力にxtが与えられる時のp(qk|xt)のよう
な確率を発生できることが示されている。p(qk|xt
のような確率は、一般的にベイズの確率または事後確率
と呼ばれており、下記のベイズの規則によってHMMにお
いて出力確率として用いられる尤度(likelihoods)に
変形することができる。
引用した論文に示されているように、このような手法
の利点は、データの確率的分布に関する仮説を用いず
に、HMMに必要とされる出力確率を、よりよい判別特性
(discriminant properties)によって推定する可能性
があることである。結果的に文脈または他の情報を考慮
するMLPへの入力領域の変更を可能としているので、こ
の手法がいかにしてHMMの他の重大な欠点を克服するこ
とができるかも、示されている。
上述のように、MLPは、HMMのための出力確率を推定す
るために設けられたものである。これらの推定は、かな
り単純なHMMが用いられた場合に計数推定(counting e
stimation)またはガウス推定の性能を向上するに至っ
たことが示されている。しかしながら、現在最先端の連
続音声認識装置は、大幅に複雑なHMM、例えば音声当り
多数の密度及び/または文脈依存のモデルを必要とす
る。最先端のHMMを基本とした音声認識装置は、音素の
代わりにトライフォンのような文脈依存音声単位をモデ
ルとして用い、その性能を向上させている。例えば、既
にあげた例に戻ると、英語の「cat」という単語は3つ
の音素、「k」の音、短い「a」、そして最後の「t」
から構成されている。標準的な音声手法では、単語「ca
t」のマルコフモデルを、その構成音素、即ち「k−a
−t」のモデルを連結することによって、得ている。ト
ライフォン手法では、音素のモデルは、その左側及び右
側の音声文脈に依存し、分離された単語「cat」を構成
する一連のモデルは、「#ka−kat−at#」となる。こ
こで、「#」は「無」即ち「無声」記号である。この例
では、「#ka」は、音素「#」が左側に、そして音素
「a」が右側にある音素「k」のモデルを表している。
この手法は、音声的(phonetic)調音結合を考慮してい
る。この場合、HMM(または混合ANN/HMM)に用いるため
に推定しなければならない出力確率p(xt|qk)が、p
(xt|qk、▲cl j▼|▲cr m▼)、即ち音素文脈▲cl j
▼が左側、そして▲cr m▼が右側にある、現音素クラス
qkに関する音響特徴ベクトルxtを観測する確率に置き換
えられている。文脈モデル、▲cr m▼及び▲cl j▼は、
集合C={c1、...、cm、...cM}に属するものである。
各クラスqkは、少なくとも1つのモデルによって表され
ている。前記集合Cのモデルは、統計的規則によって支
配されている。
しかしながら、これらの更に複雑なモデルに伴う困難
は、同じ限られた量のデータで、更に多くのパラメータ
を推定しなければならないことである。実際、K個の可
能性のあるクラスとM個の可能性のある音素的文脈モデ
ルがあるとすると、我々は、▲qc k▼、▲cr m▼、及び
▲cl j▼のKxMxM個の可能性のある組み合せを有するこ
とになる。ニューラルネットワークでも同様に、これは
重大な問題である。KxMxM個の出力ユニットを有するMLP
によって、或はHMM用の標準訓練方法によって尤度を発
生するにしても、いずれも音声状態のための良好な確率
推定ではなく、ほとんどまたは全く観測がなされない。
更に、公知の技術を、例えばトライフォンに単に応用す
ると、出力層は数千もの出力ユニット、及び数百万もの
訓練すべき接続(即ちパラメータ)を有する結果とな
る。これは、100000ないし1000000個程度の訓練トーク
ンを有する本データ集合にとってはかなり嵩張るもので
ある。HMMシステムでは、文脈依存性のレベル間、即ち
フォン(phones)、バイフォン(biphones)及びトライ
フォン(triphones)で、各レベルの発生頻度にしたが
って、補間を行うことによって、これらの問題を扱って
きた。この場合、p(xt|qk、▲cl j▼、▲cr m▼)
は、p(xt|qk、▲cl j▼、▲cr m▼)、p(xt|qk、▲
r m▼)、p(xt|▲cl j▼、qk)及びp(xt|qk)の推
定に関して、表される。実際、この解決法は、不十分な
訓練材料のために貧弱に推定されるよい(即ち詳細な)
モデルと、それらのパラメータ数が制限されているため
に良好に推定される大まかなモデルとの間の折衷案を表
している。
この文脈モデリングにおける主要な問題は、以下のよ
うな出力確率の推定にある。
これらの確率を推定するために、KxMxM個の出力ユニ
ットを有する、人工ニューラルネットワーク組織を用い
る。統計数学的規則を基に、以下の関係が与えられる。
出力確率(1)にベイズの法則を適用すると、次の式
が与えられる。
(2)及び(3)を(4)に代入すると、次の式が与
えられる。
以下に説明するが、この変形は、計算すべき出力確率
のよく定義された数学的変形を基にしており、想定を行
うことなく後者の正確な計算を可能にするものである。
本発明の要旨は、計算すべき出力確率の(1)式を変形
するための異なる数学的可能性から、正確な選択を行っ
たことである。この選択は、大幅に簡素化されたニュー
ラルネットワークを、後者の出力確率の計算のために用
いることができるようにするものである。
式(5)から推察されるように、KxMxM個の出力ユニ
ットを有するニューラルネットワークは、K+M+M個
またはK+M個の出力ユニットを有するネットワークに
分割することができる。音素モデル用混合ANN/HMMの定
理に基づいて、先に簡単に論じたように、即ち、ANNの
出力値を、入力に条件付けられた出力クラスの事後確率
から推定する分類モデルにおいて、式(5)で表される
全ての確率は、それぞれのニューラルネットワークによ
って推定することができる。
*p(qk|xt)は、音素をモデリングするために設け
られた第1のニューラルネットワークによって推定さ
れ、ここで入力領域は、現在の特徴ベクトルxtのみを含
み、出力の限度が現在のクラスqkに関連付けられてい
る。このようなニューラルネットワークは、前述の「マ
ルコフモデルと多層パーセプトロン間のリンク」と題さ
れ、1990年12月のパターン分析および機械知能のIEEE論
文誌、vol.12,No.12のp1167−1178において発表され
た、エッチ.ブーラード(H.Bourlard)及びシー.ジェ
イ・ウェレケンス(C.J.Wellekens)の論文に詳細に記
載されている。
*p(▲cr m▼|qk、xt)は、第2のニューラルネッ
トワーク(第3図に示されるような)によって推定さ
れ、ここでは出力ユニット(117)は、トライフォンの
右側の音素crと関連付けられており、出力領域は、現在
の音響ベクトルxtの要素xti(s≦i≦I)とxtに関連
付けられた現在のクラスqkとによって構成されている。
*p(▲cl j▼|qk、▲cr m▼、xt)は、第4図に示
されるような第3のニューラルネットワークによって推
定され、ここでは出力ユニットがトライフォンの左側の
音素と関連付けられており、そして入力領域が現在の音
響ベクトルxt、現在のクラスqk及びトライフォンにおけ
る右側の音声文脈▲cr m▼によって構成されている。
*p(▲cl j▼|qk、▲cr m▼) は、第4のニューラルネットワークによって推定され、
ここでは出力ユニットが、トライフォンの左側の音素▲
l j▼と関連付けられており、入力領域は現在のクラス
qkと右側の音素▲cr m▼とを表している。これは、特定
の現クラスを与えられたトライフォンの左部分の特定の
音素と右側の音声文脈を観測する事前確率を与えるもの
である。
*(c▲cr m▼|qk)は、第5のニューラルネットワ
ークによって推定され、ここでは出力ユニットがトライ
フォンの右側の音素▲cr m▼と関連があり、入力領域は
現在のクラスqkを表している。これは、特定のクラスの
右側の特定の音素を観測する事前確率を与えるものであ
る。このモデルにおいて限定した数のパラメータを与え
れば(即ち、KxM)、この確率も計数によって推定する
ことができる(即ちこれはニューラルネットワークを必
要としない)。
*p(qk)は、標準的な混合ANN/HMM音声手法におい
ても用いられている、音素の事前確率であり、訓練集合
に依存することによって、単純に推定される。この確率
を決定するためには、ニューラルネットワークは不要で
ある。
*p(xt)は、クラスには独立した一定値であり、し
たがって分類の目的には重要ではない。この確率を決定
するためには、ニューラルネットワークは不要である。
先に説明したように、出力確率の計算は、このよう
に、第1のニューラルネットワーク及び第2のニューラ
ルネットワークによって行われ、これらは各々前記文脈
的モデル、即ち現在のクラスqkに条件付けられた▲cr m
▼及び▲cl j▼の事後確率を計算するために設けられた
ものである。限られた訓練集合に対しては、これらの推
定は未だ、従来のHMMシステムにおいて行われているよ
うな、単音モデルによる平滑化を行う必要があり得る。
加えて、cl及びcrが音素ではなく広い音声クラスまたは
クラスタを表す場合、上記結果は「一般化されたトライ
フォン」の推定に適合する。最後に、左側及び右側の文
脈のみが用いられる場合、この技術は2つのネットワー
ク、単音ネットワークと及びその推定p(c|qk、xt)の
1つにのみ有効である。
音声データ(例えばxt)を含む入力領域に文脈情報を
供給することもできる。この場合、xtの確率は、X▲c
t+c t-c▼で置き換えなければならない。すると、これは
音声文脈情報を与えられたトライフォン確率の推定を行
うことになり、トライフォンモデルの場合更に重要なも
のとなる。
先に説明したように、トライフォンモデルに対する出
力確率は、今や想定を全く行わずに計算することができ
る。しかしながら、各ニューラルネットワークによって
行うべき計算量は大量のままである。例えば、第2のニ
ューラルネットワーク(第3図)の場合、KxM回の計算
が必要である。十分な性能のニューラルネットワークが
入手可能であれば、これはさほどの問題ではないだろ
う。
行うべき計算量は、しかしながら、ネットワークの位
相に単純な制限を設けることによって、減少することが
できる。第3図に示すように、ネットワークは、終端層
においてのみ結合されている2つの別個の部分から成っ
ている。入力された特徴ベクトルxtに適用される計算
は、クラスqkに適用されるものから分離されたより低い
層においてである。この制約が可能なのは、クラスは二
進値を有し有限の状態集合に属するからである。この制
約によって、出力に対する文脈の寄与度を事前に計算す
ることができる。この計算は、訓練段階の終了時に、パ
ターン認識に先だって行われる。
第3図に示された、p(▲cr m▼|qk、xt)を決定す
るための第2のニューラルネットワークについて考慮す
ると、ユニット12に入力される特徴ベクトルxtは、層14
の隠れユニットに供給される。各隠れユニットh(1≦
h≦H)は、重み付けされた合計値 を与え、ここでfは、標準シグモイド関数であり、 であり、dihは、重み係数である。
次に重み付けされた合計値zhは、次の第1の事前シグ
モイド値を決定するために設けられたj個の合計ユニッ
トZjに供給される。
ここでbhjは重み係数である。
入力11に供給される状態qk(1≦k≦K)のために、
同等の組織を実現する。隠れ層13が、更に別の重み付け
した合計値を決定するために設けられる。
ここで、wklは訓練された重み係数である。後者の重
み付け合計値ylは、次の事前シグモイド値を決定するた
めに設けられたL個の合計ユニットYj(15)に供給され
る。
ここで、aljも、訓練された重み付け係数である。確
率p(▲cr j▼|qk、xt)は、f(Yj+Zj)を計算する
ために設けられた上層17によって決定される。
文脈(c)及び入力特徴ベクトル(xt)の両方から入
力を受け取る隠れたユニットがないように全体を分割す
ることによって、簡素化を図ることができる。更に、文
脈モデルcの各々に対して事前シグモイド値Yjは入力さ
れた特徴ベクトルとは独立しているので、全ての可能性
のある文脈モデルについて事前シグモイド値を前もって
計算することができる。それらの事前シグモイド値Y
jは、次にメモリに記憶され、決定すべき各確率p(▲
r m▼|qk、xt)についてもはやその事前シグモイド値
を計算する必要がないようにする。所定値Yj(qk)に対
して適切にアドレスするために、2次元マトリクス組織
を選択し、各可能性のある▲cr m▼モデルに関連するK
個の値を記憶する。入力されたqk及び▲cr m▼値による
簡単なアドレッシングによって、対応するYj値が得ら
れ、これを次にf(Yj+Zj)の計算のために用いる。主
要な新たな計算は(単音声の場合と比較して)、単に文
脈の寄与度と最終的シグモイド値の非線型性の両方に対
する探索であり、これは各仮説を立てられたトライフォ
ンに対して再計算しなくてはならない。
先に述べた組織は、事前計算の最大の可能性を、事前
に計算された値の記憶と共に与えるものである。しかし
ながら、事前計算を少なくした別の実施例も可能である
ことは、明確であろう。したがって、yl値のみを事前計
算し、入力されたck値によってアドレス可能なメモリに
それらを記憶することも可能である。
第3図に示したものと同等の組織は、p(c▲cl j
|qk、▲cr m▼、xt)を決定するために設けられた第3
のニューラルネットワークにも適用される。入力される
qk、▲cr m▼の各集合に対して、事前シグモイド値y
j(qk、▲cr m▼)を前もって計算し、メモリに記憶す
ることができる。事前シグモイド値 を得るための特徴ベクトルxtの計算は、第3図に関して
説明したものに類似している。
ここでは、qk値が与えられるユニット20からと同様
に、▲cr m▼値が与えられるユニット21からも隠れ層22
への入力があるので、事前シグモイド値Yj(qk、▲cr m
▼)について詳細に説明する。隠れ層22は、値ylを決定
するために設けられたものである。
ここで、fは再び標準シグモイド関数であり、skl
びrnlは訓練された重み付け係数である。そして、事前
シグモイド値は、加算器23によって決定される。
式(6)及び(7)から解るように、事前シグモイド
値Yj(qk、▲cr m▼)は、両方の入力値qk及び▲cr m
に依存しており、したがってYjに対してKxM個の値を与
える。メモリに記憶されている事前に決定されたY
j(qk、▲cr m▼)に適切にアドレスするために、3次
元マトリクス組織を選択し、各可能性のある▲cl j
(1≦j≦M)に関連付けられたKxMxM個の値を、KxMxM
のマトリクスにしたがって記憶する。特定の▲cl j▼が
与えられると、これは1つのマトリクスを与え、そのマ
トリクスのk番目の行及びn番目の列に事前シグモイド
値Yj(qk、▲cr m▼)が記憶される。このように、記憶
された値は、事前シグモイド値が記憶されているマトリ
クス位置を示すアドレスを共に形成する入力qk及び▲c
r m▼値によって、容易にアドレスされる。
先に説明した組織は、トライフォンの場合ばかりでな
く、所定の文脈モデルcで条件付けられたクラスqに関
する特徴ベクトル(xt)を観測する確率を計算する、よ
り一般的な文脈においても適用可能なものである。現在
のクラスqを特定の隣接した文脈モデルcによって観測
する確率を推定するための式は、 p(q,c|xt)=p(q|xt).p(c|q,xt) である。
このように、確率は、事後確率の積に分解されるので
ある。これは、KxM個の出力を有する単一ネットワーク
の訓練を、それぞれK個及びM個の出力を有する2つの
ネットワークの訓練に減少させるのであり、したがっ
て、時間及びパラメータに関して潜在的に膨大な節約を
可能とするものである。q及びxtの入力間で隠れユニッ
トを共用しないと仮定することにより、qから発する出
力ベクトル(事前シグモイド)への寄与度は、q及びc
の全ての値に対して前もって計算することが可能とな
る。
フロントページの続き (56)参考文献 特開 平4−180099(JP,A) 特公 平6−73080(JP,B2) 特公 平6−42159(JP,B2) 欧州特許553101(EP,B1) IEEE Transactions on Pattern Analys is and Machine Int eligence,Vol.PAMI− 12,No.12,December 1990,H.Bourlard et a l,”Links between M arkov Models and M ultilayer Perceptr ons”,p.1167−1178 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S8.3,W.Ma et al,”TDNN Labeli ng for a HMM Recog nizer”,p.421−423,Apri l 3−6,1990 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S8.2,L.T.N iles et al,”Combin ing Hidden Markov Model and Neural N etwork Classifier s”,p.417−420,April 3− 6,1990 Computer Speech a nd Language,Vol.3, No.1,January 1989,H. Bourlard et al,”Sp eech Pattern Discr imination and Mult ilayer Perceptron s”,p.1−19 Proceedings of 1991 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S2.18,M.M.H ochberg et al,”Hid den Markov Model/N eural Network Trai ning Techniques fo r Connected Alphad igit Speech Recogn ition”,p.109−112,14 Ma y 1991 Speech Technolog y,Vol.5,No.3,Febur ary 1991,E.Levin,”Co nnected Word Recog nition Using Hidde n Control Neural A rchitecture”,p.102− 107 Proceedings of 1990 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S8.1,N.Mor gan et al,”Continu ous Speech Recogni tion Using Multila yer Perceptrons wi th Hidden Markov M odels”,p.413−416,Apri l 3−6,1990 (58)調査した分野(Int.Cl.7,DB名) G10L 15/16 G10L 15/18 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】KxM個の出力ユニットを有し、所定の文脈
    モデルcm(1≦m≦M)によって条件付けられたクラス
    qk(1≦k≦K)に関する特徴ベクトルxtを観測する確
    率を計算するために設けられた人工ニューラルネットワ
    ーク組織を備えたパターン認識装置であって、データ流
    を受け取るための入力を有し、かつ前記データ流をサン
    プリングすることによってデータサンプルを連続的に取
    り込み、データサンプルから前記特徴ベクトルxtを決定
    するサンプリング手段を備えており、前記クラスの各々
    は、統計法則によって支配されているモデル(M)の有
    限集合に属する少なくとも1つのモデルによって表され
    るものであり、前記ニューラルネットワーク組織は、K
    個の出力ユニットを有し前記観測されるベクトルxtを与
    えられた前記クラスqkの事後確率を計算するために設け
    られた第1のニューラルネットワークと、M個の出力ユ
    ニットを有し前記クラスによって条件付けられた前記文
    脈モデルの事後確率を計算するために設けられた少なく
    とも1つの他のニューラルネットワークとに分割されて
    いることを特徴とする、パターン認識装置。
  2. 【請求項2】請求項1記載のパターン認識装置であっ
    て、前記他のニューラルネットワークは、各々から独立
    して第1のZj(xt)及び第2のYj(c)事前シグモイド
    出力値を決定するために設けられて、前記第1及び前記
    第2の事前シグモイド出力値は、それぞれ入力されたク
    ラスに関する入力された特徴ベクトルを基に決定され、
    更に前記他のニューラルネットワークは前記事前シグモ
    イド出力値からp(c|qk、xt)を決定するために設けら
    れた1組の上位ユニットを備えていることを特徴とす
    る、パターン認識装置。
  3. 【請求項3】請求項2記載のパターン認識装置であっ
    て、前記他のニューラルネットワークは、受け取った特
    徴ベクトルxtに基づいて値 を決定するために設けられた第1の隠れ層を備えてお
    り、 ここで、dihは重み付け係数、fはシグモイド関数で1
    ≦h≦Hであり、Hは前記第1の隠れ層内の隠れユニッ
    トの総数であり、前記第1の隠れ層は、次の式によって
    前記第1の事前シグモイド値を決定するために設けられ
    た合計ユニットと接続されており、 ここで、bhjは重み付け係数である、ことを特徴とする
    パターン認識装置。
  4. 【請求項4】請求項2または3記載のパターン認識装置
    であって、前記他のニューラルネットワークは、前記第
    2の事前シグモイド出力値Yj(c)を記憶するために設
    けられたメモリを備えて、前記装置は、更に、受け取っ
    たクラスqkに基づいて、該クラスqkに割り当てられた第
    2の事前シグモイド値Yj(c)が記憶されるアドレスを
    発生するために設けられたアドレス発生器を備えている
    ことを特徴とする、パターン認識装置。
  5. 【請求項5】請求項2または3記載のパターン認識装置
    であって、受け取ったクラスqkに基づいて、更なる値 を決定するために設けられた第2の隠れ層を備えてお
    り、ここで、wk1は訓練された重み付け係数、fはシグ
    モイド関数であり、前記第2の隠れ層は、前記第2の事
    前シグモイド値 を決定するために設けられたもう1つの合計ニットを接
    続されており、ここで、aljは訓練された重み係数で、
    1≦l≦L、Lは前記第2の隠れ層内にある隠れユニッ
    トの総数であることを特徴とする、パターン認識装置。
  6. 【請求項6】請求項2または3記載のパターン認識装置
    であって、入力されたクラスqk及び文脈モデルcmによっ
    て決定される第3の事前シグモイド出力値Yj(qk、cm
    を記憶するために設けられたメモリを備えており、前記
    事前シグモイド値はKxMxNマトリクスにしたがって記憶
    可能であり、前記装置は、更に、qk、mn集合を受け取っ
    た時、前記集合に割り当てられた前記第3の事前シグモ
    イド値が記憶されるアドレスを発生するために設けられ
    たアドレス発生器を備えていることを特徴とする、パタ
    ーン認識装置。
  7. 【請求項7】請求項1乃至6のいずれかに記載のパター
    ン認識装置であって、該装置は特に音声認識装置であっ
    て、前記クラス及び前記文脈モデルは共にトライフォン
    (▲cl j▼、qk、▲cr m▼)を形成し、前記第1のネッ
    トワークはp(qk|xt)を計算するために設けられてお
    り、前記他のネットワークは、p(▲cr m▼|qk
    xt)、p(▲cl j▼|qk、▲cr m▼、xt)、p(▲cl j
    ▼|qk、▲cr m▼)、及びp(▲cr m▼|qk)を夫れ夫れ
    計算するために設けられた、第2、第3、第4及び第5
    ネットワークを備えていることを特徴とする、パターン
    認識装置。
  8. 【請求項8】請求項7記載のパターン認識装置であっ
    て、前記ネットワークは、 を出力するために設けられていることを特徴とする、パ
    ターン認識装置。
  9. 【請求項9】請求項4または6記載のパターン認識装置
    において用いられるメモリであって、前記事前シグモイ
    ド値が記憶されることを特徴とする、メモリ。
JP51351991A 1991-08-19 1991-08-19 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 Expired - Fee Related JP3168004B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/BE1991/000058 WO1993004468A1 (en) 1991-08-19 1991-08-19 A pattern recognition device using an artificial neural network for context dependent modelling

Publications (2)

Publication Number Publication Date
JPH06502927A JPH06502927A (ja) 1994-03-31
JP3168004B2 true JP3168004B2 (ja) 2001-05-21

Family

ID=3885294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51351991A Expired - Fee Related JP3168004B2 (ja) 1991-08-19 1991-08-19 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Country Status (4)

Country Link
EP (1) EP0553101B1 (ja)
JP (1) JP3168004B2 (ja)
DE (1) DE69126983T2 (ja)
WO (1) WO1993004468A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Computer Speech and Language,Vol.3,No.1,January 1989,H.Bourlard et al,"Speech Pattern Discrimination and Multilayer Perceptrons",p.1−19
IEEE Transactions on Pattern Analysis and Machine Inteligence,Vol.PAMI−12,No.12,December 1990,H.Bourlard et al,"Links between Markov Models and Multilayer Perceptrons",p.1167−1178
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,S8.1,N.Morgan et al,"Continuous Speech Recognition Using Multilayer Perceptrons with Hidden Markov Models",p.413−416,April 3−6,1990
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,S8.2,L.T.Niles et al,"Combining Hidden Markov Model and Neural Network Classifiers",p.417−420,April 3−6,1990
Proceedings of 1990 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,S8.3,W.Ma et al,"TDNN Labeling for a HMM Recognizer",p.421−423,April 3−6,1990
Proceedings of 1991 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,S2.18,M.M.Hochberg et al,"Hidden Markov Model/Neural Network Training Techniques for Connected Alphadigit Speech Recognition",p.109−112,14 May 1991
Speech Technology,Vol.5,No.3,Feburary 1991,E.Levin,"Connected Word Recognition Using Hidden Control Neural Architecture",p.102−107

Also Published As

Publication number Publication date
WO1993004468A1 (en) 1993-03-04
JPH06502927A (ja) 1994-03-31
EP0553101A1 (en) 1993-08-04
DE69126983T2 (de) 1998-03-05
EP0553101B1 (en) 1997-07-23
DE69126983D1 (de) 1997-09-04

Similar Documents

Publication Publication Date Title
JP3168004B2 (ja) 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置
JP3049259B2 (ja) 音声認識方法
US5839105A (en) Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood
US6249761B1 (en) Assigning and processing states and arcs of a speech recognition model in parallel processors
Bourlard et al. CDNN: A context dependent neural network for continuous speech recognition
Kershaw et al. Context-dependent classes in a hybrid recurrent network-HMM speech recognition system
Ström Sparse connection and pruning in large dynamic artificial neural networks
Robinson et al. IPA: Improved phone modelling with recurrent neural networks
Tóth et al. Training HMM/ANN hybrid speech recognizers by probabilistic sampling
Elenius et al. Multi-layer perceptrons and probabilistic neural networks for phoneme recognition.
EP0789902A1 (en) Decision tree classifier designed using hidden markov models
Valsan et al. Statistical and hybrid methods for speech recognition in Romanian
Raissi et al. Towards consistent hybrid HMM acoustic modeling
Mohamed et al. HMM/ANN hybrid model for continuous Malayalam speech recognition
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Fontaine et al. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling
Morgan et al. Continuous speech recognition on the resource management database using connectionist probability estimation.
Ala-Keturi Speech recognition based on artificial neural networks
Konig et al. Supervised and unsupervised clustering of the speaker space for connectionist speech recognition
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Verhasselt et al. Context modeling in hybrid segment-based/neural network recognition systems
Jeong et al. Automatic phone segmentation and labeling of continuous speech
Konig et al. Modeling consistency in a speaker independent continuous speech recognition system
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
Le Cerf et al. Pseudo-segment based speech recognition using neural recurrent whole-word recognizers

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees