JP4336865B2

JP4336865B2 - 音声認識装置

Info

Publication number: JP4336865B2
Application number: JP2001070108A
Authority: JP
Inventors: 浩一篠田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2009-09-30
Anticipated expiration: 2021-03-13
Also published as: US7437288B2; EP1241661B1; DE60204374T2; JP2002268675A; US20020184020A1; EP1241661A1; DE60204374D1

Description

【０００１】
【発明の属する技術分野】
本発明は、混合分布を用いたパターン認識における標準パターン作成方法に関し、特に混合ガウス分布（またはガウス混合分布）を出力確率分布として用いた隠れマルコフモデルを用いた音声認識装置に関する。
【０００２】
【従来の技術】
近年、音声パターンの機械による認識に関する研究が行われ、数々の方法が提案されている。この中で代表的な手法としては隠れマルコフモデル(HMM)を用いた方法がある。そして、HMMを用いた音声認識システムとして、誰の声でも認識できることを目的とした不特定話者の認識システムが盛んに研究・開発されている。
【０００３】
以下、HMMを例にとり、音声認識システムについて図２に基づき説明する。
音声認識装置に入力された話者の発声は、入力パターン作成手段101に入力され、AD変換、音声分析などの過程を経て、ある時間長をもつフレームと呼ばれる単位ごとの特徴ベクトルの時系列に変換される。
この特徴ベクトルの時系列を、ここでは入力パターンと呼ぶ。また、フレームの長さは通常 10msから100ms 程度である。
そして、特徴ベクトルは、その時刻における音声スペクトルの特徴量を抽出したもので、通常10次元から100次元である。
【０００４】
標準パターン記憶手段103にはHMMが記憶されている。 HMMは音声の情報源のモデルの1つであり、話者の音声を用いてそのパラメータを学習することができる。 HMMについては認識手段の説明で詳しく述べる。ここで、HMMは通常各認識単位ごとに用意される。
また、ここでは、認識単位として音素を例にとる。例えば、不特定話者認識システムでは、標準パターン記憶手段のHMMとして、予め多くの話者の発声を用いて学習した不特定話者HMMが用いられる。
【０００５】
そして、認識手段104では、単語HMMを用いて入力パターンの認識を行なう。
ここで、HMMは、音声の情報源のモデルであり、音声パターンの様々な揺らぎに対処するため、統計・確率的なモデルとなっている。
また、HMMの詳細な説明は、ラビナー、ジュアング著、古井訳「音声認識の基礎(下)」、NTTアドバンステクノロジ(1995)(以下、文献1)の、102〜187頁にかかれている。
【０００６】
各音素のHMMは、それぞれ、通常1から10個の状態とその間の状態遷移から構成される。
通常は始状態と終状態が定義されており、単位時間ごとに、各状態からシンボルが出力され、状態遷移が行なわれる。
各音素の音声は、始状態から終状態までの状態遷移の間にHMMから出力されるシンボルの時系列として表される。
【０００７】
各状態にはシンボルの出現確率が、また、状態間の各遷移には遷移確率が定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを表現するためのパラメータである。
出力確率パラメータは、音声パターンの声色の揺らぎを表現するものである。
始状態の確率をある値に定め、状態遷移ごとに出現確率、遷移確率を掛けていくことにより、発声がそのモデルから発生する確率を求めることができる。
【０００８】
逆に、発声を観測した場合、それが、あるHMMから発生したと仮定すると、その発生確率が計算できることになる。
これにより、HMMによる音声認識では、各認識候補に対してHMMを用意し、発声が入力されると、各々のHMMにおいて、発生確率を求め、最大となるHMMを発生源と決定し、そのHMMに対応する認識候補をもって認識結果とする。
【０００９】
出力確率パラメータには、離散確率分布表現と連続確率分布表現があるが、ここでは連続確率表現を例にとる。
連続確率分布表現では、しばしば、混合ガウス分布、すなわち、複数のガウス分布を重みつきで加算した分布が使われる。
以下の例においては、出力確率は混合ガウス連続確率分布とする。
そして、出力確率パラメータ、遷移確率パラメータ、複数のガウス分布の重み係数などのパラメータは、モデルに対応する学習音声を与えて、バウムーウェルチアルゴリズムと呼ばれるアルゴリズムにより、予め学習されている。
【００１０】
例えば、今、1000単語を認識対象とする場合を想定する。
すなわち、1000単語の認識候補から1単語の正解を求める場合を想定する。
まず、単語を認識する場合には、各音素のHMMを連結して、認識候補単語のHMMを作成する。
1000単語認識の場合には1000単語分の単語HMMを作成する。特徴ベクトルの時系列として表現された入力パターンＯを下記の（1）式により示す。
【数１】

ここで、Tは入力パターンの総フレーム数である。
【００１１】
また、認識候補単語Ｗ1,Ｗ2,…ＷNとする。ここでのNは認識候補単語数を示す。
そして、各々の認識候補単語Ｗnの単語HMMと、入力パターンＯとの間のマッチングは、以下のように行なわれる。これからの説明においては、必要のない限り添字nを省略する。
まず、単語HMMにおいて、状態jから状態iへの遷移確率をａji、出力確率分布の混合重みをｃim、各要素ガウス分布の平均ベクトルをμim、共分散行列をΣimとする。ここで、tは入力時刻、i,jはHMMの状態、mは混合要素番号を表す。
前向き確率ａt(i)に関する次の漸化式計算を行う。
【００１２】
この前向き確率ａt(i)は、部分的な観測系列ｏ1,ｏ2,…,ｏtを出力し、時刻tにおいて状態iに存在する確率である。
【数２】

【数３】

ここで、πiは初期状態がiである確率である。
【００１３】
また、(3)式におけるｂi(ｏt)は、以下に示す(4),(5)式により定義される。
【数４】

【数５】

この(5)式において、Kは入力フレームおよび平均ベクトルの次元数である。
【００１４】
また、単語Ｗnに対する入力パタンに対する尤度は、以下に示す(6)式により求められる。
【数６】

この(6)式において、Iは最終状態である。
【００１５】
この処理を各単語モデルについて行ない、入力パターンＸに対する認識結果単語Ｗn（ここで、下記(７)式では、nの上部に∧；ハットが付いている）は、以下に示す(7)式により求められる。
【数７】

そして、この認識結果単語Ｗnは、認識結果出力部に送られる。認識結果出力部は、認識結果を画面上に出力、あるいは、認識結果に対応した制御命令を別の装置に送るなどの処理を行なう。
【００１６】
次に、標準パターン作成手段102について説明する。標準パターン作成手段102は、不特定話者認識の場合、事前の多数の話者の発声を蓄積し、その発声を用いてパラメータの推定を行う。
まず、以下の(8),(9)式により、後向き確率を導入する。
【数８】

【数９】

(9)式におけるβt(i)は時刻t、状態iが与えられたときの、時刻t+1から終端までの部分的な観測系列の確率である。
【００１７】
そして、前向き確率と後向き確率を用いて、観測系列Ｏが与えられたときに、時刻tに状態iに存在する確率は、以下に示す(10)式により与えられる。
【数１０】

また、時刻tに状態iに存在し、時刻t+1に状態jに存在する確率は、以下の(11)式により与えられる。
【数１１】

また、混合ガウス分布の場合に、時刻t に状態番号iのk番目の混合要素に存在する確率(占有度数)は、以下の(12)式により与えられる。
【数１２】

【００１８】
以上の計算値に基づき、 π、a、μ,Σ, cの推定値は以下の(13)〜(17)式により与えられる。
【数１３】

【数１４】

【数１５】

【数１６】

【数１７】

【００１９】
バウム-ウェルチアルゴリズムでは、これらの推定値をもとにパラメータを更新し、さらに、その更新されたパラメータを用いて、推定値を新たに推定するという繰り返しを行なう。
そして、繰り返し毎に、観測系列の認識を行う確率が大きくなることが証明されている。
以上、HMMを用いる場合を例にとり、従来の音声認識装置について説明した。
【００２０】
【発明が解決しようとする課題】
さて、上述したように、出力確率分布表現には、離散分布と連続分布とがある。
そして、離散分布と連続分布との中では、連続分布、特にその中でも、混合ガウス分布が、よく用いられる。
この混合ガウス分布が用いられる理由は、出力確率分布表現の性能が優れているためである。
【００２１】
ここで、混合ガウス分布（以下、混合分布とする）を用いる場合、その要素分布数をどの大きさにすべきかという明確な指針はない。
通常は、混合分布のHMMでは、状態毎の要素分布数がすべての状態にわたり一定とし、いくつかの要素分布数を試して、その中でもっとも性能が高い要素分布数を選ぶという手続きが行われる。
【００２２】
しかしながら、状態により必要な要素分布数は異なることが予想される。
例えば、不必要な要素分布を多く持つとした場合、要素分布の確率を計算するための計算量の増大を招くこととなる。
また、出現回数の少ない状態においては、パラメータ推定の過程で過学習が行われていまい、未知データに対する性能が劣化する可能性がある。
したがって、混合分布HMMの各状態における要素分布数は、状態毎に最適化されることが望ましい。
【００２３】
そして、要素分布数を状態毎に最適化する最も単純な方法は、状態毎に要素分布数を変えて認識実験を行い、各状態毎に認識性能が高くなる要素分布数を選択する方法である。
しかしながら、HMMの状態数が、通常、全体で1000から10000とたいへん多くなり、各状態毎に要素分布数を最適化することは、計算量の点でほとんど不可能である。
【００２４】
本発明はこのような背景の下になされたもので、混合分布を用いた確率モデルにおいて、要素分布数の調節を高速、かつ効果的に行う音声認識装置を提供することにある。
【００２５】
【課題を解決するための手段】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【００２６】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【００２７】
本発明の音声認識装置は、要素分布の木構造を作成する木構造作成手段と、学習データを入力として分布を選択する要素分布選択手段とから構成される標準パターン調節手段を具備することを特徴とする。
本発明の音声認識装置は、前記標準パターン調節手段が、要素分布の選択にミニマックス法を用いるミニマックス分布選択手段を具備することを特徴とする。
【００２８】
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において各要素分布に対応する学習データ量を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、記述長最小基準を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、赤池情報量基準を選択基準として用いることを特徴とする。
【００２９】
本発明の音声認識装置は、前記木構造作成手段が、要素分布の選択において、ダイバージェンスを分布間距離として用いることを特徴とする。
本発明の音声認識装置は、前記木構造作成手段が、学習データに対する尤度を分布間距離として用いることを特徴とする。
本発明の音声認識装置は、混合分布を用いた確率モデルとして、隠れマルコフモデルを用いることを特徴とする。
【００３０】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。図１は本発明の一実施形態によるの構成を示すブロック図である。図２の従来例と異なる点は、標準パターン作成手段１０２と標準パターン記憶手段１０３との間に標準パターン作成手段２０３を挿入していることである。図１の音声認識装置のブロックにおいて、図２の音声認識装置のブロックと同様な構成（入力パターン作成手段１０２、標準パターン作成手段１０１、標準パターン記憶手段１０３、認識手段１０４）に対しては、同一の符号を付し、詳細な説明を省略する。
【００３１】
この図において、入力パターン作成手段１０２は、入力される入力音声（話者の発生した音声信号）から入力パターンを作成する。また、標準パターン作成手段１０２は、従来例の説明で述べたように標準パターンを作成する。
標準パターン調節手段203は、作成された標準パターンの要素分布数を変更する。
標準パターン記憶手段１０３は作成された標準パターンを記憶し、認識手段205は、入力された音声を標準パターンを用いて認識し、認識結果を出力する。
【００３２】
以下に、本発明において一実施形態に、加えられた標準パターン調節手段２０３の動作について、詳細に説明する。
隠れマルコフモデル（HMM）の状態における要素分布数の最適化の問題は、与えられたデータに対し最適な確率モデルを選択する問題とみなすことが可能である。
この確率モデルの選択においては、過去さまざまな情報量基準が提案されてきた。
【００３３】
一実施形態では、その一つであるMDL(記述長最小)を用いて分布数を最適化する方法を考える。
まず、ここで上記MDLの基準について説明する。記述長最小(Minimum Description Length; MDL)基準は、最近の情報理論および計算論的学習理論の研究から、データに対し最適な確率モデルを選択する問題において、有効であることが実証されている。
【００３４】
記述長最小基準は、例えば、韓太舜著、「岩波講座応用数学11、情報と符合化の数理」、岩波書店(1994)(以下、文献2)の、249頁〜275頁に説明されている。 AIC(Akaike Information Criterion;赤池情報量基準)などと同様、なるべく簡単で、しかも、与えられたデータをよく表現できるモデルが良いモデルである、という理念を具現化した基準の一つである。
【００３５】
MDL基準は、確率モデルｉ＝１，…，Ｉのなかで、データｓ＝ｓ1，…，ｓNに対し、最も小さい記述長を与えるモデルを最適なモデルとする基準である。ここで、確率モデルiに対する記述長ＩMDL(i)は以下の(18)式で与えられる。
【数１８】

ここで、αiはモデルiの次元数(自由パラメータの個数) 、 θ(i)はデータＸ^Nを用いて推定されたモデルiの自由パラメータθ⁽ⁱ⁾＝（θ₁ ⁽ⁱ⁾,…,θα_i ⁽ⁱ⁾）の最尤推定量である。
【００３６】
上記(18)式において、第1項はデータに対する対数尤度(以下、尤度と記す)に負符号を付けた量であり、第2項はモデルの複雑さを表す量であり、第3項はモデルiを選択するために要する記述長である。
このように、モデルがより複雑なほど、データに対する尤度が大きくなり、したがって第1項の値は減少する。
一方、モデルが複雑になれば、自由パラメータ数が増加するため、第2項の値は増加する。
このように、第1項と第2項の間にはトレードオフの関係があり、記述長ＩMDL(i)は、適当な複雑さを有するモデルで最小値をとることが期待される。
【００３７】
そして、このMDL基準を用いた状態毎の要素分布数最適化アルゴリズムは、以下の通りである。
まず、通常の手順で学習データを用いた混合ガウス分布HMMの学習を行う。
この際、要素分布数は全状態にわたり一定とし、上限と考えられる数まで、要素分布数を増やしたHMMを学習する。
また、学習の過程で要素分布ごとの占有度数γ^' _t(i,k)を保存しておく。ここでiは状態の添字、kは状態における要素分布の添字である。
【００３８】
次に、標準パターン調整手段２０３は、各状態において要素分布数の最適化を行う。なお、この先は一つの状態iについてのみ説明することにし、状態の添字iを省略する。標準パターン調整手段２０３は、他の状態に対しても同じ処理を行う。
まず、標準パターン調整手段２０３は、内部の木構造作成手段により、状態ごとに要素分布の木構造を作成する。ここで、ルートは一つの分布であり、リーフは各要素分布である。
【００３９】
このとき、要素分布の木構造を作成するには様々な方法が考えられるが、ここでは2分木をk-meansアルゴリズムを用いて作成する。
また、各要素分布間の距離（分布間距離）としては、カルバックダイバージェンスを用いる。このカルバックダイバージェンスは、ガウス分布の平均・共分散の値から容易に計算できる。
この要素分布の木構造作成方法については、特許第００２５３１０７３号，上記文献２に詳細に記載されている。
【００４０】
次に、標準パターン調整手段２０３は、上記木構造の各ノードの分布(ノード分布)の分散を求める。
ここで、各ノード分布の分散は、その支配するすべてのリーフの要素分布の占有度数とガウス分布パラメータから求められる。
今、この木構造を上下に分断するノード分布の集合を「カット」と呼ぶ。このカットの数は多数あるが、一つ一つのカットが、その状態における一つの確率モデルとなる。ここで、MDL基準を用いて最適なカットを求めることを考える。
【００４１】
例えば、あるカットUに対する記述長は次のように計算される。ここで、カットUを構成するノード分布をＳ1，…ＳMとする。ここで、MはカットUにおけるノード分布の個数である。
これにより、データの分布Ｓmに対する尤度Ｌ(Ｓm)は以下に示す（19），（20）式のように近似できる。
【数１９】

【００４２】
上記（１９）式において、
【数２０】

であり、sは分布Ｓmの下のすべてのリーフ分布であり、Kは共有標準パターンとして用いられる平均ベクトルおよび分散の次元数である。
また、（19）式において、μSm，ΣSmは、それぞれ分布Smにおける平均ベクトルおよび分散である。
【００４３】
上述した結果を用いることにより、カットUに対する記述長Ｉ(U)は、以下の(21)式のように記述することができる。
【数２１】

ここで、
【数２２】

であり、このVはUに対応するすべてのデータのフレーム数に相当する量であり、分割の方法によらず一定値である。
【００４４】
そして、標準パターン調整手段２０３は、すべての可能なカットに関して、記述長 l(U)を計算し、最も小さいＩ(U)をもつカットUを選択する。
このとき、可能な分割の種類、すなわち、カットUの数は通常大変多くなる。そこで、次のようなアルゴリズムを用いることにより、カットUの選択時の計算量を節約する。以下、ある状態pの要素分布数最適化について述べる。
【００４５】
まず、状態pに対するノード(節点)を作成する。ここで、このノードをルートノードと呼ぶ。
ルートノードの分布パラメータは、この状態に対応するすべての要素分布に対応するすべてのデータサンプルから推定される。
例えば、木構造が2分木であり、ルートノードの分布をS0、その2つの子ノードの分布をS1、S2としたとき、親ノードから子ノードへ展開したときの記述長の変化分は以下の(23)式で記述される。
【数２３】

【００４６】
例えば、標準パターン調整手段２０３は、Δ＜０である場合、親ノードの展開を行い、一方、Δ＞０である場合、親ノードの展開を行わない。
また、展開するときには、さらに子ノードS1、S2それぞれについて、上述した処理と同様に、その子ノードへ展開したときの記述長の変化を計算し、展開するか否かを判断するという処理を繰り返す。
そして、すべてのノードの展開が終ったとき、その展開の末端のノードの集合がカットとなり、そのノード分布が要素分布として選択されたことになる。
そして、改めて選択された分布のみを要素分布としてもつ、混合ガウス分布HMMを作成し、その要素分布を改めて学習におけるデータにより学習する手続きを行う。
【００４７】
以上が、図１に示す一実施形態の音声認識装置の説明である。
ここでは、隠れマルコフモデル（HMM）を例にして説明したが、モデルが混合ガウス分布である場合にも容易に適用可能である。これは、請求項１０の発明に対応している。
また、上述した一実施形態の説明では、音響モデル学習について説明したが、使用者の少量の発声を用いて標準パターンの修正を行うような、話者適応を行う際にも、話者適応用データを用いて要素分布数の調節を行うことが可能である。
この場合、発明の音声認識装置の構成としては、標準パターン作成手段のかわりに、標準パターン修正手段を用い、この標準パターン修正手段への入力音声は、認識用の入力パターン作成手段に用いる話者と同一の話者の音声を用いる。
【００４８】
また、上述した一実施形態の音声認識装置においては、木構造による要素分布数の調節手段について説明したが、ミニマックス法を用いたミニマックス分布選択手段による調節も、以下のように行うことができる。
以下、一つの状態について説明する。
まず、学習データ中にある回数(X回)以上、出現した分布の集合をAとし、そうでない分布をBとする。
Aに属する分布とBに属する分布とのの距離をすべて計算し、Bの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
【００４９】
次に、その分布以外のBの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
この手続きを分布数が予め定めた最小分布数になるまで繰り返す。
そして、最小分布数より小さくならない（すなわち、Bの分布数が小さい）ときには、その時点で上述の処理を停止する。以上は、請求項４の発明に対応する。
【００５０】
また、一実施形態においては、ノードの選択にMDL基準を用いたが、データ量閾値を用いることも可能である。すなわち、データ量が有る閾値以上ある分布のうちもっともリーフに近い分布の集合をカットとする。以上は、請求項５の発明に対応する。
【００５１】
さらに、一実施形態においては、情報量基準としてMDL基準を用いる場合についてのみ説明したが、赤池情報量基準(AIC)を用いた場合、あるいは他の類似の情報量基準を用いた場合においても容易に適用可能である。以上は、請求項７の発明に対応する。
【００５２】
加えて、一実施形態においては、ダイバージェンスを分布間の距離として用いたが、分布を共有したときの尤度の増分を距離値として用いることもできる。以上は、請求項９の発明に対応する。
【００５３】
以上、本発明の一実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。
【００５４】
【発明の効果】
本発明の音声認識装置によれば、新たに加えたパラメータ調節手段を用いて、混合ガウス分布を用いたパターン認識において、音声の標準パターンの要素分布数を、HMMの状態毎に要素分布数を最適化、すなわち、HMMの状態毎に認識性能が高くなる要素分布数に調節することにより、不必要な要素分布を省くことができ、過学習による未知の音声データに対する劣化を防止することとなり、高性能な音声認識を行うことが可能になる。
【図面の簡単な説明】
【図１】本発明の一実施形態による音声認識装置の構成を示すブロック図である。
【図２】従来例による音声認識装置の構成を示すブロック図である。
【符号の説明】
１０１入力パターン作成手段
１０２標準パターン作成手段
１０３標準パターン記憶手段
１０４認識手段
２０３標準パターン調節手段

Claims

混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
前記標準パターン調節手段は、少なくとも前記学習用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。
混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
前記標準パターン調節手段は、少なくとも前記適応化用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。
前記値が最小となる選択基準に基づいて要素分布を選択することを特徴とする請求項１又は２記載の音声認識装置。
前記標準パターン調節手段は、要素分布の選択において、ダイバージェンスを前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項１乃至３に記載の音声認識装置。
前記標準パターン調節手段は、要素分布の選択において、ノード分布を共有したときの前記尤度の増分を前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項１乃至３に記載の音声認識装置。