JP4336865B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4336865B2 JP4336865B2 JP2001070108A JP2001070108A JP4336865B2 JP 4336865 B2 JP4336865 B2 JP 4336865B2 JP 2001070108 A JP2001070108 A JP 2001070108A JP 2001070108 A JP2001070108 A JP 2001070108A JP 4336865 B2 JP4336865 B2 JP 4336865B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- standard pattern
- distributions
- node
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000009826 distribution Methods 0.000 claims description 165
- 239000000203 mixture Substances 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 description 21
- 238000000034 method Methods 0.000 description 19
- 230000007704 transition Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 102400001014 Adrenomedullin-2 Human genes 0.000 description 2
- 101800001511 Adrenomedullin-2 Proteins 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、混合分布を用いたパターン認識における標準パターン作成方法に関し、特に混合ガウス分布(またはガウス混合分布)を出力確率分布として用いた隠れマルコフモデルを用いた音声認識装置に関する。
【0002】
【従来の技術】
近年、音声パターンの機械による認識に関する研究が行われ、 数々の方法が提案されている。この中で代表的な手法としては 隠れマルコフモデル(HMM)を用いた方法がある。 そして、HMMを用いた音声認識システムとして、誰の声でも認識できることを目的 とした不特定話者の認識システムが盛んに研究・開発されている。
【0003】
以下、HMMを例にとり、音声認識システムについて図2に基づき説明する。
音声認識装置に入力された話者の発声は、 入力パターン作成手段101に入力され、AD変換、音声分析などの過程を経て、ある時間長をもつフレームと呼ばれる単位ごとの 特徴ベクトルの時系列に変換される。
この特徴ベクトルの 時系列を、ここでは入力パターンと呼ぶ。また、フレームの長さは通常 10msから100ms 程度である。
そして、特徴ベクトルは、その時刻における音声スペクトルの特徴量を抽出したもので、通常10次元から100次元である。
【0004】
標準パターン記憶手段103にはHMMが記憶されている。 HMMは音声の情報源のモデルの1つであり、話者の音声を用いてそのパラメータを学習することができる。 HMMについては認識手段の説明で詳しく述べる。ここで、HMMは通常各認識単位ごとに用意される。
また、ここでは、認識単位として音素を例にとる。例えば、不特定話者認識システムでは、標準パターン記憶手段のHMMとして、予め多くの話者の発声を用いて学習した不特定話者HMMが用いられる。
【0005】
そして、認識手段104では、単語HMMを用いて 入力パターンの認識を行なう。
ここで、HMMは、音声の情報源のモデルであり、音声パターンの様々な揺らぎに対処するため、統計・確率的なモデルとなっている。
また、HMMの詳細な説明は、ラビナー、ジュアング著、古井訳 「音声認識の基礎(下)」、NTTアドバンステクノロジ(1995)(以下、文献1)の、102〜187頁にかかれている。
【0006】
各音素のHMMは、それぞれ、通常1から10個の状態とその間の状態遷移から構成される。
通常は始状態と終状態が定義されており、単位時間ごとに、各状態からシンボルが出力され、状態遷移が行なわれる。
各音素の音声は、始状態から終状態までの状態遷移の間にHMMから出力されるシンボルの時系列として表される。
【0007】
各状態にはシンボルの出現確率が、また、状態間の各遷移には遷移確率が定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを表現するためのパラメータである。
出力確率パラメータは、音声パターンの声色の揺らぎを表現するものである。
始状態の確率をある値に定め、状態遷移ごとに出現確率、遷移確率を掛けていくことにより、発声がそのモデルから 発生する確率を求めることができる。
【0008】
逆に、発声を観測した場合、それが、あるHMMから発生したと仮定すると、その発生確率が計算できることになる。
これにより、HMMによる音声認識では、各認識候補に対してHMMを用意し、発声が入力されると、各々のHMMにおいて、発生確率を求め、最大となるHMMを 発生源と決定し、そのHMMに対応する認識候補をもって認識結果とする。
【0009】
出力確率パラメータには、離散確率分布表現と連続確率分布表現があるが、 ここでは連続確率表現を例にとる。
連続確率分布表現では、しばしば、混合ガウス分布、すなわち、複数のガウス分布を重みつきで加算した分布が使われる。
以下の例においては、出力確率は混合ガウス連続確率分布とする。
そして、出力確率パラメータ、遷移確率パラメータ、複数のガウス分布の 重み係数などのパラメータは、モデルに対応する学習音声を与えて、バウムーウェルチアルゴリズムと呼ばれるアルゴリズムにより、予め学習されている。
【0010】
例えば、今、1000単語を認識対象とする場合を想定する。
すなわち、1000単語の認識候補から1単語の正解を求める場合を想定する。
まず、単語を認識する場合には、各音素のHMMを 連結して、認識候補単語のHMMを作成する。
1000単語認識の場合には1000単語分の単語HMMを作成する。 特徴ベクトルの時系列として表現された入力パターンOを下記の(1)式により示す。
【数1】
ここで、Tは入力パターンの総フレーム数である。
【0011】
また、認識候補単語 W1,W2,…WNとする。ここでのNは認識候補単語数を示す。
そして、各々の認識候補単語Wnの 単語HMMと、入力パターンOとの間のマッチングは、以下のように行なわれる。これからの説明においては、必要のない限り添字nを省略する。
まず、単語HMMにおいて、状態jから状態iへの遷移確率をaji、出力確率分布の混合重みをcim、各要素ガウス分布の平均ベクトルをμim、共分散行列をΣimとする。ここで、tは入力時刻、i,jはHMMの状態、mは混合要素番号を表す。
前向き確率at(i)に関する次の漸化式計算を行う。
【0012】
この前向き確率at(i)は、部分的な観測系列 o1,o2,…,otを出力し、時刻tにおいて状態iに存在する確率である。
【数2】
【数3】
ここで、πiは初期状態がiである確率である。
【0013】
また、(3)式におけるbi(ot)は、以下に示す(4),(5)式により定義される。
【数4】
【数5】
この(5)式において、Kは入力フレームおよび平均ベクトルの次元数である。
【0014】
また、単語Wnに対する入力パタンに対する尤度は、以下に示す(6)式により求められる。
【数6】
この(6)式において、Iは最終状態である。
【0015】
この処理を各単語モデルについて行ない、入力パターンXに対する認識結果単語Wn(ここで、下記(7)式では、nの上部に∧;ハットが付いている)は、以下に示す(7)式により求められる。
【数7】
そして、この認識結果単語Wnは、認識結果出力部に送られる。 認識結果出力部は、認識結果を画面上に出力、あるいは、認識結果に対応した制御命令を別の装置に送るなどの処理を行なう。
【0016】
次に、標準パターン作成手段102について説明する。標準パターン作成手段102は、不特定話者認識の場合、事前の多数の話者の発声を蓄積し、その発声を用いてパラメータの推定を行う。
まず、以下の(8),(9)式により、後向き確率を導入する。
【数8】
【数9】
(9)式におけるβt(i)は時刻t、状態iが与えられたときの、 時刻t+1から終端までの部分的な観測系列の確率である。
【0017】
そして、前向き確率と後向き確率を用いて、観測系列Oが与えられたときに、時刻tに状態iに存在する確率は、以下に示す(10)式により与えられる。
【数10】
また、時刻tに状態iに存在し、時刻t+1に状態jに存在する 確率は、以下の(11)式により与えられる。
【数11】
また、混合ガウス分布の場合に、時刻t に状態番号iのk番目の 混合要素に存在する確率(占有度数)は、以下の(12)式により与えられる。
【数12】
【0018】
以上の計算値に基づき、 π、a、μ,Σ, cの推定値は以下の(13)〜(17)式により与えられる。
【数13】
【数14】
【数15】
【数16】
【数17】
【0019】
バウム-ウェルチアルゴリズムでは、これらの推定値をもとにパラメータを更新し、さらに、その更新されたパラメータを用いて、推定値を新たに推定するという繰り返しを行なう。
そして、繰り返し毎に、観測系列の認識を行う確率が大きくなることが証明されている。
以上、HMMを用いる場合を例にとり、従来の音声認識装置について説明した。
【0020】
【発明が解決しようとする課題】
さて、上述したように、出力確率分布表現には、離散分布と連続分布とがある。
そして、離散分布と連続分布との中では、連続分布、特にその中でも、混合ガウス分布が、よく用いられる。
この混合ガウス分布が用いられる理由は、出力確率分布表現の性能が優れているためである。
【0021】
ここで、混合ガウス分布(以下、混合分布とする)を用いる場合、その要素分布数をどの大きさにすべきかという明確な指針はない。
通常は、混合分布のHMMでは、状態毎の要素分布数がすべての状態にわたり一定とし、いくつかの要素分布数を試して、その中でもっとも性能が高い要素分布数を選ぶという手続きが行われる。
【0022】
しかしながら、状態により必要な要素分布数は異なることが予想される。
例えば、不必要な要素分布を多く持つとした場合、要素分布の確率を計算するための計算量の増大を招くこととなる。
また、出現回数の少ない状態においては、パラメータ推定の過程で過学習が行われていまい、未知データに対する性能が劣化する可能性がある。
したがって、混合分布HMMの各状態における要素分布数は、状態毎に最適化されることが望ましい。
【0023】
そして、要素分布数を状態毎に最適化する最も単純な方法は、 状態毎に要素分布数を変えて認識実験を行い、各状態毎に認識性能が高くなる要素分布数を選択する方法である。
しかしながら、HMMの状態数が、通常、全体で1000から10000とたいへん多くなり、各状態毎に要素分布数を最適化することは、計算量の点でほとんど不可能である。
【0024】
本発明はこのような背景の下になされたもので、混合分布を用いた確率モデルにおいて、要素分布数の調節を高速、かつ効果的に行う音声認識装置を提供することにある。
【0025】
【課題を解決するための手段】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【0026】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【0027】
本発明の音声認識装置は、要素分布の木構造を作成する木構造作成手段と、学習データを入力として分布を選択する要素分布選択手段とから構成される標準パターン調節手段を具備することを特徴とする。
本発明の音声認識装置は、前記標準パターン調節手段が、要素分布の選択にミニマックス法を用いるミニマックス分布選択手段を具備することを特徴とする。
【0028】
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において各要素分布に対応する学習データ量を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、記述長最小基準を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、赤池情報量基準を選択基準として用いることを特徴とする。
【0029】
本発明の音声認識装置は、前記木構造作成手段が、要素分布の選択において、ダイバージェンスを分布間距離として用いることを特徴とする。
本発明の音声認識装置は、前記木構造作成手段が、学習データに対する尤度を分布間距離として用いることを特徴とする。
本発明の音声認識装置は、混合分布を用いた確率モデルとして、隠れマルコフモデルを用いることを特徴とする。
【0030】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の一実施形態によるの構成を示すブロック図である。図2の従来例と異なる点は、標準パターン作成手段102と標準パターン記憶手段103との間に標準パターン作成手段203を挿入していることである。図1の音声認識装置のブロックにおいて、図2の音声認識装置のブロックと同様な構成(入力パターン作成手段102、標準パターン作成手段101、標準パターン記憶手段103、認識手段104)に対しては、同一の符号を付し、詳細な説明を省略する。
【0031】
この図において、入力パターン作成手段102は、入力される入力音声(話者の発生した音声信号)から入力パターンを作成する。また、標準パターン作成手段102は、従来例の説明で述べたように標準パターンを作成する。
標準パターン調節手段203は、作成された標準パターンの 要素分布数を変更する。
標準パターン記憶手段103は作成された標準パターンを記憶し、認識手段205は、入力された音声を標準パターンを用いて認識し、認識結果を出力する。
【0032】
以下に、本発明において一実施形態に、加えられた標準パターン調節手段203の動作について、詳細に説明する。
隠れマルコフモデル(HMM)の状態における要素分布数の最適化の問題は、与えられたデータに対し最適な確率モデルを選択する問題とみなすことが可能である。
この確率モデルの選択においては、過去さまざまな情報量基準が提案されてきた。
【0033】
一実施形態では、その一つであるMDL(記述長最小)を用いて分布数を最適化する方法を考える。
まず、ここで上記MDLの基準について説明する。記述長最小(Minimum Description Length; MDL)基準は、最近の情報理論および計算論的学習理論の研究から、データに対し最適な確率モデルを選択する問題において、有効であることが実証されている。
【0034】
記述長最小基準は、例えば、韓太舜著、「岩波講座応用数学11、情報と符合化の数理」、 岩波書店(1994)(以下、文献2)の、249頁〜275頁に説明されている。 AIC(Akaike Information Criterion;赤池情報量基準)などと同様、なるべく簡単で、しかも、与えられたデータをよく 表現できるモデルが良いモデルである、という理念を具現化した基準の一つである。
【0035】
MDL基準は、確率モデルi=1,…,Iのなかで、データs=s1,…,sNに対し、最も小さい記述長を与えるモデルを 最適なモデルとする基準である。 ここで、確率モデルiに対する記述長IMDL(i)は以下の(18)式で与えられる。
【数18】
ここで、αiはモデルiの次元数(自由パラメータの個数) 、 θ(i)はデータXNを用いて推定された モデルiの自由パラメータθ(i)=(θ1 (i),…,θαi (i))の最尤推定量である。
【0036】
上記(18)式において、第1項はデータに対する対数尤度(以下、尤度と記す)に 負符号を付けた量であり、第2項はモデルの複雑さを表す量であり、第3項はモデルiを選択するために要する記述長である。
このように、モデルがより複雑なほど、データに対する尤度が大きくなり、したがって 第1項の値は減少する。
一方、モデルが複雑になれば、自由パラメータ数が増加するため、第2項の値は増加する。
このように、第1項と第2項の間にはトレードオフの関係があり、記述長IMDL(i)は、適当な複雑さを有するモデルで最小値をとることが期待される。
【0037】
そして、このMDL基準を用いた状態毎の要素分布数最適化アルゴリズムは、以下の通りである。
まず、通常の手順で学習データを用いた混合ガウス分布HMMの学習を行う。
この際、要素分布数は全状態にわたり一定とし、上限と考えられる数まで、要素分布数を増やしたHMMを学習する。
また、学習の過程で要素分布ごとの占有度数γ' t(i,k)を保存しておく。ここでiは状態の添字、kは状態における要素分布の添字である。
【0038】
次に、標準パターン調整手段203は、各状態において要素分布数の最適化を行う。なお、この先は一つの状態iについてのみ説明することにし、状態の添字iを省略する。標準パターン調整手段203は、他の状態に対しても同じ処理を行う。
まず、標準パターン調整手段203は、内部の木構造作成手段により、状態ごとに要素分布の木構造を作成する。ここで、ルートは一つの分布であり、リーフは各要素分布である。
【0039】
このとき、要素分布の木構造を作成するには様々な方法が考えられるが、ここでは2分木をk-meansアルゴリズムを用いて作成する。
また、各要素分布間の距離(分布間距離)としては、カルバックダイバージェンスを用いる。このカルバックダイバージェンスは、ガウス分布の平均・共分散の値から容易に計算できる。
この要素分布の木構造作成方法については、特許第002531073号,上記文献2に詳細に記載されている。
【0040】
次に、標準パターン調整手段203は、上記木構造の各ノードの分布(ノード分布)の分散を求める。
ここで、各ノード分布の分散は、その支配するすべてのリーフの要素分布の占有度数とガウス分布パラメータから求められる。
今、この木構造を上下に分断するノード分布の集合を「カット」と呼ぶ。このカットの数は多数あるが、一つ一つのカットが、その状態における一つの確率モデルとなる。ここで、MDL基準を用いて最適なカットを求めることを考える。
【0041】
例えば、あるカットUに対する記述長は次のように計算される。ここで、カットUを構成するノード分布を S1,…SMとする。 ここで、MはカットUにおけるノード分布の個数である。
これにより、データの分布Smに対する尤度L(Sm)は以下に示す(19),(20)式のように近似できる。
【数19】
【0042】
上記(19)式において、
【数20】
であり、sは分布Smの下のすべてのリーフ分布であり、Kは共有標準パターンとして用いられる平均ベクトルおよび分散の次元数である。
また、(19)式において、μSm,ΣSmは、それぞれ分布Smにおける平均ベクトルおよび分散である。
【0043】
上述した結果を用いることにより、カットUに対する記述長I(U)は、以下の(21)式のように記述することができる。
【数21】
ここで、
【数22】
であり、このVはUに対応するすべてのデータのフレーム数に相当する量であり、分割の方法によらず一定値である。
【0044】
そして、標準パターン調整手段203は、すべての可能なカットに関して、記述長 l(U)を計算し、最も小さいI(U)をもつカットUを選択する。
このとき、可能な分割の種類、すなわち、カットUの数は通常大変多くなる。そこで、次のようなアルゴリズムを用いることにより、カットUの選択時の計算量を節約する。以下、ある状態pの要素分布数最適化について述べる。
【0045】
まず、状態pに対するノード(節点)を作成する。ここで、このノードをルートノードと呼ぶ。
ルートノードの分布パラメータは、この状態に対応するすべての要素分布に対応するすべてのデータサンプルから推定される。
例えば、木構造が2分木であり、ルートノードの分布をS0、 その2つの子ノードの分布をS1、S2としたとき、親ノードから子ノードへ展開したときの記述長の変化分は以下の(23)式で記述される。
【数23】
【0046】
例えば、標準パターン調整手段203は、Δ<0である場合、親ノードの展開を行い、一方、Δ>0である場合、親ノードの展開を行わない。
また、展開するときには、さらに子ノードS1、S2それぞれについて、上述した処理と同様に、その子ノードへ展開したときの記述長の変化を計算し、展開するか否かを判断するという処理を繰り返す。
そして、すべてのノードの展開が終ったとき、その展開の末端のノードの集合がカットとなり、そのノード分布が要素分布として選択されたことになる。
そして、改めて選択された分布のみを要素分布としてもつ、混合ガウス分布HMMを作成し、その要素分布を改めて学習におけるデータにより学習する手続きを行う。
【0047】
以上が、図1に示す一実施形態の音声認識装置の説明である。
ここでは、隠れマルコフモデル(HMM)を例にして説明したが、モデルが混合ガウス分布である場合にも容易に適用可能である。これは、請求項10の発明に対応している。
また、上述した一実施形態の説明では、音響モデル学習について説明したが、使用者の少量の発声を用いて標準パターンの修正を行うような、話者適応を行う際にも、話者適応用データを用いて要素分布数の調節を行うことが可能である。
この場合、発明の音声認識装置の構成としては、標準パターン作成手段のかわりに、標準パターン修正手段を用い、この標準パターン修正手段への入力音声は、認識用の入力パターン作成手段に用いる話者と同一の話者の音声を用いる。
【0048】
また、上述した一実施形態の音声認識装置においては、木構造による要素分布数の調節手段について説明したが、ミニマックス法を用いたミニマックス分布選択手段による調節も、以下のように行うことができる。
以下、一つの状態について説明する。
まず、学習データ中にある回数(X回)以上、出現した分布の集合をAとし、そうでない分布をBとする。
Aに属する分布とBに属する分布とのの距離をすべて計算し、Bの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
【0049】
次に、その分布以外のBの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
この手続きを分布数が予め定めた最小分布数になるまで繰り返す。
そして、最小分布数より小さくならない(すなわち、Bの分布数が小さい)ときには、その時点で上述の処理を停止する。以上は、請求項4の発明に対応する。
【0050】
また、一実施形態においては、ノードの選択にMDL基準を用いたが、データ量閾値を用いることも可能である。すなわち、データ量が有る閾値以上ある分布のうちもっともリーフに近い分布の集合をカットとする。 以上は、請求項5の発明に対応する。
【0051】
さらに、一実施形態においては、情報量基準としてMDL基準を用いる場合についてのみ説明したが、赤池情報量基準(AIC)を用いた場合、あるいは他の類似の情報量基準を用いた場合においても容易に適用可能である。 以上は、請求項7の発明に対応する。
【0052】
加えて、一実施形態においては、ダイバージェンスを分布間の距離として用いたが、分布を共有したときの尤度の増分を距離値として用いることもできる。以上は、請求項9の発明に対応する。
【0053】
以上、本発明の一実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。
【0054】
【発明の効果】
本発明の音声認識装置によれば、新たに加えたパラメータ調節手段を用いて、混合ガウス分布を用いたパターン認識において、音声の標準パターンの要素分布数を、HMMの状態毎に要素分布数を最適化、すなわち、HMMの状態毎に認識性能が高くなる要素分布数に調節することにより、不必要な要素分布を省くことができ、過学習による未知の音声データに対する劣化を防止することとなり、高性能な音声認識を行うことが可能になる。
【図面の簡単な説明】
【図1】 本発明の一実施形態による音声認識装置の構成を示すブロック図である。
【図2】 従来例による音声認識装置の構成を示すブロック図である。
【符号の説明】
101 入力パターン作成手段
102 標準パターン作成手段
103 標準パターン記憶手段
104 認識手段
203 標準パターン調節手段
Claims (5)
- 混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
前記標準パターン調節手段は、少なくとも前記学習用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。 - 混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
前記標準パターン調節手段は、少なくとも前記適応化用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。 - 前記値が最小となる選択基準に基づいて要素分布を選択することを特徴とする請求項1又は2記載の音声認識装置。
- 前記標準パターン調節手段は、要素分布の選択において、ダイバージェンスを前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項1乃至3に記載の音声認識装置。
- 前記標準パターン調節手段は、要素分布の選択において、ノード分布を共有したときの前記尤度の増分を前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項1乃至3に記載の音声認識装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001070108A JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
| EP02005277A EP1241661B1 (en) | 2001-03-13 | 2002-03-11 | Speech recognition apparatus |
| DE60204374T DE60204374T2 (de) | 2001-03-13 | 2002-03-11 | Spracherkennungsvorrichtung |
| US10/093,915 US7437288B2 (en) | 2001-03-13 | 2002-03-11 | Speech recognition apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001070108A JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002268675A JP2002268675A (ja) | 2002-09-20 |
| JP4336865B2 true JP4336865B2 (ja) | 2009-09-30 |
Family
ID=18928034
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001070108A Expired - Lifetime JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US7437288B2 (ja) |
| EP (1) | EP1241661B1 (ja) |
| JP (1) | JP4336865B2 (ja) |
| DE (1) | DE60204374T2 (ja) |
Families Citing this family (30)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7966187B1 (en) | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
| JP4069715B2 (ja) * | 2002-09-19 | 2008-04-02 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置 |
| JP4194433B2 (ja) * | 2003-07-07 | 2008-12-10 | キヤノン株式会社 | 尤度算出装置および方法 |
| JP2005156593A (ja) * | 2003-11-20 | 2005-06-16 | Seiko Epson Corp | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
| JP4442211B2 (ja) * | 2003-12-12 | 2010-03-31 | セイコーエプソン株式会社 | 音響モデル作成方法 |
| JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
| US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
| KR100664960B1 (ko) | 2005-10-06 | 2007-01-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
| US20070088552A1 (en) * | 2005-10-17 | 2007-04-19 | Nokia Corporation | Method and a device for speech recognition |
| CN100502463C (zh) * | 2005-12-14 | 2009-06-17 | 浙江工业大学 | 一种交通流信息视频检测中的特征采集方法 |
| JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
| US7680664B2 (en) * | 2006-08-16 | 2010-03-16 | Microsoft Corporation | Parsimonious modeling by non-uniform kernel allocation |
| US9141860B2 (en) | 2008-11-17 | 2015-09-22 | Liveclips Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
| CN101950376B (zh) * | 2009-07-09 | 2014-10-29 | 索尼公司 | 隐马尔可夫模型学习设备和方法 |
| US20130283143A1 (en) | 2012-04-24 | 2013-10-24 | Eric David Petajan | System for Annotating Media Content for Automatic Content Understanding |
| US9367745B2 (en) | 2012-04-24 | 2016-06-14 | Liveclips Llc | System for annotating media content for automatic content understanding |
| JP5997114B2 (ja) * | 2013-08-14 | 2016-09-28 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
| US10218630B2 (en) | 2014-10-30 | 2019-02-26 | Pearson Education, Inc. | System and method for increasing data transmission rates through a content distribution network |
| US10713225B2 (en) | 2014-10-30 | 2020-07-14 | Pearson Education, Inc. | Content database generation |
| US9667321B2 (en) * | 2014-10-31 | 2017-05-30 | Pearson Education, Inc. | Predictive recommendation engine |
| US10116563B1 (en) | 2014-10-30 | 2018-10-30 | Pearson Education, Inc. | System and method for automatically updating data packet metadata |
| US10735402B1 (en) | 2014-10-30 | 2020-08-04 | Pearson Education, Inc. | Systems and method for automated data packet selection and delivery |
| US10110486B1 (en) | 2014-10-30 | 2018-10-23 | Pearson Education, Inc. | Automatic determination of initial content difficulty |
| US10333857B1 (en) | 2014-10-30 | 2019-06-25 | Pearson Education, Inc. | Systems and methods for data packet metadata stabilization |
| US10318499B2 (en) | 2014-10-30 | 2019-06-11 | Pearson Education, Inc. | Content database generation |
| US10614368B2 (en) | 2015-08-28 | 2020-04-07 | Pearson Education, Inc. | System and method for content provisioning with dual recommendation engines |
| US10642848B2 (en) | 2016-04-08 | 2020-05-05 | Pearson Education, Inc. | Personalized automatic content aggregation generation |
| US10789316B2 (en) | 2016-04-08 | 2020-09-29 | Pearson Education, Inc. | Personalized automatic content aggregation generation |
| US10043133B2 (en) | 2016-04-08 | 2018-08-07 | Pearson Education, Inc. | Systems and methods of event-based content provisioning |
| US11188841B2 (en) | 2016-04-08 | 2021-11-30 | Pearson Education, Inc. | Personalized content distribution |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
| US5243686A (en) * | 1988-12-09 | 1993-09-07 | Oki Electric Industry Co., Ltd. | Multi-stage linear predictive analysis method for feature extraction from acoustic signals |
| US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
| US5325445A (en) * | 1992-05-29 | 1994-06-28 | Eastman Kodak Company | Feature classification using supervised statistical pattern recognition |
| JP2531073B2 (ja) | 1993-01-14 | 1996-09-04 | 日本電気株式会社 | 音声認識システム |
| JP2751856B2 (ja) | 1995-02-03 | 1998-05-18 | 日本電気株式会社 | 木構造を用いたパターン適応化方式 |
| JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
| JP2852210B2 (ja) | 1995-09-19 | 1999-01-27 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者モデル作成装置及び音声認識装置 |
| US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
| JP2982689B2 (ja) * | 1996-04-19 | 1999-11-29 | 日本電気株式会社 | 情報量基準を用いた標準パターン作成方式 |
| US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Industrial Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
| JPH10149192A (ja) | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法、装置およびその記憶媒体 |
| US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
| US5708759A (en) * | 1996-11-19 | 1998-01-13 | Kemeny; Emanuel S. | Speech recognition using phoneme waveform parameters |
| JP3088357B2 (ja) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者音響モデル生成装置及び音声認識装置 |
| JP3009640B2 (ja) | 1997-09-10 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音響モデル生成装置及び音声認識装置 |
| US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
| JPH11143486A (ja) | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
| US6141641A (en) * | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
| US6246982B1 (en) * | 1999-01-26 | 2001-06-12 | International Business Machines Corporation | Method for measuring distance between collections of distributions |
-
2001
- 2001-03-13 JP JP2001070108A patent/JP4336865B2/ja not_active Expired - Lifetime
-
2002
- 2002-03-11 US US10/093,915 patent/US7437288B2/en not_active Expired - Lifetime
- 2002-03-11 DE DE60204374T patent/DE60204374T2/de not_active Expired - Lifetime
- 2002-03-11 EP EP02005277A patent/EP1241661B1/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| US7437288B2 (en) | 2008-10-14 |
| EP1241661B1 (en) | 2005-06-01 |
| DE60204374T2 (de) | 2006-03-16 |
| JP2002268675A (ja) | 2002-09-20 |
| US20020184020A1 (en) | 2002-12-05 |
| EP1241661A1 (en) | 2002-09-18 |
| DE60204374D1 (de) | 2005-07-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4336865B2 (ja) | 音声認識装置 | |
| JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
| US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
| US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
| US5956676A (en) | Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system | |
| JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
| US20050256713A1 (en) | Asynchronous hidden markov model method and system | |
| JP2004109590A (ja) | 音響モデル作成方法および音声認識装置 | |
| JP3589044B2 (ja) | 話者適応化装置 | |
| JP4394972B2 (ja) | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 | |
| JP2003005785A (ja) | 音源の分離方法および分離装置 | |
| JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
| JPH06266384A (ja) | 音響モデル適応方式 | |
| JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
| JPH0895592A (ja) | パターン認識方法 | |
| JP2005091504A (ja) | 音声認識装置 | |
| JP2976795B2 (ja) | 話者適応化方式 | |
| JPH0822296A (ja) | パターン認識方法 | |
| JPH10149189A (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
| JP2875179B2 (ja) | 話者適応化装置及び音声認識装置 | |
| Yoshimura et al. | Simultaneous optimization of multiple tree-based factor analyzed HMM for speech synthesis | |
| JPH11212587A (ja) | 音声認識における雑音適応方法 | |
| JPH08123468A (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
| JPH0981179A (ja) | 話者適応化装置及び音声認識装置 | |
| JPH08241095A (ja) | 話者適応化装置及び音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051213 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080501 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080508 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080508 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080811 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081117 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090106 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090205 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090206 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090408 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090602 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090615 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4336865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130710 Year of fee payment: 4 |
|
| EXPY | Cancellation because of completion of term |
