JP4336865B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4336865B2
JP4336865B2 JP2001070108A JP2001070108A JP4336865B2 JP 4336865 B2 JP4336865 B2 JP 4336865B2 JP 2001070108 A JP2001070108 A JP 2001070108A JP 2001070108 A JP2001070108 A JP 2001070108A JP 4336865 B2 JP4336865 B2 JP 4336865B2
Authority
JP
Japan
Prior art keywords
distribution
standard pattern
distributions
node
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001070108A
Other languages
English (en)
Other versions
JP2002268675A (ja
Inventor
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001070108A priority Critical patent/JP4336865B2/ja
Priority to EP02005277A priority patent/EP1241661B1/en
Priority to DE60204374T priority patent/DE60204374T2/de
Priority to US10/093,915 priority patent/US7437288B2/en
Publication of JP2002268675A publication Critical patent/JP2002268675A/ja
Application granted granted Critical
Publication of JP4336865B2 publication Critical patent/JP4336865B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、混合分布を用いたパターン認識における標準パターン作成方法に関し、特に混合ガウス分布(またはガウス混合分布)を出力確率分布として用いた隠れマルコフモデルを用いた音声認識装置に関する。
【0002】
【従来の技術】
近年、音声パターンの機械による認識に関する研究が行われ、 数々の方法が提案されている。この中で代表的な手法としては 隠れマルコフモデル(HMM)を用いた方法がある。 そして、HMMを用いた音声認識システムとして、誰の声でも認識できることを目的 とした不特定話者の認識システムが盛んに研究・開発されている。
【0003】
以下、HMMを例にとり、音声認識システムについて図2に基づき説明する。
音声認識装置に入力された話者の発声は、 入力パターン作成手段101に入力され、AD変換、音声分析などの過程を経て、ある時間長をもつフレームと呼ばれる単位ごとの 特徴ベクトルの時系列に変換される。
この特徴ベクトルの 時系列を、ここでは入力パターンと呼ぶ。また、フレームの長さは通常 10msから100ms 程度である。
そして、特徴ベクトルは、その時刻における音声スペクトルの特徴量を抽出したもので、通常10次元から100次元である。
【0004】
標準パターン記憶手段103にはHMMが記憶されている。 HMMは音声の情報源のモデルの1つであり、話者の音声を用いてそのパラメータを学習することができる。 HMMについては認識手段の説明で詳しく述べる。ここで、HMMは通常各認識単位ごとに用意される。
また、ここでは、認識単位として音素を例にとる。例えば、不特定話者認識システムでは、標準パターン記憶手段のHMMとして、予め多くの話者の発声を用いて学習した不特定話者HMMが用いられる。
【0005】
そして、認識手段104では、単語HMMを用いて 入力パターンの認識を行なう。
ここで、HMMは、音声の情報源のモデルであり、音声パターンの様々な揺らぎに対処するため、統計・確率的なモデルとなっている。
また、HMMの詳細な説明は、ラビナー、ジュアング著、古井訳 「音声認識の基礎(下)」、NTTアドバンステクノロジ(1995)(以下、文献1)の、102〜187頁にかかれている。
【0006】
各音素のHMMは、それぞれ、通常1から10個の状態とその間の状態遷移から構成される。
通常は始状態と終状態が定義されており、単位時間ごとに、各状態からシンボルが出力され、状態遷移が行なわれる。
各音素の音声は、始状態から終状態までの状態遷移の間にHMMから出力されるシンボルの時系列として表される。
【0007】
各状態にはシンボルの出現確率が、また、状態間の各遷移には遷移確率が定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを表現するためのパラメータである。
出力確率パラメータは、音声パターンの声色の揺らぎを表現するものである。
始状態の確率をある値に定め、状態遷移ごとに出現確率、遷移確率を掛けていくことにより、発声がそのモデルから 発生する確率を求めることができる。
【0008】
逆に、発声を観測した場合、それが、あるHMMから発生したと仮定すると、その発生確率が計算できることになる。
これにより、HMMによる音声認識では、各認識候補に対してHMMを用意し、発声が入力されると、各々のHMMにおいて、発生確率を求め、最大となるHMMを 発生源と決定し、そのHMMに対応する認識候補をもって認識結果とする。
【0009】
出力確率パラメータには、離散確率分布表現と連続確率分布表現があるが、 ここでは連続確率表現を例にとる。
連続確率分布表現では、しばしば、混合ガウス分布、すなわち、複数のガウス分布を重みつきで加算した分布が使われる。
以下の例においては、出力確率は混合ガウス連続確率分布とする。
そして、出力確率パラメータ、遷移確率パラメータ、複数のガウス分布の 重み係数などのパラメータは、モデルに対応する学習音声を与えて、バウムーウェルチアルゴリズムと呼ばれるアルゴリズムにより、予め学習されている。
【0010】
例えば、今、1000単語を認識対象とする場合を想定する。
すなわち、1000単語の認識候補から1単語の正解を求める場合を想定する。
まず、単語を認識する場合には、各音素のHMMを 連結して、認識候補単語のHMMを作成する。
1000単語認識の場合には1000単語分の単語HMMを作成する。 特徴ベクトルの時系列として表現された入力パターンOを下記の(1)式により示す。
【数1】
Figure 0004336865
ここで、Tは入力パターンの総フレーム数である。
【0011】
また、認識候補単語 W1,W2,…WNとする。ここでのNは認識候補単語数を示す。
そして、各々の認識候補単語Wnの 単語HMMと、入力パターンOとの間のマッチングは、以下のように行なわれる。これからの説明においては、必要のない限り添字nを省略する。
まず、単語HMMにおいて、状態jから状態iへの遷移確率をaji、出力確率分布の混合重みをcim、各要素ガウス分布の平均ベクトルをμim、共分散行列をΣimとする。ここで、tは入力時刻、i,jはHMMの状態、mは混合要素番号を表す。
前向き確率at(i)に関する次の漸化式計算を行う。
【0012】
この前向き確率at(i)は、部分的な観測系列 o1,o2,…,otを出力し、時刻tにおいて状態iに存在する確率である。
【数2】
Figure 0004336865
【数3】
Figure 0004336865
ここで、πiは初期状態がiである確率である。
【0013】
また、(3)式におけるbi(ot)は、以下に示す(4),(5)式により定義される。
【数4】
Figure 0004336865
【数5】
Figure 0004336865
この(5)式において、Kは入力フレームおよび平均ベクトルの次元数である。
【0014】
また、単語Wnに対する入力パタンに対する尤度は、以下に示す(6)式により求められる。
【数6】
Figure 0004336865
この(6)式において、Iは最終状態である。
【0015】
この処理を各単語モデルについて行ない、入力パターンXに対する認識結果単語Wn(ここで、下記(7)式では、nの上部に∧;ハットが付いている)は、以下に示す(7)式により求められる。
【数7】
Figure 0004336865
そして、この認識結果単語Wnは、認識結果出力部に送られる。 認識結果出力部は、認識結果を画面上に出力、あるいは、認識結果に対応した制御命令を別の装置に送るなどの処理を行なう。
【0016】
次に、標準パターン作成手段102について説明する。標準パターン作成手段102は、不特定話者認識の場合、事前の多数の話者の発声を蓄積し、その発声を用いてパラメータの推定を行う。
まず、以下の(8),(9)式により、後向き確率を導入する。
【数8】
Figure 0004336865
【数9】
Figure 0004336865
(9)式におけるβt(i)は時刻t、状態iが与えられたときの、 時刻t+1から終端までの部分的な観測系列の確率である。
【0017】
そして、前向き確率と後向き確率を用いて、観測系列Oが与えられたときに、時刻tに状態iに存在する確率は、以下に示す(10)式により与えられる。
【数10】
Figure 0004336865
また、時刻tに状態iに存在し、時刻t+1に状態jに存在する 確率は、以下の(11)式により与えられる。
【数11】
Figure 0004336865
また、混合ガウス分布の場合に、時刻t に状態番号iのk番目の 混合要素に存在する確率(占有度数)は、以下の(12)式により与えられる。
【数12】
Figure 0004336865
【0018】
以上の計算値に基づき、 π、a、μ,Σ, cの推定値は以下の(13)〜(17)式により与えられる。
【数13】
Figure 0004336865
【数14】
Figure 0004336865
【数15】
Figure 0004336865
【数16】
Figure 0004336865
【数17】
Figure 0004336865
【0019】
バウム-ウェルチアルゴリズムでは、これらの推定値をもとにパラメータを更新し、さらに、その更新されたパラメータを用いて、推定値を新たに推定するという繰り返しを行なう。
そして、繰り返し毎に、観測系列の認識を行う確率が大きくなることが証明されている。
以上、HMMを用いる場合を例にとり、従来の音声認識装置について説明した。
【0020】
【発明が解決しようとする課題】
さて、上述したように、出力確率分布表現には、離散分布と連続分布とがある。
そして、離散分布と連続分布との中では、連続分布、特にその中でも、混合ガウス分布が、よく用いられる。
この混合ガウス分布が用いられる理由は、出力確率分布表現の性能が優れているためである。
【0021】
ここで、混合ガウス分布(以下、混合分布とする)を用いる場合、その要素分布数をどの大きさにすべきかという明確な指針はない。
通常は、混合分布のHMMでは、状態毎の要素分布数がすべての状態にわたり一定とし、いくつかの要素分布数を試して、その中でもっとも性能が高い要素分布数を選ぶという手続きが行われる。
【0022】
しかしながら、状態により必要な要素分布数は異なることが予想される。
例えば、不必要な要素分布を多く持つとした場合、要素分布の確率を計算するための計算量の増大を招くこととなる。
また、出現回数の少ない状態においては、パラメータ推定の過程で過学習が行われていまい、未知データに対する性能が劣化する可能性がある。
したがって、混合分布HMMの各状態における要素分布数は、状態毎に最適化されることが望ましい。
【0023】
そして、要素分布数を状態毎に最適化する最も単純な方法は、 状態毎に要素分布数を変えて認識実験を行い、各状態毎に認識性能が高くなる要素分布数を選択する方法である。
しかしながら、HMMの状態数が、通常、全体で1000から10000とたいへん多くなり、各状態毎に要素分布数を最適化することは、計算量の点でほとんど不可能である。
【0024】
本発明はこのような背景の下になされたもので、混合分布を用いた確率モデルにおいて、要素分布数の調節を高速、かつ効果的に行う音声認識装置を提供することにある。
【0025】
【課題を解決するための手段】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【0026】
本発明の音声認識装置は、混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、標準パターンの混合分布の要素分布数を調節する標準パターン調節手段とを具備することを特徴とする。
【0027】
本発明の音声認識装置は、要素分布の木構造を作成する木構造作成手段と、学習データを入力として分布を選択する要素分布選択手段とから構成される標準パターン調節手段を具備することを特徴とする。
本発明の音声認識装置は、前記標準パターン調節手段が、要素分布の選択にミニマックス法を用いるミニマックス分布選択手段を具備することを特徴とする。
【0028】
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において各要素分布に対応する学習データ量を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、記述長最小基準を選択基準として用いることを特徴とする。
本発明の音声認識装置は、前記要素分布選択手段が、要素分布の選択において、赤池情報量基準を選択基準として用いることを特徴とする。
【0029】
本発明の音声認識装置は、前記木構造作成手段が、要素分布の選択において、ダイバージェンスを分布間距離として用いることを特徴とする。
本発明の音声認識装置は、前記木構造作成手段が、学習データに対する尤度を分布間距離として用いることを特徴とする。
本発明の音声認識装置は、混合分布を用いた確率モデルとして、隠れマルコフモデルを用いることを特徴とする。
【0030】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の一実施形態によるの構成を示すブロック図である。図2の従来例と異なる点は、標準パターン作成手段102と標準パターン記憶手段103との間に標準パターン作成手段203を挿入していることである。図1の音声認識装置のブロックにおいて、図2の音声認識装置のブロックと同様な構成(入力パターン作成手段102、標準パターン作成手段101、標準パターン記憶手段103、認識手段104)に対しては、同一の符号を付し、詳細な説明を省略する。
【0031】
この図において、入力パターン作成手段102は、入力される入力音声(話者の発生した音声信号)から入力パターンを作成する。また、標準パターン作成手段102は、従来例の説明で述べたように標準パターンを作成する。
標準パターン調節手段203は、作成された標準パターンの 要素分布数を変更する。
標準パターン記憶手段103は作成された標準パターンを記憶し、認識手段205は、入力された音声を標準パターンを用いて認識し、認識結果を出力する。
【0032】
以下に、本発明において一実施形態に、加えられた標準パターン調節手段203の動作について、詳細に説明する。
隠れマルコフモデル(HMM)の状態における要素分布数の最適化の問題は、与えられたデータに対し最適な確率モデルを選択する問題とみなすことが可能である。
この確率モデルの選択においては、過去さまざまな情報量基準が提案されてきた。
【0033】
一実施形態では、その一つであるMDL(記述長最小)を用いて分布数を最適化する方法を考える。
まず、ここで上記MDLの基準について説明する。記述長最小(Minimum Description Length; MDL)基準は、最近の情報理論および計算論的学習理論の研究から、データに対し最適な確率モデルを選択する問題において、有効であることが実証されている。
【0034】
記述長最小基準は、例えば、韓太舜著、「岩波講座応用数学11、情報と符合化の数理」、 岩波書店(1994)(以下、文献2)の、249頁〜275頁に説明されている。 AIC(Akaike Information Criterion;赤池情報量基準)などと同様、なるべく簡単で、しかも、与えられたデータをよく 表現できるモデルが良いモデルである、という理念を具現化した基準の一つである。
【0035】
MDL基準は、確率モデルi=1,…,Iのなかで、データs=s1,…,sNに対し、最も小さい記述長を与えるモデルを 最適なモデルとする基準である。 ここで、確率モデルiに対する記述長IMDL(i)は以下の(18)式で与えられる。
【数18】
Figure 0004336865
ここで、αiはモデルiの次元数(自由パラメータの個数) 、 θ(i)はデータXNを用いて推定された モデルiの自由パラメータθ(i)=(θ1 (i),…,θαi (i))の最尤推定量である。
【0036】
上記(18)式において、第1項はデータに対する対数尤度(以下、尤度と記す)に 負符号を付けた量であり、第2項はモデルの複雑さを表す量であり、第3項はモデルiを選択するために要する記述長である。
このように、モデルがより複雑なほど、データに対する尤度が大きくなり、したがって 第1項の値は減少する。
一方、モデルが複雑になれば、自由パラメータ数が増加するため、第2項の値は増加する。
このように、第1項と第2項の間にはトレードオフの関係があり、記述長IMDL(i)は、適当な複雑さを有するモデルで最小値をとることが期待される。
【0037】
そして、このMDL基準を用いた状態毎の要素分布数最適化アルゴリズムは、以下の通りである。
まず、通常の手順で学習データを用いた混合ガウス分布HMMの学習を行う。
この際、要素分布数は全状態にわたり一定とし、上限と考えられる数まで、要素分布数を増やしたHMMを学習する。
また、学習の過程で要素分布ごとの占有度数γ' t(i,k)を保存しておく。ここでiは状態の添字、kは状態における要素分布の添字である。
【0038】
次に、標準パターン調整手段203は、各状態において要素分布数の最適化を行う。なお、この先は一つの状態iについてのみ説明することにし、状態の添字iを省略する。標準パターン調整手段203は、他の状態に対しても同じ処理を行う。
まず、標準パターン調整手段203は、内部の木構造作成手段により、状態ごとに要素分布の木構造を作成する。ここで、ルートは一つの分布であり、リーフは各要素分布である。
【0039】
このとき、要素分布の木構造を作成するには様々な方法が考えられるが、ここでは2分木をk-meansアルゴリズムを用いて作成する。
また、各要素分布間の距離(分布間距離)としては、カルバックダイバージェンスを用いる。このカルバックダイバージェンスは、ガウス分布の平均・共分散の値から容易に計算できる。
この要素分布の木構造作成方法については、特許第002531073号,上記文献2に詳細に記載されている。
【0040】
次に、標準パターン調整手段203は、上記木構造の各ノードの分布(ノード分布)の分散を求める。
ここで、各ノード分布の分散は、その支配するすべてのリーフの要素分布の占有度数とガウス分布パラメータから求められる。
今、この木構造を上下に分断するノード分布の集合を「カット」と呼ぶ。このカットの数は多数あるが、一つ一つのカットが、その状態における一つの確率モデルとなる。ここで、MDL基準を用いて最適なカットを求めることを考える。
【0041】
例えば、あるカットUに対する記述長は次のように計算される。ここで、カットUを構成するノード分布を S1,…SMとする。 ここで、MはカットUにおけるノード分布の個数である。
これにより、データの分布Smに対する尤度L(Sm)は以下に示す(19),(20)式のように近似できる。
【数19】
Figure 0004336865
【0042】
上記(19)式において、
【数20】
Figure 0004336865
であり、sは分布Smの下のすべてのリーフ分布であり、Kは共有標準パターンとして用いられる平均ベクトルおよび分散の次元数である。
また、(19)式において、μSm,ΣSmは、それぞれ分布Smにおける平均ベクトルおよび分散である。
【0043】
上述した結果を用いることにより、カットUに対する記述長I(U)は、以下の(21)式のように記述することができる。
【数21】
Figure 0004336865
ここで、
【数22】
Figure 0004336865
であり、このVはUに対応するすべてのデータのフレーム数に相当する量であり、分割の方法によらず一定値である。
【0044】
そして、標準パターン調整手段203は、すべての可能なカットに関して、記述長 l(U)を計算し、最も小さいI(U)をもつカットUを選択する。
このとき、可能な分割の種類、すなわち、カットUの数は通常大変多くなる。そこで、次のようなアルゴリズムを用いることにより、カットUの選択時の計算量を節約する。以下、ある状態pの要素分布数最適化について述べる。
【0045】
まず、状態pに対するノード(節点)を作成する。ここで、このノードをルートノードと呼ぶ。
ルートノードの分布パラメータは、この状態に対応するすべての要素分布に対応するすべてのデータサンプルから推定される。
例えば、木構造が2分木であり、ルートノードの分布をS0、 その2つの子ノードの分布をS1、S2としたとき、親ノードから子ノードへ展開したときの記述長の変化分は以下の(23)式で記述される。
【数23】
Figure 0004336865
【0046】
例えば、標準パターン調整手段203は、Δ<0である場合、親ノードの展開を行い、一方、Δ>0である場合、親ノードの展開を行わない。
また、展開するときには、さらに子ノードS1、S2それぞれについて、上述した処理と同様に、その子ノードへ展開したときの記述長の変化を計算し、展開するか否かを判断するという処理を繰り返す。
そして、すべてのノードの展開が終ったとき、その展開の末端のノードの集合がカットとなり、そのノード分布が要素分布として選択されたことになる。
そして、改めて選択された分布のみを要素分布としてもつ、混合ガウス分布HMMを作成し、その要素分布を改めて学習におけるデータにより学習する手続きを行う。
【0047】
以上が、図1に示す一実施形態の音声認識装置の説明である。
ここでは、隠れマルコフモデル(HMM)を例にして説明したが、モデルが混合ガウス分布である場合にも容易に適用可能である。これは、請求項10の発明に対応している。
また、上述した一実施形態の説明では、音響モデル学習について説明したが、使用者の少量の発声を用いて標準パターンの修正を行うような、話者適応を行う際にも、話者適応用データを用いて要素分布数の調節を行うことが可能である。
この場合、発明の音声認識装置の構成としては、標準パターン作成手段のかわりに、標準パターン修正手段を用い、この標準パターン修正手段への入力音声は、認識用の入力パターン作成手段に用いる話者と同一の話者の音声を用いる。
【0048】
また、上述した一実施形態の音声認識装置においては、木構造による要素分布数の調節手段について説明したが、ミニマックス法を用いたミニマックス分布選択手段による調節も、以下のように行うことができる。
以下、一つの状態について説明する。
まず、学習データ中にある回数(X回)以上、出現した分布の集合をAとし、そうでない分布をBとする。
Aに属する分布とBに属する分布とのの距離をすべて計算し、Bの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
【0049】
次に、その分布以外のBの分布のうち、最も近いAの分布からの距離が最も大きい分布を取り除く。
この手続きを分布数が予め定めた最小分布数になるまで繰り返す。
そして、最小分布数より小さくならない(すなわち、Bの分布数が小さい)ときには、その時点で上述の処理を停止する。以上は、請求項4の発明に対応する。
【0050】
また、一実施形態においては、ノードの選択にMDL基準を用いたが、データ量閾値を用いることも可能である。すなわち、データ量が有る閾値以上ある分布のうちもっともリーフに近い分布の集合をカットとする。 以上は、請求項5の発明に対応する。
【0051】
さらに、一実施形態においては、情報量基準としてMDL基準を用いる場合についてのみ説明したが、赤池情報量基準(AIC)を用いた場合、あるいは他の類似の情報量基準を用いた場合においても容易に適用可能である。 以上は、請求項7の発明に対応する。
【0052】
加えて、一実施形態においては、ダイバージェンスを分布間の距離として用いたが、分布を共有したときの尤度の増分を距離値として用いることもできる。以上は、請求項9の発明に対応する。
【0053】
以上、本発明の一実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。
【0054】
【発明の効果】
本発明の音声認識装置によれば、新たに加えたパラメータ調節手段を用いて、混合ガウス分布を用いたパターン認識において、音声の標準パターンの要素分布数を、HMMの状態毎に要素分布数を最適化、すなわち、HMMの状態毎に認識性能が高くなる要素分布数に調節することにより、不必要な要素分布を省くことができ、過学習による未知の音声データに対する劣化を防止することとなり、高性能な音声認識を行うことが可能になる。
【図面の簡単な説明】
【図1】 本発明の一実施形態による音声認識装置の構成を示すブロック図である。
【図2】 従来例による音声認識装置の構成を示すブロック図である。
【符号の説明】
101 入力パターン作成手段
102 標準パターン作成手段
103 標準パターン記憶手段
104 認識手段
203 標準パターン調節手段

Claims (5)

  1. 混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、学習用音声を入力とし標準パターンを作成する標準パターン作成手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
    前記標準パターン調節手段は、少なくとも前記学習用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。
  2. 混合分布を用いた確率モデルを用いる音声認識装置であって、標準パターンを保持する標準パターン記憶手段と、音声を入力とし標準パターンを用いて認識結果を出力する認識手段と、適応化用音声を入力とし標準パターンを修正する標準パターン修正手段と、混合分布を用いた確率モデルとして隠れマルコフモデルを用いた標準パターンの混合分布の要素分布数を隠れマルコフモデルの状態ごとに調節する標準パターン調節手段とを具備し、
    前記標準パターン調節手段は、少なくとも前記適応化用音声に対する尤度と複雑度により求められる値を用いた選択基準に基づいて、前記状態ごとに要素分布の木構造を作成する木構造作成手段を有し前記木構造を上下に分断するノード分布の集合を求めるとともに各ノード分布の集合に関して前記値を計算し、前記ノード分布の集合のノード分布の数を要素分布数とし要素分布を選択することにより、前記状態ごとに要素分布数の最適化を行うことを特徴とする音声認識装置。
  3. 前記値が最小となる選択基準に基づいて要素分布を選択することを特徴とする請求項1又は2記載の音声認識装置。
  4. 前記標準パターン調節手段は、要素分布の選択において、ダイバージェンスを前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項1乃至3に記載の音声認識装置。
  5. 前記標準パターン調節手段は、要素分布の選択において、ノード分布を共有したときの前記尤度の増分を前記木構造における各要素分布の分布間距離に用いることを特徴とする請求項1乃至3に記載の音声認識装置。
JP2001070108A 2001-03-13 2001-03-13 音声認識装置 Expired - Lifetime JP4336865B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001070108A JP4336865B2 (ja) 2001-03-13 2001-03-13 音声認識装置
EP02005277A EP1241661B1 (en) 2001-03-13 2002-03-11 Speech recognition apparatus
DE60204374T DE60204374T2 (de) 2001-03-13 2002-03-11 Spracherkennungsvorrichtung
US10/093,915 US7437288B2 (en) 2001-03-13 2002-03-11 Speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001070108A JP4336865B2 (ja) 2001-03-13 2001-03-13 音声認識装置

Publications (2)

Publication Number Publication Date
JP2002268675A JP2002268675A (ja) 2002-09-20
JP4336865B2 true JP4336865B2 (ja) 2009-09-30

Family

ID=18928034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001070108A Expired - Lifetime JP4336865B2 (ja) 2001-03-13 2001-03-13 音声認識装置

Country Status (4)

Country Link
US (1) US7437288B2 (ja)
EP (1) EP1241661B1 (ja)
JP (1) JP4336865B2 (ja)
DE (1) DE60204374T2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
JP4069715B2 (ja) * 2002-09-19 2008-04-02 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
JP2005156593A (ja) * 2003-11-20 2005-06-16 Seiko Epson Corp 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP4442211B2 (ja) * 2003-12-12 2010-03-31 セイコーエプソン株式会社 音響モデル作成方法
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
KR100664960B1 (ko) 2005-10-06 2007-01-04 삼성전자주식회사 음성 인식 장치 및 방법
US20070088552A1 (en) * 2005-10-17 2007-04-19 Nokia Corporation Method and a device for speech recognition
CN100502463C (zh) * 2005-12-14 2009-06-17 浙江工业大学 一种交通流信息视频检测中的特征采集方法
JP2007233308A (ja) * 2006-03-03 2007-09-13 Mitsubishi Electric Corp 音声認識装置
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US9141860B2 (en) 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
CN101950376B (zh) * 2009-07-09 2014-10-29 索尼公司 隐马尔可夫模型学习设备和方法
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9367745B2 (en) 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
JP5997114B2 (ja) * 2013-08-14 2016-09-28 日本電信電話株式会社 雑音抑圧装置、雑音抑圧方法、およびプログラム
US10218630B2 (en) 2014-10-30 2019-02-26 Pearson Education, Inc. System and method for increasing data transmission rates through a content distribution network
US10713225B2 (en) 2014-10-30 2020-07-14 Pearson Education, Inc. Content database generation
US9667321B2 (en) * 2014-10-31 2017-05-30 Pearson Education, Inc. Predictive recommendation engine
US10116563B1 (en) 2014-10-30 2018-10-30 Pearson Education, Inc. System and method for automatically updating data packet metadata
US10735402B1 (en) 2014-10-30 2020-08-04 Pearson Education, Inc. Systems and method for automated data packet selection and delivery
US10110486B1 (en) 2014-10-30 2018-10-23 Pearson Education, Inc. Automatic determination of initial content difficulty
US10333857B1 (en) 2014-10-30 2019-06-25 Pearson Education, Inc. Systems and methods for data packet metadata stabilization
US10318499B2 (en) 2014-10-30 2019-06-11 Pearson Education, Inc. Content database generation
US10614368B2 (en) 2015-08-28 2020-04-07 Pearson Education, Inc. System and method for content provisioning with dual recommendation engines
US10642848B2 (en) 2016-04-08 2020-05-05 Pearson Education, Inc. Personalized automatic content aggregation generation
US10789316B2 (en) 2016-04-08 2020-09-29 Pearson Education, Inc. Personalized automatic content aggregation generation
US10043133B2 (en) 2016-04-08 2018-08-07 Pearson Education, Inc. Systems and methods of event-based content provisioning
US11188841B2 (en) 2016-04-08 2021-11-30 Pearson Education, Inc. Personalized content distribution

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5243686A (en) * 1988-12-09 1993-09-07 Oki Electric Industry Co., Ltd. Multi-stage linear predictive analysis method for feature extraction from acoustic signals
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
JP2531073B2 (ja) 1993-01-14 1996-09-04 日本電気株式会社 音声認識システム
JP2751856B2 (ja) 1995-02-03 1998-05-18 日本電気株式会社 木構造を用いたパターン適応化方式
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
JP2852210B2 (ja) 1995-09-19 1999-01-27 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル作成装置及び音声認識装置
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
JP2982689B2 (ja) * 1996-04-19 1999-11-29 日本電気株式会社 情報量基準を用いた標準パターン作成方式
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Industrial Co Ltd Low complexity, high accuracy clustering method for speech recognizer
JPH10149192A (ja) 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法、装置およびその記憶媒体
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5708759A (en) * 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
JP3088357B2 (ja) 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者音響モデル生成装置及び音声認識装置
JP3009640B2 (ja) 1997-09-10 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音響モデル生成装置及び音声認識装置
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
JPH11143486A (ja) 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6246982B1 (en) * 1999-01-26 2001-06-12 International Business Machines Corporation Method for measuring distance between collections of distributions

Also Published As

Publication number Publication date
US7437288B2 (en) 2008-10-14
EP1241661B1 (en) 2005-06-01
DE60204374T2 (de) 2006-03-16
JP2002268675A (ja) 2002-09-20
US20020184020A1 (en) 2002-12-05
EP1241661A1 (en) 2002-09-18
DE60204374D1 (de) 2005-07-07

Similar Documents

Publication Publication Date Title
JP4336865B2 (ja) 音声認識装置
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
US20050256713A1 (en) Asynchronous hidden markov model method and system
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP4394972B2 (ja) 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体
JP2003005785A (ja) 音源の分離方法および分離装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JPH06266384A (ja) 音響モデル適応方式
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JPH0895592A (ja) パターン認識方法
JP2005091504A (ja) 音声認識装置
JP2976795B2 (ja) 話者適応化方式
JPH0822296A (ja) パターン認識方法
JPH10149189A (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
Yoshimura et al. Simultaneous optimization of multiple tree-based factor analyzed HMM for speech synthesis
JPH11212587A (ja) 音声認識における雑音適応方法
JPH08123468A (ja) 不特定話者モデル作成装置及び音声認識装置
JPH0981179A (ja) 話者適応化装置及び音声認識装置
JPH08241095A (ja) 話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080501

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080508

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090309

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090408

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

R150 Certificate of patent or registration of utility model

Ref document number: 4336865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4

EXPY Cancellation because of completion of term