JPH08123465A

JPH08123465A - 音響モデルの適応化法

Info

Publication number: JPH08123465A
Application number: JP6264097A
Authority: JP
Inventors: Tatsuo Matsuoka; 達雄松岡; Sadahiro Furui; 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1994-10-27
Filing date: 1994-10-27
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】少ない学習音声、少ない計算量で認識率を高
くする。【構成】不特定話者用学習音声を用いて、半連続分布
ＨＭＭモデルを作り、その基底分布をコードブック１５
に記憶しておき、各音素についての、各基底分布に対す
る重み係数を重み係数メモリ１６に記憶しておき、また
各音素とは独立の全音素についての重み係数を全音素モ
デル用重み係数１９として記憶しておく、認識音声の学
習音声を入力して、全音素モデル用重み係数１９を用い
て、コードブック１５の各基底分布のみを適応化してコ
ードブック１７を格納する。認識時には入力音響をコー
ドブック１７と重み係数メモリ１６の重み係数とを用い
て認識する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声認識における標
準パターンとなるべきものとして用いられ、あらかじめ
別の環境で収録された音声（学習用音声）を用いて学習
した音響モデルを、特定の音声収音系回線特性や、特定
の話者など学習用音声と性質を異にする音声に適応化す
る方法に関する。

【０００２】

【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法である隠れマルコフモデル（Ｈｉｄｄｅ
ｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を用いた音声
認識システムでは、一認識対象カテゴリ、つまり音素、
音節、単語などの語彙（あるいは認識対象単位）ごと
に、１つ、あるいは複数のＨＭＭを設定し、学習用音声
を用いて学習する、つまりＨＭＭを作る。認識時には、
音声認識システムの入力音声がそれらのモデルから観測
される確率を計算し、尤度（尤もらしさ）の最も高い順
に認識結果候補としている。ＨＭＭは、統計的なモデル
であるから学習用音声中に現われた頻度に従って、ある
音響的特徴量とあるカテゴリとを関連づける強さを内部
に確率分布として表現する。つまり図４Ａに示すよう
に、すべての認識対象カテゴリ（例えば音素）ごとに、
初期状態（音素の始端付近）ａ、第２状態ｂ、第３状態
ｃ、最終状態（音素の終端）ｄの４つの状態を順次遷移
し、各状態はその音素のその状態における音響特徴量の
統計的な分布を表現し、状態から状態への遷移確率が与
えられた音響モデルＭ₁〜Ｍ_Mが予め求められ、入力音
声がある音響モデルより出力する確率を計算して入力音
声に対するその音響モデルの尤度を求める。

【０００３】ＨＭＭは確率分布の表現方法から、離散分
布モデル、連続分布モデル、半連続分布モデルの３つに
大きく分類される。離散確率分布モデルでは、音声の音
響的特徴量はコード化された離散的な値で表現される。
例えば、図５Ａに示すように音声の音響的特徴量は代表
的なＮ個の特徴ベクトルＡ₁〜Ａ_Nの何れかで表わさ
れ、これら特徴ベクトルＡ₁〜Ａ_Nにはそれぞれコード
（例えば番号）Ｃ₁〜Ｃ _Nが与えられている。また各音
素を示す音響モデルＭ₁〜Ｍ_Mのそれぞれごとに、図５
Ｂに示すように、コードＣ₁〜Ｃ_Nのそれぞれに対し、
出力確率Ｐ₁〜Ｐ _Pが１対１で対応ずけられている。入
力音声はフレームごとにその特徴ベクトルが代表特徴ベ
クトルＡ₁〜Ａ_Nの何れに最も近いかが求められ、その
代表特徴ベクトルを示すコード列に入力音声が変換さ
れ、そのコード列は各音響モデルＭ₁〜Ｍ_Mのそれぞれ
について、その出力確率が演算される。これら演算され
た出力確率中の最も高い（尤度が大きい）音響モデルと
対応する音素が認識結果として出力される。

【０００４】連続確率分布モデルでは、音響的特徴量ベ
クトルは連続量のまま扱う。例えば図４Ａ中の音響モデ
ルＭ_Mはその初期状態ａはその音響的特徴量が分布Ｄ₁
で表わされ、状態ｂ〜ｄではそれぞれその音響的特徴量
が分布Ｄ₂〜Ｄ₄として表わされる。連続確率分布モデ
ルには、単一分布モデルと混合分布モデルとがあり、図
４ＡのモデルＭ_Mは混合分布モデルの場合で例えば図４
Ｂに示すように、１つの混合分布Ｄ₀が複数の分布Ｖ₁
〜Ｖ₃の重み付き加算の形で表現される。これら分布Ｖ
₁〜Ｖ₃は音声の音響的特徴量の分布をガウス分布で近
似し、平均値μ ₁〜μ₃と共分散行列σ₁〜σ₃とに止
りそれぞれ表現される。音響モデルＭ₁〜Ｍ_Mそれぞれ
図５Ｃに示すように各状態ごとにその複数の分布と、図
に示していないが重み係数とが与えられて表現される。

【０００５】入力音声は各音響モデルごとに、その表現
された各状態の分布により出力確率を演算し、音響モデ
ルごとの出力確率、つまり尤度を求めその最大の音響モ
デルの音素を認識結果とする。混合分布モデルは精密な
分布の推定が可能であるが、推定すべきパラメータ数が
多いため、それだけ多くの学習用音声を必要とする。半
連続確率分布モデルは離散分布モデルと連続分布モデル
の混合分布形のものとの特徴を合せもったモデルであ
る。つまり混合ガウス分布の連続分布モデルにおいて、
混合分布数を十分大きく、例えば２５６に設定し、かつ
各音響モデルに対して同一の分布Ｖ₁〜Ｖ_Nとし、各音
響モデル間の区別は重み係数によって行う。例えば図６
に示すように状態ａについて、各音響モデルＭ₁〜Ｍ_M
について、分布Ｖ₁〜Ｖ_Nのそれぞれに対する重みＷが
それぞれ与えられている。同様に状態ｂ、ｃ、ｄについ
ても、各音響モデルＭ₁〜Ｍ_Mのそれぞれに対し、分布
Ｖ ₁〜Ｖ_Nのそれぞれの重みＷが与えられている。つま
り基底分布Ｖ₁〜Ｖ_Nは全音響モデル、全状態にわたっ
て共有され、各音響モデルの各状態ごとに重み係数Ｗ_i
の値が各音素固有の値として決められている。入力音声
は各音響モデルごとに、出力確率を演算し、その最大の
音響モデルの音素を認識結果とする。半連続モデルは離
散モデルにおける特徴ベクトルＡ₁〜Ａ_Nの代りに基底
分布Ｖ₁〜Ｖ _Nが用いられたもので、図５Ａに示した単
一のコードブックによりパラメータ空間が表現されてい
るという離散モデルの特徴と、混合ガウス分布により各
音素モデルが詳細に表現されるという混合分布形連続モ
デルの特徴とを合せもっている。

【０００６】ＨＭＭのような統計的なモデルを用いた音
声認識では、モデルパラメータを推定するための学習用
音声と実際に認識対象になる音声とが同じような条件で
収音されることを前提としている。すなわち、音響的な
環境、たとえば、背景雑音や、回線の特性が、学習時と
認識時でほぼ同じであると仮定している。学習時と認識
時との収音条件が異なる場合、実際に認識対象となる音
声の音響的特徴量はモデルが表現している音響的特徴量
と異なるので認識精度が悪くなるという問題がある。

【０００７】学習時と認識時との音響的特徴量の変動に
は、スペクトル上で加算的に影響するものと、フィルタ
的に影響するものとがある。背景雑音などはパワーとし
て音声に加わるものであるからスペクトル領域でも加算
的になる。一方、回線特性の違い（歪み）などはスペク
トル包絡の形状が変化、通常はスペクトル包絡の傾きが
変化するのでスペクトル領域においてフィルタ的に影響
する。

【０００８】学習時と認識時との音響的な条件が異なる
場合、認識システムを認識対象となる音響的条件に適応
化することで認識性能を改善しようとする試みがされて
きた。以下に、これまでに提案されている２つの方法に
ついて説明する。第一は、ケプストラム平均値正規化法
と呼ばれる方法である。音声の音響的特徴量としては対
数スペクトルの逆フーリエ変換で定義されるケプストラ
ムが用いられることが多い。ケプストラム領域において
は、スペクトラム領域におけるフィルタが加減算により
実現されるので回線特性の変動による歪みはケプストラ
ムの加減算により補正できる。この原理による簡単で効
果的な回線特性補正方法がケプストラム平均値正規化法
である。音声の音響的特徴量としてケプストラム係数を
用いる場合には、そのケプストラムの時系列から当該音
声区間にわたる平均値を引くことで、時不変な周波数ス
ペクトル的傾向を平坦化することができる。しかしなが
ら、ケプストラム平均値正規化法では、長時間平均によ
り回線における時不変のスペクトル包絡を差し引いて平
坦化するというのが原理であるため、ある程度長い音声
区間にわたって平均をとらないと効果が期待できない。
また、単純にある区間のケプストラムの時系列の平均値
を差し引くだけであるため、音声エネルギーの大小、あ
るいはＳＮ比の違いによる影響で推定誤りが起こるなど
その改善効果には限界があることが問題であった。

【０００９】第二はコードブックの変換によるモデル適
応化法である。この方法は、話者適応化のために提案さ
れたが、コードブックを用いるモデルをベースとしてい
れば、一般に学習音声と認識対象音声の収録環境の不一
致に対する適応化手法として適用可能と考えられる。こ
の方法により、離散確率分布モデル、あるいは半連続分
布モデルの場合には、コードブックを学習用音声で求め
たものから認識対象となる音声で求めたものへ変換する
ことでモデルの適応化が可能である。この方法につい
て、学習用音声の収録回線である回線Ａの音声で学習し
たモデルを、認識対象音声の収録回線である回線Ｂの音
声に適応化する場合を例として説明する。回線Ａの音声
と回線Ｂの音声とがあるとき、回線Ａの音声を用いてコ
ードブックＡを、回線Ｂの音声を用いてコードブックＢ
をそれぞれ設計する。そして、回線Ａの音声をコードブ
ックＡを用いてベクトル量子化し、その結果のコードブ
ックＡのコードの系列を用いてＨＭＭを学習する（ＨＭ
Ｍを作成する）。次に、発声内容が同じ回線Ｂの音声
を、それぞれコードブックＡ、コードブックＢを用いて
それぞれベクトル量子化し、コードブックＡとコートブ
ックＢの各コードの対応関係をＤＰマッチングにより求
める。回線Ｂの音声を認識対象とするときには、コード
ブックＢでベクトル量子化を行ない、その結果をコード
ブックＡとコードブックＢの対応関係からコードブック
Ａのコード系列に変換し、コードブックＡを用いて学習
したＨＭＭを用いて回線Ｂの音声を認識することが可能
になる。しかしながら、この方法は回線Ｂの音声、すな
わち、認識対象となる音声の収録された回線の音声をコ
ードブックを設計できるほどの量を持っていることが必
要であり、かつ回線Ａと全く同じ発声内容の音声がなけ
ればならないということが問題である。したがって、よ
り少ない量の適応化音声で、かつ発声内容に関する制約
の緩い適応化法が必要であった。

【００１０】

【発明が解決しようとする課題】この発明の目的は、学
習用音声と認識対象となる音声とが性質の異なる場合に
も高い認識精度を得るための適応化を、少ない学習音声
を用いて行うことができ、また少ない計算量で行なうこ
とができる音響モデルの適応化方法を提供することにあ
る。

【００１１】

【課題を解決するための手段】この発明によれば音響モ
デルを、パラメータ空間を複数の基底分布で表現された
コードブックと、そのコードブック中の各基底分布に対
する重み係数とにより構成し、各認識対象カテゴリと独
立に学習した全カテゴリ音響モデルを用いて、パラメー
タ空間を表現する基底分布を、性質を異にする音声、つ
まり認識時の音声と同一性質の音声により再推定して適
応化する。

【００１２】請求項２の発明では、再推定された各基底
分布の、その推定前の基底分布に対する変化をそれぞれ
適応化ベクトルとし、各基底分布を音声パワーに従って
クラスタリングし、上記適応化ベクトルを上記各クラス
タに属する基底分布について平均化し、その平均化適応
化ベクトルを用いて、そのクラスタの各基底分布を適応
化する。

【００１３】請求項３の発明では各クラスタごとの平均
化適応化ベクトルと、そのクラスタの各基底分布ごとの
適応化ベクトルとを荷重平均し、その荷重平均適応化ベ
クトルを用いてそのクラスタの基底分布を適応化する。

【００１４】

【作用】前記構成により、（１）全音素ＨＭＭを用いる
ことで適応化音声の発声内容によらずに任意の発声によ
り適応化が可能であり、（２）音声のパワーの大小を考
慮しているため、より正確な回線特性の適応化が可能で
あるという利点がある。すなわち、音声のパワーが大き
くＳＮ比が高い場合は付加的な雑音の影響が小さく、パ
ワーが小さい場合はその逆であることを利用し、パワー
の大きいクラスタに属する基底分布ロードワードに対し
てはそのクラスタに属する基底分布（コードワード）の
修正量の平均値を、パワーの小さいクラスタに属する基
底分布（コードワード）に対してはその基底分布自身の
修正量を重視するようにコードブックを適応化すること
が可能である。

【００１５】

【実施例】以下、この発明の一実施例として、防音室な
ど音響条件の比較的よい環境で収録した音声で学習した
音響モデルを、学習音声とは特性の異なる電話音声に適
応化する場合について図面を参照して説明する。この例
では音響モデルとして半連続分布ＨＭＭを用いた場合に
ついて説明する。この発明の方法は、モデルパラメータ
空間を基底分布の集合により表現し、その基底分布を各
モデルが共有するようなモデル表現であれば、離散分布
ＨＭＭでも連続分布ＨＭＭでも適用可能である。

【００１６】図１にこの発明を適用した音声認識装置を
示す。入力端子１１からのアナログ音声信号は音声入力
部１２でディジタル音声信号に変換され、そのディジタ
ル音声信号から音響特徴量（例えば、ケプストラム、Δ
ケプストラム、Δパワーなど）が音響特徴量抽出部１３
で抽出される。音響モデルとしてＨＭＭを用いた場合
で、ＨＭＭのパラメータ（音響特徴量ベクトルの平均
値、共分散、遷移確率）や、各分布の重み係数は演算部
１４で計算される。半連続分布ＨＭＭではパラメータ空
間を複数の基底分布で表現したコードブックと、そのコ
ードブック中の各基底分布に対する重み係数とにより構
成されるが、前記比較的よい環境で収録した音声で学習
したＨＭＭの基底分布が不特定コードブック１４に蓄え
られ、その各ＨＭＭについての各基底分布に対する重み
係数が重み係数メモリ１６に記憶されている。またこの
発明では不特定話者用コードブックの基底分布を電話音
声で適応化した基底分布が適応化コードブック１７に蓄
えられる。認識結果は演算部１４から出力端子１８に出
力される。音響特徴量抽出部１３は、ハードウェアによ
り実現しても、あるいは、ソフトウェアにより実現して
もよい。ソフトウェアにより実現する場合には、演算部
１４の演算能力が十分にあれば演算部１４で実現しても
差しつかえない。

【００１７】適応化前の基底分布の集合、つまり不特定
話者用コードブック１５に収容されている基底分布の集
合は例えば図２Ａに示すようにＶ₁〜Ｖ_Nからなる。半
連続ＨＭＭは前述したようにこのコードブックの各分布
に対する重み係数をもっており、入力音声に対する尤度
は、各分布の確率分布関数値を重み付き加算することに
より求められる。コードブック１５のサイズ、すなわち
基底分布の数は、音響的特徴量として例えばケプストラ
ム係数を用いる場合、２５６程度を用いることが多い。
入力音声の特徴ベクトルをｘ、各基底分布の確率密度関
数値をＶ₁（ｘ），Ｖ₂（ｘ），Ｖ₃（ｘ），…，Ｖ_N
（ｘ）とし、それぞれの分布に対する重み係数を、
Ｗ₁，Ｗ₂，Ｗ₃，…，Ｗ_Nとすると、その入力音声の
特徴ベクトルｘに対する尤度Ｆ（ｘ）はＦ（ｘ）＝Ｗ₁Ｖ₁（ｘ）＋Ｗ₂Ｖ₂（ｘ）＋Ｗ₃Ｖ₃（ｘ）＋…＋Ｗ_NＶ_N（ｘ） …（１）で求められる。Ｗ₁〜Ｗ_Nは各ＨＭＭにより異った値で
ある。

【００１８】各音素と対応するＨＭＭの形を決めるパラ
メータ（Ｖ₁，Ｖ₂，Ｖ₃，…，Ｖ _Nのガウス分布の平
均値と共分散、それぞれの分布に対する重み係数、
Ｗ₁，Ｗ ₂，Ｗ₃，…，Ｗ_N）は、多くの音声データを
用いてフォワード・バックワードアルゴリズムにより推
定される。ここで、基底分布Ｖ₁〜Ｖ_Nは全モデル、全
状態にわたって共有されており、各モデルの各状態ごと
にＷ_iの値が各音素モデル固有の値として推定される。

【００１９】この発明による適応化では、各モデルのＷ
_i、つまり重み係数メモリ１６の内容はそのままにして
おき、基底分布Ｖ₁〜Ｖ_Nのみを適応化する。適応化に
より、認識対象となる音声のパラメータ空間をうまく表
現できるように各基底分布Ｖ ₁〜Ｖ_Nの平均値や分散が
変化する。平均値の変化により位置が移動し、共分散の
変化により分布の大きさが変わる。この適応化により各
分布Ｖ₁〜Ｖ_Nは図２Ｂに示すように変化させられる。
適応化用音声が十分な量を得られない場合には共分散は
変化させずに平均値だけを変化させてもよい。基底分布
Ｖ₁〜Ｖ_N自体が新たなパラメータ空間へ移動すること
によりモデル固有のＷ_iが変化しなくとも、音素モデル
としては新たなパラメータ空間に適応化されたものとな
る。

【００２０】適応化による平均値、共分散の再推定の具
体的方法について、モデルを音素単位に設定していると
仮定して説明する。平均値、共分散の再推定は全音素Ｈ
ＭＭを用いて行なう。つまり、各認識音素とは独立に、
認識対象となる音声すべてを用いて学習し、全ての音素
の何れに対しても比較的大きな尤度となるように学習し
たモデル、いわゆる全音素モデルに対する重み係数Ｗ₁
〜Ｗ_Nを用いて、コードブック１５のみ（平均値と共分
散）を再学習する。通常、各音素モデルは、２５６のコ
ードワード、つまり基底分布の内、特にその音素を表現
するために重要な複数の基底分布に対して高い重み係数
を持ち、その他に対してはほとんど０に近い非常に小さ
な重み係数の値を示す。したがって、個々の音素モデル
の再推定では、大きな重み係数のかかったコードワード
（基底分布）がより大きく移動し、重み係数の小さなコ
ードワード（基底分布）はほとんど移動しないため、コ
ードブック全体をバランスよく再推定することができな
いため、全コードワード（全基底分布）に対してバラン
スよく重み係数を持っている全音素ＨＭＭを用いて再推
定を行なう。この全音素ＨＭＭは不特定話者用コードブ
ック１５及び重み係数を学習する際に予め学習してお
き、その重み係数をメモリ１６中に全音素モデル用重み
係数１９として記憶しておき、適応化コードブック１７
を作成する際に、この全音素モデル用重み係数を用い
て、その他は通常の学習と同様にフォワード・バックワ
ードアルゴリズムにより各音素モデル（ＨＭＭ）の平均
値及び共分散の推定を行って適応化コードブック１７を
作成する。

【００２１】全音素モデルは音素に独立なので発声内容
によらずに学習できるため、ある決められた適応化用学
習音声を発声しなければならないというような拘束条件
を必要としないことも利点である。以上の適応化学習の
演算は、図１中の演算部１４において行なわれる。回線
Ｂの適応化学習用音声は、各認識カテゴリ（音素）に対
応する区間をラベル付けされている必要がなく、回線Ｂ
の適応化学習用音声は、音声入力部１２、音響特徴量抽
出部１３において、アナログ音声信号からディジタル音
声信号に変換され、音響特徴量ベクトルにされる。この
回線Ｂの適応化学習音声の音声区間の音響特徴量ベクト
ルを観測サンプルとして、フォワード・バックワードア
ルゴリズムにより全音素ＨＭＭの分布の平均値、共分散
や、重み係数を再推定することができる。各音素ＨＭＭ
は重み係数の再推定／更新をする必要がなく、コードブ
ック１５を適応化されたものに変更するだけでよい。こ
のようにして、基底分布の重み係数はもとの不特定話者
用モデル、つまりメモリ１６の内容と同じで、コードブ
ック１５の平均値、共分散が回線Ｂの音声に最適化され
たＨＭＭを作成し、適応化コードブック１７とされる。

【００２２】通常の不特定話者音声認識では、不特定話
者用コードブック１５と重み係数メモリ１６で音響特徴
量が表現された不特定話者用モデルを用いる。回線Ｂか
らの音声を認識する場合は、適応化コードブック１７と
重み係数メモリ１６とで認識対象回線Ｂに適応化された
ＨＭＭを用いて、回線Ｂの入力音声に対する各認識カテ
ゴリのＨＭＭの尤度を求め、最も尤度の高いモデルのカ
テゴリを認識結果とする、あるいは尤度の高い順に認識
結果候補とする。

【００２３】図３Ａに、この発明方法によりマイク音声
で学習した半連続ＨＭＭのコードブック１５を電話音声
へ適応化した場合のその電話音声に対する音素認識結果
を示す。音響的特徴量はケプストラムとΔケプストラム
各１２次元である。図中、ＣＭＮは従来技術の項で述べ
たケプストラム平均値正規化法、ｍｅａｎは各基底分布
の平均値だけを適応化したもの、ｍｅａｎａｎｄｖ
ａｒ．は平均値と共分散を同時に適応化したもの、ｍｅ
ａｎ＋ｖａｒは平均値だけを適応化した後に、共分散だ
けを適応化したものである。この図からＣＭＮにこの発
明方法を組み合わせると５５．４％まで認識率が向上し
た。請求項２の発明の実施例半連続ＨＭＭのコードブック１５を各基底分布の音声パ
ワーにしたがってクラスタリングする。すなわち音声パ
ワーの近い基底分布は同じクラスタに属する。前記請求
項１の発明の実施例において求めた各基底分布（コード
ブック１５）に対応する適応化基底分布（コードブック
１７）の変化を適応化ベクトルとする時、基底分布の属
するクラスタごとにその適応化ベクトルを平均化して、
そのクラスタの代表適応化ベクトル（平均化適応化ベク
トル）とし、そのクラスタに属する基底分布すべてをそ
のクラスタの代表適応化ベクトルにより適応化する。例
えば音声パワークラスタリングにより、例えば図２Ａ中
の基底分布Ｖ₂，Ｖ₃，Ｖ ₆が同じクラスタに属したと
すると、基底分布Ｖ₂，Ｖ₃，Ｖ₆の適応化コードブッ
ク１７中の各対応する基底分布への変化ベクトル（適応
化ベクトル）Ｅ₂，Ｅ₃，Ｅ₆（この場合は平均値の変
化を示すベクトル）を平均化し、その平均化適応化ベク
トルＥ_mを用いて、そのクラスタに属する基底分布
Ｖ₂，Ｖ₃，Ｖ₆を適応化する。この場合は一種の平滑
化の効果により適応化用音声が少量の場合にも頑健な適
応化が期待できる。

【００２４】図３Ｂにこの請求項２の発明の方法でコー
ドブックを適応化した場合の認識結果を示す。音響的特
徴量としてケプストラム、Δケプストラムに加え、正規
化対数パワーとその一次微分（Δパワー）を用いた。ク
ラスタリングは正規化対数パワーにより行なった。クラ
スタ数は実験的に最適値を求め、５とした。特徴量が増
えたことにより先の実験より全体的に認識率が向上して
いるが、パワーでクラスタリングした場合はＣＭＮやｍ
ｅａｎ（全音素ＨＭＭでコードブックの平均値を適応化
した場合）より高い認識率を示している。請求項３の発明の実施例前記実施例における各基底分布に対応する適応化ベクト
ルと、その基底分布の属するクラスタの代表適応化ベク
トル（平均化適応化ベクトル）との重み付き線形和を新
たに適応化ベクトルとしてコードブックを適応化する。
音声パワーが大きいところではおもにフィルタ的な歪み
の影響が精度の劣化原因として考えられ、音声パワーが
小さいところでは加算的な雑音の影響も無視できないと
考えられるため、音声パワーの大小によって、基底分布
自身に対応する適応化ベクトルとクラスタの代表適応化
ベクトルの寄与率を操作することで、より高精度な適応
化が実現できると期待できる。

【００２５】上述ではこの発明を回線音声に適応化させ
る場合に適用したが、いわゆる話者適応にも適用でき
る。また音響モデルとしてはＨＭＭに限らない。

【００２６】

【発明の効果】以上述べたように、この発明によれば、
（１）任意の発声内容の適応化音声により認識対象とな
る音声の特性へ音響モデルを適応化することができ、
（２）音声パワーに応じた適応化を行なうことでより頑
健で精度の高い適応化が可能となる、（３）各カテゴリ
モデルの分布係数は再推定せず、共通のコードブックだ
けを再推定するため適応化学習に要する学習音声は少な
くてよく、そのため計算時間も少ない、などの利点があ
る。

【図面の簡単な説明】

【図１】この発明を適用した音声認識システムの構成を
示すブロック図。

【図２】この発明による音響モデルの適応化の様子を示
す図。

【図３】この発明の効果を示す図。

【図４】Ａは音響モデルの例を示す図。Ｂは混合分布の
例を示す図である。

【図５】Ａは離散分布モデルのコードブックの例を示す
図、Ｂはその各音響モデルの例を示す図、Ｃは連続分布
モデルの例を示す図である。

【図６】半連続分布モデルの例を示す図。

Claims

【特許請求の範囲】

【請求項１】学習用音声を用いて、その音声の音響的
特徴量を抽出し、その特徴量を統計的にモデル化して、
認識カテゴリに対応した音響モデルを、認識時に、上記
学習用音声と性質を異にする音声を用いて適応化する方
法において、上記音響モデルは、パラメータ空間を複数の基底分布で
表現したコードブックと、そのコードブック中の各基底
分布に対する重み係数とにより構成し、各認識対象カテゴリと独立に学習した全カテゴリ音響モ
デルを用いて、上記パラメータ空間を表現する基底分布
を、上記性質を異にする音声により再推定して適応化す
ることを特徴とする音響モデルの適応化法。
【請求項２】上記再推定された各基底分布の、その推
定前の基底分布に対する変化をそれぞれ適応化ベクトル
とし、上記基底分布を音声パワーに従ってクラスタリングし、上記適応化ベクトルを上記各クラスタに属する基底分布
について平均化し、その平均化適応化ベクトルを用いて、そのクラスタの各
基底分布を適応化することを特徴とする請求項１記載の
音響モデルの適応化法。
【請求項３】上記再推定された各基底分布の、その推
定前の基底分布に対する変化をそれぞれ適応化ベクトル
とし、上記基底分布を音声パワーに従ってクラスタリングし、上記適応化ベクトルを上記各クラスタに属する基底分布
について平均化し、その各クラスタごとの平均化適応化ベクトルと、そのク
ラスタの各基底分布ごとの適応化ベクトルとを荷重平均
し、その荷重平均適応化ベクトルを用いて、そのクラスタの
基底分布を適応化することを特徴とする請求項１記載の
音響モデルの適応化法。