JPH1097273A

JPH1097273A - 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体

Info

Publication number: JPH1097273A
Application number: JP9093855A
Authority: JP
Inventors: Tomoko Matsui; 知子松井; Sadahiro Furui; 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1996-08-02
Filing date: 1997-04-11
Publication date: 1998-04-14
Anticipated expiration: 2017-04-11
Also published as: JP3216565B2

Abstract

(57)【要約】【課題】音声モデルを不特定話者に対しより正確に適
応化する。【解決手段】音声モデルの話者適応化方法であり、入
力音声をケプストラムのような特徴パラメータ列に変換
し、その特徴パラメータ列との尤度が最大となるＮ個の
モデル系列を不特定話者用音声ＨＭＭからN-best仮説抽
出法により抽出し、抽出されたそれら各モデル系列毎
に、その系列のＨＭＭパラメータを変化させて入力音声
音特徴系列との尤度がそれぞれ最大となるように仮適応
化し、それら仮適応化されたモデル系列の中で最大尤度
の適応化モデル系列を選択し、認識対象話者の適応化Ｈ
ＭＭとする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、多数の話者の音
声を用いて、音韻、単語などの認識カテゴリに対応した
音声の特徴を例えば隠れマルコフモデル（Hidden Marko
v Model,以下ＨＭＭと記す）でモデル化した不特定話者
用音声モデルを、認識対象となる話者の音声を用いて、
その話者に対する認識率を高めるように適応化する音声
モデルの話者適応化方法及びその方法を用いた音声認識
方法及びその方法を記録した記録媒体に関する。

【０００２】

【従来の技術】音声認識法では、入力音声の特徴パラメ
ータ列を予め作成した基準の音声（単語又は音韻）モデ
ル列と比較し、最も確からしい音声モデル系列を認識結
果として出力する。音声認識に使用されるこの様な基準
の音声モデルの集合である基準モデル辞書は、例えば以
下のようにして作成される。予め多数の話者の音声を例
えば線形予測分析して特徴パラメータ列を得る。その特
徴パラメータ列から単語又は音韻毎に基準の単語モデル
又は音韻モデル（以下これらを総称して音声モデルと呼
ぶ）を作成し、基準モデル辞書とする。

【０００３】近年、音声認識においては基準音声モデル
として、音声を例えば一定フレーム毎に得られるケプス
トラムのような特徴パラメータ列の統計量で表すＨＭＭ
を使用することが多いので、このＨＭＭについて図１を
参照して簡単に説明する。例えば音韻ＨＭＭでは、各音
韻部分に対応した特徴パラメータ列は、一般にその開始
領域、中間領域、終了領域でだいたい特徴が分かれてい
るので、図１Ａに示すようにそれら３つの領域を代表す
る３つの状態で規定することができる。ただし、音声現
象は連続的なので各領域の境界は明確ではないが、図１
Ａでは説明を簡略化するために各領域の境界を明示して
いる。これらの領域を第１、第２、第３状態と呼び、Ｓ
₁，Ｓ₂，Ｓ₃ で表すことにする。

【０００４】音韻ＨＭＭの各状態は、その音韻の各領域
に対応した特徴パラメータ列の分布を表し、実際には特
徴パラメータベクトルの次元におけるガウス分布の組合
せで表す。図１Ｂは特徴パラメータベクトルの次元が一
次元の場合に、各状態を４つのガウス分布の組合せで表
した例である。そのとき、状態Ｓ_i はその４つのガウス
分布の平均値ｍ_i={m_i1,m_i2,m_i3,m_i4}、分散σ_i={σ
_i1,σ_i2,σ_i3,σ_i4}、及び重み係数ｗ_i={w_i1,w_i2,
w_i3,w_i4}で規定される。このような複数のガウス分布の
組合せで表される分布を混合ガウス分布と呼んでいる。

【０００５】更に、これら第１、第２、第３の状態
Ｓ₁，Ｓ₂，Ｓ₃ のそれぞれにおいて、同じ状態に遷移す
る確率a₁₁,a₂₂,a₃₃と、次の状態に遷移する確率a₁₂,a₂₃
を例えば図１Ｃに示すように定義する。以上、全状態の
全混合ガウス分布の平均値、分散、重み係数、状態遷移
確率の統計的パラメータの組を、この音韻を表すＨＭＭ
のモデルパラメータと呼び、θで代表する。基準モデル
辞書には予め決めた全ての音韻（又は単語）についての
音声ＨＭＭのモデルパラメータが納められている。

【０００６】音声認識を行う場合は、入力音声から得ら
れる特徴パラメータ列を、可能な音声ＨＭＭ系列に当て
はめたときに、最もよく当てはまった音声ＨＭＭ系列を
認識結果として出力する。なお、そのあてはまる度合い
をＨＭＭの尤度と呼び、実際にはその特徴パラメータ列
を音声ＨＭＭ系列に含まれる各状態に確率的に割り振っ
た場合の、混合ガウス分布から計算される確率と、状態
遷移確率との積として得られる。後述する不特定話者の
音声に音声モデルを適応化するには、その話者の音声に
対応する音声モデル系列での尤度が最大となるように各
音声ＨＭＭのモデルパラメータθ（例えば３つの状態の
それぞれにおける混合ガウス分布の平均値ｍ₁,ｍ₂,
ｍ₃）を変化させる。

【０００７】例えば、駅に設置される音声認識を使用し
た対話型自動発券装置は、不特定の利用者の発声する行
き先駅名の音声を認識して、該当する乗車券を発行する
ことが要求される。不特定話者の音声の認識率を高める
ためには、利用者が発声した音声を用いて、基準モデル
辞書をその利用者に適応化し、その適応化した基準モデ
ル辞書を使ってその利用者の音声を再認識することが考
えられる。

【０００８】一般的にこの話者適応化技術は、適応化に
用いる音声データの発声内容が既知である場合（教師あ
り）と、未知である場合（教師なし）に分けて考えるこ
とができる。またこの技術は、認識システムがあらかじ
め適量の音声データを収集し、それを適応化に用いるオ
フライン型と、認識のたびにその発声を用いて教師なし
適応化を行うオンライン型とに分類することができる。

【０００９】教師なしでオンライン型の話者適応化は即
時型の話者適応化と呼ばれ、この即時型では、上述の駅
における自動発券装置の例のように、特に多くの利用者
が代わるがわるその認識システムを利用するような応用
（アプリケーション）において有効である。しかしこの
即時型の話者適応化は少量の音声データだけを用いて教
師なしで行う必要がある。

【００１０】従来の教師なし話者適応化では、例えば文
献「中川聖一：“確率モデルによる音声認識”、電子情
報通信学会、1988」のViterbi アルゴリズムのようなデ
コーディングアルゴリズムにもとづいて、不特定話者用
の基準モデル辞書（例えば基準の音韻ＨＭＭの集合）を
用いて入力音声を一度認識し、その入力音声の音韻ＨＭ
Ｍ系列を推定する。基準モデル辞書から推定した入力音
声の音韻ＨＭＭ系列Λに従って音韻ＨＭＭを辞書から選
択して連結し、その連結された音韻ＨＭＭ列の尤度が最
大になるように、基準モデル辞書の全ての音韻ＨＭＭの
モデルパラメータθを認識対象話者の音韻モデルパラメ
ータへ写像する関数（モデル変換関数）Gη(θ) の中の
変換パラメータηを、例えば事後確率最大化推定(maxim
um a posteriori:MAP、例えばJ.L.Gauvain and C.-H.Le
e, Maximum a posteriori estimation for multivariat
e Gaussian mixture observations of Markov chains,
IEEE Trans. Speech and Audio processing, Vol.2, N
o.2, pp291-298, 1994）に基づいて、次式に従って求め
る。

【００１１】

【数１】

【００１２】ここで、Ｘは入力音声、f()は尤度関数、g
()は事前確率密度関数を表す。認識対象話者に適応化し
た音韻ＨＭＭのパラメータθ' は、このη'を用いて次
式

【００１３】

【数２】

【００１４】のように計算される。実用的には、例え
ば、それぞれの音韻モデルを表すパラメータθのうち、
分散σ、重み係数ｗ及び状態遷移確率ａは変化しないも
のと仮定し、平均値ｍのみを適応化する。その時、モデ
ル変換関数Gη()は次式

【００１５】

【数３】

【００１６】により求める。この様にして認識対象話者
に適応した基準モデル辞書を使って入力音声Ｘを再認識
し、その認識結果を出力する。しかし、式(1),(2)を使
ったモデルパラメータθの写像では不特定話者用基準音
韻ＨＭＭ辞書に対する性能が低い話者の入力音声Ｘに対
しては、音韻ＨＭＭ系列Λが正しく推定できず、話者適
応化の効果が必ずしも得られなかった。

【００１７】

【発明が解決しようとする課題】この発明の第１の目的
は、話者適応によって入力音声に対する音声モデル系列
の推定をより正確に行うことができる音声モデルの話者
適応化方法を提供することである。この発明の第２の目
的は、上記話者適応化方法を使った認識率の高い音声認
識方法を提供することである。

【００１８】この発明の第３の.....目的は、上記音声
認識方法を記録した記録媒体を提供することである。

【００１９】

【課題を解決するための手段】この発明によれば、特徴
抽出過程で、認識対象となる話者の入力音声を分析して
特徴パラメータ列を抽出し、その抽出した特徴パラメー
タ列と不特定話者用音声モデルを用いて、モデル系列抽
出過程で、上記入力音声の特徴パラメータ列に対応する
と推定されるモデル系列の複数の仮説を抽出し、仮適応
化過程でその抽出した複数のモデル系列の各系列ごと
に、その系列に従って不特定話者用音声モデルを連結し
たモデルと上記入力音声の特徴パラメータ列との尤度が
最大になるように上記連結した不特定話者用音声モデル
を適応化し、適応化モデル選出過程で、上記各モデル系
列ごとに適応化後の音声モデルをそのモデル系列に従っ
て連結したモデルと上記入力音声の特徴パラメータ列と
の尤度を求め、それらの尤度に基づいてモデル系列に対
応した適応化音声モデルを選出してこれを適応化音声モ
デルとする。

【００２０】前記適応化モデル選出過程は、不特定話者
用音声モデルを用いたときの尤度ではなく、話者適応化
後の音声モデルを用いたときの尤度に基づいて、適応化
音声モデルの選出を行っている。このことは、「正しい
モデル系列に対する不特定話者用音声モデルの尤度が低
い値であっても、その系列に対する話者適応化後の音声
モデルの尤度は高い値になる」という原理に基づいてい
る。この発明では、正しいモデル系列が高い確率で含ま
れるように複数のモデル系列を抽出し、これらの各モデ
ル系列に対してそれぞれ話者適応化を行い、各話者適応
化後の音声モデルを用いた時の認識対象音声に対する尤
度を比較し、最も高い値を示す音声モデルを選択するこ
とによって、より正しいモデル系列にもとづく適応化が
行われる。

【００２１】モデル系列抽出過程で、正しいモデル系列
が含まれるように複数のモデル系列を抽出するには例え
ば文献「C.-H.Lee他監修：“Automatic speech and spe
akerrecognition（第１８章Multiple-pass search stra
tegies）”、Kluwer Academic Publishers, 1995」のMu
ltiple-pass search strategiesのN-bestパラダイム(pa
radigm)が利用できる。これにより、効果的にモデル系
列の探索空間を小さくできる。具体的には、認識対象と
なる話者の音声を用いて、不特定話者用音声モデルのパ
ラメータを、認識対象話者の音声に対する尤度が大きく
なるように適応化を進めながら、適応化に使う仮説（モ
デル系列）を、Ｎ−ｂｅｓｔ仮説の中から選び直すこと
により、音声モデルを認識対象話者に適応化する。

【００２２】またこの発明においては、各モデル系列に
対する適応化は、始めはパラメータ間の結び状態を強く
して大まかに行い、その大まかに適応化された音声モデ
ルと認識対象話者の音声とを用いて、複数のモデル系列
のそれぞれについて適応化を行い、その適応化された音
声モデルを用いた時の認識対象話者の音声に対する尤度
が最大のものを選択して、音声モデルを適応化する。そ
の時各モデル系列に対する適応化は前回よりもパラメー
タ間の結び状態を緩くして細かく行なう。適応化モデル
選出過程で選出した尤度が最大の１つのモデル系列のモ
デルパラメータで音声モデルを適応化する代わりに、Ｎ
個のモデル系列のモデルパラメータをそれらの尤度に対
応した重み付けで平均して得たモデルパラメータで音声
モデルを適応化してもよい。以上の手続きを少くとも１
回繰り返し行う。この繰り返しは、仮適応化過程と適応
化モデル選出過程のみでもよい。つまりモデル系列抽出
過程までもどらず、最初に抽出した複数のモデル系列を
再利用してもよい。

【００２３】音声認識結果を出力する場合は、最終的に
適応化モデル選出過程で選出された尤度が最大のモデル
系列を認識結果として出力する。或いは、適応化モデル
選出過程で選出されたモデル系列に対応した、適応化後
の音声モデルを使って入力音声を再認識し、最大尤度を
示すモデル系列を認識結果として出力する。この発明に
よる適応化アルゴリズムを使った認識方法を予め記録媒
体に記録しておき、その記録媒体を各種不特定話者音声
認識システムに用いることができる。

【００２４】

【発明の実施の形態】

第１実施例この発明の第１実施例を図２のフローチャートと図３の
音声認識システム機能ブロック図を参照して説明する。
音声モデル蓄積部１２には、多数の話者の音声を用いて
学習した単語などの認識カテゴリに対応した不特定話者
用音声モデル、例えば不特定話者用音声ＨＭＭが基準モ
デル辞書として予め蓄積されているものとする。また、
以下に説明するこの発明の話者適応化方法を使った音声
認識方法を実施する手順は制御部１０内の記憶部１０Ｍ
に予め記録されており、制御部１０はその手順に従って
図３の音声認識システムの各部１１〜１６の処理をそれ
ぞれ制御する。

【００２５】ステップＳ１（特徴量抽出過程）：特徴量
抽出部１１で認識対象話者の音声データの特徴量を抽出
する。特徴量抽出は、入力された音声データを一定フレ
ーム毎にＬＰＣ分析し、例えばケプストラム又はΔケプ
ストラムなどの特徴パラメータベクトルの時系列を特徴
パラメータ列として得る。ステップＳ２（モデル系列抽出過程）：モデル系列選択
部１３においてモデル蓄積部１２から選択した音声モデ
ルを連結して、ステップＳ１で得られた特徴パラメータ
列に変換された音声データＸに最も近いと推定される、
Ｎ個のモデル系列Λ₁，Λ₂，…Λ_Nを抽出する。このモ
デル系列の抽出は例えば文献「W.Chou他：“An algorit
hm of high resolution and efficient multiple strin
g hypothesization for continuous speech recognitio
n using inter-word models”、Proc.ICASSP、pp.II-15
3-156,1994」に述べられている手法による。

【００２６】具体的には、例えば想定される全ての音声
ＨＭＭ系列Λから前記特徴パラメータ列Ｘに変換された
音声データＸとの尤度f(X|Λ,θ)を尤度計算部１４にお
いて計算し、尤度が最も高いものから順にＮ個（Ｎは２
以上の予め決めた整数）のモデル系列Λ_n(n=1,…,N) を
モデル系列選択部１３から選択抽出する。この抽出され
たＮ個のモデル系列中に、認識対象音声を正しく表現し
たモデル系列（正解）が高い確率で含まれる程度にＮの
数を選定する。例えば４桁の数字音声（単語列）の場合
はＮ＝１０とすれば、この１０個のモデル系列に正しい
モデル系列が含まれる確率は９７％程度となるから、Ｎ
を１０に選ぶ。Ｎの数をこれより大にすれば正しいモデ
ル系列が含まれる確率はより高くなり、演算量、処理時
間を考慮しなければＮは大きい方がよい。Ｎの数は認識
対象音声が複雑になれば、これに応じて大にする必要が
ある。この発明では抽出したＮ個のモデル系列に正解が
含まれている確率が高いことが重要である。

【００２７】ステップＳ３（仮適応化過程）：特徴パラ
メータ列に変換された音声データＸに対し、ステップＳ
２で抽出されたモデル系列Λ_n(n=1,…,N)毎に、適応化
部１５において次式

【００２８】

【数４】

【００２９】により、音声データＸに対するモデル系列
Λ_nの尤度関数値f(X|Λ_n,η_n,θ) が最大となる変換パ
ラメータη'_nを求め、その変換パラメータη'_nを用いて
そのモデル系列Λ_n を構成する不特定話者用音声ＨＭＭ
のモデルパラメータθを変換し、θ'_n(=Ｇη'_n(θ)) を
得る。その方法としては、例えばBaum-Welchアルゴリズ
ム（例えば文献「中川聖一："確率モデルによる音声認
識"、電子情報通信学会、1988」）もしくはＭＡＰ推定
アルゴリズムを使うことができる。この変換パラメータ
η'_nを用いて変換したモデルパラメータθ'_nをもって、
Ｎ個の各モデル系列Λ_n(n=1,…,N) 毎にそのモデル系列
を構成する全音声ＨＭＭが認識対象話者にそれぞれ仮適
応化されたことになる。

【００３０】即ち、図４に示すように、モデル系列Λ₁
は音声モデルλ₁₁,λ₁₂,…,λ_1k1の系列よりなり、モデ
ル系列Λ₂は音声モデルλ₂₁,λ₂₂,…,λ_2k2よりなり、
モデル系列Λ_Nは音声モデルλ_N1,λ_N2,…,λ_NkNからな
るものとする。式(4) により変換パラメータη₁ を変化
させた時のモデル系列Λ₁と音声データＸとの尤度関数
f(X|Λ₁,η₁,θ₁)が最大となる変換パラメータη'₁を求
め、このη'₁を用いて不特定話者用音声ＨＭＭのモデル
パラメータθをθ₁(=Ｇη₁(θ))に変換する。なお、モ
デル系列Λ_n を構成する全ての音声モデル（ＨＭＭ）λ
_n1,λ_n2,…,λ_n _knの全てのモデルパラメータθに共通に
変換パラメータη_n を決定する場合、それぞれの音声モ
デルのパラメータθの変換は互いに拘束された状態であ
り、これをパラメータ間の結びの状態が強いという。

【００３１】同様にモデル系列Λ₂の音声モデルλ₂₁,
λ₂₂,…,λ_2k2の変換パラメータη₂を変化させ、音声デ
ータＸに対するモデル系列Λ₂の尤度関数f(X|Λ₂,η₂,
θ₂)が最大となる変換パラメータη'₂を求め、そのη'₂
から仮適応化されたモデルパラメータθ₂(=Ｇη₂(θ))
を得る。以下同様に各モデル系列Λ_nについて尤度関数
f(X|Λ_n,η_n,θ_n)が最大となる変換パラメータη'_nを求
め、仮適応化されたモデルパラメータθ_n を得る。これ
によりＮ個の仮適応化された音声モデルパラメータθ₁,
…,θ_N が得られる。

【００３２】ステップＳ４（適応化モデル選出過程）：
次に、ステップＳ３で仮適応化された各モデルパラメー
タθ_n 系列Λ'_n毎に、入力音声データＸに対する尤度、
つまり尤度関数f(X|Λ_n,θ_n)を求め、これら尤度関数f
(X|Λ₁,θ₁)，…，f(X|Λ_N,θ _N)の中で最大となるモデ
ル系列Λ_iを正しいモデル系列として選択する。従っ
て、そのモデル系列Λ_iを構成する音声ＨＭＭは、話者
に適応化された音声ＨＭＭとなっている。

【００３３】図２に波線で示すように、ステップＳ３の
仮適応化を予め決めた回数連続して繰り返し実行しても
よい。その場合は、繰り返し毎に各モデル系列の変換パ
ラメータη'_nによる仮適応化を前回の仮適応化より緩い
結び状態（後述）で細かく行う。即ち、各モデル系列Λ
_n 毎にそれを構成する全音声モデルの全モデルパラメー
タθを例えば２つのグループに分類し（クラスタリング
し）、その２つのグループ（クラスタ）のモデルパラメ
ータに対しそれぞれ尤度が最大となるように変換パラメ
ータη_a、η_bをそれぞれ独立に制御することにより、式
(2),(3) に従ってモデル系列Λ_nに対する仮適応化を行
う。実用的には例えば前述のように変換パラメータηと
してガウス分布の平均値ｍの変化量Δｍ（η＝Δｍ）を
使う。その場合、各モデル系列Λ_n を構成する全モデル
に含まれる全分布の平均値を２つのグループにクラスタ
リングして、それら２つのクラスタ毎に共通に平均値の
変化量Δｍ_a、Δｍ_bを決める。このようにしてＮ個のモ
デル系列に対しそれぞれ尤度を最大とするように仮適応
化が行われる。

【００３４】音声認識結果を出力する場合は、ステップ
Ｓ４で選択された最大尤度のモデル系列Λ_iをステップ
Ｓ５で認識結果として出力する。或いは、波線で示すよ
うに、最終的にステップＳ４で選択された適応化モデル
系列Λ_iに使用された変換パラメータη'_iにより、ステ
ップＳ６で基準モデル辞書の全音声モデルを適応化し、
次にステップＳ７でその適応化された基準モデル辞書を
使って入力音声データＸを再認識し、尤度が最大となる
モデル系列を１つ抽出し、ステップＳ５で抽出されたモ
デル系列を認識結果として出力する。その場合、再認識
処理としては、特徴パラメータ列に変換された入力音声
データＸに対し、例えば Viterbiアルゴリズムによっ
て、尤度関数f(X|Λ,θ)が最大となるモデル系列を求め
て認識結果として出力する。第２実施例図５はこの発明によるモデル適応化方法の第２実施例の
処理手順を示す。第２の実施例では、初めてのステップ
Ｓ１〜Ｓ４の処理は第１実施例である図２のステップＳ
１〜Ｓ４と同様であり、ステップＳ１で入力音声をＬＰ
Ｃ分析して特徴パラメータ列に変換し、ステップＳ２で
基準モデル辞書から入力音声特徴パラメータ列に対し最
も尤度の高いＮ個の音声モデル系列を選択し、ステップ
Ｓ３でＮ個の各モデル系列を尤度が最大となるよう適応
化し、ステップＳ４でＮ個の仮適応化モデル系列から尤
度最大のモデル系列を選択する。ステップＳ４の終了
後、更に以下の処理を実行する。

【００３５】ステップＳ５（Ｎモデル適応化過程）：ス
テップＳ４で選択したモデル系列Λ _iに対し、ステップ
Ｓ３で最大尤度を与えた変換パラメータη'_iを共通に使
って直前のステップＳ３での仮適応化前のＮ個のモデル
系列について適応化を行う。ステップＳ３に戻り、前回
ステップＳ５で適応化したＮ個のモデル系列Λ₁,…,Λ
_Nそれぞれについて入力音声データＸに対し再び尤度が
最大となるようにそれぞれのモデル系列Λ₁,…,Λ_Nに対
する仮適応化を行う。ただし、変換パラメータη_n によ
る仮適応化は、前回の仮適応化より各モデル系列内で結
び状態をゆるめて行う。

【００３６】ステップＳ４で、Ｎ個のモデル系列から再
び最大尤度を与えたモデル系列を正しいモデル系列とし
て選択する。上述の第２実施例において、ステップＳ
５，Ｓ３，Ｓ４を更に所望の回数繰り返し実行し、最後
の回のステップＳ４で最大尤度を与えたモデル系列を正
しいモデル系列として選択してもよい。

【００３７】第２実施例において、音声認識結果を出力
するには、ステップＳ４で最終的に選択したモデル系列
をステップＳ６で認識結果として認識結果出力部１６か
ら出力する。或いは、波線で示すように、ステップＳ４
で選択されたモデル系列に対してその直前のステップＳ
３で与えたと同じ変換パラメータη'_iを共通に使ってス
テップＳ７で基準モデル辞書の全音声モデルを適応化
し、次にステップＳ８でその適応化された基準モデル辞
書を使って入力音声データＸを再認識し、尤度が最大と
なるモデル系列を１つ抽出し、それをステップＳ５で認
識結果として出力する。その場合、再認識処理として
は、特徴パラメータの時系列に変換された入力音声デー
タＸを、例えば Viterbiアルゴリズムによって、尤度関
数f(X|θ) が最大となるモデル系列を求めて認識結果と
して出力する。また、図２の第１実施例の場合と同様
に、ステップＳ３の仮適応化を複数回繰り返してからス
テップＳ４の適応化モデル選出過程に移ってもよい。第
３実施例図６はこの発明によるモデル適応化方法の第３
実施例の処理手順を示す。上述の第２実施例では、ステ
ップＳ４で選択したモデル系列にその直前のステップＳ
３で与えた変換パラメータη'iと同じ変換パラメータ
η'iを使って、仮適応化前のＮ個のモデル系列をステッ
プＳ５で適応化する場合を示したが、第３実施例では、
ステップＳ５において基準モデル辞書の全モデルを適応
化し、ステップＳ３ではなく、ステップＳ２に戻り、ス
テップＳ５で適応化された辞書を使って入力音声データ
Ｘに対する尤度の最も高いＮ個のモデル系列の選択を再
び実行する。

【００３８】即ち、図５の第２実施例の場合と同様に、
仮適応化されたＮ個のモデル系列からステップＳ４で最
大の尤度を示したモデル系列を暫定的正しいモデル系列
として選択する。第３実施例ではステップＳ５で、その
選択したモデル系列にステップＳ３で与えた変換パラメ
ータη'_iと同じ変換パラメータη'_iを使って基準モデル
辞書の全モデルを適応化し、ステップＳ２に戻る。ステ
ップＳ２で適応化された基準モデル辞書を使って、入力
音声データＸに対し最も尤度が高いＮ個のモデル系列を
再び選び直し、ステップＳ３、Ｓ４で前回と同様に仮適
応化及び適応化モデル選出を行う。

【００３９】更にステップＳ５，Ｓ２，Ｓ３，Ｓ４を繰
り返してもよい。その場合も、前述と同様に繰り返し処
理毎にモデルパラメータの階層的クラスタリングを行っ
てステップＳ３におけるモデル系列の仮適応化を行うの
が好ましい。その場合、ステップＳ５における基準モデ
ル辞書の適応化はステップＳ３におけるモデルパラメー
タのクラスタリングと同じクラスタリングを辞書内の全
モデルのパラメータに対して行ってモデルパラメータθ
をグループ分けし、ステップＳ３で決められたそれぞれ
のクラスタに対する変換パラメータ、例えばη_ia、η_ib
をそれぞれのグループのモデルパラメータに対し独立に
与えることにより辞書を適応化する。

【００４０】このステップＳ５，Ｓ２，Ｓ３，Ｓ４の繰
り返し処理は、各繰り返し毎にステップＳ３において前
回のステップＳ３における各モデル系列に対するモデル
パラメータのクラスタリングによる各クラスタのモデル
パラメータを更に例えば２つのグループにクラスタリン
グするように階層的にクラスタを増加して行う。従っ
て、３回目のモデル適応化では４つのクラスタのモデル
パラメータに対し、独立に変換パラメータη_ia、η_ib、
η_ic、η_idを与えて適応化を行う。それと同様にステッ
プＳ５における辞書の全モデルに対するモデルパラメー
タのクラスタリングでも処理ループの繰り返し毎にクラ
スタ数を階層的に増加させることによって、モデル間の
パラメータの結び状態をゆるめていく。最終回でのステ
ップＳ４で、その直前のステップＳ３で得られた仮適応
化後のそれぞれのモデル系列のうち、最も尤度の高いモ
デル系列を正しいモデル系列として選択する。また、図
６には線で示すように、ステップＳ３の仮適応化を、前
回よりも変換パラメータ間の結び状態を緩めて行うこと
を予め決めた回数連続して繰り返してもよい。

【００４１】認識結果を出力する場合は、最後の繰り返
しにおけるステップＳ４で選択した最大尤度のモデル系
列を出力する。或いは、ステップＳ２〜Ｓ５の繰り返し
適応化処理を所定回数実行した後、ステップＳ５の基準
モデル辞書適応化過程で終了し、次に波線で示すよう
に、ステップＳ６でその適応化された基準モデル辞書を
使って入力音声データＸを再認識し、尤度が最大となる
モデル系列を１つ抽出し、認識結果として出力してもよ
い。その場合、再認識処理としては、特徴パラメータの
時系列に変換された入力音声データＸを、例えば Viter
biアルゴリズムによって、尤度関数f(X|θ) が最大とな
るモデル系列を求めて認識結果として出力する。また、
図２の第１実施例の場合と同様に、ステップＳ３の仮適
応化を複数回繰り返してからステップＳ４の適応化モデ
ル選択過程に移ってもよい。

【００４２】上述の実施例１、２、３において、ステッ
プＳ３で尤度関数としてf(X|Λ_n,η _n,θ)の代りに、こ
れと事前確率密度関数g(θ) との積f(X|Λ_n,η_n,θ)g
(θ)を用いてもよい。また上述において音声モデルとし
てはＨＭＭに限らない。またステップＳ２でのモデル系
列の抽出は、N-bestパラダイムに従って行う場合に限ら
ず、要は正解のモデル系列が高い確率で含まれるように
抽出すればよい。

【００４３】上述の第２、第３実施例ではステップＳ３
において、N-best法に従って選択されたＮ個のモデル系
列Λ₁〜Λ_Nを仮適応化し、ステップＳ４でそれらのう
ち、最大尤度を示した１つのモデル系列を選択し、その
選択したモデル系列の変換パラメータにより他のモデル
を適応化したが、仮適応化により正解のモデル系列が必
ずしも最大の尤度を示すとは限らない。不特定話者用Ｈ
ＭＭを用いたときに、特に正解のモデル系列が3-bestよ
りも下位に認識される場合には、仮適応化しても正解が
１位にならないことが多い。そこで、以下に示すよう
に、ステップＳ４においてＮ個のモデル系列から最大尤
度のモデル系列を１つだけ選択する代わりに、下位のモ
デル系列に関しても信頼度を考慮して適応化に寄与する
ようにしてもよい。

【００４４】即ち、この変形例では、ステップＳ４にお
いて、ステップＳ２で選択した最も尤度の高いＮ個のモ
デル系列Λ₁〜Λ_Nに対する信頼度C_n(n=1,…,N)を次式で
定義する。Ｃ_n＝ {f(X|Λ_n,θ_n)/ｆ_max}^r ここで、f_maxは仮適応化後にＮ個のモデル系列Λ_n がそ
れぞれ示す入力音声データＸに対する尤度のうち最大の
もの、f(X|Λ_n,θ_n)は仮適応化後に各モデル系列Λ_n が
示す尤度、ｒは実験的に設定する定数パラメータであ
る。この信頼度Ｃ_nを各系列に付いて計算し、音声ＨＭ
Ｍのモデルパラメータを次式に従って計算する。

【００４５】θ'＝Σ^N _n=1C_nθ_n/Σ^N _n=1C_n この様にして得られたパラメータθ' を使ってステップ
Ｓ５における適応化を行う。この方法を平滑化推定法と
呼ぶ。

【００４６】

【発明の効果】以上述べたように、この発明において
は、認識対象となる話者の音声を用いて、不特定話者用
音声モデルの複数のモデル系列を抽出し、モデル系列ご
とに、不特定話者用音声モデルを適応化している。その
ため、抽出したモデル系列中に正解が含まれていれば、
ステップＳ３で各モデル系列ごとに適応化されたモデル
系列と音声データＸとの尤度は正解のモデル系列に対す
るものが最大となる可能性が非常に高くなる。この発明
ではこの最大となるモデル系列にもとづく適応化音声モ
デルを採用するため、より正しい適応化が実現されてい
る。つまり、例えばステップＳ２において尤度が大きい
ものから順にモデル系列Λ₁，…，Λ_Nを抽出したとす
ると、正解のモデル系列の尤度が１番目より下位にあっ
た場合は、従来においては正解でないモデル系列を用い
て音声モデルの適応化がなされてしまう。しかしなが
ら、この発明では、ステップＳ３、Ｓ４により、正解の
モデル系列に基づく適応化音声モデルとの尤度が最大と
なる可能性が大となり、より正しい適応化が得られる。
従って前述したようにステップＳ２で抽出したＮ個のモ
デル系列に正解が含まれている確率が高いことが重要で
ある。この発明の効果を、４桁数字（単語系列）の認識
実験において調べた。この実験例を述べる。実験で使用
した音声ＨＭＭは、混合ガウス分布数４の連続型ＨＭＭ
である。音声ＨＭＭは４桁数字中の各数字ごとに１３種
類（/rei/，/maru/，/zero/，/ichi/，/ni/，/san/，/y
on/，/go/，/roku/，/nana/，/hachi/，/kyu/，/ku/）
を用意した。不特定話者用音声ＨＭＭの作成には、男17
7名による計24,194発声（孤立数字もしくは２桁数字も
しくは４桁数字）を用い、Baum-Welchアルゴリズムによ
ってＨＭＭパラメータの推定を行った。また話者適応化
及び認識に、不特定話者用音声ＨＭＭの作成で用いた話
者とは異なる男性１００名のそれぞれによる６発声（４
桁数字）を用いた場合の、４桁数字認識率により評価し
た。特徴パラメータとして、標本化周波数８ｋＨｚの音
声データを、フレーム周期８ｍｓ毎にフレーム長３２ｍ
ｓで分析次数１２のＬＰＣ分析を行ってケプストラム及
びΔケプストラムを抽出した。

【００４７】なお話者適応化では、第３実施例に従い音
声ＨＭＭの各混合ガウス分布の平均値ｍのバイアス成分
Δｍ（即ちη＝Δｍ）のみ推定し、バイアスΔｍの総数
をはじめは全モデルの全分布共通に１（強い結び状態）
とし、適応化処理を繰り返す毎に２、４、８、１６とし
て階層的に推定した（即ち、クラスタリングを階層的に
行った）。また、N-best仮説（ステップＳ２での抽出モ
デル系列）の数Ｎは１０とした。

【００４８】図７に、不特定話者用音声ＨＭＭを用いた
認識率（ベースライン）と、不特定話者用音声ＨＭＭを
用いて音声認識して得られたモデル系列に従って、不特
定話者用音声ＨＭＭを話者適応化する従来の適応化方法
により適応化された音声ＨＭＭを用いた認識率（従来
法）と、この発明の第３実施例の方法により適応化され
た音声ＨＭＭを用いた認識率（本方法）とを示す。この
結果から、この発明方法が従来法に比べて有効であるこ
とがわかる。

【図面の簡単な説明】

【図１】ＨＭＭを説明するための図であり、Ａは音韻の
３つの特徴的領域を示す特徴パラメータ系列、Ｂは各領
域における特徴パラメータの模式的混合ガウス分布、Ｃ
は領域間の状態遷移。

【図２】この発明による第１実施例の方法の手順を示す
流れ図。

【図３】この発明を実施する音声認識システムの機能ブ
ロック図。

【図４】ステップＳ２で得られた抽出モデル系列と、対
応尤度関数を示す図。

【図５】この発明による第２実施例の方法の手順を示す
流れ図。

【図６】この発明による第３実施例の方法の手順を示す
流れ図。

【図７】この発明の効果を示す実験結果を示す図。

Claims

【特許請求の範囲】

【請求項１】多数の話者の音声を用いて学習して、音
韻、単語などの認識カテゴリに対応した音声の特徴をモ
デルパラメータによりモデル化した基準モデル辞書を構
成する不特定話者用の音声モデルを、認識対象となる話
者の音声に適応化する音声モデルの話者適応化方法にお
いて： (a) 上記認識対象となる話者の入力音声の音声特徴パラ
メータ列を抽出する特徴量抽出過程と、 (b) 上記不特定話者用音声モデルから、上記入力音声の
上記特徴パラメータ列と対応すると推定される仮説のモ
デル系列を上記基準モデル辞書から複数抽出するモデル
系列抽出過程と、 (c) 上記抽出された複数の仮説モデル系列の各モデル系
列ごとに、上記入力音声の上記特徴パラメータ列に対す
る上記仮説のモデル系列の尤度が最大になるように、各
上記仮説のモデル系列のモデルパラメータを制御してそ
れぞれ仮適応化する仮適応化過程と、 (d) 上記仮適応化過程で仮適応化後のそれぞれの上記仮
説モデル系列の上記特徴パラメータ列に対する尤度に基
づいて、仮適応化後の少なくとも１つの上記仮説モデル
系列を適応化音声モデル系列として選出する適応化モデ
ル選出過程と、を含む音声モデルの話者適応化方法。
【請求項２】請求項１の音声モデルの話者適応化方法
において、上記適応化モデル選出過程(d) は、上記仮適
応化過程(c) で仮適応化された後の上記仮説モデル系列
のうち、上記特徴パラメータ列に対する尤度が最大の仮
説モデル系列を上記適応化音声モデル系列として選出す
る過程である。
【請求項３】請求項１又は２の音声モデルの話者適応
化方法は更に、上記適応化モデル選出過程(d) で選出さ
れた適応化音声モデル系列のモデルパラメータに基づい
て上記不特定話者用音声モデル系列を適応化するステッ
プと、上記仮適応化過程(c) を、上記抽出された複数の
仮説モデル系列の各系列ごとに、その系列の、上記抽出
した特徴パラメータ列に対する尤度が最大になるよう
に、適応化された上記不特定話者用音声モデルを使って
それぞれ前回よりも変換パラメータ間の結び状態を緩く
してこまかな適応化で行なうステップと、上記適応化モ
デル選出過程(d) において上記適応化モデル系列の選出
を再度行なうステップとを少なくとも一回繰返すことを
更に含む。
【請求項４】請求項１又は２の音声モデルの話者適応
化方法において、上記適応化モデル選択過程(d) で選択
された仮適応化モデル系列に対して上記基準モデル辞書
の音声モデルを適応化する基準モデル辞書適応化過程
と、その適応化された基準モデル辞書を使って上記モデ
ル系列抽出過程において上記入力音声に対する尤度が最
大となる仮説モデル系列を再度上記複数個抽出し、上記
仮適応化過程(c) を前回よりパラメータ間の結び状態を
緩くして細かく上記仮説モデル系列を仮適応化するステ
ップと、それらの仮適応化された仮説モデル系列の内、
最大尤度を示す再適応化モデル系列を選択する過程を更
に含む。
【請求項５】請求項２又は４の音声モデルの話者適応
化方法において、上記仮適応化過程(c) を、前回よりも
変換パラメータ間の結び状態を緩くしてこまかな適応化
で行うことを連続して所定回数回繰返すステップを更に
含む。
【請求項６】請求項１又は２の音声モデルの話者適応
化方法において、上記モデル系列抽出過程(b) は上記入
力音声の特徴パラメータ列との尤度が最も大きい所定複
数のモデル系列を得る過程である。
【請求項７】請求項１又は２の音声モデルの話者適応
化方法において、上記適応化モデル選出過程(d) は、上
記入力音声の特徴パラメータ列に対する上記仮適応化過
程で仮適応化された後の上記抽出されたモデル系列の尤
度に対応した重み付けによる、上記モデル系列に対応し
た適応化音声モデルの和として、上記音声モデルを選出
する過程である。
【請求項８】請求項１又は２の音声モデルの話者適応
化方法において、上記音声モデルは統計量パラメータで
規定された音声ＨＭＭである。
【請求項９】請求項８の音声モデルの話者適応化方法
において、上記適応化又は仮適応化は上記音声ＨＭＭを
規定するモデルパラメータの少なくとも１つであるガウ
ス分布の平均値を制御して尤度が最大となるように適応
化する過程である。
【請求項１０】請求項１又は２の音声モデルの話者適
応化方法に従い、上記適応化モデル選出過程で選出され
たモデル系列と対応する認識カテゴリを、上記認識対象
話者の上記入力音声に対する音声認識結果として出力す
る過程を含む音声認識方法。
【請求項１１】請求項２又は３の音声モデルの話者適
応化方法において、上記基準モデル辞書の全音声モデル
を上記適応化モデル選出過程で選出されたモデル系列に
対応する基準モデル辞書適応化ステップと、その適応化
された基準モデル辞書から、上記入力音声の特徴パラメ
ータ列に対する最も尤度の高い音声モデル列を抽出し、
認識結果として出力する再認識ステップとを含む音声認
識方法。
【請求項１２】請求項４の音声モデルの話者適応化方
法に従い、最後に適応化された上記基準モデル辞書の不
特定話者用音声モデルを使って上記入力音声の特徴パラ
メータ列に対し再認識処理を行い最大尤度を与えるモデ
ル系列を１つ抽出し、上記認識対象話者の上記入力音声
に対する認識結果として出力する過程を含む音声認識方
法。
【請求項１３】請求項１１又は１２の音声モデルの話
者適応化方法において、上記再認識処理は、特徴パラメ
ータの時系列に変換された上記入力音声データをViterb
iアルゴリズムによって、尤度関数が最大となるモデル
系列を求める処理である。
【請求項１４】請求項１０、１２又は１３の音声認識
方法の手順が記録された記録媒体。