JPH1097273A - 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 - Google Patents
音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体Info
- Publication number
- JPH1097273A JPH1097273A JP9093855A JP9385597A JPH1097273A JP H1097273 A JPH1097273 A JP H1097273A JP 9093855 A JP9093855 A JP 9093855A JP 9385597 A JP9385597 A JP 9385597A JP H1097273 A JPH1097273 A JP H1097273A
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech
- adaptation
- sequence
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
応化する。 【解決手段】 音声モデルの話者適応化方法であり、入
力音声をケプストラムのような特徴パラメータ列に変換
し、その特徴パラメータ列との尤度が最大となるN個の
モデル系列を不特定話者用音声HMMからN-best仮説抽
出法により抽出し、抽出されたそれら各モデル系列毎
に、その系列のHMMパラメータを変化させて入力音声
音特徴系列との尤度がそれぞれ最大となるように仮適応
化し、それら仮適応化されたモデル系列の中で最大尤度
の適応化モデル系列を選択し、認識対象話者の適応化H
MMとする。
Description
声を用いて、音韻、単語などの認識カテゴリに対応した
音声の特徴を例えば隠れマルコフモデル(Hidden Marko
v Model,以下HMMと記す)でモデル化した不特定話者
用音声モデルを、認識対象となる話者の音声を用いて、
その話者に対する認識率を高めるように適応化する音声
モデルの話者適応化方法及びその方法を用いた音声認識
方法及びその方法を記録した記録媒体に関する。
ータ列を予め作成した基準の音声(単語又は音韻)モデ
ル列と比較し、最も確からしい音声モデル系列を認識結
果として出力する。音声認識に使用されるこの様な基準
の音声モデルの集合である基準モデル辞書は、例えば以
下のようにして作成される。予め多数の話者の音声を例
えば線形予測分析して特徴パラメータ列を得る。その特
徴パラメータ列から単語又は音韻毎に基準の単語モデル
又は音韻モデル(以下これらを総称して音声モデルと呼
ぶ)を作成し、基準モデル辞書とする。
として、音声を例えば一定フレーム毎に得られるケプス
トラムのような特徴パラメータ列の統計量で表すHMM
を使用することが多いので、このHMMについて図1を
参照して簡単に説明する。例えば音韻HMMでは、各音
韻部分に対応した特徴パラメータ列は、一般にその開始
領域、中間領域、終了領域でだいたい特徴が分かれてい
るので、図1Aに示すようにそれら3つの領域を代表す
る3つの状態で規定することができる。ただし、音声現
象は連続的なので各領域の境界は明確ではないが、図1
Aでは説明を簡略化するために各領域の境界を明示して
いる。これらの領域を第1、第2、第3状態と呼び、S
1,S2,S3 で表すことにする。
に対応した特徴パラメータ列の分布を表し、実際には特
徴パラメータベクトルの次元におけるガウス分布の組合
せで表す。図1Bは特徴パラメータベクトルの次元が一
次元の場合に、各状態を4つのガウス分布の組合せで表
した例である。そのとき、状態Si はその4つのガウス
分布の平均値mi={mi1,mi2,mi3,mi4}、分散σi={σ
i1,σi2,σi3,σi4}、及び重み係数wi={wi1,wi2,
wi3,wi4}で規定される。このような複数のガウス分布の
組合せで表される分布を混合ガウス分布と呼んでいる。
S1,S2,S3 のそれぞれにおいて、同じ状態に遷移す
る確率a11,a22,a33と、次の状態に遷移する確率a12,a23
を例えば図1Cに示すように定義する。以上、全状態の
全混合ガウス分布の平均値、分散、重み係数、状態遷移
確率の統計的パラメータの組を、この音韻を表すHMM
のモデルパラメータと呼び、θで代表する。基準モデル
辞書には予め決めた全ての音韻(又は単語)についての
音声HMMのモデルパラメータが納められている。
れる特徴パラメータ列を、可能な音声HMM系列に当て
はめたときに、最もよく当てはまった音声HMM系列を
認識結果として出力する。なお、そのあてはまる度合い
をHMMの尤度と呼び、実際にはその特徴パラメータ列
を音声HMM系列に含まれる各状態に確率的に割り振っ
た場合の、混合ガウス分布から計算される確率と、状態
遷移確率との積として得られる。後述する不特定話者の
音声に音声モデルを適応化するには、その話者の音声に
対応する音声モデル系列での尤度が最大となるように各
音声HMMのモデルパラメータθ(例えば3つの状態の
それぞれにおける混合ガウス分布の平均値m1,m2,
m3)を変化させる。
た対話型自動発券装置は、不特定の利用者の発声する行
き先駅名の音声を認識して、該当する乗車券を発行する
ことが要求される。不特定話者の音声の認識率を高める
ためには、利用者が発声した音声を用いて、基準モデル
辞書をその利用者に適応化し、その適応化した基準モデ
ル辞書を使ってその利用者の音声を再認識することが考
えられる。
用いる音声データの発声内容が既知である場合(教師あ
り)と、未知である場合(教師なし)に分けて考えるこ
とができる。またこの技術は、認識システムがあらかじ
め適量の音声データを収集し、それを適応化に用いるオ
フライン型と、認識のたびにその発声を用いて教師なし
適応化を行うオンライン型とに分類することができる。
時型の話者適応化と呼ばれ、この即時型では、上述の駅
における自動発券装置の例のように、特に多くの利用者
が代わるがわるその認識システムを利用するような応用
(アプリケーション)において有効である。しかしこの
即時型の話者適応化は少量の音声データだけを用いて教
師なしで行う必要がある。
献「中川聖一:“確率モデルによる音声認識”、電子情
報通信学会、1988」のViterbi アルゴリズムのようなデ
コーディングアルゴリズムにもとづいて、不特定話者用
の基準モデル辞書(例えば基準の音韻HMMの集合)を
用いて入力音声を一度認識し、その入力音声の音韻HM
M系列を推定する。基準モデル辞書から推定した入力音
声の音韻HMM系列Λに従って音韻HMMを辞書から選
択して連結し、その連結された音韻HMM列の尤度が最
大になるように、基準モデル辞書の全ての音韻HMMの
モデルパラメータθを認識対象話者の音韻モデルパラメ
ータへ写像する関数(モデル変換関数)Gη(θ) の中の
変換パラメータηを、例えば事後確率最大化推定(maxim
um a posteriori:MAP、例えばJ.L.Gauvain and C.-H.Le
e, Maximum a posteriori estimation for multivariat
e Gaussian mixture observations of Markov chains,
IEEE Trans. Speech and Audio processing, Vol.2, N
o.2, pp291-298, 1994)に基づいて、次式に従って求め
る。
()は事前確率密度関数を表す。認識対象話者に適応化し
た音韻HMMのパラメータθ' は、このη'を用いて次
式
ば、それぞれの音韻モデルを表すパラメータθのうち、
分散σ、重み係数w及び状態遷移確率aは変化しないも
のと仮定し、平均値mのみを適応化する。その時、モデ
ル変換関数Gη()は次式
に適応した基準モデル辞書を使って入力音声Xを再認識
し、その認識結果を出力する。しかし、式(1),(2)を使
ったモデルパラメータθの写像では不特定話者用基準音
韻HMM辞書に対する性能が低い話者の入力音声Xに対
しては、音韻HMM系列Λが正しく推定できず、話者適
応化の効果が必ずしも得られなかった。
は、話者適応によって入力音声に対する音声モデル系列
の推定をより正確に行うことができる音声モデルの話者
適応化方法を提供することである。この発明の第2の目
的は、上記話者適応化方法を使った認識率の高い音声認
識方法を提供することである。
認識方法を記録した記録媒体を提供することである。
抽出過程で、認識対象となる話者の入力音声を分析して
特徴パラメータ列を抽出し、その抽出した特徴パラメー
タ列と不特定話者用音声モデルを用いて、モデル系列抽
出過程で、上記入力音声の特徴パラメータ列に対応する
と推定されるモデル系列の複数の仮説を抽出し、仮適応
化過程でその抽出した複数のモデル系列の各系列ごと
に、その系列に従って不特定話者用音声モデルを連結し
たモデルと上記入力音声の特徴パラメータ列との尤度が
最大になるように上記連結した不特定話者用音声モデル
を適応化し、適応化モデル選出過程で、上記各モデル系
列ごとに適応化後の音声モデルをそのモデル系列に従っ
て連結したモデルと上記入力音声の特徴パラメータ列と
の尤度を求め、それらの尤度に基づいてモデル系列に対
応した適応化音声モデルを選出してこれを適応化音声モ
デルとする。
用音声モデルを用いたときの尤度ではなく、話者適応化
後の音声モデルを用いたときの尤度に基づいて、適応化
音声モデルの選出を行っている。このことは、「正しい
モデル系列に対する不特定話者用音声モデルの尤度が低
い値であっても、その系列に対する話者適応化後の音声
モデルの尤度は高い値になる」という原理に基づいてい
る。この発明では、正しいモデル系列が高い確率で含ま
れるように複数のモデル系列を抽出し、これらの各モデ
ル系列に対してそれぞれ話者適応化を行い、各話者適応
化後の音声モデルを用いた時の認識対象音声に対する尤
度を比較し、最も高い値を示す音声モデルを選択するこ
とによって、より正しいモデル系列にもとづく適応化が
行われる。
が含まれるように複数のモデル系列を抽出するには例え
ば文献「C.-H.Lee他監修:“Automatic speech and spe
akerrecognition(第18章Multiple-pass search stra
tegies)”、Kluwer Academic Publishers, 1995」のMu
ltiple-pass search strategiesのN-bestパラダイム(pa
radigm)が利用できる。これにより、効果的にモデル系
列の探索空間を小さくできる。具体的には、認識対象と
なる話者の音声を用いて、不特定話者用音声モデルのパ
ラメータを、認識対象話者の音声に対する尤度が大きく
なるように適応化を進めながら、適応化に使う仮説(モ
デル系列)を、N−best仮説の中から選び直すこと
により、音声モデルを認識対象話者に適応化する。
対する適応化は、始めはパラメータ間の結び状態を強く
して大まかに行い、その大まかに適応化された音声モデ
ルと認識対象話者の音声とを用いて、複数のモデル系列
のそれぞれについて適応化を行い、その適応化された音
声モデルを用いた時の認識対象話者の音声に対する尤度
が最大のものを選択して、音声モデルを適応化する。そ
の時各モデル系列に対する適応化は前回よりもパラメー
タ間の結び状態を緩くして細かく行なう。適応化モデル
選出過程で選出した尤度が最大の1つのモデル系列のモ
デルパラメータで音声モデルを適応化する代わりに、N
個のモデル系列のモデルパラメータをそれらの尤度に対
応した重み付けで平均して得たモデルパラメータで音声
モデルを適応化してもよい。以上の手続きを少くとも1
回繰り返し行う。この繰り返しは、仮適応化過程と適応
化モデル選出過程のみでもよい。つまりモデル系列抽出
過程までもどらず、最初に抽出した複数のモデル系列を
再利用してもよい。
適応化モデル選出過程で選出された尤度が最大のモデル
系列を認識結果として出力する。或いは、適応化モデル
選出過程で選出されたモデル系列に対応した、適応化後
の音声モデルを使って入力音声を再認識し、最大尤度を
示すモデル系列を認識結果として出力する。この発明に
よる適応化アルゴリズムを使った認識方法を予め記録媒
体に記録しておき、その記録媒体を各種不特定話者音声
認識システムに用いることができる。
音声認識システム機能ブロック図を参照して説明する。
音声モデル蓄積部12には、多数の話者の音声を用いて
学習した単語などの認識カテゴリに対応した不特定話者
用音声モデル、例えば不特定話者用音声HMMが基準モ
デル辞書として予め蓄積されているものとする。また、
以下に説明するこの発明の話者適応化方法を使った音声
認識方法を実施する手順は制御部10内の記憶部10M
に予め記録されており、制御部10はその手順に従って
図3の音声認識システムの各部11〜16の処理をそれ
ぞれ制御する。
抽出部11で認識対象話者の音声データの特徴量を抽出
する。特徴量抽出は、入力された音声データを一定フレ
ーム毎にLPC分析し、例えばケプストラム又はΔケプ
ストラムなどの特徴パラメータベクトルの時系列を特徴
パラメータ列として得る。 ステップS2(モデル系列抽出過程):モデル系列選択
部13においてモデル蓄積部12から選択した音声モデ
ルを連結して、ステップS1で得られた特徴パラメータ
列に変換された音声データXに最も近いと推定される、
N個のモデル系列Λ1,Λ2,…ΛN を抽出する。このモ
デル系列の抽出は例えば文献「W.Chou他:“An algorit
hm of high resolution and efficient multiple strin
g hypothesization for continuous speech recognitio
n using inter-word models”、Proc.ICASSP、pp.II-15
3-156,1994」に述べられている手法による。
HMM系列Λから前記特徴パラメータ列Xに変換された
音声データXとの尤度f(X|Λ,θ)を尤度計算部14にお
いて計算し、尤度が最も高いものから順にN個(Nは2
以上の予め決めた整数)のモデル系列Λn(n=1,…,N) を
モデル系列選択部13から選択抽出する。この抽出され
たN個のモデル系列中に、認識対象音声を正しく表現し
たモデル系列(正解)が高い確率で含まれる程度にNの
数を選定する。例えば4桁の数字音声(単語列)の場合
はN=10とすれば、この10個のモデル系列に正しい
モデル系列が含まれる確率は97%程度となるから、N
を10に選ぶ。Nの数をこれより大にすれば正しいモデ
ル系列が含まれる確率はより高くなり、演算量、処理時
間を考慮しなければNは大きい方がよい。Nの数は認識
対象音声が複雑になれば、これに応じて大にする必要が
ある。この発明では抽出したN個のモデル系列に正解が
含まれている確率が高いことが重要である。
メータ列に変換された音声データXに対し、ステップS
2で抽出されたモデル系列Λn (n=1,…,N)毎に、適応化
部15において次式
Λn の尤度関数値f(X|Λn,ηn,θ) が最大となる変換パ
ラメータη'nを求め、その変換パラメータη'nを用いて
そのモデル系列Λn を構成する不特定話者用音声HMM
のモデルパラメータθを変換し、θ'n(=Gη'n(θ)) を
得る。その方法としては、例えばBaum-Welchアルゴリズ
ム(例えば文献「中川聖一:"確率モデルによる音声認
識"、電子情報通信学会、1988」)もしくはMAP推定
アルゴリズムを使うことができる。この変換パラメータ
η'nを用いて変換したモデルパラメータθ'nをもって、
N個の各モデル系列Λn(n=1,…,N) 毎にそのモデル系列
を構成する全音声HMMが認識対象話者にそれぞれ仮適
応化されたことになる。
は音声モデルλ11,λ12,…,λ1k1の系列よりなり、モデ
ル系列Λ2 は音声モデルλ21,λ22,…,λ2k2よりなり、
モデル系列ΛN は音声モデルλN1,λN2,…,λNkNからな
るものとする。式(4) により変換パラメータη1 を変化
させた時のモデル系列Λ1 と音声データXとの尤度関数
f(X|Λ1,η1,θ1)が最大となる変換パラメータη'1を求
め、このη'1を用いて不特定話者用音声HMMのモデル
パラメータθをθ1(=Gη1(θ))に変換する。なお、モ
デル系列Λn を構成する全ての音声モデル(HMM)λ
n1,λn2,…,λn knの全てのモデルパラメータθに共通に
変換パラメータηn を決定する場合、それぞれの音声モ
デルのパラメータθの変換は互いに拘束された状態であ
り、これをパラメータ間の結びの状態が強いという。
λ22,…,λ2k2の変換パラメータη2を変化させ、音声デ
ータXに対するモデル系列Λ2 の尤度関数f(X|Λ2,η2,
θ2)が最大となる変換パラメータη'2を求め、そのη'2
から仮適応化されたモデルパラメータθ2(=Gη2(θ))
を得る。以下同様に各モデル系列Λn について尤度関数
f(X|Λn,ηn,θn)が最大となる変換パラメータη'nを求
め、仮適応化されたモデルパラメータθn を得る。これ
によりN個の仮適応化された音声モデルパラメータθ1,
…,θN が得られる。
次に、ステップS3で仮適応化された各モデルパラメー
タθn 系列Λ'n毎に、入力音声データXに対する尤度、
つまり尤度関数f(X|Λn,θn)を求め、これら尤度関数f
(X|Λ1,θ1),…,f(X|ΛN,θ N)の中で最大となるモデ
ル系列Λi を正しいモデル系列として選択する。従っ
て、そのモデル系列Λi を構成する音声HMMは、話者
に適応化された音声HMMとなっている。
仮適応化を予め決めた回数連続して繰り返し実行しても
よい。その場合は、繰り返し毎に各モデル系列の変換パ
ラメータη'nによる仮適応化を前回の仮適応化より緩い
結び状態(後述)で細かく行う。即ち、各モデル系列Λ
n 毎にそれを構成する全音声モデルの全モデルパラメー
タθを例えば2つのグループに分類し(クラスタリング
し)、その2つのグループ(クラスタ)のモデルパラメ
ータに対しそれぞれ尤度が最大となるように変換パラメ
ータηa、ηbをそれぞれ独立に制御することにより、式
(2),(3) に従ってモデル系列Λn に対する仮適応化を行
う。実用的には例えば前述のように変換パラメータηと
してガウス分布の平均値mの変化量Δm(η=Δm)を
使う。その場合、各モデル系列Λn を構成する全モデル
に含まれる全分布の平均値を2つのグループにクラスタ
リングして、それら2つのクラスタ毎に共通に平均値の
変化量Δma、Δmbを決める。このようにしてN個のモ
デル系列に対しそれぞれ尤度を最大とするように仮適応
化が行われる。
S4で選択された最大尤度のモデル系列Λi をステップ
S5で認識結果として出力する。或いは、波線で示すよ
うに、最終的にステップS4で選択された適応化モデル
系列Λi に使用された変換パラメータη'iにより、ステ
ップS6で基準モデル辞書の全音声モデルを適応化し、
次にステップS7でその適応化された基準モデル辞書を
使って入力音声データXを再認識し、尤度が最大となる
モデル系列を1つ抽出し、ステップS5で抽出されたモ
デル系列を認識結果として出力する。その場合、再認識
処理としては、特徴パラメータ列に変換された入力音声
データXに対し、例えば Viterbiアルゴリズムによっ
て、尤度関数f(X|Λ,θ)が最大となるモデル系列を求め
て認識結果として出力する。 第2実施例 図5はこの発明によるモデル適応化方法の第2実施例の
処理手順を示す。第2の実施例では、初めてのステップ
S1〜S4の処理は第1実施例である図2のステップS
1〜S4と同様であり、ステップS1で入力音声をLP
C分析して特徴パラメータ列に変換し、ステップS2で
基準モデル辞書から入力音声特徴パラメータ列に対し最
も尤度の高いN個の音声モデル系列を選択し、ステップ
S3でN個の各モデル系列を尤度が最大となるよう適応
化し、ステップS4でN個の仮適応化モデル系列から尤
度最大のモデル系列を選択する。ステップS4の終了
後、更に以下の処理を実行する。
テップS4で選択したモデル系列Λ i に対し、ステップ
S3で最大尤度を与えた変換パラメータη'iを共通に使
って直前のステップS3での仮適応化前のN個のモデル
系列について適応化を行う。ステップS3に戻り、前回
ステップS5で適応化したN個のモデル系列Λ1,…,Λ
N それぞれについて入力音声データXに対し再び尤度が
最大となるようにそれぞれのモデル系列Λ1,…,ΛNに対
する仮適応化を行う。ただし、変換パラメータηn によ
る仮適応化は、前回の仮適応化より各モデル系列内で結
び状態をゆるめて行う。
び最大尤度を与えたモデル系列を正しいモデル系列とし
て選択する。上述の第2実施例において、ステップS
5,S3,S4を更に所望の回数繰り返し実行し、最後
の回のステップS4で最大尤度を与えたモデル系列を正
しいモデル系列として選択してもよい。
するには、ステップS4で最終的に選択したモデル系列
をステップS6で認識結果として認識結果出力部16か
ら出力する。或いは、波線で示すように、ステップS4
で選択されたモデル系列に対してその直前のステップS
3で与えたと同じ変換パラメータη'iを共通に使ってス
テップS7で基準モデル辞書の全音声モデルを適応化
し、次にステップS8でその適応化された基準モデル辞
書を使って入力音声データXを再認識し、尤度が最大と
なるモデル系列を1つ抽出し、それをステップS5で認
識結果として出力する。その場合、再認識処理として
は、特徴パラメータの時系列に変換された入力音声デー
タXを、例えば Viterbiアルゴリズムによって、尤度関
数f(X|θ) が最大となるモデル系列を求めて認識結果と
して出力する。また、図2の第1実施例の場合と同様
に、ステップS3の仮適応化を複数回繰り返してからス
テップS4の適応化モデル選出過程に移ってもよい。第
3実施例図6はこの発明によるモデル適応化方法の第3
実施例の処理手順を示す。上述の第2実施例では、ステ
ップS4で選択したモデル系列にその直前のステップS
3で与えた変換パラメータη'iと同じ変換パラメータ
η'iを使って、仮適応化前のN個のモデル系列をステッ
プS5で適応化する場合を示したが、第3実施例では、
ステップS5において基準モデル辞書の全モデルを適応
化し、ステップS3ではなく、ステップS2に戻り、ス
テップS5で適応化された辞書を使って入力音声データ
Xに対する尤度の最も高いN個のモデル系列の選択を再
び実行する。
仮適応化されたN個のモデル系列からステップS4で最
大の尤度を示したモデル系列を暫定的正しいモデル系列
として選択する。第3実施例ではステップS5で、その
選択したモデル系列にステップS3で与えた変換パラメ
ータη'iと同じ変換パラメータη'iを使って基準モデル
辞書の全モデルを適応化し、ステップS2に戻る。ステ
ップS2で適応化された基準モデル辞書を使って、入力
音声データXに対し最も尤度が高いN個のモデル系列を
再び選び直し、ステップS3、S4で前回と同様に仮適
応化及び適応化モデル選出を行う。
り返してもよい。その場合も、前述と同様に繰り返し処
理毎にモデルパラメータの階層的クラスタリングを行っ
てステップS3におけるモデル系列の仮適応化を行うの
が好ましい。その場合、ステップS5における基準モデ
ル辞書の適応化はステップS3におけるモデルパラメー
タのクラスタリングと同じクラスタリングを辞書内の全
モデルのパラメータに対して行ってモデルパラメータθ
をグループ分けし、ステップS3で決められたそれぞれ
のクラスタに対する変換パラメータ、例えばηia、ηib
をそれぞれのグループのモデルパラメータに対し独立に
与えることにより辞書を適応化する。
り返し処理は、各繰り返し毎にステップS3において前
回のステップS3における各モデル系列に対するモデル
パラメータのクラスタリングによる各クラスタのモデル
パラメータを更に例えば2つのグループにクラスタリン
グするように階層的にクラスタを増加して行う。従っ
て、3回目のモデル適応化では4つのクラスタのモデル
パラメータに対し、独立に変換パラメータηia、ηib、
ηic、ηidを与えて適応化を行う。それと同様にステッ
プS5における辞書の全モデルに対するモデルパラメー
タのクラスタリングでも処理ループの繰り返し毎にクラ
スタ数を階層的に増加させることによって、モデル間の
パラメータの結び状態をゆるめていく。最終回でのステ
ップS4で、その直前のステップS3で得られた仮適応
化後のそれぞれのモデル系列のうち、最も尤度の高いモ
デル系列を正しいモデル系列として選択する。また、図
6には線で示すように、ステップS3の仮適応化を、前
回よりも変換パラメータ間の結び状態を緩めて行うこと
を予め決めた回数連続して繰り返してもよい。
しにおけるステップS4で選択した最大尤度のモデル系
列を出力する。或いは、ステップS2〜S5の繰り返し
適応化処理を所定回数実行した後、ステップS5の基準
モデル辞書適応化過程で終了し、次に波線で示すよう
に、ステップS6でその適応化された基準モデル辞書を
使って入力音声データXを再認識し、尤度が最大となる
モデル系列を1つ抽出し、認識結果として出力してもよ
い。その場合、再認識処理としては、特徴パラメータの
時系列に変換された入力音声データXを、例えば Viter
biアルゴリズムによって、尤度関数f(X|θ) が最大とな
るモデル系列を求めて認識結果として出力する。また、
図2の第1実施例の場合と同様に、ステップS3の仮適
応化を複数回繰り返してからステップS4の適応化モデ
ル選択過程に移ってもよい。
プS3で尤度関数としてf(X|Λn,η n,θ)の代りに、こ
れと事前確率密度関数g(θ) との積f(X|Λn,ηn,θ)g
(θ)を用いてもよい。また上述において音声モデルとし
てはHMMに限らない。またステップS2でのモデル系
列の抽出は、N-bestパラダイムに従って行う場合に限ら
ず、要は正解のモデル系列が高い確率で含まれるように
抽出すればよい。
において、N-best法に従って選択されたN個のモデル系
列Λ1〜ΛNを仮適応化し、ステップS4でそれらのう
ち、最大尤度を示した1つのモデル系列を選択し、その
選択したモデル系列の変換パラメータにより他のモデル
を適応化したが、仮適応化により正解のモデル系列が必
ずしも最大の尤度を示すとは限らない。不特定話者用H
MMを用いたときに、特に正解のモデル系列が3-bestよ
りも下位に認識される場合には、仮適応化しても正解が
1位にならないことが多い。そこで、以下に示すよう
に、ステップS4においてN個のモデル系列から最大尤
度のモデル系列を1つだけ選択する代わりに、下位のモ
デル系列に関しても信頼度を考慮して適応化に寄与する
ようにしてもよい。
いて、ステップS2で選択した最も尤度の高いN個のモ
デル系列Λ1〜ΛNに対する信頼度Cn(n=1,…,N)を次式で
定義する。 Cn= {f(X|Λn,θn)/fmax}r ここで、fmaxは仮適応化後にN個のモデル系列Λn がそ
れぞれ示す入力音声データXに対する尤度のうち最大の
もの、f(X|Λn,θn)は仮適応化後に各モデル系列Λn が
示す尤度、rは実験的に設定する定数パラメータであ
る。この信頼度Cnを各系列に付いて計算し、音声HM
Mのモデルパラメータを次式に従って計算する。
S5における適応化を行う。この方法を平滑化推定法と
呼ぶ。
は、認識対象となる話者の音声を用いて、不特定話者用
音声モデルの複数のモデル系列を抽出し、モデル系列ご
とに、不特定話者用音声モデルを適応化している。その
ため、抽出したモデル系列中に正解が含まれていれば、
ステップS3で各モデル系列ごとに適応化されたモデル
系列と音声データXとの尤度は正解のモデル系列に対す
るものが最大となる可能性が非常に高くなる。この発明
ではこの最大となるモデル系列にもとづく適応化音声モ
デルを採用するため、より正しい適応化が実現されてい
る。つまり、例えばステップS2において尤度が大きい
ものから順にモデル系列Λ1 ,…,ΛN を抽出したとす
ると、正解のモデル系列の尤度が1番目より下位にあっ
た場合は、従来においては正解でないモデル系列を用い
て音声モデルの適応化がなされてしまう。しかしなが
ら、この発明では、ステップS3、S4により、正解の
モデル系列に基づく適応化音声モデルとの尤度が最大と
なる可能性が大となり、より正しい適応化が得られる。
従って前述したようにステップS2で抽出したN個のモ
デル系列に正解が含まれている確率が高いことが重要で
ある。この発明の効果を、4桁数字(単語系列)の認識
実験において調べた。この実験例を述べる。実験で使用
した音声HMMは、混合ガウス分布数4の連続型HMM
である。音声HMMは4桁数字中の各数字ごとに13種
類(/rei/,/maru/,/zero/,/ichi/,/ni/,/san/,/y
on/,/go/,/roku/,/nana/,/hachi/,/kyu/,/ku/)
を用意した。不特定話者用音声HMMの作成には、男17
7名による計24,194発声(孤立数字もしくは2桁数字も
しくは4桁数字)を用い、Baum-Welchアルゴリズムによ
ってHMMパラメータの推定を行った。また話者適応化
及び認識に、不特定話者用音声HMMの作成で用いた話
者とは異なる男性100名のそれぞれによる6発声(4
桁数字)を用いた場合の、4桁数字認識率により評価し
た。特徴パラメータとして、標本化周波数8kHzの音
声データを、フレーム周期8ms毎にフレーム長32m
sで分析次数12のLPC分析を行ってケプストラム及
びΔケプストラムを抽出した。
声HMMの各混合ガウス分布の平均値mのバイアス成分
Δm(即ちη=Δm)のみ推定し、バイアスΔmの総数
をはじめは全モデルの全分布共通に1(強い結び状態)
とし、適応化処理を繰り返す毎に2、4、8、16とし
て階層的に推定した(即ち、クラスタリングを階層的に
行った)。また、N-best仮説(ステップS2での抽出モ
デル系列)の数Nは10とした。
認識率(ベースライン)と、不特定話者用音声HMMを
用いて音声認識して得られたモデル系列に従って、不特
定話者用音声HMMを話者適応化する従来の適応化方法
により適応化された音声HMMを用いた認識率(従来
法)と、この発明の第3実施例の方法により適応化され
た音声HMMを用いた認識率(本方法)とを示す。この
結果から、この発明方法が従来法に比べて有効であるこ
とがわかる。
3つの特徴的領域を示す特徴パラメータ系列、Bは各領
域における特徴パラメータの模式的混合ガウス分布、C
は領域間の状態遷移。
流れ図。
ロック図。
応尤度関数を示す図。
流れ図。
流れ図。
Claims (14)
- 【請求項1】 多数の話者の音声を用いて学習して、音
韻、単語などの認識カテゴリに対応した音声の特徴をモ
デルパラメータによりモデル化した基準モデル辞書を構
成する不特定話者用の音声モデルを、認識対象となる話
者の音声に適応化する音声モデルの話者適応化方法にお
いて: (a) 上記認識対象となる話者の入力音声の音声特徴パラ
メータ列を抽出する特徴量抽出過程と、 (b) 上記不特定話者用音声モデルから、上記入力音声の
上記特徴パラメータ列と対応すると推定される仮説のモ
デル系列を上記基準モデル辞書から複数抽出するモデル
系列抽出過程と、 (c) 上記抽出された複数の仮説モデル系列の各モデル系
列ごとに、上記入力音声の上記特徴パラメータ列に対す
る上記仮説のモデル系列の尤度が最大になるように、各
上記仮説のモデル系列のモデルパラメータを制御してそ
れぞれ仮適応化する仮適応化過程と、 (d) 上記仮適応化過程で仮適応化後のそれぞれの上記仮
説モデル系列の上記特徴パラメータ列に対する尤度に基
づいて、仮適応化後の少なくとも1つの上記仮説モデル
系列を適応化音声モデル系列として選出する適応化モデ
ル選出過程と、を含む音声モデルの話者適応化方法。 - 【請求項2】 請求項1の音声モデルの話者適応化方法
において、上記適応化モデル選出過程(d) は、上記仮適
応化過程(c) で仮適応化された後の上記仮説モデル系列
のうち、上記特徴パラメータ列に対する尤度が最大の仮
説モデル系列を上記適応化音声モデル系列として選出す
る過程である。 - 【請求項3】 請求項1又は2の音声モデルの話者適応
化方法は更に、上記適応化モデル選出過程(d) で選出さ
れた適応化音声モデル系列のモデルパラメータに基づい
て上記不特定話者用音声モデル系列を適応化するステッ
プと、上記仮適応化過程(c) を、上記抽出された複数の
仮説モデル系列の各系列ごとに、その系列の、上記抽出
した特徴パラメータ列に対する尤度が最大になるよう
に、適応化された上記不特定話者用音声モデルを使って
それぞれ前回よりも変換パラメータ間の結び状態を緩く
してこまかな適応化で行なうステップと、上記適応化モ
デル選出過程(d) において上記適応化モデル系列の選出
を再度行なうステップとを少なくとも一回繰返すことを
更に含む。 - 【請求項4】 請求項1又は2の音声モデルの話者適応
化方法において、上記適応化モデル選択過程(d) で選択
された仮適応化モデル系列に対して上記基準モデル辞書
の音声モデルを適応化する基準モデル辞書適応化過程
と、その適応化された基準モデル辞書を使って上記モデ
ル系列抽出過程において上記入力音声に対する尤度が最
大となる仮説モデル系列を再度上記複数個抽出し、上記
仮適応化過程(c) を前回よりパラメータ間の結び状態を
緩くして細かく上記仮説モデル系列を仮適応化するステ
ップと、それらの仮適応化された仮説モデル系列の内、
最大尤度を示す再適応化モデル系列を選択する過程を更
に含む。 - 【請求項5】 請求項2又は4の音声モデルの話者適応
化方法において、上記仮適応化過程(c) を、前回よりも
変換パラメータ間の結び状態を緩くしてこまかな適応化
で行うことを連続して所定回数回繰返すステップを更に
含む。 - 【請求項6】 請求項1又は2の音声モデルの話者適応
化方法において、上記モデル系列抽出過程(b) は上記入
力音声の特徴パラメータ列との尤度が最も大きい所定複
数のモデル系列を得る過程である。 - 【請求項7】 請求項1又は2の音声モデルの話者適応
化方法において、上記適応化モデル選出過程(d) は、上
記入力音声の特徴パラメータ列に対する上記仮適応化過
程で仮適応化された後の上記抽出されたモデル系列の尤
度に対応した重み付けによる、上記モデル系列に対応し
た適応化音声モデルの和として、上記音声モデルを選出
する過程である。 - 【請求項8】 請求項1又は2の音声モデルの話者適応
化方法において、上記音声モデルは統計量パラメータで
規定された音声HMMである。 - 【請求項9】 請求項8の音声モデルの話者適応化方法
において、上記適応化又は仮適応化は上記音声HMMを
規定するモデルパラメータの少なくとも1つであるガウ
ス分布の平均値を制御して尤度が最大となるように適応
化する過程である。 - 【請求項10】 請求項1又は2の音声モデルの話者適
応化方法に従い、上記適応化モデル選出過程で選出され
たモデル系列と対応する認識カテゴリを、上記認識対象
話者の上記入力音声に対する音声認識結果として出力す
る過程を含む音声認識方法。 - 【請求項11】 請求項2又は3の音声モデルの話者適
応化方法において、上記基準モデル辞書の全音声モデル
を上記適応化モデル選出過程で選出されたモデル系列に
対応する基準モデル辞書適応化ステップと、その適応化
された基準モデル辞書から、上記入力音声の特徴パラメ
ータ列に対する最も尤度の高い音声モデル列を抽出し、
認識結果として出力する再認識ステップとを含む音声認
識方法。 - 【請求項12】 請求項4の音声モデルの話者適応化方
法に従い、最後に適応化された上記基準モデル辞書の不
特定話者用音声モデルを使って上記入力音声の特徴パラ
メータ列に対し再認識処理を行い最大尤度を与えるモデ
ル系列を1つ抽出し、上記認識対象話者の上記入力音声
に対する認識結果として出力する過程を含む音声認識方
法。 - 【請求項13】 請求項11又は12の音声モデルの話
者適応化方法において、上記再認識処理は、特徴パラメ
ータの時系列に変換された上記入力音声データをViterb
iアルゴリズムによって、尤度関数が最大となるモデル
系列を求める処理である。 - 【請求項14】 請求項10、12又は13の音声認識
方法の手順が記録された記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP09385597A JP3216565B2 (ja) | 1996-08-02 | 1997-04-11 | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20451996 | 1996-08-02 | ||
| JP8-204519 | 1996-08-02 | ||
| JP09385597A JP3216565B2 (ja) | 1996-08-02 | 1997-04-11 | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1097273A true JPH1097273A (ja) | 1998-04-14 |
| JP3216565B2 JP3216565B2 (ja) | 2001-10-09 |
Family
ID=26435135
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP09385597A Expired - Lifetime JP3216565B2 (ja) | 1996-08-02 | 1997-04-11 | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3216565B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
| JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
| JP2003526117A (ja) * | 1999-05-13 | 2003-09-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 大語彙自動音声認識装置の教師なし適応方法 |
| KR100574769B1 (ko) * | 1998-04-30 | 2006-04-28 | 마쯔시다덴기산교 가부시키가이샤 | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 |
| WO2017069554A1 (ko) * | 2015-10-21 | 2017-04-27 | 삼성전자 주식회사 | 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템 |
-
1997
- 1997-04-11 JP JP09385597A patent/JP3216565B2/ja not_active Expired - Lifetime
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100574769B1 (ko) * | 1998-04-30 | 2006-04-28 | 마쯔시다덴기산교 가부시키가이샤 | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 |
| JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
| JP2003526117A (ja) * | 1999-05-13 | 2003-09-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 大語彙自動音声認識装置の教師なし適応方法 |
| JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
| WO2017069554A1 (ko) * | 2015-10-21 | 2017-04-27 | 삼성전자 주식회사 | 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3216565B2 (ja) | 2001-10-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
| US5835890A (en) | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon | |
| EP0771461B1 (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying | |
| EP0691640B1 (en) | Adaptive training method for pattern recognition | |
| EP0966736B1 (en) | Method for discriminative training of speech recognition models | |
| JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
| US6076053A (en) | Methods and apparatus for discriminative training and adaptation of pronunciation networks | |
| EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
| US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
| WO1996022514A9 (en) | Method and apparatus for speech recognition adapted to an individual speaker | |
| EP0786761A2 (en) | Method of speech recognition using decoded state sequences having constrained state likelihoods | |
| Ney et al. | The RWTH large vocabulary continuous speech recognition system | |
| KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
| JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
| CN102237082B (zh) | 语音识别系统的自适应方法 | |
| JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
| JP3589044B2 (ja) | 話者適応化装置 | |
| JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
| JP2005091504A (ja) | 音声認識装置 | |
| JP2731133B2 (ja) | 連続音声認識装置 | |
| EP1008983B1 (en) | Maximum likelihood linear regression (MLLR) speaker adaptation using dynamic weighting | |
| Gopalakrishnan | Current Methods in Continuous Speech Recognition | |
| JP3105708B2 (ja) | 音声認識装置 | |
| CA2195445C (en) | Method and apparatus for speech recognition using optimised partial probability mixture tying |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080803 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080803 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090803 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090803 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110803 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120803 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130803 Year of fee payment: 12 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |