JPH0990975A - パターン認識のためのモデル学習方法 - Google Patents
パターン認識のためのモデル学習方法Info
- Publication number
- JPH0990975A JPH0990975A JP7244275A JP24427595A JPH0990975A JP H0990975 A JPH0990975 A JP H0990975A JP 7244275 A JP7244275 A JP 7244275A JP 24427595 A JP24427595 A JP 24427595A JP H0990975 A JPH0990975 A JP H0990975A
- Authority
- JP
- Japan
- Prior art keywords
- model
- learning
- data
- learned
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 認識性能を高くする。
【解決手段】 少量の学習データ22の特徴パラメータ
が分析処理25により求められ、この学習データを用い
て、対応する不特定話者初期モデル21の平均ベクトル
を、最大事後確率推定法26により学習し、その学習し
ないモデルの平均ベクトルを、移動ベクトル場平滑化法
27により先に学習したモデルとその初期モデルの平均
ベクトルを用いた補間処理により学習する。その両学習
により得られたモデルを初期モデル23として、学習デ
ータ22を用いて、識別誤り最小化学習法28により学
習する。
が分析処理25により求められ、この学習データを用い
て、対応する不特定話者初期モデル21の平均ベクトル
を、最大事後確率推定法26により学習し、その学習し
ないモデルの平均ベクトルを、移動ベクトル場平滑化法
27により先に学習したモデルとその初期モデルの平均
ベクトルを用いた補間処理により学習する。その両学習
により得られたモデルを初期モデル23として、学習デ
ータ22を用いて、識別誤り最小化学習法28により学
習する。
Description
【0001】
【発明の属する技術分野】この発明は音声、文字、図形
などのパターン認識に適用され、予め用意された標準的
なモデルを初期モデルとし、少量の学習データを使って
学習により標準的なモデルを修正して可能な限り高性能
なモデルを学習する方法に関し、例えば音声認識では話
者の音声が認識し易いように音響モデルを調整して色々
な話者の個人的特徴に対処する適応化問題などへの応用
を可能とするパターン認識のためのモデル学習方法に関
する。
などのパターン認識に適用され、予め用意された標準的
なモデルを初期モデルとし、少量の学習データを使って
学習により標準的なモデルを修正して可能な限り高性能
なモデルを学習する方法に関し、例えば音声認識では話
者の音声が認識し易いように音響モデルを調整して色々
な話者の個人的特徴に対処する適応化問題などへの応用
を可能とするパターン認識のためのモデル学習方法に関
する。
【0002】
【従来の技術】認識対象の特徴データ系列を確率・統計
理論に基づいてモデル化する、隠れマルコフモデル法
(Hidden Markov Model,以後HM
M法と呼ぶ)は、音声、文字、図形等のパターン認識に
おいて有用な技術である。特に音声認識の分野では、こ
の方法が今や主流である。このHMM法の詳細は、例え
ば、社団法人電子情報通信学会編、中川聖一著『確率モ
デルによる音声認識』に開示されている。HMM法に関
する技術は、音声認識技術により発展してきたといって
も過言ではない程、色々なHMMを用いた技術が研究・
開発されており、音声認識技術の分野における隠れマル
コフモデルに関する技術は、ほぼ、従来の隠れマルコフ
モデルを用いたパターン認識技術を包含していると言え
る。そこで、以下、隠れマルコフモデルを用いた音声認
識を例に、従来技術について説明する。
理論に基づいてモデル化する、隠れマルコフモデル法
(Hidden Markov Model,以後HM
M法と呼ぶ)は、音声、文字、図形等のパターン認識に
おいて有用な技術である。特に音声認識の分野では、こ
の方法が今や主流である。このHMM法の詳細は、例え
ば、社団法人電子情報通信学会編、中川聖一著『確率モ
デルによる音声認識』に開示されている。HMM法に関
する技術は、音声認識技術により発展してきたといって
も過言ではない程、色々なHMMを用いた技術が研究・
開発されており、音声認識技術の分野における隠れマル
コフモデルに関する技術は、ほぼ、従来の隠れマルコフ
モデルを用いたパターン認識技術を包含していると言え
る。そこで、以下、隠れマルコフモデルを用いた音声認
識を例に、従来技術について説明する。
【0003】HMM法による音声認識処理手順を図4A
を参照して説明する。HMM法の処理には、大別して、
2つのフェーズがある、1つは“学習”であり、もう1
つは“探索”である。“学習”のフェーズでは、図4A
中のスイッチ10,11は、それぞれ、A側を選択し、
音声データベース12と学習処理部13とを分析処理部
14に接続し、色々な音声の構成単位(音韻/音素/音
節)や単語/文章などに対する音声信号が蓄積された音
声データベース12のデータを用いて、各音韻/音素/
音節/単語などの音響的な性質を表現するモデルをHM
M法の学習アルゴリズムに基づいて求める。このモデル
を求める過程において用いられるデータベース12中の
信号は、分析処理部14によって音声信号から音声信号
の特徴を表現する特徴パラメータのベクトルデータ時系
列に変換され、音響モデルの学習はこのベクトルデータ
時系列が用いられる。この一連の処理は、音声データベ
ース12から分析処理部14への音声信号データを入力
し、分析処理部14の分析処理出力結果、すなわち音声
信号データの特徴パラメータのベクトルデータ時系列を
学習処理部13へ入力する処理過程で表される。図4A
において、学習によって最終的に得られるすべてのモデ
ルを蓄積するHMMセット15から学習処理への矢印
は、学習すべきHMMのモデル構造(状態数、状態間の
遷移形式など)とモデルパラメータ(状態遷移確率、シ
ンボル出力確率、初期状態確率)の初期値を学習処理の
実行時に設定することを示している。分析処理部14に
おける信号処理として、よく用いられるのは、線形予測
分析(Linear Predictive Codi
ng,LPCと呼ばれる)であり、特徴パラメータとし
ては、LPCケプストラム、LPCデルタケプストラ
ム、メルケプストラム、対数パワーなどがある。このよ
うな学習処理によって求められた各音韻/音素/音節な
どのモデルはHMMセット15の要素として蓄積され、
このHMMセット15が音声データベースで現れるすべ
ての音響現象を表現する。なお、学習のアルゴリズムと
しては、最尤推定法に基づくBaum−Welch再推
定法がよく用いられる。
を参照して説明する。HMM法の処理には、大別して、
2つのフェーズがある、1つは“学習”であり、もう1
つは“探索”である。“学習”のフェーズでは、図4A
中のスイッチ10,11は、それぞれ、A側を選択し、
音声データベース12と学習処理部13とを分析処理部
14に接続し、色々な音声の構成単位(音韻/音素/音
節)や単語/文章などに対する音声信号が蓄積された音
声データベース12のデータを用いて、各音韻/音素/
音節/単語などの音響的な性質を表現するモデルをHM
M法の学習アルゴリズムに基づいて求める。このモデル
を求める過程において用いられるデータベース12中の
信号は、分析処理部14によって音声信号から音声信号
の特徴を表現する特徴パラメータのベクトルデータ時系
列に変換され、音響モデルの学習はこのベクトルデータ
時系列が用いられる。この一連の処理は、音声データベ
ース12から分析処理部14への音声信号データを入力
し、分析処理部14の分析処理出力結果、すなわち音声
信号データの特徴パラメータのベクトルデータ時系列を
学習処理部13へ入力する処理過程で表される。図4A
において、学習によって最終的に得られるすべてのモデ
ルを蓄積するHMMセット15から学習処理への矢印
は、学習すべきHMMのモデル構造(状態数、状態間の
遷移形式など)とモデルパラメータ(状態遷移確率、シ
ンボル出力確率、初期状態確率)の初期値を学習処理の
実行時に設定することを示している。分析処理部14に
おける信号処理として、よく用いられるのは、線形予測
分析(Linear Predictive Codi
ng,LPCと呼ばれる)であり、特徴パラメータとし
ては、LPCケプストラム、LPCデルタケプストラ
ム、メルケプストラム、対数パワーなどがある。このよ
うな学習処理によって求められた各音韻/音素/音節な
どのモデルはHMMセット15の要素として蓄積され、
このHMMセット15が音声データベースで現れるすべ
ての音響現象を表現する。なお、学習のアルゴリズムと
しては、最尤推定法に基づくBaum−Welch再推
定法がよく用いられる。
【0004】“探索”のフェーズでは、図4A中のスイ
ッチ10,11は、それぞれ、B側を選択して分析処理
部14に未知音声入力部16と探索処理部17とを接続
する。入力される未知の音声信号は、分析処理部14に
よって特徴パラメータのベクトルデータ時系列に変換さ
れ、探索処理部17でその特徴パラメータデータの時系
列がHMMセット15のどのモデルに最も類似している
かを、尤度と呼ばれる一種のスコアとして求め、各モデ
ルに対して求められる尤度の大小比較から、最も大きい
尤度を与えるモデルを選び出してそのモデルが表す音素
/音韻/音節/単位などの名称を認識結果とする。この
尤度を求めるHMM法の探索アルゴリズムとしては、前
向き−後向きアルゴリズムに基づくトレリス(trel
lis)計算やビタビ(Viterbi)アルゴリズム
がよく用いられる。単語認識を行なう場合、モデルが音
素/音韻/音節で表されている場合は、認識対象となる
単語に対するモデルを、その表記(例えば音素列)に従
って、上記のモデルの連結によって作成し、尤度はこの
ようにして得られた各単語のモデルに対して求められ
る。そして、各単語モデルの尤度の大小比較を行ない、
最も大きい尤度を与える単語をその認識結果とする。
ッチ10,11は、それぞれ、B側を選択して分析処理
部14に未知音声入力部16と探索処理部17とを接続
する。入力される未知の音声信号は、分析処理部14に
よって特徴パラメータのベクトルデータ時系列に変換さ
れ、探索処理部17でその特徴パラメータデータの時系
列がHMMセット15のどのモデルに最も類似している
かを、尤度と呼ばれる一種のスコアとして求め、各モデ
ルに対して求められる尤度の大小比較から、最も大きい
尤度を与えるモデルを選び出してそのモデルが表す音素
/音韻/音節/単位などの名称を認識結果とする。この
尤度を求めるHMM法の探索アルゴリズムとしては、前
向き−後向きアルゴリズムに基づくトレリス(trel
lis)計算やビタビ(Viterbi)アルゴリズム
がよく用いられる。単語認識を行なう場合、モデルが音
素/音韻/音節で表されている場合は、認識対象となる
単語に対するモデルを、その表記(例えば音素列)に従
って、上記のモデルの連結によって作成し、尤度はこの
ようにして得られた各単語のモデルに対して求められ
る。そして、各単語モデルの尤度の大小比較を行ない、
最も大きい尤度を与える単語をその認識結果とする。
【0005】従って、HMM法を用いた音声認識では、
認識対象とする音声信号に対する情報として、モデルの
学習用の音声データを収集する必要がある。これまでに
も、色々な音声データベースが存在するが、そのほとん
どが高品質音声のデータベースである。上記のHMM法
を基本とし、これに様々な技術的工夫が加えられ、これ
までに高性能な音響モデルが得られるようになってき
た。主たる技術的な工夫としては、HMMのモデル構造
に関するもの、音響モデルの学習法に関するものがあ
る。前者については、これまでの様々な研究・開発の結
果から、音素環境依存型のモデル化がよいとされてい
る。この技術は、同じ音素であっても、その前後に位置
する音素によってその音響現象が異なることに着目して
モデル化することを特徴とする。ここで、音素環境と
は、前後に位置する音素からの音響的な影響を意味す
る。例えば、『秋(あき)』、『駅(えき)』という音
声に対する音素表記を「a−k−i」、「e−k−i」
とする。ここで“−”は音素の区切りを表す記号とす
る。この例では、音素“k”は、『秋』の場合は音素
“a”と“i”に、『駅』の場合には音素“e”と
“i”と異なった前後の音素に挟まれているので、音素
の表記は“k”として同じであってもそれぞれに対応す
る音響モデルを作成する。他方、音響モデルの学習法に
関しては、前述した最尤推定法(MaximumLikelihood Es
timation )に基づいており、前者のHMMのモデル構
造の工夫に最尤推定法のBaum−Welch の学習アルゴリズ
ムを適用したものがほとんどである。
認識対象とする音声信号に対する情報として、モデルの
学習用の音声データを収集する必要がある。これまでに
も、色々な音声データベースが存在するが、そのほとん
どが高品質音声のデータベースである。上記のHMM法
を基本とし、これに様々な技術的工夫が加えられ、これ
までに高性能な音響モデルが得られるようになってき
た。主たる技術的な工夫としては、HMMのモデル構造
に関するもの、音響モデルの学習法に関するものがあ
る。前者については、これまでの様々な研究・開発の結
果から、音素環境依存型のモデル化がよいとされてい
る。この技術は、同じ音素であっても、その前後に位置
する音素によってその音響現象が異なることに着目して
モデル化することを特徴とする。ここで、音素環境と
は、前後に位置する音素からの音響的な影響を意味す
る。例えば、『秋(あき)』、『駅(えき)』という音
声に対する音素表記を「a−k−i」、「e−k−i」
とする。ここで“−”は音素の区切りを表す記号とす
る。この例では、音素“k”は、『秋』の場合は音素
“a”と“i”に、『駅』の場合には音素“e”と
“i”と異なった前後の音素に挟まれているので、音素
の表記は“k”として同じであってもそれぞれに対応す
る音響モデルを作成する。他方、音響モデルの学習法に
関しては、前述した最尤推定法(MaximumLikelihood Es
timation )に基づいており、前者のHMMのモデル構
造の工夫に最尤推定法のBaum−Welch の学習アルゴリズ
ムを適用したものがほとんどである。
【0006】しかし、近年、最尤推定法に基づいて学習
した音響モデルよりもさらに高性能な音響モデルを作成
することを狙いとして、識別誤り最小化(Minimum Clas
sification Error)に基づく音響モデルの学習法が研究
されている。この学習法の原理は、例えば、B.-H.Juan
g and S.Katagiri, “Discriminative Learning forMin
imum Error Classification, ”IEEE Transaction on S
ignal Processing, Vol. 40, No.2, pp. 3043-3054, 19
92 やW. Chou, B.-H. Juang and C.-H. Lee,“Segmenta
l GPD Training of HMM Based Speech Recognizer,”Pr
oceeding ofInternatinal Conference on Acoustics, S
peech&Signal Processing, pp. 473-476, 1992に開示
されている。学習における最適化規準はこれまでの最尤
推定法とは異なる。最尤推定法に基づく学習ではモデル
化の対象カテゴリ毎にそのカテゴリに属するサンプルデ
ータを用いて尤度最大化の規準でそのモデルを学習する
のに対して、識別誤り最小化学習法では、サンプルデー
タに対する認識誤りの個数を最小化する規準でモデルを
学習する。
した音響モデルよりもさらに高性能な音響モデルを作成
することを狙いとして、識別誤り最小化(Minimum Clas
sification Error)に基づく音響モデルの学習法が研究
されている。この学習法の原理は、例えば、B.-H.Juan
g and S.Katagiri, “Discriminative Learning forMin
imum Error Classification, ”IEEE Transaction on S
ignal Processing, Vol. 40, No.2, pp. 3043-3054, 19
92 やW. Chou, B.-H. Juang and C.-H. Lee,“Segmenta
l GPD Training of HMM Based Speech Recognizer,”Pr
oceeding ofInternatinal Conference on Acoustics, S
peech&Signal Processing, pp. 473-476, 1992に開示
されている。学習における最適化規準はこれまでの最尤
推定法とは異なる。最尤推定法に基づく学習ではモデル
化の対象カテゴリ毎にそのカテゴリに属するサンプルデ
ータを用いて尤度最大化の規準でそのモデルを学習する
のに対して、識別誤り最小化学習法では、サンプルデー
タに対する認識誤りの個数を最小化する規準でモデルを
学習する。
【0007】音素「a」の音響モデルを学習する場合を
例に、上記2種類の学習法の違いを説明する。最尤推定
法では、音素「a」に相当する複数の音声データだけを
用いて、音素「a」の音響モデルに対するこれらの音声
データの尤度(類似の度合いを表す一つの尺度)が最大
になるようにこのモデルのモデルパラメータを求める。
音素「a」以外の音素に相当する音声データは全く使用
しない。すなわち、そのカテゴリ内でモデル化する、一
種のクラス内学習である。一方、識別誤り最小化学習法
では、音素「a」に相当する複数の音声データが、音素
「a」の音響モデルによって可能な限り音素「a」であ
ると認識されるように、音素「a」の音響モデルばかり
でなく他の音響モデルのモデルパラメータをも求める。
この場合、他の音響モデルは、それらの音響モデルに対
する音素「a」に相当する複数の音声データの尤度が、
音素「a」の音響モデルに対する尤度よりも小さくなる
ように調整され、その結果として認識誤りが減少する。
対象とするカテゴリをモデル化するばかりでなく、他の
カテゴリのモデル化にも寄与するような学習であること
から、一種のクラス間学習であると言える。この識別誤
り最小化学習法は、大量の学習データを用いた音響モデ
ルの学習に効果があり、最尤推定法の場合に比べてより
認識性能の高い音響モデルが学習できることが、先に列
挙した論文にも報告されている。
例に、上記2種類の学習法の違いを説明する。最尤推定
法では、音素「a」に相当する複数の音声データだけを
用いて、音素「a」の音響モデルに対するこれらの音声
データの尤度(類似の度合いを表す一つの尺度)が最大
になるようにこのモデルのモデルパラメータを求める。
音素「a」以外の音素に相当する音声データは全く使用
しない。すなわち、そのカテゴリ内でモデル化する、一
種のクラス内学習である。一方、識別誤り最小化学習法
では、音素「a」に相当する複数の音声データが、音素
「a」の音響モデルによって可能な限り音素「a」であ
ると認識されるように、音素「a」の音響モデルばかり
でなく他の音響モデルのモデルパラメータをも求める。
この場合、他の音響モデルは、それらの音響モデルに対
する音素「a」に相当する複数の音声データの尤度が、
音素「a」の音響モデルに対する尤度よりも小さくなる
ように調整され、その結果として認識誤りが減少する。
対象とするカテゴリをモデル化するばかりでなく、他の
カテゴリのモデル化にも寄与するような学習であること
から、一種のクラス間学習であると言える。この識別誤
り最小化学習法は、大量の学習データを用いた音響モデ
ルの学習に効果があり、最尤推定法の場合に比べてより
認識性能の高い音響モデルが学習できることが、先に列
挙した論文にも報告されている。
【0008】しかし、数十単語程度の少量の学習データ
を用いた音響モデルの学習に対する効果の有無は、ほと
んど報告されていない。唯一、話者適応化への適用に関
する最近の研究報告として、松井、古井、“識別誤り最
小化による話者適応化法の検討”、日本音響学会平成7
年度春季研究発表会講演論文集、3−5−10、pp.9
5−96があるが、この中で、少量の学習データの場合
は、音響モデルの認識性能の改善に対する効果は小さい
と報告されている。従って、少量の学習データの場合に
は、識別誤り最小化学習法だけでは、より高性能な音響
モデルを学習することができないという問題がある。識
別誤り最小化学習法の機能を生かした学習法により、こ
れまでの少量学習データ向きの学習法により得られる音
響モデルの認識性能を越えるような音響モデルが学習で
きるようになれば、音声認識システムの認識性能が向
上、すなわち、認識誤りが減り、より快適な音声認識の
応用サービスが可能となる。
を用いた音響モデルの学習に対する効果の有無は、ほと
んど報告されていない。唯一、話者適応化への適用に関
する最近の研究報告として、松井、古井、“識別誤り最
小化による話者適応化法の検討”、日本音響学会平成7
年度春季研究発表会講演論文集、3−5−10、pp.9
5−96があるが、この中で、少量の学習データの場合
は、音響モデルの認識性能の改善に対する効果は小さい
と報告されている。従って、少量の学習データの場合に
は、識別誤り最小化学習法だけでは、より高性能な音響
モデルを学習することができないという問題がある。識
別誤り最小化学習法の機能を生かした学習法により、こ
れまでの少量学習データ向きの学習法により得られる音
響モデルの認識性能を越えるような音響モデルが学習で
きるようになれば、音声認識システムの認識性能が向
上、すなわち、認識誤りが減り、より快適な音声認識の
応用サービスが可能となる。
【0009】
【発明が解決しようとする課題】この発明は、パターン
認識を用いた実際的なシステムやサービスにおいて、シ
ステムの機能またはサービスの利便性を高めるためのパ
ターン認識の高性能化を実現するために、少量の学習デ
ータを用いて、より高性能なモデルを作成する学習法を
提供することを目的とする。
認識を用いた実際的なシステムやサービスにおいて、シ
ステムの機能またはサービスの利便性を高めるためのパ
ターン認識の高性能化を実現するために、少量の学習デ
ータを用いて、より高性能なモデルを作成する学習法を
提供することを目的とする。
【0010】
【課題を解決するための手段】この発明によればあらか
じめ用意された初期モデルを、少量の学習データを使っ
て最大事後確率推定法と移動ベクトル場平滑化法とを組
み合わせた学習法により学習し、次にこの学習したモデ
ルを前記少量の学習データを用いて識別誤り最小化学習
法により学習する。
じめ用意された初期モデルを、少量の学習データを使っ
て最大事後確率推定法と移動ベクトル場平滑化法とを組
み合わせた学習法により学習し、次にこの学習したモデ
ルを前記少量の学習データを用いて識別誤り最小化学習
法により学習する。
【0011】
【発明の実施の形態】この発明の方法を図1に示す。こ
の発明の方法は大別して3つの処理からなる。1つは、
モデルの学習に用いるデータからその特徴パラメータを
抽出する処理である。図1においては、少量の学習デー
タ22から分析処理25にデータが送られ、その結果得
られる特徴パラメータデータが各学習処理に入力される
過程がこれに相当する。残りの2つの処理は、いずれ
も、モデルの学習処理である。破線で囲まれた処理29
は、最大事後確率推定法(Maximum A Pos
teriori estimation:MAP)26
と移動ベクトル場平滑化法(Vector Field
Smoothing:VFS)27の組み合わせから
なるMAP/VFSと呼ばれる学習法である。このMA
P/VFS法は、特願平6−156238や特願平6−
226505に開示されている。破線内の処理29は特
願平6−156238に開示された方法である。ここで
は、破線内の処理29を特願平6−156238に開示
されたMAP/VFS法の組み合わせ例としているが、
特願平6−226505に開示された方法を用いてもよ
い。もう一つの学習処理は、識別誤り最小化学習法28
である。
の発明の方法は大別して3つの処理からなる。1つは、
モデルの学習に用いるデータからその特徴パラメータを
抽出する処理である。図1においては、少量の学習デー
タ22から分析処理25にデータが送られ、その結果得
られる特徴パラメータデータが各学習処理に入力される
過程がこれに相当する。残りの2つの処理は、いずれ
も、モデルの学習処理である。破線で囲まれた処理29
は、最大事後確率推定法(Maximum A Pos
teriori estimation:MAP)26
と移動ベクトル場平滑化法(Vector Field
Smoothing:VFS)27の組み合わせから
なるMAP/VFSと呼ばれる学習法である。このMA
P/VFS法は、特願平6−156238や特願平6−
226505に開示されている。破線内の処理29は特
願平6−156238に開示された方法である。ここで
は、破線内の処理29を特願平6−156238に開示
されたMAP/VFS法の組み合わせ例としているが、
特願平6−226505に開示された方法を用いてもよ
い。もう一つの学習処理は、識別誤り最小化学習法28
である。
【0012】この発明の方法では、学習データ22の特
徴パラメータデータを用いて、まず、初期モデル21を
MAP/VFS法29により学習して第1学習モデル2
3を得る。その後、得られた第1学習モデル23を初期
モデルと見なして、これを識別誤り最小化学習法28に
より学習し、第2学習モデル24を得る。この過程で
は、MAP/VFS法29で用いたのと同一の学習デー
タ22を用いる。得られた第2学習モデル24が、求め
る高性能なモデルである。
徴パラメータデータを用いて、まず、初期モデル21を
MAP/VFS法29により学習して第1学習モデル2
3を得る。その後、得られた第1学習モデル23を初期
モデルと見なして、これを識別誤り最小化学習法28に
より学習し、第2学習モデル24を得る。この過程で
は、MAP/VFS法29で用いたのと同一の学習デー
タ22を用いる。得られた第2学習モデル24が、求め
る高性能なモデルである。
【0013】上記より、この発明の方法は、ある少量の
学習データを用いてMAP/VFS法により学習したモ
デルを、全く同一の学習データを用いて、MAP/VF
S法とは最適化規準が異なる学習法である識別誤り最小
化学習法により、さらに学習して、より高性能なモデル
が作成できる。以下では、MAP/VFS法、識別誤り
最小化学習法の原理を数学的な表現を交えて説明し、こ
の発明の方法により、HMMのモデルパラメータの具体
的な学習の手続きを明らかにする。
学習データを用いてMAP/VFS法により学習したモ
デルを、全く同一の学習データを用いて、MAP/VF
S法とは最適化規準が異なる学習法である識別誤り最小
化学習法により、さらに学習して、より高性能なモデル
が作成できる。以下では、MAP/VFS法、識別誤り
最小化学習法の原理を数学的な表現を交えて説明し、こ
の発明の方法により、HMMのモデルパラメータの具体
的な学習の手続きを明らかにする。
【0014】この発明の方法を、話者適応化の問題に適
用する例について説明する。一般に、音声認識システム
では、不特定多数のユーザを想定して、その音響モデル
として不特定話者モデルが用いられる。このモデルは、
性別、年齢など色々な話者の音声からなる大量の音声デ
ータを用いて学習され、その認識性能はおよそ不特定多
数の話者に対して許容できる範囲にあることが多い。し
かし、大量の学習データといっても有限の量である以
上、これに含まれないような話者の個人性を有する音声
が存在する可能性がある。このような音声に対しては、
不特定話者モデルといえども、その音声認識性能は低下
する。このような問題に対処するために必要となるのが
話者適応化技術であり、その話者の音声が認識し易いよ
うに適応学習によって音響モデルを調整する。一般に、
適応学習において使用することができる学習データは少
量に限られるため、適応化においては、限られた少量の
データからどのようにして高性能なモデルを学習するか
が重要な課題である。従って、モデルの性能は、高けれ
ば高いほどよい。
用する例について説明する。一般に、音声認識システム
では、不特定多数のユーザを想定して、その音響モデル
として不特定話者モデルが用いられる。このモデルは、
性別、年齢など色々な話者の音声からなる大量の音声デ
ータを用いて学習され、その認識性能はおよそ不特定多
数の話者に対して許容できる範囲にあることが多い。し
かし、大量の学習データといっても有限の量である以
上、これに含まれないような話者の個人性を有する音声
が存在する可能性がある。このような音声に対しては、
不特定話者モデルといえども、その音声認識性能は低下
する。このような問題に対処するために必要となるのが
話者適応化技術であり、その話者の音声が認識し易いよ
うに適応学習によって音響モデルを調整する。一般に、
適応学習において使用することができる学習データは少
量に限られるため、適応化においては、限られた少量の
データからどのようにして高性能なモデルを学習するか
が重要な課題である。従って、モデルの性能は、高けれ
ば高いほどよい。
【0015】以下の説明では、各音素のHMMのモデル
を、図4Bに示すような、状態数4、混合数3のlef
t−to−right型の混合連続HMMとする。図4
Bにおいて、○は状態30を表しており、○の下に書か
れた番号は各状態に付けられた状態番号である。また、
状態間に付けられた矢印は、状態遷移枝を表しており、
同一の状態で遷移する自己ループ31と右隣りの状態へ
遷移する遷移枝32とがある。各状態遷移枝の側に示さ
れたパラメータaijは、各遷移枝の状態遷移確率を表
す。状態番号4の状態は、音素モデルの最終状態であ
る。各音素モデルを連結して音節/単語/文などのモデ
ルを作る場合は、この最終状態4を次に続く音素モデル
の状態番号1に重ねて連結する。このleft−to−
right型構造のモデルは、自己ループと右隣りの状
態への状態遷移のみを許すことを特徴とし、音声の現象
をよく表現するものとして一般によく用いられている。
また、混合連続とは、各状態のシンボル出力確率密度関
数を複数のガウス分布(または正規分布)の線形加算に
よって表現することを意味し、現状の音声認識アルゴリ
ズムにおいては主流のモデル表現法である。
を、図4Bに示すような、状態数4、混合数3のlef
t−to−right型の混合連続HMMとする。図4
Bにおいて、○は状態30を表しており、○の下に書か
れた番号は各状態に付けられた状態番号である。また、
状態間に付けられた矢印は、状態遷移枝を表しており、
同一の状態で遷移する自己ループ31と右隣りの状態へ
遷移する遷移枝32とがある。各状態遷移枝の側に示さ
れたパラメータaijは、各遷移枝の状態遷移確率を表
す。状態番号4の状態は、音素モデルの最終状態であ
る。各音素モデルを連結して音節/単語/文などのモデ
ルを作る場合は、この最終状態4を次に続く音素モデル
の状態番号1に重ねて連結する。このleft−to−
right型構造のモデルは、自己ループと右隣りの状
態への状態遷移のみを許すことを特徴とし、音声の現象
をよく表現するものとして一般によく用いられている。
また、混合連続とは、各状態のシンボル出力確率密度関
数を複数のガウス分布(または正規分布)の線形加算に
よって表現することを意味し、現状の音声認識アルゴリ
ズムにおいては主流のモデル表現法である。
【0016】各音素のHMMのパラメータを図4Bのモ
デル構造に合わせて次のように定義する。 ・状態遷移確率:aij((i,j)=(1,1),(1,2),(2,2),(2,
3),(3,3),(3,4)) ・シンボル出力確率:bj (x)=Σ3 k=1 ωjkN(x
|μjk, Σjk) (j=1,2,3) ここで、関数N(x|μjk, Σjk)は、ガウス分布関
数、係数ωjkは分岐確率を表す。
デル構造に合わせて次のように定義する。 ・状態遷移確率:aij((i,j)=(1,1),(1,2),(2,2),(2,
3),(3,3),(3,4)) ・シンボル出力確率:bj (x)=Σ3 k=1 ωjkN(x
|μjk, Σjk) (j=1,2,3) ここで、関数N(x|μjk, Σjk)は、ガウス分布関
数、係数ωjkは分岐確率を表す。
【0017】また、ガウス分布関数は、次式で表わせ
る。 N(x|μjk, Σjk)=[1/((2π)n/2 |Σjk|1/2 )] exp(−(1/2) (x−μjk)t Σ-1 jk(x−μjk) ここで、xは、音声の特徴パラメータのベクトルデータ
時系列における、ある時刻のベクトルデータである。ま
た、μjk,Σjkは、ガウス分布関数を特徴付けるパラメ
ータであり、それぞれ、平均ベクトル、共分散行列であ
る。
る。 N(x|μjk, Σjk)=[1/((2π)n/2 |Σjk|1/2 )] exp(−(1/2) (x−μjk)t Σ-1 jk(x−μjk) ここで、xは、音声の特徴パラメータのベクトルデータ
時系列における、ある時刻のベクトルデータである。ま
た、μjk,Σjkは、ガウス分布関数を特徴付けるパラメ
ータであり、それぞれ、平均ベクトル、共分散行列であ
る。
【0018】以上の定義のもとに、図1に示したこの発
明の方法の処理手順に沿って、HMMのモデルパラメー
タを学習する過程について詳述する。また、学習対象の
モデルパラメータは、シンボル出力確率のガウス分布の
平均ベクトルとする。また、以下の説明では、パラメー
タの添え字を状態番号jを省いて、シンボル出力確率分
布の要素分布番号kのみで表すこととする。
明の方法の処理手順に沿って、HMMのモデルパラメー
タを学習する過程について詳述する。また、学習対象の
モデルパラメータは、シンボル出力確率のガウス分布の
平均ベクトルとする。また、以下の説明では、パラメー
タの添え字を状態番号jを省いて、シンボル出力確率分
布の要素分布番号kのみで表すこととする。
【0019】この発明の方法における第1番目の学習で
ある、最大事後確率推定法(MAP法)と移動ベクトル
場平滑化法(VFS法)との組み合わせであるMAP/
VFS法の原理を以下に示す。詳細は特願平6−156
238に開示されている。MAP/VFS法
ある、最大事後確率推定法(MAP法)と移動ベクトル
場平滑化法(VFS法)との組み合わせであるMAP/
VFS法の原理を以下に示す。詳細は特願平6−156
238に開示されている。MAP/VFS法
【0020】
【数1】
【0021】上記の一連の式において、式(1)はMA
P法における平均ベクトルの推定式、式(2)はVFS
法における推定式である。MAP/VFS法では、先
ず、与えられた学習データを用いてMAP法により平均
ベクトルμ^k を式(1)により求める。式(1)から
わかるように、推定値μ^k は、初期モデルの事前知識
であるμk と新たな学習データxt のサンプル平均との
重み付き平均として求められる。パラメータτk は、サ
ンプルデータに対する事前知識の信頼度を制御するパラ
メータである。つまり学習データ中の学習対象モデル
を、これに対する初期モデルとして、その学習データを
用いてMAP法により求める。
P法における平均ベクトルの推定式、式(2)はVFS
法における推定式である。MAP/VFS法では、先
ず、与えられた学習データを用いてMAP法により平均
ベクトルμ^k を式(1)により求める。式(1)から
わかるように、推定値μ^k は、初期モデルの事前知識
であるμk と新たな学習データxt のサンプル平均との
重み付き平均として求められる。パラメータτk は、サ
ンプルデータに対する事前知識の信頼度を制御するパラ
メータである。つまり学習データ中の学習対象モデル
を、これに対する初期モデルとして、その学習データを
用いてMAP法により求める。
【0022】学習データが少量であるため、クラス内学
習であるMAP法の学習ではすべてのモデルの要素分布
に対する平均ベクトルを学習することはできず、必ず、
未学習のモデルの要素分布が残る。VFS法では、この
未学習の要素分布の平均ベクトルを式(2)に示す内挿
・外挿補間(interpolation)処理によっ
て求める。また、学習データの量が少量であることか
ら、MAP推定値に統計的な推定誤差があると考えら
れ、このMAP推定値は、式(2)に示すようなVFS
法の平滑化(smoothing)処理により補正され
る。図2にVFS法の幾何学的な説明を示す。VFS法
では、学習による平均ベクトルの変化を音響パラメータ
空間での移動と仮定する。図2の上側の図は、MAP法
によるクラス内学習を実行した場合を示している。MA
P推定値が求められる平均ベクトルと求められないもの
が存在することがわかる。
習であるMAP法の学習ではすべてのモデルの要素分布
に対する平均ベクトルを学習することはできず、必ず、
未学習のモデルの要素分布が残る。VFS法では、この
未学習の要素分布の平均ベクトルを式(2)に示す内挿
・外挿補間(interpolation)処理によっ
て求める。また、学習データの量が少量であることか
ら、MAP推定値に統計的な推定誤差があると考えら
れ、このMAP推定値は、式(2)に示すようなVFS
法の平滑化(smoothing)処理により補正され
る。図2にVFS法の幾何学的な説明を示す。VFS法
では、学習による平均ベクトルの変化を音響パラメータ
空間での移動と仮定する。図2の上側の図は、MAP法
によるクラス内学習を実行した場合を示している。MA
P推定値が求められる平均ベクトルと求められないもの
が存在することがわかる。
【0023】左下側の図は、補間処理の様子を示してい
る。MAP法により学習された平均ベクトルの学習前後
の平均ベクトルの差分mk =(μ^k −μk )を移動ベ
クトルと見なし、未学習の平均ベクトルμp に対する移
動ベクトルmp を、その近傍の移動ベクトルm1 〜m4
線形補間によって求めている。そして、推定された移動
ベクトルmp に初期の平均ベクトルμp を加算すること
によって、学習後の平均ベクトルの推定値μ^q 求め
る。一方、右下側の図は平滑化処理を示している。MA
P法により学習された平均ベクトルμ^q に対する移動
ベクトルmq を、その近傍の移動ベクトルm1 〜m4 か
ら線形補間することにより平滑化して平滑化後移動ベク
トルmq ′を得、平均ベクトルμk を移動ベクトル
mq ′で移動させる。この場合、補正対象の平均ベクト
ルμ^q に対する移動ベクトルmq も線形補間の対象と
する。補間や平滑化における線形補間処理の各移動ベク
トルの重み係数は式(4)に示す平均ベクトル間の距離
(通常、ユークリッド距離)に関するガウス窓関数によ
って与えられる。パラメータsは平滑化パラメータで、
線形補間における近傍の移動ベクトルの依存度の強弱を
制御する。このようにして、MAP/VFS法では、限
られた学習データであるにもかかわらず、すべてのモデ
ルの要素分布に対する平均ベクトルが学習される。この
ように平滑化処理も行った方がよいが、補間処理でMA
P/VFS法の学習を終了としてもよい。
る。MAP法により学習された平均ベクトルの学習前後
の平均ベクトルの差分mk =(μ^k −μk )を移動ベ
クトルと見なし、未学習の平均ベクトルμp に対する移
動ベクトルmp を、その近傍の移動ベクトルm1 〜m4
線形補間によって求めている。そして、推定された移動
ベクトルmp に初期の平均ベクトルμp を加算すること
によって、学習後の平均ベクトルの推定値μ^q 求め
る。一方、右下側の図は平滑化処理を示している。MA
P法により学習された平均ベクトルμ^q に対する移動
ベクトルmq を、その近傍の移動ベクトルm1 〜m4 か
ら線形補間することにより平滑化して平滑化後移動ベク
トルmq ′を得、平均ベクトルμk を移動ベクトル
mq ′で移動させる。この場合、補正対象の平均ベクト
ルμ^q に対する移動ベクトルmq も線形補間の対象と
する。補間や平滑化における線形補間処理の各移動ベク
トルの重み係数は式(4)に示す平均ベクトル間の距離
(通常、ユークリッド距離)に関するガウス窓関数によ
って与えられる。パラメータsは平滑化パラメータで、
線形補間における近傍の移動ベクトルの依存度の強弱を
制御する。このようにして、MAP/VFS法では、限
られた学習データであるにもかかわらず、すべてのモデ
ルの要素分布に対する平均ベクトルが学習される。この
ように平滑化処理も行った方がよいが、補間処理でMA
P/VFS法の学習を終了としてもよい。
【0024】次に、第2番目の識別誤り最小化学習法の
原理を以下に示す。識別誤り最小化学習法
原理を以下に示す。識別誤り最小化学習法
【0025】
【数2】
【0026】識別誤り最小化学習法では、式(5)に示
すように、識別関数gc (X,Λ)として、HMMを用
いた音声認識処理において類似度の判定に用いる対数尤
度log[L(X)]を用いる。データXに対するパラ
メータセットΛのモデルに対する尤度は、HMMの尤度
計算によって求める。この学習法における最適化の対象
である識別誤り数は、損失関数l(dc )により定義さ
れる。正解クラスのモデルに対する対数尤度gc (X,
Λ)とnear−missの不正解クラスのモデルに対
する対数尤度の幾何平均Gc (X,Λ)との差d
c (X,Λ)を定義し、このdc に関するsigmoi
d関数(式(8))によって実効的な識別誤り数を求め
る。例えば、gc (X,Λ)がGc (X,Λ)にくらべ
て非常に大きい場合は識別誤りがないので、損失関数の
値はl(dc )=0となる。また、逆の条件では、識別
誤りが生じたことになるのでl(dc )=1である。損
失関数を最小化するモデルパラメータΛ- を求めること
がこの学習の問題であるが、これは、式(9)に示すよ
うな最急降下法によって求める。学習ステップサイズ∈
tを小さい正数に設定して、漸化的に最適なパラメータ
を求める。式(9)は、HMMのモデルパラメータセッ
トΛに対する漸化式であるが、平均ベクトルμk に関し
ては、式(10),(11),(12),(13)から
式(9)の▽lc (X;Λ- )を求め、式(9)のΛを
μk に置き換えて考えればよい。
すように、識別関数gc (X,Λ)として、HMMを用
いた音声認識処理において類似度の判定に用いる対数尤
度log[L(X)]を用いる。データXに対するパラ
メータセットΛのモデルに対する尤度は、HMMの尤度
計算によって求める。この学習法における最適化の対象
である識別誤り数は、損失関数l(dc )により定義さ
れる。正解クラスのモデルに対する対数尤度gc (X,
Λ)とnear−missの不正解クラスのモデルに対
する対数尤度の幾何平均Gc (X,Λ)との差d
c (X,Λ)を定義し、このdc に関するsigmoi
d関数(式(8))によって実効的な識別誤り数を求め
る。例えば、gc (X,Λ)がGc (X,Λ)にくらべ
て非常に大きい場合は識別誤りがないので、損失関数の
値はl(dc )=0となる。また、逆の条件では、識別
誤りが生じたことになるのでl(dc )=1である。損
失関数を最小化するモデルパラメータΛ- を求めること
がこの学習の問題であるが、これは、式(9)に示すよ
うな最急降下法によって求める。学習ステップサイズ∈
tを小さい正数に設定して、漸化的に最適なパラメータ
を求める。式(9)は、HMMのモデルパラメータセッ
トΛに対する漸化式であるが、平均ベクトルμk に関し
ては、式(10),(11),(12),(13)から
式(9)の▽lc (X;Λ- )を求め、式(9)のΛを
μk に置き換えて考えればよい。
【0027】上述において最大事後確率推定法/移動ベ
クトル場平滑化法による適応化は、複数の入力適応化用
学習データを各1つづつ入力し、その各1つのデータを
用いて最大事後確率推定法/移動ベクトル場平滑化法に
より学習を行うが、第1番目に入力した学習データを用
いて不特定話者モデルを適応化し、この適応化モデルに
対し第2番目以行のデータを用いて適応化を行うように
してもよい。
クトル場平滑化法による適応化は、複数の入力適応化用
学習データを各1つづつ入力し、その各1つのデータを
用いて最大事後確率推定法/移動ベクトル場平滑化法に
より学習を行うが、第1番目に入力した学習データを用
いて不特定話者モデルを適応化し、この適応化モデルに
対し第2番目以行のデータを用いて適応化を行うように
してもよい。
【0028】この発明の方法では、第1の学習法である
MAP/VFS法により得られたモデルをこの識別誤り
最小化学習の初期モデルとして用いる。従って、式
(5)〜(13)のμk を、MAP/VFS法で求めら
れた平均ベクトルμ〜k に置き換えて学習し、求められ
た平均ベクトルの推定値μ−k が最終的に得られる学習
モデルに対する平均ベクトルである。なお、学習データ
は、第1の学習法で用いるデータと全く同一である。
MAP/VFS法により得られたモデルをこの識別誤り
最小化学習の初期モデルとして用いる。従って、式
(5)〜(13)のμk を、MAP/VFS法で求めら
れた平均ベクトルμ〜k に置き換えて学習し、求められ
た平均ベクトルの推定値μ−k が最終的に得られる学習
モデルに対する平均ベクトルである。なお、学習データ
は、第1の学習法で用いるデータと全く同一である。
【0029】次に計算機シミュレーションによる実験例
を述べる。不特定話者モデルを初期モデルとし、10,
20,50単語の少量学習データを用いて、この発明の
方法(以後MAP/VFS+MCEと呼ぶ)と他の方法
を用いた場合の音響モデルの音素認識性能を比較した。
他の方法としては、識別誤り最小化学習法(以後、MC
Eと呼ぶ)、最大事後確率推定法(以後、MAPと呼
ぶ)、MAP+MCE,及びMAP/VFS、の4種類
の学習方法を取り上げた。認識性能の比較評価実験に用
いた初期モデルは、市販されているATRの音声データ
ベースのうち、音素バランス216単語、重要語524
0単語の偶数番目の単語を16名分用いて、最尤推定法
により学習した音素環境依存モデルであり、その構造は
隠れマルコフ網である。そのHMMの状態数は450、
シンボル出力確率の要素分布数は924、混合数は2で
ある。学習に用いた少量の学習データは、ATR524
0単語の奇数番目の単語から50単語を任意に選択し、
10,20,50単語の学習用データを作成し、その残
りの単語データを評価用データとした。話者は、男性M
MY、女性FYNである。図3に、音素認識における誤
り率、誤認識改善率の比較を示す。この図3から、この
発明の方法であるMAP/VFS+MCEを用いた場合
が、他のどの方法よりも認識性能が高いことがわかる、
例えば、20単語の学習の場合の誤認識改善率の比較で
は、MCEでは4.3%、MAP/VFS+MCEでは
21.8%であり、この発明の方法により学習した音響
モデルがMCEのそれよりも5倍も性能が高い。また、
50単語の場合は、およそ3倍も性能が高い。また、,
MAP/VFSとの比較においても、20,50単語の
場合は、それぞれ、誤認識改善率はおよそ3%、5%高
い。
を述べる。不特定話者モデルを初期モデルとし、10,
20,50単語の少量学習データを用いて、この発明の
方法(以後MAP/VFS+MCEと呼ぶ)と他の方法
を用いた場合の音響モデルの音素認識性能を比較した。
他の方法としては、識別誤り最小化学習法(以後、MC
Eと呼ぶ)、最大事後確率推定法(以後、MAPと呼
ぶ)、MAP+MCE,及びMAP/VFS、の4種類
の学習方法を取り上げた。認識性能の比較評価実験に用
いた初期モデルは、市販されているATRの音声データ
ベースのうち、音素バランス216単語、重要語524
0単語の偶数番目の単語を16名分用いて、最尤推定法
により学習した音素環境依存モデルであり、その構造は
隠れマルコフ網である。そのHMMの状態数は450、
シンボル出力確率の要素分布数は924、混合数は2で
ある。学習に用いた少量の学習データは、ATR524
0単語の奇数番目の単語から50単語を任意に選択し、
10,20,50単語の学習用データを作成し、その残
りの単語データを評価用データとした。話者は、男性M
MY、女性FYNである。図3に、音素認識における誤
り率、誤認識改善率の比較を示す。この図3から、この
発明の方法であるMAP/VFS+MCEを用いた場合
が、他のどの方法よりも認識性能が高いことがわかる、
例えば、20単語の学習の場合の誤認識改善率の比較で
は、MCEでは4.3%、MAP/VFS+MCEでは
21.8%であり、この発明の方法により学習した音響
モデルがMCEのそれよりも5倍も性能が高い。また、
50単語の場合は、およそ3倍も性能が高い。また、,
MAP/VFSとの比較においても、20,50単語の
場合は、それぞれ、誤認識改善率はおよそ3%、5%高
い。
【0030】
【発明の効果】以上の説明から、この発明の方法は、従
来にない高い認識性能をもつ音響モデルを学習できると
いう効果がある。これは、学習データは少量であって
も、異なる最適化規準の学習法を組み合わせることによ
って、各方法によるモデルの学習において、そのデータ
から、音響モデルを作成するのに必要な情報をそれぞれ
異なった観点から抽出でき、それらの情報を組み合わせ
てモデルを学習できるからであると考えられる。
来にない高い認識性能をもつ音響モデルを学習できると
いう効果がある。これは、学習データは少量であって
も、異なる最適化規準の学習法を組み合わせることによ
って、各方法によるモデルの学習において、そのデータ
から、音響モデルを作成するのに必要な情報をそれぞれ
異なった観点から抽出でき、それらの情報を組み合わせ
てモデルを学習できるからであると考えられる。
【図1】この発明の方法における処理を示す流れ図。
【図2】移動ベクトル場平滑化法の原理を示す概念図。
【図3】この発明の方法と従来の方法との音声認識性能
の比較結果を示す図。
の比較結果を示す図。
【図4】Aは隠れマルコフモデルを用いた音声認識処理
方法を説明するための図、BはHMMのモデル構造の例
を示す図である。
方法を説明するための図、BはHMMのモデル構造の例
を示す図である。
Claims (6)
- 【請求項1】 あらかじめ用意された初期モデルを、少
量の学習データを使って学習し、得られたモデルを用い
て入力パターンに対する類似度を計算して、最も高い類
似度を与えるモデルが表現するカテゴリを認識結果とす
るパターン認識のためのモデル学習方法において、 少量の学習データを用いて、最大事後確率推定法と移動
ベクトル場平滑化法とを組み合わせた学習法により初期
モデルを学習し、 その後、この学習により得られたモデルを上記少量の学
習データを用いて識別誤り最小化学習法により学習する
ことを特徴とするパターン認識のためのモデル学習方
法。 - 【請求項2】 上記パターン認識におけるモデルが隠れ
マルコフモデルであることを特徴とする請求項1に記載
のモデル学習方法。 - 【請求項3】 上記隠れマルコフモデルが混合連続隠れ
マルコフモデルであることを特徴とする請求項2に記載
のモデル学習方法。 - 【請求項4】 上記隠れマルコフモデルにおいて、学習
対象のモデルパラメータを平均ベクトルとすることを特
徴とする請求項3に記載のモデル学習方法。 - 【請求項5】 上記最大事後確率推定法と移動ベクトル
場平滑化法の組み合せた学習法は、上記学習データ中の
学習対象モデルを、これと対応する上記初期モデルを初
期値として、その学習用データを用いて最大事後確率推
定法により求め、上記学習データ中の学習対象でないモ
デルを、移動ベクトル場平滑化法による上記最大事後確
率推定法により求めたモデルと上記初期モデルとを用い
た内挿・外挿の補間処理により求めることを特徴とする
請求項1乃至4の何れかに記載のモデル学習方法。 - 【請求項6】 上記最大事後確率推定法によって求めた
上記学習対象モデルを、上記移動ベクトル場平滑化法に
よる平滑化処理により修正することを特徴とする請求項
5記載のモデル学習方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7244275A JPH0990975A (ja) | 1995-09-22 | 1995-09-22 | パターン認識のためのモデル学習方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7244275A JPH0990975A (ja) | 1995-09-22 | 1995-09-22 | パターン認識のためのモデル学習方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0990975A true JPH0990975A (ja) | 1997-04-04 |
Family
ID=17116333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7244275A Pending JPH0990975A (ja) | 1995-09-22 | 1995-09-22 | パターン認識のためのモデル学習方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0990975A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006113570A (ja) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | 音声分類および音声認識のための隠れ条件付確率場モデル |
| JP2010060809A (ja) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 |
-
1995
- 1995-09-22 JP JP7244275A patent/JPH0990975A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006113570A (ja) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | 音声分類および音声認識のための隠れ条件付確率場モデル |
| JP2010060809A (ja) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
| JP3742236B2 (ja) | 音声認識のための隠れマルコフ・モデルの適応技術 | |
| JP4217275B2 (ja) | 個別話者に適応した音声認識のための方法及び装置 | |
| JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
| JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
| US5793891A (en) | Adaptive training method for pattern recognition | |
| JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
| KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
| CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
| EP1269464A2 (en) | Discriminatively trained mixture models in continuous speech recognition | |
| JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
| KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
| JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
| Chien | Online hierarchical transformation of hidden Markov models for speech recognition | |
| JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
| JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
| Huang et al. | Improved hidden Markov modeling for speaker-independent continuous speech recognition | |
| Hochberg et al. | Connectionist model combination for large vocabulary speech recognition | |
| JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
| JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
| JPH0990975A (ja) | パターン認識のためのモデル学習方法 | |
| JPH0895592A (ja) | パターン認識方法 | |
| JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
| Zen et al. | Probabilistic feature mapping based on trajectory HMMs. | |
| KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 |