JPH0713589A - ヒドン・マルコフ・モデルの学習方法 - Google Patents
ヒドン・マルコフ・モデルの学習方法Info
- Publication number
- JPH0713589A JPH0713589A JP5156431A JP15643193A JPH0713589A JP H0713589 A JPH0713589 A JP H0713589A JP 5156431 A JP5156431 A JP 5156431A JP 15643193 A JP15643193 A JP 15643193A JP H0713589 A JPH0713589 A JP H0713589A
- Authority
- JP
- Japan
- Prior art keywords
- environment
- hmm
- learning
- phoneme
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001419 dependent effect Effects 0.000 claims abstract description 47
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 23
- 230000007704 transition Effects 0.000 description 8
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】
【目的】 環境依存型音素HMM(ヒドン・マルコフ・
モデル)の利点を維持ながら、学習データに偏りの少な
い環境依存型音素HMMの学習方法を提供する。 【構成】 ステップ6で、単語(又は文節もしくは文)
HMMを学習した後、それらをステップ7で環境依存型
音素HMMに分解する。さらに、これらの環境依存型音
素HMMをステップ9で再連結して単語HMMを作る。
このような学習、分解、連結学習を繰り返すことによっ
て環境依存型音素HMMを学習する。その後、ステップ
11で、環境依存型音素HMMの中心部分のパラメータ
を、それに対応する環境独立型音素HMMの中心部分の
パラメータで置き換える。これにより、音素定常部の性
質を保て、学習データへの偏りを低減できる。しかも、
両端の状態のパラメータをそのままにすることによっ
て、前後音素の環境への記述する能力を保つことも可能
である。
モデル)の利点を維持ながら、学習データに偏りの少な
い環境依存型音素HMMの学習方法を提供する。 【構成】 ステップ6で、単語(又は文節もしくは文)
HMMを学習した後、それらをステップ7で環境依存型
音素HMMに分解する。さらに、これらの環境依存型音
素HMMをステップ9で再連結して単語HMMを作る。
このような学習、分解、連結学習を繰り返すことによっ
て環境依存型音素HMMを学習する。その後、ステップ
11で、環境依存型音素HMMの中心部分のパラメータ
を、それに対応する環境独立型音素HMMの中心部分の
パラメータで置き換える。これにより、音素定常部の性
質を保て、学習データへの偏りを低減できる。しかも、
両端の状態のパラメータをそのままにすることによっ
て、前後音素の環境への記述する能力を保つことも可能
である。
Description
【0001】
【産業上の利用分野】本発明は、音声認識方法に用いら
れるヒドン・マルコフ・モデル(以下、HMMという)
の学習方法に関するものである。
れるヒドン・マルコフ・モデル(以下、HMMという)
の学習方法に関するものである。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。 文献1;ザ・ベル・システム・テクニカル・ジャーナル
(The Bell System Technical Journal)、62「4」
(1983−4)American Telephoneand Telegraph Co
mpany,(米)、エス・イー・レビンソン(S.E .Levin
son)、エル・アール・ラビナー(L.R .Rabiner)、エ
ム・エム・ソンディ(M.M .Sondhi)共著「An Introdu
ction to the Application of the Theory of Probabil
istic Functions of a Markov Process to Automatic S
peech Recognition 」P.1035−1074 文献2;中川聖一著「確率モデルによる音声認識」(昭
63−7)、電子情報通信学会、P.55−61 音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
HMMと呼ぶ。一般に、HMMは、複数の状態(例え
ば、音声の特徴等)と状態間の遷移からなる。さらに、
HMMは、状態間の遷移を表す遷移確率と、遷移する際
に伴うラベル(音声の特徴パラメータの典型的なもの
で、通常数十から数千種類がある)を出力する出力確率
を有している。このようなHMMを用いた音声認識方法
が前記文献1に記載されており、その単語音声認識の例
を図2に示す。
例えば次のような文献に記載されるものがあった。 文献1;ザ・ベル・システム・テクニカル・ジャーナル
(The Bell System Technical Journal)、62「4」
(1983−4)American Telephoneand Telegraph Co
mpany,(米)、エス・イー・レビンソン(S.E .Levin
son)、エル・アール・ラビナー(L.R .Rabiner)、エ
ム・エム・ソンディ(M.M .Sondhi)共著「An Introdu
ction to the Application of the Theory of Probabil
istic Functions of a Markov Process to Automatic S
peech Recognition 」P.1035−1074 文献2;中川聖一著「確率モデルによる音声認識」(昭
63−7)、電子情報通信学会、P.55−61 音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
HMMと呼ぶ。一般に、HMMは、複数の状態(例え
ば、音声の特徴等)と状態間の遷移からなる。さらに、
HMMは、状態間の遷移を表す遷移確率と、遷移する際
に伴うラベル(音声の特徴パラメータの典型的なもの
で、通常数十から数千種類がある)を出力する出力確率
を有している。このようなHMMを用いた音声認識方法
が前記文献1に記載されており、その単語音声認識の例
を図2に示す。
【0003】図2は、従来の音声認識方法に用いられる
単語HMMの構造例を示す図である。図2のS1,S2,
S3,S4はHMMにおける音声の特徴等の状態を表す。
a11,a12,a22,a23,a33,a34,a44,a45は状
態遷移確率、b1(k),b2(k),b3(k),b
4(k)はラベル出力確率を表す。HMMでは、状態遷
移確率aij(但し、i=1,…,4、j=1,…,5)
で状態遷移が行われる際、ラベル出力確率bj (k)で
ラベルを出力する。発声された単語をHMMを用いて認
識するには、まず、各単語に対して用意された学習デー
タを用いて、その単語のラベル列を最も高い確率で出力
するようにHMMを学習する。次に、発声された未知単
語のラベル列を入力し、最も高い出力確率を与えた単語
HMMを認識結果とする。この種の音声認識方法では、
発声された単語そのものにHMMを与えて学習し、尤度
(即ち、ラベル列の出力確率)によって認識結果を判断
している。このような単語HMMは、優れた認識精度を
保証するが、認識語い数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないこと等の欠点がある。
単語HMMの構造例を示す図である。図2のS1,S2,
S3,S4はHMMにおける音声の特徴等の状態を表す。
a11,a12,a22,a23,a33,a34,a44,a45は状
態遷移確率、b1(k),b2(k),b3(k),b
4(k)はラベル出力確率を表す。HMMでは、状態遷
移確率aij(但し、i=1,…,4、j=1,…,5)
で状態遷移が行われる際、ラベル出力確率bj (k)で
ラベルを出力する。発声された単語をHMMを用いて認
識するには、まず、各単語に対して用意された学習デー
タを用いて、その単語のラベル列を最も高い確率で出力
するようにHMMを学習する。次に、発声された未知単
語のラベル列を入力し、最も高い出力確率を与えた単語
HMMを認識結果とする。この種の音声認識方法では、
発声された単語そのものにHMMを与えて学習し、尤度
(即ち、ラベル列の出力確率)によって認識結果を判断
している。このような単語HMMは、優れた認識精度を
保証するが、認識語い数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないこと等の欠点がある。
【0004】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語を表している。従って、音素ごと
にHMMを用意し、これらのHMMを連結して単語HM
Mを生成し、単語認識を行う方法もある。しかし、実際
に発声された単語音声においては、各々の音素は隣同士
の音素の影響を受け、特徴パラメータ(例えば、スペク
トル)がかなり変形してしまう。このような調音結合に
よるスペクトルの変形は、音素HMMで表現しきれない
ことがある。そのため、このような単純に音素HMMを
連結して単語を認識する方法では、認識率の低下が免れ
ない。このような調音結合による影響を除去するため、
前後の音韻環境に依存する音素モデル、つまり、ダイフ
ォン(diphone)とトライフォン(triphoen)が提案されて
いる。ここで言うダイフォンは、対象音素に対して、先
行音素もしくは後続音素のどれかが既知である音素を指
し、トライフォンは先行音素と後続音素両方とも既知で
ある音素を指す。音声認識を行う際、ダイフォンあるい
はトライフォンHMMを用意し、これらのHMMの連接
によって単語HMMを構成し、単語認識を行うようにし
ている。音韻環境依存型音素HMMは、音韻環境独立型
音素HMMに比べ、調音結合によるスペクトル変形に伴
う認識率の低下が回避できるが、モデル数が多いため、
HMMを学習するには大量な学習データを用意しなけれ
ばならない。その上、学習データに各々のトライフォン
あるいはダイフォンが存在する区間を示す情報(即ち、
ラベル情報)も用意しなければならない。しかし、ラベ
ル付け作業を行う場合、例えばコンピュータによる自動
作業は満足のゆく精度が得られず、ほとんど手作業でラ
ベル付けを行っている。
学的要素の系列で単語を表している。従って、音素ごと
にHMMを用意し、これらのHMMを連結して単語HM
Mを生成し、単語認識を行う方法もある。しかし、実際
に発声された単語音声においては、各々の音素は隣同士
の音素の影響を受け、特徴パラメータ(例えば、スペク
トル)がかなり変形してしまう。このような調音結合に
よるスペクトルの変形は、音素HMMで表現しきれない
ことがある。そのため、このような単純に音素HMMを
連結して単語を認識する方法では、認識率の低下が免れ
ない。このような調音結合による影響を除去するため、
前後の音韻環境に依存する音素モデル、つまり、ダイフ
ォン(diphone)とトライフォン(triphoen)が提案されて
いる。ここで言うダイフォンは、対象音素に対して、先
行音素もしくは後続音素のどれかが既知である音素を指
し、トライフォンは先行音素と後続音素両方とも既知で
ある音素を指す。音声認識を行う際、ダイフォンあるい
はトライフォンHMMを用意し、これらのHMMの連接
によって単語HMMを構成し、単語認識を行うようにし
ている。音韻環境依存型音素HMMは、音韻環境独立型
音素HMMに比べ、調音結合によるスペクトル変形に伴
う認識率の低下が回避できるが、モデル数が多いため、
HMMを学習するには大量な学習データを用意しなけれ
ばならない。その上、学習データに各々のトライフォン
あるいはダイフォンが存在する区間を示す情報(即ち、
ラベル情報)も用意しなければならない。しかし、ラベ
ル付け作業を行う場合、例えばコンピュータによる自動
作業は満足のゆく精度が得られず、ほとんど手作業でラ
ベル付けを行っている。
【0005】そこで、従来、ラベル情報を要しない学習
法が提案されている。この方法では、まず学習しやすい
環境独立型音素HMMを用意する。そして、発声内容が
既知でラベルが付かない単語(又は文節もしくは文、以
下同様)発声の学習データに対して、先の環境独立型音
素HMMを連結して単語HMMを構築し、これらの単語
HMMを学習する。単語HMMの学習なので、単語境界
(即ち、単語の始端と終端)が分かれば、学習プロセス
が実現できる。さらに、連結と逆の手続きで、これらの
単語HMMを分解し、環境依存型音素HMMを生成す
る。学習精度を良くするため、上述の連結学習、及び分
解生成を繰り返すことによって、近似的に環境依存型音
素HMMを生成する。
法が提案されている。この方法では、まず学習しやすい
環境独立型音素HMMを用意する。そして、発声内容が
既知でラベルが付かない単語(又は文節もしくは文、以
下同様)発声の学習データに対して、先の環境独立型音
素HMMを連結して単語HMMを構築し、これらの単語
HMMを学習する。単語HMMの学習なので、単語境界
(即ち、単語の始端と終端)が分かれば、学習プロセス
が実現できる。さらに、連結と逆の手続きで、これらの
単語HMMを分解し、環境依存型音素HMMを生成す
る。学習精度を良くするため、上述の連結学習、及び分
解生成を繰り返すことによって、近似的に環境依存型音
素HMMを生成する。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
環境依存型音素HMM学習法では、次のような問題点が
あった。ある特定の環境依存型音素HMMに対して、そ
れに対応する音声データの数が場合によって非常に限ら
れるため、上述のように学習して得た環境依存型音素H
MMは、性質が学習データに左右されやすい。即ち、学
習データに偏るおそれがある。しかし、環境独立型音素
HMMは大量の音声データより学習しやすく、学習デー
タへの偏りが少ない。本発明は、前記従来技術が持って
いた課題として、環境依存型音素HMMの利点を維持し
ながら、学習データに偏りの少ない環境依存型音素HM
Mの学習方法を提供するものである。
環境依存型音素HMM学習法では、次のような問題点が
あった。ある特定の環境依存型音素HMMに対して、そ
れに対応する音声データの数が場合によって非常に限ら
れるため、上述のように学習して得た環境依存型音素H
MMは、性質が学習データに左右されやすい。即ち、学
習データに偏るおそれがある。しかし、環境独立型音素
HMMは大量の音声データより学習しやすく、学習デー
タへの偏りが少ない。本発明は、前記従来技術が持って
いた課題として、環境依存型音素HMMの利点を維持し
ながら、学習データに偏りの少ない環境依存型音素HM
Mの学習方法を提供するものである。
【0007】
【課題を解決するための手段】本発明は、前記課題を解
決するために、環境依存音素HMMを学習するに際し
て、予め用意しておいた環境独立音素HMMを連結して
単語(又は文節もしくは文)HMMを構築する。そし
て、前記単語(又は文節もしくは文)HMMを学習する
学習処理と、前記学習処理後にその学習結果を環境依存
音素HMMに分解する分解処理と、前記分解された環境
依存音素HMMを再連結して単語(又は文節もしくは
文)HMMを作る連結処理とを用い、前記学習処理、分
解処理及び連結処理を繰り返すことによって前記環境依
存音素HMMを学習するHMMの学習方法において、次
のような手段を講じている。即ち、本発明では、前記単
語(又は文節もしくは文)HMMを分解して得た環境依
存音素HMMの中心部分のパラメータを、それに対応す
る前記環境独立音素HMMの相同部分のパラメータで置
き換えることによって、偏りのない環境依存音素HMM
を学習するようにしている。
決するために、環境依存音素HMMを学習するに際し
て、予め用意しておいた環境独立音素HMMを連結して
単語(又は文節もしくは文)HMMを構築する。そし
て、前記単語(又は文節もしくは文)HMMを学習する
学習処理と、前記学習処理後にその学習結果を環境依存
音素HMMに分解する分解処理と、前記分解された環境
依存音素HMMを再連結して単語(又は文節もしくは
文)HMMを作る連結処理とを用い、前記学習処理、分
解処理及び連結処理を繰り返すことによって前記環境依
存音素HMMを学習するHMMの学習方法において、次
のような手段を講じている。即ち、本発明では、前記単
語(又は文節もしくは文)HMMを分解して得た環境依
存音素HMMの中心部分のパラメータを、それに対応す
る前記環境独立音素HMMの相同部分のパラメータで置
き換えることによって、偏りのない環境依存音素HMM
を学習するようにしている。
【0008】
【作用】本発明によれば、以上のようにHMMの学習方
法を構成したので、環境依存型音素HMMを学習し終え
た後、環境依存型音素HMMの中心部分のパラメータ
が、それに対応する環境独立型音素HMMの中心部分の
パラメータで置き換えられる。例えば、音素当り4状態
のHMMの場合、中央の2、3状態のパラメータaij、
bj(k)(i=2、3;j=2、3)が、環境独立型音
素HMMのaij、bj(k)で置き換えられる。そのた
め、音素定常部の性質が保たれ、学習データへの偏りが
低減する。一方、両端の状態(即ち、状態1と4)のパ
ラメータがそのままにされるので、前後音素の影響(即
ち、環境)への記述する能力も保たれる。これにより、
環境依存型音素HMMの利点が保たれつつ、学習データ
への偏りが低減する。従って、前記課題を解決できるの
である。
法を構成したので、環境依存型音素HMMを学習し終え
た後、環境依存型音素HMMの中心部分のパラメータ
が、それに対応する環境独立型音素HMMの中心部分の
パラメータで置き換えられる。例えば、音素当り4状態
のHMMの場合、中央の2、3状態のパラメータaij、
bj(k)(i=2、3;j=2、3)が、環境独立型音
素HMMのaij、bj(k)で置き換えられる。そのた
め、音素定常部の性質が保たれ、学習データへの偏りが
低減する。一方、両端の状態(即ち、状態1と4)のパ
ラメータがそのままにされるので、前後音素の影響(即
ち、環境)への記述する能力も保たれる。これにより、
環境依存型音素HMMの利点が保たれつつ、学習データ
への偏りが低減する。従って、前記課題を解決できるの
である。
【0009】
【実施例】図1は本発明の実施例を示すHMMの学習方
法の処理内容のフローチャート、図3(a),(b)は
図1中のステップ11の処理説明図である。これらの図
を参照しつつ、本実施例のHMMの学習方法を説明す
る。本実施例のHMM学習方法では、例えば、プログラ
ム制御されるコンピュータを用いて図1のステップ1〜
12の処理が実行される。先ず、ステップ1で学習が開
始されると、ステップ2において学習データの音声信号
(例えば、単語音声として単語akaiとsakae)が入力さ
れ、ステップ3の前処理へ進む。ステップ3の前処理で
は、例えば、入力されたアナログ音声信号をアナログ/
デジタル変換(以下、A/D変換という)によってデジ
タル信号に変換し、LPC(Linear Predictive Codin
g、線形予測符号化)分析によるLPCケプストラムの
抽出等により、音声特徴パラメータを抽出し、ステップ
5へ進む。
法の処理内容のフローチャート、図3(a),(b)は
図1中のステップ11の処理説明図である。これらの図
を参照しつつ、本実施例のHMMの学習方法を説明す
る。本実施例のHMM学習方法では、例えば、プログラ
ム制御されるコンピュータを用いて図1のステップ1〜
12の処理が実行される。先ず、ステップ1で学習が開
始されると、ステップ2において学習データの音声信号
(例えば、単語音声として単語akaiとsakae)が入力さ
れ、ステップ3の前処理へ進む。ステップ3の前処理で
は、例えば、入力されたアナログ音声信号をアナログ/
デジタル変換(以下、A/D変換という)によってデジ
タル信号に変換し、LPC(Linear Predictive Codin
g、線形予測符号化)分析によるLPCケプストラムの
抽出等により、音声特徴パラメータを抽出し、ステップ
5へ進む。
【0010】環境独立型音素HMM辞書4には、例え
ば、日本語音素(約30〜40種類)のHMMが格納さ
れている。いわゆる環境独立型というのは、その音素の
前後の音素が未知であることを指す。これらを次のよう
に表す。 ステップ5では、入力された単語の音素列表現と、環境
独立型音素HMM辞書4を参照しながら、上述の環境独
立型音素HMMを、例えば次式(1)のように連結して
単語HMMを生成する。
ば、日本語音素(約30〜40種類)のHMMが格納さ
れている。いわゆる環境独立型というのは、その音素の
前後の音素が未知であることを指す。これらを次のよう
に表す。 ステップ5では、入力された単語の音素列表現と、環境
独立型音素HMM辞書4を参照しながら、上述の環境独
立型音素HMMを、例えば次式(1)のように連結して
単語HMMを生成する。
【0011】 次に、ステップ6では、ステップ2で入力された単語音
声を用いて上述の単語HMMのパラメータを推定する
(HMMの学習)。HMMパラメータの推定には、例え
ば前記文献2に記載されたBaum-Welch(B-W)アルゴリズ
ムを用いる。このB−Wアルゴリズムでは、例えば、観
測ラベル系列O=o1,o2,…,oT 及び状態系列I=
i1,i2,…,iT に対して、次式(2)のように、前
向き変数αt(i)と後向き変数βt(i)を定義する。
声を用いて上述の単語HMMのパラメータを推定する
(HMMの学習)。HMMパラメータの推定には、例え
ば前記文献2に記載されたBaum-Welch(B-W)アルゴリズ
ムを用いる。このB−Wアルゴリズムでは、例えば、観
測ラベル系列O=o1,o2,…,oT 及び状態系列I=
i1,i2,…,iT に対して、次式(2)のように、前
向き変数αt(i)と後向き変数βt(i)を定義する。
【0012】 αt(i)=Pr(o1,o2,…,ot,it=si) βt(i)=Pr(ot+1,ot+2,…,oT|it=si) ・・・(2) そして、状態遷移確率aijとラベル出力確率bj (k)
を次式(3)のように推定する。
を次式(3)のように推定する。
【0013】
【数1】 このように単語HMMを学習し終えると、ステップ7で
は、例えば次式(4)のように、単語HMMを環境依存
型音素HMMに分解する。 これらの環境依存型音素HMMを環境依存型音素HMM
辞書8に保存する。このとき、(a)k(a)というH
MMが2つあるので、次式(5)のように、その平均を
取り、環境依存型音素HMM辞書8に保存する。
は、例えば次式(4)のように、単語HMMを環境依存
型音素HMMに分解する。 これらの環境依存型音素HMMを環境依存型音素HMM
辞書8に保存する。このとき、(a)k(a)というH
MMが2つあるので、次式(5)のように、その平均を
取り、環境依存型音素HMM辞書8に保存する。
【0014】
【数2】 ステップ10では、ある基準で上述の環境依存型音素H
MMが収束したかどうかを判別し、もし収束していなけ
れば、ステップ9で次式(6)のように、ステップ7で
分解した環境依存型音素HMMを連結して単語HMMを
再構成し、ステップ6の単語HMMの学習へ戻り、上述
の学習処理と分解処理を繰り返す。 これに対し、ステップ10の判別の結果、もし収束して
いたら(即ち、環境依存型音素HMMパラメータの前回
の値と今回の値との差が充分に小さければ)、学習ルー
プを終え、ステップ11で、環境依存型音素HMMの中
心部分のパラメータを環境独立型音素HMMのそれで置
換する。例えば、ステップ11において、環境依存型音
素HMMの各状態のパラメータはaij(i=1、・・
・、44;j=1、・・・、5)、bj(k)(j=1、
・・・、4)とし、環境独立型音素HMMの各状態のパ
ラメータはaij 0(i=1、・・・、4;j=1、・・
・、5)、bj 0(k)(j=1、・・・、4)とする
と、新しい環境依存型音素HMMの各状態のパラメータ
はそれぞれ、a11,a12,a44,a45とb1(k),b4
(k)は変化せず、a22=a22 0;a23=a23 0;a33=
a33 0;a34=a34 0;b2(k)=b2 0(k);b
3(k)=b3 0(k);のように置換する。
MMが収束したかどうかを判別し、もし収束していなけ
れば、ステップ9で次式(6)のように、ステップ7で
分解した環境依存型音素HMMを連結して単語HMMを
再構成し、ステップ6の単語HMMの学習へ戻り、上述
の学習処理と分解処理を繰り返す。 これに対し、ステップ10の判別の結果、もし収束して
いたら(即ち、環境依存型音素HMMパラメータの前回
の値と今回の値との差が充分に小さければ)、学習ルー
プを終え、ステップ11で、環境依存型音素HMMの中
心部分のパラメータを環境独立型音素HMMのそれで置
換する。例えば、ステップ11において、環境依存型音
素HMMの各状態のパラメータはaij(i=1、・・
・、44;j=1、・・・、5)、bj(k)(j=1、
・・・、4)とし、環境独立型音素HMMの各状態のパ
ラメータはaij 0(i=1、・・・、4;j=1、・・
・、5)、bj 0(k)(j=1、・・・、4)とする
と、新しい環境依存型音素HMMの各状態のパラメータ
はそれぞれ、a11,a12,a44,a45とb1(k),b4
(k)は変化せず、a22=a22 0;a23=a23 0;a33=
a33 0;a34=a34 0;b2(k)=b2 0(k);b
3(k)=b3 0(k);のように置換する。
【0015】即ち、ステップ11では、例えば、環境依
存型音素HMM辞書8内の(a)k(a)に対して環境
独立型音素HMM辞書4内の(*)k(*)をピックア
ップし、図3(a),(b)の処理をする。中心部分の
置換とは、4状態の場合、次のように、中央の2状態の
パラメータを置換する。 このようなステップ11での置換処理後、ステップ12
で学習を終了する。
存型音素HMM辞書8内の(a)k(a)に対して環境
独立型音素HMM辞書4内の(*)k(*)をピックア
ップし、図3(a),(b)の処理をする。中心部分の
置換とは、4状態の場合、次のように、中央の2状態の
パラメータを置換する。 このようなステップ11での置換処理後、ステップ12
で学習を終了する。
【0016】以上のように、本実施例では、次のような
利点がある。本実施例では、図1のステップ10で、環
境依存型音素HMMを学習し終えた後、ステップ11に
おいて、中心部分のパラメータをそれに対応する環境独
立型音素HMMの中心部分のパラメータで置き換えるよ
うにしているので、学習データへの偏りを低減できる。
しかも、その両端の状態のパラメータをそのままにする
ため、前後の音素環境への対応も保てるので、従来の環
境依存型音素HMMの長所を損なうことなく、学習デー
タへの偏りを減らすことができ、高精度の音声認識が可
能となる。なお、上記実施例では、入力された単語音声
に対するHMMの学習方法について説明したが、文節や
文の音声が入力された場合にも、上記実施例と同様にし
て環境依存型音素HMMの学習が行える。
利点がある。本実施例では、図1のステップ10で、環
境依存型音素HMMを学習し終えた後、ステップ11に
おいて、中心部分のパラメータをそれに対応する環境独
立型音素HMMの中心部分のパラメータで置き換えるよ
うにしているので、学習データへの偏りを低減できる。
しかも、その両端の状態のパラメータをそのままにする
ため、前後の音素環境への対応も保てるので、従来の環
境依存型音素HMMの長所を損なうことなく、学習デー
タへの偏りを減らすことができ、高精度の音声認識が可
能となる。なお、上記実施例では、入力された単語音声
に対するHMMの学習方法について説明したが、文節や
文の音声が入力された場合にも、上記実施例と同様にし
て環境依存型音素HMMの学習が行える。
【0017】
【発明の効果】以上詳細に説明したように、本発明によ
れば、環境依存型音素HMMを学習し終えた後、中心部
分のパラメータをそれに対応する環境独立型音素HMM
の中心部分のパラメータで置き換えるようにしたので、
学習データへの偏りを低減できる。しかも、両端の状態
のパラメータをそのままにするため、前後の音素環境へ
の対応も保てるので、従来の環境依存型音素HMMの長
所を損なうことなく、学習データへの偏りを減らすこと
ができ、高精度の音声認識が可能となる。
れば、環境依存型音素HMMを学習し終えた後、中心部
分のパラメータをそれに対応する環境独立型音素HMM
の中心部分のパラメータで置き換えるようにしたので、
学習データへの偏りを低減できる。しかも、両端の状態
のパラメータをそのままにするため、前後の音素環境へ
の対応も保てるので、従来の環境依存型音素HMMの長
所を損なうことなく、学習データへの偏りを減らすこと
ができ、高精度の音声認識が可能となる。
【図1】本発明の実施例を示すHMMの学習方法の処理
内容のフローチャートである。
内容のフローチャートである。
【図2】従来の音声認識方法に用いられる単語HMMの
構造例を示す図である。
構造例を示す図である。
【図3】図1中のステップ11の処理説明図である。
【符号の説明】 4 環境独立型音素HMM辞書 5 単語HMMの構成処理のステップ 6 単語HMMの学習処理のステップ 7 単語HMMを環境依存型音素HMMに分解する
分解処理のステップ 8 環境依存型音素HMM辞書 9 環境依存型音素HMMを連結して単語HMMを
再構成する連結学習処理のステップ 10 環境依存型音素HMMの収束判定処理のステッ
プ 11 中心部分のパラメータの置き換え処理のステッ
プ
分解処理のステップ 8 環境依存型音素HMM辞書 9 環境依存型音素HMMを連結して単語HMMを
再構成する連結学習処理のステップ 10 環境依存型音素HMMの収束判定処理のステッ
プ 11 中心部分のパラメータの置き換え処理のステッ
プ
Claims (1)
- 【請求項1】 環境依存音素ヒドン・マルコフ・モデル
を学習するに際して、予め用意しておいた環境独立音素
ヒドン・マルコフ・モデルを連結して単語、文節又は文
のうちのいずれか1つのヒドン・マルコフ・モデルを構
築し、 前記いずれか1つのヒドン・マルコフ・モデルを学習す
る学習処理と、前記学習処理後にその学習結果を環境依
存音素ヒドン・マルコフ・モデルに分解する分解処理
と、前記分解された環境依存音素ヒドン・マルコフ・モ
デルを再連結して単語、文節又は文のうちのいずれか1
つのヒドン・マルコフ・モデルを作る連結処理とを用
い、前記学習処理、分解処理及び連結処理を繰り返すこ
とによって前記環境依存音素ヒドン・マルコフ・モデル
を学習するヒドン・マルコフ・モデルの学習方法におい
て、 前記単語、文節又は文のうちのいずれか1つのヒドン・
マルコフ・モデルを分解して得た環境依存音素ヒドン・
マルコフ・モデルの中心部分のパラメータを、それに対
応する前記環境独立音素ヒドン・マルコフ・モデルの相
同部分のパラメータで置き換えることによって、前記環
境依存音素ヒドン・マルコフ・モデルを学習することを
特徴とするヒドン・マルコフ・モデルの学習方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5156431A JPH0713589A (ja) | 1993-06-28 | 1993-06-28 | ヒドン・マルコフ・モデルの学習方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5156431A JPH0713589A (ja) | 1993-06-28 | 1993-06-28 | ヒドン・マルコフ・モデルの学習方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0713589A true JPH0713589A (ja) | 1995-01-17 |
Family
ID=15627602
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5156431A Withdrawn JPH0713589A (ja) | 1993-06-28 | 1993-06-28 | ヒドン・マルコフ・モデルの学習方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0713589A (ja) |
-
1993
- 1993-06-28 JP JP5156431A patent/JPH0713589A/ja not_active Withdrawn
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8126717B1 (en) | System and method for predicting prosodic parameters | |
| US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
| JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
| EP0984428B1 (en) | Method and system for automatically determining phonetic transcriptions associated with spelled words | |
| JP4328698B2 (ja) | 素片セット作成方法および装置 | |
| JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
| JP3008799B2 (ja) | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 | |
| JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
| JP3302266B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| EP1074019B1 (en) | Adaptation of a speech recognizer for dialectal and linguistic domain variations | |
| Mohanty et al. | Isolated Odia digit recognition using HTK: an implementation view | |
| JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JP2912513B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JPH0713588A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JPH0713589A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JPH0229799A (ja) | 音素を単位とした音声認識装置 | |
| JPH10133686A (ja) | 非母国語音声認識装置 | |
| JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| JPH08328582A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| Vanajakshi et al. | Investigation on large vocabulary continuous Kannada speech recognition | |
| JPH07121192A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| Delić et al. | A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian | |
| JPH08211891A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JPH05188990A (ja) | 音声認識方法 | |
| JPH06175678A (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20000905 |