JPH05188989A

JPH05188989A - 音声認識方法

Info

Publication number: JPH05188989A
Application number: JP4004207A
Authority: JP
Inventors: Takashi I; 傑易
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1992-01-13
Filing date: 1992-01-13
Publication date: 1993-07-30

Abstract

(57)【要約】【目的】高精度、高速かつ低記憶量の音声認識システ
ムのためのＨＭＭ構成方法を提供する。【構成】トライフォン、ダイフォンあるいは音素のＨ
ＭＭ（２０）を用いて単語、文節あるいは文章の音声認
識を行うため（２１）、トライフォン、ダイフォン及び
音素のＨＭＭを連結して単語、文節あるいは文章のＨＭ
Ｍを構築する際（１９）、状態縮退処理及びパラメータ
平滑化処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ヒドン・マルコフ・モ
デル（以下、ＨＭＭという）を用いた音声認識方法、特
にそのＨＭＭ構成方法に関するものである。

【０００２】

【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。文献１；ザ・ベル・システム・テクニカル・ジャーナル
（The Bell System Technical Journal)６２［４］（１
９８３−４）American Telephone and Telegraph Compa
ny、（米）、エス・イー・レビンソン（S.E.Levinso
n）、エル・アール・ラビナー（L.R.Rabiner)、エム・
エム・ソンディ（M.M.Sondhi）著「An Introduction to
the Application of the Theory of Probabilistic Fu
nctions of a Markov Process to Automatic Speech Re
cognition 」Ｐ．１０３５−１０７４文献２；中川聖一著「確率モデルによる音声認識」（昭
６３−７）電子情報通信学会、Ｐ．５５−６１音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
ＨＭＭと呼ぶ。一般に、ＨＭＭは、複数の状態（例え
ば、音声の特徴等）と状態間の遷移からなる。さらに、
ＨＭＭは状態間の遷移を表す遷移確率と、遷移する際に
伴うラベル（音声の特徴パラメータの典型的なもので、
通常数十から数千種類がある）を出力する出力確率を有
している。このようなＨＭＭを用いた音声認識方法が前
記文献１に記載されており、その単語音声認識の例を図
２に示す。

【０００３】図２は、音声認識方法に用いられる単語Ｈ
ＭＭの構造例を示す図である。図２のｓ₁，ｓ₂，
ｓ₃，ｓ₄はＨＭＭにおける音声の特徴等の状態を表
す。ａ₁₁，ａ₁₂，ａ₂₂，ａ₂₃，ａ₃₃，ａ₃₄，ａ₄₄は状態
遷移確率、ｂ₁（ｋ），ｂ₂（ｋ），ｂ₃（ｋ），ｂ₄
（ｋ）はラベル出力確率を表す。

【０００４】ＨＭＭでは、状態遷移確率ａ_ij（ｉ＝１，
…，４、ｊ＝１，…，４）で状態Ｓ_iから状態Ｓ_jへ状
態遷移が行われる際、ラベル出力確率ｂ_j（ｋ）でｋ番
目のラベル０_kを出力する。発声された単語をＨＭＭを
用いて認識するには、まず、各単語に対して用意された
学習データを用いて、その単語のラベル列を最も高い確
率で出力するようにＨＭＭを学習する。次に、発声され
た未知単語のラベル列を入力し、最も高い出力確率を与
えた単語ＨＭＭを認識結果とする。

【０００５】この種の音声認識方法では、発声された単
語そのものにＨＭＭを与えて学習し、尤度（即ち、ラベ
ル列の出力確率）によって認識結果を判断するものであ
る。このような単語ＨＭＭは、優れた認識精度を保証す
るが、認識語い数が増大することによって膨大な学習デ
ータが必要となることや、学習対象語以外の音声が全く
認識できない等の欠点がある。

【０００６】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語を表している。従って、音素毎に
ＨＭＭを用意し、これらのＨＭＭを連結して単語ＨＭＭ
を生成し、発声された単語の認識を行う方法もある。し
かし、実際に発声された単語音声においては、各々の音
素は隣同士の音素の影響を受け、特徴パラメータ（例え
ば、スペクトル）がかなり変形してしまう。このような
調音結合によるスペクトルの変形は、ＨＭＭで表現しき
れないことがある。そのため、このような単純に音素Ｈ
ＭＭを連結して単語を認識する方法では、認識率の低下
を免れない。

【０００７】そこで、従来の他の音声認識方法では、調
音結合による影響を除去するため、より大きな単位、例
えば２音素連鎖（これをダイフォン（ｄｉｐｈｏｎｅ）
と呼ぶ）、あるいは３音素連鎖（これをトライフォン
（ｔｒｉｐｈｏｎｅ）と呼ぶ）にＨＭＭを与え、これら
のモデルの連結によって単語ＨＭＭを構成し、単語認識
を行うようにしている。

【０００８】図３は、音素、ダイフォンまたはトライフ
ォンで単語“ｍｅｇｕｒｏ（目黒）”を分割した例を示
す図である。単語“ｍｅｇｕｒｏ（目黒）”は６つの音
素ＨＭＭ、３つのダイフォンＨＭＭ、あるいは２つのト
ライフォンＨＭＭからなることがわかる。

【０００９】

【発明が解決しようとする課題】しかしながら、従来の
音声認識方法では、ＨＭＭを連結して生成する際に、次
のような問題があった。認識対象語（例えば、文節、文
章）が既知の場合、トライフォンやダイフォン、あるい
は音素のＨＭＭを連結して単語（あるいは文節や文章）
ＨＭＭを生成し、音声認識を行う。複数の状態を持つト
ライフォンＨＭＭ等を連結して単語（あるいは文節や文
章）ＨＭＭを生成すると、単語ＨＭＭの状態数が膨張し
てしまう。例えば、音素、ダイフォン及びトライフォン
がすべて６状態を持つＨＭＭとすると、“ｍｅｇｕｒ
ｏ”という単語の単語ＨＭＭを構成するとき、状態の数
はそれぞれ３６，１８，１２となる。これは、尤度を求
める際の演算量が膨大になるだけでなく、ＨＭＭを保存
するためにより多くの記憶空間が要求され、音声認識装
置の小型化を妨げる。

【００１０】一方、独立に学習されたトライフォン等の
ＨＭＭを単純連結をすると、隣同士のモデルの間にＨＭ
Ｍパラメータの不連続性が生じるおそれがあり、認識精
度の低下を招き易い。従って、少ない記憶量で、認識処
理が速く、しかも認識精度の高い音声認識方法を得るこ
とが困難であった。

【００１１】本発明は、前記従来技術が持っていた課題
として、少ない記憶量で、認識処理が速く、しかも認識
精度の高い音声認識を行うことが困難な点について解決
した音声認識方法を提供するものである。

【００１２】

【課題を解決するための手段】本発明は、前記課題を解
決するために、トライフォン、ダイフォンあるいは音素
を含むＨＭＭ辞書を用い、ＨＭＭ生成処理によって単
語、文節あるいは文章のＨＭＭを生成し、認識対象とな
る単語、文節あるいは文章からなる音声データに対して
前記ＨＭＭの尤度を演算して認識結果を出力する音声認
識方法において、前記ＨＭＭを次のように構成してい
る。即ち、ＨＭＭ生成処理では、前記単語、文節あるい
は文章からなる認識対象語のモデル系列に基づき、その
モデル系列に対応するモデルを前記ＨＭＭ辞書より取り
出し、状態縮退処理及びパラメータ平滑化処理を行って
連結し、前記単語、文節あるいは文章のＨＭＭを構築す
る。

【００１３】

【作用】本発明では、トライフォン、ダイフォン、ある
いは音素のＨＭＭを連結する際、ＨＭＭのパラメータ平
滑化及び状態縮退処理を行っているので、連結された２
つのモデルの間に、不連続性が生じることを防げる。

【００１４】図４は、本発明における状態縮退処理の一
例を示す説明図であり、図２中の要素と共通の要素には
共通の符号が付されている。例えば、単語“ｅｎｉｗ
ａ”（恵庭）の場合、［eni ］と［iwa ］の２つのトラ
イフォンに分割される。トライフォンを連結する際、
［eni ］の最終状態Ｓ₃−１と［iwa ］の最初の状態Ｓ
₁−２とが１つの状態Ｓ３に縮退され、遷移確率及び出
力確率が平滑化される。即ち、新しい状態Ｓ３の遷移確
率は、ａ₃₃＝（ａ₃₃−１＋ａ₁₁−２）／２ａ₃₄＝１−ａ₃₃ となり、新しい状態Ｓ３のラベル出力確率が、状態ａ₃
−１とＳ₁−２のラベル出力確率の平均となる。

【００１５】なお、状態縮退処理を行うとき、例えば、
［eni ］の［i ］と［iwa ］の［i］とが重複している
ように、先頭トライフォンの最後の音素と後続トライフ
ォンの最初の音素は同一の音素であってほしい。そのた
め、状態縮退処理を行うときには、重ね学習が望まし
い。

【００１６】このように、本発明では、ＨＭＭを連結す
る際に、状態縮退処理及びパラメータの平滑化処理を行
っているので、認識精度の向上、処理の高速化、及び記
憶量の削減が図れる。従って、前記課題を解決できるの
である。

【００１７】

【実施例】図５は、本発明の実施例の音声認識方法に用
いられる音声認識装置の機能ブロック図である。この音
声認識装置は、例えば、集積回路等による個別回路、あ
るいはプロセッサを用いたプログラム制御等により構成
されるもので、装置全体を制御する中央制御部１を有
し、それには、アナログ音声信号をアナログ／ディジタ
ル変換（以下、Ａ／Ｄ変換という）でディジタル信号に
変換した後に音声分析の前処理等を行う音声分析部２、
及びデータを記憶する記憶部３が接続されている。さら
に、中央制御部１には、音声分析部２の出力に対してベ
クトル量子化を行うベクトル量子化部４、単語、文節あ
るいは文章からなる認識対象語のモデル系列の読み出し
等を行う文字情報処理演算部５、ＨＭＭの学習を行って
トライフォン等のＨＭＭを生成し、これらのＨＭＭを連
結して単語、文節あるいは文章のＨＭＭを生成するＨＭ
Ｍ学習部６、及び単語等のＨＭＭを用いて単語、文節あ
るいは文章の認識を行うＨＭＭ認識部７が接続されてい
る。

【００１８】図１は本発明の実施例を示すもので、図５
の音声認識装置を用いた音声認識方法の処理のフローチ
ャートである。これらの図を参照しつつ、本実施例の音
声認識方法を説明する。図１において、アナログ信号で
ある音声が入力されると（ステップ１１）、図５の音声
分析部２では、入力されたアナログ音声信号をＡ／Ｄ変
換によってディジタル信号に変換し（ステップ１２）、
前処理１３を行う（ステップ１３）。ステップ１３の前
処理では、例えばＬＰＣ（Linear Predictive Coding、
線形予測符号化）分析によるＬＰＣケプストラムの抽出
等により、音声特徴パラメータを抽出する。そして、ベ
クトル量子化部４では、抽出された音声特徴パラメータ
のベクトル量子化を行い（ステップ１４）、ステップ１
５で、学習または認識処理へと分かれていく。

【００１９】学習経路に入ると、図５のＨＭＭ学習部６
では、ＨＭＭの学習処理を開始し、学習音声に含まれた
トライフォン、ダイフォンあるいは音素のＨＭＭのパラ
メータを推定し（ステップ１６）、トライフォン等のＨ
ＭＭ辞書を生成する（ステップ１７）。ここで、ＨＭＭ
を学習するとは、ＨＭＭの状態遷移確率及びラベル出力
確率を推定することであり、その推定には例えば前記文
献２に記載されたＢａｕｍ−Ｗｅｌｃｈ（Ｂ−Ｗ）アル
ゴリズムを用いる。即ち、観測ラベル系列Ｏ＝ｏ₁，ｏ
₂，…，ｏ_T及び状態系列Ｉ＝ｉ₁，ｉ₂，…，ｉ_Tに
対して、次式のように前向き変数α_t（ｉ）と後向き変
数β_t（ｉ）を定義する。 α_t（ｉ）＝Ｐ（ｏ₁，ｏ₂，…，ｏ_t，ｉ_t＝ｓ_i） β_t（ｉ）＝Ｐ（ｏ_t+1，ｏ_t+2，…，ｏ_T｜ｉ_t＝ｓ
_i）そして、状態遷移確率ａ_ijとラベル出力確率ｂ_j（ｋ）
を次式のように推定する。

【００２０】

【数１】次に、単語、文節あるいは文章のＨＭＭを生成するた
め、文字情報処理演算部５では、中央処理部（１）を通
して記憶部（３）から、単語、文節あるいは文章からな
る認識対象語のモデル系列を記憶している認識対象語モ
デル系列テーブルを読み出し（ステップ１８）、このテ
ーブルを基にして、トライフォン等のＨＭＭ辞書（ステ
ップ１７）より該当するＨＭＭを取り出して連結し、単
語、文節あるいは文章のＨＭＭを生成する（ステップ１
９）。このＨＭＭの生成処理では、後述するように、パ
ラメータの平滑化や状態縮退処理を行う。生成された単
語等のＨＭＭを単語等のＨＭＭ辞書の形で記憶部３に保
存し（ステップ２０）、学習を終了させる。

【００２１】学習処理が終わると、ステップ１５によっ
て単語等の認識処理へ移る。図５のＨＭＭ認識部７は、
ステップ２０で生成された単語等のＨＭＭ辞書を用い
て、ステップ１４でベクトル量子化された入力音声の尤
度を計算する（ステップ２１）。そして、得られた尤度
を基にして認識結果を出力し（ステップ２２）、認識処
理を終了する。

【００２２】次に、図１における単語等のＨＭＭの生成
処理（ステップ１９）の詳細を図６を参照しつつ説明す
る。図６は、図１中のステップ１９の処理内容を示すフ
ローチャートである。図６において、単語等のＨＭＭの
生成が開始されると（ステップ３１）、中央制御部
（１）は単語等のモデル系列を読み込む（ステップ３
２）。仮に単語ｗ_jのモデル系列が読み込まれたとす
る。このモデル系列を基にして、トライフォン等のＨＭ
Ｍ辞書（ステップ１７）より、該当するＨＭＭを読み込
む（ステップ３３）。これが最初のＨＭＭであるか否か
を判断し（ステップ３４）、最初のＨＭＭであれば、ス
テップ３８へ進む。

【００２３】ステップ３４で、最初のＨＭＭでなけれ
ば、その直前のＨＭＭとの連結を行うため、バラメータ
の平滑化及び状態縮退処理をする。具体的には、後述の
単語ＨＭＭ（Ｍ_j）より直前のＨＭＭの最終状態のパラ
メータを読み込み、書き込みポインターを１つ戻す（ス
テップ３５）。そして現ＨＭＭの最初状態の遷移確率と
直前のＨＭＭの最終状態のそれとを平均し、新しい遷移
確率とし（ステップ３６）、出力確率にも同様の処理を
行う（ステップ３７）。

【００２４】修正されたＨＭＭを再び単語ＨＭＭ
（Ｍ_j）に書き込み（ステップ３８）、モデル系列を参
照しながら、最後のＨＭＭであるかどうかをチェックす
る（ステップ３９）。最後のＨＭＭでなければ、ステッ
プ３３ヘ戻り、ステップ３３〜ステップ３９までの処理
を繰り返す。ステップ３９で、最後のＨＭＭであれば、
単語ＨＭＭ（Ｍ_j）を単語等のＨＭＭ辞書（ステップ２
０）に保存し（ステップ４０）、処理を終了する（ステ
ップ４１）。

【００２５】以上の処理では、トライフォン同士の連結
を例に挙げて説明した。しかし、トライフォンやダイフ
ォン、あるいは音素相互に連結して単語ＨＭＭを作成す
る場合にも有効である。更に、単語の音声認識のみなら
ず、文節単位や文章単位の音声認識にも有効である。以
上のように、本実施例では、図１のステップ１９で、Ｈ
ＭＭ連結時に状態縮退処理及びパラメータの平滑化を行
うので、次のような利点がある。（ａ）認識精度が改善される。図６中のステップ３
６，３７におけるパラメータ平滑化により、ＨＭＭ間の
不連続性がある程度回避され、認識率が改善される。

【００２６】（ｂ）処理が高速である。図６中のステ
ップ３５における状態縮退処理により、図１中のステッ
プ２１における認識時の尤度計算が速くなる。

【００２７】（ｃ）記憶量が低減する。図６中のステ
ップ３５における状態縮退処理により、図５の記憶部３
に記憶すべきＨＭＭ辞書のサイズがコンパクトとなり、
記憶量が減少する。なお、本発明は図示の実施例に限定
されず、種々の変形が可能である。例えば、図１及び図
６の音声認識方法の処理内容を、他の内容に変更するこ
とも可能である。さらに、この音声認識方法を実施する
音声認識装置を、図５以外の構成に変形してもよい。

【００２８】

【発明の効果】以上詳細に説明したように、本発明によ
れば、トライフォン、ダイフォンあるいは音素のＨＭＭ
を用いて単語、文節あるいは文章の音声認識を行うた
め、トライフォン、ダイフォン及び音素のＨＭＭを連結
して単語、文節あるいは文章のＨＭＭを構築する際、状
態縮退処理及びパラメータ平滑化処理を行う。そのた
め、パラメータ平滑化により、ＨＭＭ間の不連続性があ
る程度回避され、認識率が向上するばかりか、状態縮退
処理により、認識時の尤度計算が速くなる。その上、状
態縮退処理により、記憶すべきＨＭＭ辞書のサイズがコ
ンパクトとなり、記憶量を減らすことができる。

【図面の簡単な説明】

【図１】本発明の実施例の音声認識方法を示す処理のフ
ローチャートである。

【図２】単語ＨＭＭの構造例を示す図である。

【図３】単語“ｍｅｇｕｒｏ（目黒）”が音素、ダイフ
ォン及びトライフォンに分割された分割例を示す図であ
る。

【図４】本発明における状態縮退処理の説明図である。

【図５】本発明の実施例の音声認識方法を実施するため
の音声認識装置の機能ブロック図である。

【図６】図１中のステップ１９の処理内容を示すフロー
チャートである。

【符号の説明】

１中央制御部２音声分析部３記憶部４ベクトル量子化部５文字情報処理演算部６ＨＭＭ学習部７ＨＭＭ認識部１６トライフォン等のＨＭＭ辞書の推定処
理１７トライフォン等のＨＭＭ辞書１８認識対象語モデル系列テーブル１９単語等のＨＭＭの生成処理２０単語等のＨＭＭ辞書２１ＨＭＭ尤度の計算処理

Claims

【特許請求の範囲】

【請求項１】トライフォン、ダイフォンあるいは音素
を含むヒドン・マルコフ・モデル辞書を用い、ヒドン・
マルコフ・モデル生成処理によって単語、文節あるいは
文章のヒドン・マルコフ・モデルを生成し、認識対象と
なる単語、文節あるいは文章からなる音声データに対し
て前記ヒドン・マルコフ・モデルの尤度を演算して認識
結果を出力する音声認識方法において、前記ヒドン・マルコフ・モデル生成処理では、前記単語、文節あるいは文章からなる認識対象語のモデ
ル系列に基づき、そのモデル系列に対応するモデルを前
記ヒドン・マルコフ・モデル辞書より取り出し、状態縮
退処理及びパラメータ平滑化処理を行って連結し、前記
単語、文節あるいは文章のヒドン・マルコフ・モデルを
構築することを特徴とする音声認識方法。