JPH05188989A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH05188989A JPH05188989A JP4004207A JP420792A JPH05188989A JP H05188989 A JPH05188989 A JP H05188989A JP 4004207 A JP4004207 A JP 4004207A JP 420792 A JP420792 A JP 420792A JP H05188989 A JPH05188989 A JP H05188989A
- Authority
- JP
- Japan
- Prior art keywords
- hmm
- word
- recognition
- dictionary
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 33
- 238000009499 grossing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013139 quantization Methods 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 13
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000007850 degeneration Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】
【目的】 高精度、高速かつ低記憶量の音声認識システ
ムのためのHMM構成方法を提供する。 【構成】 トライフォン、ダイフォンあるいは音素のH
MM(20)を用いて単語、文節あるいは文章の音声認
識を行うため(21)、トライフォン、ダイフォン及び
音素のHMMを連結して単語、文節あるいは文章のHM
Mを構築する際(19)、状態縮退処理及びパラメータ
平滑化処理を行う。
ムのためのHMM構成方法を提供する。 【構成】 トライフォン、ダイフォンあるいは音素のH
MM(20)を用いて単語、文節あるいは文章の音声認
識を行うため(21)、トライフォン、ダイフォン及び
音素のHMMを連結して単語、文節あるいは文章のHM
Mを構築する際(19)、状態縮退処理及びパラメータ
平滑化処理を行う。
Description
【0001】
【産業上の利用分野】本発明は、ヒドン・マルコフ・モ
デル(以下、HMMという)を用いた音声認識方法、特
にそのHMM構成方法に関するものである。
デル(以下、HMMという)を用いた音声認識方法、特
にそのHMM構成方法に関するものである。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。 文献1;ザ・ベル・システム・テクニカル・ジャーナル
(The Bell System Technical Journal)62[4](1
983−4)American Telephone and Telegraph Compa
ny、(米)、エス・イー・レビンソン(S.E.Levinso
n)、エル・アール・ラビナー(L.R.Rabiner)、エム・
エム・ソンディ(M.M.Sondhi)著「An Introduction to
the Application of the Theory of Probabilistic Fu
nctions of a Markov Process to Automatic Speech Re
cognition 」P.1035−1074 文献2;中川聖一著「確率モデルによる音声認識」(昭
63−7)電子情報通信学会、P.55−61 音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
HMMと呼ぶ。一般に、HMMは、複数の状態(例え
ば、音声の特徴等)と状態間の遷移からなる。さらに、
HMMは状態間の遷移を表す遷移確率と、遷移する際に
伴うラベル(音声の特徴パラメータの典型的なもので、
通常数十から数千種類がある)を出力する出力確率を有
している。このようなHMMを用いた音声認識方法が前
記文献1に記載されており、その単語音声認識の例を図
2に示す。
例えば次のような文献に記載されるものがあった。 文献1;ザ・ベル・システム・テクニカル・ジャーナル
(The Bell System Technical Journal)62[4](1
983−4)American Telephone and Telegraph Compa
ny、(米)、エス・イー・レビンソン(S.E.Levinso
n)、エル・アール・ラビナー(L.R.Rabiner)、エム・
エム・ソンディ(M.M.Sondhi)著「An Introduction to
the Application of the Theory of Probabilistic Fu
nctions of a Markov Process to Automatic Speech Re
cognition 」P.1035−1074 文献2;中川聖一著「確率モデルによる音声認識」(昭
63−7)電子情報通信学会、P.55−61 音声認識技術として、古典的なパターン・マッチング手
法から、近年では統計的な手法に変わり、後者が主流に
なりつつある。後者の統計的な手法では、確率的な有限
状態を持つマルコフ・モデルが提案されており、通常、
HMMと呼ぶ。一般に、HMMは、複数の状態(例え
ば、音声の特徴等)と状態間の遷移からなる。さらに、
HMMは状態間の遷移を表す遷移確率と、遷移する際に
伴うラベル(音声の特徴パラメータの典型的なもので、
通常数十から数千種類がある)を出力する出力確率を有
している。このようなHMMを用いた音声認識方法が前
記文献1に記載されており、その単語音声認識の例を図
2に示す。
【0003】図2は、音声認識方法に用いられる単語H
MMの構造例を示す図である。図2のs1 ,s2 ,
s3 ,s4 はHMMにおける音声の特徴等の状態を表
す。a11,a12,a22,a23,a33,a34,a44は状態
遷移確率、b1 (k),b2 (k),b3 (k),b4
(k)はラベル出力確率を表す。
MMの構造例を示す図である。図2のs1 ,s2 ,
s3 ,s4 はHMMにおける音声の特徴等の状態を表
す。a11,a12,a22,a23,a33,a34,a44は状態
遷移確率、b1 (k),b2 (k),b3 (k),b4
(k)はラベル出力確率を表す。
【0004】HMMでは、状態遷移確率aij(i=1,
…,4、j=1,…,4)で状態Si から状態Sj へ状
態遷移が行われる際、ラベル出力確率bj (k)でk番
目のラベル0k を出力する。発声された単語をHMMを
用いて認識するには、まず、各単語に対して用意された
学習データを用いて、その単語のラベル列を最も高い確
率で出力するようにHMMを学習する。次に、発声され
た未知単語のラベル列を入力し、最も高い出力確率を与
えた単語HMMを認識結果とする。
…,4、j=1,…,4)で状態Si から状態Sj へ状
態遷移が行われる際、ラベル出力確率bj (k)でk番
目のラベル0k を出力する。発声された単語をHMMを
用いて認識するには、まず、各単語に対して用意された
学習データを用いて、その単語のラベル列を最も高い確
率で出力するようにHMMを学習する。次に、発声され
た未知単語のラベル列を入力し、最も高い出力確率を与
えた単語HMMを認識結果とする。
【0005】この種の音声認識方法では、発声された単
語そのものにHMMを与えて学習し、尤度(即ち、ラベ
ル列の出力確率)によって認識結果を判断するものであ
る。このような単語HMMは、優れた認識精度を保証す
るが、認識語い数が増大することによって膨大な学習デ
ータが必要となることや、学習対象語以外の音声が全く
認識できない等の欠点がある。
語そのものにHMMを与えて学習し、尤度(即ち、ラベ
ル列の出力確率)によって認識結果を判断するものであ
る。このような単語HMMは、優れた認識精度を保証す
るが、認識語い数が増大することによって膨大な学習デ
ータが必要となることや、学習対象語以外の音声が全く
認識できない等の欠点がある。
【0006】一方、音声学では通常、音素と呼ばれる声
学的要素の系列で単語を表している。従って、音素毎に
HMMを用意し、これらのHMMを連結して単語HMM
を生成し、発声された単語の認識を行う方法もある。し
かし、実際に発声された単語音声においては、各々の音
素は隣同士の音素の影響を受け、特徴パラメータ(例え
ば、スペクトル)がかなり変形してしまう。このような
調音結合によるスペクトルの変形は、HMMで表現しき
れないことがある。そのため、このような単純に音素H
MMを連結して単語を認識する方法では、認識率の低下
を免れない。
学的要素の系列で単語を表している。従って、音素毎に
HMMを用意し、これらのHMMを連結して単語HMM
を生成し、発声された単語の認識を行う方法もある。し
かし、実際に発声された単語音声においては、各々の音
素は隣同士の音素の影響を受け、特徴パラメータ(例え
ば、スペクトル)がかなり変形してしまう。このような
調音結合によるスペクトルの変形は、HMMで表現しき
れないことがある。そのため、このような単純に音素H
MMを連結して単語を認識する方法では、認識率の低下
を免れない。
【0007】そこで、従来の他の音声認識方法では、調
音結合による影響を除去するため、より大きな単位、例
えば2音素連鎖(これをダイフォン(diphone)
と呼ぶ)、あるいは3音素連鎖(これをトライフォン
(triphone)と呼ぶ)にHMMを与え、これら
のモデルの連結によって単語HMMを構成し、単語認識
を行うようにしている。
音結合による影響を除去するため、より大きな単位、例
えば2音素連鎖(これをダイフォン(diphone)
と呼ぶ)、あるいは3音素連鎖(これをトライフォン
(triphone)と呼ぶ)にHMMを与え、これら
のモデルの連結によって単語HMMを構成し、単語認識
を行うようにしている。
【0008】図3は、音素、ダイフォンまたはトライフ
ォンで単語“meguro(目黒)”を分割した例を示
す図である。単語“meguro(目黒)”は6つの音
素HMM、3つのダイフォンHMM、あるいは2つのト
ライフォンHMMからなることがわかる。
ォンで単語“meguro(目黒)”を分割した例を示
す図である。単語“meguro(目黒)”は6つの音
素HMM、3つのダイフォンHMM、あるいは2つのト
ライフォンHMMからなることがわかる。
【0009】
【発明が解決しようとする課題】しかしながら、従来の
音声認識方法では、HMMを連結して生成する際に、次
のような問題があった。認識対象語(例えば、文節、文
章)が既知の場合、トライフォンやダイフォン、あるい
は音素のHMMを連結して単語(あるいは文節や文章)
HMMを生成し、音声認識を行う。複数の状態を持つト
ライフォンHMM等を連結して単語(あるいは文節や文
章)HMMを生成すると、単語HMMの状態数が膨張し
てしまう。例えば、音素、ダイフォン及びトライフォン
がすべて6状態を持つHMMとすると、“megur
o”という単語の単語HMMを構成するとき、状態の数
はそれぞれ36,18,12となる。これは、尤度を求
める際の演算量が膨大になるだけでなく、HMMを保存
するためにより多くの記憶空間が要求され、音声認識装
置の小型化を妨げる。
音声認識方法では、HMMを連結して生成する際に、次
のような問題があった。認識対象語(例えば、文節、文
章)が既知の場合、トライフォンやダイフォン、あるい
は音素のHMMを連結して単語(あるいは文節や文章)
HMMを生成し、音声認識を行う。複数の状態を持つト
ライフォンHMM等を連結して単語(あるいは文節や文
章)HMMを生成すると、単語HMMの状態数が膨張し
てしまう。例えば、音素、ダイフォン及びトライフォン
がすべて6状態を持つHMMとすると、“megur
o”という単語の単語HMMを構成するとき、状態の数
はそれぞれ36,18,12となる。これは、尤度を求
める際の演算量が膨大になるだけでなく、HMMを保存
するためにより多くの記憶空間が要求され、音声認識装
置の小型化を妨げる。
【0010】一方、独立に学習されたトライフォン等の
HMMを単純連結をすると、隣同士のモデルの間にHM
Mパラメータの不連続性が生じるおそれがあり、認識精
度の低下を招き易い。従って、少ない記憶量で、認識処
理が速く、しかも認識精度の高い音声認識方法を得るこ
とが困難であった。
HMMを単純連結をすると、隣同士のモデルの間にHM
Mパラメータの不連続性が生じるおそれがあり、認識精
度の低下を招き易い。従って、少ない記憶量で、認識処
理が速く、しかも認識精度の高い音声認識方法を得るこ
とが困難であった。
【0011】本発明は、前記従来技術が持っていた課題
として、少ない記憶量で、認識処理が速く、しかも認識
精度の高い音声認識を行うことが困難な点について解決
した音声認識方法を提供するものである。
として、少ない記憶量で、認識処理が速く、しかも認識
精度の高い音声認識を行うことが困難な点について解決
した音声認識方法を提供するものである。
【0012】
【課題を解決するための手段】本発明は、前記課題を解
決するために、トライフォン、ダイフォンあるいは音素
を含むHMM辞書を用い、HMM生成処理によって単
語、文節あるいは文章のHMMを生成し、認識対象とな
る単語、文節あるいは文章からなる音声データに対して
前記HMMの尤度を演算して認識結果を出力する音声認
識方法において、前記HMMを次のように構成してい
る。即ち、HMM生成処理では、前記単語、文節あるい
は文章からなる認識対象語のモデル系列に基づき、その
モデル系列に対応するモデルを前記HMM辞書より取り
出し、状態縮退処理及びパラメータ平滑化処理を行って
連結し、前記単語、文節あるいは文章のHMMを構築す
る。
決するために、トライフォン、ダイフォンあるいは音素
を含むHMM辞書を用い、HMM生成処理によって単
語、文節あるいは文章のHMMを生成し、認識対象とな
る単語、文節あるいは文章からなる音声データに対して
前記HMMの尤度を演算して認識結果を出力する音声認
識方法において、前記HMMを次のように構成してい
る。即ち、HMM生成処理では、前記単語、文節あるい
は文章からなる認識対象語のモデル系列に基づき、その
モデル系列に対応するモデルを前記HMM辞書より取り
出し、状態縮退処理及びパラメータ平滑化処理を行って
連結し、前記単語、文節あるいは文章のHMMを構築す
る。
【0013】
【作用】本発明では、トライフォン、ダイフォン、ある
いは音素のHMMを連結する際、HMMのパラメータ平
滑化及び状態縮退処理を行っているので、連結された2
つのモデルの間に、不連続性が生じることを防げる。
いは音素のHMMを連結する際、HMMのパラメータ平
滑化及び状態縮退処理を行っているので、連結された2
つのモデルの間に、不連続性が生じることを防げる。
【0014】図4は、本発明における状態縮退処理の一
例を示す説明図であり、図2中の要素と共通の要素には
共通の符号が付されている。例えば、単語“eniw
a”(恵庭)の場合、[eni ]と[iwa ]の2つのトラ
イフォンに分割される。トライフォンを連結する際、
[eni ]の最終状態S3 −1と[iwa ]の最初の状態S
1 −2とが1つの状態S3に縮退され、遷移確率及び出
力確率が平滑化される。即ち、新しい状態S3の遷移確
率は、 a33=(a33−1+a11−2)/2 a34=1−a33 となり、新しい状態S3のラベル出力確率が、状態a3
−1とS1 −2のラベル出力確率の平均となる。
例を示す説明図であり、図2中の要素と共通の要素には
共通の符号が付されている。例えば、単語“eniw
a”(恵庭)の場合、[eni ]と[iwa ]の2つのトラ
イフォンに分割される。トライフォンを連結する際、
[eni ]の最終状態S3 −1と[iwa ]の最初の状態S
1 −2とが1つの状態S3に縮退され、遷移確率及び出
力確率が平滑化される。即ち、新しい状態S3の遷移確
率は、 a33=(a33−1+a11−2)/2 a34=1−a33 となり、新しい状態S3のラベル出力確率が、状態a3
−1とS1 −2のラベル出力確率の平均となる。
【0015】なお、状態縮退処理を行うとき、例えば、
[eni ]の[i ]と[iwa ]の[i]とが重複している
ように、先頭トライフォンの最後の音素と後続トライフ
ォンの最初の音素は同一の音素であってほしい。そのた
め、状態縮退処理を行うときには、重ね学習が望まし
い。
[eni ]の[i ]と[iwa ]の[i]とが重複している
ように、先頭トライフォンの最後の音素と後続トライフ
ォンの最初の音素は同一の音素であってほしい。そのた
め、状態縮退処理を行うときには、重ね学習が望まし
い。
【0016】このように、本発明では、HMMを連結す
る際に、状態縮退処理及びパラメータの平滑化処理を行
っているので、認識精度の向上、処理の高速化、及び記
憶量の削減が図れる。従って、前記課題を解決できるの
である。
る際に、状態縮退処理及びパラメータの平滑化処理を行
っているので、認識精度の向上、処理の高速化、及び記
憶量の削減が図れる。従って、前記課題を解決できるの
である。
【0017】
【実施例】図5は、本発明の実施例の音声認識方法に用
いられる音声認識装置の機能ブロック図である。この音
声認識装置は、例えば、集積回路等による個別回路、あ
るいはプロセッサを用いたプログラム制御等により構成
されるもので、装置全体を制御する中央制御部1を有
し、それには、アナログ音声信号をアナログ/ディジタ
ル変換(以下、A/D変換という)でディジタル信号に
変換した後に音声分析の前処理等を行う音声分析部2、
及びデータを記憶する記憶部3が接続されている。さら
に、中央制御部1には、音声分析部2の出力に対してベ
クトル量子化を行うベクトル量子化部4、単語、文節あ
るいは文章からなる認識対象語のモデル系列の読み出し
等を行う文字情報処理演算部5、HMMの学習を行って
トライフォン等のHMMを生成し、これらのHMMを連
結して単語、文節あるいは文章のHMMを生成するHM
M学習部6、及び単語等のHMMを用いて単語、文節あ
るいは文章の認識を行うHMM認識部7が接続されてい
る。
いられる音声認識装置の機能ブロック図である。この音
声認識装置は、例えば、集積回路等による個別回路、あ
るいはプロセッサを用いたプログラム制御等により構成
されるもので、装置全体を制御する中央制御部1を有
し、それには、アナログ音声信号をアナログ/ディジタ
ル変換(以下、A/D変換という)でディジタル信号に
変換した後に音声分析の前処理等を行う音声分析部2、
及びデータを記憶する記憶部3が接続されている。さら
に、中央制御部1には、音声分析部2の出力に対してベ
クトル量子化を行うベクトル量子化部4、単語、文節あ
るいは文章からなる認識対象語のモデル系列の読み出し
等を行う文字情報処理演算部5、HMMの学習を行って
トライフォン等のHMMを生成し、これらのHMMを連
結して単語、文節あるいは文章のHMMを生成するHM
M学習部6、及び単語等のHMMを用いて単語、文節あ
るいは文章の認識を行うHMM認識部7が接続されてい
る。
【0018】図1は本発明の実施例を示すもので、図5
の音声認識装置を用いた音声認識方法の処理のフローチ
ャートである。これらの図を参照しつつ、本実施例の音
声認識方法を説明する。図1において、アナログ信号で
ある音声が入力されると(ステップ11)、図5の音声
分析部2では、入力されたアナログ音声信号をA/D変
換によってディジタル信号に変換し(ステップ12)、
前処理13を行う(ステップ13)。ステップ13の前
処理では、例えばLPC(Linear Predictive Coding、
線形予測符号化)分析によるLPCケプストラムの抽出
等により、音声特徴パラメータを抽出する。そして、ベ
クトル量子化部4では、抽出された音声特徴パラメータ
のベクトル量子化を行い(ステップ14)、ステップ1
5で、学習または認識処理へと分かれていく。
の音声認識装置を用いた音声認識方法の処理のフローチ
ャートである。これらの図を参照しつつ、本実施例の音
声認識方法を説明する。図1において、アナログ信号で
ある音声が入力されると(ステップ11)、図5の音声
分析部2では、入力されたアナログ音声信号をA/D変
換によってディジタル信号に変換し(ステップ12)、
前処理13を行う(ステップ13)。ステップ13の前
処理では、例えばLPC(Linear Predictive Coding、
線形予測符号化)分析によるLPCケプストラムの抽出
等により、音声特徴パラメータを抽出する。そして、ベ
クトル量子化部4では、抽出された音声特徴パラメータ
のベクトル量子化を行い(ステップ14)、ステップ1
5で、学習または認識処理へと分かれていく。
【0019】学習経路に入ると、図5のHMM学習部6
では、HMMの学習処理を開始し、学習音声に含まれた
トライフォン、ダイフォンあるいは音素のHMMのパラ
メータを推定し(ステップ16)、トライフォン等のH
MM辞書を生成する(ステップ17)。ここで、HMM
を学習するとは、HMMの状態遷移確率及びラベル出力
確率を推定することであり、その推定には例えば前記文
献2に記載されたBaum−Welch(B−W)アル
ゴリズムを用いる。即ち、観測ラベル系列O=o1 ,o
2 ,…,oT 及び状態系列I=i1 ,i2 ,…,iT に
対して、次式のように前向き変数αt (i)と後向き変
数βt (i)を定義する。 αt (i)=P(o1 ,o2 ,…,ot ,it =si ) βt (i)=P(ot+1 ,ot+2 ,…,oT |it =s
i ) そして、状態遷移確率aijとラベル出力確率bj (k)
を次式のように推定する。
では、HMMの学習処理を開始し、学習音声に含まれた
トライフォン、ダイフォンあるいは音素のHMMのパラ
メータを推定し(ステップ16)、トライフォン等のH
MM辞書を生成する(ステップ17)。ここで、HMM
を学習するとは、HMMの状態遷移確率及びラベル出力
確率を推定することであり、その推定には例えば前記文
献2に記載されたBaum−Welch(B−W)アル
ゴリズムを用いる。即ち、観測ラベル系列O=o1 ,o
2 ,…,oT 及び状態系列I=i1 ,i2 ,…,iT に
対して、次式のように前向き変数αt (i)と後向き変
数βt (i)を定義する。 αt (i)=P(o1 ,o2 ,…,ot ,it =si ) βt (i)=P(ot+1 ,ot+2 ,…,oT |it =s
i ) そして、状態遷移確率aijとラベル出力確率bj (k)
を次式のように推定する。
【0020】
【数1】 次に、単語、文節あるいは文章のHMMを生成するた
め、文字情報処理演算部5では、中央処理部(1)を通
して記憶部(3)から、単語、文節あるいは文章からな
る認識対象語のモデル系列を記憶している認識対象語モ
デル系列テーブルを読み出し(ステップ18)、このテ
ーブルを基にして、トライフォン等のHMM辞書(ステ
ップ17)より該当するHMMを取り出して連結し、単
語、文節あるいは文章のHMMを生成する(ステップ1
9)。このHMMの生成処理では、後述するように、パ
ラメータの平滑化や状態縮退処理を行う。生成された単
語等のHMMを単語等のHMM辞書の形で記憶部3に保
存し(ステップ20)、学習を終了させる。
め、文字情報処理演算部5では、中央処理部(1)を通
して記憶部(3)から、単語、文節あるいは文章からな
る認識対象語のモデル系列を記憶している認識対象語モ
デル系列テーブルを読み出し(ステップ18)、このテ
ーブルを基にして、トライフォン等のHMM辞書(ステ
ップ17)より該当するHMMを取り出して連結し、単
語、文節あるいは文章のHMMを生成する(ステップ1
9)。このHMMの生成処理では、後述するように、パ
ラメータの平滑化や状態縮退処理を行う。生成された単
語等のHMMを単語等のHMM辞書の形で記憶部3に保
存し(ステップ20)、学習を終了させる。
【0021】学習処理が終わると、ステップ15によっ
て単語等の認識処理へ移る。図5のHMM認識部7は、
ステップ20で生成された単語等のHMM辞書を用い
て、ステップ14でベクトル量子化された入力音声の尤
度を計算する(ステップ21)。そして、得られた尤度
を基にして認識結果を出力し(ステップ22)、認識処
理を終了する。
て単語等の認識処理へ移る。図5のHMM認識部7は、
ステップ20で生成された単語等のHMM辞書を用い
て、ステップ14でベクトル量子化された入力音声の尤
度を計算する(ステップ21)。そして、得られた尤度
を基にして認識結果を出力し(ステップ22)、認識処
理を終了する。
【0022】次に、図1における単語等のHMMの生成
処理(ステップ19)の詳細を図6を参照しつつ説明す
る。図6は、図1中のステップ19の処理内容を示すフ
ローチャートである。図6において、単語等のHMMの
生成が開始されると(ステップ31)、中央制御部
(1)は単語等のモデル系列を読み込む(ステップ3
2)。仮に単語wj のモデル系列が読み込まれたとす
る。このモデル系列を基にして、トライフォン等のHM
M辞書(ステップ17)より、該当するHMMを読み込
む(ステップ33)。これが最初のHMMであるか否か
を判断し(ステップ34)、最初のHMMであれば、ス
テップ38へ進む。
処理(ステップ19)の詳細を図6を参照しつつ説明す
る。図6は、図1中のステップ19の処理内容を示すフ
ローチャートである。図6において、単語等のHMMの
生成が開始されると(ステップ31)、中央制御部
(1)は単語等のモデル系列を読み込む(ステップ3
2)。仮に単語wj のモデル系列が読み込まれたとす
る。このモデル系列を基にして、トライフォン等のHM
M辞書(ステップ17)より、該当するHMMを読み込
む(ステップ33)。これが最初のHMMであるか否か
を判断し(ステップ34)、最初のHMMであれば、ス
テップ38へ進む。
【0023】ステップ34で、最初のHMMでなけれ
ば、その直前のHMMとの連結を行うため、バラメータ
の平滑化及び状態縮退処理をする。具体的には、後述の
単語HMM(Mj )より直前のHMMの最終状態のパラ
メータを読み込み、書き込みポインターを1つ戻す(ス
テップ35)。そして現HMMの最初状態の遷移確率と
直前のHMMの最終状態のそれとを平均し、新しい遷移
確率とし(ステップ36)、出力確率にも同様の処理を
行う(ステップ37)。
ば、その直前のHMMとの連結を行うため、バラメータ
の平滑化及び状態縮退処理をする。具体的には、後述の
単語HMM(Mj )より直前のHMMの最終状態のパラ
メータを読み込み、書き込みポインターを1つ戻す(ス
テップ35)。そして現HMMの最初状態の遷移確率と
直前のHMMの最終状態のそれとを平均し、新しい遷移
確率とし(ステップ36)、出力確率にも同様の処理を
行う(ステップ37)。
【0024】修正されたHMMを再び単語HMM
(Mj )に書き込み(ステップ38)、モデル系列を参
照しながら、最後のHMMであるかどうかをチェックす
る(ステップ39)。最後のHMMでなければ、ステッ
プ33ヘ戻り、ステップ33〜ステップ39までの処理
を繰り返す。ステップ39で、最後のHMMであれば、
単語HMM(Mj )を単語等のHMM辞書(ステップ2
0)に保存し(ステップ40)、処理を終了する(ステ
ップ41)。
(Mj )に書き込み(ステップ38)、モデル系列を参
照しながら、最後のHMMであるかどうかをチェックす
る(ステップ39)。最後のHMMでなければ、ステッ
プ33ヘ戻り、ステップ33〜ステップ39までの処理
を繰り返す。ステップ39で、最後のHMMであれば、
単語HMM(Mj )を単語等のHMM辞書(ステップ2
0)に保存し(ステップ40)、処理を終了する(ステ
ップ41)。
【0025】以上の処理では、トライフォン同士の連結
を例に挙げて説明した。しかし、トライフォンやダイフ
ォン、あるいは音素相互に連結して単語HMMを作成す
る場合にも有効である。更に、単語の音声認識のみなら
ず、文節単位や文章単位の音声認識にも有効である。以
上のように、本実施例では、図1のステップ19で、H
MM連結時に状態縮退処理及びパラメータの平滑化を行
うので、次のような利点がある。 (a) 認識精度が改善される。図6中のステップ3
6,37におけるパラメータ平滑化により、HMM間の
不連続性がある程度回避され、認識率が改善される。
を例に挙げて説明した。しかし、トライフォンやダイフ
ォン、あるいは音素相互に連結して単語HMMを作成す
る場合にも有効である。更に、単語の音声認識のみなら
ず、文節単位や文章単位の音声認識にも有効である。以
上のように、本実施例では、図1のステップ19で、H
MM連結時に状態縮退処理及びパラメータの平滑化を行
うので、次のような利点がある。 (a) 認識精度が改善される。図6中のステップ3
6,37におけるパラメータ平滑化により、HMM間の
不連続性がある程度回避され、認識率が改善される。
【0026】(b) 処理が高速である。図6中のステ
ップ35における状態縮退処理により、図1中のステッ
プ21における認識時の尤度計算が速くなる。
ップ35における状態縮退処理により、図1中のステッ
プ21における認識時の尤度計算が速くなる。
【0027】(c) 記憶量が低減する。図6中のステ
ップ35における状態縮退処理により、図5の記憶部3
に記憶すべきHMM辞書のサイズがコンパクトとなり、
記憶量が減少する。なお、本発明は図示の実施例に限定
されず、種々の変形が可能である。例えば、図1及び図
6の音声認識方法の処理内容を、他の内容に変更するこ
とも可能である。さらに、この音声認識方法を実施する
音声認識装置を、図5以外の構成に変形してもよい。
ップ35における状態縮退処理により、図5の記憶部3
に記憶すべきHMM辞書のサイズがコンパクトとなり、
記憶量が減少する。なお、本発明は図示の実施例に限定
されず、種々の変形が可能である。例えば、図1及び図
6の音声認識方法の処理内容を、他の内容に変更するこ
とも可能である。さらに、この音声認識方法を実施する
音声認識装置を、図5以外の構成に変形してもよい。
【0028】
【発明の効果】以上詳細に説明したように、本発明によ
れば、トライフォン、ダイフォンあるいは音素のHMM
を用いて単語、文節あるいは文章の音声認識を行うた
め、トライフォン、ダイフォン及び音素のHMMを連結
して単語、文節あるいは文章のHMMを構築する際、状
態縮退処理及びパラメータ平滑化処理を行う。そのた
め、パラメータ平滑化により、HMM間の不連続性があ
る程度回避され、認識率が向上するばかりか、状態縮退
処理により、認識時の尤度計算が速くなる。その上、状
態縮退処理により、記憶すべきHMM辞書のサイズがコ
ンパクトとなり、記憶量を減らすことができる。
れば、トライフォン、ダイフォンあるいは音素のHMM
を用いて単語、文節あるいは文章の音声認識を行うた
め、トライフォン、ダイフォン及び音素のHMMを連結
して単語、文節あるいは文章のHMMを構築する際、状
態縮退処理及びパラメータ平滑化処理を行う。そのた
め、パラメータ平滑化により、HMM間の不連続性があ
る程度回避され、認識率が向上するばかりか、状態縮退
処理により、認識時の尤度計算が速くなる。その上、状
態縮退処理により、記憶すべきHMM辞書のサイズがコ
ンパクトとなり、記憶量を減らすことができる。
【図面の簡単な説明】
【図1】本発明の実施例の音声認識方法を示す処理のフ
ローチャートである。
ローチャートである。
【図2】単語HMMの構造例を示す図である。
【図3】単語“meguro(目黒)”が音素、ダイフ
ォン及びトライフォンに分割された分割例を示す図であ
る。
ォン及びトライフォンに分割された分割例を示す図であ
る。
【図4】本発明における状態縮退処理の説明図である。
【図5】本発明の実施例の音声認識方法を実施するため
の音声認識装置の機能ブロック図である。
の音声認識装置の機能ブロック図である。
【図6】図1中のステップ19の処理内容を示すフロー
チャートである。
チャートである。
1 中央制御部 2 音声分析部 3 記憶部 4 ベクトル量子化部 5 文字情報処理演算部 6 HMM学習部 7 HMM認識部 16 トライフォン等のHMM辞書の推定処
理 17 トライフォン等のHMM辞書 18 認識対象語モデル系列テーブル 19 単語等のHMMの生成処理 20 単語等のHMM辞書 21 HMM尤度の計算処理
理 17 トライフォン等のHMM辞書 18 認識対象語モデル系列テーブル 19 単語等のHMMの生成処理 20 単語等のHMM辞書 21 HMM尤度の計算処理
Claims (1)
- 【請求項1】 トライフォン、ダイフォンあるいは音素
を含むヒドン・マルコフ・モデル辞書を用い、ヒドン・
マルコフ・モデル生成処理によって単語、文節あるいは
文章のヒドン・マルコフ・モデルを生成し、認識対象と
なる単語、文節あるいは文章からなる音声データに対し
て前記ヒドン・マルコフ・モデルの尤度を演算して認識
結果を出力する音声認識方法において、 前記ヒドン・マルコフ・モデル生成処理では、 前記単語、文節あるいは文章からなる認識対象語のモデ
ル系列に基づき、そのモデル系列に対応するモデルを前
記ヒドン・マルコフ・モデル辞書より取り出し、状態縮
退処理及びパラメータ平滑化処理を行って連結し、前記
単語、文節あるいは文章のヒドン・マルコフ・モデルを
構築することを特徴とする音声認識方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4004207A JPH05188989A (ja) | 1992-01-13 | 1992-01-13 | 音声認識方法 |
| US07/993,395 US5502790A (en) | 1991-12-24 | 1992-12-21 | Speech recognition method and system using triphones, diphones, and phonemes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4004207A JPH05188989A (ja) | 1992-01-13 | 1992-01-13 | 音声認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05188989A true JPH05188989A (ja) | 1993-07-30 |
Family
ID=11578197
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4004207A Pending JPH05188989A (ja) | 1991-12-24 | 1992-01-13 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05188989A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010082390A (ko) * | 2001-04-12 | 2001-08-30 | 전화성 | 음성인식 속도향상을 위한 에이치엠엠모델의 대분류기법과이상적인 후보검출 |
-
1992
- 1992-01-13 JP JP4004207A patent/JPH05188989A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010082390A (ko) * | 2001-04-12 | 2001-08-30 | 전화성 | 음성인식 속도향상을 위한 에이치엠엠모델의 대분류기법과이상적인 후보검출 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
| JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
| US5949961A (en) | Word syllabification in speech synthesis system | |
| JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
| JP4328698B2 (ja) | 素片セット作成方法および装置 | |
| JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
| US6801892B2 (en) | Method and system for the reduction of processing time in a speech recognition system using the hidden markov model | |
| KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
| JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
| JPH08202385A (ja) | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 | |
| KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
| Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
| US5960396A (en) | Standard pattern production system employing information criterion | |
| JP2000122689A (ja) | 話者適応化装置及び音声認識装置 | |
| JPH05188989A (ja) | 音声認識方法 | |
| JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JP2000356997A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| JPH05188990A (ja) | 音声認識方法 | |
| JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
| JP2912513B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| JPH05241594A (ja) | 音声認識方法 | |
| JPH05173588A (ja) | 音声認識方法 | |
| JPH0713588A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| Thalengala et al. | Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database. | |
| JPH0713589A (ja) | ヒドン・マルコフ・モデルの学習方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19990803 |