JPH05165490A - 不特定話者用音声認識装置 - Google Patents
不特定話者用音声認識装置Info
- Publication number
- JPH05165490A JPH05165490A JP3330165A JP33016591A JPH05165490A JP H05165490 A JPH05165490 A JP H05165490A JP 3330165 A JP3330165 A JP 3330165A JP 33016591 A JP33016591 A JP 33016591A JP H05165490 A JPH05165490 A JP H05165490A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- probability
- phoneme
- model
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 認識率を向上させる。
【構成】 入力音声を、ベクトル量子化器14で離散的
なベクトル量子化コード列(VQコード列)に変換し、
そのVQコード列を不特定話者用隠れマルコフモデルメ
モリ17を用い、その音素の存在確率を求める音声認識
装置において、多数話者の音声のVQコード列におい
て、各音素区間内のVQコード連鎖確率モデルをメモリ
18に記憶しておき、入力音声VQコード列に対し、確
率計算部15でメモリ17の隠れマルコフモデルとメモ
リ18の連鎖確率モデルとを用いて音素の存在確率を計
算する。つまり現時刻はj番目のVQコードcj が出力
する確率をo(cj )、ci とcj との連鎖確率をp
(cj |ci )とすると前時刻のVQコードがci の場
合はcj が出現する確率o(cj |ci )をp(cj |
c i )o(cj )/〔Σp(cm |ci )o(cm )〕
で求める。Σはm=1からN(VQコードの数)まで。
なベクトル量子化コード列(VQコード列)に変換し、
そのVQコード列を不特定話者用隠れマルコフモデルメ
モリ17を用い、その音素の存在確率を求める音声認識
装置において、多数話者の音声のVQコード列におい
て、各音素区間内のVQコード連鎖確率モデルをメモリ
18に記憶しておき、入力音声VQコード列に対し、確
率計算部15でメモリ17の隠れマルコフモデルとメモ
リ18の連鎖確率モデルとを用いて音素の存在確率を計
算する。つまり現時刻はj番目のVQコードcj が出力
する確率をo(cj )、ci とcj との連鎖確率をp
(cj |ci )とすると前時刻のVQコードがci の場
合はcj が出現する確率o(cj |ci )をp(cj |
c i )o(cj )/〔Σp(cm |ci )o(cm )〕
で求める。Σはm=1からN(VQコードの数)まで。
Description
【0001】
【産業上の利用分野】この発明は、音素単位、あるいは
単語単位の認識に基づく不特定話者用の音声認識装置に
関するものである。不特定話者用の音声認識装置は、話
者適応用音声を使用しない不特定話者音声認識装置と、
話者適応用音声を使用する話者適応型不特定話者音声認
識装置とがある。話者適応用音声を使用しない不特定話
者音声認識装置は、入力された音声をただちに認識しな
ければならないシステムに用いられる。例えば、音声自
動ダイヤルシステムや音声自動券買機などである。話者
適応型不特定話者音声認識装置は、入力話者がシステム
を使用する前にいくらかの音声を発声し、この音声を用
いてシステムを入力話者に適応化する。例えば、音声ワ
ープロなど、使用者が限定されており、システムが話者
に適応化する時間が許されるシステムに使用される。
単語単位の認識に基づく不特定話者用の音声認識装置に
関するものである。不特定話者用の音声認識装置は、話
者適応用音声を使用しない不特定話者音声認識装置と、
話者適応用音声を使用する話者適応型不特定話者音声認
識装置とがある。話者適応用音声を使用しない不特定話
者音声認識装置は、入力された音声をただちに認識しな
ければならないシステムに用いられる。例えば、音声自
動ダイヤルシステムや音声自動券買機などである。話者
適応型不特定話者音声認識装置は、入力話者がシステム
を使用する前にいくらかの音声を発声し、この音声を用
いてシステムを入力話者に適応化する。例えば、音声ワ
ープロなど、使用者が限定されており、システムが話者
に適応化する時間が許されるシステムに使用される。
【0002】
【従来の技術】従来における、音素単位、あるいは単語
単位の認識に基づく不特定話者用の音声認識装置におい
ては、予め、多数話者の音声から切り出した音素、ある
いは単語を用いて、短時間ごとに音声の音響パラメータ
(例えばケプストラムや振幅)を求め、そのパラメータ
系列を用いて音素、あるいは単語をモデル化する。音素
や単語の音響パラメータ系列のモデル化には、統計的な
手法の1つである隠れマルコフモデル(Hidden Markov
Model,以下HMMと略す。;例えば中川聖一著)を用い
た手法がある。多次元の音響パラメータはベクトル量子
化(Vector Quantization)の手法を用い有限個(例えば
256個)の離散的なベクトル量子化コード(以下VQ
コードと略す。)に変換することができる。よって、音
素または単語モデルは、各VQコードに対する出現確率
を用いて表現される。これは離散型HMMと呼ばれてい
る。図6のHMMメモリ7に最も簡単な1状態の離散型
HMMの例を示している。ここでは、VQコードの種類
は4個(0から3まで)で、音素(ここでは/ア/、/
イ/)ごとに、それぞれのVQコードに対する出現確率
が与えられている。実際には、認識すべきすべての音素
あるいは単語の数だけHMMを用意する。それぞれのモ
デルにおいて、すべてのVQコードに対する出力確率の
和は1.0である。
単位の認識に基づく不特定話者用の音声認識装置におい
ては、予め、多数話者の音声から切り出した音素、ある
いは単語を用いて、短時間ごとに音声の音響パラメータ
(例えばケプストラムや振幅)を求め、そのパラメータ
系列を用いて音素、あるいは単語をモデル化する。音素
や単語の音響パラメータ系列のモデル化には、統計的な
手法の1つである隠れマルコフモデル(Hidden Markov
Model,以下HMMと略す。;例えば中川聖一著)を用い
た手法がある。多次元の音響パラメータはベクトル量子
化(Vector Quantization)の手法を用い有限個(例えば
256個)の離散的なベクトル量子化コード(以下VQ
コードと略す。)に変換することができる。よって、音
素または単語モデルは、各VQコードに対する出現確率
を用いて表現される。これは離散型HMMと呼ばれてい
る。図6のHMMメモリ7に最も簡単な1状態の離散型
HMMの例を示している。ここでは、VQコードの種類
は4個(0から3まで)で、音素(ここでは/ア/、/
イ/)ごとに、それぞれのVQコードに対する出現確率
が与えられている。実際には、認識すべきすべての音素
あるいは単語の数だけHMMを用意する。それぞれのモ
デルにおいて、すべてのVQコードに対する出力確率の
和は1.0である。
【0003】図7に、従来の離散型HMMを用いた音声
認識装置の構成例を示している。入力端子1から入力さ
れた音声は、A/D変換部2においてディジタル信号に
変換される。このディジタル信号は音響パラメータ抽出
部3において音響パラメータが抽出される。この音響パ
ラメータはベクトル量子化器4において有限個のVQコ
ードに変換される。この段階で、入力音声はVQコード
系列に変換されている。モデル確率計算部5において、
変換されたVQコード系列の各音素、あるいは単語の離
散型HMMを不特定話者用HMMメモリ7から読みだ
し、入力音声のVQコード系列との確率を計算する。
認識装置の構成例を示している。入力端子1から入力さ
れた音声は、A/D変換部2においてディジタル信号に
変換される。このディジタル信号は音響パラメータ抽出
部3において音響パラメータが抽出される。この音響パ
ラメータはベクトル量子化器4において有限個のVQコ
ードに変換される。この段階で、入力音声はVQコード
系列に変換されている。モデル確率計算部5において、
変換されたVQコード系列の各音素、あるいは単語の離
散型HMMを不特定話者用HMMメモリ7から読みだ
し、入力音声のVQコード系列との確率を計算する。
【0004】このモデル確率計算部5における処理内容
の例を図6に示す。ここでは、VQコードの種類は4個
(0から3まで)であるとする。入力音声のVQコード
系列が与えられ、時刻1から時刻4(VQコード列:1
−1−2−0)に音素/ア/、音素/イ/が存在する確
率をそれぞれ計算したいとする。各音素の存在確率は、
それぞれの時刻のVQコードに対する出現確率を各音素
のHMMから参照し、それらの積で求められる。図6の
例では、音素/ア/に対する確率が8.0×10-4で、
音素/イ/に対する確率が5.0×10-5であり、音素
/ア/が存在する確率が高いとする。この様な処理を入
力音声のVQコード列の任意の区間で行ない、確率を最
も大きくする音素系列を認識結果として認識結果出力部
6より出力する。
の例を図6に示す。ここでは、VQコードの種類は4個
(0から3まで)であるとする。入力音声のVQコード
系列が与えられ、時刻1から時刻4(VQコード列:1
−1−2−0)に音素/ア/、音素/イ/が存在する確
率をそれぞれ計算したいとする。各音素の存在確率は、
それぞれの時刻のVQコードに対する出現確率を各音素
のHMMから参照し、それらの積で求められる。図6の
例では、音素/ア/に対する確率が8.0×10-4で、
音素/イ/に対する確率が5.0×10-5であり、音素
/ア/が存在する確率が高いとする。この様な処理を入
力音声のVQコード列の任意の区間で行ない、確率を最
も大きくする音素系列を認識結果として認識結果出力部
6より出力する。
【0005】
【発明が解決しようとする課題】不特定話者音声認識に
おいては、様々な話者に対応するためにたくさんの話者
の音声データを用いてモデルを学習する。しかし、話者
のバリエーションが増加するに従い、ある話者のある音
素の音響パラメータの分布が、他の話者の異なる音素の
音響パラメータの分布と重なることがしばしば起こる。
例えば、話者Aの音素/イ/が、話者Bの音素/エ/に
音響的に類似しており、それぞれの音素区間中に出現す
るVQコードの種類、出現頻度も類似していることがあ
る。これが、認識誤りの原因となっていた。
おいては、様々な話者に対応するためにたくさんの話者
の音声データを用いてモデルを学習する。しかし、話者
のバリエーションが増加するに従い、ある話者のある音
素の音響パラメータの分布が、他の話者の異なる音素の
音響パラメータの分布と重なることがしばしば起こる。
例えば、話者Aの音素/イ/が、話者Bの音素/エ/に
音響的に類似しており、それぞれの音素区間中に出現す
るVQコードの種類、出現頻度も類似していることがあ
る。これが、認識誤りの原因となっていた。
【0006】従来のHMMは、VQコードの出現確率の
みを表現しており、その時間的な出現順序は表現してい
ない。図8に、VQコードの時間的な出現順序が考慮さ
れないために起こる問題点を示している。仮にVQコー
ド系列1−1−0−0がモデル確率計算部に送られたと
する。従来法では、図8に示すように、VQコード0と
VQコード1に対する出力確率が、音素/イ/のHMM
と音素/エ/のHMMとで同じであったために、VQコ
ード系列に対し、同一の出現確率が与えられる。これ
は、たとえ1−1というVQコード連鎖や0−0という
VQコード連鎖が音素/イ/にたいへん特徴的であり、
音素/エ/にはそのような特徴がなく、本来は音素/イ
/と音素/エ/とは区別可能であったとしても、局所的
なVQコード連鎖に関する情報が音素HMMに保存され
ていないので同一の出現確率が与えられてしまい、区別
できないという問題点があり、認識性能が不十分であっ
た。
みを表現しており、その時間的な出現順序は表現してい
ない。図8に、VQコードの時間的な出現順序が考慮さ
れないために起こる問題点を示している。仮にVQコー
ド系列1−1−0−0がモデル確率計算部に送られたと
する。従来法では、図8に示すように、VQコード0と
VQコード1に対する出力確率が、音素/イ/のHMM
と音素/エ/のHMMとで同じであったために、VQコ
ード系列に対し、同一の出現確率が与えられる。これ
は、たとえ1−1というVQコード連鎖や0−0という
VQコード連鎖が音素/イ/にたいへん特徴的であり、
音素/エ/にはそのような特徴がなく、本来は音素/イ
/と音素/エ/とは区別可能であったとしても、局所的
なVQコード連鎖に関する情報が音素HMMに保存され
ていないので同一の出現確率が与えられてしまい、区別
できないという問題点があり、認識性能が不十分であっ
た。
【0007】
【課題を解決するための手段】この発明によれば、新た
に音素あるいは単語区間内のVQコード連鎖確率を表現
するモデルを作成し、これを従来の音素または単語単位
の離散型HMMと共に用いることによって音声を認識す
る。つまり、この発明では、音声の静的な音響特徴のみ
ならず、動的な特徴にも着目している。例えば、話者A
と話者Bの異なる音素区間中に出現するVQコードの種
類が類似していても、それらが時間的に出現する順序が
異なれば、区別することが可能である。時系列パタン情
報は、VQコードの2つ組、または3つ組の連鎖確率で
表現される。
に音素あるいは単語区間内のVQコード連鎖確率を表現
するモデルを作成し、これを従来の音素または単語単位
の離散型HMMと共に用いることによって音声を認識す
る。つまり、この発明では、音声の静的な音響特徴のみ
ならず、動的な特徴にも着目している。例えば、話者A
と話者Bの異なる音素区間中に出現するVQコードの種
類が類似していても、それらが時間的に出現する順序が
異なれば、区別することが可能である。時系列パタン情
報は、VQコードの2つ組、または3つ組の連鎖確率で
表現される。
【0008】入力音声のVQコード系列において、それ
ぞれの時刻のVQコードに対し、離散型HMMから出現
確率が与えられるが、この発明では更に、現時刻のVQ
コードの1つ前の時刻のVQコード、あるいは1つ前と
2つ前の両方の時刻のVQコードを参照する。そして、
現時刻に至るまでのVQコード連鎖が認識しようとする
音素または単語に特徴的である場合、即ちVQコード連
鎖確率が高い場合は現時刻のVQコードに対する出現確
率を高くし、そうでない場合は低くする。VQコード連
鎖確率は、予め、学習データを音素ごとにセグメンテー
ションしたデータから求められる。VQコード連鎖確率
は、音素ごとに独立に計算される。
ぞれの時刻のVQコードに対し、離散型HMMから出現
確率が与えられるが、この発明では更に、現時刻のVQ
コードの1つ前の時刻のVQコード、あるいは1つ前と
2つ前の両方の時刻のVQコードを参照する。そして、
現時刻に至るまでのVQコード連鎖が認識しようとする
音素または単語に特徴的である場合、即ちVQコード連
鎖確率が高い場合は現時刻のVQコードに対する出現確
率を高くし、そうでない場合は低くする。VQコード連
鎖確率は、予め、学習データを音素ごとにセグメンテー
ションしたデータから求められる。VQコード連鎖確率
は、音素ごとに独立に計算される。
【0009】2つ組のVQコード連鎖確率を利用した場
合の処理を式で表すと(1)式のようになる。 o(cj |ci )=p(cj |ci )o(cj )/ 〔Σp(cm |ci )o(cm )〕 (1) ここで、o(cj )は現時刻にj番目のVQコードcj
が出力する確率であり、Σはm=1からN(VQコード
の数)までである。従来の不特定話者用HMMは、この
確率のみを用いて認識を行なっていた。p(cj |
ci )はVQコードc i とVQコードcj のVQコード
連鎖確率である。このVQコード連鎖確率が音素によっ
て異なる。p(cj |ci )とo(cj )の積をとるこ
とによって、現時刻のVQコードcj に対する出力確率
を変更する。(1)式の分母は、各時刻ですべてのVQ
コードに対する出力確率の和が1.0になるようにする
ためのものである。o(cj |ci )は前時刻のVQコ
ードがci であった場合に現時刻でVQコードcj 出現
する確率である。この発明では、この確率を用いて音素
を認識する。
合の処理を式で表すと(1)式のようになる。 o(cj |ci )=p(cj |ci )o(cj )/ 〔Σp(cm |ci )o(cm )〕 (1) ここで、o(cj )は現時刻にj番目のVQコードcj
が出力する確率であり、Σはm=1からN(VQコード
の数)までである。従来の不特定話者用HMMは、この
確率のみを用いて認識を行なっていた。p(cj |
ci )はVQコードc i とVQコードcj のVQコード
連鎖確率である。このVQコード連鎖確率が音素によっ
て異なる。p(cj |ci )とo(cj )の積をとるこ
とによって、現時刻のVQコードcj に対する出力確率
を変更する。(1)式の分母は、各時刻ですべてのVQ
コードに対する出力確率の和が1.0になるようにする
ためのものである。o(cj |ci )は前時刻のVQコ
ードがci であった場合に現時刻でVQコードcj 出現
する確率である。この発明では、この確率を用いて音素
を認識する。
【0010】この発明は、VQコード連鎖確率を計算す
るデータによって2つの利用方法がある。1つは、VQ
コード連鎖確率を多数話者の音声から計算した場合で、
もう1つは、入力話者が予め発声した話者適応用音声か
ら計算した場合である。VQコード連鎖確率を多数話者
の音声から計算した場合は、多数話者にみられる、より
一般的な各音素のVQコード連鎖情報がVQコード連鎖
確率に表現される。一方、入力話者が予め発声した話者
適応用音声から計算した場合は、入力話者特有のVQコ
ード連鎖情報がVQコード連鎖確率に表現される。した
がって、入力話者がシステムを使用する前にいくらかの
音声を発声する必要があるが、入力話者に依存した、よ
り精密な確率計算を行なうことが可能で、認識性能がよ
り向上する。
るデータによって2つの利用方法がある。1つは、VQ
コード連鎖確率を多数話者の音声から計算した場合で、
もう1つは、入力話者が予め発声した話者適応用音声か
ら計算した場合である。VQコード連鎖確率を多数話者
の音声から計算した場合は、多数話者にみられる、より
一般的な各音素のVQコード連鎖情報がVQコード連鎖
確率に表現される。一方、入力話者が予め発声した話者
適応用音声から計算した場合は、入力話者特有のVQコ
ード連鎖情報がVQコード連鎖確率に表現される。した
がって、入力話者がシステムを使用する前にいくらかの
音声を発声する必要があるが、入力話者に依存した、よ
り精密な確率計算を行なうことが可能で、認識性能がよ
り向上する。
【0011】
【作用】図1,2は、VQコード連鎖確率を利用する効
果を示す。離散HMMとVQコード連鎖確率モデルは予
め学習音声データから作成しておく。仮にVQコード系
列1−1−0−0がモデル確率計算部に与えられたと
き、時刻2のVQコード”1”に対する出力確率は、従
来の離散HMMでは、単に音素/イ/と音素/エ/の出
現確率を参照し、両方とも確率0.4を与えた。しかし
この発明によれば、音素/イ/と音素/エ/の各VQコ
ード連鎖確率を用いてこの確率値を変更する。この例で
は、時刻2の1つ前の時刻1のVQコードが”1”であ
るので、VQコード”1”からVQコード”1”となる
連鎖確率を音素/イ/と音素/エ/の各VQコード連鎖
確率テーブルからそれぞれ参照し、これを用いて時刻2
のVQコードに対する確率値の変更を行なう。すなわち
この例では1−1というVQコード連鎖は音素/イ/に
おいて、0.8という高い確率で発生し、たいん特徴的
であるので、(1)式に従い、従来の離散HMMの与え
る確率値よりも高く評価される。一方、音素/エ/で
は、1−1というVQコード連鎖は0.05という低い
確率で発生し特徴的でないので、従来の離散HMMの与
える確率値よりも低く評価される。
果を示す。離散HMMとVQコード連鎖確率モデルは予
め学習音声データから作成しておく。仮にVQコード系
列1−1−0−0がモデル確率計算部に与えられたと
き、時刻2のVQコード”1”に対する出力確率は、従
来の離散HMMでは、単に音素/イ/と音素/エ/の出
現確率を参照し、両方とも確率0.4を与えた。しかし
この発明によれば、音素/イ/と音素/エ/の各VQコ
ード連鎖確率を用いてこの確率値を変更する。この例で
は、時刻2の1つ前の時刻1のVQコードが”1”であ
るので、VQコード”1”からVQコード”1”となる
連鎖確率を音素/イ/と音素/エ/の各VQコード連鎖
確率テーブルからそれぞれ参照し、これを用いて時刻2
のVQコードに対する確率値の変更を行なう。すなわち
この例では1−1というVQコード連鎖は音素/イ/に
おいて、0.8という高い確率で発生し、たいん特徴的
であるので、(1)式に従い、従来の離散HMMの与え
る確率値よりも高く評価される。一方、音素/エ/で
は、1−1というVQコード連鎖は0.05という低い
確率で発生し特徴的でないので、従来の離散HMMの与
える確率値よりも低く評価される。
【0012】上述したように、VQコードの出現確率の
みならず、音素または単語におけるVQコードの連鎖確
率も考慮することによって、VQコードの出現確率が同
じであっても出現順序が異なる音素を区別して認識する
ので認識性能がより向上する。
みならず、音素または単語におけるVQコードの連鎖確
率も考慮することによって、VQコードの出現確率が同
じであっても出現順序が異なる音素を区別して認識する
ので認識性能がより向上する。
【0013】
【実施例】図2に、請求項1の発明の実施例を示す。入
力端子11から入力された音声は、A/D変換部12に
おいてディジタル信号に変換される。このディジタル信
号は音響パラメータ抽出部13において音響パラメータ
(例えばケプストラムや振幅)を抽出される。この音響
パラメータはベクトル量子化器14において有限個のV
Qコードに変換される。VQコードの数は、例えば25
6個である。
力端子11から入力された音声は、A/D変換部12に
おいてディジタル信号に変換される。このディジタル信
号は音響パラメータ抽出部13において音響パラメータ
(例えばケプストラムや振幅)を抽出される。この音響
パラメータはベクトル量子化器14において有限個のV
Qコードに変換される。VQコードの数は、例えば25
6個である。
【0014】予め、多数話者の音声を上記VQコードに
変換した後、音素あるいは単語ごとにVQコード系列を
切り出し、いくつかの状態数(例えば3状態)で表現さ
れたHMMを用いて音素または単語のモデルを作成す
る。これらのモデルは、不特定話者用HMMメモリ17
に記憶しておく。また、上記多数話者の音声をVQコー
ドに変換した系列から、2つ組あるいは3つ組のVQコ
ードの連鎖確率を計算する。このモデルは、VQコード
連鎖確率モデルメモリ18に記憶しておく。
変換した後、音素あるいは単語ごとにVQコード系列を
切り出し、いくつかの状態数(例えば3状態)で表現さ
れたHMMを用いて音素または単語のモデルを作成す
る。これらのモデルは、不特定話者用HMMメモリ17
に記憶しておく。また、上記多数話者の音声をVQコー
ドに変換した系列から、2つ組あるいは3つ組のVQコ
ードの連鎖確率を計算する。このモデルは、VQコード
連鎖確率モデルメモリ18に記憶しておく。
【0015】モデル確率計算部15では、音素あるいは
単語のHMMを不特定話者用HMMメモリ7より読みだ
し、また、VQコード連鎖確率モデルをVQコード連鎖
確率モデルメモリ18より読みだし、入力音声のVQコ
ード系列と照合しながら、最大の確率を与えるモデルを
調べる。このようにして、最大の確率を与えるモデルの
音素あるいは単語を認識結果として認識結果出力部16
から出力する。
単語のHMMを不特定話者用HMMメモリ7より読みだ
し、また、VQコード連鎖確率モデルをVQコード連鎖
確率モデルメモリ18より読みだし、入力音声のVQコ
ード系列と照合しながら、最大の確率を与えるモデルを
調べる。このようにして、最大の確率を与えるモデルの
音素あるいは単語を認識結果として認識結果出力部16
から出力する。
【0016】図3に、請求項2の発明の実施例を示し、
図2と対応する部分に同一符号を付けてある。図2で説
明したように、予め多数話者の音声を用いて、音素また
は単語のHMMを作成し、不特定話者用HMMメモリ1
7に記憶しておく。この発明は話者適応型装置に適用さ
れるものであって、はじめに、話者適応化モード音声認
識モード切り替えスイッチ20を話者適応化側にして、
入力話者に話者適応化用音声を発声してもらう。ベクト
ル量子化器14までの処理は図2の場合と同一である。
この音声をVQコードに変換した系列から、2つ組ある
いは3つ組のVQコードの連鎖確率を、話者適応化音声
VQコード連鎖確率計算部18で計算する。この際、話
者適応化音声に対し、音素境界を検出する処理を施し、
音素ごとにVQコード連鎖確率を計算して複数のモデル
で表現してもよいし、音素境界を検出せずに、話者適応
化音声全体で1個のモデルを作成してもよい。前者は、
入力話者の各音素におけるVQコード連鎖情報を保有し
ており、後者は、音素を考慮しない入力話者に特有なV
Qコード連鎖情報を保有している。もちろん、音素ごと
にVQコード連鎖確率を計算したほうが、より精密に情
報を保存できるので性能がよい。これらのモデルを話者
適応化音声VQコードの連鎖確率モデルメモリ19に記
憶する。但し、音素ごとにVQコード連鎖確率を計算す
る場合、話者適応化音声中の音素区間の検出をする必要
があるので、話者適応化モードでの処理量が増える。
図2と対応する部分に同一符号を付けてある。図2で説
明したように、予め多数話者の音声を用いて、音素また
は単語のHMMを作成し、不特定話者用HMMメモリ1
7に記憶しておく。この発明は話者適応型装置に適用さ
れるものであって、はじめに、話者適応化モード音声認
識モード切り替えスイッチ20を話者適応化側にして、
入力話者に話者適応化用音声を発声してもらう。ベクト
ル量子化器14までの処理は図2の場合と同一である。
この音声をVQコードに変換した系列から、2つ組ある
いは3つ組のVQコードの連鎖確率を、話者適応化音声
VQコード連鎖確率計算部18で計算する。この際、話
者適応化音声に対し、音素境界を検出する処理を施し、
音素ごとにVQコード連鎖確率を計算して複数のモデル
で表現してもよいし、音素境界を検出せずに、話者適応
化音声全体で1個のモデルを作成してもよい。前者は、
入力話者の各音素におけるVQコード連鎖情報を保有し
ており、後者は、音素を考慮しない入力話者に特有なV
Qコード連鎖情報を保有している。もちろん、音素ごと
にVQコード連鎖確率を計算したほうが、より精密に情
報を保存できるので性能がよい。これらのモデルを話者
適応化音声VQコードの連鎖確率モデルメモリ19に記
憶する。但し、音素ごとにVQコード連鎖確率を計算す
る場合、話者適応化音声中の音素区間の検出をする必要
があるので、話者適応化モードでの処理量が増える。
【0017】次に、話者適応化モード音声認識モード切
り替えスイッチ20を音声認識側にして、入力話者に認
識すべき単語を発声してもらう。モデル確率計算部15
では、音素あるいは単語のHMMを、不特定話者用HM
Mメモリ17より読みだし、同時に、入力話者のVQコ
ード連鎖確率モデルを話者適応化音声VQコード連鎖確
率モデルメモリ19より読みだし、入力音声のVQコー
ド系列と照合しながら、最大の確率を与えるモデルを調
べる。
り替えスイッチ20を音声認識側にして、入力話者に認
識すべき単語を発声してもらう。モデル確率計算部15
では、音素あるいは単語のHMMを、不特定話者用HM
Mメモリ17より読みだし、同時に、入力話者のVQコ
ード連鎖確率モデルを話者適応化音声VQコード連鎖確
率モデルメモリ19より読みだし、入力音声のVQコー
ド系列と照合しながら、最大の確率を与えるモデルを調
べる。
【0018】このようにして、最大の確率を与えるモデ
ルの音素あるいは単語を認識結果として認識結果出力部
16から出力する。図3の実施例において、入力話者に
話者適応化用音声を発声してもらった時に、従来の話者
適応音声認識装置と同様に、不特定話者用HMMをその
入力話者に適応化したものとし、その適応化されたHM
Mをモデル確率計算部15の計算に用いてもよい。この
場合連鎖確率モデルもHMMのパラメータの変更に合わ
せて変更する必要がある。
ルの音素あるいは単語を認識結果として認識結果出力部
16から出力する。図3の実施例において、入力話者に
話者適応化用音声を発声してもらった時に、従来の話者
適応音声認識装置と同様に、不特定話者用HMMをその
入力話者に適応化したものとし、その適応化されたHM
Mをモデル確率計算部15の計算に用いてもよい。この
場合連鎖確率モデルもHMMのパラメータの変更に合わ
せて変更する必要がある。
【0019】
【発明の効果】以上述べたように、この発明において
は、音素あるいは単語中のVQコードの出現確率だけで
なく、VQコードの連鎖も考慮しているので、より精密
なモデルを作成することができ認識性能が向上する。図
2に示した構成に従い、不特定話者音声認識を行なった
18子音の認識実験結果を示す。使用した音声データは
20名(男性10名、女性10名)のアナウンサーが発
声した5240単語である。はじめに、16名(男性8
名、女性8名)の5240単語セットの偶数番目の単語
から切り出した子音を用いて、音素ごとにHMMを学習
した。この際使用された音響パラメータは、16次のケ
プストラム、16次のデルタケプストラム、1次のデル
タパワーである。これらは、それぞれケプストラム25
6個、デルタケプストラム256個、デルタパワー64
個のVQコードに変換されたのち使用された。また、同
じデータで音素ごとに2つ組のVQコードの連鎖確率モ
デルを作成した。2つのVQコードの時間間隔は8ms
である。認識実験は、上記とは異なる4名(男性2名、
女性2名)を評価話者とし、それぞれが発声した524
0単語セットの奇数番目の単語から切り出した子音を用
いて行なった。図4に、この発明による18子音の認識
実験結果を従来法と共に示す。アルファベット(MT
T,MXM,FYM,FYN)は4人の評価用話者のイ
ニシャルである。従来の手法では、平均認識率が70.
8%であったが、この発明により76.3%にまで改善
された。
は、音素あるいは単語中のVQコードの出現確率だけで
なく、VQコードの連鎖も考慮しているので、より精密
なモデルを作成することができ認識性能が向上する。図
2に示した構成に従い、不特定話者音声認識を行なった
18子音の認識実験結果を示す。使用した音声データは
20名(男性10名、女性10名)のアナウンサーが発
声した5240単語である。はじめに、16名(男性8
名、女性8名)の5240単語セットの偶数番目の単語
から切り出した子音を用いて、音素ごとにHMMを学習
した。この際使用された音響パラメータは、16次のケ
プストラム、16次のデルタケプストラム、1次のデル
タパワーである。これらは、それぞれケプストラム25
6個、デルタケプストラム256個、デルタパワー64
個のVQコードに変換されたのち使用された。また、同
じデータで音素ごとに2つ組のVQコードの連鎖確率モ
デルを作成した。2つのVQコードの時間間隔は8ms
である。認識実験は、上記とは異なる4名(男性2名、
女性2名)を評価話者とし、それぞれが発声した524
0単語セットの奇数番目の単語から切り出した子音を用
いて行なった。図4に、この発明による18子音の認識
実験結果を従来法と共に示す。アルファベット(MT
T,MXM,FYM,FYN)は4人の評価用話者のイ
ニシャルである。従来の手法では、平均認識率が70.
8%であったが、この発明により76.3%にまで改善
された。
【0020】次に、図3に示した構成に従い、話者適応
型不特定話者音声認識を行なった18子音の認識実験結
果を示す。実験条件は、上記とほぼ同一である。ただ
し、4名の評価用話者(入力話者)が発声した、上記5
240単語セットとは異なる216単語を話者適応化音
声として使用した。この音声から各話者ごとに、2つ組
のVQコードの連鎖確率モデルを作成した。VQコード
の連鎖確率モデルを、音素ごとに作成した場合と、音素
を考慮せずに1個のモデルを作成した場合の2つの条件
について実験した。認識実験は、図2の装置についての
実験と同様に、評価用話者4名の5240単語セットの
奇数番目の単語から切り出した子音を用いて行なった。
図5に、この発明による18子音の認識実験結果を従来
法と共に示す。アルファベット(MTT,MXM,FY
M,FYN)は4人の評価用話者のイニシャルである。
従来の手法では、平均認識率が70.8%であったが、
この発明により、音素を考慮しないVQコードの連鎖確
率モデルを用いて74.9%に、音素ごとに作成したV
Qコードの連鎖確率モデルを用いて78.6%まで改善
された。入力話者の話者適応化音声からVQコードの連
鎖確率モデルを音素ごとに作成すれば、図4の多数話者
の音声からVQコードの連鎖確率モデルを音素ごとに作
成する場合に比べて、より入力話者に対し精密なモデル
になっているので更に性能が向上している。
型不特定話者音声認識を行なった18子音の認識実験結
果を示す。実験条件は、上記とほぼ同一である。ただ
し、4名の評価用話者(入力話者)が発声した、上記5
240単語セットとは異なる216単語を話者適応化音
声として使用した。この音声から各話者ごとに、2つ組
のVQコードの連鎖確率モデルを作成した。VQコード
の連鎖確率モデルを、音素ごとに作成した場合と、音素
を考慮せずに1個のモデルを作成した場合の2つの条件
について実験した。認識実験は、図2の装置についての
実験と同様に、評価用話者4名の5240単語セットの
奇数番目の単語から切り出した子音を用いて行なった。
図5に、この発明による18子音の認識実験結果を従来
法と共に示す。アルファベット(MTT,MXM,FY
M,FYN)は4人の評価用話者のイニシャルである。
従来の手法では、平均認識率が70.8%であったが、
この発明により、音素を考慮しないVQコードの連鎖確
率モデルを用いて74.9%に、音素ごとに作成したV
Qコードの連鎖確率モデルを用いて78.6%まで改善
された。入力話者の話者適応化音声からVQコードの連
鎖確率モデルを音素ごとに作成すれば、図4の多数話者
の音声からVQコードの連鎖確率モデルを音素ごとに作
成する場合に比べて、より入力話者に対し精密なモデル
になっているので更に性能が向上している。
【図1】この発明の原理を説明するための図。
【図2】請求項1の発明の実施例を示すブロック図。
【図3】請求項2の発明の実施例を示すブロック図。
【図4】請求項1の発明の効果を示す図。
【図5】請求項2の発明の効果を示す図。
【図6】従来装置におけるVQコード列についてHMM
を用いた音素の存在確率を求める演算例を示す図。
を用いた音素の存在確率を求める演算例を示す図。
【図7】従来の不特定話者音声認識装置を示すブロック
図。
図。
【図8】従来装置における問題点を説明するための図。
Claims (2)
- 【請求項1】 多数話者の音声の音素または単語のベク
トル量子化コード系列を統計的に表現する隠れマルコフ
モデルを記憶した不特定話者用隠れマルコフモデルメモ
リを備え、不特定話者が発声した入力音声から音響パラ
メータベクトルを抽出し、その音響パラメータベクトル
を有限個の離散的なベクトル量子化コード系列に変換
し、上記入力音声の発声内容を認識する不特定話者用音
声認識装置において、 多数話者の音声ベクトル量子化コード系列において、各
音素または各単語区間内のベクトル量子化コード連鎖確
率モデルを記憶したベクトル量子化コード連鎖確率モデ
ルメモリと、 上記入力音声のベクトル量子化コード系列に対し、上記
音素または単語の不特定話者用隠れマルコフモデルと上
記ベクトル量子化コード連鎖確率モデルとの両方を用い
て音素または単語モデルに対する確率を計算するモデル
確率計算部と、 を設けたことを特徴とする不特定話者用音声認識装置。 - 【請求項2】 多数話者の音声の音素または単語のベク
トル量子化コード系列を統計的に表現する隠れマルコフ
モデルを記憶した不特定話者用隠れマルコフモデルメモ
リを備え、入力話者が発声した認識すべき音声から音響
パラメータベクトルを抽出し、その音響パラメータベク
トルを有限個の離散的なベクトル量子化コード系列に変
換し、上記入力音声の発声内容を認識する不特定話者用
音声認識装置において、 上記入力話者が予め話者適応化用に発声した音声のベク
トル量子化コード系列のベクトル量子化コード連鎖確率
を計算するベクトル量子化コード連鎖確率計算部と、 そのベクトル量子化コード連鎖確率を表現したベクトル
量子化コード連鎖確率モデルを記憶したベクトル量子化
コード連鎖確率モデルメモリと、 上記入力話者が発声した認識すべき音声のベクトル量子
化コード系列に対し、上記音素または単語の不特定話者
用隠れマルコフモデルと上記入力話者のベクトル量子化
コード連鎖確率モデルとの両方を用いて音素または単語
モデルに対する確率を計算するモデル確率計算部と、 を設けたことを特徴とする不特定話者用音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3330165A JPH05165490A (ja) | 1991-12-13 | 1991-12-13 | 不特定話者用音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3330165A JPH05165490A (ja) | 1991-12-13 | 1991-12-13 | 不特定話者用音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05165490A true JPH05165490A (ja) | 1993-07-02 |
Family
ID=18229548
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3330165A Pending JPH05165490A (ja) | 1991-12-13 | 1991-12-13 | 不特定話者用音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05165490A (ja) |
-
1991
- 1991-12-13 JP JP3330165A patent/JPH05165490A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
| US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
| JP3434838B2 (ja) | ワードスポッティング法 | |
| CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
| EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
| JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
| JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
| JPS62231997A (ja) | 音声認識システム及びその方法 | |
| JPH01102599A (ja) | 音声認識方法 | |
| KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
| EP1022725A1 (en) | Selection of acoustic models using speaker verification | |
| US20040006469A1 (en) | Apparatus and method for updating lexicon | |
| JP3444108B2 (ja) | 音声認識装置 | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JP2011053312A (ja) | 適応化音響モデル生成装置及びプログラム | |
| EP0238693B1 (en) | Speech recognition system and method using statistical models for words | |
| JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
| JPH05165490A (ja) | 不特定話者用音声認識装置 | |
| JP4236502B2 (ja) | 音声認識装置 | |
| JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
| JP3285047B2 (ja) | 不特定話者用音声認識装置 | |
| JPH04271397A (ja) | 音声認識装置 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JPH0997095A (ja) | 音声認識装置 | |
| JPH08110790A (ja) | 音声認識装置 |