JPH09237097A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH09237097A JPH09237097A JP8042461A JP4246196A JPH09237097A JP H09237097 A JPH09237097 A JP H09237097A JP 8042461 A JP8042461 A JP 8042461A JP 4246196 A JP4246196 A JP 4246196A JP H09237097 A JPH09237097 A JP H09237097A
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- numeral
- voice
- continuous
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】本発明の目的は、単語間の調音結合に対応で
き、かつ学習データの共有性の高くなるような高精度な
連続数字音声認識を実現することにある。 【解決手段】上記本発明の目的は、標準パタンとして、
単語の中心部分を表わす標準パタンと、単語の接続部分
を表わす標準パタンを設け、これらを交互に連結するこ
とにより単語列の標準パタンを構成するようにすること
により達成される。
き、かつ学習データの共有性の高くなるような高精度な
連続数字音声認識を実現することにある。 【解決手段】上記本発明の目的は、標準パタンとして、
単語の中心部分を表わす標準パタンと、単語の接続部分
を表わす標準パタンを設け、これらを交互に連結するこ
とにより単語列の標準パタンを構成するようにすること
により達成される。
Description
【0001】
【発明の属する技術分野】本発明は音声で発声された数
字を認識するような連続数字音声認識装置に関する。
字を認識するような連続数字音声認識装置に関する。
【0002】
【従来の技術】従来、連続数字音声認識装置における標
準パタンの単位としては、単語単位の標準パタンを用い
るのが一般的である。日本語の任意の文章を認識対象に
したり、大語彙の単語認識(例えば日本人の全人名等)
を対象とするような音声認識装置では、単語単位に標準
パタンを用意することは、標準パタンの個数が多くなり
すぎて実際問題として不可能となる。しかしながら、1
0数字のみを認識対象とするような小語彙の数字音声認
識装置では、単語単位(一桁数字単位)の標準パタンを
用いても、標準パタンの個数は10個程度ですむ。
準パタンの単位としては、単語単位の標準パタンを用い
るのが一般的である。日本語の任意の文章を認識対象に
したり、大語彙の単語認識(例えば日本人の全人名等)
を対象とするような音声認識装置では、単語単位に標準
パタンを用意することは、標準パタンの個数が多くなり
すぎて実際問題として不可能となる。しかしながら、1
0数字のみを認識対象とするような小語彙の数字音声認
識装置では、単語単位(一桁数字単位)の標準パタンを
用いても、標準パタンの個数は10個程度ですむ。
【0003】単語単位に標準パタンを用意すると、単語
内の調音結合は標準パタンの中に組み込まれ、単語内の
調音結合には対応できることになる。しかしながら、単
語と単語の間に生じる調音結合には対応できない。
内の調音結合は標準パタンの中に組み込まれ、単語内の
調音結合には対応できることになる。しかしながら、単
語と単語の間に生じる調音結合には対応できない。
【0004】単語と単語の間に生じる調音結合に対応す
る手法としては、(社)日本音響学会、音声研究会資
料、資料番号S84-64“半単語対標準パターンを用
いた連続数字音声認識”に記載のような例がある。この
例では、先行する数字の中心部分から後続する数字の中
心部分までの範囲をひとまとまりの単位として標準パタ
ンとする。このように数字と数字の間の部分を標準パタ
ンとするため、標準パタンの中に単語と単語の間に生じ
る調音結合が取り込まれ、単語間の調音結合に対応でき
ることになる。この方法では、単語の対毎に標準パタン
を用意するので標準パタンの個数は2桁数字の組み合わ
せの個数、すなわち100個となる。
る手法としては、(社)日本音響学会、音声研究会資
料、資料番号S84-64“半単語対標準パターンを用
いた連続数字音声認識”に記載のような例がある。この
例では、先行する数字の中心部分から後続する数字の中
心部分までの範囲をひとまとまりの単位として標準パタ
ンとする。このように数字と数字の間の部分を標準パタ
ンとするため、標準パタンの中に単語と単語の間に生じ
る調音結合が取り込まれ、単語間の調音結合に対応でき
ることになる。この方法では、単語の対毎に標準パタン
を用意するので標準パタンの個数は2桁数字の組み合わ
せの個数、すなわち100個となる。
【0005】単語と単語の間に生じる調音結合に対応す
る他の従来例として、電子情報通信学会技術研究報告、
SP95-23“連続数字音声認識における音響モデル
学習法の検討”に記載のような例がある。この例では、
単語をhead、body、tailの3部分に分割し、head部分は
先行する単語毎に異なるモデルを用意する。同様にtail
部分も後続する単語毎に異なるモデルを用意する。head
部分に先行する単語との間に生じる調音結合が取り込ま
れ、tail部分に後続する単語との間に生じる調音結合が
取り込まれ、単語間の調音結合に対応できることにな
る。数字の場合、body部分が10種類、各body毎にそれ
ぞれhead部分が10種類、tail部分が10種類となるの
で標準パタンの総数は210個となる。
る他の従来例として、電子情報通信学会技術研究報告、
SP95-23“連続数字音声認識における音響モデル
学習法の検討”に記載のような例がある。この例では、
単語をhead、body、tailの3部分に分割し、head部分は
先行する単語毎に異なるモデルを用意する。同様にtail
部分も後続する単語毎に異なるモデルを用意する。head
部分に先行する単語との間に生じる調音結合が取り込ま
れ、tail部分に後続する単語との間に生じる調音結合が
取り込まれ、単語間の調音結合に対応できることにな
る。数字の場合、body部分が10種類、各body毎にそれ
ぞれhead部分が10種類、tail部分が10種類となるの
で標準パタンの総数は210個となる。
【0006】
【発明が解決しようとする課題】上記2種の従来技術で
は、単語間の調音結合に対応した標準パタンが用意で
き、連続数字に対する認識精度が向上する。しかしなが
ら、第1の従来例では、2桁数字の組合せにおいてしか
標準パタンの学習ができず、学習データの共有性が悪い
という問題がある。また、第2の従来例でも、body部分
に関しては学習データの共有性は良いものの、head部
分、tail部分で第1の従来例と同様に学習データの共有
性が悪いという問題がある。さらに、第2の従来例で
は、head部分、body部分、tail部分の全ての組み合わせ
を満たす学習データが必要となり、1000種もの学習
データが必要になるという問題がある。
は、単語間の調音結合に対応した標準パタンが用意で
き、連続数字に対する認識精度が向上する。しかしなが
ら、第1の従来例では、2桁数字の組合せにおいてしか
標準パタンの学習ができず、学習データの共有性が悪い
という問題がある。また、第2の従来例でも、body部分
に関しては学習データの共有性は良いものの、head部
分、tail部分で第1の従来例と同様に学習データの共有
性が悪いという問題がある。さらに、第2の従来例で
は、head部分、body部分、tail部分の全ての組み合わせ
を満たす学習データが必要となり、1000種もの学習
データが必要になるという問題がある。
【0007】本発明の目的は上記従来技術における単語
間の調音結合に対応する能力を生かしながら、従来技術
で問題であった学習データの共有性の悪さを回避する手
段を提供することにある。
間の調音結合に対応する能力を生かしながら、従来技術
で問題であった学習データの共有性の悪さを回避する手
段を提供することにある。
【0008】
【課題を解決するための手段】上記本発明の目的は、標
準パタンとして、単語の中心部分を表わす標準パタン
と、単語の接続部分を表わす標準パタンを設け、これら
を交互に連結することにより単語列の標準パタンを構成
するようにすることにより達成される。
準パタンとして、単語の中心部分を表わす標準パタン
と、単語の接続部分を表わす標準パタンを設け、これら
を交互に連結することにより単語列の標準パタンを構成
するようにすることにより達成される。
【0009】単語の中心部分を表わす標準パタンは数字
の場合計10種類しかなく、学習データの共有性を高く
できる。単語の接続部分を表わす標準パタンは数字の場
合計100種類あり、学習データの共有性はやや悪くな
るが、単語間の調音結合に対応できる。以上により、学
習データの共有性を高く保ちつつ、単語間の調音結合に
対応できる標準パタンを作成することができ、高精度な
音声認識を実現できる。
の場合計10種類しかなく、学習データの共有性を高く
できる。単語の接続部分を表わす標準パタンは数字の場
合計100種類あり、学習データの共有性はやや悪くな
るが、単語間の調音結合に対応できる。以上により、学
習データの共有性を高く保ちつつ、単語間の調音結合に
対応できる標準パタンを作成することができ、高精度な
音声認識を実現できる。
【0010】
【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。
を説明する。
【0011】図1は本発明の連続数字音声認識装置の一
実施例の構成を示すブロック図である。入力された音声
は音声入力手段1において電気信号に変換される。電気
信号に変換された音声はさらに音声分析手段2において
分析され、特徴ベクトルの時系列が出力される。標準パ
タン格納手段5に予め格納されている標準パタンと前記
入力音声の特徴ベクトル時系列とが照合手段3にて照合
され、認識対象の各単語毎にスコアが求められる。な
お、照合は有限状態オートマトン6の制御の下に行なわ
れる。判定手段4では前記各単語のスコアに基づいて認
識結果を出力する。
実施例の構成を示すブロック図である。入力された音声
は音声入力手段1において電気信号に変換される。電気
信号に変換された音声はさらに音声分析手段2において
分析され、特徴ベクトルの時系列が出力される。標準パ
タン格納手段5に予め格納されている標準パタンと前記
入力音声の特徴ベクトル時系列とが照合手段3にて照合
され、認識対象の各単語毎にスコアが求められる。な
お、照合は有限状態オートマトン6の制御の下に行なわ
れる。判定手段4では前記各単語のスコアに基づいて認
識結果を出力する。
【0012】次に本発明の中で用いている標準パタンに
ついて説明する。本発明では、標準パタンとして確率モ
デルを採用している。図2は本発明の中で用いている確
率モデル(Hidden Markov Model、以下HMMと略す)を
示した図である。図中各円は状態を表わし、矢印は状態
間の遷移を表わす。矢印に添えた記号aijは状態iから
状態jへの遷移が生じる確率を表わし、記号bij(k)
は状態iから状態jへの遷移が生じたときに第k番目の
分類に属する特徴ベクトルが出力される確率を表わす。
入力音声の特徴ベクトル時系列が与えられると、前記状
態遷移確率、出力確率を用いて入力音声の特徴ベクトル
時系列がこの確率モデル(HMM)から出力された確率を
計算することができる。前記図1の中の照合手段3で
は、この確率計算の処理が行なわれる。確率計算処理の
詳細に関しては、Kluwer AcademicPublishers, Norwe
l, MA, 1989 “Automatic Speech Recognition”,95
頁-97頁に記載されている公知の方法を用いればよい。
ついて説明する。本発明では、標準パタンとして確率モ
デルを採用している。図2は本発明の中で用いている確
率モデル(Hidden Markov Model、以下HMMと略す)を
示した図である。図中各円は状態を表わし、矢印は状態
間の遷移を表わす。矢印に添えた記号aijは状態iから
状態jへの遷移が生じる確率を表わし、記号bij(k)
は状態iから状態jへの遷移が生じたときに第k番目の
分類に属する特徴ベクトルが出力される確率を表わす。
入力音声の特徴ベクトル時系列が与えられると、前記状
態遷移確率、出力確率を用いて入力音声の特徴ベクトル
時系列がこの確率モデル(HMM)から出力された確率を
計算することができる。前記図1の中の照合手段3で
は、この確率計算の処理が行なわれる。確率計算処理の
詳細に関しては、Kluwer AcademicPublishers, Norwe
l, MA, 1989 “Automatic Speech Recognition”,95
頁-97頁に記載されている公知の方法を用いればよい。
【0013】さらに図3を用いて、本発明の主眼であ
る、連続数字音声認識用の標準パタンについて説明す
る。図3は、2桁数字“12”を単語中心部の標準パタ
ンと単語接続部の標準パタンを交互に連結して構成した
ものである。図中*は語頭および語尾の無音を示す。図
3の例では単語中心部の標準パタンには5状態のHMM
を割り当て、単語接続部の標準パタンには3状態のHM
Mを割り当てている。図中31は語頭の無音と数字
“1”の間の接続部の標準パタン、32は数字“1”の
中心部分の標準パタン、33は数字“1”と数字“2”
の間の接続部の標準パタン、34は数字“2”の中心部
分の標準パタン、35は数字“2”と語尾の無音の間の
接続部の標準パタンである。単語中心部の標準パタンは
計10個あり、単語接続部の標準パタンは120ある
(語頭語尾の無音との接続があるため100より多くな
る)。これらの単語中心部の標準パタンと単語接続部の
標準パタンの連結においては以下のような規則に従うこ
とは言うまでもない。すなわち、連続数字XYの標準パ
タンの構成に当たっては、Xの単語中心部の標準パタン
とYの単語中心部の標準パタンとの間に単語接続部の標
準パタンXYをはさんで連結する。
る、連続数字音声認識用の標準パタンについて説明す
る。図3は、2桁数字“12”を単語中心部の標準パタ
ンと単語接続部の標準パタンを交互に連結して構成した
ものである。図中*は語頭および語尾の無音を示す。図
3の例では単語中心部の標準パタンには5状態のHMM
を割り当て、単語接続部の標準パタンには3状態のHM
Mを割り当てている。図中31は語頭の無音と数字
“1”の間の接続部の標準パタン、32は数字“1”の
中心部分の標準パタン、33は数字“1”と数字“2”
の間の接続部の標準パタン、34は数字“2”の中心部
分の標準パタン、35は数字“2”と語尾の無音の間の
接続部の標準パタンである。単語中心部の標準パタンは
計10個あり、単語接続部の標準パタンは120ある
(語頭語尾の無音との接続があるため100より多くな
る)。これらの単語中心部の標準パタンと単語接続部の
標準パタンの連結においては以下のような規則に従うこ
とは言うまでもない。すなわち、連続数字XYの標準パ
タンの構成に当たっては、Xの単語中心部の標準パタン
とYの単語中心部の標準パタンとの間に単語接続部の標
準パタンXYをはさんで連結する。
【0014】次に照合部の制御にて用いる有限状態オー
トマトンについて説明する。図4は1桁から10桁まで
の間の任意の数字列を表現する有限状態オートマトンで
ある。図中○で示したのが各状態、状態と状態の間が矢
印(アーク)で接続されている。認識が開始されるとま
ず状態1にはいる。状態間の各アークは1桁の数字を表
しており、1回状態遷移が生じる毎に1桁の数字を認識
する。図4の有限状態オートマトンは全部で11の状態
で構成される。状態1からスタートし、他のいずれかの
状態を経由して最終的に状態0に到って終了する。1桁
数字の場合には状態1から状態0に遷移して認識を終了
する。2桁数字の場合には状態1から状態2、状態0へ
と遷移して認識を終了する。N桁数字の場合には状態1
から状態2、状態3、…、状態N、状態0へと遷移して
認識を終了する。実際には、事前には入力される数字の
桁数が判らないので、これら全ての可能性を全て評価
し、最も高い確率を与えるものを認識結果とする。図4
中の各アークが1桁数字に対応しているが、本発明の標
準パタンを用いる場合にはこのアークの部分には単語中
心部分用の標準パタンを割り当て、各状態の中で単語接
続部用の標準パタンを用いて、この状態の中に入ってく
るアーク(単語)とこの状態から出ていくアーク(単
語)の間の接続を行なうこととなる。この接続におい
て、先に述べた規則に従うことは言うまでもない。図4
では、各アークが1桁数字を表していたが、符号(+、
−)や小数点(.)を表すアークを用いて有限状態オー
トマトンを構成することにより、小数点以下の部分を含
む実数を表現したり、負の数を表現したりすることも容
易にできる。
トマトンについて説明する。図4は1桁から10桁まで
の間の任意の数字列を表現する有限状態オートマトンで
ある。図中○で示したのが各状態、状態と状態の間が矢
印(アーク)で接続されている。認識が開始されるとま
ず状態1にはいる。状態間の各アークは1桁の数字を表
しており、1回状態遷移が生じる毎に1桁の数字を認識
する。図4の有限状態オートマトンは全部で11の状態
で構成される。状態1からスタートし、他のいずれかの
状態を経由して最終的に状態0に到って終了する。1桁
数字の場合には状態1から状態0に遷移して認識を終了
する。2桁数字の場合には状態1から状態2、状態0へ
と遷移して認識を終了する。N桁数字の場合には状態1
から状態2、状態3、…、状態N、状態0へと遷移して
認識を終了する。実際には、事前には入力される数字の
桁数が判らないので、これら全ての可能性を全て評価
し、最も高い確率を与えるものを認識結果とする。図4
中の各アークが1桁数字に対応しているが、本発明の標
準パタンを用いる場合にはこのアークの部分には単語中
心部分用の標準パタンを割り当て、各状態の中で単語接
続部用の標準パタンを用いて、この状態の中に入ってく
るアーク(単語)とこの状態から出ていくアーク(単
語)の間の接続を行なうこととなる。この接続におい
て、先に述べた規則に従うことは言うまでもない。図4
では、各アークが1桁数字を表していたが、符号(+、
−)や小数点(.)を表すアークを用いて有限状態オー
トマトンを構成することにより、小数点以下の部分を含
む実数を表現したり、負の数を表現したりすることも容
易にできる。
【0015】次に本発明の音声認識装置において用いる
標準パタンであるHMMの通常の学習方法について説明す
る。HMMは大量の学習用音声サンプルを用いてパラメタ
推定を行なうことにより実施する。図5に示したのはそ
の学習フローの概要を示すフローチャートである。まず
HMMの初期モデルを何らかの方法により作成し(10
1)、その後学習用音声サンプルを用いたパラメタ再推
定処理(102)を収束条件を満たすまで(103)繰
り返す。本学習方法は元々繰り返し推定アルゴリズムで
あり、繰り返し回数が増える毎にモデルの精度が向上す
る。したがって、初期モデルは必ずしも精度高く作成す
る必要はない。初期モデルの作成方法については何通り
かの方法があるが、例えば乱数を与えるような手法でよ
い。パラメタ再推定の方法については後述する。収束条
件判断についても何通りかの方法が考えられるが、例え
ば繰り返しの回数を固定して、一定回数(例えば5回)
の繰り返しを行なったら終了する様な方法で実用上問題
ない。
標準パタンであるHMMの通常の学習方法について説明す
る。HMMは大量の学習用音声サンプルを用いてパラメタ
推定を行なうことにより実施する。図5に示したのはそ
の学習フローの概要を示すフローチャートである。まず
HMMの初期モデルを何らかの方法により作成し(10
1)、その後学習用音声サンプルを用いたパラメタ再推
定処理(102)を収束条件を満たすまで(103)繰
り返す。本学習方法は元々繰り返し推定アルゴリズムで
あり、繰り返し回数が増える毎にモデルの精度が向上す
る。したがって、初期モデルは必ずしも精度高く作成す
る必要はない。初期モデルの作成方法については何通り
かの方法があるが、例えば乱数を与えるような手法でよ
い。パラメタ再推定の方法については後述する。収束条
件判断についても何通りかの方法が考えられるが、例え
ば繰り返しの回数を固定して、一定回数(例えば5回)
の繰り返しを行なったら終了する様な方法で実用上問題
ない。
【0016】収束条件が満足されたら繰り返しを終了
し、パラメタ推定により得られた各HMMのパラメタを格
納する(104)。
し、パラメタ推定により得られた各HMMのパラメタを格
納する(104)。
【0017】次にHMMのパラメタ再推定処理について説
明する。図5のフローチャートに示したようにHMMのパ
ラメタ再推定処理は学習フローの中で繰り返し行なわれ
る。ここではその一回分の処理を図6のフローチャート
を用いて説明する。HMMのパラメタ再推定処理は学習用
の音声サンプルを用いて行なう。学習用の音声サンプル
の個数がNであるとすると、N回類似のパラメタ推定計算
処理を行ない、これが終了した後に各HMMのパラメタを
新しい値に更新する。各音声サンプルを用いたパラメタ
推定処理においては、まず音声サンプルの発声内容に合
わせて認識基本単位のHMMを連結し(203)、この連
結したHMMに対してForward-Backwardアルゴリズムと呼
ばれる手法を用いてパラメタ推定を行なう(204)。
連結されたHMMを元の認識基本単位に分解することによ
り、各認識基本単位のHMMのパラメタ推定値が得られる
(205)。ただし、この時点では各認識基本単位のHM
Mのパラメタの更新は行なわず、全音声サンプルについ
てパラメタ推定値が得られた後にそれまでに得られた全
パラメタ推定値を総合して各認識基本単位のHMMのパラ
メタの更新を行なう(207)。なお、パラメタ推定
(Forward-Backwardアルゴリズム)の具体的な計算手続
きについてはKluwer Academic Publishers, Norwel,
MA, 1989 “Automatic Speech Recognition”,95頁-9
7頁に記載されている公知の方法を用いればよい。
明する。図5のフローチャートに示したようにHMMのパ
ラメタ再推定処理は学習フローの中で繰り返し行なわれ
る。ここではその一回分の処理を図6のフローチャート
を用いて説明する。HMMのパラメタ再推定処理は学習用
の音声サンプルを用いて行なう。学習用の音声サンプル
の個数がNであるとすると、N回類似のパラメタ推定計算
処理を行ない、これが終了した後に各HMMのパラメタを
新しい値に更新する。各音声サンプルを用いたパラメタ
推定処理においては、まず音声サンプルの発声内容に合
わせて認識基本単位のHMMを連結し(203)、この連
結したHMMに対してForward-Backwardアルゴリズムと呼
ばれる手法を用いてパラメタ推定を行なう(204)。
連結されたHMMを元の認識基本単位に分解することによ
り、各認識基本単位のHMMのパラメタ推定値が得られる
(205)。ただし、この時点では各認識基本単位のHM
Mのパラメタの更新は行なわず、全音声サンプルについ
てパラメタ推定値が得られた後にそれまでに得られた全
パラメタ推定値を総合して各認識基本単位のHMMのパラ
メタの更新を行なう(207)。なお、パラメタ推定
(Forward-Backwardアルゴリズム)の具体的な計算手続
きについてはKluwer Academic Publishers, Norwel,
MA, 1989 “Automatic Speech Recognition”,95頁-9
7頁に記載されている公知の方法を用いればよい。
【0018】
【発明の効果】以上本発明によれば、学習データの共有
性を高く保ちつつ、単語間の調音結合に対応できる標準
パタンを作成することができ、高精度な連続数字音声認
識を実現できる。
性を高く保ちつつ、単語間の調音結合に対応できる標準
パタンを作成することができ、高精度な連続数字音声認
識を実現できる。
【図1】本発明の連続数字音声認識装置の一実施例の構
成を示すブロック図。
成を示すブロック図。
【図2】本発明の連続数字音声認識装置で用いる隠れマ
ルコフモデルを説明する図。
ルコフモデルを説明する図。
【図3】本発明の連続数字音声認識装置で用いる単語中
心部の標準パタンと単語接続部の標準パタンの連結の仕
方を説明する図。
心部の標準パタンと単語接続部の標準パタンの連結の仕
方を説明する図。
【図4】1桁から10桁までの任意の数字列を表現する
有限状態オートマトン。
有限状態オートマトン。
【図5】本発明の標準パタンの学習方法を説明するフロ
ーチャート。
ーチャート。
【図6】本発明の標準パタンの学習方法におけるパラメ
タ推定処理を説明するフローチャート。
タ推定処理を説明するフローチャート。
1・・・音声入力手段、2・・・音声分析手段、3・・
・照合手段、4・・・判定手段5・・・標準パタン格納
手段、6・・・有限状態オートマトン 101・・・初期モデル作成処理、102・・・パラメ
タ再推定処理 204・・・Forward-Backwardアルゴリズム。
・照合手段、4・・・判定手段5・・・標準パタン格納
手段、6・・・有限状態オートマトン 101・・・初期モデル作成処理、102・・・パラメ
タ再推定処理 204・・・Forward-Backwardアルゴリズム。
Claims (7)
- 【請求項1】連続数字音声を入力する音声入力手段と、
入力された音声を分析して特徴ベクトルの時系列を出力
する音声分析手段と、連続数字音声を認識するための基
準となる標準パタンを格納しておく標準パタン格納手段
と、前記特徴ベクトルの時系列と前記標準パタンとを照
合する照合手段とからなり、前記照合手段における照合
結果に基づいて認識を行なう音声認識装置において、前
記標準パタン格納手段は、各数字の中心部分に対応する
標準パタンおよび連続する2つの数字の接続部分に対応
する標準パタンを格納しており、前記照合手段は前記数
字の中心部分の標準パタンと前記数字と数字の接続部分
の標準パタンとが交互に連結された標準パタンと前記入
力音声の特徴ベクトルの時系列とを照合することにより
認識結果を出力することを特徴とする音声認識装置。 - 【請求項2】前記標準パタンは、学習用の音声サンプル
に基づいて学習された前記確率モデルによる確立モデル
により構成されることを特徴とする請求項1記載の連続
数字音声認識装置。 - 【請求項3】前記確率モデルは、隠れマルコフモデルで
あることを特徴とする請求項2記載の連続数字音声認識
装置。 - 【請求項4】前記照合手段は、有限状態オートマトンの
制御により行うことを特徴とする請求項1または請求項
2または請求項3記載の連続数字音声認識装置。 - 【請求項5】前記有限状態オートマトンは、入力される
数字の桁数を制限するように構成されたことを特徴とす
る請求項4記載の連続数字音声認識装置。 - 【請求項6】前記有限状態オートマトンは、入力される
数字の数値の範囲を制限するように構成されたことを特
徴とする請求項4記載の連続数字音声認識装置。 - 【請求項7】前記標準パタンには「+(プラス)」「−
(マイナス)」の符号および小数点「.(てん)」の標
準パタンが設けられ、前記有限状態オートマトンは、入
力される数字を小数点以下の部分を含むような実数とし
て制限するように構成されたことを特徴とする請求項4
記載の連続数字音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8042461A JPH09237097A (ja) | 1996-02-29 | 1996-02-29 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8042461A JPH09237097A (ja) | 1996-02-29 | 1996-02-29 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09237097A true JPH09237097A (ja) | 1997-09-09 |
Family
ID=12636721
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8042461A Pending JPH09237097A (ja) | 1996-02-29 | 1996-02-29 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09237097A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006251568A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | グラマデータ生成方法およびグラマデータ生成プログラム |
| WO2012171300A1 (zh) * | 2011-06-13 | 2012-12-20 | 河北省电力公司超高压输变电分公司 | 电力设备的声音异常检测系统及检测方法 |
-
1996
- 1996-02-29 JP JP8042461A patent/JPH09237097A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006251568A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | グラマデータ生成方法およびグラマデータ生成プログラム |
| WO2012171300A1 (zh) * | 2011-06-13 | 2012-12-20 | 河北省电力公司超高压输变电分公司 | 电力设备的声音异常检测系统及检测方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
| EP0387602B1 (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
| US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
| US5873061A (en) | Method for constructing a model of a new word for addition to a word model database of a speech recognition system | |
| JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
| JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
| CN112542170B (zh) | 对话系统、对话处理方法和电子装置 | |
| JPS61177493A (ja) | 音声認識方法 | |
| JP2002358097A (ja) | 音声認識装置 | |
| JPH09237097A (ja) | 音声認識装置 | |
| JP3914709B2 (ja) | 音声認識方法およびシステム | |
| JPH1097275A (ja) | 大語彙音声認識装置 | |
| JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
| US7818172B2 (en) | Voice recognition method and system based on the contexual modeling of voice units | |
| JP2000099084A (ja) | 音声認識方法及びその装置 | |
| JPH1078793A (ja) | 音声認識装置 | |
| JPH11212592A (ja) | パタン認識装置および標準パタンの作成方法 | |
| JPH10198392A (ja) | 音声認識方法 | |
| JPH1097270A (ja) | 音声認識装置 | |
| JP2000330586A (ja) | 音声認識方法および音声認識装置 | |
| JPH10254481A (ja) | 音声認識方法 | |
| JP2000122693A (ja) | 話者認識方法および話者認識装置 | |
| JPH04271397A (ja) | 音声認識装置 | |
| JPH07219588A (ja) | 音声処理装置及び方法 | |
| JPH05173588A (ja) | 音声認識方法 |