JPH09237097A

JPH09237097A - 音声認識装置

Info

Publication number: JPH09237097A
Application number: JP8042461A
Authority: JP
Inventors: Akio Amano; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-02-29
Filing date: 1996-02-29
Publication date: 1997-09-09

Abstract

(57)【要約】【課題】本発明の目的は、単語間の調音結合に対応で
き、かつ学習データの共有性の高くなるような高精度な
連続数字音声認識を実現することにある。【解決手段】上記本発明の目的は、標準パタンとして、
単語の中心部分を表わす標準パタンと、単語の接続部分
を表わす標準パタンを設け、これらを交互に連結するこ
とにより単語列の標準パタンを構成するようにすること
により達成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声で発声された数
字を認識するような連続数字音声認識装置に関する。

【０００２】

【従来の技術】従来、連続数字音声認識装置における標
準パタンの単位としては、単語単位の標準パタンを用い
るのが一般的である。日本語の任意の文章を認識対象に
したり、大語彙の単語認識（例えば日本人の全人名等）
を対象とするような音声認識装置では、単語単位に標準
パタンを用意することは、標準パタンの個数が多くなり
すぎて実際問題として不可能となる。しかしながら、１
０数字のみを認識対象とするような小語彙の数字音声認
識装置では、単語単位（一桁数字単位）の標準パタンを
用いても、標準パタンの個数は１０個程度ですむ。

【０００３】単語単位に標準パタンを用意すると、単語
内の調音結合は標準パタンの中に組み込まれ、単語内の
調音結合には対応できることになる。しかしながら、単
語と単語の間に生じる調音結合には対応できない。

【０００４】単語と単語の間に生じる調音結合に対応す
る手法としては、（社）日本音響学会、音声研究会資
料、資料番号Ｓ８４-６４“半単語対標準パターンを用
いた連続数字音声認識”に記載のような例がある。この
例では、先行する数字の中心部分から後続する数字の中
心部分までの範囲をひとまとまりの単位として標準パタ
ンとする。このように数字と数字の間の部分を標準パタ
ンとするため、標準パタンの中に単語と単語の間に生じ
る調音結合が取り込まれ、単語間の調音結合に対応でき
ることになる。この方法では、単語の対毎に標準パタン
を用意するので標準パタンの個数は２桁数字の組み合わ
せの個数、すなわち１００個となる。

【０００５】単語と単語の間に生じる調音結合に対応す
る他の従来例として、電子情報通信学会技術研究報告、
ＳＰ９５-２３“連続数字音声認識における音響モデル
学習法の検討”に記載のような例がある。この例では、
単語をhead、body、tailの３部分に分割し、head部分は
先行する単語毎に異なるモデルを用意する。同様にtail
部分も後続する単語毎に異なるモデルを用意する。head
部分に先行する単語との間に生じる調音結合が取り込ま
れ、tail部分に後続する単語との間に生じる調音結合が
取り込まれ、単語間の調音結合に対応できることにな
る。数字の場合、body部分が１０種類、各body毎にそれ
ぞれhead部分が１０種類、tail部分が１０種類となるの
で標準パタンの総数は２１０個となる。

【０００６】

【発明が解決しようとする課題】上記２種の従来技術で
は、単語間の調音結合に対応した標準パタンが用意で
き、連続数字に対する認識精度が向上する。しかしなが
ら、第１の従来例では、２桁数字の組合せにおいてしか
標準パタンの学習ができず、学習データの共有性が悪い
という問題がある。また、第２の従来例でも、body部分
に関しては学習データの共有性は良いものの、head部
分、tail部分で第１の従来例と同様に学習データの共有
性が悪いという問題がある。さらに、第２の従来例で
は、head部分、body部分、tail部分の全ての組み合わせ
を満たす学習データが必要となり、１０００種もの学習
データが必要になるという問題がある。

【０００７】本発明の目的は上記従来技術における単語
間の調音結合に対応する能力を生かしながら、従来技術
で問題であった学習データの共有性の悪さを回避する手
段を提供することにある。

【０００８】

【課題を解決するための手段】上記本発明の目的は、標
準パタンとして、単語の中心部分を表わす標準パタン
と、単語の接続部分を表わす標準パタンを設け、これら
を交互に連結することにより単語列の標準パタンを構成
するようにすることにより達成される。

【０００９】単語の中心部分を表わす標準パタンは数字
の場合計１０種類しかなく、学習データの共有性を高く
できる。単語の接続部分を表わす標準パタンは数字の場
合計１００種類あり、学習データの共有性はやや悪くな
るが、単語間の調音結合に対応できる。以上により、学
習データの共有性を高く保ちつつ、単語間の調音結合に
対応できる標準パタンを作成することができ、高精度な
音声認識を実現できる。

【００１０】

【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。

【００１１】図１は本発明の連続数字音声認識装置の一
実施例の構成を示すブロック図である。入力された音声
は音声入力手段１において電気信号に変換される。電気
信号に変換された音声はさらに音声分析手段２において
分析され、特徴ベクトルの時系列が出力される。標準パ
タン格納手段５に予め格納されている標準パタンと前記
入力音声の特徴ベクトル時系列とが照合手段３にて照合
され、認識対象の各単語毎にスコアが求められる。な
お、照合は有限状態オートマトン６の制御の下に行なわ
れる。判定手段４では前記各単語のスコアに基づいて認
識結果を出力する。

【００１２】次に本発明の中で用いている標準パタンに
ついて説明する。本発明では、標準パタンとして確率モ
デルを採用している。図２は本発明の中で用いている確
率モデル（Hidden Markov Model、以下HMMと略す）を
示した図である。図中各円は状態を表わし、矢印は状態
間の遷移を表わす。矢印に添えた記号ａijは状態ｉから
状態ｊへの遷移が生じる確率を表わし、記号ｂij（ｋ）
は状態ｉから状態ｊへの遷移が生じたときに第ｋ番目の
分類に属する特徴ベクトルが出力される確率を表わす。
入力音声の特徴ベクトル時系列が与えられると、前記状
態遷移確率、出力確率を用いて入力音声の特徴ベクトル
時系列がこの確率モデル（HMM）から出力された確率を
計算することができる。前記図１の中の照合手段３で
は、この確率計算の処理が行なわれる。確率計算処理の
詳細に関しては、Kluwer AcademicPublishers， Norwe
l， MA， 1989 “Automatic Speech Recognition”，95
頁-97頁に記載されている公知の方法を用いればよい。

【００１３】さらに図３を用いて、本発明の主眼であ
る、連続数字音声認識用の標準パタンについて説明す
る。図３は、２桁数字“１２”を単語中心部の標準パタ
ンと単語接続部の標準パタンを交互に連結して構成した
ものである。図中＊は語頭および語尾の無音を示す。図
３の例では単語中心部の標準パタンには５状態のＨＭＭ
を割り当て、単語接続部の標準パタンには３状態のＨＭ
Ｍを割り当てている。図中３１は語頭の無音と数字
“１”の間の接続部の標準パタン、３２は数字“１”の
中心部分の標準パタン、３３は数字“１”と数字“２”
の間の接続部の標準パタン、３４は数字“２”の中心部
分の標準パタン、３５は数字“２”と語尾の無音の間の
接続部の標準パタンである。単語中心部の標準パタンは
計１０個あり、単語接続部の標準パタンは１２０ある
（語頭語尾の無音との接続があるため１００より多くな
る）。これらの単語中心部の標準パタンと単語接続部の
標準パタンの連結においては以下のような規則に従うこ
とは言うまでもない。すなわち、連続数字ＸＹの標準パ
タンの構成に当たっては、Ｘの単語中心部の標準パタン
とＹの単語中心部の標準パタンとの間に単語接続部の標
準パタンＸＹをはさんで連結する。

【００１４】次に照合部の制御にて用いる有限状態オー
トマトンについて説明する。図４は１桁から１０桁まで
の間の任意の数字列を表現する有限状態オートマトンで
ある。図中○で示したのが各状態、状態と状態の間が矢
印（アーク）で接続されている。認識が開始されるとま
ず状態１にはいる。状態間の各アークは１桁の数字を表
しており、１回状態遷移が生じる毎に１桁の数字を認識
する。図４の有限状態オートマトンは全部で１１の状態
で構成される。状態１からスタートし、他のいずれかの
状態を経由して最終的に状態０に到って終了する。１桁
数字の場合には状態１から状態０に遷移して認識を終了
する。２桁数字の場合には状態１から状態２、状態０へ
と遷移して認識を終了する。Ｎ桁数字の場合には状態１
から状態２、状態３、…、状態Ｎ、状態０へと遷移して
認識を終了する。実際には、事前には入力される数字の
桁数が判らないので、これら全ての可能性を全て評価
し、最も高い確率を与えるものを認識結果とする。図４
中の各アークが１桁数字に対応しているが、本発明の標
準パタンを用いる場合にはこのアークの部分には単語中
心部分用の標準パタンを割り当て、各状態の中で単語接
続部用の標準パタンを用いて、この状態の中に入ってく
るアーク（単語）とこの状態から出ていくアーク（単
語）の間の接続を行なうこととなる。この接続におい
て、先に述べた規則に従うことは言うまでもない。図４
では、各アークが１桁数字を表していたが、符号（＋、
−）や小数点（．）を表すアークを用いて有限状態オー
トマトンを構成することにより、小数点以下の部分を含
む実数を表現したり、負の数を表現したりすることも容
易にできる。

【００１５】次に本発明の音声認識装置において用いる
標準パタンであるHMMの通常の学習方法について説明す
る。HMMは大量の学習用音声サンプルを用いてパラメタ
推定を行なうことにより実施する。図５に示したのはそ
の学習フローの概要を示すフローチャートである。まず
HMMの初期モデルを何らかの方法により作成し（１０
１）、その後学習用音声サンプルを用いたパラメタ再推
定処理（１０２）を収束条件を満たすまで（１０３）繰
り返す。本学習方法は元々繰り返し推定アルゴリズムで
あり、繰り返し回数が増える毎にモデルの精度が向上す
る。したがって、初期モデルは必ずしも精度高く作成す
る必要はない。初期モデルの作成方法については何通り
かの方法があるが、例えば乱数を与えるような手法でよ
い。パラメタ再推定の方法については後述する。収束条
件判断についても何通りかの方法が考えられるが、例え
ば繰り返しの回数を固定して、一定回数（例えば５回）
の繰り返しを行なったら終了する様な方法で実用上問題
ない。

【００１６】収束条件が満足されたら繰り返しを終了
し、パラメタ推定により得られた各HMMのパラメタを格
納する（１０４）。

【００１７】次にHMMのパラメタ再推定処理について説
明する。図５のフローチャートに示したようにHMMのパ
ラメタ再推定処理は学習フローの中で繰り返し行なわれ
る。ここではその一回分の処理を図６のフローチャート
を用いて説明する。HMMのパラメタ再推定処理は学習用
の音声サンプルを用いて行なう。学習用の音声サンプル
の個数がNであるとすると、N回類似のパラメタ推定計算
処理を行ない、これが終了した後に各HMMのパラメタを
新しい値に更新する。各音声サンプルを用いたパラメタ
推定処理においては、まず音声サンプルの発声内容に合
わせて認識基本単位のHMMを連結し（２０３）、この連
結したHMMに対してForward-Backwardアルゴリズムと呼
ばれる手法を用いてパラメタ推定を行なう（２０４）。
連結されたHMMを元の認識基本単位に分解することによ
り、各認識基本単位のHMMのパラメタ推定値が得られる
（２０５）。ただし、この時点では各認識基本単位のHM
Mのパラメタの更新は行なわず、全音声サンプルについ
てパラメタ推定値が得られた後にそれまでに得られた全
パラメタ推定値を総合して各認識基本単位のHMMのパラ
メタの更新を行なう（２０７）。なお、パラメタ推定
（Forward-Backwardアルゴリズム）の具体的な計算手続
きについてはKluwer Academic Publishers， Norwel，
MA， 1989 “Automatic Speech Recognition”，95頁-9
7頁に記載されている公知の方法を用いればよい。

【００１８】

【発明の効果】以上本発明によれば、学習データの共有
性を高く保ちつつ、単語間の調音結合に対応できる標準
パタンを作成することができ、高精度な連続数字音声認
識を実現できる。

【図面の簡単な説明】

【図１】本発明の連続数字音声認識装置の一実施例の構
成を示すブロック図。

【図２】本発明の連続数字音声認識装置で用いる隠れマ
ルコフモデルを説明する図。

【図３】本発明の連続数字音声認識装置で用いる単語中
心部の標準パタンと単語接続部の標準パタンの連結の仕
方を説明する図。

【図４】１桁から１０桁までの任意の数字列を表現する
有限状態オートマトン。

【図５】本発明の標準パタンの学習方法を説明するフロ
ーチャート。

【図６】本発明の標準パタンの学習方法におけるパラメ
タ推定処理を説明するフローチャート。

【符号の説明】

１・・・音声入力手段、２・・・音声分析手段、３・・
・照合手段、４・・・判定手段５・・・標準パタン格納
手段、６・・・有限状態オートマトン１０１・・・初期モデル作成処理、１０２・・・パラメ
タ再推定処理２０４・・・Forward-Backwardアルゴリズム。

Claims

【特許請求の範囲】

【請求項１】連続数字音声を入力する音声入力手段と、
入力された音声を分析して特徴ベクトルの時系列を出力
する音声分析手段と、連続数字音声を認識するための基
準となる標準パタンを格納しておく標準パタン格納手段
と、前記特徴ベクトルの時系列と前記標準パタンとを照
合する照合手段とからなり、前記照合手段における照合
結果に基づいて認識を行なう音声認識装置において、前
記標準パタン格納手段は、各数字の中心部分に対応する
標準パタンおよび連続する２つの数字の接続部分に対応
する標準パタンを格納しており、前記照合手段は前記数
字の中心部分の標準パタンと前記数字と数字の接続部分
の標準パタンとが交互に連結された標準パタンと前記入
力音声の特徴ベクトルの時系列とを照合することにより
認識結果を出力することを特徴とする音声認識装置。
【請求項２】前記標準パタンは、学習用の音声サンプル
に基づいて学習された前記確率モデルによる確立モデル
により構成されることを特徴とする請求項１記載の連続
数字音声認識装置。
【請求項３】前記確率モデルは、隠れマルコフモデルで
あることを特徴とする請求項２記載の連続数字音声認識
装置。
【請求項４】前記照合手段は、有限状態オートマトンの
制御により行うことを特徴とする請求項１または請求項
２または請求項３記載の連続数字音声認識装置。
【請求項５】前記有限状態オートマトンは、入力される
数字の桁数を制限するように構成されたことを特徴とす
る請求項４記載の連続数字音声認識装置。
【請求項６】前記有限状態オートマトンは、入力される
数字の数値の範囲を制限するように構成されたことを特
徴とする請求項４記載の連続数字音声認識装置。
【請求項７】前記標準パタンには「＋（プラス）」「−
（マイナス）」の符号および小数点「．（てん）」の標
準パタンが設けられ、前記有限状態オートマトンは、入
力される数字を小数点以下の部分を含むような実数とし
て制限するように構成されたことを特徴とする請求項４
記載の連続数字音声認識装置。