JPH11194792A

JPH11194792A - 音声認識装置および音声認識方法ならびに該方法を記録した記録媒体

Info

Publication number: JPH11194792A
Application number: JP10000117A
Authority: JP
Inventors: Akio Amano; 明雄天野; Toshiyuki Odaka; 俊之小高; Yasunari Obuchi; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-01-05
Filing date: 1998-01-05
Publication date: 1999-07-21

Abstract

(57)【要約】【課題】処理量が少なく認識精度の劣化のない大語彙
の音声認識の実現。【解決手段】音声入力手段１から入力された音声を、
音声分析手段２で分析して特徴ベクトルの時系列を出力
し、音声検出手段３で音声区間を判断する。音響照合手
段４において、該特徴ベクトルの時系列と、標準パタン
格納手段５に格納されている音声基本単位に対する標準
パタンを照合し、単語評価手段６において、前記照合結
果に基づいて認識対象を評価する。音響照合手段４で
は、各標準パタンを前記入力音声の特徴ベクトル時系列
の全区間にわたって照合して各標準パタン毎に照合結果
を時系列として求める。単語評価手段６では、前記時系
列として得られた各標準パタン毎の照合結果と認識対象
語の単語を音声基本単位の並びとして記述する単語辞書
７の情報に基づいて各単語を評価し、前記評価結果に従
って認識結果を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音節や音素（子
音，母音）等の音声言語表現上の基本的な単位を標準パ
タンとして用いるような音声認識技術に係り、特に、標
準パタンが特徴ベクトルの出現確率分布で構成されるよ
うな音声認識において大語彙の音声認識を少ない処理量
で実現するようにした単語／文音声認識装置，そのため
のマイコンデバイス，および音声認識方法，ならびにそ
の認識方法を記録したコンピュータで読取り可能な記録
媒体に関する。

【０００２】

【従来の技術】音声認識装置、特に標準パタンが特徴ベ
クトルの出現確率分布で構成されるような音声認識装置
では、確率計算が認識処理の大部分を占める。通常の音
声認識手法では前記確率計算の回数は認識対象となる単
語の語数に比例し、大語彙の音声認識の場合には膨大な
処理量が必要となり、実時間音声認識を実現するために
大がかりなハードウェア構成が必要となっていた。この
ような音声認識に必要な膨大な処理量を削減する方法と
しては、従来からいくつかの方法が提案されている。以
下代表的な処理量削減手法を説明する。

【０００３】第１の従来技術として「ビームサーチ」呼
ばれる技術がある（電子情報通信学会論文誌 D Vol.J7
1-D No.9(1988年9月) PP.1650-1659参照）。「ビーム
サーチ」とは、認識対象の候補の内、計算過程で可能性
が低いと判断された候補について、途中で計算を打ち切
るようにした手法である。認識対象候補の内、可能性の
高い方から一定個数の候補についてのみ計算をするよう
なやり方や、認識計算に対して閾値を設定し、閾値以上
の候補についてのみ計算をするやり方などがある。いず
れの方法にしても、認識候補全体に対して計算を行なう
のに対して一定の比率で計算が削減される。

【０００４】なお、途中で計算を打ち切る「ビームサー
チ」に対して、全ての候補に対して最後まで計算をする
手法が「フルサーチ」と呼ばれる技術である。「フルサ
ーチ」の場合、全ての候補に対して最後まで計算をする
ので最適解が得られることが保証される。計算の途中過
程で可能性が低いと判断された候補でも、最後まで計算
を続けると第１位の正解となる場合もあり、途中で計算
を打ち切る「ビームサーチ」の場合には最適解が保証さ
れない。

【０００５】第２の従来技術として、まず音響レベルで
の処理を行なって音素あるいは音節認識結果を求め、こ
の結果に対して言語処理を施して最終的な認識結果を得
るような例がある（第16回応用情報学研究センター・シ
ンポジウム「音声認識の現状と将来」東北大応用情報
学研究センター，'90.5 29-30参照）。この例では、音
素や音節の単位での認識を行い、その結果を音素ラティ
スや音節ラティスといった、音素単位や音節単位での複
数仮説として求め、音素ラティスや音節ラティスを単語
辞書と照合し認識結果を求める。ここで行なう照合は記
号レベルでの照合であり確率計算などを必要とする音響
レベルでの照合処理に比べると処理量は大幅に少なくて
すむ。本手法によれば、音響照合処理は音素あるいは音
節の数だけで済み大幅な計算量削減ができる。しかしな
がら、音響照合レベルで判断を下してしまうため、音素
ラティスや音節ラティスに正解候補が含まれない場合に
は、辞書照合レベルではどのような処理を施しても正解
を得ることができない。

【０００６】

【発明が解決しようとする課題】上述したように、上記
第１の従来技術は、ある一定の比率で処理量を削減する
ことができるという利点があるが、認識対象の語数に比
例して音響照合処理が増加してしまうという問題点があ
る。また、上記第２の従来技術は、音素または音節単位
で認識結果を求めてしまうため、音響照合処理の処理量
を一定の処理量に抑えることができるという利点がある
が、音響処理で音素単位あるいは音節単位に結果を求め
てしまうため、ここで候補から落ちた仮説に対しては最
終結果が得られないという問題点がある。本発明の目的
は、上記問題点を解消し、認識対象の全仮説に対して最
終的な評価結果が得られ、かつ音響照合処理量が認識対
象の語数に比例せず、一定の処理量で抑えられるよう
な、処理量が小さくかつ認識精度の劣化の少ない単語音
声認識装置や文音声認識装置，そのためのマイコンデバ
イス，単語や文の音声認識方法，ならびに、該認識方法
を記録したコンピュータで読取り可能な記録媒体を提供
することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明の単語音声認識は、音節あるいは音節連鎖，
または音素等の音声基本単位に対する標準パタンを入力
音声の特徴ベクトル時系列の全区間にわたって照合して
各標準パタン毎に照合結果を時系列として求め、音節あ
るいは音節連鎖，または音素等の音声基本単位の並びと
して記述された単語辞書と前記時系列として得られた各
標準パタン毎の照合結果に基づいて各単語を評価して認
識結果を求めるようにしたものである。

【０００８】また、本発明の文音声認識は、さらに認識
対象の文を単語の並びとして記述する文法を格納してお
き、各標準パタン毎の照合結果と単語辞書と前記文法に
基づいて各文を評価して認識結果を求めるようにしたも
のである。

【０００９】さらに、本発明のマイコンデバイスは、上
記認識するために必要な手段を半導体チップ上に搭載す
ることによって構成され、また、本発明の記憶媒体は、
上記単語または文音声認識を行う手順（ステップ）をプ
ログラムコード化して記録したＣＤ−ＲＯＭなどであ
る。

【００１０】

【発明の実施の形態】以下、図面を用いて本発明の実施
例を詳細に説明する。標準パタンの単位としては音節，
音節連鎖，音素など色々な単位を考えることができる
が、ここでは簡単のため音節を単位とする場合について
説明する。なお、以下では、主として単語音声認識の場
合について詳細に説明するが、本発明は文音声認識に適
用することができることはいうまでもない。すなわち、
以下の実施例と同様の音節単位の標準パタンと単語辞書
の他に、認識対象の文を単語の並びとして記述する文法
を用い、音節単位の照合を組み合わせ、該単語辞書と該
文法に基づいて連続的に発声された文章や会話文を認識
することも可能である。

【００１１】図１は、本発明の単語音声認識装置の一実
施例の機能ブロック図である。入力された音声は、ま
ず、音声入力手段１において電気信号に変換される。電
気信号に変換された音声はさらに音声分析手段２におい
て分析され、特徴ベクトルの時系列が出力される。この
特徴ベクトルの時系列は音声検出手段３に入力される。
音声検出手段３において音声区間であると判断された区
間の特徴ベクトルの時系列は音響照合手段４に入力され
る。音響照合手段４おいて、入力された特徴ベクトルの
時系列が標準パタン格納手段５に格納された全ての音節
標準パタンと照合され、各音節標準パタン毎に照合結果
の時系列が得られる。単語評価手段６では、前記各音節
標準パタン毎に照合結果の時系列と単語辞書７に格納さ
れた単語辞書情報に基づいて各単語の評価を行ない、各
単語毎に評価値を求める。判定手段８では各単語に与え
られた評価値に基づいて最終的な認識結果を求め出力す
る。例えば評価値の高い上位５候補の単語を出力する。

【００１２】本発明の音声認識装置においては、標準パ
タンを特徴ベクトル時系列として用意しパタンマッチン
グにより照合を実現することもできるし、また、標準パ
タンを特徴ベクトルの出力確率分布の時系列として用意
し、確率計算により照合を実現することもできる。ここ
では後者の特徴ベクトルの出力確率分布に基づく方法、
すなわち、隠れマルコフモデル（ＨＭＭ：Ｈidden Ｍar
kov Ｍodels）に基づいて実現する場合について説明す
る。

【００１３】まず、ＨＭＭについて図２を用いて簡単に
説明する。図２は、本発明で用いる認識基本単位の隠れ
マルコフモデル（ＨＭＭ）を説明するための図である。
同図において、各円は状態を表わし、矢印は状態間の遷
移を表わす。矢印に添えた記号ａ(i,j)は状態ｉから状
態ｊへの遷移が生じる確率を表わし、記号ｂ(i,j,ｖ)は
状態ｉから状態ｊへの遷移が生じたときに特徴ベクトル
ｖが出力される確率を表わす。

【００１４】ＨＭＭは、ｂ(i,j,ｖ)の表現形態により大
きく２つの種類、離散出力確率分布型ＨＭＭと連続出力
確率分布型ＨＭＭに分かれる。離散出力確率分布型ＨＭ
Ｍでは特徴ベクトルｖをベクトル量子化し、その各量子
化コード毎に予めｂ(i,j,ｖ)の値を求めてテーブル化
し、確率計算をテーブル参照により行なう。連続出力確
率型ＨＭＭではある分布関数を仮定し、特徴ベクトルｖ
を用いて関数計算することにより確率を求める。分布関
数としてはガウス分布がよく使われる。ガウス分布を用
いる場合ｂ(i,j,ｖ)は式（１）により求められる。

【数１】ここで、ｖ，μ：列ベクトルｔ：転置 Σ ：行列（共分散行列）｜Σ｜：Σの行列式の計算

【００１５】式（１）では確率分布を複数のガウス分布
の重み付き和で表す場合を示している。確率分布を単一
のガウス分布で表す場合もあるが、不特定話者の音声認
識では複数のガウス分布の重み付き和とするのが一般的
である。ｂ(i,j,ｖ)は、特徴ベクトルｖを得たときの各
状態遷移に対応する出現確率（あるいは確率密度）であ
るが、音響照合処理においてはさらに遷移確率ａ(ij)も
用いてＨＭＭの各状態の累積の確率計算を行なう。各状
態の累積の確率計算は動的計画法、例えば、ビタビアル
ゴリズムと呼ばれる計算法を用いて効率的に計算でき
る。式（２）〜（４）にビタビアルゴリズムによる計算
の漸化式を示す。ここで、γ(i,t)は、特徴ベクトル時
系列Ｖ1，Ｖ2…Ｖｔを観測し、ＨＭＭの第ｉ状態にいる
確率である。

【００１６】上記式（２）〜（４）の漸化式計算により
ＨＭＭの各状態における累積確率γ(i,t)求めることが
できる。式（１）に従って確率計算を行なう処理から
（２）〜（４）の漸化式に従って確率累積計算を行なう
処理までの一連の処理が音響照合手段４で行なわれる処
理である。なお標準パタン格納手段５には、図２で説明
したようなＨＭＭが音節あるいは音節連鎖，または音素
等の音声基本単位毎に格納されており、音響照合手段４
で特徴ベクトルｖが得られると標準パタン格納手段５に
格納された全てのＨＭＭについて確率累積計算を行な
う。

【００１７】以上の説明はＨＭＭとして連続型のＨＭＭ
を使い、さらに連続型のＨＭＭを複数のガウス分布の混
合で表現する場合についての説明である。しかし、以後
の説明ではＨＭＭとして特に半連続型と呼ばれる種類の
ＨＭＭを使用し、さらに処理量の削減を図った場合につ
いて説明する。

【００１８】図３は、半連続型のＨＭＭを利用した場合
の本発明の単語音声認識装置の一実施例の詳細な機能ブ
ロック図である。図１を用いて本発明の単語音声認識装
置の一実施例の機能を説明したが、図３は図１中の音響
照合手段４および標準パタン格納手段５を半連続型のＨ
ＭＭに合わせて詳細化したものである。半連続型のＨＭ
Ｍを用いる場合、音響照合処理は３段階の処理となる。
第１段階が確率計算手段４１における確率計算，第２段
階が確率混合手段４２における確率混合，第３段階が確
率累積手段４３における確率累積である。第１段階の確
率計算手段４１における確率計算は特徴ベクトルｖから
式（１）の中の個々のガウス分布に従った確率を求める
計算であり、第２段階の確率混合手段４２における確率
混合は個々のガウス分布の確率計算結果からこれらを混
合してｂ(i,j,ｖ)を求める計算であり、第３段階の確率
累積手段４３における確率累積は式（２）〜（４）の漸
化式に従って確率累積を行なう処理である。

【００１９】実際に存在する確率分布の個数は、認識基
本単位の個数をＮu，認識基本単位のＨＭＭの状態数を
Ｓu，各状態における分布の個数をＭとすれば、Ｎu×Ｓ
u×Ｍ個となる。Ｎu＝４００，Ｓu＝２，Ｍ＝３とした
場合、実在する確率分布の個数は２４００個となる。半
連続型のＨＭＭを使わない場合にはこれら全ての確率分
布計算を行なわなければならないが、半連続型ＨＭＭを
使う場合には処理量が大幅に削減される。半連続型ＨＭ
Ｍでは、これら２４００個ある確率分布のうち類似の確
率分布はまとめてしまい、代表的な確率分布の計算だけ
で済ませるようにする。例えば、上記の２４００個の確
率分布を２５６個のクラスタにクラスタリングし、各ク
ラスタ毎に代表分布を作成し、代表分布の計算のみで実
際の確率分布の計算を代用する。以上により、半連続型
ＨＭＭを使わないと２４００回必要な確率計算を２５６
回で済ませるようにする。

【００２０】代表分布格納手段５１には上記のような代
表分布を格納しておく。本実施例では確率分布としてガ
ウス分布を用いるものとし、さらに共分散行列について
は対角成分のみを持つものとする。代表分布格納手段５
１には各ガウス分布の平均ベクトルと共分散行列（対角
成分のみ）を格納する。代表分布格納手段５１には図４
に示すように、代表分布の番号１０１に対して、対応す
る平均ベクトル１０２、共分散行列（対角成分のみ）１
０３が格納される。これを用いて確率計算手段４１によ
り確率計算する。このような代表分布を持つようにする
ことにより各ＨＭＭは固有の確率分布をもつ代わりに代
表分布の中のいずれかを持つようになる。代表分布の中
のいずれかであることを指すためには、その代表分布の
番号がわかればよいため、各標準パタンは代表分布の番
号を用いて表すようになる。半連続型ＨＭＭ格納手段５
２にはこのような代表分布の番号を用いて記述されたＨ
ＭＭが格納される。半連続型ＨＭＭ格納手段５２に格納
されている各半連続型ＨＭＭは図５に示すようなものと
なる。

【００２１】確率計算手段４１では代表分布格納手段５
１に格納された各代表分布について、音声検出手段３よ
り得られる特徴ベクトルｖを用いて、各代表分布の確率
を求める。確率値を求めるにはガウス分布の計算式
（５）を用いる。

【数５】

【００２２】確率計算手段４１で計算された確率値は図
６に示すように、代表分布の番号２０１と、各代表分布
に対する確率値２０２が対となって求められる。確率混
合手段４２では半連続型ＨＭＭ格納手段５２に格納され
た全てのＨＭＭの全ての状態について、図６に示された
確率計算結果を参照して確率混合を行ない、各状態にお
ける出力確率ｂ(i,j,ｖ)を求める。確率累積手段４３で
は各状態における出力確率ｂ(i,j,ｖ)を受け取り、ビタ
ビアルゴリズムによる計算を実行し、全てのＨＭＭの全
ての状態について累積確率を求めて出力する。なお、こ
こで行なう確率累積計算はワードスポットなどで行なわ
れる連続ビタビ計算であり、厳密には漸化式も（２）〜
（４）の漸化式とは異なる。また、使用するＨＭＭの構
造も図５に示したＨＭＭとはわずかに異なる。実際に使
用するＨＭＭの構造を図７に示す。図７のＨＭＭが図５
のＨＭＭと異なるのは、セルフループを持たない状態が
先頭に追加された点である。図５のＨＭＭでは始端固定
の照合しかできないが、図７の構造をとることにより始
端フリーの照合が行なえるようになる。始端フリーの照
合を行なうための漸化式は（２）〜（４）の漸化式とわ
ずかに異なる。

【００２３】式（６）〜（８）に始端フリーの照合を行
なうための漸化式を示す。（６）式は（２）と同じであるが、（７）式のように各
時刻でγ(i,t)に１を与える点、（８）式のように最大
値判定を行なう対象が照合経路長Ｌで正規化される点が
異なる。

【００２４】なお、（８）式の最大値選択において、い
ずれの状態が選択されたかの情報を記憶しておくことに
より、照合経路の始点情報を求めることができる。この
ようにして確率累積手段４３では各ＨＭＭについて図８
に示すような音響照合結果時系列を算出する。図８に示
すように、音響照合結果時系列には各ＨＭＭのスコアと
して各時刻毎３０１に確率累積値３０２が求められ、か
つ、そのような確率累積値を与える照合経路の始点情報
３０３も与えられる。図８は、ある一つのＨＭＭについ
ての照合結果を示しているが、半連続型ＨＭＭ格納手段
５２に格納されている全てのＨＭＭについて同様の照合
結果が求められる。図８の時刻ｔの欄を見ると、このＨ
ＭＭは入力音声の時刻２３から時刻ｔまでの間で照合
し、スコア０.００９１７４が得られることが判る。

【００２５】単語評価手段６では、前記各ＨＭＭ毎に得
られた照合結果の時系列と単語辞書７に格納された単語
辞書情報に基づいて各単語の評価を行ない、各単語毎に
評価値を求める。図９は、単語評価手段６で行なう処理
を説明するためのフローチャートである。図９のフロー
チャートは、１単語分の単語評価過程の処理を表してい
る。本アルゴリズムは単語を構成する後方の音節から前
方の音節に遡りながら評価するような手法である。いま
評価しようとしている単語がＮ音節で構成されるものと
し、処理対象の音節番号ｉをＮ，スコアを０，探索開始
時刻ｔを入力音声の終端時刻Ｔにセットする（ステップ
８０１）。

【００２６】次に、入力音声の終端（時刻＝Ｔ）からあ
る範囲内で最終音節に対応するＨＭＭの照合結果時系列
の最大値を求める。この最大値をＳmax，最大値を与え
る時刻をｔmaxとする。照合結果時系列情報の中には始
端情報が含まれているのでｔmaxに対応する始端時刻ｔs
tartを求めることができる（ステップ８０２）。ｉ＝ｉ
−１とし、以上求められたＳmaxを当該単語のスコアに
足し込み、新たな探索開始点ｔにｔstartをセットして
一つ前の音節に対する探索の準備とする（ステップ８０
３）。処理対象の音節番号ｉが０となるまで、ステップ
８０２，ステップ８０３を繰り返す。処理対象の音節番
号ｉが０となったら（ステップ８０４：Ｙ）、その単語
に関する処理が終了したことになるので計算を終了す
る。

【００２７】以上の処理の様子を横軸に時刻，縦軸にＨ
ＭＭの状態を取った図面（これをトレリスと呼ぶ）上で
の照合経路として表したものを図１０に示す。図１０に
示したのは、単語「こくぶんじ」の例である。時刻Ｔ-
αから時刻Ｔの間で音節「じ」の照合値の最大値を求
め、これに対応する照合開始点をｔ1としたとき、ｔ1-
αからｔ1+αの間で一つ前の音節「ん」の照合値の最大
値を求める。以下同様に、これに対応する照合開始点を
ｔ2としたとき、ｔ2-αからｔ2+αの間で一つ前の音節
「ぶ」の照合値の最大値を求める。これに対応する照合
開始点をｔ3としたとき、ｔ3-αからｔ3+αの間で一つ
前の音節「く」の照合値の最大値を求める。これに対応
する照合開始点をｔ4としたとき、ｔ4-αからｔ4+αの
間で一つ前の音節「こ」の照合値の最大値を求める。以
上求められた各最大値が累積されて単語「こくぶんじ」
のスコアとなる。

【００２８】以上の説明では、図８の音響照合結果時系
列を全てのＨＭＭについて全時刻毎に求めるようにして
いたが、メモリ量処理量ともに大きくなるので累積確率
値がある基準値を越えた場合だけ記録するようにした
り、あるいは累積確率値が時間方向に極大値となる時刻
のみ記録したりすることにより、メモリ量処理量ともに
削減できることは言うまでもない。また、図９のフロー
チャートで示した単語評価の処理においては、全ての単
語について全音節分のスコア累積を行なうように示した
が、途中の音節で得られたＳmaxの値がある基準値以下
の場合には処理を途中で打ち切るなどにより処理量を削
減できることも言うまでもない。

【００２９】また、本発明の音声認識の処理とは全く異
なる処理量の少ない手法を用いて音声認識対象単語の予
備選択を行なって、対象単語数を削減しておいてから本
発明の音声認識の処理を施すようにすることももちろん
可能である。

【００３０】図１１に、本発明の単語音声認識装置の一
例として、図３の音声認識装置の具体的なハードウェア
構成を示すブロック図を示す。同図において、１１１は
音声入力を行い音声情報を電気信号に変換するマイク、
１１２は電気信号に変換された音声信号を増幅するアン
プ、１１３は、Ａ／Ｄ変換器、１１４は、オペレーティ
ングシステム（ＯＳ）１１４１，音声認識プログラム１
１４２，代表分布１１４３，半連続型ＨＭＭ１１４４，
単語辞書１１４５，ワークエリア１１４６などを格納す
るメモリ、１１５は演算プロセッサ（ＣＰＵ）、１１６
はプリンタや表示装置などその他の周辺機器である。図
１１のマイク１１１が図３の音声入力手段１に、図１の
音声分析手段２，音声検出手段３，音響照合手段４（確
率計算手段４１，確率混合手段４２，確率累積手段４
３），標準パタン格納手段５（代表分布格納手段５１，
半連続型ＨＭＭ格納手段５２），単語評価手段６，単語
辞書７，判定手段８の各機能は、図１１の演算プロセッ
サ１１５とメモリ１１４に格納されているプログラムお
よび各種データによって実現される。

【００３１】また、図３における音声分析手段２，音声
検出手段３，音響照合手段４（確率計算手段４１，確率
混合手段４２，確率累積手段４３），標準パタン格納手
段５（代表分布格納手段５１，半連続型ＨＭＭ格納手段
５２），単語評価手段６，単語辞書７，および判定手段
８の各機能、すなわち、図１１の演算プロセッサ１１５
とメモリ１１４の音声認識プログラム／代表分布，半連
続型ＨＭＭ，単語辞書などを半導体チップ上に組み込む
ことにより、単語音声認識用のマイコンデバイスを実現
することができ、カーナビゲーション，電話，ＰＤＡ
（Ｐarsonal Ｄigital Ａsistant）など、音声認識を必
要とする各種情報機器に組み込むことが可能になり、適
用範囲は広い。

【００３２】また、前述したように、上記実施例では、
簡単のため、単語音声認識の場合について説明したが、
同様の音節単位の標準パタンや単語辞書の他に、認識対
象の文を単語の並びとして記述する文法を格納し、照合
手段において、各標準パタンを入力音声の特徴ベクトル
の時系列の全区間にわたって照合し各標準パタン毎に照
合結果を時系列で求め、評価手段において、時系列とし
て得られた各標準パタン毎の照合結果と前記単語辞書お
よび前記文法の情報に基づいて各文を評価し、その結果
に従って認識結果を求めるようにすることにより、連続
的に発声された文章や会話文などの文音声を認識する文
音声認識装置，文音声認識用のマイコンデバイス，文音
声認識方法を実現することも可能である。

【００３３】また、上述した単語音声認識方法および文
音声認識方法を構成する各ステップをプログラムコード
化してＣＤ−ＲＯＭやＦＤ（フレキシブルディスク）な
どの記録媒体に記録すれば、市場に流通し易くなり本発
明の音声認識方法を広く普及することができる。

【００３４】上記実施例により、本発明の所期の目的、
すなわち、認識対象の全仮説に対して最終的な評価結果
が得られ、かつ音響照合処理量が認識対象の語数に比例
せず、一定の処理量で抑えられるような、処理量が小さ
くかつ認識精度の劣化の少ない単語音声認識装置や文音
声認識装置，そのためのマイコンデバイス，単語や文の
音声認識方法，ならびに、該認識方法を記録したコンピ
ュータで読取り可能な記録媒体を得ることができる。

【００３５】

【発明の効果】以上本発明によれば、音声認識のために
必要となる確率計算回数を大幅に削減でき、認識精度を
保ったまま、処理量の少ない大語彙音声認識が可能とな
る。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図２】本発明の音声認識装置で用いる認識基本単位の
隠れマルコフモデル（ＨＭＭ）を説明する図である。

【図３】本発明の音声認識装置の一実施例の詳細構成を
示すブロック図である。

【図４】本発明の代表分布格納手段を説明する図であ
る。

【図５】本発明の音声認識装置で用いる半連続型の隠れ
マルコフモデル（ＨＭＭ）を説明する図である。

【図６】本発明の代表分布確率保持手段を説明する図で
ある。

【図７】本発明の音声認識装置で用いる半連続型の隠れ
マルコフモデル（ＨＭＭ）を説明する図である。

【図８】音響照合結果の時系列を説明する図である。

【図９】単語評価手段における単語評価計算過程を説明
するフローチャートである。

【図１０】単語評価手段における単語評価計算処理のイ
メージを説明する図である。

【図１１】図３の音声認識装置の具体的なハードウェア
構成を示すブロック図である。

【符号の説明】

１：音声入力手段、２：音声分析手段、３：音声検出手
段、４：音響照合手段、５：標準パタン格納手段、６：
単語評価手段、７：単語辞書、８：判定手段、４１：確
率計算手段、４２：確率混合手段、５１：代表分布格納
手段、５２：半連続型ＨＭＭ格納手段、１１１：マイ
ク、１１２：アンプ、１１３：Ａ／Ｄ変換器、１１４：
メモリ、１１４１：オペレーティングシステム（Ｏ
Ｓ）、１１４２：音声認識プログラム、１１４３：代表
分布、１１４４：半連続型ＨＭＭ、１１４５：単語辞
書、１１４６：ワークエリア、１１５：演算プロセッサ
（ＣＰＵ）、１１６：その他の周辺機器。

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、入力さ
れた音声（入力音声）を分析して特徴ベクトルの時系列
を出力する音声分析手段と、音声基本単位に対する標準パタンを格納しておく標準パ
タン格納手段と、認識対象語の単語を音声基本単位の並びとして記述する
単語辞書と、前記入力音声の特徴ベクトルの時系列と前記標準パタン
とを照合する照合手段と、前記照合結果に基づいて認識対象を評価する評価手段と
を有する音声認識装置であって、前記照合手段は、前記各標準パタンを前記入力音声の特
徴ベクトル時系列の全区間にわたって照合して各標準パ
タン毎に照合結果を時系列として求める手段であり、前記評価手段は、前記時系列として得られた各標準パタ
ン毎の照合結果と前記単語辞書の情報に基づいて各単語
を評価し、前記評価結果に従って認識結果を求める手段
であることを特徴とする単語音声認識装置。
【請求項２】入力された音声（入力音声）を分析して
特徴ベクトルの時系列を出力する音声分析手段と、音声
基本単位に対する標準パタンを格納しておく標準パタン
格納手段と、認識対象語の単語を音声基本単位の並びと
して記述する単語辞書と、前記入力音声の特徴ベクトル
の時系列と前記標準パタンとを照合する照合手段と、前
記照合結果に基づいて認識対象を評価する評価手段とを
有する単語音声認識用マイコンデバイスであって、前記
照合手段は、前記各標準パタンを前記入力音声の特徴ベ
クトル時系列の全区間にわたって照合して各標準パタン
毎に照合結果を時系列として求める手段であり、前記評
価手段は、前記時系列として得られた各標準パタン毎の
照合結果と前記単語辞書の情報に基づいて各単語を評価
し、前記評価結果に従って認識結果を求める手段である
ことを特徴とする単語音声認識用マイコンデバイス。
【請求項３】音声を入力する音声入力手段と、入力さ
れた音声を分析して特徴ベクトルの時系列を出力する音
声分析手段と、音声基本単位に対する標準パタンを格納
しておく標準パタン格納手段と、認識対象語の単語を音
声基本単位の並びとして記述する単語辞書と、認識対象
の文を単語の並びとして記述する文法と、前記入力音声
の特徴ベクトルの時系列と前記標準パタンとを照合する
照合手段と、前記照合結果に基づいて認識対象を評価す
る評価手段とを有する文音声認識装置であって、前記照
合手段は、前記各標準パタンを前記入力音声の特徴ベク
トル時系列の全区間にわたって照合して各標準パタン毎
に照合結果を時系列として求める手段であり、前記評価
手段は、前記時系列として得られた各標準パタン毎の照
合結果と前記単語辞書および前記文法の情報に基づいて
各文を評価し、前記評価結果に従って認識結果を求める
手段であることを特徴とする文音声認識装置。
【請求項４】入力された音声を分析して特徴ベクトル
の時系列を出力する音声分析手段と、音声基本単位に対
する標準パタンを格納しておく標準パタン格納手段と、
認識対象語の単語を音声基本単位の並びとして記述する
単語辞書と、認識対象の文を単語の並びとして記述する
文法と、前記入力音声の特徴ベクトルの時系列と前記標
準パタンとを照合する照合手段と、前記照合結果に基づ
いて認識対象を評価する評価手段とを有する文音声認識
用マイコンデバイスであって、前記照合手段は、前記各
標準パタンを前記入力音声の特徴ベクトル時系列の全区
間にわたって照合して各標準パタン毎に照合結果を時系
列として求める手段であり、前記評価手段は、前記時系
列として得られた各標準パタン毎の照合結果と前記単語
辞書および前記文法の情報に基づいて各文を評価し、前
記評価結果に従って認識結果を求める手段であることを
特徴とする文音声認用マイコンデバイス。
【請求項５】音声を入力する音声入力ステップと、入
力された音声（入力音声）を分析して特徴ベクトルの時
系列を出力する音声分析ステップと、前記入力音声の特徴ベクトルの時系列と、音声基本単位
に対する標準パタンとを照合する照合ステップと、前記照合結果に基づいて認識対象を評価する評価ステッ
プとを有する単語音声認識方法であって、前記照合ステップは、前記各標準パタンを前記入力音声
の特徴ベクトル時系列の全区間にわたって照合して各標
準パタン毎に照合結果を時系列として求めるステップで
あり、前記評価ステップは、前記時系列として得られた各標準
パタン毎の照合結果と認識対象語の単語を音声基本単位
の並びとして記述する単語辞書の情報に基づいて各単語
を評価し、前記評価結果に従って認識結果を求めるステ
ップであることを特徴とする単語音声認識方法。
【請求項６】前記標準パタンは、前記音声の特徴ベク
トルの出現確率分布により構成され、かつ、前記照合ス
テップは、前記入力された音声の特徴ベクトルと前記出
現確率分布から各標準パタンの確率計算を行い、該求め
られた確率計算値に基づいて照合を行なうものであるを
特徴とする請求項５記載の単語音声認識方法。
【請求項７】前記照合ステップは、動的計画法に基づ
いて照合計算を行うものであることを特徴とする請求項
５記載の単語音声認識方法。
【請求項８】前記動的計画法は、ビタビアルゴリズム
を用いたものであることを特徴とする請求項７記載の単
語音声認識装置および単語音声認識方法。
【請求項９】前記音声基本単位は、音節であることを
特徴とする請求項５〜８のいずれか１項に記載の単語音
声認識方法。
【請求項１０】前記音声基本単位は、母音，子音，母
音の三音素連鎖であることを特徴とする請求項５〜８の
いずれか１項に記載の単語音声認識方法。
【請求項１１】前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が予め
決められた基準値より高い部分についてのみ照合結果の
時系列として求めるものであることを特徴とする請求項
５〜１０のいずれか１項に記載の単語音声認識方法。
【請求項１２】前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が時間
方向に極大となる部分についてのみ照合結果の時系列と
して求めるものであることを特徴とする請求項５〜１０
のいずれか１項に記載の単語音声認識方法。
【請求項１３】前記各標準パタン毎に時系列として求
める照合結果は、各時刻毎にその時刻を終点とする各標
準パタンの評価値と、対応する始点情報を含むようにし
たことを特徴とする請求項１１または請求項１２記載の
単語音声認識方法。
【請求項１４】前記評価ステップは、評価の途中にお
いて予め設定した基準値に満たない認識対象については
評価を途中で打ち切るようにしたことを特徴とする請求
項５〜１２のいずれか１項に記載の単語音声認識方法。
【請求項１５】請求項５〜１４のいずれか１項に記載
の単語音声認識方法を各ステップを記録したコンピュー
タで読取り可能な記録媒体。
【請求項１６】音声を入力する音声入力ステップと、
入力された音声（入力音声）を分析して特徴ベクトルの
時系列を出力する音声分析ステップと、前記入力音声の特徴ベクトルの時系列と、音声基本単位
に対する標準パタンとを照合する照合ステップと、前記照合結果に基づいて認識対象を評価する評価ステッ
プとを有する文音声認識方法において、前記照合ステップは、前記各標準パタンを前記入力音声
の特徴ベクトル時系列の全区間にわたって照合して各標
準パタン毎に照合結果を時系列として求めるステップで
あり、前記評価ステップは、前記時系列として得られた各標準
パタン毎の照合結果と認識対象語の単語を音声基本単位
の並びとして記述する単語辞書および認識対象の文を単
語の並びとして記述する文法の情報に基づいて各文を評
価し、前記評価結果に従って認識結果を求めるステップ
であることをことを特徴とする文音声認識方法。
【請求項１７】前記標準パタンは前記音声の特徴ベク
トルの出現確率分布により構成され、かつ、前記照合ス
テップは、前記入力音声の特徴ベクトルと前記出現確率
分布から各標準パタンの確率計算を行い、該求められた
確率計算値に基づいて照合を行なうようにしたことを特
徴とする請求項１６記載の文音声認識方法。
【請求項１８】前記照合ステップは、動的計画法に基
づいて照合計算を行うものであることを特徴とする請求
項１７記載の文音声認識方法。
【請求項１９】前記動的計画法は、ビタビアルゴリズ
ムを用いたものであることを特徴とする請求項１８記載
の文音声認識方法。
【請求項２０】前記音声基本単位は、音節であること
を特徴とする請求項１６〜１９のいずれか１項に記載の
文音声認識方法。
【請求項２１】前記音声基本単位は、母音，子音，母
音の三音素連鎖であることを特徴とする請求項１６〜１
９のいずれか１項に記載の文音声認識方法。
【請求項２２】前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が予め
決められた基準値より高い部分についてのみ照合結果の
時系列として求めるものであることを特徴とする請求項
１６〜２１のいずれか１項に記載の文音声認識方法。
【請求項２３】前記照合ステップは、前記各標準パタ
ンを前記入力音声の特徴ベクトル時系列の全区間にわた
って照合して各標準パタン毎に照合結果を時系列として
求めるに際し、前記入力音声の全区間中評価結果が時間
方向に極大となる部分についてのみ照合結果の時系列と
して求めるものであることを特徴とする請求項１６〜２
１のいずれか１項に記載の文音声認識方法。
【請求項２４】前記各標準パタン毎に時系列として求
める照合結果は、各時刻毎にその時刻を終点とする各標
準パタンの評価値と、対応する始点情報を含むようにし
たことを特徴とする請求項１６〜２３のいずれか１項に
記載の文音声認識方法。
【請求項２５】前記評価ステップは、評価の途中にお
いて予め設定した基準値に満たない認識対象については
評価を途中で打ち切るようにしたことを特徴とする請求
項１６〜２３のいずれか１項に記載の文音声認識方法。
【請求項２６】請求項１６〜２５のいずれか１項に記
載の文音声認識方法を各ステップを記録したコンピュー
タで読取り可能な記録媒体。