JPH0764590A

JPH0764590A - 音声認識装置

Info

Publication number: JPH0764590A
Application number: JP5209719A
Authority: JP
Inventors: Akio Amano; 明雄天野; Toshiyuki Odaka; 俊之小高; Yoshito Nene; 義人禰寝; Hiroshi Ikeda; 宏池田; Toshiyuki Aritsuka; 俊之在塚; Kazuyuki Kodama; 和行児玉; Yoshiki Noguchi; 孝樹野口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-08-24
Filing date: 1993-08-24
Publication date: 1995-03-10

Abstract

(57)【要約】【目的】離散型隠れマルコフモデルを用いた音声認識装
置において確率計算の効率化を図る。【構成】複数の状態に対応するパラメータを有する離
散型隠れマルコフモデルを、認識対象の単語（あるいは
音節）毎に複数個用意し、入力音声に基づいて得られた
ベクトル量子化コード時系列に対して前記複数個の離散
型隠れマルコフモデルを用いて確率計算を行い、該計算
された確率値に基づいて認識結果を求める音声認識装置
であって、前記確率計算を行う演算プロセッサ４と、前
記複数個の離散型隠れマルコフモデルのパラメータを、
同一の前記ベクトル量子化コードに関するパラメータ毎
に一連のアドレスにまとめて格納するメモリ５（６２）
とを備え、演算プロセッサ４は、前記ベクトル量子化コ
ード時系列に対して、各ベクトル量子化コードに対応す
るパラメータをメモリ５からアドレス順に読みだして前
記確率演算を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に係り、
特に大語彙の音声認識処理を既存のハードウェアを用い
て高速に行なうのに好適な音声認識装置に関する。

【０００２】

【従来の技術】一般に音声認識には非常に大きな処理量
を要し、音声認識装置の実現には処理の効率化が要求さ
れる。特に最近広く利用されている離散型の隠れマルコ
フモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、
以後ＨＭＭと記す）では各単語あるいは各音節のモデル
は膨大な量のパラメータを持ち、入力音声の認識に際し
ては全ての単語（あるいは音節）について確率計算を行
なう必要があるため膨大なパラメータの全体にアクセス
する必要が生じる。また、確率計算においては各モデル
が持つ各状態について計算を行なう必要があり処理量は
膨大なものになる。

【０００３】なお、隠れマルコフモデルの詳細について
は、例えば、“An Introduction toHidden Markov Mode
ls"、ＩＥＥＥＡＳＳＰＭＡＧＡＺＩＮＥ、January 1
986、pp4-16に記載されている。

【０００４】従来から、音声認識における処理量削減手
法として、途中まで計算して可能性が低いとみなされた
候補に関する計算処理を打ち切るビームサーチ方式、計
算量の少ない方法を使って予め認識対象の全候補の中か
ら有望な候補を選択し、選択された候補についてのみ認
識処理を行なう予備選択方式などが試みられている。

【０００５】ビームサーチ方式の例としては、電子情報
通信学会論文誌、Ｄ、Ｖｏｌ．Ｊ７１−ＤＮｏ．９
ｐｐ．１６５０−１６５９、（１９８８−９）“フレー
ム同期化、ビームサーチ、ベクトル量子化の結合による
ＤＰマッチングの高速化”あるいは電子情報通信学会論
文誌、Ｄ−２、Ｖｏｌ．Ｊ７２−Ｄ−２Ｎｏ．８ｐ
ｐ．１２４８−１２５５、（１９８９−８）“ＤＰビー
ムサーチのしきい値関数の検討”に記載のようなものが
ある。処理量削減の基本的考え方は、途中まで計算して
可能性が低いとみなされた候補に関する計算処理を打ち
切り、計算対象を減らすことである。これらの文献に記
載された例は認識方式としてＤＰマッチングを対象にし
たものであるが、削減手法自体はＨＭＭにも適用でき
る。

【０００６】一方、予備選択方式の例としては、日本音
響学会講演論文集、１−３−１７、（１９８６−１０）
“大語彙単語音声認識のためのスペクトル動特性を用い
た予備選択法”に記載のようなものがある。上記従来例
では、予め認識対象の単語毎にベクトル量子化のコード
ブックを用意しておき、入力音声の終端が検出された後
に入力音声全体を上記各コードブックを用いてそれぞれ
ベクトル量子化を行ない、このときの量子化歪みを各コ
ードブック毎に累積し、その累積値がある閾値より小さ
いものに対してのみ照合を行なう。

【０００７】

【発明が解決しようとする課題】上記両従来技術は部分
的な処理結果や大まかな計算結果に基づいて認識対象の
中の可能性の低い部分を求め、その部分の処理を省くこ
とにより全体の処理量を減らすものである。もちろんこ
の両手法は処理量の削減に有効な手法であるが、ＨＭＭ
における確率計算自体の効率化を図るものではない。ま
た、ハードウェア構成の観点から考えた処理速度の高速
化については言及されていない。

【０００８】本発明の目的は、ＨＭＭにおける確率計算
自体の効率化を図り、また、ハードウェア構成の観点か
ら考えた処理の高速化を図り、既存のハードウェアを用
いて、コンパクトでかつ安価な大語彙の音声認識装置を
実現することにある。

【０００９】

【課題を解決するための手段】上記本発明の目的を達成
するために、本発明による音声認識装置は、複数の状態
に対応するパラメータを有する離散型隠れマルコフモデ
ルを、認識対象の単語（あるいは音節）毎に複数個用意
し、入力音声に基づいて得られたベクトル量子化コード
時系列に対して前記複数個の離散型隠れマルコフモデル
を用いて確率計算を行い、該計算された確率値に基づい
て認識結果を求める音声認識装置であって、前記確率計
算を行う演算プロセッサと、前記複数個の離散型隠れマ
ルコフモデルのパラメータを、同一の前記ベクトル量子
化コードに関するパラメータ毎に一連のアドレスにまと
めて格納するメモリとを備え、前記演算プロセッサは、
前記ベクトル量子化コード時系列に対して、各ベクトル
量子化コードに対応するパラメータを前記メモリからア
ドレス順に読みだして前記確率演算を行うようにしたも
のである。

【００１０】

【作用】本発明の音声認識装置では、ＨＭＭを用いた確
率計算を実行する上で、効率良くＨＭＭのデータにアク
セスできる様にパラメータ（データ）をメモリ内に配置
し、かつ、連続したアドレスを効率良くアクセスできる
メモリを用いるので、高速なＨＭＭ確率計算が実行でき
る。

【００１１】また、ＨＭＭの構造上事前に計算できる遷
移確率と出現確率の掛け合わせ計算（対数領域で行なえ
ば足し合わせ計算）は予め全て行なった上でその結果を
モデルのパラメータの中に収めておき、認識時にはこれ
を用いて確率計算することにより、認識時の計算量を軽
減し、一層の高速化が図れる。

【００１２】さらに、各ＨＭＭ毎のベクトル量子化コー
ドの出現頻度情報を使って対応するＨＭＭの可能性を判
定し、可能性の低いＨＭＭについては確率計算を省略す
ることで、より一層の高速化が図れる。

【００１３】さらに、複数の演算プロセッサで認識対象
となる単語（あるいは音節）を分担することにより、大
語彙に対処することができる。

【００１４】以上、各種の高速化手法を総合した本発明
によれば、最新の安価なハードウェアを用いて、コンパ
クトで安価でかつ高速な大語彙の音声認識装置を実現す
ることができる。

【００１５】

【実施例】以下、本発明の実施例を説明する。本発明は
単音節認識、単語認識、文章認識など各種の音声認識に
適用できるが、ここでは簡単のため単語認識を取り上げ
て説明する。

【００１６】図１は本発明の音声認識装置のハードウェ
ア構成を示すブロック図である。マイク１から入力され
た音声はオーディオアンプ２において増幅される。増幅
された音声信号はＡＤ変換器３において一定時間間隔
（例えば８ｋＨｚサンプリングでは１２５μｓ）毎に取
り込まれディジタル化される。ディジタル化された音声
信号は演算プロセッサ部４において外部メモリ５の内容
を参照しながら各種処理が施され最終的に認識結果が得
られる。

【００１７】演算プロセッサ部４における処理を図３の
フローチャートを用いて説明する。

【００１８】説明の簡単化のため「０」から「９」まで
の１０個の数字の音声認識を例に挙げて説明する。

【００１９】マイクに向かって数字音声、例えば、「１
（イチ）」と発声されると、ＡＤ変換器３においては音
声信号が一定時間間隔毎（例えば１２ｋＨｚサンプリン
グの場合には８３．３μｓ毎）に取り込まれデジタル化
される（Ｓ３１、Ｓ３２）。演算プロセッサ部４では、
音声データがデジタル化されたサンプルデータが得られ
る毎に自己相関関数の計算を行う（Ｓ３３）。自己相関
関数の計算は、１サンプルデータが得られる毎に部分的
な計算を行う。式で表現すると、次のようになる。ここ
で、ｒｉは第ｉ次の自己相関係数の部分的な結果を格納
する変数、ｘｔは時刻ｔのサンプルデータを表わす。な
お、ここでは自己相関の次数を１４次とする。

【００２０】ｒi ＝ｒi ＋ｘt × ｘt-i 予め決められたデータポイント数分（例えば、分析窓長
を２０ｍｓとし、１２ｋＨｚサンプリングとすると、２
４０点）だけ上記の計算が行われると、１フレーム分の
自己相関関数ｒｉ（ｉ＝０〜１４）が確定し、フレーム
単位の処理に進む（Ｓ３５）。周波数分析の周期（フレ
ーム周期）を分析窓長と同じ２０ｍｓとすれば、２０ｍ
ｓに１度ずつ自己相関係数が確定し、フレーム単位の処
理が行われることになる。

【００２１】フレーム単位の処理では、まず、自己相関
関数から線形予測係数を計算し（Ｓ３５１）、さらに線
形予測係数からケプストラム係数を求める（Ｓ３５
２）。求まったケプストラム係数は多次元のベクトルと
みなされ、予め用意したベクトル量子化コードブックを
用いてベクトル量子化し、ベクトル量子化コードを得る
（Ｓ３５３）。ベクトル量子化のレベル（コードブック
のサイズ）としては任意の値を取ることができるが、本
実施例では２５６とする。すなわち、ベクトル量子化後
には、量子化コードｋ（１から２５６までのいずれかの
正数値）が得られる。すなわち、入力された単語音声
「１（イチ）」の音声長がＬフレーム分あったとする
と、長さＬのコード系列が得られることになる。

【００２２】単語音声認識は、予め用意された認識対象
すべて（今の例では１０数字のすべて）の離散型隠れマ
ルコフモデル（ＨＭＭ）について、上記の長さＬのコー
ド系列を出力する確率を計算し、最も確率の高いＨＭＭ
を認識結果とする。

【００２３】実際のＨＭＭの確率計算処理は、長さＬの
コード系列が求まってから行うわけではなく、図３のフ
ローチャートに示すように、ベクトル量子化コードｋが
一つ求まる毎に実施し、音声終端が検出されたか否かを
判定し（Ｓ３６）、検出された場合にはソーティング／
候補出力の処理に進む。音声終端が検出されず、入力音
声が継続している間、フローチャートの先頭に戻り、自
己相関の計算、フレーム単位の処理を継続する。

【００２４】以上の処理が行われ、音声の終端が検出さ
れると確率計算を終了し、各単語（「０」から「９」の
１０数字）の確率値を各単語のスコアとし、このスコア
に基づいて各単語をソーティングする（Ｓ３７）。ソー
ティングされた上位Ｌ（例えばＬ＝３）候補を認識結果
として出力する（Ｓ３８）。例えば、今の例では、単語
「１」に対する確率値が高くなり、そのＨＭＭが１位と
して出力されれば正解認識となる。

【００２５】なお、線形予測係数を求める処理およびケ
プストラム係数を求める処理については、例えば、古井
「ディジタル音声処理」東海大学出版などに記載されて
いる手法を使えばよい。また、本実施例の図３のフロー
チャートでは、ＨＭＭを用いた確率計算を他のフレーム
単位の処理と同期して行うような構成としているが、Ｈ
ＭＭを用いた確率計算部分を別のプロセスとして独立さ
せ、マルチプロセスで実行することももちろん可能であ
る。

【００２６】つぎに、図３のフローチャートの中のＨＭ
Ｍを用いた確率計算部分（Ｓ３５４）について詳細に説
明する。まず、ＨＭＭについて図４のＨＭＭの説明図を
用いて説明する。ＨＭＭはいくつかの状態（状態数をＮ
とする。）を持った状態遷移モデルであり、各状態遷移
に対してその状態遷移が生じる確率（遷移確率）、およ
びその状態遷移が生じた際に各ベクトル量子化コードが
出現する確率（出現確率）が定義されている。状態数Ｎ
は、例えば、単語の場合には２０程度、音節の場合には
５程度である。ＨＭＭは音声を表現するモデルである
が、単語を単位としてモデル化する場合（単語ＨＭＭ）
と音節のような小さい単位毎にモデルを持ち（音節ＨＭ
Ｍ）これら小さなモデルの結合により単語を表す場合が
ある。本実施例では単語ＨＭＭの場合を考える。認識対
象の語彙がＭ（例えばＭ＝１０）個の場合、Ｍ個のＨＭ
Ｍを用意する。

【００２７】ＨＭＭはＮ個の状態を持つ状態遷移モデル
であるが、ここでは状態数Ｎを５として説明する。図４
に示すのは、ある単語ｗ（１〜Ｍのいずれか）に対応し
た、５状態を持つ一つのＨＭＭである。図４で丸で示し
たのが状態であり丸の中の数字が状態番号に対応する。
状態と状態の間で遷移が許されている部分は矢印（アー
ク）で結ばれている。一般に、ＨＭＭは任意の状態から
任意の状態への状態遷移を許すが、ここでは音声認識で
良く用いられるｌｅｆｔ−ｔｏ−ｒｉｇｈｔのモデルを
取り上げる。ｌｅｆｔ−ｔｏ−ｒｉｇｈｔのモデルでは
自分自身への状態遷移と一つ先の状態（一つ番号の大き
い状態）への状態遷移のみを許す。各状態遷移には、状
態遷移確率（図中記号ａで表示）と、その時の各ベクト
ル量子化コードの出現確率（図中記号ｂで表示）が付随
する。

【００２８】ベクトル量子化コード時系列ｋ（１）、ｋ
（２）、ｋ（３）・・・ｋ（ｔ）（ｋ（ｔ）は１〜２５
６の間の整数値）を観測して、単語ｗのＨＭＭの状態ｉ
にいる確率をＰ（ｗ、ｉ、ｔ）と表わすことにする。Ｍ
単語の音声認識の問題は、Ｐ（ｗ、Ｎ、Ｔ）（ｗ＝１〜
Ｍ）が最大値を与えるｗを求める問題と考えることがで
きる。したがって、Ｐ（ｗ、ｉ、ｔ）の計算が直接音声
認識処理につながる。Ｐ（ｗ、ｉ、ｔ）の計算にはいく
つかの方法があるが、ここではビタビアルゴリズムと呼
ばれる手法を使うことにする。計算に先だって次式にし
たがって初期設定を行なう。

【００２９】Ｐ（ｗ,ｉ,０）＝１（ｉ＝１,ｗ＝１〜Ｍ）・・・（１）Ｐ（ｗ,ｉ,０）＝０（ｉ≠１,ｗ＝１〜Ｍ）・・・（２）以後、ベクトル量子化コードｋ（ｔ）（ｋ（ｔ）＝１〜
２５６）が得られる毎に各単語の各状態について次式に
したがって確率値更新を行なう。

【００３０】ｗｋ１＝Ｐ(w,i-1,t-1)×ａ(w,i-1,i)×ｂ(w,i-1,i,k(t)) ・・・（３）ｗｋ２＝Ｐ(w,i ,t-1)×ａ(w,i ,i)×ｂ(w,i ,i,k(t)) ・・・（４）Ｐ(w,i,t) ＝ｍａｘ（ｗｋ１、ｗｋ２）・・・（５）ここで、ａ（ｗ、ｉ、ｊ）は単語ｗの状態ｉから状態ｊ
への遷移確率、ｂ（ｗ、ｉ、ｊ、ｋ（ｔ））は単語ｗの
状態ｉから状態ｊへの遷移においてベクトル量子化コー
ドｋ（ｔ）が出現する確率である。以上の計算フローは
フローチャートで示すと図５の様になる。なお、全ての
確率値を対数領域で表わすようにすれば、上記式（３）
（４）の確率計算中の乗算は全て加算に置き換えること
ができる。

【００３１】以上が１フレーム間のＨＭＭの確率計算で
あるが、これを音声終端が検出されるまで繰り返し、最
終的にＰ（ｗ、Ｎ、Ｔ）が全Ｍ単語について求まり、こ
れの上位のものを選ぶことで認識結果が得られる。

【００３２】次に、上記ＨＭＭのデータのメモリ内での
配置について説明する。

【００３３】上記ＨＭＭを用いた確率計算の説明におい
て示したように、１つの単語のＨＭＭあたり、状態遷移
確率ａ（ｗ、ｉ、ｊ）（ｉ＝１〜５、ｊ＝ｉ、ｉ＋１）
が１０ワード、ベクトル量子化コード出現確率ｂ（ｗ、
ｉ、ｊ、ｋ）（ｉ＝１〜５、ｊ＝ｉ、ｉ＋１、ｋ＝１〜
２５６）が２５６０ワードの計２５７０ワードのデータ
からなる。このデータをメモリ内でどの様に配置するか
には様々なバラエティが考えられる。

【００３４】最も単純には、図６のａ）に示す様に、ま
ず各単語毎にまとめて格納し、各単語内では各状態毎に
まとめ、各状態内では自状態への遷移と次状態への遷移
の２つの部分に分け、各部分内ではまず遷移確率ａを格
納しこれに続いて２５６ワード分のベクトル量子化コー
ドの出現確率ｂをアドレス順に格納するという方法が考
えられる。しかしながら、このようにデータを配置する
と上記（３）（４）式の確率更新計算においてメモリ内
の飛び飛びのアドレスにアクセスする必要が生じ効率が
良くない。

【００３５】そこで、ＨＭＭのデータを大幅に並び替
え、図６のｂ）に示すようにする。すなわちＨＭＭのデ
ータを単語毎に整理するのではなく、ベクトル量子化コ
ード毎に整理する。特定のベクトル量子化コードｋにつ
いてのＨＭＭの情報は全て局所的なアドレス領域にまと
めて格納される。図６のｂ）に示す並びであると、ベク
トル量子化コードｋが定まるとそのフレームにおける確
率計算に必要なＨＭＭのデータは局所的な領域にまとめ
て置かれることになり、かつ、式（３）（４）の計算順
序に合わせた形でアドレス順にデータが格納されるの
で、確率計算の最中のＨＭＭデータの参照はアドレスの
インクリメントだけで実行される。図６のｂ）に示す並
びでは状態遷移確率ａ（ｗ、ｉ、ｊ）を各ベクトル量子
化コードの出現確率ｂ（ｗ，ｉ，ｊ，ｋ）と対で格納す
るため、データ量は図６のａ）に示すような格納の仕方
の場合のほぼ２倍になってしまうが、計算効率は高くな
る。

【００３６】なお、図６のｂ）では予めＨＭＭのデータ
を計算効率を高めるようにメモリ内で並べ替えておいた
が、図２に示すように演算プロセッサ６内部にデータ転
送制御部６３を設け、該データ転送制御部６３が、ベク
トル量子化結果ｋが得られる毎にベクトル量子化コード
ｋに関するＨＭＭのデータのみを外部メモリ５から取り
だし、これを演算プロセッサ部６１の内部メモリ６２の
一連のアドレス領域に収めるようにし、内部メモリ６２
を用いて前記ＨＭＭの確率計算をするようにすれば同様
の計算の効率化が図れる。

【００３７】なお、実施例において、内部メモリまたは
外部メモリとして、ＲＡＭｂｕｓや同期型ＤＲＡＭ等の
連続したアドレスを演算プロセッサから効率よくアクセ
スできるメモリを用いてもよい。このようなメモリにつ
いては、例えば、日経エレクトロニクス１９９２．３．
１６（ｎｏ５４９）第９５〜９７頁、日経エレクトロニ
クス１９９２．５．１１（ｎｏ５５３）第１４３〜１４
７頁に開示されている。

【００３８】次に、上記ＨＭＭを用いた確率計算におい
て、ＨＭＭ計算の構造上事前に実行できる計算の事前実
行について説明する。式（３）（４）を見ると、同一の
式の中で現れる配列要素ａ（ｗ、ｉ、ｊ）とｂ（ｗ、
ｉ、ｊ、ｋ）の添字はｋを除いては全て同じであること
がわかる。すなわち、式（３）（４）式中、ａ（ｗ、ｉ、ｊ）×ｂ（ｗ、ｉ、ｊ、ｋ）・・・（６）の乗算は事前に実行できる性格のものであり、式（６）
の計算を事前に行ない、その結果をｂ’（ｗ、ｉ、ｊ、
ｋ）として、ｂ’(w,i,j,k) ＝ａ(w,i,j)×ｂ(w,i,j,k) ・・・（７）を新たなパラメータとして格納し、これを用いてＨＭＭ
の確率計算を行なうことができる。この様にすれば式
（３）（４）と式（８）（９）の比較から明らかなよう
に計算量をほぼ半減することができる。ＨＭＭを用いた
確率計算では、式（３）（４））に代わって次式（８）
（９）を用いることになる。

【００３９】ｗｋ１＝Ｐ(w,i-1,t-1)× ｂ’(w,i-1,i,k(t)) ・・・（８）ｗｋ２＝Ｐ(w,i ,t-1)× ｂ’(w,i ,i,k(t)) ・・・（９）Ｐ（ｗ、ｉ、ｔ）＝ｍａｘ（ｗｋ１、ｗｋ２）・・・（１０）このときのメモリ内のＨＭＭのデータの配置は図７に示
すようになる。すなわち、遷移確率のデータと出現確率
のデータが事前に掛け合わされ、従来２ワード必要とし
ていた情報が１ワードに収められる。従ってメモリ量も
図６のｂ）の場合の配置と比べると半減する。

【００４０】つぎに複数の演算プロセッサを用いて認識
対象の語彙数を増やす場合の実施例を図８を用いて説明
する。

【００４１】単一の演算プロセッサでは処理能力に限界
があり認識できる語彙数も自ずと限られてしまう。演算
プロセッサを複数化するのが一つの解である。図８の実
施例では演算プロセッサの数を３個としているが、特に
演算プロセッサの数に制限がある訳ではない。図８中、
第１の演算プロセッサ７１では図１に示した実施例にお
ける演算プロセッサ４とほぼ同じ処理を行なうが、ベク
トル量子化結果を他の全ての演算プロセッサ７３，７５
に送出する点、他の演算プロセッサから他の演算プロセ
ッサが担当している単語のＨＭＭの確率計算結果を受け
とる点が異なる。他の演算プロセッサ７３，７５は、第
１の演算プロセッサ７１からベクトル量子化結果ｋを受
けとり、これを用いてＨＭＭの確率計算を行なう。音声
終端検出後に、ＨＭＭ確率計算の最終結果を第１の演算
プロセッサ７１に返す。第１の演算プロセッサ７１で
は、自分が担当した単語のＨＭＭの確率計算結果および
他の演算プロセッサから受けとった他の単語に関するＨ
ＭＭの確率計算結果の全てを総合して認識結果を求め
る。以上により、語彙数の増加に対して容易に対処でき
る。本実施例の場合、図８に示すように各演算プロセッ
サ毎に一定数の単語を担当するようになるが担当する単
語のＨＭＭのデータは各演算プロセッサ毎に個別に設け
られた外部メモリ７２，７４，７６に格納される。した
がって、この場合には各外部メモリ７２，７４，７６に
担当する単語毎のＨＭＭのデータを格納する必要があ
り、図６のｂ）に示した様なメモリ配置にする訳にはい
かない。メモリアクセスの効率および単語毎の独立性を
両立させることを考えると、本実施例におけるＨＭＭの
データのメモリ配置は図９に示すようなものとなる。す
なわち、ＨＭＭのデータは単語毎に分割して保持し、単
語内ではベクトル量子化コード毎に整理する形となる。

【００４２】つぎに、出現確率がある基準より低いＨＭ
Ｍについて確率計算を省略することにより、全体の計算
量を削減し認識処理を高速化する手法について説明す
る。

【００４３】式（３）（４）から判るように、特定のベ
クトル量子化コードについての出現確率が非常に小さな
値をとるとき、そのＨＭＭの確率は非常に小さな値とな
り、このＨＭＭが最終的に認識結果として残る可能性は
低くなる。そこで、予め各ＨＭＭ中の各ベクトル量子化
コードの出現確率を調べておき、この出現確率が非常に
低いベクトル量子化結果が得られたときにはそのＨＭＭ
の確率計算を省略することができる。各ベクトル量子化
コード毎にその出現確率が予め決められた基準より低い
遷移の存在するＨＭＭをリストアップして図１０に示す
ようなテーブルを作成する。認識時には、図１０のテー
ブルを引き、ベクトル量子化結果から出現確率の低いＨ
ＭＭを求め、このＨＭＭについては確率計算を省略する
ようにする。以上により確率計算を大幅に省略できより
高速な音声認識ができる。

【００４４】なお、本手法を導入した場合の音声認識の
流れを図１１のフローチャートに示す。本フローチャー
トは、図３に示したフローチャートに対して出現確率に
よる計算省略のステップＳ１１１、Ｓ１１２を挿入した
ものとなっている。

【００４５】次に、一定の時間長の区間のベクトル量子
化コードの統計情報を用いて、ＨＭＭの確率計算を省略
する手法について説明する。

【００４６】一定の時間長として例えば図１２のａ）に
示すように処理対象のフレームの前後１０フレームずつ
計２１フレーム（フレーム周期を２０ｍｓとすれば約４
００ｍｓの区間）を考える。統計情報として図１２の
ｂ）に示すようなヒストグラムを算出する。このヒスト
グラムは２１個の量子化コードについて、どのコードが
いくつあるかをカウントするだけで得られる。一方、各
ＨＭＭは各遷移毎に各ベクトル量子化コードの出現確率
を持っているが、これはそのままヒストグラムに対応す
る。そこで、この各遷移毎のヒストグラムを全遷移で平
均すればやはりヒストグラムを得ることができ、これを
このＨＭＭのヒストグラムとして考えることができる。
両ヒストグラムを比較し、類似性が予め決められた基準
より低いときには、そのＨＭＭについての確率計算を省
略する。

【００４７】類似性尺度としては、例えば、前記ヒスト
グラムを多次元ベクトルとみなし、内積をとるといった
方法が考えられる。こうして算出した類似性尺度が予め
設定した基準値（例えば０．１）より小さい場合にはＨ
ＭＭの確率計算を省略する。

【００４８】以上により、確率計算を大幅に省略でき、
より高速な音声認識ができる。なお、本手法を導入した
場合の音声認識の流れを図１３のフローチャートに示
す。本フローチャートは、図３に示したフローチャート
にベクトル量子化コードの時系列の統計情報を使った計
算省略のステップＳ１３１、Ｓ１３２を挿入したものと
なっている。

【００４９】

【発明の効果】本発明によれば、ＨＭＭを用いた確率計
算を実行する上で、効率良くＨＭＭのデータにアクセス
できる様にデータをメモリ内に配置し、かつ、連続した
アドレスを効率良くアクセスできるメモリを用いて構成
しているので、高速なＨＭＭ確率計算が実行できる。ま
た、ＨＭＭの構造上事前にできる計算は全て事前に済ま
せるようにしておくことにより、認識時の計算量を削減
できる。さらに各ＨＭＭ毎のベクトル量子化コードの出
現頻度情報を使うことにより、可能性の低いＨＭＭにつ
いては確率計算を省略できる。

【００５０】以上、各種の高速化手法を総合した本発明
によれば、最新の安価なハードウェアを用いて、コンパ
クトで安価でかつ高速な大語彙の音声認識装置を実現す
ることができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例のハードウェ
ア構成を示すブロック図

【図２】本発明の音声認識装置の別の実施例のハードウ
ェア構成を示すブロック図

【図３】本発明の音声認識装置の一実施例の処理の概要
フローを示すフローチャート

【図４】本発明の音声認識装置で用いる離散型隠れマル
コフモデルを説明する説明図

【図５】本発明の音声認識装置で用いる離散型隠れマル
コフモデルによる確率計算処理の詳細な手順を示すフロ
ーチャート

【図６】本発明の音声認識装置で用いる離散型隠れマル
コフモデルのデータのメモリ内での並び方を説明する説
明図

【図７】本発明の音声認識装置で用いる離散型隠れマル
コフモデルの状態遷移確率と出現確率の事前計算を説明
する説明図

【図８】本発明の音声認識装置の複数の演算プロセッサ
による実施例を説明するブロック図

【図９】本発明の音声認識装置の複数の演算プロセッサ
による実施例における離散型隠れマルコフモデルのデー
タのメモリ内での並び方を説明する説明図

【図１０】ベクトル量子化コードの出現確率が低い離散
型隠れマルコフモデルをリストアップしたテーブルの説
明図

【図１１】ベクトル量子化コードの出現確率に基づいて
離散型隠れマルコフモデルによる確率計算の一部を省略
する手順を説明するフローチャート

【図１２】ベクトル量子化コード時系列の統計情報に基
づいて離散型隠れマルコフモデルによる確率計算の一部
を省略する手法を説明する説明図

【図１３】ベクトル量子化コード時系列の統計情報に基
づいて離散型隠れマルコフモデルによる確率計算の一部
を省略する手順を説明するフローチャート

【符号の説明】

１・・・マイク、２・・・オーディオアンプ、３・・・
ＡＤ変換器４・・・演算プロセッサ、５・・・外部メモリ、６１・
・・演算プロセッサ６２・・・内部メモリ、６３・・・データ転送制御部７１・・・第１の演算プロセッサ、７２・・・第１の外
部メモリ７３・・・第２の演算プロセッサ、７４・・・第２の外
部メモリ７５・・・第３の演算プロセッサ、７６・・・第３の外
部メモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者池田宏東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者在塚俊之東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者児玉和行東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者野口孝樹東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】複数の状態に対応するパラメータを有する
離散型隠れマルコフモデルを、認識対象の単語（あるい
は音節）毎に複数個用意し、入力音声に基づいて得られ
たベクトル量子化コード時系列に対して前記複数個の離
散型隠れマルコフモデルを用いて確率計算を行い、該計
算された確率値に基づいて認識結果を求める音声認識装
置であって、前記確率計算を行う演算プロセッサと、前記複数個の離散型隠れマルコフモデルのパラメータ
を、同一の前記ベクトル量子化コードに関するパラメー
タ毎に一連のアドレスにまとめて格納するメモリとを備
え、前記演算プロセッサは、前記ベクトル量子化コード時系
列に対して、各ベクトル量子化コードに対応するパラメ
ータを前記メモリからアドレス順に読みだして前記確率
演算を行うことを特徴とする音声認識装置。
【請求項２】前記メモリは、前記演算プロセッサの外部
メモリであることを特徴とする請求項１記載の音声認識
装置。
【請求項３】前記メモリは、前記演算プロセッサの内部
メモリであることを特徴とする請求項１記載の音声認識
装置。
【請求項４】前記複数個の離散型隠れマルコフモデルの
パラメータを格納した外部メモリと、前記演算プロセッ
サによる確率計算の対象となるパラメータを格納する内
部メモリと、前記外部メモリの分散したアドレスに存在
する、特定のベクトル量子化コードに対応するパラメー
タを取りだして前記内部メモリの一連のアドレスに転送
するデータ転送制御部とを備えたことを特徴とする請求
項３記載の音声認識装置。
【請求項５】前記離散型隠れマルコフモデルは、各状態
における状態遷移に関する状態遷移確率と、当該状態遷
移における各ベクトル量子化コードの出現確率とを前記
パラメータとして有することを特徴とする請求項１記載
の音声認識装置。
【請求項６】前記メモリには、各単語（あるいは各音
節）毎の離散型隠れマルコフモデルの各状態遷移に関す
る状態遷移確率と、当該状態遷移における各ベクトル量
子化コードの出現確率とを事前に掛け合わせた値を、両
パラメータに代わる新たなパラメータとして格納し、こ
のパラメータを用いて前記確率計算を行うようにしたこ
とを特徴とする請求項５記載の音声認識装置。
【請求項７】前記ベクトル量子化コードの出現確率が予
め決められた値より小さい離散型隠れマルコフモデルを
ベクトル量子化コード毎に整理して格納したテーブルを
作成しておき、前記演算プロセッサは、ベクトル量子化
コードが得られる毎に前記テーブルを参照し、該テーブ
ル中の対応するベクトル量子化コードの欄に存在する離
散型隠れマルコフモデルに対しては確率計算を省略する
ようにしたことを特徴とする請求項５または６記載の音
声認識装置。
【請求項８】前記演算プロセッサは、求められたベクト
ル量子化コード時系列のある時間長分の統計情報を計算
し、該統計情報が各離散型隠れマルコフモデル毎に予め
決められた基準を満たした場合にはそのモデルに関する
確率計算を省略するようにしたことを特徴とする請求項
５または６記載の音声認識装置。
【請求項９】音声を入力するマイクと、マイクから入力
された音声信号を増幅するオーディオアンプと、増幅さ
れた音声信号を一定時間間隔毎に取り込みディジタル化
するＡＤ変換器と、取り込まれてディジタル化された音
声信号に対して演算を施す演算プロセッサと、演算プロ
セッサが利用する各種データを格納するメモリとから構
成される音声認識装置であって、演算プロセッサは前記ＡＤ変換器によって取り込まれた
音声信号に対して短時間周波数分析を施して周波数スペ
クトルの時系列を求め、さらに該周波数スペクトルの時
系列に対して演算プロセッサ内部の内蔵メモリに予め格
納されたコードブックを用いてベクトル量子化を施して
ベクトル量子化コード時系列を求め、さらに該ベクトル
量子化コード時系列に対してメモリに予め格納された単
語（あるいは音節）毎の離散型隠れマルコフモデルを用
いて確率計算を行ない、計算された確率値に基づいて認
識結果を求めるようにし、前記メモリには、各単語（あるいは各音節）の離散型隠
れマルコフモデルのパラメータを、特定のベクトル量子
化コードに関するパラメータ毎に一連のアドレスにまと
めて格納するようにしたことを特徴とする音声認識装
置。
【請求項１０】音声を入力するマイクと、マイクから入
力された音声信号を増幅するオーディオアンプと、増幅
された音声信号を一定時間間隔毎に取り込みディジタル
化するＡＤ変換器と、取り込まれてディジタル化された
音声信号に対して演算を施す複数の演算プロセッサと、
各演算プロセッサが利用する各種データを各演算プロセ
ッサ毎に個別に格納する複数のメモリとから構成される
音声認識装置であって、第１の演算プロセッサは前記ＡＤ変換器によって取り込
まれた音声信号に対して短時間周波数分析を施して周波
数スペクトルの時系列を求め、さらに該周波数スペクト
ルの時系列に対して演算プロセッサ内部の内蔵メモリに
予め格納されたコードブックを用いてベクトル量子化を
施してベクトル量子化コード時系列を求め、さらに該ベ
クトル量子化コード時系列に対して前記メモリに予め格
納された単語（あるいは音節）毎の離散型隠れマルコフ
モデルのパラメータを用いて確率計算を行ない、さら
に、前記求められたベクトル量子化コードを他の全ての
演算プロセッサに送出し、該他の全ての演算プロセッサは、前記第１の演算プロセ
ッサからベクトル量子化コードを受けとり、各演算プロ
セッサ毎に当該メモリに予め格納された単語（あるいは
音節）毎の離散型隠れマルコフモデルのパラメータを用
いて確率計算を行ない、最終的に得られた確率値は前記
第１の演算プロセッサに送出し、該第１の演算プロセッサでは自身で計算した確率値およ
び他の演算プロセッサから受けとった確率値の全てを総
合して認識結果を求めるようにしたことを特徴とする音
声認識装置。
【請求項１１】前記各メモリには、対応する演算プロセ
ッサが担当する単語（あるいは音節）の離散型隠れマル
コフモデルのパラメータを格納し、その際、各単語（あ
るいは音節）についてベクトル量子化コードを同一とす
るパラメータを一連のアドレスにまとめて格納するよう
にしたことを特徴とする請求項１０記載の音声認識装
置。