JPH0635496A

JPH0635496A - 音声認識方式

Info

Publication number: JPH0635496A
Application number: JP18545292A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-07-13
Filing date: 1992-07-13
Publication date: 1994-02-10

Abstract

(57)【要約】【目的】入力された音声から認識対象とする音声を正確
に抽出し、かつ計算量が少なく高速に認識することがで
きるようにする。【構成】入力音声を音響分析部１により例えばＬＰＣ分
析して特徴パラメータを求め、その特徴パラメータか
ら、音声量子化部３により、量子化された音声セグメン
ト系列などのラベル系列を求め、このラベル系列をカテ
ゴリ毎のＨＭＭを用いてＨＭＭ認識部５にて認識する。
この認識処理の都度、入力ラベル系列に対してＨＭＭの
状態が遷移したフレームを状態遷移位置検出部７にて検
出し、このフレームを基準として、次にＨＭＭ認識部５
で用いる始端フレームを始端フレーム算出部８で求め、
このフレームが認識終了判定部９での認識終了判定条件
に合致していなければ、このフレームを始端とするラベ
ル系列をＨＭＭへ入力してＨＭＭ認識部５にて再度認識
する構成とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声の認識にＨＭ
Ｍを適用した音声認識方式に関する。

【０００２】

【従来の技術】近年、入力音声を認識する音声認識方式
において、音声を一定の符号系列に変換するベクトル量
子化やマトリクス量子化等を行い、量子化符号系列を隠
れマルコフモデル（Hidden Markov Model ）、即ちＨＭ
Ｍで認識する方式が成功を収めている。

【０００３】この種の音声認識方式を適用する音声認識
装置をより実用的な装置とするためには、認識対象とし
ている言葉の前後に認識対象外の言葉や周囲騒音などが
付加された入力音声に対して、認識対象としている言葉
を正しく認識するワードスポッティング技術が必要不可
欠となっている。

【０００４】ワードスポッティングを行うための従来の
技術としては、（１）入力音声のパワーの大きさを用いて検出した複数
の音声区間に対して認識処理を行う方式。

【０００５】（２）入力音声の全てのフレームを音声の
始端・終端候補とし、この始端・終端の組み合わせから
得られる全ての音声区間に対して認識処理を行う方式。

【０００６】（３）上記の方式（２）において、音声区
間候補の数を削減するために音声区間の最小長と最大長
を設定する方式。

【０００７】（４）上記の方式（２）において、全ての
フレームを始端・終端候補とするのではなく、一定間隔
のフレームを始端・終端候補とし、音声区間候補の数を
削減する方式。

【０００８】などの技術が提案されている。

【０００９】

【発明が解決しようとする課題】しかし、従来の音声認
識方式には次のような問題があった。

【００１０】まず、入力音声のパワーを用いて音声区間
を検出する上記（１）の方式においては、認識対象の音
声と認識対象外の音声の間に無音区間がない場合には、
正しい音声区間を音声区間候補として検出することが困
難なため、高い認識性能が得られないという問題があっ
た。

【００１１】また、全てのフレームを音声区間の始端・
終端候補とする上記（２）の方式では、正しい音声区間
が音声区間候補中に含まれることは保証されるが、音声
区間候補の数が多くなりすぎて計算が困難であるという
問題があった。

【００１２】この音声区間候補の数を削減するために、
上記（３）のように、音声区間長の最小値と最大値を設
定し、１つの始端に対する終端候補を限定する方式が用
いられているが、始端候補は限定されず、全フレームが
始端候補の対象であるため、音声区間候補削減の効果は
少ないという問題があった。

【００１３】また、始端・終端候補を削減する手段とし
ては、上記（４）のように、一定間隔のフレームを始端
・終端候補とする方式がある。しかし、この方式では、
フレームの選び方に入力音声の特徴が反映されず、フレ
ームの間隔を小さくした場合には、音声区間候補数削減
効果は少なく、フレームの間隔を大きくした場合には、
正しい始端・終端が選択されない可能性があり、高い認
識性能が得られないという問題があった。

【００１４】そこで、本発明は、ＨＭＭの性能を生か
し、入力された音声から認識対象とする音声を正確に抽
出し、かつ計算量が少なく高速に認識することのできる
音声認識方式を提供することを目的とする。

【００１５】

【課題を解決するための手段】本発明の音声認識方式
は、入力される音声信号を音響分析することにより特徴
パラメータを求める音響分析手段と、この特徴パラメー
タからフレーム毎にラベルを求める音声量子化手段と、
このラベルの系列をカテゴリ毎に用意されたＨＭＭを用
いて認識する認識手段と、この認識手段による認識処理
の都度、ＨＭＭに入力されたラベル系列に対してＨＭＭ
の状態が遷移したフレームを求める状態遷移位置検出手
段と、この状態遷移フレームの位置を基準として、次の
認識処理でＨＭＭへ入力するラベル系列の始端となるフ
レームを求める始端フレーム算出手段とを設け、この始
端フレーム算出手段により求められたフレームを始端と
するラベル系列をＨＭＭへ入力して認識手段における次
の認識処理を行うようにしたことを特徴とするものであ
る。

【００１６】

【作用】上記の構成においては、入力される音声信号か
ら求められたラベル系列をＨＭＭを用いて認識手段にて
認識処理する毎に、入力ラベル系列に対してＨＭＭの状
態が遷移したフレームが状態遷移位置検出手段により求
められる。

【００１７】ＨＭＭの状態が遷移したフレーム（状態遷
移フレーム）が求められると、始端フレーム算出手段が
起動され、その状態遷移フレームを基準として、次にＨ
ＭＭへ入力するラベル系列の始端フレームが求められ
る。この始端フレームが、認識終了条件に合致するフレ
ームでなければ、このフレームを始端とするラベル系列
がＨＭＭを用いて認識手段にて再度認識される。

【００１８】このように、上記の構成においては、入力
音声中から認識対象とする単語のみを抽出して認識する
ために、始端フレーム位置を変更してＨＭＭ認識処理を
繰り返し行う際に、全てのフレームが始端フレームとさ
れるのではなく、前回のＨＭＭ認識処理で得られた状態
遷移位置を基準として次のＨＭＭ認識処理で使用する始
端フレームが決定されるため、始端フレームとなるフレ
ーム数を従来に比べて大幅に削減でき、認識対象とする
音声区間を精度良く、高速に検出することが可能とな
り、音声を高精度に認識することができる。

【００１９】

【実施例】以下、本発明の一実施例について図面を参照
して説明する。

【００２０】図１は、本発明の一実施例に係る音声認識
装置の構成を概略的に示すブロック図である。この図１
の音声認識装置における処理は、基本的には、音声学的
に意味のあるセグメント（Phonetic Segment；以下ＰＳ
と記述する）を認識処理単位とし、このＰＳ単位の認識
辞書を用いてＰＳに量子化された入力音声をＨＭＭ認識
部で単語照合するものである。

【００２１】ここまでの図１の音声認識装置における処
理を更に詳しく説明する。まず、図示せぬマイクロフォ
ンを通して入力される音声信号（入力音声）は音響分析
部１に導かれる。音響分析部１は、入力音声を音響分析
して特徴パラメータを求めるためのものである。

【００２２】音響分析部１は、図２にその詳細を示すよ
うに、Ａ／Ｄ変換器１０１、パワー計算部１０２および
ＬＰＣ分析部１０３から構成される。音響分析部１に導
かれた入力音声はＡ／Ｄ変換器１０１にて、例えばサン
プリング周波数１２ｋＨｚ，１２ビットで量子化された
後、パワー計算部１０２に入力されて、その音声パワー
が計算され、更にＬＰＣ分析部１０３に入力されて、Ｌ
ＰＣ（Linear Predictive Coding）メルケプストラム分
析（ＬＰＣ分析）される。このＬＰＣ分析は、例えばフ
レーム長１６msec、フレーム周期８msecで１６次のＬＰ
Ｃメルケプストラムを分析パラメータとして行われる。
なお、音響分析部１での音響分析は、ＬＰＣメルケプス
トラム分析に限るものではなく、ＢＰＦ（Band Pass Fi
lter）分析等でもよい。

【００２３】さて、図１の音声認識装置には、上記の音
響分析部１の他に、音声認識処理を起動するための認識
処理起動部２、音響分析部１により求められた特徴パラ
メータによりフレーム毎にラベルを求めるための音声量
子化部３、所定のＰＳ（音声セグメント）単位の認識辞
書が記憶されているＰＳ辞書記憶部４、音声量子化部３
により求められたラベル系列をＨＭＭを用いて認識する
ＨＭＭ認識部５、およびＨＭＭのモデルＭのパラメータ
が記憶されているＨＭＭパラメータ記憶部６が設けられ
ている。

【００２４】認識処理起動部２は、図２に示す音響分析
部１内のパワー計算部１０２で計算された入力音声パワ
ーの値がある閾値よりも大きくなった時点で、認識処理
を開始する信号を音声量子化部３に出力する。この認識
処理の起動の条件としては、パワーの値に限るものでは
なく、マイクロフォンのスイッチのオン／オフ等を使用
することも可能である。

【００２５】音声量子化部３は認識処理起動部２からの
開始信号により起動され、音響分析部１で分析された特
徴パラメータをＰＳ辞書記憶部４に登録されている所定
のＰＳ単位の認識辞書と時間軸方向に連続的にマッチン
グ処理し、各フレーム毎に類似度が最大となるＰＳを量
子化結果として、ＨＭＭ認識部５に出力する。

【００２６】ここで、音声量子化部３でのＰＳによる連
続マッチング処理は、次式（１）に示す複合ＬＰＣメル
ケプストラム類似尺度を用いて行われる。

【００２７】

【数１】なお、（１）式において、ＣはＬＰＣメルケプストラ
ム、Ｗ_m ^(Ki)、φ_m ^(ki)はそれぞれＰＳ名Ｋi の固有値
から求められる重みと固有ベクトルである。また、（
・）は内積を示し、‖ ‖はノルムを示している。

【００２８】さて、本実施例で用いられるＰＳとして
は、例えば次のようなものがある。

【００２９】（１）持続性セグメント：（１−１）母音定常部（１−２）摩擦子音部（２）子音セグメント：母音への渡り（過渡部）を
含む部分［半音節］（３）音節境界セグメント：（３−１）母音境界（３−２）母音、子音境界（３−３）母音、無音境界（４）その他のセグメント：無声化母音等このうち、（１）、（２）および（４）の一部について
は音節を認識セグメントとする場合にも採用されること
が多い。しかし、本実施例におけるＰＳの長所は、上記
（１）、（２）、（４）に示されるセグメントに加えて
上記（３）の音節境界セグメントを採用したことにあ
る。

【００３０】ＨＭＭ認識部５は、音声量子化部３から出
力される各フレーム毎に類似度が最大となるＰＳ、即ち
ＰＳ系列（ラベル系列）を受けて、対応する入力音声の
単語照合を行う。このＨＭＭ認識部５の単語照合を以下
に説明する。

【００３１】本実施例における単語照合は、上記のよう
にＰＳ系列をラベル系列として求め、これを単語（カテ
ゴリ）毎のＨＭＭに通して行うものである。ここで、Ｈ
ＭＭの一般的定式化について述べる。ＨＭＭでは、Ｎ個
の状態Ｓ₁，Ｓ₂，…，Ｓ_Nを持ち、初期状態がこれら
Ｎ個の状態に確率的に分布しているとする。音声では、
一定のフレーム周期毎に、ある確率（遷移確率）で状態
を遷移するモデルが使われる。遷移の際には、ある確率
（出力確率）でラベルを出力するが、ラベルを出力しな
いで状態を遷移するナル遷移を導入することもある。出
力ラベル系列が与えられても状態遷移系列は一意には決
まらない。観測できるのは、ラベル系列だけであること
からhidden（隠れ）markov model （ＨＭＭ）と呼ばれ
ている。ＨＭＭのモデルＭは次の６つのパラメータから
定義される。

【００３２】Ｎ：状態数（状態Ｓ₁，Ｓ₂，
…，Ｓ_N）Ｋ：ラベル数（ラベルＲ＝１，２，…，Ｋ）ｐ_ij ：遷移確率Ｓ_iからＳ_jに遷移する確率ｑ_ij(k) ：Ｓ_iからＳ_jへの遷移の際にラベルｋを出力
する確率ｍ_i ：初期状態確率初期状態がＳ_iである確率Ｆ：最終状態の集合次に、モデルＭに対して音声の特徴を反映した遷移上の
制限を加える。音声では、一般的に状態Ｓ_iから以前に
通過した状態（Ｓ_i-1，Ｓ_i-2，…）に戻るようなルー
プの遷移は時間的前後関係を乱すため許されない。

【００３３】この種のＨＭＭの構造としては、図３のよ
うな例が代表的である。

【００３４】ＨＭＭの評価は、モデルＭが第１位のラベ
ル系列Ｏ₁＝ｏ₁₁，ｏ₂₁，…，ｏ_T1を出力する確率Ｐｒ
（Ｏ／Ｍ）を求めることである。認識時には、ＨＭＭ認
識部５で各モデルを仮定してＰｒ（Ｏ／Ｍ）が最大にな
るようなモデルＭを探す。

【００３５】また、ＨＭＭの学習は、予め学習データの
ラベル系列をＨＭＭに与え、そこでＰｒ（Ｏ／Ｍ）が最
大となるモデルＭのパラメータを推定すればよい。そし
て、その推定パラメータをＨＭＭパラメータ記憶部６に
登録しておく。

【００３６】ここで、本発明に直接関係するワードスポ
ッティング方式について説明する。まず本実施例で適用
されるＨＭＭの構造は、図４に示すようなレフト・ツウ
・ライト（left to right ）型であり、１０個の状態Ｓ
₁，Ｓ₂，…，Ｓ₁₀を持ち、初期状態はＳ₁のみとす
る。このＨＭＭは、８msecのフレーム周期で、ある遷移
確率で状態を遷移し、その遷移の際に、ある出力確率で
ラベルを出力するモデルである。

【００３７】さて、ＨＭＭ認識部５は、図５にその詳細
を示すように、ラベルバッファ５０１、終端候補算出部
５０２、ＨＭＭ確率演算部５０３、ＨＭＭ確率正規化部
５０４、状態遷移記憶部５０５、終端検出部５０６およ
び正規化確率記憶部５０７から構成される。

【００３８】音声量子化部３からＨＭＭ認識部５に出力
されるＰＳ系列（ラベル系列）は、同認識部５内のラベ
ルバッファ５０１に蓄積される。認識処理起動部２によ
り認識処理が起動されて後の最初（第１回）のＨＭＭ認
識処理では、ラベルバッファ５０１に蓄積された第１番
目のフレームＦ₁のラベルを、ＨＭＭへ入力する始端フ
レームＳＦ₁のラベルとする。このときのＨＭＭへ入力
するラベル系列の終端候補は、終端候補算出部５０２
で、例えば各カテゴリ毎に予め設定した発声長の最小値
ＬMIN と最大値ＬMAX の条件を満たす範囲内の全フレー
ムＦ_i（ｉ＝ＬMIN ，…，ＬMAX ）として求められる。

【００３９】ＨＭＭ確率演算部５０３は、ＳＦ₁を始端
とし、フレームＦ_i（ｉ＝ＬMIN ，…，ＬMAX ）を終端
と仮定したときのラベル系列に対する確率Ｐｒ（Ｓ
Ｆ₁，Ｆ_i）を求める。

【００４０】また、ＨＭＭ確率演算部５０３は、例えば
周知のビタービ（Viterbi ）アルゴリズムを適用して、
入力ラベル系列に対する状態遷移系列の中から最大確率
を与える最適状態遷移系列を求め、後述の状態遷移位置
検出部７での使用のために、この最適状態遷移系列にお
ける状態Ｓ_iへの遷移がどの状態（ここでは同じ状態Ｓ
_iまたは１つ前の状態Ｓ_i-1）から起きたかを状態遷移
記憶部５０５に蓄積しておく。

【００４１】ＨＭＭ確率正規化部５０４は、ＨＭＭ確率
演算部５０３により求められた確率Ｐｒを（発声長に影
響されない）正規化確率ＮＰｒに発声長で正規化する。

【００４２】終端検出部５０６は、ＨＭＭ確率正規化部
５０４により正規化された正規化確率ＮＰｒ（ＳＦ₁，
Ｆ_i）が最大となる終端候補フレームＦ_iを始端フレー
ムＳＦ₁に対する終端フレームＥＦ₁とし、そのときの
始端フレームＳＦ₁と終端フレームＥＦ₁を正規化確率
記憶部５０７に蓄積する。また終端検出部５０６は、最
大の正規化確率ＮＰｒ（ＳＦ₁，Ｆ_i）、即ち正規化確
率ＮＰｒ（ＳＦ₁，ＥＦ₁）を、フレームＦ₁を始端フ
レームとした時のラベル系列がカテゴリｃである確率と
して、正規化確率記憶部５０７に蓄積する。これらの一
連の処理を全てのカテゴリに対して行うことにより、正
規化確率記憶部５０７には、始端フレームＳＦ₁、終端
フレームＥＦ₁および正規化確率ＮＰｒ（ＳＦ₁，ＥＦ
₁）が、各カテゴリ毎に蓄積される。

【００４３】次に、認識処理が起動されて後の第２回目
以降の（ＨＭＭ認識部５における）ＨＭＭ認識処理で
は、後述の始端フレーム算出部８で求められた始端フレ
ームＳＦ_i（ｉ＝２，３，…）を始端フレームとして、
第１回目のＨＭＭ認識処理と同様に、状態遷移の様子が
状態遷移記憶部５０５に蓄積され、始端フレームＳ
Ｆ_i、終端フレームＥＦi および正規化確率ＮＰｒ（Ｓ
Ｆ_i，ＥＦ_i）が各カテゴリ毎に正規化確率記憶部５０
７に蓄積される。

【００４４】図１の音声認識装置には、上記の音響分析
部１、認識処理起動部２、音声量子化部３、ＰＳ辞書記
憶部４、ＨＭＭ認識部５およびＨＭＭパラメータ記憶部
６の他に、状態Ｓ_iから状態Ｓ_i+1に遷移したフレーム
を検出する状態遷移位置検出部７、ＨＭＭ認識部５での
次の認識処理で使用する始端フレームを求める始端フレ
ーム算出部８、ＨＭＭ認識処理の終了を判定する認識終
了判定部９、図５に示す正規化確率記憶部５０７に蓄積
されている正規化確率を対象とする比較処理を行う正規
化確率比較部１０および同比較部１０の各結果をもとに
音声認識結果を出力する認識結果出力部１１が設けられ
ている。

【００４５】状態遷移位置検出部７は、ＨＭＭ認識部５
内の状態遷移記憶部５０５（図５参照）に蓄積された始
端フレームＳＦ_iから終端フレームＥＦ_iに至るラベル
系列に対する状態遷移の様子を、終端フレームＥＦ_iか
ら始端フレームＳＦ_iに向かって逆にたどることによ
り、状態Ｓi から状態Ｓi+1 に遷移したフレームを検出
する。

【００４６】始端フレーム算出部８は、ＨＭＭ認識部５
での次の認識処理で使用するための始端フレームを、状
態遷移位置検出部７によって検出されたフレーム（状態
遷移位置）を基準として算出する。この始端フレーム算
出部８による始端フレーム算出処理の一例を、図６のフ
ローチャートを参照して説明する。

【００４７】まず始端フレーム算出部８は、状態遷移位
置検出部７の検出結果により、状態Ｓ₁から状態Ｓ₂へ
遷移するフレームＴＦ₁を求める（ステップＳ１）。

【００４８】次に始端フレーム算出部８は、前回のＨＭ
Ｍ認識処理で使用された始端フレームＳＦ_iとステップ
Ｓ１で求めたフレームＴＦ₁（のフレーム番号）を比較
する（ステップＳ２）。

【００４９】始端フレーム算出部８は、ステップＳ２で
の比較の結果、ＴＦ1 −ＳＦ_iがあるフレーム数を示す
閾値ＴMAX より大きい場合には、次の始端フレームＳＦ
_i+1をＳＦ_i+1＝ＴＦ₁−ＴMAX とする（ステップＳ
３）。

【００５０】また始端フレーム算出部８は、ステップＳ
２での比較の結果、ＴＦ1 −ＳＦ_iが上記閾値ＴMAX 以
下でかつ０より大きい場合には、次の始端フレームＳＦ
_i+1をＳＦ_i+1＝ＴＦ₁とする（ステップＳ４）。

【００５１】また始端フレーム算出部８は、ステップＳ
２での比較の結果、ＴＦ1 −ＳＦ_iが０、即ちＴＦ1 ＝
ＳＦ_iの場合には、ＴＦ1 にあるフレーム数を示す閾値
ＴMIN を加えて、次の始端フレームＳＦ_i+1をＳＦ_i+1
＝ＴＦ1 ＋ＴMIN とする（ステップＳ５）。

【００５２】このように本実施例では、ＨＭＭ認識部５
で使用する始端フレームを、従来のように全てのフレー
ムとするのではないことに注意されたい。即ち本実施例
では、前回のＨＭＭ認識処理で正規化確率が最大となっ
たラベル系列において、状態Ｓ1 から状態Ｓ2 へ遷移し
たフレームを状態遷移位置検出部７にて検出し、次のＨ
ＭＭ認識処理で使用する始端フレームを、この検出され
たフレームをもとに始端フレーム算出部８にて算出する
ことにより、始端フレームとなるフレーム数を大幅に削
減することができ、高速にかつ精度良く入力音声中から
認識対象単語のみを認識することが可能となる。

【００５３】なお、上記の始端フレーム算出部８で使用
される閾値ＴMAX ，ＴMIN は、値が大きい程、始端フレ
ームとなるフレーム数の削減効果が高くなるが、余り大
きくなると高精度で認識することができなくなる。そこ
で本実施例では、認識対象となる単語の平均的な発声長
を８００msecとすると、１フレームの長さ（フレーム周
期）が８msec、ＨＭＭの状態数が１０であり、したがっ
て１つの状態での平均的な滞留フレーム数が８００／８
／１０＝１０であることから、ＴMAX ，ＴMINを共に１
０（１０フレーム）とすることで、始端フレームとなる
フレーム数の削減効果が高く、しかも高精度で認識でき
るようにしている。勿論、入力音声の発声長に応じてＴ
MAX ，ＴMIN を可変設定することも可能である。

【００５４】始端フレーム算出部８により次の始端フレ
ーム（ＳＦ_i+1）が算出されると、認識終了判定部９
は、認識処理を終了するか否か（再度ＨＭＭ認識処理を
行わせるか）を判定する。この判定条件としては、例え
ば、音響分析部１で求められた入力音声のパワーの値が
閾値を一定時間以上下回ったフレームに、上記算出され
た始端フレームが達したか否か、あるいは算出された始
端フレームが予め設定されたフレームに達したか否かな
どである。

【００５５】認識終了判定部９で認識処理を終了しない
と判定した場合、同判定部９は始端フレーム算出部８に
より求められたフレーム（ＳＦ_i+1）を始端とするラベ
ル系列をＨＭＭへ入力して次の第（ｉ＋１）回目の認識
処理を行うように、ＨＭＭ認識部５に要求する。

【００５６】これに対し、認識終了判定部９で認識処理
を終了すると判定した場合には、正規化確率比較部１０
が起動される。これにより正規化確率比較部１０は、Ｈ
ＭＭ認識部５内の正規化確率記憶部５０７（図５参照）
に蓄積された各始端フレームに対する正規化確率の比較
と、カテゴリ間の正規化確率の比較を行う。更に具体的
に述べるならば、まず正規化確率比較部１０は、正規化
確率記憶部５０７に蓄積された各始端フレームに対する
正規化確率の比較を各カテゴリについて行い、各カテゴ
リ毎に最大の正規化確率を検出する。次に正規化確率比
較部１０は、各カテゴリ毎の最大の正規化確率を比較し
て、全カテゴリの中で最大の正規化確率を検出する。認
識結果出力部１１は、この正規化確率比較部１０の比較
結果をもとに、正規化確率が最大となるカテゴリを入力
音声に対する認識結果として出力する。

【００５７】以上に実施例を挙げて本発明を説明した
が、本発明は前記実施例に限るものではない。即ち、本
発明の要旨とするところは、入力音声中から認識対象と
する単語のみを抽出して認識するために、始端フレーム
位置を変更してＨＭＭ認識処理を繰り返し行う際に、全
てのフレームを始端フレームとするのではなく、前回の
ＨＭＭ認識処理で得られた状態遷移位置から次のＨＭＭ
認識処理で使用する始端フレームを求めることにあり、
したがって、ＨＭＭの構造、状態遷移位置検出方法など
は前記実施例で示したものに限らない。

【００５８】また、前記実施例では、状態Ｓ₁から状態
Ｓ₂へ遷移するフレーム（ＴＦ₁）をもとに次の始端フ
レームを求めたが、状態Ｓ₂から状態Ｓ₃へ遷移するフ
レーム等、その他の状態遷移位置を用いてもよい。ま
た、状態遷移位置から始端フレームを算出する方法も前
記実施例で示したものに限らず、常に“状態遷移位置＋
ＬMIN ”を次の始端フレームとするようにしてもよい。

【００５９】また、前記実施例では、音声を量子化する
単位をＰＳとしたが、量子化の単位は音素、音節であっ
てもよく、更に音響学的分類とは異なるクラスタリング
手法を用いて量子化した単位を用いてもよい。その他、
本発明はその要旨を逸脱しない範囲で種々変形して実施
することができる。

【００６０】

【発明の効果】以上説明したように本発明によれば、入
力される音声信号から求められたラベル系列をカテゴリ
毎に用意されたＨＭＭを用いて認識処理し、この認識処
理毎に、入力されたラベル系列に対してＨＭＭの状態が
遷移したフレームを求めて、このＨＭＭの状態が遷移し
たフレームから、次にＨＭＭへ入力するラベル系列の始
端フレームを求め、このフレームを始端とするラベル系
列をＨＭＭへ入力して次の認識処理を行う構成とするこ
とにより、始端フレームとなるフレーム数を大幅に減ら
して、認識対象とする音声区間を精度良く、かつ高速に
検出することが可能となり、音声を高精度に認識するこ
とができる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

【図１】本発明を適用する音声認識装置の一実施例を示
す基本ブロック構成図。

【図２】図１の装置における音響分析部１の構成を示す
ブロック図。

【図３】ＨＭＭの構成の代表例を示す図。

【図４】図１の装置で適用されるＨＭＭの構成を示す
図。

【図５】図１の装置におけるＨＭＭ認識部５の構成を示
すブロック図。

【図６】図１の装置における始端フレーム算出部８によ
る始端フレーム算出処理の一例を示すフローチャート。

【符号の説明】

１…音響分析部、２…認識処理起動部、３…音声量子化
部、５…ＨＭＭ認識部、６…ＨＭＭパラメータ記憶部、
７…状態遷移位置検出部、８…始端フレーム算出部、９
…認識終了判定部、１０…正規化確率比較部、１１…認
識結果出力部、５０３…ＨＭＭ確率演算部、５０５…状
態遷移記憶部、５０６…終端検出部、５０７…正規化確
率記憶部。

Claims

【特許請求の範囲】

【請求項１】入力される音声信号を音響分析することに
より特徴パラメータを求める音響分析手段と、この音響分析手段により求められた特徴パラメータから
フレーム毎にラベルを求める音声量子化手段と、この音声量子化手段により求められたラベルの系列をカ
テゴリ毎に用意されたＨＭＭ（Hidden Markov Model ）
を用いて認識する認識手段と、この認識手段による認識処理の都度、前記ＨＭＭに入力
されたラベル系列に対して前記ＨＭＭの状態が遷移した
フレームを求める状態遷移位置検出手段と、この状態遷移位置検出手段により求められた状態遷移フ
レームの位置を基準として、次の認識処理で前記ＨＭＭ
へ入力するラベル系列の始端となるフレームを求める始
端フレーム算出手段と、を具備し、前記始端フレーム算出手段により求められた
フレームを始端とするラベル系列を前記ＨＭＭへ入力し
て前記認識手段における次の認識処理を行うようにした
ことを特徴とする音声認識方式。