JPH07281692A

JPH07281692A - 音声認識装置

Info

Publication number: JPH07281692A
Application number: JP6073594A
Authority: JP
Inventors: Yumi Takizawa; 由実滝沢
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-04-12
Filing date: 1994-04-12
Publication date: 1995-10-27

Abstract

(57)【要約】【目的】発声速度の変化に逐次的に適応した継続時間の
制御を可能とし、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ認識候補として成立させる
ことが可能となる、より高性能な装置の実現。【構成】同入力音声内の既に認識された認識単位の継続
時間から、入力音声の発声速度を予測し、予め学習した
発声速度と各状態の継続時間の関係を用いて、次に認識
しようとする状態のの継続時間を予測し、予測された継
続時間を用いて照合を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】近年、音声認識技術の発達と共に、音
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識（連続音声認識
という）装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現している。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。

【０００３】その１つに、音声の継続時間情報を利用し
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
（以後認識区間という）に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。

【０００４】以下、図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。

【０００５】図６は、従来の音声認識装置のブロック図
である。１は音声入力端子，２は分析部、３は標準音声
スペクトル算出部、４は状態スペクトル決定部、５は音
声辞書作成部、６は標準音声保管バッファ、７は照合区
間測定部、３３は状態継続時間保管バッファ、３２は照
合部、１７は認識結果出力端子、１８は音声辞書、１９
は辞書、２０、３４はスイッチである。

【０００６】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され
る。スペクトル情報としては、たとえばＬＰＣケプスト
ラム法を用いれば所定の単位時間（以後フレームとい
う）に所定の個数を１組としたＬＰＣケプストラム係数
が特徴パラメータとして算出され、この特徴パラメータ
ベクトルが音節継続時間分求められる。上記分析処理
を、所定の個数の学習音声データが終わるまで繰り返
す。次に標準音声スペクトル算出部３で、音節毎に分析
されたデータをクラスタリングし、各クラスタの中心ベ
クトルの時系列データを選択する。次に状態スペクトル
決定部４で、中心ベクトルの時系列データを、類似した
ベクトルを１グループとなるように、予め決められたグ
ループ数に時系列に沿って区切り（この１グループが１
つの状態になる）、各状態の中心ベクトルを標準音声保
管バッファ６に保管する。

【０００７】次に、継続時間学習時には、上記で用いた
学習音声が単語または文章単位のまま、音声入力端子１
から入力され、分析部２でフレーム毎にスペクトル情報
が分析される。分析方法は学習時と同様である。

【０００８】次に状態継続時間の学習を行う。音声辞書
作成部５で、認識対象となる単語または文章が記述され
ている辞書１９に従って、標準音声保管バッファ６から
相当する音節を選択し、それを連結して音声辞書１８を
作成する。

【０００９】既知の正解データとして学習音声を入力
し、照合区間測定部７で、相当する単語または文章の音
声辞書との照合を行い、各々の状態の照合区間を求め
る。照合距離Ｄ（ｉ）は（数５）に基づいて算出する。
全学習データについて照合を行い、各状態毎の照合区間
の最大区間値と最小区間値を状態継続時間保管バッファ
３３に保管する。

【００１０】

【数５】

【００１１】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子１から入力
され、分析部２でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。

【００１２】次に音声辞書作成部５でも、継続時間学習
部と同様に認識対象となる単語または文章が記述されて
いる辞書１９に従って、標準音声保管バッファ６から相
当する音節を選択し、それを連結して単語または音声辞
書１８を作成する。

【００１３】次に照合部３２で、入力音声と上記音声辞
書１８との照合を（数５）に基づいて行う。但し、各状
態継続時間の照合区間、たとえば音節ｔのｓ番目の状態
のｄst(t,s)を（数６）の範囲に限定して、照合を行
う。

【００１４】

【数６】ｄst.min（t,s）＜ｆ(t,s) ＜ｄst.max（t,s）ｄst.min(t,s)：ｔ音節ｓ状態における、学習音声の照
合区間の最小値ｄst.max(t,s)：ｔ音節ｓ状態における、学習音声の照
合区間の最大値音声辞書１８に記載されている全音声について照合を行
い、最終フレームでの照合距離が最も小さい単語または
文章を結果として、認識結果出力端子１７より出力す
る。

【００１５】なおスイッチ２０は、標準音声学習時には
標準音声スペクトル算出部３に、継続時間学習時、また
は認識時には音声辞書作成部５に特徴パラメータを出力
するように動作する。また、スイッチ３４は、継続時間
学習時には照合区間測定部７へ、認識時には照合部３２
へ特徴パラメータを出力するように動作する。

【００１６】

【発明が解決しようとする課題】しかしながら上記のよ
うな従来の構成では、各音節の継続時間を継続時間の絶
対値で制御しているため、入力音声と標準音声との発声
速度が異なる場合、誤った継続時間を設定してしまう。
また、あらゆる発声速度に対応するためには、あらゆる
発声速度を含む制御が必要となり、処理効率が悪く、ま
た学習音声も膨大となる。

【００１７】また、上記のような従来の構成では、継続
時間制御を音節毎に閉じて行っているため、隣接する音
節の継続時間の差が非現実的に大きい場合でも、スコア
ーさえ大きければ、認識候補として成立してしまうとい
う課題を有していた。

【００１８】

【課題を解決するための手段】請求項第１項の本発明
は、上記課題に鑑み、既に認識された認識単位または状
態の照合区間から、次に認識する状態の継続時間を予測
し、予測された状態継続時間を用いて標準音声と入力音
声の照合を行うため、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。

【００１９】請求項第２項の本発明は、上記課題に鑑
み、既に認識された認識単位または状態の照合区間か
ら、次に認識する認識単位の継続時間を予測し、予測さ
れた認識区間の継続時間を用いて、同認識区間内の各状
態の継続時間を予測し、予測された状態継続時間を用い
て、標準音声と入力音声の照合を行うため、入力音声と
標準音声との発声速度が異なっても、発声速度の変化に
逐次的に適応した継続時間の制御が可能であり、また同
入力音声内の認識単位毎の継続時間の差が現実的な場合
のみ、認識候補として成立させることが可能となり、よ
り高性能な装置の実現が可能となる。

【００２０】請求項第３項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間の平均値を次の
認識単位の継続時間予測値とし、予測された認識区間の
継続時間を用いて、同認識区間内の各状態の継続時間を
予測し、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行うため、入力音声と標準音声との発
声速度が異なっても、発声速度の変化に逐次的に適応し
た継続時間の制御が可能であり、また同入力音声内の認
識単位毎の継続時間の差が現実的な場合のみ、認識候補
として成立させることが可能となり、より高性能な装置
の実現が可能となる。

【００２１】請求項第４項の本発明は、上記課題に鑑
み、既に認識された認識単位の継続時間を請求項４に記
載の式１にて補正した値を用いて、次の認識単位の継続
時間を予測し、予測された認識区間の継続時間を用い
て、同認識区間内の各状態の継続時間を予測し、予測さ
れた状態継続時間を用いて、標準音声と入力音声の照合
を行うため、入力音声と標準音声との発声速度が異なっ
ても、発声速度の変化に逐次的に適応した継続時間の制
御が可能であり、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ、認識候補として成立させ
ることが可能となり、より高性能な装置の実現が可能と
なる。

【００２２】請求項第５項の本発明は、上記課題に鑑
み、既に認識された認識単位の継続時間を請求項４に記
載の式１にて補正した値を用いて、入力音声の始終端を
検出し、検出された音声区間を各認識対象語に含まれる
認識単位数で当分し、等分された１区間を認識単位の継
続時間予測値とすることで、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて同認識
区間内の各状態の継続時間を予測し、予測された状態継
続時間を用いて標準音声と入力音声の照合を行うため、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。

【００２３】請求項第６項の本発明は、上記課題に鑑
み、検出された入力音声の音声長を請求項６に記載の式
２にて補正した値を用いて、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測し、予測された状態
継続時間を用いて、標準音声と入力音声の照合を行うた
め、入力音声と標準音声との発声速度が異なっても、発
声速度の変化に逐次的に適応した継続時間の制御が可能
であり、また同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。

【００２４】請求項第７項の本発明は、上記課題に鑑
み、発声速度が状態継続時間がに及ぼす影響度が予測結
果に反映するように、状態継続時間を予測し、予測され
た状態継続時間を用いて標準音声と入力音声の照合を行
うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。

【００２５】請求項第８項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項８に記載の式３にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うため、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。

【００２６】請求項第９項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間情報から次に認
識する認識単位の継続時間を予測し、この予測値を疑似
的に発声速度と見なし、予測された認識単位継続時間予
測値を含む項と、含まない項を線形結合させた請求項９
に記載の予測式４にて、状態継続時間を予測し、予測さ
れた状態継続時間を用いて標準音声と入力音声の照合を
行うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。

【００２７】請求項第１０項の本発明は、上記課題に鑑
み、予め学習音声を用いて、各状態の継続時間を測定
し、最小２乗法にて左記測定値と予測値の誤差が最小に
なるように請求項８の式３の重みａ、ｂを求め、認識時
に、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項８に記載の式３にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となり、より
高性能な装置の実現が可能となる。

【００２８】請求項第１１項の本発明は、上記課題に鑑
み、状態継続時間予測部で予測された状態継続時間を用
いて、次に認識する状態の照合区間を決定し、決定され
た照合区間内に状態の照合区間が納まるように照合を行
うことにより、入力音声と標準音声との発声速度が異な
っても、発声速度の変化に逐次的に適応した継続時間の
制御が可能であり、また同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。

【００２９】請求項第１２項の本発明は、上記課題に鑑
み、状態継続時間予測部で予測された状態継続時間を用
いて、予測された状態継続時間を中心に予め決められた
一定範囲を、その状態の照合区間範囲と決定し、決定さ
れた照合区間内に状態の照合区間が納まるように照合を
行うことにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となり、より高性能な装置の実現が可
能となる。

【００３０】請求項第１３項の本発明は、上記課題に鑑
み、予め学習音声を用いて測定された状態継続時間と予
測された状態継続時間の差を算出しておき、認識時に、
入力音声に対する状態継続時間予測値を中心に、学習時
に求められた誤差値の範囲をその状態の照合区間範囲と
決定することにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。

【００３１】請求項第１４項の本発明は、上記課題に鑑
み、予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みをくわえながら照合を行うことに
より、入力音声と標準音声との発声速度が異なっても、
発声速度の変化に逐次的に適応した継続時間の制御が可
能であり、また同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。

【００３２】

【作用】この構成によって、発声速度の変化に逐次的に
適応した継続時間の制御が可能であり、また同入力音声
内の認識単位毎の継続時間の差が現実的な場合のみ、認
識候補として成立させることができる、より高性能な装
置の実現が可能となる。

【００３３】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００３４】請求項１、請求項２、請求項３、請求項７
〜１３に対応する一実施例について図１を参照しながら
説明する。図１は本実施例における音声認識装置のブロ
ック図である。１は音声入力端子、２は分析部、３は標
準音声スペクトル算出部、４は状態スペクトル決定部、
５は音声辞書作成部、６は標準音声保管バッファ、７は
状態照合区間測定部、８は予測重み算出部、９は誤差算
出部、１０は状態照合区間保管バッファ、１１は予測重
み保管バッファ、１２は誤差保管バッファ、１３は音節
継続時間予測部、１４は状態継続時間予測部、１５は照
合区間決定部、１６は入力音声照合部、１７は認識結果
出力部、１８は音声辞書、１９は辞書、２０、２１はス
イッチである。前記従来例と同じものは、同一の番号を
付与している。請求項８〜１０に記載の発声速度予測部
は、音節継続時間予測部１３に相当する。本実施例で
は、請求項９に記載のように音節継続時間を疑似的に発
声速度とみなしている。

【００３５】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され
る。この分析処理を、所定の個数の学習音声データが終
わるまで繰り返す。次に標準音声スペクトル算出部３
で、音節毎に分析されたデータをクラスタリングし、各
クラスタの中心ベクトルの時系列データを選択する。次
に状態スペクトル決定部４で、中心ベクトルの時系列デ
ータを、類似したベクトルを１グループとなるように、
予め決められたグループ数に時系列に沿って区切り（こ
の１グループが１つの状態になる）、各状態の中心ベク
トルを標準音声保管バッファ６に保管する。

【００３６】次に継続時間学習時には、上記で用いた学
習音声が単語または文章単位のまま、音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。

【００３７】次に音声辞書作成部５で、認識対象となる
単語または文章が記述されている辞書１９に従って、標
準音声保管バッファ６から相当する音節を選択し、それ
を連結して音声辞書を作成する。

【００３８】次に、照合区間測定部７で、既知の正解デ
ータとして学習音声を入力し、相当する単語または文章
の音声辞書との照合を行い、各々の状態の照合区間を求
める。照合距離Ｄ(i)は従来例の（数５）に基づいて算
出し、全学習データ分の照合区間を状態照合区間保管バ
ッファ１０に保管する。

【００３９】次に、予測重み算出部８で、全学習データ
の状態照合区間を用いて、最小２乗法により、予測重み
ａ、ｂを求める。方法は、同じ認識単位の状態毎に、
（数７）に示す２乗誤差ｅ２(s,t)が最小になるよう
に、重みａ，ｂを決定するものである。

【００４０】

【数７】

【００４１】次に誤差算出部９で、学習音声の全状態に
おいて、状態継続時間の実値と（数４）に示した予測値
との差を（数８）に従って算出し、誤差保管バッファ１
２に保管する。

【００４２】

【数８】ｅ(t,s)＝ｄst(t,s)ーｄsy(t)＊ａ(t,s)＋ｂ(t,s) 次に、認識時には、上記で用いた学習音声が単語または
文章単位のまま、音声入力端子１から入力され、分析部
２でフレーム毎にスペクトル情報が分析される。分析方
法は学習時と同様である。

【００４３】次に音声辞書作成部５でも、継続時間学習
部と同様に、認識対象となる単語または文章が記述され
ている辞書１９に従って、標準音声保管バッファ６から
相当する音節を選択し、それを連結して単語または文章
音声辞書１８を作成する。

【００４４】最初の音節を認識する際には、照合部１６
で、入力音声と上記音声辞書との照合を（数５）に基づ
いて行う。２つ目以降の音節を認識する際には、音節継
続時間予測部１３にて、次に認識する認識単位の継続時
間を（数９）に従って予測する。これは、既に認識され
た音節の照合区間の平均値を次の音節の継続時間予測値
とするものである。

【００４５】

【数９】

【００４６】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数ａ，ｂを用いて、状態継続
時間予測部１４にて状態の継続時間を予測する。予測は
（数１０）に従って行う。

【００４７】

【数１０】

【００４８】次に照合区間決定部１５で、予測された状
態継続時間と予め学習時に求められている誤差値とを用
いて、各状態の照合区間を決定する。この照合範囲は、
たとえば、ｔ音節のｓ番目の状態の全誤差値の９０％
が、誤差いき値以下になるようにいき値を決定し、それ
をｅth(t,s)とすると、ｔ音節のｓ番目の状態の照合範
囲は（数１１）の範囲と決定される。

【００４９】

【数１１】

【００５０】次に照合部１６で、各状態の照合区間が
（数１１）の範囲を越えないように、単語辞書に記載さ
れている全音声について照合を行い、最終フレームでの
照合距離が最も小さい単語または文章を結果として、認
識結果出力端子１７より出力する。

【００５１】なおスイッチ２０は、標準音声学習時には
標準音声スペクトル算出部３に、継続時間学習時、また
は認識時には単語辞書作成部５に特徴パラメータを出力
するように動作する。また、スイッチ２１は、継続時間
学習時には照合区間測定部７へ、認識時には音節継続時
間予測部１３へ特徴パラメータを出力するように動作す
る。

【００５２】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式（数１０）におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習してお
き、認識時に、既に認識された音節照合区間の平均値を
次の音節の継続時間予測値と見なし、（数１０）を用い
て次に認識する状態の継続時間を逐次的に予測し、予測
された状態継続時間を用いて、その状態の照合区間を決
定し、決定された照合区間内で、各状態の照合を行うこ
とにより、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となる、より高性能な装置の実現が可能とな
る。

【００５３】次に請求項４を含む一実施例について図を
参照しながら説明する。図２は請求項４の一実施例にお
ける音声認識装置のブロック図である。１は音声入力端
子、２は分析部、３は標準音声スペクトル算出部、４は
状態スペクトル決定部、５は音声辞書作成部、６は標準
音声保管バッファ、７は状態照合区間測定部、８は予測
重み算出部、９は誤差算出部、１０は状態照合区間保管
バッファ、１１は予測重み保管バッファ、１２は誤差保
管バッファ、２５は音節継続時間予測部、１４は状態継
続時間予測部、１５は照合区間決定部、１６は入力音声
照合部、１７は認識結果出力部、１８は音声辞書、２２
は音節分類部、２３は音節平均継続時間算出部、２４は
音節平均継続時間保管バッファ、２０、２１はスイッチ
である。前記従来例と同じものは、同一の番号を付与し
ている。この実施例と先の実施例との違いは、音節継続
時間の予測方法と予測するために、学習時に予め、音節
平均継続時間を測定しておくところである。

【００５４】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部３と状態スペクトル決定
部４を経て、状態の中心ベクトルが標準音声保管バッフ
ァ６に保管される。ここまでは、先の実施例と同様であ
る。

【００５５】次に音節分類部２２で、単数または複数の
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の３つとする。（１）目標となる音節継続時間
を示す音節の種類、（２）目標となる音節継続時間を示
す音節の１つ前の音節の種類、（３）目標となる音節継
続時間を示す音節の２つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。

【００５６】次に音節平均継続時間算出部２３で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の３つとし要因番号をそれぞれＪ
１，Ｊ２，Ｊ３，とし、各々の要因のグループ数（この
例では音節数に相当する。）をＫ１，Ｋ２，Ｋ３とする
と、要因Ｊ１にはＫ１個、要因Ｊ２にはＫ２個、要因Ｊ
３にはＫ３個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ２４に保管する。

【００５７】継続時間学習は、先の実施例と全く同様に
行われ、予測重み係数と誤差値が、各状態毎に算出さ
れ、各バッファに保管される。

【００５８】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子１から入力
され、分析部２でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。

【００５９】次に単語音声辞書作成部５でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書１９に従って、標準音声保管バッファ６
から相当する音節を選択し、それを連結して単語または
文章音声辞書１８を作成する。

【００６０】最初の音節を認識する際には、照合部１６
で、入力音声と上記音声辞書との照合を（数５）に基づ
いて行う。２つ目以降の音節を認識する際には、音節継
続時間予測部２５にて、次に認識する音節の継続時間が
予測される。ここでは次音節候補の継続時間を、（数１
２）を用いて算出する。（数１２）は、時間軸に沿って
n-1個の音節が既に認識されていたとして、ｎ番目の音
節の継続時間をｎ近傍のｋ個の既に認識した音節照合区
間を用いて予測するものである。既に認識したｉ番目の
音節における学要因ｊにおける音節平均継続時間ｆj(i)
と、次に認識するｎ番目の音節の要因ｊにおける音節平
均継続時間ｆj(n)との比を全要因分平均したものを、ｉ
番目の音節の照合区間の補正係数とし、補正したn-1個
の音節照合区間の平均値をｎ番目の音節の継続時間予測
値とするものである。

【００６１】

【数１２】

【００６２】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数ａ，ｂを用いて、状態継続
時間予測部１４にて状態継続時間を予測し、予測値を用
いて照合区間決定部１５で照合区間を決定し、照合部１
６で照合し、認識結果を出力する。これは、先の実施例
と同様である。

【００６３】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式（数１０）におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習し、さ
らに音節継続時間に影響を及ぼす要因毎に、学習音声に
おける音節の平均継続時間を求めておき、認識時に、既
に認識された音節照合区間から、（数１２）に従って次
の音節の継続時間を予測し、この予測値を用いた（数１
０）を用いて、次に認識する状態の継続時間を逐次的に
予測し、予測された状態継続時間を用いて、その状態の
照合区間を決定し、決定された照合区間内で、各状態の
照合を行うことにより、入力音声と標準音声との発声速
度が異なっても、発声速度の変化に逐次的に適応した継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となる、より高性能な装置の実
現が可能となる。次に請求項５を含む一実施例について
図を参照しながら説明する。図３は請求項５の一実施例
における音声認識装置のブロック図である。１は音声入
力端子、２は分析部、３は標準音声スペクトル算出部、
４は状態スペクトル決定部、５は音声辞書作成部、６は
標準音声保管バッファ、７は状態照合区間測定部、８は
予測重み算出部、９は誤差算出部、１０は状態照合区間
保管バッファ、１１は予測重み保管バッファ、１２は誤
差保管バッファ、２６は音声区間検出部、２７は音節継
続時間予測部、１５は照合区間決定部、１６は照合部、
１７は認識結果出力部、１８は音声辞書、１９、２８は
スイッチである。前記従来例と同じものは、同一の番号
を付与している。先の実施例では、予め全音声区間長と
そこに含まれる音節数とが未知の場合でも有効な音節継
続時間予測法を開示しているが、本実施例では、予め全
音声区間長と音節数とが既知の場合においてのみ有効
な、音節継続時間予測法を用いている。全音声区間長が
既知であるために、音節継続時間予測誤差は、先の実施
例よりも小さくなることが予想される。

【００６４】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部３と状態スペクトル決定
部４を経て、状態の中心ベクトルが標準音声保管バッフ
ァ６に保管される。ここまでは、先の実施例と同様であ
る。

【００６５】継続時間学習は、先の２つの実施例と全く
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。

【００６６】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子１から入力
され、分析部２でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。

【００６７】次に単語音声辞書作成部５でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。

【００６８】次に音声区間検出部２６で分析部にてＬＰ
Ｃケプストラム０次係数（０次係数は、音声パワー情報
である）を用いて音声区間を検出する。音声区間条件は
下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００６９】次に音節継続時間予測部２７で、検出され
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書に記述されている各単語ま
たは文章から、各単語または文章の全音節数を調べ、全
音声区間長を音節数で当分した値を、音節継続時間予測
値とする。

【００７０】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数ａ，ｂを用いて、状態継続
時間予測部１４にて状態継続時間を予測し、予測値を用
いて照合区間決定部１５で照合区間を決定し、照合部１
６で照合し、認識結果を出力する。これは、先の２つの
実施例と同様である。

【００７１】なおスイッチ２０は、標準音声学習時には
標準音声スペクトル算出部３に、継続時間学習時、また
は認識時には単語辞書作成部に特徴パラメータを出力す
るように動作する。また、スイッチ２８は、継続時間学
習時には照合区間測定部へ、認識時には音声区間検出部
へ特徴パラメータを出力するように動作する。

【００７２】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式（数１０）におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を予測し、この予測値
を用いた（数１０）を用いて、次に認識する状態の継続
時間を逐次的に予測し、予測された状態継続時間を用い
て、その状態の照合区間を決定し、決定された照合区間
内で、各状態の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。次に請求項６を含む
一実施例について図を参照しながら説明する。図４は請
求項６の一実施例における音声認識装置のブロック図で
ある。１は音声入力端子、２は分析部、３は標準音声ス
ペクトル算出部、４は状態スペクトル決定部、５は音声
辞書作成部、６は標準音声保管バッファ、２２は音節分
類部、２３は音節平均継続時間算出部、２４は音節平均
継続時間保管バッファ、７は状態照合区間測定部、８は
予測重み算出部、９は誤差算出部、１０は状態照合区間
保管バッファ、１１は予測重み保管バッファ、１２は誤
差保管バッファ、２６は音声区間検出部、２９は音節継
続時間予測部、１５は照合区間決定部、１６は入力音声
照合部、１７は認識結果出力部、１８は音声辞書、１９
は辞書、２０、２８はスイッチである。前記従来例と同
じものは、同一の番号を付与している。先の請求項５の
実施例との違いは、音節継続時間の予測方法と、予測す
るために学習時に予め音節平均継続時間を測定しておく
ところである。

【００７３】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部３と状態スペクトル決定
部４を経て、状態の中心ベクトルが標準音声保管バッフ
ァ６に保管される。ここまでは、先の３つの実施例と同
様である。

【００７４】次に音節分類部２２で、単数または複数の
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の３つとする。（１）目標となる音節継続時間
を示す音節の種類、（２）目標となる音節継続時間を示
す音節の１つ前の音節の種類、（３）目標となる音節継
続時間を示す音節の２つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。

【００７５】次に音節平均継続時間算出部２３で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の３つとし要因番号をそれぞれＪ
１，Ｊ２，Ｊ３，とし、各々の要因のグループ数（この
例では音節数に相当する。）をＫ１，Ｋ２，Ｋ３とする
と、要因Ｊ１にはＫ１個、要因Ｊ２にはＫ２個、要因Ｊ
３にはＫ３個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ２４に保管する。

【００７６】継続時間学習は、先の３つの実施例と全く
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。

【００７７】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子１から入力
され、分析部２でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。

【００７８】次に単語音声辞書作成部５でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。

【００７９】次に音声区間検出部２６で分析部にてＬＰ
Ｃケプストラム０次係数（０次係数は、音声パワー情報
である）を用いて音声区間を検出する。音声区間条件は
下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００８０】次に音節継続時間予測部２９で、検出され
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書１９に記述されている各単
語または文章から各音節における要因を調べ、予め学習
されている該当する要因における音節平均継続時間を用
いて、（数１４）に基づいて予測する。

【００８１】

【数１４】

【００８２】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数ａ，ｂを用いて、状態継続
時間予測部１４にて状態継続時間を予測し、予測値を用
いて照合区間決定部１５で照合区間を決定し、照合部１
６で照合し、認識結果を出力する。これは、先の２つの
実施例と同様である。

【００８３】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式（数１０）におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を（数１４）に基づい
て予測し、この予測値を用いた（数１０）にて次に認識
する状態の継続時間を逐次的に予測し、予測された状態
継続時間を用いて、その状態の照合区間を決定し、決定
された照合区間内で、各状態の照合を行うことにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。次に請
求項１４を含む一実施例について図を参照しながら説明
する。図５は請求項１４の一実施例における音声認識装
置のブロック図である。１は音声入力端子、２は分析
部、３は標準音声スペクトル算出部、４は状態スペクト
ル決定部、５は音声辞書作成部、６は標準音声保管バッ
ファ、７は状態照合区間測定部、８は予測重み算出部、
９は誤差算出部、１０は状態照合区間保管バッファ、１
１は予測重み保管バッファ、１２は誤差保管バッファ、
１３は音節継続時間予測部、１４は状態継続時間予測
部、３０は照合重み決定部、３１は入力音声照合部、１
７は認識結果出力部、１８は音声辞書、１９は辞書、２
０、２１はスイッチである。前記従来例と同じものは、
同一の番号を付与している。この実施例と先の４実施例
との違いは、照合時の状態継続時間予測値を利用した継
続時間制御法の違いにある。先の実施例が、状態継続時
間予測値を利用して各状態の照合区間を制限することで
継続時間制御を行っているのに対し、本実施例は、状態
継続時間予測値近傍で最も照合スコアーが最良になるよ
うに照合距離値に重み付けを行うことにより、継続時間
制御を行うものである。

【００８４】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子１より入力する。次
に分析部２で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部３と状態スペクトル決定
部４を経て、状態の中心ベクトルが標準音声保管バッフ
ァ６に保管される。ここまでは、先の４つの実施例と同
様である。

【００８５】継続時間学習は、先の４つの実施例と全く
同様に行われ、予測重み係数と誤差値が各状態毎に算出
され、各バッファに保管される。

【００８６】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子１から入力
され、分析部２でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。

【００８７】次に単語音声辞書作成部でも、継続時間学
習部と同様に、認識対象となる単語または文章が記述さ
れている辞書に従って、標準音声保管バッファから相当
する音節を選択し、それを連結して単語または文章音声
辞書を作成する。

【００８８】最初の音節を認識する際には、照合部で、
入力音声と上記音声辞書との照合を（数５）、（数６）
に基づいて行う。２つ目以降の音節を認識する際には、
音節継続時間予測部１３で、次に認識する音節の継続時
間が予測される。ここでは既に認識された音節照合区間
の平均値を次音節継続時間の予測値とする。

【００８９】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数ａ，ｂを用いて、状態継続
時間予測部１４にて状態継続時間を予測する。予測方法
は先の実施例と同様である。

【００９０】次に照合重み決定部３０で、（数１５）に
基づいて次のｎ音節のｓ番目の状態継続時間に対する照
合重みｗnsを決定する。この照合重みは、先の継続時間
予測部で予測された継続時間に近いほど、照合スコアー
が小さくなるように算出される。（数１５）内のα値
は、照合範囲いき値であり、学習時に各音節の各状態毎
に学習された誤差値から求めても良く、例えば、全デー
タにおける各状態の誤差値の９０％以上がこのいき値以
内に納まるように照合範囲いき値を設定しても良い。

【００９１】

【数１５】

【００９２】次に照合部６で、（数１６）に基づいて照
合する。（数１６）は従来の距離値に上記の照合重みを
加えたものを新しい距離値と見なすものである。照合結
果と音節の終端フレーム及び音節の継続時間は認識結果
保管バッファ１２に保管する。

【００９３】

【数１６】Ｄ(i)＝min［Ｄ(j)＋（Ｄns(j+1:i)×ｗns(i-j)）］Ｄ(i) ：iフレームまでの標準音声状態列と入力音声と
の距離Ｄns(j+1:i)：j+1フレームからiフレームまでの標準音声のｎ番
目の音節のｓ番目の状態における入力音声の距離以上のように、本実施例によれば、学習の際に、状態継
続時間を予測する予測式（数１０）における予測重み係
数と、照合範囲を決定する際に用いる各状態継続時間の
予測値と測定値との誤差値とを学習しておき、認識時
に、既に認識された音節照合区間から次に認識する音節
の継続時間を予測し、この予測値を用いた（数１０）を
用いて、次に認識する状態の継続時間を逐次的に予測
し、予測された状態継続時間を用いて、状態の照合区間
が予測値の近傍である際に最も照合スコアーが良く照合
されるように照合重みを決定し、決定された照合重みを
加味しながら、各状態の照合を行うことにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。

【００９４】

【発明の効果】請求項１に記載の音声認識装置は、既に
認識された認識単位または状態の照合区間から、次に認
識する状態の継続時間を予測する状態継続時間予測部
と、予測された状態継続時間を用いて標準音声と入力音
声の照合を行う照合部とからなることにより、入力音声
と標準音声との発声速度が異なっても、発声速度の変化
に逐次的に適応した継続時間の制御が可能であり、また
同入力音声内の認識単位毎の継続時間の差が現実的な場
合のみ、認識候補として成立させることが可能となる、
より高性能な装置の実現が可能となる。

【００９５】請求項２に記載の音声認識装置は、既に認
識された認識単位または状態の照合区間から、次に認識
する認識単位の継続時間を予測する認識単位継続時間予
測部と、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測する状態継続時間予
測部と、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行う照合部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。

【００９６】請求項３に記載の音声認識装置は、請求項
２に記載の認識単位継続時間予測部で、既に認識された
認識単位の照合区間の平均値を次の認識単位の継続時間
予測値とすることにより、入力音声と標準音声との発声
速度が異なっても、発声速度の変化に逐次的に適応した
継続時間の制御が可能であり、また同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となる、より高性能な装置の
実現が可能となる。

【００９７】請求項４に記載の音声認識装置は、請求項
２に記載の状態継続時間予測部、照合部に加えて、継続
時間を左右する要因毎に学習音声データを分類する認識
単位分類部と、各グループ毎の平均継続時間を算出する
平均継続時間算出部と、次に認識する認識単位が属する
グループの平均継続時間と既に認識された認識単位が属
するグループの平均継続時間との比を、継続時間を左右
する要因数分加算して１になるような重み係数で重み付
けし、この重み付けされた比値を用いて、既に認識され
た認識単位の照合区間を補正した（数１）にて、次の認
識単位の継続時間予測値を算出する音節継続時間予測部
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。

【００９８】請求項５に記載の音声認識装置は、請求項
２に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、検出された
音声区間を各認識対象語に含まれる認識単位数で当分
し、等分された１区間を認識単位の継続時間予測値とす
る認識単位継続時間予測部とからなることにより、入力
音声と標準音声との発声速度が異なっても、発声速度の
変化に逐次的に適応した継続時間の制御が可能であり、
また同入力音声内の認識単位毎の継続時間の差が現実的
な場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。

【００９９】請求項６に記載の音声認識装置は、請求項
２に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、継続時間を
左右する要因毎に学習音声データを分類する認識単位分
類部と、各グループ毎の平均継続時間を算出する平均継
続時間算出部と、次に認識する認識単位が属するグルー
プの平均継続時間を継続時間を左右する要因に関する重
み係数で補正した値と、認識対象語に含まれる各認識単
位が属するグループの平均継続時間を重み係数で補正し
た値を全認識単位分加算した値との比を求め、音声区間
検出部で検出された音声区間長を求められた比値で補正
した（数２）にてを、各認識単位の継続時間予測を算出
する認識単位継続時間予測部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。

【０１００】請求項７に記載の音声認識装置は、請求項
１に記載の状態継続時間予測部において、発声速度が状
態継続時間がに及ぼす影響度が予測結果に反映するよう
に、状態継続時間を予測することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。

【０１０１】請求項８に記載の音声認識装置は、請求項
７に記載の音声認識装置において、既に認識された認識
単位の照合区間情報から発声速度を予測する発声速度予
測部と、予測された発声速度を含む項と、含まない項を
線形結合させた予測式３にて、状態継続時間を予測する
状態継続時間予測部からなることにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。

【０１０２】請求項９に記載の音声認識装置は、請求項
８に記載の発声速度予測部で、既に認識された認識単位
の照合区間情報から次に認識する認識単位の継続時間を
予測しこの予測値を疑似的に発声速度と見なし、状態継
続時間予測部で、予測された認識単位継続時間予測値を
含む項と、含まない項を線形結合させた予測式（数４）
にて、状態継続時間を予測する状態継続時間予測部から
なることにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となる、より高性能な装置の実現が可
能となる。

【０１０３】請求項１０に記載の音声認識装置は、請求
項８に記載の音声認識装置における発声速度予測部と状
態継続時間に加えて、予め学習音声を用いて、各状態の
継続時間を測定する継続時間測定部と、測定された各状
態の継続時間と請求項８の数３により、最小２乗法に
て、測定値と予測値の誤差が最小になるように、重み
ａ、ｂを求める重み係数算出部とからなることにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。

【０１０４】請求項１１に記載の音声認識装置は、請求
項１に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間を用いて、次に認識する状
態の照合区間を決定する照合区間決定部と、決定された
照合区間内に、状態の照合区間が納まるように照合を行
う照合部とからなることにより、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となる、より高性能な
装置の実現が可能となる。

【０１０５】請求項１２に記載の音声認識装置は、請求
項１１に記載の照合区間決定部において、予測された状
態継続時間を中心に予め決められた一定範囲を、その状
態の照合区間範囲と決定することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。

【０１０６】請求項１３に記載の音声認識装置は、請求
項１１に記載の音声認識装置において、状態毎の正しい
継続時間を測定する状態継続時間測定部と、予め学習音
声を用いて測定された状態継続時間測定値と状態継続時
間予測部で求められた予測値との誤差を算出する誤差算
出部と、認識する際に、入力音声に対する状態継続時間
予測値を中心に、学習時に求められた誤差値の範囲を、
その状態の照合区間範囲と決定することにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。

【０１０７】請求項１４に記載の音声認識装置は、請求
項１に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みを加えながら照合を行う照合部と
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置のブロ
ック図である。

【図２】本発明の他の実施例における音声認識装置のブ
ロック図である。

【図３】本発明の他の実施例における音声認識装置のブ
ロック図である。

【図４】本発明の他の実施例における音声認識装置のブ
ロック図である。

【図５】本発明の他の実施例における音声認識装置のブ
ロック図である。

【図６】従来例における音声認識装置のブロック図であ
る。

【符号の説明】

１ … 信号入力端子２ … 分析部３ … 標準音声スヘ゜クトル算出部４ … 状態スヘ゜クトル決定部５ … 音節辞書作成部６ … 標準音声保管ハ゛ッファ７ … 照合区間測定部８ … 予測重み算出部９ … 誤差算出部１０ … 状態継続時間保管ハ゛ッファ１１ … 予測重み保管ハ゛ッファ１２ … 誤差保管ハ゛ッファ１３、２５、２７、２９… 音節継続時間予測部１４ … 状態継続時間予測部１５ … 照合区間決定部１６、３１… 照合部１７ … 認識結果出力端子１８ … 音声辞書１９ … 辞書２０、２１、２８… スイッチ２２ … 音節分類部２３ … 音節平均継続時間算出部２４ … 平均継続時間保管ハ゛ッファ２６ … 音声区間検出部３０ … 照合重み算出部

Claims

【特許請求の範囲】

【請求項１】音声を認識する際に、入力音声より短い小
区間を認識単位とし、さらに各認識単位毎の標準音声が
異なる特徴を持つ複数のカテゴリー（以後状態という）
の時系列で表されており、認識単位毎に得られる認識結
果を時間軸に沿って連結したものを最終認識結果として
出力する音声認識装置であって、既に認識された認識単
位または状態の照合区間から、次に認識する状態の継続
時間を予測する状態継続時間予測部と、予測された状態
継続時間を用いて標準音声と入力音声の照合を行う照合
部とを備えたことを特徴とする音声認識装置。
【請求項２】音声を認識する際に、入力音声より短い小
区間を認識単位とし、さらに各認識単位毎の標準音声が
異なる特徴を持つ複数の状態の時系列で表されており、
認識単位毎に得られる認識結果を時間軸に沿って連結し
たものを最終認識結果として出力する音声認識装置であ
って、既に認識された認識単位または状態の照合区間か
ら、次に認識する認識単位の継続時間を予測する認識単
位継続時間予測部と、予測された認識区間の継続時間を
用いて、同認識区間内の各状態の継続時間を予測する状
態継続時間予測部と、予測された状態継続時間を用い
て、標準音声と入力音声の照合を行う照合部とを備えた
ことを特徴とする音声認識装置。
【請求項３】認識単位継続時間予測部は、既に認識され
た認識単位の照合区間の平均値を次の認識単位の継続時
間予測値とすることを特徴とする請求項２記載の音声認
識装置
【請求項４】継続時間を左右する要因毎に学習音声デー
タを分類する認識単位分類部と、各グループ毎の平均継
続時間を算出する平均継続時間算出部と、次に認識する
認識単位が属するグループの平均継続時間と既に認識さ
れた認識単位が属するグループの平均継続時間との比
を、継続時間を左右する要因数分加算して１になるよう
な重み係数で重み付けし、この重み付けされた比値を用
いて、既に認識された認識単位の照合区間を補正した
（数１）にて、次の認識単位の継続時間予測値を算出す
る音節継続時間予測部とをさらに備えたことを特徴とす
る請求項２記載の音声認識装置【数１】
【請求項５】入力音声の始終端を検出する音声区間検出
部と、検出された音声区間を各認識対象語に含まれる認
識単位数で当分し、等分された１区間を認識単位の継続
時間予測値とする認識単位継続時間予測部とをさらに備
えたことを特徴とする請求項２記載の音声認識装置
【請求項６】入力音声の始終端を検出する音声区間検出
部と、継続時間を左右する要因毎に学習音声データを分
類する認識単位分類部と、各グループ毎の平均継続時間
を算出する平均継続時間算出部と、次に認識する認識単
位が属するグループの平均継続時間を継続時間を左右す
る要因に関する重み係数で補正した値と、認識対象語に
含まれる各認識単位が属するグループの平均継続時間を
重み係数で補正した値を全認識単位分加算した値との比
を求め、音声区間検出部で検出された音声区間長を求め
られた比値で補正した（数２）にて、各認識単位の継続
時間予測を算出する認識単位継続時間予測部とをさらに
備えたことを特徴とする請求項２記載の音声認識装置【数２】
【請求項７】状態継続時間予測部は、発声速度が状態継
続時間に及ぼす影響度が予測結果に反映するように、状
態継続時間を予測することを特徴とする請求項１記載の
音声認識装置。
【請求項８】既に認識された認識単位の照合区間情報か
ら発声速度を予測する発声速度予測部と、予測された発
声速度を含む項と、含まない項を線形結合させた予測式
（数３）にて、状態継続時間を予測する状態継続時間予
測部とを備えたことを特徴とする請求項７記載の音声認
識装置。【数３】
【請求項９】発声速度予測部は、既に認識された認識単
位の照合区間情報から次に認識する認識単位の継続時間
を予測し、この予測値を疑似的に発声速度と見なし、状
態継続時間予測部で、予測された認識単位継続時間予測
値を含む項と、含まない項を線形結合させた予測式（数
４）にて、状態継続時間を予測する状態継続時間予測部
からなることを特徴とする請求項８記載の音声認識装
置。【数４】
【請求項１０】請求項８に記載の音声認識装置におけ
る、発声速度予測部と状態継続時間予測部に加えて、予
め学習音声を用いて、各状態の継続時間を測定する継続
時間測定部と、測定された各状態の継続時間と請求項８
の（数３）により、最小２乗法にて、測定値と予測値の
誤差が最小になるように、重みａ、ｂを求める重み係数
算出部とを備えたことを特徴とする音声認識装置。
【請求項１１】状態継続時間予測部で予測された状態継
続時間を用いて、次に認識する状態の照合区間を決定す
る照合区間決定部と、決定された照合区間内に、状態の
照合区間が納まるように照合を行う照合部とを備えたこ
とを特徴とする請求項１記載の音声認識装置。
【請求項１２】照合区間決定部では、予測された状態継
続時間を中心に予め決められた一定範囲を、その状態の
照合区間範囲と決定することを特徴とする請求項１１記
載の音声認識装置。
【請求項１３】状態毎の正しい継続時間を測定する状態
継続時間測定部と、予め学習音声を用いて測定された状
態継続時間測定値と状態継続時間予測部で求められた予
測値との誤差を算出する誤差算出部と、認識する際に、
入力音声に対する状態継続時間予測値を中心に、学習時
に求められた誤差値の範囲を、その状態の照合区間範囲
と決定することを特徴とする請求項１１記載の音声認識
装置。
【請求項１４】状態継続時間予測部で予測された状態継
続時間の近傍が最も照合距離値が大きくなるように重み
を加えながら照合を行う照合部とを備えたことを特徴と
する請求項１記載の音声認識装置。