JPH07281692A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH07281692A JPH07281692A JP6073594A JP7359494A JPH07281692A JP H07281692 A JPH07281692 A JP H07281692A JP 6073594 A JP6073594 A JP 6073594A JP 7359494 A JP7359494 A JP 7359494A JP H07281692 A JPH07281692 A JP H07281692A
- Authority
- JP
- Japan
- Prior art keywords
- duration
- unit
- recognition
- voice
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】発声速度の変化に逐次的に適応した継続時間の
制御を可能とし、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ認識候補として成立させる
ことが可能となる、より高性能な装置の実現。 【構成】同入力音声内の既に認識された認識単位の継続
時間から、入力音声の発声速度を予測し、予め学習した
発声速度と各状態の継続時間の関係を用いて、次に認識
しようとする状態のの継続時間を予測し、予測された継
続時間を用いて照合を行う。
制御を可能とし、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ認識候補として成立させる
ことが可能となる、より高性能な装置の実現。 【構成】同入力音声内の既に認識された認識単位の継続
時間から、入力音声の発声速度を予測し、予め学習した
発声速度と各状態の継続時間の関係を用いて、次に認識
しようとする状態のの継続時間を予測し、予測された継
続時間を用いて照合を行う。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
ものである。
【0002】
【従来の技術】近年、音声認識技術の発達と共に、音
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識(連続音声認識
という)装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現している。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識(連続音声認識
という)装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現している。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。
【0003】その1つに、音声の継続時間情報を利用し
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
(以後認識区間という)に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
(以後認識区間という)に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。
【0004】以下、図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。
【0005】図6は、従来の音声認識装置のブロック図
である。1は音声入力端子,2は分析部、3は標準音声
スペクトル算出部、4は状態スペクトル決定部、5は音
声辞書作成部、6は標準音声保管バッファ、7は照合区
間測定部、33は状態継続時間保管バッファ、32は照
合部、17は認識結果出力端子、18は音声辞書、19
は辞書、20、34はスイッチである。
である。1は音声入力端子,2は分析部、3は標準音声
スペクトル算出部、4は状態スペクトル決定部、5は音
声辞書作成部、6は標準音声保管バッファ、7は照合区
間測定部、33は状態継続時間保管バッファ、32は照
合部、17は認識結果出力端子、18は音声辞書、19
は辞書、20、34はスイッチである。
【0006】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され
る。スペクトル情報としては、たとえばLPCケプスト
ラム法を用いれば所定の単位時間(以後フレームとい
う)に所定の個数を1組としたLPCケプストラム係数
が特徴パラメータとして算出され、この特徴パラメータ
ベクトルが音節継続時間分求められる。上記分析処理
を、所定の個数の学習音声データが終わるまで繰り返
す。次に標準音声スペクトル算出部3で、音節毎に分析
されたデータをクラスタリングし、各クラスタの中心ベ
クトルの時系列データを選択する。次に状態スペクトル
決定部4で、中心ベクトルの時系列データを、類似した
ベクトルを1グループとなるように、予め決められたグ
ループ数に時系列に沿って区切り(この1グループが1
つの状態になる)、各状態の中心ベクトルを標準音声保
管バッファ6に保管する。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され
る。スペクトル情報としては、たとえばLPCケプスト
ラム法を用いれば所定の単位時間(以後フレームとい
う)に所定の個数を1組としたLPCケプストラム係数
が特徴パラメータとして算出され、この特徴パラメータ
ベクトルが音節継続時間分求められる。上記分析処理
を、所定の個数の学習音声データが終わるまで繰り返
す。次に標準音声スペクトル算出部3で、音節毎に分析
されたデータをクラスタリングし、各クラスタの中心ベ
クトルの時系列データを選択する。次に状態スペクトル
決定部4で、中心ベクトルの時系列データを、類似した
ベクトルを1グループとなるように、予め決められたグ
ループ数に時系列に沿って区切り(この1グループが1
つの状態になる)、各状態の中心ベクトルを標準音声保
管バッファ6に保管する。
【0007】次に、継続時間学習時には、上記で用いた
学習音声が単語または文章単位のまま、音声入力端子1
から入力され、分析部2でフレーム毎にスペクトル情報
が分析される。分析方法は学習時と同様である。
学習音声が単語または文章単位のまま、音声入力端子1
から入力され、分析部2でフレーム毎にスペクトル情報
が分析される。分析方法は学習時と同様である。
【0008】次に状態継続時間の学習を行う。音声辞書
作成部5で、認識対象となる単語または文章が記述され
ている辞書19に従って、標準音声保管バッファ6から
相当する音節を選択し、それを連結して音声辞書18を
作成する。
作成部5で、認識対象となる単語または文章が記述され
ている辞書19に従って、標準音声保管バッファ6から
相当する音節を選択し、それを連結して音声辞書18を
作成する。
【0009】既知の正解データとして学習音声を入力
し、照合区間測定部7で、相当する単語または文章の音
声辞書との照合を行い、各々の状態の照合区間を求め
る。照合距離D(i)は(数5)に基づいて算出する。
全学習データについて照合を行い、各状態毎の照合区間
の最大区間値と最小区間値を状態継続時間保管バッファ
33に保管する。
し、照合区間測定部7で、相当する単語または文章の音
声辞書との照合を行い、各々の状態の照合区間を求め
る。照合距離D(i)は(数5)に基づいて算出する。
全学習データについて照合を行い、各状態毎の照合区間
の最大区間値と最小区間値を状態継続時間保管バッファ
33に保管する。
【0010】
【数5】
【0011】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
【0012】次に音声辞書作成部5でも、継続時間学習
部と同様に認識対象となる単語または文章が記述されて
いる辞書19に従って、標準音声保管バッファ6から相
当する音節を選択し、それを連結して単語または音声辞
書18を作成する。
部と同様に認識対象となる単語または文章が記述されて
いる辞書19に従って、標準音声保管バッファ6から相
当する音節を選択し、それを連結して単語または音声辞
書18を作成する。
【0013】次に照合部32で、入力音声と上記音声辞
書18との照合を(数5)に基づいて行う。但し、各状
態継続時間の照合区間、たとえば音節tのs番目の状態
のdst(t,s)を(数6)の範囲に限定して、照合を行
う。
書18との照合を(数5)に基づいて行う。但し、各状
態継続時間の照合区間、たとえば音節tのs番目の状態
のdst(t,s)を(数6)の範囲に限定して、照合を行
う。
【0014】
【数6】 dst.min(t,s)< f(t,s) < dst.max(t,s) dst.min(t,s):t音節s状態における、学習音声の照
合区間の最小値 dst.max(t,s):t音節s状態における、学習音声の照
合区間の最大値 音声辞書18に記載されている全音声について照合を行
い、最終フレームでの照合距離が最も小さい単語または
文章を結果として、認識結果出力端子17より出力す
る。
合区間の最小値 dst.max(t,s):t音節s状態における、学習音声の照
合区間の最大値 音声辞書18に記載されている全音声について照合を行
い、最終フレームでの照合距離が最も小さい単語または
文章を結果として、認識結果出力端子17より出力す
る。
【0015】なおスイッチ20は、標準音声学習時には
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には音声辞書作成部5に特徴パラメータを出力
するように動作する。また、スイッチ34は、継続時間
学習時には照合区間測定部7へ、認識時には照合部32
へ特徴パラメータを出力するように動作する。
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には音声辞書作成部5に特徴パラメータを出力
するように動作する。また、スイッチ34は、継続時間
学習時には照合区間測定部7へ、認識時には照合部32
へ特徴パラメータを出力するように動作する。
【0016】
【発明が解決しようとする課題】しかしながら上記のよ
うな従来の構成では、各音節の継続時間を継続時間の絶
対値で制御しているため、入力音声と標準音声との発声
速度が異なる場合、誤った継続時間を設定してしまう。
また、あらゆる発声速度に対応するためには、あらゆる
発声速度を含む制御が必要となり、処理効率が悪く、ま
た学習音声も膨大となる。
うな従来の構成では、各音節の継続時間を継続時間の絶
対値で制御しているため、入力音声と標準音声との発声
速度が異なる場合、誤った継続時間を設定してしまう。
また、あらゆる発声速度に対応するためには、あらゆる
発声速度を含む制御が必要となり、処理効率が悪く、ま
た学習音声も膨大となる。
【0017】また、上記のような従来の構成では、継続
時間制御を音節毎に閉じて行っているため、隣接する音
節の継続時間の差が非現実的に大きい場合でも、スコア
ーさえ大きければ、認識候補として成立してしまうとい
う課題を有していた。
時間制御を音節毎に閉じて行っているため、隣接する音
節の継続時間の差が非現実的に大きい場合でも、スコア
ーさえ大きければ、認識候補として成立してしまうとい
う課題を有していた。
【0018】
【課題を解決するための手段】請求項第1項の本発明
は、上記課題に鑑み、既に認識された認識単位または状
態の照合区間から、次に認識する状態の継続時間を予測
し、予測された状態継続時間を用いて標準音声と入力音
声の照合を行うため、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
は、上記課題に鑑み、既に認識された認識単位または状
態の照合区間から、次に認識する状態の継続時間を予測
し、予測された状態継続時間を用いて標準音声と入力音
声の照合を行うため、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
【0019】請求項第2項の本発明は、上記課題に鑑
み、既に認識された認識単位または状態の照合区間か
ら、次に認識する認識単位の継続時間を予測し、予測さ
れた認識区間の継続時間を用いて、同認識区間内の各状
態の継続時間を予測し、予測された状態継続時間を用い
て、標準音声と入力音声の照合を行うため、入力音声と
標準音声との発声速度が異なっても、発声速度の変化に
逐次的に適応した継続時間の制御が可能であり、また同
入力音声内の認識単位毎の継続時間の差が現実的な場合
のみ、認識候補として成立させることが可能となり、よ
り高性能な装置の実現が可能となる。
み、既に認識された認識単位または状態の照合区間か
ら、次に認識する認識単位の継続時間を予測し、予測さ
れた認識区間の継続時間を用いて、同認識区間内の各状
態の継続時間を予測し、予測された状態継続時間を用い
て、標準音声と入力音声の照合を行うため、入力音声と
標準音声との発声速度が異なっても、発声速度の変化に
逐次的に適応した継続時間の制御が可能であり、また同
入力音声内の認識単位毎の継続時間の差が現実的な場合
のみ、認識候補として成立させることが可能となり、よ
り高性能な装置の実現が可能となる。
【0020】請求項第3項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間の平均値を次の
認識単位の継続時間予測値とし、予測された認識区間の
継続時間を用いて、同認識区間内の各状態の継続時間を
予測し、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行うため、入力音声と標準音声との発
声速度が異なっても、発声速度の変化に逐次的に適応し
た継続時間の制御が可能であり、また同入力音声内の認
識単位毎の継続時間の差が現実的な場合のみ、認識候補
として成立させることが可能となり、より高性能な装置
の実現が可能となる。
み、既に認識された認識単位の照合区間の平均値を次の
認識単位の継続時間予測値とし、予測された認識区間の
継続時間を用いて、同認識区間内の各状態の継続時間を
予測し、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行うため、入力音声と標準音声との発
声速度が異なっても、発声速度の変化に逐次的に適応し
た継続時間の制御が可能であり、また同入力音声内の認
識単位毎の継続時間の差が現実的な場合のみ、認識候補
として成立させることが可能となり、より高性能な装置
の実現が可能となる。
【0021】請求項第4項の本発明は、上記課題に鑑
み、既に認識された認識単位の継続時間を請求項4に記
載の式1にて補正した値を用いて、次の認識単位の継続
時間を予測し、予測された認識区間の継続時間を用い
て、同認識区間内の各状態の継続時間を予測し、予測さ
れた状態継続時間を用いて、標準音声と入力音声の照合
を行うため、入力音声と標準音声との発声速度が異なっ
ても、発声速度の変化に逐次的に適応した継続時間の制
御が可能であり、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ、認識候補として成立させ
ることが可能となり、より高性能な装置の実現が可能と
なる。
み、既に認識された認識単位の継続時間を請求項4に記
載の式1にて補正した値を用いて、次の認識単位の継続
時間を予測し、予測された認識区間の継続時間を用い
て、同認識区間内の各状態の継続時間を予測し、予測さ
れた状態継続時間を用いて、標準音声と入力音声の照合
を行うため、入力音声と標準音声との発声速度が異なっ
ても、発声速度の変化に逐次的に適応した継続時間の制
御が可能であり、また同入力音声内の認識単位毎の継続
時間の差が現実的な場合のみ、認識候補として成立させ
ることが可能となり、より高性能な装置の実現が可能と
なる。
【0022】請求項第5項の本発明は、上記課題に鑑
み、既に認識された認識単位の継続時間を請求項4に記
載の式1にて補正した値を用いて、入力音声の始終端を
検出し、検出された音声区間を各認識対象語に含まれる
認識単位数で当分し、等分された1区間を認識単位の継
続時間予測値とすることで、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて同認識
区間内の各状態の継続時間を予測し、予測された状態継
続時間を用いて標準音声と入力音声の照合を行うため、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。
み、既に認識された認識単位の継続時間を請求項4に記
載の式1にて補正した値を用いて、入力音声の始終端を
検出し、検出された音声区間を各認識対象語に含まれる
認識単位数で当分し、等分された1区間を認識単位の継
続時間予測値とすることで、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて同認識
区間内の各状態の継続時間を予測し、予測された状態継
続時間を用いて標準音声と入力音声の照合を行うため、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。
【0023】請求項第6項の本発明は、上記課題に鑑
み、検出された入力音声の音声長を請求項6に記載の式
2にて補正した値を用いて、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測し、予測された状態
継続時間を用いて、標準音声と入力音声の照合を行うた
め、入力音声と標準音声との発声速度が異なっても、発
声速度の変化に逐次的に適応した継続時間の制御が可能
であり、また同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。
み、検出された入力音声の音声長を請求項6に記載の式
2にて補正した値を用いて、次の認識単位の継続時間を
予測し、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測し、予測された状態
継続時間を用いて、標準音声と入力音声の照合を行うた
め、入力音声と標準音声との発声速度が異なっても、発
声速度の変化に逐次的に適応した継続時間の制御が可能
であり、また同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。
【0024】請求項第7項の本発明は、上記課題に鑑
み、発声速度が状態継続時間がに及ぼす影響度が予測結
果に反映するように、状態継続時間を予測し、予測され
た状態継続時間を用いて標準音声と入力音声の照合を行
うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。
み、発声速度が状態継続時間がに及ぼす影響度が予測結
果に反映するように、状態継続時間を予測し、予測され
た状態継続時間を用いて標準音声と入力音声の照合を行
うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。
【0025】請求項第8項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項8に記載の式3にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うため、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。
み、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項8に記載の式3にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うため、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。
【0026】請求項第9項の本発明は、上記課題に鑑
み、既に認識された認識単位の照合区間情報から次に認
識する認識単位の継続時間を予測し、この予測値を疑似
的に発声速度と見なし、予測された認識単位継続時間予
測値を含む項と、含まない項を線形結合させた請求項9
に記載の予測式4にて、状態継続時間を予測し、予測さ
れた状態継続時間を用いて標準音声と入力音声の照合を
行うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。
み、既に認識された認識単位の照合区間情報から次に認
識する認識単位の継続時間を予測し、この予測値を疑似
的に発声速度と見なし、予測された認識単位継続時間予
測値を含む項と、含まない項を線形結合させた請求項9
に記載の予測式4にて、状態継続時間を予測し、予測さ
れた状態継続時間を用いて標準音声と入力音声の照合を
行うため、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となり、より高性能な装置の実現が可能とな
る。
【0027】請求項第10項の本発明は、上記課題に鑑
み、予め学習音声を用いて、各状態の継続時間を測定
し、最小2乗法にて左記測定値と予測値の誤差が最小に
なるように請求項8の式3の重みa、bを求め、認識時
に、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項8に記載の式3にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となり、より
高性能な装置の実現が可能となる。
み、予め学習音声を用いて、各状態の継続時間を測定
し、最小2乗法にて左記測定値と予測値の誤差が最小に
なるように請求項8の式3の重みa、bを求め、認識時
に、既に認識された認識単位の照合区間情報から発声速
度を予測し、予測された発声速度を含む項と、含まない
項を線形結合させた請求項8に記載の式3にて状態継続
時間を予測し、予測された状態継続時間を用いて標準音
声と入力音声の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となり、より
高性能な装置の実現が可能となる。
【0028】請求項第11項の本発明は、上記課題に鑑
み、状態継続時間予測部で予測された状態継続時間を用
いて、次に認識する状態の照合区間を決定し、決定され
た照合区間内に状態の照合区間が納まるように照合を行
うことにより、入力音声と標準音声との発声速度が異な
っても、発声速度の変化に逐次的に適応した継続時間の
制御が可能であり、また同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。
み、状態継続時間予測部で予測された状態継続時間を用
いて、次に認識する状態の照合区間を決定し、決定され
た照合区間内に状態の照合区間が納まるように照合を行
うことにより、入力音声と標準音声との発声速度が異な
っても、発声速度の変化に逐次的に適応した継続時間の
制御が可能であり、また同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。
【0029】請求項第12項の本発明は、上記課題に鑑
み、状態継続時間予測部で予測された状態継続時間を用
いて、予測された状態継続時間を中心に予め決められた
一定範囲を、その状態の照合区間範囲と決定し、決定さ
れた照合区間内に状態の照合区間が納まるように照合を
行うことにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となり、より高性能な装置の実現が可
能となる。
み、状態継続時間予測部で予測された状態継続時間を用
いて、予測された状態継続時間を中心に予め決められた
一定範囲を、その状態の照合区間範囲と決定し、決定さ
れた照合区間内に状態の照合区間が納まるように照合を
行うことにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となり、より高性能な装置の実現が可
能となる。
【0030】請求項第13項の本発明は、上記課題に鑑
み、予め学習音声を用いて測定された状態継続時間と予
測された状態継続時間の差を算出しておき、認識時に、
入力音声に対する状態継続時間予測値を中心に、学習時
に求められた誤差値の範囲をその状態の照合区間範囲と
決定することにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
み、予め学習音声を用いて測定された状態継続時間と予
測された状態継続時間の差を算出しておき、認識時に、
入力音声に対する状態継続時間予測値を中心に、学習時
に求められた誤差値の範囲をその状態の照合区間範囲と
決定することにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
【0031】請求項第14項の本発明は、上記課題に鑑
み、予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みをくわえながら照合を行うことに
より、入力音声と標準音声との発声速度が異なっても、
発声速度の変化に逐次的に適応した継続時間の制御が可
能であり、また同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。
み、予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みをくわえながら照合を行うことに
より、入力音声と標準音声との発声速度が異なっても、
発声速度の変化に逐次的に適応した継続時間の制御が可
能であり、また同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。
【0032】
【作用】この構成によって、発声速度の変化に逐次的に
適応した継続時間の制御が可能であり、また同入力音声
内の認識単位毎の継続時間の差が現実的な場合のみ、認
識候補として成立させることができる、より高性能な装
置の実現が可能となる。
適応した継続時間の制御が可能であり、また同入力音声
内の認識単位毎の継続時間の差が現実的な場合のみ、認
識候補として成立させることができる、より高性能な装
置の実現が可能となる。
【0033】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
て説明する。
【0034】請求項1、請求項2、請求項3、請求項7
〜13に対応する一実施例について図1を参照しながら
説明する。図1は本実施例における音声認識装置のブロ
ック図である。1は音声入力端子、2は分析部、3は標
準音声スペクトル算出部、4は状態スペクトル決定部、
5は音声辞書作成部、6は標準音声保管バッファ、7は
状態照合区間測定部、8は予測重み算出部、9は誤差算
出部、10は状態照合区間保管バッファ、11は予測重
み保管バッファ、12は誤差保管バッファ、13は音節
継続時間予測部、14は状態継続時間予測部、15は照
合区間決定部、16は入力音声照合部、17は認識結果
出力部、18は音声辞書、19は辞書、20、21はス
イッチである。前記従来例と同じものは、同一の番号を
付与している。請求項8〜10に記載の発声速度予測部
は、音節継続時間予測部13に相当する。本実施例で
は、請求項9に記載のように音節継続時間を疑似的に発
声速度とみなしている。
〜13に対応する一実施例について図1を参照しながら
説明する。図1は本実施例における音声認識装置のブロ
ック図である。1は音声入力端子、2は分析部、3は標
準音声スペクトル算出部、4は状態スペクトル決定部、
5は音声辞書作成部、6は標準音声保管バッファ、7は
状態照合区間測定部、8は予測重み算出部、9は誤差算
出部、10は状態照合区間保管バッファ、11は予測重
み保管バッファ、12は誤差保管バッファ、13は音節
継続時間予測部、14は状態継続時間予測部、15は照
合区間決定部、16は入力音声照合部、17は認識結果
出力部、18は音声辞書、19は辞書、20、21はス
イッチである。前記従来例と同じものは、同一の番号を
付与している。請求項8〜10に記載の発声速度予測部
は、音節継続時間予測部13に相当する。本実施例で
は、請求項9に記載のように音節継続時間を疑似的に発
声速度とみなしている。
【0035】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され
る。この分析処理を、所定の個数の学習音声データが終
わるまで繰り返す。次に標準音声スペクトル算出部3
で、音節毎に分析されたデータをクラスタリングし、各
クラスタの中心ベクトルの時系列データを選択する。次
に状態スペクトル決定部4で、中心ベクトルの時系列デ
ータを、類似したベクトルを1グループとなるように、
予め決められたグループ数に時系列に沿って区切り(こ
の1グループが1つの状態になる)、各状態の中心ベク
トルを標準音声保管バッファ6に保管する。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され
る。この分析処理を、所定の個数の学習音声データが終
わるまで繰り返す。次に標準音声スペクトル算出部3
で、音節毎に分析されたデータをクラスタリングし、各
クラスタの中心ベクトルの時系列データを選択する。次
に状態スペクトル決定部4で、中心ベクトルの時系列デ
ータを、類似したベクトルを1グループとなるように、
予め決められたグループ数に時系列に沿って区切り(こ
の1グループが1つの状態になる)、各状態の中心ベク
トルを標準音声保管バッファ6に保管する。
【0036】次に継続時間学習時には、上記で用いた学
習音声が単語または文章単位のまま、音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。
習音声が単語または文章単位のまま、音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。
【0037】次に音声辞書作成部5で、認識対象となる
単語または文章が記述されている辞書19に従って、標
準音声保管バッファ6から相当する音節を選択し、それ
を連結して音声辞書を作成する。
単語または文章が記述されている辞書19に従って、標
準音声保管バッファ6から相当する音節を選択し、それ
を連結して音声辞書を作成する。
【0038】次に、照合区間測定部7で、既知の正解デ
ータとして学習音声を入力し、相当する単語または文章
の音声辞書との照合を行い、各々の状態の照合区間を求
める。照合距離D(i)は従来例の(数5)に基づいて算
出し、全学習データ分の照合区間を状態照合区間保管バ
ッファ10に保管する。
ータとして学習音声を入力し、相当する単語または文章
の音声辞書との照合を行い、各々の状態の照合区間を求
める。照合距離D(i)は従来例の(数5)に基づいて算
出し、全学習データ分の照合区間を状態照合区間保管バ
ッファ10に保管する。
【0039】次に、予測重み算出部8で、全学習データ
の状態照合区間を用いて、最小2乗法により、予測重み
a、bを求める。方法は、同じ認識単位の状態毎に、
(数7)に示す2乗誤差e2(s,t)が最小になるよう
に、重みa,bを決定するものである。
の状態照合区間を用いて、最小2乗法により、予測重み
a、bを求める。方法は、同じ認識単位の状態毎に、
(数7)に示す2乗誤差e2(s,t)が最小になるよう
に、重みa,bを決定するものである。
【0040】
【数7】
【0041】次に誤差算出部9で、学習音声の全状態に
おいて、状態継続時間の実値と(数4)に示した予測値
との差を(数8)に従って算出し、誤差保管バッファ1
2に保管する。
おいて、状態継続時間の実値と(数4)に示した予測値
との差を(数8)に従って算出し、誤差保管バッファ1
2に保管する。
【0042】
【数8】 e(t,s)= dst(t,s)ーdsy(t)*a(t,s)+b(t,s) 次に、認識時には、上記で用いた学習音声が単語または
文章単位のまま、音声入力端子1から入力され、分析部
2でフレーム毎にスペクトル情報が分析される。分析方
法は学習時と同様である。
文章単位のまま、音声入力端子1から入力され、分析部
2でフレーム毎にスペクトル情報が分析される。分析方
法は学習時と同様である。
【0043】次に音声辞書作成部5でも、継続時間学習
部と同様に、認識対象となる単語または文章が記述され
ている辞書19に従って、標準音声保管バッファ6から
相当する音節を選択し、それを連結して単語または文章
音声辞書18を作成する。
部と同様に、認識対象となる単語または文章が記述され
ている辞書19に従って、標準音声保管バッファ6から
相当する音節を選択し、それを連結して単語または文章
音声辞書18を作成する。
【0044】最初の音節を認識する際には、照合部16
で、入力音声と上記音声辞書との照合を(数5)に基づ
いて行う。2つ目以降の音節を認識する際には、音節継
続時間予測部13にて、次に認識する認識単位の継続時
間を(数9)に従って予測する。これは、既に認識され
た音節の照合区間の平均値を次の音節の継続時間予測値
とするものである。
で、入力音声と上記音声辞書との照合を(数5)に基づ
いて行う。2つ目以降の音節を認識する際には、音節継
続時間予測部13にて、次に認識する認識単位の継続時
間を(数9)に従って予測する。これは、既に認識され
た音節の照合区間の平均値を次の音節の継続時間予測値
とするものである。
【0045】
【数9】
【0046】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態の継続時間を予測する。予測は
(数10)に従って行う。
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態の継続時間を予測する。予測は
(数10)に従って行う。
【0047】
【数10】
【0048】次に照合区間決定部15で、予測された状
態継続時間と予め学習時に求められている誤差値とを用
いて、各状態の照合区間を決定する。この照合範囲は、
たとえば、t音節のs番目の状態の全誤差値の90%
が、誤差いき値以下になるようにいき値を決定し、それ
をeth(t,s)とすると、t音節のs番目の状態の照合範
囲は(数11)の範囲と決定される。
態継続時間と予め学習時に求められている誤差値とを用
いて、各状態の照合区間を決定する。この照合範囲は、
たとえば、t音節のs番目の状態の全誤差値の90%
が、誤差いき値以下になるようにいき値を決定し、それ
をeth(t,s)とすると、t音節のs番目の状態の照合範
囲は(数11)の範囲と決定される。
【0049】
【数11】
【0050】次に照合部16で、各状態の照合区間が
(数11)の範囲を越えないように、単語辞書に記載さ
れている全音声について照合を行い、最終フレームでの
照合距離が最も小さい単語または文章を結果として、認
識結果出力端子17より出力する。
(数11)の範囲を越えないように、単語辞書に記載さ
れている全音声について照合を行い、最終フレームでの
照合距離が最も小さい単語または文章を結果として、認
識結果出力端子17より出力する。
【0051】なおスイッチ20は、標準音声学習時には
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には単語辞書作成部5に特徴パラメータを出力
するように動作する。また、スイッチ21は、継続時間
学習時には照合区間測定部7へ、認識時には音節継続時
間予測部13へ特徴パラメータを出力するように動作す
る。
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には単語辞書作成部5に特徴パラメータを出力
するように動作する。また、スイッチ21は、継続時間
学習時には照合区間測定部7へ、認識時には音節継続時
間予測部13へ特徴パラメータを出力するように動作す
る。
【0052】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習してお
き、認識時に、既に認識された音節照合区間の平均値を
次の音節の継続時間予測値と見なし、(数10)を用い
て次に認識する状態の継続時間を逐次的に予測し、予測
された状態継続時間を用いて、その状態の照合区間を決
定し、決定された照合区間内で、各状態の照合を行うこ
とにより、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となる、より高性能な装置の実現が可能とな
る。
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習してお
き、認識時に、既に認識された音節照合区間の平均値を
次の音節の継続時間予測値と見なし、(数10)を用い
て次に認識する状態の継続時間を逐次的に予測し、予測
された状態継続時間を用いて、その状態の照合区間を決
定し、決定された照合区間内で、各状態の照合を行うこ
とにより、入力音声と標準音声との発声速度が異なって
も、発声速度の変化に逐次的に適応した継続時間の制御
が可能であり、また同入力音声内の認識単位毎の継続時
間の差が現実的な場合のみ、認識候補として成立させる
ことが可能となる、より高性能な装置の実現が可能とな
る。
【0053】次に請求項4を含む一実施例について図を
参照しながら説明する。図2は請求項4の一実施例にお
ける音声認識装置のブロック図である。1は音声入力端
子、2は分析部、3は標準音声スペクトル算出部、4は
状態スペクトル決定部、5は音声辞書作成部、6は標準
音声保管バッファ、7は状態照合区間測定部、8は予測
重み算出部、9は誤差算出部、10は状態照合区間保管
バッファ、11は予測重み保管バッファ、12は誤差保
管バッファ、25は音節継続時間予測部、14は状態継
続時間予測部、15は照合区間決定部、16は入力音声
照合部、17は認識結果出力部、18は音声辞書、22
は音節分類部、23は音節平均継続時間算出部、24は
音節平均継続時間保管バッファ、20、21はスイッチ
である。前記従来例と同じものは、同一の番号を付与し
ている。この実施例と先の実施例との違いは、音節継続
時間の予測方法と予測するために、学習時に予め、音節
平均継続時間を測定しておくところである。
参照しながら説明する。図2は請求項4の一実施例にお
ける音声認識装置のブロック図である。1は音声入力端
子、2は分析部、3は標準音声スペクトル算出部、4は
状態スペクトル決定部、5は音声辞書作成部、6は標準
音声保管バッファ、7は状態照合区間測定部、8は予測
重み算出部、9は誤差算出部、10は状態照合区間保管
バッファ、11は予測重み保管バッファ、12は誤差保
管バッファ、25は音節継続時間予測部、14は状態継
続時間予測部、15は照合区間決定部、16は入力音声
照合部、17は認識結果出力部、18は音声辞書、22
は音節分類部、23は音節平均継続時間算出部、24は
音節平均継続時間保管バッファ、20、21はスイッチ
である。前記従来例と同じものは、同一の番号を付与し
ている。この実施例と先の実施例との違いは、音節継続
時間の予測方法と予測するために、学習時に予め、音節
平均継続時間を測定しておくところである。
【0054】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の実施例と同様であ
る。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の実施例と同様であ
る。
【0055】次に音節分類部22で、単数または複数の
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の3つとする。(1)目標となる音節継続時間
を示す音節の種類、(2)目標となる音節継続時間を示
す音節の1つ前の音節の種類、(3)目標となる音節継
続時間を示す音節の2つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の3つとする。(1)目標となる音節継続時間
を示す音節の種類、(2)目標となる音節継続時間を示
す音節の1つ前の音節の種類、(3)目標となる音節継
続時間を示す音節の2つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。
【0056】次に音節平均継続時間算出部23で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ24に保管する。
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ24に保管する。
【0057】継続時間学習は、先の実施例と全く同様に
行われ、予測重み係数と誤差値が、各状態毎に算出さ
れ、各バッファに保管される。
行われ、予測重み係数と誤差値が、各状態毎に算出さ
れ、各バッファに保管される。
【0058】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
【0059】次に単語音声辞書作成部5でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書19に従って、標準音声保管バッファ6
から相当する音節を選択し、それを連結して単語または
文章音声辞書18を作成する。
学習部と同様に、認識対象となる単語または文章が記述
されている辞書19に従って、標準音声保管バッファ6
から相当する音節を選択し、それを連結して単語または
文章音声辞書18を作成する。
【0060】最初の音節を認識する際には、照合部16
で、入力音声と上記音声辞書との照合を(数5)に基づ
いて行う。2つ目以降の音節を認識する際には、音節継
続時間予測部25にて、次に認識する音節の継続時間が
予測される。ここでは次音節候補の継続時間を、(数1
2)を用いて算出する。(数12)は、時間軸に沿って
n-1個の音節が既に認識されていたとして、n番目の音
節の継続時間をn近傍のk個の既に認識した音節照合区
間を用いて予測するものである。既に認識したi番目の
音節における学要因jにおける音節平均継続時間fj(i)
と、次に認識するn番目の音節の要因jにおける音節平
均継続時間fj(n)との比を全要因分平均したものを、i
番目の音節の照合区間の補正係数とし、補正したn-1個
の音節照合区間の平均値をn番目の音節の継続時間予測
値とするものである。
で、入力音声と上記音声辞書との照合を(数5)に基づ
いて行う。2つ目以降の音節を認識する際には、音節継
続時間予測部25にて、次に認識する音節の継続時間が
予測される。ここでは次音節候補の継続時間を、(数1
2)を用いて算出する。(数12)は、時間軸に沿って
n-1個の音節が既に認識されていたとして、n番目の音
節の継続時間をn近傍のk個の既に認識した音節照合区
間を用いて予測するものである。既に認識したi番目の
音節における学要因jにおける音節平均継続時間fj(i)
と、次に認識するn番目の音節の要因jにおける音節平
均継続時間fj(n)との比を全要因分平均したものを、i
番目の音節の照合区間の補正係数とし、補正したn-1個
の音節照合区間の平均値をn番目の音節の継続時間予測
値とするものである。
【0061】
【数12】
【0062】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の実施例
と同様である。
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の実施例
と同様である。
【0063】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習し、さ
らに音節継続時間に影響を及ぼす要因毎に、学習音声に
おける音節の平均継続時間を求めておき、認識時に、既
に認識された音節照合区間から、(数12)に従って次
の音節の継続時間を予測し、この予測値を用いた(数1
0)を用いて、次に認識する状態の継続時間を逐次的に
予測し、予測された状態継続時間を用いて、その状態の
照合区間を決定し、決定された照合区間内で、各状態の
照合を行うことにより、入力音声と標準音声との発声速
度が異なっても、発声速度の変化に逐次的に適応した継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となる、より高性能な装置の実
現が可能となる。次に請求項5を含む一実施例について
図を参照しながら説明する。図3は請求項5の一実施例
における音声認識装置のブロック図である。1は音声入
力端子、2は分析部、3は標準音声スペクトル算出部、
4は状態スペクトル決定部、5は音声辞書作成部、6は
標準音声保管バッファ、7は状態照合区間測定部、8は
予測重み算出部、9は誤差算出部、10は状態照合区間
保管バッファ、11は予測重み保管バッファ、12は誤
差保管バッファ、26は音声区間検出部、27は音節継
続時間予測部、15は照合区間決定部、16は照合部、
17は認識結果出力部、18は音声辞書、19、28は
スイッチである。前記従来例と同じものは、同一の番号
を付与している。先の実施例では、予め全音声区間長と
そこに含まれる音節数とが未知の場合でも有効な音節継
続時間予測法を開示しているが、本実施例では、予め全
音声区間長と音節数とが既知の場合においてのみ有効
な、音節継続時間予測法を用いている。全音声区間長が
既知であるために、音節継続時間予測誤差は、先の実施
例よりも小さくなることが予想される。
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測値と測定値との誤差値とを学習し、さ
らに音節継続時間に影響を及ぼす要因毎に、学習音声に
おける音節の平均継続時間を求めておき、認識時に、既
に認識された音節照合区間から、(数12)に従って次
の音節の継続時間を予測し、この予測値を用いた(数1
0)を用いて、次に認識する状態の継続時間を逐次的に
予測し、予測された状態継続時間を用いて、その状態の
照合区間を決定し、決定された照合区間内で、各状態の
照合を行うことにより、入力音声と標準音声との発声速
度が異なっても、発声速度の変化に逐次的に適応した継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となる、より高性能な装置の実
現が可能となる。次に請求項5を含む一実施例について
図を参照しながら説明する。図3は請求項5の一実施例
における音声認識装置のブロック図である。1は音声入
力端子、2は分析部、3は標準音声スペクトル算出部、
4は状態スペクトル決定部、5は音声辞書作成部、6は
標準音声保管バッファ、7は状態照合区間測定部、8は
予測重み算出部、9は誤差算出部、10は状態照合区間
保管バッファ、11は予測重み保管バッファ、12は誤
差保管バッファ、26は音声区間検出部、27は音節継
続時間予測部、15は照合区間決定部、16は照合部、
17は認識結果出力部、18は音声辞書、19、28は
スイッチである。前記従来例と同じものは、同一の番号
を付与している。先の実施例では、予め全音声区間長と
そこに含まれる音節数とが未知の場合でも有効な音節継
続時間予測法を開示しているが、本実施例では、予め全
音声区間長と音節数とが既知の場合においてのみ有効
な、音節継続時間予測法を用いている。全音声区間長が
既知であるために、音節継続時間予測誤差は、先の実施
例よりも小さくなることが予想される。
【0064】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の実施例と同様であ
る。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の実施例と同様であ
る。
【0065】継続時間学習は、先の2つの実施例と全く
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。
【0066】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
【0067】次に単語音声辞書作成部5でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。
【0068】次に音声区間検出部26で分析部にてLP
Cケプストラム0次係数(0次係数は、音声パワー情報
である)を用いて音声区間を検出する。音声区間条件は
下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
Cケプストラム0次係数(0次係数は、音声パワー情報
である)を用いて音声区間を検出する。音声区間条件は
下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0069】次に音節継続時間予測部27で、検出され
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書に記述されている各単語ま
たは文章から、各単語または文章の全音節数を調べ、全
音声区間長を音節数で当分した値を、音節継続時間予測
値とする。
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書に記述されている各単語ま
たは文章から、各単語または文章の全音節数を調べ、全
音声区間長を音節数で当分した値を、音節継続時間予測
値とする。
【0070】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の2つの
実施例と同様である。
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の2つの
実施例と同様である。
【0071】なおスイッチ20は、標準音声学習時には
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には単語辞書作成部に特徴パラメータを出力す
るように動作する。また、スイッチ28は、継続時間学
習時には照合区間測定部へ、認識時には音声区間検出部
へ特徴パラメータを出力するように動作する。
標準音声スペクトル算出部3に、継続時間学習時、また
は認識時には単語辞書作成部に特徴パラメータを出力す
るように動作する。また、スイッチ28は、継続時間学
習時には照合区間測定部へ、認識時には音声区間検出部
へ特徴パラメータを出力するように動作する。
【0072】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を予測し、この予測値
を用いた(数10)を用いて、次に認識する状態の継続
時間を逐次的に予測し、予測された状態継続時間を用い
て、その状態の照合区間を決定し、決定された照合区間
内で、各状態の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。次に請求項6を含む
一実施例について図を参照しながら説明する。図4は請
求項6の一実施例における音声認識装置のブロック図で
ある。1は音声入力端子、2は分析部、3は標準音声ス
ペクトル算出部、4は状態スペクトル決定部、5は音声
辞書作成部、6は標準音声保管バッファ、22は音節分
類部、23は音節平均継続時間算出部、24は音節平均
継続時間保管バッファ、7は状態照合区間測定部、8は
予測重み算出部、9は誤差算出部、10は状態照合区間
保管バッファ、11は予測重み保管バッファ、12は誤
差保管バッファ、26は音声区間検出部、29は音節継
続時間予測部、15は照合区間決定部、16は入力音声
照合部、17は認識結果出力部、18は音声辞書、19
は辞書、20、28はスイッチである。前記従来例と同
じものは、同一の番号を付与している。先の請求項5の
実施例との違いは、音節継続時間の予測方法と、予測す
るために学習時に予め音節平均継続時間を測定しておく
ところである。
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を予測し、この予測値
を用いた(数10)を用いて、次に認識する状態の継続
時間を逐次的に予測し、予測された状態継続時間を用い
て、その状態の照合区間を決定し、決定された照合区間
内で、各状態の照合を行うことにより、入力音声と標準
音声との発声速度が異なっても、発声速度の変化に逐次
的に適応した継続時間の制御が可能であり、また同入力
音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。次に請求項6を含む
一実施例について図を参照しながら説明する。図4は請
求項6の一実施例における音声認識装置のブロック図で
ある。1は音声入力端子、2は分析部、3は標準音声ス
ペクトル算出部、4は状態スペクトル決定部、5は音声
辞書作成部、6は標準音声保管バッファ、22は音節分
類部、23は音節平均継続時間算出部、24は音節平均
継続時間保管バッファ、7は状態照合区間測定部、8は
予測重み算出部、9は誤差算出部、10は状態照合区間
保管バッファ、11は予測重み保管バッファ、12は誤
差保管バッファ、26は音声区間検出部、29は音節継
続時間予測部、15は照合区間決定部、16は入力音声
照合部、17は認識結果出力部、18は音声辞書、19
は辞書、20、28はスイッチである。前記従来例と同
じものは、同一の番号を付与している。先の請求項5の
実施例との違いは、音節継続時間の予測方法と、予測す
るために学習時に予め音節平均継続時間を測定しておく
ところである。
【0073】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の3つの実施例と同
様である。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の3つの実施例と同
様である。
【0074】次に音節分類部22で、単数または複数の
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の3つとする。(1)目標となる音節継続時間
を示す音節の種類、(2)目標となる音節継続時間を示
す音節の1つ前の音節の種類、(3)目標となる音節継
続時間を示す音節の2つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。
要因に基づいて標準音声を分類する。この要因は音節継
続時間を左右する要因であり、たとえば、ここではその
要因を次の3つとする。(1)目標となる音節継続時間
を示す音節の種類、(2)目標となる音節継続時間を示
す音節の1つ前の音節の種類、(3)目標となる音節継
続時間を示す音節の2つ前の音節の種類である。各々の
要因において同種類である音節データを同グループとな
るように分類する。
【0075】次に音節平均継続時間算出部23で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ24に保管する。
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の3つとし要因番号をそれぞれJ
1,J2,J3,とし、各々の要因のグループ数(この
例では音節数に相当する。)をK1,K2,K3とする
と、要因J1にはK1個、要因J2にはK2個、要因J
3にはK3個の平均継続時間が計算され、結果は音節平
均継続時間保管バッファ24に保管する。
【0076】継続時間学習は、先の3つの実施例と全く
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。
同様に行われ、予測重み係数と誤差値が、各状態毎に算
出され、各バッファに保管される。
【0077】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
【0078】次に単語音声辞書作成部5でも、継続時間
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。
学習部と同様に、認識対象となる単語または文章が記述
されている辞書に従って、標準音声保管バッファから相
当する音節を選択し、それを連結して単語または文章音
声辞書を作成する。
【0079】次に音声区間検出部26で分析部にてLP
Cケプストラム0次係数(0次係数は、音声パワー情報
である)を用いて音声区間を検出する。音声区間条件は
下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
Cケプストラム0次係数(0次係数は、音声パワー情報
である)を用いて音声区間を検出する。音声区間条件は
下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0080】次に音節継続時間予測部29で、検出され
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書19に記述されている各単
語または文章から各音節における要因を調べ、予め学習
されている該当する要因における音節平均継続時間を用
いて、(数14)に基づいて予測する。
た全音声区間長を用いて次に認識する音節の継続時間が
予測される。ここでは、辞書19に記述されている各単
語または文章から各音節における要因を調べ、予め学習
されている該当する要因における音節平均継続時間を用
いて、(数14)に基づいて予測する。
【0081】
【数14】
【0082】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の2つの
実施例と同様である。
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測し、予測値を用
いて照合区間決定部15で照合区間を決定し、照合部1
6で照合し、認識結果を出力する。これは、先の2つの
実施例と同様である。
【0083】以上のように、本実施例によれば、学習の
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を(数14)に基づい
て予測し、この予測値を用いた(数10)にて次に認識
する状態の継続時間を逐次的に予測し、予測された状態
継続時間を用いて、その状態の照合区間を決定し、決定
された照合区間内で、各状態の照合を行うことにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。次に請
求項14を含む一実施例について図を参照しながら説明
する。図5は請求項14の一実施例における音声認識装
置のブロック図である。1は音声入力端子、2は分析
部、3は標準音声スペクトル算出部、4は状態スペクト
ル決定部、5は音声辞書作成部、6は標準音声保管バッ
ファ、7は状態照合区間測定部、8は予測重み算出部、
9は誤差算出部、10は状態照合区間保管バッファ、1
1は予測重み保管バッファ、12は誤差保管バッファ、
13は音節継続時間予測部、14は状態継続時間予測
部、30は照合重み決定部、31は入力音声照合部、1
7は認識結果出力部、18は音声辞書、19は辞書、2
0、21はスイッチである。前記従来例と同じものは、
同一の番号を付与している。この実施例と先の4実施例
との違いは、照合時の状態継続時間予測値を利用した継
続時間制御法の違いにある。先の実施例が、状態継続時
間予測値を利用して各状態の照合区間を制限することで
継続時間制御を行っているのに対し、本実施例は、状態
継続時間予測値近傍で最も照合スコアーが最良になるよ
うに照合距離値に重み付けを行うことにより、継続時間
制御を行うものである。
際に、状態継続時間を予測する予測式(数10)におけ
る予測重み係数と、照合範囲を決定する際に用いる各状
態継続時間の予測誤差とを学習しておき、認識時に、全
音声区間長から各音節の継続時間を(数14)に基づい
て予測し、この予測値を用いた(数10)にて次に認識
する状態の継続時間を逐次的に予測し、予測された状態
継続時間を用いて、その状態の照合区間を決定し、決定
された照合区間内で、各状態の照合を行うことにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。次に請
求項14を含む一実施例について図を参照しながら説明
する。図5は請求項14の一実施例における音声認識装
置のブロック図である。1は音声入力端子、2は分析
部、3は標準音声スペクトル算出部、4は状態スペクト
ル決定部、5は音声辞書作成部、6は標準音声保管バッ
ファ、7は状態照合区間測定部、8は予測重み算出部、
9は誤差算出部、10は状態照合区間保管バッファ、1
1は予測重み保管バッファ、12は誤差保管バッファ、
13は音節継続時間予測部、14は状態継続時間予測
部、30は照合重み決定部、31は入力音声照合部、1
7は認識結果出力部、18は音声辞書、19は辞書、2
0、21はスイッチである。前記従来例と同じものは、
同一の番号を付与している。この実施例と先の4実施例
との違いは、照合時の状態継続時間予測値を利用した継
続時間制御法の違いにある。先の実施例が、状態継続時
間予測値を利用して各状態の照合区間を制限することで
継続時間制御を行っているのに対し、本実施例は、状態
継続時間予測値近傍で最も照合スコアーが最良になるよ
うに照合距離値に重み付けを行うことにより、継続時間
制御を行うものである。
【0084】まず標準音声学習時には、予め単語または
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の4つの実施例と同
様である。
文章単位で発声された標準音声を音節単位に区分けして
おき、音節毎に音声を音声入力端子1より入力する。次
に分析部2で認識に必要なスペクトル情報が分析され、
全学習音声データが終わるまで、この分析を繰り返す。
次に標準音声スペクトル算出部3と状態スペクトル決定
部4を経て、状態の中心ベクトルが標準音声保管バッフ
ァ6に保管される。ここまでは、先の4つの実施例と同
様である。
【0085】継続時間学習は、先の4つの実施例と全く
同様に行われ、予測重み係数と誤差値が各状態毎に算出
され、各バッファに保管される。
同様に行われ、予測重み係数と誤差値が各状態毎に算出
され、各バッファに保管される。
【0086】次に、認識時には、上記で用いた学習音声
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
が単語または文章単位のまま、音声入力端子1から入力
され、分析部2でフレーム毎にスペクトル情報が分析さ
れる。分析方法は学習時と同様である。
【0087】次に単語音声辞書作成部でも、継続時間学
習部と同様に、認識対象となる単語または文章が記述さ
れている辞書に従って、標準音声保管バッファから相当
する音節を選択し、それを連結して単語または文章音声
辞書を作成する。
習部と同様に、認識対象となる単語または文章が記述さ
れている辞書に従って、標準音声保管バッファから相当
する音節を選択し、それを連結して単語または文章音声
辞書を作成する。
【0088】最初の音節を認識する際には、照合部で、
入力音声と上記音声辞書との照合を(数5)、(数6)
に基づいて行う。2つ目以降の音節を認識する際には、
音節継続時間予測部13で、次に認識する音節の継続時
間が予測される。ここでは既に認識された音節照合区間
の平均値を次音節継続時間の予測値とする。
入力音声と上記音声辞書との照合を(数5)、(数6)
に基づいて行う。2つ目以降の音節を認識する際には、
音節継続時間予測部13で、次に認識する音節の継続時
間が予測される。ここでは既に認識された音節照合区間
の平均値を次音節継続時間の予測値とする。
【0089】次に予測された音節継続時間予測値と学習
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測する。予測方法
は先の実施例と同様である。
時に既に求められた重み係数a,bを用いて、状態継続
時間予測部14にて状態継続時間を予測する。予測方法
は先の実施例と同様である。
【0090】次に照合重み決定部30で、(数15)に
基づいて次のn音節のs番目の状態継続時間に対する照
合重みwnsを決定する。この照合重みは、先の継続時間
予測部で予測された継続時間に近いほど、照合スコアー
が小さくなるように算出される。(数15)内のα値
は、照合範囲いき値であり、学習時に各音節の各状態毎
に学習された誤差値から求めても良く、例えば、全デー
タにおける各状態の誤差値の90%以上がこのいき値以
内に納まるように照合範囲いき値を設定しても良い。
基づいて次のn音節のs番目の状態継続時間に対する照
合重みwnsを決定する。この照合重みは、先の継続時間
予測部で予測された継続時間に近いほど、照合スコアー
が小さくなるように算出される。(数15)内のα値
は、照合範囲いき値であり、学習時に各音節の各状態毎
に学習された誤差値から求めても良く、例えば、全デー
タにおける各状態の誤差値の90%以上がこのいき値以
内に納まるように照合範囲いき値を設定しても良い。
【0091】
【数15】
【0092】次に照合部6で、(数16)に基づいて照
合する。(数16)は従来の距離値に上記の照合重みを
加えたものを新しい距離値と見なすものである。照合結
果と音節の終端フレーム及び音節の継続時間は認識結果
保管バッファ12に保管する。
合する。(数16)は従来の距離値に上記の照合重みを
加えたものを新しい距離値と見なすものである。照合結
果と音節の終端フレーム及び音節の継続時間は認識結果
保管バッファ12に保管する。
【0093】
【数16】 D(i)=min[D(j)+(Dns(j+1:i)×wns(i-j))] D(i) :iフレームまでの標準音声状態列と入力音声と
の距離 Dns(j+1:i):j+1フレームからiフレームまでの標準音声のn番
目の音節のs番目の状態における入力音声の距離 以上のように、本実施例によれば、学習の際に、状態継
続時間を予測する予測式(数10)における予測重み係
数と、照合範囲を決定する際に用いる各状態継続時間の
予測値と測定値との誤差値とを学習しておき、認識時
に、既に認識された音節照合区間から次に認識する音節
の継続時間を予測し、この予測値を用いた(数10)を
用いて、次に認識する状態の継続時間を逐次的に予測
し、予測された状態継続時間を用いて、状態の照合区間
が予測値の近傍である際に最も照合スコアーが良く照合
されるように照合重みを決定し、決定された照合重みを
加味しながら、各状態の照合を行うことにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
の距離 Dns(j+1:i):j+1フレームからiフレームまでの標準音声のn番
目の音節のs番目の状態における入力音声の距離 以上のように、本実施例によれば、学習の際に、状態継
続時間を予測する予測式(数10)における予測重み係
数と、照合範囲を決定する際に用いる各状態継続時間の
予測値と測定値との誤差値とを学習しておき、認識時
に、既に認識された音節照合区間から次に認識する音節
の継続時間を予測し、この予測値を用いた(数10)を
用いて、次に認識する状態の継続時間を逐次的に予測
し、予測された状態継続時間を用いて、状態の照合区間
が予測値の近傍である際に最も照合スコアーが良く照合
されるように照合重みを決定し、決定された照合重みを
加味しながら、各状態の照合を行うことにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
【0094】
【発明の効果】請求項1に記載の音声認識装置は、既に
認識された認識単位または状態の照合区間から、次に認
識する状態の継続時間を予測する状態継続時間予測部
と、予測された状態継続時間を用いて標準音声と入力音
声の照合を行う照合部とからなることにより、入力音声
と標準音声との発声速度が異なっても、発声速度の変化
に逐次的に適応した継続時間の制御が可能であり、また
同入力音声内の認識単位毎の継続時間の差が現実的な場
合のみ、認識候補として成立させることが可能となる、
より高性能な装置の実現が可能となる。
認識された認識単位または状態の照合区間から、次に認
識する状態の継続時間を予測する状態継続時間予測部
と、予測された状態継続時間を用いて標準音声と入力音
声の照合を行う照合部とからなることにより、入力音声
と標準音声との発声速度が異なっても、発声速度の変化
に逐次的に適応した継続時間の制御が可能であり、また
同入力音声内の認識単位毎の継続時間の差が現実的な場
合のみ、認識候補として成立させることが可能となる、
より高性能な装置の実現が可能となる。
【0095】請求項2に記載の音声認識装置は、既に認
識された認識単位または状態の照合区間から、次に認識
する認識単位の継続時間を予測する認識単位継続時間予
測部と、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測する状態継続時間予
測部と、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行う照合部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
識された認識単位または状態の照合区間から、次に認識
する認識単位の継続時間を予測する認識単位継続時間予
測部と、予測された認識区間の継続時間を用いて、同認
識区間内の各状態の継続時間を予測する状態継続時間予
測部と、予測された状態継続時間を用いて、標準音声と
入力音声の照合を行う照合部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
【0096】請求項3に記載の音声認識装置は、請求項
2に記載の認識単位継続時間予測部で、既に認識された
認識単位の照合区間の平均値を次の認識単位の継続時間
予測値とすることにより、入力音声と標準音声との発声
速度が異なっても、発声速度の変化に逐次的に適応した
継続時間の制御が可能であり、また同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となる、より高性能な装置の
実現が可能となる。
2に記載の認識単位継続時間予測部で、既に認識された
認識単位の照合区間の平均値を次の認識単位の継続時間
予測値とすることにより、入力音声と標準音声との発声
速度が異なっても、発声速度の変化に逐次的に適応した
継続時間の制御が可能であり、また同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となる、より高性能な装置の
実現が可能となる。
【0097】請求項4に記載の音声認識装置は、請求項
2に記載の状態継続時間予測部、照合部に加えて、継続
時間を左右する要因毎に学習音声データを分類する認識
単位分類部と、各グループ毎の平均継続時間を算出する
平均継続時間算出部と、次に認識する認識単位が属する
グループの平均継続時間と既に認識された認識単位が属
するグループの平均継続時間との比を、継続時間を左右
する要因数分加算して1になるような重み係数で重み付
けし、この重み付けされた比値を用いて、既に認識され
た認識単位の照合区間を補正した(数1)にて、次の認
識単位の継続時間予測値を算出する音節継続時間予測部
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。
2に記載の状態継続時間予測部、照合部に加えて、継続
時間を左右する要因毎に学習音声データを分類する認識
単位分類部と、各グループ毎の平均継続時間を算出する
平均継続時間算出部と、次に認識する認識単位が属する
グループの平均継続時間と既に認識された認識単位が属
するグループの平均継続時間との比を、継続時間を左右
する要因数分加算して1になるような重み係数で重み付
けし、この重み付けされた比値を用いて、既に認識され
た認識単位の照合区間を補正した(数1)にて、次の認
識単位の継続時間予測値を算出する音節継続時間予測部
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。
【0098】請求項5に記載の音声認識装置は、請求項
2に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、検出された
音声区間を各認識対象語に含まれる認識単位数で当分
し、等分された1区間を認識単位の継続時間予測値とす
る認識単位継続時間予測部とからなることにより、入力
音声と標準音声との発声速度が異なっても、発声速度の
変化に逐次的に適応した継続時間の制御が可能であり、
また同入力音声内の認識単位毎の継続時間の差が現実的
な場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
2に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、検出された
音声区間を各認識対象語に含まれる認識単位数で当分
し、等分された1区間を認識単位の継続時間予測値とす
る認識単位継続時間予測部とからなることにより、入力
音声と標準音声との発声速度が異なっても、発声速度の
変化に逐次的に適応した継続時間の制御が可能であり、
また同入力音声内の認識単位毎の継続時間の差が現実的
な場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
【0099】請求項6に記載の音声認識装置は、請求項
2に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、継続時間を
左右する要因毎に学習音声データを分類する認識単位分
類部と、各グループ毎の平均継続時間を算出する平均継
続時間算出部と、次に認識する認識単位が属するグルー
プの平均継続時間を継続時間を左右する要因に関する重
み係数で補正した値と、認識対象語に含まれる各認識単
位が属するグループの平均継続時間を重み係数で補正し
た値を全認識単位分加算した値との比を求め、音声区間
検出部で検出された音声区間長を求められた比値で補正
した(数2)にてを、各認識単位の継続時間予測を算出
する認識単位継続時間予測部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
2に記載の状態継続時間予測部、照合部に加えて、入力
音声の始終端を検出する音声区間検出部と、継続時間を
左右する要因毎に学習音声データを分類する認識単位分
類部と、各グループ毎の平均継続時間を算出する平均継
続時間算出部と、次に認識する認識単位が属するグルー
プの平均継続時間を継続時間を左右する要因に関する重
み係数で補正した値と、認識対象語に含まれる各認識単
位が属するグループの平均継続時間を重み係数で補正し
た値を全認識単位分加算した値との比を求め、音声区間
検出部で検出された音声区間長を求められた比値で補正
した(数2)にてを、各認識単位の継続時間予測を算出
する認識単位継続時間予測部とからなることにより、入
力音声と標準音声との発声速度が異なっても、発声速度
の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
【0100】請求項7に記載の音声認識装置は、請求項
1に記載の状態継続時間予測部において、発声速度が状
態継続時間がに及ぼす影響度が予測結果に反映するよう
に、状態継続時間を予測することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
1に記載の状態継続時間予測部において、発声速度が状
態継続時間がに及ぼす影響度が予測結果に反映するよう
に、状態継続時間を予測することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
【0101】請求項8に記載の音声認識装置は、請求項
7に記載の音声認識装置において、既に認識された認識
単位の照合区間情報から発声速度を予測する発声速度予
測部と、予測された発声速度を含む項と、含まない項を
線形結合させた予測式3にて、状態継続時間を予測する
状態継続時間予測部からなることにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
7に記載の音声認識装置において、既に認識された認識
単位の照合区間情報から発声速度を予測する発声速度予
測部と、予測された発声速度を含む項と、含まない項を
線形結合させた予測式3にて、状態継続時間を予測する
状態継続時間予測部からなることにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
【0102】請求項9に記載の音声認識装置は、請求項
8に記載の発声速度予測部で、既に認識された認識単位
の照合区間情報から次に認識する認識単位の継続時間を
予測しこの予測値を疑似的に発声速度と見なし、状態継
続時間予測部で、予測された認識単位継続時間予測値を
含む項と、含まない項を線形結合させた予測式(数4)
にて、状態継続時間を予測する状態継続時間予測部から
なることにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となる、より高性能な装置の実現が可
能となる。
8に記載の発声速度予測部で、既に認識された認識単位
の照合区間情報から次に認識する認識単位の継続時間を
予測しこの予測値を疑似的に発声速度と見なし、状態継
続時間予測部で、予測された認識単位継続時間予測値を
含む項と、含まない項を線形結合させた予測式(数4)
にて、状態継続時間を予測する状態継続時間予測部から
なることにより、入力音声と標準音声との発声速度が異
なっても、発声速度の変化に逐次的に適応した継続時間
の制御が可能であり、また同入力音声内の認識単位毎の
継続時間の差が現実的な場合のみ、認識候補として成立
させることが可能となる、より高性能な装置の実現が可
能となる。
【0103】請求項10に記載の音声認識装置は、請求
項8に記載の音声認識装置における発声速度予測部と状
態継続時間に加えて、予め学習音声を用いて、各状態の
継続時間を測定する継続時間測定部と、測定された各状
態の継続時間と請求項8の数3により、最小2乗法に
て、測定値と予測値の誤差が最小になるように、重み
a、bを求める重み係数算出部とからなることにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
項8に記載の音声認識装置における発声速度予測部と状
態継続時間に加えて、予め学習音声を用いて、各状態の
継続時間を測定する継続時間測定部と、測定された各状
態の継続時間と請求項8の数3により、最小2乗法に
て、測定値と予測値の誤差が最小になるように、重み
a、bを求める重み係数算出部とからなることにより、
入力音声と標準音声との発声速度が異なっても、発声速
度の変化に逐次的に適応した継続時間の制御が可能であ
り、また同入力音声内の認識単位毎の継続時間の差が現
実的な場合のみ、認識候補として成立させることが可能
となる、より高性能な装置の実現が可能となる。
【0104】請求項11に記載の音声認識装置は、請求
項1に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間を用いて、次に認識する状
態の照合区間を決定する照合区間決定部と、決定された
照合区間内に、状態の照合区間が納まるように照合を行
う照合部とからなることにより、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となる、より高性能な
装置の実現が可能となる。
項1に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間を用いて、次に認識する状
態の照合区間を決定する照合区間決定部と、決定された
照合区間内に、状態の照合区間が納まるように照合を行
う照合部とからなることにより、入力音声と標準音声と
の発声速度が異なっても、発声速度の変化に逐次的に適
応した継続時間の制御が可能であり、また同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となる、より高性能な
装置の実現が可能となる。
【0105】請求項12に記載の音声認識装置は、請求
項11に記載の照合区間決定部において、予測された状
態継続時間を中心に予め決められた一定範囲を、その状
態の照合区間範囲と決定することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
項11に記載の照合区間決定部において、予測された状
態継続時間を中心に予め決められた一定範囲を、その状
態の照合区間範囲と決定することにより、入力音声と標
準音声との発声速度が異なっても、発声速度の変化に逐
次的に適応した継続時間の制御が可能であり、また同入
力音声内の認識単位毎の継続時間の差が現実的な場合の
み、認識候補として成立させることが可能となる、より
高性能な装置の実現が可能となる。
【0106】請求項13に記載の音声認識装置は、請求
項11に記載の音声認識装置において、状態毎の正しい
継続時間を測定する状態継続時間測定部と、予め学習音
声を用いて測定された状態継続時間測定値と状態継続時
間予測部で求められた予測値との誤差を算出する誤差算
出部と、認識する際に、入力音声に対する状態継続時間
予測値を中心に、学習時に求められた誤差値の範囲を、
その状態の照合区間範囲と決定することにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
項11に記載の音声認識装置において、状態毎の正しい
継続時間を測定する状態継続時間測定部と、予め学習音
声を用いて測定された状態継続時間測定値と状態継続時
間予測部で求められた予測値との誤差を算出する誤差算
出部と、認識する際に、入力音声に対する状態継続時間
予測値を中心に、学習時に求められた誤差値の範囲を、
その状態の照合区間範囲と決定することにより、入力音
声と標準音声との発声速度が異なっても、発声速度の変
化に逐次的に適応した継続時間の制御が可能であり、ま
た同入力音声内の認識単位毎の継続時間の差が現実的な
場合のみ、認識候補として成立させることが可能とな
る、より高性能な装置の実現が可能となる。
【0107】請求項14に記載の音声認識装置は、請求
項1に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みを加えながら照合を行う照合部と
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。
項1に記載の音声認識装置において、状態継続時間予測
部で予測された状態継続時間の近傍が最も照合距離値が
大きくなるように重みを加えながら照合を行う照合部と
からなることにより、入力音声と標準音声との発声速度
が異なっても、発声速度の変化に逐次的に適応した継続
時間の制御が可能であり、また同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となる、より高性能な装置の実現
が可能となる。
【図1】本発明の一実施例における音声認識装置のブロ
ック図である。
ック図である。
【図2】本発明の他の実施例における音声認識装置のブ
ロック図である。
ロック図である。
【図3】本発明の他の実施例における音声認識装置のブ
ロック図である。
ロック図である。
【図4】本発明の他の実施例における音声認識装置のブ
ロック図である。
ロック図である。
【図5】本発明の他の実施例における音声認識装置のブ
ロック図である。
ロック図である。
【図6】従来例における音声認識装置のブロック図であ
る。
る。
1 … 信号入力端子 2 … 分析部 3 … 標準音声スヘ゜クトル算出部 4 … 状態スヘ゜クトル決定部 5 … 音節辞書作成部 6 … 標準音声保管ハ゛ッファ 7 … 照合区間測定部 8 … 予測重み算出部 9 … 誤差算出部 10 … 状態継続時間保管ハ゛ッファ 11 … 予測重み保管ハ゛ッファ 12 … 誤差保管ハ゛ッファ 13、25、27、29… 音節継続時間予測部 14 … 状態継続時間予測部 15 … 照合区間決定部 16、31… 照合部 17 … 認識結果出力端子 18 … 音声辞書 19 … 辞書 20、21、28… スイッチ 22 … 音節分類部 23 … 音節平均継続時間算出部 24 … 平均継続時間保管ハ゛ッファ 26 … 音声区間検出部 30 … 照合重み算出部
Claims (14)
- 【請求項1】音声を認識する際に、入力音声より短い小
区間を認識単位とし、さらに各認識単位毎の標準音声が
異なる特徴を持つ複数のカテゴリー(以後状態という)
の時系列で表されており、認識単位毎に得られる認識結
果を時間軸に沿って連結したものを最終認識結果として
出力する音声認識装置であって、既に認識された認識単
位または状態の照合区間から、次に認識する状態の継続
時間を予測する状態継続時間予測部と、予測された状態
継続時間を用いて標準音声と入力音声の照合を行う照合
部とを備えたことを特徴とする音声認識装置。 - 【請求項2】音声を認識する際に、入力音声より短い小
区間を認識単位とし、さらに各認識単位毎の標準音声が
異なる特徴を持つ複数の状態の時系列で表されており、
認識単位毎に得られる認識結果を時間軸に沿って連結し
たものを最終認識結果として出力する音声認識装置であ
って、既に認識された認識単位または状態の照合区間か
ら、次に認識する認識単位の継続時間を予測する認識単
位継続時間予測部と、予測された認識区間の継続時間を
用いて、同認識区間内の各状態の継続時間を予測する状
態継続時間予測部と、予測された状態継続時間を用い
て、標準音声と入力音声の照合を行う照合部とを備えた
ことを特徴とする音声認識装置。 - 【請求項3】認識単位継続時間予測部は、既に認識され
た認識単位の照合区間の平均値を次の認識単位の継続時
間予測値とすることを特徴とする請求項2記載の音声認
識装置 - 【請求項4】継続時間を左右する要因毎に学習音声デー
タを分類する認識単位分類部と、各グループ毎の平均継
続時間を算出する平均継続時間算出部と、次に認識する
認識単位が属するグループの平均継続時間と既に認識さ
れた認識単位が属するグループの平均継続時間との比
を、継続時間を左右する要因数分加算して1になるよう
な重み係数で重み付けし、この重み付けされた比値を用
いて、既に認識された認識単位の照合区間を補正した
(数1)にて、次の認識単位の継続時間予測値を算出す
る音節継続時間予測部とをさらに備えたことを特徴とす
る請求項2記載の音声認識装置 【数1】 - 【請求項5】入力音声の始終端を検出する音声区間検出
部と、検出された音声区間を各認識対象語に含まれる認
識単位数で当分し、等分された1区間を認識単位の継続
時間予測値とする認識単位継続時間予測部とをさらに備
えたことを特徴とする請求項2記載の音声認識装置 - 【請求項6】入力音声の始終端を検出する音声区間検出
部と、継続時間を左右する要因毎に学習音声データを分
類する認識単位分類部と、各グループ毎の平均継続時間
を算出する平均継続時間算出部と、次に認識する認識単
位が属するグループの平均継続時間を継続時間を左右す
る要因に関する重み係数で補正した値と、認識対象語に
含まれる各認識単位が属するグループの平均継続時間を
重み係数で補正した値を全認識単位分加算した値との比
を求め、音声区間検出部で検出された音声区間長を求め
られた比値で補正した(数2)にて、各認識単位の継続
時間予測を算出する認識単位継続時間予測部とをさらに
備えたことを特徴とする請求項2記載の音声認識装置 【数2】 - 【請求項7】状態継続時間予測部は、発声速度が状態継
続時間に及ぼす影響度が予測結果に反映するように、状
態継続時間を予測することを特徴とする請求項1記載の
音声認識装置。 - 【請求項8】既に認識された認識単位の照合区間情報か
ら発声速度を予測する発声速度予測部と、予測された発
声速度を含む項と、含まない項を線形結合させた予測式
(数3)にて、状態継続時間を予測する状態継続時間予
測部とを備えたことを特徴とする請求項7記載の音声認
識装置。 【数3】 - 【請求項9】発声速度予測部は、既に認識された認識単
位の照合区間情報から次に認識する認識単位の継続時間
を予測し、この予測値を疑似的に発声速度と見なし、状
態継続時間予測部で、予測された認識単位継続時間予測
値を含む項と、含まない項を線形結合させた予測式(数
4)にて、状態継続時間を予測する状態継続時間予測部
からなることを特徴とする請求項8記載の音声認識装
置。 【数4】 - 【請求項10】請求項8に記載の音声認識装置におけ
る、発声速度予測部と状態継続時間予測部に加えて、予
め学習音声を用いて、各状態の継続時間を測定する継続
時間測定部と、測定された各状態の継続時間と請求項8
の(数3)により、最小2乗法にて、測定値と予測値の
誤差が最小になるように、重みa、bを求める重み係数
算出部とを備えたことを特徴とする音声認識装置。 - 【請求項11】状態継続時間予測部で予測された状態継
続時間を用いて、次に認識する状態の照合区間を決定す
る照合区間決定部と、決定された照合区間内に、状態の
照合区間が納まるように照合を行う照合部とを備えたこ
とを特徴とする請求項1記載の音声認識装置。 - 【請求項12】照合区間決定部では、予測された状態継
続時間を中心に予め決められた一定範囲を、その状態の
照合区間範囲と決定することを特徴とする請求項11記
載の音声認識装置。 - 【請求項13】状態毎の正しい継続時間を測定する状態
継続時間測定部と、予め学習音声を用いて測定された状
態継続時間測定値と状態継続時間予測部で求められた予
測値との誤差を算出する誤差算出部と、認識する際に、
入力音声に対する状態継続時間予測値を中心に、学習時
に求められた誤差値の範囲を、その状態の照合区間範囲
と決定することを特徴とする請求項11記載の音声認識
装置。 - 【請求項14】状態継続時間予測部で予測された状態継
続時間の近傍が最も照合距離値が大きくなるように重み
を加えながら照合を行う照合部とを備えたことを特徴と
する請求項1記載の音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6073594A JPH07281692A (ja) | 1994-04-12 | 1994-04-12 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6073594A JPH07281692A (ja) | 1994-04-12 | 1994-04-12 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07281692A true JPH07281692A (ja) | 1995-10-27 |
Family
ID=13522809
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6073594A Pending JPH07281692A (ja) | 1994-04-12 | 1994-04-12 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07281692A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206524A (ja) * | 2006-02-03 | 2007-08-16 | Toshiba Tec Corp | 音声検出装置及び音声検出プログラム |
| CN119694339A (zh) * | 2024-11-22 | 2025-03-25 | 马上消费金融股份有限公司 | 语音断句检测方法、装置、设备、存储介质及程序产品 |
| CN119854414A (zh) * | 2025-03-19 | 2025-04-18 | 山东致群信息技术股份有限公司 | 基于ai的电话应答系统 |
-
1994
- 1994-04-12 JP JP6073594A patent/JPH07281692A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007206524A (ja) * | 2006-02-03 | 2007-08-16 | Toshiba Tec Corp | 音声検出装置及び音声検出プログラム |
| CN119694339A (zh) * | 2024-11-22 | 2025-03-25 | 马上消费金融股份有限公司 | 语音断句检测方法、装置、设备、存储介质及程序产品 |
| CN119854414A (zh) * | 2025-03-19 | 2025-04-18 | 山东致群信息技术股份有限公司 | 基于ai的电话应答系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4741036A (en) | Determination of phone weights for markov models in a speech recognition system | |
| US7813927B2 (en) | Method and apparatus for training a text independent speaker recognition system using speech data with text labels | |
| CN101465123B (zh) | 说话人认证的验证方法和装置以及说话人认证系统 | |
| EP1139332A2 (en) | Spelling speech recognition apparatus | |
| EP0617827B1 (en) | Composite expert | |
| JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
| US12488805B2 (en) | Using optimal articulatory event-types for computer analysis of speech | |
| KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
| EP1576580B1 (en) | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames | |
| JPH04362699A (ja) | 音声認識方法及び装置 | |
| CN114822538A (zh) | 重打分模型的训练和语音识别方法、装置、系统及设备 | |
| US12518774B2 (en) | Identifying optimal articulatory event-types for computer analysis of speech | |
| Davis et al. | Evaluation of acoustic parameters for monosyllabic word identification | |
| JPH07281692A (ja) | 音声認識装置 | |
| AU2024213722A1 (en) | Identifying optimal articulatory event-types for computer analysis of speech | |
| JP3114389B2 (ja) | 音声認識装置 | |
| JP3868798B2 (ja) | 音声認識装置 | |
| JPH0772899A (ja) | 音声認識装置 | |
| JP3293191B2 (ja) | 音声認識装置 | |
| JPH06324699A (ja) | 連続音声認識装置 | |
| JPH01185599A (ja) | 音声認識装置 | |
| JP2979912B2 (ja) | 音声認識装置 | |
| KR100269429B1 (ko) | 음성 인식시 천이 구간의 음성 식별 방법 | |
| JPH06301400A (ja) | 音声認識装置 | |
| JPH0455518B2 (ja) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040629 |