JPH03253900A

JPH03253900A - 音声認識装置

Info

Publication number: JPH03253900A
Application number: JP2053013A
Authority: JP
Inventors: Tetsuya Muroi; 室井　哲也
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-03-05
Filing date: 1990-03-05
Publication date: 1991-11-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】荻轍欽立本発明は、音声認識装置、より詳細には、音声認識にお
ける照合部に関する。

従」０【際音声パターンの照合方式の１つであるＤＰマツチングは
、計算量が多いという欠点があった。これは、局所距離
、累積距離を計算すべき格子点の数が（入力フレーム数
）　Ｘ　（４ｉ１準パターンのフレーム数）に比例して
いることに起因している。また、圧縮ＤＰという手法も
知られている。これは、格子点の数を減らすのに有効な
方法であるが、音声パターンのどの部分をどれだけ圧縮
するがという決め方が難しい。また、伸縮の制御も複雑
になり、単語によって圧縮率が異なる等の欠点があった
。また、ＨＭＭでは、距離と確率との違いはあるが、格
子点の数が、（入力フレーム数）Ｘ（モデルの状態数）
となり、ＤＰマツチングの格子点と比較して、計算量が
大幅に少なくなっている。

また、状態数が固定であるため、語愈の変更によって演
算量が変化しないなどの利点がある。しかし、ＨＭＭで
は１時間方向の伸＃１（状態遷移の制御）が難しいとい
う欠点があった。また、訓練データが少ないと良質のモ
デルが得にくいという欠点があった。

上記欠点を解決するために、本出願人は、先に、少ない
演算量と少ない標準パターン用メモリーを用いてＮ＊な
音声パターンの照合を行なう音声認識方式について提案
した（特開昭６４−２３２９９号公報）。

上記音声認識方式においては、標準パターンは一定数の
状態の時系列として表現され、各状態ごとに状態を代表
する特徴ベクトルと継続時間が登録してあり、照合時に
は入力ベクトルと標準パターンの特徴ベクトルの距離を
計算し、状態遷移の重みは入カバターンが状態に滞留し
た時間と状態の継続時間とで定められている。

例えば、単語音声認識においては、入力音声パターンの
フレーム数を工、標準パターンの状態数をＮとすると、
２つのパターン間の距離は入力音声パターンの特徴ベク
トルと標準パターンの特徴ベクトルの距離が全部で１回
加算され、状態遷移に関する重み（コスト）が全部でＮ
−１回、もしくはＮ回加算されていることになる。

このため、標準パターンの状態数Ｎが単語ごとに異なる
と、状態遷移に関する重みを加算する回数が異なるため
に単純にパターン間距離を比較することができず、結果
的に全てのＩ！準パターンは等しい状態数を持つ必要が
あった。

止−−ｈ本発明は、上述のごとき実情に鑑みてなされたもので、
標準パターンの状態数が標準パターンごとに異なってい
る場合でも、状態遷移の重みを加算する回数を実質的に
等しくし、精密なパターン照合を可能にすることを目的
としてなされたものである。

構−一」叉本発明は、上記目的を達成するため番こ、入力された音
声信号を特徴ベクトルの時系列に変換する特徴系列変換
部と、特徴ベクトルと継続時間の情報から成る状態の時
系列として表現された標準パターンを格納する標準パタ
ーン格納部と、入力された特徴ベクトルと標準パターン
とを照合する照合部とを具備する音声認識装置において
、照合部３− ４− において標準パターンａの状態ｊの継続時間をＬＩＪ、
入力ベクトルが状態ｊに滞留した時間をｉＩＪとすると
き、状１ｍｊから状態ｊ＋１へ遷移するときのコストを
（ｉｉｊ−Ｌ＊、＋）　２とｉ＋＋の双方に比例したコ
ストにすることを特徴としたものである。以下、本発明
の実施例に基づいて説明する。

第１図は、本発明の一実斃例を説明するためのブロック
図、第２図は、照合部の動作説明をするためのフローチ
ャートで、第１図において、１は音声入力部、２は特徴
系列変換部、３は照合部、４は標準パターン格納部であ
り、また、第２図において、ＵＰは一時的に使用する変
数である。

今、マイクなどの音声入力部１から入力された音声波形
は、特徴系列変換部２で特徴ベクトルの時系列（以下、
入力音声パターンと呼ぶ）に変換される。音声認識に有
用な特徴ベクトルは様々なものが知られており、例えば
、２５０〜６３００Ｈｚに１／３オクターブごとに配置
された１５個のバンドパスフィルター群の出力を音声パ
ワーで正規化したものを用いれば良い。このとき、入力
音声パターンＸは、Ｘ　”　Ｘ□ｘｚ　Ｘａ　−ｘＩ　　　　　　　　　　
（１）（工は入力音声パターンのフレーム数）と表現さ
れる。ここでｘｉは入力音声パターンのｉフレーム目の
特徴ベクトルであり、本実施例では１５次元のベクトル
である。また、フレーム周期はＬＯｒｎｓ程度に設定す
れば良い。

標準パターンは、状態の時系列として標準パターン格納
部に格納されている。単語氾の標準パターンは、Ｎ　（
ｆｌ）個の状態から成り、各状態ｊごとに特徴ベクトル
ｙ、と継続時間り、とが登録されている。

照合部では、第２図に示すように、以下に示す漸化式を
用いて、入力音声パターンＸと単語氾の標準パターンと
の距離Ｄｘｓ　（Ｘ＋　Ｑ）を計算する。

（ｉ　）　Ｄ（１）＝　ｄ　（１，１）　　　　　　　
　　　　　（２）Ｂ（１）＝１　　　　　　　　　　　
　　　　　（３）Ｄ　（ｊ）　＝の（２≦ｊ≦Ｎ（ｎ）
）　　　　　（４）（ｊｊ　）　　ｉ　＝２．３，４．
・・、■についてブロックＡ、ブロックＢを計算。

ブロックＡ：ｊ＝Ｎ（（１）、Ｎ（（２）−１，・・・、２の順で式
（５）　、　（６）を計算。

■のとき、Ｂ（ｊ）＝ｉ　　　　　　　　　　　（６）
ブロックＢ：Ｄ（Ｉン＝　ｄ　　（ｉ、１）＋Ｄ（１）　　　　　　
　　　　　　　　（７）（ｉｉｉ）　Ｄｉｓ（Ｘ、Ｒ）
＝Ｄ（Ｎ（ｎ）＋Ｗ（Ｉ＋１−ＢＮ（Ｑ）、ＬＮ（ｕ）
、ｊ）（８）ここで、Ｄ（ｊ）は累積距離を保持する一時的メモリー
であり、　Ｅ　（ｊ）は、バックポインタを示す一時的
なメモリーである。

また、ｄ（ｉ、ｊ）は、入力音声パターンのｉフレーム
目の特徴ベクトルｘｉと標準パターン氾のｊ状態の特徴
ベクトルｙ、１との距離であり例えばユークリッド距離
を用いればｄ　（ｉ、ｊ）＝　Ｉｆ　Ｘｉ−’ｓ、−Ｉｆ２（９）
となる。また、Ｗは状態遷移の重みを表わしている。式
（５）で■項が採用された場合、このマツチングパスが
ｊ−１状態に滞留した時間１１＋ｊ−１はｉ　−Ｂ　（
ｊ−１）である。

本発明では、状態ｊ−ｊ＋１の遷移の重みを１ｅａ−Ｌ
ｅＪｆとｉ、Ｊの双方に比例した量にするので、式（５
）のようにｊ−１〜ｊの状態遷移の場合には、Ｗ（ｉ−Ｂ（ｊ−１）＋Ｌａ−ｔ、　ｔ）＝Ｗ（ｉ　Ｊ
−Ｌ、　ｒｔＬａ−１，）”Ｗ（ｉ　Ｊ−１，１１ＬＪ
−１，１）２’　ｉ　Ｊ−１，１（１０）（Ｗは定数）とする。

羞−一層以上の説明から明らかなように、本発明の照合部では、
式（１０）のように状態遷移の重みを状態ｊに滞留した
時間ｉ、に比例した量にしている。

このため、式（２）〜（８）に示す漸化式で２つのパタ
ーン間距離を計算した際、見かけ上は、状態遷移の重み
が標準パターンの状態数Ｎ（４）回加算されているが、
実際には、式（１０）右辺第３項がない状態遷移の重み７− Ｗ　（　ｌ　Ｊ−１．　１　　Ｌ　Ｊ−１．　１）が標
準パターンの状態数によらず、入力フレーム数Ｉ＠だけ
加算されている。

このため、単語音声認識においては、標準パターンの状
態数が一定でなくとも正確な評価が行なえるようになる
。そこで、音素数が多く単語パターンの変化が大きいも
のだけ状態数を大きく設定することができ、全体として
効率の良い標準パターン群を構成することができる。

また、本実施例では、単語音声認識装置にて説明したが
、連続音声を音素などの標準パターンを用いて認識する
場合、入力音声の音素数が不明なために異なった状態数
で構成された候補同士の比較をする場合でも、本発明に
よれば正確に距離を比較することができる。

なお、式（１０）では、Ｗを一定の定数にて説明したが
、単語氾，状態ｊごとに固有の値（例えばＬ　Ｊ　ｌの
分散の逆数）に設定することにより一層精密な照合を行
なうことも可能である等の利点がある。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するためのブロック
図、第２図は、照合部の動作説明をするためのフローチ
ャートである。１・・・音声入力部、２・・・特徴系列変換部、３・・
・照合部、４・・・標準パターン格納部。

Claims

【特許請求の範囲】

１、入力された音声信号を特徴ベクトルの時系列に変換
する特徴系列変換部と、特徴ベクトルと継続時間の情報
から成る状態の時系列として表現された標準パターンを
格納する標準パターン格納部と、入力された特徴ベクト
ルと標準パターンとを照合する照合部とを具備する音声
認識装置において、照合部において標準パターンｌの状
態ｊの継続時間をＬ＿ｉ＿ｊ、入力ベクトルが状態ｊに
滞留した時間ｉ＿ｉ＿ｊとするとき、状態ｊから状態ｊ
＋１へ遷移するときのコストを（ｉ＿ｉ＿ｊ−Ｌ＿ｉ＿
ｊ）＾２とｉ＿ｉ＿ｊの双方に比例したコストにするこ
とを特徴とする音声認識装置。