JPS60237497A

JPS60237497A - ベクトル分割量子化を用いた音声認識方法及びその装置

Info

Publication number: JPS60237497A
Application number: JP59093572A
Authority: JP
Inventors: 中川　聖一
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-05-10
Filing date: 1984-05-10
Publication date: 1985-11-26
Anticipated expiration: 2009-08-31
Also published as: JPH0668677B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、ベクトル分割量子化を用いた人語霊音声認識
装置に関する。

従来挟末第１図は、音声認識装置の基本回路図で、図中、１はマ
イクロホン、２は分析部、３は切り換えスイッチ、４は
標準パターン部、５は入力音声パターン部、６は距離計
算部、７は最小値検出部、８は認識結果部で、距離計算
部６及び最小値検出部７でパターンマツチング部を形成
している。第１図において、まず、マイクロホン１から
入ってくる音声を分析してその音声パターンの特徴を認
識するパターンを抽出する。特定話者用のシステムでは
、認識する前に、前もってその話者の各認識対象単語の
分析結果を標準パターンとして登録しておき、認識する
時には、各認識対像単語の標準パターンと入力音声パタ
ーンのパラメータを比較して、最も近い即ち距離の小さ
い認識対象単語を選択する。なお、不特定話者の場合に
は、個人差を吸収できる標準パターンを使用する。

第２図は、帯域通過フィルタ群（Ｂ　Ｐ　Ｆ）を使用し
た分析法の一例を示す図で、同図は、「３」（／ｓａｎ
／）という音声を１６チヤンネルの帯域通過フィルタ群
（全帯域は２００〜６０００Ｈ２）で分析（Ｂ　Ｐ　Ｆ
分析）したスペクトラムパターンの時間変化図である６
時間軸の一単位は１８ｎ＋ｓで、ある時刻で断面をとる
と、それがその時刻でのスペクトラムになっており、実
際の認識処理は、すべてデジタル処理となり、ある時刻
ｉでの横一列のスペクトラムの強度値を特徴ベクトルａ
ｉ（＝ａｉ１　ａ１２　ａ１３・・・ａｉ６・・・ａｉ
ｌＢ）とし、入力音声パターン（ここでは「３Ｊの音声
パターン）はＡ＝ａ１　ａ２　・・ａｉ−ａＩ　（Ｉ＝
３２）となる。

従って、音声パターンは次のように表現される。

Ａ＝ａ１　ａ２−ａｉ−ａＩ　−・−（１）ａｉは時刻
ｉにおける音声の特徴を表す量で、一般にはベクトル値
であり、Ａはこの特徴ベクトルａ　ｉ　（ｉ　＝　１〜
３２　（ｒ　＝　３２の場合）〕の時系列になり、■は
音声パターンＡの長さに相当する。

また、ベクトルａｉを特徴ベクトルと呼び、ａ　ｉ＝　
（ａｉ４　、　ａｉ２−ａｉｑ　−ａｉＱ）　−（２）
で表わす。Ｑはベクトルの次数で、第２図の例では帯過
帯域フィルタ群のチャンネる数１６に相当する。

同様に単語ｎの標準パターンをＢｎとし、Ｂｎ＝Ｊ　’
　ｂ２　’　−ｂｊ’　−ｂＪｎ’　−（３）で表わす
。この時、ｂｊｎは単語ｎの標準パターンの時刻ｊにお
ける特徴ベクトルで、前記入カバターンＡの特徴ベクト
ルａｉと同次数である。また、Ｊｏは単語ｎの標準パタ
ーンの長さを表わし、ｎは単語名を示す通し番号で、Ｎ
単語の認識単語セットを考えてΣとすると、 Σ＝　（ｎ　ｌ　ｎ＝１．２＝・Ｎ）　・・−・（４）
となる。ただし、特定の単語を指定する必要がない場合
は添え字ｎを省略して、Ｂ＝ｂ１　ｂ２・・・ｂｊ・・・ｂＪ　・・・・・・（
５）ｂＪ＝　（ｂｊｌ、　ｂＪ２　、・・ｂＪ８・・・
ｂ　ｊＱ）　・・・（６）となる。

音声認識処理では、入カバターンＡについて認識単語セ
ットのすべての単語の標準パターンＢｎを時間正規化し
ながらパターンマツチングし、Ｎ単語の中から最も入カ
バターンＡに近い単語ｎを探し出す。

第３図は、時間正規化のための写像モデルで、これは、
前記例で言えば「３」という単語の標準パターンＢを写
像関数によって入カバターンの時間軸に揃えるもので、
通常、前記写像関数を。

ｊ＝ｊ（ｉ）　・・・・・・（７）で表現し、これを歪関数と呼んでいる。

この歪関数が既知であれば、標準パターンＢの時間軸を
第（７）式によって変換して入カバターンＡの時間軸ｉ
に揃えることができるが、実際には、この歪関数ｌよ未
知であり、そのため、一方のパターンを人工的に歪ませ
て他方のパターンに最も類似するようにしてすなわち距
離を最小にして最適な歪関数を定めるようにしている。

第４図は、上記原理を実行するためのＤＰマツチング法
の一例を説明するための図で、今、標準パターンＢの時
間軸を歪ます関数として歪関数ｊ（ｉ）を考えると、こ
の歪関数ｊ　（ｉ）によってパターンＢは次のようなパ
ターンＢ′に変換される。

Ｂ’　”ｂｊ（ｔ　）　ｂｊ（２）・・・ｂｊ（ｉ）・
・・ｂｊ（Ｉ）　・・・（８）上記歪関数には、実際の
音声パターンの時間歪現像を考慮して、例えば、（イ）、ｊ　（ｉ）は（近似的に）単調増加関数−（ロ
）、ｊ　（ｉ）は（近似的に）連続関数。

（ハ）、ｊ　（ｉ）はｉの近傍の値をとる。

等の条件を加えるが、これらの条件を満たす歪関数はほ
とんど無限に存在するが、その中で、Ｂ′が入カバター
ンＡに最も類似するすなわち距離が最も小さくなるよう
な歪関数ｊ　（ｉ）を定める。このためには、まず、標
準パターンＢの時間軸を歪関数ｊ　（ｉ）で入カバター
ンＡのｉ軸上に写像してパターンＢ′を得るが、この時
、パターンＡとパターンＢ′の距離を最小にするような
歪関数ｊ（１）が最適な歪関数である。この入カバター
ンＡと写像パターンＢ′の距離は、 ■ Σ　ＩＩ　ａｉ　−ｂｊ（ｉ）　ＩＩ　・・−・（９）
１＝１で表わされる。ここで、ｌ１１１は２つのベクトルの距
離を示す。そして、上記（９）式の距離の最小化問題は
、 ■ ｊ＝ｊ（ｉ）　１＝１ｊ”ｊ（ｉ）　ｉ＝１　ｑ＝１で定義される。一般に、Ｄ　（Ａ、Ｂ）を時間正規化距
離又はパターン間距離と呼び、ｄ　（１１ｊ）はベクト
ルａｉとｂｊとの距離で、通常、ベクトル間距離と呼ん
でいる。

第５図は、第４図に示した（ｉ、ｊ）平面を抽象化して
格子状平面にし、各格子点についてその座標（ｉ、ｊ）
に対応するベクトル間距離ｄ　（ｉ。

ｊ）をめるようにしたもので、前記第（１ｏ）式をこの
平面上で考えると、（１，１）から始めて（Ｉ、Ｊ）に
至る最適な経路（パス）を探していくことになるが、こ
の場合、ｉ−１の状態がらｉの状態へ移るパスは図示の
通り３通りに制限することが多い。なお、整合窓は極端
な時間歪を起こさないようにするためのもので、該整合
窓になって時間正規化に関する前記３つの条件（イ）〜
（ハ）の満たしている。ここで、今、ｉ＝１．２・・■
のそれぞれのｉにおいて、次にどの状態のｊに移るべき
かの制御を最適に行い、第（１ｏ）式の評価関数を最小
にする場合を考えると、初期条件は、ｇ　（１，１）＝ｄ　（１，１）　・・・・・（１２）
漸化式は、パターン間距離は、Ｄ　（Ａ、Ｂ）＝ｇ　（Ｉ、Ｊ）　・・・・・・（１４
）となり、前記（１３）式の計算は、第５図の格子点を
（ｉ、ｊ）の増加するたどって行うことになる。すなわ
ち、ｇ（ｉ、ｊ）は（１，１）点がら（ｉ、」）点に至
るまでの距離和を最小にしたもので、第（１３）式は、
第（ｉ−１）段のｊ。

（ｊ−１）　、（ｊ−２）についてすでにまっているｇ
　（＋　Ｉｔ　ｊ）！　ｇ　（１１＋　ｊ　１）＋ｇ　
（ｉ−１，ｊ−２）を基に、第１段の状態ｊにおけるｇ
（＋、ｊ）をめるものである。

第６図は、上述ＤＰマツチング処理を実行するプロセッ
サのブロック線図で、図中、ＪｌはＡメモリ、１２はＢ
メモリ、１３はｄ（＋、ｊ）計算部、１４はｇ　（ｉ＋
　ｊ）計算部、１５はＧ（ｊ）メモリ、１６は制御部で
、ｄ　（＋＋　ｊ）計算部１３でａｉとｂｉのベクトル
間距離を計算し、ｇ（１＋ｊ）計算部１４で（ｉ、ｊ）
に至る最短距離ｇ（ｉ、ｊ）を算出し、これらを並行処
理する。ｇ（ｌ　ｌ　Ｊ）　；　Ｊ　＝Ｔ〜Ｊを計算す
る時はＧ（ｊ）メモリ１５にｇ　（１１１ｊＪ　：　Ｊ
　＝１〜Ｊが入っている。また、ｍｉｎはｇｌとｇ２の
小さい方を検出し、小さい方の値をｇに入れる。

面して、上記ＤＰマツチング法による時は、第（１３）
式の１項から明らかなように、整合窓を設けないものと
すれば、少なくともＩＸＪＸＮ（ただしＮは登録単語数
）回の計算を必要とする。

上記ＤＰ法による距離計算量を削減するために擬音韻単
位をとるスプリット法が提案されているが、このスプリ
ット法は、入力音声のそれぞれのフレームの距離計算を
予め有限個（Ｋ個とする）の擬音韻（コードブック）と
の間だけで行ってマトリックスの形で蓄えておき、ＤＰ
マツチングの際には、単にマトリックスを検索すればよ
いようにして距離の割算量を減らしたものである。この
スプリット法でベクトル量子化が行われるのは、単語標
準パターンのみであり、入力音声に対してはベクトル量
子化は適用されていない。而して。

このスプリット法では、入力音声の分析フレームと予め
蓄えられた擬音韻（ベクトル）との距離マトリックスを
作成するが、この距離マトリックスは、横軸が入力音声
のフレーム番号となり、縦軸が擬音韻（ベクトル）番号
となっており、この距離マトリックスを参照してベクト
ル番号系列として蓄えられている標準パターンと入力音
声とのＤＰマツチングを行う。

第７図は、スプリット法に基づく、認識システムの一例
を示すブロック図で、図中、２０は入力部、２１は分析
部、２２はベクトル間距離テーブル、２３は擬音韻標準
パターン（コードブックともいう）、２４は単語辞書記
憶部、２５はＤＰマツチング部、２６は単語同定部であ
る。

入力音声２０を分析部２１でスペクトル分析し、各フレ
ームごとに、前記擬音韻標準パターン２３との距離を計
算して前記距離テーブル２２を作成する。前記入力音声
フレームと単語辞書２４とのマツチングをＤＰマツチン
グ２５によって行ない最小距離パターンを有する単語を
単語同定部２６にて認識結果として出力する。このスプ
リット法によってベクトル間距離の計算回数はＩＸＫと
なりベクトル量子化しない従来の方法（ＩＸＪＸＫ）と
比へと大幅に減少する。

目　的本発明は、特徴ベクトルをベクトル量子化するスプリッ
ト法による音声認識装置において、標準パターン並びに
入カバターンベクトルを分割することによってパターン
マツチングの際に必要な計算量をスプリット法よりもさ
らに減少させ、もって認識速度の向上を図ることを目的
としてなされたものである。

捧−一戊本発明の構成について、以下、一実施例に基づいて説明
する。

第８図は、本発明の一実施例を説明するための構成図で
、ベクトル分割数を２にしたときのものであり、図中、
２３ａは２分割された一方の擬音間標準パターン、２３
ｂは他方の擬音間標準パターン、２２ａは前記標準パタ
ーン２３ａに対応するベクトル間距離テーブル、２２ｂ
は前記標準パターン２３）＋に対応するベグ１−ル間距
離テーブル、２４は２分割された前記２３ａと２３ｂの
擬音間標準パターンのベクトルナンバーシーケンスから
構成される単語辞書記憶部、２５ａ、２５ｂは各々前記
２２ａ、２２ｂの距離テーブルを引用するＤＰマツチン
グ部である。入力音声２０を分析部２１でスペクトル分
析し、各入力フレームベクトルを２分割したものを各々
前記標準パターン２３０゜２３ｂとの距離を計算し、前
記距離テーブル２２ａ、２２ｂをそれぞれ作成する。前
記入力音声フレームと単語辞書２４とのマツチングを前
記分割ベクトル単位に行ない、加算後、ＤＰマツチング
部２５ａおよび２５ｂにてマツチングを行ない。

最小距離パターンを有する単語を単語同定部２６にて認
識結果として出力する。

倭−一米以上の説明から、本発明によると、ベクトル分割を行な
うことにより、擬音間標準パターンの大きさを削減でき
、したがって、ベクトル間距離の計算量を従来のスプリ
ット法に比べてさらに減少させ、認識速度の向上を図る
ことができる。

【図面の簡単な説明】

第１図は、音声認識装置の基本構成図、第２図は、音声
分析の一例を示す図、第３図は、時間正規化のための写
像モデル、第４図は、歪関数による時間正規化図、第５
図は、時間正規化を行うための格子状平面図、第６図は
、ＤＰマツチング処理を行うプロセッサのブロック線図
、第７図は、スフリット法の一例を説明するためのブロ
ック図、第８図は、本発明による音声認識装置の一実施
例を説明するための構成図である。２０・・・入力部、２１・・・分析部、２２，２２ａ、
’２２ｂ・・・ベクトル間距離テーブル、２３，２３ａ
。２３ｂ・・擬音間標準パターン、２４　・単語辞書記憶
部、２５，２５ａ、２５ｂ・・・ＤＰマツチング部、２
６・・単語同定部。第１図第２図第３図秤卑ｌで７−ンＢ第４図ｓ　−ａ−ｍ−±１゜第５図第６図第７図（ＪＬＩＩビＬＪ’１第８図

Claims

【特許請求の範囲】

特徴ベクトルをベクトル量子化するスプリット法による
音声認識装置において、標準パターン並びに入カバター
ンベクトルを分割したことを特徴とする音声認識装置。