JPH01996A

JPH01996A - ベクトル量子化を用いた音声認識方式

Info

Publication number: JPH01996A
Application number: JP62-156959A
Authority: JP
Inventors: 哲中村; 清宏鹿野
Original assignee: 株式会社　エイ・ティ・ア−ル自動翻訳電話研究所
Filing date: 1987-06-24
Publication date: 1989-01-05
Anticipated expiration: 2009-01-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野層］この発明はベクトル量子化を用いた音声認識方式に関し
、特に、ベクトル量子化を用いたテンプレートマツチン
グによる音声認識方式に関する。

［従来の技術および発明が解決しようとする問題点］自動翻訳電話では、入力として音声が用いられるが、入
力された音声を認識する必要がある。音声認識として、
従来よりベクトル量子化を用いる手法が考えられている
。従来のベクトル量子化を用いた音声認識では、計算量
およびメモリの増加を抑えて認識性能を向上させるべく
、ベクトル量子化に用いるスペクトル歪み尺度の改良が
行なわれ、種々の特徴の組合わせの複合スペクトル歪み
尺度が提案されている。この方法では、スペクトル歪み
尺度に多種の特徴間を混在させ、それらの・間の依存関
係を拘束条件として用い、より認識性能の良い空間へ特
徴を写像するところに意味があった。しかし、この方法
では、次に述べるような大な２つの問題点があった。

■　各特徴間間の依存関係がベクトル量子化のコードブ
ック内で統計的に妥当性を持つためには、非常に多くの
ラーニングサンプルとこのための膨大な計算時間が必要
である。

■　コードブックサイズで見た場合、各特徴に必要なコ
ードブックサイズは特徴間の依存関係を拘束条件にする
ことで減少する。しかし、それでも全体のコードブック
サイズは各特徴に必要なコードブックサイズの積になっ
て、非常に大きくなってしまい、膨大なメモリが必要で
あった。

それゆえに、この発明の主たる目的は、ベクトル量子化
として各特徴ごとに別々にコードブ・ンクを生成し、別
々のベクトル量子化を行なう七ノ（レートベクトル量子
化を用いることにより、従来の問題点を解消し得るベク
トル量子化を用いた音声認識方式を提供することである
。

［問題点を解決するための手段］この発明は、入力音声をベクトル量子化し、ベクトル量
子化によるコード列として格納されている標準パターン
と照合することにより認識を行なう音声認識方式であっ
て、入力音声の特徴の種類に応じて複数のコードブック
を有し、各コードブックについてベクトル量子化を行な
い、求められた複数のコード列を用いて認識を行なうよ
うに構成したものである。

［作用］この発明に係るベクトル量子化を用いた音声認識方式で
は、入力音声の特徴の種類に応じたコードブックについ
てベクトル量子化を行なうことにより、コードブックサ
イズは各特徴に必要なコードブックサイズの和となり、
全体のコードブックサイズを軽減できる。

［発明の実施例］次に、図面を参照して、この発明の実施例についてより
具体的に説明する。

第１図はこの発明の音声認識装置の概略ブロック図であ
る。

第１図において、音声認識装置はアンプ１とローパスフ
ィルタ２とＡ／Ｄ変換器３と処理装置４とから構成され
る。アンプ１は入力された音声信号を増幅するものであ
り、ローパスフィルタ２は増幅された音声信号から折返
し雑音を除去するものである。Ａ／Ｄ変換器３は音声信
号を１２ｋＨ２のサンプリング信号により、１６ビツト
のディジタル信号に変換するものである。処理装置４は
コンピュータ５と磁気ディスク６と端末類７とプリンタ
８とを含む。コンピュータ５はＡ／Ｄ変換器３から入力
された音声のディジタル信号に基づいて音声認識を行な
うものである。

第２図はこの発明の一実施例の音声信号の入力から認識
結果を出力するまでの全体の流れを示すフロー図であり
、第３図はセパレートベクトル量子化の動作を説明する
ためのフロー図であり、第４図はマツチング動作を説明
するためのフロー図である。

次に、第１図ないし第４図を参照して、この発明の一実
施例の動作について説明する。入力された音声信号はア
ンプ１で増幅され、ローパスフィルタ２によって折返し
雑音が除去された後、第２図に示すステップ（図示では
ＳＰと略称する）ＳＰｌにおいて、Ａ／Ｄ変換器３が入
力された音声信号を１６ビツトのディジタル信号に変換
する。

処理装置４のコンピュータ５はステップＳＰ２において
、ディジタル信号に変換された音声の特徴抽出を行なう
。この特徴抽出では、たとえば線形予測分析（ＬＰＧ分
析）などの手法を用いて行なわれる。

ステップＳＰ３において、抽出された音声の特徴がセパ
レートコードブックを参照して、七ノくレートベクトル
量子化される。セパレートコードブックはステップＳＰ
４において、特定話者認識の場合は個人用として、不特
定話者の場合は全話者共通のコードブックとして予め準
備されている。

セパレートベクトル量子化により生成された特徴ごとの
コード列はステップＳＰ５において、既にステップＳＰ
６でコード列として磁気ディスク６に格納されている標
準パターンと照合され、ＤＯｕｂｌｅ　　５ｐｌｉｔ法
によるマツチングが行なわれ、そのマツチング距離がス
テップＳＰ７における結果判定部７に送られる。なお、
ステ・ツブＳＰ６における標準パターンは、不特定話者
認識の場合は予め使用者が認識単語を発声することによ
り作成し、不特定話者認識の場合は、多数の話者が発声
した音声データベースを分析して、代表／くターンをマ
ルチテンプレートとして作成され、磁気ディスク６に格
納されている。ステップＳＰ７における結果判定部では
、認識候補に対して、結果が適切かどうかの判断を行な
い、認識結果を出力する。

次に、第３図を参照して、前述の第２図に示した特徴抽
出およびセパレートベクトル量子化の動作についてより
詳細に説明する。特徴抽出では、ステップ５Ｐ１１にお
いて、１６ビツトのディジタル信号に変換された音声信
号に対して、１４次の自己相関分析によるＬＰＧ分析を
行ない、人力音声の特徴であるパワーと自己相関係数、
ＬＰＣケプストラム係数を抽出する。ステップ５Ｐ１２
において、パワーのコードブック生成であるか否かを判
別し、パワーのコードブック生成であれば、ステップ５
Ｐ１３において、入力音声のパワーをスカラー量子化す
る。スカラー量子化では、不拘−ｍ子化の手法を用い、
パワーコードを生成し、ステップ５Ｐ１４において、生
成したパワーコードブックを磁気ディスク６に格納する
。

パワーコードブックの生成でないとき、すなわち、量子
化時には、ステップ５Ｐ１４におけるパワーコードブッ
クを用いて、５Ｐ１５において量子化を行ない、パワー
に関するコード列を出力する。

一方、ステップ５Ｐ１６において、ＬＰＧ相関係数およ
びＬＰＣケプストラム係数のコードブック生成であるこ
とが判別されると、ステップ５Ｐ１７において、ＬＢＧ
アルゴリズムにより、ＷＬＲ尺度に基づいてコードブッ
クが生成され、ステップ５Ｐ１８において生成されたコ
ードブックが磁気ディスク６に格納される。ここで、Ｌ
ＢＧアルゴリズムについては、Ｌｉｎｄｅ、Ｂｕｚｏ。

Ｇｒａｙ：”Ａｎ　　ａｌｇｏｒｉｔｈｍ　　ｆｏｒＶ
ｅｃｔｏｒ　　Ｑｕａｎｔｉｚａｔｉｏｎ　　Ｄｅｓｉ
ｇｎ”　　ＩＥＥＥ　　Ｃ０Ｍ−２８（１９８０−０１
）に記載されている。また、ＷＬＲ尺度は、音声の特徴
を強調する尺度であり、単語音声の認識において高い性
能を示すものであり、村山、鹿野による“ピークに重み
をおいたＬＰＧスペクトルマツチング尺度“電子通信学
会論文（Ａ）Ｊ６４−Ａ５　（１９８１−０５）に記載
されている。

なお、ＬＰＣ相関係数およびＬＰＣケプストラム係数の
コードブック生成でないとき、すなわち、量子化時には
入力音声の自己相関係数とＬＰＣケプストラム係数に対
し、ステップ５Ｐ１８におけるスペクトルコードブック
を用いて、ステップ５Ｐ１９においてベクトル量子化を
行ない、スペクトル情報に関するコード列を出力する。

ここで、コードブック生成、量子化に用いたスペクトル
歪み尺度は次のものである。

ｄ　　　　−Ｐ／Ｐ’　＋　Ｐ’　／Ｐ−２・・・（１
）ｏｗｅｒｄ　　　　−Σ　（Ｃ（ｎ）−Ｃ’　（ｎ））　（Ｒ（
ｎ）−Ｒ’　（ｎ））ｓｐｅｃｔｒｕｍ・・・（２）ｄ　　　　：パワー項の歪み尺度ｏｗｅｒｄ　　　　ニスベクトル歪み尺度ｓｐｅｃｔｒｕｍＲ（ｎ）　　　　：コードブックのｎ次の自己相関係数
Ｒ’（ｎ）：人力のｎ次の自己相関係数Ｃ（ｎ）　　　
　：コードブックのｎ次のＬＰＣケプストラム係数Ｃ’（ｎ）：入力のｎ次のＬＰＣケプストラム係数前述したように、標準パターン作成時には、このコード
列を標準パターンとして格納し、認識時には標準パター
ンのコード列とのマツチングを行なう。

次に、第４図を参照して、マツチング方法について説明
する。セパレートベクトル量子化により、パワーとスペ
クトルとを別々にベクトル量子化して生成されたコード
列と、コード列として格納されている標準パターンとに
基づいて、ステップ５Ｐ２１において、Ｄｏｕｂｌｅ　
　５ｐｌｉｔ法によるマツチングが行なわれる。ステッ
プ５Ｐ２２における標準パターンには、セパレートベク
トル量子化によりコード化されたパワーおよびスペクト
ルの標準パターンが格納されている。そして、ステップ
５Ｐ２１におけるマツチングにおいては、コード間の距
離はステ、ツブ５Ｐ２３において予め距離マトリクスを
作成しておき、この表びきを行なうことで行なわれる。

このようにして、順番に標準パターンとマツチングして
求めた入力音声と標準パターンとの距離がステップ５Ｐ
２４において出力される。

ここで、上述のマツチング方法について説明すする。従
来のマツチングでは、入力の標準パターンの１つの特徴
列あるいはコード列であったが、セパレートベクトル量
子化では、一般に複数のコード列により構成される。こ
の実施例では、パワーコード列とスペクトルコード列の
２系列のマツチング手法を用いている。パワーとスペク
トルの両方の情報を考えた場合の距離尺度として、ＰＷ
ＬＲ尺度がある。これは次の第（３）式で示されるもの
である。

ｄＰＷＬＩ？−Σ（Ｃ（ｎ）−Ｃ’　（ｎ））（Ｒ（ｎ
）−Ｒ’　（ｎ））＋　ａ・（Ｐ／Ｐ’　＋　Ｐ’　／
Ｐ−２）　　　　　　−（３）ａ讃０，０１従来のＤｏｕｂｌｅ　　５ｐｌｉｔ法によるコード列の
マツチングでは、前述のようにすべての空間がベクトル
量子化され、有限個の点で代表されていることを利用し
て、予めすべての代表点間の距離を求めて距離マトリク
スに格納しておく。したがって、ｄ、ｗＬＲ（ｔ、ｊ）　−Ｄｔ（Ａ（ｔ）、Ｂ（ｊ））
ＤＬ（Ａ（１）、Ｂ（ｊ））一Σ（ＣＫ　（ｎ）−ＣＬ（ｎ））（ＲＫ（ｎ）−ＲＬ
（ｎ））＋　ａ−（ＰＫ／ＰＬ＋　ＰＬ／ＰＫ−２）Ａ
　（ｊ）は、入力音声のｉフレーム目のコード番号Ｂ　（ｊ）は、標準ハターンのｊフレーム目のコード番
号ＤＬ　（Ｋ、Ｌ）は、コードに、Ｌ間の距離を距離マト
リクスから表びきで求めたものに、　　Ｌは、Ａ　（ｊ）　、　　Ｂ　（ｊ）のコード
番号しかし、セパレートベクトル量子化では、２つの系
列を有するので次のような距離を求める。

ｄ［ｐ］［νＬＲ］（１，ｊ） −ＤＬ　　　　（Ａ　　　　（１）、Ｂ　　　　（ｍｓ
ｐｅａｔ　　５ｐｅｃｔ　　　　５ｐｅｃｔ”　”　Ｄ
Ｌｐｏｗｅｒ　（Ａｐｏｗｅｒ　（１）”ｐｏｗｅｒ　
（ｊ））ここで、ＤＬ　　　　　（Ａ　　　　（１）、　Ｂ　　　　（ｊ
））Ｓｐ（ｌｅｔ　　　５ｐｃｃｔ　　　　５ｐｅｃｔ
−Σ（ＣＫ　（ｎ）−ＣＬ　（ｎ））（Ｒｘ　（ｎ）−
ＲＬ（ｎ戸ＤＬ　　　　　（Ａ　　　　　（１）、Ｂ　
　　　　（ｊ））ｐｏｗｅｒ　　　　　ｐｏｗｅｒ　　
　　　　　ｐｏｗｅｒ−Ｐ　　／Ｐ　　＋　Ｐ　Ｌ、　
／Ｐ　、　−２に’　　　　Ｌ’ に、Ｌは、Ａ　　　　（１）、Ｂ　　　　（ｊ）のコー
ド５ｐｅｃｔ　　　　　　５ｐｃｃｔ番号Ｋ　／、ビは、Ａ　　　（１）、Ｂ　　　（ｊ）のｐｏ
ｗｅｒ　　　　　　　　　ｐｏｗｅｒコード番号である。これは、ＰＷＬＲ尺度の第１項と第２項とを別
にコード化して距離を計算し、和を求めたものである。

この局部距離の尺度を用いてＤＰ（ｄｙｎａｍｉｃ　　
ｐｒｏｇｒａｍｍｉｎｇ：動的計画法）マツチングによ
り距離を求める。これによって、非常に高性能なベクト
ル量子化を用いた音声認識を実現することができる。

［発明の効果］以上のように、この発明によれば、入力音声の特徴の種
類に応じて複数のコードブックを有し、各コードブック
についてベクトル量子化を行ない、求められた複数のコ
ード列を用いて認識を行なうようにしたので、各特徴の
依存項を無視でき、ラーニングサンプルも少なくてすみ
、計算量を減少できる。ただし、セパレートすることに
より、別のベクトル量子化系を構成するので、この分だ
け計算量が多少増加するが、ラーニングサンプルが少な
いので、十分計算量を減少できる。また、コードブック
サイズはセバートベクトル量子化では、各特徴に必要な
コードブックサイズの和になるので、全体のコードブッ
クサイズを激減することができる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の概略ブロック図であ
る。第２図はＤｏｕｂｌｅ　　５ｐｌｉｔ法による音声
認識の全体の流れを示すフロー図である。第３図はセパ
レートベクトル量子化の動作を説明するためのフロー図
である。第４図はマツチング動作を説明するためのフロ
ー図である。図において、１はアンプ、２はローパスフィルタ、３は
Ａ／Ｄ変換機、４は処理装置、５はコンピュータ、６は
磁気ディスク、７は端末類、８はプリンタを示す。 −ＪＩ　Ｉｍ＊°＊＊−−−−−＊＋−−ｈｍ＊−−“
°°°°°°°゛°゛°°°°゛°°°゛°°°二第２
図農歴堕第３図入力音声第４図スペクトル　　　パワーコード列　　　　コードＴ／ｌ＋認識結果手続補正内昭和６２年８月１３日

Claims

【特許請求の範囲】入力音声をベクトル量子化し、ベクトル量子化による符
号列として格納されている標準パターンと照合すること
により認識を行なう音声認識方式において、前記入力音声の特徴の種類に応じて、複数のコードブッ
クを有し、各コードブックについてベクトル量子化を行
ない、求められた複数の符号列を用いて認識を行なうよ
うにしたことを特徴とする、ベクトル量子化を用いた音
声認識方式。