JPS60237497A - ベクトル分割量子化を用いた音声認識方法及びその装置 - Google Patents

ベクトル分割量子化を用いた音声認識方法及びその装置

Info

Publication number
JPS60237497A
JPS60237497A JP59093572A JP9357284A JPS60237497A JP S60237497 A JPS60237497 A JP S60237497A JP 59093572 A JP59093572 A JP 59093572A JP 9357284 A JP9357284 A JP 9357284A JP S60237497 A JPS60237497 A JP S60237497A
Authority
JP
Japan
Prior art keywords
pattern
distance
vector
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59093572A
Other languages
English (en)
Other versions
JPH0668677B2 (ja
Inventor
中川 聖一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59093572A priority Critical patent/JPH0668677B2/ja
Publication of JPS60237497A publication Critical patent/JPS60237497A/ja
Publication of JPH0668677B2 publication Critical patent/JPH0668677B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、ベクトル分割量子化を用いた人語霊音声認識
装置に関する。
従来挟末 第1図は、音声認識装置の基本回路図で、図中、1はマ
イクロホン、2は分析部、3は切り換えスイッチ、4は
標準パターン部、5は入力音声パターン部、6は距離計
算部、7は最小値検出部、8は認識結果部で、距離計算
部6及び最小値検出部7でパターンマツチング部を形成
している。第1図において、まず、マイクロホン1から
入ってくる音声を分析してその音声パターンの特徴を認
識するパターンを抽出する。特定話者用のシステムでは
、認識する前に、前もってその話者の各認識対象単語の
分析結果を標準パターンとして登録しておき、認識する
時には、各認識対像単語の標準パターンと入力音声パタ
ーンのパラメータを比較して、最も近い即ち距離の小さ
い認識対象単語を選択する。なお、不特定話者の場合に
は、個人差を吸収できる標準パターンを使用する。
第2図は、帯域通過フィルタ群(B P F)を使用し
た分析法の一例を示す図で、同図は、「3」(/san
/)という音声を16チヤンネルの帯域通過フィルタ群
(全帯域は200〜6000H2)で分析(B P F
分析)したスペクトラムパターンの時間変化図である6
時間軸の一単位は18n+sで、ある時刻で断面をとる
と、それがその時刻でのスペクトラムになっており、実
際の認識処理は、すべてデジタル処理となり、ある時刻
iでの横一列のスペクトラムの強度値を特徴ベクトルa
i(=ai1 a12 a13・・・ai6・・・ai
lB)とし、入力音声パターン(ここでは「3Jの音声
パターン)はA=a1 a2 ・・ai−aI (I=
32)となる。
従って、音声パターンは次のように表現される。
A=a1 a2−ai−aI −・−(1)aiは時刻
iにおける音声の特徴を表す量で、一般にはベクトル値
であり、Aはこの特徴ベクトルa i (i = 1〜
32 (r = 32の場合)〕の時系列になり、■は
音声パターンAの長さに相当する。
また、ベクトルaiを特徴ベクトルと呼び、a i= 
(ai4 、 ai2−aiq −aiQ) −(2)
で表わす。Qはベクトルの次数で、第2図の例では帯過
帯域フィルタ群のチャンネる数16に相当する。
同様に単語nの標準パターンをBnとし、Bn=J ’
 b2 ’ −bj’ −bJn’ −(3)で表わす
。この時、bjnは単語nの標準パターンの時刻jにお
ける特徴ベクトルで、前記入カバターンAの特徴ベクト
ルaiと同次数である。また、Joは単語nの標準パタ
ーンの長さを表わし、nは単語名を示す通し番号で、N
単語の認識単語セットを考えてΣとすると、 Σ= (n l n=1.2=・N) ・・−・(4)
となる。ただし、特定の単語を指定する必要がない場合
は添え字nを省略して、 B=b1 b2・・・bj・・・bJ ・・・・・・(
5)bJ= (bjl、 bJ2 、・・bJ8・・・
b jQ) ・・・(6)となる。
音声認識処理では、入カバターンAについて認識単語セ
ットのすべての単語の標準パターンBnを時間正規化し
ながらパターンマツチングし、N単語の中から最も入カ
バターンAに近い単語nを探し出す。
第3図は、時間正規化のための写像モデルで、これは、
前記例で言えば「3」という単語の標準パターンBを写
像関数によって入カバターンの時間軸に揃えるもので、
通常、前記写像関数を。
j=j(i) ・・・・・・(7) で表現し、これを歪関数と呼んでいる。
この歪関数が既知であれば、標準パターンBの時間軸を
第(7)式によって変換して入カバターンAの時間軸i
に揃えることができるが、実際には、この歪関数lよ未
知であり、そのため、一方のパターンを人工的に歪ませ
て他方のパターンに最も類似するようにしてすなわち距
離を最小にして最適な歪関数を定めるようにしている。
第4図は、上記原理を実行するためのDPマツチング法
の一例を説明するための図で、今、標準パターンBの時
間軸を歪ます関数として歪関数j(i)を考えると、こ
の歪関数j (i)によってパターンBは次のようなパ
ターンB′に変換される。
B’ ”bj(t ) bj(2)・・・bj(i)・
・・bj(I) ・・・(8)上記歪関数には、実際の
音声パターンの時間歪現像を考慮して、例えば、 (イ)、j (i)は(近似的に)単調増加関数−(ロ
)、j (i)は(近似的に)連続関数。
(ハ)、j (i)はiの近傍の値をとる。
等の条件を加えるが、これらの条件を満たす歪関数はほ
とんど無限に存在するが、その中で、B′が入カバター
ンAに最も類似するすなわち距離が最も小さくなるよう
な歪関数j (i)を定める。このためには、まず、標
準パターンBの時間軸を歪関数j (i)で入カバター
ンAのi軸上に写像してパターンB′を得るが、この時
、パターンAとパターンB′の距離を最小にするような
歪関数j(1)が最適な歪関数である。この入カバター
ンAと写像パターンB′の距離は、 ■ Σ II ai −bj(i) II ・・−・(9)
1=1 で表わされる。ここで、l111は2つのベクトルの距
離を示す。そして、上記(9)式の距離の最小化問題は
、 ■ j=j(i) 1=1 j”j(i) i=1 q=1 で定義される。一般に、D (A、B)を時間正規化距
離又はパターン間距離と呼び、d (11j)はベクト
ルaiとbjとの距離で、通常、ベクトル間距離と呼ん
でいる。
第5図は、第4図に示した(i、j)平面を抽象化して
格子状平面にし、各格子点についてその座標(i、j)
に対応するベクトル間距離d (i。
j)をめるようにしたもので、前記第(1o)式をこの
平面上で考えると、(1,1)から始めて(I、J)に
至る最適な経路(パス)を探していくことになるが、こ
の場合、i−1の状態がらiの状態へ移るパスは図示の
通り3通りに制限することが多い。なお、整合窓は極端
な時間歪を起こさないようにするためのもので、該整合
窓になって時間正規化に関する前記3つの条件(イ)〜
(ハ)の満たしている。ここで、今、i=1.2・・■
のそれぞれのiにおいて、次にどの状態のjに移るべき
かの制御を最適に行い、第(1o)式の評価関数を最小
にする場合を考えると、初期条件は、 g (1,1)=d (1,1) ・・・・・(12)
漸化式は、 パターン間距離は、 D (A、B)=g (I、J) ・・・・・・(14
)となり、前記(13)式の計算は、第5図の格子点を
(i、j)の増加するたどって行うことになる。すなわ
ち、g(i、j)は(1,1)点がら(i、」)点に至
るまでの距離和を最小にしたもので、第(13)式は、
第(i−1)段のj。
(j−1) 、(j−2)についてすでにまっているg
 (+ It j)! g (11+ j 1)+g 
(i−1,j−2)を基に、第1段の状態jにおけるg
(+、j)をめるものである。
第6図は、上述DPマツチング処理を実行するプロセッ
サのブロック線図で、図中、JlはAメモリ、12はB
メモリ、13はd(+、j)計算部、14はg (i+
 j)計算部、15はG(j)メモリ、16は制御部で
、d (++ j)計算部13でaiとbiのベクトル
間距離を計算し、g(1+j)計算部14で(i、j)
に至る最短距離g(i、j)を算出し、これらを並行処
理する。g(l l J) ; J =T〜Jを計算す
る時はG(j)メモリ15にg (111jJ : J
 =1〜Jが入っている。また、minはglとg2の
小さい方を検出し、小さい方の値をgに入れる。
面して、上記DPマツチング法による時は、第(13)
式の1項から明らかなように、整合窓を設けないものと
すれば、少なくともIXJXN(ただしNは登録単語数
)回の計算を必要とする。
上記DP法による距離計算量を削減するために擬音韻単
位をとるスプリット法が提案されているが、このスプリ
ット法は、入力音声のそれぞれのフレームの距離計算を
予め有限個(K個とする)の擬音韻(コードブック)と
の間だけで行ってマトリックスの形で蓄えておき、DP
マツチングの際には、単にマトリックスを検索すればよ
いようにして距離の割算量を減らしたものである。この
スプリット法でベクトル量子化が行われるのは、単語標
準パターンのみであり、入力音声に対してはベクトル量
子化は適用されていない。而して。
このスプリット法では、入力音声の分析フレームと予め
蓄えられた擬音韻(ベクトル)との距離マトリックスを
作成するが、この距離マトリックスは、横軸が入力音声
のフレーム番号となり、縦軸が擬音韻(ベクトル)番号
となっており、この距離マトリックスを参照してベクト
ル番号系列として蓄えられている標準パターンと入力音
声とのDPマツチングを行う。
第7図は、スプリット法に基づく、認識システムの一例
を示すブロック図で、図中、20は入力部、21は分析
部、22はベクトル間距離テーブル、23は擬音韻標準
パターン(コードブックともいう)、24は単語辞書記
憶部、25はDPマツチング部、26は単語同定部であ
る。
入力音声20を分析部21でスペクトル分析し、各フレ
ームごとに、前記擬音韻標準パターン23との距離を計
算して前記距離テーブル22を作成する。前記入力音声
フレームと単語辞書24とのマツチングをDPマツチン
グ25によって行ない最小距離パターンを有する単語を
単語同定部26にて認識結果として出力する。このスプ
リット法によってベクトル間距離の計算回数はIXKと
なりベクトル量子化しない従来の方法(IXJXK)と
比へと大幅に減少する。
目 的 本発明は、特徴ベクトルをベクトル量子化するスプリッ
ト法による音声認識装置において、標準パターン並びに
入カバターンベクトルを分割することによってパターン
マツチングの際に必要な計算量をスプリット法よりもさ
らに減少させ、もって認識速度の向上を図ることを目的
としてなされたものである。
捧−一戊 本発明の構成について、以下、一実施例に基づいて説明
する。
第8図は、本発明の一実施例を説明するための構成図で
、ベクトル分割数を2にしたときのものであり、図中、
23aは2分割された一方の擬音間標準パターン、23
bは他方の擬音間標準パターン、22aは前記標準パタ
ーン23aに対応するベクトル間距離テーブル、22b
は前記標準パターン23)+に対応するベグ1−ル間距
離テーブル、24は2分割された前記23aと23bの
擬音間標準パターンのベクトルナンバーシーケンスから
構成される単語辞書記憶部、25a、25bは各々前記
22a、22bの距離テーブルを引用するDPマツチン
グ部である。入力音声20を分析部21でスペクトル分
析し、各入力フレームベクトルを2分割したものを各々
前記標準パターン230゜23bとの距離を計算し、前
記距離テーブル22a、22bをそれぞれ作成する。前
記入力音声フレームと単語辞書24とのマツチングを前
記分割ベクトル単位に行ない、加算後、DPマツチング
部25aおよび25bにてマツチングを行ない。
最小距離パターンを有する単語を単語同定部26にて認
識結果として出力する。
倭−一米 以上の説明から、本発明によると、ベクトル分割を行な
うことにより、擬音間標準パターンの大きさを削減でき
、したがって、ベクトル間距離の計算量を従来のスプリ
ット法に比べてさらに減少させ、認識速度の向上を図る
ことができる。
【図面の簡単な説明】
第1図は、音声認識装置の基本構成図、第2図は、音声
分析の一例を示す図、第3図は、時間正規化のための写
像モデル、第4図は、歪関数による時間正規化図、第5
図は、時間正規化を行うための格子状平面図、第6図は
、DPマツチング処理を行うプロセッサのブロック線図
、第7図は、スフリット法の一例を説明するためのブロ
ック図、第8図は、本発明による音声認識装置の一実施
例を説明するための構成図である。 20・・・入力部、21・・・分析部、22,22a、
’22b・・・ベクトル間距離テーブル、23,23a
。 23b・・擬音間標準パターン、24 ・単語辞書記憶
部、25,25a、25b・・・DPマツチング部、2
6・・単語同定部。 第1図 第2図 第3図 秤卑lで7−ンB 第4図 s −a−m−±1゜ 第5図 第6図 第7図 (JLIIビLJ’1 第8図

Claims (1)

    【特許請求の範囲】
  1. 特徴ベクトルをベクトル量子化するスプリット法による
    音声認識装置において、標準パターン並びに入カバター
    ンベクトルを分割したことを特徴とする音声認識装置。
JP59093572A 1984-05-10 1984-05-10 ベクトル分割量子化を用いた音声認識方法及びその装置 Expired - Lifetime JPH0668677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59093572A JPH0668677B2 (ja) 1984-05-10 1984-05-10 ベクトル分割量子化を用いた音声認識方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59093572A JPH0668677B2 (ja) 1984-05-10 1984-05-10 ベクトル分割量子化を用いた音声認識方法及びその装置

Publications (2)

Publication Number Publication Date
JPS60237497A true JPS60237497A (ja) 1985-11-26
JPH0668677B2 JPH0668677B2 (ja) 1994-08-31

Family

ID=14085968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59093572A Expired - Lifetime JPH0668677B2 (ja) 1984-05-10 1984-05-10 ベクトル分割量子化を用いた音声認識方法及びその装置

Country Status (1)

Country Link
JP (1) JPH0668677B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56168696A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5763600A (en) * 1980-10-03 1982-04-17 Nippon Telegraph & Telephone Word voice recognizing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56168696A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5763600A (en) * 1980-10-03 1982-04-17 Nippon Telegraph & Telephone Word voice recognizing system

Also Published As

Publication number Publication date
JPH0668677B2 (ja) 1994-08-31

Similar Documents

Publication Publication Date Title
JPS58129684A (ja) パタ−ン認識装置
JPS5972496A (ja) 単音識別装置
JP2980026B2 (ja) 音声認識装置
JPS60211498A (ja) 連続音声認識装置
JPS6152479B2 (ja)
JPS60237497A (ja) ベクトル分割量子化を用いた音声認識方法及びその装置
JPS5855520B2 (ja) レンゾクオンセイニンシキソウチ
JP3011997B2 (ja) 参照ベクトル更新方法
JPS6170595A (ja) 音声認識方式
JPS592954B2 (ja) パタンルイジドケイサンソウチ
JPS58149099A (ja) パタ−ン認識方式
JPS62229197A (ja) 数字音声認識装置
JPH0436400B2 (ja)
JPH0634186B2 (ja) 音声認識方法及びその装置
JPS6346496A (ja) 音声認識装置
JPS59127098A (ja) 連続単語音声認識装置
JPH04109300A (ja) 衝撃音識別装置
JPS63188199A (ja) パタンマッチング装置
JPS5876892A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPS63192098A (ja) 音声認識における標準パタ−ン作成装置
JPS60208800A (ja) 単語音声認識装置
JPS5977500A (ja) 単語音声認識方式
JPS62111295A (ja) 音声認識装置
JPS58142400A (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term