JPH0552512B2 - - Google Patents
Info
- Publication number
- JPH0552512B2 JPH0552512B2 JP19465683A JP19465683A JPH0552512B2 JP H0552512 B2 JPH0552512 B2 JP H0552512B2 JP 19465683 A JP19465683 A JP 19465683A JP 19465683 A JP19465683 A JP 19465683A JP H0552512 B2 JPH0552512 B2 JP H0552512B2
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- supplied
- signal
- parameter
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
産業上の利用分野
本発明は不特定話者を対象とした音声認識装置
に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 これに対して音韻(日本語でいえばローマ文表
記したときのA,I,U,E,O,K,S,T
等)あるいは音節(KA,KI,KU等)単位での
認識を行うことが提案されている。しかしこの場
合に、母音等の準定常部を有する音韻の認識は容
易であつても、破裂音(K,T,P等)のように
音韻的特徴が非常に短いものを音響パラメータの
みで一つの音韻に特定することは極めて困難であ
る。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いずれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。 ところで音韻の発声現象を観察すると、母音や
摩擦音(S,H等)等の音韻は長く伸して発声す
ることができる。例えば“はい”という発声を考
えた場合に、この音韻は第1図Aに示すように、
「無音→H→A→I→無音」に変化する。これに
対して同じ“はい”の発声を第1図Bのように行
うこともできる。ここでH,A,Iの準定常部の
長さは発声ごとに変化し、これによつて時間軸の
変動を生じる。ところがこの場合に、各音韻間の
過渡部(斜線で示す)は比較的時間軸の変動が少
いことが判明した。 そこで本願発明者は先にこの点に着目して以下
のような装置を提案した。 第2図において、マイクロフオン1に供給され
た音声信号がマイクアンプ2、5.5kHz以下のロー
パスフイルタ3を通じてAD変換回路4に供給さ
れる。またクロツク発生器5からの12.5kHz
(80μsec間隔)のサンプリングクロツクがAD変
換回路4に供給され、このタイミングで音声信号
がそれぞれ所定ビツト数(=1ワード)のデジタ
ル信号に変換される。 このデジタル信号が、周波数分析用のバンドパ
スフイルタ61,62……630に供給され、人間の
聴覚特性に合せた周波数メルスケールに応じて例
えば30の帯域に分割される。この分割された各帯
域の信号がエンフアシス回路71,72……730に
供給され、人間の聴覚特性に合せた高域増強が行
われる。この信号が絶対値回路81,82……830
に供給されて一極性とされ、平均値回路91,92
……930に供給されて信号の包絡線が取り出され
る。 この信号が対数回路101,102……1030に
供給され、各信号の対数値に変換される。これに
よつて上述のエンフアシス回路71,72……730
での重み付け等による冗長度が排除される。ここ
で、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UnfT(t) ……(1) としたとき、これを周波数分析して、対数を取つ
た対数パワースペクトル log|U2nfT(f)| ……(2) をスペクトルパラメータx(i)(i=0,1……29)
と称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路11に供給される。ここで
このDFT回路11において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1……M−1)を2M−1
点の実数対称パラメータとみなして2M−2点の
DFTを行う。従つて X(n)=2M-3 〓i=0 x(i)Wmi 2M-2 ……(3) 但しWmi 2M-2=e−j(2π・i・m/2M−2) m=0,1,……2M−3 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2π・i・m/2M−2) =cosπ・i・m/M−1 となり、これらより X(n)=2M-3 〓i=0 x(i) cosπ・i・m/M−1 ……(4) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトルラムパ
ラメータx(i)について、0〜P−1(例えばP=
8)次までのP次元の値を取り出し、これをロー
カルパラメータL(p)(p=0,1……P−1)とす
ると L(p)=2M-3 〓i=0 x(i) cosπ・i・p/M−1 ……(5) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M−i−2) とおくと、ローカルパラメータL(p)は L(p)=x(〓)+M-2 〓 〓i=1 x(i){cosπ・i・m/M−1+cosπ・(2M−2−
i)・p/M−1}+x(M-1)cosπ・p/M−1 但し、p=0,1……P−1 となる。このようにして30ワードの信号がP(例
えば8)ワードに圧縮される。 このローカルパラメータL(p)がメモリ装置12に
供給される。このメモリ装置12は1行Pワード
の記憶部が例えば83行マトリクス状に配されたも
ので、ローカルパラメータL(p)が各次元ごとに順
次記憶されると共に、上述のクロツク発生器5か
らの0.96msec間隔のクロツクが供給されて、各
行のパラメータが順次横方向へシフトされる。こ
れによつてメモリ装置12には0.96msec間隔の
P次元のローカルパラメータL(p)が83ポイント
(79.68msec)分記憶され、クロツクごとに順次
新しいパラメータに更新される。 さらに音声過渡点検出回路20が以下のように
構成される。すなわち平均値回路91〜930から
のそれぞれの帯域の信号の量に応じた信号V(o)
(n=0,1……29)がバイアス付き対数回路2
11,212……2130に供給されて v′(o)=log(V(o)+B) ……(7) が形成される。また信号V(o)が累算平均回路22
に供給されて Va=30 〓n=1 V(o)/30 が形成され、この信号Vaが対数回路21xに供
給されて v′a=log(Va+B) ……(8) が形成される。そしてこれらの信号が演算回路2
3に供給されて v(o)=v′a−v′(o) ……(9) が形成される。 ここで上述のような信号V(o)を用いることによ
り、この信号は音韻から音韻への変化に対して各
次(n=0,1……29)の変化が同程度となり、
音韻の種類による変化量のばらつきを回避でき
る。また対数をとり演算を行つて正規化パラメー
タv(o)を形成したことにより、入力音声のレベル
の変化によるパラメータv(o)の変動が排除される。
さらにバイアスBを加算して演算を行つたことに
より、仮りにB→∞とするとパラメータv(o)→0
となることから明らかなように、入力音声の微少
成分(ノイズ等)に対する感度を下げることがで
きる。 このパラメータv(o)がメモリ装置24に供給さ
れて2w+1(例えば57)ポイント分が記憶され
る。この記憶された信号が演算回路25に供給さ
れて Yn,t=min I∈GFt {v(o)(I)} ……(10) 但し GFt={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路26に供給されて T(t)=N-1 〓n=0 w 〓I=-w (v(o)(I+t)−Yn,t) ……(11) が形成される。このTtが過渡点検出パラメータ
であつて、このTtがピーク判別回路27に供給
されて、入力音声信号の音韻の過渡点が検出され
る。 ここでパラメータTtが、ポイントtを挾んで
前後wポイントずつで定義されているので、不要
な凹凸や多極を生じるおそれがない。なお第3図
は例えば“ゼロ”という発声を、サンプリング周
波数12.5kHz、12ビツトデジタルデータとし、ポ
イント間隔=0.96msec、帯域数N=30、バイア
スB=0、検出ポイント数2W+1=57で上述の
検出を行つた場合を示している。図中Aは音声波
形、Bは音韻、Cは検出信号であつて、「無音→
Z」「Z→E」「E→R」「R→O」「O→無音」の
各過渡部で顕著なピークを発生する。ここで無音
部にノイズによる多少の凹凸が形成されるがこれ
はバイアスBを大きくすることにより破線図示の
ように略0になる。 この過渡点検出信号T(t)がメモリ装置12に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が42番目の行にシフトされ
た時点でメモリ装置12の読み出しが行われる。
ここでメモリ装置12の読み出しは、各次元Pご
とに83ポイント分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路13に
供給される。 この回路13において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータK(p,q)
(p=0,1……P−1)(q=0,1……Q−
1)が形成される。ここで、K(0,0)は音声波形の
パワーを表現しているので、パワー正規化のため
p=0のときにq=1〜Qとしてもよい。 すなわち第4図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の83ポイント分がマト
リツクスされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(p,q)が形成される。 この過渡点パラメータK(p,q)がマハラノビス距
離算出回路14に供給されると共に、メモリ装置
15からのクラスタ係数が回路14に供給されて
各クラスタ係数とのマハラノビス距離が算出され
る。ここでクラスタ係数は複数の話者の発音から
上述と同様に過渡点パラメータを抽出し、これを
音韻の内容に応じて分類し統計解析して得られた
ものである。 そしてこの算出されたマハラノビス距離が判定
回路16に供給され、検出された過渡点が何の音
韻から何の音韻への過渡点であるかが判定され、
出力端子17に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第5図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,o(r=1,2……24)(aはクラスタ指
標で例えばa=1は*→H,a=2はH→Aに対
応する。nは話者番号)として、共分散マトリク
ス A(a) rs≡E(R(a) r,o−(a) r)(R(a) s,o−(a) s
)……(12) 但し、 (a) r=E(R(a) r,o Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) tu)-1 r,s ……(13) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビス距離 D(Kr,a)≡d〓r〓s(Kr−(a) r)・B(a) r,
s・ (Kr−(a) s) ……(14) で求められる。 従つてメモリ装置15に上述のB(a) r,s及びR(a) rを
求めて記憶しておくことにより、マハラノビス距
離算出回路16にて入力音声の過渡点パラメータ
とのマハラノビス距離が算出される。 これによつて回路14から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路16に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。 このようにして音声認識が行われるわけである
が、この装置によれば音声の過渡点の音韻の変化
を検出しているので、時間軸の変動がなく、不特
定話者についても良好な認識を行うことができ
る。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述の12単語
について実験を行つた結果、98.2%の平均認識率
が得られた。 さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて認識すべき言語の音韻数をαとし
てαC2個のクラスタをあらかじめ計算してクラス
タ係数をメモリ装置15に記憶させておけば、
種々の単語の認識に適用でき、多くの語いの認識
を容易に行うことができる。 ところで上述の例では、“はい”、“いいえ”等
の特定の単語について認識を行つたが、これをさ
らに一般の音声にて例えば単音節ごとに認識する
ことも可能である。 しかしながらその場合に、人間の発音における
音韻の数は多く、従つて過渡点のクラスタも100
〜200と極めて多くなる。このため、例えばマハ
ラノビス距離の計算をこれらの全てのクラスタに
ついて行おうとすると、計算量が極めて多くな
り、実用的ではなかつた。 また例えば単音節の認識において、最後の母音
→無音を見た場合に、音声レベルのゆれ等によつ
て過渡点が複数発生し、さらにこの場合の母音が
それぞれ異なることがある。その場合にマハラノ
ビス距離の最小のものが必らずしもそのときの音
韻とは限らないことが判明した。 発明の目的 本発明はかかる点にかんがみ、簡単な構成で良
好な音声認識が行えるようにするものである。 発明の概要 本発明は、無音を含む音韻間の過渡部を検出
し、この検出された過渡部の音声を所定長抽出し
てパラメータに変換し、このパラメータを認識基
本単位とするようにした音声認識方法において、
異なるクラスタ係数に分類される母音から無音へ
の過渡点が複数存在する場合に、各クラスタ係数
に分類される過渡点の個数に基づいてクラスタ係
数を判定することを特徴とする音声認識方法であ
つて、これによれば簡単な構成で良好な音声認識
を行うことができる。 実施例 ところで以下の実施例では次のような装置が使
用される。すなわち第6図において、バンドパス
フイルタ61〜630の前段にエンフアシス回路7
が設けられる。そしてこのエンフアシス回路7に
おいて、例えば低域側の1〜16番の帯域では信号
が無補正でバンドパスフイルタ61〜616に供給
され、高域側の17〜30番の帯域では信号が差分回
路31を通じてバンドパスフイルタ617〜630に
供給される。 このエンフアシス回路7において、差分回路3
1の特性は y(o)=x(o)−x(o-1) ……(15) で現わされ、この式をZ変換すると Y(o)=(1−Z-1)X(o) ……(16) となる。さらにこの回路の伝達関数H(z)は |H(Z)|2=|H(Z)・H(z-1)| =|2−2cosωT| ……(17) となり、第7図に示すように低域側で小、高域側
で大となる特性となつている。そしてこの伝達関
数が1となるのは、角周波数ωがπ/2となる点
である。一方上述のメルスケールで30の帯域に分
割した場合に、角周波数ωがπ/2の点は、16番
と17番の帯域の間になつている。そこで上述のよ
うに1〜16番の帯域で無補正、17〜30番の帯域で
差分とすることにより、第8図に示すように人間
の聴覚特性に合せた高域増強を行うことができ
る。 またそれぞれの帯域の平均値回路91〜930か
らの信号がノイズ除去回路321〜3230に供給
される。一方AD変換回路4からの信号が無音状
態の検出回路33に供給され、この検出信号が除
去回路321〜3230に供給される。そして除去
回路321〜3230にて、無音状態での信号(ノ
イズ)が測定され、この平均値(またはピーク値
あるいはこれらを演算して得た値)をスレシヨル
ドレベルNとして、入力信号xがこのレベルNよ
り小のとき0、大のとき(x−N)の信号が出力
される。この信号が対数回路101〜1030に供
給される。 すなわちノイズ除去回路321〜3230におい
て、一の帯域の除去回路に第9図Aに示すような
信号が供給されている場合に、検出回路33にて
無音部が検出され、この部分の信号の例えば平均
値からなるスレシヨルドレベルNによつて第9図
Bに示すような信号が出力される。そしてこの場
合にノイズレベルが各帯域ごとに測定されてお
り、ノイズの周波数特性に応じたノイズ除去が行
われる。 他は第2図と同様に構成される。 この装置によれば乗算器を用いずに簡単な差分
回路のみで人間の聴覚特性に合せた良好なエンフ
アシスを行うことができる。またソフトウエアで
処理する場合にも演算量を少なくすることができ
る。 さらにノイズの周波数特性に応じたノイズ除去
を行うことができ、パラメータの精度が極めて向
上する。 そしてこの装置において、距離算出回路14及
び判定回路16が以下のように構成される。すな
わち第10図において、DFT回路13からの信
号が第1の距離算出回路41に供給され、メモリ
装置51からのクラスタ係数との距離が算出され
る。 ここでメモリ装置51には、[*→(は有
音を示す)」「→(は母音を示す)」「→
*」の3通りクラスタ係数が書込まれている。な
お単音節はこの3通りの過渡点で形成されてい
る。 さらに算出された距離が第1の判定回路61に
供給され、入力された過渡点パラメータが上述の
3通りのクラスタごとに分類される。 この分類されたパラメータの内の「→*」の
パラメータが第2の距離算出回路42に供給さ
れ、メモリ装置52からのクラスタ係数との距離
が算出される。 ここでメモリ装置52には、「A→*」「I→
*」「U→*」「E→*」「O→*」「→*」(
は“ん”を示す)」の6通りのクラスタ係数が書
込まれている。 さらに算出された距離が第2の判定回路62に
供給され、入力されたパラメータが6通りのクラ
スタのどれに相当するか判定される。 さらにこの判定結果が処理回路71に供給され
る。ここでこの回路71において母音の総合判定
が行われる。 すなわち、「→*」の過渡点において、いわ
ゆるふかれ等のノイズ的成分によつて、過渡点が
複数検出される場合があり、その場合にたまたま
他のクラスタに近いパラメータが出るおそれがあ
る。そこで処理回路71において、算出された距
離と共にその数が総合判定される。すなわち例え
ば第11図Aのような過渡点検出で、Bのような
判定結果及び距離が算出された場合に、ここでは
距離が最短のものは例えば「U」になつている。
ところがこの場合に判定された数は「A」の方が
多い。そしてこのような場合について実験及びシ
ミユレーシヨンを行つた結果、このような場合に
は一般的に多くある方が正しいことが判明した。 従つてこの処理回路71においては、例えば過
渡点パラメータの多数決による判定を行う。なお
多数決で同数の場合や、極端に距離が異なる場合
には、これらの距離を勘案するようにしてもよ
い。 このようにして最終母音の判定が行われる。 また判定回路61で分類された「*→」及び
「→」の過渡点パラメータが、第3及び第4
の距離算出回路43,44に供給され、それぞれ
メモリ装置53,54からのクラスタ係数との距
離が算出される。 ここでまずメモリ装置53には、以下の表のよ
うなクラスタ係数が、最終母音ごとに分類されて
書込まれている。
に関する。 背景技術とその問題点 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 これに対して音韻(日本語でいえばローマ文表
記したときのA,I,U,E,O,K,S,T
等)あるいは音節(KA,KI,KU等)単位での
認識を行うことが提案されている。しかしこの場
合に、母音等の準定常部を有する音韻の認識は容
易であつても、破裂音(K,T,P等)のように
音韻的特徴が非常に短いものを音響パラメータの
みで一つの音韻に特定することは極めて困難であ
る。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いずれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。 ところで音韻の発声現象を観察すると、母音や
摩擦音(S,H等)等の音韻は長く伸して発声す
ることができる。例えば“はい”という発声を考
えた場合に、この音韻は第1図Aに示すように、
「無音→H→A→I→無音」に変化する。これに
対して同じ“はい”の発声を第1図Bのように行
うこともできる。ここでH,A,Iの準定常部の
長さは発声ごとに変化し、これによつて時間軸の
変動を生じる。ところがこの場合に、各音韻間の
過渡部(斜線で示す)は比較的時間軸の変動が少
いことが判明した。 そこで本願発明者は先にこの点に着目して以下
のような装置を提案した。 第2図において、マイクロフオン1に供給され
た音声信号がマイクアンプ2、5.5kHz以下のロー
パスフイルタ3を通じてAD変換回路4に供給さ
れる。またクロツク発生器5からの12.5kHz
(80μsec間隔)のサンプリングクロツクがAD変
換回路4に供給され、このタイミングで音声信号
がそれぞれ所定ビツト数(=1ワード)のデジタ
ル信号に変換される。 このデジタル信号が、周波数分析用のバンドパ
スフイルタ61,62……630に供給され、人間の
聴覚特性に合せた周波数メルスケールに応じて例
えば30の帯域に分割される。この分割された各帯
域の信号がエンフアシス回路71,72……730に
供給され、人間の聴覚特性に合せた高域増強が行
われる。この信号が絶対値回路81,82……830
に供給されて一極性とされ、平均値回路91,92
……930に供給されて信号の包絡線が取り出され
る。 この信号が対数回路101,102……1030に
供給され、各信号の対数値に変換される。これに
よつて上述のエンフアシス回路71,72……730
での重み付け等による冗長度が排除される。ここ
で、例えばTの時間長に含まれるnf個のサンプリ
ングデータによつて表される波形函数を UnfT(t) ……(1) としたとき、これを周波数分析して、対数を取つ
た対数パワースペクトル log|U2nfT(f)| ……(2) をスペクトルパラメータx(i)(i=0,1……29)
と称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路11に供給される。ここで
このDFT回路11において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0,1……M−1)を2M−1
点の実数対称パラメータとみなして2M−2点の
DFTを行う。従つて X(n)=2M-3 〓i=0 x(i)Wmi 2M-2 ……(3) 但しWmi 2M-2=e−j(2π・i・m/2M−2) m=0,1,……2M−3 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2π・i・m/2M−2) =cosπ・i・m/M−1 となり、これらより X(n)=2M-3 〓i=0 x(i) cosπ・i・m/M−1 ……(4) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトルラムパ
ラメータx(i)について、0〜P−1(例えばP=
8)次までのP次元の値を取り出し、これをロー
カルパラメータL(p)(p=0,1……P−1)とす
ると L(p)=2M-3 〓i=0 x(i) cosπ・i・p/M−1 ……(5) となり、ここでスペクトルパラメータが対称であ
ることを考慮して x(i)=x(2M−i−2) とおくと、ローカルパラメータL(p)は L(p)=x(〓)+M-2 〓 〓i=1 x(i){cosπ・i・m/M−1+cosπ・(2M−2−
i)・p/M−1}+x(M-1)cosπ・p/M−1 但し、p=0,1……P−1 となる。このようにして30ワードの信号がP(例
えば8)ワードに圧縮される。 このローカルパラメータL(p)がメモリ装置12に
供給される。このメモリ装置12は1行Pワード
の記憶部が例えば83行マトリクス状に配されたも
ので、ローカルパラメータL(p)が各次元ごとに順
次記憶されると共に、上述のクロツク発生器5か
らの0.96msec間隔のクロツクが供給されて、各
行のパラメータが順次横方向へシフトされる。こ
れによつてメモリ装置12には0.96msec間隔の
P次元のローカルパラメータL(p)が83ポイント
(79.68msec)分記憶され、クロツクごとに順次
新しいパラメータに更新される。 さらに音声過渡点検出回路20が以下のように
構成される。すなわち平均値回路91〜930から
のそれぞれの帯域の信号の量に応じた信号V(o)
(n=0,1……29)がバイアス付き対数回路2
11,212……2130に供給されて v′(o)=log(V(o)+B) ……(7) が形成される。また信号V(o)が累算平均回路22
に供給されて Va=30 〓n=1 V(o)/30 が形成され、この信号Vaが対数回路21xに供
給されて v′a=log(Va+B) ……(8) が形成される。そしてこれらの信号が演算回路2
3に供給されて v(o)=v′a−v′(o) ……(9) が形成される。 ここで上述のような信号V(o)を用いることによ
り、この信号は音韻から音韻への変化に対して各
次(n=0,1……29)の変化が同程度となり、
音韻の種類による変化量のばらつきを回避でき
る。また対数をとり演算を行つて正規化パラメー
タv(o)を形成したことにより、入力音声のレベル
の変化によるパラメータv(o)の変動が排除される。
さらにバイアスBを加算して演算を行つたことに
より、仮りにB→∞とするとパラメータv(o)→0
となることから明らかなように、入力音声の微少
成分(ノイズ等)に対する感度を下げることがで
きる。 このパラメータv(o)がメモリ装置24に供給さ
れて2w+1(例えば57)ポイント分が記憶され
る。この記憶された信号が演算回路25に供給さ
れて Yn,t=min I∈GFt {v(o)(I)} ……(10) 但し GFt={I;−w+t≦I≦w+t} が形成され、この信号とパラメータv(o)が演算回
路26に供給されて T(t)=N-1 〓n=0 w 〓I=-w (v(o)(I+t)−Yn,t) ……(11) が形成される。このTtが過渡点検出パラメータ
であつて、このTtがピーク判別回路27に供給
されて、入力音声信号の音韻の過渡点が検出され
る。 ここでパラメータTtが、ポイントtを挾んで
前後wポイントずつで定義されているので、不要
な凹凸や多極を生じるおそれがない。なお第3図
は例えば“ゼロ”という発声を、サンプリング周
波数12.5kHz、12ビツトデジタルデータとし、ポ
イント間隔=0.96msec、帯域数N=30、バイア
スB=0、検出ポイント数2W+1=57で上述の
検出を行つた場合を示している。図中Aは音声波
形、Bは音韻、Cは検出信号であつて、「無音→
Z」「Z→E」「E→R」「R→O」「O→無音」の
各過渡部で顕著なピークを発生する。ここで無音
部にノイズによる多少の凹凸が形成されるがこれ
はバイアスBを大きくすることにより破線図示の
ように略0になる。 この過渡点検出信号T(t)がメモリ装置12に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が42番目の行にシフトされ
た時点でメモリ装置12の読み出しが行われる。
ここでメモリ装置12の読み出しは、各次元Pご
とに83ポイント分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路13に
供給される。 この回路13において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータK(p,q)
(p=0,1……P−1)(q=0,1……Q−
1)が形成される。ここで、K(0,0)は音声波形の
パワーを表現しているので、パワー正規化のため
p=0のときにq=1〜Qとしてもよい。 すなわち第4図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の83ポイント分がマト
リツクスされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(p,q)が形成される。 この過渡点パラメータK(p,q)がマハラノビス距
離算出回路14に供給されると共に、メモリ装置
15からのクラスタ係数が回路14に供給されて
各クラスタ係数とのマハラノビス距離が算出され
る。ここでクラスタ係数は複数の話者の発音から
上述と同様に過渡点パラメータを抽出し、これを
音韻の内容に応じて分類し統計解析して得られた
ものである。 そしてこの算出されたマハラノビス距離が判定
回路16に供給され、検出された過渡点が何の音
韻から何の音韻への過渡点であるかが判定され、
出力端子17に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第5図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,o(r=1,2……24)(aはクラスタ指
標で例えばa=1は*→H,a=2はH→Aに対
応する。nは話者番号)として、共分散マトリク
ス A(a) rs≡E(R(a) r,o−(a) r)(R(a) s,o−(a) s
)……(12) 但し、 (a) r=E(R(a) r,o Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) tu)-1 r,s ……(13) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビス距離 D(Kr,a)≡d〓r〓s(Kr−(a) r)・B(a) r,
s・ (Kr−(a) s) ……(14) で求められる。 従つてメモリ装置15に上述のB(a) r,s及びR(a) rを
求めて記憶しておくことにより、マハラノビス距
離算出回路16にて入力音声の過渡点パラメータ
とのマハラノビス距離が算出される。 これによつて回路14から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路16に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。 このようにして音声認識が行われるわけである
が、この装置によれば音声の過渡点の音韻の変化
を検出しているので、時間軸の変動がなく、不特
定話者についても良好な認識を行うことができ
る。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述の12単語
について実験を行つた結果、98.2%の平均認識率
が得られた。 さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて認識すべき言語の音韻数をαとし
てαC2個のクラスタをあらかじめ計算してクラス
タ係数をメモリ装置15に記憶させておけば、
種々の単語の認識に適用でき、多くの語いの認識
を容易に行うことができる。 ところで上述の例では、“はい”、“いいえ”等
の特定の単語について認識を行つたが、これをさ
らに一般の音声にて例えば単音節ごとに認識する
ことも可能である。 しかしながらその場合に、人間の発音における
音韻の数は多く、従つて過渡点のクラスタも100
〜200と極めて多くなる。このため、例えばマハ
ラノビス距離の計算をこれらの全てのクラスタに
ついて行おうとすると、計算量が極めて多くな
り、実用的ではなかつた。 また例えば単音節の認識において、最後の母音
→無音を見た場合に、音声レベルのゆれ等によつ
て過渡点が複数発生し、さらにこの場合の母音が
それぞれ異なることがある。その場合にマハラノ
ビス距離の最小のものが必らずしもそのときの音
韻とは限らないことが判明した。 発明の目的 本発明はかかる点にかんがみ、簡単な構成で良
好な音声認識が行えるようにするものである。 発明の概要 本発明は、無音を含む音韻間の過渡部を検出
し、この検出された過渡部の音声を所定長抽出し
てパラメータに変換し、このパラメータを認識基
本単位とするようにした音声認識方法において、
異なるクラスタ係数に分類される母音から無音へ
の過渡点が複数存在する場合に、各クラスタ係数
に分類される過渡点の個数に基づいてクラスタ係
数を判定することを特徴とする音声認識方法であ
つて、これによれば簡単な構成で良好な音声認識
を行うことができる。 実施例 ところで以下の実施例では次のような装置が使
用される。すなわち第6図において、バンドパス
フイルタ61〜630の前段にエンフアシス回路7
が設けられる。そしてこのエンフアシス回路7に
おいて、例えば低域側の1〜16番の帯域では信号
が無補正でバンドパスフイルタ61〜616に供給
され、高域側の17〜30番の帯域では信号が差分回
路31を通じてバンドパスフイルタ617〜630に
供給される。 このエンフアシス回路7において、差分回路3
1の特性は y(o)=x(o)−x(o-1) ……(15) で現わされ、この式をZ変換すると Y(o)=(1−Z-1)X(o) ……(16) となる。さらにこの回路の伝達関数H(z)は |H(Z)|2=|H(Z)・H(z-1)| =|2−2cosωT| ……(17) となり、第7図に示すように低域側で小、高域側
で大となる特性となつている。そしてこの伝達関
数が1となるのは、角周波数ωがπ/2となる点
である。一方上述のメルスケールで30の帯域に分
割した場合に、角周波数ωがπ/2の点は、16番
と17番の帯域の間になつている。そこで上述のよ
うに1〜16番の帯域で無補正、17〜30番の帯域で
差分とすることにより、第8図に示すように人間
の聴覚特性に合せた高域増強を行うことができ
る。 またそれぞれの帯域の平均値回路91〜930か
らの信号がノイズ除去回路321〜3230に供給
される。一方AD変換回路4からの信号が無音状
態の検出回路33に供給され、この検出信号が除
去回路321〜3230に供給される。そして除去
回路321〜3230にて、無音状態での信号(ノ
イズ)が測定され、この平均値(またはピーク値
あるいはこれらを演算して得た値)をスレシヨル
ドレベルNとして、入力信号xがこのレベルNよ
り小のとき0、大のとき(x−N)の信号が出力
される。この信号が対数回路101〜1030に供
給される。 すなわちノイズ除去回路321〜3230におい
て、一の帯域の除去回路に第9図Aに示すような
信号が供給されている場合に、検出回路33にて
無音部が検出され、この部分の信号の例えば平均
値からなるスレシヨルドレベルNによつて第9図
Bに示すような信号が出力される。そしてこの場
合にノイズレベルが各帯域ごとに測定されてお
り、ノイズの周波数特性に応じたノイズ除去が行
われる。 他は第2図と同様に構成される。 この装置によれば乗算器を用いずに簡単な差分
回路のみで人間の聴覚特性に合せた良好なエンフ
アシスを行うことができる。またソフトウエアで
処理する場合にも演算量を少なくすることができ
る。 さらにノイズの周波数特性に応じたノイズ除去
を行うことができ、パラメータの精度が極めて向
上する。 そしてこの装置において、距離算出回路14及
び判定回路16が以下のように構成される。すな
わち第10図において、DFT回路13からの信
号が第1の距離算出回路41に供給され、メモリ
装置51からのクラスタ係数との距離が算出され
る。 ここでメモリ装置51には、[*→(は有
音を示す)」「→(は母音を示す)」「→
*」の3通りクラスタ係数が書込まれている。な
お単音節はこの3通りの過渡点で形成されてい
る。 さらに算出された距離が第1の判定回路61に
供給され、入力された過渡点パラメータが上述の
3通りのクラスタごとに分類される。 この分類されたパラメータの内の「→*」の
パラメータが第2の距離算出回路42に供給さ
れ、メモリ装置52からのクラスタ係数との距離
が算出される。 ここでメモリ装置52には、「A→*」「I→
*」「U→*」「E→*」「O→*」「→*」(
は“ん”を示す)」の6通りのクラスタ係数が書
込まれている。 さらに算出された距離が第2の判定回路62に
供給され、入力されたパラメータが6通りのクラ
スタのどれに相当するか判定される。 さらにこの判定結果が処理回路71に供給され
る。ここでこの回路71において母音の総合判定
が行われる。 すなわち、「→*」の過渡点において、いわ
ゆるふかれ等のノイズ的成分によつて、過渡点が
複数検出される場合があり、その場合にたまたま
他のクラスタに近いパラメータが出るおそれがあ
る。そこで処理回路71において、算出された距
離と共にその数が総合判定される。すなわち例え
ば第11図Aのような過渡点検出で、Bのような
判定結果及び距離が算出された場合に、ここでは
距離が最短のものは例えば「U」になつている。
ところがこの場合に判定された数は「A」の方が
多い。そしてこのような場合について実験及びシ
ミユレーシヨンを行つた結果、このような場合に
は一般的に多くある方が正しいことが判明した。 従つてこの処理回路71においては、例えば過
渡点パラメータの多数決による判定を行う。なお
多数決で同数の場合や、極端に距離が異なる場合
には、これらの距離を勘案するようにしてもよ
い。 このようにして最終母音の判定が行われる。 また判定回路61で分類された「*→」及び
「→」の過渡点パラメータが、第3及び第4
の距離算出回路43,44に供給され、それぞれ
メモリ装置53,54からのクラスタ係数との距
離が算出される。 ここでまずメモリ装置53には、以下の表のよ
うなクラスタ係数が、最終母音ごとに分類されて
書込まれている。
【表】
【表】
ここで例えば最終母音「A」に分類されるクラ
スタは、50音表のア段の10個、濁音・半濁音5
個、拗音11個、及びバズ音の27個に、「*→」
「→」の判定のしにくい破裂音5個を含めた
計32個である。 また「I」は「A」よりヤ行、ワ行、ダ行及び
拗音を除いた計15個である。 以下「U」「E」「O」についてもそれぞれ発音
の特性に合せて30個、17個、31個のクラスタで構
成される。なお「」は「」に含めてある。 またメモリ装置54には、以下の表のようなク
ラスタ係数が、最終母音ごとに分類されて書込ま
れている。
スタは、50音表のア段の10個、濁音・半濁音5
個、拗音11個、及びバズ音の27個に、「*→」
「→」の判定のしにくい破裂音5個を含めた
計32個である。 また「I」は「A」よりヤ行、ワ行、ダ行及び
拗音を除いた計15個である。 以下「U」「E」「O」についてもそれぞれ発音
の特性に合せて30個、17個、31個のクラスタで構
成される。なお「」は「」に含めてある。 またメモリ装置54には、以下の表のようなク
ラスタ係数が、最終母音ごとに分類されて書込ま
れている。
【表】
【表】
ここでも、上述のメモリ装置53の場合と同様
に、それぞれ発音の特性に合せて、「A」26個、
「I」12個、「U」25個、「E」13個、「O」25個の
クラスタに分類して書込まれている。なお拗音は
それぞれを「Y→A」「Y→U」「Y→O」に統合
してもよい。また破裂音はメモリ装置53と同じ
ものが繰り返り設けられている。 そして上述の処理回路71からの最終母音の判
定出力に応じて、各メモリ装置53,54の対応
する母音の部分のみが算出回路43,44に供給
されて、距離の算出が行われる。 さらに算出されて距離が、それぞれ第3、第4
の判定回路63,64に供給され、入力されたパ
ラメータがそれぞれのクラスタのどれに相当する
か判定される。 これらの判定結果及び判定回路62からの判定
結果が、単語・単音節の判定回路81に供給さ
れ、入力された音声の単語・単音節が識別され
る。 こうしてこの装置において音声認識が行われる
わけであるが、この装置によれば、まず過渡点を
3種類に分類し、次に最終母音を判定している。
ここで一般に母音の検出は容易であり、また最初
の3分類及び母音の判定はクラスタ数が3及び6
と少いので、パラメータの次元数を多くして極め
て精確な判定を行うことができる。 また最終母音が複数検出された場合に、これを
距離及び個数にて総合判定することにより、判定
の確度をさらに高めることができる。 そしてこの判定された最終母音によつて、それ
以前の過渡点の検出のクラスタを制限することに
より、これらの距離の計算量を少くすることがで
き、容易に実施できるようになると共に、精度を
高めることもできる。 発明の効果 本発明によれば、簡単な構成で良好な音声認識
が行えるようになつた。
に、それぞれ発音の特性に合せて、「A」26個、
「I」12個、「U」25個、「E」13個、「O」25個の
クラスタに分類して書込まれている。なお拗音は
それぞれを「Y→A」「Y→U」「Y→O」に統合
してもよい。また破裂音はメモリ装置53と同じ
ものが繰り返り設けられている。 そして上述の処理回路71からの最終母音の判
定出力に応じて、各メモリ装置53,54の対応
する母音の部分のみが算出回路43,44に供給
されて、距離の算出が行われる。 さらに算出されて距離が、それぞれ第3、第4
の判定回路63,64に供給され、入力されたパ
ラメータがそれぞれのクラスタのどれに相当する
か判定される。 これらの判定結果及び判定回路62からの判定
結果が、単語・単音節の判定回路81に供給さ
れ、入力された音声の単語・単音節が識別され
る。 こうしてこの装置において音声認識が行われる
わけであるが、この装置によれば、まず過渡点を
3種類に分類し、次に最終母音を判定している。
ここで一般に母音の検出は容易であり、また最初
の3分類及び母音の判定はクラスタ数が3及び6
と少いので、パラメータの次元数を多くして極め
て精確な判定を行うことができる。 また最終母音が複数検出された場合に、これを
距離及び個数にて総合判定することにより、判定
の確度をさらに高めることができる。 そしてこの判定された最終母音によつて、それ
以前の過渡点の検出のクラスタを制限することに
より、これらの距離の計算量を少くすることがで
き、容易に実施できるようになると共に、精度を
高めることもできる。 発明の効果 本発明によれば、簡単な構成で良好な音声認識
が行えるようになつた。
第1図は音声の説明のための図、第2図〜第5
図は従来の装置の説明のための図、第6図〜第9
図は本発明の説明のための図、第10図は本発明
の一例の系統図、第11図はその説明のための図
である。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はバ
ンドパスフイルタ、7はエンフアシス回路、8は
絶対値回路、9は平均値回路、10は対数回路、
11,13は離散的フーリエ変換回路、12,1
5,51〜54はメモリ装置、14,41〜44
はマハラノビス距離算出回路、16,61〜64
は判定回路、17は出力端子、20は過渡点検出
回路、31は差分回路、32はノイズ除去回路、
33は無音部検出回路、71は処理回路、81は
単語・単音節判定回路である。
図は従来の装置の説明のための図、第6図〜第9
図は本発明の説明のための図、第10図は本発明
の一例の系統図、第11図はその説明のための図
である。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はバ
ンドパスフイルタ、7はエンフアシス回路、8は
絶対値回路、9は平均値回路、10は対数回路、
11,13は離散的フーリエ変換回路、12,1
5,51〜54はメモリ装置、14,41〜44
はマハラノビス距離算出回路、16,61〜64
は判定回路、17は出力端子、20は過渡点検出
回路、31は差分回路、32はノイズ除去回路、
33は無音部検出回路、71は処理回路、81は
単語・単音節判定回路である。
Claims (1)
- 【特許請求の範囲】 1 無音を含む音韻間の過渡部を検出し、この検
出された過渡部の音声を所定長抽出してパラメー
タに変換し、このパラメータを認識基本単位とす
るようにした音声認識方法において、 異なるクラスタ係数に分類される母音から無音
への過渡点が複数存在する場合に、各クラスタ係
数に分類される過渡点の個数に基づいてクラスタ
係数を判定することを特徴とする音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19465683A JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19465683A JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6086600A JPS6086600A (ja) | 1985-05-16 |
| JPH0552512B2 true JPH0552512B2 (ja) | 1993-08-05 |
Family
ID=16328131
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP19465683A Granted JPS6086600A (ja) | 1983-10-18 | 1983-10-18 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6086600A (ja) |
-
1983
- 1983-10-18 JP JP19465683A patent/JPS6086600A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6086600A (ja) | 1985-05-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR910002198B1 (ko) | 음성인식방법과 그 장치 | |
| Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
| Ibrahim et al. | Quranic verse recitation feature extraction using Mel-frequency cepstral coefficients (MFCC) | |
| Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
| Yavuz et al. | A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model. | |
| JP3493849B2 (ja) | 音声認識装置 | |
| JPH0441357B2 (ja) | ||
| JPH0552512B2 (ja) | ||
| JPH0552509B2 (ja) | ||
| Fathoni et al. | Optimization of feature extraction in Indonesian speech recognition using PCA and SVM classification | |
| JPH0552515B2 (ja) | ||
| JPH0552510B2 (ja) | ||
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| JPH0552511B2 (ja) | ||
| JPS6086599A (ja) | 音声認識装置 | |
| JPH0546558B2 (ja) | ||
| JPH0546559B2 (ja) | ||
| JPH0546560B2 (ja) | ||
| JPH0246960B2 (ja) | ||
| Tabassum et al. | Speaker independent speech recognition of isolated words in room environment | |
| JPS6069697A (ja) | 音声認識装置 | |
| JPH0469800B2 (ja) | ||
| JPH026078B2 (ja) | ||
| JPS6069696A (ja) | 音声認識装置 | |
| JPH026079B2 (ja) |