JPH01321498A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH01321498A JPH01321498A JP63155259A JP15525988A JPH01321498A JP H01321498 A JPH01321498 A JP H01321498A JP 63155259 A JP63155259 A JP 63155259A JP 15525988 A JP15525988 A JP 15525988A JP H01321498 A JPH01321498 A JP H01321498A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- speech
- input
- silent
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、入力音声パターンと各標準パターンとのパタ
ーンマツチングにより認識結果を導き出す音声認識装置
に関するものである。
ーンマツチングにより認識結果を導き出す音声認識装置
に関するものである。
従来の技術
一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング(以下、DPマツチングと記す。)
が使用されている。特に、単語音声認識装置では、この
DPマツチング法により高い認識率を得ている。 (例
えば、 「ダイナミック プログラミングオプティミゼ
イション フォ スポークン ワ−ド レコグニション
J (H,5akoe and S 、Ch lba
+”Dynamlc programmlng o
ptlmlzatlon for 5porken
word recognltlon”、IEEE
trans、Acoustlc、5peech、Si
gnal Processing、yol、As5P
−27pp、33G−349゜発明が解決しようとする
課題 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のDPマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、 「
大阪」と「大分」とはエネルギー系列で見ると、前者は
三つ、後者は二つのエネルギーの山があり明らかに異な
った二つのパターンであるが、音韻的には似通っている
ためDPマツチングにより距離が小さくなってしまい誤
認識を生じる場合がある。
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング(以下、DPマツチングと記す。)
が使用されている。特に、単語音声認識装置では、この
DPマツチング法により高い認識率を得ている。 (例
えば、 「ダイナミック プログラミングオプティミゼ
イション フォ スポークン ワ−ド レコグニション
J (H,5akoe and S 、Ch lba
+”Dynamlc programmlng o
ptlmlzatlon for 5porken
word recognltlon”、IEEE
trans、Acoustlc、5peech、Si
gnal Processing、yol、As5P
−27pp、33G−349゜発明が解決しようとする
課題 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のDPマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、 「
大阪」と「大分」とはエネルギー系列で見ると、前者は
三つ、後者は二つのエネルギーの山があり明らかに異な
った二つのパターンであるが、音韻的には似通っている
ためDPマツチングにより距離が小さくなってしまい誤
認識を生じる場合がある。
また、類似した音声パターン間のDPマツチングでは、
音声パターン全体に渡ってDPマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を何していた。
音声パターン全体に渡ってDPマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を何していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりPマツチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のりクエクト
性能を高めることのできる音声認識装置を提供するもの
である。
認識および極端なりPマツチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のりクエクト
性能を高めることのできる音声認識装置を提供するもの
である。
課題を解決するための手段
本発明の音声認識装置は入力音声からエネルギー系列を
含む特徴ベクトルの時系列を出力する音声分析部と、前
記音声分析部から出力されるエネルギー系列から無音区
間を検出する無音区間検出部と、前記無音区間検出部で
得られた入力パターン及び標準パターンの無音区間点の
交点でマツチング経路を限定するパターンマツチングを
全ての可能な経路上で計算し、その際各点での累積距離
計算時にそれ以前にどの無音区間点の交点を通過してき
たかをバックポインターとして記憶する類似度計算部と
を備えたことを特徴とする。
含む特徴ベクトルの時系列を出力する音声分析部と、前
記音声分析部から出力されるエネルギー系列から無音区
間を検出する無音区間検出部と、前記無音区間検出部で
得られた入力パターン及び標準パターンの無音区間点の
交点でマツチング経路を限定するパターンマツチングを
全ての可能な経路上で計算し、その際各点での累積距離
計算時にそれ以前にどの無音区間点の交点を通過してき
たかをバックポインターとして記憶する類似度計算部と
を備えたことを特徴とする。
作用
本発明は上記に述べた構成によって、あらかじめ標準パ
ターンの無音区間を検出し、バックポインターに以前の
通過点を記憶させながらパターンマツチングを実行する
ことにより一度のDPマツチングの実行により、無音区
間点の検出誤りを考慮した全ての無音区間点の対応のさ
せ方を含んだ距離計算ができることにより、パターンマ
ツチングに要する処理時間を増加させずに類似パターン
間の誤認識および極端なマツチングによる誤認識を極力
抑えることができ、さらに認識対象外単語が入力された
蒔には極力リジェクトすることができる。
ターンの無音区間を検出し、バックポインターに以前の
通過点を記憶させながらパターンマツチングを実行する
ことにより一度のDPマツチングの実行により、無音区
間点の検出誤りを考慮した全ての無音区間点の対応のさ
せ方を含んだ距離計算ができることにより、パターンマ
ツチングに要する処理時間を増加させずに類似パターン
間の誤認識および極端なマツチングによる誤認識を極力
抑えることができ、さらに認識対象外単語が入力された
蒔には極力リジェクトすることができる。
実施例
以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声信号を入力す
るマイクロホン(電話機のハンドセット等でもよい。)
2は音声分析部で、入力された音声信号から特徴ベクト
ルの時系列を抽出する。3は無音区間検出部で、音声の
エネルギー値時系列から無音部分を検出し後続のエネル
ギーの立ち上がりのフレーム位置を記憶する。4は類似
度計算部で入力パターンと標準パターンの無音区間点の
交点で経路を限定したパターンマツチングを行う。5は
記憶部で入力パターン及び全ての標準パターンの特徴ベ
クトルの時系列と無音区間点を記憶する。6はバックポ
インター記憶部で各点での累積距離計算時にその点に到
達する以前に通過した無音区間点の交点を記憶する。7
は認識判定部で類似度計算部4で得られた距離値のうち
最小距離を与える標準パターンを認識候補音声とする。
ック図である。第1図において、1は音声信号を入力す
るマイクロホン(電話機のハンドセット等でもよい。)
2は音声分析部で、入力された音声信号から特徴ベクト
ルの時系列を抽出する。3は無音区間検出部で、音声の
エネルギー値時系列から無音部分を検出し後続のエネル
ギーの立ち上がりのフレーム位置を記憶する。4は類似
度計算部で入力パターンと標準パターンの無音区間点の
交点で経路を限定したパターンマツチングを行う。5は
記憶部で入力パターン及び全ての標準パターンの特徴ベ
クトルの時系列と無音区間点を記憶する。6はバックポ
インター記憶部で各点での累積距離計算時にその点に到
達する以前に通過した無音区間点の交点を記憶する。7
は認識判定部で類似度計算部4で得られた距離値のうち
最小距離を与える標準パターンを認識候補音声とする。
第2図は第1図に示した装置の説明図である。
次に上記音声認識装置の動作を説明する。
まず、マイクロホン1から音声を入力し、音声分析部2
で入力音声信号をアナログ−ディジタル変換しさらに音
声の特徴ベクトルの時系列(例えば、10次の線形予測
係数)とエネルギー系列とを求め、記憶部5に記憶する
。次に、無音区間検出部3で、音声分析部2でメモリに
記憶されたエネルギー系列からエネルギー値が予め定め
られた閾値を下回る区間が一定時間TOを超える区間を
無音区間として検出し、その無音区間の個数と各無音区
間の後続のエネルギーの立ち上がりのフレーム位置(以
下このフレーム位置をQ点と呼ぶことにする。)を記憶
する。なお、あらかじめ各標準パターンの特徴ベクトル
の時系列及び各標準パターンの無音区間の個数とその後
続のエネルギーの立ち上がりのフレーム位置が記憶部5
に記憶されているものとする。次に類似度計算部4で、
入力された音声パターンは各標準パターンとの間で無音
区間検出部3で検出されたQ点によりマツチング経路を
拘束したパターンマツチング(例えばDPマツチング法
)を行う。以下パターンマツチングの動作をここでは簡
単のために入力パターン、標準パターンにそれぞれQ点
が2個ずつ存在する場合について説明する。
で入力音声信号をアナログ−ディジタル変換しさらに音
声の特徴ベクトルの時系列(例えば、10次の線形予測
係数)とエネルギー系列とを求め、記憶部5に記憶する
。次に、無音区間検出部3で、音声分析部2でメモリに
記憶されたエネルギー系列からエネルギー値が予め定め
られた閾値を下回る区間が一定時間TOを超える区間を
無音区間として検出し、その無音区間の個数と各無音区
間の後続のエネルギーの立ち上がりのフレーム位置(以
下このフレーム位置をQ点と呼ぶことにする。)を記憶
する。なお、あらかじめ各標準パターンの特徴ベクトル
の時系列及び各標準パターンの無音区間の個数とその後
続のエネルギーの立ち上がりのフレーム位置が記憶部5
に記憶されているものとする。次に類似度計算部4で、
入力された音声パターンは各標準パターンとの間で無音
区間検出部3で検出されたQ点によりマツチング経路を
拘束したパターンマツチング(例えばDPマツチング法
)を行う。以下パターンマツチングの動作をここでは簡
単のために入力パターン、標準パターンにそれぞれQ点
が2個ずつ存在する場合について説明する。
ここで入力パターンの始点及び終点をそれぞれQ+a
(= 1 ) 、Q10、標準パターンの始点、終点を
それぞれQR9(= 1 ) 、QR3とする。また、
入力パターン、標準パターンのQ点を始点に近い方から
それぞれQ ++s Q 12及びQ R+、QR2
とし各Q点同志の2次元平面上の交点をそれぞれ(QI
IIQRI)(QRIQ−2)(Q−2Q−1)(QR
20R2)とする。
(= 1 ) 、Q10、標準パターンの始点、終点を
それぞれQR9(= 1 ) 、QR3とする。また、
入力パターン、標準パターンのQ点を始点に近い方から
それぞれQ ++s Q 12及びQ R+、QR2
とし各Q点同志の2次元平面上の交点をそれぞれ(QI
IIQRI)(QRIQ−2)(Q−2Q−1)(QR
20R2)とする。
これらの様子は第2図に示している。またここでは簡単
のために整合窓による制限は考えないこととする。
のために整合窓による制限は考えないこととする。
パターンマツチングは入力パターン、標準パターン上で
検出されたQ点同志を対応させた交点上でマツチング経
路を制限して行うが、Q点の検出を誤った場合を考慮す
ると第2図に示した■■■の3種類の経路を考える必要
がある。パターンマツチングの漸化式としてここでは次
式を考える。
検出されたQ点同志を対応させた交点上でマツチング経
路を制限して行うが、Q点の検出を誤った場合を考慮す
ると第2図に示した■■■の3種類の経路を考える必要
がある。パターンマツチングの漸化式としてここでは次
式を考える。
g(1,1):d(1,1) −−
−−−(1)g(1+j)=mln(g(11,J)
+g(1−1+j−ILg(1−1,j−2))+d(
1,j) −−−−(2)g(1,j)
=g(1+1)=co(1,J=2.3.* e e
e )ここでg(i、j)、d(i、j)はそれぞれ(
t、j)における累積距離及びベクトル間距離を表す。
−−−(1)g(1+j)=mln(g(11,J)
+g(1−1+j−ILg(1−1,j−2))+d(
1,j) −−−−(2)g(1,j)
=g(1+1)=co(1,J=2.3.* e e
e )ここでg(i、j)、d(i、j)はそれぞれ(
t、j)における累積距離及びベクトル間距離を表す。
また点(t、j)でのバックポインターをb(i、j)
とし、初期値として b(1,1)E(1,1)とする。
とし、初期値として b(1,1)E(1,1)とする。
まずi”Lj=1としてjをインクリメントしながら上
記の漸化式に従い累積距離gを計算し、j ”QIIE
まで処理し終わるとiをインクリメントし同様に処理を
続ける。各点(i、j)でのバックポインターは以下の
ようにして求める。
記の漸化式に従い累積距離gを計算し、j ”QIIE
まで処理し終わるとiをインクリメントし同様に処理を
続ける。各点(i、j)でのバックポインターは以下の
ようにして求める。
!=Q+に+かつj=QR+のとき(但しに、 I=1
.2)b (i+ j ) E (Q+b+ QR
I)i f−Q Ikl 又はj≠QRIのとき(但
しに、 I:l 、2)(i、 j)がQ、、<i≦
Q +に4+ かつQRI<j≦QR1+1 の範囲内にある時、漸化式(2)の右辺第1項の最小値
となるgOに対応するバックポインターの内容をb(i
、j)とする。但しここでb(i。
.2)b (i+ j ) E (Q+b+ QR
I)i f−Q Ikl 又はj≠QRIのとき(但
しに、 I:l 、2)(i、 j)がQ、、<i≦
Q +に4+ かつQRI<j≦QR1+1 の範囲内にある時、漸化式(2)の右辺第1項の最小値
となるgOに対応するバックポインターの内容をb(i
、j)とする。但しここでb(i。
j)として取り得る点(Qll、QR,)は、 (m=
kかつn=1)または(n= 1かつm=k )でなけ
ればならない。
kかつn=1)または(n= 1かつm=k )でなけ
ればならない。
こうして得られたバックポインターb(i、j)はバッ
クポインター記憶部6に記憶される。こうして最終的に
得られた点(Q10.QR3)での累積距離は第2図の
3種類の経路をすべて考慮した最も最適な限定された経
路を選んだ時の類似度となる。
クポインター記憶部6に記憶される。こうして最終的に
得られた点(Q10.QR3)での累積距離は第2図の
3種類の経路をすべて考慮した最も最適な限定された経
路を選んだ時の類似度となる。
各標準パターンとの類似度がすべて計算されたのちに、
認識判定部7で類似度の最大なる標準パターンを認識候
補音声として判定し外部に出力する。
認識判定部7で類似度の最大なる標準パターンを認識候
補音声として判定し外部に出力する。
以上のように本実施例によれば、音声の無音区間を検出
する無音区間検出部3と、無音区間の交点により経路を
制限したパターンマツチングにより入力パターンと標準
パターンの類似度を計算する類似度計算部4と、過去に
通過したQ点の交点を記憶するバックポインター記憶部
6を設けたことにより、1回のパターンマツチングで経
路限定の全ての可能性を考慮することができ、計算時間
を増加させずに誤認識を防止しまた対象外音声入力時に
極力リジェクトすることができる。
する無音区間検出部3と、無音区間の交点により経路を
制限したパターンマツチングにより入力パターンと標準
パターンの類似度を計算する類似度計算部4と、過去に
通過したQ点の交点を記憶するバックポインター記憶部
6を設けたことにより、1回のパターンマツチングで経
路限定の全ての可能性を考慮することができ、計算時間
を増加させずに誤認識を防止しまた対象外音声入力時に
極力リジェクトすることができる。
発明の効果
以上のように本発明は、音声パターン中の無音区間を検
出しその位置を記憶する無音区間検出部と、入力パター
ンと標準パターンの無音区間点の交点を通過するように
制限したパターンマツチングを、累積距離算出時にバッ
クポインターを用いて過去の通過した最適な無音区間点
の交点を記憶しながら計算する類似度計算部を設けたこ
とにより、エネルギー包絡線に対応したパターンマツチ
ングが可能になり、また1回のパターンマツチング計算
ですべての無音区間点の対応のさせ方を考慮しているこ
とから、処理時間を増加させずに類似単語間の誤認識を
抑え、対象外単語が入力された時にも極力リジェクトす
ることのできる音声認識装置を提供することができる。
出しその位置を記憶する無音区間検出部と、入力パター
ンと標準パターンの無音区間点の交点を通過するように
制限したパターンマツチングを、累積距離算出時にバッ
クポインターを用いて過去の通過した最適な無音区間点
の交点を記憶しながら計算する類似度計算部を設けたこ
とにより、エネルギー包絡線に対応したパターンマツチ
ングが可能になり、また1回のパターンマツチング計算
ですべての無音区間点の対応のさせ方を考慮しているこ
とから、処理時間を増加させずに類似単語間の誤認識を
抑え、対象外単語が入力された時にも極力リジェクトす
ることのできる音声認識装置を提供することができる。
第1図は本発明の一実施例の音声認識装置のブロック構
成図、第2図は同装置の動作説明図であ1・・争マイク
ロホン、2φ・・音声分析部、3・・・無音区間検出部
、4e・番類似度計算部、5・・・記憶部、6・・Φバ
ックポインター記憶部、7・・@認識判定部。
成図、第2図は同装置の動作説明図であ1・・争マイク
ロホン、2φ・・音声分析部、3・・・無音区間検出部
、4e・番類似度計算部、5・・・記憶部、6・・Φバ
ックポインター記憶部、7・・@認識判定部。
Claims (2)
- (1)入力音声からエネルギー系列を含む特徴ベクトル
の時系列を出力する音声分析部と、前記音声分析部から
出力されるエネルギー系列から音声パターン中の無音声
部分を検出する無音区間検出部と、前記無音区間検出部
により得られる入力パターンと予め辞書に記憶された各
標準パターンとの無音区間点の交点でパターンマッチン
グ経路を限定するパターンマッチング距離計算を、無音
区間点検出誤りを考慮して、可能性のある全ての無音区
間点の交点により限定されたマッチング経路上で距離計
算を行い両者間の類似度を算出する類似度計算部とを備
えたことを特徴とする音声認識装置。 - (2)類似度計算部は、各点での累積距離計算時にその
点に到達するまでにどの無音区間点の交点をマッチング
経路が通過してきたかを記憶するバックポインターを有
することを特徴とする請求項1記載の音声認識装置
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63155259A JPH01321498A (ja) | 1988-06-23 | 1988-06-23 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63155259A JPH01321498A (ja) | 1988-06-23 | 1988-06-23 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH01321498A true JPH01321498A (ja) | 1989-12-27 |
Family
ID=15602006
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63155259A Pending JPH01321498A (ja) | 1988-06-23 | 1988-06-23 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH01321498A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07261782A (ja) * | 1994-03-22 | 1995-10-13 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6073698A (ja) * | 1983-09-30 | 1985-04-25 | 松下電器産業株式会社 | パタ−ン比較装置 |
| JPS62265699A (ja) * | 1986-05-14 | 1987-11-18 | 富士通株式会社 | 単語音声認識装置 |
| JPS62275300A (ja) * | 1986-05-16 | 1987-11-30 | 沖電気工業株式会社 | 連続音声認識方法 |
| JPS63121099A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 音声認識装置 |
-
1988
- 1988-06-23 JP JP63155259A patent/JPH01321498A/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6073698A (ja) * | 1983-09-30 | 1985-04-25 | 松下電器産業株式会社 | パタ−ン比較装置 |
| JPS62265699A (ja) * | 1986-05-14 | 1987-11-18 | 富士通株式会社 | 単語音声認識装置 |
| JPS62275300A (ja) * | 1986-05-16 | 1987-11-30 | 沖電気工業株式会社 | 連続音声認識方法 |
| JPS63121099A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 音声認識装置 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07261782A (ja) * | 1994-03-22 | 1995-10-13 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20220343895A1 (en) | User-defined keyword spotting | |
| US5613037A (en) | Rejection of non-digit strings for connected digit speech recognition | |
| US6922668B1 (en) | Speaker recognition | |
| JPH04255900A (ja) | 音声認識装置 | |
| Morris et al. | Combining phonetic attributes using conditional random fields. | |
| Dawalatabad et al. | Novel architectures for unsupervised information bottleneck based speaker diarization of meetings | |
| JPH02186398A (ja) | 連続音声認識装置 | |
| JPH0247760B2 (ja) | ||
| Lim et al. | CNN-based bottleneck feature for noise robust query-by-example spoken term detection | |
| JPH01321498A (ja) | 音声認識装置 | |
| JPH09292899A (ja) | 音声認識装置 | |
| JP3039095B2 (ja) | 音声認識装置 | |
| JP3291073B2 (ja) | 音声認識方式 | |
| JPH01185599A (ja) | 音声認識装置 | |
| KR20060062287A (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
| JPS62111295A (ja) | 音声認識装置 | |
| JPH0333280B2 (ja) | ||
| JPS6129897A (ja) | パタ−ン比較装置 | |
| JPH02148100A (ja) | 音声認識装置 | |
| JPH0336436B2 (ja) | ||
| JPH03278097A (ja) | 音声認識装置 | |
| JPS63121099A (ja) | 音声認識装置 | |
| JPH02298996A (ja) | 単語音声認識装置 | |
| JPS5977500A (ja) | 単語音声認識方式 | |
| JPS5972498A (ja) | パタ−ン比較装置 |