JPH01321498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH01321498A
JPH01321498A JP63155259A JP15525988A JPH01321498A JP H01321498 A JPH01321498 A JP H01321498A JP 63155259 A JP63155259 A JP 63155259A JP 15525988 A JP15525988 A JP 15525988A JP H01321498 A JPH01321498 A JP H01321498A
Authority
JP
Japan
Prior art keywords
pattern
speech
input
silent
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63155259A
Other languages
English (en)
Inventor
Takeshi Norimatsu
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63155259A priority Critical patent/JPH01321498A/ja
Publication of JPH01321498A publication Critical patent/JPH01321498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、入力音声パターンと各標準パターンとのパタ
ーンマツチングにより認識結果を導き出す音声認識装置
に関するものである。
従来の技術 一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマツチング(以下、DPマツチングと記す。)
が使用されている。特に、単語音声認識装置では、この
DPマツチング法により高い認識率を得ている。 (例
えば、 「ダイナミック プログラミングオプティミゼ
イション フォ スポークン ワ−ド レコグニション
J  (H,5akoe and S 、Ch lba
 +”Dynamlc programmlng  o
ptlmlzatlon  for  5porken
 word  recognltlon”、IEEE 
 trans、Acoustlc、5peech、Si
gnal  Processing、yol、As5P
−27pp、33G−349゜発明が解決しようとする
課題 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のDPマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、 「
大阪」と「大分」とはエネルギー系列で見ると、前者は
三つ、後者は二つのエネルギーの山があり明らかに異な
った二つのパターンであるが、音韻的には似通っている
ためDPマツチングにより距離が小さくなってしまい誤
認識を生じる場合がある。
また、類似した音声パターン間のDPマツチングでは、
音声パターン全体に渡ってDPマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を何していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりPマツチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のりクエクト
性能を高めることのできる音声認識装置を提供するもの
である。
課題を解決するための手段 本発明の音声認識装置は入力音声からエネルギー系列を
含む特徴ベクトルの時系列を出力する音声分析部と、前
記音声分析部から出力されるエネルギー系列から無音区
間を検出する無音区間検出部と、前記無音区間検出部で
得られた入力パターン及び標準パターンの無音区間点の
交点でマツチング経路を限定するパターンマツチングを
全ての可能な経路上で計算し、その際各点での累積距離
計算時にそれ以前にどの無音区間点の交点を通過してき
たかをバックポインターとして記憶する類似度計算部と
を備えたことを特徴とする。
作用 本発明は上記に述べた構成によって、あらかじめ標準パ
ターンの無音区間を検出し、バックポインターに以前の
通過点を記憶させながらパターンマツチングを実行する
ことにより一度のDPマツチングの実行により、無音区
間点の検出誤りを考慮した全ての無音区間点の対応のさ
せ方を含んだ距離計算ができることにより、パターンマ
ツチングに要する処理時間を増加させずに類似パターン
間の誤認識および極端なマツチングによる誤認識を極力
抑えることができ、さらに認識対象外単語が入力された
蒔には極力リジェクトすることができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声信号を入力す
るマイクロホン(電話機のハンドセット等でもよい。)
2は音声分析部で、入力された音声信号から特徴ベクト
ルの時系列を抽出する。3は無音区間検出部で、音声の
エネルギー値時系列から無音部分を検出し後続のエネル
ギーの立ち上がりのフレーム位置を記憶する。4は類似
度計算部で入力パターンと標準パターンの無音区間点の
交点で経路を限定したパターンマツチングを行う。5は
記憶部で入力パターン及び全ての標準パターンの特徴ベ
クトルの時系列と無音区間点を記憶する。6はバックポ
インター記憶部で各点での累積距離計算時にその点に到
達する以前に通過した無音区間点の交点を記憶する。7
は認識判定部で類似度計算部4で得られた距離値のうち
最小距離を与える標準パターンを認識候補音声とする。
第2図は第1図に示した装置の説明図である。
次に上記音声認識装置の動作を説明する。
まず、マイクロホン1から音声を入力し、音声分析部2
で入力音声信号をアナログ−ディジタル変換しさらに音
声の特徴ベクトルの時系列(例えば、10次の線形予測
係数)とエネルギー系列とを求め、記憶部5に記憶する
。次に、無音区間検出部3で、音声分析部2でメモリに
記憶されたエネルギー系列からエネルギー値が予め定め
られた閾値を下回る区間が一定時間TOを超える区間を
無音区間として検出し、その無音区間の個数と各無音区
間の後続のエネルギーの立ち上がりのフレーム位置(以
下このフレーム位置をQ点と呼ぶことにする。)を記憶
する。なお、あらかじめ各標準パターンの特徴ベクトル
の時系列及び各標準パターンの無音区間の個数とその後
続のエネルギーの立ち上がりのフレーム位置が記憶部5
に記憶されているものとする。次に類似度計算部4で、
入力された音声パターンは各標準パターンとの間で無音
区間検出部3で検出されたQ点によりマツチング経路を
拘束したパターンマツチング(例えばDPマツチング法
)を行う。以下パターンマツチングの動作をここでは簡
単のために入力パターン、標準パターンにそれぞれQ点
が2個ずつ存在する場合について説明する。
ここで入力パターンの始点及び終点をそれぞれQ+a 
(= 1 ) 、Q10、標準パターンの始点、終点を
それぞれQR9(= 1 ) 、QR3とする。また、
入力パターン、標準パターンのQ点を始点に近い方から
それぞれQ ++s  Q 12及びQ R+、QR2
とし各Q点同志の2次元平面上の交点をそれぞれ(QI
IIQRI)(QRIQ−2)(Q−2Q−1)(QR
20R2)とする。
これらの様子は第2図に示している。またここでは簡単
のために整合窓による制限は考えないこととする。
パターンマツチングは入力パターン、標準パターン上で
検出されたQ点同志を対応させた交点上でマツチング経
路を制限して行うが、Q点の検出を誤った場合を考慮す
ると第2図に示した■■■の3種類の経路を考える必要
がある。パターンマツチングの漸化式としてここでは次
式を考える。
g(1,1):d(1,1)          −−
−−−(1)g(1+j)=mln(g(11,J) 
+g(1−1+j−ILg(1−1,j−2))+d(
1,j)        −−−−(2)g(1,j)
=g(1+1)=co(1,J=2.3.* e e 
e )ここでg(i、j)、d(i、j)はそれぞれ(
t、j)における累積距離及びベクトル間距離を表す。
また点(t、j)でのバックポインターをb(i、j)
とし、初期値として b(1,1)E(1,1)とする。
まずi”Lj=1としてjをインクリメントしながら上
記の漸化式に従い累積距離gを計算し、j ”QIIE
まで処理し終わるとiをインクリメントし同様に処理を
続ける。各点(i、j)でのバックポインターは以下の
ようにして求める。
!=Q+に+かつj=QR+のとき(但しに、 I=1
.2)b (i+  j ) E (Q+b+  QR
I)i f−Q Ikl  又はj≠QRIのとき(但
しに、 I:l 、2)(i、  j)がQ、、<i≦
Q +に4+  かつQRI<j≦QR1+1 の範囲内にある時、漸化式(2)の右辺第1項の最小値
となるgOに対応するバックポインターの内容をb(i
、j)とする。但しここでb(i。
j)として取り得る点(Qll、QR,)は、 (m=
kかつn=1)または(n= 1かつm=k )でなけ
ればならない。
こうして得られたバックポインターb(i、j)はバッ
クポインター記憶部6に記憶される。こうして最終的に
得られた点(Q10.QR3)での累積距離は第2図の
3種類の経路をすべて考慮した最も最適な限定された経
路を選んだ時の類似度となる。
各標準パターンとの類似度がすべて計算されたのちに、
認識判定部7で類似度の最大なる標準パターンを認識候
補音声として判定し外部に出力する。
以上のように本実施例によれば、音声の無音区間を検出
する無音区間検出部3と、無音区間の交点により経路を
制限したパターンマツチングにより入力パターンと標準
パターンの類似度を計算する類似度計算部4と、過去に
通過したQ点の交点を記憶するバックポインター記憶部
6を設けたことにより、1回のパターンマツチングで経
路限定の全ての可能性を考慮することができ、計算時間
を増加させずに誤認識を防止しまた対象外音声入力時に
極力リジェクトすることができる。
発明の効果 以上のように本発明は、音声パターン中の無音区間を検
出しその位置を記憶する無音区間検出部と、入力パター
ンと標準パターンの無音区間点の交点を通過するように
制限したパターンマツチングを、累積距離算出時にバッ
クポインターを用いて過去の通過した最適な無音区間点
の交点を記憶しながら計算する類似度計算部を設けたこ
とにより、エネルギー包絡線に対応したパターンマツチ
ングが可能になり、また1回のパターンマツチング計算
ですべての無音区間点の対応のさせ方を考慮しているこ
とから、処理時間を増加させずに類似単語間の誤認識を
抑え、対象外単語が入力された時にも極力リジェクトす
ることのできる音声認識装置を提供することができる。
【図面の簡単な説明】
第1図は本発明の一実施例の音声認識装置のブロック構
成図、第2図は同装置の動作説明図であ1・・争マイク
ロホン、2φ・・音声分析部、3・・・無音区間検出部
、4e・番類似度計算部、5・・・記憶部、6・・Φバ
ックポインター記憶部、7・・@認識判定部。

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声からエネルギー系列を含む特徴ベクトル
    の時系列を出力する音声分析部と、前記音声分析部から
    出力されるエネルギー系列から音声パターン中の無音声
    部分を検出する無音区間検出部と、前記無音区間検出部
    により得られる入力パターンと予め辞書に記憶された各
    標準パターンとの無音区間点の交点でパターンマッチン
    グ経路を限定するパターンマッチング距離計算を、無音
    区間点検出誤りを考慮して、可能性のある全ての無音区
    間点の交点により限定されたマッチング経路上で距離計
    算を行い両者間の類似度を算出する類似度計算部とを備
    えたことを特徴とする音声認識装置。
  2. (2)類似度計算部は、各点での累積距離計算時にその
    点に到達するまでにどの無音区間点の交点をマッチング
    経路が通過してきたかを記憶するバックポインターを有
    することを特徴とする請求項1記載の音声認識装置
JP63155259A 1988-06-23 1988-06-23 音声認識装置 Pending JPH01321498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63155259A JPH01321498A (ja) 1988-06-23 1988-06-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63155259A JPH01321498A (ja) 1988-06-23 1988-06-23 音声認識装置

Publications (1)

Publication Number Publication Date
JPH01321498A true JPH01321498A (ja) 1989-12-27

Family

ID=15602006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63155259A Pending JPH01321498A (ja) 1988-06-23 1988-06-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPH01321498A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261782A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073698A (ja) * 1983-09-30 1985-04-25 松下電器産業株式会社 パタ−ン比較装置
JPS62265699A (ja) * 1986-05-14 1987-11-18 富士通株式会社 単語音声認識装置
JPS62275300A (ja) * 1986-05-16 1987-11-30 沖電気工業株式会社 連続音声認識方法
JPS63121099A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073698A (ja) * 1983-09-30 1985-04-25 松下電器産業株式会社 パタ−ン比較装置
JPS62265699A (ja) * 1986-05-14 1987-11-18 富士通株式会社 単語音声認識装置
JPS62275300A (ja) * 1986-05-16 1987-11-30 沖電気工業株式会社 連続音声認識方法
JPS63121099A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261782A (ja) * 1994-03-22 1995-10-13 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Similar Documents

Publication Publication Date Title
US20220343895A1 (en) User-defined keyword spotting
US5613037A (en) Rejection of non-digit strings for connected digit speech recognition
US6922668B1 (en) Speaker recognition
JPH04255900A (ja) 音声認識装置
Morris et al. Combining phonetic attributes using conditional random fields.
Dawalatabad et al. Novel architectures for unsupervised information bottleneck based speaker diarization of meetings
JPH02186398A (ja) 連続音声認識装置
JPH0247760B2 (ja)
Lim et al. CNN-based bottleneck feature for noise robust query-by-example spoken term detection
JPH01321498A (ja) 音声認識装置
JPH09292899A (ja) 音声認識装置
JP3039095B2 (ja) 音声認識装置
JP3291073B2 (ja) 音声認識方式
JPH01185599A (ja) 音声認識装置
KR20060062287A (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
JPS62111295A (ja) 音声認識装置
JPH0333280B2 (ja)
JPS6129897A (ja) パタ−ン比較装置
JPH02148100A (ja) 音声認識装置
JPH0336436B2 (ja)
JPH03278097A (ja) 音声認識装置
JPS63121099A (ja) 音声認識装置
JPH02298996A (ja) 単語音声認識装置
JPS5977500A (ja) 単語音声認識方式
JPS5972498A (ja) パタ−ン比較装置