JPS6328320B2 - - Google Patents
Info
- Publication number
- JPS6328320B2 JPS6328320B2 JP55023795A JP2379580A JPS6328320B2 JP S6328320 B2 JPS6328320 B2 JP S6328320B2 JP 55023795 A JP55023795 A JP 55023795A JP 2379580 A JP2379580 A JP 2379580A JP S6328320 B2 JPS6328320 B2 JP S6328320B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- detecting
- audio
- peak
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
本発明はパターンマツチング法に基づく単語音
声認識装置に関し、音声信号の新規な整合方式を
提供するものである。パターンマツチングの原理
による単語音声認識システムは、通常第1図に示
すが如く、音声入力部1、特徴抽出部2、認識処
理部3、登録パターンメモリ4、並びに入力パタ
ーンメモリ5を主要な構成要素とし、登録モード
と認識モードの2つの動作モードを有する。登録
モードは、認識すべき単語音声をあらかじめ登録
するものであつて、マイクロフオンを含む音声入
力部1の出力である登録音声信号から特徴抽出部
2により抽出された音声の特徴が時系列パターン
として登録パターンメモリ(又は標準パターンメ
モリとも言う)4にフアイルされるものである。
また認識モードでは、入力音声信号から同様に抽
出された音声の特徴パターンが入力パターンメモ
リ5に記憶された後、この入力パターンと登録パ
ターンメモリ4に記憶されている登録パターンと
の類似度が認識処理部3で計算され、その結果と
して得られる類似度の最大の登録パターンが入力
音声と一致するものとして固定されこれに相応し
て適当に出力がなされる。このような機能を有す
る第1図の認識処理部3と登録パターンメモリ
4、入力パターンメモリ5の構成は、中央演算処
理装置(CPU)を中心とするコンピユータシス
テムにより具体化される。音声波形の中から、音
声の音韻的特徴を抽出する方法としては、周波数
スペクトル、相関関数、ゼロ交差数、αパラメー
タなどの物理量が用いられている事は周知の通り
である。このうち、音声の周波数スペクトルを多
数のバンドパスフイルタを用いて抽出する方式
は、比較的簡単な構成で高い認識率が得られるの
で多用されつつある。第2図は周波数スペクトル
をフイルタにより分析する方式の音声認識装置の
具体例である。音声入力部1は、マイクロフオン
11マイクアンプ12及び入力音声信号のレベル
を入力音声の強弱にかかわらず略一定に保つ
AGC回路13から成る。この入力部1の出力に
接続する。M個の帯域通過フイルタ(以下BPF
と略記)21−1,21−2,…21−M及び該
各BPFに縦続し各出力エンベロープを検出する
低域通過フイルタ(以下LPFと略記)22−1,
22−2,…22−Mは特徴抽出部2を構成して
おり、音声帯域信号を周波数分析するものであ
る。音声入力部1を経た音声信号の各フイルタ成
分は適当な時間周期(多くの場合10〜20msec)
で順次マルチプレクサ23によりサンプリングさ
れる。即ちLPF22−1,22−2,…22−
Mの出力端い並列的に得られる音声のスペクトル
信号は直列信号列となり、引き続いて順次アナロ
グデジタル変換器24(以下A−D変換器と略
記)によつてデジタルコードに変換され、CPU
31に制御されるI/Oポート32を経てバツフ
アメモリ33に一旦取り込まれる。このデータ量
は、例えばフイルタの個数Mを8、音声の最大入
力時間を1.6秒、サンプリング周期を10msec、A
−D変換器24のビツト数を8としたとき最大取
り込みデータ量は 1.6/0.01×8×8=10240bits =1.28KB(B:byte) である。 さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路13がしばしば用いられる事はさきに
述べた通りであるが時間軸については単語音声の
始端から終端までの時間を等分割する第3図の如
き方法が一般的である。音声信号の始終端につい
ては音声検出回路25が入力信号のレベル、周波
数分布、零交差数などのデータをもとにこれを検
出する。第3図に於て入力音声信号の始端のサン
プリングポイント番号を1、終端をlとしたと
き、l/N(Nは整数)に最も近い整数を求め
(これをnとする)、入力サンプリングデータのう
ち始端を含めn個おきにN個のデータを取り出し
て並べなおす(第3図b)ことにより時間軸の正
規化が可能となる。ここで例えばN=32とする
と、この場合 N×8×8=2048bits=256B のデータが登録モードに於ては登録パターンメモ
リ40に、認識モードに於ては入力パターンメモ
リ50にそれぞれ記憶される。これらメモリは通
常RAMであり、登録パターンメモリ40の番地
(アドレス)はCPUのプログラムを記憶する
ROM34及び入力制御部35によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。認識モードに於ける認識処理は、同様
にバツフアメモリ33に入力したデータから得ら
れたNサンプル点のデータを記憶する入力パター
ンメモリ50の内容と、登録パターンの内容とを
パターンマツチングすることにより行なわれる。
入力パターンと登録パターンの距離計算方式には
各種の方式が提案されているが、ここでは説明の
便宜上最も単純な方式であるチエビシエフ距離に
より説明する。ある単語音声の登録パターンの8
個のフイルタの時系列[fij(R)](i:フイルタ番
号1〜8、j:サンプルポイント1〜N)と入力
音声パターンの同じくフイルタ時条列〔fij〕の
チエビシエフ距離Dは次式で定義される。 D=N 〓j=1 8 〓i=1 |fij−fij(R)| ……(1) 即ちこれは入力パターンfijと登録パターンfij(R)
の各対応するデータの差の絶対値の総和であり、
各登録パターンについて得られたチエビシエフ距
離の中で最小値が得られる登録パターンと、入力
パターンは一致するものと見なされる。これらの
計算結果の一時記憶の為のメモリ領域を説明の便
宜上特に認識処理用メモリ36として図示した。 以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では入力パターン
と登録パターンの各対応する時間点での距離の差
の総和により類似度を計算するものであり、回路
構成が簡単であるという特徴を有するものの、計
算上の誤差は多く、必ずしも十分な認識性能を得
ることが出来るとは言い難い面があつた。 本発明はかかる認識処理に加え、波形の形状を
ピーク位置及びピーク数として把握し、これを類
似度計算時補助的なデータとして参考することに
より更に精度の高い認識処理を行なうものであ
る。 第4図は本発明装置の構成を示すブロツク図で
あり、第2図に示した従来装置と相違するところ
は、入力部1とマルチプレクサ23との間に適当
な遮断周波数を持ち、信号の包絡線(エンベロー
プ)を検出するLPF26に依るバイパス路を設
けた点、並びにA−D変換器24とI/Oポート
32との間に音声の極大値を検出するピーク検出
回路27を配挿した点にある。尚、この第4図の
構成物は第2図のものと殆どが同一であるので、
これ等の点に就いての詳細な説明は省略する。こ
のピーク検出回路27は入力音声信号波形のピー
クを検出し、その検出信号をI/Oポート32を
介してCPU31に伝えるものであり、CPU31
はこれより各ピーク位置のサンプリングポイント
番号を、各フイルタ出力列と共にバツフアレジス
タ33に格納する。従つて本発明実施例の場合該
バツフアレジスタの記憶容量は、さきに計算され
た第2図の従来装置の場合(1.28KB)に比較し
適当量増やされる。バツフアレジスタ33に対す
る全サンプリングデータの記憶と、ピーク位置
(サンプリングポイント番号)の記憶が完了する
と、CPU31は時間軸を正規化する為、全サン
プリングデータの中から、音声信号の終始端をN
等分するN個のデータを抽出すると同時に、同様
に各ピーク位置のサンプリングポイント番号を終
端のサンプリングポイント番号により除して得ら
れる正規化されたピーク位置、及びその個数を前
記N個のデータと共に前記入力パターンメモリ5
0或いは登録パターンメモリ40の当該部位に各
収納される。 入力音声信号のピーク位置を検出する回路27
の具体例を第5図に示した。LPF26により検
出された信号包絡線データは、マルチプレクサ2
3、A−D変換器24を経てデジタルコードとし
てラツチ回路61に入力し保持される。図の場合
A−D変換器24の出力は8ビツトパラレルであ
り、ラツチ回路61は前記マルチプレクサ23が
LPF26の出力をサンプリングするタイミング
パルスの適当分周と同期してA−D変換器24の
出力をラツチし、続いて適当な時間差をもつてそ
の保持内容を縦続する同一記憶容量のラツチ62
に転送する。通常アナログマルチプレクサは、ク
ロツクパルスに応動し、複数の入力端子のひとつ
を選定指定するために該クロツクパルスと同時に
与えられる2進コードに従つて順次入力をその出
力端子にスイツチする形式をとるものが多い。本
発明に於てもこの形式のものを採用し、CPU3
1からI/Oポート32を介して与えられる。ア
ナログマルチプレクサ23のサンプリングクロツ
クパルス63(これはA−D変換器24のコンバ
ートコマンドパルスと同じ)と、同じくCPU3
1からI/Oポート32を介して与えられるアナ
ログマルチプレクサ23の入力指定コード64の
うちLPF26の指定コードを検出する一致回路
65との論理和ゲート66出力をK分周(Kは1
以上の適当な整数で一定)する分周回路67の出
力に応じ、前記第一のラツチ61はその時A−D
変換器24の出力に与えられる、LPF26の出
力のデジタルコード変換を記憶保持する。更に該
K分周回路の出力を適当時間(TD)遅延する回
路68の後述する論理和(AND)ゲート69出
力に応じて第二のラツチ62は、第一のラツチ6
1の保持内容を同様に記憶保持する。ここで、前
記クロツクパルスの周期を(TC)、サンプリング
が等時間間隔で行なわれる場合、帯域分割フイル
タの個数を(M+1個)とするとサンプリング周
期(TS)は、(M+1)TC従つて前記K分周回路
67出力周期は、KTS=K(M+1)TC、である
ので当然遅延回路68の遅延時間(TD)は、O
<TD<K(M+1)TC、である。サンプリング周
期(TS)は前述の如く具体的には10〜20msecの
時間が選ばれる。尚、波形の振巾エンベロープを
検出する検出回路26は帯域分割フイルタ21−
1,21−2,…,21−M及びそれぞれに縦続
するLPF22−1,22−2,…,22−Mの
比較的低周波域のものでこれを代用する事が出
来、この場合省略されて前記説明での(M+1)
はMとなる。 さてこの様な構成によれば、第一のラツチ61
がJ番目(JはKの倍数)のサンプリングポイン
トのデータをラツチした時、第二のラツチ62は
(J−K)番目のサンプリングデータを保持して
いることになる。該ラツチ62の8ビツトデータ
は補数回路70を経て2の補数表現に変換された
後、その上位Lビツト(Lは整数で1≦L≦8)
と第一のラツチ61の同じく上位Lビツトとの加
算が加算回路71により計算される。補数回路7
0及び加算回路71は、即ち第一のラツチ61と
第二のラツチ62の記憶内容の上位Lビツトにつ
いての差をとるものであり、その結果の正負が加
算回路71の最上位桁(MSB)72に示される。
このMSB72が0の時、減算の結果は正又は0
で、サンプル値列は増加しつつあるか又は変化が
無い事を示し、MSB72が1の時、減算の結果
は負でサンプル値列は減少していることがわか
る。MSB72の内容は前記第二のラツチ62の
ラツチ信号73と同期して1ビツトメモリ74に
転送記憶され、これとMSB72との排他的論理
和(EXCLUSIVE OR)がNORゲート75によ
り演算される。この構成により、第一、第二のラ
ツチ回路61,62に順次入力するサンプリング
データの差分に変化が生じた時、前記ゲート75
は論理「1」を出力し、この時前記加算回路71
のMSB72が論理「1」であればサンプリング
データ列の差の変化は正から負、即ち極大点があ
つた事になり、これらの論理和をとる出力AND
ゲート76の出力によりこれを知ることが出来
る。また加算回路71の出力が0(ゼロ)であれ
ば、一致回路である論理和ゲート77がこれを検
知して、インバータ78、ANDゲート69を介
して、ラツチ62及び74に対するラツチパルス
回路73の出力を遮断し、それぞれに対するデー
タの転送を停止する。これにより波形の一時的平
担部を極値と誤判断する事をさけ得る。 尚、この第5図に於ける各箇所の信号波形図を
第6図に示す。この第6図に於て、Aはサンプリ
ングクロツクパルス63、Bは論理和ゲート66
出力、Cは分周回路67出力、Dは補数回路70
並びに加算回路71に依る減算タイミング、Eは
遅延回路68の遅延出力、Fは出力ANDゲート
76からの出力、を夫々示している。 上記の構成に於て、K分周回路67によりサン
プリングをK個おきに行なう事及びサンプリング
データの差分計算に於て下位(8−L)ビツトを
省略することは、いずれも波形の微小なピークの
検出をさけ、これを無視する為であり、遮断周波
数を50〜100Hzに選ぶことによつて得られるLPF
26の効果とあわせて波形の概略形状を把握する
のに効果的である。又、上記の波形のピーク位置
検出回路は特にこのような構成のみならず、例え
ば適当にプログラムされたCPUシステムによつ
ても実現できる事は論を待たない。 さてこのように検出された波形のピーク位置及
びその個数は、音声のデータとして入力パターン
メモリ50或いは登録パターンメモリ40に記憶
されるが、認識処理計算である類似度判定に於て
これらデータを使用する方法を次に述べる。 そのひとつは、まず従来同様サンプリングデー
タによりまず距離計算を行ない、その結果として
得られる類似度の高い登録パターンの中からその
順にいくつかを選びその中でピーク数の同数であ
るパターンを選び、これで特定できない時、各対
応するピーク間隔の差の絶対値の和により判定す
る方法である。 又、逆にピーク数及びピーク間隔の比較により
あらかじめ登録パターンをある程度限定し、これ
らについて従来同様距離計算による類似度判定を
行なう方法もある。これらの方法の得失は一概に
決められないが実験結果では前者の方式Aが後者
(方式B)にくらべ下表のように高い認識率の向
上結果が得られている。しかしながら全計算時間
は後者が短かく従つてこれら方式の選択はシステ
ム設計上の総合的な判断にゆだねられる。尚、こ
の表に於ける実験方法は、 (1) 成人男子5名、試行回数各単語音声につき各
4回、 (2) 登録語数32語 (3) A、B、両方式につき同一音声をテープレコ
ーダに依り入力。
声認識装置に関し、音声信号の新規な整合方式を
提供するものである。パターンマツチングの原理
による単語音声認識システムは、通常第1図に示
すが如く、音声入力部1、特徴抽出部2、認識処
理部3、登録パターンメモリ4、並びに入力パタ
ーンメモリ5を主要な構成要素とし、登録モード
と認識モードの2つの動作モードを有する。登録
モードは、認識すべき単語音声をあらかじめ登録
するものであつて、マイクロフオンを含む音声入
力部1の出力である登録音声信号から特徴抽出部
2により抽出された音声の特徴が時系列パターン
として登録パターンメモリ(又は標準パターンメ
モリとも言う)4にフアイルされるものである。
また認識モードでは、入力音声信号から同様に抽
出された音声の特徴パターンが入力パターンメモ
リ5に記憶された後、この入力パターンと登録パ
ターンメモリ4に記憶されている登録パターンと
の類似度が認識処理部3で計算され、その結果と
して得られる類似度の最大の登録パターンが入力
音声と一致するものとして固定されこれに相応し
て適当に出力がなされる。このような機能を有す
る第1図の認識処理部3と登録パターンメモリ
4、入力パターンメモリ5の構成は、中央演算処
理装置(CPU)を中心とするコンピユータシス
テムにより具体化される。音声波形の中から、音
声の音韻的特徴を抽出する方法としては、周波数
スペクトル、相関関数、ゼロ交差数、αパラメー
タなどの物理量が用いられている事は周知の通り
である。このうち、音声の周波数スペクトルを多
数のバンドパスフイルタを用いて抽出する方式
は、比較的簡単な構成で高い認識率が得られるの
で多用されつつある。第2図は周波数スペクトル
をフイルタにより分析する方式の音声認識装置の
具体例である。音声入力部1は、マイクロフオン
11マイクアンプ12及び入力音声信号のレベル
を入力音声の強弱にかかわらず略一定に保つ
AGC回路13から成る。この入力部1の出力に
接続する。M個の帯域通過フイルタ(以下BPF
と略記)21−1,21−2,…21−M及び該
各BPFに縦続し各出力エンベロープを検出する
低域通過フイルタ(以下LPFと略記)22−1,
22−2,…22−Mは特徴抽出部2を構成して
おり、音声帯域信号を周波数分析するものであ
る。音声入力部1を経た音声信号の各フイルタ成
分は適当な時間周期(多くの場合10〜20msec)
で順次マルチプレクサ23によりサンプリングさ
れる。即ちLPF22−1,22−2,…22−
Mの出力端い並列的に得られる音声のスペクトル
信号は直列信号列となり、引き続いて順次アナロ
グデジタル変換器24(以下A−D変換器と略
記)によつてデジタルコードに変換され、CPU
31に制御されるI/Oポート32を経てバツフ
アメモリ33に一旦取り込まれる。このデータ量
は、例えばフイルタの個数Mを8、音声の最大入
力時間を1.6秒、サンプリング周期を10msec、A
−D変換器24のビツト数を8としたとき最大取
り込みデータ量は 1.6/0.01×8×8=10240bits =1.28KB(B:byte) である。 さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路13がしばしば用いられる事はさきに
述べた通りであるが時間軸については単語音声の
始端から終端までの時間を等分割する第3図の如
き方法が一般的である。音声信号の始終端につい
ては音声検出回路25が入力信号のレベル、周波
数分布、零交差数などのデータをもとにこれを検
出する。第3図に於て入力音声信号の始端のサン
プリングポイント番号を1、終端をlとしたと
き、l/N(Nは整数)に最も近い整数を求め
(これをnとする)、入力サンプリングデータのう
ち始端を含めn個おきにN個のデータを取り出し
て並べなおす(第3図b)ことにより時間軸の正
規化が可能となる。ここで例えばN=32とする
と、この場合 N×8×8=2048bits=256B のデータが登録モードに於ては登録パターンメモ
リ40に、認識モードに於ては入力パターンメモ
リ50にそれぞれ記憶される。これらメモリは通
常RAMであり、登録パターンメモリ40の番地
(アドレス)はCPUのプログラムを記憶する
ROM34及び入力制御部35によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。認識モードに於ける認識処理は、同様
にバツフアメモリ33に入力したデータから得ら
れたNサンプル点のデータを記憶する入力パター
ンメモリ50の内容と、登録パターンの内容とを
パターンマツチングすることにより行なわれる。
入力パターンと登録パターンの距離計算方式には
各種の方式が提案されているが、ここでは説明の
便宜上最も単純な方式であるチエビシエフ距離に
より説明する。ある単語音声の登録パターンの8
個のフイルタの時系列[fij(R)](i:フイルタ番
号1〜8、j:サンプルポイント1〜N)と入力
音声パターンの同じくフイルタ時条列〔fij〕の
チエビシエフ距離Dは次式で定義される。 D=N 〓j=1 8 〓i=1 |fij−fij(R)| ……(1) 即ちこれは入力パターンfijと登録パターンfij(R)
の各対応するデータの差の絶対値の総和であり、
各登録パターンについて得られたチエビシエフ距
離の中で最小値が得られる登録パターンと、入力
パターンは一致するものと見なされる。これらの
計算結果の一時記憶の為のメモリ領域を説明の便
宜上特に認識処理用メモリ36として図示した。 以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では入力パターン
と登録パターンの各対応する時間点での距離の差
の総和により類似度を計算するものであり、回路
構成が簡単であるという特徴を有するものの、計
算上の誤差は多く、必ずしも十分な認識性能を得
ることが出来るとは言い難い面があつた。 本発明はかかる認識処理に加え、波形の形状を
ピーク位置及びピーク数として把握し、これを類
似度計算時補助的なデータとして参考することに
より更に精度の高い認識処理を行なうものであ
る。 第4図は本発明装置の構成を示すブロツク図で
あり、第2図に示した従来装置と相違するところ
は、入力部1とマルチプレクサ23との間に適当
な遮断周波数を持ち、信号の包絡線(エンベロー
プ)を検出するLPF26に依るバイパス路を設
けた点、並びにA−D変換器24とI/Oポート
32との間に音声の極大値を検出するピーク検出
回路27を配挿した点にある。尚、この第4図の
構成物は第2図のものと殆どが同一であるので、
これ等の点に就いての詳細な説明は省略する。こ
のピーク検出回路27は入力音声信号波形のピー
クを検出し、その検出信号をI/Oポート32を
介してCPU31に伝えるものであり、CPU31
はこれより各ピーク位置のサンプリングポイント
番号を、各フイルタ出力列と共にバツフアレジス
タ33に格納する。従つて本発明実施例の場合該
バツフアレジスタの記憶容量は、さきに計算され
た第2図の従来装置の場合(1.28KB)に比較し
適当量増やされる。バツフアレジスタ33に対す
る全サンプリングデータの記憶と、ピーク位置
(サンプリングポイント番号)の記憶が完了する
と、CPU31は時間軸を正規化する為、全サン
プリングデータの中から、音声信号の終始端をN
等分するN個のデータを抽出すると同時に、同様
に各ピーク位置のサンプリングポイント番号を終
端のサンプリングポイント番号により除して得ら
れる正規化されたピーク位置、及びその個数を前
記N個のデータと共に前記入力パターンメモリ5
0或いは登録パターンメモリ40の当該部位に各
収納される。 入力音声信号のピーク位置を検出する回路27
の具体例を第5図に示した。LPF26により検
出された信号包絡線データは、マルチプレクサ2
3、A−D変換器24を経てデジタルコードとし
てラツチ回路61に入力し保持される。図の場合
A−D変換器24の出力は8ビツトパラレルであ
り、ラツチ回路61は前記マルチプレクサ23が
LPF26の出力をサンプリングするタイミング
パルスの適当分周と同期してA−D変換器24の
出力をラツチし、続いて適当な時間差をもつてそ
の保持内容を縦続する同一記憶容量のラツチ62
に転送する。通常アナログマルチプレクサは、ク
ロツクパルスに応動し、複数の入力端子のひとつ
を選定指定するために該クロツクパルスと同時に
与えられる2進コードに従つて順次入力をその出
力端子にスイツチする形式をとるものが多い。本
発明に於てもこの形式のものを採用し、CPU3
1からI/Oポート32を介して与えられる。ア
ナログマルチプレクサ23のサンプリングクロツ
クパルス63(これはA−D変換器24のコンバ
ートコマンドパルスと同じ)と、同じくCPU3
1からI/Oポート32を介して与えられるアナ
ログマルチプレクサ23の入力指定コード64の
うちLPF26の指定コードを検出する一致回路
65との論理和ゲート66出力をK分周(Kは1
以上の適当な整数で一定)する分周回路67の出
力に応じ、前記第一のラツチ61はその時A−D
変換器24の出力に与えられる、LPF26の出
力のデジタルコード変換を記憶保持する。更に該
K分周回路の出力を適当時間(TD)遅延する回
路68の後述する論理和(AND)ゲート69出
力に応じて第二のラツチ62は、第一のラツチ6
1の保持内容を同様に記憶保持する。ここで、前
記クロツクパルスの周期を(TC)、サンプリング
が等時間間隔で行なわれる場合、帯域分割フイル
タの個数を(M+1個)とするとサンプリング周
期(TS)は、(M+1)TC従つて前記K分周回路
67出力周期は、KTS=K(M+1)TC、である
ので当然遅延回路68の遅延時間(TD)は、O
<TD<K(M+1)TC、である。サンプリング周
期(TS)は前述の如く具体的には10〜20msecの
時間が選ばれる。尚、波形の振巾エンベロープを
検出する検出回路26は帯域分割フイルタ21−
1,21−2,…,21−M及びそれぞれに縦続
するLPF22−1,22−2,…,22−Mの
比較的低周波域のものでこれを代用する事が出
来、この場合省略されて前記説明での(M+1)
はMとなる。 さてこの様な構成によれば、第一のラツチ61
がJ番目(JはKの倍数)のサンプリングポイン
トのデータをラツチした時、第二のラツチ62は
(J−K)番目のサンプリングデータを保持して
いることになる。該ラツチ62の8ビツトデータ
は補数回路70を経て2の補数表現に変換された
後、その上位Lビツト(Lは整数で1≦L≦8)
と第一のラツチ61の同じく上位Lビツトとの加
算が加算回路71により計算される。補数回路7
0及び加算回路71は、即ち第一のラツチ61と
第二のラツチ62の記憶内容の上位Lビツトにつ
いての差をとるものであり、その結果の正負が加
算回路71の最上位桁(MSB)72に示される。
このMSB72が0の時、減算の結果は正又は0
で、サンプル値列は増加しつつあるか又は変化が
無い事を示し、MSB72が1の時、減算の結果
は負でサンプル値列は減少していることがわか
る。MSB72の内容は前記第二のラツチ62の
ラツチ信号73と同期して1ビツトメモリ74に
転送記憶され、これとMSB72との排他的論理
和(EXCLUSIVE OR)がNORゲート75によ
り演算される。この構成により、第一、第二のラ
ツチ回路61,62に順次入力するサンプリング
データの差分に変化が生じた時、前記ゲート75
は論理「1」を出力し、この時前記加算回路71
のMSB72が論理「1」であればサンプリング
データ列の差の変化は正から負、即ち極大点があ
つた事になり、これらの論理和をとる出力AND
ゲート76の出力によりこれを知ることが出来
る。また加算回路71の出力が0(ゼロ)であれ
ば、一致回路である論理和ゲート77がこれを検
知して、インバータ78、ANDゲート69を介
して、ラツチ62及び74に対するラツチパルス
回路73の出力を遮断し、それぞれに対するデー
タの転送を停止する。これにより波形の一時的平
担部を極値と誤判断する事をさけ得る。 尚、この第5図に於ける各箇所の信号波形図を
第6図に示す。この第6図に於て、Aはサンプリ
ングクロツクパルス63、Bは論理和ゲート66
出力、Cは分周回路67出力、Dは補数回路70
並びに加算回路71に依る減算タイミング、Eは
遅延回路68の遅延出力、Fは出力ANDゲート
76からの出力、を夫々示している。 上記の構成に於て、K分周回路67によりサン
プリングをK個おきに行なう事及びサンプリング
データの差分計算に於て下位(8−L)ビツトを
省略することは、いずれも波形の微小なピークの
検出をさけ、これを無視する為であり、遮断周波
数を50〜100Hzに選ぶことによつて得られるLPF
26の効果とあわせて波形の概略形状を把握する
のに効果的である。又、上記の波形のピーク位置
検出回路は特にこのような構成のみならず、例え
ば適当にプログラムされたCPUシステムによつ
ても実現できる事は論を待たない。 さてこのように検出された波形のピーク位置及
びその個数は、音声のデータとして入力パターン
メモリ50或いは登録パターンメモリ40に記憶
されるが、認識処理計算である類似度判定に於て
これらデータを使用する方法を次に述べる。 そのひとつは、まず従来同様サンプリングデー
タによりまず距離計算を行ない、その結果として
得られる類似度の高い登録パターンの中からその
順にいくつかを選びその中でピーク数の同数であ
るパターンを選び、これで特定できない時、各対
応するピーク間隔の差の絶対値の和により判定す
る方法である。 又、逆にピーク数及びピーク間隔の比較により
あらかじめ登録パターンをある程度限定し、これ
らについて従来同様距離計算による類似度判定を
行なう方法もある。これらの方法の得失は一概に
決められないが実験結果では前者の方式Aが後者
(方式B)にくらべ下表のように高い認識率の向
上結果が得られている。しかしながら全計算時間
は後者が短かく従つてこれら方式の選択はシステ
ム設計上の総合的な判断にゆだねられる。尚、こ
の表に於ける実験方法は、 (1) 成人男子5名、試行回数各単語音声につき各
4回、 (2) 登録語数32語 (3) A、B、両方式につき同一音声をテープレコ
ーダに依り入力。
【表】
以上に説明したように本発明は音声波形のピー
ク位置及びその個数を検知し、サンプリングデー
タによる類似度計算と共にこれら波形のピークに
関する情報をパターン認識上の判定データとして
用いているので、システム全体の認識性能の向上
を可能ならしめる、きわめて実用性の高い方式を
提供する事が出来る。
ク位置及びその個数を検知し、サンプリングデー
タによる類似度計算と共にこれら波形のピークに
関する情報をパターン認識上の判定データとして
用いているので、システム全体の認識性能の向上
を可能ならしめる、きわめて実用性の高い方式を
提供する事が出来る。
第1図はパターンマツチング原理に依る単語音
声認識装置の概略を示すブロツク図、第2図はそ
の内部構成を示すブロツク図、第3図a,bは音
声信号の波形図、第4図は本発明装置の構成を示
すブロツク図、第5図はその要部の構成を示すブ
ロツク図、第6図は動作説明の為のタイミングチ
ヤート、であつて、1は入力部、2は特徴抽出
部、3は認識処理部、4は登録パターンメモリ、
5は入力パターンメモリ、27はピーク検出回
路、を夫々示している。
声認識装置の概略を示すブロツク図、第2図はそ
の内部構成を示すブロツク図、第3図a,bは音
声信号の波形図、第4図は本発明装置の構成を示
すブロツク図、第5図はその要部の構成を示すブ
ロツク図、第6図は動作説明の為のタイミングチ
ヤート、であつて、1は入力部、2は特徴抽出
部、3は認識処理部、4は登録パターンメモリ、
5は入力パターンメモリ、27はピーク検出回
路、を夫々示している。
Claims (1)
- 1 音声を電気信号に変換する音声入力手段と、
入力音声波形の特徴を抽出する特徴抽出手段と、
サンプリング手段と、サンプリングされた音声の
特徴をデイジタルコードに変換する変換手段と、
音声信号の始終端を検出する始終端検出手段と、
音声信号の振巾を検出する振巾検出手段と、この
振巾検出手段の上記サンプリング手段に依るサン
プリング値の差分を検出する差分検出手段と、そ
の差分の符号変化を検出する変化検出手段と、こ
の差分符号の検出手段に応動するピーク検出手段
と、該ピーク検出手段の出力からピーク数並びに
ピーク間隔を算定計数する手段と、予め登録の為
に入力した音声の特徴及びピーク情報を記憶する
登録パターン記憶手段と、音声入力の都度入力音
声の特徴及びピーク情報を記憶する入力パターン
記憶手段と、これ等の登録パターン記憶手段の内
容と入力パターン記憶手段の内容との類似度を計
算すると共に前記両ピーク情報を比較することに
よりパターン認識を行なう認識処理手段と、から
成るパターンマツチング法を用いた単語音声認識
装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2379580A JPS56119198A (en) | 1980-02-26 | 1980-02-26 | Word voice identifying device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2379580A JPS56119198A (en) | 1980-02-26 | 1980-02-26 | Word voice identifying device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS56119198A JPS56119198A (en) | 1981-09-18 |
| JPS6328320B2 true JPS6328320B2 (ja) | 1988-06-08 |
Family
ID=12120251
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2379580A Granted JPS56119198A (en) | 1980-02-26 | 1980-02-26 | Word voice identifying device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS56119198A (ja) |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5936760B2 (ja) * | 1975-09-29 | 1984-09-05 | 富士通株式会社 | 非線形整合による認識方法 |
| JPS5374807A (en) * | 1976-12-15 | 1978-07-03 | Fujitsu Ltd | Voice recognition matching control system |
-
1980
- 1980-02-26 JP JP2379580A patent/JPS56119198A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS56119198A (en) | 1981-09-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4633499A (en) | Speech recognition system | |
| JP3402748B2 (ja) | 音声信号のピッチ周期抽出装置 | |
| KR100366057B1 (ko) | 인간 청각 모델을 이용한 효율적인 음성인식 장치 | |
| JPS6328320B2 (ja) | ||
| JPS6328319B2 (ja) | ||
| JPS6131880B2 (ja) | ||
| JPH05181498A (ja) | パターン認識装置 | |
| JPS6120880B2 (ja) | ||
| JPS60166993A (ja) | 単語音声認識装置 | |
| JP3035982B2 (ja) | 音声信号のピッチ検出装置 | |
| JPS58159599A (ja) | 単音節音声認識方式 | |
| JP2891259B2 (ja) | 音声区間検出装置 | |
| JPH0319560B2 (ja) | ||
| JPH0115079B2 (ja) | ||
| JPH027000A (ja) | パターン照合方式 | |
| JPS63300298A (ja) | 音声認識装置 | |
| JP2000515991A (ja) | パターン認識 | |
| JPS5923400A (ja) | 音声認識装置 | |
| JPS61290496A (ja) | 音声認識装置 | |
| JPS59124388A (ja) | 単語音声認識処理方式 | |
| JPH0354359B2 (ja) | ||
| JPH04240899A (ja) | 音声認識装置 | |
| JPS5888797A (ja) | 音声認識装置 | |
| JPS63266497A (ja) | 音声認識装置 | |
| JPS61190398A (ja) | 破裂子音認識方式 |