JPS6328320B2

JPS6328320B2 -

Info

Publication number: JPS6328320B2
Application number: JP55023795A
Authority: JP
Inventors: Masaru Nishimura
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1980-02-26
Filing date: 1980-02-26
Publication date: 1988-06-08
Also published as: JPS56119198A

Description

【発明の詳細な説明】

本発明はパターンマツチング法に基づく単語音
声認識装置に関し、音声信号の新規な整合方式を
提供するものである。パターンマツチングの原理
による単語音声認識システムは、通常第１図に示
すが如く、音声入力部１、特徴抽出部２、認識処
理部３、登録パターンメモリ４、並びに入力パタ
ーンメモリ５を主要な構成要素とし、登録モード
と認識モードの２つの動作モードを有する。登録
モードは、認識すべき単語音声をあらかじめ登録
するものであつて、マイクロフオンを含む音声入
力部１の出力である登録音声信号から特徴抽出部
２により抽出された音声の特徴が時系列パターン
として登録パターンメモリ（又は標準パターンメ
モリとも言う）４にフアイルされるものである。
また認識モードでは、入力音声信号から同様に抽
出された音声の特徴パターンが入力パターンメモ
リ５に記憶された後、この入力パターンと登録パ
ターンメモリ４に記憶されている登録パターンと
の類似度が認識処理部３で計算され、その結果と
して得られる類似度の最大の登録パターンが入力
音声と一致するものとして固定されこれに相応し
て適当に出力がなされる。このような機能を有す
る第１図の認識処理部３と登録パターンメモリ
４、入力パターンメモリ５の構成は、中央演算処
理装置（CPU）を中心とするコンピユータシス
テムにより具体化される。音声波形の中から、音
声の音韻的特徴を抽出する方法としては、周波数
スペクトル、相関関数、ゼロ交差数、αパラメー
タなどの物理量が用いられている事は周知の通り
である。このうち、音声の周波数スペクトルを多
数のバンドパスフイルタを用いて抽出する方式
は、比較的簡単な構成で高い認識率が得られるの
で多用されつつある。第２図は周波数スペクトル
をフイルタにより分析する方式の音声認識装置の
具体例である。音声入力部１は、マイクロフオン
１１マイクアンプ１２及び入力音声信号のレベル
を入力音声の強弱にかかわらず略一定に保つ
AGC回路１３から成る。この入力部１の出力に
接続する。Ｍ個の帯域通過フイルタ（以下BPF
と略記）２１−１，２１−２，…２１−Ｍ及び該
各BPFに縦続し各出力エンベロープを検出する
低域通過フイルタ（以下LPFと略記）２２−１，
２２−２，…２２−Ｍは特徴抽出部２を構成して
おり、音声帯域信号を周波数分析するものであ
る。音声入力部１を経た音声信号の各フイルタ成
分は適当な時間周期（多くの場合10〜20ｍsec）
で順次マルチプレクサ２３によりサンプリングさ
れる。即ちLPF２２−１，２２−２，…２２−
Ｍの出力端い並列的に得られる音声のスペクトル
信号は直列信号列となり、引き続いて順次アナロ
グデジタル変換器２４（以下Ａ−Ｄ変換器と略
記）によつてデジタルコードに変換され、CPU
３１に制御されるＩ／Ｏポート３２を経てバツフ
アメモリ３３に一旦取り込まれる。このデータ量
は、例えばフイルタの個数Ｍを８、音声の最大入
力時間を1.6秒、サンプリング周期を10ｍsec、Ａ
−Ｄ変換器２４のビツト数を８としたとき最大取
り込みデータ量は 1.6／0.01×８×８＝10240bits ＝1.28KB（Ｂ：byte）である。さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路１３がしばしば用いられる事はさきに
述べた通りであるが時間軸については単語音声の
始端から終端までの時間を等分割する第３図の如
き方法が一般的である。音声信号の始終端につい
ては音声検出回路２５が入力信号のレベル、周波
数分布、零交差数などのデータをもとにこれを検
出する。第３図に於て入力音声信号の始端のサン
プリングポイント番号を１、終端をｌとしたと
き、ｌ／Ｎ（Ｎは整数）に最も近い整数を求め
（これをｎとする）、入力サンプリングデータのう
ち始端を含めｎ個おきにＮ個のデータを取り出し
て並べなおす（第３図ｂ）ことにより時間軸の正
規化が可能となる。ここで例えばＮ＝32とする
と、この場合Ｎ×８×８＝2048bits＝256B のデータが登録モードに於ては登録パターンメモ
リ４０に、認識モードに於ては入力パターンメモ
リ５０にそれぞれ記憶される。これらメモリは通
常RAMであり、登録パターンメモリ４０の番地
（アドレス）はCPUのプログラムを記憶する
ROM３４及び入力制御部３５によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。認識モードに於ける認識処理は、同様
にバツフアメモリ３３に入力したデータから得ら
れたＮサンプル点のデータを記憶する入力パター
ンメモリ５０の内容と、登録パターンの内容とを
パターンマツチングすることにより行なわれる。
入力パターンと登録パターンの距離計算方式には
各種の方式が提案されているが、ここでは説明の
便宜上最も単純な方式であるチエビシエフ距離に
より説明する。ある単語音声の登録パターンの８
個のフイルタの時系列［fij^(R)］（ｉ：フイルタ番
号１〜８、ｊ：サンプルポイント１〜Ｎ）と入力
音声パターンの同じくフイルタ時条列〔fij〕の
チエビシエフ距離Ｄは次式で定義される。Ｄ＝_N 〓^j=1 ₈ 〓ⁱ⁼¹ ｜fij−fij^(R)｜ ……(1) 即ちこれは入力パターンfijと登録パターンfij^(R)
の各対応するデータの差の絶対値の総和であり、
各登録パターンについて得られたチエビシエフ距
離の中で最小値が得られる登録パターンと、入力
パターンは一致するものと見なされる。これらの
計算結果の一時記憶の為のメモリ領域を説明の便
宜上特に認識処理用メモリ３６として図示した。以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では入力パターン
と登録パターンの各対応する時間点での距離の差
の総和により類似度を計算するものであり、回路
構成が簡単であるという特徴を有するものの、計
算上の誤差は多く、必ずしも十分な認識性能を得
ることが出来るとは言い難い面があつた。本発明はかかる認識処理に加え、波形の形状を
ピーク位置及びピーク数として把握し、これを類
似度計算時補助的なデータとして参考することに
より更に精度の高い認識処理を行なうものであ
る。第４図は本発明装置の構成を示すブロツク図で
あり、第２図に示した従来装置と相違するところ
は、入力部１とマルチプレクサ２３との間に適当
な遮断周波数を持ち、信号の包絡線（エンベロー
プ）を検出するLPF２６に依るバイパス路を設
けた点、並びにＡ−Ｄ変換器２４とＩ／Ｏポート
３２との間に音声の極大値を検出するピーク検出
回路２７を配挿した点にある。尚、この第４図の
構成物は第２図のものと殆どが同一であるので、
これ等の点に就いての詳細な説明は省略する。こ
のピーク検出回路２７は入力音声信号波形のピー
クを検出し、その検出信号をＩ／Ｏポート３２を
介してCPU３１に伝えるものであり、CPU３１
はこれより各ピーク位置のサンプリングポイント
番号を、各フイルタ出力列と共にバツフアレジス
タ３３に格納する。従つて本発明実施例の場合該
バツフアレジスタの記憶容量は、さきに計算され
た第２図の従来装置の場合（1.28KB）に比較し
適当量増やされる。バツフアレジスタ３３に対す
る全サンプリングデータの記憶と、ピーク位置
（サンプリングポイント番号）の記憶が完了する
と、CPU３１は時間軸を正規化する為、全サン
プリングデータの中から、音声信号の終始端をＮ
等分するＮ個のデータを抽出すると同時に、同様
に各ピーク位置のサンプリングポイント番号を終
端のサンプリングポイント番号により除して得ら
れる正規化されたピーク位置、及びその個数を前
記Ｎ個のデータと共に前記入力パターンメモリ５
０或いは登録パターンメモリ４０の当該部位に各
収納される。入力音声信号のピーク位置を検出する回路２７
の具体例を第５図に示した。LPF２６により検
出された信号包絡線データは、マルチプレクサ２
３、Ａ−Ｄ変換器２４を経てデジタルコードとし
てラツチ回路６１に入力し保持される。図の場合
Ａ−Ｄ変換器２４の出力は８ビツトパラレルであ
り、ラツチ回路６１は前記マルチプレクサ２３が
LPF２６の出力をサンプリングするタイミング
パルスの適当分周と同期してＡ−Ｄ変換器２４の
出力をラツチし、続いて適当な時間差をもつてそ
の保持内容を縦続する同一記憶容量のラツチ６２
に転送する。通常アナログマルチプレクサは、ク
ロツクパルスに応動し、複数の入力端子のひとつ
を選定指定するために該クロツクパルスと同時に
与えられる２進コードに従つて順次入力をその出
力端子にスイツチする形式をとるものが多い。本
発明に於てもこの形式のものを採用し、CPU３
１からＩ／Ｏポート３２を介して与えられる。ア
ナログマルチプレクサ２３のサンプリングクロツ
クパルス６３（これはＡ−Ｄ変換器２４のコンバ
ートコマンドパルスと同じ）と、同じくCPU３
１からＩ／Ｏポート３２を介して与えられるアナ
ログマルチプレクサ２３の入力指定コード６４の
うちLPF２６の指定コードを検出する一致回路
６５との論理和ゲート６６出力をＫ分周（Ｋは１
以上の適当な整数で一定）する分周回路６７の出
力に応じ、前記第一のラツチ６１はその時Ａ−Ｄ
変換器２４の出力に与えられる、LPF２６の出
力のデジタルコード変換を記憶保持する。更に該
Ｋ分周回路の出力を適当時間（T_D）遅延する回
路６８の後述する論理和（AND）ゲート６９出
力に応じて第二のラツチ６２は、第一のラツチ６
１の保持内容を同様に記憶保持する。ここで、前
記クロツクパルスの周期を（T_C）、サンプリング
が等時間間隔で行なわれる場合、帯域分割フイル
タの個数を（Ｍ＋１個）とするとサンプリング周
期（T_S）は、（Ｍ＋１）T_C従つて前記Ｋ分周回路
６７出力周期は、KT_S＝Ｋ（Ｍ＋１）T_C、である
ので当然遅延回路６８の遅延時間（T_D）は、Ｏ
＜T_D＜Ｋ（Ｍ＋１）T_C、である。サンプリング周
期（T_S）は前述の如く具体的には10〜20ｍsecの
時間が選ばれる。尚、波形の振巾エンベロープを
検出する検出回路２６は帯域分割フイルタ２１−
１，２１−２，…，２１−Ｍ及びそれぞれに縦続
するLPF２２−１，２２−２，…，２２−Ｍの
比較的低周波域のものでこれを代用する事が出
来、この場合省略されて前記説明での（Ｍ＋１）
はＭとなる。さてこの様な構成によれば、第一のラツチ６１
がＪ番目（ＪはＫの倍数）のサンプリングポイン
トのデータをラツチした時、第二のラツチ６２は
（Ｊ−Ｋ）番目のサンプリングデータを保持して
いることになる。該ラツチ６２の８ビツトデータ
は補数回路７０を経て２の補数表現に変換された
後、その上位Ｌビツト（Ｌは整数で１≦Ｌ≦８）
と第一のラツチ６１の同じく上位Ｌビツトとの加
算が加算回路７１により計算される。補数回路７
０及び加算回路７１は、即ち第一のラツチ６１と
第二のラツチ６２の記憶内容の上位Ｌビツトにつ
いての差をとるものであり、その結果の正負が加
算回路７１の最上位桁（MSB）７２に示される。
このMSB７２が０の時、減算の結果は正又は０
で、サンプル値列は増加しつつあるか又は変化が
無い事を示し、MSB７２が１の時、減算の結果
は負でサンプル値列は減少していることがわか
る。MSB７２の内容は前記第二のラツチ６２の
ラツチ信号７３と同期して１ビツトメモリ７４に
転送記憶され、これとMSB７２との排他的論理
和（EXCLUSIVE OR）がNORゲート７５によ
り演算される。この構成により、第一、第二のラ
ツチ回路６１，６２に順次入力するサンプリング
データの差分に変化が生じた時、前記ゲート７５
は論理「１」を出力し、この時前記加算回路７１
のMSB７２が論理「１」であればサンプリング
データ列の差の変化は正から負、即ち極大点があ
つた事になり、これらの論理和をとる出力AND
ゲート７６の出力によりこれを知ることが出来
る。また加算回路７１の出力が０（ゼロ）であれ
ば、一致回路である論理和ゲート７７がこれを検
知して、インバータ７８、ANDゲート６９を介
して、ラツチ６２及び７４に対するラツチパルス
回路７３の出力を遮断し、それぞれに対するデー
タの転送を停止する。これにより波形の一時的平
担部を極値と誤判断する事をさけ得る。尚、この第５図に於ける各箇所の信号波形図を
第６図に示す。この第６図に於て、Ａはサンプリ
ングクロツクパルス６３、Ｂは論理和ゲート６６
出力、Ｃは分周回路６７出力、Ｄは補数回路７０
並びに加算回路７１に依る減算タイミング、Ｅは
遅延回路６８の遅延出力、Ｆは出力ANDゲート
７６からの出力、を夫々示している。上記の構成に於て、Ｋ分周回路６７によりサン
プリングをＫ個おきに行なう事及びサンプリング
データの差分計算に於て下位（８−Ｌ）ビツトを
省略することは、いずれも波形の微小なピークの
検出をさけ、これを無視する為であり、遮断周波
数を50〜100Hzに選ぶことによつて得られるLPF
２６の効果とあわせて波形の概略形状を把握する
のに効果的である。又、上記の波形のピーク位置
検出回路は特にこのような構成のみならず、例え
ば適当にプログラムされたCPUシステムによつ
ても実現できる事は論を待たない。さてこのように検出された波形のピーク位置及
びその個数は、音声のデータとして入力パターン
メモリ５０或いは登録パターンメモリ４０に記憶
されるが、認識処理計算である類似度判定に於て
これらデータを使用する方法を次に述べる。そのひとつは、まず従来同様サンプリングデー
タによりまず距離計算を行ない、その結果として
得られる類似度の高い登録パターンの中からその
順にいくつかを選びその中でピーク数の同数であ
るパターンを選び、これで特定できない時、各対
応するピーク間隔の差の絶対値の和により判定す
る方法である。又、逆にピーク数及びピーク間隔の比較により
あらかじめ登録パターンをある程度限定し、これ
らについて従来同様距離計算による類似度判定を
行なう方法もある。これらの方法の得失は一概に
決められないが実験結果では前者の方式Ａが後者
（方式Ｂ）にくらべ下表のように高い認識率の向
上結果が得られている。しかしながら全計算時間
は後者が短かく従つてこれら方式の選択はシステ
ム設計上の総合的な判断にゆだねられる。尚、こ
の表に於ける実験方法は、 (1) 成人男子５名、試行回数各単語音声につき各
４回、 (2) 登録語数32語 (3) Ａ、Ｂ、両方式につき同一音声をテープレコ
ーダに依り入力。

【表】以上に説明したように本発明は音声波形のピー
ク位置及びその個数を検知し、サンプリングデー
タによる類似度計算と共にこれら波形のピークに
関する情報をパターン認識上の判定データとして
用いているので、システム全体の認識性能の向上
を可能ならしめる、きわめて実用性の高い方式を
提供する事が出来る。

【図面の簡単な説明】

第１図はパターンマツチング原理に依る単語音
声認識装置の概略を示すブロツク図、第２図はそ
の内部構成を示すブロツク図、第３図ａ，ｂは音
声信号の波形図、第４図は本発明装置の構成を示
すブロツク図、第５図はその要部の構成を示すブ
ロツク図、第６図は動作説明の為のタイミングチ
ヤート、であつて、１は入力部、２は特徴抽出
部、３は認識処理部、４は登録パターンメモリ、
５は入力パターンメモリ、２７はピーク検出回
路、を夫々示している。

Claims

【特許請求の範囲】

１音声を電気信号に変換する音声入力手段と、
入力音声波形の特徴を抽出する特徴抽出手段と、
サンプリング手段と、サンプリングされた音声の
特徴をデイジタルコードに変換する変換手段と、
音声信号の始終端を検出する始終端検出手段と、
音声信号の振巾を検出する振巾検出手段と、この
振巾検出手段の上記サンプリング手段に依るサン
プリング値の差分を検出する差分検出手段と、そ
の差分の符号変化を検出する変化検出手段と、こ
の差分符号の検出手段に応動するピーク検出手段
と、該ピーク検出手段の出力からピーク数並びに
ピーク間隔を算定計数する手段と、予め登録の為
に入力した音声の特徴及びピーク情報を記憶する
登録パターン記憶手段と、音声入力の都度入力音
声の特徴及びピーク情報を記憶する入力パターン
記憶手段と、これ等の登録パターン記憶手段の内
容と入力パターン記憶手段の内容との類似度を計
算すると共に前記両ピーク情報を比較することに
よりパターン認識を行なう認識処理手段と、から
成るパターンマツチング法を用いた単語音声認識
装置。