JPS6328319B2

JPS6328319B2 -

Info

Publication number: JPS6328319B2
Application number: JP2551380A
Authority: JP
Inventors: Masaru Nishimura
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1980-02-29
Filing date: 1980-02-29
Publication date: 1988-06-08
Also published as: JPS56122098A

Description

【発明の詳細な説明】本発明は、パターンマツチング法に基づく単語
音声認識装置に関し、音声信号の新規な時間軸整
合方式を提供するものである。

パターンマツチングの原理による単語音声認識
システムは、通常第１図に示す如く、音声入力部
１、特徴抽出部２、認識処理部３、登録パターン
メモリ４、並びに入力パターンメモリ５を主要な
構成要素とし、登録モードと認識モードの２つの
動作モードを有する。登録モードは、認識すべき
単語音声をあらかじめ登録するものであつて、マ
イクロフオンを含む音声入力部１の出力である登
録音声信号から特徴抽出部２により抽出された音
音の特徴が時系列パターンとして登録パターンメ
モリ（又は標準パターンメモリとも言う）４にフ
アイルされるものである。また認識モードでは、
入力音声信号から同様に抽出された音声の特徴パ
ターンが入力パターンメモリ５に記憶された後、
この入力パターンと登録パターンメモリ４に記載
されている登録パターンとの類似度が認識処理部
３で計算され、その結果として得られる類似度の
最大の登録パターンが入力音声と一致するものと
して固定され、これに相応して適当に出力がなさ
れる。このような機能を有する第１図の認識処理
部３と登録パターンメモリ４、入力パターンメモ
リ５の構成は、中央演算処理装置（CPU）を中
心とするコンピユータシステムにより具体化され
る。

音声波形の中から、音声の音韻的特徴を抽出す
る方法としては、周波数スペクトル、相関関数、
ゼロ交差数、αパラメータなどの物理量が用いら
れている事は周知の通りである。このうち、音声
の周波数スペクトルを多数のバンドパスフイルタ
を用いて抽出する方式は、比較的簡単な構成で高
い認識率が得られるので、多用されつつある。

第２図は周波数スペクトルをフイルタにより分
析する方式の音声認識装置の具体例である。音声
入力部１は、マイクロフオン１１、マイクアンプ
１２及び入力音声信号のレベルを入力音声の強弱
にかかわらず略一定に保つAGC回路１３から成
る。この入力部１の出力に接続する、Ｍ個の帯域
通過フイルタ（以下BPFと略記）２１−１，２
１−２……２１−Ｍ及び該各BPFに縦続し各出
力エンベロープを検出する低域通過フイルタ（以
下LPFと略記）２２−１，２２−２，２２−Ｍ
は特徴抽出部２を構成しており、音声帯域信号を
周波数分析するものである。音声入部１を経た音
声信号の各フイルタ成分は適当な時間周期（多く
の場合10〜20ｍsec）で順次マルチプレクサ２３
によりサンプリングされる。即ち、LPF２２−
１，２２−２，……２２−Ｍの出力端に並列的に
得られる音声のスペクトル信号は直列信号列とな
り、引き続いて順次アナログデジタル変換器２４
（以下Ａ−Ｄ変換器と略記）によつてデジタルコ
ードに変換され、CPU３１に制御されるＩ／Ｏ
ポート３２を経てバツフアメモリ３３に一旦取り
込まれる。このデータ量は、例えばフイルタの個
数（Ｍ）を８、音声の最大入力時間を1.6秒、サ
ンプリング周期を10ｍsec、Ａ−Ｄ変換器２４の
ビツト小数を８としたとき最大取り込みデータ量
は、 1.6／0.01×８×８＝10240 bit＝1.28KB（Ｂ：byte）である。

さて、音声信号は同一話者の同一言語音声であ
つても発声の都度その時間軸、信号振巾とも変動
するのが普通であり、それぞれについてなんらか
の正規化が必要である。振巾の正規化の為に
AGC回路１３がしばしば用いられる事はさきに
述べた通りであるが、時間軸については単語音声
の始端から終端までの時間を等分割する第３図の
如き方法が一般的である。音声信号の始終端につ
いては音声検出回路２５が入力信号のレベル、周
波数分布零交差数などのデータをもとにこれを検
出する。第３図に於て入力音声信号の始端のサン
プリングポイント番号を１、終端をｌとしたと
き、ｌ／Ｎ（Ｎは整数）に最も近い整数を求め
（これをｎとする）、入力サンプリングデータのう
ち始端を含めｎ個おきにＮ個のデータを取り出し
て並べなおす（第３図ｂ）ことにより時間軸の正
規化が可能となる。ここで例えばＮ＝32とする
と、この場合、Ｎ×８×８＝2048 bits＝256 Ｂのデータが登録モードに於ては登録パターンメモ
リ４０に認識モードに於ては入力パターンメモリ
５０にそれぞれ記憶される。これらメモリは通常
RAMであり、登録パターンメモリ４０の番地
（アドレス）はCPUのプログラムを記憶する
ROM３４及び入力制御部３５によつて指定され
る。登録パターンの数は、音声認識システムの仕
様即ち登録話者の数と各登録可能な語数により決
められる。

認識モードに於ける認識処理は、同様にバツフ
アメモリ３３に入力したデータから得られたＮサ
ンプル点のデータを記憶する入力パターンメモリ
５０の内容と登録パターンの内容とをパターンマ
ツチングすることにより行なわれる。入力パター
ンと登録パターンの距離計算方式には各種の方式
が提案されているが、ここでは説明の便宜上最も
単純な方式であるチエビシエフ距離により説明す
る。ある単語音声の登録パターンの８個のフイル
タの時系列〔fij^(R)〕（ｉ：フイルタ番号１〜８、
ｊ：サンプルポイント１〜Ｎ）と入力音声パター
ンの同じくフイルタ時系列〔fij〕のチエビシエ
フ距離Ｄは次式で定義される。

Ｄ＝_N 〓^j=1 ₈ 〓ⁱ⁼¹ ｜fij−fij^(R)｜ ………(1) 即ちこれは入力パターンfijと登録パターンfij^(R)の
各対応するデータの差の絶対値の総和であり、各
登録パターンについて得られたチエビシエフ距離
の中で最小値が得られる登録パターンと、入力パ
ターンは一致するものとみなされる。これらの計
算結果の一時記憶の為のメモリ領域を説明の便宜
上特に認識処理用メモリ３６として図示した。

以上説明したパターンマツチングの原理にもと
づく音声認識システムの従来例では、音声の始端
が常に正確に検出される事が必要である。音声の
始端検出の方法については前述の通りであるが、
通常音声の始端部はいずれの特徴抽出パラメータ
も比較的不安定な振舞を示すことが知られており
実際はかなりの誤差を伴う。例えば、音声の始端
を、音声信号振巾が一定値を越える事により検知
する形式のものについて具体的に示したデータが
第４図である。同図は数字の「１」を「ichi」と
発声した時の信号振巾（半波）であるが、発声の
仕方に応じて始端部の振巾はこの図のように大巾
に変る。第４図ａは〔ｉ〕と〔chi〕にほぼ均等
にアクセントをかけた発声であり、同図ｂは、は
じめの〔ｉ〕を軽く、（通常の会話ではこの場合
が多くほとんど「chi」と聞こえるのは我々のよ
く経験するところである。）発声したものである。
図示の始端検出レベルに対し、始端P₁は発声の
状態により図のように変化する。

このような音声始端の検出誤差は、前述の如く
音声の始終端の時間軸を等分割することにより時
間軸正規化を行う形式の音声認識システムに於て
は、パターンマツチングの際の計算誤差に直接関
係し、システムの認識性能を損う事は容易に理解
できる。

本発明は音声信号の始端、終端を音声信号振巾
により検知する形式のものに関し、信号振巾の極
大点を示す時間的相対位置が発声の方法によらず
ほぼ一定している事実を利用して、これを時間基
準として導入することにより、より正確な時間軸
の正規化方式を提供せんとするものである。

第５図は本発明装置の構成を示すブロツク図で
あり、第２図に示した従来装置と相違するところ
は、Ａ−Ｄ変換器２４とＩ／Ｏポート３２との間
に音声信号の極大値を検出するピーク検出回路２
７を配挿した点、並びに入力部１とマルチプレク
サ２３との間に入力部１からの全音域音声信号の
信号振巾エンベロープを検出する全域LPF２６
に依るバイパス路を設けた点にある。このピーク
検出回路２７は、入力信号の最初のピーク位置を
検出し、タイミング信号をＩ／Ｏポート３２を介
してCPU３１に伝達する。尚、この第５図の構
成物は第２図のものと殆どが同一であるので、そ
れ等の点に就いての詳細な説明は省略する。これ
により該CPU３１は入力信号の最初のピーク位
置のサンプリングポイント番号ｍを知る。続いて
CPU３１は、バツフアメモリ３３に全サンプリ
ングデータを格納後、時間軸正規化を行う時、
ｍ／ｐ、ｌ−ｍ／Ｑ（ｐ、Ｑは整数、ｌは終端サ
ンプリングポイント番号）にそれぞれ最も近い整
数を求め（これをそれぞれｐ、ｑとする）サンプ
リング番号１〜ｍまでのデータについてはｐ個お
きにＰ個のデータを、サンプリング番号（ｍ＋
１）〜ｌのデータについてはｑ個おきにＱ個のデ
ータをそれぞれ抽出し、合計（Ｐ＋Ｑ）個のデー
タを登録パターンメモリ４０或いは入力パターン
メモリ５０に入れる。音声信号の最初のピーク位
置は通常の場合ほとんど音声の開始点の近くにあ
るのでＰ＜Ｑであり、かつ第２図従来装置の例と
対比すると正規化データ数Ｐ＋ＱはほぼＮに等し
い。

凹凸のある信号の極大点位置を検出することは
容易である。第６図は、第５図ピーク位置検出回
路２７の具体的実施例である。全域LPF２６に
より検出された信号振巾エンベロープは、マルチ
プレクサ２３、Ａ−Ｄ変換器２４を経てデジタル
コードとしてラツチ回路２７１に入力される。こ
の第６図の場合Ａ−Ｄ変換器２４の出力は８ビツ
トのパラレルコードであり、ラツチ回路２７１は
これをアナログマルチプレクサ２３が全域LPF
２６の出力をサンプリングするタイミングと同期
して、これのＡ−Ｄ変換コードをラツチし、続い
て適当な時間差をもつてその内容を縦続するラツ
チ回路２７２に転送する。従つて第一のラツチ回
路２７１がＫ番目のサンプリングポイントのデー
タをラツチした時、第２のラツチ回路２７２は
（Ｋ−１）番目のサンプリングデータを保持して
いることになる。ラツチ回路２７２に記憶されて
いる８ビツトデータは補数回路２７３を経て２の
補数表現に変換された後、加算回路２７４により
第１のラツチ回路２７１のデジタルコードに加え
られる。即ち第一と第二のラツチ回路２７１，２
７２の内容の差が計算される訳で、該加算回路２
７４の出力コードの最上位桁（MSB）はその結
果の符号を示す。MSBが「Ｏ」のとき減算の結
果は「０」又は正「１」の時は負である。この
MSBは図示のようにこれらラツチ回路の転送ク
ロツクに応動してその内容を１ビツトラツチ回路
２７５に転送し、この１ビツトラツチ回路２７５
の内容と前記MSBとが排他論理（EXCLSUIVE
NOR）ゲート２７６を介して出力される。この
構成により、第一第二のラツチ回路２７１，２７
２に順欠入力するサンプリングデータの差分に変
化が起つた時、排他論理ゲート２７６は論理
「１」を出力し、この時前記加算回路２７４の
MSB２７７が論理「１」であればサンプリング
データ列の差分の変化は凸、即ち極大点があつた
事になり、論理和（AND）ゲート２７８の出力
によりこれを知ることができる。尚加算回路２７
４の出力が「０」であれば、論理和ゲート２７９
がこれを検知し、インバータ２８０ANDゲート
２８１を介し第２のラツチ回路２７２のデータ保
持、及びMSB２７７の内容の１ビツトラツチ回
路２７５への転送を停止する。これにより波形の
一時的平坦部（plateau）を極値と誤判断するこ
とを避ける事が出来る。

以上の説明から明らかな如く、本発明は入力音
声信号の時間軸を正規化するに際し、比較的音声
エネルギーの安定した信号振巾の第一のピークを
基準とし、該ピークと音声始端、終端の音声信号
を各一定個数サンプリングするものであるので、
始端検出に伴なう時間的誤差の影響の比較的少な
いパターンマツチング照合を可能とすることがで
き、ひいてはこの種音声認識システムの認識性能
を向上せしめ得るものである。

【図面の簡単な説明】

第１図はパターンマツチングの原理に依る単語
音声認識装置の概略を示すブロツク図、第２図は
その内部構成を示すブロツク図、第３図ａ，ｂは
音声信号の波形図、第４図ａ，ｂは代表的音声の
一例を示す波形図、第５図は本発明装置の構成を
示すブロツク図、第６図はその要部の構成を示す
ブロツク図並びに各部の信号波形図であつて、１
は入力部、２は特徴抽出部、３は認識処理部、４
は登録パターンメモリ、５は入力パターンメモ
リ、２１はBPF、２２はLPF、２３はマルチプ
レクサ、２４はＡ−Ｄ変換器、２５は音声検出回
路、２６は全域LPF、２７はピーク検出回路、
を夫々示している。

Claims

【特許請求の範囲】

１音声を電気信号に変換する音声入力手段と、
入力音声波形の特徴を抽出する特徴抽出手段と、
サンプリング手段と、サンプリングされた音声の
特徴をデイジタルコードに変換する変換手段と、
音声信号の始終端を検出する手段と、音声信号の
最初のピーク位置を検出する手段と、上記デイジ
タルコードのうち音声の始端から終端までのサン
プル列を記憶する手段と、この記憶手段に記憶さ
れたサンプル列について、音声の始端から最初の
ピーク位置の間のサンプルから等間隔に一定個数
のサンプルデータを抽出しかつ同じくビーク位置
と音声の終端の間のサンプルから等間隔に別途一
定個数のサンプルデータを夫々抽出するサンプル
データ抽出手段と、予め登録の為に入力した音声
の特徴を記憶する登録パターン記憶手段と、音声
の入力の都度その入力音声の特徴を記憶する入力
パターン記憶手段と、これら登録パターン記憶手
段の内容と入力パターン記憶手段の内容との類似
度を計算する認識処理手段とから成るパターンマ
ツチング法を用いた単語音声認識装置。