JPS6331798B2

JPS6331798B2 -

Info

Publication number: JPS6331798B2
Application number: JP56193556A
Authority: JP
Inventors: Hiroyoshi Yuasa; Koichi Oomura
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1981-11-30
Filing date: 1981-11-30
Publication date: 1988-06-27
Also published as: JPS5895399A

Description

【発明の詳細な説明】

本発明は被制御機器を音声メツセージによつて
操作するための音声メツセージ識別方法に関する
ものである。第１図は本発明者らが開発した従来の音声メツ
セージ識別装置の概略構成を示すものであり、同
図において先ず音声はマイク１から入り、プリア
ンプ２で高域強調され、LOGアンプ３で対数変
換されてデジベル値に比例する出力になり、AC
アンプ４で交流成分のみが増幅される。次に低周
波用フイルタバンク５で低周波成分（1KHz以下）
をとり出し、高周波用フイルタバンク６で高周波
成分（5KHz〜12KHz）をとり出す。フイルタバ
ンク５，６は各帯域毎に帯域フイルタF₁，F₂，
整流回路D₁，D₂，積分回路よりなる平均化回路
M₁，M₂で構成されている。低周波用フイルタバ
ンクの積分回路M₁は時定数５〜10msec程度、高
周波フイルタバンクの積分回路M₂は時定数１〜
2msec程度に設定されている。両フイルタバンク
５，６の各出力は差動アンプ７に入力され、その
出力すなわち高周波成分と低周波成分の差が時定
数20msec程度の積分回路よりなる平均化回路８
で平均化される。この平均化回路８から出力されるアナログ信号
波形ｙ（ｔ）は入力音声中に含まれる有声音Ｖと
無声音Ｕの比率を表わしている。第２図ａ，ｂは
当社の音声制御式あんま椅子の音声入力例「もみ
下げセツト」に対するアナログ信号波形ｙ（ｔ）
を示したものであり、本実施例では有声音Ｖはプ
ラス、無声音Ｕはマイナスの値をとつている。こ
の信号電圧ｙ（ｔ）をＶ判定回路９およびＵ判定
回路１０に加え、クロツク発生回路１１からのク
ロツクCKによつて一定周期毎にサンプリングす
る。両判定回路９，１０にはそれぞれ基準電圧
R_VおよびR_Uが加えられ、サンプリング時にアナ
ログ信号電圧がプラス側の基準電圧R_V以上であ
れば有声音Ｖ、マイナス側の基準電圧R_U以下で
あれば無音声Ｕ、R_VとR_Uとの間の値であれば無
音Ｓと判定する。第２図ａ，ｂにおいて、ｚ（ｔ）
は信号処理回路１２から得られるVU判定出力信
号を示しており、無音声Ｕに対しては−１、無音
Ｓに対しては０、有声音に対しては＋１の値をと
るようになつている。なお第２図ａはLOGアン
プ３を使用した場合を、また同図ｂはLOGアン
プ３を除去した場合をそれぞれ示しており、両者
を比較すれば明らかなように、入力音声をフイル
タバンク５，６の前でLOG変換しておくと、有
声音Ｖと無声音Ｕの識別を確実に行なえるもので
ある。次にLOGアンプ３を通す前のプリアンプ２の
出力は、例えば1.5KHz〜2.5KHzの帯域フイルタ
F₃、整流回路D₃、平均化回路M₃からなるフイル
タバンク１３と、2.5KHz〜3.5KHzの帯域フイル
タF₄、整流回路D₄、平均化回路M₄から成るフイ
ルタバンク１４によつて各周波数領域の特性成分
を抽出される。フイルタバンク１３の出力である
低域音V_Lと、フイルタバンク１４の出力である
高域音V_Hとは差動アンプ１５により比較され、
平均化回路１６により平均化される。平均化回路
１６の出力はクロツクCKに同期して動作するV_L
判定回路１７およびV_H判定回路１８にそれぞれ
入力され、平均化回路１６の出力電圧が基準電圧
R_Lよりも低いとV_L成分と判定され、また基準電
圧R_Hよりも高いとV_H成分と判定され、R_LとR_Hの
間であれば中域音V_Mと判定される。信号処理回
路１９はV_H，V_L，およびV_Mの各成分を、それぞ
れ＋１，０，−１の出力に３値化するものである。信号処理回路１２，１９の各出力はＩ／Ｏポー
ト２０を介してCPU２１に読み込まれるもので
あり、読み込まれたデータは一旦入力パターンメ
モリ２２に格納され、標準パターンメモリ２３に
記憶されている複数個の標準パターンのうちどれ
に一番近いかを照合判定されて、その照合判定結
果に基いて被制御機器２４を制御するようになつ
ている。これらの照合判定動作等はCPU２１と
プログラムROM２５、およびワーキングRAM
２６を有するマイクロコンピユータ２７により行
なつているものである。しかるにかかる従来例においては、入力パター
ンと照合判定される標準パターンが１通りしかな
いために、音声メツセージの発声音が異なる場合
や、あるいは同一の発声音においても発声速度を
変えたり発声の態様を変えたりした場合には、音
声メツセージを正しく認識することができなくな
るという問題があつた。そこで従来、複数の発声
者の声を発録したり、あるいは同一の発声者につ
いて複数回の発声を登録したりして同一の音声メ
ツセージについて複数通りの標準パターンを用意
して、入力パターンがいずれか１つの標準パター
ンと一致したときにはその一致出力に応じて被制
御機器を制御するようにした音声メツセージ識別
方式が提案されているが、発声者の性別や年齢
差、あるいは方言による訛りなども考慮に入れて
様々な標準パターンを用意しておくものとする
と、標準パターンメモリ２３の容量が著しく大き
くなるという問題があつた。本発明は従来例のこのような問題点を解決する
ために為されたものであり、音声メツセージの発
声の態様な様々な変化を示しても確実に音声メツ
セージを認識することができ、しかも所要メモリ
容量をできるだけ少なく抑えることができるよう
にした音声メツセージ識別方法を提供することを
目的とするものである。以下本発明の構成を図示実施例について説明す
る。第３図は本発明方法を実現する音声メツセー
ジ識別装置のブロツク図を示すものであり、同図
に示すように音声メツセージ識別装置は音響処理
部２８と、周波数分析部２９と、符号化処理部３
０と、照合判定部３１とから構成されている。こ
のうち音響処理部２８と周波数分析部２９につい
ては、従来例の装置と同様の構成を有しており、
フイルタバンク５，６およびフイルタバンク１
３，１４の後段に接続された判定回路３２，３３
は第１図における差動アンプ７，１５から信号処
理回路１２，１９までの回路によつて構成されて
いる。ただし、帯域フイルタF₃，F₄の通過周波
数帯域は後述のようにそれぞれ０〜500Hzおよび
500Hz〜1KHzに設定されている。これらのＩ／Ｏ
ポート２０よりも前段の回路はアナログICによ
つて構成され、Ｉ／Ｏポート２０よりも後段の回
路はマイクロコンピユータにより構成されてい
る。符号化処理部３０において、３４は無音区間
を検出するためのＳカウンタであり、有声音Ｖま
たは無声音Ｕが検出されるとリセツトされて音声
入力動作を開始させ、その後無音Ｓが一定時間
（約0.2秒）以上続くとカウントアツプして音声入
力動作を停止するようになつている。音声入力動
作は５〜20msecのサンプリング周期（実施例で
は5msecの周期）に従つて行なわれ、一方の判定
回路３２からは有声音Ｖ，無声音Ｕ，および無音
Ｓの各符号とその継続時間とが入力されてメモリ
に格納され、また他方の判定回路３３からは高域
音V_H，中域音V_M，および無域音V_Lの各符号とそ
の継続時間とが入力されてメモリに格納されるよ
うになつている。このようにしてメモリに一旦格
納された信号は波形整形処理部３５，３６により
整形処理される。第４図ａは波形整形処理部３５において波形整
形される前の信号波形を示しており、また第４図
ｂは波形整形処理された後の信号波形を示してい
る。波形整形処理は第４図ａの矢印a₁に示すよう
に、有声音Ｖまたは無声音Ｕの継続時間の短いも
のを無音Ｓとする第１の処理と、第４図ａの矢印
a₂〜a₆に示すように、有声音Ｖまたは無声音Ｕの
継続時間が比較的長いものの次に来る無音Ｓの期
間が短く、かつ無音Ｓに続く次の符号が無音Ｓの
前の符号と同じであれば、無音Ｓを消すようにす
る第２の処理とから構成されているものである。
第５図はかかる波形整形処理部３５における波形
整形処理の手順に示すフローチヤートである。このフローチヤートは、符号Ｖ，Ｕ，Ｓとその
継続時間とのリスト形式によりメモリに格納され
たデータを演算処理して新たなリスト形式のデー
タを作成し、再びメモリに格納するためのプログ
ラムを示している。まず整形前のリストはその最
初の符号がＳであるか否かを判定し、最初の符号
がＳでなければその継続時間が基準値T₁よりも
大きいかどうかを判定される。継続時間が基準値
T₁よりも大きくなければ、その符号ＶまたはＵ
を符号Ｓに変換して符号Ｓとその継続時間を整形
後のリストとしてメモリに書き込む。また継続時
間が基準値T₁よりも大きければ、その符号Ｖま
たはＵとその継続時間とを整形後のリストとして
そのまま転写する。そして次の符号Ｓの継続時間
が基準値T₂よりも短いかどうかを判定し、基準
値T₂よりも短かければ、その符号Ｓの次の符号
は符号Ｓの前の符号と同じであるかどうかを判定
する。同じでなければ符号Ｓとその継続時間とを
そのまま整形後のリストに転写する。また同じで
あれば符号Ｓを前後の符号ＵまたはＶに変えて、
その変えた後の符号とその継続時間とを整形後の
リストとしてメモリに書き込む。さらに次の符号
Ｓについてその継続時間が基準値T₂よりも短い
か否かを再び判定する。以上の演算処理動作は整
形前のすべてのリストが変換処理されるまで続け
られるものであり、変換処理が終了すると整形後
のリストの最後の符号がＳであるかどうかを判定
し、最後の符号がＳであればその符号Ｓを整形後
のリストから除去して、再び最後の符号がＳであ
るかどうかを判定する。しかして最後の符号がＳ
でなければ一連の波形整形処理動作を終了するも
のであり、このときにメモリには、第４図ｂに示
すような波形整形処理された信号が符号Ｕ，Ｖ，
Ｓとその継続時間とのリスト形式で格納されてい
ることになる。また他方の波形整形処理部３６に
おいても同様の演算処理動作が行なわれるもので
あり、符号V_Hおよび符号V_Lのうち継続時間の
短いものを符号V_Mに変換する動作と、符号V_H
と符号V_Hとの間に挾まれた継続時間の短い符号
V_Mを符号V_Hに変換する動作と、符号V_Lと符号
V_Lとの間に挾まれた継続時間の短い符号V_Mを符
号V_Lに変換する動作とを行なうものである。次に第６図は上記波形整形処理部３５，３６に
より形成された２系統のリストを１系統のリスト
にまとめるためのコンポジツト符号化処理部３７
の処理動作を示すフローチヤートである。その動
作について説明すると、まず波形整形処理部３５
によつて形成された符号Ｕ，Ｖ，Ｓとその継続時
間のリストを調べて、最初の符号がＵまたはＳで
あるかどうかを判定する。最初の符号がＵまたは
Ｓであれば、その符号ＵまたはＳとその継続時間
とがコンポジツト符号リストとしてメモリにその
まま転写される。また最初の符号がＵまたはＳで
はなくてＶであるときには、波形整形処理部３５
によつて形成された符号V_H，V_M，V_Lとその継続
時間のリストを調べて、符号Ｖの継続時間中にま
ず符号V_Hが含まれているかどうかを判定して含
まれている場合には、符号V_Hとその継続時間と
をコンポジツト符号リストとしてメモリに転写す
る。また符号V_MおよびV_Lについても、符号Ｖの
継続時間中に含まれている場合には符号V_M，V_L
とその継続時間とがそれぞれコンポジツト符号リ
ストとしてメモリに転写される。以上のようにしてコンポジツト符号リストが得
られるものであるが、本実施例のように、符号
Ｖ，Ｕ，Ｓの系統と、符号V_H，V_M，V_Lの系統と
について別々に波形整形処理を行なつてから、コ
ンポジツト符号化する方法（第７図ａ参照）の他
に、第７図ｂに示すように先にコンポジツト符号
化を行なつてから波形整形処理を行なう方法もあ
り得るものである。この場合には符号Ｕ，Ｖ，
V_H，V_Lの各論理値に基いて第１表に示すような
論理演算を行なうことによりコンポジツト符号化
を行なうものである。

【表】次に第８図は、階層化処理部３８の処理動作を
示すフローチヤートである。階層化処理部３８は
後段の照合判定部３１におけるパターン照合を音
声の構造に合わせて段階的に行ない得るようにす
るためにコンポジツト符号リストから第１階層リ
ストと第２階層リストとを作成するものである。
このうち第１階層リストについては、符号Ｕ，
Ｖ，Ｓとその継続時間のみからなる符号リストと
同一であるので、波形整形処理部３５の出力リス
トをそのまま転写するか、あるいはコンポジツト
符号リストにおける符号V_H，V_M，V_Lをすべて符
号Ｖに置き換えることによつて容易に得られるも
のである。次に第２階層リストについてはコンポ
ジツト符号リストのうち一続きの符号V_H，V_L，
V_Mとその継続時間からなる符号リストを転写す
ることによつて得られるものである。したがつて
第１階層リストの中に符号Ｖがｎ個含まれている
ものとすると、第２階層リストもまたｎ個得られ
るようになつている。さらに第９図は、上述のようにして得られた第
１階層リストと第２階層リストについて符号の継
続時間を正規化するための正規化処理部３９の処
理動作を示すフローチヤートである。正規化処理
部３９は符号Ｕ，Ｖ，Ｓとその継続時間からなる
第１階層リストと、符号V_H，V_M，V_Lとその継続
時間からなるｎ個の第２階層リストについてその
継続時間の総和が一定になるように時間軸上の正
規化を行なうものである。第２表は第１階層リス
トについて、符号Ｖ，Ｕ，Ｓとその継続時間T_K
および正規化された継続時間T_Sの関係を示した
ものであり、継続時間T_Kはサンプル個数に対応
している。

【表】かかる正規化処理動作を第９図のフローチヤー
トによつて説明すれば、まず符号Ｕ，Ｓ，Ｖの全
継続時間T_Kの総和ΣT_K（＝16623）を求めて、こ
れから正規化係数P_S＝1000／ΣT_Kを求める。次に
各符号Ｕ，Ｖ，Ｓについてその継続時間T_K(j)に
正規化係数P_Sを乗算して正規化された継続時間
T_S(j)を順に求めて行くものである。以上のよう
にして第１階層リストについての継続時間の正規
化動作が完了すると、ｎ個の第２階層リストにつ
いてそれぞれ同様の操作により継続時間の正規化
処理を行なうものである。第３表(a)〜(d)は、第１
階層リスト（第２表参照）に含まれる４個の符号
Ｖについて作成された第２階層リストとその正規
化された継続時間とをそれぞれ示したものであ
る。

【表】

【表】第３表(a)は第２表に示す第１階層リストの最初
の符号Ｖ（継続時間3415）に対応する第２階層リ
ストV₁を示しており、以下順に第３表(b)〜(d)は
継続時間が3621，1437，2637の各符号Ｖに対応す
る第２階層リストV₂〜V₄を示している。以上の
ようにして継続時間の正規化を行なうと、発声速
度の影響を受けにくくなるので、認識率を高める
ことができるものである。なお第２表及び第３表
に示した継続時間T_Kのデータは音声メツセージ
「せなかをさすれ。」を50μsecのサンプリングパル
スを用いて分析した場合のシミユレーシヨンデー
タであつて、5msecのサンプリングパルスを用い
て分析を行なう場合には継続時間（すなわちサン
プリング個数）は表の値の100分の１になるもの
である。以上のようにして正規化された第１階層リスト
の符号Ｕ，Ｖ，Ｓ，および第２階層リストの符号
V_H，V_M，V_Lは、３値符号化処理部４０において
＋１，０，−１の３値符号に変換されるものであ
る。すなわち、まず第１階層リストにおける符号
Ｖは＋１，符号Ｕは−１，符号Ｓは０にそれぞれ
対応させ、また第２階層リストにおける符号V_H
は＋１，符号V_Mは０，符号V_Lは−１にそれぞれ
対応させるものである。このようにすれば、距離
計算照合部４１において標準パターンメモリ４２
の内容と第１階層リストおよび第２階層リストの
内容とを照合するときに計算速度を著しく高速化
することができるものである。すなわち距離計算
照合部４１は標準パターンメモリ４２に記憶され
た＋１，０，−１の３値化されたデータと３値符
号化処理部４０から出力されるデータとの相互相
関係数を求めるようになつているものであるが、
データが＋１，０，−１の３通りしかないために、
数値の乗算を必要とせず、単なる論理演算と加減
算とによつてきわめて高速度で相互相関係数を計
算することができるものである。各標準パターン
についてそれぞれ計算された相互相関係数は１次
階層識別部４３と２次階層識別部４４に記憶さ
れ、判定処理部４５において大小関係を比較さ
れ、相互相関係数が大きいものほど似たパターン
であると判定されるものである。ここに相互相関係数とは、時間ｔの変化に対す
る標準パターンの値の変化をf₁（ｔ）とし、１次
階層リストや２次階層リストのような入力パター
ンの値の変化をf₂（ｔ）としたときに次式で与え
られるものである。 f₁₂（τ）＝∫^∞ _-∞f₁（ｔ）f₂（ｔ−τ）dt 第１０図ａ，ｂは時間ｔの変化に対する標準パ
ターンの値の変化f₁（ｔ）と、入力パターンの値
の変化f₂（ｔ）とをそれぞれ示すものであり、同
図に示すようにf₁（ｔ）とf₂（ｔ）とは＋１，０，
−１の３通りの値しかとらないので、両者の積f₁
（ｔ）f₂（ｔ）の値も＋１，０，−１のいずれかの
値しかとらないことになり、このために相互相関
係数の計算は非常に容易になるものである。かか
る相互相関係数f₁₂（τ）はマイクロコンピユータ
を用いて計算する場合には、実用上は次式のよう
な数値演算により充分に計算できるものである。 f₁₂（τ）＝_N 〓^t=0 f₁（ｔ）f₂（ｔ−τ）ところで相互相関係数f₁₂（τ）は互いに乗算さ
れる標準パターンf₁（ｔ）と入力パターンf₂（ｔ−
τ）との位相差τの関数となつており、ある特定
の位相差τにおいて最大の値をとるようになつて
いる。そこで距離計算照合部４１においてはこの
相互相関係数f₁₂（τ）が最大になる点を求めて、
その最大値を各標準パターンについて計算し、１
次および２次階層識別部４３，４４にそれぞれ記
憶させ、最後に判定処理部４５においてその大小
関係を比較して入力パターンに最も近い標準パタ
ーンを判定しているものである。ところで、本発明においては音声メツセージか
ら抽出した符号パターンを標準パターンと照合す
る際に、符号パターンを１次階層リストと２次階
層リストとに分離して、１次階層リストに関する
照合を行なつた後に、２次階層リストに関する照
合を行なうようにして、照合処理を段階的に行な
つているが、これは音声の巨視的な構造に対応す
る特徴を先に抽出した後で、次に音声の微視的な
特徴に対応する特徴を抽出するようにした方が、
音声の認識を効率的に、かつ確実に行なうことが
できるからである。第１１図は音声の特徴を階層
化して表わしたものであり、音声はまず声帯振動
を伴う有声音Ｖと、声帯振動を伴わない無声音Ｕ
とに大きく分類され、有声音Ｖは顎の開きの広い
有声音／ａ／グループと、顎の開きの狭い有声
音／ｉ／グループとに分類される。顎の開きの広
い有声音は上述の高域音V_Hに対応し、音声の第
１ホルマントの周波数が比較的高く、その周波数
帯域は500Hz〜1KHzに多く分布している。また顎
の開きの狭い有声音は上述の低域音V_Lに対応し、
音声の第１ホルマントの周波数が比較的低く、そ
の周波数帯域は０〜500Hzに多く分布している。
顎の開きの広い有声音には、母音／ａ／，／
〓／，／ε／などがあり、また顎の開きの狭い有
声音には、母音／ｉ／，／ｅ／，／ｏ／，／ｕ／
や、鼻子音や、その他の有声子音などがある。ま
た無声音Ｕには定常的な無声音すなわち無声摩擦
音U_Fと、過渡的な無声音すなわち無声破裂者U_B
とがある。しかして、音声メツセージを１語１語用確に認
識しようとすれば、これらの音声の各特徴をすべ
て識別する必要があるが、照明器具や自動扉、あ
るいはあんま椅子などを音声メツセージを用いて
制御する場合には、すべての子音および母音を完
全に識別する必要はなく、もう少し巨視的な特徴
を抽出するだけでも充分に実用になるものであ
る。このような音声の特徴を巨視的な特徴から順
に列挙して行くと次のようになる。１有声音Ｖであるか無声音Ｕであるか。かかる
特徴は音声の周波数スペクトルの中に低域成分
（1KHz以下）が多いか、高域成分（5KHz〜12K
Hz）が多いかによつて判定できる。２有声音Ｖであれば、顎の開きの広い有声音
V_H（／ａ／グループ）であるか、顎の開きの狭
い有声音V_L（／ｉ／グループ）であるか。かか
る特徴は有声音の周波数スペクトルの中に高域
音V_H（500Hz〜1KHz）が多いか、低域音V_L（０
〜500Hz）が多いかによつて判定できる。３無声音Ｕであれば、無声摩擦音U_Fであるか、
無声破裂音U_Bであるか。かかる特徴は無声音
が定常的であるか、過渡的であるかによつて判
定できる。すなわち無声音Ｕの継続時間が長い
か短いかによつて判定できる。４音声メツセージの中で、各特徴V_H，V_L，
U_B，U_F等の占める時間、または音声メツセー
ジの継続時間の中で占める割合。かかる特徴は
上述の第１階層リストや第２階層リストにおけ
る継続時間を参照すれば判定できる。その他にも、音声の第２ホルマントが高いか低
いかによつて前舌の母音（／ｉ／，／ｅ／に対
応）と高舌の母音（／ｕ／，／ｏ／に対応）とを
識別することができるものである。第２５図ａは
母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／の
調音点を示しており、同図ｂは母音の第１ホルマ
ントと第２ホルマントの周波数分布を示している
（電子通信学会（三浦博士監修）「新版聴覚と音
声」のp363〜p364より引用）。また第２６図は日
本語の母音の第１ホルマントおよび第２ホルマン
トの分布を男声および女声の場合について各別に
示したものである。第２５図ｂおよび第２６図に
示された第２ホルマントの分布を見れば明らかな
ように約0.8〜1.8KHzの帯域フイルタと約1.8〜
3.2KHzの帯域フイルタの出力とを分析すれば、
第２ホルマントの位置を検出することができ、こ
れによつて舌の位置の前後に対応した特徴をも抽
出することができるものである。もつともそこま
で微視的な特徴を抽出しなくても、機器を制御す
るための音声メツセージは充分に認識できるもの
である。例えば第１２図は、あんま椅子用の音声入力／
senakaosasure／の周波数スペクトルの例であ
り、音声入力を20KHzでサンプリングしたものを
200サンプル（10msec）を１フレームとして、20
次のLPC分析を行なつたものであるが、無声
音／ｓ／は5KHz以上にパワーが集中しており、
また有声音は1KHz以下にパワーの山があること
がわかる。さらに有声音では／ａ／，／ｏ／のパ
ワーは500Hz〜1KHzに集中し、／ｎ／，／ｕ／は
０〜500Hzにパワーが集中していることがわかる。
さらに有声音は、同一のスペクトルが各音素に対
応して数個（数＋msec）続いていることがわか
る。また第１３図ａは上記と同じ音声入力に対する
有声音成分Ｖと無声音成分Ｕとの変化を示してお
り、第１３図ｂは有声音のなかの高域成分V_Hと
低域成分V_Lとの変化を示しているものであるが、
まず第１３図ａにおいては無音声／ｓ／，／ｋ／
に対応する部分がＵを示し、／na／，／
ao／，／ａ／，／ure／に対応する部分が明確に
Ｖを示している。また第１３図ｂにおいては／
ｎ／，／sa／に対応する部分がV_Lで、／
ａ／，／ao／，／ｅ／に対応する部分がV_Hにな
つている。したがつて、上述したように有声音
Ｖ，無声音Ｕ，無音Ｓに対応する１次階層リスト
と、音声音のなかの高域音V_H，中域音V_M，低域
音V_Lに対応する２次階層リストを予め記憶され
た標準パターンと照合すれば、大抵の音声メツセ
ージは識別できるものである。ところが以上のことはあくまでも一般論であつ
て、音声メツセージの発声者が異なる場合や、あ
るいは同一の発声者においても発声速度を変えた
り発声の態様を変えたりした場合には、音節中の
無声破裂音を検出できなかつたり、あるいは音節
中の無声音に挾まれた有声音が無声音化したりす
るような現象が生じるために、音声メツセージの
様々な発声態様にすべて対応できるような標準パ
ターンを作成する必要がある。本発明はこのよう
な微妙な発声の変化による入力パターンの変動が
あつても音声メツセージを正しく認識できるよう
にするものである。すなわち本発明においては、
標準パターンとして例えば第１４図に示すように
符号C₁，C₂，C₃，C₄，C₅，C₆の時系列からなる
基本パターンの他に、符号C₂₄，符号C₄₅のような
分岐パターンを付加して、入力パターンを符号
C₁，C₂₄，C₅，C₆の時系列からなる第１の派生パ
ターンや、符号C₁，C₂，C₃，C₄₅，C₆の時系列か
らなる第２の派生パターンと照合することも可能
として、音声メツセージの認識率を高めたもので
ある。以下具体的な例を挙げながら、本発明における
標準パターンを構成する基本パターンと分岐パタ
ーン、および派生パターンの概念について説明す
る。音声の入力パターンが変動する最も典型的な例
としては、まず第１に無声破裂音／ｐ／，／
ｔ／，／ｋ／の欠落現象が挙げられる。すなわち
第１３図ａを参照すればわかるように、無声破裂
音／ｋ／は過渡的な無声音であるためにその継続
時間が短く、非常に検出しにくいものである。こ
れに比べると無声摩擦音／ｓ／は定常的な無声音
であるために第１３図ａに示すようにその継続時
間が長く、その検出が容易である。このためにサ
ンプリング周期を若干長くすると、無声摩擦音／
ｓ／は検出できても無声破裂音／ｋ／は検出でき
ない場合が生じ得る。第１５図はこの点を考慮に
入れて上記音声入力／senakaosasure／の第１階
層リストに対する標準パターンを構成したもので
あり、符号Ｕ，Ｓ，V₁，Ｓ，Ｕ，Ｓ，V₂，Ｓ，
Ｕ，Ｓ，V₃，Ｓ，Ｕ，Ｓ，V₄の時系列からなる
基本パターンの他に、符号V₁とV₂とで挾まれる
符号Ｓ，Ｕ，Ｓの継続時間に等しい符号Ｓからな
る分岐パターンを設けたものである。したがつ
て、音声の符号化された入力パターンは、上記基
本パターンと照合されるのみならず、分岐パター
ンによつて生じる符号Ｕ，Ｓ，V₁，Ｓ，V₂，Ｓ，
Ｕ，Ｓ，V₃，Ｓ，Ｕ，Ｓ，V₄からなる派生パタ
ーンとも照合されるものであり、したがつて無声
破裂音／ｋ／が入力パターンから欠落するような
ことがあつても音声メツセージを正しく認識する
ことができるものである。なお第１５図中に記載
した数字，は同一の話者の５回の発声パター
ンを分析した結果、基本パターンに一致した場合
が４回、派生パターンに一致した場合が１回あつ
たということを示すものである。以上のように構
成することにより、無声破裂音／ｐ／，／
ｔ／，／ｋ／を開き落とすような事態を防止でき
るものである。次に第１６図ａ〜ｃは音声入力／
senakaosasure／に含まれる４個の有声音V₁〜
V₄について、それぞれの２次階層リストに対す
る標準パターンを作成した例を示している。この
うち第１番目の有声音V₁について説明すると、
その基本パターンは符号V_M，V_L，V_M，V_H，V_M，
V_Lの時系列から構成されており、さらに符号V_M
からなる３個の分岐パターンを有している。した
がつてこの場合には、符号V_M，V_L，V_M，V_Lの
時系列からなる第１の派生パターンと、符号V_M，
V_L，V_M，V_L，V_Mの時系列からなる第２の派生
パターンと、符号V_M，V_L，V_M，V_H，V_Mの時系
列からなる第３の派生パターンとが形成されるも
のである。第１６図ａに記載された数字，，
などは前と同様に分岐の回数を示している。な
お各分岐パターンの継続時間は、分岐パターンに
入らずに基本パターンをそのまま進んだ場合の継
続時間と等しくなつている。以上のように標準パ
ターンを構成することにより、第２階層リストに
おける符号V_H，V_M，V_Lが少々変動しても確実に
音声メツセージの認識ができるようになつてい
る。ところでこのような第２階層リストにおける符
号V_H，V_M，V_Lの変動の仕方は多種多様であり、
一例を挙げると(イ)V_L―V_H系列がV_L―V_M系列にな
る場合（例、／senaka／の／na／）、(ロ)V_L―V_M
系列がV_L―V_L系列になる場合（例、／sesure／
の／re／）、(ハ)V_L―V_M系列がV_L―V_H系列になる
場合（例、／tomare／の／re／）、(ニ)V_H―V_L系
列がV_H―V_M系列になる場合（例、／senaka／
の／ak／）、(ホ)符号V_HがV_L―V_H系列になる場合
（例、／sa／）、(ヘ)符号V_HがV_L―V_H―V_L系列にな
る場合（例／kata／の／kat／）などの例があ
る。これら符号V_H，V_M，V_Lの変動の規則を整理
すると大体次の２つの場合に分類される。１前後の音韻の相互作用により、符号V_HとV_M
および符号V_LとV_Mの相互の入れ代わりが生じ
ること。すなわち、V_H―V_L系列がV_H―V_M系列
またはV_M―V_L系列になり得ること、およびV_L
―V_H系列がV_L―V_M系列またはV_M―V_H系列に
なり得ること。２符号V_Hが前後の無声音の影響を受けて、符
号V_Hの前または後あるいは前後双方に符号V_L
が付加されること。すなわち、符号V_Hが、V_L
―V_H系列、V_H―V_L系列、またはV_L―V_H―V_L
系列に入れ代わること。音声の入力パターンが変動する他の例として
は、母音の無声化現象が挙げられる。例えば日本
人の場合、「私（ワタクシ）」という言葉を／
watakusi／と正確に発音する人よりはむしろ、
母音／ｕ／を飛ばして／wataksi／と発音する人
の方が多いものである。これは母音／ｕ／が無声
破裂音／ｋ／と無声摩擦音／ｓ／に挾まれている
からであり、一般に無声破裂音U_Bと無声破裂
音U_Bに挾まれた１個の母音（例えば／kiQpu／
の／ｉ／）や、無声破裂音U_Bと無声摩擦音U_F
とに挾まれた１個の母音（例えば／watakusi／
の／ｕ／）、および無声音と有声子音に挾まれ
た１個の母音などは無声化する傾向が非常に強
い。その他にも無声音Ｕと無音Ｓの間に挾まれた
１個の母音（例えば、／dousa／の／ａ／）も無
音化する傾向が若干ある。そこで、一般に無声音
と無声音の間、および無声音と無音の間、ならび
に無声音と有声子音の間に挾まれた１個の母音に
ついては、その母音の部分を有声音Ｖとする基本
パターンの他に、その母音の部分を無声音Ｕとす
る分岐パターンを標準パターンに付加しておき、
上記特定の母音が有声音Ｖとして明瞭に発音され
た場合においては基本パターンにより照合判定す
ることができ、また上記特定の母音があたかも無
声音Ｕであるかのように不明瞭に発音された場合
においては派生パターンにより照合判定できるよ
うにしておけば、音声メツセージの認識率を高く
することができるものである。次にこのような基本パターンおよび分岐パター
ンを有する標準パターンを作成する方法について
説明する。標準パターンを作成する方法には大別
して２つの方法があり、１つは音声メツセージを
構成する個々の音素符号およびその継続時間をキ
ーボード等から入力し、分岐処理プログラムによ
り基本パターンおよび分岐パターンを自動的に作
成する方法であり、もう１つは同一の音声メツセ
ージを発声の仕方を変えたりあるいは発声者を変
えたりしながら複数回登録し、共通する性質を基
本パターンとし、共通しない特異な性質を分岐パ
ターンとして登録する学習登録方式であり、前者
は演繹法的なものであり後者は帰納法的なもので
ある。まず前者の方法は、例えば第１７図に示すよう
にキーボード５０から／ｓ／，／ｅ／，／
ｎ／，／ａ／，／ｋ／，／ａ／，／ｏ／，／
ｓ／，／ａ／，／ｓ／，／ｕ／，／ｒ／，／ｅ／
などの各音素符号とその継続時間とを順次入力し
て行く方法であり、まず各音素符号が有声音Ｖで
あるか否かを判定し、有声音Ｖであれば母音／
ａ／については符号V_Hを割り当て、母音／ｉ／
と有声子音／ｍ／，／ｂ／については符号V_Lを
割り当て、その他の有声子音や母音／ｅ／，／
ｕ／，／ｏ／については、符号V_H，V_M，V_Lのい
ずれにもなり得るものとして分岐パターンを作成
する。また無音声には符号Ｕを、さらに無音には
符号Ｓをそのまま割り当てるようにする。次に継
続時間を入力して継続時間の短い無声音、すなわ
ち無伸破裂音については符号Ｕからなる基本パタ
ーンの他に、符号Ｓからなる分岐パターンを付加
する。さらに符号系列を入力して、無声音と無音
または無声音あるいは有声子音とに挾まれた単母
音には、符号Ｖからなる基本パターンの他の符号
Ｕからなる分岐パターンを付加するものである。
以上のようにすれば、音声メツセージの認識率を
高めるような分岐パターンを基本パターンに付加
した標準パターンを自動的に作成することができ
るものである。次に学習登録方式について説明する。第１８図
ａ〜ｃは第２階層リストに対応する符号V_H，
V_M，V_Lからなる標準パターンを作成する場合を
示しており、第１９図はその作成手順を示すフロ
ーチヤートである。まず第１８図ａに示すように
同一の言葉を複数回登録し、正規化された時間を
10の領域に分割し、同じ時間領域で符号が変化し
ない部分を核パターンとし、同じ時間領域で符号
が変化する部分をV_Mとする。この時点で第１８
図ｂに示すような学習基本パターンが作成され
る。次に同じ時間領域でV_MがV_Lになる部分には
V_Lの分岐パターンを付加する。また同じ時間領
域でV_MかV_Hになる部分にはV_Hの分岐パターンを
作成する。さらに同じ時間領域でV_HにもV_Lにも
なる部分はV_Mのままにしておく。この時点で第
１８図ｃに示すような分岐パターンを有する学習
標準パターンが形成される。こうして得られた学
習標準パターンは標準パターンメモリ４２に登録
記憶されるようになつているものである。しかして本発明においては、かかる学習登録方
式と非学習登録方式とは折衷した登録処理部４６
を設けており、第２０図にそのフローチヤートを
示す。まず登録処理部４６に入力されたデータは
第１階層リストの内に、Ｓ―Ｕ―Ｖ系列またはＳ
―Ｖ系列があるか否かを判定され、もしあればＳ
―Ｕ―Ｖ系列とＳ―Ｖ系列のいずれの符号系列を
も含むような標準パターンが形成される。次に第
２階層リストについては上述の第１９図に示すよ
うな学習モードにより標準パターンを作成する場
合と非学習モードにより標準パターンを作成する
場合とを切り換え得るようになつており、一方の
モードでうまく行かないときには他方のモードを
使用できるようになつている。しかして学習モー
ドの動作については第１９図のフローチヤートに
よりすでに説明したので、非学習モードによつて
第２階層リストに対する標準パターンを作成する
場合の動作について、第２１図のフローチヤート
により説明する。まず第２階層リストの最初の符
号がV_Lであれば、基本パターンST―V_Lと派生パ
ターンST―V_Mとを含む標準パターンを作成す
る。また最初の符号がV_Hであれば基本パターン
ST―V_L―V_Hの他に、２つの派生パターンST―
V_M―V_HとST―V_L―V_Mとを含む標準パターンを
作成する。さらに最初の符号がV_Mであれば基本
パターンST―V_Mのみの標準パターンを作成す
る。次に最後の符号がV_H，V_L，V_Mのうちいずれ
であるか、および最初の符号と最後の符号との間
に含まれる各符号がV_L―V_H系列か、V_H―V_L系列
かに応じてそれぞれ、第２１図のフローチヤート
に記載したような分岐パターン付きの標準パター
ンが自動的に形成されるものである。ところでこのようにして第２階層リストに対す
る標準パターンを作成する場合には、符号V_Hと
符号V_Lの識別を正しく行なう必要がある。上述
のように符号V_Hは高域有声音（／ａ／グループ）
に対応し、符号V_Lは低域有声音（／ｉ／グルー
プ）に対応するものであるが、本発明にあつて
は、第２２図に示すようにV_H分析系とV_L分析系
の出力のバランスを調節するバランス調節用の可
変抵抗VR₁とオフセツト調節用の可変抵抗VR₂と
を設けて、母音／ａ／を発声したときには必ず符
号V_Hが検出され、母音／ｉ／を発声したときに
は必ず符号V_Lが検出されるようにしているもの
である。ところが厳密には話者の個性によつてこ
のバランスの最適値は異なることがある。そこで
本発明者らは、母音／ｅ／を自然に発生したとき
にV_H／V_L差信号がゼロになるようにバランス調
整すればよいことを見出したものである。第２３
図はその原理を示すものであり、同図に示すよう
に母音／ａ／の第１ホルマントは500Hz〜1KHzに
分布し、母音／ｉ／の第１ホルマントは０〜500
Hzに分布しているものであるが、母音／ｅ／の第
１ホルマントは大体その中間に位置している。し
たがつて母音／ｅ／を基準にしてV_HとV_Lのバラ
ンス調整を行なうとバランスの最適値が得られる
ものである。最後に２次階層リストについて各符号V_H，
V_M，V_Lの継続時間等を考慮に入れた照合の方法
について説明する。第２４図は２次階層リストの
３通りの照合識別方式を示すフローチヤートであ
り、最も適当ないずれか１つの方法を選択して使
用するものである。まず第１の方法は１つの音声
メツセージに含まれる複数個の有声音V₁〜V_oに
ついて、その中に含まれている符号で最も多いも
のはV_HであるかV_MであるかV_Lであるかを照合す
るものであり、また第２の方法は各有声音V₁〜
V_oに含まれているV_Hの割合が入力パターンと標
準パターンとで一致するか否かを照合するもので
あり、さらに第３の方法は入力パターンにおける
V_Mが標準パターンのV_HまたはV_Lに合致するもの
の数と、標準パターンにおけるV_Mが入力パター
ンのV_HまたはV_Lに合致するものの数とをリスト
アツプして照合するものである。しかして音声メ
ツセージ中のすべての有声音V₁〜V_oについて、
上記３種類の照合方法のうち最も適当ないずれか
１つの照合方法を用いて入力パターンと複数の標
準パターンとを照合し、最もよく特徴の一致する
標準パターンを判定するようにしているものであ
る。さらに入力パターンと標準パターンとの一致度
合を各サンプルごとに対応する点数＋１，０，−
１で評価し、合計点数で判定することも可能であ
る。第４表はかかる点数付けの方法を示すもので
あり、その基本的な考え方は上述の３値化された
符号同士の相互相関係数を計算する場合とほとん
ど同じである。しかして第４表の規則に従つて点
数付けを行ない、各サンプル毎に計算した点数の
総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときには一
致しないと判定するものである。したがつてサン
プルの合計が1000であるとすると、パターンが完
全に一致したときには点数の合計は1000となるも
のである。

【表】なお本発明においては入力パターンと照合され
る標準パターンとして、基本パターンの他に基本
パターンから分岐する分岐パターンを設けて、複
数の派生パターンを形成できるようにし、基本パ
ターンまたは複数の派生パターンのうちのいずれ
かが入力パターンに一致するか否かを判定できる
ようにしているが、これとは反対に、入力パター
ンの方を様々に変化させるようにすれば、標準パ
ターンは一意的なものとすることも可能である。
すなわち入力パターンから欠落した無声破裂音を
補なつたり、無声化された母音を元に戻したりす
るような操作を行なつて、１つの入力パターンか
ら複数の派生入力パターンを作成し、これを１通
りの標準パターンと照合するように構成すれば標
載パターンを変動させる場合と同様に認識率を高
くすることができるものである。本発明は上述のように、音声入力から有声音の
エネルギが集中する低周波成分と無声音のエネル
ギが集中する高周波成分をフイルタにて抽出する
とともに、フイルタにて抽出された信号の差信号
出力レベルの大小に応じて、音声メツセージを第
１，第２，第３の各符号の時系列からなる入力パ
ターンに変換し、この入力パターンを予め記録さ
れている複数種の標準パターンと照合して入力メ
ツセージを識別する方式において、同一の音声メ
ツセージを異なる態様で複数回入力したときに最
も高い確率で生じる入力パターンを基本パターン
とし、基本パターンよりも低い確率で生じる入力
パターンを派生パターンとし、この派生パターン
と上記基本パターンとのパターンが一致しない部
分を基本パターンから分岐する分岐パターンとし
て予め記録し、入力パターンを基本パターンと照
合して符号しないときには基本パターンと分岐パ
ターンとの組合せによつて生じる派生パターンを
入力パターンと照合するような分岐照合処理の可
能な標準パターンを設けるようにしたものである
から、発声者の性別や年齢差，発声速度差，ある
いは方言による訛などによつて入力される音声メ
ツセージの特徴が微妙に変動しても、基本パター
ンと分岐パターンとの組合せによつて生じる様々
な派生パターンと照合することによつて基本パタ
ーンと若干異なる入力パターンでも充分に認識す
ることができるという利点があり、また本発明に
おいては最も高い確率で生じる入力パターンを基
本パターンとし、基本パターンよりも低い確率で
生じる派生パターンを基本パターンから分岐する
分岐パターンの形式で記録するようにしたもので
あるから、非常に多くの派生パターンをきわめて
少ないメモリ容量で記録しておくことができ、し
たがつてきわめて高い認識率を有しながらしかも
安価な音声メツセージ識別方法を実現できるとい
う効果がある。つまり、本発明にあつては、入力
される音声メツセージの特徴が微妙に変化して基
本パターンと符号しない場合において照合される
派生パターンを、基本パターンと予め記憶された
分岐パターンとの組み合わせによつて形成するよ
うにしており、この分岐パターンは、派生パター
ンと上記基本パターンとのパターンが一致しない
部分のみのデータであり、派生パターンをそのま
ま記憶しておく場合に比べて基本パターン部分を
重複して記憶しない分だけビツト数の少ないデー
タとなつているので、認識率を高めるために多数
の派生パターンを用意する場合においてメモリ容
量を大幅に少なくすることができ、認識率が高
く、しかも安価な音声メツセージ認識方法を実現
できるという効果がある。また特許請求の範囲第９項記載の併合発明にあ
つては、標準パターンの記録動作時に同一の音声
メツセージを異なる態様で複数回入力することに
より形成される複数個の入力パターンをそれぞれ
一定時間間隔ごとに時分割して、各時分割された
区間のうち、符号が変動しない区間については当
該変動しない符号を核パターンとして割り当て、
符号が変動する区間についてはすべての第３の符
号を割り当てて、この第３の符号と核パターンと
により基本パターンを作成し、符号が変動する区
間のうち、符号が第１の符号になり得ない区間に
ついては、第２の符号からなる分岐パターンを基
本パターンに付加し、符号が第２の符号になり得
ない区間については、第１の符号からなる分岐パ
ターンを基本パターンに付加し、基本パターンと
分岐パターンとを標準パターンとして予め記録し
ておくようにしたものであるから、同一の音声メ
ツセージを発声者を変えながら複数回登録した
り、あるいは同一の発声者が発声の態様を変えな
がら同一の音声メツセージを複数回登録したりす
ることにより、各音声メツセージに共通する性質
を基本パターンとして自動的に抽出することがで
き、また各音声メツセージに共通しない特異な性
質を分岐パターンとして自動的に基本パターンに
付加することができ、分岐照合処理を行なう標準
パターンの作成作業を著しく容易にすることがで
きるという利点を有するものである。なお上記音声メツセージ識別方式において、第
１，第２，および第３の符号として有声音，無声
音，および無音に対応する符号を使用したり、高
域有声音，低域有声音，および中域有声音に対応
する符号を使用したりするようにすれば、音声の
構造に応じた照合動作を行なうことができるので
認識率を著しく高めることができるものである。

【図面の簡単な説明】

第１図は従来例のブロツク図、第２図ａ，ｂは
同上の動作波形図、第３図は本発明の一実施例の
全体構成を示すブロツク図、第４図ａ，ｂは同上
の波形整形処理部の動作を示す波形図、第５図は
同上の波形整形処理部の動作を示す流れ図、第６
図は同上のコンポジツト符号化処理部の動作を示
すフローチヤート、第７図ａ，ｂは同上の符号化
処理部のブロツク図、第８図は同上の階層化処理
部の動作を示す流れ図、第９図は同上の正規化処
理部の動作を示す流れ図、第１０図ａ，ｂは距離
計算照合部の動作を示す波形図、第１１図は音声
の特徴を階層化して示した図、第１２図は音声の
周波数スペクトルを示す図、第１３図ａ，ｂは音
声から抽出した信号の波形図、第１４図は本発明
の分岐照合処理の原理を示す図、第１５図は音声
の第１階層リストを示す図、第１６図ａ〜ｄは音
声の第２階層リストを示す図、第１７図は音声の
標準パターンを作成する装置の動作を示す流れ
図、第１８図ａ，ｂ，ｃは学習登録方式の原理を
示す図、第１９図は学習登録方式の動作を示す
図、第２０図は本発明における登録処理部の動作
を示す流れ図、第２１図は同上の非学習登録処理
の動作を示す流れ図、第２２図は同上の音声分析
部の回路図、第２３図は母音／ａ／，／ｉ／，／
ｅ／の第１ホルマントの周波数分布を示す図、第
２４図は本発明の判定処理部の動作を示す流れ
図、第２５図ａは母音の調音点を示す図、同図ｂ
および第２６図は第１ホルマントおよび第２ホル
マントの周波数分布を示す図である。５，６，１
３，１４はフイルタバンク、４２は標準パターン
メモリ、４６は登録処理部である。

Claims

【特許請求の範囲】１音声入力から有声音のエネルギが集中する低
周波成分と無声音のエネルギが集中する高周波成
分をフイルタにて抽出するとともに、フイルタに
て抽出された信号の差信号出力が第１の基準値以
上のときには第１の符号を、第２の基準値以下の
ときには第２の符号を、第１の基準値以下でかつ
第２の基準値以上のときには第３の符号をそれぞ
れ割り当てることにより、入力された音声メツセ
ージに対して第１，第２，第３の各符号の時系列
からなる入力パターンを作成し、この入力パター
ンを予め記録されている複数種の標準パターンと
照合して入力パターンとの距離が最小となる標準
パターンを入力メツセージとして識別する音声メ
ツセージ識別方法において、同一の音声メツセー
ジを異なる態様で複数回入力したときに最も高い
確率で生じる入力パターンを基本パターンとし、
基本パターンよりも低い確率で生じる入力パター
ンを派生パターンとし、この派生パターンと上記
基本パターンとのパターンが一致しない部分を基
本パターンから分岐する分岐パターンとして予め
記憶し、入力パターンを基本パターンと照合して
符号しないときには基本パターンと分岐パターン
との組み合わせによつて生じる派生パターンを入
力パターンと照合するような分岐照合処理の可能
な標準パターンを設けて成ることを特徴とする音
声メツセージ識別方法。２有声音のエネルギが集中する1KHz以下の低
周波成分を抽出するフイルタと、無声音のエネル
ギが集中する2KHz〜12KHzの高周波成分を抽出
するフイルタとの差信号出力により、有声音、無
声音および無音の３種の符号の時系列からなる入
力パターンを作成して、標準パターンと照合する
ようにして成ることを特徴とする特許請求の範囲
第１項記載の音声メツセージ識別方法。３有声音の区間においては、母音／ａ／のよう
な高域有声音のエネルギが集中する500Hz〜1KHz
の成分を抽出するフイルタと、母音／ｉ／のよう
な低域有声音のエネルギが集中する500Hz以下の
成分を抽出するフイルタの差信号出力により、高
域有声音、低域有声音、および中域有声音の３種
の符号の時系列からなる入力パターンを作成し
て、標準パターンと照合するようにして成ること
を特徴とする特許請求の範囲第２項記載の音声メ
ツセージ識別方法。４基本パターンを構成する有声音、無声音、お
よび無音の時系列の中に、継続時間の短い無声音
が含まれている場合には、当該無音の部分を無音
に置き換える分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第２項
記載の音声メツセージ識別方法。５有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に、高域有声音から低域有声音に遷移する時系
列がある場合には、当該時系列を高域有声音から
中域有声音に遷移する時系列および中域有声音か
ら低域有声音に遷移する時系列のいずれにも置換
し得るような分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第３項
記載の音声メツセージ識別方法。６有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に、低域有声音から高域有声音に遷移する時系
列がある場合には、当該時系列を低域有声音から
中域有声音に遷移する時系列および中域有声音か
ら高域有声音に遷移する時系列のいずれにも置換
し得るような分岐パターンを基本パターンに付加
して成ることを特徴とする特許請求の範囲第３項
記載の音声メツセージ識別方法。７有声音区間の基本パターンを構成する高域有
声音、低域有声音、および中域有声音の時系列の
中に高域有声音が含まれている場合には、低域有
声音を上記高域有声音の前、後、および前後双方
のうちいずれかに付加した時系列を作成するよう
な分岐パターンを基本パターンに付与して成るこ
とを特徴とする特許請求の範囲第３項記載の音声
メツセージ識別方法。８基本パターンを構成する有声音、無声音、お
よび無音の時系列の中に、無声音と無声音に挾ま
れた短い有声音がある場合、および無声音と無音
に挾まれた短い有声音がある場合には、当該有声
音の部分を無声音に置き換える分岐パターンを基
本パターンに付加して成ることを特徴とする特許
請求の範囲第２項記載の音声メツセージ識別方
法。９音声入力から異なる周波数成分を取り出すフ
イルタの差信号出力が第１の基準値以上のときに
は第１の符号を、第２の基準値以下のときには第
２の符号を、第１の基準値以下でかつ第２の基準
値以上のときには第３の符号をそれぞれ割り当て
ることにより、入力された音声メツセージに対し
て第１，第２，第３の各符号の時系列からなる入
力パターンを作成し、この入力パターンを予め記
録されている複数種の標準パターンと照合して入
力パターンとの距離が最小となる標準パターンを
入力メツセージとして識別する音声メツセージ識
別方法において、標準パターンの記録動作時に同
一の音声メツセージを異なる態様で複数回入力す
ることにより形成される複数個の入力パターンを
それぞれ一定時間間隔毎に時分割して、各時分割
された区間のうち、符号が変動しない区間につい
ては当該変動しない符号を核パターンとして割り
当て、符号が変動する区間については第３の符号
を割り当てて、この第３の符号と核パターンとに
より基本パターンを作成し、符号が変動する区間
のうち、符号が第１の符号になり得ない区間につ
いては、第２の符号からなる分岐パターンを基本
パターンに付加し、符号が第２の符号になり得な
い区間については、第１の符号からなる分岐パタ
ーンを基本パターンに付加し、基本パターンと分
岐パターンとを標準パターンとして予め記録し
て、入力パターンを基本パターンと照合して符号
しない場合には基本パターンと分岐パターンとの
組み合わせによつて生じる派生パターンを入力パ
ターンと照合するような分岐処理を行うようにし
て成ることを特徴とする音声メツセージ識別方
法。