JPS58137900A

JPS58137900A - 音声メツセ−ジ識別方式

Info

Publication number: JPS58137900A
Application number: JP57020126A
Authority: JP
Inventors: 湯浅　啓義; 大村　皓一
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1982-02-09
Filing date: 1982-02-09
Publication date: 1983-08-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は被制御機器を音声メツセージによって操作する
ための音声メツセージ識別方式に関するものである。

第１図は本発明者らが開発し念従来の音声メツセージ繊
別装置の概略構成を示すものであり、同図において先ず
音声はマイク（１）がら入シ、プリアンプ（２）で増巾
され、ＬＯＧアシプ（３）で対数変換されてデシベル値
に比例する出力になり、ＡＣアシプ（４）で交流成分の
みが増幅される。次に低周波用フィルタバンク（５）で
低周波成分（ＩＫＨ３以下）をとシ出し、高周波用フィ
ルタバンク（６）で高周波成分（５ＫＨｇ〜ｔ２ＫＨｚ
）をと〉出す。フィルタバンク１６＋　＋６１は各帯域
毎忙帯域フィルタ（Ｆｌ）（Ｆへ整流回路（ＤＩ）（Ｄ
り、積分回路よりなる平均化回路（Ｍｌ）（Ｍりで構成
されている。低周波用フィルタバンクの平均化回路（Ｍ
ｌ）は時定数５〜１０　ｍ５ｅｃ程度、高周波フィルタ
バンクの平均化回路（Ｍ＠）は時定数１〜２　ｍ５ｅｃ
　　程度に設定されている。両フィルタバシク（ａｔ　
（６１の各出力は差動アンプ（７）Ｋ入力され、その出
力すなわち高周波成分と低周波成分の差が時定数２０ｍ
５ｅｃ程度の積分回路よりなる平均化回路（８）で平均
化される。

この平均化回路（８）から出力されるアナログ信号波形
ｙ　（ｔ）は入力音声中に含まれる有声音■と無声音Ｕ
の比率を表わしている。第２図（ＳＬ）　（ｂ）　＃ｉ
当社の音声制御式あんま椅子の音声入力例「もみ下げセ
ッート」に対するアナログ信号波形３’　（ｔ）を示し
ｆ％のであシ、本実施例では有声音Ｖはプラス、無声音
Ｕはマイナスの値をとっている。この信号電圧ｙ（ｔ）
をＶ判定回路＋９１＆！びＵ判定回Ｍ’ｌｏｌ　Ｋ　加
、ｔ、り０ツク発生回路（川からのり０ツクＣＫによっ
て一定周期毎にサシプリシジする。両判定回路＋９１　
＋ＩωＫＩｒｉそれぞれ基準電圧ＲｖおよびＲＵが加え
られ、サシプリシフ時にアナ０り信号電圧がプラス側の
基準電圧Ｒ７以上であれば有声音ｖ１マイナス側の基準
電圧ＲＵ以下であれば無声音Ｕ、ＲｖとＲＵとの間の鋼
であれば無音Ｓと判定する。＠２図（ａ）　（ｂ）にお
いて、ｚ（ｔ）は信号処理回路（１匂から得られるＶＵ
判定出力信号を示しており、無声音Ｕに対して＃′ｉ−
１、無音Ｓに対しては０、有声音に対しては＋１の値を
とるようになっている。なお第２図（ａ）はＬＯＧアシ
プ（３）を使用した場合を、また同図（ｂ）　＃−ｔ　
Ｌ　ＯＧアシづ（３）を除去した場合をそれぞれ示して
おり、両者を比較すれば明らかなように、入力音声をフ
ィルタバンク（５）１６）の前でＬＯＧ変換しておくと
、有声音Ｖと無声音Ｕの識別を確実に行なえるものであ
る。

次にＬＯＧアシプ（３）を通す前のプリアンプ（２）の
出力は、例えば０ＫＨｚ〜０．５ＫＨｚの帯域フィルタ
（Ｆ、）、整流回路（Ｄ、）、平均回路（Ｍ、）からな
るフィルタバンク０荀と、０ＪＫＨｉ〜１．０ＫＨｚの
帯域フィルタ（Ｆ４）、整流回路（Ｄ４）、平均化回路
（Ｍ４）から成るフィルタバンク０荀によって各周波数
領域の特性成分を抽出される。フィルタバシク霞の出力
である低域前ＶＩ、と、フィルタバシク幀の出力である
高竣音ｖＨとは差動アンプ（１＠により比較され、平均
化回路ＵＫより平均化される。平均化回路（１１の出力
はり０ツクＣＫＫ同期して動作するｖＬ判定回路Ｑηお
よびｖＨ判定回路鵠にそれぞれ入力され、平均化回路−
の出力電圧が基準電圧Ｒ，よりも低いとＶＬ成分と′判
定されまた基準電圧１１１１よシも高いとｖＨ酸成分判
定され、ＲＬとＲＨの間であれば中域音ｖＭとやＪ定さ
れる。信号処理回路−はＶＨｓ　ｖＬｓおよびｖＭの各
成分を、それぞれ＋１．０、−１の出力に３値化するも
のである。

信号処理回路Ｈｌ　（ＩＩの各出力ｔｆＩ１０ポート翰
を介し一？ｃｐｕａυに読み込まれるものであり、読み
込まれたデータは一旦入力パターシメｔす＠に格納され
、標準パターシメモリ（ロ）Ｋ記憶されている複数個の
標準バターシのうちどれに一番近いかを照合判定されて
、その照合判定結果に基いて被制御機器−を制御するよ
うになっている。これらの照合判定動作等Ｉ／１ｃＰＵ
（２１）とプ０ジ５ムＲＯＭｆ２１、およびワー＋シク
ＲＡＭ（イ）を有するマイクロコシピユー９（財）Ｋよ
り行なっているものである。

ところでかかる従来装置にあっては、入力され次音声メ
ッセー！；に対して作成された数値＋１、−１．００時
系列からなる入力パターシを予め記録されている数値＋
１．−１．０の時系列からなる複数種の標準バターシと
互いに掛は合わせて相互相関係数を計算し、入力バター
シと標準バターシとの位相差を変化させ次場合における
相互相関係数の最大値を最大相互相関係数として算出し
、この最大相互相関係数が最大となる標準パターシを入
力メツセージとして識別するようにしていたものである
が、このように＋１、−１．０というような３種類の数
値のみを用いて相互の相関関係を判断するだけでは十分
に正確な照合動作を行なうことができず、音声メツセー
ジの確実な識別を行なうことができないという問題があ
った。

本発明は従来例のこのような問題点を解決するため忙為
されたものであり、３種類の数値＋１、−１．０からな
る入力バターシと掛は合わせて照合される標準バターシ
を３種類以上の複数種の数値により表わすことＫより精
度の高い照合動作を行ない得るようにした音声メツセー
ジ識別方式を提供することを目的とするものである。

以下本発明の構成を図示実施例について脱明する。第３
図は本発明による音声メツセージ峻別装置のブロック図
を示すものであり、マイク（１）から入力されプリアン
プ（２）Ｋて増幅された音声信号は複数個の帯域フィル
タ（Ｆｌ）〜（Ｆ、）に入力されて、各帯域毎の周波数
成分が取り出されるようＫなっている。帯域フィルタ（
Ｆｓ　）　＃ｉ１　Ｋ　Ｈｚ以下の低周波成分を抽出し
、帯域フィルタ（Ｆ、）ｔｆ　５　ＫＨｚ”ｌ　２ＫＨ
ｚの高周波成分を抽出し、それぞれ有声音および無声音
のエネルギを抽出するようになっている。次に帯域フィ
Ｗｂ　９　（Ｆｓ）　（Ｆａ）はそれぞれＯ−Ｏ，５Ｋ
Ｈｚ　　および０．５〜１．０ＫＨｚの周波数成分を取
シ出して、顎の開きの広い有声音（／ａ／グループ）と
、顎の開きの狭い有声音（／ｉ／クループ）とのエネル
ギを抽出するようＫなっている。さらに帯域フィルタ（
Ｆｌ）（Ｆｌ）はそれぞれ０．８〜１．８ＫＨｚおよび
１．８〜３．２ＫＨｚの周波数成分を取り出して、後舌
の有声音（／Ｕ／、１０／　など）と前古の有声音（／
＝／Ｓ／＃／など）・とのエネルギを抽出するものであ
る。各フィルタ（Ｆｌ）〜（Ｆ、）の出力は整流回路（
Ｄ、）〜（Ｄ６）および平均化回路（Ｍυ〜（Ｍｓ）　
Ｋ入力されたのち、ＬＯＧアシプ（Ｔ１）〜（Ｔ、）Ｋ
て対数変換されてプシベル値に比例する出力になシ、ス
ライス回路（Ｓｌ）〜（Ｓ６）において必要なレベルよ
りも小さな部分を出力０として除去したうえで、差動ア
ンプ（Ｇ、）〜（ＧＳ）Ｋ入力されて比較される本ので
ある。ＬＯＧアシプ（Ｔり、（Ｔ４）および（Ｔ６）の
前段にはそれぞれ補償増幅器（八１）〜（Ａ、）が介装
されており、音声信号のパワースペクトル成分が周波数
が高くなるにつれて約−６ｄＢ１０ｃｔ　　の割合で減
衰することを考慮して、この減衰を補償するようＫして
いるものである。また各平均化回路（Ｍｌ）〜（＆）は
それぞれ積分回路によって構成されており、その時定Ｗ
Ｋは（ＭＳ）（に）（Ｍ、）Ｋついては約５、５　ｍ５
ｅｃ　、　（Ｍりについては約１ｍ５ｅｃ、　（Ｍ、）
（Ｍ。

）については約３ｍｓ＠ｅとしている。各差動アンプ（
Ｇ１）〜（Ｇ、）の出力はそれぞれ時定ｔｋ２０ｍ５ｅ
ｃ程度の積分回路よりなゐ平均化回路（Ｍ、）〜（Ｍ、
）に入力されて平均化されるものである。以上のように
構成された各周波数分析部（Ｂｓ）（Ｂｓ）（Ｂｓ）の
うち、有声音と無声音とのＩネル乎の比率を分析する第
１の周波数分析部（ｉｓｔ）の出力はＶ判定回路（９）
およびＵ判定回路ＱＩ　Ｋ入力されて、基準電圧ａＶお
よびＲＵ　（ただし、Ｒｖ＞Ｒｍ　）と比較される。そ
して周波数分析部（Ｂ、）の出力電圧が基準電圧Ｒｙよ
りも高ければ有声音Ｖと判断され、基準電圧Ｒ，より本
低ければ無声音Ｕと判断され、基準電圧ＲＵよりも高く
基準電圧Ｒｖよシも低ければ無音ＳとやＪ断されるよう
になっている。同様に顎の開きの広い有声音と顎の開き
の狭い有声音とのエネルギの比率を分析する４！Ｊ２の
周波数分析部（Ｂ、）の出力はｖＨ判定回路端、および
ｖＬ判定回路０ηに入力されて、基準電圧ＲＨおよびＲ
Ｌ　（ただしＲＨ＞ＲＬ）と比較されて、広顎音ｖＨ％
狭顎音ＶＩ１％および中顎音ｖＭのうちいずれの音に該
当するかを判断され、さらに前古の有声音と復古の有声
音とのエネルギの比率を分析する第３の周波数分析部（
Ｂ、）の出力＃ｉｖＦ判定回路（ハ）およびｖＢヤｊ定
回路四に入力されて、基準電圧ＲＦおよびＲＢ　（ｆｔ
だしＲＦ＞ＲＢ）　　と比較されて、前古音ｖｙ。

復古音ＶＢ％および中舌音ｖＮのうちのいずれの音に該
当するかを判断されるようＫなっている。各判定回路＋
９１　ｔｌｏｌ　０？）　Ｈ（２１９（２１の出力は信
号処理回路ａｓ　ｏｎ　Ｃ３３において数値＋１．−１
、ＯＫ変換されてＩ１０ボート−を介してＣＰＵ（２υ
に読み込まれるものであり、読み込まれたデータは入力
パターシメ芒り翰に格納されるようになって５いる。こ
こで数値＋ｌけ符号Ｖ　ＳＶａ　ｓ　ＶＦ　Ｋ　ｓまり
数値−１ｒｕｎＵ。

ｖ、、　ｓ　ｖＢ　　に、さらに数値、９は符号Ｓ１ｖ
Ｍ１ｖＮにそれぞれ対応するものである。（至）はＣＰ
　Ｕ　（２１＋の動作を管理するプロクラムを記憶せる
プロクラムＲＯＭであシ、（至）は演算動作に用いられ
るクー中シタＲＡＭである。またＣ３１けメーカ側から
供給される標準バターシＲＯＭであシ、機器組込用の音
声メツセージ識別装置のように入力される音声メツセー
ジが予め決まっている場合に用いられるものである。一
方のりは標準バターシＲＡＭであり、ユーザの側で標準
バターシを登録する場合に使用されるものである。（２
０ａ）　Ｆｉ虻２のＩ１０ポートであシ、被制御機Ｓ−
を制御する際に使用されるものである。

次に第４図ＦｉｃＰＵ２１）とプ０り５ムＲＯＭｔ２１
およびクー中：／りＲＡ　Ｍａｌなどを有するマイク０
コシピユータ−による処理動作を機能的にブロック化し
て示したものである。同図において、（至）は無音区間
を検出するための８カウシタであり、有声音Ｖまたは無
声音Ｕが検出されるとリセットされて音声入力動作を開
始させ、その後無音Ｓが一定時間（約０．２秒）以上続
くと九ウシドアツブして音声入力動作を停止するようＫ
なっている。音声入力動作Ｆｉ５〜２０ｍ５ｅｃのサシ
プリシフ周期（＊施例でけ５ｒｒｌｓｅｃの周期）に従
って行なわれ、入カバターシメ℃す（２２には判定回路
＋９１　ｆｌ（１からの有音声Ｖ、無声音Ｕおよび無音
Ｓの各符号とその継続時間、また判定回路Ｈ０１からの
広顎音ＶＨ１狭顎音ＶＩＩ％および中顎音ＶＭの各符号
とその継続時間、さらにヤ１定回路（２Ｉｌ＠からの前
古音ＶＦ％復古音ｖＢ１および中舌音ｖＮの各符号とそ
の継続時間とが入力されるよう罠なっている。このよう
にして一旦メモリに格納された信号は波形整形処理部３
４６１（至）により整形処理される。

第５図（ａ）　＃ｉ第１の波形整形処理部（ロ）におい
て波形整形される前の信号波形を示しており、また第５
図（ｂ）　＃ｉ波形整形処理された後の信号波形を示し
ている。波形整形処理は第５図（＆）の矢印ａｌ　Ｋ示
すように、有声音Ｖまたは無声音Ｕの継続時間の短いも
のを無音Ｓとする第１の処理と、第５図−）の矢印ａ、
−一に示すように、有声音Ｖまたは無声音Ｕの継続時間
が比較的長いものの次に来る無音Ｓの期間が短く、かつ
無音Ｓに続く次の符号が無音Ｓの前の符号と同じであれ
ば、無音Ｓを消すようにする第２の処理とから構成され
ているものである。第６図はかかる波形整形処理部Ｃ３
４）忙おける波形整形処理の手順を示すフロー子ヤート
である。

このフロー子ヤートは、符号Ｖ、Ｕ、８とその継続時間
とのリスト形式によりメ℃りに格納されたデータを演算
処理して新たなリスト形式のデータを作成し、再びメ℃
すに格納する九めのプｏ’）ラムを示している。まず整
形前のリストはその最初の符号がＳであるか否かを判定
し、最初の符号がＳでなければその継続時間が基準値Ｔ
１より本大きいかどうかを判定される。継続時間が基準
値Ｔ。

よりも大きくなければ、その符＠ｖｔたはＵを符号Ｓに
変換して符号Ｓとその継続時間を整形後のリストとして
メ℃りに書き込む。また継続時間が基準値ＴＩよりも太
き・ければ、その符号ｖｔｆ：、＃ｉＵとその継続時間
とを整形後のリストとしてそのまま転写する。そして次
の符号Ｓの継続時間が基準値Ｔ、よりも短いかどうかを
判定し、基準値Ｔ、よりも短かければ、その符号Ｓの次
の符号は符号Ｓの前の符号と同じであるかどうかを’Ｉ
’ｌｌ定する。同じでなければ符ＪｉｊＳとその継続時
間とをその１ｔＩＩｉ形後のりストに転写する。また同
じであれば符号Ｓを前後の符号ＵまたはＶＫ変えて、そ
の変え友後の符号とその継続時間とを整形後のリストと
してメ℃すに書き込む。さらに次の符号Ｓについてその
継続時間が基準値Ｔ、よりも短いが否かを再び判定する
。以上の演算処理動作は整形前のすべてのリストが変換
処理されるまで続けられるものであり、変換処理が終ｒ
すると整形後のリストの最後の符号がＳであるかどうか
を判定し、最後の符号がＳであればその符号Ｓを整形後
のリストから除去して、再び最後の符号がＳであるかど
うかを判定する。しかして最後の符号がＳでなくなれば
一連の波形整形処理動作を終了するものであり、このと
き忙メ℃すには、第５図（ｂ）に示すような波形整形処
理された信号が符号Ｕ、Ｖ、Ｓとその継続時間とのリス
ト形式で格納されていると２とになる。次に第２の波形
整形処理部（ハ）においては符号ＶＨ、ＶＬ　ｋ　１　
ヒＶＭＫ　ツイテ同様ｏ演算処ｇ！Ｊｅ作が行なわれる
ものであり、具体的ＫＩＩｉ■符号ｙＨおよび符号■Ｌ
のうち継続時間の短いものを符号ＶＮＫ変する動作と、
■符号ＶＨと符号ｖＨとの間に挾まれた継続時間の短い
符号ｖＭを符号ｖＨに変換する動作と、■符号ＶＬと符
号ｖＬとの間に挾まれた継続時間の短い符号ｖＭを符号
ＶＬＫ変換する動作とが行なわれるものである。さらに
第３の波形整形処理部（イ）においては符号ＶＦ　ｓ　
ｖＢ　ｓおよびＶＮＫ−″）いて同様の演算処理動作を
行なって波形整形処理を行なうものである。

しかして各波形整形処理部（ロ）＠（至）の出力は階層
化処理部Ｃ３７）に入力されて、第１階層リストと第２
階層リスト、および第３階層リストが作成されるように
なっている。このうち第１階層リストについて禮号Ｖ、
ＵＳＳとその継続時間のみからなる符号リストと同一で
あるので、第１の波形整形処理Ｓ（ロ）の出力リストを
そのままメ℃りに転写するととｋより得られるものであ
る。次に第２階層リストは第１階層リストの符号Ｖの区
間内における符号ｖＨ１ｖＬ１ｖＭ　とその継続時間か
らなる符号リストとして構成されるものであり、したが
って第１階層リストの中に符号Ｖがｎ個含まれていると
すると、第２階層リストもまたｎ個作成されるものであ
る。さらに第３階層りストについては、第１階層リスト
の符号Ｖの区間内における符号ｖＦ１ｖＢＳｖＮ　とそ
の継続時間からなる符号リストとして構成されるもので
あり、したがって第１階層リストの中に符号Ｖがｎ個含
まれているとすると、第３階層リストもまたｎ個作成さ
れることになる。本発明においてはこのように音声メツ
セージから抽出した符号パターンを標準パターンと照合
する際に、符号パターンをｇｇｌ乃至第３階層リストに
分離して階層化し、第１階層リストについて照合を行な
った後に１頓次第２、第３階層リストについての照合を
行なうようＫして照合処理を段階的に行ない得るようＫ
しているものである。これは音声の巨視的な構造に対応
する特徴を先に抽出した後で、順次音声の微視的な特徴
に対応する特徴を抽出するようにした方が、音声の認識
を効率的に、かっａＳ夷に行なうことができるからであ
る。

このような音声の特徴を巨視的な特徴から順に列挙して
行くと次のようＫなる。

ｌ）有声音Ｖであるか無声音Ｕであるか。かかる特徴は
音声の周波数スペクトルの中に低域成分（ＩＫＨｚ以下
）が多いか、高域成分（５ＫＨｚ”１２ＫＨｚ　）が多
いかによって判定できる。

２）有音声Ｖであれば、顎の開きの広い有声音ＶＨ（／
ａ／グループ）であるか、顎の開きの狭い有声音ＶＬ（
／ｆ／グループ）であるか。かかる特徴は母音の第１ホ
ルマシトが高い（０，５〜１．０ＫＨｚ）か、低い（０
〜ｏ、５Ｋａｚ）かによって判定できる。

３）同じく有声音であれば、前古の有声音（／ｉ／、／
ａ／など）であるか、復古の有声音（／語／、１０／な
ど）であるか。かかる特徴は母音の第２ホルマシトが高
い（１，８〜３．２ＫＨｚ　）か、低い（０，８〜１．
８ＫＨｚ）かによって判定で自る。

このような音声の特徴を第１乃至第３階層リストについ
て順次段階的に照合して行くことにより音声メツセージ
の識別を比較的正＊に行ない得るものである。

次に（至）は正規化処理部であり、上述のようＫして得
られた第１乃至第３階層リストについて符号の継続時間
の総和が一定になるように時間軸上の正規化を行なうも
のである。４ＩＩ！１１表は第１階層リスト忙ついて、
符号Ｖ、Ｕ、Ｓとその継続時間ＴＫおよび正規化された
継続時間Ｔｓの関係を示し友ものであり、継続時間ＴＫ
はサンプル個数に対応している。

第１表かかる正規化処理動作を第、７図のフロー子ヤートによ
って説明すれば、まず符号Ｕ、Ｓ、Ｖの全継続時間ＴＫ
の総和ΣＴＫ（＝１６６２３）を求めて、これから正規
化係数Ｐｓ＝１０００／ΣＴＫを求める。次に各符号Ｕ
ＳＶＳＳについてその継続時間ＴＫ　（Ｊ）に正規化係
数Ｐｓを乗算して正規化された継続時間Ｔｓ（ｊ）を順
に求めて行くものである。以上のようにして第１階層リ
ストについての継続時間の正規化動作が完了すると、ｎ
個の第２および第３の階層リストについてもそれぞれ同
様の操作により継続時間の正規化処理を行なうものであ
る。ｗＪ２表（ａ）〜（ｄ）は、第１１ｉ１層リスト（
第１表参照）Ｋ含まれる４個の符号Ｖについて作成され
九第２階層リストとその正規化された継続時間とをそれ
ぞれ示したものである。

第２表−）第２表　（ｃ）第２表（＆）は第１表に示す第１階層リストの最初の符
号Ｖ（継続時間３４１５）に対応する第２階−リスト■
１を示しておシ、以下順に第３表（ｂ）〜（由ｔｒｉｍ
続時ｒＡが３６２１，１４３７．２６３７１７）各符号
Ｖに対応する第１階層リストＶ、　〜Ｖ、を示している
。以上のようにして継続時間の正規化を行なうと、発声
速度の影響を受けにくくなるので４認識率を高めること
ができるものである。なお第１表及び第２表（ａ）〜（
ｄ）に示した継続時間ＴＫのデータは音声メツセージ「
ぜなかをさすれ」を５０μｓｅｃのサシプリンタバルク
を用いて分析した場合のシ三ユし−シ３シデ　タであっ
て、５ｍ５ｅｃのサシプリシクバルスを用いて分析を行
なう場合には継続時間（す々わちサシプリ、７り個数）
Ｆｉ表の値の１００分の１になるものである。

以上のようＫして時間軸上で正規化された第１階層リス
トの符号Ｖ、Ｕ％Ｂや、第２階層リスト　　　□の符号
ｖＨ１ｖＩ、、ｖＭｌおよび第３階層リストの符号ｖｙ
　％　ＶＢ　％　ｖＮ　　などはメモリ上では上述のよ
うに３種類の数値＋１、−１．００時系列として表わさ
れているものであり、音声メツセージの照合動作を行な
う際には距離計算照合部３Ｉにおいてかかる３稗類の数
値＋ｌ、−１，Ｏからなる入カバターンと、標準式ター
ンメモリ陣に記憶されている標準バターシの数値系列と
を掛は合わせることにより、相互相関係数の計算を行な
い、この相互相関係数の値の大小に応じて入力バターシ
に対応する標準バターシを決定するものである。標準バ
ターンメ℃り彌に記憶されている標準２〜ターシは、数
値＋１１％　＋（ｎ−１）、＋（ｎ−２）・・・・・・
、＋２、＋１．０、−１、−２、・・・・・・、−（ｎ
−２）、−（ｎ−１）、−ｎの時系列から構成されてい
る。（ただしｎけ２以上の整数である。）このうち例え
ば上記第１階層リストと照合され、る標準パターンにお
いては数値＋ｎｔｆｉ完全な有声音Ｖを表わし、数値−
ｎは完全な無声音Ｕを表し、数値−ｎと＋ｎの間に含ま
れる数値はその中間的な音を表わすものである。

ｖＪ８図−）は数値＋１１−１．０によって表わされる
入力パターンの一例を示しており、同図（ｂ）ｉｉ上記
入力バターシと照合される数値＋ｎ乃至−ｎによって表
わされる標準パターンの一例を示している。ここで時間
ｔの変化に対する標準パターンの変化を１１＜１＞とじ
、第１階層リストや第２、第３階層リストのような入力
パターンの変化を１＋　（１）とすると、両バターシの
相互相関係数は次式によって与えられるものである。

ｆＩｘ　（ｔ）　＝　１″’　ｆ＋（ｔ）　ｂ（ｔ−τ
）ｄｔこのように相互相関係数ｆ１．（τ）は両パター
ンのとる値を掛は合わせて時間積分′□することによっ
て求め得るものであるが、本発明にあっては一方のパタ
ーンｆ１（１）は数値＋１、−１．０の３通りの値しか
とらないので、実際には乗算を行なう必要はなく加減算
のみで相互相関係数を求め得るものであり、したがって
照合動作の高速化を図り得るものである。またかかる相
互相関係！ｋｆｔｍ（τ）をマイクロコシピユータを用
いて計算する場合には、実用土は次式のような数値演算
によって充分に計算できるものである。

ところで相互相関係数ｆ１．（τ）Ｆｉ互いに乗算され
る標準パターンｆｌ（ｔ）と入力パターンｆ、　（を−
τ）との位相差τの関数となっており、ある特定の位相
差τにおいて最大の値をとるようになっている。そこで
距離計算照合部（至）においてはこの相互相関係数ｆ１
！（τ）が最大になる点を求めてパ＜＋の最大値を各標
準パターンについて計算し、第１、第２および第３階層
識別部１４１　（４ｍ）（４Ｂにそれぞれ記憶させ、最
後に判定処理部器においてその大小関係を比較して入力
パターンに最も近い標準パターンを判定しているもので
ある。

ところでかかる相互相関係数ち！（τ）を用いて入力パ
ターンと標準パターンとの相関関係を調べる場合には入
カバターンが０であり、かつ標準パターンもまた０であ
るときに、両者の積が０となるのでパターンが値０をと
る区間が比較的よく共通している場合においても相関関
係が低く評価されてしまう場合がある。そこで入カバタ
ーンと標準パターンとの類似度を第３表に示すような点
数付けを行なうことによって決定する方法がある。

第　　３　　表念だし、第３表においてｘ＃ｉｌ乃至ｎの整数である。

第３表に示すような点数付けを行なって各点数の総和に
よって両バターシの相関関係を調べるようにすれば、両
バターシが共に債０をとる区間が比較的よく共通してい
るような場合においても類似度を正しく判断することが
できる本のである。なお最終的な判定は類似度の最高の
ものと２番目のものとを選定し、類似度の最高のものが
所定値以上の点数となり、かつ２番目の本のとの差が所
定値以上であるもののみを音声メツセージとしてａ繊し
、他のものけ認識不可能であるとして再入力を促すよう
にするものである。

次に標準パターンメモリ器内に記憶されている標準パタ
ーンの作成方法について説明する。

第４図においてＣ４は登録処理部であり、正規化処理部
（至）から出力される数値＋１、−１，０からなる入力
パターンを複数回入力して−ｎ乃至十ｎの整数からなる
標準パターンを学習登録するようになっている。第９図
はかかる登録処理部（１１４における標準パターンの学
習登録法のアルコリズムを示すフローチャートである。

同図に示。

すように標準パターンの各エレメシトＨ（Ｊ）　＃ｉ初
期状態においてはすべて０に設定しである。この状態に
おいて、まず学習回数ｋを１とし、データ番号ｊを１と
してデータＤ（ｊ、ｋ）を入力する。データＤｉ、ｋ）
は＋１、−１．０のうちのいずれかの数値を取るもので
あり、Ｄ（１、ｋ）、Ｄ（２，ｋ）、・・・・・・　Ｄ
（Ｊ、ｋ）Ｋよって構成される数値列のパターンが入カ
バターンとなっている。しかしてこの５！−タＤ（ｊ、
ｋ）が１であれば標準パターンの各エレメシトとなる変
数Ｈ（ｊ）に数値１を加算し、データＤ（ｊ。

ｋ）が−１であればＨ（ｊ）から数値１を減算する。ま
たデータＤ（ｊ、ｋ）が０であれば変数Ｈ（ｊ）には加
減算を行なわないようにする。かかる演算動作が終了す
ればデータ番号ｊを１つだけカウントアツプして、デー
タ番号ｊが入力パターンのデータ総数Ｊよりも大きいか
否かを判断する。データ番号ｊがデータ総数Ｊよりも小
さいか、ま念は等しいときには次のデータＤ　（ｊ、ｋ
）を入力して上記演算を繰り返す。またデータφ 番Ｊ８ｊ・がデータ総数Ｊよりも大きい場合には、学習
回数ｋを１つだけカウントアツプして、所要学習回数Ｇ
よシも失色いか否かを′＃４ｊ断する。

学習回数ｋが所要学習回数Ｇよりも小さいか、または等
しい場合にはデータ番９ｊを１に戻して新たに別の入力
バター、７Ｄ（Ｊ、ｋ）（ｊ＝１．２、・・・、Ｊ）を
読み込んで標準パターンＨ（ｊ）の各エレメシトに数値
＋１１０、−１の加減算を行なう。学習回数ｋが所要学
習回数Ｇよりも大きい場合には演算動作を終了して、Ｈ
ｔｌｌ、Ｈ（２）・・・、ＨｆＪ）　　を標準パターン
として登録する。とこ　　゛ろで各入力パターンＤ（ｊ
、ｋ）ｔＩｉ同一の音声メツセージを異なる態様で複数
回入力することにより得られるものであり、したがって
同一のデータ番号ｊに対してデータＤ（ｊ、ｌ）、Ｄ（
ｊ。

２）、・・・Ｄ（ｊ、ｋ）　が取る数値は必ずしも一定
ではない。今、学習回数Ｇを５回とし、特定のデータ番
号ｊｏに対してデータＤ（Ｊｏ、ｋ）が、Ｄ（Ｊ。

１　）　＝　１．’　Ｄ　（ｊｏ　、２）＝１．　Ｄ（
ｊｏ　、　３）＝０．　Ｄ（ｊ。

、４）＝１、Ｄ（ｊｏ　、５）＝−１という数値を取ツ
タ場合には、データ番号Ｊｏに対応する標準パターンの
ニレｊ）トＨ（ｊｏ）の値けＨ（ｊｏ）＝１＋１＋０＋
１−１＝２となる。同様に学習回数Ｇが５回のときに、
標準パターンの特定のエレメシトＨ（Ｊｏ）が＋５とな
るのは、入力パターンの各データＤ（ｊｏ、１）〜Ｄ（
ｊｏ、５）がすべて１の場合であり、Ｈ（ｊＯ）が−５
となるのはデータＤ（ｊｏ　、　１）〜Ｄ（ｊｏ　、５
）　　がすべて−ｌの場合である。なお学習回数Ｇは４
回、８回、１６回のように２のべき乗になるように設定
しておけば、標準パターンの各エレメシトＨ（ｊ）を確
率値Ｈ（ｊ）　／　ａに変換して評価する際に各エレメ
シトＨ（ｊ）のピットパターンをレジスターＥで右シフ
トするだけで割算を実行することができるので好都合な
ものである。

次に第１０図乃至第１５図は本発明による音声認識装Ｈ
の各部の動作波形を示すものである。各波形は当社の音
声制御式あんま椅子の音声入力「せなかりさすれ。」に
対応するものであＣ１第１０図（ｊＬ）は上記音声入力
の信号波形を示しており、同図缶）はその”振幅パワー
を示してい石。次に第１１図（ａ）　（ｂ）はそれぞれ
平均化回路（Ｍｌ）（Ｍ、）の出カ波形全示してあり、
同図（ａ）　Ｋ示すように母音／−／、／ｈ／、　１０
／、／μ／や有声鼻音／ｎ／に対応する部分で音は平均化回路（Ｍ、）の出力が大きくなり、無声摩擦、
／＃／に対応する部分では平均化回路（ｌの出力が大き
くなるものである。また第１２図−）伽）は同上の対数
変換された波形を示しており、それぞれＬＯＧアシプ（
Ｔ、　）　（Ｔｔ　）の出力波形として得られたもので
ある。とのようにＬＯＧ変換を施すことにより、特に有
声音の出力波形などけ非常に明瞭に現われるものである
。一方第１３図−）（ｂ）＃−を平均化回路（Ｍ４）お
よび（ＭＩｌ）の出力をそれぞれ示しており、同図（ａ
）に示すように母音／ａ／に対応する部分においては平
均化回路（Ｍ４）の出力が大きくなり、広顎音としての
特徴がよく現われているものである。

さらに第１４図（ａ）　（ｂ）は同上の波形を対数変換
したものであり、ＬＯＧアシプ（Ｔ４）および（Ｔ、）
の出力として得られるものである。同図に示すようにＬ
０Ｇアシプ（ＴＩ）（Ｔ、）の出力は有声音の区間にお
いてのみ出力が生じており、無声音区間においてはほと
んど出力＃ｉｏとなっているものである。さらに第１５
図−）伽）は差動アシプ（Ｇｒ）（ＧＯの出力波形を時
定数２０ｍｍｅｅ程度め平均化回路（Ｍ？）（Ｍ、）に
て平均化した出力を示しており、同図（ａ）を見れば無
声摩擦音／Ｉ／の区間においては平均化回路（Ｍ’ｌ　
）の出力が比較的長期間に亘ってマイナスレベルとなり
、無声破裂音／に／の区間においては平均化回路（Ｍ、
）の出力が比較的短期間だけマイナスしベルになること
がわかる。また同図（ｂ）を見れば母音７／ａ／の区間
中は、平均化回路（Ｍ、）の出力は大体プラスレベルと
なることがわかる。なお第１５図（ａ）Ｃｂ）け差動ア
シプ（ａ、　）（Ｇｔ　）のゲイシを非常に大きくして
出力が飽和するようにしており、このように構成すると
とによって後段の判定回路＋９１　ｔ１００？）Ｏ樽に
おける判定動作を容易にしているものであるが、この差
動アシプ（Ｇｌ）（Ｇｙ）等のゲイシを下げて出力が飽
和しないようにした場合には、その出力波形は上記標準
式ターンＨ１１）、Ｈ（２）、−Ｈ（Ｊ）と類似回路に
おいて差動アシプ（Ｇ、）〜（Ｇ、）のゲイシを下げて
平均化回路（Ｍ、）〜（Ｍ、）の出力側にＡ／Ｄ　ｆ換
器を接続して、そのダシタル出力を標準パターンとして
登録すれば複数回の音声入力による学習登録を行なうこ
となく１回の音声入力によって−ｎ乃至＋ｎの！！数か
らなる標準パターンを作成することができるものである
。

次に第１６図は併合発明の一実施例における標準パター
ンを示すものである。本実施例は音声メツセージを発音
する際に無声破裂音／ｐべ／ｌ／、／＆／が欠落して発
音された場合、もしくは非常に弱く発音された場合にお
いても音声メツセージを正しくＷ！Ｐｗ＆できるように
することを狙ったものである。すなわち第１５図（ａ）
を参照すれば明らかなように無声破裂音／に／は無声摩
擦音／＃／に比べて継続時間が短く、このためサンブリ
ジグ周期を若干長くすると、無声摩擦音／Ｉ／け検出で
きても無声破裂音／に／け検出できない場合が生じ得る
。＠１６図はこの点を考慮に入れて上記音声入力／５ｏ
ｎａｋａｏｓａｓｕｒｅ　／の第１階層リストに対する
標準パターンを構成したものであシ、符号Ｕ、Ｓ、Ｖい
５−１Ｕ、Ｓ、Ｖ、、Ｓ、Ｕ、Ｓ、、Ｖ、、ｓ、　し、
ｓ、　ｖ４の時系列（この時系列は具体的には数値＋１
、−１．０の時系列として表わされる。）からなる基本
パターンの他に符号ｖｔとＶ、とで挾まれる符号５１Ｕ
１　Ｓの継続時間に等しい符号Ｓかもなる分岐パターン
（この時系列も数値＋１．−１．０の時系列として表わ
される。）を設けたものである。したがって、音声の符
号化された入力パターンは、上記基本パターンと照合さ
れるのみならず、分岐パターンによって生じる符号Ｕ、
Ｓ、Ｖ１．５Ｓｖｔ、ＳＳＵ、Ｓ、Ｖ、、Ｓ　、　Ｕ　
、　Ｓ　、　Ｖ４　カらナル派生パターンとも照合され
るものであり、したがって無声破裂音／に／が入カバタ
ーンから欠落するよ一すなことがあっても音声メツセー
ジを正しく認識することができるものである。なお４ｓ
１５図中に記載した数字■、■は同一の話者の５回の発
声パターンを分析した結果、基本パターンに一致し九場
合が４回、派生式ターンに一致した場合が１回あつたと
いうことを示すものである。しかしてとの場合における
入力パターンと標準パターンとの照合は第４表に示すよ
うな規則によシ類似度の点数付けを行ない、その合計点
数の大小によって行なうものである。

第　　４　　　表上記第４表において標準パターンの頻度十ｘＩＩ′ｉ標
準パターンの分岐確率に比例する正の整数であって第１
６図の標準Ｊ＼ターンの場合について呂えば、基本パタ
ーンの分岐確率は４１５　であり分岐パターンの分岐確
率＆１１１５　　であるから、基本パターンと入カバタ
ーンとヲ閣合する場合にはｉＥのＳ＆４１に頻度十Ｘと
して乗潰し、分岐パターンと人カバターンとを照合する
場合ＫＩＩ′ｉ、正の整数１を乗算するものである。こ
のようにすれば、基本パターンと入力へターンとを照合
する場合には類似度は高く評価され、分岐パターンと入
カバターンとを照合する場合には類似度は低く評価され
るから、各Ｊ〜ターンの発生確率に応じた分岐照合処理
を行々うことかできるものであり、音声メツセージの認
識率の向上を図り得るものである。なお第１６図の実施
例においては第１階−リストの場合についてのみ分岐パ
ターンを何する標準バターｙｋ示したが、第２および第
３階−リストについても、同様にして同一の神声メツセ
ージを異なる一様で’（１４１に回入力したときに最も
商い確率で生じる入カバターンを基本パターンとして記
督し、基本パターンよりも低いａｌ率で生じる入カバタ
ーンと上記基本式ターンとのへターンが一致しない部分
を分岐パターンとして記發して、分岐照合処理を行なう
ことが可能なものである。

本発明は以上のように構成されており、音声人力から異
なる同波数成分を収り出す帯域フィルタの差信号出力を
、第１および第２の基準値と比較して、数値＋１、−１
，０の時系列からなる人力へターンを構成し、この入力
へターンと照合される複＆種の標準パターンを、−２以
下の負のＳ数から＋２以上の正の整数までの各整数の時
系夕１ｊとして予め記脅し、入力式ターンの各数値と、
その数値に時間軸上で対応する標準パターンの各整数と
の乗算値の総和が最大となる標準パターンを人力メツセ
ージとしてＩ＠繊するようにしたものであるから、標準
パターン七入力式ターンと同様に＋１、−１，０の３檜
類の数値によって表現する場合３に比べて微細な照合を
行なうことができて、神声メツセージの認識精度を高く
すること力；できるという利点を有するものであ抄、ま
た入カバターン行数値＋１．−１．００３神順の数値に
よって構成されているので、照合時の演算処理中に含ま
れる乗算処理を加減算で代用することができ、したかつ
て照合−３作を高速Ｊ鴫゛で行なうことができるという
利点を有するものである。また併合発明にあっては、同
一の音声メ１ソセージを異なる唾様で複数回入力したと
きに最も商い確率で生じる入カバターンを基本パターン
としてその発生確率と共に予め記鋳し、基本パターンよ
りも低い確率で生じる入カバターンと上４基本パターン
とのＪ〜ターンが一致しない部分を基本パターンから分
岐する分岐パターンとしてその発生確率と共に予め配置
し、照合時には基本パターンと分岐パターンのうちのい
ずれかのパターンの各数値と、その数値に時同軸上で対
応する入力２＼ターンの数値とを乗算し、この乗算値に
基本パターンと分岐パターンのうちの上記乗算に用いら
れたパターンの発生確率に比例した整数上乗算して得ら
ｎる演算値の総和を求め、上記総和が最大となるような
分岐照合処理を各標準パターンについて行ない、上か総
和の鏝大値が最大となる標準パターンを人カメ・すセー
ジとして砲鐵するようにし友ものでめるから、例えば４
１１続時間の短い無声破裂音が入力へターンから欠落し
た場合のように音声メツセージが正常な形から若干変形
１！ｌ−受けている場合においても分岐パターンと入カ
バターンとを照合するととＫより音声メツセージを正し
く認識することができ、しかも基本式ターンと分岐ｊ〜
ターンとについてその分岐確率に応じた整数を乗じて照
合処理を行なうようにしたから、発生ａｌｌ率の高い基
本パターンの力が分岐パターンよりも類似度を高く評価
されるものであり、各パターンの発生確率に応じた分岐
照合処理を行なうことができて、音声メツセージの認識
率の向上を図ね得るという利点を有するものである◇

【図面の簡単な説明】

第１図は従来例の１０９９図、％２図（ａｌ　ｔｂ）は
同上の前作波形図、ｓ３図は本発明の一実施例のブロッ
ク図、第４図は同上のＣＰＵＫよる処理ＣＪ作を示すブ
ロック図、第５図（ａ）　（ｂ）は同上の波形整形処理
部の物件を示す波形図、第６図は同上の波形整形処理部
の前作を示す流れ図、第７図は同上の正規化処理部の１
作金示す流れ図、第８図［ａ）ｌｂｌは同上の距離計算
照合部の前作を示す波形図、第９図は同上の登費処坤部
の前作を示す流ｎ図、第１０図（ａ）は同上の音声櫻識
装はの音声入力波形を示す図、同図（ｂ）は同上の入力
音声のパワーを示す図、第１１図（ａ）（ｂ）　ｔｉそ
れぞれ有声音および無声音の我分會検出する平均化回路
の出力波形を示す図、第１２図（ａＨｂｌは同上の対＆
変換された波形を示す図、＠１３図（ａｌ　ｔｂｌはそ
れぞｆ′Ｌ広顎音および狭頒音の成分１１ｒ検出する平
均化１！２１路の出力波形を示す図、第１４図（ａ）　
（ｂ）は同上の対数変換された波形を示す図、第１５図
（ａ）は有声音成分と無声音成分との比を示す因、同図
（ｂ）け広顎音成分と狭＠音成分との比？示す図、第１
６図は坤合発明の一実施例における標準Ｊ〜ターンをボ
す図である〇（Ｆｌ）〜（Ｆ６）は帯域フイ■り、（Ｇ
ｌ）〜（Ｇ３）は差切アンウ、飢はＣＰＵ、囁Ｆｉ標準
ハタ）−ンメモリ、（は距離計算照合部、１４４は登彎
処理部である。代理人　弁理士　　石　１）長　七つ竿２図（ｂ）第９′ｇ。河’１０町 ηＩｌ＋−リＶザ　　　　　　　、ｔ１２１＞ ′可’＋２”’１１１３１：竿１５ｉ１

Claims

【特許請求の範囲】

（１）　　音声入力から異なる周波数成分を取シ出す帯
域フィルタの差信号出力が、第１の基準値以上でかつ第
２の基準値以下のときには数値Ｏを、第１の基準値以下
のときと第２の基準値以上のときの一方ＩＣ＃ｉ数値＋
１を、他方には数値−１をそれぞれ割り当てることによ
り、入力された音声メッセー！；に対して数値＋１、−
１，００時系列からなる入力バターシを作成し、この入
力バターシと照合される複数種の標準バターシを、−２
以下の負の整数から＋２以上の正の整数までの各整数の
時系列として予め記録し、入カバターシの各数値と、そ
の数値に時間軸上で対応する標準バターシの各整数との
乗算値の総和が最大となる標準バターシを入力メツセー
ジとして認識することを特徴とする音声メツセージ識別
方式。
（２）同一の音声メツセージを異なる態様で複数回入力
することＫよシ形成された複数個の入カバターンに含ま
れる各数値のうち、時間軸上で互いに対応する数値を加
算して得られた整数の時系列を上記音声メツセージに対
する標準バターシとして記録して成ることを特徴とする
特許１１１Ｉ求の範囲第１項記載の音声メツセージ識別
方式。
（３）音声入力から異なる周波数成分を取り出す帯域フ
ィルタの差信号出力が、第１の基準値以上でかつ第２の
基準値以下のときＫｆｉ数値０を、第１の基準値以下の
ときと第２の基準値以上のときの一方に＃：ｔ＆値＋１
全＋１方には数値−１をそれぞれ割り当てることＫより
、入力され念音声メツセージに対して数値＋１、−１，
０の時系列からなる入力バターシを作成し、同一の音声
メツセージを異なる態様で複数回入力したときに最も高
い確率で生じる入力バターシを基本バターシとしてその
発生確率と共忙予め記録し、基本バターシよりも低い確
率で生じる入力バターシ、と上記基本バターシとのバタ
ーシが一致しない部分を基本バターシから分岐する分岐
パターンとしてその発生確率と共に予め記録し、かかる
基本パターンと分岐パターンとよシなる標準パターンを
複数種の音声メツセージについて予め記録し、照合時に
は基本式ターンと分岐パターンのうちのいずれかのパタ
ーンの各数値と、その数値に時間軸上で対応する入力パ
ターンの数値とを乗算し、この乗算値に基本パターンと
分岐パターンのうちの上記乗算に用いられたパターンの
発生確率に比例した％数を乗算して得られる演算値の総
和を求め、上記総和が最大となるような分岐照合処理を
各標準パターンについて行ない、上記総和の最大値が最
大となる標準パターンを入力メツセージとして認識する
ことを特徴とする音声メツセージ識別方式。