JPS58137900A - 音声メツセ−ジ識別方式 - Google Patents

音声メツセ−ジ識別方式

Info

Publication number
JPS58137900A
JPS58137900A JP57020126A JP2012682A JPS58137900A JP S58137900 A JPS58137900 A JP S58137900A JP 57020126 A JP57020126 A JP 57020126A JP 2012682 A JP2012682 A JP 2012682A JP S58137900 A JPS58137900 A JP S58137900A
Authority
JP
Japan
Prior art keywords
pattern
input
value
standard
voice message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57020126A
Other languages
English (en)
Inventor
湯浅 啓義
大村 皓一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP57020126A priority Critical patent/JPS58137900A/ja
Publication of JPS58137900A publication Critical patent/JPS58137900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は被制御機器を音声メツセージによって操作する
ための音声メツセージ識別方式に関するものである。
第1図は本発明者らが開発し念従来の音声メツセージ繊
別装置の概略構成を示すものであり、同図において先ず
音声はマイク(1)がら入シ、プリアンプ(2)で増巾
され、LOGアシプ(3)で対数変換されてデシベル値
に比例する出力になり、ACアシプ(4)で交流成分の
みが増幅される。次に低周波用フィルタバンク(5)で
低周波成分(IKH3以下)をとシ出し、高周波用フィ
ルタバンク(6)で高周波成分(5KHg〜t2KHz
)をと〉出す。フィルタバンク16+ +61は各帯域
毎忙帯域フィルタ(Fl)(Fへ整流回路(DI)(D
り、積分回路よりなる平均化回路(Ml)(Mりで構成
されている。低周波用フィルタバンクの平均化回路(M
l)は時定数5〜10 m5ec程度、高周波フィルタ
バンクの平均化回路(M@)は時定数1〜2 m5ec
  程度に設定されている。両フィルタバシク(at 
(61の各出力は差動アンプ(7)K入力され、その出
力すなわち高周波成分と低周波成分の差が時定数20m
5ec程度の積分回路よりなる平均化回路(8)で平均
化される。
この平均化回路(8)から出力されるアナログ信号波形
y (t)は入力音声中に含まれる有声音■と無声音U
の比率を表わしている。第2図(SL) (b) #i
当社の音声制御式あんま椅子の音声入力例「もみ下げセ
ッート」に対するアナログ信号波形3’ (t)を示し
f%のであシ、本実施例では有声音Vはプラス、無声音
Uはマイナスの値をとっている。この信号電圧y(t)
をV判定回路+91&!びU判定回M’lol K 加
、t、り0ツク発生回路(川からのり0ツクCKによっ
て一定周期毎にサシプリシジする。両判定回路+91 
+IωKIriそれぞれ基準電圧RvおよびRUが加え
られ、サシプリシフ時にアナ0り信号電圧がプラス側の
基準電圧R7以上であれば有声音v1マイナス側の基準
電圧RU以下であれば無声音U、RvとRUとの間の鋼
であれば無音Sと判定する。@2図(a) (b)にお
いて、z(t)は信号処理回路(1匂から得られるVU
判定出力信号を示しており、無声音Uに対して#′i−
1、無音Sに対しては0、有声音に対しては+1の値を
とるようになっている。なお第2図(a)はLOGアシ
プ(3)を使用した場合を、また同図(b) #−t 
L OGアシづ(3)を除去した場合をそれぞれ示して
おり、両者を比較すれば明らかなように、入力音声をフ
ィルタバンク(5)16)の前でLOG変換しておくと
、有声音Vと無声音Uの識別を確実に行なえるものであ
る。
次にLOGアシプ(3)を通す前のプリアンプ(2)の
出力は、例えば0KHz〜0.5KHzの帯域フィルタ
(F、)、整流回路(D、)、平均回路(M、)からな
るフィルタバンク0荀と、0JKHi〜1.0KHzの
帯域フィルタ(F4)、整流回路(D4)、平均化回路
(M4)から成るフィルタバンク0荀によって各周波数
領域の特性成分を抽出される。フィルタバシク霞の出力
である低域前VI、と、フィルタバシク幀の出力である
高竣音vHとは差動アンプ(1@により比較され、平均
化回路UKより平均化される。平均化回路(11の出力
はり0ツクCKK同期して動作するvL判定回路Qηお
よびvH判定回路鵠にそれぞれ入力され、平均化回路−
の出力電圧が基準電圧R,よりも低いとVL成分と′判
定されまた基準電圧1111よシも高いとvH酸成分判
定され、RLとRHの間であれば中域音vMとやJ定さ
れる。信号処理回路−はVHs vLsおよびvMの各
成分を、それぞれ+1.0、−1の出力に3値化するも
のである。
信号処理回路Hl (IIの各出力tfI10ポート翰
を介し一?cpuaυに読み込まれるものであり、読み
込まれたデータは一旦入力パターシメtす@に格納され
、標準パターシメモリ(ロ)K記憶されている複数個の
標準バターシのうちどれに一番近いかを照合判定されて
、その照合判定結果に基いて被制御機器−を制御するよ
うになっている。これらの照合判定動作等I/1cPU
(21)とプ0ジ5ムROMf21、およびワー+シク
RAM(イ)を有するマイクロコシピユー9(財)Kよ
り行なっているものである。
ところでかかる従来装置にあっては、入力され次音声メ
ッセー!;に対して作成された数値+1、−1.00時
系列からなる入力パターシを予め記録されている数値+
1.−1.0の時系列からなる複数種の標準バターシと
互いに掛は合わせて相互相関係数を計算し、入力バター
シと標準バターシとの位相差を変化させ次場合における
相互相関係数の最大値を最大相互相関係数として算出し
、この最大相互相関係数が最大となる標準パターシを入
力メツセージとして識別するようにしていたものである
が、このように+1、−1.0というような3種類の数
値のみを用いて相互の相関関係を判断するだけでは十分
に正確な照合動作を行なうことができず、音声メツセー
ジの確実な識別を行なうことができないという問題があ
った。
本発明は従来例のこのような問題点を解決するため忙為
されたものであり、3種類の数値+1、−1.0からな
る入力バターシと掛は合わせて照合される標準バターシ
を3種類以上の複数種の数値により表わすことKより精
度の高い照合動作を行ない得るようにした音声メツセー
ジ識別方式を提供することを目的とするものである。
以下本発明の構成を図示実施例について脱明する。第3
図は本発明による音声メツセージ峻別装置のブロック図
を示すものであり、マイク(1)から入力されプリアン
プ(2)Kて増幅された音声信号は複数個の帯域フィル
タ(Fl)〜(F、)に入力されて、各帯域毎の周波数
成分が取り出されるようKなっている。帯域フィルタ(
Fs ) #i1 K Hz以下の低周波成分を抽出し
、帯域フィルタ(F、)tf 5 KHz”l 2KH
zの高周波成分を抽出し、それぞれ有声音および無声音
のエネルギを抽出するようになっている。次に帯域フィ
Wb 9 (Fs) (Fa)はそれぞれO−O,5K
Hz  および0.5〜1.0KHzの周波数成分を取
シ出して、顎の開きの広い有声音(/a/グループ)と
、顎の開きの狭い有声音(/i/クループ)とのエネル
ギを抽出するようKなっている。さらに帯域フィルタ(
Fl)(Fl)はそれぞれ0.8〜1.8KHzおよび
1.8〜3.2KHzの周波数成分を取り出して、後舌
の有声音(/U/、10/ など)と前古の有声音(/
=/S/#/など)・とのエネルギを抽出するものであ
る。各フィルタ(Fl)〜(F、)の出力は整流回路(
D、)〜(D6)および平均化回路(Mυ〜(Ms) 
K入力されたのち、LOGアシプ(T1)〜(T、)K
て対数変換されてプシベル値に比例する出力になシ、ス
ライス回路(Sl)〜(S6)において必要なレベルよ
りも小さな部分を出力0として除去したうえで、差動ア
ンプ(G、)〜(GS)K入力されて比較される本ので
ある。LOGアシプ(Tり、(T4)および(T6)の
前段にはそれぞれ補償増幅器(八1)〜(A、)が介装
されており、音声信号のパワースペクトル成分が周波数
が高くなるにつれて約−6dB10ct  の割合で減
衰することを考慮して、この減衰を補償するようKして
いるものである。また各平均化回路(Ml)〜(&)は
それぞれ積分回路によって構成されており、その時定W
Kは(MS)(に)(M、)Kついては約5、5 m5
ec 、 (Mりについては約1m5ec、 (M、)
(M。
)については約3ms@eとしている。各差動アンプ(
G1)〜(G、)の出力はそれぞれ時定tk20m5e
c程度の積分回路よりなゐ平均化回路(M、)〜(M、
)に入力されて平均化されるものである。以上のように
構成された各周波数分析部(Bs)(Bs)(Bs)の
うち、有声音と無声音とのIネル乎の比率を分析する第
1の周波数分析部(ist)の出力はV判定回路(9)
およびU判定回路QI K入力されて、基準電圧aVお
よびRU (ただし、Rv>Rm )と比較される。そ
して周波数分析部(B、)の出力電圧が基準電圧Ryよ
りも高ければ有声音Vと判断され、基準電圧R,より本
低ければ無声音Uと判断され、基準電圧RUよりも高く
基準電圧Rvよシも低ければ無音SとやJ断されるよう
になっている。同様に顎の開きの広い有声音と顎の開き
の狭い有声音とのエネルギの比率を分析する4!J2の
周波数分析部(B、)の出力はvH判定回路端、および
vL判定回路0ηに入力されて、基準電圧RHおよびR
L (ただしRH>RL)と比較されて、広顎音vH%
狭顎音VI1%および中顎音vMのうちいずれの音に該
当するかを判断され、さらに前古の有声音と復古の有声
音とのエネルギの比率を分析する第3の周波数分析部(
B、)の出力#ivF判定回路(ハ)およびvBヤj定
回路四に入力されて、基準電圧RFおよびRB (ft
だしRF>RB)  と比較されて、前古音vy。
復古音VB%および中舌音vNのうちのいずれの音に該
当するかを判断されるようKなっている。各判定回路+
91 tlol 0?) H(219(21の出力は信
号処理回路as on C33において数値+1.−1
、OK変換されてI10ボート−を介してCPU(2υ
に読み込まれるものであり、読み込まれたデータは入力
パターシメ芒り翰に格納されるようになって5いる。こ
こで数値+lけ符号V SVa s VF K sまり
数値−1runU。
v、、 s vB  に、さらに数値、9は符号S1v
M1vNにそれぞれ対応するものである。(至)はCP
 U (21+の動作を管理するプロクラムを記憶せる
プロクラムROMであシ、(至)は演算動作に用いられ
るクー中シタRAMである。またC31けメーカ側から
供給される標準バターシROMであシ、機器組込用の音
声メツセージ識別装置のように入力される音声メツセー
ジが予め決まっている場合に用いられるものである。一
方のりは標準バターシRAMであり、ユーザの側で標準
バターシを登録する場合に使用されるものである。(2
0a) Fi虻2のI10ポートであシ、被制御機S−
を制御する際に使用されるものである。
次に第4図FicPU21)とプ0り5ムROMt21
およびクー中:/りRA Malなどを有するマイク0
コシピユータ−による処理動作を機能的にブロック化し
て示したものである。同図において、(至)は無音区間
を検出するための8カウシタであり、有声音Vまたは無
声音Uが検出されるとリセットされて音声入力動作を開
始させ、その後無音Sが一定時間(約0.2秒)以上続
くと九ウシドアツブして音声入力動作を停止するようK
なっている。音声入力動作Fi5〜20m5ecのサシ
プリシフ周期(*施例でけ5rrlsecの周期)に従
って行なわれ、入カバターシメ℃す(22には判定回路
+91 fl(1からの有音声V、無声音Uおよび無音
Sの各符号とその継続時間、また判定回路H01からの
広顎音VH1狭顎音VII%および中顎音VMの各符号
とその継続時間、さらにヤ1定回路(2Il@からの前
古音VF%復古音vB1および中舌音vNの各符号とそ
の継続時間とが入力されるよう罠なっている。このよう
にして一旦メモリに格納された信号は波形整形処理部3
461(至)により整形処理される。
第5図(a) #i第1の波形整形処理部(ロ)におい
て波形整形される前の信号波形を示しており、また第5
図(b) #i波形整形処理された後の信号波形を示し
ている。波形整形処理は第5図(&)の矢印al K示
すように、有声音Vまたは無声音Uの継続時間の短いも
のを無音Sとする第1の処理と、第5図−)の矢印a、
−一に示すように、有声音Vまたは無声音Uの継続時間
が比較的長いものの次に来る無音Sの期間が短く、かつ
無音Sに続く次の符号が無音Sの前の符号と同じであれ
ば、無音Sを消すようにする第2の処理とから構成され
ているものである。第6図はかかる波形整形処理部C3
4)忙おける波形整形処理の手順を示すフロー子ヤート
である。
このフロー子ヤートは、符号V、U、8とその継続時間
とのリスト形式によりメ℃りに格納されたデータを演算
処理して新たなリスト形式のデータを作成し、再びメ℃
すに格納する九めのプo’)ラムを示している。まず整
形前のリストはその最初の符号がSであるか否かを判定
し、最初の符号がSでなければその継続時間が基準値T
1より本大きいかどうかを判定される。継続時間が基準
値T。
よりも大きくなければ、その符@vtたはUを符号Sに
変換して符号Sとその継続時間を整形後のリストとして
メ℃りに書き込む。また継続時間が基準値TIよりも太
き・ければ、その符号vtf:、#iUとその継続時間
とを整形後のリストとしてそのまま転写する。そして次
の符号Sの継続時間が基準値T、よりも短いかどうかを
判定し、基準値T、よりも短かければ、その符号Sの次
の符号は符号Sの前の符号と同じであるかどうかを’I
’ll定する。同じでなければ符JijSとその継続時
間とをその1tIIi形後のりストに転写する。また同
じであれば符号Sを前後の符号UまたはVK変えて、そ
の変え友後の符号とその継続時間とを整形後のリストと
してメ℃すに書き込む。さらに次の符号Sについてその
継続時間が基準値T、よりも短いが否かを再び判定する
。以上の演算処理動作は整形前のすべてのリストが変換
処理されるまで続けられるものであり、変換処理が終r
すると整形後のリストの最後の符号がSであるかどうか
を判定し、最後の符号がSであればその符号Sを整形後
のリストから除去して、再び最後の符号がSであるかど
うかを判定する。しかして最後の符号がSでなくなれば
一連の波形整形処理動作を終了するものであり、このと
き忙メ℃すには、第5図(b)に示すような波形整形処
理された信号が符号U、V、Sとその継続時間とのリス
ト形式で格納されていると2とになる。次に第2の波形
整形処理部(ハ)においては符号VH、VL k 1 
ヒVMK ツイテ同様o演算処g!Je作が行なわれる
ものであり、具体的KIIi■符号yHおよび符号■L
のうち継続時間の短いものを符号VNK変する動作と、
■符号VHと符号vHとの間に挾まれた継続時間の短い
符号vMを符号vHに変換する動作と、■符号VLと符
号vLとの間に挾まれた継続時間の短い符号vMを符号
VLK変換する動作とが行なわれるものである。さらに
第3の波形整形処理部(イ)においては符号VF s 
vB sおよびVNK−″)いて同様の演算処理動作を
行なって波形整形処理を行なうものである。
しかして各波形整形処理部(ロ)@(至)の出力は階層
化処理部C37)に入力されて、第1階層リストと第2
階層リスト、および第3階層リストが作成されるように
なっている。このうち第1階層リストについて禮号V、
USSとその継続時間のみからなる符号リストと同一で
あるので、第1の波形整形処理S(ロ)の出力リストを
そのままメ℃りに転写するととkより得られるものであ
る。次に第2階層リストは第1階層リストの符号Vの区
間内における符号vH1vL1vM とその継続時間か
らなる符号リストとして構成されるものであり、したが
って第1階層リストの中に符号Vがn個含まれていると
すると、第2階層リストもまたn個作成されるものであ
る。さらに第3階層りストについては、第1階層リスト
の符号Vの区間内における符号vF1vBSvN とそ
の継続時間からなる符号リストとして構成されるもので
あり、したがって第1階層リストの中に符号Vがn個含
まれているとすると、第3階層リストもまたn個作成さ
れることになる。本発明においてはこのように音声メツ
セージから抽出した符号パターンを標準パターンと照合
する際に、符号パターンをggl乃至第3階層リストに
分離して階層化し、第1階層リストについて照合を行な
った後に1頓次第2、第3階層リストについての照合を
行なうようKして照合処理を段階的に行ない得るようK
しているものである。これは音声の巨視的な構造に対応
する特徴を先に抽出した後で、順次音声の微視的な特徴
に対応する特徴を抽出するようにした方が、音声の認識
を効率的に、かっaS夷に行なうことができるからであ
る。
このような音声の特徴を巨視的な特徴から順に列挙して
行くと次のようKなる。
l)有声音Vであるか無声音Uであるか。かかる特徴は
音声の周波数スペクトルの中に低域成分(IKHz以下
)が多いか、高域成分(5KHz”12KHz )が多
いかによって判定できる。
2)有音声Vであれば、顎の開きの広い有声音VH(/
a/グループ)であるか、顎の開きの狭い有声音VL(
/f/グループ)であるか。かかる特徴は母音の第1ホ
ルマシトが高い(0,5〜1.0KHz)か、低い(0
〜o、5Kaz)かによって判定できる。
3)同じく有声音であれば、前古の有声音(/i/、/
a/など)であるか、復古の有声音(/語/、10/な
ど)であるか。かかる特徴は母音の第2ホルマシトが高
い(1,8〜3.2KHz )か、低い(0,8〜1.
8KHz)かによって判定で自る。
このような音声の特徴を第1乃至第3階層リストについ
て順次段階的に照合して行くことにより音声メツセージ
の識別を比較的正*に行ない得るものである。
次に(至)は正規化処理部であり、上述のようKして得
られた第1乃至第3階層リストについて符号の継続時間
の総和が一定になるように時間軸上の正規化を行なうも
のである。4II!11表は第1階層リスト忙ついて、
符号V、U、Sとその継続時間TKおよび正規化された
継続時間Tsの関係を示し友ものであり、継続時間TK
はサンプル個数に対応している。
第1表 かかる正規化処理動作を第、7図のフロー子ヤートによ
って説明すれば、まず符号U、S、Vの全継続時間TK
の総和ΣTK(=16623)を求めて、これから正規
化係数Ps=1000/ΣTKを求める。次に各符号U
SVSSについてその継続時間TK (J)に正規化係
数Psを乗算して正規化された継続時間Ts(j)を順
に求めて行くものである。以上のようにして第1階層リ
ストについての継続時間の正規化動作が完了すると、n
個の第2および第3の階層リストについてもそれぞれ同
様の操作により継続時間の正規化処理を行なうものであ
る。wJ2表(a)〜(d)は、第11i1層リスト(
第1表参照)K含まれる4個の符号Vについて作成され
九第2階層リストとその正規化された継続時間とをそれ
ぞれ示したものである。
第2表−) 第2表 (c) 第2表(&)は第1表に示す第1階層リストの最初の符
号V(継続時間3415)に対応する第2階−リスト■
1を示しておシ、以下順に第3表(b)〜(由trim
続時rAが3621,1437.263717)各符号
Vに対応する第1階層リストV、 〜V、を示している
。以上のようにして継続時間の正規化を行なうと、発声
速度の影響を受けにくくなるので4認識率を高めること
ができるものである。なお第1表及び第2表(a)〜(
d)に示した継続時間TKのデータは音声メツセージ「
ぜなかをさすれ」を50μsecのサシプリンタバルク
を用いて分析した場合のシ三ユし−シ3シデ タであっ
て、5m5ecのサシプリシクバルスを用いて分析を行
なう場合には継続時間(す々わちサシプリ、7り個数)
Fi表の値の100分の1になるものである。
以上のようKして時間軸上で正規化された第1階層リス
トの符号V、U%Bや、第2階層リスト   □の符号
vH1vI、、vMlおよび第3階層リストの符号vy
 % VB % vN  などはメモリ上では上述のよ
うに3種類の数値+1、−1.00時系列として表わさ
れているものであり、音声メツセージの照合動作を行な
う際には距離計算照合部3Iにおいてかかる3稗類の数
値+l、−1,Oからなる入カバターンと、標準式ター
ンメモリ陣に記憶されている標準バターシの数値系列と
を掛は合わせることにより、相互相関係数の計算を行な
い、この相互相関係数の値の大小に応じて入力バターシ
に対応する標準バターシを決定するものである。標準バ
ターンメ℃り彌に記憶されている標準2〜ターシは、数
値+11% +(n−1)、+(n−2)・・・・・・
、+2、+1.0、−1、−2、・・・・・・、−(n
−2)、−(n−1)、−nの時系列から構成されてい
る。(ただしnけ2以上の整数である。)このうち例え
ば上記第1階層リストと照合され、る標準パターンにお
いては数値+ntfi完全な有声音Vを表わし、数値−
nは完全な無声音Uを表し、数値−nと+nの間に含ま
れる数値はその中間的な音を表わすものである。
vJ8図−)は数値+11−1.0によって表わされる
入力パターンの一例を示しており、同図(b)ii上記
入力バターシと照合される数値+n乃至−nによって表
わされる標準パターンの一例を示している。ここで時間
tの変化に対する標準パターンの変化を11<1>とじ
、第1階層リストや第2、第3階層リストのような入力
パターンの変化を1+ (1)とすると、両バターシの
相互相関係数は次式によって与えられるものである。
fIx (t) = 1″’ f+(t) b(t−τ
)dtこのように相互相関係数f1.(τ)は両パター
ンのとる値を掛は合わせて時間積分′□することによっ
て求め得るものであるが、本発明にあっては一方のパタ
ーンf1(1)は数値+1、−1.0の3通りの値しか
とらないので、実際には乗算を行なう必要はなく加減算
のみで相互相関係数を求め得るものであり、したがって
照合動作の高速化を図り得るものである。またかかる相
互相関係!kftm(τ)をマイクロコシピユータを用
いて計算する場合には、実用土は次式のような数値演算
によって充分に計算できるものである。
ところで相互相関係数f1.(τ)Fi互いに乗算され
る標準パターンfl(t)と入力パターンf、 (を−
τ)との位相差τの関数となっており、ある特定の位相
差τにおいて最大の値をとるようになっている。そこで
距離計算照合部(至)においてはこの相互相関係数f1
!(τ)が最大になる点を求めてパ<+の最大値を各標
準パターンについて計算し、第1、第2および第3階層
識別部141 (4m)(4Bにそれぞれ記憶させ、最
後に判定処理部器においてその大小関係を比較して入力
パターンに最も近い標準パターンを判定しているもので
ある。
ところでかかる相互相関係数ち!(τ)を用いて入力パ
ターンと標準パターンとの相関関係を調べる場合には入
カバターンが0であり、かつ標準パターンもまた0であ
るときに、両者の積が0となるのでパターンが値0をと
る区間が比較的よく共通している場合においても相関関
係が低く評価されてしまう場合がある。そこで入カバタ
ーンと標準パターンとの類似度を第3表に示すような点
数付けを行なうことによって決定する方法がある。
第  3  表 念だし、第3表においてx#il乃至nの整数である。
第3表に示すような点数付けを行なって各点数の総和に
よって両バターシの相関関係を調べるようにすれば、両
バターシが共に債0をとる区間が比較的よく共通してい
るような場合においても類似度を正しく判断することが
できる本のである。なお最終的な判定は類似度の最高の
ものと2番目のものとを選定し、類似度の最高のものが
所定値以上の点数となり、かつ2番目の本のとの差が所
定値以上であるもののみを音声メツセージとしてa繊し
、他のものけ認識不可能であるとして再入力を促すよう
にするものである。
次に標準パターンメモリ器内に記憶されている標準パタ
ーンの作成方法について説明する。
第4図においてC4は登録処理部であり、正規化処理部
(至)から出力される数値+1、−1,0からなる入力
パターンを複数回入力して−n乃至十nの整数からなる
標準パターンを学習登録するようになっている。第9図
はかかる登録処理部(114における標準パターンの学
習登録法のアルコリズムを示すフローチャートである。
同図に示。
すように標準パターンの各エレメシトH(J) #i初
期状態においてはすべて0に設定しである。この状態に
おいて、まず学習回数kを1とし、データ番号jを1と
してデータD(j、k)を入力する。データDi、k)
は+1、−1.0のうちのいずれかの数値を取るもので
あり、D(1、k)、D(2,k)、・・・・・・ D
(J、k)Kよって構成される数値列のパターンが入カ
バターンとなっている。しかしてこの5!−タD(j、
k)が1であれば標準パターンの各エレメシトとなる変
数H(j)に数値1を加算し、データD(j。
k)が−1であればH(j)から数値1を減算する。ま
たデータD(j、k)が0であれば変数H(j)には加
減算を行なわないようにする。かかる演算動作が終了す
ればデータ番号jを1つだけカウントアツプして、デー
タ番号jが入力パターンのデータ総数Jよりも大きいか
否かを判断する。データ番号jがデータ総数Jよりも小
さいか、ま念は等しいときには次のデータD (j、k
)を入力して上記演算を繰り返す。またデータφ 番J8j・がデータ総数Jよりも大きい場合には、学習
回数kを1つだけカウントアツプして、所要学習回数G
よシも失色いか否かを′#4j断する。
学習回数kが所要学習回数Gよりも小さいか、または等
しい場合にはデータ番9jを1に戻して新たに別の入力
バター、7D(J、k)(j=1.2、・・・、J)を
読み込んで標準パターンH(j)の各エレメシトに数値
+110、−1の加減算を行なう。学習回数kが所要学
習回数Gよりも大きい場合には演算動作を終了して、H
tll、H(2)・・・、HfJ)  を標準パターン
として登録する。とこ  ゛ろで各入力パターンD(j
、k)tIi同一の音声メツセージを異なる態様で複数
回入力することにより得られるものであり、したがって
同一のデータ番号jに対してデータD(j、l)、D(
j。
2)、・・・D(j、k) が取る数値は必ずしも一定
ではない。今、学習回数Gを5回とし、特定のデータ番
号joに対してデータD(Jo、k)が、D(J。
1 ) = 1.’ D (jo 、2)=1. D(
jo 、 3)=0. D(j。
、4)=1、D(jo 、5)=−1という数値を取ツ
タ場合には、データ番号Joに対応する標準パターンの
ニレj)トH(jo)の値けH(jo)=1+1+0+
1−1=2となる。同様に学習回数Gが5回のときに、
標準パターンの特定のエレメシトH(Jo)が+5とな
るのは、入力パターンの各データD(jo、1)〜D(
jo、5)がすべて1の場合であり、H(jO)が−5
となるのはデータD(jo 、 1)〜D(jo 、5
)  がすべて−lの場合である。なお学習回数Gは4
回、8回、16回のように2のべき乗になるように設定
しておけば、標準パターンの各エレメシトH(j)を確
率値H(j) / aに変換して評価する際に各エレメ
シトH(j)のピットパターンをレジスターEで右シフ
トするだけで割算を実行することができるので好都合な
ものである。
次に第10図乃至第15図は本発明による音声認識装H
の各部の動作波形を示すものである。各波形は当社の音
声制御式あんま椅子の音声入力「せなかりさすれ。」に
対応するものであC1第10図(jL)は上記音声入力
の信号波形を示しており、同図缶)はその”振幅パワー
を示してい石。次に第11図(a) (b)はそれぞれ
平均化回路(Ml)(M、)の出カ波形全示してあり、
同図(a) K示すように母音/−/、/h/、 10
/、/μ/や有声鼻音/n/に対応する部分で音 は平均化回路(M、)の出力が大きくなり、無声摩擦、
/#/に対応する部分では平均化回路(lの出力が大き
くなるものである。また第12図−)伽)は同上の対数
変換された波形を示しており、それぞれLOGアシプ(
T、 ) (Tt )の出力波形として得られたもので
ある。とのようにLOG変換を施すことにより、特に有
声音の出力波形などけ非常に明瞭に現われるものである
。一方第13図−)(b)#−を平均化回路(M4)お
よび(MIl)の出力をそれぞれ示しており、同図(a
)に示すように母音/a/に対応する部分においては平
均化回路(M4)の出力が大きくなり、広顎音としての
特徴がよく現われているものである。
さらに第14図(a) (b)は同上の波形を対数変換
したものであり、LOGアシプ(T4)および(T、)
の出力として得られるものである。同図に示すようにL
0Gアシプ(TI)(T、)の出力は有声音の区間にお
いてのみ出力が生じており、無声音区間においてはほと
んど出力#ioとなっているものである。さらに第15
図−)伽)は差動アシプ(Gr)(GOの出力波形を時
定数20mmee程度め平均化回路(M?)(M、)に
て平均化した出力を示しており、同図(a)を見れば無
声摩擦音/I/の区間においては平均化回路(M’l 
)の出力が比較的長期間に亘ってマイナスレベルとなり
、無声破裂音/に/の区間においては平均化回路(M、
)の出力が比較的短期間だけマイナスしベルになること
がわかる。また同図(b)を見れば母音7/a/の区間
中は、平均化回路(M、)の出力は大体プラスレベルと
なることがわかる。なお第15図(a)Cb)け差動ア
シプ(a、 )(Gt )のゲイシを非常に大きくして
出力が飽和するようにしており、このように構成すると
とによって後段の判定回路+91 t100?)O樽に
おける判定動作を容易にしているものであるが、この差
動アシプ(Gl)(Gy)等のゲイシを下げて出力が飽
和しないようにした場合には、その出力波形は上記標準
式ターンH11)、H(2)、−H(J)と類似回路に
おいて差動アシプ(G、)〜(G、)のゲイシを下げて
平均化回路(M、)〜(M、)の出力側にA/D f換
器を接続して、そのダシタル出力を標準パターンとして
登録すれば複数回の音声入力による学習登録を行なうこ
となく1回の音声入力によって−n乃至+nの!!数か
らなる標準パターンを作成することができるものである
次に第16図は併合発明の一実施例における標準パター
ンを示すものである。本実施例は音声メツセージを発音
する際に無声破裂音/pべ/l/、/&/が欠落して発
音された場合、もしくは非常に弱く発音された場合にお
いても音声メツセージを正しくW!Pw&できるように
することを狙ったものである。すなわち第15図(a)
を参照すれば明らかなように無声破裂音/に/は無声摩
擦音/#/に比べて継続時間が短く、このためサンブリ
ジグ周期を若干長くすると、無声摩擦音/I/け検出で
きても無声破裂音/に/け検出できない場合が生じ得る
。@16図はこの点を考慮に入れて上記音声入力/5o
nakaosasure /の第1階層リストに対する
標準パターンを構成したものであシ、符号U、S、Vい
5−1U、S、V、、S、U、S、、V、、s、 し、
s、 v4の時系列(この時系列は具体的には数値+1
、−1.0の時系列として表わされる。)からなる基本
パターンの他に符号vtとV、とで挾まれる符号51U
1 Sの継続時間に等しい符号Sかもなる分岐パターン
(この時系列も数値+1.−1.0の時系列として表わ
される。)を設けたものである。したがって、音声の符
号化された入力パターンは、上記基本パターンと照合さ
れるのみならず、分岐パターンによって生じる符号U、
S、V1.5Svt、SSU、S、V、、S 、 U 
、 S 、 V4 カらナル派生パターンとも照合され
るものであり、したがって無声破裂音/に/が入カバタ
ーンから欠落するよ一すなことがあっても音声メツセー
ジを正しく認識することができるものである。なお4s
15図中に記載した数字■、■は同一の話者の5回の発
声パターンを分析した結果、基本パターンに一致し九場
合が4回、派生式ターンに一致した場合が1回あつたと
いうことを示すものである。しかしてとの場合における
入力パターンと標準パターンとの照合は第4表に示すよ
うな規則によシ類似度の点数付けを行ない、その合計点
数の大小によって行なうものである。
第  4   表 上記第4表において標準パターンの頻度十xII′i標
準パターンの分岐確率に比例する正の整数であって第1
6図の標準J\ターンの場合について呂えば、基本パタ
ーンの分岐確率は415 であり分岐パターンの分岐確
率&1115  であるから、基本パターンと入カバタ
ーンとヲ閣合する場合にはiEのS&41に頻度十Xと
して乗潰し、分岐パターンと人カバターンとを照合する
場合KII′i、正の整数1を乗算するものである。こ
のようにすれば、基本パターンと入力へターンとを照合
する場合には類似度は高く評価され、分岐パターンと入
カバターンとを照合する場合には類似度は低く評価され
るから、各J〜ターンの発生確率に応じた分岐照合処理
を行々うことかできるものであり、音声メツセージの認
識率の向上を図り得るものである。なお第16図の実施
例においては第1階−リストの場合についてのみ分岐パ
ターンを何する標準バターyk示したが、第2および第
3階−リストについても、同様にして同一の神声メツセ
ージを異なる一様で’(141に回入力したときに最も
商い確率で生じる入カバターンを基本パターンとして記
督し、基本パターンよりも低いal率で生じる入カバタ
ーンと上記基本式ターンとのへターンが一致しない部分
を分岐パターンとして記發して、分岐照合処理を行なう
ことが可能なものである。
本発明は以上のように構成されており、音声人力から異
なる同波数成分を収り出す帯域フィルタの差信号出力を
、第1および第2の基準値と比較して、数値+1、−1
,0の時系列からなる人力へターンを構成し、この入力
へターンと照合される複&種の標準パターンを、−2以
下の負のS数から+2以上の正の整数までの各整数の時
系夕1jとして予め記脅し、入力式ターンの各数値と、
その数値に時間軸上で対応する標準パターンの各整数と
の乗算値の総和が最大となる標準パターンを人力メツセ
ージとしてI@繊するようにしたものであるから、標準
パターン七入力式ターンと同様に+1、−1,0の3檜
類の数値によって表現する場合3に比べて微細な照合を
行なうことができて、神声メツセージの認識精度を高く
すること力;できるという利点を有するものであ抄、ま
た入カバターン行数値+1.−1.003神順の数値に
よって構成されているので、照合時の演算処理中に含ま
れる乗算処理を加減算で代用することができ、したかつ
て照合−3作を高速J鴫゛で行なうことができるという
利点を有するものである。また併合発明にあっては、同
一の音声メ1ソセージを異なる唾様で複数回入力したと
きに最も商い確率で生じる入カバターンを基本パターン
としてその発生確率と共に予め記鋳し、基本パターンよ
りも低い確率で生じる入カバターンと上4基本パターン
とのJ〜ターンが一致しない部分を基本パターンから分
岐する分岐パターンとしてその発生確率と共に予め配置
し、照合時には基本パターンと分岐パターンのうちのい
ずれかのパターンの各数値と、その数値に時同軸上で対
応する入力2\ターンの数値とを乗算し、この乗算値に
基本パターンと分岐パターンのうちの上記乗算に用いら
れたパターンの発生確率に比例した整数上乗算して得ら
nる演算値の総和を求め、上記総和が最大となるような
分岐照合処理を各標準パターンについて行ない、上か総
和の鏝大値が最大となる標準パターンを人カメ・すセー
ジとして砲鐵するようにし友ものでめるから、例えば4
11続時間の短い無声破裂音が入力へターンから欠落し
た場合のように音声メツセージが正常な形から若干変形
1!l−受けている場合においても分岐パターンと入カ
バターンとを照合するととKより音声メツセージを正し
く認識することができ、しかも基本式ターンと分岐j〜
ターンとについてその分岐確率に応じた整数を乗じて照
合処理を行なうようにしたから、発生all率の高い基
本パターンの力が分岐パターンよりも類似度を高く評価
されるものであり、各パターンの発生確率に応じた分岐
照合処理を行なうことができて、音声メツセージの認識
率の向上を図ね得るという利点を有するものである◇
【図面の簡単な説明】
第1図は従来例の1099図、%2図(al tb)は
同上の前作波形図、s3図は本発明の一実施例のブロッ
ク図、第4図は同上のCPUKよる処理CJ作を示すブ
ロック図、第5図(a) (b)は同上の波形整形処理
部の物件を示す波形図、第6図は同上の波形整形処理部
の前作を示す流れ図、第7図は同上の正規化処理部の1
作金示す流れ図、第8図[a)lblは同上の距離計算
照合部の前作を示す波形図、第9図は同上の登費処坤部
の前作を示す流n図、第10図(a)は同上の音声櫻識
装はの音声入力波形を示す図、同図(b)は同上の入力
音声のパワーを示す図、第11図(a)(b) tiそ
れぞれ有声音および無声音の我分會検出する平均化回路
の出力波形を示す図、第12図(aHblは同上の対&
変換された波形を示す図、@13図(al tblはそ
れぞf′L広顎音および狭頒音の成分11r検出する平
均化1!21路の出力波形を示す図、第14図(a) 
(b)は同上の対数変換された波形を示す図、第15図
(a)は有声音成分と無声音成分との比を示す因、同図
(b)け広顎音成分と狭@音成分との比?示す図、第1
6図は坤合発明の一実施例における標準J〜ターンをボ
す図である〇(Fl)〜(F6)は帯域フイ■り、(G
l)〜(G3)は差切アンウ、飢はCPU、囁Fi標準
ハタ)−ンメモリ、(は距離計算照合部、144は登彎
処理部である。 代理人 弁理士  石 1)長 七 つ 竿2図 (b) 第9′g。 河’10町 ηIl+−リ Vザ       、t121> ′可’+2”’1 1131: 竿15i1

Claims (3)

    【特許請求の範囲】
  1. (1)  音声入力から異なる周波数成分を取シ出す帯
    域フィルタの差信号出力が、第1の基準値以上でかつ第
    2の基準値以下のときには数値Oを、第1の基準値以下
    のときと第2の基準値以上のときの一方IC#i数値+
    1を、他方には数値−1をそれぞれ割り当てることによ
    り、入力された音声メッセー!;に対して数値+1、−
    1,00時系列からなる入力バターシを作成し、この入
    力バターシと照合される複数種の標準バターシを、−2
    以下の負の整数から+2以上の正の整数までの各整数の
    時系列として予め記録し、入カバターシの各数値と、そ
    の数値に時間軸上で対応する標準バターシの各整数との
    乗算値の総和が最大となる標準バターシを入力メツセー
    ジとして認識することを特徴とする音声メツセージ識別
    方式。
  2. (2)同一の音声メツセージを異なる態様で複数回入力
    することKよシ形成された複数個の入カバターンに含ま
    れる各数値のうち、時間軸上で互いに対応する数値を加
    算して得られた整数の時系列を上記音声メツセージに対
    する標準バターシとして記録して成ることを特徴とする
    特許111I求の範囲第1項記載の音声メツセージ識別
    方式。
  3. (3)音声入力から異なる周波数成分を取り出す帯域フ
    ィルタの差信号出力が、第1の基準値以上でかつ第2の
    基準値以下のときKfi数値0を、第1の基準値以下の
    ときと第2の基準値以上のときの一方に#:t&値+1
    全+1方には数値−1をそれぞれ割り当てることKより
    、入力され念音声メツセージに対して数値+1、−1,
    0の時系列からなる入力バターシを作成し、同一の音声
    メツセージを異なる態様で複数回入力したときに最も高
    い確率で生じる入力バターシを基本バターシとしてその
    発生確率と共忙予め記録し、基本バターシよりも低い確
    率で生じる入力バターシ、と上記基本バターシとのバタ
    ーシが一致しない部分を基本バターシから分岐する分岐
    パターンとしてその発生確率と共に予め記録し、かかる
    基本パターンと分岐パターンとよシなる標準パターンを
    複数種の音声メツセージについて予め記録し、照合時に
    は基本式ターンと分岐パターンのうちのいずれかのパタ
    ーンの各数値と、その数値に時間軸上で対応する入力パ
    ターンの数値とを乗算し、この乗算値に基本パターンと
    分岐パターンのうちの上記乗算に用いられたパターンの
    発生確率に比例した%数を乗算して得られる演算値の総
    和を求め、上記総和が最大となるような分岐照合処理を
    各標準パターンについて行ない、上記総和の最大値が最
    大となる標準パターンを入力メツセージとして認識する
    ことを特徴とする音声メツセージ識別方式。
JP57020126A 1982-02-09 1982-02-09 音声メツセ−ジ識別方式 Pending JPS58137900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57020126A JPS58137900A (ja) 1982-02-09 1982-02-09 音声メツセ−ジ識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57020126A JPS58137900A (ja) 1982-02-09 1982-02-09 音声メツセ−ジ識別方式

Publications (1)

Publication Number Publication Date
JPS58137900A true JPS58137900A (ja) 1983-08-16

Family

ID=12018422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57020126A Pending JPS58137900A (ja) 1982-02-09 1982-02-09 音声メツセ−ジ識別方式

Country Status (1)

Country Link
JP (1) JPS58137900A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6243697A (ja) * 1985-08-20 1987-02-25 三洋電機株式会社 音声分析装置
US4911838A (en) * 1987-02-27 1990-03-27 Kabushiki Kobe Seiko Sho Pluri-tubular aerator

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6243697A (ja) * 1985-08-20 1987-02-25 三洋電機株式会社 音声分析装置
US4911838A (en) * 1987-02-27 1990-03-27 Kabushiki Kobe Seiko Sho Pluri-tubular aerator

Similar Documents

Publication Publication Date Title
Shi et al. On the importance of phase in human speech recognition
Mittal et al. Analysis of production characteristics of laughter
Safavi et al. Speaker recognition for children's speech
WO2010011963A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
Muhammad et al. Voice content matching system for quran readers
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Kirchhübel et al. Spoofed speech from the perspective of a forensic phonetician
JPS58137900A (ja) 音声メツセ−ジ識別方式
Jessen et al. Forensic voice comparisons in German with phonetic and automatic features using VOCALISE software
Omar et al. Feature fusion techniques based training MLP for speaker identification system
CN112967538B (zh) 一种英语发音信息采集系统
Rengaswamy et al. Robust f0 extraction from monophonic signals using adaptive sub-band filtering
Li et al. Likelihood ratio-based forensic voice comparison with f-pattern and tonal f0 from the Cantonese/oy/diphthong
Rose Forensic voice comparison with secular shibboleths-a hybrid fused gmm-multivariate likelihood ratio-based approach using alveolo-palatal fricative cepstral spectra
Zouhir et al. Speech Signals Parameterization Based on Auditory Filter Modeling
CN119446122B (zh) 一种普通话鼻塞语音信号的处理方法、实验系统及实验方法
Patil et al. Identifying Perceptually Similar Languages Using Teager Energy Based Cepstrum.
Dasare et al. The Role of Formant and Excitation Source Features in Perceived Naturalness of Low Resource Tribal Language TTS: An Empirical Study.
Jialin et al. Likelihood ratio-based forensic voice comparison with the Cantonese diphthong/ei/F-pattern
Jiang Experiments on a speaker identification system
JP7432879B2 (ja) 発話トレーニングシステム
Sen et al. A New transform for robust Text-Independent speaker identification
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Pingjai et al. A Likelihood Ratio− based forensic voice comparison using formant trajectories of Thai diphthongs
Patil et al. LP spectra vs. Mel spectra for identification of professional mimics in Indian languages