JPS59139100A - 音声メツセ−ジ識別方式 - Google Patents

音声メツセ−ジ識別方式

Info

Publication number
JPS59139100A
JPS59139100A JP1411583A JP1411583A JPS59139100A JP S59139100 A JPS59139100 A JP S59139100A JP 1411583 A JP1411583 A JP 1411583A JP 1411583 A JP1411583 A JP 1411583A JP S59139100 A JPS59139100 A JP S59139100A
Authority
JP
Japan
Prior art keywords
voiced
input
sounds
sound
filters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1411583A
Other languages
English (en)
Other versions
JPH0124320B2 (ja
Inventor
湯浅 啓義
大村 晧一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP1411583A priority Critical patent/JPS59139100A/ja
Publication of JPS59139100A publication Critical patent/JPS59139100A/ja
Publication of JPH0124320B2 publication Critical patent/JPH0124320B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は電子機器を音声メツセージによって操作するだ
めの音声メツセージ識別方式に関するものである。
〔背景技術〕
第1図は従来本発明者らが開発した音声メツセージ識別
装置(特願昭57−171988号)の概略構成を示し
ている。同図において、F1a5 Fll) 、FPa
 s Ftb s ””””’、Fna 、Fnbは音
声入力から相異なる周波数領域の短時間平均パワーを取
り出すフィルタ対であわ、これらの各、フィルタ対F+
a s Fat) s ・・・・・・・・・、Fna 
、Fnbの出力はそれぞれ差動増幅手段S1、S2、・
・・・・・・・・、Snに入力されて差信号出力に変換
される。そしてこの差信号出力は5母音判別手段VDに
入力されて、各差信号出力の大小関係に応じて日本語の
5母音/ a /、/i/、/u/、/e/、10/に
対応する5つの符号Va%Vi、 Vux Yes V
oのうちいずれか1つが複合符・号化処理部CMに入力
される。一方フィルタFVは音声入力から有声音のエネ
ルfを抽出する低周波フィルタであシ、またフィルタF
uは音声入力から無声音のエネルギを抽出する高周波フ
ィルタであって、各フィルタFV s Fuの出力は差
動増幅手段Soによって差信号出力に変換される。差動
増幅手段Soの出力は比較手段Coにおいて基準値RV
 sRu (Rv < 0 < Ru)と比較され、差
信号出力が基準値Ryよシも小さい場合には有声音Vと
判定される。また上記差信号出力が基準値Ruよりも大
きい場合には無声音Uと判定され、基準値RuとRVと
の間であれば無音Sと判定される。そして無音、有声音
、および無声音の各場合についてS1■、Uの各符号の
うちいずれか1つの符号が複合符号化処理部CMに入力
される。この複合符号化処理部CMは比較手段Coから
出力される符号が■であるときには、5母音判別手段V
Dから出力されるVa、Vl s v、 s ve 1
■0のうちのいずれか1つの符号を出力し、また比較手
段Coから出力される符号がUまたはSであるときには
、その符号をそのまま出力するものである。したがって
、複合符号化処理部CMからはU、S、Va s Vl
、Vu、ve s v。
の合計7通シの複合符号が出力されるものである。この
複合符号の時系列からなる入カバターンは時間軸正規化
処理部TNにょシ時間軸を線形に正規化された後に、入
カバターン記憶部IMに記憶される。一方標準パターン
記憶部f(MKは、複数種の音声メッセ′−ジを標準的
に発声したときに形成される各入カバターンを標準パタ
ーンとして予め登録しである。さらにまた近似度係数記
憶部賎には、複合符号同士の近似度を表わす近似度係数
忙2個の複合符号のすべての組合せに応じて予め登録し
である。照合処理部SGは入カバターンと各標準パター
ンとの時間軸上の対応関係を両パターンの間で互いに対
応する符号同士の近似度が最大になるように動的計画法
により最適化し、入カバターンに最も近似する標準パタ
ーンを入カメッt−ジとして識別するものである。
しかるにかかる従来例にあっては、有声音を日本語の5
母音である/a/、/i/、/u/、/e/、10/の
いずれか1つに該当するものとして符号化しているので
、音節の過渡期に現われる/e/と10/の中間的な音
や/1/と/e/の中間的な音などのように必ずしも正
確には5母音に一致しない音については正しく認識照合
することができないという問題があった。
〔発明の目的〕
本発明は上述のような点に鑑みて為されたものであシ、
音節の過渡期に現われるよりな5母音の中間的な有声音
についても正しく認識照合することができ、また5母音
のうちのいずれか1つに分類される有声音についてはそ
のまま5母音として認識照合することができて、全体と
して音声入力に含まれる情報量を有効に抽出して認識精
度を向上させ得るようにした音声メツし一ジ識別装置を
提供することを目的とするものである。
〔発明の開示〕
(構 成) 第2図は本発明の要旨となる構成と端的に示すために、
特許請求の範囲に記載された機能をブロック化して示し
たいわゆるクレーム対応図である。同図において、Fv
ll−1:音声入力の低周波成分の短時間平均パワーを
取シ出すフィルタであυ、Fuは音声入力の高周波成分
を取シ出すフィルタである。各フィルタFW 、Fuの
出力は差動増幅手段おに入力されて、差信号成分を抽出
される。Coは比較手段であり、上記差動増幅手段So
から出力される差信号成分が、基準値Rvよりも小さい
ときには有声音Vの符号を割#)轟で、基準値Ruよシ
も大きいときには無声音UVの符号を割シ当て、それ以
外の場合には無音Sの符号を割シ当てるものである。た
だし、Ru > 0 > Rvである。次にFla、F
+b乃至Fna s Fnbはそれぞれ音声入力から相
異なる周波数領域の短時間平均パワーを収シ出ナフィル
タ対であシ、これらの各フィルタ対F、a 1Feb、
・・・・・・・・・、Fna %  FmbKはそれぞ
れ差動増幅手段S。
〜Snが接続されている。■Doは有声音分析手段であ
り、各差動増幅手段s、−snの出力の大小関係を分析
して日本語の5母音に該当するものについてはその母音
に対応する符号Va%v1 s vu s ves V
o  を割シ浩でて、日本語の5母音に該当しないもの
については、広顎有声音vh、狭顎有声音v1、前古有
声音Vf、復古有声音Vbの符号を割り崩てるものであ
る。複合符号化処理部CMは、比較手段C6から出力さ
れる符号が■であるときKは、有声音分析手段■Doか
ら出力されるVa、 Vi N Vu、F6 s Vo
 s vh % Vj、vf、VbcDうちノイずれが
1つの符号を出力し、また比較手段coから出力される
符号がUまたはSであるときには、その符号をそのまま
出力するものである。この複合符号化処理部CMから出
力される複合符号は、音声メツセージの登録時にY′i
標準パターン記憶部HMに入力記憶され、音声メツセー
ジの認識時には入カバターン記憶部IMに入力記憶され
るものである。
SGは照合処理部であり、入カバターンに最も近似する
標準パターンを入力メツセージとして識別するものであ
る。しかして本発明においては上述のように有声音■の
うち、日本語の5母音に該当するものについてはその母
音に対応する符号Va、vl、Vu 1V6、VOをそ
のまま割り崩てて、日本語の5母音知該癌し碌いものに
ついては広照、狭顎、前古、復古の各有声音vh、v<
l、vf、Vbノうちいずれか1つの符号を割り当てる
ようにしたから、有声音のうち例えば/e/と10/の
中間的な音や/j/と/u/の中間的な音、あるいは/
i/(!: /e/の中間的な音や10/と/u/の中
間的な音などがそれぞれ有声音vh、Vl、、vf、V
bとして認識されるものであシ、このため日本語の5母
音に必ずしも正確に一致しない中間的な有声音について
も正しく認識照合することができ、音節の過渡期に現わ
れる曖昧な有声音についても的確な照合処理に行なうこ
とができるようになっている。
また本発明にあっては、5母音のうちのいずれか1つに
分類される有声音については、そのまま5母音として認
識照合しているので、音節の定常期における照合も的確
に行なうことができ、全体として音声入力に含まれる情
報量を有効に抽出して認識精度を向上させることができ
るようになつCいる。
(実施例) 以下具体的な実施例を挙げて、本発明の構成をさらに詳
述する。第8図は本発明の一実施例の構成を示すブロッ
ク図である。同図において、音声はマイク(1)から入
力され、プリアン″j(2)で高域強調された後、調整
アンプ(3)でゲインおよびオフセットを調整される。
調整アンプ(3)の出力は、V/UVバランス調整回路
(4)を介してフィルタFVsFuに入力されるもので
ある。またこの調整アンプ(3)の出力は、レベル調整
器(5)と、VB/VHバランス調整回路(6)、VH
/VLバランス調整回路(7)、およびVF/VBバラ
ンス調整回路(8)を介してフィルタF1、F2、F3
、F、にそれぞれ入力されるものである。フィルタ(F
v)は音声信号の中から有声音■の成分が多く分布する
低周波成分を抽出するものであわ、0 ” I KHz
の帯域フィルタ(9■)と、整流回路(10v)および
平均化回路(IIV)とから構成されている0フィルタ
F、は音声信号の中から無声音UVの成分が多く分布す
る高周波成分を抽出するものであり、5〜12KHzの
帯域フィルタ(9+U)と、整流回路(IOU)および
平均化回路(IIU)とから構成されている。一方フィ
ルタF1〜F6は、それぞれ帯域フィルタ(9,)〜(
9,)と、整流回路(100〜(104)および平均化
回路(111)〜(114)とから構成されており、そ
れぞれ0−0.5KHz 、  0.5 ” IKHz
 、 0.8 r−1,6KHz、および盈、6〜8.
2KHzの各周波数領域の短時間平均パワーを音声信号
の中から抽出するものである。各フィルタFV 1Fu
 sおよびF1〜F、の出力は、マルチプレクサ(l匈
によって時分割多重化された後、対数変換器(+3)に
よシ対数値に変換される。対数変換器Oa+の出力はA
/Dコンバータ(14)によりデジタル値に変換される
。この〜Φコンバータ(14)は、スペクトル分析をデ
ジタルフィルタで行なう場合には調整アンプ(3)の次
段に位置するもので、ある。(15)は差信号ベクトル
抽出部、(16Iは記号ベクトル変換部、(17)Vi
記号化処理部であって、この差信号ベクトル抽出部(+
5)乃至記号化処理部(+7)の更に具体的な構成を第
4図のブロック図に示す。同図に示すように、差信号ベ
クトル抽出部Oaは、差動増幅手段So〜′S、を有し
、フィルタFVおよびFuO差信号出力V/IJVと、
フィルタF1およびF2の差信号出力■VVLと、フィ
ルタF8およびF、の差信号出力VF/VB、ならびに
フィルタF2およびF3の差信号出力VB/’VHとか
らなる差信号ベクトルを抽出するものである。記号ベク
トル変換部0@は、差動増幅手段S。の出力を入力とす
る比較手段COを有しており、この比較手段C6は、フ
ィルタFvとFuO差信号出力が所定の基準レベルRV
以下であれば有声音■に記号化し、他の所定の基準レベ
ルRu (ただし、Ru > 0>Rv)以上であれば
無声音UK記号化し、基準レベルRuとRvとの間であ
れば無音Sに記号化するものである。また記号ベクトル
変換部(IQは、各差動増幅手段S、〜S、の出力を入
力とする行列計算部MCを有しており、この行列計算部
MCは各差信号出力VH/VL、VF/VB、およびV
B/VHを成分とする8次元ベクトルに所定の行列を乗
算して、音声入力中に含まれる各母音/a/、/i/、
/V、/e/、10/の短時間平均パワーVa、 vl
 %Vu 1Ve% VOを算出するものである。この
行列計算部MCにおける計算に使用される変換行列の一
例を上式において変換行列の行ベクトルのノルム(成分
の2乗の和の平方)は11.2と一定値になっておシ、
正規化されている。さらに各行ベクトルばプラスマイナ
スの符号の組合せがそれぞれ異なるので互いに独立して
いる。なおVB/VHに対するベクトル成分を他の+に
したのは、VH/VLやVF/VBの方がより基本的な
特徴として大きな重みがついていることを示している。
行列計算部MCにおいて計算された各母音の短時間平均
パワーVa、V i 、Vu s Ve s Vo I
′i、最大値算出部MX、に入力されて、最も大きい成
分と第2番目に大きい成分とが算出される。有意性判定
部MJは上記各母音の短時間平均パワーVa s Vl
、Vus Ve、VOのうち、最も大きい成分が所定の
基準レベルよシも大きく、かつこの最も大きい成分と第
2番目に大きい成分との差が所定の基準値よりも大きい
ときには、前記最大の成分に対応する母音の符号を出力
し、前記最大の成分と第2番目に大きい成分との差が、
所定の基準値よシも小さいときには、最大値算出部MX
2によシ算出された各フィルタF】〜F4の出力VL、
 VH,VB、 VFのうち、最大の出力に対応する有
声音の符号■、!、■h、Vb、Vfを出力するもので
ある。したがって有意性判定部MJからは各母音Va、
Vl 、vu、Ve、VOと、各有声音Vtl、vh、
vb、Vf (7)符号ノウち、いずれか1つが出力さ
れるものである。記号化処理部α7)は比較手段C0か
ら出力される有声音V、無声音UV、および無音Sの各
符号のうち、有声音■の符号t1前記有意性判定部MJ
から出力される符号に置換してl系列の複合符号を形成
するものである。しVe、Voならびに各有声音v、1
、vh、v、6、Vfの符号のうちのいずれか1つとな
る。記号化処理部αηから出力される符号は整形処理部
(+8)に入力されて波形整形される。すなわちこの整
形処理部Oa+tよ、各符号の継続時間を測定し、一定
の継続時間よシ短い符号を前後の符号と比較し、前後の
符号が同じであるときには前後の符号と同じ符号に変換
して出力し、前後の符号が同じでないときには前の符号
と同じ符号に変換して出力するものである。整形処理部
Hの出力は時間軸線型正規化処理部(+9)に入力され
て、時間軸を線型に伸縮され、全継続時間が一定になる
ように正規化されるものである。時間軸の正規化処理を
施されたデータは音声メツセージの登録時には、標準パ
ターン記憶部(社)に記憶されるものであり、音声メツ
セージの認識時には距離計算部体1)Kよって入カバタ
ーンと標準パターンとの時間軸上で互いに対応する符号
同士の距離の総和を計算するものである。(22は距離
テーブルであり、入力Jへターンと標準J3ターンとの
各符号同士の距離2予め登録しておいて、距離計算部(
21)における距離計算を簡単に行なえるようにしてい
るものである。(23)は有意性検定部でアシ、距離計
算の結果、入カバターンに最も近い標準パターンについ
ての近似度がある設定値よりも高く、かつ入カバターン
に第2番目に近い標準パターンについての近似度が入カ
バターンに最も近い標準パターンについての近似度より
もある設定値以上小さいときには、有意性あシとして識
別結果出力部e24) VC認識結果を出力し、それ以
外の場合には認識不良として音声の再入力を促すもので
ある。
なお距離計算部(2υによる照合に先立って、例えば無
声音UVの符号のような特定の符号が現われる回数を入
カバターンと標準パターンとについて予め比較しておい
て、入カバターンと比較する標準パターンの数を予め1
個に限定しておけば、有意性検定部−においては入カバ
ターンと標準パターンとの近似度がある設定値を越えて
いるか否かを確認するだけでよく、有意性検定部(23
)における検定基準を緩和できるものである。
以上のように本実施例にあっては、有声音■全日本語の
5母音Va 、■l、vu、 Ve、Voに符号化し、
5母音に符号化できないものについては広照有声音■h
、狭顎有声音V1、IO舌有声音Vf、および復古有声
音vbに符号化するようにしたから、5母音には分類さ
れない中間的な有声音をも符号化することができるもの
であシ、このため音声入力に含まれる情報量を的確に抽
出することができるものである。ここで広照有声音vh
として分類されるのは、/e/、/a/、10/および
その中間音などであシ、狭顎有声音V4として分類され
るのは、/I/、/u/およびその中間音などである。
次に前古音Vfとして分類されるのは、/i/、/e/
およびその中間音などであシ、復古音vbとして分類さ
れるのは、/a/、10/、/u/およびその中間音な
どである。ただし、フィルタF3およびF4の通過周波
数帯域を、それぞれ0.7〜1.4KHzおよび1.4
〜2.8KHzとした場合には、前古音Vfとして分類
されるのは、/l/、/e/、/a/およびその中間音
などであシ、また復古音vbとして分類されるのは、1
0/、/u/およびその中間音などである。なお広照音
vh乃至復古音vbとして分類されない有声音のうち、
フィルタF2とF、の差信号出力VB/■が大きいとき
は、/a/または/a/に近い音が入力されている場合
であり、また上記差信号出力VB/VHが小さいときけ
、10/、/e/またVi10/、/e/に近い音が入
力されている場合である。
第5図は上記実施例における差信号ベクトル抽出部05
)乃至記号化処理部αηの具体的構成の他の一例を示す
ブロック図である。同図の回路例においては、各差動増
幅手段81〜SBから出力されるフイJb 52 F+
 ” F417)差信号出力VH/VL、 、 VF/
VB 1オヨびVB、/’VLを成分とする8次元ベク
トルに変換行列Tmを乗算して、日本語の5母音Va 
、 Vi 、  VLI%、 Ve、Voと、広照有声
音■h1狭顎有声音V、1、前古有声音Vf 、復古有
声音Vb1およびこれらに分類されない有声音Vwの各
短時間平均パワーを成分とするlO次元ベクトルr算出
する行列計算部MCoを設けである。MXoは上記10
次元ベクトルの各成分のうち最大の成分を判別してこの
最大の成分に対応する有声音の符号・を出力する最大値
判定部である。
ここで変換行列f:Tm)の−例を示すと、まずフィル
タF3とF4の通過周波数帯域がそれぞれ0.8〜1.
6KHzおよび1.6 ” 8.2KHz  であると
きには、■式のようになシ、この場合には有声音VWは
/a/と10/の中間音を表わすものである。またフィ
ルタF2とF3の通過周波数帯域がそれぞれ0.7〜1
.4KHzおよび1.4〜2.8KHzであるときには
、変換行列(Tm)は0式のようになシ、この場合、に
は有声音Vwは/a/と/e/の中間音を表わすもので
ある。
ところで第5図回路の最大値判定部MX。においては有
意性検定の機能をも付加して、10次元べクトルの各成
分のうち最大のものが所定の基準レベルに達しない場合
には、5母音と各有声音Vf。
vl、Vf * Vbs Vwのうちいずれにも分類さ
れない有声音については有声音Vmの符号を割シ崩てる
ようにするものであり、これによって例えば/i/と1
0/の中間音や/e/と/u/の中間音などが、有声音
Vmとして分類されることになるものである。第1表お
よび第2表は、変換行列(Tm)としてそれぞれ0式お
よび0式のものを用いた場合について、各母音の中間音
が6種類の有声音Vf、■[、Vf、Vb%VW、およ
び輻のうちいずれに分類されるかを示したものである。
同図を見れば、例えば/i/と/e/の中間音は、有声
音Vfとして分類され、10/と/u/の中間音は、有
声音vbとして分路1表      第2表 上述したところから明らかなように、第5図回路におい
ては、5母音と各有声音Vhs VJ 、 v4゜vb
およびこれらに分類されない有声音VWs Vmの合計
11種類の有声音の符号が最大値判定部MX。
から出力されることになる。そしてこれらの各有声音の
符号Va、Vl s vu、ve s vo、vh、v
t、Vf s vb、 vw、 vmは、比較手段CO
から出力される■、UV、Sの符号のうち有声音■の符
号と置換されるから、結局記号化処理部Oηからは、U
V、S、 vm、 Vi s Ves Vas Vo、
Vu 、 vh 、 Vl、■f、vb、■wの合計1
8種類の符号が出力されることになる。したがって距離
チーづ1し□□□には、これらの18種類の符号同士の
近似度を表わす係数を予め記憶させておけばよい。第8
表および第4表は、変換行列(Tm)として、それぞれ
0式および0式のものを用いた場合において、上述の1
8種類の各符号同士の近似度がどのような値になるJj
、’、:、  j : 第8表および第4表において、横の欄および縦の欄はそ
れぞれ標準パターンの符号および入力パターンの符号に
対応しておシ、例えば標準パターンの符号がVaであっ
て、しかも人カバターンの符号もVaであるときには、
距離テーブル(3)の出力は2となシ、近似度が高いこ
とを示すものである。
また標準パターンの符号がUVであシ、入カバターンの
符号がVaであるときには、距離テーブル翰の出力は−
2となシ、近似度が低いことを示すものである。したが
って距離計算部(21)においては、距離テーブル翰か
らの出力を順次加算するだけの演算操作によυ、入力パ
ターンと標準パターンとのパターン全体としての近似度
を容易に計算することができるものである。
次に第6図は本発明の他の実施例を示すブロック図であ
る。本実施例にあっては、各フィルタFv、F u s
  1’ 1〜F4から出力される短時間平均パワーは
対数変換器(2均〜(30)によって対数値に変換され
てから、差動平均化回路(31)〜(財)に・入力され
、各フィルタの差信号出力が算出されるようになってい
る。
差動平均化回路@1)〜(Iから出力される信号は、メ
符、号化回路−〜←4によって所定の基準レベルRU。
Rvs  RH,RL、  RA、  RO,RF、 
 RBと比較されて、その大小関係に応じて符号化され
るものである。ただし、RU>0>RV、RH>O>R
L、RA>0> Ro 、  RF > 0 > RB
である。符号化回路側(371(39) @t)は、入
力された信号がそれぞれ基準レベルRU 、 RH、R
A、RFよシも大きい場合には、符号UV、■、VA、
VFをそれぞれ出力し、それ以外の場合には符号Sを出
力するものである。また符号化回路(361f381顛
0匈は、入力された信号がそれぞれ基準レベルRv 1
RL 、 Ro、Rsよりも小さい場合には、符号V、
VL、VO%VBをそれぞれ出力し、それ以外の場合に
は符号Sを出力するものである。各符号化回路03四〜
←渇から出力されるUV、V、S、VHlVL、VA、
VO,VF、VBの各符号はコシポジット記号化処理部
(梠に人力されて、記号化テーブル(4・旬の記憶内容
を参照しながら上述の第5図における記号化処理部07
)から出力される符号と同様のUvl Slvm、■I
 1ve s va 、Vo 1Vu 5Vht Vl
 s Vf % Vbs vWよシなるコンポジット符
号(複合符号)に変換されるものである。以下このコン
ポジット記号化処理部←3)の動作について説明すると
、まず符号化回路05)国から出力される符号がUVお
よびSあるいは共にSであるときには符号UVおよび符
号Sがそれぞれ出力される。
また符号化回路体51 (361から出力される符号が
SおよびVであるときには、第5表または第6表に示す
ように符号化回路のη〜(4りの出力に基づいて、Va
、Vi 、 Vus Ve % VOv vh、Vl 
s Vf 、Vb s VW、Vmのうちいずれか1つ
の符号が出力されるもので第  5  表      
       第  6  表第5表はフィルタf3と
F、の通過周波数帯域をそれぞれ0.8 g 1.6 
KHzおよび16” 8.2KHzとした場合であり、
第6表はフィルタF、およびF、の通過周波数帯域をそ
れぞれ0.7−1.4 KHzおよび1.4−2.8K
Hzとした場合である。以上の説明によって明らかなよ
うに本実雄側にあっては、符号化回路匪〜04Vこよっ
て作成した符号を記号化テーブルHを参照しながらコン
ホジット記号化するようにしたから、第5図における行
列計算部MCoや最大値判定部MX0などを用いて行な
っていた有声音の分析処理と全く等価な処理をROMテ
ーブルなどを用いて簡単に行なうことができるものであ
る。
次に第7図は併合発明の一実施例のブロック図を示すも
のである。この併合発明の第1の要旨とするところは、
バランス調整回路(6)乃至(8)を設けた点にあり、
第2の要旨とするところは、有声音と無声音との判定は
V/UVO差信号を対数変換した差の対数値で行ない、
有声音の分析はVH/ML、VF/VB1VB/VHの
各信号を対数変換した後で差をとった対数値の差信号で
行なうという点にある。まずVH/VLバランス調整回
路(7)は、/e/、/a/、10/のような広照有声
音VHの短時間平均パワーを取シ出すフィルタF2と、
/i/、/u/のような狭顎有声音VLの短時間平均パ
ワーを取シ出すフィルタF、とにそれぞれ入力される音
声入力のパワーをバランス調整するものであり、VF/
VBバランス調整回路(8)は、/i/、/e/のよう
な前古有声音VFの短時間平均パワーを取シ出ナフィル
タF4と、10/、/u/のような後世有声音VBの短
時間平均パワーを取シ出すフィルタF3とにそれぞれ入
力される音声入力のパワーをバランス調整するものであ
る。さらにVB/VHバランス調整回路(6)は、VH
/VLバランス調整回路(7)とVF/VBバランス調
整回路(8)とにそれぞれ入力される音声入力のパワー
をバランス調整するものである。このように出力の差信
号を取る各フィルタ対F1、F2トF8、F4とF2、
F3とについてそれぞれバランス調整回路(7+ +8
1および(6)を設けることにより、5母音および各有
声音の特徴を的確に把えることができるものである。第
8図は日本語の5母音ア、イ、つ、■、才の第1ホルマ
ントf1と第2ホルマントf2の周波数分布を示すもの
である。従来第1ホルマントf、を識別するためのVH
/VL信号が0になるり0スオ一バ周波数はおよそ50
0Hzと設定されておυ、第2小ルマントf2を識別す
るためのVF/VB信号がOになるクロスオーバ周波数
はおよそ1.8KHz  と設定されていた。この場合
、VH/ VL倍信号母音のes a%u/ l s 
uに対応し、VF/VB信号が母音のl、e/a、0、
Uに対応し、VB/VH信号が母音のaloに対応する
ように各バランス調整回路(6)〜(8)を調整するも
のである。しかしながら母音のe/aの区別をVF/V
B信号で行なうのは、音節(例えばKa、saなど)の
中で行なうのは難しく、母音のaloの段別をVF/V
B信号で行なう方が容易であると思われる。そこでVF
/VB信号のクロスオーバ周波数を従来の1.8KHz
に代えて1.4KHzとすれば、VF/VB信号が母音
のI。
e、alo、Uに対応し、VB/VH信号が母音のal
oに対応することになシ、この方がバランス調整は容易
になるものである。
第9図はフィルタFu%FVの周波数特性をそれぞれt
rv、vの符号を付して示したものであシ、同図を見れ
ば高周波成分の方が多いときには無声音UVと判定され
、低周波成分の方が多いときには有声音Vと判定される
ことがわかる。また第10図(a) (b)はフィルタ
F1〜F、の周波数特性をそれぞれML、VHlVB、
VFの符号を付して示したものであシ、同図を見ればV
H/VL信号のクロスオーバ周波数がおよそ500Hz
であシ、またVF/VB信号のクロスオーバ周波数がお
よそ1.4KHzであることがわかる。第11図(a)
 (b)はフィルタF、〜F4の出力をそれぞれ対数変
換器(1段によって対数変換した場合の周波数特性をそ
れぞれVL、VH,VB、VFの符号を付して示したも
のである。なお第10図(a)および第11図(a)に
は調整アンプ(3)の周波数特性を併記しである。かか
る各フィルタFV sFu、F、”F4I/′iアナロ
タ回路によって構成してもかまわないが、デジタル信号
処理プロセッサ(DSPプロセッサ)を用いると回路を
簡単化することができるものである。
第12図乃至第14図は日本語の5母音であるi、e%
a、0、Uを標準的に発声した場合のUV/V信号、V
H/VL信号、V F/ VB倍信号VB/VH信号の
変化を示している。まず、第12図はUV/V信号から
VB/VH信号までのすべての信号について、差信号の
対数値を取った例で同図を見れば、U■/■信号が負の
値に5回変化していることによって、5母音i、 et
 alo、Uがそれぞれ有声音として検出されているこ
とがわかる。またVH/VL信号が母音のe、a、o/
isuに対応し、VF/VB信号が母音のi、e/a、
o、Uに対応していることもわかる。さらにVB/VH
信号については、母音のa/eに対応しておシ、母音の
110、Uについては対応関係が不明瞭であることがわ
かる。なおこのように差信号の対数値を取る際の対数変
換特性としては、例えば第15図に示すように所定のし
きい値vthよりも小さい入力信号に対しては出力がほ
とんど0となり、上記しきい値vthよシも大きい入力
信号に対しては入力を対数変換して出力するような特性
としておけば、各出力信号は正の最大値か負の最大値か
あるいは0かのほぼ8つの状態を多く取るようになシ、
第6図実施例のように符号化した後にコンポジット記号
化するような用途には好都合である。次に第18図およ
び第14図は、UV/V信号については差信号の対数値
を取シ、VH/VL信・号とV F/V B信号オヨび
VB/VH信号については対数値の差信号を取るように
したものであシ、第18図はフィルタF3、F4の特性
を0.8−1.6KHzおよび1.6/−8,2KHz
とし、第14図についてはフィルタF8、F、の特性を
0.7 ” 1.4KHzおよび1.4 /−2,8K
Hzとしたものである。第18図および第1・4図にお
いてSYMl′i、入カバターンとして得られる符号v
f、v1.s%Vm% ve s・・・・・・などをf
li、 S、 m、 e、・・・・・・ のように略記
したものである。第18図および第14図の場合のよう
に、フィルタF、〜F、の出力の対数値の差を取る場合
には、差動平均化のゲインは1程度(増幅なし)とし、
平均化(積分)の時定数1d20msec程度に設定す
るものであり、このようにすれば差のゲインが小さいの
で、話者による誤差が少なくなるものである。またこの
ようにフィルタF、MF、の出力の対数値を先に取るよ
うにすれば音声入力のタイナ三ツクレンジが広くなると
いう効果もあり、第12図の場合よシも好ましいもので
ある。なおこの場合においても対数変換特性を、第15
図に示すように所定のしきい電圧Vth以下の入力は出
力しないような特性にしておけば、ノイズを検出しにく
くなるものである。ところで第18図と第14図とを比
較すると明らかなように、VB/VH信号による母音e
、 a、0の識別特性は第14図の場合の方が優れてお
り、したがってフィルタFsとF4の分割周波数は約1
.4KH2とするのが適当である。
第16図および第17図はそれぞれ第18図および第1
4図の各差信号を上述の式■および式■の変換行列(T
m)によってそれぞれVi s vu 、ve sVa
、VO%  Vhl Vl、■f s  vb s  
Vwの成分に変換した射影成分をタラフィック表示した
ものであシ、山が正の値、谷が負の値を示している。第
18図および第14図との対応関係はsymの欄に記載
しである。上記各図は母音11e%a、 o、Uを約1
2秒間の間に発声した場合の実測データであシ、サンプ
リンタは5m5ecごとに行なって286サンプルを分
析したものであるが、第16図および第17図において
は図示の都合上、15m5ecごとに射影成分を描いで
ある。なお上述の弐〇において、5母音v’t s v
u s ve s va s  voに対する列ベクト
ルのノルムの値は、その他の有声音vh%V1%Vf 
Vb、Vwに対する列ベクトルのノルムの値15よりも
小さくなっている。このノルムの値の差をどのくらいに
するかは対象、とする言葉や実際の回路条件にもよるが
、有声音vh、 vl、 Vf、 Vb、VWに対する
列ベクトルの成分が0である部分の差信号がある値より
も小さいときに、5母音の射影成分よりもその他の有声
音の射影成分が大きくなるものである。このことは上述
の式■についても同様である。
次に第18図および第19図はあんま椅子用の音声メッ
セー、;「せなかをさすれ。」を分析した結果を示すも
のである。同図に示すように、UV/V信号は有声音お
よび無声音の各領域においてそれぞれ飽和する傾向にあ
り、これは差動平均化回路(31)のゲイ−Jを大きく
したことによる。このようKUV/V信号については、
■区間とUV区間とを明瞭に判別するために、差動平均
化の際のゲインを充分に大きくしておくことが好ましい
が、VVVL信号、VF/VB信号、VB/VH信号ニ
ツイテは逆に差動平均化の際のゲインを小さくしておく
方が有声音の特徴を明瞭に把握できるので好ましいもの
である。音声メツセージの始端と終端は第7図に示すよ
りなV/UV判定部し[19の後に接続された始端終端
検知部−によって検出されるものであり、一定時間以上
符号UVまたは符号■が入力されている場合には音声メ
ツセージの入力開始と判断するものであシ、また一定時
間以上符号Sが入力されている場合には入力終了上判断
するものである。なお第7図実施例においては、差動平
均化回路Kllの出力側に反転器(47)を接続し、差
動平均化した後、負の部分を反転してマルチプレクサ0
岑、苅数変換器園、いコンバータ(14)を経由して再
度上記負の部分の符号を反転するように構成してマルチ
づレクサ(I2)乃至A/Dコシバータ(14)の部分
は正の信号のみを処理すればよいようになっている。
〔発明の効果〕
本発明は叙上のように、有声音のうち日本語の5母音に
該轟するものについてはその母音に対応する符号をその
まま割り当てて、日本語の5母音に該尚しないものにつ
いては、広照、狭顎、前古、復古の各有声音のうちいず
れか1つの符号を割シ当てるようにしたから、有声音の
うち例えば/e/と10/の中間的な音や/i/と/u
/の中間的な音、あるい/d / i /と/e/の中
間的な音や10/と/u/の中間的な音などがそれぞれ
広照有声音、狭顎有声音、前古有声音、復古有声音とし
て認識されるものであり、このため日本語の5母音に必
ずしも正確に一致しない中間的な有声音についても正し
く認識照合することができ、音節の過渡期に現われる曖
昧な有声音についても的確な照合処理を行なうと七がで
きるという効果を有するものである。また本発明にあっ
ては、5母音のうちのいずれか1つに分解される有声音
については、そのまま5母音として認識照合しているの
で、音節の定常期における照合も的確に行なうことがで
き、全体として音声入力に含まれる情報量を有効に抽出
して認識精度を向上させることができるという効果を有
するものである。次に併合発明にあっては、有声音と無
声音との判定はフィルタ対の差信号の対数変換値で行な
うようにしたので、有声音区間と無声音区間とを明瞭に
識別することができ、またその他の有声音についての判
定はフィルタの出力の対数変換値の差を取るようにし、
しかも各フィルタ間のノSランスを取るバランス調整回
路を設けたので、有声音の微妙な特徴の変化を的確に把
えることができ、5母音と他の有声音との識別精度も向
上させることができるという効果がある。
【図面の簡単な説明】
第1図は従来例の5099図、第2図は本発明の特許請
求の範囲に対応するいわゆるクレーム対応ブロック図、
第8図は本発明の一実施例のブロック図、第4図は同上
の要部構成を示すブロック図、第5図は同上の要部の他
の構成を示すプロ99図、第6図は本発明の他の実施例
の5099図、第7図は併合発明の一実施例のブロック
図、第8図は母音のホルマントの周波数分布を示す図、
第9図乃至第11図はフィルタの周波数特性を示す図、
第12図乃至第14図は各フィルタの差信号出力を示す
図、第15図は対数変換特性を示す図、第16図及び第
17図は各有声音の射影成分を示す図、第18図は音声
メツセージに対する各フィルタの差信号出力を示す図、
第19図は同上の各有声音の射影成分を示す図である。 Fv、  Fuq  FIas F、b、・曲回、Fn
a s  Fnbけフィルタ、SO”Sn は差動増幅
手段、coは比較手段、VDoI′i、有声音分析手段
、CMは複合符号化処理部、IMは入カバターン記憶部
、HMけ標準パターン記憶部、SGは照合処理部である
。 代理人 弁理士  石 1)長 七 第8図 第 (0) 第9図 (b) 第16図 (Jieaouh、jfbwsym 第1 Uieaouhlfbwsym 第19図 U ieaouhlfbwsym Uieaouhl fbwsym 手続補正書(自発) 1.事件の表示 昭和58年特許幀第14115号 2、発 明の名称 音声メツセージ識別方式 3、補正をする者 事件との関係      特計出願人 住  所  大阪府門真市大字門真1048番地名 称
 (583)松下電Ju株式会社代表者小 林  郁 4、代理人 郵便番号 530 8、補正の内容 別紙のJJ]1シ 訂   正   署 出願番号  特幀昭58−14115号1、本願明細N
第14頁第2行目の[0〜0.5 K Hz、 0.5
〜l KHz Jkr O−0,,4KHz、 0.4
〜Q、8KHzJと訂正致しまず。 2、同上第22頁第8行目乃至第17行目の全文を次の
ように訂正致します。 」 3、同上第25頁第5行目乃至第4行目の「第3表およ
び第4表」′T:「第4表および第3表」と訂正致しま
すっ 4、同上第25頁第7行目の1である。」の後に次の文
章?押入致し′1.−1−.。 「ただし、第4表において、vu行Vo列の値は−1と
する方がより望捷しい。」 5、同上第33頁第13行目および第34頁$18行目
の[500Jrr400Jと訂正致します。 6、同上第38@第16行目乃至第19行目の「夕Uベ
クトル・・・・・・・なっているう」7次のように訂正
致します。 「行ベクトルのノル乙の魁は、その池の有声音Vh% 
Vl、Vf、VbK対−fる行ヘクトルノノル乙の値よ
りも大きくなっている。丁なわち5母音に対するものは
15で、その能の有P枡に対するものは、およ々13で
ある。有声音Vwに対しては、式の、■の成分11、−
11をそnぞt″L9、−9にすると、ノルムはお工そ
13になるが、第13図7児ると10/の記号化を正確
に行なうためには、Vwのノルムi13にする方が良い
と思わnる。」 7、本願の添付図面中、第2図、第17図、および第1
9図を別紙のように訂正致します。 代理人 弁理士  石 1)促 七 第17図 U 1eaouh If bw sym第19 U ieaouhlfbwsym Uieaouhlfbwsym 61

Claims (1)

  1. 【特許請求の範囲】 (1)音声入力の高周波成分および低周波成分の短時間
    平均パワーをそれぞれ収シ出す一対のフィルタの差信号
    出力を入力上し、高周波成分の方が強いときには無声音
    の符号を、低周波成分の方が強いときには有声音の符号
    を、高周波成分と低周波成分とが略同じときには無音の
    符号を出力する比較手段を設け、音声入力から相異なる
    周波数領域の短時間平均パワーを取り出す複数組のフィ
    ルタ対の各差信号出力の大小関係に応じて日本語の5母
    音と、顎の開きの広い広照有声音と、顎の開きの狭い狭
    顎有声音と、舌の位置が前になる前古有声音と、舌の位
    置が後になる復古有声音との各符号のうちいずれか1つ
    の符号を割り尚てる有声音分析手段を設けて、比較手段
    の出力のうち、有声音の符号を上記有声音分析手段から
    出力される符号に置換して、無音、無声音、および5母
    音と広照、狭顎、前古、ならびに復古の各有声音の符号
    の時系列からなる入カバターンを形成し、複数種の音声
    メツセージを標準的に発声したときに形成される各入カ
    バターンを標準パターンとして予め登録し、入カバター
    ンに最も近似する標準パターンを入力メツセージとして
    識別することを特徴とする音声メツセージ識別方式。 (2)有声音分析手段は、広照有声音、狭顎有声音、前
    古有声音、および復古有声音の各短時間平均パワーを取
    り出す第1乃至第4のフィルタを有し、第1および第2
    のフィルタ〆の差信号出力さ、第8および第4のフィル
    タの差信号出力と、第1および第4のフィルタの差信号
    出力とを成分とする8次元ベクトルを入力とし、この8
    次元ベクトルに変換行列を乗算して日本語の5母音の短
    時間平均パワーを各成分とする5次元ベクトルを算出す
    る行列計算部を有し、行列計算部から出力される5次元
    ベクトルの各成分のうち最大の成分が所定の基準レベル
    より大きく、力・つこの最大の成分と第2番目に大きい
    成分との差が所定の基準値よシも大きいときには、前記
    最大の成分に対応する母音の符号を出力し、前記最大の
    成分と第2番目に大きい成分との差が、所定の基準値よ
    υも小さいときには、第1乃至第4の各フィルタの出力
    のうち最大の出力に対応する有声音の符号を出力する最
    大値判定部を有して成ることを特徴とする特許請求の範
    囲第1項記載の音声メツセー、;識別方式。 (8)有声音分析手段は、広照有声音、狭顎有声音、前
    古有声音、および後者有声音の各短時間平均パワーを取
    り出す第1乃至第4のフィルタを有し、第1および第2
    のフィルタの差信号出力と、第8および第4のフィルタ
    の差信号出力と、第1および第4のフィルタの差信号出
    力とを成分とする8次元ベクトルを入力とし、この8次
    元ベクトルに変換行列を乗算して、日本語の5母音と広
    照、狭顎、前古、および後世の各有声音の短時間平均パ
    ワーを各成分とするベクトルを算出する行列計算部を有
    し、行列計算部から出力されるベクトルの各成分のうち
    最大の成分を判定し、該成分に対応する母音乃至有声音
    の符号を出力する最大値判定部を有して成ることを特徴
    とする特許請求の範囲第1項記載の音声メツセージ識別
    方式。 (4)音声入力の高周波成分および低周波成分の短時間
    平均パワーをそれぞれ取シ出す一対のフィルタの差信号
    出力の対数変換値を入力とし、高周波成分の方が強いと
    きには無声音の符号を、低周波成分の方が強いときには
    有声音の符号を、高周波成分と低周波成分とが略同じと
    きには無音の符号を出力する比較手段を設け、音声入力
    から顎の開きの広い広照有声音と、顎の開きの狭い狭顎
    有声音と、舌の位置が前になる前古有声音と、舌の位置
    が後になる後者有声音との各短時間平均パワーをそれぞ
    れ取シ出す第1乃至第4のフィルタを設け、第1および
    第2のフィルタにそれぞれ入力される音声入力のパワー
    をバランス調整する第1のバランス調整手段と、第8お
    よび第4のフィルタにそれぞれ入力される音声入力のパ
    ワーをバランス調整する第2のバランス調整手段と、第
    1および第2のバラシス調整手段にそれぞれ入力される
    音声入力のパワーをバランス調整する第8のバ信号出力
    との妻弁参≠傘大小関係に応じて日本語の5母音さ、広
    照有声音、狭顎有声音、前古有声音、および後者有声音
    の各符号のうちいずれか1つの符号を割シ当てる有声音
    分析手段を設けて、比較手段の出力のうち、有声音の符
    号を上記有声音分析手段から出力される符号に置換して
    、無音、無声音、および5母音と広照、狭顎、前古、な
    らびに後世の各有声音の符号の時系列からなる入カバタ
    ーンを形成し、複数種の音声メツセージを標準的に発声
    したときに形成される各入カバターンを標準パターンと
    して予め登録し、入カバターンに最も近似する標準パタ
    ーンを入力メツセージとして識別することを特徴とする
    音声メツセージ識別方式。
JP1411583A 1983-01-31 1983-01-31 音声メツセ−ジ識別方式 Granted JPS59139100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1411583A JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1411583A JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Publications (2)

Publication Number Publication Date
JPS59139100A true JPS59139100A (ja) 1984-08-09
JPH0124320B2 JPH0124320B2 (ja) 1989-05-11

Family

ID=11852116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1411583A Granted JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Country Status (1)

Country Link
JP (1) JPS59139100A (ja)

Also Published As

Publication number Publication date
JPH0124320B2 (ja) 1989-05-11

Similar Documents

Publication Publication Date Title
Kim et al. Power-normalized cepstral coefficients (PNCC) for robust speech recognition
US4956865A (en) Speech recognition
Wu et al. Incorporating information from syllable-length time scales into automatic speech recognition
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
JP3055691B2 (ja) 音声認識装置
WO1990011593A1 (en) Method and apparatus for speech analysis
Nagaraja et al. Mono and Cross lingual speaker identification with the constraint of limited data
EP0192898B1 (en) Speech recognition
JP3354252B2 (ja) 音声認識装置
JPS59139100A (ja) 音声メツセ−ジ識別方式
JPH0229232B2 (ja)
Noufi et al. Acoustically-driven phoneme removal that preserves vocal affect cues
Patil et al. Identifying Perceptually Similar Languages Using Teager Energy Based Cepstrum.
Viswanathan et al. New objective measures for the evaluation of pitch extractors
Ting et al. Speaker-independent Malay isolated sounds recognition
JPH0462596B2 (ja)
JPH02717B2 (ja)
JPH0230520B2 (ja) Onseimetsuseejishikibetsuhoshiki
Mori Pitch Contour Separation from Overlapping Speech.
JPH0462597B2 (ja)
JPS58137900A (ja) 音声メツセ−ジ識別方式
JPH0251520B2 (ja)
Kochanski et al. Discriminating Same or Different speech: human vs machine
JPS59114600A (ja) 話者識別方式
JPH0311478B2 (ja)