JPH0124320B2 - - Google Patents

Info

Publication number
JPH0124320B2
JPH0124320B2 JP1411583A JP1411583A JPH0124320B2 JP H0124320 B2 JPH0124320 B2 JP H0124320B2 JP 1411583 A JP1411583 A JP 1411583A JP 1411583 A JP1411583 A JP 1411583A JP H0124320 B2 JPH0124320 B2 JP H0124320B2
Authority
JP
Japan
Prior art keywords
voiced
input
filters
jaw
sounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP1411583A
Other languages
English (en)
Other versions
JPS59139100A (ja
Inventor
Hiroyoshi Yuasa
Koichi Oomura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP1411583A priority Critical patent/JPS59139100A/ja
Publication of JPS59139100A publication Critical patent/JPS59139100A/ja
Publication of JPH0124320B2 publication Critical patent/JPH0124320B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
〔技術分野〕 本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。 〔背景技術〕 第1図は従来本発明者らが開発した音声メツセ
ージ識別装置(特願昭57−171933号)の概略構成
を示している。同図において、F1a,F1b,R2a,
F2b,…,Fna,Fnbは音声入力から相異なる周
波数領域の短時間平均パワーを取り出すフイルタ
対であり、これらの各フイルタ対F1a,F1b,…,
Fna,Fnbの出力はそれぞれ差動増憤手段S1
S2,…,Snに入力されて差信号出力に変換され
る。そしてこの差信号出力は5母音判別手段VD
に入力されて、各差信号出力の大小関係に応じて
日本語の5母音/a/、/i/、/u/、/
e/、/o/に対応する5つの符号Va、Vi、
Vu、Ve、Voのうちいずれか1つが複合符号化
処理部CMに入力される。一方フイルタFvは音声
入力から有声音のエネルギを抽出する低周波フイ
ルタであり、またフイルタFuは音声入力から無
声音のエネルギを抽出する高周波フイルタであつ
て、各フイルタFv,Fuの出力は差動増幅手段So
によつて差信号出力に変換される。差動増幅手段
Soの出力は比較手段Coにおいて基準値Rv、Ru
(Rv<0<Ru)と比較され、差信号出力が基準
値Rvよりも小さい場合には有声音Vと判定され
る。また上記差信号出力が基準値Ruよりも大き
い場合には無声音Uと判定され、基準値RuとRv
との間であれば無音Sと判定される。そして無
音、有声音、および無声音の各場合についてS、
V、Uの各符号のうちいずれか1つの符号が複合
符号化処理部CMに入力される。この複合符号化
処理部CMは比較手段Coから出力される符号がV
であるときには、5母音判別手段VDから出力さ
れるVa、Vi、Vu、Ve、Voのうちいずれか1つ
の符号を出力し、また比較手段Coから出力され
る符号がUまたはSであるときには、その符号を
そのまま出力するものである。したがつて、複合
符号化処理部CMからはU、S、Va、Vi、Vu、
Ve、Voの合計7通りの複合符号が出力されるも
のである。この複合符号の時系列からなる入力パ
ターンは時間軸正規化処理部TNにより時間軸を
線形に正規化された後に、入力パターン記憶部
IMに記憶される。一方標準パターン記憶部HM
には、複数種の音声メツセージを標準的に発声し
たときに形成される各入力パターンを標準パター
ンとして予め登録してある。さらにまた近似度係
数記憶部KMには、複合符号同士の近似度を表わ
す近似度係数を2個の複合符号のすべての組合せ
に応じて予め登録してある。照合処理部SGは入
力パターンと各標準パターンとの時間軸上の対応
関係を両パターンの間で互いに対応する符号同士
の近似度が最大になるように動的計画法により最
適化し、入力パターンに最も近似する標準パター
ンを入力メツセージとして識別するものである。 しかるにかかる従来例にあつては、有声音を日
本語の5母音である/a/、/i/、/u/、/
e/、/o/のいずれか1つに該当するものとし
て符号化しているので、音節の過渡期に現われ
る/e/と/o/の中間的な音や/i/と/e/
の中間的な音などのように必ずしも正確には5母
音に一致しない音については正しく認識照合する
ことができないという問題があつた。 〔発明の目的〕 本発明は上述のような点に鑑みて為されたもの
であり、音節の過渡期に現われるような5母音の
中間的な有声音についても正しく認識照合するこ
とができ、また5母音のうちのいずれか1つに分
類される有声音についてはそのまま5母音として
認識照合することができて、全体として音声入力
に含まれる情報量を有効に抽出して認識精度を向
上させ得るようにした音声メツセージ識別装置を
提供することを目的とするものである。 〔発明の開示〕 (構成) 第2図は本発明の要旨となる構成を端的に示す
ために、特許請求の範囲に記載された機能をブロ
ツク化して示したいわゆるクレーム対応図であ
る。同図において、Fvは音声入力の低周波成分
の短時間平均パワーを取り出すフイルタであり、
Fuは音声入力の高周波成分を取り出すフイルタ
である。各フイルタFv,Fuの出力は差動増幅手
段Soに入力されて、差信号成分を抽出される。
Coは比較手段であり、上記差動増幅手段Soから
出力される差信号成分が、基準値Rvよりも小さ
いときには有声音Vの符号を割り当て、基準値
Ruよりも大きいときには無声音UVの符号を割り
当て、それ以外の場合には無音Sの符号を割り当
てるものである。ただし、Ru>O>Rvである。
次にF1a,F1b乃至Fna,Fnbはそれぞれ音声入力
から相異なる周波数領域の短時間平均パワーを取
り出すフイルタ対であり、これらの各フイルタ対
F1a,F1b,…,Fna,Fmbにはそれぞれ差動増
幅手段S1〜Snが接続されている。VD0は有声音
分析手段であり、各差動増幅手段S1〜Snの出力
の大小関係を分析して日本語の5母音に該当する
ものについてはその母音に対応する符号Va、
Vi、Vu、Ve、Voを割り当てて、日本語の5母
音に該当しないものについては、広顎有声音Vh、
狭顎有声音Vl、前舌有声音Vf、後舌有声音Vbの
符号を割り当てるものである。複合符号化処理部
CMは、比較手段C0から出力される符号がVであ
るときには、有声音分析手段VD0から出力される
Va、Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vbのう
ちのいずれか1つの符号を出力し、また比較手段
C0から出力される符号がUまたはSであるとき
には、その符号をそのまま出力するものである。
この複合符号化処理部CMから出力される複合符
号は、音声メツセージの登録時には標準パターン
記憶部HMに入力記憶され、音声メツセージの認
識時には入力パターン記憶部IMに入力記憶され
るものである。SGは照合処理部であり、入力パ
ターンに最も近似する標準パターンを入力メツセ
ージとして識別するものである。しかして本発明
においては上述のように有声音Vのうち、日本語
の5母音に該当するものについてはその母音に対
応する符号Va、Vi、Vu、Ve、Voをそのまま割
り当てて、日本語の5母音に該当しないものにつ
いては広顎、狭顎、前舌、後舌の各有声音Vh、
Vl、Vf、Vbのうちいずれか1つの符号を割り当
てるようにしたから、有声音のうち例えば/e/
と/o/の中間的な音や/i/と/u/の中間的
な音、あるいは/i/と/e/の中間的な音や/
o/と/u/の中間的な音などがそれぞれ有声音
Vh、Vl、Vf、Vbとして認識されるものであり、
このため日本語の5母音に必ずしも正確に一致し
ない中間的な有声音についても正しく認識照合す
ることができ、音節の過渡期に現われる曖昧な有
声音についても的確な照合処理を行なうことがで
きるようになつている。また本発明にあつては、
5母音のうちのいずれか1つに分類される有声音
については、そのまま5母音として認識照合して
いるので、音節の定常期における照合も的確に行
なうことができ、全体として音声入力に含まれる
情報量を有効に抽出して認識精度を向上させるこ
とができるようになつている。 (実施例) 以下具体的な実施例を挙げて、本発明の構成を
さらに詳述する。第3図は本発明の一実施例の構
成を示すブロツク図である。同図において、音声
はマイク1から入力され、プリアンプ2で高域強
調された後、調整アンプ3でゲインおよびオフセ
ツトを調整される。調整アンプ3の出力は、V/
UVバランス調整回路4を介してフイルタFv,
Fuに入力されるものである。またこの調整アン
プ3の出力は、レベル調整器5と、VB/VHバ
ランス調整回路6、VH/VLバランス調整回路
7、およびVF/VBバランス調整回路8を介し
てフイルタF1,F2,F3,F4にそれぞれ入力され
るものである。フイルタFvは音声信号の中から
有声音Vの成分が多く分布する低周波成分を抽出
するものであり、0〜1KHzの帯域フイルタ9V
と、整流回路10Vおよび平均化回路11Vとか
ら構成されている。フイルタFuは音声信号の中
から無声音UVの成分が多く分布する高周波成分
を抽出するものであり、5〜12KHzの帯域フイル
タ9Uと、整流回路10Uおよび平均化回路11
Uとから構成されている。一方フイルタF1〜F4
は、それぞれ帯域フイルタ91〜94と、整流回路
101〜104および平均化回路111〜114とか
ら構成されており、それぞれ0〜0.4KHz、0.4〜
0.8KHz、0.8〜1.6KHz、および1.6〜3.2KHzの各周
波数領域の短時間平均パワーを音声信号の中から
抽出するものである。各フイルタFv,Fu、およ
びF1〜F4の出力は、マルチプレクサ12によつ
て時分割多重化された後、対数変換器13により
対数値に変換される。対数変換器13の出力は
A/Dコンバータ14によりデジタル値に変換さ
れる。このA/Dコンバータ14は、スペクトル
分析をデジタルフイルタで行なう場合には調整ア
ンプ3の次段に位置するものである。15は差信
号ベクトル抽出部、16は記号ベクトル変換部、
17は記号化処理部であつて、この差信号ベクト
ル抽出部15乃至記号化処理部17の更に具体的
な構成を第4図のブロツク図に示す。同図に示す
ように、差信号ベクトル抽出部15は、差動増幅
手段S0〜S3を有し、フイルタFvおよびFuの差信
号出力V/UVと、フイルタF1およびF2の差信号
出力VH/VLと、フイルタF3よびF4の差信号出
力VF/VB、ならびにフイルタF2およびF3の差
信号出力VB/VHとからなる差信号ベクトルを
抽出するものである。記号ベクトル変換部16
は、差動増幅手段S0の出力を入力とする比較手段
C0を有しており、この比較手段C0は、フイルタ
FvとFuの差信号出力が所定の基準レベルRv以下
であれば有声音Vに記号化し、他の所定の基準レ
ベルRu(ただし、Ru>0>Rv)以上であれば無
声音Uに記号化し、基準レベルRuとRvとの間で
あれば無音Sに記号化するものである。また記号
ベクトル変換部16は、各差動増幅手段S1〜S3
出力を入力とする行列計算部MCを有しており、
この行列計算部MCは各差信号出力VH/VL、
VF/VB、およびVB/VHを成分とする3次元
ベクトルに所定の行列を乗算して、音声入力中に
含まれる各母音/a/、/i/、/u/、/
e/、/o/の短時間平均パワーVa、Vi、Vu、
Ve、Voを算出するものである。この行列計算部
MCにおける計算に使用される変換行列の一例を
示すと次式のようになる。 上式において変換行列の行ベクトルのノルム
(成分の2乗の和の平方)は11.2と一定値になつ
ており、正規化されている。さらに各行ベクトル
はプラスマイナスの符号の組合せがそれぞれ異な
るので互いに独立している。なおVB/VHに対
するベクトル成分を他の1/2にしたのは、VH/
VLやVF/VBの方がより基本的な特徴として大
きな重みがついていることを示している。行列計
算部MCにおいて計算された各母音の短時間平均
パワーVa、Vi、Vu、Ve、Voは最大値算出部
MX1に入力されて、最も大きい成分と第2番目
に大きい成分とが算出される。有意性判定部MJ
は上記各母音の短時間平均パワーVa、Vi、Vu、
Ve、Voのうち、最も大きい成分が所定の基準レ
ベルよりも大きく、かつこの最も大きい成分と第
2番目に大きい成分との差が所定の基準値よりも
大きいときには、前記最大の成分に対応する母音
の符号を出力し、前記最大の成分と第2番目に大
きい成分との差が、所定の基準値よりも小さいと
きには、最大値算出部MX2により算出された各
フイルタF1〜F4の出力VL、VH、VB、VFのう
ち、最大の出力に対応する有声音の符号Vl、
Vh、Vb、Vfを出力するものである。したがつて
有意性判定部MJからは各母音Va、Vi、Vu、
Ve、Voと、各有声音Vl、Vh、Vb、Vfの符号の
うち、いずれか1つが入力されるものである。記
号化処理部17は比較手段C0から出力される有
声音V、無声音UV、および無音Sの各符号のう
ち、有声音Vの符号を、前記有意性判定部MJか
ら出力される符号に置換して1系列の複合符号を
形成するものである。したがつて記号化処理部1
7から出力される符号は、無声音UV、および無
音Sと、各母音Va、Vi、Vu、Ve、Voならびに
各有声音Vl、Vh、Vb、Vfの符号のうちのいず
れか1つとなる。記号化処理部17から出力され
る符号は整形処理部18に入力されて波形整形さ
れる。すなわちこの整形処理部18は、各符号の
継続時間を測定し、一定の継続時間より短い符号
を前後の符号と比較し、前後の符号が同じである
ときには前後の符号と同じ符号に変換して出力
し、前後の符号が同じでないときには前の符号と
同じ符号に変換して出力するものである。整形処
理部18の出力は時間軸線型正規化処理部19に
入力されて、時間軸を線型に伸縮され、全継続時
間が一定になるように正規化されるものである。
時間軸の正規化処理を施されたデータは音声メツ
セージの登録時には、標準パターン記憶部20に
記憶されるものであり、音声メツセージの認識時
には距離計算部21によつて入力パターンと標準
パターンとの時間軸上で互いに対応する符号同士
の距離の総和を計算するものである。22は距離
テーブルであり、入力パターンと標準パターンと
の各符号同士の距離を予め登録しておいて、距離
計算部21における距離計算を簡単に行なえるよ
うにしているものである。23は有意性検定部で
あり、距離計算の結果、入力パターンに最も近い
標準パターンについての近似度がある設定値より
も高く、かつ入力パターンに第2番目に近い標準
パターンについての近似度が入力パターンに最も
近い標準パターンについての近似度よりもある設
定値以上小さいときには、有意性ありとして識別
結果出力部24に認識結果を出力し、それ以外の
場合には認識不良として音声の再入力を促すもの
である。なお距離計算部21による照合に先立つ
て、例えば無声音UVの符号のような特定の符号
が現われる回数を入力パターンと標準パターンと
について予め比較しておいて、入力パターンと比
較する標準パターンの数を予め1個に限定してお
けば、有意性検定部23においては入力パターン
と標準パターンとの近似度がある設定値を越えて
いるか否かを確認するだけでよく、有意性検定部
23における検定基準を緩和できるものである。 以上のように本実施例にあつては、有声音Vを
日本語の5母音Va、Vi、Vu、Ve、Voに符号化
し、5母音に符号化できないものについては広顎
有声音Vh、狭顎有声音Vl、前舌有声音Vf、およ
び後舌有声音Vbに符号化するようにしたから、
5母音には分類されない中間的な有声音をも符号
化することができるものであり、このため音声入
力に含まれる情報量を的確に抽出することができ
るものである。ここで広顎有声音Vhとして分類
されるのは、/e/、/a/、/o/およびその
中間音などであり、狭顎有声音Vlとして分類さ
れるのは、/i/、/u/およびその中間音など
である。次に前舌音Vfとして分類されるの
は、/i/、/e/およびその中間音などであ
り、後舌音Vbとして分類されるのは、/
a/、/o/、/u/およびその中間音などであ
る。ただし、フイルタF3およびF4の通過周波数
帯域を、それぞれ0.7〜1.4KHzおよび1.4〜2.8KHz
とした場合には、前舌音Vfとして分類されるの
は、/i/、/e/、/a/およびその中間音な
どであり、また後舌音Vbとして分類されるの
は、/o/、/u/およびその中間音などであ
る。なお広顎音Vh乃至後舌音Vbとして分類され
ない有声音のうち、フイルタF2とF3の差信号出
力VB/VHが大きいときは、/a/または/
a/に近い音が入力されている場合であり、また
上記差信号出力VB/VHが小さいときは、/
o/、/e/または/o/、/e/に近い音が入
力されている場合である。 第5図は上記実施例における差信号ベクトル抽
出部15乃至記号化処理部17の具体的構成の他
の一例を示すブロツク図である。同図の回路例に
おいては、各差動増幅手段S1〜S3から出力される
フイルタF1〜F4の差信号出力VH/VL、VF/
VB、およびVB/VLを成分とする3次元ベクト
ルに変換行列Tmを乗算して、日本語の5母音
Va、Vi、Vu、Ve、Voと、広顎有声音Vh、狭顎
有声音Vl、前舌有声音Vf、後舌有声音Vb、およ
びこれらに分類されない有声音Vwの各短時間平
均パワーを成分とする10次元ベクトルを算出する
行列計算部MC0を設けてある。MX0は上記10次
元ベクトルの各成分のうち最大の成分を判別して
この最大の成分に対応する有声音の符号を出力す
る最大値判定部である。ここで変換行列〔Tm〕
の一例を示すと、まずフイルタF3とF4の通過周
波数帯域がそれぞれ0.8〜1.6KHzおよび1.6〜3.2K
Hzであるときには、式のようになり、この場合
には有声音Vwは/a/と/o/の中間音を表わ
すものである。またフイルタF2とF3の通過周波
数帯域がそれぞれ0.7〜1.4KHzおよび1.4〜2.8KHz
であるときには、変換行列〔Tm〕は式のよう
になり、この場合には有声音Vwは/a/と/
e/の中間音を表わすものである。 ところで第5図回路の最大値判定部MX0にお
いては有意性検定の機能をも付加して、10次元ベ
クトルの各成分のうち最大のものが所定の基準レ
ベルに達しない場合には、5母音と各有声音Vf、
Vl、Vf、Vb、Vwのうちいずれにも分類されな
い有声音については有声音Vmの符号を割り当て
るようにするものであり、これによつて例えば/
i/と/o/の中間音や/e/と/u/の中間音
などが、有声音Vmとし分類されることになるも
のである。第1表および第2表は、変換行列
〔Tm〕としてそれぞれ式および式のものを
用いた場合について、各母音の中間音が6種類の
有声音Vf、Vl、Vf、Vb、Vw、およびVmのう
ちいずれに分類されるかを示したものである。同
図を見れば、例えば/i/と/e/の中間音は、
有声音Vfとして分類され、/o/と/u/の中
間音は、有声音Vbとして分類されることなどが
理解されるであろう。
【表】
【表】 上述したところから明らかなように、第5図回
路においては、5母音と各有声音Vh、Vl、Vf、
Vbおよびこれらに分類されない有声音Vw、Vm
の合計11種類の有声音の符号が最大値判定部
MX0から出力されることになる。そしてこれら
の各有声音の符号Va、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、Vw、Vmは、比較手段C0から出
力されるV、UV、Sの符号のうち有声音Vの符
号と置換されるから、結局記号化処理部17から
は、UV、S、Vm、Vi、Ve、Va、Vo、Vu、
Vh、Vl、Vf、Vb、Vwの合計13種類の符号が出
力されることになる。したがつて距離テーブル2
2には、これらの13種類の符号同士の近似度を表
わす係数を予め記憶させておけばよい。第4表お
よび第3表は、変換行列〔Tm〕として、それぞ
れ式および式のものを用いた場合において、
上述の13種類の各符号同士の近似度がどのような
値になるかを示したものである。 ただし、第4表において、Vu行Vo列の値は−
1とする方がより望ましい。
【表】
【表】 第3表および第4表において、横の欄および縦
の欄はそれぞれ標準パターンの符号および入力パ
ターンの符号に対応しており、例えば標準パター
ンの符号がVaであつて、しかも入力パターンの
符号もVaであるときには、距離テーブル22の
出力は2となり、近似度が高いことを示すもので
ある。また標準パターンの符号がUVであり、入
力パターンの符号がVaであるときには、距離テ
ーブル22の出力は−2となり、近似度が低いこ
とを示すものである。したがつて距離計算部21
においては、距離テーブル22からの出力を順次
加算するだけの演算操作により、入力パターンと
標準パターンとのパターン全体としての近似度を
容易に計算することができるものである。 次に第6図は本発明の他の実施例を示すブロツ
ク図である。本実施例にあつては、各フイルタ
Fv,Fu,F1〜F4から出力される短時間平均パワ
ーは対数変換器25〜30によつて対数値に変換
されてから、差動平均化回路31〜34に入力さ
れ、各フイルタの差信号出力が算出されるように
なつている。差動平均化回路31〜34から出力
される信号は、符号化回路35〜42によつて所
定の基準レベルRU、RV、RH、RL、RA、RO、RF
RBと比較されて、その大小関係に応じて符号化
されるものである。ただし、RU>0>RV、RH
0>RL、RA>0>RO、RF>0>RBである。符号
化回路35,37,39,41は、入力された信
号がそれぞれ基準レベルRU、RH、RA、RFよりも
大きい場合には、符号UV、VH、VA、VFをそ
れぞれ出力し、それ以外の場合には符号Sを出力
するものである。また符号化回路36,38,4
0,42は、入力された信号がそれぞれ基準レベ
ルRV、RL、RO、RBよりも小さい場合には、符号
V、VL、VO、VBをれぞれ出力し、それ以外の
場合には符号Sを出力するものである。各符号化
回路35〜42から出力されるUV、V、S、
VH、VL、VA、VO、VF、VBの各符号はコン
ポジツト記号化処理部43に入力されて、記号化
テーブル44の記憶内容を参照しながら上述の第
5図における記号化処理部17から出力される符
号と同様のUV、S、Vm、Vi、Ve、Va、Vo、
Vu、Vh、Vl、Vf、Vb、Vwよりなるコンポジ
ツト符号(複合符号)に変換されるものである。
以下このコンポジツト記号化処理部43の動作に
ついて説明すると、まず符号化回路35,36か
ら出力される符号がUVおよびSあるいは共にS
であるときに符号UVおよび符号Sがそれぞれ出
力される。また符号化回路35,36から出力さ
れる符号がSおよびVであるときには、第5表ま
たは第6表に示すように符号化回路37〜42の
出力に基づいて、Va、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、Vw、Vmにうちいずれか1つの
符号が出力されるものである。
〔発明の効果〕
本発明は叙上のように、有声音のうち日本語の
5母音に該当するものについてはその母音に対応
する符号をそのまま割り当てて、日本語の5母音
に該当しないものについては、広顎、狭顎、前
舌、後舌の各有声音のうちいずれか1つの符号を
割り当てるようにしたから、有声音のうち例え
ば/e/と/o/の中間的な音や/i/と/u/
の中間的な音、あるいは/i/と/e/の中間的
な音や/o/と/u/の中間的な音などがそれぞ
れ広顎有声音、狭顎有声音、前舌有声音、後舌有
声音として認識されるものであり、このため日本
語の5母音に必ずしも正確に一致しない中間的な
有声音についても正しく認識照合することがで
き、音節の過渡期に現われる曖昧な有声音につい
ても的確な照合処理を行なうことができるという
効果を有するものである。また本発明にあつて
は、5母音のうちのいずれか1つに分類される有
声音については、そのまま5母音として認識照合
しているので、音節の定常期における照合も的確
に行なうことができ、全体として音声入力に含ま
れる情報量を有効に抽出して認識精度を向上させ
ることができるという効果を有するものである。
次に併合発明にあつては、有声音と無声音との判
定はフイルタ対の差信号の対数変換値で行なうよ
うにしたので、有声音区間と無声音区間とを明瞭
に識別することができ、またその他の有声音につ
いての判定はフイルタの出力の対数変換値の差を
取るようにし、しかも各フイルタ間のバランスを
取るバランス調整回路を設けたので、有声音の微
妙な特徴の変化を的確に把えることができ、5母
音と他の有声音との識別精度も向上させることが
できるという効果がある。
【図面の簡単な説明】
第1図は従来例のブロツク図、第2図は本発明
の特許請求の範囲に対応するいわゆるクレーム対
応ブロツク図、第3図は本発明の一実施例のブロ
ツク図、第4図は同上の要部構成を示すブロツク
図、第5図は同上の要部の他の構成を示すブロツ
ク図、第6図は本発明の他の実施例のブロツク
図、第7図は併合発明の一実施例のブロツク図、
第8図は母音のホルマントの周波数分布を示す
図、第9図乃至第11図はフイルタの周波数特性
を示す図、第12図乃至第14図は各フイルタの
差信号出力を示す図、第15図は対数変換特性を
示す図、第16図及び第17図は各有声音の射影
成分を示す図、第18図は音声メツセージに対す
る各フイルタの差信号出力を示す図、第19図は
同上の各有声音の射影成分を示す図である。 Fv,Fu,F1a,F1b,…,Fna,Fnbはフイル
タ、S0〜Snは差動増幅手段、C0は比較手段、
VD0は有声音分析手段、CMは複合符号化処理
部、IMは入力パターン記憶部、HMは標準パタ
ーン記憶部、SGは照合処理部である。

Claims (1)

  1. 【特許請求の範囲】 1 音声入力の高周波成分および低周波成分の短
    時間平均パワーをそれぞれ取り出す一対のフイル
    タの差信号出力を入力とし、高周波成分の方が強
    いときには無声音の符号を、低周波成分の方が強
    いときには有声音の符号を、高周波成分と低周波
    成分とが略同じときには無音の符号を出力する比
    較手段を設け、音声入力から相異なる周波数領域
    の短時間平均パワーを取り出す複数組のフイルタ
    対の各差信号出力の大小関係に応じて日本語の5
    母音と、顎の開きの広い広顎有声音と、顎の開き
    の狭い狭顎有声音と、舌の位置が前になる前舌有
    声音と、舌の位置が後になる後舌有声音との各符
    号のうちいずれか1つの符号を割り当てる有声音
    分析手段を設けて、比較手段の出力のうち、有声
    音の符号を上記有声音分析手段から出力される符
    号に置換して、無音、無声音、および5母音と広
    顎、狭顎、前舌、ならびに後舌の各有声音の符号
    の時系列からなる入力パターンを形成し、複数種
    の音声メツセージを標準的に発生したときに形成
    される各入力パターンを標準パターンとして予め
    登録し、入力パターンに最も近似する標準パター
    ンを入力メツセージとして識別することを特徴と
    する音声メツセージ識別方式。 2 有声音分析手段は、広顎有声音、狭顎有声
    音、前舌有声音、および後舌有声音の各短時間平
    均パワーを取り出す第1乃至第4のフイルタを有
    し、第1および第2のフイルタの差信号出力と、
    第3および第4のフイルタの差信号出力と、第1
    および第4のフイルタの差信号出力とを成分とす
    る3次元ベクトルを入力とし、この3次元ベクト
    ルに変換行列を乗算して日本語の5母音の短時間
    平均パワーを各成分とする5次元ベクトルを算出
    する行列計算部を有し、行列計算部から出力され
    る5次元ベクトルの各成分のうち最大の成分が所
    定の基準レベルより大きく、かつこの最大の成分
    と第2番目に大きい成分との差が所定の基準値よ
    りも大きいときには、前記最大の成分に対応する
    母音の符号を出力し、前記最大の成分と第2番目
    に大きい成分との差が、所定の基準値よりも小さ
    いときには、第1乃至第4の各フイルタの出力の
    うち最大の出力に対応する有声音の符号を出力す
    る最大値判定部を有して成ることを特徴とする特
    許請求の範囲第1項記載の音声メツセージ識別方
    式。 3 有声音分析手段は、広顎有声音、狭顎有声
    音、前舌有声音、および後舌有声音の各短時間平
    均パワーを取り出す第1乃至第4のフイルタを有
    し、第1および第2のフイルタの差信号出力と、
    第3および第4のフイルタの差信号出力と、第1
    および第4のフイルタの差信号出力とを成分とす
    る3次元ベクトルを入力とし、この3次元ベクト
    ルに変換行列を乗算して、日本語の5母音と広
    顎、狭顎、前舌、および後舌の各有声音の短時間
    平均パワーを各成分とするベクトルを算出する行
    列計算部を有し、行列計算部から出力されるベク
    トルの各成分のうち最大の成分を判定し、該成分
    に対応する母音乃至有声音の符号を出力する最大
    値判定部を有して成ることを特徴とする特許請求
    の範囲第1項記載の音声メツセージ識別方式。 4 音声入力の高周波成分および低周波成分の短
    時間平均パワーをそれぞれ取り出す一対のフイル
    タの差信号出力の対数変換値を入力とし、高周波
    成分の方が強いときには無声音の符号を、低周波
    成分の方が強いときには有声音の符号を、高周波
    成分と低周波成分とが略同じときには無音の符号
    を出力する比較手段を設け、音声入力から顎の開
    きの広い広顎有声音と、顎の開きの狭い狭顎有声
    音と、舌の位置が前になる前舌有声音と、舌の位
    置が後になる後舌有声音との各短時間平均パワー
    をそれぞれ取り出す第1乃至第4のフイルタを設
    け、第1および第2のフイルタにそれぞれ入力さ
    れる音声入力のパワーをバランス調整する第1の
    バランス調整手段と、第3および第4のフイルタ
    にそれぞれ入力される音声入力のパワーをバラン
    ス調整する第2のバランス調整手段と、第1およ
    び第2のバランス調整手段にそれぞれ入力される
    音声入力のパワーをバランス調整する第3のバラ
    ンス調整手段とを設け、第1および第2のフイル
    タの対数値差信号出力と、第3および第4のフイ
    ルタの対数値差信号出力と、第1および第4のフ
    イルタの対数値差信号出力との大小関係に応じて
    日本語の5母音と、広顎有声音、狭顎有声音、前
    舌有声音、および後舌有声音の各符号のうちいず
    れか1つの符号を割り当てる有声音分析手段を設
    けて、比較手段の出力のうち、有声音の符号を上
    記有声音分析手段から出力される符号に置換し
    て、無音、無声音、および5母音と広顎、狭顎、
    前舌、ならびに後舌の各有声音の符号の時系列か
    らなる入力パターンを形成し、複数種の音声メツ
    セージを標準的に発声したときに形成される各入
    力パターンを標準パターンとして予め登録し、入
    力パターンに最も近似する標準パターンを入力メ
    ツセージとして識別することを特徴とする音声メ
    ツセージ識別方式。
JP1411583A 1983-01-31 1983-01-31 音声メツセ−ジ識別方式 Granted JPS59139100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1411583A JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1411583A JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Publications (2)

Publication Number Publication Date
JPS59139100A JPS59139100A (ja) 1984-08-09
JPH0124320B2 true JPH0124320B2 (ja) 1989-05-11

Family

ID=11852116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1411583A Granted JPS59139100A (ja) 1983-01-31 1983-01-31 音声メツセ−ジ識別方式

Country Status (1)

Country Link
JP (1) JPS59139100A (ja)

Also Published As

Publication number Publication date
JPS59139100A (ja) 1984-08-09

Similar Documents

Publication Publication Date Title
Mermelstein Distance measures for speech recognition, psychological and instrumental
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
Zwicker et al. Automatic speech recognition using psychoacoustic models
WO2008033095A1 (en) Apparatus and method for speech utterance verification
US4509186A (en) Method and apparatus for speech message recognition
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Abe et al. Statistical analysis of bilingual speaker’s speech for cross‐language voice conversion
Nagaraja et al. Mono and Cross lingual speaker identification with the constraint of limited data
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
EP0192898B1 (en) Speech recognition
EP0157497A1 (en) Improved phonemic classification in speech recognition system
Bu et al. Perceptual speech processing and phonetic feature mapping for robust vowel recognition
JPH0124320B2 (ja)
Siegel et al. A pattern classification algorithm for the voiced/unvoiced decision
JPH0230520B2 (ja) Onseimetsuseejishikibetsuhoshiki
Lee et al. An NN based tone classifier for Cantonese
JPH07210197A (ja) 話者識別方法
JPS6331798B2 (ja)
JPH02720B2 (ja)
Jiang Experiments on a speaker identification system
JPS6336678B2 (ja)
JPH02717B2 (ja)
Chen et al. SPEAKER-INDEPENDENT MANDARINE PLOSIVE RECOGNITION WITH DYNAMIC FEATURES AND MULTILAYER PERCEPTRONS
JPH0462597B2 (ja)