JPH02720B2 - - Google Patents
Info
- Publication number
- JPH02720B2 JPH02720B2 JP6726183A JP6726183A JPH02720B2 JP H02720 B2 JPH02720 B2 JP H02720B2 JP 6726183 A JP6726183 A JP 6726183A JP 6726183 A JP6726183 A JP 6726183A JP H02720 B2 JPH02720 B2 JP H02720B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- formant
- voiced
- sounds
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000011159 matrix material Substances 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 26
- 230000003321 amplification Effects 0.000 description 18
- 238000003199 nucleic acid amplification method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
〔技術分野〕
本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。 〔背景技術〕 第1図乃至第4図は日本語の5母音の特徴を示
す資料である。まず音声は音韻に対応して、第1
図に示したような周波数スペクトル包絡を有し、
音声の周波数スペクトル分析により、このスペク
トル包絡線のピークに相当するホルマント周波数
を求め周波数の低い方から第1ホルマントF1、
第2ホルマントF2,……と順に表わせば、5母
音は、第2図に示したようなF1〜F4の変化カー
ブで表わせる。 このホルマント周波数の分布をF1,F2座標軸
上で調べたものを第3図に示した。この第3図か
らもわかるような日本語の5母音を線型識別する
ためには、第1〜第3ホルマントを正しく求めな
いとできないと云われている。 我々は、ごく少数の限定された単語ないしは、
文章を識別する装置をローコストに製作するた
め、完全ではなくともおおよそ5母音に似た擬音
韻に記号化する方式を検討した。 第5図は従来本発明者らが開発した音声メツセ
ージ識別装置の概略構成を示している。同図にお
いて、Vは音声入力中、O〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、Uは音声入力中、5
〜12KHzの周波数帯域の短時間平均パワーを示し
ており、無声音のエネルギに対応している。さら
に、VL、VH、VB、VFはそれぞれ音声入力中、
0〜0.4KHz、0.4〜0.8KHz、0.8〜1.8KHzおよび
1.8〜3.2KHzの周波数帯域の短時間平均パワーを
示しており、それぞれ、狭顎音、広顎音、後舌
音、および前舌音のエネルギーに対応している。
S0〜S3は差動増幅手段であり、それぞれ差信号
UV/V、VH/VL、VB/VLおよびVF/VBを
算出するものである。差動増幅手段S0の出力は比
較手段C0において基準値Rv、Ru(Rv<O<Ru)
と比較され、差信号出力が基準値Rvよりも小さ
い場合には有声音Vと判定される。また上記信号
出力が基準値Ruよりも大きい場合には無声音U
と判定され、基準値RuとRvとの間であれば無音
Sと判定される。そして無音、有声音、および無
声音の各場合についてS、V、Uの各符号のうち
いずれか1つの符号が記号化処理部MY0入力さ
れる。また、MC0は、各差動増幅手段S1〜S3の
出力を入力とする行列計算部であり、この行列計
算部MC0は各差信号出力VH/VL、VB/VL、
およびVF/VBを成分とする3次元ベクトルに
所定の行列Tmを乗算して、音声入力中に含まれ
る各母音/a/、/i/、/u/、/e/、/
o/の短時間平均パワーVa、Vi、Vu、Ve、Vo
並びに広顎有声音、狭顎有声音、前舌有声音、後
舌有声音、母音/a/と/o/の中間的な有声音
の各短時間平均パワーVh、Vl、Vf、Vb、Vwを
算出するもののである。行列計算部MC0の出力
は最大値判定部MX0に入力されて、各成分Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vwのうち最
大の成分がどれであるかを判定され、その最大の
成分の符号が記号化処理部MY0に入力される。
記号化処理部MY0は、比較手段C0から出力され
る符号がVであるときには、最大値判定部MX0
から出力されるVa、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、およびVwのうちのいずれか1つ
の符号を出力し、また比較手段C0から出力され
る符号がUまたはSであるときには、その符号を
そのまま出力するものである。この記号化処理部
MY0から出力される複合符号は、音声メツセー
ジの登録時には標準パターン記憶部に入力記憶さ
れ、音声メツセージの認識時には入力パターン記
憶部に入力記憶されるものであり、照合処理時に
は、予め登録された標準パターンのうち入力パタ
ーンに最も近似する標準パターンを入力メツセー
ジとして識別するものである。 ところで第5図従来例において、VHとVLの
パワーのバランスを調整すると、差信号の零点を
境界にして、正側に5母音の{e,a,o}、負
側に{i,u}が位置し、したがつてVH/VL
差信号は、Veao/Viu差信号と云うべき信号に
なる。次に、VFとVBのパワーのバランスを調
整すると、差信号の零点を境界にして、正側に5
母音の{i,e}、負側に5母音の{a,o,u}
が位置し、VF/VB差信号はVie/Vaou差信号
と云うべき信号になる。一方、VB/VL差信号
のバランスを調整すると、差信号の零点を境界に
して、正側に5母音の{a}、負側に5母音の
{o}が位置し、したがつてVB/VL差信号は
Va/Vo差信号と云うべき信号になる。 第6図a,bは第5図従来例において各有声音
VH、VL、VF、VBの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。なお第6図において、APは後
述する調整アンプの特性を示している。 第7図は第5図従来例における行列計算部
MC0および最大値判定部MX0と同じ機能を実現
する別の手段を示すものである。この第7図は、
各差信号Veao/Viu、Va/Vo、Vie/Vaouの
レベルを高レベル(H)、中レベル(M)、および
低レベル(L)の3値で表わした場合における擬
音韻判別フローを示している。同図のフローで
は、まず第一段階では第1ホルマントF1に対応
したVeao/Viu差信号で判別し、第二段階では
第2ホルマントF2に対応したVie/Vaou差信号
で判別し、第三段階でVa/Vo差信号で判別する
ことにより、{i,e,a,o,u,h,l,f,
b,w,m}の11種類に有声音を記号化するもの
である。 第8図乃至第11図は第5図従来例において、
5母音/i/、/e/、/a/、/o/、/u/
を入力した場合における差動増幅手段S0〜S3の出
力信号波形を示している。上記各図において、
U/V信号、H/L信号、F/B信号、A/O信
号はそれぞれ差動増幅手段S0〜S3の出力を示して
いる。またSYMは各有声音の区別を示しており、
例えば第8図において、l、i、f、e,……な
どは、有声音Vl、Vi、Vf、Ve、……をそれぞれ
示している。ただし、符号mは各有声音Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vb、Vwのう
ち、いずれにも該当しない有声音Vmを示してい
る。しかして第8図および第9図は相異なる男性
の被験者二人について測定した例を示しており、
第10図および第11図は女性の被験者二人につ
いて測定した例を示している。上記各図を見れ
ば、話者によらず、ほぼ同じ特徴を抽出している
ことがわかるが、母音の/e/音と/u/音と/
o/音の記号化は、フイルタの調整にノウハウが
あつて、記号化が若干不完全である。 ところで、上述の母音の第1ホルマントF1と、
第2ホルマントF2の分布を示す第3図と舌の調
音位置を表わす第4図とを比較すると、第1ホル
マントF1は、顎が広く開いていると/a/のよ
うに高い周波数になり、顎が狭く開いていると/
i/のように低い周波数になるので、ほぼ顎の広
狭に対応していることがわかる。一方、第2ホル
マントF2は、同様に舌の位置の前後にほぼ対応
していることがわかる。また第2図および第3図
を見れば、母音の第2ホルマントは男性と女性と
でばらつきが大きいことがわかる。しかるに従来
例にあつては、かかる第2ホルマントをVF/
VB差信号のみで分離しているものであるから、
特に母音の{e}と{o,u}の分離が不完全に
なるという問題があつた。つまり、VF/VB差
信号では、第8図乃至第11図において5母音の
なかで/u/に対応する部分が負側にもつと大き
く検出されたいが、これが弱く、また/e/に対
応する部分や/o/に対応する部分の後半も弱い
ことがわかり、これが記号化を不確実にする要因
となつている。かかる不完全さを解消するため
に、従来、5母音を発声したときの差信号のずれ
を個人別にオフセツトとして求めて補正する方式
を提案したが、それでもこのようなオフセツト調
整はなるべく無い方がよいし、またオフセツト量
が少ない方が望ましいことは云うまでもない。そ
れにも拘らず、従来例にあつては上述のようにば
らつきの大きい第2ホルマントをVF/VB差信
号のみで分離しているので、フイルタ対の差信号
出力の零点補正のオフセツトがかなり大きくな
り、場合によつては完全に補正できないおそれが
あつた。またこのような差信号出力の零点補正を
行なわない場合には、実際の発声と擬音韻の記号
との相違のため、識別単語数の減少の低下をまね
くという欠点があつた。このため、不特定話者用
としては、成分数等で著しく制限を受けるという
ことにもなつた。 〔発明の目的〕 本発明は上述の点に鑑みて為されたものであ
り、母音の第2ホルマントの特徴を確実に抽出で
きるようにして、5母音のより完全な記号化を可
能とし、またフイルタ対の差信号出力の話者によ
る零点補正量を少なくできるようにした音声メツ
セージ識別方式を提供することを目的とするもの
である。 〔発明の開示〕 第12図は、本発明の特許請求の範囲第1項に
記載された構成を機能的にブロツク化して示した
いわゆるクレーム対応図である。同図において、
Fvは音声入力の低周波成分の短時間平均パワー
を取り出すフイルタであり、Fuは音声入力の高
周波成分を取り出すフイルタである。各フイルタ
Fv、Fuの出力は差動増幅手段S0に入力されて、
差信号成分を抽出される。C0は比較手段であり、
上記差動増幅手段S0から出力される差信号成分
が、基準値Rvよりも小さいときには有声音Vの
符号を割り当て、基準値Ruよりも大きいときに
は無声音UVの符号を割り当て、それ以外の場合
には無音Sの符号を割り当てるもである。ただ
し、Ru>O>Rvである。次にFFa1は有声音のう
ち顎の開きの狭い狭顎有声音(母音のi、uな
ど)の短時間平均パワーを取り出すフイルタであ
り、Fa2は有声音のうち顎の開きの広い広顎有声
音(母音のe、a、oなど)の短時間平均パワー
を取り出すフイルタである。次に、Fb1は顎の開
きの広い広顎有声音のうち、母音のe、oのよう
な第1ホルマントの低い音の短時間平均パワーを
取り出すフイルタであり、Fb2は同じく顎の開き
の広い広顎有声音のうち、母音のaのような第1
ホルマントの高い音の短時間平均パワーを取り出
すフイルタである。次にFc1は、第1ホルマント
の低い広顎有声音のうち、母音のoのような第2
ホルマントの低い音の短時間平均パワーを取り出
すフイルタであり、Fc2は、同じく第1ホルマン
トの低い広顎有声音のうち、母音のeのような第
2ホルマントの高い音の短時間平均パワーを取り
出すフイルタである。さらにFd1は、顎の開きの
狭い狭顎有声音のうち、母音のuのような第2ホ
ルマントの低い音の短時間平均パワーを取り出す
フイルタであり、Fd2は母音のiのような第2ホ
ルマントの高い短時間平均パワーを取り出すフイ
ルタである。S0〜S4は差動増幅手段であり、それ
ぞれ差信号V/UV、Veao/Viu、Va/Veo、
Ve/Vo、Vi/Vuを算出するものである。差動
増幅手段S0の出力は比較手段C0において基準値
Rv,Ru(Rv<O<Ru)と比較され、差信号出力
が基準値Rvよりも小さい場合には有声音Vと判
定される。また上記差信号出力が基準値Ruより
も大きい場合には無声音Uと判定され、基準値
RuとRvとの間であれば無音Sと判定される。そ
して無音、有声音、および無声音の各場合につい
てS、V、Uの各符号のうちいずれか1つの符号
が記号化処理部MY0に入力される。MC0は、各
差動増幅手段S1〜S4の出力を入力とする行列計算
部であり、この行列計算部MC0は各差信号出力
Veao/Viu、Va/Veo、Ve/Vo、Vi/Vuを成
分とする4次元ベクトルに所定の行列Tvを乗算
して、音声入力中に含まれる各母音i、e、a、
o、uの短時間平均パワーを算出するものであ
る。第12図の構成においては、広顎有声音VH
と狭顎有声音VLとの比率を求める差動増幅手段
S5と、前舌有声音VFと後舌有声音VBとの比率
を求める差動増幅手段S6とを設けてあり、行列計
算部MC0ではこれらの各差動増幅手段S5,S6の
差信号出力VH/VLおよびVF/VBに所定の行
列Tcを乗算して、音声入力中に含まれる広顎有
声音h、狭顎有声音l、前舌有声音f、後舌有声
音b、およびその他の広顎かつ後舌有声音wのパ
ワーを算出するものである。行列計算部MC0に
おいて用いる行列Tv、Tcの一例を示せば、次式
のようになる。 行列計算部MC0の出力は最大値判定部MX0に
入力されて、各成分i、e、a、o、u、h、
l、f、b、wのうち最大の成分がどれであるか
を判定され、その最大の成分の符号が記号化処理
部MY0に入力される。ただし最大の成分と2番
目に大きい成分との差が小さいときには符号mが
出力される。記号化処理部MY0は、比較手段C0
から出力される符号がVであるときには、最大値
判定部MX0から出力されるi、e、a、o、u、
h、l、f、b、wおよびmのうちのいずれか1
つの符号を出力し、また比較手段C0から出力さ
れる符号がUまたはSであるときには、その符号
をそのまま出力するものである。この記号化処理
部MY0から出力される複合符号は、音声メツセ
ージの登録時には標準パターン記憶部に入力記憶
され、音声メツセージの認識時には入力パターン
記憶部に入力記憶されるものであり、照合処理時
には、予め登録された標準パターンのうち入力パ
ターンに最も近似する標準パターンを入力メツセ
ージとして識別するものである。 なお第12図の構成において、VH/VL差信
号およびVF/VB差信号は、それぞれVeao/
Viu差信号およびVe/Vo差信号で代用してもか
まわない。 第13図は8フイルタ方式の実施例構成を示す
ブロツク図である。上述の第12図の構成では、
Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2、
Ed1、Fd2の合計10個のフイルタを必要とするが、
第13図の構成では、このうち2つのフイルタを
兼用して8フイルタで音声の特徴を抽出できるよ
うにしたものである。第13図において、VFh
は前舌有声音の高域成分、VFは前舌有声音の成
分、VBは後舌有声音の成分、VHhは広顎有声音
の高域成分、VHlは広顎有声音の低域成分、VL
は狭顎有声音の成分をそれぞれ抽出するフイルタ
の出力である。そして第13図の実施例において
は、Veao/Viu差信号とVa/Veo差信号につい
てVLを共用し、またVe/Vo差信号とVi/Vu差
信号についてVB(又はVL)を共用したものであ
る。これは、フイルタ対の差信号の零点がフイル
タ帯域の交差点(クロスオーバ周波数)に対応す
るものであるため、差信号をとるフイルタ対のう
ち、片方のフイルタの帯域を固定しても、もう一
方のフイルタの帯域が2種類あれば、フイルタ帯
域の交差点が変わることになる。 ところで、第13図の実施例においては、
VHhとVBは、ほぼ同じであるので、1つのVB
にまとめたいが、第13図のままでは、VBから
3つの差信号を取り出すことになつて、フイルタ
対のバランス調整が困難になる。そこでVBを高
域成分VBhと全域成分VBとに分け、VFを1つ
にまとめて、7フイルタ方式とした例を第14図
に示す。この場合には、VBから2つの差信号を
抽出するだけであるのでフイルタのバランス調整
は簡単になる。また別な見方をすれば、第14図
の実施例は第5図従来例にVBhを加えたものと
も云える。第15図a,bは、第14図の7フイ
ルタ方式において各有声音の成分VL、VH、
VB、VBh、VFの短時間平均パワーを取り出す
ために用いるフイルタの周波数特性を示す図であ
り、同図aは横軸の周波数を均等目盛として描い
てあり、同図bは横軸の周波数を対数目盛として
描いてある。この第15図においてAPは後述す
る調整アンプの特性を示している。 第16図は6フイルタ方式の実施例である。す
なわち、上述の第14図実施例にあつては、
VBhの代わりにVHをとつても、母音のiとuの
識別は可能であるので、周波数成分ベクトルは、
UV、V、VF、VB、VH、VLの6成分(6フイ
ルタ)で構成することができるものである。この
第16図実施例は、別な見方をすれば第5図従来
例にVF/VH差信号を追加したものであり、フ
イルタ帯域もほぼ同じものが使える。ただし、
VF/VB差信号は、母音のeとoが確実に識別
できるように調整する。第17図a,bは、第1
6図の6フイルタ方式において各有声音の成分
VL、VH、VB、VFの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。この第15図においてAPは後
述する調整アンプの特性を示している。 第13図実施例の8フイルタ方式、第14図実
施例の7フイルタ方式、および第16図実施例の
6フイルタ方式における行列計算部MC0の変換
行列Tmとしては、〜式のようなものが使用
可能である。 まず式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、式は第1ホルマントF1に関する差信号に
対する5母音の要素をすべて同じ大きさの重み
(絶対値14)にすると共に、第2ホルマントF2に
関する2つの差信号に関しては、5母音に対し
て、どちらかに一個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものと云える。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。 特に、記号ベクトルの成分を5母音{i、e、
a、o、u}のみとする場合には、第12図の
Tvに相当する行列の要素は{+1,0,−1}の
いづれかで良いので、乗算を必要とせず符号変換
だけで、簡単な記号化が可能である。一方第12
図のTcに相当する符号{h,l,f,b,w}
の変換行列の要素は、このの行列の行ベクトルの
ノルムをTvの行ベクトルのノルムと同じにする
かTcの行ベクトルのノルムの値が、Tvの行ベク
トルのノルムの値より小さく、かつTvの行列の
要素の絶対値よりも大きくする。このようにしな
いと、5母音の各成分{i,e,a,o,u}よ
りもその他の有声音の成分{h,l,f,b,
w}の方が小さくなつてしまう。 次により具体的な実施例について説明する。第
18図は第14図の7フイルタ方式をより具体化
した実施例、第19図は第16図の6フイルタ方
式をより具体化した実施例を示しており、両者の
違いはフイルタFBhの有無のみである。上記各
実施例において、音声は、マイク1より入力さ
れ、プリアンプ2で増幅されて、調整アンプ3で
ゲインとオフセツトを調整される。次にレベル調
整器5ではV/UV差信号と他の差信号と他の差
信号との入力パワーのバランスをとる。(一般に、
V/UV差信号よりも他の差信号の方を強調す
る。)次に、V/UVバランス調整器4ではフイ
ルタFvの入力とフイルタFuの入力とのバランス
をとる。一方、VB/VLバランス調整器6を中
点に調整し、VH/VLバランス調整器7で、フ
イルタFHとフイルタFLの入力バランスをとり、
VF/VBバランス調整器8でフイルタFFとフイ
ルタFB(FBh)のバランスをとる。次にVB/VL
バランス調整器6で、VBとVLのバランスをと
る。第19図の構成では、VB/VLバランス調
整器6を調整するとVF/VHのバランスも同時
にとれている。 各フイルタの出力は、マルチプレクサ9で順次
切り換えながら対数変換器10で、パワーを対数
スケールに変換し、A/Dコンバータ11で8ビ
ツトの2進数にデイジタル化する。なお各フイル
タをデイジタルフイルタで構成する場合には、
A/Dコンバータ11は、調整アンプ3の次段に
来るもので、パイプライン方式で、各フイルタ計
算を順次行ない、一種のマルチプレクサ9のよう
に順々に各フイルタの出力が計算される。次に、
このデイジタル値の相互の差を計算し、差信号ベ
ルトル抽出部12で、差信号ベクトル{UV/
V、Veao/Viu、Va/Veo、Ve/Vo、Vi/
Vu}の5成分を計算する。 第20図乃至第23図は、第18図の実施例に
ついて、第8図乃至第11図の音声と同一の音声
を録音テープにより入力し、音声の特徴抽出を行
なつた結果を示しており、また第24図乃至27
図は、第19図の実施例について、同様に第8図
乃至第11図の音声と同一の音声を録音テープに
より入力し、音声の特徴抽出を行なつた結果を示
している。これらの第20図乃至第27図におい
ては、従来例のVF/VB差信号が、Ve/Vo差信
号とVi/Vu差信号の2本になり、また従来例の
VA/VU差信号が、Va/Veo差信号(図中では
a/oと略記)になつたものである。なお第20
図乃至第27図において、a/iでは、Veao/
Vin差信号を示している。しかして従来例では、
VF/VB差信号によるe、u、oの検出が差信
号の零点に近づいて弱くなり、e、u、oの記号
化がi、aに比べて困難であつたが、第20図乃
至第27図では、Ve/Vo差信号でe、oの検出
が確実になり、Vi/Vu差信号でuの検出が確実
になつたので、5母音の記号化が、より確実に行
なえることがわかる。特に第24図乃至第27図
では、Vi/Vu差信号が第20図乃至第23図よ
りも明確にiとuを識別しており、実施例に関す
る限り第18図のものよりも第19図の方が確実
に5母音を記号化していると云えるものである。 次に第18図および第19図に戻つて、V/
UV判定部13では、V/UV差信号がある設定
値RUより正のときUVと判定し、ある設定値RV
より負のときVと判定し、その中間をSと判定す
る。始端、終端検知部14では、V又はUVの判
定により音声の始端を検知し、無音がある設定値
以上のサンプル数の間、継続すると終端と検知す
る。 記号ベクトル変換部15は、第14図および第
16図で示したように行列演算で、記号ベクトル
{i,e,a,o,u,h,l,f,b,w}に
変換する。但し、行列演算はVの区間でのみ行な
うものである。記号化処理部16は、Vの区間で
は記号ベクトルの最大成分がある設定値以上の場
合にはその記号を出力し、設定値以下の場合には
mを出力する。またUVとSの区間では、それぞ
れUV、Sを出力する。 整形処理部17では、同じ記号の繰返しを一つ
の記号とその継続時間とのリストに直し、さらに
継続時間が、ある設定値より少ないものは、前後
の記号が同じ場合には、これらを一つのリストに
し、前後の記号が異なる場合には、前の記号に含
めるようにして、継続時間の短いものは省略す
る。 時間軸線型正規化処理部18は、各リストの継
続時間の合計が200(あるいは1000)といつた一定
値になるように、継続時間を正規化する。これ
は、従来例と同様に全サンプル値200(あるいは
1000)と継続時間との比率をそれぞれの継続時間
に掛け合わせると良い。この際、リストの数が少
ない(10〜20)ので、乗除算にはあまり時間をと
らない。 以上のプロセスで、本方式の音声パターンが、
作成できる。 この音声パターンは、登録モードでは、標準パ
ターン記憶部19に登録される。認識モードで
は、距離計算部20で、標準パターンと照合する
が、まずUVの数等で一次識別して、照合対象を
限定しておく。次に、距離テーブル21で、時間
軸上で対応する記号間の距離(相関値)を求め
て、これを、全サンプルについて合計したものを
パターン間の距離とする。距離テーブル21とし
ては第1表に示すようなものを用いるものであ
る。
作するための音声メツセージ識別方式に関するも
のである。 〔背景技術〕 第1図乃至第4図は日本語の5母音の特徴を示
す資料である。まず音声は音韻に対応して、第1
図に示したような周波数スペクトル包絡を有し、
音声の周波数スペクトル分析により、このスペク
トル包絡線のピークに相当するホルマント周波数
を求め周波数の低い方から第1ホルマントF1、
第2ホルマントF2,……と順に表わせば、5母
音は、第2図に示したようなF1〜F4の変化カー
ブで表わせる。 このホルマント周波数の分布をF1,F2座標軸
上で調べたものを第3図に示した。この第3図か
らもわかるような日本語の5母音を線型識別する
ためには、第1〜第3ホルマントを正しく求めな
いとできないと云われている。 我々は、ごく少数の限定された単語ないしは、
文章を識別する装置をローコストに製作するた
め、完全ではなくともおおよそ5母音に似た擬音
韻に記号化する方式を検討した。 第5図は従来本発明者らが開発した音声メツセ
ージ識別装置の概略構成を示している。同図にお
いて、Vは音声入力中、O〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、Uは音声入力中、5
〜12KHzの周波数帯域の短時間平均パワーを示し
ており、無声音のエネルギに対応している。さら
に、VL、VH、VB、VFはそれぞれ音声入力中、
0〜0.4KHz、0.4〜0.8KHz、0.8〜1.8KHzおよび
1.8〜3.2KHzの周波数帯域の短時間平均パワーを
示しており、それぞれ、狭顎音、広顎音、後舌
音、および前舌音のエネルギーに対応している。
S0〜S3は差動増幅手段であり、それぞれ差信号
UV/V、VH/VL、VB/VLおよびVF/VBを
算出するものである。差動増幅手段S0の出力は比
較手段C0において基準値Rv、Ru(Rv<O<Ru)
と比較され、差信号出力が基準値Rvよりも小さ
い場合には有声音Vと判定される。また上記信号
出力が基準値Ruよりも大きい場合には無声音U
と判定され、基準値RuとRvとの間であれば無音
Sと判定される。そして無音、有声音、および無
声音の各場合についてS、V、Uの各符号のうち
いずれか1つの符号が記号化処理部MY0入力さ
れる。また、MC0は、各差動増幅手段S1〜S3の
出力を入力とする行列計算部であり、この行列計
算部MC0は各差信号出力VH/VL、VB/VL、
およびVF/VBを成分とする3次元ベクトルに
所定の行列Tmを乗算して、音声入力中に含まれ
る各母音/a/、/i/、/u/、/e/、/
o/の短時間平均パワーVa、Vi、Vu、Ve、Vo
並びに広顎有声音、狭顎有声音、前舌有声音、後
舌有声音、母音/a/と/o/の中間的な有声音
の各短時間平均パワーVh、Vl、Vf、Vb、Vwを
算出するもののである。行列計算部MC0の出力
は最大値判定部MX0に入力されて、各成分Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vwのうち最
大の成分がどれであるかを判定され、その最大の
成分の符号が記号化処理部MY0に入力される。
記号化処理部MY0は、比較手段C0から出力され
る符号がVであるときには、最大値判定部MX0
から出力されるVa、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、およびVwのうちのいずれか1つ
の符号を出力し、また比較手段C0から出力され
る符号がUまたはSであるときには、その符号を
そのまま出力するものである。この記号化処理部
MY0から出力される複合符号は、音声メツセー
ジの登録時には標準パターン記憶部に入力記憶さ
れ、音声メツセージの認識時には入力パターン記
憶部に入力記憶されるものであり、照合処理時に
は、予め登録された標準パターンのうち入力パタ
ーンに最も近似する標準パターンを入力メツセー
ジとして識別するものである。 ところで第5図従来例において、VHとVLの
パワーのバランスを調整すると、差信号の零点を
境界にして、正側に5母音の{e,a,o}、負
側に{i,u}が位置し、したがつてVH/VL
差信号は、Veao/Viu差信号と云うべき信号に
なる。次に、VFとVBのパワーのバランスを調
整すると、差信号の零点を境界にして、正側に5
母音の{i,e}、負側に5母音の{a,o,u}
が位置し、VF/VB差信号はVie/Vaou差信号
と云うべき信号になる。一方、VB/VL差信号
のバランスを調整すると、差信号の零点を境界に
して、正側に5母音の{a}、負側に5母音の
{o}が位置し、したがつてVB/VL差信号は
Va/Vo差信号と云うべき信号になる。 第6図a,bは第5図従来例において各有声音
VH、VL、VF、VBの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。なお第6図において、APは後
述する調整アンプの特性を示している。 第7図は第5図従来例における行列計算部
MC0および最大値判定部MX0と同じ機能を実現
する別の手段を示すものである。この第7図は、
各差信号Veao/Viu、Va/Vo、Vie/Vaouの
レベルを高レベル(H)、中レベル(M)、および
低レベル(L)の3値で表わした場合における擬
音韻判別フローを示している。同図のフローで
は、まず第一段階では第1ホルマントF1に対応
したVeao/Viu差信号で判別し、第二段階では
第2ホルマントF2に対応したVie/Vaou差信号
で判別し、第三段階でVa/Vo差信号で判別する
ことにより、{i,e,a,o,u,h,l,f,
b,w,m}の11種類に有声音を記号化するもの
である。 第8図乃至第11図は第5図従来例において、
5母音/i/、/e/、/a/、/o/、/u/
を入力した場合における差動増幅手段S0〜S3の出
力信号波形を示している。上記各図において、
U/V信号、H/L信号、F/B信号、A/O信
号はそれぞれ差動増幅手段S0〜S3の出力を示して
いる。またSYMは各有声音の区別を示しており、
例えば第8図において、l、i、f、e,……な
どは、有声音Vl、Vi、Vf、Ve、……をそれぞれ
示している。ただし、符号mは各有声音Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vb、Vwのう
ち、いずれにも該当しない有声音Vmを示してい
る。しかして第8図および第9図は相異なる男性
の被験者二人について測定した例を示しており、
第10図および第11図は女性の被験者二人につ
いて測定した例を示している。上記各図を見れ
ば、話者によらず、ほぼ同じ特徴を抽出している
ことがわかるが、母音の/e/音と/u/音と/
o/音の記号化は、フイルタの調整にノウハウが
あつて、記号化が若干不完全である。 ところで、上述の母音の第1ホルマントF1と、
第2ホルマントF2の分布を示す第3図と舌の調
音位置を表わす第4図とを比較すると、第1ホル
マントF1は、顎が広く開いていると/a/のよ
うに高い周波数になり、顎が狭く開いていると/
i/のように低い周波数になるので、ほぼ顎の広
狭に対応していることがわかる。一方、第2ホル
マントF2は、同様に舌の位置の前後にほぼ対応
していることがわかる。また第2図および第3図
を見れば、母音の第2ホルマントは男性と女性と
でばらつきが大きいことがわかる。しかるに従来
例にあつては、かかる第2ホルマントをVF/
VB差信号のみで分離しているものであるから、
特に母音の{e}と{o,u}の分離が不完全に
なるという問題があつた。つまり、VF/VB差
信号では、第8図乃至第11図において5母音の
なかで/u/に対応する部分が負側にもつと大き
く検出されたいが、これが弱く、また/e/に対
応する部分や/o/に対応する部分の後半も弱い
ことがわかり、これが記号化を不確実にする要因
となつている。かかる不完全さを解消するため
に、従来、5母音を発声したときの差信号のずれ
を個人別にオフセツトとして求めて補正する方式
を提案したが、それでもこのようなオフセツト調
整はなるべく無い方がよいし、またオフセツト量
が少ない方が望ましいことは云うまでもない。そ
れにも拘らず、従来例にあつては上述のようにば
らつきの大きい第2ホルマントをVF/VB差信
号のみで分離しているので、フイルタ対の差信号
出力の零点補正のオフセツトがかなり大きくな
り、場合によつては完全に補正できないおそれが
あつた。またこのような差信号出力の零点補正を
行なわない場合には、実際の発声と擬音韻の記号
との相違のため、識別単語数の減少の低下をまね
くという欠点があつた。このため、不特定話者用
としては、成分数等で著しく制限を受けるという
ことにもなつた。 〔発明の目的〕 本発明は上述の点に鑑みて為されたものであ
り、母音の第2ホルマントの特徴を確実に抽出で
きるようにして、5母音のより完全な記号化を可
能とし、またフイルタ対の差信号出力の話者によ
る零点補正量を少なくできるようにした音声メツ
セージ識別方式を提供することを目的とするもの
である。 〔発明の開示〕 第12図は、本発明の特許請求の範囲第1項に
記載された構成を機能的にブロツク化して示した
いわゆるクレーム対応図である。同図において、
Fvは音声入力の低周波成分の短時間平均パワー
を取り出すフイルタであり、Fuは音声入力の高
周波成分を取り出すフイルタである。各フイルタ
Fv、Fuの出力は差動増幅手段S0に入力されて、
差信号成分を抽出される。C0は比較手段であり、
上記差動増幅手段S0から出力される差信号成分
が、基準値Rvよりも小さいときには有声音Vの
符号を割り当て、基準値Ruよりも大きいときに
は無声音UVの符号を割り当て、それ以外の場合
には無音Sの符号を割り当てるもである。ただ
し、Ru>O>Rvである。次にFFa1は有声音のう
ち顎の開きの狭い狭顎有声音(母音のi、uな
ど)の短時間平均パワーを取り出すフイルタであ
り、Fa2は有声音のうち顎の開きの広い広顎有声
音(母音のe、a、oなど)の短時間平均パワー
を取り出すフイルタである。次に、Fb1は顎の開
きの広い広顎有声音のうち、母音のe、oのよう
な第1ホルマントの低い音の短時間平均パワーを
取り出すフイルタであり、Fb2は同じく顎の開き
の広い広顎有声音のうち、母音のaのような第1
ホルマントの高い音の短時間平均パワーを取り出
すフイルタである。次にFc1は、第1ホルマント
の低い広顎有声音のうち、母音のoのような第2
ホルマントの低い音の短時間平均パワーを取り出
すフイルタであり、Fc2は、同じく第1ホルマン
トの低い広顎有声音のうち、母音のeのような第
2ホルマントの高い音の短時間平均パワーを取り
出すフイルタである。さらにFd1は、顎の開きの
狭い狭顎有声音のうち、母音のuのような第2ホ
ルマントの低い音の短時間平均パワーを取り出す
フイルタであり、Fd2は母音のiのような第2ホ
ルマントの高い短時間平均パワーを取り出すフイ
ルタである。S0〜S4は差動増幅手段であり、それ
ぞれ差信号V/UV、Veao/Viu、Va/Veo、
Ve/Vo、Vi/Vuを算出するものである。差動
増幅手段S0の出力は比較手段C0において基準値
Rv,Ru(Rv<O<Ru)と比較され、差信号出力
が基準値Rvよりも小さい場合には有声音Vと判
定される。また上記差信号出力が基準値Ruより
も大きい場合には無声音Uと判定され、基準値
RuとRvとの間であれば無音Sと判定される。そ
して無音、有声音、および無声音の各場合につい
てS、V、Uの各符号のうちいずれか1つの符号
が記号化処理部MY0に入力される。MC0は、各
差動増幅手段S1〜S4の出力を入力とする行列計算
部であり、この行列計算部MC0は各差信号出力
Veao/Viu、Va/Veo、Ve/Vo、Vi/Vuを成
分とする4次元ベクトルに所定の行列Tvを乗算
して、音声入力中に含まれる各母音i、e、a、
o、uの短時間平均パワーを算出するものであ
る。第12図の構成においては、広顎有声音VH
と狭顎有声音VLとの比率を求める差動増幅手段
S5と、前舌有声音VFと後舌有声音VBとの比率
を求める差動増幅手段S6とを設けてあり、行列計
算部MC0ではこれらの各差動増幅手段S5,S6の
差信号出力VH/VLおよびVF/VBに所定の行
列Tcを乗算して、音声入力中に含まれる広顎有
声音h、狭顎有声音l、前舌有声音f、後舌有声
音b、およびその他の広顎かつ後舌有声音wのパ
ワーを算出するものである。行列計算部MC0に
おいて用いる行列Tv、Tcの一例を示せば、次式
のようになる。 行列計算部MC0の出力は最大値判定部MX0に
入力されて、各成分i、e、a、o、u、h、
l、f、b、wのうち最大の成分がどれであるか
を判定され、その最大の成分の符号が記号化処理
部MY0に入力される。ただし最大の成分と2番
目に大きい成分との差が小さいときには符号mが
出力される。記号化処理部MY0は、比較手段C0
から出力される符号がVであるときには、最大値
判定部MX0から出力されるi、e、a、o、u、
h、l、f、b、wおよびmのうちのいずれか1
つの符号を出力し、また比較手段C0から出力さ
れる符号がUまたはSであるときには、その符号
をそのまま出力するものである。この記号化処理
部MY0から出力される複合符号は、音声メツセ
ージの登録時には標準パターン記憶部に入力記憶
され、音声メツセージの認識時には入力パターン
記憶部に入力記憶されるものであり、照合処理時
には、予め登録された標準パターンのうち入力パ
ターンに最も近似する標準パターンを入力メツセ
ージとして識別するものである。 なお第12図の構成において、VH/VL差信
号およびVF/VB差信号は、それぞれVeao/
Viu差信号およびVe/Vo差信号で代用してもか
まわない。 第13図は8フイルタ方式の実施例構成を示す
ブロツク図である。上述の第12図の構成では、
Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2、
Ed1、Fd2の合計10個のフイルタを必要とするが、
第13図の構成では、このうち2つのフイルタを
兼用して8フイルタで音声の特徴を抽出できるよ
うにしたものである。第13図において、VFh
は前舌有声音の高域成分、VFは前舌有声音の成
分、VBは後舌有声音の成分、VHhは広顎有声音
の高域成分、VHlは広顎有声音の低域成分、VL
は狭顎有声音の成分をそれぞれ抽出するフイルタ
の出力である。そして第13図の実施例において
は、Veao/Viu差信号とVa/Veo差信号につい
てVLを共用し、またVe/Vo差信号とVi/Vu差
信号についてVB(又はVL)を共用したものであ
る。これは、フイルタ対の差信号の零点がフイル
タ帯域の交差点(クロスオーバ周波数)に対応す
るものであるため、差信号をとるフイルタ対のう
ち、片方のフイルタの帯域を固定しても、もう一
方のフイルタの帯域が2種類あれば、フイルタ帯
域の交差点が変わることになる。 ところで、第13図の実施例においては、
VHhとVBは、ほぼ同じであるので、1つのVB
にまとめたいが、第13図のままでは、VBから
3つの差信号を取り出すことになつて、フイルタ
対のバランス調整が困難になる。そこでVBを高
域成分VBhと全域成分VBとに分け、VFを1つ
にまとめて、7フイルタ方式とした例を第14図
に示す。この場合には、VBから2つの差信号を
抽出するだけであるのでフイルタのバランス調整
は簡単になる。また別な見方をすれば、第14図
の実施例は第5図従来例にVBhを加えたものと
も云える。第15図a,bは、第14図の7フイ
ルタ方式において各有声音の成分VL、VH、
VB、VBh、VFの短時間平均パワーを取り出す
ために用いるフイルタの周波数特性を示す図であ
り、同図aは横軸の周波数を均等目盛として描い
てあり、同図bは横軸の周波数を対数目盛として
描いてある。この第15図においてAPは後述す
る調整アンプの特性を示している。 第16図は6フイルタ方式の実施例である。す
なわち、上述の第14図実施例にあつては、
VBhの代わりにVHをとつても、母音のiとuの
識別は可能であるので、周波数成分ベクトルは、
UV、V、VF、VB、VH、VLの6成分(6フイ
ルタ)で構成することができるものである。この
第16図実施例は、別な見方をすれば第5図従来
例にVF/VH差信号を追加したものであり、フ
イルタ帯域もほぼ同じものが使える。ただし、
VF/VB差信号は、母音のeとoが確実に識別
できるように調整する。第17図a,bは、第1
6図の6フイルタ方式において各有声音の成分
VL、VH、VB、VFの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。この第15図においてAPは後
述する調整アンプの特性を示している。 第13図実施例の8フイルタ方式、第14図実
施例の7フイルタ方式、および第16図実施例の
6フイルタ方式における行列計算部MC0の変換
行列Tmとしては、〜式のようなものが使用
可能である。 まず式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、式は第1ホルマントF1に関する差信号に
対する5母音の要素をすべて同じ大きさの重み
(絶対値14)にすると共に、第2ホルマントF2に
関する2つの差信号に関しては、5母音に対し
て、どちらかに一個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものと云える。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。 特に、記号ベクトルの成分を5母音{i、e、
a、o、u}のみとする場合には、第12図の
Tvに相当する行列の要素は{+1,0,−1}の
いづれかで良いので、乗算を必要とせず符号変換
だけで、簡単な記号化が可能である。一方第12
図のTcに相当する符号{h,l,f,b,w}
の変換行列の要素は、このの行列の行ベクトルの
ノルムをTvの行ベクトルのノルムと同じにする
かTcの行ベクトルのノルムの値が、Tvの行ベク
トルのノルムの値より小さく、かつTvの行列の
要素の絶対値よりも大きくする。このようにしな
いと、5母音の各成分{i,e,a,o,u}よ
りもその他の有声音の成分{h,l,f,b,
w}の方が小さくなつてしまう。 次により具体的な実施例について説明する。第
18図は第14図の7フイルタ方式をより具体化
した実施例、第19図は第16図の6フイルタ方
式をより具体化した実施例を示しており、両者の
違いはフイルタFBhの有無のみである。上記各
実施例において、音声は、マイク1より入力さ
れ、プリアンプ2で増幅されて、調整アンプ3で
ゲインとオフセツトを調整される。次にレベル調
整器5ではV/UV差信号と他の差信号と他の差
信号との入力パワーのバランスをとる。(一般に、
V/UV差信号よりも他の差信号の方を強調す
る。)次に、V/UVバランス調整器4ではフイ
ルタFvの入力とフイルタFuの入力とのバランス
をとる。一方、VB/VLバランス調整器6を中
点に調整し、VH/VLバランス調整器7で、フ
イルタFHとフイルタFLの入力バランスをとり、
VF/VBバランス調整器8でフイルタFFとフイ
ルタFB(FBh)のバランスをとる。次にVB/VL
バランス調整器6で、VBとVLのバランスをと
る。第19図の構成では、VB/VLバランス調
整器6を調整するとVF/VHのバランスも同時
にとれている。 各フイルタの出力は、マルチプレクサ9で順次
切り換えながら対数変換器10で、パワーを対数
スケールに変換し、A/Dコンバータ11で8ビ
ツトの2進数にデイジタル化する。なお各フイル
タをデイジタルフイルタで構成する場合には、
A/Dコンバータ11は、調整アンプ3の次段に
来るもので、パイプライン方式で、各フイルタ計
算を順次行ない、一種のマルチプレクサ9のよう
に順々に各フイルタの出力が計算される。次に、
このデイジタル値の相互の差を計算し、差信号ベ
ルトル抽出部12で、差信号ベクトル{UV/
V、Veao/Viu、Va/Veo、Ve/Vo、Vi/
Vu}の5成分を計算する。 第20図乃至第23図は、第18図の実施例に
ついて、第8図乃至第11図の音声と同一の音声
を録音テープにより入力し、音声の特徴抽出を行
なつた結果を示しており、また第24図乃至27
図は、第19図の実施例について、同様に第8図
乃至第11図の音声と同一の音声を録音テープに
より入力し、音声の特徴抽出を行なつた結果を示
している。これらの第20図乃至第27図におい
ては、従来例のVF/VB差信号が、Ve/Vo差信
号とVi/Vu差信号の2本になり、また従来例の
VA/VU差信号が、Va/Veo差信号(図中では
a/oと略記)になつたものである。なお第20
図乃至第27図において、a/iでは、Veao/
Vin差信号を示している。しかして従来例では、
VF/VB差信号によるe、u、oの検出が差信
号の零点に近づいて弱くなり、e、u、oの記号
化がi、aに比べて困難であつたが、第20図乃
至第27図では、Ve/Vo差信号でe、oの検出
が確実になり、Vi/Vu差信号でuの検出が確実
になつたので、5母音の記号化が、より確実に行
なえることがわかる。特に第24図乃至第27図
では、Vi/Vu差信号が第20図乃至第23図よ
りも明確にiとuを識別しており、実施例に関す
る限り第18図のものよりも第19図の方が確実
に5母音を記号化していると云えるものである。 次に第18図および第19図に戻つて、V/
UV判定部13では、V/UV差信号がある設定
値RUより正のときUVと判定し、ある設定値RV
より負のときVと判定し、その中間をSと判定す
る。始端、終端検知部14では、V又はUVの判
定により音声の始端を検知し、無音がある設定値
以上のサンプル数の間、継続すると終端と検知す
る。 記号ベクトル変換部15は、第14図および第
16図で示したように行列演算で、記号ベクトル
{i,e,a,o,u,h,l,f,b,w}に
変換する。但し、行列演算はVの区間でのみ行な
うものである。記号化処理部16は、Vの区間で
は記号ベクトルの最大成分がある設定値以上の場
合にはその記号を出力し、設定値以下の場合には
mを出力する。またUVとSの区間では、それぞ
れUV、Sを出力する。 整形処理部17では、同じ記号の繰返しを一つ
の記号とその継続時間とのリストに直し、さらに
継続時間が、ある設定値より少ないものは、前後
の記号が同じ場合には、これらを一つのリストに
し、前後の記号が異なる場合には、前の記号に含
めるようにして、継続時間の短いものは省略す
る。 時間軸線型正規化処理部18は、各リストの継
続時間の合計が200(あるいは1000)といつた一定
値になるように、継続時間を正規化する。これ
は、従来例と同様に全サンプル値200(あるいは
1000)と継続時間との比率をそれぞれの継続時間
に掛け合わせると良い。この際、リストの数が少
ない(10〜20)ので、乗除算にはあまり時間をと
らない。 以上のプロセスで、本方式の音声パターンが、
作成できる。 この音声パターンは、登録モードでは、標準パ
ターン記憶部19に登録される。認識モードで
は、距離計算部20で、標準パターンと照合する
が、まずUVの数等で一次識別して、照合対象を
限定しておく。次に、距離テーブル21で、時間
軸上で対応する記号間の距離(相関値)を求め
て、これを、全サンプルについて合計したものを
パターン間の距離とする。距離テーブル21とし
ては第1表に示すようなものを用いるものであ
る。
【表】
第1表において、横の欄および縦の欄はそれぞ
れ標準パターンの符号および入力パターンの符号
に対応しており、例えば標準パターンの符号がa
であつて、しかも入力パターンの符号もaである
ときには、距離テーブル21の出力は2となり、
近似度が高いことを示すものである。また標準パ
ターンの符号がUVであり、入力パターンの符号
がaであるときには、距離テーブル21の出力は
−2となり、近似度が低いことを示すものであ
る。したがつて距離計算部20においては、距離
テーブル21からの出力を順次加算するだけの演
算操作により、入力パターンと標準パターンとの
パターン全体としての近似度を容易に計算するこ
とができるものである。 有意性検定部22は、距離の最も近いパターン
がある設定値より近く、さらに2番目に近いもの
より、ある設定値以上離れている場合に、この最
も近いパターンと入力パターンが同じとみなし、
他の場合には認識不良としてリジエクトする。認
識結果は識別結果出力部23より出力する。 次に第28図は、特許請求の範囲第2項に記載
された併合発明の構成を、機能的にブロツク化し
て示したいわゆるクレーム対応図であり、また第
29図は第28図の構成をさらに具体化した実施
例の構成を示すブロツク図である。上記各図にお
いて、S0、S1、S2、S3、S4はそれぞれ、UV/V
差信号、Veao/Viu差信号、Va/Veo差信号、
Ve/Vo差信号、Vi/Vu差信号を抽出するため
の差動増幅手段である。各差動増幅手段S0〜S4の
出力は、それぞれ比較器24〜33において所定
の基準レベルと比較され、各基準レベルとの大小
関係に応じてそれぞれ別々の符号を割り当てられ
る。まず比較器24,25は、差動増幅手段S0の
出力が正の一定値以上であるときには符号UVを
割り当て、負の一定値以下であるときには符号V
を割り当て、その他の場合には符号Sを割り当て
るものである。次に比較器26,27は、差動増
幅手段S1の出力が正の一定値以上であるときには
符号Veaoを割り当て、負の一定値以下であると
きには符号Viuを割り当て、その他の場合には符
号Sを割り当てるものである。また比較器28,
29は、差動増幅手段S2の出力が正の一定値以上
であるときには符号Vaを割り当て、負の一定値
以下であるときには符号Veoを割り当て、その他
の場合には符号Sを割り当てるものである。次に
比較器30,31は、差動増幅手段S3の出力が正
の一定値以上であるときには符号Veを割り当て、
負の一定値以下であるときには符号Voを割り当
て、その他の場合には符号Sを割り当てるもので
ある。さらに比較器32,33は、差動増幅手段
S4の出力が正の一定値以上であるときには符号
Viを割り当て、負の一定値以下であるときには
符号Vuを割り当て、その他の場合には符号Sを
割り当てるものである。各比較器26〜33の出
力は入力ビツトパターンレジスタ34に一時記憶
され、V記号化処理部35において記号化テーブ
ル36を参照しながら、第12図の場合と同様
に、符号a、e、o、i、u、h、l、f、b、
w、mのうちのいずれか1つの符号に変換され
る。記号化テーブル36の一例を示すと、第2表
のようになる。
れ標準パターンの符号および入力パターンの符号
に対応しており、例えば標準パターンの符号がa
であつて、しかも入力パターンの符号もaである
ときには、距離テーブル21の出力は2となり、
近似度が高いことを示すものである。また標準パ
ターンの符号がUVであり、入力パターンの符号
がaであるときには、距離テーブル21の出力は
−2となり、近似度が低いことを示すものであ
る。したがつて距離計算部20においては、距離
テーブル21からの出力を順次加算するだけの演
算操作により、入力パターンと標準パターンとの
パターン全体としての近似度を容易に計算するこ
とができるものである。 有意性検定部22は、距離の最も近いパターン
がある設定値より近く、さらに2番目に近いもの
より、ある設定値以上離れている場合に、この最
も近いパターンと入力パターンが同じとみなし、
他の場合には認識不良としてリジエクトする。認
識結果は識別結果出力部23より出力する。 次に第28図は、特許請求の範囲第2項に記載
された併合発明の構成を、機能的にブロツク化し
て示したいわゆるクレーム対応図であり、また第
29図は第28図の構成をさらに具体化した実施
例の構成を示すブロツク図である。上記各図にお
いて、S0、S1、S2、S3、S4はそれぞれ、UV/V
差信号、Veao/Viu差信号、Va/Veo差信号、
Ve/Vo差信号、Vi/Vu差信号を抽出するため
の差動増幅手段である。各差動増幅手段S0〜S4の
出力は、それぞれ比較器24〜33において所定
の基準レベルと比較され、各基準レベルとの大小
関係に応じてそれぞれ別々の符号を割り当てられ
る。まず比較器24,25は、差動増幅手段S0の
出力が正の一定値以上であるときには符号UVを
割り当て、負の一定値以下であるときには符号V
を割り当て、その他の場合には符号Sを割り当て
るものである。次に比較器26,27は、差動増
幅手段S1の出力が正の一定値以上であるときには
符号Veaoを割り当て、負の一定値以下であると
きには符号Viuを割り当て、その他の場合には符
号Sを割り当てるものである。また比較器28,
29は、差動増幅手段S2の出力が正の一定値以上
であるときには符号Vaを割り当て、負の一定値
以下であるときには符号Veoを割り当て、その他
の場合には符号Sを割り当てるものである。次に
比較器30,31は、差動増幅手段S3の出力が正
の一定値以上であるときには符号Veを割り当て、
負の一定値以下であるときには符号Voを割り当
て、その他の場合には符号Sを割り当てるもので
ある。さらに比較器32,33は、差動増幅手段
S4の出力が正の一定値以上であるときには符号
Viを割り当て、負の一定値以下であるときには
符号Vuを割り当て、その他の場合には符号Sを
割り当てるものである。各比較器26〜33の出
力は入力ビツトパターンレジスタ34に一時記憶
され、V記号化処理部35において記号化テーブ
ル36を参照しながら、第12図の場合と同様
に、符号a、e、o、i、u、h、l、f、b、
w、mのうちのいずれか1つの符号に変換され
る。記号化テーブル36の一例を示すと、第2表
のようになる。
本発明は叙上のように構成されており、音声入
力から母音のア、エ、オのような顎の開きの広い
広顎有声音と、母音のイ、ウのような顎の開きの
狭い狭顎有声音との比率を求める第1のフイルタ
対と、広顎有声音のうち母音のアのような第1ホ
ルマントの高い音と、母音のエ、オのような第1
ホルマントの低い音との比率を求める第2のフイ
ルタ対と、第1ホルマントの低い広顎有声音のう
ち音声のエのような第2ホルマントの高い音と、
母音のオのような第2ホルマントの低い音との比
率を求める第3のフイルタ対と、狭顎有声音のう
ち母音のイのような第2ホルマントの高い音と、
母音のウのような第2ホルマントの低い音との比
率を求める第4のフイルタ対とを設け、第1乃至
第4のフイルタ対の差信号出力から音声の特徴を
抽出するようにしたものであるから、母音の第2
ホルマントの特徴を確実に抽出できるようにな
り、日本語の5母音のうち、特に従来不完全であ
つたe、u、oの識別を確実に行なうことができ
て、5母音のより完全な記号化が可能となり、ま
た第2ホルマントの抽出に際して、従来のような
無理な抽出の仕方をしていないので、フイルタ対
の差信号出力の話者による零点補正量を少なくで
きるという効果がある。また本発明にあつては、
上記各フイルタ対の差信号出力を成分とする4次
元ベクトルを入力とし、この4次元ベクトルに変
換行列を乗算して日本語の5母音およびその他の
有声音の短時間平均パワーを各成分とするベクト
ルを算出する行列計算部を設け、行列計算部から
出力されるベクトルの各成分のうちの最大の成分
に対応する符号を出力する最大値判定部を設け、
比較手段の出力および最大値判定部の出力にて入
力パターンを形成するようにしたものであるか
ら、行列計算部や最大値判定部のような比較的汎
用性の高い手段を用いて5母音およびその他の有
声音の符号を得ることができ、装置の構成が簡単
になるという効果もある。さらにまた、併合発明
にあつては、第1乃至第4のフイルタ対の差信号
出力複数の基準値と比較して、この基準値との大
小関係に応じてそれぞれ別々の符号を割り当て
て、各フイルタ対ごとに割り当てられた符号のす
べての組合せに応じて、日本語の5母音およびそ
の他の有声音の符号のうちいずれか1つの符号を
割り当てて出力する有声音判別手段を設けたもの
であるから、ROMテーブルなどを用いて、簡単
な構成で、しかも高速度で有声音の判別を行なう
ことができるという効果があり、電子機器を音声
メツセージによつて操作する際の応答速度を早く
し、かつ安価に構成できるという効果がある。
力から母音のア、エ、オのような顎の開きの広い
広顎有声音と、母音のイ、ウのような顎の開きの
狭い狭顎有声音との比率を求める第1のフイルタ
対と、広顎有声音のうち母音のアのような第1ホ
ルマントの高い音と、母音のエ、オのような第1
ホルマントの低い音との比率を求める第2のフイ
ルタ対と、第1ホルマントの低い広顎有声音のう
ち音声のエのような第2ホルマントの高い音と、
母音のオのような第2ホルマントの低い音との比
率を求める第3のフイルタ対と、狭顎有声音のう
ち母音のイのような第2ホルマントの高い音と、
母音のウのような第2ホルマントの低い音との比
率を求める第4のフイルタ対とを設け、第1乃至
第4のフイルタ対の差信号出力から音声の特徴を
抽出するようにしたものであるから、母音の第2
ホルマントの特徴を確実に抽出できるようにな
り、日本語の5母音のうち、特に従来不完全であ
つたe、u、oの識別を確実に行なうことができ
て、5母音のより完全な記号化が可能となり、ま
た第2ホルマントの抽出に際して、従来のような
無理な抽出の仕方をしていないので、フイルタ対
の差信号出力の話者による零点補正量を少なくで
きるという効果がある。また本発明にあつては、
上記各フイルタ対の差信号出力を成分とする4次
元ベクトルを入力とし、この4次元ベクトルに変
換行列を乗算して日本語の5母音およびその他の
有声音の短時間平均パワーを各成分とするベクト
ルを算出する行列計算部を設け、行列計算部から
出力されるベクトルの各成分のうちの最大の成分
に対応する符号を出力する最大値判定部を設け、
比較手段の出力および最大値判定部の出力にて入
力パターンを形成するようにしたものであるか
ら、行列計算部や最大値判定部のような比較的汎
用性の高い手段を用いて5母音およびその他の有
声音の符号を得ることができ、装置の構成が簡単
になるという効果もある。さらにまた、併合発明
にあつては、第1乃至第4のフイルタ対の差信号
出力複数の基準値と比較して、この基準値との大
小関係に応じてそれぞれ別々の符号を割り当て
て、各フイルタ対ごとに割り当てられた符号のす
べての組合せに応じて、日本語の5母音およびそ
の他の有声音の符号のうちいずれか1つの符号を
割り当てて出力する有声音判別手段を設けたもの
であるから、ROMテーブルなどを用いて、簡単
な構成で、しかも高速度で有声音の判別を行なう
ことができるという効果があり、電子機器を音声
メツセージによつて操作する際の応答速度を早く
し、かつ安価に構成できるという効果がある。
第1図は日本語の5母音の標準スペクトルを示
す図、第2図は母音のホルマントの男女差を示す
図、第3図は母音の第1ホルマントと第2ホルマ
ントの分布を示す図、第4図は日本語の5母音と
舌の位置の関係を示す図、第5図は従来例の構成
を示すブロツク図、第6図a,bは同上に用いる
フイルタの周波数特性を示す図、第7図は従来例
における擬音韻記号化処理の手順を示すフローチ
ヤート、第8図乃至第11図は同上の動作説明
図、第12図は本発明の要旨となる構成を示すク
レーム対応ブロツク図、第13図は本発明の一実
施例のブロツク図、第14図は同上の他の実施例
のブロツク図、第15図a,bは同上に用いるフ
イルタの周波数特性を示す図、第16図は同上の
さらに他の実施例のブロツク図、第17図a,b
は同上に用いるフイルタの周波数特性を示す図、
第18図は同上の別の実施例を示すブロツク図、
第19図は同上のさらに別の実施例を示すブロツ
ク図、第20図乃至第23図は第18図実施例の
動作説明図、第24図乃至第27図は第19図実
施例の動作説明図、第28図は併合発明の要旨と
なる構成を示すクレーム対応ブロツク図、第29
図は同上の一実施例のブロツク図、第30図は同
上の擬音韻記号化処理の手順を示すフローチヤー
トである。 Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2、
Fd1、Fd2はフイルタ、S0〜S4は差動増幅手段、
C0は比較手段、MC0は行列計算部、MX0は最大
値判定部、24〜33は比較器、36は記号化テ
ーブルである。
す図、第2図は母音のホルマントの男女差を示す
図、第3図は母音の第1ホルマントと第2ホルマ
ントの分布を示す図、第4図は日本語の5母音と
舌の位置の関係を示す図、第5図は従来例の構成
を示すブロツク図、第6図a,bは同上に用いる
フイルタの周波数特性を示す図、第7図は従来例
における擬音韻記号化処理の手順を示すフローチ
ヤート、第8図乃至第11図は同上の動作説明
図、第12図は本発明の要旨となる構成を示すク
レーム対応ブロツク図、第13図は本発明の一実
施例のブロツク図、第14図は同上の他の実施例
のブロツク図、第15図a,bは同上に用いるフ
イルタの周波数特性を示す図、第16図は同上の
さらに他の実施例のブロツク図、第17図a,b
は同上に用いるフイルタの周波数特性を示す図、
第18図は同上の別の実施例を示すブロツク図、
第19図は同上のさらに別の実施例を示すブロツ
ク図、第20図乃至第23図は第18図実施例の
動作説明図、第24図乃至第27図は第19図実
施例の動作説明図、第28図は併合発明の要旨と
なる構成を示すクレーム対応ブロツク図、第29
図は同上の一実施例のブロツク図、第30図は同
上の擬音韻記号化処理の手順を示すフローチヤー
トである。 Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2、
Fd1、Fd2はフイルタ、S0〜S4は差動増幅手段、
C0は比較手段、MC0は行列計算部、MX0は最大
値判定部、24〜33は比較器、36は記号化テ
ーブルである。
Claims (1)
- 【特許請求の範囲】 1 音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第1のフイルタ対と、広顎有声音のうち母
音のアのような第1ホルマントの高い音と、母音
のエ、オのような第1ホルマントの低い音との比
率を求める第2のフイルタ対と、第1ホルマント
の低い広顎有声音のうち母音のエような第2ホル
マントの高い音と、母音のオのような第2ホルマ
ントの低い音との比率を求める第3のフイルタ対
と、狭顎有声音のうち母音のイのような第2ホル
マントの高い音と、母音のウのような第2ホルマ
ントの低い音との比率を求める第4のフイルタ対
とを設け、第1乃至第4のフイルタ対の差信号出
力を成分とする4次元ベクトルを入力とし、この
4次元ベクトルに変換行列を乗算して日本語の5
母音およびその他の有声音の短時間平均パワーを
各成分とするベクトルを算出する行列計算部を設
け、行列計算部から出力されるベクトルの各成分
のうち最大の成分に対応する符号を出力する最大
値判定部を設け、比較手段の出力および最大値判
定部の出力にて入力パターンを形成し、この入力
パターンを予め記録されている複数種の標準パタ
ーンと照合して入力パターンに最も近い標準パタ
ーンを入力メツセージとして識別することを特徴
とする音声メツセージ識別方式。 2 音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第1のフイルタ対と、広顎有声音のうち母
音のアのような第1ホルマント対の高い音と、母
音のエ、オのような第1ホルマントの低い音との
比率を求める第2のフイルタ対と、第1ホルマン
トの低い広顎有声音のうち母音のエのような第2
ホルマントの高い音と、母音のオのような第2ホ
ルマントの低い音との比率を求める第3のフイル
タ対と、狭顎有声音のうち母音のイのような第2
ホルマントの高い音と、母音のウのような第2ホ
ルマントの低い音との比率を求める第4のフイル
タ対とを設け、第1乃至第4のフイルタ対の差信
号出力を複数の基準値と比較して、この基準値と
の大小関係に応じてそれぞれ別々の符号を割り当
てて、各フイルタ対ごとに割り当てられた符号の
すべての組合せに応じて、日本語の5母音および
その他の有声音の符号のうちいずれか1つの符号
を割り当てて出力する有声音判別手段を設け、有
声音判別手段の出力および上記比較手段の出力に
て入力パターンを形成し、この入力パターンを予
め記録されている複数種の標準パターンと照合し
て入力パターンに最も近い標準パターンを入力メ
ツセージとして識別することを特徴とする音声メ
ツセージ識別方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6726183A JPS59192298A (ja) | 1983-04-15 | 1983-04-15 | 音声メツセ−ジ識別方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6726183A JPS59192298A (ja) | 1983-04-15 | 1983-04-15 | 音声メツセ−ジ識別方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59192298A JPS59192298A (ja) | 1984-10-31 |
| JPH02720B2 true JPH02720B2 (ja) | 1990-01-09 |
Family
ID=13339835
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6726183A Granted JPS59192298A (ja) | 1983-04-15 | 1983-04-15 | 音声メツセ−ジ識別方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59192298A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5082760B2 (ja) * | 2007-10-23 | 2012-11-28 | ヤマハ株式会社 | 音制御装置およびプログラム |
-
1983
- 1983-04-15 JP JP6726183A patent/JPS59192298A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59192298A (ja) | 1984-10-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6922668B1 (en) | Speaker recognition | |
| JPS5944639B2 (ja) | 音声による異同認識方式における標準パタ−ン更新方法 | |
| JPS6247320B2 (ja) | ||
| US4509186A (en) | Method and apparatus for speech message recognition | |
| JP2955297B2 (ja) | 音声認識システム | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JPH0229232B2 (ja) | ||
| JPH02720B2 (ja) | ||
| JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
| JPH0230520B2 (ja) | Onseimetsuseejishikibetsuhoshiki | |
| JP3457578B2 (ja) | 音声合成を用いた音声認識装置および音声認識方法 | |
| JPH02717B2 (ja) | ||
| JP2658104B2 (ja) | 音声認識装置 | |
| JPS6331798B2 (ja) | ||
| JPH0534679B2 (ja) | ||
| JPS63220199A (ja) | 音声認識装置 | |
| JPS6336678B2 (ja) | ||
| JPS6245560B2 (ja) | ||
| JPS58137900A (ja) | 音声メツセ−ジ識別方式 | |
| JPS5936759B2 (ja) | 音声認識方法 | |
| JPH0316038B2 (ja) | ||
| JPH0124320B2 (ja) | ||
| JPS59189398A (ja) | 連続音声認識方式 | |
| JPS5977500A (ja) | 単語音声認識方式 | |
| JPS61174600A (ja) | 音声認識装置 |