JPH02720B2

JPH02720B2 -

Info

Publication number: JPH02720B2
Application number: JP6726183A
Authority: JP
Inventors: Hiroyoshi Yuasa; Koichi Oomura
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1983-04-15
Filing date: 1983-04-15
Publication date: 1990-01-09
Also published as: JPS59192298A

Description

【発明の詳細な説明】

〔技術分野〕本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。〔背景技術〕第１図乃至第４図は日本語の５母音の特徴を示
す資料である。まず音声は音韻に対応して、第１
図に示したような周波数スペクトル包絡を有し、
音声の周波数スペクトル分析により、このスペク
トル包絡線のピークに相当するホルマント周波数
を求め周波数の低い方から第１ホルマントF₁、
第２ホルマントF₂，……と順に表わせば、５母
音は、第２図に示したようなF₁〜F₄の変化カー
ブで表わせる。このホルマント周波数の分布をF₁，F₂座標軸
上で調べたものを第３図に示した。この第３図か
らもわかるような日本語の５母音を線型識別する
ためには、第１〜第３ホルマントを正しく求めな
いとできないと云われている。我々は、ごく少数の限定された単語ないしは、
文章を識別する装置をローコストに製作するた
め、完全ではなくともおおよそ５母音に似た擬音
韻に記号化する方式を検討した。第５図は従来本発明者らが開発した音声メツセ
ージ識別装置の概略構成を示している。同図にお
いて、Ｖは音声入力中、Ｏ〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、Ｕは音声入力中、５
〜12KHzの周波数帯域の短時間平均パワーを示し
ており、無声音のエネルギに対応している。さら
に、VL、VH、VB、VFはそれぞれ音声入力中、
０〜0.4KHz、0.4〜0.8KHz、0.8〜1.8KHzおよび
1.8〜3.2KHzの周波数帯域の短時間平均パワーを
示しており、それぞれ、狭顎音、広顎音、後舌
音、および前舌音のエネルギーに対応している。
S₀〜S₃は差動増幅手段であり、それぞれ差信号
UV／Ｖ、VH／VL、VB／VLおよびVF／VBを
算出するものである。差動増幅手段S₀の出力は比
較手段C₀において基準値Rv、Ru（Rv＜Ｏ＜Ru）
と比較され、差信号出力が基準値Rvよりも小さ
い場合には有声音Ｖと判定される。また上記信号
出力が基準値Ruよりも大きい場合には無声音Ｕ
と判定され、基準値RuとRvとの間であれば無音
Ｓと判定される。そして無音、有声音、および無
声音の各場合についてＳ、Ｖ、Ｕの各符号のうち
いずれか１つの符号が記号化処理部MY₀入力さ
れる。また、MC₀は、各差動増幅手段S₁〜S₃の
出力を入力とする行列計算部であり、この行列計
算部MC₀は各差信号出力VH／VL、VB／VL、
およびVF／VBを成分とする３次元ベクトルに
所定の行列Tmを乗算して、音声入力中に含まれ
る各母音／ａ／、／ｉ／、／ｕ／、／ｅ／、／
ｏ／の短時間平均パワーVa、Vi、Vu、Ve、Vo
並びに広顎有声音、狭顎有声音、前舌有声音、後
舌有声音、母音／ａ／と／ｏ／の中間的な有声音
の各短時間平均パワーVh、Vl、Vf、Vb、Vwを
算出するもののである。行列計算部MC₀の出力
は最大値判定部MX₀に入力されて、各成分Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vwのうち最
大の成分がどれであるかを判定され、その最大の
成分の符号が記号化処理部MY₀に入力される。
記号化処理部MY₀は、比較手段C₀から出力され
る符号がＶであるときには、最大値判定部MX₀
から出力されるVa、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、およびVwのうちのいずれか１つ
の符号を出力し、また比較手段C₀から出力され
る符号がＵまたはＳであるときには、その符号を
そのまま出力するものである。この記号化処理部
MY₀から出力される複合符号は、音声メツセー
ジの登録時には標準パターン記憶部に入力記憶さ
れ、音声メツセージの認識時には入力パターン記
憶部に入力記憶されるものであり、照合処理時に
は、予め登録された標準パターンのうち入力パタ
ーンに最も近似する標準パターンを入力メツセー
ジとして識別するものである。ところで第５図従来例において、VHとVLの
パワーのバランスを調整すると、差信号の零点を
境界にして、正側に５母音の｛ｅ，ａ，ｏ｝、負
側に｛ｉ，ｕ｝が位置し、したがつてVH／VL
差信号は、Veao／Viu差信号と云うべき信号に
なる。次に、VFとVBのパワーのバランスを調
整すると、差信号の零点を境界にして、正側に５
母音の｛ｉ，ｅ｝、負側に５母音の｛ａ，ｏ，ｕ｝
が位置し、VF／VB差信号はVie／Vaou差信号
と云うべき信号になる。一方、VB／VL差信号
のバランスを調整すると、差信号の零点を境界に
して、正側に５母音の｛ａ｝、負側に５母音の
｛ｏ｝が位置し、したがつてVB／VL差信号は
Va／Vo差信号と云うべき信号になる。第６図ａ，ｂは第５図従来例において各有声音
VH、VL、VF、VBの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図ａは横軸の周波数を均等目盛として
描いてあり、同図ｂは横軸の周波数を対数目盛と
して描いてある。なお第６図において、APは後
述する調整アンプの特性を示している。第７図は第５図従来例における行列計算部
MC₀および最大値判定部MX₀と同じ機能を実現
する別の手段を示すものである。この第７図は、
各差信号Veao／Viu、Va／Vo、Vie／Vaouの
レベルを高レベル（Ｈ）、中レベル（Ｍ）、および
低レベル（Ｌ）の３値で表わした場合における擬
音韻判別フローを示している。同図のフローで
は、まず第一段階では第１ホルマントF₁に対応
したVeao／Viu差信号で判別し、第二段階では
第２ホルマントF₂に対応したVie／Vaou差信号
で判別し、第三段階でVa／Vo差信号で判別する
ことにより、｛ｉ，ｅ，ａ，ｏ，ｕ，ｈ，ｌ，ｆ，
ｂ，ｗ，ｍ｝の11種類に有声音を記号化するもの
である。第８図乃至第１１図は第５図従来例において、
５母音／ｉ／、／ｅ／、／ａ／、／ｏ／、／ｕ／
を入力した場合における差動増幅手段S₀〜S₃の出
力信号波形を示している。上記各図において、
Ｕ／Ｖ信号、Ｈ／Ｌ信号、Ｆ／Ｂ信号、Ａ／Ｏ信
号はそれぞれ差動増幅手段S₀〜S₃の出力を示して
いる。またSYMは各有声音の区別を示しており、
例えば第８図において、ｌ、ｉ、ｆ、ｅ，……な
どは、有声音Vl、Vi、Vf、Ve、……をそれぞれ
示している。ただし、符号ｍは各有声音Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vb、Vwのう
ち、いずれにも該当しない有声音Vmを示してい
る。しかして第８図および第９図は相異なる男性
の被験者二人について測定した例を示しており、
第１０図および第１１図は女性の被験者二人につ
いて測定した例を示している。上記各図を見れ
ば、話者によらず、ほぼ同じ特徴を抽出している
ことがわかるが、母音の／ｅ／音と／ｕ／音と／
ｏ／音の記号化は、フイルタの調整にノウハウが
あつて、記号化が若干不完全である。ところで、上述の母音の第１ホルマントF₁と、
第２ホルマントF₂の分布を示す第３図と舌の調
音位置を表わす第４図とを比較すると、第１ホル
マントF₁は、顎が広く開いていると／ａ／のよ
うに高い周波数になり、顎が狭く開いていると／
ｉ／のように低い周波数になるので、ほぼ顎の広
狭に対応していることがわかる。一方、第２ホル
マントF₂は、同様に舌の位置の前後にほぼ対応
していることがわかる。また第２図および第３図
を見れば、母音の第２ホルマントは男性と女性と
でばらつきが大きいことがわかる。しかるに従来
例にあつては、かかる第２ホルマントをVF／
VB差信号のみで分離しているものであるから、
特に母音の｛ｅ｝と｛ｏ，ｕ｝の分離が不完全に
なるという問題があつた。つまり、VF／VB差
信号では、第８図乃至第１１図において５母音の
なかで／ｕ／に対応する部分が負側にもつと大き
く検出されたいが、これが弱く、また／ｅ／に対
応する部分や／ｏ／に対応する部分の後半も弱い
ことがわかり、これが記号化を不確実にする要因
となつている。かかる不完全さを解消するため
に、従来、５母音を発声したときの差信号のずれ
を個人別にオフセツトとして求めて補正する方式
を提案したが、それでもこのようなオフセツト調
整はなるべく無い方がよいし、またオフセツト量
が少ない方が望ましいことは云うまでもない。そ
れにも拘らず、従来例にあつては上述のようにば
らつきの大きい第２ホルマントをVF／VB差信
号のみで分離しているので、フイルタ対の差信号
出力の零点補正のオフセツトがかなり大きくな
り、場合によつては完全に補正できないおそれが
あつた。またこのような差信号出力の零点補正を
行なわない場合には、実際の発声と擬音韻の記号
との相違のため、識別単語数の減少の低下をまね
くという欠点があつた。このため、不特定話者用
としては、成分数等で著しく制限を受けるという
ことにもなつた。〔発明の目的〕本発明は上述の点に鑑みて為されたものであ
り、母音の第２ホルマントの特徴を確実に抽出で
きるようにして、５母音のより完全な記号化を可
能とし、またフイルタ対の差信号出力の話者によ
る零点補正量を少なくできるようにした音声メツ
セージ識別方式を提供することを目的とするもの
である。〔発明の開示〕第１２図は、本発明の特許請求の範囲第１項に
記載された構成を機能的にブロツク化して示した
いわゆるクレーム対応図である。同図において、
Fvは音声入力の低周波成分の短時間平均パワー
を取り出すフイルタであり、Fuは音声入力の高
周波成分を取り出すフイルタである。各フイルタ
Fv、Fuの出力は差動増幅手段S₀に入力されて、
差信号成分を抽出される。C₀は比較手段であり、
上記差動増幅手段S₀から出力される差信号成分
が、基準値Rvよりも小さいときには有声音Ｖの
符号を割り当て、基準値Ruよりも大きいときに
は無声音UVの符号を割り当て、それ以外の場合
には無音Ｓの符号を割り当てるもである。ただ
し、Ru＞Ｏ＞Rvである。次にFFa₁は有声音のう
ち顎の開きの狭い狭顎有声音（母音のｉ、ｕな
ど）の短時間平均パワーを取り出すフイルタであ
り、Fa₂は有声音のうち顎の開きの広い広顎有声
音（母音のｅ、ａ、ｏなど）の短時間平均パワー
を取り出すフイルタである。次に、Fb₁は顎の開
きの広い広顎有声音のうち、母音のｅ、ｏのよう
な第１ホルマントの低い音の短時間平均パワーを
取り出すフイルタであり、Fb₂は同じく顎の開き
の広い広顎有声音のうち、母音のａのような第１
ホルマントの高い音の短時間平均パワーを取り出
すフイルタである。次にFc₁は、第１ホルマント
の低い広顎有声音のうち、母音のｏのような第２
ホルマントの低い音の短時間平均パワーを取り出
すフイルタであり、Fc₂は、同じく第１ホルマン
トの低い広顎有声音のうち、母音のｅのような第
２ホルマントの高い音の短時間平均パワーを取り
出すフイルタである。さらにFd₁は、顎の開きの
狭い狭顎有声音のうち、母音のｕのような第２ホ
ルマントの低い音の短時間平均パワーを取り出す
フイルタであり、Fd₂は母音のｉのような第２ホ
ルマントの高い短時間平均パワーを取り出すフイ
ルタである。S₀〜S₄は差動増幅手段であり、それ
ぞれ差信号Ｖ／UV、Veao／Viu、Va／Veo、
Ve／Vo、Vi／Vuを算出するものである。差動
増幅手段S₀の出力は比較手段C₀において基準値
Rv，Ru（Rv＜Ｏ＜Ru）と比較され、差信号出力
が基準値Rvよりも小さい場合には有声音Ｖと判
定される。また上記差信号出力が基準値Ruより
も大きい場合には無声音Ｕと判定され、基準値
RuとRvとの間であれば無音Ｓと判定される。そ
して無音、有声音、および無声音の各場合につい
てＳ、Ｖ、Ｕの各符号のうちいずれか１つの符号
が記号化処理部MY₀に入力される。MC₀は、各
差動増幅手段S₁〜S₄の出力を入力とする行列計算
部であり、この行列計算部MC₀は各差信号出力
Veao／Viu、Va／Veo、Ve／Vo、Vi／Vuを成
分とする４次元ベクトルに所定の行列Tvを乗算
して、音声入力中に含まれる各母音ｉ、ｅ、ａ、
ｏ、ｕの短時間平均パワーを算出するものであ
る。第１２図の構成においては、広顎有声音VH
と狭顎有声音VLとの比率を求める差動増幅手段
S₅と、前舌有声音VFと後舌有声音VBとの比率
を求める差動増幅手段S₆とを設けてあり、行列計
算部MC₀ではこれらの各差動増幅手段S₅，S₆の
差信号出力VH／VLおよびVF／VBに所定の行
列Tcを乗算して、音声入力中に含まれる広顎有
声音ｈ、狭顎有声音ｌ、前舌有声音ｆ、後舌有声
音ｂ、およびその他の広顎かつ後舌有声音ｗのパ
ワーを算出するものである。行列計算部MC₀に
おいて用いる行列Tv、Tcの一例を示せば、次式
のようになる。行列計算部MC₀の出力は最大値判定部MX₀に
入力されて、各成分ｉ、ｅ、ａ、ｏ、ｕ、ｈ、
ｌ、ｆ、ｂ、ｗのうち最大の成分がどれであるか
を判定され、その最大の成分の符号が記号化処理
部MY₀に入力される。ただし最大の成分と２番
目に大きい成分との差が小さいときには符号ｍが
出力される。記号化処理部MY₀は、比較手段C₀
から出力される符号がＶであるときには、最大値
判定部MX₀から出力されるｉ、ｅ、ａ、ｏ、ｕ、
ｈ、ｌ、ｆ、ｂ、ｗおよびｍのうちのいずれか１
つの符号を出力し、また比較手段C₀から出力さ
れる符号がＵまたはＳであるときには、その符号
をそのまま出力するものである。この記号化処理
部MY₀から出力される複合符号は、音声メツセ
ージの登録時には標準パターン記憶部に入力記憶
され、音声メツセージの認識時には入力パターン
記憶部に入力記憶されるものであり、照合処理時
には、予め登録された標準パターンのうち入力パ
ターンに最も近似する標準パターンを入力メツセ
ージとして識別するものである。なお第１２図の構成において、VH／VL差信
号およびVF／VB差信号は、それぞれVeao／
Viu差信号およびVe／Vo差信号で代用してもか
まわない。第１３図は８フイルタ方式の実施例構成を示す
ブロツク図である。上述の第１２図の構成では、
Fv、Fu、Fa₁、Fa₂、Fb₁、Fb₂、Fc₁、Fc₂、
Ed₁、Fd₂の合計10個のフイルタを必要とするが、
第１３図の構成では、このうち２つのフイルタを
兼用して８フイルタで音声の特徴を抽出できるよ
うにしたものである。第１３図において、VFh
は前舌有声音の高域成分、VFは前舌有声音の成
分、VBは後舌有声音の成分、VHhは広顎有声音
の高域成分、VHlは広顎有声音の低域成分、VL
は狭顎有声音の成分をそれぞれ抽出するフイルタ
の出力である。そして第１３図の実施例において
は、Veao／Viu差信号とVa／Veo差信号につい
てVLを共用し、またVe／Vo差信号とVi／Vu差
信号についてVB（又はVL）を共用したものであ
る。これは、フイルタ対の差信号の零点がフイル
タ帯域の交差点（クロスオーバ周波数）に対応す
るものであるため、差信号をとるフイルタ対のう
ち、片方のフイルタの帯域を固定しても、もう一
方のフイルタの帯域が２種類あれば、フイルタ帯
域の交差点が変わることになる。ところで、第１３図の実施例においては、
VHhとVBは、ほぼ同じであるので、１つのVB
にまとめたいが、第１３図のままでは、VBから
３つの差信号を取り出すことになつて、フイルタ
対のバランス調整が困難になる。そこでVBを高
域成分VBhと全域成分VBとに分け、VFを１つ
にまとめて、７フイルタ方式とした例を第１４図
に示す。この場合には、VBから２つの差信号を
抽出するだけであるのでフイルタのバランス調整
は簡単になる。また別な見方をすれば、第１４図
の実施例は第５図従来例にVBhを加えたものと
も云える。第１５図ａ，ｂは、第１４図の７フイ
ルタ方式において各有声音の成分VL、VH、
VB、VBh、VFの短時間平均パワーを取り出す
ために用いるフイルタの周波数特性を示す図であ
り、同図ａは横軸の周波数を均等目盛として描い
てあり、同図ｂは横軸の周波数を対数目盛として
描いてある。この第１５図においてAPは後述す
る調整アンプの特性を示している。第１６図は６フイルタ方式の実施例である。す
なわち、上述の第１４図実施例にあつては、
VBhの代わりにVHをとつても、母音のｉとｕの
識別は可能であるので、周波数成分ベクトルは、
UV、Ｖ、VF、VB、VH、VLの６成分（６フイ
ルタ）で構成することができるものである。この
第１６図実施例は、別な見方をすれば第５図従来
例にVF／VH差信号を追加したものであり、フ
イルタ帯域もほぼ同じものが使える。ただし、
VF／VB差信号は、母音のｅとｏが確実に識別
できるように調整する。第１７図ａ，ｂは、第１
６図の６フイルタ方式において各有声音の成分
VL、VH、VB、VFの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図ａは横軸の周波数を均等目盛として
描いてあり、同図ｂは横軸の周波数を対数目盛と
して描いてある。この第１５図においてAPは後
述する調整アンプの特性を示している。第１３図実施例の８フイルタ方式、第１４図実
施例の７フイルタ方式、および第１６図実施例の
６フイルタ方式における行列計算部MC₀の変換
行列Tmとしては、〜式のようなものが使用
可能である。まず式の変換行列Tmは、識別に最低限必要
な要素以外は０にして、計算を速くできるように
したもので、式は、要素の絶対値が８の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く５母音の記号化が可能になるようにしたもの
で、式は第１ホルマントF₁に関する差信号に
対する５母音の要素をすべて同じ大きさの重み
（絶対値14）にすると共に、第２ホルマントF₂に
関する２つの差信号に関しては、５母音に対し
て、どちらかに一個づつ識別に必要な重みをつけ
たもので、第１ホルマントF₁を第２ホルマント
F₂より重要視したものと云える。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。特に、記号ベクトルの成分を５母音｛ｉ、ｅ、
ａ、ｏ、ｕ｝のみとする場合には、第１２図の
Tvに相当する行列の要素は｛＋１，０，−１｝の
いづれかで良いので、乗算を必要とせず符号変換
だけで、簡単な記号化が可能である。一方第１２
図のTcに相当する符号｛ｈ，ｌ，ｆ，ｂ，ｗ｝
の変換行列の要素は、このの行列の行ベクトルの
ノルムをTvの行ベクトルのノルムと同じにする
かTcの行ベクトルのノルムの値が、Tvの行ベク
トルのノルムの値より小さく、かつTvの行列の
要素の絶対値よりも大きくする。このようにしな
いと、５母音の各成分｛ｉ，ｅ，ａ，ｏ，ｕ｝よ
りもその他の有声音の成分｛ｈ，ｌ，ｆ，ｂ，
ｗ｝の方が小さくなつてしまう。次により具体的な実施例について説明する。第
１８図は第１４図の７フイルタ方式をより具体化
した実施例、第１９図は第１６図の６フイルタ方
式をより具体化した実施例を示しており、両者の
違いはフイルタF_Bｈの有無のみである。上記各
実施例において、音声は、マイク１より入力さ
れ、プリアンプ２で増幅されて、調整アンプ３で
ゲインとオフセツトを調整される。次にレベル調
整器５ではＶ／UV差信号と他の差信号と他の差
信号との入力パワーのバランスをとる。（一般に、
Ｖ／UV差信号よりも他の差信号の方を強調す
る。）次に、Ｖ／UVバランス調整器４ではフイ
ルタFvの入力とフイルタFuの入力とのバランス
をとる。一方、VB／VLバランス調整器６を中
点に調整し、VH／VLバランス調整器７で、フ
イルタF_HとフイルタF_Lの入力バランスをとり、
VF／VBバランス調整器８でフイルタF_Fとフイ
ルタF_B（F_Bｈ）のバランスをとる。次にVB／VL
バランス調整器６で、VBとVLのバランスをと
る。第１９図の構成では、VB／VLバランス調
整器６を調整するとVF／VHのバランスも同時
にとれている。各フイルタの出力は、マルチプレクサ９で順次
切り換えながら対数変換器１０で、パワーを対数
スケールに変換し、Ａ／Ｄコンバータ１１で８ビ
ツトの２進数にデイジタル化する。なお各フイル
タをデイジタルフイルタで構成する場合には、
Ａ／Ｄコンバータ１１は、調整アンプ３の次段に
来るもので、パイプライン方式で、各フイルタ計
算を順次行ない、一種のマルチプレクサ９のよう
に順々に各フイルタの出力が計算される。次に、
このデイジタル値の相互の差を計算し、差信号ベ
ルトル抽出部１２で、差信号ベクトル｛UV／
Ｖ、Veao／Viu、Va／Veo、Ve／Vo、Vi／
Vu｝の５成分を計算する。第２０図乃至第２３図は、第１８図の実施例に
ついて、第８図乃至第１１図の音声と同一の音声
を録音テープにより入力し、音声の特徴抽出を行
なつた結果を示しており、また第２４図乃至２７
図は、第１９図の実施例について、同様に第８図
乃至第１１図の音声と同一の音声を録音テープに
より入力し、音声の特徴抽出を行なつた結果を示
している。これらの第２０図乃至第２７図におい
ては、従来例のVF／VB差信号が、Ve／Vo差信
号とVi／Vu差信号の２本になり、また従来例の
VA／VU差信号が、Va／Veo差信号（図中では
ａ／ｏと略記）になつたものである。なお第２０
図乃至第２７図において、ａ／ｉでは、Veao／
Vin差信号を示している。しかして従来例では、
VF／VB差信号によるｅ、ｕ、ｏの検出が差信
号の零点に近づいて弱くなり、ｅ、ｕ、ｏの記号
化がｉ、ａに比べて困難であつたが、第２０図乃
至第２７図では、Ve／Vo差信号でｅ、ｏの検出
が確実になり、Vi／Vu差信号でｕの検出が確実
になつたので、５母音の記号化が、より確実に行
なえることがわかる。特に第２４図乃至第２７図
では、Vi／Vu差信号が第２０図乃至第２３図よ
りも明確にｉとｕを識別しており、実施例に関す
る限り第１８図のものよりも第１９図の方が確実
に５母音を記号化していると云えるものである。次に第１８図および第１９図に戻つて、Ｖ／
UV判定部１３では、Ｖ／UV差信号がある設定
値RUより正のときUVと判定し、ある設定値R_V
より負のときＶと判定し、その中間をＳと判定す
る。始端、終端検知部１４では、Ｖ又はUVの判
定により音声の始端を検知し、無音がある設定値
以上のサンプル数の間、継続すると終端と検知す
る。記号ベクトル変換部１５は、第１４図および第
１６図で示したように行列演算で、記号ベクトル
｛ｉ，ｅ，ａ，ｏ，ｕ，ｈ，ｌ，ｆ，ｂ，ｗ｝に
変換する。但し、行列演算はＶの区間でのみ行な
うものである。記号化処理部１６は、Ｖの区間で
は記号ベクトルの最大成分がある設定値以上の場
合にはその記号を出力し、設定値以下の場合には
ｍを出力する。またUVとＳの区間では、それぞ
れUV、Ｓを出力する。整形処理部１７では、同じ記号の繰返しを一つ
の記号とその継続時間とのリストに直し、さらに
継続時間が、ある設定値より少ないものは、前後
の記号が同じ場合には、これらを一つのリストに
し、前後の記号が異なる場合には、前の記号に含
めるようにして、継続時間の短いものは省略す
る。時間軸線型正規化処理部１８は、各リストの継
続時間の合計が200（あるいは1000）といつた一定
値になるように、継続時間を正規化する。これ
は、従来例と同様に全サンプル値200（あるいは
1000）と継続時間との比率をそれぞれの継続時間
に掛け合わせると良い。この際、リストの数が少
ない（10〜20）ので、乗除算にはあまり時間をと
らない。以上のプロセスで、本方式の音声パターンが、
作成できる。この音声パターンは、登録モードでは、標準パ
ターン記憶部１９に登録される。認識モードで
は、距離計算部２０で、標準パターンと照合する
が、まずUVの数等で一次識別して、照合対象を
限定しておく。次に、距離テーブル２１で、時間
軸上で対応する記号間の距離（相関値）を求め
て、これを、全サンプルについて合計したものを
パターン間の距離とする。距離テーブル２１とし
ては第１表に示すようなものを用いるものであ
る。

【表】第１表において、横の欄および縦の欄はそれぞ
れ標準パターンの符号および入力パターンの符号
に対応しており、例えば標準パターンの符号がａ
であつて、しかも入力パターンの符号もａである
ときには、距離テーブル２１の出力は２となり、
近似度が高いことを示すものである。また標準パ
ターンの符号がUVであり、入力パターンの符号
がａであるときには、距離テーブル２１の出力は
−２となり、近似度が低いことを示すものであ
る。したがつて距離計算部２０においては、距離
テーブル２１からの出力を順次加算するだけの演
算操作により、入力パターンと標準パターンとの
パターン全体としての近似度を容易に計算するこ
とができるものである。有意性検定部２２は、距離の最も近いパターン
がある設定値より近く、さらに２番目に近いもの
より、ある設定値以上離れている場合に、この最
も近いパターンと入力パターンが同じとみなし、
他の場合には認識不良としてリジエクトする。認
識結果は識別結果出力部２３より出力する。次に第２８図は、特許請求の範囲第２項に記載
された併合発明の構成を、機能的にブロツク化し
て示したいわゆるクレーム対応図であり、また第
２９図は第２８図の構成をさらに具体化した実施
例の構成を示すブロツク図である。上記各図にお
いて、S₀、S₁、S₂、S₃、S₄はそれぞれ、UV／Ｖ
差信号、Veao／Viu差信号、Va／Veo差信号、
Ve／Vo差信号、Vi／Vu差信号を抽出するため
の差動増幅手段である。各差動増幅手段S₀〜S₄の
出力は、それぞれ比較器２４〜３３において所定
の基準レベルと比較され、各基準レベルとの大小
関係に応じてそれぞれ別々の符号を割り当てられ
る。まず比較器２４，２５は、差動増幅手段S₀の
出力が正の一定値以上であるときには符号UVを
割り当て、負の一定値以下であるときには符号Ｖ
を割り当て、その他の場合には符号Ｓを割り当て
るものである。次に比較器２６，２７は、差動増
幅手段S₁の出力が正の一定値以上であるときには
符号Veaoを割り当て、負の一定値以下であると
きには符号Viuを割り当て、その他の場合には符
号Ｓを割り当てるものである。また比較器２８，
２９は、差動増幅手段S₂の出力が正の一定値以上
であるときには符号Vaを割り当て、負の一定値
以下であるときには符号Veoを割り当て、その他
の場合には符号Ｓを割り当てるものである。次に
比較器３０，３１は、差動増幅手段S₃の出力が正
の一定値以上であるときには符号Veを割り当て、
負の一定値以下であるときには符号Voを割り当
て、その他の場合には符号Ｓを割り当てるもので
ある。さらに比較器３２，３３は、差動増幅手段
S₄の出力が正の一定値以上であるときには符号
Viを割り当て、負の一定値以下であるときには
符号Vuを割り当て、その他の場合には符号Ｓを
割り当てるものである。各比較器２６〜３３の出
力は入力ビツトパターンレジスタ３４に一時記憶
され、Ｖ記号化処理部３５において記号化テーブ
ル３６を参照しながら、第１２図の場合と同様
に、符号ａ、ｅ、ｏ、ｉ、ｕ、ｈ、ｌ、ｆ、ｂ、
ｗ、ｍのうちのいずれか１つの符号に変換され
る。記号化テーブル３６の一例を示すと、第２表
のようになる。

〔発明の効果〕

本発明は叙上のように構成されており、音声入
力から母音のア、エ、オのような顎の開きの広い
広顎有声音と、母音のイ、ウのような顎の開きの
狭い狭顎有声音との比率を求める第１のフイルタ
対と、広顎有声音のうち母音のアのような第１ホ
ルマントの高い音と、母音のエ、オのような第１
ホルマントの低い音との比率を求める第２のフイ
ルタ対と、第１ホルマントの低い広顎有声音のう
ち音声のエのような第２ホルマントの高い音と、
母音のオのような第２ホルマントの低い音との比
率を求める第３のフイルタ対と、狭顎有声音のう
ち母音のイのような第２ホルマントの高い音と、
母音のウのような第２ホルマントの低い音との比
率を求める第４のフイルタ対とを設け、第１乃至
第４のフイルタ対の差信号出力から音声の特徴を
抽出するようにしたものであるから、母音の第２
ホルマントの特徴を確実に抽出できるようにな
り、日本語の５母音のうち、特に従来不完全であ
つたｅ、ｕ、ｏの識別を確実に行なうことができ
て、５母音のより完全な記号化が可能となり、ま
た第２ホルマントの抽出に際して、従来のような
無理な抽出の仕方をしていないので、フイルタ対
の差信号出力の話者による零点補正量を少なくで
きるという効果がある。また本発明にあつては、
上記各フイルタ対の差信号出力を成分とする４次
元ベクトルを入力とし、この４次元ベクトルに変
換行列を乗算して日本語の５母音およびその他の
有声音の短時間平均パワーを各成分とするベクト
ルを算出する行列計算部を設け、行列計算部から
出力されるベクトルの各成分のうちの最大の成分
に対応する符号を出力する最大値判定部を設け、
比較手段の出力および最大値判定部の出力にて入
力パターンを形成するようにしたものであるか
ら、行列計算部や最大値判定部のような比較的汎
用性の高い手段を用いて５母音およびその他の有
声音の符号を得ることができ、装置の構成が簡単
になるという効果もある。さらにまた、併合発明
にあつては、第１乃至第４のフイルタ対の差信号
出力複数の基準値と比較して、この基準値との大
小関係に応じてそれぞれ別々の符号を割り当て
て、各フイルタ対ごとに割り当てられた符号のす
べての組合せに応じて、日本語の５母音およびそ
の他の有声音の符号のうちいずれか１つの符号を
割り当てて出力する有声音判別手段を設けたもの
であるから、ROMテーブルなどを用いて、簡単
な構成で、しかも高速度で有声音の判別を行なう
ことができるという効果があり、電子機器を音声
メツセージによつて操作する際の応答速度を早く
し、かつ安価に構成できるという効果がある。

【図面の簡単な説明】

第１図は日本語の５母音の標準スペクトルを示
す図、第２図は母音のホルマントの男女差を示す
図、第３図は母音の第１ホルマントと第２ホルマ
ントの分布を示す図、第４図は日本語の５母音と
舌の位置の関係を示す図、第５図は従来例の構成
を示すブロツク図、第６図ａ，ｂは同上に用いる
フイルタの周波数特性を示す図、第７図は従来例
における擬音韻記号化処理の手順を示すフローチ
ヤート、第８図乃至第１１図は同上の動作説明
図、第１２図は本発明の要旨となる構成を示すク
レーム対応ブロツク図、第１３図は本発明の一実
施例のブロツク図、第１４図は同上の他の実施例
のブロツク図、第１５図ａ，ｂは同上に用いるフ
イルタの周波数特性を示す図、第１６図は同上の
さらに他の実施例のブロツク図、第１７図ａ，ｂ
は同上に用いるフイルタの周波数特性を示す図、
第１８図は同上の別の実施例を示すブロツク図、
第１９図は同上のさらに別の実施例を示すブロツ
ク図、第２０図乃至第２３図は第１８図実施例の
動作説明図、第２４図乃至第２７図は第１９図実
施例の動作説明図、第２８図は併合発明の要旨と
なる構成を示すクレーム対応ブロツク図、第２９
図は同上の一実施例のブロツク図、第３０図は同
上の擬音韻記号化処理の手順を示すフローチヤー
トである。 Fv、Fu、Fa₁、Fa₂、Fb₁、Fb₂、Fc₁、Fc₂、
Fd₁、Fd₂はフイルタ、S₀〜S₄は差動増幅手段、
C₀は比較手段、MC₀は行列計算部、MX₀は最大
値判定部、２４〜３３は比較器、３６は記号化テ
ーブルである。

Claims

【特許請求の範囲】１音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第１のフイルタ対と、広顎有声音のうち母
音のアのような第１ホルマントの高い音と、母音
のエ、オのような第１ホルマントの低い音との比
率を求める第２のフイルタ対と、第１ホルマント
の低い広顎有声音のうち母音のエような第２ホル
マントの高い音と、母音のオのような第２ホルマ
ントの低い音との比率を求める第３のフイルタ対
と、狭顎有声音のうち母音のイのような第２ホル
マントの高い音と、母音のウのような第２ホルマ
ントの低い音との比率を求める第４のフイルタ対
とを設け、第１乃至第４のフイルタ対の差信号出
力を成分とする４次元ベクトルを入力とし、この
４次元ベクトルに変換行列を乗算して日本語の５
母音およびその他の有声音の短時間平均パワーを
各成分とするベクトルを算出する行列計算部を設
け、行列計算部から出力されるベクトルの各成分
のうち最大の成分に対応する符号を出力する最大
値判定部を設け、比較手段の出力および最大値判
定部の出力にて入力パターンを形成し、この入力
パターンを予め記録されている複数種の標準パタ
ーンと照合して入力パターンに最も近い標準パタ
ーンを入力メツセージとして識別することを特徴
とする音声メツセージ識別方式。２音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第１のフイルタ対と、広顎有声音のうち母
音のアのような第１ホルマント対の高い音と、母
音のエ、オのような第１ホルマントの低い音との
比率を求める第２のフイルタ対と、第１ホルマン
トの低い広顎有声音のうち母音のエのような第２
ホルマントの高い音と、母音のオのような第２ホ
ルマントの低い音との比率を求める第３のフイル
タ対と、狭顎有声音のうち母音のイのような第２
ホルマントの高い音と、母音のウのような第２ホ
ルマントの低い音との比率を求める第４のフイル
タ対とを設け、第１乃至第４のフイルタ対の差信
号出力を複数の基準値と比較して、この基準値と
の大小関係に応じてそれぞれ別々の符号を割り当
てて、各フイルタ対ごとに割り当てられた符号の
すべての組合せに応じて、日本語の５母音および
その他の有声音の符号のうちいずれか１つの符号
を割り当てて出力する有声音判別手段を設け、有
声音判別手段の出力および上記比較手段の出力に
て入力パターンを形成し、この入力パターンを予
め記録されている複数種の標準パターンと照合し
て入力パターンに最も近い標準パターンを入力メ
ツセージとして識別することを特徴とする音声メ
ツセージ識別方式。