JPH0462597B2

JPH0462597B2 -

Info

Publication number: JPH0462597B2
Application number: JP10693784A
Authority: JP
Inventors: Hiroyoshi Yuasa; Koichi Oomura
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1984-05-25
Filing date: 1984-05-25
Publication date: 1992-10-06
Also published as: JPS60250399A

Description

【発明の詳細な説明】

［技術分野］本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。［背景技術］音韻情報は調音方法によるので、主に断面積の
変化に対応した周波数スペクトルの包絡線に含ま
れており、特に共振周波数（第１、第２、第３ホ
ルトマントＦ１，Ｆ２，Ｆ３）と、その帯域幅
（50〜110Hz）によつて特徴付けられる。音声の周
波数スペクトルは上記声道の伝達特性と音源波形
の形状で、ほぼ決まるが声道の伝達特性は声道断
面積による共振点と声道長によつて決まる共振点
が含まれており、調音即ち音韻はほぼ声道断面積
で決まり、声道長は男性、女性、子供や個人差に
よる。さらに音源波形（特に有声音の声帯振動に
よるもの）は声の高さや、強さによると考えられ
る。従つて音韻識別のためには、音源波形や声道長
の影響を除いた周波数スペクトルの包絡線を抽出
することによつて、個人差等の少ない高い識別能
力（認識率）が得られる。ところでスペクトル包
絡を得る方法を用いて音声認識を行う場合高い認
識率や多くの認識語数が得られるが、公知の方法
（例えば全極型モデルによる線形予測分析）では
計算量が膨大なため、コンピユータなどの高価な
システムを必要とし用途が限られる。ところで予
測残差としては、周波数スペクトルが平坦なイン
パルス列（有声音）とランダムノイズ（無声音）
の音源波形を含む。ここで有声音の場合、第１６
図ｇに示す音声波形の音源波形が同図ａである場
合には同図ｂのようなインパルス音源と見なされ
ることによる。ところで実際の音声の波形や、第１６図ｆの音
源波形を見ると直感的に同図ａの音源波形の微分
波形（同図ｃ）が重なつているように見える。そ
して音源波形の立ち下がりの傾斜が緩やかである
に対し、立ち下がりは急峻であるため微分波形の
大きさは下向きが大きく、上向きが小さい。一方、ホルトマントやスペクトル包絡を推定す
るために有声音源の影響を除くためには周波数ス
ペクトル上の積を和に変換する準同形処理が知ら
れているが、複素ケプストラムで分離することに
なつてデータ量の多い高速フーリエ変換を２度も
繰り返さなければならないので、簡易とは言えな
かつた。又スペクトル包絡やホルトマントを求める方法
では短区間分析方式が知られている。これは有声
音の周期よりやや長いめかあるいは3msec程度の
短い区間（特に声門の閉鎖区間）内で、線形予測
分析をするもので、声帯振動数の影響を受けず、
ホルトマントが求められると言われているが、線
形予測のため相関関数を求めたり、短区間の決定
の為に共分散行列を計算する等乗算回数が多くな
るという問題が有つた。そこで本発明者らは音声の大振幅時点を分析窓
の中心にする短区間の高速フーリエ変換で、スペ
クトル包絡が簡単な区間決定と少ない乗算回数で
計算できる方式を提案したが声門の開区間で第１
６図ｃで示す音源波形の微分波形のようなもので
分析していると見なせば個人差の影響を受けてい
ると言わざるを得ない。（但しスペクトル包絡が
おおざつぱで良い場合には簡易型としては実用
的。）［発明の目的］本発明は上述の問題点に鑑みて為されたもの
で、その目的とするところは計算量が少なく、話
者の個人差や声帯振動の影響が少ない音声メツセ
ージ識別方式を提供するにある。［発明の開示］まず本発明の基本原理を考察してみる。線形予
測分析のように声道モデルを線形システムとして
考えてみると、音声波形は音源波形と声道の伝達
特性（インパルス応答）とのたたき込み演算とな
るが、第１６図ａのような音源に対するインパル
ス応答をするシステムが実際の声道モデルといえ
るわけである。このため現実に音源波形を観測し
てインパルス列に対する音源モデルを作ること
は、２重のたたみ込みになるので極めて困難であ
る。そこで簡単で実用的であれば良いので実際の
実験結果で効果があれば良いと考え、上述したよ
うに音声の５母音（ｉ，ｅ，ａ，ｏ，ｕ）の時間
波形を見ていると第１６図ｃのような音源の微分
波形が含まれているように見えるから、最も単純
に考えて、音源波形が第１６図ｆの場合の微分波
形である同図ｅの波形を同図ｇの波形から引き算
して高速フーリエ変換を行つたのが本発明の基本
的な技術思想である。ここで分析区間は第１６図
ｅで示したｉ，ｊの区間内であれば良いが、この
場合同図ｄに示したインパルスに対する応答のフ
ーリエ変換をするかごとく扱つていることに相当
する。実施例第１図は本発明の処理フローに基づいた回路構
成図であり、図中１は高域強調部で、この高域強
調部１は入力音声の高域を強調させるためのもの
である。２は高域強調された入力音声をＡ／Ｄ変
換するＡ／Ｄ変換部で、このＡ／Ｄ変換部２から
の出力は区間補償部３と、ピツチ検出部４とに入
力する。ピツチ検出部４はＡ／Ｄ変換された１フ
レーム内の音声の時間波形の振幅の絶対値IPOW
を求めて所定サンプル数の平均値がフレーム内の
前半で最低となる第１の下向き大振幅点IPN１を
検出するとともにこれに続く第２の下向き大振幅
点IPN３を求めてこれら下向き大振幅点IPN１と
IPN３とからピツチIPitを求めるためのものであ
る。区間補償部３はピツチ補償を行うためのもの
で、第１６図ｅに示す波形を第２の下向き大振幅
点IPN３の手前で検出した上向き大振幅点IPN２
との間で引き算をすることにより補償するように
なつており、このオフセツト値はIPN１点で第４
図ｂに示すように振幅−IPOWとなる点Ａと、
IPN２点で振幅IPOWとなる点Ｂとを直線Ｘで結
んだものとする。尚第４図中IPN０は最も手前の
大振幅点である。又オフセツト値としては、第１
の下向き大振幅点IPN１でのピーク値の半分の点
Ｃと、上向き大振幅点IPN２でのピーク値の半分
の点Ｄとを直線で結んだものとしたり、あるいは
上向き大振幅点IPN０と下向き大振幅点IPN１と
の間で−IPOWとなる第５図ｂに示す点Ｅと、上
向き大振幅点IPN２と下向き大振幅点IPN３との
中間でIPOWとなる点Ｆとを直線で結んだものと
してもよい。尚第４図ａ、第５図ａは夫々第４図
ｂ、第５図ｂの音声の周波数スペクトラムを示
す。５は分析区間決定部で、この分析区間決定部
５は下向き大振幅点IPN１より64点、あるいは32
点以内、又は（IPN２−IPN１）の１／２，１／
４といつた値に設定する。ここで高速フーリエ変
換のサンプル数としては64，128，256といつた２
のべきになるのが一般的であるが、ウインドウの
計算の都合で、短区間の長さとして32点と64点と
を採用した。７は高速フーリエ変換部で、この高
速フーリエ変換部７は高速フーリエ変換によつて
周波数スペクトルの包絡を求めるためのものであ
り、演算時には分析窓計算部６によつて定められ
たスペクトルウインドウが掛けられる。分析窓計
算部６は高速フーリエ変換部７でのスペクトル包
絡線抽出をより正確にかつより少ない計算量（乗
算回数）で行なえるように高速フーリエ変換にか
けるスペクトルウインドウの長さ及び位置を最適
化するためのものである。８は周波数帯域分割部
で、この周波数帯域分割部８は高速フーリエ変換
部７で抽出され周波数スペクトルを対数パワース
ペクトルにした後の出力から各周波数成分の短時
間平均パワー、例えばUV.V，VH，VL，VF，
VBの６成分を得るためのもので有る。ここで、
Ｖは音声入力中、０〜1KHzの周波数帯域の短時
間平均パワーをしめしており、有音声のエネルギ
に対応している。UVは音声入力中、５〜12KHz
の周波数帯域の短時間平均パワーを示しており、
無音声のエネルギに対応している。また有音声の
VL，VH，VB，VFは夫々音声入力中、０〜
0.5KHz、0.5〜1.0KHz、1.0〜2.0KHz、及び2.0〜
4.0KHzの周波数帯域の短時間平均パワーを示し
ており、夫々狭顎音、広顎音、後舌音、及び前舌
音のエネルギに対応している。９は差信号ベクト
ル変換部で、この差信号ベクトル変換部９は上記
各短時間平均パワーより、５音韻（ｉ、ｅ、ａ、
ｏ、ｕ）が夫々eao／iu、ａ／eo、ｅ／ｏ、ｉ／
ｕにほぼ分けられるようにUV／Ｖ，VH／VL，
VF／VB，VB／VL，VF／VHの差信号ベクト
ルを求めるものである。１８は上記周波数帯域分
割部８と、差信号ベクトル変換部９とが周波数帯
域分割による差信号ベクトルを求めるためのもの
であるに対して、ホルマントベクトルを求めるた
めのホルマント軌跡変換部であつて、スペクトル
包絡のピーク周波数（ホルマント周波数）を求め
てホルマントベクトルとしており、ホルマントベ
クトルの成分は各ホルマントごとの平均値に対す
る差を成分とし、周波数軸を対数あるいは線形ス
ケールで表したものである。尚ピツチ検出により
各ホルマントごとの基準周波数となる上記の平均
値を男性、女性、子供といつたクラスに切り換え
ることによつて、認識率の向上が図れる。第１５
図ａ，ｂは５母音のホルマント分布と、ピークの
位置を示す。１０は記号ベクトル変換部で、この
記号ベクトル変換部１０は上記差信号ベクトル又
はホルマントベクトルと変換行列とで記号ベクト
ル｛ｉ、ｅ、ａ、ｏ、ｕ、ｈ、ｌ、ｆ、ｂ、ｗ｝
に変換するもので、変換行列の値は記号に対応す
る差信号ベクトルあるいはホルマントベクトルの
各成分の大きさに相当する行成分を持つておれば
よい。１１は始端・終端検知部で、この始端・終
端検知部１１はUV／Ｖ差信号が、ある設定値Ru
より正のときUVと判定し、ある設定値Rvより負
のときＶと判定し、その中間をＳと判定する有
声、無声判定機能を備え、UV，Ｖの判定により
音声の始端を検知し、無音がある設定値以上のサ
ンプル数の間、継続すると終端と検知するもので
ある。１２は記号変換処理部で、この記号変換処
理部１２はＶの区間では記号ベクトルの最大成分
がある設定値以上の場合にはその記号を出力し、
設定値以下の場合にはｍを出力する。またUVと
Ｓとの区間では、夫々UV，Ｓを出力する。１３
は整形処理部で、この整形処理部１３は同じ記号
の繰り返しを一つの記号とその継続時間とのリス
トに直し、さらに継続時間が短いものは省略す
る。１４は単語標準パターン記憶部で、この単語
標準パターン記憶部１４は音声パターンを登録モ
ードで登録して認識照合時の標準パターンとする
ためのものである。予備選択部１５は認識モード
において、照合するまえにUVの数などで一次識
別して照合対象を限定するための予備選択を行う
ためのものである。１６は時間軸正規化・照合部
で、この時間軸正規化・照合部１６は上記リスト
の継続時間の合計が例えば200（あるいは1000）と
いつた一定値になるように継続時間を正規化する
ための時間軸正規化機能と、時間軸上で対応する
対応する記号間の距離（相関値）を求めて、これ
を、全サンプルについて合計したものをパターン
間の距離とした第１表に示す距離テーブルを用い
て標準パターンと照合する距離計算機能とからな
る。

【表】第１表において、横の欄及び縦の欄は夫々標準
パターンの記号及び入力パターンの記号に対応し
ており、例えば標準パターンの記号がａであつ
て、しかも入力パターンの記号もａであるときに
は、距離テーブルの出力は−２となり、近似度が
低いことをしめすものである。従つて距離計算機
能においては距離テーブルからの出力を順次加算
するだけでの演算操作により、入力パターンと標
準パターンとのパターン全体としての近似度を容
易に計算できるわけである。１７は有意差検定部
で、この有意差検定部１７は距離の最も近いパタ
ーンがある設定値より近く、さらに２番目に近い
ものより、ある設定値以上離れている場合に、こ
の最も近いパターンと入力パターンが同じとみな
し、他の場合には認識不良としてリジエクトする
有意差検定機能と、該認識結果を出力する結果出
力機能とを備えたものである。１９は最適化フイ
ードバツク部で、この最適化フイードバツク部１
９は周波数帯域の分割の最適化と、差信号ベクト
ルのオフセツトの最適化をフイードバツク的に行
うために、学習モードにおいて話者の／ｉ、ｅ、
ａ、ｏ、ｕ／の発生の時系列を記憶して、予め標
準的に設定した分割周波数の近傍で分割周波数を
変動させて、記号ベクトルの感度特性に応じて変
動方向と量を、記号成分が最大となるように最適
化するものであり、この場合スペクトルの勾配
を、差信号ベクトルのオフセツトで補償し、特に
入力音声がイ音のときｉ成分が突出し、ア音のと
きａ音が突出するようにし、また／ｅ／、／ｕ／
の識別がより確実となるように差信号入力のゲイ
ンバランスを調整する。この場合まずVH／VL
の最適調整、次にVF／VBの最適調整、更につ
ぎにVB／VLの最適調整を行うのである。而して実施例ではサンプリング周期80μsec（サ
ンプリング周波数12.5KHz）で、フレーム長を
512サンプルとした。基本周波数の周期が最低で
90Hzとすると、139サンプルになり、256点の周波
数スペクトルを計算するためには通常の高速フー
リエ変換では512点の計算になり、乗算回数が2⁹
×（2⁴＋2⁵）＝512×（16＋32）＝24576回になるが、
基本周期より短い区間の64サンプルを、512サン
プルのフレームより抜き出して分析すると、128
点の高速フーリエ変換でよいので2⁷×（2³＋2⁴）＝
128×（８＋16）＝3072回の乗算で良い。また高速
フーリエ変換の前処理の分析窓の乗算は周波数ス
ペクトルのサンプル数と同じになるので、短区間
分析が簡易な方法として効果のあることがわか
る。第２図は第１図実施例のピツチ検出部４と分
析区間決定部５からなる特徴部分のフローチヤー
トを示し、１フレーム内の振幅の絶対値の平均値
IPOWを(1)で求め、(2)で30サンプルづつの平均値
がフレームの前半で最低となる下向き大振幅点
IPN１を検出し、更に(3)で次の下向き大振幅点
IPN３を検出し、そして(4)でこれらの下向き大振
幅点IPN１，IPN３からピツチIPit＝IPN3−
IPN1を求める。ピツチ検出後(5)で前の上向き大
振幅点IPN０を下向き大振幅点IPN１より検出
し、両大振幅点IPN０，IPN１の中間の振幅０の
点より(6)で大振幅点IMiDとし、この大振幅点
IMiDを中心として上向き大振幅の半サイクルと
下向き大振幅の半サイクルからなる１サイクルを
含む短区間を決定する。次いで(7)で直流補償を行
い、(8)で分析窓掛けを行い(9)で高速フーリエ変換
を行い、(10)で差信号ベクトルか、ホルマントベク
トルかのモード選択を行い、(11)で周波数帯域分割
を、(12)でホルマント軌跡を求める。第３図は本発明の具体的な回路図を示し、音声
はマイク１８より入力され、プリアンプ１９で増
幅されて、調整アンプ２０でゲインとオフセツト
を調整される。次にＡ／Ｄ変換回路２１で音声入
力をデイジタル変換を行い、デイジタル変換され
た音声フレームは音声フレームメモリ２３に記憶
される。２４はFFTプロセツサで、このFFTプ
ロセツサ２４はコントロール部２４ａと、演算レ
ジスタ２４ｂと、内蔵RAM２４ｃと、係数を記
憶してある係数ROM２４ｄとを備えた一般の
FFTチツプからなり、音声フレームメモリ２３
から読出した音声フレームを取り込み、高速フー
リエ変換をウインドウをかけて行う。２５はスペ
クトルフレームメモリで、FFTプロセツサ２４
で演算されたスペクトルフレームを記憶するため
のものである。２２は音声フレームメモリ２３、
FFTプロセツサ２４、スペクトルフレームメモ
リ２５の動作タイミングを与えるタイミング回路
である。２６はプログラムROM２７に予め書き
込んである動作プログラムに基づいて制御演算を
行うCPUであり、照合モード時には照合演算回
路３０を動作させて、スペクトルフレームメモリ
２５に格納してあるデータを記号化して予め登録
モード時に標準パターンRAM３１に格納してあ
る標準パターンとの照合演算を行つたり、あるい
は登録モード時に入力音声のパターンを標準パタ
ーンとして標準パターンRAM３１に格納させた
り、更には学習モード時に上述の最適化フイード
バツクを行つたりする。図中３２はターミナル
部、３３はマイコンバス、２８はワーキング
RAM、２９は制御入出力部である。第６図は上述の点Ａと点Ｂとの間の128点のウ
インドウを掛けて高速フーリエ変換（256点）を
行つたシミユレーシヨン結果であり、同図ａは同
図ｂで時間波形と示された周波数スペクトラムで
ある。第７図は上述の点Ｃと点Ｄとの間の128点
のウインドウを掛けて高速フーリエ変換（256点）
を行つたシミユレーシヨン結果であり、同図ａは
同図ｂで時間波形と示された周波数スペクトラム
である。この第７図の場合は第６図の場合と大差
はない。第８図は上述の点Ｃと点Ｄとの間の64点
のウインドウを掛けて高速フーリエ変換（128点）
を行つたシミユレーシヨン結果であり、同図ａは
同図ｂで時間波形と示された周波数スペクトラム
である。第９図は上述の点Ｃと点Ｄとの間の32点
のウインドウを掛けて高速フーリエ変換（64点）
を行つたシミユレーシヨン結果であり、同図ａは
同図ｂで時間波形と示された周波数スペクトラム
である。これらの第８図、第９図から分かるよう
に第２〜第３ホルマントに相当する共振点が明確
に表われている。第１０図は声帯振動の立ち上が
り区間にインパルスがあると見なして、上向き大
振幅点IPN０より短区間（ピツチ補償はしない）
で分析したもので、128点のウインドウを掛けて
高速フーリエ変換（256点）を行つたシミユレー
シヨン結果であり、同図ａは同図ｂで時間波形と
示された周波数スペクトラムである。又第１１図
は声帯振動の立ち上がり区間にインパルスがある
と見なして、上向き大振幅点IPN０より短区間
（ピツチ補償はしない）で分析したもので、64点
のウインドウを掛けて高速フーリエ変換（128点）
を行つたシミユレーシヨン結果であり、同図ａは
同図ｂで時間波形と示された周波数スペクトラム
である。これら第１０図、第１１図と、上記の第
８図とを比較すると第８図図示の場合が共振点が
明確になつていることがよく分かる。第８図図示
の場合の切り出し区間はIPN2−IPN1＝LWP＝
96の半分である48点であるに対して第１１図の区
間は64点であるのでこの効果は大きいといえる。
第１２図は声門閉鎖区間とおぼしき位置のフレー
ム長64点を分析したもので、この場合第１１図に
比べても共振特性が明確ではないので、第８図に
示す本方式による効果が有効であることがよく分
かる。尚同図ａは同図ｂで時間波形と示された周
波数スペクトラムである。尚第１３図は記号化のプロセスを示す。同図に
おいて、Ｖは音声入力中、０〜1KHzの周波数帯
域の短時間平均パワーを示しており、有声音のエ
ネルギに対応している。また、UVは音声入力
中、５〜12KHzの周波数帯域の短時間平均パワー
を示しており、無声音のエネルギに対応してい
る。さらに、VL，VH，VB，VFは夫々音声入
力中、０〜0.4KHz、0.4〜0.8KHz、及び1.8〜3.2K
Hzの周波数帯域の短時間平均パワーを示してお
り、夫々狭顎音、広顎音、後舌音、及び前舌音の
エネルギに対応している。S₀〜S₄は差動増幅手段
であり、夫々差信号Ｖ／UV，Veao／Viu，
Va／Veo，Ve／Vo，Vi／Vuを算出するもので
ある。C₀は比較手段であり、上記差動増幅手段
S₀から出力される差信号成分が、基準値Rvより
も小さいときには有声音Ｖの符号を割り当て、基
準値Ruよりも大きい時には無声音UVの符号をの
符号を割り当て、それ以外の場合には無音Ｓと判
定する。ただし、Ru＞Ｏ＞Rvである。MY₀は記
号化処理部で、この記号化処理部MY₀は無音、
有声音及び無声音の各場合についてＳ，Ｖ，UV
の各符号の内いずれか１つの符号を入力する。
MC₀は各差信号出力Vea／Viu，Va／Vea，
Ve／Vo，Vi／Vuを成分とする４次元ベクトル
に所定の行列Tmを乗算して、音声入力中に含ま
れる各母音ｉ、ｅ、ａ、ｏ、ｕ、とその他の有声
音ｈ、ｉ、ｆ、ｂ、ｗの短時間平均パワーを算出
するものであり、行列計算部MC₀の出力は最大
値判定部MX₀に入力されて各成分ｉ、ｅ、ａ、
ｏ、ｕ、ｈ、ｌ、ｆ、ｂ、ｗの内最大の成分がど
れであるかを判定され、その最大の成分の符号が
記号化処理部MY₀に入力される。但し最大の成
分と２番目に大きい成分との差が小さいときには
符号ｍが出力される。記号化処理部MY₀は比較
手段C₀から出力される符号がＶであるときには、
最大値判定部MX₀から出力されるｉ、ｅ、ａ、
ｏ、ｕ、ｈ、ｌ、ｆ、ｂ、ｗ及びｍの内のいずれ
か１つの符号を出力し、又比較手段C₀から出力
される符号がＵ又はＳであるときには、その符号
をそのまま出力するものである。尚行列計算部
MC₀の変換行列Tmとしては(1)〜(3)式のようなも
のが使用可能である。〔Tm〕＝−17 17， 17， 17， −17， 18， −18 ０，０， 13，０，０， 17，０，０，０，０，０，０，０，０， 17，０， −17，０，０，０， 18， −18，０，17 ００００００００ −13 …(1) 〔Tm〕＝−16， 16， 16， 16， −16， 18， −18，０，０， 13，−８， −８， 16， −８， −８，０，０，０，０，０，０， 16，０， −16，０，０，０， 18， −18，０，16 ０ −８０ −16 ００００ −13 …(2) 〔Tm〕＝−14， 14， 14， 14， −14， 18， −18，０，０， 13，−14， −14， 14， −14， −14，０，０，０，０，０，０， 14，０， −14，０，０，０， 18， −18，０，14 ０ −14 ０ −14 ００００ −13 …(3) まず(1)式の変換行列Tmは、識別に最低限必要
な要素以外は０にして、計算を速くできるように
したもので、(2)式は、要素の絶対値が８の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く５母音の記号化が可能になるようにしたもの
で、(3)式は第１ホルマントF₁に関する差信号に
対する５母音の要素を総て同じ大きさの重み（絶
対値14）にするとともに、第２ホルマントF₂に
関する２つの差信号に関しては、５母音に対し
て、どちらかに１個づつ識別に必要な重みをつけ
たもので、第１ホルマントF₁を第２ホルマント
F₂より重要視したものといえる。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。この第３図のAPは上述した調
整アンプ２０の特性を示している。又上述の照合方法以外に、差信号から２値化信
号を作つてこの組み合わせで記号化し、逐次照合
することも可能である。この方法としては次のよ
うなものがある。つまり短時間平均パワーのベク
トルより求めたUV／Ｖ差信号、Veao／Viu差信
号、Va／Veo差信号、Ve／Vo差信号、Vi／Vu
差信号を抽出してVeao／Viu差信号が正の一定
値以上あれば記号Veaoを割り当て、負の一定値
以下であるときには記号Viuを割り当て、その他
の場合には記号Ｓを割り当て、Va／Veo差信号
が正の一定値以上であるときには記号Vaを割り
当て、負の一定値以下であるときには記号Veoを
割り当て、その他の場合には記号Ｓを割り当て、
Ve／Vo差信号が正の一定値以上であるときには
記号Veを割り当て、負の一定値以下であるとき
には記号Voを割り当て、その他の場合には記号
Ｓを割り当て、更にVi／Vu差信号が正の一定値
以上であるときには記号Viを割り当て、負の一
定値以下であるときには記号Vuを割り当て、そ
の他の場合には記号Ｓを割り当てる。そしてこれ
らの記号を一時記憶手段に記憶して第２表に示す
記号化テーブルを参照しながら記号ａ、ｅ、ｏ、
ｉ、ｕ、ｈ、ｌ、ｆ、ｂ、ｗ、ｍのうちいずれか
１つの記号に変換する。

【表】

【表】ただし、第２表において＊は０、１のいずれで
もよいことを示しており、０／１は０の場合と１
の場合を示している。かかる記号化テーブルは例
えばROMなどを用いて構成されており、一時記
憶した内容をアドレス入力としてROMをアクセ
スすることにより、ａ、ｅ、ｏ……等の各記号の
コードがデータ出力として得られるようにする
か、あるいは一時記憶した内容と記号化テーブル
の内容とを排他的論理和で比較し、一致したとき
の記号を出力するとよい。第１４図は照合部をマ
イクロコンピユータの逐次判別処理プログラムに
よつて実現する方法を示すフローチヤートであ
り、まず第１段階としてVeo／Viu差信号が高レ
ベルＨであるか、中レベルＭであるか、低レベル
Ｌであるかによつて、３グループに分けている。
そして第２段階では、まず第１段階がＨのとき
は、Va／Veo差信号がＨならば、記号／ａ／を
出力し、Ｍならば記号／Vo／を出力し、Ｌなら
ば第３段階に移り、Ve／Vo差信号を調べて、Ｈ
ならば記号／ｅ／を出力し、Ｍならば／ｈ／を出
力し、Ｌならば記号／ｏ／を出力する。一方、第
１段階がＭの場合、第２段階では、Ve／Vo差信
号がＨならば記号／ｆ／を出力し、Ｍならば記
号／ｍ／を出力し、Ｌならば記号／ｂ／を出力す
る。更に第１段階がＬの場合、第２段階では
Vi／Vu差信号がAHならば記号／ｉ／を出力し、
Ｍならば記号／ｌ／を出力し、Ｌならば号／ｕ／
を出力するのである。上述に実施例は直交変換として高速フーリエ変
換を用いてあるが、ウオルシユ変換を用いてもよ
い。［発明の効果］本発明は音声入力の時間波形の正負が声帯振動
の向きに対して一定であるように正負の位相を保
ち、声帯振動の微分波形が負である声帯振動の立
ち下がりに対応する音声の時間波形の第１の下向
き大振幅点を求めるとともに、次の声帯振動の微
分波形が負である声帯振動の立ち下がりに対応す
る音声の時間波形の第２の下向き大振幅点を求め
る手段を備え、この第２の下向き大振幅点の手前
にある声帯振動の微分波形が正である声帯振動の
立ち上がりに対応する音声の時間波形の上向き大
振幅点と第１の下向き大振幅点との中間で短区間
分析して音声入力の周波数スペクトルの包絡線を
抽出するのでホルトマントに相当するスペクトル
包絡が明確に求められ、話者の個人差や、声帯振
動の影響が少なくかつ計算量が少なくて高い認識
が行えるという効果がある。

【図面の簡単な説明】

第１図は本発明の実施例の概略回路構成図、第
２図は同上の要部の動作説明用のフローチヤー
ト、第３図は同上の具体回路図、第４図乃至第１
２図は同上の動作説明図、第１３図は本発明の実
施例の記号化プロセスを説明する回路ブロツク
図、第１４図は本発明の別の照合例の動作説明用
のフローチヤート、第１５図はホルトマン軌跡に
ついての説明用波形図、第１６図は本発明の背景
技術説明用の波形図であり、３は区間補償部、４
はピツチ検出部、５は分析区間決定部、６は分析
窓計算部、７は高速フリーエ変換部、８は周波数
帯域分割部、９は差信号ベクトル変換部、８はホ
ルトマン軌跡変換部である。

Claims

【特許請求の範囲】

１音声入力の周波数スペクトルを抽出する手段
と、対数パワースペクトルを周波数分割して各周
波数帯域毎の短時間平均パワーを取り出しこれら
短時間平均パワーから５母音ｉ，ｅ，ａ，ｏ，ｕ
がｅ，ａ，ｏとｉ，ｕの比率、ａとｅ，ｏの比
率、ｅとｏの比率、ｉとｕの比率に分かれるよう
に差信号ベクトルを抽出するか、あるいはホルマ
ント軌跡からホルマントベクトルを求めて、差信
号ベクトル又はホルマントベクトルに変換行列を
乗算して５母音及びその他の有声音の記号ベクト
ルを算出する行列計算手段と、該行列計算手段か
ら出力される記号ベクトルの各成分のうち最大の
成分を分析フレームの擬音韻記号として出力する
手段と、該擬音韻記号に基づいて記号と継続時間
からなる入力パターンを予め記憶してある標準パ
ターンとを時間軸あるいは記号によつて照合して
入力パターンに最も近い標準パターンを入力メツ
セージとして識別することを特徴とする音声メツ
セージ識別方式において、音声入力の時間波形の
正負が声帯振動の向きに対して一定であるように
正負の位相を保ち、声帯振動の微分波形が負であ
る声帯振動の立ち下がりに対応する音声の時間波
形の第１の下向き大振幅点を求めるとともに、次
の声帯振動の微分波形が負である声帯振動の立ち
下がりに対応する音声の時間波形の第２の下向き
大振幅点を求める手段を備え、この第２の下向き
大振幅点の手前にある声帯振動の微分波形が正で
ある声帯振動の立ち上がりに対応する音声の時間
波形の上向き大振幅点と第１の下向きの大振幅点
との中間で短区間分析して音声入力の周波数スペ
クトルの包絡線を抽出することを特徴とする音声
メツセージ識別方式。