JPH0462596B2 - - Google Patents
Info
- Publication number
- JPH0462596B2 JPH0462596B2 JP10693684A JP10693684A JPH0462596B2 JP H0462596 B2 JPH0462596 B2 JP H0462596B2 JP 10693684 A JP10693684 A JP 10693684A JP 10693684 A JP10693684 A JP 10693684A JP H0462596 B2 JPH0462596 B2 JP H0462596B2
- Authority
- JP
- Japan
- Prior art keywords
- large amplitude
- point
- symbol
- short
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 210000001260 vocal cord Anatomy 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 238000012545 processing Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Description
[技術分野]
本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。 [背景技術] 音韻情報は調音方法によるので、主に断面積の
変化に対応した周波数スペクトルの包絡線に含ま
れており、特に共振周波数(第1、第2、第3ホ
ルトマントF1,F2,F3)と、その帯域幅
(50〜110Hz)によつて第徴付けられる。音声の周
波数スペクトルは上記声道の伝達特性と音源波形
の形状で、ほぼ決まるが声道の伝達特性は声道断
面積による共振点と声道長によつて決まる共振点
が含まれており、調音即ち音韻はほぼ声道断面積
で決まり、声道長は男性、女性、子供や個人差に
よる。さらに音源波形(特に有声音の声帯振動に
よるもの)は声の高さや、強さによると考えられ
る。 又スペクトル包絡やホルトマントを求める方法
では短区間分析方式が知られている。これは有声
音の周期よりやや長いめかあるいは3msec程度の
短い区間(特に声門の閉鎖区間)内で、線形予測
分析をするもので、声帯振動数の影響を受けず、
ホルトマントが求められると言われているが、線
形予測のため相関関数を求めたり、短区間の決定
の為に共分散行列を計算する等乗算回数が多くな
るという問題が有つた。 [発明の目的] 本発明は上述の問題点に鑑みて為されたもの
で、その目的とするところは計算量が少なく、話
者の個人差や声帯振動の影響が少ない音声メツセ
ージ識別方式を提供するにある。 [発明の開示] (実施例) 第1図は本発明の処理フローに基づいた回路構
成図であり、図中1は高域強調部で、この高域強
調部1は入力音声の高域を強調させるためのもの
である。2は高域強調された入力音声をA/D変
換するA/D変換部で、このA/D変換部2から
の出力は区間補償部3と、ピツチ検出部4とに入
力する。ピツチ検出部4はA/D変換された1フ
レーム内の音声の時間波形の振幅の絶対値IPOW
を求めて所定サンプル数の平均値がフレーム内の
前半で最低となる下向き大振幅点IPN1を検出す
るとともにこれに続く第2の下向き大振幅点IPN
3を求めてこれら下向き大振幅点IPN1とIPN3
とからピツチIPitを求めるためのものである。区
間補償部3は時間波形の振幅が小さい場合を考慮
して後述の短区間の直流分を除去するためのもの
である。5は分析区間決定部で、この分析区間決
定部5は上記下向き大振幅点IPN1より前の上向
き大振幅点IPN0を求め、両大振幅点IPN1,
IPN0の中間の振幅0の点を大振幅点IMiDとし、
この大振幅点IMiDを中心に上向き大振幅点IPN
0の半サイクルと下向き大振幅点IPN1の半サイ
クルとの1サイクルを含む短区間を決定するもの
である。ここで高速フーリエ変換のサンプル数と
しては64,128,256といつた2のべきになるのが
一般的であるが、ウインドウの計算の都合で、短
区間の長さとして32点と64点とを採用した。7は
高速フーリエ変換部で、この高速フーリエ変換部
7は高速フーリエ変換によつて周波数スペクトル
の包絡を求めるためのものであり、演算時には分
析窓計算部6によつて定められたスペクトルウイ
ンドウが掛けられる。分析窓計算部6は高速フー
リエ変換部7でのスペクトル包絡線抽出をより正
確にかつより少ない計算量(乗算回数)で行なえ
るように高速フーリエ変換にかけるスペクトルウ
インドウの長さ及び位置を最適化するためのもの
である。8は周波数帯域分割部で、この周波数帯
域分割部8は高速フーリエ変換部7で抽出され周
波数スペクトルを対数パワースペクトルにした後
の出力から各周波数成分の短時間平均パワー、例
えばUV,V,VH,VL,VF,VBの6成分を得
るためのもので有る。ここで、Vは音声入力中、
0〜1KHzの周波数帯域の短時間平均パワーをし
めしており、有声音のエネルギに対応している。
UVは音声入力中、5〜12KHzの周波数帯域の短
時間平均パワーを示しており、無声音のエネルギ
に対応している。また有声音のVL,VH,VB,
VFは夫々音声入力中、0〜0.5KHz、0.5〜1.0K
Hz、1.0〜2.0KHz、及び2.0〜4.0KHzの周波数帯域
の短時間平均パワーを示しており、夫々狭顎音、
広顎音、後舌音、及び前舌音のエネルギに対応し
ている。9は差信号ベクトル変換部で、この差信
号ベクトル変換部9は上記各短時間平均パワーよ
り、5音韻(i、e、a、o、u)が夫々eao/
iu、a/eo、e/o、i/uにほぼ分けられるよ
うにUV/V,VH/VL,VF/VB,VB/VL,
VF/VHの差信号ベクトルを求めるものである。
18は上記周波数帯域分割部8と、差信号ベクト
ル変換部9とが周波数帯域分割による差信号ベク
トルを求めるためのものであるに対して、ホルマ
ントベクトルを求めるためのホルマント軌跡変換
部であつて、スペクトル包絡のピーク周波数(ホ
ルマント周波数)を求めてホルマントベクトルと
しており、ホルマントベクトルの成分は各ホルマ
ントごとの平均値に対する差を成分とし、周波数
軸を対数あるいは線形スケールで表したものであ
る。尚ピツチ検出により各ホルマントごとの基準
周波数となる上記の平均値を男性、女性、子供と
いつたクラスに切り換えることによつて、認識率
の向上が図れる。第9図a,bは5母音のホルマ
ント分布と、ピークの位置を示す。10は記号ベ
クトル変換部で、この記号ベクトル変換部10は
上記差信号ベクトル又はホルマントベクトルと変
換行列とで記号ベクトル{i、e、a、o、u、
h、l、f、b、w}に変換するもので、変換行
列の値は記号に対応する差信号ベクトルあるいは
ホルマントベクトルの各成分の大きさに相当する
行成分を持つておればよい。11は始端・終端検
知部で、この始端・終端検知部11はUV/V差
信号が、ある設定値Ruより正のときUVと判定
し、ある設定値Rvより負のときVと判定し、そ
の中間をSと判定する有声、無声判定機能を備
え、UV、Vの判定により音声の始端を検知し、
無音がある設定値以上のサンプル数の間、継続す
ると終端と検知するものである。12は記号変換
処理部で、この記号変換処理部12はVの区間で
記号ベクトルの最大成分がある設定値以上の場合
にはその記号を出力し、設定値以下の場合にはm
を出力する。またUVとSとの区間では、夫々
UV、Sを出力する。13は整形処理部で、この
整形処理部13は同じ記号の繰り返しを一つの記
号とその継続時間とのリストに直し、さらに継続
時間が短いものは省略する。14は単語標準パタ
ーン記憶部で、この単語標準パターン記憶部14
は音声パターンを登録モードで登録して認識照合
時の標準パターンとするためのものである。予備
選択部15は認識モードにおいて、照合するまえ
にUVの数などで一次識別して照合対象を限定す
るための予備選択を行うためのものである。16
は時間軸正規化・照合部で、この時間軸正規化・
照合部16は上記リストの継続時間の合計が例え
ば200(あるいは1000)といつた一定値になるよう
に継続時間を正規化するための時間軸正規化機能
と、時間軸上で対応する対応する記号間の距離
(相関値)を求めて、これを、全サンプルについ
て合計したものをパターン間の距離とした第1表
に示す距離テーブルを用いて標準パターンと照合
する距離計算機能とからなる。
作するための音声メツセージ識別方式に関するも
のである。 [背景技術] 音韻情報は調音方法によるので、主に断面積の
変化に対応した周波数スペクトルの包絡線に含ま
れており、特に共振周波数(第1、第2、第3ホ
ルトマントF1,F2,F3)と、その帯域幅
(50〜110Hz)によつて第徴付けられる。音声の周
波数スペクトルは上記声道の伝達特性と音源波形
の形状で、ほぼ決まるが声道の伝達特性は声道断
面積による共振点と声道長によつて決まる共振点
が含まれており、調音即ち音韻はほぼ声道断面積
で決まり、声道長は男性、女性、子供や個人差に
よる。さらに音源波形(特に有声音の声帯振動に
よるもの)は声の高さや、強さによると考えられ
る。 又スペクトル包絡やホルトマントを求める方法
では短区間分析方式が知られている。これは有声
音の周期よりやや長いめかあるいは3msec程度の
短い区間(特に声門の閉鎖区間)内で、線形予測
分析をするもので、声帯振動数の影響を受けず、
ホルトマントが求められると言われているが、線
形予測のため相関関数を求めたり、短区間の決定
の為に共分散行列を計算する等乗算回数が多くな
るという問題が有つた。 [発明の目的] 本発明は上述の問題点に鑑みて為されたもの
で、その目的とするところは計算量が少なく、話
者の個人差や声帯振動の影響が少ない音声メツセ
ージ識別方式を提供するにある。 [発明の開示] (実施例) 第1図は本発明の処理フローに基づいた回路構
成図であり、図中1は高域強調部で、この高域強
調部1は入力音声の高域を強調させるためのもの
である。2は高域強調された入力音声をA/D変
換するA/D変換部で、このA/D変換部2から
の出力は区間補償部3と、ピツチ検出部4とに入
力する。ピツチ検出部4はA/D変換された1フ
レーム内の音声の時間波形の振幅の絶対値IPOW
を求めて所定サンプル数の平均値がフレーム内の
前半で最低となる下向き大振幅点IPN1を検出す
るとともにこれに続く第2の下向き大振幅点IPN
3を求めてこれら下向き大振幅点IPN1とIPN3
とからピツチIPitを求めるためのものである。区
間補償部3は時間波形の振幅が小さい場合を考慮
して後述の短区間の直流分を除去するためのもの
である。5は分析区間決定部で、この分析区間決
定部5は上記下向き大振幅点IPN1より前の上向
き大振幅点IPN0を求め、両大振幅点IPN1,
IPN0の中間の振幅0の点を大振幅点IMiDとし、
この大振幅点IMiDを中心に上向き大振幅点IPN
0の半サイクルと下向き大振幅点IPN1の半サイ
クルとの1サイクルを含む短区間を決定するもの
である。ここで高速フーリエ変換のサンプル数と
しては64,128,256といつた2のべきになるのが
一般的であるが、ウインドウの計算の都合で、短
区間の長さとして32点と64点とを採用した。7は
高速フーリエ変換部で、この高速フーリエ変換部
7は高速フーリエ変換によつて周波数スペクトル
の包絡を求めるためのものであり、演算時には分
析窓計算部6によつて定められたスペクトルウイ
ンドウが掛けられる。分析窓計算部6は高速フー
リエ変換部7でのスペクトル包絡線抽出をより正
確にかつより少ない計算量(乗算回数)で行なえ
るように高速フーリエ変換にかけるスペクトルウ
インドウの長さ及び位置を最適化するためのもの
である。8は周波数帯域分割部で、この周波数帯
域分割部8は高速フーリエ変換部7で抽出され周
波数スペクトルを対数パワースペクトルにした後
の出力から各周波数成分の短時間平均パワー、例
えばUV,V,VH,VL,VF,VBの6成分を得
るためのもので有る。ここで、Vは音声入力中、
0〜1KHzの周波数帯域の短時間平均パワーをし
めしており、有声音のエネルギに対応している。
UVは音声入力中、5〜12KHzの周波数帯域の短
時間平均パワーを示しており、無声音のエネルギ
に対応している。また有声音のVL,VH,VB,
VFは夫々音声入力中、0〜0.5KHz、0.5〜1.0K
Hz、1.0〜2.0KHz、及び2.0〜4.0KHzの周波数帯域
の短時間平均パワーを示しており、夫々狭顎音、
広顎音、後舌音、及び前舌音のエネルギに対応し
ている。9は差信号ベクトル変換部で、この差信
号ベクトル変換部9は上記各短時間平均パワーよ
り、5音韻(i、e、a、o、u)が夫々eao/
iu、a/eo、e/o、i/uにほぼ分けられるよ
うにUV/V,VH/VL,VF/VB,VB/VL,
VF/VHの差信号ベクトルを求めるものである。
18は上記周波数帯域分割部8と、差信号ベクト
ル変換部9とが周波数帯域分割による差信号ベク
トルを求めるためのものであるに対して、ホルマ
ントベクトルを求めるためのホルマント軌跡変換
部であつて、スペクトル包絡のピーク周波数(ホ
ルマント周波数)を求めてホルマントベクトルと
しており、ホルマントベクトルの成分は各ホルマ
ントごとの平均値に対する差を成分とし、周波数
軸を対数あるいは線形スケールで表したものであ
る。尚ピツチ検出により各ホルマントごとの基準
周波数となる上記の平均値を男性、女性、子供と
いつたクラスに切り換えることによつて、認識率
の向上が図れる。第9図a,bは5母音のホルマ
ント分布と、ピークの位置を示す。10は記号ベ
クトル変換部で、この記号ベクトル変換部10は
上記差信号ベクトル又はホルマントベクトルと変
換行列とで記号ベクトル{i、e、a、o、u、
h、l、f、b、w}に変換するもので、変換行
列の値は記号に対応する差信号ベクトルあるいは
ホルマントベクトルの各成分の大きさに相当する
行成分を持つておればよい。11は始端・終端検
知部で、この始端・終端検知部11はUV/V差
信号が、ある設定値Ruより正のときUVと判定
し、ある設定値Rvより負のときVと判定し、そ
の中間をSと判定する有声、無声判定機能を備
え、UV、Vの判定により音声の始端を検知し、
無音がある設定値以上のサンプル数の間、継続す
ると終端と検知するものである。12は記号変換
処理部で、この記号変換処理部12はVの区間で
記号ベクトルの最大成分がある設定値以上の場合
にはその記号を出力し、設定値以下の場合にはm
を出力する。またUVとSとの区間では、夫々
UV、Sを出力する。13は整形処理部で、この
整形処理部13は同じ記号の繰り返しを一つの記
号とその継続時間とのリストに直し、さらに継続
時間が短いものは省略する。14は単語標準パタ
ーン記憶部で、この単語標準パターン記憶部14
は音声パターンを登録モードで登録して認識照合
時の標準パターンとするためのものである。予備
選択部15は認識モードにおいて、照合するまえ
にUVの数などで一次識別して照合対象を限定す
るための予備選択を行うためのものである。16
は時間軸正規化・照合部で、この時間軸正規化・
照合部16は上記リストの継続時間の合計が例え
ば200(あるいは1000)といつた一定値になるよう
に継続時間を正規化するための時間軸正規化機能
と、時間軸上で対応する対応する記号間の距離
(相関値)を求めて、これを、全サンプルについ
て合計したものをパターン間の距離とした第1表
に示す距離テーブルを用いて標準パターンと照合
する距離計算機能とからなる。
【表】
第1表において、横の欄及び縦の欄は夫々標準
パターンの記号及び入力パターンの記号に対応し
ており、例えば標準パターンの記号がaであつ
て、しかも入力パターンの記号もaであるときに
は、距離テーブルの出力は−2となり、近似度が
低いことをしめすものである。従つて距離計算機
能においては距離テーブルからの出力を順次加算
するだけでの演算操作により、入力パターンと標
準パターンとのパターン全体としての近似度を容
易に計算できるわけである。17は有意差検定部
で、この有意差検定部17は距離の最も近いパタ
ーンがある設定値より近く、さらに2番目に近い
ものより、ある設定値以上離れている場合に、こ
の最も近いパターンと入力パターンが同じとみな
し、他の場合には認識不良としてリジエクトする
有意差検定機能と、該認識結果を出力する結果出
力機能とを備えたものである。19は最適化フイ
ードバツク部で、この最適化フイードバツク部1
9は周波数帯域の分割の最適化と、差信号ベクト
ルのオフセツトの最適化をフイードバツク的に行
うために、学習モードにおいて話者の/i、e、
a、o、u/の発生の時系列を記憶して、予め標
準的に設定した分割周波数の近傍で分割周波数を
変動させて、記号ベクトルの感度特性に応じて変
動方向と量を、記号成分が最大となるように最適
化するものであり、この場合スペクトルの勾配
を、差信号ベクトルのオフセツトで補償し、特に
入力音声がイ音のときi成分が突出し、ア音のと
きa音が突出するようにし、また/e/、/u/
の識別がより確実となるように差信号入力のゲイ
ンバランスを調整する。この場合まずVH/VL
の最適調整、次にVF/VBの最適調整、更につ
ぎにVB/VLの最適調整を行うのである。 而して実施例ではサンプリング周期80μsec(サ
ンプリング周波数12.5KHz)で、フレーム長を
512サンプルとした。基本周波数の周期が最低で
90Hzとすると、139サンプルになり、256点の周波
数スペクトルを計算するためには通常の高速フー
リエ変換では512点の計算になり、乗算回数が29
×(24+25)=512×(16+32)=24576回になるが、
基本周期より短い区間の64サンプルを、512サン
プルのフレームより抜き出して分析すると、128
点の高速フーリエ変換でよいので27×(23+24)=
128×(8+16)=3072回の乗算で良い。また高速
フーリエ変換の前処理の分析窓の乗算は周波数ス
ペクトルのサンプル数と同じになるので、短区間
分析が簡易な方法として効果のあることがわか
る。第2図は第1図実施例のピツチ検出部4と分
析区間決定部5からなる特徴部分のフローチヤー
トを示し、1フレーム内の振幅の絶対値の平均値
IPOWを(1)で求め、(2)で30サンプルづつの平均値
がフレームの前半で最低となる下向き大振幅点
IPN1を検出し、更に(3)で次の下向き大振幅点
IPN3を検出し、そして(4)でこれらの下向き大振
幅点IPN1,IPN3からピツチIPit=IPN3−
IPN1を求める。ピツチ検出後(5)で前の上向き大
振幅点IPN0を下向き大振幅点IPN1より検出
し、両大振幅点IPN0,IPN1の中間の振幅0の
点より(6)で大振幅点IMiDとし、この大振幅点
IMiDを中心として上向き大振幅の半サイクルと
下向き大振幅の半サイクルからなる1サイクルを
含む短区間を決定する。次いで(7)で直流分補償を
行い、(8)で分析窓掛けを行い(9)で高速フーリエ変
換を行い、(10)で差信号ベクトルか、ホルマントベ
クトルかのモード選択を行い、(11)で周波数帯域分
割を、(12)でホルマント軌跡を求める。 第3図は本発明の具体的な回路図を示し、音声
はマイク18より入力され、プリアンプ19で増
幅されて、調整アンプ20でゲインとオフセツト
を調整される。次にA/D変換回路21で音声入
力をデイジタル変換を行い、デイジタル変換され
た音声フレームは音声フレームメモリ23に記憶
される。24はFFTプロセツサで、このFFTプ
ロセツサ24はコントロール部24aと、演算レ
ジスタ24bと、内蔵RAM24cと、係数を記
憶してある係数ROM24dとを備えた一般の
FETチツプからなり、音声フレームメモリ23
から読出した音声フレームを取り込み、高速フー
リエ変換をにウインドウをかけて行う。25はス
ペクトルフレームメモリで、FETプロセツサ2
4で演算されたスペクトルフレームを記憶するた
めのものである。22は音声フレームメモリ2
3、FFTプロセツサ24、スペクトルフレーム
メモリ25の動作タイミングを与えるタイミング
回路である。26はプログラムROM27に予め
書き込んである動作プログラムに基づいて制御演
算を行うCPUであり、照合モード時には照合演
算回路30を動作させて、スペクトルフレームメ
モリ25に格納してあるデータを記号化して予め
登録モード時に標準パターンRAM31に格納し
てある標準パターンとの照合演算を行つたり、あ
るいは登録モード時に入力音声のパターンを標準
パターンとして標準パターンRAM31に格納さ
せたり、更には学習モード時に上述の最適化フイ
ードバツクを行つたりする。図中32はターミナ
ル部、33はマイコンバス、28はワーキング
RAM、29は制御入出力部である。 第4図aはフレーム長を128点にして第4図b
に示す時間波形の大振幅位置に合わせた基本周期
分の分析例を示し、第5図は本方式による場合の
分析例を示し、同図aは同図bに示す/I/音の
時間波形にフレーム長64点(高速フーリエ変換は
128点)のウインドウを掛けて高速フーリエ変換
を行つたシユミレーシヨン結果である。又第6図
は本方式による場合の分析例を示し、同図aは同
図bに示す/I/音の時間波形にフレーム長32点
(高速フーリエ変換は64点)のウインドウを掛け
て高速フーリエ変換を行つたシミユレーシヨン結
果である。 尚第7図は記号化のプロセスを示す。同図にお
いて、Vは音声入力中、0〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、UVは音声入力中、
5〜12KHzの周波数帯域の短時間平均パワーを示
しており、無声音のエネルギに対応している。さ
らに、VL,VH,VB,VFは夫々音声入力中、
0〜0.4KHz、0.4〜0.8KHz、及び1.8〜3.2KHzの周
波数帯域の短時間平均パワーを示しており、夫々
狭顎音、広顎音、後舌音、及び前舌音のエネルギ
に対応している。S0〜S4は差動増幅手段であり、
夫々差信号V/UV,Veao/Viu,Va/Veo,
Ve/Vo,Vi/Vuを算出するものである。C0は
比較手段であり、上記差動増幅手段S0から出力さ
れる差信号成分が、基準値Rvよりも小さいとき
には有声音Vの符号を割り当て、基準値Ruより
も大きい時には無声音しVの符号をの符号を割り
当て、それ以外の場合には無音Sと判定する。た
だし、Ru>O>Rvである。MY0は記号化処理部
で、この記号化処理部MY0は無音、有声音及び
無声音の各場合についてSVUVの各符号の内い
ずれか1つの符号を入力する。MC0は各差信号
出力Vea/Viu,Va/Vea,Ve/Vo,Vi/Vu
を成分とする4次元ベクトルに所定の行列Tmを
乗算した、音声入力中に含まれる各母音i、e、
a、o、u、とその他の有声音h、i、f、b、
wの短時間平均パワーを算出するものであり、行
列計算部MC0の出力は最大値判定部MX0に入力
されて各成分i、e、a、o、u、h、l、f、
b、wの内最大の成分がどれであるかを判定さ
れ、その最大の成分の符号が記号化処理部MY0
に入力される。但し最大の成分と2番目に大きい
成分との差が小さいときには符号mが出力され
る。記号化処理部MY0は比較手段C0から出力さ
れる符号がVであるときには、最大値判定部
MX0から出力されるi、e、a、o、u、h、
l、f、b、w及びmの内のいずれか1つの符号
を出力し、又比較手段C0から出力される符号が
U又はSであるときには、その符号をそのまま出
力するものである。尚行列計算部MC0の変換行
列Tmとしては(1)〜(3)式のようなものが使用可能
である。 〔Tm〕=−17, 17, 17, 17, −17, 18, −18, 0, 0, 13,0, 0, 17, 0, 0, 0, 0, 0, 0, 0,0, 17, 0, −17, 0, 0, 0, 18, −18, 0,17 0 0 0 0 0 0 0 0 −13 …(1) 〔Tm〕=−16, 16, 16, 16, −16, 18, −18, 0, 0, 13,−8, −8, 16, −8, −8, 0, 0, 0, 0, 0,0, 16, 0, −16, 0, 0, 0, 18, −18, 0,16 0 −8 0 −16 0 0 0 0 −13 …(2) 〔Tm〕=−14, 14, 14, 14, −14, 18, −18, 0, 0, 13−14, −14, 14, −14, −14, 0, 0, 0, 0, 0,0, 14, 0, −14, 0, 0, 0, 18, −18, 0,14 0 −14 0 −14 0 0 0 0 −13 ……(3) まず(1)式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、(2)式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、(3)式は第1ホルマントF1に関する差信号に
対する5母音の要素を総て同じ大きさの重み(絶
対値14)にするとともに、第2ホルマントF2に
関する2つの差信号に関しては、5母音に対し
て、どちらかに1個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものといえる。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。この第3図のAPは上述した調
整アンプ20の特性を示している。 又上述の照合方法以外に、差信号から2値化信
号を作つてこの組み合わせで記号化し、逐次照合
することも可能である。この方法としては次のよ
うなものがある。つまり短時間平均パワーのベク
トルより求めたUV/V差信号、Veao/Viu差信
号、Va/Veo差信号、Ve/Vo差信号、Vi/Vu
差信号を抽出してVeao/Viu差信号が正の一定
値以上あれば記号Veaoを割り当て、負の一定値
以下であるときには記号Viuを割り当て、その他
の場合には記号Sを割り当て、Va/Veo差信号
が正の一定値以上であるときには記号Vaを割り
当て、負の一定値以下であるときには記号Veoを
割り当て、その他の場合には記号Sを割り当て、
Ve/Vo差信号が正の一定値以上であるときには
記号Veを割り当て、負の一定値以下であるとき
には記号Voを割り当て、その他の場合には記号
Sを割り当て、更にVi/Vu差信号が正の一定値
以上であるときには記号Viを割り当て、負の一
定値以下であるときには記号Vuを割り当て、そ
の他の場合には記号Sを割り当てる。そしてこれ
らの記号を一時記憶手段に記憶して第2表に示す
記号化テーブルを参照しながら記号a、e、o、
i、u、h、l、f、b、w、mのうちいずれか
1つの記号に変換する。
パターンの記号及び入力パターンの記号に対応し
ており、例えば標準パターンの記号がaであつ
て、しかも入力パターンの記号もaであるときに
は、距離テーブルの出力は−2となり、近似度が
低いことをしめすものである。従つて距離計算機
能においては距離テーブルからの出力を順次加算
するだけでの演算操作により、入力パターンと標
準パターンとのパターン全体としての近似度を容
易に計算できるわけである。17は有意差検定部
で、この有意差検定部17は距離の最も近いパタ
ーンがある設定値より近く、さらに2番目に近い
ものより、ある設定値以上離れている場合に、こ
の最も近いパターンと入力パターンが同じとみな
し、他の場合には認識不良としてリジエクトする
有意差検定機能と、該認識結果を出力する結果出
力機能とを備えたものである。19は最適化フイ
ードバツク部で、この最適化フイードバツク部1
9は周波数帯域の分割の最適化と、差信号ベクト
ルのオフセツトの最適化をフイードバツク的に行
うために、学習モードにおいて話者の/i、e、
a、o、u/の発生の時系列を記憶して、予め標
準的に設定した分割周波数の近傍で分割周波数を
変動させて、記号ベクトルの感度特性に応じて変
動方向と量を、記号成分が最大となるように最適
化するものであり、この場合スペクトルの勾配
を、差信号ベクトルのオフセツトで補償し、特に
入力音声がイ音のときi成分が突出し、ア音のと
きa音が突出するようにし、また/e/、/u/
の識別がより確実となるように差信号入力のゲイ
ンバランスを調整する。この場合まずVH/VL
の最適調整、次にVF/VBの最適調整、更につ
ぎにVB/VLの最適調整を行うのである。 而して実施例ではサンプリング周期80μsec(サ
ンプリング周波数12.5KHz)で、フレーム長を
512サンプルとした。基本周波数の周期が最低で
90Hzとすると、139サンプルになり、256点の周波
数スペクトルを計算するためには通常の高速フー
リエ変換では512点の計算になり、乗算回数が29
×(24+25)=512×(16+32)=24576回になるが、
基本周期より短い区間の64サンプルを、512サン
プルのフレームより抜き出して分析すると、128
点の高速フーリエ変換でよいので27×(23+24)=
128×(8+16)=3072回の乗算で良い。また高速
フーリエ変換の前処理の分析窓の乗算は周波数ス
ペクトルのサンプル数と同じになるので、短区間
分析が簡易な方法として効果のあることがわか
る。第2図は第1図実施例のピツチ検出部4と分
析区間決定部5からなる特徴部分のフローチヤー
トを示し、1フレーム内の振幅の絶対値の平均値
IPOWを(1)で求め、(2)で30サンプルづつの平均値
がフレームの前半で最低となる下向き大振幅点
IPN1を検出し、更に(3)で次の下向き大振幅点
IPN3を検出し、そして(4)でこれらの下向き大振
幅点IPN1,IPN3からピツチIPit=IPN3−
IPN1を求める。ピツチ検出後(5)で前の上向き大
振幅点IPN0を下向き大振幅点IPN1より検出
し、両大振幅点IPN0,IPN1の中間の振幅0の
点より(6)で大振幅点IMiDとし、この大振幅点
IMiDを中心として上向き大振幅の半サイクルと
下向き大振幅の半サイクルからなる1サイクルを
含む短区間を決定する。次いで(7)で直流分補償を
行い、(8)で分析窓掛けを行い(9)で高速フーリエ変
換を行い、(10)で差信号ベクトルか、ホルマントベ
クトルかのモード選択を行い、(11)で周波数帯域分
割を、(12)でホルマント軌跡を求める。 第3図は本発明の具体的な回路図を示し、音声
はマイク18より入力され、プリアンプ19で増
幅されて、調整アンプ20でゲインとオフセツト
を調整される。次にA/D変換回路21で音声入
力をデイジタル変換を行い、デイジタル変換され
た音声フレームは音声フレームメモリ23に記憶
される。24はFFTプロセツサで、このFFTプ
ロセツサ24はコントロール部24aと、演算レ
ジスタ24bと、内蔵RAM24cと、係数を記
憶してある係数ROM24dとを備えた一般の
FETチツプからなり、音声フレームメモリ23
から読出した音声フレームを取り込み、高速フー
リエ変換をにウインドウをかけて行う。25はス
ペクトルフレームメモリで、FETプロセツサ2
4で演算されたスペクトルフレームを記憶するた
めのものである。22は音声フレームメモリ2
3、FFTプロセツサ24、スペクトルフレーム
メモリ25の動作タイミングを与えるタイミング
回路である。26はプログラムROM27に予め
書き込んである動作プログラムに基づいて制御演
算を行うCPUであり、照合モード時には照合演
算回路30を動作させて、スペクトルフレームメ
モリ25に格納してあるデータを記号化して予め
登録モード時に標準パターンRAM31に格納し
てある標準パターンとの照合演算を行つたり、あ
るいは登録モード時に入力音声のパターンを標準
パターンとして標準パターンRAM31に格納さ
せたり、更には学習モード時に上述の最適化フイ
ードバツクを行つたりする。図中32はターミナ
ル部、33はマイコンバス、28はワーキング
RAM、29は制御入出力部である。 第4図aはフレーム長を128点にして第4図b
に示す時間波形の大振幅位置に合わせた基本周期
分の分析例を示し、第5図は本方式による場合の
分析例を示し、同図aは同図bに示す/I/音の
時間波形にフレーム長64点(高速フーリエ変換は
128点)のウインドウを掛けて高速フーリエ変換
を行つたシユミレーシヨン結果である。又第6図
は本方式による場合の分析例を示し、同図aは同
図bに示す/I/音の時間波形にフレーム長32点
(高速フーリエ変換は64点)のウインドウを掛け
て高速フーリエ変換を行つたシミユレーシヨン結
果である。 尚第7図は記号化のプロセスを示す。同図にお
いて、Vは音声入力中、0〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、UVは音声入力中、
5〜12KHzの周波数帯域の短時間平均パワーを示
しており、無声音のエネルギに対応している。さ
らに、VL,VH,VB,VFは夫々音声入力中、
0〜0.4KHz、0.4〜0.8KHz、及び1.8〜3.2KHzの周
波数帯域の短時間平均パワーを示しており、夫々
狭顎音、広顎音、後舌音、及び前舌音のエネルギ
に対応している。S0〜S4は差動増幅手段であり、
夫々差信号V/UV,Veao/Viu,Va/Veo,
Ve/Vo,Vi/Vuを算出するものである。C0は
比較手段であり、上記差動増幅手段S0から出力さ
れる差信号成分が、基準値Rvよりも小さいとき
には有声音Vの符号を割り当て、基準値Ruより
も大きい時には無声音しVの符号をの符号を割り
当て、それ以外の場合には無音Sと判定する。た
だし、Ru>O>Rvである。MY0は記号化処理部
で、この記号化処理部MY0は無音、有声音及び
無声音の各場合についてSVUVの各符号の内い
ずれか1つの符号を入力する。MC0は各差信号
出力Vea/Viu,Va/Vea,Ve/Vo,Vi/Vu
を成分とする4次元ベクトルに所定の行列Tmを
乗算した、音声入力中に含まれる各母音i、e、
a、o、u、とその他の有声音h、i、f、b、
wの短時間平均パワーを算出するものであり、行
列計算部MC0の出力は最大値判定部MX0に入力
されて各成分i、e、a、o、u、h、l、f、
b、wの内最大の成分がどれであるかを判定さ
れ、その最大の成分の符号が記号化処理部MY0
に入力される。但し最大の成分と2番目に大きい
成分との差が小さいときには符号mが出力され
る。記号化処理部MY0は比較手段C0から出力さ
れる符号がVであるときには、最大値判定部
MX0から出力されるi、e、a、o、u、h、
l、f、b、w及びmの内のいずれか1つの符号
を出力し、又比較手段C0から出力される符号が
U又はSであるときには、その符号をそのまま出
力するものである。尚行列計算部MC0の変換行
列Tmとしては(1)〜(3)式のようなものが使用可能
である。 〔Tm〕=−17, 17, 17, 17, −17, 18, −18, 0, 0, 13,0, 0, 17, 0, 0, 0, 0, 0, 0, 0,0, 17, 0, −17, 0, 0, 0, 18, −18, 0,17 0 0 0 0 0 0 0 0 −13 …(1) 〔Tm〕=−16, 16, 16, 16, −16, 18, −18, 0, 0, 13,−8, −8, 16, −8, −8, 0, 0, 0, 0, 0,0, 16, 0, −16, 0, 0, 0, 18, −18, 0,16 0 −8 0 −16 0 0 0 0 −13 …(2) 〔Tm〕=−14, 14, 14, 14, −14, 18, −18, 0, 0, 13−14, −14, 14, −14, −14, 0, 0, 0, 0, 0,0, 14, 0, −14, 0, 0, 0, 18, −18, 0,14 0 −14 0 −14 0 0 0 0 −13 ……(3) まず(1)式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、(2)式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、(3)式は第1ホルマントF1に関する差信号に
対する5母音の要素を総て同じ大きさの重み(絶
対値14)にするとともに、第2ホルマントF2に
関する2つの差信号に関しては、5母音に対し
て、どちらかに1個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものといえる。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。この第3図のAPは上述した調
整アンプ20の特性を示している。 又上述の照合方法以外に、差信号から2値化信
号を作つてこの組み合わせで記号化し、逐次照合
することも可能である。この方法としては次のよ
うなものがある。つまり短時間平均パワーのベク
トルより求めたUV/V差信号、Veao/Viu差信
号、Va/Veo差信号、Ve/Vo差信号、Vi/Vu
差信号を抽出してVeao/Viu差信号が正の一定
値以上あれば記号Veaoを割り当て、負の一定値
以下であるときには記号Viuを割り当て、その他
の場合には記号Sを割り当て、Va/Veo差信号
が正の一定値以上であるときには記号Vaを割り
当て、負の一定値以下であるときには記号Veoを
割り当て、その他の場合には記号Sを割り当て、
Ve/Vo差信号が正の一定値以上であるときには
記号Veを割り当て、負の一定値以下であるとき
には記号Voを割り当て、その他の場合には記号
Sを割り当て、更にVi/Vu差信号が正の一定値
以上であるときには記号Viを割り当て、負の一
定値以下であるときには記号Vuを割り当て、そ
の他の場合には記号Sを割り当てる。そしてこれ
らの記号を一時記憶手段に記憶して第2表に示す
記号化テーブルを参照しながら記号a、e、o、
i、u、h、l、f、b、w、mのうちいずれか
1つの記号に変換する。
【表】
【表】
ただし、第2表において*は0、1のいずれで
もよいことを示しており、0/1は0の場合と1
の場合を示している。かかる記号化テーブルは例
えばROMなどを用いて構成されており、一時記
憶した内容をアドレス入力としてROMをアクセ
スすることにより、a、e、o……等の各記号の
コードがデータ出力として得られるようにする
か、あるいは一時記憶した内容と記号化テーブル
の内容とを排他的論理和で比較し、一致したとき
の記号を出力するとよい。第9図は照合部をマイ
クロコンピユータの逐次判別処理プログラムによ
つて実現する方法を示すフローチヤートであり、
まず第1段階としてVeo/Viu差信号が高レベル
Hであるか、中レベルMであるか、低レベルLで
あるかによつて、3グループに分けている。そし
て第2段階では、まず第1段階がHのときは、
Va/Veo差信号がHならば、記号/a/を出力
し、Mならば記号/Vo/を出力し、Lならば第
3段階に移り、Ve/Vo差信号を調べて、Hなら
ば記号/e/を出力し、Mならば/h/を出力
し、Lならば記号/o/を出力する。一方、第1
段階がMの場合、第2段階では、Ve/Vo差信号
がHならば記号/f/を出力し、Mならば記号/
m/を出力し、Lならば記号/b/を出力する。
更に第1段階がLの場合、第2段階ではVi/Vu
差信号がAHならば記号/i/を出力し、Mなら
ば記号/l/を出力し、Lならば記号/u/を出
力するのである。 上述に実施例は直交変換として高速フーリエ変
換を用いてあるが、ウオルシユ変換を用いてもよ
い。 [発明の効果] 本発明は上述のように構成し音声入力の時間波
形の正負が声帯振動の向きに対して一定であるよ
うに正負の位相を保ち、声帯振動の微分波形音声
の時間波形を上向き大振幅点とし、その上向き大
振幅点の次ぎの下向きの大振幅点を声帯振動の立
ち下がりによる声帯振動の微分波形に対応させ有
声音について下向き大振幅点を音声サンプルの短
時間平均値の下向きの最大値の点でフレーム平均
値よりも大きな大きさの点として検出する手段
と、この下向き大振幅点の前の上向き大振幅点と
の中間を大振幅点として検出し、この大振幅点を
中心に短区間分析区間を決定する手段とを備え、
この決定された短区間分析区間の直流分を除去し
て分析窓をかけ短区間分析によつて音声入力の周
波数スペクトルの包絡線を抽出するので、入力音
声の情報量の大きな大振幅区間のみを短区間分析
するのでマクロな特徴が簡単に検出することがで
き、とくに音源波形の影響があるとしても、基本
周期の影響が無いため、スペクトル包絡が簡単に
求められ、話者の個人差や、声帯振動の影響が少
なくかつ計算量が少なくて高い認識が行えるとい
う効果がある。
もよいことを示しており、0/1は0の場合と1
の場合を示している。かかる記号化テーブルは例
えばROMなどを用いて構成されており、一時記
憶した内容をアドレス入力としてROMをアクセ
スすることにより、a、e、o……等の各記号の
コードがデータ出力として得られるようにする
か、あるいは一時記憶した内容と記号化テーブル
の内容とを排他的論理和で比較し、一致したとき
の記号を出力するとよい。第9図は照合部をマイ
クロコンピユータの逐次判別処理プログラムによ
つて実現する方法を示すフローチヤートであり、
まず第1段階としてVeo/Viu差信号が高レベル
Hであるか、中レベルMであるか、低レベルLで
あるかによつて、3グループに分けている。そし
て第2段階では、まず第1段階がHのときは、
Va/Veo差信号がHならば、記号/a/を出力
し、Mならば記号/Vo/を出力し、Lならば第
3段階に移り、Ve/Vo差信号を調べて、Hなら
ば記号/e/を出力し、Mならば/h/を出力
し、Lならば記号/o/を出力する。一方、第1
段階がMの場合、第2段階では、Ve/Vo差信号
がHならば記号/f/を出力し、Mならば記号/
m/を出力し、Lならば記号/b/を出力する。
更に第1段階がLの場合、第2段階ではVi/Vu
差信号がAHならば記号/i/を出力し、Mなら
ば記号/l/を出力し、Lならば記号/u/を出
力するのである。 上述に実施例は直交変換として高速フーリエ変
換を用いてあるが、ウオルシユ変換を用いてもよ
い。 [発明の効果] 本発明は上述のように構成し音声入力の時間波
形の正負が声帯振動の向きに対して一定であるよ
うに正負の位相を保ち、声帯振動の微分波形音声
の時間波形を上向き大振幅点とし、その上向き大
振幅点の次ぎの下向きの大振幅点を声帯振動の立
ち下がりによる声帯振動の微分波形に対応させ有
声音について下向き大振幅点を音声サンプルの短
時間平均値の下向きの最大値の点でフレーム平均
値よりも大きな大きさの点として検出する手段
と、この下向き大振幅点の前の上向き大振幅点と
の中間を大振幅点として検出し、この大振幅点を
中心に短区間分析区間を決定する手段とを備え、
この決定された短区間分析区間の直流分を除去し
て分析窓をかけ短区間分析によつて音声入力の周
波数スペクトルの包絡線を抽出するので、入力音
声の情報量の大きな大振幅区間のみを短区間分析
するのでマクロな特徴が簡単に検出することがで
き、とくに音源波形の影響があるとしても、基本
周期の影響が無いため、スペクトル包絡が簡単に
求められ、話者の個人差や、声帯振動の影響が少
なくかつ計算量が少なくて高い認識が行えるとい
う効果がある。
第1図は本発明の実施例の概略回路構成図、第
2図は同上の要部の動作説明用のフローチヤー
ト、第3図は同上の具体回路図、第4図乃至第6
図は同上の動作説明図、第7図は本発明の実施例
の記号化プロセスを説明する回路ブロツク図、第
8図は本発明の別の照合例をの動作説明用のフロ
ーチヤート、第9図はホルトマン軌跡についての
説明用波形図であり、3は区間補償部、4はピツ
チ検出部、5は分析区間決定部、6は分析窓計算
部、7は高速フーリエ変換部、8は周波数帯域分
割部、9は差信号ベクトル変換部、10は記号ベ
クトル変換部、12は記号化処理部、16は時間
軸正規化・照合部、18はホルトマル軌跡変換部
である。
2図は同上の要部の動作説明用のフローチヤー
ト、第3図は同上の具体回路図、第4図乃至第6
図は同上の動作説明図、第7図は本発明の実施例
の記号化プロセスを説明する回路ブロツク図、第
8図は本発明の別の照合例をの動作説明用のフロ
ーチヤート、第9図はホルトマン軌跡についての
説明用波形図であり、3は区間補償部、4はピツ
チ検出部、5は分析区間決定部、6は分析窓計算
部、7は高速フーリエ変換部、8は周波数帯域分
割部、9は差信号ベクトル変換部、10は記号ベ
クトル変換部、12は記号化処理部、16は時間
軸正規化・照合部、18はホルトマル軌跡変換部
である。
Claims (1)
- 【特許請求の範囲】 1 音声入力の周波数スペクトルを抽出する手段
と、対数パワースペクトルを周波数分割して各周
波数帯域毎の短時間平均パワーを取り出しこれら
短時間平均パワーから5母音i,e,a,o,u
がe,a,oとi,uの比率、aとe,oの比
率、eとoの比率、iとuの比率に分かれるよう
に差信号ベクトルを抽出するか、あるいはホルマ
ント軌跡からホルマントベクトルを求めて、差信
号ベクトル又はホルマントベクトルに変換行列を
乗算して5母音及びその他の有音声の記号ベクト
ルを算出する行列計算手段と、該行列計算手段か
ら出力される記号ベクトルの各成分のうち最大の
成分を分析フレームの擬音韻記号として出力する
手段と、該擬音韻記号に基づいて記号と継続時間
からなる入力パターンを予め記憶してある標準パ
ターンとを時間軸あるいは記号によつて照合して
入力パターンに最も近い標準パターンを入力メツ
セージとして識別することを特徴とする音声メツ
セージ識別方式において、音声入力の時間波形の
正負が声帯振動の向きに対して一定であるように
正負の位相を保ち、声帯振動の微分波形に対応さ
せて声帯振動の立ち上がりによる微分波形に対応
する音声の時間波形を上向き大振幅点とし、その
上向き大振幅点の次ぎの下向きの水振幅点を声帯
振動の立ち下がりによる声帯振動の微分波形に対
応させ有声音について下向き大振幅点を音声サン
プルの短時間平均値の下向きの最大値の点でフレ
ーム平均値よりも大きな大きさの点として検出す
る手段と、この下向き大振幅点の前の上向き大振
幅点との中間を大振幅点として検出し、この大振
幅点を中心に短区間分析区間を決定する手段とを
備え、この決定された短区間分析区間の直流分を
除去して分析窓をかけ短区間分析によつて音声入
力の周波数スペクトルの包絡線を抽出することを
特徴とする音声メツセージ識別方式。 2 上記短区間の幅を有声音の大振幅時点の1サ
イクルを含めることを特徴とする特許請求の範囲
第1項記載の音声メツセージ識別方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10693684A JPS60250398A (ja) | 1984-05-25 | 1984-05-25 | 音声メツセ−ジ識別方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10693684A JPS60250398A (ja) | 1984-05-25 | 1984-05-25 | 音声メツセ−ジ識別方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60250398A JPS60250398A (ja) | 1985-12-11 |
| JPH0462596B2 true JPH0462596B2 (ja) | 1992-10-06 |
Family
ID=14446274
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10693684A Granted JPS60250398A (ja) | 1984-05-25 | 1984-05-25 | 音声メツセ−ジ識別方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60250398A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS619698A (ja) * | 1984-06-25 | 1986-01-17 | 松下電工株式会社 | 音声メツセ−ジ識別方式 |
-
1984
- 1984-05-25 JP JP10693684A patent/JPS60250398A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60250398A (ja) | 1985-12-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0219109B1 (en) | Method of analyzing input speech and speech analysis apparatus therefor | |
| US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
| Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
| Claes et al. | A novel feature transformation for vocal tract length normalization in automatic speech recognition | |
| US4956865A (en) | Speech recognition | |
| US20100332222A1 (en) | Intelligent classification method of vocal signal | |
| EP0192898A1 (en) | Speech recognition | |
| JPH0462596B2 (ja) | ||
| Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
| JPH0462597B2 (ja) | ||
| JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
| Siegel et al. | A pattern classification algorithm for the voiced/unvoiced decision | |
| Zergat et al. | Robust support vector machines for speaker verification task | |
| JPH0251520B2 (ja) | ||
| JPH1097269A (ja) | 音声検出装置及び方法 | |
| Mut et al. | Improved Weighted Matching for Speaker Recognition. | |
| Claes et al. | New transformations of cepstral parameters for automatic vocal tract length normalization in speech recognition. | |
| Naing et al. | Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition | |
| JPS619698A (ja) | 音声メツセ−ジ識別方式 | |
| JPS60241099A (ja) | 音声メツセ−ジ識別方式 | |
| JPH0311478B2 (ja) | ||
| Skogstad et al. | Time-varying cepstral coefficients | |
| JPH0230520B2 (ja) | Onseimetsuseejishikibetsuhoshiki | |
| Zieliński et al. | Application of Human Factor Cepstral Coefficients to Robust Recognition of Pathological Pronunciation in Noisy Environment | |
| JPH02717B2 (ja) |