JPS6336677B2 - - Google Patents

Info

Publication number
JPS6336677B2
JPS6336677B2 JP57036048A JP3604882A JPS6336677B2 JP S6336677 B2 JPS6336677 B2 JP S6336677B2 JP 57036048 A JP57036048 A JP 57036048A JP 3604882 A JP3604882 A JP 3604882A JP S6336677 B2 JPS6336677 B2 JP S6336677B2
Authority
JP
Japan
Prior art keywords
phoneme
recognition
distribution
peak
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57036048A
Other languages
English (en)
Other versions
JPS58152300A (ja
Inventor
Ikuo Inoe
Katsuyuki Futayada
Satoshi Fujii
Hideji Morii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57036048A priority Critical patent/JPS58152300A/ja
Publication of JPS58152300A publication Critical patent/JPS58152300A/ja
Publication of JPS6336677B2 publication Critical patent/JPS6336677B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、単語音声認識を行なうために用いら
れる音韻記号の時系列を与える音素認識方法に関
する。
最初に、単語音声認識における音素認識の位置
づけを、図面を参照しながら簡単に説明する。
第1図は、音素認識部を含む単語音声認識方法
を示すブロツク図である。音声入力部1に入つた
単語音声データは、特徴抽出部2に送られ、特徴
パラメータが抽出される。抽出された特徴パラメ
ータは、次の音素認識部3で音素標準パターン格
納部4の音素標準パターンパラメータと逐次比較
され、一致の度合を示す類似度が計算される。こ
こで、類似度最大となつた標準パターンの音素が
音素認識部3での音素認識結果となり、この様に
して得られた認識音素の時系列が、次の誤り訂正
処理部5へ送られる。認識音素の時系列は、誤り
訂正処理部5で、言語の音形規則等を基に修正が
加えられ、今度は、単語認識部6で単語標準パタ
ーン格納部7の標準パターンと逐次比較され、類
似度の計算が行なわれる。得られた類似度の中で
最大となつた標準パターンの単語が単語認識結果
となり、認識結果出力部8から出力される。この
様に、音素認識を行なう単語音声認識方法では、
通常、音素認識部と単語認識部との二段構成にな
つており、単語認識の前処理として、音素認識は
重要な役割を果たしている。
従来より音声波形のパワースペクトルのピーク
が多くの音韻情報を含んでいる事が音響学的に認
められている。このことに着目して、音声波形の
パワースペクトルの第1及び第2フオルマントの
位置f1、f2の分布を利用して音素認識を行なうも
のとして、従来、判別図による方法が考えられて
いる。この判別図による方法というのは、第2図
に示す様に、各音韻毎に求めたf1、f2の分布をf1
−f2平面上にとり、各音韻毎に境界を定め、境界
の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトル
により求められたf1、f2が、該判別図のどの境界
内に入るかによつて認識音素を決定する方法であ
る。
第2図は5母音についての判別図の例で、9,
10,11,12,13はそれぞれ母音/
i/、/e/、/a/、/o/、/u/の領域
に、また、14,15,16,17,18はそれ
ぞれ曖昧領域に対応する。しかし、この方法によ
ると、境界の中央にあつても、境界の端にあつて
も、あるいは、分布の中心にあつても、分布の端
にあつても一率に認識音素が決まつてしまうた
め、後の誤り訂正処理等への情報量の欠落を生ず
ると共に、一度音素認識誤りを生ずると、誤り訂
正処理が困難になつてしまうという欠点があり、
更に、この方法では、パワースペクトルのピーク
の位置の情報のみしか用いていない為、個人差に
よるピークの位置のバラツキにより、誤認識を起
こし易いという欠点があつた。
本発明は、以上の様な従来の方法の欠点を解決
する為の手段を与えるものである。
本発明は大勢の話者の発した多くの単語音声デ
ータを基に、各音素のパワースペクトルのピーク
の位置の統計的分布を求め、音素ごとにそれぞれ
のピーク位置の分布関数値に重みづけを行なつた
ものを利用して音素認識を行なおうとするもので
ある。
以下、図面を参照しながら本発明を詳細に説明
する。
音素認識の対象となる音素は、母音、有声子
音、無声子音などのいくつかのカテゴリーに分類
でき、各々のカテゴリー内で音素認識を行なう。
ここでは簡単のため、母音のみを例にとり説明す
る。
先ず、大勢の話者の発声した多くの単語音声デ
ータの中から母音の区間を抜き出し、フイルタバ
ンク法や線形予測法等を用いてそれらのパワース
ペクトルを求め、各母音毎にフオルマント周波数
の分布を求める。第3図は、その一例として、横
軸に周波数、縦軸に出現頻度をとり、多数話者に
よる音声データを基に、各母音の第1から第3フ
オルマントまでのフオルマント周波数の出現頻度
分布を求めたものであり、周波数の低い方から順
に、第1、第2、第3フオルマント周波数の分布
を示す。各母音の第1から第3フオルマント周波
数の分布は、それぞれの音韻に特徴的な分布の示
しており、このことからも、フオルマント周波数
が、音韻識別の重要なパラメータの一つであるこ
とがわかる。実際に、これらの分布を用いる際に
は、各分布が正規分布するものと見做せるので、
それぞれを正規分布で近似したものを用いてもよ
い。
ここで、5母音/a/、/i/、/u/、/
e/、/o/について、それぞれ添字i(i=1、
2、3、4、5)を対応させ、先に得られた、各
母音の第jフオルマントに対するフオルマント周
波数の分布関数を、周波数fの関数として、Fij
(f)とおく。各母音の出現頻度は一様ではないの
で、このままの分布を用いると各音韻について同
等の比較が出来ないため、各分布とも、全体が1
となる様に正規化を施したものを、あらためて
Fij(f)とする。
次に、以上で求めた各フオルマント周波数の分
布関数Fij(f)を用いて音素認識を行なう際の尺度
となる尤度を定義する。この場合の尤度は、ある
音素について、入力がその音素の特徴を良く表わ
しているもの程スコアの高くなる様に設定された
尺度であり、認識すべき音声波形のパワースペク
トルの第jフオルマントに対するフオルマント周
波数をfj、重みづけ系数をAij、5母音の各尤度
をRiとして(1)式の様に定義する。
Ri=kj=1 AijFij(fj) ……(1) (i=1、2、3、4、5;k:整数) すなわち、尤度Riは、入力音声の各フオルマ
ント周波数fjに対応する分布関数の値Fij(fj)に、
係数Aijを卦けて重みづけしたものの総和で表わ
される。
ここで、重みづけ係数Aijは各母音毎に、それ
ぞれの母音の認識率が最大となる様に決定する。
実際には計算機によつてAijの値を変えながら、
認識のシミユレーシヨンを行なつて決定するのが
よいが、計算時間等の問題から、簡単の為Aijの
代わりに各分布の分散σijを用いることも出来る。
更に、Aijの他に、音韻情報を含んだ重みづけ
係数、例えば、第4図に示す入力音声波形のパワ
ースペクトルの各フオルマント周波数fjに於ける
スペクトルの大きさSjを卦けた(2)式 Ri=kj=1 SjAijFij(fj) ……(2) (i=12345;k:整数) を用いれば、より一層各母音の認識率を向上させ
ることが可能である。
以上の様な方法により求めた各母音の尤度のう
ち、最大の値をとる母音を認識結果とする事によ
り音素認識を行なう。
ここで、本認識方法を用いた事による効果の例
を説明する。
簡単の為に、式(1)においてAij=1(i=1、
2、3、4、5;j=1、2、3)とすれば、尤
度Riは、各フオルマント周波数におけるそれぞ
れの分布関数値の和として表わされる。分布関数
Fij(f)は、各母音の各フオルマント周波数の分布
の中心にある程高い値をとるから、それぞれのフ
オルマント周波数が分布の中心に近い程、尤度
Riは高い値をとる。
第5図は、入力音声/i/のパワースペクトル
20の第1フオルマントのフオルマント周波数f1
が、発声者の個人性の為に周波数の高い方へずれ
て、/u/の第1フオルマント周波数の分布の中
心に来た例である。この場合、入力音声のパワー
スペクトルの第1から第3フオルマントまでのフ
オルマント周波数f1、f2、f3全てが/i/及び/
u/の各フオルマント周波数分布の領域内に入つ
ている為、従来の判別図による方法では両者のあ
いまい領域に入つてしまい区別されない。
しかし、本認識方法によれば、第5図で、第2
フオルマント周波数f2に対する/i/の分布関数
値F22(f2)が/u/の分布関数値F32(f2)よりも
大きくなつており、全体として R2>R3 となつて/i/と認識される。ここで、最適化さ
れたAij及び、スペクトルの大きさSijを用いれ
ば、更に明確に/i/と/u/の分離を行なう事
ができる。もし仮りに、僅かの差で R2<R3 となつた場合でも、それが僅かの差であるという
数値情報の誤り訂正処理部に伝える事が出来るた
め、誤り訂正処理に於ても効果を発揮する。すな
わち、本認識方法によれば、従来の判別図による
方法に於て曖昧領域として残していた部分に対し
てより確実な音素認識を行なう手だてを与える事
を可能にすると共に、複数の音素を認識結果とし
て尤度情報と併せて誤り訂正処理部へ送れば、情
報量を減らすことなく、効果的な誤り訂正処理を
可能とし、その結果、特定話者に対してはもちろ
ん、特に、不特定話者に対し音素認識率及び単語
認識率を大幅に向上させる効果がある。
以上の説明では母音を例にとつたが、本発明は
何ら母音のみの場合に限定されるものではなく、
半母音、有声子音、無声子音等についても本発明
の原理を適用する事により、同様の効果が得られ
るものである。
【図面の簡単な説明】
第1図は音素認識部を含む単語音声認識方法の
基本的な構成を示すブロツク図、第2図は母音判
別方法の一例を示す図、第3図は、本発明の認識
方法において利用する各母音の第3フオルマント
までのフオルマント周波数の分布を示す図、第4
図は、入力音声波形のパワースペクトルの例を示
す図、第5図は、入力音声波形/i/のパワース
ペクトルと/i/及び/u/の各フオルマント周
波数分布との対比を示す図である。 1……音声入力部、2……特徴抽出部、3……
音素認識部、4……音素標準パターン格納部、5
……誤り訂正処理部、6……単語認識部、7……
単語標準パターン格納部、8……認識結果出力
部。

Claims (1)

    【特許請求の範囲】
  1. 1 多くの音韻情報を担つている音声波形のパワ
    ースペクトルのピークの位置と上記ピークの大き
    さの情報に着目し、大勢の話者の発声した多くの
    単語音声データから抽出された各音素についてピ
    ークの位置の統計的分布を求め、音素毎にそれぞ
    れのピーク位置の分布関数値に重みづけを行つた
    ものを利用して、入力音声の音素認識を行う事を
    特徴とする音素認識方法。
JP57036048A 1982-03-08 1982-03-08 音素認識方法 Granted JPS58152300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57036048A JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57036048A JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Publications (2)

Publication Number Publication Date
JPS58152300A JPS58152300A (ja) 1983-09-09
JPS6336677B2 true JPS6336677B2 (ja) 1988-07-21

Family

ID=12458820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57036048A Granted JPS58152300A (ja) 1982-03-08 1982-03-08 音素認識方法

Country Status (1)

Country Link
JP (1) JPS58152300A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3453130B2 (ja) * 2001-08-28 2003-10-06 日本電信電話株式会社 雑音源判別装置及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5518919A (en) * 1978-07-26 1980-02-09 Copyer Co Ltd Detection of magnetic powder

Also Published As

Publication number Publication date
JPS58152300A (ja) 1983-09-09

Similar Documents

Publication Publication Date Title
US7957959B2 (en) Method and apparatus for processing speech data with classification models
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Loizou et al. High-performance alphabet recognition
Hazen et al. Segment-based automatic language identification
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
JPH04362699A (ja) 音声認識方法及び装置
Burnett et al. Rapid unsupervised adaptation to children's speech on a connected-digit task
Tzudir et al. Dialect Identification Using Tonal and Spectral Features in Two Dialects of Ao.
Iwamida et al. Speaker-independent large vocabulary word recognition using an LVQ/HMM hybrid algorithm
Nayana et al. Performance comparison of speaker recognition systems using GMM and i-vector methods with PNCC and RASTA PLP features
Cristea et al. New cepstrum frequency scale for neural network speaker verification
JPS6336677B2 (ja)
WO2004111999A1 (en) An amplitude warping approach to intra-speaker normalization for speech recognition
Sai et al. Enhancing pitch robustness of speech recognition system through spectral smoothing
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Irino et al. Evaluation of a speech recognition/generation method based on HMM and straight.
Gmyrek et al. Amplitude spectrum correction to improve speech signal classification quality
Kondhalkar et al. A novel algorithm for speech recognition using tonal frequency cepstral coefficients based on human cochlea frequency map
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Mittal et al. Age approximation from speech using Gaussian mixture models
Thubthong et al. A method for isolated Thai tone recognition using a combination of neural networks
JPH07210197A (ja) 話者識別方法
Lee et al. Isolated Mandarin syllable recognition with limited training data specially considering the effect of tones
Brendborg et al. Noise robust recognition using feature selective modeling.
Dong¹ et al. An Improved Speech Synthesis Algorithm with Post filter Parameters Based on Deep