JPS6336677B2

JPS6336677B2 -

Info

Publication number: JPS6336677B2
Application number: JP57036048A
Authority: JP
Inventors: Ikuo Inoe; Katsuyuki Futayada; Satoshi Fujii; Hideji Morii
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-03-08
Filing date: 1982-03-08
Publication date: 1988-07-21
Also published as: JPS58152300A

Description

【発明の詳細な説明】本発明は、単語音声認識を行なうために用いら
れる音韻記号の時系列を与える音素認識方法に関
する。

最初に、単語音声認識における音素認識の位置
づけを、図面を参照しながら簡単に説明する。

第１図は、音素認識部を含む単語音声認識方法
を示すブロツク図である。音声入力部１に入つた
単語音声データは、特徴抽出部２に送られ、特徴
パラメータが抽出される。抽出された特徴パラメ
ータは、次の音素認識部３で音素標準パターン格
納部４の音素標準パターンパラメータと逐次比較
され、一致の度合を示す類似度が計算される。こ
こで、類似度最大となつた標準パターンの音素が
音素認識部３での音素認識結果となり、この様に
して得られた認識音素の時系列が、次の誤り訂正
処理部５へ送られる。認識音素の時系列は、誤り
訂正処理部５で、言語の音形規則等を基に修正が
加えられ、今度は、単語認識部６で単語標準パタ
ーン格納部７の標準パターンと逐次比較され、類
似度の計算が行なわれる。得られた類似度の中で
最大となつた標準パターンの単語が単語認識結果
となり、認識結果出力部８から出力される。この
様に、音素認識を行なう単語音声認識方法では、
通常、音素認識部と単語認識部との二段構成にな
つており、単語認識の前処理として、音素認識は
重要な役割を果たしている。

従来より音声波形のパワースペクトルのピーク
が多くの音韻情報を含んでいる事が音響学的に認
められている。このことに着目して、音声波形の
パワースペクトルの第１及び第２フオルマントの
位置f₁、f₂の分布を利用して音素認識を行なうも
のとして、従来、判別図による方法が考えられて
いる。この判別図による方法というのは、第２図
に示す様に、各音韻毎に求めたf₁、f₂の分布をf₁
−f₂平面上にとり、各音韻毎に境界を定め、境界
の重なる部分は両者の曖昧部分とした判別図を用
い、認識されるべき音声波形のパワースペクトル
により求められたf₁、f₂が、該判別図のどの境界
内に入るかによつて認識音素を決定する方法であ
る。

第２図は５母音についての判別図の例で、９，
１０，１１，１２，１３はそれぞれ母音／
ｉ／、／ｅ／、／ａ／、／ｏ／、／ｕ／の領域
に、また、１４，１５，１６，１７，１８はそれ
ぞれ曖昧領域に対応する。しかし、この方法によ
ると、境界の中央にあつても、境界の端にあつて
も、あるいは、分布の中心にあつても、分布の端
にあつても一率に認識音素が決まつてしまうた
め、後の誤り訂正処理等への情報量の欠落を生ず
ると共に、一度音素認識誤りを生ずると、誤り訂
正処理が困難になつてしまうという欠点があり、
更に、この方法では、パワースペクトルのピーク
の位置の情報のみしか用いていない為、個人差に
よるピークの位置のバラツキにより、誤認識を起
こし易いという欠点があつた。

本発明は、以上の様な従来の方法の欠点を解決
する為の手段を与えるものである。

本発明は大勢の話者の発した多くの単語音声デ
ータを基に、各音素のパワースペクトルのピーク
の位置の統計的分布を求め、音素ごとにそれぞれ
のピーク位置の分布関数値に重みづけを行なつた
ものを利用して音素認識を行なおうとするもので
ある。

以下、図面を参照しながら本発明を詳細に説明
する。

音素認識の対象となる音素は、母音、有声子
音、無声子音などのいくつかのカテゴリーに分類
でき、各々のカテゴリー内で音素認識を行なう。
ここでは簡単のため、母音のみを例にとり説明す
る。

先ず、大勢の話者の発声した多くの単語音声デ
ータの中から母音の区間を抜き出し、フイルタバ
ンク法や線形予測法等を用いてそれらのパワース
ペクトルを求め、各母音毎にフオルマント周波数
の分布を求める。第３図は、その一例として、横
軸に周波数、縦軸に出現頻度をとり、多数話者に
よる音声データを基に、各母音の第１から第３フ
オルマントまでのフオルマント周波数の出現頻度
分布を求めたものであり、周波数の低い方から順
に、第１、第２、第３フオルマント周波数の分布
を示す。各母音の第１から第３フオルマント周波
数の分布は、それぞれの音韻に特徴的な分布の示
しており、このことからも、フオルマント周波数
が、音韻識別の重要なパラメータの一つであるこ
とがわかる。実際に、これらの分布を用いる際に
は、各分布が正規分布するものと見做せるので、
それぞれを正規分布で近似したものを用いてもよ
い。

ここで、５母音／ａ／、／ｉ／、／ｕ／、／
ｅ／、／ｏ／について、それぞれ添字ｉ（ｉ＝１、
２、３、４、５）を対応させ、先に得られた、各
母音の第ｊフオルマントに対するフオルマント周
波数の分布関数を、周波数ｆの関数として、Fij
(f)とおく。各母音の出現頻度は一様ではないの
で、このままの分布を用いると各音韻について同
等の比較が出来ないため、各分布とも、全体が１
となる様に正規化を施したものを、あらためて
Fij(f)とする。

次に、以上で求めた各フオルマント周波数の分
布関数Fij(f)を用いて音素認識を行なう際の尺度
となる尤度を定義する。この場合の尤度は、ある
音素について、入力がその音素の特徴を良く表わ
しているもの程スコアの高くなる様に設定された
尺度であり、認識すべき音声波形のパワースペク
トルの第ｊフオルマントに対するフオルマント周
波数をfj、重みづけ系数をAij、５母音の各尤度
をRiとして(1)式の様に定義する。

Ri＝_k 〓^j=1 AijFij（fj） ……(1) （ｉ＝１、２、３、４、５；ｋ：整数）すなわち、尤度Riは、入力音声の各フオルマ
ント周波数fjに対応する分布関数の値Fij（fj）に、
係数Aijを卦けて重みづけしたものの総和で表わ
される。

ここで、重みづけ係数Aijは各母音毎に、それ
ぞれの母音の認識率が最大となる様に決定する。
実際には計算機によつてAijの値を変えながら、
認識のシミユレーシヨンを行なつて決定するのが
よいが、計算時間等の問題から、簡単の為Aijの
代わりに各分布の分散σijを用いることも出来る。

更に、Aijの他に、音韻情報を含んだ重みづけ
係数、例えば、第４図に示す入力音声波形のパワ
ースペクトルの各フオルマント周波数fjに於ける
スペクトルの大きさSjを卦けた(2)式 Ri＝_k 〓^j=1 SjAijFij（fj） ……(2) （ｉ＝12345；ｋ：整数）を用いれば、より一層各母音の認識率を向上させ
ることが可能である。

以上の様な方法により求めた各母音の尤度のう
ち、最大の値をとる母音を認識結果とする事によ
り音素認識を行なう。

ここで、本認識方法を用いた事による効果の例
を説明する。

簡単の為に、式(1)においてAij＝１（ｉ＝１、
２、３、４、５；ｊ＝１、２、３）とすれば、尤
度Riは、各フオルマント周波数におけるそれぞ
れの分布関数値の和として表わされる。分布関数
Fij(f)は、各母音の各フオルマント周波数の分布
の中心にある程高い値をとるから、それぞれのフ
オルマント周波数が分布の中心に近い程、尤度
Riは高い値をとる。

第５図は、入力音声／ｉ／のパワースペクトル
２０の第１フオルマントのフオルマント周波数f₁
が、発声者の個人性の為に周波数の高い方へずれ
て、／ｕ／の第１フオルマント周波数の分布の中
心に来た例である。この場合、入力音声のパワー
スペクトルの第１から第３フオルマントまでのフ
オルマント周波数f₁、f₂、f₃全てが／ｉ／及び／
ｕ／の各フオルマント周波数分布の領域内に入つ
ている為、従来の判別図による方法では両者のあ
いまい領域に入つてしまい区別されない。

しかし、本認識方法によれば、第５図で、第２
フオルマント周波数f₂に対する／ｉ／の分布関数
値F₂₂（f₂）が／ｕ／の分布関数値F₃₂（f₂）よりも
大きくなつており、全体として R₂＞R₃ となつて／ｉ／と認識される。ここで、最適化さ
れたAij及び、スペクトルの大きさSijを用いれ
ば、更に明確に／ｉ／と／ｕ／の分離を行なう事
ができる。もし仮りに、僅かの差で R₂＜R₃ となつた場合でも、それが僅かの差であるという
数値情報の誤り訂正処理部に伝える事が出来るた
め、誤り訂正処理に於ても効果を発揮する。すな
わち、本認識方法によれば、従来の判別図による
方法に於て曖昧領域として残していた部分に対し
てより確実な音素認識を行なう手だてを与える事
を可能にすると共に、複数の音素を認識結果とし
て尤度情報と併せて誤り訂正処理部へ送れば、情
報量を減らすことなく、効果的な誤り訂正処理を
可能とし、その結果、特定話者に対してはもちろ
ん、特に、不特定話者に対し音素認識率及び単語
認識率を大幅に向上させる効果がある。

以上の説明では母音を例にとつたが、本発明は
何ら母音のみの場合に限定されるものではなく、
半母音、有声子音、無声子音等についても本発明
の原理を適用する事により、同様の効果が得られ
るものである。

【図面の簡単な説明】

第１図は音素認識部を含む単語音声認識方法の
基本的な構成を示すブロツク図、第２図は母音判
別方法の一例を示す図、第３図は、本発明の認識
方法において利用する各母音の第３フオルマント
までのフオルマント周波数の分布を示す図、第４
図は、入力音声波形のパワースペクトルの例を示
す図、第５図は、入力音声波形／ｉ／のパワース
ペクトルと／ｉ／及び／ｕ／の各フオルマント周
波数分布との対比を示す図である。１……音声入力部、２……特徴抽出部、３……
音素認識部、４……音素標準パターン格納部、５
……誤り訂正処理部、６……単語認識部、７……
単語標準パターン格納部、８……認識結果出力
部。

Claims

【特許請求の範囲】

１多くの音韻情報を担つている音声波形のパワ
ースペクトルのピークの位置と上記ピークの大き
さの情報に着目し、大勢の話者の発声した多くの
単語音声データから抽出された各音素についてピ
ークの位置の統計的分布を求め、音素毎にそれぞ
れのピーク位置の分布関数値に重みづけを行つた
ものを利用して、入力音声の音素認識を行う事を
特徴とする音素認識方法。