JPH0427560B2

JPH0427560B2 -

Info

Publication number: JPH0427560B2
Application number: JP19538285A
Authority: JP
Inventors: Masayuki Kimura; Sakae Ju
Original assignee: Individual
Current assignee: Individual
Priority date: 1985-09-04
Filing date: 1985-09-04
Publication date: 1992-05-12
Also published as: JPS6255700A

Description

【発明の詳細な説明】〔概要〕５つの母音からそれぞれ得られるケプストラム
係数を要素とする特徴ベクトルの特徴ベクトル空
間での相対位置関係を利用して母音を認識するこ
とにより、認識率を向上させて母音認識方法。

〔産業上の利用分野〕

本発明は、音声認識特に５母音の認識方式の改
良に関するものである。

音声の個人差は不特定話者音声の認識を実現す
るうえで大きな障害となつている。その問題の難
しさは音声の個人性情報は音韻情報と比べてあい
まいで、しかも音声波のさまざまな性質に分散し
ているという所にある。その対策として、スペク
トルパターンの修正や周波数軸の伸縮、ホルマン
トの修正などの個人差の正規化方法がある。しか
し、個人性の原因は多様なのでそのような方法は
問題の解決にまだ十分対応できないのが現状であ
る。一方、識別関数やマルチテンプレートの作
成、または適当な尺度で話者を分類するなどのパ
ターンマツチングの手法も試みられた。このよう
な方法は実用の可能性はあるが問題の本質に十分
に触れず、話者への適応能力が限られる。そこで
学習を通して認識機械を話者の個人性の適応させ
ることが、個人差問題を解決する基本的な方法の
一つであると思われるが、この方向への研究はま
だ少ない。本発明ではこの方向を目指すものとし
て、教師なし学習を基にした不特定話者音声母音
認識の手法について述べる。

音韻の中でも母音は個人性の重要な要因をなす
声道構造の基本特性を反映しているので、母音に
おける個人差はもつとも大きいと言える。そこで
不特定話者音声中の母音を高い信頼度で認識し、
これを基礎にして単話ないし連続音声の認識へと
展開することが行なわれて来ている。

〔従来技術〕

従来、母音を認識する方式として、第１７図に
示す様に母音の第一、第二ホルマントを軸とする
特徴空間における、５つの母音（ａ、ｉ、ｕ、
ｅ、ｏ）の相対位置関係を利用することが行なわ
れている。

つまり、例えば、母音（ｉ）を基準にとると、
母音ｉとｕ間の距離diu、ｉとｏ間の距離dio、ｉ
とａの距離dia、(i)と(e)の距離dieの大小関係を利
用して、入力母音の認識を行なう様にしている。

このため話者とは無関係の標準パターンにおけ
る上記母音間の距離を予め求めてメモリに記憶し
ておく。

そして、入力母音のそれぞれについて、第１、
第２ホルマントから最初にある母音と仮定する。

ついで、この仮定が正しいか否かを検定するた
めに、仮定した母音間の距離をそれぞれ求め、こ
れらの大小関係か標準パターンにおける母音間の
距離の大小関係と合致しているか否かを調べる。

合致しておけば仮定が正しいと判断し、合致し
ていなければ、他の母音に仮定をやり直して、再
び同様のことを行なう。

以上のことを繰り返し行なつて、最終的に入力
母音が何でもあつたかを認識する。

次に前記の如く、後者への適合性を高めるため
に、標準パターンの修正を行なう。

つまり、上記認識を何回か行ない認識する毎に
求めた母音の絶対値の平均値を標準パターンと
し、更にこのパターンから母音間の距離を求め、
次に入力する母音の認識に利用する。

〔従来技術の問題点〕

以上の様に、従来においては、入力母音の第
１、第２ホルマントを利用しているが、この第
１、第２ホルマントの抽出を正確に行なうことが
困難であるので、認識率が低いと言う問題があつ
た。

〔問題点を解決するための手段〕

本発明においては、このために、低次のケブス
トラム係数を利用して認識を行なう様にした。

このケプストラムは、スペクトル包絡を求める
方法の一つである。

ケプストラムは、音声信号を高速フーリエ変換
して求めたパワスペクトルの対数をとつたもの
を、さらに高速フーリエ逆変換処理を施したもの
として、定義される。

音声のパワスペクトルはピツチ周波数の影響を
受けて、細かく波打つた形状となる。一方、スペ
クトル包絡は、この細かく波打つたパワスペクト
ルの概形を示している。そこで、この波打つたパ
ワスペクトルをある信号波形とみなして、高速フ
ーリエ逆変換を行なえば、その低週波分としてス
ペクトルの概形、すなわちスペクトル包絡の情報
が得られる。そして、この低周波成分のみをもう
一度高速フーリエ変換することにより、そのスペ
クトル包絡特性だけが求まることになる。

このように、音声信号のパワスペクトルの対数
をとつたものに、フーリエ逆変換処理を施して得
られた波形をケプストラムとよんでいる。第１図
ｂはａに示す母音“ア”に対するケプストラムを
求めたものであり、ｃはｂに示すケプストラムの
低周波成分の１から16までの係数を用いて、フー
リエ変換して求めたスペクトル包絡特性の例であ
る。この低周波成分だけを切り出す関数は、コム
リフタ（comb−lifter；lifterはfilterの逆読）と
よばれている。

またｂ図に示すケブストラムでは、本来パワス
テペクトルの周波数関数となつている波形を、時
間軸とみなしてヒーリエ逆変換処理して施してい
る。したがつて横軸をfrequencyの逆読をして、
ケフレンシ（quefrency）とよんでおり、このケ
フレンシの次元は時間となつている。

ケプストラムを求める際にパワステスペクトル
の対数をとるのは、次式に示すように、音声Ｓ
（ｚ）が声道の伝達関数Ｈ（ｚ）と、音源の電達関
数Ｕ（ｚ）の積、｜｜²＝｜Ｈ（ｚ）｜²｜Ｕ（ｚ）｜² となつていて、その対数をとることにより、次の
ように和に分離することができるためである。

log｜Ｓ（ｚ）｜＝log｜Ｈ（ｚ）｜＋log｜Ｕ（ｚ）｜また、スペクトルの小さな変化の部分が対数をと
ることにより、拡大するためにもよる。

ケプストラムの特徴として、第１図ｂに示した
ように、鋭いピークが存在する場合は、音声のパ
ワスペクトルに、ある一定の周期が存在してい
る。そして、このピークのケフレンシは、そのま
ま元の波形の周期となり、これがピツチ周期とな
る。

以上の様にして求めたケプストラム係数を用い
て前述した特徴空間における５母音間の相対位置
関係を調査してみると、話者に依存せず不変と見
做し得る関係が存在することが分かつた。

従つて本発明においては、このケプストラム係
数の用いて表わされる母音間の相対位置関係を利
用して、母音認識のための標準パターンの修正及
びこの修正した標準パターンを用いて母音認識を
行なう様にした。

以下のことについて詳細に説明する。

一部の話者についての実験結果を第２図に示
す。第２図は、１次から10次までのケプストラム
係数からなる特徴ペクトル空間を考え、この空間
における５母音の位置の分布を主成分分析の方法
で第一、第二主軸平面へ写像したものである。第
２図の異なる５角形は異なる話者に対応する。第
２図から異なる母音の絶対位置（５角形の頂点に
対応する）の分布が、話者の間で重なり合つてい
ることがわかる。この現象は主に声道構造など個
人差によるものと見られる。また、５母音の絶対
位置を繋ぐ５角形の形状も話者により一様ではな
い。これは声道構造の差のほか調音の仕方などの
差もあることを示している。これらのことは、平
行移動、伸縮などの簡単な正規化処理では個人差
問題に対応しにくいことを示している。

一方、同一話者の各母音の相対的な位置関係が
話者によらずほぼ一定していることが実験結果
（例えば後述する第３図）から分かつた。つまり、
ある母音の位置を始点（原点）にとれば、それと
他の母音の位置との距離の大小関係がほぼ不変で
あるということである。次に、このことについて
より詳しく説明しよう。

先ず特徴ベクトル空間における二つの母音の特
徴ベクトルX_v、X_w間の距離d_vwを dvw＝ｄ（Xv、Xw）＝_M 〓^j=1 （x_vj−x_wj）² (1) で表す。ここで、w_NjはXvの第ｊ成分、Ｍはベク
トルの次元数で、ここでは１次から10次のケプス
トラム係数を用いるのでＭ＝10とする。ある母音
の特徴ベクトルXvと他のすべての母音の特徴ベ
クトルをXz（ｚ∈｛ａ、ｉ、ｕ、ｅ、ｏ｝）との
距離を要素する集合をDvで表す。

Dv＝｛d_vz｜ｚ∈｛ａ、ｉ、ｕ、ｅ、ｏ｝｝ (2) d_vzは話者により一般に異なつている。しかし、
同一話者に関するDvの各要素間には、第２図の
５角形の特徴からみて、話者によらないで成立す
ると仮定し得る一定の大小関係が存在する。例え
ば母音ｉとｏの距離d_ipのｉとａの距離d_iaが d_ip＜d_ia (3) となることは、例外はないといえないが、まずど
の話者についても成立するものと考えてよい。式
(3)の大小関係をｉ、ｏ、ａに関する３項関係と呼
ぶ。第３図は式(3)が成立することを支持する資料
の１つである。すなわち、第４図に示すdata
typeIの音声資料（Ａ組25人分）を用い、先ずそ
れぞれの話者に対して、すべての結合可能なCV
音節に組み合せ（ｉ、ｏ、ａ、各15個のとき、
（15）³＝3375通り）についてdd_i：oa＝d_ia−d_ipの頻
度を求め、ついでその頻度を25人ついて平均した
ものが第３図のヒストグラムｆ（dd）である。こ
の資料ではdd_i：oa＞０となつているので、式(3)
は話者によらず成立するとた考えるのが妥当であ
ることが分かる。一般にすべての話者について成
立するものと見なされるような３項関係： d_vw＜d_vz、i.e.、dd_v：_ws＝d_vz−d_vw＞０ (4) を総称して母音間の相対関数と呼ぶことにする。
但し、ｖ、ｗ、ｚは５母音からなる集合Ｖ＝｛ａ、
ｅ、ｉ、ｏ、ｕ｝の要素である。本発明におい
て、不変な相対関係として採用した３項関係を第
５図に示す。表のR_vは相対関係として採用され
た３項関係の中でｖを始点とする３項関係の集合
（R_vの右の欄の大小関係の集まり）を表す。第５
図の理解を扶けるために、特徴空間における５角
形の例を第６図に示す。５母音の相対関係の全体
（ここでは第５図）を関係モデルと呼びＲで表す。

Ｒ＝R_aUR_iUR_uR_eUR_p (5) 関係モデルＲを用いると、同じ話者の母音の特徴
ベクトルを次のように特性化することができる。
すなわち、X_iが母音ｖの特徴ベクトルであるため
には、R_vに含まれる３項関係をすべて満足する
ことが必要である。つまり、R_vに含まれる３項
関係の１つをd_vw＜d_vz、X_jとX_kはそれぞれ母音ｗ
とｚの特徴ベクトルであるとするとき、次式で定
義される関数R_v：_wz（X_i、X_j、X_k）の値が１と
なることが必要であり、R_vの他の３項関係につ
いても同様である。

R_v：_wz（Xi、Xj、Xk）＝｛１、if d_ij＜d_ik ０、other
wise(6) 〔作用〕ここで行われる教師なし学習の目的は、話者と
は無関係に予め用意された母音の標準パターンを
初期値として、話者に適応した標準パターンを作
ることである。この時、初期値として用いられる
標準パターンのセツトをSexで表し、外部情報源
と呼ぶことにする。また話者の発話音声から適当
な方法で切り出された母音に該当する標本（特徴
ベクトルで表す）を学習データセツトと呼び、
｛X_L＝｛X₁、……、X_N｝で表す。｛X_L｝のサイズ
に関する検討は次章で行う。

５母音の場合、不特定話者においてもパターン
マツチングで未知の入力母音に対する候補を定め
ると、第三位までの候補の中に入力母音に該当す
るものが存在する確率はほぼ100％に近いと考え
られる。そこで、以下に述べる学習アルゴリズム
では、｛X_L｝のどの学習データXiについてもSex
とのパターンマツチングによつて定める候補は第
３位までとし、第一候補から順にCi₁、Ci₂、Ci₃
で表す。Xiに対する候補をまとめて、Ci＝｛Ci₁、
Ci₂、Ci₃｝、ｉ＝１、……Ｎ、また｛X_L｝に対す
る候補リストをＣ＝｛C₁、……、C_N｝と表し、C_L
−listと呼ぶ。

第７図のフローチヤートにしたがつて学習のア
ルゴリズムを説明する。

ステツプS1……｛X_L｝に対する予備認識を行
う。予備認識では｛X_L｝の各データＸと外部標
準パターンSexとの間でマツチング（マハラノビ
ス距離を用いる）を行つて、三位までの候補を決
め、C_L−listを作る（第８図ａ参照）。

ステツプS1′……すべての学習データXi、Xj∈
｛X_L｝について式(1)により、daj＝ｄ（Xi、Xj）を
計算し、これを１行、ｊ列の要素とする行列
〔dij〕（関係行列と呼ぶ）を作成する。

ステツプS3……関係モデルＲを評価基準とし
て、C_L−listの各候補の正当性をチエツクする。

まず学習データXiの第一候補Ci₁＝ｖが正しい
と仮定し、他のすべての学習データの中でも第一
候補がｗであるものをXj、第一候補がｚである
ものをXkとおく。このとき、すべてのXjとXk
について得られる学習データの組＜Xi、Xj、Xk
＞のそれぞれについて、第５図のR_Vに含まれる
相対関係 R_v：_wz：（Xi、Xj、Xk）＝１、つまりd_ij＜d_ikを
満たすか否かを調べる（式(6)参照）。もし上の３
項関係を満足すれば、その都度Ci₁の得点Si₁に１
ポイントに加え、そうでない時は０を加える。但
しSi₁を初期値は０とする。Rvに含まれる、他の
すべての３項関係Rv：w′z′、Rv：w″z″、……に
ついても同様にSi₁に加点する方法で評価し、そ
の結果を得点Si₁で代表する。

次にXiの第二候補Ci₂＝v′、第三候補Ci₃＝v″に
ついても他のXj、Xkの同一候補を用いて、Ci₁の
ときと全く同じ方法で、それぞれ、Rv′及び
Rv″を用いて評価し、それらの結果をそれぞれ得
点Si₂及びSi₃で表す。

すべてのXi∈｛X_L｝に対して以上の評価を行
う。

ステツプS4……New−C_L−list1、２、３……
を作成する。すなわち、三つの候補の得点Si₁、
Si₂、Si₃を評価回数で平均（評価回数で割つた）
した後比較し、得点の高い順に新しい候補リスト
New−C_L−listに登録し、その得点を改めてSi₁、
Si₂、Si₃とおく。もし（｜Si₁−Si₂｜／Si₁＋Si₂））
＜Ｔならば、Xiに対応する母音は未定とする。
Ｔは適当に定めたしきい値である。

ステツプS5……対応する母音が未定となる学
習データがある場合、或いは学習する前後でC_L
−listに変化がある場合にはステツプS3に戻り、
同じ手順でNew−C_L−listの各候補の正当性を評
価する。未定の学習データがなくなるか、或いは
学習によつてNew−Ｃ−Ｌ−istに変化がなくな
るか、または適当に定めた繰り返し数になるまで
学習した場合には、学習を終了し、Xiにラベル
（母音名）Li＝Ci₁（＝ｖ）、１≦ｉ≦Ｎ、をつけ
る。

ステツプS6……学習の結果に基づいて話者に
適合した標準パターンS_L＝｛S_La、S_Le、S_Li、S_Lp、
S_Lu｝が作られる。但し、母音ｖの標準パターン
S_LvはラベルL_iがｖであるすべての学習データX_i
（Ｑはその数とする）の平均ベクトルとする。つ
まり、 S_Lv＝１／Ｑ_Q 〓ｉ＝1（Ｖ∈Ｖ） (7) 以上の様にして、話者に応じた母音の標準パタ
ーンを生成し、次に入力してくる母音の標準パタ
ーンを生成し、次に入力してくる母音の認識に用
いる。

〔実施例〕

第９図により、本発明の実施例を説明する。

図中１は信号抽出部、２は高速フーリエ変換
部、３は対数部、４は高速フーリエ逆変換部、５
は低ケフレンシ抽出部、６は予備認識部、７は関
係行列生成部、８は検定部、９は標準パターン生
成部である。

信号抽出部１には母音信号が入力するが、時間
窓を設け、一定時間だけ母音信号を抽出し高速フ
ーリエ変換部２へ入力する。高速フーリエ変換部
では、入力信号のフーリエ変換を行なつて、パワ
ースペクトラムを抽出し、対数部３へ入力する。

対数部３では、パワースペクトラムの対数を求
めて、高速フーリエ逆変換器４へ入力し、逆変換
を行なう。

これによつて得られたケプストラムの内１〜10
次までの低ケフレンシ（特徴ベクトル）を低ケフ
レンシ抽出部５において抽出し、予備認識部６へ
入力する。予備認識部６は抽出した１〜10次の特
徴ベクトルと、外部標準パターンの特徴ベクトル
の間でマハラノビス距離を用いてマツチングを行
ない各入力母音毎に第３位までの候補を決める。

次に、関係行列生成部７において、各母音の候
補毎に式(1)に従つてd_ijを求め、これによりｉ行、
ｊ行の関係行列〔d_ij〕を求める。

次に検定部８においては、前述の如く、関係行
列から得られる(5)式の関係モデルＲを評価基準と
して各候補の正当性をチエツクする。

この様に、Xiの各候補を評価する時、ほかの
すべてのデータXjの第一候補Cj₁が正しいと仮定
して評価に臨む。Cj₁の中に真でないものがある
場合には、当然学習に悪い影響を与える。したが
つて、第一候補が正しい割合が高ければ高いほど
このような影響が少なくなる。学習の効果として
は第８図の如くNew−C_L−listを生成する度に第
一候補の正しい割合が高くなる。この例には、一
回ずつ学習のC_L−listまたはNew−C_L−listの各
要素の変化を示す。母音に記号に下線がついた候
補は真であることを示し、“！”は未定を示す。
この例では話者の母音の特性と外部標準パターン
Sexの特性との差が大きいので、C_L−listの第一
候補の正答率60％しかないが、３回繰り返し学習
をした後、第一候補の正答率は100％になる。一
般的に言えば繰り返し学習によつて学習結果の信
頼性が高くなつてくる。

〔不特定者音声母音の学習と認識実験〕

ここで、多数話者の音声を対象として、教師な
し学習のシミユレーシヨンを行い、関係モデルＲ
と学習アルゴリズムの有効性を評価する。また、
｛X_L｝のサイズの影響、外部情報源の影響などに
ついて検討する。更に学習結果に基づいて母音認
識を行い、不特定話者音声認識への適用効果の実
験結果を示す。

音声資料の構成と分析条件実験に用いる音声データベースと分析条件を
第４図に示す。本発明では主に個人差問題に注
目しているため調音結合の影響を強く受けてい
ないと単音節母音（type 音声資料）を基本
音声資料として用いる。またこの方に及ぼす調
音結合の影響を検討するため３連鎖母音を含む
文節データ（type音声資料）についても実験
を行う。

type音声資料の66人の話者を25人（Ａ組）、
41人（Ｂ組）の２グループに分ける。type音
声資料の23人の話者（Ｂ組の話者に含まれる）
をＣ組とする。Ａ組の話者（全部或いは一部）
のデータから外部標準パターンSexを作成す
る。次の認識実験はすべてＢ組、Ｃ組のデータ
に対して行う。つまり異なる話者によるオープ
ン実験である。

認識実験方法 −１学習データセツト｛X_L｝の生成方法学習データセツト｛X_L｝は認識されるデ
ータの一部としてダイナミツクに取り出され
ることが望ましい。一人あたりの認識データ
セツト｛Ｘ｝のサイズが大きくない場合（第
４図のＢ組では75個／人）のシユミレーシヨ
ンとして、ランダムに｛Ｘ｝から学習データ
を取り出す方法で｛X_L｝を生成する。以下
の実験報告では｛X_L｝はすべてのこの方式
で生成する。

−２認識方法認識の基本的方法は、先ず話者ごとにその
認識の対象となるデータセツト｛Ｘ｝から学
習データセツト｛X_L｝を生成し、｛X_L｝と外
部標準パターンSexとのマツチングによりC_L
−listを作成する。次に関係モデルＲを評価
基準とする教師なし学習を行い、各候補の正
当性の評価に基づいてその話者に適応した標
準パターンのセツトSexが得られる。認識は
発生データＸとＳとのマツチングにおける距
離に基づいて行なわれる。以下、この認識方
法をRUL（Recogmition based on
Unsupervised Lear−ning）法と呼ぶ。

また従来の方法（Ｘと外部標準パターン
Sexとのマツチングによる方法）をＭ方と呼
び、PULとＭ法の比較実験を行う。

実験結果と検討次の３項目に重点において実験を行う。(1)教
師なし学習の効果。(2)本認識方式に対する外部
情報限の影響。(3) 不特定話者の影響。

−１学習の効果とその検討 −１に述べたランダム方式で｛X_L｝を
生成して教師なし学習のシユミレーシヨンを
行う。第１０図にSexの作成に用いた人数と
｛X_L｝の要素数（以下、それぞれＳ−size、
Ｌ−sizeと呼ぶことがある）パラメータとす
る学習結果の正答率（ラベルセツト｛L_i｝の
正答率）をＢ組について示す。学習結果は第
１０図に示すように、いずれの場合もほぼ99
％以上である。また、学習の正答率はほとん
どSexの構成人数と｛X_L｝のサイズに影響さ
れないことが分かる。即ち高い正答率が維持
されるのは、主に学習データが互いに提供し
合う相対関係に関する情報によるものであ
り、RUL法の原点もここにある。

C_L−listの第一列（すべての第一候補）が
真である割合P₁は話者によりかなり違う。
学習に及ぼすこの影響を調べるために、C_L
−listの第一候補を第２、第３候補とランダ
ムに入れ替えて、P₁を変化させ、学習を行
なつた。第１１図にＢ組についてこのような
シミユレーシヨンの結果を示す。P₁は60％
以上であれば、満足できる正答率が得られる
ことが表から分かる。またこの結果は相対関
係モデルＲの妥当性も裏付けている。

−２認識実験に関する検討 −２に述べた方法で母音認識実験を行
い、Sexの作成に用いた人数をバラメータと
し、RUL法とＭ法のそれぞれに対する実験
結果（Ｂ組）を第１２図に示す。Ｓ−sizeの
減少とともにＭ法の認識率が顕著に低下す
る。これはオープン実験によく見られる傾向
である。しかしRUL法の認識率はわずかに
下がるだけである。RUL法お認識は学習結
果に基づいて行われるが、学習の結果はSex
にほとんど影響されないので（第１０図）安
定な認識が期待できる。

Ｂ組データについて、認識結果に対する
｛X_L｝のサイズの影響を第１３図に示す。こ
の表から分かるように｛X_L｝サイズが10個
程度以上であれば認識率はすべて98％以上で
ある。｛X_L｝のサイズがあまり少ないと学習
の結果が正しくてもそこから生成される標準
パターンの信頼正が低くなり、認識率が落ち
る。しかし、第１３図に示すように｛X_L｝
のサイズがある程度以上であれば安定した高
い認識率が得られる。

Ｂ組について理想的な認識条件、つまり完
全なクローズ実験（話者ごとに自分自身の標
準パターンとのマツチングにより認識を行う
場合）の認識率は99.2％であるが、RUL法
は99％に近い認識率が得られ、学習による認
識の限界に近づいているように見える。

−３不特定話者の影響不特定話和母音認識のシミユレーシヨンと
して、話者の数を次第に増やして認識実験を
行い、認識率の変化から話者の数の影響を検
討する。第１４図にRUL法とＭ法について
の実験結果を示す。ここでは、Sexは15人の
データから生成される。横軸の最初の10人は
Sexの生成に用いた10人である。この図に示
すように話者数が増えてもRUL法の認識率
はほとんど変わらない、これはＭ法の認識率
の低下と対照的である。両方法の認識率の差
はSexとの個人差が大きい一部の話者につい
て特に明らかである。第１５図にこのような
話者について話者ごとの認識率を示す。
RUL法による話者別の最低の認識率は96％
に対しＭ法によるのは70.7％である。

以上の種種の実験結果から、RUL法は不
特定話者の環境のもとで個人差を吸収して安
定かつ高い認識率を得るための有効な方法で
あると思われる。同時にRUL法の基礎とな
る関係モデルＲの妥当正、そして教師なし学
習アルゴリズムの有効性も明らかにされた。

−４３連鎖母音を含む文節データに関する実
験以上の実験は個人差の問題に焦点を絞つた
ので、調音結合の影響が相対的に少ないＢ組
のデータを対象にしたものである。ここで
は、Ｃ組の文節データ中の３連鎖母音につい
ての学習と認識結果を示す。第１６図より、
学習結果も認識結果も外部情報源にあり依存
しない傾向はＢ組の結果と同様である。この
ように認識率が安定していることは不特定和
者音声認識の場合に特に重要な意味があると
思われる。またRUL法とＭ法における認識
率の差はRUL法による話者適応の結果とみ
られる。しかし、Ｃ組についての認識率はＢ
組についての認識率より低い。この原因は第
４図に示された文節中の３連鎖母音は調音結
合を受け、パターンがかなり変形されるため
と思われる。このような場合は本手法を適用
する前にパターンの修正など調音結合の特性
を考慮した対策を取ることが望ましい。

〔効果〕

以上の如く、本発明においては、低次のケプス
トラム係数を要素とする特徴ベクトルの相対位置
関係を用いて母音の認識を行なつているので認識
率を向上させることが可能となる。

【図面の簡単な説明】

第１図はケプストラムを説明する図、第２図は
主軸平面における話者ごとの５母音の位置を示す
図、第３図は三項関係の不変性を例を示した図、
第４図は音声資料を説明する図、第５図は母音間
の不変な相対関係をまとめた図、第６図は特徴空
間における母音間の相対関係を示す模式図、第７
図は教師なし学習アルゴリズムを示す図、第８図
は学習の例を示す図、第９図は実施例を示す図、
第１０図は学習の正答率を示す図、第１１図は第
１候補の正答率P₁を変えたときの学習シミユレ
ーシヨンの結果を示す図、第１２図は認識率とＳ
−size及びＬ−sizeとの関係を示す図、第１３図
は学習データサイズと母音認識率（％）の関係を
示す図、第１４図は話者人数と認識率の関係を示
す図、第１５図はRUL法とＭ法の話者ごとの認
識率の比較結果を示す図、第１６図は文節中の３
連鎖母音の学習と認識結果を示す図、第１７図は
従来の認識方法を示す図である。図中２は高速フーリエ変換部、３は対数部、４
は高速フーリエ逆変換部、５は低ケフレンシ抽出
部、６は予備認識部、７は関係行列生成部、８は
検定部、９は標準パターン生成部である。

Claims

【特許請求の範囲】１５つの音声母音からそれぞれ得られる１次か
らｎ次までのケプストラム係数を要素とした特徴
ベクトルを予め標準特徴ベクトルとして用意し、認識対象となる特定話者の５つの音声母音から
１次からｎ次までのケプストラム係数を要素とし
た特徴ベクトルを求め、特定話者の各母音毎の特徴ベクトルと各標準特
徴ベクトルとの比較を行い、類似した複数の標準
特徴ベクトルを候補ベクトルとして選択し、各候補ベクトル間の距離の大小関係を求め、５つの音声母音特有の特徴ベクトル間の距離の
大小関係と対応した大小関係を有する候補ベクト
ルを標準特徴ベクトルとして、該特定者の入力音
声を認識に用いることを特徴とする音声母音認識
方法。