JPH045396B2

JPH045396B2 -

Info

Publication number: JPH045396B2
Application number: JP59058178A
Authority: JP
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1992-01-31
Also published as: JPS60202497A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。

（従来例の構成とその問題点）第１図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第１
図、第２図及び第３図により説明する。第１図に
おいて１は入力音声からパラメータの時系列を作
成するパラメータ抽出部、２は音素標準パタンを
照合して、音素の確立密度を算出する確率密度計
算部、３は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算を行う単語認識部である。ま
た、４は各音素毎の各種パラメータにおける分布
を各音素毎の平均値（〓_i）、及び各種パラメータ
間の主分散行列（Σ_i）の形で表した音素標準パタ
ンを記憶する音素標準パタン部、５は認識すべき
全単語を音素単位の記号列で表記した単語辞書が
記憶されている単語辞書部である。その単語辞書
は、「アサヒ」、「スジ」は「ASAHI」、「SUZI」
等と表記されている。

次に、上記従来例の動作について説明する。

パラメータ抽出部１において、入力音素を10ｍ
ｓフレーム毎に分析し、パラメータを抽出してパ
ラメータ時系列を作成する。確率密度計算部２
で、フレーム毎に得られたパラメータと、音素標
準パタンを照合し、そのパラメータの値から、生
成される音素の確率密度を算出する。次に単語認
識部３において、上記パラメータと得られた確率
密度を用いて、各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて、１音素毎に音素の
セグメンテーシヨンを行ない、下記式に従いそ
の音素と、その音素に対応してセグメンテーシヨ
ンされた区間の尤度ｌを計算し、その辞書項目に
おける各音素の尤度の平均として類似度を求め
る。ここでその音素をＸとし、Ｘに対応してセグ
メンテーシヨンされた区間の始端と終端のフレー
ム番号をNs，Neとし、第ｎフレームにおける各
パラメータの値をCnとすると、音素Ｘの尤度l_xは
下式で定義される。

φ_iはある音素ｉの確率密度を表わし、式のよ
うに定義される。

φ_i（〓ｎ）＝１／（2π）^J/2｜Σ_i｜^1/2exp 〔−１／２（〓ｎ−μ_i）^TΣ_i ^-1（〓ｎ−μ_i）〕……
〓ｎ：第ｎフレームにおけるＪ個のパラメータ（ベクトル） μ_i：ある音素ｉのパラメータの平均値（ベクトル） Σ_i：共分散行列式において、確率密度の割り算における分母
のサメンシヨンｉの範囲は、音素Ｘが何であるか
によつて異なり、例えばＸが音素Ａ(ア)の時は、ｉ
の範囲は５母音Ａ、Ｅ、Ｉ、Ｏ、Ｕとしている。
以上により、得られる単語類似度L_Mを式に従
つて各辞書項目毎に求め、L_Mが最大となる辞書
項目をもつて認識単語とするのであるが L_M＝_NP 〓^k=1 l_k／NP …… L_M：辞書のＭ番目の単語の類似度 l_k：辞書音素系列中のｋ番目の音素の尤度 NP：辞書音素数辞書音素系列中に子音C₁、C₂に挾まれ、無声
化母音又はナマケた発声をし易い母音Ｖがある場
合、子音C₁、無声化母音又は発声のナマケた母
音Ｖ、子音C₂の／C₁VC₂／の並びにおける各音素
の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、３音素まとめてセグ
メンテーシヨンを行ない、そのセグメンテーシヨ
ンされた区間に対して尤度lc₁vc₂を計算する。第
２図は／SUZI／（スジ）と発声した場合の各音
素／Ｓ／、／Ｕ／、／Ｚ／、／Ｉ／の確率密度の
時間変化を表わしている。第２図において、／
Ｕ／の区間（ｂ−ｃ）において／Ｕ／の確率密度
φ_Uはほとんどなく、代わりに／Ｕ／の前半で
は／Ｓ／の確率密度φ_S及び後半では／Ｚ／の確率
密度φ_Zが優勢である。

またφ_Zは／Ｉ／の始まり(d)まで優勢で、(d)か
らはφ_Iが優勢となる。従つて区間（ａ−ｄ）を／
Ｓ／、／Ｕ／、／Ｚ／を１つにまとめた音素系
列／SUZ／のセグメンテーシヨン区間とし、／
SUZ／のセグメンテーシヨン区間（ａ−ｄ）に
おいてφ_S、φ_Zの値を用いて式に従い、尤度l_SUZ
を計算する。

第３図は／ZUSI／（ズシ）と発声した場合の
各音素／Ｚ／、／Ｕ／、／Ｓ／、／Ｉ／の時間変
化が表わしている。この場合、／Ｕ／の区間（ｆ
−ｇ）において／Ｕ／の確率密度φ_Uはほとんど
なく、代わりに／Ｕ／の前半では／Ｚ／の確率密
度φ_Z、後半では／Ｓ／の確率密度φ_Sが優勢であ
る。またφ_Sは／Ｉ／の始まり(h)まで優勢で(h)から
はφ_Iが優勢となる。従つて、区間（ｅ−ｈ）
を、／Ｚ／、／Ｕ／、／Ｓ／を１つにまとめてそ
れを音素系列／ZUS／のセグメンテーシヨン区
間とし、／ZUS／のセグメンテーシヨン区間
（ｅ−ｈ）においてφ_Z、φ_Sの値を用いて式に従
つて尤度l_ZUSを計算するわけであるが、式にお
いては、連続３音素中の第１番目の音素C₁の確
率密度と第３番目の音素C₂の確率密度の出現す
る順番については考慮していない。従つて第２
図、第３図において３音素分の区間（ａ−ｄ）及
び（ｅ−ｈ）では、式の条件を満たす場合、つまり、／SUZ／と／ZUS／の例におい
て３音素分の区間でのφ_Zとφ_Sのフレーム和がほ
とんど同じ場合、／SUZ／の尤度l_SUZ及び／
ZUS／の尤度l_ZUSは点数差がつかないこととな
る。従つて、結果として／SUZ／や／ZUS／の
ように子音、無声化母音又は発声のナマケた母音
及び子音の３連続音素系列において、２つの子音
が入れかわつた音素系列を含む２つの単語の識別
が困難となる欠点があつた。

（発明の目的）本発明は、上記従来例の欠点を除去するもので
あり、尤時計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。

（発明の構成）本発明は、上記目的を達成するために、子音、
無声化母音又は発声のナマケた母音、子音の連続
３音素をまとめてセグメンテーシヨンし、尤度計
算を行なう際、セグメンテーシヨンされた区間内
において、第１番目の子音の特徴を示す部分と、
第２番目の子音の特徴を示す部分の境界を１つ以
上検出し、セグメンテーシヨンされた区間内で、
その各々の境界について、第１番目の子音の特徴
を示す部分及び第２番目の子音の特徴を示す部分
から得られる尤度をもとに、上記連続３音素をま
とめた尤度を、各々の境界について計算し、その
中での最大尤度をその区間の尤度とすることによ
り、尤度計算の精度を向上させるものである。

（実施例の説明）以下に本発明の一実施例について図面とともに
説明する。第１図において、音素標準パタンは従
来例と同様である。単語辞書は、認識すべき単語
を音素の記号列で表記してあるが、無声化したり
ナマケた発声をしやすい母音に対して予め符号を
つけてある。またパラメータ抽出により得られる
パラメータ時系列は従来例と同様である。

次に上記実施例の動作について説明する。先ず
パラメータ抽出部１において入力音声からフレー
ム毎のパラメータを得、さらに、確率密度計算部
２で、そのパラメータの値を使つて各音素標準パ
タンから得られる確率密度を計算する。単語認識
部１３において各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて音素Ｘのセグメンテ
ーシヨンを行ない、その音素Ｘとその音素Ｘに対
応してセグメンテーシヨンされた区間の尤度l_Xを
計算する際に、子音C₁、発声のナマケた母音Ｖ
及び子音C₂のC₁VC₂／の並びにおける各音素の種
類、及びその音素並びに対応して、各々の音素の
確率密度の値を利用して、３音素まとめてセグメ
ンテーシヨンを行ない、そのセグメンテーシヨン
された区間に対して尤度l_C1VC2を計算する。ここ
までは前記従来例と同様である。ここで、尤度
l_C1VC2を計算する際に、第１番目の音素C₁の確率
密度が優勢な部分の尤度l_C1（α）（αはC₁の部分
とC₂の部分の境界）と、第２番目の子音C₂の確
率密度が優勢な部分の尤度l_C2（α）を算出し、
式に従いl_C1VC2を求める。第２図において、／
SUZ／のセグメンテーシヨン区間（ａ−ｄ）で、
尤度l_SUZを求める際、／Ｓ／の確率密度φ_S及び／
Ｚ／の確率密度φ_Zを用いて、第１番目の子音／
Ｓ／の部分と第２番目の子音／Ｚ／の部分の境界
を１つ以上見つける（α＝イ、ロ、ハ）。

φ_Sを用いて得られる第１番目の子音の部分の尤
度l_S（α）と、φ_Zを用いて得られる第２番目の子
音の部分の尤度l_Z（α）を求め、l_s（α）とl_z（α）
をもとに、式により、尤度l_SUZ（α）を求める。

但し、 Na：境界αのフレーム番号 Ns、Ne：３連続音素系列／C₁VC₂／のセグメ
ンテーシヨン区間における始端、終端フレーム番
号 φ_C1、φ_C2：３連続音素系列／C₁VC₂／における
音素C₁及び音素C₂の確率密度 l_C1VC2＝Max（l_C1VC2（α）、α＝１〜ｋ）（ｋは境界の数） …… l_C1（α）とl_C2（α）の和尤度をl_C1VC2（α）とする
と、第２図においてαは(イ)，(ロ)，(ハ)であるから、
式のようになる。

l_SUZ(イ)｜_s(イ)＋l_Z(イ) l_SUZ(ロ)｜_s(ロ)＋l_Z(ロ) l_SUZ(ハ)｜_s(ハ)＋l_Z(ハ) …… これにより、l_SUZ(イ)、l_SUZ(ロ)、l_SUZ(ハ)が各々計
算
されるわけであるが式に従いα＝イ、ロ、ハと
してこのl_SUZ(イ)、l_SUZ(ロ)、l_SUZ(ハ)のうちで最も数
値
の高いものを、３連続音素／SUZ／の尤度l_SUZと
する。上記のような尤度計算法を用いることによ
り２つの単語／SUZI／と／ZUSI／を容易に識別
できる。

上記実施例においては、子音、無声化母音又は
発声のナマケた母音及び子音の３連続音素系列の
尤度を精度良く求めることができるため、上記３
連続音素系列中の２つの子音が入れ変わつた音素
系列を含む２つの単語についても認別が容易にで
きるという利点がある。

（発明の効果）本発明は、子音、無音化母音又は発声のナマケ
た母音、子音の連続３音素まとめてセグメンテー
シヨンし、尤度計算を行なう際、第１番目の子音
の特徴を示す部分と、第２番目の子音の特徴を示
す部分の境界を１つ以上見つけ、その各々につい
て尤度を計算し、最大尤度をその区間の尤度とす
ることにより、従来法に比べて精度良く尤度計算
を行なうことができる利点を有する。

【図面の簡単な説明】

第１図は従来及び本発明に一実施例における単
語音声認識方法を説明するための図、第２図は／
SUZI／と発声した場合の各音素／Ｓ／、／
Ｕ／、／Ｚ／、／Ｉ／の確率密度φ_S、φ_U、φ_Z、
φ_Iの時間変化を表わす図、第３図は／ZUSI／と
発声した場合の各音素／Ｚ／、／Ｕ／、／
Ｓ／、／Ｉ／の確率密度φ_Z、φ_U、φ_S、φ_Iの時間
変化を表わす図である。１……パラメータ抽出部、２……確率密度計算
部、３……単語認識部、４……音素標準パタン
部、５……単語辞書部。

Claims

【特許請求の範囲】１入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、セグメン
テーシヨンされた音素の区間に対して、その音素
の標準パタンとその音素との距離を用いて各辞書
項目と入力音声の類似度を求めて単語を認識する
単語音声認識方法において、子音、無声化母音又
は発声のナマケた母音及び子音の連続３音素につ
いては、上記連続３音素をまとめてセグメンテー
シヨンを行い、セグメンテーシヨンされた区間内
で上記３音素の第１番目の子音の特徴を示す部分
と第２番目の子音の特徴を示す部分の境界を１個
以上検出し、セグメンテーシヨンされた区間内
で、その各々の境界について、第１番目の子音の
特徴を示す部分及び第２番目の子音の特徴を示す
部分から得られる尤度をもとに、上記連続３音素
をまとめた尤度を各々の境界毎に計算し、その中
での最大尤度をその区間の尤度とすることを特徴
とする単語音声認識方法。２各音素の標準パタンとして、各音素の音響パ
ラメータの分布形で表された標準パタンを用い、
音素の標準パタンとその音素との距離尺度とし
て、セグメンテーシヨンされた音声の区間がその
音素から生成される確率密度を用いたことを特徴
とする特許請求の範囲第１項記載の単語音声認識
方法。