JPH045395B2

JPH045395B2 -

Info

Publication number: JPH045395B2
Application number: JP59058177A
Authority: JP
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1992-01-31
Also published as: JPS60202496A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。

（従来例の構成とその問題点）従来の単語音声認識方法を、第１図、第２図及
び第３図とともに説明する。第１図において単語
辞書部３の単語辞書は認識すべき全単語を音素系
列で表記したものであり、例えば単語「サツポ
ロ」、「フツサ」は「SAQPORO」「HUQSA」等
と表記されている。

パラメータ抽出部１で入力音声を10ｍｓのフレ
ーム毎に分析し、パラメータを抽出して、パラメ
ータ時系列を作成する。次に単語認識部２におい
て上記のパラメータを用いて各辞書項目毎に、そ
の辞書項目を構成する辞書音素系列に従つて、１
音素毎に音素のセグメンテーシヨンを行ない、音
素の種類と、その音素に対応してセグメンテーシ
ヨンされた区間を尤度ｌを、上記パラメータを用
いて計算し、式に従つてその辞書項目におけ
る、各音素の尤度の平均として類似度を求める。

以上により得られる単語類似度L_Mを各辞書項
目毎に求め、L_Mが最大となる辞書項目をもつて
認識単語とする。

L_M＝_NP 〓ⁱ⁼¹ li／NP …… （但し、 L_M：辞書中のＭ番目の単語の類似度 li：辞書音素系列中のｉ番目の音素の尤度 NP：辞書音素数）上記のような方法において、促音のセグメンテ
ーシヨン及び尤度計算は、式に示される音声の
対数正規化パワー、Ｐ（Ｎ）（Ｎはフレーム番号
（No.））及び式に示される隣接フレーム間ケプス
トラム距離CD（Ｎ）の値をもとにセグメンテーシ
ヨンを行ない、セグメンテーシヨンされた促音の
持続時間長、LNGから式に従つて促音の尤度
を求める。

Ｐ（Ｎ）＝logPow（Ｎ）−logPow_Mio／logPow_Max−lo
gPow_Mio…… （但し、Ｎ：フレームNo. Pow（Ｎ）：音声区間内の音声パワー Pow_Max、Pow_Mio：音声区間内の音声パワーの最
大値及び最小値） CD（Ｎ）＝〔｛Co（Ｎ）−Co（Ｎ−１）｝²＋２
・₅ 〓ⁱ⁼¹ ｛Ci（Ｎ）−Ci（Ｎ−１）｝²〕〓 …… （但し、 Co（Ｎ）：Ｎフレーム目における、音声の対数残
差パワー Ci（Ｎ）：Ｎフレーム目におけるｉ次のケプストラ
ム係数）（但し、Ａ、Ｂ：定数 TLG：促音の持続時間長の平均値 T_L、T_H：促音の持続時間長のいき値 TLG、T_L、L_Hは予備実験等により予め求めてお
く）第２図は／SAQPORO／（札幌）と発声した
時の音声の対数正規化パワーＰ（Ｎ）の時間変化
を表わしている。この場合の促音／Ｑ／のセグメ
ンテーシヨン及び尤度計算は、／Ａ／の後端フレ
ームａからＰ（Ｎ）の大きさがT_P以下のフレーム
をサーチして、Ｐ（Ｎ）がT_P以上であるか、又
は、隣接フレーム間ケプストラム距離CD（Ｎ）
が、いき値T_CDより大きくなるフレーム(b)を促
音／Ｑ／の後端フレームとし／Ｑ／のセグメンテ
ーシヨンされた区間（ａ−ｂ）の持続時間長
LNGを用いて式に従つて尤度を計算する。

第３図は／HUQSA／（福生）と発声した時の
音声パワーＰ（Ｎ）及び隣接フレーム間ケプスト
ラム距離CD（Ｎ）の時間変化を表わしている。第
３図の促音／Ｑ／の部分に着目すると、／Ｕ／の
後端フレーム(c)から／Ｑ／の後端フレーム(d)を探
索する場合、第２図の／Ｑ／の場合と比べ、Ｐ
（Ｎ）の大きさはＱ区間において、いき値T_P以下
になることはなく、CD（Ｎ）の値もT_CD以上にな
ることはない。このため、促音Ｑのセグメンテー
シヨンを行なう場合本来の／Ｑ／区間の後端(d)を
通り越し、後端フレーム(d)の探索を誤り、尤度も
低くなるため、促音、無声摩擦音が連続した音素
系列を含む単語は誤認識する欠点があつた。

（発明の目的）本発明は、上記従来技術の欠点を除去し、セグ
メンテーシヨン及び尤度計算の精度を向上させ、
それにより単語認識率を向上させることを目的と
するものである。

（発明の構成）本発明は、上記目的を達成するために、促音、
無声摩擦音が連続する音素系列のセグメンテーシ
ヨン及び尤度計算を行なう際、促音、無声摩擦音
の連続２音素をまとめてセグメンテーシヨンし、
次に音素の音響パラメータの分布形で表わされた
標準パタンを用いて、そのセグメンテーシヨンさ
れた音声の区間が各音素から生成される確率密度
を計算し、セグメンテーシヨンされた音声の区間
に対して上記確率密度の値を利用して尤度計算を
行なうものである。

（実施例の説明）以下に本発明の実施例について第３図及び第４
図とともに説明する。第４図は本実施例の方法を
実行するための装置の機能ブロツク図であり、パ
ラメータ抽出部１、音素の確率密度計算部２、単
語認識部３、音素標準パタン部６、単語辞書７等
からなる。第１図に示す従来例と異なるのは、音
響パラメータの分布形で表わされた音素の標準パ
タンを備えていることである。また、単語辞書
は、認識すべき単語を音素の記号列で表記してあ
るが、促音、無声摩擦音の２連続音素系列に対し
て予めそれを識別するための符号をつけてある。
パラメータ抽出により得られるパラメータ時系列
は従来例と同様である。

本実施例の動作について説明する。先ずパラメ
ータ抽出部１において入力音声からフレーム毎の
パラメータを得、さらにそのパラメータの値を使
つて、確率密度計算部２おいて各音素の標準パタ
ンとから得られる確率密度を計算する。次に単語
認識部３により各辞書項目毎に、その辞書項目を
構成する辞書音素系列に従つて音素Ｘのセグメン
テーシヨンを行ない、その音素Ｘとソの音素Ｘに
対応してセグメンテーシヨンされた区間の尤度l_X
を計算するのであるが、促音、無声摩擦音が連続
する音素系列中の促音の部分の性質は、促音、破
裂音が連続する音素系列中の促音の部分の性質と
は異なり、促音の部分の性質が無声摩擦音の性質
に近くなる。従つて、無声摩擦音の確率密度の値
を用いて促音、無声摩擦音の２連続音素をまとめ
てセグメンテーシヨンし尤度計算を行なう。

第３図は、／HUQSA／と発声した時の音声パ
ワーＰ（Ｎ）、隣接フレーム間ケプストラム距離、
CD（Ｎ）及び音素／Ｈ／、／Ｕ／、／Ｓ／、／
Ａ／の確率密度φ_H、φ_U、φ_S、φ_Aの時間変化を示
す。第３図において、促音／Ｑ／の部分のパワー
Ｐ（Ｎ）はいき値T_P以下にはならず次の音素／
Ｓ／のパワーＰ（Ｎ）と同程度であり、／Ｓ／と
の境界(d)の隣接フレーム間ケプストラム距離、
CD(d)の値もいき値T_CDを超えず大きな変化がな
い。また／Ｑ／区間の確率密度は／Ｓ／の確率密
度、φ_Sが優勢であり、／Ｓ／の後端(f)まで優勢で
ある。従つて、促音、無声摩擦音の２連続音素系
列に対しては、上記２連続音素系列を持続時間の
長い無声摩擦音とみなし、無声子音の確率密度を
用いて、／Ｓ／の後端(f)を見つけ、セグメンテー
シヨンを行ない、セグメンテーシヨン区間長、
L_QS及び無声摩擦音の確率密度値φ_Sを用いて式
に従い促音、無声摩擦音の２連続音素系列の尤度
l_QSを求める。

本実施例においては、促音、無声摩擦音の２連
続音素系列を持続時間の長い１つの無声摩擦音と
みなし、無声摩擦音の確率密度を用いてセグメン
テーシヨン及び尤度計算を行なうため、促音、無
声摩擦音の２連続音素系列を含む単語の認識率が
向上する利点がある。

Ｃ、Ｄ：定数 TLGQ：促音と無声摩擦音が連続した場合の持
続時間長の平均値 T_L、T_H：促音と無声摩擦音が連続した場合の持
続時間長のいき値（TLGQ、T_L、T_Hは予備実験等により予め求め
ておく。）ｃ、ｄ：促音と無声摩擦音が連続した音素系列に
対応してセグメンテーシヨンされた区間の始端
及び終端フレームNo. φ_i（C_N）はある音素ｉの確率密度を表わし、
式のように定義される。

φ_i（C_N）＝１／（2π）^K/2｜Σ_i｜^1/2exp〔−１
／２（C_N−〓_i）〓Σ_i ^-1（C_N−〓_i）〕…… C_N：第ＮフレームにおけるＫ個のパラメータ
（ベクトル）〓_i：ある音素ｉのパラメータの平均値（ベクト
ル） Σ_i：共分散行列式において、確率密度の割り算における分母
のｉの範囲は５母音、鼻音、有声子音、無声子音
合わせて15個の音素のグループとしている。

（発明の効果）本発明は、促音と無声摩擦音が２連続する音素
系列のセグメンテーシヨン及び尤度計算を行なう
際、無声摩擦音の確率密度を用いて、促音、摩擦
音の連続２音素をまとめてセグメンテーシヨンし
尤度計算を行うことにより、従来法に比べ精度よ
くセグメンテーシヨン及び尤度計算を行なうこと
ができる利点を有する。

【図面の簡単な説明】

第１図は従来例における単語音声認識方法を説
明するための図、第２図は／SAQPORO／（札
幌）と発声した場合の音声の正規化対数パワーＰ
（Ｎ）及び隣接フレーム間ケプストラム距離、CD
（Ｎ）の時間変化を示す図、第３図は／
HUQSA／（福生）と発声した場合のＰ（Ｎ）、
CD（Ｎ）及び音素／Ｈ／、／Ｕ／、／Ｓ／、／
Ａ／の確率密度φ_H、φ_U、φ_S、φ_Aの時間変化を示
す図、第４図は本発明の一実施例における単語音
声認識方法を説明するための図である。１１……パラメータ抽出部、１２……音素の確
率密度計算部、１３……単語認識部、１４……音
素標準パタン部、１５……単語辞書部。

Claims

【特許請求の範囲】

１認識すべき単語を音素単位の記号列で表記し
た単語辞書の辞書項目と入力音声を照合し、各辞
書項目を構成する辞書音素系列に従い、各辞書毎
に入力音声を単位時間毎に分析した音響パラメー
タを用いて、入力音声に対しセグメンテーシヨン
を行ない、そのセグメンテーシヨンされた区間に
対して、上記音響パラメータを用いて、各辞書項
目と入力音声の類似度を求めて、単語を認識する
単語音声認識方法において、辞書単語中の促音、
無声摩擦音が連続した音素系列に対しては促音と
無声摩擦音の連続２音素をまとめてセグメンテー
シヨンし、音素の音響パラメータの分布形で表わ
された標準パタンを用いて、そのセグメンテーシ
ヨンされた音声の区間が、各音素から生成される
確率密度を計算し、セグメンテーシヨンされた音
声の区間に対して上記確率密度の値を用いて尤度
計算を行なうことを特徴とする単語音声認識方
法。