JPH045391B2

JPH045391B2 -

Info

Publication number: JPH045391B2
Application number: JP59058173A
Authority: JP
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1992-01-31
Also published as: JPS60202494A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は入力音声と、音素表記された単語辞書
を照合して単語を認識する単語音声認識方法に関
するものである。

（従来例の構成とその問題点）第１図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第１
図、第２図及び第３図とともに説明する。第１図
において、１は入力音声からパラメータの時系列
を作成するパラメータ抽出部、２は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、３は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、４は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値（μi）、及び各種パラ
メータ間の半分散行列（Σi）の形で表わした音素
標準パタンを記憶する音素標準パタン部、５は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「カンケ
イ」は「SAQPORO」、「KAN＝NAI」等と表記
されている。

次に上記従来例の動作について説明する。パラ
メータ抽出部１において、入力音素を10ｍｓのフ
レーム毎に分析しパラメータを抽出して、パラメ
ータ時系列を作成する。次に確率密度計算部２に
おいて、フレーム毎に得られたパラメータと音素
標準パタン部４の音素標準パタンを照合し、音素
の確率密度を算出する。次に、単語認識部３にお
いて、各辞書項目毎に、その辞書項目を構成する
辞書音素系列に従つて音素のセグメンテーシヨン
を行ない、下記式に従いその音素の種類と、そ
の音素に対応してセグメンテーシヨンされた区間
の尤度ｌを計算し、その辞書項目における、各音
素の尤度の平均として類似度を求める。ここで、
その音素をＸとし、Ｘに対応してセグメンテーシ
ヨンされた区間の始端と終端のフレーム番号を
Ns、Neとし、第ｎフレームにおける各パラメー
タの値をC_oとすると、音素Ｘの尤度l_xは下式で定
義される。

φ_i（C_o）はある音素ｉの確率密度を表わし、
式のように定義される。

φ_i（C_o）＝１／（2π）^N/2｜Σ_i｜^1/2exp〔
−１／２（C_o−μ_i）^TΣ^-1 _i（C_o−μ_i）〕…… C_o：第ｎフレームにおけるＮ個のパラメータ（ベクトル） μ_i：ある音楽ｉのパラメータの平均値（ベクトル） Σ_i：共分散行列式において、確率密度の割り算における分母
のサメンシヨンのｉの範囲は、音素Ｘが何である
かによつて異なり、例えばＸが音楽Ａ(ア)の時はｉ
の範囲は５母音、Ａ、Ｅ、Ｉ、Ｏ、Ｕ、としてい
る。以上により得られる単語類似度L_Mを式に
従つて各辞書項目毎に求め、L_Mが最大となる辞
書項目をもつて、認識単語としていた。

L_M＝_NP 〓^j=1 l_j／NP …… （L_M：辞書中のＭ番目の単語の類似度 l_j：辞書音素系列中のｊ番目の音素の尤度 NP：辞書音素類）第２図は／KAN＝NAI／（関内）と発声した
時の／AN＝NA／の部分の各音素の確率密度の
時間変化を表わしている。この場合の／AN＝
NA／の部分のセグメンテーシヨン及び尤度計算
は、各音素／Ａ／、／Ｎ＝／、／Ｎ／、／Ａ／の
確率密度の値φ_A、φ_N=、φ_N、φ_Aの時間変化に従つ
てセグメンテーシヨンを行なう。／AN＝NA／
の場合は第１番目の／Ａ／に対してセグメンテー
シヨンした区間（ａ−ｂ）を対応させ、式に従
い、φ_Aを用いてl_Aを計算し、／Ｎ＝／、／
Ｎ／、／Ａ／についても同様にl_N=、l_N、l_Aを計算
する。

第３図は同じ単語／KAN＝NAI／を別の話者
が発声した場合の各音素の確率密度の時間変化を
示している。第３図において、／AN＝NA／の
部分のセグメンテーシヨン及び尤度計算はφ_A、
φ_N=、φ_N、φ_Aの時間変化によつて行なうが、／Ｎ
＝／のセグメンテーシヨンをする場合／Ｎ＝／の
次に来る音素／Ｎ／の確率密度φ_Nが／Ｎ／の区
間で十分大きくならずφ_N=が／Ｎ／の区間に大き
な値を持ち、次の音素／Ａ／の区間の始まりまで
きている。従つて／Ｎ＝／のセグメンテーシヨン
区間は区間（ｇ−ｈ）となり、／Ｎ／の区間を含
むため、／Ｎ＝／の次の音素／Ｎ／のセグメンテ
ーンシヨンを誤り、尤度l_Nも低くなるため、撥
音、鼻音の連続２音素を含む単語は誤認識し易い
欠点があつた。

（発明の目的）本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。

（発明の構成）本発明は、上記目的を達成するために、撥音、
鼻音が連続する音素系列のセグメンテーシヨン及
び尤度計算を行なう際、撥音、鼻音の連続２音素
をまとめてセグメンテーシヨンし尤度計算を行な
うことにより、セグメンテーシヨン及び尤度計算
の精度を向上させる効果を得るものである。

（実施例の説明）以下に本発明の一実施例について第１図及び第
３図とともに説明する。第１図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず、パラメータ抽出部１で入力音
声からフレーム毎のパラメータを得、さらに確率
密度計算部２でそのパラメータの値及び、各音素
標準パタンから得られる確率密度を計算する。次
に、単語認識部３において、単語辞書部５内の各
辞書項目毎にその辞書項目を構成する辞書音声系
列に従つて音素Ｘのセグメンテーシヨンを行な
い、その音素Ｘとその音素Ｘに対応してセグメン
テーシヨンされた区間の尤度l_Xを計算するのであ
るが、辞書音素系列中に撥音、鼻音の２連続音素
系列がある場合、第１番目の音素である撥音の確
率密度の値が、次の鼻音の終りまで優勢である。
従つて撥音、鼻音の連続２音素をまとめてセグメ
ンテーシヨンし、そのセグメンテーシヨンした区
間に対して尤度を計算する。第３図の／AN＝
NA／の部分の各音素／Ａ／、／Ｎ＝／、／
Ｎ／、／Ａ／の確率密度φ_A、φ_N=、φ_N、φ_Aをみる
と、φ_N=は／Ｎ／の部分でφ_Nよりも大きな値を持
ち／Ａ／の始まり(h)まで続いている。従つて、
φ_N=の値を用いて、／Ｎ＝Ｎ／の連続２音素をま
とめてｇからｈまでセグメンテーシヨンを行な
い、セグメンテーシヨンした区間（ｇ−ｈ）に対
してφ_N=の値を用いて式に従つて２音素分の尤
度l_N=Nを求める。ここで式と対比して普通の音
素の場合は従来同様式を用いて尤度計算を行な
う。

本実施ににおいては、撥音、鼻音の音素系列を
１つにまとめてセグメンテーシヨン及び尤度計算
を行なうため、撥音、鼻音の連続２音素を含む単
語の認識率が向上する利点がある。

但し、記号の使用は、式に準ずる。

（発明の効果）本発明は上記のように撥音、鼻音の連続２音素
をまとめてセグメンテーシヨンし、尤度計算を行
なうことにより、従来法に比べ精度よくセグメン
テーシヨン及び尤度計算を行うことができる。

【図面の簡単な説明】

第１図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第２図は／
KAN＝NAI／（カンナイ）と発声した場合の／
AN＝NA／の部分の各要素／Ａ／、／Ｎ
＝／、／Ｎ／、／Ａ／の確率密度φ_A、φ_N=、φ_N、
φ_Aの時間変化を示す図、第３図は第２図の場合
とは別の話者が／KAN＝NAI／と発生した場合
φ_A、φ_N=、φ_N、φ_Aの時間変化を示す図である。１……パラメータ抽出部、２……確率密度計算
部、３……単語認識部、４……音素標準パタン
部、５……単語辞書部。

Claims

【特許請求の範囲】

１認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形
で表わされた各音素の標準パタンを用いて、入力
音声の単語認識を行なう単語音声認識方法におい
て、入力音声を単語辞書の各辞書項目と照合し、
各辞書項目を構成する辞書音素系列に従い各音素
毎に入力音声をセグメンテーシヨンし、その音素
の標準パタンを用いて、そのセグメンテーシヨン
された音声の区間がその音素から生成される確率
密度を計算し、セグメンテーシヨンされた音声の
区間に対して、上記確率密度の値を用いて各辞書
項目と入力音声の類似度を求めて、単語を認識す
る際、辞書単語中の撥音、鼻音が連続した音素系
列に対しては、撥音と鼻音の連続２音素をまとめ
てセグメンテーシヨンし、尤度計算を行なうこと
を特徴とする単語音声認識方法。