JPH045394B2

JPH045394B2 -

Info

Publication number: JPH045394B2
Application number: JP59058176A
Authority: JP
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1992-01-31
Also published as: JPS60202488A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。

（従来例の構成とその問題点）第１図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第１
図、第２図及び第３図とともに説明する。第１図
において、１は入力音声からパラメータの時系列
を作成するパラメータ抽出部、２は音素標準パタ
ンを照合して、音素の確率密度を算出する確率密
度計算部、３は音素毎のセグメンテーシヨン、尤
度計算、単語類似度計算を行なう単語認識部であ
る。また、４は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値（〓ｉ）、及び各種パ
ラメータ間の共分散行列（Σi）の形で表わした音
素標準パタンを記憶する音素標準パタン部、５は
認識すべき全単語を音素単位の記号例で表記した
単語辞書が記憶されている単語辞書部である。そ
の単語辞書は、例えば単語「サツポロ」、「ナガ
ノ」は「SAQPORO」、「NAGANO」等と表記
されている。

次に上記従来例の動作について説明する。パラ
メータ抽出部１において、入力音声を10ｍsecの
フレーム毎に分析しパラメータを抽出して、パラ
メータ時系列を作成する。次に確率密度計算部２
において、フレーム毎に得られたパラメータと音
素標準パタン部４の音素標準パタンを照合し、音
素の確率密度を算出する。次に、単語認識部３に
おいて、各辞書項目毎に、その辞書項目を構成す
る辞書音素系列に従つて辞書音素系列中の音素Ｘ
のセグメンテーシヨンを行ない、その音素Ｘの確
率密度φ_X及びその音素Ｘに対応してセグメンテ
ーシヨンされた区間に出現し易い他の音素Ｙ，Ｚ
等の確率密度φ_Y、φ_Zを用いてその音素Ｘのセグ
メンテーシヨン区間に対して、音素Ｘの尤度l_Xを
式に従つて求める。

（但し、 Ns、Ne：音素Ｘに対応してセグメンテーシヨン
された区間の始端と終端のフレーム番号ｉの範囲は音素Ｘが何であるかによつて異な
り、例えばＸが音素Ａアの時は前記Ｘ、Ｙに対応
するｉの範囲は５母音A.I.U.E.Oの５つとする。）式において、φi（〓ｎ）はある音素ｉの確率密
度を表わし、式のように定義される。

φi（〓ｎ）＝１／（2π）^N/2｜Σi｜^1/2exp〔
−１／２（〓ｎ−〓ｉ）^TΣi^-1（〓ｎ−〓ｉ）〕……
（但し、〓ｎ：第ｎフレームにおけるＮ個のパラメータ
（ベクトル）〓ｉ：ある音素ｉのパラメータの平均値（ベクト
ル） Σi：共分散行列）またＷ（Ｘ、ｉ、Ａ、Ｂ）は、音素系列／
AXB／において、音素Ｘの区間に出現する音素
ｉの確率密度φiを考慮した重み関数であり、予め
予備実験等により求める。音素系列／AXB／の
場合の重み関数Ｗ（Ｘ、ｉ、Ａ、Ｂ）の例を第２
図に示す。第２図は音素Ｘに対応してセグメンテ
ーシヨンされた区間において、出現し易い音素が
音素Ｘ、及び音素Ｘ以外の音素としてＹ、Ｚが出
現した場合の例である。

上記の操作を辞書音素系列中の全ての音素につ
いて行ない、その辞書項目における各音素の尤度
の平均として単語類似度L_Mを式に従い求める。
次にL_Mを各辞書項目毎に求め、L_Mが最大になる
辞書項目をもつて認識単語としていた。

L_M＝_NP 〓^c=1 lj／NP …… （L_M：辞書中のＭ番目の単語の類似度 lj：辞書音素系列中のｊ番目の音素の尤度 NP：辞書音素数）第３図は／NAGANO／（長野）と発声した場
合の／AGA／の部分の各音素の確率密度の時間
変化を示す。また、第４図は式において、／
AGA／の場合の重み関数、Ｗ（Ｇ、ｉ、Ａ、Ａ）
を示す。

第３図の／Ｇ／のセグメンテーシヨン区間（ａ
−ｂ）において、出現する音素の確率密度をみる
と、／Ｇ／の確率密度、φ_Gが最大で台形のパタ
ンをなし、次に／Ｇ／とは別種の音素／Ｒ／の確
率密度φ_Rがφ_Gより小さく低い山形となつて現わ
れ、φ_Nについてもφ_Rと似た傾向を示す。従つて、
式により、本来の音素である／Ｇ／の尤度φ_G
及び／Ｇ／の区間（ａ−ｂ）に出現し易い音素で
ある／Ｒ／、／Ｎ／等の確率密度φ_R、φ_Nから／
Ｇ／の尤度l_Gを式及び第４図のＷ（Ｇ、ｉ、Ａ、
Ａ）の値に従つて計算する。また、第３図におい
て、φ_Aに比べφ_Gの値が小さいが、l_Gを求める際、
式を用いてφ_Gだけでなく、φ_Rやφ_NをＷ（Ｇ、
ｉ、Ａ、Ａ）に従つて計算しているため、l_Aとl_G
の間に大きな差を生じることがない。

第５図は、式において／ARA／の場合のＷ
（Ｒ、ｉ、Ａ、Ａ）を示す。第３図において、／
AGA／の／Ｇ／のセグメンテーシヨン区間（ａ
−ｂ）に辞書音素系列中の／ARA／の／Ｒ／を
対応させた時、式及び第５図に示す重み関数、
Ｗ（Ｒ、ｉ、Ａ、Ａ）の値に従つて、／Ｒ／の尤
度l_Rを求めると、区間（ａ−ｂ）において、φ_G＞
φ_RよりＧの尤度l_GよりＲの尤度l_Rが大きくなるこ
とはない。

第６図に同じ単語／NAGANO／を他の話者が
発声した場合の／AGA／の部分の各音素の確率
密度の時間変化を示す。第６図の／Ｇ／のセグメ
ンテーシヨン区間（ｃ−ｄ）において、出現する
音素の確率密度をみると、第３図の場合とは異な
り、／Ｇ／の確率密度φ_Gは台形のパタンをなす
が、値はφ_Rに比べ小さい。一方、／AGA／の区
間において、φ_Rの時間変化は少ないが、φ_Rはφ_G
よりも大きな値を持つ。従つて、式、Ｗ（Ｇ、
ｉ、Ａ、Ａ）及びＷ（Ｒ、ｉ、Ａ、Ａ）より／
Ｇ／のセグメンテーシヨン区間（ｃ−ｄ）に、辞
書音素系列中の／AGA／の／Ｇ／を対応させた
時、得られる／Ｇ／の尤度l_Gと／ARA／の／
Ｒ／を対応させた時得られる／Ｒ／の尤度l_Rを比
較すると、l_Rの方がl_Gより大きくなる。このため
発声した単語／NAGANO／（ナガノ）を／
NARANO／（ナラノ））と誤認識する欠点があ
つた。

（発明の目的）本発明は、上記従来技術の欠点を除去し、尤度
計算の精度を向上させ、それにより単語認識率を
向上させることを目的とするものである。

（発明の構成）本発明は、上記目的を達成するために、セグメ
ンテーシヨンされた区間において、着目した音素
の確率密度の時間変化パタンを尤度計算に取入
れ、尤度計算の精度を向上させるものである。即
わち、本発明の単語音声認識方法は、セグメンテ
ーシヨンされた音素の区間において、辞書音素系
列中の隣接する前後の音素に応じて、その音素及
び別種の音素の標準パタンとその音素との距離の
値及びその時間変化パタンに応じて尤度を計算
し、この尤度の値を用いて辞書項目と入力音声の
類似度を求めて単語を認識することを特徴とす
る。

（実施例の説明）以下に本発明の一実施例について第１図及び第
３図とともに説明する。第１図において、音素標
準パタンは従来例と同様である。単語辞書は、認
識すべき単語を音素の記号列で表記してある。ま
たパラメータ抽出により得られるパラメータ時系
列は従来例と同様である。本実施例の動作につい
て説明する。先ず入力音声からフレーム毎のパラ
メータを得、さらにそのパラメータの値を使つ
て、各音素標準パタンから得られる確率密度を計
算する。ここまでは、前記従来例と同様である。
次に各辞書項目毎にその辞書項目を構成する辞書
音素系列に従つて音素Ｘのセグメンテーシヨンを
行ない、その音素Ｘの確率密度φ_X及びその音素
Ｘに対応してセグメンテーシヨンされた区間に出
現し易い他の音素Ｙ、Ｚ等の確率密度φ_Y、φ_Zを
用いて音素Ｘの尤度l_Xを求めるのであるが、その
際、φ_X、φ_Y、φ_Zの時間変化の大きさも考慮してl_X
を求める。

第６図において、入力単語／NAGANO／の／
Ｇ／の尤度l_Gを求める場合、／Ｇ／のセグメンテ
ーシヨン区間（ｃ−ｄ）に対して出現し易い／
Ｇ／以外の音素の確率密度φ_R、φ_N及び／Ｇ／の
確率密度φ_Gの時間についての１次差分値Δφ_G／
Δtを求めてその極大値φ_G _DMXと極小値φ_G _DMNの
差φ_G _DDの大小に応じて式、式に従つて尤度
を求める。

（Ｖ（φ_i _DDは音素ｉの確率密度φ_iの１次差分値に
おける極大値と極小値の差φ_i _DDから計算される
重み関数であり、式によつて表わされる）Ｖ（φ_i _DD）を除き、記号は、式に準ずる。

Ｖ（φ_i _DD）＝Ｃ＋Ｄ・φ_i _DD …… （Ｃ、Ｄは定数）第７図にＶ（φ_G _DD）の値を示す。セグメンテ
ーシヨン区間（ｃ−ｄ）に対応して第６図におい
て、、式を用いて／AGA／の／Ｇ／の尤度
l′_Gと／ARA／の／Ｒ／の尤度l′_Rを求めると、（ｃ
−ｄ）区間において、Ｖ（φ_G _DD）〓Ｖ（φ_R _DD）
より、本来の音素／Ｇ／の尤度l′_Gの方がl′_Rより大
きくなるため／NAGANO／を／NARANO／と
誤認識することはない。

本実施例においては、セグメンテーシヨンされ
た区間において、音素Ｘの尤度l_Xを求める際、音
素Ｘの確率密度φ_Xの時間変化の大きさに対応し
た尤度計算を行なうため、φ_Xの値が小さくても
時間変化が大きければ、l_Xの値が大きくなり、尤
度計算の精度が向上する利点がある。

（発明の効果）本発明は、セグメンテーシヨンされた区間内に
おいて、辞書音素系列中の隣接する前後の音素に
応じて、その音素及び別種の音素の標準パタンと
その音素との距離の値及び時間変化パタンに応じ
て尤度を計算するため、尤度計算の精度が向上す
る。

【図面の簡単な説明】

第１図は従来の単語音声認識方法の一例および
本発明の方法を実施例を実行するための装置の機
能ブロツク図である。第２図は式において、音
素系列／AXB／の場合の重み関数Ｗ（Ｘ、ｉ、
Ａ、Ｂ）を示す図、第３図は、／NAGANO／
（ナガノ）と発声した場合の／AGA／の部分にお
ける音素の確率密度の時間変化を示す図、第４
図、第５図は、式において音素系列／AGA／
及び／ARA／の場合の重み関数Ｗ（Ｇ、ｉ、Ａ、
Ａ）、Ｗ（Ｒ、ｉ、Ａ、Ａ）を示す図、第６図は、
第３図とは別の話者が発声した／NAGANO／
（ナガノ）の／AGA／の部分における音素の確率
密度及びその差分値の時間変化を示す図、第７図
は式のＶ（φ_i _DD）とφ_i _DDの関係を示す図であ
る。１……パラメータ抽出部、２……確率密度計算
部、３……単語認識部、４……音素標準パタン
部、５……単語辞書部。

Claims

【特許請求の範囲】

１認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータで表わさ
れた各音素の標準パタンを用いて、入力音声の単
語認識を行なう単語音声認識方法において、入力
音声を単語辞書の各辞書項目と照合し、各辞書項
目を構成する辞書音素系列に従い各音素毎に入力
音声をセグメンテーシヨンし、セグメンテーシヨ
ンされた音素の区間に対して、その音素の標準パ
タンとその音素との距離の値を用いて各辞書項目
と入力音声の類似度を求めて、単語を認識する
際、セグメンテーシヨンされた音素の区間内にお
いて、辞書音素系列中の隣接する前後の音素に応
じて、その音素及び別種の音素の標準パタンとそ
の音素との距離の値及びその時間変化パタンに応
じて尤度を計算し、この尤度の値を用いて辞書項
目と入力音声の類似度を求めて単語を認識するこ
とを特徴とする単語音声認識方法。