JPH0413720B2

JPH0413720B2 -

Info

Publication number: JPH0413720B2
Application number: JP59129853A
Authority: JP
Inventors: Hisanori Kanezashi; Takao Irumano; Kunio Akiba
Original assignee: Matsushita Communication Industrial Co Ltd
Current assignee: Panasonic Mobile Communications Co Ltd
Priority date: 1984-06-22
Filing date: 1984-06-22
Publication date: 1992-03-10
Also published as: JPS617897A

Description

【発明の詳細な説明】

産業上の利用分野本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。従来例の構成とその問題点第１図は単語音声認識方法を実行するための装
置の機能ブロツク図である。第１図において、１
は入力音声からパラメータの時系列を作成するパ
ラメータ抽出部、２は音素標準パタンを照合し
て、音素の確率密度を算出する確率密度計算部、
３は音素毎のセグメンテーシヨン、尤度計算、単
語類似度計算を行なう単語認識部である。また、
４は各音素毎の各種パラメータにおける分布を各
音素毎の平均値（μ_i）、及び各種パラメータ間の
共分散行列（Σ_i）の形で表わした音素標準パタン
を記憶する音素標準パタン部、５は認識すべき全
単語を音素単位の記号列で表記した単語辞書が記
憶されている単語辞書部である。その単語辞書
は、例えば単語「アサヒ」、「イシ」は、
「ASAHI」、「ISI」等と表記されている。次に、上記従来例の動作について説明する。パ
ラメータ抽出部１において、入力音声を10ｍsec
のフレーム毎に分析しパラメータを抽出して、パ
ラメータ時系列を作成する。次に確率密度計算部
２において、フレーム毎に得られたパラメータと
音素標準パタン部４の音素標準パタンを照合し、
音素の確率密度を算出する。次に、単語認識部３
において、各辞書項目毎にその辞書項目を構成す
る辞書音素系列に従つて音素のセグメンテーシヨ
ンを行ない、その音素の種類とその音素に対応し
てセグメンテーシヨンされた区間の尤度ｌを計算
し、その辞書項目における各音素の尤度の平均と
して類似度を求める。ここで、その音素をＸと
し、Ｘに対応してセグメンテーシヨンされた区間
の始端と終端のフレーム番号をNs、Neとし、第
ｎフレームにおける各パラメータの値をCnとす
ると、音素Ｘの尤度lxは(1)式で定義される。 l_x＝log１／Ne−Ns＋１・_Ne 〓^n=Ns φ_x（Cu）／〓φ_i（Cu） ……(1) φ_i（Cu）はある音素ｉの確率を表わし、(2)式の
ように定義される。 φ_i＝１／（2π）Ｎ／２｜Σi｜^1/2exp 〔−１／２（Cu−μ_i）^TΣ^-1 _i（Cu−μ_i）〕……(2
) C_o：第ｎフレームにおけるＮ個のパラメータ
（ベクトル） μ_i：ある音素ｉのパラメータの平均値（ベクト
ル） Σ_i：ある音素ｉのパラメータの共分散行列 (1)式において、確率密度の割り算における分母
のサメンシヨンのｉの範囲は、音素Ｘが何である
かによつて異なり、例えばＸが音素Ａ(ア)の時はｉ
の範囲は５母音、Ａ、Ｅ、Ｉ、Ｏ、Ｕとしてい
る。以上により得られる単語類似度L_Mを(3)式に
従つて、各辞書項目毎に求め、L_Mが最大となる
辞書項目をもつて認識単語としていた。 L_M＝_NP 〓^j=1 l_j／NP ……(3) L_M：辞書中のＭ番目の単語の類似度 l_j：辞書音素系列中のｊ番目の音素の尤度 NP：辞書音素数第２図は「石」（／isi／）発声した時の各音
素／ｉ／，／ｓ／，／ｉ／に対応する標準パタン
中の音素シンボル、(I)，（Ｓ），(I)の確率密度値
φ_I，φ_S，φ_I及び音声パワーＰの時間変化を示す。
第２図において、辞書中の単語／isi／を仮定し
た場合の音素／Ｓ／のセグメンテーシヨン及び尤
度計算は、音素／Ｓ／に対応する音素シンボル
（Ｓ）の確率密度値φ_Sが優勢になるフレーム、６
からφ_Sが小さくなり、音素／ｉ／に対応する音素
シンボル(I)の確率密度値が優勢になるフレーム、
７までを音素／Ｓ／のセグメンテーシヨン区間
（６−７）とし、次に区間（６−７）における音
素／Ｓ／の確率密度値φ_Sを用いて(1)式に従つて音
素／Ｓ／の尤度l_Sを求める。第３図は「位置」（／ici／）と発声した時の各
音素／ｉ／，／ｃ／，／ｉ／に対応する標準パタ
ン中の音素シンボル(I)，（Ｓ），(I)の確率密度値
φ_I，φ_S，φ_I及び音声パワーＰの時間変化を示す。
ここで、音素／Ｃ／に対応する標準パタン中の音
素シンボルは摩擦音群を表わす（Ｓ）である。第
３図において、音素／Ｃ／の区間（８−10）は破
裂直前の無音部（８−９）と破裂し摩擦する部分
とに分かれるが、無音部（背景雑音）のスペクト
ルは母音や有声音のスペクトルと比べ、高域成分
が多いため摩擦音のスペクトルに近くなる。従つ
て無音部（８−９）に対応する標準パタンの音素
シンボルφ_Sが優勢に現われる。このため、入力音
声／ici／に対して辞書中の単語／ISI／を仮定す
る時、音素／Ｓ／の尤度はφ_Sを用いて計算するた
め、音素／Ｓ／の尤度の値は本来の単語／ici／
を仮定した時の音素／Ｃ／の尤度の値と同程度に
なり、／Ｓ／と／Ｃ／の識別が困難になり／
Ｓ／、／Ｃ／を含む単語は誤認識し易い欠点があ
つた。発明の目的本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。発明の構成本発明は、上記目的を達成するために有声子
音、摩擦音等の破裂音又は促音以外の子音の尤度
を計算する際、セグメンテーシヨンされた区間中
で、その音素又は音素群の標準パタンとその音素
との距離だけでなうく、音声パワーの値及びその
時間変化の大きさから尤度計算を行なうことによ
り、尤度計算の精度を向上させる効果を持つもの
である。実施例の説明以下に本発明の一実施例の構成について図面と
ともに説明する。本実施例の音素標準パタンは従
来例と同様である。単語辞書は認識すべき単語を
音素の記号列で表記してある。また、パラメータ
抽出により得られるパラメータ時系列は従来例と
同様である。次に、上記実施例の動作について説明する。先
ず、入力音声からフレーム毎のパラメータを得、
さらにそのパラメータの値を使つて、各音素標準
パタンから得られる確率密度を計算し、各辞書項
目毎に、その辞書項目を構成する辞書系列に従つ
て音素Ｘのセグメンテーシヨンを行ない、その音
素Ｘとその音素Ｘに対応してセグメテーシヨンさ
れた区間の尤度l_xを計算するのであるが、本来、
無音部を伴なう破裂音や破擦音以外の音素である
有声子音や摩擦音等の音声パワーＰの値は無音部
のパワーに比べて大きな値を持ち、またその時間
変化も小さい。第２図における入力音声／isi／の場合の／
Ｓ／の区間（６−７）と第３図における入力音
声／ici／の場合の／Ｃ／の区間（８−10）の２
つの区間の音声パワー、Ｐ、及び隣接フレーム間
LPCケプストラム距離、CDの動きに着目する
と／Ｓ／の場合は、／Ｃ／に比べＰの動きは浅い
凹みを持ち、CDも小さな山が区間（６−７）の
端にあるだけである。しかし、／Ｃ／の場合は破
裂直前に無音部（８−９）が存在するため、Ｐの
動きは／Ｓ／に比べ深い谷を持ち、CDも破裂時
点９で鋭いピークがある。従つて、無音部を伴な
う破裂音や破擦音以外の音素Ｘの尤度l_xを計算す
る場合、音素Ｘの確率密度値から得られる尤度
l_x1とは別に、音声パワーＰの値やその時間変化
を利用した尤度l_x2の併用を考え、音声パワーＰ
の動きが無音部の動きに近い時、l_xの値が小さく
なるように、l_x2を減点作用の項として働くよう
にする。第３図において、入力音声／ici／に対して辞
書中の単語／ISI／を仮定する時、セグメンテー
シヨンは従来と同様に音素／Ｓ／に対応する確率
密度φ_Sを用いて区間（６−７）をセグメンテーシ
ヨンする。尤度計算については、従来と同様にφ_S
を用いて(1)式に従つて得られる尤度l_S1及び音声
パワーＰとその時間変化として(4)式に示す隣接フ
レーム間LPCケプストラム距離CDを用いて(5)式
に従つて得られる尤度l_S2の上記２つの尤度から
(8)式に従つて、音素／Ｓ／の尤度l_sを求める。 CD（Ｎ）＝〔｛Co_(N)−Co_(N-1)｝² ＋２₅ 〓ⁱ⁼¹ ｛C_i(N)−C_i(N-1)｝²〕^1/2 ……(4) Co_(N)：｛Ｎフレーム目における音声の対数残差
パワー C_i(N)：Ｎフレーム目における第ｉ次のLPCケプ
ストラム係数 l_S2＝log（l_S21・l_S22） ……(5) l_S21＝Ｏ（pm＜TH1のとき）Ａ・pm＋Ｂ（TH1≦pm≦TH2のとき）１（pm＜TH2のとき） …(6) 〔但し、pmはセグメンテーシヨン区間中の音声
パワーＰの最小値、TH1、TH2は予め設定した
いき値、Ａ、Ｂは定数〕

【表】 l_S＝l_S1＋l_S2 ……(8) l_S2はセグメンテーシヨン区間中の音声パワー
の最小値pmから(6)式に従つて計算されるl_S21とセ
グメンテーシヨン区間中の隣接フレーム間LPC
ケプストラム距離の最大値cdmから(7)式に従つて
計算されるl_S22の積の対数をとつた式（(5)式）で
表わす。l_S21とpm、l_S22とcdmの関係を第４図に
示す。上記のような尤度計算を行なうことにより、入
力音声／ici／に対し、辞書中の単語／ICI／を仮
定した場合の／Ｃ／の尤度に比べ、辞書中の単
語／ISI／を仮定した場合／Ｓ／の尤度が小さく
なり、無音部を伴なう破裂音や破擦音と他の音素
との分離が良くなる利点がある。発明の効果本発明は上記のような構成であり、破裂音や破
擦音等のような無音部を伴なう音素以外の音素の
尤度を計算する際、セグメンテーシヨンされた区
間中で、その音素又は音素群の標準パタンとその
音素との距離だけでなく、音声パワーの値及びそ
の時間変化の大きさを併用して、尤度計算を行な
うことにより、従来法に比べ精度よく尤度を求め
ることができる。

【図面の簡単な説明】

第１図は従来及び本発明の一実施例における単
語音声認識方法を示す図、第２図は（石）と発声
した時の各音素の確率密度、音声パワーＰ、及び
隣接フレーム間LPCケプストラム距離、CDの時
間変化を示す図、第３図は（位置）と発声した時
の各音素の確率密度、音声パワーＰ、及び隣接フ
レーム間LPCケプストラム距離、CDの時間変化
を示す図、第４図はl_S21とpm及びl_S22とcdmの関
係を示す図である。

Claims

【特許請求の範囲】１認識すべき単語を音素単位の記号列で表記し
た単語辞書及び各音素又は音素群の音響パラメー
タで表わされた各音素又は音素群の標準パタンを
用いて、入力音声の単語認識を行なうにあたり、
入力音声を単語辞書の各辞書項目と照合し、各辞
書項目を構成する辞書音素系列に従い、各音素毎
に入力音声をセグメンテーシヨンし、このセグメ
ンテーシヨンされた音声の区間に対して、その音
素又は音素群の標準パタンとその音素との距離を
用いて、辞書項目中の音素と入力音声の尤度を求
め、この尤度の値を用いて辞書項目と入力音声の
類似度を求めて、単語を認識する際、有声子音、
摩擦音等の破裂音（破裂直前に無音部が存在する
音素、破擦音を含む）又は促音以外の音素の尤度
を計算するにあたり、セグメンテーシヨンされた
区間中でその音素又は音素群の標準パタンとその
音素との距離から得られる尤度をその音素らしさ
を表わす値とし、音声パワーの値及びその時間変
化の大きさから得られる尤度をその音素らしから
ぬことを表わす値として扱い、２つの尤度を用い
て計算した尤度をその音素の尤度とする単語音声
認識方法。２各音素又は音素群の標準パタンとして、各音
素又は音素群の音響パラメータの分布形で表わさ
れた標準パタンを用い、音素又は音素群の標準パ
タンとその音素との距離尺度として、セグメンテ
ーシヨンされた音声の区間がその音素から生成さ
れる確率密度を用いる特許請求の範囲第１項記載
の単語音声認識方法。３音声パワーの時間変化の大きさとして隣接フ
レーム間ケプストラム距離を用いる特許請求の範
囲第１項記載の単語音声認識方法。