JPH0412479B2

JPH0412479B2 -

Info

Publication number: JPH0412479B2
Application number: JP59003588A
Authority: JP
Inventors: Takao Irumano; Kunio Akiba; Hisanori Kanezashi
Original assignee: Matsushita Communication Industrial Co Ltd
Current assignee: Panasonic Mobile Communications Co Ltd
Priority date: 1984-01-13
Filing date: 1984-01-13
Publication date: 1992-03-04
Also published as: JPS60147795A

Description

【発明の詳細な説明】

（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。（従来例の構成とその問題点）図は従来の単語音声認識方法の一例及び本発明
の単語音声認識方法の実施例等を実行するための
装置の機能ブロツク図である。従来例を図ととも
に説明する。図において、１は入力音声からパラ
メータの時系列を作成するパラメータ抽出部、２
は音素標準パタンを照合して、音素の確率密度を
算出する確立密度計算部、３は音素毎のセグメン
テーシヨン、尤度計算、単語類似度計算等を行な
う単語認識部である。また、４は各音素毎の各種
パラメータにおける分布を各音素毎に平均値
（μ_i）、及び各種パラメータ間の共分散行列（Σ_i）
の形で方わした音素標準パタンを記憶する音素標
準パタン部、５は認識すべき全単語を音素単位の
記号列で表記した単語辞書が記憶されている単語
辞書部である。その単語辞書は、例えば単語「サ
ツポロ」、「トーキヨー」、「ヨヨギ」、「ルモイ」等
は「SAQPORO」、「TOOKJOO」、「JOJOGI」、
「RUMOI」等と表記されている。次に上記従来例の動作について説明する。先ず
パラメータ抽出部１により入力音声を10msのフ
レーム毎に分析し、パラメータを抽出して、パラ
メータ時系列を作成する。次に、確率密度計算部
１２で、パラメータ抽出部１によりフレーム毎に
得られたパラメータと音素標準パタン部４に格納
されている各種音素標準パタンとを照合し、その
パラメータの値が各音素を発声して得られる確率
密度を下記式により計算する。第ｎ番目のフレ
ームにおけるｋ個のパラメータをベクトルC_oで
表わし、ある音素Ｘを発声した時のそれらパラメ
ータにおける平均値を〓_x、共分散行例をΣ_xとす
ると、Ｘに対するC_oの確率密度φ_x（C_o）は次式で
定義される。 φ_x（C_o）△＝１／（2π）^n/2｜Σ_x｜^1/2exp〔−１／２（C_o−〓_x）^TΣ^-1 _x（C_o−〓_x）〕 …… 次に、単語認識部３において、単語辞書部５の
各辞書項目毎に類似度を求めるのであが、この類
似度計算時に、その辞書項目を構成する辞書音素
列に従つて音素のセグメントテーシヨンを行な
い、そのセグメンテーシヨンされた音声区間がそ
の音素を発声したものである確からしさを表わす
尺度である尤度を式により計算し、その辞書項
目における各音素の尤度の平均として類似度を求
め、類似度が最大となる辞書項目をもつて認識単
語とする。ここで、その音素ｘとし、ｘに対応し
てセグメンテーシヨンされた音声区間の始端と終
端のフレーム番号を夫々N_s、N_eとし、第ｎ番目
のフレームにおける各パラメータの値を式と同
様C_oとすると、尤度ｌは式で定義される。ここで、確率密度の割り算における分母のサメ
ンシヨンのｉの範囲は、音素ｘが何であるかによ
り異り、例えばｘが音素Ｏ(オ)の時は、この範囲は
５母音Ａ、Ｅ、Ｉ、Ｏ、Ｕとしている。しかしながら、上記従来例において、あるコン
テキストにおけるある音素を発声した時調音結合
のために、その発声された音声が、本来その音素
が持つ性質と著しく異る場合、式で計算した尤
度が著しく小さくなり、そのため単語認識も誤る
という欠点があつた。例えば、入力単語
「JOJOGI」の場合、Ｊに挟まれたＯは、しばし
ばＯよりＵに近い性質を示し、JOJOGIのＯより
も、RUMOIのＵの方が式で求めた尤度がはる
かに大きくなり、単語認識結果はRUMOIに誤つ
ていた。次に第２の従来例について、第１の従来例と異
る部分について述べる。第２の従来例において、
音素標準パタンとして、同じ音素であつても、そ
の音素の存在するコンテキストの種類毎に別々の
標準パタンを具備し尤度計算に用いる。これによ
り、原理的には第１の従来例の持つ欠点を除くこ
とができるが、標準パタンの数が非常に多くな
り、そのための記憶容量や、確率密度計算に要す
る時間が増大するのみならず、多種類の標準パタ
ンを作成するのに十分な多量の音声データを得る
ことが難しく、従つて、第２の従来例は、実際
に、能率良く高い単語認識率を得ることはできな
かつた。（発明の目的）本発明は上記従来例の欠点を除去するものであ
り、尤度計算の精度を向上させ、それにより単語
認識率を向上させることを目的とする。（発明の構成）本発明は、上記目的を達成するために、入力音
声を単語辞書の各辞書項目と照合し、各辞書項目
を構成する辞書音素系列に従い各音素毎に入力音
声をセグレンテーシヨンし、そのセグメンテーシ
ヨンされた音声区間と、その音素の標準パタンと
を照合して各音素の尤度を求め、この尤度の値を
用いて各辞書項目と入力音声の類似度を求めて入
力単語を認識する音声認識方法において、予め定
めた特定のコンテキスト、例えば調音結合の著し
いコンテキスト中にある音素の尤度計算時に、そ
の音素に対応してセグメンテーシヨンされた音声
区間の、調音結合のために音声の性質が近くなり
がちな他の特定の音素の標準パタンに対する確率
密度の値を尤度に反映させて尤度の値の精度を向
上させるようにする。即ち、予め定めた特定のコ
ンテキスト中にある音素に対しては、後述する
式に具体的に示されるように、その音素に対応し
てセグメンテーシヨンされた音声の区間で求めた
他の特定の音素の標準パタンとの間の近さを表わ
す値と、本来のその音素の標準パタンとの間の近
さを表わす値に加て尤度を計算する。（実施例の説明）以下に本発明の一実施例について、図面ととも
に説明する。本実施例の音声認識方法を実施する
ために用いられる装置の基本構成は、前記従来例
と同様である。図において、音素標準パタン部及
び単語辞書部は前記第１の従来例と同様である。
本実施例の動作は先ず、入力音声をパラメータ抽
出部１により10ｍｓのフレーム毎に分析、パラメ
ータ抽出を行ない、確率密度計算部２において、
パラメータ抽出部１により抽出されたパラメータ
の値が各音素標準パタンから得られる確率密度を
計算する。次に単語認識部３ではこれを単語辞書
部５の単語辞書と照合し、各辞書項目毎に、その
辞書項目を構成する辞書音素系列に従つて音素の
セグメンテーシヨンを行なう。ここ迄は、前記第
１の従来例と同様である。次にそのセグメンテー
シヨンされた音声区間がその音素を発声したもの
である確からしさを表わす尺度である尤度を計算
する。この時、その音素が調温結合の著しくない
コンテキスト中に在る時は、第１の従来例と同様
式により尤度を計算する。その音素が調音結合
の著しいコンテキスト中に在る時は、下記の式
により尤度を計算する。ここでa_iは予備実験等により、音素の種類毎に
予め適当に定められた定数であり、０≦a_i≦１である。他の記号は式に準ずる。なお式を適
用して尤度を計算するコンテキストは予め認識を
行なう前に定めておく。一例をあげれば、
JOJOGIのＯの場合、ｉの範囲はＡ、Ｅ、Ｉ、
Ｏ、Ｕの５母音であり、各音素に対するa_iの値は
第１表に示す通りである。

【表】以上により、尤度を求めた後、類似度を求め
て、単語認識を行うことは、第１の従来例と同様
である。本実施例の効果の一例を示す。単語JOJOGIを
発声した時、Ｏの部分はＪとの調合結合のため、
しばしば、ＯというよりもＵに近い性質を示し、
Ｏの標準パタンに対する確率密度よりもＵに対す
る確率密度の方がはるかに多きな値となる。その
ため第１図に例を示すように、従来はRUMOIに
誤認識されていたが、本実施例においては式で
コンテキストに応じた精度の高い尤度を計算する
ことにより、正しくJOJOGIと認識されるように
なつた。このように本実施例においては、調音結合によ
る音声の性質の変化に対し、コンテキストに応じ
て式で示すよな対応を行ない、尤度の値の精度
を向上させ、高い単語認識率が得られるという利
点がある。なお本発明は、尤度計算の基礎となる標準パタ
ンと音声の近さを表わす値として前記実施例のよ
うに確率密度を使う場合だけでなく、音声と標準
パタンの間の各種距離、例えば、パラメータの平
均値のみで共分散を持たない標準パタンとフレー
ム毎の音声区間との間のユークリツド距離等を用
いた尤度計算にも、同様な考え方で適用できる。（発明の効果）本発明は上記のような構成であり、調音結合の
著しいコンテキストに対して、そのコンテキスト
に対応した尤度計算を行なうので、尤度計算の精
度が向上し、高い単語認識率を得られる。

【図面の簡単な説明】

図は従来例、及び本発明の実施例における音声
認識方法実施するのに用いる装置の機能の概略を
示すブロツク図である。１……パラメータ抽出部、２……確率密度計
算、３……単語認識部、４……音素標準パタン
部、５……単語辞書部。

Claims

【特許請求の範囲】

１入力音声と認識すべき単語を音素で表記した
単語辞書の各辞書項目とを照合し、各辞書項目を
構成する辞書音素系列に従い各音素毎に入力音声
をセグメンテーシヨンし、そのゼグメンテーシヨ
ンされた音声の区間がその音素を発声したもので
ある確からしさを示す尺度である尤度の各音素の
標準パタンを用いて計算し、この尤度の計算時
に、予め定めた特定のコンテキスト中にある音素
に対しては、その音素に対応してセグメンテーシ
ヨンされた音声の区間で求めた他の特定の音素の
標準パタンとの間の近さを表わす値を、本来のそ
の音素の標準パタンとの間の近さを表わす値に加
えて尤度を計算し、これらの計算により得られた
尤度の値を用いて各辞書項目と入力音声の類似度
を求めて入力単語を認識することを特徴とする音
声認識方法。