JPH0412479B2 - - Google Patents

Info

Publication number
JPH0412479B2
JPH0412479B2 JP59003588A JP358884A JPH0412479B2 JP H0412479 B2 JPH0412479 B2 JP H0412479B2 JP 59003588 A JP59003588 A JP 59003588A JP 358884 A JP358884 A JP 358884A JP H0412479 B2 JPH0412479 B2 JP H0412479B2
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
word
dictionary
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59003588A
Other languages
English (en)
Other versions
JPS60147795A (ja
Inventor
Takao Irumano
Kunio Akiba
Hisanori Kanezashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Mobile Communications Co Ltd
Original Assignee
Matsushita Communication Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Communication Industrial Co Ltd filed Critical Matsushita Communication Industrial Co Ltd
Priority to JP59003588A priority Critical patent/JPS60147795A/ja
Publication of JPS60147795A publication Critical patent/JPS60147795A/ja
Publication of JPH0412479B2 publication Critical patent/JPH0412479B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
(産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。 (従来例の構成とその問題点) 図は従来の単語音声認識方法の一例及び本発明
の単語音声認識方法の実施例等を実行するための
装置の機能ブロツク図である。従来例を図ととも
に説明する。図において、1は入力音声からパラ
メータの時系列を作成するパラメータ抽出部、2
は音素標準パタンを照合して、音素の確率密度を
算出する確立密度計算部、3は音素毎のセグメン
テーシヨン、尤度計算、単語類似度計算等を行な
う単語認識部である。また、4は各音素毎の各種
パラメータにおける分布を各音素毎に平均値
(μi)、及び各種パラメータ間の共分散行列(Σi
の形で方わした音素標準パタンを記憶する音素標
準パタン部、5は認識すべき全単語を音素単位の
記号列で表記した単語辞書が記憶されている単語
辞書部である。その単語辞書は、例えば単語「サ
ツポロ」、「トーキヨー」、「ヨヨギ」、「ルモイ」等
は「SAQPORO」、「TOOKJOO」、「JOJOGI」、
「RUMOI」等と表記されている。 次に上記従来例の動作について説明する。先ず
パラメータ抽出部1により入力音声を10msのフ
レーム毎に分析し、パラメータを抽出して、パラ
メータ時系列を作成する。次に、確率密度計算部
12で、パラメータ抽出部1によりフレーム毎に
得られたパラメータと音素標準パタン部4に格納
されている各種音素標準パタンとを照合し、その
パラメータの値が各音素を発声して得られる確率
密度を下記式により計算する。第n番目のフレ
ームにおけるk個のパラメータをベクトルCo
表わし、ある音素Xを発声した時のそれらパラメ
ータにおける平均値を〓x、共分散行例をΣxとす
ると、Xに対するCoの確率密度φx(Co)は次式で
定義される。 φx(Co)△=1/(2π)n/2|Σx1/2exp〔−1/2 (Co−〓xTΣ-1 x(Co−〓x)〕 …… 次に、単語認識部3において、単語辞書部5の
各辞書項目毎に類似度を求めるのであが、この類
似度計算時に、その辞書項目を構成する辞書音素
列に従つて音素のセグメントテーシヨンを行な
い、そのセグメンテーシヨンされた音声区間がそ
の音素を発声したものである確からしさを表わす
尺度である尤度を式により計算し、その辞書項
目における各音素の尤度の平均として類似度を求
め、類似度が最大となる辞書項目をもつて認識単
語とする。ここで、その音素xとし、xに対応し
てセグメンテーシヨンされた音声区間の始端と終
端のフレーム番号を夫々Ns、Neとし、第n番目
のフレームにおける各パラメータの値を式と同
様Coとすると、尤度lは式で定義される。 ここで、確率密度の割り算における分母のサメ
ンシヨンのiの範囲は、音素xが何であるかによ
り異り、例えばxが音素O(オ)の時は、この範囲は
5母音A、E、I、O、Uとしている。 しかしながら、上記従来例において、あるコン
テキストにおけるある音素を発声した時調音結合
のために、その発声された音声が、本来その音素
が持つ性質と著しく異る場合、式で計算した尤
度が著しく小さくなり、そのため単語認識も誤る
という欠点があつた。例えば、入力単語
「JOJOGI」の場合、Jに挟まれたOは、しばし
ばOよりUに近い性質を示し、JOJOGIのOより
も、RUMOIのUの方が式で求めた尤度がはる
かに大きくなり、単語認識結果はRUMOIに誤つ
ていた。 次に第2の従来例について、第1の従来例と異
る部分について述べる。第2の従来例において、
音素標準パタンとして、同じ音素であつても、そ
の音素の存在するコンテキストの種類毎に別々の
標準パタンを具備し尤度計算に用いる。これによ
り、原理的には第1の従来例の持つ欠点を除くこ
とができるが、標準パタンの数が非常に多くな
り、そのための記憶容量や、確率密度計算に要す
る時間が増大するのみならず、多種類の標準パタ
ンを作成するのに十分な多量の音声データを得る
ことが難しく、従つて、第2の従来例は、実際
に、能率良く高い単語認識率を得ることはできな
かつた。 (発明の目的) 本発明は上記従来例の欠点を除去するものであ
り、尤度計算の精度を向上させ、それにより単語
認識率を向上させることを目的とする。 (発明の構成) 本発明は、上記目的を達成するために、入力音
声を単語辞書の各辞書項目と照合し、各辞書項目
を構成する辞書音素系列に従い各音素毎に入力音
声をセグレンテーシヨンし、そのセグメンテーシ
ヨンされた音声区間と、その音素の標準パタンと
を照合して各音素の尤度を求め、この尤度の値を
用いて各辞書項目と入力音声の類似度を求めて入
力単語を認識する音声認識方法において、予め定
めた特定のコンテキスト、例えば調音結合の著し
いコンテキスト中にある音素の尤度計算時に、そ
の音素に対応してセグメンテーシヨンされた音声
区間の、調音結合のために音声の性質が近くなり
がちな他の特定の音素の標準パタンに対する確率
密度の値を尤度に反映させて尤度の値の精度を向
上させるようにする。即ち、予め定めた特定のコ
ンテキスト中にある音素に対しては、後述する
式に具体的に示されるように、その音素に対応し
てセグメンテーシヨンされた音声の区間で求めた
他の特定の音素の標準パタンとの間の近さを表わ
す値と、本来のその音素の標準パタンとの間の近
さを表わす値に加て尤度を計算する。 (実施例の説明) 以下に本発明の一実施例について、図面ととも
に説明する。本実施例の音声認識方法を実施する
ために用いられる装置の基本構成は、前記従来例
と同様である。図において、音素標準パタン部及
び単語辞書部は前記第1の従来例と同様である。
本実施例の動作は先ず、入力音声をパラメータ抽
出部1により10msのフレーム毎に分析、パラメ
ータ抽出を行ない、確率密度計算部2において、
パラメータ抽出部1により抽出されたパラメータ
の値が各音素標準パタンから得られる確率密度を
計算する。次に単語認識部3ではこれを単語辞書
部5の単語辞書と照合し、各辞書項目毎に、その
辞書項目を構成する辞書音素系列に従つて音素の
セグメンテーシヨンを行なう。ここ迄は、前記第
1の従来例と同様である。次にそのセグメンテー
シヨンされた音声区間がその音素を発声したもの
である確からしさを表わす尺度である尤度を計算
する。この時、その音素が調温結合の著しくない
コンテキスト中に在る時は、第1の従来例と同様
式により尤度を計算する。その音素が調音結合
の著しいコンテキスト中に在る時は、下記の式
により尤度を計算する。 ここでaiは予備実験等により、音素の種類毎に
予め適当に定められた定数であり、 0≦ai≦1 である。他の記号は式に準ずる。なお式を適
用して尤度を計算するコンテキストは予め認識を
行なう前に定めておく。一例をあげれば、
JOJOGIのOの場合、iの範囲はA、E、I、
O、Uの5母音であり、各音素に対するaiの値は
第1表に示す通りである。
【表】 以上により、尤度を求めた後、類似度を求め
て、単語認識を行うことは、第1の従来例と同様
である。 本実施例の効果の一例を示す。単語JOJOGIを
発声した時、Oの部分はJとの調合結合のため、
しばしば、OというよりもUに近い性質を示し、
Oの標準パタンに対する確率密度よりもUに対す
る確率密度の方がはるかに多きな値となる。その
ため第1図に例を示すように、従来はRUMOIに
誤認識されていたが、本実施例においては式で
コンテキストに応じた精度の高い尤度を計算する
ことにより、正しくJOJOGIと認識されるように
なつた。 このように本実施例においては、調音結合によ
る音声の性質の変化に対し、コンテキストに応じ
て式で示すよな対応を行ない、尤度の値の精度
を向上させ、高い単語認識率が得られるという利
点がある。 なお本発明は、尤度計算の基礎となる標準パタ
ンと音声の近さを表わす値として前記実施例のよ
うに確率密度を使う場合だけでなく、音声と標準
パタンの間の各種距離、例えば、パラメータの平
均値のみで共分散を持たない標準パタンとフレー
ム毎の音声区間との間のユークリツド距離等を用
いた尤度計算にも、同様な考え方で適用できる。 (発明の効果) 本発明は上記のような構成であり、調音結合の
著しいコンテキストに対して、そのコンテキスト
に対応した尤度計算を行なうので、尤度計算の精
度が向上し、高い単語認識率を得られる。
【図面の簡単な説明】
図は従来例、及び本発明の実施例における音声
認識方法実施するのに用いる装置の機能の概略を
示すブロツク図である。 1……パラメータ抽出部、2……確率密度計
算、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声と認識すべき単語を音素で表記した
    単語辞書の各辞書項目とを照合し、各辞書項目を
    構成する辞書音素系列に従い各音素毎に入力音声
    をセグメンテーシヨンし、そのゼグメンテーシヨ
    ンされた音声の区間がその音素を発声したもので
    ある確からしさを示す尺度である尤度の各音素の
    標準パタンを用いて計算し、この尤度の計算時
    に、予め定めた特定のコンテキスト中にある音素
    に対しては、その音素に対応してセグメンテーシ
    ヨンされた音声の区間で求めた他の特定の音素の
    標準パタンとの間の近さを表わす値を、本来のそ
    の音素の標準パタンとの間の近さを表わす値に加
    えて尤度を計算し、これらの計算により得られた
    尤度の値を用いて各辞書項目と入力音声の類似度
    を求めて入力単語を認識することを特徴とする音
    声認識方法。
JP59003588A 1984-01-13 1984-01-13 音声認識方法 Granted JPS60147795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003588A JPS60147795A (ja) 1984-01-13 1984-01-13 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003588A JPS60147795A (ja) 1984-01-13 1984-01-13 音声認識方法

Publications (2)

Publication Number Publication Date
JPS60147795A JPS60147795A (ja) 1985-08-03
JPH0412479B2 true JPH0412479B2 (ja) 1992-03-04

Family

ID=11561616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003588A Granted JPS60147795A (ja) 1984-01-13 1984-01-13 音声認識方法

Country Status (1)

Country Link
JP (1) JPS60147795A (ja)

Also Published As

Publication number Publication date
JPS60147795A (ja) 1985-08-03

Similar Documents

Publication Publication Date Title
US6208971B1 (en) Method and apparatus for command recognition using data-driven semantic inference
JP3444108B2 (ja) 音声認識装置
JPH0412479B2 (ja)
JPH0431116B2 (ja)
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JPH0431114B2 (ja)
JPH0412480B2 (ja)
JPH04291399A (ja) 音声認識方法
JPH045394B2 (ja)
JPH0155477B2 (ja)
JPH045397B2 (ja)
JPH0155478B2 (ja)
JPH045395B2 (ja)
JPS62111292A (ja) 音声認識装置
JPH0431115B2 (ja)
JPH045393B2 (ja)
JPH0431117B2 (ja)
JPH07113838B2 (ja) 音声認識方法
JPH045392B2 (ja)
JPH045396B2 (ja)
JPH0155476B2 (ja)
JPH045391B2 (ja)
JPH0713590A (ja) 音声認識方式
JPH0413719B2 (ja)
JPH06289894A (ja) 日本語音声認識方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term