JPH045396B2 - - Google Patents

Info

Publication number
JPH045396B2
JPH045396B2 JP59058178A JP5817884A JPH045396B2 JP H045396 B2 JPH045396 B2 JP H045396B2 JP 59058178 A JP59058178 A JP 59058178A JP 5817884 A JP5817884 A JP 5817884A JP H045396 B2 JPH045396 B2 JP H045396B2
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
consonant
dictionary
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59058178A
Other languages
English (en)
Other versions
JPS60202497A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59058178A priority Critical patent/JPS60202497A/ja
Publication of JPS60202497A publication Critical patent/JPS60202497A/ja
Publication of JPH045396B2 publication Critical patent/JPH045396B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図により説明する。第1図に
おいて1は入力音声からパラメータの時系列を作
成するパラメータ抽出部、2は音素標準パタンを
照合して、音素の確立密度を算出する確率密度計
算部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算を行う単語認識部である。ま
た、4は各音素毎の各種パラメータにおける分布
を各音素毎の平均値(〓i)、及び各種パラメータ
間の主分散行列(Σi)の形で表した音素標準パタ
ンを記憶する音素標準パタン部、5は認識すべき
全単語を音素単位の記号列で表記した単語辞書が
記憶されている単語辞書部である。その単語辞書
は、「アサヒ」、「スジ」は「ASAHI」、「SUZI」
等と表記されている。
次に、上記従来例の動作について説明する。
パラメータ抽出部1において、入力音素を10m
sフレーム毎に分析し、パラメータを抽出してパ
ラメータ時系列を作成する。確率密度計算部2
で、フレーム毎に得られたパラメータと、音素標
準パタンを照合し、そのパラメータの値から、生
成される音素の確率密度を算出する。次に単語認
識部3において、上記パラメータと得られた確率
密度を用いて、各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて、1音素毎に音素の
セグメンテーシヨンを行ない、下記式に従いそ
の音素と、その音素に対応してセグメンテーシヨ
ンされた区間の尤度lを計算し、その辞書項目に
おける各音素の尤度の平均として類似度を求め
る。ここでその音素をXとし、Xに対応してセグ
メンテーシヨンされた区間の始端と終端のフレー
ム番号をNs,Neとし、第nフレームにおける各
パラメータの値をCnとすると、音素Xの尤度lx
下式で定義される。
φiはある音素iの確率密度を表わし、式のよ
うに定義される。
φi(〓n)=1/(2π)J/2|Σi1/2exp 〔−1/2(〓n−μiTΣi -1(〓n−μi)〕……
〓n:第nフレームにおけるJ個のパラメータ (ベクトル) μi:ある音素iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンiの範囲は、音素Xが何であるか
によつて異なり、例えばXが音素A(ア)の時は、i
の範囲は5母音A、E、I、O、Uとしている。
以上により、得られる単語類似度LMを式に従
つて各辞書項目毎に求め、LMが最大となる辞書
項目をもつて認識単語とするのであるが LMNPk=1 lk/NP …… LM:辞書のM番目の単語の類似度 lk:辞書音素系列中のk番目の音素の尤度 NP:辞書音素数 辞書音素系列中に子音C1、C2に挾まれ、無声
化母音又はナマケた発声をし易い母音Vがある場
合、子音C1、無声化母音又は発声のナマケた母
音V、子音C2の/C1VC2/の並びにおける各音素
の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、3音素まとめてセグ
メンテーシヨンを行ない、そのセグメンテーシヨ
ンされた区間に対して尤度lc1vc2を計算する。第
2図は/SUZI/(スジ)と発声した場合の各音
素/S/、/U/、/Z/、/I/の確率密度の
時間変化を表わしている。第2図において、/
U/の区間(b−c)において/U/の確率密度
φUはほとんどなく、代わりに/U/の前半で
は/S/の確率密度φS及び後半では/Z/の確率
密度φZが優勢である。
またφZは/I/の始まり(d)まで優勢で、(d)か
らはφIが優勢となる。従つて区間(a−d)を/
S/、/U/、/Z/を1つにまとめた音素系
列/SUZ/のセグメンテーシヨン区間とし、/
SUZ/のセグメンテーシヨン区間(a−d)に
おいてφS、φZの値を用いて式に従い、尤度lSUZ
を計算する。
第3図は/ZUSI/(ズシ)と発声した場合の
各音素/Z/、/U/、/S/、/I/の時間変
化が表わしている。この場合、/U/の区間(f
−g)において/U/の確率密度φUはほとんど
なく、代わりに/U/の前半では/Z/の確率密
度φZ、後半では/S/の確率密度φSが優勢であ
る。またφSは/I/の始まり(h)まで優勢で(h)から
はφIが優勢となる。従つて、区間(e−h)
を、/Z/、/U/、/S/を1つにまとめてそ
れを音素系列/ZUS/のセグメンテーシヨン区
間とし、/ZUS/のセグメンテーシヨン区間
(e−h)においてφZ、φSの値を用いて式に従
つて尤度lZUSを計算するわけであるが、式にお
いては、連続3音素中の第1番目の音素C1の確
率密度と第3番目の音素C2の確率密度の出現す
る順番については考慮していない。従つて第2
図、第3図において3音素分の区間(a−d)及
び(e−h)では、式の条件を満たす 場合、つまり、/SUZ/と/ZUS/の例におい
て3音素分の区間でのφZとφSのフレーム和がほ
とんど同じ場合、/SUZ/の尤度lSUZ及び/
ZUS/の尤度lZUSは点数差がつかないこととな
る。従つて、結果として/SUZ/や/ZUS/の
ように子音、無声化母音又は発声のナマケた母音
及び子音の3連続音素系列において、2つの子音
が入れかわつた音素系列を含む2つの単語の識別
が困難となる欠点があつた。
(発明の目的) 本発明は、上記従来例の欠点を除去するもので
あり、尤時計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(発明の構成) 本発明は、上記目的を達成するために、子音、
無声化母音又は発声のナマケた母音、子音の連続
3音素をまとめてセグメンテーシヨンし、尤度計
算を行なう際、セグメンテーシヨンされた区間内
において、第1番目の子音の特徴を示す部分と、
第2番目の子音の特徴を示す部分の境界を1つ以
上検出し、セグメンテーシヨンされた区間内で、
その各々の境界について、第1番目の子音の特徴
を示す部分及び第2番目の子音の特徴を示す部分
から得られる尤度をもとに、上記連続3音素をま
とめた尤度を、各々の境界について計算し、その
中での最大尤度をその区間の尤度とすることによ
り、尤度計算の精度を向上させるものである。
(実施例の説明) 以下に本発明の一実施例について図面とともに
説明する。第1図において、音素標準パタンは従
来例と同様である。単語辞書は、認識すべき単語
を音素の記号列で表記してあるが、無声化したり
ナマケた発声をしやすい母音に対して予め符号を
つけてある。またパラメータ抽出により得られる
パラメータ時系列は従来例と同様である。
次に上記実施例の動作について説明する。先ず
パラメータ抽出部1において入力音声からフレー
ム毎のパラメータを得、さらに、確率密度計算部
2で、そのパラメータの値を使つて各音素標準パ
タンから得られる確率密度を計算する。単語認識
部13において各辞書項目毎にその辞書項目を構
成する辞書音素系列に従つて音素Xのセグメンテ
ーシヨンを行ない、その音素Xとその音素Xに対
応してセグメンテーシヨンされた区間の尤度lX
計算する際に、子音C1、発声のナマケた母音V
及び子音C2のC1VC2/の並びにおける各音素の種
類、及びその音素並びに対応して、各々の音素の
確率密度の値を利用して、3音素まとめてセグメ
ンテーシヨンを行ない、そのセグメンテーシヨン
された区間に対して尤度lC1VC2を計算する。ここ
までは前記従来例と同様である。ここで、尤度
lC1VC2を計算する際に、第1番目の音素C1の確率
密度が優勢な部分の尤度lC1(α)(αはC1の部分
とC2の部分の境界)と、第2番目の子音C2の確
率密度が優勢な部分の尤度lC2(α)を算出し、
式に従いlC1VC2を求める。第2図において、/
SUZ/のセグメンテーシヨン区間(a−d)で、
尤度lSUZを求める際、/S/の確率密度φS及び/
Z/の確率密度φZを用いて、第1番目の子音/
S/の部分と第2番目の子音/Z/の部分の境界
を1つ以上見つける(α=イ、ロ、ハ)。
φSを用いて得られる第1番目の子音の部分の尤
度lS(α)と、φZを用いて得られる第2番目の子
音の部分の尤度lZ(α)を求め、ls(α)とlz(α)
をもとに、式により、尤度lSUZ(α)を求める。
但し、 Na:境界αのフレーム番号 Ns、Ne:3連続音素系列/C1VC2/のセグメ
ンテーシヨン区間における始端、終端フレーム番
号 φC1、φC2:3連続音素系列/C1VC2/における
音素C1及び音素C2の確率密度 lC1VC2=Max(lC1VC2(α)、α=1〜k) (kは境界の数) …… lC1(α)とlC2(α)の和尤度をlC1VC2(α)とする
と、第2図においてαは(イ),(ロ),(ハ)であるから、
式のようになる。
lSUZ(イ)|s(イ)+lZ(イ) lSUZ(ロ)|s(ロ)+lZ(ロ) lSUZ(ハ)|s(ハ)+lZ(ハ) …… これにより、lSUZ(イ)、lSUZ(ロ)、lSUZ(ハ)が各々計

されるわけであるが式に従いα=イ、ロ、ハと
してこのlSUZ(イ)、lSUZ(ロ)、lSUZ(ハ)のうちで最も数

の高いものを、3連続音素/SUZ/の尤度lSUZ
する。上記のような尤度計算法を用いることによ
り2つの単語/SUZI/と/ZUSI/を容易に識別
できる。
上記実施例においては、子音、無声化母音又は
発声のナマケた母音及び子音の3連続音素系列の
尤度を精度良く求めることができるため、上記3
連続音素系列中の2つの子音が入れ変わつた音素
系列を含む2つの単語についても認別が容易にで
きるという利点がある。
(発明の効果) 本発明は、子音、無音化母音又は発声のナマケ
た母音、子音の連続3音素まとめてセグメンテー
シヨンし、尤度計算を行なう際、第1番目の子音
の特徴を示す部分と、第2番目の子音の特徴を示
す部分の境界を1つ以上見つけ、その各々につい
て尤度を計算し、最大尤度をその区間の尤度とす
ることにより、従来法に比べて精度良く尤度計算
を行なうことができる利点を有する。
【図面の簡単な説明】
第1図は従来及び本発明に一実施例における単
語音声認識方法を説明するための図、第2図は/
SUZI/と発声した場合の各音素/S/、/
U/、/Z/、/I/の確率密度φS、φU、φZ
φIの時間変化を表わす図、第3図は/ZUSI/と
発声した場合の各音素/Z/、/U/、/
S/、/I/の確率密度φZ、φU、φS、φIの時間
変化を表わす図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を単語辞書の各辞書項目と照合し、
    各辞書項目を構成する辞書音素系列に従い各音素
    毎に入力音声をセグメンテーシヨンし、セグメン
    テーシヨンされた音素の区間に対して、その音素
    の標準パタンとその音素との距離を用いて各辞書
    項目と入力音声の類似度を求めて単語を認識する
    単語音声認識方法において、子音、無声化母音又
    は発声のナマケた母音及び子音の連続3音素につ
    いては、上記連続3音素をまとめてセグメンテー
    シヨンを行い、セグメンテーシヨンされた区間内
    で上記3音素の第1番目の子音の特徴を示す部分
    と第2番目の子音の特徴を示す部分の境界を1個
    以上検出し、セグメンテーシヨンされた区間内
    で、その各々の境界について、第1番目の子音の
    特徴を示す部分及び第2番目の子音の特徴を示す
    部分から得られる尤度をもとに、上記連続3音素
    をまとめた尤度を各々の境界毎に計算し、その中
    での最大尤度をその区間の尤度とすることを特徴
    とする単語音声認識方法。 2 各音素の標準パタンとして、各音素の音響パ
    ラメータの分布形で表された標準パタンを用い、
    音素の標準パタンとその音素との距離尺度とし
    て、セグメンテーシヨンされた音声の区間がその
    音素から生成される確率密度を用いたことを特徴
    とする特許請求の範囲第1項記載の単語音声認識
    方法。
JP59058178A 1984-03-28 1984-03-28 単語音声認識方法 Granted JPS60202497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058178A JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058178A JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS60202497A JPS60202497A (ja) 1985-10-12
JPH045396B2 true JPH045396B2 (ja) 1992-01-31

Family

ID=13076742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058178A Granted JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS60202497A (ja)

Also Published As

Publication number Publication date
JPS60202497A (ja) 1985-10-12

Similar Documents

Publication Publication Date Title
US8352263B2 (en) Method for speech recognition on all languages and for inputing words using speech recognition
Abdo et al. Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal
JP3444108B2 (ja) 音声認識装置
JPH045396B2 (ja)
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JPH0431116B2 (ja)
JPH045397B2 (ja)
JP3128251B2 (ja) 音声認識装置
JPH045392B2 (ja)
JPH07113838B2 (ja) 音声認識方法
JPH045393B2 (ja)
JPH0431115B2 (ja)
JPH0412480B2 (ja)
JPS6147999A (ja) 音声認識装置
JP2979912B2 (ja) 音声認識装置
JPH045394B2 (ja)
JPH045391B2 (ja)
JPH045395B2 (ja)
JPH0413719B2 (ja)
JPH0412479B2 (ja)
Shyu et al. Combining multi-section Bayesian template with level-building algorithm for robust connected Mandarin digit recognition
JPH0573039B2 (ja)
JPH067359B2 (ja) 音声認識装置
JPH0155477B2 (ja)
Lin Based on the Sub-syllable Framework for Mandarin Recognition