JPH0413720B2 - - Google Patents

Info

Publication number
JPH0413720B2
JPH0413720B2 JP59129853A JP12985384A JPH0413720B2 JP H0413720 B2 JPH0413720 B2 JP H0413720B2 JP 59129853 A JP59129853 A JP 59129853A JP 12985384 A JP12985384 A JP 12985384A JP H0413720 B2 JPH0413720 B2 JP H0413720B2
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
word
dictionary
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59129853A
Other languages
English (en)
Other versions
JPS617897A (ja
Inventor
Hisanori Kanezashi
Takao Irumano
Kunio Akiba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Mobile Communications Co Ltd
Original Assignee
Matsushita Communication Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Communication Industrial Co Ltd filed Critical Matsushita Communication Industrial Co Ltd
Priority to JP59129853A priority Critical patent/JPS617897A/ja
Publication of JPS617897A publication Critical patent/JPS617897A/ja
Publication of JPH0413720B2 publication Critical patent/JPH0413720B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。 従来例の構成とその問題点 第1図は単語音声認識方法を実行するための装
置の機能ブロツク図である。第1図において、1
は入力音声からパラメータの時系列を作成するパ
ラメータ抽出部、2は音素標準パタンを照合し
て、音素の確率密度を算出する確率密度計算部、
3は音素毎のセグメンテーシヨン、尤度計算、単
語類似度計算を行なう単語認識部である。また、
4は各音素毎の各種パラメータにおける分布を各
音素毎の平均値(μi)、及び各種パラメータ間の
共分散行列(Σi)の形で表わした音素標準パタン
を記憶する音素標準パタン部、5は認識すべき全
単語を音素単位の記号列で表記した単語辞書が記
憶されている単語辞書部である。その単語辞書
は、例えば単語「アサヒ」、「イシ」は、
「ASAHI」、「ISI」等と表記されている。 次に、上記従来例の動作について説明する。パ
ラメータ抽出部1において、入力音声を10msec
のフレーム毎に分析しパラメータを抽出して、パ
ラメータ時系列を作成する。次に確率密度計算部
2において、フレーム毎に得られたパラメータと
音素標準パタン部4の音素標準パタンを照合し、
音素の確率密度を算出する。次に、単語認識部3
において、各辞書項目毎にその辞書項目を構成す
る辞書音素系列に従つて音素のセグメンテーシヨ
ンを行ない、その音素の種類とその音素に対応し
てセグメンテーシヨンされた区間の尤度lを計算
し、その辞書項目における各音素の尤度の平均と
して類似度を求める。ここで、その音素をXと
し、Xに対応してセグメンテーシヨンされた区間
の始端と終端のフレーム番号をNs、Neとし、第
nフレームにおける各パラメータの値をCnとす
ると、音素Xの尤度lxは(1)式で定義される。 lx=log1/Ne−Ns+1・Nen=Ns φx(Cu)/〓φi(Cu) ……(1) φi(Cu)はある音素iの確率を表わし、(2)式の
ように定義される。 φi=1/(2π)N/2|Σi|1/2exp 〔−1/2(Cu−μiTΣ-1 i(Cu−μi)〕……(2
) Co:第nフレームにおけるN個のパラメータ
(ベクトル) μi:ある音素iのパラメータの平均値(ベクト
ル) Σi:ある音素iのパラメータの共分散行列 (1)式において、確率密度の割り算における分母
のサメンシヨンのiの範囲は、音素Xが何である
かによつて異なり、例えばXが音素A(ア)の時はi
の範囲は5母音、A、E、I、O、Uとしてい
る。以上により得られる単語類似度LMを(3)式に
従つて、各辞書項目毎に求め、LMが最大となる
辞書項目をもつて認識単語としていた。 LMNPj=1 lj/NP ……(3) LM:辞書中のM番目の単語の類似度 lj:辞書音素系列中のj番目の音素の尤度 NP:辞書音素数 第2図は「石」(/isi/)発声した時の各音
素/i/,/s/,/i/に対応する標準パタン
中の音素シンボル、(I),(S),(I)の確率密度値
φI,φS,φI及び音声パワーPの時間変化を示す。
第2図において、辞書中の単語/isi/を仮定し
た場合の音素/S/のセグメンテーシヨン及び尤
度計算は、音素/S/に対応する音素シンボル
(S)の確率密度値φSが優勢になるフレーム、6
からφSが小さくなり、音素/i/に対応する音素
シンボル(I)の確率密度値が優勢になるフレーム、
7までを音素/S/のセグメンテーシヨン区間
(6−7)とし、次に区間(6−7)における音
素/S/の確率密度値φSを用いて(1)式に従つて音
素/S/の尤度lSを求める。 第3図は「位置」(/ici/)と発声した時の各
音素/i/,/c/,/i/に対応する標準パタ
ン中の音素シンボル(I),(S),(I)の確率密度値
φI,φS,φI及び音声パワーPの時間変化を示す。
ここで、音素/C/に対応する標準パタン中の音
素シンボルは摩擦音群を表わす(S)である。第
3図において、音素/C/の区間(8−10)は破
裂直前の無音部(8−9)と破裂し摩擦する部分
とに分かれるが、無音部(背景雑音)のスペクト
ルは母音や有声音のスペクトルと比べ、高域成分
が多いため摩擦音のスペクトルに近くなる。従つ
て無音部(8−9)に対応する標準パタンの音素
シンボルφSが優勢に現われる。このため、入力音
声/ici/に対して辞書中の単語/ISI/を仮定す
る時、音素/S/の尤度はφSを用いて計算するた
め、音素/S/の尤度の値は本来の単語/ici/
を仮定した時の音素/C/の尤度の値と同程度に
なり、/S/と/C/の識別が困難になり/
S/、/C/を含む単語は誤認識し易い欠点があ
つた。 発明の目的 本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。 発明の構成 本発明は、上記目的を達成するために有声子
音、摩擦音等の破裂音又は促音以外の子音の尤度
を計算する際、セグメンテーシヨンされた区間中
で、その音素又は音素群の標準パタンとその音素
との距離だけでなうく、音声パワーの値及びその
時間変化の大きさから尤度計算を行なうことによ
り、尤度計算の精度を向上させる効果を持つもの
である。 実施例の説明 以下に本発明の一実施例の構成について図面と
ともに説明する。本実施例の音素標準パタンは従
来例と同様である。単語辞書は認識すべき単語を
音素の記号列で表記してある。また、パラメータ
抽出により得られるパラメータ時系列は従来例と
同様である。 次に、上記実施例の動作について説明する。先
ず、入力音声からフレーム毎のパラメータを得、
さらにそのパラメータの値を使つて、各音素標準
パタンから得られる確率密度を計算し、各辞書項
目毎に、その辞書項目を構成する辞書系列に従つ
て音素Xのセグメンテーシヨンを行ない、その音
素Xとその音素Xに対応してセグメテーシヨンさ
れた区間の尤度lxを計算するのであるが、本来、
無音部を伴なう破裂音や破擦音以外の音素である
有声子音や摩擦音等の音声パワーPの値は無音部
のパワーに比べて大きな値を持ち、またその時間
変化も小さい。 第2図における入力音声/isi/の場合の/
S/の区間(6−7)と第3図における入力音
声/ici/の場合の/C/の区間(8−10)の2
つの区間の音声パワー、P、及び隣接フレーム間
LPCケプストラム距離、CDの動きに着目する
と/S/の場合は、/C/に比べPの動きは浅い
凹みを持ち、CDも小さな山が区間(6−7)の
端にあるだけである。しかし、/C/の場合は破
裂直前に無音部(8−9)が存在するため、Pの
動きは/S/に比べ深い谷を持ち、CDも破裂時
点9で鋭いピークがある。従つて、無音部を伴な
う破裂音や破擦音以外の音素Xの尤度lxを計算す
る場合、音素Xの確率密度値から得られる尤度
lx1とは別に、音声パワーPの値やその時間変化
を利用した尤度lx2の併用を考え、音声パワーP
の動きが無音部の動きに近い時、lxの値が小さく
なるように、lx2を減点作用の項として働くよう
にする。 第3図において、入力音声/ici/に対して辞
書中の単語/ISI/を仮定する時、セグメンテー
シヨンは従来と同様に音素/S/に対応する確率
密度φSを用いて区間(6−7)をセグメンテーシ
ヨンする。尤度計算については、従来と同様にφS
を用いて(1)式に従つて得られる尤度lS1及び音声
パワーPとその時間変化として(4)式に示す隣接フ
レーム間LPCケプストラム距離CDを用いて(5)式
に従つて得られる尤度lS2の上記2つの尤度から
(8)式に従つて、音素/S/の尤度lsを求める。 CD(N)=〔{Co(N)−Co(N-1)2 +25i=1 {Ci(N)−Ci(N-1)21/2 ……(4) Co(N):{Nフレーム目における音声の対数残差
パワー Ci(N):Nフレーム目における第i次のLPCケプ
ストラム係数 lS2=log(lS21・lS22) ……(5) lS21=O(pm<TH1のとき) A・pm+B (TH1≦pm≦TH2のとき) 1(pm<TH2のとき) …(6) 〔但し、pmはセグメンテーシヨン区間中の音声
パワーPの最小値、TH1、TH2は予め設定した
いき値、A、Bは定数〕
【表】 lS=lS1+lS2 ……(8) lS2はセグメンテーシヨン区間中の音声パワー
の最小値pmから(6)式に従つて計算されるlS21とセ
グメンテーシヨン区間中の隣接フレーム間LPC
ケプストラム距離の最大値cdmから(7)式に従つて
計算されるlS22の積の対数をとつた式((5)式)で
表わす。lS21とpm、lS22とcdmの関係を第4図に
示す。 上記のような尤度計算を行なうことにより、入
力音声/ici/に対し、辞書中の単語/ICI/を仮
定した場合の/C/の尤度に比べ、辞書中の単
語/ISI/を仮定した場合/S/の尤度が小さく
なり、無音部を伴なう破裂音や破擦音と他の音素
との分離が良くなる利点がある。 発明の効果 本発明は上記のような構成であり、破裂音や破
擦音等のような無音部を伴なう音素以外の音素の
尤度を計算する際、セグメンテーシヨンされた区
間中で、その音素又は音素群の標準パタンとその
音素との距離だけでなく、音声パワーの値及びそ
の時間変化の大きさを併用して、尤度計算を行な
うことにより、従来法に比べ精度よく尤度を求め
ることができる。
【図面の簡単な説明】
第1図は従来及び本発明の一実施例における単
語音声認識方法を示す図、第2図は(石)と発声
した時の各音素の確率密度、音声パワーP、及び
隣接フレーム間LPCケプストラム距離、CDの時
間変化を示す図、第3図は(位置)と発声した時
の各音素の確率密度、音声パワーP、及び隣接フ
レーム間LPCケプストラム距離、CDの時間変化
を示す図、第4図はlS21とpm及びlS22とcdmの関
係を示す図である。

Claims (1)

  1. 【特許請求の範囲】 1 認識すべき単語を音素単位の記号列で表記し
    た単語辞書及び各音素又は音素群の音響パラメー
    タで表わされた各音素又は音素群の標準パタンを
    用いて、入力音声の単語認識を行なうにあたり、
    入力音声を単語辞書の各辞書項目と照合し、各辞
    書項目を構成する辞書音素系列に従い、各音素毎
    に入力音声をセグメンテーシヨンし、このセグメ
    ンテーシヨンされた音声の区間に対して、その音
    素又は音素群の標準パタンとその音素との距離を
    用いて、辞書項目中の音素と入力音声の尤度を求
    め、この尤度の値を用いて辞書項目と入力音声の
    類似度を求めて、単語を認識する際、有声子音、
    摩擦音等の破裂音(破裂直前に無音部が存在する
    音素、破擦音を含む)又は促音以外の音素の尤度
    を計算するにあたり、セグメンテーシヨンされた
    区間中でその音素又は音素群の標準パタンとその
    音素との距離から得られる尤度をその音素らしさ
    を表わす値とし、音声パワーの値及びその時間変
    化の大きさから得られる尤度をその音素らしから
    ぬことを表わす値として扱い、2つの尤度を用い
    て計算した尤度をその音素の尤度とする単語音声
    認識方法。 2 各音素又は音素群の標準パタンとして、各音
    素又は音素群の音響パラメータの分布形で表わさ
    れた標準パタンを用い、音素又は音素群の標準パ
    タンとその音素との距離尺度として、セグメンテ
    ーシヨンされた音声の区間がその音素から生成さ
    れる確率密度を用いる特許請求の範囲第1項記載
    の単語音声認識方法。 3 音声パワーの時間変化の大きさとして隣接フ
    レーム間ケプストラム距離を用いる特許請求の範
    囲第1項記載の単語音声認識方法。
JP59129853A 1984-06-22 1984-06-22 単語音声認識方法 Granted JPS617897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59129853A JPS617897A (ja) 1984-06-22 1984-06-22 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59129853A JPS617897A (ja) 1984-06-22 1984-06-22 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS617897A JPS617897A (ja) 1986-01-14
JPH0413720B2 true JPH0413720B2 (ja) 1992-03-10

Family

ID=15019873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59129853A Granted JPS617897A (ja) 1984-06-22 1984-06-22 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS617897A (ja)

Also Published As

Publication number Publication date
JPS617897A (ja) 1986-01-14

Similar Documents

Publication Publication Date Title
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones.
US5369726A (en) Speech recognition circuitry employing nonlinear processing speech element modeling and phoneme estimation
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
US20110066434A1 (en) Method for Speech Recognition on All Languages and for Inputing words using Speech Recognition
JP2003514260A (ja) スピーチ認識のための音調特徴
Ananthi et al. SVM and HMM modeling techniques for speech recognition using LPCC and MFCC features
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
Sinha et al. On the use of pitch normalization for improving children's speech recognition.
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Hemakumar et al. Automatic Segmentation of Kannada speech signal into syllables and sub-words: noised and noiseless signals
JPH0413720B2 (ja)
Awaid et al. Audio search based on keyword spotting in arabic language
Mandal et al. Word boundary detection based on suprasegmental features: A case study on Bangla speech
JPH0413719B2 (ja)
Deekshitha et al. Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection
Kumar et al. Robust detection of vowel onset and end points
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Hanilçi et al. Comparison of spectrum estimators in speaker verification: mismatch conditions induced by vocal effort.
Franco Recognition of intervocalic stops in continuous speech using context-dependent HMMs
Sharma Implementation of ZCR and STE techniques for the detection of the voiced and unvoiced signals in Continuous Punjabi Speech
Keyvani Robustness in ASR: An experimental study of the interrelationship between discriminant feature-space transformation, speaker normalization and environment compensation
Laguna et al. Development, Implementation and Testing of Language Identification System for Seven Philippine Languages
JPH045395B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term