JPH0155477B2 - - Google Patents

Info

Publication number
JPH0155477B2
JPH0155477B2 JP58183695A JP18369583A JPH0155477B2 JP H0155477 B2 JPH0155477 B2 JP H0155477B2 JP 58183695 A JP58183695 A JP 58183695A JP 18369583 A JP18369583 A JP 18369583A JP H0155477 B2 JPH0155477 B2 JP H0155477B2
Authority
JP
Japan
Prior art keywords
phoneme
word
dictionary
likelihood
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58183695A
Other languages
Japanese (ja)
Other versions
JPS6075889A (en
Inventor
Hisanori Kanezashi
Kunio Akiba
Takao Irumano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP58183695A priority Critical patent/JPS6075889A/en
Publication of JPS6075889A publication Critical patent/JPS6075889A/en
Publication of JPH0155477B2 publication Critical patent/JPH0155477B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例等を実行するた
めの装置の機能ブロツク図である。従来例を第1
図及び第2図とともに説明する。第1図におい
て、1は入音声からパラメータの時系列を作成す
るパラメータ抽出部、2は音素標準パタンを照合
して、音素の確率密度を算出する確率密度計算
部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算等を行なう単語認識部であ
る。また、4は各音素毎の各種パラメータにおけ
る分布を各音素毎の平均値(〓i)、及び各種パラ
メータ間の共分散行列(Σi)の形で表わした音素
標準パタンを記憶する音素標準パタン部、5は認
識すべき全単語を音素単位の記号列で表記した単
語辞書が記憶されている単語辞書部である。その
単語辞書は、例えば単語「サツポロ」、「アサヒカ
ワ」は「SAQPORO」、「ASAHIKAWA」等と
表記されている。
(Constitution of Conventional Example and Problems thereof) FIG. 1 is a functional block diagram of an apparatus for executing an example of a conventional word speech recognition method and an embodiment of the word speech recognition method of the present invention. Conventional example first
This will be explained with reference to FIG. In Figure 1, 1 is a parameter extraction unit that creates a time series of parameters from input speech, 2 is a probability density calculation unit that calculates the probability density of a phoneme by comparing standard phoneme patterns, and 3 is a segmentation unit for each phoneme. This is a word recognition unit that performs calculations such as probability calculation, likelihood calculation, and word similarity calculation. In addition, 4 is a phoneme standard pattern that stores a phoneme standard pattern that represents the distribution of various parameters for each phoneme in the form of an average value for each phoneme (〓 i ) and a covariance matrix (Σ i ) between various parameters. Section 5 is a word dictionary section in which a word dictionary in which all words to be recognized are expressed in symbol strings in units of phonemes is stored. In the word dictionary, for example, the words "Satsuporo" and "Asahikawa" are written as "SAQPORO", "ASAHIKAWA", etc.

第2図はXYZの音素系列から音声を発声した
場合に生ずる各音素の尤度値の動きを例示したも
のである。
FIG. 2 illustrates the movement of the likelihood value of each phoneme that occurs when speech is uttered from the XYZ phoneme sequence.

次に上記従来例の動作について説明する。パラ
メータ抽出部1において、入力音素を10msのフ
レーム毎に分析しパラメータを抽出して、パラメ
ータ時系列を作成する。次に確率密度計算部2に
おいて、フレーム毎に得られたパラメータと音素
標準パタン部4の音素標準パタンを照合し、その
パラメータの値から生成される音素の確率密度を
算出する。次に、単語認識部3において、各辞書
項目毎に、その辞書項目を構成する辞書音素系列
に従つて音素のセグメンテーシヨンを行ない、下
記式に従いその音素の種類と、その音素に対応
してセグメンテーシヨンされた区間の尤度lを計
算し、その辞書項目における、各音素の尤度の平
均として類似度を求める。ここで、その音素をX
とし、Xに対してセグメンテーシヨンされた区間
の始端と終端のフレーム番号をNs、Neとし、第
nフレームにおける各パラメータの値をCoとす
ると、音素Xの尤度lXは下式で定義される。
Next, the operation of the above conventional example will be explained. The parameter extraction unit 1 analyzes input phonemes every 10 ms frame, extracts parameters, and creates a parameter time series. Next, the probability density calculation section 2 compares the parameters obtained for each frame with the phoneme standard pattern of the phoneme standard pattern section 4, and calculates the probability density of the phoneme generated from the parameter values. Next, the word recognition unit 3 performs phoneme segmentation for each dictionary item according to the dictionary phoneme series that makes up the dictionary item, and then segments the phoneme according to the type of phoneme and the phoneme corresponding to the phoneme according to the following formula. The likelihood l of the segmented interval is calculated, and the similarity is determined as the average of the likelihoods of each phoneme in the dictionary entry. Here, the phoneme is
If the frame numbers at the start and end of the segmented section for X are N s and N e , and the value of each parameter in the nth frame is C o , then the likelihood l of phoneme X is Defined by Eq.

φi(Co)ある音素iの確率密度を表わし、式の
ように定義される。
φ i (C o ) represents the probability density of a certain phoneme i and is defined as in the equation.

C:1つのフレームにおけるn個のパラメータ
(ベクトル) 〓i:ある音素iのパラメータの平均値(ベク
トル) Σi:共分散行列 式において、確率密度の割り算における分母
のサメンシヨンのiの範囲は、音素Xが何である
かによつて異なり、例えばXが音素A(ア)の時
はiの範囲は5母音、A、E、I、O、U、とし
ている。以上により得られる単語類似度LM
式に従つて各辞書項目毎に求め、LMが最大とな
る辞書項目をもつて、認識単語としていた。
C: n parameters (vector) in one frame 〓 i : Average parameter value (vector) of a certain phoneme i Σ i : Covariance matrix In the formula, the range of i in the denominator summension in probability density division is: It varies depending on the phoneme X. For example, when X is the phoneme A (a), the range of i is five vowels, A, E, I, O, and U. The word similarity L M obtained above was determined for each dictionary item according to the formula, and the dictionary item with the maximum L M was selected as a recognized word.

LMNPi=1 li/NP … LM 辞書中のM番目の単語の類似度 li 辞書音素系列中の音素iの尤度 NP 辞書音素数 上記従来例においては、セグメンテーシヨンさ
れた区間において第2図に示すように、辞書音素
系列において音素Xの前の音素Y及び後ろの音素
Zとの調音結合により、渉りの部分にX,Y,Z
以外の音素j1,j2がXの確率密度の値と同程度の
値で出現するため、式に従つて音素Xの尤度計
算をする場合、分子には音素Xの確率密度の値し
か考慮していないので、十分な尤度が得られず、
結果として単語誤認識の要因となつていた。
L M = NPi=1 l i /NP … L M Similarity of the Mth word in the dictionary l Likelihood of phoneme i in the i dictionary phoneme series NP Number of dictionary phonemes In the above conventional example, segmentation As shown in Figure 2, in the section where phoneme
Other phonemes j 1 and j 2 appear with values comparable to the probability density value of X, so when calculating the likelihood of phoneme X according to the formula, only the probability density value of phoneme X is included in the numerator. Since it is not taken into account, sufficient likelihood cannot be obtained,
As a result, this became a factor in word recognition errors.

(発明の目的) 本発明は上記従来例の欠点を除去するものであ
り、尤度計算の精度を向上させ、それにより単語
認識率を向上させることを目的とする。
(Object of the Invention) The present invention is intended to eliminate the drawbacks of the above-mentioned conventional example, and aims to improve the accuracy of likelihood calculation and thereby improve the word recognition rate.

(発明の構成) 本発明は、上記目的を達成するために、音素X
の尤度計算を行なう際、渉りの部分に出現する、
音素X以外の音素の確率密度の値をとり入れた尤
度計算を行なうことにより、尤度計算の精度を向
上させる効果を持つものである。
(Structure of the Invention) In order to achieve the above object, the present invention provides the phoneme
When calculating the likelihood of
By performing likelihood calculations that incorporate the probability density values of phonemes other than phoneme X, the accuracy of likelihood calculations can be improved.

(実施例の説明) 以下に本発明の実施例について説明する。本実
施例における音素標準パタン、及び単語辞書は従
来例と同様である。またパラメータ抽出のステツ
プにより得られるパラメータ時系列も従来例と同
様である。
(Description of Examples) Examples of the present invention will be described below. The phoneme standard pattern and word dictionary in this embodiment are the same as in the conventional example. Furthermore, the parameter time series obtained by the parameter extraction step is also the same as in the conventional example.

先ず入力音声からパラメータ抽出部1でフレー
ム毎のパラメータを得、さらにそのパラメータの
値を使つて確率密度計算部2で各音素標準パタン
から得られる確率密度を計算する。ここまでのス
テツプは前記従来例と同様である。次に単語認識
部3において、単語辞書部5内の各辞書項目毎
に、その辞書項目を構成する辞書音素系列に従つ
て音素Xのセグメンテーシヨンを行ない、その音
素Xと、その音素Xに対応してセグメンテーシヨ
ンされた区間の尤度lXを計算するのであるが、辞
書音素系列において音素Xの前の音素Y、及び後
の音素Zとの調音結合によつて、渉りの部分に出
現する音素X以外の音素の確率密度(第2図にお
けるj1,j2のφi1,φj2)を考慮して、式に従つて
尤度lXを求める。
First, a parameter extractor 1 obtains parameters for each frame from the input speech, and then, using the values of the parameters, a probability density calculator 2 calculates the probability density obtained from each phoneme standard pattern. The steps up to this point are the same as in the conventional example. Next, in the word recognition unit 3, segmentation of the phoneme X is performed for each dictionary item in the word dictionary unit 5 according to the dictionary phoneme series that constitutes the dictionary item, and the phoneme X and the phoneme The likelihood lX of the corresponding segmented interval is calculated. Taking into consideration the probability density of phonemes other than the phoneme X appearing in (φ i1 , φ j2 of j 1 and j 2 in FIG. 2), the likelihood l X is determined according to the formula.

Ns、Ne:セグメンテーシヨンされた区間の始
端と終端フレーム番号 Co:第nフレームにおける各パラメータの値 φ:式で定義した確率密度 ここでW(X、Y、Z、n)は音素Xの辞書音
素系列中の前の音素Y、後の音素Z及び、セグメ
ンテーシヨン区間内でのフレーム位置によつて決
まる重み関数である。
N s , N e : Starting and ending frame numbers of the segmented section C o : Value of each parameter in the nth frame φ : Probability density defined by the formula Here, W (X, Y, Z, n) is This is a weighting function determined by the previous phoneme Y, the subsequent phoneme Z in the dictionary phoneme sequence of phoneme X, and the frame position within the segmentation interval.

また、分子第2項の Σi φj(Co)のjの範囲は 渉り部分に出現する音素に応じて設定する。W
(X、Y、Z、n)及びjの値は予め予備実験等
により求めておく。分母のiの定義はの式と同
様である。以上によつて、得られる尤度の値から
単語類似度LMを従来例と同様に式に従つて各
辞書項目毎に求め、LMが最大となる辞書項目を
もつて認識単語とする。
Further, the range of j in the second term of the numerator Σ i φ j (C o ) is set according to the phoneme appearing in the crossing part. W
The values of (X, Y, Z, n) and j are determined in advance through preliminary experiments and the like. The definition of the denominator i is the same as the expression. As described above, the word similarity L M is determined for each dictionary item according to the formula in the same way as in the conventional example from the obtained likelihood value, and the dictionary item with the maximum L M is determined as a recognized word.

本実施例においては、セグメンテーシヨンされ
た区間内において辞書項目中の前後の音素を考慮
して、渉りの部分に出現する音素の確率密度の値
を利用した尤度計算を行なうことにより、高い精
度の尤度が得られる利点がある。
In this example, by taking into account the preceding and following phonemes in the dictionary entry within the segmented interval, and performing likelihood calculations using the probability density values of phonemes that appear in the crossing part, It has the advantage of obtaining a highly accurate likelihood.

(発明の効果) 本発明は上記のような構成であり、以下に示す
効果が得られるものである。セグメンテーシヨン
された区間内において、辞書項目中の前後の音素
を考慮して、渉りの部分に出現する音素の確率密
度の値を利用した尤度計算を行なうことにより、
高い精度の尤度を得ることができる。
(Effects of the Invention) The present invention has the above-described configuration, and provides the following effects. Within the segmented interval, by taking into account the preceding and following phonemes in the dictionary entry, and performing a likelihood calculation using the probability density value of the phoneme that appears in the crossing part,
A highly accurate likelihood can be obtained.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来および本発明の一実施例における
単語音声認識方法を説明するための図、第2図は
前後の音素Y,Zを含む音素X及び渉りの部分に
出現する音素j1,j2の確率密度φの時間的変化を
示す図である。 1…パラメータ抽出部、2…確率密度計算部、
3…単語認識部、4…音素標準パタン部、5…単
語辞書部。
FIG. 1 is a diagram for explaining the word speech recognition method in the conventional method and in an embodiment of the present invention, and FIG. 2 shows the phoneme X including the preceding and following phonemes Y and Z, and the phoneme j 1 appearing in the intervening part, FIG. 3 is a diagram showing temporal changes in the probability density φ of j 2 . 1...Parameter extraction unit, 2...Probability density calculation unit,
3... Word recognition section, 4... Phoneme standard pattern section, 5... Word dictionary section.

Claims (1)

【特許請求の範囲】[Claims] 1 認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素のパラメータの分布形で表
わされた各音素の標準パタンを用いて、入力音声
の単語認識を行なう単語認識方法において、入力
音声を単語辞書の各辞書項目と照合し、各辞書項
目を構成する辞書音素系列に従い各音素毎に入力
音声をセグメンテーシヨンし、その音素の標準パ
タンを用いてそのセグメンテーシヨンされた音声
の区間に対して尤度計算を行なう際、辞書音素系
列中の隣接する前後の音素に応じて、セグメンテ
ーシヨンされた音声の区間内において、過渡部に
出現する音素の確率密度の値を含めた尤度を求
め、この尤度の値を用いて辞書項目と入力音声の
類似度を求めて単語を認識する単語音声認識方
法。
1 In a word recognition method that performs word recognition of input speech using a word dictionary that describes the word to be recognized as a symbol string for each phoneme, and a standard pattern for each phoneme that is expressed as a distribution of the parameters of each phoneme. , the input speech is compared with each dictionary entry in the word dictionary, the input speech is segmented for each phoneme according to the dictionary phoneme series that constitutes each dictionary entry, and the segmentation is performed using the standard pattern of that phoneme. When calculating the likelihood for a segment of speech, the value of the probability density of a phoneme that appears in a transitional part within the segmented segment of speech is calculated according to the adjacent phonemes before and after in the dictionary phoneme sequence. A word speech recognition method that calculates the included likelihood and uses this likelihood value to find the degree of similarity between a dictionary entry and input speech to recognize the word.
JP58183695A 1983-10-01 1983-10-01 Word voice recognition Granted JPS6075889A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58183695A JPS6075889A (en) 1983-10-01 1983-10-01 Word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58183695A JPS6075889A (en) 1983-10-01 1983-10-01 Word voice recognition

Publications (2)

Publication Number Publication Date
JPS6075889A JPS6075889A (en) 1985-04-30
JPH0155477B2 true JPH0155477B2 (en) 1989-11-24

Family

ID=16140319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58183695A Granted JPS6075889A (en) 1983-10-01 1983-10-01 Word voice recognition

Country Status (1)

Country Link
JP (1) JPS6075889A (en)

Also Published As

Publication number Publication date
JPS6075889A (en) 1985-04-30

Similar Documents

Publication Publication Date Title
EP0319140A2 (en) Speech recognition
Iwano et al. Prosodic word boundary detection using statistical modeling of moraic fundamental frequency contours and its use for continuous speech recognition
JP3444108B2 (en) Voice recognition device
JPH0155477B2 (en)
JPH0431116B2 (en)
JPH08314490A (en) Word spotting type speech recognition method and device
JPH0412479B2 (en)
JPH0431115B2 (en)
JPH045394B2 (en)
JPH0627985A (en) Speech recognition method
JPH045397B2 (en)
JPH0412480B2 (en)
JPH0431114B2 (en)
JPH0981177A (en) Speech recognition device, dictionary of word components, and method of learning hidden Markov model
JPH04291399A (en) Voice recognizing method
JPH045396B2 (en)
JPH0431117B2 (en)
JPH0155476B2 (en)
JPS58159598A (en) Monosyllabic voice recognition system
JPH0619497A (en) Speech recognition method
JPS62114082A (en) Pattern recognition learning system
JP3097134B2 (en) DP matching method
JPH045391B2 (en)
JPH045393B2 (en)
JPH06289894A (en) Japanese speech recognition method