JPS60202494A - Word voice recognition - Google Patents

Word voice recognition

Info

Publication number
JPS60202494A
JPS60202494A JP59058173A JP5817384A JPS60202494A JP S60202494 A JPS60202494 A JP S60202494A JP 59058173 A JP59058173 A JP 59058173A JP 5817384 A JP5817384 A JP 5817384A JP S60202494 A JPS60202494 A JP S60202494A
Authority
JP
Japan
Prior art keywords
phoneme
word
dictionary
segmented
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59058173A
Other languages
Japanese (ja)
Other versions
JPH045391B2 (en
Inventor
金指 久則
入間野 孝雄
秋場 国夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP59058173A priority Critical patent/JPS60202494A/en
Publication of JPS60202494A publication Critical patent/JPS60202494A/en
Publication of JPH045391B2 publication Critical patent/JPH045391B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は入力音声と、音素表記された単語辞書を照合し
て単語を認識する単語音声認識方法に関するものである
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例を実行するための装置の機能ブ
ロック図である。従来例を第1図。
(Constitution of Conventional Example and its Problems) FIG. 1 is a functional block diagram of an example of a conventional word speech recognition method and an apparatus for executing an embodiment of the word speech recognition method of the present invention. Figure 1 shows a conventional example.

第2図及び第3図とともに説明する。第1図において、
1は入力音声から・母うメータの時系列を作成するi4
ラメータ抽出部、2は音素標準ノ4タンを照合して、音
素の確率密度を算出する確率密度計算部、3は音素毎の
セグメンテーション、尤度計算、単語類似度計算を行な
う単語認識部である。
This will be explained with reference to FIGS. 2 and 3. In Figure 1,
1 is an i4 that creates a time series of motherboard meters from input audio.
2 is a probability density calculation unit that calculates the probability density of a phoneme by collating the phoneme standard number 4, and 3 is a word recognition unit that performs segmentation, likelihood calculation, and word similarity calculation for each phoneme. .

また、4は各音素毎の各種パラメータにおける分布を各
音素毎の平均値(μi)、及び各種・母うメータ間の共
分散行列(Σi)の形で表わした音素標準パタンを記憶
する音素標準バタン部、5は認識すべき全単語を音素単
位の記号列で表記した単語辞書が記憶されている単語辞
書部である。その単語辞書は、例えば単語「サラポロ」
、「カンテイ」はr 5AQPOROJ 、 r KA
N=NAI J等と表記されている。
In addition, 4 is a phoneme standard that stores a phoneme standard pattern that represents the distribution of various parameters for each phoneme in the form of an average value (μi) for each phoneme and a covariance matrix (Σi) between various types of meters. The button part 5 is a word dictionary part in which a word dictionary in which all words to be recognized are expressed in symbol strings in units of phonemes is stored. The word dictionary is, for example, the word "Sarapolo"
, "Kantei" is r 5AQPOROJ, r KA
It is written as N=NAI J, etc.

次に上記従来例の動作について説明する。パラメータ抽
出部1において、入力音素をl0m5のフレーム毎に分
析し・ぐラメータを抽出して、・ぐラメータ時系列を作
成する。次に確率密度計算部2において、フレーム毎に
得られたパラメータと音素標準・モタン部4の音素標準
・やタンを照合し、音素の確率密度を算出する。次に、
単語認識部3において、各辞書項目毎に、その辞書項目
を構成する辞書音素系列に従って音素のセグメンテーシ
ョンを行ない、下記0式に従いその音素の種類と、その
音素に対応してセグメンテーションされた区間の尤度t
を計算し、その辞書項目における、各音素の尤度の平均
として類似度をめる。ここで、その音素をXとし、Xに
対応してセグメンテーションされた区間の始端と終端の
フレーム番号をNs * Neとし、第nフレームにお
ける各/4’ラメータの値をCnとすると、音素Xの尤
度tXは下式で定義される。
Next, the operation of the above conventional example will be explained. In the parameter extraction unit 1, the input phoneme is analyzed for each frame of 10m5, and the parameter is extracted to create a parameter time series. Next, the probability density calculation unit 2 compares the parameters obtained for each frame with the phoneme standard/yatan of the phoneme standard/motan unit 4, and calculates the probability density of the phoneme. next,
The word recognition unit 3 performs phoneme segmentation for each dictionary item according to the dictionary phoneme series that constitutes the dictionary item, and calculates the type of phoneme and the likelihood of the segmented interval corresponding to the phoneme according to the following formula 0. degree t
is calculated, and the similarity is calculated as the average of the likelihoods of each phoneme in that dictionary entry. Here, if the phoneme is X, the frame numbers at the start and end of the segmented section corresponding to X are Ns * Ne, and the value of each /4' parameter in the nth frame is Cn, then The likelihood tX is defined by the following formula.

φ、 (Cn)はある音素iの確率密度を表わし、■式
のように定義される。
φ, (Cn) represents the probability density of a certain phoneme i, and is defined as in equation (2).

一■ 0式において、確率密度の割シ算における分母のサメン
ションの1の範囲は、音素Xが何であるかによって異な
り、例えばXが音素A(7)の時はiの範囲は5母音、
A、E、1.0.U、としている。
1) In Equation 0, the range of summation 1 in the denominator in the division calculation of the probability density differs depending on the phoneme X. For example, when X is the phoneme A (7), the range of i is 5 vowels,
A, E, 1.0. It is set as U.

以上により得られる単語類似度しMを■式に従って各辞
書項目毎にめ、LMが最大となる辞書項目をもって、認
識単語としていた。
The word similarity M obtained from the above was determined for each dictionary item according to formula (2), and the dictionary item with the maximum LM was selected as a recognized word.

LM=、’暮tj/NP −■ J=1 第2図は/ KAN=NA I/ (閣内)と発声した
時の/AN=NA/の部分の各音素の確率密度の時間変
化を表わしている。この場合の/AN=NA/の部分の
セグメンテーション及び尤度計算は、各音素/A/ 、
 /N=/、 /N/ 、 /A/の確率密度の値φ□
LM=, 'kuretj/NP -■ J=1 Figure 2 shows the time change in the probability density of each phoneme in the /AN=NA/ part when uttering /KAN=NA I/ (cabinet). There is. In this case, the segmentation and likelihood calculation of the /AN=NA/ part are performed for each phoneme /A/,
/N=/, /N/, /A/ probability density value φ□
.

φ、−1φ8.φえの時間変化に従ってセグメンテーシ
ョンを行なう。/AN=NA/の場合は第1番目の/A
/に対してセグメンテーションした区間(a−h)を対
応させ、■弐に従い、φ□を用いてLAを計算し、/N
=/、/N/、/A/についても同様にtN=。
φ, -1φ8. Segmentation is performed according to the time change of φ. If /AN=NA/, the first /A
Correspond the segmented interval (a-h) to /, calculate LA using φ□ according to ■2, and /N
Similarly, tN= for =/, /N/, and /A/.

tN * tAを計算する。Calculate tN * tA.

第3図は同じ単yg /KAN = NA I /を別
の話者が発声した場合の各音素の確率密度の時間変化を
示している。第3図において、/AN=NA/の部分の
セグメンテーション及び尤度計算はφ、、φ、−1(5
) φ9.φえの時間変化によって行なうが、/N=/のセ
グメンテーションをする場合/N=/の次に来る音素/
N/の確率密度φ、が/N/の区間で十分大きくならず
φ、=が/N/の区間に大きな値を持ち、次の音素/A
/の区間の始まりまできている。従って/N−/のセグ
メンテーション区間は区間(g−h)となり、/N/の
区間を含むため、/N−/の次の音素/N/のセグメン
テーションを誤り、尤度tNも低くなるため、撥音、鼻
音の連続2音素を含む単語は誤認識し易い欠点があった
FIG. 3 shows the temporal change in the probability density of each phoneme when the same unit yg /KAN = NA I / is uttered by different speakers. In Figure 3, the segmentation and likelihood calculation for /AN=NA/ are φ, φ, −1(5
) φ9. This is done based on the time change of φ, but when segmenting /N=/, the phoneme that comes after /N=//
The probability density φ, of N/ is not large enough in the /N/ interval, and φ,= has a large value in the /N/ interval, and the next phoneme /A
We have reached the beginning of the / section. Therefore, the segmentation interval of /N-/ becomes the interval (gh), which includes the interval of /N/, so the segmentation of the next phoneme /N/ after /N-/ is incorrect, and the likelihood tN is also low. Words containing two consecutive phonemes, such as a nasal or a nasal, had the disadvantage of being easily misrecognized.

(発明の目的) 本発明は、上記従来例の欠点を除去するものであり、尤
度計算の精度を向上させ、それにより単語認識率を向上
させることを目的とする。
(Objective of the Invention) The present invention is intended to eliminate the drawbacks of the conventional example described above, and aims to improve the accuracy of likelihood calculation, thereby improving the word recognition rate.

(発明の構成) 本発明は、上記目的を達成するために、撥音。(Structure of the invention) In order to achieve the above object, the present invention provides sound repellent.

鼻音が連続する音素系列のセグメンテーション及び尤度
計算を行なう際、撥音、鼻音の連続2音素ケまとめてセ
グメンテーションし尤度計算ヲ行なうことにより、セグ
メンテーション及び尤度計算の精度を向上させる効果を
得るものである。
When segmenting and calculating the likelihood of a phoneme sequence with continuous nasal sounds, the accuracy of the segmentation and likelihood calculation can be improved by segmenting and calculating the likelihood of two consecutive phonemes of a nasal sound and a nasal sound at the same time. It is.

(6) (実施例の説明) 以下に本発明の一実施例について第1図及び第3図とと
もに説明する。第1図において、音素標準・やタンは従
来例と同様である。単語辞書は、認識すべき単@を音素
の記号列で表記しである。またノやラメータ抽出により
得られる・やラメータ時系列は従来例と同様である。本
実施例の動作について説明する。先ず、ノヤラメータ抽
出部1で入力音声からフレーム毎の・母うメータを得、
さらに確率密度計算部2でその・やラメータの値及び、
各音素標準ijメタンら得られる確率密度を計算する。
(6) (Description of Embodiment) An embodiment of the present invention will be described below with reference to FIGS. 1 and 3. In FIG. 1, the phoneme standard yatan is the same as the conventional example. The word dictionary represents the single @ to be recognized as a string of phoneme symbols. Moreover, the /ya parameter time series obtained by the /ya parameter extraction is the same as in the conventional example. The operation of this embodiment will be explained. First, the noise parameter extraction unit 1 obtains a parameter for each frame from the input audio,
Furthermore, the probability density calculation unit 2 calculates the value of the parameter and
Calculate the probability density obtained from each phoneme standard ij methane.

次に、単語認識部3において、単語辞書部5内の各辞書
項目毎にその辞書項目を構成する辞書音素系列に従って
音素Xのセグメンテーションを行ない、その音素Xとそ
の音素Xに対応してセグメンテーションされた区間の尤
度txを計算するのであるが、辞書音素系列中に撥音、
鼻音の2連続音素系列がある場合、第1番目の音素であ
る撥音の確率密度の値が、次の鼻音の終りまで優勢であ
る。従って撥音、鼻音の連続2音素をまとめてセグメン
テーションし、そのセグメンテーションした区間に対し
て尤度を計算する。第3図の/AN=NA/の部分の各
音素/A/、/N−/、/N/、/に/の確率密度φ6
.φ、−1φ8.φ□をみると、φ、−は/N/の部分
でφ、よりも大きな値を持ち/A/の始1す(h)まで
続いている。従って、φ、−の値を用いて、/N=N/
の連続2音素をまとめてgからhまでセグメンテーショ
ンを行ない、セグメンテーションした区間(g−h)に
対してφ、−の値を用いて0式に従って2音素分の尤度
tN−Nヲ求める。ここで0式と対比して普通の音素の
場合は従来同様0式を用いて尤度計算を行なう。
Next, in the word recognition unit 3, segmentation of the phoneme X is performed for each dictionary item in the word dictionary unit 5 according to the dictionary phoneme series that constitutes that dictionary item. The likelihood tx of the interval is calculated.
When there are two consecutive phoneme sequences of nasal sounds, the probability density value of the first phoneme, the phlegm, is dominant until the end of the next nasal sound. Therefore, two consecutive phonemes, a nasal and a nasal, are segmented together, and the likelihood is calculated for the segmented interval. Probability density φ6 of each phoneme /A/, /N-/, /N/, /ni/ in the /AN=NA/ part of Figure 3
.. φ, -1φ8. Looking at φ□, φ, - has a larger value than φ, at the /N/ portion, and continues until the beginning of /A/ (h). Therefore, using the value of φ, -, /N=N/
Segmentation is performed on the two consecutive phonemes from g to h, and the likelihood tN-N for the two phonemes is determined according to the formula 0 using the values of φ and - for the segmented interval (gh). Here, in contrast to the 0 formula, in the case of a normal phoneme, the 0 formula is used to calculate the likelihood as in the conventional case.

本実施ににおいては、撥音、鼻音の音素系列を1つにま
とめてセグメンテーション及び尤度計算を行なうため、
撥音、鼻音の連続2音素を含む単語の認識率が向上する
利点がある。
In this implementation, in order to perform segmentation and likelihood calculation by combining the phoneme sequences of phonics and nasals into one,
This method has the advantage of improving the recognition rate of words containing two consecutive phonemes, such as a nasal or a nasal.

但し、記号の使用は■、■式に準する。However, the use of symbols follows the formulas ■ and ■.

(発明の効果) 本発明は上記のように撥音、鼻音の連続2音素をまとめ
てセグメンテーションし、尤度計算を行なうことにより
、従来法に比べ精度よくセグメンテーション及び尤度計
算を行うことができる。
(Effects of the Invention) As described above, the present invention can perform segmentation and likelihood calculation with higher precision than conventional methods by collectively segmenting two consecutive phonemes of a phonic and nasal sound and performing likelihood calculation.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来及び本発明の一実施例における単語音声認
識方法を説明するための図、第2図は/KAN=NA1
 /(カンナイ)と発声した場合の/AN=NA/の部
分の各要素/A/、/N=/、/N/、/A/の確率密
度φ6.φ、−9φ8.φえ の時間変化を示す図、第
3図は第2図の場合とは別の話者が/KAN=NAI 
/と発声した場合φえ、φ、−1φ、。 φ、の時間変化を示す図である。 1・・・パラメータ抽出部 2・・・確率密度計算部、 3・・・単語認識部 4・・・音素標準バタン部 5・・・単語辞書部 (9) 第1図 入〃會声 訴戚早猪
FIG. 1 is a diagram for explaining the word speech recognition method in the conventional method and an embodiment of the present invention, and FIG.
Probability density φ6 of each element /A/, /N=/, /N/, /A/ in the part /AN=NA/ when /(kannai) is uttered. φ, -9φ8. Figure 3 shows the change in φe over time.
If you say /, φeh, φ, -1φ,. It is a figure showing a time change of φ. 1... Parameter extraction unit 2... Probability density calculation unit, 3... Word recognition unit 4... Phoneme standard slam unit 5... Word dictionary unit (9) Diagram 1 Contains meeting voice complaint early wild boar

Claims (1)

【特許請求の範囲】[Claims] 認識すべき単語を音素単位の記号列で表記した単語辞書
と、各音素の音響パラメータの分布形で表わされた各音
素の標準・ぞタンを用いて、入力音声の単語認識を行々
う単語音声認識方法において、入力音声を単語辞書の各
辞書項目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメンテーションし、そ
の音素の標準ノ母タンを用いて、そのセグメンテーショ
ンされた音声の区間がその音素から生成さ扛る確率密度
を計算し、セグメンテーションされた音声の区間に対し
て、上記確率密度の値を用いて各辞書項目と入力音声の
類似度をめて、単語を認識する際、辞書単語中の撥音、
鼻音が連続した音素系列に対しては、撥音と鼻音の連続
2音素をまとめてセグメンテーションし、尤度計算を行
なうことを特徴とする単語音声認識方法。
We perform word recognition of input speech using a word dictionary that describes the words to be recognized as symbol strings for each phoneme, and standard numbers for each phoneme that are represented by the distribution of the acoustic parameters of each phoneme. In the word speech recognition method, the input speech is checked against each dictionary entry in a word dictionary, the input speech is segmented for each phoneme according to the dictionary phoneme series that constitutes each dictionary entry, and the standard nomaton of that phoneme is used. The probability density that the segmented speech section is generated from the phoneme is calculated, and the similarity between each dictionary item and the input speech is calculated using the above probability density value for the segmented speech section. When recognizing words, the phonograph in the dictionary word,
A word speech recognition method characterized in that, for a phoneme sequence with continuous nasal sounds, two consecutive phonemes of a nasal sound and a nasal sound are segmented together and likelihood calculation is performed.
JP59058173A 1984-03-28 1984-03-28 Word voice recognition Granted JPS60202494A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058173A JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058173A JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Publications (2)

Publication Number Publication Date
JPS60202494A true JPS60202494A (en) 1985-10-12
JPH045391B2 JPH045391B2 (en) 1992-01-31

Family

ID=13076606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058173A Granted JPS60202494A (en) 1984-03-28 1984-03-28 Word voice recognition

Country Status (1)

Country Link
JP (1) JPS60202494A (en)

Also Published As

Publication number Publication date
JPH045391B2 (en) 1992-01-31

Similar Documents

Publication Publication Date Title
JP6501260B2 (en) Sound processing apparatus and sound processing method
US20080281593A1 (en) Apparatus for Reducing Spurious Insertions in Speech Recognition
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JPH11191000A (en) Method for aligning text and voice signal
JP4666129B2 (en) Speech recognition system using speech normalization analysis
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
JP3081108B2 (en) Speaker classification processing apparatus and method
CN111640423B (en) A word boundary estimation method, device and electronic equipment
JP2012053218A (en) Sound processing apparatus and sound processing program
JP4779239B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program thereof
JPS60202494A (en) Word voice recognition
JP2003345388A (en) Method, device, and program for voice recognition
Shokri et al. A robust keyword spotting system for Persian conversational telephone speech using feature and score normalization and ARMA filter
Bayya Rejection in speech recognition systems with limited training.
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
Sankar et al. Noise-resistant feature extraction and model training for robust speech recognition
JPH0534679B2 (en)
Kalantari et al. Incorporating visual information for spoken term detection
CN118072717A (en) Speech recognition method, device, equipment and storage medium
JPS60149096A (en) Recognition of word voice
JPS60149095A (en) Recognition of word voice
Kleynhans et al. A channel normalization technique for speech recognition in mismatched conditions
Al-Haddad An automatic Malay speech recognition system for dysathric
JPS59211096A (en) Voice recognition equipment
Kosaka et al. Discrete-Mixture HMMs-based Approach for Noisy Speech Recognition