JPS60202494A - Word voice recognition - Google Patents
Word voice recognitionInfo
- Publication number
- JPS60202494A JPS60202494A JP59058173A JP5817384A JPS60202494A JP S60202494 A JPS60202494 A JP S60202494A JP 59058173 A JP59058173 A JP 59058173A JP 5817384 A JP5817384 A JP 5817384A JP S60202494 A JPS60202494 A JP S60202494A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- dictionary
- segmented
- probability density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 206010062717 Increased upper airway secretion Diseases 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 208000026435 phlegm Diseases 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は入力音声と、音素表記された単語辞書を照合し
て単語を認識する単語音声認識方法に関するものである
。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例を実行するための装置の機能ブ
ロック図である。従来例を第1図。(Constitution of Conventional Example and its Problems) FIG. 1 is a functional block diagram of an example of a conventional word speech recognition method and an apparatus for executing an embodiment of the word speech recognition method of the present invention. Figure 1 shows a conventional example.
第2図及び第3図とともに説明する。第1図において、
1は入力音声から・母うメータの時系列を作成するi4
ラメータ抽出部、2は音素標準ノ4タンを照合して、音
素の確率密度を算出する確率密度計算部、3は音素毎の
セグメンテーション、尤度計算、単語類似度計算を行な
う単語認識部である。This will be explained with reference to FIGS. 2 and 3. In Figure 1,
1 is an i4 that creates a time series of motherboard meters from input audio.
2 is a probability density calculation unit that calculates the probability density of a phoneme by collating the phoneme standard number 4, and 3 is a word recognition unit that performs segmentation, likelihood calculation, and word similarity calculation for each phoneme. .
また、4は各音素毎の各種パラメータにおける分布を各
音素毎の平均値(μi)、及び各種・母うメータ間の共
分散行列(Σi)の形で表わした音素標準パタンを記憶
する音素標準バタン部、5は認識すべき全単語を音素単
位の記号列で表記した単語辞書が記憶されている単語辞
書部である。その単語辞書は、例えば単語「サラポロ」
、「カンテイ」はr 5AQPOROJ 、 r KA
N=NAI J等と表記されている。In addition, 4 is a phoneme standard that stores a phoneme standard pattern that represents the distribution of various parameters for each phoneme in the form of an average value (μi) for each phoneme and a covariance matrix (Σi) between various types of meters. The button part 5 is a word dictionary part in which a word dictionary in which all words to be recognized are expressed in symbol strings in units of phonemes is stored. The word dictionary is, for example, the word "Sarapolo"
, "Kantei" is r 5AQPOROJ, r KA
It is written as N=NAI J, etc.
次に上記従来例の動作について説明する。パラメータ抽
出部1において、入力音素をl0m5のフレーム毎に分
析し・ぐラメータを抽出して、・ぐラメータ時系列を作
成する。次に確率密度計算部2において、フレーム毎に
得られたパラメータと音素標準・モタン部4の音素標準
・やタンを照合し、音素の確率密度を算出する。次に、
単語認識部3において、各辞書項目毎に、その辞書項目
を構成する辞書音素系列に従って音素のセグメンテーシ
ョンを行ない、下記0式に従いその音素の種類と、その
音素に対応してセグメンテーションされた区間の尤度t
を計算し、その辞書項目における、各音素の尤度の平均
として類似度をめる。ここで、その音素をXとし、Xに
対応してセグメンテーションされた区間の始端と終端の
フレーム番号をNs * Neとし、第nフレームにお
ける各/4’ラメータの値をCnとすると、音素Xの尤
度tXは下式で定義される。Next, the operation of the above conventional example will be explained. In the parameter extraction unit 1, the input phoneme is analyzed for each frame of 10m5, and the parameter is extracted to create a parameter time series. Next, the probability density calculation unit 2 compares the parameters obtained for each frame with the phoneme standard/yatan of the phoneme standard/motan unit 4, and calculates the probability density of the phoneme. next,
The word recognition unit 3 performs phoneme segmentation for each dictionary item according to the dictionary phoneme series that constitutes the dictionary item, and calculates the type of phoneme and the likelihood of the segmented interval corresponding to the phoneme according to the following formula 0. degree t
is calculated, and the similarity is calculated as the average of the likelihoods of each phoneme in that dictionary entry. Here, if the phoneme is X, the frame numbers at the start and end of the segmented section corresponding to X are Ns * Ne, and the value of each /4' parameter in the nth frame is Cn, then The likelihood tX is defined by the following formula.
φ、 (Cn)はある音素iの確率密度を表わし、■式
のように定義される。φ, (Cn) represents the probability density of a certain phoneme i, and is defined as in equation (2).
一■
0式において、確率密度の割シ算における分母のサメン
ションの1の範囲は、音素Xが何であるかによって異な
り、例えばXが音素A(7)の時はiの範囲は5母音、
A、E、1.0.U、としている。1) In Equation 0, the range of summation 1 in the denominator in the division calculation of the probability density differs depending on the phoneme X. For example, when X is the phoneme A (7), the range of i is 5 vowels,
A, E, 1.0. It is set as U.
以上により得られる単語類似度しMを■式に従って各辞
書項目毎にめ、LMが最大となる辞書項目をもって、認
識単語としていた。The word similarity M obtained from the above was determined for each dictionary item according to formula (2), and the dictionary item with the maximum LM was selected as a recognized word.
LM=、’暮tj/NP −■
J=1
第2図は/ KAN=NA I/ (閣内)と発声した
時の/AN=NA/の部分の各音素の確率密度の時間変
化を表わしている。この場合の/AN=NA/の部分の
セグメンテーション及び尤度計算は、各音素/A/ 、
/N=/、 /N/ 、 /A/の確率密度の値φ□
。LM=, 'kuretj/NP -■ J=1 Figure 2 shows the time change in the probability density of each phoneme in the /AN=NA/ part when uttering /KAN=NA I/ (cabinet). There is. In this case, the segmentation and likelihood calculation of the /AN=NA/ part are performed for each phoneme /A/,
/N=/, /N/, /A/ probability density value φ□
.
φ、−1φ8.φえの時間変化に従ってセグメンテーシ
ョンを行なう。/AN=NA/の場合は第1番目の/A
/に対してセグメンテーションした区間(a−h)を対
応させ、■弐に従い、φ□を用いてLAを計算し、/N
=/、/N/、/A/についても同様にtN=。φ, -1φ8. Segmentation is performed according to the time change of φ. If /AN=NA/, the first /A
Correspond the segmented interval (a-h) to /, calculate LA using φ□ according to ■2, and /N
Similarly, tN= for =/, /N/, and /A/.
tN * tAを計算する。Calculate tN * tA.
第3図は同じ単yg /KAN = NA I /を別
の話者が発声した場合の各音素の確率密度の時間変化を
示している。第3図において、/AN=NA/の部分の
セグメンテーション及び尤度計算はφ、、φ、−1(5
)
φ9.φえの時間変化によって行なうが、/N=/のセ
グメンテーションをする場合/N=/の次に来る音素/
N/の確率密度φ、が/N/の区間で十分大きくならず
φ、=が/N/の区間に大きな値を持ち、次の音素/A
/の区間の始まりまできている。従って/N−/のセグ
メンテーション区間は区間(g−h)となり、/N/の
区間を含むため、/N−/の次の音素/N/のセグメン
テーションを誤り、尤度tNも低くなるため、撥音、鼻
音の連続2音素を含む単語は誤認識し易い欠点があった
。FIG. 3 shows the temporal change in the probability density of each phoneme when the same unit yg /KAN = NA I / is uttered by different speakers. In Figure 3, the segmentation and likelihood calculation for /AN=NA/ are φ, φ, −1(5
) φ9. This is done based on the time change of φ, but when segmenting /N=/, the phoneme that comes after /N=//
The probability density φ, of N/ is not large enough in the /N/ interval, and φ,= has a large value in the /N/ interval, and the next phoneme /A
We have reached the beginning of the / section. Therefore, the segmentation interval of /N-/ becomes the interval (gh), which includes the interval of /N/, so the segmentation of the next phoneme /N/ after /N-/ is incorrect, and the likelihood tN is also low. Words containing two consecutive phonemes, such as a nasal or a nasal, had the disadvantage of being easily misrecognized.
(発明の目的)
本発明は、上記従来例の欠点を除去するものであり、尤
度計算の精度を向上させ、それにより単語認識率を向上
させることを目的とする。(Objective of the Invention) The present invention is intended to eliminate the drawbacks of the conventional example described above, and aims to improve the accuracy of likelihood calculation, thereby improving the word recognition rate.
(発明の構成) 本発明は、上記目的を達成するために、撥音。(Structure of the invention) In order to achieve the above object, the present invention provides sound repellent.
鼻音が連続する音素系列のセグメンテーション及び尤度
計算を行なう際、撥音、鼻音の連続2音素ケまとめてセ
グメンテーションし尤度計算ヲ行なうことにより、セグ
メンテーション及び尤度計算の精度を向上させる効果を
得るものである。When segmenting and calculating the likelihood of a phoneme sequence with continuous nasal sounds, the accuracy of the segmentation and likelihood calculation can be improved by segmenting and calculating the likelihood of two consecutive phonemes of a nasal sound and a nasal sound at the same time. It is.
(6)
(実施例の説明)
以下に本発明の一実施例について第1図及び第3図とと
もに説明する。第1図において、音素標準・やタンは従
来例と同様である。単語辞書は、認識すべき単@を音素
の記号列で表記しである。またノやラメータ抽出により
得られる・やラメータ時系列は従来例と同様である。本
実施例の動作について説明する。先ず、ノヤラメータ抽
出部1で入力音声からフレーム毎の・母うメータを得、
さらに確率密度計算部2でその・やラメータの値及び、
各音素標準ijメタンら得られる確率密度を計算する。(6) (Description of Embodiment) An embodiment of the present invention will be described below with reference to FIGS. 1 and 3. In FIG. 1, the phoneme standard yatan is the same as the conventional example. The word dictionary represents the single @ to be recognized as a string of phoneme symbols. Moreover, the /ya parameter time series obtained by the /ya parameter extraction is the same as in the conventional example. The operation of this embodiment will be explained. First, the noise parameter extraction unit 1 obtains a parameter for each frame from the input audio,
Furthermore, the probability density calculation unit 2 calculates the value of the parameter and
Calculate the probability density obtained from each phoneme standard ij methane.
次に、単語認識部3において、単語辞書部5内の各辞書
項目毎にその辞書項目を構成する辞書音素系列に従って
音素Xのセグメンテーションを行ない、その音素Xとそ
の音素Xに対応してセグメンテーションされた区間の尤
度txを計算するのであるが、辞書音素系列中に撥音、
鼻音の2連続音素系列がある場合、第1番目の音素であ
る撥音の確率密度の値が、次の鼻音の終りまで優勢であ
る。従って撥音、鼻音の連続2音素をまとめてセグメン
テーションし、そのセグメンテーションした区間に対し
て尤度を計算する。第3図の/AN=NA/の部分の各
音素/A/、/N−/、/N/、/に/の確率密度φ6
.φ、−1φ8.φ□をみると、φ、−は/N/の部分
でφ、よりも大きな値を持ち/A/の始1す(h)まで
続いている。従って、φ、−の値を用いて、/N=N/
の連続2音素をまとめてgからhまでセグメンテーショ
ンを行ない、セグメンテーションした区間(g−h)に
対してφ、−の値を用いて0式に従って2音素分の尤度
tN−Nヲ求める。ここで0式と対比して普通の音素の
場合は従来同様0式を用いて尤度計算を行なう。Next, in the word recognition unit 3, segmentation of the phoneme X is performed for each dictionary item in the word dictionary unit 5 according to the dictionary phoneme series that constitutes that dictionary item. The likelihood tx of the interval is calculated.
When there are two consecutive phoneme sequences of nasal sounds, the probability density value of the first phoneme, the phlegm, is dominant until the end of the next nasal sound. Therefore, two consecutive phonemes, a nasal and a nasal, are segmented together, and the likelihood is calculated for the segmented interval. Probability density φ6 of each phoneme /A/, /N-/, /N/, /ni/ in the /AN=NA/ part of Figure 3
.. φ, -1φ8. Looking at φ□, φ, - has a larger value than φ, at the /N/ portion, and continues until the beginning of /A/ (h). Therefore, using the value of φ, -, /N=N/
Segmentation is performed on the two consecutive phonemes from g to h, and the likelihood tN-N for the two phonemes is determined according to the formula 0 using the values of φ and - for the segmented interval (gh). Here, in contrast to the 0 formula, in the case of a normal phoneme, the 0 formula is used to calculate the likelihood as in the conventional case.
本実施ににおいては、撥音、鼻音の音素系列を1つにま
とめてセグメンテーション及び尤度計算を行なうため、
撥音、鼻音の連続2音素を含む単語の認識率が向上する
利点がある。In this implementation, in order to perform segmentation and likelihood calculation by combining the phoneme sequences of phonics and nasals into one,
This method has the advantage of improving the recognition rate of words containing two consecutive phonemes, such as a nasal or a nasal.
但し、記号の使用は■、■式に準する。However, the use of symbols follows the formulas ■ and ■.
(発明の効果)
本発明は上記のように撥音、鼻音の連続2音素をまとめ
てセグメンテーションし、尤度計算を行なうことにより
、従来法に比べ精度よくセグメンテーション及び尤度計
算を行うことができる。(Effects of the Invention) As described above, the present invention can perform segmentation and likelihood calculation with higher precision than conventional methods by collectively segmenting two consecutive phonemes of a phonic and nasal sound and performing likelihood calculation.
第1図は従来及び本発明の一実施例における単語音声認
識方法を説明するための図、第2図は/KAN=NA1
/(カンナイ)と発声した場合の/AN=NA/の部
分の各要素/A/、/N=/、/N/、/A/の確率密
度φ6.φ、−9φ8.φえ の時間変化を示す図、第
3図は第2図の場合とは別の話者が/KAN=NAI
/と発声した場合φえ、φ、−1φ、。
φ、の時間変化を示す図である。
1・・・パラメータ抽出部
2・・・確率密度計算部、
3・・・単語認識部
4・・・音素標準バタン部
5・・・単語辞書部
(9)
第1図
入〃會声
訴戚早猪FIG. 1 is a diagram for explaining the word speech recognition method in the conventional method and an embodiment of the present invention, and FIG.
Probability density φ6 of each element /A/, /N=/, /N/, /A/ in the part /AN=NA/ when /(kannai) is uttered. φ, -9φ8. Figure 3 shows the change in φe over time.
If you say /, φeh, φ, -1φ,. It is a figure showing a time change of φ. 1... Parameter extraction unit 2... Probability density calculation unit, 3... Word recognition unit 4... Phoneme standard slam unit 5... Word dictionary unit (9) Diagram 1 Contains meeting voice complaint early wild boar
Claims (1)
と、各音素の音響パラメータの分布形で表わされた各音
素の標準・ぞタンを用いて、入力音声の単語認識を行々
う単語音声認識方法において、入力音声を単語辞書の各
辞書項目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメンテーションし、そ
の音素の標準ノ母タンを用いて、そのセグメンテーショ
ンされた音声の区間がその音素から生成さ扛る確率密度
を計算し、セグメンテーションされた音声の区間に対し
て、上記確率密度の値を用いて各辞書項目と入力音声の
類似度をめて、単語を認識する際、辞書単語中の撥音、
鼻音が連続した音素系列に対しては、撥音と鼻音の連続
2音素をまとめてセグメンテーションし、尤度計算を行
なうことを特徴とする単語音声認識方法。We perform word recognition of input speech using a word dictionary that describes the words to be recognized as symbol strings for each phoneme, and standard numbers for each phoneme that are represented by the distribution of the acoustic parameters of each phoneme. In the word speech recognition method, the input speech is checked against each dictionary entry in a word dictionary, the input speech is segmented for each phoneme according to the dictionary phoneme series that constitutes each dictionary entry, and the standard nomaton of that phoneme is used. The probability density that the segmented speech section is generated from the phoneme is calculated, and the similarity between each dictionary item and the input speech is calculated using the above probability density value for the segmented speech section. When recognizing words, the phonograph in the dictionary word,
A word speech recognition method characterized in that, for a phoneme sequence with continuous nasal sounds, two consecutive phonemes of a nasal sound and a nasal sound are segmented together and likelihood calculation is performed.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058173A JPS60202494A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59058173A JPS60202494A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60202494A true JPS60202494A (en) | 1985-10-12 |
| JPH045391B2 JPH045391B2 (en) | 1992-01-31 |
Family
ID=13076606
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59058173A Granted JPS60202494A (en) | 1984-03-28 | 1984-03-28 | Word voice recognition |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60202494A (en) |
-
1984
- 1984-03-28 JP JP59058173A patent/JPS60202494A/en active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPH045391B2 (en) | 1992-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6501260B2 (en) | Sound processing apparatus and sound processing method | |
| US20080281593A1 (en) | Apparatus for Reducing Spurious Insertions in Speech Recognition | |
| US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
| JPH11191000A (en) | Method for aligning text and voice signal | |
| JP4666129B2 (en) | Speech recognition system using speech normalization analysis | |
| US7133827B1 (en) | Training speech recognition word models from word samples synthesized by Monte Carlo techniques | |
| JP3081108B2 (en) | Speaker classification processing apparatus and method | |
| CN111640423B (en) | A word boundary estimation method, device and electronic equipment | |
| JP2012053218A (en) | Sound processing apparatus and sound processing program | |
| JP4779239B2 (en) | Acoustic model learning apparatus, acoustic model learning method, and program thereof | |
| JPS60202494A (en) | Word voice recognition | |
| JP2003345388A (en) | Method, device, and program for voice recognition | |
| Shokri et al. | A robust keyword spotting system for Persian conversational telephone speech using feature and score normalization and ARMA filter | |
| Bayya | Rejection in speech recognition systems with limited training. | |
| Seman et al. | Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation | |
| Sankar et al. | Noise-resistant feature extraction and model training for robust speech recognition | |
| JPH0534679B2 (en) | ||
| Kalantari et al. | Incorporating visual information for spoken term detection | |
| CN118072717A (en) | Speech recognition method, device, equipment and storage medium | |
| JPS60149096A (en) | Recognition of word voice | |
| JPS60149095A (en) | Recognition of word voice | |
| Kleynhans et al. | A channel normalization technique for speech recognition in mismatched conditions | |
| Al-Haddad | An automatic Malay speech recognition system for dysathric | |
| JPS59211096A (en) | Voice recognition equipment | |
| Kosaka et al. | Discrete-Mixture HMMs-based Approach for Noisy Speech Recognition |