JPH045399B2 - - Google Patents

Info

Publication number
JPH045399B2
JPH045399B2 JP358584A JP358584A JPH045399B2 JP H045399 B2 JPH045399 B2 JP H045399B2 JP 358584 A JP358584 A JP 358584A JP 358584 A JP358584 A JP 358584A JP H045399 B2 JPH045399 B2 JP H045399B2
Authority
JP
Japan
Prior art keywords
dictionary
word
phoneme
section
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP358584A
Other languages
Japanese (ja)
Other versions
JPS60147798A (en
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP358584A priority Critical patent/JPS60147798A/en
Publication of JPS60147798A publication Critical patent/JPS60147798A/en
Publication of JPH045399B2 publication Critical patent/JPH045399B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する音声認識方法に関す
るものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.

(従来例の構成とその問題点) 第1図は従来の単語認識方法1つ(第1の従来
例)を実施する装置の機能の概略を示すブロツク
図であり、第2図はJ区間における中域の帯域パ
ワーと高域及び低域の帯域パワーの比の、J区間
における変化を示す図である。
(Structure of conventional example and its problems) Fig. 1 is a block diagram showing an outline of the functions of a device that implements one conventional word recognition method (first conventional example), and Fig. FIG. 6 is a diagram showing a change in the ratio of the middle band power to the high band and low band power in the J interval.

第1図において、1はパラメータ抽出部、2は
音素セグメンテーシヨン部、3は音素認識部、4
は単語辞書部、5はコンフユージヨンマトリクス
部、6は単語認識部である。単語辞書部4は認識
すべき全単語を音素で表記した単語辞書を記憶し
ているものであり、その単語辞書には、例えば単
語「サツポロ」、「アサヒカワ」、「ギヨーダ」、「ゾ
ーダ」は、「SAQPORO」、「ASAHIKAWA」、
「GJOODA」、「ZOODA」等と表記されている。
コンフユージヨンマトリクス部5は、辞書の表記
に用いられる各種音素が、実際の音素認識で何と
認識されるかの確率、例えばAがAと認識される
確率は85%、Aが0と認識される確率は7%、セ
グメンテーシヨン誤りによりAが認識音素系列上
から脱落してしまう確率は5%…等の値を示すコ
ンフユージヨンマトリクスを記憶しているもので
ある。
In FIG. 1, 1 is a parameter extraction section, 2 is a phoneme segmentation section, 3 is a phoneme recognition section, and 4 is a phoneme recognition section.
5 is a word dictionary section, 5 is a confusion matrix section, and 6 is a word recognition section. The word dictionary section 4 stores a word dictionary in which all words to be recognized are expressed in phonemes, and the word dictionary includes, for example, the words "Satsuporo", "Asahikawa", "Gyoda", "Zoda", etc. , "SAQPORO", "ASAHIKAWA",
It is written as "GJOODA", "ZOODA", etc.
The confusion matrix unit 5 shows the probability that various phonemes used in dictionary notation will be recognized in actual phoneme recognition, for example, the probability that A will be recognized as A is 85%, and the probability that A will be recognized as 0 is 85%. The probability that A will be dropped from the recognized phoneme sequence due to a segmentation error is 5%, and so on.

次に上記従来例の動作について説明する。パラ
メータ抽出部1により入力音声を10msのフレー
ム毎に分析し、パラメータを抽出し、音素セグメ
ンテーシヨン部2でフレーム毎の音声の性質、パ
ラメータの変化等に基づき、音素セグメンテーシ
ヨン(入力音声を音素毎の区間に区切ること)を
行ない、音素認識部3でこのセグメンテーシヨン
された区間毎に音素認識を行なう。単語認識部6
では、音素認識部3により得られた認識音素系列
と、単語辞書部6に記憶されている各辞書項目と
の類似度をコンフユージヨンマトリクス部5内の
コンフユージヨンマトリクスを用いて計算し、最
大類似度となる単語(辞書項目)を認識単語とし
ていた。本従来例におけるヤ行母音(以下Jで表
わす)のセグメンテーシヨン法は、入力音声の中
域(600〜1500Hz)の帯域パワーPM、高域(1500
〜4000Hz)の帯域パワーPH及び低域(250〜600
Hz)の帯域パワーPLの下式に示す比RMM RMM△=PM 2/PH×PL …… が、第2図に示すように谷形となる区間をJの区
間としてセグメンテーシヨンするものであつた。
これは、RMMが、J区間における第1及び第2フ
オルマント周波数の変化に対応して谷形に推移す
る性質を利用したものであるが、下記の欠点を有
していた。すなわちRMMはJ区間以外でもフオル
マント周波数の変化に応じ変動する量であるため
J区間以外の区間でもRMMの谷は生じ、その区間
をJ区間と誤らないためにRMMの谷の深さに、あ
るスレツシヨルドを設け、谷の深さがそのスレツ
シヨルドを越えた時にはその谷をJ区間としてセ
グメンテーシヨンし、それ以外の浅い谷は無視し
ていた。そのため、J区間が正しくセグメンテー
シヨンされる割り合いは70%程度にとどまり、単
語誤認識も多いという欠点があつた。例えば、第
1図において、入力単語がGJOODA(ギヨーダ)
である時、このJはしばしば前記のような理由で
セグメンテーシヨンされず、また第1図に示す例
において、Gの音素認識結果はBと誤り、得られ
た認識音素系列はBOODAとなつて、単語辞書の
各辞書項目との類似度計算の結果、単語認識結果
はZOODAに誤つた。本従来例においては、上記
に示すような単語誤認識が多いという欠点があつ
た。
Next, the operation of the above conventional example will be explained. The parameter extraction unit 1 analyzes the input audio every 10ms frame and extracts the parameters.The phoneme segmentation unit 2 performs phoneme segmentation (input audio The phoneme recognition unit 3 performs phoneme recognition for each segmented interval. Word recognition unit 6
Now, the degree of similarity between the recognized phoneme sequence obtained by the phoneme recognition unit 3 and each dictionary item stored in the word dictionary unit 6 is calculated using the confusion matrix in the confusion matrix unit 5, The word (dictionary entry) with the highest degree of similarity was selected as the recognized word. The segmentation method for the Y vowel (hereinafter referred to as J) in this conventional example is based on the band power P M in the middle range (600 to 1500 Hz) of the input voice, the band power P M in the high range (1500 Hz)
~4000Hz) band power P H and low frequency (250~600Hz)
The ratio R MM R MM △=P M 2 /P H ×P L of the band power P L (Hz) shown in the formula below is divided into segments with the valley-shaped section as the section J as shown in Figure 2. It was something to look forward to.
This utilizes the property that the RMM changes in a valley shape in response to changes in the first and second formant frequencies in the J interval, but it has the following drawbacks. In other words, since R MM is a quantity that fluctuates depending on the change in formant frequency even outside the J interval, the valley of R MM occurs even in intervals other than the J interval, and in order not to mistake that interval as the J interval, the depth of the valley of R MM is A certain threshold was set, and when the depth of a valley exceeded that threshold, that valley was segmented as section J, and other shallow valleys were ignored. As a result, only about 70% of the J sections were correctly segmented, and there were many erroneous word recognitions. For example, in Figure 1, the input word is GJOODA.
, this J is often not segmented for the reasons mentioned above, and in the example shown in Figure 1, the phoneme recognition result for G is incorrect as B, and the resulting recognized phoneme sequence becomes BOODA. As a result of calculating the similarity with each dictionary item in the word dictionary, the word recognition result was incorrectly ZOODA. This conventional example has a drawback in that there are many erroneous word recognitions as shown above.

次に第2の従来例を第3図とともに述べる。第
3図において、パラメータ抽出部1および単語辞
書部4は第1図に示す第1の従来例と同様であ
る。第2の従来例において、パラメータ抽出部1
で入力部を10msのフレーム毎に分析、パラメー
タ抽出を行ない、単語辞書部7では、パラメータ
抽出部1で得られたパラメータ時系列を直接、単
語辞書と照合し、各辞書項目毎にその入力音声が
その辞書項目を発声したものであると仮定してそ
の辞書項目の辞書音素系列に従い、1音素ずつセ
グメンテーシヨンし、そのセグメンテーシヨンさ
れた区間が、辞書音素系列のその音素から生成さ
れたものである確からしさを表わす尺度である尤
度を計算し、尤度の平均値として、その辞書項目
と入力音声との類似度を求めることにより単語を
認識していた。ここで、第2の従来例において辞
書音素系列上のJに対応してJ区間のセグメンテ
ーシヨンを行なう場合、フレーム毎に求めた各母
音標準パターンとの距離において、この距離が一
番近い母音の種類が、「ヤ」ではI→A、「ユ」で
はI→U、「ヨ」ではI→Oと変化する性質を利
用して、J区間をセグメンテーシヨンしていた。
しかし第2の従来例において、非常に明瞭に発声
した場合以外は、J区間で、Iの性質がはつきり
しないことが多く、その場合J区間のセグメンテ
ーシヨンができない、つまり「J区間は含まな
い」という判断になりがちで、単語誤認識の原因
となつていた。
Next, a second conventional example will be described with reference to FIG. In FIG. 3, the parameter extraction section 1 and word dictionary section 4 are the same as those in the first conventional example shown in FIG. In the second conventional example, the parameter extraction unit 1
The input section is analyzed and parameters extracted every 10 ms frame, and the word dictionary section 7 directly compares the parameter time series obtained in the parameter extraction section 1 with the word dictionary, and extracts the input voice for each dictionary item. Segment one phoneme at a time according to the dictionary phoneme sequence of the dictionary item, assuming that the person who uttered the dictionary item is the one who uttered the dictionary item, and the segmented interval is generated from that phoneme in the dictionary phoneme sequence. Words are recognized by calculating the likelihood, which is a measure of the certainty of a word, and determining the degree of similarity between the dictionary entry and the input speech as the average value of the likelihood. Here, in the second conventional example, when segmenting the J section corresponding to J on the dictionary phoneme sequence, the vowel whose distance is the closest to each vowel standard pattern obtained for each frame is segmented. The J section was segmented by utilizing the property that the type changes from I to A for "ya", from I to U for "yu", and from I to O for "yo".
However, in the second conventional example, unless the utterance is very clear, the characteristics of I are often not obvious in the J interval, and in that case, segmentation of the J interval is not possible. This tends to result in a judgment of "does not include", leading to word misrecognition.

(発明の目的) 本発明は上記従来例の欠点を除去するものであ
り、J区間を正しくセグメンテーシヨンできるよ
うにして、単語認識率を向上させることを目的と
する。
(Object of the Invention) The present invention is intended to eliminate the drawbacks of the conventional example, and aims to improve the word recognition rate by making it possible to correctly segment the J section.

(発明の構成) 本発明による音声認識方法は、入力音声を認識
すべき単語を音素で表記した単語辞書の各辞書項
目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメントするとと
もに、ヤ行半母音のセグメンテーシヨンに際して
は、入力音声の中域の帯域パワーPMと高域、低
域の帯域パワーPH,PLの比RML△=PM 2/PH×PLの時間 変化をも照合し、その比RMLが極小となる区間で
あるときにヤ行半母音としてセグメンテーシヨン
を行ない、その後各セグメンテーシヨンされた音
声の区間がその音素を発生したものである確らし
さを示す尺度である尤度を算出し、この尤度の値
を用いて各辞書項目と入力音声の類似度を求め
て、入力音声の単語を認識することを特徴とす
る。この特徴により、本発明はセグメンテーシヨ
ンを確実に行なうことができ、高い単語認識率を
得ることができるものである。
(Structure of the Invention) The speech recognition method according to the present invention compares the input speech with each dictionary item of a word dictionary in which the word to be recognized is expressed in phonemes, and inputs each phoneme according to the dictionary phoneme series that constitutes each dictionary item. In addition to segmenting the voice, when segmenting the Y-line semi-vowel, the ratio of the middle band power P M of the input voice to the band powers P H and P L of the high and low frequencies R ML △ = P M 2 / The temporal change of P H ×P L is also compared, and when the ratio R ML is the minimum, segmentation is performed as a y-line semi-vowel. After that, each segmented speech segment corresponds to that phoneme. It calculates the likelihood, which is a measure of the probability that something has occurred, and uses this likelihood value to determine the degree of similarity between each dictionary entry and the input speech, and recognizes the words in the input speech. do. Due to this feature, the present invention can perform segmentation reliably and obtain a high word recognition rate.

(実施例の説明) 以下に本発明の一実施例について、図面ととも
に説明する。本実施例の方法を実施するのに用い
る装置の基本構成は第2の従来例と同様に、第3
図のブロツク図により示される。第3図において
パラメータ抽出部1および単語辞書部4は、前記
第1の従来例、及び第2の従来例と同様である。
(Description of Embodiment) An embodiment of the present invention will be described below with reference to the drawings. The basic configuration of the device used to carry out the method of this example is the same as that of the second conventional example.
This is illustrated by the block diagram in FIG. In FIG. 3, the parameter extraction section 1 and the word dictionary section 4 are the same as those in the first conventional example and the second conventional example.

本実施例の動作について説明する。先ずパラメ
ータ抽出部1により入力音声を10msのフレーム
毎に分析、パラメータ抽出を行ない、単語認識部
7では、パラメータ抽出部1で得られたパラメー
タ時系列を直接、単語辞書部4の単語辞書と照合
し、各辞書項目毎に、その入力音声がその辞書項
目を発声したものであると仮定して、その辞書項
目の辞書音素系列に従い、1音素ずつセグメンテ
ーシヨンし、そのセグメンテーシヨンされた区間
が、辞書音素系列のその音素から生成されたもの
である確からしさを表わす尺度である尤度を計算
し、尤度の平均値として、その辞書項目と入力音
声との類似度を求めることにより単語を認識す
る。この時、本実施例においては、辞書音素系列
上のJに対応してJ区間のセグメンテーシヨンを
行なう場合、前記式に示す、入力音声の中域の
帯域パワーと高域及び低域の帯域パワーの比RMM
が、第2図に示すように谷形となる区間をJの区
間としてセグメンテーシヨンを行なう。
The operation of this embodiment will be explained. First, the parameter extraction unit 1 analyzes the input voice every 10 ms frame and extracts parameters, and the word recognition unit 7 directly compares the parameter time series obtained by the parameter extraction unit 1 with the word dictionary of the word dictionary unit 4. For each dictionary item, assuming that the input speech is the one that uttered that dictionary item, segmentation is performed one phoneme at a time according to the dictionary phoneme sequence of that dictionary item, and the segmented interval is The word is calculated by calculating the likelihood, which is a measure of the probability that it was generated from that phoneme in the dictionary phoneme series, and calculating the degree of similarity between the dictionary entry and the input speech as the average value of the likelihood. Recognize. At this time, in this embodiment, when performing segmentation of the J section corresponding to J on the dictionary phoneme sequence, the mid-range band power of the input voice and the high-range and low-range bands shown in the above equation are used. Power ratio R MM
However, as shown in FIG. 2, segmentation is performed using the valley-shaped section as the J section.

本実施例においては、J区間以外の所でRMM
谷が生じても、ちようどその部分で入力単語と異
る辞書項目のJのセグメンテーシヨンがなされな
ければ全く問題はなく、またもしそのような誤つ
たセグメンテーシヨンがなされても、尤度計算時
に低い尤度となるように他のパラメータも用いた
尤度計算を行なうことにより、正しいJ区間のセ
グメンテーシヨンとは区別できる。従つて、J区
間のセグメンテーシヨンにRMMの谷を用いても、
第1の従来例とは異り、谷の深さにスレツシヨル
ドを設ける必要がなく、RMMの谷が浅くてもJ区
間を正しくセグメンテーシヨンできるようにな
り、単語認識率も向上する。また、J区間におい
てRMMが谷を成さないことはほとんどないため、
第2の従来例と比べてもJ区間を正しくセグメン
テーシヨンできる割り合いははるかに高く、単語
認識率も向上するという効果がある。例えば、第
3図に例を示すように入力単語がGJOODAであ
る時、Jのセグメンテーシヨンは確実になされ、
単語認識結果も正しくGJOODAとなつた。
In this embodiment, even if a valley in R MM occurs in a place other than the J section, there is no problem at all as long as J segmentation of dictionary entries different from the input word is not performed in that part. Even if such an incorrect segmentation is performed, it can be distinguished from the correct segmentation of the J interval by performing a likelihood calculation using other parameters so that the likelihood is low when calculating the likelihood. . Therefore, even if the valley of R MM is used for segmentation of section J,
Unlike the first conventional example, there is no need to set a threshold for the depth of the valley, and even if the RMM valley is shallow, the J section can be correctly segmented, and the word recognition rate is improved. Also, since R MM rarely does not form a valley in section J,
Compared to the second conventional example, the rate at which the J section can be correctly segmented is much higher, and the word recognition rate is also improved. For example, as shown in Figure 3, when the input word is GJOODA, the segmentation of J is ensured,
The word recognition result was also correct: GJOODA.

(発明の効果) 本発明は上記のような構成であり、以下に示す
効果が得られるものである。入力音声を各辞書項
目の辞書音素系列に従つてセグメンテーシヨンす
る時、Jのセグメンテーシヨンを、入力音声の中
域の帯域パワーPMと、高域及び低域の帯域パワ
ーPH、PLの比RMM△=PM 2/PH×PLがJ区間で谷となる ことを利用して行なうことにより、J区間が確実
にセグメンテーシヨンされることなり、単語認識
率が向上するという利点を有する。
(Effects of the Invention) The present invention has the above-described configuration, and provides the following effects. When the input speech is segmented according to the dictionary phoneme sequence of each dictionary item, the segmentation of J is expressed as the mid-range band power P M of the input speech, and the high-range and low-range band powers P H , P By taking advantage of the fact that the ratio of L R MM △=P M 2 /P H ×P L forms a valley in the J section, the J section can be reliably segmented, improving the word recognition rate. It has the advantage of

【図面の簡単な説明】[Brief explanation of drawings]

第1図は第1の従来例における音声認識方法を
実施するのに用いる装置の機能の概略を示すブロ
ツク図、第2図は、J区間における中域の帯域パ
ワーと高域及び低域の帯域パワーの比の、J区間
における変化を示す図、第3図は、第2の従来
例、及び本発明の実施例における音声認識方法を
実施するのに用いる装置の機能の概略を示すブロ
ツク図である。 1……パラメータ抽出部、4……単語辞書部、
7……単語認識部。
Fig. 1 is a block diagram showing the outline of the functions of the device used to implement the first conventional speech recognition method, and Fig. 2 shows the mid-range band power and the high- and low-range bands in the J section. FIG. 3, which is a diagram showing changes in the power ratio in section J, is a block diagram showing an outline of the functions of the device used to implement the speech recognition method in the second conventional example and the embodiment of the present invention. be. 1...Parameter extraction section, 4...Word dictionary section,
7...Word recognition section.

Claims (1)

【特許請求の範囲】 1 入力音声を認識すべき単語を音素で表記した
単語辞書の各辞書項目と照合し、各辞書項目を構
成する辞書音素系列に従い各音素毎に入力音声を
セグメントするとともに、ヤ行半母音のセグメン
テーシヨンに際しては、入力音声の中域の帯域パ
ワーPMと高域および低域の帯域パワーPH,PL
比(RMM△=PM 2/PH×PL)の時間変化をも照合し、そ の比RMMが極小となる区間であるときにヤ行半母
音としてセグメンテーシヨンを行ない、その後各
セグメンテーシヨンされた音声の区間がその音素
を発声したものである確かさを示す尺度である尤
度を算出し、この尤度の値を用いて各辞書項目と
入力音声の類似度を求めて、入力音声の単語を認
識することを特徴とする音声認識方法。
[Scope of Claims] 1. The input speech is compared with each dictionary entry of a word dictionary in which the word to be recognized is expressed in phonemes, and the input speech is segmented for each phoneme according to the dictionary phoneme series that constitutes each dictionary entry. When segmenting the Y-line semi-vowel, the ratio of the mid-range band power P M of the input voice to the high- and low-range band powers P H , P L (R MM △ = P M 2 /P H ×P L ), and when the ratio R MM is the minimum, it is segmented as a ya semivowel, and then each segmented speech segment is the one in which that phoneme was uttered. A speech recognition method characterized by calculating a likelihood, which is a measure of certain certainty, and using this likelihood value to determine the degree of similarity between each dictionary item and input speech, and recognizing words in the input speech. .
JP358584A 1984-01-13 1984-01-13 Voice recognition Granted JPS60147798A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP358584A JPS60147798A (en) 1984-01-13 1984-01-13 Voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP358584A JPS60147798A (en) 1984-01-13 1984-01-13 Voice recognition

Publications (2)

Publication Number Publication Date
JPS60147798A JPS60147798A (en) 1985-08-03
JPH045399B2 true JPH045399B2 (en) 1992-01-31

Family

ID=11561526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP358584A Granted JPS60147798A (en) 1984-01-13 1984-01-13 Voice recognition

Country Status (1)

Country Link
JP (1) JPS60147798A (en)

Also Published As

Publication number Publication date
JPS60147798A (en) 1985-08-03

Similar Documents

Publication Publication Date Title
JPH0222960B2 (en)
JPH045399B2 (en)
JPS63158596A (en) Phoneme analogy calculator
EP0109140B1 (en) Recognition of continuous speech
JPH045400B2 (en)
JP3091537B2 (en) How to create voice patterns
JPH0449952B2 (en)
JP2744622B2 (en) Plosive consonant identification method
JPS6136798A (en) Voice segmentation
JPH0651792A (en) Speech recognizing device
JPS617894A (en) Voice recognition
JPH0289099A (en) voice recognition device
JPH0554116B2 (en)
JPS60149099A (en) Voice recognition
JPH0431118B2 (en)
JPH0564800B2 (en)
JPH0316040B2 (en)
JPH0635494A (en) Speech recognizing device
KR20040072102A (en) Method and apparatus for speech recognition
JPS6237797B2 (en)
JPS59121097A (en) Voice recognition equipment
JPH0431116B2 (en)
JPH0412479B2 (en)
JPH0431114B2 (en)
JPH01260499A (en) consonant recognition method