JPH064096A - Voice recognizer - Google Patents

Voice recognizer

Info

Publication number
JPH064096A
JPH064096A JP4165163A JP16516392A JPH064096A JP H064096 A JPH064096 A JP H064096A JP 4165163 A JP4165163 A JP 4165163A JP 16516392 A JP16516392 A JP 16516392A JP H064096 A JPH064096 A JP H064096A
Authority
JP
Japan
Prior art keywords
word
phoneme
unit
distance
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4165163A
Other languages
Japanese (ja)
Other versions
JP3353334B2 (en
Inventor
Yasushi Yamazaki
泰 山崎
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP16516392A priority Critical patent/JP3353334B2/en
Publication of JPH064096A publication Critical patent/JPH064096A/en
Application granted granted Critical
Publication of JP3353334B2 publication Critical patent/JP3353334B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】音声認識装置に関し、単語の認識性能を高くす
ることを目的とする。 【構成】入力音声パターンと標準パターンをDP法を用
いて照合し、最も照合距離の小さい標準パターンを認識
結果とする音声認識装置において、照合結果を用いて入
力パターンを音素に分割し、各音素の継続時間と標準継
続時間とのずれの分散を計算し、これを照合距離に付加
することで距離を補正することを特徴とする。分割部6
で照合結果を用いて音素に分割し,時間長ずれ計算部7
で標準継続時間とのずれの分散を計算し,距離補正部8
で照合距離を補正するように構成する。また時間長のず
れを計算する対象音素を選択する音素選択部9、距離補
正する対象単語を選択する単語選択部10を有する.
(57) [Abstract] [Purpose] The purpose of the speech recognition apparatus is to improve word recognition performance. [Structure] In a speech recognition apparatus that matches an input speech pattern with a standard pattern using the DP method, and uses the standard pattern with the smallest matching distance as a recognition result, the input pattern is divided into phonemes using the matching result, and each phoneme is divided. It is characterized in that the variance of the difference between the continuous time and the standard continuous time is calculated, and this is added to the matching distance to correct the distance. Dividing unit 6
The phoneme is divided into phonemes using the matching result in the time length deviation calculation unit 7
Calculate the variance of the deviation from the standard duration with
Is configured to correct the matching distance. Further, it has a phoneme selection unit 9 for selecting a target phoneme for calculating the time length deviation and a word selection unit 10 for selecting a target word for distance correction.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は入力音声パターンを単語
標準パターンと照合して単語を認識する音声認識装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device for recognizing a word by matching an input voice pattern with a standard word pattern.

【0002】[0002]

【従来の技術】図4は従来の音声認識装置のブロック構
成図である。図5はそこで使われる照合データを示す。
2. Description of the Related Art FIG. 4 is a block diagram of a conventional voice recognition apparatus. FIG. 5 shows the collation data used therein.

【0003】スペクトル分析部1では、入力音声を一定
の時間(フレーム)毎に区分し、フレーム毎にFFT等
を用いてスペクトル分析を行い、分析結果を保持する。
分析単位としてはフレーム長は10ミリ秒程度、周波数区
分は200 〜5000Hz程度の帯域を20チャネル程度に分割
し、その分割範囲のパワー値を値とする。周波数帯域の
分割方法には等分割やメル尺度分割(人間の耳の感度に
応じた分割) 等を用いる。
The spectrum analysis unit 1 divides the input voice into fixed time periods (frames), performs spectrum analysis using FFT or the like for each frame, and holds the analysis result.
As a unit of analysis, a frame length is about 10 milliseconds and a frequency division is about 200 to 5000 Hz. A band is divided into about 20 channels, and the power value of the division range is used as a value. The frequency band is divided by equal division or mel scale division (division according to the sensitivity of the human ear).

【0004】分析結果は、図5(A)に示すように、i
を入力フレーム番号、jを周波数区分番号(チャネル番
号)として A={aij} で示される。
The analysis result is, as shown in FIG.
Is an input frame number and j is a frequency division number (channel number), and is represented by A = {a ij }.

【0005】音素テンプレート記憶部2では、図5
(B)に示すように各音素あるいは音素に準ずる音声単
位(以下、音素と記す)毎に、入力と同じ分割方法で処
理された標準音声のパターンをテンプレートとして保持
している。
In the phoneme template storage unit 2, FIG.
As shown in (B), a standard speech pattern processed by the same division method as the input is held as a template for each phoneme or for each phoneme unit (hereinafter referred to as a phoneme) corresponding to the phoneme.

【0006】音素は母音(A,I,U,E,O)、子音
(K,S,T,N,H,M・・・)等20種程度のカテ
ゴリに分け、語頭、語尾、前後の他の音素の影響による
変形等に対応してカテゴリ毎に10種程度の複数のテン
プレートを用意している。
Phonemes are divided into about 20 categories such as vowels (A, I, U, E, O) and consonants (K, S, T, N, H, M ...) A plurality of templates of about 10 types are prepared for each category in response to deformation and the like due to the influence of other phonemes.

【0007】テンプレートは、図5(B)に示すよう
に、kを音素のカテゴリ(種類) 番号、lを各カテゴリ
内のテンプレート番号、jを周波数区分番号として、 B={bklj } で示される。
As shown in FIG. 5B, the template is represented by B = {b klj } where k is a phoneme category (type) number, l is a template number in each category, and j is a frequency division number. Be done.

【0008】継続時間記憶部3では各音素毎に、kをカ
テゴリ番号として、継続時間の最小長、最大長 {sk , tk } 平均時間長(標準継続時間) {vk } および、図5(C),(D)に示すように、kをカテゴ
リ番号、mを継続時間(フレーム数)として、継続時間
の重み分布 G={gkm} を記憶している。これらを標準継続時間分布と称する。
[0008] duration storage unit each phoneme in 3, the k as a category number, the minimum length of the duration, the maximum length {s k, t k} Mean duration (standard duration) {v k} and, FIG. 5 (C) and 5 (D), k is a category number and m is a duration (the number of frames), and a duration weight distribution G = {g km } is stored. These are called standard duration distributions.

【0009】単語モデル記憶部4では、図5(E)に示
すように、wを単語番号、nを単語モデル内の音素番号
として、各単語モデルについて音素列 C={cwn} を記憶している。
As shown in FIG. 5E, the word model storage unit 4 stores a phoneme sequence C = {c wn } for each word model, where w is a word number and n is a phoneme number in the word model. ing.

【0010】照合部5では、入力音声と各単語モデルと
の照合を行い、最も類似度の高いものを入力音声の識別
結果であるとする。問題は、同じ単語であっても発声の
度に時間長が異なることである。従って時間軸上での非
線形なパターンマッチングが必要になる。
The collation unit 5 collates the input voice with each word model, and the one with the highest degree of similarity is regarded as the identification result of the input voice. The problem is that the same word has different durations for each utterance. Therefore, non-linear pattern matching on the time axis is necessary.

【0011】入力パターンAと標準パターンCw の時間
軸上の対応づけは逐一行うためDP(Dynamic Programi
ng)法を用いる。図6はDP法による照合の概念図であ
る。入力パターンAと標準パターンCwの時系列の対応
を考えると、入力パターンAの時間軸を伸縮させなが
ら、各フレームが交差する所(格子点)を通り、全体を
最も短く結び付ける経路を見つければよい。そのために
は、入力フレームと音素テンプレート間の距離(局所距
離)を基本として全体の距離の累積値が最小になるよう
にする。これを各単語モデルについて行い、最も距離の
小さいものを結果とする。
Since the input pattern A and the standard pattern C w are associated on the time axis one by one, DP (Dynamic Programi)
ng) method is used. FIG. 6 is a conceptual diagram of matching by the DP method. Considering the time-series correspondence between the input pattern A and the standard pattern C w , if the time axis of the input pattern A is expanded or contracted, and if a path that connects the frames at the intersection (lattice point) and finds the shortest connection is found, Good. For that purpose, the cumulative value of the total distance is minimized based on the distance (local distance) between the input frame and the phoneme template. This is done for each word model and the one with the smallest distance is taken as the result.

【0012】各単語モデルに関して、局所距離、すなわ
ち入力フレームiと、単語モデルのノードn(n番目の
音素)の最も近い音素テンプレートとの距離dinは、そ
のノードの音素のカテゴリ番号がkで、その音素テンプ
レートの数がL個であるとして、 (k :単語モデルのn番目の音素のカテゴリ番号)とな
る。
For each word model, the local distance, that is, the distance d in between the input frame i and the closest phoneme template of the node n (nth phoneme) of the word model is the category number k of the phoneme of that node. , And the number of phoneme templates is L, (k: category number of the nth phoneme of the word model).

【0013】DPパスの形は継続時間を制御することに
より、図6に示すものとなる。各格子点の値は、そこに
達する最短の累積距離を示す。各格子点までの累積距離
inは、 ただし y:継続時間 (フレーム数) 累積距離の初期値 D00=0 Di0=∞ (i=1,I) D0n=∞ (n=1,N) となる。
The shape of the DP path becomes that shown in FIG. 6 by controlling the duration. The value of each grid point indicates the shortest cumulative distance to reach it. The cumulative distance D in to each grid point is However, y: continuous time (number of frames) initial value of cumulative distance D 00 = 0 D i0 = ∞ (i = 1, I) D 0n = ∞ (n = 1, N).

【0014】式2の第一項は、格子点(i,n)におけ
る累積距離すなわちDinを基準に考えると、継続時間の
制約( sk 〜 tk ) から、ここに達する一つ前の格子点
は限定されることを示す。つまり、図6の格子点に達
する経路の一つ前の格子点はからのいずれかに限ら
れ、その外は対象外である。
Considering the cumulative distance at the grid point (i, n), that is, D in , the first term of the equation (2) is based on the constraint of the duration (s k to t k ), and the one before it reaches this point. It indicates that the grid points are limited. That is, the grid point immediately before the path reaching the grid point in FIG. 6 is limited to any of, and the other grid points are excluded.

【0015】第二項は、継続時間の平均(標準値)から
のずれを重みとして距離に換算したものであり、第三項
は、一つ前の格子点までの累積距離である。単語モデル
wとの照合距離は、入力の最終フレームと単語モデルの
最終音素まで比較した累積距離であって、 Dw = DIN (W:単語番号,I:入力の最終フレーム,
N:単語モデルの最終音素) 照合結果は、 D ={Dw } となる。
The second term is the distance converted from the average (standard value) of the duration times into the distance, and the third term is the cumulative distance to the previous grid point. The matching distance with the word model w is a cumulative distance obtained by comparing the final frame of the input and the final phoneme of the word model, and D w = D IN (W: word number, I: final frame of the input,
N: final phoneme of word model) The matching result is D = {D w }.

【0016】照合結果のうち、照合距離の最も小さい単
語モデルが認識結果として出力される。
Of the matching results, the word model with the smallest matching distance is output as the recognition result.

【0017】[0017]

【発明が解決しようとする課題】上記従来技術で単語照
合する際に次のような問題が起こりうる。例えば『オオ
タ』という音声を入力した際に、「OOTA」でなく、
「OOITA」と誤認識することがある。この場合「O
OITA(以下単語番号1)」との照合距離 D1 (例
えば、50とする)の方が、「OOTA(以下単語番号
2)」との照合距離 D2 (例えば、60とする)より
も小さくなって「OOITA」が認識結果として得られ
る場合である。この場合の入力と各単語との照合結果の
例を図7(A),(B)に示す。「OOITA」、「O
OTA」の各音素について継続時間を見てみると、それ
ぞれ、「10,10,10, 7,23」、「15,15, 7,23 」である。
The following problems may occur when word matching is performed by the above-mentioned conventional technique. For example, when inputting the voice "Oota", instead of "OOTA",
It may be mistakenly recognized as "OOITA". In this case "O
The matching distance D 1 (for example, 50) with “OITA (hereinafter word number 1)” is smaller than the matching distance D 2 (for example, 60) with “OOTA (hereinafter word number 2)”. In this case, "OOITA" is obtained as the recognition result. 7A and 7B show examples of input results and collation results with each word in this case. "OOITA", "O
The duration of each phoneme of "OTA" is "10,10,10,7,23" and "15,15,7,23", respectively.

【0018】( 単位:フレーム 1 フレーム=10ミリ
秒) ここで、各音素の標準継続時間が (O) (I) (T) (A) v5 = 12 , v2 = 12 , v8 = 4 , v1 = 20
(単位:フレーム) の場合、標準継続時間からのずれ Zwn = vk - dur n 式3 ( w:単語番号,n:単語モデル中のノード番号 k: 単語モデルのn番目の音素のカテゴリ番号 vk :カテゴリkの標準継続時間 durn :単語モデルのn番目の音素としたときの継続時
間 ) はそれぞれ (O) Z11 = 12 - 10 = 2 (O) Z21 = 12 - 15 = -3 (O) Z12 = 12 - 10 = 2 (O) Z22 = 12 - 15 = -3 (I) Z13 = 12 - 10 = 2 (T) Z23 = 4 - 7 = -3 (T) Z14 = 4 - 7 = -3 (A) Z24 = 20 - 23 = -3 (A) Z15 = 20 - 23 = -3 単位:フレーム となる。これを図に示したものが図7(C)である。
(Unit: frame 1 frame = 10 ms) Here, the standard duration of each phoneme is (O) (I) (T) (A) v 5 = 12, v 2 = 12, v 8 = 4 , v 1 = 20
In case of (unit: frame), deviation from standard duration Z wn = v k -dur n Expression 3 (w: word number, n: node number in word model k: category number of n-th phoneme of word model v k : standard duration of category k dur n : duration when the word model is the nth phoneme) is (O) Z 11 = 12-10 = 2 (O) Z 21 = 12-15 =- 3 (O) Z 12 = 12-10 = 2 (O) Z 22 = 12-15 = -3 (I) Z 13 = 12-10 = 2 (T) Z 23 = 4-7 = -3 (T) Z 14 = 4-7 = -3 (A) Z 24 = 20-23 = -3 (A) Z 15 = 20-23 = -3 Unit: Frame. This is shown in FIG. 7 (C).

【0019】入力の音声が速く発音されたり遅く発音さ
れたりした場合には各音素について標準継続時間からの
ずれは一方向へのずれであるが、別の単語と照合した場
合には、ずれの方向(および大きさ)がばらつくことを
示す。
When the input voice is pronounced fast or slow, the deviation from the standard duration is one direction for each phoneme, but when it is collated with another word, the deviation is not. It shows that the direction (and size) varies.

【0020】以上のように、照合距離が小さくても、継
続時間に関して平均からのばらつきが大きい場合には照
合結果が正しくない場合がある。本発明は、継続時間に
関して平均からのばらつきを考慮することにより、認識
率を高くした音声認識装置を実現することを目的として
いる。
As described above, even if the collation distance is small, the collation result may be incorrect if the variation from the average with respect to the duration is large. It is an object of the present invention to realize a voice recognition device having a high recognition rate by considering the variation from the average regarding the duration.

【0021】[0021]

【課題を解決するための手段】図1は本発明の原理ブロ
ック図である。従来の音声認識装置に対して、入力音声
パターンを音素に分割する分割部6と、標準継続時間と
のずれの分散を計算する時間長ずれ計算部7と、照合距
離を補正する距離補正部8とを備える。
FIG. 1 is a block diagram showing the principle of the present invention. With respect to the conventional speech recognition apparatus, a division unit 6 that divides an input voice pattern into phonemes, a time length deviation calculation unit 7 that calculates a variance of deviation from a standard duration, and a distance correction unit 8 that corrects a matching distance. With.

【0022】[0022]

【作用】従来の音声認識装置で誤った認識結果を得る原
因として、各音素について標準継続時間とのずれのばら
つきを考慮せずに照合距離を用いていたことがあげられ
る。
The reason why the conventional speech recognition apparatus obtains an incorrect recognition result is that the matching distance is used for each phoneme without considering the variation in deviation from the standard duration.

【0023】上記問題を解決するため、各音素について
標準継続時間とのずれの分散SDw を算出し、 ( ave Zw : 標準継続時間からのずれZwnの平均) 補正距離として従来の照合距離Dw に加える。
In order to solve the above problem, the variance SD w of the deviation from the standard duration is calculated for each phoneme, (ave Z w : average of deviation Z wn from standard continuation time) Add to conventional collation distance D w as a correction distance.

【0024】 NDw = Dw +k SD w ( k:比例定数) 式5 これにより継続時間のずれのばらつきを考慮した、類似
度をより正確に表す新たな照合距離NDw を求めたこと
になる。
ND w = D w + k SD w (k: proportional constant) Formula 5 By this, a new matching distance ND w that more accurately represents the degree of similarity in consideration of the variation in the deviation of the duration is obtained. .

【0025】図3に分割部6の動作説明図を示す。図3
(A)は入力を「OOITA」と対応させたときのDP
パスを示す。各格子点はそこまでの累積距離の最低値D
inを示し、全体で最も短い累積距離となる経路を枠と矢
印で示すものである。
FIG. 3 shows an operation explanatory diagram of the dividing unit 6. Figure 3
(A) DP when the input is associated with "OOITA"
Indicates a path. The minimum value D of the cumulative distance to each grid point
It indicates in, and the route with the shortest cumulative distance as a whole is indicated by a frame and an arrow.

【0026】図3(B)は、各格子点で、式2の累積距
離Dinが最低値になるときの継続時間yの値 Yinを示
す。分割部6はこのYinを照合部5から受け取り記憶す
る。これを照合後に、図3(B)に示すように終端(語
尾)から始端(語頭)に向かって経路を後戻りすること
で音素に分割する。こうして単語モデルの各ノードに対
応させたときの音素の継続時間{ durn }を得る。
FIG. 3B shows the value Y in of the duration y when the cumulative distance D in of the equation 2 becomes the minimum value at each grid point. The dividing unit 6 receives this Y in from the matching unit 5 and stores it. After this is collated, as shown in FIG. 3 (B), the path is moved backward from the end (word ending) to the start (word beginning) to divide into phonemes. In this way, the phoneme duration {dur n } when corresponding to each node of the word model is obtained.

【0027】時間長ずれ計算部7は、式3により、分割
された音素の継続時間 durn と継続時間記憶部3から得
た標準継続時間vk との差Zwnを計算し、さらに式4に
より、ずれの分散SDw を求める。
The time length shift calculation unit 7 calculates the difference Z wn between the duration dur n of the divided phonemes and the standard duration v k obtained from the duration storage unit 3 by the equation 3, and further the equation 4 Then, the deviation variance SD w is obtained.

【0028】距離補正部8は式5により、ずれの分散SD
w を加えて補正した照合距離NDwを算出し、距離の近
さ一位の単語を認識結果とする。このように構成するこ
とにより、より正確な認識結果を得ることができる。
The distance correction unit 8 calculates the deviation SD by the formula 5
The corrected matching distance ND w is calculated by adding w, and the word closest to the distance is used as the recognition result. With this configuration, a more accurate recognition result can be obtained.

【0029】なお、ずれの分散SDw を求める場合、実用
上は対象とする音素を限定したり対象単語を限定して処
理時間を短くできる。
When obtaining the deviation variance SD w , the processing time can be shortened in practice by limiting the target phonemes or target words.

【0030】[0030]

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。図2は本発明の実施例のブロック図であ
る。図1、図4と同一機能のものは、同一の符号を付し
て示す。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 2 is a block diagram of an embodiment of the present invention. Components having the same functions as those in FIGS. 1 and 4 are denoted by the same reference numerals.

【0031】図2において、1はスペクトル分析部であ
り、AD変換器、FFT演算回路等と分析結果を記憶す
る記憶部よりなる。2は音素テンプレート記憶部、3は
継続時間記憶部、4は単語モデル記憶部であり、前記の
分析結果の記憶部と共にEWS(エンジニアリングワー
クステーション)の記憶部に置く。5は照合部、6は分
割部、7は時間長ずれ計算部、8は距離補正部でEWS
のプロセサおよびソフトウェアで構成される。
In FIG. 2, reference numeral 1 denotes a spectrum analysis unit, which includes an AD converter, an FFT operation circuit, and the like, and a storage unit for storing the analysis result. Reference numeral 2 is a phoneme template storage unit, 3 is a duration storage unit, and 4 is a word model storage unit, which is placed in the storage unit of the EWS (engineering workstation) together with the storage unit of the analysis result. Reference numeral 5 is a collation unit, 6 is a division unit, 7 is a time length deviation calculation unit, and 8 is a distance correction unit.
It consists of a processor and software.

【0032】動作手順を以下に示す。 スペクトル分析部1ではスペクトル分析し、結果A=
{aij}を保持する。分析単位としてはフレーム長は10
ミリ秒程度、周波数区分は200 〜5000Hz程度の帯域を20
チャネル程度に分割し、その分割範囲のパワー値を値と
する。 音素テンプレート記憶部2、継続時間記憶部3、単語
モデル記憶部4に記憶した、音素テンプレートB={b
klj }、単語モデルC={cwn}、継続時間の最小長、
最大長{sk , tk }、重みG={gkm} を用いて、
照合部5でDP照合を行い、D ={Dw }を得る。カ
テゴリ数は20程度、テンプレート数は10程度、単語モデ
ル数は1000程度である。ここまでは従来技術と同じであ
る。 次に、分割部6で照合結果を用いて図3に示すように
入力音声を各音素に分割して音素の継続時間を決定し、 時間長ずれ計算部7で各音素について標準からのずれ
の分散を計算し、 距離補正部8で照合距離を時間長ずれ計算部7で計算
した結果を用いて補正する。
The operation procedure is shown below. The spectrum analysis unit 1 analyzes the spectrum, and the result A =
Hold {a ij }. The frame length is 10 as an analysis unit
20 milliseconds band with a frequency range of 200-5000Hz
It is divided into about channels, and the power value in the divided range is used as a value. The phoneme template B = {b stored in the phoneme template storage unit 2, the duration storage unit 3, and the word model storage unit 4
klj }, word model C = { cwn }, minimum duration,
Using the maximum length {s k , t k } and the weight G = {g km },
The collation unit 5 performs DP collation to obtain D 1 = {D w }. There are about 20 categories, about 10 templates, and about 1000 word models. Up to this point, the process is the same as the conventional technique. Next, the dividing unit 6 divides the input speech into each phoneme by using the matching result as shown in FIG. The variance is calculated, and the distance correction unit 8 corrects the matching distance using the result calculated by the time shift calculation unit 7.

【0033】例えば前記の『オオタ』の場合には、「O
OITA」に関するずれはばらついているので距離を大
きくし、「OOTA」についてはずれのばらつきが全く
ないので距離はそのままとする。具体的には各照合距離
は, ND1 = D1 + k SD1 = 50 + 2×6 = 62 ND2 = D2 + k SD2 = 60 + 2×0 = 60 (aveZ : 標準継続時間からのずれZの平均) のように計算することができ、ND2 より小さいものが
ない(この場合他の単語モデルとの照合距離D3 〜はず
っと大きいとする)ので、照合結果は『オオタ』と正し
くすることができる。
For example, in the case of the above "Ota", "O
Since the deviation relating to "OITA" varies, the distance is increased, and the distance relating to "OOTA" remains unchanged because there is no variation in deviation. Specifically, each matching distance is ND 1 = D 1 + k SD 1 = 50 + 2 × 6 = 62 ND 2 = D 2 + k SD 2 = 60 + 2 × 0 = 60 (aveZ: average of deviation Z from standard duration), and there is nothing smaller than ND 2 (in this case, the matching distance D 3 with other word models is much larger). , The matching result can be correct as "Ota".

【0034】本実施例では、音素選択部9、単語選択部
10を加えてある。もちろん、どちらか一つだけでもよ
い。音素選択部9では標準とのずれを計算すべき音素を
限定する。これは継続時間の短い子音に比べて、母音等
の方が顕著にずれが見られるからである。例えば、母音
だけに限定すれば、処理時間が短くなる。
In this embodiment, the phoneme selection unit 9 and the word selection unit
I added 10. Of course, only one of them is enough. The phoneme selection unit 9 limits the phonemes for which the deviation from the standard should be calculated. This is because vowels and the like are significantly different from consonants having a short duration. For example, if it is limited to only vowels, the processing time becomes short.

【0035】単語選択部10では距離補正を行う単語を限
定する。これはすべての単語モデルについて距離補正を
行う必要はなく、照合距離Dw の上位のもの(正しい認
識結果となる可能性の高いもの)について行えば充分で
あるからである。上位の数単語についてのみ補正するな
ら処理時間は少なくてよい。
The word selection unit 10 limits the words for which the distance correction is performed. This is because it is not necessary to perform distance correction on all word models, and it is sufficient to perform distance correction on a higher one of the matching distances D w (those that are likely to give a correct recognition result). Processing time may be short if correction is performed only for the top few words.

【0036】例えば、 距離Dw が域値以下の単語について 距離Dw が小さい順に上位n位までの単語について 1位との距離Dw の差が域値以下の単語について 順位が1つ上の単語との距離Dw の差が域値以下の
単語について 距離補正を行うなどでよい。
[0036] For example, the distance D w is about the words in the following range value distance D w is less difference in the distance D w of the 1-position for the word to top n in the order of about words following frequency values rank up one Distance correction may be performed for words whose difference in distance D w from the word is a threshold value or less.

【0037】[0037]

【発明の効果】以上詳細に説明したように、本発明によ
れば従来の照合方式の後処理として継続時間のずれを照
合距離に反映させることで、より精密な照合が可能とな
り、認識率の高い音声認識装置を実現することができ
る。
As described above in detail, according to the present invention, by performing the post-processing of the conventional collation method by reflecting the deviation of the duration time on the collation distance, more precise collation becomes possible and the recognition rate is improved. It is possible to realize a high voice recognition device.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理ブロック構成図である。FIG. 1 is a block diagram of the principle of the present invention.

【図2】本発明の実施例のブロック構成図である。FIG. 2 is a block configuration diagram of an embodiment of the present invention.

【図3】分割部の動作説明図である。FIG. 3 is an operation explanatory diagram of a dividing unit.

【図4】従来の音声認識装置のブロック構成図である。FIG. 4 is a block diagram of a conventional voice recognition device.

【図5】照合データを示す図である。FIG. 5 is a diagram showing collation data.

【図6】DP法による照合の概念図である。FIG. 6 is a conceptual diagram of matching by the DP method.

【図7】照合結果の例を示す図である。FIG. 7 is a diagram showing an example of a matching result.

【符号の説明】[Explanation of symbols]

1 スペクトル分析部 2 音素テンプレート記憶部 3 継続時間記憶部 4 単語モデル記憶部 5 照合部 6 分割部 7 時間長ずれ計算部 8 距離補正部 9 音素選択部 10 単語選択部 1 spectrum analysis unit 2 phoneme template storage unit 3 duration storage unit 4 word model storage unit 5 collation unit 6 division unit 7 time difference calculation unit 8 distance correction unit 9 phoneme selection unit 10 word selection unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 入力音声のスペクトル分析を行い、特徴
時系列データとして記憶するスペクトル分析部(1)
と、 音素あるいは音素に準ずる音声単位の特徴データを記憶
する音素テンプレート記憶部(2)と、 音素あるいは音素に準ずる音声単位の標準継続時間分布
を記憶する継続時間記憶部(3)と、 単語あるいは単語に準ずる音声単位のモデルを記憶する
単語モデル記憶部(4)と、 入力音声のスペクトル分析結果と単語モデルの照合を音
素テンプレートと継続時間分布を用いて継続時間制御を
行い照合する照合部(5)とを有する音声認識装置にお
いて、 照合結果を用いて入力音声を音素あるいは音素に準ずる
音声単位に分割する分割部(6)と、 分割した音素あるいは音素に準ずる音声単位の継続時間
と標準継続時間とのずれを計算する時間長ずれ計算部
(7)と,この計算結果を用いて照合距離を補正する距
離補正部(8)とを、有することを特徴とする音声認識
装置。
1. A spectrum analysis unit (1) for performing spectrum analysis of input speech and storing it as characteristic time series data.
And a phoneme template storage unit (2) that stores feature data of a phoneme or a phoneme unit that is similar to a phoneme, and a duration storage unit (3) that stores a standard duration distribution of a phoneme or a phoneme unit that is similar to a phoneme, a word or A word model storage unit (4) that stores a model of a speech unit corresponding to a word, and a matching unit that matches the spectrum analysis result of the input speech with the word model by controlling the duration using a phoneme template and duration distribution ( In the speech recognition device having 5), a dividing unit (6) that divides the input speech into phonemes or phoneme units corresponding to phonemes using the matching result, and duration and standard continuation of the divided phonemes or phoneme units corresponding to phonemes. There is a time length deviation calculation unit (7) for calculating a time difference and a distance correction unit (8) for correcting the matching distance using the calculation result. Speech recognition apparatus characterized by.
【請求項2】 継続時間と標準継続時間とのずれを計算
するべき音素あるいは音素に準ずる音声単位を特定す
る、音素選択部(9)を有することを特徴とする請求項
1の音声認識装置。
2. The speech recognition apparatus according to claim 1, further comprising a phoneme selection unit (9) for specifying a phoneme or a phoneme unit corresponding to the phoneme for which a difference between the duration and the standard duration is to be calculated.
【請求項3】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合距離があらかじめ定めた域値以
下のものとする単語選択部(10)を有することを特徴と
する請求項1の音声認識装置。
3. The voice according to claim 1, further comprising a word selection unit (10) for setting a word or a voice unit corresponding to the word whose distance is to be corrected to have a matching distance equal to or less than a predetermined threshold value. Recognition device.
【請求項4】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位があらかじめ定めた
順位以内のものとする単語選択部(10)を有することを
特徴とする請求項1の音声認識装置。
4. The word selection unit (10) for setting the order of the matching result within a predetermined order for a word or a speech unit corresponding to the word for which distance correction is to be performed. Speech recognizer.
【請求項5】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位が1位の単語の照合
距離との照合距離の差が予め定めた域値以下の単語とす
る単語選択部(10)を有することを特徴とする請求項1
の音声認識装置。
5. A word selection in which a word to be subjected to distance correction or a voice unit corresponding to the word is a word whose difference in matching distance from the matching distance of a word ranked first in a matching result is equal to or less than a predetermined threshold value. Claim 1 characterized in that it has a part (10).
Voice recognition device.
【請求項6】 距離補正を行う単語あるいは単語に準ず
る音声単位を、照合結果の順位が1つ上の単語の照合距
離との照合距離の差があらかじめ定めた域値以下である
ものまでとする単語選択部(10)を有することを特徴と
する請求項3の音声認識装置。
6. The word or the speech unit equivalent to the word for which the distance correction is performed is up to a difference in the matching distance from the matching distance of the word having a higher rank in the matching result is equal to or less than a predetermined threshold value. The speech recognition apparatus according to claim 3, further comprising a word selection unit (10).
JP16516392A 1992-06-24 1992-06-24 Voice recognition device Expired - Fee Related JP3353334B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16516392A JP3353334B2 (en) 1992-06-24 1992-06-24 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16516392A JP3353334B2 (en) 1992-06-24 1992-06-24 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH064096A true JPH064096A (en) 1994-01-14
JP3353334B2 JP3353334B2 (en) 2002-12-03

Family

ID=15807067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16516392A Expired - Fee Related JP3353334B2 (en) 1992-06-24 1992-06-24 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3353334B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05115564A (en) * 1992-04-04 1993-05-14 Advance Co Ltd Skin sticking type low frequency therapeutic device
WO2005004110A1 (en) * 2002-04-24 2005-01-13 Onso System Institute Sound phase analysis method and sound phase analysis device
JP2009258366A (en) * 2008-04-16 2009-11-05 Arcadia:Kk Speech control device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05115564A (en) * 1992-04-04 1993-05-14 Advance Co Ltd Skin sticking type low frequency therapeutic device
WO2005004110A1 (en) * 2002-04-24 2005-01-13 Onso System Institute Sound phase analysis method and sound phase analysis device
JP2009258366A (en) * 2008-04-16 2009-11-05 Arcadia:Kk Speech control device

Also Published As

Publication number Publication date
JP3353334B2 (en) 2002-12-03

Similar Documents

Publication Publication Date Title
US4723290A (en) Speech recognition apparatus
US4751737A (en) Template generation method in a speech recognition system
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5621849A (en) Voice recognizing method and apparatus
EP0380297A2 (en) Method and apparatus for speech recognition
JPH0554959B2 (en)
US6236962B1 (en) Speech processing apparatus and method and computer readable medium encoded with a program for recognizing input speech by performing searches based on a normalized current feature parameter
JPH064096A (en) Voice recognizer
EP1414023B1 (en) Method for recognizing speech
US6195638B1 (en) Pattern recognition system
JPH08123469A (en) Phrase Boundary Probability Calculator and Phrase Boundary Probability-Based Continuous Speech Recognition Device
JPH0792989A (en) Speech recognizing method
JPH05197397A (en) Speech recognition method and apparatus thereof
JPH0638198B2 (en) Continuous speech recognizer
JPH06102896A (en) Voice recognizer
JP2005227555A (en) Voice recognition device
JPH06149289A (en) Voice recognizer
JP3097134B2 (en) DP matching method
JP2000122693A (en) Speaker recognition method and speaker recognition device
JPH0651793A (en) Voice recognizer
JPH06301395A (en) Speech recognition system
JPS6129897A (en) Pattern comparator
JP2995941B2 (en) Speech recognition device for unspecified speakers
JPH0449718B2 (en)
JPH07175493A (en) Method of recognizing continuous voice

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees