JPS6019199A - Voice recognition - Google Patents
Voice recognitionInfo
- Publication number
- JPS6019199A JPS6019199A JP12623783A JP12623783A JPS6019199A JP S6019199 A JPS6019199 A JP S6019199A JP 12623783 A JP12623783 A JP 12623783A JP 12623783 A JP12623783 A JP 12623783A JP S6019199 A JPS6019199 A JP S6019199A
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- input
- voice
- speech
- dissimilarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003801 milling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
(技術分野)
この発明は認識性能の向上を図るようにした音声認識方
法に関する。DETAILED DESCRIPTION OF THE INVENTION (Technical Field) The present invention relates to a speech recognition method designed to improve recognition performance.
(従来技術)
従来の音声認識装置は第1図のように構成されておシ、
1は入力端子、2は周波数分析部、3はスペクトル変換
部、4は音声区間決定部、5は非類似度演算部、6は標
準音声ス被りトルノクタ〜ンメモリ、7は判定部、8は
認識結果出力端子である。(Prior art) A conventional speech recognition device is configured as shown in Figure 1.
1 is an input terminal, 2 is a frequency analysis section, 3 is a spectrum conversion section, 4 is a speech interval determination section, 5 is a dissimilarity calculation section, 6 is a standard speech overlapping circuit memory, 7 is a judgment section, and 8 is a recognition section. This is a result output terminal.
従来の音声認識装置では、ス被りトル変換した入力音声
スペクトルツクターンと標準スぜクトルノソターンk(
k=1〜K)との非類似度演算において、非類似度Dk
を入カスにクトルパターンの時間標本点第n番目のmチ
ャネル目の要素をA (m + n )とし、標準スペ
クトルパターンにの時間標本点n番目のmチャネル目の
要素をSk(m、n)とした時に、Dk=f、 ’l
、IA(m、n)−8k(m、n]XW(m、n) (
1)n = 1 m= 1
(1)式によシ計算し、K個の標準スペクトルieター
ンの中でDkを最小とする標準スペクトルパターンのカ
テゴリを認識結果としている。ここで重みW (m r
n )の計算方法については数々の方式があるが、こ
の発明の目的でないので省略する。In conventional speech recognition devices, the input speech spectrum tsukturn that has been subjected to space-coverage conversion and the standard spectral nosoturn k (
k=1~K), the dissimilarity Dk
Let the m-th channel element of the n-th time sample point of the standard spectrum pattern be A (m + n ), and let the m-th channel element of the n-th time sample point of the standard spectrum pattern be Sk (m, n ), Dk=f, 'l
, IA(m,n)-8k(m,n]XW(m,n) (
1) n = 1 m = 1 Calculated according to equation (1), and the category of the standard spectrum pattern that minimizes Dk among the K standard spectrum ie turns is set as the recognition result. Here, the weight W (m r
There are many methods for calculating n), but they are not the purpose of this invention, so their description will be omitted.
従来の認識装置ではスペクトル変換により入力音声のパ
ワー情報は完全に失なわれる。その結果、例えば「イチ
」を「二」と誤認識したり「ゴ」を「ロク」に誤認識す
るという場合がある。In conventional recognition devices, the power information of the input speech is completely lost due to spectral conversion. As a result, for example, "ichi" may be mistakenly recognized as "two" or "go" may be mistakenly recognized as "roku".
第2図に「イチ」、「二」、「コゝ」、「ロク」の音声
パターンツナグラムの例を示す。第2図で横方向は周波
数軸、たて方向が時間軸である。FIG. 2 shows examples of voice pattern tunagrams for ``ichi'', ``ni'', ``ko'', and ``roku''. In FIG. 2, the horizontal direction is the frequency axis, and the vertical direction is the time axis.
このようにスペクトル変換によシ「イチ」と「二」。In this way, the spectral transformation allows the ``1'' and ``2''.
「ゴ」と「ロク」はかな′シ似かよったパターンとなシ
その差としては「イ」と「チ」の間の無音区間、「口」
と「り」の間の無音区間が大きいがパワー情報は失なわ
れているので、結果として誤認識されることがあシ、認
識率低下の原因となった。``Go'' and ``Roku'' have similar patterns, but the differences are the silent interval between ``i'' and ``chi'', and the ``mouth'' pattern.
Although there is a large silent section between "ri" and "ri", the power information is lost, resulting in misrecognition, which causes a drop in recognition rate.
(発明の目的)
この発明の目的はこれらの欠点を解決し、認識率を向上
させることの出来る音声認識方法を提供するにある。(Objective of the Invention) An object of the present invention is to provide a speech recognition method capable of solving these drawbacks and improving the recognition rate.
(発明の概要)
この発明では、非類似度演算処理時に音声入力と標準音
声間のパワー・ぐターンの比較を行わせるようにしだも
のであり、以下詳細に説明する。(Summary of the Invention) The present invention is designed to compare power and turn between speech input and standard speech during dissimilarity calculation processing, and will be described in detail below.
(発明の実施例)
第3図はこの発明の1実施例を示したブロック図である
。第3図において、100は入力端子、2θOは周波数
分析部である。300はスペクトル変換部であシ、カウ
ンタ3011乗算回路302、加算回路303、レジス
タ3θ4、加算回路305、レジスタ306、マルチプ
レクサ307.30B、乗算回路309,310、減算
除算回路31jルジスタ312、減算除算回路313、
レジスタ314、カウンタ315、乗算回路316、加
算回路、777、遅延回路318、減算回路、119、
切勺換え回路320.321、除算回路322から成る
。(Embodiment of the invention) FIG. 3 is a block diagram showing one embodiment of the invention. In FIG. 3, 100 is an input terminal, and 2θO is a frequency analysis section. 300 is a spectrum conversion unit, counter 3011 multiplication circuit 302, addition circuit 303, register 3θ4, addition circuit 305, register 306, multiplexer 307.30B, multiplication circuits 309, 310, subtraction/division circuit 31j register 312, subtraction/division circuit 313,
register 314, counter 315, multiplication circuit 316, addition circuit 777, delay circuit 318, subtraction circuit 119,
It consists of switching circuits 320 and 321 and a division circuit 322.
400は音声区間決定部である。50θは非類似度演算
部であり、入力音声スペクトル/、oターンメモリ50
1、減算回路502、絶対値回路503、乗算回路50
4、重み決定回路505、定数発生回路506、アキュ
ムレータ、入力音声ノぐワーノやターンメモリ508、
加算回路509、レジスタ510、除算回路5ノ1、標
準音声平均・ぐワーメモリ512、減算回路513、標
準音声パワーパターンメモリ514、加算回路515、
切シ換え回路516 、517 +’ 528から成る
。400 is a voice section determining section. 50θ is a dissimilarity calculation unit, and input voice spectrum/, o-turn memory 50
1. Subtraction circuit 502, absolute value circuit 503, multiplication circuit 50
4. Weight determination circuit 505, constant generation circuit 506, accumulator, input audio nozzle and turn memory 508,
Addition circuit 509, register 510, division circuit 5 No. 1, standard audio averaging/warming memory 512, subtraction circuit 513, standard audio power pattern memory 514, addition circuit 515,
It consists of switching circuits 516, 517+'528.
600は標準音声ス被りトルパターンメモリ、7θOは
判定部、800は認識結果出力端子である。600 is a standard speech overlap pattern memory, 7θO is a determination unit, and 800 is a recognition result output terminal.
入力端子1θOから入力される入力音声信号は周波数分
析部20θに入力され、複数の周波数帯域に対応した量
子化信号として周波数分析され、スペクトル変換部30
’0に送られる。The input audio signal inputted from the input terminal 1θO is inputted to the frequency analysis section 20θ, frequency-analyzed as a quantized signal corresponding to a plurality of frequency bands, and then transmitted to the spectrum conversion section 30.
'Sent to 0.
周波数分析部20−0で、ある時刻nに分析されたM個
のデータをx(m 、 n ) (m−1〜M)とする
と、スペクトル変換された入カスベクトルデータA (
m + n ) +(m−1〜M)は(1)式で与えら
れる。If the M pieces of data analyzed at a certain time n by the frequency analysis unit 20-0 are x(m, n) (m-1 to M), then the spectrum-converted input waste vector data A (
m + n ) + (m-1 to M) is given by equation (1).
A(m、n)=x(m、n’)−(αn”m+β1)−
(1)(1)式においてαn、βnはそれぞれX (m
+ n )の最小2乗近似直線の傾き及び切片を意味
するもので、それぞれ次式によってめられる。A (m, n) = x (m, n') - (αn"m + β1) -
(1) In equation (1), αn and βn are each X (m
+ n ) means the slope and intercept of the least squares approximation straight line, and are determined by the following equations, respectively.
M−L r+rx(m、 n)−L m、f:、 x(
m、n )m”’1 m=J m=1
数となる。M−L r+rx(m, n)−L m, f:, x(
m, n ) m'''1 m=J m=1 number.
自=’!l+ m + C2=欠m2とおけば、(2)
、 (3)式はm= 1 m= 1
(1)式によシ入カスベクトルデータA (m + n
)をめることができる。第4図ではこの入カスベクト
ルデータA(m、n)を次の如く作成している。まず、
周波数分析部200よシ入力された入力データx(m、
n)と、入力データと同期して計算するカウンタ301
によって発生したmとの積を乗算回路302によってめ
、さ′らに加算回路303とレジスタ304によV)
in ” X (m + n )の値を累積させること
によシ、レジスタ304にΣm”X(nl+n)の値を
−1
セットすることができる。また、加算回路305とレジ
スタ306によシ同様に、レジスタ306パワーPnと
して出力する。Self='! If we set l + m + C2 = missing m2, (2)
, Equation (3) is m= 1 m= 1 Scatter vector data A (m + n
) can be set. In FIG. 4, this input waste vector data A(m, n) is created as follows. first,
Input data x (m,
n) and a counter 301 that calculates in synchronization with input data.
The multiplication circuit 302 calculates the product with m generated by , and then the addition circuit 303 and register 304 calculate
By accumulating the values of in''X(m+n), the value of Σm''X(nl+n) can be set to -1 in the register 304. Further, the adder circuit 305 and the register 306 similarly output the signal as the register 306 power Pn.
次にマルチプレクサ307.308において、それぞれ
M + CBの値を選択することにより、乗算回路32
1によシ減算除算回路、? I l側に接続させてさら
に減算除算回路J I 1によシ
により、結果すなわちαnの値をレジスタ312にセッ
トし、これを非類似度演算部へ出力する。Next, in the multiplexers 307 and 308, by selecting the value of M + CB, the multiplier circuit 32
Subtraction/division circuit by 1? The result, that is, the value of αn, is set in the register 312 by the subtraction/division circuit J I 1 connected to the I l side, and outputted to the dissimilarity calculation section.
同様に、マルチプレクサ307..30Bにおいてそれ
ぞれC1,C2を選択させ、乗算回路、709.310
及び切シ換え回路320,321を減算除算回路313
側に切り換え、減算除算回路313を使用して行ない、
その結果すなわちinの値をレジスタ314にセットす
る。Similarly, multiplexer 307. .. In 30B, C1 and C2 are selected respectively, and a multiplication circuit, 709.310
and switching circuits 320 and 321 as a subtraction/division circuit 313
switch to the side, use the subtraction/division circuit 313,
The result, that is, the value of in, is set in the register 314.
続いてカウンタ315によpmを発生させ、乗算回路3
16によシαl’mをめ、さ、らに加算回路317によ
シαn’m+βnをめることができる。Next, the counter 315 generates pm, and the multiplication circuit 3
The addition circuit 317 can be used to add αl'm and αn'm+βn to the adder circuit 317.
次に遅延回路318によシ遅延した入力データ)[(m
+n)と加算回路317でめたαn’m+βnの減算を
減算回路319によって行なえば、ス被りトル変換され
た入カスベクトルデータA(m、n)が入カス波りトル
ノぐターンメモリ501に出力される。Next, the input data delayed by the delay circuit 318 )[(m
When the subtraction circuit 319 subtracts αn'm+βn obtained by the addition circuit 317 from be done.
第4図は入力データX (m + n ) r直線Y=
αn−m+βn。Figure 4 shows input data X (m + n) r straight line Y=
αn−m+βn.
入カスベクトル・母ターンデータA(m、n)の関係を
表わした図である。(nはある時刻lm=1〜M)Y=
αn’rn+βnはx(m、n)の最小2乗近似直線で
あり、X(m+1)からαn’m+βnをさし引いたも
のがA(m、n)である。It is a diagram showing the relationship between input waste vector and mother turn data A(m, n). (n is a certain time lm=1~M) Y=
αn'rn+βn is the least squares approximation straight line of x(m, n), and A(m, n) is obtained by subtracting αn'm+βn from X(m+1).
音声区間検出部40θは音声区間の始端及θム端を検出
し非類似度演算・部に始端検出信号及び終端検出信号を
送るものであり、簡易的な検出法としてはサンプル周期
毎の周波数分析部からのM個の分析データの平均値をめ
その値があらかじめ設定された閾値を最初に越えた時点
を始点とし、最後に閾値以下に々った時点を終端とする
検出法がある。The voice section detection section 40θ detects the start end and θm end of the voice section and sends a start end detection signal and an end detection signal to the dissimilarity calculation section.A simple detection method is frequency analysis for each sample period. There is a detection method in which the starting point is the point in time when the average value of M pieces of analysis data from a section first exceeds a preset threshold value, and the ending point is the point in time when the value finally falls below the threshold value.
音声区間検出部400において、音声め始端が検出され
ると、入カスイクトルデータA (m + n )・の
入力音声スイクトルパターンメモリ501への書き込み
、入力音声の・ぐワー情報Pnの入力音声・ぐワーパタ
ーンメモリ508への書き込みが開始される。また音声
の終端が検出されると、入力音声スにクトルパターンメ
モリ50ノ、入力音声パワーパターンメモリ508への
書き込みが打ち切られ、非類似度演算処理が開始される
。入力音声スイクトルノやターンメモリ501は2次元
のメモリであり、その要素が入カス4クトルデータA(
m、n)(m−1〜M 、 n = 1〜N)で表わさ
れる。入力音声パワーパターンメモリ508は1次元の
メモリであシ、その要素をIP(n) (n = 1〜
N)で表わす。非類似度演算部500ではに個の標準音
声と入力音声、との非類似度を計算するが、ここではに
番目の標準音声との非類似度を計算することを考える。When the voice section detection unit 400 detects the start of a voice, it writes the input voice sequence data A (m + n) into the input voice sequence pattern memory 501, and writes the voice information Pn of the input voice into the input voice. - Writing to the warp pattern memory 508 is started. When the end of the voice is detected, writing of the input voice to the vector pattern memory 50 and the input voice power pattern memory 508 is stopped, and dissimilarity calculation processing is started. The input audio switch and turn memory 501 is a two-dimensional memory, and its elements are input scrap data A (
m, n) (m-1 to M, n = 1 to N). The input voice power pattern memory 508 is a one-dimensional memory, and its elements are IP(n) (n = 1 to
N). The dissimilarity calculating unit 500 calculates the dissimilarity between the 5th standard speech and the input speech, and here, it is assumed that the dissimilarity with the 5th standard speech is calculated.
非類似度Dkは次式で表わされる。The degree of dissimilarity Dk is expressed by the following equation.
ここで、Sk(m、n)はに番目の標準音声のスペクト
ルミ4ターンの要素(m = 1〜N 、n = 1〜
N )。W(m、n)は重み決定回路505によシ決定
される重み、=P k(n) (n = 1〜N)は標
準音声にのパワーパターンの要素、PPは入力音声の平
均・やワー、APkは標準音の割合を設定するための重
み係数である。Here, Sk (m, n) is the 4-turn element of the spectrum of the second standard voice (m = 1~N, n = 1~
N). W (m, n) is the weight determined by the weight determination circuit 505, = P k (n) (n = 1 to N) is the element of the power pattern of the standard voice, and PP is the average of the input voice. APk is a weighting coefficient for setting the ratio of standard tones.
まず、非類似度計算用アキュムレータ505・をゼロク
リアする。First, the dissimilarity calculation accumulator 505 is cleared to zero.
次に、入力音声パワーパターンメモリ501 カら入力
音声の要素A (m +’n )を切シ換え回路51G
を通じ読み出し、又、標準音声スペクトルAターンメモ
リcooから標準音声にの要素Sk (m+ n )を
切シ換え回路517を通じ読み込み、減算回路5θ2に
よりA(m’、 n ) −Sk(m 、 n )を割
算し、絶対値回路503により絶対値をとシ、切シ換え
回路519を通じ乗算回路504によシ重み係数W(m
、n)を乗じる。重み係数W(m、n)は重み決定回路
505により決定される。重み決定方式については数々
の方式があシ、その例としては、特願昭56−18/I
416「音声認識装置」で開示されており、本発明の目
的ではないので説明は省略する。さらに、乗算回路の出
力をアキュムレータ505に加算する。m。Next, the input audio element A (m +'n) is switched from the input audio power pattern memory 501 to the switching circuit 51G.
Also, the element Sk (m+n) of the standard voice from the standard voice spectrum A-turn memory coo is read through the switching circuit 517, and A(m', n) - Sk(m, n) is read out by the subtraction circuit 5θ2. is divided, the absolute value is obtained by the absolute value circuit 503, and the weighting coefficient W(m
, n). The weight coefficient W(m, n) is determined by the weight determination circuit 505. There are many methods for determining weights, for example, patent application 18/1982
416 "Voice Recognition Device" and is not the purpose of the present invention, so its explanation will be omitted. Further, the output of the multiplication circuit is added to the accumulator 505. m.
nをm = 1〜M、n=1〜N1で以上の動作をくり
返し、Dkの第1項が計算されることになる。The above operation is repeated with m=1 to M and n=1 to N1 to calculate the first term of Dk.
次に入力音声の平均・ぐワーpp 4計算する。入力音
声パワー・ぐターンメモIJ s o sから入力音声
のノぐワーノやターンIP(n)、n=1〜Nを読み出
し、加算回路509とレノスタ510により累算してレ
ノスタ51θに ΣIP(n)の値をセットする。この
n=+
値を除算回路51ノによ、9Nで除し、入力音声の平均
・ぐワーppをめる。PPは次式で表わせる。Next, calculate the average of the input audio. The input voice power and turn IP (n), n = 1 to N are read from the input voice power/turn memo IJ s o s, and are accumulated by the adder circuit 509 and the reno star 510 to the reno star 51θ ΣIP (n) Set the value of This n=+ value is divided by 9N by the division circuit 51 to find the average of the input audio. PP can be expressed by the following formula.
ppm、!−景IP(N)
N。==4 (7)
次に、標準音声平均パワーメモ!J512から標準音声
にの平均パワーAPkを読み出し、減算回路513によ
シppからAPkを減じ、パワー補正値PP−APkを
計算する。ppm! -Kei IP (N) N. ==4 (7) Next, standard voice average power memo! The average power APk of the standard voice is read from J512, and APk is subtracted from SHPP by the subtraction circuit 513 to calculate the power correction value PP-APk.
次に、標準音声パワーパターンメモリ514から標準音
声にのieワーパターンpk(n)を加算回路515に
よシパワー補正値’(pp−Apk)と加算する。Next, the ie power pattern pk(n) of the standard voice from the standard voice power pattern memory 514 is added to the power correction value '(pp-Apk) by the adding circuit 515.
加算結果は(Pk(n)+ (PP −APk) )と
なる。The addition result is (Pk(n)+(PP-APk)).
一方、入力音声パワーパターンメモリ50Bから入力音
声ノセワーパターンIP(n)(n=1 、 N)を切
シ換え回路517を通じて読み出し、切シ換え回路51
7によシ加算回路515の出力を選択し、減算回路50
2でIP(n) (Pk(n)+ (PP −APk)
)を計算し、絶対値回路503で絶対値をとる。On the other hand, the input voice power pattern IP(n) (n=1, N) is read from the input voice power pattern memory 50B through the switching circuit 517, and the switching circuit 51
7, selects the output of the adder circuit 515, and selects the output of the subtracter circuit 50.
2 and IP(n) (Pk(n) + (PP - APk)
), and the absolute value is taken by the absolute value circuit 503.
次に定数前発生回路506から定数詐を出力し、切シ換
え回路51’8を通じ乗算回路5θ4によシ絶対値回路
の出力に乗じ′アキュムレータ505に加算していく。Next, a constant value is output from the pre-constant generation circuit 506, which is multiplied by the output of the absolute value circuit by the multiplier circuit 5θ4 through the switching circuit 51'8 and added to the accumulator 505.
nを1〜N−jで変化させてアキュムレータへの加算が
終了したら加算結果を非類似度演算結果として判定部7
00に出力する。判定部700では非類似度が最も小さ
い標準音声のカテコゝりを認識結果とする。定数wpの
値はシュミレーションの結果1/2〜2程度が最適であ
る。When the addition to the accumulator is completed by changing n from 1 to N-j, the determination unit 7 uses the addition result as a dissimilarity calculation result.
Output to 00. The determination unit 700 takes the categorization of the standard speech with the smallest degree of dissimilarity as the recognition result. As a result of simulation, the optimum value of the constant wp is about 1/2 to 2.
第5図はパワーパターンの比較を非類似度に組込む場合
の重み係数饗の値を決定するために行なイ、イイエ)を
学習し、標準音声・ぐターンを作成し評価したものであ
る。この時標準音声パターン数を192パターンとして
、■を0〜41で変化させている。FIG. 5 shows a standard speech pattern created and evaluated by learning the steps 1 and 2 performed in order to determine the value of the weighting coefficient when incorporating power pattern comparison into dissimilarity. At this time, the number of standard voice patterns is 192 patterns, and ■ is varied from 0 to 41.
このように従来の非類似度演算部(Vt/P = Oに
相当する)に比較して明らかに認識率が向上しwpの値
は1/2〜2が最適であることがわかる。In this way, it can be seen that the recognition rate is clearly improved compared to the conventional dissimilarity calculation unit (corresponding to Vt/P=O), and the optimum value of wp is 1/2 to 2.
以上説明したように、第1の実施例では、通常のパター
ンマツチングに加え音声のパワーパターンを比較してい
る。As explained above, in the first embodiment, in addition to normal pattern matching, audio power patterns are compared.
第6図は「イチ」と「二」の音声の・ぞワーを比較した
図である。「チ」は無声破裂音であるために「イ」と「
チ」の間は無音になる。一方「二」の方はパワーが連続
しているので、例えば「イチ」と発声された入力音声パ
ターンと、「二」の標準音声i?ターンを本発明による
非類似度演算部で比較すれば、従来よりも非類似度が大
きくなる。Figure 6 is a diagram comparing the sounds of ``ichi'' and ``ni''. Since “chi” is a voiceless plosive, “i” and “
There will be no sound during "ch". On the other hand, the power of "two" is continuous, so for example, the input voice pattern of "ichi" and the standard voice i? of "two" are uttered. When the turns are compared using the dissimilarity calculation unit according to the present invention, the dissimilarity becomes larger than that of the conventional method.
又、「二」と発生された入力音声パターンを「二」の標
準音声パターンと比較すれば、両方とも単語内の無音区
間は存在しないし、声の大きさが異なったとしても、音
声の平均パワーが等しくなるように・やワー正規化して
いるため、非類似度は大きくならない。Also, if you compare the input speech pattern generated as "2" with the standard speech pattern for "2", you will find that there is no silent section within the word in both cases, and even if the voice volume is different, the average of the speech is Since the powers are normalized somewhat so that the powers are equal, the degree of dissimilarity does not increase.
したがって、「二」の標準音声パターンと「イチ」と発
声された音声との非類似度はよシ犬きくなシ、「二」と
発声された音声との非類似度はほとんど変化しないので
、誤認識が少なくなシ認識率が向上する。これらの関係
は「ゴ」と「ロク」、「ハイ」と「ハチ」の間でも成立
する。Therefore, the degree of dissimilarity between the standard speech pattern of ``two'' and the voice uttered as ``ichi'' is yoshiinu kikunashi, and the degree of dissimilarity between the voice uttered as ``two'' hardly changes. The recognition rate is improved with fewer misrecognitions. These relationships also exist between ``go'' and ``roku,'' and between ``hai'' and ``hachi.''
(発明の効果)
この発明は通常のパターンマツチングに加え、パワー正
規化した形で音声のノ4ワーノ4ターンを比較し、非類
似度を演算しているので、「イチJと「二」、「ゴ」と
「ロク」、「ハイ」と「ハチ」などの間の誤認識が少々
く、認識率が向上するので、音声認識応答システムに利
用することができる。(Effect of the invention) In addition to normal pattern matching, this invention compares the four turns of speech in a power-normalized form and calculates the degree of dissimilarity. , ``go'' and ``roku'', ``hai'' and ``hachi'', etc. are less likely to be misrecognized, and the recognition rate is improved, so it can be used in voice recognition response systems.
第1図は従来の音声認識装置のプOツク図、第2図は音
声ieターンの例、第3図はこの発明による音声認識装
置の一実施例を示した図、第4図は入力データX (m
+ n )と入カス被りトルパターンデータA、 (
m 、 n )との関係を示した図、第5図は重み係数
詐決定のためのシーミレー7ヨン結果、第6図はパワー
パターンの例である。
100・・入力端子、200・・周波数分析部。
300・・スペクトル変換部、400・・・音声区間決
定部、500・・・非類似度演算部、501・・入力音
声スペクトルパターンメモリ、5o2・・・渥、算回路
、503・・・絶対値回路、5o4・・・乗算回路、5
05・・・重み決定回路、506・・・定数発生回路、
5oz・・・アキュムレータ、5o8・・・入力音声パ
ワーieターンメモリ、509・・・加算回路、510
’・レジスタ、511・・・除算回路、512・・・標
準音声平均パワーメモリ、513・・・減算回路、51
4・・・標準音声パワーパターンメモリ、515・・・
加jfE 回路、516.517,518・・・切り換
え回路、600・・・標準音声ス被りトルパターンメモ
リ、700・・・判定部。
特許出願人 沖電気工業株式会社
第1図
第2図
二 丁
イチ t+7
八呼
→彫を数
↓
i18問
ル
(bl
第5図
P
第6図
手続補正書輸幻
昭和 −9°11゛月1 日
特許庁長官 殿
1、事件の表示
昭和58年 特 許 願第126237 号2、発明の
名称
音声認識方法
3、補正をする者
事件との関係 特許出願人
任 所(〒105) 東京都港区虎ノ門1丁目7番12
号4代理人
住 所(〒105) 東京都港区虎ノ門1丁目7番12
号6、補正の内容 別紙。とおシ
ロ、補正の内容
(1)明細書第9頁第16行、第17行、第18行目、
第10頁第2行、第4行、第5行、第9行目に「検出」
とあるのを「決定」と補正する。
(2)同書第11頁式(6)を次のとおシ補正する。
+Σl IP(n) −(Pk(n) +(PP AP
k)) lxwpi1=1
・・・・・・(6)
(3)開明第14行第2行、第6行目、第16頁第11
行目に[シュミレーションjとあるのを「シミュレーシ
ョン」と補正する。
(4)図面「第2図」を別紙のとおり補正する。Fig. 1 is a block diagram of a conventional speech recognition device, Fig. 2 is an example of a speech ie turn, Fig. 3 is a diagram showing an embodiment of a speech recognition device according to the present invention, and Fig. 4 is a diagram showing input data. X (m
+ n ) and incoming scrap overlap pattern data A, (
m, n), FIG. 5 is a diagram showing the sea milling result for determining the weighting coefficient fraud, and FIG. 6 is an example of the power pattern. 100...Input terminal, 200...Frequency analysis section. 300... Spectrum conversion section, 400... Speech interval determination section, 500... Dissimilarity calculation section, 501... Input speech spectrum pattern memory, 5o2... Atsushi, arithmetic circuit, 503... Absolute value Circuit, 5o4... Multiplication circuit, 5
05... Weight determination circuit, 506... Constant generation circuit,
5oz...Accumulator, 5o8...Input audio power ie turn memory, 509...Addition circuit, 510
'・Register, 511...Division circuit, 512...Standard audio average power memory, 513...Subtraction circuit, 51
4...Standard audio power pattern memory, 515...
Addition jfE circuit, 516, 517, 518... Switching circuit, 600... Standard audio overlap pattern memory, 700... Judgment unit. Patent Applicant: Oki Electric Industry Co., Ltd. Figure 1 Figure 2 Figure 2 Dongichi t + 7 Eight calls → Number of carvings ↓ i18 questions (bl Figure 5 P Figure 6 Procedural Amendments Transfer Showa -9°11゛ Month 1 Commissioner of the Japan Patent Office 1. Indication of the case Patent Application No. 126237 of 1982 2. Name of the invention Speech recognition method 3. Relationship with the person making the amendment case Patent applicant's office (105) Minato-ku, Tokyo Toranomon 1-7-12
No. 4 Agent address (105) 1-7-12 Toranomon, Minato-ku, Tokyo
Item 6. Contents of amendment Attachment. Toshiro, Contents of amendment (1) Page 9, lines 16, 17, and 18 of the specification,
"Detection" on page 10, lines 2, 4, 5, and 9
I corrected it to ``decision''. (2) Formula (6) on page 11 of the same book is amended as follows. +Σl IP(n) −(Pk(n) +(PP AP
k)) lxwpi1=1 ・・・・・・(6) (3) Kaimei line 14, line 2, line 6, page 16, number 11
In the first line, [Simulation j is corrected to ``Simulation.'' (4) Amend the drawing “Figure 2” as shown in the attached sheet.
Claims (1)
声の、スイクトル傾斜で正規化されたスイクトルパター
ンを作成する過程と、 標準音声の予め用意されたスペクトルA’ターンと入力
音声の前記スペクトル・母ターンとのツクターンマツチ
ングを行い、第1の非類似度を算出する過程と、 前記標準音声の予め用意された・やワー・々ターンをそ
の平均パ、ワー及び入力音声の平均ノfワーに基づいて
正規化した後、その正規化されたiQワー/eターンと
入力音声の前記パワーノやターンとのノやターンマツチ
ングを行い、第2の非類似度を算出する過程と、 前記第1の非類似度に(i〜2)の重みを付けた後、前
記第2の非類似度と加算する過程とを備え、 その加算値を入力音声と前記標準音声との非類似度とし
て入力音声を認識することを特徴とした音声認識方法。[Claims] A process of creating a power no P turn of an input voice, a process of creating a swictor pattern of the input voice normalized by a swictor slope, and a spectral A' turn prepared in advance of a standard voice. A process of calculating a first degree of dissimilarity by performing tsukturn matching with the spectrum/mother turn of the input speech, and a step of matching the average power, power and After normalizing the input voice based on the average number of words, the normalized iQ word/e turn is matched with the power number and turn of the input voice, and a second dissimilarity is calculated. and a step of adding a weight of (i to 2) to the first dissimilarity and then adding it to the second dissimilarity, and the added value is added to the input speech and the standard speech. A speech recognition method characterized by recognizing input speech as a degree of dissimilarity between the input speech and the input speech.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12623783A JPS6019199A (en) | 1983-07-13 | 1983-07-13 | Voice recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12623783A JPS6019199A (en) | 1983-07-13 | 1983-07-13 | Voice recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6019199A true JPS6019199A (en) | 1985-01-31 |
| JPH0311479B2 JPH0311479B2 (en) | 1991-02-18 |
Family
ID=14930182
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP12623783A Granted JPS6019199A (en) | 1983-07-13 | 1983-07-13 | Voice recognition |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6019199A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6266300A (en) * | 1985-09-19 | 1987-03-25 | 株式会社リコー | Voice recognition system |
| JPH03250898A (en) * | 1990-02-28 | 1991-11-08 | Matsushita Electric Ind Co Ltd | headphone playback device |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5852696A (en) * | 1981-09-25 | 1983-03-28 | 大日本印刷株式会社 | Voice recognition unit |
-
1983
- 1983-07-13 JP JP12623783A patent/JPS6019199A/en active Granted
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5852696A (en) * | 1981-09-25 | 1983-03-28 | 大日本印刷株式会社 | Voice recognition unit |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6266300A (en) * | 1985-09-19 | 1987-03-25 | 株式会社リコー | Voice recognition system |
| JPH03250898A (en) * | 1990-02-28 | 1991-11-08 | Matsushita Electric Ind Co Ltd | headphone playback device |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0311479B2 (en) | 1991-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Gevaert et al. | Neural networks used for speech recognition | |
| Delfarah et al. | Features for masking-based monaural speech separation in reverberant conditions | |
| CN101965613B (en) | Signal emphasis device, method thereof, program, and recording medium | |
| US11107493B2 (en) | Sound event detection | |
| CN111785288B (en) | Voice enhancement method, device, equipment and storage medium | |
| Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
| Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
| Abdullah et al. | Towards more efficient DNN-based speech enhancement using quantized correlation mask | |
| US20220070207A1 (en) | Methods and devices for detecting a spoofing attack | |
| CN111223491B (en) | A method, device and terminal equipment for extracting the main melody of a music signal | |
| CN112489692A (en) | Voice endpoint detection method and device | |
| Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
| CN117238277B (en) | Intention recognition method, device, storage medium and computer equipment | |
| Zezario et al. | Multi-task pseudo-label learning for non-intrusive speech quality assessment model | |
| Kumar et al. | A new pitch detection scheme based on ACF and AMDF | |
| JPS6019199A (en) | Voice recognition | |
| CN113763930A (en) | Speech analysis method, apparatus, electronic device, and computer-readable storage medium | |
| JPH03120598A (en) | Method and device for voice recognition | |
| Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
| Wu et al. | Joint nonnegative matrix factorization for exemplar-based voice conversion. | |
| CN115421099A (en) | Voice direction of arrival estimation method and system | |
| CN116229988A (en) | A method, system and device for voiceprint recognition and authentication of personnel in a power dispatching system | |
| WO2019106068A1 (en) | Speech signal processing and evaluation | |
| JPH01255000A (en) | Apparatus and method for selectively adding noise to template to be used in voice recognition system | |
| Takashima et al. | Estimation of Talker's Head Orientation Based on Discrimination of the Shape of Cross-power Spectrum Phase Coefficients. |