JPH0448400B2 - - Google Patents

Info

Publication number
JPH0448400B2
JPH0448400B2 JP22487885A JP22487885A JPH0448400B2 JP H0448400 B2 JPH0448400 B2 JP H0448400B2 JP 22487885 A JP22487885 A JP 22487885A JP 22487885 A JP22487885 A JP 22487885A JP H0448400 B2 JPH0448400 B2 JP H0448400B2
Authority
JP
Japan
Prior art keywords
vector
feature vector
input
component
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP22487885A
Other languages
Japanese (ja)
Other versions
JPS6286399A (en
Inventor
Yukio Tabei
Makoto Morito
Kozo Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP22487885A priority Critical patent/JPS6286399A/en
Priority to US06/909,957 priority patent/US4852181A/en
Priority to EP86113175A priority patent/EP0219712B1/en
Priority to DE8686113175T priority patent/DE3683343D1/en
Publication of JPS6286399A publication Critical patent/JPS6286399A/en
Priority to US07/295,194 priority patent/US4918735A/en
Publication of JPH0448400B2 publication Critical patent/JPH0448400B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は高雑音下においても高精度の認識を行
うことのできる音声認識方法に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a speech recognition method that can perform highly accurate recognition even under high noise.

(従来の技術) 従来、この種の音声認識方法として電子通信学
会論文誌、J68−1(昭和60年1月)p.78−85に記
載されるものがあつた。第2図は従来のローカル
ピークを用いた音声認識方法のフローチヤートで
あり、入力音声は、15チヤネルのバンドパスフイ
ルター群で10msecごとに周波数分析され(第2
図の1参照)、声帯音源特性の個人差の正規化法
として、音声スペクトルを振幅、周波数軸ともに
対数で表わし最小二乗近似直線を求め(第2図の
2参照)、差をとつて補正する。ただし、最小二
乗近似直線の傾きが正の場合には平均値からの差
をとる。その後、第3図に示すように、各フレー
ム(10msec)毎に0dB以上となる各部分につい
て、各最大値の1/2以上の振幅を持つものの中で
最大値となるチヤネルをローカルピーク有りとし
て“1”にし、他を“0”として2値化を行う
(第2図の3参照)。バンドパスフイルタのチヤネ
ル数は15であるが、16チヤネル目に最小二乗近似
直線の傾きが負のとき有声音と見なし1をたて、
傾きが正のとき無声音と見なし“0”をたて、傾
斜の符号を付加する(第2図の4参照)。
(Prior Art) Conventionally, this type of speech recognition method has been described in Journal of the Institute of Electronics and Communication Engineers, J68-1 (January 1985), pages 78-85. Figure 2 is a flowchart of a conventional speech recognition method using local peaks, in which the input speech is frequency-analyzed every 10 msec by a group of bandpass filters with 15 channels (second
(See 1 in Figure 2), as a normalization method for individual differences in vocal cord sound source characteristics, the voice spectrum is expressed logarithmically on both the amplitude and frequency axes, a least squares approximation straight line is found (see 2 in Figure 2), and the differences are corrected. . However, if the slope of the least squares approximation line is positive, the difference from the average value is taken. After that, as shown in Figure 3, for each part of each frame (10 msec) where the amplitude is 0 dB or more, the channel with the maximum value among those with an amplitude of 1/2 or more of each maximum value is regarded as having a local peak. Binarization is performed by setting the data to "1" and the others to "0" (see 3 in FIG. 2). The number of channels of the bandpass filter is 15, but when the slope of the least squares approximation straight line in the 16th channel is negative, it is regarded as a voiced sound and is set to 1.
When the slope is positive, it is regarded as an unvoiced sound, and "0" is set, and the sign of the slope is added (see 4 in Fig. 2).

荷重平均辞書は、複数の2値化パターンを時間
軸上一番長いものへ線形に伸ばして加算して多値
パターンとして得られる(第2図の5参照)。
The weighted average dictionary is obtained as a multivalued pattern by linearly extending and adding a plurality of binarized patterns to the longest one on the time axis (see 5 in FIG. 2).

2値の入力パターンと多値の荷重平均辞書との
マツチングには、時間方向は長い方のパターンに
線形に伸ばして合わせ、ある類似度に基づいて計
算を行い、最大類似度を与える標準パターンのカ
テゴリ名を認識結果とする(第2図の6参照)。
To match a binary input pattern and a multi-value weighted average dictionary, the longer pattern in the time direction is linearly extended and matched, calculations are performed based on a certain degree of similarity, and the standard pattern that gives the maximum degree of similarity is selected. The category name is used as the recognition result (see 6 in Figure 2).

(発明が解決しようとする問題点) 以上述べた従来の音声認識方法は、接話型マイ
ク等を用いる場合のようなSN比の良い環境では
有効に機能するが、高雑音の環境下では雑音の変
動によるピークを拾いやすく誤認識が増えるとい
う問題点があつた。
(Problems to be Solved by the Invention) The conventional speech recognition methods described above function effectively in an environment with a good SN ratio, such as when using a close-talking microphone, but in a high-noise environment, noise There was a problem that it was easy to pick up peaks due to fluctuations in the value, leading to an increase in erroneous recognition.

本発明は、以上述べた雑音の変動によるピーク
があつても、音声のローカルピークとの性質の違
いを考慮したローカルピークベクトル算出処理を
用いることで、雑音の変動によるピークを拾わ
ず、雑音に対する耐性が強く認識精度の高い音声
認識方法を提供することを目的とする。
Even if there are peaks due to noise fluctuations as described above, the present invention uses a local peak vector calculation process that takes into consideration the difference in characteristics from the local peaks of speech, so that the peaks due to noise fluctuations are not picked up and the noise is reduced. The purpose of this invention is to provide a speech recognition method with strong resistance and high recognition accuracy.

(問題点を解決するための手段) 本発明による音声認識方法は、まず入力音声を
各音声フレーム毎に複数チヤネルの特徴ベクトル
に周波数分析を行う。
(Means for Solving the Problems) The speech recognition method according to the present invention first performs frequency analysis on input speech into feature vectors of multiple channels for each speech frame.

一方、入力音声の特徴ベクトルは、当該ベクト
ルの属する音声フレームにおける最小二乗近似直
線を用いてスペクトル正規化される。前記スペク
トル正規化後の特徴ベクトルの各成分が正であれ
ば1とし、0以下であれば0とする2値の窓ベク
トルを算出し、前記窓ベクトルをスムージングを
行い、その後、窓ベクトルの各成分と前記スペク
トル正規化後の特徴ベクトルの各成分との積を算
出し、前記積の取られた特徴ベクトルから周波数
方向の極大値のあるチヤネルに対応する成分を1
とするローカルピークベクトルを算出する。そし
てこの入力音声のローカルピークベクトルの時系
列と予めめ用意された複数の標準パターンとの類
似度計算を行ない入力音声のカテゴリーを判定す
るものである。
On the other hand, the feature vector of the input voice is spectral normalized using a least squares approximation straight line in the voice frame to which the vector belongs. A binary window vector is calculated, in which each component of the feature vector after spectrum normalization is set to 1 if it is positive, and 0 if it is less than or equal to 0, the window vector is smoothed, and then each component of the window vector is The product of the component and each component of the feature vector after the spectrum normalization is calculated, and the component corresponding to the channel with the maximum value in the frequency direction is calculated from the product feature vector.
Calculate the local peak vector. The category of the input voice is determined by calculating the degree of similarity between the time series of local peak vectors of the input voice and a plurality of standard patterns prepared in advance.

(作用) 本発明は、入力音声のスペクトル正規化した特
徴ベクトルを抽出した後、ローカルピークベクト
ル抽出前にスペクトル正規化特徴ベクトルから得
られる窓ベクトルをスムージングしこれとスペク
トル正規化特徴ベクトルとの乗算処理を行なつて
いる。このため、ローカルピークベクトル抽出時
に入力雑音の変動によるピークを入力音声のロー
カルピークと誤つて抽出することが抑制され、安
定して入力音声のローカルピークベクトルを抽出
している。
(Operation) The present invention extracts a spectrum-normalized feature vector of input speech, smooths the window vector obtained from the spectrum-normalized feature vector before extracting the local peak vector, and multiplies this by the spectrum-normalized feature vector. Processing is in progress. Therefore, when extracting local peak vectors, it is possible to prevent peaks due to fluctuations in input noise from being mistakenly extracted as local peaks of input speech, and to stably extract local peak vectors of input speech.

(実施例) 第1図は本発明の一実施例を示すブロツク図で
ある。以下、第1図に示された音声認識装置の構
成及び動作について説明する。
(Embodiment) FIG. 1 is a block diagram showing an embodiment of the present invention. The configuration and operation of the speech recognition device shown in FIG. 1 will be explained below.

〔入力処理〕[Input processing]

入力音声はマイク(図示せず)を通して電気信
号に変換され、アンプ(図示せず)、ローパスフ
イルタ(図示せず)、を通りA/D変換器(図示
せず)により、例えば標本化周波数12kHzで標本
化され、入力端子101に入力される。
Input audio is converted into an electrical signal through a microphone (not shown), passed through an amplifier (not shown), a low-pass filter (not shown), and an A/D converter (not shown) at a sampling frequency of 12 kHz, for example. The signal is sampled at the input terminal 101 and input to the input terminal 101.

〔周波数分析処理〕[Frequency analysis processing]

入力端子から入力されるデイジタル値は周波数
分析部102において周波数分析されて、音声フ
レーム時系列の特徴ベクトルに変換される。この
周波数分析部102はバンドパスフイルタと絶対
値化演算部とローパスフイルタとで構成される。
A digital value inputted from an input terminal is subjected to frequency analysis in a frequency analysis section 102 and converted into a feature vector of an audio frame time series. This frequency analysis section 102 is composed of a band pass filter, an absolute value calculation section, and a low pass filter.

まず、周波数分析には、本実施例では、第4図
に示すような低Qの特性を有するバンドパスフイ
ルタを用いている。ここではローカルピークの安
定な抽出を目的としたため低Qのバンドパスフイ
ルタを用いている。
First, for frequency analysis, in this embodiment, a bandpass filter having a low Q characteristic as shown in FIG. 4 is used. Here, a low Q bandpass filter is used for the purpose of stable extraction of local peaks.

各バンドパスフイルタの出力は絶対値演算が施
され、ローパスフイルタに入力され、音声フレー
ムの周期(本実施例では10msec)ごとに再サン
プルされ、特徴ベクトルを算出する。
The output of each bandpass filter is subjected to absolute value calculation, input to a low-pass filter, and resampled every audio frame period (10 msec in this embodiment) to calculate a feature vector.

i番目の音声フレームにおけるkチヤネルのロ
ーパスフイルタの出力を再サンプルした出力をai
とするとi番目の音声フレームにおける特徴ベ
クトルaiは ai=ai 1,ai 2,……,ai k と表現される。ここでKはチヤネル数(本実施例
ではK=22)であり、ai 1,ai 2,……,ai kは特徴
ベクトルaiの成分である。
The output obtained by resampling the output of the low-pass filter of the k channel in the i-th audio frame is a i
k , the feature vector a i in the i-th audio frame is expressed as a i =a i 1 , a i 2 , . . . , a i k . Here, K is the number of channels (K=22 in this embodiment), and a i 1 , a i 2 , . . . , a i k are components of the feature vector a i .

〔フレーム電力算出処理〕[Frame power calculation process]

フレーム電力算出部103は、音声フレーム毎
に周波数分析部102より出力される特徴ベクト
ルaiを受けて、当該音声フレームのフレーム電力
Piを次式(1) により算出する。
The frame power calculation unit 103 receives the feature vector a i output from the frequency analysis unit 102 for each audio frame, and calculates the frame power of the audio frame.
P i is expressed by the following formula (1) Calculated by

〔音声区間検出処理〕[Voice section detection processing]

音声区間検出部104においては、フレーム電
力算出部103より出力されるフレーム電力Pi
用いて音声区間検出を行う。
The voice section detection section 104 performs voice section detection using the frame power P i output from the frame power calculation section 103.

音声区間検出のアルゴリズムについては各種提
案されており、本発明はそのアルゴリズム自体が
目的ではないが、ここではフレーム電力Piが定め
られた閾値PS以上、T1フレーム以上続いた始め
のフレームを始端IS、音声の始端から後でフレー
ム電力Piが閾値PE以下の状態がT2フレーム続い
た時の始めてPE以下となつたフレームを終端IE
して検出する。
Various algorithms have been proposed for speech interval detection, and the algorithm itself is not the purpose of the present invention. When the frame power P i continues to be below the threshold P E for T 2 frames after the start end of the audio, the frame in which the frame power P i becomes below the threshold P E for the first time is detected as the end I E .

〔スペクトル正規化処理〕[Spectral normalization processing]

スペクトル正規化部105は周波数分析部10
2より出力される入力音声の特徴ベクトルaiを受
けてまず特徴ベクトルaiの各成分ai kを次式(2)によ
り絶対値xi(k)に対数変換する。
The spectrum normalization unit 105 is the frequency analysis unit 10
2, each component a i k of the feature vector a i is first logarithmically converted into an absolute value x i ( k ) using the following equation (2).

Xi K=c log ai k 0 ai k≧1 ai k≦0 ……(2) cは、ai kのビツト数とxi kのビツト数から定ま
る定数である。
X i K =c log a i k 0 a i k ≧1 a i k ≦0 (2) c is a constant determined from the number of bits of a i k and the number of bits of x i k .

次に、次式(3)によつて与えられる最小二乗近似
直線 yi k=ui・k+vi 但し、 を用いた次式(4)のスペクトル正規化処理を行う。
Next, the least squares approximation straight line given by the following equation (3) y i k = u i · k + v i However, The spectrum normalization process using the following equation (4) is performed.

zi k=xi k−yi k ……(4) 〔ローカルピークベクトル算出処理〕 第5図に本発明によるローカルピークベクトル
算出部106の詳細構成を示す。
z i k =x i k −y i k (4) [Local peak vector calculation process] FIG. 5 shows the detailed configuration of the local peak vector calculation unit 106 according to the present invention.

第5図において、501はスペクトル正規化デ
ータzi kの入力端子、502は2値化演算部、5
03はスムージング部、504は乗算演算部、5
05は極大値抽出部、506はローカルピークベ
クトル出力端子である。
In FIG. 5, 501 is an input terminal for spectrum normalized data z i k , 502 is a binarization calculation unit, and 5
03 is a smoothing section, 504 is a multiplication operation section, 5
05 is a local maximum value extraction unit, and 506 is a local peak vector output terminal.

前記スペクトル正規化部105によりスペクト
ル正規化されたデータzi kから、2値化演算部5
02において次式(5)によつて与えられる2値の窓
ベクトル Wi=(Wi 1,Wi 2,……,Wi k,……,Wi K)が算
出される。
From the data z i k whose spectrum has been normalized by the spectrum normalization unit 105, the binarization calculation unit 5
In 02, a binary window vector W i =(W i 1 , W i 2 , . . . , W i k , . . . , W i K ) given by the following equation (5) is calculated.

(kはチヤネル番号を表わす。) Wi K=1 0 zi k>0 zi k0 (5) ここでWi 1,Wi 2,……,Wi Kは窓ベクトルWiの成
分である。続いてスムージング部503により窓
ベクトルWiをスムージングし、スムージング窓
ベクトルi=(Wi 1i k,……,i K)を得る。
(k represents the channel number.) W i K = 1 0 z i k > 0 z i k 0 (5) Here, W i 1 , W i 2 , ..., W i K are the components of the window vector W i It is. Subsequently, the smoothing unit 503 smoothes the window vector W i to obtain a smoothing window vector i = (W i 1 , i k , . . . , i K ).

このスムージングはWiの成分Wi kが2チヤンネ
ル以上続けて1とならない場合は対応するi k
ゼロとすることにより行なわれる。
This smoothing is performed by setting the corresponding i k to zero if the component W i k of W i does not become 1 continuously for two or more channels.

すなわち……010110…………000110……のよ
うにスムージングされる。
In other words, it is smoothed like...010110...000110...

次に、スムージングされた窓ベクトルiの各
成分i kとスペクトル正規化されたデータzi kとの
積が乗算演算部504において次式(6)により求め
られる。
Next, the product of each component i k of the smoothed window vector i and the spectrum-normalized data z i k is calculated by the following equation (6) in the multiplication calculation unit 504.

Li k=zi ki k……(6)(但しk=1,……
K) 次にここで求められたLi kを用いて極大値抽出
部505により次式(7)において Li k>Li k+1 かつ Li k-1<Li k ただし k=1,……,K Li 0=−∞ Li k+1=−∞ (7) なる条件を満たすkに対してはri k=1、条件を満
たさないkに対してはri k=0なる値を成分とする
ローカルピークベクトル ri=ri 1,ri 2,……,ri k,……ri K) を算出する。ここでri 1,ri 2,……,ri Kはローカ
ルピークベクトルriの成分である。
L i k =z i ki k ……(6) (However, k=1,……
K) Next, using the L i k obtained here, the maximum value extraction unit 505 calculates in the following equation (7) that L i k >L i k+1 and L i k-1 <L i k where k=1 , ..., K L i 0 = −∞ L i k+1 = −∞ (7) For k that satisfies the condition, r i k = 1, and for k that does not satisfy the condition, r i k = A local peak vector r i =r i 1 , r i 2 , . . . , ri k , . Here, r i 1 , r i 2 , ..., r i K are components of the local peak vector r i .

第6図aにスペクトル正規化されたデータzi k
の例、第6図bに窓ベクトルWiの成分wi kの例、
第6図cにスムージングされた窓ベクトルi
成分wi kの例、第6図dにzi ki kとの積Li kの例、
第6図eにローカルピークベクトルriの成分ri k
例を示す。
Figure 6a shows the spectral normalized data z i k
An example of the component w i k of the window vector W i is shown in Fig. 6b.
Figure 6c shows an example of the component w i k of the smoothed window vector i , and Figure 6d shows an example of the product L i k of z i k and i k .
FIG. 6e shows an example of the component r i k of the local peak vector r i .

〔類似度計算処理〕[Similarity calculation process]

類似度計算部107はローカルピークベクトル
算出部106から出力される入力音声のローカル
ピークベクトルriの時系列を受けて標準パターン
メモリ108に格納された全ての標準パターンと
の類似度計算を行なう。
The similarity calculation unit 107 receives the time series of the local peak vector r i of the input voice output from the local peak vector calculation unit 106 and calculates the similarity with all standard patterns stored in the standard pattern memory 108 .

ここで標準パターンは、カテゴリ毎に1個、あ
るいは複数個の学習音声に対して認識を行う前
に、認識時と同様な処理によりローカルピークベ
クトルを算出し、時間軸を伸縮して加算して作成
してある。
Here, the standard pattern is that before performing recognition on one or more training voices for each category, local peak vectors are calculated using the same process as during recognition, and the time axis is expanded/contracted and added. It has been created.

すなわち標準パターンは重み付きローカルピー
クベクトルの時系列として格納される。本実施例
では標準パターンの数をMとする。
That is, the standard pattern is stored as a time series of weighted local peak vectors. In this embodiment, the number of standard patterns is M.

類似度計算部107において入力音声と標準パ
ターンとのフレーム間の類似度S(i,j)は、
次式(8)で求められる。
In the similarity calculation unit 107, the interframe similarity S(i,j) between the input voice and the standard pattern is
It is determined by the following equation (8).

ここでriは第iフレームの入力音声のローカル
ピークベクトル、Djは第jフレームの標準パタ
ーンの特徴ベクトル、ri tはriの転置、Dj tはDjの転
置を表わす。
Here, r i represents the local peak vector of the input speech of the i-th frame, D j represents the feature vector of the standard pattern of the j-th frame, r i t represents the transposition of r i , and D j t represents the transposition of D j .

なお、iとjの対応には非線形に対応させる方
法もあるが、本実施例では線形マツチングを行
い、m番目の標準パターン長をSLnとする。
Although there is a method of non-linearly matching i and j, in this embodiment linear matching is performed and the length of the m-th standard pattern is set to SL n .

このとき入力音声とm番目の標準パターンの類
似度S^nは次式(9)で求められる。
At this time, the degree of similarity S^ n between the input voice and the m-th standard pattern is obtained by the following equation (9).

上述の如くして、M個の標準パターン全てに対
して入力音声との類似度S^n(但しm=1〜M)を
算出する。
As described above, the degree of similarity S^ n (where m=1 to M) with the input voice is calculated for all M standard patterns.

〔判定処理〕〔Determination process〕

判定部109は類似度計算部107より出力さ
れる各標準パターンとの類似度S^n(但しm=1〜
M)を受け、その中でも最も類似度の高いものを
抽出し、抽出された類似度に対する標準パターン
のカテゴリー名を判定結果として識別し出力す
る。
The determining unit 109 determines the degree of similarity S^ n (where m = 1 to
M), the one with the highest degree of similarity is extracted, and the category name of the standard pattern corresponding to the extracted degree of similarity is identified and output as a determination result.

即ち、この判定処理は次式(10)で表わされる処理
によつて、 m0=arg max S^n……(10) なるm0を判定し、m0番目の標準パターンのカテ
ゴリ名を出力端子110へ出力する。
That is, this judgment process determines m 0 such that m 0 = arg max S^ n ...(10) by the process expressed by the following equation (10), and outputs the category name of the m 0th standard pattern. Output to terminal 110.

以上の説明では各処理をハード的に行なう場合
について説明したが、各処理をソフト的に行なう
ことも当然可能なものである。
In the above explanation, each process is performed using hardware, but it is of course also possible to perform each process using software.

(発明の効果) 以上、詳細に説明したように本発明によれば、
入力音声のスペクトル正規化後の特徴ベクトルか
ら窓ベクトルを求め、窓ベクトルをスムージング
処理し、前記スペクトル正規化後の特徴ベクトル
にスペクトル窓として乗算してからローカルピー
クベクトルを算出しているため、雑音によるロー
カルピークを音声のローカルピークと誤ることが
なく、各標準パターンとの類似度計算処理、判定
処理において精度の高い処理が行なわれ、その結
果認識精度の良い音声認識装置が実現できる。
(Effects of the Invention) As described above in detail, according to the present invention,
A window vector is obtained from the spectral-normalized feature vector of the input audio, the window vector is smoothed, and the spectral-normalized feature vector is multiplied as a spectral window before the local peak vector is calculated. The local peaks obtained by the method are not mistaken for the local peaks of the voice, and highly accurate processing is performed in the similarity calculation processing and determination processing with each standard pattern, and as a result, a speech recognition device with high recognition accuracy can be realized.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の1実施例の構成を示すブロツ
ク図、第2図は従来の音声認識方法のフローチヤ
ート、第3図は従来の入力信号の2値化を説明す
るための図、第4図は本発明の一実施例の周波数
分析に用いるバンドパスフイルタの周波数特性
図、第5図は本発明のローカルピークベクトル算
出部の構成を示すブロツク図、第6図a〜eは本
発明における入力音声のローカルピークベクトル
抽出の過程を説明するための図である。 102……周波数分析部、103……フレーム
電力算出部、104……音声区間検出部、105
……スペクトル正規化部、106……ローカルピ
ークベクトル算出部、107……類似度計算部、
108……標準パターンメモリ、109……判定
部、502……2値化演算部、503……スムー
ジング部、504……乗算演算部、505……極
大値抽出部。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention, FIG. 2 is a flowchart of a conventional speech recognition method, FIG. 3 is a diagram for explaining conventional binarization of an input signal, and FIG. Fig. 4 is a frequency characteristic diagram of a bandpass filter used for frequency analysis according to an embodiment of the present invention, Fig. 5 is a block diagram showing the configuration of a local peak vector calculation section of the present invention, and Figs. FIG. 3 is a diagram for explaining the process of extracting a local peak vector of input speech in FIG. 102... Frequency analysis section, 103... Frame power calculation section, 104... Voice section detection section, 105
... Spectrum normalization section, 106 ... Local peak vector calculation section, 107 ... Similarity calculation section,
108... Standard pattern memory, 109... Judgment section, 502... Binarization operation section, 503... Smoothing section, 504... Multiplication operation section, 505... Maximum value extraction section.

Claims (1)

【特許請求の範囲】 1 所定周期の音声フレーム毎に入力音声を周波
数分析し入力音声の周波数成分のベクトルとして
の特徴ベクトルを抽出する処理と、 入力音声の前記特徴ベクトルを当該特徴ベクト
ルの属する音声フレームにおける最小二乗近似直
線を用いてスペクトル正規化しスペクトル正規化
特徴ベクトルを抽出する処理と、前記スペクトル
正規化特徴ベクトルの各成分について当該成分が
正であれば“1”として0以下の場合は“0”と
して変換した2値の各成分からなる窓ベクトルを
抽出する処理と、 前記窓ベクトルをスムージングしスムージング
窓ベクトルを抽出する処理と、 前記スペクトル正規化特徴ベクトルの各成分と
前記スムージング窓ベクトルの各成分との積を算
出し窓のかかつた特徴ベクトルとして抽出する処
理と、 前記窓のかかつた特徴ベクトルについて周波数
方向に極大値の有無を判定し極大値すなわちロー
カルピークとなるチヤネルに対応する成分を
“1”としその他を“0”とする2値のローカル
ピークベクトルに変換する処理と、 入力音声の前記ローカルピークベクトルの時系
列と予め用意された複数の標準パターンとの類似
度計算を行ない入力音声のカテゴリーを判定する
処理とを有することを特徴とする音声認識方法。
[Claims] 1. A process of frequency-analyzing the input voice for each voice frame of a predetermined period and extracting a feature vector as a vector of frequency components of the input voice, and converting the feature vector of the input voice to the voice to which the feature vector belongs. A process of normalizing the spectrum using a least squares approximation straight line in the frame and extracting a spectrum normalized feature vector, and for each component of the spectrum normalized feature vector, if the component is positive, it is set as "1", and if it is less than or equal to 0, it is set as " A process of extracting a window vector consisting of each binary component converted as 0'', a process of smoothing the window vector to extract a smoothing window vector, and a process of extracting a smoothing window vector by smoothing the window vector, The process of calculating the product with each component and extracting it as a windowed feature vector, and determining the presence or absence of a local maximum value in the frequency direction for the windowed feature vector, and determining the component corresponding to the channel that has a local maximum value, that is, a local peak. A process of converting into a binary local peak vector with "1" for some and "0" for others, and calculation of the similarity between the time series of the local peak vector of the input audio and multiple standard patterns prepared in advance. 1. A speech recognition method, comprising: determining a category of input speech.
JP22487885A 1985-09-26 1985-10-11 Voice recognition Granted JPS6286399A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (en) 1985-10-11 1985-10-11 Voice recognition
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
DE8686113175T DE3683343D1 (en) 1985-09-26 1986-09-25 METHOD AND DEVICE FOR VOICE RECOGNITION.
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (en) 1985-10-11 1985-10-11 Voice recognition

Publications (2)

Publication Number Publication Date
JPS6286399A JPS6286399A (en) 1987-04-20
JPH0448400B2 true JPH0448400B2 (en) 1992-08-06

Family

ID=16820582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22487885A Granted JPS6286399A (en) 1985-09-26 1985-10-11 Voice recognition

Country Status (1)

Country Link
JP (1) JPS6286399A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752356B2 (en) * 1991-08-28 1995-06-05 株式会社エイ・ティ・アール自動翻訳電話研究所 Speaker adaptation method

Also Published As

Publication number Publication date
JPS6286399A (en) 1987-04-20

Similar Documents

Publication Publication Date Title
US4918735A (en) Speech recognition apparatus for recognizing the category of an input speech pattern
CN103236260B (en) Speech recognition system
JPS634200B2 (en)
EP1141939B1 (en) System and method for segmentation of speech signals
CN115171716A (en) Continuous voice separation method and system based on spatial feature clustering and electronic equipment
EP0474496B1 (en) Speech recognition apparatus
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
JP3354252B2 (en) Voice recognition device
JP3039623B2 (en) Voice recognition device
JPH0448400B2 (en)
JPH0556520B2 (en)
JP2992324B2 (en) Voice section detection method
WO2007041789A1 (en) Front-end processing of speech signals
CN116229988A (en) A method, system and device for voiceprint recognition and authentication of personnel in a power dispatching system
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
KR0176751B1 (en) Feature Extraction Method of Speech Recognition System
JP2001083978A (en) Voice recognition device
JP3023135B2 (en) Voice recognition device
JPS61137199A (en) Recognition of word voice
JPH0573090A (en) Speech recognizing method
JPS625298A (en) Voice recognition equipment
JP3450972B2 (en) Pattern recognition device
JPH0451840B2 (en)
JPS61230199A (en) Voice recognition
JPS62159195A (en) Voice pattern generation