JPS58145999A - Recognition of voice - Google Patents
Recognition of voiceInfo
- Publication number
- JPS58145999A JPS58145999A JP57029472A JP2947282A JPS58145999A JP S58145999 A JPS58145999 A JP S58145999A JP 57029472 A JP57029472 A JP 57029472A JP 2947282 A JP2947282 A JP 2947282A JP S58145999 A JPS58145999 A JP S58145999A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- supplied
- circuit
- word
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
本発明は音声認識に関し、f#蜆な方法を提案するもの
である。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to speech recognition and proposes an f# method.
音声認識においては、特定話者に対する単語認識による
ものがすでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発声させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶(登録)しておく。そして特定話者が発声し
たときその音響パラメータを検出し、登録された各単語
の音物パラメータと比較し、これらが一致したときその
単語であるとのg誠を行う。In speech recognition, methods based on word recognition for specific speakers have already been put into practical use. This involves having a specific speaker say all the words to be recognized, and detecting and storing (registering) the acoustic parameters using a bandpass filter bank or the like. Then, when a specific speaker utters a utterance, its acoustic parameters are detected and compared with the sound parameters of each registered word, and when these match, it is determined that the word is the same.
この上うな装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜gQm8ai
)毎に抽出される音響パラメータの時系列を伸縮し1時
間軸を整合させる。これによって発声速度の変動に対処
させるよさにしている。In addition, in such a device, if the time axis of the speaker's utterance is different from the time of registration, the time axis of the speaker's utterance is different from the time of registration,
), the time series of acoustic parameters extracted for each interval is expanded or contracted to align the 1-time axis. This makes it possible to cope with fluctuations in speaking speed.
ところがとの装置の場合、認識対象とする全ての単IN
Kついてその単語の全体の音響パラメータをあらかじめ
登母格納しておかなければならず、膨大な記憶容量と演
算を必要とする。このため認識語い数に限界があった。However, in the case of the above device, all single INs to be recognized
The entire acoustic parameters of the word must be stored in advance, which requires a huge amount of storage capacity and calculations. For this reason, there was a limit to the number of words that could be recognized.
これに対して音韻(日本飴でいえばロー!字表記したと
きのA、 I 、U、 E、0.に、 8.T等)ある
いは音@ (KA 、 KI 、 K1等)単位での認
識を行うことが提案されている。しかしこの場合K、母
音岬の準定常部を有する音韻の認識は容易であっても、
破裂音(K、T、P尋)のように音韻的特徴が非常に短
いものを音響パラメータのみで一つの音韻に特定するこ
とは極めて困難である。On the other hand, recognition in terms of phoneme (in Japanese candy, when written in the ro! character, A, I, U, E, 0., 8.T, etc.) or sound @ (KA, KI, K1, etc.) It is proposed to do so. However, in this case, K, even though it is easy to recognize the phoneme with the quasi-stationary part of the vowel cape,
It is extremely difficult to identify plosives (K, T, P fathom), which have very short phonetic features, as a single phoneme using only acoustic parameters.
そこで従来は、各音節ごとに離散的に発音された音声を
登帰し、離散的に発声された音声を単語wtIm!と同
様に時間軸整合させてljg鐵を行っており、特殊な発
声を行うために限定された用途でしか利用できなかった
。Conventionally, the discretely pronounced sounds for each syllable are recorded, and the discretely pronounced sounds are converted into the word wtIm! Similarly, the ljg iron was performed in a time-aligned manner, and could only be used for limited purposes to produce special vocalizations.
さらに不特定話者をs1wIt対象とした場合には、音
響パラメータに個人差による大きな分散があり、上述の
ように時間軸の整合だけでは認識を行うことができない
。そこで例えば一つの単語について複数の音響パラメー
タを登録して近似の青畳パラメータを@緻する方法や、
単語全体を同定次元のパラメータに変換し、識別函数に
よって判別する方法が提案されているが、いづれも膨大
な記憶容量な必費としたり、演算量が多く、i&ili
織飴い数が伽めて少くなってしまう。Furthermore, when an unspecified speaker is targeted for s1wIt, there is a large variance in the acoustic parameters due to individual differences, and recognition cannot be performed only by matching the time axis as described above. Therefore, for example, there is a method of registering multiple acoustic parameters for one word and elaborating the approximate Aotatami parameters.
Methods have been proposed in which the entire word is converted into identification-dimensional parameters and discriminated using a discrimination function, but these methods require a huge amount of storage capacity, a large amount of calculation, and are difficult to implement in i&ili.
The number of woven candy will be significantly reduced.
本発明はこのような点にかんがみ、不特定話者に対して
も、容易かつ確実に音声認識を行えるようにした、新規
な音声認識方法を提案するものである。以下に図面を参
照しながら、本発明の一実施例について説明しよう。In view of these points, the present invention proposes a novel speech recognition method that allows speech recognition to be easily and reliably performed even for unspecified speakers. An embodiment of the present invention will be described below with reference to the drawings.
ところで音韻の発声現象を観察すると、母音や摩擦音(
8,H勢)等の音韻は長く伸して発声することができる
32例えば1はいゝという発声を考えた場合に、この音
韻は第1図Aに示すようK、「無音→H→A→I→無音
」に変化する。これに対して同じ1はい10発声を第1
図Bのように行うこともできる。ここでH,A、Iの準
定f部の長さは発声ととに変化し、これKよって時間軸
の変動を生じる。ところがこの場合に1各音韻間の過渡
部[1線で示す)は比較的時間軸の変動が少いことが判
明した。By the way, when we observe the phenomenon of phonological vocalization, we find that vowels and fricatives (
For example, when considering the pronunciation of ``1'', this phoneme is pronounced as K, ``silence → H → A → Changes from “I → Silence”. In response, make the same 1 yes 10 utterance as the first
It can also be done as shown in Figure B. Here, the lengths of the quasi-fixed f parts of H, A, and I change depending on the utterance, and this causes a fluctuation in the time axis. However, in this case, it has been found that the transition part between each phoneme (indicated by one line) has relatively little variation in the time axis.
本願発明者はこの点に着目したものである。The inventor of the present application has focused on this point.
第2図において、マイクーフオン(1)に供給された音
声信号がマイクアンプ(2)、5.5kHK以下のロー
パスフィルタ(3)を通じてA、D変換回路(4)K供
給される。またり謬ツク発生器(5)からのIL5kH
1(80声(6)間隔)のす/プリンダク四ツクがAD
変換回路(4)に供給され、このタイ書ングで音声信号
がそれぞれ所定ビット数(=1ワード)のデジタル信号
に変換される。この変、換された音声信号が5×64ワ
ードのレジスタ(6)K供給される。またクロツタ発生
器(5)からの5.12輌器間隔のフレームクロックが
5進カウンタ(7)K供給され、このカウント値がレジ
スタ(6)に供給されて音声信号が64ワードずつシフ
トされ、シフトされた4X64ワードの信号がレジスタ
(6)から取り出される。In FIG. 2, an audio signal supplied to a microphone amplifier (1) is supplied to an A/D conversion circuit (4) through a microphone amplifier (2) and a low-pass filter (3) of 5.5 kHz or less. IL5kHz from Matari error generator (5)
1 (80 tones (6) intervals) Nosu/Prindak Yotsuku is AD
The audio signals are supplied to a conversion circuit (4), and each audio signal is converted into a digital signal of a predetermined number of bits (=1 word) by this tie writing. This converted audio signal is supplied to a 5×64 word register (6)K. In addition, a frame clock with a 5.12-frame interval from the clock generator (5) is supplied to a quinary counter (7), and this count value is supplied to a register (6) to shift the audio signal by 64 words. The shifted 4×64 word signal is taken from register (6).
このレジスタ(6)から取り出された4 X 64 =
254!ワードの信号が高速フーリエ変換()’FT
)回路(8)K供給される。ここでこのFF7回路(8
)において、例えはTの時間長に含まれるn1個のす/
プリングデータによつ【表される波形函数を
U n fT(t) −(
Itとしたとき、これなフーリエ変換して、〒
=U ln fT(f) 十j U zn fT(f)
=−(21の信号が得られる。4 x 64 = taken from this register (6)
254! The word signal undergoes a fast Fourier transform ()'FT
) Circuit (8) K is supplied. Here, this FF7 circuit (8
), the example is n1 times included in the time length of T/
The waveform function represented by the pulling data is U n fT(t) −(
When It is assumed, this Fourier transform becomes 〒 =U ln fT(f)
=-(21 signals are obtained.
さらにこのFF7回路(8)からの信号がノ(ワースベ
クトルの検出回路(9)K供給され、
10” l =U”s n fT(f) +uinft
(t) H4+44H(a)のパワースペクト
ル信号が取り出される。ここでフーリエ変換された信号
は周波数軸上で対称になつ【いるので、フーリエ変換に
よって取り出されるIIf個のデータの半分は冗長デー
タである。そとで半分のデータを排除してinf個のデ
ータが取り出される。すなわち上述0FFT囲路(8)
に供給された2s6ワードの信号が変換されてH8ワー
ドの/(ワースベクトル信号が取り出される。Further, the signal from this FF7 circuit (8) is supplied to the worst vector detection circuit (9), and 10"l = U"s n fT(f) +uinft
(t) The power spectrum signal of H4+44H(a) is extracted. Here, since the Fourier transformed signal is symmetrical on the frequency axis, half of the IIf data extracted by the Fourier transform is redundant data. Then half of the data is removed and inf pieces of data are extracted. That is, the above-mentioned 0FFT enclosure (8)
The 2s6 word signal supplied to is converted and the H8 word /(worth vector signal is taken out.
このパワースペクトル信号がエンファシス回路−に供給
されて聴感上の補正を行うための重み付けが行われる。This power spectrum signal is supplied to an emphasis circuit and weighted for auditory correction.
ここで重み付けとしては、例えば周波数の高域成分を増
強する補正が行われる。Here, as the weighting, for example, correction is performed to enhance high frequency components.
この重み付けされた信号が帯域分割−路収りに供給され
、聴感特性に合せた周波数メルスケールに応じて例えば
32の帯域に分割される。ここで)(ワースベクトルの
分割点と異なる場合にはその信号が各帯域に按分され【
それぞれの帯域の信号の量に応じた信号が取り出される
。これによって上述の128ワードのパワースペクトル
信号が、青畳的特徴を保存したま京32ワードに圧縮さ
れる。This weighted signal is supplied to the band division filter, and is divided into, for example, 32 bands according to a frequency mel scale matched to auditory characteristics. If the dividing point is different from the dividing point of the Worth vector, the signal is divided into each band proportionally.
Signals corresponding to the amount of signals in each band are extracted. As a result, the above-mentioned 128-word power spectrum signal is compressed into 32 words that preserve the blue-tatami characteristics.
この信号で対数囲路aのに供給され、各信号の対数値に
変換される。これによって上述のエンファシス回路a呻
での重み付は等による冗長度が排除される。ここでこの
対数パワースペクトルtog I l4t(f)I
・・−・・(4)
をスペクトルパラメータX(1)(ム二〇、1・叩・3
1)と称する。This signal is supplied to the logarithm circuit a, and is converted into a logarithmic value of each signal. This eliminates the redundancy due to weighting in the above-mentioned emphasis circuit. Now this logarithmic power spectrum tog I l4t(f) I
・・・-・・・(4)
Spectral parameter
1).
このスペクトルパラメータx(1)が離散的フーリエ変
換(DFT)回路(13に供給される。ここでこのDF
T−絡QIにおいて、例えば分割された帯域の数をMと
すると、このM次元スペクトルパラメータX山(i=0
,1・・・・・・M−1)−を2M点の実数対称パラメ
ータとみなしCDFTを行う。従って1M
へ−
満=0,1・・・・・・2M−1
となる。さらKこのDFTを行う函数は偶画数とみなさ
れるため
goi*w*
=顛 □−
輩
となり、これらより
となる。このDFTによりスペクトルの包絡特性を表構
する音響パラメータが抽出される。This spectral parameter x(1) is supplied to a discrete Fourier transform (DFT) circuit (13, where this DF
In T-connection QI, for example, if the number of divided bands is M, then this M-dimensional spectral parameter X mountain (i = 0
, 1 . . . M-1)- is regarded as a real symmetric parameter of 2M points, and CDFT is performed. Therefore, 1M = 0, 1...2M-1. Furthermore, since the function that performs this DFT is considered to have an even number of strokes, goi*w* = 顛□-, and from these. This DFT extracts acoustic parameters representing the envelope characteristics of the spectrum.
このよ5KL、てDFTされたスベタトツムバラメfi
X<i> Kツイテ、0−P−1(fiえばr=8)
次までのV次元の値を取り出し、これをローカルパラメ
ータL (p) (p=0. 1・・−・・P−1)と
すると・・・(7)
となり、ここでスペクトルパラメータが対称であること
を考慮して
X(轟) ” X(xli−i−x )
−−−−(8)とおくと、ローカルパラメータL
(p)は・・・・・・(9)
但し、p工0,1・・・・・・P−1
となる。このよ5KL、て32ワードの信号がr(例え
ば8)ワードに正編される。This is 5KL, the smooth and smooth fi that was DFT
X<i>K tweet, 0-P-1 (r=8 if fi)
If we take the values of the V dimension up to the next and set this as the local parameter L (p) (p=0.1...P-1)...(7), where the spectral parameters are symmetrical. Considering a certain thing, X (Todoroki) ” X (xli-i-x)
-----If (8) is set, the local parameter L
(p) is...(9) However, p is 0,1...P-1. This 5KL, 32-word signal is divided into r (for example, 8) words.
このローカルパラメータL (p)がメモリ装置Iに供
給される。このメモリ装置Iは1行rワードの記憶部が
例えば16行マトリクス状に配されたもので、ローカル
パラメータL(p)か各次元ととKJI11次記憶され
ると共に、上述のクロック発生器(5)からの5.12
輌1間隔のフレームクロックが供給されて、各行のパラ
メータが順次横方向ヘシフトされる。This local parameter L (p) is supplied to the memory device I. This memory device I has a storage section of r words per row arranged in a matrix of 16 rows, for example, and stores the local parameter L(p) or each dimension in KJI 11th order, and also stores the above-mentioned clock generator (5 ) from 5.12
A frame clock at intervals of one vehicle is supplied, and the parameters of each row are sequentially shifted in the horizontal direction.
これにより【メモリ装置Iには5.12m5c間隔のr
次元のローカルパラメータ、L(p)が167レーム(
81,92m5ec)分記憶され、フレームクロックご
とに順次新しいパラメータに更新される
さらにエンファシス1路a匈からの重み付けされた信号
が帯域分割−路C11)に供給され、上述と同様にメル
スケールに応じてN(例えば20 )の帯域に分割され
、それぞれの帯域の信号の量に応じた信号■佃)(ll
=o、1・・−・・N−1)が取り出される。この信号
がバイアス付き対数回路5(至)k供給されてV’(n
) = ”g(V(n) + B )
・・= Hが形成される。また信号VOI)が累算回
路(2)に供給されて
て
v−=jog(V1十B)
−・・・・・Qυが形成される。そしてこ
れらの信号が演算回路(財)に供給されて
V(n)=マ蟲−v色) −a邊が
形成される。As a result, [Memory device I has an r space of 5.12m5c apart.
The local parameter of the dimension, L(p), is 167 remes (
81,92m5ec) is stored and updated to new parameters sequentially at every frame clock.Furthermore, the weighted signal from the emphasis 1 path C11) is supplied to the band division path C11), and the weighted signal is stored according to the mel scale in the same way as described above. The signal is divided into N (for example, 20) bands, and the signal is divided into N (for example, 20) bands according to the amount of signals in each band.
=o, 1...N-1) are extracted. This signal is supplied to the biased logarithm circuit 5 (to) k and V'(n
) = ”g(V(n) + B)
...=H is formed. Also, the signal VOI) is supplied to the accumulator circuit (2) and v-=jog(V10B)
−...Qυ is formed. These signals are then supplied to an arithmetic circuit (product) to form V(n)=ma-v color)-a side.
ここで上述のような信号V(n)を用いることにより、
この信号は音韻から音韻への変化に対して各次(n=o
、1・・・・−・N−1)の変化か同程度となり、音韻
の種類による変化量のばらつきを回避できる。Here, by using the signal V(n) as described above,
This signal corresponds to each order (n=o
, 1 .
また対数をとり演算を行って正規化パラメータV(II
)を形成したことにより、入力音声のレベルの変化によ
るパラメータV(n)の変動が排除される。さらにバイ
アスBを加算して演算を行ったことにより、仮りに[3
−* ooとするとバフメータv01)→0となること
から明らかなように、入力音声の微少成分(ノイズ勢)
に対する感度を下げることができる。In addition, the logarithm is taken and the calculation is performed to normalize the parameter V(II
) eliminates fluctuations in the parameter V(n) due to changes in the level of the input audio. By further adding bias B and performing the calculation, it becomes [3
-* If oo, the buff meter v01) → 0. As is clear from this, the minute components of the input voice (noise)
sensitivity to can be lowered.
このパラメータV(A”)がメモリ装置(ハ)に供給さ
れ′C2W+1(例えば9)フレーム分が記憶される。This parameter V(A'') is supplied to the memory device (c) and 'C2W+1 (for example, 9) frames are stored.
この記憶された信号が演算回路(ホ)に供給されてYn
、t−1,:′ffFN(vQl)(■))・・・・・
・(B)但し、GFN=(I;−實+重≦■≦w−)−
1)が形成され、この信号とバフメータy<t>が演算
回路(財)K供給されて
・・・・・・a荀
が形成される このT(t)が過渡点検出パラメータで
あって、とのT(t)がビータ判別回路(至)に供給さ
れて、入力音声信号の音韻の過渡点が検出される。This stored signal is supplied to the arithmetic circuit (e) and Yn
, t-1,:'ffFN(vQl)(■))...
・(B) However, GFN = (I; - fact + weight ≦■≦w-) -
1) is formed, and this signal and the buff meter y<t> are supplied to the arithmetic circuit K to form a. This T(t) is the transient point detection parameter, T(t) is supplied to the beater discrimination circuit (to), and the transition point of the phoneme of the input audio signal is detected.
ここでパラメータT(t)が、フレー五tを挾んで前後
W7レームずつで定義されているので、不要な凹凸やf
IkILを生じるおそれがない。なお第3wJは例えば
0ゼー“とい5発音を、サンプリング周波数ILikH
i、l冨ビットデジタルデータとし、5.1ハlフレ一
ム周期で26藝点のFFTを行い、帯域数h=鵞O,バ
イアxBm6.検出7レーム数2W+1w−1で上述の
検出を行った場合を示している。図中Aは音声波形、B
は音韻、Cは検出信号であって、「無音−4Z J
l” Z−4K J 「g −4RJ「R→0」 「
0→無音」の各過渡部で顕著なピークを発生する。ここ
で無音部にノイズによる多少の凹凸が形成されるかこれ
はバイアスBを太き(することにより破liA図示のよ
うに略OKなる。Here, the parameter T(t) is defined by W7 frames before and after frame 5 t, so unnecessary unevenness and f
There is no risk of producing IkIL. Note that the third wJ is, for example, 5 pronunciations such as 0 zee, and the sampling frequency is ILikH.
i, l-bit digital data, perform FFT of 26 points with 5.1 half-frame period, number of bands h = 0, bias x Bm6. This shows the case where the above-mentioned detection is performed with the number of detected 7 frames being 2W+1w-1. In the figure, A is the audio waveform, B
is the phoneme, C is the detection signal, and “silence-4Z J
l" Z-4K J "g -4RJ "R→0""
A remarkable peak occurs at each transition from 0 to silence. Here, if some unevenness is formed in the silent part due to noise, this can be substantially corrected by increasing the bias B (as shown in the diagram).
この過液点検出信号T(t)がメ毫す装置Iに供給され
、この検出信号のタイ櫂ンダに相白する一一カルバツメ
ータL(P)が8誉目の行にシフトされた時点でメ毫す
装置1の読み出しが行われる。ここでメモリ鋏*aiの
読み出しは、各次元Pごとに16フレ一五分の信号が横
方向に読み出される。そして読み出された信号がDFT
回路Q5に供給される。This overflow point detection signal T(t) is supplied to the measuring device I, and at the time when the 11 Kalbat meter L(P), which corresponds to the tie liner of this detection signal, is shifted to the 8th row. Reading of the printing device 1 is performed. Here, when reading out the memory scissors *ai, signals corresponding to 16 frames and 15 minutes are read out in the horizontal direction for each dimension P. Then, the read signal is DFT
It is supplied to circuit Q5.
この回路(lstmおいて上述と同様にDFTが行われ
、音響パラメータの時系列変化の包絡特性が抽出される
。とのDFTされた信号の内から0〜Q−1(例えばQ
=3)次までのQ次元の値を取り出す。In this circuit (lstm, DFT is performed in the same manner as described above, and the envelope characteristics of the time-series changes in acoustic parameters are extracted.
=3) Extract the values of the Q dimension up to the next one.
このDFTを各次元Pごとに行い、全体でPxQ(=2
4)ワードの過渡点パラメータK(p、 Q)(p=o
、1・・・・・・p−1) (Q=0.1・叩・Q−1
)が形成される。ここで、K(0,0)は定数なので、
p=oのときKq=1−Qとしてもよい。This DFT is performed for each dimension P, and the total is PxQ (=2
4) Word transition point parameter K(p, Q) (p=o
, 1...p-1) (Q=0.1・hit・Q-1
) is formed. Here, K(0,0) is a constant, so
When p=o, Kq may be set as 1-Q.
すなわち第4図において、Aのような入力音声信号(H
AI)に対してBのような過渡点が検出されている場合
は、この信号の全体のパワースペクトルはCのようにな
っている。そして例えば[H→A]の過渡点のパワース
ペクトルがDのようであったとすると、この信号がエン
ファシスされてEのようになり、メルスケールで圧縮さ
れてFのようになる。この信号がDFTされてGのよう
になり、Hのよさに前後の16フレ一五分がマトリクス
され、この信号が順次時間軸を方向K DFTされて過
渡点パラメータK(psq)が形成される。That is, in FIG. 4, if an input audio signal like A (H
If a transient point like B is detected for AI), the entire power spectrum of this signal is like C. For example, if the power spectrum at the transition point of [H→A] is as shown in D, this signal is emphasized to become as shown in E, and compressed using the mel scale as shown in F. This signal is subjected to DFT to become something like G, 16 frames and 15 minutes before and after are matrixed to the quality of H, and this signal is sequentially DFT'd in the direction of the time axis to form a transient point parameter K (psq). .
この過渡点パラメータK(p、q)がマハラノビス距離
算出回路QIK供給されると共に、メモリ装置aηから
のクラスタ系数が回路(1Gに供給され【各クラスタ系
数とのマハラノビス距離が算出される。This transient point parameter K (p, q) is supplied to the Mahalanobis distance calculation circuit QIK, and the cluster system from the memory device aη is supplied to the circuit (1G) [the Mahalanobis distance with each cluster system is calculated].
ここでクラスタ系数は複数の話者の発音が上述と同様に
過渡点パラメータを抽出し、これを音韻の自答に応じて
分類し統計解析して得られたものである。Here, the cluster system is obtained by extracting transition point parameters of the pronunciations of a plurality of speakers in the same way as described above, and classifying and statistically analyzing them according to the self-answered phonemes.
そしてこの算出されたマハッノビス距離が判定回路0に
供給され、検出された過渡点が、何の音韻から何の音韻
への過渡点であるかが判定され、出力端子a鐘に取り出
される。The calculated Mahanobis distance is then supplied to the determination circuit 0, which determines which phoneme to which phoneme the detected transition point is a transition point, and outputs it to the output terminal a.
すなわち例えば1はい”1いいえ”0(ゼロ)1〜@9
(キエウ)1012単語について、あらかじめ多数(百
Å以上)の話者の音声を前述の装置に供給し、過渡点を
検出し過渡点パラメータを抽出する。この過渡点パラメ
ータを例えば第5図に示すようなテーブルに分類し、こ
の分#(クラスタ)ととに統計解析する。図中*は無音
を示す。For example, 1 yes "1 no" 0 (zero) 1~@9
(Kieu) For 1012 words, the voices of a large number of speakers (more than 100 Å) are supplied in advance to the above-mentioned device, a transition point is detected, and a transition point parameter is extracted. The transient point parameters are classified into a table as shown in FIG. 5, for example, and statistically analyzed into # (cluster). * in the figure indicates silence.
これらの過渡点パラメータについて、任意のす(1)
/プルをRy、 B (r := 112”=・24
) (”はクラスタ指標で例えば―=1は*→H,a=
2はH→Aに対応する。―は話者番号)として、共分散
マトリクス・・−・ae
但し、R?)−E(Rシ5)
Eはアンナンブル平均を針数し、こ
の逆マトリクス
(1) (a)−1
Br、 s” (At、 u)r、 s
−−−Qiを求める。For these transition point parameters, any S (1) /pull is Ry, B (r := 112"=・24
) (” is a cluster index, for example -=1 is *→H, a=
2 corresponds to H→A. - is the speaker number), and the covariance matrix...ae However, R? )−E(Rshi5) E is the number of stitches of the unnumbered average, and this inverse matrix (1) (a)−1 Br, s” (At, u) r, s
--- Find Qi.
ここで任意の過渡点パラメータに、とクラスタ1との距
離が、マハラノビスの1n
(K・″″RRソ゛ ・・・・・・Q7)で求
められる。Here, the distance between an arbitrary transition point parameter and cluster 1 is determined by Mahalanobis' 1n (K·″″RRso゛ . . . Q7).
従ってメ%す装置Qηに上述のB、、 s及びlを求0
めて記憶しておくことにより、マハラノビス距離算出回
路(IQにて入力音声の過渡点パラメータとのマハラノ
ビス距離が算出される。Therefore, by determining and storing the above-mentioned B, s, and l in the memory processing device Qη, the Mahalanobis distance between the transition point parameter of the input voice and the input voice is calculated by the Mahalanobis distance calculation circuit (IQ).
これによつ″′C回路収Qから入力音声の過渡点ごとに
各クラスタとの最小距離と過渡点の順位が堆り出される
。とれらが判定囲路(IIK供給され、入力音声が無音
になった時点において認識判定を行う。As a result, the minimum distance to each cluster and the ranking of the transition points are extracted from the C circuit loss Q for each transition point of the input audio. A recognition judgment is made when the
例えば各単語ととに、各過渡点パラメータとクラスタと
の最小距離の平方根の平均値による単語距離を求める。For example, for each word, the word distance is determined by the average value of the square root of the minimum distance between each transition point parameter and the cluster.
?jお過渡点の一部脱落を考慮し【各単語は脱落を想定
した複数のタイプについて単語距離を求める。ただし過
渡点の順位関係がテーブルと異なっているものはリジェ
クトする。そしてこの単語距離が最小になる単語を認識
判定する。? j Considering the omission of some of the transition points, [calculate the word distance for multiple types assuming that each word is omitted. However, if the ranking relationship of the transition points is different from the table, it will be rejected. Then, the word with the minimum word distance is recognized and determined.
こうして音声認識が行われるわけであるが、本発明によ
れば音声の過一点の音韻の変化を検出しているので、時
間軸の変動がなく、不特定話者について良好なg繊を行
5ことができる。Speech recognition is performed in this way.According to the present invention, changes in the phoneme at one point in the speech are detected, so there is no change in the time axis, and it is possible to perform good g-strings for unspecified speakers. be able to.
また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば24次元でw識
することができ、glltl−極めて容易かつ正確に行
うことができる。Furthermore, by extracting the parameters as described above at a transition point, it is possible to identify one transition point in, for example, 24 dimensions, which can be done extremely easily and accurately.
なお上述の装置において120名の話者にて学習を行い
、この120名以外の話者にて上述の12単語について
実験を行った結果、96.5%の平均wl識率が得られ
た。In addition, as a result of learning with the above-mentioned device using 120 speakers and conducting experiments on the above-mentioned 12 words with speakers other than the 120 speakers, an average wl recognition rate of 96.5% was obtained.
さらに上述の例では1はい1の「H→AJど8(ハチ)
0の「H−*AJは同じクラスタに分類可能である。従
って認識すべき言語の音韻数をαとして・1oLC1個
のクラスタをあらかじめ計算してクラスタ係数をメモリ
装fIL拳?)K記憶させておけば、種薯の単一の認識
に適用でき、多くの語いの認識を容易に行5ことができ
る。Furthermore, in the above example, 1 is 1's "H → AJ do 8 (Hachi)"
0's "H-*AJ" can be classified into the same cluster. Therefore, assuming the number of phonemes of the language to be recognized as α, 1oLC1 clusters are calculated in advance and the cluster coefficient is stored in memory. If this method is established, it can be applied to a single recognition of a seed yam, and recognition of many words can be easily performed.
【図面の簡単な説明】
菖11Qは音声のa明のための図、第2図は本発明の一
例の系統卸、縞3図〜謔5図はその説明のための図であ
る。
(1)ハマイタロフォン、+31はローパスフィルタ、
(4)はAD変換回路、(5)はクロック発生器、(6
)はレジネタ、(7)はカクンタ、(8)は高速フーリ
エ変換囲路、(9)はパワースペクトル検出回路、ae
はエンファシス回路、aeは帯域分割回路、a4は対I
I[回路、03.6勺は離散的7−リエ変換閏路、軸、
@りはメモリ装置、軸はマハツノビス距離算出回路、錦
は判定回路、0は出力端子、なυ〜(至)は過渡点検出
のための回路である。
第5 i”1
手続補正書
昭和s8年 5月 25日
1′1′−件の表示
昭和s7年特許願第 !−412号
2、発明の名称 音声−織方法
3、補正、をする者
事件との関係 特許出願人
住所 東京部品用区北品用6丁目7番35号名称(21
8) ソニー株式会社
代表取締役 大 賀 典 雄
6、補止により増加する発明の数
(1)明細書中、嬉7119行F2M4点」とあるな「
2M−1点」と訂正する。
(2)同、同]110行1DFT&行5」とあるな「2
M−2点のDriを行なう」と訂正する。
(3)同、同真11〜14行
[x(、、、)−7玄1)/”
i−O謹
=S二X(i)W[f)’ di ・・・・・(5
)諺m
mm0.1・・・・−2M−IJとあるなmmo、1.
・・・・・2ト3」と訂正する。
(4)岡、菖8勇1行〜2行
i
[W mm(悲士匹)
1M4 2M−雪
=偏(五」二!−)と訂正する。
−1
(5) 岡、同114行
[X(m) = ”ff’X(t)aimす1Jとある
をi=@ 菖
(6)同、同負1l−Is行
π・1−p
r L<p>−五、xO)鴎]「
」
とあるな
+7) rllj、第93N2行
r X(i) = X (sM−i−t)・・・・・・
・(8)」とあるな「X(i) =−X (−一息−り
」と訂正する・(8)同、同j14行
とあるな
(9)同、第10貴10行
aO同、Mlllkl!i行ry<th>Jとあるをr
Ycn) Jと訂正する。
aυ 同、同jll 17行
ag 同、第131111行「定数なので」とあるを
「音声鼓形のパワーを表現しているので、パワー正規化
のため」と訂正する。
as 同、菖14116 、7 、8行にソtLソt
L r/jスタ系数」とあるV「クラスタ係数」と訂正
する。
Q4 同、菖17116行「96.5%」とあるをr
9s、zう」と訂正する。
as 同、同jal1行rcLCm個」とあるなrc
iPs個程度」と訂正する。
以上[BRIEF DESCRIPTION OF THE DRAWINGS] The irises 11Q are diagrams for explaining audio atomization, FIG. 2 is a diagram showing a system diagram of an example of the present invention, and diagrams 3 to 5 are diagrams for explaining the same. (1) Hamaitalophone, +31 is low pass filter,
(4) is an AD conversion circuit, (5) is a clock generator, (6
) is a register, (7) is a kakunta, (8) is a fast Fourier transform circuit, (9) is a power spectrum detection circuit, ae
is an emphasis circuit, ae is a band division circuit, a4 is a pair I
I [circuit, 03.6 is a discrete 7-lier transform tunnel, axis,
@ is a memory device, the axis is a Machatsunobis distance calculation circuit, the brocade is a determination circuit, 0 is an output terminal, and υ ~ (to) is a circuit for detecting a transition point. No. 5 i”1 Procedural Amendment May 25, 1939 Showa S8 1'1' - Indication of Patent Application No. !-412 2, Title of Invention Sound - Weaving Method 3, Amendment Relationship with Patent Applicant Address: 6-7-35, Kitashina-yo, Tokyo Parts-Yo-ku Name (21
8) Norio Ohga, Representative Director of Sony Corporation 6. The number of inventions will increase due to the supplement (1) In the specification, line 7119, F2M 4 points.''
2M-1 point,” he corrected. (2) Same, same] 110 lines 1 DFT & line 5”
Do a Dri for M-2 points,” he corrected. (3) Same, Doshin lines 11-14 [x(,,,)-7Gen1)/"i-O謹=S2X(i)W[f)' di......(5
) Proverb m mm0.1...-2M-IJ mmo, 1.
...2 to 3," he corrected. (4) Oka, Iris 8 Yu lines 1-2 i [W mm (traitors) 1M4 2M-yuki=biased (five'' two!-) Corrected. -1 (5) Oka, same line 114 [X(m) = "ff'L<p>-5, xO) Seagull] "" +7) rllj, line 93N2 r X(i) = X (sM-i-t)...
・(8)'' It is corrected as ``X(i) =-X (-breath-ri)'' ・(8) Same, same line j14 (9) Same, 10th line 10 aO same, Mlllkl! i line ry<th>J and r
Ycn) Correct it as J. aυ Same, same jll, line 17 ag Same, line 131111, correct the statement ``Because it is a constant'' to ``Because it expresses the power of the voice drum shape, it is used for power normalization.'' as same, irises 14116, 7, 8 lines sotL sot
``L r/j star series'' is corrected to ``Cluster coefficient''. Q4 Same, Iris line 17116 says "96.5%".
9s, zou,” he corrected. as same, same jal 1 line rcLCm pieces” rc
"About 1 IPs," he corrected. that's all
Claims (1)
検出された過渡部の音声を所定長抽出してパラメータに
変換し、このパラメータな認識基本単位とするようにし
た音声g敵方法。A speech method that has means for detecting a transitional part between phonemes including silence, extracts a predetermined length of speech in the detected transient part, converts it into a parameter, and uses the parameter as a basic recognition unit. .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57029472A JPS58145999A (en) | 1982-02-25 | 1982-02-25 | Recognition of voice |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57029472A JPS58145999A (en) | 1982-02-25 | 1982-02-25 | Recognition of voice |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3130683A Division JPH0664480B2 (en) | 1991-05-02 | 1991-05-02 | Audio signal compression method and memory writing method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS58145999A true JPS58145999A (en) | 1983-08-31 |
| JPH0441357B2 JPH0441357B2 (en) | 1992-07-08 |
Family
ID=12277034
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57029472A Granted JPS58145999A (en) | 1982-02-25 | 1982-02-25 | Recognition of voice |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58145999A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59166999A (en) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | Detection of voice transient point detection |
| JPS59170897A (en) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | Detection of voice transient point detection |
| JPS59174899A (en) * | 1983-03-25 | 1984-10-03 | ソニー株式会社 | Voice transient point detection |
| WO1995014990A1 (en) * | 1993-11-29 | 1995-06-01 | Sony Corporation | Method and device for encoding signal, method and device for decoding signal, and recording medium |
-
1982
- 1982-02-25 JP JP57029472A patent/JPS58145999A/en active Granted
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59166999A (en) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | Detection of voice transient point detection |
| JPS59170897A (en) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | Detection of voice transient point detection |
| JPS59174899A (en) * | 1983-03-25 | 1984-10-03 | ソニー株式会社 | Voice transient point detection |
| WO1995014990A1 (en) * | 1993-11-29 | 1995-06-01 | Sony Corporation | Method and device for encoding signal, method and device for decoding signal, and recording medium |
| US5778339A (en) * | 1993-11-29 | 1998-07-07 | Sony Corporation | Signal encoding method, signal encoding apparatus, signal decoding method, signal decoding apparatus, and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0441357B2 (en) | 1992-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0441356B2 (en) | ||
| CN102486920A (en) | Audio event detection method and device | |
| CN101390155A (en) | Voice recognition with speaker adaptation and registration with pitch | |
| CN110931023B (en) | Gender identification method, system, mobile terminal and storage medium | |
| CN110970036A (en) | Voiceprint recognition method and device, computer storage medium and electronic equipment | |
| Saxena et al. | Extricate features utilizing Mel frequency cepstral coefficient in automatic speech recognition system | |
| JPS58145999A (en) | Recognition of voice | |
| Zhang et al. | Advancements in whisper-island detection within normally phonated audio streams. | |
| Yavuz et al. | A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model. | |
| Andruski et al. | The acoustics of vowels in Japanese women’s speech to infants and adults | |
| Chen et al. | Teager Mel and PLP fusion feature based speech emotion recognition | |
| Zhang et al. | Effective segmentation based on vocal effort change point detection | |
| JP4753412B2 (en) | Pronunciation rating device and program | |
| tat Vu et al. | An LP-based blind model for restoring bone-conducted speech | |
| JPS59166999A (en) | Detection of voice transient point detection | |
| Frid et al. | Acoustic-phonetic analysis of fricatives for classification using SVM based algorithm | |
| Berjon et al. | Frequency-centroid features for word recognition of non-native English speakers | |
| Zhang et al. | Advancements in whisper-island detection using the linear predictive residual | |
| JPH0552510B2 (en) | ||
| Garg et al. | Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments | |
| JPS6069697A (en) | Voice recognition equipment | |
| JPH0546560B2 (en) | ||
| JPH0552511B2 (en) | ||
| JPS59171999A (en) | Voice recognition equipment | |
| JPS58146000A (en) | Recognition of voice |