JPH1114672A - Method for estimating spectrum of periodic waveform and program recording medium therefor - Google Patents
Method for estimating spectrum of periodic waveform and program recording medium thereforInfo
- Publication number
- JPH1114672A JPH1114672A JP16417997A JP16417997A JPH1114672A JP H1114672 A JPH1114672 A JP H1114672A JP 16417997 A JP16417997 A JP 16417997A JP 16417997 A JP16417997 A JP 16417997A JP H1114672 A JPH1114672 A JP H1114672A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- section
- power
- minute
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION
【0001】[0001]
【発明の属する技術分野】この発明は音声波形のような
周期性構造をもつ波形の一定時間(分析表)ごとのスペ
クトルを推定する方法及びそのプログラム記録媒体に関
する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for estimating a spectrum of a waveform having a periodic structure such as a speech waveform at predetermined time intervals (analysis table), and a program recording medium therefor.
【0002】[0002]
【従来の技術】従来から、音声情報処理においては、ま
ず音声波形からスペクトル時系列を求める。スペクトル
を求める際、従来の短時間スペクトル分析では、音声ス
ペクトルは分析窓に含まれる音声波形全体を一括して用
いて求められた。通常分析の時間窓幅は20msから4
0ms程度である。この窓幅は通常、フレーム毎のスペ
クトルの変動がないように、ピッチ周期(声門の開閉周
期、開から開への時間間隔)の2倍以上で音素(母音,
子音)長より短かく設定される。このような分析方法を
用いると、スペクトルに調波構造が現れる。〔例えば、
古井貞熈、ディジタル音声処理、東海大学出版会、19
85〕。従ってスペクトル形状がピッチ周期の影響を受
けやすい。ピッチに同期して1ピッチの区間の音声信号
を切り出して分析し、与えられた区間内で平均すればス
ペクトル推定精度を向上できるがピッチ区間を正確に切
り出すことは難しい。2. Description of the Related Art Conventionally, in speech information processing, first, a spectrum time series is obtained from a speech waveform. In obtaining the spectrum, in the conventional short-time spectrum analysis, the voice spectrum was obtained by using the entire voice waveform included in the analysis window. Normal analysis time window width is 20 ms to 4
It is about 0 ms. Normally, the window width is twice or more than the pitch period (glottal opening / closing period, time interval from opening to opening) in phonemes (vowels, vowels,
Consonant) shorter than the length. Using such an analysis method, a harmonic structure appears in the spectrum. [For example,
Sadahiro Furui, Digital Audio Processing, Tokai University Press, 19
85]. Therefore, the spectrum shape is easily affected by the pitch period. If a speech signal of one pitch section is cut out and analyzed in synchronization with the pitch and averaged within a given section, the accuracy of spectrum estimation can be improved, but it is difficult to cut out a pitch section accurately.
【0003】[0003]
【発明が解決しようとする課題】この発明の目的はピッ
チと同期させないが、ピッチ周期に影響されない正しい
スペクトルを推定できる周期性信号のスペクトル推定方
法及びそのプログラム記録媒体を提供することにある。SUMMARY OF THE INVENTION It is an object of the present invention to provide a method for estimating a spectrum of a periodic signal which can estimate a correct spectrum which is not synchronized with the pitch but is not affected by the pitch period, and a program recording medium therefor.
【0004】[0004]
【課題を解決するための手段】この発明によれば周期性
信号の周期Tより短い分析窓でスペクトル分析し、その
分析結果を実数乗してその短時間スペクトルを複数統合
して周期Tのスペクトルを推定する。音声波形について
述べれば、短い時間の音声波形を短い周期(微小区間窓
幅)で切り出す。この短い時間の音声波形から求められ
たスペクトルを微小区間スペクトルと呼ぶことにする。
ここで短い時間とは音声波形の1ピッチ程度以下の時間
を想定している。このような短い時間の波形は時間的な
周期構造を持たないため、スペクトルは調波構造を示さ
ない。音声切り出しの様子を図1Aに示す。τは微小区
間スペクトルを求めるための微小区間窓幅(時間)であ
り、δは微小区間シフト幅(時間)であり、Tは従来の
分析における分析窓幅(時間)である。従来の窓幅と同
じ実効窓幅になるようにするには、以下の数の微小区間
スペクトルを統合すればよい。According to the present invention, a spectrum is analyzed in an analysis window shorter than the period T of a periodic signal, the analysis result is raised to the power of a real number, and a plurality of short-time spectra are integrated to obtain a spectrum of the period T. Is estimated. Describing the audio waveform, a short-time audio waveform is cut out at a short cycle (a minute section window width). The spectrum obtained from the short-time speech waveform is called a minute section spectrum.
Here, the short time is assumed to be a time of about one pitch or less of the voice waveform. Since such a short-time waveform does not have a temporal periodic structure, the spectrum does not show a harmonic structure. FIG. 1A shows a state of audio clipping. τ is a minute section window width (time) for obtaining a minute section spectrum, δ is a minute section shift width (time), and T is an analysis window width (time) in the conventional analysis. In order to make the effective window width the same as the conventional window width, the following number of minute section spectra may be integrated.
【0005】 N=((T−τ)/δ)+1 (1) 複数の微小区間スペクトルを統合する関数として以下の
Lp ノルム(p乗平均距離)を用いれば、様々な統合方
法を統一的に表現できる。 S(ω,t)={(1/N)Σi=0 N-1 M(ω,t+δi)e }1/e (2) ここで、M(ω,t)は時刻tの微小区間スペクトル、
ωは周波数を表す。e(e≠0)は指数で、e=1の時
には単に微小区間スペクトルの算術平均を表す。eが−
∞の時には最小値を求める計算となり、eが∞の時には
最大値を求める計算となる。式(2)で得られたものを
統合微小区間スペクトル、式(2)を用いるスペクトル
分析法を微小区間スペクトル法と呼ぶことにする。N = ((T−τ) / δ) +1 (1) If the following L p norm (p-mean distance) is used as a function for integrating a plurality of minute interval spectra, various integration methods can be unified. Can be expressed as S (ω, t) = {(1 / N)} i = 0 N−1 M (ω, t + δi) e } 1 / e (2) where M (ω, t) is a minute section spectrum at time t. ,
ω represents a frequency. e (e ≠ 0) is an exponent, and when e = 1, simply represents the arithmetic mean of the minute interval spectrum. e is-
When ∞, the calculation is to find the minimum value, and when e is ∞, the calculation is to find the maximum value. The one obtained by the equation (2) is called an integrated minute section spectrum, and the spectrum analysis method using the equation (2) is called a minute section spectrum method.
【0006】各微小区間スペクトルM(ω,t)は例え
ばFFTにより求める。FFT次数は2のべき乗で、周
波数分析チャネル数の2倍以上、かつ波形上でのFFT
窓長がはじめて微小区間スペクトルの窓長τをこえる数
に設定する。ハミングウインドウを掛けた長さτの波形
データを左詰めで入れ、あとは0としてFFTを行う。
チャネルk、時刻をiとし、微小区間の線形FFTスペ
クトルをP(k,i)とすると、統合に用いる微小区間
スペクトルM(k,i)は次式で求まる。[0006] Each minute section spectrum M (ω, t) is obtained by, for example, FFT. The FFT order is a power of 2, more than twice the number of frequency analysis channels, and the FFT on the waveform
The window length is set to a number exceeding the window length τ of the minute section spectrum for the first time. The waveform data of length τ multiplied by the Hamming window is inserted left-justified, and the FFT is performed after setting it to 0.
Assuming that the channel k and the time are i and the linear FFT spectrum of the minute section is P (k, i), the minute section spectrum M (k, i) used for integration is obtained by the following equation.
【0007】 M(k,i)=log(1+P(k,i)) (3) これは対数スペクトルに近いが、値は必ず正値となる。
Lp ノルムを計算する時に各項は正値である必要があ
る。FFTの次数をKとするとチャネルkに相当する周
波数は、音声のサンプリング周波数をfs とすると式
(4)により与えられる。M (k, i) = log (1 + P (k, i)) (3) Although this is close to a logarithmic spectrum, the value is always a positive value.
Each term must be positive when calculating the Lp norm. Frequency corresponding the order of the FFT to the channel k When K is given when the sampling frequency of the audio and f s by Equation (4).
【0008】 ω(k)=πfs k/(2K) (4)[0008] ω (k) = πf s k / (2K) (4)
【0009】[0009]
【発明の実施の形態】図3にこの発明による方法の実施
例を示す。まず音声区間例えばT=30msでの時間ポ
インタiを0とし(S1)、またスペクトルを蓄積する
バッファの内容AをクリアしてA=0に初期化をする
(S2)。次に微小区間、つまりτ=5ms程度の区間
(t〜t+τ)の音声を切り出し(S3)、その切り出
した音声信号に対して窓掛け、例えばハミングウインド
ウをかける(S4)。その窓掛けされた区間τの音声信
号に対しk次のDFT(離散的フーリエ変換)を行って
パワースペクトルXを求める(S5)。FIG. 3 shows an embodiment of the method according to the invention. First, the time pointer i in a voice section, for example, T = 30 ms is set to 0 (S1), and the content A of the buffer for storing the spectrum is cleared and initialized to A = 0 (S2). Next, a sound in a minute section, that is, a section of about τ = 5 ms (t to t + τ) is cut out (S3), and the cut out sound signal is windowed, for example, a Hamming window is applied (S4). A power spectrum X is obtained by performing a k-th order DFT (Discrete Fourier Transform) on the voice signal in the windowed section τ (S5).
【0010】このDFTの結果Xに対し、式(3)、つ
まりM=log(X+1)によりその微小区間スペクト
ルMを求める(S6)。この対数は自然対数である。こ
の求めた微小スペクトルMを、e乗して蓄積バッファ内
に蓄積されているスペクトルAに累積加算する(S
7)。つまり次式を演算する。 A←A+Me 次に時間ポインタiを+1し、例えば微小区間シフト幅
δ=2ms程度、だけ移動させ、つまり時刻をt+δと
する(S8)、この時、音声データ終端か、つまり時刻
tがt+Tとなり、T=30msの音声区間の終端に到
達したかを判定し(S9)、到達してなければ、ステッ
プS3に戻り、δだけシフトした微小区間(t+δ〜t
+δ+τ)の音声切り出しを行い、以下同様の処理を行
う。With respect to the result X of the DFT, a minute section spectrum M is obtained by equation (3), that is, M = log (X + 1) (S6). This log is the natural log. The obtained small spectrum M is raised to the power of e and cumulatively added to the spectrum A stored in the storage buffer (S
7). That is, the following equation is calculated. A ← A + Me Next, the time pointer i is incremented by +1 and, for example, shifted by a minute section shift width δ = about 2 ms, that is, the time is set to t + δ (S8). It is determined whether the end of the voice section of T = 30 ms has been reached (S9). If it has not reached, the process returns to step S3, and the minute section shifted by δ (t + δ to t)
+ Δ + τ), and the same processing is performed thereafter.
【0011】このようにしてδだけシフトしながら、区
間τの微小区間音声のスペクトルMを求め、これを蓄積
バッファの内容Aに累積加算し、式(1)で示したよう
に、N個の微小区間のスペクトルを累積すると、つまり
音声区間の終端δi=T=30msに到達すると、これ
がステップS9で判定され、蓄積バッファの記憶内容で
ある累積したスペクトルA=Σi=0 N-1 Me をその累
積した数Nで割り、その割算結果を1/e乗して、つま
り式(2)を演算して、その微小区間スペクトルSを求
める(S10)。なおこの図2で示した処理では各周波
数について繰返すことを省略しており、従って図2中の
A,X,M,Sは周波数チャネル数の要素を持つベクト
ルである。In this way, while shifting by δ, the spectrum M of the minute section voice in section τ is obtained, and this is cumulatively added to the content A of the storage buffer, and as shown in equation (1), N When accumulating the spectrum in small sections, that is, when it reaches the end .delta.i = T = 30 ms speech segment, which is determined in the step S9, the spectral a = Σ i = 0 N- 1 M e obtained by accumulating a stored content of the storage buffer Is divided by the accumulated number N, and the division result is raised to the power of 1 / e, that is, the equation (2) is calculated to obtain the minute section spectrum S (S10). In the processing shown in FIG. 2, the repetition of each frequency is omitted, and thus A, X, M, and S in FIG. 2 are vectors having elements of the number of frequency channels.
【0012】このようにして求められた微小区間スペク
トルの値の時間的変動がどのように統合されるかをある
周波数チャネルについてシミュレーション実験を行った
結果を示す。即ちスペクトルのうちある周波数の値の変
動が s(i)=0.5−0.5 cos(4πi/N)+ε (5) 0<i<Nのような正弦波状であるとする。εは値の発
散を避けるための微小定数である。The results of a simulation experiment performed on a certain frequency channel to see how the temporal fluctuations of the values of the minute section spectrum obtained in this way are integrated are shown. That is, it is assumed that the fluctuation of the value of a certain frequency in the spectrum is a sine wave such as s (i) = 0.5−0.5 cos (4πi / N) + ε (5) 0 < i <N. ε is a minute constant for avoiding the divergence of the value.
【0013】微小区間スペクトルをLp ノルムで統合す
る式は v(e)={Σi=0 N-1 s(i)e }1/e (6) で与えられる。ここでは微小区間スペクトルの統合を目
的としており、基本的には最小値を求める問題ではない
ので、0<eとする。低レベルの雑音が重畳されている
場合、駆動音源が不安定な場合などでは、エネルギーの
大きな部分を重視するのが適当である。このような場合
に、複数の微小区間スペクトルを統合するには1<eと
すれば良い。また、エネルギーの低い部分を重視して、
突発的な雑音を除去する目的では0<e<1とすれば良
い。The equation for integrating the minute interval spectrum with the Lp norm is given by: v (e) = {Σi = 0 N−1 s (i) e } 1 / e (6) Here, the purpose is to integrate the minute section spectra, and it is basically not a problem to find the minimum value. When low-level noise is superimposed, or when the driving sound source is unstable, it is appropriate to attach importance to a portion having a large energy. In such a case, 1 <e may be set to integrate a plurality of minute section spectra. Also, focusing on low energy parts,
For the purpose of removing sudden noise, 0 <e <1 may be set.
【0014】式(5)のスペクトルの変動が時間的に一
定な雑音νに埋もれて r(i)= max〔s(i),ν〕 (7) となっていたとする。つまり図1Bに示すように横軸を
時間、縦軸をレベルとし、信号s(i)は曲線11のよ
うに変化し、横軸と平行な各種レベルの雑音ν1,
ν2 ,ν3 ・・・が重畳した場合は、r(i)は信号s
(i)と雑音νとのうち大きい方がr(i)となる。こ
のように雑音νにより、これより低いレベルの部分が埋
もれた信号r(i)に対し式(6)を各種eについて計
算した結果を図1Cに示す。この図2からeが4程度以
上であれば、スペクトルの最大値の1/2程度の雑音で
埋もれていても、統合スペクトルレベルはほぼ一定であ
り、雑音にほとんど影響されないことがわかる。これは
この発明の微小区間スペクトル法が雑音に対して頑健で
あることを示している。It is assumed that the fluctuation of the spectrum of the equation (5) is buried in a temporally constant noise ν and r (i) = max [s (i), ν] (7). That is, as shown in FIG. 1B, the horizontal axis represents time, and the vertical axis represents level, the signal s (i) changes as shown by a curve 11, and noise ν 1 at various levels parallel to the horizontal axis.
When ν 2 , ν 3 ... are superimposed, r (i) is the signal s
The larger of (i) and noise ν is r (i). FIG. 1C shows the result of calculating Equation (6) for various types of e for the signal r (i) in which the lower level portion is buried by the noise ν. It can be seen from FIG. 2 that if e is about 4 or more, the integrated spectrum level is almost constant and is hardly affected by the noise even if the noise is buried with about 1/2 of the maximum value of the spectrum. This indicates that the small interval spectrum method of the present invention is robust against noise.
【0015】上述では各周波数ごとに微小区間スペクト
ル時系列の統合を行ったが、各微小区間のパワーに依存
したスペクトルの重み付き加算を行うようにしてもよ
い。つまり微小区間のパワーをu(t)、微小区間のパ
ワー正規化されたスペクトルをQ(ω,t)とすると次
式の関係がある。 u(t)=1/(2π)∫M(ω,t)dω (8) Q(ω,t)=M(ω,t)/u(t) (9) ∫は−πからπ従ってパワーに依存したスペクトルの重
み付き加算を行う場合が微小区間スペクトルの統合式は
以下のようになる。In the above description, the time series of the minute section spectrum is integrated for each frequency. However, the weighted addition of the spectrum depending on the power of each minute section may be performed. That is, assuming that the power in the minute section is u (t) and the power-normalized spectrum in the minute section is Q (ω, t), the following relationship is established. u (t) = 1 / (2π) ∫M (ω, t) dω (8) Q (ω, t) = M (ω, t) / u (t) (9) In the case where weighted addition of spectra depending on is performed, the integration formula of the minute section spectrum is as follows.
【0016】 S(ω,t)={Σi=0 N-1 u(t+δi)e Q(ω,t+δi)}/Σi=0 N-1 u(t+δi)e (10) この場合、図2において、ステップS6で求めた微小区
間スペクトルMを、式(9)で示す関係でu(t)とQ
(ω,t)に分け、ステップS7では、式(10)にも
とづき、 A=A+ue Q を演算すればよい。つまり各スペクトルごとにA=A+
ue を演算すればよい。Q(ω,t+δi)はFFTの
みならず、LPC分析で求めてもよい。S (ω, t) = { i = 0 N−1 u (t + δi) e Q (ω, t + δi)} / Σ i = 0 N−1 u (t + δi) e (10) In this case, FIG. In step 2, the small section spectrum M obtained in step S6 is converted into u (t) and Q by the relationship shown in equation (9).
(Omega, t) is divided into, in step S7, based on the equation (10) may be calculating the A = A + u e Q. That is, A = A + for each spectrum
u e may be calculated. Q (ω, t + δi) may be obtained not only by FFT but also by LPC analysis.
【0017】次に微小区間スペクトルを用いた音声認識
の例を図4Aに示す。音声認識部ではHMM(隠れマル
コフモデル)〔中川聖一:確率モデルによる音声認識、
電子通信情報学会,1988〕を用いた場合である。マ
イクロフォン21よりの入力音声は、サンプリング周波
数(例えば12kHz)の1/2の通過帯域を持つ低域
フィルタ22を通された後、A/D変換器23によりア
ナログ信号から、サンプリング周波数でディジタル化さ
れる、このディジタル音声信号はこの発明による微小区
間スペクトル推定部24で微小区間スペクトルを用いて
スペクトル時系列に変換される。学習音声のスペクトル
時系列はHMM学習部25に入力され、HMMが作られ
てHMM蓄積部26に蓄積される。認識対象音声のスペ
クトル時系列はHMM認識部27に入力され、HMM蓄
積部26のHMMと、語彙情報蓄積部28の認識語彙の
リストとを参照して認識処理が行われ、その結果が表示
部29に表示される。HMMの学習と認識は、上記参考
文献に記載されている標準的な方法を用いる。FIG. 4A shows an example of speech recognition using a minute section spectrum. HMM (Hidden Markov Model) [Seiichi Nakagawa: Speech Recognition by Stochastic Model,
This is the case where IEICE, 1988] is used. An input voice from the microphone 21 is passed through a low-pass filter 22 having a pass band of の of the sampling frequency (for example, 12 kHz), and is then digitized from an analog signal by an A / D converter 23 at the sampling frequency. This digital audio signal is converted into a spectrum time series by using the minute section spectrum in the minute section spectrum estimating section 24 according to the present invention. The spectrum time series of the learning speech is input to the HMM learning unit 25, where the HMM is created and stored in the HMM storage unit 26. The spectral time series of the speech to be recognized is input to the HMM recognizing unit 27, and the recognition process is performed with reference to the HMM in the HMM storing unit 26 and the list of recognized vocabulary in the vocabulary information storing unit 28, and the result is displayed on the display unit. 29 is displayed. The learning and recognition of the HMM use standard methods described in the above-mentioned references.
【0018】微小区間スペクトル推定部24での微小区
間スペクトルを用いてスペクトルの時系列を生成する処
理は図4Bに示すように行われる。まず時間ポインタを
0にし(S1)、連続的な音声波形から時間ポインタを
起点としてT=30msの音声信号を切り出す(S
2)。その切り出した30msの音声信号から微小区間
スペクトル法によりスペクトルを抽出する(S3)。次
に時間ポインタを10ms移動する(S4)。これは音
声認識部27に送られるいわゆるフレームレート、ある
いはフレーム周期と呼ばれる値である。次に時間ポイン
タが音声信号の終端に到達したかを判定し(S5)、終
端に到達してなければステップS2に戻り、終端に到達
したら終了する。ステップS3の微小区間スペクトル抽
出は図2に示した処理により行う。The processing of generating a time series of spectra using the minute section spectrum in the minute section spectrum estimating section 24 is performed as shown in FIG. 4B. First, the time pointer is set to 0 (S1), and an audio signal of T = 30 ms is cut out from the continuous audio waveform starting from the time pointer (S1).
2). A spectrum is extracted from the extracted 30 ms audio signal by the minute section spectrum method (S3). Next, the time pointer is moved for 10 ms (S4). This is a value called a frame rate or a frame period sent to the voice recognition unit 27. Next, it is determined whether or not the time pointer has reached the end of the audio signal (S5). If it has not reached the end, the process returns to step S2, and if it has reached the end, the process ends. The extraction of the minute section spectrum in step S3 is performed by the processing shown in FIG.
【0019】この発明は音声波形のみならず、周期性の
ある波形のスペクトル推定にも適用できる。The present invention can be applied not only to speech waveforms but also to spectrum estimation of periodic waveforms.
【0020】[0020]
【発明の効果】以上述べたようにこの発明によれば、微
小区間から求めたスペクトルを統合して音声波形などの
スペクトルを推定するため、eの値の選定することによ
り、つまりe>1とすることによりエネルギーの高い微
小区間スペクトルを選択的に統合できる。エネルギーの
高いスペクトルはピッチ周期に同期して得られ、ピッチ
同期スペクトル分析に近い精度の高いスペクトル推定を
行うことができる。このため、スペクトルがピッチ周期
や音声の分析区間の切り出し位置の影響を受け難くな
り、音声認識に適用して認識性能を向上させることがで
きる。As described above, according to the present invention, in order to estimate a spectrum such as a speech waveform by integrating spectra obtained from minute sections, the value of e is selected, that is, e> 1. By doing so, it is possible to selectively integrate minute section spectra having high energy. A spectrum having high energy is obtained in synchronization with the pitch period, and a highly accurate spectrum estimation close to pitch-synchronous spectrum analysis can be performed. For this reason, the spectrum is hardly affected by the pitch period and the cutout position of the voice analysis section, and the recognition performance can be improved by applying the present invention to voice recognition.
【0021】また0<e<1にeを選定することによ
り、エネルギーの低い部分を重視して、突発的な雑音を
除去することができる。音声認識に、この発明を適用し
てスペクトル系列を得る場合と、ピッチ周期の2倍程度
以上の窓を用いた従来のFFTによりスペクトルを得る
場合とを比較した結果、発声様式の異なる音素の認識に
おいて従来64%であった音素認識率を71%まで向上
させることができた。eが0.5から2のいずれの場合
にも微小区間スペクトル法の効果が得られる。Further, by selecting e so that 0 <e <1, it is possible to remove sudden noises with emphasis on low energy portions. As a result of a comparison between a case where a spectrum sequence is obtained by applying the present invention to speech recognition and a case where a spectrum is obtained by a conventional FFT using a window of about twice or more the pitch period, recognition of phonemes having different utterance styles was performed. As a result, the phoneme recognition rate, which was 64% in the past, could be improved to 71%. In any case where e is 0.5 to 2, the effect of the minute section spectral method can be obtained.
【0022】1フレームの窓長Tは15ms、20m
s、30msおよび40msのいずれの場合でも微小区
間スペクトル法を用いると、従来の長いデータ窓を用い
るFFTスペクトルに比べ、高い認識率が得られる。こ
の改善は発声様式の異なる音声を認識した場合に大き
い。改善効果は母音の方が大きい。微小区間フレームシ
フトδは2msから4ms、微小区間フレーム窓長τは
3msから5ms程度が良く、つまり窓長Tの1/5〜
1/14程度の長さがよく、特に同じ発話様式の音声に
対しては5ms程度が、異なる発話様式の音声に対して
は3ms程度が良い。The window length T of one frame is 15 ms, 20 m
In any of s, 30 ms, and 40 ms, the use of the minute interval spectrum method can obtain a higher recognition rate than the conventional FFT spectrum using a long data window. This improvement is significant when recognizing sounds with different utterance styles. The improvement effect is greater for vowels. The minute section frame shift δ is preferably from 2 ms to 4 ms, and the minute section frame window length τ is preferably about 3 ms to 5 ms, that is, 5〜 of the window length T.
The length is preferably about 1/14, particularly about 5 ms for voices of the same utterance style, and about 3 ms for voices of different utterance styles.
【図1】Aは従来のスペクトル分析窓Tと、この発明に
おける微小区間窓幅τと、微小区間シフト幅δとの関係
例を示す図、Bは雑音に埋もれた周波数チャネルの出力
波形を示す図である。FIG. 1A is a diagram showing an example of a relationship between a conventional spectrum analysis window T, a minute section window width τ, and a minute section shift width δ in the present invention, and B shows an output waveform of a frequency channel buried in noise. FIG.
【図2】パラメータとする雑音レベルの変化に対する統
合微小区間スペクトルの関係を示す図。FIG. 2 is a diagram showing a relationship between a change in noise level as a parameter and an integrated minute section spectrum.
【図3】この発明によるスペクトル推定方法の一例を示
す流れ図。FIG. 3 is a flowchart showing an example of a spectrum estimation method according to the present invention.
【図4】Aはこの発明の微小区間スペクトル推定方法を
適用した音声認識装置の機能構成を示す図、Bは微小区
間スペクトル時系列の生成手順を示す流れ図である。FIG. 4A is a diagram showing a functional configuration of a speech recognition apparatus to which the minute section spectrum estimating method of the present invention is applied, and FIG. 4B is a flowchart showing a procedure for generating a minute section spectrum time series.
Claims (5)
クトルを推定する方法において、 上記一定時間区間Tの周期性波形を、上記一定時間区間
より短かい微小区間τだけ切り出すことを、この微小区
間τより短かい微小区間シフト幅δずつ順次ずらして行
い、 上記各切り出された微小区間の波形のスペクトルMを求
め、 これら微小区間スペクトルMを実数e乗して平均して1
/e乗し、上記一定時間区間Tのスペクトルとすること
を特徴とする周期性波形のスペクトル推定方法。1. A method for estimating a spectrum for each fixed time section T of a periodic waveform, comprising: extracting a periodic waveform of the fixed time section T by a minute section τ shorter than the fixed time section. This is performed by sequentially shifting the small section shift width δ shorter than the section τ, to obtain the spectrum M of the waveform of each of the cut-out minute sections.
/ E raised to the spectrum of the above-mentioned fixed time section T, wherein a spectrum of a periodic waveform is estimated.
小区間の波形を離散的フーリエ変換し、その変換結果に
より得られるパワースペクトルXに対し、M=log
(X+1)(logは自然対数)を演算して求めること
を特徴とする請求項1記載の周期性波形のスペクトル推
定方法。2. The spectrum M of the minute section is obtained by performing a discrete Fourier transform on the waveform of the minute section, and obtaining a power spectrum X obtained by the conversion result as M = log.
2. The method for estimating the spectrum of a periodic waveform according to claim 1, wherein (X + 1) (log is a natural logarithm) is calculated.
のパワーuとそのパワーuで正規化されたスペクトルQ
とを用い、Uのe乗を重みとする重み付平均として求
め、上記実数e乗は微小区間のパワーuに対して行うこ
とを特徴とする請求項1又は2記載の周期性波形スペク
トル推定方法。3. The minute section spectrum M is converted into a minute section power u and a spectrum Q normalized by the power u.
3. A method for estimating a periodic waveform spectrum according to claim 1 or 2, wherein the real power e is obtained for a power u in a small section by obtaining a weighted average using the e raised to the power of e. .
とに推定する際に、 上記一定時間区間Tの音声波形を、上記一定時間区間T
より短かい微小区間τだけ切り出すことを、微小区間τ
より短かい微小区間シフト幅δずつ順次ずらして行い、 上記各切り出された微小区間の音声波形のスペクトルM
を求め、 これら各微小区間スペクトルMを実数e乗し、これと平
均し、更に1/e乗して上記一定時間区間Tのスペクト
ルとすることをコンピュータにより行うためのプログラ
ムを記録した記録媒体。4. When estimating a spectrum of an audio waveform for each fixed time interval, the audio waveform of the fixed time interval T is replaced with the fixed time interval T
Cutting out shorter shorter sections τ is called smaller section τ
The shorter minute section shift width δ is sequentially shifted, and the spectrum M of the speech waveform of each of the cut-out minute sections is performed.
A recording medium on which is recorded a program for performing, by a computer, each of these minute section spectrums M raised to the power of the real number e, averaged, and further raised to the power of 1 / e to obtain the spectrum of the fixed time section T.
ごとに推定する際に、 上記一定時間区間Tの音声波形を、上記一定時間区間T
より短かい微小区間τだけ切り出すことを、微小区間τ
より短かい微小区間シフト幅δずつ順次ずらして行い、 上記各切り出された微小区間の音声波形のスペクトルM
を、その微小区間のパワーuと、微小区間のパワーで正
規化されたスペクトルQとの積u・Qとして求め、 これら各微小区間スペクトルMについて、その微小区間
パワーuについて実数e乗したue ・Qを求め、これら
を平均して上記一定時間区間Tのスペクトルとすること
をコンピュータにより行うためのプログラムを記録した
記録媒体。5. A spectrum of a voice waveform is converted into a predetermined time interval T.
When estimating each time period, the speech waveform in the fixed time interval T is
Cutting out shorter shorter sections τ is called smaller section τ
The shorter minute section shift width δ is sequentially shifted, and the spectrum M of the speech waveform of each of the cut-out minute sections is performed.
And a power u of the small sections, calculated as the product u · Q of the normalized spectral Q in power of small section, for each of these small sections spectrum M, real e raised to the power u e for the small sections power u A recording medium in which a program for obtaining a Q and averaging the Q to obtain the spectrum in the above-mentioned fixed time section T by a computer is recorded.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP16417997A JPH1114672A (en) | 1997-06-20 | 1997-06-20 | Method for estimating spectrum of periodic waveform and program recording medium therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP16417997A JPH1114672A (en) | 1997-06-20 | 1997-06-20 | Method for estimating spectrum of periodic waveform and program recording medium therefor |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1114672A true JPH1114672A (en) | 1999-01-22 |
Family
ID=15788223
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP16417997A Pending JPH1114672A (en) | 1997-06-20 | 1997-06-20 | Method for estimating spectrum of periodic waveform and program recording medium therefor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1114672A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006064549A (en) * | 2004-08-27 | 2006-03-09 | Nippon Telegr & Teleph Corp <Ntt> | SPECTRUM ANALYSIS METHOD, SPECTRUM ANALYSIS DEVICE, AND SPECTRUM ANALYSIS PROGRAM |
| WO2009011438A1 (en) * | 2007-07-18 | 2009-01-22 | Wakayama University | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method |
-
1997
- 1997-06-20 JP JP16417997A patent/JPH1114672A/en active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006064549A (en) * | 2004-08-27 | 2006-03-09 | Nippon Telegr & Teleph Corp <Ntt> | SPECTRUM ANALYSIS METHOD, SPECTRUM ANALYSIS DEVICE, AND SPECTRUM ANALYSIS PROGRAM |
| WO2009011438A1 (en) * | 2007-07-18 | 2009-01-22 | Wakayama University | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method |
| US8781819B2 (en) | 2007-07-18 | 2014-07-15 | Wakayama University | Periodic signal processing method, periodic signal conversion method, periodic signal processing device, and periodic signal analysis method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7925502B2 (en) | Pitch model for noise estimation | |
| EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
| US20150302845A1 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
| JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
| KR20080050311A (en) | Speech processing device and voice processing method and program | |
| Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
| US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
| Meseguer | Speech analysis for automatic speech recognition | |
| Eringis et al. | Improving speech recognition rate through analysis parameters | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
| Shanthi Therese et al. | Review of feature extraction techniques in automatic speech recognition | |
| Adiga et al. | Significance of epoch identification accuracy for prosody modification | |
| Lanchantin et al. | A HMM-based speech synthesis system using a new glottal source and vocal-tract separation method | |
| KR20040061070A (en) | Apparatus and Method for Speech Recognition in Speech Recognition System | |
| Yavuz et al. | A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model. | |
| US20100305948A1 (en) | Phoneme Model for Speech Recognition | |
| JPH1114672A (en) | Method for estimating spectrum of periodic waveform and program recording medium therefor | |
| Slaney et al. | Pitch-gesture modeling using subband autocorrelation change detection. | |
| JP2013015693A (en) | Spoken word analyzer, method thereof, and program | |
| Singh et al. | A comparative study on feature extraction techniques for language identification | |
| Aadit et al. | Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm | |
| US10354671B1 (en) | System and method for the analysis and synthesis of periodic and non-periodic components of speech signals | |
| JP2017126004A (en) | Voice evaluating device, method, and program | |
| JP4576612B2 (en) | Speech recognition method and speech recognition apparatus |