JPS6239760B2 - - Google Patents

Info

Publication number
JPS6239760B2
JPS6239760B2 JP56188061A JP18806181A JPS6239760B2 JP S6239760 B2 JPS6239760 B2 JP S6239760B2 JP 56188061 A JP56188061 A JP 56188061A JP 18806181 A JP18806181 A JP 18806181A JP S6239760 B2 JPS6239760 B2 JP S6239760B2
Authority
JP
Japan
Prior art keywords
coefficient
envelope information
transformation
spectral envelope
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56188061A
Other languages
Japanese (ja)
Other versions
JPS5888800A (en
Inventor
Hiroya Fujisaki
Herumansukii Hineku
Yasuo Sato
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56188061A priority Critical patent/JPS5888800A/en
Publication of JPS5888800A publication Critical patent/JPS5888800A/en
Publication of JPS6239760B2 publication Critical patent/JPS6239760B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は、音声分析処理方式、特に入力音声信
号をフーリエ変換してパワー・スペクトルを抽出
し、該パワー・スペクトルを用いて自己相関係数
を算出した上で線形予測係数を抽出し、該線形予
測係数を用いて入力音声信号のスペクトル包絡情
報を抽出する音声分析処理方式において、上記フ
ーリエ変換した後の周波数領域上において例えば
圧縮あるいは伸長に対応する変換を行なつた上で
自己相関係数を更に引続き線形予測係数を算出す
ると共に、該線形予測係数を用いて得られた変形
スペクトル包絡情報に対して逆変換を行なうよう
構成し、ピツチ周波数に影響されない形で例えば
スペクトル包絡情報を抽出したり、あるいは零周
波数やホルマント周波数を高精度で抽出できるよ
うにした音声分析処理方式に関するものである。
[Detailed Description of the Invention] (1) Technical Field of the Invention The present invention relates to a speech analysis processing method, in particular, extracting a power spectrum by Fourier transforming an input speech signal, and using the power spectrum to calculate an autocorrelation coefficient. In an audio analysis processing method that calculates linear prediction coefficients, extracts spectral envelope information of an input audio signal using the linear prediction coefficients, for example, compression or expansion is performed on the frequency domain after the Fourier transform. After performing the corresponding transformation, the linear prediction coefficient is further calculated from the autocorrelation coefficient, and the deformed spectrum envelope information obtained using the linear prediction coefficient is inversely transformed. The present invention relates to a speech analysis processing method that is capable of extracting, for example, spectral envelope information in a manner unaffected by frequency, or extracting zero frequencies and formant frequencies with high precision.

(2) 技術の背景と問題点 従来から、音声合成や音声認識などに用にるパ
ラメータの抽出に当つて、線形予測係数を抽出す
ることが行なわれている。そして上記音声合成や
音声認識に当つては、上記線形予測係数から入力
音声信号のスペクトル包絡情報を、例えば予測係
数自体を時間関数とみなしてフーリエ変換を行な
いそのスペクトルの逆スペクトルを算出すること
により、抽出したり、あるいは更に該スペクトル
包絡情報を用いてホルマント周波数などを求めた
りするようにされる。
(2) Technical Background and Problems Conventionally, linear prediction coefficients have been extracted to extract parameters used in speech synthesis, speech recognition, and the like. In the above-mentioned speech synthesis and speech recognition, the spectral envelope information of the input speech signal is obtained from the above-mentioned linear prediction coefficients by, for example, treating the prediction coefficient itself as a time function and performing Fourier transform to calculate the inverse spectrum of the spectrum. , or further use the spectral envelope information to obtain formant frequencies and the like.

しかし、スペクトル包絡情報を抽出する上記従
来公知の方式の場合には、得られた上記スペクト
ル包絡情報などが入力音声のピツチ周波数などに
影響されるなどの問題を含んでいる。
However, in the case of the conventionally known method for extracting spectral envelope information, there are problems such as the obtained spectral envelope information being affected by the pitch frequency of the input voice.

(3) 発明の目的と構成 本発明は、上記の点を解決すると共に、音声合
成や音声分析に当つて将来の分析処理に自由度を
与えるようにすることを目的としており、本発明
者らが先に行なつた特許出願の内容を更に一歩進
めるようにすることを目的としている。そしてそ
のため、本発明の音声分析処理方式は、入力音声
信号をフーリエ変換して周波数領域に変換して当
該入力音声信号のパワー・スペクトルを抽出し、
該パワー・スペクトルを用いて自己相関係数を算
出して線形予測係数を抽出し、該線形予測係数を
用いて上記入力音声信号のスペクトル包絡情報を
抽出する音声分析処理方式において、上記入力音
声信号をフーリエ変換した後であつて上記自己相
関係数を算出する前の段階の周波数領域において
入力信号に対して入力信号の圧縮あるいは伸長を
ほどこす変換処理部を挿置すると共に、上記線形
予測係数を用いて得られた変形スペクトル包絡情
報に対して上記変換処理部において行なわれた変
換の逆変換を行なう逆変換処理をほどこすよう構
成してなり、上記圧縮あるいは伸張をほどこす変
換処理部は、上記パワー・スペクトルP(ω)を
正規化した値に対して係数μを乗算しそれに対し
て対数をとるようにした対数変換を行なうことを
特徴としている。以下図面を参照しつつ説明す
る。
(3) Purpose and structure of the invention The present invention aims to solve the above-mentioned problems and to provide flexibility for future analysis processing in speech synthesis and speech analysis. The purpose is to take the content of the patent application filed earlier by one step further. Therefore, the audio analysis processing method of the present invention performs a Fourier transform on an input audio signal to convert it into the frequency domain and extract the power spectrum of the input audio signal,
In a speech analysis processing method, the power spectrum is used to calculate an autocorrelation coefficient to extract a linear prediction coefficient, and the linear prediction coefficient is used to extract spectral envelope information of the input speech signal. In addition to inserting a transform processing unit that compresses or expands the input signal in the frequency domain after Fourier transforming the input signal and before calculating the autocorrelation coefficient, the linear prediction coefficient is configured to perform an inverse transformation process to reverse the transformation performed in the transformation processing unit on the deformed spectrum envelope information obtained using the transformation processing unit, and the transformation processing unit that performs the compression or expansion is , is characterized in that the normalized value of the power spectrum P(ω) is multiplied by a coefficient μ, and logarithmic transformation is performed to take the logarithm. This will be explained below with reference to the drawings.

(4) 発明の実施例 第1図は従来公知のスペクトル包絡情報抽出の
ための構成例、第2図は本発明者らが先に行なつ
た発明によるスペクトル包絡情報抽出のための構
成例、第3図および第4図は本発明の前提問題を
説明する説明図、第5図は本発明の一実施例構
成、第6図A,B,Cは第1図ないし第3図に示
す各構成によつて得たスペクトル包絡情報にもと
づいて抽出したホルマント周波数を用いて本発明
の利点を説明する説明図、第7図ないし第12図
は夫々係数μを横軸にとつた場合における本発明
によつて得られたスペクトル包絡情報の特性を説
明する説明図を示す。
(4) Embodiments of the invention FIG. 1 shows an example of a conventionally known configuration for extracting spectral envelope information, and FIG. 2 shows an example of a configuration for extracting spectral envelope information according to an invention previously made by the present inventors. 3 and 4 are explanatory diagrams for explaining the prerequisite problems of the present invention, FIG. 5 is an embodiment of the configuration of the present invention, and FIG. Explanatory diagrams illustrating the advantages of the present invention using formant frequencies extracted based on spectral envelope information obtained by the configuration, Figures 7 to 12 illustrate the present invention when the coefficient μ is plotted on the horizontal axis, respectively. An explanatory diagram illustrating the characteristics of spectral envelope information obtained by.

第1図において、1はフーリエ変換処理部であ
つて離散的な入力音声信号S(n)をフーリエ変
換するもの、2は2乗値抽出部であつて入力音声
のパワー・スペクトルP(ω)を抽出するもの、
3はフーリエ逆変換処理部であつてパワー・スペ
クトルP(ω)に対してフーリエ逆変換をほどこ
して自己相関係数R(n)を算出するもの、4は
線形予測係数算出部であつて自己相関係数R
(n)にもとづいて線形予測係数a(n)を算出
するもの、5はフーリエ変換処理部であつて線形
予測係数a(n)を時間関数とみなしてフーリエ
変換を行なうもの、6は2乗値抽出部、7は逆数
処理部を表わしている。なお、上記フーリエ変換
処理部5と2乗値抽出部6と逆数処理部7とは、
上記線形予測係数a(n)から入力音声信号のス
ペクトル包絡情報P(ω)を抽出するものと考え
てよい。なお、上記線形予測係数算出部4は、例
えば(i)コロナ社昭和58年発行、鈴木久喜訳「音声
のデイジタル信号処理(下)」第165頁ないし第
167頁や、(ii)IE3Proceeding Vol63,No.4,1975
“Linear Prediction:a Tutorial Review”(J.
Makhoul)P566,(37)式または、(38a)式ない
し(38c)式に示される如く従来から知られてい
るものである。
In FIG. 1, numeral 1 is a Fourier transform processing unit that performs Fourier transform on a discrete input audio signal S(n), and numeral 2 is a square value extractor that extracts the power spectrum P(ω) of the input audio. something that extracts
3 is an inverse Fourier transform processing unit that performs inverse Fourier transform on the power spectrum P(ω) to calculate the autocorrelation coefficient R(n); 4 is a linear prediction coefficient calculation unit that calculates the autocorrelation coefficient R(n); Correlation coefficient R
(n), 5 is a Fourier transform processing unit that performs Fourier transform by regarding the linear prediction coefficient a(n) as a time function, and 6 is a square The value extractor 7 represents a reciprocal number processor. Note that the Fourier transform processing section 5, square value extraction section 6, and reciprocal number processing section 7 are as follows:
It may be considered that the spectral envelope information P(ω) of the input audio signal is extracted from the linear prediction coefficient a(n). The linear prediction coefficient calculation unit 4 may be used, for example, in (i) “Digital Signal Processing of Speech (Volume 2)” published by Corona Publishing in 1982, translated by Hisaki Suzuki, pages 165 to 165.
167 pages, (ii) IE 3 Proceeding Vol63, No.4, 1975
“Linear Prediction: a Tutorial Review” (J.
Makhoul) P566, which is conventionally known as shown in formula (37) or formulas (38a) to (38c).

第1図図示の従来公知の構成を用いた場合、次
の如き問題を包含している。即ち、 (A) 今入力音声のピツチ周波数が、(i)62.5ないし
500Hzの周波数範囲内にある多数の音声信号群
A、(ii)83.3ないし250Hzの周波数範囲内にある
多数の音声信号群B、(iii)62.5ないし125Hzの周
波数範囲内にある多数の音声信号群C、(iv)250
ないし500Hzの周波数範囲内にある多数の音声
信号群Dについて、対数スペクトル包絡情報を
抽出し、夫々群毎に入力音声の真の対数スペク
トル包絡情報からの偏差の2乗平均をとつてプ
ロツトすると、第3図図示横軸γ=1.0におけ
る値k1,k2,k3として示されるように、各音声
信号群A,B,C,Dに応じて本来同じ値であ
るのが好ましいのに図示の如く偏差が異なる値
をもつている。なお上記γの値については後述
するがγ=1.0の場合が従来のものに該当して
いる。このことは、入力音声のピツチ周波数の
存在によつて、抽出したスペクトル包絡情報に
誤差が生じること、またピツチ周波数の変動に
応じて抽出スペクトル包絡情報が変動すること
を示している。
When the conventionally known configuration shown in FIG. 1 is used, the following problems are involved. That is, (A) the pitch frequency of the currently input voice is (i) 62.5 or
a number of audio signals A within the frequency range of 500 Hz; (ii) a number of audio signals B within the frequency range of 83.3 to 250 Hz; and (iii) a number of audio signals within the frequency range of 62.5 to 125 Hz. C.(iv)250
If logarithmic spectral envelope information is extracted for a large number of audio signal groups D within a frequency range of 500 Hz to 500 Hz, and the root mean square of the deviation from the true logarithmic spectral envelope information of the input audio is plotted for each group, As shown in FIG. 3, the values k 1 , k 2 , k 3 on the horizontal axis γ = 1.0 are preferably the same values for each audio signal group A, B, C, D, but the values shown in the diagram are The deviation has different values, such as. The value of γ will be described later, but the case of γ=1.0 corresponds to the conventional case. This indicates that the existence of the pitch frequency of the input voice causes an error in the extracted spectral envelope information, and that the extracted spectral envelope information varies in accordance with variations in the pitch frequency.

(B) また一定のホルマント周波数F1(500Hz)に
対応してF1/F0比が0.80ないし8.00となる範囲
のピツチ周波数F0をもつ多数の音声信号毎
に、抽出されたホルマント周波数が真のホルマ
ント周波数F1に対してどの程度の相対誤差を
もつかをプロツトすると、第4図図示の如く、
相対誤差がF1/F0比4.00以上のピツチ周波数
F0をもつ音声信号においても、本来エラー
「0.00」の線上にプロツトされるべきであるの
に、±2.50%程度の値をとるものとなつてい
る。
(B) Also, for each of a number of audio signals having a pitch frequency F 0 in a range where the F 1 /F 0 ratio is 0.80 to 8.00 corresponding to a constant formant frequency F 1 (500Hz), the extracted formant frequency is When plotting the degree of relative error to the true formant frequency F1 , as shown in Figure 4,
Pitch frequency with relative error of F 1 / F 0 ratio of 4.00 or more
The audio signal with F 0 should also be plotted on the error "0.00" line, but it takes a value of about ±2.50%.

上述の如く、第1図図示の従来公知の方式を用
いた場合、入力音声信号のピツチ周波数に応じ
て、得られるスペクトル包絡情報や得られるホル
マント周波数に比較的大きい相対誤差を含んだも
のとなつている。
As mentioned above, when the conventionally known method shown in FIG. 1 is used, the obtained spectral envelope information and the obtained formant frequency contain relatively large relative errors depending on the pitch frequency of the input audio signal. ing.

第2図は本発明者らが先に行なつた発明の方式
を適用したスペクトル包絡情報抽出の一構成例を
示している。図中の符号1ないし7およびS
(n),P(ω),^P(ω)は第1図に対応し、8
は第2図においてもうけられる変換処理部、9は
逆変換処理部、P′(ω)は変形パワー・スペクト
ル、R′(n)は変形自己相関係数、a′(n)は変
形予測係数、P′(ω)は変形スペクトル包絡情報
を表わしている。
FIG. 2 shows an example of a configuration for extracting spectral envelope information using the method of the invention previously developed by the present inventors. Codes 1 to 7 and S in the figure
(n), P(ω), ^P(ω) correspond to Fig. 1, and 8
is the transformation processing section created in Fig. 2, 9 is the inverse transformation processing section, P'(ω) is the deformed power spectrum, R'(n) is the deformed autocorrelation coefficient, and a'(n) is the deformed prediction coefficient. , P'(ω) represents deformed spectrum envelope information.

第2図図示において2乗値抽出部2によつて入
力音声のパワー・スペクトルP(ω)が得られる
が、該パワー・スペクトルP(ω)に対して例え
ば P′(ω)=〔P(ω)〕〓 ……(1) なる変換を与える変換処理部8を挿置するように
する。該変換処理部8における係数γの値に対応
して、0<γ<1の場合にはパワー・スペクトル
P(ω)を振幅軸に関して圧縮し、1<γの場合
には伸長し、―1<γ<0の場合には圧縮して逆
数をとり、γ<―1の場合には伸長して逆数をと
つているものと考えてよい。
In FIG. 2, the power spectrum P(ω) of the input voice is obtained by the square value extractor 2, and for example, P′(ω)=[P( ω)〕〓 ...(1) A conversion processing unit 8 is inserted which provides the following conversion. Corresponding to the value of the coefficient γ in the conversion processing unit 8, when 0<γ<1, the power spectrum P(ω) is compressed with respect to the amplitude axis, and when 1<γ, it is expanded, and -1 If <γ<0, it is compressed and the reciprocal is taken, and if γ<-1, it is expanded and the reciprocal is taken.

第2図図示の場合、入力音声信号S(n)をフ
ーリエ変換して絶対値をとつたパワー・スペクト
ルP(ω)に対して第(1)式に示す如き変換を行な
つた上で、変形自己相関係数R′(n)、変形予測
係数a′(n)、変形スペクトル包絡情報^P′(ω)
を得てその上で、上記第(1)式の変換の逆変換を逆
変換処理部9において行なうようにする。即ち、
入力音声信号S(n)をフーリエ変換した後であ
つてフーリエ逆変換処理部3によつて逆変換する
までの間の周波数領域において、第(1)式に示す如
き変換を行ない、スペクトル包絡情報^P(ω)を
抽出するに当つて、逆変換^P(ω)=〔^P′(ω)
-
〓を行なうようにしている。なお、計算量は大と
なるが、第2図図示のフーリエ変換処理部1の直
後に変換処理部8を挿置してもよい。
In the case shown in FIG. 2, the input audio signal S(n) is Fourier-transformed and the power spectrum P(ω), whose absolute value is taken, is transformed as shown in equation (1), and then, Deformed autocorrelation coefficient R'(n), deformed prediction coefficient a'(n), deformed spectrum envelope information ^P'(ω)
Then, the inverse transformation of the transformation of the above equation (1) is performed in the inverse transformation processing section 9. That is,
In the frequency domain after the Fourier transform of the input audio signal S(n) and before the inverse transform by the Fourier inverse transform processor 3, the transform shown in equation (1) is performed to obtain spectral envelope information. To extract ^P(ω), inverse transformation ^P(ω) = [^P'(ω)
-
I am trying to do the following. Incidentally, although the amount of calculation becomes large, the transform processing section 8 may be inserted immediately after the Fourier transform processing section 1 shown in FIG.

第3図は、上述の如く各音声信号群A,B,
C,D毎に、第2図図示の構成を用いて、上記係
数γを変化させて前述のスペクトル包絡情報の偏
差をとつてプロツトした結果を示している。図示
の場合においては、γ=0.5近傍において、各群
A,B,C,D毎の偏差が略零近傍に集中してお
り、入力音声のピツチ周波数の変動による影響が
吸収されていることが伴る。即ち第6図Aは第4
図に対応する同じグラフであり、第6図Bは第2
図図示の構成によつて得られたスペクトル包絡情
報P(ω)を用いて第6図Aと同じものをとつた
グラフを示している。第6図AとBとを対比する
と明らかな如く、F1/F0比が4.00以上の場合にお
いて安定し、入力音声のピツチ周波数が異なるこ
とによる影響が大きく抑えられる。
FIG. 3 shows each audio signal group A, B,
For each of C and D, using the configuration shown in FIG. 2, the results of plotting the deviation of the spectral envelope information described above while changing the coefficient γ are shown. In the case shown in the figure, the deviations for each group A, B, C, and D are concentrated near zero near γ = 0.5, indicating that the influence of fluctuations in the pitch frequency of the input voice is absorbed. Accompanied. That is, Figure 6A is the fourth
Figure 6B is the same graph corresponding to Figure 6B.
A graph similar to that shown in FIG. 6A is shown using spectral envelope information P(ω) obtained by the configuration shown in the figure. As is clear from comparing FIG. 6A and FIG. 6B, stability is achieved when the F 1 /F 0 ratio is 4.00 or more, and the influence of different pitch frequencies of input audio is largely suppressed.

上記第2図に示す構成においては、変換処理部
8において、第(1)式に対応する変換を行うように
している。本発明者らは、より良い変換の態様を
探索していた所、 で与えられる変換を行なうことが好ましいことを
見出した。なお第(2)式におけるGはパワー・スペ
クトルP(ω)を正規化するためのものと考えて
よく、μは正の値をもつ任意の係数であり、また
logのカツコ内の値1は対数値が負の値をとらな
いようにするためのものと考えてよい。
In the configuration shown in FIG. 2, the conversion processing section 8 performs the conversion corresponding to equation (1). The present inventors were searching for a better conversion mode, and We have found that it is preferable to perform the transformation given by Note that G in equation (2) can be considered to be for normalizing the power spectrum P(ω), and μ is an arbitrary coefficient with a positive value, and
The value 1 in the log bracket can be considered to prevent the logarithm value from taking a negative value.

第5図は、第(2)式による変換を行なうようにし
た本発明の一実施例構成を示している。図中の符
号1ないし7は第1図に対応し、10は変換処理
部であつて第2図図示の変換処理部8に対応され
るもので第(2)式による変換を行なうもの、11は
逆変換処理部であつて第2図図示の逆変換処理部
9に対応されるもので第(2)式による変換の逆変換
を行なうものを表わしている。
FIG. 5 shows an embodiment of the present invention in which conversion is performed according to equation (2). Reference numerals 1 to 7 in the figure correspond to those in FIG. 1, 10 is a conversion processing section which corresponds to the conversion processing section 8 shown in FIG. 2, and performs the conversion according to equation (2); 2 is an inverse transformation processing section which corresponds to the inverse transformation processing section 9 shown in FIG. 2, which performs the inverse transformation of the transformation according to equation (2).

第5図図示構成による動作は、第2図図示の場
合と実質的に同じであり、変換処理部10と逆変
換処理部11との動作が第(2)式に対応するものと
なつているだけである。
The operation according to the configuration shown in FIG. 5 is substantially the same as that shown in FIG. 2, and the operations of the conversion processing section 10 and the inverse conversion processing section 11 correspond to equation (2). Only.

第5図図示の構成によつて得られたスペクトル
包絡情報を用いてホルマント周波数を抽出し、第
6図Aや第6図Bのそれと対比せしめたものが第
6図Cに示されている(なお係数μは値10にと
つている)。第6図Cから判る如く、第6図Bの
場合にくらべてもより安定した値をとるようにな
つており、入力音声のピツチ周波数が異なること
による影響が抑えられていることが判る。
The formant frequency extracted using the spectral envelope information obtained by the configuration shown in FIG. 5 and compared with that in FIGS. 6A and 6B is shown in FIG. 6C ( Note that the coefficient μ is set to a value of 10). As can be seen from FIG. 6C, the values are more stable than in the case of FIG. 6B, and it can be seen that the influence of different pitch frequencies of the input audio is suppressed.

第7図ないし第9図は夫々、第3図に関連して
説明した群A,B,C,Dについて、第5図図示
の構成にもとづいてスペクトル包絡情報^P(ω)
を得、その際の係数μを変化させた場合の特性を
示している。また第10図ないし第12図は、
夫々、第7図ないし第9図と同じ処理で得られた
スペクトル包絡情報を用いてホルマント周波数
F1を抽出した場合の特性を示している。係数μ
の値が値10の近傍において好ましいものとなつ
ていることが判る。
FIGS. 7 to 9 respectively show spectral envelope information ^P(ω) for groups A, B, C, and D explained in connection with FIG. 3 based on the configuration shown in FIG.
is obtained, and the characteristics are shown when the coefficient μ at that time is changed. Also, Figures 10 to 12 are
The formant frequency is calculated using the spectral envelope information obtained by the same processing as in Figs. 7 to 9, respectively.
It shows the characteristics when F 1 is extracted. Coefficient μ
It can be seen that the value of is preferable near the value 10.

(5) 発明の効果 以上説明した如く、本発明によれば、入力音声
信号のピツチ周波数の違いによる影響をなくする
ことができ、特にμ=10の近傍においてその効果
が大きい。また上記μの値を選ぶことによつて場
合においては入力音声信号のピツチ周波数の違い
による特徴を拡大させて抽出することができ、分
析処理上の自由度が向上する。更に本発明におい
て処理の過程で得られる変形スペクトル包絡情報
ないし変形スペクトル包絡情報から求められるホ
ルマント周波数自体も、ピツチ周波数の変動の影
響を受けることが少ないため、音声合成や音声認
識に用いることが可能である。
(5) Effects of the Invention As explained above, according to the present invention, it is possible to eliminate the influence of differences in pitch frequencies of input audio signals, and the effect is particularly large in the vicinity of μ=10. Furthermore, by selecting the value of .mu., in some cases it is possible to expand and extract features due to differences in pitch frequencies of the input audio signal, improving the degree of freedom in analysis processing. Furthermore, in the present invention, the modified spectral envelope information obtained in the process of processing or the formant frequency itself determined from the modified spectral envelope information is less affected by fluctuations in the pitch frequency, so it can be used for speech synthesis and speech recognition. It is.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来公知のスペクトル包絡情報抽出の
ための構成例、第2図は本発明者らが先に行なつ
た発明によるスペクトル包絡情報抽出のための構
成例、第3図および第4図は本発明の前提問題を
説明する説明図、第5図は本発明の一実施例構
成、第6図A,B,Cは第1図ないし第3図に示
す各構成によつて得たスペクトル包絡情報にもと
づいて抽出したホルマント周波数を用いて本発明
の利点を説明する説明図、第7図ないし第12図
は夫々係数μを横軸にとつた場合における本発明
によつて得られたスペクトル包絡情報の特性を説
明する説明図を示す。 図中、1はフーリエ変換処理部、2は2乗値抽
出部、3はフーリエ逆変換処理部、4は線形予測
係数算出部、5はフーリエ変換処理部、6は2乗
値抽出部、7は逆数処理部、8,10は変換処理
部、9,11は逆変換処理部、S(n)は入力音
声信号、P(ω)はパワー・スペクトル、^P
(ω)はスペクトル包絡情報、P″(ω)は変形パ
ワー・スペクトル、R″(n)は変形自己相関係
数、a″(n)は変形予測係数、^P″(ω)は変形
スペクトル包絡情報を表わす。
FIG. 1 is an example of a conventional configuration for extracting spectral envelope information, FIG. 2 is an example of a configuration for extracting spectral envelope information according to an invention previously made by the present inventors, and FIGS. 3 and 4 is an explanatory diagram explaining the prerequisite problem of the present invention, FIG. 5 is an example configuration of the present invention, and FIG. 6 A, B, and C are spectra obtained with each configuration shown in FIGS. 1 to 3. An explanatory diagram illustrating the advantages of the present invention using formant frequencies extracted based on envelope information, and Figures 7 to 12 are spectra obtained by the present invention when the coefficient μ is plotted on the horizontal axis, respectively. An explanatory diagram illustrating the characteristics of envelope information is shown. In the figure, 1 is a Fourier transform processing section, 2 is a square value extraction section, 3 is a Fourier inverse transform processing section, 4 is a linear prediction coefficient calculation section, 5 is a Fourier transform processing section, 6 is a square value extraction section, 7 is the reciprocal processing unit, 8 and 10 are the transformation processing units, 9 and 11 are the inverse transformation processing units, S(n) is the input audio signal, P(ω) is the power spectrum, ^P
(ω) is the spectral envelope information, P″(ω) is the deformed power spectrum, R″(n) is the deformed autocorrelation coefficient, a″(n) is the deformed prediction coefficient, ^P″(ω) is the deformed spectrum Represents envelope information.

Claims (1)

【特許請求の範囲】[Claims] 1 入力音声信号をフーリエ変換し周波数領域に
変換して当該入力音声信号のパワー・スペクトル
を抽出し、該パワー・スペクトルを用いて自己相
関係数を算出して線形予測係数を抽出し、該線形
予測係数を用いて上記入力音声信号のスペクトル
包絡情報を抽出する音声分析処理方式において、
上記入力音声信号をフーリエ変換した後であつて
上記自己相関係数を算出する前の段階の周波数領
域において入力信号に対して入力信号の圧縮ある
いは伸張をほどこす変換処理部を挿置すると共
に、上記線形予測係数を用いて得られた変形スペ
クトル包絡情報に対して上記変換処理部において
行なわれた変換の逆変換を行なう逆変換処理をほ
どこすよう構成してなり、上記圧縮あるいは伸張
をほどこす変換処理部は、上記パワー・スペクト
ルP(ω)を正規化した値に対して係数μを乗算
しそれに対して対数をとるようにした対数変換を
行なうことを特徴とする音声分析処理方式。
1 Fourier transform the input audio signal, convert it into the frequency domain, extract the power spectrum of the input audio signal, calculate the autocorrelation coefficient using the power spectrum, extract the linear prediction coefficient, and calculate the linear prediction coefficient. In a speech analysis processing method for extracting spectral envelope information of the input speech signal using prediction coefficients,
Inserting a transformation processing unit that compresses or expands the input signal in the frequency domain after Fourier transforming the input audio signal and before calculating the autocorrelation coefficient, The deformed spectrum envelope information obtained using the linear prediction coefficients is configured to undergo an inverse transformation process to perform an inverse transformation of the transformation performed in the transformation processing section, and performs the compression or expansion described above. A speech analysis processing method characterized in that the conversion processing unit performs logarithmic conversion by multiplying the normalized value of the power spectrum P(ω) by a coefficient μ and taking a logarithm thereof.
JP56188061A 1981-11-24 1981-11-24 Voice analysis processing system Granted JPS5888800A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56188061A JPS5888800A (en) 1981-11-24 1981-11-24 Voice analysis processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56188061A JPS5888800A (en) 1981-11-24 1981-11-24 Voice analysis processing system

Publications (2)

Publication Number Publication Date
JPS5888800A JPS5888800A (en) 1983-05-26
JPS6239760B2 true JPS6239760B2 (en) 1987-08-25

Family

ID=16217005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56188061A Granted JPS5888800A (en) 1981-11-24 1981-11-24 Voice analysis processing system

Country Status (1)

Country Link
JP (1) JPS5888800A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2566485B2 (en) * 1990-07-17 1996-12-25 狭山精密工業株式会社 Antistatic mechanism for abrasives of pachinko ball polishing equipment

Also Published As

Publication number Publication date
JPS5888800A (en) 1983-05-26

Similar Documents

Publication Publication Date Title
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
JP5992427B2 (en) Method and apparatus for estimating a pattern related to pitch and / or fundamental frequency in a signal
EP0853309B1 (en) Method and apparatus for signal analysis
EP2249333B1 (en) Method and apparatus for estimating a fundamental frequency of a speech signal
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JP3354252B2 (en) Voice recognition device
JP2940835B2 (en) Pitch frequency difference feature extraction method
JPS6239760B2 (en)
JPS6239759B2 (en)
JPS6238719B2 (en)
JP3186020B2 (en) Audio signal conversion decoding method
JPS599917B2 (en) Voice analysis processing method
JP2002507775A (en) Audio signal processing method and audio signal processing device
JP2898637B2 (en) Audio signal analysis method
JP2583854B2 (en) Voiced / unvoiced judgment method
Zhao et al. A robust algorithm for formant frequency extraction of noisy speech
JPH06202695A (en) Speech signal processor
JP2016212356A (en) Signal processing apparatus and program
JPH0552959B2 (en)
JPS5936279B2 (en) Voice analysis processing method
Segural et al. Study of linear behavior algorithms with fundamental tone detection
JPH0117599B2 (en)
JPS6113600B2 (en)
JPH1055193A (en) Voice analyzing method
JPH0670752B2 (en) Polar zero analyzer