JPH1114672A - 周期性波形のスペクトル推定方法及びそのプログラム記録媒体 - Google Patents

周期性波形のスペクトル推定方法及びそのプログラム記録媒体

Info

Publication number
JPH1114672A
JPH1114672A JP16417997A JP16417997A JPH1114672A JP H1114672 A JPH1114672 A JP H1114672A JP 16417997 A JP16417997 A JP 16417997A JP 16417997 A JP16417997 A JP 16417997A JP H1114672 A JPH1114672 A JP H1114672A
Authority
JP
Japan
Prior art keywords
spectrum
section
power
minute
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP16417997A
Other languages
English (en)
Inventor
Kiyoaki Aikawa
清明 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP16417997A priority Critical patent/JPH1114672A/ja
Publication of JPH1114672A publication Critical patent/JPH1114672A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 ピッチと同期させることなく、高い精度でス
ペクトルを推定することができる。 【解決手段】 入力音声波形を3〜5ms程度微小区間
τを切り出し(S3)、ハミングウインドウをかけ、D
FTを行い(S5)、τのスペクトルをM=log(X
+1)(X:DFTの結果)を求め(S6)、A=A+
e (Aの初期値は0)で累積加算し(S7)、τを2
〜4msのシフトしてτの切り出しに戻り(S8)、こ
の処理を従来の分析区間Tについて行うと、S=(A/
N)1/e (N−1はシフト回数)を計算してスペクトル
Sを得る(S10)。以上を各スペクトル成分について
行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声波形のような
周期性構造をもつ波形の一定時間(分析表)ごとのスペ
クトルを推定する方法及びそのプログラム記録媒体に関
する。
【0002】
【従来の技術】従来から、音声情報処理においては、ま
ず音声波形からスペクトル時系列を求める。スペクトル
を求める際、従来の短時間スペクトル分析では、音声ス
ペクトルは分析窓に含まれる音声波形全体を一括して用
いて求められた。通常分析の時間窓幅は20msから4
0ms程度である。この窓幅は通常、フレーム毎のスペ
クトルの変動がないように、ピッチ周期(声門の開閉周
期、開から開への時間間隔)の2倍以上で音素(母音,
子音)長より短かく設定される。このような分析方法を
用いると、スペクトルに調波構造が現れる。〔例えば、
古井貞熈、ディジタル音声処理、東海大学出版会、19
85〕。従ってスペクトル形状がピッチ周期の影響を受
けやすい。ピッチに同期して1ピッチの区間の音声信号
を切り出して分析し、与えられた区間内で平均すればス
ペクトル推定精度を向上できるがピッチ区間を正確に切
り出すことは難しい。
【0003】
【発明が解決しようとする課題】この発明の目的はピッ
チと同期させないが、ピッチ周期に影響されない正しい
スペクトルを推定できる周期性信号のスペクトル推定方
法及びそのプログラム記録媒体を提供することにある。
【0004】
【課題を解決するための手段】この発明によれば周期性
信号の周期Tより短い分析窓でスペクトル分析し、その
分析結果を実数乗してその短時間スペクトルを複数統合
して周期Tのスペクトルを推定する。音声波形について
述べれば、短い時間の音声波形を短い周期(微小区間窓
幅)で切り出す。この短い時間の音声波形から求められ
たスペクトルを微小区間スペクトルと呼ぶことにする。
ここで短い時間とは音声波形の1ピッチ程度以下の時間
を想定している。このような短い時間の波形は時間的な
周期構造を持たないため、スペクトルは調波構造を示さ
ない。音声切り出しの様子を図1Aに示す。τは微小区
間スペクトルを求めるための微小区間窓幅(時間)であ
り、δは微小区間シフト幅(時間)であり、Tは従来の
分析における分析窓幅(時間)である。従来の窓幅と同
じ実効窓幅になるようにするには、以下の数の微小区間
スペクトルを統合すればよい。
【0005】 N=((T−τ)/δ)+1 (1) 複数の微小区間スペクトルを統合する関数として以下の
p ノルム(p乗平均距離)を用いれば、様々な統合方
法を統一的に表現できる。 S(ω,t)={(1/N)Σi=0 N-1 M(ω,t+δi)e 1/e (2) ここで、M(ω,t)は時刻tの微小区間スペクトル、
ωは周波数を表す。e(e≠0)は指数で、e=1の時
には単に微小区間スペクトルの算術平均を表す。eが−
∞の時には最小値を求める計算となり、eが∞の時には
最大値を求める計算となる。式(2)で得られたものを
統合微小区間スペクトル、式(2)を用いるスペクトル
分析法を微小区間スペクトル法と呼ぶことにする。
【0006】各微小区間スペクトルM(ω,t)は例え
ばFFTにより求める。FFT次数は2のべき乗で、周
波数分析チャネル数の2倍以上、かつ波形上でのFFT
窓長がはじめて微小区間スペクトルの窓長τをこえる数
に設定する。ハミングウインドウを掛けた長さτの波形
データを左詰めで入れ、あとは0としてFFTを行う。
チャネルk、時刻をiとし、微小区間の線形FFTスペ
クトルをP(k,i)とすると、統合に用いる微小区間
スペクトルM(k,i)は次式で求まる。
【0007】 M(k,i)=log(1+P(k,i)) (3) これは対数スペクトルに近いが、値は必ず正値となる。
Lp ノルムを計算する時に各項は正値である必要があ
る。FFTの次数をKとするとチャネルkに相当する周
波数は、音声のサンプリング周波数をfs とすると式
(4)により与えられる。
【0008】 ω(k)=πfs k/(2K) (4)
【0009】
【発明の実施の形態】図3にこの発明による方法の実施
例を示す。まず音声区間例えばT=30msでの時間ポ
インタiを0とし(S1)、またスペクトルを蓄積する
バッファの内容AをクリアしてA=0に初期化をする
(S2)。次に微小区間、つまりτ=5ms程度の区間
(t〜t+τ)の音声を切り出し(S3)、その切り出
した音声信号に対して窓掛け、例えばハミングウインド
ウをかける(S4)。その窓掛けされた区間τの音声信
号に対しk次のDFT(離散的フーリエ変換)を行って
パワースペクトルXを求める(S5)。
【0010】このDFTの結果Xに対し、式(3)、つ
まりM=log(X+1)によりその微小区間スペクト
ルMを求める(S6)。この対数は自然対数である。こ
の求めた微小スペクトルMを、e乗して蓄積バッファ内
に蓄積されているスペクトルAに累積加算する(S
7)。つまり次式を演算する。 A←A+Me 次に時間ポインタiを+1し、例えば微小区間シフト幅
δ=2ms程度、だけ移動させ、つまり時刻をt+δと
する(S8)、この時、音声データ終端か、つまり時刻
tがt+Tとなり、T=30msの音声区間の終端に到
達したかを判定し(S9)、到達してなければ、ステッ
プS3に戻り、δだけシフトした微小区間(t+δ〜t
+δ+τ)の音声切り出しを行い、以下同様の処理を行
う。
【0011】このようにしてδだけシフトしながら、区
間τの微小区間音声のスペクトルMを求め、これを蓄積
バッファの内容Aに累積加算し、式(1)で示したよう
に、N個の微小区間のスペクトルを累積すると、つまり
音声区間の終端δi=T=30msに到達すると、これ
がステップS9で判定され、蓄積バッファの記憶内容で
ある累積したスペクトルA=Σi=0 N-1 e をその累
積した数Nで割り、その割算結果を1/e乗して、つま
り式(2)を演算して、その微小区間スペクトルSを求
める(S10)。なおこの図2で示した処理では各周波
数について繰返すことを省略しており、従って図2中の
A,X,M,Sは周波数チャネル数の要素を持つベクト
ルである。
【0012】このようにして求められた微小区間スペク
トルの値の時間的変動がどのように統合されるかをある
周波数チャネルについてシミュレーション実験を行った
結果を示す。即ちスペクトルのうちある周波数の値の変
動が s(i)=0.5−0.5 cos(4πi/N)+ε (5) 0i<Nのような正弦波状であるとする。εは値の発
散を避けるための微小定数である。
【0013】微小区間スペクトルをLp ノルムで統合す
る式は v(e)={Σi=0 N-1 s(i)e 1/e (6) で与えられる。ここでは微小区間スペクトルの統合を目
的としており、基本的には最小値を求める問題ではない
ので、0<eとする。低レベルの雑音が重畳されている
場合、駆動音源が不安定な場合などでは、エネルギーの
大きな部分を重視するのが適当である。このような場合
に、複数の微小区間スペクトルを統合するには1<eと
すれば良い。また、エネルギーの低い部分を重視して、
突発的な雑音を除去する目的では0<e<1とすれば良
い。
【0014】式(5)のスペクトルの変動が時間的に一
定な雑音νに埋もれて r(i)= max〔s(i),ν〕 (7) となっていたとする。つまり図1Bに示すように横軸を
時間、縦軸をレベルとし、信号s(i)は曲線11のよ
うに変化し、横軸と平行な各種レベルの雑音ν1
ν2 ,ν3 ・・・が重畳した場合は、r(i)は信号s
(i)と雑音νとのうち大きい方がr(i)となる。こ
のように雑音νにより、これより低いレベルの部分が埋
もれた信号r(i)に対し式(6)を各種eについて計
算した結果を図1Cに示す。この図2からeが4程度以
上であれば、スペクトルの最大値の1/2程度の雑音で
埋もれていても、統合スペクトルレベルはほぼ一定であ
り、雑音にほとんど影響されないことがわかる。これは
この発明の微小区間スペクトル法が雑音に対して頑健で
あることを示している。
【0015】上述では各周波数ごとに微小区間スペクト
ル時系列の統合を行ったが、各微小区間のパワーに依存
したスペクトルの重み付き加算を行うようにしてもよ
い。つまり微小区間のパワーをu(t)、微小区間のパ
ワー正規化されたスペクトルをQ(ω,t)とすると次
式の関係がある。 u(t)=1/(2π)∫M(ω,t)dω (8) Q(ω,t)=M(ω,t)/u(t) (9) ∫は−πからπ従ってパワーに依存したスペクトルの重
み付き加算を行う場合が微小区間スペクトルの統合式は
以下のようになる。
【0016】 S(ω,t)={Σi=0 N-1 u(t+δi)e Q(ω,t+δi)}/Σi=0 N-1 u(t+δi)e (10) この場合、図2において、ステップS6で求めた微小区
間スペクトルMを、式(9)で示す関係でu(t)とQ
(ω,t)に分け、ステップS7では、式(10)にも
とづき、 A=A+ue Q を演算すればよい。つまり各スペクトルごとにA=A+
e を演算すればよい。Q(ω,t+δi)はFFTの
みならず、LPC分析で求めてもよい。
【0017】次に微小区間スペクトルを用いた音声認識
の例を図4Aに示す。音声認識部ではHMM(隠れマル
コフモデル)〔中川聖一:確率モデルによる音声認識、
電子通信情報学会,1988〕を用いた場合である。マ
イクロフォン21よりの入力音声は、サンプリング周波
数(例えば12kHz)の1/2の通過帯域を持つ低域
フィルタ22を通された後、A/D変換器23によりア
ナログ信号から、サンプリング周波数でディジタル化さ
れる、このディジタル音声信号はこの発明による微小区
間スペクトル推定部24で微小区間スペクトルを用いて
スペクトル時系列に変換される。学習音声のスペクトル
時系列はHMM学習部25に入力され、HMMが作られ
てHMM蓄積部26に蓄積される。認識対象音声のスペ
クトル時系列はHMM認識部27に入力され、HMM蓄
積部26のHMMと、語彙情報蓄積部28の認識語彙の
リストとを参照して認識処理が行われ、その結果が表示
部29に表示される。HMMの学習と認識は、上記参考
文献に記載されている標準的な方法を用いる。
【0018】微小区間スペクトル推定部24での微小区
間スペクトルを用いてスペクトルの時系列を生成する処
理は図4Bに示すように行われる。まず時間ポインタを
0にし(S1)、連続的な音声波形から時間ポインタを
起点としてT=30msの音声信号を切り出す(S
2)。その切り出した30msの音声信号から微小区間
スペクトル法によりスペクトルを抽出する(S3)。次
に時間ポインタを10ms移動する(S4)。これは音
声認識部27に送られるいわゆるフレームレート、ある
いはフレーム周期と呼ばれる値である。次に時間ポイン
タが音声信号の終端に到達したかを判定し(S5)、終
端に到達してなければステップS2に戻り、終端に到達
したら終了する。ステップS3の微小区間スペクトル抽
出は図2に示した処理により行う。
【0019】この発明は音声波形のみならず、周期性の
ある波形のスペクトル推定にも適用できる。
【0020】
【発明の効果】以上述べたようにこの発明によれば、微
小区間から求めたスペクトルを統合して音声波形などの
スペクトルを推定するため、eの値の選定することによ
り、つまりe>1とすることによりエネルギーの高い微
小区間スペクトルを選択的に統合できる。エネルギーの
高いスペクトルはピッチ周期に同期して得られ、ピッチ
同期スペクトル分析に近い精度の高いスペクトル推定を
行うことができる。このため、スペクトルがピッチ周期
や音声の分析区間の切り出し位置の影響を受け難くな
り、音声認識に適用して認識性能を向上させることがで
きる。
【0021】また0<e<1にeを選定することによ
り、エネルギーの低い部分を重視して、突発的な雑音を
除去することができる。音声認識に、この発明を適用し
てスペクトル系列を得る場合と、ピッチ周期の2倍程度
以上の窓を用いた従来のFFTによりスペクトルを得る
場合とを比較した結果、発声様式の異なる音素の認識に
おいて従来64%であった音素認識率を71%まで向上
させることができた。eが0.5から2のいずれの場合
にも微小区間スペクトル法の効果が得られる。
【0022】1フレームの窓長Tは15ms、20m
s、30msおよび40msのいずれの場合でも微小区
間スペクトル法を用いると、従来の長いデータ窓を用い
るFFTスペクトルに比べ、高い認識率が得られる。こ
の改善は発声様式の異なる音声を認識した場合に大き
い。改善効果は母音の方が大きい。微小区間フレームシ
フトδは2msから4ms、微小区間フレーム窓長τは
3msから5ms程度が良く、つまり窓長Tの1/5〜
1/14程度の長さがよく、特に同じ発話様式の音声に
対しては5ms程度が、異なる発話様式の音声に対して
は3ms程度が良い。
【図面の簡単な説明】
【図1】Aは従来のスペクトル分析窓Tと、この発明に
おける微小区間窓幅τと、微小区間シフト幅δとの関係
例を示す図、Bは雑音に埋もれた周波数チャネルの出力
波形を示す図である。
【図2】パラメータとする雑音レベルの変化に対する統
合微小区間スペクトルの関係を示す図。
【図3】この発明によるスペクトル推定方法の一例を示
す流れ図。
【図4】Aはこの発明の微小区間スペクトル推定方法を
適用した音声認識装置の機能構成を示す図、Bは微小区
間スペクトル時系列の生成手順を示す流れ図である。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 周期性波形の一定時間区間Tごとにスペ
    クトルを推定する方法において、 上記一定時間区間Tの周期性波形を、上記一定時間区間
    より短かい微小区間τだけ切り出すことを、この微小区
    間τより短かい微小区間シフト幅δずつ順次ずらして行
    い、 上記各切り出された微小区間の波形のスペクトルMを求
    め、 これら微小区間スペクトルMを実数e乗して平均して1
    /e乗し、上記一定時間区間Tのスペクトルとすること
    を特徴とする周期性波形のスペクトル推定方法。
  2. 【請求項2】 上記微小区間のスペクトルMは、上記微
    小区間の波形を離散的フーリエ変換し、その変換結果に
    より得られるパワースペクトルXに対し、M=log
    (X+1)(logは自然対数)を演算して求めること
    を特徴とする請求項1記載の周期性波形のスペクトル推
    定方法。
  3. 【請求項3】 上記微小区間スペクトルMを、微小区間
    のパワーuとそのパワーuで正規化されたスペクトルQ
    とを用い、Uのe乗を重みとする重み付平均として求
    め、上記実数e乗は微小区間のパワーuに対して行うこ
    とを特徴とする請求項1又は2記載の周期性波形スペク
    トル推定方法。
  4. 【請求項4】 音声波形のスペクトルを一定時間区間ご
    とに推定する際に、 上記一定時間区間Tの音声波形を、上記一定時間区間T
    より短かい微小区間τだけ切り出すことを、微小区間τ
    より短かい微小区間シフト幅δずつ順次ずらして行い、 上記各切り出された微小区間の音声波形のスペクトルM
    を求め、 これら各微小区間スペクトルMを実数e乗し、これと平
    均し、更に1/e乗して上記一定時間区間Tのスペクト
    ルとすることをコンピュータにより行うためのプログラ
    ムを記録した記録媒体。
  5. 【請求項5】 音声波形のスペクトルを一定時間区間T
    ごとに推定する際に、 上記一定時間区間Tの音声波形を、上記一定時間区間T
    より短かい微小区間τだけ切り出すことを、微小区間τ
    より短かい微小区間シフト幅δずつ順次ずらして行い、 上記各切り出された微小区間の音声波形のスペクトルM
    を、その微小区間のパワーuと、微小区間のパワーで正
    規化されたスペクトルQとの積u・Qとして求め、 これら各微小区間スペクトルMについて、その微小区間
    パワーuについて実数e乗したue ・Qを求め、これら
    を平均して上記一定時間区間Tのスペクトルとすること
    をコンピュータにより行うためのプログラムを記録した
    記録媒体。
JP16417997A 1997-06-20 1997-06-20 周期性波形のスペクトル推定方法及びそのプログラム記録媒体 Pending JPH1114672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16417997A JPH1114672A (ja) 1997-06-20 1997-06-20 周期性波形のスペクトル推定方法及びそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16417997A JPH1114672A (ja) 1997-06-20 1997-06-20 周期性波形のスペクトル推定方法及びそのプログラム記録媒体

Publications (1)

Publication Number Publication Date
JPH1114672A true JPH1114672A (ja) 1999-01-22

Family

ID=15788223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16417997A Pending JPH1114672A (ja) 1997-06-20 1997-06-20 周期性波形のスペクトル推定方法及びそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JPH1114672A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006064549A (ja) * 2004-08-27 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> スペクトル解析方法、スペクトル解析装置、およびスペクトル解析プログラム
WO2009011438A1 (ja) * 2007-07-18 2009-01-22 Wakayama University 周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006064549A (ja) * 2004-08-27 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> スペクトル解析方法、スペクトル解析装置、およびスペクトル解析プログラム
WO2009011438A1 (ja) * 2007-07-18 2009-01-22 Wakayama University 周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法
US8781819B2 (en) 2007-07-18 2014-07-15 Wakayama University Periodic signal processing method, periodic signal conversion method, periodic signal processing device, and periodic signal analysis method

Similar Documents

Publication Publication Date Title
US7925502B2 (en) Pitch model for noise estimation
EP2109096B1 (en) Speech synthesis with dynamic constraints
US20150302845A1 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
KR20080050311A (ko) 음성 처리 장치 및 음성 처리 방법 및 프로그램
Mittal et al. Study of characteristics of aperiodicity in Noh voices
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Meseguer Speech analysis for automatic speech recognition
Eringis et al. Improving speech recognition rate through analysis parameters
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
Adiga et al. Significance of epoch identification accuracy for prosody modification
Lanchantin et al. A HMM-based speech synthesis system using a new glottal source and vocal-tract separation method
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
Yavuz et al. A phoneme-based approach for eliminating out-of-vocabulary problem of Turkish speech recognition using Hidden Markov Model.
US20100305948A1 (en) Phoneme Model for Speech Recognition
JPH1114672A (ja) 周期性波形のスペクトル推定方法及びそのプログラム記録媒体
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
JP2013015693A (ja) はなし言葉分析装置とその方法とプログラム
Singh et al. A comparative study on feature extraction techniques for language identification
Aadit et al. Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
JP2017126004A (ja) 音声評価装置、方法、及びプログラム
JP4576612B2 (ja) 音声認識方法および音声認識装置