JPH1114672A

JPH1114672A - 周期性波形のスペクトル推定方法及びそのプログラム記録媒体

Info

Publication number: JPH1114672A
Application number: JP16417997A
Authority: JP
Inventors: Kiyoaki Aikawa; 清明相川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1997-06-20
Filing date: 1997-06-20
Publication date: 1999-01-22

Abstract

(57)【要約】（修正有）【課題】ピッチと同期させることなく、高い精度でス
ペクトルを推定することができる。【解決手段】入力音声波形を３〜５ｍｓ程度微小区間
τを切り出し（Ｓ３）、ハミングウインドウをかけ、Ｄ
ＦＴを行い（Ｓ５）、τのスペクトルをＭ＝ｌｏｇ（Ｘ
＋１）（Ｘ：ＤＦＴの結果）を求め（Ｓ６）、Ａ＝Ａ＋
Ｍ^e（Ａの初期値は０）で累積加算し（Ｓ７）、τを２
〜４ｍｓのシフトしてτの切り出しに戻り（Ｓ８）、こ
の処理を従来の分析区間Ｔについて行うと、Ｓ＝（Ａ／
Ｎ）^1/e（Ｎ−１はシフト回数）を計算してスペクトル
Ｓを得る（Ｓ１０）。以上を各スペクトル成分について
行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声波形のような
周期性構造をもつ波形の一定時間（分析表）ごとのスペ
クトルを推定する方法及びそのプログラム記録媒体に関
する。

【０００２】

【従来の技術】従来から、音声情報処理においては、ま
ず音声波形からスペクトル時系列を求める。スペクトル
を求める際、従来の短時間スペクトル分析では、音声ス
ペクトルは分析窓に含まれる音声波形全体を一括して用
いて求められた。通常分析の時間窓幅は２０ｍｓから４
０ｍｓ程度である。この窓幅は通常、フレーム毎のスペ
クトルの変動がないように、ピッチ周期（声門の開閉周
期、開から開への時間間隔）の２倍以上で音素（母音，
子音）長より短かく設定される。このような分析方法を
用いると、スペクトルに調波構造が現れる。〔例えば、
古井貞熈、ディジタル音声処理、東海大学出版会、１９
８５〕。従ってスペクトル形状がピッチ周期の影響を受
けやすい。ピッチに同期して１ピッチの区間の音声信号
を切り出して分析し、与えられた区間内で平均すればス
ペクトル推定精度を向上できるがピッチ区間を正確に切
り出すことは難しい。

【０００３】

【発明が解決しようとする課題】この発明の目的はピッ
チと同期させないが、ピッチ周期に影響されない正しい
スペクトルを推定できる周期性信号のスペクトル推定方
法及びそのプログラム記録媒体を提供することにある。

【０００４】

【課題を解決するための手段】この発明によれば周期性
信号の周期Ｔより短い分析窓でスペクトル分析し、その
分析結果を実数乗してその短時間スペクトルを複数統合
して周期Ｔのスペクトルを推定する。音声波形について
述べれば、短い時間の音声波形を短い周期（微小区間窓
幅）で切り出す。この短い時間の音声波形から求められ
たスペクトルを微小区間スペクトルと呼ぶことにする。
ここで短い時間とは音声波形の１ピッチ程度以下の時間
を想定している。このような短い時間の波形は時間的な
周期構造を持たないため、スペクトルは調波構造を示さ
ない。音声切り出しの様子を図１Ａに示す。τは微小区
間スペクトルを求めるための微小区間窓幅（時間）であ
り、δは微小区間シフト幅（時間）であり、Ｔは従来の
分析における分析窓幅（時間）である。従来の窓幅と同
じ実効窓幅になるようにするには、以下の数の微小区間
スペクトルを統合すればよい。

【０００５】Ｎ＝（（Ｔ−τ）／δ）＋１（１）複数の微小区間スペクトルを統合する関数として以下の
Ｌ_pノルム（ｐ乗平均距離）を用いれば、様々な統合方
法を統一的に表現できる。Ｓ（ω，ｔ）＝｛（１／Ｎ）Σ_i=0 ^N-1Ｍ（ω，ｔ＋δｉ）^e｝^1/e （２）ここで、Ｍ（ω，ｔ）は時刻ｔの微小区間スペクトル、
ωは周波数を表す。ｅ（ｅ≠０）は指数で、ｅ＝１の時
には単に微小区間スペクトルの算術平均を表す。ｅが−
∞の時には最小値を求める計算となり、ｅが∞の時には
最大値を求める計算となる。式（２）で得られたものを
統合微小区間スペクトル、式（２）を用いるスペクトル
分析法を微小区間スペクトル法と呼ぶことにする。

【０００６】各微小区間スペクトルＭ（ω，ｔ）は例え
ばＦＦＴにより求める。ＦＦＴ次数は２のべき乗で、周
波数分析チャネル数の２倍以上、かつ波形上でのＦＦＴ
窓長がはじめて微小区間スペクトルの窓長τをこえる数
に設定する。ハミングウインドウを掛けた長さτの波形
データを左詰めで入れ、あとは０としてＦＦＴを行う。
チャネルｋ、時刻をｉとし、微小区間の線形ＦＦＴスペ
クトルをＰ（ｋ，ｉ）とすると、統合に用いる微小区間
スペクトルＭ（ｋ，ｉ）は次式で求まる。

【０００７】Ｍ（ｋ，ｉ）＝ｌｏｇ（１＋Ｐ（ｋ，ｉ））（３）これは対数スペクトルに近いが、値は必ず正値となる。
Ｌp ノルムを計算する時に各項は正値である必要があ
る。ＦＦＴの次数をＫとするとチャネルｋに相当する周
波数は、音声のサンプリング周波数をｆ_sとすると式
（４）により与えられる。

【０００８】 ω（ｋ）＝πｆ_sｋ／（２Ｋ）（４）

【０００９】

【発明の実施の形態】図３にこの発明による方法の実施
例を示す。まず音声区間例えばＴ＝３０ｍｓでの時間ポ
インタｉを０とし（Ｓ１）、またスペクトルを蓄積する
バッファの内容ＡをクリアしてＡ＝０に初期化をする
（Ｓ２）。次に微小区間、つまりτ＝５ｍｓ程度の区間
（ｔ〜ｔ＋τ）の音声を切り出し（Ｓ３）、その切り出
した音声信号に対して窓掛け、例えばハミングウインド
ウをかける（Ｓ４）。その窓掛けされた区間τの音声信
号に対しｋ次のＤＦＴ（離散的フーリエ変換）を行って
パワースペクトルＸを求める（Ｓ５）。

【００１０】このＤＦＴの結果Ｘに対し、式（３）、つ
まりＭ＝ｌｏｇ（Ｘ＋１）によりその微小区間スペクト
ルＭを求める（Ｓ６）。この対数は自然対数である。こ
の求めた微小スペクトルＭを、ｅ乗して蓄積バッファ内
に蓄積されているスペクトルＡに累積加算する（Ｓ
７）。つまり次式を演算する。Ａ←Ａ＋Ｍ^e 次に時間ポインタｉを＋１し、例えば微小区間シフト幅
δ＝２ｍｓ程度、だけ移動させ、つまり時刻をｔ＋δと
する（Ｓ８）、この時、音声データ終端か、つまり時刻
ｔがｔ＋Ｔとなり、Ｔ＝３０ｍｓの音声区間の終端に到
達したかを判定し（Ｓ９）、到達してなければ、ステッ
プＳ３に戻り、δだけシフトした微小区間（ｔ＋δ〜ｔ
＋δ＋τ）の音声切り出しを行い、以下同様の処理を行
う。

【００１１】このようにしてδだけシフトしながら、区
間τの微小区間音声のスペクトルＭを求め、これを蓄積
バッファの内容Ａに累積加算し、式（１）で示したよう
に、Ｎ個の微小区間のスペクトルを累積すると、つまり
音声区間の終端δｉ＝Ｔ＝３０ｍｓに到達すると、これ
がステップＳ９で判定され、蓄積バッファの記憶内容で
ある累積したスペクトルＡ＝Σ_i=0 ^N-1Ｍ^eをその累
積した数Ｎで割り、その割算結果を１／ｅ乗して、つま
り式（２）を演算して、その微小区間スペクトルＳを求
める（Ｓ１０）。なおこの図２で示した処理では各周波
数について繰返すことを省略しており、従って図２中の
Ａ，Ｘ，Ｍ，Ｓは周波数チャネル数の要素を持つベクト
ルである。

【００１２】このようにして求められた微小区間スペク
トルの値の時間的変動がどのように統合されるかをある
周波数チャネルについてシミュレーション実験を行った
結果を示す。即ちスペクトルのうちある周波数の値の変
動がｓ（ｉ）＝０．５−０．５ cos（４πｉ／Ｎ）＋ε （５）０＜ｉ＜Ｎのような正弦波状であるとする。εは値の発
散を避けるための微小定数である。

【００１３】微小区間スペクトルをＬp ノルムで統合す
る式はｖ（ｅ）＝｛Σ_i=0 ^N-1ｓ（ｉ）^e｝^1/e （６）で与えられる。ここでは微小区間スペクトルの統合を目
的としており、基本的には最小値を求める問題ではない
ので、０＜ｅとする。低レベルの雑音が重畳されている
場合、駆動音源が不安定な場合などでは、エネルギーの
大きな部分を重視するのが適当である。このような場合
に、複数の微小区間スペクトルを統合するには１＜ｅと
すれば良い。また、エネルギーの低い部分を重視して、
突発的な雑音を除去する目的では０＜ｅ＜１とすれば良
い。

【００１４】式（５）のスペクトルの変動が時間的に一
定な雑音νに埋もれてｒ（ｉ）＝ max〔ｓ（ｉ），ν〕（７）となっていたとする。つまり図１Ｂに示すように横軸を
時間、縦軸をレベルとし、信号ｓ（ｉ）は曲線１１のよ
うに変化し、横軸と平行な各種レベルの雑音ν₁，
ν₂，ν₃・・・が重畳した場合は、ｒ（ｉ）は信号ｓ
（ｉ）と雑音νとのうち大きい方がｒ（ｉ）となる。こ
のように雑音νにより、これより低いレベルの部分が埋
もれた信号ｒ（ｉ）に対し式（６）を各種ｅについて計
算した結果を図１Ｃに示す。この図２からｅが４程度以
上であれば、スペクトルの最大値の１／２程度の雑音で
埋もれていても、統合スペクトルレベルはほぼ一定であ
り、雑音にほとんど影響されないことがわかる。これは
この発明の微小区間スペクトル法が雑音に対して頑健で
あることを示している。

【００１５】上述では各周波数ごとに微小区間スペクト
ル時系列の統合を行ったが、各微小区間のパワーに依存
したスペクトルの重み付き加算を行うようにしてもよ
い。つまり微小区間のパワーをｕ（ｔ）、微小区間のパ
ワー正規化されたスペクトルをＱ（ω，ｔ）とすると次
式の関係がある。ｕ（ｔ）＝１／（２π）∫Ｍ（ω，ｔ）ｄω （８）Ｑ（ω，ｔ）＝Ｍ（ω，ｔ）／ｕ（ｔ）（９） ∫は−πからπ従ってパワーに依存したスペクトルの重
み付き加算を行う場合が微小区間スペクトルの統合式は
以下のようになる。

【００１６】Ｓ（ω，ｔ）＝｛Σ_i=0 ^N-1ｕ（ｔ＋δｉ）^e Ｑ（ω，ｔ＋δｉ）｝／Σ_i=0 ^N-1ｕ（ｔ＋δｉ）^e（10）この場合、図２において、ステップＳ６で求めた微小区
間スペクトルＭを、式（９）で示す関係でｕ（ｔ）とＱ
（ω，ｔ）に分け、ステップＳ７では、式（１０）にも
とづき、Ａ＝Ａ＋ｕ^eＱを演算すればよい。つまり各スペクトルごとにＡ＝Ａ＋
ｕ^eを演算すればよい。Ｑ（ω，ｔ＋δｉ）はＦＦＴの
みならず、ＬＰＣ分析で求めてもよい。

【００１７】次に微小区間スペクトルを用いた音声認識
の例を図４Ａに示す。音声認識部ではＨＭＭ（隠れマル
コフモデル）〔中川聖一：確率モデルによる音声認識、
電子通信情報学会，１９８８〕を用いた場合である。マ
イクロフォン２１よりの入力音声は、サンプリング周波
数（例えば１２ｋＨｚ）の１／２の通過帯域を持つ低域
フィルタ２２を通された後、Ａ／Ｄ変換器２３によりア
ナログ信号から、サンプリング周波数でディジタル化さ
れる、このディジタル音声信号はこの発明による微小区
間スペクトル推定部２４で微小区間スペクトルを用いて
スペクトル時系列に変換される。学習音声のスペクトル
時系列はＨＭＭ学習部２５に入力され、ＨＭＭが作られ
てＨＭＭ蓄積部２６に蓄積される。認識対象音声のスペ
クトル時系列はＨＭＭ認識部２７に入力され、ＨＭＭ蓄
積部２６のＨＭＭと、語彙情報蓄積部２８の認識語彙の
リストとを参照して認識処理が行われ、その結果が表示
部２９に表示される。ＨＭＭの学習と認識は、上記参考
文献に記載されている標準的な方法を用いる。

【００１８】微小区間スペクトル推定部２４での微小区
間スペクトルを用いてスペクトルの時系列を生成する処
理は図４Ｂに示すように行われる。まず時間ポインタを
０にし（Ｓ１）、連続的な音声波形から時間ポインタを
起点としてＴ＝３０ｍｓの音声信号を切り出す（Ｓ
２）。その切り出した３０ｍｓの音声信号から微小区間
スペクトル法によりスペクトルを抽出する（Ｓ３）。次
に時間ポインタを１０ｍｓ移動する（Ｓ４）。これは音
声認識部２７に送られるいわゆるフレームレート、ある
いはフレーム周期と呼ばれる値である。次に時間ポイン
タが音声信号の終端に到達したかを判定し（Ｓ５）、終
端に到達してなければステップＳ２に戻り、終端に到達
したら終了する。ステップＳ３の微小区間スペクトル抽
出は図２に示した処理により行う。

【００１９】この発明は音声波形のみならず、周期性の
ある波形のスペクトル推定にも適用できる。

【００２０】

【発明の効果】以上述べたようにこの発明によれば、微
小区間から求めたスペクトルを統合して音声波形などの
スペクトルを推定するため、ｅの値の選定することによ
り、つまりｅ＞１とすることによりエネルギーの高い微
小区間スペクトルを選択的に統合できる。エネルギーの
高いスペクトルはピッチ周期に同期して得られ、ピッチ
同期スペクトル分析に近い精度の高いスペクトル推定を
行うことができる。このため、スペクトルがピッチ周期
や音声の分析区間の切り出し位置の影響を受け難くな
り、音声認識に適用して認識性能を向上させることがで
きる。

【００２１】また０＜ｅ＜１にｅを選定することによ
り、エネルギーの低い部分を重視して、突発的な雑音を
除去することができる。音声認識に、この発明を適用し
てスペクトル系列を得る場合と、ピッチ周期の２倍程度
以上の窓を用いた従来のＦＦＴによりスペクトルを得る
場合とを比較した結果、発声様式の異なる音素の認識に
おいて従来６４％であった音素認識率を７１％まで向上
させることができた。ｅが０．５から２のいずれの場合
にも微小区間スペクトル法の効果が得られる。

【００２２】１フレームの窓長Ｔは１５ｍｓ、２０ｍ
ｓ、３０ｍｓおよび４０ｍｓのいずれの場合でも微小区
間スペクトル法を用いると、従来の長いデータ窓を用い
るＦＦＴスペクトルに比べ、高い認識率が得られる。こ
の改善は発声様式の異なる音声を認識した場合に大き
い。改善効果は母音の方が大きい。微小区間フレームシ
フトδは２ｍｓから４ｍｓ、微小区間フレーム窓長τは
３ｍｓから５ｍｓ程度が良く、つまり窓長Ｔの１／５〜
１／１４程度の長さがよく、特に同じ発話様式の音声に
対しては５ｍｓ程度が、異なる発話様式の音声に対して
は３ｍｓ程度が良い。

【図面の簡単な説明】

【図１】Ａは従来のスペクトル分析窓Ｔと、この発明に
おける微小区間窓幅τと、微小区間シフト幅δとの関係
例を示す図、Ｂは雑音に埋もれた周波数チャネルの出力
波形を示す図である。

【図２】パラメータとする雑音レベルの変化に対する統
合微小区間スペクトルの関係を示す図。

【図３】この発明によるスペクトル推定方法の一例を示
す流れ図。

【図４】Ａはこの発明の微小区間スペクトル推定方法を
適用した音声認識装置の機能構成を示す図、Ｂは微小区
間スペクトル時系列の生成手順を示す流れ図である。

Claims

【特許請求の範囲】

【請求項１】周期性波形の一定時間区間Ｔごとにスペ
クトルを推定する方法において、上記一定時間区間Ｔの周期性波形を、上記一定時間区間
より短かい微小区間τだけ切り出すことを、この微小区
間τより短かい微小区間シフト幅δずつ順次ずらして行
い、上記各切り出された微小区間の波形のスペクトルＭを求
め、これら微小区間スペクトルＭを実数ｅ乗して平均して１
／ｅ乗し、上記一定時間区間Ｔのスペクトルとすること
を特徴とする周期性波形のスペクトル推定方法。
【請求項２】上記微小区間のスペクトルＭは、上記微
小区間の波形を離散的フーリエ変換し、その変換結果に
より得られるパワースペクトルＸに対し、Ｍ＝ｌｏｇ
（Ｘ＋１）（ｌｏｇは自然対数）を演算して求めること
を特徴とする請求項１記載の周期性波形のスペクトル推
定方法。
【請求項３】上記微小区間スペクトルＭを、微小区間
のパワーｕとそのパワーｕで正規化されたスペクトルＱ
とを用い、Ｕのｅ乗を重みとする重み付平均として求
め、上記実数ｅ乗は微小区間のパワーｕに対して行うこ
とを特徴とする請求項１又は２記載の周期性波形スペク
トル推定方法。
【請求項４】音声波形のスペクトルを一定時間区間ご
とに推定する際に、上記一定時間区間Ｔの音声波形を、上記一定時間区間Ｔ
より短かい微小区間τだけ切り出すことを、微小区間τ
より短かい微小区間シフト幅δずつ順次ずらして行い、上記各切り出された微小区間の音声波形のスペクトルＭ
を求め、これら各微小区間スペクトルＭを実数ｅ乗し、これと平
均し、更に１／ｅ乗して上記一定時間区間Ｔのスペクト
ルとすることをコンピュータにより行うためのプログラ
ムを記録した記録媒体。
【請求項５】音声波形のスペクトルを一定時間区間Ｔ
ごとに推定する際に、上記一定時間区間Ｔの音声波形を、上記一定時間区間Ｔ
より短かい微小区間τだけ切り出すことを、微小区間τ
より短かい微小区間シフト幅δずつ順次ずらして行い、上記各切り出された微小区間の音声波形のスペクトルＭ
を、その微小区間のパワーｕと、微小区間のパワーで正
規化されたスペクトルＱとの積ｕ・Ｑとして求め、これら各微小区間スペクトルＭについて、その微小区間
パワーｕについて実数ｅ乗したｕ^e・Ｑを求め、これら
を平均して上記一定時間区間Ｔのスペクトルとすること
をコンピュータにより行うためのプログラムを記録した
記録媒体。