JPH0219477B2 - - Google Patents
Info
- Publication number
- JPH0219477B2 JPH0219477B2 JP58069474A JP6947483A JPH0219477B2 JP H0219477 B2 JPH0219477 B2 JP H0219477B2 JP 58069474 A JP58069474 A JP 58069474A JP 6947483 A JP6947483 A JP 6947483A JP H0219477 B2 JPH0219477 B2 JP H0219477B2
- Authority
- JP
- Japan
- Prior art keywords
- walsh
- value
- transform
- conversion
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000006243 chemical reaction Methods 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 14
- 230000001755 vocal effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Description
本発明は簡易形音声分析装置の改良に関する。
通常、音声認識装置では、音声波形を分析し、
その分析出力である特徴パラメータの時系列とあ
らかじめ記憶されているパターンとの間で識別計
算を行い、認識結果を求めている。従来、この音
声認識装置に使用されている音声分析としてバン
ドスフイルタ分析やケプストラム分析や変形ケプ
ストラム分析があつた。 音声波の声帯の振動によつて励振された声道か
らの放射出力であると考えることができ、音声信
号G(t)は(1)式のように声道のインパルス応答
R(t)と音源波形S(t)の畳み込みで表わされ
る。 G(t)=R(t)*S(t) ……(1) *は畳み込み操作 (1)式をフーリエ変換すると Gf(w)=Rf(w)×Sf(w) ……(2) となる。音源特性Sf(w)は周期的な線スペクト
ラムであり、声道特性Rf(w)は、音声スペクト
ルGf(w)のエンベロープである。このエンベロ
ープを得る方法として一定値以上の帯域幅を持つ
たバンドバスフイルタを音声帯域内に複数個並べ
るバンドバスフイルタ分析がある。一定値以上の
帯域幅を持つことにより音源特性であるスペクト
ルの影響を弱くし複数個並べることによりエンベ
ロープの全体の特性すなわち声道特性を得ること
ができていた。 ところで、より精密な声道特性を得るために
は、バンドバスフイルタの帯域幅を細くする必要
があるが、細くすると音源スペクトルである線ス
ペクトルの影響が大きく表われてくる。このため
バンドパスフイルタの帯域幅はある程度以上細く
することはできず、バンドパスフイルタ分析では
より精密な声道特性を得ることはできなかつた。
一方、声道特性と音源特性を分離し、より精密な
声道特性を求める方法としてケプストラム分析が
ある。ケプストラム分析では、(2)式をさらにlog
変換し、 log|Gf(w)|=log|Rf(w)| +log|Sf(w) ……(3) 次に逆フーリエ変換によつてケプストラムを得
る。 Gc(q)=Rc(q)+Sc(q) ……(4) この(4)式のように、スペクトラム領域での積が
ケプストラム領域では和となる。音源スペクトル
Sf(w)である周期的な線スペクトルのケプスト
ラムSc(q)は音源の周期Tpの近傍にのみ表われ
る。一方、声道スペクトルRf(w)はGf(w)の
エンベロープとして表われ、そのケプストラム
RC(q)は低ケフレンシ部へ表われる。すなわ
ち、音声信号をケプストラム分析し、ケフレンシ
の低い成分に音源特性より分離された声道特性を
得ることができる。 さらに特願昭56―069031号明細書(特開昭57―
185098号公報)に記載されているように音声のス
ペクトルの中より帯域内の周波数成分のみを切出
しゼロ周波数までシワトする切出し部を用けるこ
とにより、伝送路の帯域外の特性の影響を除去す
ることができる。また、周波数の高域部を圧縮す
る写像関数による周波数軸のスケール変換例えば
logスケール変換、Melスケール変換などを行う
スケール変換部を設けることにより、高域より低
域へ重みが置かれたすなわち人間の聴覚特性に近
い特性を持つた変形ケプストラムが得られる。前
記スケール変換は第1図に示すような写像関数
Sm=M(Sl)により、伝送路の帯域内のみのデー
タをlogスケールまたはMelスケールへ並び換え
ることである。すなわとSl番目のスペクトルを
Sm番目の変形スペクトルとすることである。 しかしながら、前記のバンドパスフイルタ分析
やケプストラム分析や変形ケプストラム分析は、
フーリエ変換を基本としており三角関数系との乗
算を必要とし装置が大型となる欠点があつた。 一方、フーリエ変換の近似的な変換であるウオ
ルシユ変換は±1の2値の直交関数系による変換
であるため、ウオルシユスペクトルは加減算のみ
で求めることができる。このウオルシユ変換を用
いることにより特開昭57―700号公報に記載され
ているように小型の疑似バンドパスフイルタを実
現することが知られている。しかし疑似バンドパ
スフイルタではより細かで精密な声道特性を得ら
れない欠点があつた。 本発明の目的は、ケプストラム分析における。
フーリエ変換と逆フーリエ変換を多値ウオルシユ
変換に置き換えることにより、ケプストラムの近
似値を得る小型の装置、すなわち、より細かで精
密な声道特性が得られかつ小型の音声分析装置を
提供することにある。 本発明による音声分析装置は、入力信号の多値
ウオルシユ変換を行う第1多値ウオルシユ変換部
と、前記第1多値ウオルシユ変換部の出力よりウ
オルシユパワースペクトルを求めそのlog変換を
行うlog変換部と、ウオルシユ交番数軸のスケー
ル変換を行う写像関数Sm=M(Sl)により前記
log変換部の出力を変形交番数軸へ写像するスケ
ール変換部と、前記スケール変換部の出力の多値
ウオルシユ変換を行う第2多値ウオルシユ変換部
を有している。 次に本発明で使用する多値ウオルシユ変換につ
いて説明する。ウオルシユ変換はフーリエ変換に
おける直交関数系である三角関数を±1の2値の
関数であるウオルシユ関数への置き換えたもので
あり、加減算のみでフーリエ変換の近似値が得ら
れる。しかし三角関数を±1の2値関数へ近似さ
せているため、近似度合が悪かつた。一方、ウオ
ルシユ関数を多値化し複素数化させることにより
簡単な演算でフーリエ変換のよりよい近似値が得
られる多値ウオルシユ変換が同一出願人から昭和
58年4月11日に出願された特願昭58―63186号明
細書「多値ウオルシユ変換装置」に記載されてい
る。ここで多値ウオルシユ変換の原理について述
べる。すでに述べたとおり、ウオルシユ関数は、
三角関数を±1に量子化したものであるので、よ
り細かい量子化による多値ウオルシユ関数を導入
することによつて、よりフーリエスペクトルへ近
づけることができる。例えば、第10図に示し
た。 の8個の要素をもつ多値ウオルシユ関数が考えら
れる。しかし、この方法では
その分析出力である特徴パラメータの時系列とあ
らかじめ記憶されているパターンとの間で識別計
算を行い、認識結果を求めている。従来、この音
声認識装置に使用されている音声分析としてバン
ドスフイルタ分析やケプストラム分析や変形ケプ
ストラム分析があつた。 音声波の声帯の振動によつて励振された声道か
らの放射出力であると考えることができ、音声信
号G(t)は(1)式のように声道のインパルス応答
R(t)と音源波形S(t)の畳み込みで表わされ
る。 G(t)=R(t)*S(t) ……(1) *は畳み込み操作 (1)式をフーリエ変換すると Gf(w)=Rf(w)×Sf(w) ……(2) となる。音源特性Sf(w)は周期的な線スペクト
ラムであり、声道特性Rf(w)は、音声スペクト
ルGf(w)のエンベロープである。このエンベロ
ープを得る方法として一定値以上の帯域幅を持つ
たバンドバスフイルタを音声帯域内に複数個並べ
るバンドバスフイルタ分析がある。一定値以上の
帯域幅を持つことにより音源特性であるスペクト
ルの影響を弱くし複数個並べることによりエンベ
ロープの全体の特性すなわち声道特性を得ること
ができていた。 ところで、より精密な声道特性を得るために
は、バンドバスフイルタの帯域幅を細くする必要
があるが、細くすると音源スペクトルである線ス
ペクトルの影響が大きく表われてくる。このため
バンドパスフイルタの帯域幅はある程度以上細く
することはできず、バンドパスフイルタ分析では
より精密な声道特性を得ることはできなかつた。
一方、声道特性と音源特性を分離し、より精密な
声道特性を求める方法としてケプストラム分析が
ある。ケプストラム分析では、(2)式をさらにlog
変換し、 log|Gf(w)|=log|Rf(w)| +log|Sf(w) ……(3) 次に逆フーリエ変換によつてケプストラムを得
る。 Gc(q)=Rc(q)+Sc(q) ……(4) この(4)式のように、スペクトラム領域での積が
ケプストラム領域では和となる。音源スペクトル
Sf(w)である周期的な線スペクトルのケプスト
ラムSc(q)は音源の周期Tpの近傍にのみ表われ
る。一方、声道スペクトルRf(w)はGf(w)の
エンベロープとして表われ、そのケプストラム
RC(q)は低ケフレンシ部へ表われる。すなわ
ち、音声信号をケプストラム分析し、ケフレンシ
の低い成分に音源特性より分離された声道特性を
得ることができる。 さらに特願昭56―069031号明細書(特開昭57―
185098号公報)に記載されているように音声のス
ペクトルの中より帯域内の周波数成分のみを切出
しゼロ周波数までシワトする切出し部を用けるこ
とにより、伝送路の帯域外の特性の影響を除去す
ることができる。また、周波数の高域部を圧縮す
る写像関数による周波数軸のスケール変換例えば
logスケール変換、Melスケール変換などを行う
スケール変換部を設けることにより、高域より低
域へ重みが置かれたすなわち人間の聴覚特性に近
い特性を持つた変形ケプストラムが得られる。前
記スケール変換は第1図に示すような写像関数
Sm=M(Sl)により、伝送路の帯域内のみのデー
タをlogスケールまたはMelスケールへ並び換え
ることである。すなわとSl番目のスペクトルを
Sm番目の変形スペクトルとすることである。 しかしながら、前記のバンドパスフイルタ分析
やケプストラム分析や変形ケプストラム分析は、
フーリエ変換を基本としており三角関数系との乗
算を必要とし装置が大型となる欠点があつた。 一方、フーリエ変換の近似的な変換であるウオ
ルシユ変換は±1の2値の直交関数系による変換
であるため、ウオルシユスペクトルは加減算のみ
で求めることができる。このウオルシユ変換を用
いることにより特開昭57―700号公報に記載され
ているように小型の疑似バンドパスフイルタを実
現することが知られている。しかし疑似バンドパ
スフイルタではより細かで精密な声道特性を得ら
れない欠点があつた。 本発明の目的は、ケプストラム分析における。
フーリエ変換と逆フーリエ変換を多値ウオルシユ
変換に置き換えることにより、ケプストラムの近
似値を得る小型の装置、すなわち、より細かで精
密な声道特性が得られかつ小型の音声分析装置を
提供することにある。 本発明による音声分析装置は、入力信号の多値
ウオルシユ変換を行う第1多値ウオルシユ変換部
と、前記第1多値ウオルシユ変換部の出力よりウ
オルシユパワースペクトルを求めそのlog変換を
行うlog変換部と、ウオルシユ交番数軸のスケー
ル変換を行う写像関数Sm=M(Sl)により前記
log変換部の出力を変形交番数軸へ写像するスケ
ール変換部と、前記スケール変換部の出力の多値
ウオルシユ変換を行う第2多値ウオルシユ変換部
を有している。 次に本発明で使用する多値ウオルシユ変換につ
いて説明する。ウオルシユ変換はフーリエ変換に
おける直交関数系である三角関数を±1の2値の
関数であるウオルシユ関数への置き換えたもので
あり、加減算のみでフーリエ変換の近似値が得ら
れる。しかし三角関数を±1の2値関数へ近似さ
せているため、近似度合が悪かつた。一方、ウオ
ルシユ関数を多値化し複素数化させることにより
簡単な演算でフーリエ変換のよりよい近似値が得
られる多値ウオルシユ変換が同一出願人から昭和
58年4月11日に出願された特願昭58―63186号明
細書「多値ウオルシユ変換装置」に記載されてい
る。ここで多値ウオルシユ変換の原理について述
べる。すでに述べたとおり、ウオルシユ関数は、
三角関数を±1に量子化したものであるので、よ
り細かい量子化による多値ウオルシユ関数を導入
することによつて、よりフーリエスペクトルへ近
づけることができる。例えば、第10図に示し
た。 の8個の要素をもつ多値ウオルシユ関数が考えら
れる。しかし、この方法では
【式】
などの要素を持つため、その変換には乗算を必要
とする。 特願昭58―63186号明細書では、8値ウオルシ
ユ変換の場合には、第11図に示したように、 (1,1+j,j,−1+j,−1,−1,−j,
−j,1−j) の8個の要素を用いている。この関数系による8
値ウオルシユ変換の演算は、±1,±jとの積の間
の演算であるので、加減算のみで実行できる。 また、同様の考え方により、16値ウオルシユ変
換は、第12図に示したような、 (1,1+1/2j,1+j,1/2+j,j,− 1/2+j,−1+j,−1+1/2j,−1,−1− 1/2j,−1−j,−1/2−j,−j,1/2−j
, 1−j,1−1/2j) の16個要素を用いる。これによる関数系を用い
る16値ウオルシユ変換の演算は、±1,±1/2,± j,±1/2jとの積の演算であるため、シフタによ る1/2化と加減算のみで実行でき、実質的に乗算
は不要である。 入力時系列を逆2進順に並べた列ベクトルを
X、多値ウオルシユスペクトルをW、変換行列を
Cとすれば、 W=C・X =Go・Go-1……G1・X ……(6) n回の行列の積として表現できる。ここで各Giは
(7),(8),(9)式により決定される。 Gi=EiIo-i ただしはクロネツカー積である Li=diag(1.〔ai〕.〔a2 i〕.….〔a2i-1 1〕)…
…(9) ただしIiは2i行2i列の単位行列であり、diag( )
は括孤内を対角要素とする対角行列である。 ここで〔ai〕は多値化の数によつて決定され、
8値の場合は ai=e×p(jπ/2i)、ak i=e×p(jθ)とし 〔e×p(jθ)〕=1、0θ<π/4のとき =1+j、π/4θ<π/2のとき =j、π/2θ<3π/4のとき =1+j、3π/4θ<πのとき とする。また、16値の場合は 〔e×P(jθ)〕=1、0θ<π/8のとき =1+1/2i、π/8θ<π/4のとき =1+j、π/4θ<3π/8のとき =1/2+j、3π/8θ<π/2のとき =j、π/2θ<5π/8のとき =−1/2+j、5π/8θ<3π/4のとき =1+j、3π/4θ<7π/8のとき =−1+1/2j、7π/8θ<πのとき とする。 また、逆2進順とは自然数を2進表現し、その
桁桁を逆転させた数を考え、その数の順序に並べ
ることであり、n=3の場合 X=(X0X4X2X6X1X5X3X7)となる。さらに
8値ウオルシユ変換の場合各Giは となる。これらGiの各行ともゼロでない要素は2
つのみであり高速フーリエ変換で用いられるバタ
フライ演算と同形の演算にて求められることを示
している。このゼロでない要素は(±1.±j)で
あるため複素数の加減算のみで実行できる。さら
に16値ウオルシユ変換の場合ゼロでない要素は
(±1/±1/2、±j/±1/2j)であるためシフ
ト 演算と複素数の加減算のみで実行できる。また、
この時得られる多値ウオルシユスペクトルのWi
とWo/2-i(N=2n)は共役複素数となる。 本発明の音声分析装置は、ケプストラム分析に
おけるフーリエ変換と逆フーリエ変換を多値ウオ
ルシユ変換へ置き換えることにより、加減算器等
による簡単な演算器で構成できる利点を持つてい
る。さらにウオルシユ変換を用いた疑似バンドパ
スフイルタ分析装置に比較し、より細かで精密な
声道特性が得られる利点を持つている。 次に本発明の装置の具体的な構成を図面を参照
しながら説明する。 本発明の実施例は第2図に示すように、第1バ
ツフアメモリ部1、第1多値ウオルシユ演算部
2、第1多値ウオルシユ変換制御部3、log変換
部4、スケール変換部5、第2バツフアメモリ
6、第2多値ウオルシユ演算部7、第2多値ウオ
ルシユ変換制御部8より構成される。始めに入力
時系列データが第1バツフアメモリ部1へ入力さ
れ一時記憶される。記憶された後、第4図に示し
たn=4の場合の計算の流れ図に従つた第1多値
ウオルシユ変換制御部3の制御信号により、第1
段より第n段まで計算が進められる。第i段の処
理は、第4図に示した第i段の2n-1個のバタフラ
イ演算を実行することであり、(7)式のGiの行列を
乗ずることを意味している。 バタフライ演算は Ya=Xa+Xb・ak Yb=Xa−Xb・ak ……(10) であり、第3図に示す第1多値ウオルシユ演算部
2にて求められる。バタフライ演算では始めに
Xa.Xbが第1バツフアメモリ部1より読み出さ
れ、Xaの実数部と虚数部がレジスタ201,2
02へ、Xbの実数部と虚数部がレジスタ203,
204へそれぞれ一時格納される。Xa・akの複
素数乗算は8値ウオルシユ変換の場合は次の4通
りの加減算にて実行される。 (zR+jzI)=(XbR+jXbI)・akとし、 a0=1のとき zR=XbR zI=XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a4=jのとき zR=−XbI zI=XbR a0=1+jのとき zR=−XbR−XbI zI=XbR−XbI ……(11) 第4図の計算の流れ図中のa1.a3.a5.a7はそれぞ
れa0.a2.a4.a6と同じ値である。(11)式の演算は第1
多値ウオルシユ変換制御部3の制御信号のもとで
スイツチ211と加減算器221と222により
求められる。すなわちスイツチ211は加減算器
221と222の入力をXbR,XbI、ゼロのどれ
かを選択し、加減算器221と222は加算又は
減算又は加算符号反転を行い前記(11)式の演算を行
う。つづいて(10)式の加算および減算が実数部、虚
数部に分けて加算器231と232および減算器
233と234にて行われる。得られた結果Ya,
Ybは第1バツフアメモリ部1のXa,Xbが記憶さ
れていた場所へ書かれる。最終段である第n段ま
で前記処理が終了すると、第1バツフアメモリ1
に多値ウオルシユスペクトラムが得られる。 多値ウオルシユ変換が終了した後、第5図に示
すlog変換部4とスケール変換部5によつて、log
パワー多値ウオルシユスペクトルが求められ、ス
ケール変換を行う写像関数Sn=M(Se)により変
形交番数軸へ写像を行う。すなわち、スケール変
換制御部51は第6図に示すタイムチヤートに従
つた制御信号を発し、始めに第1バツフアメモリ
部1より信号a1に従つて多値ウオルシユスペクト
ルの偶数項W2iと奇数項W2i+1を順次読み出し、
log変換部4の乗算器41で2乗され加算器42
とアキユムレータ43を用いてパワー多値ウオル
シユスペクトル(Pi=W2 2i+W2 2i+1)が求められ、
つづいてlog変換部4にてlog変換され、信号a2を
アドレスとして指示された写像関数値M(i)を
写像関数テーブルメモリ部52より読み出し、そ
の出力M(i)を第2バツフアメモリ部6のアド
レス信号a3としてlogパワー多値ウオルシユスペ
クトル(logPi)を第2バツフアメモリ部6のM
(i)番地へ格納する。第2の多値ウオルシユ変
換は第1の多値ウオルシユ変換と同様に動作し第
2バツフアメモリ部6、第2多値ウオルシユ変換
部7、第2ウオルシユ変換制御部8にて実行され
る。なお、以上の説明では、スケール変換後に再
び多値ウオルシユ変換を行なうものとして説明し
たが、このスケール変換後(正確には絶対値化し
た直後)には、その信号は縦軸に対称な実関数と
なつている。一般に、縦軸に対称な実関数のフー
リエ変換とフーリエ逆変換は、同じ結果を与え
る。この多値ウオルシユ変換においても同様のこ
とが成立する。したがつて、すでに述べた実施例
において、第2多値ウオルシユ変換部7が、多値
逆ウオルシユ変換を行なわせたとしても、結果は
同一となる。 ところで、通常音声認識ではケプストラムの低
次の項のみ使用するため、第2の多値ウオルシユ
変換は低次の項のみ計算すればよい。そのため第
2の多値ウオルシユ変換(6)式の変換行列の低次の
項のみすなわち Wk=N-1 〓l=0 Hkl・Xl ……(12) の小さいkについてのみ計算すればよい。ここで
さらにXlは偶関数であるのでHklの実数部である
H′klを使用すればよい。 Wk=N-1 〓l=0 H′kl・Xl ……(13) 本発明の第2の実施例は、第2のウオルシユ変
換を(13)式にて求める装置である、第1の実施
例における第2多値ウオルシユ変換制御部8、第
2多値ウオルシユ演算部7を第7図に示す構成へ
変更したものである。第2多値ウオルシユ変換制
御部7は第8図に示すタイムチヤートに従つた制
御信号を発し、信号cl7によつてアキユムレータ
72をクリヤし、信号k1に従つて第2バツフア
メモリ部6より変形logパワー多値ウオルシユス
ペクトルXl=logPM(i)を読み出し、多値ウオ
ルシユ変換行列の実数部H′klに従つた+1または
−1の信号b2により加減算器71はアキユムレ
ータ72との間で加算または減算を行う。すなわ
ち信号b2が+1の場合はACC+Xl→ACCを行
い、信号b2が−1の場合はACC―Xl→ACCを
行う。信号b1がN―1となつた時アキユムレー
タ72へウオルシユ変換値Wkすなわち疑似ケプ
ストラムが得られる。 次に本発明の第3の実施例は多値ウオルシユ変
換として16値ウオルシユ変換を採用した場合の装
置であり、第1の実施例における第1多値ウオル
シユ演算部を第9図に示す構成へ変更したもので
ある。計算は第1の実施例と同様に進められる。
第1の実施例と異なる点はバタフライ演算におけ
る乗算要素akの値が8種類あることである。(10)式
における複素数乗算は次の8通りの演算にて実行
される。 (zR+jzI)=(XbR+jXbI)・akとし a0=1のとき zR=XbR zI=XbI a1=1+1/2jのとき zR=XbR−1/2XbI zI=1/2XbR+XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a3=1/2+jのとき zR=1/2XbR−XbI zI=XbR+1/2XbI a4=jのとき zR=−XbI zI=XbR a5=−1/2+jのとき zR=−1/2XbR−XbI ZI=XbR−1/2XbI a6=−1+jのとき zR=−XbR−XbI zI=XbR−XbI a7=−1+1/2jのとき zR=−XbR−1/2XbI zI=1/2XbR−XbI ……(14) シフタ241と242は1ビツト右シフトする
ことにより1/2XbRおよび1/2XbIを求め、スイツ チ212は加減算器221と222の入力を
XbR.XbI.1/2XbR.1/2XbI.ゼロのどれかを選 択し、加減算器221と222にて加算又は減算
と符号反転を行い(11)式の複素数乗算を実行する。 以上本発明を実施例に基づき説明したが、これ
らの記載は本発明の範囲を限定するものではな
い。特に本発明の実施例ではFWTのアルゴリズ
ムとして(6)式に示すように入力時系を逆2進順に
並べG1よりGoまで順次積を取り求めていたが、
(13)式に示すような正順序の時系列X′とGo T、
よりG1 Tまで順次積を取り、その結果として逆2
進順のウオルシユスペクトルW′を得る方法も採
用できることは明白である。 W′=G1T・G2T・…Go T・X′ ……(15) また、パワースペクトルをPi=W2 2i+W2 2i+1と
して求めるが、乗算器を必要としているためPi=
|W2i|+|W2i+1|のように絶対値の和とし
てパワースペクトルを近似的に求める方法も採用
できることは明白である。
とする。 特願昭58―63186号明細書では、8値ウオルシ
ユ変換の場合には、第11図に示したように、 (1,1+j,j,−1+j,−1,−1,−j,
−j,1−j) の8個の要素を用いている。この関数系による8
値ウオルシユ変換の演算は、±1,±jとの積の間
の演算であるので、加減算のみで実行できる。 また、同様の考え方により、16値ウオルシユ変
換は、第12図に示したような、 (1,1+1/2j,1+j,1/2+j,j,− 1/2+j,−1+j,−1+1/2j,−1,−1− 1/2j,−1−j,−1/2−j,−j,1/2−j
, 1−j,1−1/2j) の16個要素を用いる。これによる関数系を用い
る16値ウオルシユ変換の演算は、±1,±1/2,± j,±1/2jとの積の演算であるため、シフタによ る1/2化と加減算のみで実行でき、実質的に乗算
は不要である。 入力時系列を逆2進順に並べた列ベクトルを
X、多値ウオルシユスペクトルをW、変換行列を
Cとすれば、 W=C・X =Go・Go-1……G1・X ……(6) n回の行列の積として表現できる。ここで各Giは
(7),(8),(9)式により決定される。 Gi=EiIo-i ただしはクロネツカー積である Li=diag(1.〔ai〕.〔a2 i〕.….〔a2i-1 1〕)…
…(9) ただしIiは2i行2i列の単位行列であり、diag( )
は括孤内を対角要素とする対角行列である。 ここで〔ai〕は多値化の数によつて決定され、
8値の場合は ai=e×p(jπ/2i)、ak i=e×p(jθ)とし 〔e×p(jθ)〕=1、0θ<π/4のとき =1+j、π/4θ<π/2のとき =j、π/2θ<3π/4のとき =1+j、3π/4θ<πのとき とする。また、16値の場合は 〔e×P(jθ)〕=1、0θ<π/8のとき =1+1/2i、π/8θ<π/4のとき =1+j、π/4θ<3π/8のとき =1/2+j、3π/8θ<π/2のとき =j、π/2θ<5π/8のとき =−1/2+j、5π/8θ<3π/4のとき =1+j、3π/4θ<7π/8のとき =−1+1/2j、7π/8θ<πのとき とする。 また、逆2進順とは自然数を2進表現し、その
桁桁を逆転させた数を考え、その数の順序に並べ
ることであり、n=3の場合 X=(X0X4X2X6X1X5X3X7)となる。さらに
8値ウオルシユ変換の場合各Giは となる。これらGiの各行ともゼロでない要素は2
つのみであり高速フーリエ変換で用いられるバタ
フライ演算と同形の演算にて求められることを示
している。このゼロでない要素は(±1.±j)で
あるため複素数の加減算のみで実行できる。さら
に16値ウオルシユ変換の場合ゼロでない要素は
(±1/±1/2、±j/±1/2j)であるためシフ
ト 演算と複素数の加減算のみで実行できる。また、
この時得られる多値ウオルシユスペクトルのWi
とWo/2-i(N=2n)は共役複素数となる。 本発明の音声分析装置は、ケプストラム分析に
おけるフーリエ変換と逆フーリエ変換を多値ウオ
ルシユ変換へ置き換えることにより、加減算器等
による簡単な演算器で構成できる利点を持つてい
る。さらにウオルシユ変換を用いた疑似バンドパ
スフイルタ分析装置に比較し、より細かで精密な
声道特性が得られる利点を持つている。 次に本発明の装置の具体的な構成を図面を参照
しながら説明する。 本発明の実施例は第2図に示すように、第1バ
ツフアメモリ部1、第1多値ウオルシユ演算部
2、第1多値ウオルシユ変換制御部3、log変換
部4、スケール変換部5、第2バツフアメモリ
6、第2多値ウオルシユ演算部7、第2多値ウオ
ルシユ変換制御部8より構成される。始めに入力
時系列データが第1バツフアメモリ部1へ入力さ
れ一時記憶される。記憶された後、第4図に示し
たn=4の場合の計算の流れ図に従つた第1多値
ウオルシユ変換制御部3の制御信号により、第1
段より第n段まで計算が進められる。第i段の処
理は、第4図に示した第i段の2n-1個のバタフラ
イ演算を実行することであり、(7)式のGiの行列を
乗ずることを意味している。 バタフライ演算は Ya=Xa+Xb・ak Yb=Xa−Xb・ak ……(10) であり、第3図に示す第1多値ウオルシユ演算部
2にて求められる。バタフライ演算では始めに
Xa.Xbが第1バツフアメモリ部1より読み出さ
れ、Xaの実数部と虚数部がレジスタ201,2
02へ、Xbの実数部と虚数部がレジスタ203,
204へそれぞれ一時格納される。Xa・akの複
素数乗算は8値ウオルシユ変換の場合は次の4通
りの加減算にて実行される。 (zR+jzI)=(XbR+jXbI)・akとし、 a0=1のとき zR=XbR zI=XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a4=jのとき zR=−XbI zI=XbR a0=1+jのとき zR=−XbR−XbI zI=XbR−XbI ……(11) 第4図の計算の流れ図中のa1.a3.a5.a7はそれぞ
れa0.a2.a4.a6と同じ値である。(11)式の演算は第1
多値ウオルシユ変換制御部3の制御信号のもとで
スイツチ211と加減算器221と222により
求められる。すなわちスイツチ211は加減算器
221と222の入力をXbR,XbI、ゼロのどれ
かを選択し、加減算器221と222は加算又は
減算又は加算符号反転を行い前記(11)式の演算を行
う。つづいて(10)式の加算および減算が実数部、虚
数部に分けて加算器231と232および減算器
233と234にて行われる。得られた結果Ya,
Ybは第1バツフアメモリ部1のXa,Xbが記憶さ
れていた場所へ書かれる。最終段である第n段ま
で前記処理が終了すると、第1バツフアメモリ1
に多値ウオルシユスペクトラムが得られる。 多値ウオルシユ変換が終了した後、第5図に示
すlog変換部4とスケール変換部5によつて、log
パワー多値ウオルシユスペクトルが求められ、ス
ケール変換を行う写像関数Sn=M(Se)により変
形交番数軸へ写像を行う。すなわち、スケール変
換制御部51は第6図に示すタイムチヤートに従
つた制御信号を発し、始めに第1バツフアメモリ
部1より信号a1に従つて多値ウオルシユスペクト
ルの偶数項W2iと奇数項W2i+1を順次読み出し、
log変換部4の乗算器41で2乗され加算器42
とアキユムレータ43を用いてパワー多値ウオル
シユスペクトル(Pi=W2 2i+W2 2i+1)が求められ、
つづいてlog変換部4にてlog変換され、信号a2を
アドレスとして指示された写像関数値M(i)を
写像関数テーブルメモリ部52より読み出し、そ
の出力M(i)を第2バツフアメモリ部6のアド
レス信号a3としてlogパワー多値ウオルシユスペ
クトル(logPi)を第2バツフアメモリ部6のM
(i)番地へ格納する。第2の多値ウオルシユ変
換は第1の多値ウオルシユ変換と同様に動作し第
2バツフアメモリ部6、第2多値ウオルシユ変換
部7、第2ウオルシユ変換制御部8にて実行され
る。なお、以上の説明では、スケール変換後に再
び多値ウオルシユ変換を行なうものとして説明し
たが、このスケール変換後(正確には絶対値化し
た直後)には、その信号は縦軸に対称な実関数と
なつている。一般に、縦軸に対称な実関数のフー
リエ変換とフーリエ逆変換は、同じ結果を与え
る。この多値ウオルシユ変換においても同様のこ
とが成立する。したがつて、すでに述べた実施例
において、第2多値ウオルシユ変換部7が、多値
逆ウオルシユ変換を行なわせたとしても、結果は
同一となる。 ところで、通常音声認識ではケプストラムの低
次の項のみ使用するため、第2の多値ウオルシユ
変換は低次の項のみ計算すればよい。そのため第
2の多値ウオルシユ変換(6)式の変換行列の低次の
項のみすなわち Wk=N-1 〓l=0 Hkl・Xl ……(12) の小さいkについてのみ計算すればよい。ここで
さらにXlは偶関数であるのでHklの実数部である
H′klを使用すればよい。 Wk=N-1 〓l=0 H′kl・Xl ……(13) 本発明の第2の実施例は、第2のウオルシユ変
換を(13)式にて求める装置である、第1の実施
例における第2多値ウオルシユ変換制御部8、第
2多値ウオルシユ演算部7を第7図に示す構成へ
変更したものである。第2多値ウオルシユ変換制
御部7は第8図に示すタイムチヤートに従つた制
御信号を発し、信号cl7によつてアキユムレータ
72をクリヤし、信号k1に従つて第2バツフア
メモリ部6より変形logパワー多値ウオルシユス
ペクトルXl=logPM(i)を読み出し、多値ウオ
ルシユ変換行列の実数部H′klに従つた+1または
−1の信号b2により加減算器71はアキユムレ
ータ72との間で加算または減算を行う。すなわ
ち信号b2が+1の場合はACC+Xl→ACCを行
い、信号b2が−1の場合はACC―Xl→ACCを
行う。信号b1がN―1となつた時アキユムレー
タ72へウオルシユ変換値Wkすなわち疑似ケプ
ストラムが得られる。 次に本発明の第3の実施例は多値ウオルシユ変
換として16値ウオルシユ変換を採用した場合の装
置であり、第1の実施例における第1多値ウオル
シユ演算部を第9図に示す構成へ変更したもので
ある。計算は第1の実施例と同様に進められる。
第1の実施例と異なる点はバタフライ演算におけ
る乗算要素akの値が8種類あることである。(10)式
における複素数乗算は次の8通りの演算にて実行
される。 (zR+jzI)=(XbR+jXbI)・akとし a0=1のとき zR=XbR zI=XbI a1=1+1/2jのとき zR=XbR−1/2XbI zI=1/2XbR+XbI a2=1+jのとき zR=XbR−XbI zI=XbR+XbI a3=1/2+jのとき zR=1/2XbR−XbI zI=XbR+1/2XbI a4=jのとき zR=−XbI zI=XbR a5=−1/2+jのとき zR=−1/2XbR−XbI ZI=XbR−1/2XbI a6=−1+jのとき zR=−XbR−XbI zI=XbR−XbI a7=−1+1/2jのとき zR=−XbR−1/2XbI zI=1/2XbR−XbI ……(14) シフタ241と242は1ビツト右シフトする
ことにより1/2XbRおよび1/2XbIを求め、スイツ チ212は加減算器221と222の入力を
XbR.XbI.1/2XbR.1/2XbI.ゼロのどれかを選 択し、加減算器221と222にて加算又は減算
と符号反転を行い(11)式の複素数乗算を実行する。 以上本発明を実施例に基づき説明したが、これ
らの記載は本発明の範囲を限定するものではな
い。特に本発明の実施例ではFWTのアルゴリズ
ムとして(6)式に示すように入力時系を逆2進順に
並べG1よりGoまで順次積を取り求めていたが、
(13)式に示すような正順序の時系列X′とGo T、
よりG1 Tまで順次積を取り、その結果として逆2
進順のウオルシユスペクトルW′を得る方法も採
用できることは明白である。 W′=G1T・G2T・…Go T・X′ ……(15) また、パワースペクトルをPi=W2 2i+W2 2i+1と
して求めるが、乗算器を必要としているためPi=
|W2i|+|W2i+1|のように絶対値の和とし
てパワースペクトルを近似的に求める方法も採用
できることは明白である。
第1図はスケール変換を示す図であり、第2図
は本発明の第1の実施例のブロツク図であり、第
3図は第1多値ウオルシユ演算部2のブロツク図
であり、第4図は第1多値ウオルシユ変換の計算
の流れの図であり、第5図はlog変換部4とスケ
ール変換部5のブロツク図であり、第6図はスケ
ール変換のタイムチヤートであり、第7図は本発
明の第2の実施例における第2多値ウオルシユ演
算部2のブロツク図であり、第8図は第2多値ウ
オルシユ変換のタイムチヤートであり、第9図は
本発明の第3の実施例における第1多値ウオルシ
ユ演算部2のブロツク図、第10図,第11図,
第12図は本発明で用いる多値ウオルシユ変換を
説明するための図である。 図において、1は第1バツフアメモリ部、2は
第1多値ウオルシユ演算部、3は第1多値ウオル
シユ変換制御部、4はlog変換部、6は第2バツ
フアメモリ部、7は第2多値ウオルシユ演算部、
8は第2多値ウオルシユ変換制御部201,20
2,203,204はレジスタ、211,212
はスイツチ、221,222は加減算器、23
1,232は加算器、233,234は減算器、
241,242はシフタである。第5図において
41は乗算器、42は加算器、43はアキムレー
タ、44はlog変換器、51はスケール変換制御
部、52は写像関数テーブルメモリ、71は加算
器、72はアキユムレータである。
は本発明の第1の実施例のブロツク図であり、第
3図は第1多値ウオルシユ演算部2のブロツク図
であり、第4図は第1多値ウオルシユ変換の計算
の流れの図であり、第5図はlog変換部4とスケ
ール変換部5のブロツク図であり、第6図はスケ
ール変換のタイムチヤートであり、第7図は本発
明の第2の実施例における第2多値ウオルシユ演
算部2のブロツク図であり、第8図は第2多値ウ
オルシユ変換のタイムチヤートであり、第9図は
本発明の第3の実施例における第1多値ウオルシ
ユ演算部2のブロツク図、第10図,第11図,
第12図は本発明で用いる多値ウオルシユ変換を
説明するための図である。 図において、1は第1バツフアメモリ部、2は
第1多値ウオルシユ演算部、3は第1多値ウオル
シユ変換制御部、4はlog変換部、6は第2バツ
フアメモリ部、7は第2多値ウオルシユ演算部、
8は第2多値ウオルシユ変換制御部201,20
2,203,204はレジスタ、211,212
はスイツチ、221,222は加減算器、23
1,232は加算器、233,234は減算器、
241,242はシフタである。第5図において
41は乗算器、42は加算器、43はアキムレー
タ、44はlog変換器、51はスケール変換制御
部、52は写像関数テーブルメモリ、71は加算
器、72はアキユムレータである。
Claims (1)
- 1 入力信号の多値ウオルシユ変換を行う第1多
値ウオルシユ変換部と、前記第1多値ウオルシユ
変換部の出力よりウオルシユパワースペクトルを
求めそのlog変換をlog変換部と、ウオルシユ交番
数軸のスケール変換を行う写像関数Sm=M(Sl)
により前記log変換部の出力変形交番数軸へ写像
するスケール変換部と、前記スケール変換部の出
力の多値ウオルシユ変換を行う第2多値ウオルシ
ユ変換部とを持つことを特徴とする音声分析装
置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58069474A JPS59195286A (ja) | 1983-04-20 | 1983-04-20 | 音声分析装置 |
| EP84103993A EP0128298B1 (en) | 1983-04-11 | 1984-04-10 | Orthogonal transformer and apparatus operational thereby |
| DE8484103993T DE3482627D1 (de) | 1983-04-11 | 1984-04-10 | Orthogonale transformation und geraet zu ihrer durchfuehrung. |
| US07/177,799 US4839844A (en) | 1983-04-11 | 1988-04-06 | Orthogonal transformer and apparatus operational thereby |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58069474A JPS59195286A (ja) | 1983-04-20 | 1983-04-20 | 音声分析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59195286A JPS59195286A (ja) | 1984-11-06 |
| JPH0219477B2 true JPH0219477B2 (ja) | 1990-05-01 |
Family
ID=13403707
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58069474A Granted JPS59195286A (ja) | 1983-04-11 | 1983-04-20 | 音声分析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59195286A (ja) |
-
1983
- 1983-04-20 JP JP58069474A patent/JPS59195286A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS59195286A (ja) | 1984-11-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0128298B1 (en) | Orthogonal transformer and apparatus operational thereby | |
| DK2337224T3 (en) | Filter unit and method for generating subband filter pulse response | |
| EP2932502B1 (en) | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field | |
| Evangelista et al. | Discrete frequency warped wavelets: Theory and applications | |
| US20100161319A1 (en) | Device and method for generating a complex spectral representation of a discrete-time signal | |
| CA2066471C (en) | Method and apparatus for encoding-decoding a digital signal | |
| KR102885647B1 (ko) | 어텐션 기반 잠재 영역에서 음성 향상 기술을 결합한 음성인식 시스템 | |
| Szu et al. | Image wavelet transforms implemented by discrete wavelet chips | |
| US5392231A (en) | Waveform prediction method for acoustic signal and coding/decoding apparatus therefor | |
| US12087267B2 (en) | Method and system for implementing a modal processor | |
| JP3918034B2 (ja) | マスク限界を決定するための方法及び装置 | |
| JPH0722957A (ja) | 副バンドコーディングシステムの信号処理装置 | |
| JPS6037514B2 (ja) | 2次元離散フ−リエ変換計算装置 | |
| US4231277A (en) | Process for forming musical tones | |
| Park et al. | A filter bank approach to independent component analysis for convolved mixtures | |
| KR20220144117A (ko) | DenseLSTM을 이용한 오디오 소스 분리 장치 및 방법 | |
| JPH0219477B2 (ja) | ||
| JPS6145408B2 (ja) | ||
| Durai | Digital Signal Processing | |
| JPS59195288A (ja) | 音声分析装置 | |
| JP2020122855A (ja) | 推定装置、その方法、およびプログラム | |
| WO1994019791A1 (en) | Improved filter for use in audio compression and decompression systems | |
| JP3060767B2 (ja) | 修正離散余弦変換とその逆変換方法及び装置 | |
| JPH027080B2 (ja) | ||
| JPH0219478B2 (ja) |