JPH11249681A

JPH11249681A - 音響特徴抽出方法及び同方法を適用した音声認識装置

Info

Publication number: JPH11249681A
Application number: JP10053462A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-03-05
Filing date: 1998-03-05
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】音声認識、話者認識、あるいは音響信号に基づ
くモデル同定などの性能を飛躍的に向上させる音響特徴
を抽出できるようにする。【解決手段】入力された音声信号をＢＰＦ群１にて周波
数分析することで時間−スペクトルパターンに変換す
る。音響特徴抽出器２では、この時間−スペクトルパタ
ーンに対してそれぞれ方向の異なる空間オペレータ２０
-1〜２０-4を適用することで、当該時間−スペクトルパ
ターンからそれぞれ異なる音響事象ＲＦ，ＡＦ，ＤＦ，
ＳＰを投影した４つの音響特徴平面（ＲＦ−ＡＦＰ，Ａ
Ｆ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰ）からなる複
合音響特徴平面（ＭＡＦＰ）を抽出する。分類器３は、
ＭＡＦＰのパラメータを標準パターン記憶部４に登録さ
れている各標準パターンと比較することで、最も近い標
準パターンのカテゴリを認識結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音響信号から聴覚
的に重要な特徴を抽出するのに好適な音響特徴抽出方法
及び同方法を適用した音声認識装置に関する。

【０００２】

【従来の技術】従来、音声認識等で適用される音響信号
から抽出する特徴としては、周波数分析によって得られ
る時間−スペクトルパターンそのものが使われることが
多かった。また、音が生成される元のモデル（人間の発
声器官、モーターセオリーなど）が既知の場合には、音
響信号からモデルのパラメータを推定する手法（線形予
測分析など）を用いることができるが、これらも時間−
スペクトルパターン（もしくは時間−ケプストラムパタ
ーン）として使われることが多い。

【０００３】一方、近年、動的特徴の重要性が指摘され
るようになると、例えば文献 K.Elenius and M.Blomber
g,"Effect of emphasizing transitional or stationar
y parts of the speech signal in a discrete utteran
ce recognition system",IEEE Proc.ICASSSP’82,pp.53
5-538(1982) 、文献 S.Furui,"Speaker-indepebdentiso
lated word recognition using dynamic features of s
peech spectrum",IEEE Trans.Acoust.Speech Signal Pr
ocess.ASSP-34,1,pp.52-59(1986) に記載されているよ
うに、時間方向の変化量（微分値、実際には差分値。時
間方向の変動から回帰直線の傾きを計算して使うことも
ある）を、時間−スペクトルパターンと共に音響特徴と
して使用することが行われるようになった。

【０００４】

【発明が解決しようとする課題】しかしながら、従来用
いられていた特徴パラメータ（時間−スペクトルパラメ
ータ、もしくは時間−スペクトルパラメータ＋動的パラ
メータ）は、音響信号が内包する特徴を陽に表現してい
るわけではない。

【０００５】このため、例えば音声認識にこれらの特徴
量を使用した場合には、性能に限界があった。また、従
来の特徴パラメータは、時間−周波数パターンに重畳す
る様々なノイズや、主に周波数特性の変化に起因する時
間−周波数パターンの変形に弱く、頑健な性能を維持す
るには前処理などでの特別な工夫を必要とした。さら
に、そうした工夫を行っても性能向上には限界があっ
た。

【０００６】本発明は上記事情を考慮してなされたもの
でその目的は、音声認識、話者認識、あるいは音響信号
に基づくモデル同定などの性能を飛躍的に向上させる音
響特徴抽出方法及び同方法を適用した音声認識装置を提
供することにある。

【０００７】

【課題を解決するための手段】本発明は、入力された音
響信号を時間−スペクトルパターンに変換し、この時間
−スペクトルパターンから所定のそれぞれ異なる音響事
象を投影した複数の音響特徴平面を抽出することを特徴
とする。このように本発明の特徴は、これまで利用され
てこなかった時間−スペクトルパターンの位相構造を音
響特徴として抽出するようにした点にある。

【０００８】ここでの位相構造とは、それぞれ異なる音
響事象を投影した複数の音響特徴平面を指す。音響事象
の代表的なものとして、次のような４つの型の音響事
象、即ち（１）音勢力（音声パワー）の急激な増大もし
くは減少音（sharply rising(on-type) or falling(off
-type) sound、以下、ＲＦと称する）、（２）急激な上
昇ＦＭ（周波数変調）音（sharply ascending FM soun
d、以下、ＡＦと称する）、（３）急激な下降ＦＭ音（s
harply descending FM sound 、以下、ＤＦと称す
る）、（４）スペクトルピークを持つ定常的あるいは緩
やかに変化する音（steady or slowly-changing sound
with spectral peaks 、以下ＳＰと称する）がある。

【０００９】この４つの音響事象は、聴覚神経系に関す
る研究において、文献 T.Hashimototo,Y.Katayama,K.Mu
rata,and I.Taniguchi,"Pitch-syncronous response of
catcochlear nerve fibers to speech sounds",Jpn.J.
Physiol.,25,pp.634-644(1975)、文献 T.Watanabe,Jpn.
J.Physiol.,22.pp.569-583(1972)に記載されているよう
に、対応する聴覚神経系が存在することが知られてい
る。また、この４つの音響事象は、文献 P.Ladefoged,"
A course in phonetics",2nd Edit.,New York:Harcour
t,Brace,Jovanovich(1982) に記載されているように、
音声学上（音韻判別上）も重要な特徴とされてきた。し
かし従来は、時間−スペクトルパターンから、このよう
な音響事象を抽出することは全く考えられていなかっ
た。なお、上記以外の音響事象としては、ピッチ等があ
る。

【００１０】本発明において、時間−スペクトルパター
ンから抽出される複数の音響特徴平面は、音声学上重要
な特徴を反映しているため、入力音声の音響特徴として
元の時間−スペクトルパターンを併用しないで済む。こ
のように元の時間−スペクトルパターンを使用しないこ
とで、頑健な音響特徴を取得できる。これに対して従来
から提案されている動的特徴は、時間−スペクトルパタ
ーンも同時に使用しなければならないため、変動に弱か
った。

【００１１】本発明はまた、時間−スペクトルパターン
から所定のそれぞれ異なる音響事象を投影した複数の音
響特徴平面を抽出するのに、当該時間−スペクトルパタ
ーンに方向の異なる複数の空間オペレータ（空間フィル
タ）を適用するようにしたことをも特徴とする。時間−
スペクトルパターンに空間オペレータを適用するとは、
当該時間−スペクトルパターンの個々の点に対して、周
辺の点（例えば、隣接する８点）を使って、様々な演算
（微分、平滑、２次微分など）を行うことであ。空間オ
ペレータとしては、３×３の微分オペレータ、５×５の
空間フィルタなどが適用可能である。

【００１２】ここで適用する空間オペレータには、音響
特徴平面に写し出すべき音響事象の特徴を検知可能なも
の、つまり当該音響事象に固有の変化を検知可能なもの
が使用される。例えば、上記ＲＦ（音勢力の急激な増大
もしくは減少音）であれば、スペクトルピークが時間方
向に変化することから、時間方向の変化を検知する空間
オペレータを用いればよい。また、ＳＰ（スペクトルピ
ークを持つ定常的あるいは緩やかに変化する音）であれ
ば、周波数方向に変化することから、周波数方向の変化
を検知する空間オペレータを用いればよい。また、ＡＦ
（急激な上昇ＦＭ音）あるいはＤＦ（急激な下降ＦＭ
音）であれば、スペクトルピークが時間方向及び周波数
方向の両方向に共に変化することから、時間方向及び周
波数方向の同時変化を検知する空間オペレータを用いれ
ばよい。但し、ＡＦとＤＦとでは変化方向が逆のため、
使用する空間オペレータは異なる。

【００１３】本発明はまた、時間−スペクトルパターン
に方向の異なる複数の空間オペレータを適用した後、結
果をそのまま使用する、つまり絶対値、あるいは正負の
一方の値を使用するのではなくて、そのまま使用するこ
とをも特徴とする。一般に、空間オペレータには、時
間、或いは周波数方向に対称な形のものがあり、画像処
理の分野では、これらを分けて（別のオペレータとし
て）適用する。この画像処理の分野で適用される技術
を、音響特徴平面の抽出に利用した場合、得られる音響
特徴平面は倍になり、記憶容量、演算量が増大する。こ
れに対して本願発明では、空間オペレータを適用した結
果をそのまま使用することから、記憶容量、演算量が減
少する。正負の値は、２つの対称な空間オペレータの演
算結果を１つの面に同時に投影していることになり、正
負のペアで音響特徴を表現しているといえる。

【００１４】本発明においては、上記の如く複数の音響
特徴平面を扱うため、従来の方式（時間−スペクトルパ
ターンのみを使用する方式、時間−スペクトルパターン
と動的特徴とを併用する方式）に比較して、特徴次元数
（音響特徴ベクトルの次元数）が大きくなる欠点を持
つ。

【００１５】そこで本発明は、時間−スペクトルパター
ンから抽出した複数の音響特徴平面を圧縮するようにし
たことをも特徴とする。ここで音響特徴平面の圧縮手法
としては、時間軸と周波数軸を再構成することにより圧
縮する第１の圧縮手法が適用可能である。この第１の圧
縮手法を適用する場合、対象となる音響特徴平面に写像
したい特徴を考慮し、つまり時間分解能が大切か、ある
いは周波数分解能が大切かを考慮して、時間軸方向また
は周波数軸方向の少なくとも一方に圧縮するとよい。

【００１６】また、音響特徴平面の圧縮手法として、Ｋ
Ｌ変換（ＫＬ展開）、線形判別分析手法に代表される統
計的手法（以下、第２の圧縮手法と称する）を適用する
ことも可能である。さらに、上記第１及び第２の圧縮手
法を組み合わせ、例えば第１の圧縮手法により複数の音
響特徴平面を圧縮し、しかる後に当該圧縮された複数の
音響特徴平面を第２の圧縮手法により圧縮することも可
能である。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態につ
き、音声認識装置に適用した場合を例に図面を参照して
説明する。［第１の実施形態］図１は本発明の第１の実施形態に係
る音声認識装置の全体構成を示すブロック図である。

【００１８】図１において、１は周波数分析手段として
の帯域通過フィルタ群（以下、ＢＰＦ群）である。話者
が発声した音声は、マイクロホン等を含む音声入力手段
（図示せず）により入力されて音声信号（音響信号）に
変換され、その音声信号はＢＰＦ群１により周波数分析
される。ここではＢＰＦ群１は、２６の周波数チャネル
（＃１〜＃２６）のＢＰＦ（帯域通過フィルタ）から構
成されており、８ｍｓ毎に２６チャネルの周波数分析結
果を出力する。

【００１９】図２に、「概（がい）」と発声した場合の
ＢＰＦ群１の周波数分析結果である時間−スペクトルパ
ターンを示す。同図において、横軸はチャネル（フィル
タ）番号で、紙面の右側ほど周波数が高くなる。一方、
縦軸は時間を表し、左側の数字は時間フレーム番号（間
隔８ｍｓ）を示す。ここでは、レベル（パワースペクト
ルのレベル）を含むＢＰＦ群１の周波数分析結果を時間
−周波数の２次元平面上で表現するのに、濃淡図形のパ
ターン（濃度が高いほど高レベルであることを示す）と
して表す周知の表現形式を適用している。そのため、図
２に示すように、例えば９個のレベル範囲を設定し、高
いレベルの範囲ほど、字形の複雑な文字（記号を含む）
を割り当てて、各フレーム番号の各チャネル（フィル
タ）出力に対応する位置に、そのレベルを表す文字をプ
ロットするようにしている。この図２に濃淡図形として
示したＢＰＦ群１の周波数分析結果のパターンを、時間
−スペクトルパターンＸ(t,f) と呼ぶ（ｔは時間、ｆは
周波数）。つまりＢＰＦ群１は、入力音声（入力音響信
号）を周波数分析して時間−スペクトルパターンＸ(t,
f) に変換する。

【００２０】ＢＰＦ群１から出力される時間−スペクト
ルパターンＸ(t,f) は、音響特徴抽出器２に入力され
る。音響特徴抽出器２は、方向の異なる４つの空間オペ
レータ（空間フィルタ）２０-1〜２０-4で構成されてお
り、時間−スペクトルパターンＸ(t,f) に当該空間オペ
レータ（空間フィルタ）２０-1〜２０-4を適用すること
で、それぞれ異なる音響事象を投影した４つの特徴平
面、つまり音響特徴平面（acoustic-feature plane、以
下、ＡＦＰと称する）を抽出する。

【００２１】本実施形態において、空間オペレータ２０
-1，２０-2，２０-3，２０-4には、それぞれ前記４つの
音響事象ＲＦ，ＡＦ，ＤＦ，ＳＰが対応している。ここ
では、空間フィルタ２０-1〜２０-4として、図１に示す
ように３×３の３値微分オペレータを使用している。例
えば空間フィルタ２０-1には、対応する音響事象ＲＦが
時間方向（ｔ）に変化することから時間方向（ｔ）の変
化を検知する３値微分オペレータが用いられ、空間オペ
レータ２０-4には、対応する音響事象ＳＰが周波数方向
（ｆ）に変化することから周波数方向（ｆ）の変化を検
知する３値微分オペレータが用いられる。また、空間フ
ィルタ２０-2，２０-3には、対応する音響事象ＡＦ，Ｄ
Ｆが時間方向（ｔ）及び周波数方向（ｆ）の両方向に共
に変化することから、時間方向（ｔ）及び周波数（ｆ）
方向の同時変化を検知する３値微分オペレータが用いら
れる。但し、ＡＦとＤＦとでは変化方向が逆のため、使
用する３値微分オペレータは異なる。

【００２２】ここで空間オペレータ２０-i（ｉ＝１〜
４）の動作を簡単に説明する。まず、時間−スペクトル
パターンＸ(t,f) は、次式（１）に示す８つの近傍を持
っている。

【００２３】

【数１】

【００２４】音響特徴抽出器２（内の空間オペレータ２
０-1〜２０-4）から出力される、音響事象ＲＦ，ＡＦ，
ＤＦ，ＳＰを投影した４つの音響特徴平面（以下、ＲＦ
−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰ
と称する）の要素Ｘ’(t,f)は、次式（２）に従って計
算される。

【００２５】

【数２】

【００２６】ここでＷ(t,f) は各ＡＦＰのＸ’(t,f) に
対応した３値微分オペレータの係数（−１，０，１の３
値）で、図１中の空間オペレータ２０-1〜２０-4に、そ
の例を示してある。Ｘ’(t,f) の正の値は正の傾きを、
負の値は負の傾きを意味する。そこで、例えば定常音中
の明瞭なスペクトルピークは、ＳＰ−ＡＦＰ上の正と負
の値のペアで表される。

【００２７】空間オペレータ２０-1〜２０-4に３×３の
３値微分オペレータを使用した例では、３×３近傍内に
は１つの音響事象しか含まれないようにする必要があ
る。そのためには、ＢＰＦ群１を構成する各周波数チャ
ネルのＢＰＦ（帯域通過フィルタ）の中心周波数とフレ
ーム周期を、多くの時間−スペクトルパターンを観察す
ることで最適な値に設定すればよい。

【００２８】図３に、「概（がい）」と発声した場合の
時間−スペクトルパターンから音響特徴抽出器２により
抽出された４つのＡＦＰ（音響特徴平面）、つまりＲＦ
−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰ
を、図２のパターンと比較し易いように１つ（の平面）
にマージして表現したパターン（merged ＭＡＦＰ）を
示す。この図３に示すパターンは、図２に示した元の時
間−スペクトルパターンと比べると、全体にめりはりの
あるパターンとなっていることが分かる。なお、Ｘ’
(t,f) は上記の如く正負の値をとるが、図では作図上の
都合で絶対値で表してある。

【００２９】また、図４にＲＦ−ＡＦＰパターンを、図
５にＡＦ−ＡＦＰパターンを、図６にＤＦ−ＡＦＰパタ
ーンを、そして図７にＳＰ−ＡＦＰパターンを、それぞ
れ示す。

【００３０】さて、音響特徴抽出器２からは上記したよ
うに４つの音響特徴平面（ＡＦＰ）、つまりＲＦ−ＡＦ
Ｐ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，ＳＰ−ＡＦＰが出力
される。この４つの音響特徴平面（ＡＦＰ）全体を、複
合音響特徴平面（multiple acoustic-feature planes）
と呼ぶ。複合音響特徴平面（以下、ＭＡＦＰと称する）
は、元の時間−スペクトルパターン（時間−スペクトラ
ム）が各時刻（８ｍｓ単位）毎に２６個のスペクトラム
パラメータから構成されていたのに対し、４倍の１０４
個のスペクトラムパラメータからなる。このＭＡＦＰの
概念を図８に示す。図８の例では、入力音声が「ｂｊ
ａ」の場合の時間−スペクトルパターンから音響特徴抽
出器２により４つのＡＦＰパターンからなるＭＡＦＰが
抽出されている様子が示されている。

【００３１】音響特徴抽出器２から出力された４つのＡ
ＦＰ（ＲＦ−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰ，Ｓ
Ｐ−ＡＦＰ）からなるＭＡＦＰのパラメータは分類器３
に導かれる。分類器３には、標準パターンが予め登録さ
れた標準パターン記憶部（標準パターン辞書）４が接続
されている。この標準パターンには、既知の音声（音
韻、単語、文節、文など）からＢＰＦ群１及び音響特徴
抽出器２（または当該ＢＰＦ群１及び音響特徴抽出器２
と同様の手段）を用いて抽出された、当該音声の特徴を
表す（４つのＡＦＰからなる）ＭＡＦＰが利用される。

【００３２】分類器３は、音響特徴抽出器２から出力さ
れたＭＡＦＰのパラメータ（特徴ベクトル）を標準パタ
ーン記憶部４に登録されている各標準パターンと比較す
ることで、最も近い標準パターンのカテゴリ（音韻、単
語、文節、文など）を認識結果として出力する。

【００３３】ここで、音響特徴抽出器２を構成する４つ
の空間オペレータの構成方法について説明する。まず、
図１でも示した空間オペレータ２０-1〜２０-4は、図９
（ａ）に示すように、３×３の３値微分オペレータであ
り、時間方向（ｔ）、周波数方向（ｆ）とも対称な係数
を持ち、且つ同時に平滑が行われるように構成されてい
た。しかし、音響特徴抽出器２を構成する４つの空間オ
ペレータの構成は、図９（ａ）の構成に限るものではな
い。

【００３４】例えば、図９（ｂ）に示すような３×３の
３値微分オペレータを、（空間オペレータ２０-1〜２０
-4に代わる）空間オペレータ２１-1〜２１-4として用
い、同じような３×３の３値微分オペレータでも、重み
付き平滑が行われる構成としてもよい。また、図９
（ｃ）に示すような、前後の係数を０とする３×３の３
値微分オペレータを、（空間オペレータ２０-1〜２０-4
に代わる）空間オペレータ２２-1〜２２-4として用いる
ことで、平滑を行わない構成であっても構わない。この
他に、５×５の空間フィルタやｎ値（ｎは≧３以上の整
数）の空間オペレータを用いることも可能であり、これ
らは処理対象に応じて適宜選択して使用すればよく、要
するに２次元の空間フィルタを使用して音響特徴を抽出
すればよい。［第２の実施形態］前記した第１の実施形態では、４つ
のＡＦＰ（音響特徴平面）を使用するため、従来の時間
−スペクトルパターン（ＴＳ）を使用する場合に比べ
て、次元数が大きくなる（ここでは、２６チャネル×１
２フレーム×１ＴＳ＝３１２→２６チャネル×１２フレ
ーム×４ＡＦＰ＝１２４８）。そこで、４つのＡＦＰを
使用しながら、当該ＡＦＰを圧縮することで、分類器３
で必要な計算量と、標準パターン記憶部４で必要な記憶
容量の双方を低減するようにした第２の実施形態につい
て説明する。

【００３５】図１０は本発明の第２の実施形態に係る音
声認識装置の全体構成を示すブロック図であり、図１と
同一部分には同一符号を付してある。図１０の構成が図
１の構成と異なる点は、音響特徴抽出器２と分類器３と
の間に圧縮器５を設け、音響特徴抽出器２からＭＡＦＰ
（複合音響特徴平面）の形で出力される音響特徴ベクト
ルの次元数を圧縮するようにしたことである。また、標
準パターン記憶部４には、同様の圧縮を施された標準パ
ターンが登録される。

【００３６】分類器３は、圧縮器５により圧縮（再構
成）された音響特徴ベクトルを標準パターン記憶部４に
登録されている各標準パターンと比較することで、最も
近い標準パターンのカテゴリを認識結果として出力す
る。分類器３での比較の対象となる音響特徴ベクトル及
び標準パターンは次元数の圧縮処理が施されているた
め、分類器３での計算量と、標準パターン記憶部４の記
憶容量をいずれも低減できる。

【００３７】ここで、圧縮器５による圧縮機能は、周波
数チャネル数と時間方向のフレーム数を適切に再構成す
ることで簡単に実現できる。この際、対象となるＭＡＦ
Ｐを構成するＲＦ−ＡＦＰ，ＡＦ−ＡＦＰ，ＤＦ−ＡＦ
Ｐ，ＳＰ−ＡＦＰの各ＡＦＰ（音響特徴平面）毎に、そ
のＡＦＰに写像（投影）される特徴に応じて、周波数方
向と時間方向の圧縮の仕方を変えることにより、効果的
な圧縮器５を実現できる。この例を、元の時間−スペク
トルパターン（ＴＳ）の周波数チャネル数及びフレーム
数と対比させて図１１に示す。

【００３８】図１１から明らかなように、例えば音勢力
の急激な増大もしくは減少音に対応するＲＦ−ＡＦＰは
時間軸で高分解能（例えば１２フレーム）を必要とする
ことから、時間方向には圧縮せずに、周波数方向のみを
２６チャネルから６チャネルに圧縮（再構成）してい
る。この場合、次元数は２６×１２＝３１２→６×１２
＝７２に低減される。

【００３９】これに対し、スペクトルピークを持つ定常
的あるいは緩やかに変化する音に対応するＳＰ−ＡＦＰ
はＲＦ−ＡＦＰと逆であり、周波数軸（スペクトル軸）
で高分解能（例えば２６チャネル）を必要とすることか
ら、周波数方向には圧縮せずに、時間方向のみを１２フ
レームから３フレームに圧縮（再構成）している。この
場合、次元数は２６×１２＝３１２→２６×３＝７８に
低減される。

【００４０】一方、ＡＦ−ＡＦＰ，ＤＦ−ＡＦＰは、急
激な変化はないものの、時間方向と周波数方向の両方向
に変化することから、即ちＲＦ−ＡＦＰとＳＰ−ＡＦＰ
の中間に位置付けられることから、ＲＦ−ＡＦＰとＳＰ
−ＡＦＰの再構成後の次元数にほぼ等しくなるように、
周波数方向に２６チャネルから１３チャネルに１／２だ
け圧縮（再構成）すると共に、時間方向に１２フレーム
から６フレームに１／２だけ圧縮（再構成）している。
この場合、次元数は２６×１２＝３１２→１３×６＝７
８に低減される。

【００４１】以上により、圧縮器５による圧縮（再構
成）後の４つのＡＦＰ（からなるＭＡＦＰ）の次元数は
３０６となり、圧縮（再構成）前の次元数１２４８の約
１／４まで、つまり元の時間−スペクトルパターン（Ｔ
Ｓ）の次元数（３１２）とほぼ同レベルまで低減され、
４つのＡＦＰを使用することによる分類器（３）での計
算量と、標準パターン記憶部（４）での記憶容量を、従
来と同レベルに抑えることができる。［第３の実施形態］前記した第２の実施形態では、時間
軸と周波数軸（スペクトル軸）を再構成することにより
４つのＡＦＰ（音響特徴平面）を圧縮する手法を適用し
た場合について説明したが、他の圧縮手法、例えば周知
の統計的圧縮手法を適用することも可能である。そこ
で、統計的圧縮手法を適用した第３の実施形態について
説明する。

【００４２】図１２は本発明の第３の実施形態に係る音
声認識装置の全体構成を示すブロック図であり、図１０
と同一部分には同一符号を付してある。図１２の構成が
図１０の構成と異なる点は、圧縮器５に代えて統計的圧
縮手法を適用した圧縮器、例えば周知のＫＬ変換により
次元圧縮を行うＫＬ変換器１５を設けたことである。ま
た、図１２の構成では、ＫＬ変換器１５によるＫＬ変換
に必要な固有ベクトルを格納した直交展開テーブル１６
も設けられている。

【００４３】このような構成において、ＫＬ変換器１５
は、音響特徴抽出器２から出力される４つのＡＦＰから
なるＭＡＦＰの次元数をＫＬ変換（ＫＬ展開）により圧
縮して、つまりＭＡＦＰの特徴ベクトルをＫＬ変換によ
り縮小特徴ベクトルに置き換えて、分類器３に出力す
る。ここで、ＫＬ変換器１５にて、文献 T.Nitta and
A.Kawamura,"Designing a reduced feature-vector set
for speech recognittion by using KL/GPD conpetiti
ve training",Eurospeech’97,pp.2107-2110(1987) に
記載されているようなＫＬ／ＧＰＤ競合学習を適用する
ことで、音響特徴の圧縮が特徴部分を自動調整しなが
ら、即ち特徴部分を十分に保持しながら行える。分類器
３は、ＫＬ変換器１５により圧縮された特徴ベクトルを
標準パターン記憶部４に登録されている各標準パターン
と比較することで、最も近い標準パターンのカテゴリを
認識結果として出力する。［第４の実施形態］図１３は本発明の第４の実施形態に
係る音声認識装置の全体構成を示すブロック図であり、
図１０及び図１２と同一部分には同一符号を付してあ
る。

【００４４】図１３の構成の特徴は、図１０の構成で適
用された圧縮器５と図１２の構成で適用されたＫＬ変換
器１５とを併用していることにある。即ち、図１３の構
成においては、音響特徴抽出器２から出力される４つの
ＡＦＰを、各ＡＦＰ毎の時間−周波数分解能を考慮して
圧縮器５にて再構成し、その再構成後の特徴ベクトルは
ＫＬ変換器１５にて縮小特徴ベクトルに置き換えること
で、４つのＡＦＰを効果的に圧縮するようにしている。
そして、圧縮器５及びＫＬ変換器１５を介して圧縮され
た４つのＡＦＰ（からなるＭＡＦＰ）の特徴ベクトルが
分類器３に渡されて、標準パターン記憶部４内の各標準
パターンとの比較処理に供される。

【００４５】次に、本実施形態において抽出される音響
特徴である（４つのＡＦＰからなる）ＭＡＦＰを音声認
識に適用した評価実験について、図１３の構成の音声認
識装置を用いて実施した場合を例に説明する。

【００４６】まず評価実験の音声試料には、連続音声か
ら切り出した２つのデータベースを用いる。１つは、５
母音と撥音の音声試料（日本語Ｖセットデータベース）
であり、２０名（男女各１０名）の計１１６１サンプル
からなる。もう１つは、後続母音が/i/ の子音部１２種
（#i,ki,shi,chi,ni,hi,mi,ri,gi,ji,bi,pi ）の音声試
料（日本語Ｅセットデータベース）であり、８名（男女
各４名）の計４２５サンプルからなる。

【００４７】評価実験は、（４つのＡＦＰからなる）Ｍ
ＡＦＰを音声認識に適用した場合との比較のために、
（１）ＭＡＦＰの他に、（２）従来から用いられている
時間−スペクトルパターン（ＴＳ）、（３）同じく従来
から用いられている時間−スペクトルパターン（ＴＳ）
と同パターンに１次元の微分オペレータ（例えば１×５
微分オペレータ）を適用することで取得されるパラメー
タ（Δt-パラメータ）との組み合わせ（ＴＳ＋Δt ）、
（４）４つのＡＦＰを１つにマージしたパターン（merg
ed ＭＡＦＰ）、（５）ＭＡＦＰと時間−スペクトルパ
ターン（ＴＳ）との組み合わせ（ＭＡＦＰ＋ＴＳ）の各
音響特徴についても、Ｖセットデータベース、Ｅセット
データベースを用いて行った。

【００４８】図１４に上記（１）ＭＡＦＰ、（２）Ｔ
Ｓ、（３）ＴＳ＋Δt 、（４）mergedＭＡＦＰ、（５）
ＭＡＦＰ＋ＴＳの各音響特徴をＶセットデータベース、
Ｅセットデータベースを用い、音響特徴ベクトルの次元
数（音響特徴次元数）を変化させて認識性能を評価実験
した場合の誤認識率を示す。

【００４９】図１４から明らかなように、ＴＳは誤認識
率が比較的高く、特にＶセットの誤認識率が高い。その
理由は、様々な音素環境から切り出した不明瞭な音声デ
ータ、鼻音化母音などを含むことによる。

【００５０】次に、ＴＳ＋Δt も誤認識率が比較的高い
が、Ｅセットの実験結果ではΔt-パラメータの併用が
（ＴＳの単独使用に対して）誤認識率を改善することを
示している。一方、Ｖセットの性能については、Δt-パ
ラメータ定常音に対して効果がないため改善されないこ
とが分かる。

【００５１】次に、図３に一例を示したmerged ＭＡＦ
Ｐについては、Ｖセット、Ｅセット共に誤認識率を大き
く改善する。次に、本実施形態で適用されたＭＡＦＰに
ついては、merged ＭＡＦＰよりさらに大きく性能を改
善する。図１４から明らかなように、濃度情報のみのＴ
Ｓ（ＴＳパターン）を適用した場合と比較すると、Ｖセ
ット、Ｅセット共に誤認時率は約１／２に改善されてい
る。Ｅセットを例にとると、ＭＡＦＰでの誤認識率は、
ＴＳの３４．５％、ＴＳ＋Δt の２９．６％に対して１
７％と顕著な改善を示した（特徴次元数６４の場合）。
このように高い性能を実現できる理由として、ＭＡＦＰ
を構成する各ＡＦＰが音声の位相構造（異なる音響事象
の特徴）を分担して担う結果、ＭＡＦＰが質の良い音響
特徴標識（acoustic cue、以下音響キューと称する）を
構成していることが挙げられる。

【００５２】ところで、音響特徴（Δt-パラメータ、me
rged ＭＡＦＰ、ＭＡＦＰなど）に元の濃度情報である
ＴＳパターンを加えた場合、加える前の特徴が音響キュ
ーを表現する能力に欠けているならば、誤認識率は改善
されることが予測される。しかし、図１４に示したＭＡ
ＦＰ＋ＴＳでの誤認識率は、ＭＡＦＰの単独使用の場合
と同等である。つまり、ＭＡＦＰは質の良い音響特徴を
構成しており、ＴＳパターンなしでも音韻情報を十分に
保持していることが分かる。逆に図１４の結果では、Ｍ
ＡＦＰ＋ＴＳでの誤認識率は、ＴＳの影響で、ＭＡＦＰ
単独の場合に比べて僅かに増加する傾向にある。

【００５３】なお、以上の実施形態で述べた音響特徴抽
出器２による音響特徴平面（ＡＦＰ）抽出処理、圧縮器
５あるいはＫＬ変換器１５による音響特徴平面（の特徴
次元数）の圧縮処理、さらには分類器３による入力音声
の認識（識別）処理は、マイクロホンを含む音声入力手
段、及びＢＰＦ群１に相当する周波数分析手段を内蔵し
たプログラム読み取り可能なコンピュータ、例えば図１
５に示すようなパーソナルコンピュータ１５０に、当該
処理を実行させるためのプログラムを記録した記録媒
体、例えばＣＤ−ＲＯＭ１５１を装着して、当該ＣＤ−
ＲＯＭ１５１に記録されているプログラムをパーソナル
コンピュータ１５０で読み取り実行させることによって
も実現される。なお、プログラムを記録した記録媒体と
しては、ＣＤ−ＲＯＭ１５１の他に、フロッピーディス
ク、メモリカード等が利用可能である。また、プログラ
ムを記録した記録媒体の内容が、通信回線等を介してパ
ーソナルコンピュータ１５１にダウンロードされるもの
であっても構わない。

【００５４】

【発明の効果】以上詳述したように本発明によれば、時
間−スペクトルパターンから所定のそれぞれ異なる音響
事象を投影した複数の音響特徴平面を抽出するようにし
たので、従来のように時間−スペクトルパターン、ある
いは時間−スペクトルパターンと動的特徴との組み合わ
せに比べて頑健な音響特徴を取得できる。この結果、音
声認識、話者認識、あるいは音響信号に基づくモデル同
定などの性能を飛躍的に向上させることが可能となる。

【００５５】また本発明によれば、時間−スペクトルパ
ターンから所定のそれぞれ異なる音響事象を投影した複
数の音響特徴平面を抽出するのに、当該時間−スペクト
ルパターンに方向の異なる複数の空間オペレータを適用
するようにしたので、対象とする音響事象の変化を高精
度で検知して音響特徴平面に効果的に投影することがで
きる。

【００５６】また本発明によれば、時間−スペクトルパ
ターンから抽出した複数の音響特徴平面を、時間軸と周
波数軸を再構成する手法、あるいは統計的手法の少なく
とも一方により圧縮して特徴次元数を低減するようにし
たので、複数の音響特徴平面利用による計算量及び記憶
容量の増加を抑えることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
全体構成を示すブロック図。

【図２】時間−スペクトルパターンの一例を示す図。

【図３】図２の時間−スペクトルパターンから抽出され
た４つの音響特徴平面（ＡＦＰ）を１つにマージしたパ
ターン（merged ＭＡＦＰ）を示す図。

【図４】図２の時間−スペクトルパターンから抽出され
た音響特徴平面の１つであるＲＦ−ＡＦＰパターンを示
す図。

【図５】図２の時間−スペクトルパターンから抽出され
た音響特徴平面の１つであるＡＦ−ＡＦＰパターンを示
す図。

【図６】図２の時間−スペクトルパターンから抽出され
た音響特徴平面の１つであるＤＦ−ＡＦＰパターンを示
す図。

【図７】図２の時間−スペクトルパターンから抽出され
た音響特徴平面の１つであるＳＰ−ＡＦＰパターンを示
す図。

【図８】時間−スペクトルパターンから抽出される４つ
の音響特徴平面（ＡＦＰ）からなる複合音響特徴平面
（ＭＡＦＰ）の概念を示す図。

【図９】音響特徴抽出器２に適用される４つの空間オペ
レータの構成方法を説明するための図。

【図１０】本発明の第２の実施形態に係る音声認識装置
の全体構成を示すブロック図。

【図１１】時間軸と周波数軸を再構成することにより実
現される特徴次元数圧縮手法を説明するための図。

【図１２】本発明の第３の実施形態に係る音声認識装置
の全体構成を示すブロック図。

【図１３】本発明の第４の実施形態に係る音声認識装置
の全体構成を示すブロック図。

【図１４】同実施形態における複合音響特徴平面（ＭＡ
ＦＰ）適用時の認識性能の評価実験結果を、他の音響特
徴を適用した場合と対比させて示す図。

【図１５】音響特徴平面抽出機能等を実現するためのプ
ログラムの読み取り実行が可能なパーソナルコンピュー
タの外観を示す図。

【符号の説明】

１…ＢＰＦ群（周波数分析手段）２…音響特徴抽出器３…分類器（識別手段）４…標準パターン記憶部５…圧縮器（圧縮手段）１５…ＫＬ変換器（圧縮手段）２０-1〜２０-4，２１-1〜２１-4，２２-1〜２２-4…空
間オペレータ１５０…パーソナルコンピュータ１５１…ＣＤ−ＲＯＭ（記録媒体）

Claims

【特許請求の範囲】

【請求項１】入力された音響信号を時間−スペクトル
パターンに変換し、前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用することにより、所定のそれぞれ異
なる音響事象を投影した複数の音響特徴平面を抽出する
ことを特徴とする音響特徴抽出方法。
【請求項２】入力された音響信号を時間−スペクトル
パターンに変換し、前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用して得られる正負の値をペアとして
使用することにより、所定のそれぞれ異なる音響事象を
投影した複数の音響特徴平面を抽出することを特徴とす
る音響特徴抽出方法。
【請求項３】前記抽出した複数の音響特徴平面を圧縮
することを特徴とする請求項１または請求項２に記載の
音響特徴抽出方法。
【請求項４】前記抽出した複数の音響特徴平面を時間
軸と周波数軸を再構成することにより圧縮することを特
徴とする請求項３記載の音響特徴抽出方法。
【請求項５】前記抽出した複数の音響特徴平面を統計
的圧縮手法により圧縮することを特徴とする請求項３記
載の音響特徴抽出方法。
【請求項６】前記抽出した複数の音響特徴平面を時間
軸と周波数軸を再構成することにより圧縮し、当該圧縮
された音響特徴平面を統計的圧縮手法によりさらに圧縮
することを特徴とする請求項３記載の音響特徴抽出方
法。
【請求項７】入力された音響信号を時間−スペクトル
パターンに変換するステップと、前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用することにより、所定のそれぞれ異
なる音響事象を投影した複数の音響特徴平面を抽出する
ステップとをコンピュータに実行させるプログラムを記
録したコンピュータ読み取り可能な記録媒体。
【請求項８】入力された音響信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、前記周波数分析手段により変換された時間−スペクトル
パターンに方向の異なる複数の空間オペレータを適用す
ることにより、所定のそれぞれ異なる音響事象を投影し
た複数の音響特徴平面を抽出する音響特徴抽出手段とを
具備することを特徴とする音響特徴抽出装置。
【請求項９】入力された音声信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、前記周波数分析手段により変換された時間−スペクトル
パターンに方向の異なる複数の空間オペレータを適用す
ることにより、所定のそれぞれ異なる音響事象を投影し
た複数の音響特徴平面を抽出する音響特徴抽出手段と、前記音響特徴抽出手段により抽出された複数の音響特徴
平面を予め登録されている標準パターンと比較すること
で、入力音声に対する認識結果を取得する識別手段とを
具備することを特徴とする音声認識装置。