JPH11249681A - 音響特徴抽出方法及び同方法を適用した音声認識装置 - Google Patents
音響特徴抽出方法及び同方法を適用した音声認識装置Info
- Publication number
- JPH11249681A JPH11249681A JP10053462A JP5346298A JPH11249681A JP H11249681 A JPH11249681 A JP H11249681A JP 10053462 A JP10053462 A JP 10053462A JP 5346298 A JP5346298 A JP 5346298A JP H11249681 A JPH11249681 A JP H11249681A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic feature
- acoustic
- time
- pattern
- afp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】音声認識、話者認識、あるいは音響信号に基づ
くモデル同定などの性能を飛躍的に向上させる音響特徴
を抽出できるようにする。 【解決手段】入力された音声信号をBPF群1にて周波
数分析することで時間−スペクトルパターンに変換す
る。音響特徴抽出器2では、この時間−スペクトルパタ
ーンに対してそれぞれ方向の異なる空間オペレータ20
-1〜20-4を適用することで、当該時間−スペクトルパ
ターンからそれぞれ異なる音響事象RF,AF,DF,
SPを投影した4つの音響特徴平面(RF−AFP,A
F−AFP,DF−AFP,SP−AFP)からなる複
合音響特徴平面(MAFP)を抽出する。分類器3は、
MAFPのパラメータを標準パターン記憶部4に登録さ
れている各標準パターンと比較することで、最も近い標
準パターンのカテゴリを認識結果として出力する。
くモデル同定などの性能を飛躍的に向上させる音響特徴
を抽出できるようにする。 【解決手段】入力された音声信号をBPF群1にて周波
数分析することで時間−スペクトルパターンに変換す
る。音響特徴抽出器2では、この時間−スペクトルパタ
ーンに対してそれぞれ方向の異なる空間オペレータ20
-1〜20-4を適用することで、当該時間−スペクトルパ
ターンからそれぞれ異なる音響事象RF,AF,DF,
SPを投影した4つの音響特徴平面(RF−AFP,A
F−AFP,DF−AFP,SP−AFP)からなる複
合音響特徴平面(MAFP)を抽出する。分類器3は、
MAFPのパラメータを標準パターン記憶部4に登録さ
れている各標準パターンと比較することで、最も近い標
準パターンのカテゴリを認識結果として出力する。
Description
【0001】
【発明の属する技術分野】本発明は、音響信号から聴覚
的に重要な特徴を抽出するのに好適な音響特徴抽出方法
及び同方法を適用した音声認識装置に関する。
的に重要な特徴を抽出するのに好適な音響特徴抽出方法
及び同方法を適用した音声認識装置に関する。
【0002】
【従来の技術】従来、音声認識等で適用される音響信号
から抽出する特徴としては、周波数分析によって得られ
る時間−スペクトルパターンそのものが使われることが
多かった。また、音が生成される元のモデル(人間の発
声器官、モーターセオリーなど)が既知の場合には、音
響信号からモデルのパラメータを推定する手法(線形予
測分析など)を用いることができるが、これらも時間−
スペクトルパターン(もしくは時間−ケプストラムパタ
ーン)として使われることが多い。
から抽出する特徴としては、周波数分析によって得られ
る時間−スペクトルパターンそのものが使われることが
多かった。また、音が生成される元のモデル(人間の発
声器官、モーターセオリーなど)が既知の場合には、音
響信号からモデルのパラメータを推定する手法(線形予
測分析など)を用いることができるが、これらも時間−
スペクトルパターン(もしくは時間−ケプストラムパタ
ーン)として使われることが多い。
【0003】一方、近年、動的特徴の重要性が指摘され
るようになると、例えば文献 K.Elenius and M.Blomber
g,"Effect of emphasizing transitional or stationar
y parts of the speech signal in a discrete utteran
ce recognition system",IEEE Proc.ICASSSP’82,pp.53
5-538(1982) 、文献 S.Furui,"Speaker-indepebdentiso
lated word recognition using dynamic features of s
peech spectrum",IEEE Trans.Acoust.Speech Signal Pr
ocess.ASSP-34,1,pp.52-59(1986) に記載されているよ
うに、時間方向の変化量(微分値、実際には差分値。時
間方向の変動から回帰直線の傾きを計算して使うことも
ある)を、時間−スペクトルパターンと共に音響特徴と
して使用することが行われるようになった。
るようになると、例えば文献 K.Elenius and M.Blomber
g,"Effect of emphasizing transitional or stationar
y parts of the speech signal in a discrete utteran
ce recognition system",IEEE Proc.ICASSSP’82,pp.53
5-538(1982) 、文献 S.Furui,"Speaker-indepebdentiso
lated word recognition using dynamic features of s
peech spectrum",IEEE Trans.Acoust.Speech Signal Pr
ocess.ASSP-34,1,pp.52-59(1986) に記載されているよ
うに、時間方向の変化量(微分値、実際には差分値。時
間方向の変動から回帰直線の傾きを計算して使うことも
ある)を、時間−スペクトルパターンと共に音響特徴と
して使用することが行われるようになった。
【0004】
【発明が解決しようとする課題】しかしながら、従来用
いられていた特徴パラメータ(時間−スペクトルパラメ
ータ、もしくは時間−スペクトルパラメータ+動的パラ
メータ)は、音響信号が内包する特徴を陽に表現してい
るわけではない。
いられていた特徴パラメータ(時間−スペクトルパラメ
ータ、もしくは時間−スペクトルパラメータ+動的パラ
メータ)は、音響信号が内包する特徴を陽に表現してい
るわけではない。
【0005】このため、例えば音声認識にこれらの特徴
量を使用した場合には、性能に限界があった。また、従
来の特徴パラメータは、時間−周波数パターンに重畳す
る様々なノイズや、主に周波数特性の変化に起因する時
間−周波数パターンの変形に弱く、頑健な性能を維持す
るには前処理などでの特別な工夫を必要とした。さら
に、そうした工夫を行っても性能向上には限界があっ
た。
量を使用した場合には、性能に限界があった。また、従
来の特徴パラメータは、時間−周波数パターンに重畳す
る様々なノイズや、主に周波数特性の変化に起因する時
間−周波数パターンの変形に弱く、頑健な性能を維持す
るには前処理などでの特別な工夫を必要とした。さら
に、そうした工夫を行っても性能向上には限界があっ
た。
【0006】本発明は上記事情を考慮してなされたもの
でその目的は、音声認識、話者認識、あるいは音響信号
に基づくモデル同定などの性能を飛躍的に向上させる音
響特徴抽出方法及び同方法を適用した音声認識装置を提
供することにある。
でその目的は、音声認識、話者認識、あるいは音響信号
に基づくモデル同定などの性能を飛躍的に向上させる音
響特徴抽出方法及び同方法を適用した音声認識装置を提
供することにある。
【0007】
【課題を解決するための手段】本発明は、入力された音
響信号を時間−スペクトルパターンに変換し、この時間
−スペクトルパターンから所定のそれぞれ異なる音響事
象を投影した複数の音響特徴平面を抽出することを特徴
とする。このように本発明の特徴は、これまで利用され
てこなかった時間−スペクトルパターンの位相構造を音
響特徴として抽出するようにした点にある。
響信号を時間−スペクトルパターンに変換し、この時間
−スペクトルパターンから所定のそれぞれ異なる音響事
象を投影した複数の音響特徴平面を抽出することを特徴
とする。このように本発明の特徴は、これまで利用され
てこなかった時間−スペクトルパターンの位相構造を音
響特徴として抽出するようにした点にある。
【0008】ここでの位相構造とは、それぞれ異なる音
響事象を投影した複数の音響特徴平面を指す。音響事象
の代表的なものとして、次のような4つの型の音響事
象、即ち(1)音勢力(音声パワー)の急激な増大もし
くは減少音(sharply rising(on-type) or falling(off
-type) sound、以下、RFと称する)、(2)急激な上
昇FM(周波数変調)音(sharply ascending FM soun
d、以下、AFと称する)、(3)急激な下降FM音(s
harply descending FM sound 、以下、DFと称す
る)、(4)スペクトルピークを持つ定常的あるいは緩
やかに変化する音(steady or slowly-changing sound
with spectral peaks 、以下SPと称する)がある。
響事象を投影した複数の音響特徴平面を指す。音響事象
の代表的なものとして、次のような4つの型の音響事
象、即ち(1)音勢力(音声パワー)の急激な増大もし
くは減少音(sharply rising(on-type) or falling(off
-type) sound、以下、RFと称する)、(2)急激な上
昇FM(周波数変調)音(sharply ascending FM soun
d、以下、AFと称する)、(3)急激な下降FM音(s
harply descending FM sound 、以下、DFと称す
る)、(4)スペクトルピークを持つ定常的あるいは緩
やかに変化する音(steady or slowly-changing sound
with spectral peaks 、以下SPと称する)がある。
【0009】この4つの音響事象は、聴覚神経系に関す
る研究において、文献 T.Hashimototo,Y.Katayama,K.Mu
rata,and I.Taniguchi,"Pitch-syncronous response of
catcochlear nerve fibers to speech sounds",Jpn.J.
Physiol.,25,pp.634-644(1975)、文献 T.Watanabe,Jpn.
J.Physiol.,22.pp.569-583(1972)に記載されているよう
に、対応する聴覚神経系が存在することが知られてい
る。また、この4つの音響事象は、文献 P.Ladefoged,"
A course in phonetics",2nd Edit.,New York:Harcour
t,Brace,Jovanovich(1982) に記載されているように、
音声学上(音韻判別上)も重要な特徴とされてきた。し
かし従来は、時間−スペクトルパターンから、このよう
な音響事象を抽出することは全く考えられていなかっ
た。なお、上記以外の音響事象としては、ピッチ等があ
る。
る研究において、文献 T.Hashimototo,Y.Katayama,K.Mu
rata,and I.Taniguchi,"Pitch-syncronous response of
catcochlear nerve fibers to speech sounds",Jpn.J.
Physiol.,25,pp.634-644(1975)、文献 T.Watanabe,Jpn.
J.Physiol.,22.pp.569-583(1972)に記載されているよう
に、対応する聴覚神経系が存在することが知られてい
る。また、この4つの音響事象は、文献 P.Ladefoged,"
A course in phonetics",2nd Edit.,New York:Harcour
t,Brace,Jovanovich(1982) に記載されているように、
音声学上(音韻判別上)も重要な特徴とされてきた。し
かし従来は、時間−スペクトルパターンから、このよう
な音響事象を抽出することは全く考えられていなかっ
た。なお、上記以外の音響事象としては、ピッチ等があ
る。
【0010】本発明において、時間−スペクトルパター
ンから抽出される複数の音響特徴平面は、音声学上重要
な特徴を反映しているため、入力音声の音響特徴として
元の時間−スペクトルパターンを併用しないで済む。こ
のように元の時間−スペクトルパターンを使用しないこ
とで、頑健な音響特徴を取得できる。これに対して従来
から提案されている動的特徴は、時間−スペクトルパタ
ーンも同時に使用しなければならないため、変動に弱か
った。
ンから抽出される複数の音響特徴平面は、音声学上重要
な特徴を反映しているため、入力音声の音響特徴として
元の時間−スペクトルパターンを併用しないで済む。こ
のように元の時間−スペクトルパターンを使用しないこ
とで、頑健な音響特徴を取得できる。これに対して従来
から提案されている動的特徴は、時間−スペクトルパタ
ーンも同時に使用しなければならないため、変動に弱か
った。
【0011】本発明はまた、時間−スペクトルパターン
から所定のそれぞれ異なる音響事象を投影した複数の音
響特徴平面を抽出するのに、当該時間−スペクトルパタ
ーンに方向の異なる複数の空間オペレータ(空間フィル
タ)を適用するようにしたことをも特徴とする。時間−
スペクトルパターンに空間オペレータを適用するとは、
当該時間−スペクトルパターンの個々の点に対して、周
辺の点(例えば、隣接する8点)を使って、様々な演算
(微分、平滑、2次微分など)を行うことであ。空間オ
ペレータとしては、3×3の微分オペレータ、5×5の
空間フィルタなどが適用可能である。
から所定のそれぞれ異なる音響事象を投影した複数の音
響特徴平面を抽出するのに、当該時間−スペクトルパタ
ーンに方向の異なる複数の空間オペレータ(空間フィル
タ)を適用するようにしたことをも特徴とする。時間−
スペクトルパターンに空間オペレータを適用するとは、
当該時間−スペクトルパターンの個々の点に対して、周
辺の点(例えば、隣接する8点)を使って、様々な演算
(微分、平滑、2次微分など)を行うことであ。空間オ
ペレータとしては、3×3の微分オペレータ、5×5の
空間フィルタなどが適用可能である。
【0012】ここで適用する空間オペレータには、音響
特徴平面に写し出すべき音響事象の特徴を検知可能なも
の、つまり当該音響事象に固有の変化を検知可能なもの
が使用される。例えば、上記RF(音勢力の急激な増大
もしくは減少音)であれば、スペクトルピークが時間方
向に変化することから、時間方向の変化を検知する空間
オペレータを用いればよい。また、SP(スペクトルピ
ークを持つ定常的あるいは緩やかに変化する音)であれ
ば、周波数方向に変化することから、周波数方向の変化
を検知する空間オペレータを用いればよい。また、AF
(急激な上昇FM音)あるいはDF(急激な下降FM
音)であれば、スペクトルピークが時間方向及び周波数
方向の両方向に共に変化することから、時間方向及び周
波数方向の同時変化を検知する空間オペレータを用いれ
ばよい。但し、AFとDFとでは変化方向が逆のため、
使用する空間オペレータは異なる。
特徴平面に写し出すべき音響事象の特徴を検知可能なも
の、つまり当該音響事象に固有の変化を検知可能なもの
が使用される。例えば、上記RF(音勢力の急激な増大
もしくは減少音)であれば、スペクトルピークが時間方
向に変化することから、時間方向の変化を検知する空間
オペレータを用いればよい。また、SP(スペクトルピ
ークを持つ定常的あるいは緩やかに変化する音)であれ
ば、周波数方向に変化することから、周波数方向の変化
を検知する空間オペレータを用いればよい。また、AF
(急激な上昇FM音)あるいはDF(急激な下降FM
音)であれば、スペクトルピークが時間方向及び周波数
方向の両方向に共に変化することから、時間方向及び周
波数方向の同時変化を検知する空間オペレータを用いれ
ばよい。但し、AFとDFとでは変化方向が逆のため、
使用する空間オペレータは異なる。
【0013】本発明はまた、時間−スペクトルパターン
に方向の異なる複数の空間オペレータを適用した後、結
果をそのまま使用する、つまり絶対値、あるいは正負の
一方の値を使用するのではなくて、そのまま使用するこ
とをも特徴とする。一般に、空間オペレータには、時
間、或いは周波数方向に対称な形のものがあり、画像処
理の分野では、これらを分けて(別のオペレータとし
て)適用する。この画像処理の分野で適用される技術
を、音響特徴平面の抽出に利用した場合、得られる音響
特徴平面は倍になり、記憶容量、演算量が増大する。こ
れに対して本願発明では、空間オペレータを適用した結
果をそのまま使用することから、記憶容量、演算量が減
少する。正負の値は、2つの対称な空間オペレータの演
算結果を1つの面に同時に投影していることになり、正
負のペアで音響特徴を表現しているといえる。
に方向の異なる複数の空間オペレータを適用した後、結
果をそのまま使用する、つまり絶対値、あるいは正負の
一方の値を使用するのではなくて、そのまま使用するこ
とをも特徴とする。一般に、空間オペレータには、時
間、或いは周波数方向に対称な形のものがあり、画像処
理の分野では、これらを分けて(別のオペレータとし
て)適用する。この画像処理の分野で適用される技術
を、音響特徴平面の抽出に利用した場合、得られる音響
特徴平面は倍になり、記憶容量、演算量が増大する。こ
れに対して本願発明では、空間オペレータを適用した結
果をそのまま使用することから、記憶容量、演算量が減
少する。正負の値は、2つの対称な空間オペレータの演
算結果を1つの面に同時に投影していることになり、正
負のペアで音響特徴を表現しているといえる。
【0014】本発明においては、上記の如く複数の音響
特徴平面を扱うため、従来の方式(時間−スペクトルパ
ターンのみを使用する方式、時間−スペクトルパターン
と動的特徴とを併用する方式)に比較して、特徴次元数
(音響特徴ベクトルの次元数)が大きくなる欠点を持
つ。
特徴平面を扱うため、従来の方式(時間−スペクトルパ
ターンのみを使用する方式、時間−スペクトルパターン
と動的特徴とを併用する方式)に比較して、特徴次元数
(音響特徴ベクトルの次元数)が大きくなる欠点を持
つ。
【0015】そこで本発明は、時間−スペクトルパター
ンから抽出した複数の音響特徴平面を圧縮するようにし
たことをも特徴とする。ここで音響特徴平面の圧縮手法
としては、時間軸と周波数軸を再構成することにより圧
縮する第1の圧縮手法が適用可能である。この第1の圧
縮手法を適用する場合、対象となる音響特徴平面に写像
したい特徴を考慮し、つまり時間分解能が大切か、ある
いは周波数分解能が大切かを考慮して、時間軸方向また
は周波数軸方向の少なくとも一方に圧縮するとよい。
ンから抽出した複数の音響特徴平面を圧縮するようにし
たことをも特徴とする。ここで音響特徴平面の圧縮手法
としては、時間軸と周波数軸を再構成することにより圧
縮する第1の圧縮手法が適用可能である。この第1の圧
縮手法を適用する場合、対象となる音響特徴平面に写像
したい特徴を考慮し、つまり時間分解能が大切か、ある
いは周波数分解能が大切かを考慮して、時間軸方向また
は周波数軸方向の少なくとも一方に圧縮するとよい。
【0016】また、音響特徴平面の圧縮手法として、K
L変換(KL展開)、線形判別分析手法に代表される統
計的手法(以下、第2の圧縮手法と称する)を適用する
ことも可能である。さらに、上記第1及び第2の圧縮手
法を組み合わせ、例えば第1の圧縮手法により複数の音
響特徴平面を圧縮し、しかる後に当該圧縮された複数の
音響特徴平面を第2の圧縮手法により圧縮することも可
能である。
L変換(KL展開)、線形判別分析手法に代表される統
計的手法(以下、第2の圧縮手法と称する)を適用する
ことも可能である。さらに、上記第1及び第2の圧縮手
法を組み合わせ、例えば第1の圧縮手法により複数の音
響特徴平面を圧縮し、しかる後に当該圧縮された複数の
音響特徴平面を第2の圧縮手法により圧縮することも可
能である。
【0017】
【発明の実施の形態】以下、本発明の実施の形態につ
き、音声認識装置に適用した場合を例に図面を参照して
説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識装置の全体構成を示すブロック図である。
き、音声認識装置に適用した場合を例に図面を参照して
説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識装置の全体構成を示すブロック図である。
【0018】図1において、1は周波数分析手段として
の帯域通過フィルタ群(以下、BPF群)である。話者
が発声した音声は、マイクロホン等を含む音声入力手段
(図示せず)により入力されて音声信号(音響信号)に
変換され、その音声信号はBPF群1により周波数分析
される。ここではBPF群1は、26の周波数チャネル
(#1〜#26)のBPF(帯域通過フィルタ)から構
成されており、8ms毎に26チャネルの周波数分析結
果を出力する。
の帯域通過フィルタ群(以下、BPF群)である。話者
が発声した音声は、マイクロホン等を含む音声入力手段
(図示せず)により入力されて音声信号(音響信号)に
変換され、その音声信号はBPF群1により周波数分析
される。ここではBPF群1は、26の周波数チャネル
(#1〜#26)のBPF(帯域通過フィルタ)から構
成されており、8ms毎に26チャネルの周波数分析結
果を出力する。
【0019】図2に、「概(がい)」と発声した場合の
BPF群1の周波数分析結果である時間−スペクトルパ
ターンを示す。同図において、横軸はチャネル(フィル
タ)番号で、紙面の右側ほど周波数が高くなる。一方、
縦軸は時間を表し、左側の数字は時間フレーム番号(間
隔8ms)を示す。ここでは、レベル(パワースペクト
ルのレベル)を含むBPF群1の周波数分析結果を時間
−周波数の2次元平面上で表現するのに、濃淡図形のパ
ターン(濃度が高いほど高レベルであることを示す)と
して表す周知の表現形式を適用している。そのため、図
2に示すように、例えば9個のレベル範囲を設定し、高
いレベルの範囲ほど、字形の複雑な文字(記号を含む)
を割り当てて、各フレーム番号の各チャネル(フィル
タ)出力に対応する位置に、そのレベルを表す文字をプ
ロットするようにしている。この図2に濃淡図形として
示したBPF群1の周波数分析結果のパターンを、時間
−スペクトルパターンX(t,f) と呼ぶ(tは時間、fは
周波数)。つまりBPF群1は、入力音声(入力音響信
号)を周波数分析して時間−スペクトルパターンX(t,
f) に変換する。
BPF群1の周波数分析結果である時間−スペクトルパ
ターンを示す。同図において、横軸はチャネル(フィル
タ)番号で、紙面の右側ほど周波数が高くなる。一方、
縦軸は時間を表し、左側の数字は時間フレーム番号(間
隔8ms)を示す。ここでは、レベル(パワースペクト
ルのレベル)を含むBPF群1の周波数分析結果を時間
−周波数の2次元平面上で表現するのに、濃淡図形のパ
ターン(濃度が高いほど高レベルであることを示す)と
して表す周知の表現形式を適用している。そのため、図
2に示すように、例えば9個のレベル範囲を設定し、高
いレベルの範囲ほど、字形の複雑な文字(記号を含む)
を割り当てて、各フレーム番号の各チャネル(フィル
タ)出力に対応する位置に、そのレベルを表す文字をプ
ロットするようにしている。この図2に濃淡図形として
示したBPF群1の周波数分析結果のパターンを、時間
−スペクトルパターンX(t,f) と呼ぶ(tは時間、fは
周波数)。つまりBPF群1は、入力音声(入力音響信
号)を周波数分析して時間−スペクトルパターンX(t,
f) に変換する。
【0020】BPF群1から出力される時間−スペクト
ルパターンX(t,f) は、音響特徴抽出器2に入力され
る。音響特徴抽出器2は、方向の異なる4つの空間オペ
レータ(空間フィルタ)20-1〜20-4で構成されてお
り、時間−スペクトルパターンX(t,f) に当該空間オペ
レータ(空間フィルタ)20-1〜20-4を適用すること
で、それぞれ異なる音響事象を投影した4つの特徴平
面、つまり音響特徴平面(acoustic-feature plane、以
下、AFPと称する)を抽出する。
ルパターンX(t,f) は、音響特徴抽出器2に入力され
る。音響特徴抽出器2は、方向の異なる4つの空間オペ
レータ(空間フィルタ)20-1〜20-4で構成されてお
り、時間−スペクトルパターンX(t,f) に当該空間オペ
レータ(空間フィルタ)20-1〜20-4を適用すること
で、それぞれ異なる音響事象を投影した4つの特徴平
面、つまり音響特徴平面(acoustic-feature plane、以
下、AFPと称する)を抽出する。
【0021】本実施形態において、空間オペレータ20
-1,20-2,20-3,20-4には、それぞれ前記4つの
音響事象RF,AF,DF,SPが対応している。ここ
では、空間フィルタ20-1〜20-4として、図1に示す
ように3×3の3値微分オペレータを使用している。例
えば空間フィルタ20-1には、対応する音響事象RFが
時間方向(t)に変化することから時間方向(t)の変
化を検知する3値微分オペレータが用いられ、空間オペ
レータ20-4には、対応する音響事象SPが周波数方向
(f)に変化することから周波数方向(f)の変化を検
知する3値微分オペレータが用いられる。また、空間フ
ィルタ20-2,20-3には、対応する音響事象AF,D
Fが時間方向(t)及び周波数方向(f)の両方向に共
に変化することから、時間方向(t)及び周波数(f)
方向の同時変化を検知する3値微分オペレータが用いら
れる。但し、AFとDFとでは変化方向が逆のため、使
用する3値微分オペレータは異なる。
-1,20-2,20-3,20-4には、それぞれ前記4つの
音響事象RF,AF,DF,SPが対応している。ここ
では、空間フィルタ20-1〜20-4として、図1に示す
ように3×3の3値微分オペレータを使用している。例
えば空間フィルタ20-1には、対応する音響事象RFが
時間方向(t)に変化することから時間方向(t)の変
化を検知する3値微分オペレータが用いられ、空間オペ
レータ20-4には、対応する音響事象SPが周波数方向
(f)に変化することから周波数方向(f)の変化を検
知する3値微分オペレータが用いられる。また、空間フ
ィルタ20-2,20-3には、対応する音響事象AF,D
Fが時間方向(t)及び周波数方向(f)の両方向に共
に変化することから、時間方向(t)及び周波数(f)
方向の同時変化を検知する3値微分オペレータが用いら
れる。但し、AFとDFとでは変化方向が逆のため、使
用する3値微分オペレータは異なる。
【0022】ここで空間オペレータ20-i(i=1〜
4)の動作を簡単に説明する。まず、時間−スペクトル
パターンX(t,f) は、次式(1)に示す8つの近傍を持
っている。
4)の動作を簡単に説明する。まず、時間−スペクトル
パターンX(t,f) は、次式(1)に示す8つの近傍を持
っている。
【0023】
【数1】
【0024】音響特徴抽出器2(内の空間オペレータ2
0-1〜20-4)から出力される、音響事象RF,AF,
DF,SPを投影した4つの音響特徴平面(以下、RF
−AFP,AF−AFP,DF−AFP,SP−AFP
と称する)の要素X’(t,f)は、次式(2)に従って計
算される。
0-1〜20-4)から出力される、音響事象RF,AF,
DF,SPを投影した4つの音響特徴平面(以下、RF
−AFP,AF−AFP,DF−AFP,SP−AFP
と称する)の要素X’(t,f)は、次式(2)に従って計
算される。
【0025】
【数2】
【0026】ここでW(t,f) は各AFPのX’(t,f) に
対応した3値微分オペレータの係数(−1,0,1の3
値)で、図1中の空間オペレータ20-1〜20-4に、そ
の例を示してある。X’(t,f) の正の値は正の傾きを、
負の値は負の傾きを意味する。そこで、例えば定常音中
の明瞭なスペクトルピークは、SP−AFP上の正と負
の値のペアで表される。
対応した3値微分オペレータの係数(−1,0,1の3
値)で、図1中の空間オペレータ20-1〜20-4に、そ
の例を示してある。X’(t,f) の正の値は正の傾きを、
負の値は負の傾きを意味する。そこで、例えば定常音中
の明瞭なスペクトルピークは、SP−AFP上の正と負
の値のペアで表される。
【0027】空間オペレータ20-1〜20-4に3×3の
3値微分オペレータを使用した例では、3×3近傍内に
は1つの音響事象しか含まれないようにする必要があ
る。そのためには、BPF群1を構成する各周波数チャ
ネルのBPF(帯域通過フィルタ)の中心周波数とフレ
ーム周期を、多くの時間−スペクトルパターンを観察す
ることで最適な値に設定すればよい。
3値微分オペレータを使用した例では、3×3近傍内に
は1つの音響事象しか含まれないようにする必要があ
る。そのためには、BPF群1を構成する各周波数チャ
ネルのBPF(帯域通過フィルタ)の中心周波数とフレ
ーム周期を、多くの時間−スペクトルパターンを観察す
ることで最適な値に設定すればよい。
【0028】図3に、「概(がい)」と発声した場合の
時間−スペクトルパターンから音響特徴抽出器2により
抽出された4つのAFP(音響特徴平面)、つまりRF
−AFP,AF−AFP,DF−AFP,SP−AFP
を、図2のパターンと比較し易いように1つ(の平面)
にマージして表現したパターン(merged MAFP)を
示す。この図3に示すパターンは、図2に示した元の時
間−スペクトルパターンと比べると、全体にめりはりの
あるパターンとなっていることが分かる。なお、X’
(t,f) は上記の如く正負の値をとるが、図では作図上の
都合で絶対値で表してある。
時間−スペクトルパターンから音響特徴抽出器2により
抽出された4つのAFP(音響特徴平面)、つまりRF
−AFP,AF−AFP,DF−AFP,SP−AFP
を、図2のパターンと比較し易いように1つ(の平面)
にマージして表現したパターン(merged MAFP)を
示す。この図3に示すパターンは、図2に示した元の時
間−スペクトルパターンと比べると、全体にめりはりの
あるパターンとなっていることが分かる。なお、X’
(t,f) は上記の如く正負の値をとるが、図では作図上の
都合で絶対値で表してある。
【0029】また、図4にRF−AFPパターンを、図
5にAF−AFPパターンを、図6にDF−AFPパタ
ーンを、そして図7にSP−AFPパターンを、それぞ
れ示す。
5にAF−AFPパターンを、図6にDF−AFPパタ
ーンを、そして図7にSP−AFPパターンを、それぞ
れ示す。
【0030】さて、音響特徴抽出器2からは上記したよ
うに4つの音響特徴平面(AFP)、つまりRF−AF
P,AF−AFP,DF−AFP,SP−AFPが出力
される。この4つの音響特徴平面(AFP)全体を、複
合音響特徴平面(multiple acoustic-feature planes)
と呼ぶ。複合音響特徴平面(以下、MAFPと称する)
は、元の時間−スペクトルパターン(時間−スペクトラ
ム)が各時刻(8ms単位)毎に26個のスペクトラム
パラメータから構成されていたのに対し、4倍の104
個のスペクトラムパラメータからなる。このMAFPの
概念を図8に示す。図8の例では、入力音声が「bj
a」の場合の時間−スペクトルパターンから音響特徴抽
出器2により4つのAFPパターンからなるMAFPが
抽出されている様子が示されている。
うに4つの音響特徴平面(AFP)、つまりRF−AF
P,AF−AFP,DF−AFP,SP−AFPが出力
される。この4つの音響特徴平面(AFP)全体を、複
合音響特徴平面(multiple acoustic-feature planes)
と呼ぶ。複合音響特徴平面(以下、MAFPと称する)
は、元の時間−スペクトルパターン(時間−スペクトラ
ム)が各時刻(8ms単位)毎に26個のスペクトラム
パラメータから構成されていたのに対し、4倍の104
個のスペクトラムパラメータからなる。このMAFPの
概念を図8に示す。図8の例では、入力音声が「bj
a」の場合の時間−スペクトルパターンから音響特徴抽
出器2により4つのAFPパターンからなるMAFPが
抽出されている様子が示されている。
【0031】音響特徴抽出器2から出力された4つのA
FP(RF−AFP,AF−AFP,DF−AFP,S
P−AFP)からなるMAFPのパラメータは分類器3
に導かれる。分類器3には、標準パターンが予め登録さ
れた標準パターン記憶部(標準パターン辞書)4が接続
されている。この標準パターンには、既知の音声(音
韻、単語、文節、文など)からBPF群1及び音響特徴
抽出器2(または当該BPF群1及び音響特徴抽出器2
と同様の手段)を用いて抽出された、当該音声の特徴を
表す(4つのAFPからなる)MAFPが利用される。
FP(RF−AFP,AF−AFP,DF−AFP,S
P−AFP)からなるMAFPのパラメータは分類器3
に導かれる。分類器3には、標準パターンが予め登録さ
れた標準パターン記憶部(標準パターン辞書)4が接続
されている。この標準パターンには、既知の音声(音
韻、単語、文節、文など)からBPF群1及び音響特徴
抽出器2(または当該BPF群1及び音響特徴抽出器2
と同様の手段)を用いて抽出された、当該音声の特徴を
表す(4つのAFPからなる)MAFPが利用される。
【0032】分類器3は、音響特徴抽出器2から出力さ
れたMAFPのパラメータ(特徴ベクトル)を標準パタ
ーン記憶部4に登録されている各標準パターンと比較す
ることで、最も近い標準パターンのカテゴリ(音韻、単
語、文節、文など)を認識結果として出力する。
れたMAFPのパラメータ(特徴ベクトル)を標準パタ
ーン記憶部4に登録されている各標準パターンと比較す
ることで、最も近い標準パターンのカテゴリ(音韻、単
語、文節、文など)を認識結果として出力する。
【0033】ここで、音響特徴抽出器2を構成する4つ
の空間オペレータの構成方法について説明する。まず、
図1でも示した空間オペレータ20-1〜20-4は、図9
(a)に示すように、3×3の3値微分オペレータであ
り、時間方向(t)、周波数方向(f)とも対称な係数
を持ち、且つ同時に平滑が行われるように構成されてい
た。しかし、音響特徴抽出器2を構成する4つの空間オ
ペレータの構成は、図9(a)の構成に限るものではな
い。
の空間オペレータの構成方法について説明する。まず、
図1でも示した空間オペレータ20-1〜20-4は、図9
(a)に示すように、3×3の3値微分オペレータであ
り、時間方向(t)、周波数方向(f)とも対称な係数
を持ち、且つ同時に平滑が行われるように構成されてい
た。しかし、音響特徴抽出器2を構成する4つの空間オ
ペレータの構成は、図9(a)の構成に限るものではな
い。
【0034】例えば、図9(b)に示すような3×3の
3値微分オペレータを、(空間オペレータ20-1〜20
-4に代わる)空間オペレータ21-1〜21-4として用
い、同じような3×3の3値微分オペレータでも、重み
付き平滑が行われる構成としてもよい。また、図9
(c)に示すような、前後の係数を0とする3×3の3
値微分オペレータを、(空間オペレータ20-1〜20-4
に代わる)空間オペレータ22-1〜22-4として用いる
ことで、平滑を行わない構成であっても構わない。この
他に、5×5の空間フィルタやn値(nは≧3以上の整
数)の空間オペレータを用いることも可能であり、これ
らは処理対象に応じて適宜選択して使用すればよく、要
するに2次元の空間フィルタを使用して音響特徴を抽出
すればよい。 [第2の実施形態]前記した第1の実施形態では、4つ
のAFP(音響特徴平面)を使用するため、従来の時間
−スペクトルパターン(TS)を使用する場合に比べ
て、次元数が大きくなる(ここでは、26チャネル×1
2フレーム×1TS=312→26チャネル×12フレ
ーム×4AFP=1248)。そこで、4つのAFPを
使用しながら、当該AFPを圧縮することで、分類器3
で必要な計算量と、標準パターン記憶部4で必要な記憶
容量の双方を低減するようにした第2の実施形態につい
て説明する。
3値微分オペレータを、(空間オペレータ20-1〜20
-4に代わる)空間オペレータ21-1〜21-4として用
い、同じような3×3の3値微分オペレータでも、重み
付き平滑が行われる構成としてもよい。また、図9
(c)に示すような、前後の係数を0とする3×3の3
値微分オペレータを、(空間オペレータ20-1〜20-4
に代わる)空間オペレータ22-1〜22-4として用いる
ことで、平滑を行わない構成であっても構わない。この
他に、5×5の空間フィルタやn値(nは≧3以上の整
数)の空間オペレータを用いることも可能であり、これ
らは処理対象に応じて適宜選択して使用すればよく、要
するに2次元の空間フィルタを使用して音響特徴を抽出
すればよい。 [第2の実施形態]前記した第1の実施形態では、4つ
のAFP(音響特徴平面)を使用するため、従来の時間
−スペクトルパターン(TS)を使用する場合に比べ
て、次元数が大きくなる(ここでは、26チャネル×1
2フレーム×1TS=312→26チャネル×12フレ
ーム×4AFP=1248)。そこで、4つのAFPを
使用しながら、当該AFPを圧縮することで、分類器3
で必要な計算量と、標準パターン記憶部4で必要な記憶
容量の双方を低減するようにした第2の実施形態につい
て説明する。
【0035】図10は本発明の第2の実施形態に係る音
声認識装置の全体構成を示すブロック図であり、図1と
同一部分には同一符号を付してある。図10の構成が図
1の構成と異なる点は、音響特徴抽出器2と分類器3と
の間に圧縮器5を設け、音響特徴抽出器2からMAFP
(複合音響特徴平面)の形で出力される音響特徴ベクト
ルの次元数を圧縮するようにしたことである。また、標
準パターン記憶部4には、同様の圧縮を施された標準パ
ターンが登録される。
声認識装置の全体構成を示すブロック図であり、図1と
同一部分には同一符号を付してある。図10の構成が図
1の構成と異なる点は、音響特徴抽出器2と分類器3と
の間に圧縮器5を設け、音響特徴抽出器2からMAFP
(複合音響特徴平面)の形で出力される音響特徴ベクト
ルの次元数を圧縮するようにしたことである。また、標
準パターン記憶部4には、同様の圧縮を施された標準パ
ターンが登録される。
【0036】分類器3は、圧縮器5により圧縮(再構
成)された音響特徴ベクトルを標準パターン記憶部4に
登録されている各標準パターンと比較することで、最も
近い標準パターンのカテゴリを認識結果として出力す
る。分類器3での比較の対象となる音響特徴ベクトル及
び標準パターンは次元数の圧縮処理が施されているた
め、分類器3での計算量と、標準パターン記憶部4の記
憶容量をいずれも低減できる。
成)された音響特徴ベクトルを標準パターン記憶部4に
登録されている各標準パターンと比較することで、最も
近い標準パターンのカテゴリを認識結果として出力す
る。分類器3での比較の対象となる音響特徴ベクトル及
び標準パターンは次元数の圧縮処理が施されているた
め、分類器3での計算量と、標準パターン記憶部4の記
憶容量をいずれも低減できる。
【0037】ここで、圧縮器5による圧縮機能は、周波
数チャネル数と時間方向のフレーム数を適切に再構成す
ることで簡単に実現できる。この際、対象となるMAF
Pを構成するRF−AFP,AF−AFP,DF−AF
P,SP−AFPの各AFP(音響特徴平面)毎に、そ
のAFPに写像(投影)される特徴に応じて、周波数方
向と時間方向の圧縮の仕方を変えることにより、効果的
な圧縮器5を実現できる。この例を、元の時間−スペク
トルパターン(TS)の周波数チャネル数及びフレーム
数と対比させて図11に示す。
数チャネル数と時間方向のフレーム数を適切に再構成す
ることで簡単に実現できる。この際、対象となるMAF
Pを構成するRF−AFP,AF−AFP,DF−AF
P,SP−AFPの各AFP(音響特徴平面)毎に、そ
のAFPに写像(投影)される特徴に応じて、周波数方
向と時間方向の圧縮の仕方を変えることにより、効果的
な圧縮器5を実現できる。この例を、元の時間−スペク
トルパターン(TS)の周波数チャネル数及びフレーム
数と対比させて図11に示す。
【0038】図11から明らかなように、例えば音勢力
の急激な増大もしくは減少音に対応するRF−AFPは
時間軸で高分解能(例えば12フレーム)を必要とする
ことから、時間方向には圧縮せずに、周波数方向のみを
26チャネルから6チャネルに圧縮(再構成)してい
る。この場合、次元数は26×12=312→6×12
=72に低減される。
の急激な増大もしくは減少音に対応するRF−AFPは
時間軸で高分解能(例えば12フレーム)を必要とする
ことから、時間方向には圧縮せずに、周波数方向のみを
26チャネルから6チャネルに圧縮(再構成)してい
る。この場合、次元数は26×12=312→6×12
=72に低減される。
【0039】これに対し、スペクトルピークを持つ定常
的あるいは緩やかに変化する音に対応するSP−AFP
はRF−AFPと逆であり、周波数軸(スペクトル軸)
で高分解能(例えば26チャネル)を必要とすることか
ら、周波数方向には圧縮せずに、時間方向のみを12フ
レームから3フレームに圧縮(再構成)している。この
場合、次元数は26×12=312→26×3=78に
低減される。
的あるいは緩やかに変化する音に対応するSP−AFP
はRF−AFPと逆であり、周波数軸(スペクトル軸)
で高分解能(例えば26チャネル)を必要とすることか
ら、周波数方向には圧縮せずに、時間方向のみを12フ
レームから3フレームに圧縮(再構成)している。この
場合、次元数は26×12=312→26×3=78に
低減される。
【0040】一方、AF−AFP,DF−AFPは、急
激な変化はないものの、時間方向と周波数方向の両方向
に変化することから、即ちRF−AFPとSP−AFP
の中間に位置付けられることから、RF−AFPとSP
−AFPの再構成後の次元数にほぼ等しくなるように、
周波数方向に26チャネルから13チャネルに1/2だ
け圧縮(再構成)すると共に、時間方向に12フレーム
から6フレームに1/2だけ圧縮(再構成)している。
この場合、次元数は26×12=312→13×6=7
8に低減される。
激な変化はないものの、時間方向と周波数方向の両方向
に変化することから、即ちRF−AFPとSP−AFP
の中間に位置付けられることから、RF−AFPとSP
−AFPの再構成後の次元数にほぼ等しくなるように、
周波数方向に26チャネルから13チャネルに1/2だ
け圧縮(再構成)すると共に、時間方向に12フレーム
から6フレームに1/2だけ圧縮(再構成)している。
この場合、次元数は26×12=312→13×6=7
8に低減される。
【0041】以上により、圧縮器5による圧縮(再構
成)後の4つのAFP(からなるMAFP)の次元数は
306となり、圧縮(再構成)前の次元数1248の約
1/4まで、つまり元の時間−スペクトルパターン(T
S)の次元数(312)とほぼ同レベルまで低減され、
4つのAFPを使用することによる分類器(3)での計
算量と、標準パターン記憶部(4)での記憶容量を、従
来と同レベルに抑えることができる。 [第3の実施形態]前記した第2の実施形態では、時間
軸と周波数軸(スペクトル軸)を再構成することにより
4つのAFP(音響特徴平面)を圧縮する手法を適用し
た場合について説明したが、他の圧縮手法、例えば周知
の統計的圧縮手法を適用することも可能である。そこ
で、統計的圧縮手法を適用した第3の実施形態について
説明する。
成)後の4つのAFP(からなるMAFP)の次元数は
306となり、圧縮(再構成)前の次元数1248の約
1/4まで、つまり元の時間−スペクトルパターン(T
S)の次元数(312)とほぼ同レベルまで低減され、
4つのAFPを使用することによる分類器(3)での計
算量と、標準パターン記憶部(4)での記憶容量を、従
来と同レベルに抑えることができる。 [第3の実施形態]前記した第2の実施形態では、時間
軸と周波数軸(スペクトル軸)を再構成することにより
4つのAFP(音響特徴平面)を圧縮する手法を適用し
た場合について説明したが、他の圧縮手法、例えば周知
の統計的圧縮手法を適用することも可能である。そこ
で、統計的圧縮手法を適用した第3の実施形態について
説明する。
【0042】図12は本発明の第3の実施形態に係る音
声認識装置の全体構成を示すブロック図であり、図10
と同一部分には同一符号を付してある。図12の構成が
図10の構成と異なる点は、圧縮器5に代えて統計的圧
縮手法を適用した圧縮器、例えば周知のKL変換により
次元圧縮を行うKL変換器15を設けたことである。ま
た、図12の構成では、KL変換器15によるKL変換
に必要な固有ベクトルを格納した直交展開テーブル16
も設けられている。
声認識装置の全体構成を示すブロック図であり、図10
と同一部分には同一符号を付してある。図12の構成が
図10の構成と異なる点は、圧縮器5に代えて統計的圧
縮手法を適用した圧縮器、例えば周知のKL変換により
次元圧縮を行うKL変換器15を設けたことである。ま
た、図12の構成では、KL変換器15によるKL変換
に必要な固有ベクトルを格納した直交展開テーブル16
も設けられている。
【0043】このような構成において、KL変換器15
は、音響特徴抽出器2から出力される4つのAFPから
なるMAFPの次元数をKL変換(KL展開)により圧
縮して、つまりMAFPの特徴ベクトルをKL変換によ
り縮小特徴ベクトルに置き換えて、分類器3に出力す
る。ここで、KL変換器15にて、文献 T.Nitta and
A.Kawamura,"Designing a reduced feature-vector set
for speech recognittion by using KL/GPD conpetiti
ve training",Eurospeech’97,pp.2107-2110(1987) に
記載されているようなKL/GPD競合学習を適用する
ことで、音響特徴の圧縮が特徴部分を自動調整しなが
ら、即ち特徴部分を十分に保持しながら行える。分類器
3は、KL変換器15により圧縮された特徴ベクトルを
標準パターン記憶部4に登録されている各標準パターン
と比較することで、最も近い標準パターンのカテゴリを
認識結果として出力する。 [第4の実施形態]図13は本発明の第4の実施形態に
係る音声認識装置の全体構成を示すブロック図であり、
図10及び図12と同一部分には同一符号を付してあ
る。
は、音響特徴抽出器2から出力される4つのAFPから
なるMAFPの次元数をKL変換(KL展開)により圧
縮して、つまりMAFPの特徴ベクトルをKL変換によ
り縮小特徴ベクトルに置き換えて、分類器3に出力す
る。ここで、KL変換器15にて、文献 T.Nitta and
A.Kawamura,"Designing a reduced feature-vector set
for speech recognittion by using KL/GPD conpetiti
ve training",Eurospeech’97,pp.2107-2110(1987) に
記載されているようなKL/GPD競合学習を適用する
ことで、音響特徴の圧縮が特徴部分を自動調整しなが
ら、即ち特徴部分を十分に保持しながら行える。分類器
3は、KL変換器15により圧縮された特徴ベクトルを
標準パターン記憶部4に登録されている各標準パターン
と比較することで、最も近い標準パターンのカテゴリを
認識結果として出力する。 [第4の実施形態]図13は本発明の第4の実施形態に
係る音声認識装置の全体構成を示すブロック図であり、
図10及び図12と同一部分には同一符号を付してあ
る。
【0044】図13の構成の特徴は、図10の構成で適
用された圧縮器5と図12の構成で適用されたKL変換
器15とを併用していることにある。即ち、図13の構
成においては、音響特徴抽出器2から出力される4つの
AFPを、各AFP毎の時間−周波数分解能を考慮して
圧縮器5にて再構成し、その再構成後の特徴ベクトルは
KL変換器15にて縮小特徴ベクトルに置き換えること
で、4つのAFPを効果的に圧縮するようにしている。
そして、圧縮器5及びKL変換器15を介して圧縮され
た4つのAFP(からなるMAFP)の特徴ベクトルが
分類器3に渡されて、標準パターン記憶部4内の各標準
パターンとの比較処理に供される。
用された圧縮器5と図12の構成で適用されたKL変換
器15とを併用していることにある。即ち、図13の構
成においては、音響特徴抽出器2から出力される4つの
AFPを、各AFP毎の時間−周波数分解能を考慮して
圧縮器5にて再構成し、その再構成後の特徴ベクトルは
KL変換器15にて縮小特徴ベクトルに置き換えること
で、4つのAFPを効果的に圧縮するようにしている。
そして、圧縮器5及びKL変換器15を介して圧縮され
た4つのAFP(からなるMAFP)の特徴ベクトルが
分類器3に渡されて、標準パターン記憶部4内の各標準
パターンとの比較処理に供される。
【0045】次に、本実施形態において抽出される音響
特徴である(4つのAFPからなる)MAFPを音声認
識に適用した評価実験について、図13の構成の音声認
識装置を用いて実施した場合を例に説明する。
特徴である(4つのAFPからなる)MAFPを音声認
識に適用した評価実験について、図13の構成の音声認
識装置を用いて実施した場合を例に説明する。
【0046】まず評価実験の音声試料には、連続音声か
ら切り出した2つのデータベースを用いる。1つは、5
母音と撥音の音声試料(日本語Vセットデータベース)
であり、20名(男女各10名)の計1161サンプル
からなる。もう1つは、後続母音が/i/ の子音部12種
(#i,ki,shi,chi,ni,hi,mi,ri,gi,ji,bi,pi )の音声試
料(日本語Eセットデータベース)であり、8名(男女
各4名)の計425サンプルからなる。
ら切り出した2つのデータベースを用いる。1つは、5
母音と撥音の音声試料(日本語Vセットデータベース)
であり、20名(男女各10名)の計1161サンプル
からなる。もう1つは、後続母音が/i/ の子音部12種
(#i,ki,shi,chi,ni,hi,mi,ri,gi,ji,bi,pi )の音声試
料(日本語Eセットデータベース)であり、8名(男女
各4名)の計425サンプルからなる。
【0047】評価実験は、(4つのAFPからなる)M
AFPを音声認識に適用した場合との比較のために、
(1)MAFPの他に、(2)従来から用いられている
時間−スペクトルパターン(TS)、(3)同じく従来
から用いられている時間−スペクトルパターン(TS)
と同パターンに1次元の微分オペレータ(例えば1×5
微分オペレータ)を適用することで取得されるパラメー
タ(Δt-パラメータ)との組み合わせ(TS+Δt )、
(4)4つのAFPを1つにマージしたパターン(merg
ed MAFP)、(5)MAFPと時間−スペクトルパ
ターン(TS)との組み合わせ(MAFP+TS)の各
音響特徴についても、Vセットデータベース、Eセット
データベースを用いて行った。
AFPを音声認識に適用した場合との比較のために、
(1)MAFPの他に、(2)従来から用いられている
時間−スペクトルパターン(TS)、(3)同じく従来
から用いられている時間−スペクトルパターン(TS)
と同パターンに1次元の微分オペレータ(例えば1×5
微分オペレータ)を適用することで取得されるパラメー
タ(Δt-パラメータ)との組み合わせ(TS+Δt )、
(4)4つのAFPを1つにマージしたパターン(merg
ed MAFP)、(5)MAFPと時間−スペクトルパ
ターン(TS)との組み合わせ(MAFP+TS)の各
音響特徴についても、Vセットデータベース、Eセット
データベースを用いて行った。
【0048】図14に上記(1)MAFP、(2)T
S、(3)TS+Δt 、(4)mergedMAFP、(5)
MAFP+TSの各音響特徴をVセットデータベース、
Eセットデータベースを用い、音響特徴ベクトルの次元
数(音響特徴次元数)を変化させて認識性能を評価実験
した場合の誤認識率を示す。
S、(3)TS+Δt 、(4)mergedMAFP、(5)
MAFP+TSの各音響特徴をVセットデータベース、
Eセットデータベースを用い、音響特徴ベクトルの次元
数(音響特徴次元数)を変化させて認識性能を評価実験
した場合の誤認識率を示す。
【0049】図14から明らかなように、TSは誤認識
率が比較的高く、特にVセットの誤認識率が高い。その
理由は、様々な音素環境から切り出した不明瞭な音声デ
ータ、鼻音化母音などを含むことによる。
率が比較的高く、特にVセットの誤認識率が高い。その
理由は、様々な音素環境から切り出した不明瞭な音声デ
ータ、鼻音化母音などを含むことによる。
【0050】次に、TS+Δt も誤認識率が比較的高い
が、Eセットの実験結果ではΔt-パラメータの併用が
(TSの単独使用に対して)誤認識率を改善することを
示している。一方、Vセットの性能については、Δt-パ
ラメータ定常音に対して効果がないため改善されないこ
とが分かる。
が、Eセットの実験結果ではΔt-パラメータの併用が
(TSの単独使用に対して)誤認識率を改善することを
示している。一方、Vセットの性能については、Δt-パ
ラメータ定常音に対して効果がないため改善されないこ
とが分かる。
【0051】次に、図3に一例を示したmerged MAF
Pについては、Vセット、Eセット共に誤認識率を大き
く改善する。次に、本実施形態で適用されたMAFPに
ついては、merged MAFPよりさらに大きく性能を改
善する。図14から明らかなように、濃度情報のみのT
S(TSパターン)を適用した場合と比較すると、Vセ
ット、Eセット共に誤認時率は約1/2に改善されてい
る。Eセットを例にとると、MAFPでの誤認識率は、
TSの34.5%、TS+Δt の29.6%に対して1
7%と顕著な改善を示した(特徴次元数64の場合)。
このように高い性能を実現できる理由として、MAFP
を構成する各AFPが音声の位相構造(異なる音響事象
の特徴)を分担して担う結果、MAFPが質の良い音響
特徴標識(acoustic cue、以下音響キューと称する)を
構成していることが挙げられる。
Pについては、Vセット、Eセット共に誤認識率を大き
く改善する。次に、本実施形態で適用されたMAFPに
ついては、merged MAFPよりさらに大きく性能を改
善する。図14から明らかなように、濃度情報のみのT
S(TSパターン)を適用した場合と比較すると、Vセ
ット、Eセット共に誤認時率は約1/2に改善されてい
る。Eセットを例にとると、MAFPでの誤認識率は、
TSの34.5%、TS+Δt の29.6%に対して1
7%と顕著な改善を示した(特徴次元数64の場合)。
このように高い性能を実現できる理由として、MAFP
を構成する各AFPが音声の位相構造(異なる音響事象
の特徴)を分担して担う結果、MAFPが質の良い音響
特徴標識(acoustic cue、以下音響キューと称する)を
構成していることが挙げられる。
【0052】ところで、音響特徴(Δt-パラメータ、me
rged MAFP、MAFPなど)に元の濃度情報である
TSパターンを加えた場合、加える前の特徴が音響キュ
ーを表現する能力に欠けているならば、誤認識率は改善
されることが予測される。しかし、図14に示したMA
FP+TSでの誤認識率は、MAFPの単独使用の場合
と同等である。つまり、MAFPは質の良い音響特徴を
構成しており、TSパターンなしでも音韻情報を十分に
保持していることが分かる。逆に図14の結果では、M
AFP+TSでの誤認識率は、TSの影響で、MAFP
単独の場合に比べて僅かに増加する傾向にある。
rged MAFP、MAFPなど)に元の濃度情報である
TSパターンを加えた場合、加える前の特徴が音響キュ
ーを表現する能力に欠けているならば、誤認識率は改善
されることが予測される。しかし、図14に示したMA
FP+TSでの誤認識率は、MAFPの単独使用の場合
と同等である。つまり、MAFPは質の良い音響特徴を
構成しており、TSパターンなしでも音韻情報を十分に
保持していることが分かる。逆に図14の結果では、M
AFP+TSでの誤認識率は、TSの影響で、MAFP
単独の場合に比べて僅かに増加する傾向にある。
【0053】なお、以上の実施形態で述べた音響特徴抽
出器2による音響特徴平面(AFP)抽出処理、圧縮器
5あるいはKL変換器15による音響特徴平面(の特徴
次元数)の圧縮処理、さらには分類器3による入力音声
の認識(識別)処理は、マイクロホンを含む音声入力手
段、及びBPF群1に相当する周波数分析手段を内蔵し
たプログラム読み取り可能なコンピュータ、例えば図1
5に示すようなパーソナルコンピュータ150に、当該
処理を実行させるためのプログラムを記録した記録媒
体、例えばCD−ROM151を装着して、当該CD−
ROM151に記録されているプログラムをパーソナル
コンピュータ150で読み取り実行させることによって
も実現される。なお、プログラムを記録した記録媒体と
しては、CD−ROM151の他に、フロッピーディス
ク、メモリカード等が利用可能である。また、プログラ
ムを記録した記録媒体の内容が、通信回線等を介してパ
ーソナルコンピュータ151にダウンロードされるもの
であっても構わない。
出器2による音響特徴平面(AFP)抽出処理、圧縮器
5あるいはKL変換器15による音響特徴平面(の特徴
次元数)の圧縮処理、さらには分類器3による入力音声
の認識(識別)処理は、マイクロホンを含む音声入力手
段、及びBPF群1に相当する周波数分析手段を内蔵し
たプログラム読み取り可能なコンピュータ、例えば図1
5に示すようなパーソナルコンピュータ150に、当該
処理を実行させるためのプログラムを記録した記録媒
体、例えばCD−ROM151を装着して、当該CD−
ROM151に記録されているプログラムをパーソナル
コンピュータ150で読み取り実行させることによって
も実現される。なお、プログラムを記録した記録媒体と
しては、CD−ROM151の他に、フロッピーディス
ク、メモリカード等が利用可能である。また、プログラ
ムを記録した記録媒体の内容が、通信回線等を介してパ
ーソナルコンピュータ151にダウンロードされるもの
であっても構わない。
【0054】
【発明の効果】以上詳述したように本発明によれば、時
間−スペクトルパターンから所定のそれぞれ異なる音響
事象を投影した複数の音響特徴平面を抽出するようにし
たので、従来のように時間−スペクトルパターン、ある
いは時間−スペクトルパターンと動的特徴との組み合わ
せに比べて頑健な音響特徴を取得できる。この結果、音
声認識、話者認識、あるいは音響信号に基づくモデル同
定などの性能を飛躍的に向上させることが可能となる。
間−スペクトルパターンから所定のそれぞれ異なる音響
事象を投影した複数の音響特徴平面を抽出するようにし
たので、従来のように時間−スペクトルパターン、ある
いは時間−スペクトルパターンと動的特徴との組み合わ
せに比べて頑健な音響特徴を取得できる。この結果、音
声認識、話者認識、あるいは音響信号に基づくモデル同
定などの性能を飛躍的に向上させることが可能となる。
【0055】また本発明によれば、時間−スペクトルパ
ターンから所定のそれぞれ異なる音響事象を投影した複
数の音響特徴平面を抽出するのに、当該時間−スペクト
ルパターンに方向の異なる複数の空間オペレータを適用
するようにしたので、対象とする音響事象の変化を高精
度で検知して音響特徴平面に効果的に投影することがで
きる。
ターンから所定のそれぞれ異なる音響事象を投影した複
数の音響特徴平面を抽出するのに、当該時間−スペクト
ルパターンに方向の異なる複数の空間オペレータを適用
するようにしたので、対象とする音響事象の変化を高精
度で検知して音響特徴平面に効果的に投影することがで
きる。
【0056】また本発明によれば、時間−スペクトルパ
ターンから抽出した複数の音響特徴平面を、時間軸と周
波数軸を再構成する手法、あるいは統計的手法の少なく
とも一方により圧縮して特徴次元数を低減するようにし
たので、複数の音響特徴平面利用による計算量及び記憶
容量の増加を抑えることができる。
ターンから抽出した複数の音響特徴平面を、時間軸と周
波数軸を再構成する手法、あるいは統計的手法の少なく
とも一方により圧縮して特徴次元数を低減するようにし
たので、複数の音響特徴平面利用による計算量及び記憶
容量の増加を抑えることができる。
【図1】本発明の第1の実施形態に係る音声認識装置の
全体構成を示すブロック図。
全体構成を示すブロック図。
【図2】時間−スペクトルパターンの一例を示す図。
【図3】図2の時間−スペクトルパターンから抽出され
た4つの音響特徴平面(AFP)を1つにマージしたパ
ターン(merged MAFP)を示す図。
た4つの音響特徴平面(AFP)を1つにマージしたパ
ターン(merged MAFP)を示す図。
【図4】図2の時間−スペクトルパターンから抽出され
た音響特徴平面の1つであるRF−AFPパターンを示
す図。
た音響特徴平面の1つであるRF−AFPパターンを示
す図。
【図5】図2の時間−スペクトルパターンから抽出され
た音響特徴平面の1つであるAF−AFPパターンを示
す図。
た音響特徴平面の1つであるAF−AFPパターンを示
す図。
【図6】図2の時間−スペクトルパターンから抽出され
た音響特徴平面の1つであるDF−AFPパターンを示
す図。
た音響特徴平面の1つであるDF−AFPパターンを示
す図。
【図7】図2の時間−スペクトルパターンから抽出され
た音響特徴平面の1つであるSP−AFPパターンを示
す図。
た音響特徴平面の1つであるSP−AFPパターンを示
す図。
【図8】時間−スペクトルパターンから抽出される4つ
の音響特徴平面(AFP)からなる複合音響特徴平面
(MAFP)の概念を示す図。
の音響特徴平面(AFP)からなる複合音響特徴平面
(MAFP)の概念を示す図。
【図9】音響特徴抽出器2に適用される4つの空間オペ
レータの構成方法を説明するための図。
レータの構成方法を説明するための図。
【図10】本発明の第2の実施形態に係る音声認識装置
の全体構成を示すブロック図。
の全体構成を示すブロック図。
【図11】時間軸と周波数軸を再構成することにより実
現される特徴次元数圧縮手法を説明するための図。
現される特徴次元数圧縮手法を説明するための図。
【図12】本発明の第3の実施形態に係る音声認識装置
の全体構成を示すブロック図。
の全体構成を示すブロック図。
【図13】本発明の第4の実施形態に係る音声認識装置
の全体構成を示すブロック図。
の全体構成を示すブロック図。
【図14】同実施形態における複合音響特徴平面(MA
FP)適用時の認識性能の評価実験結果を、他の音響特
徴を適用した場合と対比させて示す図。
FP)適用時の認識性能の評価実験結果を、他の音響特
徴を適用した場合と対比させて示す図。
【図15】音響特徴平面抽出機能等を実現するためのプ
ログラムの読み取り実行が可能なパーソナルコンピュー
タの外観を示す図。
ログラムの読み取り実行が可能なパーソナルコンピュー
タの外観を示す図。
1…BPF群(周波数分析手段) 2…音響特徴抽出器 3…分類器(識別手段) 4…標準パターン記憶部 5…圧縮器(圧縮手段) 15…KL変換器(圧縮手段) 20-1〜20-4,21-1〜21-4,22-1〜22-4…空
間オペレータ 150…パーソナルコンピュータ 151…CD−ROM(記録媒体)
間オペレータ 150…パーソナルコンピュータ 151…CD−ROM(記録媒体)
Claims (9)
- 【請求項1】 入力された音響信号を時間−スペクトル
パターンに変換し、 前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用することにより、所定のそれぞれ異
なる音響事象を投影した複数の音響特徴平面を抽出する
ことを特徴とする音響特徴抽出方法。 - 【請求項2】 入力された音響信号を時間−スペクトル
パターンに変換し、 前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用して得られる正負の値をペアとして
使用することにより、所定のそれぞれ異なる音響事象を
投影した複数の音響特徴平面を抽出することを特徴とす
る音響特徴抽出方法。 - 【請求項3】 前記抽出した複数の音響特徴平面を圧縮
することを特徴とする請求項1または請求項2に記載の
音響特徴抽出方法。 - 【請求項4】 前記抽出した複数の音響特徴平面を時間
軸と周波数軸を再構成することにより圧縮することを特
徴とする請求項3記載の音響特徴抽出方法。 - 【請求項5】 前記抽出した複数の音響特徴平面を統計
的圧縮手法により圧縮することを特徴とする請求項3記
載の音響特徴抽出方法。 - 【請求項6】 前記抽出した複数の音響特徴平面を時間
軸と周波数軸を再構成することにより圧縮し、当該圧縮
された音響特徴平面を統計的圧縮手法によりさらに圧縮
することを特徴とする請求項3記載の音響特徴抽出方
法。 - 【請求項7】 入力された音響信号を時間−スペクトル
パターンに変換するステップと、 前記時間−スペクトルパターンに方向の異なる複数の空
間オペレータを適用することにより、所定のそれぞれ異
なる音響事象を投影した複数の音響特徴平面を抽出する
ステップとをコンピュータに実行させるプログラムを記
録したコンピュータ読み取り可能な記録媒体。 - 【請求項8】 入力された音響信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、 前記周波数分析手段により変換された時間−スペクトル
パターンに方向の異なる複数の空間オペレータを適用す
ることにより、所定のそれぞれ異なる音響事象を投影し
た複数の音響特徴平面を抽出する音響特徴抽出手段とを
具備することを特徴とする音響特徴抽出装置。 - 【請求項9】 入力された音声信号を周波数分析するこ
とで時間−スペクトルパターンに変換する周波数分析手
段と、 前記周波数分析手段により変換された時間−スペクトル
パターンに方向の異なる複数の空間オペレータを適用す
ることにより、所定のそれぞれ異なる音響事象を投影し
た複数の音響特徴平面を抽出する音響特徴抽出手段と、 前記音響特徴抽出手段により抽出された複数の音響特徴
平面を予め登録されている標準パターンと比較すること
で、入力音声に対する認識結果を取得する識別手段とを
具備することを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10053462A JPH11249681A (ja) | 1998-03-05 | 1998-03-05 | 音響特徴抽出方法及び同方法を適用した音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10053462A JPH11249681A (ja) | 1998-03-05 | 1998-03-05 | 音響特徴抽出方法及び同方法を適用した音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11249681A true JPH11249681A (ja) | 1999-09-17 |
Family
ID=12943536
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10053462A Pending JPH11249681A (ja) | 1998-03-05 | 1998-03-05 | 音響特徴抽出方法及び同方法を適用した音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11249681A (ja) |
-
1998
- 1998-03-05 JP JP10053462A patent/JPH11249681A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1393300B1 (en) | Segmenting audio signals into auditory events | |
| US8488800B2 (en) | Segmenting audio signals into auditory events | |
| AU2002252143A1 (en) | Segmenting audio signals into auditory events | |
| JPS5972496A (ja) | 単音識別装置 | |
| JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
| JPS6128998B2 (ja) | ||
| Shahzadi et al. | Recognition of emotion in speech using spectral patterns | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| JPH11249681A (ja) | 音響特徴抽出方法及び同方法を適用した音声認識装置 | |
| JPH04324499A (ja) | 音声認識装置 | |
| JP3012994B2 (ja) | 音韻識別方法 | |
| JP2658426B2 (ja) | 音声認識方法 | |
| JP2000250599A (ja) | 音響特徴抽出方法及び装置 | |
| Biswas et al. | Audio visual isolated Hindi digits recognition using HMM | |
| JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
| JPH03120434A (ja) | 音声認識装置 | |
| JPH1165589A (ja) | 音声認識装置 | |
| JP2602271B2 (ja) | 連続音声中の子音識別方式 | |
| JPS5958498A (ja) | 音声認識装置 | |
| JPS6059394A (ja) | 音声認識装置 | |
| JPS63292199A (ja) | 音声認識装置 | |
| JPH02193200A (ja) | 音声認識装置 | |
| JPS61177498A (ja) | 子音のセグメンテ−シヨン法 | |
| JPS60202489A (ja) | 音声認識方法 | |
| JPS6237797B2 (ja) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051226 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060110 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060308 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060411 |