JP2003177781A - 音響モデル生成装置及び音声認識装置 - Google Patents

音響モデル生成装置及び音声認識装置

Info

Publication number
JP2003177781A
JP2003177781A JP2001378546A JP2001378546A JP2003177781A JP 2003177781 A JP2003177781 A JP 2003177781A JP 2001378546 A JP2001378546 A JP 2001378546A JP 2001378546 A JP2001378546 A JP 2001378546A JP 2003177781 A JP2003177781 A JP 2003177781A
Authority
JP
Japan
Prior art keywords
noise
model
hmm
gaussian mixture
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001378546A
Other languages
English (en)
Inventor
Masaki Ida
政樹 伊田
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2001378546A priority Critical patent/JP2003177781A/ja
Publication of JP2003177781A publication Critical patent/JP2003177781A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力音声のSN比が既知であるという制約に
拘束されない音響モデルを提供する。 【解決手段】 ガウス混合モデル生成部11はデータベ
ースメモリ21に格納された学習用の複数の種類の環境
雑音の波形信号データに基づいて出力尤度が最大となる
ように1状態で複数混合のガウス混合モデルを生成し、
HMM合成部13は所定の雑音のない音声HMMと生成
された雑音ガウス混合モデルからこれらの各状態の全て
の組み合わせの状態において所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含みかつ雑音のない音声HMMと生成さ
れた雑音ガウス混合モデルの間の複数のSN比に対応す
る複数の適応化されたHMMを生成し、生成された複数
の適応化されたHMMを並置しマルチパス形式の音響モ
デルを生成する。音声認識部4は抽出された特徴量に基
づき上記適応化された音響モデルを用いて発話音声信号
の音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置のた
めの音響モデル生成装置及び音声認識装置に関する。
【0002】
【従来の技術】音声認識システムの実環境下での使用を
考えたとき、周囲の環境音が存在するために認識性能の
低下が避けられない。そこで、周囲の環境音の混入に対
してロバストな音響モデルが必要になる。環境音の混入
にロバストな音響モデルの生成法としては、認識時の環
境音そのものを用いることはできないので、予め混入環
境音を予測して適応化を行う方法が用いられる。ところ
が、混入環境音の予測は変動成分を含むため、困難であ
ることが多い。
【0003】従来技術における音響モデルの適応化の方
法としては次の2つに大別される。一方は、システム設
計時に認識時の環境音を想定した音響モデルを作成する
方法である。すなわち、例えば、既知の雑音の波形デー
タベースに基づいて、学習用雑音隠れマルコフモデル
(以下、隠れマルコフモデルをHMMという。)を生成
した後、これを用いて、雑音のない音声HMMを学習す
ることにより適応化されたHMMを生成し、これを音声
認識装置に用いることができる(以下、第1の従来例と
いう。)。
【0004】これに対してもう一方は、認識時の環境音
データによって随時音響モデルの適応する方式である。
認識時の環境音そのものを適応化に用いることはできな
いので、一般に音声入力の直前の比較的少量の環境音が
用いられる(以下、第2の従来例という。)。
【0005】第1の従来例の方法によれば、想定した範
囲内の環境音の混入に対しては強いロバスト性を示す。
しかしながら、未知の雑音に対しては対応できず、頑強
性に欠けるという問題点があり、さまざまな環境音の混
入を想定した場合、すべての音声と環境音の組合わせに
ついて考慮する必要があるため、コスト面において現実
的ではない。すなわち、既知の雑音の種類を多くした場
合、適応化されたHMMの計算量が多大になるという問
題点があった。
【0006】第2の従来例の方法においては、少量のデ
ータから認識中のあらゆる環境音を予測することは非常
に困難であり、想定外の環境音の混入には対応できな
い。
【0007】前者は混入する環境音がすべて既知である
という条件、後者は混入する環境音の特徴は不変である
という制約条件が存在する。一般に実使用においては環
境音は変動する成分を含んでいるため、上記の制約条件
が満たされるとは限らない。
【0008】以上の問題点を解決するために、本発明者
らは、特願2000−283516号の特許出願におい
て、「学習用の複数の種類の環境雑音の波形信号データ
に基づいて、出力尤度が最大となるように、1状態で複
数混合のガウス混合モデルを生成し、所定の雑音のない
音声HMMと、上記生成された雑音ガウス混合モデル
(GMM)とを、これらの各状態のすべての組み合わせ
の状態において、所定の重み係数で重み付けされた各ガ
ウス分布の線形結合の和で表した各状態の混合ガウス分
布を含む適応化されたHMMを生成することにより合成
する音響モデル生成装置」(以下、第3の従来例とい
う。)を提案している。
【0009】この第3の従来例において用いたHMM合
成法は、事前に雑音のない音声を用いて学習を行った音
素の音響モデルと、環境雑音のモデルとを合成すること
で、モデル化された環境雑音に適応した音響モデルを作
成する方法である。ここで、加法性の雑音のみを仮定す
る。観測される入力音声のパワースペクトルをYとし、
これを環境雑音のパワースペクトルNと雑音のないクリ
ーンな音声のパワースペクトルSで表し、ここで、各パ
ラメータにおける線形スペクトル領域の量を、それらの
記号に下付き「linspc」を付して表す。環境雑音
の加法性は線形スペクトル領域において次式のごとく成
立する。
【0010】
【数1】 Ylinspc=Slinspc+Nlinspc
【0011】一方、音響モデルは一般的にスペクトルに
より特徴抽出されているので、次式となる。
【0012】
【数2】Ycep=Γ−1・log[exp{Γ(S
cep)}+k・exp{Γ(Ncep)}]
【0013】ここで、Γはフーリエ変換の演算子であ
り、Γ−1はフーリエ逆変換の演算子であり、kは信号
対雑音電力比(以下、SN比という。)に応じて決定す
る係数である。上記数2をHMMに適応した場合、合成
HMMの構造は図5に示すように各HMMの直積で表さ
れる。遷移確率は対応する遷移確率の積で求められ、出
力確率分布は各状態において結合される。
【0014】
【発明が解決しようとする課題】しかしながら、第3の
従来例に係る音響モデル生成装置で生成された音響モデ
ルを用いて音声認識した場合であっても、いまだ音声認
識率は低いという問題点があった。
【0015】また、第3の従来例で用いるHMM合成法
においては、上記数2に示す通り、入力音声のSN比が
既知であるという制約がある。もしこの制約を除去でき
れば、SN比に関して自由度が高く、種々のSN比に対
して対応可能な音響モデルを生成することができる。
【0016】本発明の目的は以上の諸問題点を解決し、
未知雑音の混入に対して頑強であって音響モデルの計算
量を増大させることなく、第3の従来例に比較して高い
音声認識率を得ることができる音響モデルを生成する音
響モデル生成装置、及び、当該音響モデル生成装置を用
いた音声認識装置を提供することにある。
【0017】また、本発明の目的は以上の問題点を解決
し、入力音声のSN比が既知であるという制約に拘束さ
れない音響モデルを生成する音響モデル生成装置、及
び、当該音響モデル生成装置を用いた音声認識装置を提
供することにある。
【0018】
【課題を解決するための手段】本願の第1の発明に係る
音響モデル生成装置は、学習用の複数の種類の環境雑音
の波形信号データを格納する記憶手段と、上記記憶手段
に格納された学習用の複数の種類の環境雑音の波形信号
データから、出力尤度が最大となるように、1状態で複
数混合のガウス混合モデルを生成する生成手段と、所定
の雑音のない音声HMMと、上記生成手段により生成さ
れた雑音ガウス混合モデルとから、これらの各状態のす
べての組み合わせの状態において、所定の重み係数で重
み付けされた各ガウス分布の線形結合の和で表した各状
態の混合ガウス分布を含み、かつ上記雑音のない音声H
MMと上記生成された雑音ガウス混合モデルの間の複数
の信号対雑音比に対応する複数の適応化されたHMMを
生成し、生成された複数の適応化されたHMMを並置し
てマルチパス形式となるように合成してなる音響モデル
を生成する合成手段とを備えたことを特徴とする。
【0019】また、本願の第2の発明に係る音響モデル
生成装置は、学習用の複数の種類の環境雑音の波形信号
データを格納する記憶手段と、上記記憶手段に格納され
た学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、1状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声HMMと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、かつ、音声認識時の環境雑音データ
に基づいて上記雑音ガウス混合モデルの混合重みを適応
化されたHMMにてなる音響モデルを生成する合成手段
とを備えたことを特徴とする。
【0020】さらに、本願の第3の発明に係る音響モデ
ル生成装置は、学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納さ
れた学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、1状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声HMMと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、音声認識時の環境雑音データに基づ
いて上記雑音ガウス混合モデルの混合重みを適応化さ
れ、かつ上記雑音のない音声HMMと上記生成された雑
音ガウス混合モデルの間の複数の信号対雑音比に対応す
る複数の適応化されたHMMを生成し、生成された複数
の適応化されたHMMを並置してマルチパス形式となる
ように合成してなる音響モデルを生成する合成手段とを
備えたことを特徴とする。
【0021】またさらに、本願の第4の発明に係る音声
認識装置は、自然発話文の発話音声信号に基づいてその
特徴量を抽出する抽出手段と、上記抽出された特徴量に
基づいて、請求項1乃至3のうちのいずれか1つに記載
の音響モデル生成装置により生成された音響モデルを用
いて上記発話音声信号の音声認識を行って音声認識結果
を出力する音声認識手段とを備えたことを特徴とする。
【0022】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0023】<第1の実施形態>図1は、本発明に係る
第1の実施形態であるHMMモデル生成装置100a及
び音声認識装置200の構成を示すブロック図である。
この実施形態に係るHMMモデル生成装置100aは、
複数の種類の環境音の雑音波形を含む学習用環境雑音波
形データベースを用いて雑音ガウス混合モデルを生成す
るガウス混合モデル生成部11と、生成された雑音ガウ
ス混合モデルを用いて、雑音のない音声HMMを、公知
のHMM合成法により学習し、かつ上記雑音のない音声
HMMと上記生成された雑音ガウス混合モデルの間の複
数のSN比に対応する複数の適応化されたHMMを生成
し、生成された複数の適応化されたHMMを並置してマ
ルチパス形式となるように合成してなるHMMの音響モ
デルを生成するHMMマルチパス合成部13aとを主構
成要素として備える。具体的には、本実施形態では、環
境変動にロバストな音声モデルを少ない計算量で構築す
る方法であって、未知の環境音が混入した場合のロバス
ト性を高めるため、予めさまざまな環境音が混入すると
想定し、複数の種類の環境音を適応データとして与えた
HMM合成による環境適応化を行い、ここで、環境音を
HMMとして独立に学習し、公知のHMM合成法(例え
ば、従来技術文献1「F. Martin et al.,”Recognition
of Noisy Speech by Composition of Hidden Markov M
odels”,電子情報通信学会技術報告, SP92-96, pp.9-1
6, 1992」、従来技術文献2「南泰浩ほか,“HMM合
成に基づく尤度最大化適応法”,電子情報通信学会技術
報告,SP95−24,1995年6月」など参照。)
によってすべての音声モデルに複数の種類の環境音の影
響を適応化させている。
【0024】従来技術における上述の問題点を解決する
ために、本実施形態で用いる手法は、未知の環境音が混
入した場合のロバスト性を高めるため、予めさまざまな
環境音が混入すると想定した環境適応化を行う。さまざ
まな環境音を雑音ガウス混合モデルとして独立に学習
し、HMM合成によってすべての音声モデルに複数の種
類の環境音の影響を適応化させることにより環境変動に
ロバストな音声モデルを少ない計算量で構築することが
可能になる。
【0025】また、第3の従来例におけるHMM合成法
においては、上記数2に示す通り、入力音声のSN比が
既知であるという制約がある。この問題の解決のため、
複数のSN比に対応した適応化HMMを並列に構築する
手法を用いる。この手法の説明図を図6に示す。この手
法では、雑音モデルを合成する際に、入力音声として予
測される範囲内のいくつかのSN比に対応した複数の合
成HMM(SN比別マルチパスモデル)を得る(本実施
形態では、SN比=10,15,20dBであり、この
手法を、以下「HMMマルチパス合成法」という。)。
音声認識の際、入力音声のSN比はわからないので、こ
れら各合成HMMを1つのモデルとして取り扱う。すな
わち、各モデルに複数のSN比のパスを定義し、デコー
ドする際に最も尤度の高い経路を選択させるように構成
する。
【0026】図1において、雑音のない音声波形データ
ベースメモリ31は、例えば複数の話者の大規模な音素
ラベル付き音声波形信号(雑音がなくクリーンであ
る。)のデータベースを格納しており、また、HMM生
成部12は、当該データベースに基づいて公知のEM
(Expectation-Maximization)アルゴリズムを用いて、
出力尤度が最大となるように、雑音のない音声HMMを
生成して雑音のない音声HMMメモリ32に出力して格
納する。一方、学習用環境雑音波形データベースメモリ
21は、例えば電子協騒音データベース(例えば、従来
技術文献3「電子協騒音データベース,(社)日本電子
工業振興協会,http://www.jeida.or.jp/committee/hum
anmed/speech/noisedbj.html」など参照。)に格納され
た、学習用の複数の種類の環境雑音の波形信号のデータ
を格納していて、このデータベースメモリ21に格納さ
れた学習用の複数の種類の環境雑音の波形信号のデータ
に基づいて、ガウス混合モデル生成部11は、公知のE
Mアルゴリズムを用いて、出力尤度が最大となるよう
に、1状態で複数混合の雑音ガウス混合モデルを生成し
て雑音ガウス混合モデルメモリ22に出力して格納す
る。さらに、HMMマルチパス合成部13aは、音声H
MMメモリ32に格納された雑音のない音声HMMと、
モデルメモリ22に格納された雑音ガウス混合モデルと
から、公知のHMM合成法を用いて、適応化されたHM
Mであって、上記雑音のない音声HMMと上記生成され
た雑音ガウス混合モデルの間の複数の信号対雑音比に対
応する複数の適応化されたHMMを生成し、生成された
複数の適応化されたHMMを並置してマルチパス形式と
なるように合成してなる、適応化されたHMMを生成し
て適応化されたHMMメモリ23に出力して格納する。
【0027】本実施形態のHMMマルチパス合成部13
aで用いるHMM合成法とは、雑音の存在しないクリー
ンな環境で学習された音声HMMと環境音の特徴を学習
した雑音ガウス混合モデルとを合成して、環境音の混入
した音声に対するHMMを作成する方法である。このH
MM合成法では、従来技術文献2の図2に図示されるよ
うに、ケプストラム領域にある音声と雑音の各ガウス分
布をそれぞれコサイン変換することにより、対数スペク
トル領域の音声と雑音の各ガウス分布に変換した後、さ
らに、指数変換することにより線形スペクトル領域の音
声と雑音の対数ガウス分布に変換する。ここで、指数変
換後の線形スペクトル領域の音声と雑音の対数ガウス分
布を互いに重み係数付け加算することにより、線形スペ
クトル領域における雑音が重畳した音声の対数ガウス分
布を生成する。さらに、生成した雑音が重畳した音声の
対数ガウス分布を対数変換して、対数スペクトル領域に
おける雑音が重畳した音声のガウス分布に変換した後、
さらに逆コサイン変換することによりケプストラム領域
における雑音が重畳した音声のガウス分布を得る。以上
がHMM合成法での出力確率の合成法である。
【0028】雑音ガウス混合モデルの状態は、環境音の
多様性を表現するために出力確率分布を混合ガウス分布
で表す。このときの合成後のHMMの出力確率分布は、
ケプストラム領域における音声HMMの混合分布と雑音
ガウス混合モデルの混合分布の和で表される。すなわ
ち、混合分布を構成する各ガウス分布は、音声HMMの
各状態と、雑音ガウス混合モデルの状態とのガウス分布
におけるすべての組合わせの和で表現され、混合の重み
係数は各重み係数の積で表現される。
【0029】上述のように、音声HMMと雑音ガウス混
合モデルとの合成を行うときに、各出力分布が混合ガウ
ス分布で表現されているとき、合成後の出力分布はそれ
ぞれの混合要素のすべての組合わせになる。合成後の各
要素の平均及び分散は元の混合要素の和になる。合成後
の各要素の混合重み係数は、元の混合重み係数の積で表
される。図7は音声HMM及び雑音ガウス混合モデルと
もに2混合の出力分布で表現されているときの、HMM
合成後の出力確率分布の導出を示している。なお、図7
において、N(・)は各ガウス分布の平均及び分散を示
す。音声HMMの第1状態の出力確率分布がガウス分布
11,S12の重み係数付き和であり、雑音ガウス混合モ
デルの出力確率分布がN1,N2の重み係数つき和であ
り、すなわち、所定の重み係数で重み付けされたガウス
分布の線形結合の和である。それぞれの重み係数はw
s11,ws12,wn1,wn2とする。このとき、合成後の
適応化されたの第1状態の出力分布は、S11+N1,S
12+N1,S11+N2,S12+N2の4つのガウス分布の
重み係数付き和になる。さらに、同様にして、雑音ガウ
ス混合モデルの状態と、音声HMMの第2の状態との組
み合わせにおけるHMM合成、並びに、雑音ガウス混合
モデルの状態と、音声HMMの第3の状態との組み合わ
せにおけるHMM合成を行う。
【0030】従って、HMMマルチパス合成部13a
は、音声HMMメモリ32に格納されている雑音のない
音声HMMと、モデルメモリ22に格納されている雑音
ガウス混合モデルとを、公知のHMM合成法を用いて、
これらの各状態のすべての組み合わせの状態において、
所定の重み係数で重み付けされた各ガウス分布の線形結
合の和で表した各状態の混合ガウス分布を含む適応化さ
れたHMMであって、上記雑音のない音声HMMと上記
生成された雑音ガウス混合モデルの間の複数の信号対雑
音比に対応する複数の適応化されたHMMを生成し、生
成された複数の適応化されたHMMを並置してマルチパ
ス形式となるように合成してなる、適応化されたHMM
を生成して適応化されたHMMメモリ23に出力して格
納する。
【0031】図1において、音声認識装置200は、マ
イクロホン1と、A/D変換器2と、特徴抽出部3と、
音声認識部4とを備えて構成される。自然発話文の発生
音声はマイクロホン1に入力されて発声音声信号に変換
された後、A/D変換器2により所定のサンプリング周
波数で音声ディジタルデータ信号にA/D変換される。
次いで、特徴抽出部3は、入力される音声ディジタルデ
ータ信号に基づいて、例えばLPC分析することによ
り、例えば、12次のメルケプストラム係数と、12次
のΔメルケプストラム係数と、パワーと、Δパワーとを
含む特徴ベクトルを抽出して音声認識部4に出力する。
さらに、音声認識部4は、HMMメモリ23に格納され
た適応化されたHMMを用いて音素の尤度を計算すると
ともに、単語HMMメモリ5に予め格納されている所定
の音素ベースの単語HMMを用いて単語の尤度を計算し
て、出力尤度が最大となる音素からなる単語を決定する
ことにより音声認識処理を行い、音声認識結果の最尤単
語の文字列を生成して出力する。
【0032】<第2の実施形態>図2は、本発明に係る
第2の実施形態であるHMMモデル生成装置100b、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図2において図1と同一の構
成要素については同一の符号を付しており、それらの詳
細説明を省略する。この第2の実施形態は、図1に図示
された第1の実施形態に比較して、以下の相違点を有す
る。 (1)HMMモデル生成装置100bは、HMMモデル
生成装置100aに比較して、HMMマルチパス合成部
13aに代えて、第3の従来例に係るHMM合成部13
を備えるとともに、雑音ガウス混合モデルメモリ22と
HMM合成部13との間に混合重み適応化部14を備え
る。 (2)環境雑音測定装置300とそれに接続された環境
雑音メモリ310とをさらに備える。以下、これら相違
点について詳細に説明する。
【0033】実環境下で音声認識装置200を使用する
場合において、周囲の環境に依存した環境雑音がマイク
ロホン1に混入することは避けられない。混入する雑音
の多くは予測することが難しく、変動する雑音の混入に
対してロバストな音響モデルが求められている。本実施
形態では、この問題点に対して、雑音データベースによ
り構築した環境雑音モデルの適応化を組み込んだHMM
合成法を用いる。従来においては、環境音のモデルの生
成に使用環境の実雑音を用いた学習を行っているが、実
用上の制約から取得できる実雑音のデータ量は限られて
いるので、少量のデータから得られる環境雑音モデルは
変動に対して弱いという問題点があった。そこで、本実
施形態では、初期環境雑音モデルを雑音データベースを
用いて用意しておき、少量の実雑音データで適応化を行
う。
【0034】本実施形態では、音声認識時の環境雑音が
発生音声に仮想的な加算器6により加算されてマイクロ
ホン1に入力されることを仮定している。一方、本実施
形態では、発生音声が無いときの環境雑音を環境雑音測
定装置300に入力し、当該環境雑音測定装置300
は、入力される環境雑音をマイクロホンにより電気信号
に変換し、かつA/D変換器によりA/D変換すること
により、環境雑音のディジタルデータを得て、環境雑音
メモリ310に格納する。この環境雑音のディジタルデ
ータは、例えば1秒である短時間で少量の適応化用学習
データである。
【0035】混合重み適応化部14は、雑音ガウス混合
モデルメモリ22に格納された1状態で複数混合の雑音
ガウス混合モデルにおける混合重みを、環境雑音メモリ
310に格納された環境雑音のディジタルデータに基づ
いて、例えば公知の最大事後確率推定法(以下、MAP
推定法という。例えば、従来技術文献4「中川聖一,
“確率モデルによる音声認識”,電子情報通信学会,p
p.152−155,昭和63年7月1日初版発行」参
照。)を用いて、尤度の一例である最大事後確率が最大
となるように適応化を行い、適応化された雑音ガウス混
合モデルをHMM合成部13に出力する。ここで、適応
化を雑音ガウス混合モデルの重み係数に限定しているの
で、適応化を行った上でHMM合成したモデルと初期合
成したHMMの間で、各確率分布の分散や平均が変化す
ることはない。したがって、適応化で得た重み係数を初
期合成HMMに対応づけることで適応化HMMを得るこ
とができる。次いで、HMM合成部13は、音声HMM
メモリ32に格納された雑音のない音声HMMと、混合
重み適応化部14から出力される雑音ガウス混合モデル
とを、公知のHMM合成法を用いて合成し、当該合成さ
れ、適応化されたHMMを生成して適応化されたHMM
メモリ23に出力して格納する。
【0036】以上のように構成された実施形態において
は、雑音ガウス混合モデルの混合重みが音声認識時の少
量の環境雑音データに基づいて適応化されているので、
環境雑音モデルの生成に要する実雑音データ量を大幅に
削減することができ、同時に雑音変動に対するロバスト
性を頑強にできる。
【0037】<第3の実施形態>図3は、本発明に係る
第3の実施形態であるHMMモデル生成装置100c、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図3において図1及び図2と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第3の実施形態は、図
2に図示された第2の実施形態に比較して、「混合重み
適応化部14とHMM合成部13とを統合して、混合重
み適応化及びHMM合成部13bとしたこと」という相
違点を有する。以下、この相違点について詳細に説明す
る。
【0038】この実施形態においては、混合重み適応化
及びHMM合成部13bは、第2の実施形態のごとく、
適応化をした後、HMM合成をするのではなく、HMM
合成した後適応化の処理を実行する。すなわち、まず、
後の計算簡単化のため、雑音ガウス混合モデルメモリ2
2に格納された雑音ガウス混合モデルと、雑音のない音
声HMMメモリ32に格納された音声HMMとを、上述
のHMM合成法を用いて合成し、初期合成HMMを準備
する。次いで、環境適応化の際に、環境雑音メモリ31
0に格納された短時間で少量の環境雑音のディジタルデ
ータに基づいて、上記準備した初期合成HMMに対し
て、MAP推定法を用いて混合重み適応化を実行して適
応化されたHMMを得る。適応化を雑音ガウス混合モデ
ルの混合重み係数に限定しているので、適応化を行った
上でHMM合成した適応化HMMと、初期合成HMMの
間で、各確率分布の平均や分散が変化することはなく、
環境適応化により変化するのは重み係数のみである。従
って、雑音ガウス混合モデルの適応化で得た重み係数を
合成後のモデルに直接反映することで適応化HMMを得
ることができ、計算量を大きく削減できる。この処理を
図8に示す。
【0039】図8から明らかなように、適応化されたH
MMにおける各構成要素は、音声HMMと雑音ガウス混
合モデルとをスペクトル領域において合成したものに対
して雑音ガウス混合モデルの混合重みを乗算したものの
線形結合で表されている。従って、HMM合成した後適
応化の処理を実行することができ、これにより、第2の
実施形態に比較して計算量を大幅に削減できる。
【0040】<第4の実施形態>図4は、本発明に係る
第4の実施形態であるHMMモデル生成装置100d、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図4において図1乃至図3と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第4の実施形態は、図
3に図示された第3の実施形態に比較して、「混合重み
適応化及びHMM合成部13bに代えて、混合重み適応
化及びHMMマルチパス合成部13cを備えたこと」と
いう相違点を有する。以下、この相違点について詳細に
説明する。
【0041】この実施形態に係る混合重み適応化及びH
MMマルチパス合成部13cは、第3の実施形態に係る
混合重み適応化及びHMM合成部13bに比較して、雑
音ガウス混合モデルと、雑音のない音声HMMとを合成
するときに、第1の実施形態に係るHMMマルチパス合
成部13aによるHMMマルチパス合成法を用いること
を特徴としている。
【0042】以上のように構成された第4の実施形態に
よれば、短時間で少量の環境雑音のディジタルデータに
基づいて雑音ガウス混合モデルの混合重みを適応化し
て、かつHMMマルチパス合成法を用いて合成している
ので、環境雑音に適応化されかつ、SN比に関して自由
度が高く、種々のSN比に対して対応可能な音響モデル
を生成することができる。また、第3の実施形態に係る
「HMM合成した後適応化の処理」を実行することで、
計算量を大幅に削減できる。
【0043】
【実施例】本発明者らは、本実施形態に係るHMMモデ
ル生成装置100a,100c,100d及び音声認識
装置200を用いて、連続数字の単語認識実験を行い、
その性能で適応化されたHMMである音響モデルを、A
URORA2データベース(例えば、従来技術文献5
「H. G. Hirsch et al, "The AURORA Experimental Fra
mework for the Performance Evaluations of Speech R
ecognition Systems under Noisy Conditions", ISCA I
TRWA SR2000,"Automatic Speech Recognition:Challeng
es for the Next Millennium", 2000年9月」参照。)を
用いて評価した。このAURORA2データベースは雑
音環境下における音声認識システム評価用データベース
であり、その詳細を表1に示す。
【0044】
【表1】 AURORA2データベース ――――――――――――――――――――――――――――――――――― タスク:4桁の連続数字認識 サンプリング周波数:8kHz 16bitPCM/モノラル ――――――――――――――――――――――――――――――――――― 学習セット: 雑音:地下鉄、群衆のガヤガヤ雑音、自動車雑音、展示会ホール SN比:5dB、10dB、15dB、20dB、雑音無し 全発話数:8840 ――――――――――――――――――――――――――――――――――― テストセットA: 雑音:地下鉄、群衆のガヤガヤ雑音、自動車雑音、展示会ホール SN比:−5dB、0dB、5dB、10dB、15dB、20dB、雑音無し 全発話数:28028 ――――――――――――――――――――――――――――――――――― テストセットB: 雑音:レストラン、繁華街の通り、空港、列車の駅 SN比:−5dB、0dB、5dB、10dB、15dB、20dB、雑音無し 全発話数:28028 ―――――――――――――――――――――――――――――――――――
【0045】以下、ベースライン(第1の比較例)の結
果は学習セットのうち雑音を含まない音声データを用い
て作成した音響モデル(雑音のないHMM)のAセッ
ト、Bセットすべての結果の平均を示す。
【0046】雑音環境下における音声認識で、もっとも
簡単かつ理想的な音響モデルの構築法は入力音声と同じ
雑音環境下での学習データを用いて音響モデルを構築す
る方法である。以下、入力音声と同じ雑音環境下の学習
データで作成した音響モデルを「同一雑音のモデル」
(第2の比較例)と呼ぶ。同一雑音のモデルの学習には
学習セットのうち、1種類の雑音の混入したサブセット
を用い、評価にはAセットのうち対応した雑音が混入し
た音声データを用いる。これらの平均を同一雑音のモデ
ルの性能とする。音響モデル学習データと評価データの
混入雑音が異なっている場合の評価として上記同一雑音
のモデルとして作成した音響モデルにAセットのうち対
応しない雑音の混入した音声データを用いて評価する。
結果を図9に示す。ここでの評価値であるワードアキュ
ラシー(%)は次式で定義される。
【0047】
【数3】
【0048】図9から明らかなように、学習データと入
力音声の雑音環境が一致していない場合、入力音声のS
N比の低下に伴って大幅に認識性能が低下している。
【0049】従来技術文献1,2に係るHMM合成法に
よる音響モデル環境適応化の評価として、AURORA
2のBセットを評価データに用いた認識実験を行う。評
価データの各雑音に対して雑音データ(10秒)を用い
て雑音モデルの学習を行う。ここで、雑音モデルは1状
態8混合のGMMを用いる。この雑音モデルを用いて以
下の2つの音響モデルを作成し、比較する。 (1)SN比=15dBとしてHMM合成した音響モデ
ル(従来技術文献1,2に係るHMM合成法による) (2)SN比=5、10、15、20、∞(雑音なし)
dBとしてHMM合成し、マルチパス化した音響モデル
(第1の実施形態に係るHMMマルチパス合成法によ
る)
【0050】これらの実験結果も図9に示す。比較のた
め、ベースラインと同一雑音のモデルの結果もあわせて
示す。HMM合成による適応化によって、SN比=15
dB固定の場合13%の性能向上が見られた。また、H
MMのマルチパス化を用いることで、SN比=5dBに
おいてベースラインモデルと比べて58%高い性能を得
た。
【0051】次いで、第3及び第4の実施形態に係るH
MM合成による音響モデル適応化の評価として、AUR
ORA2データベースのBセットを評価データに用いた
認識実験を行う。雑音モデルは1状態8混合のGMMと
し、電子協騒音データベース(例えば、従来技術文献3
参照。)より時間長10秒×25種類、合計時間長25
0秒の雑音データを用いて初期雑音モデルの学習を行
う。評価データの各雑音に対して、雑音データ(時間長
1秒)を用いて雑音モデルの適応化を行う。この雑音モ
デルを用いて、以下の音響モデルを生成した。 (1)SN比=15dBとしてHMM合成した音響モデ
ル(第3の実施形態に係るHMM合成法による) (2)SN比=5、10、15、20、∞(雑音無し)
dBとしてHMM合成し、マルチパス化した音響モデル
(第4の実施形態に係るHMMマルチパス合成法によ
る)
【0052】これらの音響モデルに対する実験結果も図
9に示す。図9から明らかなように、第3又は第4の実
施形態に係る合成法を用いることで、10分の1の適応
データ量で従来法とほぼ同等の認識性能を達成できる。
また、ベースラインモデルに対して、SN比=15dB
固定の場合において14%の性能向上が見られた。さら
に、また、適応化モデルのマルチパス化により、SN比
=5dBにおいてベースラインに比べて53%の性能向
上を得た。
【0053】従って、本実施形態に係る合成法を用いた
装置は以下の特有の効果を有する。 (1)複数の種類の環境雑音の波形信号データに基づい
てガウス混合モデルを生成しているので、このガウス混
合モデルと、音声HMMとを合成した適応化されたHM
Mは、未知の雑音の混入に対して頑強なモデルとなる。 (2)雑音モデルとして複数混合のモデルを利用するこ
とにより、多種多様な雑音に対して有効な雑音モデルの
構築ができ、雑音の時間的変動に対する耐性が向上す
る。 (3)雑音モデルの混合重み係数を環境雑音データを用
いて適応化した場合、従来例に比較して計算量を大幅に
軽減でき、大規模な音響モデルにおいても高速に環境適
応化が可能になる。また、音声認識率を大幅に向上でき
る。 (4)SN比別マルチパスモデルによれば、入力音声の
SN比が既知であるという制約に拘束されず、従来例に
比較して音声認識時に高い音声認識率を得ることができ
る。
【0054】
【発明の効果】以上詳述したように、本願の第1の発明
に係る音響モデル生成装置によれば、学習用の複数の種
類の環境雑音の波形信号データから、出力尤度が最大と
なるように、1状態で複数混合のガウス混合モデルを生
成し、所定の雑音のない音声HMMと、上記生成手段に
より生成された雑音ガウス混合モデルとから、これらの
各状態のすべての組み合わせの状態において、所定の重
み係数で重み付けされた各ガウス分布の線形結合の和で
表した各状態の混合ガウス分布を含み、かつ上記雑音の
ない音声HMMと上記生成された雑音ガウス混合モデル
の間の複数の信号対雑音比に対応する複数の適応化され
たHMMを生成し、生成された複数の適応化されたHM
Mを並置してマルチパス形式となるように合成してなる
音響モデルを生成する。従って、入力音声のSN比が既
知であるという制約に拘束されない。また、未知雑音の
混入に対して頑強であって音響モデルの計算量を増大さ
せることなく、第3の従来例に比較して音声認識時に高
い音声認識率を得ることができる。
【0055】また、本願の第2の発明に係る音響モデル
生成装置によれば、学習用の複数の種類の環境雑音の波
形信号データから、出力尤度が最大となるように、1状
態で複数混合のガウス混合モデルを生成し、所定の雑音
のない音声HMMと、上記生成手段により生成された雑
音ガウス混合モデルとから、これらの各状態のすべての
組み合わせの状態において、所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含み、かつ、音声認識時の環境雑音デー
タに基づいて上記雑音ガウス混合モデルの混合重みを適
応化されたHMMにてなる音響モデルを生成する。従っ
て、環境雑音データに基づいて適応化されているので、
第3の従来例に比較して音声認識時に高い音声認識率を
得ることができ、また、未知雑音の混入に対して頑強で
あって音響モデルの計算量を増大させることない。
【0056】さらに、本願の第3の発明に係る音響モデ
ル生成装置によれば、学習用の複数の種類の環境雑音の
波形信号データから、出力尤度が最大となるように、1
状態で複数混合のガウス混合モデルを生成し、所定の雑
音のない音声HMMと、上記生成手段により生成された
雑音ガウス混合モデルとから、これらの各状態のすべて
の組み合わせの状態において、所定の重み係数で重み付
けされた各ガウス分布の線形結合の和で表した各状態の
混合ガウス分布を含み、音声認識時の環境雑音データに
基づいて上記雑音ガウス混合モデルの混合重みを適応化
され、かつ上記雑音のない音声HMMと上記生成された
雑音ガウス混合モデルの間の複数の信号対雑音比に対応
する複数の適応化されたHMMを生成し、生成された複
数の適応化されたHMMを並置してマルチパス形式とな
るように合成してなる音響モデルを生成する。従って、
入力音声のSN比が既知であるという制約に拘束されな
い。また、未知雑音の混入に対して頑強であって音響モ
デルの計算量を増大させることなく、第3の従来例に比
較して音声認識時に高い音声認識率を得ることができ
る。
【0057】また、本願の第4の発明に係る音声認識装
置によれば、自然発話文の発話音声信号に基づいてその
特徴量を抽出し、抽出された特徴量に基づいて、上記合
成された適応化されたHMMを用いて上記発話音声信号
の音声認識を行って音声認識結果を出力する。従って、
未知の雑音が混入した音声信号に対して、従来例に比較
して高い音声認識率で音声認識することができ、雑音が
重畳した音声に対して頑健な音声認識装置を提供でき
る。
【図面の簡単な説明】
【図1】 本発明に係る第1の実施形態であるHMMモ
デル生成装置100a及び音声認識装置200の構成を
示すブロック図である。
【図2】 本発明に係る第2の実施形態であるHMMモ
デル生成装置100b、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
【図3】 本発明に係る第3の実施形態であるHMMモ
デル生成装置100c、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
【図4】 本発明に係る第4の実施形態であるHMMモ
デル生成装置100d、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
【図5】 第3の従来例に係るHMM合成法による、音
声HMMと雑音GMMとを合成する方法を示す説明図で
ある。
【図6】 第1の実施形態に係るHMMマルチパス合成
法による、雑音のない音声HMMと雑音GMMとを合成
する方法を示す説明図である。
【図7】 音声HMM及び雑音ガウス混合モデルともに
2混合の出力分布で表現されているときの、HMM合成
後の出力確率分布の導出を示す説明図である。
【図8】 第2乃至第4の実施形態で用いる混合重み適
応化およびHMM合成の方法を示す説明図である。
【図9】 第1の比較例、第2の比較例、従来技術文献
1,2、第1の実施形態、第3の実施形態、第4の実施
形態に係る実験結果であって、SN比に対するワードア
キュラシーを示すグラフである。
【符号の説明】
1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…音声認識部、 5…単語HMMメモリ、 6…加算器、 11…ガウス混合モデル生成部、 12…HMM生成部、 13…HMM合成部、 13a…HMMマルチパス合成部、 13b…混合重み適応化及びHMM合成部、 13c…混合重み適応化及びHMMマルチパス合成部、 14…混合重み適応化部、 21…学習用環境雑音波形データベースメモリ、 22…ガウス混合モデルメモリ、 23…適応化されたHMMメモリ、 31…雑音のない音声波形データベースメモリ、 32…雑音のない音声HMMメモリ、 100a,100b,100c,100d…HMMモデ
ル生成装置、 200…音声認識装置、 300…環境雑音測定装置、 310…環境雑音メモリ。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 学習用の複数の種類の環境雑音の波形信
    号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
    音の波形信号データから、出力尤度が最大となるよう
    に、1状態で複数混合のガウス混合モデルを生成する生
    成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
    手段により生成された雑音ガウス混合モデルとから、こ
    れらの各状態のすべての組み合わせの状態において、所
    定の重み係数で重み付けされた各ガウス分布の線形結合
    の和で表した各状態の混合ガウス分布を含み、かつ上記
    雑音のない音声隠れマルコフモデルと上記生成された雑
    音ガウス混合モデルの間の複数の信号対雑音比に対応す
    る複数の適応化された隠れマルコフモデルを生成し、生
    成された複数の適応化された隠れマルコフモデルを並置
    してマルチパス形式となるように合成してなる音響モデ
    ルを生成する合成手段とを備えたことを特徴とする音響
    モデル生成装置。
  2. 【請求項2】 学習用の複数の種類の環境雑音の波形信
    号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
    音の波形信号データから、出力尤度が最大となるよう
    に、1状態で複数混合のガウス混合モデルを生成する生
    成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
    手段により生成された雑音ガウス混合モデルとから、こ
    れらの各状態のすべての組み合わせの状態において、所
    定の重み係数で重み付けされた各ガウス分布の線形結合
    の和で表した各状態の混合ガウス分布を含み、かつ、音
    声認識時の環境雑音データに基づいて上記雑音ガウス混
    合モデルの混合重みを適応化された隠れマルコフモデル
    にてなる音響モデルを生成する合成手段とを備えたこと
    を特徴とする音響モデル生成装置。
  3. 【請求項3】 学習用の複数の種類の環境雑音の波形信
    号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
    音の波形信号データから、出力尤度が最大となるよう
    に、1状態で複数混合のガウス混合モデルを生成する生
    成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
    手段により生成された雑音ガウス混合モデルとから、こ
    れらの各状態のすべての組み合わせの状態において、所
    定の重み係数で重み付けされた各ガウス分布の線形結合
    の和で表した各状態の混合ガウス分布を含み、音声認識
    時の環境雑音データに基づいて上記雑音ガウス混合モデ
    ルの混合重みを適応化され、かつ上記雑音のない音声隠
    れマルコフモデルと上記生成された雑音ガウス混合モデ
    ルの間の複数の信号対雑音比に対応する複数の適応化さ
    れた隠れマルコフモデルを生成し、生成された複数の適
    応化された隠れマルコフモデルを並置してマルチパス形
    式となるように合成してなる音響モデルを生成する合成
    手段とを備えたことを特徴とする音響モデル生成装置。
  4. 【請求項4】 自然発話文の発話音声信号に基づいてそ
    の特徴量を抽出する抽出手段と、 上記抽出された特徴量に基づいて、請求項1乃至3のう
    ちのいずれか1つに記載の音響モデル生成装置により生
    成された音響モデルを用いて上記発話音声信号の音声認
    識を行って音声認識結果を出力する音声認識手段とを備
    えたことを特徴とする音声認識装置。
JP2001378546A 2001-12-12 2001-12-12 音響モデル生成装置及び音声認識装置 Pending JP2003177781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001378546A JP2003177781A (ja) 2001-12-12 2001-12-12 音響モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001378546A JP2003177781A (ja) 2001-12-12 2001-12-12 音響モデル生成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JP2003177781A true JP2003177781A (ja) 2003-06-27

Family

ID=19186236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001378546A Pending JP2003177781A (ja) 2001-12-12 2001-12-12 音響モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2003177781A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
JP2006091864A (ja) * 2004-08-26 2006-04-06 Asahi Kasei Corp 音声認識装置、音声認識方法、及び、プログラム
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
CN111667428A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 基于自动搜索的噪声生成方法和装置
CN113870826A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 基于时长预测模型的发音时长预测方法及相关设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7266494B2 (en) 2001-09-27 2007-09-04 Microsoft Corporation Method and apparatus for identifying noise environments from noisy signals
JP2006091864A (ja) * 2004-08-26 2006-04-06 Asahi Kasei Corp 音声認識装置、音声認識方法、及び、プログラム
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2017058691A (ja) * 2013-01-24 2017-03-23 ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. 音声識別方法および装置
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN111667428A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 基于自动搜索的噪声生成方法和装置
CN113870826A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 基于时长预测模型的发音时长预测方法及相关设备

Similar Documents

Publication Publication Date Title
JP4274962B2 (ja) 音声認識システム
CN101014997B (zh) 用于生成用于自动语音识别器的训练数据的方法和系统
JP5127754B2 (ja) 信号処理装置
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
Deligne et al. A robust high accuracy speech recognition system for mobile applications
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP2003177781A (ja) 音響モデル生成装置及び音声認識装置
TWI356399B (en) Speech recognition system and method with cepstral
JP5443547B2 (ja) 信号処理装置
Kawamura et al. A new noise reduction method using estimated noise spectrum
JP2004509364A (ja) 音声認識システム
JP3250604B2 (ja) 音声認識方法および装置
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms.
Remane et al. SEASR: Speech Enhancement for Automatic Speech Recognition Systems using Convolution Recurrent Neural Network with Residual Connections
JP2002091480A (ja) 音響モデル生成装置及び音声認識装置
Sarikaya Robust and efficient techniques for speech recognition in noise
Hirsch Automatic speech recognition in adverse acoustic conditions
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
Athanaselis et al. Robust speech recognition in the presence of noise using medical data
Muralishankar et al. A comparative analysis of noise robust speech features extracted from all-pass based warping with MFCC in a noisy phoneme recognition
Raut et al. Maximum likelihood based HMM state filtering approach to model adaptation for long reverberation
Milner Speech feature extraction and reconstruction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703