JP2003177781A - 音響モデル生成装置及び音声認識装置 - Google Patents
音響モデル生成装置及び音声認識装置Info
- Publication number
- JP2003177781A JP2003177781A JP2001378546A JP2001378546A JP2003177781A JP 2003177781 A JP2003177781 A JP 2003177781A JP 2001378546 A JP2001378546 A JP 2001378546A JP 2001378546 A JP2001378546 A JP 2001378546A JP 2003177781 A JP2003177781 A JP 2003177781A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- model
- hmm
- gaussian mixture
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000203 mixture Substances 0.000 claims abstract description 127
- 230000007613 environmental effect Effects 0.000 claims abstract description 94
- 238000009826 distribution Methods 0.000 claims abstract description 54
- 230000002194 synthesizing effect Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 29
- 238000003786 synthesis reaction Methods 0.000 abstract description 29
- 230000006978 adaptation Effects 0.000 description 38
- 238000000034 method Methods 0.000 description 33
- 238000001308 synthesis method Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000005259 measurement Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 102000004000 Aurora Kinase A Human genes 0.000 description 2
- 108090000461 Aurora Kinase A Proteins 0.000 description 2
- 239000005441 aurora Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101001132551 Diplobatis ommata Ras-related protein Rab-8 Proteins 0.000 description 1
- 241000665848 Isca Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Abstract
拘束されない音響モデルを提供する。 【解決手段】 ガウス混合モデル生成部11はデータベ
ースメモリ21に格納された学習用の複数の種類の環境
雑音の波形信号データに基づいて出力尤度が最大となる
ように1状態で複数混合のガウス混合モデルを生成し、
HMM合成部13は所定の雑音のない音声HMMと生成
された雑音ガウス混合モデルからこれらの各状態の全て
の組み合わせの状態において所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含みかつ雑音のない音声HMMと生成さ
れた雑音ガウス混合モデルの間の複数のSN比に対応す
る複数の適応化されたHMMを生成し、生成された複数
の適応化されたHMMを並置しマルチパス形式の音響モ
デルを生成する。音声認識部4は抽出された特徴量に基
づき上記適応化された音響モデルを用いて発話音声信号
の音声認識を行う。
Description
めの音響モデル生成装置及び音声認識装置に関する。
考えたとき、周囲の環境音が存在するために認識性能の
低下が避けられない。そこで、周囲の環境音の混入に対
してロバストな音響モデルが必要になる。環境音の混入
にロバストな音響モデルの生成法としては、認識時の環
境音そのものを用いることはできないので、予め混入環
境音を予測して適応化を行う方法が用いられる。ところ
が、混入環境音の予測は変動成分を含むため、困難であ
ることが多い。
法としては次の2つに大別される。一方は、システム設
計時に認識時の環境音を想定した音響モデルを作成する
方法である。すなわち、例えば、既知の雑音の波形デー
タベースに基づいて、学習用雑音隠れマルコフモデル
(以下、隠れマルコフモデルをHMMという。)を生成
した後、これを用いて、雑音のない音声HMMを学習す
ることにより適応化されたHMMを生成し、これを音声
認識装置に用いることができる(以下、第1の従来例と
いう。)。
データによって随時音響モデルの適応する方式である。
認識時の環境音そのものを適応化に用いることはできな
いので、一般に音声入力の直前の比較的少量の環境音が
用いられる(以下、第2の従来例という。)。
囲内の環境音の混入に対しては強いロバスト性を示す。
しかしながら、未知の雑音に対しては対応できず、頑強
性に欠けるという問題点があり、さまざまな環境音の混
入を想定した場合、すべての音声と環境音の組合わせに
ついて考慮する必要があるため、コスト面において現実
的ではない。すなわち、既知の雑音の種類を多くした場
合、適応化されたHMMの計算量が多大になるという問
題点があった。
ータから認識中のあらゆる環境音を予測することは非常
に困難であり、想定外の環境音の混入には対応できな
い。
という条件、後者は混入する環境音の特徴は不変である
という制約条件が存在する。一般に実使用においては環
境音は変動する成分を含んでいるため、上記の制約条件
が満たされるとは限らない。
らは、特願2000−283516号の特許出願におい
て、「学習用の複数の種類の環境雑音の波形信号データ
に基づいて、出力尤度が最大となるように、1状態で複
数混合のガウス混合モデルを生成し、所定の雑音のない
音声HMMと、上記生成された雑音ガウス混合モデル
(GMM)とを、これらの各状態のすべての組み合わせ
の状態において、所定の重み係数で重み付けされた各ガ
ウス分布の線形結合の和で表した各状態の混合ガウス分
布を含む適応化されたHMMを生成することにより合成
する音響モデル生成装置」(以下、第3の従来例とい
う。)を提案している。
成法は、事前に雑音のない音声を用いて学習を行った音
素の音響モデルと、環境雑音のモデルとを合成すること
で、モデル化された環境雑音に適応した音響モデルを作
成する方法である。ここで、加法性の雑音のみを仮定す
る。観測される入力音声のパワースペクトルをYとし、
これを環境雑音のパワースペクトルNと雑音のないクリ
ーンな音声のパワースペクトルSで表し、ここで、各パ
ラメータにおける線形スペクトル領域の量を、それらの
記号に下付き「linspc」を付して表す。環境雑音
の加法性は線形スペクトル領域において次式のごとく成
立する。
より特徴抽出されているので、次式となる。
cep)}+k・exp{Γ(Ncep)}]
り、Γ−1はフーリエ逆変換の演算子であり、kは信号
対雑音電力比(以下、SN比という。)に応じて決定す
る係数である。上記数2をHMMに適応した場合、合成
HMMの構造は図5に示すように各HMMの直積で表さ
れる。遷移確率は対応する遷移確率の積で求められ、出
力確率分布は各状態において結合される。
従来例に係る音響モデル生成装置で生成された音響モデ
ルを用いて音声認識した場合であっても、いまだ音声認
識率は低いという問題点があった。
においては、上記数2に示す通り、入力音声のSN比が
既知であるという制約がある。もしこの制約を除去でき
れば、SN比に関して自由度が高く、種々のSN比に対
して対応可能な音響モデルを生成することができる。
未知雑音の混入に対して頑強であって音響モデルの計算
量を増大させることなく、第3の従来例に比較して高い
音声認識率を得ることができる音響モデルを生成する音
響モデル生成装置、及び、当該音響モデル生成装置を用
いた音声認識装置を提供することにある。
し、入力音声のSN比が既知であるという制約に拘束さ
れない音響モデルを生成する音響モデル生成装置、及
び、当該音響モデル生成装置を用いた音声認識装置を提
供することにある。
音響モデル生成装置は、学習用の複数の種類の環境雑音
の波形信号データを格納する記憶手段と、上記記憶手段
に格納された学習用の複数の種類の環境雑音の波形信号
データから、出力尤度が最大となるように、1状態で複
数混合のガウス混合モデルを生成する生成手段と、所定
の雑音のない音声HMMと、上記生成手段により生成さ
れた雑音ガウス混合モデルとから、これらの各状態のす
べての組み合わせの状態において、所定の重み係数で重
み付けされた各ガウス分布の線形結合の和で表した各状
態の混合ガウス分布を含み、かつ上記雑音のない音声H
MMと上記生成された雑音ガウス混合モデルの間の複数
の信号対雑音比に対応する複数の適応化されたHMMを
生成し、生成された複数の適応化されたHMMを並置し
てマルチパス形式となるように合成してなる音響モデル
を生成する合成手段とを備えたことを特徴とする。
生成装置は、学習用の複数の種類の環境雑音の波形信号
データを格納する記憶手段と、上記記憶手段に格納され
た学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、1状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声HMMと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、かつ、音声認識時の環境雑音データ
に基づいて上記雑音ガウス混合モデルの混合重みを適応
化されたHMMにてなる音響モデルを生成する合成手段
とを備えたことを特徴とする。
ル生成装置は、学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納さ
れた学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、1状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声HMMと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、音声認識時の環境雑音データに基づ
いて上記雑音ガウス混合モデルの混合重みを適応化さ
れ、かつ上記雑音のない音声HMMと上記生成された雑
音ガウス混合モデルの間の複数の信号対雑音比に対応す
る複数の適応化されたHMMを生成し、生成された複数
の適応化されたHMMを並置してマルチパス形式となる
ように合成してなる音響モデルを生成する合成手段とを
備えたことを特徴とする。
認識装置は、自然発話文の発話音声信号に基づいてその
特徴量を抽出する抽出手段と、上記抽出された特徴量に
基づいて、請求項1乃至3のうちのいずれか1つに記載
の音響モデル生成装置により生成された音響モデルを用
いて上記発話音声信号の音声認識を行って音声認識結果
を出力する音声認識手段とを備えたことを特徴とする。
る実施形態について説明する。
第1の実施形態であるHMMモデル生成装置100a及
び音声認識装置200の構成を示すブロック図である。
この実施形態に係るHMMモデル生成装置100aは、
複数の種類の環境音の雑音波形を含む学習用環境雑音波
形データベースを用いて雑音ガウス混合モデルを生成す
るガウス混合モデル生成部11と、生成された雑音ガウ
ス混合モデルを用いて、雑音のない音声HMMを、公知
のHMM合成法により学習し、かつ上記雑音のない音声
HMMと上記生成された雑音ガウス混合モデルの間の複
数のSN比に対応する複数の適応化されたHMMを生成
し、生成された複数の適応化されたHMMを並置してマ
ルチパス形式となるように合成してなるHMMの音響モ
デルを生成するHMMマルチパス合成部13aとを主構
成要素として備える。具体的には、本実施形態では、環
境変動にロバストな音声モデルを少ない計算量で構築す
る方法であって、未知の環境音が混入した場合のロバス
ト性を高めるため、予めさまざまな環境音が混入すると
想定し、複数の種類の環境音を適応データとして与えた
HMM合成による環境適応化を行い、ここで、環境音を
HMMとして独立に学習し、公知のHMM合成法(例え
ば、従来技術文献1「F. Martin et al.,”Recognition
of Noisy Speech by Composition of Hidden Markov M
odels”,電子情報通信学会技術報告, SP92-96, pp.9-1
6, 1992」、従来技術文献2「南泰浩ほか,“HMM合
成に基づく尤度最大化適応法”,電子情報通信学会技術
報告,SP95−24,1995年6月」など参照。)
によってすべての音声モデルに複数の種類の環境音の影
響を適応化させている。
ために、本実施形態で用いる手法は、未知の環境音が混
入した場合のロバスト性を高めるため、予めさまざまな
環境音が混入すると想定した環境適応化を行う。さまざ
まな環境音を雑音ガウス混合モデルとして独立に学習
し、HMM合成によってすべての音声モデルに複数の種
類の環境音の影響を適応化させることにより環境変動に
ロバストな音声モデルを少ない計算量で構築することが
可能になる。
においては、上記数2に示す通り、入力音声のSN比が
既知であるという制約がある。この問題の解決のため、
複数のSN比に対応した適応化HMMを並列に構築する
手法を用いる。この手法の説明図を図6に示す。この手
法では、雑音モデルを合成する際に、入力音声として予
測される範囲内のいくつかのSN比に対応した複数の合
成HMM(SN比別マルチパスモデル)を得る(本実施
形態では、SN比=10,15,20dBであり、この
手法を、以下「HMMマルチパス合成法」という。)。
音声認識の際、入力音声のSN比はわからないので、こ
れら各合成HMMを1つのモデルとして取り扱う。すな
わち、各モデルに複数のSN比のパスを定義し、デコー
ドする際に最も尤度の高い経路を選択させるように構成
する。
ベースメモリ31は、例えば複数の話者の大規模な音素
ラベル付き音声波形信号(雑音がなくクリーンであ
る。)のデータベースを格納しており、また、HMM生
成部12は、当該データベースに基づいて公知のEM
(Expectation-Maximization)アルゴリズムを用いて、
出力尤度が最大となるように、雑音のない音声HMMを
生成して雑音のない音声HMMメモリ32に出力して格
納する。一方、学習用環境雑音波形データベースメモリ
21は、例えば電子協騒音データベース(例えば、従来
技術文献3「電子協騒音データベース,(社)日本電子
工業振興協会,http://www.jeida.or.jp/committee/hum
anmed/speech/noisedbj.html」など参照。)に格納され
た、学習用の複数の種類の環境雑音の波形信号のデータ
を格納していて、このデータベースメモリ21に格納さ
れた学習用の複数の種類の環境雑音の波形信号のデータ
に基づいて、ガウス混合モデル生成部11は、公知のE
Mアルゴリズムを用いて、出力尤度が最大となるよう
に、1状態で複数混合の雑音ガウス混合モデルを生成し
て雑音ガウス混合モデルメモリ22に出力して格納す
る。さらに、HMMマルチパス合成部13aは、音声H
MMメモリ32に格納された雑音のない音声HMMと、
モデルメモリ22に格納された雑音ガウス混合モデルと
から、公知のHMM合成法を用いて、適応化されたHM
Mであって、上記雑音のない音声HMMと上記生成され
た雑音ガウス混合モデルの間の複数の信号対雑音比に対
応する複数の適応化されたHMMを生成し、生成された
複数の適応化されたHMMを並置してマルチパス形式と
なるように合成してなる、適応化されたHMMを生成し
て適応化されたHMMメモリ23に出力して格納する。
aで用いるHMM合成法とは、雑音の存在しないクリー
ンな環境で学習された音声HMMと環境音の特徴を学習
した雑音ガウス混合モデルとを合成して、環境音の混入
した音声に対するHMMを作成する方法である。このH
MM合成法では、従来技術文献2の図2に図示されるよ
うに、ケプストラム領域にある音声と雑音の各ガウス分
布をそれぞれコサイン変換することにより、対数スペク
トル領域の音声と雑音の各ガウス分布に変換した後、さ
らに、指数変換することにより線形スペクトル領域の音
声と雑音の対数ガウス分布に変換する。ここで、指数変
換後の線形スペクトル領域の音声と雑音の対数ガウス分
布を互いに重み係数付け加算することにより、線形スペ
クトル領域における雑音が重畳した音声の対数ガウス分
布を生成する。さらに、生成した雑音が重畳した音声の
対数ガウス分布を対数変換して、対数スペクトル領域に
おける雑音が重畳した音声のガウス分布に変換した後、
さらに逆コサイン変換することによりケプストラム領域
における雑音が重畳した音声のガウス分布を得る。以上
がHMM合成法での出力確率の合成法である。
多様性を表現するために出力確率分布を混合ガウス分布
で表す。このときの合成後のHMMの出力確率分布は、
ケプストラム領域における音声HMMの混合分布と雑音
ガウス混合モデルの混合分布の和で表される。すなわ
ち、混合分布を構成する各ガウス分布は、音声HMMの
各状態と、雑音ガウス混合モデルの状態とのガウス分布
におけるすべての組合わせの和で表現され、混合の重み
係数は各重み係数の積で表現される。
合モデルとの合成を行うときに、各出力分布が混合ガウ
ス分布で表現されているとき、合成後の出力分布はそれ
ぞれの混合要素のすべての組合わせになる。合成後の各
要素の平均及び分散は元の混合要素の和になる。合成後
の各要素の混合重み係数は、元の混合重み係数の積で表
される。図7は音声HMM及び雑音ガウス混合モデルと
もに2混合の出力分布で表現されているときの、HMM
合成後の出力確率分布の導出を示している。なお、図7
において、N(・)は各ガウス分布の平均及び分散を示
す。音声HMMの第1状態の出力確率分布がガウス分布
S11,S12の重み係数付き和であり、雑音ガウス混合モ
デルの出力確率分布がN1,N2の重み係数つき和であ
り、すなわち、所定の重み係数で重み付けされたガウス
分布の線形結合の和である。それぞれの重み係数はw
s11,ws12,wn1,wn2とする。このとき、合成後の
適応化されたの第1状態の出力分布は、S11+N1,S
12+N1,S11+N2,S12+N2の4つのガウス分布の
重み係数付き和になる。さらに、同様にして、雑音ガウ
ス混合モデルの状態と、音声HMMの第2の状態との組
み合わせにおけるHMM合成、並びに、雑音ガウス混合
モデルの状態と、音声HMMの第3の状態との組み合わ
せにおけるHMM合成を行う。
は、音声HMMメモリ32に格納されている雑音のない
音声HMMと、モデルメモリ22に格納されている雑音
ガウス混合モデルとを、公知のHMM合成法を用いて、
これらの各状態のすべての組み合わせの状態において、
所定の重み係数で重み付けされた各ガウス分布の線形結
合の和で表した各状態の混合ガウス分布を含む適応化さ
れたHMMであって、上記雑音のない音声HMMと上記
生成された雑音ガウス混合モデルの間の複数の信号対雑
音比に対応する複数の適応化されたHMMを生成し、生
成された複数の適応化されたHMMを並置してマルチパ
ス形式となるように合成してなる、適応化されたHMM
を生成して適応化されたHMMメモリ23に出力して格
納する。
イクロホン1と、A/D変換器2と、特徴抽出部3と、
音声認識部4とを備えて構成される。自然発話文の発生
音声はマイクロホン1に入力されて発声音声信号に変換
された後、A/D変換器2により所定のサンプリング周
波数で音声ディジタルデータ信号にA/D変換される。
次いで、特徴抽出部3は、入力される音声ディジタルデ
ータ信号に基づいて、例えばLPC分析することによ
り、例えば、12次のメルケプストラム係数と、12次
のΔメルケプストラム係数と、パワーと、Δパワーとを
含む特徴ベクトルを抽出して音声認識部4に出力する。
さらに、音声認識部4は、HMMメモリ23に格納され
た適応化されたHMMを用いて音素の尤度を計算すると
ともに、単語HMMメモリ5に予め格納されている所定
の音素ベースの単語HMMを用いて単語の尤度を計算し
て、出力尤度が最大となる音素からなる単語を決定する
ことにより音声認識処理を行い、音声認識結果の最尤単
語の文字列を生成して出力する。
第2の実施形態であるHMMモデル生成装置100b、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図2において図1と同一の構
成要素については同一の符号を付しており、それらの詳
細説明を省略する。この第2の実施形態は、図1に図示
された第1の実施形態に比較して、以下の相違点を有す
る。 (1)HMMモデル生成装置100bは、HMMモデル
生成装置100aに比較して、HMMマルチパス合成部
13aに代えて、第3の従来例に係るHMM合成部13
を備えるとともに、雑音ガウス混合モデルメモリ22と
HMM合成部13との間に混合重み適応化部14を備え
る。 (2)環境雑音測定装置300とそれに接続された環境
雑音メモリ310とをさらに備える。以下、これら相違
点について詳細に説明する。
場合において、周囲の環境に依存した環境雑音がマイク
ロホン1に混入することは避けられない。混入する雑音
の多くは予測することが難しく、変動する雑音の混入に
対してロバストな音響モデルが求められている。本実施
形態では、この問題点に対して、雑音データベースによ
り構築した環境雑音モデルの適応化を組み込んだHMM
合成法を用いる。従来においては、環境音のモデルの生
成に使用環境の実雑音を用いた学習を行っているが、実
用上の制約から取得できる実雑音のデータ量は限られて
いるので、少量のデータから得られる環境雑音モデルは
変動に対して弱いという問題点があった。そこで、本実
施形態では、初期環境雑音モデルを雑音データベースを
用いて用意しておき、少量の実雑音データで適応化を行
う。
発生音声に仮想的な加算器6により加算されてマイクロ
ホン1に入力されることを仮定している。一方、本実施
形態では、発生音声が無いときの環境雑音を環境雑音測
定装置300に入力し、当該環境雑音測定装置300
は、入力される環境雑音をマイクロホンにより電気信号
に変換し、かつA/D変換器によりA/D変換すること
により、環境雑音のディジタルデータを得て、環境雑音
メモリ310に格納する。この環境雑音のディジタルデ
ータは、例えば1秒である短時間で少量の適応化用学習
データである。
モデルメモリ22に格納された1状態で複数混合の雑音
ガウス混合モデルにおける混合重みを、環境雑音メモリ
310に格納された環境雑音のディジタルデータに基づ
いて、例えば公知の最大事後確率推定法(以下、MAP
推定法という。例えば、従来技術文献4「中川聖一,
“確率モデルによる音声認識”,電子情報通信学会,p
p.152−155,昭和63年7月1日初版発行」参
照。)を用いて、尤度の一例である最大事後確率が最大
となるように適応化を行い、適応化された雑音ガウス混
合モデルをHMM合成部13に出力する。ここで、適応
化を雑音ガウス混合モデルの重み係数に限定しているの
で、適応化を行った上でHMM合成したモデルと初期合
成したHMMの間で、各確率分布の分散や平均が変化す
ることはない。したがって、適応化で得た重み係数を初
期合成HMMに対応づけることで適応化HMMを得るこ
とができる。次いで、HMM合成部13は、音声HMM
メモリ32に格納された雑音のない音声HMMと、混合
重み適応化部14から出力される雑音ガウス混合モデル
とを、公知のHMM合成法を用いて合成し、当該合成さ
れ、適応化されたHMMを生成して適応化されたHMM
メモリ23に出力して格納する。
は、雑音ガウス混合モデルの混合重みが音声認識時の少
量の環境雑音データに基づいて適応化されているので、
環境雑音モデルの生成に要する実雑音データ量を大幅に
削減することができ、同時に雑音変動に対するロバスト
性を頑強にできる。
第3の実施形態であるHMMモデル生成装置100c、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図3において図1及び図2と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第3の実施形態は、図
2に図示された第2の実施形態に比較して、「混合重み
適応化部14とHMM合成部13とを統合して、混合重
み適応化及びHMM合成部13bとしたこと」という相
違点を有する。以下、この相違点について詳細に説明す
る。
及びHMM合成部13bは、第2の実施形態のごとく、
適応化をした後、HMM合成をするのではなく、HMM
合成した後適応化の処理を実行する。すなわち、まず、
後の計算簡単化のため、雑音ガウス混合モデルメモリ2
2に格納された雑音ガウス混合モデルと、雑音のない音
声HMMメモリ32に格納された音声HMMとを、上述
のHMM合成法を用いて合成し、初期合成HMMを準備
する。次いで、環境適応化の際に、環境雑音メモリ31
0に格納された短時間で少量の環境雑音のディジタルデ
ータに基づいて、上記準備した初期合成HMMに対し
て、MAP推定法を用いて混合重み適応化を実行して適
応化されたHMMを得る。適応化を雑音ガウス混合モデ
ルの混合重み係数に限定しているので、適応化を行った
上でHMM合成した適応化HMMと、初期合成HMMの
間で、各確率分布の平均や分散が変化することはなく、
環境適応化により変化するのは重み係数のみである。従
って、雑音ガウス混合モデルの適応化で得た重み係数を
合成後のモデルに直接反映することで適応化HMMを得
ることができ、計算量を大きく削減できる。この処理を
図8に示す。
MMにおける各構成要素は、音声HMMと雑音ガウス混
合モデルとをスペクトル領域において合成したものに対
して雑音ガウス混合モデルの混合重みを乗算したものの
線形結合で表されている。従って、HMM合成した後適
応化の処理を実行することができ、これにより、第2の
実施形態に比較して計算量を大幅に削減できる。
第4の実施形態であるHMMモデル生成装置100d、
音声認識装置200及び環境雑音測定装置300の構成
を示すブロック図であり、図4において図1乃至図3と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第4の実施形態は、図
3に図示された第3の実施形態に比較して、「混合重み
適応化及びHMM合成部13bに代えて、混合重み適応
化及びHMMマルチパス合成部13cを備えたこと」と
いう相違点を有する。以下、この相違点について詳細に
説明する。
MMマルチパス合成部13cは、第3の実施形態に係る
混合重み適応化及びHMM合成部13bに比較して、雑
音ガウス混合モデルと、雑音のない音声HMMとを合成
するときに、第1の実施形態に係るHMMマルチパス合
成部13aによるHMMマルチパス合成法を用いること
を特徴としている。
よれば、短時間で少量の環境雑音のディジタルデータに
基づいて雑音ガウス混合モデルの混合重みを適応化し
て、かつHMMマルチパス合成法を用いて合成している
ので、環境雑音に適応化されかつ、SN比に関して自由
度が高く、種々のSN比に対して対応可能な音響モデル
を生成することができる。また、第3の実施形態に係る
「HMM合成した後適応化の処理」を実行することで、
計算量を大幅に削減できる。
ル生成装置100a,100c,100d及び音声認識
装置200を用いて、連続数字の単語認識実験を行い、
その性能で適応化されたHMMである音響モデルを、A
URORA2データベース(例えば、従来技術文献5
「H. G. Hirsch et al, "The AURORA Experimental Fra
mework for the Performance Evaluations of Speech R
ecognition Systems under Noisy Conditions", ISCA I
TRWA SR2000,"Automatic Speech Recognition:Challeng
es for the Next Millennium", 2000年9月」参照。)を
用いて評価した。このAURORA2データベースは雑
音環境下における音声認識システム評価用データベース
であり、その詳細を表1に示す。
果は学習セットのうち雑音を含まない音声データを用い
て作成した音響モデル(雑音のないHMM)のAセッ
ト、Bセットすべての結果の平均を示す。
簡単かつ理想的な音響モデルの構築法は入力音声と同じ
雑音環境下での学習データを用いて音響モデルを構築す
る方法である。以下、入力音声と同じ雑音環境下の学習
データで作成した音響モデルを「同一雑音のモデル」
(第2の比較例)と呼ぶ。同一雑音のモデルの学習には
学習セットのうち、1種類の雑音の混入したサブセット
を用い、評価にはAセットのうち対応した雑音が混入し
た音声データを用いる。これらの平均を同一雑音のモデ
ルの性能とする。音響モデル学習データと評価データの
混入雑音が異なっている場合の評価として上記同一雑音
のモデルとして作成した音響モデルにAセットのうち対
応しない雑音の混入した音声データを用いて評価する。
結果を図9に示す。ここでの評価値であるワードアキュ
ラシー(%)は次式で定義される。
力音声の雑音環境が一致していない場合、入力音声のS
N比の低下に伴って大幅に認識性能が低下している。
よる音響モデル環境適応化の評価として、AURORA
2のBセットを評価データに用いた認識実験を行う。評
価データの各雑音に対して雑音データ(10秒)を用い
て雑音モデルの学習を行う。ここで、雑音モデルは1状
態8混合のGMMを用いる。この雑音モデルを用いて以
下の2つの音響モデルを作成し、比較する。 (1)SN比=15dBとしてHMM合成した音響モデ
ル(従来技術文献1,2に係るHMM合成法による) (2)SN比=5、10、15、20、∞(雑音なし)
dBとしてHMM合成し、マルチパス化した音響モデル
(第1の実施形態に係るHMMマルチパス合成法によ
る)
め、ベースラインと同一雑音のモデルの結果もあわせて
示す。HMM合成による適応化によって、SN比=15
dB固定の場合13%の性能向上が見られた。また、H
MMのマルチパス化を用いることで、SN比=5dBに
おいてベースラインモデルと比べて58%高い性能を得
た。
MM合成による音響モデル適応化の評価として、AUR
ORA2データベースのBセットを評価データに用いた
認識実験を行う。雑音モデルは1状態8混合のGMMと
し、電子協騒音データベース(例えば、従来技術文献3
参照。)より時間長10秒×25種類、合計時間長25
0秒の雑音データを用いて初期雑音モデルの学習を行
う。評価データの各雑音に対して、雑音データ(時間長
1秒)を用いて雑音モデルの適応化を行う。この雑音モ
デルを用いて、以下の音響モデルを生成した。 (1)SN比=15dBとしてHMM合成した音響モデ
ル(第3の実施形態に係るHMM合成法による) (2)SN比=5、10、15、20、∞(雑音無し)
dBとしてHMM合成し、マルチパス化した音響モデル
(第4の実施形態に係るHMMマルチパス合成法によ
る)
9に示す。図9から明らかなように、第3又は第4の実
施形態に係る合成法を用いることで、10分の1の適応
データ量で従来法とほぼ同等の認識性能を達成できる。
また、ベースラインモデルに対して、SN比=15dB
固定の場合において14%の性能向上が見られた。さら
に、また、適応化モデルのマルチパス化により、SN比
=5dBにおいてベースラインに比べて53%の性能向
上を得た。
装置は以下の特有の効果を有する。 (1)複数の種類の環境雑音の波形信号データに基づい
てガウス混合モデルを生成しているので、このガウス混
合モデルと、音声HMMとを合成した適応化されたHM
Mは、未知の雑音の混入に対して頑強なモデルとなる。 (2)雑音モデルとして複数混合のモデルを利用するこ
とにより、多種多様な雑音に対して有効な雑音モデルの
構築ができ、雑音の時間的変動に対する耐性が向上す
る。 (3)雑音モデルの混合重み係数を環境雑音データを用
いて適応化した場合、従来例に比較して計算量を大幅に
軽減でき、大規模な音響モデルにおいても高速に環境適
応化が可能になる。また、音声認識率を大幅に向上でき
る。 (4)SN比別マルチパスモデルによれば、入力音声の
SN比が既知であるという制約に拘束されず、従来例に
比較して音声認識時に高い音声認識率を得ることができ
る。
に係る音響モデル生成装置によれば、学習用の複数の種
類の環境雑音の波形信号データから、出力尤度が最大と
なるように、1状態で複数混合のガウス混合モデルを生
成し、所定の雑音のない音声HMMと、上記生成手段に
より生成された雑音ガウス混合モデルとから、これらの
各状態のすべての組み合わせの状態において、所定の重
み係数で重み付けされた各ガウス分布の線形結合の和で
表した各状態の混合ガウス分布を含み、かつ上記雑音の
ない音声HMMと上記生成された雑音ガウス混合モデル
の間の複数の信号対雑音比に対応する複数の適応化され
たHMMを生成し、生成された複数の適応化されたHM
Mを並置してマルチパス形式となるように合成してなる
音響モデルを生成する。従って、入力音声のSN比が既
知であるという制約に拘束されない。また、未知雑音の
混入に対して頑強であって音響モデルの計算量を増大さ
せることなく、第3の従来例に比較して音声認識時に高
い音声認識率を得ることができる。
生成装置によれば、学習用の複数の種類の環境雑音の波
形信号データから、出力尤度が最大となるように、1状
態で複数混合のガウス混合モデルを生成し、所定の雑音
のない音声HMMと、上記生成手段により生成された雑
音ガウス混合モデルとから、これらの各状態のすべての
組み合わせの状態において、所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含み、かつ、音声認識時の環境雑音デー
タに基づいて上記雑音ガウス混合モデルの混合重みを適
応化されたHMMにてなる音響モデルを生成する。従っ
て、環境雑音データに基づいて適応化されているので、
第3の従来例に比較して音声認識時に高い音声認識率を
得ることができ、また、未知雑音の混入に対して頑強で
あって音響モデルの計算量を増大させることない。
ル生成装置によれば、学習用の複数の種類の環境雑音の
波形信号データから、出力尤度が最大となるように、1
状態で複数混合のガウス混合モデルを生成し、所定の雑
音のない音声HMMと、上記生成手段により生成された
雑音ガウス混合モデルとから、これらの各状態のすべて
の組み合わせの状態において、所定の重み係数で重み付
けされた各ガウス分布の線形結合の和で表した各状態の
混合ガウス分布を含み、音声認識時の環境雑音データに
基づいて上記雑音ガウス混合モデルの混合重みを適応化
され、かつ上記雑音のない音声HMMと上記生成された
雑音ガウス混合モデルの間の複数の信号対雑音比に対応
する複数の適応化されたHMMを生成し、生成された複
数の適応化されたHMMを並置してマルチパス形式とな
るように合成してなる音響モデルを生成する。従って、
入力音声のSN比が既知であるという制約に拘束されな
い。また、未知雑音の混入に対して頑強であって音響モ
デルの計算量を増大させることなく、第3の従来例に比
較して音声認識時に高い音声認識率を得ることができ
る。
置によれば、自然発話文の発話音声信号に基づいてその
特徴量を抽出し、抽出された特徴量に基づいて、上記合
成された適応化されたHMMを用いて上記発話音声信号
の音声認識を行って音声認識結果を出力する。従って、
未知の雑音が混入した音声信号に対して、従来例に比較
して高い音声認識率で音声認識することができ、雑音が
重畳した音声に対して頑健な音声認識装置を提供でき
る。
デル生成装置100a及び音声認識装置200の構成を
示すブロック図である。
デル生成装置100b、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
デル生成装置100c、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
デル生成装置100d、音声認識装置200及び環境雑
音測定装置300の構成を示すブロック図である。
声HMMと雑音GMMとを合成する方法を示す説明図で
ある。
法による、雑音のない音声HMMと雑音GMMとを合成
する方法を示す説明図である。
2混合の出力分布で表現されているときの、HMM合成
後の出力確率分布の導出を示す説明図である。
応化およびHMM合成の方法を示す説明図である。
1,2、第1の実施形態、第3の実施形態、第4の実施
形態に係る実験結果であって、SN比に対するワードア
キュラシーを示すグラフである。
ル生成装置、 200…音声認識装置、 300…環境雑音測定装置、 310…環境雑音メモリ。
Claims (4)
- 【請求項1】 学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、1状態で複数混合のガウス混合モデルを生成する生
成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、かつ上記
雑音のない音声隠れマルコフモデルと上記生成された雑
音ガウス混合モデルの間の複数の信号対雑音比に対応す
る複数の適応化された隠れマルコフモデルを生成し、生
成された複数の適応化された隠れマルコフモデルを並置
してマルチパス形式となるように合成してなる音響モデ
ルを生成する合成手段とを備えたことを特徴とする音響
モデル生成装置。 - 【請求項2】 学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、1状態で複数混合のガウス混合モデルを生成する生
成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、かつ、音
声認識時の環境雑音データに基づいて上記雑音ガウス混
合モデルの混合重みを適応化された隠れマルコフモデル
にてなる音響モデルを生成する合成手段とを備えたこと
を特徴とする音響モデル生成装置。 - 【請求項3】 学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、 上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、1状態で複数混合のガウス混合モデルを生成する生
成手段と、 所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、音声認識
時の環境雑音データに基づいて上記雑音ガウス混合モデ
ルの混合重みを適応化され、かつ上記雑音のない音声隠
れマルコフモデルと上記生成された雑音ガウス混合モデ
ルの間の複数の信号対雑音比に対応する複数の適応化さ
れた隠れマルコフモデルを生成し、生成された複数の適
応化された隠れマルコフモデルを並置してマルチパス形
式となるように合成してなる音響モデルを生成する合成
手段とを備えたことを特徴とする音響モデル生成装置。 - 【請求項4】 自然発話文の発話音声信号に基づいてそ
の特徴量を抽出する抽出手段と、 上記抽出された特徴量に基づいて、請求項1乃至3のう
ちのいずれか1つに記載の音響モデル生成装置により生
成された音響モデルを用いて上記発話音声信号の音声認
識を行って音声認識結果を出力する音声認識手段とを備
えたことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001378546A JP2003177781A (ja) | 2001-12-12 | 2001-12-12 | 音響モデル生成装置及び音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001378546A JP2003177781A (ja) | 2001-12-12 | 2001-12-12 | 音響モデル生成装置及び音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003177781A true JP2003177781A (ja) | 2003-06-27 |
Family
ID=19186236
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001378546A Pending JP2003177781A (ja) | 2001-12-12 | 2001-12-12 | 音響モデル生成装置及び音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003177781A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
| JP2006091864A (ja) * | 2004-08-26 | 2006-04-06 | Asahi Kasei Corp | 音声認識装置、音声認識方法、及び、プログラム |
| WO2008126347A1 (ja) * | 2007-03-16 | 2008-10-23 | Panasonic Corporation | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
| JP2014142626A (ja) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | 音声識別方法および装置 |
| JP2014142627A (ja) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | 音声識別方法および装置 |
| US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
| CN111667428A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 基于自动搜索的噪声生成方法和装置 |
| CN113870826A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于时长预测模型的发音时长预测方法及相关设备 |
-
2001
- 2001-12-12 JP JP2001378546A patent/JP2003177781A/ja active Pending
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
| US7266494B2 (en) | 2001-09-27 | 2007-09-04 | Microsoft Corporation | Method and apparatus for identifying noise environments from noisy signals |
| JP2006091864A (ja) * | 2004-08-26 | 2006-04-06 | Asahi Kasei Corp | 音声認識装置、音声認識方法、及び、プログラム |
| WO2008126347A1 (ja) * | 2007-03-16 | 2008-10-23 | Panasonic Corporation | 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路 |
| US8478587B2 (en) | 2007-03-16 | 2013-07-02 | Panasonic Corporation | Voice analysis device, voice analysis method, voice analysis program, and system integration circuit |
| US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
| JP2014142627A (ja) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | 音声識別方法および装置 |
| JP2014142626A (ja) * | 2013-01-24 | 2014-08-07 | ▲華▼▲為▼終端有限公司 | 音声識別方法および装置 |
| JP2017058691A (ja) * | 2013-01-24 | 2017-03-23 | ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. | 音声識別方法および装置 |
| US9607619B2 (en) | 2013-01-24 | 2017-03-28 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
| US9666186B2 (en) | 2013-01-24 | 2017-05-30 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
| CN111667428A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 基于自动搜索的噪声生成方法和装置 |
| CN113870826A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于时长预测模型的发音时长预测方法及相关设备 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4274962B2 (ja) | 音声認識システム | |
| CN101014997B (zh) | 用于生成用于自动语音识别器的训练数据的方法和系统 | |
| JP5127754B2 (ja) | 信号処理装置 | |
| Tan et al. | Low-complexity variable frame rate analysis for speech recognition and voice activity detection | |
| CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
| JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
| US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| Deligne et al. | A robust high accuracy speech recognition system for mobile applications | |
| US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| JP2003177781A (ja) | 音響モデル生成装置及び音声認識装置 | |
| TWI356399B (en) | Speech recognition system and method with cepstral | |
| JP5443547B2 (ja) | 信号処理装置 | |
| Kawamura et al. | A new noise reduction method using estimated noise spectrum | |
| JP2004509364A (ja) | 音声認識システム | |
| JP3250604B2 (ja) | 音声認識方法および装置 | |
| Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms. | |
| Remane et al. | SEASR: Speech Enhancement for Automatic Speech Recognition Systems using Convolution Recurrent Neural Network with Residual Connections | |
| JP2002091480A (ja) | 音響モデル生成装置及び音声認識装置 | |
| Sarikaya | Robust and efficient techniques for speech recognition in noise | |
| Hirsch | Automatic speech recognition in adverse acoustic conditions | |
| Pacheco et al. | Spectral subtraction for reverberation reduction applied to automatic speech recognition | |
| Athanaselis et al. | Robust speech recognition in the presence of noise using medical data | |
| Muralishankar et al. | A comparative analysis of noise robust speech features extracted from all-pass based warping with MFCC in a noisy phoneme recognition | |
| Raut et al. | Maximum likelihood based HMM state filtering approach to model adaptation for long reverberation | |
| Milner | Speech feature extraction and reconstruction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060130 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060407 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070703 |