JP2003177781A

JP2003177781A - 音響モデル生成装置及び音声認識装置

Info

Publication number: JP2003177781A
Application number: JP2001378546A
Authority: JP
Inventors: Masaki Ida; 政樹伊田; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2001-12-12
Filing date: 2001-12-12
Publication date: 2003-06-27

Abstract

(57)【要約】【課題】入力音声のＳＮ比が既知であるという制約に
拘束されない音響モデルを提供する。【解決手段】ガウス混合モデル生成部１１はデータベ
ースメモリ２１に格納された学習用の複数の種類の環境
雑音の波形信号データに基づいて出力尤度が最大となる
ように１状態で複数混合のガウス混合モデルを生成し、
ＨＭＭ合成部１３は所定の雑音のない音声ＨＭＭと生成
された雑音ガウス混合モデルからこれらの各状態の全て
の組み合わせの状態において所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含みかつ雑音のない音声ＨＭＭと生成さ
れた雑音ガウス混合モデルの間の複数のＳＮ比に対応す
る複数の適応化されたＨＭＭを生成し、生成された複数
の適応化されたＨＭＭを並置しマルチパス形式の音響モ
デルを生成する。音声認識部４は抽出された特徴量に基
づき上記適応化された音響モデルを用いて発話音声信号
の音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置のた
めの音響モデル生成装置及び音声認識装置に関する。

【０００２】

【従来の技術】音声認識システムの実環境下での使用を
考えたとき、周囲の環境音が存在するために認識性能の
低下が避けられない。そこで、周囲の環境音の混入に対
してロバストな音響モデルが必要になる。環境音の混入
にロバストな音響モデルの生成法としては、認識時の環
境音そのものを用いることはできないので、予め混入環
境音を予測して適応化を行う方法が用いられる。ところ
が、混入環境音の予測は変動成分を含むため、困難であ
ることが多い。

【０００３】従来技術における音響モデルの適応化の方
法としては次の２つに大別される。一方は、システム設
計時に認識時の環境音を想定した音響モデルを作成する
方法である。すなわち、例えば、既知の雑音の波形デー
タベースに基づいて、学習用雑音隠れマルコフモデル
（以下、隠れマルコフモデルをＨＭＭという。）を生成
した後、これを用いて、雑音のない音声ＨＭＭを学習す
ることにより適応化されたＨＭＭを生成し、これを音声
認識装置に用いることができる（以下、第１の従来例と
いう。）。

【０００４】これに対してもう一方は、認識時の環境音
データによって随時音響モデルの適応する方式である。
認識時の環境音そのものを適応化に用いることはできな
いので、一般に音声入力の直前の比較的少量の環境音が
用いられる（以下、第２の従来例という。）。

【０００５】第１の従来例の方法によれば、想定した範
囲内の環境音の混入に対しては強いロバスト性を示す。
しかしながら、未知の雑音に対しては対応できず、頑強
性に欠けるという問題点があり、さまざまな環境音の混
入を想定した場合、すべての音声と環境音の組合わせに
ついて考慮する必要があるため、コスト面において現実
的ではない。すなわち、既知の雑音の種類を多くした場
合、適応化されたＨＭＭの計算量が多大になるという問
題点があった。

【０００６】第２の従来例の方法においては、少量のデ
ータから認識中のあらゆる環境音を予測することは非常
に困難であり、想定外の環境音の混入には対応できな
い。

【０００７】前者は混入する環境音がすべて既知である
という条件、後者は混入する環境音の特徴は不変である
という制約条件が存在する。一般に実使用においては環
境音は変動する成分を含んでいるため、上記の制約条件
が満たされるとは限らない。

【０００８】以上の問題点を解決するために、本発明者
らは、特願２０００−２８３５１６号の特許出願におい
て、「学習用の複数の種類の環境雑音の波形信号データ
に基づいて、出力尤度が最大となるように、１状態で複
数混合のガウス混合モデルを生成し、所定の雑音のない
音声ＨＭＭと、上記生成された雑音ガウス混合モデル
（ＧＭＭ）とを、これらの各状態のすべての組み合わせ
の状態において、所定の重み係数で重み付けされた各ガ
ウス分布の線形結合の和で表した各状態の混合ガウス分
布を含む適応化されたＨＭＭを生成することにより合成
する音響モデル生成装置」（以下、第３の従来例とい
う。）を提案している。

【０００９】この第３の従来例において用いたＨＭＭ合
成法は、事前に雑音のない音声を用いて学習を行った音
素の音響モデルと、環境雑音のモデルとを合成すること
で、モデル化された環境雑音に適応した音響モデルを作
成する方法である。ここで、加法性の雑音のみを仮定す
る。観測される入力音声のパワースペクトルをＹとし、
これを環境雑音のパワースペクトルＮと雑音のないクリ
ーンな音声のパワースペクトルＳで表し、ここで、各パ
ラメータにおける線形スペクトル領域の量を、それらの
記号に下付き「ｌｉｎｓｐｃ」を付して表す。環境雑音
の加法性は線形スペクトル領域において次式のごとく成
立する。

【００１０】

【数１】Ｙ_{ｌｉｎｓｐｃ}＝Ｓ_{ｌｉｎｓｐｃ}＋Ｎ_{ｌｉｎｓｐｃ}

【００１１】一方、音響モデルは一般的にスペクトルに
より特徴抽出されているので、次式となる。

【００１２】

【数２】Ｙ_ｃｅｐ＝Γ^−１・ｌｏｇ［ｅｘｐ｛Γ（Ｓ
_ｃｅｐ）｝＋ｋ・ｅｘｐ｛Γ（Ｎ_ｃｅｐ）｝］

【００１３】ここで、Γはフーリエ変換の演算子であ
り、Γ^−１はフーリエ逆変換の演算子であり、ｋは信号
対雑音電力比（以下、ＳＮ比という。）に応じて決定す
る係数である。上記数２をＨＭＭに適応した場合、合成
ＨＭＭの構造は図５に示すように各ＨＭＭの直積で表さ
れる。遷移確率は対応する遷移確率の積で求められ、出
力確率分布は各状態において結合される。

【００１４】

【発明が解決しようとする課題】しかしながら、第３の
従来例に係る音響モデル生成装置で生成された音響モデ
ルを用いて音声認識した場合であっても、いまだ音声認
識率は低いという問題点があった。

【００１５】また、第３の従来例で用いるＨＭＭ合成法
においては、上記数２に示す通り、入力音声のＳＮ比が
既知であるという制約がある。もしこの制約を除去でき
れば、ＳＮ比に関して自由度が高く、種々のＳＮ比に対
して対応可能な音響モデルを生成することができる。

【００１６】本発明の目的は以上の諸問題点を解決し、
未知雑音の混入に対して頑強であって音響モデルの計算
量を増大させることなく、第３の従来例に比較して高い
音声認識率を得ることができる音響モデルを生成する音
響モデル生成装置、及び、当該音響モデル生成装置を用
いた音声認識装置を提供することにある。

【００１７】また、本発明の目的は以上の問題点を解決
し、入力音声のＳＮ比が既知であるという制約に拘束さ
れない音響モデルを生成する音響モデル生成装置、及
び、当該音響モデル生成装置を用いた音声認識装置を提
供することにある。

【００１８】

【課題を解決するための手段】本願の第１の発明に係る
音響モデル生成装置は、学習用の複数の種類の環境雑音
の波形信号データを格納する記憶手段と、上記記憶手段
に格納された学習用の複数の種類の環境雑音の波形信号
データから、出力尤度が最大となるように、１状態で複
数混合のガウス混合モデルを生成する生成手段と、所定
の雑音のない音声ＨＭＭと、上記生成手段により生成さ
れた雑音ガウス混合モデルとから、これらの各状態のす
べての組み合わせの状態において、所定の重み係数で重
み付けされた各ガウス分布の線形結合の和で表した各状
態の混合ガウス分布を含み、かつ上記雑音のない音声Ｈ
ＭＭと上記生成された雑音ガウス混合モデルの間の複数
の信号対雑音比に対応する複数の適応化されたＨＭＭを
生成し、生成された複数の適応化されたＨＭＭを並置し
てマルチパス形式となるように合成してなる音響モデル
を生成する合成手段とを備えたことを特徴とする。

【００１９】また、本願の第２の発明に係る音響モデル
生成装置は、学習用の複数の種類の環境雑音の波形信号
データを格納する記憶手段と、上記記憶手段に格納され
た学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、１状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声ＨＭＭと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、かつ、音声認識時の環境雑音データ
に基づいて上記雑音ガウス混合モデルの混合重みを適応
化されたＨＭＭにてなる音響モデルを生成する合成手段
とを備えたことを特徴とする。

【００２０】さらに、本願の第３の発明に係る音響モデ
ル生成装置は、学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納さ
れた学習用の複数の種類の環境雑音の波形信号データか
ら、出力尤度が最大となるように、１状態で複数混合の
ガウス混合モデルを生成する生成手段と、所定の雑音の
ない音声ＨＭＭと、上記生成手段により生成された雑音
ガウス混合モデルとから、これらの各状態のすべての組
み合わせの状態において、所定の重み係数で重み付けさ
れた各ガウス分布の線形結合の和で表した各状態の混合
ガウス分布を含み、音声認識時の環境雑音データに基づ
いて上記雑音ガウス混合モデルの混合重みを適応化さ
れ、かつ上記雑音のない音声ＨＭＭと上記生成された雑
音ガウス混合モデルの間の複数の信号対雑音比に対応す
る複数の適応化されたＨＭＭを生成し、生成された複数
の適応化されたＨＭＭを並置してマルチパス形式となる
ように合成してなる音響モデルを生成する合成手段とを
備えたことを特徴とする。

【００２１】またさらに、本願の第４の発明に係る音声
認識装置は、自然発話文の発話音声信号に基づいてその
特徴量を抽出する抽出手段と、上記抽出された特徴量に
基づいて、請求項１乃至３のうちのいずれか１つに記載
の音響モデル生成装置により生成された音響モデルを用
いて上記発話音声信号の音声認識を行って音声認識結果
を出力する音声認識手段とを備えたことを特徴とする。

【００２２】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００２３】＜第１の実施形態＞図１は、本発明に係る
第１の実施形態であるＨＭＭモデル生成装置１００ａ及
び音声認識装置２００の構成を示すブロック図である。
この実施形態に係るＨＭＭモデル生成装置１００ａは、
複数の種類の環境音の雑音波形を含む学習用環境雑音波
形データベースを用いて雑音ガウス混合モデルを生成す
るガウス混合モデル生成部１１と、生成された雑音ガウ
ス混合モデルを用いて、雑音のない音声ＨＭＭを、公知
のＨＭＭ合成法により学習し、かつ上記雑音のない音声
ＨＭＭと上記生成された雑音ガウス混合モデルの間の複
数のＳＮ比に対応する複数の適応化されたＨＭＭを生成
し、生成された複数の適応化されたＨＭＭを並置してマ
ルチパス形式となるように合成してなるＨＭＭの音響モ
デルを生成するＨＭＭマルチパス合成部１３ａとを主構
成要素として備える。具体的には、本実施形態では、環
境変動にロバストな音声モデルを少ない計算量で構築す
る方法であって、未知の環境音が混入した場合のロバス
ト性を高めるため、予めさまざまな環境音が混入すると
想定し、複数の種類の環境音を適応データとして与えた
ＨＭＭ合成による環境適応化を行い、ここで、環境音を
ＨＭＭとして独立に学習し、公知のＨＭＭ合成法（例え
ば、従来技術文献１「F. Martin et al.,”Recognition
of Noisy Speech by Composition of Hidden Markov M
odels”,電子情報通信学会技術報告, SP92-96, pp.9-1
6, 1992」、従来技術文献２「南泰浩ほか，“ＨＭＭ合
成に基づく尤度最大化適応法”，電子情報通信学会技術
報告，ＳＰ９５−２４，１９９５年６月」など参照。）
によってすべての音声モデルに複数の種類の環境音の影
響を適応化させている。

【００２４】従来技術における上述の問題点を解決する
ために、本実施形態で用いる手法は、未知の環境音が混
入した場合のロバスト性を高めるため、予めさまざまな
環境音が混入すると想定した環境適応化を行う。さまざ
まな環境音を雑音ガウス混合モデルとして独立に学習
し、ＨＭＭ合成によってすべての音声モデルに複数の種
類の環境音の影響を適応化させることにより環境変動に
ロバストな音声モデルを少ない計算量で構築することが
可能になる。

【００２５】また、第３の従来例におけるＨＭＭ合成法
においては、上記数２に示す通り、入力音声のＳＮ比が
既知であるという制約がある。この問題の解決のため、
複数のＳＮ比に対応した適応化ＨＭＭを並列に構築する
手法を用いる。この手法の説明図を図６に示す。この手
法では、雑音モデルを合成する際に、入力音声として予
測される範囲内のいくつかのＳＮ比に対応した複数の合
成ＨＭＭ（ＳＮ比別マルチパスモデル）を得る（本実施
形態では、ＳＮ比＝１０，１５，２０ｄＢであり、この
手法を、以下「ＨＭＭマルチパス合成法」という。）。
音声認識の際、入力音声のＳＮ比はわからないので、こ
れら各合成ＨＭＭを１つのモデルとして取り扱う。すな
わち、各モデルに複数のＳＮ比のパスを定義し、デコー
ドする際に最も尤度の高い経路を選択させるように構成
する。

【００２６】図１において、雑音のない音声波形データ
ベースメモリ３１は、例えば複数の話者の大規模な音素
ラベル付き音声波形信号（雑音がなくクリーンであ
る。）のデータベースを格納しており、また、ＨＭＭ生
成部１２は、当該データベースに基づいて公知のＥＭ
（Expectation-Maximization)アルゴリズムを用いて、
出力尤度が最大となるように、雑音のない音声ＨＭＭを
生成して雑音のない音声ＨＭＭメモリ３２に出力して格
納する。一方、学習用環境雑音波形データベースメモリ
２１は、例えば電子協騒音データベース（例えば、従来
技術文献３「電子協騒音データベース，（社）日本電子
工業振興協会，http://www.jeida.or.jp/committee/hum
anmed/speech/noisedbj.html」など参照。）に格納され
た、学習用の複数の種類の環境雑音の波形信号のデータ
を格納していて、このデータベースメモリ２１に格納さ
れた学習用の複数の種類の環境雑音の波形信号のデータ
に基づいて、ガウス混合モデル生成部１１は、公知のＥ
Ｍアルゴリズムを用いて、出力尤度が最大となるよう
に、１状態で複数混合の雑音ガウス混合モデルを生成し
て雑音ガウス混合モデルメモリ２２に出力して格納す
る。さらに、ＨＭＭマルチパス合成部１３ａは、音声Ｈ
ＭＭメモリ３２に格納された雑音のない音声ＨＭＭと、
モデルメモリ２２に格納された雑音ガウス混合モデルと
から、公知のＨＭＭ合成法を用いて、適応化されたＨＭ
Ｍであって、上記雑音のない音声ＨＭＭと上記生成され
た雑音ガウス混合モデルの間の複数の信号対雑音比に対
応する複数の適応化されたＨＭＭを生成し、生成された
複数の適応化されたＨＭＭを並置してマルチパス形式と
なるように合成してなる、適応化されたＨＭＭを生成し
て適応化されたＨＭＭメモリ２３に出力して格納する。

【００２７】本実施形態のＨＭＭマルチパス合成部１３
ａで用いるＨＭＭ合成法とは、雑音の存在しないクリー
ンな環境で学習された音声ＨＭＭと環境音の特徴を学習
した雑音ガウス混合モデルとを合成して、環境音の混入
した音声に対するＨＭＭを作成する方法である。このＨ
ＭＭ合成法では、従来技術文献２の図２に図示されるよ
うに、ケプストラム領域にある音声と雑音の各ガウス分
布をそれぞれコサイン変換することにより、対数スペク
トル領域の音声と雑音の各ガウス分布に変換した後、さ
らに、指数変換することにより線形スペクトル領域の音
声と雑音の対数ガウス分布に変換する。ここで、指数変
換後の線形スペクトル領域の音声と雑音の対数ガウス分
布を互いに重み係数付け加算することにより、線形スペ
クトル領域における雑音が重畳した音声の対数ガウス分
布を生成する。さらに、生成した雑音が重畳した音声の
対数ガウス分布を対数変換して、対数スペクトル領域に
おける雑音が重畳した音声のガウス分布に変換した後、
さらに逆コサイン変換することによりケプストラム領域
における雑音が重畳した音声のガウス分布を得る。以上
がＨＭＭ合成法での出力確率の合成法である。

【００２８】雑音ガウス混合モデルの状態は、環境音の
多様性を表現するために出力確率分布を混合ガウス分布
で表す。このときの合成後のＨＭＭの出力確率分布は、
ケプストラム領域における音声ＨＭＭの混合分布と雑音
ガウス混合モデルの混合分布の和で表される。すなわ
ち、混合分布を構成する各ガウス分布は、音声ＨＭＭの
各状態と、雑音ガウス混合モデルの状態とのガウス分布
におけるすべての組合わせの和で表現され、混合の重み
係数は各重み係数の積で表現される。

【００２９】上述のように、音声ＨＭＭと雑音ガウス混
合モデルとの合成を行うときに、各出力分布が混合ガウ
ス分布で表現されているとき、合成後の出力分布はそれ
ぞれの混合要素のすべての組合わせになる。合成後の各
要素の平均及び分散は元の混合要素の和になる。合成後
の各要素の混合重み係数は、元の混合重み係数の積で表
される。図７は音声ＨＭＭ及び雑音ガウス混合モデルと
もに２混合の出力分布で表現されているときの、ＨＭＭ
合成後の出力確率分布の導出を示している。なお、図７
において、Ｎ（・）は各ガウス分布の平均及び分散を示
す。音声ＨＭＭの第１状態の出力確率分布がガウス分布
Ｓ₁₁，Ｓ₁₂の重み係数付き和であり、雑音ガウス混合モ
デルの出力確率分布がＮ₁，Ｎ₂の重み係数つき和であ
り、すなわち、所定の重み係数で重み付けされたガウス
分布の線形結合の和である。それぞれの重み係数はｗ
_s11，ｗ_ｓ12，ｗ_n1，ｗ_n2とする。このとき、合成後の
適応化されたの第１状態の出力分布は、Ｓ₁₁＋Ｎ₁，Ｓ
₁₂＋Ｎ₁，Ｓ₁₁＋Ｎ₂，Ｓ₁₂＋Ｎ₂の４つのガウス分布の
重み係数付き和になる。さらに、同様にして、雑音ガウ
ス混合モデルの状態と、音声ＨＭＭの第２の状態との組
み合わせにおけるＨＭＭ合成、並びに、雑音ガウス混合
モデルの状態と、音声ＨＭＭの第３の状態との組み合わ
せにおけるＨＭＭ合成を行う。

【００３０】従って、ＨＭＭマルチパス合成部１３ａ
は、音声ＨＭＭメモリ３２に格納されている雑音のない
音声ＨＭＭと、モデルメモリ２２に格納されている雑音
ガウス混合モデルとを、公知のＨＭＭ合成法を用いて、
これらの各状態のすべての組み合わせの状態において、
所定の重み係数で重み付けされた各ガウス分布の線形結
合の和で表した各状態の混合ガウス分布を含む適応化さ
れたＨＭＭであって、上記雑音のない音声ＨＭＭと上記
生成された雑音ガウス混合モデルの間の複数の信号対雑
音比に対応する複数の適応化されたＨＭＭを生成し、生
成された複数の適応化されたＨＭＭを並置してマルチパ
ス形式となるように合成してなる、適応化されたＨＭＭ
を生成して適応化されたＨＭＭメモリ２３に出力して格
納する。

【００３１】図１において、音声認識装置２００は、マ
イクロホン１と、Ａ／Ｄ変換器２と、特徴抽出部３と、
音声認識部４とを備えて構成される。自然発話文の発生
音声はマイクロホン１に入力されて発声音声信号に変換
された後、Ａ／Ｄ変換器２により所定のサンプリング周
波数で音声ディジタルデータ信号にＡ／Ｄ変換される。
次いで、特徴抽出部３は、入力される音声ディジタルデ
ータ信号に基づいて、例えばＬＰＣ分析することによ
り、例えば、１２次のメルケプストラム係数と、１２次
のΔメルケプストラム係数と、パワーと、Δパワーとを
含む特徴ベクトルを抽出して音声認識部４に出力する。
さらに、音声認識部４は、ＨＭＭメモリ２３に格納され
た適応化されたＨＭＭを用いて音素の尤度を計算すると
ともに、単語ＨＭＭメモリ５に予め格納されている所定
の音素ベースの単語ＨＭＭを用いて単語の尤度を計算し
て、出力尤度が最大となる音素からなる単語を決定する
ことにより音声認識処理を行い、音声認識結果の最尤単
語の文字列を生成して出力する。

【００３２】＜第２の実施形態＞図２は、本発明に係る
第２の実施形態であるＨＭＭモデル生成装置１００ｂ、
音声認識装置２００及び環境雑音測定装置３００の構成
を示すブロック図であり、図２において図１と同一の構
成要素については同一の符号を付しており、それらの詳
細説明を省略する。この第２の実施形態は、図１に図示
された第１の実施形態に比較して、以下の相違点を有す
る。（１）ＨＭＭモデル生成装置１００ｂは、ＨＭＭモデル
生成装置１００ａに比較して、ＨＭＭマルチパス合成部
１３ａに代えて、第３の従来例に係るＨＭＭ合成部１３
を備えるとともに、雑音ガウス混合モデルメモリ２２と
ＨＭＭ合成部１３との間に混合重み適応化部１４を備え
る。（２）環境雑音測定装置３００とそれに接続された環境
雑音メモリ３１０とをさらに備える。以下、これら相違
点について詳細に説明する。

【００３３】実環境下で音声認識装置２００を使用する
場合において、周囲の環境に依存した環境雑音がマイク
ロホン１に混入することは避けられない。混入する雑音
の多くは予測することが難しく、変動する雑音の混入に
対してロバストな音響モデルが求められている。本実施
形態では、この問題点に対して、雑音データベースによ
り構築した環境雑音モデルの適応化を組み込んだＨＭＭ
合成法を用いる。従来においては、環境音のモデルの生
成に使用環境の実雑音を用いた学習を行っているが、実
用上の制約から取得できる実雑音のデータ量は限られて
いるので、少量のデータから得られる環境雑音モデルは
変動に対して弱いという問題点があった。そこで、本実
施形態では、初期環境雑音モデルを雑音データベースを
用いて用意しておき、少量の実雑音データで適応化を行
う。

【００３４】本実施形態では、音声認識時の環境雑音が
発生音声に仮想的な加算器６により加算されてマイクロ
ホン１に入力されることを仮定している。一方、本実施
形態では、発生音声が無いときの環境雑音を環境雑音測
定装置３００に入力し、当該環境雑音測定装置３００
は、入力される環境雑音をマイクロホンにより電気信号
に変換し、かつＡ／Ｄ変換器によりＡ／Ｄ変換すること
により、環境雑音のディジタルデータを得て、環境雑音
メモリ３１０に格納する。この環境雑音のディジタルデ
ータは、例えば１秒である短時間で少量の適応化用学習
データである。

【００３５】混合重み適応化部１４は、雑音ガウス混合
モデルメモリ２２に格納された１状態で複数混合の雑音
ガウス混合モデルにおける混合重みを、環境雑音メモリ
３１０に格納された環境雑音のディジタルデータに基づ
いて、例えば公知の最大事後確率推定法（以下、ＭＡＰ
推定法という。例えば、従来技術文献４「中川聖一，
“確率モデルによる音声認識”，電子情報通信学会，ｐ
ｐ．１５２−１５５，昭和６３年７月１日初版発行」参
照。）を用いて、尤度の一例である最大事後確率が最大
となるように適応化を行い、適応化された雑音ガウス混
合モデルをＨＭＭ合成部１３に出力する。ここで、適応
化を雑音ガウス混合モデルの重み係数に限定しているの
で、適応化を行った上でＨＭＭ合成したモデルと初期合
成したＨＭＭの間で、各確率分布の分散や平均が変化す
ることはない。したがって、適応化で得た重み係数を初
期合成ＨＭＭに対応づけることで適応化ＨＭＭを得るこ
とができる。次いで、ＨＭＭ合成部１３は、音声ＨＭＭ
メモリ３２に格納された雑音のない音声ＨＭＭと、混合
重み適応化部１４から出力される雑音ガウス混合モデル
とを、公知のＨＭＭ合成法を用いて合成し、当該合成さ
れ、適応化されたＨＭＭを生成して適応化されたＨＭＭ
メモリ２３に出力して格納する。

【００３６】以上のように構成された実施形態において
は、雑音ガウス混合モデルの混合重みが音声認識時の少
量の環境雑音データに基づいて適応化されているので、
環境雑音モデルの生成に要する実雑音データ量を大幅に
削減することができ、同時に雑音変動に対するロバスト
性を頑強にできる。

【００３７】＜第３の実施形態＞図３は、本発明に係る
第３の実施形態であるＨＭＭモデル生成装置１００ｃ、
音声認識装置２００及び環境雑音測定装置３００の構成
を示すブロック図であり、図３において図１及び図２と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第３の実施形態は、図
２に図示された第２の実施形態に比較して、「混合重み
適応化部１４とＨＭＭ合成部１３とを統合して、混合重
み適応化及びＨＭＭ合成部１３ｂとしたこと」という相
違点を有する。以下、この相違点について詳細に説明す
る。

【００３８】この実施形態においては、混合重み適応化
及びＨＭＭ合成部１３ｂは、第２の実施形態のごとく、
適応化をした後、ＨＭＭ合成をするのではなく、ＨＭＭ
合成した後適応化の処理を実行する。すなわち、まず、
後の計算簡単化のため、雑音ガウス混合モデルメモリ２
２に格納された雑音ガウス混合モデルと、雑音のない音
声ＨＭＭメモリ３２に格納された音声ＨＭＭとを、上述
のＨＭＭ合成法を用いて合成し、初期合成ＨＭＭを準備
する。次いで、環境適応化の際に、環境雑音メモリ３１
０に格納された短時間で少量の環境雑音のディジタルデ
ータに基づいて、上記準備した初期合成ＨＭＭに対し
て、ＭＡＰ推定法を用いて混合重み適応化を実行して適
応化されたＨＭＭを得る。適応化を雑音ガウス混合モデ
ルの混合重み係数に限定しているので、適応化を行った
上でＨＭＭ合成した適応化ＨＭＭと、初期合成ＨＭＭの
間で、各確率分布の平均や分散が変化することはなく、
環境適応化により変化するのは重み係数のみである。従
って、雑音ガウス混合モデルの適応化で得た重み係数を
合成後のモデルに直接反映することで適応化ＨＭＭを得
ることができ、計算量を大きく削減できる。この処理を
図８に示す。

【００３９】図８から明らかなように、適応化されたＨ
ＭＭにおける各構成要素は、音声ＨＭＭと雑音ガウス混
合モデルとをスペクトル領域において合成したものに対
して雑音ガウス混合モデルの混合重みを乗算したものの
線形結合で表されている。従って、ＨＭＭ合成した後適
応化の処理を実行することができ、これにより、第２の
実施形態に比較して計算量を大幅に削減できる。

【００４０】＜第４の実施形態＞図４は、本発明に係る
第４の実施形態であるＨＭＭモデル生成装置１００ｄ、
音声認識装置２００及び環境雑音測定装置３００の構成
を示すブロック図であり、図４において図１乃至図３と
同一の構成要素については同一の符号を付しており、そ
れらの詳細説明を省略する。この第４の実施形態は、図
３に図示された第３の実施形態に比較して、「混合重み
適応化及びＨＭＭ合成部１３ｂに代えて、混合重み適応
化及びＨＭＭマルチパス合成部１３ｃを備えたこと」と
いう相違点を有する。以下、この相違点について詳細に
説明する。

【００４１】この実施形態に係る混合重み適応化及びＨ
ＭＭマルチパス合成部１３ｃは、第３の実施形態に係る
混合重み適応化及びＨＭＭ合成部１３ｂに比較して、雑
音ガウス混合モデルと、雑音のない音声ＨＭＭとを合成
するときに、第１の実施形態に係るＨＭＭマルチパス合
成部１３ａによるＨＭＭマルチパス合成法を用いること
を特徴としている。

【００４２】以上のように構成された第４の実施形態に
よれば、短時間で少量の環境雑音のディジタルデータに
基づいて雑音ガウス混合モデルの混合重みを適応化し
て、かつＨＭＭマルチパス合成法を用いて合成している
ので、環境雑音に適応化されかつ、ＳＮ比に関して自由
度が高く、種々のＳＮ比に対して対応可能な音響モデル
を生成することができる。また、第３の実施形態に係る
「ＨＭＭ合成した後適応化の処理」を実行することで、
計算量を大幅に削減できる。

【００４３】

【実施例】本発明者らは、本実施形態に係るＨＭＭモデ
ル生成装置１００ａ，１００ｃ，１００ｄ及び音声認識
装置２００を用いて、連続数字の単語認識実験を行い、
その性能で適応化されたＨＭＭである音響モデルを、Ａ
ＵＲＯＲＡ２データベース（例えば、従来技術文献５
「H. G. Hirsch et al, "The AURORA Experimental Fra
mework for the Performance Evaluations of Speech R
ecognition Systems under Noisy Conditions", ISCA I
TRWA SR2000,"Automatic Speech Recognition:Challeng
es for the Next Millennium", 2000年9月」参照。）を
用いて評価した。このＡＵＲＯＲＡ２データベースは雑
音環境下における音声認識システム評価用データベース
であり、その詳細を表１に示す。

【００４４】

【表１】ＡＵＲＯＲＡ２データベース ――――――――――――――――――――――――――――――――――― タスク：４桁の連続数字認識サンプリング周波数：８ｋＨｚ１６ｂｉｔＰＣＭ／モノラル ――――――――――――――――――――――――――――――――――― 学習セット：雑音：地下鉄、群衆のガヤガヤ雑音、自動車雑音、展示会ホールＳＮ比：５ｄＢ、１０ｄＢ、１５ｄＢ、２０ｄＢ、雑音無し全発話数：８８４０ ――――――――――――――――――――――――――――――――――― テストセットＡ：雑音：地下鉄、群衆のガヤガヤ雑音、自動車雑音、展示会ホールＳＮ比：−５ｄＢ、０ｄＢ、５ｄＢ、１０ｄＢ、１５ｄＢ、２０ｄＢ、雑音無し全発話数：２８０２８ ――――――――――――――――――――――――――――――――――― テストセットＢ：雑音：レストラン、繁華街の通り、空港、列車の駅ＳＮ比：−５ｄＢ、０ｄＢ、５ｄＢ、１０ｄＢ、１５ｄＢ、２０ｄＢ、雑音無し全発話数：２８０２８ ―――――――――――――――――――――――――――――――――――

【００４５】以下、ベースライン（第１の比較例）の結
果は学習セットのうち雑音を含まない音声データを用い
て作成した音響モデル（雑音のないＨＭＭ）のＡセッ
ト、Ｂセットすべての結果の平均を示す。

【００４６】雑音環境下における音声認識で、もっとも
簡単かつ理想的な音響モデルの構築法は入力音声と同じ
雑音環境下での学習データを用いて音響モデルを構築す
る方法である。以下、入力音声と同じ雑音環境下の学習
データで作成した音響モデルを「同一雑音のモデル」
（第２の比較例）と呼ぶ。同一雑音のモデルの学習には
学習セットのうち、１種類の雑音の混入したサブセット
を用い、評価にはＡセットのうち対応した雑音が混入し
た音声データを用いる。これらの平均を同一雑音のモデ
ルの性能とする。音響モデル学習データと評価データの
混入雑音が異なっている場合の評価として上記同一雑音
のモデルとして作成した音響モデルにＡセットのうち対
応しない雑音の混入した音声データを用いて評価する。
結果を図９に示す。ここでの評価値であるワードアキュ
ラシー（％）は次式で定義される。

【００４７】

【数３】

【００４８】図９から明らかなように、学習データと入
力音声の雑音環境が一致していない場合、入力音声のＳ
Ｎ比の低下に伴って大幅に認識性能が低下している。

【００４９】従来技術文献１，２に係るＨＭＭ合成法に
よる音響モデル環境適応化の評価として、ＡＵＲＯＲＡ
２のＢセットを評価データに用いた認識実験を行う。評
価データの各雑音に対して雑音データ（１０秒）を用い
て雑音モデルの学習を行う。ここで、雑音モデルは１状
態８混合のＧＭＭを用いる。この雑音モデルを用いて以
下の２つの音響モデルを作成し、比較する。（１）ＳＮ比＝１５ｄＢとしてＨＭＭ合成した音響モデ
ル（従来技術文献１，２に係るＨＭＭ合成法による）（２）ＳＮ比＝５、１０、１５、２０、∞（雑音なし）
ｄＢとしてＨＭＭ合成し、マルチパス化した音響モデル
（第１の実施形態に係るＨＭＭマルチパス合成法によ
る）

【００５０】これらの実験結果も図９に示す。比較のた
め、ベースラインと同一雑音のモデルの結果もあわせて
示す。ＨＭＭ合成による適応化によって、ＳＮ比＝１５
ｄＢ固定の場合１３％の性能向上が見られた。また、Ｈ
ＭＭのマルチパス化を用いることで、ＳＮ比＝５ｄＢに
おいてベースラインモデルと比べて５８％高い性能を得
た。

【００５１】次いで、第３及び第４の実施形態に係るＨ
ＭＭ合成による音響モデル適応化の評価として、ＡＵＲ
ＯＲＡ２データベースのＢセットを評価データに用いた
認識実験を行う。雑音モデルは１状態８混合のＧＭＭと
し、電子協騒音データベース（例えば、従来技術文献３
参照。）より時間長１０秒×２５種類、合計時間長２５
０秒の雑音データを用いて初期雑音モデルの学習を行
う。評価データの各雑音に対して、雑音データ（時間長
１秒）を用いて雑音モデルの適応化を行う。この雑音モ
デルを用いて、以下の音響モデルを生成した。（１）ＳＮ比＝１５ｄＢとしてＨＭＭ合成した音響モデ
ル（第３の実施形態に係るＨＭＭ合成法による）（２）ＳＮ比＝５、１０、１５、２０、∞（雑音無し）
ｄＢとしてＨＭＭ合成し、マルチパス化した音響モデル
（第４の実施形態に係るＨＭＭマルチパス合成法によ
る）

【００５２】これらの音響モデルに対する実験結果も図
９に示す。図９から明らかなように、第３又は第４の実
施形態に係る合成法を用いることで、１０分の１の適応
データ量で従来法とほぼ同等の認識性能を達成できる。
また、ベースラインモデルに対して、ＳＮ比＝１５ｄＢ
固定の場合において１４％の性能向上が見られた。さら
に、また、適応化モデルのマルチパス化により、ＳＮ比
＝５ｄＢにおいてベースラインに比べて５３％の性能向
上を得た。

【００５３】従って、本実施形態に係る合成法を用いた
装置は以下の特有の効果を有する。（１）複数の種類の環境雑音の波形信号データに基づい
てガウス混合モデルを生成しているので、このガウス混
合モデルと、音声ＨＭＭとを合成した適応化されたＨＭ
Ｍは、未知の雑音の混入に対して頑強なモデルとなる。（２）雑音モデルとして複数混合のモデルを利用するこ
とにより、多種多様な雑音に対して有効な雑音モデルの
構築ができ、雑音の時間的変動に対する耐性が向上す
る。（３）雑音モデルの混合重み係数を環境雑音データを用
いて適応化した場合、従来例に比較して計算量を大幅に
軽減でき、大規模な音響モデルにおいても高速に環境適
応化が可能になる。また、音声認識率を大幅に向上でき
る。（４）ＳＮ比別マルチパスモデルによれば、入力音声の
ＳＮ比が既知であるという制約に拘束されず、従来例に
比較して音声認識時に高い音声認識率を得ることができ
る。

【００５４】

【発明の効果】以上詳述したように、本願の第１の発明
に係る音響モデル生成装置によれば、学習用の複数の種
類の環境雑音の波形信号データから、出力尤度が最大と
なるように、１状態で複数混合のガウス混合モデルを生
成し、所定の雑音のない音声ＨＭＭと、上記生成手段に
より生成された雑音ガウス混合モデルとから、これらの
各状態のすべての組み合わせの状態において、所定の重
み係数で重み付けされた各ガウス分布の線形結合の和で
表した各状態の混合ガウス分布を含み、かつ上記雑音の
ない音声ＨＭＭと上記生成された雑音ガウス混合モデル
の間の複数の信号対雑音比に対応する複数の適応化され
たＨＭＭを生成し、生成された複数の適応化されたＨＭ
Ｍを並置してマルチパス形式となるように合成してなる
音響モデルを生成する。従って、入力音声のＳＮ比が既
知であるという制約に拘束されない。また、未知雑音の
混入に対して頑強であって音響モデルの計算量を増大さ
せることなく、第３の従来例に比較して音声認識時に高
い音声認識率を得ることができる。

【００５５】また、本願の第２の発明に係る音響モデル
生成装置によれば、学習用の複数の種類の環境雑音の波
形信号データから、出力尤度が最大となるように、１状
態で複数混合のガウス混合モデルを生成し、所定の雑音
のない音声ＨＭＭと、上記生成手段により生成された雑
音ガウス混合モデルとから、これらの各状態のすべての
組み合わせの状態において、所定の重み係数で重み付け
された各ガウス分布の線形結合の和で表した各状態の混
合ガウス分布を含み、かつ、音声認識時の環境雑音デー
タに基づいて上記雑音ガウス混合モデルの混合重みを適
応化されたＨＭＭにてなる音響モデルを生成する。従っ
て、環境雑音データに基づいて適応化されているので、
第３の従来例に比較して音声認識時に高い音声認識率を
得ることができ、また、未知雑音の混入に対して頑強で
あって音響モデルの計算量を増大させることない。

【００５６】さらに、本願の第３の発明に係る音響モデ
ル生成装置によれば、学習用の複数の種類の環境雑音の
波形信号データから、出力尤度が最大となるように、１
状態で複数混合のガウス混合モデルを生成し、所定の雑
音のない音声ＨＭＭと、上記生成手段により生成された
雑音ガウス混合モデルとから、これらの各状態のすべて
の組み合わせの状態において、所定の重み係数で重み付
けされた各ガウス分布の線形結合の和で表した各状態の
混合ガウス分布を含み、音声認識時の環境雑音データに
基づいて上記雑音ガウス混合モデルの混合重みを適応化
され、かつ上記雑音のない音声ＨＭＭと上記生成された
雑音ガウス混合モデルの間の複数の信号対雑音比に対応
する複数の適応化されたＨＭＭを生成し、生成された複
数の適応化されたＨＭＭを並置してマルチパス形式とな
るように合成してなる音響モデルを生成する。従って、
入力音声のＳＮ比が既知であるという制約に拘束されな
い。また、未知雑音の混入に対して頑強であって音響モ
デルの計算量を増大させることなく、第３の従来例に比
較して音声認識時に高い音声認識率を得ることができ
る。

【００５７】また、本願の第４の発明に係る音声認識装
置によれば、自然発話文の発話音声信号に基づいてその
特徴量を抽出し、抽出された特徴量に基づいて、上記合
成された適応化されたＨＭＭを用いて上記発話音声信号
の音声認識を行って音声認識結果を出力する。従って、
未知の雑音が混入した音声信号に対して、従来例に比較
して高い音声認識率で音声認識することができ、雑音が
重畳した音声に対して頑健な音声認識装置を提供でき
る。

【図面の簡単な説明】

【図１】本発明に係る第１の実施形態であるＨＭＭモ
デル生成装置１００ａ及び音声認識装置２００の構成を
示すブロック図である。

【図２】本発明に係る第２の実施形態であるＨＭＭモ
デル生成装置１００ｂ、音声認識装置２００及び環境雑
音測定装置３００の構成を示すブロック図である。

【図３】本発明に係る第３の実施形態であるＨＭＭモ
デル生成装置１００ｃ、音声認識装置２００及び環境雑
音測定装置３００の構成を示すブロック図である。

【図４】本発明に係る第４の実施形態であるＨＭＭモ
デル生成装置１００ｄ、音声認識装置２００及び環境雑
音測定装置３００の構成を示すブロック図である。

【図５】第３の従来例に係るＨＭＭ合成法による、音
声ＨＭＭと雑音ＧＭＭとを合成する方法を示す説明図で
ある。

【図６】第１の実施形態に係るＨＭＭマルチパス合成
法による、雑音のない音声ＨＭＭと雑音ＧＭＭとを合成
する方法を示す説明図である。

【図７】音声ＨＭＭ及び雑音ガウス混合モデルともに
２混合の出力分布で表現されているときの、ＨＭＭ合成
後の出力確率分布の導出を示す説明図である。

【図８】第２乃至第４の実施形態で用いる混合重み適
応化およびＨＭＭ合成の方法を示す説明図である。

【図９】第１の比較例、第２の比較例、従来技術文献
１，２、第１の実施形態、第３の実施形態、第４の実施
形態に係る実験結果であって、ＳＮ比に対するワードア
キュラシーを示すグラフである。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４…音声認識部、５…単語ＨＭＭメモリ、６…加算器、１１…ガウス混合モデル生成部、１２…ＨＭＭ生成部、１３…ＨＭＭ合成部、１３ａ…ＨＭＭマルチパス合成部、１３ｂ…混合重み適応化及びＨＭＭ合成部、１３ｃ…混合重み適応化及びＨＭＭマルチパス合成部、１４…混合重み適応化部、２１…学習用環境雑音波形データベースメモリ、２２…ガウス混合モデルメモリ、２３…適応化されたＨＭＭメモリ、３１…雑音のない音声波形データベースメモリ、３２…雑音のない音声ＨＭＭメモリ、１００ａ，１００ｂ，１００ｃ，１００ｄ…ＨＭＭモデ
ル生成装置、２００…音声認識装置、３００…環境雑音測定装置、３１０…環境雑音メモリ。

Claims

【特許請求の範囲】

【請求項１】学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、１状態で複数混合のガウス混合モデルを生成する生
成手段と、所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、かつ上記
雑音のない音声隠れマルコフモデルと上記生成された雑
音ガウス混合モデルの間の複数の信号対雑音比に対応す
る複数の適応化された隠れマルコフモデルを生成し、生
成された複数の適応化された隠れマルコフモデルを並置
してマルチパス形式となるように合成してなる音響モデ
ルを生成する合成手段とを備えたことを特徴とする音響
モデル生成装置。
【請求項２】学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、１状態で複数混合のガウス混合モデルを生成する生
成手段と、所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、かつ、音
声認識時の環境雑音データに基づいて上記雑音ガウス混
合モデルの混合重みを適応化された隠れマルコフモデル
にてなる音響モデルを生成する合成手段とを備えたこと
を特徴とする音響モデル生成装置。
【請求項３】学習用の複数の種類の環境雑音の波形信
号データを格納する記憶手段と、上記記憶手段に格納された学習用の複数の種類の環境雑
音の波形信号データから、出力尤度が最大となるよう
に、１状態で複数混合のガウス混合モデルを生成する生
成手段と、所定の雑音のない音声隠れマルコフモデルと、上記生成
手段により生成された雑音ガウス混合モデルとから、こ
れらの各状態のすべての組み合わせの状態において、所
定の重み係数で重み付けされた各ガウス分布の線形結合
の和で表した各状態の混合ガウス分布を含み、音声認識
時の環境雑音データに基づいて上記雑音ガウス混合モデ
ルの混合重みを適応化され、かつ上記雑音のない音声隠
れマルコフモデルと上記生成された雑音ガウス混合モデ
ルの間の複数の信号対雑音比に対応する複数の適応化さ
れた隠れマルコフモデルを生成し、生成された複数の適
応化された隠れマルコフモデルを並置してマルチパス形
式となるように合成してなる音響モデルを生成する合成
手段とを備えたことを特徴とする音響モデル生成装置。
【請求項４】自然発話文の発話音声信号に基づいてそ
の特徴量を抽出する抽出手段と、上記抽出された特徴量に基づいて、請求項１乃至３のう
ちのいずれか１つに記載の音響モデル生成装置により生
成された音響モデルを用いて上記発話音声信号の音声認
識を行って音声認識結果を出力する音声認識手段とを備
えたことを特徴とする音声認識装置。