WO2005098820A1

WO2005098820A1 - 音声認識装置及び音声認識方法

Info

Publication number: WO2005098820A1
Application number: PCT/JP2005/005052
Authority: WO
Inventors: Hajime Kobayashi; Soichi Toyama; Yasunori Suzuki
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2004-03-31
Filing date: 2005-03-15
Publication date: 2005-10-20
Anticipated expiration: 2006-09-30
Also published as: EP1732063A4; US20080270127A1; US7813921B2; EP1732063A1; JPWO2005098820A1; JP4340686B2

Abstract

音声認識処理における雑音適応処理の機能を向上させ、かつ使用メモリの量を低減させた音声認識装置及び音声認識方法を提供する。予め、音響モデルをクラスタリング処理して各クラスタの重心とその重心と各モデルとの差分ベクトルを算出し、想定される各種雑音モデルと算出した重心とのモデル合成を行って合成された各々の重心と差分ベクトルをメモリに格納する。実際の認識処理において、発話環境推定によって推定された環境に最適な重心を同メモリより抽出して、該抽出された重心に同メモリに記憶された差分ベクトルを用いてモデル復元を行い同モデルにより雑音適応処理を実行する。

Description

明細書

音声認識装置及び音声認識方法

技術分野

本発明は、例えば、発話音声を認識する音声認識装置及び音声認識方法等に関する。背景技術

音声認識処理の実用性を向上させるためには、発話音声自体に対する認識技術の向上みならず、発話音声に重畳された環境雑音に対する処理技術の向上が重要となる。従来、かかる環境雑音に対する耐性を向上させて音声認識処理の実用性を高める、いわゆる維音適応処理技術が開発されており、例えば、特許文献 1や非特許文献 1に示されるような技術が開示されている。前者の場合は、音響モデルの分布（以下、単に "分布" と言う）を予め決められた数のグループ（以下 "クラスタ" と言う）で分類する。具体的には、類似した複数の分布が同一のダル一プに割り当てられるようにクラス夕リング処理を行い、所定の数だけのクラスタが生成されるようにする。そして、各クラス夕の重心に対してモデル合成処理を行う。このため、一般に知られるモデル合成処理に比較して、高速度のモデル合成が可能となる。しかしながら、 1つの分布に対するモデル合成処理に必要とされる演算量が多く、例えば、カーナビゲーシヨン装置などのいわゆる組込み機器へ応用する際に、その性能維持を前提とすると、処理時間や機器実装スぺース上の制限から機器への実装が困難となるおそれがある。

一方、後者の場合は、予め種々の雑音環境カテゴリについて複数の雑音モデルをメモリ内に準備しておき、音声入力信号の雑音環境カテゴリに応じた雑音モデルを選択して、雑音環境に応じた雑音適応処理を行うことができる。しかし、予め準備する雑音環境カテゴリや雑音モデルの数が増加するとそれを記憶するメモリ量も飛躍的に増大するので、携帯機器や車両搭載機器に組み込まれる組込み型の音声認識装置での利用が困難であった。

【特許文献 1】特開平 1 0 - 1 6 1 6 9 2

【非特許文献 1】日本音響学会講演論文集（1 - 8 - 4 ； 2 0 0 0年 3月）「雑音環境へのヤコビ適応法の拡張」（赤江俊彦他 3名）

発明の開示

本発明が解決しょうとする課題には、音声認識処理における雑音適応処理の機能を向上させ、かつ使用メモリの量を低減させた音声認識装置、及び音声認識方法を提供することが一例として挙げられる。

請求項 1に記載の発明は、入力音声信号について雑音モデルに基づく雑音適応処理を施して前記入力音声信号に対する音声認識を行う音声認識装置であつて、複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に記憶する第 1記憶手段と、前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位置情報を表す第 2パラメータを予め算出してこれを記憶する第 2記憶手段と、前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の属する雑音環境カテゴリを推定する推定手段と、前記推定手段によって推定された雑音環境カテゴリに対応する前記第 1パラメ一夕を前記第 1記憶手段から選択抽出する選択手段と前記選択手段によって抽出された第 1パラメ一夕と前記第 2記憶手段から読み出した前記第 2パラメータとを用いて前記環境雑音に適合する雑音モデルを復元し、これを用いて前記入力音声信号に対する雑音適応処理を行う雑音適応手段とを含むことを特徴とする。

また、請求項 7に記載の発明は、入力音声ィ言号について雑音モデルに基づく雑音適応処理を施して前記入力音声信号に対する音声認識を行う音声認識方法であって、複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1パラメータを予め算出してこれを前記雑音環境カテゴリ毎に第 1のメモリに記憶するステップと、前記複数の雑音モデルの各々と前記第 1パラメ一夕との相対的な位置情報を表す第 2パラメータを予め算出してこれを第 2のメモリに記憶するステップと、前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の属する雑音環境カテゴリを推定するステップと、該推定された雑音環境力テゴリに対応する前記第 1パラメ一夕を前記第 1のメモリから選択抽出するステップと該選択抽出された第 1パラメ一夕と前記第 2のメモリから読み出した前記第 2パラメータとを用いて前記環境雑音に適合する雑音モデルを復元し、これを用いて前記入力音声信号に対する雑音適応処理を行うステップとを含むことを特徴とする。

図面の簡単な説明

図 1は、本発明による音声認識装置の実例を示すブロック図である。図 2は、図 1の音声認識装置における準備段階処理の過程を示すフローチヤートである。図 3は、図 2の処理過程で形成されるクラスダの構成を示す模式図である。図 4は、図 1の音声認識装置における重心データベース記憶部 1 0 4の内容を示す構成図である。図 5は、図 1の音声認識装置における音声認識処理の過程を示すフローチヤー卜である。図 6は、図 5の環境推定処理における雑音カテゴリの選択の様子を示す説明図である。図 7は、本発明による音声認識装置の第 2 の実施例を示すブロック図である。図 8は、非定常パラメータ除外処理の一例をすフローチャートである。図 9は、非定常パラメ一夕除外処理を適用例を示す雑音パラメータの図である。発明を実施するための形態

図 1に本発明の実施例である音声認識装置を示す。同図に示される音声認識装置 1 0は、例えば、同装置のみが単体で用いら^ 1る構成であっても良いし、或いは、携帯電話やカーナビゲーシヨン機器等の他の装置に内蔵される構成としても良い。図 1において、特徴パラメ一夕抽出部 1 0 1は、入力された発話音声信号を発話区間、及びその前後の非発話区間を含めて、これらの区間に存する音響信号をその音響的特徴を表す特徴パラメ一タに変換して抽出する部分である。環境推定部 1 0 2は、非発話区間の特徴パラメータに基づいて、入力された発話音声信号に重畳された雑音の環境カテゴリを ½定する部分である。なお、雑音の環境カテゴリとは、例えば、自動車に関係する雑音の暴合であれば、ェンジンによる雑音が 1つの雑音カテゴリに相当し、また、カーエアコンによる雑音も 1つの雑音カテゴリに相当するモデル選択抽出部 1 0 3 は、環境推定部 1 0 2で推定されたカテゴリに含まれる雑音モデルに関する種データを、重心データベース記憶部 1 0 4 (以下、単に "記憶部 1 0 4 " と言う）から選択抽出する部分である。また、雑音適応処理部 1 0 5は、上記選択抽出された各種データを用いて、例えば、ヤコビ適応手法などの手法による雑音適応処理を実行する部分である。

モデル復元部 1 0 6は、上記の雑音適応処理の結果に基づいて、差分べクトルデータベース記憶部 1 0 Ί (以下、単に "記憶部 1 0 7 " と言う）に予め記憶されている差分べクトルを用いてモデル復元処理を行う部^である。なお、記憶部 1 0 4、記憶部 1 0 7に予め記憶されている各種データや差分べクトルの詳細については後述する。

キーワードモデル生成部 1 0 8は、モデル復元部 1 0 6から出力される音響モデルを基に、キーワード辞書記憶部 1 0 9 (以下、単に "言憶部 1 0 9 " と言う）にストアされている語彙の中から認識候補となるものを抽出して、音響パターンとしてのキーワードモデルを生成する部分である。

マッチング部 1 1 0は、特徴パラメータ抽出部 1 0 1から給される発話区間の特徴パラメ一夕を、キーワードモデル生成部 1 0 8で生されたキーヮードモデルの各々に当て嵌め、各々についてのマッチング尤度を求めて、入力された発話音声信号に対する音声認識処理を行う部分である。

なお、図 1のブロック図における信号の流を示す矢印の向ぎは、各構成要素間の主要な信号の流れを示すものであり、例えば、かかる信号に付随する応答信号や監視信号等の各種信号に関しては、矢印の向きと方向に伝達される場合をも含むものとする。また、図中に示される各構成要素の区分や信号経路は、動作説明の便宜上為されているものであり実際の装置にいてかかる表記どおりの構成が実現される必要はない。

次に、記憶部 1 0 4、及び記憶部 1 0 7に予め記憶される、重心データ等の各種データ、及び差分べクトルデータの生成処理について説明を行う。

本実施例では、実施の準備段階として上記の各々のデータを予め生成し、上記の各記憶部のメモリ内に準備しておく必要がある。か^ る準備段階におけるデータ生成処理の様子を、図 2のフローチャートに基づいて説明する。

先ず、図 2のステップ S 2 0 1において、入力された音響モデルに対し類似した音響モデルの分布（以下 "分布" と言う）をグループ化するクラスタリング処理が行われる。クラスタリング処理によって形成されるグループ（以下 "クラスタ" と言う）の数は予め設定されており、生成されるクラス夕の数が、かかる定数に達するまでクラスタリング処理が継続される。なお、ステップ S 2 0 1では、クラスタリング処理の進行と同時に、各々の分布が何れのクラスタに属するかなどの情報を示すクラス夕情報が生成される。

次のステップ S 2 0 3において、各々のクラス夕に属する分布を全て使用して、それぞれのクラスタにおける重心計算が行われる。重心計算の処理を具体的に示せば、 1つのクラスタ iに属する音響モデルを m (n ( n = l， 2 , …， p ： pはクラス夕 iに属する

音響モデルの個数)、計算により算出される重心を g ( i ) とすると、重心 g ( i ) は、

【式 1】

として求められる。

ステップ S 203の処理が終了すると、次のステップ S 205において、各クラスタに属する音響モデルの分布と、クラス夕における重心との差分力³、計算される。具体的には、クラスタ iに属する音響モデルを m(n)、クラスタの重心を g(i)、及び差分を表す差

分ベクトルを d(n) とすると、差分べクトル d (n) は、

d (n) = nun) - g ( iノ

として求めることができる。

ステップ S 205において算出された差分べクトルの値は、音声認識装置 1 0の記憶部 107に格納される。なお、クラス夕 iに含まれる各々の分布 iri(n) と、クラス夕の重

心 g(i)、及び差分ベクトル d(n) との相互関係を、図 3のクラスタ構造の模式図に示す。

次に、ステップ S 207において所定の雑音モデルを用意し、これとステツプ S 203で求めた各クラス夕の重心とのモデル合成処理が行われる。デル合成後の各クラス夕の重心は、音声認識装置 10の記憶部 104に格納さ * る。本実施例では、環境雑音カテゴリ毎に雑音モデルを複数準備して、各雑音 ΐτ デルに対してモデル合成処理が行われる。それ故、モデル合成処理前の 1つクラスタ重心から、モデル合成処理に供された雑音モデルの個数分の合成後クラスタが生成される。

なお、ステップ S 2 0 7のモデル合成処理によって求められた各種データが、記憶部 1 0 4の内部に格納される様子を図 4に示す。同図に示される如く、言 £ 憶部 1 0 4では各々の環境雑音カテゴリ毎に

(1) 1つの雑音モデル

(3) 1つの音響モデルに対して、図 2に示される処理を施すことによって得られるクラス夕の重心

(2) 雑音適応部 1 0 5における雑音適応処理に必要とされる、各クラスタの重心に対応する情報

の 3種類のデ一夕が格納されることになる。

以上に説明した準備段階の処理によって、本実施例に基づく音声認識装置 1 0の、記憶部 1 0 4、及び記憶部 1 0 7には、それぞれ所定のデータが予め格納される。

次に、音声認識装置 1 0による、発話音声の音声認識処理時における動作について、図 1のブロック図、及び図 5のフローチャートに基づいて説明を行う。先ず、音声認識装置 1 0に発話音声信号が入力されると、図 5に示されるステツプ S 3 0 1の特徴パラメ一夕変換処理が実行される。すなわち、音声認 ¾ 装置 1 0の特徴パラメ一夕抽出部 1 0 1は、入力された発話音声信号を発話!^ 間、及びその前後の非発話区間を含めて、 L P Cケプストラムや M F C C (メル周波数ケプストラム係数）などの発話パラメータに変換する。なお、厢いられる発話パラメ一夕の種類は、かかる事例に限定されるものではなく、話信号の音響的特徴を表現したパラメ一夕であり、かつこれらの音響パラメ一夕のフォーマットと同じパラメ一夕を用いて表現された音響モデルであれば同様に用いることが可能である。

ステップ S 3 0 1の特徴パラメータ変換処理が為されると、特徴パラ一夕抽出部 1 0 1から、発話区間の特徴パラメータがマッチング部 1 1 0に、非発話区間の特徴パラメータが環境推定部 1 0 2にそれぞれ供給される。

次のステップ S 3 0 3の環境推定処理は、記憶部 1 0 4に格納されてレゝる複数の環境雑音カテゴリの中から所定のカテゴリを選択するため、入力された発話音声に重畳される環境雑音を推定する処理である。すなわち、環境推定部 1 0 2は、非発話区間の特徴パラメ一夕に基づいて入力された発話信号の票境雑音を推定し、これに該当する雑音カテゴリを求める。前述した如く、記' | 部 1 0 4のデータベースには、異なる環境雑音のカテゴリの代表にあたる雑音モデルが記憶されている。

環境推定部 1 0 2は、先ず、これらの雑音モデルと、上記の非発話区 Γ の特徵パラメ一夕に基づいて、各雑音カテゴリ毎の雑音尤度を算出する。

これらの雑音モデルには、ターゲットとされる多数の環境雑音のデータべ一スを利用して計算された特徴パラメータの平均値や共分散が含まれている。したがって、各環境カテゴリ毎の雑音尤度は、雑音モデルの平均 '分散から得られる正規分布に、上記非発話区間の特徴パラメ一夕である発話パラメータを当て嵌めることによって求めることができる。かかる事例として、雑音カテゴリ 1乃至 3の 3つの雑音モデルの正規分布に、上記非発話区間の特徴パラメ一夕である発話パラメ一夕を当て嵌めて、雑音尤度を求める場合の事例を図 6に示す。図 6の事例では、雑音カテゴリ 1一 3の雑音モデルに、入力発話信号の環境雑音を示す発話パラメータを当て嵌めたとき、雑音カテゴリ 2の雑音尤度が他の 2つ比較して高いことを表している。それ故、同図においては、環境雑音カテゴリの推定結果として雑音カテゴリ 2が選択されることになる。

ステップ S 3 0 3の環境推定処理によって、入力発話音声に重畳された環境雑音のカテゴリが推定されると、次のステップ S 3 0 5において雑音モデルの選択抽出処理が行われる。すなわち、モデル選択抽出部 1 0 3は、環境推定部 1 0 2によって推定された雑音カテゴリに関する各種のデータを、記憶部 1 0 4のデータべ一ス中から選択してこれを抽出する。

図 4に示される如く、記憶部 1 0 4のデータベースには、音響モデルの分布をクラスタリング処理し、それぞれのクラスタ重心を雑音モデルで合成した重心データ、当該雑音モデル、及び各重心に対応する雑音適応処理用のデータが、各々の環境雑音のカテゴリ毎に格納されている。ステップ S 3 0 5において、選択された雑音カテゴリに属するこれらのデータが、記憶部 1 0 4から雑音適応部 1 0 5にロードされることになる。

そして、次のステップ S 3 0 7において、雑音適応部 1 0 5による雑音適応処理が実行される。かかる雑音適応処理には、種々の手法を用いることが可能である。例えば、ヤコビ適応手法による雑音適応処理を行う際には、各クラス夕の重心に対応するヤコビ行列についても予め重心データべ一スとして記憶部 1 0 4に格納して置く。そして、ステップ S 3 0 7における雑音適応処理を行う段階において、記憶部 1 0 4から雑音適応部 1 0 5に該当する雑音カテゴリのヤコビ行列データを読み出し、かかるデータを使用してヤコビ適応手法による雑音適応処理を行う。

ステップ S 3 0 7の雑音適応処理が終了すると、次のステップ S 3 0 9において、予め記憶部 1 0 7に準備しておいた差分ベクトルのデータを用い、モデル復元部 1 0 6によるモデル復元処理が行われる。かかる処理によって雑音適応後の音響モデルが準備される。

その後、ステップ S 3 1 1においてキーワードモデル生成処理が実行される。同処理において、キーワードモデル生成部 1 0 8は、音声認識の認識候補となる語彙を記憶部 1 0 9から抽出して、これを音響パターンとして定型化するキ —ヮ一ドモデル生成処理を実行する。

次の、ステップ S 3 1 3では、マッチング部 1 1 0によるマッチング処理が実行される。すなわち、キーワードモデル生成部 1 0 8において生成されたキ一ワードモデルの各々に対して、特徴パラメ一夕抽出部 1 0 1から供給される発話区間の特徴パラメータが照合され、各々のキーワードに対するマッチングの度合いを示すキ一ワード尤度が算出される。そして、かかる処理によって求められたキーワード尤度のうちで、最も高い値を示すキーワードが、入力された発話音声に対する認識結果として、音声認識装置 1 0から出力される。

以上に説明したように、本実施例によれば、複数の初期合成モデルのセットを複数の初期合成クラスタに変換して記憶することによつて使用メモリの使用量を削減することができ、雑音適応処理能力の高い音声認識装置を組み込み機器への搭載することが容易となる。また、準備段階におけるクラスタリングをモデル合成を行う前に実施するので差分べクトルを共用化することが可能となり、必要とされる構成の簡易化と性能向上を同時に達成することができる。また、本実施例に話者適応機能を追加して、かつ話者適応を差分ベクトルで行う構成とした場合、重心データベースの内容をグレードアップする際に、発話者の特徴を反映させた状態でグレードアップされた環境での発話認識が可能となる。

図 7は、本発明による音声認識装置の第 2の実施例を示すブロック図である。図において、図 1に示された音声認識装置 1 0の各構成部分と同一の部分には同様の参照番号を付し、説明は繰り返さない。

図示された音声認識装置 2 0は図 1に示された音声認識装置 1 0の各構成部分に加えて特徴パラメータ抽出部 1 0 1と環境推定部 1 0 2との間に設けられた非定常パラメ一夕除外処理部 1 1 1を有することが特徴である。

非定常パラメータ除外処理部 1 1 1は、特徴パラメ一夕抽出部 1 0 1から供給される特徴パラメ一夕の集合（雑音集合と称する）の中から非定常パラメ一夕に該当するものを除外する動作を行う。

図 8は、非定常パラメ一夕除外処理部 1 1 1によって行われる非定常パラメ一夕除外処理の一例を示すフロー図である。

図示の如く、非定常パラメ一夕除外処理部 1 1 1はステップ S 4 0 1において入力された 1 つの雑音集合を複数のグループに分類するクラスタリング処理を行う。次に、ステップ S 4 0 2において各クラスタ間の重心間類似度を求める。続いて、ステップ S 4 0 3においてクラス夕間の類似度の最も低いものが所定の閾値以下であるか否かが判別される。

ステップ S 4 0 3において類似度が所定の閾値以下であれば、処理はステツプ S 4 0 4に進み要素数（集合に属する特徴パラメ一夕の数を指す）の少ない方のクラス夕に属する特徴パラメータを除外する。続いて処理はステップ S 4 0 5に進み適応雑音モデルの生成（図 6のステップ S 3 0 3の環境推定処理に対応）を行う。またステップ S 4 0 3において類似度が所定の閾値より大であれば、ステップ S 4 0 4の処理は実行せずにステップ S 4 0 5に進む。

ステップ S 4 0 5の実行に続いてステップ S 4 0 6において環境カテゴリ選択処理（図 6のステップ S 3 0 5のモデル選択抽出処理に対応）が行われる。次に、非定常パラメ一夕除外処理の適用例について説明する。

図 9は、環境 Aに該当する雑音パラメ一夕に突発性雑音の影響を受けた雑音パラメ一夕が混在する雑音集合を示している。

非定常パラメ一夕除外処理を実行しない場合には雑音集合全体に対する重心を求め、この重心と環境 A、環境 Bをそれぞれあらわす雑音モデルとの類似度を求めることにより環境判別が行われる。このため、図示の如く突発性雑音の影響を受け、雑音集合の重心は環境 Aの雑音モデルよりも環境 Bの雑音モデルの方が類似性が高くなり、環境 Bとして誤判定されてしまう。

一方、第 2 の実施例の如く、非定常パラメ一夕除外処理を実行する場合には突発性雑音と判断される雑音パラメ一夕が除外され、かかる雑音パラメ一夕を除外した雑音パラメ一夕の重心が求められる。これにより。求められた重心と環境 Aの雑音モデルとの類似度が高くなり、環境カテゴリをより適切に選択することが可能となる。このように非定常パラメ一タ除外処理を行うことにより音声認識の性能 ¾r向上させることができる。

なお、上記の第 1及び第 2の実施例において、発話音声入力に重畳され广こ環境雑音が予め準備された雑音モデルに該当しない場合は、この環境雑音を、例えば、 H D D等の別記憶媒体に所定期間蓄積した後、かかる蓄積データを基にしてこれに対する重心値等のデータを算出するようにしても良い。これにつて、重心データベースにおける新たな雑音カテゴリを環境に合わせて増加ざせることが可能となる。

さらに、通信ネットワークを介して大規模なデ一夕べ一スを擁するサ一ノヾーとデータの授受を行う通信手段を設けることにより、重心データベースや差分べクトルデータベースのメモリの一部若しくは全部を、これらのサーバー (^デ —夕ベースに置き換えるようにしても良い。

Claims

請求の範囲

【請求項 1】

入力音声信号について雑音モデルに基づく雑音適応処理を施して前記入力音声信号に対する音声認識を行う音声認識装置であって、

複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1 パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に記憶する第 1記憶手段と、

前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位置情報を表す第 2パラメ一夕を予め算出してこれを記憶する第 2記憶手段と、

前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の属する雑音環境カテゴリを推定する推定手段と、

前記推定手段によつて推定された雑音環境カテゴリに対応する前記第 1パラメータを前記第 1記憶手段から選択抽出する選択手段と

前記選択手段によって抽出された第 1パラメータと前記第 2記憶手段から読み出した前記第 2パラメ一夕とを用いて前記環境雑音に適合する雑音モデルを復元し、これを用いて前記入力音声信号に対する雑音適応処理を行う雑音適応手段と、を含むことを特徴とする音声認識装置。

【請求項 2】

前記第 1パラメータは、音響モデルについてクラスタリング処理を施して得られる重心値と 1つの雑音環境カテゴリに含まれる複数の雑音モデルの各々に対して施されたモデル合成処理によって得られる前記雑音モデル毎の重心値、及びこれに付随するデータであることを特徴とする請求項 1に記載の音声認識装置。

【請求項 3】

前記入力音声信号に重畳された環境雑音の特徴パラメータの集合の中から非定常パラメータを除外する非定常パラメ一夕除外処理部を更にすることを特徴とする請求項 1に記載の音声認識装置。

【請求項 4】

前記クラスタリング処理は、当該処理によって形成される音響モデルのダループ数が所定のグループ数に到達するまで継続されることを特黻とする請求項 2に記載の音声認識装置。

【請求項 5】

前記第 2パラメ一夕は、前記重心値と前記複数の雑音モデルの各々との間における差分べクトルであることを特徴とする請求項 2乃至 4のずれか 1項に記載の音声認識装置。

【請求項 6】

前記推定手段は、前記環境雑音が予め準備された雑音環境カテゴリに該当しないことを検知した場合に、前記環境雑音から前記第 1パラメ一夕を抽出してこれを前記第 1記憶手段に追加して記憶する記憶追加手段、をざらに含むことを特徴とする請求項 1ないし 5のいずれか 1項に記載の音声認識裝置。

【請求項 7】

通信ネットワークを介してデータべ一スを含むサーバ一と前言己第 1及び第 2 記憶手段に含まれるメモリとの間におけるデ一夕を中継する通脣手段をさらに含み、前記データベースを前記メモリの一部若しくは全部として利用することを特徴とする請求項 1ないし 6のいずれか 1項に記載の音声認識装置。

【請求項 8】

入力音声信号について雑音モデルに基づく雑音適応処理を施して前記入力声信号に対する音声認識を行う音声認識方法であつて、

複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1 パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に第 1のメモリに言己憶するステップと、

前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位置情報表す第 2パラメ一夕を予め算出してこれを第 2のメモリに記憶するステップと、前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の屑する雑音環境カテゴリを推定するステップと、

該推定された雑音環境カテゴリに対応する前記第 1パラメータを前記第 1 メモリから選択抽出するステップと

該選択抽出された第 1パラメータと前記第 2のメモリから読み出した前記第 2パラメ一夕とを用いて前記環境雑音に適合する雑音モデルを復元し、これを用いて前記入力音声信号に対する雑音適応処理を行うステップと、を含むことを特徴とする音声認識方法。

【請求項 9】

前記入力音声信号に重畳された環境雑音の特徴パラメータの集合の中から定常パラメータを除外するステップを更に有することを特徴とする請求項 8 に記載の音声認識方法。