JPH08123465A - 音響モデルの適応化法 - Google Patents
音響モデルの適応化法Info
- Publication number
- JPH08123465A JPH08123465A JP6264097A JP26409794A JPH08123465A JP H08123465 A JPH08123465 A JP H08123465A JP 6264097 A JP6264097 A JP 6264097A JP 26409794 A JP26409794 A JP 26409794A JP H08123465 A JPH08123465 A JP H08123465A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- voice
- adaptation
- codebook
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 少ない学習音声、少ない計算量で認識率を高
くする。 【構成】 不特定話者用学習音声を用いて、半連続分布
HMMモデルを作り、その基底分布をコードブック15
に記憶しておき、各音素についての、各基底分布に対す
る重み係数を重み係数メモリ16に記憶しておき、また
各音素とは独立の全音素についての重み係数を全音素モ
デル用重み係数19として記憶しておく、認識音声の学
習音声を入力して、全音素モデル用重み係数19を用い
て、コードブック15の各基底分布のみを適応化してコ
ードブック17を格納する。認識時には入力音響をコー
ドブック17と重み係数メモリ16の重み係数とを用い
て認識する。
くする。 【構成】 不特定話者用学習音声を用いて、半連続分布
HMMモデルを作り、その基底分布をコードブック15
に記憶しておき、各音素についての、各基底分布に対す
る重み係数を重み係数メモリ16に記憶しておき、また
各音素とは独立の全音素についての重み係数を全音素モ
デル用重み係数19として記憶しておく、認識音声の学
習音声を入力して、全音素モデル用重み係数19を用い
て、コードブック15の各基底分布のみを適応化してコ
ードブック17を格納する。認識時には入力音響をコー
ドブック17と重み係数メモリ16の重み係数とを用い
て認識する。
Description
【0001】
【産業上の利用分野】この発明は、音声認識における標
準パターンとなるべきものとして用いられ、あらかじめ
別の環境で収録された音声(学習用音声)を用いて学習
した音響モデルを、特定の音声収音系回線特性や、特定
の話者など学習用音声と性質を異にする音声に適応化す
る方法に関する。
準パターンとなるべきものとして用いられ、あらかじめ
別の環境で収録された音声(学習用音声)を用いて学習
した音響モデルを、特定の音声収音系回線特性や、特定
の話者など学習用音声と性質を異にする音声に適応化す
る方法に関する。
【0002】
【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法である隠れマルコフモデル(Hidde
n Markov Model:HMM)を用いた音声
認識システムでは、一認識対象カテゴリ、つまり音素、
音節、単語などの語彙(あるいは認識対象単位)ごと
に、1つ、あるいは複数のHMMを設定し、学習用音声
を用いて学習する、つまりHMMを作る。認識時には、
音声認識システムの入力音声がそれらのモデルから観測
される確率を計算し、尤度(尤もらしさ)の最も高い順
に認識結果候補としている。HMMは、統計的なモデル
であるから学習用音声中に現われた頻度に従って、ある
音響的特徴量とあるカテゴリとを関連づける強さを内部
に確率分布として表現する。つまり図4Aに示すよう
に、すべての認識対象カテゴリ(例えば音素)ごとに、
初期状態(音素の始端付近)a、第2状態b、第3状態
c、最終状態(音素の終端)dの4つの状態を順次遷移
し、各状態はその音素のその状態における音響特徴量の
統計的な分布を表現し、状態から状態への遷移確率が与
えられた音響モデルM1 〜MM が予め求められ、入力音
声がある音響モデルより出力する確率を計算して入力音
声に対するその音響モデルの尤度を求める。
デル化する手法である隠れマルコフモデル(Hidde
n Markov Model:HMM)を用いた音声
認識システムでは、一認識対象カテゴリ、つまり音素、
音節、単語などの語彙(あるいは認識対象単位)ごと
に、1つ、あるいは複数のHMMを設定し、学習用音声
を用いて学習する、つまりHMMを作る。認識時には、
音声認識システムの入力音声がそれらのモデルから観測
される確率を計算し、尤度(尤もらしさ)の最も高い順
に認識結果候補としている。HMMは、統計的なモデル
であるから学習用音声中に現われた頻度に従って、ある
音響的特徴量とあるカテゴリとを関連づける強さを内部
に確率分布として表現する。つまり図4Aに示すよう
に、すべての認識対象カテゴリ(例えば音素)ごとに、
初期状態(音素の始端付近)a、第2状態b、第3状態
c、最終状態(音素の終端)dの4つの状態を順次遷移
し、各状態はその音素のその状態における音響特徴量の
統計的な分布を表現し、状態から状態への遷移確率が与
えられた音響モデルM1 〜MM が予め求められ、入力音
声がある音響モデルより出力する確率を計算して入力音
声に対するその音響モデルの尤度を求める。
【0003】HMMは確率分布の表現方法から、離散分
布モデル、連続分布モデル、半連続分布モデルの3つに
大きく分類される。離散確率分布モデルでは、音声の音
響的特徴量はコード化された離散的な値で表現される。
例えば、図5Aに示すように音声の音響的特徴量は代表
的なN個の特徴ベクトルA1 〜AN の何れかで表わさ
れ、これら特徴ベクトルA1 〜AN にはそれぞれコード
(例えば番号)C1 〜C N が与えられている。また各音
素を示す音響モデルM1 〜MM のそれぞれごとに、図5
Bに示すように、コードC1 〜CN のそれぞれに対し、
出力確率P1 〜P P が1対1で対応ずけられている。入
力音声はフレームごとにその特徴ベクトルが代表特徴ベ
クトルA1 〜AN の何れに最も近いかが求められ、その
代表特徴ベクトルを示すコード列に入力音声が変換さ
れ、そのコード列は各音響モデルM1〜MM のそれぞれ
について、その出力確率が演算される。これら演算され
た出力確率中の最も高い(尤度が大きい)音響モデルと
対応する音素が認識結果として出力される。
布モデル、連続分布モデル、半連続分布モデルの3つに
大きく分類される。離散確率分布モデルでは、音声の音
響的特徴量はコード化された離散的な値で表現される。
例えば、図5Aに示すように音声の音響的特徴量は代表
的なN個の特徴ベクトルA1 〜AN の何れかで表わさ
れ、これら特徴ベクトルA1 〜AN にはそれぞれコード
(例えば番号)C1 〜C N が与えられている。また各音
素を示す音響モデルM1 〜MM のそれぞれごとに、図5
Bに示すように、コードC1 〜CN のそれぞれに対し、
出力確率P1 〜P P が1対1で対応ずけられている。入
力音声はフレームごとにその特徴ベクトルが代表特徴ベ
クトルA1 〜AN の何れに最も近いかが求められ、その
代表特徴ベクトルを示すコード列に入力音声が変換さ
れ、そのコード列は各音響モデルM1〜MM のそれぞれ
について、その出力確率が演算される。これら演算され
た出力確率中の最も高い(尤度が大きい)音響モデルと
対応する音素が認識結果として出力される。
【0004】連続確率分布モデルでは、音響的特徴量ベ
クトルは連続量のまま扱う。例えば図4A中の音響モデ
ルMM はその初期状態aはその音響的特徴量が分布D1
で表わされ、状態b〜dではそれぞれその音響的特徴量
が分布D2 〜D4 として表わされる。連続確率分布モデ
ルには、単一分布モデルと混合分布モデルとがあり、図
4AのモデルMM は混合分布モデルの場合で例えば図4
Bに示すように、1つの混合分布D0 が複数の分布V1
〜V3 の重み付き加算の形で表現される。これら分布V
1 〜V3 は音声の音響的特徴量の分布をガウス分布で近
似し、平均値μ 1 〜μ3 と共分散行列σ1 〜σ3 とに止
りそれぞれ表現される。音響モデルM1〜MM それぞれ
図5Cに示すように各状態ごとにその複数の分布と、図
に示していないが重み係数とが与えられて表現される。
クトルは連続量のまま扱う。例えば図4A中の音響モデ
ルMM はその初期状態aはその音響的特徴量が分布D1
で表わされ、状態b〜dではそれぞれその音響的特徴量
が分布D2 〜D4 として表わされる。連続確率分布モデ
ルには、単一分布モデルと混合分布モデルとがあり、図
4AのモデルMM は混合分布モデルの場合で例えば図4
Bに示すように、1つの混合分布D0 が複数の分布V1
〜V3 の重み付き加算の形で表現される。これら分布V
1 〜V3 は音声の音響的特徴量の分布をガウス分布で近
似し、平均値μ 1 〜μ3 と共分散行列σ1 〜σ3 とに止
りそれぞれ表現される。音響モデルM1〜MM それぞれ
図5Cに示すように各状態ごとにその複数の分布と、図
に示していないが重み係数とが与えられて表現される。
【0005】入力音声は各音響モデルごとに、その表現
された各状態の分布により出力確率を演算し、音響モデ
ルごとの出力確率、つまり尤度を求めその最大の音響モ
デルの音素を認識結果とする。混合分布モデルは精密な
分布の推定が可能であるが、推定すべきパラメータ数が
多いため、それだけ多くの学習用音声を必要とする。半
連続確率分布モデルは離散分布モデルと連続分布モデル
の混合分布形のものとの特徴を合せもったモデルであ
る。つまり混合ガウス分布の連続分布モデルにおいて、
混合分布数を十分大きく、例えば256に設定し、かつ
各音響モデルに対して同一の分布V1 〜VN とし、各音
響モデル間の区別は重み係数によって行う。例えば図6
に示すように状態aについて、各音響モデルM1 〜MM
について、分布V1 〜VN のそれぞれに対する重みWが
それぞれ与えられている。同様に状態b、c、dについ
ても、各音響モデルM1 〜MM のそれぞれに対し、分布
V 1 〜VN のそれぞれの重みWが与えられている。つま
り基底分布V1 〜VN は全音響モデル、全状態にわたっ
て共有され、各音響モデルの各状態ごとに重み係数Wi
の値が各音素固有の値として決められている。入力音声
は各音響モデルごとに、出力確率を演算し、その最大の
音響モデルの音素を認識結果とする。半連続モデルは離
散モデルにおける特徴ベクトルA1 〜AN の代りに基底
分布V1 〜V N が用いられたもので、図5Aに示した単
一のコードブックによりパラメータ空間が表現されてい
るという離散モデルの特徴と、混合ガウス分布により各
音素モデルが詳細に表現されるという混合分布形連続モ
デルの特徴とを合せもっている。
された各状態の分布により出力確率を演算し、音響モデ
ルごとの出力確率、つまり尤度を求めその最大の音響モ
デルの音素を認識結果とする。混合分布モデルは精密な
分布の推定が可能であるが、推定すべきパラメータ数が
多いため、それだけ多くの学習用音声を必要とする。半
連続確率分布モデルは離散分布モデルと連続分布モデル
の混合分布形のものとの特徴を合せもったモデルであ
る。つまり混合ガウス分布の連続分布モデルにおいて、
混合分布数を十分大きく、例えば256に設定し、かつ
各音響モデルに対して同一の分布V1 〜VN とし、各音
響モデル間の区別は重み係数によって行う。例えば図6
に示すように状態aについて、各音響モデルM1 〜MM
について、分布V1 〜VN のそれぞれに対する重みWが
それぞれ与えられている。同様に状態b、c、dについ
ても、各音響モデルM1 〜MM のそれぞれに対し、分布
V 1 〜VN のそれぞれの重みWが与えられている。つま
り基底分布V1 〜VN は全音響モデル、全状態にわたっ
て共有され、各音響モデルの各状態ごとに重み係数Wi
の値が各音素固有の値として決められている。入力音声
は各音響モデルごとに、出力確率を演算し、その最大の
音響モデルの音素を認識結果とする。半連続モデルは離
散モデルにおける特徴ベクトルA1 〜AN の代りに基底
分布V1 〜V N が用いられたもので、図5Aに示した単
一のコードブックによりパラメータ空間が表現されてい
るという離散モデルの特徴と、混合ガウス分布により各
音素モデルが詳細に表現されるという混合分布形連続モ
デルの特徴とを合せもっている。
【0006】HMMのような統計的なモデルを用いた音
声認識では、モデルパラメータを推定するための学習用
音声と実際に認識対象になる音声とが同じような条件で
収音されることを前提としている。すなわち、音響的な
環境、たとえば、背景雑音や、回線の特性が、学習時と
認識時でほぼ同じであると仮定している。学習時と認識
時との収音条件が異なる場合、実際に認識対象となる音
声の音響的特徴量はモデルが表現している音響的特徴量
と異なるので認識精度が悪くなるという問題がある。
声認識では、モデルパラメータを推定するための学習用
音声と実際に認識対象になる音声とが同じような条件で
収音されることを前提としている。すなわち、音響的な
環境、たとえば、背景雑音や、回線の特性が、学習時と
認識時でほぼ同じであると仮定している。学習時と認識
時との収音条件が異なる場合、実際に認識対象となる音
声の音響的特徴量はモデルが表現している音響的特徴量
と異なるので認識精度が悪くなるという問題がある。
【0007】学習時と認識時との音響的特徴量の変動に
は、スペクトル上で加算的に影響するものと、フィルタ
的に影響するものとがある。背景雑音などはパワーとし
て音声に加わるものであるからスペクトル領域でも加算
的になる。一方、回線特性の違い(歪み)などはスペク
トル包絡の形状が変化、通常はスペクトル包絡の傾きが
変化するのでスペクトル領域においてフィルタ的に影響
する。
は、スペクトル上で加算的に影響するものと、フィルタ
的に影響するものとがある。背景雑音などはパワーとし
て音声に加わるものであるからスペクトル領域でも加算
的になる。一方、回線特性の違い(歪み)などはスペク
トル包絡の形状が変化、通常はスペクトル包絡の傾きが
変化するのでスペクトル領域においてフィルタ的に影響
する。
【0008】学習時と認識時との音響的な条件が異なる
場合、認識システムを認識対象となる音響的条件に適応
化することで認識性能を改善しようとする試みがされて
きた。以下に、これまでに提案されている2つの方法に
ついて説明する。第一は、ケプストラム平均値正規化法
と呼ばれる方法である。音声の音響的特徴量としては対
数スペクトルの逆フーリエ変換で定義されるケプストラ
ムが用いられることが多い。ケプストラム領域において
は、スペクトラム領域におけるフィルタが加減算により
実現されるので回線特性の変動による歪みはケプストラ
ムの加減算により補正できる。この原理による簡単で効
果的な回線特性補正方法がケプストラム平均値正規化法
である。音声の音響的特徴量としてケプストラム係数を
用いる場合には、そのケプストラムの時系列から当該音
声区間にわたる平均値を引くことで、時不変な周波数ス
ペクトル的傾向を平坦化することができる。しかしなが
ら、ケプストラム平均値正規化法では、長時間平均によ
り回線における時不変のスペクトル包絡を差し引いて平
坦化するというのが原理であるため、ある程度長い音声
区間にわたって平均をとらないと効果が期待できない。
また、単純にある区間のケプストラムの時系列の平均値
を差し引くだけであるため、音声エネルギーの大小、あ
るいはSN比の違いによる影響で推定誤りが起こるなど
その改善効果には限界があることが問題であった。
場合、認識システムを認識対象となる音響的条件に適応
化することで認識性能を改善しようとする試みがされて
きた。以下に、これまでに提案されている2つの方法に
ついて説明する。第一は、ケプストラム平均値正規化法
と呼ばれる方法である。音声の音響的特徴量としては対
数スペクトルの逆フーリエ変換で定義されるケプストラ
ムが用いられることが多い。ケプストラム領域において
は、スペクトラム領域におけるフィルタが加減算により
実現されるので回線特性の変動による歪みはケプストラ
ムの加減算により補正できる。この原理による簡単で効
果的な回線特性補正方法がケプストラム平均値正規化法
である。音声の音響的特徴量としてケプストラム係数を
用いる場合には、そのケプストラムの時系列から当該音
声区間にわたる平均値を引くことで、時不変な周波数ス
ペクトル的傾向を平坦化することができる。しかしなが
ら、ケプストラム平均値正規化法では、長時間平均によ
り回線における時不変のスペクトル包絡を差し引いて平
坦化するというのが原理であるため、ある程度長い音声
区間にわたって平均をとらないと効果が期待できない。
また、単純にある区間のケプストラムの時系列の平均値
を差し引くだけであるため、音声エネルギーの大小、あ
るいはSN比の違いによる影響で推定誤りが起こるなど
その改善効果には限界があることが問題であった。
【0009】第二はコードブックの変換によるモデル適
応化法である。この方法は、話者適応化のために提案さ
れたが、コードブックを用いるモデルをベースとしてい
れば、一般に学習音声と認識対象音声の収録環境の不一
致に対する適応化手法として適用可能と考えられる。こ
の方法により、離散確率分布モデル、あるいは半連続分
布モデルの場合には、コードブックを学習用音声で求め
たものから認識対象となる音声で求めたものへ変換する
ことでモデルの適応化が可能である。この方法につい
て、学習用音声の収録回線である回線Aの音声で学習し
たモデルを、認識対象音声の収録回線である回線Bの音
声に適応化する場合を例として説明する。回線Aの音声
と回線Bの音声とがあるとき、回線Aの音声を用いてコ
ードブックAを、回線Bの音声を用いてコードブックB
をそれぞれ設計する。そして、回線Aの音声をコードブ
ックAを用いてベクトル量子化し、その結果のコードブ
ックAのコードの系列を用いてHMMを学習する(HM
Mを作成する)。次に、発声内容が同じ回線Bの音声
を、それぞれコードブックA、コードブックBを用いて
それぞれベクトル量子化し、コードブックAとコートブ
ックBの各コードの対応関係をDPマッチングにより求
める。回線Bの音声を認識対象とするときには、コード
ブックBでベクトル量子化を行ない、その結果をコード
ブックAとコードブックBの対応関係からコードブック
Aのコード系列に変換し、コードブックAを用いて学習
したHMMを用いて回線Bの音声を認識することが可能
になる。しかしながら、この方法は回線Bの音声、すな
わち、認識対象となる音声の収録された回線の音声をコ
ードブックを設計できるほどの量を持っていることが必
要であり、かつ回線Aと全く同じ発声内容の音声がなけ
ればならないということが問題である。したがって、よ
り少ない量の適応化音声で、かつ発声内容に関する制約
の緩い適応化法が必要であった。
応化法である。この方法は、話者適応化のために提案さ
れたが、コードブックを用いるモデルをベースとしてい
れば、一般に学習音声と認識対象音声の収録環境の不一
致に対する適応化手法として適用可能と考えられる。こ
の方法により、離散確率分布モデル、あるいは半連続分
布モデルの場合には、コードブックを学習用音声で求め
たものから認識対象となる音声で求めたものへ変換する
ことでモデルの適応化が可能である。この方法につい
て、学習用音声の収録回線である回線Aの音声で学習し
たモデルを、認識対象音声の収録回線である回線Bの音
声に適応化する場合を例として説明する。回線Aの音声
と回線Bの音声とがあるとき、回線Aの音声を用いてコ
ードブックAを、回線Bの音声を用いてコードブックB
をそれぞれ設計する。そして、回線Aの音声をコードブ
ックAを用いてベクトル量子化し、その結果のコードブ
ックAのコードの系列を用いてHMMを学習する(HM
Mを作成する)。次に、発声内容が同じ回線Bの音声
を、それぞれコードブックA、コードブックBを用いて
それぞれベクトル量子化し、コードブックAとコートブ
ックBの各コードの対応関係をDPマッチングにより求
める。回線Bの音声を認識対象とするときには、コード
ブックBでベクトル量子化を行ない、その結果をコード
ブックAとコードブックBの対応関係からコードブック
Aのコード系列に変換し、コードブックAを用いて学習
したHMMを用いて回線Bの音声を認識することが可能
になる。しかしながら、この方法は回線Bの音声、すな
わち、認識対象となる音声の収録された回線の音声をコ
ードブックを設計できるほどの量を持っていることが必
要であり、かつ回線Aと全く同じ発声内容の音声がなけ
ればならないということが問題である。したがって、よ
り少ない量の適応化音声で、かつ発声内容に関する制約
の緩い適応化法が必要であった。
【0010】
【発明が解決しようとする課題】この発明の目的は、学
習用音声と認識対象となる音声とが性質の異なる場合に
も高い認識精度を得るための適応化を、少ない学習音声
を用いて行うことができ、また少ない計算量で行なうこ
とができる音響モデルの適応化方法を提供することにあ
る。
習用音声と認識対象となる音声とが性質の異なる場合に
も高い認識精度を得るための適応化を、少ない学習音声
を用いて行うことができ、また少ない計算量で行なうこ
とができる音響モデルの適応化方法を提供することにあ
る。
【0011】
【課題を解決するための手段】この発明によれば音響モ
デルを、パラメータ空間を複数の基底分布で表現された
コードブックと、そのコードブック中の各基底分布に対
する重み係数とにより構成し、各認識対象カテゴリと独
立に学習した全カテゴリ音響モデルを用いて、パラメー
タ空間を表現する基底分布を、性質を異にする音声、つ
まり認識時の音声と同一性質の音声により再推定して適
応化する。
デルを、パラメータ空間を複数の基底分布で表現された
コードブックと、そのコードブック中の各基底分布に対
する重み係数とにより構成し、各認識対象カテゴリと独
立に学習した全カテゴリ音響モデルを用いて、パラメー
タ空間を表現する基底分布を、性質を異にする音声、つ
まり認識時の音声と同一性質の音声により再推定して適
応化する。
【0012】請求項2の発明では、再推定された各基底
分布の、その推定前の基底分布に対する変化をそれぞれ
適応化ベクトルとし、各基底分布を音声パワーに従って
クラスタリングし、上記適応化ベクトルを上記各クラス
タに属する基底分布について平均化し、その平均化適応
化ベクトルを用いて、そのクラスタの各基底分布を適応
化する。
分布の、その推定前の基底分布に対する変化をそれぞれ
適応化ベクトルとし、各基底分布を音声パワーに従って
クラスタリングし、上記適応化ベクトルを上記各クラス
タに属する基底分布について平均化し、その平均化適応
化ベクトルを用いて、そのクラスタの各基底分布を適応
化する。
【0013】請求項3の発明では各クラスタごとの平均
化適応化ベクトルと、そのクラスタの各基底分布ごとの
適応化ベクトルとを荷重平均し、その荷重平均適応化ベ
クトルを用いてそのクラスタの基底分布を適応化する。
化適応化ベクトルと、そのクラスタの各基底分布ごとの
適応化ベクトルとを荷重平均し、その荷重平均適応化ベ
クトルを用いてそのクラスタの基底分布を適応化する。
【0014】
【作用】前記構成により、(1)全音素HMMを用いる
ことで適応化音声の発声内容によらずに任意の発声によ
り適応化が可能であり、(2)音声のパワーの大小を考
慮しているため、より正確な回線特性の適応化が可能で
あるという利点がある。すなわち、音声のパワーが大き
くSN比が高い場合は付加的な雑音の影響が小さく、パ
ワーが小さい場合はその逆であることを利用し、パワー
の大きいクラスタに属する基底分布ロードワードに対し
てはそのクラスタに属する基底分布(コードワード)の
修正量の平均値を、パワーの小さいクラスタに属する基
底分布(コードワード)に対してはその基底分布自身の
修正量を重視するようにコードブックを適応化すること
が可能である。
ことで適応化音声の発声内容によらずに任意の発声によ
り適応化が可能であり、(2)音声のパワーの大小を考
慮しているため、より正確な回線特性の適応化が可能で
あるという利点がある。すなわち、音声のパワーが大き
くSN比が高い場合は付加的な雑音の影響が小さく、パ
ワーが小さい場合はその逆であることを利用し、パワー
の大きいクラスタに属する基底分布ロードワードに対し
てはそのクラスタに属する基底分布(コードワード)の
修正量の平均値を、パワーの小さいクラスタに属する基
底分布(コードワード)に対してはその基底分布自身の
修正量を重視するようにコードブックを適応化すること
が可能である。
【0015】
【実施例】以下、この発明の一実施例として、防音室な
ど音響条件の比較的よい環境で収録した音声で学習した
音響モデルを、学習音声とは特性の異なる電話音声に適
応化する場合について図面を参照して説明する。この例
では音響モデルとして半連続分布HMMを用いた場合に
ついて説明する。この発明の方法は、モデルパラメータ
空間を基底分布の集合により表現し、その基底分布を各
モデルが共有するようなモデル表現であれば、離散分布
HMMでも連続分布HMMでも適用可能である。
ど音響条件の比較的よい環境で収録した音声で学習した
音響モデルを、学習音声とは特性の異なる電話音声に適
応化する場合について図面を参照して説明する。この例
では音響モデルとして半連続分布HMMを用いた場合に
ついて説明する。この発明の方法は、モデルパラメータ
空間を基底分布の集合により表現し、その基底分布を各
モデルが共有するようなモデル表現であれば、離散分布
HMMでも連続分布HMMでも適用可能である。
【0016】図1にこの発明を適用した音声認識装置を
示す。入力端子11からのアナログ音声信号は音声入力
部12でディジタル音声信号に変換され、そのディジタ
ル音声信号から音響特徴量(例えば、ケプストラム、Δ
ケプストラム、Δパワーなど)が音響特徴量抽出部13
で抽出される。音響モデルとしてHMMを用いた場合
で、HMMのパラメータ(音響特徴量ベクトルの平均
値、共分散、遷移確率)や、各分布の重み係数は演算部
14で計算される。半連続分布HMMではパラメータ空
間を複数の基底分布で表現したコードブックと、そのコ
ードブック中の各基底分布に対する重み係数とにより構
成されるが、前記比較的よい環境で収録した音声で学習
したHMMの基底分布が不特定コードブック14に蓄え
られ、その各HMMについての各基底分布に対する重み
係数が重み係数メモリ16に記憶されている。またこの
発明では不特定話者用コードブックの基底分布を電話音
声で適応化した基底分布が適応化コードブック17に蓄
えられる。認識結果は演算部14から出力端子18に出
力される。音響特徴量抽出部13は、ハードウェアによ
り実現しても、あるいは、ソフトウェアにより実現して
もよい。ソフトウェアにより実現する場合には、演算部
14の演算能力が十分にあれば演算部14で実現しても
差しつかえない。
示す。入力端子11からのアナログ音声信号は音声入力
部12でディジタル音声信号に変換され、そのディジタ
ル音声信号から音響特徴量(例えば、ケプストラム、Δ
ケプストラム、Δパワーなど)が音響特徴量抽出部13
で抽出される。音響モデルとしてHMMを用いた場合
で、HMMのパラメータ(音響特徴量ベクトルの平均
値、共分散、遷移確率)や、各分布の重み係数は演算部
14で計算される。半連続分布HMMではパラメータ空
間を複数の基底分布で表現したコードブックと、そのコ
ードブック中の各基底分布に対する重み係数とにより構
成されるが、前記比較的よい環境で収録した音声で学習
したHMMの基底分布が不特定コードブック14に蓄え
られ、その各HMMについての各基底分布に対する重み
係数が重み係数メモリ16に記憶されている。またこの
発明では不特定話者用コードブックの基底分布を電話音
声で適応化した基底分布が適応化コードブック17に蓄
えられる。認識結果は演算部14から出力端子18に出
力される。音響特徴量抽出部13は、ハードウェアによ
り実現しても、あるいは、ソフトウェアにより実現して
もよい。ソフトウェアにより実現する場合には、演算部
14の演算能力が十分にあれば演算部14で実現しても
差しつかえない。
【0017】適応化前の基底分布の集合、つまり不特定
話者用コードブック15に収容されている基底分布の集
合は例えば図2Aに示すようにV1 〜VN からなる。半
連続HMMは前述したようにこのコードブックの各分布
に対する重み係数をもっており、入力音声に対する尤度
は、各分布の確率分布関数値を重み付き加算することに
より求められる。コードブック15のサイズ、すなわち
基底分布の数は、音響的特徴量として例えばケプストラ
ム係数を用いる場合、256程度を用いることが多い。
入力音声の特徴ベクトルをx、各基底分布の確率密度関
数値をV1 (x),V2 (x),V3 (x),…,VN
(x)とし、それぞれの分布に対する重み係数を、
W1 ,W2 ,W3 ,…,WN とすると、その入力音声の
特徴ベクトルxに対する尤度F(x)は F(x)=W1 V1 (x)+W2 V2 (x)+W3 V3 (x) +…+WN VN (x) …(1) で求められる。W1 〜WN は各HMMにより異った値で
ある。
話者用コードブック15に収容されている基底分布の集
合は例えば図2Aに示すようにV1 〜VN からなる。半
連続HMMは前述したようにこのコードブックの各分布
に対する重み係数をもっており、入力音声に対する尤度
は、各分布の確率分布関数値を重み付き加算することに
より求められる。コードブック15のサイズ、すなわち
基底分布の数は、音響的特徴量として例えばケプストラ
ム係数を用いる場合、256程度を用いることが多い。
入力音声の特徴ベクトルをx、各基底分布の確率密度関
数値をV1 (x),V2 (x),V3 (x),…,VN
(x)とし、それぞれの分布に対する重み係数を、
W1 ,W2 ,W3 ,…,WN とすると、その入力音声の
特徴ベクトルxに対する尤度F(x)は F(x)=W1 V1 (x)+W2 V2 (x)+W3 V3 (x) +…+WN VN (x) …(1) で求められる。W1 〜WN は各HMMにより異った値で
ある。
【0018】各音素と対応するHMMの形を決めるパラ
メータ(V1 ,V2 ,V3 ,…,V N のガウス分布の平
均値と共分散、それぞれの分布に対する重み係数、
W1 ,W 2 ,W3 ,…,WN )は、多くの音声データを
用いてフォワード・バックワードアルゴリズムにより推
定される。ここで、基底分布V1 〜VN は全モデル、全
状態にわたって共有されており、各モデルの各状態ごと
にWi の値が各音素モデル固有の値として推定される。
メータ(V1 ,V2 ,V3 ,…,V N のガウス分布の平
均値と共分散、それぞれの分布に対する重み係数、
W1 ,W 2 ,W3 ,…,WN )は、多くの音声データを
用いてフォワード・バックワードアルゴリズムにより推
定される。ここで、基底分布V1 〜VN は全モデル、全
状態にわたって共有されており、各モデルの各状態ごと
にWi の値が各音素モデル固有の値として推定される。
【0019】この発明による適応化では、各モデルのW
i 、つまり重み係数メモリ16の内容はそのままにして
おき、基底分布V1 〜VN のみを適応化する。適応化に
より、認識対象となる音声のパラメータ空間をうまく表
現できるように各基底分布V 1 〜VN の平均値や分散が
変化する。平均値の変化により位置が移動し、共分散の
変化により分布の大きさが変わる。この適応化により各
分布V1 〜VN は図2Bに示すように変化させられる。
適応化用音声が十分な量を得られない場合には共分散は
変化させずに平均値だけを変化させてもよい。基底分布
V1 〜VN 自体が新たなパラメータ空間へ移動すること
によりモデル固有のWi が変化しなくとも、音素モデル
としては新たなパラメータ空間に適応化されたものとな
る。
i 、つまり重み係数メモリ16の内容はそのままにして
おき、基底分布V1 〜VN のみを適応化する。適応化に
より、認識対象となる音声のパラメータ空間をうまく表
現できるように各基底分布V 1 〜VN の平均値や分散が
変化する。平均値の変化により位置が移動し、共分散の
変化により分布の大きさが変わる。この適応化により各
分布V1 〜VN は図2Bに示すように変化させられる。
適応化用音声が十分な量を得られない場合には共分散は
変化させずに平均値だけを変化させてもよい。基底分布
V1 〜VN 自体が新たなパラメータ空間へ移動すること
によりモデル固有のWi が変化しなくとも、音素モデル
としては新たなパラメータ空間に適応化されたものとな
る。
【0020】適応化による平均値、共分散の再推定の具
体的方法について、モデルを音素単位に設定していると
仮定して説明する。平均値、共分散の再推定は全音素H
MMを用いて行なう。つまり、各認識音素とは独立に、
認識対象となる音声すべてを用いて学習し、全ての音素
の何れに対しても比較的大きな尤度となるように学習し
たモデル、いわゆる全音素モデルに対する重み係数W1
〜WN を用いて、コードブック15のみ(平均値と共分
散)を再学習する。通常、各音素モデルは、256のコ
ードワード、つまり基底分布の内、特にその音素を表現
するために重要な複数の基底分布に対して高い重み係数
を持ち、その他に対してはほとんど0に近い非常に小さ
な重み係数の値を示す。したがって、個々の音素モデル
の再推定では、大きな重み係数のかかったコードワード
(基底分布)がより大きく移動し、重み係数の小さなコ
ードワード(基底分布)はほとんど移動しないため、コ
ードブック全体をバランスよく再推定することができな
いため、全コードワード(全基底分布)に対してバラン
スよく重み係数を持っている全音素HMMを用いて再推
定を行なう。この全音素HMMは不特定話者用コードブ
ック15及び重み係数を学習する際に予め学習してお
き、その重み係数をメモリ16中に全音素モデル用重み
係数19として記憶しておき、適応化コードブック17
を作成する際に、この全音素モデル用重み係数を用い
て、その他は通常の学習と同様にフォワード・バックワ
ードアルゴリズムにより各音素モデル(HMM)の平均
値及び共分散の推定を行って適応化コードブック17を
作成する。
体的方法について、モデルを音素単位に設定していると
仮定して説明する。平均値、共分散の再推定は全音素H
MMを用いて行なう。つまり、各認識音素とは独立に、
認識対象となる音声すべてを用いて学習し、全ての音素
の何れに対しても比較的大きな尤度となるように学習し
たモデル、いわゆる全音素モデルに対する重み係数W1
〜WN を用いて、コードブック15のみ(平均値と共分
散)を再学習する。通常、各音素モデルは、256のコ
ードワード、つまり基底分布の内、特にその音素を表現
するために重要な複数の基底分布に対して高い重み係数
を持ち、その他に対してはほとんど0に近い非常に小さ
な重み係数の値を示す。したがって、個々の音素モデル
の再推定では、大きな重み係数のかかったコードワード
(基底分布)がより大きく移動し、重み係数の小さなコ
ードワード(基底分布)はほとんど移動しないため、コ
ードブック全体をバランスよく再推定することができな
いため、全コードワード(全基底分布)に対してバラン
スよく重み係数を持っている全音素HMMを用いて再推
定を行なう。この全音素HMMは不特定話者用コードブ
ック15及び重み係数を学習する際に予め学習してお
き、その重み係数をメモリ16中に全音素モデル用重み
係数19として記憶しておき、適応化コードブック17
を作成する際に、この全音素モデル用重み係数を用い
て、その他は通常の学習と同様にフォワード・バックワ
ードアルゴリズムにより各音素モデル(HMM)の平均
値及び共分散の推定を行って適応化コードブック17を
作成する。
【0021】全音素モデルは音素に独立なので発声内容
によらずに学習できるため、ある決められた適応化用学
習音声を発声しなければならないというような拘束条件
を必要としないことも利点である。以上の適応化学習の
演算は、図1中の演算部14において行なわれる。回線
Bの適応化学習用音声は、各認識カテゴリ(音素)に対
応する区間をラベル付けされている必要がなく、回線B
の適応化学習用音声は、音声入力部12、音響特徴量抽
出部13において、アナログ音声信号からディジタル音
声信号に変換され、音響特徴量ベクトルにされる。この
回線Bの適応化学習音声の音声区間の音響特徴量ベクト
ルを観測サンプルとして、フォワード・バックワードア
ルゴリズムにより全音素HMMの分布の平均値、共分散
や、重み係数を再推定することができる。各音素HMM
は重み係数の再推定/更新をする必要がなく、コードブ
ック15を適応化されたものに変更するだけでよい。こ
のようにして、基底分布の重み係数はもとの不特定話者
用モデル、つまりメモリ16の内容と同じで、コードブ
ック15の平均値、共分散が回線Bの音声に最適化され
たHMMを作成し、適応化コードブック17とされる。
によらずに学習できるため、ある決められた適応化用学
習音声を発声しなければならないというような拘束条件
を必要としないことも利点である。以上の適応化学習の
演算は、図1中の演算部14において行なわれる。回線
Bの適応化学習用音声は、各認識カテゴリ(音素)に対
応する区間をラベル付けされている必要がなく、回線B
の適応化学習用音声は、音声入力部12、音響特徴量抽
出部13において、アナログ音声信号からディジタル音
声信号に変換され、音響特徴量ベクトルにされる。この
回線Bの適応化学習音声の音声区間の音響特徴量ベクト
ルを観測サンプルとして、フォワード・バックワードア
ルゴリズムにより全音素HMMの分布の平均値、共分散
や、重み係数を再推定することができる。各音素HMM
は重み係数の再推定/更新をする必要がなく、コードブ
ック15を適応化されたものに変更するだけでよい。こ
のようにして、基底分布の重み係数はもとの不特定話者
用モデル、つまりメモリ16の内容と同じで、コードブ
ック15の平均値、共分散が回線Bの音声に最適化され
たHMMを作成し、適応化コードブック17とされる。
【0022】通常の不特定話者音声認識では、不特定話
者用コードブック15と重み係数メモリ16で音響特徴
量が表現された不特定話者用モデルを用いる。回線Bか
らの音声を認識する場合は、適応化コードブック17と
重み係数メモリ16とで認識対象回線Bに適応化された
HMMを用いて、回線Bの入力音声に対する各認識カテ
ゴリのHMMの尤度を求め、最も尤度の高いモデルのカ
テゴリを認識結果とする、あるいは尤度の高い順に認識
結果候補とする。
者用コードブック15と重み係数メモリ16で音響特徴
量が表現された不特定話者用モデルを用いる。回線Bか
らの音声を認識する場合は、適応化コードブック17と
重み係数メモリ16とで認識対象回線Bに適応化された
HMMを用いて、回線Bの入力音声に対する各認識カテ
ゴリのHMMの尤度を求め、最も尤度の高いモデルのカ
テゴリを認識結果とする、あるいは尤度の高い順に認識
結果候補とする。
【0023】図3Aに、この発明方法によりマイク音声
で学習した半連続HMMのコードブック15を電話音声
へ適応化した場合のその電話音声に対する音素認識結果
を示す。音響的特徴量はケプストラムとΔケプストラム
各12次元である。図中、CMNは従来技術の項で述べ
たケプストラム平均値正規化法、meanは各基底分布
の平均値だけを適応化したもの、mean and v
ar.は平均値と共分散を同時に適応化したもの、me
an+varは平均値だけを適応化した後に、共分散だ
けを適応化したものである。この図からCMNにこの発
明方法を組み合わせると55.4%まで認識率が向上し
た。請求項2の発明の実施例 半連続HMMのコードブック15を各基底分布の音声パ
ワーにしたがってクラスタリングする。すなわち音声パ
ワーの近い基底分布は同じクラスタに属する。前記請求
項1の発明の実施例において求めた各基底分布(コード
ブック15)に対応する適応化基底分布(コードブック
17)の変化を適応化ベクトルとする時、基底分布の属
するクラスタごとにその適応化ベクトルを平均化して、
そのクラスタの代表適応化ベクトル(平均化適応化ベク
トル)とし、そのクラスタに属する基底分布すべてをそ
のクラスタの代表適応化ベクトルにより適応化する。例
えば音声パワークラスタリングにより、例えば図2A中
の基底分布V2 ,V3 ,V 6 が同じクラスタに属したと
すると、基底分布V2 ,V3 ,V6 の適応化コードブッ
ク17中の各対応する基底分布への変化ベクトル(適応
化ベクトル)E2 ,E3 ,E6 (この場合は平均値の変
化を示すベクトル)を平均化し、その平均化適応化ベク
トルEm を用いて、そのクラスタに属する基底分布
V2 ,V3 ,V6を適応化する。この場合は一種の平滑
化の効果により適応化用音声が少量の場合にも頑健な適
応化が期待できる。
で学習した半連続HMMのコードブック15を電話音声
へ適応化した場合のその電話音声に対する音素認識結果
を示す。音響的特徴量はケプストラムとΔケプストラム
各12次元である。図中、CMNは従来技術の項で述べ
たケプストラム平均値正規化法、meanは各基底分布
の平均値だけを適応化したもの、mean and v
ar.は平均値と共分散を同時に適応化したもの、me
an+varは平均値だけを適応化した後に、共分散だ
けを適応化したものである。この図からCMNにこの発
明方法を組み合わせると55.4%まで認識率が向上し
た。請求項2の発明の実施例 半連続HMMのコードブック15を各基底分布の音声パ
ワーにしたがってクラスタリングする。すなわち音声パ
ワーの近い基底分布は同じクラスタに属する。前記請求
項1の発明の実施例において求めた各基底分布(コード
ブック15)に対応する適応化基底分布(コードブック
17)の変化を適応化ベクトルとする時、基底分布の属
するクラスタごとにその適応化ベクトルを平均化して、
そのクラスタの代表適応化ベクトル(平均化適応化ベク
トル)とし、そのクラスタに属する基底分布すべてをそ
のクラスタの代表適応化ベクトルにより適応化する。例
えば音声パワークラスタリングにより、例えば図2A中
の基底分布V2 ,V3 ,V 6 が同じクラスタに属したと
すると、基底分布V2 ,V3 ,V6 の適応化コードブッ
ク17中の各対応する基底分布への変化ベクトル(適応
化ベクトル)E2 ,E3 ,E6 (この場合は平均値の変
化を示すベクトル)を平均化し、その平均化適応化ベク
トルEm を用いて、そのクラスタに属する基底分布
V2 ,V3 ,V6を適応化する。この場合は一種の平滑
化の効果により適応化用音声が少量の場合にも頑健な適
応化が期待できる。
【0024】図3Bにこの請求項2の発明の方法でコー
ドブックを適応化した場合の認識結果を示す。音響的特
徴量としてケプストラム、Δケプストラムに加え、正規
化対数パワーとその一次微分(Δパワー)を用いた。ク
ラスタリングは正規化対数パワーにより行なった。クラ
スタ数は実験的に最適値を求め、5とした。特徴量が増
えたことにより先の実験より全体的に認識率が向上して
いるが、パワーでクラスタリングした場合はCMNやm
ean(全音素HMMでコードブックの平均値を適応化
した場合)より高い認識率を示している。請求項3の発明の実施例 前記実施例における各基底分布に対応する適応化ベクト
ルと、その基底分布の属するクラスタの代表適応化ベク
トル(平均化適応化ベクトル)との重み付き線形和を新
たに適応化ベクトルとしてコードブックを適応化する。
音声パワーが大きいところではおもにフィルタ的な歪み
の影響が精度の劣化原因として考えられ、音声パワーが
小さいところでは加算的な雑音の影響も無視できないと
考えられるため、音声パワーの大小によって、基底分布
自身に対応する適応化ベクトルとクラスタの代表適応化
ベクトルの寄与率を操作することで、より高精度な適応
化が実現できると期待できる。
ドブックを適応化した場合の認識結果を示す。音響的特
徴量としてケプストラム、Δケプストラムに加え、正規
化対数パワーとその一次微分(Δパワー)を用いた。ク
ラスタリングは正規化対数パワーにより行なった。クラ
スタ数は実験的に最適値を求め、5とした。特徴量が増
えたことにより先の実験より全体的に認識率が向上して
いるが、パワーでクラスタリングした場合はCMNやm
ean(全音素HMMでコードブックの平均値を適応化
した場合)より高い認識率を示している。請求項3の発明の実施例 前記実施例における各基底分布に対応する適応化ベクト
ルと、その基底分布の属するクラスタの代表適応化ベク
トル(平均化適応化ベクトル)との重み付き線形和を新
たに適応化ベクトルとしてコードブックを適応化する。
音声パワーが大きいところではおもにフィルタ的な歪み
の影響が精度の劣化原因として考えられ、音声パワーが
小さいところでは加算的な雑音の影響も無視できないと
考えられるため、音声パワーの大小によって、基底分布
自身に対応する適応化ベクトルとクラスタの代表適応化
ベクトルの寄与率を操作することで、より高精度な適応
化が実現できると期待できる。
【0025】上述ではこの発明を回線音声に適応化させ
る場合に適用したが、いわゆる話者適応にも適用でき
る。また音響モデルとしてはHMMに限らない。
る場合に適用したが、いわゆる話者適応にも適用でき
る。また音響モデルとしてはHMMに限らない。
【0026】
【発明の効果】以上述べたように、この発明によれば、
(1)任意の発声内容の適応化音声により認識対象とな
る音声の特性へ音響モデルを適応化することができ、
(2)音声パワーに応じた適応化を行なうことでより頑
健で精度の高い適応化が可能となる、(3)各カテゴリ
モデルの分布係数は再推定せず、共通のコードブックだ
けを再推定するため適応化学習に要する学習音声は少な
くてよく、そのため計算時間も少ない、などの利点があ
る。
(1)任意の発声内容の適応化音声により認識対象とな
る音声の特性へ音響モデルを適応化することができ、
(2)音声パワーに応じた適応化を行なうことでより頑
健で精度の高い適応化が可能となる、(3)各カテゴリ
モデルの分布係数は再推定せず、共通のコードブックだ
けを再推定するため適応化学習に要する学習音声は少な
くてよく、そのため計算時間も少ない、などの利点があ
る。
【図1】この発明を適用した音声認識システムの構成を
示すブロック図。
示すブロック図。
【図2】この発明による音響モデルの適応化の様子を示
す図。
す図。
【図3】この発明の効果を示す図。
【図4】Aは音響モデルの例を示す図。Bは混合分布の
例を示す図である。
例を示す図である。
【図5】Aは離散分布モデルのコードブックの例を示す
図、Bはその各音響モデルの例を示す図、Cは連続分布
モデルの例を示す図である。
図、Bはその各音響モデルの例を示す図、Cは連続分布
モデルの例を示す図である。
【図6】半連続分布モデルの例を示す図。
Claims (3)
- 【請求項1】 学習用音声を用いて、その音声の音響的
特徴量を抽出し、その特徴量を統計的にモデル化して、
認識カテゴリに対応した音響モデルを、認識時に、上記
学習用音声と性質を異にする音声を用いて適応化する方
法において、 上記音響モデルは、パラメータ空間を複数の基底分布で
表現したコードブックと、そのコードブック中の各基底
分布に対する重み係数とにより構成し、 各認識対象カテゴリと独立に学習した全カテゴリ音響モ
デルを用いて、上記パラメータ空間を表現する基底分布
を、上記性質を異にする音声により再推定して適応化す
ることを特徴とする音響モデルの適応化法。 - 【請求項2】 上記再推定された各基底分布の、その推
定前の基底分布に対する変化をそれぞれ適応化ベクトル
とし、 上記基底分布を音声パワーに従ってクラスタリングし、 上記適応化ベクトルを上記各クラスタに属する基底分布
について平均化し、 その平均化適応化ベクトルを用いて、そのクラスタの各
基底分布を適応化することを特徴とする請求項1記載の
音響モデルの適応化法。 - 【請求項3】 上記再推定された各基底分布の、その推
定前の基底分布に対する変化をそれぞれ適応化ベクトル
とし、 上記基底分布を音声パワーに従ってクラスタリングし、 上記適応化ベクトルを上記各クラスタに属する基底分布
について平均化し、 その各クラスタごとの平均化適応化ベクトルと、そのク
ラスタの各基底分布ごとの適応化ベクトルとを荷重平均
し、 その荷重平均適応化ベクトルを用いて、そのクラスタの
基底分布を適応化することを特徴とする請求項1記載の
音響モデルの適応化法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264097A JPH08123465A (ja) | 1994-10-27 | 1994-10-27 | 音響モデルの適応化法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264097A JPH08123465A (ja) | 1994-10-27 | 1994-10-27 | 音響モデルの適応化法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08123465A true JPH08123465A (ja) | 1996-05-17 |
Family
ID=17398474
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6264097A Pending JPH08123465A (ja) | 1994-10-27 | 1994-10-27 | 音響モデルの適応化法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08123465A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
| US7440891B1 (en) | 1997-03-06 | 2008-10-21 | Asahi Kasei Kabushiki Kaisha | Speech processing method and apparatus for improving speech quality and speech recognition performance |
-
1994
- 1994-10-27 JP JP6264097A patent/JPH08123465A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7440891B1 (en) | 1997-03-06 | 2008-10-21 | Asahi Kasei Kabushiki Kaisha | Speech processing method and apparatus for improving speech quality and speech recognition performance |
| JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5960397A (en) | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition | |
| US5812972A (en) | Adaptive decision directed speech recognition bias equalization method and apparatus | |
| JP2733955B2 (ja) | 適応型音声認識装置 | |
| Anastasakos et al. | Speaker adaptive training: A maximum likelihood approach to speaker normalization | |
| US5893059A (en) | Speech recoginition methods and apparatus | |
| AU720511B2 (en) | Pattern recognition | |
| JP4218982B2 (ja) | 音声処理 | |
| CN1329883C (zh) | 语音模型的噪声适应系统及方法 | |
| US5890113A (en) | Speech adaptation system and speech recognizer | |
| JPH0850499A (ja) | 信号識別方法 | |
| JPH1115491A (ja) | 環境的に補償されたスピーチ処理方法 | |
| JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
| JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
| Ney et al. | The RWTH large vocabulary continuous speech recognition system | |
| EP1457968A1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
| JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
| Gales | Multiple-cluster adaptive training schemes | |
| JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
| JP2000075889A (ja) | 音声認識システム及び音声認識方法 | |
| JPH08123465A (ja) | 音響モデルの適応化法 | |
| JP2973805B2 (ja) | 標準パターン作成装置 | |
| Bacchiani | Automatic transcription of voicemail at AT&T | |
| JPH05232989A (ja) | 音響モデルの話者適応化法 | |
| JP4839555B2 (ja) | 音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体 | |
| JP2705537B2 (ja) | 話者学習装置 |