JP3251005B2

JP3251005B2 - 標準パターン作成方法

Info

Publication number: JP3251005B2
Application number: JP24686390A
Authority: JP
Inventors: 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-09-17
Filing date: 1990-09-17
Publication date: 2002-01-28
Anticipated expiration: 2017-01-28
Also published as: JPH04125599A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声認識等パターン認識に用いられる標準
パターンの作成方法に関する。

〔従来の技術〕

音声認識などパターン認識の分野で、認識用の標準パ
ターンとして確率モデルを用いる方法が近年注目されて
おり、特に隠れマルコフモデル（以下HMMと呼ぶ）は音
声認識の分野で標準パターンを表すモデルとして広く用
いられている。

HMMは状態の集合と状態間の遷移確率と状態あるいは
遷移のベクトル出力確率によって定義され、入力パター
ンに対する各HMMの尤度を計算することにより認識を行
う。HMMによる音声認識については、刊行物「確率モデ
ルによる音声認識」中川聖一著に詳しく述べられてい
る。

各状態（あるいは遷移）のベクトル出力確率が混合連
続分布で表されるHMMモデルのパラメータを決定する方
法として、Baum−Welchアルゴリズムなど、ある初期値
から学習用データを用いてパラメータを繰り返し更新す
る学習法が知られている。この場合、出力確率分布の平
均値などのパラメータの初期値は、混合する各分布毎に
決定する必要がある。これらのパラメータの初期値を与
える方法としては、（ａ）乱数で与える（ｂ）単一の分布の場合のパラメータに乱数値でぼかし
作用を行う（「連続出力分布型HMMによる日本語音韻認
識の検討」）電子情報通信学会音声研究会資料SP89−4
8）などの方法が知られている。

一方、ある初期値から更新によって求めるのではなく
学習データから直接パラメータを決定する方法として、（ｃ）学習データをセグメンテーションしたあとクラス
タリングを行って混合する分布数のクラスタを求め、各
クラスのデータから平均値等のパラメータを求める方法
が知られている（“High Performance Connected Digit
Recognition Using Hidden Markov Models",IEEE Tran
saction on Acoustics,Speech,and Signal Processing,
Vol.37,No.8,pp.1214−1224,August 1989）。このよう
にして決められた値を初期値として、Baum−Welchアル
ゴリズムなどにより更新を行うこともできる。

〔発明が解決しようとする課題〕

学習により繰り返しパラメータを更新する方法を用い
る場合、効率よく学習が行われるためには初期値の設定
が重要であることが知られているが、（ａ）のように乱
数を用いたり（ｂ）のように単一の分布の場合のパラメ
ータを用いるのでは、学習の収束までに時間がかかり、
また収束値も全体の最適値ではなく局所的な最適値にな
る可能性が高い。一方（ｃ）の方法は、パラメータ更新
のための学習を必ずしも必要とせず、また、更新の初期
値として用いる場合でも少ない繰り返し回数で収束する
と考えられるが、クラスタリングのための計算などが必
要で、計算量が多くなるという欠点があった。

本発明の目的は、このような欠点を解消した標準パタ
ーン作成方法を提供することにある。

〔課題を解決するための手段〕

第１の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
標準パターンの作成方法において、ベクトル出力確率が連続分布で表される複数の標準パ
ターンの対応する状態あるいは遷移のベクトル出力確率
分布を重み付きで混合した混合連続分布を状態あるいは
遷移のベクトル出力確率とする標準パターンを作成する
ことを特徴とする。

第２の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
音声認識用の標準パターンの作成方法において、複数の話者について話者ごとにその話者の音声データ
を用いて学習して作成されたベクトル出力確率が連続分
布で表される標準パターンの対応する状態あるいは遷移
のベクトル出力確率分布を重み付きで混合した混合連続
分布を状態あるいは遷移のベクトル出力確率とする標準
パターンを作成することを特徴とする。

第３の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
音声認識用の標準パターンの作成方法において、異なる環境で発声あるいは収録した音声データを用い
て環境ごとに学習して作成されたベクトル出力確率が連
続分布で表される標準パターンの対応する状態あるいは
遷移のベクトル出力確率分布を重み付きで混合した混合
連続分布を状態あるいは遷移のベクトル出力確率とする
標準パターンを作成することを特徴とする。

〔作用〕

本発明によれば、混合連続分布で表されるベクトル出
力確率分布を、すでに学習済みの複数の標準パターンの
ベクトル出力確率分布から合成して求めることにより、
標準パターンのパラメータを簡易に決定することができ
る。また、合成に用いる標準パターンを適切に選べば、
Baum−Welch法などの学習の初期パラメータとして用い
る場合、乱数で初期パラメータを決定する場合などに比
べ少ない学習回数で収束し、局所的な最適値に収束する
確率も小さくなると期待される。また、学習によるパラ
メータ更新を行わずそのまま用いることもできる。

第２の発明のように、合成に複数の話者について話者
ごとにその話者の音声データを用いて学習して作成され
た標準パターンを用いれば、ベクトル出力確率が混合連
続出力分布で表される不特定話者音声認識用の標準パタ
ーンを簡易に作成することができる。

第３の発明のように、合成に異なる環境で発声あるい
は収録した音声データを用いて環境ごとに学習して作成
された標準パターンを用いれば、ベクトル出力確率が混
合連続出力分布で表される環境の変動に強い標準パター
ンを簡易に作成することができる。

〔実施例〕

第１図は、第１の発明を不特定話者音声認識用のHMM
モデル作成に適用した実施例を説明するためのブロック
図である。話者Ａの学習データ（１）からHMMモデルＡ
（３）を、話者Ｂの学習データ（２）からHMMモデルＢ
（４）を作成する。話者A,Bとしては、たとえば男性，
女性から標準的な話者を１名ずつ選んで用いる。HMMモ
デルは第２図に示すような形のモデルとする。各状態ｉ
に対し、状態遷移確率a_ii,a_ii+1（a_ii＋a_ii+1＝１）と
出力ベクトルｙに対する出力確率分布b_i（ｙ）が定めら
れている。モデルＡの状態遷移確率，出力確率分布を、
それぞれａ^A,,b^A（ｙ）などと表す。出力ベクトル確率
分布が単一ガウス分布で表されたとすると、 b_i ^A（ｙ）＝Ｎ（y,μ_i ^A,Σ_i ^A） b_i ^B（ｙ）＝Ｎ（y,μ_i ^B,Σ_i ^B）と表される。ここで、Ｎ（y,μ_i,Σ_ｉ）は平均ベクトル
をμ_ｉ、共分散行列をΣ_ｉとする多次元ガウス分布を表
す。モデルＡとモデルＢから、不特定話者音声認識用の
HMMモデルＣ（５）を作成する。モデルＣの状態遷移確
率をa_ii ^C,a_ii+1 ^C,出力確率分布をb_i ^Cとする。出力確率
分布が、次のような混合数２の混合ガウス分布で表され
るとする。

b_i ^C（ｙ）＝λ¹N（y,μ_i ¹,Σ_i ¹）＋λ²N（y,μ_i ²,Σ_i ²）このとき、モデルＣの各パラメータを次のように定め
る。

a_ii ^C＝｛a_ii ^A＋a_ii ^B｝/2 a_ii+1 ^C＝｛a_ii+1 ^A＋a_ii+1 ^B｝/2 μ_i ¹＝μ_i ^A,Σ_i ¹＝Σ_i ^A μ_i ²＝μ_i ^B,Σ_i ²＝Σ_i ^B λ^１＝λ^２＝1/2 このようにして作成されたモデルＣは、そのまま不特
定話者音声認識用のHMMモデルとして用いることもで
き、また、さらに多数の話者の学習データ（６）を用い
てBaum−Welch法などで学習を行い、よりよいモデル
Ｃ′（７）を作成するための初期モデルとして用いるこ
ともできる。

モデルA,Bとして出力確率分布が混合ガウス分布で表
されるものが用意されている場合にも、同様にモデルＣ
を作成することができる。この場合、モデルＣの出力確
率分布の混合数は、モデルA,Bの出力確率分布の混合数
の和になる。

次に、第２の発明の一実施例について説明する。多数
の話者が発声した少数語彙の音声データをクラスタリン
グすることにより話者をＭ個のクラスタに分け、各クラ
スタからクラスタ中心の話者Ｍ名を選ぶ。Ｍ名の各話者
について、HMM学習に必要な量の音声データをもとに、
出力確率分布が単一ガウス分布で表されるHMMモデルを
学習して作成する。作成されたＭ個のモデルから、第１
の発明の実施例と同様に混合数がＭの混合ガウス分布を
出力確率分布とするHMMモデルを作成することにより不
特定話者音声認識用のHMMモデルが得られる。Ｍ名の話
者を選ぶためのクラスタリングに用いるデータは少数の
データでよいので、従来の技術の（ｃ）に比べ計算量は
少なくなる。

最後に、第３の発明の一実施例について説明する。第
１の発明の実施例において、モデルA,Bの選び方とし
て、ある話者の異なる環境下（たとえば、静かな環境と
雑音の多い環境）で発声したデータを用いて学習したモ
デルを用いれば、モデルＣとして環境の変動に強い認識
モデルを作成することができる。

〔発明の効果〕

以上述べたように、第１の発明によれば、すでに学習
されている複数の標準パターンを用いて、ベクトル出力
確率が混合連続分布で表される標準パターンのパラメー
タを簡単に決定することができ、そのまま、あるいはこ
の値を初期値とした少数回の学習でパターン認識に用い
ることができる。また、第2,第３の発明によれば、不特
定話者用、環境の変動に強い標準パターンをそれぞれ簡
易に作成することができる。

【図面の簡単な説明】

第１図は、第１の発明を不特定話者音声認識用のHMMモ
デル作成に適用した実施例を説明するためのブロック
図、第２図は、実施例におけるHMMモデルの形を示す図であ
る。１……話者Ａの学習データ２……話者Ｂの学習データ３……HMMモデルＡ４……HMMモデルＢ５……HMMモデルＣ６……多数話者の学習データ７……HMMモデルＣ′

フロントページの続き (56)参考文献特公昭63−67197（ＪＰ，Ｂ２) 日本音響学会講演論文集平成２年３月２−３−１Ｐ51〜52 中川著「確率モデルによる音声認識」（社団法人電子情報通信学会）昭和63 年、第36〜37行

Claims

(57)【特許請求の範囲】

【請求項１】状態の集合と状態間の遷移確率と状態ある
いは遷移のベクトル出力確率とによって定義される標準
パターンの作成方法において、前記標準パターンのベクトル出力確率が連続分布で表さ
れるベクトル出力確率連続分布の複数が重み付きで混合
された混合連続分布を状態あるいは遷移のベクトル出力
確率とする標準パターンを作成することを特徴とする標
準パターン作成方法
【請求項２】状態の集合と状態間の遷移確率と状態ある
いは遷移のベクトル出力確率とによって定義される標準
パターンの作成方法において、複数の話者について話者ごとにその話者の音声データを
用いて学習して作成されたベクトル出力確率が連続分布
で表される標準パターンの対応する状態あるいは遷移の
ベクトル出力確率連続分布の複数が重み付きで混合され
た混合連続分布を状態あるいは遷移のベクトル出力確率
とする標準パターンを作成することを特徴とする標準パ
ターン作成方法
【請求項３】状態の集合と状態間の遷移確率と状態ある
いは遷移のベクトル出力確率とによって定義される標準
パターンの作成方法において、異なる環境で発声あるいは収録した音声データを用いて
学習して作成されたベクトル出力確率が連続分布で表さ
れる標準パターンの対応する状態あるいは遷移のベクト
ル出力確率連続分布の複数が重み付きで混合された混合
連続分布を状態あるいは遷移のベクトル出力確率とする
標準パターンを作成することを特徴とする標準パターン
作成方法