JP3251005B2 - 標準パターン作成方法 - Google Patents

標準パターン作成方法

Info

Publication number
JP3251005B2
JP3251005B2 JP24686390A JP24686390A JP3251005B2 JP 3251005 B2 JP3251005 B2 JP 3251005B2 JP 24686390 A JP24686390 A JP 24686390A JP 24686390 A JP24686390 A JP 24686390A JP 3251005 B2 JP3251005 B2 JP 3251005B2
Authority
JP
Japan
Prior art keywords
standard pattern
states
output probability
vector output
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24686390A
Other languages
English (en)
Other versions
JPH04125599A (ja
Inventor
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP24686390A priority Critical patent/JP3251005B2/ja
Publication of JPH04125599A publication Critical patent/JPH04125599A/ja
Application granted granted Critical
Publication of JP3251005B2 publication Critical patent/JP3251005B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声認識等パターン認識に用いられる標準
パターンの作成方法に関する。
〔従来の技術〕
音声認識などパターン認識の分野で、認識用の標準パ
ターンとして確率モデルを用いる方法が近年注目されて
おり、特に隠れマルコフモデル(以下HMMと呼ぶ)は音
声認識の分野で標準パターンを表すモデルとして広く用
いられている。
HMMは状態の集合と状態間の遷移確率と状態あるいは
遷移のベクトル出力確率によって定義され、入力パター
ンに対する各HMMの尤度を計算することにより認識を行
う。HMMによる音声認識については、刊行物「確率モデ
ルによる音声認識」中川聖一著に詳しく述べられてい
る。
各状態(あるいは遷移)のベクトル出力確率が混合連
続分布で表されるHMMモデルのパラメータを決定する方
法として、Baum−Welchアルゴリズムなど、ある初期値
から学習用データを用いてパラメータを繰り返し更新す
る学習法が知られている。この場合、出力確率分布の平
均値などのパラメータの初期値は、混合する各分布毎に
決定する必要がある。これらのパラメータの初期値を与
える方法としては、 (a)乱数で与える (b)単一の分布の場合のパラメータに乱数値でぼかし
作用を行う(「連続出力分布型HMMによる日本語音韻認
識の検討」)電子情報通信学会音声研究会資料SP89−4
8) などの方法が知られている。
一方、ある初期値から更新によって求めるのではなく
学習データから直接パラメータを決定する方法として、 (c)学習データをセグメンテーションしたあとクラス
タリングを行って混合する分布数のクラスタを求め、各
クラスのデータから平均値等のパラメータを求める方法
が知られている(“High Performance Connected Digit
Recognition Using Hidden Markov Models",IEEE Tran
saction on Acoustics,Speech,and Signal Processing,
Vol.37,No.8,pp.1214−1224,August 1989)。このよう
にして決められた値を初期値として、Baum−Welchアル
ゴリズムなどにより更新を行うこともできる。
〔発明が解決しようとする課題〕
学習により繰り返しパラメータを更新する方法を用い
る場合、効率よく学習が行われるためには初期値の設定
が重要であることが知られているが、(a)のように乱
数を用いたり(b)のように単一の分布の場合のパラメ
ータを用いるのでは、学習の収束までに時間がかかり、
また収束値も全体の最適値ではなく局所的な最適値にな
る可能性が高い。一方(c)の方法は、パラメータ更新
のための学習を必ずしも必要とせず、また、更新の初期
値として用いる場合でも少ない繰り返し回数で収束する
と考えられるが、クラスタリングのための計算などが必
要で、計算量が多くなるという欠点があった。
本発明の目的は、このような欠点を解消した標準パタ
ーン作成方法を提供することにある。
〔課題を解決するための手段〕
第1の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
標準パターンの作成方法において、 ベクトル出力確率が連続分布で表される複数の標準パ
ターンの対応する状態あるいは遷移のベクトル出力確率
分布を重み付きで混合した混合連続分布を状態あるいは
遷移のベクトル出力確率とする標準パターンを作成する
ことを特徴とする。
第2の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
音声認識用の標準パターンの作成方法において、 複数の話者について話者ごとにその話者の音声データ
を用いて学習して作成されたベクトル出力確率が連続分
布で表される標準パターンの対応する状態あるいは遷移
のベクトル出力確率分布を重み付きで混合した混合連続
分布を状態あるいは遷移のベクトル出力確率とする標準
パターンを作成することを特徴とする。
第3の発明は、状態の集合と状態間の遷移確率と状態
あるいは遷移のベクトル出力確率とによって定義される
音声認識用の標準パターンの作成方法において、 異なる環境で発声あるいは収録した音声データを用い
て環境ごとに学習して作成されたベクトル出力確率が連
続分布で表される標準パターンの対応する状態あるいは
遷移のベクトル出力確率分布を重み付きで混合した混合
連続分布を状態あるいは遷移のベクトル出力確率とする
標準パターンを作成することを特徴とする。
〔作用〕
本発明によれば、混合連続分布で表されるベクトル出
力確率分布を、すでに学習済みの複数の標準パターンの
ベクトル出力確率分布から合成して求めることにより、
標準パターンのパラメータを簡易に決定することができ
る。また、合成に用いる標準パターンを適切に選べば、
Baum−Welch法などの学習の初期パラメータとして用い
る場合、乱数で初期パラメータを決定する場合などに比
べ少ない学習回数で収束し、局所的な最適値に収束する
確率も小さくなると期待される。また、学習によるパラ
メータ更新を行わずそのまま用いることもできる。
第2の発明のように、合成に複数の話者について話者
ごとにその話者の音声データを用いて学習して作成され
た標準パターンを用いれば、ベクトル出力確率が混合連
続出力分布で表される不特定話者音声認識用の標準パタ
ーンを簡易に作成することができる。
第3の発明のように、合成に異なる環境で発声あるい
は収録した音声データを用いて環境ごとに学習して作成
された標準パターンを用いれば、ベクトル出力確率が混
合連続出力分布で表される環境の変動に強い標準パター
ンを簡易に作成することができる。
〔実施例〕
第1図は、第1の発明を不特定話者音声認識用のHMM
モデル作成に適用した実施例を説明するためのブロック
図である。話者Aの学習データ(1)からHMMモデルA
(3)を、話者Bの学習データ(2)からHMMモデルB
(4)を作成する。話者A,Bとしては、たとえば男性,
女性から標準的な話者を1名ずつ選んで用いる。HMMモ
デルは第2図に示すような形のモデルとする。各状態i
に対し、状態遷移確率aii,aii+1(aii+aii+1=1)と
出力ベクトルyに対する出力確率分布bi(y)が定めら
れている。モデルAの状態遷移確率,出力確率分布を、
それぞれaA,,bA(y)などと表す。出力ベクトル確率
分布が単一ガウス分布で表されたとすると、 bi A(y)=N(y,μi Ai A) bi B(y)=N(y,μi Bi B) と表される。ここで、N(y,μi)は平均ベクトル
をμ、共分散行列をΣとする多次元ガウス分布を表
す。モデルAとモデルBから、不特定話者音声認識用の
HMMモデルC(5)を作成する。モデルCの状態遷移確
率をaii C,aii+1 C,出力確率分布をbi Cとする。出力確率
分布が、次のような混合数2の混合ガウス分布で表され
るとする。
bi C(y)=λ1N(y,μi 1i 1) +λ2N(y,μi 2i 2) このとき、モデルCの各パラメータを次のように定め
る。
aii C={aii A+aii B}/2 aii+1 C={aii+1 A+aii+1 B}/2 μi 1=μi Ai 1=Σi A μi 2=μi Bi 2=Σi B λ=λ=1/2 このようにして作成されたモデルCは、そのまま不特
定話者音声認識用のHMMモデルとして用いることもで
き、また、さらに多数の話者の学習データ(6)を用い
てBaum−Welch法などで学習を行い、よりよいモデル
C′(7)を作成するための初期モデルとして用いるこ
ともできる。
モデルA,Bとして出力確率分布が混合ガウス分布で表
されるものが用意されている場合にも、同様にモデルC
を作成することができる。この場合、モデルCの出力確
率分布の混合数は、モデルA,Bの出力確率分布の混合数
の和になる。
次に、第2の発明の一実施例について説明する。多数
の話者が発声した少数語彙の音声データをクラスタリン
グすることにより話者をM個のクラスタに分け、各クラ
スタからクラスタ中心の話者M名を選ぶ。M名の各話者
について、HMM学習に必要な量の音声データをもとに、
出力確率分布が単一ガウス分布で表されるHMMモデルを
学習して作成する。作成されたM個のモデルから、第1
の発明の実施例と同様に混合数がMの混合ガウス分布を
出力確率分布とするHMMモデルを作成することにより不
特定話者音声認識用のHMMモデルが得られる。M名の話
者を選ぶためのクラスタリングに用いるデータは少数の
データでよいので、従来の技術の(c)に比べ計算量は
少なくなる。
最後に、第3の発明の一実施例について説明する。第
1の発明の実施例において、モデルA,Bの選び方とし
て、ある話者の異なる環境下(たとえば、静かな環境と
雑音の多い環境)で発声したデータを用いて学習したモ
デルを用いれば、モデルCとして環境の変動に強い認識
モデルを作成することができる。
〔発明の効果〕
以上述べたように、第1の発明によれば、すでに学習
されている複数の標準パターンを用いて、ベクトル出力
確率が混合連続分布で表される標準パターンのパラメー
タを簡単に決定することができ、そのまま、あるいはこ
の値を初期値とした少数回の学習でパターン認識に用い
ることができる。また、第2,第3の発明によれば、不特
定話者用、環境の変動に強い標準パターンをそれぞれ簡
易に作成することができる。
【図面の簡単な説明】
第1図は、第1の発明を不特定話者音声認識用のHMMモ
デル作成に適用した実施例を説明するためのブロック
図、 第2図は、実施例におけるHMMモデルの形を示す図であ
る。 1……話者Aの学習データ 2……話者Bの学習データ 3……HMMモデルA 4……HMMモデルB 5……HMMモデルC 6……多数話者の学習データ 7……HMMモデルC′
フロントページの続き (56)参考文献 特公 昭63−67197(JP,B2) 日本音響学会講演論文集 平成2年3 月 2−3−1 P51〜52 中川著「確率モデルによる音声認識」 (社団法人電子情報通信学会)昭和63 年、第36〜37行

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】状態の集合と状態間の遷移確率と状態ある
    いは遷移のベクトル出力確率とによって定義される標準
    パターンの作成方法において、 前記標準パターンのベクトル出力確率が連続分布で表さ
    れるベクトル出力確率連続分布の複数が重み付きで混合
    された混合連続分布を状態あるいは遷移のベクトル出力
    確率とする標準パターンを作成することを特徴とする標
    準パターン作成方法
  2. 【請求項2】状態の集合と状態間の遷移確率と状態ある
    いは遷移のベクトル出力確率とによって定義される標準
    パターンの作成方法において、 複数の話者について話者ごとにその話者の音声データを
    用いて学習して作成されたベクトル出力確率が連続分布
    で表される標準パターンの対応する状態あるいは遷移の
    ベクトル出力確率連続分布の複数が重み付きで混合され
    た混合連続分布を状態あるいは遷移のベクトル出力確率
    とする標準パターンを作成することを特徴とする標準パ
    ターン作成方法
  3. 【請求項3】状態の集合と状態間の遷移確率と状態ある
    いは遷移のベクトル出力確率とによって定義される標準
    パターンの作成方法において、 異なる環境で発声あるいは収録した音声データを用いて
    学習して作成されたベクトル出力確率が連続分布で表さ
    れる標準パターンの対応する状態あるいは遷移のベクト
    ル出力確率連続分布の複数が重み付きで混合された混合
    連続分布を状態あるいは遷移のベクトル出力確率とする
    標準パターンを作成することを特徴とする標準パターン
    作成方法
JP24686390A 1990-09-17 1990-09-17 標準パターン作成方法 Expired - Fee Related JP3251005B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24686390A JP3251005B2 (ja) 1990-09-17 1990-09-17 標準パターン作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24686390A JP3251005B2 (ja) 1990-09-17 1990-09-17 標準パターン作成方法

Publications (2)

Publication Number Publication Date
JPH04125599A JPH04125599A (ja) 1992-04-27
JP3251005B2 true JP3251005B2 (ja) 2002-01-28

Family

ID=17154851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24686390A Expired - Fee Related JP3251005B2 (ja) 1990-09-17 1990-09-17 標準パターン作成方法

Country Status (1)

Country Link
JP (1) JP3251005B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123468A (ja) * 1994-10-24 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル作成装置及び音声認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6367197A (ja) * 1986-09-09 1988-03-25 松田 健次 楕円コンパス

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中川著「確率モデルによる音声認識」(社団法人電子情報通信学会)昭和63年、第36〜37行
日本音響学会講演論文集 平成2年3月 2−3−1 P51〜52

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
US7603276B2 (en) 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model

Also Published As

Publication number Publication date
JPH04125599A (ja) 1992-04-27

Similar Documents

Publication Publication Date Title
EP0750293B1 (en) Triphone hidden Markov model (HMM) design method and apparatus
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US6343267B1 (en) Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
EP0755046B1 (en) Speech recogniser using a hierarchically structured dictionary
JP3412496B2 (ja) 話者適応化装置と音声認識装置
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition.
CN108417207A (zh) 一种深度混合生成网络自适应方法及系统
Digalakis et al. Rapid speech recognizer adaptation to new speakers
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP3251005B2 (ja) 標準パターン作成方法
JP3525082B2 (ja) 統計モデル作成方法
JP2852298B2 (ja) 標準パターン適応化方式
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
JP4510517B2 (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Ming et al. A Bayesian approach for building triphone models for continuous speech recognition
Nagino et al. Building an effective corpus by using acoustic space visualization (COSMOS) method [speech recognition applications]
JPH0990981A (ja) パターン認識のためのモデル学習方法
JP2705537B2 (ja) 話者学習装置
JP3044741B2 (ja) 標準パターン学習方法
JP2004294916A (ja) 標準モデル作成装置および標準モデル作成方法
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP3003355B2 (ja) 標準パターン作成装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees