JPH0486899A - 標準パターン適応化方式 - Google Patents

標準パターン適応化方式

Info

Publication number
JPH0486899A
JPH0486899A JP2203437A JP20343790A JPH0486899A JP H0486899 A JPH0486899 A JP H0486899A JP 2203437 A JP2203437 A JP 2203437A JP 20343790 A JP20343790 A JP 20343790A JP H0486899 A JPH0486899 A JP H0486899A
Authority
JP
Japan
Prior art keywords
data
category
feature parameter
standard
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2203437A
Other languages
English (en)
Other versions
JP2852298B2 (ja
Inventor
Koichi Shinoda
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2203437A priority Critical patent/JP2852298B2/ja
Priority to EP91112872A priority patent/EP0469577B1/en
Priority to US07/738,641 priority patent/US5274737A/en
Priority to DE69119993T priority patent/DE69119993T2/de
Publication of JPH0486899A publication Critical patent/JPH0486899A/ja
Application granted granted Critical
Publication of JP2852298B2 publication Critical patent/JP2852298B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識なとで用いられる標準パターンのパタ
ーンマツチングに基づくパターン認識装置において、少
量の学習用データから標準パターンを学習する標準パタ
ーン学習方式に関する。
[従来の技術] 現在、音声認識方式として、隠れマルコフモデル(Hi
dden Markov Model、以下HMMとす
る)が広く使われている。HMMの詳細については、例
えば、「確率モデルによる音声認識」中用を一著、19
88年、電子情報通信学会(以下文献1とする)に詳し
く解説されている。HMMでは、いくつかの状態を用意
し、その状態と、各々の状態の遷移確率、および各々の
状態でのシンボルの出現確率を標準パターンとして蓄え
る。入カバターンと標準パターンとの整合性を表す尤度
値は、標準パターンであるHMMが入カバターンのシン
ボル列を生成する確率で与えられる。
このHMMを用いる方式においては、各状態間の遷移確
率および各状態でのシンボルの出現確率を、学習データ
から推測する学習アルゴリズム(バウム・ウエルチのア
ルゴリズム)が存在する。HMMを用いる音声認識にお
いては、話者が予め発声した学習データを用いて、この
学習アルゴリズムにより標準パターンを作成する。
このHMMを用いる音声認識では、高い認識率を得るた
めには多くの学習用データで学習することが必要であり
、話者の負担が大きくなる。この話者の負担をを軽減す
るために、少ない学習用データを用いて、予め登録され
ている標準話者の標準パターンを未知話者に適応させる
話者適応化方式がこれまでにいくつか考案されてきた。
話者適応化方式の詳細については、「音声認識における
話者適応化技術」、古井貞煕著、テレビジョン学会誌、
Vol、43. No、9.1989.pp929−9
34 (以下文献2とする)に解説されている。
音声認識における話者適応化方式には、例えば「マルチ
テンプレートと話者適応化による音声認識」、古井貞煕
著、日本音響学会平成元年度春季研究発表会講演論文集
、第2巻、6−10号にあげられているようなベクトル
量子化を用いたものがある。この話者適応化方式は予め
登録されている符号帳と新しい話者の符号帳の要素間の
対応関係(マツピング)を学習用データを用いて求め、
話者に適応した符号帳に置き換えている。
また、ベクトル量子化を用いない話者適応化方式のうち
、対応する学習用データが存在しない標準パターンをも
適応化する重回帰解析を用いる話者適応化方式が、アイ
・イー・イー・イー トランザクションズ オン アコ
ースティクス、スピーチ、アンド シグナル プロセシ
ング(IEEETransactions on Ac
oustics、 5peech、 andSigna
l Processing)、S、Furui、アメリ
カ合衆国、第28巻、第2号、1980年、129ペー
ジ、(以下文献3とする)の中にrATraining
 Procedure forIsolated Wo
rd Recognition 5ysteis」と題
して示されている。この話者適応化方式では、予め多数
の話者の標準パターンの発声データを用いて標準パター
ン間の対応関係を求めておき、この対応関係を用いて学
習データが存在しない標準パターンを適応化している。
[発明が解決しようとする課題] ベクトル量子化を用いた話者適応化では、ベクトル量子
化に付随する量子化誤差が存在するため高い認識性能が
得にくいという欠点がある。
また、ベクトル量子化を用いない音声認識における話者
適応化方式としては文献3にあげた方法があるが、この
方法には、標準パターン間の対応関係を求める際に多く
の話者の大量の発声データが必要になるという欠点があ
る。
本発明の目的は、多くの話者による多量の発声データを
必要としない、高精度な話者適応化方式を提供すること
にある。
[課題を解決するための手段] 本発明に係る第1の標準パターン適応化方式は、標準パ
ターンとのパターンマツチングに基づくパターン認識を
行なう際に、各カテゴリの標準パターンを特徴とする特
徴パラメータを、前記特徴パラメータに対応する複数の
要素を有する学習用データを用いて修正する標準パター
ン適応化方式であって、 各カテゴリの標準パターンの作成に用いた標準データの
要素と前記学習用データの要素を1対1に対応性はデー
タ要素組を作成するデータ対応性は手段と、 前記学習用データ中に対応する前記要素が存在するデー
タ有りカテゴリにおける前記特徴パラメータと、同一の
カテゴリの標準データの要素との類似度を計算し出力す
る類似度出力手段と、前記データ有りカテゴリ内のそれ
ぞれのデータ要素組の標準データ要素と学習用データ要
素との差分を、前記類似度を重みとして加重平均したも
のを、データ有りカテゴリ特徴パラメータ差分として出
力するデータ有りカテゴリ特徴パラメータ差分出力手段
と、 前記データ有りカテゴリに対する前記特徴パラメータに
前記データ有り特徴パラメータ差分を加え、その結果を
データ有りカテゴリ修正特徴パラメータとして出力する
データ有りカテゴリ修正特徴パラメータ出力手段と から構成されることを特徴とする。
本発明に係る第2の標準パターン適応化方式は、前述し
た第1の標準パターン適応化方式であって、 前記学習用データ中に対応する要素が存在しないデータ
無しカテゴリの前記特徴パラメータと、前記データ有り
カテゴリの前記特徴パラメータとの類似度を計算し圧力
する特徴パラメータ間類似度出力手段と、 前記特徴パラメータ間類似度を重みとして、前記データ
有りカテゴリに対する前記修正特徴パラメータと修正前
の前記特徴パラメータとの差分を、前記データ無しカテ
ゴリに関して加重平均した結果を、データ無しカテゴリ
特徴パラメータ差分として出力するデータ無しカテゴリ
特徴パラメータ差分出力手段と、 前記データ無しカテゴリの前記特徴パラメータに、同一
のカテゴリの前記データ無しカテゴリ特徴パラメータ差
分を加え、その結果をデータ無しカテゴリ修正特徴パラ
メータとして出力するデータ無しカテゴリ修正特徴パラ
メータ出力手段とを含んで構成されることを特徴とする
本発明に係る第3の標準パターン適応化方式は、前述し
た第1の標準パターン適応化方式であって、 前記学習用データ中に対応する要素が存在しないデータ
無しカテゴリの前記特徴パラメータと、前記データ有り
カテゴリの前記特徴パラメータとの類似度を表すパラメ
ータを計算し出力する特徴パラメータ間類似度出力手段
と、 前記特徴量パラノー2間類似度を重みとして、前記デー
タ有りカテゴリの前記特徴パラメータを前記データ無し
カテゴリに関して加重平均した結果を、データ無しカテ
ゴリ修正特徴パラメータとして出力するデータ無しカテ
ゴリ修正特徴パラメータ出力手段と、 を含んで構成されることを特徴とする。
本発明に係る第4の標準パターン適応化方式標準パター
ンとのパターンマツチングに基づくパターン認識を行な
う際に、各カテゴリの標準パターンを特徴とする特徴パ
ラメータを、前記特徴パラメータに対応する複数の要素
を有する少数の学習用データを用いて修正する標準パタ
ーン適応化方式であって、 前記学習用データ中に対応する要素が存在するデータ有
りカテゴリにおける前記特徴パラメータと、同一のカテ
ゴリの学習用データの要素との類似度を計算し出力する
類似度出力手段と、前記データ有りカテゴリ内の学習デ
ータ要素を、前記類似度を重みとして加重平均したもの
を、データ有りカテゴリ修正特徴パラメータとして出力
するデータ有りカテゴリ修正特徴パラメータ出力手段と
、 前記データ有りカテゴリの前記修正特徴パラメータと同
一のカテゴリの特徴パラメータの差分を出力する特徴パ
ラメータ差分出力手段と、前記学習用データ中に対応す
る要素が存在しないデータ無しカテゴリの前記特徴パラ
メータと前記データ有りカテゴリの前記特徴パラメータ
との類似度を表すパラメータを計算し出力する特徴パラ
メータ間類似度出力手段と、 前記特徴パラメータ間類似度を重みとして、前記データ
有りカテゴリの前記修正特徴パラメータと同一のカテゴ
リの修正前の前記特徴パラメータとの差分を、前記デー
タ無しカテゴリに関して加重平均した結果を、データ無
しカテゴリ特徴パラメータ差分として出力するデータ無
しカテゴリ特徴パラメータ差分出力手段と、 前記データ無しカテゴリの前記特徴パラメータに、同一
のカテゴリの前記データ無しカテゴリ特徴パラメータ差
分を加え、その結果をデータ無し修正特徴パラメータと
して出力するデータ無しカテゴリ修正特徴パラメータ出
力手段と、から構成されることを特徴とする。
本発明に係る第5の標準パターン適応化方式は、前述し
た第4の標準パターン適応化方式であって、 前記特徴パラメータ間類似度を重みとして、前記データ
有りカテゴリの前記特徴パラメータを前記データ無しカ
テゴリに関して加重平均した結果を、データ無しカテゴ
リ修正特徴パラメータとして出力するデータ無しカテゴ
リ修正特徴パラメータ出力手段、 を含んで構成されることを特徴とする。
[作 用] 以下に本発明に係る第1の標準パターン適応化方式の作
用について説明する。ここでは文献1の69ページの(
3,3,21節にあげであるようなHMMを具体例とし
てあげ、これに従って説明する。
以下の説明での用語の記号、意味は文献1と同一である
。HMMとしては状態のベクトル出力確率密度分布関数
を単一ガウス分布関数としたものを考える。ここでは、
HMMの各状態にカテゴリを対応づける。また、各々の
状態にi (i=1・・・N a : N sは状態の
総数)の標準パターンを特徴とする特徴パラメータとし
ては、ガウス分布の平均ベクトルμm、ガウス分布の分
散02 各状態11j間の遷移確率aljがある。ここ
では、そのうち、ガウス分布の平均ベクトルμmを適応
化することとし、状態iの適応前の平均ベクトルをμm
とし、適応後の平均ベクトルをμmで表す。
まず、適応前のHMMを作成するのに用いた標準話者の
発声データを用意する。そして、同じ内容を発声した未
知話者の発声データを用意する。
前者を標準データ、後者を学習用データと名付ける。こ
の場合、それぞれのデータは時系列データであり、それ
を構成している要素は各フレームのデータである。各フ
レームのデータは平均ベクトルと同じ次元数をもったベ
クトルである。
発声内容をHMMの状態列で記述することにより、HM
Mの全状態の中で、標準データに対応する要素が存在す
る状態と存在しない状態とにカテゴリを区別することが
できる。標準データに対応する要素が存在する状態の集
合をAとし、そこに含まれる状態の平均ベクトルは上付
添字Aをつけて表す。また、標準データ内に対応する要
素が存在しない状態の集合をBとし、そこに含まれる状
態の平均ベクトルは上付添字Bをつけて表す。学習用デ
ータに対応するデータが存在する状態の適応後の平均ベ
クトル(μ0)を、以下のように求める。
同じ内容の発声の標準データと学習用データをDPマツ
チング等の手法を用いてマツチングし、標準データの要
素と学習用データの要素を1対1に対応させるデータ対
応付けを行なう。DPマツチングのパスのとり方によっ
ては、1対多、あるいは、多対1対応が生ずることがあ
るが、その際は、複数のベクトルを平均化するなどの操
作を行ない、1対1対応を作る。
次に、文献1に記載のビタビアルゴリズムあるいはその
他の自動セグメンテーションの方法を用いて、標準デー
タのセグメンテーションを行ない、標準データの要素が
それぞれHMMのどの状態に属しているかを決定するカ
テゴリ分類を行なう。
DPマツチングおよび、セグメンテーションの作業は、
学習用データが複数の離散発声からなっている場合、そ
の発声数について行なう。
次に、このマツチングしたデータの要素の組にそれぞれ
標準データの要素の対応している状態のラベルをつける
。このようにして得られた状態iのラベルのに番目の要
素の組を構成する、標準データおよび学習用データの要
素を次のように表す。
X、k Y、     k=1.  ・・・、N、  
   flここでXはF!準データの要素、Yは学習用
データの要素を表す。N、は状態iに対応する学習用デ
ータの要素の数である。
次に、各状態の平均ベクトルμ6と標準データの要素X
 lkとの類似度WAを求める。類似度とし1に では、たとえば、特徴パラメータ空間上での11’+X
+i+の距離に関する関数を用いる。例えば、次式のよ
うにベクトル空間上での両者の距離の巾乗を用いる。
dA= II X、、−gi  11.       
(2)lk wA=:  (dA )−”           (
3)1に ここでmは適当な数である。距離としては、簡単にはユ
ークリッド距離があるが、これに限らず、内積なと、様
々な量を距離として用いることができる。mを正にとる
と、両者の足巨離が増加するにつれて、類似度は減少す
る。m=oとすると、状態の平均ベクトルとその状態に
対応する標準データの要素との類似度はすべての標準デ
ータについて等しくなる。この他にも類似度として距離
dに関する関数をとった例として、式(3)の代わりに
、 W:i=C+ +l!xp(−Ct d;、)    
      f4)なども考えられる。ここで、C+ 
+ 02は定数である。また、関数としては、平均ベク
トルLLAとの距離の近い、K個の(Kは負でない整数
)の要素X l+iのみについて、類似度を出力し、そ
の他の要素の類似度は0にするような関数も考えられる
この他、類似度としてμ + X l 11間の特徴パ
ラメーり間の距離を用いた様々な形の関数が考えられる
が、それらも本特許請求の範囲内である。
以上の準備の後、各状態での適応後と適応前の平均ベク
トルの差分ベクトル△1を次のように求める。
ここで、類似度として、式(3)で計算したものを用い
るとすると、△iは、m−40でデータの差分を平均し
たものに近づき、m−1艶で状態の平均ベクトルにもっ
とも近い標準データとその対応する学習用データの差分
に近づく。この△iはデータ有りカテゴリ特徴パラメー
タ差分である。
この△6を用い、データ有りカテゴリ脩正特徴パラメー
タである適応後の平均ベクトルは次式で求められる。
μi=μ:+△:(6) 以上の作業をすべてのiEAについて行なう。
以上が本発明に係る第1の標準パターン適応化方式の説
明である。この方式は、同じ状態の標準データと学習用
データの要素間の差分は揺らぎの小さい量であるが、同
一の状態に対応する要素の揺らぎの大きい場合に有効で
ある。
本発明に係る第2の標準パターン適応化方式は、第1の
発明において適応後の平均ベクトル(μm)が求められ
た後に、学習用データに対応するデータが存在しない状
態の適応後の平均ベクトル(u”lを、次のように求め
る。
ある状態、16Bについて以下の作業を行なう。
まず、平均ベクトルμ!と、集合Aに属する状態の学習
前の平均ベクトルμ:との特徴パラメータ間類似度W!
、をすべてのjについて求める。ここでW?、は、例え
ばベクトル空間上での平均ベクトルμ?、μm間の距離
d!、を求め、その逆数をとる。具体的に式に書くと、 d7.=Ilu’j −u’、 If、       
  (71”?J= (d?J’−’        
   f8)ここでiは負でない定数である。また、こ
こでは、1例のみ挙げたが、類似度w?Jはw:、の場
合と同様に、距離dに関する関数を適当に選ぶことがで
きる。
この類似度を用い、標準データに対応する要素がない状
態での適応後と適応前の平均ベクトルの差分ベクトル△
!を求める。
この△8はデータ無しカテゴリ特徴パラメータ差分であ
る。ここで類似度として、式(8)で計算したものを用
いるとすると、△!は!→0でμmの適応後と適応前の
差分をすべてのjεAについて平均したものに近づき、
!−(1)で状態iの平均ベクトルにもっとも近い状態
μ:の平均ベクトルの適応後と適応前の差分に近づ(。
この△!を用い、適応後の平均ベクトル、すなわち、デ
ータ無しカテゴリ修正特徴パラメータは次式で求められ
る。
μ!=μT+△?           00+この手
続きはデータ無しカテゴリ特徴パラメータ出力手段に対
応する。これらの計算をすべてのiEBについて行なう
ことにより、学習用データに対応するデータが存在しな
い状態の平均ベクトルが話者適応化される。
以上が本発明に係る第2の標準パターン適応化方式の説
明である。この装置は、同じ状態の標準話者の特徴パラ
メータと未知話者の特徴パラメータとの差分は揺らぎの
小さい量であるが、特徴パラメータ自体が揺らぎの大き
い場合に有効である。また、この装置は、上で述べた第
1の標準パターン適応化方式の有効性をも合わせ持つ。
本発明に係る第3の標準パターン適応化方式では、式(
9)、式(10)の代わりに次式、を用いる。この式に
より、標準データに対応する要素の存在しない状態の適
応後の平均ベクトルが求められる。上の第2の標準パタ
ーン適応化方式と異なり、同じ状態の標準話者の特徴パ
ラメータと未知話者の特徴パラメータとの差分は揺らぎ
の大きい量であり、特徴パラメータ自体が揺らぎの小さ
い場合に有効である。
また、本発明に係る第4の標準パターン適応化方式では
、f5L(61式のかわりに、を用いる。この式で学習
データに対応する要素が存在する状態の適応後の平均ベ
クトルを求めることができる。そして、学習データに対
応するデータが存在しない状態iEBに対しては、式(
9)、式(10)を用いる。この装置は、同じ状態の標
準データと学習用データの要素間の差分は揺らぎの大き
い量であるが、同一の状態に対応する要素の揺らぎの小
さい場合、かつ、同じ状態の標準話者の特徴パラメータ
と未知話者の特徴パラメータとの差分は揺らぎの小さい
量であるが、特徴パラメータ自体が揺らぎの大きい場合
に有効である。
また、本発明に係る第5の標準パターン適応化方式では
、学習データに対応するデータが存在する状態に対して
は、式(12)を用い、学習データに対応するデータが
存在しない状態に対しては、式(11)を用いる。この
装置は、同じ状態の標準データと学習用データの要素間
の差分は揺らぎの大きい量であるが、同一の状態に対応
する要素が揺らぎの小さい場合、かつ、同じ状態の標準
話者の特徴パラメータと未知話者の特徴パラメータの差
分は揺らぎの大きい量であるが、特徴パラメータ自体が
揺らぎの小さい場合に有効である。
以上、認識方式としてHMMを具体的な例としてあげ本
発明の詳細な説明を行った。上の説明から容易にわかる
ように、本発明においてはベクトル量子化を用いていな
いので、それにともなう誤差が生じない。また文献3に
あげられた話者適応化方式と違い、多数話者の大量の発
声データを必要とするということはない。
また、本方式は上述した話者適応以外にも、雑音下の発
声に対する適応、マイクの違いに対する適応、同一話者
での発声時期の遣いに対する適応、分析条件の違いに対
する適応、その他、様々な環境の変化に対する適応に用
いることが可能であり、それらの適応も本発明の権利の
範囲内である。
なお、本発明は標準パターンとのパターンマツチングに
基づく様々なパターン認識方式に対しても全く同様に適
用することができる。
[実施例] 以下、本発明について7面を参照して説明する。第1図
は本発明に係る第2の標準パターン学習化方式の一実施
例を示すフローチャートである。本実施例では認識方式
として文献1に述べているような単一ガウス分布HMM
を用いている。
ここではμ++0++a+=で表されるある話者のHM
Mを適応化させ、μ、を求めることとする。これは作用
の中で説明した計算例に対応しており、変数などの標記
はそこで与えられたものと同一のものを用いることとす
る。以下、第1図に示すフローチャートの処理の流れに
沿って説明する。
ステップ101では入力として標準話者のHMM、標準
話者HMMの作成に用いた標準データ、および、未知話
者の学習用データを読み込む。
ステップ102で適応前の標準話者HMMを保存する。
ステップ103では学習データの個数についてのカウン
タの初期設定を行なう。
ステップ104は標準データと学習用データとのDPマ
ツチングを行ない、標準データのフレームと学習用デー
タのフレームとの1対1の対応をつけるデータ対応づけ
手段となっている。
ステップ105の処理は標準データのセグメンテーショ
ンを行ない、データがどの状態に属するかを定めている
ステップ106でカウンタを1増やし、単語数N=まで
ステップ104からステップ106の計算を行なう。
ステップ108からステップ116までは、学習用デー
タに対応するデータが存在する状態の平均ベクトルの適
応を行なう部分である。ステップ108ではカウンタの
初期設定を行なう。ステップ109では、状態iには対
応する学習用データが存在するかどうかを判断している
。ステップ110では、カウンタの初期化を行ない、ス
テップ111は状態iに対応する学習用データの要素に
ついて、距離d lk、さらに、重みwlkを計算する
類似度出力手段となっている。ステップ112でカウン
タをl増やし、データ数N、までステップ111からス
テップ112の計算を行なう。ステップ114は、式(
5)に従って、△艷の計算を行なう部分で、データ有り
カテゴリ特徴パラメータ差分出力手段となっている。ス
テップ115は、式(6)に従って、適応後の平均ベク
トルμmを求めるデータ有りカテゴリ脩正特徴パラメー
タ出力手段となっている。ステップ116でカウンタを
1増やし、全状態数N8についてステップ109からス
テップ116の作業を行なう。
ステップ118からステップ123までは、学習用デー
タに対応するデータが存在しない状態の平均ベクトルの
適応を行なう部分である。ステップ118ではカウンタ
の初期設定を行なう。ステップ119は、状態iには対
応する学習データが存在するかどうかを判断している。
ステップ120では、カウンタの初期化を行ない、ステ
ップ121は、状態jには対応する学習データが存在す
るかどうかを判断し、存在している場合にはステップ1
22において距離d31、さらに、重みW + Jを計
算する。
ステップ122は特徴パラメータ間類似度出力手段とな
っている。ステップ123ではカウンタを1増やし、全
状態数N、までステップ121からステップ123の計
算を繰り返す。
ステップ125は、式(9)に従って、△8の計算を行
なう。データ無しカテゴリ特徴パラメータ差分出力手段
となっている。ステップ126は、式(lO)に従って
、u8の計算を行なうデータ無しカテゴリ修正特徴パラ
メータ出力手段となっている。ステップ127でカウン
タを1増やし、全状態数N、までステップ118からス
テップ127の処理を繰り返す。
ステップ129では適応化されたHMMを出力している
本発明に係る第1の標準パターン適応化方式は、上で説
明した第2の標準パターン適応化方式において第1図の
ステップ118がら128を除いたものと同一である。
本発明に係る第3の標準パターン適応化方式は、図1の
ステップ125を除き、ステップ126の、式(10)
を式(11)に置き替えれば、後の部分は上で述べた第
2の標準パターン適応化方式のフローチャートに示した
処理と全く同様の処理を用いることで実現可能である。
本発明に係る第4の標準パターン適応化方式は、図1の
ステップ104、ステップ114を除き、ステップ11
5において、式(6)の代わりに式(12)を用いれば
、後の部分は上で述べた第2の標準パターン適応化方式
のフローチャートに示した処理と全く同様の処理を用い
ることで実現可能である。
本発明に係る第5のP!準パターン適応化方式は、図1
のステップ104、ステップ114を除き、ステップ1
15において、式(6)の代わりに式(12)を用い、
ステップ125を除き、ステップ126の、式(10)
を式(11)に置き替えれば、後の部分は上で述べた第
2の標準パターン適応化方式のフローチャートに示した
処理と全く同様の処理を用いることで実現可能である。
[発明の効果] 以上述べたように本発明によれば、未知話者が発声した
少ない学習用データにより学習データに含まれない標準
パターンも話者適応化が可能である。また、ベクトル量
子化を用いていないから量子化誤差の混入がないため、
精度の高いFi111!パターンを作成することが可能
になる。これら2点より高い認識性能を有するパターン
認識を実現できる。
【図面の簡単な説明】
第1図は本発明に係る標準パターン適応化方式のフロー
チャートを示す図である。 代理人  弁理士 本 庄 伸 介

Claims (5)

    【特許請求の範囲】
  1. (1)標準パターンとのパターンマッチングに基づくパ
    ターン認識を行なう際に、各カテゴリの標準パターンを
    特徴づける特徴パラメータを、前記特徴パラメータに対
    応する複数の要素を有する学習用データを用いて修正す
    る標準パターン適応化方式において、 各カテゴリの標準パターンの作成に用いた標準データの
    要素と前記学習用データの要素を1対1に対応付けデー
    タ要素組を作成するデータ対応付け手段と、 前記学習用データ中に対応する前記要素が存在するデー
    タ有りカテゴリにおける前記特徴パラメータと、同一の
    カテゴリの標準データの要素との類似度を計算し出力す
    る類似度出力手段と、前記データ有りカテゴリ内のそれ
    ぞれのデータ要素組の標準データ要素と学習用データ要
    素との差分を、前記類似度を重みとして加重平均したも
    のを、データ有りカテゴリ特徴パラメータ差分として出
    力するデータ有りカテゴリ特徴パラメータ差分出力手段
    と、 前記データ有りカテゴリに対する前記特徴パラメータに
    前記データ有り特徴パラメータ差分を加え、その結果を
    データ有りカテゴリ修正特徴パラメータとして出力する
    データ有りカテゴリ修正特徴パラメータ出力手段と から構成されることを特徴とする標準パターン適応化方
    式。
  2. (2)請求項1に記載の標準パターン適応化方式におい
    て、 前記学習用データ中に対応する要素が存在しないデータ
    無しカテゴリの前記特徴パラメータと、前記データ有り
    カテゴリの前記特徴パラメータとの類似度を計算し出力
    する特徴パラメータ間類似度出力手段と、 前記特徴パラメータ間類似度を重みとして、前記データ
    有りカテゴリに対する前記修正特徴パラメータと修正前
    の前記特徴パラメータとの差分を、前記データ無しカテ
    ゴリに関して加重平均した結果を、データ無しカテゴリ
    特徴パラメータ差分として出力するデータ無しカテゴリ
    特徴パラメータ差分出力手段と、 前記データ無しカテゴリの前記特徴パラメータに、同一
    のカテゴリの前記データ無しカテゴリ特徴パラメータ差
    分を加え、その結果をデータ無しカテゴリ修正特徴パラ
    メータとして出力するデータ無しカテゴリ修正特徴パラ
    メータ出力手段とを含んで構成されることを特徴とする
    標準パターン適応化方式。
  3. (3)請求項1に記載の標準パターン適応化方式におい
    て、 前記学習用データ中に対応する要素が存在しないデータ
    無しカテゴリの前記特徴パラメータと、前記データ有り
    カテゴリの前記特徴パラメータとの類似度を表すパラメ
    ータを計算し出力する特徴パラメータ間類似度出力手段
    と、 前記特徴量パラメータ間類似度を重みとして、前記デー
    タ有りカテゴリの前記特徴パラメータを前記データ無し
    カテゴリに関して加重平均した結果を、データ無しカテ
    ゴリ修正特徴パラメータとして出力するデータ無しカテ
    ゴリ修正特徴パラメータ出力手段と、 を含んで構成されることを特徴とする標準パターン適応
    化方式。
  4. (4)標準パターンとのパターンマッチングに基づくパ
    ターン認識を行なう際に、各カテゴリの標準パターンを
    特徴づける特徴パラメータを、前記特徴パラメータに対
    応する複数の要素を有する少数の学習用データを用いて
    修正する標準パターン適応化方式において、 前記学習用データ中に対応する要素が存在するデータ有
    りカテゴリにおける前記特徴パラメータと、同一のカテ
    ゴリの学習用データの要素との類似度を計算し出力する
    類似度出力手段と、 前記データ有りカテゴリ内の学習データ要素を、前記類
    似度を重みとして加重平均したものを、データ有りカテ
    ゴリ修正特徴パラメータとして出力するデータ有りカテ
    ゴリ修正特徴パラメータ出力手段と、 前記データ有りカテゴリの前記修正特徴パラメータと同
    一のカテゴリの特徴パラメータの差分を出力する特徴パ
    ラメータ差分出力手段と、前記学習用データ中に対応す
    る要素が存在しないデータ無しカテゴリの前記特徴パラ
    メータと前記データ有りカテゴリの前記特徴パラメータ
    との類似度を表すパラメータを計算し出力する特徴パラ
    メータ間類似度出力手段と、 前記特徴パラメータ間類似度を重みとして、前記データ
    有りカテゴリの前記修正特徴パラメータと同一のカテゴ
    リの修正前の前記特徴パラメータとの差分を、前記デー
    タ無しカテゴリに関して加重平均した結果を、データ無
    しカテゴリ特徴パラメータ差分として出力するデータ無
    しカテゴリ特徴パラメータ差分出力手段と、 前記データ無しカテゴリの前記特徴パラメータに、同一
    のカテゴリの前記データ無しカテゴリ特徴パラメータ差
    分を加え、その結果をデータ無し修正特徴パラメータと
    して出力するデータ無しカテゴリ修正特徴パラメータ出
    力手段と から構成されることを特徴とする標準パターン適応化方
    式。
  5. (5)請求項4に記載の標準パターン適応化方式におい
    て、 前記特徴パラメータ間類似度を重みとして、前記データ
    有りカテゴリの前記特徴パラメータを前記データ無しカ
    テゴリに関して加重平均した結果を、データ無しカテゴ
    リ修正特徴パラメータとして出力するデータ無しカテゴ
    リ修正特徴パラメータ出力手段 を含んで構成されることを特徴とする標準パターン適応
    化方式。
JP2203437A 1990-07-31 1990-07-31 標準パターン適応化方式 Expired - Fee Related JP2852298B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2203437A JP2852298B2 (ja) 1990-07-31 1990-07-31 標準パターン適応化方式
EP91112872A EP0469577B1 (en) 1990-07-31 1991-07-31 Reference pattern adapting device trainable by a small number of training patterns
US07/738,641 US5274737A (en) 1990-07-31 1991-07-31 Reference pattern adapting device trainable by a small number of training patterns
DE69119993T DE69119993T2 (de) 1990-07-31 1991-07-31 Durch eine kleine Anzahl von Leitmustern lernfähige Referenzmusteranpassungsvorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2203437A JP2852298B2 (ja) 1990-07-31 1990-07-31 標準パターン適応化方式

Publications (2)

Publication Number Publication Date
JPH0486899A true JPH0486899A (ja) 1992-03-19
JP2852298B2 JP2852298B2 (ja) 1999-01-27

Family

ID=16474085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2203437A Expired - Fee Related JP2852298B2 (ja) 1990-07-31 1990-07-31 標準パターン適応化方式

Country Status (4)

Country Link
US (1) US5274737A (ja)
EP (1) EP0469577B1 (ja)
JP (1) JP2852298B2 (ja)
DE (1) DE69119993T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253180B1 (en) 1998-06-19 2001-06-26 Nec Corporation Speech recognition apparatus

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JP2692581B2 (ja) * 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
ATE239966T1 (de) * 2000-11-07 2003-05-15 Ericsson Telefon Ab L M Anwendung von referenzdaten für spracherkennung
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US7937349B2 (en) * 2006-11-09 2011-05-03 Pucher Max J Method for training a system to specifically react on a specific input
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253180B1 (en) 1998-06-19 2001-06-26 Nec Corporation Speech recognition apparatus

Also Published As

Publication number Publication date
DE69119993D1 (de) 1996-07-11
EP0469577B1 (en) 1996-06-05
DE69119993T2 (de) 1996-11-07
EP0469577A2 (en) 1992-02-05
EP0469577A3 (en) 1992-04-01
JP2852298B2 (ja) 1999-01-27
US5274737A (en) 1993-12-28

Similar Documents

Publication Publication Date Title
US8346551B2 (en) Method for adapting a codebook for speech recognition
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
JP4218982B2 (ja) 音声処理
US7672847B2 (en) Discriminative training of hidden Markov models for continuous speech recognition
US8515758B2 (en) Speech recognition including removal of irrelevant information
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JPH01102599A (ja) 音声認識方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH09160584A (ja) 音声適応化装置および音声認識装置
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
US20050015251A1 (en) High-order entropy error functions for neural classifiers
WO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JPH0486899A (ja) 標準パターン適応化方式
US7885812B2 (en) Joint training of feature extraction and acoustic model parameters for speech recognition
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
KR20200114705A (ko) 음성 신호 기반의 사용자 적응형 스트레스 인식 방법
JPH064097A (ja) 話者認識方法
JPH01204099A (ja) 音声認識装置
CN120071905A (zh) 一种基于mfcc算法和vq-hmm算法的语音识别与分析方法
Zen et al. Probabilistic feature mapping based on trajectory HMMs.
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Baral et al. Large vocabulary continuous speech recognition for Nepali language
JP3044741B2 (ja) 標準パターン学習方法
JP2705537B2 (ja) 話者学習装置
JPH0786758B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071120

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081120

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081120

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091120

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees