JPH06175678A

JPH06175678A - 音声認識装置

Info

Publication number: JPH06175678A
Application number: JP4203669A
Authority: JP
Inventors: Koichi Shinoda; 浩一篠田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-07-30
Filing date: 1992-07-30
Publication date: 1994-06-24
Anticipated expiration: 2010-09-20
Also published as: JPH0786758B2

Abstract

(57)【要約】【目的】使用者の発声を用いて作成された標準パター
ンを用いることにより認識性能を高める。【構成】参照話者学習用語彙独立パターン作成部１０
１は参照話者の多数の語彙の発声データから参照話者学
習用語彙独立パターンＲＩを出力から参照話者学習用語
彙依存パターン作成部１０２は参照話者の学習用語彙の
発声データから参照話者学習用語彙依存パターンＲＤを
出力。変換写像作成部１０３はＲＩとＲＤとを入力し、
学習用語彙依存パターンから学習語彙独立パターンへの
変換写像Ｍを出力から新使用者学習用語彙依存パターン
作成部１０４は新使用者の学習用語彙の発声データから
未知話者の新使用者学習用語彙依存パターンＰＤを出
力。パターン変換部１０５はＰＤをＭで標準パターンＰ
Ｉに変換。認識部１０６は新使用者の認識時の発声ＰＩ
から認識結果を出力。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、使用者の発声を用いて
作成された標準パターンを用いる音声認識装置に関す
る。

【０００２】

【従来の技術】現在、音声認識の分野では、誰の声でも
認識できることを目的とした不特定話者の認識システム
が盛んに研究・開発されている。これらの認識システム
では、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏ
ｖＭｏｄｅｌ、以下ＨＭＭと略記）、ニューラルネッ
トワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ、以下ＮＮと
略記）などの認識方式が広く使われている。ＨＭＭの詳
細については、例えば、「確率モデルによる音声認識」
中川聖一著、１９８８年、電子情報通信学会（以下文献
１とする）に詳しく解説されている。また、ＮＮによる
音声認識に関しては、例えば、「音声・聴覚と神経回路
網モデル」甘利俊一編、１９９０年、オーム社（以下文
献２とする）に詳しい。これらの手法では、予め多数の
話者により発声された単語、文などの語彙からなる学習
用データを用いて標準パターンを学習し、それを用いて
認識を行っている。

【０００３】不特定話者システムは、使用者を特定した
特定話者システムと違い、事前に使用者が発声を登録す
る必要がないという利点がある。しかしながら、近年、
次のような問題点が指摘された。まず、ほとんどの話者
において認識性能が特定話者システムより劣る。さら
に、認識性能が大幅に悪い話者（特異話者）が存在す
る。このような問題点を解決するために、従来、特定話
者システムにおいて用いられてきた、話者適応化の技術
を不特定話者システムにも適用しようという研究が最近
始まっている。

【０００４】話者適応化とは、学習に用いるよりも少量
の学習用データを用いて、認識システムを新しい使用者
（未知話者）に適応化させる方式を指す。話者適応化方
式の詳細については、「音声認識における話者適応化技
術」、古井貞煕著、テレビジョン学会誌、Ｖｏｌ．４
３、Ｎｏ．９、１９８９、ｐｐ．９２９−９３４（以下
文献２とする）に解説されている。話者適応化は大きく
分けて２つの手法に分けられる。１つは教師なし話者適
応化、もう１つは教師あり話者適応化である。前者は、
未知話者の発声する語彙を予め指定する必要がないた
め、使いやすいという利点があるが、適応化後の認識性
能が後者には及ばない。したがって、現在は発声する語
彙を予め指定した教師あり適応化が主流である。

【０００５】

【発明が解決しようとする課題】音声認識システムで
は、標準パターンを単語単位で用意すると未知単語を認
識できない。特定話者システムの場合は，未知単語が出
現する度に使用者がその単語を発声すればよいが、不特
定話者システムの場合、多くの話者の未知単語の発声を
用意することは事実上不可能である。そのため、多くの
不特定話者システムでは、単語より小さい音素、音節な
どの単位（以後、サブワード）を標準パターンの単位
（以下、認識単位）としている。単語、文の発声を認識
する際には、それを連結して、単語、文の標準パターン
を作成する。未知単語の場合も標準パターンを用意でき
る。

【０００６】このような、サブワードを認識単位とした
不特定話者音声認識システムで教師あり話者適応化を行
う場合、次のような問題点がある。認識単位に対応する
音響的特徴量は、そのコンテキストによって、つまり、
その認識単位の前後にどのような認識単位が続いている
かによって異なる。学習用データに多くの語彙の発声が
含まれている場合には、そのデータは様々なコンテキス
トにおける発声を含んでいるため、それを用いて学習さ
れた標準パターンはコンテキストにほとんど依存しない
ものになっている。

【０００７】しかしながら、適応化の場合、使用者の発
声の負担を小さくするため，学習用データの量は普通の
学習に用いられるものに比べ極めて少量にする必要があ
る。学習用データが少量の場合、当然、そこに含まれる
コンテキストの種類は限られ、そのデータから学習され
た標準パターンは学習用データの語彙（以下、学習用語
彙）に含まれるコンテキストに依存したものになる。そ
のような標準パターンは、学習用語彙に出現しなかった
コンテキストにおける発声に対し、認識性能の悪いもの
になっている。

【０００８】本発明は、学習用語彙のコンテキストに依
存したパターンと学習用語彙のコンテキストに依存して
いないパターンとの間の写像を、参照話者の発声を用い
て予め作成しておき、新しい使用者の学習用語彙の発声
から作成された学習用語彙のコンテキストに依存したパ
ターンを、その写像を用いて学習語彙に依存しないもの
に変換し、変換後のパターンを標準パターンとして用い
ることにより、認識性能を高めることを目的とする。

【０００９】

【課題を解決するための手段】本発明に係る音声認識装
置は、使用者の発声から作成された標準パターンを用い
る音声認識装置であって、参照話者の多数の語彙の発声
を入力し参照話者学習用語彙独立パターンを出力する参
照話者学習用語彙独立パターン作成部と、参照話者の学
習用語彙の発声を入力し参照話者学習用語彙依存パター
ンを出力する参照話者学習用語彙依存パターン作成部
と、前記参照話者学習用語彙独立パターンと前記参照話
者学習用語彙依存パターンを入力し前記参照話者学習用
語彙依存パターンから前記参照話者学習用語彙独立パタ
ーンへの変換写像を出力する変換写像作成部と、新使用
者の学習用語彙の発声を入力し、新使用者学習用語彙依
存パターンを出力する新使用者学習用語彙依存パターン
作成部と、前記新使用者学習用語彙依存パターンを前記
変換写像により変換し、標準パターンを出力するパター
ン変換部と、新使用者の発声を入力し、前記標準パター
ンを用いて認識を行う認識部と、から構成されることを
特徴とする。

【００１０】

【実施例】以下、本発明による実施例を図面と共に説明
する。図１は本発明に係る標準パターン作成装置の１実
施例を示すブロック図である。

【００１１】参照話者学習用語彙独立パターン作成部１
０１は、参照話者の多数の語彙の発声データを入力し、
参照話者学習用語彙独立パターンＲＩを出力する。

【００１２】参照話者学習用語彙依存パターン作成部１
０２は、参照話者の学習用語彙の発声データを入力し、
参照話者学習用語彙依存パターンＲＤを出力する。

【００１３】変換写像作成部１０３は、参照話者学習用
語彙独立パターンＲＩと参照話者学習用語彙依存パター
ンＲＤとを入力し，学習用語彙依存パターンから学習用
語彙独立パターンへの変換写像Ｍを出力する。

【００１４】新使用者学習用語彙依存パターン作成部１
０４は、新使用者語彙の発声データを入力し、未知話者
の新使用者学習用語彙依存パターンＰＤを出力する。

【００１５】パターン変換部１０５は、新使用者の学習
用語彙依存パターンＰＤを入力し、それを変換写像Ｍに
より変換し、変換後のパターンＰＩを標準パターンとし
て出力する。

【００１６】認識部１０６は、新使用者の認識時の発声
を入力し、標準パターンＰＩを用いて認識を行い、認識
結果を出力する。

【００１７】以下に本発明に係る音声認識装置の動作に
ついて詳細に説明する。

【００１８】音声認識装置に入力された話者の発声は、
ＡＤ変換、音声分析などの過程を経て、ある時間長をも
つフレームと呼ばれる単位ごとの特徴ベクトルの時系列
に変換される。フレームの長さは通常１０ｍｓから１０
０ｍｓ程度である。特徴ベクトルはその時刻における音
声スペクトルの特徴量を抽出したもので、通常１０次元
から１００次元である。この特徴ベクトルの時系列を、
ここでは発声データと呼ぶ。

【００１９】以下、認識方式として、ＨＭＭを例にとっ
て説明する。ＨＭＭは音声の情報源のモデルの１つであ
る。ＨＭＭは各認識単位ごとに用意される。ここでは、
認識単位として音素を例にとる。単語や文を認識する場
合には、各音素のＨＭＭを連結して、その単語や文のＨ
ＭＭを作成する。各音素のＨＭＭは、それぞれ、通常１
から１０個の状態とその間の状態遷移から構成される。
通常は始状態と終状態が定義されており、単位時間ごと
に、各状態からシンボルが出力され、状態遷移が行われ
る。各音素の音声は、始状態から終状態までの状態遷移
の間にＨＭＭから出力されるシンボルの時系列として表
される。各状態にはシンボルの出現率が、状態間の各遷
移には遷移確率が、定義されている。状態毎に出現確率
に応じてシンボルが発生し、遷移確率に応じて状態間を
遷移する。始状態の確率をある値に定め、状態遷移ごと
に出現確率、遷移確率を掛けていくことにより、発声が
そのモデルから発生する確率を求めることができる。逆
に、発声を観測した場合、それが、あるＨＭＭから発生
したと仮定するとその発生確率が計算できることにな
る。ＨＭＭによる音声認識では，各認識候補に対してＨ
ＭＭを用意し、発声が入力されると、各々のＨＭＭにお
いて、発生確率を求め、最大となるＨＭＭを発生源と決
定し、そのＨＭＭに対応する認識候補をもって認識結果
とする。

【００２０】ＨＭＭの著しい特徴は、モデルに対応する
音声を与えることにより、遷移確率、出現確率などのパ
ラメータを学習する、バウムーウェルチアルゴリズムと
呼ばれるアルゴリズムが存在することである。バウムー
ウェルチアルゴリズムについては文献１に詳しい。今、
シンボルは連続分布をなすと仮定すると、出現確率は連
続確率密度分布関数で表される。連続密度分布関数とし
て混合ガウス分布を用いる場合、そのパラメータは各分
布の平均ベクトルと分散ベクトル、および、各分布間の
重みを定める重み係数である。各状態における混合分布
の分布数は通常１から１０程度である。各分布の平均ベ
クトル及び分散ベクトルは発声データと同じ次元をも
つ。各分布の重み係数はスカラーである。学習されうる
パラメータは、これら混合連続分布の平均ベクトル、及
び分散ベクトル、重み係数、そして、遷移確率である。
以下の例では、各分布の平均ベクトルを学習する場合を
例にとる。この場合、標準パターンは、音素ごとの、各
状態の各分布の平均ベクトルである。

【００２１】今、音素の１つをとり、その１つの状態の
１つの分布の平均ベクトルμについて考える。

【００２２】まず、予め用意された参照話者の学習用語
彙の発声データを用いて，学習用の語彙のコンテキスト
に依存した平均ベクトルμ_RDを学習する。参照話者は１
人でも複数でもよい。複数の場合、各話者ごとに平均ベ
クトルを学習してもよいし、参照話者すべてについて１
つの平均ベクトルを学習してもよい。ここでは、後者の
場合について説明する。学習方法は前述のバウムーウェ
ルチアルゴリズムを用いることができる。また、発声を
ビタービアルゴリズムにより、各分布に対応させ、各分
布に対応するすべての発声データを平均したものを平均
ベクトルとすることも可能である。ビタービアルゴリズ
ムについては文献１に詳しい。以上は、参照話者学習用
語彙依存パターン作成部１０１に対応する。

【００２３】次に、予め用意された多数の参照話者の多
数の発声を用いて、学習用の語彙のコンテキストから独
立した平均ベクトルμ_RIを学習する。学習方法は上の場
合と同じである。この段階は、不特定話者システムにお
ける通常の学習に相当する。以上は、参照話者学習用語
彙独立パターン作成部１０２に対応する。

【００２４】次に、上で作成した２種類の参照話者の平
均ベクトルを用いて、学習用語彙に依存した平均ベクト
ルから学習用語彙から独立した平均ベクトルへの写像を
作成する。写像は例えば、次のようなものを用いる。

【００２５】

【数１】

【００２６】ここで、μは入力する学習用語彙に依存し
た平均ベクトル、

【００２７】

【数２】

【００２８】は出力となる学習用語彙から独立した平均
ベクトルである。写像はその他様々なものが可能であ
る。ここで作成された写像を変換写像と呼ぶ。以上は、
変換写像作成部１０３に対応する。

【００２９】ここまでの処理は新使用者が使用する以前
に行っておくことが可能である。以下は、新使用者が使
用する際の処理である。

【００３０】まず、新使用者が発声した学習用語彙の発
声を用いて、新使用者の発声に適応しており、かつ、学
習用の語彙のコンテキストに依存している、平均ベクト
ルμ_PDを学習する。学習方法は参照話者の場合と同様で
ある。以上は、新使用者学習用語彙依存パターン作成部
１０４に対応する。

【００３１】次に上の新使用者の学習用語彙に依存した
平均ベクトルを、変換写像を用いて変換し、学習用語彙
のコンテキストに依存しない平均ベクトルを推定する。
以上は、パターン変換部１０５に対応する。

【００３２】以上の手続きを各音素の各状態の各分布に
ついて行う。

【００３３】このように、標準パターンを作成した後、
音声認識装置の使用時においては、推定された平均ベク
トルをもつＨＭＭを用いて、入力された新使用者の発声
を認識する。ＨＭＭの認識方式については、文献１に詳
しい。以上は認識部１０６に対応する。

【００３４】ここでは、参照話者が複数で、全話者で１
つの平均ベクトルμ_RD、μ_RIを学習している場合を例に
あげたが、各話者ごとに平均ベクトルを学習してもよ
い。その場合、式（１）の２式第２項はそれら複数の話
者におけるμ_RI、μ_RDの差を適当に重み付けて全参照話
者について和をとったものにすればよい。

【００３５】また、ここでは、混合分布中の１つの分布
のみを用いて写像を作成し、平均ベクトルを変換してい
るが、他の分布も同時に用いて、写像を作成することも
可能である。他の分布としては、同じ状態の他の分布、
あるいは、他の状態の分布、他の認識単位の分布などが
考えられる。このような場合には、分布に対応する複数
の平均ベクトルが作成された写像を用いて変換される。

【００３６】今回、写像は非線形なものを例にあげた
が、線形なものでも、非線形なものでも、用いることが
可能である。

【００３７】参照話者の人数は可変である。１人でも可
能である。

【００３８】また、ここでは、簡単のため、参照話者学
習用語彙依存パターン、参照話者学習用語彙独立パター
ン、新使用者学習用語彙依存パターンの学習方式はすべ
て同一としたが、これらがそれぞれ異なっていても、本
発明を適用することが可能である。

【００３９】ここでは、平均ベクトルのみを学習する例
を示したが、その他の分散、重み、遷移確率なども同様
の方式で学習することが容易に可能である。また、それ
らパラメータのうち、同時に複数のものを学習すること
が可能である。ここでは、認識単位として、音素を例に
とりあげたが、音素以外の、音節、半音節など他の認識
単位の場合も、本本式は容易に適用可能である。

【００４０】ここでは、認識方式としてＨＭＭを例にあ
げて説明したが、他の認識方式、例えば、ＮＮ、ＤＰマ
ッチングなどの認識方式においても、パラメータを学習
する際に、本方式を適用することが容易に可能である。

【００４１】

【発明の効果】限られた数の学習用語彙の発声を用いて
作成された標準パターンは学習用語彙のコンテキストに
依存している。他の話者の多数の語彙の発声から作成さ
れた写像を用いてコンテキストの影響を補正することに
より、コンテキストから独立した標準パターンを推定す
ることが可能になる。従来より少量の学習用発声で認識
性能の高い標準パターンを作成できる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の一実施例を示すブ
ロック図である。

【符号の説明】

１０１参照話者学習用語彙依存パターン作成部１０２参照話者学習用語彙独立パターン作成部１０３変換写像作成部１０４新使用者学習用語彙依存パターン作成部１０５パターン変換部１０６認識部

Claims

【特許請求の範囲】

【請求項１】使用者の発声から作成された標準パター
ンを用いる音声認識装置であって、参照話者の多数の語
彙の発声を入力し参照話者学習用語彙独立パターンを出
力する参照話者学習用語彙独立パターン作成部と、参照話者の学習用語彙の発声を入力し参照話者学習用語
彙依存パターンを出力する参照話者学習用語彙依存パタ
ーン作成部と、前記参照話者学習用語彙独立パターンと前記参照話者学
習用語彙依存パターンを入力し、前記参照話者学習用語
彙依存パターンから前記参照話者学習用語彙独立パター
ンへの変換写像を出力する変換写像作成部と、新使用者の学習用語彙の発声を入力し、新使用者学習用
語彙依存パターンを出力する新使用者学習用語彙依存パ
ターン作成部と、前記新使用者学習用語彙依存パターンを前記変換写像に
より変換し、標準パターンを出力するパターン変換部
と、新使用者の発声を入力し、前記標準パターンを用いて認
識を行う認識部と、から構成されることを特徴とする音声認識装置。