JPH10207485A

JPH10207485A - 音声認識装置及び話者適応方法

Info

Publication number: JPH10207485A
Application number: JP9009777A
Authority: JP
Inventors: Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-22
Filing date: 1997-01-22
Publication date: 1998-08-07

Abstract

(57)【要約】【課題】少量の学習データでも認識性能が向上し、大量
にデータが集まれば一層の性能向上が見込め、しかも適
応のためのユーザの負担を極力排除できる。【解決手段】話者適応モードにおいて、音韻ラベル系列
決定部１３は、特定話者の入力音声に関し、正解音韻系
列に対応する辞書格納部１５内のＨＭＭとの照合により
正解音韻系列情報を求めると共に、辞書格納部１５内の
全ＨＭＭとの照合によりスコアが最大となる最適音韻系
列情報を求める。適応部１４は、正解音韻系列情報最適
に従い、最大事後確率推定法により辞書格納部１５内の
音韻ＨＭＭの平均ベクトル及び分散の学習を行い、更に
正解音韻系列情報中の音韻ラベル系列と最適音韻系列情
報中の音韻ラベル系列とを比較して、正解音韻ラベルと
は異なる音韻ラベルが割り当てられている音声パターン
を抽出し、その音声パターンを当該音韻ラベルに対応す
る音韻ＨＭＭの平均ベクトルから差し引く。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者適応機能を持
った音声認識装置及び話者適応方法に関する。

【０００２】

【従来の技術】一般に、音声認識における話者適応に
は、認識に用いる辞書を話者の音声の特徴に適応させる
方法と、入力音声に含まれる話者の特徴を正規化する方
法の両方がとられる。

【０００３】まず、認識辞書を特定話者の音声に適応さ
せる方法としては、統計的な認識手法の一つである複合
類似度法における話者適応が知られている。複合類似度
法で用いられる音声認識辞書は、音声パターンから作成
された共分散行列を主成分分析して求められた固有値、
固有ベクトルから構成される。この音声認識辞書を特定
話者の音声に適応するために、照合の単位となる各カテ
ゴリ毎に該カテゴリに属する音声パターンを用いて、以
下の式のような共分散行列の更新が行われ、更新後の共
分散行列を主成分分析することにより、話者適応化され
た認識辞書が求まる。

【０００４】Ｋ′＝Ｋ＋ａΣＸＸ^t ここで、Ｋ′は更新後の共分散行列、Ｋは更新前の共分
散行列、Ｘは対応カテゴリに属する音声パターン、ａは
更新係数、ｔは転置を表す。

【０００５】このようにして、更新前の例えば、不特定
話者用に作成された共分散行列に、特定話者の発声した
音声を加えることにより、特定話者の音声の特徴を反映
した認識辞書を作成することができる。

【０００６】また、ＬＶＱ（Learning Vector Quantiza
tion）と呼ばれる方法も提案されている。この方法は、
離散ＨＭＭ（Hidden Markov Model:隠れマルコフモデ
ル）で用いる符号系列を作成するための符号帳を話者に
適応化するものである。ここでは、認識結果に基づき、
入力音声パターンを用いて、各カテゴリの符号帳（コー
ドベクトル）を更新する。具体的には、該入力音声が正
解カテゴリとは異なるカテゴリと判定された場合に、該
入力音声パターンを正解カテゴリに近付ける処理を行
い、誤ったカテゴリから遠ざける処理を行うというもの
である。（文献：甘利俊一監修、中川聖一、鹿野清宏、
東倉洋一共著：“音声・聴覚と神経回路網モデル”，p
p.205-206，オーム社）更に、最大事後確率推定法と呼ばれる連続ＨＭＭにおけ
るガウス分布の平均ベクトルの話者適応化法も提案され
ている。この方法も上記の方法と同様、話者の発声した
音声を用いて、連続ＨＭＭのパラメータを更新するもの
である。（文献：特開平８−９５５９２号公報）一方、入力音声の話者性を正規化する方法として、スペ
クトルマッピング法が提案されている。本方法は、ある
特定話者の音声パターンを、標準話者の音声パターンに
マッピングするための対応テーブルを予め求めておき、
認識の際に特定話者の入力音声を標準話者の音声に変換
して認識に供するという方法である。（文献：ＡＴＲ先
端テクノロジーシリーズ：自動翻訳電話，pp.70-72，オ
ーム社）。これにより、認識辞書を変更することなく、
特定話者の音声に対しても標準話者に近い認識性能を得
ることができる。

【０００７】

【発明が解決しようとする課題】音声認識における話者
適応方法として、上述したように、話者の発声した音声
データを用いて、認識辞書を特定話者の音声に適応させ
る方法と、標準話者への対応付けを行い、特定話者の入
力音声を標準話者の音声にマッピングする方法などが提
案されている。

【０００８】しかし、統計的手法に基づく認識方式の場
合には、適応に用いるデータ数が大量に必要となり、少
量のデータではその効果があまりないため、適応用の音
声データを収集するのに、話者に多大な負担を強いると
いう問題がある。また、少量データで効果のある例えば
最大事後確率推定法などでは、性能向上の飽和が早いた
め、たとえ大量の音声データが収集できても認識率はあ
る程度以上は向上しないといった問題がある。

【０００９】更に、スペクトルマッピング法などでも、
正しいマッピングをするためには、事前に特定話者の大
量の音声データが必要とななり、話者への負担が問題と
なる。

【００１０】また、話者への負担軽減のために、上述の
方法に対して、正解カテゴリを予め付与しない教師なし
学習と呼ばれる方法が検討されている。これは、話者の
発声した音声に対して、正解情報なしに辞書の学習を可
能とする方法であり、事前に学習用として音声を発声し
なくても、実際の認識に供された音声をそのまま学習に
利用できるというメリットがあるが、誤ったカテゴリと
して学習される可能性があり、教師有り学習に比べて、
一般的に認識性能向上の度合いは小さい。

【００１１】本発明は、上記の問題を考慮してなされた
もので、その目的は、少量の学習データでも認識性能向
上に顕著な効果があり、且つ大量にデータが集まれば、
更なる性能向上が見込め、しかも適応のためのユーザの
負担を極力排除できる音声認識装置及び話者適応方法を
提供することにある。

【００１２】

【課題を解決するための手段】上記の問題を解決するた
めに本発明は、特定話者の入力音声に対応した既知の音
韻系列について、当該入力音声に対する音声分析により
得られた音声パターンと対応する認識辞書（音韻認識辞
書）との照合を行うことで照合結果の情報を含む正解音
韻系列情報を抽出すると共に、上記音声パターンと全て
の認識辞書（音韻認識辞書）との照合を行うことで、最
大尤度を与える音韻系列に関する照合結果の情報を含む
最適音韻系列情報を抽出する音韻系列情報決定手段と、
上記正解音韻系列情報に従い、最大事後確率推定法によ
り該当する認識辞書の学習を行う第１の適応学習手段
と、上記正解音韻系列情報及び最適音韻系列情報を比較
してその相違部分を抽出し、その相違部分が解消される
方向に上記音声パターンを用いて該当する認識辞書の学
習を行う第２の適応学習手段とを備えたことを特徴とす
る。

【００１３】このような構成においては、特定話者の入
力音声に対応した既知の音韻系列を与えることで、その
既知の音韻系列（正解音韻系列）に対応する音韻区間及
び音韻ラベル系列を含む正解音韻系列情報が抽出され
る。また、入力音声の音声パターン（入力音声パター
ン）と全認識辞書との照合により、尤度（スコア）が最
大となる音韻系列に関する音韻区間及び音韻ラベル系列
を含む最適音韻系列情報が抽出される。ここで、音韻認
識辞書が音韻ＨＭＭの場合、正解音韻系列情報及び最適
音韻系列情報は、各音韻、各状態、各混合（正規分布の
混合）毎の平均ベクトルと分散からなる正規分布のパラ
メータを含む。

【００１４】正解音韻系列情報が抽出されると、その正
解音韻系列情報に従って、最大事後確率推定法により該
当する音韻認識辞書を学習することができる。この最大
事後確率推定法による学習では、音韻認識辞書が音韻Ｈ
ＭＭの場合には、当該ＨＭＭの正規分布のパラメータで
ある平均ベクトルと分散が対応する（音韻ラベルが付さ
れている）音韻区間の音声パターンを選択的に用いて更
新される。通常、各音韻ＨＭＭの正規分布のパラメータ
は、各状態（を示す状態番号）、各混合（を示す混合番
号）毎に存在することから、音韻数×状態数×混合数だ
けの数の正規分布のパラメータの学習が行われる。但
し、該当する音韻区間の音声パターンが存在しない音韻
ＨＭＭの正規分布のパラメータについては、学習の対象
外となる。

【００１５】次に、正解音韻系列情報及び最適音韻系列
情報との相違部分が抽出され、その相違部分が解消され
る方向に入力音声パターンを用いた音韻認識辞書の学習
（更新）が行われる。ここで上記相違部分は、正解音韻
系列情報中の音韻ラベル系列（正解ラベル系列）と最適
音韻系列情報中の音韻ラベル系列（最適ラベル系列）と
を比較することで抽出されるものであり、例えば最適ラ
ベル系列中で正解ラベル系列の正解音韻ラベルとは異な
る音韻ラベルが割り当てられている区間である。この区
間内の音声パターンを抽出して、音韻認識辞書の学習に
用いることで、上記相違部分が解消される方向への音韻
認識辞書の更新が可能となる。特に、音韻認識辞書が音
韻ＨＭＭの場合には、最適ラベル系列中で正解ラベル系
列とは異なる音韻ラベルが割り当てられている区間内の
音声パターンを、上記異なる音韻ラベルの音韻の音韻Ｈ
ＭＭの平均ベクトルから差し引く処理を行うことで、今
後当該音声パターンと同様のパターンが出現した際に、
上記正解音韻ラベルの音声パターンとして扱われるよう
に更新できる。

【００１６】このように本発明においては、最大事後確
率推定法を用いることにより、学習データが少量の場合
でも効果のある話者適応を実現でき、更に、正解ラベル
系列と最適ラベル系列の比較により、認識結果を考慮し
た競合学習をすることができるので、大量の音声データ
が存在する場合には、更なる認識性能の向上を実現する
ことができる。また、これにより、ユーザは学習データ
が少ないときも、多いときも最大限に適応機能の効果を
得ることができ、結果として、学習のための負担を大幅
に軽減することができる。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図１は本発明の一実施形態に
係る音声認識装置の基本構成を示すブロック図である。
図１の音声認識装置（本装置）は、主として、音声入力
部１１、音声分析部１２、音韻ラベル系列決定部１３、
適応部１４、辞書格納部１５、認識部１６、認識語彙格
納部１７、制御部１８より構成されている。

【００１８】本装置は、（１）話者適応モード、（２）
認識モードの２つのモードで作動される。このモード
は、ユーザによりキーボード、マウス等の入力手段を操
作することで選択指定される。制御部１８は、ユーザか
らのモード指定を受け付け、その受け付けたモードでの
処理の実行を制御する。

【００１９】ここで、上記２つのモードのうち、本発明
の特徴を表す（１）話者適応モードの処理について、図
２のフローチャートを適宜参照して説明する。まず話者
適応モードにおいて、ユーザ（特定話者）が音声を発声
すると、その音声が音声入力部１１により所定のサンプ
リング周波数でＡ／Ｄ変換され、ディジタル時系列信号
の音声データに変換される。音声入力部１１は、こうし
て得られた音声データに対して、固定時間（例えば８m
s：以後この単位をフレームと呼ぶ）毎に音声パワーを
計算し、パワーの時系列を用いて、発声された音声の始
終端の時刻を検出する。そして音声入力部１１は、検出
した音声の始終端の時刻をもとに、その始終端区間内の
音声データを抽出し、音声分析部１２に送る。

【００２０】音声分析部１２は、音声入力部１１から送
られた始終端区間内の音声データを対象に、例えば高速
フーリエ変換（ＦＦＴ）などを用いて周波数分析を行
い、音声データの時系列信号を周波数パラメータの時系
列データに変換する。ここでは、２５６ポイントの高速
フーリエ変換を行い、得られた１２８次元のパワースペ
クトルを、Ｂａｒｋスケールにより、１６次元のバンド
パスフィルタ出力に圧縮して、各フレーム当たり１６次
元の特徴ベクトルからなる音声パターンを生成してい
る。

【００２１】音声分析部１２により求められた音声パタ
ーン、即ち入力音声に対する周波数分析結果である周波
数パラメータの時系列データは、図示せぬ音声パターン
格納部に格納される。

【００２２】以上により、特定話者がｎ種の単語につい
てｍ回発声した場合には、ｎ種の単語について、それぞ
れｍ個の音声パターンが音声パターン格納部に格納され
ることになる。

【００２３】さて、話者適応処理に必要な全ての入力音
声に対応する音声パターンの群が音声パターン格納部に
格納されると、制御部１８により音韻ラベル系列決定部
１３が起動される。すると音韻ラベル系列決定部１３
は、以下に述べるように正解音韻系列情報及び最適音韻
系列情報を求める音韻ラベル系列決定処理を行う（ステ
ップＳ１）。

【００２４】即ち音韻ラベル系列決定部１３は、入力さ
れた音声に対応した既知の音韻系列（正解の音韻系列）
について、音声分析部１２により得られた音声パターン
と辞書（認識辞書）格納部１５に格納されている（当該
正解の音韻系列に対応する）音韻ＨＭＭ（ここでは連続
ＨＭＭ）とのビタビ（Viterbi ）照合を行うことで、各
音韻の区間を求めると共に、区間中の各フレームが音韻
ＨＭＭのどの状態、どの混合度（どの混合番号の正規分
布）に対応するかを求め、音韻ラベル系列を含む正解音
韻系列情報として保持する。

【００２５】また音韻ラベル系列決定部１３は、それと
は別に、正解音韻系列を与えずに、上記音声パターンと
辞書格納部１５に格納されている全ての音韻ＨＭＭとの
ビタビ照合により、最大スコア（尤度）を与える音韻系
列（以下、最適音韻系列と称する）及びその区間（音韻
区間）、各フレーム毎の音韻ＨＭＭの状態、混合度への
対応を求め、音韻ラベル系列を含む最適音韻系列情報と
して保持する。

【００２６】このようにして音韻ラベル系列決定部１３
により求められる正解音韻系列情報及び最適音韻系列情
報の一例を、入力音声が「わたし」、したがって音韻表
記が“ＷＡＴＡＳＨＩ”である場合について図３及び図
４に示す。

【００２７】音韻ラベル系列決定部１３は、以上の処理
を音声分析部１２により得られた全ての音声パターンに
ついて実行する。音韻ラベル系列決定部１３による音韻
ラベル系列決定処理（ステップＳ１）が終了すると、適
応部１４に制御が移る。適応部１４は、音韻ラベル系列
決定部１３により各音声パターン毎に求められた上記２
つの音韻系列情報を用いて、以下に述べる手順で音韻Ｈ
ＭＭのパラメータの更新（学習）を行う。

【００２８】まず適応部１４は、正解音韻系列情報に基
づき、対応する正解音韻系列をなす各音韻の音韻ＨＭＭ
（連続ＨＭＭ）の各正規分布のパラメータ（平均ベクト
ルと分散）を学習の対象として最大事後確率推定法によ
り次のように更新する（ステップＳ２）。

【００２９】即ち適応部１４は、音韻（音韻カテゴリ）
ｋの音韻ＨＭＭの正規分布の平均ベクトルを次式 μ_k ′＝（αμ_k ＋Σ_i Ｘ_i ）／（α＋Ｎ）により更新し、同様に分散を次式 σ_k ′＝｛Σ_i Ｘ_i ² −（α＋Ｎ）μ_k ′²＋βσ_k ＋
αμ_k ² ｝／（Ｎ＋β）により更新する。

【００３０】ここで、μ_k は更新前の平均ベクトル、μ
_k ′は更新後の平均ベクトル、Ｎは学習に供する音声パ
ターン数、Ｘ_i は学習に供する音声パターン、σ_k は更
新前の分散、σ_k ′は更新後の分散、α及びβは更新係
数、Σ_i Ｘ_i はＮ個の音声パターンＸ_i の総和、Σ_i Ｘ
_i ² はＮ個の音声パターンＸ_i のそれぞれの平方値の総
和である。

【００３１】上記の学習（更新）は、各音韻、各状態、
各混合度の全ての組み合わせについて行われる。したが
って、例えば音韻数１００、各音韻ＨＭＭの状態数４、
混合数５の場合には、１００×４×５＝２０００（個）
の正規分布の学習を行うことになる。但し、該当する分
布の学習に供する音声パターンが存在しない場合には、
その学習は行われない。

【００３２】適応部１４は、以上に述べた学習（更新）
処理、即ち正解音韻系列情報の示す正解音韻系列をなす
各音韻の音韻ＨＭＭを構成する各正規分布の平均ベクト
ル、分散を学習（更新）する処理（ステップＳ２）を終
了すると、平均ベクトルの追加学習処理を行う。この平
均ベクトルの追加学習処理につき、簡単のために各音韻
ＨＭＭは３状態、３混合度からなるものと仮定して図５
を参照して説明する。

【００３３】ここでは、先に述べたように、「わたし」
という音声が学習用音声として入力されたとする。ま
た、この入力音声「わたし」の音韻表記である“Ｗ−Ａ
−Ｔ−Ａ−ＳＨ−Ｉ”という系列を音韻ラベル系列決定
部１３での音韻ＨＭＭによるビタビ照合で入力音声「わ
たし」の音声パターンに当てはめた結果、図５において
符号５１で示す正解音韻系列の例のような、当該系列を
なす各音韻（Ｗ，Ａ，Ｔ，Ａ，ＳＨ，Ｉ）の区間が（上
記ステップＳ１の処理で）求められたとする。

【００３４】また、音韻ラベル系列決定部１３にて、入
力音声「わたし」の音声パターンに対して最大スコアを
とる最適音韻系列を求めたところ、図５において符号５
２で示すような“Ｗ−Ａ−Ｈ−Ｔ−Ａ−ＳＨ−Ｉ”とい
う最適音韻系列及び当該系列をなす各音韻（Ｗ，Ａ，
Ｈ，Ｔ，Ａ，ＳＨ，Ｉ）の区間が（上記ステップＳ１の
処理で）求められたとする。

【００３５】ここで、正解音韻系列５１と最適音韻系列
５２との間で、異なる音韻のラベル付けがなされている
区間は６区間あり、それぞれ区間ａ，ｂ，ｃ，ｄ，ｅ，
ｆとする。この区間ａ〜ｆのうちの例えば区間ａは、正
解音韻系列５１では音韻（ラベル）“Ｗ”に割り当てら
れているが、最適音韻系列５２では“Ａ”に割り当てら
れている。区間ａは、図３から明らかなように、第５フ
レームと第６フレームの２フレームからなる。

【００３６】さて適応部１４は、上記ステップＳ２を終
了すると、まず処理対象とする（フレームのフレーム位
置を示す）フレーム番号ｊを初期値１に設定する（ステ
ップＳ３）。

【００３７】次に適応部１４は、（正解音韻系列情報に
含まれる）正解音韻系列５１中の第ｊフレームの音韻ラ
ベルと（最適音韻系列情報に含まれる）最適音韻系列５
２中の第ｊフレームの音韻ラベルとを比較する（ステッ
プＳ４）。もし、両ラベルが異なっていないならば（ス
テップＳ５）、適応部１４はフレーム番号ｊを１つ進め
た後（ステップＳ６）、ステップＳ４に戻る。

【００３８】図３の例では、正解音韻系列５１及び最適
音韻系列５２の第１乃至第４フレームの音韻ラベルは、
いずれも“Ｗ”であり、一致している。一方、次の第５
フレーム及び第６フレームの音韻ラベル、即ち区間ａ内
の各フレームの音韻ラベルは、正解音韻系列５１では
“Ｗ”であるのに対し、最適音韻系列５２では“Ａ”と
なっており、異なっている。

【００３９】適応部１４は、第５フレーム、或は第６フ
レームの例のように、第ｊフレームの音韻ラベルが正解
音韻系列５１と最適音韻系列５２とで異なっている場合
（ステップＳ４，Ｓ５）、最適音韻系列５２中の第ｊフ
レームの音韻ラベル名、ＨＭＭ状態番号、ＨＭＭ混合番
号（図３の例の第５フレームの場合であれば、音韻ラベ
ル名＝Ａ、ＨＭＭ状態番号＝１、ＨＭＭ混合番号＝３）
と共に、第ｊフレームの音声パターンを保持する（ステ
ップＳ７）。

【００４０】次に適応部１４は、最終フレームの処理ま
で行われたか否かを判断し（ステップＳ８）、最終フレ
ームの処理まで行われていないならば、フレーム番号ｊ
を１つ進めた後（ステップＳ６）、ステップＳ４に戻
る。

【００４１】このようにして、上記ステップＳ４以降の
処理が繰り返され、最終フレームの処理まで行われると
（ステップＳ８）、適応部１４は、それまで保持してお
いた、（正解音韻系列情報中の）正解音韻系列５１と
（最適音韻系列情報中の）最適音韻系列５２との間で音
韻ラベルが異なっているフレームの音声パターンを用い
て、対応する音韻ＨＭＭ中の対応する状態番号、混合番
号の正規分布の平均ベクトルを更新し、辞書格納部１５
に格納し直す（ステップＳ９）。

【００４２】このステップＳ９での平均ベクトル更新処
理の詳細を以下に述べる。上記区間ａを例にとると、こ
の区間ａは正解音韻系列５１では“Ｗ”に割り当てられ
ているが、最適音韻系列５２では“Ａ”に割り当てられ
ている。この区間ａは、本来“Ａ”ではなくて“Ｗ”と
見なされるべき区間である。

【００４３】そこで本実施形態では、今後区間ａ内の音
声パターンと同様のパターンが出現した際に、“Ａ”の
パターンとはならないようにするために、以下の式のよ
うに、当該区間ａ内の音声パターンを“Ａ”の音韻ＨＭ
Ｍの平均ベクトルから差し引く処理（平均ベクトル更新
処理）を行う。

【００４４】 μ_k ″＝μ_k ′＋（γ／Ｎ）｛Σ_i （Ｘ_i −μ_k ′）｝ここで、μ_k ′は更新前の平均ベクトル、μ_k ″は更新
後の平均ベクトル、γは更新係数（負の値）、Ｘ_i は学
習に供する音声パターン、Ｎは学習に供する音声パター
ンの数、ｋは音韻カテゴリ、Σ_i （Ｘ_i −μ_k ′）はＮ
個の音声パターンＸ_i についてのＸ_i −μ_k ′の総和を
表す。

【００４５】こうして平均ベクトルが更新された音韻Ｈ
ＭＭは、前記したように辞書格納部１５に格納し直さ
れ、認識処理に供される。以上のように、各音韻ＨＭＭ
の平均ベクトル及び分散を、特定話者の発声した音声を
用いて更新（学習）することにより、音韻ＨＭＭを話者
に適応させることができ、認識性能を向上させることが
できる。この音韻ＨＭＭのパラメータの更新（学習）手
法（話者適応方法）を音声認識装置に適用した場合にお
ける認識性能の向上を５００単語認識実験（話者は男性
３名）で確認した結果（学習に供する音声データ数に対
する各特定話者毎の認識率の平均値）を、図６に実線で
示す。また、参考までに、最大事後確率推定法のみを用
いた場合について破線で示す。図５において、横軸は学
習に供する音声データ数、縦軸は認識率である。

【００４６】図５から明らかなように、本実施形態で適
用した方法の方が、最大事後確率推定法のみを用いた場
合よりも、学習データが少ないときでも高い認識性能を
示し、しかも学習データ数の増加に伴う認識性能の飽和
も起こっていない。

【００４７】さて、図２のフローチャート（中のステッ
プＳ１〜Ｓ９）に従うＨＭＭパラメータ（中の平均ベク
トル及び分散）の更新の結果、例えば認識性能が所定比
率以上上昇したならば、一連の話者適応処理は終了とな
る（ステップＳ１０）。これに対し、認識性能の上昇率
が所定比率に達していないならば、ステップＳ１以降の
処理が再度行われる。なお、話者適応処理の終了の条件
として、認識性能の上昇率ではなくて、処理回数（ステ
ップＳ１〜Ｓ９の処理を繰り返す回数）を用いても構わ
ない。

【００４８】次に、認識モードでの処理について説明す
る。なお、認識モードは本発明に直接関係するものでは
ない。そのためここでは、一般に行われる認識処理を例
に簡単に説明する。

【００４９】認識モードにおける音声入力部１１及び音
声分析部１２の処理は、上述した話者適応モードと同様
であり、音声分析部１２では、入力音声の特徴を表す音
声パターンが取得される。

【００５０】音声分析部１２により得られた入力音声の
音声パターンは、認識部１６に送られる。認識部１６
は、認識語彙格納部１７に格納された各語彙毎に、辞書
格納部１５内の音韻ＨＭＭを用いて音声パターンとのビ
タビ照合を行い、スコア（尤度）を求める。ここで例え
ば、認識語彙が単語の場合には、認識部１６は単語を構
成する音韻列に従って対応する音韻ＨＭＭを連結して単
語ＨＭＭを構成し、各単語ＨＭＭ毎に音声パターンとの
照合を行う。このようにして認識部１６は、全ての語彙
についてスコアを求めた後、最大スコアをとる語彙を認
識結果として出力する。

【００５１】以上に述べた図１の構成の音声認識装置の
各部の機能は、コンピュータ、例えば内蔵型マイクロホ
ンが組み込まれた、或いはマイクロホン入力端子が設け
られた音声入力機能を持つ図７に示すパーソナルコンピ
ュータ７０を、主として音声分析部１２、音韻ラベル系
列決定部１３、適応部１４、認識部１６、及び制御部１
８として機能させるためのプログラムを記録した記録媒
体、例えばフロッピーディスク（ＦＤ）７１を用い、当
該フロッピーディスク７１をパーソナルコンピュータ７
０に装着して、当該フロッピーディスク７１に記録され
ているプログラムをパーソナルコンピュータ７０で読み
取り実行させることにより実現される。

【００５２】なお、以上の実施形態で述べた音声分析条
件や、図５で示した音韻系列は単なる例であり、この内
容に限るものではない。この他、本発明は前記実施形態
に限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。

【００５３】

【発明の効果】以上詳記したように本発明によれば、最
大事後確率推定法を用いているので、学習データが少量
の場合でも、話者適応の効果が顕著であり、更に、最適
音韻系列と正解音韻系列の競合学習を併用しているの
で、最大事後確率推定法のみを用いる場合に比べて、学
習データが増えても収束することなく、認識性能の一層
の向上が期待できる。また、これにより、ユーザは一度
に大量の音声を発声することなく、状況により、話者適
応用音声データの発声を制御できるので、適応に対する
ユーザの負担を軽減することができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声認識装置の基本
構成を示すブロック図。

【図２】同実施形態における話者適応モードの処理を説
明するためのフローチャート。

【図３】図１中の音韻ラベル系列決定部１３により求め
られる正解音韻系列情報及び最適音韻系列情報の一例の
一部を示す図。

【図４】図１中の音韻ラベル系列決定部１３により求め
られる正解音韻系列情報及び最適音韻系列情報の一例の
他の一部を示す図。

【図５】正解音韻系列と最適音韻系列とで異なる音韻ラ
ベルが割り当てられている区間を示す図。

【図６】同実施形態で適用した話者適応方法の効果を最
大事後確率推定法のみを用いた場合と対比させて示す
図。

【図７】図１の音声認識装置を実現するパーソナルコン
ピュータの外観を示す図。

【符号の説明】

１１…音声入力部１２…音声分析部１３…音韻ラベル系列決定部（音韻系列情報決定手段）１４…適応部（第１の適応学習手段、第２の適応学習手
段）１５…辞書格納部１６…認識部１７…認識語彙格納部１８…制御部

Claims

【特許請求の範囲】

【請求項１】発声された音声を入力する音声入力手段
と、前記音声入力手段により入力された音声を分析して
その特徴を表す音声パターンを得る音声分析手段と、音
韻毎の照合に用いられる認識辞書の群を格納しておく辞
書格納手段と、認識モードにおいて、前記音声分析手段
により得られた音声パターンの認識処理を前記辞書格納
手段内の認識辞書を利用して実行する認識手段とを備え
た音声認識装置において、話者適応モードにおいて、特定話者の入力音声に対応し
た既知の音韻系列について、前記音声分析手段により当
該入力音声から得られた音声パターンと前記辞書格納手
段内の対応する認識辞書との照合を行うことで照合結果
の情報を含む正解音韻系列情報を抽出すると共に、前記
音声パターンと前記辞書格納手段内の全ての認識辞書と
の照合を行うことで、最大尤度を与える音韻系列に関す
る照合結果の情報を含む最適音韻系列情報を抽出する音
韻系列情報決定手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報に従い、最大事後確率推定法により前記辞書
格納手段内の該当する認識辞書の学習を行う第１の適応
学習手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報及び前記最適音韻系列情報を比較してその相
違部分を抽出し、その相違部分が解消される方向に前記
音声分析手段により得られた音声パターンを用いて前記
辞書格納手段内の該当する認識辞書の学習を行う第２の
適応学習手段とを具備することを特徴とする音声認識装
置。
【請求項２】発声された音声を入力する音声入力手段
と、前記音声入力手段により入力された音声を分析して
その特徴を表す音声パターンを得る音声分析手段と、音
韻毎の照合に用いられる音韻ＨＭＭの群を格納しておく
辞書格納手段と、認識モードにおいて、前記音声分析手
段により得られた音声パターンの認識処理を前記辞書格
納手段内の音韻ＨＭＭを利用して実行する認識手段とを
備えた音声認識装置において、話者適応モードにおいて、特定話者の入力音声に対応し
た既知の音韻系列について、前記音声分析手段により当
該入力音声から得られた音声パターンと前記辞書格納手
段内の対応する音韻ＨＭＭとの照合を行うことで音韻ラ
ベル系列を含む正解音韻系列情報を抽出すると共に、前
記音声パターンと前記辞書格納手段内の全ての音韻ＨＭ
Ｍとの照合を行うことで、最大尤度を与える音韻系列に
関する音韻ラベル系列を含む最適音韻系列情報を抽出す
る音韻系列情報決定手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報に従い、最大事後確率推定法により前記辞書
格納手段内の該当する音韻ＨＭＭのパラメータの学習を
行う第１の適応学習手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報中の音韻ラベル系列と前記最適音韻系列情報
中の音韻ラベル系列とを比較して、前記音声分析手段に
より得られた音声パターンの中から正解音韻ラベルとは
異なる音韻ラベルが割り当てられている音声パターンを
抽出し、その音声パターンを用いて前記音韻ラベルの相
違部分が解消される方向に前記辞書格納手段内の該当す
るＨＭＭのパラメータの学習を行う第２の適応学習手段
とを具備することを特徴とする音声認識装置。
【請求項３】発声された音声を入力する音声入力手段
と、前記音声入力手段により入力された音声を分析して
その特徴を表す音声パターンを得る音声分析手段と、平
均ベクトルと分散からなる正規分布のパラメータを含む
音韻ＨＭＭの群を格納しておく辞書格納手段と、認識モ
ードにおいて、前記音声分析手段により得られた音声パ
ターンの認識処理を前記辞書記格納段内の音韻ＨＭＭを
利用して実行する認識手段とを備えた音声認識装置にお
いて、話者適応モードにおいて、特定話者の入力音声に対応し
た既知の音韻系列について、前記音声分析手段により当
該入力音声から得られた音声パターンと前記辞書格納手
段内の対応する音韻ＨＭＭとの照合を行うことで音韻ラ
ベル系列を含む正解音韻系列情報を抽出すると共に、前
記音声パターンと前記辞書格納手段内の全ての音韻ＨＭ
Ｍとの照合を行うことで、最大尤度を与える音韻系列に
関する音韻ラベル系列を含む最適音韻系列情報を抽出す
る音韻系列情報決定手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報に従い、最大事後確率推定法により前記辞書
格納手段内の該当する音韻ＨＭＭの前記平均ベクトル及
び分散の学習を行う第１の適応学習手段と、前記音韻系列情報決定手段により抽出された前記正解音
韻系列情報中の音韻ラベル系列と前記最適音韻系列情報
中の音韻ラベル系列とを比較して、前記音声分析手段に
より得られた音声パターンの中から正解音韻ラベルとは
異なる音韻ラベルが割り当てられている音声パターンを
抽出し、その音声パターンを当該音韻ラベルに対応する
前記辞書格納手段内の音韻ＨＭＭの平均ベクトルから差
し引く第２の適応学習手段とを具備することを特徴とす
る音声認識装置。
【請求項４】入力音声を分析して得られる当該入力音
声の特徴を表す音声パターンの認識処理のために辞書格
納手段に格納されている音韻毎の照合用の認識辞書の群
を特定話者に適応するように学習するための話者適応方
法において、特定話者の入力音声に対応した既知の音韻系列につい
て、当該入力音声の音声パターンと前記辞書格納手段内
の対応する認識辞書との照合を行うことで照合結果の情
報を含む正解音韻系列情報を抽出すると共に、前記音声
パターンと前記辞書格納手段内の全ての認識辞書との照
合を行うことで、最大尤度を与える音韻系列に関する照
合結果の情報を含む最適音韻系列情報を抽出する第１の
ステップと、前記第１のステップで抽出した前記正解音韻系列情報に
従い、最大事後確率推定法により前記辞書格納手段内の
該当する認識辞書の学習を行う第２のステップと、前記第１のステップで抽出した前記正解音韻系列情報及
び前記最適音韻系列情報を比較してその相違部分を抽出
し、その相違部分が解消される方向に前記音声パターン
を用いて前記辞書格納手段内の該当する認識辞書の学習
を行う第３のステップとを具備することを特徴とする話
者適応方法。