JPH10207485A - 音声認識装置及び話者適応方法 - Google Patents

音声認識装置及び話者適応方法

Info

Publication number
JPH10207485A
JPH10207485A JP9009777A JP977797A JPH10207485A JP H10207485 A JPH10207485 A JP H10207485A JP 9009777 A JP9009777 A JP 9009777A JP 977797 A JP977797 A JP 977797A JP H10207485 A JPH10207485 A JP H10207485A
Authority
JP
Japan
Prior art keywords
phoneme
voice
speech
recognition
sequence information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9009777A
Other languages
English (en)
Inventor
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9009777A priority Critical patent/JPH10207485A/ja
Publication of JPH10207485A publication Critical patent/JPH10207485A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】少量の学習データでも認識性能が向上し、大量
にデータが集まれば一層の性能向上が見込め、しかも適
応のためのユーザの負担を極力排除できる。 【解決手段】話者適応モードにおいて、音韻ラベル系列
決定部13は、特定話者の入力音声に関し、正解音韻系
列に対応する辞書格納部15内のHMMとの照合により
正解音韻系列情報を求めると共に、辞書格納部15内の
全HMMとの照合によりスコアが最大となる最適音韻系
列情報を求める。適応部14は、正解音韻系列情報最適
に従い、最大事後確率推定法により辞書格納部15内の
音韻HMMの平均ベクトル及び分散の学習を行い、更に
正解音韻系列情報中の音韻ラベル系列と最適音韻系列情
報中の音韻ラベル系列とを比較して、正解音韻ラベルと
は異なる音韻ラベルが割り当てられている音声パターン
を抽出し、その音声パターンを当該音韻ラベルに対応す
る音韻HMMの平均ベクトルから差し引く。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者適応機能を持
った音声認識装置及び話者適応方法に関する。
【0002】
【従来の技術】一般に、音声認識における話者適応に
は、認識に用いる辞書を話者の音声の特徴に適応させる
方法と、入力音声に含まれる話者の特徴を正規化する方
法の両方がとられる。
【0003】まず、認識辞書を特定話者の音声に適応さ
せる方法としては、統計的な認識手法の一つである複合
類似度法における話者適応が知られている。複合類似度
法で用いられる音声認識辞書は、音声パターンから作成
された共分散行列を主成分分析して求められた固有値、
固有ベクトルから構成される。この音声認識辞書を特定
話者の音声に適応するために、照合の単位となる各カテ
ゴリ毎に該カテゴリに属する音声パターンを用いて、以
下の式のような共分散行列の更新が行われ、更新後の共
分散行列を主成分分析することにより、話者適応化され
た認識辞書が求まる。
【0004】K′=K+aΣXXt ここで、K′は更新後の共分散行列、Kは更新前の共分
散行列、Xは対応カテゴリに属する音声パターン、aは
更新係数、tは転置を表す。
【0005】このようにして、更新前の例えば、不特定
話者用に作成された共分散行列に、特定話者の発声した
音声を加えることにより、特定話者の音声の特徴を反映
した認識辞書を作成することができる。
【0006】また、LVQ(Learning Vector Quantiza
tion)と呼ばれる方法も提案されている。この方法は、
離散HMM(Hidden Markov Model:隠れマルコフモデ
ル)で用いる符号系列を作成するための符号帳を話者に
適応化するものである。ここでは、認識結果に基づき、
入力音声パターンを用いて、各カテゴリの符号帳(コー
ドベクトル)を更新する。具体的には、該入力音声が正
解カテゴリとは異なるカテゴリと判定された場合に、該
入力音声パターンを正解カテゴリに近付ける処理を行
い、誤ったカテゴリから遠ざける処理を行うというもの
である。(文献:甘利俊一監修、中川聖一、鹿野清宏、
東倉洋一共著:“音声・聴覚と神経回路網モデル”,p
p.205-206,オーム社) 更に、最大事後確率推定法と呼ばれる連続HMMにおけ
るガウス分布の平均ベクトルの話者適応化法も提案され
ている。この方法も上記の方法と同様、話者の発声した
音声を用いて、連続HMMのパラメータを更新するもの
である。(文献:特開平8−95592号公報) 一方、入力音声の話者性を正規化する方法として、スペ
クトルマッピング法が提案されている。本方法は、ある
特定話者の音声パターンを、標準話者の音声パターンに
マッピングするための対応テーブルを予め求めておき、
認識の際に特定話者の入力音声を標準話者の音声に変換
して認識に供するという方法である。(文献:ATR先
端テクノロジーシリーズ:自動翻訳電話,pp.70-72,オ
ーム社)。これにより、認識辞書を変更することなく、
特定話者の音声に対しても標準話者に近い認識性能を得
ることができる。
【0007】
【発明が解決しようとする課題】音声認識における話者
適応方法として、上述したように、話者の発声した音声
データを用いて、認識辞書を特定話者の音声に適応させ
る方法と、標準話者への対応付けを行い、特定話者の入
力音声を標準話者の音声にマッピングする方法などが提
案されている。
【0008】しかし、統計的手法に基づく認識方式の場
合には、適応に用いるデータ数が大量に必要となり、少
量のデータではその効果があまりないため、適応用の音
声データを収集するのに、話者に多大な負担を強いると
いう問題がある。また、少量データで効果のある例えば
最大事後確率推定法などでは、性能向上の飽和が早いた
め、たとえ大量の音声データが収集できても認識率はあ
る程度以上は向上しないといった問題がある。
【0009】更に、スペクトルマッピング法などでも、
正しいマッピングをするためには、事前に特定話者の大
量の音声データが必要とななり、話者への負担が問題と
なる。
【0010】また、話者への負担軽減のために、上述の
方法に対して、正解カテゴリを予め付与しない教師なし
学習と呼ばれる方法が検討されている。これは、話者の
発声した音声に対して、正解情報なしに辞書の学習を可
能とする方法であり、事前に学習用として音声を発声し
なくても、実際の認識に供された音声をそのまま学習に
利用できるというメリットがあるが、誤ったカテゴリと
して学習される可能性があり、教師有り学習に比べて、
一般的に認識性能向上の度合いは小さい。
【0011】本発明は、上記の問題を考慮してなされた
もので、その目的は、少量の学習データでも認識性能向
上に顕著な効果があり、且つ大量にデータが集まれば、
更なる性能向上が見込め、しかも適応のためのユーザの
負担を極力排除できる音声認識装置及び話者適応方法を
提供することにある。
【0012】
【課題を解決するための手段】上記の問題を解決するた
めに本発明は、特定話者の入力音声に対応した既知の音
韻系列について、当該入力音声に対する音声分析により
得られた音声パターンと対応する認識辞書(音韻認識辞
書)との照合を行うことで照合結果の情報を含む正解音
韻系列情報を抽出すると共に、上記音声パターンと全て
の認識辞書(音韻認識辞書)との照合を行うことで、最
大尤度を与える音韻系列に関する照合結果の情報を含む
最適音韻系列情報を抽出する音韻系列情報決定手段と、
上記正解音韻系列情報に従い、最大事後確率推定法によ
り該当する認識辞書の学習を行う第1の適応学習手段
と、上記正解音韻系列情報及び最適音韻系列情報を比較
してその相違部分を抽出し、その相違部分が解消される
方向に上記音声パターンを用いて該当する認識辞書の学
習を行う第2の適応学習手段とを備えたことを特徴とす
る。
【0013】このような構成においては、特定話者の入
力音声に対応した既知の音韻系列を与えることで、その
既知の音韻系列(正解音韻系列)に対応する音韻区間及
び音韻ラベル系列を含む正解音韻系列情報が抽出され
る。また、入力音声の音声パターン(入力音声パター
ン)と全認識辞書との照合により、尤度(スコア)が最
大となる音韻系列に関する音韻区間及び音韻ラベル系列
を含む最適音韻系列情報が抽出される。ここで、音韻認
識辞書が音韻HMMの場合、正解音韻系列情報及び最適
音韻系列情報は、各音韻、各状態、各混合(正規分布の
混合)毎の平均ベクトルと分散からなる正規分布のパラ
メータを含む。
【0014】正解音韻系列情報が抽出されると、その正
解音韻系列情報に従って、最大事後確率推定法により該
当する音韻認識辞書を学習することができる。この最大
事後確率推定法による学習では、音韻認識辞書が音韻H
MMの場合には、当該HMMの正規分布のパラメータで
ある平均ベクトルと分散が対応する(音韻ラベルが付さ
れている)音韻区間の音声パターンを選択的に用いて更
新される。通常、各音韻HMMの正規分布のパラメータ
は、各状態(を示す状態番号)、各混合(を示す混合番
号)毎に存在することから、音韻数×状態数×混合数だ
けの数の正規分布のパラメータの学習が行われる。但
し、該当する音韻区間の音声パターンが存在しない音韻
HMMの正規分布のパラメータについては、学習の対象
外となる。
【0015】次に、正解音韻系列情報及び最適音韻系列
情報との相違部分が抽出され、その相違部分が解消され
る方向に入力音声パターンを用いた音韻認識辞書の学習
(更新)が行われる。ここで上記相違部分は、正解音韻
系列情報中の音韻ラベル系列(正解ラベル系列)と最適
音韻系列情報中の音韻ラベル系列(最適ラベル系列)と
を比較することで抽出されるものであり、例えば最適ラ
ベル系列中で正解ラベル系列の正解音韻ラベルとは異な
る音韻ラベルが割り当てられている区間である。この区
間内の音声パターンを抽出して、音韻認識辞書の学習に
用いることで、上記相違部分が解消される方向への音韻
認識辞書の更新が可能となる。特に、音韻認識辞書が音
韻HMMの場合には、最適ラベル系列中で正解ラベル系
列とは異なる音韻ラベルが割り当てられている区間内の
音声パターンを、上記異なる音韻ラベルの音韻の音韻H
MMの平均ベクトルから差し引く処理を行うことで、今
後当該音声パターンと同様のパターンが出現した際に、
上記正解音韻ラベルの音声パターンとして扱われるよう
に更新できる。
【0016】このように本発明においては、最大事後確
率推定法を用いることにより、学習データが少量の場合
でも効果のある話者適応を実現でき、更に、正解ラベル
系列と最適ラベル系列の比較により、認識結果を考慮し
た競合学習をすることができるので、大量の音声データ
が存在する場合には、更なる認識性能の向上を実現する
ことができる。また、これにより、ユーザは学習データ
が少ないときも、多いときも最大限に適応機能の効果を
得ることができ、結果として、学習のための負担を大幅
に軽減することができる。
【0017】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図1は本発明の一実施形態に
係る音声認識装置の基本構成を示すブロック図である。
図1の音声認識装置(本装置)は、主として、音声入力
部11、音声分析部12、音韻ラベル系列決定部13、
適応部14、辞書格納部15、認識部16、認識語彙格
納部17、制御部18より構成されている。
【0018】本装置は、(1)話者適応モード、(2)
認識モードの2つのモードで作動される。このモード
は、ユーザによりキーボード、マウス等の入力手段を操
作することで選択指定される。制御部18は、ユーザか
らのモード指定を受け付け、その受け付けたモードでの
処理の実行を制御する。
【0019】ここで、上記2つのモードのうち、本発明
の特徴を表す(1)話者適応モードの処理について、図
2のフローチャートを適宜参照して説明する。まず話者
適応モードにおいて、ユーザ(特定話者)が音声を発声
すると、その音声が音声入力部11により所定のサンプ
リング周波数でA/D変換され、ディジタル時系列信号
の音声データに変換される。音声入力部11は、こうし
て得られた音声データに対して、固定時間(例えば8m
s:以後この単位をフレームと呼ぶ)毎に音声パワーを
計算し、パワーの時系列を用いて、発声された音声の始
終端の時刻を検出する。そして音声入力部11は、検出
した音声の始終端の時刻をもとに、その始終端区間内の
音声データを抽出し、音声分析部12に送る。
【0020】音声分析部12は、音声入力部11から送
られた始終端区間内の音声データを対象に、例えば高速
フーリエ変換(FFT)などを用いて周波数分析を行
い、音声データの時系列信号を周波数パラメータの時系
列データに変換する。ここでは、256ポイントの高速
フーリエ変換を行い、得られた128次元のパワースペ
クトルを、Barkスケールにより、16次元のバンド
パスフィルタ出力に圧縮して、各フレーム当たり16次
元の特徴ベクトルからなる音声パターンを生成してい
る。
【0021】音声分析部12により求められた音声パタ
ーン、即ち入力音声に対する周波数分析結果である周波
数パラメータの時系列データは、図示せぬ音声パターン
格納部に格納される。
【0022】以上により、特定話者がn種の単語につい
てm回発声した場合には、n種の単語について、それぞ
れm個の音声パターンが音声パターン格納部に格納され
ることになる。
【0023】さて、話者適応処理に必要な全ての入力音
声に対応する音声パターンの群が音声パターン格納部に
格納されると、制御部18により音韻ラベル系列決定部
13が起動される。すると音韻ラベル系列決定部13
は、以下に述べるように正解音韻系列情報及び最適音韻
系列情報を求める音韻ラベル系列決定処理を行う(ステ
ップS1)。
【0024】即ち音韻ラベル系列決定部13は、入力さ
れた音声に対応した既知の音韻系列(正解の音韻系列)
について、音声分析部12により得られた音声パターン
と辞書(認識辞書)格納部15に格納されている(当該
正解の音韻系列に対応する)音韻HMM(ここでは連続
HMM)とのビタビ(Viterbi )照合を行うことで、各
音韻の区間を求めると共に、区間中の各フレームが音韻
HMMのどの状態、どの混合度(どの混合番号の正規分
布)に対応するかを求め、音韻ラベル系列を含む正解音
韻系列情報として保持する。
【0025】また音韻ラベル系列決定部13は、それと
は別に、正解音韻系列を与えずに、上記音声パターンと
辞書格納部15に格納されている全ての音韻HMMとの
ビタビ照合により、最大スコア(尤度)を与える音韻系
列(以下、最適音韻系列と称する)及びその区間(音韻
区間)、各フレーム毎の音韻HMMの状態、混合度への
対応を求め、音韻ラベル系列を含む最適音韻系列情報と
して保持する。
【0026】このようにして音韻ラベル系列決定部13
により求められる正解音韻系列情報及び最適音韻系列情
報の一例を、入力音声が「わたし」、したがって音韻表
記が“WATASHI”である場合について図3及び図
4に示す。
【0027】音韻ラベル系列決定部13は、以上の処理
を音声分析部12により得られた全ての音声パターンに
ついて実行する。音韻ラベル系列決定部13による音韻
ラベル系列決定処理(ステップS1)が終了すると、適
応部14に制御が移る。適応部14は、音韻ラベル系列
決定部13により各音声パターン毎に求められた上記2
つの音韻系列情報を用いて、以下に述べる手順で音韻H
MMのパラメータの更新(学習)を行う。
【0028】まず適応部14は、正解音韻系列情報に基
づき、対応する正解音韻系列をなす各音韻の音韻HMM
(連続HMM)の各正規分布のパラメータ(平均ベクト
ルと分散)を学習の対象として最大事後確率推定法によ
り次のように更新する(ステップS2)。
【0029】即ち適応部14は、音韻(音韻カテゴリ)
kの音韻HMMの正規分布の平均ベクトルを次式 μk ′=(αμk +Σii )/(α+N) により更新し、同様に分散を次式 σk ′={Σii 2 −(α+N)μk2+βσk
αμk 2 }/(N+β) により更新する。
【0030】ここで、μk は更新前の平均ベクトル、μ
k ′は更新後の平均ベクトル、Nは学習に供する音声パ
ターン数、Xi は学習に供する音声パターン、σk は更
新前の分散、σk ′は更新後の分散、α及びβは更新係
数、Σii はN個の音声パターンXi の総和、Σi
i 2 はN個の音声パターンXi のそれぞれの平方値の総
和である。
【0031】上記の学習(更新)は、各音韻、各状態、
各混合度の全ての組み合わせについて行われる。したが
って、例えば音韻数100、各音韻HMMの状態数4、
混合数5の場合には、100×4×5=2000(個)
の正規分布の学習を行うことになる。但し、該当する分
布の学習に供する音声パターンが存在しない場合には、
その学習は行われない。
【0032】適応部14は、以上に述べた学習(更新)
処理、即ち正解音韻系列情報の示す正解音韻系列をなす
各音韻の音韻HMMを構成する各正規分布の平均ベクト
ル、分散を学習(更新)する処理(ステップS2)を終
了すると、平均ベクトルの追加学習処理を行う。この平
均ベクトルの追加学習処理につき、簡単のために各音韻
HMMは3状態、3混合度からなるものと仮定して図5
を参照して説明する。
【0033】ここでは、先に述べたように、「わたし」
という音声が学習用音声として入力されたとする。ま
た、この入力音声「わたし」の音韻表記である“W−A
−T−A−SH−I”という系列を音韻ラベル系列決定
部13での音韻HMMによるビタビ照合で入力音声「わ
たし」の音声パターンに当てはめた結果、図5において
符号51で示す正解音韻系列の例のような、当該系列を
なす各音韻(W,A,T,A,SH,I)の区間が(上
記ステップS1の処理で)求められたとする。
【0034】また、音韻ラベル系列決定部13にて、入
力音声「わたし」の音声パターンに対して最大スコアを
とる最適音韻系列を求めたところ、図5において符号5
2で示すような“W−A−H−T−A−SH−I”とい
う最適音韻系列及び当該系列をなす各音韻(W,A,
H,T,A,SH,I)の区間が(上記ステップS1の
処理で)求められたとする。
【0035】ここで、正解音韻系列51と最適音韻系列
52との間で、異なる音韻のラベル付けがなされている
区間は6区間あり、それぞれ区間a,b,c,d,e,
fとする。この区間a〜fのうちの例えば区間aは、正
解音韻系列51では音韻(ラベル)“W”に割り当てら
れているが、最適音韻系列52では“A”に割り当てら
れている。区間aは、図3から明らかなように、第5フ
レームと第6フレームの2フレームからなる。
【0036】さて適応部14は、上記ステップS2を終
了すると、まず処理対象とする(フレームのフレーム位
置を示す)フレーム番号jを初期値1に設定する(ステ
ップS3)。
【0037】次に適応部14は、(正解音韻系列情報に
含まれる)正解音韻系列51中の第jフレームの音韻ラ
ベルと(最適音韻系列情報に含まれる)最適音韻系列5
2中の第jフレームの音韻ラベルとを比較する(ステッ
プS4)。もし、両ラベルが異なっていないならば(ス
テップS5)、適応部14はフレーム番号jを1つ進め
た後(ステップS6)、ステップS4に戻る。
【0038】図3の例では、正解音韻系列51及び最適
音韻系列52の第1乃至第4フレームの音韻ラベルは、
いずれも“W”であり、一致している。一方、次の第5
フレーム及び第6フレームの音韻ラベル、即ち区間a内
の各フレームの音韻ラベルは、正解音韻系列51では
“W”であるのに対し、最適音韻系列52では“A”と
なっており、異なっている。
【0039】適応部14は、第5フレーム、或は第6フ
レームの例のように、第jフレームの音韻ラベルが正解
音韻系列51と最適音韻系列52とで異なっている場合
(ステップS4,S5)、最適音韻系列52中の第jフ
レームの音韻ラベル名、HMM状態番号、HMM混合番
号(図3の例の第5フレームの場合であれば、音韻ラベ
ル名=A、HMM状態番号=1、HMM混合番号=3)
と共に、第jフレームの音声パターンを保持する(ステ
ップS7)。
【0040】次に適応部14は、最終フレームの処理ま
で行われたか否かを判断し(ステップS8)、最終フレ
ームの処理まで行われていないならば、フレーム番号j
を1つ進めた後(ステップS6)、ステップS4に戻
る。
【0041】このようにして、上記ステップS4以降の
処理が繰り返され、最終フレームの処理まで行われると
(ステップS8)、適応部14は、それまで保持してお
いた、(正解音韻系列情報中の)正解音韻系列51と
(最適音韻系列情報中の)最適音韻系列52との間で音
韻ラベルが異なっているフレームの音声パターンを用い
て、対応する音韻HMM中の対応する状態番号、混合番
号の正規分布の平均ベクトルを更新し、辞書格納部15
に格納し直す(ステップS9)。
【0042】このステップS9での平均ベクトル更新処
理の詳細を以下に述べる。上記区間aを例にとると、こ
の区間aは正解音韻系列51では“W”に割り当てられ
ているが、最適音韻系列52では“A”に割り当てられ
ている。この区間aは、本来“A”ではなくて“W”と
見なされるべき区間である。
【0043】そこで本実施形態では、今後区間a内の音
声パターンと同様のパターンが出現した際に、“A”の
パターンとはならないようにするために、以下の式のよ
うに、当該区間a内の音声パターンを“A”の音韻HM
Mの平均ベクトルから差し引く処理(平均ベクトル更新
処理)を行う。
【0044】 μk ″=μk ′+(γ/N){Σi (Xi −μk ′)} ここで、μk ′は更新前の平均ベクトル、μk ″は更新
後の平均ベクトル、γは更新係数(負の値)、Xi は学
習に供する音声パターン、Nは学習に供する音声パター
ンの数、kは音韻カテゴリ、Σi (Xi −μk ′)はN
個の音声パターンXi についてのXi −μk ′の総和を
表す。
【0045】こうして平均ベクトルが更新された音韻H
MMは、前記したように辞書格納部15に格納し直さ
れ、認識処理に供される。以上のように、各音韻HMM
の平均ベクトル及び分散を、特定話者の発声した音声を
用いて更新(学習)することにより、音韻HMMを話者
に適応させることができ、認識性能を向上させることが
できる。この音韻HMMのパラメータの更新(学習)手
法(話者適応方法)を音声認識装置に適用した場合にお
ける認識性能の向上を500単語認識実験(話者は男性
3名)で確認した結果(学習に供する音声データ数に対
する各特定話者毎の認識率の平均値)を、図6に実線で
示す。また、参考までに、最大事後確率推定法のみを用
いた場合について破線で示す。図5において、横軸は学
習に供する音声データ数、縦軸は認識率である。
【0046】図5から明らかなように、本実施形態で適
用した方法の方が、最大事後確率推定法のみを用いた場
合よりも、学習データが少ないときでも高い認識性能を
示し、しかも学習データ数の増加に伴う認識性能の飽和
も起こっていない。
【0047】さて、図2のフローチャート(中のステッ
プS1〜S9)に従うHMMパラメータ(中の平均ベク
トル及び分散)の更新の結果、例えば認識性能が所定比
率以上上昇したならば、一連の話者適応処理は終了とな
る(ステップS10)。これに対し、認識性能の上昇率
が所定比率に達していないならば、ステップS1以降の
処理が再度行われる。なお、話者適応処理の終了の条件
として、認識性能の上昇率ではなくて、処理回数(ステ
ップS1〜S9の処理を繰り返す回数)を用いても構わ
ない。
【0048】次に、認識モードでの処理について説明す
る。なお、認識モードは本発明に直接関係するものでは
ない。そのためここでは、一般に行われる認識処理を例
に簡単に説明する。
【0049】認識モードにおける音声入力部11及び音
声分析部12の処理は、上述した話者適応モードと同様
であり、音声分析部12では、入力音声の特徴を表す音
声パターンが取得される。
【0050】音声分析部12により得られた入力音声の
音声パターンは、認識部16に送られる。認識部16
は、認識語彙格納部17に格納された各語彙毎に、辞書
格納部15内の音韻HMMを用いて音声パターンとのビ
タビ照合を行い、スコア(尤度)を求める。ここで例え
ば、認識語彙が単語の場合には、認識部16は単語を構
成する音韻列に従って対応する音韻HMMを連結して単
語HMMを構成し、各単語HMM毎に音声パターンとの
照合を行う。このようにして認識部16は、全ての語彙
についてスコアを求めた後、最大スコアをとる語彙を認
識結果として出力する。
【0051】以上に述べた図1の構成の音声認識装置の
各部の機能は、コンピュータ、例えば内蔵型マイクロホ
ンが組み込まれた、或いはマイクロホン入力端子が設け
られた音声入力機能を持つ図7に示すパーソナルコンピ
ュータ70を、主として音声分析部12、音韻ラベル系
列決定部13、適応部14、認識部16、及び制御部1
8として機能させるためのプログラムを記録した記録媒
体、例えばフロッピーディスク(FD)71を用い、当
該フロッピーディスク71をパーソナルコンピュータ7
0に装着して、当該フロッピーディスク71に記録され
ているプログラムをパーソナルコンピュータ70で読み
取り実行させることにより実現される。
【0052】なお、以上の実施形態で述べた音声分析条
件や、図5で示した音韻系列は単なる例であり、この内
容に限るものではない。この他、本発明は前記実施形態
に限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。
【0053】
【発明の効果】以上詳記したように本発明によれば、最
大事後確率推定法を用いているので、学習データが少量
の場合でも、話者適応の効果が顕著であり、更に、最適
音韻系列と正解音韻系列の競合学習を併用しているの
で、最大事後確率推定法のみを用いる場合に比べて、学
習データが増えても収束することなく、認識性能の一層
の向上が期待できる。また、これにより、ユーザは一度
に大量の音声を発声することなく、状況により、話者適
応用音声データの発声を制御できるので、適応に対する
ユーザの負担を軽減することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の基本
構成を示すブロック図。
【図2】同実施形態における話者適応モードの処理を説
明するためのフローチャート。
【図3】図1中の音韻ラベル系列決定部13により求め
られる正解音韻系列情報及び最適音韻系列情報の一例の
一部を示す図。
【図4】図1中の音韻ラベル系列決定部13により求め
られる正解音韻系列情報及び最適音韻系列情報の一例の
他の一部を示す図。
【図5】正解音韻系列と最適音韻系列とで異なる音韻ラ
ベルが割り当てられている区間を示す図。
【図6】同実施形態で適用した話者適応方法の効果を最
大事後確率推定法のみを用いた場合と対比させて示す
図。
【図7】図1の音声認識装置を実現するパーソナルコン
ピュータの外観を示す図。
【符号の説明】
11…音声入力部 12…音声分析部 13…音韻ラベル系列決定部(音韻系列情報決定手段) 14…適応部(第1の適応学習手段、第2の適応学習手
段) 15…辞書格納部 16…認識部 17…認識語彙格納部 18…制御部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 発声された音声を入力する音声入力手段
    と、前記音声入力手段により入力された音声を分析して
    その特徴を表す音声パターンを得る音声分析手段と、音
    韻毎の照合に用いられる認識辞書の群を格納しておく辞
    書格納手段と、認識モードにおいて、前記音声分析手段
    により得られた音声パターンの認識処理を前記辞書格納
    手段内の認識辞書を利用して実行する認識手段とを備え
    た音声認識装置において、 話者適応モードにおいて、特定話者の入力音声に対応し
    た既知の音韻系列について、前記音声分析手段により当
    該入力音声から得られた音声パターンと前記辞書格納手
    段内の対応する認識辞書との照合を行うことで照合結果
    の情報を含む正解音韻系列情報を抽出すると共に、前記
    音声パターンと前記辞書格納手段内の全ての認識辞書と
    の照合を行うことで、最大尤度を与える音韻系列に関す
    る照合結果の情報を含む最適音韻系列情報を抽出する音
    韻系列情報決定手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報に従い、最大事後確率推定法により前記辞書
    格納手段内の該当する認識辞書の学習を行う第1の適応
    学習手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報及び前記最適音韻系列情報を比較してその相
    違部分を抽出し、その相違部分が解消される方向に前記
    音声分析手段により得られた音声パターンを用いて前記
    辞書格納手段内の該当する認識辞書の学習を行う第2の
    適応学習手段とを具備することを特徴とする音声認識装
    置。
  2. 【請求項2】 発声された音声を入力する音声入力手段
    と、前記音声入力手段により入力された音声を分析して
    その特徴を表す音声パターンを得る音声分析手段と、音
    韻毎の照合に用いられる音韻HMMの群を格納しておく
    辞書格納手段と、認識モードにおいて、前記音声分析手
    段により得られた音声パターンの認識処理を前記辞書格
    納手段内の音韻HMMを利用して実行する認識手段とを
    備えた音声認識装置において、 話者適応モードにおいて、特定話者の入力音声に対応し
    た既知の音韻系列について、前記音声分析手段により当
    該入力音声から得られた音声パターンと前記辞書格納手
    段内の対応する音韻HMMとの照合を行うことで音韻ラ
    ベル系列を含む正解音韻系列情報を抽出すると共に、前
    記音声パターンと前記辞書格納手段内の全ての音韻HM
    Mとの照合を行うことで、最大尤度を与える音韻系列に
    関する音韻ラベル系列を含む最適音韻系列情報を抽出す
    る音韻系列情報決定手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報に従い、最大事後確率推定法により前記辞書
    格納手段内の該当する音韻HMMのパラメータの学習を
    行う第1の適応学習手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報中の音韻ラベル系列と前記最適音韻系列情報
    中の音韻ラベル系列とを比較して、前記音声分析手段に
    より得られた音声パターンの中から正解音韻ラベルとは
    異なる音韻ラベルが割り当てられている音声パターンを
    抽出し、その音声パターンを用いて前記音韻ラベルの相
    違部分が解消される方向に前記辞書格納手段内の該当す
    るHMMのパラメータの学習を行う第2の適応学習手段
    とを具備することを特徴とする音声認識装置。
  3. 【請求項3】 発声された音声を入力する音声入力手段
    と、前記音声入力手段により入力された音声を分析して
    その特徴を表す音声パターンを得る音声分析手段と、平
    均ベクトルと分散からなる正規分布のパラメータを含む
    音韻HMMの群を格納しておく辞書格納手段と、認識モ
    ードにおいて、前記音声分析手段により得られた音声パ
    ターンの認識処理を前記辞書記格納段内の音韻HMMを
    利用して実行する認識手段とを備えた音声認識装置にお
    いて、 話者適応モードにおいて、特定話者の入力音声に対応し
    た既知の音韻系列について、前記音声分析手段により当
    該入力音声から得られた音声パターンと前記辞書格納手
    段内の対応する音韻HMMとの照合を行うことで音韻ラ
    ベル系列を含む正解音韻系列情報を抽出すると共に、前
    記音声パターンと前記辞書格納手段内の全ての音韻HM
    Mとの照合を行うことで、最大尤度を与える音韻系列に
    関する音韻ラベル系列を含む最適音韻系列情報を抽出す
    る音韻系列情報決定手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報に従い、最大事後確率推定法により前記辞書
    格納手段内の該当する音韻HMMの前記平均ベクトル及
    び分散の学習を行う第1の適応学習手段と、 前記音韻系列情報決定手段により抽出された前記正解音
    韻系列情報中の音韻ラベル系列と前記最適音韻系列情報
    中の音韻ラベル系列とを比較して、前記音声分析手段に
    より得られた音声パターンの中から正解音韻ラベルとは
    異なる音韻ラベルが割り当てられている音声パターンを
    抽出し、その音声パターンを当該音韻ラベルに対応する
    前記辞書格納手段内の音韻HMMの平均ベクトルから差
    し引く第2の適応学習手段とを具備することを特徴とす
    る音声認識装置。
  4. 【請求項4】 入力音声を分析して得られる当該入力音
    声の特徴を表す音声パターンの認識処理のために辞書格
    納手段に格納されている音韻毎の照合用の認識辞書の群
    を特定話者に適応するように学習するための話者適応方
    法において、 特定話者の入力音声に対応した既知の音韻系列につい
    て、当該入力音声の音声パターンと前記辞書格納手段内
    の対応する認識辞書との照合を行うことで照合結果の情
    報を含む正解音韻系列情報を抽出すると共に、前記音声
    パターンと前記辞書格納手段内の全ての認識辞書との照
    合を行うことで、最大尤度を与える音韻系列に関する照
    合結果の情報を含む最適音韻系列情報を抽出する第1の
    ステップと、 前記第1のステップで抽出した前記正解音韻系列情報に
    従い、最大事後確率推定法により前記辞書格納手段内の
    該当する認識辞書の学習を行う第2のステップと、 前記第1のステップで抽出した前記正解音韻系列情報及
    び前記最適音韻系列情報を比較してその相違部分を抽出
    し、その相違部分が解消される方向に前記音声パターン
    を用いて前記辞書格納手段内の該当する認識辞書の学習
    を行う第3のステップとを具備することを特徴とする話
    者適応方法。
JP9009777A 1997-01-22 1997-01-22 音声認識装置及び話者適応方法 Pending JPH10207485A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9009777A JPH10207485A (ja) 1997-01-22 1997-01-22 音声認識装置及び話者適応方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9009777A JPH10207485A (ja) 1997-01-22 1997-01-22 音声認識装置及び話者適応方法

Publications (1)

Publication Number Publication Date
JPH10207485A true JPH10207485A (ja) 1998-08-07

Family

ID=11729683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9009777A Pending JPH10207485A (ja) 1997-01-22 1997-01-22 音声認識装置及び話者適応方法

Country Status (1)

Country Link
JP (1) JPH10207485A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004512544A (ja) * 2000-04-05 2004-04-22 スキャンソフト・インク 連続音声認識における識別訓練された混合モデル
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100574769B1 (ko) * 1998-04-30 2006-04-28 마쯔시다덴기산교 가부시키가이샤 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2004512544A (ja) * 2000-04-05 2004-04-22 スキャンソフト・インク 連続音声認識における識別訓練された混合モデル
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN108389576B (zh) * 2018-01-10 2020-09-01 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统

Similar Documents

Publication Publication Date Title
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
JP3683177B2 (ja) 音声認識のための文脈依存モデルの作成方法
US6330536B1 (en) Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
EP2189976A1 (en) Method for adapting a codebook for speech recognition
US6895376B2 (en) Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
EP1022725A1 (en) Selection of acoustic models using speaker verification
JP2955297B2 (ja) 音声認識システム
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
CN112599121A (zh) 基于辅助数据正则化的说话人自适应方法
JPH10207485A (ja) 音声認識装置及び話者適応方法
JP3039399B2 (ja) 非母国語音声認識装置
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2923243B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
JP3105708B2 (ja) 音声認識装置
Tang et al. Deep neural network trained with speaker representation for speaker normalization
JPH0822296A (ja) パターン認識方法
JPH10254485A (ja) 話者正規化装置、話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060509