JP3961780B2 - 言語モデル学習装置およびそれを用いた音声認識装置 - Google Patents

言語モデル学習装置およびそれを用いた音声認識装置 Download PDF

Info

Publication number
JP3961780B2
JP3961780B2 JP2001144885A JP2001144885A JP3961780B2 JP 3961780 B2 JP3961780 B2 JP 3961780B2 JP 2001144885 A JP2001144885 A JP 2001144885A JP 2001144885 A JP2001144885 A JP 2001144885A JP 3961780 B2 JP3961780 B2 JP 3961780B2
Authority
JP
Japan
Prior art keywords
word
language model
task
language
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001144885A
Other languages
English (en)
Other versions
JP2002342323A (ja
Inventor
洋平 岡登
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001144885A priority Critical patent/JP3961780B2/ja
Publication of JP2002342323A publication Critical patent/JP2002342323A/ja
Application granted granted Critical
Publication of JP3961780B2 publication Critical patent/JP3961780B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、確率的言語モデルを用いた言語モデル学習装置およびそれを用いた音声認識装置に関するものである。
【0002】
【従来の技術】
一般に、音声認識においては、通常、ディジタル化されて入力される音声信号の処理手法を用いて、音声の音響的特徴をよく表すベクトルの時系列に変換した後、音声モデルとの照合処理が行われる。
【0003】
照合処理とは、K個の時刻フレームからなる音響特徴ベクトル時系列A(=[a1,a2,・・・,aK])に基づいて、発声された単語列W(=[w1,w2,・・・,wM]、(Mは単語数))を求める問題に相当する。
【0004】
上記照合処理において、認識精度が最も高くなるような単語列Wを推定するためには、出現確率P(W|A)が最大となる認識単語列W*を、以下の(1)式により求めればよい。
【0005】
【数1】
Figure 0003961780
【0006】
ただし、(1)式において、出現確率P(W|A)を直接求めることは、通常困難である。そこで、出現確率P(W|A)は、ベイズの定理を用いて、以下の(2)式のように書き換えられる。
【0007】
【数2】
Figure 0003961780
【0008】
ここで、(2)式の左辺を最大化する単語列Wを求める際、右辺の分母P(A)は、認識候補となる単語列Wに影響を与えないので、右辺の分子を最大化する単語列Wを求めればよい。すなわち、認識単語列W*は、以下の(3)式のように表される。
【0009】
【数3】
Figure 0003961780
【0010】
ここで、(3)式内のP(W)を与える確率モデル、P(A|W)を与える確率モデルを、それぞれ、言語モデル、音響モデルと呼ぶ。
音声認識において、近年盛んに検討されているモデル化方法としては、音響モデルを「隠れマルコフモデル」で表現し、言語モデルを「確率言語モデル」で表現するものが知られている。
【0011】
これらのモデル化方法の詳細は、たとえば、「音声認識の基礎(上、下)」(L.R.RABINER、B.H.JUANG、古井監訳、1995年、11月、NTTアドバンステクノロジ)(以下、「文献1」と称する)、または「確率的言語モデル」(北研二、東京大学出版会)(以下、「文献2」と称する)などに記されている。
【0012】
これらの方法において、確率モデルを構成するパラメータは、大量のデータから統計的に推定される。
すなわち、音響モデルの構築においては、あらかじめ多数の話者からの単語や文などの音声データを収集し、統計的手法を利用して認識精度や認識精度と良好に関連した指標が向上するように推定が行われる。
【0013】
たとえば、バウム・ウェルチアルゴリズムを用いて、学習データに対して尤度が大きくなるように、音響モデルを構成する「隠れマルコフモデル」のパラメータを推定する。
音響モデルの推定方法は、上記文献1の下巻に詳述されている。
【0014】
同様に、言語モデルの構築においては、新聞や会話の書き起こしなどのテキストから、言語モデルの構造にしたがって、それぞれの発話や発話を構成する単語の出現する確率を計算する。
【0015】
言語モデルの構造としては、直前の単語に関する「n−1重マルコフモデル」を用いて、後続する単語の出現確率を予想する「Nグラム言語モデル」や「確率文脈自由文法」、または、それらの組み合わせなどがよく適用される。
【0016】
特に、Nグラム言語モデルは、効果的であるうえ、パラメータ推定手段が容易に実現可能であることから、広く用いられている。
そこで、以下の説明では、Nグラム言語モデルを例にとって、言語モデルの構築について説明する。
【0017】
たとえば、Nグラム言語モデルにおいて、N=2としたとき(バイグラム言語モデルと呼ばれる)、上記(3)式内のP(W)は、以下の(4)式のように近似される。
【0018】
【数4】
Figure 0003961780
【0019】
Nグラム言語モデルのパラメータとなる条件つき確率P(wN|w1,・・・,wN-1)は、学習用テキストデータ内の隣接する単語列の頻度C(w1,・・・,wN)から、以下の(5)式のように推定される。
【0020】
【数5】
Figure 0003961780
【0021】
しかし、単語の条件付き出現確率を、単純に上記(5)式のように推定すると、学習データに存在しない単語列を含む場合、文の出現確率は「0」になってしまう。
【0022】
このような状態を防ぐため、学習用テキストに出現しない単語列に対して非零の(「0」でない)確率を割り当てる処理(一般に、「スムージング」と呼ばれる)が行われる。
【0023】
最も一般的なスムージング方法としては、Katzが提案した「バックオフスムージング」があげられる。
バックオフスムージングにおいては、上記(5)式で推定される確率から、頻度に応じて一定の割合を除き(ディスカウンティングを実行し)、学習データで出現しなかった単語列に確率が割り当てられる。
【0024】
学習データで出現しなかった単語列に割り当てられる条件付き確率には、さらに大雑把な言語モデルによって推定された値が用いられる。
上記Katzによる方法では、Nグラムよりも粗いモデルとして、N−1グラムが用いられる。この方法の詳細については、上記文献2の第67頁に示されている。
【0025】
なお、日本語の場合には、テキストが分かち書きされないので、単語の定義があいまいである。そこで本文では、何らかの手段でテキストを整合性のある部分に分割したものを、それぞれ、単語と定義する。
【0026】
すなわち、単語とは、たとえば文字や形態素、文節などの言語的な単位や、エントロピー基準に基づいたテキストの分割、ならびに、これらの組み合わせなどであり、これら分割された単位に読み方や品詞などの言語情報が付加された場合を含む。
【0027】
上記統計的手法を用いた言語モデルの構築においては、言語モデルのパラメータを推定するために、大量の音声データおよびテキストデータが必要となる。
特に、Nグラム言語モデルは、学習データに強く依存するので、対象とするタスク(以下、「対象タスク」と称する)毎に大量のデータ収集が必要である。
【0028】
しかし、タスク毎に大量のテキストデータを収集することは困難であり、対象タスクに関する少量のテキストデータから言語モデルを構築できることが望ましいので、クラス言語モデルの利用や、タスク適応化などが行われる。
【0029】
クラス言語モデルとは、類似した単語をまとめ、同一のクラス(グループ)として扱われるものであり、言語モデルの推定パラメータ数を削減したり、学習データに存在しない単語に適当な確率を割り当てるものである。
【0030】
単語とクラスとの関係定義は、単語やタスクに応じて人手で決定されたり、データに基づいて決定され、Nグラム言語モデルであっても適用可能である。
【0031】
たとえば、バイグラムクラス言語モデルにおける文の出現確率は、
(1)クラス間の遷移確率P(ci|ci-1)と、
(2)クラス内から特定の単語が選択される確率P(wi|ci)と
の積として、以下の(6)式のように定義される。
【0032】
【数6】
Figure 0003961780
【0033】
たとえば、1000単語を各10単語からなる100のクラスに分割した場合を考える。このとき、単語バイグラム言語モデルの場合での推定パラメータ数は、10002(=1000000)である。
【0034】
これに対して、クラスバイグラム言語モデルの場合での推定パラメータ数は、(1)クラス間の遷移と、
(2)クラスと単語との写像と
の和として表され、1002+100×10(=11000)に減少する。
【0035】
単語とクラスとの対応関係は、人手で決定されてもよく、言語データから単語クラスタリングを実行して求めてもよい。
図20はクラス定義の一例を示す説明図である。図20において、単語wと、単語wが所属するクラスcと、単語wが所属するクラスcから出力される確率P(w|c)とが記述されている。
【0036】
クラスNグラム言語モデルのうち、クラス間遷移モデルの推定は、通常の単語Nグラムの場合と同様である。
クラスNグラム言語モデルの構築方法に関しては、上記文献2の第72頁以降に詳述されている。
【0037】
一方、タスク適応化とは、対象タスク以外のテキストデータを合わせて利用し、学習データの不足を補うものである。
ここでは、対象タスク以外のタスクを含むテキストデータを一般タスク言語データと呼ぶことにする。
【0038】
タスク適応化に関しては、「N−gramのタスク適応における語彙の設定法の検討」(伊藤彰則、好田正紀、電子情報通信学会研究技術報告、第51−58頁、SP97−25、1997)(以下、文献3と称する)で述べられている方法が提案されている。
【0039】
この方法は、Nグラム言語モデルを対象として、対象タスクと一般タスクとの学習データを重みづけして加えることにより、タスク適応を行うというものである。
【0040】
図21は上記文献3で述べられている音声認識用の言語モデル構築方法を適用した装置を概略的に示すブロック構成図である。
図21において、100はタスク適応化済みの言語モデルを生成する言語モデル推定手段である。
【0041】
101は対象タスク言語データであり、対象タスクのテキストデータを集積し、対象タスクで認識すべき文を表すテキストを単語に分割している。
102は一般タスク言語データであり、対象タスク以外のタスクを含む一般タスクのテキストデータを集積し、一般タスクに含まれる文を表すテキストを単語に分割している。
【0042】
言語モデル推定手段100は、対象タスク言語データ101および一般タスク言語データ102を読み込み、それぞれ適当な重み付け処理を施して、単語列の頻度を数え上げ、統計的手法を用いて言語モデルのパラメータを推定する。
【0043】
重み付け処理は、それぞれの入力について与えられる。
たとえば、「私、は」という単語列が対象タスクで2回、一般タスクで4回出現したとして、対象タスクの頻度重みが「3」、一般タスクの頻度重みが「1」であれば、単語列「私、は」の頻度は、「10(=3×2+1×4)」と見積もられる。
【0044】
なお、重み付け係数は、整数でなくてもよい。
また、数え上げの際、必要であれば、頻度が小さい単語は取り除き、取り除いた確率を認識に必要な単語に等確率で再配分することができる。
【0045】
こうして得られた頻度情報「10」から、たとえばKatzのバックオフスムージング法により、既知および未知の単語列について確率を推定する。
なお、頻度重みの決定は、たとえば最終的に得られる言語モデルのテストデータに対する出現確率を高めるように、削除推定法を用いて定めることができる。
また、削除推定法については、上記文献2の第49頁に述べられている。
【0046】
次に、図22のフローチャートを参照しながら、図21に示した従来装置および従来方法に基づくタスク適応による言語モデルの学習手順について説明する。
まず、言語モデル推定手段100は、重みパラメータ保存手段(図示せず)から、入力に対する重みパラメータを読み込む(ステップS2201)。
【0047】
次に、対象タスク言語データ101および一般タスク言語データ102から単語に区切られた学習用テキストを読み込み、重みパラメータにしたがって重み付けされたn単語以下の単語列の頻度を求める(ステップS2202)。
【0048】
最後に、たとえばKatzのバックオフスムージング法を用いたスムージングを実行して、言語モデルのパラメータを推定し(ステップS2203)、図22の処理ルーチンを終了する。
【0049】
上記手法は、一般タスク言語データ102のテキストデータを合わせて利用することにより、対象タスクに関する少量の学習データから取得困難な多彩な表現を表す単語列の出現確率を、さらに妥当に推定することができる。
【0050】
また、同時に、対象タスク言語データ101に重み付けすることにより、対象タスクのコーパスに出現した単語列に対して、さらに大きい確率を与えることができ、認識精度を向上させることができる。
【0051】
しかしながら、上記言語モデルのタスク適応化方法では、対象タスクで固有の単語や一般タスクで出現した単語列の出現確率を良好に推定できるものの、対象タスクに特有の単語と一般タスクで出現した単語との組み合わせを考慮していないので、対象タスクのテキストデータが少ないときには、対象タスク特有の単語の周辺で言語モデルのパラメータ推定精度が悪化するという問題がある。
【0052】
たとえば、対象タスクがホテル予約業務であって、類似したホテル以外の予約業務タスクで発声されたテキストデータを一般タスク言語データ102として利用する場合を考える。
【0053】
この場合、「それ、を、お願い」といった予約業務一般で出現する単語列や、「ホテル」という対象タスク特有の単語は、それぞれ、一般タスク言語データ102および対象タスク言語データ101から、頻度に応じて出現確率が見積もられる。
【0054】
しかし、単語の組み合わせの種類数が非常に大きいので、対象タスクのテキストデータが少量である場合、「ホテル、を、お願い」といった対象タスク特有の単語を含む単語列は、十分にテキストデータでカバーされていないことが多い。
【0055】
この結果、単語列に不適切な出現確率が割り当てられてしまい、認識精度が低下するおそれがある。
特に、対象タスク特有の単語は、タスクを遂行するうえで重要な場合が多く、これらの単語周辺における認識精度の低下は、システム全体の性能に大きな影響をおよぼす可能性が高い。
【0056】
【発明が解決しようとする課題】
従来の言語モデル学習装置およびそれを用いた音声認識装置は以上のように、対象タスクに特有の単語と一般タスクで出現した単語との組み合わせを考慮していないので、対象タスクのテキストデータが少ない場合に、対象タスク特有の単語の周辺で言語モデルのパラメータ推定精度が悪化してしまい、システム全体の性能に悪影響をおよぼすという問題点があった。
【0057】
この発明は上記のような問題点を解決するためになされたもので、対象タスクに固有の単語と一般タスクのデータとから類似する単語を求め、タスク固有の単語を含む単語列の出現確率の推定に利用することにより、認識精度を高めた言語モデル学習装置およびそれを用いた音声認識装置を得ることを目的とする。
【0058】
【課題を解決するための手段】
この発明の請求項1に係る言語モデル学習装置は、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、タスク適応化済み言語モデルを構築するための、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、類似単語対抽出手段は、対象タスク言語データおよび一般タスク言語データから各テキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語列合成手段は、各テキストデータを読み込むとともに、類似単語対抽出手段から類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、言語モデル生成手段は、各テキストデータを読み込むとともに、類似単語列合成手段から単語列を読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、タスク適応化済み言語モデルを生成するものである。
【0059】
また、この発明の請求項2に係る言語モデル学習装置は、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段および言語モデル生成手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、言語モデル生成手段は、第1および第2のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、言語モデルを生成するものである。
【0060】
また、この発明の請求項3に係る言語モデル学習装置は、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、類似単語対抽出手段は、第1および第2のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語列合成手段は、第1および第2のテキストデータを読み込むとともに、類似単語対抽出手段から類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、言語モデル生成手段は、第1および第2のテキストデータを読み込むとともに、類似単語列合成手段から単語列を読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、タスク適応化済み言語モデルを生成するものである。
【0061】
また、この発明の請求項4に係る言語モデル学習装置は、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、事前に準備したテキストデータを用いて作成された初期言語モデルと、対象タスク言語データ、一般タスク言語データおよび初期言語モデルから、タスク適応化済み統計的言語モデルを構築するための、類似単語対抽出手段および類似単語確率補正手段とを備え、類似単語対抽出手段は、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語確率補正手段は、類似単語対抽出手段から類似単語対を読み込むとともに、初期言語モデルを読み込み、対象タスクで出現する単語の出現確率のスムージングを行うことにより、タスク適応化済み統計的言語モデルを生成するものである。
【0062】
また、この発明の請求項5に係る言語モデル学習装置は、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、あらかじめ作成された初期クラス言語モデルと、対象タスク言語データ、一般タスク言語データおよび初期クラス言語モデルから、タスク適応化済みクラス言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段および類似単語確率補正手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、類似単語対抽出手段は、第1および第2のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語確率補正手段は、類似単語対抽出手段から類似単語対を読み込むとともに、初期クラス言語モデルを読み込み、対象タスクで出現する単語の出現確率のスムージングを行うことにより、タスク適応化済みクラス言語モデルを生成するものである。
【0063】
また、この発明の請求項6に係る言語モデル学習装置は、請求項1または請求項4において、類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデル生成手段は、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、統計的単語間距離算出手段は、距離算出用言語モデル生成手段から統計的言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、統計的言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するものである。
【0064】
また、この発明の請求項7に係る言語モデル学習装置は、請求項1または請求項4において、類似単語抽出手段は、距離算出用言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデルは、事前に準備したテキストデータを用いて作成されており、統計的単語間距離算出手段は、距離算出用言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、距離算出用言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するものである。
【0065】
また、この発明の請求項8に係る言語モデル学習装置は、請求項3または請求項5において、類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデル生成手段は、対象タスク単語クラス化手段および一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、統計的単語間距離算出手段は、距離算出用言語モデル生成手段から統計的言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、統計的言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するものである。
【0066】
また、この発明の請求項9に係る言語モデル学習装置は、請求項3または請求項5において、類似単語抽出手段は、距離算出用クラス言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用クラス言語モデルは、事前に準備したテキストデータを用いて作成されており、統計的単語間距離算出手段は、距離算出用クラス言語モデルを読み込むとともに、対象タスク単語クラス化手段および一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、各テキストデータから抽出した単語からなる単語対について、距離算出用クラス言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するものである。
【0067】
また、この発明の請求項10に係る言語モデル学習装置は、請求項6から請求項9までのいずれかにおいて、統計的単語間距離算出手段は、Nグラム言語モデル上のユークリッド距離を用いて、単語間距離を測定するものである。
【0068】
また、この発明の請求項11に係る言語モデル学習装置は、請求項6から請求項9までのいずれかにおいて、統計的単語間距離算出手段は、Nグラム言語モデル上のクロスエントロピーを用いて、単語間距離を測定するものである。
【0069】
また、この発明の請求項12に係る音声認識装置は、請求項1から請求項11までのいずれかの言語モデル学習装置を用いた音声認識装置であって、言語モデルまたはクラス言語モデルは、音声認識に用いられるものである。
【0084】
【発明の実施の形態】
実施の形態1.
以下、図面を参照しながら、この発明の実施の形態1について詳細に説明する。ここでは、Nグラム言語モデルを例にとって説明するが、任意の統計的言語モデルに対して適用可能であることは言うまでもない。
【0085】
図1はこの発明の実施の形態1による言語モデル学習装置を概略的に示すブロック構成図であり、音声認識用の言語モデル学習装置の構成例を示している。
図1において、101は対象タスクにおける単語に分割された対象タスク言語データ、102は一般タスクにおける単語に分割された一般タスク言語データであり、これらは前述(図21参照)と同様のものである。
【0086】
103は類似単語対抽出手段、104は類似単語列合成手段、105は言語モデル生成手段であり、これらの手段103〜105は、対象タスク言語データ101および一般タスク言語データ102と関連して、タスク適応化済み言語モデルを生成する。
【0087】
言語モデル生成手段105は、前述の言語モデル推定手段100に対応しており、タスク適応化済み言語モデルを生成する。
類似単語対抽出手段103および類似単語列合成手段104は、前述の従来装置とは異なり、この発明の特徴的な部分を構成している。
【0088】
すなわち、各手段103および104により、対象タスク固有の単語について類似した一般タスクの単語を求め、学習テキスト中の一般タスクの単語を類似する対象タスクの単語で置き換えた単語列を合成して、言語モデルの学習テキストに追加することにより、言語モデル構築の際に、対象タスクのテキストデータが少量であっても、認識精度を高めることができるようになっている。
【0089】
以下、図1内の各手段103〜105の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
ただし、前述と同様の機能ブロックおよびモデルについては、同一符号を付して詳述を省略する。
【0090】
まず、類似単語対抽出手段103は、対象タスク言語データ101に含まれる単語wTと、一般タスク言語データ102に含まれる単語wGとの任意の組み合わせ(wT,wG)について、あらかじめ定義された距離尺度に基づき、単語間の距離を計算する。
【0091】
このとき、類似単語対抽出手段103は、単語間距離の算出値があらかじめ設定されたしきい値thよりも小さい場合に、その類似単語対(wT,wG)を類似単語列合成手段104に出力する。
【0092】
単語間の距離d(wT,wG)は、たとえば、あらかじめ各単語と対応する意味分類を概念の広さにしたがって木構造にしておき、各単語が対応する意味ノード間のアーク数を距離として用いることにより得られる。
【0093】
次に、類似単語列合成手段104は、対象タスク言語データ101および一般タスク言語データ102に含まれる任意の長さの単語列を別々に取り出すとともに、類似単語対抽出手段103から読み込んだ類似単語対(wT,wG)を参照し、対象タスクの単語列のそれぞれについて、一般タスク内の単語wGが含まれるか否かを判定する。
【0094】
この結果、一般タスク内の単語wGを含む単語列「・・・wG・・・」が存在する場合には、続いて、一般タスク内の単語wGを対象タスク内の単語wTで置き換えた単語列「・・・wT・・・」が、一般タスクまたは対象タスクのデータに存在するか否かを判定する。
【0095】
この結果、単語列「・・・wT・・・」が一般タスクまたは対象タスクのデータに存在しない場合、類似単語列合成手段104は、一般タスクの単語wGを対象タスクの単語wTで置き換えた単語列「・・・wT・・・」を合成し、言語モデル生成手段105に出力する。
【0096】
最後に、言語モデル生成手段105は、対象タスク言語データ101、一般タスク言語データ102および類似単語列合成手段104から、それぞれテキストデータを読み込み、入力される頻度にそれぞれ適当な重みをつけて単語列の頻度を求め、統計的手法を用いて言語モデルのパラメータを推定することにより、タスク適応化済みの言語モデルを生成する。
【0097】
次に、図2のフローチャートを参照しながら、図1に示したこの発明の実施の形態1に基づくタスク適応による言語モデルの学習手順について、さらに具体的に説明する。
【0098】
図2において、ステップS201〜S203は類似単語対抽出手段103により実行される処理、ステップS204〜S208は類似単語列合成手段104により実行される処理、ステップS209〜S211は言語モデル生成手段105により実行される処理である。
【0099】
まず、類似単語対抽出手段103は、対象タスク言語データ101および一般タスク言語データ102から、単語に区切られた学習用テキストを読み込み、単語対(wT,wG)を作成する(ステップS201)。
【0100】
また、対象タスク言語データ101に含まれる単語wTと、一般タスク言語データ102に含まれる単語wG(単語wTとは異なる)との組み合わせについて距離d(wT,wG)を計算する(ステップS202)。
【0101】
続いて、算出された距離d(wT,wG)を所定のしきい値thと比較し、距離d(wT,wG)がしきい値thよりも小さいか否かを判定する(ステップS203)。
【0102】
類似単語対抽出手段103は、ステップS203において、d(wT,wG)≧th(すなわち、No)と判定されれば、ステップS202に戻って距離d(wT,wG)の計算を繰り返し、d(wT,wG)<th(すなわち、Yes)と判定されれば、そのときの単語対(wT,wG)を類似単語列合成手段104に出力する。
【0103】
類似単語列合成手段104は、対象タスク言語データ101および一般タスク言語データ102から単語に区切られたテキストデータを読み込み、データに含まれる全てのn単語の単語列を取り出して記憶する(ステップS204)。
【0104】
また、読み込んだ単語列から、類似単語対抽出手段103によって選択された単語対(wT,wG)のうち、一般タスクの単語wGが含まれる単語列「・・・wG・・・」を取り出す(ステップS205)。
【0105】
続いて、取り出した単語列のうち、一般タスク単語wGを対象タスク単語wTに置き換えた単語列「・・・wT・・・」が、既に記憶されている単語列に存在する否かを判定する(ステップS206)。
【0106】
ステップS206において、単語列「・・・wT・・・」が、既に記憶されている単語列に存在する(すなわち、Yes)と判定されば、ステップS205に戻り、単語列「・・・wT・・・」が存在しない(すなわち、No)と判定されれば、その単語列「・・・wT・・・」をテキストデータとして出力する(ステップS207)。
【0107】
次に、全ての類似単語対(wT,wG)に対する処理を終了したか否かを判定し(ステップS208)、終了していない(すなわち、No)と判定されればステップS202に戻り、終了した(すなわち、Yes)と判定されれば、ステップS209に進む。
これにより、処理ステップS202〜S207は、全ての類似単語対(wT,wG)について実行される。
【0108】
ここで、具体例として、対象タスクの単語[横浜駅」と一般タスクの単語「成田空港」との距離がしきい値thよりも小さく、各単語列「成田空港、まで」および「から、成田空港」が一般テキストデータに存在している場合を考える。
【0109】
このとき、さらに、対象テキストデータに単語列「横浜駅、まで」は存在するものの、単語列「から、横浜駅」が存在しない場合であれば、類似単語列合成手段104は、単語列「から、横浜駅」を合成して出力することになる。
この結果、単語の類似情報を用いて、対象タスクで出現が予想される単語列を学習用テキストデータに追加することになる。
【0110】
次に、図2において、言語モデル生成手段105は、重みパラメータ保存手段(図示せず)から、それぞれの入力に対応する重みパラメータを読み込む(ステップS209)。
【0111】
また、対象タスク言語データ101、一般タスク言語データ102および類似単語列合成手段104から、単語に区切られた学習用テキストを読み込み、単語列の頻度を求める(ステップS210)。
このとき、Nグラム言語モデルの場合には、n単語以下の単語列について頻度を計算する必要がある。
【0112】
さらに、言語モデル生成手段105は、たとえば、Katzのバックオフスムージング法を用いたスムージングを行い、言語モデルのパラメータを推定することにより、タスク適応化済み言語モデルを生成し(ステップS211)、図2の処理ルーチンを終了する。
【0113】
こうして得られた言語モデルの学習データには、対象タスクに特徴的な単語を含む単語列が追加されているので、対象タスクに対する言語モデルの予測精度が向上する。
【0114】
したがって、対象以外のタスクを含む大量データ(一般タスク言語データ102)と対象タスクに関する少量データ(対象タスク言語データ101)とから、音声認識用の高精度の言語モデルを推定することができる。
、タスク適応化済み言語モデルを生成し(ステップS211)、図2の処理ルーチンを終了する。
【0115】
なお、上記のように得られる言語モデルは、音声認識に限らず、言語処理を必要とする文字認識や、自然言語のテキスト処理に対しても適用可能である。
【0116】
また、図1のように構成される音声認識用の言語モデル学習装置をプログラムとして記録媒体に記録することもできる。
【0117】
すなわち、図1内の類似単語対抽出手段103と同様の処理を行う類似単語対抽出機能と、類似単語列合成手段104と同様の処理を行う類似単語列合成機能と、言語モデル生成手段105と同様の処理を行う言語モデル生成機能とから構成されるソフトウェアにより、音声認識用言語モデル学習プログラムを実現することができる。
【0118】
実施の形態2.
なお、上記実施の形態1では、対象タスク言語データ101および一般タスク言語データ102からの各テキストデータをそのまま用いたが、クラス化されたテキストデータを用いてもよい。
【0119】
図3はこの発明の実施の形態2による音声認識装置用の言語モデル学習装置を概略的に示すブロック構成図であり、前述(図1参照)と同様のものについては、同一符号を付して、または、符号の後に「A」を付して詳述を省略する。
【0120】
図3において、301は対象タスク単語クラス化手段であり、対象タスク言語データ101と言語モデル生成手段105Aとの間に挿入されている。
302は一般タスク単語クラス化手段であり、一般タスク言語データ102と言語モデル生成手段105Aとの間に挿入されている。
【0121】
この場合の特徴的な機能は、対象タスク単語クラス化手段301と、一般タスク単語クラス化手段302とを設け、対象タスクおよび一般タスクのテキストコーパスの単語をクラス化して、言語モデルの推定パラメータ数を減少させることにより、言語モデル学習の際に対象タスクのデータが少量であっても高精度の認識を可能にしたことにある。
【0122】
以下、図3内の各手段301、302の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
単語クラス定義データ(図示せず)は、たとえば、前述(図20参照)のように、単語w、単語wが所属するクラスc、および、単語wが所属するクラスcから出力される確率P(w|c)を記述している。図20のような単語クラス定義データは、人手で作成してもよく、計算により学習データから作成してもよい。
【0123】
対象タスク単語クラス化手段301は、単語クラス定義データにしたがい、入力された対象タスク言語データ101の単語のうちでクラス定義されているものを順次クラス化し、言語モデル生成手段105Aに出力する。
【0124】
一般タスク単語クラス化手段302は、単語クラス定義データにしたがい、入力された一般タスク言語データ102の単語のうちでクラス定義されているものを順次クラス化し、言語モデル生成手段105Aに出力する。
【0125】
次に、図4のフローチャートを参照しながら、図3に示したこの発明の実施の形態2に基づくタスク適応による言語モデルの学習手順について、さらに具体的に説明する。
【0126】
図4において、ステップS401〜S403は、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302により実行される処理である。
【0127】
また、ステップS404〜S406は、言語モデル生成手段105Aにより実行される処理であり、前述(図2参照)のステップS209〜S211にそれぞれ対応している。
【0128】
まず、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302は、それぞれ、単語クラス定義データ(図示せず)を読み込む(ステップS401)。
【0129】
また、対象タスク単語クラス化手段301は、対象タスク言語データ101を読み込み、単語クラス定義で定義される単語に関して、単語をクラスに置き換えたテキストを生成し、これを出力する(ステップS402)。
【0130】
同様に、一般タスク単語クラス化手段302は、一般タスク言語データ102を読み込み、単語クラス定義で定義される単語に関して、単語をクラスに置き換えたテキストを生成し、これを出力する(ステップS403)。
【0131】
次に、言語モデル生成手段105Aは、まず、重みパラメータ保存手段(図示せず)から重みパラメータを読み込み(ステップS404)、続いて、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302から、クラスを含む単語列である学習用テキストを読み込み、それぞれについて与えられた重みパラメータを乗算することにより、単語および単語列の頻度を累積演算する(ステップS405)。
【0132】
ここで、クラスNグラム言語モデルの場合、前述と同様に、n単語以下のクラス列について頻度を計算する。
最後に、言語モデル生成手段105Aは、算出された頻度をスムージングし、言語モデルのパラメータを推定して、タスク適応化済みクラス言語モデルを生成し(ステップS406)、図4の処理ルーチンを終了する。
【0133】
上記処理手順と、あらかじめ定義された単語クラス定義データ(図示せず)とにより、クラス言語モデルが得られる。
このように、対象以外のタスクを含む大量データ(一般タスク言語データ102)と、対象タスクに関する少量データ(対象タスク言語データ101)とから、音声認識用の高精度の言語モデルを推定することができる。
【0134】
なお、こうして得られる言語モデルは、音声認識のみならず、言語処理を必要とする文字認識や、自然言語のテキスト処理に対しても適用可能である。
【0135】
また、図3に示した音声認識用の言語モデル学習装置は、プログラムとして記録媒体に記録することもできる。
【0136】
すなわち、図3内の対象タスク単語クラス化手段301と同様の処理を行う対象単語クラス化機能と、一般タスク単語クラス化手段302と同様の処理を行う一般単語クラス化機能と、言語モデル生成手段105Aと同様の処理を行う言語モデル生成機能とから構成されるソフトウェアにより、音声認識用の言語モデル学習プログラムを実現することができる。
【0137】
実施の形態3.
なお、上記実施の形態2では、言語モデル生成手段105Aのみを用いたが、図1(実施の形態1)と同様の類似単語対抽出手段および類似単語列合成手段を併用してもよい。
【0138】
図5はこの発明の実施の形態3による音声認識装置用の言語モデル学習装置を概略的に示すブロック構成図であり、前述(図1、図3参照)と同様のものについては、同一符号を付して、または、符号の後に「B」を付して詳述を省略する。
【0139】
この場合の特徴的な機能は、単一のクラス定義にしたがい、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302を設け、単語をクラス化して言語モデルのパラメータ数を減少させるとともに、類似単語対抽出手段103Bおよび類似単語列合成手段104Bを設けることにより、言語モデル構築の際に対象タスクのデータが少量であっても高精度の認識を可能にしたことにある。
【0140】
次に、図6のフローチャートを参照しながら、図5に示したこの発明の実施の形態3に基づくタスク適応による言語モデルの学習手順について、さらに具体的に説明する。
【0141】
図6において、ステップS601〜S603は、前述(図4参照)のステップS401〜S403にそれぞれ対応しており、ステップS604〜S614は、前述(図2参照)のステップS201〜S211にそれぞれ対応している。
【0142】
まず、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302は、それぞれ単語クラス定義データ(図示せず)を読み込む(ステップS601)。
【0143】
対象タスク単語クラス化手段301は、対象タスク言語データ101を読み込み、単語クラス定義で定義される単語に関して単語をクラスに置き換えたテキストを生成して出力する(ステップS602)。
【0144】
また、一般タスク単語クラス化手段302は、一般タスク言語データ102を読み込み、単語クラス定義で定義される単語に関して単語をクラスに置き換えたテキストを生成して出力する(ステップS603)。
【0145】
類似単語対抽出手段103Bは、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302から、対象タスク言語データに含まれるクラスcTと、一般タスク言語データに含まれるクラスcG(クラスcTとは異なる)との組み合わせからなる単語クラス対(cT,cG)のリストを作成し、これを記憶する(ステップS604)。
【0146】
また、類似単語対抽出手段103Bは、対象タスク言語データに含まれるクラスcTと、一般タスク言語データに含まれるクラスcG(クラスcTとは異なる)とについて、単語クラス対間の距離d(cT,cG)を求め(ステップS605)、あらかじめ与えられたしきい値thcよりも小さいか否かを判定する(ステップS606)。
【0147】
ステップS606において、d(cT,cG)≧thc(すなわち、No)と判定されればステップS605に戻り、d(cT,cG)<thc(すなわち、Yes)と判定されれば、そのときのクラス対(cT,cG)を類似単語対として類似単語列合成手段104Bに出力する(ステップS606)。
【0148】
類似単語列合成手段104Bは、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302から、クラスに区切られた学習用テキストデータを読み込み、これを長さn以下のクラス列に区切って記憶する(ステップS607)。
【0149】
また、各単語クラス化手段301および302から読み込んだクラス列に基づき、類似単語対抽出手段103Bにより選択されたクラス対(cT,cG)のうち、一般タスクのクラスcGが含まれるクラス列「・・・cG・・・」を取り出す(ステップS608)。
【0150】
さらに、類似単語列合成手段104Bは、各単語クラス化手段301および302から読み込んで記憶したクラス列を参照し、一般タスクのクラスcGを対象タスクのクラスcTで置き換えたクラス列「・・・cT・・・」が、対象タスク言語データ101または一般タスク言語データ102に存在するか否かを判定する(ステップS609)。
【0151】
ステップS609において、各言語データ101または102にクラス列「・・・cT・・・」が存在する(すなわち、Yes)と判定されれば、ステップS608に戻り、クラス列が存在しない(すなわち、No)と判定されれば、そのクラス列「・・・cT・・・」を合成して、学習用テキストデータとして出力する(ステップS610)。
【0152】
次に、全ての類似クラス対に対して処理を終了したか否かを判定し(ステップS611)、終了していない(すなわち、No)と判定されればステップS605に戻り、終了した(すなわち、Yes)と判定されれば、言語モデル生成手段105Bによる処理ステップ(S612〜S614)に進む。
これにより、上記処理は全ての類似単語クラス対(cT,cG)に対して繰り返し実行される。
【0153】
言語モデル生成手段105Bは、まず、重みパラメータ保存手段(図示せず)から重みパラメータを読み込み(ステップS612)、続いて、対象タスク言語データ101、一般タスク言語データ102および類似単語列合成手段104Bから、重みパラメータにより頻度の重み付けされて単語に区切られた学習用テキストを読み込む(ステップS613)。
【0154】
また、頻度のスムージングを行うことにより、言語モデルのパラメータを推定し(ステップS614)、図6の処理ルーチンを終了する。
上記処理手順およびあらかじめ定義される単語クラス定義データ(図示せず)により、タスク適応化したクラス言語モデルが得られる。
【0155】
このように、対象以外のタスクを含む大量データと、対象タスクに関する少量データとから、音声認識のための高精度の言語モデルを学習することができる。
【0156】
なお、こうして得られる言語モデルは、音声認識のみならず、言語処理を必要とする文字認識、自然言語によるテキスト処理などにも適用可能である。
【0157】
また、図5に示した音声認識用の言語モデル学習装置は、プログラムとして記録媒体に記録することもできる。
【0158】
すなわち、図5内の対象タスク単語クラス化手段301と同様の処理を行う対象単語クラス化機能と、一般タスク単語クラス化手段302と同様の処理を行う一般単語クラス化機能と、類似単語対抽出手段103Bと同様の処理を行う類似単語対抽出機能と、類似単語列合成手段104Bと同様の処理を行う類似単語列合成機能と、言語モデル生成手段105Bと同様の処理を行う言語モデル生成機能とから構成されるソフトウェアにより、音声認識用の言語モデル学習プログラムを実現することができる。
【0159】
実施の形態4.
なお、上記実施の形態1〜3では、タスク適応化済み言語モデルを生成するために、言語モデル生成手段105、105Aまたは105Bを用いたが、事前に作成された初期言語モデルと、単語出現確率のスムージングを実行する類似単語確率補正手段とを用いてもよい。
【0160】
図7はこの発明の実施の形態4による音声認識装置用の言語モデル学習装置を概略的に示すブロック構成図であり、前述(図1参照)と同様のものについては、同一符号を付して詳述を省略する。
【0161】
図7において、701は初期言語モデル、702は類似単語確率補正手段である。
類似単語確率補正手段702は、類似単語対抽出手段103からの類似単語対と、初期言語モデル701からの事前の言語モデルとに基づいて、タスク適応化済み統計的言語モデルを生成する。
【0162】
この場合の特徴的な機能は、類似単語対抽出手段103および類似単語確率補正手段702を設け、対象タスクに特有の単語について一般タスクのテキストデータに出現する類似単語の性質を反映させるため、統計的言語モデル構築の際に、対象タスクのデータが少量であっても高精度の認識を可能にしたことにある。
【0163】
以下、図7内の各手段の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
初期言語モデル701は、周知の従来方法や上記実施の形態1などの方法によりパラメータ推定された統計的言語モデルからなる。
【0164】
類似単語確率補正手段702は、初期言語モデル701および類似単語対抽出手段103から、対象タスクと一般タスク間の類似単語対を読み込み、対象タスクの単語が含まれる単語列の条件付き出現確率を補正する。
このときの単語列出現確率の補正処理においては、類似した一般タスクの単語が含まれる単語列の条件付き出現確率が用いられる。
【0165】
類似単語確率補正手段702が割り当てる確率は、学習テキストデータで未出現の単語列の出現確率として求められ、出現した単語列の条件付き確率から除いた(ディスカウントした)確率の一部である。すなわち、学習用テキストデータに存在する単語列の条件付き出現確率は、初期言語モデル701と等しいままで保存される。
【0166】
次に、図8のフローチャートを参照しながら、図7に示したこの発明の実施の形態4に基づくタスク適応による言語モデルの学習手順について、さらに具体的に説明する。
【0167】
図8において、ステップS801〜S803およびS805は、前述(図2参照)のステップS201〜S203およびS208にそれぞれ対応している。
また、ステップS806〜S812は、類似単語確率補正手段702により実行される処理である。
【0168】
まず、類似単語対抽出手段103は、対象タスク言語データ101および一般タスク言語データ102から、単語に区切られた学習用テキストを読み込み(ステップS801)、対象タスク言語データに含まれる単語wTと一般タスク言語データに含まれる単語wG(wTとは異なる)とについて、距離d(wT,wG)を求める(ステップS802)。
【0169】
続いて、単語間の距離d(wT,wG)がしきい値thよりも小さいか否かを判定し(ステップS803)、d(wT,wG)≧th(すなわち、No)と判定されればステップS802に戻り、d(wT,wG)<th(すなわち、Yes)と判定されれば、そのときの単語対(wT,wG)を類似単語対に追加する(ステップS804)。
【0170】
以下、上記処理を全ての単語対について計算終了したか否かを判定し(ステップS805)、終了していない(すなわち、No)と判定されればステップS802に戻り、終了した(すなわち、Yes)と判定されれば、次の処理ステップS806に進む。
これにより、全単語対についての計算が順次行われ、作成された類似単語対(wT,wG)の一覧が類似単語確率補正手段702に出力される。
【0171】
類似単語確率補正手段702は、まず、初期言語モデル701を読み込み(ステップS806)、続いて、類似単語対抽出手段103から読み出される類似単語対(wT,wG)について、初期言語モデル701内に定義された条件付き確率のうち、一般タスク単語wGを含む条件付き確率PwG(wn|w1,・・・,wn-1)を取り出す(ステップS807)。
【0172】
次に、取り出したそれぞれの条件付き確率について、一般タスク単語wGを対象タスク単語wTで置き換えた条件付き確率PwT(wn|w1,・・・,wn-1)が、初期言語モデル701で定義されているか否かを判定する(ステップS808)。
【0173】
ステップS808において、条件付き確率PwT(wn|w1,・・・,wn-1)が初期言語モデル701で定義されていない(すなわち、No)と判定されれば、未知の単語列のために除いた確率から一部を割り当てて、条件付き確率を補正し(ステップS809)、次の判定ステップS810に進む。
【0174】
一方、条件付き確率PwGが定義されており、ステップS808において、条件付き確率PwTが定義されている(すなわち、Yes)と判定されれば、直ちに次の判定ステップS810に進む。
【0175】
このとき、ステップS809において補正した確率は、たとえば、同一の単語履歴(w1,・・・,wn-1)である条件付き確率のうちの最小値とする。
【0176】
次に、他にも一般単語wGを含む単語列の条件付き確率が存在するか否かを判定し(ステップS810)、一般単語wGを含む単語列が存在する(すなわち、Yes)と判定されれば、ステップS808に戻る。
【0177】
一方、ステップS810において、一般単語wGを含む条件付き確率が他に存在しない(すなわち、No)と判定されれば、全ての単語対(wT,wG)について、上記処理の実行が終了したか否かを判定する(ステップS811)。
【0178】
ステップS811において、全単語対の処理が終了していない(すなわち、No)と判定されればステップS807に戻り、終了した(すなわち、Yes)と判定されれば、次の処理ステップS812に進む。
【0179】
これにより、全ての一般単語wGを含む単語列について、また、全ての一般単語wGを含む単語対(wT,wG)について、上記処理が実行される。
最後に、言語モデルの確率の和が「1」となるように、未知の単語列のために言語モデルから除いた確率の総和を正規化して(ステップS812)、図8の処理ルーチンを終了する。
【0180】
仮に、条件付き確率が定義されていない場合には、通常は簡易な言語モデルによって与えられる確率が使われる。
たとえば、KatzのバックオフにしたがうNグラム言語モデルでは、低次のN−1グラム言語モデルが参照されて、小さな確率が割り当てられるが、この確率の精度は低いので、対象タスクの類似単語を含む単語列がある場合、実際よりも大き確率が見積もられることになる。
【0181】
一般単語wGを含む他の条件付き確率PwGについても、ステップS810により同様に処理され、また、ステップS806〜S810の処理は、ステップS811により、全ての類似単語対(wG、wT)について実行される。
【0182】
このように、類似単語確率補正手段702を用いることにより、一般タスクと対象タスクとの間で性質が類似する単語について、一般タスクの単語の出現確率を用いたスムージングが行われ、音声認識用のさらに精度の高いモデルを推定することができる。
【0183】
なお、こうして得られる言語モデルは、前述と同様に、言語処理を必要とする文字認識や、テキスト処理などにも適用可能である。
【0184】
また、図7に示した音声認識用の言語モデル学習装置は、プログラムとして記録媒体に記録することもできる。
すなわち、図7内の類似単語対抽出手段103と同様の処理を行う類似単語対抽出機能と、類似単語確率補正手段702と同様の処理を行う類似単語確率補正機能とから構成されるソフトウェアにより、音声認識用の言語モデル学習プログラムを実現することができる。
【0185】
実施の形態5.
なお、上記実施の形態4では、対象タスク言語データ101および一般タスク言語データ102からの各テキストデータをそのまま用いたが、上記実施の形態3(図5参照)のようにクラス化されたテキストデータを用いてもよい。
【0186】
図9はこの発明の実施の形態5による音声認識装置用の言語モデル学習装置を概略的に示すブロック構成図であり、前述(図5、図7参照)と同様のものについては、同一符号を付して詳述を省略する。
【0187】
図9において、901は初期クラス言語モデルであり、前述(図7参照)の初期言語モデル701に代えて、類似単語確率補正手段702に接続されている。
【0188】
この場合の特徴的な機能は、類似単語対抽出手段103B、対象タスク単語クラス化手段301、一般タスク単語クラス化手段302および類似単語確率補正手段702を設け、対象タスクに特有のクラスに対して一般タスクのテキストデータに出現する類似クラスの性質を反映させることにより、対象タスクのデータが少量であっても、初期クラス言語モデル901から、さらに認識精度を高めたクラス言語モデルを生成することにある。
【0189】
以下、図9内の各手段の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
初期クラス言語モデル901は、周知の従来方法や上記実施の形態2、3などの方法によりパラメータ推定された統計的クラス言語モデルからなる。
【0190】
類似単語確率補正手段702により割り当てられる確率は、学習テキストデータで未出現の単語クラス列のために出現した単語クラス列の条件付き確率から除いた(ディスカウントした)確率の一部であり、学習用テキストデータに含まれる単語クラスの条件付き出現確率が保存される。
【0191】
たとえば、単語クラスに関する条件付き確率P(cn|c1,・・・,cn-1)を変えた場合、単語クラス列の元の条件付き確率よりも大きくなるように確率が割り当てられる。
【0192】
次に、図10のフローチャートを参照しながら、図9に示したこの発明の実施の形態5に基づくタスク適応による言語モデルの学習手順について、さらに具体的に説明する。
【0193】
図10において、ステップS1001〜S1003は、前述(図6参照)のステップS601〜S603にそれぞれ対応しており、ステップS1004〜S1015は、前述(図8参照)のステップS801〜S812にそれぞれ対応している。
【0194】
まず、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302は、それぞれ単語クラス定義データ(図示せず)を読み込む(ステップS1001)。
【0195】
対象タスク単語クラス化手段301は、対象タスク言語データ101を読み込み、単語クラス定義で定義される単語に関して単語をクラスに置き換えたテキストを生成して出力する(ステップS1002)。
【0196】
また、一般タスク単語クラス化手段302は、一般タスク言語データ102を読み込み、単語クラス定義で定義される単語に関して単語をクラスに置き換えたテキストを生成して出力する(ステップS1003)。
【0197】
次に、類似単語対抽出手段103Bは、対象タスク単語クラス化手段301および一般タスク単語クラス化手段302を通して、それぞれクラス列を読み込む(ステップS1004)。
【0198】
また、対象タスク言語データに含まれるクラスcTと一般タスク言語データに含まれるクラスcG(cTとは異なる)とについて、距離d(cT,cG)を求め(ステップS1005)、クラス間の距離d(cT,cG)がしきい値thcよりも小さいか否かを判定する(ステップS1006)。
【0199】
ステップS1006において、d(cT,cG)≧thc(すなわち、No)と判定されればステップS1005に戻り、d(cT,cG)<thc(すなわち、Yes)と判定されれば、そのときのクラス対(cT,cG)を類似クラス対に追加する(ステップS1007)。
【0200】
以下、判定ステップS1008を介して、上記処理を順次全てのクラス対について実行し、作成された類似クラス対(cT,cG)の一覧を類似単語確率補正手段702に出力する。
【0201】
次に、類似単語確率補正手段702は、まず、初期クラス言語モデル901を読み込み(ステップS1009)、続いて、類似単語対抽出手段103Bから類似クラス対(cT,cG)を順次読み出す(ステップS1010)。
【0202】
また、初期クラス言語モデル901内に定義された条件付き確率のうち、一般タスクのクラスcGを含む条件付き確率PcG(cn|c1,・・・,cn-1)のそれぞれについて、一般タスククラスcGを対象タスククラスcTで置き換えた条件付き確率PcT(cn|c1,・・・cn-1)が学習データ内で定義されているか否かを判定する(ステップS1011)。
【0203】
ステップS1011において、条件付き確率PcT(cn|c1,・・・,cn-1)が初期クラス言語モデル901で定義されていない(すなわち、No)と判定されれば、未知のクラス列のために除いた確率から一部を割り当てて、条件付き確率を補正し(ステップS1012)、次の判定ステップS1013に進む。
【0204】
一方、条件付き確率PcGが定義されており、ステップS1011において、条件付き確率PcTが定義されている(すなわち、Yes)と判定されれば、直ちに次の判定ステップS1013に進む。
【0205】
このとき、ステップS1012において補正した確率は、たとえば、同一のクラス履歴(c1,・・・,cn-1)である条件付き確率のうちの最小値とする(ステップS1012)。
【0206】
以下、ステップS1013を介して、クラスcGを含む他の条件付き確率PcGについても同様の処理が行われる。また、ステップS1014を介して、上記ステップS1006〜S1010の処理は、全ての類似クラス対(cG、cT)について実行される。
【0207】
最後に、類似単語確率補正手段702は、クラス言語モデルの確率の和が1となるようにバックオフ確率を正規化して、タスク適応化済みクラス言語モデルを生成し(ステップS1015)、図10の処理ルーチンを終了する。
【0208】
このように、各単語クラス化手段301および302とともに、類似単語対抽出手段103Bおよび類似単語確率補正手段702を設け、一般タスクと対象タスクとの間で性質が類似する単語クラスについて、一般タスクの単語クラスの出現確率を用いたスムージングを行うことにより、音声認識用のクラス言語モデルを高精度に推定することができる。
【0209】
なお、こうして得られるクラス言語モデルは、言語処理を必要とする文字認識や、自然言語のテキスト処理などにも適用可能である。
【0210】
また、図9に示した音声認識用言語モデル学習装置は、プログラムとして記録媒体に記録することもできる。
【0211】
すなわち、図9内の類似単語対抽出手段103Bと同様の処理を行う類似単語対抽出機能と、対象タスク単語クラス化手段301と同様の処理を行う対象タスク単語クラス化機能と、一般タスク単語クラス化手段302と同様の処理を行う一般タスク単語クラス化機能と、類似単語確率補正手段702と同様の処理を行う類似単語確率補正機能とから構成されるソフトウェアにより、音声認識用の言語モデル学習プログラムを実現することができる。
【0212】
実施の形態6
なお、上記実施の形態1では、類似単語対抽出手段の機能構成について具体的に言及しなかったが、たとえば図11のように構成してもよい。
【0213】
図11はこの発明の実施の形態6による音声認識用の言語モデル学習装置に用いられる類似単語対抽出手段103Cの具体的構成例を示す機能ブロック図であり、前述と同様のものについては、同一符号を付して、または符号の後に「C」を付して、詳述を省略する。
【0214】
図11において、1101は統計的単語間距離算出手段、1102はしきい値判定手段、1105は類似単語対抽出手段103C内の距離算出用言語モデル生成手段である。
【0215】
この場合の特徴的な機能は、類似単語対抽出手段103C内に距離算出用言語モデル生成手段1105、統計的単語間距離算出手段1101およびしきい値判定手段1102を設け、言語データにしたがった統計的距離尺度に基づき、対象タスクの単語wTと一般タスクの単語wGとの単語間距離d(wT,wG)を算出して単語対を選択することにより、高精度に類似単語対を判定することにある。
【0216】
以下、図11内の各手段の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
類似単語対抽出手段103Cにおいて、統計的単語間距離算出手段1101は、距離算出用言語モデル生成手段1105から推定された言語モデルを取り出し、対象タスク言語データ101および一般タスク言語データ102から抽出される異なる単語対のそれぞれについて、言語モデルに基づいた単語間距離を求め、単語対および単語間距離を出力する。
【0217】
しきい値判定手段1102は、単語対および統計的単語間距離を、統計的単語間距離算出手段1101から順次読み込み、単語間距離が一定のしきい値以下の場合に、単語対(wT,wG)を出力する。
【0218】
このとき、統計的単語間距離算出手段1101は、対象タスク内単語wTおよび一般タスク内単語wGに関する統計的単語間距離の算出方法として、たとえば、Nグラム言語モデルの条件付き確率におけるユークリッド距離を用い、以下の(7)式のように統計的単語間距離D1(wT,wG)を求める。
【0219】
【数7】
Figure 0003961780
【0220】
ただし、(7)式において、Vは言語データ(単語)の語彙xの母集団であり、言語モデルに含まれる全ての語彙を表す。
【0221】
また、統計的単語間距離算出手段1101は、後続単語に対する先行単語の条件付き確率を用いたユークリッド距離を用い、以下の(8)式のように、統計的単語間距離D2(wT,wG)を求めることができる。
【0222】
【数8】
Figure 0003961780
【0223】
また、上記(7)式および(8)式を個別に用いることのみならず、(7)式と(8)式との和を用いることもできる。
【0224】
また、統計的単語間距離算出手段1101は、たとえば、単語wTに関するクロスエントロピーを用い、以下の(9)式のように、統計的単語間距離D3(wT,wG)を求めることができる。
【0225】
【数9】
Figure 0003961780
【0226】
また、ユークリッド距離を用いた場合と同様に、以下の(10)式に示すように、後続単語に関する先行単語の条件付き確率を用いることができる。
【0227】
【数10】
Figure 0003961780
【0228】
また、上記(9)式および(10)式を個別に用いることのみならず、(9)式と(10)式との和を用いることもできる。
【0229】
さらに、上記統計的尺度と言語情報とを組み合わせて用いることもできる。
たとえば、単語が形態素を表す場合において、2つの単語の品詞が同一でない場合、距離を無限大として類似単語候補から外すことができる。
【0230】
次に、図12のフローチャートを参照しながら、図11に示したこの発明の実施の形態6に基づくタスク適応における類似単語対抽出手段103Cの動作について、さらに具体的に説明する。
図12において、ステップS1203〜S1207は、前述(図2参照)のステップS201〜S203、S207およびS208にそれぞれ対応している。
【0231】
まず、距離算出用言語モデル生成手段1105は、対象タスク言語データ101および一般タスク言語データ102を読み込み(ステップS1201)、入力されたテキストデータから、言語モデルのパラメータ推定を行う(ステップS1202)。
【0232】
また、統計的単語間距離算出手段1101は、対象タスクに含まれる単語wTと、一般タスクに含まれる単語wGとの任意の組み合わせからなる単語対(wT,wG)を作成し(ステップS1203)、距離算出用言語モデル生成手段1105により推定される言語モデル上で統計的距離d(wT,wG)を計算する(ステップS1204)。
【0233】
続いて、しきい値判定手段1102は、統計的単語間距離算出手段1101から得られた単語対(wT,wG)の距離d(wT,wG)をしきい値thと比較し、距離d(wT,wG)がしきい値th未満であるか否かを判定する(ステップS1205)。
【0234】
ステップS1205において、d(wT,wG)≧th(すなわち、No)と判定されればステップS1204に戻り、d(wT,wG)<th(すなわち、Yes)と判定されれば、そのときの単語対(wT,wG)を類似単語対として出力する(ステップS1206)。
【0235】
以下、終了判定ステップS1207を介して、以上の処理を全ての単語対(wT,wG)について行う。
【0236】
このように、類似単語対抽出手段103Cにおいて、言語モデルを推定して統計量に基づいた距離尺度を利用することにより、高精度の類似単語対を判定することができる。
【0237】
なお、こうして得られる言語モデルは、言語処理を必要とする文字認識や、自然言語のテキスト処理などにも適用可能である。
また、図11内の類似単語対抽出手段103Cの機能をプログラムとして記録媒体に記録することもできる。
【0238】
すなわち、図11内の距離算出用言語モデル生成手段1105と同様の処理を行う言語モデル生成機能と、統計的単語間距離算出手段1101と同様の処理を行う統計的単語間距離算出機能と、しきい値判定手段1102と同様の処理を行うしきい値判定機能とから構成されるソフトウェアにより、音声認識用の言語モデル学習装置の類似単語対抽出プログラムを実現することができる。
【0239】
また、図11においては、距離算出用言語モデル生成手段1105を用いたが、図13のように、距離算出用言語モデル1301を用いてもよい。
図13において、類似単語対抽出手段103D内の距離算出用言語モデル1301は、前述(図7参照)の初期言語モデル701と同様のものであり、事前に作成されている。
【0240】
また、ここでは、類似単語対抽出手段103Cへの入力データを単語としているが、単語の代わりに、図14のように単語クラスを用いてもよい。
図14において、類似単語対抽出手段103E内の距離算出用言語モデル生成手段1105Eおよび統計的単語間距離算出手段1101Eは、各単語クラス化手段301および302から単語クラスを取り込んでいる。
この場合も、前述と同様に、クラス対を抽出することができる。
【0241】
さらに、図14においては、距離算出用言語モデル生成手段1105Eを用いているが、図15のように、距離算出用クラス言語モデル1501を用いてもよい。
図15において、類似単語対抽出手段103F内の距離算出用クラス言語モデル1501は、前述(図9参照)の初期クラス言語モデル901と同様のものであり、事前に作成されている。
【0242】
実施の形態7
なお、上記実施の形態1〜6では、言語モデル学習装置のみに注目し、音声認識装置について具体的に言及しなかったが、たとえば、音声認識装置を図16のように構成してもよい。
【0243】
図16はこの発明の実施の形態7による言語モデルを用いた音声認識装置を概略的に示すブロック構成図であり、従来方法または上記実施の形態1、4、6などで述べた方法により生成される言語モデルを用いた場合を示している。
【0244】
図16において、1601は音響特徴抽出手段、1602は音響モデル、1603は音響照合手段、1604は単語辞書、1605は言語モデル、1606は言語照合手段である。
【0245】
言語モデル1605は、上記実施の形態1、4、6で述べた言語モデル学習装置および方法を用いて構築されたものである。
この場合の特徴的な機能は、各手段1601〜1604とともに、言語モデル1605を用いた言語照合手段1606を設け、対象タスクのデータが少量の場合であっても高精度の音声認識を可能としたことにある。
【0246】
以下、図16内の各手段の機能について、各種モデルおよび各種データと関連させながら具体的に説明する。
まず、音響特徴抽出手段1601は、入力された音声波形をA/D変換するとともに、分析時間フレーム毎に取り出して、メルケプストラムなどの音声特徴を良好に表すパラメータのベクトルに変換する。
【0247】
音響モデル1602は、たとえばHMMを用いて、音声の認識単位(音素や単語など)内の音響特徴ベクトルの性質を確率分布や状態推移などによって表すものである。
【0248】
音響照合手段1603は、音響特徴抽出手段1601から得られる音素の音響特徴ベクトルと、音響モデル1602とを照合し、照合の度合いを表すスコアを出力する。
【0249】
単語辞書1604は、音響モデル1602の並びと、言語的な単位である単語との対応を記述するものである。
言語モデル1605は、言語モデル学習装置から得られ、認識対象とする単語の接続情報を記述するものであり、たとえば、単語Nグラム言語モデルを用いて単語間の遷移を(n−1)重マルコフ過程で表現する。
【0250】
言語照合手段1606は、音響照合手段1603から音響特徴量と音響モデルとの照合スコアを受け取り、単語辞書1604および言語モデル1605を参照して、認識対象となる単語列のうち、最もスコアが高いものを認識結果とする処理を行う。
【0251】
次に、図17のフローチャートを参照しながら、図16に示したこの発明の実施の形態7に基づく音声認識の手順について、さらに具体的に説明する。
まず、図16に示す音声認識装置は、あらかじめ準備した音響モデル1602および単語辞書1604とともに、上記実施の形態1、4、6(図1、図2、図7、図8、図11〜図13参照)により生成された言語モデル1605を読み込む(ステップS1701)。
【0252】
音響特徴抽出手段1601は、認識対象である入力音声をA/Dし、ある時間区間を区切った音声フレームを読み込み(ステップS1702)、対象とする音声フレームについて信号処理手法を用い、メルケプストラムなどの音声特徴を良好に表す音響特徴ベクトルを抽出する(ステップS1703)。
【0253】
続いて、音響照合手段1603は、ステップS1703で得られた音響特徴ベクトルを音響モデル1602と照合して、音響照合スコアを求める(ステップS1704)。
【0254】
次に、言語照合手段1606は、単語辞書1604および言語モデル1605を参照して、認識対象となる単語について、音響照合スコアを累積していく(ステップS1705)。
【0255】
言語照合手段1606は、上記照合処理を各フレーム毎に実行しながら、対象音声の最終フレームに到達したか否かを判定し(ステップS1706)、対象音声の最終フレームに到達していない(すなわち、No)と判定されればステップS1702戻る。
【0256】
また、ステップS1706において、対象音声の最終フレームに到達した(すなわち、Yes)と判定されれば、照合が終了したものと見なし、この時点で最も良いスコアとなっているものを認識結果として出力し(ステップS1707)、図17の処理ルーチンを終了する。
【0257】
このように、言語モデル1605を用いることにより、対象以外のタスクを含む大量データと、対象タスクに関する少量データとから、高精度の言語モデルが構築されるので、高精度の音声認識を実現することができる。
【0258】
実施の形態8
なお、上記実施の形態7では、上記実施の形態1、4、6により生成された言語モデルを用いたが、上記実施の形態2、3、5、6により生成されたクラス言語モデルを用いてもよい。
【0259】
図18はこの発明の実施の形態8による言語モデルを用いた音声認識装置を概略的に示すブロック構成図であり、上記実施の形態2、3、5、6で述べた装置および方法により生成される言語モデルを用いた場合を示している。
【0260】
図18において、各手段1601〜1604は前述(図16参照)と同様のものであり、言語照合手段1606Aは前述の言語照合手段1606に対応している。
1801は言語モデル内のクラスと単語との対応関係を表すクラス定義、1802はクラスの出現確率を与えるクラス言語モデルである。
【0261】
クラス言語モデル1802は、上記実施の形態2、3、5、6(図3〜図6、図9、図10、図14、図15参照)で述べた装置および方法を用いて構築したものである。
【0262】
この場合の特徴的な機能は、クラス言語モデル1802を用いた言語照合手段1606Aを設けることにより、学習に用いた対象タスクのデータが少量の場合であっても高精度の音声認識を可能にしたことにある。
【0263】
次に、図19のフローチャートを参照しながら、図18に示したこの発明の実施の形態8に基づく音声認識の手順について、さらに具体的に説明する。
図19において、ステップS1901〜S1907は、前述(図17参照)のステップS1701〜S1707にそれぞれ対応している。
【0264】
まず、あらかじめ準備した音響モデル1602、単語辞書1604およびクラス定義1801とともに、上記実施の形態2、3、5、6により生成されたクラス言語モデル1802を読み込む(ステップS1901)。
【0265】
音響特徴抽出手段1601は、認識対象である入力音声をA/Dし、ある時間区間を区切った音声フレームを読み込み(ステップS1902)、対象とする音声フレームについて信号処理手法を用い、メルケプストラムなどの音声特徴を良好に表す音響特徴ベクトルを抽出する(ステップS1903)。
【0266】
続いて、音響照合手段1603は、得られた音響特徴ベクトルを音響モデル1602と照合して、音響照合スコアを求める(ステップS1904)。
【0267】
次に、言語照合手段1606Aは、単語辞書1604、クラス定義1801およびクラス言語モデル1802を参照して、認識対象となる単語について、音響照合スコアを累積していく(ステップS1905)。
【0268】
以下、ステップS1906を介して上記照合処理を各フレーム毎に実行していき、対象音声の最終フレームに到達して照合が終了した時点で、最も良いスコアとなっているものを認識結果として出力し(ステップS1907)、図19の処理ルーチンを終了する。
【0269】
このように、クラス言語モデル1802を用いることにより、対象以外のタスクを含む大量データと対象タスクに関する少量データとから、高精度の音声認識を実現することができる。
【0270】
【発明の効果】
以上のように、この発明の請求項1によれば、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、タスク適応化済み言語モデルを構築するための、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、類似単語対抽出手段は、対象タスク言語データおよび一般タスク言語データから各テキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語列合成手段は、各テキストデータを読み込むとともに、類似単語対抽出手段から類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、言語モデル生成手段は、各テキストデータを読み込むとともに、類似単語列合成手段から単語列を読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、タスク適応化済み言語モデルを生成するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0271】
また、この発明の請求項2によれば、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段および言語モデル生成手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、言語モデル生成手段は、第1および第2のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、言語モデルを生成するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0272】
また、この発明の請求項3によれば、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、対象タスク言語データおよび一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、類似単語対抽出手段は、第1および第2のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語列合成手段は、第1および第2のテキストデータを読み込むとともに、類似単語対抽出手段から類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、言語モデル生成手段は、第1および第2のテキストデータを読み込むとともに、類似単語列合成手段から単語列を読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めることにより、タスク適応化済み言語モデルを生成するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0273】
また、この発明の請求項4によれば、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、事前に準備したテキストデータを用いて作成された初期言語モデルと、対象タスク言語データ、一般タスク言語データおよび初期言語モデルから、タスク適応化済み統計的言語モデルを構築するための、類似単語対抽出手段および類似単語確率補正手段とを備え、類似単語対抽出手段は、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語確率補正手段は、類似単語対抽出手段から類似単語対を読み込むとともに、初期言語モデルを読み込み、対象タスクで出現する単語の出現確率のスムージングを行うことにより、タスク適応化済み統計的言語モデルを生成するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0274】
また、この発明の請求項5によれば、対象タスクのテキストデータを集積した対象タスク言語データと、対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、あらかじめ作成された初期クラス言語モデルと、対象タスク言語データ、一般タスク言語データおよび初期クラス言語モデルから、タスク適応化済みクラス言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段および類似単語確率補正手段とを備え、対象タスク単語クラス化手段は、対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、一般タスク単語クラス化手段は、一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、類似単語対抽出手段は、第1および第2のテキストデータを読み込み、対象タスクのテキストデータに含まれる単語と一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、類似単語確率補正手段は、類似単語対抽出手段から類似単語対を読み込むとともに、初期クラス言語モデルを読み込み、対象タスクで出現する単語の出現確率のスムージングを行うことにより、タスク適応化済みクラス言語モデルを生成するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0275】
また、この発明の請求項6によれば、請求項1または請求項4において、類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデル生成手段は、対象タスク言語データおよび一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、統計的単語間距離算出手段は、距離算出用言語モデル生成手段から統計的言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、統計的言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0276】
また、この発明の請求項7によれば、請求項1または請求項4において、類似単語抽出手段は、距離算出用言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデルは、事前に準備したテキストデータを用いて作成されており、統計的単語間距離算出手段は、距離算出用言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、距離算出用言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0277】
また、この発明の請求項8によれば、請求項3または請求項5において、類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用言語モデル生成手段は、対象タスク単語クラス化手段および一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、統計的単語間距離算出手段は、距離算出用言語モデル生成手段から統計的言語モデルを読み込み、各テキストデータから抽出した単語からなる単語対について、統計的言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0278】
また、この発明の請求項9によれば、請求項3または請求項5において、類似単語抽出手段は、距離算出用クラス言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、距離算出用クラス言語モデルは、事前に準備したテキストデータを用いて作成されており、統計的単語間距離算出手段は、距離算出用クラス言語モデルを読み込むとともに、対象タスク単語クラス化手段および一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、各テキストデータから抽出した単語からなる単語対について、距離算出用クラス言語モデル上の統計的な距離を単語間距離として求め、しきい値判定手段は、統計的単語間距離算出手段から単語対および単語間距離を読み込み、所定のしきい値を越える単語対を出力するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0279】
また、この発明の請求項10によれば、請求項6から請求項9までのいずれかにおいて、統計的単語間距離算出手段は、Nグラム言語モデル上のユークリッド距離を用いて、単語間距離を測定するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0280】
また、この発明の請求項11によれば、請求項6から請求項9までのいずれかにおいて、統計的単語間距離算出手段は、Nグラム言語モデル上のクロスエントロピーを用いて、単語間距離を測定するようにしたので、認識精度を高めた言語モデル学習装置が得られる効果がある。
【0281】
また、この発明の請求項12によれば、請求項1から請求項11までのいずれかの言語モデル学習装置を用いた音声認識装置であって、言語モデルまたはクラス言語モデルは、音声認識に用いられるようにしたので、高精度の音声認識装置が得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による言語モデル学習装置を概略的に示すブロック構成図である。
【図2】 この発明の実施の形態1による言語モデル学習装置の処理手順を示すフローチャートである。
【図3】 この発明の実施の形態2による言語モデル学習装置を概略的に示すブロック構成図である。
【図4】 この発明の実施の形態2による言語モデル学習装置の処理手順を示すフローチャートである。
【図5】 この発明の実施の形態3による言語モデル学習装置を概略的に示すブロック構成図である。
【図6】 この発明の実施の形態3による言語モデル学習装置の処理手順を示すフローチャートである。
【図7】 この発明の実施の形態4による言語モデル学習装置を概略的に示すブロック構成図である。
【図8】 この発明の実施の形態4による言語モデル学習装置の処理手順を示すフローチャートである。
【図9】 この発明の実施の形態5による言語モデル学習装置を概略的に示すブロック構成図である。
【図10】 この発明の実施の形態5による言語モデル学習装置の処理手順を示すフローチャートである。
【図11】 この発明の実施の形態6による言語モデル学習装置の類似単語対抽出手段を具体例に示す機能ブロック図である。
【図12】 この発明の実施の形態6による言語モデル学習装置の類似単語対抽出手段の処理手順を示すフローチャートである。
【図13】 この発明の実施の形態6による類似単語対抽出手段の第2の具体例を示す機能ブロック図である。
【図14】 この発明の実施の形態6による類似単語対抽出手段の第3の具体例を示す機能ブロック図である。
【図15】 この発明の実施の形態6による類似単語対抽出手段の第4の具体例を示す機能ブロック図である。
【図16】 この発明の実施の形態7による言語モデル学習装置を用いた音声認識装置を概略的に示すブロック構成図である。
【図17】 この発明の実施の形態7による言語モデル学習装置を用いた音声認識装置の処理手順を示すフローチャートである。
【図18】 この発明の実施の形態8による言語モデル学習装置を用いた音声認識装置を概略的に示すブロック構成図である。
【図19】 この発明の実施の形態8による言語モデル学習装置を用いた音声認識装置の処理手順を示すフローチャートである。
【図20】 一般的なクラス定義の一例を示す説明図である。
【図21】 従来の言語モデル学習装置を概略的に示すブロック構成図である。
【図22】 従来の言語モデル学習装置および方法による処理手順を示すフローチャートである。
【符号の説明】
101 対象タスク言語データ、102 一般タスク言語データ、103、103B、103C、103D、103E、103F 類似単語対抽出手段、104、104B 類似単語列合成手段、105、105A、105B 言語モデル生成手段、301 対象タスク単語クラス化手段、302 一般タスク単語クラス化手段および言語モデル生成手段とを備え、701 初期言語モデル、702 類似単語確率補正手段、901 初期クラス言語モデル、1101、1101D、1101F 統計的単語間距離算出手段、1102、1102E しきい値判定手段、1105、1105E 距離算出用言語モデル生成手段、1301 距離算出用言語モデル、1501 距離算出用クラス言語モデル、1605 言語モデル、1802 クラス言語モデル。

Claims (12)

  1. 対象タスクのテキストデータを集積した対象タスク言語データと、
    対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、
    前記対象タスク言語データおよび前記一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、タスク適応化済み言語モデルを構築するための、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、
    前記類似単語対抽出手段は、前記対象タスク言語データおよび前記一般タスク言語データから各テキストデータを読み込み、前記対象タスクのテキストデータに含まれる単語と前記一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、
    前記類似単語列合成手段は、前記各テキストデータを読み込むとともに、前記類似単語対抽出手段から前記類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、
    前記言語モデル生成手段は、前記各テキストデータを読み込むとともに、前記類似単語列合成手段から前記単語列を読み込み、前記各テキストデータ毎に重み付けて前記単語列の統計量を求めることにより、前記タスク適応化済み言語モデルを生成することを特徴とする言語モデル学習装置。
  2. 対象タスクのテキストデータを集積した対象タスク言語データと、
    対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、
    前記対象タスク言語データおよび前記一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段および言語モデル生成手段とを備え、
    前記対象タスク単語クラス化手段は、前記対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、
    前記一般タスク単語クラス化手段は、前記一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、
    前記言語モデル生成手段は、前記第1および第2のテキストデータを読み込み、前記各テキストデータ毎に重み付けて単語列の統計量を求めることにより、前記言語モデルを生成することを特徴とする言語モデル学習装置。
  3. 対象タスクのテキストデータを集積した対象タスク言語データと、
    対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、
    前記対象タスク言語データおよび前記一般タスク言語データからタスク適応化済み言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段、類似単語列合成手段および言語モデル生成手段とを備え、
    前記対象タスク単語クラス化手段は、前記対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、
    前記一般タスク単語クラス化手段は、前記一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、
    前記類似単語対抽出手段は、前記第1および第2のテキストデータを読み込み、前記対象タスクのテキストデータに含まれる単語と前記一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、
    前記類似単語列合成手段は、前記第1および第2のテキストデータを読み込むとともに、前記類似単語対抽出手段から前記類似単語対を読み込み、言語データに含まれない対象タスク内の単語を含む単語列を合成して出力し、
    前記言語モデル生成手段は、前記第1および第2のテキストデータを読み込むとともに、前記類似単語列合成手段から前記単語列を読み込み、前記各テキストデータ毎に重み付けて前記単語列の統計量を求めることにより、前記タスク適応化済み言語モデルを生成することを特徴とする言語モデル学習装置。
  4. 対象タスクのテキストデータを集積した対象タスク言語データと、
    対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、
    事前に準備したテキストデータを用いて作成された初期言語モデルと、
    前記対象タスク言語データ、前記一般タスク言語データおよび前記初期言語モデルから、タスク適応化済み統計的言語モデルを構築するための、類似単語対抽出手段および類似単語確率補正手段とを備え、
    前記類似単語対抽出手段は、前記対象タスク言語データおよび前記一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、前記対象タスクのテキストデータに含まれる単語と前記一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、
    前記類似単語確率補正手段は、前記類似単語対抽出手段から前記類似単語対を読み込むとともに、前記初期言語モデルを読み込み、前記対象タスクで出現する単語の出現確率のスムージングを行うことにより、前記タスク適応化済み統計的言語モデルを生成することを特徴とする言語モデル学習装置。
  5. 対象タスクのテキストデータを集積した対象タスク言語データと、
    対象タスク以外のタスクを含む一般タスクのテキストデータを集積した一般タスク言語データと、
    あらかじめ作成された初期クラス言語モデルと、
    前記対象タスク言語データ、前記一般タスク言語データおよび前記初期クラス言語モデルから、タスク適応化済みクラス言語モデルを構築するための、対象タスク単語クラス化手段、一般タスク単語クラス化手段、類似単語対抽出手段および類似単語確率補正手段とを備え、
    前記対象タスク単語クラス化手段は、前記対象タスク言語データから対象タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第1のテキストデータを出力し、
    前記一般タスク単語クラス化手段は、前記一般タスク言語データから一般タスクのテキストデータを読み込み、クラス定義に示されたクラスに単語を置き換えて、言語モデル学習用のクラス化された第2のテキストデータを出力し、
    前記類似単語対抽出手段は、前記第1および第2のテキストデータを読み込み、前記対象タスクのテキストデータに含まれる単語と前記一般タスクのテキストデータに含まれる単語との組み合わせから類似単語対を抽出し、
    前記類似単語確率補正手段は、前記類似単語対抽出手段から前記類似単語対を読み込むとともに、前記初期クラス言語モデルを読み込み、前記対象タスクで出現する単語の出現確率のスムージングを行うことにより、前記タスク適応化済みクラス言語モデルを生成することを特徴とする言語モデル学習装置。
  6. 前記類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、
    前記距離算出用言語モデル生成手段は、前記対象タスク言語データおよび前記一般タスク言語データから、それぞれ言語モデル学習用のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、
    前記統計的単語間距離算出手段は、前記距離算出用言語モデル生成手段から前記統計的言語モデルを読み込み、前記各テキストデータから抽出した単語からなる単語対について、前記統計的言語モデル上の統計的な距離を単語間距離として求め、
    前記しきい値判定手段は、前記統計的単語間距離算出手段から前記単語対および前記単語間距離を読み込み、所定のしきい値を越える単語対を出力することを特徴とする請求項1または請求項4に記載の言語モデル学習装置。
  7. 前記類似単語抽出手段は、距離算出用言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、
    前記距離算出用言語モデルは、事前に準備したテキストデータを用いて作成されており、
    前記統計的単語間距離算出手段は、前記距離算出用言語モデルを読み込み、前記各テキストデータから抽出した単語からなる単語対について、前記距離算出用言語モデル上の統計的な距離を単語間距離として求め、
    前記しきい値判定手段は、前記統計的単語間距離算出手段から前記単語対および前記単語間距離を読み込み、所定のしきい値を越える単語対を出力することを特徴とする請求項1または請求項4に記載の言語モデル学習装置。
  8. 前記類似単語抽出手段は、距離算出用言語モデル生成手段、統計的単語間距離算出手段およびしきい値判定手段を含み、
    前記距離算出用言語モデル生成手段は、前記対象タスク単語クラス化手段および前記一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、各テキストデータ毎に重み付けて単語列の統計量を求めて、距離算出用の統計的言語モデルを生成し、
    前記統計的単語間距離算出手段は、前記距離算出用言語モデル生成手段から前記統計的言語モデルを読み込み、前記各テキストデータから抽出した単語からなる単語対について、前記統計的言語モデル上の統計的な距離を単語間距離として求め、
    前記しきい値判定手段は、前記統計的単語間距離算出手段から前記単語対および前記単語間距離を読み込み、所定のしきい値を越える単語対を出力することを特徴とする請求項3または請求項5に記載の言語モデル学習装置。
  9. 前記類似単語抽出手段は、距離算出用クラス言語モデル、統計的単語間距離算出手段およびしきい値判定手段を含み、
    前記距離算出用クラス言語モデルは、事前に準備したテキストデータを用いて作成されており、
    前記統計的単語間距離算出手段は、前記距離算出用クラス言語モデルを読み込むとともに、前記対象タスク単語クラス化手段および前記一般タスク単語クラス化手段から第1および第2のテキストデータを読み込み、前記各テキストデータから抽出した単語からなる単語対について、前記距離算出用クラス言語モデル上の統計的な距離を単語間距離として求め、
    前記しきい値判定手段は、前記統計的単語間距離算出手段から前記単語対および前記単語間距離を読み込み、所定のしきい値を越える単語対を出力することを特徴とする請求項3または請求項5に記載の言語モデル学習装置。
  10. 前記統計的単語間距離算出手段は、Nグラム言語モデル上のユークリッド距離を用いて、前記単語間距離を測定することを特徴とする請求項6から請求項9までのいずれかに記載の言語モデル学習装置。
  11. 前記統計的単語間距離算出手段は、Nグラム言語モデル上のクロスエントロピーを用いて、前記単語間距離を測定することを特徴とする請求項6から請求項9までのいずれかに記載の言語モデル学習装置。
  12. 前記言語モデルまたは前記クラス言語モデルは、音声認識に用いられることを特徴とする請求項1から請求項11までのいずれかに記載の言語モデル学習装置を用いた音声認識装置。
JP2001144885A 2001-05-15 2001-05-15 言語モデル学習装置およびそれを用いた音声認識装置 Expired - Fee Related JP3961780B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001144885A JP3961780B2 (ja) 2001-05-15 2001-05-15 言語モデル学習装置およびそれを用いた音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001144885A JP3961780B2 (ja) 2001-05-15 2001-05-15 言語モデル学習装置およびそれを用いた音声認識装置

Publications (2)

Publication Number Publication Date
JP2002342323A JP2002342323A (ja) 2002-11-29
JP3961780B2 true JP3961780B2 (ja) 2007-08-22

Family

ID=18990778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001144885A Expired - Fee Related JP3961780B2 (ja) 2001-05-15 2001-05-15 言語モデル学習装置およびそれを用いた音声認識装置

Country Status (1)

Country Link
JP (1) JP3961780B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
JP4810789B2 (ja) * 2003-09-26 2011-11-09 日本電気株式会社 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
WO2007083496A1 (ja) * 2006-01-23 2007-07-26 Nec Corporation 音声認識用言語モデル作成用のシステム、方法およびプログラムならびに音声認識システム
US20110161072A1 (en) * 2008-08-20 2011-06-30 Nec Corporation Language model creation apparatus, language model creation method, speech recognition apparatus, speech recognition method, and recording medium
WO2010125736A1 (ja) 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
JP5276610B2 (ja) * 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5807891B2 (ja) * 2010-10-04 2015-11-10 国立研究開発法人情報通信研究機構 言語モデル学習装置及びコンピュータプログラム
WO2012165529A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 言語モデル構築支援装置、方法及びプログラム
JP5799733B2 (ja) 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN115830615A (zh) * 2022-12-20 2023-03-21 科大讯飞股份有限公司 文本识别方法、装置、设备及可读存储介质
JP7804603B2 (ja) * 2023-03-03 2026-01-22 株式会社日立製作所 合成学習データ生成装置、合成学習データ生成方法

Also Published As

Publication number Publication date
JP2002342323A (ja) 2002-11-29

Similar Documents

Publication Publication Date Title
US11189272B2 (en) Dialect phoneme adaptive training system and method
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP1551007A1 (en) Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP2002091477A (ja) 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003308090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Chen et al. Generation of robust phonetic set and decision tree for Mandarin using chi-square testing
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2003271188A (ja) 言語処理装置および方法
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070517

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3961780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140525

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees