JPH11352994A - 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 - Google Patents
統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置Info
- Publication number
- JPH11352994A JPH11352994A JP10165030A JP16503098A JPH11352994A JP H11352994 A JPH11352994 A JP H11352994A JP 10165030 A JP10165030 A JP 10165030A JP 16503098 A JP16503098 A JP 16503098A JP H11352994 A JPH11352994 A JP H11352994A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- unit
- statistical
- class
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 abstract description 27
- 230000001143 conditioned effect Effects 0.000 abstract 1
- 230000015654 memory Effects 0.000 description 44
- 238000012937 correction Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 241000448472 Gramma Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000005975 antitumor immune response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- MUDCDMMNYVJLEB-UHFFFAOYSA-N methyl 2-(3-amino-4,5-dibromo-6-iminoxanthen-9-yl)benzoate;hydrochloride Chemical compound Cl.COC(=O)C1=CC=CC=C1C1=C2C=CC(=N)C(Br)=C2OC2=C(Br)C(N)=CC=C21 MUDCDMMNYVJLEB-UHFFFAOYSA-N 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
な収束を保証することができ、自由度があり、可変長の
シーケンスを同一のクラスで取り扱うことができる。 【解決手段】 単位からなる単位列であるシーケンスを
含む入力データに基づいて、可変長の自然数N1個の単
位列と可変長の自然数N2個の単位列との間のバイグラ
ムであるバイ−マルチグラムの統計的シーケンスモデル
を生成する統計的シーケンスモデル生成装置が開示され
る。すべての単位列の組み合わせのバイグラムの頻度確
率を計数した後、予め決められた数の複数のクラスに分
類する。そして、分類結果に基づいて、EMアルゴリズ
ムを用いて最尤推定値を得るように、かつフォワード・
バックワードアルゴリズムを用いてシーケンス間のバイ
グラムの頻度確率を示す式を用いて再推定することによ
りバイ−マルチグラムの統計的シーケンスモデルを生成
する。
Description
データに基づいて統計的シーケンスモデルを生成する統
計的シーケンスモデル生成装置、学習用テキストデータ
に基づいて統計的言語モデルを生成する統計的言語モデ
ル生成装置、及び上記統計的言語モデルを用いて、入力
される発声音声文の音声信号を音声認識する音声認識装
置に関する。
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、シーケンスモデルである言語モデルを
用いて、次単語を予測し探索空間を削減することによ
り、認識率の向上及び計算時間の削減の効果を狙ったも
のである。ここで、シーケンスとは、具体的には、文字
のシーケンスでは単語であり、単語のシーケンスではフ
レーズ(又は句)である。最近盛んに用いられている言
語モデルとしてN−gram(N−グラム;ここで、N
は2以上の自然数である。)がある。これは、大規模な
テキストデータを学習し、直前のN−1個の単語から次
の単語への遷移確率を統計的に与えるものである。複数
L個の単語列w1 L=w1,w2,…,wLの生成確率P
(w1 L)は次式で表される。
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt|
wt+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味する。
N−gramを用いて連続音声認識の性能を向上させる
手法が盛んに提案されており、そのいくつかのモデルで
は、可変長の単語列にわたる単語の依存性を利用する方
法を用いている。これらのモデルは、共通して従来のN
−gramモデルにみられる固定長の依存性の仮定を緩
和するために用いられており、種々のより広い仮定をカ
バーしている。
統計的文脈自由文法(Stochastic Context Free Gramma
rs)にあるような文法的規則を用いない方法)で導くた
めには、種々の基準を使用する必要があり、例えば、以
下の基準が提案されてきた。 (a)従来技術文献1「K. Ries et al.,”Class phra
se models for languagemodeling”,Proceedings of I
CSLP 96, 1996」において開示されたリーブ・ワン・ア
ウト(leave-one-out)尤度、及び (b)従来技術文献2「H. Masataki et al., Variable
-order n-gram generation by word-class splitting a
nd consecutive word grouping. Proceedings ofICASSP
96,1996」において開示されたエントロピー。
て、尤度の基準を統計的枠組みの中で用いることで、E
M(Expectation Maximum;すなわち、期待値の最大化)
アルゴリズムを用いた最適化の方法を用いることができ
るが、過学習となる傾向がある。また、最適化処理にお
いては、例えば、従来技術文献3「S. Matsunaga et a
l.,”Variable-length language modeling integrating
global constraints”,Proceedings of EUROSPEECH 9
7,1997」において発見的手法を用いられているが、統計
的言語モデルの収束と最適化は理論的に保証されていな
い。
において提案された尤度の基準を用いたときの問題点に
ついて述べると以下の通りである。 <問題点1>単語のシーケンスの頻度確率が貪欲なアル
ゴリズム(greedy algorithm)によって得られるために、
最適な状態に向かう単調な収束が保証されない。 <問題点2>この方法は確定的なものである。つまり、
仮にシーケンス[bcd]がシーケンスの目録(invent
ory)に在れば、入力文字列に”bcd”が発生しても、
これが[bc]+[d]、[b]+[cd]、[b]+
[c]+[d]等のサブシーケンスに分割されることは
ない。言い換えれば、シーケンスへの解析において自由
度が無い。 <問題点3>シーケンスのクラスの定義が先行する単語
のクラス分類を基礎としている。すなわち、まず、単語
が分類され、次に、単語のクラスのラベルの各シーケン
スは、シーケンスのクラスを定義するために使用され
る。従って、同一クラスに長さの違うシーケンスを入れ
ることはできない。例えば、”thank you for”と”tha
nk you very much for”は同じクラスに入らない。
技術文献4「S. Deligne et al.,”Introducing statis
tical dependencies and structural constraints in v
ariable-length sequence models”、In Grammatical In
ference: Learning Syntaxfrom Sentences, Lecture No
tes in Artificial Intelligence 1147, pp.156-167,Sp
ringer,1996」において、可変長のシーケンスであるマ
ルチグラムを用いる統計的言語モデルについて、当該従
来技術文献4の(16)式を用いて、それらのパラメー
タを計算できる可能性だけを示しているが、当該(1
6)式は、実際にディジタル計算機を用いて計算するこ
とができる形式とはなっておらず、実用化することがで
きないという問題点があった。ここで、マルチグラムと
は、他のシーケンスとの依存性を特定しない可変長のシ
ーケンスである。
来例に比較して、最適な状態に向かう単調な収束を保証
することができ、解析結果に自由度があり、可変長のシ
ーケンスを同一のクラスで取り扱うことができ、ディジ
タル計算機を用いて実用的に高速処理して統計的モデル
を生成することができる統計的シーケンスモデル生成装
置、統計的言語モデル生成装置及び音声認識装置を提供
することにある。
ケンスモデル生成装置は、1個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数N1個の単位列と可変長の自然数N2個の
単位列との間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたN1,N2の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備えたことを特徴とする。
置において、上記初期化手段はさらに、上記計数された
バイグラムの頻度確率のうち、所定の頻度確率以下のバ
イグラムの組み合わせのデータを除去することを特徴と
する。
装置において、上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする。
置において、上記式は、上記入力データにおいて、当該
単位列である第2の単位列が第1の単位列に続くときの
単位列のシーケンス間のバイグラムの頻度確率を、上記
入力データにおける処理対象の各単位列に対して計算す
るための式であり、上記シーケンス間のバイグラムの頻
度確率は、第1と第2の単位列を含むすべてのセグメン
ト化での尤度の和を、第1の単位列を含むすべてのセグ
メント化での尤度の和で除算することによって得られ
る。また、ここで、上記式は、上記入力データにおいて
各単位列が発生する平均回数を示す分母と、上記入力デ
ータにおいて第2の単位列が第1の単位列に続くときの
各単位列に対する平均回数を示す分子とを有し、上記分
子は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときの当該単位
列の頻度確率と、上記後方尤度の積の和であり、上記分
母は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときのすべての
単位列の頻度確率と、上記後方尤度の積の和である。
装置において、上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする。
装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の文字であり、上記シーケンス
は単語であり、上記分類手段は、文字列を複数の単語の
列に分類し、上記統計的シーケンスモデルは、統計的言
語モデルであることを特徴とする。
成装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の単語であり、上記シーケンス
はフレーズであり、上記分類手段は、単語列を複数のフ
レーズの列に分類し、上記統計的シーケンスモデルは、
統計的言語モデルであることを特徴とする。
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
上記統計的言語モデル生成装置によって生成された統計
的言語モデルを参照して音声認識することを特徴とす
る。
る実施形態について説明する。以下の実施形態において
は、単位は文字であり、文字のシーケンスである文字列
を単語列に分類する一例、並びに、単位は単語であり、
単語のシーケンスである単語列をフレーズ(句)に分類
する一例について説明しているが、本発明はこれに限ら
ず、単位はDNAであり、DNAのシーケンスであるD
NA列を所定のDNA配列に分類するように構成しても
よい。また、単位は塩基であり、塩基のシーケンスであ
る塩基列を所定のコドンに分類するように構成してもよ
い。
続音声認識装置のブロック図である。本実施形態の連続
音声認識装置は、学習用テキストデータメモリ21に記
憶された文字列であるテキストデータに基づいて、ワー
キングRAM30を用いて、可変長のバイ−マルチグラ
ムの言語モデルを生成する統計的言語モデル生成部20
を備え、ここで、統計的言語モデル生成部20の処理
は、図3に示すように、大きく分けると、ブラウンアル
ゴリズムを用いた分類処理(ステップS3)と、バイ−
マルチグラムを用いた再推定処理(ステップS4)とを
含むことを特徴としている。
生成装置は、1個又は複数の文字からなる文字列のシー
ケンスを含む入力データに基づいて、可変長の自然数N
1個の文字列と可変長の自然数N2個の文字列との間のバ
イグラムであるバイ−マルチグラムの統計的言語モデル
を生成する統計的言語モデル生成装置であり、ここで、
図3に示すように、(a)上記入力データに基づいて、
予め決められたN1,N2の最大値の拘束条件のもとで、
すべての文字列の組み合わせの上記バイグラムの頻度確
率を計数する初期化処理(ステップS2)と、(b)上
記初期化処理によって計数された上記バイグラムの頻度
確率に基づいて、各クラスの対をマージしたときの相互
情報量の損失が最小となるようにマージして各クラスの
頻度確率を更新して予め決められた数の複数のクラスに
分類することにより、分類されたクラスに含まれる文字
列と、分類されたクラスの条件付きの文字列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率を計算
して出力する分類処理(ステップS3)と、(c)上記
分類処理によって得られた分類されたクラスに含まれる
文字列と、分類されたクラスの条件付きの文字列の頻度
確率と、分類されたクラス間のバイグラムの頻度確率と
に基づいて、EMアルゴリズムを用いて、最尤推定値を
得るように再推定し、ここで、フォワード・バックワー
ドアルゴリズムを用いて、処理対象の各文字列に対し
て、時系列的に前方にとり得る処理対象の当該文字列に
対する前方尤度と、当該文字列の直前の文字列を条件と
したときの当該文字列の頻度確率と、時系列的に後方に
とり得る当該文字列に対する後方尤度とに基づいてシー
ケンス間のバイグラムの頻度確率を示す式(数22−数
24)を用いて、当該シーケンス間のバイグラムの頻度
確率を再推定することにより、再推定結果である上記バ
イ−マルチグラムの統計的シーケンスモデルを生成して
出力する再推定処理(ステップS4)と、(d)上記分
類処理と上記再推定処理を所定の終了条件を満たすまで
繰り返し実行するように制御する処理(ステップS5)
を含むことを特徴とする。
づく手法に対向する、フレーズに基づく方法に焦点を当
てる。ここで、複数の文はフレーズに構成され、頻度確
率は、単語に代わってフレーズに割り当てられる。モデ
ルがN−gramに基づくか、フレーズに基づくかに関
わらず、それらは確定的モデルあるいは統計的モデルの
いずれかに該当する。フレーズに基づく枠組みでは、非
確定性はその文の解析結果の曖昧さを通じてフレーズに
導入される。すなわち、これは実際においては、フレー
ズ”abc”がフレーズとして登録されているにもかか
わらず、文字列の解析結果が例えば[ab][c]とな
る確率が皆無でないことを意味する。これとは対照的
に、確定的手法ではa、b、cすべての同時出現はシス
テマティックにフレーズ[abc]の出現と解釈され
る。
の処理は、バイ−マルチグラムを用いて実行され、当該
バイ−マルチグラムの言語モデルは、フレーズに基づく
統計的モデルであり、そのパラメータは尤度基準に従っ
て推定される。
いて説明する。マルチグラムの枠組みでは、T個の単語
からなる文
が連鎖(シーケンス)したものと仮定される。ここで、
SはTs個のフレーズへのセグメント化を示し、s(t)は
セグメント化Sにおける時刻インデックス(最初の語か
らのシリアル番号を示す。)(t)のフレーズとした場
合、WのSでのセグメント化の結果は、次式で表すこと
ができる。
ズからなる辞書は、語彙から1,2…からnにいたるま
での単語を組み合わせて形成されるものであり、ここで
は,次式のように表す。
として、次式のように計算される。
最も尤らしいセグメント化に従って解析され、次の近似
式が得られる。
を仮定し、特定のセグメント化Sの結果の尤度の値を次
式のように計算する。
の依存度を表し、従来のn−gramの表記法のnとし
て使用する。また、符号nmaxは、フレーズの最大長を
表す。従って、ここで、尤度の計算例を次式に示す。こ
の例では、バイ−マルチグラムモデル(nmax=3,n
=2)の”abcd”の尤度を示す。記号#は空のシー
ケンスを表す。
([c]|[b])p([d]|[c])+p([a]|
#)p([b]|[a])p([cd]|[b])+p
([a]|#)p([bc]|[a])p([d]|[b
c])+p([a]|#)p([bcd]|[a])+p
([ab]|#)p([c]|[ab])p([d]|
[c])+p([ab]|#)p([cd]|[ab])+p
([abc]|#)p([d]|[abc])
は、シーケンス”abcd”をセグメント化するときの
すべての組み合わせについての頻度確率の和を表してい
る。
ついて説明する。マルチグラムのn−gramモデル
は、パラメータΘのセットによって完全に定義され、次
式のパラメータΘは、辞書Dsを用いて、
ramの条件付き確率によって構成される。パラメータ
Θのセットの推定値は、例えば、不完全なデータから得
られる想定しうる最大の尤度値、すなわち最尤推定値
(Maximum Likelihood Estimation)として得られ、こ
こで、未知のデータは基礎をなすセグメント化Sであ
る。従って、パラメータΘの反復的な最尤推定値は、公
知のEMアルゴリズム(Expectation Maximization Alg
orithm)によって計算することができる。ここで、Q
(k,k+1)を、反復回数パラメータk及びk+1の
尤度を用いて計算される、次式の補助関数とする。
ように、
る次式の再推定式
Q(k,k+1)を最大化することにより、次式のよう
に直接的に導くことができる。なお、本明細書におい
て、下付きの下付きの表記及び上付きの下付きの表記は
できないので、下層の下付きの表記を省略している。
ント化Sにおける複数のフレーズsi1…sinの組み合わ
せの出現数を示す。数15の再推定式は、バイ−マルチ
グラム(n=2)について詳細後述されるように、フォ
ワード・バックワードアルゴリズム(forward backward
algorithm)(以下、FB法ともいう。)を用いて実行さ
れる。決定指向の方法では、再推定式は、次式のように
簡略化される。
化する文の解析結果であり、ビタビ(Viterbi)アルゴ
リズムによって導かれる。各反復は、尤度L(k)(W)
を増大させる意味において言語モデルを改善し、最終的
には臨界点(おそらくは、局所最大値)へ収束する。モ
デルパラメータΘのセットは、学習用コーパス、すなわ
ち学習用テキストデータにおいて観察されるすべてのフ
レーズの組み合わせの相対的頻度を用いて初期化され
る。
(分類処理)について説明する。従来技術文献1によれ
ば、近年、クラス−フレーズに基づくモデルが注目され
ているが、通常、それは従来の単語クラスタリングを仮
定している。典型的には、各単語はまず、単語が属する
クラスのラベルCkを割り当てられ、単語−クラスラベ
ルの可変長フレーズ[Ck1,Ck2…Ckn]が導かれる。
各可変長フレーズによって、“<[Ck1,Ck2…Ckn]
>”として示されるフレーズが属するクラスのラベルが
定義される。しかしながら、この手法では、同じ長さの
フレーズのみにしか同じフレーズ−クラスラベルを割り
当てることができない。例えば、”thank you for”
と”thank you very much for”というフレーズを同じ
クラスラベルに割り当てることができない。本実施形態
では、このような限界に対する解決法として、単語に代
わり直接フレーズをクラスタリングする方法を提案す
る。この目的を達成するためには、2個のフレーズ間の
バイグラムの相関(nmax=2)を仮定し、上述したバ
イ−マルチグラムモデルの学習手法に変更を加え、各反
復が次の2つの段階より構成されるようにする。
(図3のステップS3に対応する。)
|Ck(sj)),p(k)(sj|Ck(sj))} (II)ステップSS2:マルチグラムの再推定(図3
のステップS4に対応する。)
|Ck(sj))}→{p(k+1)(sj|si)}
ラムの頻度確率を入力とし、クラスバイグラムの頻度確
率を出力する。クラス割り当ては、例えば、従来技術文
献5「P. F. Brown et al., ”Class-based n-gram mod
els of natural language”,Computational Linguistic
s, Vol.18,No.4,pp.467-479,1992」によれば、隣り合う
フレーズ間の相関情報を最大化することによって行われ
る。ここで、クラスタリングの候補は単語ではなくフレ
ーズとする。上述のように、{p(0)(sj|si)}
は、学習用テキストデータにおけるフレーズの同時出現
の相対的頻度を用いて初期化される。上記ステップSS
2では、マルチグラムの再推定式(数15)又はその近
似式(数16)を用いてフレーズの頻度確率を再推定す
る。ここで、唯一の違いは、解析結果の尤度は以下の式
により計算される。
(sj|si)に対する処理と同様に、頻度確率p
(k)(Ck(sj)|Ck(si))×p(k)(sj|Ck(sj))に基
づいて頻度確率p(k+1)(sj|si)を再推定すること
に等しい。
て、現在のフレーズ分布に関し、相互情報量の基準に基
づくクラス割り当てが最適化されるよう保証され、上記
ステップSS2によって、現在のクラスの頻度確率を用
いて、上記数19に従って、計算された尤度がフレーズ
の頻度確率により最適化されるよう保証される。学習デ
ータは、従って、完全に統合化された方法により連合的
(paradigmatic)かつ統合的(syntagmatic)(それぞ
れ言語学の用語である。)レベルの双方において反復的
に構成される。すなわち、クラス割り当てにより表現さ
れるフレーズ間の連合的関係はフレーズの頻度確率の再
推定に影響を与え、フレーズの頻度確率は後続するクラ
ス割り当てを決定する。
ルチグラムのパラメータの推定のために、フォワード・
バックワードアルゴリズム(FB法)を用いる。これに
ついて、以下に、詳述する。
アルゴリズムを用いて、nmaxをシーケンスの最大長と
し、Tをコーパス(学習用テキストデータ)の語数とし
て、複雑さの度合いであるコンプレキシティO(nmax 2
T)で計算することができる。ここで、コンプレキシテ
ィO(nmax 2T)は計算コストのオーダーに対応する。
すなわち、当該数15の計算コストは、シーケンスの最
大長nmaxの2乗に比例し、コーパスの語数に比例す
る。本実施形態においては、基本的には、セグメント化
{S}のセットではなく、単語のタイムインデックス
(t)にわたって加算を行い、数15の分子及び分母を
計算する。ここで、当該計算は、次式の前方向の変数α
(t,li)及び後ろ方向の変数β(t,lj)の定義に
依存する。
(t-li+1) (t)])
(t-lj+1) (t)])
個の単語の尤度を表し、ここで、最後のli個の単語は、
1つのシーケンスを形成するように制限される。また、
後ろ方向の変数β(t,lj)は、最後の(T−t)個
の語の条件付き尤度を示し、最後の(T−t)個の単語
は、シーケンス[w(t-lj+1)…w(t)]に後続する。こ
こで、例えば、W(1) (t-li)は、時刻インデックス
(1)から(t−li)までの単語からなる単語列を表
す。そして、解析結果の尤度は、数7によって計算され
ると仮定すると、数15は次式のように書き換えられ
る。
si及びsjの長さを示す。クロネッカー関数δk(t)
は、時刻インデックスtで開始する単語のシーケンスが
skであるときは1となる一方、そうでない場合は0と
なる関数である。また、変数α及びβは以下の反復式
(又は帰納式)によって計算できる。ここで、時刻イン
デックスt=0及びt=T+1においてそれぞれ開始及
び終了シンボルを仮定する。
(0,nmax)=0 である。
…=β(T+1,nmax)=0 である。
算される場合、すなわち、数19に従って計算される場
合は、再推定式(数22−数24)の項p(k)(sj|s
i)はそのクラスの等価物、すなわちp(k)(Ck(sj)|
Ck(si))p(k)(sj|Ck(sj))に置き換えられる。α
の反復式において、項p([W(t-li+1) (t)]|[W
(t-li-l+1) (t-li)])は、シーケンス
[W(t-li+1) (t)]のクラスの条件付き確率を乗算した
対応するクラスのバイグラム確率に置き換えられる。同
様の変形を反復式における変数βについても行う。
バックワードアルゴリズムを用いた再推定処理につい
て、一例を参照して、以下に詳述する。前方向及び後ろ
方向(以下、前後方向という。)の再推定処理は、数2
2の分子の加算、及び分母の加算が、可能な解析結果集
合{S}に代わって、学習データにおける単位の時刻イ
ンデックスtについて計算されるように、数15におけ
る複数の項を配列し直して行う。この方法は、前方向の
変数α及び後ろ方向の変数βの定義に依存している。 (a)下記のパラグラフ<<A1>>では、クラスのな
いことを仮定している。 (b)下記のパラグラフ<<A1.1>>では、変数α
及びβを定義し、例を提供する。 (c)下記のパラグラフ<<A1.2>>では、変数α
及びβを使用した頻度確率に関する前後方向の再推定に
ついて例示する。 (d)下記のパラグラフ<<A1.3>>では、反復
(又は帰納)による変数αとβの計算方法に関して例示
する。 (e)下記のパラグラフ<<A2>>では、クラスが存
在する場合のパラグラフ<<A1.2>>及び<<A
1.3>>の修正方法を示す。 (f)下記の例はすべて、次の表に示すデータに基づい
ている。
方向の変数βの定義 変数α(t,l)は、長さlのシーケンスで終了する、
時刻インデックス(t)までのデータの尤度である。例
えば、変数α(9,3)は、シーケンス「o ne s i x o
_n_e」の尤度である。また、変数β(t,l)は、長さ
lのシーケンスが時刻インデックス(t)で終了すると
いうことが知られているときに、時刻インデックス(t
+1)で開始されるデータの条件つき尤度である。例え
ば、変数β(9,3)は、先行するシーケンスが「o_n_
e」であるときの、シーケンス「e i g h t s i x t h r
e e tw o」の尤度である。反復又は帰納による変数α
及びβの計算方法に関する例を、下記のパラグラフ<<
A1.3>>に示す。
率の再推定 例として、上記の学習データ例に関する、変数α及びβ
を使用した頻度確率p(o_n_e|s_i_x)の再推定式を示
す。頻度確率p(o_n_e|s_i_x)の一般的な再推定式
(数15))は次のような意味を持つ。 (a)分子は、学習データにおいてシーケンス「o_n_
e」がシーケンス「s_i_x」に続く平均回数である。 (b)分母は、学習データにおいてシーケンス「s_i_
x」が発生する平均回数である。 (c)ここで、平均回数の値は、学習データのシーケン
スにおけるすべての可能な解析結果について求める。
用いた再推定式(数22−24)の分子(数23)及び
分母(数24)はそれぞれ、数15の分子及び分母に等
しいが、これらは解析結果集合にわたる加算ではなく、
時刻インデックスにわたる加算によって計算したもので
ある。再推定式(数15)の分子では、「s_i_x」と「o
_n_e」の2個のシーケンスが連続して発生する毎に、各
可能な解析結果の尤度が加算される。一方、フォワード
・バックワードアルゴリズムを用いた再推定式(数22
−数24)においては、「s_i_x」と「o_n_e」の2個の
シーケンスが連続して発生し、また、シーケンス「o_n_
e」が時刻インデックス(t+1)で開始するようなす
べての解析結果の尤度値をまずグループ化して、加算す
る。時刻インデックスtまで加算した時点で加算計算は
完了する。
個のシーケンスが連続して発生し、しかもシーケンス
「o_n_e」が時刻インデックス(7)でのみ開始してい
る。ここで、「s_i_x」と「o_n_e」の2個のシーケンス
が連続して発生し、また、時刻インデックス(7)でシ
ーケンス「o_n_e」が開始するようなすべての解析結果
の尤度値の和は、シーケンス「o n e s_i_x o_n_e e i
g h t s i x t h r e et w o」の尤度であり、これは、
次式に等しい。
反復回数パラメータ(k)における頻度確率である。ま
た、前方向の変数αの定義により、変数α(6,3)は
シーケンス「o n e s_i_x」の尤度であり、さらに、後
ろ方向の変数βの定義により、変数β(9,3)は、シ
ーケンス「o_n_e」が得られたときの、シーケンス「ei
g h t s i x t h r e e t w o」の尤度である。
度を、シーケンス「s_i_x」がこの解析において発生す
るのと同じ回数で加算する。等価である、フォワード・
バックワードアルゴリズムを用いた前後方向の定式化で
は、シーケンス「s_i_x」が発生し、時刻インデックス
(t)で終了するすべての全解析結果の尤度値をまずグ
ループ化した後に加算し、時刻インデックスtを越えた
時点で加算を終了する。
時刻インデックス(6)と時刻インデックス(17)で
終了するように発生している。シーケンス「s_i_x」が
時刻インデックス(6)で終了するように発生するすべ
ての解析結果の尤度値の加算は、シーケンス「o n e s_
i_x o_n_e e i g h t s i x t h r e e t w o」の尤度
であり、これは次式に等しい。
数α(6,3)はシーケンス「o ne s_i_x」の尤度であ
り、後ろ方向の変数βの定義により、変数β(9,3)
は、シーケンス「o_n_e」が与えられたときの、シーケ
ンス「e i g h t s i x t hr e e t w o」の尤度であ
る。
てシーケンス「s_i_x」が終了するすべての解析結果の
尤度値の加算は、シーケンス「o n e s i x o n e e i
g ht s_i_x t_h_r_e_e t w o」の尤度であり、これは次
式に等しい。
数α(17,3)はシーケンス「on e s i x o n e e i
g h t s_i_x」の尤度であり、後ろ方向の変数βの定義
により、変数β(22,5)は、シーケンス「t_h_r_e_
e」が与えられたときの、シーケンス「t w o」の尤度で
ある。
s i x t h r e e t w o」なる学習データにおける、反
復回数パラメータ(k+1)における頻度確率p(o_n_e
│s_i_x)に対する、フォワード・バックワードアルゴリ
ズムを用いた再推定式は次式のようになる。
おける特徴は、フォワード・バックワードアルゴリズム
を用いて、数23及び数24を含む数22を定式化した
ことにあるが、当該特徴とする数式は、以下の意味を有
する。当該式は、入力データにおいて、当該単位列であ
る第2の単位列が第1の単位列に続くときの単位列のシ
ーケンス間のバイグラムの頻度確率を、上記入力データ
における処理対象の各単位列に対して計算するための式
であり、上記シーケンス間のバイグラムの頻度確率は、
第1と第2の単位列を含むすべてのセグメント化での尤
度の和を、第1の単位列を含むすべてのセグメント化で
の尤度の和で除算することによって得られる。また、上
記式は、上記入力データにおいて各単位列が発生する平
均回数を示す分母と、上記入力データにおいて第2の単
位列が第1の単位列に続くときの各単位列に対する平均
回数を示す分子とを有し、上記分子は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときの当該単位列の頻度確率と、上記
後方尤度の積の和であり、上記分母は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときのすべての単位列の頻度確率と、
上記後方尤度の積の和である。
向の変数βの計算例 例として、データ「o n e s i x o n e e i g h t s i
x t h r e e t w o」について変数α(9,3)と変数
β(9,3)を以下に計算する。ここで、変数α(9,
3)は、シーケンス「o n e s i x o_n_e」の尤度であ
り、このシーケンスは、時刻インデックス9までのシー
ケンスであって、最後尾において長さ3のシーケンスを
有する。また、変数β(9,3)は、シーケンス「o_n_
e」が与えられたときの、シーケンス「e i g h t s i x
t h r e e t w o」の条件つき尤度であり、このシーケ
ンスは、時刻インデックス9以降のシーケンスであっ
て、先行するシーケンス”o_n_e”は予め知られてい
る。
変数)α(9,3)は、次式で計算される。なお、シー
ケンス(系列)の長さの最大値を”5”に指定した場合
について考える。
n_e_s_i_x) (b)e_s_i_xについて:α(6,4)×p(o_n_e|e_
s_i_x) (c)s_i_xについて:α(6,3)×p(o_n_e|s_i_
x) (d)i_xについて:α(6,2)×p(o_n_e|i_x) (e)xについて:α(6,1)×p(o_n_e|x)
の後方の尤度(後方の変数)β(9,3)は、次式で計
算される。
β(9+5,5)(b)e_i_g_hについて:p(e_i_g_h
|o_n_e)×β(9+4,4)(c)e_i_gについて:p
(e_i_g|o_n_e)×β(9+3,3)(d)e_iについ
て:p(e_i|o_n_e)×β(9+2,2)(e)eにつ
いて:p(e|o_n_e)×β(9+1,1)
イグラムの確率部分を、以下のように置き換えることに
よって変数α,βが計算される。 (a)p(o_n_e|n_e_s_i_x)は、p(class of o_n_e
|class of n_e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。 (b)p(o_n_e|e_s_i_x)は、p(class of o_n_e
| class of e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。(c)p(o_n_e|s_i_x)
は、p(class of o_n_e|class of s_i_x)×p(o_n_
e|class of o_n_e)と取って換えられる。 (d)p(o_n_e|i_x)は、p(class of o_n_e|clas
s of i_x)×p(o_n_e|class of o_n_e)と取って換
えられる。 (e)p(o_n_e|x)は、p(class of o_n_e|class
of x)×p(o_n_e|class of o_n_e)と取って換えら
れる。 (f)p(e_i_g_h_t|o_n_e)は、p(class of e_i_g
_h_t|class of o_n_e)×p(e_i_g_h_t|class of e_
i_g_h_t)と取って換えられる。 (g)p(e_i_g_h|o_n_e)は、p(class of e_i_g_h
|class of o_n_e)×p(e_i_g_h|class of e_i_g_
h)と取って換えられる。 (h)p(e_i_g|o_n_e)は、p(class of e_i_g|cl
ass of o_n_e)×p(e_i_g|class of e_i_g)と取っ
て換えられる。 (i)p(e_i|o_n_e)は、p(class of e_i|class
of o_n_e)×p(e_i|class of e_i)と取って換えら
れる。 (j)p(e|o_n_e)は、p(class of e|class of o
_n_e)×p(e|class of e)と取って換えられる。
1の統計的言語モデル生成部20によって実行される統
計的言語モデル生成処理を示すフローチャートである。
ここで、統計的言語モデル生成部20は、図1に示すよ
うに、次のメモリ31乃至36に区分されたワーキング
RAM30を備える。 (a)パラメータメモリ31:当該生成処理で用いる種
々の設定パラメータを記憶するメモリである。 (b)シーケンス頻度確率メモリ32:計算された各シ
ーケンスの頻度確率を記憶するメモリである。 (c)クラス定義メモリ33:推定された各クラスに属
する文字列を記憶するメモリである。 (d)クラス条件付き頻度確率メモリ34:推定された
各クラスに属する各文字列に対する頻度確率、すなわ
ち、クラスの条件付きのクラス間の文字列の頻度確率を
記憶するメモリである。 (e)クラスバイグラム頻度確率メモリ35:クラスの
バイグラムの頻度確率を記憶するメモリである。 (f)セグメント化されたシーケンスメモリ36:再推
定処理後のセグメント化されたシーケンス(文字列)を
記憶するメモリである。
学習用テキストデータメモリ21からテキストデータを
読み込む。ここで、入力される学習用テキストデータ
は、離散的な単位のシーケンスであり、ここで、単位と
は例えば、文字であり、シーケンスは単語又は文となり
得る文字列である。また、予め下記の入力パラメータが
設定されてパラメータメモリ31に記憶されている。 (a)シーケンスの最大長(単位の数で表す。)、
(b)再推定処理後のクラス数、(c)廃棄するシーケ
ンス数のしきい値(すなわち、廃棄するシーケンスの発
生数の最小値)、及び(d)終了条件。ここで、終了条
件は、例えば、反復回数kのしきい値である。
行される。入力された学習用テキストデータにおいて、
複数の単位からなるシーケンスの相対的な頻度を計数し
て、それに基づいて各シーケンスの頻度確率を初期設定
する。また、上記設定された廃棄するシーケンス数のし
きい値以下のシーケンスについては廃棄する。そして、
反復回数パラメータkを0にリセットする。
ゴリズムを用いた分類処理を実行する。この分類処理で
は、反復回数パラメータkのときの各シーケンスの頻度
確率に基づいて、クラス間の相互情報量の損失が最小と
なるように、反復回数パラメータkのときの、クラス定
義、クラス条件付きクラス間のシーケンスの頻度確率、
及びクラスバイグラムの頻度確率を計算してそれぞれメ
モリ32乃至35に出力して記憶する。この処理におけ
る分類基準は、隣接するシーケンス間の相互情報量であ
り、上述のアルゴリズムを用いる。これらの相互情報量
とアルゴリズムは、隣接する単語の場合に対して、ブラ
ウンによって提案されており、本実施形態では、ブラウ
ンアルゴリズムを用いる。しかしながら、本発明はこれ
に限らず、単位の頻度確率を基礎とする他の分類アルゴ
リズムを使用することができる。
ド・バックワードアルゴリズムを参照して得られた数2
2−数24を用いて、バイ−マルチグラムを用いた再推
定処理を実行する。この処理では、直前のステップS3
で計算された、反復回数パラメータkのときの、クラス
定義、クラス条件付きクラス間のシーケンスの頻度確
率、及びクラスバイグラムの頻度確率に基づいて、次の
反復パラメータのときのシーケンス間のバイグラムの頻
度確率の最尤推定値を得るように、反復回数パラメータ
(k+1)のときの、各シーケンスの頻度確率を再推定
して計算して、メモリ32に出力して記憶する。この処
理における処理基準は、上記数22−数24を用いて、
すなわち、複数のシーケンスのクラスとバイグラムの依
存性を仮定して計算された解析結果の尤度の中の最大値
である最尤推定値を基準値として用いることであり、再
推定のためのアルゴリズムとしてEMアルゴリズムを用
いる。
を満足するか否かが判断され、NOのときは、ステップ
S6で反復回数パラメータkを1だけインクリメントし
てステップS3及びS4の処理を繰り返す。一方、ステ
ップS5でYESであれば、生成された統計的言語モデ
ルのデータを統計的言語モデルメモリ22に出力して記
憶する。ここで、生成された統計的言語モデルのデータ
とは、各シーケンスの頻度確率に関するデータであり、
具体的には、下記のデータである。 (a)入力されたデータを複数のシーケンスにセグメン
ト化したときの最尤推定値を有する各シーケンスのデー
タ; (b)クラス定義、すなわち、各クラスにおけるシーケ
ンス;及び (c)クラスの頻度確率、すなわち、各クラスのバイグ
ラム確率、各シーケンスのクラス条件付き確率。
ンアルゴリズムを用いた分類処理を示すフローチャート
である。単語の自動分類のために、ブラウン他によって
シーケンスの自動分類に使用するためのアルゴリズム
(例えば、従来技術文献5参照。)が提案されており、
本実施形態では、これを使用する。ブラウンらは、文章
の尤度を最大化するクラスへの分割又はセグメント化
が、隣接する単語間の相互情報量を最大化する分割又は
セグメント化でもあることを示している。彼らは単語の
バイグラム分布を入力とし、単語クラスへの分割及びク
ラス分布を出力する貪欲なアルゴリズム(greedy algori
thm)を提案している。一方、本発明者は、入力としてバ
イ−マルチグラムの頻度確率の分布(すなわち、シーケ
ンスのバイグラムの頻度確率の分布)を採用することに
より、このアルゴリズムを適用している。出力は、シー
ケンスのクラスへのセグメント化及びその各シーケンス
の頻度確率の分布である。
単語のクラスタリングについて詳細説明する(例えば、
従来技術文献6「北研二ほか著,”音声言語処理”,森
北出版,pp.110−113,1996年11月15
日発行」参照。)。ここでは、隣接する単語に基づく単
語の分類法として、クラス間の相互情報量を最大にする
方法について説明する。相互情報量に基づくクラスタリ
ングは、バイグラムのクラスモデルにおいて単語をクラ
スへ分割する最尤な方法は、隣接するクラスの平均相互
情報量を最大にするようなクラス割り当てであること
を、理論的な根拠としている。N−gramのクラスモ
デルとは、次式のように、単語のクラスのN−gram
とクラス別の単語の出現分布の組み合わせで、単語のN
−gramを近似する言語モデルのことである(この式
は、単語クラスを品詞に置き換えれば、形態素解析にお
けるHMMの式と同じになる。従って、この単語分類法
は、最適な品詞体系を自動的に求める方法とも考えられ
る。
|ci-n+1 i-1)
数πを用いて、V個の単語をC個のクラスに分割すると
仮定する。学習テキストt1 Tが与えられたとき、P(t
2 T|t1)=P(T2|T1)P(t3|t2)…P(tT|
tT-1)を最大にするように関数πを決めればよい。詳
細は省略するが、単語あたりの対数尤度L(π)、単語
のエントロピーH(w)、隣接するクラスの平均相互情
報量I(c1;c2)の間には、近似的に次式の関係が成
り立つ。
ら、L(π)を最大化するためには、I(c1;c2)を
最大化すればよい。いまのところ、平均相互情報量を最
大化するような分割を求めるアルゴリズムは知られてい
ない。しかしながら、本実施形態で用いる次のような貪
欲なアルゴリズム(greedy algorithm)でも、かなり興
味深いクラスタを得ることができる。このように包含関
係を持つクラスタを生成する方法は、階層的クラスタリ
ングと呼ばれる。これに対して、k平均アルゴリズムの
ように、重なりを持たないクラスタを生成する方法は非
階層的クラスタリングと呼ばれる。
単語が一つのクラスになる。すなわち、クラスが併合さ
れる順序から、単語を葉とする二分木ができる。 1.すべての単語に対して、一つのクラスを割り当て
る。 2.可能な二つのクラスの組み合わせの中で、平均相互
情報量の損失を最小にする組み合わせを選択し、これら
を一つのクラスに併合する。 3.ステップ2をV−C回繰り返すとC個のクラスが得
られる。
階層構造は樹形図(dendrogram)と呼ばれるが、自然言
語処理ではこれをシソーラスの代わりに使うことができ
る。単純に考えると、この準最適なアルゴリズムは、語
彙数Vに対してV5の計算量を必要とする。しかし、
(1)二つのクラスタを併合したときの情報量の変化だ
けを求めればよいことや、(2)二つのクラスタの併合
により相互情報量が変化するのは全体の一部に過ぎない
ことを利用すれば、O(V3)の計算、すなわち、繰り
返し回数Vの三乗に比例するオーダーの計算コストで済
む。
す図4において、まず、ステップS11では、初期設定
処理が実行され、各シーケンスをその自らのクラスに割
り当てる。すなわち、各シーケンスsiそれぞれ各クラ
スCiに割り当てる。従って、クラスの初期バイグラム
の頻度確率の分布はシーケンスのバイグラムの頻度確率
の分布に等しく、また、
(Ck,Cl)について、クラスCkとクラスClとをマー
ジしたときの相互情報量の損失を計算した後、ステップ
S13で、相互情報量の損失が最小であるクラスの対を
マージする。そして、ステップS14で、上記マージに
従って、メモリ34及び35に記憶されたクラスの頻度
確率の分布を更新する。次いで、ステップS15で、ス
テップS2の初期化処理で設定された必要なクラス数が
得られたか否かが判断され、NOであるときは、ステッ
プS12に戻り、上記の処理を繰り返す。一方、ステッ
プS15で、YESのときは、元のメインルーチンに戻
る。
音声認識装置の構成及び動作について説明する。図1に
おいて、単語照合部4に接続された音素隠れマルコフモ
デル(以下、隠れマルコフモデルをHMMという。)メ
モリ11内の音素HMMは、各状態を含んで表され、各
状態はそれぞれ以下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ22内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する1つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果として出力す
る。本実施形態においては、好ましくは、処理すべき当
該単語の先頭音素環境とは、当該単語より先行する単語
仮説の最終音素と、当該単語の単語仮説の最初の2つの
音素とを含む3つの音素並びをいう。
目の単語Wi−1の次に、音素列a1,a2,…,an
からなるi番目の単語Wiがくるときに、単語Wi−1
の単語仮説として6つの仮説Wa,Wb,Wc,Wd,
We,Wfが存在している。ここで、前者3つの単語仮
説Wa,Wb,Wcの最終音素は/x/であるとし、後
者3つの単語仮説Wd,We,Wfの最終音素は/y/
であるとする。終了時刻teと先頭音素環境が等しい仮
説(図2では先頭音素環境が“x/a1/a2”である
上から3つの単語仮説)のうち総尤度が最も高い仮説
(例えば、図2において1番上の仮説)以外を削除す
る。なお、上から4番めの仮説は先頭音素環境が違うた
め、すなわち、先行する単語仮説の最終音素がxではな
くyであるので、上から4番めの仮説を削除しない。す
なわち、先行する単語仮説の最終音素毎に1つのみ仮説
を残す。図2の例では、最終音素/x/に対して1つの
仮説を残し、最終音素/y/に対して1つの仮説を残
す。
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
と、単語照合部4と、単語仮説絞込部6と、統計的言語
モデル生成部20とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ21と、統計的言語モデル
メモリ22とは、例えばハードデイスクメモリなどの記
憶装置で構成される。
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
>入力される学習データが、以下のような1000文字
列の場合であり、単位である文字から単語にセグメント
化するための例である。 「o n e s i x o n e e i g h t f i v e z e r o
...」但し、奇数の単語の後には必ず偶数の単語が後続
し、偶数の単語の後には必ず奇数の単語が後続する場合
である。当該実施例における入力パラメータは以下の通
りである。 (a)1個のシーケンスの最大長=5、(b)クラス数
=2、及び(c)廃棄するシーケンスのしきい値=10
0。
おいて、100回を越えて観測した文字のすべての組合
せの相対的な計数値を初期値とする。従って、反復パラ
メータk=0におけるシーケンスの頻度確率の分布の計
数結果は次の表のようになる。なお、各シーケンスのn
b(・)は計数値を表す。
は、反復パラメータk=0のときのシーケンスの頻度確
率の分布であり、当該分類処理における出力データは、
以下のようになる。(a)反復パラメータk=1のとき
のクラス定義
s i x;......;f o u r;f o u r f;...;g h t s;g h t o
n e;e i g h t}
f i v e;t s e v;s e v e n;......;x n i;x n i n e;n
i n e;...}class3=…… (b)反復パラメータk=1のときのクラス条件付き頻
度確率の分布
1),...p(o n e|class 2),p(e s i x o|cl
ass 2),... (c)反復パラメータk=1のときのクラスバイグラム
の頻度確率の分布
メータk=1のときのクラス定義及びクラスの頻度確率
の分布を入力データとし、次に示す反復パラメータk=
1のときのシーケンスの頻度確率の分布を出力する。
における出力結果は以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) ”o n e s i x o n e e i g h t f i v e z e r o
...” (b)クラス定義
s e v e n;n i n e} class2={z e r o;t w o;f o u r;s i x;e i g
h t} (c)クラス条件付きの頻度確率の分布
例>入力される学習データが、自然言語のテキストデー
タによる以下の文、すなわち単語列である場合であっ
て、単位である単語をフレーズにセグメント化する場合
を説明するための実施例である。ここで、<s>は開始
を示す記号であり、</s>は終了を示す記号である。 「<s> good afternoon new washington hotel may i he
lp you ...</s>」ここで、入力パラメータは、以下の通
りである。 (a)シーケンスの最大長=数個の単語(例えば、1乃
至5個の単語、以下の実施例では、4)、(b)クラス
数=1000、及び(c)初期化処理のしきい値=3
0。
おいて、30回を越えて観測した単語のすべての組合せ
の相対的な計数値を初期値とする。従って、反復パラメ
ータk=0におけるシーケンスの頻度確率の分布の計数
結果は次の表のようになる。
以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) 「good_afternoon new_washington_hotel may_i_help_y
ou」 (b)クラス定義
rning;hello ; may i help you...}... class2={new washington hotel ; sheraton ho
tel ; plaza;...}... class1000={give me some ; tell me} (c)クラス条件付き頻度確率の分布
態の装置の性能を実験するために、下記の実験を行っ
た。まず、プロトコル及びデータベースの実験及び実験
結果について述べる。可変長フレーズ間のバイグラム依
存を学習する目的は、従来のワードバイグラムモデルの
限界を改善する一方で、モデル内のパラメータ数を単語
のトライグラムの場合よりも少なくすることにある。従
って、バイ−マルチグラムモデルの評価を行うために適
する基準は、その予測能力、パラメータ数を測定し、従
来のバイグラム、トライグラムモデルのそれらと比較す
ることである。予測能力は通常、次式のパープレキシテ
ィの測定によって評価される。
る。パープレキシティPPが低いほど、モデルの予測が
より高精度であることを示す。統計的モデルでは、実際
には2つのパープレキシティ値PP及びPP*が存在
し、数52の中のL(W)をそれぞれ次式として計算さ
れる。
は、常に正の数又は零であり、文Wの解析結果Sの曖昧
さの度合い、あるいは発話認識機のように最良の解析結
果の尤度を用いて文の尤度に到達する場合は、予測の正
確さにおける損失を測定する。
失(PP*−PP)を評価し、この推定手順自体の影響
力についてフォワード・バックワードアルゴリズム(数
15)又は決定論的方法(数16)を用いて考察する。
最後に、これら結果を従来のn−gramモデルを用い
て得られた結果と比較する。本目的の達成のため、クラ
ークソン((Clarkson)ほか1997年)による公知のCM
Uツールキットを用いる。実験対象として、次の表の本
特許出願人が所有する「旅行の手配」に関するデータを
使用する。
客の間で自発的に行われた旅行/宿泊施設情報について
の対話である。言いよどみの単語、及び間違った開始
は、単一のマーカー“*uh*”にマッピングされる。本
実験において、フレーズの最大長はn=1語から4語ま
で変化させた(n=1ではバイ−マルチグラムは従来の
バイグラムに相当する)。すべてのバイ−マルチグラム
の頻度確率は、6回のトレーニング反復で推定され、初
期化において20回以下、各反復において10回以下の
頻度でしか現れないすべての文を放棄し、フレーズ辞書
の枝刈りを行った。ここで、初期化におけるしきい値が
10−30の範囲にあるとき、本データにおいて、異な
る枝刈り限界値を用いても結果に重大な影響が及ぶこと
はない。反復の場合のしきい値はその約半分である。
は、その推定出現回数にかかわらず維持されるため(フ
レーズsi及びsjが1単語フレーズであり、組み合わせ
c(si,sj)の再推定値が零であると、組み合わせc
(si,sj)は1にリセットされる。)、すべてのワード
バイグラムが最終辞書に現れることになる。さらに、す
べてのn−gram及びフレーズのバイグラム確率は、
ウィッテン(Witten)ほか(1991年)による公知の
Witten-Bellディスカウンティング法を用いて、カッツ
(Katz)(1987年)による公知のバックオフ・スム
ージング法で平滑化される。ここで、Witten-Bellディ
スカウンティング法を選択したのは、本テストデータに
おいて従来のn−gramを用いた場合、最良のパープ
レキシティスコアが得られるためである。
ついて述べる。まず、非決定性の方式の度合いにおいて
は、表4の本特許出願人が所有する「旅行の手配」に関
するデータに対するテストで、フォワード・バックワー
ドアルゴリズムによる学習の後に得られたパープレキシ
ティ値PP*及びPPを次の表に示す。パープレキシテ
ィ値の差(PP*−PP)は通常、パープレキシティの
約1ポイント以内にとどまる。すなわち、単一の最良フ
レーズに依存しても、予測の正確さが大幅に損なわれる
ことがあってはならないことを意味している。
ード・バックワードアルゴリズム又はビタビ推定アルゴ
リズムのいずれかを用いたパープレキシティ値PP*及
びモデルサイズを次の表に示す。
レキシティ値に関する限り、推定方法はほとんど影響を
及ぼさず、フォワード・バックワードアルゴリズムによ
る学習を用いる方がわずかながら有利であるように見え
る。一方、モデルのサイズは、学習終了時に個々のバイ
−マルチグラム数として測定された場合、フォワード・
バックワードアルゴリズムによる学習において約30%
も減少する。すなわち、同じテストパープレキシティ値
に対して、おおよそ40,000対60,000の違い
となる。
ーズ放棄を行う枝刈りのための発見的知識では完全に過
学習を回避できないことを示唆する。確かに、(おそら
くは6から8語にまたがる依存性を意味する)n=3,
4のパープレキシティ値は、(依存性が4語に限定され
る)n=2のときのそれよりも高くなる。他の方法、お
そらくは短いものよりも長いフレーズを不利にするよう
な方法であれば成功ものと考えられる。
は、フォワード・バックワードアルゴリズムによる学習
から得られたパープレキシティ値(PP)、n−gra
mに対するモデルサイズ、及びバイ−マルチグラムを次
の表に示す。
いバイ−マルチグラムパープレキシティスコア(43.
9)は、トライグラムの値よりも依然として高いが、バ
イグラム値(56.0)よりもトライグラム値(40.
4)により近い値となっている。さらに、トライグラム
スコアはディスカウントされた方法に依存する。なお、
線形ディスカウンティング法では、本テストにおけるト
ライグラムのパープレキシティは、48.1であった。
に示さず)は40.8であり、4−gramスコアより
もやや高い。これは、バイ−マルチグラムパープレキシ
ティがn>2(すなわち、依存性が4語以上にわたる場
合)のとき減少しないという事実に一致する。最後に、
バイ−マルチグラムモデルのエントリ数はトライグラム
モデルのエントリ数よりも少なく(45000に対して
75000)、マルチグラムが達成するモデルの正確性
とモデルサイズ間のトレードオフが示されている。
実験結果について述べる。本実験では、フレーズのクラ
スタリングによってパープレキシティスコアは改善され
なかった。パープレキシティの増加が非常に少なくなる
(1ポイント以下)のは、フレーズのほんの一部(10
〜20%)のみがクラスタとなる時であり、これを越え
るとパープレキシティはかなり悪化する。この効果は、
クラス推定が単語推定に統合されない時、n−gram
の枠組みにおいても度々報告されている。しかしなが
ら、フレーズのクラスタリングによって、自然発話を特
徴づける言いよどみの語の挿入等、ことばの非流暢性の
いくつかを自然に扱うことができる。この点を説明する
ために、先ずn=4語までのフレーズを扱うモデルの学
習の間に統合されるフレーズを次の表に列挙する。ここ
で、言いよどみを示す“*uh*”を含むフレーズはこの
表の上部に示す。主に、話者の言いよどみによるフレー
ズの違いは、共に統合されることが多い。
よれば、上記の表はさらに、単語予測とは別に、フレー
ズ検索及びクラスタリングを行う他の動機づけ、すなわ
ちトピックの識別や対話のモデリング、及び言語理解に
関する問題への対応を示している。確かに本実験におけ
るクラスタとなったフレーズは、完全盲目的、すなわち
意味論的/語用論的情報を全くなくして導かれたもので
あるが、クラス内フレーズには強固な意味論的相関関係
が示されている。しかしながら、本手法を音声理解に効
率的に使用できるようにするためには、拘束条件は、例
えばスピーチアクトタグ(speech act tags)のような
いくつかのより高いレベルの情報を用いてフレーズクラ
スタリング処理に設定する必要がある。
ram依存を仮定する可変長フレーズを導くアルゴリズ
ムは、言語モデリングのタスクのために提案され、推定
されてきた。特定タスクの言語コーパスは、文をフレー
ズに構成することによりバイグラムパープレキシティ値
を大幅に減らし、一方で言語モデルにおけるエントリ数
をトライグラムモデルの場合に比べてより低い値に保つ
ことが可能であることを示している。しかしながら、こ
れら結果は、より効率的な枝刈り方法によってさらに改
善され、不要な学習を行わずにより長い依存性について
学習することが可能となる。さらに、語形変化の態様を
簡単に本枠組み内に統合することができるため、異なる
長さを有するフレーズに共通のラベルを割り当てること
が可能である。フレーズの意味論的関係が統合されるの
で、本手法は対話モデリングや言語理解の分野において
も用いられる。その場合、意味論的/語用論的情報を用
いれば、フレーズクラスを得るための処理に制限を設け
ることができる。
位は英語の文字であり、シーケンスは単語であり、上記
分類処理は、文字列を複数の単語の列に分類し、上記統
計的シーケンスモデルは、統計的言語モデルである。本
発明はこれに限らず、単位は、日本語などの他の自然言
語の文字であってもよい。また、単位は自然言語の単語
であり、シーケンスはフレーズであり、上記分類処理
は、単語列を複数のフレーズの列に分類し、上記統計的
シーケンスモデルは、統計的言語モデルであってもよ
い。
本発明に係る実施形態によれば、以下のような特有の効
果を有する。 (A)EMアルゴリズムを使用して単語のシーケンスの
頻度分布を計算することができ、ML基準を最適化する
ことができる。すなわち、本実施形態のアルゴリズムを
用いられば、必ず、クラスタリングの処理を単調収束さ
せることができて、最適値の解析結果を得ることができ
る。 (B)シーケンス分類の解析を自由にすることができ
る。具体的には、上述のフォワード・バックワードアル
ゴリズムを用いた非決定性の手法を用いるので、自由度
のある解が得られる。なお、当該非決定性の手法を用い
ることができるのは、変数α,βを決めることができる
からである。従って、入力データの尤度を改善すること
により、シーケンス[bcd]が入力シーケンスにあっ
たときに、[bc]+[d]、[b]+[cd]、
[b]+[c]+[d]等の小シーケンスへの分割が可
能である。言い換えれば、あるシーケンスが入力シーケ
ンスに与えられていても、解析は事前に決定されず、す
べては入力データの尤度に依存する、つまり確定的では
なく、入力データの頻度確率に依存してクラスタリング
の処理が行われる。 (C)可変長のシーケンスの自動的分類を行うことがで
きる。ここで、シーケンスの分類を、単語の分類に依存
させない。また、シーケンスの分類を直接的に自動的に
行なって、長さの違う共通のクラスシーケンスに高精度
で分類できる。
従来例に比較して、最適な状態に向かう単調な収束を保
証することができ、自由度があり、可変長のシーケンス
を同一のクラスで取り扱うことができ、ディジタル計算
機を用いて実用的に高速処理することができる統計的シ
ーケンスモデル生成装置、統計的言語モデル生成装置及
び音声認識装置を提供することができる。
シーケンスモデル生成装置によれば、1個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数N1個の単位列と可変長の自
然数N2個の単位列との間のバイグラムであるバイ−マ
ルチグラムの統計的シーケンスモデルを生成する統計的
シーケンスモデル生成装置であって、上記入力データに
基づいて、予め決められたN1,N2の最大値の拘束条件
のもとで、すべての単位列の組み合わせの上記バイグラ
ムの頻度確率を計数する初期化手段と、上記初期化手段
によって計数された上記バイグラムの頻度確率に基づい
て、各クラスの対をマージしたときの相互情報量の損失
が最小となるようにマージして各クラスの頻度確率を更
新して予め決められた数の複数のクラスに分類すること
により、分類されたクラスに含まれる単位列と、分類さ
れたクラスの条件付きの単位列の頻度確率と、分類され
たクラス間のバイグラムの頻度確率を計算して出力する
分類手段と、上記分類処理手段から出力される分類され
たクラスに含まれる単位列と、分類されたクラスの条件
付きの単位列の頻度確率と、分類されたクラス間のバイ
グラムの頻度確率とに基づいて、EMアルゴリズムを用
いて、最尤推定値を得るように再推定し、ここで、フォ
ワード・バックワードアルゴリズムを用いて、処理対象
の各単位列に対して、時系列的に前方にとり得る処理対
象の当該単位列に対する前方尤度と、当該単位列の直前
の単位列を条件としたときの当該単位列の頻度確率と、
時系列的に後方にとり得る当該単位列に対する後方尤度
とに基づいてシーケンス間のバイグラムの頻度確率を示
す式を用いて、当該シーケンス間のバイグラムの頻度確
率を再推定することにより、再推定結果である上記バイ
−マルチグラムの統計的シーケンスモデルを生成して出
力する再推定手段と、上記分類手段の処理と上記再推定
手段の処理を所定の終了条件を満たすまで繰り返し実行
するように制御する制御手段とを備える。従って、本発
明によれば、従来例に比較して、最適な状態に向かう単
調な収束を保証することができ、自由度があり、可変長
のシーケンスを同一のクラスで取り扱うことができ、デ
ィジタル計算機を用いて実用的に高速処理して統計的シ
ーケンスモデルを生成することができる統計的シーケン
スモデル生成装置を提供することができる。
装置によれば、上記統計的シーケンスモデル生成装置に
おいて、上記単位は自然言語の文字であり、上記シーケ
ンスは単語であり、上記分類手段は、文字列を複数の単
語の列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルである。従って、本発明によれば、従来例
に比較して、最適な状態に向かう単調な収束を保証する
ことができ、自由度があり、可変長のシーケンスを同一
のクラスで取り扱うことができ、ディジタル計算機を用
いて実用的に高速処理して統計的言語モデルを生成する
ことができる統計的言語モデル生成装置を提供すること
ができる。
成装置によれば、上記統計的シーケンスモデル生成装置
において、上記単位は自然言語の単語であり、上記シー
ケンスはフレーズであり、上記分類手段は、単語列を複
数のフレーズの列に分類し、上記統計的シーケンスモデ
ルは、統計的言語モデルである。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的言語モデル
を生成することができる統計的言語モデル生成装置を提
供することができる。
よれば、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルを用いて音声認識する音声認識
手段を備えた音声認識装置において、上記音声認識手段
は、上記統計的言語モデル生成装置によって生成された
統計的言語モデルを参照して音声認識する。従って、本
発明によれば、従来例に比較して、最適な状態に向かう
単調な収束を保証することができ、自由度があり、可変
長のシーケンスを同一のクラスで取り扱うことができ、
ディジタル計算機を用いて実用的に高速処理して統計的
言語モデルを生成することができる。また、当該生成さ
れた統計的言語モデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。
装置のブロック図である。
込部6の処理を示すタイミングチャートである。
実行される統計的言語モデル生成処理を示すフローチャ
ートである。
ズムを用いた分類処理を示すフローチャートである。
ケンスモデル生成装置は、1個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数N1個の単位列であるマルチグラムと、
可変長の自然数N2個の単位列であるマルチグラムとの
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、上記入力データに基づいて、予め決められ
たN1,N2の最大値の拘束条件のもとで、すべての単位
列の組み合わせの上記バイグラムの頻度確率を計数する
初期化手段と、上記初期化手段によって計数された上記
バイグラムの頻度確率に基づいて、各クラスの対をマー
ジしたときの相互情報量の損失が最小となるようにマー
ジして各クラスの頻度確率を更新して予め決められた数
の複数のクラスに分類することにより、分類されたクラ
スに含まれる単位列と、分類されたクラスの条件付きの
単位列の頻度確率と、分類されたクラス間のバイグラム
の頻度確率を計算して出力する分類手段と、上記分類処
理手段から出力される分類されたクラスに含まれる単位
列と、分類されたクラスの条件付きの単位列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率とに基
づいて、EMアルゴリズムを用いて、最尤推定値を得る
ように再推定し、ここで、フォワード・バックワードア
ルゴリズムを用いて、処理対象の各単位列に対して、時
系列的に前方にとり得る処理対象の当該単位列に対する
前方尤度と、当該単位列の直前の単位列を条件としたと
きの当該単位列の頻度確率と、時系列的に後方にとり得
る当該単位列に対する後方尤度とに基づいてシーケンス
間のバイグラムの頻度確率を示す式を用いて、当該シー
ケンス間のバイグラムの頻度確率を再推定することによ
り、再推定結果である上記バイ−マルチグラムの統計的
シーケンスモデルを生成して出力する再推定手段と、上
記分類手段の処理と上記再推定手段の処理を所定の終了
条件を満たすまで繰り返し実行するように制御する制御
手段とを備えたことを特徴とする。
シーケンスモデル生成装置によれば、1個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数N1個の単位列であるマルチ
グラムと、可変長の自然数N2個の単位列であるマルチ
グラムとの間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたN1,N2の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備える。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的シーケンス
モデルを生成することができる統計的シーケンスモデル
生成装置を提供することができる。
Claims (9)
- 【請求項1】 1個又は複数の単位からなる単位列であ
るシーケンスを含む入力データに基づいて、可変長の自
然数N1個の単位列と可変長の自然数N2個の単位列との
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、 上記入力データに基づいて、予め決められたN1,N2の
最大値の拘束条件のもとで、すべての単位列の組み合わ
せの上記バイグラムの頻度確率を計数する初期化手段
と、 上記初期化手段によって計数された上記バイグラムの頻
度確率に基づいて、各クラスの対をマージしたときの相
互情報量の損失が最小となるようにマージして各クラス
の頻度確率を更新して予め決められた数の複数のクラス
に分類することにより、分類されたクラスに含まれる単
位列と、分類されたクラスの条件付きの単位列の頻度確
率と、分類されたクラス間のバイグラムの頻度確率を計
算して出力する分類手段と、 上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、 上記分類手段の処理と上記再推定手段の処理を所定の終
了条件を満たすまで繰り返し実行するように制御する制
御手段とを備えたことを特徴とする統計的シーケンスモ
デル生成装置。 - 【請求項2】 上記初期化手段はさらに、上記計数され
たバイグラムの頻度確率のうち、所定の頻度確率以下の
バイグラムの組み合わせのデータを除去することを特徴
とする請求項1記載の統計的シーケンスモデル生成装
置。 - 【請求項3】 上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする請求項1又は2記載の統計的シー
ケンスモデル生成装置。 - 【請求項4】 上記式は、上記入力データにおいて、当
該単位列である第2の単位列が第1の単位列に続くとき
の単位列のシーケンス間のバイグラムの頻度確率を、上
記入力データにおける処理対象の各単位列に対して計算
するための式であり、 上記シーケンス間のバイグラムの頻度確率は、第1と第
2の単位列を含むすべてのセグメント化での尤度の和
を、第1の単位列を含むすべてのセグメント化での尤度
の和で除算することによって得られたことを特徴とする
請求項1乃至3のうちの1つに記載の統計的シーケンス
モデル生成装置。 - 【請求項5】 上記式は、上記入力データにおいて各単
位列が発生する平均回数を示す分母と、上記入力データ
において第2の単位列が第1の単位列に続くときの各単
位列に対する平均回数を示す分子とを有し、 上記分子は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときの当
該単位列の頻度確率と、上記後方尤度の積の和であり、 上記分母は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときのす
べての単位列の頻度確率と、上記後方尤度の積の和であ
ることを特徴とする請求項4記載の統計的シーケンスモ
デル生成装置。 - 【請求項6】 上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする請求項1乃
至5のうちの1つに記載の統計的シーケンスモデル生成
装置。 - 【請求項7】 請求項1乃至6のうちの1つに記載の統
計的シーケンスモデル生成装置において、 上記単位は自然言語の文字であり、上記シーケンスは単
語であり、上記分類手段は、文字列を複数の単語の列に
分類し、上記統計的シーケンスモデルは、統計的言語モ
デルであることを特徴とする統計的言語モデル生成装
置。 - 【請求項8】 請求項1乃至6のうちの1つに記載の統
計的シーケンスモデル生成装置において、 上記単位は自然言語の単語であり、上記シーケンスはフ
レーズであり、上記分類手段は、単語列を複数のフレー
ズの列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルであることを特徴とする統計的言語モデル
生成装置。 - 【請求項9】 入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項7又は8記載の統計的言語
モデル生成装置によって生成された統計的言語モデルを
参照して音声認識することを特徴とする音声認識装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10165030A JP3004254B2 (ja) | 1998-06-12 | 1998-06-12 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
| US09/290,584 US6314399B1 (en) | 1998-06-12 | 1999-04-13 | Apparatus for generating a statistical sequence model called class bi-multigram model with bigram dependencies assumed between adjacent sequences |
| EP99107525A EP0964389A3 (en) | 1998-06-12 | 1999-04-15 | Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10165030A JP3004254B2 (ja) | 1998-06-12 | 1998-06-12 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11352994A true JPH11352994A (ja) | 1999-12-24 |
| JP3004254B2 JP3004254B2 (ja) | 2000-01-31 |
Family
ID=15804520
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10165030A Expired - Fee Related JP3004254B2 (ja) | 1998-06-12 | 1998-06-12 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US6314399B1 (ja) |
| EP (1) | EP0964389A3 (ja) |
| JP (1) | JP3004254B2 (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004362584A (ja) * | 2003-06-03 | 2004-12-24 | Microsoft Corp | テキストおよび音声の分類のための言語モデルの判別トレーニング |
| US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
| JP2006126730A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | 音素単位セットを最適化する方法及びシステム |
| JP2008129318A (ja) * | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
| WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
| US9524295B2 (en) | 2006-10-26 | 2016-12-20 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
| US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
Families Citing this family (86)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
| US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
| JP3426176B2 (ja) * | 1999-12-27 | 2003-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 |
| JP2001249175A (ja) * | 2000-03-06 | 2001-09-14 | Honda Motor Co Ltd | 移動体間距離測定通信方式 |
| US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
| US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
| US6957184B2 (en) * | 2000-07-20 | 2005-10-18 | Microsoft Corporation | Context free grammar engine for speech recognition system |
| US6694296B1 (en) * | 2000-07-20 | 2004-02-17 | Microsoft Corporation | Method and apparatus for the recognition of spelled spoken words |
| US6931376B2 (en) | 2000-07-20 | 2005-08-16 | Microsoft Corporation | Speech-related event notification system |
| US7451075B2 (en) * | 2000-12-29 | 2008-11-11 | Microsoft Corporation | Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon |
| DE10100725C1 (de) * | 2001-01-10 | 2002-01-24 | Philips Corp Intellectual Pty | Automatisches Dialogsystem mit Datenbanksprachmodell |
| JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
| US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
| US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
| US7805302B2 (en) * | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
| US7107207B2 (en) | 2002-06-19 | 2006-09-12 | Microsoft Corporation | Training machine learning by sequential conditional generalized iterative scaling |
| JP2006503351A (ja) * | 2002-09-20 | 2006-01-26 | ボード オブ リージェンツ ユニバーシティ オブ テキサス システム | 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法 |
| US7158983B2 (en) | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
| AU2003271083A1 (en) * | 2002-10-08 | 2004-05-04 | Matsushita Electric Industrial Co., Ltd. | Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method |
| US20040267529A1 (en) * | 2003-06-24 | 2004-12-30 | Aurilab, Llc | N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram |
| US7593845B2 (en) * | 2003-10-06 | 2009-09-22 | Microsoflt Corporation | Method and apparatus for identifying semantic structures from text |
| US8010357B2 (en) * | 2004-03-02 | 2011-08-30 | At&T Intellectual Property Ii, L.P. | Combining active and semi-supervised learning for spoken language understanding |
| CN100454849C (zh) * | 2005-08-05 | 2009-01-21 | 华为技术有限公司 | 下一代网络中的故障检测方法 |
| US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
| US9507778B2 (en) | 2006-05-19 | 2016-11-29 | Yahoo! Inc. | Summarization of media object collections |
| US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
| WO2007138875A1 (ja) * | 2006-05-31 | 2007-12-06 | Nec Corporation | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
| US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
| US7848918B2 (en) * | 2006-10-04 | 2010-12-07 | Microsoft Corporation | Abbreviation expansion based on learned weights |
| US8594702B2 (en) | 2006-11-06 | 2013-11-26 | Yahoo! Inc. | Context server for associating information based on context |
| US9110903B2 (en) | 2006-11-22 | 2015-08-18 | Yahoo! Inc. | Method, system and apparatus for using user profile electronic device data in media delivery |
| US8402356B2 (en) | 2006-11-22 | 2013-03-19 | Yahoo! Inc. | Methods, systems and apparatus for delivery of media |
| US8769099B2 (en) | 2006-12-28 | 2014-07-01 | Yahoo! Inc. | Methods and systems for pre-caching information on a mobile computing device |
| US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
| US8037086B1 (en) | 2007-07-10 | 2011-10-11 | Google Inc. | Identifying common co-occurring elements in lists |
| US8069142B2 (en) | 2007-12-06 | 2011-11-29 | Yahoo! Inc. | System and method for synchronizing data on a network |
| US8671154B2 (en) | 2007-12-10 | 2014-03-11 | Yahoo! Inc. | System and method for contextual addressing of communications on a network |
| US8307029B2 (en) | 2007-12-10 | 2012-11-06 | Yahoo! Inc. | System and method for conditional delivery of messages |
| US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
| US8166168B2 (en) | 2007-12-17 | 2012-04-24 | Yahoo! Inc. | System and method for disambiguating non-unique identifiers using information obtained from disparate communication channels |
| US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
| US9706345B2 (en) | 2008-01-04 | 2017-07-11 | Excalibur Ip, Llc | Interest mapping system |
| US9626685B2 (en) | 2008-01-04 | 2017-04-18 | Excalibur Ip, Llc | Systems and methods of mapping attention |
| US8762285B2 (en) | 2008-01-06 | 2014-06-24 | Yahoo! Inc. | System and method for message clustering |
| US20090182618A1 (en) | 2008-01-16 | 2009-07-16 | Yahoo! Inc. | System and Method for Word-of-Mouth Advertising |
| US8560390B2 (en) | 2008-03-03 | 2013-10-15 | Yahoo! Inc. | Method and apparatus for social network marketing with brand referral |
| US8554623B2 (en) | 2008-03-03 | 2013-10-08 | Yahoo! Inc. | Method and apparatus for social network marketing with consumer referral |
| US8538811B2 (en) | 2008-03-03 | 2013-09-17 | Yahoo! Inc. | Method and apparatus for social network marketing with advocate referral |
| US8589486B2 (en) * | 2008-03-28 | 2013-11-19 | Yahoo! Inc. | System and method for addressing communications |
| US8745133B2 (en) | 2008-03-28 | 2014-06-03 | Yahoo! Inc. | System and method for optimizing the storage of data |
| US8271506B2 (en) | 2008-03-31 | 2012-09-18 | Yahoo! Inc. | System and method for modeling relationships between entities |
| US8452855B2 (en) | 2008-06-27 | 2013-05-28 | Yahoo! Inc. | System and method for presentation of media related to a context |
| US8813107B2 (en) | 2008-06-27 | 2014-08-19 | Yahoo! Inc. | System and method for location based media delivery |
| US8706406B2 (en) | 2008-06-27 | 2014-04-22 | Yahoo! Inc. | System and method for determination and display of personalized distance |
| US8583668B2 (en) | 2008-07-30 | 2013-11-12 | Yahoo! Inc. | System and method for context enhanced mapping |
| US10230803B2 (en) | 2008-07-30 | 2019-03-12 | Excalibur Ip, Llc | System and method for improved mapping and routing |
| US8386506B2 (en) | 2008-08-21 | 2013-02-26 | Yahoo! Inc. | System and method for context enhanced messaging |
| US8281027B2 (en) | 2008-09-19 | 2012-10-02 | Yahoo! Inc. | System and method for distributing media related to a location |
| US8108778B2 (en) | 2008-09-30 | 2012-01-31 | Yahoo! Inc. | System and method for context enhanced mapping within a user interface |
| US9600484B2 (en) | 2008-09-30 | 2017-03-21 | Excalibur Ip, Llc | System and method for reporting and analysis of media consumption data |
| US8032508B2 (en) | 2008-11-18 | 2011-10-04 | Yahoo! Inc. | System and method for URL based query for retrieving data related to a context |
| US8024317B2 (en) | 2008-11-18 | 2011-09-20 | Yahoo! Inc. | System and method for deriving income from URL based context queries |
| US8060492B2 (en) | 2008-11-18 | 2011-11-15 | Yahoo! Inc. | System and method for generation of URL based context queries |
| US9805123B2 (en) | 2008-11-18 | 2017-10-31 | Excalibur Ip, Llc | System and method for data privacy in URL based context queries |
| US9224172B2 (en) | 2008-12-02 | 2015-12-29 | Yahoo! Inc. | Customizable content for distribution in social networks |
| US8055675B2 (en) | 2008-12-05 | 2011-11-08 | Yahoo! Inc. | System and method for context based query augmentation |
| US8166016B2 (en) | 2008-12-19 | 2012-04-24 | Yahoo! Inc. | System and method for automated service recommendations |
| US8150967B2 (en) * | 2009-03-24 | 2012-04-03 | Yahoo! Inc. | System and method for verified presence tracking |
| US10223701B2 (en) | 2009-08-06 | 2019-03-05 | Excalibur Ip, Llc | System and method for verified monetization of commercial campaigns |
| US8914342B2 (en) | 2009-08-12 | 2014-12-16 | Yahoo! Inc. | Personal data platform |
| US8364611B2 (en) | 2009-08-13 | 2013-01-29 | Yahoo! Inc. | System and method for precaching information on a mobile device |
| US9047562B2 (en) * | 2010-01-06 | 2015-06-02 | Nec Corporation | Data processing device, information storage medium storing computer program therefor and data processing method |
| US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
| WO2012145519A1 (en) * | 2011-04-20 | 2012-10-26 | Robert Bosch Gmbh | Speech recognition using multiple language models |
| US8938391B2 (en) | 2011-06-12 | 2015-01-20 | Microsoft Corporation | Dynamically adding personalization features to language models for voice search |
| JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
| KR20130059476A (ko) * | 2011-11-28 | 2013-06-07 | 한국전자통신연구원 | 음성 인식용 탐색 공간 생성 방법 및 장치 |
| US9020911B2 (en) | 2012-01-18 | 2015-04-28 | International Business Machines Corporation | Name search using multiple bitmap distributions |
| HK1205809A1 (en) * | 2012-03-04 | 2015-12-24 | Adam JEFFRIES | Data systems processing |
| US9020806B2 (en) * | 2012-11-30 | 2015-04-28 | Microsoft Technology Licensing, Llc | Generating sentence completion questions |
| US9437189B2 (en) | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
| US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
| US20170235724A1 (en) * | 2016-02-11 | 2017-08-17 | Emily Grewal | Systems and methods for generating personalized language models and translation using the same |
| CN106409291B (zh) * | 2016-11-04 | 2019-12-17 | 南京侃侃信息科技有限公司 | 一种语音搜索列表的实现方法 |
| US11138506B2 (en) | 2017-10-10 | 2021-10-05 | International Business Machines Corporation | Abstraction and portability to intent recognition |
| FR3077656A1 (fr) * | 2018-02-07 | 2019-08-09 | Christophe Leveque | Procede de transformation d’une sequence pour la rendre executable par une machine |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
| US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
| JP2886121B2 (ja) * | 1995-11-10 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル生成装置及び音声認識装置 |
| US5987404A (en) * | 1996-01-29 | 1999-11-16 | International Business Machines Corporation | Statistical natural language understanding using hidden clumpings |
| US6021384A (en) * | 1997-10-29 | 2000-02-01 | At&T Corp. | Automatic generation of superwords |
-
1998
- 1998-06-12 JP JP10165030A patent/JP3004254B2/ja not_active Expired - Fee Related
-
1999
- 1999-04-13 US US09/290,584 patent/US6314399B1/en not_active Expired - Lifetime
- 1999-04-15 EP EP99107525A patent/EP0964389A3/en not_active Withdrawn
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
| US7676365B2 (en) | 2000-12-26 | 2010-03-09 | Microsoft Corporation | Method and apparatus for constructing and using syllable-like unit language models |
| JP2004362584A (ja) * | 2003-06-03 | 2004-12-24 | Microsoft Corp | テキストおよび音声の分類のための言語モデルの判別トレーニング |
| JP2006126730A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | 音素単位セットを最適化する方法及びシステム |
| US9524295B2 (en) | 2006-10-26 | 2016-12-20 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US9830318B2 (en) | 2006-10-26 | 2017-11-28 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
| US11972227B2 (en) | 2006-10-26 | 2024-04-30 | Meta Platforms, Inc. | Lexicon development via shared translation database |
| JP2008129318A (ja) * | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
| US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
| WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3004254B2 (ja) | 2000-01-31 |
| US6314399B1 (en) | 2001-11-06 |
| EP0964389A3 (en) | 2001-12-12 |
| EP0964389A2 (en) | 1999-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3004254B2 (ja) | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 | |
| Odell | The use of context in large vocabulary speech recognition | |
| Ney et al. | Progress in dynamic programming search for LVCSR | |
| Hirsimaki et al. | Importance of high-order n-gram models in morph-based speech recognition | |
| US5870706A (en) | Method and apparatus for an improved language recognition system | |
| JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
| EP3516650A1 (en) | Method and system for training a multi-language speech recognition network, and speech recognition system for performing multi-language speech recognition | |
| JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
| Mousa et al. | Morpheme-based feature-rich language models using deep neural networks for lvcsr of egyptian arabic | |
| JPH11175090A (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
| Demuynck et al. | Extracting, modelling and combining information in speech recognition | |
| Pakoci et al. | Improvements in Serbian speech recognition using sequence-trained deep neural networks | |
| Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system | |
| Ablimit et al. | Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language | |
| JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| Ortmanns et al. | The time-conditioned approach in dynamic programming search for LVCSR | |
| JP2938865B1 (ja) | 音声認識装置 | |
| Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training | |
| JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| Lei et al. | Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition | |
| Breslin | Generation and combination of complementary systems for automatic speech recognition | |
| Deligne et al. | Statistical language modeling with a class-basedn-multigram model | |
| JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| Isotani et al. | Speech recognition using a stochastic language model integrating local and global constraints | |
| Ho et al. | Integrating Long-Distance Language Modeling to Phoneme-to-Text Conversion |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091119 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101119 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111119 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111119 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121119 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131119 Year of fee payment: 14 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |