JPH11352994A - 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 - Google Patents

統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置

Info

Publication number
JPH11352994A
JPH11352994A JP10165030A JP16503098A JPH11352994A JP H11352994 A JPH11352994 A JP H11352994A JP 10165030 A JP10165030 A JP 10165030A JP 16503098 A JP16503098 A JP 16503098A JP H11352994 A JPH11352994 A JP H11352994A
Authority
JP
Japan
Prior art keywords
sequence
unit
statistical
class
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10165030A
Other languages
English (en)
Other versions
JP3004254B2 (ja
Inventor
Derin Sabin
サビン・デリン
Yoshinori Kosaka
芳典 匂坂
Hideji Nakajima
秀治 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP10165030A priority Critical patent/JP3004254B2/ja
Priority to US09/290,584 priority patent/US6314399B1/en
Priority to EP99107525A priority patent/EP0964389A3/en
Publication of JPH11352994A publication Critical patent/JPH11352994A/ja
Application granted granted Critical
Publication of JP3004254B2 publication Critical patent/JP3004254B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 従来例に比較して、最適な状態に向かう単調
な収束を保証することができ、自由度があり、可変長の
シーケンスを同一のクラスで取り扱うことができる。 【解決手段】 単位からなる単位列であるシーケンスを
含む入力データに基づいて、可変長の自然数N1個の単
位列と可変長の自然数N2個の単位列との間のバイグラ
ムであるバイ−マルチグラムの統計的シーケンスモデル
を生成する統計的シーケンスモデル生成装置が開示され
る。すべての単位列の組み合わせのバイグラムの頻度確
率を計数した後、予め決められた数の複数のクラスに分
類する。そして、分類結果に基づいて、EMアルゴリズ
ムを用いて最尤推定値を得るように、かつフォワード・
バックワードアルゴリズムを用いてシーケンス間のバイ
グラムの頻度確率を示す式を用いて再推定することによ
りバイ−マルチグラムの統計的シーケンスモデルを生成
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用シーケンス
データに基づいて統計的シーケンスモデルを生成する統
計的シーケンスモデル生成装置、学習用テキストデータ
に基づいて統計的言語モデルを生成する統計的言語モデ
ル生成装置、及び上記統計的言語モデルを用いて、入力
される発声音声文の音声信号を音声認識する音声認識装
置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、シーケンスモデルである言語モデルを
用いて、次単語を予測し探索空間を削減することによ
り、認識率の向上及び計算時間の削減の効果を狙ったも
のである。ここで、シーケンスとは、具体的には、文字
のシーケンスでは単語であり、単語のシーケンスではフ
レーズ(又は句)である。最近盛んに用いられている言
語モデルとしてN−gram(N−グラム;ここで、N
は2以上の自然数である。)がある。これは、大規模な
テキストデータを学習し、直前のN−1個の単語から次
の単語への遷移確率を統計的に与えるものである。複数
L個の単語列w1 L=w1,w2,…,wLの生成確率P
(w1 L)は次式で表される。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味する。
【0005】ところで、近年、上記統計的言語モデルの
N−gramを用いて連続音声認識の性能を向上させる
手法が盛んに提案されており、そのいくつかのモデルで
は、可変長の単語列にわたる単語の依存性を利用する方
法を用いている。これらのモデルは、共通して従来のN
−gramモデルにみられる固定長の依存性の仮定を緩
和するために用いられており、種々のより広い仮定をカ
バーしている。
【0006】フレーズを純粋に統計的方法(すなわち、
統計的文脈自由文法(Stochastic Context Free Gramma
rs)にあるような文法的規則を用いない方法)で導くた
めには、種々の基準を使用する必要があり、例えば、以
下の基準が提案されてきた。 (a)従来技術文献1「K. Ries et al.,”Class phra
se models for languagemodeling”,Proceedings of I
CSLP 96, 1996」において開示されたリーブ・ワン・ア
ウト(leave-one-out)尤度、及び (b)従来技術文献2「H. Masataki et al., Variable
-order n-gram generation by word-class splitting a
nd consecutive word grouping. Proceedings ofICASSP
96,1996」において開示されたエントロピー。
【0007】
【発明が解決しようとする課題】これらの方法におい
て、尤度の基準を統計的枠組みの中で用いることで、E
M(Expectation Maximum;すなわち、期待値の最大化)
アルゴリズムを用いた最適化の方法を用いることができ
るが、過学習となる傾向がある。また、最適化処理にお
いては、例えば、従来技術文献3「S. Matsunaga et a
l.,”Variable-length language modeling integrating
global constraints”,Proceedings of EUROSPEECH 9
7,1997」において発見的手法を用いられているが、統計
的言語モデルの収束と最適化は理論的に保証されていな
い。
【0008】ここで、さらに、例えば、従来技術文献1
において提案された尤度の基準を用いたときの問題点に
ついて述べると以下の通りである。 <問題点1>単語のシーケンスの頻度確率が貪欲なアル
ゴリズム(greedy algorithm)によって得られるために、
最適な状態に向かう単調な収束が保証されない。 <問題点2>この方法は確定的なものである。つまり、
仮にシーケンス[bcd]がシーケンスの目録(invent
ory)に在れば、入力文字列に”bcd”が発生しても、
これが[bc]+[d]、[b]+[cd]、[b]+
[c]+[d]等のサブシーケンスに分割されることは
ない。言い換えれば、シーケンスへの解析において自由
度が無い。 <問題点3>シーケンスのクラスの定義が先行する単語
のクラス分類を基礎としている。すなわち、まず、単語
が分類され、次に、単語のクラスのラベルの各シーケン
スは、シーケンスのクラスを定義するために使用され
る。従って、同一クラスに長さの違うシーケンスを入れ
ることはできない。例えば、”thank you for”と”tha
nk you very much for”は同じクラスに入らない。
【0009】これを解決するために、本発明者は、従来
技術文献4「S. Deligne et al.,”Introducing statis
tical dependencies and structural constraints in v
ariable-length sequence models”、In Grammatical In
ference: Learning Syntaxfrom Sentences, Lecture No
tes in Artificial Intelligence 1147, pp.156-167,Sp
ringer,1996」において、可変長のシーケンスであるマ
ルチグラムを用いる統計的言語モデルについて、当該従
来技術文献4の(16)式を用いて、それらのパラメー
タを計算できる可能性だけを示しているが、当該(1
6)式は、実際にディジタル計算機を用いて計算するこ
とができる形式とはなっておらず、実用化することがで
きないという問題点があった。ここで、マルチグラムと
は、他のシーケンスとの依存性を特定しない可変長のシ
ーケンスである。
【0010】本発明の目的は以上の問題点を解決し、従
来例に比較して、最適な状態に向かう単調な収束を保証
することができ、解析結果に自由度があり、可変長のシ
ーケンスを同一のクラスで取り扱うことができ、ディジ
タル計算機を用いて実用的に高速処理して統計的モデル
を生成することができる統計的シーケンスモデル生成装
置、統計的言語モデル生成装置及び音声認識装置を提供
することにある。
【0011】
【課題を解決するための手段】本発明に係る統計的シー
ケンスモデル生成装置は、1個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数N1個の単位列と可変長の自然数N2個の
単位列との間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたN1,N2の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備えたことを特徴とする。
【0012】また、上記統計的シーケンスモデル生成装
置において、上記初期化手段はさらに、上記計数された
バイグラムの頻度確率のうち、所定の頻度確率以下のバ
イグラムの組み合わせのデータを除去することを特徴と
する。
【0013】さらに、上記統計的シーケンスモデル生成
装置において、上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする。
【0014】また、上記統計的シーケンスモデル生成装
置において、上記式は、上記入力データにおいて、当該
単位列である第2の単位列が第1の単位列に続くときの
単位列のシーケンス間のバイグラムの頻度確率を、上記
入力データにおける処理対象の各単位列に対して計算す
るための式であり、上記シーケンス間のバイグラムの頻
度確率は、第1と第2の単位列を含むすべてのセグメン
ト化での尤度の和を、第1の単位列を含むすべてのセグ
メント化での尤度の和で除算することによって得られ
る。また、ここで、上記式は、上記入力データにおいて
各単位列が発生する平均回数を示す分母と、上記入力デ
ータにおいて第2の単位列が第1の単位列に続くときの
各単位列に対する平均回数を示す分子とを有し、上記分
子は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときの当該単位
列の頻度確率と、上記後方尤度の積の和であり、上記分
母は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときのすべての
単位列の頻度確率と、上記後方尤度の積の和である。
【0015】さらに、上記統計的シーケンスモデル生成
装置において、上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする。
【0016】また、本発明に係る統計的言語モデル生成
装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の文字であり、上記シーケンス
は単語であり、上記分類手段は、文字列を複数の単語の
列に分類し、上記統計的シーケンスモデルは、統計的言
語モデルであることを特徴とする。
【0017】さらに、本発明に係る統計的言語モデル生
成装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の単語であり、上記シーケンス
はフレーズであり、上記分類手段は、単語列を複数のフ
レーズの列に分類し、上記統計的シーケンスモデルは、
統計的言語モデルであることを特徴とする。
【0018】またさらに、本発明に係る音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
上記統計的言語モデル生成装置によって生成された統計
的言語モデルを参照して音声認識することを特徴とす
る。
【0019】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。以下の実施形態において
は、単位は文字であり、文字のシーケンスである文字列
を単語列に分類する一例、並びに、単位は単語であり、
単語のシーケンスである単語列をフレーズ(句)に分類
する一例について説明しているが、本発明はこれに限ら
ず、単位はDNAであり、DNAのシーケンスであるD
NA列を所定のDNA配列に分類するように構成しても
よい。また、単位は塩基であり、塩基のシーケンスであ
る塩基列を所定のコドンに分類するように構成してもよ
い。
【0020】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。本実施形態の連続
音声認識装置は、学習用テキストデータメモリ21に記
憶された文字列であるテキストデータに基づいて、ワー
キングRAM30を用いて、可変長のバイ−マルチグラ
ムの言語モデルを生成する統計的言語モデル生成部20
を備え、ここで、統計的言語モデル生成部20の処理
は、図3に示すように、大きく分けると、ブラウンアル
ゴリズムを用いた分類処理(ステップS3)と、バイ−
マルチグラムを用いた再推定処理(ステップS4)とを
含むことを特徴としている。
【0021】すなわち、本実施形態の統計的言語モデル
生成装置は、1個又は複数の文字からなる文字列のシー
ケンスを含む入力データに基づいて、可変長の自然数N
1個の文字列と可変長の自然数N2個の文字列との間のバ
イグラムであるバイ−マルチグラムの統計的言語モデル
を生成する統計的言語モデル生成装置であり、ここで、
図3に示すように、(a)上記入力データに基づいて、
予め決められたN1,N2の最大値の拘束条件のもとで、
すべての文字列の組み合わせの上記バイグラムの頻度確
率を計数する初期化処理(ステップS2)と、(b)上
記初期化処理によって計数された上記バイグラムの頻度
確率に基づいて、各クラスの対をマージしたときの相互
情報量の損失が最小となるようにマージして各クラスの
頻度確率を更新して予め決められた数の複数のクラスに
分類することにより、分類されたクラスに含まれる文字
列と、分類されたクラスの条件付きの文字列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率を計算
して出力する分類処理(ステップS3)と、(c)上記
分類処理によって得られた分類されたクラスに含まれる
文字列と、分類されたクラスの条件付きの文字列の頻度
確率と、分類されたクラス間のバイグラムの頻度確率と
に基づいて、EMアルゴリズムを用いて、最尤推定値を
得るように再推定し、ここで、フォワード・バックワー
ドアルゴリズムを用いて、処理対象の各文字列に対し
て、時系列的に前方にとり得る処理対象の当該文字列に
対する前方尤度と、当該文字列の直前の文字列を条件と
したときの当該文字列の頻度確率と、時系列的に後方に
とり得る当該文字列に対する後方尤度とに基づいてシー
ケンス間のバイグラムの頻度確率を示す式(数22−数
24)を用いて、当該シーケンス間のバイグラムの頻度
確率を再推定することにより、再推定結果である上記バ
イ−マルチグラムの統計的シーケンスモデルを生成して
出力する再推定処理(ステップS4)と、(d)上記分
類処理と上記再推定処理を所定の終了条件を満たすまで
繰り返し実行するように制御する処理(ステップS5)
を含むことを特徴とする。
【0022】本実施形態では、単語のN−gramに基
づく手法に対向する、フレーズに基づく方法に焦点を当
てる。ここで、複数の文はフレーズに構成され、頻度確
率は、単語に代わってフレーズに割り当てられる。モデ
ルがN−gramに基づくか、フレーズに基づくかに関
わらず、それらは確定的モデルあるいは統計的モデルの
いずれかに該当する。フレーズに基づく枠組みでは、非
確定性はその文の解析結果の曖昧さを通じてフレーズに
導入される。すなわち、これは実際においては、フレー
ズ”abc”がフレーズとして登録されているにもかか
わらず、文字列の解析結果が例えば[ab][c]とな
る確率が皆無でないことを意味する。これとは対照的
に、確定的手法ではa、b、cすべての同時出現はシス
テマティックにフレーズ[abc]の出現と解釈され
る。
【0023】また、本実施形態では、統計的言語モデル
の処理は、バイ−マルチグラムを用いて実行され、当該
バイ−マルチグラムの言語モデルは、フレーズに基づく
統計的モデルであり、そのパラメータは尤度基準に従っ
て推定される。
【0024】まず、マルチグラムの理論的な定式化につ
いて説明する。マルチグラムの枠組みでは、T個の単語
からなる文
【数2】W=w(1)(2)…w(T) は、それぞれ最大長n個の単語からなる各々のフレーズ
が連鎖(シーケンス)したものと仮定される。ここで、
SはTs個のフレーズへのセグメント化を示し、s(t)
セグメント化Sにおける時刻インデックス(最初の語か
らのシリアル番号を示す。)(t)のフレーズとした場
合、WのSでのセグメント化の結果は、次式で表すこと
ができる。
【数3】(W,S)=s(1)…s(Ts)
【0025】ここで、セグメント化された複数のフレー
ズからなる辞書は、語彙から1,2…からnにいたるま
での単語を組み合わせて形成されるものであり、ここで
は,次式のように表す。
【数4】Ds={sjj そして、文の尤度は、各セグメント化に対する尤度の和
として、次式のように計算される。
【0026】
【数5】
【0027】モデルの決定指向的手法により、文Wは、
最も尤らしいセグメント化に従って解析され、次の近似
式が得られる。
【0028】
【数6】
【0029】ここで、フレーズ間のn−gramの相関
を仮定し、特定のセグメント化Sの結果の尤度の値を次
式のように計算する。
【0030】
【数7】
【0031】ここで、以下、符号nは複数のフレーズ間
の依存度を表し、従来のn−gramの表記法のnとし
て使用する。また、符号nmaxは、フレーズの最大長を
表す。従って、ここで、尤度の計算例を次式に示す。こ
の例では、バイ−マルチグラムモデル(nmax=3,n
=2)の”abcd”の尤度を示す。記号#は空のシー
ケンスを表す。
【0032】
【数8】尤度=p([a]|#)p([b]|[a])p
([c]|[b])p([d]|[c])+p([a]|
#)p([b]|[a])p([cd]|[b])+p
([a]|#)p([bc]|[a])p([d]|[b
c])+p([a]|#)p([bcd]|[a])+p
([ab]|#)p([c]|[ab])p([d]|
[c])+p([ab]|#)p([cd]|[ab])+p
([abc]|#)p([d]|[abc])
【0033】上記数8から明らかなように、当該尤度
は、シーケンス”abcd”をセグメント化するときの
すべての組み合わせについての頻度確率の和を表してい
る。
【0034】次いで、言語モデルのパラメータの推定に
ついて説明する。マルチグラムのn−gramモデル
は、パラメータΘのセットによって完全に定義され、次
式のパラメータΘは、辞書Dsを用いて、
【数9】 Θ={p(sin|si1…sin-1)|si1…sin∈Ds} n個のフレーズのあらゆる組み合わせに関係するn−g
ramの条件付き確率によって構成される。パラメータ
Θのセットの推定値は、例えば、不完全なデータから得
られる想定しうる最大の尤度値、すなわち最尤推定値
(Maximum Likelihood Estimation)として得られ、こ
こで、未知のデータは基礎をなすセグメント化Sであ
る。従って、パラメータΘの反復的な最尤推定値は、公
知のEMアルゴリズム(Expectation Maximization Alg
orithm)によって計算することができる。ここで、Q
(k,k+1)を、反復回数パラメータk及びk+1の
尤度を用いて計算される、次式の補助関数とする。
【0035】
【数10】
【0036】公知のEMアルゴリズムにおいて示される
ように、
【数11】Q(k,k+1)≧Q(k,k) であれば、
【数12】L(k+1)(W)≧L(k)(W) である。従って、反復回数パラメータ(k+1)におけ
る次式の再推定式
【数13】p(k+1)(sin|si1…sin-1) は、次式の拘束条件
【数14】 のもとで、モデルパラメータΘ(k+1)について補助関数
Q(k,k+1)を最大化することにより、次式のよう
に直接的に導くことができる。なお、本明細書におい
て、下付きの下付きの表記及び上付きの下付きの表記は
できないので、下層の下付きの表記を省略している。
【0037】
【数15】
【0038】ここで、c(si1…sin,S)は、セグメ
ント化Sにおける複数のフレーズsi1…sinの組み合わ
せの出現数を示す。数15の再推定式は、バイ−マルチ
グラム(n=2)について詳細後述されるように、フォ
ワード・バックワードアルゴリズム(forward backward
algorithm)(以下、FB法ともいう。)を用いて実行さ
れる。決定指向の方法では、再推定式は、次式のように
簡略化される。
【0039】
【数16】
【0040】ここで、S*(k)は、L(k)(S|W)を最大
化する文の解析結果であり、ビタビ(Viterbi)アルゴ
リズムによって導かれる。各反復は、尤度L(k)(W)
を増大させる意味において言語モデルを改善し、最終的
には臨界点(おそらくは、局所最大値)へ収束する。モ
デルパラメータΘのセットは、学習用コーパス、すなわ
ち学習用テキストデータにおいて観察されるすべてのフ
レーズの組み合わせの相対的頻度を用いて初期化され
る。
【0041】次いで、可変長フレーズのクラスタリング
(分類処理)について説明する。従来技術文献1によれ
ば、近年、クラス−フレーズに基づくモデルが注目され
ているが、通常、それは従来の単語クラスタリングを仮
定している。典型的には、各単語はまず、単語が属する
クラスのラベルCkを割り当てられ、単語−クラスラベ
ルの可変長フレーズ[Ck1,Ck2…Ckn]が導かれる。
各可変長フレーズによって、“<[Ck1,Ck2…Ckn
>”として示されるフレーズが属するクラスのラベルが
定義される。しかしながら、この手法では、同じ長さの
フレーズのみにしか同じフレーズ−クラスラベルを割り
当てることができない。例えば、”thank you for”
と”thank you very much for”というフレーズを同じ
クラスラベルに割り当てることができない。本実施形態
では、このような限界に対する解決法として、単語に代
わり直接フレーズをクラスタリングする方法を提案す
る。この目的を達成するためには、2個のフレーズ間の
バイグラムの相関(nmax=2)を仮定し、上述したバ
イ−マルチグラムモデルの学習手法に変更を加え、各反
復が次の2つの段階より構成されるようにする。
【0042】(I)ステップSS1:クラス割り当て
(図3のステップS3に対応する。)
【数17】{p(k)(sj|si)}→{p(k)(Ck(sj)
|Ck(sj)),p(k)(sj|Ck(sj))} (II)ステップSS2:マルチグラムの再推定(図3
のステップS4に対応する。)
【数18】{p(k)(Ck(sj)|Ck(si)),p(k)(sj
|Ck(sj))}→{p(k+1)(sj|si)}
【0043】上記ステップSS1では、フレーズバイグ
ラムの頻度確率を入力とし、クラスバイグラムの頻度確
率を出力する。クラス割り当ては、例えば、従来技術文
献5「P. F. Brown et al., ”Class-based n-gram mod
els of natural language”,Computational Linguistic
s, Vol.18,No.4,pp.467-479,1992」によれば、隣り合う
フレーズ間の相関情報を最大化することによって行われ
る。ここで、クラスタリングの候補は単語ではなくフレ
ーズとする。上述のように、{p(0)(sj|si)}
は、学習用テキストデータにおけるフレーズの同時出現
の相対的頻度を用いて初期化される。上記ステップSS
2では、マルチグラムの再推定式(数15)又はその近
似式(数16)を用いてフレーズの頻度確率を再推定す
る。ここで、唯一の違いは、解析結果の尤度は以下の式
により計算される。
【0044】
【数19】
【0045】これは、上述したように、頻度確率p(k)
(sj|si)に対する処理と同様に、頻度確率p
(k)(Ck(sj)|Ck(si))×p(k)(sj|Ck(sj))に基
づいて頻度確率p(k+1)(sj|si)を再推定すること
に等しい。
【0046】要約すれば、上記ステップSS1によっ
て、現在のフレーズ分布に関し、相互情報量の基準に基
づくクラス割り当てが最適化されるよう保証され、上記
ステップSS2によって、現在のクラスの頻度確率を用
いて、上記数19に従って、計算された尤度がフレーズ
の頻度確率により最適化されるよう保証される。学習デ
ータは、従って、完全に統合化された方法により連合的
(paradigmatic)かつ統合的(syntagmatic)(それぞ
れ言語学の用語である。)レベルの双方において反復的
に構成される。すなわち、クラス割り当てにより表現さ
れるフレーズ間の連合的関係はフレーズの頻度確率の再
推定に影響を与え、フレーズの頻度確率は後続するクラ
ス割り当てを決定する。
【0047】本実施形態では、上述のように、バイ−マ
ルチグラムのパラメータの推定のために、フォワード・
バックワードアルゴリズム(FB法)を用いる。これに
ついて、以下に、詳述する。
【0048】上記数15は、フォワード・バックワード
アルゴリズムを用いて、nmaxをシーケンスの最大長と
し、Tをコーパス(学習用テキストデータ)の語数とし
て、複雑さの度合いであるコンプレキシティO(nmax 2
T)で計算することができる。ここで、コンプレキシテ
ィO(nmax 2T)は計算コストのオーダーに対応する。
すなわち、当該数15の計算コストは、シーケンスの最
大長nmaxの2乗に比例し、コーパスの語数に比例す
る。本実施形態においては、基本的には、セグメント化
{S}のセットではなく、単語のタイムインデックス
(t)にわたって加算を行い、数15の分子及び分母を
計算する。ここで、当該計算は、次式の前方向の変数α
(t,li)及び後ろ方向の変数β(t,lj)の定義に
依存する。
【0049】
【数20】α(t,li)=L(W(1) (t-li)|[W
(t-li+1) (t)])
【数21】β(t,lj)=L(W(t+1) (T)|[W
(t-lj+1) (t)])
【0050】前方向の変数α(t,li)は、最初のt
個の単語の尤度を表し、ここで、最後のli個の単語は、
1つのシーケンスを形成するように制限される。また、
後ろ方向の変数β(t,lj)は、最後の(T−t)個
の語の条件付き尤度を示し、最後の(T−t)個の単語
は、シーケンス[w(t-lj+1)…w(t)]に後続する。こ
こで、例えば、W(1) (t-li)は、時刻インデックス
(1)から(t−li)までの単語からなる単語列を表
す。そして、解析結果の尤度は、数7によって計算され
ると仮定すると、数15は次式のように書き換えられ
る。
【0051】
【数22】p(k+1)(sj|si)=pc/pd ここで、
【数23】 t=1
【数24】
【0052】ここで、li及びljはそれぞれシーケンス
i及びsjの長さを示す。クロネッカー関数δk(t)
は、時刻インデックスtで開始する単語のシーケンスが
kであるときは1となる一方、そうでない場合は0と
なる関数である。また、変数α及びβは以下の反復式
(又は帰納式)によって計算できる。ここで、時刻イン
デックスt=0及びt=T+1においてそれぞれ開始及
び終了シンボルを仮定する。
【0053】1≦t≦T+1に対して:
【数25】 ここで、
【数26】α(0,1)=1,α(0,2)=…=α
(0,nmax)=0 である。
【0054】0≦t≦Tに対して:
【数27】 ここで、
【数28】β(T+1,1)=1,β(T+1,2)=
…=β(T+1,nmax)=0 である。
【0055】解析結果の尤度がクラスの仮定を用いて計
算される場合、すなわち、数19に従って計算される場
合は、再推定式(数22−数24)の項p(k)(sj|s
i)はそのクラスの等価物、すなわちp(k)(Ck(sj)
k(si))p(k)(sj|Ck(sj))に置き換えられる。α
の反復式において、項p([W(t-li+1) (t)]|[W
(t-li-l+1) (t-li)])は、シーケンス
[W(t-li+1) (t)]のクラスの条件付き確率を乗算した
対応するクラスのバイグラム確率に置き換えられる。同
様の変形を反復式における変数βについても行う。
【0056】次いで、本実施形態におけるフォワード・
バックワードアルゴリズムを用いた再推定処理につい
て、一例を参照して、以下に詳述する。前方向及び後ろ
方向(以下、前後方向という。)の再推定処理は、数2
2の分子の加算、及び分母の加算が、可能な解析結果集
合{S}に代わって、学習データにおける単位の時刻イ
ンデックスtについて計算されるように、数15におけ
る複数の項を配列し直して行う。この方法は、前方向の
変数α及び後ろ方向の変数βの定義に依存している。 (a)下記のパラグラフ<<A1>>では、クラスのな
いことを仮定している。 (b)下記のパラグラフ<<A1.1>>では、変数α
及びβを定義し、例を提供する。 (c)下記のパラグラフ<<A1.2>>では、変数α
及びβを使用した頻度確率に関する前後方向の再推定に
ついて例示する。 (d)下記のパラグラフ<<A1.3>>では、反復
(又は帰納)による変数αとβの計算方法に関して例示
する。 (e)下記のパラグラフ<<A2>>では、クラスが存
在する場合のパラグラフ<<A1.2>>及び<<A
1.3>>の修正方法を示す。 (f)下記の例はすべて、次の表に示すデータに基づい
ている。
【0057】
【表1】 ――――――――――――――――――――――――――――――――――― 入力学習データ(下記): o n e s i x o n e e i g h t s i x t h r e e t w o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 単位の時刻インデックス(上記): ――――――――――――――――――――――――――――――――――― (注)学習データの1つの文字は、1つの時刻インデックスに対応している。
【0058】<<A1.1>>前方向の変数α及び後ろ
方向の変数βの定義 変数α(t,l)は、長さlのシーケンスで終了する、
時刻インデックス(t)までのデータの尤度である。例
えば、変数α(9,3)は、シーケンス「o ne s i x o
_n_e」の尤度である。また、変数β(t,l)は、長さ
lのシーケンスが時刻インデックス(t)で終了すると
いうことが知られているときに、時刻インデックス(t
+1)で開始されるデータの条件つき尤度である。例え
ば、変数β(9,3)は、先行するシーケンスが「o_n_
e」であるときの、シーケンス「e i g h t s i x t h r
e e tw o」の尤度である。反復又は帰納による変数α
及びβの計算方法に関する例を、下記のパラグラフ<<
A1.3>>に示す。
【0059】<<A1.2>>変数α及びβに基づく確
率の再推定 例として、上記の学習データ例に関する、変数α及びβ
を使用した頻度確率p(o_n_e|s_i_x)の再推定式を示
す。頻度確率p(o_n_e|s_i_x)の一般的な再推定式
(数15))は次のような意味を持つ。 (a)分子は、学習データにおいてシーケンス「o_n_
e」がシーケンス「s_i_x」に続く平均回数である。 (b)分母は、学習データにおいてシーケンス「s_i_
x」が発生する平均回数である。 (c)ここで、平均回数の値は、学習データのシーケン
スにおけるすべての可能な解析結果について求める。
【0060】フォワード・バックワードアルゴリズムを
用いた再推定式(数22−24)の分子(数23)及び
分母(数24)はそれぞれ、数15の分子及び分母に等
しいが、これらは解析結果集合にわたる加算ではなく、
時刻インデックスにわたる加算によって計算したもので
ある。再推定式(数15)の分子では、「s_i_x」と「o
_n_e」の2個のシーケンスが連続して発生する毎に、各
可能な解析結果の尤度が加算される。一方、フォワード
・バックワードアルゴリズムを用いた再推定式(数22
−数24)においては、「s_i_x」と「o_n_e」の2個の
シーケンスが連続して発生し、また、シーケンス「o_n_
e」が時刻インデックス(t+1)で開始するようなす
べての解析結果の尤度値をまずグループ化して、加算す
る。時刻インデックスtまで加算した時点で加算計算は
完了する。
【0061】上記の例では、「s_i_x」と「o_n_e」の2
個のシーケンスが連続して発生し、しかもシーケンス
「o_n_e」が時刻インデックス(7)でのみ開始してい
る。ここで、「s_i_x」と「o_n_e」の2個のシーケンス
が連続して発生し、また、時刻インデックス(7)でシ
ーケンス「o_n_e」が開始するようなすべての解析結果
の尤度値の和は、シーケンス「o n e s_i_x o_n_e e i
g h t s i x t h r e et w o」の尤度であり、これは、
次式に等しい。
【数29】
【0062】ここで、第2項のp(o_n_e|s_i_x)は、
反復回数パラメータ(k)における頻度確率である。ま
た、前方向の変数αの定義により、変数α(6,3)は
シーケンス「o n e s_i_x」の尤度であり、さらに、後
ろ方向の変数βの定義により、変数β(9,3)は、シ
ーケンス「o_n_e」が得られたときの、シーケンス「ei
g h t s i x t h r e e t w o」の尤度である。
【0063】数15の分母では、可能な各解析結果の尤
度を、シーケンス「s_i_x」がこの解析において発生す
るのと同じ回数で加算する。等価である、フォワード・
バックワードアルゴリズムを用いた前後方向の定式化で
は、シーケンス「s_i_x」が発生し、時刻インデックス
(t)で終了するすべての全解析結果の尤度値をまずグ
ループ化した後に加算し、時刻インデックスtを越えた
時点で加算を終了する。
【0064】上述の例では、シーケンス「s_i_x」は、
時刻インデックス(6)と時刻インデックス(17)で
終了するように発生している。シーケンス「s_i_x」が
時刻インデックス(6)で終了するように発生するすべ
ての解析結果の尤度値の加算は、シーケンス「o n e s_
i_x o_n_e e i g h t s i x t h r e e t w o」の尤度
であり、これは次式に等しい。
【0065】
【数30】
【0066】ここで、前方向の変数αの定義により、変
数α(6,3)はシーケンス「o ne s_i_x」の尤度であ
り、後ろ方向の変数βの定義により、変数β(9,3)
は、シーケンス「o_n_e」が与えられたときの、シーケ
ンス「e i g h t s i x t hr e e t w o」の尤度であ
る。
【0067】次いで、時刻インデックス(17)におい
てシーケンス「s_i_x」が終了するすべての解析結果の
尤度値の加算は、シーケンス「o n e s i x o n e e i
g ht s_i_x t_h_r_e_e t w o」の尤度であり、これは次
式に等しい。
【0068】
【数31】
【0069】ここで、前方向の変数αの定義により、変
数α(17,3)はシーケンス「on e s i x o n e e i
g h t s_i_x」の尤度であり、後ろ方向の変数βの定義
により、変数β(22,5)は、シーケンス「t_h_r_e_
e」が与えられたときの、シーケンス「t w o」の尤度で
ある。
【0070】従って、「o n e s i x o n e e i g h t
s i x t h r e e t w o」なる学習データにおける、反
復回数パラメータ(k+1)における頻度確率p(o_n_e
│s_i_x)に対する、フォワード・バックワードアルゴリ
ズムを用いた再推定式は次式のようになる。
【0071】
【数32】 ここで、
【数33】
【数34】
【0072】以上説明したように、本発明の実施形態に
おける特徴は、フォワード・バックワードアルゴリズム
を用いて、数23及び数24を含む数22を定式化した
ことにあるが、当該特徴とする数式は、以下の意味を有
する。当該式は、入力データにおいて、当該単位列であ
る第2の単位列が第1の単位列に続くときの単位列のシ
ーケンス間のバイグラムの頻度確率を、上記入力データ
における処理対象の各単位列に対して計算するための式
であり、上記シーケンス間のバイグラムの頻度確率は、
第1と第2の単位列を含むすべてのセグメント化での尤
度の和を、第1の単位列を含むすべてのセグメント化で
の尤度の和で除算することによって得られる。また、上
記式は、上記入力データにおいて各単位列が発生する平
均回数を示す分母と、上記入力データにおいて第2の単
位列が第1の単位列に続くときの各単位列に対する平均
回数を示す分子とを有し、上記分子は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときの当該単位列の頻度確率と、上記
後方尤度の積の和であり、上記分母は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときのすべての単位列の頻度確率と、
上記後方尤度の積の和である。
【0073】<<A1.3>>前方向の変数αと後ろ方
向の変数βの計算例 例として、データ「o n e s i x o n e e i g h t s i
x t h r e e t w o」について変数α(9,3)と変数
β(9,3)を以下に計算する。ここで、変数α(9,
3)は、シーケンス「o n e s i x o_n_e」の尤度であ
り、このシーケンスは、時刻インデックス9までのシー
ケンスであって、最後尾において長さ3のシーケンスを
有する。また、変数β(9,3)は、シーケンス「o_n_
e」が与えられたときの、シーケンス「e i g h t s i x
t h r e e t w o」の条件つき尤度であり、このシーケ
ンスは、時刻インデックス9以降のシーケンスであっ
て、先行するシーケンス”o_n_e”は予め知られてい
る。
【0074】シーケンス”o_n_e”までの尤度(前方の
変数)α(9,3)は、次式で計算される。なお、シー
ケンス(系列)の長さの最大値を”5”に指定した場合
について考える。
【数35】α(9,3)=下記の加算値 (a)n_e_s_i_xについて:α(6,5)×p(o_n_e|
n_e_s_i_x) (b)e_s_i_xについて:α(6,4)×p(o_n_e|e_
s_i_x) (c)s_i_xについて:α(6,3)×p(o_n_e|s_i_
x) (d)i_xについて:α(6,2)×p(o_n_e|i_x) (e)xについて:α(6,1)×p(o_n_e|x)
【0075】シーケンス”o_n_e”の条件のもとでのそ
の後方の尤度(後方の変数)β(9,3)は、次式で計
算される。
【数36】β(9,3)=下記の加算値 (a)e_i_g_h_tについて:p(e_i_g_h_t|o_n_e)×
β(9+5,5)(b)e_i_g_hについて:p(e_i_g_h
|o_n_e)×β(9+4,4)(c)e_i_gについて:p
(e_i_g|o_n_e)×β(9+3,3)(d)e_iについ
て:p(e_i|o_n_e)×β(9+2,2)(e)eにつ
いて:p(e|o_n_e)×β(9+1,1)
【0076】<<A2>>クラスの事例 シーケンスがクラスに属するケースでは、上述の例のバ
イグラムの確率部分を、以下のように置き換えることに
よって変数α,βが計算される。 (a)p(o_n_e|n_e_s_i_x)は、p(class of o_n_e
|class of n_e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。 (b)p(o_n_e|e_s_i_x)は、p(class of o_n_e
| class of e_s_i_x)×p(o_n_e|class of o_n_
e)と取って換えられる。(c)p(o_n_e|s_i_x)
は、p(class of o_n_e|class of s_i_x)×p(o_n_
e|class of o_n_e)と取って換えられる。 (d)p(o_n_e|i_x)は、p(class of o_n_e|clas
s of i_x)×p(o_n_e|class of o_n_e)と取って換
えられる。 (e)p(o_n_e|x)は、p(class of o_n_e|class
of x)×p(o_n_e|class of o_n_e)と取って換えら
れる。 (f)p(e_i_g_h_t|o_n_e)は、p(class of e_i_g
_h_t|class of o_n_e)×p(e_i_g_h_t|class of e_
i_g_h_t)と取って換えられる。 (g)p(e_i_g_h|o_n_e)は、p(class of e_i_g_h
|class of o_n_e)×p(e_i_g_h|class of e_i_g_
h)と取って換えられる。 (h)p(e_i_g|o_n_e)は、p(class of e_i_g|cl
ass of o_n_e)×p(e_i_g|class of e_i_g)と取っ
て換えられる。 (i)p(e_i|o_n_e)は、p(class of e_i|class
of o_n_e)×p(e_i|class of e_i)と取って換えら
れる。 (j)p(e|o_n_e)は、p(class of e|class of o
_n_e)×p(e|class of e)と取って換えられる。
【0077】<統計的言語モデル生成処理>図3は、図
1の統計的言語モデル生成部20によって実行される統
計的言語モデル生成処理を示すフローチャートである。
ここで、統計的言語モデル生成部20は、図1に示すよ
うに、次のメモリ31乃至36に区分されたワーキング
RAM30を備える。 (a)パラメータメモリ31:当該生成処理で用いる種
々の設定パラメータを記憶するメモリである。 (b)シーケンス頻度確率メモリ32:計算された各シ
ーケンスの頻度確率を記憶するメモリである。 (c)クラス定義メモリ33:推定された各クラスに属
する文字列を記憶するメモリである。 (d)クラス条件付き頻度確率メモリ34:推定された
各クラスに属する各文字列に対する頻度確率、すなわ
ち、クラスの条件付きのクラス間の文字列の頻度確率を
記憶するメモリである。 (e)クラスバイグラム頻度確率メモリ35:クラスの
バイグラムの頻度確率を記憶するメモリである。 (f)セグメント化されたシーケンスメモリ36:再推
定処理後のセグメント化されたシーケンス(文字列)を
記憶するメモリである。
【0078】図3において、まず、ステップS1では、
学習用テキストデータメモリ21からテキストデータを
読み込む。ここで、入力される学習用テキストデータ
は、離散的な単位のシーケンスであり、ここで、単位と
は例えば、文字であり、シーケンスは単語又は文となり
得る文字列である。また、予め下記の入力パラメータが
設定されてパラメータメモリ31に記憶されている。 (a)シーケンスの最大長(単位の数で表す。)、
(b)再推定処理後のクラス数、(c)廃棄するシーケ
ンス数のしきい値(すなわち、廃棄するシーケンスの発
生数の最小値)、及び(d)終了条件。ここで、終了条
件は、例えば、反復回数kのしきい値である。
【0079】次いで、ステップS2で、初期化処理が実
行される。入力された学習用テキストデータにおいて、
複数の単位からなるシーケンスの相対的な頻度を計数し
て、それに基づいて各シーケンスの頻度確率を初期設定
する。また、上記設定された廃棄するシーケンス数のし
きい値以下のシーケンスについては廃棄する。そして、
反復回数パラメータkを0にリセットする。
【0080】次いで、ステップS3では、ブラウンアル
ゴリズムを用いた分類処理を実行する。この分類処理で
は、反復回数パラメータkのときの各シーケンスの頻度
確率に基づいて、クラス間の相互情報量の損失が最小と
なるように、反復回数パラメータkのときの、クラス定
義、クラス条件付きクラス間のシーケンスの頻度確率、
及びクラスバイグラムの頻度確率を計算してそれぞれメ
モリ32乃至35に出力して記憶する。この処理におけ
る分類基準は、隣接するシーケンス間の相互情報量であ
り、上述のアルゴリズムを用いる。これらの相互情報量
とアルゴリズムは、隣接する単語の場合に対して、ブラ
ウンによって提案されており、本実施形態では、ブラウ
ンアルゴリズムを用いる。しかしながら、本発明はこれ
に限らず、単位の頻度確率を基礎とする他の分類アルゴ
リズムを使用することができる。
【0081】次いで、ステップS4において、フォワー
ド・バックワードアルゴリズムを参照して得られた数2
2−数24を用いて、バイ−マルチグラムを用いた再推
定処理を実行する。この処理では、直前のステップS3
で計算された、反復回数パラメータkのときの、クラス
定義、クラス条件付きクラス間のシーケンスの頻度確
率、及びクラスバイグラムの頻度確率に基づいて、次の
反復パラメータのときのシーケンス間のバイグラムの頻
度確率の最尤推定値を得るように、反復回数パラメータ
(k+1)のときの、各シーケンスの頻度確率を再推定
して計算して、メモリ32に出力して記憶する。この処
理における処理基準は、上記数22−数24を用いて、
すなわち、複数のシーケンスのクラスとバイグラムの依
存性を仮定して計算された解析結果の尤度の中の最大値
である最尤推定値を基準値として用いることであり、再
推定のためのアルゴリズムとしてEMアルゴリズムを用
いる。
【0082】次いで、ステップS5で、所定の終了条件
を満足するか否かが判断され、NOのときは、ステップ
S6で反復回数パラメータkを1だけインクリメントし
てステップS3及びS4の処理を繰り返す。一方、ステ
ップS5でYESであれば、生成された統計的言語モデ
ルのデータを統計的言語モデルメモリ22に出力して記
憶する。ここで、生成された統計的言語モデルのデータ
とは、各シーケンスの頻度確率に関するデータであり、
具体的には、下記のデータである。 (a)入力されたデータを複数のシーケンスにセグメン
ト化したときの最尤推定値を有する各シーケンスのデー
タ; (b)クラス定義、すなわち、各クラスにおけるシーケ
ンス;及び (c)クラスの頻度確率、すなわち、各クラスのバイグ
ラム確率、各シーケンスのクラス条件付き確率。
【0083】図4は、図3のサブルーチンであるブラウ
ンアルゴリズムを用いた分類処理を示すフローチャート
である。単語の自動分類のために、ブラウン他によって
シーケンスの自動分類に使用するためのアルゴリズム
(例えば、従来技術文献5参照。)が提案されており、
本実施形態では、これを使用する。ブラウンらは、文章
の尤度を最大化するクラスへの分割又はセグメント化
が、隣接する単語間の相互情報量を最大化する分割又は
セグメント化でもあることを示している。彼らは単語の
バイグラム分布を入力とし、単語クラスへの分割及びク
ラス分布を出力する貪欲なアルゴリズム(greedy algori
thm)を提案している。一方、本発明者は、入力としてバ
イ−マルチグラムの頻度確率の分布(すなわち、シーケ
ンスのバイグラムの頻度確率の分布)を採用することに
より、このアルゴリズムを適用している。出力は、シー
ケンスのクラスへのセグメント化及びその各シーケンス
の頻度確率の分布である。
【0084】この分類処理で用いる相互情報量を用いた
単語のクラスタリングについて詳細説明する(例えば、
従来技術文献6「北研二ほか著,”音声言語処理”,森
北出版,pp.110−113,1996年11月15
日発行」参照。)。ここでは、隣接する単語に基づく単
語の分類法として、クラス間の相互情報量を最大にする
方法について説明する。相互情報量に基づくクラスタリ
ングは、バイグラムのクラスモデルにおいて単語をクラ
スへ分割する最尤な方法は、隣接するクラスの平均相互
情報量を最大にするようなクラス割り当てであること
を、理論的な根拠としている。N−gramのクラスモ
デルとは、次式のように、単語のクラスのN−gram
とクラス別の単語の出現分布の組み合わせで、単語のN
−gramを近似する言語モデルのことである(この式
は、単語クラスを品詞に置き換えれば、形態素解析にお
けるHMMの式と同じになる。従って、この単語分類法
は、最適な品詞体系を自動的に求める方法とも考えられ
る。
【数37】P(wi|w1 i-1)≒P(wi|ci)P(ci
|ci-n+1 i-1
【0085】ここで、単語wiをクラスciに写像する関
数πを用いて、V個の単語をC個のクラスに分割すると
仮定する。学習テキストt1 Tが与えられたとき、P(t
2 T|t1)=P(T2|T1)P(t3|t2)…P(tT
T-1)を最大にするように関数πを決めればよい。詳
細は省略するが、単語あたりの対数尤度L(π)、単語
のエントロピーH(w)、隣接するクラスの平均相互情
報量I(c1;c2)の間には、近似的に次式の関係が成
り立つ。
【0086】
【数38】
【0087】ここで、H(w)は分割πに依存しないか
ら、L(π)を最大化するためには、I(c1;c2)を
最大化すればよい。いまのところ、平均相互情報量を最
大化するような分割を求めるアルゴリズムは知られてい
ない。しかしながら、本実施形態で用いる次のような貪
欲なアルゴリズム(greedy algorithm)でも、かなり興
味深いクラスタを得ることができる。このように包含関
係を持つクラスタを生成する方法は、階層的クラスタリ
ングと呼ばれる。これに対して、k平均アルゴリズムの
ように、重なりを持たないクラスタを生成する方法は非
階層的クラスタリングと呼ばれる。
【0088】次の併合をV−1回繰り返すと、すべての
単語が一つのクラスになる。すなわち、クラスが併合さ
れる順序から、単語を葉とする二分木ができる。 1.すべての単語に対して、一つのクラスを割り当て
る。 2.可能な二つのクラスの組み合わせの中で、平均相互
情報量の損失を最小にする組み合わせを選択し、これら
を一つのクラスに併合する。 3.ステップ2をV−C回繰り返すとC個のクラスが得
られる。
【0089】一般に、クラスタが形成される過程を表す
階層構造は樹形図(dendrogram)と呼ばれるが、自然言
語処理ではこれをシソーラスの代わりに使うことができ
る。単純に考えると、この準最適なアルゴリズムは、語
彙数Vに対してV5の計算量を必要とする。しかし、
(1)二つのクラスタを併合したときの情報量の変化だ
けを求めればよいことや、(2)二つのクラスタの併合
により相互情報量が変化するのは全体の一部に過ぎない
ことを利用すれば、O(V3)の計算、すなわち、繰り
返し回数Vの三乗に比例するオーダーの計算コストで済
む。
【0090】分類処理(又はクラスタリング処理)を示
す図4において、まず、ステップS11では、初期設定
処理が実行され、各シーケンスをその自らのクラスに割
り当てる。すなわち、各シーケンスsiそれぞれ各クラ
スCiに割り当てる。従って、クラスの初期バイグラム
の頻度確率の分布はシーケンスのバイグラムの頻度確率
の分布に等しく、また、
【数39】p(si|Ci)=1 である。
【0091】次いで、ステップS12で、各クラスの対
(Ck,Cl)について、クラスCkとクラスClとをマー
ジしたときの相互情報量の損失を計算した後、ステップ
S13で、相互情報量の損失が最小であるクラスの対を
マージする。そして、ステップS14で、上記マージに
従って、メモリ34及び35に記憶されたクラスの頻度
確率の分布を更新する。次いで、ステップS15で、ス
テップS2の初期化処理で設定された必要なクラス数が
得られたか否かが判断され、NOであるときは、ステッ
プS12に戻り、上記の処理を繰り返す。一方、ステッ
プS15で、YESのときは、元のメインルーチンに戻
る。
【0092】<音声認識装置>次いで、図1に示す連続
音声認識装置の構成及び動作について説明する。図1に
おいて、単語照合部4に接続された音素隠れマルコフモ
デル(以下、隠れマルコフモデルをHMMという。)メ
モリ11内の音素HMMは、各状態を含んで表され、各
状態はそれぞれ以下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
【0093】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0094】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0095】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ22内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する1つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果として出力す
る。本実施形態においては、好ましくは、処理すべき当
該単語の先頭音素環境とは、当該単語より先行する単語
仮説の最終音素と、当該単語の単語仮説の最初の2つの
音素とを含む3つの音素並びをいう。
【0096】例えば、図2に示すように、(i−1)番
目の単語Wi−1の次に、音素列a1,a2,…,an
からなるi番目の単語Wiがくるときに、単語Wi−1
の単語仮説として6つの仮説Wa,Wb,Wc,Wd,
We,Wfが存在している。ここで、前者3つの単語仮
説Wa,Wb,Wcの最終音素は/x/であるとし、後
者3つの単語仮説Wd,We,Wfの最終音素は/y/
であるとする。終了時刻teと先頭音素環境が等しい仮
説(図2では先頭音素環境が“x/a1/a2”である
上から3つの単語仮説)のうち総尤度が最も高い仮説
(例えば、図2において1番上の仮説)以外を削除す
る。なお、上から4番めの仮説は先頭音素環境が違うた
め、すなわち、先行する単語仮説の最終音素がxではな
くyであるので、上から4番めの仮説を削除しない。す
なわち、先行する単語仮説の最終音素毎に1つのみ仮説
を残す。図2の例では、最終音素/x/に対して1つの
仮説を残し、最終音素/y/に対して1つの仮説を残
す。
【0097】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0098】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、統計的言語
モデル生成部20とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ21と、統計的言語モデル
メモリ22とは、例えばハードデイスクメモリなどの記
憶装置で構成される。
【0099】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0100】
【実施例】<統計的言語モデル生成処理の第1の実施例
>入力される学習データが、以下のような1000文字
列の場合であり、単位である文字から単語にセグメント
化するための例である。 「o n e s i x o n e e i g h t f i v e z e r o
...」但し、奇数の単語の後には必ず偶数の単語が後続
し、偶数の単語の後には必ず奇数の単語が後続する場合
である。当該実施例における入力パラメータは以下の通
りである。 (a)1個のシーケンスの最大長=5、(b)クラス数
=2、及び(c)廃棄するシーケンスのしきい値=10
0。
【0101】初期化処理(k=0)では、学習データに
おいて、100回を越えて観測した文字のすべての組合
せの相対的な計数値を初期値とする。従って、反復パラ
メータk=0におけるシーケンスの頻度確率の分布の計
数結果は次の表のようになる。なお、各シーケンスのn
b(・)は計数値を表す。
【0102】
【表2】 ―――――――――――――――――――――――――――――――――― P(n|o)=nb(on)/nb(o)=0.08 p(n e|o)=nb(one)/nb(o)=0.06 ... p(n e s i x|o)=nb(onesix)/nb(o)=0.005 p(e|o n)=nb(one)/nb(on)=0.9 p(e s|o n)=nb(ones)/nb(on)=0.005 ... p(e s i x o|o n)=nb(onesixo)/nb(on)=0.001 ... p(s i x|o n e)=nb(onesix)/nb(one)=0.05 ... ――――――――――――――――――――――――――――――――――
【0103】ステップS3の分類処理では、入力データ
は、反復パラメータk=0のときのシーケンスの頻度確
率の分布であり、当該分類処理における出力データは、
以下のようになる。(a)反復パラメータk=1のとき
のクラス定義
【数40】class1={e s i x o;e;e t w o;n e
s i x;......;f o u r;f o u r f;...;g h t s;g h t o
n e;e i g h t}
【数41】class2={o n e;e s i x o;x;f i v;
f i v e;t s e v;s e v e n;......;x n i;x n i n e;n
i n e;...}class3=…… (b)反復パラメータk=1のときのクラス条件付き頻
度確率の分布
【数42】p(e s i x o|class 1),p(e|class
1),...p(o n e|class 2),p(e s i x o|cl
ass 2),... (c)反復パラメータk=1のときのクラスバイグラム
の頻度確率の分布
【数43】 p(class 1|class 2)=0.3 p(class 2|class 1)=0.1 p(class 3|class 1)=0.4 ...
【0104】ステップS4の再推定処理では、反復パラ
メータk=1のときのクラス定義及びクラスの頻度確率
の分布を入力データとし、次に示す反復パラメータk=
1のときのシーケンスの頻度確率の分布を出力する。
【数44】p(n|o)=0.9 p(n e|o)=0.8 p(n e s|o)=0.05 ... p(n e s i x|o)=0
【数45】p(e|o n)=0.02 p(e s|o n)=0.001 ... p(e s i x o|o n)=0 ... p(s i x|o n e)=0.5 ...
【0105】以下同様に処理が実行され、第1の実施例
における出力結果は以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) ”o n e s i x o n e e i g h t f i v e z e r o
...” (b)クラス定義
【数46】class1={o n e;t h r e e;f i v e;
s e v e n;n i n e} class2={z e r o;t w o;f o u r;s i x;e i g
h t} (c)クラス条件付きの頻度確率の分布
【数47】p(o n e|class 1)=0.2 p(t h r e e|class 1)=0.2 p(f i v e|class 1)=0.2 ... p(z e r o|class 2)=0.2 p(t w o|class 2)=0.2 (d)クラスバイグラムの頻度確率の分布
【数48】p(class 1|class 2)=1 p(class 2|class 1)=1
【0106】<統計的言語モデル生成処理の第2の実施
例>入力される学習データが、自然言語のテキストデー
タによる以下の文、すなわち単語列である場合であっ
て、単位である単語をフレーズにセグメント化する場合
を説明するための実施例である。ここで、<s>は開始
を示す記号であり、</s>は終了を示す記号である。 「<s> good afternoon new washington hotel may i he
lp you ...</s>」ここで、入力パラメータは、以下の通
りである。 (a)シーケンスの最大長=数個の単語(例えば、1乃
至5個の単語、以下の実施例では、4)、(b)クラス
数=1000、及び(c)初期化処理のしきい値=3
0。
【0107】初期化処理(k=0)では、学習データに
おいて、30回を越えて観測した単語のすべての組合せ
の相対的な計数値を初期値とする。従って、反復パラメ
ータk=0におけるシーケンスの頻度確率の分布の計数
結果は次の表のようになる。
【0108】
【表3】 ―――――――――――――――――――――――――――――――――― p(afternoon|good) =nb(good afternoon)/nb(good)=0.08 p(afternoon new|good) =nb(good afternoon new)/nb(good)=0.06 p(good afternoon|<s>) =nb(<s>good afternoon)/nb(<s>)=0.06 ... p(</s>|may i help you) =nb(may i help you </s>)/nb(may i help you) =0.005 ――――――――――――――――――――――――――――――――――
【0109】そして、第2の実施例における出力結果は
以下のようになる。 (a)セグメント化された入力文字列(MLセグメント
化) 「good_afternoon new_washington_hotel may_i_help_y
ou」 (b)クラス定義
【数49】class1={good afternoon ; good mo
rning;hello ; may i help you...}... class2={new washington hotel ; sheraton ho
tel ; plaza;...}... class1000={give me some ; tell me} (c)クラス条件付き頻度確率の分布
【数50】 p(good afternoon|class 1)=0.003 p(good morning|class 1)=0.002 p(hello|class 1)=0.002 ... (d)クラスバイグラムの頻度確率の分布
【数51】 p(class 2|class 1)=0.04 p(class 3|class 1)=0.005 ...
【0110】<実験及び実験結果>本発明者は、実施形
態の装置の性能を実験するために、下記の実験を行っ
た。まず、プロトコル及びデータベースの実験及び実験
結果について述べる。可変長フレーズ間のバイグラム依
存を学習する目的は、従来のワードバイグラムモデルの
限界を改善する一方で、モデル内のパラメータ数を単語
のトライグラムの場合よりも少なくすることにある。従
って、バイ−マルチグラムモデルの評価を行うために適
する基準は、その予測能力、パラメータ数を測定し、従
来のバイグラム、トライグラムモデルのそれらと比較す
ることである。予測能力は通常、次式のパープレキシテ
ィの測定によって評価される。
【0111】
【数52】 PP=exp{−(1/T)log(L(W))}
【0112】ここで、Tを文Wにおける単語の数であ
る。パープレキシティPPが低いほど、モデルの予測が
より高精度であることを示す。統計的モデルでは、実際
には2つのパープレキシティ値PP及びPP*が存在
し、数52の中のL(W)をそれぞれ次式として計算さ
れる。
【0113】
【数53】 及び
【数54】L(W)=L(W,S*
【0114】2つのパープレキシティPP*−PPの差
は、常に正の数又は零であり、文Wの解析結果Sの曖昧
さの度合い、あるいは発話認識機のように最良の解析結
果の尤度を用いて文の尤度に到達する場合は、予測の正
確さにおける損失を測定する。
【0115】以下では、先ず、ある推定手順における損
失(PP*−PP)を評価し、この推定手順自体の影響
力についてフォワード・バックワードアルゴリズム(数
15)又は決定論的方法(数16)を用いて考察する。
最後に、これら結果を従来のn−gramモデルを用い
て得られた結果と比較する。本目的の達成のため、クラ
ークソン((Clarkson)ほか1997年)による公知のCM
Uツールキットを用いる。実験対象として、次の表の本
特許出願人が所有する「旅行の手配」に関するデータを
使用する。
【0116】
【表4】 本特許出願人が所有する「旅行の手配」に関するデータ ――――――――――――――――――――――――――――――――― 学習 テスト ――――――――――――――――――――――――――――――――― 文の数 13650 2430 トークンの数 167000 29000(1%OOV) 語彙数 3525 +280OOV ――――――――――――――――――――――――――――――――― (注)OOVは、Out Of Vocabularyの略であり、語彙にない 単語をいう。
【0117】本データベースは、ホテルのクラークと顧
客の間で自発的に行われた旅行/宿泊施設情報について
の対話である。言いよどみの単語、及び間違った開始
は、単一のマーカー“*uh*”にマッピングされる。本
実験において、フレーズの最大長はn=1語から4語ま
で変化させた(n=1ではバイ−マルチグラムは従来の
バイグラムに相当する)。すべてのバイ−マルチグラム
の頻度確率は、6回のトレーニング反復で推定され、初
期化において20回以下、各反復において10回以下の
頻度でしか現れないすべての文を放棄し、フレーズ辞書
の枝刈りを行った。ここで、初期化におけるしきい値が
10−30の範囲にあるとき、本データにおいて、異な
る枝刈り限界値を用いても結果に重大な影響が及ぶこと
はない。反復の場合のしきい値はその約半分である。
【0118】しかしながら、すべての1単語フレーズ
は、その推定出現回数にかかわらず維持されるため(フ
レーズsi及びsjが1単語フレーズであり、組み合わせ
c(si,sj)の再推定値が零であると、組み合わせc
(si,sj)は1にリセットされる。)、すべてのワード
バイグラムが最終辞書に現れることになる。さらに、す
べてのn−gram及びフレーズのバイグラム確率は、
ウィッテン(Witten)ほか(1991年)による公知の
Witten-Bellディスカウンティング法を用いて、カッツ
(Katz)(1987年)による公知のバックオフ・スム
ージング法で平滑化される。ここで、Witten-Bellディ
スカウンティング法を選択したのは、本テストデータに
おいて従来のn−gramを用いた場合、最良のパープ
レキシティスコアが得られるためである。
【0119】次いで、クラスタリングを行わない実験に
ついて述べる。まず、非決定性の方式の度合いにおいて
は、表4の本特許出願人が所有する「旅行の手配」に関
するデータに対するテストで、フォワード・バックワー
ドアルゴリズムによる学習の後に得られたパープレキシ
ティ値PP*及びPPを次の表に示す。パープレキシテ
ィ値の差(PP*−PP)は通常、パープレキシティの
約1ポイント以内にとどまる。すなわち、単一の最良フ
レーズに依存しても、予測の正確さが大幅に損なわれる
ことがあってはならないことを意味している。
【0120】
【表5】 非決定性の方式の度合い ―――――――――――――――――――――――――――――― n 1 2 3 4 ―――――――――――――――――――――――――――――― PP 56.0 43.9 44.2 45.0 PP* 56.0 45.1 45.4 46.3 ――――――――――――――――――――――――――――――
【0121】次いで、再推定手順の影響力では、フォワ
ード・バックワードアルゴリズム又はビタビ推定アルゴ
リズムのいずれかを用いたパープレキシティ値PP*
びモデルサイズを次の表に示す。
【0122】
【表6】 推定方法の影響:テストパープレキシティ値 PP* ――――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――――――― FB法 56.0 45.1 45.4 46.3 ビタビ法 56.0 45.7 45.9 46.2 ―――――――――――――――――――――――――――――――――
【0123】
【表7】 推定方法の影響:モデルのサイズ ――――――――――――――――――――――――――――――――― n 1 2 3 4 ――――――――――――――――――――――――――――――――― FB法 32505 44382 43672 43186 ビタビ法 32505 65141 67258 67295 ―――――――――――――――――――――――――――――――――
【0124】表6及び表7から明らかなように、パープ
レキシティ値に関する限り、推定方法はほとんど影響を
及ぼさず、フォワード・バックワードアルゴリズムによ
る学習を用いる方がわずかながら有利であるように見え
る。一方、モデルのサイズは、学習終了時に個々のバイ
−マルチグラム数として測定された場合、フォワード・
バックワードアルゴリズムによる学習において約30%
も減少する。すなわち、同じテストパープレキシティ値
に対して、おおよそ40,000対60,000の違い
となる。
【0125】バイ−マルチグラム結果は、概して、フレ
ーズ放棄を行う枝刈りのための発見的知識では完全に過
学習を回避できないことを示唆する。確かに、(おそら
くは6から8語にまたがる依存性を意味する)n=3,
4のパープレキシティ値は、(依存性が4語に限定され
る)n=2のときのそれよりも高くなる。他の方法、お
そらくは短いものよりも長いフレーズを不利にするよう
な方法であれば成功ものと考えられる。
【0126】さらに、n−gramとの比較において
は、フォワード・バックワードアルゴリズムによる学習
から得られたパープレキシティ値(PP)、n−gra
mに対するモデルサイズ、及びバイ−マルチグラムを次
の表に示す。
【0127】
【表8】 n−gramの比較 ―――――――――――――――――――――――――――――――――― テストパープレキシティ値 PP ―――――――――――――――――――――――――――――――――― nの値 1 2 3 4 ―――――――――――――――――――――――――――――――――― n−gram 314.2 56.0 40.4 39.8 バイ−マルチグラム 56.0 43.9 44.2 45.0 ――――――――――――――――――――――――――――――――――
【0128】
【表9】 n−gramの比較 ―――――――――――――――――――――――――――――――――― モデルのサイズ ―――――――――――――――――――――――――――――――――― n値 1 2 3 4 ―――――――――――――――――――――――――――――――――― n−gram 3526 32505 75511 112148 バイ−マルチグラム 32505 44382 43672 43186 ――――――――――――――――――――――――――――――――――
【0129】表8及び表9から明らかなように、最も低
いバイ−マルチグラムパープレキシティスコア(43.
9)は、トライグラムの値よりも依然として高いが、バ
イグラム値(56.0)よりもトライグラム値(40.
4)により近い値となっている。さらに、トライグラム
スコアはディスカウントされた方法に依存する。なお、
線形ディスカウンティング法では、本テストにおけるト
ライグラムのパープレキシティは、48.1であった。
【0130】5−グラムのパープレキシティ値(上記表
に示さず)は40.8であり、4−gramスコアより
もやや高い。これは、バイ−マルチグラムパープレキシ
ティがn>2(すなわち、依存性が4語以上にわたる場
合)のとき減少しないという事実に一致する。最後に、
バイ−マルチグラムモデルのエントリ数はトライグラム
モデルのエントリ数よりも少なく(45000に対して
75000)、マルチグラムが達成するモデルの正確性
とモデルサイズ間のトレードオフが示されている。
【0131】さらに、クラスタリングを用いた実験及び
実験結果について述べる。本実験では、フレーズのクラ
スタリングによってパープレキシティスコアは改善され
なかった。パープレキシティの増加が非常に少なくなる
(1ポイント以下)のは、フレーズのほんの一部(10
〜20%)のみがクラスタとなる時であり、これを越え
るとパープレキシティはかなり悪化する。この効果は、
クラス推定が単語推定に統合されない時、n−gram
の枠組みにおいても度々報告されている。しかしなが
ら、フレーズのクラスタリングによって、自然発話を特
徴づける言いよどみの語の挿入等、ことばの非流暢性の
いくつかを自然に扱うことができる。この点を説明する
ために、先ずn=4語までのフレーズを扱うモデルの学
習の間に統合されるフレーズを次の表に列挙する。ここ
で、言いよどみを示す“*uh*”を含むフレーズはこの
表の上部に示す。主に、話者の言いよどみによるフレー
ズの違いは、共に統合されることが多い。
【0132】
【表10】 4語シーケンスまでを扱うモデルにおける統合されたフレーズの一例 ―――――――――――――――――――――――――――――――――― {yes that will;*uh* that would} {yes that will be;*uh* yes that's} {*uh* by the;and by the} {yes *uh* i;i see i} {okay i understand;*uh* yes please} {could you recommend;*uh* is there} {*uh* could you tell;and could you tell} {so that will;yes that will;yes that would;uh* that would} {if possible i'd like;we would like;*uh* i want} {that sounds good;*uh* i understand} {*uh* i really;*uh* i don't} {*uh* i'm staying;and i'm staying} {all right we;*uh* yes i} ――――――――――――――――――――――――――――――――――― {good morning this;good afternoon this} {yes i do;yes thank you} {we'll be looking forward;we look forward} {dollars a night;and forty yen} {for your help;for your information} {hold the line;want for a moment} {yes that will be;and could you tell} {please go ahead;you like to know} {want time would you;and you would} {yes there is;but there is} {join phillips in room;ms. suzuki in} {name is suzuki;name is ms. suzuki} {i'm calling from;a;also i'd like} {much does it cost;can reach you} {thousand yen room;dollars per person} {yes i do;yes thank you;i see sir} {you tell me where;you tell me what} {a reservation for the;the reservation for} {your name and the;you give me the} {amy harris in;is amy harris in} {name is mary phillips;name is kazuo suzuki} {hold on a moment;wait a moment} {give me some;also tell me} ――――――――――――――――――――――――――――――――――
【0133】カワハラ(Kawahara)ら(1997年)に
よれば、上記の表はさらに、単語予測とは別に、フレー
ズ検索及びクラスタリングを行う他の動機づけ、すなわ
ちトピックの識別や対話のモデリング、及び言語理解に
関する問題への対応を示している。確かに本実験におけ
るクラスタとなったフレーズは、完全盲目的、すなわち
意味論的/語用論的情報を全くなくして導かれたもので
あるが、クラス内フレーズには強固な意味論的相関関係
が示されている。しかしながら、本手法を音声理解に効
率的に使用できるようにするためには、拘束条件は、例
えばスピーチアクトタグ(speech act tags)のような
いくつかのより高いレベルの情報を用いてフレーズクラ
スタリング処理に設定する必要がある。
【0134】以上説明したように、フレーズ間にn−g
ram依存を仮定する可変長フレーズを導くアルゴリズ
ムは、言語モデリングのタスクのために提案され、推定
されてきた。特定タスクの言語コーパスは、文をフレー
ズに構成することによりバイグラムパープレキシティ値
を大幅に減らし、一方で言語モデルにおけるエントリ数
をトライグラムモデルの場合に比べてより低い値に保つ
ことが可能であることを示している。しかしながら、こ
れら結果は、より効率的な枝刈り方法によってさらに改
善され、不要な学習を行わずにより長い依存性について
学習することが可能となる。さらに、語形変化の態様を
簡単に本枠組み内に統合することができるため、異なる
長さを有するフレーズに共通のラベルを割り当てること
が可能である。フレーズの意味論的関係が統合されるの
で、本手法は対話モデリングや言語理解の分野において
も用いられる。その場合、意味論的/語用論的情報を用
いれば、フレーズクラスを得るための処理に制限を設け
ることができる。
【0135】<変形例>以上の実施形態においては、単
位は英語の文字であり、シーケンスは単語であり、上記
分類処理は、文字列を複数の単語の列に分類し、上記統
計的シーケンスモデルは、統計的言語モデルである。本
発明はこれに限らず、単位は、日本語などの他の自然言
語の文字であってもよい。また、単位は自然言語の単語
であり、シーケンスはフレーズであり、上記分類処理
は、単語列を複数のフレーズの列に分類し、上記統計的
シーケンスモデルは、統計的言語モデルであってもよ
い。
【0136】<実施形態の効果>以上説明したように,
本発明に係る実施形態によれば、以下のような特有の効
果を有する。 (A)EMアルゴリズムを使用して単語のシーケンスの
頻度分布を計算することができ、ML基準を最適化する
ことができる。すなわち、本実施形態のアルゴリズムを
用いられば、必ず、クラスタリングの処理を単調収束さ
せることができて、最適値の解析結果を得ることができ
る。 (B)シーケンス分類の解析を自由にすることができ
る。具体的には、上述のフォワード・バックワードアル
ゴリズムを用いた非決定性の手法を用いるので、自由度
のある解が得られる。なお、当該非決定性の手法を用い
ることができるのは、変数α,βを決めることができる
からである。従って、入力データの尤度を改善すること
により、シーケンス[bcd]が入力シーケンスにあっ
たときに、[bc]+[d]、[b]+[cd]、
[b]+[c]+[d]等の小シーケンスへの分割が可
能である。言い換えれば、あるシーケンスが入力シーケ
ンスに与えられていても、解析は事前に決定されず、す
べては入力データの尤度に依存する、つまり確定的では
なく、入力データの頻度確率に依存してクラスタリング
の処理が行われる。 (C)可変長のシーケンスの自動的分類を行うことがで
きる。ここで、シーケンスの分類を、単語の分類に依存
させない。また、シーケンスの分類を直接的に自動的に
行なって、長さの違う共通のクラスシーケンスに高精度
で分類できる。
【0137】従って、本発明に係る実施形態によれば、
従来例に比較して、最適な状態に向かう単調な収束を保
証することができ、自由度があり、可変長のシーケンス
を同一のクラスで取り扱うことができ、ディジタル計算
機を用いて実用的に高速処理することができる統計的シ
ーケンスモデル生成装置、統計的言語モデル生成装置及
び音声認識装置を提供することができる。
【0138】
【発明の効果】以上詳述したように本発明に係る統計的
シーケンスモデル生成装置によれば、1個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数N1個の単位列と可変長の自
然数N2個の単位列との間のバイグラムであるバイ−マ
ルチグラムの統計的シーケンスモデルを生成する統計的
シーケンスモデル生成装置であって、上記入力データに
基づいて、予め決められたN1,N2の最大値の拘束条件
のもとで、すべての単位列の組み合わせの上記バイグラ
ムの頻度確率を計数する初期化手段と、上記初期化手段
によって計数された上記バイグラムの頻度確率に基づい
て、各クラスの対をマージしたときの相互情報量の損失
が最小となるようにマージして各クラスの頻度確率を更
新して予め決められた数の複数のクラスに分類すること
により、分類されたクラスに含まれる単位列と、分類さ
れたクラスの条件付きの単位列の頻度確率と、分類され
たクラス間のバイグラムの頻度確率を計算して出力する
分類手段と、上記分類処理手段から出力される分類され
たクラスに含まれる単位列と、分類されたクラスの条件
付きの単位列の頻度確率と、分類されたクラス間のバイ
グラムの頻度確率とに基づいて、EMアルゴリズムを用
いて、最尤推定値を得るように再推定し、ここで、フォ
ワード・バックワードアルゴリズムを用いて、処理対象
の各単位列に対して、時系列的に前方にとり得る処理対
象の当該単位列に対する前方尤度と、当該単位列の直前
の単位列を条件としたときの当該単位列の頻度確率と、
時系列的に後方にとり得る当該単位列に対する後方尤度
とに基づいてシーケンス間のバイグラムの頻度確率を示
す式を用いて、当該シーケンス間のバイグラムの頻度確
率を再推定することにより、再推定結果である上記バイ
−マルチグラムの統計的シーケンスモデルを生成して出
力する再推定手段と、上記分類手段の処理と上記再推定
手段の処理を所定の終了条件を満たすまで繰り返し実行
するように制御する制御手段とを備える。従って、本発
明によれば、従来例に比較して、最適な状態に向かう単
調な収束を保証することができ、自由度があり、可変長
のシーケンスを同一のクラスで取り扱うことができ、デ
ィジタル計算機を用いて実用的に高速処理して統計的シ
ーケンスモデルを生成することができる統計的シーケン
スモデル生成装置を提供することができる。
【0139】また、本発明に係る統計的言語モデル生成
装置によれば、上記統計的シーケンスモデル生成装置に
おいて、上記単位は自然言語の文字であり、上記シーケ
ンスは単語であり、上記分類手段は、文字列を複数の単
語の列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルである。従って、本発明によれば、従来例
に比較して、最適な状態に向かう単調な収束を保証する
ことができ、自由度があり、可変長のシーケンスを同一
のクラスで取り扱うことができ、ディジタル計算機を用
いて実用的に高速処理して統計的言語モデルを生成する
ことができる統計的言語モデル生成装置を提供すること
ができる。
【0140】さらに、本発明に係る統計的言語モデル生
成装置によれば、上記統計的シーケンスモデル生成装置
において、上記単位は自然言語の単語であり、上記シー
ケンスはフレーズであり、上記分類手段は、単語列を複
数のフレーズの列に分類し、上記統計的シーケンスモデ
ルは、統計的言語モデルである。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的言語モデル
を生成することができる統計的言語モデル生成装置を提
供することができる。
【0141】またさらに、本発明に係る音声認識装置に
よれば、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルを用いて音声認識する音声認識
手段を備えた音声認識装置において、上記音声認識手段
は、上記統計的言語モデル生成装置によって生成された
統計的言語モデルを参照して音声認識する。従って、本
発明によれば、従来例に比較して、最適な状態に向かう
単調な収束を保証することができ、自由度があり、可変
長のシーケンスを同一のクラスで取り扱うことができ、
ディジタル計算機を用いて実用的に高速処理して統計的
言語モデルを生成することができる。また、当該生成さ
れた統計的言語モデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 図1の統計的言語モデル生成部20によって
実行される統計的言語モデル生成処理を示すフローチャ
ートである。
【図4】 図3のサブルーチンであるブラウンアルゴリ
ズムを用いた分類処理を示すフローチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…統計的言語モデル生成部、 21…学習用テキストデータメモリ、 22…統計的言語モデルメモリ、 30…ワーキングRAM、 31…パラメータメモリ、 32…シーケンス頻度確率メモリ、 33…クラス定義メモリ、 34…クラス条件付き頻度確率メモリ、 35…クラスバイグラム頻度確率メモリ、 36…セグメント化されたシーケンスメモリ。
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年4月2日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0011
【補正方法】変更
【補正内容】
【0011】
【課題を解決するための手段】本発明に係る統計的シー
ケンスモデル生成装置は、1個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数N1個の単位列であるマルチグラムと、
可変長の自然数N2個の単位列であるマルチグラムとの
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、上記入力データに基づいて、予め決められ
たN1,N2の最大値の拘束条件のもとで、すべての単位
列の組み合わせの上記バイグラムの頻度確率を計数する
初期化手段と、上記初期化手段によって計数された上記
バイグラムの頻度確率に基づいて、各クラスの対をマー
ジしたときの相互情報量の損失が最小となるようにマー
ジして各クラスの頻度確率を更新して予め決められた数
の複数のクラスに分類することにより、分類されたクラ
スに含まれる単位列と、分類されたクラスの条件付きの
単位列の頻度確率と、分類されたクラス間のバイグラム
の頻度確率を計算して出力する分類手段と、上記分類処
理手段から出力される分類されたクラスに含まれる単位
列と、分類されたクラスの条件付きの単位列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率とに基
づいて、EMアルゴリズムを用いて、最尤推定値を得る
ように再推定し、ここで、フォワード・バックワードア
ルゴリズムを用いて、処理対象の各単位列に対して、時
系列的に前方にとり得る処理対象の当該単位列に対する
前方尤度と、当該単位列の直前の単位列を条件としたと
きの当該単位列の頻度確率と、時系列的に後方にとり得
る当該単位列に対する後方尤度とに基づいてシーケンス
間のバイグラムの頻度確率を示す式を用いて、当該シー
ケンス間のバイグラムの頻度確率を再推定することによ
り、再推定結果である上記バイ−マルチグラムの統計的
シーケンスモデルを生成して出力する再推定手段と、上
記分類手段の処理と上記再推定手段の処理を所定の終了
条件を満たすまで繰り返し実行するように制御する制御
手段とを備えたことを特徴とする。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0138
【補正方法】変更
【補正内容】
【0138】
【発明の効果】以上詳述したように本発明に係る統計的
シーケンスモデル生成装置によれば、1個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数N1個の単位列であるマルチ
グラムと、可変長の自然数N2個の単位列であるマルチ
グラムとの間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたN1,N2の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、EMアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備える。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的シーケンス
モデルを生成することができる統計的シーケンスモデル
生成装置を提供することができる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 中嶋 秀治 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 1個又は複数の単位からなる単位列であ
    るシーケンスを含む入力データに基づいて、可変長の自
    然数N1個の単位列と可変長の自然数N2個の単位列との
    間のバイグラムであるバイ−マルチグラムの統計的シー
    ケンスモデルを生成する統計的シーケンスモデル生成装
    置であって、 上記入力データに基づいて、予め決められたN1,N2
    最大値の拘束条件のもとで、すべての単位列の組み合わ
    せの上記バイグラムの頻度確率を計数する初期化手段
    と、 上記初期化手段によって計数された上記バイグラムの頻
    度確率に基づいて、各クラスの対をマージしたときの相
    互情報量の損失が最小となるようにマージして各クラス
    の頻度確率を更新して予め決められた数の複数のクラス
    に分類することにより、分類されたクラスに含まれる単
    位列と、分類されたクラスの条件付きの単位列の頻度確
    率と、分類されたクラス間のバイグラムの頻度確率を計
    算して出力する分類手段と、 上記分類処理手段から出力される分類されたクラスに含
    まれる単位列と、分類されたクラスの条件付きの単位列
    の頻度確率と、分類されたクラス間のバイグラムの頻度
    確率とに基づいて、EMアルゴリズムを用いて、最尤推
    定値を得るように再推定し、ここで、フォワード・バッ
    クワードアルゴリズムを用いて、処理対象の各単位列に
    対して、時系列的に前方にとり得る処理対象の当該単位
    列に対する前方尤度と、当該単位列の直前の単位列を条
    件としたときの当該単位列の頻度確率と、時系列的に後
    方にとり得る当該単位列に対する後方尤度とに基づいて
    シーケンス間のバイグラムの頻度確率を示す式を用い
    て、当該シーケンス間のバイグラムの頻度確率を再推定
    することにより、再推定結果である上記バイ−マルチグ
    ラムの統計的シーケンスモデルを生成して出力する再推
    定手段と、 上記分類手段の処理と上記再推定手段の処理を所定の終
    了条件を満たすまで繰り返し実行するように制御する制
    御手段とを備えたことを特徴とする統計的シーケンスモ
    デル生成装置。
  2. 【請求項2】 上記初期化手段はさらに、上記計数され
    たバイグラムの頻度確率のうち、所定の頻度確率以下の
    バイグラムの組み合わせのデータを除去することを特徴
    とする請求項1記載の統計的シーケンスモデル生成装
    置。
  3. 【請求項3】 上記分類手段は、上記初期化手段によっ
    て計数された上記バイグラムの頻度確率に基づいて、ブ
    ラウンアルゴリズムを用いて、上記複数のクラスに分類
    することを特徴とする請求項1又は2記載の統計的シー
    ケンスモデル生成装置。
  4. 【請求項4】 上記式は、上記入力データにおいて、当
    該単位列である第2の単位列が第1の単位列に続くとき
    の単位列のシーケンス間のバイグラムの頻度確率を、上
    記入力データにおける処理対象の各単位列に対して計算
    するための式であり、 上記シーケンス間のバイグラムの頻度確率は、第1と第
    2の単位列を含むすべてのセグメント化での尤度の和
    を、第1の単位列を含むすべてのセグメント化での尤度
    の和で除算することによって得られたことを特徴とする
    請求項1乃至3のうちの1つに記載の統計的シーケンス
    モデル生成装置。
  5. 【請求項5】 上記式は、上記入力データにおいて各単
    位列が発生する平均回数を示す分母と、上記入力データ
    において第2の単位列が第1の単位列に続くときの各単
    位列に対する平均回数を示す分子とを有し、 上記分子は、処理対象の各単位列に対する、上記前方尤
    度と、当該単位列の直前の単位列を条件としたときの当
    該単位列の頻度確率と、上記後方尤度の積の和であり、 上記分母は、処理対象の各単位列に対する、上記前方尤
    度と、当該単位列の直前の単位列を条件としたときのす
    べての単位列の頻度確率と、上記後方尤度の積の和であ
    ることを特徴とする請求項4記載の統計的シーケンスモ
    デル生成装置。
  6. 【請求項6】 上記終了条件は、上記分類手段の処理
    と、上記再推定手段の処理との反復回数が予め決められ
    た回数に達したときであることを特徴とする請求項1乃
    至5のうちの1つに記載の統計的シーケンスモデル生成
    装置。
  7. 【請求項7】 請求項1乃至6のうちの1つに記載の統
    計的シーケンスモデル生成装置において、 上記単位は自然言語の文字であり、上記シーケンスは単
    語であり、上記分類手段は、文字列を複数の単語の列に
    分類し、上記統計的シーケンスモデルは、統計的言語モ
    デルであることを特徴とする統計的言語モデル生成装
    置。
  8. 【請求項8】 請求項1乃至6のうちの1つに記載の統
    計的シーケンスモデル生成装置において、 上記単位は自然言語の単語であり、上記シーケンスはフ
    レーズであり、上記分類手段は、単語列を複数のフレー
    ズの列に分類し、上記統計的シーケンスモデルは、統計
    的言語モデルであることを特徴とする統計的言語モデル
    生成装置。
  9. 【請求項9】 入力される発声音声文の音声信号に基づ
    いて、所定の統計的言語モデルを用いて音声認識する音
    声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項7又は8記載の統計的言語
    モデル生成装置によって生成された統計的言語モデルを
    参照して音声認識することを特徴とする音声認識装置。
JP10165030A 1998-06-12 1998-06-12 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 Expired - Fee Related JP3004254B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP10165030A JP3004254B2 (ja) 1998-06-12 1998-06-12 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US09/290,584 US6314399B1 (en) 1998-06-12 1999-04-13 Apparatus for generating a statistical sequence model called class bi-multigram model with bigram dependencies assumed between adjacent sequences
EP99107525A EP0964389A3 (en) 1998-06-12 1999-04-15 Apparatus for generating a statistical model called class bi-multigram model with bigram dependencies assumed between adjacent sequences

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10165030A JP3004254B2 (ja) 1998-06-12 1998-06-12 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH11352994A true JPH11352994A (ja) 1999-12-24
JP3004254B2 JP3004254B2 (ja) 2000-01-31

Family

ID=15804520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10165030A Expired - Fee Related JP3004254B2 (ja) 1998-06-12 1998-06-12 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置

Country Status (3)

Country Link
US (1) US6314399B1 (ja)
EP (1) EP0964389A3 (ja)
JP (1) JP3004254B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
JP2006126730A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International 音素単位セットを最適化する方法及びシステム
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
WO2012165529A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 言語モデル構築支援装置、方法及びプログラム
US9524295B2 (en) 2006-10-26 2016-12-20 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP2001249175A (ja) * 2000-03-06 2001-09-14 Honda Motor Co Ltd 移動体間距離測定通信方式
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
US6957184B2 (en) * 2000-07-20 2005-10-18 Microsoft Corporation Context free grammar engine for speech recognition system
US6694296B1 (en) * 2000-07-20 2004-02-17 Microsoft Corporation Method and apparatus for the recognition of spelled spoken words
US6931376B2 (en) 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
US7451075B2 (en) * 2000-12-29 2008-11-11 Microsoft Corporation Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
US7107207B2 (en) 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
JP2006503351A (ja) * 2002-09-20 2006-01-26 ボード オブ リージェンツ ユニバーシティ オブ テキサス システム 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
AU2003271083A1 (en) * 2002-10-08 2004-05-04 Matsushita Electric Industrial Co., Ltd. Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method
US20040267529A1 (en) * 2003-06-24 2004-12-30 Aurilab, Llc N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
CN100454849C (zh) * 2005-08-05 2009-01-21 华为技术有限公司 下一代网络中的故障检测方法
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US9507778B2 (en) 2006-05-19 2016-11-29 Yahoo! Inc. Summarization of media object collections
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7848918B2 (en) * 2006-10-04 2010-12-07 Microsoft Corporation Abbreviation expansion based on learned weights
US8594702B2 (en) 2006-11-06 2013-11-26 Yahoo! Inc. Context server for associating information based on context
US9110903B2 (en) 2006-11-22 2015-08-18 Yahoo! Inc. Method, system and apparatus for using user profile electronic device data in media delivery
US8402356B2 (en) 2006-11-22 2013-03-19 Yahoo! Inc. Methods, systems and apparatus for delivery of media
US8769099B2 (en) 2006-12-28 2014-07-01 Yahoo! Inc. Methods and systems for pre-caching information on a mobile computing device
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8069142B2 (en) 2007-12-06 2011-11-29 Yahoo! Inc. System and method for synchronizing data on a network
US8671154B2 (en) 2007-12-10 2014-03-11 Yahoo! Inc. System and method for contextual addressing of communications on a network
US8307029B2 (en) 2007-12-10 2012-11-06 Yahoo! Inc. System and method for conditional delivery of messages
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US8166168B2 (en) 2007-12-17 2012-04-24 Yahoo! Inc. System and method for disambiguating non-unique identifiers using information obtained from disparate communication channels
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9706345B2 (en) 2008-01-04 2017-07-11 Excalibur Ip, Llc Interest mapping system
US9626685B2 (en) 2008-01-04 2017-04-18 Excalibur Ip, Llc Systems and methods of mapping attention
US8762285B2 (en) 2008-01-06 2014-06-24 Yahoo! Inc. System and method for message clustering
US20090182618A1 (en) 2008-01-16 2009-07-16 Yahoo! Inc. System and Method for Word-of-Mouth Advertising
US8560390B2 (en) 2008-03-03 2013-10-15 Yahoo! Inc. Method and apparatus for social network marketing with brand referral
US8554623B2 (en) 2008-03-03 2013-10-08 Yahoo! Inc. Method and apparatus for social network marketing with consumer referral
US8538811B2 (en) 2008-03-03 2013-09-17 Yahoo! Inc. Method and apparatus for social network marketing with advocate referral
US8589486B2 (en) * 2008-03-28 2013-11-19 Yahoo! Inc. System and method for addressing communications
US8745133B2 (en) 2008-03-28 2014-06-03 Yahoo! Inc. System and method for optimizing the storage of data
US8271506B2 (en) 2008-03-31 2012-09-18 Yahoo! Inc. System and method for modeling relationships between entities
US8452855B2 (en) 2008-06-27 2013-05-28 Yahoo! Inc. System and method for presentation of media related to a context
US8813107B2 (en) 2008-06-27 2014-08-19 Yahoo! Inc. System and method for location based media delivery
US8706406B2 (en) 2008-06-27 2014-04-22 Yahoo! Inc. System and method for determination and display of personalized distance
US8583668B2 (en) 2008-07-30 2013-11-12 Yahoo! Inc. System and method for context enhanced mapping
US10230803B2 (en) 2008-07-30 2019-03-12 Excalibur Ip, Llc System and method for improved mapping and routing
US8386506B2 (en) 2008-08-21 2013-02-26 Yahoo! Inc. System and method for context enhanced messaging
US8281027B2 (en) 2008-09-19 2012-10-02 Yahoo! Inc. System and method for distributing media related to a location
US8108778B2 (en) 2008-09-30 2012-01-31 Yahoo! Inc. System and method for context enhanced mapping within a user interface
US9600484B2 (en) 2008-09-30 2017-03-21 Excalibur Ip, Llc System and method for reporting and analysis of media consumption data
US8032508B2 (en) 2008-11-18 2011-10-04 Yahoo! Inc. System and method for URL based query for retrieving data related to a context
US8024317B2 (en) 2008-11-18 2011-09-20 Yahoo! Inc. System and method for deriving income from URL based context queries
US8060492B2 (en) 2008-11-18 2011-11-15 Yahoo! Inc. System and method for generation of URL based context queries
US9805123B2 (en) 2008-11-18 2017-10-31 Excalibur Ip, Llc System and method for data privacy in URL based context queries
US9224172B2 (en) 2008-12-02 2015-12-29 Yahoo! Inc. Customizable content for distribution in social networks
US8055675B2 (en) 2008-12-05 2011-11-08 Yahoo! Inc. System and method for context based query augmentation
US8166016B2 (en) 2008-12-19 2012-04-24 Yahoo! Inc. System and method for automated service recommendations
US8150967B2 (en) * 2009-03-24 2012-04-03 Yahoo! Inc. System and method for verified presence tracking
US10223701B2 (en) 2009-08-06 2019-03-05 Excalibur Ip, Llc System and method for verified monetization of commercial campaigns
US8914342B2 (en) 2009-08-12 2014-12-16 Yahoo! Inc. Personal data platform
US8364611B2 (en) 2009-08-13 2013-01-29 Yahoo! Inc. System and method for precaching information on a mobile device
US9047562B2 (en) * 2010-01-06 2015-06-02 Nec Corporation Data processing device, information storage medium storing computer program therefor and data processing method
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
WO2012145519A1 (en) * 2011-04-20 2012-10-26 Robert Bosch Gmbh Speech recognition using multiple language models
US8938391B2 (en) 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
KR20130059476A (ko) * 2011-11-28 2013-06-07 한국전자통신연구원 음성 인식용 탐색 공간 생성 방법 및 장치
US9020911B2 (en) 2012-01-18 2015-04-28 International Business Machines Corporation Name search using multiple bitmap distributions
HK1205809A1 (en) * 2012-03-04 2015-12-24 Adam JEFFRIES Data systems processing
US9020806B2 (en) * 2012-11-30 2015-04-28 Microsoft Technology Licensing, Llc Generating sentence completion questions
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
US20170235724A1 (en) * 2016-02-11 2017-08-17 Emily Grewal Systems and methods for generating personalized language models and translation using the same
CN106409291B (zh) * 2016-11-04 2019-12-17 南京侃侃信息科技有限公司 一种语音搜索列表的实现方法
US11138506B2 (en) 2017-10-10 2021-10-05 International Business Machines Corporation Abstraction and portability to intent recognition
FR3077656A1 (fr) * 2018-02-07 2019-08-09 Christophe Leveque Procede de transformation d’une sequence pour la rendre executable par une machine

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP2886121B2 (ja) * 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US5987404A (en) * 1996-01-29 1999-11-16 International Business Machines Corporation Statistical natural language understanding using hidden clumpings
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7676365B2 (en) 2000-12-26 2010-03-09 Microsoft Corporation Method and apparatus for constructing and using syllable-like unit language models
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
JP2006126730A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International 音素単位セットを最適化する方法及びシステム
US9524295B2 (en) 2006-10-26 2016-12-20 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US11972227B2 (en) 2006-10-26 2024-04-30 Meta Platforms, Inc. Lexicon development via shared translation database
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
WO2012165529A1 (ja) * 2011-06-03 2012-12-06 日本電気株式会社 言語モデル構築支援装置、方法及びプログラム

Also Published As

Publication number Publication date
JP3004254B2 (ja) 2000-01-31
US6314399B1 (en) 2001-11-06
EP0964389A3 (en) 2001-12-12
EP0964389A2 (en) 1999-12-15

Similar Documents

Publication Publication Date Title
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
Odell The use of context in large vocabulary speech recognition
Ney et al. Progress in dynamic programming search for LVCSR
Hirsimaki et al. Importance of high-order n-gram models in morph-based speech recognition
US5870706A (en) Method and apparatus for an improved language recognition system
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
EP3516650A1 (en) Method and system for training a multi-language speech recognition network, and speech recognition system for performing multi-language speech recognition
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
Mousa et al. Morpheme-based feature-rich language models using deep neural networks for lvcsr of egyptian arabic
JPH11175090A (ja) 話者クラスタリング処理装置及び音声認識装置
Demuynck et al. Extracting, modelling and combining information in speech recognition
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Robinson The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system
Ablimit et al. Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Ortmanns et al. The time-conditioned approach in dynamic programming search for LVCSR
JP2938865B1 (ja) 音声認識装置
Pylkkönen Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
Breslin Generation and combination of complementary systems for automatic speech recognition
Deligne et al. Statistical language modeling with a class-basedn-multigram model
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Isotani et al. Speech recognition using a stochastic language model integrating local and global constraints
Ho et al. Integrating Long-Distance Language Modeling to Phoneme-to-Text Conversion

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101119

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121119

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees