JPH11352994A

JPH11352994A - 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置

Info

Publication number: JPH11352994A
Application number: JP10165030A
Authority: JP
Inventors: Derin Sabin; サビン・デリン; Yoshinori Kosaka; 芳典匂坂; Hideji Nakajima; 秀治中嶋
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1998-06-12
Filing date: 1998-06-12
Publication date: 1999-12-24
Anticipated expiration: 2018-06-12
Also published as: JP3004254B2; US6314399B1; EP0964389A3; EP0964389A2

Abstract

(57)【要約】【課題】従来例に比較して、最適な状態に向かう単調
な収束を保証することができ、自由度があり、可変長の
シーケンスを同一のクラスで取り扱うことができる。【解決手段】単位からなる単位列であるシーケンスを
含む入力データに基づいて、可変長の自然数Ｎ₁個の単
位列と可変長の自然数Ｎ₂個の単位列との間のバイグラ
ムであるバイ−マルチグラムの統計的シーケンスモデル
を生成する統計的シーケンスモデル生成装置が開示され
る。すべての単位列の組み合わせのバイグラムの頻度確
率を計数した後、予め決められた数の複数のクラスに分
類する。そして、分類結果に基づいて、ＥＭアルゴリズ
ムを用いて最尤推定値を得るように、かつフォワード・
バックワードアルゴリズムを用いてシーケンス間のバイ
グラムの頻度確率を示す式を用いて再推定することによ
りバイ−マルチグラムの統計的シーケンスモデルを生成
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習用シーケンス
データに基づいて統計的シーケンスモデルを生成する統
計的シーケンスモデル生成装置、学習用テキストデータ
に基づいて統計的言語モデルを生成する統計的言語モデ
ル生成装置、及び上記統計的言語モデルを用いて、入力
される発声音声文の音声信号を音声認識する音声認識装
置に関する。

【０００２】

【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、シーケンスモデルである言語モデルを
用いて、次単語を予測し探索空間を削減することによ
り、認識率の向上及び計算時間の削減の効果を狙ったも
のである。ここで、シーケンスとは、具体的には、文字
のシーケンスでは単語であり、単語のシーケンスではフ
レーズ（又は句）である。最近盛んに用いられている言
語モデルとしてＮ−ｇｒａｍ（Ｎ−グラム；ここで、Ｎ
は２以上の自然数である。）がある。これは、大規模な
テキストデータを学習し、直前のＮ−１個の単語から次
の単語への遷移確率を統計的に与えるものである。複数
Ｌ個の単語列ｗ₁ ^L＝ｗ₁，ｗ₂，…，ｗ_Lの生成確率Ｐ
（ｗ₁ ^L）は次式で表される。

【０００３】

【数１】

【０００４】ここで、ｗ_tは単語列ｗ₁ ^Lのうちｔ番目の
１つの単語を表し、ｗ_i ^jはｉ番目からｊ番目の単語列を
表わす。上記数１において、確率Ｐ（ｗ_t｜
ｗ_t+1-N ^t-1）は、Ｎ個の単語からなる単語列ｗ_t+1-N ^t-1
が発声された後に単語ｗ_tが発声される確率であり、以
下同様に、確率Ｐ（Ａ｜Ｂ）は単語又は単語列Ｂが発声
された後に単語Ａが発声される確率を意味する。また、
数１における「Π」はｔ＝１からＬまでの確率Ｐ（ｗ_t
｜ｗ_t+1-N ^t-1）の積を意味する。

【０００５】ところで、近年、上記統計的言語モデルの
Ｎ−ｇｒａｍを用いて連続音声認識の性能を向上させる
手法が盛んに提案されており、そのいくつかのモデルで
は、可変長の単語列にわたる単語の依存性を利用する方
法を用いている。これらのモデルは、共通して従来のＮ
−ｇｒａｍモデルにみられる固定長の依存性の仮定を緩
和するために用いられており、種々のより広い仮定をカ
バーしている。

【０００６】フレーズを純粋に統計的方法（すなわち、
統計的文脈自由文法（Stochastic Context Free Gramma
rs）にあるような文法的規則を用いない方法）で導くた
めには、種々の基準を使用する必要があり、例えば、以
下の基準が提案されてきた。（ａ）従来技術文献１「K. Ries et al.，”Class phra
se models for languagemodeling”，Proceedings of I
CSLP 96, 1996」において開示されたリーブ・ワン・ア
ウト（leave-one-out）尤度、及び（ｂ）従来技術文献２「H. Masataki et al., Variable
-order n-gram generation by word-class splitting a
nd consecutive word grouping. Proceedings ofICASSP
96,1996」において開示されたエントロピー。

【０００７】

【発明が解決しようとする課題】これらの方法におい
て、尤度の基準を統計的枠組みの中で用いることで、Ｅ
Ｍ（Expectation Maximum;すなわち、期待値の最大化）
アルゴリズムを用いた最適化の方法を用いることができ
るが、過学習となる傾向がある。また、最適化処理にお
いては、例えば、従来技術文献３「S. Matsunaga et a
l.,”Variable-length language modeling integrating
global constraints”,Proceedings of EUROSPEECH 9
7,1997」において発見的手法を用いられているが、統計
的言語モデルの収束と最適化は理論的に保証されていな
い。

【０００８】ここで、さらに、例えば、従来技術文献１
において提案された尤度の基準を用いたときの問題点に
ついて述べると以下の通りである。＜問題点１＞単語のシーケンスの頻度確率が貪欲なアル
ゴリズム(greedy algorithm)によって得られるために、
最適な状態に向かう単調な収束が保証されない。＜問題点２＞この方法は確定的なものである。つまり、
仮にシーケンス［ｂｃｄ］がシーケンスの目録（invent
ory)に在れば、入力文字列に”ｂｃｄ”が発生しても、
これが［ｂｃ］＋［ｄ］、［ｂ］＋［ｃｄ］、［ｂ］＋
［ｃ］＋［ｄ］等のサブシーケンスに分割されることは
ない。言い換えれば、シーケンスへの解析において自由
度が無い。＜問題点３＞シーケンスのクラスの定義が先行する単語
のクラス分類を基礎としている。すなわち、まず、単語
が分類され、次に、単語のクラスのラベルの各シーケン
スは、シーケンスのクラスを定義するために使用され
る。従って、同一クラスに長さの違うシーケンスを入れ
ることはできない。例えば、”thank you for”と”tha
nk you very much for”は同じクラスに入らない。

【０００９】これを解決するために、本発明者は、従来
技術文献４「S. Deligne et al.,”Introducing statis
tical dependencies and structural constraints in v
ariable-length sequence models”、In Grammatical In
ference: Learning Syntaxfrom Sentences, Lecture No
tes in Artificial Intelligence 1147, pp.156-167,Sp
ringer,1996」において、可変長のシーケンスであるマ
ルチグラムを用いる統計的言語モデルについて、当該従
来技術文献４の（１６）式を用いて、それらのパラメー
タを計算できる可能性だけを示しているが、当該（１
６）式は、実際にディジタル計算機を用いて計算するこ
とができる形式とはなっておらず、実用化することがで
きないという問題点があった。ここで、マルチグラムと
は、他のシーケンスとの依存性を特定しない可変長のシ
ーケンスである。

【００１０】本発明の目的は以上の問題点を解決し、従
来例に比較して、最適な状態に向かう単調な収束を保証
することができ、解析結果に自由度があり、可変長のシ
ーケンスを同一のクラスで取り扱うことができ、ディジ
タル計算機を用いて実用的に高速処理して統計的モデル
を生成することができる統計的シーケンスモデル生成装
置、統計的言語モデル生成装置及び音声認識装置を提供
することにある。

【００１１】

【課題を解決するための手段】本発明に係る統計的シー
ケンスモデル生成装置は、１個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数Ｎ₁個の単位列と可変長の自然数Ｎ₂個の
単位列との間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたＮ₁，Ｎ₂の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、ＥＭアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備えたことを特徴とする。

【００１２】また、上記統計的シーケンスモデル生成装
置において、上記初期化手段はさらに、上記計数された
バイグラムの頻度確率のうち、所定の頻度確率以下のバ
イグラムの組み合わせのデータを除去することを特徴と
する。

【００１３】さらに、上記統計的シーケンスモデル生成
装置において、上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする。

【００１４】また、上記統計的シーケンスモデル生成装
置において、上記式は、上記入力データにおいて、当該
単位列である第２の単位列が第１の単位列に続くときの
単位列のシーケンス間のバイグラムの頻度確率を、上記
入力データにおける処理対象の各単位列に対して計算す
るための式であり、上記シーケンス間のバイグラムの頻
度確率は、第１と第２の単位列を含むすべてのセグメン
ト化での尤度の和を、第１の単位列を含むすべてのセグ
メント化での尤度の和で除算することによって得られ
る。また、ここで、上記式は、上記入力データにおいて
各単位列が発生する平均回数を示す分母と、上記入力デ
ータにおいて第２の単位列が第１の単位列に続くときの
各単位列に対する平均回数を示す分子とを有し、上記分
子は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときの当該単位
列の頻度確率と、上記後方尤度の積の和であり、上記分
母は、処理対象の各単位列に対する、上記前方尤度と、
当該単位列の直前の単位列を条件としたときのすべての
単位列の頻度確率と、上記後方尤度の積の和である。

【００１５】さらに、上記統計的シーケンスモデル生成
装置において、上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする。

【００１６】また、本発明に係る統計的言語モデル生成
装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の文字であり、上記シーケンス
は単語であり、上記分類手段は、文字列を複数の単語の
列に分類し、上記統計的シーケンスモデルは、統計的言
語モデルであることを特徴とする。

【００１７】さらに、本発明に係る統計的言語モデル生
成装置は、上記統計的シーケンスモデル生成装置におい
て、上記単位は自然言語の単語であり、上記シーケンス
はフレーズであり、上記分類手段は、単語列を複数のフ
レーズの列に分類し、上記統計的シーケンスモデルは、
統計的言語モデルであることを特徴とする。

【００１８】またさらに、本発明に係る音声認識装置
は、入力される発声音声文の音声信号に基づいて、所定
の統計的言語モデルを用いて音声認識する音声認識手段
を備えた音声認識装置において、上記音声認識手段は、
上記統計的言語モデル生成装置によって生成された統計
的言語モデルを参照して音声認識することを特徴とす
る。

【００１９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。以下の実施形態において
は、単位は文字であり、文字のシーケンスである文字列
を単語列に分類する一例、並びに、単位は単語であり、
単語のシーケンスである単語列をフレーズ（句）に分類
する一例について説明しているが、本発明はこれに限ら
ず、単位はＤＮＡであり、ＤＮＡのシーケンスであるＤ
ＮＡ列を所定のＤＮＡ配列に分類するように構成しても
よい。また、単位は塩基であり、塩基のシーケンスであ
る塩基列を所定のコドンに分類するように構成してもよ
い。

【００２０】図１は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。本実施形態の連続
音声認識装置は、学習用テキストデータメモリ２１に記
憶された文字列であるテキストデータに基づいて、ワー
キングＲＡＭ３０を用いて、可変長のバイ−マルチグラ
ムの言語モデルを生成する統計的言語モデル生成部２０
を備え、ここで、統計的言語モデル生成部２０の処理
は、図３に示すように、大きく分けると、ブラウンアル
ゴリズムを用いた分類処理（ステップＳ３）と、バイ−
マルチグラムを用いた再推定処理（ステップＳ４）とを
含むことを特徴としている。

【００２１】すなわち、本実施形態の統計的言語モデル
生成装置は、１個又は複数の文字からなる文字列のシー
ケンスを含む入力データに基づいて、可変長の自然数Ｎ
₁個の文字列と可変長の自然数Ｎ₂個の文字列との間のバ
イグラムであるバイ−マルチグラムの統計的言語モデル
を生成する統計的言語モデル生成装置であり、ここで、
図３に示すように、（ａ）上記入力データに基づいて、
予め決められたＮ₁，Ｎ₂の最大値の拘束条件のもとで、
すべての文字列の組み合わせの上記バイグラムの頻度確
率を計数する初期化処理（ステップＳ２）と、（ｂ）上
記初期化処理によって計数された上記バイグラムの頻度
確率に基づいて、各クラスの対をマージしたときの相互
情報量の損失が最小となるようにマージして各クラスの
頻度確率を更新して予め決められた数の複数のクラスに
分類することにより、分類されたクラスに含まれる文字
列と、分類されたクラスの条件付きの文字列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率を計算
して出力する分類処理（ステップＳ３）と、（ｃ）上記
分類処理によって得られた分類されたクラスに含まれる
文字列と、分類されたクラスの条件付きの文字列の頻度
確率と、分類されたクラス間のバイグラムの頻度確率と
に基づいて、ＥＭアルゴリズムを用いて、最尤推定値を
得るように再推定し、ここで、フォワード・バックワー
ドアルゴリズムを用いて、処理対象の各文字列に対し
て、時系列的に前方にとり得る処理対象の当該文字列に
対する前方尤度と、当該文字列の直前の文字列を条件と
したときの当該文字列の頻度確率と、時系列的に後方に
とり得る当該文字列に対する後方尤度とに基づいてシー
ケンス間のバイグラムの頻度確率を示す式（数２２−数
２４）を用いて、当該シーケンス間のバイグラムの頻度
確率を再推定することにより、再推定結果である上記バ
イ−マルチグラムの統計的シーケンスモデルを生成して
出力する再推定処理（ステップＳ４）と、（ｄ）上記分
類処理と上記再推定処理を所定の終了条件を満たすまで
繰り返し実行するように制御する処理（ステップＳ５）
を含むことを特徴とする。

【００２２】本実施形態では、単語のＮ−ｇｒａｍに基
づく手法に対向する、フレーズに基づく方法に焦点を当
てる。ここで、複数の文はフレーズに構成され、頻度確
率は、単語に代わってフレーズに割り当てられる。モデ
ルがＮ−ｇｒａｍに基づくか、フレーズに基づくかに関
わらず、それらは確定的モデルあるいは統計的モデルの
いずれかに該当する。フレーズに基づく枠組みでは、非
確定性はその文の解析結果の曖昧さを通じてフレーズに
導入される。すなわち、これは実際においては、フレー
ズ”ａｂｃ”がフレーズとして登録されているにもかか
わらず、文字列の解析結果が例えば［ａｂ］［ｃ］とな
る確率が皆無でないことを意味する。これとは対照的
に、確定的手法ではａ、ｂ、ｃすべての同時出現はシス
テマティックにフレーズ［ａｂｃ］の出現と解釈され
る。

【００２３】また、本実施形態では、統計的言語モデル
の処理は、バイ−マルチグラムを用いて実行され、当該
バイ−マルチグラムの言語モデルは、フレーズに基づく
統計的モデルであり、そのパラメータは尤度基準に従っ
て推定される。

【００２４】まず、マルチグラムの理論的な定式化につ
いて説明する。マルチグラムの枠組みでは、Ｔ個の単語
からなる文

【数２】Ｗ＝ｗ₍₁₎ｗ₍₂₎…ｗ_(T) は、それぞれ最大長ｎ個の単語からなる各々のフレーズ
が連鎖（シーケンス）したものと仮定される。ここで、
ＳはＴ_s個のフレーズへのセグメント化を示し、ｓ_(t)は
セグメント化Ｓにおける時刻インデックス（最初の語か
らのシリアル番号を示す。）（ｔ）のフレーズとした場
合、ＷのＳでのセグメント化の結果は、次式で表すこと
ができる。

【数３】（Ｗ，Ｓ）＝ｓ₍₁₎…ｓ_(Ts)

【００２５】ここで、セグメント化された複数のフレー
ズからなる辞書は、語彙から１，２…からｎにいたるま
での単語を組み合わせて形成されるものであり、ここで
は，次式のように表す。

【数４】Ｄｓ＝｛ｓ_j｝_j そして、文の尤度は、各セグメント化に対する尤度の和
として、次式のように計算される。

【００２６】

【数５】

【００２７】モデルの決定指向的手法により、文Ｗは、
最も尤らしいセグメント化に従って解析され、次の近似
式が得られる。

【００２８】

【数６】

【００２９】ここで、フレーズ間のｎ−ｇｒａｍの相関
を仮定し、特定のセグメント化Ｓの結果の尤度の値を次
式のように計算する。

【００３０】

【数７】

【００３１】ここで、以下、符号ｎは複数のフレーズ間
の依存度を表し、従来のｎ−ｇｒａｍの表記法のｎとし
て使用する。また、符号ｎ_maxは、フレーズの最大長を
表す。従って、ここで、尤度の計算例を次式に示す。こ
の例では、バイ−マルチグラムモデル（ｎ_max＝３，ｎ
＝２）の”ａｂｃｄ”の尤度を示す。記号＃は空のシー
ケンスを表す。

【００３２】

【数８】尤度＝ｐ(［ａ］｜＃)ｐ(［ｂ］｜［ａ］)ｐ
(［ｃ］｜［ｂ］)ｐ(［ｄ］｜［ｃ］）＋ｐ(［ａ］｜
＃)ｐ(［ｂ］｜［ａ］)ｐ(［ｃｄ］｜［ｂ］)＋ｐ
(［ａ］｜＃)ｐ(［ｂｃ］｜［ａ］)ｐ(［ｄ］｜［ｂ
ｃ］)＋ｐ(［ａ］｜＃)ｐ(［ｂｃｄ］｜［ａ］)＋ｐ
(［ａｂ］｜＃)ｐ(［ｃ］｜［ａｂ］)ｐ(［ｄ］｜
［ｃ］)+p(［ａｂ］｜＃)ｐ(［ｃｄ］｜［ａｂ］)＋ｐ
(［ａｂｃ］｜＃)ｐ(［ｄ］｜［ａｂｃ］)

【００３３】上記数８から明らかなように、当該尤度
は、シーケンス”ａｂｃｄ”をセグメント化するときの
すべての組み合わせについての頻度確率の和を表してい
る。

【００３４】次いで、言語モデルのパラメータの推定に
ついて説明する。マルチグラムのｎ−ｇｒａｍモデル
は、パラメータΘのセットによって完全に定義され、次
式のパラメータΘは、辞書Ｄｓを用いて、

【数９】 Θ＝｛ｐ（ｓ_in｜ｓ_i1…ｓ_in-1）｜ｓ_i1…ｓ_in∈Ｄｓ｝ｎ個のフレーズのあらゆる組み合わせに関係するｎ−ｇ
ｒａｍの条件付き確率によって構成される。パラメータ
Θのセットの推定値は、例えば、不完全なデータから得
られる想定しうる最大の尤度値、すなわち最尤推定値
（Maximum Likelihood Estimation）として得られ、こ
こで、未知のデータは基礎をなすセグメント化Ｓであ
る。従って、パラメータΘの反復的な最尤推定値は、公
知のＥＭアルゴリズム（Expectation Maximization Alg
orithm)によって計算することができる。ここで、Ｑ
（ｋ，ｋ＋１）を、反復回数パラメータｋ及びｋ＋１の
尤度を用いて計算される、次式の補助関数とする。

【００３５】

【数１０】

【００３６】公知のＥＭアルゴリズムにおいて示される
ように、

【数１１】Ｑ（ｋ，ｋ＋１）≧Ｑ（ｋ，ｋ）であれば、

【数１２】Ｌ^(k+1)（Ｗ）≧Ｌ^(k)（Ｗ）である。従って、反復回数パラメータ（ｋ＋１）におけ
る次式の再推定式

【数１３】ｐ^(k+1)（ｓ_in｜ｓ_i1…ｓ_in-1）は、次式の拘束条件

【数１４】のもとで、モデルパラメータΘ^(k+1)について補助関数
Ｑ（ｋ，ｋ＋１）を最大化することにより、次式のよう
に直接的に導くことができる。なお、本明細書におい
て、下付きの下付きの表記及び上付きの下付きの表記は
できないので、下層の下付きの表記を省略している。

【００３７】

【数１５】

【００３８】ここで、ｃ（ｓ_i1…ｓ_in，Ｓ）は、セグメ
ント化Ｓにおける複数のフレーズｓ_i1…ｓ_inの組み合わ
せの出現数を示す。数１５の再推定式は、バイ−マルチ
グラム（ｎ＝２）について詳細後述されるように、フォ
ワード・バックワードアルゴリズム（forward backward
algorithm)(以下、ＦＢ法ともいう。）を用いて実行さ
れる。決定指向の方法では、再推定式は、次式のように
簡略化される。

【００３９】

【数１６】

【００４０】ここで、Ｓ^*(k)は、Ｌ^(k)（Ｓ｜Ｗ）を最大
化する文の解析結果であり、ビタビ（Viterbi）アルゴ
リズムによって導かれる。各反復は、尤度Ｌ^(k)（Ｗ）
を増大させる意味において言語モデルを改善し、最終的
には臨界点（おそらくは、局所最大値）へ収束する。モ
デルパラメータΘのセットは、学習用コーパス、すなわ
ち学習用テキストデータにおいて観察されるすべてのフ
レーズの組み合わせの相対的頻度を用いて初期化され
る。

【００４１】次いで、可変長フレーズのクラスタリング
（分類処理）について説明する。従来技術文献１によれ
ば、近年、クラス−フレーズに基づくモデルが注目され
ているが、通常、それは従来の単語クラスタリングを仮
定している。典型的には、各単語はまず、単語が属する
クラスのラベルＣ_kを割り当てられ、単語−クラスラベ
ルの可変長フレーズ［Ｃ_k1，Ｃ_k2…Ｃ_kn］が導かれる。
各可変長フレーズによって、“＜［Ｃ_k1，Ｃ_k2…Ｃ_kn］
＞”として示されるフレーズが属するクラスのラベルが
定義される。しかしながら、この手法では、同じ長さの
フレーズのみにしか同じフレーズ−クラスラベルを割り
当てることができない。例えば、”thank you for”
と”thank you very much for”というフレーズを同じ
クラスラベルに割り当てることができない。本実施形態
では、このような限界に対する解決法として、単語に代
わり直接フレーズをクラスタリングする方法を提案す
る。この目的を達成するためには、２個のフレーズ間の
バイグラムの相関（ｎ_max＝２）を仮定し、上述したバ
イ−マルチグラムモデルの学習手法に変更を加え、各反
復が次の２つの段階より構成されるようにする。

【００４２】（Ｉ）ステップＳＳ１：クラス割り当て
（図３のステップＳ３に対応する。）

【数１７】｛ｐ^(k)（ｓ_j｜ｓ_i）｝→｛ｐ^(k)（Ｃ_k(sj)
｜Ｃ_k(sj)），ｐ^(k)（ｓ_j｜Ｃ_k(sj)）｝（ＩＩ）ステップＳＳ２：マルチグラムの再推定（図３
のステップＳ４に対応する。）

【数１８】｛ｐ^(k)（Ｃ_k(sj)｜Ｃ_k(si)），ｐ^(k)（ｓ_j
｜Ｃ_k(sj)）｝→｛ｐ^(k+1)（ｓ_j｜ｓ_i）｝

【００４３】上記ステップＳＳ１では、フレーズバイグ
ラムの頻度確率を入力とし、クラスバイグラムの頻度確
率を出力する。クラス割り当ては、例えば、従来技術文
献５「P. F. Brown et al., ”Class-based n-gram mod
els of natural language”,Computational Linguistic
s, Vol.18,No.4,pp.467-479,1992」によれば、隣り合う
フレーズ間の相関情報を最大化することによって行われ
る。ここで、クラスタリングの候補は単語ではなくフレ
ーズとする。上述のように、｛ｐ⁽⁰⁾（ｓ_j｜ｓ_i）｝
は、学習用テキストデータにおけるフレーズの同時出現
の相対的頻度を用いて初期化される。上記ステップＳＳ
２では、マルチグラムの再推定式（数１５）又はその近
似式（数１６）を用いてフレーズの頻度確率を再推定す
る。ここで、唯一の違いは、解析結果の尤度は以下の式
により計算される。

【００４４】

【数１９】

【００４５】これは、上述したように、頻度確率ｐ^(k)
（ｓ_j｜ｓ_i）に対する処理と同様に、頻度確率ｐ
^(k)（Ｃ_k(sj)｜Ｃ_k(si)）×ｐ^(k)（ｓ_j｜Ｃ_k(sj)）に基
づいて頻度確率ｐ^(k+1)（ｓ_j｜ｓ_i）を再推定すること
に等しい。

【００４６】要約すれば、上記ステップＳＳ１によっ
て、現在のフレーズ分布に関し、相互情報量の基準に基
づくクラス割り当てが最適化されるよう保証され、上記
ステップＳＳ２によって、現在のクラスの頻度確率を用
いて、上記数１９に従って、計算された尤度がフレーズ
の頻度確率により最適化されるよう保証される。学習デ
ータは、従って、完全に統合化された方法により連合的
（paradigmatic）かつ統合的（syntagmatic）（それぞ
れ言語学の用語である。）レベルの双方において反復的
に構成される。すなわち、クラス割り当てにより表現さ
れるフレーズ間の連合的関係はフレーズの頻度確率の再
推定に影響を与え、フレーズの頻度確率は後続するクラ
ス割り当てを決定する。

【００４７】本実施形態では、上述のように、バイ−マ
ルチグラムのパラメータの推定のために、フォワード・
バックワードアルゴリズム（ＦＢ法）を用いる。これに
ついて、以下に、詳述する。

【００４８】上記数１５は、フォワード・バックワード
アルゴリズムを用いて、ｎ_maxをシーケンスの最大長と
し、Ｔをコーパス（学習用テキストデータ）の語数とし
て、複雑さの度合いであるコンプレキシティＯ（ｎ_max ²
Ｔ）で計算することができる。ここで、コンプレキシテ
ィＯ（ｎ_max ²Ｔ）は計算コストのオーダーに対応する。
すなわち、当該数１５の計算コストは、シーケンスの最
大長ｎ_maxの２乗に比例し、コーパスの語数に比例す
る。本実施形態においては、基本的には、セグメント化
｛Ｓ｝のセットではなく、単語のタイムインデックス
（ｔ）にわたって加算を行い、数１５の分子及び分母を
計算する。ここで、当該計算は、次式の前方向の変数α
（ｔ，ｌ_i）及び後ろ方向の変数β（ｔ，ｌ_j）の定義に
依存する。

【００４９】

【数２０】α（ｔ，ｌ_i）＝Ｌ（Ｗ₍₁₎ ^(t-li)｜［Ｗ
_(t-li+1) ^(t)］）

【数２１】β（ｔ，ｌ_j）＝Ｌ（Ｗ_(t+1) ^(T)｜［Ｗ
_(t-lj+1) ^(t)］）

【００５０】前方向の変数α（ｔ，ｌ_i）は、最初のｔ
個の単語の尤度を表し、ここで、最後のl_i個の単語は、
１つのシーケンスを形成するように制限される。また、
後ろ方向の変数β（ｔ，ｌ_j）は、最後の（Ｔ−ｔ）個
の語の条件付き尤度を示し、最後の（Ｔ−ｔ）個の単語
は、シーケンス［ｗ_(t-lj+1)…ｗ_(t)］に後続する。こ
こで、例えば、Ｗ₍₁₎ ^(t-li)は、時刻インデックス
（１）から（ｔ−ｌ_i）までの単語からなる単語列を表
す。そして、解析結果の尤度は、数７によって計算され
ると仮定すると、数１５は次式のように書き換えられ
る。

【００５１】

【数２２】ｐ^(k+1)（ｓ_j｜ｓ_i）＝ｐ_c／ｐ_d ここで、

【数２３】ｔ＝１

【数２４】

【００５２】ここで、ｌ_i及びｌ_jはそれぞれシーケンス
ｓ_i及びｓ_jの長さを示す。クロネッカー関数δ_k（ｔ）
は、時刻インデックスｔで開始する単語のシーケンスが
ｓ_kであるときは１となる一方、そうでない場合は０と
なる関数である。また、変数α及びβは以下の反復式
（又は帰納式）によって計算できる。ここで、時刻イン
デックスｔ＝０及びｔ＝Ｔ＋１においてそれぞれ開始及
び終了シンボルを仮定する。

【００５３】１≦ｔ≦Ｔ＋１に対して：

【数２５】ここで、

【数２６】α（０，１）＝１，α（０，２）＝…＝α
（０，ｎ_max）＝０である。

【００５４】０≦ｔ≦Ｔに対して：

【数２７】ここで、

【数２８】β（Ｔ＋１，１）＝１，β（Ｔ＋１，２）＝
…＝β（Ｔ＋１，ｎ_max）＝０である。

【００５５】解析結果の尤度がクラスの仮定を用いて計
算される場合、すなわち、数１９に従って計算される場
合は、再推定式（数２２−数２４）の項ｐ^(k)（ｓ_j｜ｓ
_i）はそのクラスの等価物、すなわちｐ^(k)（Ｃ_k(sj)｜
Ｃ_k(si)）ｐ^(k)（ｓ_j｜Ｃ_k(sj)）に置き換えられる。α
の反復式において、項ｐ（［Ｗ_(t-li+1) ^(t)］｜［Ｗ
_(t-li-l+1) ^(t-li)］）は、シーケンス
［Ｗ_(t-li+1) ^(t)］のクラスの条件付き確率を乗算した
対応するクラスのバイグラム確率に置き換えられる。同
様の変形を反復式における変数βについても行う。

【００５６】次いで、本実施形態におけるフォワード・
バックワードアルゴリズムを用いた再推定処理につい
て、一例を参照して、以下に詳述する。前方向及び後ろ
方向（以下、前後方向という。）の再推定処理は、数２
２の分子の加算、及び分母の加算が、可能な解析結果集
合｛Ｓ｝に代わって、学習データにおける単位の時刻イ
ンデックスｔについて計算されるように、数１５におけ
る複数の項を配列し直して行う。この方法は、前方向の
変数α及び後ろ方向の変数βの定義に依存している。（ａ）下記のパラグラフ＜＜Ａ１＞＞では、クラスのな
いことを仮定している。（ｂ）下記のパラグラフ＜＜Ａ１．１＞＞では、変数α
及びβを定義し、例を提供する。（ｃ）下記のパラグラフ＜＜Ａ１．２＞＞では、変数α
及びβを使用した頻度確率に関する前後方向の再推定に
ついて例示する。（ｄ）下記のパラグラフ＜＜Ａ１．３＞＞では、反復
（又は帰納）による変数αとβの計算方法に関して例示
する。（ｅ）下記のパラグラフ＜＜Ａ２＞＞では、クラスが存
在する場合のパラグラフ＜＜Ａ１．２＞＞及び＜＜Ａ
１．３＞＞の修正方法を示す。（ｆ）下記の例はすべて、次の表に示すデータに基づい
ている。

【００５７】

【表１】 ――――――――――――――――――――――――――――――――――― 入力学習データ(下記）： o n e s i x o n e e i g h t s i x t h r e e t w o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 単位の時刻インデックス（上記）： ――――――――――――――――――――――――――――――――――― （注）学習データの１つの文字は、１つの時刻インデックスに対応している。

【００５８】＜＜Ａ１．１＞＞前方向の変数α及び後ろ
方向の変数βの定義変数α（ｔ，ｌ）は、長さｌのシーケンスで終了する、
時刻インデックス（ｔ）までのデータの尤度である。例
えば、変数α（９，３）は、シーケンス「o ne s i x o
_n_e」の尤度である。また、変数β（ｔ，ｌ）は、長さ
ｌのシーケンスが時刻インデックス（ｔ）で終了すると
いうことが知られているときに、時刻インデックス（ｔ
＋１）で開始されるデータの条件つき尤度である。例え
ば、変数β（９，３）は、先行するシーケンスが「o_n_
e」であるときの、シーケンス「e i g h t s i x t h r
e e tw o」の尤度である。反復又は帰納による変数α
及びβの計算方法に関する例を、下記のパラグラフ＜＜
Ａ１．３＞＞に示す。

【００５９】＜＜Ａ１．２＞＞変数α及びβに基づく確
率の再推定例として、上記の学習データ例に関する、変数α及びβ
を使用した頻度確率p（o_n_e｜s_i_x）の再推定式を示
す。頻度確率p（o_n_e｜s_i_x）の一般的な再推定式
（数１５)）は次のような意味を持つ。（ａ）分子は、学習データにおいてシーケンス「o_n_
e」がシーケンス「s_i_x」に続く平均回数である。（ｂ）分母は、学習データにおいてシーケンス「s_i_
x」が発生する平均回数である。（ｃ）ここで、平均回数の値は、学習データのシーケン
スにおけるすべての可能な解析結果について求める。

【００６０】フォワード・バックワードアルゴリズムを
用いた再推定式（数２２−２４）の分子（数２３）及び
分母（数２４）はそれぞれ、数１５の分子及び分母に等
しいが、これらは解析結果集合にわたる加算ではなく、
時刻インデックスにわたる加算によって計算したもので
ある。再推定式（数１５）の分子では、「s_i_x」と「o
_n_e」の２個のシーケンスが連続して発生する毎に、各
可能な解析結果の尤度が加算される。一方、フォワード
・バックワードアルゴリズムを用いた再推定式（数２２
−数２４）においては、「s_i_x」と「o_n_e」の２個の
シーケンスが連続して発生し、また、シーケンス「o_n_
e」が時刻インデックス（ｔ＋１）で開始するようなす
べての解析結果の尤度値をまずグループ化して、加算す
る。時刻インデックスｔまで加算した時点で加算計算は
完了する。

【００６１】上記の例では、「s_i_x」と「o_n_e」の２
個のシーケンスが連続して発生し、しかもシーケンス
「o_n_e」が時刻インデックス（７）でのみ開始してい
る。ここで、「s_i_x」と「o_n_e」の２個のシーケンス
が連続して発生し、また、時刻インデックス（７）でシ
ーケンス「o_n_e」が開始するようなすべての解析結果
の尤度値の和は、シーケンス「o n e s_i_x o_n_e e i
g h t s i x t h r e et w o」の尤度であり、これは、
次式に等しい。

【数２９】

【００６２】ここで、第２項のｐ（o_n_e｜s_i_x）は、
反復回数パラメータ（ｋ）における頻度確率である。ま
た、前方向の変数αの定義により、変数α（６，３）は
シーケンス「o n e s_i_x」の尤度であり、さらに、後
ろ方向の変数βの定義により、変数β（９，３）は、シ
ーケンス「o_n_e」が得られたときの、シーケンス「ei
g h t s i x t h r e e t w o」の尤度である。

【００６３】数１５の分母では、可能な各解析結果の尤
度を、シーケンス「s_i_x」がこの解析において発生す
るのと同じ回数で加算する。等価である、フォワード・
バックワードアルゴリズムを用いた前後方向の定式化で
は、シーケンス「s_i_x」が発生し、時刻インデックス
（ｔ）で終了するすべての全解析結果の尤度値をまずグ
ループ化した後に加算し、時刻インデックスｔを越えた
時点で加算を終了する。

【００６４】上述の例では、シーケンス「s_i_x」は、
時刻インデックス（６）と時刻インデックス（１７）で
終了するように発生している。シーケンス「s_i_x」が
時刻インデックス（６）で終了するように発生するすべ
ての解析結果の尤度値の加算は、シーケンス「o n e s_
i_x o_n_e e i g h t s i x t h r e e t w o」の尤度
であり、これは次式に等しい。

【００６５】

【数３０】

【００６６】ここで、前方向の変数αの定義により、変
数α（６，３）はシーケンス「o ne s_i_x」の尤度であ
り、後ろ方向の変数βの定義により、変数β（９，３）
は、シーケンス「o_n_e」が与えられたときの、シーケ
ンス「e i g h t s i x t hr e e t w o」の尤度であ
る。

【００６７】次いで、時刻インデックス（１７）におい
てシーケンス「s_i_x」が終了するすべての解析結果の
尤度値の加算は、シーケンス「o n e s i x o n e e i
g ht s_i_x t_h_r_e_e t w o」の尤度であり、これは次
式に等しい。

【００６８】

【数３１】

【００６９】ここで、前方向の変数αの定義により、変
数α（１７，３）はシーケンス「on e s i x o n e e i
g h t s_i_x」の尤度であり、後ろ方向の変数βの定義
により、変数β（２２，５）は、シーケンス「t_h_r_e_
e」が与えられたときの、シーケンス「t w o」の尤度で
ある。

【００７０】従って、「o n e s i x o n e e i g h t
s i x t h r e e t w o」なる学習データにおける、反
復回数パラメータ（ｋ＋１）における頻度確率p(o_n_e
│s_i_x)に対する、フォワード・バックワードアルゴリ
ズムを用いた再推定式は次式のようになる。

【００７１】

【数３２】ここで、

【数３３】

【数３４】

【００７２】以上説明したように、本発明の実施形態に
おける特徴は、フォワード・バックワードアルゴリズム
を用いて、数２３及び数２４を含む数２２を定式化した
ことにあるが、当該特徴とする数式は、以下の意味を有
する。当該式は、入力データにおいて、当該単位列であ
る第２の単位列が第１の単位列に続くときの単位列のシ
ーケンス間のバイグラムの頻度確率を、上記入力データ
における処理対象の各単位列に対して計算するための式
であり、上記シーケンス間のバイグラムの頻度確率は、
第１と第２の単位列を含むすべてのセグメント化での尤
度の和を、第１の単位列を含むすべてのセグメント化で
の尤度の和で除算することによって得られる。また、上
記式は、上記入力データにおいて各単位列が発生する平
均回数を示す分母と、上記入力データにおいて第２の単
位列が第１の単位列に続くときの各単位列に対する平均
回数を示す分子とを有し、上記分子は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときの当該単位列の頻度確率と、上記
後方尤度の積の和であり、上記分母は、処理対象の各単
位列に対する、上記前方尤度と、当該単位列の直前の単
位列を条件としたときのすべての単位列の頻度確率と、
上記後方尤度の積の和である。

【００７３】＜＜Ａ１．３＞＞前方向の変数αと後ろ方
向の変数βの計算例例として、データ「o n e s i x o n e e i g h t s i
x t h r e e t w o」について変数α（９，３）と変数
β（９，３）を以下に計算する。ここで、変数α（９，
３）は、シーケンス「o n e s i x o_n_e」の尤度であ
り、このシーケンスは、時刻インデックス９までのシー
ケンスであって、最後尾において長さ３のシーケンスを
有する。また、変数β（９，３）は、シーケンス「o_n_
e」が与えられたときの、シーケンス「e i g h t s i x
t h r e e t w o」の条件つき尤度であり、このシーケ
ンスは、時刻インデックス９以降のシーケンスであっ
て、先行するシーケンス”o_n_e”は予め知られてい
る。

【００７４】シーケンス”o_n_e”までの尤度（前方の
変数）α（９，３）は、次式で計算される。なお、シー
ケンス（系列）の長さの最大値を”５”に指定した場合
について考える。

【数３５】α（９，３）＝下記の加算値（ａ）n_e_s_i_xについて：α（６，５）×ｐ（o_n_e｜
n_e_s_i_x）（ｂ）e_s_i_xについて：α（６，４）×ｐ（o_n_e｜e_
s_i_x）（ｃ）s_i_xについて：α（６，３）×ｐ（o_n_e｜s_i_
x）（ｄ）i_xについて：α（６，２）×ｐ（o_n_e｜i_x）（ｅ）ｘについて：α（６，１）×ｐ（o_n_e｜x）

【００７５】シーケンス”o_n_e”の条件のもとでのそ
の後方の尤度（後方の変数）β（９，３）は、次式で計
算される。

【数３６】β（９，３）＝下記の加算値（ａ）e_i_g_h_tについて：ｐ（e_i_g_h_t｜o_n_e）×
β（９＋５，５）（ｂ）e_i_g_hについて：ｐ（e_i_g_h
｜o_n_e）×β（９＋４，４）（ｃ）e_i_gについて：ｐ
（e_i_g｜o_n_e）×β（９＋３，３）（ｄ）e_iについ
て：ｐ（e_i｜o_n_e）×β（９＋２，２）（ｅ）eにつ
いて：ｐ（e｜o_n_e）×β（９＋１，１）

【００７６】＜＜Ａ２＞＞クラスの事例シーケンスがクラスに属するケースでは、上述の例のバ
イグラムの確率部分を、以下のように置き換えることに
よって変数α，βが計算される。（ａ）ｐ（o_n_e｜n_e_s_i_x）は、ｐ（class of o_n_e
｜class of n_e_s_i_x）×ｐ（o_n_e｜class of o_n_
e）と取って換えられる。（ｂ）ｐ（o_n_e｜e_s_i_x）は、ｐ（class of o_n_e
｜ class of e_s_i_x）×ｐ（o_n_e｜class of o_n_
e）と取って換えられる。（ｃ）ｐ（o_n_e｜s_i_x）
は、ｐ（class of o_n_e｜class of s_i_x）×ｐ（o_n_
e｜class of o_n_e）と取って換えられる。（ｄ）ｐ（o_n_e｜i_x）は、ｐ（class of o_n_e｜clas
s of i_x）×ｐ（o_n_e｜class of o_n_e）と取って換
えられる。（ｅ）ｐ（o_n_e｜x）は、ｐ（class of o_n_e｜class
of x）×ｐ（o_n_e｜class of o_n_e）と取って換えら
れる。（ｆ）ｐ（e_i_g_h_t｜o_n_e）は、ｐ（class of e_i_g
_h_t｜class of o_n_e）×ｐ（e_i_g_h_t｜class of e_
i_g_h_t）と取って換えられる。（ｇ）ｐ（e_i_g_h｜o_n_e）は、ｐ（class of e_i_g_h
｜class of o_n_e）×ｐ（e_i_g_h｜class of e_i_g_
h）と取って換えられる。（ｈ）ｐ（e_i_g｜o_n_e）は、ｐ（class of e_i_g｜cl
ass of o_n_e）×ｐ（e_i_g｜class of e_i_g）と取っ
て換えられる。（ｉ）ｐ（e_i｜o_n_e）は、ｐ（class of e_i｜class
of o_n_e）×ｐ（e_i｜class of e_i）と取って換えら
れる。（ｊ）ｐ（e｜o_n_e）は、ｐ（class of e｜class of o
_n_e）×ｐ（e｜class of e）と取って換えられる。

【００７７】＜統計的言語モデル生成処理＞図３は、図
１の統計的言語モデル生成部２０によって実行される統
計的言語モデル生成処理を示すフローチャートである。
ここで、統計的言語モデル生成部２０は、図１に示すよ
うに、次のメモリ３１乃至３６に区分されたワーキング
ＲＡＭ３０を備える。（ａ）パラメータメモリ３１：当該生成処理で用いる種
々の設定パラメータを記憶するメモリである。（ｂ）シーケンス頻度確率メモリ３２：計算された各シ
ーケンスの頻度確率を記憶するメモリである。（ｃ）クラス定義メモリ３３：推定された各クラスに属
する文字列を記憶するメモリである。（ｄ）クラス条件付き頻度確率メモリ３４：推定された
各クラスに属する各文字列に対する頻度確率、すなわ
ち、クラスの条件付きのクラス間の文字列の頻度確率を
記憶するメモリである。（ｅ）クラスバイグラム頻度確率メモリ３５：クラスの
バイグラムの頻度確率を記憶するメモリである。（ｆ）セグメント化されたシーケンスメモリ３６：再推
定処理後のセグメント化されたシーケンス（文字列）を
記憶するメモリである。

【００７８】図３において、まず、ステップＳ１では、
学習用テキストデータメモリ２１からテキストデータを
読み込む。ここで、入力される学習用テキストデータ
は、離散的な単位のシーケンスであり、ここで、単位と
は例えば、文字であり、シーケンスは単語又は文となり
得る文字列である。また、予め下記の入力パラメータが
設定されてパラメータメモリ３１に記憶されている。（ａ）シーケンスの最大長（単位の数で表す。）、
（ｂ）再推定処理後のクラス数、（ｃ）廃棄するシーケ
ンス数のしきい値（すなわち、廃棄するシーケンスの発
生数の最小値）、及び（ｄ）終了条件。ここで、終了条
件は、例えば、反復回数ｋのしきい値である。

【００７９】次いで、ステップＳ２で、初期化処理が実
行される。入力された学習用テキストデータにおいて、
複数の単位からなるシーケンスの相対的な頻度を計数し
て、それに基づいて各シーケンスの頻度確率を初期設定
する。また、上記設定された廃棄するシーケンス数のし
きい値以下のシーケンスについては廃棄する。そして、
反復回数パラメータｋを０にリセットする。

【００８０】次いで、ステップＳ３では、ブラウンアル
ゴリズムを用いた分類処理を実行する。この分類処理で
は、反復回数パラメータｋのときの各シーケンスの頻度
確率に基づいて、クラス間の相互情報量の損失が最小と
なるように、反復回数パラメータｋのときの、クラス定
義、クラス条件付きクラス間のシーケンスの頻度確率、
及びクラスバイグラムの頻度確率を計算してそれぞれメ
モリ３２乃至３５に出力して記憶する。この処理におけ
る分類基準は、隣接するシーケンス間の相互情報量であ
り、上述のアルゴリズムを用いる。これらの相互情報量
とアルゴリズムは、隣接する単語の場合に対して、ブラ
ウンによって提案されており、本実施形態では、ブラウ
ンアルゴリズムを用いる。しかしながら、本発明はこれ
に限らず、単位の頻度確率を基礎とする他の分類アルゴ
リズムを使用することができる。

【００８１】次いで、ステップＳ４において、フォワー
ド・バックワードアルゴリズムを参照して得られた数２
２−数２４を用いて、バイ−マルチグラムを用いた再推
定処理を実行する。この処理では、直前のステップＳ３
で計算された、反復回数パラメータｋのときの、クラス
定義、クラス条件付きクラス間のシーケンスの頻度確
率、及びクラスバイグラムの頻度確率に基づいて、次の
反復パラメータのときのシーケンス間のバイグラムの頻
度確率の最尤推定値を得るように、反復回数パラメータ
（ｋ＋１）のときの、各シーケンスの頻度確率を再推定
して計算して、メモリ３２に出力して記憶する。この処
理における処理基準は、上記数２２−数２４を用いて、
すなわち、複数のシーケンスのクラスとバイグラムの依
存性を仮定して計算された解析結果の尤度の中の最大値
である最尤推定値を基準値として用いることであり、再
推定のためのアルゴリズムとしてＥＭアルゴリズムを用
いる。

【００８２】次いで、ステップＳ５で、所定の終了条件
を満足するか否かが判断され、ＮＯのときは、ステップ
Ｓ６で反復回数パラメータｋを１だけインクリメントし
てステップＳ３及びＳ４の処理を繰り返す。一方、ステ
ップＳ５でＹＥＳであれば、生成された統計的言語モデ
ルのデータを統計的言語モデルメモリ２２に出力して記
憶する。ここで、生成された統計的言語モデルのデータ
とは、各シーケンスの頻度確率に関するデータであり、
具体的には、下記のデータである。（ａ）入力されたデータを複数のシーケンスにセグメン
ト化したときの最尤推定値を有する各シーケンスのデー
タ；（ｂ）クラス定義、すなわち、各クラスにおけるシーケ
ンス；及び（ｃ）クラスの頻度確率、すなわち、各クラスのバイグ
ラム確率、各シーケンスのクラス条件付き確率。

【００８３】図４は、図３のサブルーチンであるブラウ
ンアルゴリズムを用いた分類処理を示すフローチャート
である。単語の自動分類のために、ブラウン他によって
シーケンスの自動分類に使用するためのアルゴリズム
（例えば、従来技術文献５参照。）が提案されており、
本実施形態では、これを使用する。ブラウンらは、文章
の尤度を最大化するクラスへの分割又はセグメント化
が、隣接する単語間の相互情報量を最大化する分割又は
セグメント化でもあることを示している。彼らは単語の
バイグラム分布を入力とし、単語クラスへの分割及びク
ラス分布を出力する貪欲なアルゴリズム(greedy algori
thm)を提案している。一方、本発明者は、入力としてバ
イ−マルチグラムの頻度確率の分布（すなわち、シーケ
ンスのバイグラムの頻度確率の分布）を採用することに
より、このアルゴリズムを適用している。出力は、シー
ケンスのクラスへのセグメント化及びその各シーケンス
の頻度確率の分布である。

【００８４】この分類処理で用いる相互情報量を用いた
単語のクラスタリングについて詳細説明する（例えば、
従来技術文献６「北研二ほか著，”音声言語処理”，森
北出版，ｐｐ．１１０−１１３，１９９６年１１月１５
日発行」参照。）。ここでは、隣接する単語に基づく単
語の分類法として、クラス間の相互情報量を最大にする
方法について説明する。相互情報量に基づくクラスタリ
ングは、バイグラムのクラスモデルにおいて単語をクラ
スへ分割する最尤な方法は、隣接するクラスの平均相互
情報量を最大にするようなクラス割り当てであること
を、理論的な根拠としている。Ｎ−ｇｒａｍのクラスモ
デルとは、次式のように、単語のクラスのＮ−ｇｒａｍ
とクラス別の単語の出現分布の組み合わせで、単語のＮ
−ｇｒａｍを近似する言語モデルのことである(この式
は、単語クラスを品詞に置き換えれば、形態素解析にお
けるＨＭＭの式と同じになる。従って、この単語分類法
は、最適な品詞体系を自動的に求める方法とも考えられ
る。

【数３７】Ｐ（ｗ_i｜ｗ₁ ^i-1）≒Ｐ（ｗ_i｜ｃ_i）Ｐ（ｃ_i
｜ｃ_i-n+1 ^i-1）

【００８５】ここで、単語ｗ_iをクラスｃ_iに写像する関
数πを用いて、Ｖ個の単語をＣ個のクラスに分割すると
仮定する。学習テキストｔ₁ ^Tが与えられたとき、Ｐ（ｔ
₂ ^T｜ｔ₁）＝Ｐ（Ｔ₂｜Ｔ₁）Ｐ（ｔ₃｜ｔ₂）…Ｐ（ｔ_T｜
ｔ_T-1）を最大にするように関数πを決めればよい。詳
細は省略するが、単語あたりの対数尤度Ｌ（π）、単語
のエントロピーＨ（ｗ）、隣接するクラスの平均相互情
報量Ｉ（ｃ₁；ｃ₂）の間には、近似的に次式の関係が成
り立つ。

【００８６】

【数３８】

【００８７】ここで、Ｈ（ｗ）は分割πに依存しないか
ら、Ｌ（π）を最大化するためには、Ｉ（ｃ₁；ｃ₂）を
最大化すればよい。いまのところ、平均相互情報量を最
大化するような分割を求めるアルゴリズムは知られてい
ない。しかしながら、本実施形態で用いる次のような貪
欲なアルゴリズム（greedy algorithm）でも、かなり興
味深いクラスタを得ることができる。このように包含関
係を持つクラスタを生成する方法は、階層的クラスタリ
ングと呼ばれる。これに対して、ｋ平均アルゴリズムの
ように、重なりを持たないクラスタを生成する方法は非
階層的クラスタリングと呼ばれる。

【００８８】次の併合をＶ−１回繰り返すと、すべての
単語が一つのクラスになる。すなわち、クラスが併合さ
れる順序から、単語を葉とする二分木ができる。１．すべての単語に対して、一つのクラスを割り当て
る。２．可能な二つのクラスの組み合わせの中で、平均相互
情報量の損失を最小にする組み合わせを選択し、これら
を一つのクラスに併合する。３．ステップ２をＶ−Ｃ回繰り返すとＣ個のクラスが得
られる。

【００８９】一般に、クラスタが形成される過程を表す
階層構造は樹形図（dendrogram）と呼ばれるが、自然言
語処理ではこれをシソーラスの代わりに使うことができ
る。単純に考えると、この準最適なアルゴリズムは、語
彙数Ｖに対してＶ⁵の計算量を必要とする。しかし、
（１）二つのクラスタを併合したときの情報量の変化だ
けを求めればよいことや、（２）二つのクラスタの併合
により相互情報量が変化するのは全体の一部に過ぎない
ことを利用すれば、Ｏ（Ｖ³）の計算、すなわち、繰り
返し回数Ｖの三乗に比例するオーダーの計算コストで済
む。

【００９０】分類処理（又はクラスタリング処理）を示
す図４において、まず、ステップＳ１１では、初期設定
処理が実行され、各シーケンスをその自らのクラスに割
り当てる。すなわち、各シーケンスｓ_iそれぞれ各クラ
スＣ_iに割り当てる。従って、クラスの初期バイグラム
の頻度確率の分布はシーケンスのバイグラムの頻度確率
の分布に等しく、また、

【数３９】ｐ（s_i｜Ｃ_i）＝１である。

【００９１】次いで、ステップＳ１２で、各クラスの対
（Ｃ_k，Ｃ_l）について、クラスＣ_kとクラスＣ_lとをマー
ジしたときの相互情報量の損失を計算した後、ステップ
Ｓ１３で、相互情報量の損失が最小であるクラスの対を
マージする。そして、ステップＳ１４で、上記マージに
従って、メモリ３４及び３５に記憶されたクラスの頻度
確率の分布を更新する。次いで、ステップＳ１５で、ス
テップＳ２の初期化処理で設定された必要なクラス数が
得られたか否かが判断され、ＮＯであるときは、ステッ
プＳ１２に戻り、上記の処理を繰り返す。一方、ステッ
プＳ１５で、ＹＥＳのときは、元のメインルーチンに戻
る。

【００９２】＜音声認識装置＞次いで、図１に示す連続
音声認識装置の構成及び動作について説明する。図１に
おいて、単語照合部４に接続された音素隠れマルコフモ
デル（以下、隠れマルコフモデルをＨＭＭという。）メ
モリ１１内の音素ＨＭＭは、各状態を含んで表され、各
状態はそれぞれ以下の情報を有する。（ａ）状態番号、（ｂ）受理可能なコンテキストクラ
ス、（ｃ）先行状態、及び後続状態のリスト、（ｄ）出
力確率密度分布のパラメータ、及び（ｅ）自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素ＨＭＭは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合ＨＭＭを変換
して生成する。ここで、出力確率密度関数は３４次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部４に接続された単語辞書メモリ１２内の単語辞
書は、音素ＨＭＭメモリ１１内の音素ＨＭＭの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。

【００９３】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。

【００９４】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭ１１と単
語辞書１２とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部４は、各時刻の各ＨＭＭ
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素ＨＭＭ１１及び単語辞書１２とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部４は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報（具体的には、例え
ばフレーム番号）とともにバッファメモリ５を介して単
語仮説絞込部６に出力する。

【００９５】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ２２内の統計的言語モデル
を参照して、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた総尤度のうちの最も高い尤度を有する１つの単語仮
説で代表させるように単語仮説の絞り込みを行った後、
絞り込み後のすべての単語仮説の単語列のうち、最大の
総尤度を有する仮説の単語列を認識結果として出力す
る。本実施形態においては、好ましくは、処理すべき当
該単語の先頭音素環境とは、当該単語より先行する単語
仮説の最終音素と、当該単語の単語仮説の最初の２つの
音素とを含む３つの音素並びをいう。

【００９６】例えば、図２に示すように、（ｉ−１）番
目の単語Ｗｉ−１の次に、音素列ａ１，ａ２，…，ａｎ
からなるｉ番目の単語Ｗｉがくるときに、単語Ｗｉ−１
の単語仮説として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，
Ｗｅ，Ｗｆが存在している。ここで、前者３つの単語仮
説Ｗａ，Ｗｂ，Ｗｃの最終音素は／ｘ／であるとし、後
者３つの単語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／
であるとする。終了時刻ｔｅと先頭音素環境が等しい仮
説（図２では先頭音素環境が“ｘ／ａ１／ａ２”である
上から３つの単語仮説）のうち総尤度が最も高い仮説
（例えば、図２において１番上の仮説）以外を削除す
る。なお、上から４番めの仮説は先頭音素環境が違うた
め、すなわち、先行する単語仮説の最終音素がｘではな
くｙであるので、上から４番めの仮説を削除しない。す
なわち、先行する単語仮説の最終音素毎に１つのみ仮説
を残す。図２の例では、最終音素／ｘ／に対して１つの
仮説を残し、最終音素／ｙ／に対して１つの仮説を残
す。

【００９７】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００９８】以上の実施形態において、特徴抽出部２
と、単語照合部４と、単語仮説絞込部６と、統計的言語
モデル生成部２０とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ３，５
と、音素ＨＭＭメモリ１１と、単語辞書メモリ１２と、
学習用テキストデータメモリ２１と、統計的言語モデル
メモリ２２とは、例えばハードデイスクメモリなどの記
憶装置で構成される。

【００９９】以上実施形態においては、単語照合部４と
単語仮説絞込部６とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素ＨＭＭ１１を参照
する音素照合部と、例えばＯｎｅＰａｓｓＤＰアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。

【０１００】

【実施例】＜統計的言語モデル生成処理の第１の実施例
＞入力される学習データが、以下のような１０００文字
列の場合であり、単位である文字から単語にセグメント
化するための例である。「o n e s i x o n e e i g h t f i v e z e r o
...」但し、奇数の単語の後には必ず偶数の単語が後続
し、偶数の単語の後には必ず奇数の単語が後続する場合
である。当該実施例における入力パラメータは以下の通
りである。（ａ）１個のシーケンスの最大長＝５、（ｂ）クラス数
＝２、及び（ｃ）廃棄するシーケンスのしきい値＝１０
０。

【０１０１】初期化処理（ｋ＝０）では、学習データに
おいて、１００回を越えて観測した文字のすべての組合
せの相対的な計数値を初期値とする。従って、反復パラ
メータｋ＝０におけるシーケンスの頻度確率の分布の計
数結果は次の表のようになる。なお、各シーケンスのｎ
ｂ（・）は計数値を表す。

【０１０２】

【表２】 ―――――――――――――――――――――――――――――――――― Ｐ（n｜o）＝ｎｂ（on）／ｎｂ（o）＝０．０８ｐ（n e｜o）＝ｎｂ（one）／ｎｂ（o）＝０．０６．．．ｐ（n e s i x｜o）＝ｎｂ（onesix）／ｎｂ（o）＝０．００５ｐ（e｜o n）＝ｎｂ（one）／ｎｂ（on）＝０．９ｐ（e s｜o n）＝ｎｂ（ones）／ｎｂ（on）＝０．００５．．．ｐ（e s i x o｜o n）＝ｎｂ（onesixo）／ｎｂ（on）＝０．００１．．．ｐ（s i x｜o n e）＝ｎｂ（onesix）／ｎｂ（one）＝０．０５．．． ――――――――――――――――――――――――――――――――――

【０１０３】ステップＳ３の分類処理では、入力データ
は、反復パラメータｋ＝０のときのシーケンスの頻度確
率の分布であり、当該分類処理における出力データは、
以下のようになる。（ａ）反復パラメータｋ＝１のとき
のクラス定義

【数４０】ｃｌａｓｓ１＝｛e s i x o;e;e t w o;n e
s i x;......;f o u r;f o u r f;...;g h t s;g h t o
n e;e i g h t｝

【数４１】ｃｌａｓｓ２＝｛o n e;e s i x o;x;f i v;
f i v e;t s e v;s e v e n;......;x n i;x n i n e;n
i n e;...｝ｃｌａｓｓ３＝…… （ｂ）反復パラメータｋ＝１のときのクラス条件付き頻
度確率の分布

【数４２】ｐ（e s i x o｜class 1），ｐ（e｜class
1），．．．ｐ（o n e｜class 2），ｐ（e s i x o｜cl
ass 2），．．．（ｃ）反復パラメータｋ＝１のときのクラスバイグラム
の頻度確率の分布

【数４３】ｐ（class 1｜class 2）＝０．３ｐ（class 2｜class 1）＝０．１ｐ（class 3｜class 1）＝０．４．．．

【０１０４】ステップＳ４の再推定処理では、反復パラ
メータｋ＝１のときのクラス定義及びクラスの頻度確率
の分布を入力データとし、次に示す反復パラメータｋ＝
１のときのシーケンスの頻度確率の分布を出力する。

【数４４】ｐ（n｜o）＝０．９ｐ（n e｜o）＝０．８ｐ（n e s｜o）＝０．０５．．．ｐ（n e s i x｜o）＝０

【数４５】ｐ（e｜o n）＝０．０２ｐ（e s｜o n）＝０．００１．．．ｐ（e s i x o｜o n）＝０．．．ｐ（s i x｜o n e）＝０．５．．．

【０１０５】以下同様に処理が実行され、第１の実施例
における出力結果は以下のようになる。（ａ）セグメント化された入力文字列（ＭＬセグメント
化） ”o n e s i x o n e e i g h t f i v e z e r o
...” （ｂ）クラス定義

【数４６】ｃｌａｓｓ１＝｛o n e;t h r e e;f i v e;
s e v e n;n i n e｝ｃｌａｓｓ２＝｛z e r o;t w o;f o u r;s i x;e i g
h t｝（ｃ）クラス条件付きの頻度確率の分布

【数４７】ｐ（o n e｜class 1）＝０．２ｐ（t h r e e｜class 1）＝０．２ｐ（f i v e｜class 1）＝０．２．．．ｐ（z e r o｜class 2）＝０．２ｐ（t w o｜class 2）＝０．２（ｄ）クラスバイグラムの頻度確率の分布

【数４８】ｐ（class 1｜class 2）＝１ｐ（class 2｜class 1）＝１

【０１０６】＜統計的言語モデル生成処理の第２の実施
例＞入力される学習データが、自然言語のテキストデー
タによる以下の文、すなわち単語列である場合であっ
て、単位である単語をフレーズにセグメント化する場合
を説明するための実施例である。ここで、＜ｓ＞は開始
を示す記号であり、＜／ｓ＞は終了を示す記号である。「<s> good afternoon new washington hotel may i he
lp you ...</s>」ここで、入力パラメータは、以下の通
りである。（ａ）シーケンスの最大長＝数個の単語（例えば、１乃
至５個の単語、以下の実施例では、４）、（ｂ）クラス
数＝１０００、及び（ｃ）初期化処理のしきい値＝３
０。

【０１０７】初期化処理（ｋ＝０）では、学習データに
おいて、３０回を越えて観測した単語のすべての組合せ
の相対的な計数値を初期値とする。従って、反復パラメ
ータｋ＝０におけるシーケンスの頻度確率の分布の計数
結果は次の表のようになる。

【０１０８】

【表３】 ―――――――――――――――――――――――――――――――――― ｐ（afternoon｜good）＝ｎｂ（good afternoon）／ｎｂ（good）＝０．０８ｐ（afternoon new｜good）＝ｎｂ（good afternoon new）／ｎｂ（good）＝０．０６ｐ（good afternoon｜<s>）＝ｎｂ（<s>good afternoon）／ｎｂ（<s>）＝０．０６．．．ｐ（<／s>｜may i help you）＝ｎｂ（may i help you </s>）／ｎｂ（may i help you）＝０．００５ ――――――――――――――――――――――――――――――――――

【０１０９】そして、第２の実施例における出力結果は
以下のようになる。（ａ）セグメント化された入力文字列（ＭＬセグメント
化）「good_afternoon new_washington_hotel may_i_help_y
ou」（ｂ）クラス定義

【数４９】ｃｌａｓｓ１＝｛good afternoon ; good mo
rning;hello ; may i help you...}... ｃｌａｓｓ２＝｛new washington hotel ; sheraton ho
tel ; plaza;...｝... ｃｌａｓｓ１０００＝｛give me some ; tell me｝（ｃ）クラス条件付き頻度確率の分布

【数５０】ｐ（good afternoon｜class 1）＝０．００３ｐ（good morning｜class 1）＝０．００２ｐ（hello｜class 1）＝０．００２．．．（ｄ）クラスバイグラムの頻度確率の分布

【数５１】ｐ（class 2｜class 1）＝０．０４ｐ（class 3｜class 1）＝０．００５．．．

【０１１０】＜実験及び実験結果＞本発明者は、実施形
態の装置の性能を実験するために、下記の実験を行っ
た。まず、プロトコル及びデータベースの実験及び実験
結果について述べる。可変長フレーズ間のバイグラム依
存を学習する目的は、従来のワードバイグラムモデルの
限界を改善する一方で、モデル内のパラメータ数を単語
のトライグラムの場合よりも少なくすることにある。従
って、バイ−マルチグラムモデルの評価を行うために適
する基準は、その予測能力、パラメータ数を測定し、従
来のバイグラム、トライグラムモデルのそれらと比較す
ることである。予測能力は通常、次式のパープレキシテ
ィの測定によって評価される。

【０１１１】

【数５２】ＰＰ＝ｅｘｐ｛−（１／Ｔ）ｌｏｇ（Ｌ（Ｗ））｝

【０１１２】ここで、Ｔを文Ｗにおける単語の数であ
る。パープレキシティＰＰが低いほど、モデルの予測が
より高精度であることを示す。統計的モデルでは、実際
には２つのパープレキシティ値ＰＰ及びＰＰ^*が存在
し、数５２の中のＬ（Ｗ）をそれぞれ次式として計算さ
れる。

【０１１３】

【数５３】及び

【数５４】Ｌ（Ｗ）＝Ｌ（Ｗ，Ｓ^*）

【０１１４】２つのパープレキシティＰＰ^*−ＰＰの差
は、常に正の数又は零であり、文Ｗの解析結果Ｓの曖昧
さの度合い、あるいは発話認識機のように最良の解析結
果の尤度を用いて文の尤度に到達する場合は、予測の正
確さにおける損失を測定する。

【０１１５】以下では、先ず、ある推定手順における損
失（ＰＰ^*−ＰＰ）を評価し、この推定手順自体の影響
力についてフォワード・バックワードアルゴリズム（数
１５）又は決定論的方法（数１６）を用いて考察する。
最後に、これら結果を従来のｎ−ｇｒａｍモデルを用い
て得られた結果と比較する。本目的の達成のため、クラ
ークソン（（Clarkson）ほか1997年）による公知のＣＭ
Ｕツールキットを用いる。実験対象として、次の表の本
特許出願人が所有する「旅行の手配」に関するデータを
使用する。

【０１１６】

【表４】本特許出願人が所有する「旅行の手配」に関するデータ ――――――――――――――――――――――――――――――――― 学習テスト ――――――――――――――――――――――――――――――――― 文の数１３６５０２４３０トークンの数１６７０００２９０００（１％ＯＯＶ）語彙数３５２５＋２８０ＯＯＶ ――――――――――――――――――――――――――――――――― （注）ＯＯＶは、ＯｕｔＯｆＶｏｃａｂｕｌａｒｙの略であり、語彙にない単語をいう。

【０１１７】本データベースは、ホテルのクラークと顧
客の間で自発的に行われた旅行／宿泊施設情報について
の対話である。言いよどみの単語、及び間違った開始
は、単一のマーカー“^*ｕｈ^*”にマッピングされる。本
実験において、フレーズの最大長はｎ＝１語から４語ま
で変化させた（ｎ＝１ではバイ−マルチグラムは従来の
バイグラムに相当する）。すべてのバイ−マルチグラム
の頻度確率は、６回のトレーニング反復で推定され、初
期化において２０回以下、各反復において１０回以下の
頻度でしか現れないすべての文を放棄し、フレーズ辞書
の枝刈りを行った。ここで、初期化におけるしきい値が
１０−３０の範囲にあるとき、本データにおいて、異な
る枝刈り限界値を用いても結果に重大な影響が及ぶこと
はない。反復の場合のしきい値はその約半分である。

【０１１８】しかしながら、すべての1単語フレーズ
は、その推定出現回数にかかわらず維持されるため（フ
レーズｓ_i及びｓ_jが１単語フレーズであり、組み合わせ
ｃ（s_i，s_j）の再推定値が零であると、組み合わせｃ
（s_i，s_j）は１にリセットされる。）、すべてのワード
バイグラムが最終辞書に現れることになる。さらに、す
べてのｎ−ｇｒａｍ及びフレーズのバイグラム確率は、
ウィッテン（Witten）ほか（１９９１年）による公知の
Witten-Bellディスカウンティング法を用いて、カッツ
（Katz）（１９８７年）による公知のバックオフ・スム
ージング法で平滑化される。ここで、Witten-Bellディ
スカウンティング法を選択したのは、本テストデータに
おいて従来のｎ−ｇｒａｍを用いた場合、最良のパープ
レキシティスコアが得られるためである。

【０１１９】次いで、クラスタリングを行わない実験に
ついて述べる。まず、非決定性の方式の度合いにおいて
は、表４の本特許出願人が所有する「旅行の手配」に関
するデータに対するテストで、フォワード・バックワー
ドアルゴリズムによる学習の後に得られたパープレキシ
ティ値ＰＰ^*及びＰＰを次の表に示す。パープレキシテ
ィ値の差（ＰＰ^*−ＰＰ）は通常、パープレキシティの
約１ポイント以内にとどまる。すなわち、単一の最良フ
レーズに依存しても、予測の正確さが大幅に損なわれる
ことがあってはならないことを意味している。

【０１２０】

【表５】非決定性の方式の度合い ―――――――――――――――――――――――――――――― ｎ１２３４ ―――――――――――――――――――――――――――――― ＰＰ５６．０４３．９４４．２４５．０ＰＰ^* ５６．０４５．１４５．４４６．３ ――――――――――――――――――――――――――――――

【０１２１】次いで、再推定手順の影響力では、フォワ
ード・バックワードアルゴリズム又はビタビ推定アルゴ
リズムのいずれかを用いたパープレキシティ値ＰＰ^*及
びモデルサイズを次の表に示す。

【０１２２】

【表６】推定方法の影響：テストパープレキシティ値ＰＰ^* ――――――――――――――――――――――――――――――――― ｎ１２３４ ――――――――――――――――――――――――――――――――― ＦＢ法５６．０４５．１４５．４４６．３ビタビ法５６．０４５．７４５．９４６．２ ―――――――――――――――――――――――――――――――――

【０１２３】

【表７】推定方法の影響：モデルのサイズ ――――――――――――――――――――――――――――――――― ｎ１２３４ ――――――――――――――――――――――――――――――――― ＦＢ法３２５０５４４３８２４３６７２４３１８６ビタビ法３２５０５６５１４１６７２５８６７２９５ ―――――――――――――――――――――――――――――――――

【０１２４】表６及び表７から明らかなように、パープ
レキシティ値に関する限り、推定方法はほとんど影響を
及ぼさず、フォワード・バックワードアルゴリズムによ
る学習を用いる方がわずかながら有利であるように見え
る。一方、モデルのサイズは、学習終了時に個々のバイ
−マルチグラム数として測定された場合、フォワード・
バックワードアルゴリズムによる学習において約３０％
も減少する。すなわち、同じテストパープレキシティ値
に対して、おおよそ４０，０００対６０，０００の違い
となる。

【０１２５】バイ−マルチグラム結果は、概して、フレ
ーズ放棄を行う枝刈りのための発見的知識では完全に過
学習を回避できないことを示唆する。確かに、（おそら
くは６から８語にまたがる依存性を意味する）ｎ＝３，
４のパープレキシティ値は、（依存性が４語に限定され
る）ｎ＝２のときのそれよりも高くなる。他の方法、お
そらくは短いものよりも長いフレーズを不利にするよう
な方法であれば成功ものと考えられる。

【０１２６】さらに、ｎ−ｇｒａｍとの比較において
は、フォワード・バックワードアルゴリズムによる学習
から得られたパープレキシティ値（ＰＰ）、ｎ−ｇｒａ
ｍに対するモデルサイズ、及びバイ−マルチグラムを次
の表に示す。

【０１２７】

【表８】ｎ−ｇｒａｍの比較 ―――――――――――――――――――――――――――――――――― テストパープレキシティ値ＰＰ ―――――――――――――――――――――――――――――――――― ｎの値１２３４ ―――――――――――――――――――――――――――――――――― ｎ−ｇｒａｍ３１４．２５６．０４０．４３９．８バイ−マルチグラム５６．０４３．９４４．２４５．０ ――――――――――――――――――――――――――――――――――

【０１２８】

【表９】ｎ−ｇｒａｍの比較 ―――――――――――――――――――――――――――――――――― モデルのサイズ ―――――――――――――――――――――――――――――――――― ｎ値１２３４ ―――――――――――――――――――――――――――――――――― ｎ−ｇｒａｍ３５２６３２５０５７５５１１１１２１４８バイ−マルチグラム３２５０５４４３８２４３６７２４３１８６ ――――――――――――――――――――――――――――――――――

【０１２９】表８及び表９から明らかなように、最も低
いバイ−マルチグラムパープレキシティスコア（４３．
９）は、トライグラムの値よりも依然として高いが、バ
イグラム値（５６．０）よりもトライグラム値（４０．
４）により近い値となっている。さらに、トライグラム
スコアはディスカウントされた方法に依存する。なお、
線形ディスカウンティング法では、本テストにおけるト
ライグラムのパープレキシティは、４８．１であった。

【０１３０】５−グラムのパープレキシティ値（上記表
に示さず）は４０．８であり、４−ｇｒａｍスコアより
もやや高い。これは、バイ−マルチグラムパープレキシ
ティがｎ＞２（すなわち、依存性が４語以上にわたる場
合）のとき減少しないという事実に一致する。最後に、
バイ−マルチグラムモデルのエントリ数はトライグラム
モデルのエントリ数よりも少なく（４５０００に対して
７５０００）、マルチグラムが達成するモデルの正確性
とモデルサイズ間のトレードオフが示されている。

【０１３１】さらに、クラスタリングを用いた実験及び
実験結果について述べる。本実験では、フレーズのクラ
スタリングによってパープレキシティスコアは改善され
なかった。パープレキシティの増加が非常に少なくなる
（１ポイント以下）のは、フレーズのほんの一部（１０
〜２０％）のみがクラスタとなる時であり、これを越え
るとパープレキシティはかなり悪化する。この効果は、
クラス推定が単語推定に統合されない時、ｎ−ｇｒａｍ
の枠組みにおいても度々報告されている。しかしなが
ら、フレーズのクラスタリングによって、自然発話を特
徴づける言いよどみの語の挿入等、ことばの非流暢性の
いくつかを自然に扱うことができる。この点を説明する
ために、先ずｎ＝４語までのフレーズを扱うモデルの学
習の間に統合されるフレーズを次の表に列挙する。ここ
で、言いよどみを示す“^*ｕｈ^*”を含むフレーズはこの
表の上部に示す。主に、話者の言いよどみによるフレー
ズの違いは、共に統合されることが多い。

【０１３２】

【表１０】４語シーケンスまでを扱うモデルにおける統合されたフレーズの一例 ―――――――――――――――――――――――――――――――――― {yes that will;^*uh^* that would} {yes that will be;^*uh^* yes that's} {^*uh^* by the;and by the} {yes ^*uh^* i;i see i} {okay i understand;^*uh^* yes please} {could you recommend;^*uh^* is there} {^*uh^* could you tell;and could you tell} {so that will;yes that will;yes that would;uh^* that would} {if possible i'd like;we would like;^*uh^* i want} {that sounds good;^*uh^* i understand} {^*uh^* i really;^*uh^* i don't} {^*uh^* i'm staying;and i'm staying} {all right we;^*uh^* yes i} ――――――――――――――――――――――――――――――――――― {good morning this;good afternoon this} {yes i do;yes thank you} {we'll be looking forward;we look forward} {dollars a night;and forty yen} {for your help;for your information} {hold the line;want for a moment} {yes that will be;and could you tell} {please go ahead;you like to know} {want time would you;and you would} {yes there is;but there is} {join phillips in room;ms. suzuki in} {name is suzuki;name is ms. suzuki} {i'm calling from;a;also i'd like} {much does it cost;can reach you} {thousand yen room;dollars per person} {yes i do;yes thank you;i see sir} {you tell me where;you tell me what} {a reservation for the;the reservation for} {your name and the;you give me the} {amy harris in;is amy harris in} {name is mary phillips;name is kazuo suzuki} {hold on a moment;wait a moment} {give me some;also tell me} ――――――――――――――――――――――――――――――――――

【０１３３】カワハラ（Kawahara）ら（１９９７年）に
よれば、上記の表はさらに、単語予測とは別に、フレー
ズ検索及びクラスタリングを行う他の動機づけ、すなわ
ちトピックの識別や対話のモデリング、及び言語理解に
関する問題への対応を示している。確かに本実験におけ
るクラスタとなったフレーズは、完全盲目的、すなわち
意味論的／語用論的情報を全くなくして導かれたもので
あるが、クラス内フレーズには強固な意味論的相関関係
が示されている。しかしながら、本手法を音声理解に効
率的に使用できるようにするためには、拘束条件は、例
えばスピーチアクトタグ（speech act tags）のような
いくつかのより高いレベルの情報を用いてフレーズクラ
スタリング処理に設定する必要がある。

【０１３４】以上説明したように、フレーズ間にｎ−ｇ
ｒａｍ依存を仮定する可変長フレーズを導くアルゴリズ
ムは、言語モデリングのタスクのために提案され、推定
されてきた。特定タスクの言語コーパスは、文をフレー
ズに構成することによりバイグラムパープレキシティ値
を大幅に減らし、一方で言語モデルにおけるエントリ数
をトライグラムモデルの場合に比べてより低い値に保つ
ことが可能であることを示している。しかしながら、こ
れら結果は、より効率的な枝刈り方法によってさらに改
善され、不要な学習を行わずにより長い依存性について
学習することが可能となる。さらに、語形変化の態様を
簡単に本枠組み内に統合することができるため、異なる
長さを有するフレーズに共通のラベルを割り当てること
が可能である。フレーズの意味論的関係が統合されるの
で、本手法は対話モデリングや言語理解の分野において
も用いられる。その場合、意味論的／語用論的情報を用
いれば、フレーズクラスを得るための処理に制限を設け
ることができる。

【０１３５】＜変形例＞以上の実施形態においては、単
位は英語の文字であり、シーケンスは単語であり、上記
分類処理は、文字列を複数の単語の列に分類し、上記統
計的シーケンスモデルは、統計的言語モデルである。本
発明はこれに限らず、単位は、日本語などの他の自然言
語の文字であってもよい。また、単位は自然言語の単語
であり、シーケンスはフレーズであり、上記分類処理
は、単語列を複数のフレーズの列に分類し、上記統計的
シーケンスモデルは、統計的言語モデルであってもよ
い。

【０１３６】＜実施形態の効果＞以上説明したように，
本発明に係る実施形態によれば、以下のような特有の効
果を有する。（Ａ）ＥＭアルゴリズムを使用して単語のシーケンスの
頻度分布を計算することができ、ＭＬ基準を最適化する
ことができる。すなわち、本実施形態のアルゴリズムを
用いられば、必ず、クラスタリングの処理を単調収束さ
せることができて、最適値の解析結果を得ることができ
る。（Ｂ）シーケンス分類の解析を自由にすることができ
る。具体的には、上述のフォワード・バックワードアル
ゴリズムを用いた非決定性の手法を用いるので、自由度
のある解が得られる。なお、当該非決定性の手法を用い
ることができるのは、変数α，βを決めることができる
からである。従って、入力データの尤度を改善すること
により、シーケンス［ｂｃｄ］が入力シーケンスにあっ
たときに、［ｂｃ］＋［ｄ］、［ｂ］＋［ｃｄ］、
［ｂ］＋［ｃ］＋［ｄ］等の小シーケンスへの分割が可
能である。言い換えれば、あるシーケンスが入力シーケ
ンスに与えられていても、解析は事前に決定されず、す
べては入力データの尤度に依存する、つまり確定的では
なく、入力データの頻度確率に依存してクラスタリング
の処理が行われる。（Ｃ）可変長のシーケンスの自動的分類を行うことがで
きる。ここで、シーケンスの分類を、単語の分類に依存
させない。また、シーケンスの分類を直接的に自動的に
行なって、長さの違う共通のクラスシーケンスに高精度
で分類できる。

【０１３７】従って、本発明に係る実施形態によれば、
従来例に比較して、最適な状態に向かう単調な収束を保
証することができ、自由度があり、可変長のシーケンス
を同一のクラスで取り扱うことができ、ディジタル計算
機を用いて実用的に高速処理することができる統計的シ
ーケンスモデル生成装置、統計的言語モデル生成装置及
び音声認識装置を提供することができる。

【０１３８】

【発明の効果】以上詳述したように本発明に係る統計的
シーケンスモデル生成装置によれば、１個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数Ｎ₁個の単位列と可変長の自
然数Ｎ₂個の単位列との間のバイグラムであるバイ−マ
ルチグラムの統計的シーケンスモデルを生成する統計的
シーケンスモデル生成装置であって、上記入力データに
基づいて、予め決められたＮ₁，Ｎ₂の最大値の拘束条件
のもとで、すべての単位列の組み合わせの上記バイグラ
ムの頻度確率を計数する初期化手段と、上記初期化手段
によって計数された上記バイグラムの頻度確率に基づい
て、各クラスの対をマージしたときの相互情報量の損失
が最小となるようにマージして各クラスの頻度確率を更
新して予め決められた数の複数のクラスに分類すること
により、分類されたクラスに含まれる単位列と、分類さ
れたクラスの条件付きの単位列の頻度確率と、分類され
たクラス間のバイグラムの頻度確率を計算して出力する
分類手段と、上記分類処理手段から出力される分類され
たクラスに含まれる単位列と、分類されたクラスの条件
付きの単位列の頻度確率と、分類されたクラス間のバイ
グラムの頻度確率とに基づいて、ＥＭアルゴリズムを用
いて、最尤推定値を得るように再推定し、ここで、フォ
ワード・バックワードアルゴリズムを用いて、処理対象
の各単位列に対して、時系列的に前方にとり得る処理対
象の当該単位列に対する前方尤度と、当該単位列の直前
の単位列を条件としたときの当該単位列の頻度確率と、
時系列的に後方にとり得る当該単位列に対する後方尤度
とに基づいてシーケンス間のバイグラムの頻度確率を示
す式を用いて、当該シーケンス間のバイグラムの頻度確
率を再推定することにより、再推定結果である上記バイ
−マルチグラムの統計的シーケンスモデルを生成して出
力する再推定手段と、上記分類手段の処理と上記再推定
手段の処理を所定の終了条件を満たすまで繰り返し実行
するように制御する制御手段とを備える。従って、本発
明によれば、従来例に比較して、最適な状態に向かう単
調な収束を保証することができ、自由度があり、可変長
のシーケンスを同一のクラスで取り扱うことができ、デ
ィジタル計算機を用いて実用的に高速処理して統計的シ
ーケンスモデルを生成することができる統計的シーケン
スモデル生成装置を提供することができる。

【０１３９】また、本発明に係る統計的言語モデル生成
装置によれば、上記統計的シーケンスモデル生成装置に
おいて、上記単位は自然言語の文字であり、上記シーケ
ンスは単語であり、上記分類手段は、文字列を複数の単
語の列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルである。従って、本発明によれば、従来例
に比較して、最適な状態に向かう単調な収束を保証する
ことができ、自由度があり、可変長のシーケンスを同一
のクラスで取り扱うことができ、ディジタル計算機を用
いて実用的に高速処理して統計的言語モデルを生成する
ことができる統計的言語モデル生成装置を提供すること
ができる。

【０１４０】さらに、本発明に係る統計的言語モデル生
成装置によれば、上記統計的シーケンスモデル生成装置
において、上記単位は自然言語の単語であり、上記シー
ケンスはフレーズであり、上記分類手段は、単語列を複
数のフレーズの列に分類し、上記統計的シーケンスモデ
ルは、統計的言語モデルである。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的言語モデル
を生成することができる統計的言語モデル生成装置を提
供することができる。

【０１４１】またさらに、本発明に係る音声認識装置に
よれば、入力される発声音声文の音声信号に基づいて、
所定の統計的言語モデルを用いて音声認識する音声認識
手段を備えた音声認識装置において、上記音声認識手段
は、上記統計的言語モデル生成装置によって生成された
統計的言語モデルを参照して音声認識する。従って、本
発明によれば、従来例に比較して、最適な状態に向かう
単調な収束を保証することができ、自由度があり、可変
長のシーケンスを同一のクラスで取り扱うことができ、
ディジタル計算機を用いて実用的に高速処理して統計的
言語モデルを生成することができる。また、当該生成さ
れた統計的言語モデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である連続音声認識
装置のブロック図である。

【図２】図１の連続音声認識装置における単語仮説絞
込部６の処理を示すタイミングチャートである。

【図３】図１の統計的言語モデル生成部２０によって
実行される統計的言語モデル生成処理を示すフローチャ
ートである。

【図４】図３のサブルーチンであるブラウンアルゴリ
ズムを用いた分類処理を示すフローチャートである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、２０…統計的言語モデル生成部、２１…学習用テキストデータメモリ、２２…統計的言語モデルメモリ、３０…ワーキングＲＡＭ、３１…パラメータメモリ、３２…シーケンス頻度確率メモリ、３３…クラス定義メモリ、３４…クラス条件付き頻度確率メモリ、３５…クラスバイグラム頻度確率メモリ、３６…セグメント化されたシーケンスメモリ。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１１年４月２日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１１

【補正方法】変更

【補正内容】

【００１１】

【課題を解決するための手段】本発明に係る統計的シー
ケンスモデル生成装置は、１個又は複数の単位からなる
単位列であるシーケンスを含む入力データに基づいて、
可変長の自然数Ｎ₁個の単位列であるマルチグラムと、
可変長の自然数Ｎ₂個の単位列であるマルチグラムとの
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、上記入力データに基づいて、予め決められ
たＮ₁，Ｎ₂の最大値の拘束条件のもとで、すべての単位
列の組み合わせの上記バイグラムの頻度確率を計数する
初期化手段と、上記初期化手段によって計数された上記
バイグラムの頻度確率に基づいて、各クラスの対をマー
ジしたときの相互情報量の損失が最小となるようにマー
ジして各クラスの頻度確率を更新して予め決められた数
の複数のクラスに分類することにより、分類されたクラ
スに含まれる単位列と、分類されたクラスの条件付きの
単位列の頻度確率と、分類されたクラス間のバイグラム
の頻度確率を計算して出力する分類手段と、上記分類処
理手段から出力される分類されたクラスに含まれる単位
列と、分類されたクラスの条件付きの単位列の頻度確率
と、分類されたクラス間のバイグラムの頻度確率とに基
づいて、ＥＭアルゴリズムを用いて、最尤推定値を得る
ように再推定し、ここで、フォワード・バックワードア
ルゴリズムを用いて、処理対象の各単位列に対して、時
系列的に前方にとり得る処理対象の当該単位列に対する
前方尤度と、当該単位列の直前の単位列を条件としたと
きの当該単位列の頻度確率と、時系列的に後方にとり得
る当該単位列に対する後方尤度とに基づいてシーケンス
間のバイグラムの頻度確率を示す式を用いて、当該シー
ケンス間のバイグラムの頻度確率を再推定することによ
り、再推定結果である上記バイ−マルチグラムの統計的
シーケンスモデルを生成して出力する再推定手段と、上
記分類手段の処理と上記再推定手段の処理を所定の終了
条件を満たすまで繰り返し実行するように制御する制御
手段とを備えたことを特徴とする。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】０１３８

【補正方法】変更

【補正内容】

【０１３８】

【発明の効果】以上詳述したように本発明に係る統計的
シーケンスモデル生成装置によれば、１個又は複数の単
位からなる単位列であるシーケンスを含む入力データに
基づいて、可変長の自然数Ｎ₁個の単位列であるマルチ
グラムと、可変長の自然数Ｎ₂個の単位列であるマルチ
グラムとの間のバイグラムであるバイ−マルチグラムの
統計的シーケンスモデルを生成する統計的シーケンスモ
デル生成装置であって、上記入力データに基づいて、予
め決められたＮ₁，Ｎ₂の最大値の拘束条件のもとで、す
べての単位列の組み合わせの上記バイグラムの頻度確率
を計数する初期化手段と、上記初期化手段によって計数
された上記バイグラムの頻度確率に基づいて、各クラス
の対をマージしたときの相互情報量の損失が最小となる
ようにマージして各クラスの頻度確率を更新して予め決
められた数の複数のクラスに分類することにより、分類
されたクラスに含まれる単位列と、分類されたクラスの
条件付きの単位列の頻度確率と、分類されたクラス間の
バイグラムの頻度確率を計算して出力する分類手段と、
上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、ＥＭアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理
を所定の終了条件を満たすまで繰り返し実行するように
制御する制御手段とを備える。従って、本発明によれ
ば、従来例に比較して、最適な状態に向かう単調な収束
を保証することができ、自由度があり、可変長のシーケ
ンスを同一のクラスで取り扱うことができ、ディジタル
計算機を用いて実用的に高速処理して統計的シーケンス
モデルを生成することができる統計的シーケンスモデル
生成装置を提供することができる。

───────────────────────────────────────────────────── フロントページの続き (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者中嶋秀治京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】１個又は複数の単位からなる単位列であ
るシーケンスを含む入力データに基づいて、可変長の自
然数Ｎ₁個の単位列と可変長の自然数Ｎ₂個の単位列との
間のバイグラムであるバイ−マルチグラムの統計的シー
ケンスモデルを生成する統計的シーケンスモデル生成装
置であって、上記入力データに基づいて、予め決められたＮ₁，Ｎ₂の
最大値の拘束条件のもとで、すべての単位列の組み合わ
せの上記バイグラムの頻度確率を計数する初期化手段
と、上記初期化手段によって計数された上記バイグラムの頻
度確率に基づいて、各クラスの対をマージしたときの相
互情報量の損失が最小となるようにマージして各クラス
の頻度確率を更新して予め決められた数の複数のクラス
に分類することにより、分類されたクラスに含まれる単
位列と、分類されたクラスの条件付きの単位列の頻度確
率と、分類されたクラス間のバイグラムの頻度確率を計
算して出力する分類手段と、上記分類処理手段から出力される分類されたクラスに含
まれる単位列と、分類されたクラスの条件付きの単位列
の頻度確率と、分類されたクラス間のバイグラムの頻度
確率とに基づいて、ＥＭアルゴリズムを用いて、最尤推
定値を得るように再推定し、ここで、フォワード・バッ
クワードアルゴリズムを用いて、処理対象の各単位列に
対して、時系列的に前方にとり得る処理対象の当該単位
列に対する前方尤度と、当該単位列の直前の単位列を条
件としたときの当該単位列の頻度確率と、時系列的に後
方にとり得る当該単位列に対する後方尤度とに基づいて
シーケンス間のバイグラムの頻度確率を示す式を用い
て、当該シーケンス間のバイグラムの頻度確率を再推定
することにより、再推定結果である上記バイ−マルチグ
ラムの統計的シーケンスモデルを生成して出力する再推
定手段と、上記分類手段の処理と上記再推定手段の処理を所定の終
了条件を満たすまで繰り返し実行するように制御する制
御手段とを備えたことを特徴とする統計的シーケンスモ
デル生成装置。
【請求項２】上記初期化手段はさらに、上記計数され
たバイグラムの頻度確率のうち、所定の頻度確率以下の
バイグラムの組み合わせのデータを除去することを特徴
とする請求項１記載の統計的シーケンスモデル生成装
置。
【請求項３】上記分類手段は、上記初期化手段によっ
て計数された上記バイグラムの頻度確率に基づいて、ブ
ラウンアルゴリズムを用いて、上記複数のクラスに分類
することを特徴とする請求項１又は２記載の統計的シー
ケンスモデル生成装置。
【請求項４】上記式は、上記入力データにおいて、当
該単位列である第２の単位列が第１の単位列に続くとき
の単位列のシーケンス間のバイグラムの頻度確率を、上
記入力データにおける処理対象の各単位列に対して計算
するための式であり、上記シーケンス間のバイグラムの頻度確率は、第１と第
２の単位列を含むすべてのセグメント化での尤度の和
を、第１の単位列を含むすべてのセグメント化での尤度
の和で除算することによって得られたことを特徴とする
請求項１乃至３のうちの１つに記載の統計的シーケンス
モデル生成装置。
【請求項５】上記式は、上記入力データにおいて各単
位列が発生する平均回数を示す分母と、上記入力データ
において第２の単位列が第１の単位列に続くときの各単
位列に対する平均回数を示す分子とを有し、上記分子は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときの当
該単位列の頻度確率と、上記後方尤度の積の和であり、上記分母は、処理対象の各単位列に対する、上記前方尤
度と、当該単位列の直前の単位列を条件としたときのす
べての単位列の頻度確率と、上記後方尤度の積の和であ
ることを特徴とする請求項４記載の統計的シーケンスモ
デル生成装置。
【請求項６】上記終了条件は、上記分類手段の処理
と、上記再推定手段の処理との反復回数が予め決められ
た回数に達したときであることを特徴とする請求項１乃
至５のうちの１つに記載の統計的シーケンスモデル生成
装置。
【請求項７】請求項１乃至６のうちの１つに記載の統
計的シーケンスモデル生成装置において、上記単位は自然言語の文字であり、上記シーケンスは単
語であり、上記分類手段は、文字列を複数の単語の列に
分類し、上記統計的シーケンスモデルは、統計的言語モ
デルであることを特徴とする統計的言語モデル生成装
置。
【請求項８】請求項１乃至６のうちの１つに記載の統
計的シーケンスモデル生成装置において、上記単位は自然言語の単語であり、上記シーケンスはフ
レーズであり、上記分類手段は、単語列を複数のフレー
ズの列に分類し、上記統計的シーケンスモデルは、統計
的言語モデルであることを特徴とする統計的言語モデル
生成装置。
【請求項９】入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、上記音声認識手段は、請求項７又は８記載の統計的言語
モデル生成装置によって生成された統計的言語モデルを
参照して音声認識することを特徴とする音声認識装置。