JPS6142061A

JPS6142061A - 日本語文字の状態遷移確率の生成方法

Info

Publication number: JPS6142061A
Application number: JP15943284A
Authority: JP
Inventors: 藤崎　哲之助; 浩一武田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1984-07-31
Filing date: 1984-07-31
Publication date: 1986-02-28
Also published as: JPH0156424B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明は漢字、ひらがな、カタカを等日本語文字が継
続してなる日本語文字列を解祈するのに有用な日本語文
字状態遷移確率付辞書を機械的に生成する方法に関する
。

［従来技術］本出願人はこの出願に先だって複合英字列を分割する手
法について提案を行っている。ここではこの発明の理解
を助けるためにこの手法について若干触れることとする
。

日本語情報処理においてはブランクのないベタ書きの日
本語文を文節単位または単語単位に分割することが課題
とされてきた０日本語情報の機械検索用項目の自動作成
や機械翻訳にはこのような分割が不可欠であるからであ
る。そしてこのような日本語文の分割においてとくに困
難とされてきたものは複合漢字列に関するものである。

ｌｌＩ合漢字列は例えば「電話器用難燃材料」というよ
うに複数の基本漢字列ｒ電話器用」、「難燃」及び「材
料］を複合してなるものである。この分割は複合漢字列
全体を考慮して始めて分割できるものであり、人間が分
割を行う場合でもかなりの熟練を必要とする。漢字は造
語力が大であり、日本語文においてその複合語はかなり
の頻度で表われるので、上述課題の解決は強く要望され
るところであった。

本出願人の提案した手法は確率を用いて高精度に複合漢
字列を基本漢字列に分割するものであった。即ち、ＷＸ
字列土に、　ｋ、・・・ｋｎ上（ただし。

ｋは漢字、上は漢字列の始まりと終わりを示す特殊記号
である）が前段の土から後段の土に推移していく際の状
態の遷移を考える。漢字列のとる実現可能な状態系列は
複数であり、このうちから到達確率、換言すれば各遷移
におけるＢ移確率の積が最大となるものを選ぶ、そして
このように選ばれた状態系列から漢字分割を行うのであ
る。

この手法の具体的な例では状態を漢字１文字または記号
上と統語上の分類との組合わせで規定する。記号上の分
類としては開始ブランクエ及び終了ブランクＦを設定し
、漢字の分類としては接頭語Ｐ、継続する基本漢字１，
２及び接尾語Ｓを設定している。そして到達確率の最大
な状態系列を動的計画法で求めている。

分割の一例を挙げよう、「超党派構成委員金集」はこの
具体例では「エエ／超Ｐ／党ｌ／派２／構１／成２／委
１／員２／会Ｓ／案Ｓ／工Ｆ」の系列をとる。そして分
類の系列に着目し、ｒ１２Ｊ。

１’Ｐ”１２Ｊ　、ｒ１２ｓ’Ｊ　及びｒＰ”１２Ｓｎ
Ｊ　に対応する部分が基本漢字列であるという規則を用
いて「超党派」、「構成」及び「委員金集」という基本
漢字列分割がなされる。ただし、上述でｍ、ｎは正の整
数である。

ところで上述の漢字列分割手法では到達確率を求める際
に各遷移における遷移確率を参照する必要があり、この
ため膨大な漢字についての確率付辞書がなくてはならな
い、この確率付辞書は実現可能な一対の状態の間の状態
遷移確率をストアするもので、２つの漢字即ち前段漢字
ｘＬ、後段漢字ＸＲ及び前段分類Ｓｐ、後段分類Ｓｏの
４つをキーとして対応する遷移確率をアクセスし得るも
のである。従ってそのデータ量が極めて膨大なものとな
る。そしてこの遷移確率が正確なものでないと上述漢字
列分割は精度の悪いものとなってしまうので、遷移確率
の精度を向上させることが肝要である。しかしながらこ
の遷移確率の精度を向上させるには大量の日本語文中の
漢字列についてどのような継続２文字漢字間でどのよう
な状態遷移が起こっているかの統計をとらなければなら
ないと考えられる。もちろんこのような統計自体は従前
では人間の判断のもとでなければ実行できないので極め
て長い年月と人件費を要することとなろう。

なお５日本語情報処理のツールとして辞書を用いること
は周知である０例えば情報処理Ｖｏ１．Ｉ９゜Ｎｏ、６
．　ｐｐ５１４−５２１（１９７３年）所載の長尾氏等
の「国語辞書の記憶と日本語文の自動分割」や特公昭５
７−１３８９５号等にその種の辞書について記載がある
。ただこのような辞書は本來確率付のものではなくこの
発明の技術的課題とは無関係である。

この種の辞書は市販の辞書またはそれに多少手を加えた
ものあるいは全く新たに作成（人手で）したものである
が、新たに作成するには１０年単位の時間を要するとい
う事実を念頭におくことはこの発明の技術的課題及び効
果を考えるうえで極めて有用であろう。

また、上述では説明の便宜上日本語文字として漢字を例
に挙げて説明したけれども漢字かな混り文等の分割用に
漢字、ひらがな、カタカナ等の文字についてもこの発明
の適用があることに留意されたい。

［発明が解決しようとする問題点］この発明は以上の事情を考慮してなされたものであり、
日本語文字の状１１Ａ遷移確率を機械的に生成して確率
付辞書を簡易に構築できる手法を提供することを目的と
している。

［問題点を解決するための手段］この発明では以上の目的を達成するためにまず状態遷移
確率の各々を暫定的に初期設定する。そしてこののち暫
定的な状態遷移確率の各々をより精度のよいもので順次
更新し、正規の状態遷移確率として出力するようにして
いる。

上述の更新を行うには多量文書をトレーニング・データ
として受は取り、それ以前に得られた状態遷移確率を参
照して状態遷移の各々がそのトレーニング・データ中に
出現する頻度を求める。状態ＳからＳ′への遷移の頻度
をｃ　（ＳＯＳ　’）と表記することとしよう。

つぎにトレーニング・データ中に状態の各々が出現する
頻度を求める。状態Ｓの頻度をＣ（Ｓ）で表記すること
としよう、状態Ｓの頻度Ｃ（Ｓ）は上述のもう１つの頻
度Ｃ（Ｓｌ→Ｓ′）についてＳが同一の範囲で和をとっ
たものである。即ち、Ｃ（Ｓ）＝ΣＳＣ（Ｓ→Ｓ’）Ｓ　′ である。

このような頻度ｃ　（Ｓ）　、　ｃ　（Ｓ→Ｓ’）に基
づいてベイズの事後推定を利用すると状＠ＳからＳ′へ
の状態遷移確率Ｐｒａｂ　（ＳＯ３’　）はである、こ
の発明では頻度ｃ’＜ｓ−＋ｓ゛＞を頻度Ｃ（Ｓ）で除
算して新たな状態遷移確率Ｐｒｏｂ（Ｓ→Ｓ’）　を得
る。

この発明における日本語文字のモデルは、統語モデルと
して単純マルコフモデルを用いているため、トレーニン
グ・データによる状態遷移確率の繰り返し計算力方法は
次のような性質をもつ状態遷移確率集合を生成する。こ
のことは数学的に証明でき、詳細は例えばＬ　、　Ｅ　
、　Ｂａｕｍ、　”Ａｎｉｎｅｑｕａｌｉｔｙ　　ａｎ
ｄ　　ａｓｓｏｃｉａｔｅｄ　　ｗａｘｉｍｉｚａｔｉ
ｏｎｔｅｃｈｎｉｑｕｅ　ｉｎ　５ｔａｔｉｓｔｉｃａ
ｌ　ｅｓｔｉｍａｔｉｏｎ　ｏｆｐｒｏｂａｂｌｉｓｔ
ｉｃ　ｆｕｎｃｔｉｏｎｓ　ｏｆ　Ｍａｒｋｏｖ　ｐｒ
ｏｃｅｓｓｅｓ”Ｉｎｅｑｕａｌｉｔｉｅｓ、　Ｖｏｌ
、３．　ｐｐｌ−８，１９７２を参照されたい。

■　現在の状態遷移確率集合をＡとし。

■　１回の繰り返し計算（これをτとする）により再計
算された状態遷移確率集合をＡ′とし。

Ａ’＝τ　（Ａ）とする。

性質１：トレーニング・データＢのＡのもとての生起確
率をＰ　ＣＢ、Ａ）とするとＰ　（Ｂ、Ａ’）＞Ｐ　（
Ｂ、Ａ）が成立する。

性質２：上述で等号が成立するのは、へ′；；（Ａ）の
ときのみである。

従って、繰り返し計算τによって状態遷移確率集合はあ
る確率値の集合に収束し、その確率値集合はトレーニン
グ・データの生起確率を極大とする値をとる。十分大き
なトレーニング・データを用いれば、その結果として導
かれる確率値集合は現実の値に極めて近いものとなる。

以上からこの発明による状態遷移確率の更新により正規
の状態遷移確率を生成できることが理解できる。

なお、上述の頻度Ｃ（Ｓ−＋Ｓ’）はトレーニング・デ
ータの生起確率をＰ、トレーニング・データの実現可能
な状態遷移系列のうちｉ番目の遷移がＳ→Ｓ′となるも
のの生起確率をＰｉ（Ｓ−４３’）とすると、Ｃ（ｓ−＋ｓ　’）　＝ΣＰｉ（Ｓ→Ｓ’）／Ｐから求
めることができる。なおＰは実現可能な状態遷移確率の
生起確率の和である。以下では状態遷移系列を単にバス
と呼ぶこととする。

具体的な例ではＣ（Ｓ−）Ｓ　’）を求める際にトレー
ニング・データを個々に独立した日本語文字列の連鎖と
して把えている。これを第７図に示するこのようなトレ
ーニング・データではｉ番目のＢ移はｊ番目の文字列ｊ
の中のに番目の遷移として特定できる。そしてこの文字
列ｊに対し複数個の実現可能なパスＬＪ禽があるとする
と、上述の確率Ｐｉ（ＳＯ８’）はＰ　ｉ　（Ｓ−＋Ｓ　’　）＝ΣＰ１傘Ｐ−・・・申Ｐ
二、傘ＰＪ１５（ｔ（ｋ）ｔｓ−ｅｓ　’）拳Ｐ二１申
＋”＊Ｐｎとなる、ただし、ＰＪ漬は文字列ｊに対するバスＬハの
生起確率であり、δ（ｔ（ｋ）、Ｓ→Ｓ’）はに番目の
遷移ｔ　（ｋ）がＳ→Ｓ′であれば１．そうでなければ
Ｏとなる関数である。そして以上の結果からｃ　（ｓ−＋Ｓ’）＝ΣＰ　ｉ　　（Ｓ−ｅｓ　’）　
／Ｐ＝　Σ　　ＰＪ、８（ｔ、（ｋ）、Ｓ−＋Ｓ　’）
／Ｐ、３Ｊ　ｒ　ｋ　＋　Ｑとなる。

そこでこの例では日本語文字列ｊごとにその中に含まれ
る実現可能なパスＬＪ＊の生起確率ＰＪ責を以前の状態
遷移確率を参照して求め（この）（スＬＪｍに含まれる
状態遷移の確率の積を求めれ１ｆよい）、こののちこの
文字列ｊの生起確率Ｐ　ｊ　（＝ΣＰＪ麿）で除算する
。そして、Ｃ（ｓ−ｅｓ　’）　＝Σ　　ＰＪ厳δ（ｔ
（ｋ）、Ｓ−＋Ｓ　’）／Ｐｊの演算をＪ　＋　ｋ　ｒ
立行うようにしている。なお、この演算はソートにより行
うことができる。即ちｊ＋に＋”及びＳ→Ｓ′でこれら
レコードをソートし、更に状態遷移ＳＯ９’の実現可能
な種々の組み合わせごと番こルーコードを割り当て、対
応する値ＰＪ、／Ｐｊをこれらレコードに書き込んでお
く。こののち状態遷移Ｓ→Ｓ′を同一とする範囲で値Ｐ
　Ｊ＠　／　Ｐ　ｊの和をとり、１つのレコードに書き
直すのである。最終的なレコードの各々には種々のＣ（
ＳＯＳ　’）が残されていることになる。このことは詳
細な実施例において一層十分に理解されるであろう。

［実施例］以下、この発明を上述した複合漢字列分割用の確率辞書
データベースを構築する際に適用した一実施例について
図面を参照しながら説明しよう。

第１図はこの実施例を全体として示すものであり、第２
図及び第３図はこの第１図例の各部の動作を有機的に説
明するためのものである。なお、この発明では上述した
とおり状態遷移確率を暫定的な値に初期設定したのちこ
の値を繰り反し更新していく、そしてこの実施例では初
期設定を行う際に更新の手順の一部を流用して暫定的な
確率値が合理的な値となるようにし、確率値の収束がよ
り早まるようにしている。以下では実際の手順と異なる
ものの説明の便宜上更新について先に説明することとす
る。

それでは更新の説明に入ろう、第１図及び第２図におい
て、トレーニング・データ・ストレージ部１はトレーニ
ング・データとしてＪＩＣ３Ｔ（科学技術情報センタ）
抄８２５０万字分を前処理したものをストアしている。

もちろんトレーニング・データとしてＪＩＣ３Ｔ抄録以
外のものを採用してもよい、ただ、機械読み取り可能な
形で手に入れることができるものが好ましい、前処理は
２文字、３文字及び４文字漢字の抽出と各漢字列ごとに
出現回数ｍを計数してその漢字列に付与することとであ
る。５文字以上からなる漢字列は通常それ未満の漢字列
から複合されるので、これらを考慮外としてもさほど影
響はないと考えられる。のちに第４図〜第６図を参照し
て理解されるように対象とする漢字列を２へ・４文字の
漢字列に限定すれば処理を極めて簡略化できる。また同
種の漢字列ごとに出現回数ｍを計数するのは処理の効率
化を図るためであり、このことものちに理解される。

トレーニング・データ・ストレージ部１にストアされた
漢字列ｊ及びその出現回数ｍは入力段２を介して一組ず
つテーブル作成部３に送られる（ステップ２１）、テー
ブル作成部３は入力漢字列ｊが２文字膜字列、３文字膜
字列または４文字膜字列かに応じてそれぞれ第４図、第
５図または第６図に示すようなテーブルを準備する（ス
テップ２２）、これらテーブルは漢字列ｊに含まれる実
現可能なパスＬＪＩ（第８図参照）ごとにブロックを割
り当てている。２文字膜字列ではパスＬＪｌが１つしか
考えられないのでブロックは１つしがない、３文字膜字
列では第５図に示されるように２つのブロックＢいＢ８
がある。４文字膜字列では第６図に示されるように４つ
のブロックＢ１．　Ｂ、、Ｂ１、Ｂ４がある。そしてこ
れらブロックは対応するパスＬｊ冑に含まれる遷移Ｓ−
＋Ｓ　’ごとに１行即ちルコードを割り当てている。こ
れらレコードは第４図〜第６図より明らかなようにフィ
ールドａ、ｂ、ｃ、ｄ、ｎ、ｆ及びｅを有し、入力漢字
列ｊに応じてフィールドａ、ｂ、ｃ、ｄ及びｎに前段漢
字Ｘい自段漢字ＸＲ１前段分類Ｓｐ、当設分類Ｓｃ及び
漢字列ｊの出現回数ｍが設定される。

３文字膜字列を一例として考えよう、この場合分類の系
列としてはｒ１１２ｓＦＪ及びｒＩＰ１２ＦＪが考えら
れ、このトレリス（有向グラフ）を示すと第９図に示す
ようになる。具体的な３文字膜字列「漢字列」が入力さ
れた場合１行目のレコードのａ、ｂ、ｃ、ｄ及びｎには
［土、漢、■。

１、ｍ」が設定され、２行目のレコードには「漢、字、
１，２、ｍ」が設定される。以下同様である。

こののち各レコードのフィールドａ、ｂ、ｃ及びｄの内
容をキーとして、即ち状態遷移Ｓ→Ｓ′に基づいて確率
データベース４を参照して状態遷移確率Ｐｒｏｂ　（Ｓ
→Ｓ’）を読み出してフィールドｅを設定する（ステッ
プ２３）、なお確率データベース４には初期設定または
前回の更新で得られた状態遷移確率Ｐｒｏｂ　（Ｓ→Ｓ
′）がストアされている。

こののち上述フィールドｅの内容即ちＰｒｏｂ（Ｓ→Ｓ
’）に基づいて漢字列ｊにパスＬｊ、の生起確率Ｐｊ膚
を求めこれをフィールドｆの設定する（ステップ２４）
、さらに漢字列ｊ全体のパスについて確率Ｐｊ麦の和を
とり漢字列ｊの生起確率Ｐｊを的には漢字列ｊの実現可
能なパスＬＪＩに含まれる個々の状態遷移Ｓ→Ｓ′ごと
にレコードが割り当てられ、これらレコードには状態遷
移Ｓ−＋Ｓ　’のトレージ部５に一旦スドアされる（ス
テップ２６）。

以上の手順はトレーニング・データ・ストレージ部１の
漢字列ｊがすべて処理されるまで続けられる（ステップ
２７）、すべて漢字列ｊについて処理が終了すると入力
段２から終了信号ＥＮＤが生じ、これに応じて制御部６
がトレーニング・データ・ストレージ部１にリセット信
号ＲＥＳＥＴを送出し、この結果トレーニング・データ
・ストレージ部１は次回の更新に備えることとなる。同
時に制御部６はゲート回路７にゲート信号０ＡＴＥを送
出する。

ゲート回路７はこの信号ＧＡＴＥを受は取るとオンとな
って、いままで作業ストレージ部５にストアされていた
入力トレーニング・データのレコードが次段のソート回
路８に供給されることとなる。これらレコードはこのソ
ート回路８でフィールドａ、ＱＴ　ｂ、ｄｌ　　ｆの順
で正順にソートされる（ステップ２８）、そして、フィ
ールドａ、Ｑ。

ｂ、ｄの内容が等しいレコード即ち状態遷移Ｓ→ング・
データ中に状態遷移Ｓ→Ｓ′が出現する頻度ＣＣ５−＊
Ｓ　’）である（ステップ２９）。

こののち正規化回路９において、頻度ｃ（Ｓ→Ｓ’）の
正規化が行われる。即ち、フィールドａ。

Ｃの内容が同一となる範囲（これをレコード・ブロック
とする）でフィールドｆの内容の和をとりこれをＦとす
る。このＦは、状ｊｌＥＩ　Ｓが入力トレーニング・デ
ータ中に出現する頻度Ｃ（Ｓ）である。

そして、各レコードのフィールドｆの内容をそのレコー
ドが属するレコード・ブロックＦで除算し、これをフィ
ールドｆに設定するのである、この値は新たに更新され
た状態遷移確率Ｐｒｏｂ　（Ｓ−＋Ｓ　’　）Ｃ（Ｓ）以上のようにして求められた新たな状態遷移確率Ｐｒｏ
ｂ　（ＳＯＳ　’）のデータは確率データベース４に転
送される（ステップ３１）、確率データベース４ではい
ままでの内容を空にして転送されてきた新たな状態遷移
確率Ｐｒｏｂ　（Ｓ−＋Ｓ　’　）を設定することとな
る。

これと同時に状態遷移確率Ｐｒｏｂ　（Ｓ−）Ｓ　’）
のデータはエントロピ演算回路１０にも送出される。

ここではの演算が実行される。なおβはレコード・ブロックの番
号αはレコード・ブロック内のレコードの番号である＠
　ＦＨｆＨｆ３はこれらで特定されている０例えばｅα
βはブロックβレコードαのｅの値である。そしてこの
エントロピＨが所定値γ例えば１０−１より小さいがど
うかの判定が行われ（ステップ３２）、Ｈ＜γであれば
ゲート回路１１がオンとされてデータベース４の状態遷
移確率Ｐｒｏｂ（Ｓ→Ｓ’）についてのデータが出力回
路１２に送出されて正規の状態遷移確率Ｐｒｏｂ　（Ｓ
４Ｓ　’　）の生成が完了する（ステップ３３）、逆に
Ｈ〉γであれば、十分な収束がなされていないので再度
更新を繰り返すこととなる。この場合には入力段２が再
度トレーニング・データを受は取ることとなる。

つぎに状態遷移確率Ｐｒｏｂ（Ｓ　−＋　Ｓ　’　）の
初期設定について説明しよう、第１図及び第３図におい
て、初期設定時にもトレーニング・データ・ストレージ
部１から入力段２にデータが供給される（ステップ４１
）、そして第４図〜第６図に六されるテーブルが準備さ
れる（ステップ４２）、ただこの場合には当然のことな
がら確率データベース４には状態遷移確率Ｐｒｏｂ　（
Ｓ−＋Ｓ　’　）が設定されていないのでフィールドｅ
は設定できない、第４図〜第６図でフィールドｅが−と
なっているのはこのことを示す、そしてフィールドｆの
値として適切なものを選ぶ、上述のとおり更新のモード
ではフィールドｅに設定された確率Ｐｒｏｂ　（Ｓ−＋
Ｓ　’　）を参照してパスＬＪｍの生起確率ＰＪ１を求
めこれを当初フィールドｆに設定し、これをもとに確率
Ｐｒｏｂ（Ｓ−）Ｓ’）の再計算を行った。そこで、こ
の例の初期設定モードではパスＬＪ愛の生起確率ＰＪ麿
として合理性のある値をフィールドｆに暫定的に設定す
るようにしている（ステップ４３）０例えば３文字膜字
列では２つのパスにつきそれぞれＰｊ貞＝０．５を割り
当て、４文字膜字列では４つのパスにつきそれぞれＰハ
＝０．７，０．２，０．０５＋　０．０５を割り当てて
いる。２文字膜字ではパスが１つであるからＰＪ、＝１
．０である。この場合漢字列ｊの生起確率Ｐｊ（＝ΣＰ
、＋＊）は１．０を演算してフィールドｆに再設定する
（ステップ４４）、そしてこのようなテーブルから状態
遷移Ｓ→Ｓ′ごとのレコードを作業ストレージ部５に転
送する（ステップ４５）６以上の動作はトレーニング・
データすべてについて実行される（ステップ４６）。

こののちの手順は第２図のステップ２８以降と同様であ
り、最終的に得られた状態遷移確率Ｐｒｏｂ（ｓ−＋ｓ
’）が初期設定値となる。これについては説明を繰り返
さない。

このようにして初期設定を行えばバスＬハについての合
理的な生起確率から簡易に暫定的な状態遷移確率Ｐｒｏ
ｂ（Ｓ→Ｓ′）を得ることができ、しかもその値はかな
り実際の値に近いので以降の繰り返し手順を少なくする
ことができる。

以上説明したようにこの実施例では状態遷移確率を再計
算し、再計算した値が実際の値に収束するという性質を
利用して簡易に状態遷移確率を求めるようにしている、
このようにすれば人手によらず確率付辞書を生成するこ
とができる。なお、この実施例では漢字列がトレーニン
グ・データ中に繰り返し出てくる場合にはそれらを１つ
にまとめたうえで出現回数ｎを付すようにしている。こ
のようにすれば効率を高めることができる。もちろん、
そのようにせずに再計算に利用してもよい。

また、上述実施例ではバスＬＪｍの生起確率ＰＪ。

をその漢字列ｊの生起確率Ｐｊで割って和をとりＣ（Ｓ
−＋Ｓ’）を得ようにしているけれども、生起確率Ｐｊ
ｌの和をそのままＣ（Ｓ→Ｓ′）とした場合にもよい結
果が得られることが確かめられた。

またＰ／、Ｋｉ→１　／　Ｋ　ｊまたはＰ　／　Ｋ　ｉ
→Ｐ／Ｋｊの状態遷移のように比較的漢字Ｋｉ及びＫｊ
の間の独立性が高いと予想されるものは漢字Ｋｊについ
て平均をとった値 ΣＣ（Ｐ／Ｋｉ→１　／　Ｋ　ｊ　） Σ（Ｃ（ＣＰ／Ｋｉ→Ｐ／Ｋ　ｊ）＋Ｃ（Ｐ／Ｋ　ｊ→
１／Ｋｊ））ｊまたは ΣＣ（Ｐ　／　Ｋ　ｉ　４　Ｐ　／　Ｋ　ｊ　）ｊで状態遷移確率を代用しても良好な結果を得た。

２　／　Ｋ　ｉ　−＊　Ｓ　／　Ｋ　ｊまたはＳ　／　
Ｋ　ｉ　４　Ｓ　／　Ｋ　ｊについても同様のことが言
える。これにより状態遷移確率表のサイズを著しく減少
させることができる。

また、この実施例では漢字列について言及を行ったけれ
ども他の日本語文字列あるいはそれらの複合列にもこの
発明を適用しうろことはもちろんである。

［発明の効果］以上説明したようにこの発明によれば日本語文字の状態
遷移確率を初期設定したのち、順次再計算を行って遷移
確率の更新を行うようにしている。

そして、このような再計算ではその値が実際の値に順次
収束していくということを利用して現実の値に近いまた
は等しいと言える状態遷移確率を最終的に得るようにし
ている。

この発明では日本語文字用の確率付辞書を機械的に生成
できる。またトレーニング・データの選定に応じて所望
の分野ごとに辞書を用意することもできる。

【図面の簡単な説明】

第１図はこの発明の一実施例を全体として示すブロック
図、第２図及び第３図は第１図実施例の３を説明するた
めの図、第７図、第８図及び第９図はこの発明の説明の
ための図である。１・・・・トレーニング・データ・ストレージ部、２・
・・・入力段、３・・・・テーブル作成部、４・・・・
確率データベース、５・・・・作業ストレージ部、８・
・・・ソート回路、９・・・・正規化回路。第１図第４図第５図第６図文言列　　　　　　　　　　Ｊ −−−−ト←−−−−−→→−−− 状欺遷移系に１、　　　　　　　　　　　　Ｐ　　　　　　　　ＰＰＰ
　　　Ｐ２　　　　　　）　　　　　　ｎ−１ｎ第７図第８図１　　Ｋ＋　　　Ｋ２　　　に３　　上手続補正Ｗ−（
自発）昭和５９年　２月７０日

Claims

【特許請求の範囲】日本語文字と統語上の分類との組合わせにより規定され
る状態の間の状態遷移確率を生成する方法において、上記状態遷移確率の各々を初期設定するステップと、日本語文字の集合であるトレーニング・データを入力す
るステップと、以前に設定された上記状態遷移確率を参照して上記トレ
ーニング・データ中に上記状態遷移の各々が生起する状
態遷移頻度をそれぞれ求めるステップと、上記状態遷移頻度についてその先行する状態が同一の範
囲で和をとり、上記トレーニング・データ中に上記状態
の各々が生起する状態頻度をそれぞれ求めるステップと
、上記状態遷移頻度の各々をその状態遷移の先行する状態
についての上記状態頻度で除算して新たに上記状態遷移
確率の各々を得、これら新たな状態遷移確率でそれまで
の状態遷移確率を更新するステップとを有することを特
徴とする日本語文字の状態遷移確率の生成方法。