JPS6142061A - 日本語文字の状態遷移確率の生成方法 - Google Patents
日本語文字の状態遷移確率の生成方法Info
- Publication number
- JPS6142061A JPS6142061A JP15943284A JP15943284A JPS6142061A JP S6142061 A JPS6142061 A JP S6142061A JP 15943284 A JP15943284 A JP 15943284A JP 15943284 A JP15943284 A JP 15943284A JP S6142061 A JPS6142061 A JP S6142061A
- Authority
- JP
- Japan
- Prior art keywords
- state transition
- kanji
- probability
- training data
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007704 transition Effects 0.000 title claims description 77
- 238000000034 method Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 150000001875 compounds Chemical class 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- WWSJZGAPAVMETJ-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-ethoxypyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)OCC WWSJZGAPAVMETJ-UHFFFAOYSA-N 0.000 description 1
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
この発明は漢字、ひらがな、カタカを等日本語文字が継
続してなる日本語文字列を解祈するのに有用な日本語文
字状態遷移確率付辞書を機械的に生成する方法に関する
。
続してなる日本語文字列を解祈するのに有用な日本語文
字状態遷移確率付辞書を機械的に生成する方法に関する
。
[従来技術]
本出願人はこの出願に先だって複合英字列を分割する手
法について提案を行っている。ここではこの発明の理解
を助けるためにこの手法について若干触れることとする
。
法について提案を行っている。ここではこの発明の理解
を助けるためにこの手法について若干触れることとする
。
日本語情報処理においてはブランクのないベタ書きの日
本語文を文節単位または単語単位に分割することが課題
とされてきた0日本語情報の機械検索用項目の自動作成
や機械翻訳にはこのような分割が不可欠であるからであ
る。そしてこのような日本語文の分割においてとくに困
難とされてきたものは複合漢字列に関するものである。
本語文を文節単位または単語単位に分割することが課題
とされてきた0日本語情報の機械検索用項目の自動作成
や機械翻訳にはこのような分割が不可欠であるからであ
る。そしてこのような日本語文の分割においてとくに困
難とされてきたものは複合漢字列に関するものである。
llI合漢字列は例えば「電話器用難燃材料」というよ
うに複数の基本漢字列r電話器用」、「難燃」及び「材
料]を複合してなるものである。この分割は複合漢字列
全体を考慮して始めて分割できるものであり、人間が分
割を行う場合でもかなりの熟練を必要とする。漢字は造
語力が大であり、日本語文においてその複合語はかなり
の頻度で表われるので、上述課題の解決は強く要望され
るところであった。
うに複数の基本漢字列r電話器用」、「難燃」及び「材
料]を複合してなるものである。この分割は複合漢字列
全体を考慮して始めて分割できるものであり、人間が分
割を行う場合でもかなりの熟練を必要とする。漢字は造
語力が大であり、日本語文においてその複合語はかなり
の頻度で表われるので、上述課題の解決は強く要望され
るところであった。
本出願人の提案した手法は確率を用いて高精度に複合漢
字列を基本漢字列に分割するものであった。即ち、WX
字列土に、 k、・・・kn上(ただし。
字列を基本漢字列に分割するものであった。即ち、WX
字列土に、 k、・・・kn上(ただし。
kは漢字、上は漢字列の始まりと終わりを示す特殊記号
である)が前段の土から後段の土に推移していく際の状
態の遷移を考える。漢字列のとる実現可能な状態系列は
複数であり、このうちから到達確率、換言すれば各遷移
におけるB移確率の積が最大となるものを選ぶ、そして
このように選ばれた状態系列から漢字分割を行うのであ
る。
である)が前段の土から後段の土に推移していく際の状
態の遷移を考える。漢字列のとる実現可能な状態系列は
複数であり、このうちから到達確率、換言すれば各遷移
におけるB移確率の積が最大となるものを選ぶ、そして
このように選ばれた状態系列から漢字分割を行うのであ
る。
この手法の具体的な例では状態を漢字1文字または記号
上と統語上の分類との組合わせで規定する。記号上の分
類としては開始ブランクエ及び終了ブランクFを設定し
、漢字の分類としては接頭語P、継続する基本漢字1,
2及び接尾語Sを設定している。そして到達確率の最大
な状態系列を動的計画法で求めている。
上と統語上の分類との組合わせで規定する。記号上の分
類としては開始ブランクエ及び終了ブランクFを設定し
、漢字の分類としては接頭語P、継続する基本漢字1,
2及び接尾語Sを設定している。そして到達確率の最大
な状態系列を動的計画法で求めている。
分割の一例を挙げよう、「超党派構成委員金集」はこの
具体例では「エエ/超P/党l/派2/構1/成2/委
1/員2/会S/案S/工F」の系列をとる。そして分
類の系列に着目し、r12J。
具体例では「エエ/超P/党l/派2/構1/成2/委
1/員2/会S/案S/工F」の系列をとる。そして分
類の系列に着目し、r12J。
1’P”12J 、r12s’J 及びrP”12Sn
J に対応する部分が基本漢字列であるという規則を用
いて「超党派」、「構成」及び「委員金集」という基本
漢字列分割がなされる。ただし、上述でm、nは正の整
数である。
J に対応する部分が基本漢字列であるという規則を用
いて「超党派」、「構成」及び「委員金集」という基本
漢字列分割がなされる。ただし、上述でm、nは正の整
数である。
ところで上述の漢字列分割手法では到達確率を求める際
に各遷移における遷移確率を参照する必要があり、この
ため膨大な漢字についての確率付辞書がなくてはならな
い、この確率付辞書は実現可能な一対の状態の間の状態
遷移確率をストアするもので、2つの漢字即ち前段漢字
xL、後段漢字XR及び前段分類Sp、後段分類Soの
4つをキーとして対応する遷移確率をアクセスし得るも
のである。従ってそのデータ量が極めて膨大なものとな
る。そしてこの遷移確率が正確なものでないと上述漢字
列分割は精度の悪いものとなってしまうので、遷移確率
の精度を向上させることが肝要である。しかしながらこ
の遷移確率の精度を向上させるには大量の日本語文中の
漢字列についてどのような継続2文字漢字間でどのよう
な状態遷移が起こっているかの統計をとらなければなら
ないと考えられる。もちろんこのような統計自体は従前
では人間の判断のもとでなければ実行できないので極め
て長い年月と人件費を要することとなろう。
に各遷移における遷移確率を参照する必要があり、この
ため膨大な漢字についての確率付辞書がなくてはならな
い、この確率付辞書は実現可能な一対の状態の間の状態
遷移確率をストアするもので、2つの漢字即ち前段漢字
xL、後段漢字XR及び前段分類Sp、後段分類Soの
4つをキーとして対応する遷移確率をアクセスし得るも
のである。従ってそのデータ量が極めて膨大なものとな
る。そしてこの遷移確率が正確なものでないと上述漢字
列分割は精度の悪いものとなってしまうので、遷移確率
の精度を向上させることが肝要である。しかしながらこ
の遷移確率の精度を向上させるには大量の日本語文中の
漢字列についてどのような継続2文字漢字間でどのよう
な状態遷移が起こっているかの統計をとらなければなら
ないと考えられる。もちろんこのような統計自体は従前
では人間の判断のもとでなければ実行できないので極め
て長い年月と人件費を要することとなろう。
なお5日本語情報処理のツールとして辞書を用いること
は周知である0例えば情報処理Vo1.I9゜No、6
. pp514−521(1973年)所載の長尾氏等
の「国語辞書の記憶と日本語文の自動分割」や特公昭5
7−13895号等にその種の辞書について記載がある
。ただこのような辞書は本來確率付のものではなくこの
発明の技術的課題とは無関係である。
は周知である0例えば情報処理Vo1.I9゜No、6
. pp514−521(1973年)所載の長尾氏等
の「国語辞書の記憶と日本語文の自動分割」や特公昭5
7−13895号等にその種の辞書について記載がある
。ただこのような辞書は本來確率付のものではなくこの
発明の技術的課題とは無関係である。
この種の辞書は市販の辞書またはそれに多少手を加えた
ものあるいは全く新たに作成(人手で)したものである
が、新たに作成するには10年単位の時間を要するとい
う事実を念頭におくことはこの発明の技術的課題及び効
果を考えるうえで極めて有用であろう。
ものあるいは全く新たに作成(人手で)したものである
が、新たに作成するには10年単位の時間を要するとい
う事実を念頭におくことはこの発明の技術的課題及び効
果を考えるうえで極めて有用であろう。
また、上述では説明の便宜上日本語文字として漢字を例
に挙げて説明したけれども漢字かな混り文等の分割用に
漢字、ひらがな、カタカナ等の文字についてもこの発明
の適用があることに留意されたい。
に挙げて説明したけれども漢字かな混り文等の分割用に
漢字、ひらがな、カタカナ等の文字についてもこの発明
の適用があることに留意されたい。
[発明が解決しようとする問題点]
この発明は以上の事情を考慮してなされたものであり、
日本語文字の状11A遷移確率を機械的に生成して確率
付辞書を簡易に構築できる手法を提供することを目的と
している。
日本語文字の状11A遷移確率を機械的に生成して確率
付辞書を簡易に構築できる手法を提供することを目的と
している。
[問題点を解決するための手段]
この発明では以上の目的を達成するためにまず状態遷移
確率の各々を暫定的に初期設定する。そしてこののち暫
定的な状態遷移確率の各々をより精度のよいもので順次
更新し、正規の状態遷移確率として出力するようにして
いる。
確率の各々を暫定的に初期設定する。そしてこののち暫
定的な状態遷移確率の各々をより精度のよいもので順次
更新し、正規の状態遷移確率として出力するようにして
いる。
上述の更新を行うには多量文書をトレーニング・データ
として受は取り、それ以前に得られた状態遷移確率を参
照して状態遷移の各々がそのトレーニング・データ中に
出現する頻度を求める。状態SからS′への遷移の頻度
をc (SOS ’)と表記することとしよう。
として受は取り、それ以前に得られた状態遷移確率を参
照して状態遷移の各々がそのトレーニング・データ中に
出現する頻度を求める。状態SからS′への遷移の頻度
をc (SOS ’)と表記することとしよう。
つぎにトレーニング・データ中に状態の各々が出現する
頻度を求める。状態Sの頻度をC(S)で表記すること
としよう、状態Sの頻度C(S)は上述のもう1つの頻
度C(Sl→S′)についてSが同一の範囲で和をとっ
たものである。即ち、C(S)=ΣSC(S→S’) S ′ である。
頻度を求める。状態Sの頻度をC(S)で表記すること
としよう、状態Sの頻度C(S)は上述のもう1つの頻
度C(Sl→S′)についてSが同一の範囲で和をとっ
たものである。即ち、C(S)=ΣSC(S→S’) S ′ である。
このような頻度c (S) 、 c (S→S’)に基
づいてベイズの事後推定を利用すると状@SからS′へ
の状態遷移確率Prab (SO3’ )はである、こ
の発明では頻度c’<s−+s゛>を頻度C(S)で除
算して新たな状態遷移確率Prob(S→S’) を得
る。
づいてベイズの事後推定を利用すると状@SからS′へ
の状態遷移確率Prab (SO3’ )はである、こ
の発明では頻度c’<s−+s゛>を頻度C(S)で除
算して新たな状態遷移確率Prob(S→S’) を得
る。
この発明における日本語文字のモデルは、統語モデルと
して単純マルコフモデルを用いているため、トレーニン
グ・データによる状態遷移確率の繰り返し計算力方法は
次のような性質をもつ状態遷移確率集合を生成する。こ
のことは数学的に証明でき、詳細は例えばL 、 E
、 Baum、 ”Aninequality an
d associated waximizati
ontechnique in 5tatistica
l estimation ofprobablist
ic functions of Markov pr
ocesses”Inequalities、 Vol
、3. ppl−8,1972を参照されたい。
して単純マルコフモデルを用いているため、トレーニン
グ・データによる状態遷移確率の繰り返し計算力方法は
次のような性質をもつ状態遷移確率集合を生成する。こ
のことは数学的に証明でき、詳細は例えばL 、 E
、 Baum、 ”Aninequality an
d associated waximizati
ontechnique in 5tatistica
l estimation ofprobablist
ic functions of Markov pr
ocesses”Inequalities、 Vol
、3. ppl−8,1972を参照されたい。
■ 現在の状態遷移確率集合をAとし。
■ 1回の繰り返し計算(これをτとする)により再計
算された状態遷移確率集合をA′とし。
算された状態遷移確率集合をA′とし。
A’=τ (A)とする。
性質1:トレーニング・データBのAのもとての生起確
率をP CB、A)とするとP (B、A’)>P (
B、A)が成立する。
率をP CB、A)とするとP (B、A’)>P (
B、A)が成立する。
性質2:上述で等号が成立するのは、へ′;;(A)の
ときのみである。
ときのみである。
従って、繰り返し計算τによって状態遷移確率集合はあ
る確率値の集合に収束し、その確率値集合はトレーニン
グ・データの生起確率を極大とする値をとる。十分大き
なトレーニング・データを用いれば、その結果として導
かれる確率値集合は現実の値に極めて近いものとなる。
る確率値の集合に収束し、その確率値集合はトレーニン
グ・データの生起確率を極大とする値をとる。十分大き
なトレーニング・データを用いれば、その結果として導
かれる確率値集合は現実の値に極めて近いものとなる。
以上からこの発明による状態遷移確率の更新により正規
の状態遷移確率を生成できることが理解できる。
の状態遷移確率を生成できることが理解できる。
なお、上述の頻度C(S−+S’)はトレーニング・デ
ータの生起確率をP、トレーニング・データの実現可能
な状態遷移系列のうちi番目の遷移がS→S′となるも
のの生起確率をPi(S−43’)とすると、 C(s−+s ’) =ΣPi(S→S’)/Pから求
めることができる。なおPは実現可能な状態遷移確率の
生起確率の和である。以下では状態遷移系列を単にバス
と呼ぶこととする。
ータの生起確率をP、トレーニング・データの実現可能
な状態遷移系列のうちi番目の遷移がS→S′となるも
のの生起確率をPi(S−43’)とすると、 C(s−+s ’) =ΣPi(S→S’)/Pから求
めることができる。なおPは実現可能な状態遷移確率の
生起確率の和である。以下では状態遷移系列を単にバス
と呼ぶこととする。
具体的な例ではC(S−)S ’)を求める際にトレー
ニング・データを個々に独立した日本語文字列の連鎖と
して把えている。これを第7図に示するこのようなトレ
ーニング・データではi番目のB移はj番目の文字列j
の中のに番目の遷移として特定できる。そしてこの文字
列jに対し複数個の実現可能なパスLJ禽があるとする
と、上述の確率Pi(SO8’)は P i (S−+S ’ )=ΣP1傘P−・・・申P
二、傘PJ15(t(k)ts−es ’)拳P二1申
+”*Pn となる、ただし、PJ漬は文字列jに対するバスLハの
生起確率であり、δ(t(k)、S→S’)はに番目の
遷移t (k)がS→S′であれば1.そうでなければ
Oとなる関数である。そして以上の結果から c (s−+S’)=ΣP i (S−es ’)
/P= Σ PJ、8(t、(k)、S−+S ’)
/P、3J r k + Q となる。
ニング・データを個々に独立した日本語文字列の連鎖と
して把えている。これを第7図に示するこのようなトレ
ーニング・データではi番目のB移はj番目の文字列j
の中のに番目の遷移として特定できる。そしてこの文字
列jに対し複数個の実現可能なパスLJ禽があるとする
と、上述の確率Pi(SO8’)は P i (S−+S ’ )=ΣP1傘P−・・・申P
二、傘PJ15(t(k)ts−es ’)拳P二1申
+”*Pn となる、ただし、PJ漬は文字列jに対するバスLハの
生起確率であり、δ(t(k)、S→S’)はに番目の
遷移t (k)がS→S′であれば1.そうでなければ
Oとなる関数である。そして以上の結果から c (s−+S’)=ΣP i (S−es ’)
/P= Σ PJ、8(t、(k)、S−+S ’)
/P、3J r k + Q となる。
そこでこの例では日本語文字列jごとにその中に含まれ
る実現可能なパスLJ*の生起確率PJ責を以前の状態
遷移確率を参照して求め(この)(スLJmに含まれる
状態遷移の確率の積を求めれ1fよい)、こののちこの
文字列jの生起確率P j (=ΣPJ麿)で除算する
。そして、C(s−es ’) =Σ PJ厳δ(t
(k)、S−+S ’)/Pjの演算をJ + k r
立 行うようにしている。なお、この演算はソートにより行
うことができる。即ちj+に+”及びS→S′でこれら
レコードをソートし、更に状態遷移SO9’の実現可能
な種々の組み合わせごと番こルーコードを割り当て、対
応する値PJ、/Pjをこれらレコードに書き込んでお
く。こののち状態遷移S→S′を同一とする範囲で値P
J@ / P jの和をとり、1つのレコードに書き
直すのである。最終的なレコードの各々には種々のC(
SOS ’)が残されていることになる。このことは詳
細な実施例において一層十分に理解されるであろう。
る実現可能なパスLJ*の生起確率PJ責を以前の状態
遷移確率を参照して求め(この)(スLJmに含まれる
状態遷移の確率の積を求めれ1fよい)、こののちこの
文字列jの生起確率P j (=ΣPJ麿)で除算する
。そして、C(s−es ’) =Σ PJ厳δ(t
(k)、S−+S ’)/Pjの演算をJ + k r
立 行うようにしている。なお、この演算はソートにより行
うことができる。即ちj+に+”及びS→S′でこれら
レコードをソートし、更に状態遷移SO9’の実現可能
な種々の組み合わせごと番こルーコードを割り当て、対
応する値PJ、/Pjをこれらレコードに書き込んでお
く。こののち状態遷移S→S′を同一とする範囲で値P
J@ / P jの和をとり、1つのレコードに書き
直すのである。最終的なレコードの各々には種々のC(
SOS ’)が残されていることになる。このことは詳
細な実施例において一層十分に理解されるであろう。
[実施例]
以下、この発明を上述した複合漢字列分割用の確率辞書
データベースを構築する際に適用した一実施例について
図面を参照しながら説明しよう。
データベースを構築する際に適用した一実施例について
図面を参照しながら説明しよう。
第1図はこの実施例を全体として示すものであり、第2
図及び第3図はこの第1図例の各部の動作を有機的に説
明するためのものである。なお、この発明では上述した
とおり状態遷移確率を暫定的な値に初期設定したのちこ
の値を繰り反し更新していく、そしてこの実施例では初
期設定を行う際に更新の手順の一部を流用して暫定的な
確率値が合理的な値となるようにし、確率値の収束がよ
り早まるようにしている。以下では実際の手順と異なる
ものの説明の便宜上更新について先に説明することとす
る。
図及び第3図はこの第1図例の各部の動作を有機的に説
明するためのものである。なお、この発明では上述した
とおり状態遷移確率を暫定的な値に初期設定したのちこ
の値を繰り反し更新していく、そしてこの実施例では初
期設定を行う際に更新の手順の一部を流用して暫定的な
確率値が合理的な値となるようにし、確率値の収束がよ
り早まるようにしている。以下では実際の手順と異なる
ものの説明の便宜上更新について先に説明することとす
る。
それでは更新の説明に入ろう、第1図及び第2図におい
て、トレーニング・データ・ストレージ部1はトレーニ
ング・データとしてJIC3T(科学技術情報センタ)
抄8250万字分を前処理したものをストアしている。
て、トレーニング・データ・ストレージ部1はトレーニ
ング・データとしてJIC3T(科学技術情報センタ)
抄8250万字分を前処理したものをストアしている。
もちろんトレーニング・データとしてJIC3T抄録以
外のものを採用してもよい、ただ、機械読み取り可能な
形で手に入れることができるものが好ましい、前処理は
2文字、3文字及び4文字漢字の抽出と各漢字列ごとに
出現回数mを計数してその漢字列に付与することとであ
る。5文字以上からなる漢字列は通常それ未満の漢字列
から複合されるので、これらを考慮外としてもさほど影
響はないと考えられる。のちに第4図〜第6図を参照し
て理解されるように対象とする漢字列を2へ・4文字の
漢字列に限定すれば処理を極めて簡略化できる。また同
種の漢字列ごとに出現回数mを計数するのは処理の効率
化を図るためであり、このことものちに理解される。
外のものを採用してもよい、ただ、機械読み取り可能な
形で手に入れることができるものが好ましい、前処理は
2文字、3文字及び4文字漢字の抽出と各漢字列ごとに
出現回数mを計数してその漢字列に付与することとであ
る。5文字以上からなる漢字列は通常それ未満の漢字列
から複合されるので、これらを考慮外としてもさほど影
響はないと考えられる。のちに第4図〜第6図を参照し
て理解されるように対象とする漢字列を2へ・4文字の
漢字列に限定すれば処理を極めて簡略化できる。また同
種の漢字列ごとに出現回数mを計数するのは処理の効率
化を図るためであり、このことものちに理解される。
トレーニング・データ・ストレージ部1にストアされた
漢字列j及びその出現回数mは入力段2を介して一組ず
つテーブル作成部3に送られる(ステップ21)、テー
ブル作成部3は入力漢字列jが2文字膜字列、3文字膜
字列または4文字膜字列かに応じてそれぞれ第4図、第
5図または第6図に示すようなテーブルを準備する(ス
テップ22)、これらテーブルは漢字列jに含まれる実
現可能なパスLJI(第8図参照)ごとにブロックを割
り当てている。2文字膜字列ではパスLJlが1つしか
考えられないのでブロックは1つしがない、3文字膜字
列では第5図に示されるように2つのブロックBいB8
がある。4文字膜字列では第6図に示されるように4つ
のブロックB1. B、、B1、B4がある。そしてこ
れらブロックは対応するパスLj冑に含まれる遷移S−
+S ’ごとに1行即ちルコードを割り当てている。こ
れらレコードは第4図〜第6図より明らかなようにフィ
ールドa、b、c、d、n、f及びeを有し、入力漢字
列jに応じてフィールドa、b、c、d及びnに前段漢
字Xい自段漢字XR1前段分類Sp、当設分類Sc及び
漢字列jの出現回数mが設定される。
漢字列j及びその出現回数mは入力段2を介して一組ず
つテーブル作成部3に送られる(ステップ21)、テー
ブル作成部3は入力漢字列jが2文字膜字列、3文字膜
字列または4文字膜字列かに応じてそれぞれ第4図、第
5図または第6図に示すようなテーブルを準備する(ス
テップ22)、これらテーブルは漢字列jに含まれる実
現可能なパスLJI(第8図参照)ごとにブロックを割
り当てている。2文字膜字列ではパスLJlが1つしか
考えられないのでブロックは1つしがない、3文字膜字
列では第5図に示されるように2つのブロックBいB8
がある。4文字膜字列では第6図に示されるように4つ
のブロックB1. B、、B1、B4がある。そしてこ
れらブロックは対応するパスLj冑に含まれる遷移S−
+S ’ごとに1行即ちルコードを割り当てている。こ
れらレコードは第4図〜第6図より明らかなようにフィ
ールドa、b、c、d、n、f及びeを有し、入力漢字
列jに応じてフィールドa、b、c、d及びnに前段漢
字Xい自段漢字XR1前段分類Sp、当設分類Sc及び
漢字列jの出現回数mが設定される。
3文字膜字列を一例として考えよう、この場合分類の系
列としてはr112sFJ及びrIP12FJが考えら
れ、このトレリス(有向グラフ)を示すと第9図に示す
ようになる。具体的な3文字膜字列「漢字列」が入力さ
れた場合1行目のレコードのa、b、c、d及びnには
[土、漢、■。
列としてはr112sFJ及びrIP12FJが考えら
れ、このトレリス(有向グラフ)を示すと第9図に示す
ようになる。具体的な3文字膜字列「漢字列」が入力さ
れた場合1行目のレコードのa、b、c、d及びnには
[土、漢、■。
1、m」が設定され、2行目のレコードには「漢、字、
1,2、m」が設定される。以下同様である。
1,2、m」が設定される。以下同様である。
こののち各レコードのフィールドa、b、c及びdの内
容をキーとして、即ち状態遷移S→S′に基づいて確率
データベース4を参照して状態遷移確率Prob (S
→S’)を読み出してフィールドeを設定する(ステッ
プ23)、なお確率データベース4には初期設定または
前回の更新で得られた状態遷移確率Prob (S→S
′)がストアされている。
容をキーとして、即ち状態遷移S→S′に基づいて確率
データベース4を参照して状態遷移確率Prob (S
→S’)を読み出してフィールドeを設定する(ステッ
プ23)、なお確率データベース4には初期設定または
前回の更新で得られた状態遷移確率Prob (S→S
′)がストアされている。
こののち上述フィールドeの内容即ちProb(S→S
’)に基づいて漢字列jにパスLj、の生起確率Pj膚
を求めこれをフィールドfの設定する(ステップ24)
、さらに漢字列j全体のパスについて確率Pj麦の和を
とり漢字列jの生起確率Pjを的には漢字列jの実現可
能なパスLJIに含まれる個々の状態遷移S→S′ごと
にレコードが割り当てられ、これらレコードには状態遷
移S−+S ’のトレージ部5に一旦スドアされる(ス
テップ26)。
’)に基づいて漢字列jにパスLj、の生起確率Pj膚
を求めこれをフィールドfの設定する(ステップ24)
、さらに漢字列j全体のパスについて確率Pj麦の和を
とり漢字列jの生起確率Pjを的には漢字列jの実現可
能なパスLJIに含まれる個々の状態遷移S→S′ごと
にレコードが割り当てられ、これらレコードには状態遷
移S−+S ’のトレージ部5に一旦スドアされる(ス
テップ26)。
以上の手順はトレーニング・データ・ストレージ部1の
漢字列jがすべて処理されるまで続けられる(ステップ
27)、すべて漢字列jについて処理が終了すると入力
段2から終了信号ENDが生じ、これに応じて制御部6
がトレーニング・データ・ストレージ部1にリセット信
号RESETを送出し、この結果トレーニング・データ
・ストレージ部1は次回の更新に備えることとなる。同
時に制御部6はゲート回路7にゲート信号0ATEを送
出する。
漢字列jがすべて処理されるまで続けられる(ステップ
27)、すべて漢字列jについて処理が終了すると入力
段2から終了信号ENDが生じ、これに応じて制御部6
がトレーニング・データ・ストレージ部1にリセット信
号RESETを送出し、この結果トレーニング・データ
・ストレージ部1は次回の更新に備えることとなる。同
時に制御部6はゲート回路7にゲート信号0ATEを送
出する。
ゲート回路7はこの信号GATEを受は取るとオンとな
って、いままで作業ストレージ部5にストアされていた
入力トレーニング・データのレコードが次段のソート回
路8に供給されることとなる。これらレコードはこのソ
ート回路8でフィールドa、QT b、dl fの順
で正順にソートされる(ステップ28)、そして、フィ
ールドa、Q。
って、いままで作業ストレージ部5にストアされていた
入力トレーニング・データのレコードが次段のソート回
路8に供給されることとなる。これらレコードはこのソ
ート回路8でフィールドa、QT b、dl fの順
で正順にソートされる(ステップ28)、そして、フィ
ールドa、Q。
b、dの内容が等しいレコード即ち状態遷移S→ング・
データ中に状態遷移S→S′が出現する頻度CC5−*
S ’)である(ステップ29)。
データ中に状態遷移S→S′が出現する頻度CC5−*
S ’)である(ステップ29)。
こののち正規化回路9において、頻度c(S→S’)の
正規化が行われる。即ち、フィールドa。
正規化が行われる。即ち、フィールドa。
Cの内容が同一となる範囲(これをレコード・ブロック
とする)でフィールドfの内容の和をとりこれをFとす
る。このFは、状jlEI Sが入力トレーニング・デ
ータ中に出現する頻度C(S)である。
とする)でフィールドfの内容の和をとりこれをFとす
る。このFは、状jlEI Sが入力トレーニング・デ
ータ中に出現する頻度C(S)である。
そして、各レコードのフィールドfの内容をそのレコー
ドが属するレコード・ブロックFで除算し、これをフィ
ールドfに設定するのである、この値は新たに更新され
た状態遷移確率Prob (S−+S ’ )C(S) 以上のようにして求められた新たな状態遷移確率Pro
b (SOS ’)のデータは確率データベース4に転
送される(ステップ31)、確率データベース4ではい
ままでの内容を空にして転送されてきた新たな状態遷移
確率Prob (S−+S ’ )を設定することとな
る。
ドが属するレコード・ブロックFで除算し、これをフィ
ールドfに設定するのである、この値は新たに更新され
た状態遷移確率Prob (S−+S ’ )C(S) 以上のようにして求められた新たな状態遷移確率Pro
b (SOS ’)のデータは確率データベース4に転
送される(ステップ31)、確率データベース4ではい
ままでの内容を空にして転送されてきた新たな状態遷移
確率Prob (S−+S ’ )を設定することとな
る。
これと同時に状態遷移確率Prob (S−)S ’)
のデータはエントロピ演算回路10にも送出される。
のデータはエントロピ演算回路10にも送出される。
ここでは
の演算が実行される。なおβはレコード・ブロックの番
号αはレコード・ブロック内のレコードの番号である@
FHfHf3はこれらで特定されている0例えばeα
βはブロックβレコードαのeの値である。そしてこの
エントロピHが所定値γ例えば10−1より小さいがど
うかの判定が行われ(ステップ32)、H<γであれば
ゲート回路11がオンとされてデータベース4の状態遷
移確率Prob(S→S’)についてのデータが出力回
路12に送出されて正規の状態遷移確率Prob (S
4S ’ )の生成が完了する(ステップ33)、逆に
H〉γであれば、十分な収束がなされていないので再度
更新を繰り返すこととなる。この場合には入力段2が再
度トレーニング・データを受は取ることとなる。
号αはレコード・ブロック内のレコードの番号である@
FHfHf3はこれらで特定されている0例えばeα
βはブロックβレコードαのeの値である。そしてこの
エントロピHが所定値γ例えば10−1より小さいがど
うかの判定が行われ(ステップ32)、H<γであれば
ゲート回路11がオンとされてデータベース4の状態遷
移確率Prob(S→S’)についてのデータが出力回
路12に送出されて正規の状態遷移確率Prob (S
4S ’ )の生成が完了する(ステップ33)、逆に
H〉γであれば、十分な収束がなされていないので再度
更新を繰り返すこととなる。この場合には入力段2が再
度トレーニング・データを受は取ることとなる。
つぎに状態遷移確率Prob(S −+ S ’ )の
初期設定について説明しよう、第1図及び第3図におい
て、初期設定時にもトレーニング・データ・ストレージ
部1から入力段2にデータが供給される(ステップ41
)、そして第4図〜第6図に六されるテーブルが準備さ
れる(ステップ42)、ただこの場合には当然のことな
がら確率データベース4には状態遷移確率Prob (
S−+S ’ )が設定されていないのでフィールドe
は設定できない、第4図〜第6図でフィールドeが−と
なっているのはこのことを示す、そしてフィールドfの
値として適切なものを選ぶ、上述のとおり更新のモード
ではフィールドeに設定された確率Prob (S−+
S ’ )を参照してパスLJmの生起確率PJ1を求
めこれを当初フィールドfに設定し、これをもとに確率
Prob(S−)S’)の再計算を行った。そこで、こ
の例の初期設定モードではパスLJ愛の生起確率PJ麿
として合理性のある値をフィールドfに暫定的に設定す
るようにしている(ステップ43)0例えば3文字膜字
列では2つのパスにつきそれぞれPj貞=0.5を割り
当て、4文字膜字列では4つのパスにつきそれぞれPハ
=0.7,0.2,0.05+ 0.05を割り当てて
いる。2文字膜字ではパスが1つであるからPJ、=1
.0である。この場合漢字列jの生起確率Pj(=ΣP
、+*)は1.0を演算してフィールドfに再設定する
(ステップ44)、そしてこのようなテーブルから状態
遷移S→S′ごとのレコードを作業ストレージ部5に転
送する(ステップ45)6以上の動作はトレーニング・
データすべてについて実行される(ステップ46)。
初期設定について説明しよう、第1図及び第3図におい
て、初期設定時にもトレーニング・データ・ストレージ
部1から入力段2にデータが供給される(ステップ41
)、そして第4図〜第6図に六されるテーブルが準備さ
れる(ステップ42)、ただこの場合には当然のことな
がら確率データベース4には状態遷移確率Prob (
S−+S ’ )が設定されていないのでフィールドe
は設定できない、第4図〜第6図でフィールドeが−と
なっているのはこのことを示す、そしてフィールドfの
値として適切なものを選ぶ、上述のとおり更新のモード
ではフィールドeに設定された確率Prob (S−+
S ’ )を参照してパスLJmの生起確率PJ1を求
めこれを当初フィールドfに設定し、これをもとに確率
Prob(S−)S’)の再計算を行った。そこで、こ
の例の初期設定モードではパスLJ愛の生起確率PJ麿
として合理性のある値をフィールドfに暫定的に設定す
るようにしている(ステップ43)0例えば3文字膜字
列では2つのパスにつきそれぞれPj貞=0.5を割り
当て、4文字膜字列では4つのパスにつきそれぞれPハ
=0.7,0.2,0.05+ 0.05を割り当てて
いる。2文字膜字ではパスが1つであるからPJ、=1
.0である。この場合漢字列jの生起確率Pj(=ΣP
、+*)は1.0を演算してフィールドfに再設定する
(ステップ44)、そしてこのようなテーブルから状態
遷移S→S′ごとのレコードを作業ストレージ部5に転
送する(ステップ45)6以上の動作はトレーニング・
データすべてについて実行される(ステップ46)。
こののちの手順は第2図のステップ28以降と同様であ
り、最終的に得られた状態遷移確率Prob(s−+s
’)が初期設定値となる。これについては説明を繰り返
さない。
り、最終的に得られた状態遷移確率Prob(s−+s
’)が初期設定値となる。これについては説明を繰り返
さない。
このようにして初期設定を行えばバスLハについての合
理的な生起確率から簡易に暫定的な状態遷移確率Pro
b(S→S′)を得ることができ、しかもその値はかな
り実際の値に近いので以降の繰り返し手順を少なくする
ことができる。
理的な生起確率から簡易に暫定的な状態遷移確率Pro
b(S→S′)を得ることができ、しかもその値はかな
り実際の値に近いので以降の繰り返し手順を少なくする
ことができる。
以上説明したようにこの実施例では状態遷移確率を再計
算し、再計算した値が実際の値に収束するという性質を
利用して簡易に状態遷移確率を求めるようにしている、
このようにすれば人手によらず確率付辞書を生成するこ
とができる。なお、この実施例では漢字列がトレーニン
グ・データ中に繰り返し出てくる場合にはそれらを1つ
にまとめたうえで出現回数nを付すようにしている。こ
のようにすれば効率を高めることができる。もちろん、
そのようにせずに再計算に利用してもよい。
算し、再計算した値が実際の値に収束するという性質を
利用して簡易に状態遷移確率を求めるようにしている、
このようにすれば人手によらず確率付辞書を生成するこ
とができる。なお、この実施例では漢字列がトレーニン
グ・データ中に繰り返し出てくる場合にはそれらを1つ
にまとめたうえで出現回数nを付すようにしている。こ
のようにすれば効率を高めることができる。もちろん、
そのようにせずに再計算に利用してもよい。
また、上述実施例ではバスLJmの生起確率PJ。
をその漢字列jの生起確率Pjで割って和をとりC(S
−+S’)を得ようにしているけれども、生起確率Pj
lの和をそのままC(S→S′)とした場合にもよい結
果が得られることが確かめられた。
−+S’)を得ようにしているけれども、生起確率Pj
lの和をそのままC(S→S′)とした場合にもよい結
果が得られることが確かめられた。
またP/、Ki→1 / K jまたはP / K i
→P/Kjの状態遷移のように比較的漢字Ki及びKj
の間の独立性が高いと予想されるものは漢字Kjについ
て平均をとった値 ΣC(P/Ki→1 / K j ) Σ(C(CP/Ki→P/K j)+C(P/K j→
1/Kj))j または ΣC(P / K i 4 P / K j )j で状態遷移確率を代用しても良好な結果を得た。
→P/Kjの状態遷移のように比較的漢字Ki及びKj
の間の独立性が高いと予想されるものは漢字Kjについ
て平均をとった値 ΣC(P/Ki→1 / K j ) Σ(C(CP/Ki→P/K j)+C(P/K j→
1/Kj))j または ΣC(P / K i 4 P / K j )j で状態遷移確率を代用しても良好な結果を得た。
2 / K i −* S / K jまたはS /
K i 4 S / K jについても同様のことが言
える。これにより状態遷移確率表のサイズを著しく減少
させることができる。
K i 4 S / K jについても同様のことが言
える。これにより状態遷移確率表のサイズを著しく減少
させることができる。
また、この実施例では漢字列について言及を行ったけれ
ども他の日本語文字列あるいはそれらの複合列にもこの
発明を適用しうろことはもちろんである。
ども他の日本語文字列あるいはそれらの複合列にもこの
発明を適用しうろことはもちろんである。
[発明の効果]
以上説明したようにこの発明によれば日本語文字の状態
遷移確率を初期設定したのち、順次再計算を行って遷移
確率の更新を行うようにしている。
遷移確率を初期設定したのち、順次再計算を行って遷移
確率の更新を行うようにしている。
そして、このような再計算ではその値が実際の値に順次
収束していくということを利用して現実の値に近いまた
は等しいと言える状態遷移確率を最終的に得るようにし
ている。
収束していくということを利用して現実の値に近いまた
は等しいと言える状態遷移確率を最終的に得るようにし
ている。
この発明では日本語文字用の確率付辞書を機械的に生成
できる。またトレーニング・データの選定に応じて所望
の分野ごとに辞書を用意することもできる。
できる。またトレーニング・データの選定に応じて所望
の分野ごとに辞書を用意することもできる。
第1図はこの発明の一実施例を全体として示すブロック
図、第2図及び第3図は第1図実施例の3を説明するた
めの図、第7図、第8図及び第9図はこの発明の説明の
ための図である。 1・・・・トレーニング・データ・ストレージ部、2・
・・・入力段、3・・・・テーブル作成部、4・・・・
確率データベース、5・・・・作業ストレージ部、8・
・・・ソート回路、9・・・・正規化回路。 第1図 第4図 第5図 第6図 文言列 J −−−−ト←−−−−−→→−−− 状欺遷移系に1 、 P PPP
P2 ) n−1n第7図 第8図 1 K+ K2 に3 上手続補正W−(
自発) 昭和59年 2月70日
図、第2図及び第3図は第1図実施例の3を説明するた
めの図、第7図、第8図及び第9図はこの発明の説明の
ための図である。 1・・・・トレーニング・データ・ストレージ部、2・
・・・入力段、3・・・・テーブル作成部、4・・・・
確率データベース、5・・・・作業ストレージ部、8・
・・・ソート回路、9・・・・正規化回路。 第1図 第4図 第5図 第6図 文言列 J −−−−ト←−−−−−→→−−− 状欺遷移系に1 、 P PPP
P2 ) n−1n第7図 第8図 1 K+ K2 に3 上手続補正W−(
自発) 昭和59年 2月70日
Claims (1)
- 【特許請求の範囲】 日本語文字と統語上の分類との組合わせにより規定され
る状態の間の状態遷移確率を生成する方法において、 上記状態遷移確率の各々を初期設定するステップと、 日本語文字の集合であるトレーニング・データを入力す
るステップと、 以前に設定された上記状態遷移確率を参照して上記トレ
ーニング・データ中に上記状態遷移の各々が生起する状
態遷移頻度をそれぞれ求めるステップと、 上記状態遷移頻度についてその先行する状態が同一の範
囲で和をとり、上記トレーニング・データ中に上記状態
の各々が生起する状態頻度をそれぞれ求めるステップと
、 上記状態遷移頻度の各々をその状態遷移の先行する状態
についての上記状態頻度で除算して新たに上記状態遷移
確率の各々を得、これら新たな状態遷移確率でそれまで
の状態遷移確率を更新するステップとを有することを特
徴とする日本語文字の状態遷移確率の生成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15943284A JPS6142061A (ja) | 1984-07-31 | 1984-07-31 | 日本語文字の状態遷移確率の生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP15943284A JPS6142061A (ja) | 1984-07-31 | 1984-07-31 | 日本語文字の状態遷移確率の生成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6142061A true JPS6142061A (ja) | 1986-02-28 |
| JPH0156424B2 JPH0156424B2 (ja) | 1989-11-30 |
Family
ID=15693615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP15943284A Granted JPS6142061A (ja) | 1984-07-31 | 1984-07-31 | 日本語文字の状態遷移確率の生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6142061A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6391776A (ja) * | 1986-09-30 | 1988-04-22 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 自然言語解析装置 |
| JPH02197637A (ja) * | 1988-10-25 | 1990-08-06 | Misawa Homes Co Ltd | 建物のユニットフレーム |
| JPH0449344A (ja) * | 1990-06-19 | 1992-02-18 | Misawa Homes Co Ltd | 建物のユニットフレーム |
| JP2011180864A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 系列分割装置、方法及びプログラム |
-
1984
- 1984-07-31 JP JP15943284A patent/JPS6142061A/ja active Granted
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6391776A (ja) * | 1986-09-30 | 1988-04-22 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 自然言語解析装置 |
| JPH02197637A (ja) * | 1988-10-25 | 1990-08-06 | Misawa Homes Co Ltd | 建物のユニットフレーム |
| JPH0449344A (ja) * | 1990-06-19 | 1992-02-18 | Misawa Homes Co Ltd | 建物のユニットフレーム |
| JP2011180864A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 系列分割装置、方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0156424B2 (ja) | 1989-11-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112214593B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
| CN108509484B (zh) | 分类器构建及智能问答方法、装置、终端及可读存储介质 | |
| CN110688834B (zh) | 基于深度学习模型进行智能文稿风格改写的方法和设备 | |
| Modi et al. | Review on abstractive text summarization techniques (ATST) for single and multi documents | |
| KR102618219B1 (ko) | 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치 | |
| CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
| JPS6142061A (ja) | 日本語文字の状態遷移確率の生成方法 | |
| CN104134017B (zh) | 一种基于紧凑特征表示的蛋白质作用关系对抽取方法 | |
| Kozareva et al. | ProSeqo: Projection sequence networks for on-device text classification | |
| Logrippo et al. | Cluster analysis for the computer-assisted statistical analysis of melodies | |
| CN113869392B (zh) | 图片分析模型训练方法、广告图片选择方法及电子设备 | |
| CN108573025A (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
| JPS6126175A (ja) | 複合漢字列分割装置 | |
| CN117332768B (zh) | 一种获取文本生成模板的数据处理系统 | |
| CN112614024A (zh) | 基于案情事实的法条智能推荐方法及系统及装置及介质 | |
| JPH04115325A (ja) | 文字コードのソート方式 | |
| CN108920837A (zh) | 利用共享zmodd提取esop乘积项间公因子的可逆电路综合方法 | |
| Wisniewski | Compression of index term dictionary in an inverted-file-orientated database: some effective algorithms | |
| Cohen et al. | F-PENN—Forest path encoding for neural networks | |
| CN113139385B (zh) | 基于字词读音融合特征模型的电子病历命名实体识别方法 | |
| Skadina et al. | An ensemble of classifiers methodology for stemming in inflectional languages: Using the example of Latvian | |
| Lacoume et al. | Cm,“§ _ 4 _1s gsjggsnns | |
| Gavriluţ et al. | Approximation theorems for fuzzy set multifunctions in Vietoris topology: Physical implications of regularity | |
| Nakano et al. | Asymptotic behavior of dynamic local-field corrections for electron liquids | |
| Goldfarb | Transformation systems are more economical and informative class descriptions than formal grammars |