JPH03102465A - 文字連接確率辞書構成法 - Google Patents
文字連接確率辞書構成法Info
- Publication number
- JPH03102465A JPH03102465A JP1240412A JP24041289A JPH03102465A JP H03102465 A JPH03102465 A JP H03102465A JP 1240412 A JP1240412 A JP 1240412A JP 24041289 A JP24041289 A JP 24041289A JP H03102465 A JPH03102465 A JP H03102465A
- Authority
- JP
- Japan
- Prior art keywords
- character
- probability
- concatenation
- appearance frequency
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、電子言1算機に入力された1二1本1t{文
竜の誤字や脱字を訂正するために、文字連接確率を記憶
する辞書の構成法に関するものである。 〔従来技術〕 ワードプロセッサや文字読み取り装置により日本語文章
を電子計算機に入力する際に、誤字や升{11字か混入
することがある。この入力誤りを自動的に検出し、訂正
する方法として、文章中の文字連接の出現頻度のばらつ
きに着目し、誤字の周辺の正しい文字と文字連接確率が
高い文字を訂正候補とする方法が用いられている。具体
的には、入力文章に誤字が存在する場合、誤字の前後の
文字列に接続しやすい訂正候補文字を献字位ifY 1
C抑入ずる。この仮文字列の文字連接確率を算定し、こ
れに基づいて訂正候補を順位{Jけ、上位の訂正候袖を
選択する。 ここで、文字連接確率は、文字列の前後に現わ?る文字
の出現確率であり、次の前方n文字連接確率と後方T】
文字連接確率がある。これらの文字連接確率は、入力誤
りのない大量の文章(原文テータ)に含まれるr1文字
列とr}− .1文?列の出現頻度から導出する。なお
、以下の式で文字列Sの出現頻度をA.. ( S )
とする。 (1)前方D文字連接確率 rl−j文字列C 1C ,” ’ C n − 1に
対して、次に文字Cnが現われる前率である。 Pt ( C n / C 1. C 2 ・・・C
n−、)=C1C2− ・Cnの出現頻度/文字C。を
除いて同一であるC1C2・・・Cnの出現頻度の総和
=A (C1Ci.−−−Cl1) /A(C1C7・
・・Crl−,)・・・・・・〔1〕(2)後方n文字
連接確率 n−1文字列C2・・・coに対して、直前に文字Cエ
が現われる確率である。 Pb(C■/C2C3・・・C n) = C y.
C ,・・・Cnの出現頻度/文字C■を除いて同一で
あるC iC ,,・・・C。の出現頻度の総和=A(
C1C2・・・cn) /A. (C2C3・・・cn
) ・・・・・・・ 〔2〕3 ?上の連接確率を登録する辞書が連接確率辞書である。 第5図に従来の連接確率辞書の構成を示す。 第5図において、1はi)h方T1文字連接確串I〕f
< c n /c 1C 2 ・・・c n − ].
)をイ5録ずる[1ラ方r1文字連接確率部である。 3はキ一部であり、n文字列C1C2・・・Cnを登録
する。4はデータ部であり、前方n文字連接確率P t
(C .−l/ C ,C 2・・・Cn−,)を登
録する。前力r1文字連接補率Hyl+ 1ではn文字
列01C2・・・coとして登録した文字列f.I:i
〕,2,・・・,α)とその前方n文字連接確率の組か
らなるレコー1・を登録し、文字列f1に対する前方n
文字連接確率を検索する。 2は後方n文字連接確率を登録する後方n文字連接確率
部である。5はキ一部であり、D文字列CiC7・・・
coを登録する。6はデータ部であり、後方n文字連接
確率p.(c■/C2C3・・・cn)を登録する。2
では、D文字列C1C2・・・Coとして登録した文字
列b + ( 1−1.. ! 2 +・・・β)とそ
の111方n文字連接確率の組からなるレコー1〜を登
録し、4一 文字列b,に対する後方文字連接確率を検索する。 〔発明が解決しようとする課題〕 従来の連接確率′fR書の構或では、前方n文字連接確
率と後方n文字連接確率を登録している。全ての文字の
種類の組合せからなるn文字列の文字連接確率を登録す
ると仮定すると、前方n文字連接確率と後方n文字連接
確率の個数はj(にt“(tは文字種数を表わす。日本
語ではt=7000程度である。)である。すなわち、
連接確率辞書のレコード数は2×t゜である。したがっ
て、文字連接確率を登録するための連接確率辞書のファ
イル容量が大きくなるという問題があった。 本発明の目的は、上記の問題点を解決して、連接確率辞
書に登録する文字連接確率の個数を削減する辞書の構或
方法を提供することにある。 本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。 〔課題を解決するための手段〕 」二記の目的を達戒するために、請求項1の発明?、文
字連接確率を登録する辞書の構成法において、文字列C
1Ci・・・C0−1の出現頻度を登録するn−1文字
列出現頻度登録部と、文字列c 1. c 2・・・C
rlの出現頻度を登録するn文字列出]31頻度登録部
と、文字列C1C2・・・Cnの出現頻度に対する文字
列C1C2・・・c n−tの出現頻度の比として,文
字列C■C2・・・Cn−,の次に文字C。が現われる
涌率である前方n文字連接確率を求める前方n文字連接
確率導出部と、文字列CiC2・・・Cnの出現頻度に
対ずる文字列Ci・・・Cnの出現頻度の比として、文
字列C2・・・Onの直前に文字C1が現われる確率で
ある後方n文字連接確率を求める後方n文字連接確率導
出部と、上記n−1文字列出現頻度登録部と上記n文字
列出現頻度登録部より読み出した出現頻度から上記前方
D文字連接確率導出部で前方n文字連接通率を生成し、
−1―記n − .1文字列出現頻度登録部と上記n文
字列出現頻度登録部より読み出した出現頻度から1二記
後方n文字連接確率導出部で後方n文字連接確率を生成
する手段を備えたことを最も主要な特徴とする。 また、請求項2の発明は、文字連接確率を登録する辞書
の構戊法において、文字列CiCi,・・・Ck,の次
に文字Cx現われる確率である前方k文字連接確率を登
録する11方方k文字連接確率登録部(k = 2 .
3 ,・”,n)と、文字C、が出現する土文字出現確
S$を登録する1文字出現確率登録部と、文字列C2C
3・・・Ciの直前に文字Ciが現われる確率である後
方1文字連接確率を導出する後方i文字連接確率導出部
い=2.3,・・・,n)と、上記後方ユ文字連接確率
導出部は、前方r文字連接確率登録部(r=2,・・・
+i)より読み出した鋪方r文字連接確率と、1文字出
現確率登録部より読み出した1−文字出現確率と、後方
m文字連接確率導出部(m=2,・・・,コ−−1−)
より導出した後方m文字連接確率とを用いて、後方j文
字連接確率を導出する手段を備えたことを最も主要な特
徴とする。 〔作 用〕 前述した手段によれば、文字連接確率辞書に登録する連
接S率の個数を小さくするための辞書構7 成法として、出現頻度登録法あるいは連接確率登録法を
用いることにより、連接確率辞書に登録する文字連接確
率の個数を削滅ずることができる。 〔発明の実施例〕 以下、本発明の一実施例を図面を用いて具体的に説明す
る。 なお、実施例を説明するための全図において、同−機能
を有するものは同一符号を付け、その繰り返しの説明は
省略する。 本発明の文字連接確率辞書構成法の−実施例は、文字連
接確率辞害に登録する連接確率の個数を小さくするため
の辞書構成法として、出現頻度登録法あるいは連接確率
登録法を用いる。 (1)出現頻度登録法 第l図は、本実施例の出現頻度登録法による連接確率辞
書の構或を示す図である。 第1図において、1lはn−1文字列出現頻度登録部で
あり、n−1文字列の出現頻度を登録する。 13はキ一部であり、n−王文字列C t C ,・・
・CLI−1を登録する。l4はデータ部であり、C1
C,・・・Cn8 ?の出現回数を登録する。n−1文字列出現頻度登録部
11てはn−1文字列C1C,・・・Cn−■として登
録したTJ,(i=1.2,・・・,γ)とその出現頻
度の組からなるレコー1へを豊録し、文′冫:列tJ
,に対する出現頻度を検索する。 12はn文字列出現頻度登録部であり、n文字列の出現
回数を登録する。l5はキ一部であり、D文字列C■C
2・・・Cnを登録ずる。16はデータ部であり、Ci
C2・・・C4の出現回数を登録する。n文字列出現頻
度登録部12てはn文字列CiC2・・・Cnとして登
録したV.(コ.=1,2,・・・δ)とその出現頻度
の組からなるレコードを登録し、文字列V1に対する出
現頻度を検索する。 17は前方n文字連接確率導出部であり、n−1文字列
の出現頻度とD文字列の出現頻度から前述した〔1〕式
に基づいて、前方n文字連接確率を導出し、出力端子1
9から出力する。18は後方n文字連接確率導出部であ
り、n−1文字列の出現頻度とn文字列の出現頻度から
〔2〕式に基づいて、後方n文字連接確率を導出し、出
力端了20から出力する。 すなわち、前記出現頻度登録法では、文字列C1C2・
・・Crlに対して、文字列I11文字列の出現頻度A
(C iC ,,−−− C n−。)を11からあ
゛2ム出し、n文字列の出現頻度A(CnC2”・Cn
−,.)をn文字列1Ij現頻度登録部12から読み出
す。前方n文字連接確率を前述の〔]〕式に基づいて前
方n文字連接確率導出部l7で導出し、出力端子19か
ら出力する。 同様に、後方n文字連接確率を前述の〔2〕式に基づい
て後方D文字連接確率導出部18で導出し、出力端子2
0から出力する。 全ての文字の種類からなるn文字列の文字連接確率を登
録すると仮定すると、出現頻度登録法の連接確率辞書の
レコード数は、n−1文字出現頻度登録部とn文字出現
頻度登録部のレコード数の合計であり、t”一’ −1
− t ”個となる。一方、従来の連接確率辞書のレコ
ー1・数は、前方連接確率部と後方連接確率部のレコー
1・数の合計であり、2×t・個となる。したがって、
本発明によれは連接確率辞書を小型化することができる
,,(2)連接確率登録法 第2図は、本実施例の連接確率登録法による連接確率辞
書の構威を示す図である。 第2図において、21, 22, 23. 24は、そ
れぞれ前方n文字連接確率登録部、前方n−1文字連接
確率登@部、前方3文字連接確率登録部、前方2文字連
接確率登録部である。前方〕文字連接確率登録部(j
=2.3・・・,n)は、前方i文字連接確率を登録す
る。 25は1文字出現確率登録部であり、1文字出現確率(
=原文データの文字数に対する着目する文字の出現頻度
の比)を登録する。 26, 27. 28. 29は、それぞれ後方n文字
連接確率導出部、後方n−1文字連接確率導出部、後方
3文字連接確率導出部、後方2文字連接確率導出部であ
る。19″は前方n文字連接確率の出力であり、20′
は後方n文字連接確率の出力である。 後方i文字連接確率導出部(i=2.3・・・,n)が
後方j文字連接確率を導出するに当たって、以下の〔9
〕式を用いる。この〔9〕式の導出方法11− ?ついて、次に説明する。 j文字列C■C2・・・C1の出現確率p(c■C2・
・・C1)は、次の〔3〕式で表わされる。 p(c■C2・・・Ci)=Pf(Cn/C1Cn・・
・C1−■)Xl)(CnC2・・・Cn−,)・・〔
3〕同様に、k文字列CエC2・・・Ck(k=2.3
・・・,1−1)の出現確率p(c1c,・・・Ck)
は、次の〔4〕式で表わされる。 p(c1c,,・・・G K) = P t ( C
K / C ,, C 2・・・Ck−,)×P(01
C2・・・Ck−1.)・・〔4〕前記〔3〕式に〔4
〕式を繰り返し代入することにより、次の〔5〕式が導
かれる。 ?(C1C2・・・C1)=P(C■)×nP,(Ck
/C■C2・・・Ck−■)・・・〔5〕また、i文字
列C 1. C 2・・・Ciの出現確率P(C■C2
・・・C+)は、次の〔6〕式で表わされる。 p(cよC2・・・CI)=Pb(C1/C2C3・・
・C+.)x P ( C 2C :l・・・Ci)・
・〔6〕同様に、m文字列C ,−m+1C +−m4
2 +++ C 1 (m ==2 13−,i−1)
の出現確率P (C r −m++ C I−m+■’
” ’C1)は、次の〔7)式で表わされる。 12 P(Cn−m4、C+−m+z”’Cr)” PbCC
r−m+,./Cr−m++ C r −111+3
” ” C I)X P (C+.−m+,c+−m+
a”・C’+)” l:7)〔6〕式に〔7〕式を繰り
返し代入することにより、次の〔8〕式が導かれる。 ?Cn−m+1/C■−m+2C I−m+a・・・C
n)・・・・・・・・ 〔8〕 前記〔5〕式と〔8〕式より次の〔9〕式が導かれる。 P.(C■/ C 2 C 3・・・c r )?(c
■) ×”n P 1 ( C K/ C ,C 2・
・・Ck..、)/P (C ,)X RlPb(c
+−,7c 1−111+2 C l−+n+3−・−
C I)mm2 ・・・・・・・・・ 〔9〕 〔9〕式に基づいて,前方k文字連接確率登録部(k=
2.3・・・,1)から読み出した前方k文字連接確率
P 1 ( C x / C x C 2・・・Ck−
■)と、1文字出現確率登録部から読み出したp(cエ
)、p(c+)と後方m文字連接確率登録部(m=2.
3・・・,i−1)?ら読み出した後方rn文字連接確
率P . (C . −m.,7G , −m+2 C
I■−m+3・・・c,)とを用いて、後方コ文字連
接確率導出部は後方1文字連接確率を求める。 この連接確率登録法では、前方n文字連接確率、前方n
− 1文字連接確率、前方2文字連接確率、1−文字
出現確率を各々前方n文字連接確率登録部21,前方n
− 1文字連接確率登録部22.前方3文字連接確率
登録部23,前方2文字連接確率登録部24,1文字出
現確率登録部25から読み出す。 また、後方n文字連接確率、後方n−1文字連接確率、
後方3文字連接確率、後方2文字連接確率を前述の〔9
〕式に基づいて、各々後方D文字連接確率導出部26,
後方n−1文字連接確率導出部27,後方3文字連接確
率導出部28,後方2文字連接確率導出部29で導出す
る。前方n文字連接確率を前方n文字連接確率登録部2
工で導出し、出力端子l9で出力する。後方n文字連接
確率を後方n文字連接確率導出部26で導出し,出力端
子20で出力する。 上記の仮定のもとで、前方1文字連接確率辞書(i−2
. 3 ,”・,n)のレコード数はtIであり、1
文字出現確率辞書のレコー1〜数はtである。したがっ
て連接確率辞書のレコード数は t lI+ tl1’+−−−+ t =(t n+”
−t)/(t−1)となる。従来の連接確率辞書のレコ
ード数は上記で述べたように2×t″個であるから、本
発明によれば連接確率辞書を小型化することができる。 なお、連接確率登録法は、出現頻度登録法に比較してレ
コード数が大きくなるが、後方n文字連接確率の他に後
方m文字連接確率(m=2.3,・・・,n−1)を同
時に導出できる利点がある。 次に、出現頻度登録法による連接確率辞書の具体例につ
いて説明する。 第3図は、本発明の出現頻度登録法による連接確率辞書
の一実施例の概略構成を示す図である。 本実施例においては、説明を簡単にするために、文字の
種類tを2(「会J、「議Jの2種)とし、文字連接確
率の次数nを2とする(前方2文字連接確率、後方2文
字連接確率を求める)。 第3図において、3lは1文字出現頻度登録部で15 あり、1文字列「会」、「議」に対する各々の出現頻度
A(会)=20、A(議)=80を登録する。32は2
文字出現頻度登録部であり、2文字列「会会」、「会議
」、「議会」、「@@Jに対ずる出現頻度A(会会)=
2、A(会議)=16、A(議会)=8、A(議議)=
4を登録する。33は前方2文字連接確率導出部である
。34は後方2文字連接確率導出部である。35. 3
6は各々前方2文字連接確率導出部33の出力端子と後
方2文字連接確率導出部34の出力端子である。例えば
、前方2文字連接確率pt(会/議)を次のように導出
し、出力端末35から出力する。 また、前方2文字連接確IP.(会/議)を次のように
導出し、出力端子36から出力する。従来の連接確率辞
書のレコード数は2Xt’=8であるのに対して、出現
頻度登録法ではt′一“+1;”=6である。 したがって、連接確率辞書のレコード数を小さ16 くできる。 第4図は、本発明の連接確率登録法による連接確率辞書
の一実施例の概略構或を示す図である。 」二記と同様にt=2、n=2とする。 24は前方2文字連接確率登録部であり、2文字列「会
会」、「会議」、「議会」、「議議」に対する各々の前
方の2文字連接確率Pf(会/会)=0.1.Pf(議
/会)=0.8、Pf(会/議)=0.1、pz(議/
議)=0.05を登録する。 25は1文字出現確率登録部であり、『会J、「議」に
対する各々の1文字出現確率P(会)=0.2、P(議
)=0.8を登録する。29は後方2文字連接確率導出
部である。37は前方2文字連接確率登録部Z4の出力
端子であり、38は後方2文字連接確率登録部29の出
力端子である。前方2文字連接確率は、前方2文字連接
確率登録部24で読み出し、出力端子37で出力する。 後方2文字連接確率は後方2文字連接確率導出部29で
導出し、出力端子38で出力する。例えは、p.(会/
議)は後方2文字連接確率導出部29で次のように導出
する。 =0.2 ・ ・ ・ ・ ・ 〔1 2〕
出現頻度登録法のコード数は、(1”+1−t)/(t
−1)=6である。 したがって、従来の連接@率辞書に比較して、連接確率
辞書のレコード数を小さくできる。このように、」二記
の実施例では前方2文字連接確率を登録することにより
、後方2文字連接確率は登録せずとも計算できる。同様
に、逆に後方2文字連接確率を登録することにより、前
方2文字連接確率を計算する構或とすることもできる。 本発明は、日本語文意に含まれる誤字に対する訂正候補
文字の絞り込みに応用することかできる。 以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は3うまでもない。 〔発明の効果〕 以上、説明したように、本発明によれば、登録すべき文
字連接確率辞書のレコー1へ数を小さくすることができ
るので、文字連接確率辞書を小型化することができる。
竜の誤字や脱字を訂正するために、文字連接確率を記憶
する辞書の構成法に関するものである。 〔従来技術〕 ワードプロセッサや文字読み取り装置により日本語文章
を電子計算機に入力する際に、誤字や升{11字か混入
することがある。この入力誤りを自動的に検出し、訂正
する方法として、文章中の文字連接の出現頻度のばらつ
きに着目し、誤字の周辺の正しい文字と文字連接確率が
高い文字を訂正候補とする方法が用いられている。具体
的には、入力文章に誤字が存在する場合、誤字の前後の
文字列に接続しやすい訂正候補文字を献字位ifY 1
C抑入ずる。この仮文字列の文字連接確率を算定し、こ
れに基づいて訂正候補を順位{Jけ、上位の訂正候袖を
選択する。 ここで、文字連接確率は、文字列の前後に現わ?る文字
の出現確率であり、次の前方n文字連接確率と後方T】
文字連接確率がある。これらの文字連接確率は、入力誤
りのない大量の文章(原文テータ)に含まれるr1文字
列とr}− .1文?列の出現頻度から導出する。なお
、以下の式で文字列Sの出現頻度をA.. ( S )
とする。 (1)前方D文字連接確率 rl−j文字列C 1C ,” ’ C n − 1に
対して、次に文字Cnが現われる前率である。 Pt ( C n / C 1. C 2 ・・・C
n−、)=C1C2− ・Cnの出現頻度/文字C。を
除いて同一であるC1C2・・・Cnの出現頻度の総和
=A (C1Ci.−−−Cl1) /A(C1C7・
・・Crl−,)・・・・・・〔1〕(2)後方n文字
連接確率 n−1文字列C2・・・coに対して、直前に文字Cエ
が現われる確率である。 Pb(C■/C2C3・・・C n) = C y.
C ,・・・Cnの出現頻度/文字C■を除いて同一で
あるC iC ,,・・・C。の出現頻度の総和=A(
C1C2・・・cn) /A. (C2C3・・・cn
) ・・・・・・・ 〔2〕3 ?上の連接確率を登録する辞書が連接確率辞書である。 第5図に従来の連接確率辞書の構成を示す。 第5図において、1はi)h方T1文字連接確串I〕f
< c n /c 1C 2 ・・・c n − ].
)をイ5録ずる[1ラ方r1文字連接確率部である。 3はキ一部であり、n文字列C1C2・・・Cnを登録
する。4はデータ部であり、前方n文字連接確率P t
(C .−l/ C ,C 2・・・Cn−,)を登
録する。前力r1文字連接補率Hyl+ 1ではn文字
列01C2・・・coとして登録した文字列f.I:i
〕,2,・・・,α)とその前方n文字連接確率の組か
らなるレコー1・を登録し、文字列f1に対する前方n
文字連接確率を検索する。 2は後方n文字連接確率を登録する後方n文字連接確率
部である。5はキ一部であり、D文字列CiC7・・・
coを登録する。6はデータ部であり、後方n文字連接
確率p.(c■/C2C3・・・cn)を登録する。2
では、D文字列C1C2・・・Coとして登録した文字
列b + ( 1−1.. ! 2 +・・・β)とそ
の111方n文字連接確率の組からなるレコー1〜を登
録し、4一 文字列b,に対する後方文字連接確率を検索する。 〔発明が解決しようとする課題〕 従来の連接確率′fR書の構或では、前方n文字連接確
率と後方n文字連接確率を登録している。全ての文字の
種類の組合せからなるn文字列の文字連接確率を登録す
ると仮定すると、前方n文字連接確率と後方n文字連接
確率の個数はj(にt“(tは文字種数を表わす。日本
語ではt=7000程度である。)である。すなわち、
連接確率辞書のレコード数は2×t゜である。したがっ
て、文字連接確率を登録するための連接確率辞書のファ
イル容量が大きくなるという問題があった。 本発明の目的は、上記の問題点を解決して、連接確率辞
書に登録する文字連接確率の個数を削減する辞書の構或
方法を提供することにある。 本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。 〔課題を解決するための手段〕 」二記の目的を達戒するために、請求項1の発明?、文
字連接確率を登録する辞書の構成法において、文字列C
1Ci・・・C0−1の出現頻度を登録するn−1文字
列出現頻度登録部と、文字列c 1. c 2・・・C
rlの出現頻度を登録するn文字列出]31頻度登録部
と、文字列C1C2・・・Cnの出現頻度に対する文字
列C1C2・・・c n−tの出現頻度の比として,文
字列C■C2・・・Cn−,の次に文字C。が現われる
涌率である前方n文字連接確率を求める前方n文字連接
確率導出部と、文字列CiC2・・・Cnの出現頻度に
対ずる文字列Ci・・・Cnの出現頻度の比として、文
字列C2・・・Onの直前に文字C1が現われる確率で
ある後方n文字連接確率を求める後方n文字連接確率導
出部と、上記n−1文字列出現頻度登録部と上記n文字
列出現頻度登録部より読み出した出現頻度から上記前方
D文字連接確率導出部で前方n文字連接通率を生成し、
−1―記n − .1文字列出現頻度登録部と上記n文
字列出現頻度登録部より読み出した出現頻度から1二記
後方n文字連接確率導出部で後方n文字連接確率を生成
する手段を備えたことを最も主要な特徴とする。 また、請求項2の発明は、文字連接確率を登録する辞書
の構戊法において、文字列CiCi,・・・Ck,の次
に文字Cx現われる確率である前方k文字連接確率を登
録する11方方k文字連接確率登録部(k = 2 .
3 ,・”,n)と、文字C、が出現する土文字出現確
S$を登録する1文字出現確率登録部と、文字列C2C
3・・・Ciの直前に文字Ciが現われる確率である後
方1文字連接確率を導出する後方i文字連接確率導出部
い=2.3,・・・,n)と、上記後方ユ文字連接確率
導出部は、前方r文字連接確率登録部(r=2,・・・
+i)より読み出した鋪方r文字連接確率と、1文字出
現確率登録部より読み出した1−文字出現確率と、後方
m文字連接確率導出部(m=2,・・・,コ−−1−)
より導出した後方m文字連接確率とを用いて、後方j文
字連接確率を導出する手段を備えたことを最も主要な特
徴とする。 〔作 用〕 前述した手段によれば、文字連接確率辞書に登録する連
接S率の個数を小さくするための辞書構7 成法として、出現頻度登録法あるいは連接確率登録法を
用いることにより、連接確率辞書に登録する文字連接確
率の個数を削滅ずることができる。 〔発明の実施例〕 以下、本発明の一実施例を図面を用いて具体的に説明す
る。 なお、実施例を説明するための全図において、同−機能
を有するものは同一符号を付け、その繰り返しの説明は
省略する。 本発明の文字連接確率辞書構成法の−実施例は、文字連
接確率辞害に登録する連接確率の個数を小さくするため
の辞書構成法として、出現頻度登録法あるいは連接確率
登録法を用いる。 (1)出現頻度登録法 第l図は、本実施例の出現頻度登録法による連接確率辞
書の構或を示す図である。 第1図において、1lはn−1文字列出現頻度登録部で
あり、n−1文字列の出現頻度を登録する。 13はキ一部であり、n−王文字列C t C ,・・
・CLI−1を登録する。l4はデータ部であり、C1
C,・・・Cn8 ?の出現回数を登録する。n−1文字列出現頻度登録部
11てはn−1文字列C1C,・・・Cn−■として登
録したTJ,(i=1.2,・・・,γ)とその出現頻
度の組からなるレコー1へを豊録し、文′冫:列tJ
,に対する出現頻度を検索する。 12はn文字列出現頻度登録部であり、n文字列の出現
回数を登録する。l5はキ一部であり、D文字列C■C
2・・・Cnを登録ずる。16はデータ部であり、Ci
C2・・・C4の出現回数を登録する。n文字列出現頻
度登録部12てはn文字列CiC2・・・Cnとして登
録したV.(コ.=1,2,・・・δ)とその出現頻度
の組からなるレコードを登録し、文字列V1に対する出
現頻度を検索する。 17は前方n文字連接確率導出部であり、n−1文字列
の出現頻度とD文字列の出現頻度から前述した〔1〕式
に基づいて、前方n文字連接確率を導出し、出力端子1
9から出力する。18は後方n文字連接確率導出部であ
り、n−1文字列の出現頻度とn文字列の出現頻度から
〔2〕式に基づいて、後方n文字連接確率を導出し、出
力端了20から出力する。 すなわち、前記出現頻度登録法では、文字列C1C2・
・・Crlに対して、文字列I11文字列の出現頻度A
(C iC ,,−−− C n−。)を11からあ
゛2ム出し、n文字列の出現頻度A(CnC2”・Cn
−,.)をn文字列1Ij現頻度登録部12から読み出
す。前方n文字連接確率を前述の〔]〕式に基づいて前
方n文字連接確率導出部l7で導出し、出力端子19か
ら出力する。 同様に、後方n文字連接確率を前述の〔2〕式に基づい
て後方D文字連接確率導出部18で導出し、出力端子2
0から出力する。 全ての文字の種類からなるn文字列の文字連接確率を登
録すると仮定すると、出現頻度登録法の連接確率辞書の
レコード数は、n−1文字出現頻度登録部とn文字出現
頻度登録部のレコード数の合計であり、t”一’ −1
− t ”個となる。一方、従来の連接確率辞書のレコ
ー1・数は、前方連接確率部と後方連接確率部のレコー
1・数の合計であり、2×t・個となる。したがって、
本発明によれは連接確率辞書を小型化することができる
,,(2)連接確率登録法 第2図は、本実施例の連接確率登録法による連接確率辞
書の構威を示す図である。 第2図において、21, 22, 23. 24は、そ
れぞれ前方n文字連接確率登録部、前方n−1文字連接
確率登@部、前方3文字連接確率登録部、前方2文字連
接確率登録部である。前方〕文字連接確率登録部(j
=2.3・・・,n)は、前方i文字連接確率を登録す
る。 25は1文字出現確率登録部であり、1文字出現確率(
=原文データの文字数に対する着目する文字の出現頻度
の比)を登録する。 26, 27. 28. 29は、それぞれ後方n文字
連接確率導出部、後方n−1文字連接確率導出部、後方
3文字連接確率導出部、後方2文字連接確率導出部であ
る。19″は前方n文字連接確率の出力であり、20′
は後方n文字連接確率の出力である。 後方i文字連接確率導出部(i=2.3・・・,n)が
後方j文字連接確率を導出するに当たって、以下の〔9
〕式を用いる。この〔9〕式の導出方法11− ?ついて、次に説明する。 j文字列C■C2・・・C1の出現確率p(c■C2・
・・C1)は、次の〔3〕式で表わされる。 p(c■C2・・・Ci)=Pf(Cn/C1Cn・・
・C1−■)Xl)(CnC2・・・Cn−,)・・〔
3〕同様に、k文字列CエC2・・・Ck(k=2.3
・・・,1−1)の出現確率p(c1c,・・・Ck)
は、次の〔4〕式で表わされる。 p(c1c,,・・・G K) = P t ( C
K / C ,, C 2・・・Ck−,)×P(01
C2・・・Ck−1.)・・〔4〕前記〔3〕式に〔4
〕式を繰り返し代入することにより、次の〔5〕式が導
かれる。 ?(C1C2・・・C1)=P(C■)×nP,(Ck
/C■C2・・・Ck−■)・・・〔5〕また、i文字
列C 1. C 2・・・Ciの出現確率P(C■C2
・・・C+)は、次の〔6〕式で表わされる。 p(cよC2・・・CI)=Pb(C1/C2C3・・
・C+.)x P ( C 2C :l・・・Ci)・
・〔6〕同様に、m文字列C ,−m+1C +−m4
2 +++ C 1 (m ==2 13−,i−1)
の出現確率P (C r −m++ C I−m+■’
” ’C1)は、次の〔7)式で表わされる。 12 P(Cn−m4、C+−m+z”’Cr)” PbCC
r−m+,./Cr−m++ C r −111+3
” ” C I)X P (C+.−m+,c+−m+
a”・C’+)” l:7)〔6〕式に〔7〕式を繰り
返し代入することにより、次の〔8〕式が導かれる。 ?Cn−m+1/C■−m+2C I−m+a・・・C
n)・・・・・・・・ 〔8〕 前記〔5〕式と〔8〕式より次の〔9〕式が導かれる。 P.(C■/ C 2 C 3・・・c r )?(c
■) ×”n P 1 ( C K/ C ,C 2・
・・Ck..、)/P (C ,)X RlPb(c
+−,7c 1−111+2 C l−+n+3−・−
C I)mm2 ・・・・・・・・・ 〔9〕 〔9〕式に基づいて,前方k文字連接確率登録部(k=
2.3・・・,1)から読み出した前方k文字連接確率
P 1 ( C x / C x C 2・・・Ck−
■)と、1文字出現確率登録部から読み出したp(cエ
)、p(c+)と後方m文字連接確率登録部(m=2.
3・・・,i−1)?ら読み出した後方rn文字連接確
率P . (C . −m.,7G , −m+2 C
I■−m+3・・・c,)とを用いて、後方コ文字連
接確率導出部は後方1文字連接確率を求める。 この連接確率登録法では、前方n文字連接確率、前方n
− 1文字連接確率、前方2文字連接確率、1−文字
出現確率を各々前方n文字連接確率登録部21,前方n
− 1文字連接確率登録部22.前方3文字連接確率
登録部23,前方2文字連接確率登録部24,1文字出
現確率登録部25から読み出す。 また、後方n文字連接確率、後方n−1文字連接確率、
後方3文字連接確率、後方2文字連接確率を前述の〔9
〕式に基づいて、各々後方D文字連接確率導出部26,
後方n−1文字連接確率導出部27,後方3文字連接確
率導出部28,後方2文字連接確率導出部29で導出す
る。前方n文字連接確率を前方n文字連接確率登録部2
工で導出し、出力端子l9で出力する。後方n文字連接
確率を後方n文字連接確率導出部26で導出し,出力端
子20で出力する。 上記の仮定のもとで、前方1文字連接確率辞書(i−2
. 3 ,”・,n)のレコード数はtIであり、1
文字出現確率辞書のレコー1〜数はtである。したがっ
て連接確率辞書のレコード数は t lI+ tl1’+−−−+ t =(t n+”
−t)/(t−1)となる。従来の連接確率辞書のレコ
ード数は上記で述べたように2×t″個であるから、本
発明によれば連接確率辞書を小型化することができる。 なお、連接確率登録法は、出現頻度登録法に比較してレ
コード数が大きくなるが、後方n文字連接確率の他に後
方m文字連接確率(m=2.3,・・・,n−1)を同
時に導出できる利点がある。 次に、出現頻度登録法による連接確率辞書の具体例につ
いて説明する。 第3図は、本発明の出現頻度登録法による連接確率辞書
の一実施例の概略構成を示す図である。 本実施例においては、説明を簡単にするために、文字の
種類tを2(「会J、「議Jの2種)とし、文字連接確
率の次数nを2とする(前方2文字連接確率、後方2文
字連接確率を求める)。 第3図において、3lは1文字出現頻度登録部で15 あり、1文字列「会」、「議」に対する各々の出現頻度
A(会)=20、A(議)=80を登録する。32は2
文字出現頻度登録部であり、2文字列「会会」、「会議
」、「議会」、「@@Jに対ずる出現頻度A(会会)=
2、A(会議)=16、A(議会)=8、A(議議)=
4を登録する。33は前方2文字連接確率導出部である
。34は後方2文字連接確率導出部である。35. 3
6は各々前方2文字連接確率導出部33の出力端子と後
方2文字連接確率導出部34の出力端子である。例えば
、前方2文字連接確率pt(会/議)を次のように導出
し、出力端末35から出力する。 また、前方2文字連接確IP.(会/議)を次のように
導出し、出力端子36から出力する。従来の連接確率辞
書のレコード数は2Xt’=8であるのに対して、出現
頻度登録法ではt′一“+1;”=6である。 したがって、連接確率辞書のレコード数を小さ16 くできる。 第4図は、本発明の連接確率登録法による連接確率辞書
の一実施例の概略構或を示す図である。 」二記と同様にt=2、n=2とする。 24は前方2文字連接確率登録部であり、2文字列「会
会」、「会議」、「議会」、「議議」に対する各々の前
方の2文字連接確率Pf(会/会)=0.1.Pf(議
/会)=0.8、Pf(会/議)=0.1、pz(議/
議)=0.05を登録する。 25は1文字出現確率登録部であり、『会J、「議」に
対する各々の1文字出現確率P(会)=0.2、P(議
)=0.8を登録する。29は後方2文字連接確率導出
部である。37は前方2文字連接確率登録部Z4の出力
端子であり、38は後方2文字連接確率登録部29の出
力端子である。前方2文字連接確率は、前方2文字連接
確率登録部24で読み出し、出力端子37で出力する。 後方2文字連接確率は後方2文字連接確率導出部29で
導出し、出力端子38で出力する。例えは、p.(会/
議)は後方2文字連接確率導出部29で次のように導出
する。 =0.2 ・ ・ ・ ・ ・ 〔1 2〕
出現頻度登録法のコード数は、(1”+1−t)/(t
−1)=6である。 したがって、従来の連接@率辞書に比較して、連接確率
辞書のレコード数を小さくできる。このように、」二記
の実施例では前方2文字連接確率を登録することにより
、後方2文字連接確率は登録せずとも計算できる。同様
に、逆に後方2文字連接確率を登録することにより、前
方2文字連接確率を計算する構或とすることもできる。 本発明は、日本語文意に含まれる誤字に対する訂正候補
文字の絞り込みに応用することかできる。 以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は3うまでもない。 〔発明の効果〕 以上、説明したように、本発明によれば、登録すべき文
字連接確率辞書のレコー1へ数を小さくすることができ
るので、文字連接確率辞書を小型化することができる。
第1図は、本実施例の出現頻度登録法による連接確率辞
書の構或を示す図、 第2図は、本実施例の連接確率登録法による連接確率辞
書の構成を示す図、 第3図は,本発明の出現頻度登録法による連接確率辞書
の−実施例の概酩構成を示す図、第4図は、本発明の連
接′lf9率登録法による連接確率辞書の一実施例の概
略構或を示す図、第5図は、従来の連接確率胛書の問題
点を説明するための図である。 図中、1・前方n文字連接確率登録部、2・後方n文字
連接確率!f録部、3・キ一部、4 データ部、5 キ
一部、6 ・データ部、11・・−n−1文字列出現頻
度登録部、12・・・n文字列出現頻度登録19 部、13・キ一部、14 データ部、15・キ一部、
16データ部、l7・・前方n文字連接確率導出部、l
8・・後方D文字連接確率導出部、19 前方n文字
連接確率導出部の出力端子、20・後方D文字連接確率
導出部の出力端子、19’ 前方n文字連接確率の出
力、20′・・後方n文字連接柁率の出力、21前方n
文字連接確率登録部、22・前方n − 1文字連接確
率登録部、23 前方3文字連接確率登録部、24・
前方2文字連接確率登録部、251,文字出現確率登録
部、26・・後方D文字連接確率導出部、27後方n−
1文字連接確率導出部、28 後方3文字連接確率導
出部、29・後方2文字連接a率導出部、31・・1文
字出現頻度登録部、32 2文字出現頻度登録部、33
・・前方2文字連接補′率導出部、34・後方2文字連
接確率導出部、35 前方2文字連接確率導出部の出
力端子、36・後方2文字連接確率導出部の出力端子、
37 前方2文字連接確率登録部の出力端子、38・
・後方2文字連接桶−率登録部の出力端子。 20
書の構或を示す図、 第2図は、本実施例の連接確率登録法による連接確率辞
書の構成を示す図、 第3図は,本発明の出現頻度登録法による連接確率辞書
の−実施例の概酩構成を示す図、第4図は、本発明の連
接′lf9率登録法による連接確率辞書の一実施例の概
略構或を示す図、第5図は、従来の連接確率胛書の問題
点を説明するための図である。 図中、1・前方n文字連接確率登録部、2・後方n文字
連接確率!f録部、3・キ一部、4 データ部、5 キ
一部、6 ・データ部、11・・−n−1文字列出現頻
度登録部、12・・・n文字列出現頻度登録19 部、13・キ一部、14 データ部、15・キ一部、
16データ部、l7・・前方n文字連接確率導出部、l
8・・後方D文字連接確率導出部、19 前方n文字
連接確率導出部の出力端子、20・後方D文字連接確率
導出部の出力端子、19’ 前方n文字連接確率の出
力、20′・・後方n文字連接柁率の出力、21前方n
文字連接確率登録部、22・前方n − 1文字連接確
率登録部、23 前方3文字連接確率登録部、24・
前方2文字連接確率登録部、251,文字出現確率登録
部、26・・後方D文字連接確率導出部、27後方n−
1文字連接確率導出部、28 後方3文字連接確率導
出部、29・後方2文字連接a率導出部、31・・1文
字出現頻度登録部、32 2文字出現頻度登録部、33
・・前方2文字連接補′率導出部、34・後方2文字連
接確率導出部、35 前方2文字連接確率導出部の出
力端子、36・後方2文字連接確率導出部の出力端子、
37 前方2文字連接確率登録部の出力端子、38・
・後方2文字連接桶−率登録部の出力端子。 20
Claims (2)
- (1)文字連接確率を登録する辞書の構成法において、
文字列C_1C_2・・・C_n_−_1の出現頻度を
登録するn−1文字列出現頻度登録部と、文字列C_1
C_2・・・C_nの出現頻度を登録するn文字列出現
頻度登録部と、文字列C_1C_2・・・C_nの出現
頻度に対する文字列C_1C_2・・・C_n_−_1
の出現頻度の比として、文字列C_1C_2・・・C_
n_−_1の次に文字C_nが現われる確率である前方
n文字連接確率を求める前方n文字連接確率導出部と、
文字列C_1C_2・・・C_nの出現頻度に対する文
字列C_2・・・C_nの出現頻度の比として、文字列
C_2・・・C_nの直前に文字C_1が現われる確率
である後方n文字連接確率を求める後方n文字連接確率
導出部と、上記n−1文字列出現頻度登録部と上記n文
字列出現頻度登録部より読み出した出現頻度から上記前
方n文字連接確率導出部で前方n文字連接確率を生成し
、上記n−1文字列出現頻度登録部と上記n文字列出現
頻度登録部より読み出した出現頻度から上記後方n文字
連接確率導出部で後方n文字連接確率を生成する手段を
備えたことを特徴とする文字連接確率辞書構成法。 - (2)文字連接確率を登録する辞書の構成法において、
文字列C_1C_2・・・C_k_−_1の次に文字C
_kが現われる確率である前方k文字連接確率を登録す
る前方k文字連接確率登録部(k=2、3、・・・、n
)と、文字C_1が出現する1文字出現確率を登録する
1文字出現確率登録部と、文字列C_2C_3・・・C
_iの直前に文字C_1が現われる確率である後方i文
字連接確率を導出する後方i文字連接確率導出部(i=
2、3、・・・、n)と、上記後方i文字連接確率導出
部は、前方r文字連接確率登録部(r=2、・・・、i
)より読み出した前方r文字連接確率と、1文字出現確
率登録部より読み出した1文字出現確率と、後方m文字
連接確率導出部(m=2、・・・、i−1)より導出し
た後方m文字連接確率とを用いて、後方i文字連接確率
を導出する手段を有することを特徴とする文字連接確率
辞書構成法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1240412A JPH03102465A (ja) | 1989-09-16 | 1989-09-16 | 文字連接確率辞書構成法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1240412A JPH03102465A (ja) | 1989-09-16 | 1989-09-16 | 文字連接確率辞書構成法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03102465A true JPH03102465A (ja) | 1991-04-26 |
Family
ID=17059087
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1240412A Pending JPH03102465A (ja) | 1989-09-16 | 1989-09-16 | 文字連接確率辞書構成法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03102465A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012533921A (ja) * | 2009-07-17 | 2012-12-27 | イーストソフト コーポレーション | データの圧縮方法 |
-
1989
- 1989-09-16 JP JP1240412A patent/JPH03102465A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012533921A (ja) * | 2009-07-17 | 2012-12-27 | イーストソフト コーポレーション | データの圧縮方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2000298667A (ja) | 構文情報による漢字変換装置 | |
| JP3565239B2 (ja) | 情報検索装置 | |
| JPS6262372B2 (ja) | ||
| JPH03102465A (ja) | 文字連接確率辞書構成法 | |
| JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
| JPH042254A (ja) | 文字入力用電話機システムおよび入力文字列とキーワードとの近似的一致方法 | |
| JPH0736878A (ja) | 同音異義語選択装置 | |
| JP3353769B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム記録媒体 | |
| JPH03168863A (ja) | 連接確率辞書構成法 | |
| JP4423369B2 (ja) | 漢字仮名交じり入力装置、漢字仮名交じり入力方法、ならびに、情報記録媒体 | |
| JPS6029884A (ja) | 単語の読取り方法 | |
| JP3048793B2 (ja) | 文字変換装置 | |
| JPH04270449A (ja) | 住所入力装置 | |
| JPH0554145B2 (ja) | ||
| JPS60178575A (ja) | 日本語処理装置 | |
| JP2628775B2 (ja) | 辞書作成装置 | |
| JPS60163161A (ja) | 辞書保守方式 | |
| JPH0375865A (ja) | かな漢字変換方法及び装置 | |
| JPH04349565A (ja) | かな漢字変換方法およびかな漢字変換装置 | |
| JPH03179550A (ja) | 仮名漢字変換装置 | |
| JPS6140662A (ja) | 同音語選択方式 | |
| JPH01205371A (ja) | 仮名漢字変換装置 | |
| JPS63163570A (ja) | 中文自動区切入力方式 | |
| JPS6140663A (ja) | 同音語選択方式 | |
| JPS62117064A (ja) | 漢字かな変換装置 |