JPH03102465A

JPH03102465A - 文字連接確率辞書構成法

Info

Publication number: JPH03102465A
Application number: JP1240412A
Authority: JP
Inventors: Koji Matsuoka; 浩司松岡; Jinichi Murakami; 村上　仁一
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1989-09-16
Filing date: 1989-09-16
Publication date: 1991-04-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、電子言１算機に入力された１二１本１ｔ｛文
竜の誤字や脱字を訂正するために、文字連接確率を記憶
する辞書の構成法に関するものである。〔従来技術〕ワードプロセッサや文字読み取り装置により日本語文章
を電子計算機に入力する際に、誤字や升｛１１字か混入
することがある。この入力誤りを自動的に検出し、訂正
する方法として、文章中の文字連接の出現頻度のばらつ
きに着目し、誤字の周辺の正しい文字と文字連接確率が
高い文字を訂正候補とする方法が用いられている。具体
的には、入力文章に誤字が存在する場合、誤字の前後の
文字列に接続しやすい訂正候補文字を献字位ｉｆＹ　１
Ｃ抑入ずる。この仮文字列の文字連接確率を算定し、こ
れに基づいて訂正候補を順位｛Ｊけ、上位の訂正候袖を
選択する。ここで、文字連接確率は、文字列の前後に現わ？る文字
の出現確率であり、次の前方ｎ文字連接確率と後方Ｔ】
文字連接確率がある。これらの文字連接確率は、入力誤
りのない大量の文章（原文テータ）に含まれるｒ１文字
列とｒ｝−　．１文？列の出現頻度から導出する。なお
、以下の式で文字列Ｓの出現頻度をＡ．．　（　Ｓ　）
とする。（１）前方Ｄ文字連接確率ｒｌ−ｊ文字列Ｃ　１Ｃ　，”　’　Ｃ　ｎ　−　１に
対して、次に文字Ｃｎが現われる前率である。Ｐｔ　（　Ｃ　ｎ　／　Ｃ　１．　Ｃ　２　・・・Ｃ　
ｎ−、）＝Ｃ１Ｃ２−　・Ｃｎの出現頻度／文字Ｃ。を
除いて同一であるＣ１Ｃ２・・・Ｃｎの出現頻度の総和
＝Ａ　（Ｃ１Ｃｉ．−−−Ｃｌ１）　／Ａ（Ｃ１Ｃ７・
・・Ｃｒｌ−，）・・・・・・〔１〕（２）後方ｎ文字
連接確率ｎ−１文字列Ｃ２・・・ｃｏに対して、直前に文字Ｃエ
が現われる確率である。Ｐｂ（Ｃ■／Ｃ２Ｃ３・・・Ｃ　ｎ）　＝　Ｃ　ｙ．　
Ｃ　，・・・Ｃｎの出現頻度／文字Ｃ■を除いて同一で
あるＣ　ｉＣ　，，・・・Ｃ。の出現頻度の総和＝Ａ（
Ｃ１Ｃ２・・・ｃｎ）　／Ａ．　（Ｃ２Ｃ３・・・ｃｎ
）　　・・・・・・・　〔２〕３？上の連接確率を登録する辞書が連接確率辞書である。第５図に従来の連接確率辞書の構成を示す。第５図において、１はｉ）ｈ方Ｔ１文字連接確串Ｉ〕ｆ
＜　ｃ　ｎ　／ｃ　１Ｃ　２　・・・ｃ　ｎ　−　］．
　）をイ５録ずる［１ラ方ｒ１文字連接確率部である。３はキ一部であり、ｎ文字列Ｃ１Ｃ２・・・Ｃｎを登録
する。４はデータ部であり、前方ｎ文字連接確率Ｐ　ｔ
　（Ｃ　．−ｌ／　Ｃ　，Ｃ　２・・・Ｃｎ−，）を登
録する。前力ｒ１文字連接補率Ｈｙｌ＋　１ではｎ文字
列０１Ｃ２・・・ｃｏとして登録した文字列ｆ．Ｉ：ｉ
〕，２，・・・，α）とその前方ｎ文字連接確率の組か
らなるレコー１・を登録し、文字列ｆ１に対する前方ｎ
文字連接確率を検索する。２は後方ｎ文字連接確率を登録する後方ｎ文字連接確率
部である。５はキ一部であり、Ｄ文字列ＣｉＣ７・・・
ｃｏを登録する。６はデータ部であり、後方ｎ文字連接
確率ｐ．（ｃ■／Ｃ２Ｃ３・・・ｃｎ）を登録する。２
では、Ｄ文字列Ｃ１Ｃ２・・・Ｃｏとして登録した文字
列ｂ　＋　（　１−１．．　！　２　＋・・・β）とそ
の１１１方ｎ文字連接確率の組からなるレコー１〜を登
録し、４一文字列ｂ，に対する後方文字連接確率を検索する。〔発明が解決しようとする課題〕従来の連接確率′ｆＲ書の構或では、前方ｎ文字連接確
率と後方ｎ文字連接確率を登録している。全ての文字の
種類の組合せからなるｎ文字列の文字連接確率を登録す
ると仮定すると、前方ｎ文字連接確率と後方ｎ文字連接
確率の個数はｊ（にｔ“（ｔは文字種数を表わす。日本
語ではｔ＝７０００程度である。）である。すなわち、
連接確率辞書のレコード数は２×ｔ゜である。したがっ
て、文字連接確率を登録するための連接確率辞書のファ
イル容量が大きくなるという問題があった。本発明の目的は、上記の問題点を解決して、連接確率辞
書に登録する文字連接確率の個数を削減する辞書の構或
方法を提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本
明細書の記述及び添付図面によって明らかになるであろ
う。〔課題を解決するための手段〕」二記の目的を達戒するために、請求項１の発明？、文
字連接確率を登録する辞書の構成法において、文字列Ｃ
１Ｃｉ・・・Ｃ０−１の出現頻度を登録するｎ−１文字
列出現頻度登録部と、文字列ｃ　１．　ｃ　２・・・Ｃ
ｒｌの出現頻度を登録するｎ文字列出］３１頻度登録部
と、文字列Ｃ１Ｃ２・・・Ｃｎの出現頻度に対する文字
列Ｃ１Ｃ２・・・ｃ　ｎ−ｔの出現頻度の比として，文
字列Ｃ■Ｃ２・・・Ｃｎ−，の次に文字Ｃ。が現われる
涌率である前方ｎ文字連接確率を求める前方ｎ文字連接
確率導出部と、文字列ＣｉＣ２・・・Ｃｎの出現頻度に
対ずる文字列Ｃｉ・・・Ｃｎの出現頻度の比として、文
字列Ｃ２・・・Ｏｎの直前に文字Ｃ１が現われる確率で
ある後方ｎ文字連接確率を求める後方ｎ文字連接確率導
出部と、上記ｎ−１文字列出現頻度登録部と上記ｎ文字
列出現頻度登録部より読み出した出現頻度から上記前方
Ｄ文字連接確率導出部で前方ｎ文字連接通率を生成し、
−１―記ｎ　−　．１文字列出現頻度登録部と上記ｎ文
字列出現頻度登録部より読み出した出現頻度から１二記
後方ｎ文字連接確率導出部で後方ｎ文字連接確率を生成
する手段を備えたことを最も主要な特徴とする。また、請求項２の発明は、文字連接確率を登録する辞書
の構戊法において、文字列ＣｉＣｉ，・・・Ｃｋ，の次
に文字Ｃｘ現われる確率である前方ｋ文字連接確率を登
録する１１方方ｋ文字連接確率登録部（ｋ　＝　２　．
３　，・”，ｎ）と、文字Ｃ、が出現する土文字出現確
Ｓ＄を登録する１文字出現確率登録部と、文字列Ｃ２Ｃ
３・・・Ｃｉの直前に文字Ｃｉが現われる確率である後
方１文字連接確率を導出する後方ｉ文字連接確率導出部
い＝２．３，・・・，ｎ）と、上記後方ユ文字連接確率
導出部は、前方ｒ文字連接確率登録部（ｒ＝２，・・・
＋ｉ）より読み出した鋪方ｒ文字連接確率と、１文字出
現確率登録部より読み出した１−文字出現確率と、後方
ｍ文字連接確率導出部（ｍ＝２，・・・，コ−−１−）
より導出した後方ｍ文字連接確率とを用いて、後方ｊ文
字連接確率を導出する手段を備えたことを最も主要な特
徴とする。〔作　用〕前述した手段によれば、文字連接確率辞書に登録する連
接Ｓ率の個数を小さくするための辞書構７成法として、出現頻度登録法あるいは連接確率登録法を
用いることにより、連接確率辞書に登録する文字連接確
率の個数を削滅ずることができる。〔発明の実施例〕以下、本発明の一実施例を図面を用いて具体的に説明す
る。なお、実施例を説明するための全図において、同−機能
を有するものは同一符号を付け、その繰り返しの説明は
省略する。本発明の文字連接確率辞書構成法の−実施例は、文字連
接確率辞害に登録する連接確率の個数を小さくするため
の辞書構成法として、出現頻度登録法あるいは連接確率
登録法を用いる。（１）出現頻度登録法第ｌ図は、本実施例の出現頻度登録法による連接確率辞
書の構或を示す図である。第１図において、１ｌはｎ−１文字列出現頻度登録部で
あり、ｎ−１文字列の出現頻度を登録する。１３はキ一部であり、ｎ−王文字列Ｃ　ｔ　Ｃ　，・・
・ＣＬＩ−１を登録する。ｌ４はデータ部であり、Ｃ１
Ｃ，・・・Ｃｎ８？の出現回数を登録する。ｎ−１文字列出現頻度登録部
１１てはｎ−１文字列Ｃ１Ｃ，・・・Ｃｎ−■として登
録したＴＪ，（ｉ＝１．２，・・・，γ）とその出現頻
度の組からなるレコー１へを豊録し、文′冫：列ｔＪ　
，に対する出現頻度を検索する。１２はｎ文字列出現頻度登録部であり、ｎ文字列の出現
回数を登録する。ｌ５はキ一部であり、Ｄ文字列Ｃ■Ｃ
２・・・Ｃｎを登録ずる。１６はデータ部であり、Ｃｉ
Ｃ２・・・Ｃ４の出現回数を登録する。ｎ文字列出現頻
度登録部１２てはｎ文字列ＣｉＣ２・・・Ｃｎとして登
録したＶ．（コ．＝１，２，・・・δ）とその出現頻度
の組からなるレコードを登録し、文字列Ｖ１に対する出
現頻度を検索する。１７は前方ｎ文字連接確率導出部であり、ｎ−１文字列
の出現頻度とＤ文字列の出現頻度から前述した〔１〕式
に基づいて、前方ｎ文字連接確率を導出し、出力端子１
９から出力する。１８は後方ｎ文字連接確率導出部であ
り、ｎ−１文字列の出現頻度とｎ文字列の出現頻度から
〔２〕式に基づいて、後方ｎ文字連接確率を導出し、出
力端了２０から出力する。すなわち、前記出現頻度登録法では、文字列Ｃ１Ｃ２・
・・Ｃｒｌに対して、文字列Ｉ１１文字列の出現頻度Ａ
　（Ｃ　ｉＣ　，，−−−　Ｃ　ｎ−。）を１１からあ
゛２ム出し、ｎ文字列の出現頻度Ａ（ＣｎＣ２”・Ｃｎ
−，．）をｎ文字列１Ｉｊ現頻度登録部１２から読み出
す。前方ｎ文字連接確率を前述の〔］〕式に基づいて前
方ｎ文字連接確率導出部ｌ７で導出し、出力端子１９か
ら出力する。同様に、後方ｎ文字連接確率を前述の〔２〕式に基づい
て後方Ｄ文字連接確率導出部１８で導出し、出力端子２
０から出力する。全ての文字の種類からなるｎ文字列の文字連接確率を登
録すると仮定すると、出現頻度登録法の連接確率辞書の
レコード数は、ｎ−１文字出現頻度登録部とｎ文字出現
頻度登録部のレコード数の合計であり、ｔ”一’　−１
−　ｔ　”個となる。一方、従来の連接確率辞書のレコ
ー１・数は、前方連接確率部と後方連接確率部のレコー
１・数の合計であり、２×ｔ・個となる。したがって、
本発明によれは連接確率辞書を小型化することができる
，，（２）連接確率登録法第２図は、本実施例の連接確率登録法による連接確率辞
書の構威を示す図である。第２図において、２１，　２２，　２３．　２４は、そ
れぞれ前方ｎ文字連接確率登録部、前方ｎ−１文字連接
確率登＠部、前方３文字連接確率登録部、前方２文字連
接確率登録部である。前方〕文字連接確率登録部（ｊ　
＝２．３・・・，ｎ）は、前方ｉ文字連接確率を登録す
る。２５は１文字出現確率登録部であり、１文字出現確率（
＝原文データの文字数に対する着目する文字の出現頻度
の比）を登録する。２６，　２７．　２８．　２９は、それぞれ後方ｎ文字
連接確率導出部、後方ｎ−１文字連接確率導出部、後方
３文字連接確率導出部、後方２文字連接確率導出部であ
る。１９″は前方ｎ文字連接確率の出力であり、２０′
は後方ｎ文字連接確率の出力である。後方ｉ文字連接確率導出部（ｉ＝２．３・・・，ｎ）が
後方ｊ文字連接確率を導出するに当たって、以下の〔９
〕式を用いる。この〔９〕式の導出方法１１− ？ついて、次に説明する。ｊ文字列Ｃ■Ｃ２・・・Ｃ１の出現確率ｐ（ｃ■Ｃ２・
・・Ｃ１）は、次の〔３〕式で表わされる。ｐ（ｃ■Ｃ２・・・Ｃｉ）＝Ｐｆ（Ｃｎ／Ｃ１Ｃｎ・・
・Ｃ１−■）Ｘｌ）（ＣｎＣ２・・・Ｃｎ−，）・・〔
３〕同様に、ｋ文字列ＣエＣ２・・・Ｃｋ（ｋ＝２．３
・・・，１−１）の出現確率ｐ（ｃ１ｃ，・・・Ｃｋ）
は、次の〔４〕式で表わされる。ｐ（ｃ１ｃ，，・・・Ｇ　Ｋ）　＝　Ｐ　ｔ　（　Ｃ　
Ｋ　／　Ｃ　，，　Ｃ　２・・・Ｃｋ−，）×Ｐ（０１
Ｃ２・・・Ｃｋ−１．）・・〔４〕前記〔３〕式に〔４
〕式を繰り返し代入することにより、次の〔５〕式が導
かれる。？（Ｃ１Ｃ２・・・Ｃ１）＝Ｐ（Ｃ■）×ｎＰ，（Ｃｋ
／Ｃ■Ｃ２・・・Ｃｋ−■）・・・〔５〕また、ｉ文字
列Ｃ　１．　Ｃ　２・・・Ｃｉの出現確率Ｐ（Ｃ■Ｃ２
・・・Ｃ＋）は、次の〔６〕式で表わされる。ｐ（ｃよＣ２・・・ＣＩ）＝Ｐｂ（Ｃ１／Ｃ２Ｃ３・・
・Ｃ＋．）ｘ　Ｐ　（　Ｃ　２Ｃ　：ｌ・・・Ｃｉ）・
・〔６〕同様に、ｍ文字列Ｃ　，−ｍ＋１Ｃ　＋−ｍ４
２　＋＋＋　Ｃ　１　（ｍ　＝＝２　１３−，ｉ−１）
の出現確率Ｐ　（Ｃ　ｒ　−ｍ＋＋　Ｃ　Ｉ−ｍ＋■’
　”　’Ｃ１）は、次の〔７）式で表わされる。１２Ｐ（Ｃｎ−ｍ４、Ｃ＋−ｍ＋ｚ”’Ｃｒ）”　ＰｂＣＣ
ｒ−ｍ＋，．／Ｃｒ−ｍ＋＋　Ｃ　ｒ　−１１１＋３　
”　”　Ｃ　Ｉ）Ｘ　Ｐ　（Ｃ＋．−ｍ＋，ｃ＋−ｍ＋
ａ”・Ｃ’＋）”　ｌ：７）〔６〕式に〔７〕式を繰り
返し代入することにより、次の〔８〕式が導かれる。？Ｃｎ−ｍ＋１／Ｃ■−ｍ＋２Ｃ　Ｉ−ｍ＋ａ・・・Ｃ
ｎ）・・・・・・・・　〔８〕前記〔５〕式と〔８〕式より次の〔９〕式が導かれる。Ｐ．（Ｃ■／　Ｃ　２　Ｃ　３・・・ｃ　ｒ　）？（ｃ
■）　×”ｎ　Ｐ　１　（　Ｃ　Ｋ／　Ｃ　，Ｃ　２・
・・Ｃｋ．．、）／Ｐ　（Ｃ　，）Ｘ　ＲｌＰｂ（ｃ　
＋−，７ｃ　１−１１１＋２　Ｃ　ｌ−＋ｎ＋３−・−
Ｃ　Ｉ）ｍｍ２・・・・・・・・・　〔９〕〔９〕式に基づいて，前方ｋ文字連接確率登録部（ｋ＝
２．３・・・，１）から読み出した前方ｋ文字連接確率
Ｐ　１　（　Ｃ　ｘ　／　Ｃ　ｘ　Ｃ　２・・・Ｃｋ−
■）と、１文字出現確率登録部から読み出したｐ（ｃエ
）、ｐ（ｃ＋）と後方ｍ文字連接確率登録部（ｍ＝２．
３・・・，ｉ−１）？ら読み出した後方ｒｎ文字連接確
率Ｐ　．　（Ｃ　．　−ｍ．，７Ｇ　，　−ｍ＋２　Ｃ
　Ｉ■−ｍ＋３・・・ｃ，）とを用いて、後方コ文字連
接確率導出部は後方１文字連接確率を求める。この連接確率登録法では、前方ｎ文字連接確率、前方ｎ
　−　１文字連接確率、前方２文字連接確率、１−文字
出現確率を各々前方ｎ文字連接確率登録部２１，前方ｎ
　−　１文字連接確率登録部２２．前方３文字連接確率
登録部２３，前方２文字連接確率登録部２４，１文字出
現確率登録部２５から読み出す。また、後方ｎ文字連接確率、後方ｎ−１文字連接確率、
後方３文字連接確率、後方２文字連接確率を前述の〔９
〕式に基づいて、各々後方Ｄ文字連接確率導出部２６，
後方ｎ−１文字連接確率導出部２７，後方３文字連接確
率導出部２８，後方２文字連接確率導出部２９で導出す
る。前方ｎ文字連接確率を前方ｎ文字連接確率登録部２
工で導出し、出力端子ｌ９で出力する。後方ｎ文字連接
確率を後方ｎ文字連接確率導出部２６で導出し，出力端
子２０で出力する。上記の仮定のもとで、前方１文字連接確率辞書（ｉ−２
　．　３　，”・，ｎ）のレコード数はｔＩであり、１
文字出現確率辞書のレコー１〜数はｔである。したがっ
て連接確率辞書のレコード数はｔ　ｌＩ＋　ｔｌ１’＋−−−＋　ｔ　＝（ｔ　ｎ＋”
−ｔ）／（ｔ−１）となる。従来の連接確率辞書のレコ
ード数は上記で述べたように２×ｔ″個であるから、本
発明によれば連接確率辞書を小型化することができる。なお、連接確率登録法は、出現頻度登録法に比較してレ
コード数が大きくなるが、後方ｎ文字連接確率の他に後
方ｍ文字連接確率（ｍ＝２．３，・・・，ｎ−１）を同
時に導出できる利点がある。次に、出現頻度登録法による連接確率辞書の具体例につ
いて説明する。第３図は、本発明の出現頻度登録法による連接確率辞書
の一実施例の概略構成を示す図である。本実施例においては、説明を簡単にするために、文字の
種類ｔを２（「会Ｊ、「議Ｊの２種）とし、文字連接確
率の次数ｎを２とする（前方２文字連接確率、後方２文
字連接確率を求める）。第３図において、３ｌは１文字出現頻度登録部で１５あり、１文字列「会」、「議」に対する各々の出現頻度
Ａ（会）＝２０、Ａ（議）＝８０を登録する。３２は２
文字出現頻度登録部であり、２文字列「会会」、「会議
」、「議会」、「＠＠Ｊに対ずる出現頻度Ａ（会会）＝
２、Ａ（会議）＝１６、Ａ（議会）＝８、Ａ（議議）＝
４を登録する。３３は前方２文字連接確率導出部である
。３４は後方２文字連接確率導出部である。３５．　３
６は各々前方２文字連接確率導出部３３の出力端子と後
方２文字連接確率導出部３４の出力端子である。例えば
、前方２文字連接確率ｐｔ（会／議）を次のように導出
し、出力端末３５から出力する。また、前方２文字連接確ＩＰ．（会／議）を次のように
導出し、出力端子３６から出力する。従来の連接確率辞
書のレコード数は２Ｘｔ’＝８であるのに対して、出現
頻度登録法ではｔ′一“＋１；”＝６である。したがって、連接確率辞書のレコード数を小さ１６くできる。第４図は、本発明の連接確率登録法による連接確率辞書
の一実施例の概略構或を示す図である。」二記と同様にｔ＝２、ｎ＝２とする。２４は前方２文字連接確率登録部であり、２文字列「会
会」、「会議」、「議会」、「議議」に対する各々の前
方の２文字連接確率Ｐｆ（会／会）＝０．１．Ｐｆ（議
／会）＝０．８、Ｐｆ（会／議）＝０．１、ｐｚ（議／
議）＝０．０５を登録する。２５は１文字出現確率登録部であり、『会Ｊ、「議」に
対する各々の１文字出現確率Ｐ（会）＝０．２、Ｐ（議
）＝０．８を登録する。２９は後方２文字連接確率導出
部である。３７は前方２文字連接確率登録部Ｚ４の出力
端子であり、３８は後方２文字連接確率登録部２９の出
力端子である。前方２文字連接確率は、前方２文字連接
確率登録部２４で読み出し、出力端子３７で出力する。後方２文字連接確率は後方２文字連接確率導出部２９で
導出し、出力端子３８で出力する。例えは、ｐ．（会／
議）は後方２文字連接確率導出部２９で次のように導出
する。＝０．２　　　　　　・　・　・　・　・　〔１　２〕
出現頻度登録法のコード数は、（１”＋１−ｔ）／（ｔ
−１）＝６である。したがって、従来の連接＠率辞書に比較して、連接確率
辞書のレコード数を小さくできる。このように、」二記
の実施例では前方２文字連接確率を登録することにより
、後方２文字連接確率は登録せずとも計算できる。同様
に、逆に後方２文字連接確率を登録することにより、前
方２文字連接確率を計算する構或とすることもできる。本発明は、日本語文意に含まれる誤字に対する訂正候補
文字の絞り込みに応用することかできる。以上、本発明を実施例にもとづき具体的に説明したが、
本発明は、前記実施例に限定されるものではなく、その
要旨を逸脱しない範囲において種々変更可能であること
は３うまでもない。〔発明の効果〕以上、説明したように、本発明によれば、登録すべき文
字連接確率辞書のレコー１へ数を小さくすることができ
るので、文字連接確率辞書を小型化することができる。

【図面の簡単な説明】

第１図は、本実施例の出現頻度登録法による連接確率辞
書の構或を示す図、第２図は、本実施例の連接確率登録法による連接確率辞
書の構成を示す図、第３図は，本発明の出現頻度登録法による連接確率辞書
の−実施例の概酩構成を示す図、第４図は、本発明の連
接′ｌｆ９率登録法による連接確率辞書の一実施例の概
略構或を示す図、第５図は、従来の連接確率胛書の問題
点を説明するための図である。図中、１・前方ｎ文字連接確率登録部、２・後方ｎ文字
連接確率！ｆ録部、３・キ一部、４　データ部、５　キ
一部、６　・データ部、１１・・−ｎ−１文字列出現頻
度登録部、１２・・・ｎ文字列出現頻度登録１９部、１３・キ一部、１４　　データ部、１５・キ一部、
１６データ部、ｌ７・・前方ｎ文字連接確率導出部、ｌ
８・・後方Ｄ文字連接確率導出部、１９　　前方ｎ文字
連接確率導出部の出力端子、２０・後方Ｄ文字連接確率
導出部の出力端子、１９’　　前方ｎ文字連接確率の出
力、２０′・・後方ｎ文字連接柁率の出力、２１前方ｎ
文字連接確率登録部、２２・前方ｎ　−　１文字連接確
率登録部、２３　　前方３文字連接確率登録部、２４・
前方２文字連接確率登録部、２５１，文字出現確率登録
部、２６・・後方Ｄ文字連接確率導出部、２７後方ｎ−
１文字連接確率導出部、２８　　後方３文字連接確率導
出部、２９・後方２文字連接ａ率導出部、３１・・１文
字出現頻度登録部、３２　２文字出現頻度登録部、３３
・・前方２文字連接補′率導出部、３４・後方２文字連
接確率導出部、３５　　前方２文字連接確率導出部の出
力端子、３６・後方２文字連接確率導出部の出力端子、
３７　　前方２文字連接確率登録部の出力端子、３８・
・後方２文字連接桶−率登録部の出力端子。２０

Claims

【特許請求の範囲】

（１）文字連接確率を登録する辞書の構成法において、
文字列Ｃ＿１Ｃ＿２・・・Ｃ＿ｎ＿−＿１の出現頻度を
登録するｎ−１文字列出現頻度登録部と、文字列Ｃ＿１
Ｃ＿２・・・Ｃ＿ｎの出現頻度を登録するｎ文字列出現
頻度登録部と、文字列Ｃ＿１Ｃ＿２・・・Ｃ＿ｎの出現
頻度に対する文字列Ｃ＿１Ｃ＿２・・・Ｃ＿ｎ＿−＿１
の出現頻度の比として、文字列Ｃ＿１Ｃ＿２・・・Ｃ＿
ｎ＿−＿１の次に文字Ｃ＿ｎが現われる確率である前方
ｎ文字連接確率を求める前方ｎ文字連接確率導出部と、
文字列Ｃ＿１Ｃ＿２・・・Ｃ＿ｎの出現頻度に対する文
字列Ｃ＿２・・・Ｃ＿ｎの出現頻度の比として、文字列
Ｃ＿２・・・Ｃ＿ｎの直前に文字Ｃ＿１が現われる確率
である後方ｎ文字連接確率を求める後方ｎ文字連接確率
導出部と、上記ｎ−１文字列出現頻度登録部と上記ｎ文
字列出現頻度登録部より読み出した出現頻度から上記前
方ｎ文字連接確率導出部で前方ｎ文字連接確率を生成し
、上記ｎ−１文字列出現頻度登録部と上記ｎ文字列出現
頻度登録部より読み出した出現頻度から上記後方ｎ文字
連接確率導出部で後方ｎ文字連接確率を生成する手段を
備えたことを特徴とする文字連接確率辞書構成法。
（２）文字連接確率を登録する辞書の構成法において、
文字列Ｃ＿１Ｃ＿２・・・Ｃ＿ｋ＿−＿１の次に文字Ｃ
＿ｋが現われる確率である前方ｋ文字連接確率を登録す
る前方ｋ文字連接確率登録部（ｋ＝２、３、・・・、ｎ
）と、文字Ｃ＿１が出現する１文字出現確率を登録する
１文字出現確率登録部と、文字列Ｃ＿２Ｃ＿３・・・Ｃ
＿ｉの直前に文字Ｃ＿１が現われる確率である後方ｉ文
字連接確率を導出する後方ｉ文字連接確率導出部（ｉ＝
２、３、・・・、ｎ）と、上記後方ｉ文字連接確率導出
部は、前方ｒ文字連接確率登録部（ｒ＝２、・・・、ｉ
）より読み出した前方ｒ文字連接確率と、１文字出現確
率登録部より読み出した１文字出現確率と、後方ｍ文字
連接確率導出部（ｍ＝２、・・・、ｉ−１）より導出し
た後方ｍ文字連接確率とを用いて、後方ｉ文字連接確率
を導出する手段を有することを特徴とする文字連接確率
辞書構成法。