JPH10207889A - 文書校正装置 - Google Patents

文書校正装置

Info

Publication number
JPH10207889A
JPH10207889A JP9006588A JP658897A JPH10207889A JP H10207889 A JPH10207889 A JP H10207889A JP 9006588 A JP9006588 A JP 9006588A JP 658897 A JP658897 A JP 658897A JP H10207889 A JPH10207889 A JP H10207889A
Authority
JP
Japan
Prior art keywords
error
word
unit
candidate
correct answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9006588A
Other languages
English (en)
Other versions
JP3856515B2 (ja
Inventor
Jun Ibuki
潤 伊吹
Kunio Matsui
くにお 松井
Akira Adachi
顕 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP00658897A priority Critical patent/JP3856515B2/ja
Publication of JPH10207889A publication Critical patent/JPH10207889A/ja
Application granted granted Critical
Publication of JP3856515B2 publication Critical patent/JP3856515B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書校正装置において、誤り部分(誤りの可
能性のある部分)に対する正解候補の過剰指摘を減らす
ようにすること。 【解決手段】 形態素解析部100はテキストを単語列
に変換する。誤り部分検出部200は、単語列の中から
誤り部分を検出する。正解候補展開部300は、誤り部
分に対応する正解候補群を生成する。正解候補検証部4
00は、正解候補群の中から本当に正解候補らしいもの
を選び出し、選び出された正解候補から成る検証ずみ正
解候補群を出力する。正解候補検証部400は、符号4
10〜440の部分から構成されている。正解確率付与
部410は、単語生起確率データベース440を参照し
て、各正確候補に対して生起確率を付与する。誤り確率
計算部420は、生起確率に基づいて正解候補の誤り確
率を計算する。誤り候補選択部430は、各正解候補の
誤り確率に基づいて、正解候補の絞り込みを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文章処理装置にお
いてユーザが入力した又は電子的な媒体として獲得した
文書データに対して、ユーザが文書を校正する作業を軽
減し、文書校正の効率を大幅に向上させる文書校正装置
に関するものである。
【0002】
【従来の技術】従来の誤り指摘技術としては、 形態素解析をして結果中の未登録語部分を指摘する
もの。 同音異義語のある単語を指摘するもの。 などが先ず挙げられる。
【0003】未登録語を指摘する機能の場合、誤った綴
の単語があれば、未登録語となる確率が高いため、未登
録語部分の周辺に誤った綴の単語がある可能性がある。
同様に、同音異義語の存在する単語箇所は、仮名漢字変
換のときに操作誤りをし易い箇所として指摘される。ユ
ーザは、その中で自分で正誤の判断を一つ一つのケース
に対して下すことになる。
【0004】他の手段としては、形態素解析の後に、特
定の単語列が検出された場合に誤りと認定して指摘する
ものがある。例えば、名詞+動詞と言う品詞列をチェッ
クする又は一文字の漢字単語があった場合に誤りとする
等である。他にも片仮名/漢字文字列を発音順に並べ、
同じ単語の僅かな表記の揺れのある単語が隣に来るよう
にして、表記の揺れを検出し易くしたものがある。
【0005】更に、新たに誤りの候補を検出した後で、
誤りの内容を推定した仮説を複数作り出し、複合語等と
のマッチング等の手段で仮説の検定を行い、生き残った
尤もらしい仮説のみを提示するシステムも存在する。
【0006】
【発明が解決しようとする課題】未登録語,同音異義語
の存在する単語の指摘機能等は誤りと断定できないが、
誤りが存在する可能性がある所を指摘するわけである。
しかし、未登録語の指摘に関して言うと、未登録語の生
まれる原因としては、綴誤り以外にも固有名詞などが辞
書中に存在しないと言った本来の未登録語の存在も挙げ
られる。同音異義語の存在する単語の指摘についても、
誤りが多いと言うだけでは必ず誤っている箇所と言うわ
けではない。このため、上記の方法については、指摘さ
れたものが全て本当の誤りではない(過剰指摘が多い)
ということが一番問題になる。
【0007】特定の品詞列によって誤りを発見する方法
では、扱う誤りの対象が非常に限定されたものとなり、
文章中の誤りの多くは検出されないと言う問題を持つ。
また、片仮名語句や漢字語句をソートしてユーザに示す
方法は、ユーザ自身でするべき作業が大きく、校正作業
の能率が余り改善されないと言う問題点があった。
【0008】さらに、仮説を生成して検定によって確か
らしいものだけを残す方法においては、生成された各々
の仮説に対して正しい評価を与えることが重要になる。
この場合は、本来の未登録語が辞書に載っていないと言
うだけで指摘されると言う問題はないが、評価の揺れが
問題になる。例えば、テキスト中の原表記に対応する単
語が辞書中に無かった場合は他の仮説に比べて相対的な
評価が低くなり、対象部分が正しい場合にも指摘してし
まう可能性がある。
【0009】一般の文書校正支援システムでは、誤り指
摘の精度を高くしようとすれば対象とする誤りの種類を
絞らざるを得ず、また可能な限り多くの誤りを指摘しよ
うとすれば指摘中に本来の誤りでない部分に対する指摘
(過剰指摘)が多く混じってしまう。これに対応するた
めに、入力テキストに存在する表記誤りの可能性を広く
考慮して多くのもとの正しい綴りの候補を生成する部分
(正解候補展開)と,それを辞書の内容とのマッチング
によって検証する部分(正解語探索)を独立させた文書
校正支援システムを本出願人は既に提案したが、検証能
力が弱く、未だに多くの過剰指摘が残っている。本発明
は、これらの点に鑑みて創作されたものであって、統計
的なデータや辞書情報を利用して、正解候補の展開時に
生成される正解候補の誤り確率(正解候補が誤って誤り
部分の単語または単語列になる確率)を求めるようにな
った文書校正装置を提供することを目的としている。
【0010】
【課題を解決するための手段】請求項1の文書校正装置
は、入力されたテキストを単語列に変換する形態素解析
部と、形態素解析の結果得られた単語列の中から誤り可
能性部分を抽出する誤り部分検出部と、誤り部分抽出部
によって抽出された誤り可能性部分に対して正解候補を
生成する正解候補展開部と、正解候補展開部の展開の結
果得られた1個または複数個の正解候補のそれぞれに対
して検証を行って確からしい正解候補のみに絞り込む正
解候補検証部とを具備する文書校正装置であって、正解
候補検証部が、単語又は単語列の生起確率に関するデー
タベースと、上記データベースを参照して、正解候補の
誤り確率を計算するために必要とされる単語又は単語列
の生起確率を出力する生起確率付与部と、生起確率付与
部から出力される単語又は単語列の生起確率に基づい
て、各正解候補の確からしさの検定を行い、各正解候補
に対して誤り確率を付与する誤り確率計算部と、誤り確
率計算部によって各正解候補に付与された誤り確率を参
照して、所定の閾値以上の正解候補を選択する誤り候補
選択部とを具備することを特徴とするものである。
【0011】請求項2の文書校正装置は、請求項1の文
書校正装置において、誤り確率計算部が、テキスト中に
存在する誤り可能性部分の生起確率と正解候補の生起確
率との比によって誤り確率を計算することを特徴とする
ものである。
【0012】請求項3の文書校正装置は、請求項1の文
書校正装置において、誤り確率計算部が、各正解候補の
単語が単独に生起する生起確率とテキスト中の文脈にお
ける単語列としての生起確率との比を参照して、各正解
候補に対する誤り確率を計算することを特徴とするもの
である。
【0013】請求項4の文書校正装置は、請求項1の文
書校正装置において、誤り確率計算部が、各正解候補が
テスト対象の単語群と共起する共起確率を計算し、計算
の結果得られた共起確率のパターンと,テキスト中の誤
り可能性部分が上記テスト対象の単語群と共起する共起
確率のパターンとの類似度によって誤り確率を計算する
ことを特徴とするものである。
【0014】請求項5の文書校正装置は、請求項1の文
書校正装置において、生起確率付与部が、展開される群
内での優先度情報を持つ展開群内優先度情報付き単語辞
書と、入力される単語又は単語列に対応する上記単語辞
書の群内における優先度情報に基づいて、上記単語又は
単語列に対する生起確率を計算する相対生起確率計算部
とを具備することを特徴とするものである。
【0015】請求項6の文書校正装置は、請求項1,請
求項2,請求項3,請求項4または請求項5の文書校正
装置において、正解候補展開部が、読み付き単語辞書
と、読み付き単語辞書を参照して、誤り可能性部分の単
語の読みを抽出する読み抽出部と、読み抽出部によって
抽出された単語の読みと同一の読みを持つ他の単語を読
み付き単語辞書から抽出し、抽出した単語を正解候補と
して出力する同音語抽出部とを具備することを特徴とす
るものである。
【0016】請求項7の文書校正装置は、請求項1,請
求項2,請求項3,請求項4または請求項5の文書校正
装置において、正解候補展開部が、誤り表記,これに対
応する正解候補および制約条件を持つ展開データが複数
個記述された展開データベースと、誤り可能性部分に適
合する展開データベース中の展開データを用いて、誤り
可能性部分を正解候補に展開する展開部と、展開部から
出力される正解候補が当該正解候補に対する制約条件を
満たしているか否かを調査し、制約条件に合致する正解
候補だけを残す条件検査部とを具備することを特徴とす
るものである。
【0017】請求項8の文書校正装置は、請求項1,請
求項2,請求項3,請求項4または請求項5の文書校正
装置において、正解候補展開部が、複数の日本語入力手
段のそれぞれに対応する,誤り可能性部分を正解候補に
展開するための展開データベースの複数個と、テキスト
を作成した際の日本語入力手段を特定する情報に基づい
て、参照先の展開データベースを選択する参照先制御部
と、選択された参照先の展開データベースを参照して、
誤り可能性部分を正解候補に展開する展開処理部とを具
備することを特徴とするものである。
【0018】請求項9の文書校正装置は、複数の展開デ
ータを持ち、最初に校正対象のテキストの一部に対して
各々の展開データによる訂正を行い、その結果最も評価
値が高い展開データを利用してテキスト全体の校正を行
うことを特徴とするものである。
【0019】請求項1ないし請求項7の文書校正装置に
よれば、正解候補を過剰に指摘すると言うことを無くす
ことが出来る。また、請求項8および請求項9の文書校
正装置によれば、校正対象のテキストに適合した展開デ
ータを使用することが可能になる。
【0020】
【発明の実施の形態】図1は本発明の文書校正装置の構
成例を示す図である。同図においては、100は形態素
解析部、200は誤り検出部、300は正解候補展開
部、400は正解候補検証部、410は生起確率付与
部、420は誤り確率計算部、430は誤り候補選択部
をそれぞれ示している。
【0021】図1(a) は本発明の文書校正装置の概要を
示す図である。形態素解析部100は、入力テキストを
単語列に分解し、得られた単語列を誤り部分検出部20
0に渡す。誤り部分検出部200は、受け取った単語列
から誤り部分(誤りの可能性のある部分)を検出し、誤
り部分を正解候補展開部300に渡す。正解候補展開部
300では、誤りの種類を推定して、誤り部分に対応す
る正しい単語又は単語列の候補(正解候補)を生成す
る。正解候補検証部400は、各正解候補を検証して、
正解度の高い正解候補を選択する。なお、本発明の文書
校正装置は、実際には計算機とソフトウェアによって実
現されている。
【0022】図1(b) は正解候補検証部の構成例を示す
図である。正解候補検証部400は、生起確率付与部4
10,誤り確率計算部420,誤り候補選択部430,
単語生起確率データベース440を有している。生起確
率付与部410は、単語単体や単語列の生起確率に関す
るデータベース440(単語生起確率データベース)を
参照して、正解候補の誤り確率を計算するために必要と
なる単語または単語列(正解候補や誤り部分の単語等)
の生起確率を出力する。単語や単語列の生起確率とは、
テキストやコーパス(文例集)の中で、単語または単語
列を任意に選択した場合に、それが指定された単語又は
単語列である確率を意味している。単語生起確率データ
ベースとは、 単語 生起確率 安全 0.001 保証 0.002 保障 0.001 歩しょう 0.0005 アーク 0.001 のように、単語又は単語列と生起確率の対を複数個記憶
するものである。
【0023】誤り確率計算部420は、生起確率付与部
410から出力される単語または単語列の生起確率をも
とにして、正解候補の誤り確率を計算する。誤り確率と
は、正解候補の単語又は単語列が誤って誤り部分の単語
又は単語列になる確率を意味している。誤り候補選択部
430は、誤り確率計算部420から渡された誤り確率
に基づいて、正解候補展開部300から出力される正解
候補群の中から正解候補に相応しいものを選び出す。
【0024】図2は誤り確率計算部における誤り確率計
算の第1の例を説明するための図である。図示の例で
は、原テキストが「松本斎藤両名の努力が実を結ぶ」と
なっている。誤り検出部200によって、誤り部分とし
て「松本」と「斎藤」が検出されたと仮定する。正解候
補展開部300は、同音異義語誤りと推定して、誤り部
分「松本」に対応して正解候補「松元」を生成し、誤り
部分「斎藤」に対応して正解候補「斉藤」を生成する。
生起確率付与部410は、単語生起確率データベース4
40を参照して、誤り部分「松本」に対して同音グルー
プ内での生起確率=0.1を付与し、正解候補「松元」
に対して同音グループ内での生起確率=0.02を付与
すると共に、誤り部分「斎藤」に対して同音グループ内
での生起確率=0.2を付与し、正解候補「斉藤」に対
して同音グループ内での生起確率=0.2を付与する。
【0025】誤り確率計算部420は、例えば 誤り確率=0.01×誤り先の生起確率/誤り元生起確率 …… (1) なる式によって正解候補の誤り確率を計算する。(1) 式
に誤り部分「松本」の生起確率=0.1,正解候補「松
元」の生起確率=0.02を代入すると、「松元」の誤
り確率=0.5となる。同様に、上式に誤り部分「斎
藤」の生起確率=0.2,正解候補「斉藤」の生起確率
=0.2を代入すると、「斉藤」の誤り確率=0.1と
なる。
【0026】図3は誤り確率計算部における誤り確率計
算の第2の例を説明するための図である。図示の例で
は、原テキストが「安全保障に関する話題」となってい
る。誤り検出部200によって、誤り部分として「保
証」が検出されたと仮定する。正解候補展開部300
は、同音異義語誤りと推定して、誤り部分「保証」に対
応して正解候補「保障」,「補償」を生成する。生起確
率付与部410は、単語生起確率データベース440を
参照して、誤り部分「保証」に対して同音グループ内で
の生起確率=0.2を付与し、正解候補「保障」に対し
て同音グループ内での生起確率=0.1を付与し、正解
候補「補償」に対して同音グループ内での生起確率=
0.1を付与する。また、生起確率付与部410は、文
脈における単語列「安全保障」に対して生起確率=0.
02を付与し、「安全保証」に対して生起確率=0.0
01を付与し、「安全補償」に対して生起確率=0.0
01を付与する。
【0027】誤り確率計算部420は、 正解候補の誤り確率=文脈内生起確率/単独生起確率 …… (2) なる式によって、正解候補の誤り確率を計算する。(2)
式に「保証」,「保障」,「補償」,「安全保障」,
「安全保証」,「安全補償」の生起確率を代入すると、 「保障」の誤り確率=0.02/0.1=0.2 「保証」の誤り確率=0.001/0.2=0.005 「補償」の誤り確率=0.001/0.1=0.01 誤り候補選択部430は、誤り確率が最も大きい「保
障」を検証済み正解候補として出力する。
【0028】図4は誤り確率計算部における誤り確率計
算の第3の例を説明するための図である。図示の例で
は、原テキストが「服を換える」となっている。誤り検
出部200によって、誤り部分として「換える」が検出
されたと仮定する。正解候補展開部300は、同音異義
語誤りと推定して、誤り部分「換える」に対応して正解
候補「替える」,「買える」を生成する。
【0029】生起確率付与部410は、単語生起確率デ
ータベース440から誤り部分「換える」と助詞
「に」,「が」の共起パターンを取出し、正解候補「替
える」と助詞「に」,「が」の共起パターンを取出し、
正解候補「買える」と助詞「に」,「が」の共起パター
ンを取り出す。図示の例では、共起パターンは、 共起パターン に が 換える ○ ○ 替える ○ ○ 買える × ○ となっている。
【0030】誤り確率計算部420は、誤り部分の単語
の共起パターンと,正解候補の単語の共起パターンとを
比較し、比較結果に基づいて正解候補の誤り確率を算出
する。図示の例においては、誤り部分の単語「換える」
の共起パターンと正解候補の単語「替える」の共起パタ
ーンは同じであるので、「替える」の誤り確率は高くさ
れる。また、誤り部分の単語「換える」の共起パターン
と正解候補の単語「買える」の共起パターンは異なるの
で、「買える」の誤り確率は低くされる。
【0031】図5は本発明の生起確率付与部の構成例を
示す図である。同図において、411は相対生起確率計
算部、412は生起確率書込み部、441は展開群内優
先度情報付き単語辞書をそれぞれ示している。
【0032】展開群内優先度情報付き単語辞書441と
は、ワープロの仮名漢字辞書のように、同音の群(これ
を展開群とする)の中で変換キーを押した時に最初に選
択される単語から単語が順に並べてあるものである。例
えば、「ほしょう」と言う展開群には、「保証」,「保
障」,「補償」,「歩しょう」と言う単語が記述されて
いる。この例であると、「保証」の生起確率>「保障」
の生起確率>「補償」の生起確率>「歩しょう」の生起
確率となる。例えば、展開群内の第n番目の単語と第n
−1番目の単語との間に0.001の生起確率の差があ
ると仮定すれば、相対的な生起確率が判る。
【0033】相対生起確率計算部411には正解候補や
正解候補の誤り確率に関係する単語(又は単語列)が入
力される。相対生起確率計算部411は、展開群内優先
度情報付き単語辞書441を参照しながら、入力された
単語又は単語列の相対的な生起確率を計算する。生起確
率書込み部412は、相対生起確率計算部411に入力
された単語又は単語列に対して、相対的な生起確率を付
加するものである。
【0034】図6は本発明の正解候補展開部の第1の構
成例を示す図である。同図において、311は読み抽出
部、312は同音語抽出部、313は読み付き単語表記
辞書をそれぞれ示している。
【0035】読み付き単語表記辞書313には、 安全 あんぜん 保証 ほしょう 候補 こうほ というように、単語(又は単語列)と読みの対が複数個
格納されている。
【0036】読み抽出部311には、誤り部分が入力さ
れる。読み抽出部311は、入力された誤り部分の表記
をキーとして読み付き単語表記辞書313を検索し、誤
り部分の読みを抽出する。抽出された読みは、同音語抽
出部312に渡される。同音語抽出部312は、渡され
た読みをキーとして読み付き単語表記辞書313を検索
し、同音異義語を抽出する。抽出された同音異義語は正
解候補として出力される。
【0037】図7は本発明の正解候補展開部の第2の構
成例を示す図である。同図において、321は展開部、
322は条件検査部、323は展開データベースをそれ
ぞれ示している。
【0038】展開データベースとは、或る表記があり、
それが誤りだと仮定したときに元の正しい表記の候補
(正解候補)が書かれたものである。展開データベース
は おう→おお ず→づ づ→ず 保証→保障,補償 エイ→ エー というような展開データを格納している。例えば、「お
う→おお」という展開データの中で左側が誤り部分に対
応し、右側が正解候補に対応する。その他の展開データ
についても同じである。例えば、「むづかしい」という
単語があれば、「づ→ず」と言う展開データを利用し
て、「むずかしい」という正解候補を生成することが出
来る。
【0039】展開データ中の正解候補は、自分自身,前
後の品詞,表記に関する制約条件を記述できるフォーマ
ットを持っている。例えば、展開データが 生→性(単語列の最後に来たときのみ有効) と言うものであれば、誤り部分「有効生」に対応して
「有効性」と言う正解候補を生成することが出来る。
【0040】展開部321には、誤り部分が入力され
る。展開部321は、展開データベース323を参照し
て、入力された誤り部分に対応する正解候補群を生成
し、この正解候補群を第1の正解候補群として出力す
る。第1の正解候補群は、条件検査部322に入力され
る。条件検査部322は、第1の正解候補群に属する正
解候補のそれぞれに付加されている制約条件を検査し、
制約条件に合致した正解候補の集まりのみを第2の正解
候補群として出力する。
【0041】図8は本発明の正解候補展開部の第3の構
成例を示す図である。同図において、331は展開処理
部、332は参照先制御部、333ないし335は展開
データベースをそれぞれ示している。
【0042】日本語入力手段としては、例えばOAKと
か,ATOKとか,MS−IMEとかが知られている。
例えば、展開データベース333はOAKに対応してお
り、展開データベース334はATOKに対応してお
り、展開データベース335はMS−IMEに対応して
いる。
【0043】参照先制御部332は、日本語入力手段に
関する設定情報を計算機のオペレーティング・システム
又は文書の付加情報から収集して、それに最も適切な展
開データベースを選択する。展開処理部331は、選択
した展開データベースを参照して、入力された誤り部分
に対応する正解候補を生成する。
【0044】図9は本発明の文書校正装置の他の構成例
を示す図である。同図において、501ないし503は
誤り訂正部、504は訂正性能比較評価部、505は選
択部、506はテキスト全体に対する訂正処理部をそれ
ぞれ示している。
【0045】誤り訂正部501〜503のそれぞれは、
図1(a) に示すような構成を有している。しかし、各誤
り訂正部で使用される展開データや制約条件などは、互
いに相違している。第1の誤り訂正部501,第2の誤
り訂正部502,第3の誤り訂正部503には、テキス
トの一部が入力される。訂正性能比較評価部504は、
自動的に又はユーザとの対話によって、各誤り訂正部に
よる訂正結果の相違部分を検出し、何が正しいかを評価
する。選択部505は、訂正性能比較評価部504の評
価結果に基づいて、最も訂正性能の良好な誤り訂正部を
選択する。選択された誤り訂正部を使用して、テキスト
全体に対する訂正処理が行われる。
【0046】
【発明の効果】以上説明したように、本発明によれば、
正解候補をユーザに提示する又は次の検証のための仮説
として利用する際にも、全てを提示するのではなく、誤
り確率の高いものだけを示す又は誤り確率の高いものか
ら低いものへソートして順に提示する等の手段によっ
て、訂正率の改善やユーザの行う校正作業をより効率化
することが可能である。また、入力手段やユーザの癖な
どによる生起確率のバリエーションに対して、仮名漢字
変換辞書からのデータ抽出,展開種別の調整によって常
に最適な誤りの適合率と再現率を実現することが可能と
なる。
【図面の簡単な説明】
【図1】本発明の文書校正装置の構成例を示す図であ
る。
【図2】誤り確率計算部における誤り確率計算の第1の
例を示す図である。
【図3】誤り確率計算部における誤り確率計算の第2の
例を示す図である。
【図4】誤り確率計算部における誤り確率計算の第3の
例を示す図である。
【図5】本発明の生起確率付与部の構成例を示す図であ
る。
【図6】本発明の正解候補展開部の第1の構成例を示す
図である。
【図7】本発明の正解候補展開部の第2の構成例を示す
図である。
【図8】本発明の正解候補展開部の第3の構成例を示す
図である。
【図9】本発明の文書構成装置の他の構成例を示す図で
ある。
【符号の説明】
100 形態素解析部 200 誤り部分検出部 300 正解候補展開部 311 読み抽出部 312 同音語抽出部 313 読み付き単語表記辞書 321 展開部 322 条件検査部 323 展開データベース 331 展開処理部 332 参照先制御部 333 展開データベース 334 展開データベース 335 展開データベース 400 正解候補検証部 410 生起確率付与部 420 誤り確率計算部 430 誤り候補選択部 440 単語生起確率データベース 411 相対生起確率計算部 412 生起確率書込み部 441 展開群内優先度情報付き単語辞書 501 第1の誤り訂正部 502 第2の誤り訂正部 503 第3の誤り訂正部 504 訂正性能比較評価部 505 選択部 506 テキスト全体に対する訂正処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/40 370J

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストを単語列に変換する
    形態素解析部と、 形態素解析の結果得られた単語列の中から誤り可能性部
    分を抽出する誤り部分検出部と、 誤り部分抽出部によって抽出された誤り可能性部分に対
    して正解候補を生成する正解候補展開部と、 正解候補展開部の展開の結果得られた1個または複数個
    の正解候補のそれぞれに対して検証を行って確からしい
    正解候補のみに絞り込む正解候補検証部とを具備する文
    書校正装置であって、 正解候補検証部が、 単語又は単語列の生起確率に関するデータベースと、 上記データベースを参照して、正解候補の誤り確率を計
    算するために必要とされる単語又は単語列の生起確率を
    出力する生起確率付与部と、 生起確率付与部から出力される単語又は単語列の生起確
    率に基づいて、各正解候補の確からしさの検定を行い、
    各正解候補に対して誤り確率を付与する誤り確率計算部
    と、 誤り確率計算部によって各正解候補に付与された誤り確
    率を参照して、所定の閾値以上の正解候補を選択する誤
    り候補選択部とを具備することを特徴とする文書校正装
    置。
  2. 【請求項2】 誤り確率計算部が、テキスト中に存在す
    る誤り可能性部分の生起確率と正解候補の生起確率との
    比によって誤り確率を計算することを特徴とする請求項
    1の文書校正装置。
  3. 【請求項3】 誤り確率計算部が、各正解候補の単語が
    単独に生起する生起確率とテキスト中の文脈における単
    語列としての生起確率との比を参照して、各正解候補に
    対する誤り確率を計算することを特徴とする請求項1の
    文書構成装置。
  4. 【請求項4】 誤り確率計算部が、各正解候補がテスト
    対象の単語群と共起する共起確率を計算し、計算の結果
    得られた共起確率のパターンと,テキスト中の誤り可能
    性部分が上記テスト対象の単語群と共起する共起確率の
    パターンとの類似度によって誤り確率を計算することを
    特徴とする請求項1の文書校正装置。
  5. 【請求項5】 生起確率付与部が、 展開される群内での優先度情報を持つ展開群内優先度情
    報付き単語辞書と、 入力される単語又は単語列に対応する上記単語辞書の群
    内における優先度情報に基づいて、上記単語又は単語列
    に対する生起確率を計算する相対生起確率計算部とを具
    備することを特徴とする請求項1の文書校正装置。
  6. 【請求項6】 正解候補展開部が、 読み付き単語辞書と、 読み付き単語辞書を参照して、誤り可能性部分の単語の
    読みを抽出する読み抽出部と、 読み抽出部によって抽出された単語の読みと同一の読み
    を持つ他の単語を読み付き単語辞書から抽出し、抽出し
    た単語を正解候補として出力する同音語抽出部とを具備
    することを特徴とする請求項1,請求項2,請求項3,
    請求項4または請求項5の文書校正装置。
  7. 【請求項7】 正解候補展開部が、 誤り表記,これに対応する正解候補および制約条件を持
    つ展開データが複数個記述された展開データベースと、 誤り可能性部分に適合する展開データベース中の展開デ
    ータを用いて、誤り可能性部分を正解候補に展開する展
    開部と、 展開部から出力される正解候補が当該正解候補に対する
    制約条件を満たしているか否かを調査し、制約条件に合
    致する正解候補だけを残す条件検査部とを具備すること
    を特徴とする請求項1,請求項2,請求項3,請求項4
    または請求項5の文書校正装置。
  8. 【請求項8】 正解候補展開部が、 複数の日本語入力手段のそれぞれに対応する,誤り可能
    性部分を正解候補に展開するための展開データベースの
    複数個と、 テキストを作成した際の日本語入力手段を特定する情報
    に基づいて、参照先の展開データベースを選択する参照
    先制御部と、 選択された参照先の展開データベースを参照して、誤り
    可能性部分を正解候補に展開する展開処理部とを具備す
    ることを特徴とする請求項1,請求項2,請求項3,請
    求項4または請求項5の文書校正装置。
  9. 【請求項9】 複数の展開データを有し、最初に校正対
    象のテキストの一部に対して各々の展開データによる訂
    正を行い、その結果最も評価値が高い展開データを利用
    してテキスト全体の校正を行うことを特徴とする文書校
    正装置。
JP00658897A 1997-01-17 1997-01-17 文書校正装置 Expired - Fee Related JP3856515B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00658897A JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00658897A JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Publications (2)

Publication Number Publication Date
JPH10207889A true JPH10207889A (ja) 1998-08-07
JP3856515B2 JP3856515B2 (ja) 2006-12-13

Family

ID=11642499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00658897A Expired - Fee Related JP3856515B2 (ja) 1997-01-17 1997-01-17 文書校正装置

Country Status (1)

Country Link
JP (1) JP3856515B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782000B2 (en) 2010-03-19 2014-07-15 Fujitsu Limited Management device, correction candidate output method, and computer product
JP2019016140A (ja) * 2017-07-06 2019-01-31 株式会社朝日新聞社 校正支援装置、校正支援方法及び校正支援プログラム
CN114677694A (zh) * 2022-03-30 2022-06-28 深圳市福流网络信息科技有限公司 一种智能化识别技术的通关方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782000B2 (en) 2010-03-19 2014-07-15 Fujitsu Limited Management device, correction candidate output method, and computer product
JP2019016140A (ja) * 2017-07-06 2019-01-31 株式会社朝日新聞社 校正支援装置、校正支援方法及び校正支援プログラム
CN114677694A (zh) * 2022-03-30 2022-06-28 深圳市福流网络信息科技有限公司 一种智能化识别技术的通关方法

Also Published As

Publication number Publication date
JP3856515B2 (ja) 2006-12-13

Similar Documents

Publication Publication Date Title
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
US5485372A (en) System for underlying spelling recovery
US9411800B2 (en) Adaptive generation of out-of-dictionary personalized long words
US5535121A (en) System for correcting auxiliary verb sequences
US20060015320A1 (en) Selection and use of nonstatistical translation components in a statistical machine translation framework
JPH07325828A (ja) 文法チェックシステム
CN110147546B (zh) 一种英语口语的语法校正方法及装置
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
JP2003099426A (ja) 自然言語処理装置およびその制御方法ならびにプログラム
Tufiş et al. DIAC+: A professional diacritics recovering system
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
US20070179779A1 (en) Language information translating device and method
JP3309174B2 (ja) 文字認識方法及び装置
JP3856515B2 (ja) 文書校正装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
Huang et al. Large scale experiments on correction of confused words
Sharma et al. Improving existing punjabi grammar checker
JPH07325825A (ja) 英文法チェックシステム装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JP2003132059A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JPH10240736A (ja) 形態素解析装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060912

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090922

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100922

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110922

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120922

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130922

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees