JPH09325962A

JPH09325962A - 文書校正装置およびプログラム記憶媒体

Info

Publication number: JPH09325962A
Application number: JP9084951A
Authority: JP
Inventors: Jun Ibuki; 潤伊吹; Akira Adachi; 顕足立
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-04-05
Filing date: 1997-04-03
Publication date: 1997-12-16
Anticipated expiration: 2017-04-03
Also published as: JP4278011B2

Abstract

(57)【要約】【課題】日本語文書等における誤りを指摘する文書校正
装置およびプログラム記憶媒体に関し，文書中の誤り箇
所の過剰指摘を防止し，ユーザの判断を軽減させて，校
正作業効率を向上させることを目的とする。【解決手段】複数の誤り確率計算部２ａ，２ｂ，…は，
それぞれ異なる誤り確率計算手法により誤り確率値を計
算する。誤り確率保存部３はこれらの誤り確率値を集計
し，原テキストの各文字または文字列に対して，集計し
た誤り確率値を付与する。誤り候補抽出部５は所定の誤
り確率閾値４を超える誤り確率値を持つ文字または文字
列を誤り候補として抽出する。誤り表示処理部６は，抽
出された誤り候補を校正用のテキスト中に下線付き表示
または色違い表示等により表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，文書処理装置にお
いてユーザが入力もしくは電子的な媒体として獲得した
文書データに対して，誤った部分を自動的に指摘するこ
とにより，ユーザが文書を校正する作業を軽減し，文書
校正に係る作業効率を大幅に向上させることができるよ
うにした文書校正装置およびその文書校正装置を実現す
るためのプログラム記憶媒体に関する。

【０００２】

【従来の技術】従来の文書処理装置において，誤り候補
を指摘する方法として，形態素解析を行い，その結果
から未登録語部分を指摘するもの，同音異義語のある
単語を指摘するものがある。また，特定の単語列が検
出された場合に誤りと認定して指摘するものがある。こ
れは，例えば現在では使用されない仮名遣いや表記等を
予め登録した誤り検出用辞書を用いて，一致するものを
誤りとするとか，名詞＋動詞という普通にはあり得ない
品詞列を検出するとか，あるいは，一文字の漢字単語が
あった場合に誤りとするなどの方法である。他の方法と
して，テキスト中の片仮名または漢字文字列を辞書順
に並べ，同じ単語であって僅かな表記の揺れのある単語
が連続して並ぶようにして，表記の揺れを検出しやすく
したものがある。例えば，「ウィンドウ」と「ウインド
ゥ」と「ウインドウ」などの場合に，表記を統一するた
めに用いる方法である。

【０００３】

【発明が解決しようとする課題】上記の未登録語部分
を指摘する方法は，未登録語部分の周辺に誤った綴りの
単語がある可能性が高いため，その部分を指摘する方法
である。しかし，未登録語の生まれる原因としては，綴
りの誤り以外にも，例えば固有名詞などのように，間違
いではないが辞書に登録されていないというような本来
の未登録語の存在も挙げられる。したがって，指摘され
た部分が誤りと断定できるわけではなく，ユーザが一つ
一つ正誤を判断しなければならない。

【０００４】上記の同音異義語の存在する単語箇所を
指摘する方法は，仮名漢字変換のときに操作を誤りやす
い箇所であるために確認を目的として指摘する方法であ
る。この場合，一つでも同音異義語が存在すれば，本来
は誤りでない単語であっても指摘されるため，ユーザが
自ら正誤の判断を下す必要がある部分が非常に多くなっ
てしまうという問題がある。

【０００５】一方，上記の特定の単語列が検出された
場合に誤りとして指摘する方法では，予め誤りとして検
出しておくべき品詞列などを登録する必要があり，誤り
の対象が非常に限定されたものとなるため，実際には，
文章中の誤りの多くは検出することができないという問
題がある。

【０００６】また，上記の片仮名語句や漢字語句をソ
ートしてユーザに示す方法では，校正時にユーザ自身で
するべき作業量が多い割りには作業能率があまり改善さ
れないという問題がある。

【０００７】以上のように，従来の方法を用いると，誤
り候補の指摘箇所が本来の誤りではないことが多くあ
り，過剰指摘の傾向になるという問題点があった。結果
としてユーザが再チェックしなければならない量が多く
なるため，校正作業の効率を低下させることがあった。
また，誤り箇所の適切な選択が不十分なことが多いとい
う問題点があった。

【０００８】

【課題を解決するための手段】上記問題点を解決するた
め，本発明は，例えば図１ないし図５に示す各手段を備
える。

【０００９】図１は，請求項１記載の発明のブロック構
成例を示す。図１において，１は誤り候補検出部，２
ａ，２ｂ，…は誤り確率計算部，３は誤り確率保存部，
４は誤り確率閾値，５は誤り候補抽出部，６は誤り表示
処理部を表す。

【００１０】誤り確率計算部２ａ，２ｂ，…は，それぞ
れ異なる方法によりテキストの各構成文字または文字列
に対して誤り確率値を計算し付与する手段である。各誤
り確率計算部２ａ，２ｂ，…は，後述する図２〜図４に
示すような手段を単独でまたは組み合わせて用いてもよ
く，また従来技術として説明したような誤り候補を検出
する手段を組み合わせて用いることにより，それぞれ所
定の誤り確率を付与するようにしてもよい。

【００１１】誤り確率保存部３は，誤り確率計算部２
ａ，２ｂ，…から得た誤り確率値を集計し，各構成文字
等に対する最終的な誤り確率値を定める手段である。誤
り候補抽出部５は，所定の誤り確率閾値４をもとに，こ
れより高い誤り確率値を持つ文字または文字列を誤り候
補として抽出する手段である。誤り確率閾値４は，外部
入力としてまたは予め記憶された電子的データとして与
えられる。

【００１２】誤り表示処理部６は，誤り候補抽出部５に
より抽出された誤り箇所を表示する手段である。以上の
ような構成によって，誤り確率保存部３は，各誤り確率
計算部２ａ，２ｂ，…から得た複数の誤り確率値を集計
し，各文字または文字列ごとに，それぞれの誤り確率値
を定めるため，誤っている確率の大きい候補を従来より
正確に抽出することができる。

【００１３】また，誤り表示処理部６は，誤り候補抽出
部５によって所定の誤り確率閾値４を超えたものだけを
抽出して表示するため，過剰な誤り指摘を防止すること
ができる。

【００１４】さらに，誤り確率閾値４を変化させること
により，誤り候補として抽出し表示する単語等の量を調
節できるため，校正作業の目的等により，また原テキス
トの種類や内容により，誤り指摘の精度を保持するか，
または作業効率を向上させるかを選択することができ
る。

【００１５】図２は，請求項２記載の発明に係る誤り確
率計算部の構成例を示す。誤り確率計算部２０は，形態
素解析部２１，未登録語検出部２２，固有名詞パターン
検出部２３を備える。

【００１６】形態素解析部２１は，テキストを形態素解
析し単語列に分割し，単語群を未登録語検出部２２およ
び固有名詞パターン検出部２３へ渡す手段である。形態
素解析についての具体的方法については，従来からよく
知られているので，ここでの詳細な説明は省略する。

【００１７】未登録語検出部２２は，単語群から未登録
語とされた単語領域を検出してその単語領域に所定の誤
り確率値を付与し，図１の誤り確率保存部３へ渡す。ま
た，固有名詞パターン検出部２３は，形態素解析結果の
単語列を受けて，統語的な特徴を利用することにより固
有名詞が出現しやすい領域を認識し，その固有名詞が出
現しやすい領域に対して負の誤り確率値を付与し，図１
の誤り確率保存部３へ渡す。統語的な特徴とは，前後の
既知の単語の意味や品詞などから類推できる特徴であ
り，「社長」や「部長」というような肩書の前は人名で
あることが多いとか，「市」や「州」という字の前にく
る漢字列または片仮名は地名であることが多いという単
語が並ぶパターンの特徴である。固有名詞に対して負の
誤り確率値を与えるのは，固有名詞は未登録語であって
も誤りではないことが多いからである。したがって，未
登録語でない固有名詞には，負の誤り確率値を付与する
必要はない。

【００１８】このような固有名詞の検出では，例えば
「未登録語＋肩書」のように，予め固有名詞と特定の品
詞または単語の組み合わせを解析用データとして登録し
ておき，固有名詞パターン検出部２３で，形態素解析の
結果をこれらの固有名詞パターンと照合すればよい。

【００１９】これにより，従来の方法では必ず誤り候補
として指摘されるような固有名詞に関する単語領域を，
誤り指摘箇所から除くことが可能となる。図３は，請求
項３記載の発明に係る誤り確率計算部の構成例を示す。

【００２０】誤り確率計算部３０は，語彙抽出部３１，
カテゴリ化部３２，確率付与部３３を備える。語彙抽出
部３１は，対象テキストから単語を抽出し，カテゴリ化
部３２へ送る手段である。カテゴリ化部３２は，語彙抽
出部３１から得た単語群について，単語間の文字構成の
類似度を計算し，計算した類似度に基づきカテゴリ化を
行う手段である。確率付与部３３は，カテゴリ化部３２
によりカテゴリ化された単語相互の類似度および単語の
出現頻度等に基づいて誤り確率値を付与する手段であ
る。

【００２１】図３に示す誤り確率計算部３０によれば，
例えば表記の揺れを生じている単語のように，単語相互
の類似度の高い単語を同一カテゴリに分類し，その単語
の類似度および出現頻度により，どの表記の単語を正当
または誤りとするかを誤り確率値として付与することが
できるため，最終的に表示する誤り候補に表記の揺れに
よる誤りの傾向を反映することができる。

【００２２】図４は，請求項４記載の発明に係る誤り確
率計算部の構成例を示す。誤り確率計算部４０は，形態
素解析部４１，領域分割処理部４２，確率付与部４３を
備える。形態素解析部４１は，対象テキストを形態素解
析し単語列に分割する手段である。領域分割処理部４２
は，対象テキストを，例えば漢字，平仮名，片仮名，英
字，…というような同種の文字で構成される領域に分割
する手段である。

【００２３】確率付与部４３は，記憶している各文字種
ごとの平均単語長を用いて，同一文字種からなる単語領
域ごとに算出したその領域内での予測単語数と，形態素
解析による単語群から求めた実際の単語数とを比べ，そ
の差に基づいた誤り確率値を各文字または文字列ごとに
付与する手段である。すなわち，確率付与部４３は，予
測単語数と実際の単語数との差が大きい領域には，綴り
誤り等により１単語として認識されなかった単語が含ま
れている確率が高いとみなし，この領域に相対的に高い
誤り確率値を付与する。

【００２４】以上の図１〜図４に示す各手段は，計算機
を動作させるプログラムを用いて実現される。そのプロ
グラムは適当な記憶媒体に格納することができる。図５
は，請求項６記載の発明のブロック構成例を示す図であ
る。図５において，５１は誤り候補検出部，５２は拡張
形態素解析部，５３は単語比較部，５４は単語辞書，５
５は誤り表示処理部を表す。

【００２５】誤り候補検出部５１は，例えば図１に示す
誤り候補検出部１と同様な手段によって，入力テキスト
から誤り確率の大きい文字列を検出する手段である。誤
り確率の計算では，例えば図４などに示すような手段を
用いる。単語比較部５３は，誤り候補検出部５１から得
た誤り候補とされた文字列と，単語辞書５４に登録され
ている単語との類似度を比較して，所定値以上の類似度
を持つ場合に一致と判断する手段である。拡張形態素解
析部５２は，誤り候補検出部５１から得た誤り候補とさ
れた文字列に対して拡張形態素解析を行い，拡張形態素
解析の結果，その単語領域の評価値が誤り候補検出部５
１から得た評価値よりよい場合，すなわち全体としての
誤り確率が小さくなるような場合には，拡張形態素解析
により得た単語（単語群）を正解単語（正解単語群）と
認定する。

【００２６】ここで拡張形態素解析とは，厳密に単語辞
書５４に登録されている単語と一致する場合の情報だけ
を用いて形態素解析を行うのではなく，厳密には一致し
ないがかなり似ている単語の情報も用いて形態素解析を
行うことを意味する。

【００２７】誤り表示処理部５５は，元の対象テキスト
とともに拡張形態素解析部５２から得た正解単語群を表
示する。以上の図５に示す各手段は，計算機を動作させ
るプログラムを用いて実現される。そのプログラムは適
当な記憶媒体に格納することができる。

【００２８】

【発明の実施の形態】以下，本発明の実施の形態を図を
用いて説明する。図６は，図２に示す誤り確率計算部２
０による誤り確率計算の例を説明する図である。

【００２９】校正対象の原テキストが「ジュペ外相はそ
の意見にうなづいた」であるとき，図２に示す形態素解
析部２１は，形態素解析を行い，その結果として「／ジ
ュペ／外相／は／その／意見／に／うなづ／いた／」の
単語列を，未登録語検出部２２へ渡すとともに，固有名
詞パターン検出部２３へ品詞等の属性情報を含めて渡
す。

【００３０】未登録語検出部２２では，「ジュペ」，
「うなづ」が未登録語として検出される。検出された未
登録語の文字列に対して，それぞれ誤り確率として
０．５を付与する。この０．５という値は，予め統計的
なデータによって決められた値である。

【００３１】また，固有名詞パターン検出部２３では，
予め登録されている固有名詞パターンの一つである「未
登録語＋肩書」に一致するものとして，「／ジュペ／外
相／」が検出される。ここで，「肩書」の前は固有名詞
であることが一般的であり，通常，固有名詞は未登録語
であるから，「／ジュペ／外相／」の単語列は，誤りで
ある確率は低くなる。しがたって，「／ジュペ／外相
／」の「ジュペ」に，負の誤り確率として−０．４を
付与する。

【００３２】誤り確率計算部２０からの誤り確率値によ
り，誤り確率保存部３は，文字列「ジュペ」の誤り確率
値を０．１（＝０．５−０．４）とし，文字列「うな
づ」の誤り確率値を０．５とする。

【００３３】以上の結果から，図１に示す誤り候補抽出
部５と同様な誤り候補の抽出を行う。ここで，誤り確率
閾値４が例えば０．２に設定されているとすると，「ジ
ュペ」の部分は，『０．１≦誤り確率閾値（０．２）』
であるため誤り候補から外され，「うなづ」の部分が，
『０．５＞誤り確率閾値（０．２）』であるため誤り候
補として抽出される。抽出された誤り候補は，誤り表示
処理部５５へ送られる。誤り表示処理部５５は，誤り指
摘箇所として「うなづ」の部分を，下線付き表示または
色違い表示等により他の部分と区別して，校正用のテキ
ストとして表示装置等に出力する。

【００３４】このように，本来は誤りではない固有名詞
である未登録語の誤り確率値を低く抑えることで，誤り
候補として「ジュペ」が表示されることを防止してい
る。なお，図５の拡張形態素解析部５２の結果を，図１
に示す誤り確率保存部３に渡すような構成にしてもよ
い。

【００３５】図７は，図３に示す誤り確率計算部３０に
よる誤り確率計算の例を説明する図である。校正対象の
原テキスト中に，同一の意味を示す単語が「インバーテ
ッド」，「インヴァーテッド」，「インバーテット」の
３種の異なる表記で表されているとする。語彙抽出部３
１は，原テキストの単語ごとの出現頻度を計算し，単語
と出現頻度の情報をカテゴリ化部３２へ渡す。

【００３６】カテゴリ化部３２は，単語群の中で文字構
成の類似度の高いもの同士を同一のカテゴリに分類す
る。このカテゴリ化の処理では，例えば「バ」と「ヴ
ァ」は類似度が非常に大きい，「ズ」と「ヅ」も類似度
が非常に大きい，長音記号「ー」がある場合とない場合
の類似度は大きい，濁点付きと濁点なしの同字は類似度
がやや大きい，というような情報に基づいて，特定の文
字の関係に対して予め定められた類似度の値を用いて，
単語の類似度が算出される。これにより，「インバーテ
ッド」，「インヴァーテッド」，「インバーテット」の
３つの単語は同一カテゴリに分類される。

【００３７】次に，同一カテゴリ内の単語間で，最高頻
度の単語を基準に，文字構成の類似度により誤り確率を
計算する。この例では，最高頻度の「インバーテッド」
を正解単語と認定し，「バ」と「ヴァ」の表記の類似度
が高いことから「インバーテッド」に対する「インヴァ
ーテッド」の類似度が１０，また，語尾の「ド」と
「ト」の表記の類似度はそれほど高くはなく，「インバ
ーテッド」に対する「インバーテット」の類似度が２と
なっている。続いて，この類似度に基づき誤り確率値を
定める。「インバーテッド」は，正解単語と認定してい
るので誤り確率を０とし，正解単語に対する類似度の高
い「インヴァーテッド」は誤り確率が０．２，類似度の
低い「インバーテット」は，誤り確率が０．８となって
いる。

【００３８】ここで，図１に示す誤り確率閾値４を０．
７と高く設定すると，誤り候補抽出部５は，文字列「イ
ンバーテット」のみを誤り候補として抽出する。一方，
誤り確率閾値４を０．１と低くすれば，誤り候補抽出部
５は，文字列「インヴァーテッド」，「インバーテッ
ト」の両方を抽出し，元の単語と別表記と認められる多
くの単語が，誤り候補として校正テキストに表示され
る。なお，この誤り確率値は一例であり，テキストの種
類によっては，同一カテゴリ内で類似度の低い単語の誤
り確率を小さくしたほうがよい場合もある。

【００３９】図８は，図４に示す誤り確率計算部４０に
よる誤り確率計算と図５に示す拡張形態素解析部５２等
の処理の例を説明する図である。原テキストが「キイワ
ードファイルの指定」であるとき，図４に示す形態素解
析部４１は，形態素解析の結果として「／キイ／ワード
／ファイル／の／指定／」を出力する。ここでは，単語
辞書中に「キイ」，「ワード」，「ファイル」という単
語があったため，未登録語は検出されていない。

【００４０】また，領域分割処理部４２は，同一文字種
ごとに領域分割処理を行い，片仮名部分の「キイワード
ファイル」，平仮名部分の「の」，漢字部分の「指定」
の３つの部分に分割する。

【００４１】確率付与部４３は，「／キイ／ワード／フ
ァイル／」について，形態素解析で求めた実際の単語数
と，領域分割処理による予測単語数とを比較する。予測
単語数は，文字種によって統計的に定められた平均単語
長から計算される。例えば片仮名文字列の平均単語長が
４であるとすると，「キイワードファイル」の予測単語
数は，２（≒９÷２）となる。

【００４２】この部分の形態素解析から得られた単語数
は３であり，「キイワードファイル」について，実際の
単語数と予測した単語数に不一致が生じることになる。
確率付与部４３は，この不一致の生じた単語領域「キイ
ワードファイル」に誤りが存在する可能性があると判断
して，各文字に不一致の度合に応じた誤り確率（例えば
０．１）を付与する。

【００４３】請求項１記載の発明では，誤り確率計算部
４０からの誤り確率値と，他の誤り確率計算部からの誤
り確率値とを，図１に示す誤り確率保存部３で集計し，
誤り候補抽出部５で誤り候補を抽出し，誤り表示処理部
６で誤り候補を指摘した校正テキストを表示する。

【００４４】請求項６記載の発明では，さらに次のよう
に拡張形態素解析の利用により正解単語列を求める処理
を行う。拡張形態素解析部５２は，誤り候補検出部５１
が検出した，ある一定値以上の誤り確率値を持つ文字列
「キイワードファイル」を拡張形態素解析の対象とす
る。単語比較部５３は，「キイワードファイル」と類似
度が大きい単語列として，単語辞書５４に登録された単
語から「キーワード」，「ファイル」を検出し，拡張形
態素解析部５２では，拡張形態素解析の結果として，
「／キーワード／ファイル／」が抽出される。

【００４５】拡張形態素解析の結果として得られた「／
キーワード／ファイル／」を正解単語列とみなしてよい
かどうかを評価するために，ある評価値を計算する。こ
こでは，例えば誤り候補とされた領域内の平均単語長を
評価値とする。形態素解析の結果による「／キイ／ワー
ド／ファイル／」の平均単語長は３である。一方，拡張
形態素解析の結果による「／キーワード／ファイル／」
の平均単語長は４．５である。

【００４６】これらの結果を比較すると，拡張形態素解
析の結果の単語列「／キーワード／ファイル／（平均単
語長＝４．５）」の方が，通常の形態素解析の結果の単
語列「／キイ／ワード／ファイル／（平均単語長＝
３）」よりも，片仮名文字列の平均単語長＝４に近いた
め，評価値（平均単語長）が改善されることが分かる。
このため，原テキストの文字列と相違する部分を持つ
「キーワード」を，元のテキストの「キイワード」の正
解単語と認定して，誤り表示処理部５５により，校正テ
キスト中に誤り候補と正解単語部分とを対比させて表示
する。

【００４７】この拡張形態素解析を用いた方式によれ
ば，例えば原テキストの「キイワードファイル」の部分
について，「キイ」，「ワード」，「ファイル」のそれ
ぞれの単語が未登録語ではないため，誤りを指摘できな
いような場合や，「キイワードファイル」の部分に付与
される誤り確率値が所定の誤り確率閾値よりも小さいた
め，実際の誤り候補として抽出されないような場合に
も，誤り候補とその正解単語の選出が可能になるという
効果がある。

【００４８】

【発明の効果】以上説明したように，本発明によれば，
ユーザに対し誤りであるかどうかの手掛かりを一つ一つ
直接提示するのではなく，複数の手掛かりをもとに総合
的に判断した結果により誤りの可能性が高い部分のみを
提示することが可能となる。

【００４９】また，それぞれの手掛かりの確からしさを
誤り確率値によって定量化するので，ユーザは，個々の
手掛かりごとの調整に煩わされることなく，誤り確率閾
値の調整のみによって，誤り候補を広く抽出して誤り指
摘箇所の洩れをなくすか，明白な誤り箇所のみを抽出し
て校正作業の能率を向上させるかについてのバランスの
調整を任意にできるようになる。

【図面の簡単な説明】

【図１】本発明のブロック構成例を示す図である。

【図２】請求項２記載の発明に係る誤り確率計算部の構
成例を示す図である。

【図３】請求項３記載の発明に係る誤り確率計算部の構
成例を示す図である。

【図４】請求項４記載の発明に係る誤り確率計算部の構
成例を示す図である。

【図５】請求項６記載の発明のブロック構成例を示す図
である。

【図６】誤り確率計算の例を説明する図である。

【図７】誤り確率計算の例を説明する図である。

【図８】誤り確率計算と拡張形態素解析の例を説明する
図である。

【符号の説明】

１誤り候補検出部２ａ，２ｂ，… 誤り確率計算部３誤り確率保存部４誤り確率閾値５誤り候補抽出部６誤り表示処理部２０誤り確率計算部２１形態素解析部２２未登録語検出部２３固有名詞パターン検出部３０誤り確率計算部３１語彙抽出部３２カテゴリ化部３３確率付与部４０誤り確率計算部４１形態素解析部４２領域分割処理部４３確率付与部５１誤り候補検出部５２拡張形態素解析部５３単語比較部５４単語辞書５５誤り表示処理部

Claims

【特許請求の範囲】

【請求項１】テキスト文書における誤りを指摘する文
書校正装置において，テキストの各構成文字または文字
列に対して所定の誤り確率計算手法により誤り確率値を
計算し，それぞれ計算された誤り確率値を付与する複数
の誤り確率計算手段と，前記複数の誤り確率計算手段か
ら得た誤り確率値を集計し，各構成文字または文字列に
対する最終的な誤り確率値を定める誤り確率保存手段
と，前記テキストの各構成文字または文字列に対して付
与された誤り確率値と，外部から設定された誤り確率閾
値または予め定められた誤り確率閾値との大小の比較に
より，誤り候補を抽出する誤り候補抽出手段と，抽出さ
れた誤り候補を出力する誤り表示処理手段とを備えるこ
とを特徴とする文書校正装置。
【請求項２】前記誤り確率計算手段の中に，テキスト
を形態素解析して単語列に分割する形態素解析手段と，
分割された単語列のうち，所定の単語辞書に未登録の部
分に対して所定の誤り確率値を付与する未登録語検出手
段と，分割された単語列に対して統語的な特徴を利用し
て未登録語の出現する確率が高い部分を推定し，前記未
登録語検出手段が付与した誤り確率値を低くするような
負の誤り確率値を付与する特定パターン検出手段とを有
することを特徴とする請求項１記載の文書校正装置。
【請求項３】前記誤り確率計算手段の中に，テキスト
から構成単語を抽出する語彙抽出手段と，抽出された単
語群について単語間の類似度に基づきカテゴリ化を行う
カテゴリ化手段と，同一カテゴリ内の各単語間の類似度
および単語の出現回数に基づいて誤り確率値を付与する
確率付与手段とを有することを特徴とする請求項１記載
の文書校正装置。
【請求項４】前記誤り確率計算手段の中に，テキスト
を形態素解析して単語列に分割する形態素解析手段と，
テキストを同種の文字で構成される領域に分割する領域
分割処理手段と，各文字種に対する単語長の予想値を持
ち，同種の文字で構成される各領域内での平均単語長と
前記予想値との差に基づいてその領域に対する誤り確率
を付与する確率付与手段とを有することを特徴とする請
求項１記載の文書校正装置。
【請求項５】テキスト文書における誤りを指摘する文
書校正装置を実現するプログラムが記憶されるプログラ
ム記憶媒体であって，テキストの各構成文字または文字
列に対して所定の誤り確率計算手法により誤り確率値を
計算し，それぞれ計算された誤り確率値を付与する複数
の誤り確率計算手段と，前記複数の誤り確率計算手段か
ら得た誤り確率値を集計し，各構成文字または文字列に
対する最終的な誤り確率値を定める誤り確率保存手段
と，前記テキストの各構成文字または文字列に対して付
与された誤り確率値と，外部から設定された誤り確率閾
値または予め定められた誤り確率閾値との大小の比較に
より，誤り候補を抽出する誤り候補抽出手段と，抽出さ
れた誤り候補を出力する誤り表示処理手段とを実現する
プログラムが記憶されることを特徴とするプログラム記
憶媒体。
【請求項６】テキスト文書を校正する文書校正装置に
おいて，テキストの各構成文字または文字列に対して所
定の誤り確率計算手法により計算した誤り確率値によっ
て誤り候補を検出する誤り候補検出手段と，前記誤り候
補検出手段により誤り候補とされた文字列について，所
定の単語辞書に登録されている単語との類似度を計算
し，所定値以上の類似度を持つ場合に一致と判断する単
語比較手段と，前記単語比較手段により誤り候補の文字
列と一致するとされた単語が，誤り候補としての評価を
改善させるものである場合に，その単語を誤り候補の文
字列に対する正解単語と認定する拡張形態素解析手段
と，誤り候補の文字列を含むテキストとともに前記拡張
形態素解析手段が認定した正解単語を表示する誤り表示
処理手段とを備えることを特徴とする文書校正装置。
【請求項７】テキスト文書を校正する文書校正装置を
実現するプログラムが記憶されるプログラム記憶媒体で
あって，テキストの各構成文字または文字列に対して所
定の誤り確率計算手法により計算した誤り確率値によっ
て誤り候補を検出する誤り候補検出手段と，前記誤り候
補検出手段により誤り候補とされた文字列について，所
定の単語辞書に登録されている単語との類似度を計算
し，所定値以上の類似度を持つ場合に一致と判断する単
語比較手段と，前記単語比較手段により誤り候補の文字
列と一致するとされた単語が，誤り候補としての評価を
改善させるものである場合に，その単語を誤り候補の文
字列に対する正解単語と認定する拡張形態素解析手段
と，誤り候補の文字列を含むテキストとともに前記拡張
形態素解析手段が認定した正解単語を表示する誤り表示
処理手段とを実現するプログラムが記憶されることを特
徴とするプログラム記憶媒体。