JPH04213155A

JPH04213155A - 文書誤字抽出方式

Info

Publication number: JPH04213155A
Application number: JP2406292A
Authority: JP
Inventors: Hiroko Tanabe; 田邊　裕子
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-12-06
Filing date: 1990-12-06
Publication date: 1992-08-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文書校正支援装置に関し
、特に日本語の文書中の誤字を抽出する文書誤字抽出方
式に関する。

【０００２】

【従来の技術】今日、日本語の文書の電子化の必要性は
ますます高くなりつつある。電子化の手段としては、ワ
ードプロセッサを用いた手入力と、ＯＣＲ（Ｏｐｔｉｃ
ａｌＣｈａｒａｃｔｅｒ　　Ｒｅａｄｅｒ）を用いる方
法とがあるが、いずれの場合でも文書の校正は機械処理
の前処理として必要不可欠である。

【０００３】従来、日本語の文書中の誤字の抽出は、■
　　入力文書中の漢字が含まれる単語を抽出して表示し
、誤表記の有無を人間が目でチェックする方法、■あら
かじめ誤りやすい単語の表記のセットを記憶しておき、
入力文書中に該当する単語が出現した場合にそれを表示
する方法、■　　入力文書を単語辞書を用いて単語単位
に分割し（形態素解析）、ある規則に基づいて無意味漢
字列を抽出して、それを誤字候補として表示する方法な
どの方法によって行われていた。

【０００４】

【発明が解決しようとする課題】上述した従来の■の方
法では、入力文書中の漢字が含まれる単語を抽出して表
示し誤表記の有無を人間が目でチェックするので、間違
いが発生しやすとともに利用者の負担が大きいという問
題点がある。

【０００５】また、■の方法では、あらかじめ誤りやす
い単語の表記のセットを記憶しておき入力文書中に該当
する単語が出現した場合にそれを表示するので、誤りや
すい単語の表記のセットが知識として数多く蓄えられた
後には特定のパターンに対して非常に有効であるが、そ
のような知識ベースの構築に時間がかかること、利用者
毎に間違いのパターンに違いがあること、などの問題点
がある。

【０００６】さらに、■の方法では、入力文書を単語辞
書を用いて単語単位に分割し（形態素解析）、ある規則
に基づいて無意味漢字列を抽出して、それを誤字候補と
して表示するので、無駄な誤字の検出が数多く発生する
という問題点がある。

【０００７】本発明の目的は、上述の点に鑑み、単語の
品詞その他の情報から各構文属性間のつながりやすさ（
表層の並びの出現確率）を定義したコストテーブルを利
用して、文法的により確からしい単語の並びが存在する
場合に限って誤字候補を出力するようにした文書誤字抽
出方式を提供することにある。

【０００８】

【課題を解決するための手段】本発明の文書誤字抽出方
式は、日本語の文書中の誤字を抽出する文書誤字抽出方
式において、機械処理用に構成された単語辞書と、単語
間の接続コストを定義するコストテーブルと、同音語を
グループ化して互いに参照可能にした同音語辞書と、前
記単語辞書の辞書情報に従って入力文書を単語単位に切
り分け前記コストテーブルを参照して隣接単語間の接続
コストを求める形態素解析手段と、この形態素解析手段
による形態素解析の結果前記単語辞書に登録がなかった
未登録語および接続コストがあらかじめ定められた閾値
より高い単語に対して前記単語辞書，前記コストテーブ
ルおよび前記同音語辞書を参照して接続コストが閾値よ
り低い同音語があるかどうかをチェックする同音語候補
チェック手段と、この同音語候補チェック手段により接
続コストが閾値より低い同音語があるとされた単語を誤
字候補として出力する誤字候補出力手段とを有する。

【０００９】

【作用】本発明の文書誤字抽出方式では、単語辞書が機
械処理用に構成され、コストテーブルが単語間の接続コ
ストを定義し、同音語辞書が同音語をグループ化して互
いに参照可能にし、形態素解析手段が単語辞書の辞書情
報に従って入力文書を単語単位に切り分けコストテーブ
ルを参照して隣接単語間の接続コストを求め、同音語候
補チェック手段が形態素解析手段による形態素解析の結
果単語辞書に登録がなかった未登録語および接続コスト
があらかじめ定められた閾値より高い単語に対して単語
辞書，コストテーブルおよび同音語辞書を参照して接続
コストが閾値より低い同音語があるかどうかをチェック
し、誤字候補出力手段が同音語候補チェック手段により
接続コストが閾値より低い同音語があるとされた単語を
誤字候補として出力する。

【００１０】

【実施例】次に、本発明について図面を参照して詳細に
説明する。図１は、本発明の一実施例に係る文書誤字抽
出方式の構成を示すブロック図である。本実施例の文書
誤字抽出方式は、誤字抽出の対象となる日本語の文書を
マシン可読な形で入力する入力装置１−１と、機械処理
用に構成された単語辞書１−２と、入力された文書を単
語辞書１−２をひいて単語単位に分割し各単語のもつ構
文属性情報に基づいてコストテーブル１−４から各隣接
単語間の接続コストを求める形態素解析手段１−３と、
単語のもつ品詞その他の情報を左向きの構文属性（かか
られ方）および右向きの構文属性（かかり方）として定
義し各構文属性間のつながりやすさ（表層の並びの出現
確率）を接続コストとして定義するコストテーブル１−
４と、同音語をグループ化して互いに参照可能にした同
音語辞書１−５と、形態素解析手段１−３による形態素
解析の結果、単語辞書１−２に登録がなかった未登録語
および接続コストがあらかじめ定められた閾値より高い
単語に対して単語辞書１−２，コストテーブル１−４お
よび同音語辞書１−５を参照して接続コストが閾値より
低い同音語があるかどうかをチェックする同音語候補チ
ェック手段１−６と、同音語候補チェック手段１−６に
より接続コストが閾値より低い同音語があるとされた単
語を誤字候補として出力する誤字候補出力手段１−７と
から構成されている。

【００１１】同音語候補チェック手段１−６には、あら
かじめ接続コストの許容上限を示す閾値がセットされて
いる。本実施例では、仮に、接続コストの許容上限を示
す閾値を８０としておく。

【００１２】図２は、本実施例の文書誤字抽出方式にお
ける入力文書の解析の流れの一例を示す図である。

【００１３】次に、このように構成された本実施例の文
書誤字抽出方式の動作について、図２を参照しながら説
明する。

【００１４】入力装置１−１は、誤字抽出の対象となる
日本語の文書をマシンが読み取れるような形で入力する
。

【００１５】形態素解析手段１−３は、入力装置１−１
から入力された文書２−１を、符号２−２で示すように
単語辞書１−２をひいて単語単位に分割し、各単語のも
つ構文属性情報に基づいてコストテーブル１−４から隣
接単語間の接続コストを求める。第２図の例では、単語
「と」と単語「以来」との間の接続コストが１００で閾
値８０を越えている。ここで、単語「と」と単語「以来
」との間の接続コストが高いのは、単語「以来」が通常
左側に名詞や動詞の連体形をとるという知識がコストテ
ーブル１−４上に保持されているからである。形態素解
析手段１−３は、閾値８０を越えた接続コストを左側に
もつ単語「以来」をマークして、同音語候補チェック手
段１−６に渡す。

【００１６】同音語候補チェック手段１−６は、形態素
解析手段１−３による形態素解析の結果、単語辞書１−
２に該当する単語がなく未登録語として認定された部分
および左側の単語との接続コストが許容上限を示す閾値
を越えた単語を対象に、単語辞書１−２，コストテーブ
ル１−４および同音語辞書１−５を参照して同音語の中
でそれが入力文書中の該当箇所に現れた場合の接続コス
トが閾値よりも低いものがあるかどうかをチェックする
。そのような同音語が見つかった場合には、同音語候補
チェック手段１−６は、入力文書中の単語は誤字候補で
あると認定し、これを誤字候補出力手段１−７により出
力して表示する。

【００１７】例えば、図２の例では、同音語候補チェッ
ク手段１−６は、形態素解析手段１−３による形態素解
析の結果を受けて、単語「以来」に対して同音語辞書１
−５を参照して同音語を検索する。単語「以来」の同音
語候補として、例えば単語「依頼」が見つかると、同音
語候補チェック手段１−６は、単語「依頼」に対して単
語辞書１−２およびコストテーブル１−４を用いて接続
検定を行う。例えば符号２−３で示すように、単語「以
来」の部分を同音語の単語「依頼」で置換して左側の単
語「と」との間の接続コストを求め、この接続コストが
３０で閾値８０より低いという結果がでた場合、同音語
候補チェック手段１−６は、そこで同音語の検索を中止
し、入力文書中の単語「以来」を誤字候補と認定して、
誤字候補出力手段１−７により出力して表示する。

【００１８】

【発明の効果】以上説明したように本発明は、単語の品
詞その他の情報から表層の並びの出現確率を定義したコ
ストテーブルを利用して、単語辞書に登録がなかった未
登録語および接続コストがあらかじめ定められた閾値よ
り高い単語に対して接続コストが閾値より低い同音語が
ある場合、すなわち文法的により確からしい単語の並び
が存在する場合に限って誤字候補を出力するようにした
ことにより、人間が目でチェックする場合に比べて、利
用者の負担なしで間違いの少ない誤字の抽出を行うこと
ができるという効果がある。

【００１９】また、間違えやすい同音語のセットという
ような他の知識ベースが構築される前から、文法的な不
安定さをもたらす同音異義の誤字候補を抽出することが
できるという効果がある。

【００２０】さらに、同音語が存在する場合にただ出力
する方式に比べて、誤字の抽出効率を格段的に向上させ
ることができるという効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例に係る文書誤字抽出方式の構
成を示すブロック図である。

【図２】本実施例の文書誤字抽出方式における入力文書
の解析の流れの一例を示す図である。

【符号の説明】

１−１　　入力装置１−２　　単語辞書１−４　　コストテーブル１−３　　形態素解析手段１−５　　同音語辞書１−６　　同音語候補チェック手段１−７　　誤字候補出力手段

Claims

【特許請求の範囲】

【請求項１】　　日本語の文書中の誤字を抽出する文書
誤字抽出方式において、機械処理用に構成された単語辞
書と、単語間の接続コストを定義するコストテーブルと
、同音語をグループ化して互いに参照可能にした同音語
辞書と、前記単語辞書の辞書情報に従って入力文書を単
語単位に切り分け前記コストテーブルを参照して隣接単
語間の接続コストを求める形態素解析手段と、この形態
素解析手段による形態素解析の結果前記単語辞書に登録
がなかった未登録語および接続コストがあらかじめ定め
られた閾値より高い単語に対して前記単語辞書，前記コ
ストテーブルおよび前記同音語辞書を参照して接続コス
トが閾値より低い同音語があるかどうかをチェックする
同音語候補チェック手段と、この同音語候補チェック手
段により接続コストが閾値より低い同音語があるとされ
た単語を誤字候補として出力する誤字候補出力手段とを
有することを特徴とする文書誤字抽出方式。