JPH04213155A - 文書誤字抽出方式 - Google Patents

文書誤字抽出方式

Info

Publication number
JPH04213155A
JPH04213155A JP2406292A JP40629290A JPH04213155A JP H04213155 A JPH04213155 A JP H04213155A JP 2406292 A JP2406292 A JP 2406292A JP 40629290 A JP40629290 A JP 40629290A JP H04213155 A JPH04213155 A JP H04213155A
Authority
JP
Japan
Prior art keywords
homophone
word
dictionary
words
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2406292A
Other languages
English (en)
Inventor
Hiroko Tanabe
田邊 裕子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2406292A priority Critical patent/JPH04213155A/ja
Publication of JPH04213155A publication Critical patent/JPH04213155A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書校正支援装置に関し
、特に日本語の文書中の誤字を抽出する文書誤字抽出方
式に関する。
【0002】
【従来の技術】今日、日本語の文書の電子化の必要性は
ますます高くなりつつある。電子化の手段としては、ワ
ードプロセッサを用いた手入力と、OCR(Optic
alCharacter  Reader)を用いる方
法とがあるが、いずれの場合でも文書の校正は機械処理
の前処理として必要不可欠である。
【0003】従来、日本語の文書中の誤字の抽出は、■
  入力文書中の漢字が含まれる単語を抽出して表示し
、誤表記の有無を人間が目でチェックする方法、■あら
かじめ誤りやすい単語の表記のセットを記憶しておき、
入力文書中に該当する単語が出現した場合にそれを表示
する方法、■  入力文書を単語辞書を用いて単語単位
に分割し(形態素解析)、ある規則に基づいて無意味漢
字列を抽出して、それを誤字候補として表示する方法な
どの方法によって行われていた。
【0004】
【発明が解決しようとする課題】上述した従来の■の方
法では、入力文書中の漢字が含まれる単語を抽出して表
示し誤表記の有無を人間が目でチェックするので、間違
いが発生しやすとともに利用者の負担が大きいという問
題点がある。
【0005】また、■の方法では、あらかじめ誤りやす
い単語の表記のセットを記憶しておき入力文書中に該当
する単語が出現した場合にそれを表示するので、誤りや
すい単語の表記のセットが知識として数多く蓄えられた
後には特定のパターンに対して非常に有効であるが、そ
のような知識ベースの構築に時間がかかること、利用者
毎に間違いのパターンに違いがあること、などの問題点
がある。
【0006】さらに、■の方法では、入力文書を単語辞
書を用いて単語単位に分割し(形態素解析)、ある規則
に基づいて無意味漢字列を抽出して、それを誤字候補と
して表示するので、無駄な誤字の検出が数多く発生する
という問題点がある。
【0007】本発明の目的は、上述の点に鑑み、単語の
品詞その他の情報から各構文属性間のつながりやすさ(
表層の並びの出現確率)を定義したコストテーブルを利
用して、文法的により確からしい単語の並びが存在する
場合に限って誤字候補を出力するようにした文書誤字抽
出方式を提供することにある。
【0008】
【課題を解決するための手段】本発明の文書誤字抽出方
式は、日本語の文書中の誤字を抽出する文書誤字抽出方
式において、機械処理用に構成された単語辞書と、単語
間の接続コストを定義するコストテーブルと、同音語を
グループ化して互いに参照可能にした同音語辞書と、前
記単語辞書の辞書情報に従って入力文書を単語単位に切
り分け前記コストテーブルを参照して隣接単語間の接続
コストを求める形態素解析手段と、この形態素解析手段
による形態素解析の結果前記単語辞書に登録がなかった
未登録語および接続コストがあらかじめ定められた閾値
より高い単語に対して前記単語辞書,前記コストテーブ
ルおよび前記同音語辞書を参照して接続コストが閾値よ
り低い同音語があるかどうかをチェックする同音語候補
チェック手段と、この同音語候補チェック手段により接
続コストが閾値より低い同音語があるとされた単語を誤
字候補として出力する誤字候補出力手段とを有する。
【0009】
【作用】本発明の文書誤字抽出方式では、単語辞書が機
械処理用に構成され、コストテーブルが単語間の接続コ
ストを定義し、同音語辞書が同音語をグループ化して互
いに参照可能にし、形態素解析手段が単語辞書の辞書情
報に従って入力文書を単語単位に切り分けコストテーブ
ルを参照して隣接単語間の接続コストを求め、同音語候
補チェック手段が形態素解析手段による形態素解析の結
果単語辞書に登録がなかった未登録語および接続コスト
があらかじめ定められた閾値より高い単語に対して単語
辞書,コストテーブルおよび同音語辞書を参照して接続
コストが閾値より低い同音語があるかどうかをチェック
し、誤字候補出力手段が同音語候補チェック手段により
接続コストが閾値より低い同音語があるとされた単語を
誤字候補として出力する。
【0010】
【実施例】次に、本発明について図面を参照して詳細に
説明する。図1は、本発明の一実施例に係る文書誤字抽
出方式の構成を示すブロック図である。本実施例の文書
誤字抽出方式は、誤字抽出の対象となる日本語の文書を
マシン可読な形で入力する入力装置1−1と、機械処理
用に構成された単語辞書1−2と、入力された文書を単
語辞書1−2をひいて単語単位に分割し各単語のもつ構
文属性情報に基づいてコストテーブル1−4から各隣接
単語間の接続コストを求める形態素解析手段1−3と、
単語のもつ品詞その他の情報を左向きの構文属性(かか
られ方)および右向きの構文属性(かかり方)として定
義し各構文属性間のつながりやすさ(表層の並びの出現
確率)を接続コストとして定義するコストテーブル1−
4と、同音語をグループ化して互いに参照可能にした同
音語辞書1−5と、形態素解析手段1−3による形態素
解析の結果、単語辞書1−2に登録がなかった未登録語
および接続コストがあらかじめ定められた閾値より高い
単語に対して単語辞書1−2,コストテーブル1−4お
よび同音語辞書1−5を参照して接続コストが閾値より
低い同音語があるかどうかをチェックする同音語候補チ
ェック手段1−6と、同音語候補チェック手段1−6に
より接続コストが閾値より低い同音語があるとされた単
語を誤字候補として出力する誤字候補出力手段1−7と
から構成されている。
【0011】同音語候補チェック手段1−6には、あら
かじめ接続コストの許容上限を示す閾値がセットされて
いる。本実施例では、仮に、接続コストの許容上限を示
す閾値を80としておく。
【0012】図2は、本実施例の文書誤字抽出方式にお
ける入力文書の解析の流れの一例を示す図である。
【0013】次に、このように構成された本実施例の文
書誤字抽出方式の動作について、図2を参照しながら説
明する。
【0014】入力装置1−1は、誤字抽出の対象となる
日本語の文書をマシンが読み取れるような形で入力する
【0015】形態素解析手段1−3は、入力装置1−1
から入力された文書2−1を、符号2−2で示すように
単語辞書1−2をひいて単語単位に分割し、各単語のも
つ構文属性情報に基づいてコストテーブル1−4から隣
接単語間の接続コストを求める。第2図の例では、単語
「と」と単語「以来」との間の接続コストが100で閾
値80を越えている。ここで、単語「と」と単語「以来
」との間の接続コストが高いのは、単語「以来」が通常
左側に名詞や動詞の連体形をとるという知識がコストテ
ーブル1−4上に保持されているからである。形態素解
析手段1−3は、閾値80を越えた接続コストを左側に
もつ単語「以来」をマークして、同音語候補チェック手
段1−6に渡す。
【0016】同音語候補チェック手段1−6は、形態素
解析手段1−3による形態素解析の結果、単語辞書1−
2に該当する単語がなく未登録語として認定された部分
および左側の単語との接続コストが許容上限を示す閾値
を越えた単語を対象に、単語辞書1−2,コストテーブ
ル1−4および同音語辞書1−5を参照して同音語の中
でそれが入力文書中の該当箇所に現れた場合の接続コス
トが閾値よりも低いものがあるかどうかをチェックする
。そのような同音語が見つかった場合には、同音語候補
チェック手段1−6は、入力文書中の単語は誤字候補で
あると認定し、これを誤字候補出力手段1−7により出
力して表示する。
【0017】例えば、図2の例では、同音語候補チェッ
ク手段1−6は、形態素解析手段1−3による形態素解
析の結果を受けて、単語「以来」に対して同音語辞書1
−5を参照して同音語を検索する。単語「以来」の同音
語候補として、例えば単語「依頼」が見つかると、同音
語候補チェック手段1−6は、単語「依頼」に対して単
語辞書1−2およびコストテーブル1−4を用いて接続
検定を行う。例えば符号2−3で示すように、単語「以
来」の部分を同音語の単語「依頼」で置換して左側の単
語「と」との間の接続コストを求め、この接続コストが
30で閾値80より低いという結果がでた場合、同音語
候補チェック手段1−6は、そこで同音語の検索を中止
し、入力文書中の単語「以来」を誤字候補と認定して、
誤字候補出力手段1−7により出力して表示する。
【0018】
【発明の効果】以上説明したように本発明は、単語の品
詞その他の情報から表層の並びの出現確率を定義したコ
ストテーブルを利用して、単語辞書に登録がなかった未
登録語および接続コストがあらかじめ定められた閾値よ
り高い単語に対して接続コストが閾値より低い同音語が
ある場合、すなわち文法的により確からしい単語の並び
が存在する場合に限って誤字候補を出力するようにした
ことにより、人間が目でチェックする場合に比べて、利
用者の負担なしで間違いの少ない誤字の抽出を行うこと
ができるという効果がある。
【0019】また、間違えやすい同音語のセットという
ような他の知識ベースが構築される前から、文法的な不
安定さをもたらす同音異義の誤字候補を抽出することが
できるという効果がある。
【0020】さらに、同音語が存在する場合にただ出力
する方式に比べて、誤字の抽出効率を格段的に向上させ
ることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文書誤字抽出方式の構
成を示すブロック図である。
【図2】本実施例の文書誤字抽出方式における入力文書
の解析の流れの一例を示す図である。
【符号の説明】
1−1  入力装置 1−2  単語辞書 1−4  コストテーブル 1−3  形態素解析手段 1−5  同音語辞書 1−6  同音語候補チェック手段 1−7  誤字候補出力手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  日本語の文書中の誤字を抽出する文書
    誤字抽出方式において、機械処理用に構成された単語辞
    書と、単語間の接続コストを定義するコストテーブルと
    、同音語をグループ化して互いに参照可能にした同音語
    辞書と、前記単語辞書の辞書情報に従って入力文書を単
    語単位に切り分け前記コストテーブルを参照して隣接単
    語間の接続コストを求める形態素解析手段と、この形態
    素解析手段による形態素解析の結果前記単語辞書に登録
    がなかった未登録語および接続コストがあらかじめ定め
    られた閾値より高い単語に対して前記単語辞書,前記コ
    ストテーブルおよび前記同音語辞書を参照して接続コス
    トが閾値より低い同音語があるかどうかをチェックする
    同音語候補チェック手段と、この同音語候補チェック手
    段により接続コストが閾値より低い同音語があるとされ
    た単語を誤字候補として出力する誤字候補出力手段とを
    有することを特徴とする文書誤字抽出方式。
JP2406292A 1990-12-06 1990-12-06 文書誤字抽出方式 Pending JPH04213155A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2406292A JPH04213155A (ja) 1990-12-06 1990-12-06 文書誤字抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2406292A JPH04213155A (ja) 1990-12-06 1990-12-06 文書誤字抽出方式

Publications (1)

Publication Number Publication Date
JPH04213155A true JPH04213155A (ja) 1992-08-04

Family

ID=18515905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2406292A Pending JPH04213155A (ja) 1990-12-06 1990-12-06 文書誤字抽出方式

Country Status (1)

Country Link
JP (1) JPH04213155A (ja)

Similar Documents

Publication Publication Date Title
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
US20040193399A1 (en) System and method for word analysis
JP2536633B2 (ja) 複合語抽出装置
JPH04213155A (ja) 文書誤字抽出方式
JPH0795323B2 (ja) 自然言語処理装置
JP2821143B2 (ja) 形態素分解装置
JPH0736686A (ja) 影響検索装置
JP4039635B2 (ja) 言語情報処理装置
JPS63136269A (ja) 自動翻訳装置
JPH087046A (ja) 文書認識装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPS6368972A (ja) 未登録語処理方式
JP3143906B2 (ja) 未知語の存在の判定装置
JPS61281367A (ja) 英語解析における名詞句決定方式
JPH01292569A (ja) 日本文誤り自動検定装置
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JPH05233686A (ja) 日本語処理装置
JPH0660114A (ja) 簡易形態素解析方法
JPH0869467A (ja) 日本語文書処理装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JPH0432958A (ja) 日本文誤り語検出装置
JPH0546612A (ja) 文章誤り検出装置
JPH01185766A (ja) かな漢字変換装置