JPH0432958A - 日本文誤り語検出装置 - Google Patents

日本文誤り語検出装置

Info

Publication number
JPH0432958A
JPH0432958A JP2133319A JP13331990A JPH0432958A JP H0432958 A JPH0432958 A JP H0432958A JP 2133319 A JP2133319 A JP 2133319A JP 13331990 A JP13331990 A JP 13331990A JP H0432958 A JPH0432958 A JP H0432958A
Authority
JP
Japan
Prior art keywords
word
error
partial character
sentence
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2133319A
Other languages
English (en)
Inventor
Shiyou Imagou
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2133319A priority Critical patent/JPH0432958A/ja
Publication of JPH0432958A publication Critical patent/JPH0432958A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Input From Keyboards Or The Like (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 投嘉分互 本発明は、日本文誤り語検出装置に関し、文字コードで
電子的に表現された日本語文章を対象として、その中に
含まれる誤った表記の語を検出する日本文誤り語検出装
置に関する。特に日本語ワードプロセッサなどのキーボ
ードを用いて入力される文章を対象とし、タイプミスや
かな漢字変換ミスのために表記を誤っている可能性のあ
る語を検出する日本文誤り語検出装置に関する。例えば
、日本語ワードプロセッサ等での校正支援機能として応
用できる。
従米肢生 本発明に係る従来技術、すなわち日本文を対象とした誤
り検出方式の一例を記載した公知文献としては「日本語
文章作成支援システムCOMETJ(福島外3名、電子
情報通信学会技術報告0586−21.1986年)が
ある。
以下、上記公知文献に記載されている誤り検出方式につ
いて説明する。この誤り検出方式によれば、まず形態素
解析に失敗した箇所を誤りと認定する方式がある。形態
素解析とは既に広く知られている技術で、文章を単語単
位に分割するとともに、その品詞を認定する処理である
。致方語〜数十万語の単語の表記とその品詞を記録した
単語辞書と、それぞれの品詞が互いに文法的に接続可能
かどうかという情報を記録した接続表を使用する。
この接続表を使って、与えられた文を互いに文法的に接
続可能な単語の列に分解する。このとき単語の品詞も認
定することができる。文章中で形態素解析に失敗する箇
所は、単語辞書に登録されていない語が使われているか
何らかの誤りがあるかのどちらかである。単語辞書に十
分な数の単語が登録されていれば、形態素解析に失敗す
る箇所を誤りと認定してもよい。
次に、KWIC表示により人間が誤りを見つける方式が
ある。KWICとは、KeyWord In Cont
extの略で、文章中で使われている単語(文字列)を
その前後の文字列とともに表示したものである。文字列
は文字コード順などで表示され、誤りを含むような見な
れない文字列の発見が容易になっている。
しかしながら、形態素解析に失敗した箇所を誤りと認定
する前記の方式によると以下のような欠点がある。すな
わち、まず誤り検出能力が不十分であるという欠点であ
る。もし文章に誤りが含まれていたとしても、その誤り
を検出できないことが多い。特に漢字複合語の一部が別
の誤った漢字になっている箇所は検出できないことが多
い。例えば、′講演前に”とすべき箇所を誤って“公園
前″と入力したとしても、形態素解析では′公園′(名
詞)十′前′ (接尾辞)というように分割できるので
、誤りとして検出することはできない。
次に、誤りを過剰に検出するという欠点である。
一般に単語辞書には致方語以上の単語が登録されている
が、実際に使われる単語で登録されていない語は多い。
特にカタカナ表記の語は専門用語や新しい概念を表現す
るために使われることが多いので、単語辞書に登録され
ていないものが多い。
したがって、この方式ではカタカナ語の多くを間違って
誤りであると検出してしまう。
また、KすIC表示により人間が誤りを見つける前記の
方式によると、1nIc表示から誤りを見つけるには、
膨大な表示のすべてを人間が調べなければならず、利用
者の負担が過大なものになる。したがって、このような
機能が用意されていてもほとんど利用されないことが予
想される。また、原理的にはすべての誤りを見つけられ
る可能性はあるが、実際には人間が調べる以上必ず見落
としが発生する。調べなければならない量が多ければ多
いほど見落としも増加するという欠点がある。
■−−敗 本発明は、上述のごとき実情に鑑みてなされたもので、
誤りがある可能性のある箇所だけを検出して人間の負担
を軽減すること、また、間違った誤り検出を少なくする
こと、更に構文的には正しいが実際は誤っている箇所も
検出できるようにした日本文誤り語検出装置を提供する
ことを目的としてなされたものである。
璽−一一腹 本発明は、上記目的を達成するために、(1)文字コー
ドで電子的に表現された日本文を対象として誤り語を検
出する日本文誤り語検出装置において、文章を字種の変
化点を境界として部分文字列に分割する文章分割手段と
、カタカナの部分文字列の出現回数を計数する部分文字
列計数手段と。
該部分文字列計数手段により計数される部分文字列の出
現回数が1回の部分文字列を誤り語として検出する誤り
検出手段とから成ること、或いは。
(2)文字コードで電子的に表現された日本文を対象と
して誤り語を検出する日本文誤り語検出装置において、
文章を形態素解析し、単語単位に分割する文章分割手段
と、名詞に相当する単語列の出現回数を計数する部分文
字列計数手段と、該部公文字列計数手段により計数され
る単語列の出現回数が1回の部分文字列を誤り語として
検出する誤り検出手段とから成ること、更には、(3)
前記部分文字列計数手段により計数される単語列の出現
回数が1回の部分文字列で、単語辞書に登録されていな
いものを誤り語として検出する誤り検出手段を有するこ
とを特徴としたものである。以下、本発明の実施例に基
づいて説明する。
第1図は、本発明による日本文誤り語検出装置の一実施
例を説明するための構成図で、図中、1は文章分割手段
、2は部分文字列計数手段、3は誤り検出手段である。
文章分割手段1は、与えられた日本語の文章を単語に相
当するような部分文字列に分割する。文章は文字コード
で表現されており、電子的に処理可能な形態になってい
るものとする。部分文字列計数手段2は、文章分割手段
によって分割されたそれぞれの文字列を部分文字列とよ
ぶが、ここでは、ある条件に当てはまる部分文字列だけ
を対象とし、同じ部分文字列が文章中に何回出現するか
を数える。誤り検出手段3は、基本的には、部分文字列
計数手段によって計数された部分文字列のうち、1回し
かその文章で使われなかったものを誤り語として検出す
る。これは、普通の語は文章中で複数回使われることが
多く、同じ誤りを含む語は文章中で1回しか現れないと
いう見通しに基づいている。
第2図は、本発明による日本文誤り語検出装置の動作を
説明するためのフローチャートである。
以下、各ステップに従って順に説明する。
射」壮:与えられた日本語の文章を字種の変化点で分割
する。すなわち、文章を、カタカナから他の文字へ、他
の文字からカタカナへという2種類の字種の変化点で分
割する。分割後の部分文字列には、カタカナのみからな
る文字列と、カタカナ以外の文字のみからなる文字列と
の2種類があることになる。
射」4:次にカタカナの部分文字列を計数する。
すなわち、カタカナのみからなる部分文字列だけを対象
として、同じ文字列が文章中で何回使われているかを計
数する。
射μ棧:次に計数されたカタカナの部分文字列が文章中
で1回しか用いられていないかどうか判断する。文章中
で1回しか用いられていないカタカナの部分文字列を誤
り語であると認定する。
射μA二次に計数されたカタカナの部分文字列が文★中
で1回しか用いられていない場合には、検出した誤り語
をユーザに提示し、必要なら訂正する。
カタカナで表記される語は、専門用語や新概念を表すこ
とが多く、文章中で重要な語であることが多い。カタカ
ナ語が文章中で1回しか出現しないことは珍しく、何度
も使われるのが普通である。
しかし、′コンプータ′のようにタイプミスなどが原因
で発生する誤り語が1つの文章中の複数回現れることは
ほとんどない。したがって、上記の方法でカタカナの誤
り語の大部分を検出することができる。以上の説明は請
求項1の説明に相当する。
第3図は、本発明による日本文誤り語検出装置の動作を
説明するための他のフローチャートである。以下、各ス
テップに従って順に説明する。
Bμ壮:形態素解析により文章を単語単位に分割すると
ともに品詞を認定する。この場合の形態素解析は、まず
、句読点と字種の情報だけを用いて文節境界の認定を行
い1次に文節内での単語の品詞と活用形の決定を行うも
のである。この形態素解析については、例えば、「国語
辞書の記憶と日本語文の自動分割」(長丸外3名、情報
処理VO1,19N(L6.1978年)に述べられて
いるように知られているものである。
旦」4:次に部分文字列の作成を行う。すなわち、連続
する接頭辞・名詞・接尾辞をまとめて1つの部分文字列
とする。つまり、先頭が接頭辞または名詞で、その後ろ
に接頭辞・名詞・接尾辞のどれかが続き、名詞または接
尾辞で終了するような最長の連続した単語列を1つの部
分文字列とする。ただし、接頭辞の直後に接尾辞が続く
ことはないものとする。また、接頭辞・名詞・接尾辞以
外の品詞の単語は部分文字列とはしない。
例えば、″ついに世界新記録で、″という文は、6つい
に/世界/新/記録/で/、”と形態素解析され、″世
界新記録”という部分文字列が取り出される。
射μ見二次に部分文字列の計数を行う。
7:次に計数された部分文字列が文章中で1回しか用い
られていないかどうか判断する。
すなわち、文章中で1回しか用いられていない部分文字
列を誤り語の候補として抽出する。
1月扱二計数された部分文字列が文章中で1回しか用い
られていない場合は、次に単語辞書に登録されていない
かどうか判断する。
1月則:単語辞書に登録されていない場合には、誤りで
あるとユーザに提示する。すなわち、誤り語候補が形態
素解析で使用する単語辞書に登録されていない場合に限
って誤りであると認定する。
単語辞書には、大抵の複合語でない名詞が登録されてい
る。そのため、ここに登録されている語はたとえ1回し
か文章中で出現していなくても誤りである可能性は低い
。登録されていない語は、複合語であるか誤り語である
かのどちらかである。
複合語はカタカナ語と同様に、専門用語や新概念を表す
ことが多く、文章中で重要な語であることが多い。複合
語が文章中で1回しか出現しないことは珍しく、何度も
使われるのが普通である。
しかし、′世界新記録で′を誤って′世界新記録手′と
入力してしまった場合のように、タイプミスやかな漢字
変換などが原因で発生する誤り語が1つの文章中に複数
回現れることはほとんどない。したがって、上記の方法
で複合語の誤りの大部分を検出することができる。以上
の説明は請求項2,3の説明に相当する。
羞−一果 以上の説明から明らかなように、本発明によると、以下
のような効果がある。
(1)請求項1に対応する効果;誤っている可能性のあ
る箇所だけを指摘するのでユーザの負担が少なく、また
、正しい表記を登録しておく必要がないのでカタカナ語
に対する余計な(誤った)誤り検出が少ない。さらに、
文法情報を使わないので構文的には正しいが実際は誤っ
ている箇所も検出できる。
(2)請求項2に対応する効果;誤っている可能性のあ
る箇所だけを指摘するのでユーザの負担が少なく、また
、誤り検出に直接文法情報を使わないので構文的には正
しいが実際は誤っている箇所も検出できる。さらに、字
種情報を使わないので字種に関係なく誤りを検出できる
(3) titl求項3に対応する効果;正しい表記か
どうかを検査するので余計な(間違った)誤り検出が少
ない。
【図面の簡単な説明】
第1図は、本発明による日本文誤り語検出装置の一実施
例を説明するための構成図、第2図は、本発明による日
本文誤り語検出装置の動作を説明するためのフローチャ
ート、第3図は、日本文誤り語検出装置の動作を説明す
るための他のフローチャートである。 1・・・文章分割手段、2・・・部分文字列計数手段、
3・・・誤り検出手段。

Claims (1)

  1. 【特許請求の範囲】 1、文字コードで電子的に表現された日本文を対象とし
    て誤り語を検出する日本文誤り語検出装置において、文
    章を字種の変化点を境界として部分文字列に分割する文
    章分割手段と、カタカナの部分文字列の出現回数を計数
    する部分文字列計数手段と、該部分文字列計数手段によ
    り計数される部分文字列の出現回数が1回の部分文字列
    を誤り語として検出する誤り検出手段とから成ること特
    徴とする日本文誤り語検出装置。 2、文字コードで電子的に表現された日本文を対象とし
    て誤り語を検出する日本文誤り語検出装置において、文
    章を形態素解析し、単語単位に分割する文章分割手段と
    、名詞に相当する単語列の出現回数を計数する部分文字
    列計数手段と、該部分文字列計数手段により計数される
    単語列の出現回数が1回の部分文字列を誤り語として検
    出する誤り検出手段とから成ることを特徴とする日本文
    誤り語検出装置。 3、前記部分文字列計数手段により計数される単語列の
    出現回数が1回の部分文字列で、単語辞書に登録されて
    いないものを誤り語として検出する誤り検出手段を有す
    ることを特徴とする請求項2記載の日本文誤り語検出装
    置。
JP2133319A 1990-05-22 1990-05-22 日本文誤り語検出装置 Pending JPH0432958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2133319A JPH0432958A (ja) 1990-05-22 1990-05-22 日本文誤り語検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2133319A JPH0432958A (ja) 1990-05-22 1990-05-22 日本文誤り語検出装置

Publications (1)

Publication Number Publication Date
JPH0432958A true JPH0432958A (ja) 1992-02-04

Family

ID=15101917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2133319A Pending JPH0432958A (ja) 1990-05-22 1990-05-22 日本文誤り語検出装置

Country Status (1)

Country Link
JP (1) JPH0432958A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0915027A1 (en) 1997-11-10 1999-05-12 Taihei Paper Manufacturing Co.,LTD. Container closure system with inner seal in cap

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0915027A1 (en) 1997-11-10 1999-05-12 Taihei Paper Manufacturing Co.,LTD. Container closure system with inner seal in cap
US6277478B1 (en) 1997-11-10 2001-08-21 Taihei Paper Manufacturing Container closure system with inner seal in cap

Similar Documents

Publication Publication Date Title
US6466901B1 (en) Multi-language document search and retrieval system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Zhang et al. Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm
JPH0211934B2 (ja)
Asahara et al. Japanese unknown word identification by character-based chunking
Le Thanh et al. Automated discourse segmentation by syntactic information and cue phrases
JPH0432958A (ja) 日本文誤り語検出装置
JPH09325962A (ja) 文書校正装置およびプログラム記憶媒体
Moghadam et al. A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
JPS62130458A (ja) かな漢字変換処理方式
JP3132058B2 (ja) 文章検査装置
JPS60164864A (ja) デ−タ処理装置
Kawada et al. Linguistic error correction of Japanese sentences
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPS6394364A (ja) 日本文誤字自動修正装置
JP2575947B2 (ja) 文節切出し装置
JPH087046A (ja) 文書認識装置
Ahmed et al. Detection of foreign entities in native text using n-gram based cumulative frequency addition
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH01292569A (ja) 日本文誤り自動検定装置
JPH03156589A (ja) 誤読文字の検出,修正方法
JPS6382542A (ja) 日本文訂正候補文字抽出装置
Okuma et al. Bypassed Alignment Graph for Learning Coordination inJapanese Sentences: Supplementary Material
JPH0248938B2 (ja)
JPH0546612A (ja) 文章誤り検出装置