JPH0432958A

JPH0432958A - 日本文誤り語検出装置

Info

Publication number: JPH0432958A
Application number: JP2133319A
Authority: JP
Inventors: Shiyou Imagou; 詔今郷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-05-22
Filing date: 1990-05-22
Publication date: 1992-02-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】投嘉分互本発明は、日本文誤り語検出装置に関し、文字コードで
電子的に表現された日本語文章を対象として、その中に
含まれる誤った表記の語を検出する日本文誤り語検出装
置に関する。特に日本語ワードプロセッサなどのキーボ
ードを用いて入力される文章を対象とし、タイプミスや
かな漢字変換ミスのために表記を誤っている可能性のあ
る語を検出する日本文誤り語検出装置に関する。例えば
、日本語ワードプロセッサ等での校正支援機能として応
用できる。

従米肢生本発明に係る従来技術、すなわち日本文を対象とした誤
り検出方式の一例を記載した公知文献としては「日本語
文章作成支援システムＣＯＭＥＴＪ（福島外３名、電子
情報通信学会技術報告０５８６−２１．１９８６年）が
ある。

以下、上記公知文献に記載されている誤り検出方式につ
いて説明する。この誤り検出方式によれば、まず形態素
解析に失敗した箇所を誤りと認定する方式がある。形態
素解析とは既に広く知られている技術で、文章を単語単
位に分割するとともに、その品詞を認定する処理である
。致方語〜数十万語の単語の表記とその品詞を記録した
単語辞書と、それぞれの品詞が互いに文法的に接続可能
かどうかという情報を記録した接続表を使用する。

この接続表を使って、与えられた文を互いに文法的に接
続可能な単語の列に分解する。このとき単語の品詞も認
定することができる。文章中で形態素解析に失敗する箇
所は、単語辞書に登録されていない語が使われているか
何らかの誤りがあるかのどちらかである。単語辞書に十
分な数の単語が登録されていれば、形態素解析に失敗す
る箇所を誤りと認定してもよい。

次に、ＫＷＩＣ表示により人間が誤りを見つける方式が
ある。ＫＷＩＣとは、ＫｅｙＷｏｒｄ　Ｉｎ　Ｃｏｎｔ
ｅｘｔの略で、文章中で使われている単語（文字列）を
その前後の文字列とともに表示したものである。文字列
は文字コード順などで表示され、誤りを含むような見な
れない文字列の発見が容易になっている。

しかしながら、形態素解析に失敗した箇所を誤りと認定
する前記の方式によると以下のような欠点がある。すな
わち、まず誤り検出能力が不十分であるという欠点であ
る。もし文章に誤りが含まれていたとしても、その誤り
を検出できないことが多い。特に漢字複合語の一部が別
の誤った漢字になっている箇所は検出できないことが多
い。例えば、′講演前に”とすべき箇所を誤って“公園
前″と入力したとしても、形態素解析では′公園′（名
詞）十′前′　（接尾辞）というように分割できるので
、誤りとして検出することはできない。

次に、誤りを過剰に検出するという欠点である。

一般に単語辞書には致方語以上の単語が登録されている
が、実際に使われる単語で登録されていない語は多い。

特にカタカナ表記の語は専門用語や新しい概念を表現す
るために使われることが多いので、単語辞書に登録され
ていないものが多い。

したがって、この方式ではカタカナ語の多くを間違って
誤りであると検出してしまう。

また、ＫすＩＣ表示により人間が誤りを見つける前記の
方式によると、１ｎＩｃ表示から誤りを見つけるには、
膨大な表示のすべてを人間が調べなければならず、利用
者の負担が過大なものになる。したがって、このような
機能が用意されていてもほとんど利用されないことが予
想される。また、原理的にはすべての誤りを見つけられ
る可能性はあるが、実際には人間が調べる以上必ず見落
としが発生する。調べなければならない量が多ければ多
いほど見落としも増加するという欠点がある。

■−−敗本発明は、上述のごとき実情に鑑みてなされたもので、
誤りがある可能性のある箇所だけを検出して人間の負担
を軽減すること、また、間違った誤り検出を少なくする
こと、更に構文的には正しいが実際は誤っている箇所も
検出できるようにした日本文誤り語検出装置を提供する
ことを目的としてなされたものである。

璽−一一腹本発明は、上記目的を達成するために、（１）文字コー
ドで電子的に表現された日本文を対象として誤り語を検
出する日本文誤り語検出装置において、文章を字種の変
化点を境界として部分文字列に分割する文章分割手段と
、カタカナの部分文字列の出現回数を計数する部分文字
列計数手段と。

該部分文字列計数手段により計数される部分文字列の出
現回数が１回の部分文字列を誤り語として検出する誤り
検出手段とから成ること、或いは。

（２）文字コードで電子的に表現された日本文を対象と
して誤り語を検出する日本文誤り語検出装置において、
文章を形態素解析し、単語単位に分割する文章分割手段
と、名詞に相当する単語列の出現回数を計数する部分文
字列計数手段と、該部公文字列計数手段により計数され
る単語列の出現回数が１回の部分文字列を誤り語として
検出する誤り検出手段とから成ること、更には、（３）
前記部分文字列計数手段により計数される単語列の出現
回数が１回の部分文字列で、単語辞書に登録されていな
いものを誤り語として検出する誤り検出手段を有するこ
とを特徴としたものである。以下、本発明の実施例に基
づいて説明する。

第１図は、本発明による日本文誤り語検出装置の一実施
例を説明するための構成図で、図中、１は文章分割手段
、２は部分文字列計数手段、３は誤り検出手段である。

文章分割手段１は、与えられた日本語の文章を単語に相
当するような部分文字列に分割する。文章は文字コード
で表現されており、電子的に処理可能な形態になってい
るものとする。部分文字列計数手段２は、文章分割手段
によって分割されたそれぞれの文字列を部分文字列とよ
ぶが、ここでは、ある条件に当てはまる部分文字列だけ
を対象とし、同じ部分文字列が文章中に何回出現するか
を数える。誤り検出手段３は、基本的には、部分文字列
計数手段によって計数された部分文字列のうち、１回し
かその文章で使われなかったものを誤り語として検出す
る。これは、普通の語は文章中で複数回使われることが
多く、同じ誤りを含む語は文章中で１回しか現れないと
いう見通しに基づいている。

第２図は、本発明による日本文誤り語検出装置の動作を
説明するためのフローチャートである。

以下、各ステップに従って順に説明する。

射」壮：与えられた日本語の文章を字種の変化点で分割
する。すなわち、文章を、カタカナから他の文字へ、他
の文字からカタカナへという２種類の字種の変化点で分
割する。分割後の部分文字列には、カタカナのみからな
る文字列と、カタカナ以外の文字のみからなる文字列と
の２種類があることになる。

射」４：次にカタカナの部分文字列を計数する。

すなわち、カタカナのみからなる部分文字列だけを対象
として、同じ文字列が文章中で何回使われているかを計
数する。

射μ棧：次に計数されたカタカナの部分文字列が文章中
で１回しか用いられていないかどうか判断する。文章中
で１回しか用いられていないカタカナの部分文字列を誤
り語であると認定する。

射μＡ二次に計数されたカタカナの部分文字列が文★中
で１回しか用いられていない場合には、検出した誤り語
をユーザに提示し、必要なら訂正する。

カタカナで表記される語は、専門用語や新概念を表すこ
とが多く、文章中で重要な語であることが多い。カタカ
ナ語が文章中で１回しか出現しないことは珍しく、何度
も使われるのが普通である。

しかし、′コンプータ′のようにタイプミスなどが原因
で発生する誤り語が１つの文章中の複数回現れることは
ほとんどない。したがって、上記の方法でカタカナの誤
り語の大部分を検出することができる。以上の説明は請
求項１の説明に相当する。

第３図は、本発明による日本文誤り語検出装置の動作を
説明するための他のフローチャートである。以下、各ス
テップに従って順に説明する。

Ｂμ壮：形態素解析により文章を単語単位に分割すると
ともに品詞を認定する。この場合の形態素解析は、まず
、句読点と字種の情報だけを用いて文節境界の認定を行
い１次に文節内での単語の品詞と活用形の決定を行うも
のである。この形態素解析については、例えば、「国語
辞書の記憶と日本語文の自動分割」（長丸外３名、情報
処理ＶＯ１，１９Ｎ（Ｌ６．１９７８年）に述べられて
いるように知られているものである。

旦」４：次に部分文字列の作成を行う。すなわち、連続
する接頭辞・名詞・接尾辞をまとめて１つの部分文字列
とする。つまり、先頭が接頭辞または名詞で、その後ろ
に接頭辞・名詞・接尾辞のどれかが続き、名詞または接
尾辞で終了するような最長の連続した単語列を１つの部
分文字列とする。ただし、接頭辞の直後に接尾辞が続く
ことはないものとする。また、接頭辞・名詞・接尾辞以
外の品詞の単語は部分文字列とはしない。

例えば、″ついに世界新記録で、″という文は、６つい
に／世界／新／記録／で／、”と形態素解析され、″世
界新記録”という部分文字列が取り出される。

射μ見二次に部分文字列の計数を行う。

７：次に計数された部分文字列が文章中で１回しか用い
られていないかどうか判断する。

すなわち、文章中で１回しか用いられていない部分文字
列を誤り語の候補として抽出する。

１月扱二計数された部分文字列が文章中で１回しか用い
られていない場合は、次に単語辞書に登録されていない
かどうか判断する。

１月則：単語辞書に登録されていない場合には、誤りで
あるとユーザに提示する。すなわち、誤り語候補が形態
素解析で使用する単語辞書に登録されていない場合に限
って誤りであると認定する。

単語辞書には、大抵の複合語でない名詞が登録されてい
る。そのため、ここに登録されている語はたとえ１回し
か文章中で出現していなくても誤りである可能性は低い
。登録されていない語は、複合語であるか誤り語である
かのどちらかである。

複合語はカタカナ語と同様に、専門用語や新概念を表す
ことが多く、文章中で重要な語であることが多い。複合
語が文章中で１回しか出現しないことは珍しく、何度も
使われるのが普通である。

しかし、′世界新記録で′を誤って′世界新記録手′と
入力してしまった場合のように、タイプミスやかな漢字
変換などが原因で発生する誤り語が１つの文章中に複数
回現れることはほとんどない。したがって、上記の方法
で複合語の誤りの大部分を検出することができる。以上
の説明は請求項２，３の説明に相当する。

羞−一果以上の説明から明らかなように、本発明によると、以下
のような効果がある。

（１）請求項１に対応する効果；誤っている可能性のあ
る箇所だけを指摘するのでユーザの負担が少なく、また
、正しい表記を登録しておく必要がないのでカタカナ語
に対する余計な（誤った）誤り検出が少ない。さらに、
文法情報を使わないので構文的には正しいが実際は誤っ
ている箇所も検出できる。

（２）請求項２に対応する効果；誤っている可能性のあ
る箇所だけを指摘するのでユーザの負担が少なく、また
、誤り検出に直接文法情報を使わないので構文的には正
しいが実際は誤っている箇所も検出できる。さらに、字
種情報を使わないので字種に関係なく誤りを検出できる
。

（３）　ｔｉｔｌ求項３に対応する効果；正しい表記か
どうかを検査するので余計な（間違った）誤り検出が少
ない。

【図面の簡単な説明】

第１図は、本発明による日本文誤り語検出装置の一実施
例を説明するための構成図、第２図は、本発明による日
本文誤り語検出装置の動作を説明するためのフローチャ
ート、第３図は、日本文誤り語検出装置の動作を説明す
るための他のフローチャートである。１・・・文章分割手段、２・・・部分文字列計数手段、
３・・・誤り検出手段。

Claims

【特許請求の範囲】１、文字コードで電子的に表現された日本文を対象とし
て誤り語を検出する日本文誤り語検出装置において、文
章を字種の変化点を境界として部分文字列に分割する文
章分割手段と、カタカナの部分文字列の出現回数を計数
する部分文字列計数手段と、該部分文字列計数手段によ
り計数される部分文字列の出現回数が１回の部分文字列
を誤り語として検出する誤り検出手段とから成ること特
徴とする日本文誤り語検出装置。２、文字コードで電子的に表現された日本文を対象とし
て誤り語を検出する日本文誤り語検出装置において、文
章を形態素解析し、単語単位に分割する文章分割手段と
、名詞に相当する単語列の出現回数を計数する部分文字
列計数手段と、該部分文字列計数手段により計数される
単語列の出現回数が１回の部分文字列を誤り語として検
出する誤り検出手段とから成ることを特徴とする日本文
誤り語検出装置。３、前記部分文字列計数手段により計数される単語列の
出現回数が１回の部分文字列で、単語辞書に登録されて
いないものを誤り語として検出する誤り検出手段を有す
ることを特徴とする請求項２記載の日本文誤り語検出装
置。