JPH01292569A

JPH01292569A - 日本文誤り自動検定装置

Info

Publication number: JPH01292569A
Application number: JP63123388A
Authority: JP
Inventors: Shinichiro Takagi; 伸一郎高木; Katsumi Shimazaki; 島崎　勝美; Tsuneo Yasuda; 安田　恒雄; Yoshihiko Hayashi; 良彦林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1988-05-20
Filing date: 1988-05-20
Publication date: 1989-11-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、日本語文書データベース作成等のため、入力
装置から読み込まれた漢字かな混じりの日本文中の、漢
字列複合語文字列に含まれる同音異義語誤りの自動検定
を行う日本文誤り自動検定装置に関する。

〔従来の技術〕

出′版用°原稿、゛科学技術論文、私的な報告書、事務
文書管の日本文文書を作成する際に、日本語ワードプロ
セッサを使用する機会が増え、この結果、基本となるか
な漢字変換に応じた誤りの混入を指摘する機能あるいは
その訂正機能の必要性が要望されている。

一般に日本語ワードプロセッサでは、かな列を入力し、
単語あるいは文節単位の一括変換を実施するため、単語
変換誤りや変換域誤り等によって８同音異義語選択誤り
が発生する。この種の同音異義語誤りは、同音異義語の
意味的な使い分けを熟知する必要があるため、単に原文
文書作成の過程でも作成者の思込みによる使用誤りが頻
発する。

さらに、文字認識装置においても同音異義語誤りが発生
する。

このように高頻度で発生する同音異義語誤りを検定する
ためには、使用状況において単語間の意味的な連接関係
を厳密にチエツクする必要があり、このためには同音異
義語専用の意味辞書を作成する必要があるが、同音異義
語は一般に意味属性が近接しているほか、特に漢字列複
合語では前後の単語との連接関係の微妙な違いを検定す
、る必要があり、従来、自動検定は実現されていない。

また、人手による検定者の思い込みや使用法の不明確性
により同音異義語の検定精度が十分ではない。

〔発明が解決しようとする課題〕　　　　　　。

このように、日本語文書データベース作成等の際、従来
は同音異義語の誤りの検定を人手に頼らなくてはならず
、さらに、その人手による検定でも十分検定精度が得ら
れず、検定の実現性、検定精度、検定速傅の点で問題が
あった。

本発明の目的は、入力された日本文中の漢字列複合文字
列内に含まれる単純な単語変換誤りや同音異義誤りの検
出および訂正処理を、精度よく、バラツキもなく、自動
的に行う日本文誤り自動検定装置を提供することにある
。

〔課題を解決するための手段〕

本発明の日本文誤り自動検定装置は、入力日米文の形態
素解析を行い、漢字列複合語内の単語を分割する形態素
解析部と、予め同じ読みの漢字単キーとしてグループ化
し収録した爾音異決語テープ元と、予め抽出したＮ文字
のパターンに関する出現頻度情報に基づいて算定された
各Ｎ文字の文字連接確率情報を、各Ｎ文字をキー夏して
保持する文字連接確率辞書と、上記漢字列複合語内の単
語が１藷同音異義語テーブル内に存在する場合、該単語
を同音異義語誤り゛の検定対象とする尼共に、同音異義
語テーブルより当該同音異義語の属する同音異義語群を
抽出する同音異義語抽出部と、上記漢字列複合語内の検
定対′象となる同音異義語の前後の文字と当該同音異義
語の文字との文字連接確率を上記文字連接確率辞書を用
いた調べ、その値が予め設定した基準値よりも小さい場
合に該当同音異義語を誤りと検定する同音異義語検定部
と、上記誤りと検定された場合に、上記同嵜異義語テー
ブルより抽出した同音異義語群内の候補のうち、文子連
接確率が最も高い同音異義語候補を訂正候補として選択
する同音異義語訂正部とを有することを特徴とする。

入力された日本文文書を対象に、日本語単語辞書および
文法辞書を用いた形態素解析によって認定された漢字列
複合語内の同音異義語について、該同音異義語の前後の
文字と該同音異義語の文字との文字連接確率を、予め作
成した文字連接確率辞書を用いて算定し、これが予め設
定した基準値より小さい場合に該同音異義語を誤りと検
定する。

さらに、同音異義語テーブルより同音異義語候補を抽出
し、前後の単語の文字列との文字連接確率が最大となる
同音異義語候補を訂正候補として選択し、□漢字列複合
語内に含まれる該同音異義語を訂正する。なお、同音異
義語訂正候補の選ｉ＜時に、全ての候補の文字連接確率
が原文の該同音異義語より小さい場合は訂正候補の選択
を行わず、同音異義語候補を出力し、文書作成者に選択
を依頼する。

〔実施例〕

以下、本発明の一実施例について図面により説明する。

第１図は本発明の一実施例の構成図を示す。第１図にお
いて、１は日本語ワードプロセッサ、ベンタッチタブレ
ータ等の入力装置である。２は日本文誤り自動検定装置
本体で、ハード的にはＣＰＵ、メモリ等で構成されるが
、機能的には入力処理部３、形態素解析部４、同音異義
語検定部５、同音異義語検定部６及び同音異義語訂正部
７よりなる。８は入力装置１によって読み込まれた日本
文が磁気装置等に文字コードの形式で記憶されている入
力文データベースである。９は日本語単語辞書、１０は
文法辞書である。１１は予め検定対象とする同音異義語
群を収録した同音異義語テーブル、１２は予め抽出した
Ｎ文字の文字列パターンの出現頻度より作成した文字連
接確率情報を保持する文字連接確率辞書である。１３は
誤り訂正された日本文文書データベースである。

入力装置１から入力された日本文文書は、入力処理部３
を介し、コード形式で入力日本文データベース８として
蓄積される。この入力日本文データベース３に対して、
形態素解析部４は日本語単語辞書９、文法辞書１０を用
いた単画候補抽出、品詞接続検定等の形態素解析を行っ
て、漢字列複合語における単語列を認定する。さらに、
予め同じ読みの漢字２文字単語で出現頻度の高い同音異
義語群をその読みをキーとしてグループ化し、その出現
頻度とＮもに収録した同音異義語テーブル１１を作成し
ておく。

同音異義語抽出部５は、形態素解析された漢字列複合語
内の単語について、その読みを用いて同音異義語テーブ
ル１１を検索し、検定すべき同音異義語が存在する場合
に、該同音異義語テーブル１１より候補となる同音異義
語群を抽出し、同音異義語検定部６での同音異義語の誤
り検定を開始せしめる。同音異義語検定部６は、予め抽
出したＮ文字のパターンに関する出現頻度情報に基づい
て算定された各Ｎ文字の文字連接確率情報を、各Ｎ文字
をキーとして保持する文字連接確率辞書１２を用いて、
漢字列複合順向の検定対象となる同音異義語の前後の文
字と同音異義語内の文字との文字連接確率を検索、算定
し、この値が予め設定。

した基準値よりも小さい場合に該当の原文内の同音異義
語を誤りと検定する。同音異義語訂正部７は、同音異義
語検定部６で誤りと認定された場合、既に抽出しである
同音異義語候補群について、文字連接確率辞書１２を用
いてそれぞれ同音異義語の前後に存在する文字と同音異
義胎内の文字との文字連接確率を求め、これらの値の最
も大きな同音異義語候補を訂正候補として選択する。こ
の誤り訂正された入力日本文は日本文文書データベース
１３に蓄積される。

なお、同音異義語訂正部７では、誤りとした原文中の同
音異義語の文字連接確率が、同音異義語候補の文字連接
確率のいずれよりも下回らない場合、訂正候補を選択せ
ず、同音異義語候補群をデイスプレィ等に出力し、文書
作成者に選択を依頼する。

以下、第１図の構成による具体的処理例について説明す
る。

第２図は２文字連接確率辞書を使用する場合の同音異義
語誤り検定及び訂正の処理例を示したものである。第２
図中、１４は同音異義語誤りを含む原文、１５は同音異
義語誤りの文字、１６は正字１，１７は漢字列複合語、
１８は同音異義語テーブル１１の索引によって検定対象
となった同音異義語、１９は同音異義語１８の前後に位
置する漢字単語、２０は同音異義語候補、２１は同音異
義語誤り検定処理、２２は２文字連接確率辞書による誤
り検出箇所、２３は同音異義語候補選択処理、２４は後
方２文字連接確率辞書による後方漢字「採」からの候補
選択処理、２５は後方漢字と接続確率が高い候補、２６
は後方２文字連接確率辞書、２７はその１文字キ一部、
２８は確率データ部、２９は確率データの参照の流れ、
３０は同音異義語誤り訂正後の原文文字列、３１は訂正
された同音異義語である。

原文文字列１４を形態素解析し、その結果「強硬採決ｊ
の漢字列複合語１７が抽出されたとする。

予め検定対象を収録した同音異義語テーブル１１内の同
音異義語が、この漢字列複合語１７の中に含まれる場合
（本例では、「強硬」の同音異義語１８）、まず、複合
語１７内の同音異義語１８以外の単語１９の文字（本例
ではパ採″）と原文内の同音異義語末尾の文字（本例で
はパ硬″″）との２文字連接確率を求め、この値がある
設定値（実施例では０．０１）以下である場合に、原文
内の該当の同音異義語１８を誤りとして検出する（処理
２１）。本例では、「強硬」が同音異義語誤りとして検
出される。次に、誤りと検出された同音異義語１８から
同音異義語テーブル１１を用いて訂正候補となる同音異
義語群２０を検索し、同音異義語群後の文字「採」と同
音異義語候補内の隣接する文字「行、攻、慌」との後方
２文字連接確率を求め、ある設定値（実施例ではｏ、ｏ
　１）を超える場合に該当の候補（本例では丸印の２５
）を抽出し、訂正候補として選択する（処理２３）。

これにより、同音異義語１８の「強硬」が「強行」に訂
正される。

第３図は３文字連接確率辞書を使用する場合の同音異義
語誤り検定及び訂正の処理例を示したものである。第３
図中、第２図と同一記号のものは同一の意味を表わして
いる。３２は３文字連接確率辞書による誤り検出箇所、
３３は前方３文字連接確率辞書による前方漢字「安全」
からの候補選択処理、３４はいずれの候補とも非接続で
あるマーク、３５は後方３文字連接確率辞書による後方
漢字「保障、補償」からの候補選択処理、３６は後方漢
字と接続確率が高い候補、３７は前方３文字の連接確率
辞書、３８はその２文字キ一部、３９は確率データ部、
４０は確率データの参照の流れ、４１は後方３文字連接
確率辞書、４２は２文字キ一部、４３は確率データ部、
４４は確率データの参照の流れである。

第３図では、「保証」の同音異義語１８が検定対象であ
り、検定外単語１９と同音異義語隣接１文字「保、補」
のいずれもある設定値（実施例では０．０１）を超えな
いため、同音異義語「保障、補償」の前方文字「全」と
の３文字連接確率から候補を選択している。なお、例え
ばいずれの同音異議語候補２０も設定値を超えなければ
、校正者に両者の同音異義語候補を提示して選択を依頼
する。

第４図は日本語ワードプロセッサ等の単純な単語変換誤
りによる誤字の検定及び訂正の処理例を示したものであ
る。第４図中、４５は単語変換誤りによる誤字、４６は
前方３文字連接確率辞書による前方漢字［産業」からの
候補選択処理、４７は接続確率が高い候補、４８は後方
３文字連接確率辞書による後方漢字「開発」あるいは「
都市」からの候補選択処理、４９は後方漢字と接続確率
が高い候補であり、それ以外は第３図の場合と同じであ
る。

第４図では、誤ったかな漢字変換された「年」を同音異
義語１８とし、同音異義語誤り検定処理２１で１年」を
同音異議語誤りとして検出し、同音異義語候補選択処理
２３で「都市」を選択している。処理は第２図や第３図
の場合と基本的に同じである。このように、単純な単語
変換誤りが発生しても、前後の単語との文字連接確率に
よる同音異義胎誤りと同一の手順で容易に単語変換誤り
を検出できる。さらに同音異義語テーブル内に変換誤り
の訂正候補を格納しておくことで、文字連接確率の最も
高い候補を選択できる。

このように、第１図の構成では、漢字列複合語内に含ま
れる単純な単語変換誤りおよび同音異義語誤りを、該同
音異義語の前後の文字と同音異義語内の文字との文字連
接確率によって容易に検出でき、さらに誤り検出時には
、予め作成した同音異議語テーブルを用いて、誤り検出
と同様の手段で訂正候補を選択できる。

〔発明の効果〕

以上説明したように、本発明の日本文誤り自動検定装置
においては、日本語単語辞書および文法辞書を用いた形
態素解析によって認定された漢字列複合語内の同音異義
語について、該同音異義語の前後の文字と該同音異義語
の文字との文字連接確率を予め作成した文字連接確率辞
書を用いて算定し、これが予め設定した基準値より小さ
い場合に該同音異義語を誤りと検定し、さらに同音異義
語テーブルより同音異義語候補を抽出し、前後の単語の
文字列との文字連接確率が最大となる同音異義語候補を
訂正候補として選択する機能を備又るので、人手によら
ずに、自動で漢字列複合語内に含まれる単純な単語変換
誤りや同音異義語誤りの検出および訂正候補選択処理を
実現でき、思い込み等のある人手処理とは異なり、検定
精度が高く、バラツキもなく、さらに、文字連接確率辞
書の高速索引処理により、検定速度も向上でき仝利点が
ある。

【図面の簡単な説明】

第１図は本発明の一実施例の構成図、第２図乃至第４図
は本発明による具体的処理例を示す図である。１・・・入力装置、２・・・日本文誤り自動検定装置本体、３・・・入力処
理部、　４・・・形態素解析部、５・・・同音異義語抽
出部、６・・・同音異義語検定部、７・・・同音異義語訂正部、８・・・入力日本文データベース、９・・・日本語単語辞書、　１０・・文法辞書、１１・
・・同音異義語テーブル、１２・・・文字連接確率辞書、１３・・・訂正済日本文文書データベース。代理人弁理士　　鈴　木　　　誠

Claims

【特許請求の範囲】

（１）入力日本文の漢字列複合語内に含まれる同音異義
語誤りを自動的に検出及び訂正する日本文誤り自動検定
装置において、入力日本文の形態素解析を行い、漢字列複合語内の単語
を分割する形態素解析部と、予め同じ読みの漢字単語で出現頻度の高い同音異義語群
を、その読みをキーとしてグループ化し収録した同音異
義語テーブルと、予め抽出したＮ文字のパターンに関する出現頻度情報に
基づいて算定された各Ｎ文字の文字連接確率情報を、各
Ｎ文字をキーとして保持する文字連接確率辞書と、上記漢字列複合語内の単語が上記同音異義語テーブル内
に存在する場合、該単語を同音異義語誤りの検定対象と
すると共に、同音異義語テーブルより当該同音異義語の
属する同音異義語群を抽出する同音異義語抽出部と、上記漢字列複合語内の検定対象となる同音異義語の前後
の文字と当該同音異義語の文字との文字連接確率を上記
文字連接確率辞書を用いて調べ、その値が予め設定した
基準値よりも小さい場合に該当同音異義語を誤りと検定
する同音異義語検定部と、上記誤りと検定された場合に、上記同音異義語テーブル
より抽出した同音異義語群内の候補のうち、文字連接確
率が最も高い同音異義語候補を訂正候補として選択する
同音異義語訂正部と、を有することを特徴とする日本文誤り自動検定装置。