JPH01292569A - 日本文誤り自動検定装置 - Google Patents

日本文誤り自動検定装置

Info

Publication number
JPH01292569A
JPH01292569A JP63123388A JP12338888A JPH01292569A JP H01292569 A JPH01292569 A JP H01292569A JP 63123388 A JP63123388 A JP 63123388A JP 12338888 A JP12338888 A JP 12338888A JP H01292569 A JPH01292569 A JP H01292569A
Authority
JP
Japan
Prior art keywords
homophone
character
homonym
probability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63123388A
Other languages
English (en)
Inventor
Shinichiro Takagi
伸一郎 高木
Katsumi Shimazaki
島崎 勝美
Tsuneo Yasuda
安田 恒雄
Yoshihiko Hayashi
良彦 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63123388A priority Critical patent/JPH01292569A/ja
Publication of JPH01292569A publication Critical patent/JPH01292569A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本語文書データベース作成等のため、入力
装置から読み込まれた漢字かな混じりの日本文中の、漢
字列複合語文字列に含まれる同音異義語誤りの自動検定
を行う日本文誤り自動検定装置に関する。
〔従来の技術〕
出′版用°原稿、゛科学技術論文、私的な報告書、事務
文書管の日本文文書を作成する際に、日本語ワードプロ
セッサを使用する機会が増え、この結果、基本となるか
な漢字変換に応じた誤りの混入を指摘する機能あるいは
その訂正機能の必要性が要望されている。
一般に日本語ワードプロセッサでは、かな列を入力し、
単語あるいは文節単位の一括変換を実施するため、単語
変換誤りや変換域誤り等によって8同音異義語選択誤り
が発生する。この種の同音異義語誤りは、同音異義語の
意味的な使い分けを熟知する必要があるため、単に原文
文書作成の過程でも作成者の思込みによる使用誤りが頻
発する。
さらに、文字認識装置においても同音異義語誤りが発生
する。
このように高頻度で発生する同音異義語誤りを検定する
ためには、使用状況において単語間の意味的な連接関係
を厳密にチエツクする必要があり、このためには同音異
義語専用の意味辞書を作成する必要があるが、同音異義
語は一般に意味属性が近接しているほか、特に漢字列複
合語では前後の単語との連接関係の微妙な違いを検定す
、る必要があり、従来、自動検定は実現されていない。
また、人手による検定者の思い込みや使用法の不明確性
により同音異義語の検定精度が十分ではない。
〔発明が解決しようとする課題〕      。
このように、日本語文書データベース作成等の際、従来
は同音異義語の誤りの検定を人手に頼らなくてはならず
、さらに、その人手による検定でも十分検定精度が得ら
れず、検定の実現性、検定精度、検定速傅の点で問題が
あった。
本発明の目的は、入力された日本文中の漢字列複合文字
列内に含まれる単純な単語変換誤りや同音異義誤りの検
出および訂正処理を、精度よく、バラツキもなく、自動
的に行う日本文誤り自動検定装置を提供することにある
〔課題を解決するための手段〕
本発明の日本文誤り自動検定装置は、入力日米文の形態
素解析を行い、漢字列複合語内の単語を分割する形態素
解析部と、予め同じ読みの漢字単キーとしてグループ化
し収録した爾音異決語テープ元と、予め抽出したN文字
のパターンに関する出現頻度情報に基づいて算定された
各N文字の文字連接確率情報を、各N文字をキー夏して
保持する文字連接確率辞書と、上記漢字列複合語内の単
語が1藷同音異義語テーブル内に存在する場合、該単語
を同音異義語誤り゛の検定対象とする尼共に、同音異義
語テーブルより当該同音異義語の属する同音異義語群を
抽出する同音異義語抽出部と、上記漢字列複合語内の検
定対′象となる同音異義語の前後の文字と当該同音異義
語の文字との文字連接確率を上記文字連接確率辞書を用
いた調べ、その値が予め設定した基準値よりも小さい場
合に該当同音異義語を誤りと検定する同音異義語検定部
と、上記誤りと検定された場合に、上記同嵜異義語テー
ブルより抽出した同音異義語群内の候補のうち、文子連
接確率が最も高い同音異義語候補を訂正候補として選択
する同音異義語訂正部とを有することを特徴とする。
入力された日本文文書を対象に、日本語単語辞書および
文法辞書を用いた形態素解析によって認定された漢字列
複合語内の同音異義語について、該同音異義語の前後の
文字と該同音異義語の文字との文字連接確率を、予め作
成した文字連接確率辞書を用いて算定し、これが予め設
定した基準値より小さい場合に該同音異義語を誤りと検
定する。
さらに、同音異義語テーブルより同音異義語候補を抽出
し、前後の単語の文字列との文字連接確率が最大となる
同音異義語候補を訂正候補として選択し、□漢字列複合
語内に含まれる該同音異義語を訂正する。なお、同音異
義語訂正候補の選i<時に、全ての候補の文字連接確率
が原文の該同音異義語より小さい場合は訂正候補の選択
を行わず、同音異義語候補を出力し、文書作成者に選択
を依頼する。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は本発明の一実施例の構成図を示す。第1図にお
いて、1は日本語ワードプロセッサ、ベンタッチタブレ
ータ等の入力装置である。2は日本文誤り自動検定装置
本体で、ハード的にはCPU、メモリ等で構成されるが
、機能的には入力処理部3、形態素解析部4、同音異義
語検定部5、同音異義語検定部6及び同音異義語訂正部
7よりなる。8は入力装置1によって読み込まれた日本
文が磁気装置等に文字コードの形式で記憶されている入
力文データベースである。9は日本語単語辞書、10は
文法辞書である。11は予め検定対象とする同音異義語
群を収録した同音異義語テーブル、12は予め抽出した
N文字の文字列パターンの出現頻度より作成した文字連
接確率情報を保持する文字連接確率辞書である。13は
誤り訂正された日本文文書データベースである。
入力装置1から入力された日本文文書は、入力処理部3
を介し、コード形式で入力日本文データベース8として
蓄積される。この入力日本文データベース3に対して、
形態素解析部4は日本語単語辞書9、文法辞書10を用
いた単画候補抽出、品詞接続検定等の形態素解析を行っ
て、漢字列複合語における単語列を認定する。さらに、
予め同じ読みの漢字2文字単語で出現頻度の高い同音異
義語群をその読みをキーとしてグループ化し、その出現
頻度とNもに収録した同音異義語テーブル11を作成し
ておく。
同音異義語抽出部5は、形態素解析された漢字列複合語
内の単語について、その読みを用いて同音異義語テーブ
ル11を検索し、検定すべき同音異義語が存在する場合
に、該同音異義語テーブル11より候補となる同音異義
語群を抽出し、同音異義語検定部6での同音異義語の誤
り検定を開始せしめる。同音異義語検定部6は、予め抽
出したN文字のパターンに関する出現頻度情報に基づい
て算定された各N文字の文字連接確率情報を、各N文字
をキーとして保持する文字連接確率辞書12を用いて、
漢字列複合順向の検定対象となる同音異義語の前後の文
字と同音異義語内の文字との文字連接確率を検索、算定
し、この値が予め設定。
した基準値よりも小さい場合に該当の原文内の同音異義
語を誤りと検定する。同音異義語訂正部7は、同音異義
語検定部6で誤りと認定された場合、既に抽出しである
同音異義語候補群について、文字連接確率辞書12を用
いてそれぞれ同音異義語の前後に存在する文字と同音異
義胎内の文字との文字連接確率を求め、これらの値の最
も大きな同音異義語候補を訂正候補として選択する。こ
の誤り訂正された入力日本文は日本文文書データベース
13に蓄積される。
なお、同音異義語訂正部7では、誤りとした原文中の同
音異義語の文字連接確率が、同音異義語候補の文字連接
確率のいずれよりも下回らない場合、訂正候補を選択せ
ず、同音異義語候補群をデイスプレィ等に出力し、文書
作成者に選択を依頼する。
以下、第1図の構成による具体的処理例について説明す
る。
第2図は2文字連接確率辞書を使用する場合の同音異義
語誤り検定及び訂正の処理例を示したものである。第2
図中、14は同音異義語誤りを含む原文、15は同音異
義語誤りの文字、16は正字1,17は漢字列複合語、
18は同音異義語テーブル11の索引によって検定対象
となった同音異義語、19は同音異義語18の前後に位
置する漢字単語、20は同音異義語候補、21は同音異
義語誤り検定処理、22は2文字連接確率辞書による誤
り検出箇所、23は同音異義語候補選択処理、24は後
方2文字連接確率辞書による後方漢字「採」からの候補
選択処理、25は後方漢字と接続確率が高い候補、26
は後方2文字連接確率辞書、27はその1文字キ一部、
28は確率データ部、29は確率データの参照の流れ、
30は同音異義語誤り訂正後の原文文字列、31は訂正
された同音異義語である。
原文文字列14を形態素解析し、その結果「強硬採決j
の漢字列複合語17が抽出されたとする。
予め検定対象を収録した同音異義語テーブル11内の同
音異義語が、この漢字列複合語17の中に含まれる場合
(本例では、「強硬」の同音異義語18)、まず、複合
語17内の同音異義語18以外の単語19の文字(本例
ではパ採″)と原文内の同音異義語末尾の文字(本例で
はパ硬″″)との2文字連接確率を求め、この値がある
設定値(実施例では0.01)以下である場合に、原文
内の該当の同音異義語18を誤りとして検出する(処理
21)。本例では、「強硬」が同音異義語誤りとして検
出される。次に、誤りと検出された同音異義語18から
同音異義語テーブル11を用いて訂正候補となる同音異
義語群20を検索し、同音異義語群後の文字「採」と同
音異義語候補内の隣接する文字「行、攻、慌」との後方
2文字連接確率を求め、ある設定値(実施例ではo、o
 1)を超える場合に該当の候補(本例では丸印の25
)を抽出し、訂正候補として選択する(処理23)。
これにより、同音異義語18の「強硬」が「強行」に訂
正される。
第3図は3文字連接確率辞書を使用する場合の同音異義
語誤り検定及び訂正の処理例を示したものである。第3
図中、第2図と同一記号のものは同一の意味を表わして
いる。32は3文字連接確率辞書による誤り検出箇所、
33は前方3文字連接確率辞書による前方漢字「安全」
からの候補選択処理、34はいずれの候補とも非接続で
あるマーク、35は後方3文字連接確率辞書による後方
漢字「保障、補償」からの候補選択処理、36は後方漢
字と接続確率が高い候補、37は前方3文字の連接確率
辞書、38はその2文字キ一部、39は確率データ部、
40は確率データの参照の流れ、41は後方3文字連接
確率辞書、42は2文字キ一部、43は確率データ部、
44は確率データの参照の流れである。
第3図では、「保証」の同音異義語18が検定対象であ
り、検定外単語19と同音異義語隣接1文字「保、補」
のいずれもある設定値(実施例では0.01)を超えな
いため、同音異義語「保障、補償」の前方文字「全」と
の3文字連接確率から候補を選択している。なお、例え
ばいずれの同音異議語候補20も設定値を超えなければ
、校正者に両者の同音異義語候補を提示して選択を依頼
する。
第4図は日本語ワードプロセッサ等の単純な単語変換誤
りによる誤字の検定及び訂正の処理例を示したものであ
る。第4図中、45は単語変換誤りによる誤字、46は
前方3文字連接確率辞書による前方漢字[産業」からの
候補選択処理、47は接続確率が高い候補、48は後方
3文字連接確率辞書による後方漢字「開発」あるいは「
都市」からの候補選択処理、49は後方漢字と接続確率
が高い候補であり、それ以外は第3図の場合と同じであ
る。
第4図では、誤ったかな漢字変換された「年」を同音異
義語18とし、同音異義語誤り検定処理21で1年」を
同音異議語誤りとして検出し、同音異義語候補選択処理
23で「都市」を選択している。処理は第2図や第3図
の場合と基本的に同じである。このように、単純な単語
変換誤りが発生しても、前後の単語との文字連接確率に
よる同音異義胎誤りと同一の手順で容易に単語変換誤り
を検出できる。さらに同音異義語テーブル内に変換誤り
の訂正候補を格納しておくことで、文字連接確率の最も
高い候補を選択できる。
このように、第1図の構成では、漢字列複合語内に含ま
れる単純な単語変換誤りおよび同音異義語誤りを、該同
音異義語の前後の文字と同音異義語内の文字との文字連
接確率によって容易に検出でき、さらに誤り検出時には
、予め作成した同音異議語テーブルを用いて、誤り検出
と同様の手段で訂正候補を選択できる。
〔発明の効果〕
以上説明したように、本発明の日本文誤り自動検定装置
においては、日本語単語辞書および文法辞書を用いた形
態素解析によって認定された漢字列複合語内の同音異義
語について、該同音異義語の前後の文字と該同音異義語
の文字との文字連接確率を予め作成した文字連接確率辞
書を用いて算定し、これが予め設定した基準値より小さ
い場合に該同音異義語を誤りと検定し、さらに同音異義
語テーブルより同音異義語候補を抽出し、前後の単語の
文字列との文字連接確率が最大となる同音異義語候補を
訂正候補として選択する機能を備又るので、人手によら
ずに、自動で漢字列複合語内に含まれる単純な単語変換
誤りや同音異義語誤りの検出および訂正候補選択処理を
実現でき、思い込み等のある人手処理とは異なり、検定
精度が高く、バラツキもなく、さらに、文字連接確率辞
書の高速索引処理により、検定速度も向上でき仝利点が
ある。
【図面の簡単な説明】
第1図は本発明の一実施例の構成図、第2図乃至第4図
は本発明による具体的処理例を示す図である。 1・・・入力装置、 2・・・日本文誤り自動検定装置本体、3・・・入力処
理部、 4・・・形態素解析部、5・・・同音異義語抽
出部、 6・・・同音異義語検定部、 7・・・同音異義語訂正部、 8・・・入力日本文データベース、 9・・・日本語単語辞書、 10・・文法辞書、11・
・・同音異義語テーブル、 12・・・文字連接確率辞書、 13・・・訂正済日本文文書データベース。 代理人弁理士  鈴 木   誠

Claims (1)

    【特許請求の範囲】
  1. (1)入力日本文の漢字列複合語内に含まれる同音異義
    語誤りを自動的に検出及び訂正する日本文誤り自動検定
    装置において、 入力日本文の形態素解析を行い、漢字列複合語内の単語
    を分割する形態素解析部と、 予め同じ読みの漢字単語で出現頻度の高い同音異義語群
    を、その読みをキーとしてグループ化し収録した同音異
    義語テーブルと、 予め抽出したN文字のパターンに関する出現頻度情報に
    基づいて算定された各N文字の文字連接確率情報を、各
    N文字をキーとして保持する文字連接確率辞書と、 上記漢字列複合語内の単語が上記同音異義語テーブル内
    に存在する場合、該単語を同音異義語誤りの検定対象と
    すると共に、同音異義語テーブルより当該同音異義語の
    属する同音異義語群を抽出する同音異義語抽出部と、 上記漢字列複合語内の検定対象となる同音異義語の前後
    の文字と当該同音異義語の文字との文字連接確率を上記
    文字連接確率辞書を用いて調べ、その値が予め設定した
    基準値よりも小さい場合に該当同音異義語を誤りと検定
    する同音異義語検定部と、 上記誤りと検定された場合に、上記同音異義語テーブル
    より抽出した同音異義語群内の候補のうち、文字連接確
    率が最も高い同音異義語候補を訂正候補として選択する
    同音異義語訂正部と、 を有することを特徴とする日本文誤り自動検定装置。
JP63123388A 1988-05-20 1988-05-20 日本文誤り自動検定装置 Pending JPH01292569A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63123388A JPH01292569A (ja) 1988-05-20 1988-05-20 日本文誤り自動検定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63123388A JPH01292569A (ja) 1988-05-20 1988-05-20 日本文誤り自動検定装置

Publications (1)

Publication Number Publication Date
JPH01292569A true JPH01292569A (ja) 1989-11-24

Family

ID=14859340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63123388A Pending JPH01292569A (ja) 1988-05-20 1988-05-20 日本文誤り自動検定装置

Country Status (1)

Country Link
JP (1) JPH01292569A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023133782A (ja) * 2022-03-14 2023-09-27 本田技研工業株式会社 音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023133782A (ja) * 2022-03-14 2023-09-27 本田技研工業株式会社 音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラム

Similar Documents

Publication Publication Date Title
Volk et al. Strategies for reducing and correcting OCR errors
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
JPH01292569A (ja) 日本文誤り自動検定装置
JP4283898B2 (ja) 文章校正装置
JPH09325962A (ja) 文書校正装置およびプログラム記憶媒体
JP3856515B2 (ja) 文書校正装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH0244459A (ja) 日本文訂正候補文字抽出方法
JPS6394364A (ja) 日本文誤字自動修正装置
CN113033188B (zh) 一种基于神经网络的藏文语法纠错方法
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2902138B2 (ja) 誤読文字修正方法
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
JPH08305698A (ja) 自然語解析方法及び装置
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム
JPH03156589A (ja) 誤読文字の検出,修正方法
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JP2575947B2 (ja) 文節切出し装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH077412B2 (ja) 日本文訂正候補文字抽出装置
JPH02136959A (ja) 日本文訂正候補抽出装置
JPH10240736A (ja) 形態素解析装置
JPH0546612A (ja) 文章誤り検出装置