JPH09185674A - 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 - Google Patents
誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法Info
- Publication number
- JPH09185674A JPH09185674A JP7343450A JP34345095A JPH09185674A JP H09185674 A JPH09185674 A JP H09185674A JP 7343450 A JP7343450 A JP 7343450A JP 34345095 A JP34345095 A JP 34345095A JP H09185674 A JPH09185674 A JP H09185674A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- erroneously recognized
- detected
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】パターンマッチング等の画像処理によって認識
された文字列中における誤認識の文字の訂正作業が簡単
に行える。さらに、誤認識の文字の訂正作業を不要にす
る。 【解決手段】画像データ等で入力された文字列をパター
ンマッチング等によって認識した文字列データに対して
(n1、n2)、形態素解析を行って文節切りを行う
(n3、n4)。そして、句読点等の区切り記号以外の
1文字からなる文節が連接する箇所、漢字1文字からな
る文節の箇所、および、漢字1文字からなる文節と連接
する漢字1文字の自立語と付属語からなる文節とが連接
する箇所を誤認識箇所として検出する(n5)。そし
て、この誤認識箇所の文字を、他の文字に置換して訂正
する(n7)。
された文字列中における誤認識の文字の訂正作業が簡単
に行える。さらに、誤認識の文字の訂正作業を不要にす
る。 【解決手段】画像データ等で入力された文字列をパター
ンマッチング等によって認識した文字列データに対して
(n1、n2)、形態素解析を行って文節切りを行う
(n3、n4)。そして、句読点等の区切り記号以外の
1文字からなる文節が連接する箇所、漢字1文字からな
る文節の箇所、および、漢字1文字からなる文節と連接
する漢字1文字の自立語と付属語からなる文節とが連接
する箇所を誤認識箇所として検出する(n5)。そし
て、この誤認識箇所の文字を、他の文字に置換して訂正
する(n7)。
Description
【0001】
【発明の属する技術分野】この発明は、パターンマッチ
ング等の画像処理によって認識された文字列中における
誤認識の文字を検出する誤認識文字検出装置および誤認
識文字検出方法と、この検出された誤認識の文字を訂正
する誤認識文字訂正装置および誤認識文字訂正方法に関
する。
ング等の画像処理によって認識された文字列中における
誤認識の文字を検出する誤認識文字検出装置および誤認
識文字検出方法と、この検出された誤認識の文字を訂正
する誤認識文字訂正装置および誤認識文字訂正方法に関
する。
【0002】
【従来の技術】書面等に記載された文章をOCR(Opti
cal Charcter Reader )等のイメージスキャナを用いて
画像データとして取り込ませ、この画像データに対して
パターンマッチング等の画像処理を行って、文字毎に文
字を認識させることによって、書面等に記載された文章
を電子化された情報として簡単に入力できるシステムが
普及しつつある。
cal Charcter Reader )等のイメージスキャナを用いて
画像データとして取り込ませ、この画像データに対して
パターンマッチング等の画像処理を行って、文字毎に文
字を認識させることによって、書面等に記載された文章
を電子化された情報として簡単に入力できるシステムが
普及しつつある。
【0003】このシステムには大きな問題がある。それ
は、パターンマッチング等の画像処理における文字の認
識精度が100パーセントではないということである。
すなわち、書面等に記載された文章を正確に電子化され
た情報として入力できないという問題である。さらに、
誤認識された文字の出現には規則性がない。このため、
電子化された情報である文字列に対して1字1字確認し
て、誤認識されている文字があれば該文字を訂正すると
いう作業を行わなければならなず、この訂正作業にかか
る負担が大きい。
は、パターンマッチング等の画像処理における文字の認
識精度が100パーセントではないということである。
すなわち、書面等に記載された文章を正確に電子化され
た情報として入力できないという問題である。さらに、
誤認識された文字の出現には規則性がない。このため、
電子化された情報である文字列に対して1字1字確認し
て、誤認識されている文字があれば該文字を訂正すると
いう作業を行わなければならなず、この訂正作業にかか
る負担が大きい。
【0004】そこで、以下に示す文字認識された文字列
から誤認識されている文字を自動的に検出する方法が提
案されている。 文字を認識したときに、該文字の認識結果の確信度
を求め、確信度の低い文字を誤認識された文字である可
能性があるとする方法。
から誤認識されている文字を自動的に検出する方法が提
案されている。 文字を認識したときに、該文字の認識結果の確信度
を求め、確信度の低い文字を誤認識された文字である可
能性があるとする方法。
【0005】 文字認識された文字列に対して形態素
解析・構文解析・意味解析を行い、文法的に接続不可能
な箇所および意味的に接続不可能な箇所を検出して、こ
れらの箇所の文字列の文字を誤認識された文字であると
する方法。
解析・構文解析・意味解析を行い、文法的に接続不可能
な箇所および意味的に接続不可能な箇所を検出して、こ
れらの箇所の文字列の文字を誤認識された文字であると
する方法。
【0006】 文字毎に、複数の文字候補を検出し、
これらの文字候補の全ての組み合わせの中から文法的接
続条件や文字の連接確率等が最適の組み合わせを、認識
結果とする方法。
これらの文字候補の全ての組み合わせの中から文法的接
続条件や文字の連接確率等が最適の組み合わせを、認識
結果とする方法。
【0007】
【発明が解決しようとする課題】しかしながら、上記し
たの方法では、手書き文字やコピー等により品質が低
下した文字列の場合、文字の認識率が十分ではなく、文
字の認識結果の確信度を正しく評価することはできな
い。
たの方法では、手書き文字やコピー等により品質が低
下した文字列の場合、文字の認識率が十分ではなく、文
字の認識結果の確信度を正しく評価することはできな
い。
【0008】また、の方法では、意味解析を実行する
ために、単語毎に細かく意味分類された大規模な意味辞
書を設ける必要があり、システムが大型化してしまうと
いう問題がある。
ために、単語毎に細かく意味分類された大規模な意味辞
書を設ける必要があり、システムが大型化してしまうと
いう問題がある。
【0009】さらにの方法では、文字候補の全ての組
み合わせのなかから文法的接続条件や文字の連接確率等
を求めるので、例えば、10文字の文字列に対して文字
候補を10個検出するシステムでは、10の10乗通り
の組み合わせに対して文法的接続条件や文字の連接確率
等を求めることになる。このため、多大な処理時間が必
要となる問題がある。
み合わせのなかから文法的接続条件や文字の連接確率等
を求めるので、例えば、10文字の文字列に対して文字
候補を10個検出するシステムでは、10の10乗通り
の組み合わせに対して文法的接続条件や文字の連接確率
等を求めることになる。このため、多大な処理時間が必
要となる問題がある。
【0010】この発明の目的は、パターンマッチング等
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業が簡単に行える誤認識文字検出装置お
よび誤認識文字検出方法を提供することにある。
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業が簡単に行える誤認識文字検出装置お
よび誤認識文字検出方法を提供することにある。
【0011】また、この発明は、パターンマッチング等
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業を不要にする誤認識文字訂正装置およ
び誤認識文字訂正方法を提供することを目的とする。
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業を不要にする誤認識文字訂正装置およ
び誤認識文字訂正方法を提供することを目的とする。
【0012】
【課題を解決するための手段】請求項1に記載したこの
発明の誤認識文字検出装置は、文字列である単語および
その単語の属性を示すデータを登録した辞書ファイル
と、前記辞書ファイルを用いて入力された文字列に対し
て文節切りを含む形態素解析を行う形態素解析手段と、
前記形態素解析手段によって文節切りされた文字列にお
いて句読点等の区切り記号以外の1文字からなる文節が
連接している箇所を文字が誤認識されている文字列であ
るとして検出する誤認識検出手段と、を備えたことを特
徴とする。
発明の誤認識文字検出装置は、文字列である単語および
その単語の属性を示すデータを登録した辞書ファイル
と、前記辞書ファイルを用いて入力された文字列に対し
て文節切りを含む形態素解析を行う形態素解析手段と、
前記形態素解析手段によって文節切りされた文字列にお
いて句読点等の区切り記号以外の1文字からなる文節が
連接している箇所を文字が誤認識されている文字列であ
るとして検出する誤認識検出手段と、を備えたことを特
徴とする。
【0013】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに句読点等の区切り記号以外の1文
字からなる文節が連接している箇所を文字が誤認識され
ている文字列であるとして検出する。
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに句読点等の区切り記号以外の1文
字からなる文節が連接している箇所を文字が誤認識され
ている文字列であるとして検出する。
【0014】請求項2に記載したこの発明の誤認識文字
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において1文字の漢字か
らなる文節を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において1文字の漢字か
らなる文節を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。
【0015】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、1文字の漢字からなる文節があ
れば、その文節を文字が誤認識されている文字列である
として検出する。
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、1文字の漢字からなる文節があ
れば、その文節を文字が誤認識されている文字列である
として検出する。
【0016】請求項3に記載したこの発明の誤認識文字
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において1文字の漢字か
らなる文節と漢字1文字の自立語を含む文節とが連接し
ている箇所を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において1文字の漢字か
らなる文節と漢字1文字の自立語を含む文節とが連接し
ている箇所を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。
【0017】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、1文字の漢字からなる文節と漢
字1文字の自立語を含む文節とが連接している箇所を文
字が誤認識されている文字列であるとして検出する。
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、1文字の漢字からなる文節と漢
字1文字の自立語を含む文節とが連接している箇所を文
字が誤認識されている文字列であるとして検出する。
【0018】請求項4に記載したこの発明の誤認識文字
検出装置は、入力された文字列を表示する表示手段を備
え、前記表示手段は、前記誤認識検出手段で誤認識であ
ることを検出した文字の文字列とそれ以外の文字列とを
異なる表示形式で表示する手段であることを特徴とす
る。
検出装置は、入力された文字列を表示する表示手段を備
え、前記表示手段は、前記誤認識検出手段で誤認識であ
ることを検出した文字の文字列とそれ以外の文字列とを
異なる表示形式で表示する手段であることを特徴とす
る。
【0019】この構成では、誤認識であることが検出さ
れた文字の文字列と、それ以外の文字の文字列とが異な
る表示形式で表示される。
れた文字の文字列と、それ以外の文字の文字列とが異な
る表示形式で表示される。
【0020】請求項5に記載したこの発明の誤認識文字
検出装置は、書面等に記載された文章を画像データとし
て取り込み、該画像データに対してパターンマッチング
等の画像処理を行って該文章を構成する文字毎に文字を
認識する文字認識手段と、認識した文字からなる文字列
を入力する入力手段を備えたことを特徴とする。
検出装置は、書面等に記載された文章を画像データとし
て取り込み、該画像データに対してパターンマッチング
等の画像処理を行って該文章を構成する文字毎に文字を
認識する文字認識手段と、認識した文字からなる文字列
を入力する入力手段を備えたことを特徴とする。
【0021】この構成では、入力手段が書面等に記載さ
れた文章を画像データとして取り込み、パターンマッチ
ング等の画像処理を行って該文章を構成する文字毎に文
字を認識する。そして、認識された文字からなる文字列
が入力される。
れた文章を画像データとして取り込み、パターンマッチ
ング等の画像処理を行って該文章を構成する文字毎に文
字を認識する。そして、認識された文字からなる文字列
が入力される。
【0022】請求項6に記載したこの発明の誤認識文字
訂正装置は、請求項5に記載の誤認識文字検出装置にお
いて、前記文字認識手段には、文字毎に認識した文字以
外にも複数の文字を文字候補として検出する手段を含
み、前記誤認識検出手段によって文字の誤認識されてい
る文字列を検出したときに、該文字列の文字を前記文字
候補として検出されている文字で置換する置換手段を備
え、前記置換手段での置換後、再び前記形態素解析およ
び誤認識検出を実行することを特徴とする。
訂正装置は、請求項5に記載の誤認識文字検出装置にお
いて、前記文字認識手段には、文字毎に認識した文字以
外にも複数の文字を文字候補として検出する手段を含
み、前記誤認識検出手段によって文字の誤認識されてい
る文字列を検出したときに、該文字列の文字を前記文字
候補として検出されている文字で置換する置換手段を備
え、前記置換手段での置換後、再び前記形態素解析およ
び誤認識検出を実行することを特徴とする。
【0023】この構成では、文字毎に認識した文字以外
に複数の文字を文字候補として検出しておき、前記誤認
識検出手段によって文字が誤認識されている文字列を検
出すると、該文字列の文字を文字候補の文字での置換
後、再び前記形態素解析および誤認識検出を実行して、
誤認識されている文字の有無を検出する。
に複数の文字を文字候補として検出しておき、前記誤認
識検出手段によって文字が誤認識されている文字列を検
出すると、該文字列の文字を文字候補の文字での置換
後、再び前記形態素解析および誤認識検出を実行して、
誤認識されている文字の有無を検出する。
【0024】請求項7に記載したこの発明の誤認識文字
訂正装置は、文字候補として検出された文字には、優先
順位が付され、前記置換手段には、優先順位に基づいて
置換する文字を文字候補から抽出する手段を含むことを
特徴とする。
訂正装置は、文字候補として検出された文字には、優先
順位が付され、前記置換手段には、優先順位に基づいて
置換する文字を文字候補から抽出する手段を含むことを
特徴とする。
【0025】この構成では、文字候補として検出されて
いる文字に付されている優先順位に基づいて、置換する
文字が文字候補から抽出される。
いる文字に付されている優先順位に基づいて、置換する
文字が文字候補から抽出される。
【0026】請求項8に記載したこの発明の誤認識文字
訂正装置は、請求項5に記載の誤認識文字検出装置にお
いて、文字毎に形状が類似する文字を登録した類似辞書
を備え、前記誤認識検出手段によって文字の誤認識して
いる文字列を検出したときに、該文字列の文字の形状が
類似する文字を類似辞書から検出して、前記誤認識して
いる文字をこの検出した類似の文字で置換する置換手段
を備え、前記置換手段での置換後、再び前記形態素解析
および誤認識検出を実行することを特徴とする。
訂正装置は、請求項5に記載の誤認識文字検出装置にお
いて、文字毎に形状が類似する文字を登録した類似辞書
を備え、前記誤認識検出手段によって文字の誤認識して
いる文字列を検出したときに、該文字列の文字の形状が
類似する文字を類似辞書から検出して、前記誤認識して
いる文字をこの検出した類似の文字で置換する置換手段
を備え、前記置換手段での置換後、再び前記形態素解析
および誤認識検出を実行することを特徴とする。
【0027】この構成では、前記誤認識検出手段によっ
て文字が誤認識されている文字列を検出すると、該文字
列の文字の形状が類似する文字を類似辞書から検出す
る。そして、誤認識している文字をこの検出した類似の
文字で置換後、再び前記形態素解析および誤認識検出を
実行して、誤認識されている文字の有無を検出する。
て文字が誤認識されている文字列を検出すると、該文字
列の文字の形状が類似する文字を類似辞書から検出す
る。そして、誤認識している文字をこの検出した類似の
文字で置換後、再び前記形態素解析および誤認識検出を
実行して、誤認識されている文字の有無を検出する。
【0028】請求項9に記載したこの発明の誤認識文字
訂正装置は、前記置換手段によって置換した文字の文字
列と、それ以外の文字列とを異なる表示形式で表示する
手段を備えたことを特徴とする。
訂正装置は、前記置換手段によって置換した文字の文字
列と、それ以外の文字列とを異なる表示形式で表示する
手段を備えたことを特徴とする。
【0029】この構成では、置換された文字の文字列と
それ以外の文字列とが異なる表示形式で表示される。
それ以外の文字列とが異なる表示形式で表示される。
【0030】請求項10〜請求項18に記載したこの発
明の誤認識文字検出方法は、それぞれ上記請求項1〜請
求項9に記載した誤認識文字検出装置の構成が方法で記
載されている。
明の誤認識文字検出方法は、それぞれ上記請求項1〜請
求項9に記載した誤認識文字検出装置の構成が方法で記
載されている。
【0031】
【発明の実施の形態】図1はこの発明の実施の形態であ
る誤認識文字訂正装置の機能を示すブロック図である。
誤認識文字訂正装置1は、入力部2と、画像データ記憶
部3と、文字認識部4と、文字候補記憶部5と、文字列
データ作成部6と、単語辞書7と、文法辞書8と、形態
素解析部9と、判定部10と、訂正部11と、表示部1
2とを備えている。また、入力部2と、画像データ記憶
部3と、文字認識部4と、文字列データ作成部6と、単
語辞書7と、文法辞書8と、形態素解析部9と、判定部
10と、表示部12とでこの発明の実施の形態である誤
認識文字検出装置1aが構成される。
る誤認識文字訂正装置の機能を示すブロック図である。
誤認識文字訂正装置1は、入力部2と、画像データ記憶
部3と、文字認識部4と、文字候補記憶部5と、文字列
データ作成部6と、単語辞書7と、文法辞書8と、形態
素解析部9と、判定部10と、訂正部11と、表示部1
2とを備えている。また、入力部2と、画像データ記憶
部3と、文字認識部4と、文字列データ作成部6と、単
語辞書7と、文法辞書8と、形態素解析部9と、判定部
10と、表示部12とでこの発明の実施の形態である誤
認識文字検出装置1aが構成される。
【0032】入力部2は、OCR等を用いて書面に書か
れた文章等を画像データで取り込む。画像データ記憶部
3は、入力部2で取り込んだ画像データを記憶する。文
字認識部4は、画像データ記憶部3に記憶されている文
章の画像データから、1文字ずつ文字を切り出し、パタ
ーンマッチング等によって文字毎に複数の文字候補を優
先順位を付けて検出する。文字候補記憶部5は、文字認
識部5で検出された文字候補を優先順位とともに記憶す
る。文字列データ作成部6は、優先順位を用いて文字候
補から抽出した文字からなる文字列のデータを作成す
る。単語辞書7は、単語の文字列とその単語の属性を対
応させて記憶している。文法辞書8は、文法規則を記憶
している。形態素解析部9は、単語辞書7と文法辞書8
を用いて文字列データ作成部6で作成された文字列デー
タを文節切りする。判定部10は、文節切りされた結果
に基づいて誤認識されている文字列を検出する。訂正部
11は、検出された誤認識されている文字列の文字を他
の文字で置換する訂正処理を実行する。表示部12は、
文字列データ作成部6で作成された文字列の表示等を行
う。
れた文章等を画像データで取り込む。画像データ記憶部
3は、入力部2で取り込んだ画像データを記憶する。文
字認識部4は、画像データ記憶部3に記憶されている文
章の画像データから、1文字ずつ文字を切り出し、パタ
ーンマッチング等によって文字毎に複数の文字候補を優
先順位を付けて検出する。文字候補記憶部5は、文字認
識部5で検出された文字候補を優先順位とともに記憶す
る。文字列データ作成部6は、優先順位を用いて文字候
補から抽出した文字からなる文字列のデータを作成す
る。単語辞書7は、単語の文字列とその単語の属性を対
応させて記憶している。文法辞書8は、文法規則を記憶
している。形態素解析部9は、単語辞書7と文法辞書8
を用いて文字列データ作成部6で作成された文字列デー
タを文節切りする。判定部10は、文節切りされた結果
に基づいて誤認識されている文字列を検出する。訂正部
11は、検出された誤認識されている文字列の文字を他
の文字で置換する訂正処理を実行する。表示部12は、
文字列データ作成部6で作成された文字列の表示等を行
う。
【0033】図2は、この発明の実施の形態である誤認
識文字訂正装置の一連の処理を示すフローチャートであ
る。まず、簡単に誤認識文字訂正装置1の動作を説明す
る。誤認識文字訂正装置1は、入力部2において書面等
に記載された文章を画像データで取り込み、これを画像
データ記憶部3に記憶する(n1)。文字認識部4は、
n1で取り込んだ文章の画像データから1文字ずつ文字
を切り出し、文字毎に文字候補を検出する(n2)。文
字候補記憶部5が文字毎に検出された文字候補を記憶す
る。文字列データ作成部6がn2で検出された文字候補
を用いて文字列データを作成し(n3)、形態素解析部
9でこの文字列データの形態素解析を行う(n4)。そ
して、判定部10が形態素解析の結果から誤認識の文字
の文字列の箇所を検出する誤認識箇所検出処理を行う
(n5)。このときに、誤認識の文字の文字列が検出さ
れなければこの文字列のデータを表示部12に表示して
処理を完了する(n6→n8)。一方、n5で誤認識の
文字の文字列を検出したときには、誤認識であることを
検出した文字を他の文字候補で置換する訂正処理を行い
(n6→n7)、n3以降の処理を繰り返す。n7の訂
正処理がこの発明でいう置換手段に相当する。
識文字訂正装置の一連の処理を示すフローチャートであ
る。まず、簡単に誤認識文字訂正装置1の動作を説明す
る。誤認識文字訂正装置1は、入力部2において書面等
に記載された文章を画像データで取り込み、これを画像
データ記憶部3に記憶する(n1)。文字認識部4は、
n1で取り込んだ文章の画像データから1文字ずつ文字
を切り出し、文字毎に文字候補を検出する(n2)。文
字候補記憶部5が文字毎に検出された文字候補を記憶す
る。文字列データ作成部6がn2で検出された文字候補
を用いて文字列データを作成し(n3)、形態素解析部
9でこの文字列データの形態素解析を行う(n4)。そ
して、判定部10が形態素解析の結果から誤認識の文字
の文字列の箇所を検出する誤認識箇所検出処理を行う
(n5)。このときに、誤認識の文字の文字列が検出さ
れなければこの文字列のデータを表示部12に表示して
処理を完了する(n6→n8)。一方、n5で誤認識の
文字の文字列を検出したときには、誤認識であることを
検出した文字を他の文字候補で置換する訂正処理を行い
(n6→n7)、n3以降の処理を繰り返す。n7の訂
正処理がこの発明でいう置換手段に相当する。
【0034】以下、詳細に誤認識文字訂正装置1の動作
を説明する。n1では、入力部2が書面に記載された文
章を画像データとして取り込む。この取り込まれた画像
データは、画像データ記憶部3に記憶される。
を説明する。n1では、入力部2が書面に記載された文
章を画像データとして取り込む。この取り込まれた画像
データは、画像データ記憶部3に記憶される。
【0035】n2では、n1で取り込んだ画像データに
対して画像処理を行う。この画像処理としては、画像デ
ータである文書の文字を1文字ずつ切り出し、文字毎に
パターンマッチング等を行って文字を認識する。この認
識では、文字毎に所定数の文字候補を検出する。ここ
で、検出される文字候補には優先順位がつけられる。そ
して、文字毎の文字候補は文字ラティスとして文字候補
記憶部5に記憶される。
対して画像処理を行う。この画像処理としては、画像デ
ータである文書の文字を1文字ずつ切り出し、文字毎に
パターンマッチング等を行って文字を認識する。この認
識では、文字毎に所定数の文字候補を検出する。ここ
で、検出される文字候補には優先順位がつけられる。そ
して、文字毎の文字候補は文字ラティスとして文字候補
記憶部5に記憶される。
【0036】図3は「この年金支給の問題についても、
当然でしょ。」と書かれた文章を画像データとして取り
込んだときに作成された文字ラティスである。各文字毎
に10文字の文字候補を検出しており、文字候補の文字
には優先順位が付けられている。図では優先順位の高い
文字から順に示している(左側の文字ほど優先順位が高
い。)。
当然でしょ。」と書かれた文章を画像データとして取り
込んだときに作成された文字ラティスである。各文字毎
に10文字の文字候補を検出しており、文字候補の文字
には優先順位が付けられている。図では優先順位の高い
文字から順に示している(左側の文字ほど優先順位が高
い。)。
【0037】n3では、文字列データ作成部6が第1候
補の文字(最も優先度の高い文字)からなる文字列のデ
ータを作成する。すなわち、上記した例では、「この隼
金支給の間題についても、当黙でしよ。」と言う文字列
データが作成されることになる。
補の文字(最も優先度の高い文字)からなる文字列のデ
ータを作成する。すなわち、上記した例では、「この隼
金支給の間題についても、当黙でしよ。」と言う文字列
データが作成されることになる。
【0038】n4では、形態素解析部9がn3で作成さ
れた文字列のデータに対して、形態素解析を行い、該文
字列を文節切りする。ここで簡単に形態素解析について
説明する。形態素解析とは、入力された文字列を構成し
ている単語を発見するとともに、単語間の接続関係を明
らかにする処理である。図4に、形態素解析を行う一般
的な形態素解析システムの構成を示す。形態素解析シス
テム20は、文字列のデータを記憶する文バッファ21
と、辞書を検索する辞書検索部22と、単語が登録され
た形態素辞書23と、形態素間の接続が成立するかどう
かを判定する接続検証部24と、形態素間の接続規則を
記憶した接続規則記憶部25とを備えている。なお、こ
こで言う形態素辞書23が単語辞書7に相当し、接続規
則記憶部25が文法辞書8に相当し、文バッファ21と
辞書検索部22と接続検証部24とで形態素解析部9を
構成する。言い換えれば、図1に示した単語辞書7、文
法辞書8、および、形態素解析部9によって形態素解析
システム20が構成されている。
れた文字列のデータに対して、形態素解析を行い、該文
字列を文節切りする。ここで簡単に形態素解析について
説明する。形態素解析とは、入力された文字列を構成し
ている単語を発見するとともに、単語間の接続関係を明
らかにする処理である。図4に、形態素解析を行う一般
的な形態素解析システムの構成を示す。形態素解析シス
テム20は、文字列のデータを記憶する文バッファ21
と、辞書を検索する辞書検索部22と、単語が登録され
た形態素辞書23と、形態素間の接続が成立するかどう
かを判定する接続検証部24と、形態素間の接続規則を
記憶した接続規則記憶部25とを備えている。なお、こ
こで言う形態素辞書23が単語辞書7に相当し、接続規
則記憶部25が文法辞書8に相当し、文バッファ21と
辞書検索部22と接続検証部24とで形態素解析部9を
構成する。言い換えれば、図1に示した単語辞書7、文
法辞書8、および、形態素解析部9によって形態素解析
システム20が構成されている。
【0039】文バッファ21には、n3で作成された文
字列データが記憶される。辞書検索部22は、予め決め
られている分かち書きの方法(例えば、最長一致法、2
文節最長一致法、文節数最小法等)にしたがって、文バ
ッファ21に記憶されている文字列のデータを形態素辞
書23を用いて、分かち書きを行う。分かち書きされた
単語の候補に対して、接続検証部24で連接する単語
(その前に切り出された単語)との接続チェックを行
う。この接続チェックは、該単語の候補と前に切り出さ
れた連接する単語との形態素間の接続規則が成立するか
どうかを確認する処理である。形態素間の接続規則が成
立すれば該単語が正しく切り出されたと判定し、形態素
間の接続規則が成立しなければ該単語が正しく切り出さ
れていないと判定する。そして、形態素間の接続規則が
成立していなければ改めて形態素辞書23を引いて、他
の単語候補を探し同様の処理を行う。このとき、他の単
語候補が存在しなければ、連接する単語候補の切り出し
に問題があったとして単語の切り出しをやり直す。
字列データが記憶される。辞書検索部22は、予め決め
られている分かち書きの方法(例えば、最長一致法、2
文節最長一致法、文節数最小法等)にしたがって、文バ
ッファ21に記憶されている文字列のデータを形態素辞
書23を用いて、分かち書きを行う。分かち書きされた
単語の候補に対して、接続検証部24で連接する単語
(その前に切り出された単語)との接続チェックを行
う。この接続チェックは、該単語の候補と前に切り出さ
れた連接する単語との形態素間の接続規則が成立するか
どうかを確認する処理である。形態素間の接続規則が成
立すれば該単語が正しく切り出されたと判定し、形態素
間の接続規則が成立しなければ該単語が正しく切り出さ
れていないと判定する。そして、形態素間の接続規則が
成立していなければ改めて形態素辞書23を引いて、他
の単語候補を探し同様の処理を行う。このとき、他の単
語候補が存在しなければ、連接する単語候補の切り出し
に問題があったとして単語の切り出しをやり直す。
【0040】このようにして、文字列を構成している単
語を発見するとともに、単語間の接続関係を明らかにさ
れ、文字列のデータが文節単位に分割される。
語を発見するとともに、単語間の接続関係を明らかにさ
れ、文字列のデータが文節単位に分割される。
【0041】例えば、上記した例における第1候補の文
字からなる「この隼金支給の間題についても、当黙でし
よ。」という文字列データは形態素解析によって図5に
示す文節単位に分割される。
字からなる「この隼金支給の間題についても、当黙でし
よ。」という文字列データは形態素解析によって図5に
示す文節単位に分割される。
【0042】n5では判定部10が、n4において文節
切りされた結果からn2において文字を誤認識した箇所
を検出する。この実施の形態では、以下に示す〜の
いずれかの条件を満たすときには、そこを文字が誤認識
された箇所であるとして検出する。 句読点等(、。〔〕等)の区切り記号以外の1文字
(漢字、ひらがな、カタカナ、英数字等)からなる文節
が連接する箇所 1文字の漢字からなる文節である箇所 1文字の漢字からなる文節と、漢字1文字の自立語を
含む文節が連接する箇所 上記した条件を設定した理由は、日本語において文法上
1文字では文節が構成されない。なお、ひらがな1文字
からなる文節が単独であるときには、この文節を文字を
誤認識した箇所として検出しないようにしている理由
は、文字の認識において、ひらがなは、他の文字に誤認
識されることがほとんどなく、且つ、2文字連続して誤
認識されることもほとんどない。このため、ひらがなが
1文字で文節を構成するのは、そのひらがなに連接する
文節の漢字を誤認識したために、付属語であったこのひ
らがなが接続しなくなったと考えられるからである。
切りされた結果からn2において文字を誤認識した箇所
を検出する。この実施の形態では、以下に示す〜の
いずれかの条件を満たすときには、そこを文字が誤認識
された箇所であるとして検出する。 句読点等(、。〔〕等)の区切り記号以外の1文字
(漢字、ひらがな、カタカナ、英数字等)からなる文節
が連接する箇所 1文字の漢字からなる文節である箇所 1文字の漢字からなる文節と、漢字1文字の自立語を
含む文節が連接する箇所 上記した条件を設定した理由は、日本語において文法上
1文字では文節が構成されない。なお、ひらがな1文字
からなる文節が単独であるときには、この文節を文字を
誤認識した箇所として検出しないようにしている理由
は、文字の認識において、ひらがなは、他の文字に誤認
識されることがほとんどなく、且つ、2文字連続して誤
認識されることもほとんどない。このため、ひらがなが
1文字で文節を構成するのは、そのひらがなに連接する
文節の漢字を誤認識したために、付属語であったこのひ
らがなが接続しなくなったと考えられるからである。
【0043】図6は、上記したn5における誤認識箇所
を検出する処理を示すフローチャートである。この処理
は判定部10で行われる。n4における形態素解析処理
で文節切りされた文字列のデータを取り込む(n1
1)。そして、初期設定としてmaeと言う変数を0に
セットするとともに、先頭の文節を注目文節に設定する
(n12、n13)。注目文節とは、以下の処理を行う
対象とする文節である。また、maeと言う変数は以下
のようにして設定される。注目文節が1文字の漢字から
なる文節であれば2に設定する。注目文節が句読点等の
区切り記号および漢字以外の1文字からなる文節であれ
ば1に設定する。注目文節が上記以外であれば0に設定
する。
を検出する処理を示すフローチャートである。この処理
は判定部10で行われる。n4における形態素解析処理
で文節切りされた文字列のデータを取り込む(n1
1)。そして、初期設定としてmaeと言う変数を0に
セットするとともに、先頭の文節を注目文節に設定する
(n12、n13)。注目文節とは、以下の処理を行う
対象とする文節である。また、maeと言う変数は以下
のようにして設定される。注目文節が1文字の漢字から
なる文節であれば2に設定する。注目文節が句読点等の
区切り記号および漢字以外の1文字からなる文節であれ
ば1に設定する。注目文節が上記以外であれば0に設定
する。
【0044】初期設定が終了すると、注目文節が1文字
の文節であるかどうかを判定する(n14)。n14
で、1文字の文節であると判定すると、この文節の1文
字が、句読点等の区切り記号であるかどうかを判定する
(n15)。n15で区切り記号であると、n25に進
み変数maeを0に設定する。そして、注目文節の後ろ
に文節があるかないかを判定する(n26)。後ろに文
節があれば1つ後ろの文節を注目文節に設定し(n2
7)、n14に戻る。n26で後ろに文節がないと判定
すると処理を完了する。
の文節であるかどうかを判定する(n14)。n14
で、1文字の文節であると判定すると、この文節の1文
字が、句読点等の区切り記号であるかどうかを判定する
(n15)。n15で区切り記号であると、n25に進
み変数maeを0に設定する。そして、注目文節の後ろ
に文節があるかないかを判定する(n26)。後ろに文
節があれば1つ後ろの文節を注目文節に設定し(n2
7)、n14に戻る。n26で後ろに文節がないと判定
すると処理を完了する。
【0045】n15で区切り記号以外の1文字からなる
文節であると判定すると、変数maeが0かどうかを判
定する(n16)。前回の注目文節が句読点等の区切り
記号以外の漢字、ひらがな、カタカナ、英数字等の1文
字からなる文節であったきに、変数maeが1または2
に設定されている。すなわち、この変数maeは現在の
注目文節より1つ前の文節の形態を示している。したが
って、n16の判定では、現在の注目文節より1つ前の
文節が句読点等の区切り記号以外の漢字、ひらがな、カ
タカナ、英数字等1文字からなる文節であったかどうか
を判定している。
文節であると判定すると、変数maeが0かどうかを判
定する(n16)。前回の注目文節が句読点等の区切り
記号以外の漢字、ひらがな、カタカナ、英数字等の1文
字からなる文節であったきに、変数maeが1または2
に設定されている。すなわち、この変数maeは現在の
注目文節より1つ前の文節の形態を示している。したが
って、n16の判定では、現在の注目文節より1つ前の
文節が句読点等の区切り記号以外の漢字、ひらがな、カ
タカナ、英数字等1文字からなる文節であったかどうか
を判定している。
【0046】そして、現在の注目文節より1つ前の文節
が句読点等の区切り記号以外の1文字からなる文節であ
ったときには、区切り記号以外の1文字からなる文節が
連接している箇所であるので、現在の注目文節より1つ
前の文節と現在の注目文節と、を文字が誤認識されてい
る箇所と判定し(n17)、n18に進む。一方、現在
の注目文節より1つ前の文節が区切り記号以外の1文字
からなる文節でなくmaeが0に設定されていれば、n
17の処理を行うことなく、n18に進む。n18で
は、現在の注目文節が漢字1文字からなる文節であるか
どうかが判定される。ここで、現在の注目文節が漢字1
文字からなる文節ではない時(ひらがな、または、カタ
カナ、英数字等の1文字文節である時)には、n21に
進んでmaeを1に設定し、n26に進む。
が句読点等の区切り記号以外の1文字からなる文節であ
ったときには、区切り記号以外の1文字からなる文節が
連接している箇所であるので、現在の注目文節より1つ
前の文節と現在の注目文節と、を文字が誤認識されてい
る箇所と判定し(n17)、n18に進む。一方、現在
の注目文節より1つ前の文節が区切り記号以外の1文字
からなる文節でなくmaeが0に設定されていれば、n
17の処理を行うことなく、n18に進む。n18で
は、現在の注目文節が漢字1文字からなる文節であるか
どうかが判定される。ここで、現在の注目文節が漢字1
文字からなる文節ではない時(ひらがな、または、カタ
カナ、英数字等の1文字文節である時)には、n21に
進んでmaeを1に設定し、n26に進む。
【0047】n18で、現在の注目文節が漢字1文字か
らなる文節であると判定した時には、この漢字1文字か
らなる現在の注目文節を文字が誤認識されている箇所と
判定し(n19)、n20に進んでmaeを2に設定
し、n26に進む。このn19の処理で、1文字の文節
と連接していない漢字1文字からなる文節も誤認識の箇
所として検出される。
らなる文節であると判定した時には、この漢字1文字か
らなる現在の注目文節を文字が誤認識されている箇所と
判定し(n19)、n20に進んでmaeを2に設定
し、n26に進む。このn19の処理で、1文字の文節
と連接していない漢字1文字からなる文節も誤認識の箇
所として検出される。
【0048】また、n14で注目文節が1文字からなる
文節でないと判定されたときには、n22に進み変数m
aeが2かどうかを判定する。ここで、1つ前の文節が
漢字1文字からなる文節であったかどうかを確認してい
る。そして、maeが2でなければn25に進んでma
eを0に設定し、n26以降の処理を行う。n22でm
aeが2であると(1つ前の文節が漢字1文字からなる
文節であった場合)、注目文節が漢字1文字の自立語を
含む文節であるかどうかを判定する(n23)。n23
で注目文節が漢字1文字の自立語を含む文節でないと判
定すると、n25に進んでmaeを0に設定し、n26
以降の処理を行う。n23で注目文節が漢字1文字の自
立語を含む文節であると判定すると、この注目文節に含
まれる自立語である漢字1文字を誤認識の文字として判
定し(n24)、n25でmaeを0に設定して、n2
6以降の処理を行う。なお、この1文字の漢字の付属語
となって文節を構成しているひらがな等は認識誤りがあ
った文字として検出されない。
文節でないと判定されたときには、n22に進み変数m
aeが2かどうかを判定する。ここで、1つ前の文節が
漢字1文字からなる文節であったかどうかを確認してい
る。そして、maeが2でなければn25に進んでma
eを0に設定し、n26以降の処理を行う。n22でm
aeが2であると(1つ前の文節が漢字1文字からなる
文節であった場合)、注目文節が漢字1文字の自立語を
含む文節であるかどうかを判定する(n23)。n23
で注目文節が漢字1文字の自立語を含む文節でないと判
定すると、n25に進んでmaeを0に設定し、n26
以降の処理を行う。n23で注目文節が漢字1文字の自
立語を含む文節であると判定すると、この注目文節に含
まれる自立語である漢字1文字を誤認識の文字として判
定し(n24)、n25でmaeを0に設定して、n2
6以降の処理を行う。なお、この1文字の漢字の付属語
となって文節を構成しているひらがな等は認識誤りがあ
った文字として検出されない。
【0049】図7は、図5に示した文節切りされた文字
列のデータに対して誤認識箇所検出処理によって誤認識
と検出された文字列を示す図である。ここで、従来のよ
うに形態素解析された結果から文法上の接続だけで誤認
識の箇所を検出する方式では、「し/よ」の部分だけし
か文字の誤認識を検出することはできない。しかし、本
実施の形態では、誤認識された文字列を全て検出するこ
とができた。上記したn5の誤認識箇所検出処理が完了
すると、判定部10がn6で誤認識箇所の有無を判定す
る。そして、誤認識箇所があると判定すると、訂正部1
1がn7の訂正処理を実行する。
列のデータに対して誤認識箇所検出処理によって誤認識
と検出された文字列を示す図である。ここで、従来のよ
うに形態素解析された結果から文法上の接続だけで誤認
識の箇所を検出する方式では、「し/よ」の部分だけし
か文字の誤認識を検出することはできない。しかし、本
実施の形態では、誤認識された文字列を全て検出するこ
とができた。上記したn5の誤認識箇所検出処理が完了
すると、判定部10がn6で誤認識箇所の有無を判定す
る。そして、誤認識箇所があると判定すると、訂正部1
1がn7の訂正処理を実行する。
【0050】また、本願発明で言う誤認文字検出装置1
aでは、誤認識された文字を訂正する機能を有していな
いので、以下に示す訂正処理は実行されない。ただし、
表示部12に、ここで判定した誤認識箇所とそれ以外の
箇所とを異なる表示形式で表示して処理を完了する。し
たがって、誤認識された文字を訂正をする作業者は、文
字が誤認識されている箇所を表示形式の違いから簡単に
見つけることができるので、訂正作業を簡単に行うこと
ができるようになる。
aでは、誤認識された文字を訂正する機能を有していな
いので、以下に示す訂正処理は実行されない。ただし、
表示部12に、ここで判定した誤認識箇所とそれ以外の
箇所とを異なる表示形式で表示して処理を完了する。し
たがって、誤認識された文字を訂正をする作業者は、文
字が誤認識されている箇所を表示形式の違いから簡単に
見つけることができるので、訂正作業を簡単に行うこと
ができるようになる。
【0051】誤認識と判定された箇所における文字の置
換は、以下のルールにしたがって実行する。 前後に誤認識とした文字が連接していない部分では、
文字候補の優先度の順(第2候補、第3候補・・の順)
に置換する。 誤認識文字が2文字連接している部分では、一文字の
み置換し、他方の文字を第1候補の文字とする。また、
文字候補の優先準位を加算したときにその値が小さいも
のから優先する。また、加算値が同じ場合には、後ろの
文字を第1候補の文字とする。文字候補の組み合わせに
おいて、どちらか一方の文字を第1候補とする全ての組
み合わせが完了たときには、第2候補の文字を第1候補
の文字とみなして同様の処理を行う。このようにして文
字を置換するのは、上記したように2文字連続して文字
が誤認識されることがほとんどないという理由からであ
る。この訂正処理における文字が置換される順番を示
す。 1回目、前の文字を第2候補、後ろの文字は第1候補 2回目、前の文字を第1候補、後ろの文字は第2候補 3回目、前の文字を第3候補、後ろの文字は第1候補 4回目、前の文字を第1候補、後ろの文字は第3候補 5回目、前の文字を第4候補、後ろの文字は第1候補 ・ ・ ・ 17回目、前の文字を第10候補、後ろの文字は第1候
補 18回目、前の文字を第1候補、後ろの文字は第10候
補 19回目、前の文字を第3候補、後ろの文字は第2候補 20回目、前の文字を第2候補、後ろの文字は第3候補 ・ ・ ・ n7における訂正処理行われると、n3以降の処理を繰
り返す。すなわち、文字列から文字を誤認識している箇
所が無くなるまで、n3〜n7の処理が繰り返し実行さ
れる。
換は、以下のルールにしたがって実行する。 前後に誤認識とした文字が連接していない部分では、
文字候補の優先度の順(第2候補、第3候補・・の順)
に置換する。 誤認識文字が2文字連接している部分では、一文字の
み置換し、他方の文字を第1候補の文字とする。また、
文字候補の優先準位を加算したときにその値が小さいも
のから優先する。また、加算値が同じ場合には、後ろの
文字を第1候補の文字とする。文字候補の組み合わせに
おいて、どちらか一方の文字を第1候補とする全ての組
み合わせが完了たときには、第2候補の文字を第1候補
の文字とみなして同様の処理を行う。このようにして文
字を置換するのは、上記したように2文字連続して文字
が誤認識されることがほとんどないという理由からであ
る。この訂正処理における文字が置換される順番を示
す。 1回目、前の文字を第2候補、後ろの文字は第1候補 2回目、前の文字を第1候補、後ろの文字は第2候補 3回目、前の文字を第3候補、後ろの文字は第1候補 4回目、前の文字を第1候補、後ろの文字は第3候補 5回目、前の文字を第4候補、後ろの文字は第1候補 ・ ・ ・ 17回目、前の文字を第10候補、後ろの文字は第1候
補 18回目、前の文字を第1候補、後ろの文字は第10候
補 19回目、前の文字を第3候補、後ろの文字は第2候補 20回目、前の文字を第2候補、後ろの文字は第3候補 ・ ・ ・ n7における訂正処理行われると、n3以降の処理を繰
り返す。すなわち、文字列から文字を誤認識している箇
所が無くなるまで、n3〜n7の処理が繰り返し実行さ
れる。
【0052】上記した「この隼金支給の間題について
も、当黙でしよ。」と言う文字列データは、図3に示す
文字ラティスを用いて図8に示すように訂正が行われ
る。図8からも明らかなように、この例では訂正処理が
5回行われたときに、誤認識文字の訂正が完了したと判
定されている(n6で誤認識箇所が無いと判定され
る。)。
も、当黙でしよ。」と言う文字列データは、図3に示す
文字ラティスを用いて図8に示すように訂正が行われ
る。図8からも明らかなように、この例では訂正処理が
5回行われたときに、誤認識文字の訂正が完了したと判
定されている(n6で誤認識箇所が無いと判定され
る。)。
【0053】n8では、この訂正処理が行われた文字列
を表示部12に表示する。表示部12における表示例を
図9に示す。訂正処理において置換された文字にはアン
ダラインが付されている。このアンダラインによって、
訂正された文字であるかどうかを示している。したがっ
て、操作者は訂正されて箇所が簡単に判断できるので、
正しく訂正されているかどうかを確認する作業を簡単に
行うことができる。
を表示部12に表示する。表示部12における表示例を
図9に示す。訂正処理において置換された文字にはアン
ダラインが付されている。このアンダラインによって、
訂正された文字であるかどうかを示している。したがっ
て、操作者は訂正されて箇所が簡単に判断できるので、
正しく訂正されているかどうかを確認する作業を簡単に
行うことができる。
【0054】なお、本実施の形態では、表示するときに
訂正した文字にはアンダラインを付けるとしたが、訂正
した文字のみ反転表示する等してそれ以外の文字(訂正
されていない文字)との表示形式を変えるようにしても
よい。また、本実施の形態ではパターンマッチングにお
いて、複数の文字候補を検出するとしたが、文字毎に形
状が類似する文字を記憶した類似辞書を設けておき、こ
の類似辞書から置換する文字を抽出するようにしてもよ
い。このようにすることで、文字候補記憶部5や、複数
の文字候補を検出する処理を不要にすることもできる。
訂正した文字にはアンダラインを付けるとしたが、訂正
した文字のみ反転表示する等してそれ以外の文字(訂正
されていない文字)との表示形式を変えるようにしても
よい。また、本実施の形態ではパターンマッチングにお
いて、複数の文字候補を検出するとしたが、文字毎に形
状が類似する文字を記憶した類似辞書を設けておき、こ
の類似辞書から置換する文字を抽出するようにしてもよ
い。このようにすることで、文字候補記憶部5や、複数
の文字候補を検出する処理を不要にすることもできる。
【0055】
【発明の効果】以上のように、この発明によれば、文字
列を画像データとして取り込み、文字毎にパターンマッ
チング等によって認識した文字の誤認識を確実に検出す
ることができる。
列を画像データとして取り込み、文字毎にパターンマッ
チング等によって認識した文字の誤認識を確実に検出す
ることができる。
【0056】また、誤認識を検出した文字とそれ以外の
文字を異なる表示形式で表示しているので、作業者は誤
認識されている箇所を簡単に知ることができ、訂正作業
が簡単に行える。
文字を異なる表示形式で表示しているので、作業者は誤
認識されている箇所を簡単に知ることができ、訂正作業
が簡単に行える。
【0057】また、この発明の誤認識文字訂正装置によ
れば、誤認識された文字が自動的に訂正されるので、訂
正作業を不要にすることができる。
れば、誤認識された文字が自動的に訂正されるので、訂
正作業を不要にすることができる。
【0058】さらに、訂正した文字列とそれ以外の文字
列とを異なる表示形式で表示しているので、誤認識され
た文字の訂正が正しく行われているかどうかを簡単に確
認することができる。
列とを異なる表示形式で表示しているので、誤認識され
た文字の訂正が正しく行われているかどうかを簡単に確
認することができる。
【図1】この発明の実施の形態である誤認識文字訂正装
置の構成を示すブロック図である。
置の構成を示すブロック図である。
【図2】同実施の形態である誤認識文字訂正装置の処理
を示すフローチャートである。
を示すフローチャートである。
【図3】「この年金支給の問題についても、当然でし
ょ。」と言う文字列を画像データとして取り込んだとき
に検出された文字候補を示す図である。
ょ。」と言う文字列を画像データとして取り込んだとき
に検出された文字候補を示す図である。
【図4】形態素解析を行う形態素解析システムの構成を
示す図である。
示す図である。
【図5】「この隼金支給の間題についても、当黙でし
ょ。」という文字列を形態素解析によって文節切りした
結果を示す図である。
ょ。」という文字列を形態素解析によって文節切りした
結果を示す図である。
【図6】誤認識文字を検出する処理を示すフローチャー
トである。
トである。
【図7】誤認識箇所検出処理によって誤認識と検出され
た文字列を示す図である。
た文字列を示す図である。
【図8】検出された誤認識文字の訂正の経過を示す図で
ある。
ある。
【図9】表示部における文字列データの表示例を示す図
である。
である。
1−誤認識文字訂正装置 1a−誤認識文字毛演出装置 2−入力部 3−画像データ記憶部 4−類似辞書 5−文字認識部 6−文字候補記憶部 7−文字列データ作成部 8−単語辞書 9−文法辞書 10−形態素解析部 11−判定部 12−訂正部 13−表示部
Claims (18)
- 【請求項1】 文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において句読点等の区
切り記号以外の1文字からなる文節が連接している箇所
を文字が誤認識されている文字列であるとして検出する
誤認識検出手段と、を備えたことを特徴とする誤認識文
字検出装置。 - 【請求項2】 文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において1文字の漢字
からなる文節を文字が誤認識されている文字列であると
して検出する誤認識検出手段と、を備えたことを特徴と
する誤認識文字検出装置。 - 【請求項3】 文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において1文字の漢字
からなる文節と漢字1文字の自立語を含む文節とが連接
している箇所を文字が誤認識されている文字列であると
して検出する誤認識検出手段と、を備えたことを特徴と
する誤認識文字検出装置。 - 【請求項4】 入力された文字列を表示する表示手段を
備え、 前記表示手段は、前記誤認識検出手段で誤認識であるこ
とを検出した文字の文字列とそれ以外の文字列とを異な
る表示形式で表示する手段であることを特徴とする請求
項1、2、または、3のいずれかに記載の誤認識文字検
出装置。 - 【請求項5】 書面等に記載された文章を画像データと
して取り込み、該画像データに対してパターンマッチン
グ等の画像処理を行って該文章を構成する文字毎に文字
を認識する文字認識手段と、認識した文字からなる文字
列を入力する入力手段を備えたことを特徴とする請求項
1〜3、または、4のいずれかに記載の誤認識文字検出
装置。 - 【請求項6】 請求項5に記載の誤認識文字検出装置に
おいて、 前記文字認識手段には、文字毎に認識した文字以外にも
複数の文字を文字候補として検出する手段を含み、 前記誤認識検出手段によって文字の誤認識されている文
字列を検出したときに、該文字列の文字を前記文字候補
として検出されている文字で置換する置換手段を備え、 前記置換手段での置換後、再び前記形態素解析および誤
認識検出を実行することを特徴とする誤認識文字訂正装
置。 - 【請求項7】 文字候補として検出された文字には、優
先順位が付され、 前記置換手段には、優先順位に基づいて置換する文字を
文字候補から抽出する手段を含むことを特徴とする請求
項6記載の誤認識文字訂正装置。 - 【請求項8】 請求項5に記載の誤認識文字検出装置に
おいて、 文字毎に形状が類似する文字を登録した類似辞書を備
え、 前記誤認識検出手段によって文字の誤認識している文字
列を検出したときに、該文字列の文字の形状が類似する
文字を類似辞書から検出して、前記誤認識している文字
をこの検出した類似の文字で置換する置換手段を備え、 前記置換手段での置換後、再び前記形態素解析および誤
認識検出を実行することを特徴とする誤認識文字訂正装
置。 - 【請求項9】 前記置換手段によって置換した文字の文
字列と、それ以外の文字列とを異なる表示形式で表示す
る手段を備えたことを特徴とする請求項6、7、また
は、8のいずれかに記載の誤認識文字訂正装置。 - 【請求項10】 文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において1文字からなる文節が連
接している箇所を文字が誤認識されている文字列である
として検出することを特徴とする誤認識文字検出方法。 - 【請求項11】 文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において1文字の漢字からなる文
節を文字が誤認識されている文字列であるとして検出す
ることを特徴とする誤認識文字検出方法。 - 【請求項12】 文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において1文字の漢字からなる文
節と漢字1文字の自立語を含む文節とが連接している箇
所を文字が誤認識されている文字列であるとして検出す
ることを特徴とする誤認識文字検出方法。 - 【請求項13】 入力された文字列に対して、誤認識で
あることを検出した文字の文字列とそれ以外の文字列と
を異なる表示形式で表示することを特徴とする請求項1
0、11、または、12のいずれかに記載の誤認識文字
検出方法。 - 【請求項14】 書面等に記載された文章を画像データ
として取り込み、パターンマッチング等の画像処理を行
って、該文章を構成する文字毎に文字を認識し、認識し
た文字からなる文字列を入力することを特徴とする請求
項10〜12、または、13のいずれかに記載の誤認識
文字検出方法。 - 【請求項15】 請求項14に記載の誤認識文字検出方
法において、 文字毎に認識した文字以外にも複数の文字を文字候補と
して検出しておき、 文字が誤認識されている文字列を検出したときには、該
文字列の文字を前記文字候補として検出されている文字
で置換し、この置換後に再度形態素解析を行って、誤認
識している文字の有無を検出することを特徴とする誤認
識文字訂正方法。 - 【請求項16】 文字候補として検出されている文字に
優先順位を付し、この優先順位に基づいて、文字候補か
ら置換する文字を抽出することを特徴とする請求項15
記載の誤認識文字訂正装置。 - 【請求項17】 請求項14に記載の誤認識文字検出方
法において、 文字が誤認識されている文字列を検出したときに、該文
字列の文字の形状が類似する文字を文字毎に形状が類似
する文字が登録された類似辞書から検出し、前記誤認識
している文字列の文字をこの検出した類似の文字で置換
し、この置換した後に形態素解析を行って、誤認識して
いる文字の有無を検出することを特徴とする誤認識文字
訂正方法。 - 【請求項18】 置換した文字の文字列と、それ以外の
文字列とを異なる表示形式で表示することを特徴とする
請求項15、16、または、17のいずれかに記載の誤
認識文字訂正方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7343450A JPH09185674A (ja) | 1995-12-28 | 1995-12-28 | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7343450A JPH09185674A (ja) | 1995-12-28 | 1995-12-28 | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09185674A true JPH09185674A (ja) | 1997-07-15 |
Family
ID=18361616
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7343450A Pending JPH09185674A (ja) | 1995-12-28 | 1995-12-28 | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09185674A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010055142A (ja) * | 2008-08-26 | 2010-03-11 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
| US7853623B2 (en) | 2006-12-18 | 2010-12-14 | Hitachi, Ltd. | Data mining system, data mining method and data retrieval system |
| JP2014067303A (ja) * | 2012-09-26 | 2014-04-17 | Toshiba Corp | 文字認識装置、方法およびプログラム |
| JP2016201013A (ja) * | 2015-04-13 | 2016-12-01 | 富士ゼロックス株式会社 | 文字認識装置、文字認識処理システム、およびプログラム |
-
1995
- 1995-12-28 JP JP7343450A patent/JPH09185674A/ja active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7853623B2 (en) | 2006-12-18 | 2010-12-14 | Hitachi, Ltd. | Data mining system, data mining method and data retrieval system |
| JP2010055142A (ja) * | 2008-08-26 | 2010-03-11 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
| US8280175B2 (en) | 2008-08-26 | 2012-10-02 | Fuji Xerox Co., Ltd. | Document processing apparatus, document processing method, and computer readable medium |
| JP2014067303A (ja) * | 2012-09-26 | 2014-04-17 | Toshiba Corp | 文字認識装置、方法およびプログラム |
| CN104685514A (zh) * | 2012-09-26 | 2015-06-03 | 株式会社东芝 | 字符识别设备、方法和程序 |
| JP2016201013A (ja) * | 2015-04-13 | 2016-12-01 | 富士ゼロックス株式会社 | 文字認識装置、文字認識処理システム、およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
| US20110106814A1 (en) | Search device, search index creating device, and search system | |
| Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
| JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
| Lehal et al. | A post-processor for Gurmukhi OCR | |
| JPH09185674A (ja) | 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法 | |
| JP2000089786A (ja) | 音声認識結果の修正方法および装置 | |
| Mohapatra et al. | Spell checker for OCR | |
| JPH10232863A (ja) | かな漢字変換装置および方法、並びに記録媒体 | |
| JPH06215184A (ja) | 抽出領域のラベリング装置 | |
| JPH09274645A (ja) | 文字認識方法および装置 | |
| JPH0528324A (ja) | 英文字認識装置 | |
| JP2939945B2 (ja) | ローマ字住所認識装置 | |
| JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
| JPH087046A (ja) | 文書認識装置 | |
| JPH0765130A (ja) | 文字認識装置 | |
| JPH0290384A (ja) | 文字認識装置の後処理方式 | |
| JP2025077540A (ja) | 複合語検出装置及び複合語検出方法 | |
| JPH07110844A (ja) | 日本語文書処理装置 | |
| CN115221867A (zh) | 识别语法的方法、装置、电子设备、扫描笔及存储介质 | |
| JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
| JPH07122890B2 (ja) | 分離文字処理機能を持つ文書リーダ装置 | |
| JPH05108891A (ja) | Ocr入力された日本語文の後処理方法 | |
| JPH0562020A (ja) | 文字認識装置 | |
| JPH03156589A (ja) | 誤読文字の検出,修正方法 |