JPH09185674A

JPH09185674A - 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法

Info

Publication number: JPH09185674A
Application number: JP7343450A
Authority: JP
Inventors: Toshihiro Fujinami; 稔弘藤並; Tomoyuki Tada; 多田　　智之; Hidenobu Kaneoka; 秀信金岡
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1995-12-28
Filing date: 1995-12-28
Publication date: 1997-07-15

Abstract

(57)【要約】【課題】パターンマッチング等の画像処理によって認識
された文字列中における誤認識の文字の訂正作業が簡単
に行える。さらに、誤認識の文字の訂正作業を不要にす
る。【解決手段】画像データ等で入力された文字列をパター
ンマッチング等によって認識した文字列データに対して
（ｎ１、ｎ２）、形態素解析を行って文節切りを行う
（ｎ３、ｎ４）。そして、句読点等の区切り記号以外の
１文字からなる文節が連接する箇所、漢字１文字からな
る文節の箇所、および、漢字１文字からなる文節と連接
する漢字１文字の自立語と付属語からなる文節とが連接
する箇所を誤認識箇所として検出する（ｎ５）。そし
て、この誤認識箇所の文字を、他の文字に置換して訂正
する（ｎ７）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、パターンマッチ
ング等の画像処理によって認識された文字列中における
誤認識の文字を検出する誤認識文字検出装置および誤認
識文字検出方法と、この検出された誤認識の文字を訂正
する誤認識文字訂正装置および誤認識文字訂正方法に関
する。

【０００２】

【従来の技術】書面等に記載された文章をＯＣＲ（Opti
cal Charcter Reader ）等のイメージスキャナを用いて
画像データとして取り込ませ、この画像データに対して
パターンマッチング等の画像処理を行って、文字毎に文
字を認識させることによって、書面等に記載された文章
を電子化された情報として簡単に入力できるシステムが
普及しつつある。

【０００３】このシステムには大きな問題がある。それ
は、パターンマッチング等の画像処理における文字の認
識精度が１００パーセントではないということである。
すなわち、書面等に記載された文章を正確に電子化され
た情報として入力できないという問題である。さらに、
誤認識された文字の出現には規則性がない。このため、
電子化された情報である文字列に対して１字１字確認し
て、誤認識されている文字があれば該文字を訂正すると
いう作業を行わなければならなず、この訂正作業にかか
る負担が大きい。

【０００４】そこで、以下に示す文字認識された文字列
から誤認識されている文字を自動的に検出する方法が提
案されている。文字を認識したときに、該文字の認識結果の確信度
を求め、確信度の低い文字を誤認識された文字である可
能性があるとする方法。

【０００５】文字認識された文字列に対して形態素
解析・構文解析・意味解析を行い、文法的に接続不可能
な箇所および意味的に接続不可能な箇所を検出して、こ
れらの箇所の文字列の文字を誤認識された文字であると
する方法。

【０００６】文字毎に、複数の文字候補を検出し、
これらの文字候補の全ての組み合わせの中から文法的接
続条件や文字の連接確率等が最適の組み合わせを、認識
結果とする方法。

【０００７】

【発明が解決しようとする課題】しかしながら、上記し
たの方法では、手書き文字やコピー等により品質が低
下した文字列の場合、文字の認識率が十分ではなく、文
字の認識結果の確信度を正しく評価することはできな
い。

【０００８】また、の方法では、意味解析を実行する
ために、単語毎に細かく意味分類された大規模な意味辞
書を設ける必要があり、システムが大型化してしまうと
いう問題がある。

【０００９】さらにの方法では、文字候補の全ての組
み合わせのなかから文法的接続条件や文字の連接確率等
を求めるので、例えば、１０文字の文字列に対して文字
候補を１０個検出するシステムでは、１０の１０乗通り
の組み合わせに対して文法的接続条件や文字の連接確率
等を求めることになる。このため、多大な処理時間が必
要となる問題がある。

【００１０】この発明の目的は、パターンマッチング等
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業が簡単に行える誤認識文字検出装置お
よび誤認識文字検出方法を提供することにある。

【００１１】また、この発明は、パターンマッチング等
の画像処理によって認識された文字列中における誤認識
の文字の訂正作業を不要にする誤認識文字訂正装置およ
び誤認識文字訂正方法を提供することを目的とする。

【００１２】

【課題を解決するための手段】請求項１に記載したこの
発明の誤認識文字検出装置は、文字列である単語および
その単語の属性を示すデータを登録した辞書ファイル
と、前記辞書ファイルを用いて入力された文字列に対し
て文節切りを含む形態素解析を行う形態素解析手段と、
前記形態素解析手段によって文節切りされた文字列にお
いて句読点等の区切り記号以外の１文字からなる文節が
連接している箇所を文字が誤認識されている文字列であ
るとして検出する誤認識検出手段と、を備えたことを特
徴とする。

【００１３】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに句読点等の区切り記号以外の１文
字からなる文節が連接している箇所を文字が誤認識され
ている文字列であるとして検出する。

【００１４】請求項２に記載したこの発明の誤認識文字
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において１文字の漢字か
らなる文節を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。

【００１５】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、１文字の漢字からなる文節があ
れば、その文節を文字が誤認識されている文字列である
として検出する。

【００１６】請求項３に記載したこの発明の誤認識文字
検出装置は、文字列である単語およびその単語の属性を
示すデータを登録した辞書ファイルと、前記辞書ファイ
ルを用いて入力された文字列に対して文節切りを含む形
態素解析を行う形態素解析手段と、前記形態素解析手段
によって文節切りされた文字列において１文字の漢字か
らなる文節と漢字１文字の自立語を含む文節とが連接し
ている箇所を文字が誤認識されている文字列であるとし
て検出する誤認識検出手段と、を備えたことを特徴とす
る。

【００１７】この構成では、入力された文字列に対して
単語およびその単語の属性を示すデータを登録した辞書
ファイルを用いて形態素解析を行う。この、形態素解析
で文節切りしたときに、１文字の漢字からなる文節と漢
字１文字の自立語を含む文節とが連接している箇所を文
字が誤認識されている文字列であるとして検出する。

【００１８】請求項４に記載したこの発明の誤認識文字
検出装置は、入力された文字列を表示する表示手段を備
え、前記表示手段は、前記誤認識検出手段で誤認識であ
ることを検出した文字の文字列とそれ以外の文字列とを
異なる表示形式で表示する手段であることを特徴とす
る。

【００１９】この構成では、誤認識であることが検出さ
れた文字の文字列と、それ以外の文字の文字列とが異な
る表示形式で表示される。

【００２０】請求項５に記載したこの発明の誤認識文字
検出装置は、書面等に記載された文章を画像データとし
て取り込み、該画像データに対してパターンマッチング
等の画像処理を行って該文章を構成する文字毎に文字を
認識する文字認識手段と、認識した文字からなる文字列
を入力する入力手段を備えたことを特徴とする。

【００２１】この構成では、入力手段が書面等に記載さ
れた文章を画像データとして取り込み、パターンマッチ
ング等の画像処理を行って該文章を構成する文字毎に文
字を認識する。そして、認識された文字からなる文字列
が入力される。

【００２２】請求項６に記載したこの発明の誤認識文字
訂正装置は、請求項５に記載の誤認識文字検出装置にお
いて、前記文字認識手段には、文字毎に認識した文字以
外にも複数の文字を文字候補として検出する手段を含
み、前記誤認識検出手段によって文字の誤認識されてい
る文字列を検出したときに、該文字列の文字を前記文字
候補として検出されている文字で置換する置換手段を備
え、前記置換手段での置換後、再び前記形態素解析およ
び誤認識検出を実行することを特徴とする。

【００２３】この構成では、文字毎に認識した文字以外
に複数の文字を文字候補として検出しておき、前記誤認
識検出手段によって文字が誤認識されている文字列を検
出すると、該文字列の文字を文字候補の文字での置換
後、再び前記形態素解析および誤認識検出を実行して、
誤認識されている文字の有無を検出する。

【００２４】請求項７に記載したこの発明の誤認識文字
訂正装置は、文字候補として検出された文字には、優先
順位が付され、前記置換手段には、優先順位に基づいて
置換する文字を文字候補から抽出する手段を含むことを
特徴とする。

【００２５】この構成では、文字候補として検出されて
いる文字に付されている優先順位に基づいて、置換する
文字が文字候補から抽出される。

【００２６】請求項８に記載したこの発明の誤認識文字
訂正装置は、請求項５に記載の誤認識文字検出装置にお
いて、文字毎に形状が類似する文字を登録した類似辞書
を備え、前記誤認識検出手段によって文字の誤認識して
いる文字列を検出したときに、該文字列の文字の形状が
類似する文字を類似辞書から検出して、前記誤認識して
いる文字をこの検出した類似の文字で置換する置換手段
を備え、前記置換手段での置換後、再び前記形態素解析
および誤認識検出を実行することを特徴とする。

【００２７】この構成では、前記誤認識検出手段によっ
て文字が誤認識されている文字列を検出すると、該文字
列の文字の形状が類似する文字を類似辞書から検出す
る。そして、誤認識している文字をこの検出した類似の
文字で置換後、再び前記形態素解析および誤認識検出を
実行して、誤認識されている文字の有無を検出する。

【００２８】請求項９に記載したこの発明の誤認識文字
訂正装置は、前記置換手段によって置換した文字の文字
列と、それ以外の文字列とを異なる表示形式で表示する
手段を備えたことを特徴とする。

【００２９】この構成では、置換された文字の文字列と
それ以外の文字列とが異なる表示形式で表示される。

【００３０】請求項１０〜請求項１８に記載したこの発
明の誤認識文字検出方法は、それぞれ上記請求項１〜請
求項９に記載した誤認識文字検出装置の構成が方法で記
載されている。

【００３１】

【発明の実施の形態】図１はこの発明の実施の形態であ
る誤認識文字訂正装置の機能を示すブロック図である。
誤認識文字訂正装置１は、入力部２と、画像データ記憶
部３と、文字認識部４と、文字候補記憶部５と、文字列
データ作成部６と、単語辞書７と、文法辞書８と、形態
素解析部９と、判定部１０と、訂正部１１と、表示部１
２とを備えている。また、入力部２と、画像データ記憶
部３と、文字認識部４と、文字列データ作成部６と、単
語辞書７と、文法辞書８と、形態素解析部９と、判定部
１０と、表示部１２とでこの発明の実施の形態である誤
認識文字検出装置１ａが構成される。

【００３２】入力部２は、ＯＣＲ等を用いて書面に書か
れた文章等を画像データで取り込む。画像データ記憶部
３は、入力部２で取り込んだ画像データを記憶する。文
字認識部４は、画像データ記憶部３に記憶されている文
章の画像データから、１文字ずつ文字を切り出し、パタ
ーンマッチング等によって文字毎に複数の文字候補を優
先順位を付けて検出する。文字候補記憶部５は、文字認
識部５で検出された文字候補を優先順位とともに記憶す
る。文字列データ作成部６は、優先順位を用いて文字候
補から抽出した文字からなる文字列のデータを作成す
る。単語辞書７は、単語の文字列とその単語の属性を対
応させて記憶している。文法辞書８は、文法規則を記憶
している。形態素解析部９は、単語辞書７と文法辞書８
を用いて文字列データ作成部６で作成された文字列デー
タを文節切りする。判定部１０は、文節切りされた結果
に基づいて誤認識されている文字列を検出する。訂正部
１１は、検出された誤認識されている文字列の文字を他
の文字で置換する訂正処理を実行する。表示部１２は、
文字列データ作成部６で作成された文字列の表示等を行
う。

【００３３】図２は、この発明の実施の形態である誤認
識文字訂正装置の一連の処理を示すフローチャートであ
る。まず、簡単に誤認識文字訂正装置１の動作を説明す
る。誤認識文字訂正装置１は、入力部２において書面等
に記載された文章を画像データで取り込み、これを画像
データ記憶部３に記憶する（ｎ１）。文字認識部４は、
ｎ１で取り込んだ文章の画像データから１文字ずつ文字
を切り出し、文字毎に文字候補を検出する（ｎ２）。文
字候補記憶部５が文字毎に検出された文字候補を記憶す
る。文字列データ作成部６がｎ２で検出された文字候補
を用いて文字列データを作成し（ｎ３）、形態素解析部
９でこの文字列データの形態素解析を行う（ｎ４）。そ
して、判定部１０が形態素解析の結果から誤認識の文字
の文字列の箇所を検出する誤認識箇所検出処理を行う
（ｎ５）。このときに、誤認識の文字の文字列が検出さ
れなければこの文字列のデータを表示部１２に表示して
処理を完了する（ｎ６→ｎ８）。一方、ｎ５で誤認識の
文字の文字列を検出したときには、誤認識であることを
検出した文字を他の文字候補で置換する訂正処理を行い
（ｎ６→ｎ７）、ｎ３以降の処理を繰り返す。ｎ７の訂
正処理がこの発明でいう置換手段に相当する。

【００３４】以下、詳細に誤認識文字訂正装置１の動作
を説明する。ｎ１では、入力部２が書面に記載された文
章を画像データとして取り込む。この取り込まれた画像
データは、画像データ記憶部３に記憶される。

【００３５】ｎ２では、ｎ１で取り込んだ画像データに
対して画像処理を行う。この画像処理としては、画像デ
ータである文書の文字を１文字ずつ切り出し、文字毎に
パターンマッチング等を行って文字を認識する。この認
識では、文字毎に所定数の文字候補を検出する。ここ
で、検出される文字候補には優先順位がつけられる。そ
して、文字毎の文字候補は文字ラティスとして文字候補
記憶部５に記憶される。

【００３６】図３は「この年金支給の問題についても、
当然でしょ。」と書かれた文章を画像データとして取り
込んだときに作成された文字ラティスである。各文字毎
に１０文字の文字候補を検出しており、文字候補の文字
には優先順位が付けられている。図では優先順位の高い
文字から順に示している（左側の文字ほど優先順位が高
い。）。

【００３７】ｎ３では、文字列データ作成部６が第１候
補の文字（最も優先度の高い文字）からなる文字列のデ
ータを作成する。すなわち、上記した例では、「この隼
金支給の間題についても、当黙でしよ。」と言う文字列
データが作成されることになる。

【００３８】ｎ４では、形態素解析部９がｎ３で作成さ
れた文字列のデータに対して、形態素解析を行い、該文
字列を文節切りする。ここで簡単に形態素解析について
説明する。形態素解析とは、入力された文字列を構成し
ている単語を発見するとともに、単語間の接続関係を明
らかにする処理である。図４に、形態素解析を行う一般
的な形態素解析システムの構成を示す。形態素解析シス
テム２０は、文字列のデータを記憶する文バッファ２１
と、辞書を検索する辞書検索部２２と、単語が登録され
た形態素辞書２３と、形態素間の接続が成立するかどう
かを判定する接続検証部２４と、形態素間の接続規則を
記憶した接続規則記憶部２５とを備えている。なお、こ
こで言う形態素辞書２３が単語辞書７に相当し、接続規
則記憶部２５が文法辞書８に相当し、文バッファ２１と
辞書検索部２２と接続検証部２４とで形態素解析部９を
構成する。言い換えれば、図１に示した単語辞書７、文
法辞書８、および、形態素解析部９によって形態素解析
システム２０が構成されている。

【００３９】文バッファ２１には、ｎ３で作成された文
字列データが記憶される。辞書検索部２２は、予め決め
られている分かち書きの方法（例えば、最長一致法、２
文節最長一致法、文節数最小法等）にしたがって、文バ
ッファ２１に記憶されている文字列のデータを形態素辞
書２３を用いて、分かち書きを行う。分かち書きされた
単語の候補に対して、接続検証部２４で連接する単語
（その前に切り出された単語）との接続チェックを行
う。この接続チェックは、該単語の候補と前に切り出さ
れた連接する単語との形態素間の接続規則が成立するか
どうかを確認する処理である。形態素間の接続規則が成
立すれば該単語が正しく切り出されたと判定し、形態素
間の接続規則が成立しなければ該単語が正しく切り出さ
れていないと判定する。そして、形態素間の接続規則が
成立していなければ改めて形態素辞書２３を引いて、他
の単語候補を探し同様の処理を行う。このとき、他の単
語候補が存在しなければ、連接する単語候補の切り出し
に問題があったとして単語の切り出しをやり直す。

【００４０】このようにして、文字列を構成している単
語を発見するとともに、単語間の接続関係を明らかにさ
れ、文字列のデータが文節単位に分割される。

【００４１】例えば、上記した例における第１候補の文
字からなる「この隼金支給の間題についても、当黙でし
よ。」という文字列データは形態素解析によって図５に
示す文節単位に分割される。

【００４２】ｎ５では判定部１０が、ｎ４において文節
切りされた結果からｎ２において文字を誤認識した箇所
を検出する。この実施の形態では、以下に示す〜の
いずれかの条件を満たすときには、そこを文字が誤認識
された箇所であるとして検出する。句読点等（、。〔〕等）の区切り記号以外の１文字
（漢字、ひらがな、カタカナ、英数字等）からなる文節
が連接する箇所１文字の漢字からなる文節である箇所１文字の漢字からなる文節と、漢字１文字の自立語を
含む文節が連接する箇所上記した条件を設定した理由は、日本語において文法上
１文字では文節が構成されない。なお、ひらがな１文字
からなる文節が単独であるときには、この文節を文字を
誤認識した箇所として検出しないようにしている理由
は、文字の認識において、ひらがなは、他の文字に誤認
識されることがほとんどなく、且つ、２文字連続して誤
認識されることもほとんどない。このため、ひらがなが
１文字で文節を構成するのは、そのひらがなに連接する
文節の漢字を誤認識したために、付属語であったこのひ
らがなが接続しなくなったと考えられるからである。

【００４３】図６は、上記したｎ５における誤認識箇所
を検出する処理を示すフローチャートである。この処理
は判定部１０で行われる。ｎ４における形態素解析処理
で文節切りされた文字列のデータを取り込む（ｎ１
１）。そして、初期設定としてｍａｅと言う変数を０に
セットするとともに、先頭の文節を注目文節に設定する
（ｎ１２、ｎ１３）。注目文節とは、以下の処理を行う
対象とする文節である。また、ｍａｅと言う変数は以下
のようにして設定される。注目文節が１文字の漢字から
なる文節であれば２に設定する。注目文節が句読点等の
区切り記号および漢字以外の１文字からなる文節であれ
ば１に設定する。注目文節が上記以外であれば０に設定
する。

【００４４】初期設定が終了すると、注目文節が１文字
の文節であるかどうかを判定する（ｎ１４）。ｎ１４
で、１文字の文節であると判定すると、この文節の１文
字が、句読点等の区切り記号であるかどうかを判定する
（ｎ１５）。ｎ１５で区切り記号であると、ｎ２５に進
み変数ｍａｅを０に設定する。そして、注目文節の後ろ
に文節があるかないかを判定する（ｎ２６）。後ろに文
節があれば１つ後ろの文節を注目文節に設定し（ｎ２
７）、ｎ１４に戻る。ｎ２６で後ろに文節がないと判定
すると処理を完了する。

【００４５】ｎ１５で区切り記号以外の１文字からなる
文節であると判定すると、変数ｍａｅが０かどうかを判
定する（ｎ１６）。前回の注目文節が句読点等の区切り
記号以外の漢字、ひらがな、カタカナ、英数字等の１文
字からなる文節であったきに、変数ｍａｅが１または２
に設定されている。すなわち、この変数ｍａｅは現在の
注目文節より１つ前の文節の形態を示している。したが
って、ｎ１６の判定では、現在の注目文節より１つ前の
文節が句読点等の区切り記号以外の漢字、ひらがな、カ
タカナ、英数字等１文字からなる文節であったかどうか
を判定している。

【００４６】そして、現在の注目文節より１つ前の文節
が句読点等の区切り記号以外の１文字からなる文節であ
ったときには、区切り記号以外の１文字からなる文節が
連接している箇所であるので、現在の注目文節より１つ
前の文節と現在の注目文節と、を文字が誤認識されてい
る箇所と判定し（ｎ１７）、ｎ１８に進む。一方、現在
の注目文節より１つ前の文節が区切り記号以外の１文字
からなる文節でなくｍａｅが０に設定されていれば、ｎ
１７の処理を行うことなく、ｎ１８に進む。ｎ１８で
は、現在の注目文節が漢字１文字からなる文節であるか
どうかが判定される。ここで、現在の注目文節が漢字１
文字からなる文節ではない時（ひらがな、または、カタ
カナ、英数字等の１文字文節である時）には、ｎ２１に
進んでｍａｅを１に設定し、ｎ２６に進む。

【００４７】ｎ１８で、現在の注目文節が漢字１文字か
らなる文節であると判定した時には、この漢字１文字か
らなる現在の注目文節を文字が誤認識されている箇所と
判定し（ｎ１９）、ｎ２０に進んでｍａｅを２に設定
し、ｎ２６に進む。このｎ１９の処理で、１文字の文節
と連接していない漢字１文字からなる文節も誤認識の箇
所として検出される。

【００４８】また、ｎ１４で注目文節が１文字からなる
文節でないと判定されたときには、ｎ２２に進み変数ｍ
ａｅが２かどうかを判定する。ここで、１つ前の文節が
漢字１文字からなる文節であったかどうかを確認してい
る。そして、ｍａｅが２でなければｎ２５に進んでｍａ
ｅを０に設定し、ｎ２６以降の処理を行う。ｎ２２でｍ
ａｅが２であると（１つ前の文節が漢字１文字からなる
文節であった場合）、注目文節が漢字１文字の自立語を
含む文節であるかどうかを判定する（ｎ２３）。ｎ２３
で注目文節が漢字１文字の自立語を含む文節でないと判
定すると、ｎ２５に進んでｍａｅを０に設定し、ｎ２６
以降の処理を行う。ｎ２３で注目文節が漢字１文字の自
立語を含む文節であると判定すると、この注目文節に含
まれる自立語である漢字１文字を誤認識の文字として判
定し（ｎ２４）、ｎ２５でｍａｅを０に設定して、ｎ２
６以降の処理を行う。なお、この１文字の漢字の付属語
となって文節を構成しているひらがな等は認識誤りがあ
った文字として検出されない。

【００４９】図７は、図５に示した文節切りされた文字
列のデータに対して誤認識箇所検出処理によって誤認識
と検出された文字列を示す図である。ここで、従来のよ
うに形態素解析された結果から文法上の接続だけで誤認
識の箇所を検出する方式では、「し／よ」の部分だけし
か文字の誤認識を検出することはできない。しかし、本
実施の形態では、誤認識された文字列を全て検出するこ
とができた。上記したｎ５の誤認識箇所検出処理が完了
すると、判定部１０がｎ６で誤認識箇所の有無を判定す
る。そして、誤認識箇所があると判定すると、訂正部１
１がｎ７の訂正処理を実行する。

【００５０】また、本願発明で言う誤認文字検出装置１
ａでは、誤認識された文字を訂正する機能を有していな
いので、以下に示す訂正処理は実行されない。ただし、
表示部１２に、ここで判定した誤認識箇所とそれ以外の
箇所とを異なる表示形式で表示して処理を完了する。し
たがって、誤認識された文字を訂正をする作業者は、文
字が誤認識されている箇所を表示形式の違いから簡単に
見つけることができるので、訂正作業を簡単に行うこと
ができるようになる。

【００５１】誤認識と判定された箇所における文字の置
換は、以下のルールにしたがって実行する。前後に誤認識とした文字が連接していない部分では、
文字候補の優先度の順（第２候補、第３候補・・の順）
に置換する。誤認識文字が２文字連接している部分では、一文字の
み置換し、他方の文字を第１候補の文字とする。また、
文字候補の優先準位を加算したときにその値が小さいも
のから優先する。また、加算値が同じ場合には、後ろの
文字を第１候補の文字とする。文字候補の組み合わせに
おいて、どちらか一方の文字を第１候補とする全ての組
み合わせが完了たときには、第２候補の文字を第１候補
の文字とみなして同様の処理を行う。このようにして文
字を置換するのは、上記したように２文字連続して文字
が誤認識されることがほとんどないという理由からであ
る。この訂正処理における文字が置換される順番を示
す。１回目、前の文字を第２候補、後ろの文字は第１候補２回目、前の文字を第１候補、後ろの文字は第２候補３回目、前の文字を第３候補、後ろの文字は第１候補４回目、前の文字を第１候補、後ろの文字は第３候補５回目、前の文字を第４候補、後ろの文字は第１候補・・・１７回目、前の文字を第１０候補、後ろの文字は第１候
補１８回目、前の文字を第１候補、後ろの文字は第１０候
補１９回目、前の文字を第３候補、後ろの文字は第２候補２０回目、前の文字を第２候補、後ろの文字は第３候補・・・ｎ７における訂正処理行われると、ｎ３以降の処理を繰
り返す。すなわち、文字列から文字を誤認識している箇
所が無くなるまで、ｎ３〜ｎ７の処理が繰り返し実行さ
れる。

【００５２】上記した「この隼金支給の間題について
も、当黙でしよ。」と言う文字列データは、図３に示す
文字ラティスを用いて図８に示すように訂正が行われ
る。図８からも明らかなように、この例では訂正処理が
５回行われたときに、誤認識文字の訂正が完了したと判
定されている（ｎ６で誤認識箇所が無いと判定され
る。）。

【００５３】ｎ８では、この訂正処理が行われた文字列
を表示部１２に表示する。表示部１２における表示例を
図９に示す。訂正処理において置換された文字にはアン
ダラインが付されている。このアンダラインによって、
訂正された文字であるかどうかを示している。したがっ
て、操作者は訂正されて箇所が簡単に判断できるので、
正しく訂正されているかどうかを確認する作業を簡単に
行うことができる。

【００５４】なお、本実施の形態では、表示するときに
訂正した文字にはアンダラインを付けるとしたが、訂正
した文字のみ反転表示する等してそれ以外の文字（訂正
されていない文字）との表示形式を変えるようにしても
よい。また、本実施の形態ではパターンマッチングにお
いて、複数の文字候補を検出するとしたが、文字毎に形
状が類似する文字を記憶した類似辞書を設けておき、こ
の類似辞書から置換する文字を抽出するようにしてもよ
い。このようにすることで、文字候補記憶部５や、複数
の文字候補を検出する処理を不要にすることもできる。

【００５５】

【発明の効果】以上のように、この発明によれば、文字
列を画像データとして取り込み、文字毎にパターンマッ
チング等によって認識した文字の誤認識を確実に検出す
ることができる。

【００５６】また、誤認識を検出した文字とそれ以外の
文字を異なる表示形式で表示しているので、作業者は誤
認識されている箇所を簡単に知ることができ、訂正作業
が簡単に行える。

【００５７】また、この発明の誤認識文字訂正装置によ
れば、誤認識された文字が自動的に訂正されるので、訂
正作業を不要にすることができる。

【００５８】さらに、訂正した文字列とそれ以外の文字
列とを異なる表示形式で表示しているので、誤認識され
た文字の訂正が正しく行われているかどうかを簡単に確
認することができる。

【図面の簡単な説明】

【図１】この発明の実施の形態である誤認識文字訂正装
置の構成を示すブロック図である。

【図２】同実施の形態である誤認識文字訂正装置の処理
を示すフローチャートである。

【図３】「この年金支給の問題についても、当然でし
ょ。」と言う文字列を画像データとして取り込んだとき
に検出された文字候補を示す図である。

【図４】形態素解析を行う形態素解析システムの構成を
示す図である。

【図５】「この隼金支給の間題についても、当黙でし
ょ。」という文字列を形態素解析によって文節切りした
結果を示す図である。

【図６】誤認識文字を検出する処理を示すフローチャー
トである。

【図７】誤認識箇所検出処理によって誤認識と検出され
た文字列を示す図である。

【図８】検出された誤認識文字の訂正の経過を示す図で
ある。

【図９】表示部における文字列データの表示例を示す図
である。

【符号の説明】

１−誤認識文字訂正装置１ａ−誤認識文字毛演出装置２−入力部３−画像データ記憶部４−類似辞書５−文字認識部６−文字候補記憶部７−文字列データ作成部８−単語辞書９−文法辞書１０−形態素解析部１１−判定部１２−訂正部１３−表示部

Claims

【特許請求の範囲】

【請求項１】文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において句読点等の区
切り記号以外の１文字からなる文節が連接している箇所
を文字が誤認識されている文字列であるとして検出する
誤認識検出手段と、を備えたことを特徴とする誤認識文
字検出装置。
【請求項２】文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において１文字の漢字
からなる文節を文字が誤認識されている文字列であると
して検出する誤認識検出手段と、を備えたことを特徴と
する誤認識文字検出装置。
【請求項３】文字列である単語およびその単語の属性
を示すデータを登録した辞書ファイルと、前記辞書ファ
イルを用いて入力された文字列に対して文節切りを含む
形態素解析を行う形態素解析手段と、前記形態素解析手
段によって文節切りされた文字列において１文字の漢字
からなる文節と漢字１文字の自立語を含む文節とが連接
している箇所を文字が誤認識されている文字列であると
して検出する誤認識検出手段と、を備えたことを特徴と
する誤認識文字検出装置。
【請求項４】入力された文字列を表示する表示手段を
備え、前記表示手段は、前記誤認識検出手段で誤認識であるこ
とを検出した文字の文字列とそれ以外の文字列とを異な
る表示形式で表示する手段であることを特徴とする請求
項１、２、または、３のいずれかに記載の誤認識文字検
出装置。
【請求項５】書面等に記載された文章を画像データと
して取り込み、該画像データに対してパターンマッチン
グ等の画像処理を行って該文章を構成する文字毎に文字
を認識する文字認識手段と、認識した文字からなる文字
列を入力する入力手段を備えたことを特徴とする請求項
１〜３、または、４のいずれかに記載の誤認識文字検出
装置。
【請求項６】請求項５に記載の誤認識文字検出装置に
おいて、前記文字認識手段には、文字毎に認識した文字以外にも
複数の文字を文字候補として検出する手段を含み、前記誤認識検出手段によって文字の誤認識されている文
字列を検出したときに、該文字列の文字を前記文字候補
として検出されている文字で置換する置換手段を備え、前記置換手段での置換後、再び前記形態素解析および誤
認識検出を実行することを特徴とする誤認識文字訂正装
置。
【請求項７】文字候補として検出された文字には、優
先順位が付され、前記置換手段には、優先順位に基づいて置換する文字を
文字候補から抽出する手段を含むことを特徴とする請求
項６記載の誤認識文字訂正装置。
【請求項８】請求項５に記載の誤認識文字検出装置に
おいて、文字毎に形状が類似する文字を登録した類似辞書を備
え、前記誤認識検出手段によって文字の誤認識している文字
列を検出したときに、該文字列の文字の形状が類似する
文字を類似辞書から検出して、前記誤認識している文字
をこの検出した類似の文字で置換する置換手段を備え、前記置換手段での置換後、再び前記形態素解析および誤
認識検出を実行することを特徴とする誤認識文字訂正装
置。
【請求項９】前記置換手段によって置換した文字の文
字列と、それ以外の文字列とを異なる表示形式で表示す
る手段を備えたことを特徴とする請求項６、７、また
は、８のいずれかに記載の誤認識文字訂正装置。
【請求項１０】文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において１文字からなる文節が連
接している箇所を文字が誤認識されている文字列である
として検出することを特徴とする誤認識文字検出方法。
【請求項１１】文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において１文字の漢字からなる文
節を文字が誤認識されている文字列であるとして検出す
ることを特徴とする誤認識文字検出方法。
【請求項１２】文字列である単語およびその単語の属
性を示すデータを登録した辞書ファイルを用いて入力さ
れた文字列に対して文節切りを含む形態素解析を行い、
文節切りされた文字列において１文字の漢字からなる文
節と漢字１文字の自立語を含む文節とが連接している箇
所を文字が誤認識されている文字列であるとして検出す
ることを特徴とする誤認識文字検出方法。
【請求項１３】入力された文字列に対して、誤認識で
あることを検出した文字の文字列とそれ以外の文字列と
を異なる表示形式で表示することを特徴とする請求項１
０、１１、または、１２のいずれかに記載の誤認識文字
検出方法。
【請求項１４】書面等に記載された文章を画像データ
として取り込み、パターンマッチング等の画像処理を行
って、該文章を構成する文字毎に文字を認識し、認識し
た文字からなる文字列を入力することを特徴とする請求
項１０〜１２、または、１３のいずれかに記載の誤認識
文字検出方法。
【請求項１５】請求項１４に記載の誤認識文字検出方
法において、文字毎に認識した文字以外にも複数の文字を文字候補と
して検出しておき、文字が誤認識されている文字列を検出したときには、該
文字列の文字を前記文字候補として検出されている文字
で置換し、この置換後に再度形態素解析を行って、誤認
識している文字の有無を検出することを特徴とする誤認
識文字訂正方法。
【請求項１６】文字候補として検出されている文字に
優先順位を付し、この優先順位に基づいて、文字候補か
ら置換する文字を抽出することを特徴とする請求項１５
記載の誤認識文字訂正装置。
【請求項１７】請求項１４に記載の誤認識文字検出方
法において、文字が誤認識されている文字列を検出したときに、該文
字列の文字の形状が類似する文字を文字毎に形状が類似
する文字が登録された類似辞書から検出し、前記誤認識
している文字列の文字をこの検出した類似の文字で置換
し、この置換した後に形態素解析を行って、誤認識して
いる文字の有無を検出することを特徴とする誤認識文字
訂正方法。
【請求項１８】置換した文字の文字列と、それ以外の
文字列とを異なる表示形式で表示することを特徴とする
請求項１５、１６、または、１７のいずれかに記載の誤
認識文字訂正方法。