JPH096923A

JPH096923A - 文字認識装置

Info

Publication number: JPH096923A
Application number: JP7178120A
Authority: JP
Inventors: Takashi Yoshida; 吉田　　隆
Original assignee: Japan Digital Laboratory Co Ltd
Current assignee: Japan Digital Laboratory Co Ltd
Priority date: 1995-06-21
Filing date: 1995-06-21
Publication date: 1997-01-10
Anticipated expiration: 2020-12-07
Also published as: JP3725206B2

Abstract

(57)【要約】（修正有）【目的】複合語に対し処理速度を向上させ、誤修正率
を低減させる。【構成】前段１１では、複数の認識候補文字及び認識
精度を出力バッファ４に出力する。次に、２単語文字抽
出部５で１位候補文字を検索し、漢字の場合にその漢字
とそれに続く１文字のポインタをポインタ格納エリアに
格納する。単語照合部６は、格納されたポインタの連続
性を調べて連続する漢字を先頭とする２文字からなる２
文字単語を取り出すと共に、取り出された２文字単語の
１位候補文字の認識精度が２文字共に最高ランク以外の
場合に各文字の１位候補文字が漢字であれば、その各文
字の１位候補文字の類似文字を類似文字辞書８から候補
文字に付加し、漢字２文字又は漢字１文字と送りかな１
文字の組で構成された単語辞書７とポインタの連続性を
みて取り出した２文字単語の各候補文字との組合せを単
語照合し、照合結果を出力バッファ４に書込む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識装置に関し、
特に、文字認識処理において文字認識後に単語の自動修
正を行う文字認識装置および単語の自動修正方法に関す
る。

【０００２】

【従来の技術】従来、文字認識装置における文字認識処
理、すなわち、光学的に読み取った原稿データを電気的
に変換して得たイメージデータ（画像データ）を認識辞
書を用いて文字認識し認識結果に対応する文字コードを
得る処理の段階では複数組の認識辞書を用いる方式や、
特開昭５９−１０６０８３号（名称「単語読み取り装
置」）に開示のように外字（認識辞書に含まれない認識
対象文字以外の文字をいう）を含む単語（２文字以上の
文字からなる複合語をいう、以下同じ）を格納した単語
辞書と、外字と字形の類似した類似文字テーブルとを備
えて外字を含む単語を認識できるように構成したものが
ある。

【０００３】上述の特開昭５９−１０６０８３号に開示
の技術は認識処理において類似文字を単語照合時に認識
結果に追加して使用するものであり、認識辞書に登録さ
れていない認識対象文字と外字との組合せからなる類似
文字テーブルと外字からなる単語辞書を用いることによ
り認識辞書の容量を大きくすることなく認識できる文字
の数を増やすことができる。

【０００４】一方、文字認識処理では認識処理で１文字
ずつ認識された文字には原稿文字の曖昧さや、誤字、或
いは認識精度上の原因等を理由とする誤認識文字が潜在
的に発生し得る。このような誤認識文字に対しては従来
から文字認識結果（認識文字）とイメージデータを対応
させて表示し、使用者が目視により検査して誤認識文字
があった場合に入力装置から正しい文字を入力して修正
を施す作業が行われているが、文字認識内部での誤認識
の自動修正方式として、文字認識装置における認識処理
において、１文字毎に文字認識を行った後の後段処理と
して、２文字以上の複合語に対する修正処理がある。従
来の文字認識装置において、上述のような後段処理を行
うものは、先ず、認識された文字列を文字列の変わり目
等で複合語（以下、２つ以上の文字からなる語をいう）
に分割し、次に、分割された複合語を複合語単語辞書と
単語照合し、単語照合して得られた複合語同士を文法辞
書で接続検査を行いながら誤認識文字を自動修正してい
る。

【０００５】

【発明が解決しようとする課題】しかしながら、上述し
たような後段処理を行う文字認識装置では認識文字を自
動修正するためには、単語照合を行う文字列の各文字の
候補文字まで使って多くの組合せで単語照合をしなけれ
ばならず、さらに、照合した文字列同士が接続可能か否
かを文法辞書を使って接続可能かを判定してから結果を
出力するという作業が行われているので、処理時間がか
かり、精度を向上させるためには辞書の内容を増やさざ
るを得ず、辞書の内容の増加に従って平均処理時間が増
大するという問題点があった。

【０００６】また、近年、文字認識装置の技術開発は著
しく文字読み取り装置の性能向上などにより認識精度が
向上してきたため、上述したような従来の後段処理技術
では処理時間の増分に対して認識精度の向上度は低く、
例えば、長い複合語の照合を行うためその間に更に誤修
正を重ねることがあるという問題点があった。

【０００７】本発明は上記従来の問題点を解消するため
になされたものであり、文字認識処理において２文字以
上からなる複合語について、２文字単語辞書を用いて照
合を行うことにより処理速度を向上させると共に誤修正
率を従来方式より低減させ得る文字認識装置の提供を目
的とする。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
めに第１の発明の文字認識装置は、画像データを文字コ
ードに変換し、得られた複数の認識候補文字の文字コー
ドを出力する認識処理の前段部と、（１）前段部の出
力を格納する出力格納部と、（２）記憶部に格納され
た１位候補文字の文字コードを検索して文字種別が漢字
の場合にその漢字の文字コードとそれに続く１文字の文
字コードのポインタを格納する２単語文字抽出部と、
（３）漢字２文字分の文字コードまたは漢字１文字分
の文字コードと送りかな１文字分の文字コードの組を含
む２文字単語辞書と、（４）格納されたポインタが連
続する場合に、単語辞書の文字コード該連続するポイン
タによって参照される各候補文字の文字コードとを単語
照合して修正用文字コードを得る単語照合部と、を有す
ることを特徴とする。

【０００９】第２の発明の文字認識装置は、画像データ
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
（１）前段部の出力を格納する出力格納部と、（２）
記憶部に格納された１位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く１文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する２単語文字抽出部と、（３）漢字２文字
分の文字コードまたは漢字１文字分の文字コードと送り
かな１文字分の文字コードの組を含む２文字単語辞書
と、（４）格納されたポインタの連続性を調べて連続
する漢字を先頭とする２文字分の各候補文字の文字コー
ドおよび１位候補文字の認識精度を取り出す連続性判定
手段と、読み出された２文字分の１位候補文字の認識精
度のランクを判定する認識精度ランク判定手段と、認識
精度が２文字共に最高ランク以外の場合に、単語辞書と
読み出した各候補文字の文字コードとを単語照合する単
語辞書照合手段と、照合の結果得た文字コードで出力格
納部に格納された対応の文字コードを書換える単語修正
手段と、を含む単語照合部と、を有することを特徴とす
る。

【００１０】第３の発明の文字認識装置は、画像データ
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
（１）前段部の出力を格納する出力格納部と、（２）
記憶部に格納された１位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く１文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する２単語文字抽出部と、（３）漢字２文字
分の文字コードまたは漢字１文字分の文字コードと送り
かな１文字分の文字コードの組を含む２文字単語辞書
と、（４）類似文字の文字コードから構成される類似
文字辞書と、（５）格納されたポインタの連続性を調
べて連続する漢字を先頭とする２文字分の各候補文字の
文字コードおよび１位候補文字の認識精度を取り出す連
続性判定手段と、読み出された２文字分の１位候補文字
の認識精度のランクを判定する認識精度ランク判定手段
と、認識精度が２文字共に最高ランク以外の場合に、１
位候補文字について類似文字辞書を参照し、得られた類
似文字を候補文字として追加する候補文字追加手段と、
単語辞書と読み出した各候補文字の文字コードとを単語
照合する単語辞書照合手段と、照合の結果得た文字コー
ドで出力格納部に格納された対応の文字コードを書換え
る単語修正手段と、を含む単語照合部と、を有すること
を特徴とする。

【００１１】

【作用】上記構成により第１，第２，および第３の発明
の文字認識装置は、２文字単語辞書を備え、文字列を２
文字ずつに区切って漢字２文字か漢字１文字と送り仮名
１文字について２文字単語辞書との照合を行うので照合
時間が短い。従って、文字認識処理速度が従来技術に比
べ飛躍的に向上する。具体的には、従来の複合語単語辞
書は２文字単語、３文字単語、４文字単語、・・・とい
うように多くの単語が登録されており、単語の登録数と
しては２文字単語が約３万語、３文字単語が約１万語、
４文字単語が約５千語、・・・となっている。ここで、
例えば、２文字単語が３万語、３文字単語が１万語、４
文字単語が５千語、５文字単語が２千語で構成される単
語辞書のサイズは１文字あたり２バイトの容量が必要と
して、（２×３００００）＋（３×１００００）＋（４×５０
００）＋５×２０００＝１２０，０００文字であり、１２０，０００×２＝２４０，０００バイトとなる。一方、本発明の単語辞書は２文字単語だけで構
成されているので、（２×３００００）＝６０，０００文字、（６０，０００×２）＝１２０，０００バイトとなり、単語辞書のサイズが従来の単語辞書の半分とな
り、照合時間も半分ですむことになる。

【００１２】また、第２の発明の文字認識装置は認識精
度の低い２文字について単語辞書との照合を行うよう構
成されているので、第１の発明の文字認識装置より処理
速度が早い。更に、第３の発明の文字認識装置は類似辞
書を備え、認識精度ランクの低い２文字の１位候補文字
について類似辞書を照合し、得られた結果を第ｎ＋１候
補文字として追加するように構成されているので、第１
〜第ｎ候補文字に正解文字がない場合でも正解文字を得
ることができる。

【００１３】

【実施例】図１は本発明の一実施例としての文字認識装
置のブロック図であり、１は読み取り部、２は文字認識
部３用の認識部辞書、３は認識部、４は出力バッファ、
５は２単語文字抽出部、６は単語照合部、７は単語辞
書、８は類似文字辞書である。なお、認識部辞書２及び
認識部３は認識処理のうち文字認識を行う前段部１１を
構成し、２単語文字抽出部５〜類似文字辞書８は認識処
理のうち単語の自動修正を行う後段部１２を構成する。

【００１４】図１で、読み取り部１は帳票データを光学
的に読み取って電気信号に変換し、画像データを得る。
認識処理の前段部１１で文字認識部３は認識部辞書２を
参照しながら画像データを文字コードに変換し、得られ
た複数の認識候補文字（候補文字コード）と認識精度を
ランクづけた精度ランクを出力バッファ４に出力する。

【００１５】次に、認識処理の後段部１２で２単語文字
抽出部５は出力バッファ４から１位候補文字コードを検
索し漢字、平かな、片仮名、数字、記号等の文字種別を
判定し、漢字の場合にその漢字とそれに続く１文字（漢
字とは限らない）のポインタを格納し、ポインタ格納エ
リア（図示せず）に格納する。

【００１６】単語照合部６はポインタ格納エリアに格納
されたポインタの連続性を調べて連続する漢字を先頭と
する２文字からなる２文字単語を取り出すと共に、取り
出された２文字単語の１位候補文字の認識精度が２文字
共に最高ランク以外の場合に各文字の１位候補文字が漢
字であれば、その各文字の１位候補文字の類似文字を類
似文字辞書８から候補文字に付加し、漢字２文字または
漢字１文字と送りかな１文字の組で構成された単語辞書
７とポインタの連続性をみて取り出した２文字単語の各
候補文字との組合せを単語照合し、照合結果を出力バッ
ファ４に書込む。

【００１７】図２は図１の後段部１２の動作例を示すフ
ローチャートであり、図３は漢字２文字または漢字１文
字と送りかな１文字で構成された２文字単語を格納した
単語辞書７の例を視覚的に示した説明図であり、図４は
類似文字辞書８の例を視覚的に示した説明図である。

【００１８】図３の見出し欄で「個数」とは「先頭の文
字」のあとに付く文字数、すなわち、２文字単語を最初
の漢字とそれに続く１文字の漢字からなる意味のある２
文字、最初の漢字と１文字の送りかなからなる２文字と
定義すると、「個数」とは「先頭の文字」である漢字と
組になって意味を有する「後の文字」である漢字または
送りかなのうち単語辞書に登録されている漢字の個数を
いう。

【００１９】例えば、図３の番号１では「先頭の文字」
である”玄”に対し意味のある漢字として登録されてい
る「後の文字」は”海”，”関”，”人”の３個であ
り、２文字単語としては”玄海”，”玄関”，”玄人”
が登録されていることを意味している。また、番号２で
は「先頭の文字」である”現”に対し、「後の文字」と
しては送りかなである”れ”及び漢字”員”，”下”，
・・・，”在”が単語として登録されている。

【００２０】図４の見出し欄で、「個数」とは類似文字
の数を示し、「１位候補文字」とは認識結果の１位候補
文字を表わし、「類似文字」とは「１位候補文字」の類
似文字を意味する。なお、「類似文字」は候補文字以外
で「１位候補文字」と（文字認識の上で）類似性が高い
もの、例えば、経験的に（或いは、傾向として）得られ
る文字、のうちからその傾向度の高い順に登録されてい
る。例えば、図４の番号２において、「１位候補文字」
が”誠”のときに認識部３が候補文字として出力した文
字以外に「類似文字」として”識”，”譲”が６位候補
文字，７位候補文字として追加されている。

【００２１】図５は、入力文字列”現代の日本語文字認
識装置についての動向”を例とした場合の認識処理過程
における候補文字，類似文字，出力文字列およびポイン
タの説明図であり、図６は図５の入力文字列から２単語
文字抽出部５によってポインタ格納エリアに格納された
各文字のポインタと候補文字および類似文字の関係を示
す説明図である（なお、図５，図６で類似文字として文
字”識”の類似文字のみを示し他の文字列の類似文字は
表示を省略した）。

【００２２】図５で、候補文字の後の数字は認識精度を
意味する。認識精度は精度の高いものからクラス分けさ
れ、本実施例では精度の高いものから「０，１，２」の
３段階にクラス分けされており、数字「３」の場合はリ
ジェクトを意味する。ここで、上記入力文字列のうち文
字”現”を例にとると文字認識部３による認識結果は１
位候補文字が”現”で精度が１、２位候補文字が”硯”
で精度が１、３位候補文字が”覗”で精度が「２」、４
位候補文字が”環”で精度が「２」、５位候補文字が”
明”で精度が「２」となっている。

【００２３】以下、図２のフローチャートをもとに図５
の入力文字列”現代の日本語文字認識装置についての動
向”を例として本発明による認識処理の後段部１２の動
作について説明する。認識処理の前段部１１の認識部３
から出力された１位から第５位の候補文字及び精度が出
力バッファ４に書込まれる。後段部１２では出力バッフ
ァ４の検索を開始する。ステップＳ１で２単語文字抽出
部５が出力バッファ４に格納されている候補文字のうち
１位候補文字だけを検索し、漢字であるか否かの判定を
行い、処理対象（すなわち、漢字）の場合にはステップ
Ｓ２に移行し、漢字以外の場合にはステップＳ４に移行
する（図５の文字”現”を例に取るとこの場合は漢字で
あるからステップＳ２に移行する。また、図５の文字”
の”の場合には漢字ではないからステップＳ４に移行す
る）。

【００２４】ステップＳ２では２文字分のポインタ（文
字コードおよび認識精度の格納位置を示すポインタ）を
ポインタ格納エリアに格納してしてステップＳ３に移行
する（上述の例では”現”およびそれに続く文字”左”
のポインタ”０”，”１”をポインタ格納エリアに格納
してしてステップＳ３に移行する）。ステップＳ３で２
文字分スキップしステップＳ６に移行する（上述の例で
は次に参照するポインタを１位候補文字”の”のポイン
タ”２”として、ステップＳ５に移行する）。ステップ
Ｓ４ではステップＳ１で認識対象外の文字種として判定
された文字について１文字分スキップしてポインタを格
納することなくそのままステップＳ５に移行する（図５
の文字”の”の例では１文字分スキップして次に参照す
るポインタを１位候補文字”日”のポインタ”３”とし
てステップＳ５に移行する）。

【００２５】ステップＳ５では文字列の検索を終了して
いるか否かを判定し終了している場合にはステップＳ６
に移行し、終了していない場合には次の１位候補文字を
検索するためステップＳ１に戻る。

【００２６】２単語文字抽出部５は上記ステップＳ１〜
Ｓ５の処理を１位候補文字列の最後まで繰返し、２文字
単語のポインタの組”０，１”，”３，４”，”５，
６”，”７，８”，”９，Ａ”，”Ｂ，Ｃ”，”１１，
１２”を得る（図６参照）。次に、ステップＳ６で単語
照合部６はポインタ格納エリアに格納されたポインタを
先頭から検索し次に格納されているポインタとの連続性
を調べることにより文字列の連続性を判定し、連続性の
ある場合はステップＳ７に移行し連続性のない場合はス
テップＳ１２に移行する（図６の例ではポインタ”０”
と次のポインタ”１”の示す文字列”現在”については
ポインタ”０”，”１”が連続しているのでステップＳ
７に移行する。これに対し、ポインタ”１”とポイン
タ”３”の示す文字列”在日”の場合はポインタが連続
していないのでステップＳ１２に移行する）。

【００２７】ステップＳ７では２文字の１位候補文字の
精度を調べ精度が２文字とも最高ランクの精度である０
でない場合にはステップＳ８に移行し、２文字の精度が
共に０の場合にはステップＳ１２に移行する（文字列”
現在”の場合は２文字の１位候補文字の精度が共に１で
あり０ではないのでステップＳ８に移行する）。ステッ
プＳ８では類似文字辞書８を参照してそれら２文字の１
位候補文字の類似文字が類似文字辞書８に登録されてい
る場合に候補文字として登録されている類似文字をそれ
ぞれ追加する（図６の漢字文字列”現”および”左”の
１位候補文字”現”および”左”について類似文字が類
似文字辞書８にある場合はそれを該当文字の６候補文
字，７候補文字，・・・として追加してステップＳ９に
移行する）。

【００２８】ステップＳ９では全ての候補文字（１位候
補文字〜５位候補文字および追加された候補文字として
の類似文字）ごとに単語辞書８に対し単語照合を行い単
語辞書８に登録されているものと一致したらステップＳ
１０に移行し、一致していなければステップＳ１２に移
行する。

【００２９】ステップＳ１０では単語照合結果（文字コ
ード）で出力バッファ４の１位候補文字（文字コード）
を書換えるための書込みを行なってから、ステップＳ１
１に移行する。なお、書込む単語照合結果は候補順位の
高いものを選択する。ステップＳ１１では２文字分のポ
インタをスキップして次に参照するポインタを得てステ
ップＳ１３に移行する（文字列”現在”の単語参照後は
次の文字列”日本”の単語照合を行うために参照するポ
インタを”３”としてステップＳ１３に移行する）。

【００３０】ステップＳ１２ではポインタを１スキップ
して次に参照するポインタを得てステップＳ１３に移行
し、ステップＳ１３では単語照合部６は全てのポインタ
の検索を終了するまでステップＳ６からステップＳ１２
の処理を繰り返す。ここで、図６で、参照ポインタが”
５”のときは処理対象が”語”，”文”となりステップ
Ｓ９で単語照合結果が一致しないのでステップＳ１２に
移行する。ステップＳ１２ではポインタを１文字文スキ
ップして次に参照するポインタ”６”を得るので次の処
理対象が”文”，”宇”になる。次に参照するポインタ
が”８”の場合には処理対象は”認”，”誠”となる
が、この場合は”誠”の候補文字の中に類似文字辞書８
によって追加された「識」があるので「認識」と正しく
修正される。

【００３１】次に参照するポインタが”Ａ”の場合には
処理対象は”装”，”置”となるがこの場合には認識精
度がいずれも”０”同士であるためステップＳ７で判定
されてステップＳ１２に移行する。参照するポインタ
が”Ｃ”の場合にはステップＳ７で次のポインタが”１
１”でありポインタが連続せず、従って文字列も連続し
たものでないと判定されてステップＳ１２に移行する。
参照するポインタが”１１”の場合には処理対象は”
勤”，”向”となるが、ステップＳ７〜Ｓ９で”動向”
が得られステップＳ１０で出力バッファ４の１位候補文
字列の”勤向”を”動向”と修正（書換え）する。ここ
ですべてのポインタを参照したので最終結果としての
「現在の日本語文字認識装置について」を得ることがで
きる。

【００３２】なお、上記ステップＳ１〜ステップＳ５の
動作は本実施例では２単語文字抽出部に相当し、ステッ
プＳ１は文字種判定手段に、ステップＳ２はポインタ格
納手段に相当する。また、上記ステップＳ６からＳ１３
の動作は本実施例では単語照合部の動作に相当し、ステ
ップＳ６は連続性判定手段に、ステップＳ７は認識精度
ランク判定手段に、ステップＳ８は候補文字追加手段
に、ステップＳ９は単語辞書照合手段に相当する。

【００３３】ここで、従来の文字認識装置において、後
段の単語修正処理を行う場合と本発明による後段の単語
修正処理とを比較すると、従来技術では前述したよう
に、先ず、認識された文字列を文字列の変わり目等で複
合語に分割し、次に、分割された複合語を複合語単語辞
書と単語照合し、単語照合して得られた複合語同士を文
法辞書で接続検査を行いながら誤認識文字を自動修正し
ている。

【００３４】この場合用いられる複合語単語辞書は２文
字単語、３文字単語、４文字単語、・・・というように
多くの単語が登録されており、その中には２文字単語を
組合せただけの４文字単語や、２文字単語に接頭語や接
尾語が付いただけの３文字単語（例えば、「国語」，
「事典」→「国語事典」、「誤」，「認識」→「誤認
識」）のように実際には同じ２文字単語が形を変えて重
複登録されているものがあり、また、単語の登録数も２
文字単語が約３万語、３文字単語が約１万語、４文字単
語が約５千語、・・・となっている。

【００３５】ここで、例えば、２文字単語が３万語、３
文字単語が１万語、４文字単語が５千語、５文字単語が
２千語で構成される単語辞書のサイズは１文字あたり２
バイトの容量が必要として、（２×３００００）＋（３×１００００）＋（４×５０
００）＋５×２０００＝１２０，０００文字であり、１２０，０００×２＝２４０，０００バイトとなる。一方、本発明の単語辞書は２文字単語だけで構
成されているので、（２×３００００）＝６０，０００文字、（６０，０００×２）＝１２０，０００バイトとなり、単語辞書のサイズが従来の単語辞書の半分とな
る。認識結果が第５位候補文字まで出力される構成の場
合に、全ての組合せで候補文字と２文字単語辞書を照合
すると２５回照合することになるので、辞書サイズが半
分での場合には照合時間も半分ですむことになる（すな
わち、従来の方式での単語辞書の照合時間を１とすると
本方式では０．５となる）。

【００３６】さらにまた、従来技術では単語照合して得
られた複合語同士の接続検査をするための文法辞書を用
いているが、本発明では文法辞書を必要としないのでさ
らに処理速度が従来の０．５以下になる。

【００３７】

【発明の効果】以上説明したように本発明によれば、２
文字単位に文字列を区切って単語照合を行い、その際、
認識精度の判定を行い２文字の認識精度が共に最高ラン
クの場合以外の２文字だけについて単語辞書を用いて単
語照合を行うので誤認識された文字を高精度に修正する
ことができる。

【００３８】また、２文字の認識精度が最高ランクの場
合以外の文字について１位候補文字の類似文字を候補文
字として追加するので、文字認識の結果に正解文字がな
い場合でも修正することができる。

【００３９】更に、単語辞書として２文字単語のみの単
語辞書を用いているので辞書サイズが従来に比べて１／
２と小さくでき、また、文法辞書での複合語同士の接続
検査を要しないので処理速度が更に向上する。

【図面の簡単な説明】

【図１】本発明の一実施例としての文字認識装置のブロ
ック図である。

【図２】認識処理のうち単語の自動修正を行う後段部の
動作例を示すフローチャートである。

【図３】２文字単語を格納した単語辞書の例を視覚的に
示した説明図である。

【図４】類似文字辞書の例を視覚的に示した説明図であ
る。

【図５】ある入力文字列を例とした場合の認識処理過程
における候補文字，類似文字，出力文字列およびポイン
タの説明図である。

【図６】２単語文字抽出部によってポインタ格納エリア
に格納された各文字のポインタと候補文字および類似文
字の関係を示す説明図である。

【符号の説明】

１読み取り部２認識部辞書３認識部４出力バッファ５２単語文字抽出部６単語照合部７単語辞書８類似文字辞書

Claims

【特許請求の範囲】

【請求項１】画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードを出力する認識処
理の前段部と、（１）前段部の出力を格納する出力格
納部と、（２）記憶部に格納された１位候補文字の文
字コードを検索して文字種別が漢字の場合にその漢字の
文字コードとそれに続く１文字の文字コードのポインタ
を格納する２単語文字抽出部と、（３）漢字２文字分
の文字コードまたは漢字１文字分の文字コードと送りか
な１文字分の文字コードの組を含む２文字単語辞書と、
（４）前記格納されたポインタが連続する場合に、前
記単語辞書の文字コード該連続するポインタによって参
照される各候補文字の文字コードとを単語照合して修正
用文字コードを得る単語照合部と、を有することを特徴
とする文字認識装置。
【請求項２】画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードと認識精度を出力
する認識処理の前段部と、（１）前段部の出力を格納
する出力格納部と、（２）記憶部に格納された１位候
補文字の文字コードを検索して文字種別を判定する文字
種判定手段と、文字種別が漢字の場合にその漢字の文字
コードとそれに続く１文字の文字コードのポインタを格
納するポインタ格納手段と、を有する２単語文字抽出部
と、（３）漢字２文字分の文字コードまたは漢字１文
字分の文字コードと送りかな１文字分の文字コードの組
を含む２文字単語辞書と、（４）前記格納されたポイ
ンタの連続性を調べて連続する漢字を先頭とする２文字
分の各候補文字の文字コードおよび１位候補文字の認識
精度を取り出す連続性判定手段と、読み出された２文字
分の１位候補文字の認識精度のランクを判定する認識精
度ランク判定手段と、認識精度が２文字共に最高ランク
以外の場合に、前記単語辞書と前記読み出した各候補文
字の文字コードとを単語照合する単語辞書照合手段と、
上記照合の結果得た文字コードで前記出力格納部に格納
された対応の文字コードを書換える単語修正手段と、を
含む単語照合部と、を有することを特徴とする文字認識
装置。
【請求項３】画像データを文字コードに変換し、得ら
れた複数の認識候補文字の文字コードと認識精度を出力
する認識処理の前段部と、（１）前段部の出力を格納
する出力格納部と、（２）記憶部に格納された１位候
補文字の文字コードを検索して文字種別を判定する文字
種判定手段と、文字種別が漢字の場合にその漢字の文字
コードとそれに続く１文字の文字コードのポインタを格
納するポインタ格納手段と、を有する２単語文字抽出部
と、（３）漢字２文字分の文字コードまたは漢字１文
字分の文字コードと送りかな１文字分の文字コードの組
を含む２文字単語辞書と、（４）類似文字の文字コー
ドから構成される類似文字辞書と、（５）前記格納さ
れたポインタの連続性を調べて連続する漢字を先頭とす
る２文字分の各候補文字の文字コードおよび１位候補文
字の認識精度を取り出す連続性判定手段と、読み出され
た２文字分の１位候補文字の認識精度のランクを判定す
る認識精度ランク判定手段と、認識精度が２文字共に最
高ランク以外の場合に、１位候補文字について前記類似
文字辞書を参照し、得られた類似文字を候補文字として
追加する候補文字追加手段と、前記単語辞書と前記読み
出した各候補文字の文字コードとを単語照合する単語辞
書照合手段と、上記照合の結果得た文字コードで前記出
力格納部に格納された対応の文字コードを書換える単語
修正手段と、を含む単語照合部と、を有することを特徴
とする文字認識装置。