JPH096923A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH096923A
JPH096923A JP7178120A JP17812095A JPH096923A JP H096923 A JPH096923 A JP H096923A JP 7178120 A JP7178120 A JP 7178120A JP 17812095 A JP17812095 A JP 17812095A JP H096923 A JPH096923 A JP H096923A
Authority
JP
Japan
Prior art keywords
character
word
characters
candidate
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7178120A
Other languages
English (en)
Other versions
JP3725206B2 (ja
Inventor
Takashi Yoshida
吉田  隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Digital Laboratory Co Ltd
Original Assignee
Japan Digital Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Digital Laboratory Co Ltd filed Critical Japan Digital Laboratory Co Ltd
Priority to JP17812095A priority Critical patent/JP3725206B2/ja
Publication of JPH096923A publication Critical patent/JPH096923A/ja
Application granted granted Critical
Publication of JP3725206B2 publication Critical patent/JP3725206B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 複合語に対し処理速度を向上させ、誤修正率
を低減させる。 【構成】 前段11では、複数の認識候補文字及び認識
精度を出力バッファ4に出力する。次に、2単語文字抽
出部5で1位候補文字を検索し、漢字の場合にその漢字
とそれに続く1文字のポインタをポインタ格納エリアに
格納する。単語照合部6は、格納されたポインタの連続
性を調べて連続する漢字を先頭とする2文字からなる2
文字単語を取り出すと共に、取り出された2文字単語の
1位候補文字の認識精度が2文字共に最高ランク以外の
場合に各文字の1位候補文字が漢字であれば、その各文
字の1位候補文字の類似文字を類似文字辞書8から候補
文字に付加し、漢字2文字又は漢字1文字と送りかな1
文字の組で構成された単語辞書7とポインタの連続性を
みて取り出した2文字単語の各候補文字との組合せを単
語照合し、照合結果を出力バッファ4に書込む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に、文字認識処理において文字認識後に単語の自動修
正を行う文字認識装置および単語の自動修正方法に関す
る。
【0002】
【従来の技術】従来、文字認識装置における文字認識処
理、すなわち、光学的に読み取った原稿データを電気的
に変換して得たイメージデータ(画像データ)を認識辞
書を用いて文字認識し認識結果に対応する文字コードを
得る処理の段階では複数組の認識辞書を用いる方式や、
特開昭59−106083号(名称「単語読み取り装
置」)に開示のように外字(認識辞書に含まれない認識
対象文字以外の文字をいう)を含む単語(2文字以上の
文字からなる複合語をいう、以下同じ)を格納した単語
辞書と、外字と字形の類似した類似文字テーブルとを備
えて外字を含む単語を認識できるように構成したものが
ある。
【0003】上述の特開昭59−106083号に開示
の技術は認識処理において類似文字を単語照合時に認識
結果に追加して使用するものであり、認識辞書に登録さ
れていない認識対象文字と外字との組合せからなる類似
文字テーブルと外字からなる単語辞書を用いることによ
り認識辞書の容量を大きくすることなく認識できる文字
の数を増やすことができる。
【0004】一方、文字認識処理では認識処理で1文字
ずつ認識された文字には原稿文字の曖昧さや、誤字、或
いは認識精度上の原因等を理由とする誤認識文字が潜在
的に発生し得る。このような誤認識文字に対しては従来
から文字認識結果(認識文字)とイメージデータを対応
させて表示し、使用者が目視により検査して誤認識文字
があった場合に入力装置から正しい文字を入力して修正
を施す作業が行われているが、文字認識内部での誤認識
の自動修正方式として、文字認識装置における認識処理
において、1文字毎に文字認識を行った後の後段処理と
して、2文字以上の複合語に対する修正処理がある。従
来の文字認識装置において、上述のような後段処理を行
うものは、先ず、認識された文字列を文字列の変わり目
等で複合語(以下、2つ以上の文字からなる語をいう)
に分割し、次に、分割された複合語を複合語単語辞書と
単語照合し、単語照合して得られた複合語同士を文法辞
書で接続検査を行いながら誤認識文字を自動修正してい
る。
【0005】
【発明が解決しようとする課題】しかしながら、上述し
たような後段処理を行う文字認識装置では認識文字を自
動修正するためには、単語照合を行う文字列の各文字の
候補文字まで使って多くの組合せで単語照合をしなけれ
ばならず、さらに、照合した文字列同士が接続可能か否
かを文法辞書を使って接続可能かを判定してから結果を
出力するという作業が行われているので、処理時間がか
かり、精度を向上させるためには辞書の内容を増やさざ
るを得ず、辞書の内容の増加に従って平均処理時間が増
大するという問題点があった。
【0006】また、近年、文字認識装置の技術開発は著
しく文字読み取り装置の性能向上などにより認識精度が
向上してきたため、上述したような従来の後段処理技術
では処理時間の増分に対して認識精度の向上度は低く、
例えば、長い複合語の照合を行うためその間に更に誤修
正を重ねることがあるという問題点があった。
【0007】本発明は上記従来の問題点を解消するため
になされたものであり、文字認識処理において2文字以
上からなる複合語について、2文字単語辞書を用いて照
合を行うことにより処理速度を向上させると共に誤修正
率を従来方式より低減させ得る文字認識装置の提供を目
的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに第1の発明の文字認識装置は、画像データを文字コ
ードに変換し、得られた複数の認識候補文字の文字コー
ドを出力する認識処理の前段部と、(1) 前段部の出
力を格納する出力格納部と、(2) 記憶部に格納され
た1位候補文字の文字コードを検索して文字種別が漢字
の場合にその漢字の文字コードとそれに続く1文字の文
字コードのポインタを格納する2単語文字抽出部と、
(3) 漢字2文字分の文字コードまたは漢字1文字分
の文字コードと送りかな1文字分の文字コードの組を含
む2文字単語辞書と、(4) 格納されたポインタが連
続する場合に、単語辞書の文字コード該連続するポイン
タによって参照される各候補文字の文字コードとを単語
照合して修正用文字コードを得る単語照合部と、を有す
ることを特徴とする。
【0009】第2の発明の文字認識装置は、画像データ
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
(1) 前段部の出力を格納する出力格納部と、(2)
記憶部に格納された1位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く1文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する2単語文字抽出部と、(3) 漢字2文字
分の文字コードまたは漢字1文字分の文字コードと送り
かな1文字分の文字コードの組を含む2文字単語辞書
と、(4) 格納されたポインタの連続性を調べて連続
する漢字を先頭とする2文字分の各候補文字の文字コー
ドおよび1位候補文字の認識精度を取り出す連続性判定
手段と、読み出された2文字分の1位候補文字の認識精
度のランクを判定する認識精度ランク判定手段と、認識
精度が2文字共に最高ランク以外の場合に、単語辞書と
読み出した各候補文字の文字コードとを単語照合する単
語辞書照合手段と、照合の結果得た文字コードで出力格
納部に格納された対応の文字コードを書換える単語修正
手段と、を含む単語照合部と、を有することを特徴とす
る。
【0010】第3の発明の文字認識装置は、画像データ
を文字コードに変換し、得られた複数の認識候補文字の
文字コードと認識精度を出力する認識処理の前段部と、
(1) 前段部の出力を格納する出力格納部と、(2)
記憶部に格納された1位候補文字の文字コードを検索
して文字種別を判定する文字種判定手段と、文字種別が
漢字の場合にその漢字の文字コードとそれに続く1文字
の文字コードのポインタを格納するポインタ格納手段
と、を有する2単語文字抽出部と、(3) 漢字2文字
分の文字コードまたは漢字1文字分の文字コードと送り
かな1文字分の文字コードの組を含む2文字単語辞書
と、(4) 類似文字の文字コードから構成される類似
文字辞書と、(5) 格納されたポインタの連続性を調
べて連続する漢字を先頭とする2文字分の各候補文字の
文字コードおよび1位候補文字の認識精度を取り出す連
続性判定手段と、読み出された2文字分の1位候補文字
の認識精度のランクを判定する認識精度ランク判定手段
と、認識精度が2文字共に最高ランク以外の場合に、1
位候補文字について類似文字辞書を参照し、得られた類
似文字を候補文字として追加する候補文字追加手段と、
単語辞書と読み出した各候補文字の文字コードとを単語
照合する単語辞書照合手段と、照合の結果得た文字コー
ドで出力格納部に格納された対応の文字コードを書換え
る単語修正手段と、を含む単語照合部と、を有すること
を特徴とする。
【0011】
【作用】上記構成により第1,第2,および第3の発明
の文字認識装置は、2文字単語辞書を備え、文字列を2
文字ずつに区切って漢字2文字か漢字1文字と送り仮名
1文字について2文字単語辞書との照合を行うので照合
時間が短い。従って、文字認識処理速度が従来技術に比
べ飛躍的に向上する。具体的には、従来の複合語単語辞
書は2文字単語、3文字単語、4文字単語、・・・とい
うように多くの単語が登録されており、単語の登録数と
しては2文字単語が約3万語、3文字単語が約1万語、
4文字単語が約5千語、・・・となっている。ここで、
例えば、2文字単語が3万語、3文字単語が1万語、4
文字単語が5千語、5文字単語が2千語で構成される単
語辞書のサイズは1文字あたり2バイトの容量が必要と
して、 (2×30000)+(3×10000)+(4×50
00)+5×2000=120,000 文字であり、 120,000×2=240,000バイト となる。一方、本発明の単語辞書は2文字単語だけで構
成されているので、 (2×30000)=60,000文字、 (60,000×2)=120,000バイト となり、単語辞書のサイズが従来の単語辞書の半分とな
り、照合時間も半分ですむことになる。
【0012】また、第2の発明の文字認識装置は認識精
度の低い2文字について単語辞書との照合を行うよう構
成されているので、第1の発明の文字認識装置より処理
速度が早い。更に、第3の発明の文字認識装置は類似辞
書を備え、認識精度ランクの低い2文字の1位候補文字
について類似辞書を照合し、得られた結果を第n+1候
補文字として追加するように構成されているので、第1
〜第n候補文字に正解文字がない場合でも正解文字を得
ることができる。
【0013】
【実施例】図1は本発明の一実施例としての文字認識装
置のブロック図であり、1は読み取り部、2は文字認識
部3用の認識部辞書、3は認識部、4は出力バッファ、
5は2単語文字抽出部、6は単語照合部、7は単語辞
書、8は類似文字辞書である。なお、認識部辞書2及び
認識部3は認識処理のうち文字認識を行う前段部11を
構成し、2単語文字抽出部5〜類似文字辞書8は認識処
理のうち単語の自動修正を行う後段部12を構成する。
【0014】図1で、読み取り部1は帳票データを光学
的に読み取って電気信号に変換し、画像データを得る。
認識処理の前段部11で文字認識部3は認識部辞書2を
参照しながら画像データを文字コードに変換し、得られ
た複数の認識候補文字(候補文字コード)と認識精度を
ランクづけた精度ランクを出力バッファ4に出力する。
【0015】次に、認識処理の後段部12で2単語文字
抽出部5は出力バッファ4から1位候補文字コードを検
索し漢字、平かな、片仮名、数字、記号等の文字種別を
判定し、漢字の場合にその漢字とそれに続く1文字(漢
字とは限らない)のポインタを格納し、ポインタ格納エ
リア(図示せず)に格納する。
【0016】単語照合部6はポインタ格納エリアに格納
されたポインタの連続性を調べて連続する漢字を先頭と
する2文字からなる2文字単語を取り出すと共に、取り
出された2文字単語の1位候補文字の認識精度が2文字
共に最高ランク以外の場合に各文字の1位候補文字が漢
字であれば、その各文字の1位候補文字の類似文字を類
似文字辞書8から候補文字に付加し、漢字2文字または
漢字1文字と送りかな1文字の組で構成された単語辞書
7とポインタの連続性をみて取り出した2文字単語の各
候補文字との組合せを単語照合し、照合結果を出力バッ
ファ4に書込む。
【0017】図2は図1の後段部12の動作例を示すフ
ローチャートであり、図3は漢字2文字または漢字1文
字と送りかな1文字で構成された2文字単語を格納した
単語辞書7の例を視覚的に示した説明図であり、図4は
類似文字辞書8の例を視覚的に示した説明図である。
【0018】図3の見出し欄で「個数」とは「先頭の文
字」のあとに付く文字数、すなわち、2文字単語を最初
の漢字とそれに続く1文字の漢字からなる意味のある2
文字、最初の漢字と1文字の送りかなからなる2文字と
定義すると、「個数」とは「先頭の文字」である漢字と
組になって意味を有する「後の文字」である漢字または
送りかなのうち単語辞書に登録されている漢字の個数を
いう。
【0019】例えば、図3の番号1では「先頭の文字」
である”玄”に対し意味のある漢字として登録されてい
る「後の文字」は”海”,”関”,”人”の3個であ
り、2文字単語としては”玄海”,”玄関”,”玄人”
が登録されていることを意味している。また、番号2で
は「先頭の文字」である”現”に対し、「後の文字」と
しては送りかなである”れ”及び漢字”員”,”下”,
・・・,”在”が単語として登録されている。
【0020】図4の見出し欄で、「個数」とは類似文字
の数を示し、「1位候補文字」とは認識結果の1位候補
文字を表わし、「類似文字」とは「1位候補文字」の類
似文字を意味する。なお、「類似文字」は候補文字以外
で「1位候補文字」と(文字認識の上で)類似性が高い
もの、例えば、経験的に(或いは、傾向として)得られ
る文字、のうちからその傾向度の高い順に登録されてい
る。例えば、図4の番号2において、「1位候補文字」
が”誠”のときに認識部3が候補文字として出力した文
字以外に「類似文字」として”識”,”譲”が6位候補
文字,7位候補文字として追加されている。
【0021】図5は、入力文字列”現代の日本語文字認
識装置についての動向”を例とした場合の認識処理過程
における候補文字,類似文字,出力文字列およびポイン
タの説明図であり、図6は図5の入力文字列から2単語
文字抽出部5によってポインタ格納エリアに格納された
各文字のポインタと候補文字および類似文字の関係を示
す説明図である(なお、図5,図6で類似文字として文
字”識”の類似文字のみを示し他の文字列の類似文字は
表示を省略した)。
【0022】図5で、候補文字の後の数字は認識精度を
意味する。認識精度は精度の高いものからクラス分けさ
れ、本実施例では精度の高いものから「0,1,2」の
3段階にクラス分けされており、数字「3」の場合はリ
ジェクトを意味する。ここで、上記入力文字列のうち文
字”現”を例にとると文字認識部3による認識結果は1
位候補文字が”現”で精度が1、2位候補文字が”硯”
で精度が1、3位候補文字が”覗”で精度が「2」、4
位候補文字が”環”で精度が「2」、5位候補文字が”
明”で精度が「2」となっている。
【0023】以下、図2のフローチャートをもとに図5
の入力文字列”現代の日本語文字認識装置についての動
向”を例として本発明による認識処理の後段部12の動
作について説明する。認識処理の前段部11の認識部3
から出力された1位から第5位の候補文字及び精度が出
力バッファ4に書込まれる。後段部12では出力バッフ
ァ4の検索を開始する。ステップS1で2単語文字抽出
部5が出力バッファ4に格納されている候補文字のうち
1位候補文字だけを検索し、漢字であるか否かの判定を
行い、処理対象(すなわち、漢字)の場合にはステップ
S2に移行し、漢字以外の場合にはステップS4に移行
する(図5の文字”現”を例に取るとこの場合は漢字で
あるからステップS2に移行する。また、図5の文字”
の”の場合には漢字ではないからステップS4に移行す
る)。
【0024】ステップS2では2文字分のポインタ(文
字コードおよび認識精度の格納位置を示すポインタ)を
ポインタ格納エリアに格納してしてステップS3に移行
する(上述の例では”現”およびそれに続く文字”左”
のポインタ”0”,”1”をポインタ格納エリアに格納
してしてステップS3に移行する)。ステップS3で2
文字分スキップしステップS6に移行する(上述の例で
は次に参照するポインタを1位候補文字”の”のポイン
タ”2”として、ステップS5に移行する)。ステップ
S4ではステップS1で認識対象外の文字種として判定
された文字について1文字分スキップしてポインタを格
納することなくそのままステップS5に移行する(図5
の文字”の”の例では1文字分スキップして次に参照す
るポインタを1位候補文字”日”のポインタ”3”とし
てステップS5に移行する)。
【0025】ステップS5では文字列の検索を終了して
いるか否かを判定し終了している場合にはステップS6
に移行し、終了していない場合には次の1位候補文字を
検索するためステップS1に戻る。
【0026】2単語文字抽出部5は上記ステップS1〜
S5の処理を1位候補文字列の最後まで繰返し、2文字
単語のポインタの組”0,1”,”3,4”,”5,
6”,”7,8”,”9,A”,”B,C”,”11,
12”を得る(図6参照)。次に、ステップS6で単語
照合部6はポインタ格納エリアに格納されたポインタを
先頭から検索し次に格納されているポインタとの連続性
を調べることにより文字列の連続性を判定し、連続性の
ある場合はステップS7に移行し連続性のない場合はス
テップS12に移行する(図6の例ではポインタ”0”
と次のポインタ”1”の示す文字列”現在”については
ポインタ”0”,”1”が連続しているのでステップS
7に移行する。これに対し、ポインタ”1”とポイン
タ”3”の示す文字列”在日”の場合はポインタが連続
していないのでステップS12に移行する)。
【0027】ステップS7では2文字の1位候補文字の
精度を調べ精度が2文字とも最高ランクの精度である0
でない場合にはステップS8に移行し、2文字の精度が
共に0の場合にはステップS12に移行する(文字列”
現在”の場合は2文字の1位候補文字の精度が共に1で
あり0ではないのでステップS8に移行する)。ステッ
プS8では類似文字辞書8を参照してそれら2文字の1
位候補文字の類似文字が類似文字辞書8に登録されてい
る場合に候補文字として登録されている類似文字をそれ
ぞれ追加する(図6の漢字文字列”現”および”左”の
1位候補文字”現”および”左”について類似文字が類
似文字辞書8にある場合はそれを該当文字の6候補文
字,7候補文字,・・・として追加してステップS9に
移行する)。
【0028】ステップS9では全ての候補文字(1位候
補文字〜5位候補文字および追加された候補文字として
の類似文字)ごとに単語辞書8に対し単語照合を行い単
語辞書8に登録されているものと一致したらステップS
10に移行し、一致していなければステップS12に移
行する。
【0029】ステップS10では単語照合結果(文字コ
ード)で出力バッファ4の1位候補文字(文字コード)
を書換えるための書込みを行なってから、ステップS1
1に移行する。なお、書込む単語照合結果は候補順位の
高いものを選択する。ステップS11では2文字分のポ
インタをスキップして次に参照するポインタを得てステ
ップS13に移行する(文字列”現在”の単語参照後は
次の文字列”日本”の単語照合を行うために参照するポ
インタを”3”としてステップS13に移行する)。
【0030】ステップS12ではポインタを1スキップ
して次に参照するポインタを得てステップS13に移行
し、ステップS13では単語照合部6は全てのポインタ
の検索を終了するまでステップS6からステップS12
の処理を繰り返す。ここで、図6で、参照ポインタが”
5”のときは処理対象が”語”,”文”となりステップ
S9で単語照合結果が一致しないのでステップS12に
移行する。ステップS12ではポインタを1文字文スキ
ップして次に参照するポインタ”6”を得るので次の処
理対象が”文”,”宇”になる。次に参照するポインタ
が”8”の場合には処理対象は”認”,”誠”となる
が、この場合は”誠”の候補文字の中に類似文字辞書8
によって追加された「識」があるので「認識」と正しく
修正される。
【0031】次に参照するポインタが”A”の場合には
処理対象は”装”,”置”となるがこの場合には認識精
度がいずれも”0”同士であるためステップS7で判定
されてステップS12に移行する。参照するポインタ
が”C”の場合にはステップS7で次のポインタが”1
1”でありポインタが連続せず、従って文字列も連続し
たものでないと判定されてステップS12に移行する。
参照するポインタが”11”の場合には処理対象は”
勤”,”向”となるが、ステップS7〜S9で”動向”
が得られステップS10で出力バッファ4の1位候補文
字列の”勤向”を”動向”と修正(書換え)する。ここ
ですべてのポインタを参照したので最終結果としての
「現在の日本語文字認識装置について」を得ることがで
きる。
【0032】なお、上記ステップS1〜ステップS5の
動作は本実施例では2単語文字抽出部に相当し、ステッ
プS1は文字種判定手段に、ステップS2はポインタ格
納手段に相当する。また、上記ステップS6からS13
の動作は本実施例では単語照合部の動作に相当し、ステ
ップS6は連続性判定手段に、ステップS7は認識精度
ランク判定手段に、ステップS8は候補文字追加手段
に、ステップS9は単語辞書照合手段に相当する。
【0033】ここで、従来の文字認識装置において、後
段の単語修正処理を行う場合と本発明による後段の単語
修正処理とを比較すると、従来技術では前述したよう
に、先ず、認識された文字列を文字列の変わり目等で複
合語に分割し、次に、分割された複合語を複合語単語辞
書と単語照合し、単語照合して得られた複合語同士を文
法辞書で接続検査を行いながら誤認識文字を自動修正し
ている。
【0034】この場合用いられる複合語単語辞書は2文
字単語、3文字単語、4文字単語、・・・というように
多くの単語が登録されており、その中には2文字単語を
組合せただけの4文字単語や、2文字単語に接頭語や接
尾語が付いただけの3文字単語(例えば、「国語」,
「事典」→「国語事典」、「誤」,「認識」→「誤認
識」)のように実際には同じ2文字単語が形を変えて重
複登録されているものがあり、また、単語の登録数も2
文字単語が約3万語、3文字単語が約1万語、4文字単
語が約5千語、・・・となっている。
【0035】ここで、例えば、2文字単語が3万語、3
文字単語が1万語、4文字単語が5千語、5文字単語が
2千語で構成される単語辞書のサイズは1文字あたり2
バイトの容量が必要として、 (2×30000)+(3×10000)+(4×50
00)+5×2000=120,000 文字であり、 120,000×2=240,000バイト となる。一方、本発明の単語辞書は2文字単語だけで構
成されているので、 (2×30000)=60,000文字、 (60,000×2)=120,000バイト となり、単語辞書のサイズが従来の単語辞書の半分とな
る。認識結果が第5位候補文字まで出力される構成の場
合に、全ての組合せで候補文字と2文字単語辞書を照合
すると25回照合することになるので、辞書サイズが半
分での場合には照合時間も半分ですむことになる(すな
わち、従来の方式での単語辞書の照合時間を1とすると
本方式では0.5となる)。
【0036】さらにまた、従来技術では単語照合して得
られた複合語同士の接続検査をするための文法辞書を用
いているが、本発明では文法辞書を必要としないのでさ
らに処理速度が従来の0.5以下になる。
【0037】
【発明の効果】以上説明したように本発明によれば、2
文字単位に文字列を区切って単語照合を行い、その際、
認識精度の判定を行い2文字の認識精度が共に最高ラン
クの場合以外の2文字だけについて単語辞書を用いて単
語照合を行うので誤認識された文字を高精度に修正する
ことができる。
【0038】また、2文字の認識精度が最高ランクの場
合以外の文字について1位候補文字の類似文字を候補文
字として追加するので、文字認識の結果に正解文字がな
い場合でも修正することができる。
【0039】更に、単語辞書として2文字単語のみの単
語辞書を用いているので辞書サイズが従来に比べて1/
2と小さくでき、また、文法辞書での複合語同士の接続
検査を要しないので処理速度が更に向上する。
【図面の簡単な説明】
【図1】本発明の一実施例としての文字認識装置のブロ
ック図である。
【図2】認識処理のうち単語の自動修正を行う後段部の
動作例を示すフローチャートである。
【図3】2文字単語を格納した単語辞書の例を視覚的に
示した説明図である。
【図4】類似文字辞書の例を視覚的に示した説明図であ
る。
【図5】ある入力文字列を例とした場合の認識処理過程
における候補文字,類似文字,出力文字列およびポイン
タの説明図である。
【図6】2単語文字抽出部によってポインタ格納エリア
に格納された各文字のポインタと候補文字および類似文
字の関係を示す説明図である。
【符号の説明】
1 読み取り部 2 認識部辞書 3 認識部 4 出力バッファ 5 2単語文字抽出部 6 単語照合部 7 単語辞書 8 類似文字辞書

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 画像データを文字コードに変換し、得ら
    れた複数の認識候補文字の文字コードを出力する認識処
    理の前段部と、(1) 前段部の出力を格納する出力格
    納部と、(2) 記憶部に格納された1位候補文字の文
    字コードを検索して文字種別が漢字の場合にその漢字の
    文字コードとそれに続く1文字の文字コードのポインタ
    を格納する2単語文字抽出部と、(3) 漢字2文字分
    の文字コードまたは漢字1文字分の文字コードと送りか
    な1文字分の文字コードの組を含む2文字単語辞書と、
    (4) 前記格納されたポインタが連続する場合に、前
    記単語辞書の文字コード該連続するポインタによって参
    照される各候補文字の文字コードとを単語照合して修正
    用文字コードを得る単語照合部と、を有することを特徴
    とする文字認識装置。
  2. 【請求項2】 画像データを文字コードに変換し、得ら
    れた複数の認識候補文字の文字コードと認識精度を出力
    する認識処理の前段部と、(1) 前段部の出力を格納
    する出力格納部と、(2) 記憶部に格納された1位候
    補文字の文字コードを検索して文字種別を判定する文字
    種判定手段と、文字種別が漢字の場合にその漢字の文字
    コードとそれに続く1文字の文字コードのポインタを格
    納するポインタ格納手段と、を有する2単語文字抽出部
    と、(3) 漢字2文字分の文字コードまたは漢字1文
    字分の文字コードと送りかな1文字分の文字コードの組
    を含む2文字単語辞書と、(4) 前記格納されたポイ
    ンタの連続性を調べて連続する漢字を先頭とする2文字
    分の各候補文字の文字コードおよび1位候補文字の認識
    精度を取り出す連続性判定手段と、読み出された2文字
    分の1位候補文字の認識精度のランクを判定する認識精
    度ランク判定手段と、認識精度が2文字共に最高ランク
    以外の場合に、前記単語辞書と前記読み出した各候補文
    字の文字コードとを単語照合する単語辞書照合手段と、
    上記照合の結果得た文字コードで前記出力格納部に格納
    された対応の文字コードを書換える単語修正手段と、を
    含む単語照合部と、を有することを特徴とする文字認識
    装置。
  3. 【請求項3】 画像データを文字コードに変換し、得ら
    れた複数の認識候補文字の文字コードと認識精度を出力
    する認識処理の前段部と、(1) 前段部の出力を格納
    する出力格納部と、(2) 記憶部に格納された1位候
    補文字の文字コードを検索して文字種別を判定する文字
    種判定手段と、文字種別が漢字の場合にその漢字の文字
    コードとそれに続く1文字の文字コードのポインタを格
    納するポインタ格納手段と、を有する2単語文字抽出部
    と、(3) 漢字2文字分の文字コードまたは漢字1文
    字分の文字コードと送りかな1文字分の文字コードの組
    を含む2文字単語辞書と、(4) 類似文字の文字コー
    ドから構成される類似文字辞書と、(5) 前記格納さ
    れたポインタの連続性を調べて連続する漢字を先頭とす
    る2文字分の各候補文字の文字コードおよび1位候補文
    字の認識精度を取り出す連続性判定手段と、読み出され
    た2文字分の1位候補文字の認識精度のランクを判定す
    る認識精度ランク判定手段と、認識精度が2文字共に最
    高ランク以外の場合に、1位候補文字について前記類似
    文字辞書を参照し、得られた類似文字を候補文字として
    追加する候補文字追加手段と、前記単語辞書と前記読み
    出した各候補文字の文字コードとを単語照合する単語辞
    書照合手段と、上記照合の結果得た文字コードで前記出
    力格納部に格納された対応の文字コードを書換える単語
    修正手段と、を含む単語照合部と、を有することを特徴
    とする文字認識装置。
JP17812095A 1995-06-21 1995-06-21 文字認識装置 Expired - Lifetime JP3725206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17812095A JP3725206B2 (ja) 1995-06-21 1995-06-21 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17812095A JP3725206B2 (ja) 1995-06-21 1995-06-21 文字認識装置

Publications (2)

Publication Number Publication Date
JPH096923A true JPH096923A (ja) 1997-01-10
JP3725206B2 JP3725206B2 (ja) 2005-12-07

Family

ID=16043010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17812095A Expired - Lifetime JP3725206B2 (ja) 1995-06-21 1995-06-21 文字認識装置

Country Status (1)

Country Link
JP (1) JP3725206B2 (ja)

Also Published As

Publication number Publication date
JP3725206B2 (ja) 2005-12-07

Similar Documents

Publication Publication Date Title
JPH0877173A (ja) 文字列修正システムとその方法
JPH0211934B2 (ja)
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPS61156466A (ja) 単語抽出方式
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH096923A (ja) 文字認識装置
JP2000331023A (ja) 情報検索装置及び情報検索処理プログラムを記憶した記憶媒体
JP2870375B2 (ja) 文章訂正装置
EP0314503A2 (en) Dictionary structure for document processing apparatus
JPH0244459A (ja) 日本文訂正候補文字抽出方法
JP2908460B2 (ja) 誤認識修正方法及び装置
JP2939945B2 (ja) ローマ字住所認識装置
JPS646499B2 (ja)
JPH0248938B2 (ja)
JP2918380B2 (ja) 文字認識結果の後処理方法
JPH0546814A (ja) 文字読み取り装置
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPH08305698A (ja) 自然語解析方法及び装置
JPS62145463A (ja) 仮名漢字変換方式
JPS6029823A (ja) 適応型記号列変換方式
JPS62285189A (ja) 文字認識後処理方式
JPH0540853A (ja) 文字認識結果の後処理方式
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JPH09161014A (ja) 文字認識装置
JPS62212871A (ja) 文章読み上げ校正装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050921

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140930

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term