JPH03147084A - 類似文字識別方法 - Google Patents
類似文字識別方法Info
- Publication number
- JPH03147084A JPH03147084A JP1285605A JP28560589A JPH03147084A JP H03147084 A JPH03147084 A JP H03147084A JP 1285605 A JP1285605 A JP 1285605A JP 28560589 A JP28560589 A JP 28560589A JP H03147084 A JPH03147084 A JP H03147084A
- Authority
- JP
- Japan
- Prior art keywords
- character
- similar
- area ratio
- character area
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、日本語文章を処理する文字認識装置(漢字O
CR等)に係り、特に辞書との照合によっては識別が難
しい類似文字を識別する方法に関する。
CR等)に係り、特に辞書との照合によっては識別が難
しい類似文字を識別する方法に関する。
一般に漢字OCR等においては、文書画像から切出した
文字画像を、一定のサイズに圧縮または伸長(正規化)
した後に辞書と照合するため、サイズは違うが形の違い
が小さい文字、例えば読点、アルファベット小文字11
0I+、アルファベット大文字it O11等の区別が
できないという問題がある。
文字画像を、一定のサイズに圧縮または伸長(正規化)
した後に辞書と照合するため、サイズは違うが形の違い
が小さい文字、例えば読点、アルファベット小文字11
0I+、アルファベット大文字it O11等の区別が
できないという問題がある。
このような類似文字の識別に関しては、左隣の文字に注
目する方法(特公昭60−1676号)。
目する方法(特公昭60−1676号)。
帳票記入文字について枠の位置情報を利用する方法(特
公昭60−9314号)、文字の絶対サイズを利用する
方法(特開昭60−237584号)、周辺N文字のサ
イズ比及び位置関係によって文字属性を決定する方法(
特開昭63−78287号)等が提案されている。
公昭60−9314号)、文字の絶対サイズを利用する
方法(特開昭60−237584号)、周辺N文字のサ
イズ比及び位置関係によって文字属性を決定する方法(
特開昭63−78287号)等が提案されている。
しかし、特公昭60−1676号の方法は局所的な情報
だけを利用するので1例えば小文字が二つ以上続くと対
応できない、特公昭60−9314号の方法は一般の枠
なし文章に対応できない。
だけを利用するので1例えば小文字が二つ以上続くと対
応できない、特公昭60−9314号の方法は一般の枠
なし文章に対応できない。
特開昭60−237584号の方法は行毎の文字サイズ
の変化に対応できない。特開昭63−78287号の方
法は、周辺N個という値が固定などの行全体としての特
徴を捕らえられないことと、同じ文字属性群の中でもサ
イズ比や位置関係が異なる場合(小文字でも“ア”と“
ユ″とでは文字高さが異なる)があるため、属性を分離
する閾値を精度よく設定できないという問題がある。
の変化に対応できない。特開昭63−78287号の方
法は、周辺N個という値が固定などの行全体としての特
徴を捕らえられないことと、同じ文字属性群の中でもサ
イズ比や位置関係が異なる場合(小文字でも“ア”と“
ユ″とでは文字高さが異なる)があるため、属性を分離
する閾値を精度よく設定できないという問題がある。
また、文字位置を利用する方法は一般的に、横書き文書
では行内の上下位置、縦書き文書の場合には行内の左右
位置というように1位置的特m電を切り替える必要があ
り、さらにスキューに応じて文字位置関係の補正を行う
必要があるため、処理が複雑になる。
では行内の上下位置、縦書き文書の場合には行内の左右
位置というように1位置的特m電を切り替える必要があ
り、さらにスキューに応じて文字位置関係の補正を行う
必要があるため、処理が複雑になる。
本発明の目的は、辞書との照合では誤認しやすい類似文
字を高精度に識別可能で、かつ処理対象の制約が少なく
処理が簡単な類似文字識別方法を捉供することにある。
字を高精度に識別可能で、かつ処理対象の制約が少なく
処理が簡単な類似文字識別方法を捉供することにある。
本発明は、日本語文章を処理する文字認識装置において
、行毎に標準文字面積に対する各文字の面積の比を文字
面積比として検出し、辞書照合による認識結果候補中の
予め定めた類似文字は、それについて検出された文字面
積比と予め用意された標準の文字面積比との照合によっ
て、その識別を行うことを特徴とする。
、行毎に標準文字面積に対する各文字の面積の比を文字
面積比として検出し、辞書照合による認識結果候補中の
予め定めた類似文字は、それについて検出された文字面
積比と予め用意された標準の文字面積比との照合によっ
て、その識別を行うことを特徴とする。
例えば“よ″と“′よ”、1つ″と11つ 、読点“
″とアルファベット“o ”もしくは110 I+は、
いずれも形状の違いは殆どないため、正規化を行ってか
らの辞書照合によっては識別が困難である。
″とアルファベット“o ”もしくは110 I+は、
いずれも形状の違いは殆どないため、正規化を行ってか
らの辞書照合によっては識別が困難である。
しかし、このような類似文字について文字面積比を調べ
ると、類似文字間の差がかなり顕著である。
ると、類似文字間の差がかなり顕著である。
したがって、予め特定の類似文字について標準の文字面
積比をテーブル等として用意しておき、ある文字の辞書
照合による認識結果候補中に類似した2以上の文字が出
現した場合、その文字について検出した文字面積比と、
それぞれの類似文字の標準の文字面積比とを比較するこ
とにより、その類似文字を識別することができる。具体
的には。
積比をテーブル等として用意しておき、ある文字の辞書
照合による認識結果候補中に類似した2以上の文字が出
現した場合、その文字について検出した文字面積比と、
それぞれの類似文字の標準の文字面積比とを比較するこ
とにより、その類似文字を識別することができる。具体
的には。
a準の文字面積比との差が最小の文字を上位候補に選ぶ
ことができる。
ことができる。
また、文字面積比は縦書き/謹書きを区別する必要のな
い特徴址であるので、縦書き文章も横書き文章も同じ処
理で類似文字識別が可能である。
い特徴址であるので、縦書き文章も横書き文章も同じ処
理で類似文字識別が可能である。
さらに、行単位で文字サイズが変化する文章。
枠無し文章においても類似文字識別が可能であることと
、小文字が連続する文字列についても類似文字識別が可
能であることは明らかである。
、小文字が連続する文字列についても類似文字識別が可
能であることは明らかである。
第1図は、本発明にかかる文字認識装置(漢字0CR)
のブロック図である。この文字認識装置においては、画
像入力部(スキャナ)10によって文書(横書きとする
)の画像を読取り、その画像データを画像メモリ11に
蓄積し、この文書画像より行・文字切出し部12によっ
て行切出し及び文字切出しを行い1文字の画像データを
文字画像メモリ13に蓄積し5文字認識部14で、その
各文字の画像データの正規化、特徴抽出、文字辞書メモ
リ15に登録されている文字別の辞書のデータとの照合
を行って、距離が小さい(−数置が大きい)候補を例え
ば最高第10位まで選び、これを認識結果メモリ16に
格納する。ここまでは従来の文字L&識装置と同様であ
る。
のブロック図である。この文字認識装置においては、画
像入力部(スキャナ)10によって文書(横書きとする
)の画像を読取り、その画像データを画像メモリ11に
蓄積し、この文書画像より行・文字切出し部12によっ
て行切出し及び文字切出しを行い1文字の画像データを
文字画像メモリ13に蓄積し5文字認識部14で、その
各文字の画像データの正規化、特徴抽出、文字辞書メモ
リ15に登録されている文字別の辞書のデータとの照合
を行って、距離が小さい(−数置が大きい)候補を例え
ば最高第10位まで選び、これを認識結果メモリ16に
格納する。ここまでは従来の文字L&識装置と同様であ
る。
この文字認識装置と従来の文字認識装置との違いは、行
・文字切出し部12において1行毎の標準文字面積と個
々の文字毎の切出し情報を検出して切出し情報メモリ1
7に格納すること、並びに類似文字判定部18、類似文
字テーブルメモ19を有し1文字認識部14の認識結果
について文字面積比を用いた類似文字識別により必要な
修正を行い、その修正結果を最終的な認識結果として出
力部20より出力することである。
・文字切出し部12において1行毎の標準文字面積と個
々の文字毎の切出し情報を検出して切出し情報メモリ1
7に格納すること、並びに類似文字判定部18、類似文
字テーブルメモ19を有し1文字認識部14の認識結果
について文字面積比を用いた類似文字識別により必要な
修正を行い、その修正結果を最終的な認識結果として出
力部20より出力することである。
行毎のw$文字面積の決定のしかたは一意のものでなく
ともよいが、ここでは行内での最大文字矩形面積を標準
文字面積とするものとする。これによれば、スキューの
影響を補正するための処理が不要である。また、ここで
は、各文字の切出し情報として、文字外接矩形の高さ、
幅1文字面積(=高さX幅)、文字面積比(=文字面積
比/標準文字面積)を検出するものとする。
ともよいが、ここでは行内での最大文字矩形面積を標準
文字面積とするものとする。これによれば、スキューの
影響を補正するための処理が不要である。また、ここで
は、各文字の切出し情報として、文字外接矩形の高さ、
幅1文字面積(=高さX幅)、文字面積比(=文字面積
比/標準文字面積)を検出するものとする。
以下、第2図に示す文字列゛′ちょっと待った。″を例
に、類似文字識別に関する処理内容について説明する。
に、類似文字識別に関する処理内容について説明する。
この文字列の各文字について、文字認識部14で第1表
に示す認識結果が得られ、また切出し情報メモリ17に
第2表に示す切出し情報が得られたとする。また、類似
文字テーブルメモリ19には、例えば第3表に示す類似
文字についての標準面積比のテーブルが格納されている
ものとする。
に示す認識結果が得られ、また切出し情報メモリ17に
第2表に示す切出し情報が得られたとする。また、類似
文字テーブルメモリ19には、例えば第3表に示す類似
文字についての標準面積比のテーブルが格納されている
ものとする。
第じζ1−杏り出」(−情1−
ここでは、最大の文字面積(= 6806)が標準文字
面積となる。
面積となる。
類似文字判定部18は、認識結果メモリ16に得られた
認識結果候補(第1表)を順番に類似文字テーブル(第
3表)と比較し、類似文字テーブルに登録されている類
似文字が候補としてあがっている文字を捜す。
認識結果候補(第1表)を順番に類似文字テーブル(第
3表)と比較し、類似文字テーブルに登録されている類
似文字が候補としてあがっている文字を捜す。
この例では、文字番号2の候補中に類似文字である″よ
”と′よ″が含まれている。そこで、類似文字判定部1
8は、この文字番号2に関する文字面積比(=0.38
)と、類似文字テーブルに登録されているパよ″の標準
文字面積比(=0.90)及び″よ″の標準文字面積比
(=0.45)とを比較する。そして、′よ″の標準文
字面積比のほうが文字番号2の文字の文字面積と近いの
で、文字番号2の第1候補と第2候補を入れ替える。す
なわち、″よ″であると識別したわけである。
”と′よ″が含まれている。そこで、類似文字判定部1
8は、この文字番号2に関する文字面積比(=0.38
)と、類似文字テーブルに登録されているパよ″の標準
文字面積比(=0.90)及び″よ″の標準文字面積比
(=0.45)とを比較する。そして、′よ″の標準文
字面積比のほうが文字番号2の文字の文字面積と近いの
で、文字番号2の第1候補と第2候補を入れ替える。す
なわち、″よ″であると識別したわけである。
同様に文字番号3の第1候補′″よ″と第2候補“よ”
も入れ替える。
も入れ替える。
文字番号8については、3個の類似文字が候補にあがっ
ているが、その文字面積比(=0.08)は読点″′の
標準文字面積比(0,10)に最も近く、次に小文字1
1 o“の標準文字面積比に近いので、第1候補をパ、
第2候補を“0″、第3候補を11 Q Hにそれぞれ
入れ替える。
ているが、その文字面積比(=0.08)は読点″′の
標準文字面積比(0,10)に最も近く、次に小文字1
1 o“の標準文字面積比に近いので、第1候補をパ、
第2候補を“0″、第3候補を11 Q Hにそれぞれ
入れ替える。
このような処理により、第1表に示した認識結果は第4
表のように修正される。
表のように修正される。
4 正 の
ここまでは横書き文章を処理対象とした場合について説
明したが、文字の高さや幅でなく行毎の標準文字面積に
対する文字面積の比を利用するため1行毎に文字サイズ
が変化する文章でも、縦書き文章の場合も全く同様に類
似文字識別が可能である。さらに、隣接文字を参照する
方法と違い、小文字が連続した文字列に関しても類似文
字識別が可能である。
明したが、文字の高さや幅でなく行毎の標準文字面積に
対する文字面積の比を利用するため1行毎に文字サイズ
が変化する文章でも、縦書き文章の場合も全く同様に類
似文字識別が可能である。さらに、隣接文字を参照する
方法と違い、小文字が連続した文字列に関しても類似文
字識別が可能である。
以上説明した如く1本発明によれば、辞書との照合では
識別が困難な類似文字を簡単な処理によって高精度に識
別し、日本語文章の文字認識率を向上させることができ
る。また以上の説明から明らかなように、一般の枠無し
文章や行毎に文字サイズが変化する文章、小文字が連続
する文章に対しても類似文字識別が可能であり、さらに
縦書き/横書きを区別せずに処理することができる等の
効果が得られる。
識別が困難な類似文字を簡単な処理によって高精度に識
別し、日本語文章の文字認識率を向上させることができ
る。また以上の説明から明らかなように、一般の枠無し
文章や行毎に文字サイズが変化する文章、小文字が連続
する文章に対しても類似文字識別が可能であり、さらに
縦書き/横書きを区別せずに処理することができる等の
効果が得られる。
第1図は本発明に係る文字認識装置のブロック図、第2
図は類似文字識別処理の説明のための文字列の例を示す
図である。 10・・・画像入力部、 11・・・画像メモリ、1
2・・・行・文字切出し部、 13・・・文字画像メ
モリ、 14・・・文字LLa部、 15・・・文字辞
書メモリ、 16・・・認識結果メモリ、17・・・切
出し情報メモリ、 18・・・類似文字判定部、
19・・・類似文字テーブルメモリ、20・・・出力部
。
図は類似文字識別処理の説明のための文字列の例を示す
図である。 10・・・画像入力部、 11・・・画像メモリ、1
2・・・行・文字切出し部、 13・・・文字画像メ
モリ、 14・・・文字LLa部、 15・・・文字辞
書メモリ、 16・・・認識結果メモリ、17・・・切
出し情報メモリ、 18・・・類似文字判定部、
19・・・類似文字テーブルメモリ、20・・・出力部
。
Claims (1)
- (1)日本語文章を処理する文字認識装置において、行
毎に標準文字面積に対する各文字の面積の比を文字面積
比として検出し、辞書照合による認識結果候補中の予め
定めた類似文字は、それについて検出された文字面積比
と予め用意された標準の文字面積比との照合によって、
その識別を行うことを特徴とする類似文字識別方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1285605A JPH03147084A (ja) | 1989-11-01 | 1989-11-01 | 類似文字識別方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1285605A JPH03147084A (ja) | 1989-11-01 | 1989-11-01 | 類似文字識別方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03147084A true JPH03147084A (ja) | 1991-06-24 |
Family
ID=17693695
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1285605A Pending JPH03147084A (ja) | 1989-11-01 | 1989-11-01 | 類似文字識別方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03147084A (ja) |
-
1989
- 1989-11-01 JP JP1285605A patent/JPH03147084A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
| US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| EP1052593B1 (en) | Form search apparatus and method | |
| KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
| US20080002884A1 (en) | Method and device for recognition of a handwritten pattern | |
| JPH05242292A (ja) | 分離方法 | |
| Ali et al. | An efficient character segmentation algorithm for recognition of Arabic handwritten script | |
| Jumari et al. | A survey and comparative evaluation of selected off-line Arabic handwritten character recognition systems | |
| Fan et al. | A robust proposal generation method for text lines in natural scene images | |
| Lakshmi et al. | OCR of printed Telugu text with high recognition accuracies | |
| JPH03147084A (ja) | 類似文字識別方法 | |
| Al-Barhamtoshy et al. | Arabic OCR segmented-based system | |
| JPH0728935A (ja) | 文書画像処理装置 | |
| JP2963474B2 (ja) | 類似文字識別方法 | |
| Oladayo | Yorùbá language and numerals’ offline interpreter using morphological and template matching | |
| Fethi et al. | A progressive approach to Arabic character recognition using a modified freeman chain code algorithm | |
| Amin | Recognition of printed Arabic text using machine learning | |
| JP3151866B2 (ja) | 英文字認識方法 | |
| Kosarat et al. | Segmentation of touching character printed lanna script using junction point | |
| JPS6142083A (ja) | 文字認識装置 | |
| JPH03126188A (ja) | 文字認識装置 | |
| Thakur et al. | Offline Recognition of Image for content Based Retrieval | |
| JP2746345B2 (ja) | 文字認識の後処理方法 | |
| Hwang et al. | Segmentation of a text printed in Korean and English using structure information and character recognizers |