JPH03228195A - 光学的文字認識装置 - Google Patents
光学的文字認識装置Info
- Publication number
- JPH03228195A JPH03228195A JP2022267A JP2226790A JPH03228195A JP H03228195 A JPH03228195 A JP H03228195A JP 2022267 A JP2022267 A JP 2022267A JP 2226790 A JP2226790 A JP 2226790A JP H03228195 A JPH03228195 A JP H03228195A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- font
- character
- dictionary
- outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title 1
- 238000012015 optical character recognition Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野コ
本発明は光学的文字認識装置(以下OCRと称する)に
関し、特に多フォントの活字文字認識装置に関する。
関し、特に多フォントの活字文字認識装置に関する。
[従来の技術]
従来、多フォントの活字文字を認識対象とするOCRは
、各フォントのカテゴリが持つ共通の特徴を辞書とした
。1カテゴリに対して1つの辞書を用意しているか、各
フォント毎に独立して1カテゴリに対して複数種の辞書
を用意している。
、各フォントのカテゴリが持つ共通の特徴を辞書とした
。1カテゴリに対して1つの辞書を用意しているか、各
フォント毎に独立して1カテゴリに対して複数種の辞書
を用意している。
[発明が解決しようとする課題]
上述した従来の多フォントの活字文字を認識対象するO
CRにおいては、前者の方式によると。
CRにおいては、前者の方式によると。
多フォント間の同一カテゴリに共通な特徴を使用してい
るため読取精度が低く、かつ認識辞書の改良も難しいと
いう欠点がある。また後者の方式によると 全フォント
の辞書と照合するため照合時間が大となり、かつ認識辞
書を格納するメモリか大きくなり装置のコストを高くす
るという欠点がある。
るため読取精度が低く、かつ認識辞書の改良も難しいと
いう欠点がある。また後者の方式によると 全フォント
の辞書と照合するため照合時間が大となり、かつ認識辞
書を格納するメモリか大きくなり装置のコストを高くす
るという欠点がある。
前述の両方式の欠点は認識対象字種か多ければ多いほど
大きな欠点となる。例えば認識対象か日本語の文書とな
れば、その認識対象文字種は最低でもJIS第1水準の
3000字種は必要になるし1文書の種類によってはJ
IS第2水準の6000字種も要求され、上述の欠点か
ら装置として実現することは困難となる。
大きな欠点となる。例えば認識対象か日本語の文書とな
れば、その認識対象文字種は最低でもJIS第1水準の
3000字種は必要になるし1文書の種類によってはJ
IS第2水準の6000字種も要求され、上述の欠点か
ら装置として実現することは困難となる。
[課題を解決するための手段]
本発明の目的は、活字印刷物か通常は同一のフォントで
印刷されていることに着目して、印刷物の最初の頁に印
刷されている全文字を各フォント毎に独立して用意して
いる認識辞書と照合し、その時のカテゴリの認識結果に
よって印刷されている文字のフォントの種類を確定し、
以後そのフォントの辞書とのみ照合を行うことで前述の
両方式の問題点を解決するOCRを提供することにある
。
印刷されていることに着目して、印刷物の最初の頁に印
刷されている全文字を各フォント毎に独立して用意して
いる認識辞書と照合し、その時のカテゴリの認識結果に
よって印刷されている文字のフォントの種類を確定し、
以後そのフォントの辞書とのみ照合を行うことで前述の
両方式の問題点を解決するOCRを提供することにある
。
本発明によれば、原画を光電変換して1文字毎の文字パ
ターンを得て入力文字パターンを出力する観測部と、前
記入力文字パターンを一行分格納して格納された文字パ
ターンを1文字毎に出力する文字パターン格納部と、前
記格納された文字パターンの特徴を抽出して抽出された
特徴を出力する特徴抽出部と、複数フォント分の認識辞
書を格納する低速アクセス記憶部と、該低速アクセス記
憶部に格納された前記複数フォント分の認識辞書から選
択信号によって選択された1フォント分の認識辞書を選
択された認識辞書として格納する高速アクセス記憶部と
、前記抽出された特徴と前記選択された認識辞書とを照
合して認識カテゴリおよび照合情報を出力する認識部と
、前記認識カテゴリおよび照合情報から前記格納された
文字パターンに対応する認識対象印刷物のフォントを確
定して確定されたフォントを出力する認識辞書選択部と
、前記確定されたフォントから前記選択信号を出力する
制御部とを有する光学的文字認識装置か得られる。
ターンを得て入力文字パターンを出力する観測部と、前
記入力文字パターンを一行分格納して格納された文字パ
ターンを1文字毎に出力する文字パターン格納部と、前
記格納された文字パターンの特徴を抽出して抽出された
特徴を出力する特徴抽出部と、複数フォント分の認識辞
書を格納する低速アクセス記憶部と、該低速アクセス記
憶部に格納された前記複数フォント分の認識辞書から選
択信号によって選択された1フォント分の認識辞書を選
択された認識辞書として格納する高速アクセス記憶部と
、前記抽出された特徴と前記選択された認識辞書とを照
合して認識カテゴリおよび照合情報を出力する認識部と
、前記認識カテゴリおよび照合情報から前記格納された
文字パターンに対応する認識対象印刷物のフォントを確
定して確定されたフォントを出力する認識辞書選択部と
、前記確定されたフォントから前記選択信号を出力する
制御部とを有する光学的文字認識装置か得られる。
[実施例]
次に本発明の実施例について図面を参、照して。
より詳細に説明する。
第1図は本発明の一実施例による光学的文字認識装置の
構成を示すブロック図である。
構成を示すブロック図である。
第1図において、観測部2は原画1を光電変換して得た
1文字毎の文字パターンを文字パターン格納部3に出力
する。文字パターン格納部3は。
1文字毎の文字パターンを文字パターン格納部3に出力
する。文字パターン格納部3は。
−行分の文字パターンを格納するパターンメモリであり
、制御部9の制御信号により1文字毎に文字パターンを
特徴抽出部4に出力する。特徴抽出部4は文字パターン
格納部3から送られてくる文字パターンの特徴を抽出し
、認識部5に出力する。
、制御部9の制御信号により1文字毎に文字パターンを
特徴抽出部4に出力する。特徴抽出部4は文字パターン
格納部3から送られてくる文字パターンの特徴を抽出し
、認識部5に出力する。
認識部5は高速アクセス記憶部6に初期格納されている
第1のフォントの認識辞書と特徴抽出部4て抽出された
文字パターンの特徴とを照合し、認識ガテゴリと照合時
の情報を認識辞書選択部7に出力する。認識辞書選択部
7は認識部5から出力されて(る認識カテゴリと照合時
の情報のうち。
第1のフォントの認識辞書と特徴抽出部4て抽出された
文字パターンの特徴とを照合し、認識ガテゴリと照合時
の情報を認識辞書選択部7に出力する。認識辞書選択部
7は認識部5から出力されて(る認識カテゴリと照合時
の情報のうち。
−行分の認識カテゴリを格納する。
制御部9は文字パターン格納部3に格納されている一行
分の文字パターンについて上述の処理を繰り返し実施す
る制御を行い、高速アクセス記憶部6に初期格納されて
いる認識辞書による照合か完了すると、低速アクセス記
憶部8にあらかじめ格納されている第2のフォントの認
識辞書を高速アクセス記憶部6に格納する制御を行う。
分の文字パターンについて上述の処理を繰り返し実施す
る制御を行い、高速アクセス記憶部6に初期格納されて
いる認識辞書による照合か完了すると、低速アクセス記
憶部8にあらかじめ格納されている第2のフォントの認
識辞書を高速アクセス記憶部6に格納する制御を行う。
第2のフォントの認識辞書が高速アクセス記憶部6に格
納されると、制御部9は前記と同様の処理を繰り返し、
第2のフォントの認識辞書との照合を行い。
納されると、制御部9は前記と同様の処理を繰り返し、
第2のフォントの認識辞書との照合を行い。
認識カテゴリと照合時の情報のうち、−行分の認識カテ
ゴリを認識辞書選択部7に格納していく。
ゴリを認識辞書選択部7に格納していく。
これらの処理は低速アクセス記憶部8に格納されいる全
てのフォントの辞書との照合が完了するまで繰り返され
る。
てのフォントの辞書との照合が完了するまで繰り返され
る。
前記処理が完了すると、第1のフォントの認識辞書から
最後のフォントの認識辞書までの認識カテゴリと照合時
の情報により、認識辞書選択部7は最適なフォントの超
重辞書を選択し、制御部9に通知する。制御部9は低速
アクセス記憶部8から通知されたフォントの超重辞書を
高速アクセス記憶部6に格納する制御を行う。ここで制
御部9は以後最適なフォントの辞書を照合した認識カテ
ゴリ出力する。
最後のフォントの認識辞書までの認識カテゴリと照合時
の情報により、認識辞書選択部7は最適なフォントの超
重辞書を選択し、制御部9に通知する。制御部9は低速
アクセス記憶部8から通知されたフォントの超重辞書を
高速アクセス記憶部6に格納する制御を行う。ここで制
御部9は以後最適なフォントの辞書を照合した認識カテ
ゴリ出力する。
「発明の効果」
以上説明したように本発明によれば1原画中のフォント
の種類を認識部から出力される認識カテゴリと照合時の
情報によって確定することによって、その後の活字文字
の認識時間を短縮させることかでき、かつ認識辞書を格
納するメモリも1フォント分のメモリ容量で装置を構成
することかできるという効果かある。
の種類を認識部から出力される認識カテゴリと照合時の
情報によって確定することによって、その後の活字文字
の認識時間を短縮させることかでき、かつ認識辞書を格
納するメモリも1フォント分のメモリ容量で装置を構成
することかできるという効果かある。
第1図は本発明の一実施例による光学的文字認識装置の
構成を示すブロック図である。 1・・・原画12・・・観/I11部、3・・・文字パ
ターン格納部、4・・・特徴抽出部、5・・・認識部、
6・・・高速アクセス記憶部、7・・・認識辞書選択部
、8・・・低速アクセス記憶部、9・・・制御部。
構成を示すブロック図である。 1・・・原画12・・・観/I11部、3・・・文字パ
ターン格納部、4・・・特徴抽出部、5・・・認識部、
6・・・高速アクセス記憶部、7・・・認識辞書選択部
、8・・・低速アクセス記憶部、9・・・制御部。
Claims (1)
- 1、原画を光電変換して1文字毎の文字パターンを得て
入力文字パターンを出力する観測部と、前記入力文字パ
ターンを一行分格納して格納された文字パターンを1文
字毎に出力する文字パターン格納部と、前記格納された
文字パターンの特徴を抽出して抽出された特徴を出力す
る特徴抽出部と、複数フォント分の認識辞書を格納する
低速アクセス記憶部と、該低速アクセス記憶部に格納さ
れた前記複数フォント分の認識辞書から選択信号によっ
て選択された1フォント分の認識辞書を選択された認識
辞書として格納する高速アクセス記憶部と、前記抽出さ
れた特徴と前記選択された認識辞書とを照合して認識カ
テゴリおよび照合情報を出力する認識部と、前記認識カ
テゴリおよび照合情報から前記格納された文字パターン
に対応する認識対象印刷物のフォントを確定して確定さ
れたフォントを出力する認識辞書選択部と、前記確定さ
れたフォントから前記選択信号を出力する制御部とを有
する光学的文字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022267A JPH03228195A (ja) | 1990-02-02 | 1990-02-02 | 光学的文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022267A JPH03228195A (ja) | 1990-02-02 | 1990-02-02 | 光学的文字認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03228195A true JPH03228195A (ja) | 1991-10-09 |
Family
ID=12077997
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022267A Pending JPH03228195A (ja) | 1990-02-02 | 1990-02-02 | 光学的文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03228195A (ja) |
-
1990
- 1990-02-02 JP JP2022267A patent/JPH03228195A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3139521B2 (ja) | 自動言語決定装置 | |
| US4979227A (en) | Method for automatic character recognition employing a lexicon having updated character strings | |
| US5119437A (en) | Tabular document reader service | |
| JPH0721319A (ja) | 自動アジア言語決定装置 | |
| US4799271A (en) | Optical character reader apparatus | |
| US4491965A (en) | Character recognition apparatus | |
| JPH03228195A (ja) | 光学的文字認識装置 | |
| JPS63150787A (ja) | 光学的文字認識装置 | |
| JPS63269267A (ja) | 文字認識方法 | |
| JPS6089290A (ja) | パタ−ン認識方法 | |
| JPS6198487A (ja) | 辞書選択方式 | |
| JP3121401B2 (ja) | 認識辞書及び文字認識装置 | |
| Eqbal | EXTRACTION AND DETECTION OF TEXT FROM IMAGES | |
| JPS6120180A (ja) | 光学的文字認識装置 | |
| JPS63147287A (ja) | 光学的文字認識装置 | |
| JP2917396B2 (ja) | 文字認識方式 | |
| WO2022025216A1 (ja) | 圧縮データ検索エンジンを用いた情報処理装置及びその情報処理方法 | |
| JPS5914078A (ja) | 帳票読取装置 | |
| JPH02205990A (ja) | 光学的文字認識装置 | |
| JPS62257583A (ja) | 文字認識方式 | |
| JP3116453B2 (ja) | 英文字認識装置 | |
| JP2784004B2 (ja) | 文字認識装置 | |
| JPS60254388A (ja) | 光学的文字読取装置 | |
| JP2977244B2 (ja) | 文字認識方法及び文字認識装置 | |
| JPH1166240A (ja) | 文書認識方法および文書認識装置 |