JPS603074A - 文字・記号抽出方法 - Google Patents

文字・記号抽出方法

Info

Publication number
JPS603074A
JPS603074A JP58110435A JP11043583A JPS603074A JP S603074 A JPS603074 A JP S603074A JP 58110435 A JP58110435 A JP 58110435A JP 11043583 A JP11043583 A JP 11043583A JP S603074 A JPS603074 A JP S603074A
Authority
JP
Japan
Prior art keywords
character
block
pattern
peripheral distribution
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58110435A
Other languages
English (en)
Other versions
JPH0524555B2 (ja
Inventor
Shinji Ozawa
小沢 慎治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58110435A priority Critical patent/JPS603074A/ja
Publication of JPS603074A publication Critical patent/JPS603074A/ja
Publication of JPH0524555B2 publication Critical patent/JPH0524555B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、文、#lfj像から文字または記号を抽出す
る方式に関する。
〔従来技術〕
文書画像中の文字または記号を抽出するには、一般に連
結パターンの外接長方形の大ぎさを調べ、そのサイズが
それほど大きくない連結パターンが連続している領域を
文章領域と判定し、その文章帆域内の個々の連^5ノ(
ターン領域を文字また(ま言己号として油出している。
しかし、このような方式では、文字行中にアンダーライ
ンがある場合、図形に文字ρ″−一連結場合、行間に来
る添字がある場合号に文字・言己号を図形と正しく分離
できな(・と℃・う問題カーある。
〔目的〕
本発明の目的は、上記の問題をルト決できるVi =い
文字・記号抽出方式を提供すること((ある。
〔芙〃山例〕
第1図は本発明に係る文字・記号抽出処理装置の戦略ブ
ロック図、第2図と第8図は七〇つ処理フローを示すフ
ローチャートである。
第1図において、1,2はノくターンメモリ(3)。
(i3)、8はプロセッサである。ノくターンメモリ囚
1には、文章画像から抽出された文筆′1泊域θ)ノ<
ターンが画素単位で書き込まれる。この文章領域の抽出
は従来方法で容易に行い得るので、詳述しil c・。
パターンメモリ([3) 2には、ノくターンメモリ(
5)11のパターンをMxN画素単位で融合した/ぐタ
ーンが書き込まれる。この融合処理はプロセッサ8によ
って行うが、この処理も格別Mrしいものでないので詳
細は述べない。なお、プロセッサ8は内部メモリを有す
る汎用または専用のプログラム処理装置である。
今、第5図に示すパターン■)がパターンメモリ(A)
1に格納され、またその融合パターンがパターンメモリ
fB) 2.に格納されたとして、処理内容を第2図に
涜って説明する。なお、パターンP甲の枠紛と接続して
いる文字0形” ifg ”識”は、従来方式によると
枠の一部と認EJされてしまい、正しく抽出できないも
のである。
ステップ■:プロセッサ8は、パターンメモリ(B)2
内のパターンを走査し、水平方向の周辺分布(濃度分布
)HH′をめ、それを平均化して周辺分布HHを得る(
第5図径照)。
ステップ■:プロセッサ8はめた周辺分布癌の谷部でパ
ターンを水平方向のザブ領域に分割する。第5図のパタ
ーンPの場合、a、b、cのサブ領域に分割される。
ステップ■:プロセッサ8は、パターンメモリの)2を
走査し、谷すブ追域毎に垂直方向の周辺分卸HVをめる
。なf6、この周辺分4i MVについて平滑化を行っ
てもよい。第5図のサブ領域a%b、Cについては、第
5図の周辺分布f(y(a)、Hy(c)がそれぞれま
る。
ステップ■ニステップ■で釆めた周辺分布Hvの谷部で
、各サブ頭載を最小単位であるブロックに分割する。第
5図のパターンPの場合、このステップで破線で示すよ
うにブロック分割さ2する。各ブロックは、文字または
記号、あるいは図形の領域である。
ステップ■:プロセッサ8は谷ブロック艇にパターンメ
モリ(B)2またはパターンメモリ(5)1)内のパタ
ーンを走食し、改めて各ブロック別の水平方向の周辺分
布軸と垂直方向の周辺分布hvをめる。
ステップ■:谷ブロックの周辺分布hH1hVの分散α
□、αVを計算する。
ステップ■:各ブロック別にαヨ、αVと閾値T1、T
2を比較し、αH、>”1’1かつα7〉T2であれば
、そのブロックを文字または記号のブロックと判定する
ステップ■:αヨ、α■を閾値T3、T4と比較し、α
ゆ〈T3かつαv (T4ならば不定ブロックと判定す
る。
それ以外であれば図形ブロックと判定する。
以上の処理で図形ブロックが抽出された場合、図形ブロ
ックとの連結性判定処理を行う。第8図はそのフローチ
ャートである。この処理はパターンメモリ囚1上で行わ
れる。
ステップ■:任意の図形ブロック内の任意の画素を破切
の注目I[II素として選ぶ。
ステップ■:注目画船を黒画素上に移す。
ステップC:注目黒画素済みか判定する。
ステップC:注目黒画素は文字/記号ブロック内が判定
する。
ステップC:注目黒画素を当該図形ブロック内の画素と
みなし、当該図形ブロックを拡張する(または、注目黒
画素に当該図形ブロックの識別番号をつける)。
ステップ0:参照すべき新しい画素が残っているか判定
する。
第4図は図形と文字・記号とが連結した場合の走査順を
説明する図であり、○印は黒画素、Q印肉の数字は参照
順序を示す。#6の黒画素は非図形ブロック内であるか
ら、#5の画素に決り、#8の画素を捜す。
以上の処理によって、第5図のパターンPのブロックの
うち、(イ)〜(ハ)の各ブロックは文字のブロックと
して抽出される。他のブロックは図形ブロックとして抽
出される。
なお、本実施例においては、周辺分布の分散をめ、それ
を用いてブロックの判定を付っているが(ステップ■〜
■)、周辺分弗の標準偏差を用いるようにしてもよい。
〔効果〕
本発明は以上に詳述したμ口<であるから、アンダーラ
インや添字がある場合や図形の中に文字・記号がある場
合でも、文字・記号を図形と分離して確実に抽出するこ
とができるものである。
【図面の簡単な説明】
第1図は本発明に係る文字・i己号抽出処理装置の慨1
略ブロック図、第2図および第8図は第11図装置の処
理を示すフローチャート、第4図は図形ブロックの連結
判定処理における1而素走査順を説明するための図、第
5図は文箪唄域パターンの一例とその処理の1説明図で
ある。 ■、2・・・パターンメモリ、8・・・プロセッサ、a
〜C・・・ザブ′誤域、イ〜ト・・・文字ブロック。 代理人升埋土 鈴 不 誠

Claims (1)

    【特許請求の範囲】
  1. (1) 文書画像を第i1方向の周辺分布に基づきサブ
    領域に分割し、谷サブ領域を上記第1方向と直交する第
    2方向の周辺−分布に基づいてブロックに分割し、各ブ
    ロックを上記第1および第2方向の周辺分布に基づき文
    字・記号プryツクであるか判定することを%故とする
    文字・記号抽出方式。
JP58110435A 1983-06-20 1983-06-20 文字・記号抽出方法 Granted JPS603074A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58110435A JPS603074A (ja) 1983-06-20 1983-06-20 文字・記号抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58110435A JPS603074A (ja) 1983-06-20 1983-06-20 文字・記号抽出方法

Publications (2)

Publication Number Publication Date
JPS603074A true JPS603074A (ja) 1985-01-09
JPH0524555B2 JPH0524555B2 (ja) 1993-04-08

Family

ID=14535653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58110435A Granted JPS603074A (ja) 1983-06-20 1983-06-20 文字・記号抽出方法

Country Status (1)

Country Link
JP (1) JPS603074A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227877A (ja) * 1985-07-30 1987-02-05 Toshiba Corp 光学的文字読取装置
JPH01321153A (ja) * 1988-06-21 1989-12-27 Schenectady Chem Inc 研削砥石

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5525105A (en) * 1978-08-09 1980-02-22 Toshiba Corp Character detecting segmantation unit
JPS5699576A (en) * 1980-01-08 1981-08-10 Mitsubishi Electric Corp Character reader
JPS575181A (en) * 1980-06-10 1982-01-11 Toshiba Corp Character detection and segmentation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5525105A (en) * 1978-08-09 1980-02-22 Toshiba Corp Character detecting segmantation unit
JPS5699576A (en) * 1980-01-08 1981-08-10 Mitsubishi Electric Corp Character reader
JPS575181A (en) * 1980-06-10 1982-01-11 Toshiba Corp Character detection and segmentation system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227877A (ja) * 1985-07-30 1987-02-05 Toshiba Corp 光学的文字読取装置
JPH01321153A (ja) * 1988-06-21 1989-12-27 Schenectady Chem Inc 研削砥石

Also Published As

Publication number Publication date
JPH0524555B2 (ja) 1993-04-08

Similar Documents

Publication Publication Date Title
US10896357B1 (en) Automatic key/value pair extraction from document images using deep learning
CN110069767B (zh) 基于电子书的排版方法、电子设备及计算机存储介质
JP2004005453A (ja) 文書画像レイアウトの解体と再表示の方法およびシステム
CN114332150A (zh) 手写笔迹擦除方法、装置、设备及可读存储介质
US20090041352A1 (en) Image formation device, image formation method, and computer-readable recording medium recording image formation program
CN111857893B (zh) 标注图形生成方法及装置
CN114663897A (zh) 表格提取方法与表格提取系统
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN114926840B (zh) 一种影印pdf转可复制pdf方法及系统
CN114581923B (zh) 表格图像及对应标注信息的生成方法、装置及存储介质
CN111798542B (zh) 模型训练方法、数据处理方法及装置、设备、存储介质
CN106980857A (zh) 一种基于碑帖的毛笔字分割识别方法
CN115019310A (zh) 图文识别方法及设备
CN110135417A (zh) 样本标注方法及计算机存储介质
CN110740221B (zh) 信息处理装置
JPS603074A (ja) 文字・記号抽出方法
JP2014212476A (ja) コミック画像コマ検出装置、方法及びプログラム
JPH0460759A (ja) 文書作成支援装置
CN113569161B (zh) 试题答案标注方法、装置、电子设备及计算机可读介质
CN114898375A (zh) 字符检测模型训练方法及组件,文本识别方法及组件
JPS62197881A (ja) 文書画像縦書・横書判定方式
CN121544743A (zh) 文字动效数据的生成方法、装置、存储介质以及电子设备
JP2010258627A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
CN121564721A (zh) 一种商品图商品外文字检测方法、装置、设备和介质
JPH0586585B2 (ja)