JPS603074A - 文字・記号抽出方法 - Google Patents
文字・記号抽出方法Info
- Publication number
- JPS603074A JPS603074A JP58110435A JP11043583A JPS603074A JP S603074 A JPS603074 A JP S603074A JP 58110435 A JP58110435 A JP 58110435A JP 11043583 A JP11043583 A JP 11043583A JP S603074 A JPS603074 A JP S603074A
- Authority
- JP
- Japan
- Prior art keywords
- character
- block
- pattern
- peripheral distribution
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔技術分野〕
本発明は、文、#lfj像から文字または記号を抽出す
る方式に関する。
る方式に関する。
文書画像中の文字または記号を抽出するには、一般に連
結パターンの外接長方形の大ぎさを調べ、そのサイズが
それほど大きくない連結パターンが連続している領域を
文章領域と判定し、その文章帆域内の個々の連^5ノ(
ターン領域を文字また(ま言己号として油出している。
結パターンの外接長方形の大ぎさを調べ、そのサイズが
それほど大きくない連結パターンが連続している領域を
文章領域と判定し、その文章帆域内の個々の連^5ノ(
ターン領域を文字また(ま言己号として油出している。
しかし、このような方式では、文字行中にアンダーライ
ンがある場合、図形に文字ρ″−一連結場合、行間に来
る添字がある場合号に文字・言己号を図形と正しく分離
できな(・と℃・う問題カーある。
ンがある場合、図形に文字ρ″−一連結場合、行間に来
る添字がある場合号に文字・言己号を図形と正しく分離
できな(・と℃・う問題カーある。
本発明の目的は、上記の問題をルト決できるVi =い
文字・記号抽出方式を提供すること((ある。
文字・記号抽出方式を提供すること((ある。
第1図は本発明に係る文字・記号抽出処理装置の戦略ブ
ロック図、第2図と第8図は七〇つ処理フローを示すフ
ローチャートである。
ロック図、第2図と第8図は七〇つ処理フローを示すフ
ローチャートである。
第1図において、1,2はノくターンメモリ(3)。
(i3)、8はプロセッサである。ノくターンメモリ囚
1には、文章画像から抽出された文筆′1泊域θ)ノ<
ターンが画素単位で書き込まれる。この文章領域の抽出
は従来方法で容易に行い得るので、詳述しil c・。
1には、文章画像から抽出された文筆′1泊域θ)ノ<
ターンが画素単位で書き込まれる。この文章領域の抽出
は従来方法で容易に行い得るので、詳述しil c・。
パターンメモリ([3) 2には、ノくターンメモリ(
5)11のパターンをMxN画素単位で融合した/ぐタ
ーンが書き込まれる。この融合処理はプロセッサ8によ
って行うが、この処理も格別Mrしいものでないので詳
細は述べない。なお、プロセッサ8は内部メモリを有す
る汎用または専用のプログラム処理装置である。
5)11のパターンをMxN画素単位で融合した/ぐタ
ーンが書き込まれる。この融合処理はプロセッサ8によ
って行うが、この処理も格別Mrしいものでないので詳
細は述べない。なお、プロセッサ8は内部メモリを有す
る汎用または専用のプログラム処理装置である。
今、第5図に示すパターン■)がパターンメモリ(A)
1に格納され、またその融合パターンがパターンメモリ
fB) 2.に格納されたとして、処理内容を第2図に
涜って説明する。なお、パターンP甲の枠紛と接続して
いる文字0形” ifg ”識”は、従来方式によると
枠の一部と認EJされてしまい、正しく抽出できないも
のである。
1に格納され、またその融合パターンがパターンメモリ
fB) 2.に格納されたとして、処理内容を第2図に
涜って説明する。なお、パターンP甲の枠紛と接続して
いる文字0形” ifg ”識”は、従来方式によると
枠の一部と認EJされてしまい、正しく抽出できないも
のである。
ステップ■:プロセッサ8は、パターンメモリ(B)2
内のパターンを走査し、水平方向の周辺分布(濃度分布
)HH′をめ、それを平均化して周辺分布HHを得る(
第5図径照)。
内のパターンを走査し、水平方向の周辺分布(濃度分布
)HH′をめ、それを平均化して周辺分布HHを得る(
第5図径照)。
ステップ■:プロセッサ8はめた周辺分布癌の谷部でパ
ターンを水平方向のザブ領域に分割する。第5図のパタ
ーンPの場合、a、b、cのサブ領域に分割される。
ターンを水平方向のザブ領域に分割する。第5図のパタ
ーンPの場合、a、b、cのサブ領域に分割される。
ステップ■:プロセッサ8は、パターンメモリの)2を
走査し、谷すブ追域毎に垂直方向の周辺分卸HVをめる
。なf6、この周辺分4i MVについて平滑化を行っ
てもよい。第5図のサブ領域a%b、Cについては、第
5図の周辺分布f(y(a)、Hy(c)がそれぞれま
る。
走査し、谷すブ追域毎に垂直方向の周辺分卸HVをめる
。なf6、この周辺分4i MVについて平滑化を行っ
てもよい。第5図のサブ領域a%b、Cについては、第
5図の周辺分布f(y(a)、Hy(c)がそれぞれま
る。
ステップ■ニステップ■で釆めた周辺分布Hvの谷部で
、各サブ頭載を最小単位であるブロックに分割する。第
5図のパターンPの場合、このステップで破線で示すよ
うにブロック分割さ2する。各ブロックは、文字または
記号、あるいは図形の領域である。
、各サブ頭載を最小単位であるブロックに分割する。第
5図のパターンPの場合、このステップで破線で示すよ
うにブロック分割さ2する。各ブロックは、文字または
記号、あるいは図形の領域である。
ステップ■:プロセッサ8は谷ブロック艇にパターンメ
モリ(B)2またはパターンメモリ(5)1)内のパタ
ーンを走食し、改めて各ブロック別の水平方向の周辺分
布軸と垂直方向の周辺分布hvをめる。
モリ(B)2またはパターンメモリ(5)1)内のパタ
ーンを走食し、改めて各ブロック別の水平方向の周辺分
布軸と垂直方向の周辺分布hvをめる。
ステップ■:谷ブロックの周辺分布hH1hVの分散α
□、αVを計算する。
□、αVを計算する。
ステップ■:各ブロック別にαヨ、αVと閾値T1、T
2を比較し、αH、>”1’1かつα7〉T2であれば
、そのブロックを文字または記号のブロックと判定する
。
2を比較し、αH、>”1’1かつα7〉T2であれば
、そのブロックを文字または記号のブロックと判定する
。
ステップ■:αヨ、α■を閾値T3、T4と比較し、α
ゆ〈T3かつαv (T4ならば不定ブロックと判定す
る。
ゆ〈T3かつαv (T4ならば不定ブロックと判定す
る。
それ以外であれば図形ブロックと判定する。
以上の処理で図形ブロックが抽出された場合、図形ブロ
ックとの連結性判定処理を行う。第8図はそのフローチ
ャートである。この処理はパターンメモリ囚1上で行わ
れる。
ックとの連結性判定処理を行う。第8図はそのフローチ
ャートである。この処理はパターンメモリ囚1上で行わ
れる。
ステップ■:任意の図形ブロック内の任意の画素を破切
の注目I[II素として選ぶ。
の注目I[II素として選ぶ。
ステップ■:注目画船を黒画素上に移す。
ステップC:注目黒画素済みか判定する。
ステップC:注目黒画素は文字/記号ブロック内が判定
する。
する。
ステップC:注目黒画素を当該図形ブロック内の画素と
みなし、当該図形ブロックを拡張する(または、注目黒
画素に当該図形ブロックの識別番号をつける)。
みなし、当該図形ブロックを拡張する(または、注目黒
画素に当該図形ブロックの識別番号をつける)。
ステップ0:参照すべき新しい画素が残っているか判定
する。
する。
第4図は図形と文字・記号とが連結した場合の走査順を
説明する図であり、○印は黒画素、Q印肉の数字は参照
順序を示す。#6の黒画素は非図形ブロック内であるか
ら、#5の画素に決り、#8の画素を捜す。
説明する図であり、○印は黒画素、Q印肉の数字は参照
順序を示す。#6の黒画素は非図形ブロック内であるか
ら、#5の画素に決り、#8の画素を捜す。
以上の処理によって、第5図のパターンPのブロックの
うち、(イ)〜(ハ)の各ブロックは文字のブロックと
して抽出される。他のブロックは図形ブロックとして抽
出される。
うち、(イ)〜(ハ)の各ブロックは文字のブロックと
して抽出される。他のブロックは図形ブロックとして抽
出される。
なお、本実施例においては、周辺分布の分散をめ、それ
を用いてブロックの判定を付っているが(ステップ■〜
■)、周辺分弗の標準偏差を用いるようにしてもよい。
を用いてブロックの判定を付っているが(ステップ■〜
■)、周辺分弗の標準偏差を用いるようにしてもよい。
本発明は以上に詳述したμ口<であるから、アンダーラ
インや添字がある場合や図形の中に文字・記号がある場
合でも、文字・記号を図形と分離して確実に抽出するこ
とができるものである。
インや添字がある場合や図形の中に文字・記号がある場
合でも、文字・記号を図形と分離して確実に抽出するこ
とができるものである。
第1図は本発明に係る文字・i己号抽出処理装置の慨1
略ブロック図、第2図および第8図は第11図装置の処
理を示すフローチャート、第4図は図形ブロックの連結
判定処理における1而素走査順を説明するための図、第
5図は文箪唄域パターンの一例とその処理の1説明図で
ある。 ■、2・・・パターンメモリ、8・・・プロセッサ、a
〜C・・・ザブ′誤域、イ〜ト・・・文字ブロック。 代理人升埋土 鈴 不 誠
略ブロック図、第2図および第8図は第11図装置の処
理を示すフローチャート、第4図は図形ブロックの連結
判定処理における1而素走査順を説明するための図、第
5図は文箪唄域パターンの一例とその処理の1説明図で
ある。 ■、2・・・パターンメモリ、8・・・プロセッサ、a
〜C・・・ザブ′誤域、イ〜ト・・・文字ブロック。 代理人升埋土 鈴 不 誠
Claims (1)
- (1) 文書画像を第i1方向の周辺分布に基づきサブ
領域に分割し、谷サブ領域を上記第1方向と直交する第
2方向の周辺−分布に基づいてブロックに分割し、各ブ
ロックを上記第1および第2方向の周辺分布に基づき文
字・記号プryツクであるか判定することを%故とする
文字・記号抽出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58110435A JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58110435A JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS603074A true JPS603074A (ja) | 1985-01-09 |
| JPH0524555B2 JPH0524555B2 (ja) | 1993-04-08 |
Family
ID=14535653
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58110435A Granted JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS603074A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6227877A (ja) * | 1985-07-30 | 1987-02-05 | Toshiba Corp | 光学的文字読取装置 |
| JPH01321153A (ja) * | 1988-06-21 | 1989-12-27 | Schenectady Chem Inc | 研削砥石 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5525105A (en) * | 1978-08-09 | 1980-02-22 | Toshiba Corp | Character detecting segmantation unit |
| JPS5699576A (en) * | 1980-01-08 | 1981-08-10 | Mitsubishi Electric Corp | Character reader |
| JPS575181A (en) * | 1980-06-10 | 1982-01-11 | Toshiba Corp | Character detection and segmentation system |
-
1983
- 1983-06-20 JP JP58110435A patent/JPS603074A/ja active Granted
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5525105A (en) * | 1978-08-09 | 1980-02-22 | Toshiba Corp | Character detecting segmantation unit |
| JPS5699576A (en) * | 1980-01-08 | 1981-08-10 | Mitsubishi Electric Corp | Character reader |
| JPS575181A (en) * | 1980-06-10 | 1982-01-11 | Toshiba Corp | Character detection and segmentation system |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6227877A (ja) * | 1985-07-30 | 1987-02-05 | Toshiba Corp | 光学的文字読取装置 |
| JPH01321153A (ja) * | 1988-06-21 | 1989-12-27 | Schenectady Chem Inc | 研削砥石 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0524555B2 (ja) | 1993-04-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10896357B1 (en) | Automatic key/value pair extraction from document images using deep learning | |
| CN110069767B (zh) | 基于电子书的排版方法、电子设备及计算机存储介质 | |
| JP2004005453A (ja) | 文書画像レイアウトの解体と再表示の方法およびシステム | |
| CN114332150A (zh) | 手写笔迹擦除方法、装置、设备及可读存储介质 | |
| US20090041352A1 (en) | Image formation device, image formation method, and computer-readable recording medium recording image formation program | |
| CN111857893B (zh) | 标注图形生成方法及装置 | |
| CN114663897A (zh) | 表格提取方法与表格提取系统 | |
| CN112528997B (zh) | 一种基于文本中心区域扩增的藏汉双语场景文本检测方法 | |
| CN114926840B (zh) | 一种影印pdf转可复制pdf方法及系统 | |
| CN114581923B (zh) | 表格图像及对应标注信息的生成方法、装置及存储介质 | |
| CN111798542B (zh) | 模型训练方法、数据处理方法及装置、设备、存储介质 | |
| CN106980857A (zh) | 一种基于碑帖的毛笔字分割识别方法 | |
| CN115019310A (zh) | 图文识别方法及设备 | |
| CN110135417A (zh) | 样本标注方法及计算机存储介质 | |
| CN110740221B (zh) | 信息处理装置 | |
| JPS603074A (ja) | 文字・記号抽出方法 | |
| JP2014212476A (ja) | コミック画像コマ検出装置、方法及びプログラム | |
| JPH0460759A (ja) | 文書作成支援装置 | |
| CN113569161B (zh) | 试题答案标注方法、装置、电子设备及计算机可读介质 | |
| CN114898375A (zh) | 字符检测模型训练方法及组件,文本识别方法及组件 | |
| JPS62197881A (ja) | 文書画像縦書・横書判定方式 | |
| CN121544743A (zh) | 文字动效数据的生成方法、装置、存储介质以及电子设备 | |
| JP2010258627A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
| CN121564721A (zh) | 一种商品图商品外文字检测方法、装置、设备和介质 | |
| JPH0586585B2 (ja) |