JPH01320171A - 枠字処理方法 - Google Patents
枠字処理方法Info
- Publication number
- JPH01320171A JPH01320171A JP13252488A JP13252488A JPH01320171A JP H01320171 A JPH01320171 A JP H01320171A JP 13252488 A JP13252488 A JP 13252488A JP 13252488 A JP13252488 A JP 13252488A JP H01320171 A JPH01320171 A JP H01320171A
- Authority
- JP
- Japan
- Prior art keywords
- character
- block
- kanji
- blocks
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Dot-Matrix Printers And Others (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は枠字処理方法に係り、詳しくは、光学読取装
置で読み取られた書類中の印刷体文字情報をデータベー
ス化する際、これら印刷体文字情報(二値化資料)を、
先ず文字列、画像ブロック、図形ブロックに分離処理し
、次いで文字列中の文字に枠を付けて切り出丁枠字処理
方法に関するものである。
置で読み取られた書類中の印刷体文字情報をデータベー
ス化する際、これら印刷体文字情報(二値化資料)を、
先ず文字列、画像ブロック、図形ブロックに分離処理し
、次いで文字列中の文字に枠を付けて切り出丁枠字処理
方法に関するものである。
(発明の概要)
この発明の枠字処理方法は、一次走査ブロック・ラベリ
ング(○ne Path Blok Labeling
)と構造化文字切出法(5tructvre 工5o
latin )を用いて、文字と図形とが併存した情報
、大文字と小文字とが混合した情報、文字間隔が不均一
な文字情報、庚子、英数字及び一般記号からなる情報等
、印刷体文字情報を、自動的にブロックに分離し、次い
で文字列の中の文字に枠を付けて切り出すことにより、
効率良(データベース化するものである。
ング(○ne Path Blok Labeling
)と構造化文字切出法(5tructvre 工5o
latin )を用いて、文字と図形とが併存した情報
、大文字と小文字とが混合した情報、文字間隔が不均一
な文字情報、庚子、英数字及び一般記号からなる情報等
、印刷体文字情報を、自動的にブロックに分離し、次い
で文字列の中の文字に枠を付けて切り出すことにより、
効率良(データベース化するものである。
(従来の技術)
コンピユータ化が進んだ今日では、書類中の文章(Te
xt )、画像(Image )、図形(Graphi
c )等の情報を、如何に効率良くデータベース化する
かが要求されている。
xt )、画像(Image )、図形(Graphi
c )等の情報を、如何に効率良くデータベース化する
かが要求されている。
このため、書類中の文字、画像、図形等の情報を自動的
に区分し、それぞれを適白な技術で処理することにより
、データの蓄積量を縮小することが書類分析システム上
重要となりている。また、枠を付けた文章の部分に対し
、如何に正しく文字や記号の領域を切り出して、認識分
析のために光学文字認識系(0ptical Char
acter Recognition :0CR)に転
送することも同様に重要となっている〇 一般に、文字、画像、図形情報を自動的に区分するのは
、ブロック分離処理の範晴にPAするが、枠を付けた文
字列から文字や記号を切り出すのは、文字切り出し処理
の範驕に属する。これらを枠字処■里と称している。
に区分し、それぞれを適白な技術で処理することにより
、データの蓄積量を縮小することが書類分析システム上
重要となりている。また、枠を付けた文章の部分に対し
、如何に正しく文字や記号の領域を切り出して、認識分
析のために光学文字認識系(0ptical Char
acter Recognition :0CR)に転
送することも同様に重要となっている〇 一般に、文字、画像、図形情報を自動的に区分するのは
、ブロック分離処理の範晴にPAするが、枠を付けた文
字列から文字や記号を切り出すのは、文字切り出し処理
の範驕に属する。これらを枠字処■里と称している。
この枠字処理の目的は、処理対象を区分することてあり
、これは四類分析ノステムにおいてlである。これまで
のブロック分離処理技術とじては、次のものが知られて
いる0 (1) 射影法(Histogram) ; Avi
nash Kak andAzriel Raaenf
eld″Digital Picture Proce
−ssing′参照。
、これは四類分析ノステムにおいてlである。これまで
のブロック分離処理技術とじては、次のものが知られて
いる0 (1) 射影法(Histogram) ; Avi
nash Kak andAzriel Raaenf
eld″Digital Picture Proce
−ssing′参照。
(2)膨張、収縮法(ExpAnsion and S
hrinking);中村、武家、開本、南”ミックス
モー通信のための文字領域の抽出アルゴリズム”信学論
(D) J67−D、朧tt 、 PP 1277〜1
284 (1984)及び秋田、内藤、増田6縦・横書
き文字からの個別文字切り出し法″信技゛報、PRL−
83−7,PP49〜56 (t983 )参照。
hrinking);中村、武家、開本、南”ミックス
モー通信のための文字領域の抽出アルゴリズム”信学論
(D) J67−D、朧tt 、 PP 1277〜1
284 (1984)及び秋田、内藤、増田6縦・横書
き文字からの個別文字切り出し法″信技゛報、PRL−
83−7,PP49〜56 (t983 )参照。
(3) Con5traint Run Lengt
法(以下、CRLと略記するO ) ; F、 M、
Yea 、 R,S、 Ca5ey ;Block
Segmentation and Text Ex
tractionin Mixed Text / I
mage Documents ” + Com−pu
ter Graphic & Image proce
ssing t 20 rPP375〜390(198
2)参照。
法(以下、CRLと略記するO ) ; F、 M、
Yea 、 R,S、 Ca5ey ;Block
Segmentation and Text Ex
tractionin Mixed Text / I
mage Documents ” + Com−pu
ter Graphic & Image proce
ssing t 20 rPP375〜390(198
2)参照。
(4)小領域分離法; N、H,Yea 、 R,S、
Leuand ’G、H,Lin″CHARACTE
RRECOGNI−TION ByL BOARD O
CRRART : TRAlN5EPARATION
&CHARAC:TEREXTRAGTニー○N″+
Proceeding of Internation
al ComputerBymposium’ * D
ecember l 7−19 r PP l 29〜
137 (1986)参照0 (発明が解決しようとする課題) しかしながら、上記(1)〜(4)のブロック分離処理
技術には、いずれも一長一短があり、満足すべきもので
はなかった。
Leuand ’G、H,Lin″CHARACTE
RRECOGNI−TION ByL BOARD O
CRRART : TRAlN5EPARATION
&CHARAC:TEREXTRAGTニー○N″+
Proceeding of Internation
al ComputerBymposium’ * D
ecember l 7−19 r PP l 29〜
137 (1986)参照0 (発明が解決しようとする課題) しかしながら、上記(1)〜(4)のブロック分離処理
技術には、いずれも一長一短があり、満足すべきもので
はなかった。
すなわち、(1) 射影法(Histogram )
では、処理速度が速い反面、文字資料等が傾斜している
記録紙、又は文章と図形とが併存している記録紙には適
用できない問題があった。
では、処理速度が速い反面、文字資料等が傾斜している
記録紙、又は文章と図形とが併存している記録紙には適
用できない問題があった。
また、(2)膨張、収縮法及び+3) CRL法では、
複雑な書類の処理が可能である反面、処理速度が遅く、
j彫犬な画像演算スペースが必要となる問題があった0 また、(4)小領域分離法では、処理速度が速く、文字
資料等が傾斜していても処理出来る反面、入力記録紙の
フオームが制限され、しかも文章と図形とが併存した記
録紙には適用出来ない問題がありた0 この発明は上記従来技術の問題点を解消するもので、そ
の目的とするところは、文章資料等が傾斜して処理出来
ない問題や、複雑な書類の処理が出来ない問題等をなく
して、効率良くデータデース化出来る枠字処理方法を提
供することである0(課題を解決するだめの手段) 第1の発明では、コンピュータに読み込まれた書類の画
像データを、ブロック分離処理法により、文字列(文字
ブロック)、画像ブロック及び図形ブロックに分離し、
次いで文字切出法により、分離された文字列から漢字、
英数字及び句読点記号に枠を付けて切り出す枠字処理方
法において、前記ブロック分離処理法を、ビットマツプ
(bitmap)画像ヲラン・レングス・コード(Ru
n LengthCOae)<変換するためのCRLC
(CnstrainedRun L+ength Co
de )転換プロセスと、ラベリング(Labelin
g )法で、隣接関係にあるGRLC:を連続させるこ
とにより、−ブロック(独立のブロック)として分離す
るブロック分離プロセスと、独立したブロックに記録さ
れたCRLCからもとのビットマツプ(bitmap)
画像おけろ各対応位置(X、Y)を算出することにより
、各ブロックの画(&’?:抽出する画像抽出プロセス
と、ブロックの1とラン・レングス(Run Leng
th )平均値からブロックの種類を判別するブロック
画像種類判別プロセスとからなる一次走査ブロック・ラ
ベリング法により構成したことを特徴としている。
複雑な書類の処理が可能である反面、処理速度が遅く、
j彫犬な画像演算スペースが必要となる問題があった0 また、(4)小領域分離法では、処理速度が速く、文字
資料等が傾斜していても処理出来る反面、入力記録紙の
フオームが制限され、しかも文章と図形とが併存した記
録紙には適用出来ない問題がありた0 この発明は上記従来技術の問題点を解消するもので、そ
の目的とするところは、文章資料等が傾斜して処理出来
ない問題や、複雑な書類の処理が出来ない問題等をなく
して、効率良くデータデース化出来る枠字処理方法を提
供することである0(課題を解決するだめの手段) 第1の発明では、コンピュータに読み込まれた書類の画
像データを、ブロック分離処理法により、文字列(文字
ブロック)、画像ブロック及び図形ブロックに分離し、
次いで文字切出法により、分離された文字列から漢字、
英数字及び句読点記号に枠を付けて切り出す枠字処理方
法において、前記ブロック分離処理法を、ビットマツプ
(bitmap)画像ヲラン・レングス・コード(Ru
n LengthCOae)<変換するためのCRLC
(CnstrainedRun L+ength Co
de )転換プロセスと、ラベリング(Labelin
g )法で、隣接関係にあるGRLC:を連続させるこ
とにより、−ブロック(独立のブロック)として分離す
るブロック分離プロセスと、独立したブロックに記録さ
れたCRLCからもとのビットマツプ(bitmap)
画像おけろ各対応位置(X、Y)を算出することにより
、各ブロックの画(&’?:抽出する画像抽出プロセス
と、ブロックの1とラン・レングス(Run Leng
th )平均値からブロックの種類を判別するブロック
画像種類判別プロセスとからなる一次走査ブロック・ラ
ベリング法により構成したことを特徴としている。
また、第2の発明では、前記文字切出法を、文字列の左
右に分離された矩形に枠を付ける矩形捜索プロセスと、
高さ得点法により漢字の高さを求めろ文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出
プロセスと、比較的ゆるやかな条件により、切り出され
た全ての矩形の右、あるいは左側に位置する漢字矩形を
捜し出す右方向、左方向切出プロセスとを具備した構造
化文字切出法により構成したことを特徴としている0 また、第3の発明では、前記一次走査ブロック・ラベリ
ング法により、コンピュータに読み込まれた書類の画像
データを、文字列(文字ブロック)、画像ブロック及び
図形ブロックに分離処理し、次いで前記構造化文字切出
法により、分離された文字列から漢字、英数字及び句読
点記号に枠を付けて切り出すことを特徴としている。
右に分離された矩形に枠を付ける矩形捜索プロセスと、
高さ得点法により漢字の高さを求めろ文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出
プロセスと、比較的ゆるやかな条件により、切り出され
た全ての矩形の右、あるいは左側に位置する漢字矩形を
捜し出す右方向、左方向切出プロセスとを具備した構造
化文字切出法により構成したことを特徴としている0 また、第3の発明では、前記一次走査ブロック・ラベリ
ング法により、コンピュータに読み込まれた書類の画像
データを、文字列(文字ブロック)、画像ブロック及び
図形ブロックに分離処理し、次いで前記構造化文字切出
法により、分離された文字列から漢字、英数字及び句読
点記号に枠を付けて切り出すことを特徴としている。
この発明で「ラン(Run)Jとは、画像列が一段で連
続した状態の黒(又は白)色の画素をいう。
続した状態の黒(又は白)色の画素をいう。
また、「ラン・レングス・コード(Run Lengt
hCode)Jとは、II Run 11始点位置と長
さを持つデータコードをいう。
hCode)Jとは、II Run 11始点位置と長
さを持つデータコードをいう。
頂だ、[コンストレインド・ラン(Con5tratn
−ed Run )Jとは、水平距離がある定数よりも
小さい”Run5”をいう。
−ed Run )Jとは、水平距離がある定数よりも
小さい”Run5”をいう。
また、「コンストレインド・ラン・コード(Const
rained Run Code )Jとは、” Co
n5train −edRun”の中に最左端の始点位
置と総長度を持つデータコードをいう。
rained Run Code )Jとは、” Co
n5train −edRun”の中に最左端の始点位
置と総長度を持つデータコードをいう。
(発明の作用)
この発明では、記録紙の記録内容が傾斜したり、あるい
は文章と図形とが併存したりすると適用出来ない問題を
解決するため、従来のC3L法を改良した一次走査ブロ
ック・ラベリングと称するブロック分離方法を採用して
いる。これにより、−回訓像平面を走歪するだけで全て
のブロックを捜し出して変換することが出来る。すなわ
ち、三つの画像平面 (元の画像平面、水平拡張平面及
び垂直拡張平面)を必要とし、そしてこの画像平面を複
数回走査しなければならなかったのを、元の画像平面を
一回走査するだけで済むようにしている。
は文章と図形とが併存したりすると適用出来ない問題を
解決するため、従来のC3L法を改良した一次走査ブロ
ック・ラベリングと称するブロック分離方法を採用して
いる。これにより、−回訓像平面を走歪するだけで全て
のブロックを捜し出して変換することが出来る。すなわ
ち、三つの画像平面 (元の画像平面、水平拡張平面及
び垂直拡張平面)を必要とし、そしてこの画像平面を複
数回走査しなければならなかったのを、元の画像平面を
一回走査するだけで済むようにしている。
このため、処理速度を速くすることか出来る。
また、文字切出処理については、通常、射影法により各
文字の外枠矩形を捜し出すが、文章の中に漢字、英文字
の共存している場合には漢字、英文字の矩形判定を行う
必要がある。この文字切出処理を困難にしている原因と
しては、次のものが考えられる。
文字の外枠矩形を捜し出すが、文章の中に漢字、英文字
の共存している場合には漢字、英文字の矩形判定を行う
必要がある。この文字切出処理を困難にしている原因と
しては、次のものが考えられる。
(1) ピッチ(Pitch)が一致していないこと
による。jなわち、印刷体文字の字形中のピッチが不一
致のため、ピッチな標漁として自動的に文字切出処理を
行うことが出来ない。
による。jなわち、印刷体文字の字形中のピッチが不一
致のため、ピッチな標漁として自動的に文字切出処理を
行うことが出来ない。
(2) ノイズ干渉による。丁なわち、紙面上の汚点
がノイズを引き起こ丁可能性がある0 (3)文字の分離による。例えば、双矩形構造の゛”引
″が”弓″、“1”という二文字として切り出される可
能性がある0 (4)文字の接触による。例えば、”我(僕)″と°“
イが、(君)″との二文字が活字で印刷された場合には
、字間のスペースが小さ丁ぎるので、単一文字として切
り出される可能性がある。
がノイズを引き起こ丁可能性がある0 (3)文字の分離による。例えば、双矩形構造の゛”引
″が”弓″、“1”という二文字として切り出される可
能性がある0 (4)文字の接触による。例えば、”我(僕)″と°“
イが、(君)″との二文字が活字で印刷された場合には
、字間のスペースが小さ丁ぎるので、単一文字として切
り出される可能性がある。
この発明では、文字切出処理に使用する判断パラメータ
が全部入力記録紙から抽出するとの原則に基づき、“構
造化文字切出法”により矩形の属性(漢字又は英文字)
を判断する方法を採用することで、上述の文字切出処理
に伴う困難さを解消して、正確に文字切り出しを行うこ
とが出来る。
が全部入力記録紙から抽出するとの原則に基づき、“構
造化文字切出法”により矩形の属性(漢字又は英文字)
を判断する方法を採用することで、上述の文字切出処理
に伴う困難さを解消して、正確に文字切り出しを行うこ
とが出来る。
(実施例)
以下この発明の一実施例を図面を参照して詳細に説明す
る。
る。
第3の発明は第1の発明の特徴部分であるブロック分離
処理法と第2の発明の特徴部分である文字切出法とを組
み合わせたものである。そこで、以下の実施例では、@
3の発明について詳細に説明する0第1、第2の発明に
ついての説明は、第3の発明を説明する過程で行う。
処理法と第2の発明の特徴部分である文字切出法とを組
み合わせたものである。そこで、以下の実施例では、@
3の発明について詳細に説明する0第1、第2の発明に
ついての説明は、第3の発明を説明する過程で行う。
2g1図は第3の発明の文字、画像、図形情報等の処理
方法を実行する装置を示すブロック図である。図中符号
IOは光学読取装置、20は一次走査ブロック・ラベリ
ング法によりブロック分離するブロック分離手段、30
は構造化文字切出法により文字切出処理する文字切出手
段である。
方法を実行する装置を示すブロック図である。図中符号
IOは光学読取装置、20は一次走査ブロック・ラベリ
ング法によりブロック分離するブロック分離手段、30
は構造化文字切出法により文字切出処理する文字切出手
段である。
光学読取装置10により書類を走査して、書類の画像デ
ータである文字、画像、図形情報等の印刷体文字情報を
読み取って入力し、この入力データ(二値化資料)をブ
ロック分離手段20により文字列(文字ブロック)、画
像ブロック及び図形ブロックに分離し、次いで文字切出
手段20により前記ブロック分離手段20で分離された
文字列の中の文字を切り出す。
ータである文字、画像、図形情報等の印刷体文字情報を
読み取って入力し、この入力データ(二値化資料)をブ
ロック分離手段20により文字列(文字ブロック)、画
像ブロック及び図形ブロックに分離し、次いで文字切出
手段20により前記ブロック分離手段20で分離された
文字列の中の文字を切り出す。
第2図は普通の書類で、文字列(文字ブロック)、ハー
フトーン(Hal f tone )画像、及び@線図
形が含まれている。光学読取装置10によりこの書類の
画像データを読み取って、ブロック分離手段20で処理
すると、第3図に示すように、文字列、画像ブロック、
図形ブロックに分離される0このプ07り分離には、次
のような特性がある。
フトーン(Hal f tone )画像、及び@線図
形が含まれている。光学読取装置10によりこの書類の
画像データを読み取って、ブロック分離手段20で処理
すると、第3図に示すように、文字列、画像ブロック、
図形ブロックに分離される0このプ07り分離には、次
のような特性がある。
(1)白い影の部分はブロック分離の主な個所でである
。
。
(2)同じブロック内の余白距離が小さい。
(3)異なるブロック間の余白距離が大きい。
ここで、一次走査ブロック・ラベリング法の基本原理は
次の通りである。
次の通りである。
(1) ビットマツプ(b itmap )画像をラ
ン・レングス・コード(Run Length にod
e )に変換する0 (2)近隣の領域関係により近距離にある”Run”を
同一ブロックにラベリングする。
ン・レングス・コード(Run Length にod
e )に変換する0 (2)近隣の領域関係により近距離にある”Run”を
同一ブロックにラベリングする。
(3)成るブロックの近隣のRunl+ が存在しな
くなれば、このブロックを独立ブロックとする0 (4)独立ブロック内の全てのRun” をビットマ
ツプ(bitmap )画像に戻して、ブロックの属性
(文字列、画像ブロック、図形ブロック)を決定する。
くなれば、このブロックを独立ブロックとする0 (4)独立ブロック内の全てのRun” をビットマ
ツプ(bitmap )画像に戻して、ブロックの属性
(文字列、画像ブロック、図形ブロック)を決定する。
この一次操作ブロック・ラベリング法では、画面に対し
一回の走査を施丁ことにより、上記(1)〜(4)の操
作が実行されて、全てのブロックを分離することが出来
ろ。
一回の走査を施丁ことにより、上記(1)〜(4)の操
作が実行されて、全てのブロックを分離することが出来
ろ。
2g4図は、ブロック分離子I!i20で実行されろ一
次走査ブロック・ラベリング法による処理内容を示すフ
ローチャートである。
次走査ブロック・ラベリング法による処理内容を示すフ
ローチャートである。
まず、CRLC(Constrained Run L
engthCode )転換プロセスで、文字読取装置
10で読みR1ッたビットマツプ(bitmap)画像
をCRLc f:換する。丁なわち、データ丁貨tの多
いビットマツプ。
engthCode )転換プロセスで、文字読取装置
10で読みR1ッたビットマツプ(bitmap)画像
をCRLc f:換する。丁なわち、データ丁貨tの多
いビットマツプ。
(bitmap )画像を、各Con5trained
)funの開始位置と終了位置の値だけが記録された
(、RLCに変換して、データ量を減らす。
)funの開始位置と終了位置の値だけが記録された
(、RLCに変換して、データ量を減らす。
このよ5に、CRLCを採用てるのは、水平方向への局
部的な拡張効果を発生させろためである。
部的な拡張効果を発生させろためである。
ここで、定’;tI CHの選定は棒列結果の良否に太
きな影響を与えるので、適切な値に設定する必要がある
。jなわち、定数chが太きすぎると、”局部的′°な
拡張効果の意義が無くなり、傾斜角を持つ二つのブロッ
クがMなり合ってしヱう0また、定数chが小さ丁ぎる
と、拡張効果が得られないのみならず、ブロック分離時
のデータ処理量を増大させてしヱう〇 次に、ブロック分離プロセスで、ラベリング(Labe
ling )の方法を採用して隣接関係にあるCRLC
を連続させることにより、−ブロックの位置を得ろ(独
立のブロックに分離する)Qここで、ラベリング(La
be l ing )の方法を説明するQ まず、Con5trained Runの“近隣領域″
′の内容について説明する0この6近隣領域”は、第5
図に示すように、Con5trained Run (
同図中の黒色部分)から拡張された部分、すなわち点線
で囲まれた部分をいう。そして、この近隣領域と接した
ブロックを、このRunの近隣ブロックという。なお、
同図中XGAPは水平拡張量、Y GAPは垂直拡張が
である。
きな影響を与えるので、適切な値に設定する必要がある
。jなわち、定数chが太きすぎると、”局部的′°な
拡張効果の意義が無くなり、傾斜角を持つ二つのブロッ
クがMなり合ってしヱう0また、定数chが小さ丁ぎる
と、拡張効果が得られないのみならず、ブロック分離時
のデータ処理量を増大させてしヱう〇 次に、ブロック分離プロセスで、ラベリング(Labe
ling )の方法を採用して隣接関係にあるCRLC
を連続させることにより、−ブロックの位置を得ろ(独
立のブロックに分離する)Qここで、ラベリング(La
be l ing )の方法を説明するQ まず、Con5trained Runの“近隣領域″
′の内容について説明する0この6近隣領域”は、第5
図に示すように、Con5trained Run (
同図中の黒色部分)から拡張された部分、すなわち点線
で囲まれた部分をいう。そして、この近隣領域と接した
ブロックを、このRunの近隣ブロックという。なお、
同図中XGAPは水平拡張量、Y GAPは垂直拡張が
である。
次に処理手順について説明する。
I、 CRLC(Starting X、 Leng
th ) ? (Sta −rtingX、 endi
ngX )に転換する。
th ) ? (Sta −rtingX、 endi
ngX )に転換する。
TI、 (a)既に存在していたブロックの中からR
unの近隣ブロックを捜し出して記録する。
unの近隣ブロックを捜し出して記録する。
(b)既に存在した近隣ブロック以外の全てのブロック
を記録する0 11L (Ca5e l ) 上記Ru nに近隣ブロックがない場合には、核Run
’t ”)(D新しいブロックに組み入れろ。
を記録する0 11L (Ca5e l ) 上記Ru nに近隣ブロックがない場合には、核Run
’t ”)(D新しいブロックに組み入れろ。
(Ca5e 2 )
上記Runに近隣ブロックがある場合には、該Runを
最も高い近隣ブロックMに組み入れる。そして、この近
隣ブロックMのl?RLcを、残りの近隣ブロックで1
粂正して形成した新ブロックMが、全ての近隣ブロック
と連続関係をもつようIIcする。
最も高い近隣ブロックMに組み入れる。そして、この近
隣ブロックMのl?RLcを、残りの近隣ブロックで1
粂正して形成した新ブロックMが、全ての近隣ブロック
と連続関係をもつようIIcする。
■、既に存在した近隣ブロック以外の全てのブロックを
チエツクし、どの新近隣ブロックとも接する可能性がな
ければ、ブロックの0RLCデータを、独立データとし
て次の仕事ユニットに回丁O ■、新CRLC;を読み取り、走査が終わるまで、上記
1〜■の作業を繰り返す0 以上の処理手順から明らかなように、ラベリング(La
be l ing )の方法は、6近隣ブロツク″゛の
定義に基づき、縦、横方向への局部的な拡張を行わせる
ことにより、CRLCO不足を補うと共に、GRLCの
密集領域(集合領域)を独立ブロックとして分離するも
のである。
チエツクし、どの新近隣ブロックとも接する可能性がな
ければ、ブロックの0RLCデータを、独立データとし
て次の仕事ユニットに回丁O ■、新CRLC;を読み取り、走査が終わるまで、上記
1〜■の作業を繰り返す0 以上の処理手順から明らかなように、ラベリング(La
be l ing )の方法は、6近隣ブロツク″゛の
定義に基づき、縦、横方向への局部的な拡張を行わせる
ことにより、CRLCO不足を補うと共に、GRLCの
密集領域(集合領域)を独立ブロックとして分離するも
のである。
上記ラベリング(Labe 1 ing )の方法によ
る処理の後、画像抽出プロセスにより、独立ブロックに
記録されたCRLCから元のビットマツプ(bitma
p)画像における各対応位置(X、Y)を算出して、−
個のブロックの画像を抽出する。
る処理の後、画像抽出プロセスにより、独立ブロックに
記録されたCRLCから元のビットマツプ(bitma
p)画像における各対応位置(X、Y)を算出して、−
個のブロックの画像を抽出する。
この後、画像種類判別プロセスにより、各ブロックの画
像の種類(文字、画像、図形)の分析を行う。丁なわち
、文字列、画像ブロック又は図形ブロックに分離する。
像の種類(文字、画像、図形)の分析を行う。丁なわち
、文字列、画像ブロック又は図形ブロックに分離する。
ここでの分析の重点は、これまで得られたブロックが文
字列であるか否かを判断することであるが、この分析結
果から直線、幾何図形及びハーフトーン(Halfto
n )図等を判断することも出来る。
字列であるか否かを判断することであるが、この分析結
果から直線、幾何図形及びハーフトーン(Halfto
n )図等を判断することも出来る。
この分析には、ブロックの高さ(H)データと、走を方
向上の0平均ストロ一ク幅″〔又は”平均Run Le
ngth ”値(RL))データが使用さレル。
向上の0平均ストロ一ク幅″〔又は”平均Run Le
ngth ”値(RL))データが使用さレル。
ここで、RC=走肴方回上の黒画系の認相/走査方回上
のCrossing CountであるoCrossi
ngCountは、走査方向上で画素が白から黒に転換
された回数の様相をいう。
のCrossing CountであるoCrossi
ngCountは、走査方向上で画素が白から黒に転換
された回数の様相をいう。
次に、分析内容(判断の原則)を第6図(a)、(b)
を参服して説明する。
を参服して説明する。
なお、
HO=文字の可能な最大高さ
Hl 工文字例の可能な最大高さ
=HO+l頃斜の最大偏差
= HO+W X SIN (認メラtt口最犬)傾斜
角) W =ブロックの幅 THL=ハ−フトーy (Half ton ) 図
形、幾何学図形又は縦方向を区分出来ろ平均 Run Lengthの実験値 TH2=横方向直線、文字列又は短い縦線を区分出来ろ
平均Run Lengthの実験値TH3=垂直方向か
ら文字列又は短い縦線を区分出来る平均Run Len
gthの実験値TH4=垂直方向から幾何学図形又は縦
方向if線を区分出来る平均Run Lengthの実
験値 である。
角) W =ブロックの幅 THL=ハ−フトーy (Half ton ) 図
形、幾何学図形又は縦方向を区分出来ろ平均 Run Lengthの実験値 TH2=横方向直線、文字列又は短い縦線を区分出来ろ
平均Run Lengthの実験値TH3=垂直方向か
ら文字列又は短い縦線を区分出来る平均Run Len
gthの実験値TH4=垂直方向から幾何学図形又は縦
方向if線を区分出来る平均Run Lengthの実
験値 である。
まず、ブロックの高さから判断して、次の二群に分ける
。
。
(1) 高さが文字例の″範囲を越えたもの(F(O
>Ml)。
>Ml)。
これは幾何学図形、FlffA又はハーフトーン(Ha
lfton)図の何れかであると判断することが出来ろ
。
lfton)図の何れかであると判断することが出来ろ
。
ここで、水平方向の平均ストo−り幅から判断すれば、
1i6の大きいもの(水平方向上のRC>THI)は、
ハーフト−7(Half ton )図である。また、
垂直方向の平均ストローク幅から判断丁れば、幅の大き
いもの(垂直方向のRG>TH3)は、縦線である。そ
して、残るものが幾何学図形である。
1i6の大きいもの(水平方向上のRC>THI)は、
ハーフト−7(Half ton )図である。また、
垂直方向の平均ストローク幅から判断丁れば、幅の大き
いもの(垂直方向のRG>TH3)は、縦線である。そ
して、残るものが幾何学図形である。
(2)高さが文字列の範囲内にあるもの(HO≧H1)
。
。
これは文字列又は横線の一種であると判断することが出
来る。この外、高さが文字列のそれに和尚したため混同
されるものもある。ごく少数の短い縦線、小さい幾何学
図形又はハーフトーン(Halfton) 図等がこれ
に該当する。
来る。この外、高さが文字列のそれに和尚したため混同
されるものもある。ごく少数の短い縦線、小さい幾何学
図形又はハーフトーン(Halfton) 図等がこれ
に該当する。
ここで、水平方向の平均ストローク幅から判断すれば、
幅の大きいもの(水平方向上のRe>T)I2)は、横
線又はこの群に入れられたハーフトーン(Halfto
n) 図である。また、垂直方向の平均ストローク1
1Gから判断丁れば、幅の太きいもの(垂直方向のRe
)TH4)は、 この群に入れられた縦線である。そし
て、残るものが文字列である。なお、例外として、文字
列又は小さくて、高さが文字列のそれに和尚した幾何学
園形であって、はっきり区分できないものは、次の文字
切出処理に回された後、各部の長さと幅との比により、
文字か否かの判断がなされる。
幅の大きいもの(水平方向上のRe>T)I2)は、横
線又はこの群に入れられたハーフトーン(Halfto
n) 図である。また、垂直方向の平均ストローク1
1Gから判断丁れば、幅の太きいもの(垂直方向のRe
)TH4)は、 この群に入れられた縦線である。そし
て、残るものが文字列である。なお、例外として、文字
列又は小さくて、高さが文字列のそれに和尚した幾何学
園形であって、はっきり区分できないものは、次の文字
切出処理に回された後、各部の長さと幅との比により、
文字か否かの判断がなされる。
このようにして文字列が分離されると、文字列が文字切
出手段30に送られ、ここで構造化文字切出法による文
字切出処理が施されろ。次に、この文字切出処理の内容
について説明する。
出手段30に送られ、ここで構造化文字切出法による文
字切出処理が施されろ。次に、この文字切出処理の内容
について説明する。
文字切出処理の目的は、分離された各文字列毎に、文字
(漢字、英数字)及び記号(句読点記号、特殊記号)に
それぞれ矩形枠を付けることにある。
(漢字、英数字)及び記号(句読点記号、特殊記号)に
それぞれ矩形枠を付けることにある。
例えば、ル・□ 川 Q ように枠を付けることにある
0 この場合、直接、射影法を採用すると、次の問題がある
。丁なわち、英数字及び一般記号の矩形は単一の矩形に
属するが、漢字の矩形は数(1個〜s i[!if )
が一定しない。このため、単一の矩形が漢字の条件を満
足するか、否かを調べないと、漢字に正しく枠を付ける
ことが出来ない。また、複数個の矩形につき、矩形を融
合させて、融合した矩形が漢字制限の条件に合致するか
、否かを凋べろ。合致した場合には、矩形中に入ったも
のが漢字であることを示しているため、矩形の融合物件
を停止しなければならない。これをしないと、融合した
矩形が制限を越えるまで融合動作を絖けてしまり。
0 この場合、直接、射影法を採用すると、次の問題がある
。丁なわち、英数字及び一般記号の矩形は単一の矩形に
属するが、漢字の矩形は数(1個〜s i[!if )
が一定しない。このため、単一の矩形が漢字の条件を満
足するか、否かを調べないと、漢字に正しく枠を付ける
ことが出来ない。また、複数個の矩形につき、矩形を融
合させて、融合した矩形が漢字制限の条件に合致するか
、否かを凋べろ。合致した場合には、矩形中に入ったも
のが漢字であることを示しているため、矩形の融合物件
を停止しなければならない。これをしないと、融合した
矩形が制限を越えるまで融合動作を絖けてしまり。
ところで、統計によると、漢字には次のような特性を具
えていることが分かる。
えていることが分かる。
(1) 5401個の常用漢字の中に、単一矩形構造
に属するものが87チ、双矩形構造に属するものが11
%、このいずれにも属さないものが2チ占めている。
に属するものが87チ、双矩形構造に属するものが11
%、このいずれにも属さないものが2チ占めている。
(2)漢字は一般に四方字形上・を造乞呈し1、その縦
横比は普;j!11: tであるが、単一構造の漢字は
縦横比の変化が大きく、例えば“°日″は1.6 :
1、” JIII ”は0.77 : lである。なお
、双矩形以上の構造の漢字は比較的安定で、98%のも
のは縦横比が0.9 : l〜1.1 : lの間にあ
る。
横比は普;j!11: tであるが、単一構造の漢字は
縦横比の変化が大きく、例えば“°日″は1.6 :
1、” JIII ”は0.77 : lである。なお
、双矩形以上の構造の漢字は比較的安定で、98%のも
のは縦横比が0.9 : l〜1.1 : lの間にあ
る。
(3)漢字は続けて出現する(漢字同士が常に隣合う)
。
。
この発明のイ11η造化文字切出法は、このような漢字
の特性を取り入れて、上述の問題が生じることなく文字
列中の文字に枠を付けて切り出しを行うようにしたもの
である。基本的な内容は次の通りである。すなわち、 (1)マず、全ての単一矩形構造の特性を調べて、厳し
い判断条件に合致した漢字矩形を切り出す。
の特性を取り入れて、上述の問題が生じることなく文字
列中の文字に枠を付けて切り出しを行うようにしたもの
である。基本的な内容は次の通りである。すなわち、 (1)マず、全ての単一矩形構造の特性を調べて、厳し
い判断条件に合致した漢字矩形を切り出す。
(2)漢字同士が常に隣合う特性に基づき、左右に切り
出されるものがあってその間にものが未だ切り出されて
いない場合には、緩めの条件で単一矩形及び融合矩形の
判断を行う。
出されるものがあってその間にものが未だ切り出されて
いない場合には、緩めの条件で単一矩形及び融合矩形の
判断を行う。
(3)全ての漢字が切り出された後、残って切り出され
ていないものは、英数字又は記号とする。
ていないものは、英数字又は記号とする。
第7図は文字切出手段30で実行される処理内容を示す
フローチャートである。
フローチャートである。
まず、矩形捜索プロセスでは、文字列中の全ての左右に
分離された矩形に枠を付ける。これは次のようにして行
う。
分離された矩形に枠を付ける。これは次のようにして行
う。
(1) 水平軸(X)における画像の投影から矩形左
右端の位置を探り(第8図のXi r X2を参照)、
矩形の水平方向の位置を捜し出す。
右端の位置を探り(第8図のXi r X2を参照)、
矩形の水平方向の位置を捜し出す。
(2)各矩形の左右端部の領域内の画像の垂直軸(Y)
への投影から矩形上下端の位置を探り(同図のYl、Y
2を参照)、矩形の垂直方向の位置を披し吊子。
への投影から矩形上下端の位置を探り(同図のYl、Y
2を参照)、矩形の垂直方向の位置を披し吊子。
次に、文字列中の漢字の高さを算出する。これを行うの
は、矩形が漢字字形に合致するか、否かを判断するパラ
メータが全部漢字の高さに関係するからである。話さ得
点法により、文字列の高さを計メrする場合の原則は次
の通りである。
は、矩形が漢字字形に合致するか、否かを判断するパラ
メータが全部漢字の高さに関係するからである。話さ得
点法により、文字列の高さを計メrする場合の原則は次
の通りである。
(1)ある高さhが発生した時、hとその前後領域は対
応した高さ得点に対し、影響を与えるQ(2)漢字の矩
形が英数字の矩形よりも大きいといつQf性で漢字の得
点比重を増大させる。
応した高さ得点に対し、影響を与えるQ(2)漢字の矩
形が英数字の矩形よりも大きいといつQf性で漢字の得
点比重を増大させる。
(3)−文字列の中の最大得点の高さを漢字の高さとす
る。
る。
第9図(a) 、 (b)は、ある単一矩形の高さの得
点状況を示している。同図に示すように、文字列の高さ
は、該文字列におけろ全ての矩形高さの得点から統計し
たものである。
点状況を示している。同図に示すように、文字列の高さ
は、該文字列におけろ全ての矩形高さの得点から統計し
たものである。
次に、使先切出プロセスを実行する。この優先切出プロ
セスでは、単一矩形を処理し、三種類の安定で誤りの発
生し難い漢字及び句読点記号を切り出すと共に、それぞ
れに表示の属性を与える。
セスでは、単一矩形を処理し、三種類の安定で誤りの発
生し難い漢字及び句読点記号を切り出すと共に、それぞ
れに表示の属性を与える。
第1類は、きちとした漢字であり、属性を1とする。
切り出し条件は、
(1) 1en−3<矩形の長さ <ten−L(2
)wid−3<矩形の幅 (wid−L(3) r
at−3<矩形の縦横比<rat−L(4)左右矩形と
の間隔>bnk とする。
)wid−3<矩形の幅 (wid−L(3) r
at−3<矩形の縦横比<rat−L(4)左右矩形と
の間隔>bnk とする。
第2類は、読点(、)コンマ(1)、句点(o)であり
、属性を2とする〇 切り出し条件は、 (1)左右矩形との間隔>Comma (2) dat−8<矩形の長さ、幅(dat−Lと
する〇 第3類は“−″、″、′=′”であり、属性を3とする
。
、属性を2とする〇 切り出し条件は、 (1)左右矩形との間隔>Comma (2) dat−8<矩形の長さ、幅(dat−Lと
する〇 第3類は“−″、″、′=′”であり、属性を3とする
。
切り出し争注は、
(1)dat−3<矩形の長さく (dat−3+ d
at−L) > 1 (2)矩形の幅<wid−3 とする〇 ここで、ten−3は、きちんとした漢字の許容され得
る最小矩形の長さ、 1en−Lは、きちんとした漢字の許容され得る最大矩
形の長さ、 wid−3は、きちんとした漢字の許容され得る最小矩
形の幅、 wid−Lは、きちんとした漢字の許容され得る最大矩
形の幅、 rat−3は、さちんとした漢字の許容され得る最小矩
形の縦横比、 rat−Lは、きちんとした漢字の許容され得る最大矩
形の縦横比、 Commaは、句、読点等矩形及び左右矩形の許容され
得る最小矩形 の長さ、 dat−8は、句、読点等矩形の許容され得ろ最小矩形
の長さ、 dat−Lは、句、読点等矩形の許容され得る最大矩形
の長さ、 bnk は、二漢字間の距離、即ち余白の幅 をいう。
at−L) > 1 (2)矩形の幅<wid−3 とする〇 ここで、ten−3は、きちんとした漢字の許容され得
る最小矩形の長さ、 1en−Lは、きちんとした漢字の許容され得る最大矩
形の長さ、 wid−3は、きちんとした漢字の許容され得る最小矩
形の幅、 wid−Lは、きちんとした漢字の許容され得る最大矩
形の幅、 rat−3は、さちんとした漢字の許容され得る最小矩
形の縦横比、 rat−Lは、きちんとした漢字の許容され得る最大矩
形の縦横比、 Commaは、句、読点等矩形及び左右矩形の許容され
得る最小矩形 の長さ、 dat−8は、句、読点等矩形の許容され得ろ最小矩形
の長さ、 dat−Lは、句、読点等矩形の許容され得る最大矩形
の長さ、 bnk は、二漢字間の距離、即ち余白の幅 をいう。
第10図は、上記優先切出プロセスで処理された矩形と
属性との対応状況を示すものである。
属性との対応状況を示すものである。
次いで、右方向切出プロセスを実行する0この右方向切
出プロセスでは、漢字同士が隣合うという特性を活用し
て、左側矩形が丁べに切り出されて、その隣(右側)の
矩形が未だ切り出されていないものに対し、比較的ゆる
やかな条件で単一矩形と融合矩形に関する構造的切出判
断を行い、切り出された全ての矩形に対し右側に位置す
る漢字矩形を捜し吊子。
出プロセスでは、漢字同士が隣合うという特性を活用し
て、左側矩形が丁べに切り出されて、その隣(右側)の
矩形が未だ切り出されていないものに対し、比較的ゆる
やかな条件で単一矩形と融合矩形に関する構造的切出判
断を行い、切り出された全ての矩形に対し右側に位置す
る漢字矩形を捜し吊子。
切り出しの条件は、
(1) length−3< (融合)矩形の長さく
length−L (2) width −3< (融合)矩形の幅(w
idth−L(3)(融合)矩形と隣の切出矩形との中
心間距離>pitch−8 (4)単一矩形に対して、cam−3<矩形の縦横比<
com−L (5)融合矩形に対して、m1d−3<矩形の縦横比<
m1d−L 上記条件を64足したに強含)矩形が複数個ある場合、
(融合)矩形の幅と漢字の高さとの差が最小のもの、丁
なわち最も正方形に類似したものを選択し、これを切り
吊子。
length−L (2) width −3< (融合)矩形の幅(w
idth−L(3)(融合)矩形と隣の切出矩形との中
心間距離>pitch−8 (4)単一矩形に対して、cam−3<矩形の縦横比<
com−L (5)融合矩形に対して、m1d−3<矩形の縦横比<
m1d−L 上記条件を64足したに強含)矩形が複数個ある場合、
(融合)矩形の幅と漢字の高さとの差が最小のもの、丁
なわち最も正方形に類似したものを選択し、これを切り
吊子。
この後、左方向切出プロセスを実行する。このプロセス
では、右方向切出プロセスと同じ操作を行うが、対象と
なるのは、右側矩形が既に切り出されているが、その叫
(左1ftl+ ’)の矩形が未だ切り出されていない
ものとする。
では、右方向切出プロセスと同じ操作を行うが、対象と
なるのは、右側矩形が既に切り出されているが、その叫
(左1ftl+ ’)の矩形が未だ切り出されていない
ものとする。
このようにして文字列から文字に枠を付けて切り出すが
、文字列の中には最左端の矩形と最右端の矩形が切り出
されないままのものがある。このような謁合には、端点
切出プロセスにより、両端の矩形に対し特殊な処理を施
して、全ての漢字が正確に切り出されるようにするQ 第11図は上記文字切出処理を施した結果を示すもので
ある。
、文字列の中には最左端の矩形と最右端の矩形が切り出
されないままのものがある。このような謁合には、端点
切出プロセスにより、両端の矩形に対し特殊な処理を施
して、全ての漢字が正確に切り出されるようにするQ 第11図は上記文字切出処理を施した結果を示すもので
ある。
この文字切出処理の後、光学文字認識系(Op−tic
al Character Recognition
; OCR)に転送されろ。
al Character Recognition
; OCR)に転送されろ。
前記枠字方法の実用性を確認するため、C言語でPCニ
ーAT で実験したところ次の表に示す結果が得られた
。
ーAT で実験したところ次の表に示す結果が得られた
。
なお、変数値は下記のものを使用した。なお、5ize
は文字列の漢字の高さを表す。
は文字列の漢字の高さを表す。
len −L = 1.25Xsize fen −
5= 0.87Xsisewid−L = 1.15
X 5ize wid−3= 0.83 X 5iz
erat −L = 1.37 rat −8
= 0.751ength −L= 1.35 X s
izelength −S= 0.58 X size
width −L = 1.45 X sizewid
th −S= 0.57 X sizecom −L
= 1.8 com −S = 0.48m
1d −LJ = 1.55 mj d −S
= 0.58pitch −S = 0.95 X
sizecomma = 0.35 X 5ize
dat−L=0.45Xsize dat−3=O
,1Xsizeまた、処理対象は電子発展月刊誌及び他
の雑誌等で、図表、文章(漢字、英数字及び特殊記号が
含まれ、かつ文字間の距離が定まっていないもの)が含
まれたもので、頁数は10頁であった。
5= 0.87Xsisewid−L = 1.15
X 5ize wid−3= 0.83 X 5iz
erat −L = 1.37 rat −8
= 0.751ength −L= 1.35 X s
izelength −S= 0.58 X size
width −L = 1.45 X sizewid
th −S= 0.57 X sizecom −L
= 1.8 com −S = 0.48m
1d −LJ = 1.55 mj d −S
= 0.58pitch −S = 0.95 X
sizecomma = 0.35 X 5ize
dat−L=0.45Xsize dat−3=O
,1Xsizeまた、処理対象は電子発展月刊誌及び他
の雑誌等で、図表、文章(漢字、英数字及び特殊記号が
含まれ、かつ文字間の距離が定まっていないもの)が含
まれたもので、頁数は10頁であった。
表
テスト資料 12345678910総文字数 33
0300220300320220720390460
800誤りた字数 3 2 2 4 3 2
1 12 9 15切出率チ 99. l 99.39
9.198.799,199.199,896.998
.098.1(発明の効果) 以上説明した。J:5に;j’; lの発明によれば、
一次走査ブロック・ラベリング法を採用しているので、
−回の走査で文字列、画像ブロック、図形ブロックを分
離処理でき、効率良くデータベース化を図ることが出来
ろ。また、第2の発明によれば、構造化文字切出法を採
用しているので、文字列から正確に文字に枠を付けて切
り出すことができ、効率良くデータベース化を図ること
が出来ろ。さらに、第3の発明によれば、一次走査ブロ
ック・ラベリング法により文字列、画像ブロック、図形
ブOZIりな分離した後、構造化文字切出法により文字
列から文字に枠を付けて切り出すようにしているので、
ブロック分離に際し時間がかからず、また文字切出しに
際し正確に行え、効率良くデータベース化を図ることが
出来る。
0300220300320220720390460
800誤りた字数 3 2 2 4 3 2
1 12 9 15切出率チ 99. l 99.39
9.198.799,199.199,896.998
.098.1(発明の効果) 以上説明した。J:5に;j’; lの発明によれば、
一次走査ブロック・ラベリング法を採用しているので、
−回の走査で文字列、画像ブロック、図形ブロックを分
離処理でき、効率良くデータベース化を図ることが出来
ろ。また、第2の発明によれば、構造化文字切出法を採
用しているので、文字列から正確に文字に枠を付けて切
り出すことができ、効率良くデータベース化を図ること
が出来ろ。さらに、第3の発明によれば、一次走査ブロ
ック・ラベリング法により文字列、画像ブロック、図形
ブOZIりな分離した後、構造化文字切出法により文字
列から文字に枠を付けて切り出すようにしているので、
ブロック分離に際し時間がかからず、また文字切出しに
際し正確に行え、効率良くデータベース化を図ることが
出来る。
′yJ1図は第3の発明を実施する装置のブロック図、
第2図はブロック分離前のV類を示す図、第3図はブロ
ック分離処理後の書類を示す説明図、第4図は一次走査
ブロック・ラベリング法による処理内容を示すフローチ
ャート、第5図は°“近隣領・戎″の円容乞説明する説
明図、第6図(a) 、 (b)は分析内容(判断の原
則)′?:説明するブロック特性分布図、第7・図は構
造化文字切出法による処理内容を示すフローチャート、
第8図は我(僕)という字をX、Y方回に投影する操作
(矩形抄出プロセス)の説明図、′、■9図(、) 、
(b)は、ある単一矩形の高さの得点状況を示す説明
図とグラフ、第10図は優先切出プロセスで処理された
矩形と属性との対応状況乞示す説明図、第11図は文字
切出処理を施した結果を示す説明図である。 io・・・・光学読取装置、 20・・・・ブロック分離手段、 30・・・・文字切出手段。 第1凹 尾2圀 #、3図 尾5図 毛4関 プロv7建已 第i1凹 水+方I8″1RC 1−1o l−I+ HO川 馨、7凹 雉井蝿i怜Uゑ出 粂8図 秦10凹 子へ 峠 工 ≧ も11凹 ダτう・) 如オpa像一次8別 ’44m1 ロロロロロロ=ロロロロ浄先″7″
口 ローロ 石カ旬177比 胎都社口 口 鳩、!!!旬出 枠害h+ロロロロローロロロ 定弯4姓 110013101 目之量化・以pb化 四ロロ叩ロロロロロロ ロロ ロロ ロ ロ ロ ロロロロロロロn口 + 1 1 1 21001
第2図はブロック分離前のV類を示す図、第3図はブロ
ック分離処理後の書類を示す説明図、第4図は一次走査
ブロック・ラベリング法による処理内容を示すフローチ
ャート、第5図は°“近隣領・戎″の円容乞説明する説
明図、第6図(a) 、 (b)は分析内容(判断の原
則)′?:説明するブロック特性分布図、第7・図は構
造化文字切出法による処理内容を示すフローチャート、
第8図は我(僕)という字をX、Y方回に投影する操作
(矩形抄出プロセス)の説明図、′、■9図(、) 、
(b)は、ある単一矩形の高さの得点状況を示す説明
図とグラフ、第10図は優先切出プロセスで処理された
矩形と属性との対応状況乞示す説明図、第11図は文字
切出処理を施した結果を示す説明図である。 io・・・・光学読取装置、 20・・・・ブロック分離手段、 30・・・・文字切出手段。 第1凹 尾2圀 #、3図 尾5図 毛4関 プロv7建已 第i1凹 水+方I8″1RC 1−1o l−I+ HO川 馨、7凹 雉井蝿i怜Uゑ出 粂8図 秦10凹 子へ 峠 工 ≧ も11凹 ダτう・) 如オpa像一次8別 ’44m1 ロロロロロロ=ロロロロ浄先″7″
口 ローロ 石カ旬177比 胎都社口 口 鳩、!!!旬出 枠害h+ロロロロローロロロ 定弯4姓 110013101 目之量化・以pb化 四ロロ叩ロロロロロロ ロロ ロロ ロ ロ ロ ロロロロロロロn口 + 1 1 1 21001
Claims (3)
- (1)コンピュータに読み込まれた書類の画像データを
、ブロック分離処理法により、文字列(文字ブロック)
、画像ブロック及び図形ブロックに分離し、次いで文字
切出法により、分離された文字列から漢字、英数字及び
句読点記号に枠を付けて切り出す枠字処理方法において
、 前記ブロック分離処理法を、 ビットマップ(bitmap)画像をラン・レングス・
コード(Run Length Code)に変換する
ためのCRLC(Cnstrained Run Le
ngth Code)転換プロセスと、 ラベリング(Labeling)法で、隣接関係にある
CRLCを連続させることにより、一ブロック(独立の
ブロック)として分離するブロック分離プロセスと、 独立したブロックに記録されたCRLCからもとのビッ
トマップ(bitmap)画像における各対応位置(X
、Y)を算出することにより、各ブロックの画像を抽出
する画像抽出プロセスと、ブロックの高さとラン・レン
グス(Run Len−gth)平均値からブロックの
種類を判別するブロック画像種類判別プロセスと、 とからなる一次走査ブロック・ラベリング法により構成
したことを特徴とする枠字処理方法。 - (2)コンピュータに読み込まれた書類の画像データを
、ブロック分離処理法により、文字列(文字ブロック)
、画像ブロック及び図形ブロックに分離し、次いで文字
切出法により、分離された文字列から漢字、英数字及び
句読点記号に枠を付けて切り出す枠字処理方法において
、 前記文字切出法を、 文字列の左右に分離された矩形に枠を付ける矩形捜索プ
ロセスと、 高さ得点法により漢字の高さを求める文字列高さ計算プ
ロセスと、 属性により漢字や句読点を切り出す優先切出プロセスと
、 比較的ゆるやかな条件により、切り出された全ての矩形
の右、あるいは左側に位置する漢字矩形を捜し出す右方
向、左方向切出プロセスとを具備した構造化文字切出法
により構成したことを特徴とする枠字処理方法。 - (3)コンピュータに読み込まれた書類の画像データを
、文字列(文字ブロック)、画像ブロック及び図形ブロ
ックに区分する一次走査ブロック・ラベリングと、前記
文字列から漢字、英数字及び句読点記号に枠を付けて切
り出す構造化文字切出法とを具備し、 前記一次走査ブロック・ラベリング法を、 ビットマップ(bitmap)画像をラン・レングス・
コード(Run Length Code)に変換する
ためのCRLC(Cnstrained Run Le
ngth Code)転換プロセスと、 ラベリング(Labeling)法で、隣接関係にある
CRLCを連続させることにより、一ブロック(独立の
ブロック)として分離するブロック分離プロセスと、 独立したブロックに記録されたCRLCからもとのビッ
トマップ(bitmap)画像おける各対応位置(X、
Y)を算出することにより、各ブロックの画像を抽出す
る画像抽出プロセスと、 ブロックの高さとラン・レングス(Run Len−g
th)平均値からブロックの種類を判別するブロック画
像種類判別プロセスとから構成し、 また、前記構造化文字切出法を、 文字列の左右に分離された矩形に枠を付ける矩形捜索プ
ロセスと、 高さ得点法により漢字の高さを求める文字列高さ計算プ
ロセスと、 属性により漢字や句読点を切り出す優先切出プロセスと
、 比較的ゆるやかな条件により、切り出された全ての矩形
の右、あるいは左側に位置する漢字矩形を捜し出す右方
向、左方向切出プロセスとから構成したことを特徴とす
る枠字処理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63132524A JPH0747333B2 (ja) | 1988-05-30 | 1988-05-30 | 枠字処理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63132524A JPH0747333B2 (ja) | 1988-05-30 | 1988-05-30 | 枠字処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01320171A true JPH01320171A (ja) | 1989-12-26 |
| JPH0747333B2 JPH0747333B2 (ja) | 1995-05-24 |
Family
ID=15083319
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63132524A Expired - Fee Related JPH0747333B2 (ja) | 1988-05-30 | 1988-05-30 | 枠字処理方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0747333B2 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5745683A (en) * | 1980-09-01 | 1982-03-15 | Comput Basic Mach Technol Res Assoc | Character read-in device |
| JPS6132187A (ja) * | 1984-07-19 | 1986-02-14 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 文字認識方式 |
| JPS6165378A (ja) * | 1984-09-06 | 1986-04-03 | Toshiba Corp | 文字図形認識方法及び装置 |
| JPS62224870A (ja) * | 1986-03-26 | 1987-10-02 | Hitachi Ltd | 文書画像処理方法 |
| JPS6378287A (ja) * | 1986-09-22 | 1988-04-08 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
-
1988
- 1988-05-30 JP JP63132524A patent/JPH0747333B2/ja not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5745683A (en) * | 1980-09-01 | 1982-03-15 | Comput Basic Mach Technol Res Assoc | Character read-in device |
| JPS6132187A (ja) * | 1984-07-19 | 1986-02-14 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 文字認識方式 |
| JPS6165378A (ja) * | 1984-09-06 | 1986-04-03 | Toshiba Corp | 文字図形認識方法及び装置 |
| JPS62224870A (ja) * | 1986-03-26 | 1987-10-02 | Hitachi Ltd | 文書画像処理方法 |
| JPS6378287A (ja) * | 1986-09-22 | 1988-04-08 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0747333B2 (ja) | 1995-05-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3253356B2 (ja) | 文書画像の領域識別方法 | |
| Kleber et al. | Cvl-database: An off-line database for writer retrieval, writer identification and word spotting | |
| US5848184A (en) | Document page analyzer and method | |
| JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
| US8565474B2 (en) | Paragraph recognition in an optical character recognition (OCR) process | |
| Xi et al. | A video text detection and recognition system | |
| CN100568263C (zh) | 布局分析设备和布局分析方法 | |
| US20070041642A1 (en) | Post-ocr image segmentation into spatially separated text zones | |
| JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
| CN114495141B (zh) | 文档段落位置提取方法、电子设备及存储介质 | |
| US7929772B2 (en) | Method for generating typographical line | |
| US5455871A (en) | Detecting function words without converting a scanned document to character codes | |
| Mitchell et al. | Newspaper document analysis featuring connected line segmentation | |
| Wang et al. | Block selection: a method for segmenting a page image of various editing styles | |
| JPH1166196A (ja) | 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| Panichkriangkrai et al. | Character segmentation and retrieval for learning support system of Japanese historical books | |
| Stamatopoulos et al. | Page frame detection for double page document images | |
| JPH01320171A (ja) | 枠字処理方法 | |
| Bansal et al. | Segmentation of touching characters in Devanagari | |
| van Heusden et al. | Detection of redacted text in legal documents | |
| JPS6325391B2 (ja) | ||
| Dey et al. | Margin noise removal from printed document images | |
| JP3091278B2 (ja) | 文書認識方式 | |
| JP3187895B2 (ja) | 文字領域抽出方法 | |
| Lehal et al. | A complete OCR system for Gurmukhi script |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |