JPH01320171A

JPH01320171A - 枠字処理方法

Info

Publication number: JPH01320171A
Application number: JP13252488A
Authority: JP
Inventors: Fan Ia-Shuan; イァ−シュアン・ファン; Lin Wen-Wen; ウェン−ウェン・リン
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1988-05-30
Filing date: 1988-05-30
Publication date: 1989-12-26
Anticipated expiration: 2010-05-24
Also published as: JPH0747333B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は枠字処理方法に係り、詳しくは、光学読取装
置で読み取られた書類中の印刷体文字情報をデータベー
ス化する際、これら印刷体文字情報（二値化資料）を、
先ず文字列、画像ブロック、図形ブロックに分離処理し
、次いで文字列中の文字に枠を付けて切り出丁枠字処理
方法に関するものである。

（発明の概要）この発明の枠字処理方法は、一次走査ブロック・ラベリ
ング（○ｎｅ　Ｐａｔｈ　Ｂｌｏｋ　Ｌａｂｅｌｉｎｇ
　）と構造化文字切出法（５ｔｒｕｃｔｖｒｅ　工５ｏ
ｌａｔｉｎ　）を用いて、文字と図形とが併存した情報
、大文字と小文字とが混合した情報、文字間隔が不均一
な文字情報、庚子、英数字及び一般記号からなる情報等
、印刷体文字情報を、自動的にブロックに分離し、次い
で文字列の中の文字に枠を付けて切り出すことにより、
効率良（データベース化するものである。

（従来の技術）コンピユータ化が進んだ今日では、書類中の文章（Ｔｅ
ｘｔ　）、画像（Ｉｍａｇｅ　）、図形（Ｇｒａｐｈｉ
ｃ　）等の情報を、如何に効率良くデータベース化する
かが要求されている。

このため、書類中の文字、画像、図形等の情報を自動的
に区分し、それぞれを適白な技術で処理することにより
、データの蓄積量を縮小することが書類分析システム上
重要となりている。また、枠を付けた文章の部分に対し
、如何に正しく文字や記号の領域を切り出して、認識分
析のために光学文字認識系（０ｐｔｉｃａｌ　Ｃｈａｒ
ａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ　：０ＣＲ）に転
送することも同様に重要となっている〇一般に、文字、画像、図形情報を自動的に区分するのは
、ブロック分離処理の範晴にＰＡするが、枠を付けた文
字列から文字や記号を切り出すのは、文字切り出し処理
の範驕に属する。これらを枠字処■里と称している。

この枠字処理の目的は、処理対象を区分することてあり
、これは四類分析ノステムにおいてｌである。これまで
のブロック分離処理技術とじては、次のものが知られて
いる０（１）　　射影法（Ｈｉｓｔｏｇｒａｍ）　；　Ａｖｉ
ｎａｓｈ　Ｋａｋ　ａｎｄＡｚｒｉｅｌ　Ｒａａｅｎｆ
ｅｌｄ″Ｄｉｇｉｔａｌ　Ｐｉｃｔｕｒｅ　Ｐｒｏｃｅ
−ｓｓｉｎｇ′参照。

（２）膨張、収縮法（ＥｘｐＡｎｓｉｏｎ　ａｎｄ　Ｓ
ｈｒｉｎｋｉｎｇ）；中村、武家、開本、南”ミックス
モー通信のための文字領域の抽出アルゴリズム”信学論
（Ｄ）　Ｊ６７−Ｄ、朧ｔｔ　、　ＰＰ　１２７７〜１
２８４　（１９８４）及び秋田、内藤、増田６縦・横書
き文字からの個別文字切り出し法″信技゛報、ＰＲＬ−
８３−７，ＰＰ４９〜５６　（ｔ９８３　）参照。

（３）　　Ｃｏｎ５ｔｒａｉｎｔ　Ｒｕｎ　Ｌｅｎｇｔ
法（以下、ＣＲＬと略記するＯ　　）　；　Ｆ、　Ｍ、
　Ｙｅａ　、　Ｒ，Ｓ、　　Ｃａ５ｅｙ　；Ｂｌｏｃｋ
　Ｓｅｇｍｅｎｔａｔｉｏｎ　ａｎｄ　Ｔｅｘｔ　Ｅｘ
ｔｒａｃｔｉｏｎｉｎ　Ｍｉｘｅｄ　Ｔｅｘｔ　／　Ｉ
ｍａｇｅ　Ｄｏｃｕｍｅｎｔｓ　”　＋　Ｃｏｍ−ｐｕ
ｔｅｒ　Ｇｒａｐｈｉｃ　＆　Ｉｍａｇｅ　ｐｒｏｃｅ
ｓｓｉｎｇ　ｔ　２０　ｒＰＰ３７５〜３９０（１９８
２）参照。

（４）小領域分離法；　Ｎ、Ｈ，Ｙｅａ　、　Ｒ，Ｓ、
　Ｌｅｕａｎｄ　’Ｇ、Ｈ，Ｌｉｎ″ＣＨＡＲＡＣＴＥ
ＲＲＥＣＯＧＮＩ−ＴＩＯＮ　ＢｙＬ　ＢＯＡＲＤ　Ｏ
ＣＲＲＡＲＴ　：　ＴＲＡｌＮ５ＥＰＡＲＡＴＩＯＮ　
＆ＣＨＡＲＡＣ：ＴＥＲＥＸＴＲＡＧＴニー○Ｎ″＋　
Ｐｒｏｃｅｅｄｉｎｇ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎ
ａｌ　ＣｏｍｐｕｔｅｒＢｙｍｐｏｓｉｕｍ’　＊　Ｄ
ｅｃｅｍｂｅｒ　ｌ　７−１９　ｒ　ＰＰ　ｌ　２９〜
１３７　（１９８６）参照０（発明が解決しようとする課題）しかしながら、上記（１）〜（４）のブロック分離処理
技術には、いずれも一長一短があり、満足すべきもので
はなかった。

すなわち、（１）　　射影法（Ｈｉｓｔｏｇｒａｍ　）
では、処理速度が速い反面、文字資料等が傾斜している
記録紙、又は文章と図形とが併存している記録紙には適
用できない問題があった。

また、（２）膨張、収縮法及び＋３）　ＣＲＬ法では、
複雑な書類の処理が可能である反面、処理速度が遅く、
ｊ彫犬な画像演算スペースが必要となる問題があった０また、（４）小領域分離法では、処理速度が速く、文字
資料等が傾斜していても処理出来る反面、入力記録紙の
フオームが制限され、しかも文章と図形とが併存した記
録紙には適用出来ない問題がありた０この発明は上記従来技術の問題点を解消するもので、そ
の目的とするところは、文章資料等が傾斜して処理出来
ない問題や、複雑な書類の処理が出来ない問題等をなく
して、効率良くデータデース化出来る枠字処理方法を提
供することである０（課題を解決するだめの手段）第１の発明では、コンピュータに読み込まれた書類の画
像データを、ブロック分離処理法により、文字列（文字
ブロック）、画像ブロック及び図形ブロックに分離し、
次いで文字切出法により、分離された文字列から漢字、
英数字及び句読点記号に枠を付けて切り出す枠字処理方
法において、前記ブロック分離処理法を、ビットマツプ
（ｂｉｔｍａｐ）画像ヲラン・レングス・コード（Ｒｕ
ｎ　ＬｅｎｇｔｈＣＯａｅ）＜変換するためのＣＲＬＣ
（ＣｎｓｔｒａｉｎｅｄＲｕｎ　Ｌ＋ｅｎｇｔｈ　Ｃｏ
ｄｅ　）転換プロセスと、ラベリング（Ｌａｂｅｌｉｎ
ｇ　）法で、隣接関係にあるＧＲＬＣ：を連続させるこ
とにより、−ブロック（独立のブロック）として分離す
るブロック分離プロセスと、独立したブロックに記録さ
れたＣＲＬＣからもとのビットマツプ（ｂｉｔｍａｐ）
画像おけろ各対応位置（Ｘ、Ｙ）を算出することにより
、各ブロックの画（＆’？：抽出する画像抽出プロセス
と、ブロックの１とラン・レングス（Ｒｕｎ　Ｌｅｎｇ
ｔｈ　）平均値からブロックの種類を判別するブロック
画像種類判別プロセスとからなる一次走査ブロック・ラ
ベリング法により構成したことを特徴としている。

また、第２の発明では、前記文字切出法を、文字列の左
右に分離された矩形に枠を付ける矩形捜索プロセスと、
高さ得点法により漢字の高さを求めろ文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出
プロセスと、比較的ゆるやかな条件により、切り出され
た全ての矩形の右、あるいは左側に位置する漢字矩形を
捜し出す右方向、左方向切出プロセスとを具備した構造
化文字切出法により構成したことを特徴としている０また、第３の発明では、前記一次走査ブロック・ラベリ
ング法により、コンピュータに読み込まれた書類の画像
データを、文字列（文字ブロック）、画像ブロック及び
図形ブロックに分離処理し、次いで前記構造化文字切出
法により、分離された文字列から漢字、英数字及び句読
点記号に枠を付けて切り出すことを特徴としている。

この発明で「ラン（Ｒｕｎ）Ｊとは、画像列が一段で連
続した状態の黒（又は白）色の画素をいう。

また、「ラン・レングス・コード（Ｒｕｎ　Ｌｅｎｇｔ
ｈＣｏｄｅ）Ｊとは、ＩＩ　Ｒｕｎ　１１始点位置と長
さを持つデータコードをいう。

頂だ、［コンストレインド・ラン（Ｃｏｎ５ｔｒａｔｎ
−ｅｄ　Ｒｕｎ　）Ｊとは、水平距離がある定数よりも
小さい”Ｒｕｎ５”をいう。

また、「コンストレインド・ラン・コード（Ｃｏｎｓｔ
ｒａｉｎｅｄ　Ｒｕｎ　Ｃｏｄｅ　）Ｊとは、”　Ｃｏ
ｎ５ｔｒａｉｎ　−ｅｄＲｕｎ”の中に最左端の始点位
置と総長度を持つデータコードをいう。

（発明の作用）この発明では、記録紙の記録内容が傾斜したり、あるい
は文章と図形とが併存したりすると適用出来ない問題を
解決するため、従来のＣ３Ｌ法を改良した一次走査ブロ
ック・ラベリングと称するブロック分離方法を採用して
いる。これにより、−回訓像平面を走歪するだけで全て
のブロックを捜し出して変換することが出来る。すなわ
ち、三つの画像平面　（元の画像平面、水平拡張平面及
び垂直拡張平面）を必要とし、そしてこの画像平面を複
数回走査しなければならなかったのを、元の画像平面を
一回走査するだけで済むようにしている。

このため、処理速度を速くすることか出来る。

また、文字切出処理については、通常、射影法により各
文字の外枠矩形を捜し出すが、文章の中に漢字、英文字
の共存している場合には漢字、英文字の矩形判定を行う
必要がある。この文字切出処理を困難にしている原因と
しては、次のものが考えられる。

（１）　　ピッチ（Ｐｉｔｃｈ）が一致していないこと
による。ｊなわち、印刷体文字の字形中のピッチが不一
致のため、ピッチな標漁として自動的に文字切出処理を
行うことが出来ない。

（２）　　ノイズ干渉による。丁なわち、紙面上の汚点
がノイズを引き起こ丁可能性がある０（３）文字の分離による。例えば、双矩形構造の゛”引
″が”弓″、“１”という二文字として切り出される可
能性がある０（４）文字の接触による。例えば、”我（僕）″と°“
イが、（君）″との二文字が活字で印刷された場合には
、字間のスペースが小さ丁ぎるので、単一文字として切
り出される可能性がある。

この発明では、文字切出処理に使用する判断パラメータ
が全部入力記録紙から抽出するとの原則に基づき、“構
造化文字切出法”により矩形の属性（漢字又は英文字）
を判断する方法を採用することで、上述の文字切出処理
に伴う困難さを解消して、正確に文字切り出しを行うこ
とが出来る。

（実施例）以下この発明の一実施例を図面を参照して詳細に説明す
る。

第３の発明は第１の発明の特徴部分であるブロック分離
処理法と第２の発明の特徴部分である文字切出法とを組
み合わせたものである。そこで、以下の実施例では、＠
３の発明について詳細に説明する０第１、第２の発明に
ついての説明は、第３の発明を説明する過程で行う。

２ｇ１図は第３の発明の文字、画像、図形情報等の処理
方法を実行する装置を示すブロック図である。図中符号
ＩＯは光学読取装置、２０は一次走査ブロック・ラベリ
ング法によりブロック分離するブロック分離手段、３０
は構造化文字切出法により文字切出処理する文字切出手
段である。

光学読取装置１０により書類を走査して、書類の画像デ
ータである文字、画像、図形情報等の印刷体文字情報を
読み取って入力し、この入力データ（二値化資料）をブ
ロック分離手段２０により文字列（文字ブロック）、画
像ブロック及び図形ブロックに分離し、次いで文字切出
手段２０により前記ブロック分離手段２０で分離された
文字列の中の文字を切り出す。

第２図は普通の書類で、文字列（文字ブロック）、ハー
フトーン（Ｈａｌ　ｆ　ｔｏｎｅ　）画像、及び＠線図
形が含まれている。光学読取装置１０によりこの書類の
画像データを読み取って、ブロック分離手段２０で処理
すると、第３図に示すように、文字列、画像ブロック、
図形ブロックに分離される０このプ０７り分離には、次
のような特性がある。

（１）白い影の部分はブロック分離の主な個所でである
。

（２）同じブロック内の余白距離が小さい。

（３）異なるブロック間の余白距離が大きい。

ここで、一次走査ブロック・ラベリング法の基本原理は
次の通りである。

（１）　　ビットマツプ（ｂ　ｉｔｍａｐ　）画像をラ
ン・レングス・コード（Ｒｕｎ　Ｌｅｎｇｔｈ　にｏｄ
ｅ　）に変換する０（２）近隣の領域関係により近距離にある”Ｒｕｎ”を
同一ブロックにラベリングする。

（３）成るブロックの近隣のＲｕｎｌ＋　　が存在しな
くなれば、このブロックを独立ブロックとする０（４）独立ブロック内の全てのＲｕｎ”　　をビットマ
ツプ（ｂｉｔｍａｐ　）画像に戻して、ブロックの属性
（文字列、画像ブロック、図形ブロック）を決定する。

この一次操作ブロック・ラベリング法では、画面に対し
一回の走査を施丁ことにより、上記（１）〜（４）の操
作が実行されて、全てのブロックを分離することが出来
ろ。

２ｇ４図は、ブロック分離子Ｉ！ｉ２０で実行されろ一
次走査ブロック・ラベリング法による処理内容を示すフ
ローチャートである。

まず、ＣＲＬＣ（Ｃｏｎｓｔｒａｉｎｅｄ　Ｒｕｎ　Ｌ
ｅｎｇｔｈＣｏｄｅ　）転換プロセスで、文字読取装置
１０で読みＲ１ッたビットマツプ（ｂｉｔｍａｐ）画像
をＣＲＬｃ　ｆ：換する。丁なわち、データ丁貨ｔの多
いビットマツプ。

（ｂｉｔｍａｐ　）画像を、各Ｃｏｎ５ｔｒａｉｎｅｄ
　）ｆｕｎの開始位置と終了位置の値だけが記録された
（、ＲＬＣに変換して、データ量を減らす。

このよ５に、ＣＲＬＣを採用てるのは、水平方向への局
部的な拡張効果を発生させろためである。

ここで、定’；ｔＩ　ＣＨの選定は棒列結果の良否に太
きな影響を与えるので、適切な値に設定する必要がある
。ｊなわち、定数ｃｈが太きすぎると、”局部的′°な
拡張効果の意義が無くなり、傾斜角を持つ二つのブロッ
クがＭなり合ってしヱう０また、定数ｃｈが小さ丁ぎる
と、拡張効果が得られないのみならず、ブロック分離時
のデータ処理量を増大させてしヱう〇次に、ブロック分離プロセスで、ラベリング（Ｌａｂｅ
ｌｉｎｇ　）の方法を採用して隣接関係にあるＣＲＬＣ
を連続させることにより、−ブロックの位置を得ろ（独
立のブロックに分離する）Ｑここで、ラベリング（Ｌａ
ｂｅ　ｌ　ｉｎｇ　）の方法を説明するＱまず、Ｃｏｎ５ｔｒａｉｎｅｄ　Ｒｕｎの“近隣領域″
′の内容について説明する０この６近隣領域”は、第５
図に示すように、Ｃｏｎ５ｔｒａｉｎｅｄ　Ｒｕｎ　（
同図中の黒色部分）から拡張された部分、すなわち点線
で囲まれた部分をいう。そして、この近隣領域と接した
ブロックを、このＲｕｎの近隣ブロックという。なお、
同図中ＸＧＡＰは水平拡張量、Ｙ　ＧＡＰは垂直拡張が
である。

次に処理手順について説明する。

Ｉ、　　ＣＲＬＣ（Ｓｔａｒｔｉｎｇ　Ｘ、　Ｌｅｎｇ
ｔｈ　）　？　（Ｓｔａ　−ｒｔｉｎｇＸ、　ｅｎｄｉ
ｎｇＸ　）に転換する。

ＴＩ、　　（ａ）既に存在していたブロックの中からＲ
ｕｎの近隣ブロックを捜し出して記録する。

（ｂ）既に存在した近隣ブロック以外の全てのブロック
を記録する０１１Ｌ　　（Ｃａ５ｅ　ｌ　）上記Ｒｕ　ｎに近隣ブロックがない場合には、核Ｒｕｎ
’ｔ　　”）（Ｄ新しいブロックに組み入れろ。

（Ｃａ５ｅ　２　）上記Ｒｕｎに近隣ブロックがある場合には、該Ｒｕｎを
最も高い近隣ブロックＭに組み入れる。そして、この近
隣ブロックＭのｌ？ＲＬｃを、残りの近隣ブロックで１
粂正して形成した新ブロックＭが、全ての近隣ブロック
と連続関係をもつようＩＩｃする。

■、既に存在した近隣ブロック以外の全てのブロックを
チエツクし、どの新近隣ブロックとも接する可能性がな
ければ、ブロックの０ＲＬＣデータを、独立データとし
て次の仕事ユニットに回丁Ｏ ■、新ＣＲＬＣ；を読み取り、走査が終わるまで、上記
１〜■の作業を繰り返す０以上の処理手順から明らかなように、ラベリング（Ｌａ
ｂｅ　ｌ　ｉｎｇ　）の方法は、６近隣ブロツク″゛の
定義に基づき、縦、横方向への局部的な拡張を行わせる
ことにより、ＣＲＬＣＯ不足を補うと共に、ＧＲＬＣの
密集領域（集合領域）を独立ブロックとして分離するも
のである。

上記ラベリング（Ｌａｂｅ　１　ｉｎｇ　）の方法によ
る処理の後、画像抽出プロセスにより、独立ブロックに
記録されたＣＲＬＣから元のビットマツプ（ｂｉｔｍａ
ｐ）画像における各対応位置（Ｘ、Ｙ）を算出して、−
個のブロックの画像を抽出する。

この後、画像種類判別プロセスにより、各ブロックの画
像の種類（文字、画像、図形）の分析を行う。丁なわち
、文字列、画像ブロック又は図形ブロックに分離する。

ここでの分析の重点は、これまで得られたブロックが文
字列であるか否かを判断することであるが、この分析結
果から直線、幾何図形及びハーフトーン（Ｈａｌｆｔｏ
ｎ　）図等を判断することも出来る。

この分析には、ブロックの高さ（Ｈ）データと、走を方
向上の０平均ストロ一ク幅″〔又は”平均Ｒｕｎ　Ｌｅ
ｎｇｔｈ　”値（ＲＬ））データが使用さレル。

ここで、ＲＣ＝走肴方回上の黒画系の認相／走査方回上
のＣｒｏｓｓｉｎｇ　ＣｏｕｎｔであるｏＣｒｏｓｓｉ
ｎｇＣｏｕｎｔは、走査方向上で画素が白から黒に転換
された回数の様相をいう。

次に、分析内容（判断の原則）を第６図（ａ）、（ｂ）
を参服して説明する。

なお、ＨＯ＝文字の可能な最大高さＨｌ　工文字例の可能な最大高さ＝ＨＯ＋ｌ頃斜の最大偏差＝　ＨＯ＋Ｗ　Ｘ　ＳＩＮ　（認メラｔｔ口最犬）傾斜
角）Ｗ　＝ブロックの幅ＴＨＬ＝ハ−フトーｙ　（Ｈａｌｆ　ｔｏｎ　）　　図
形、幾何学図形又は縦方向を区分出来ろ平均Ｒｕｎ　Ｌｅｎｇｔｈの実験値ＴＨ２＝横方向直線、文字列又は短い縦線を区分出来ろ
平均Ｒｕｎ　Ｌｅｎｇｔｈの実験値ＴＨ３＝垂直方向か
ら文字列又は短い縦線を区分出来る平均Ｒｕｎ　Ｌｅｎ
ｇｔｈの実験値ＴＨ４＝垂直方向から幾何学図形又は縦
方向ｉｆ線を区分出来る平均Ｒｕｎ　Ｌｅｎｇｔｈの実
験値である。

まず、ブロックの高さから判断して、次の二群に分ける
。

（１）　　高さが文字例の″範囲を越えたもの（Ｆ（Ｏ
＞Ｍｌ）。

これは幾何学図形、ＦｌｆｆＡ又はハーフトーン（Ｈａ
ｌｆｔｏｎ）図の何れかであると判断することが出来ろ
。

ここで、水平方向の平均ストｏ−り幅から判断すれば、
１ｉ６の大きいもの（水平方向上のＲＣ＞ＴＨＩ）は、
ハーフト−７（Ｈａｌｆ　ｔｏｎ　）図である。また、
垂直方向の平均ストローク幅から判断丁れば、幅の大き
いもの（垂直方向のＲＧ＞ＴＨ３）は、縦線である。そ
して、残るものが幾何学図形である。

（２）高さが文字列の範囲内にあるもの（ＨＯ≧Ｈ１）
。

これは文字列又は横線の一種であると判断することが出
来る。この外、高さが文字列のそれに和尚したため混同
されるものもある。ごく少数の短い縦線、小さい幾何学
図形又はハーフトーン（Ｈａｌｆｔｏｎ）　図等がこれ
に該当する。

ここで、水平方向の平均ストローク幅から判断すれば、
幅の大きいもの（水平方向上のＲｅ＞Ｔ）Ｉ２）は、横
線又はこの群に入れられたハーフトーン（Ｈａｌｆｔｏ
ｎ）　　図である。また、垂直方向の平均ストローク１
１Ｇから判断丁れば、幅の太きいもの（垂直方向のＲｅ
）ＴＨ４）は、　この群に入れられた縦線である。そし
て、残るものが文字列である。なお、例外として、文字
列又は小さくて、高さが文字列のそれに和尚した幾何学
園形であって、はっきり区分できないものは、次の文字
切出処理に回された後、各部の長さと幅との比により、
文字か否かの判断がなされる。

このようにして文字列が分離されると、文字列が文字切
出手段３０に送られ、ここで構造化文字切出法による文
字切出処理が施されろ。次に、この文字切出処理の内容
について説明する。

文字切出処理の目的は、分離された各文字列毎に、文字
（漢字、英数字）及び記号（句読点記号、特殊記号）に
それぞれ矩形枠を付けることにある。

例えば、ル・□　川　Ｑ　ように枠を付けることにある
０この場合、直接、射影法を採用すると、次の問題がある
。丁なわち、英数字及び一般記号の矩形は単一の矩形に
属するが、漢字の矩形は数（１個〜ｓ　ｉ［！ｉｆ　）
が一定しない。このため、単一の矩形が漢字の条件を満
足するか、否かを調べないと、漢字に正しく枠を付ける
ことが出来ない。また、複数個の矩形につき、矩形を融
合させて、融合した矩形が漢字制限の条件に合致するか
、否かを凋べろ。合致した場合には、矩形中に入ったも
のが漢字であることを示しているため、矩形の融合物件
を停止しなければならない。これをしないと、融合した
矩形が制限を越えるまで融合動作を絖けてしまり。

ところで、統計によると、漢字には次のような特性を具
えていることが分かる。

（１）　　５４０１個の常用漢字の中に、単一矩形構造
に属するものが８７チ、双矩形構造に属するものが１１
％、このいずれにも属さないものが２チ占めている。

（２）漢字は一般に四方字形上・を造乞呈し１、その縦
横比は普；ｊ！１１：　ｔであるが、単一構造の漢字は
縦横比の変化が大きく、例えば“°日″は１．６　：　
１、”　ＪＩＩＩ　”は０．７７　：　ｌである。なお
、双矩形以上の構造の漢字は比較的安定で、９８％のも
のは縦横比が０．９　：　ｌ〜１．１　：　ｌの間にあ
る。

（３）漢字は続けて出現する（漢字同士が常に隣合う）
。

この発明のイ１１η造化文字切出法は、このような漢字
の特性を取り入れて、上述の問題が生じることなく文字
列中の文字に枠を付けて切り出しを行うようにしたもの
である。基本的な内容は次の通りである。すなわち、（１）マず、全ての単一矩形構造の特性を調べて、厳し
い判断条件に合致した漢字矩形を切り出す。

（２）漢字同士が常に隣合う特性に基づき、左右に切り
出されるものがあってその間にものが未だ切り出されて
いない場合には、緩めの条件で単一矩形及び融合矩形の
判断を行う。

（３）全ての漢字が切り出された後、残って切り出され
ていないものは、英数字又は記号とする。

第７図は文字切出手段３０で実行される処理内容を示す
フローチャートである。

まず、矩形捜索プロセスでは、文字列中の全ての左右に
分離された矩形に枠を付ける。これは次のようにして行
う。

（１）　　水平軸（Ｘ）における画像の投影から矩形左
右端の位置を探り（第８図のＸｉ　ｒ　Ｘ２を参照）、
矩形の水平方向の位置を捜し出す。

（２）各矩形の左右端部の領域内の画像の垂直軸（Ｙ）
への投影から矩形上下端の位置を探り（同図のＹｌ、Ｙ
２を参照）、矩形の垂直方向の位置を披し吊子。

次に、文字列中の漢字の高さを算出する。これを行うの
は、矩形が漢字字形に合致するか、否かを判断するパラ
メータが全部漢字の高さに関係するからである。話さ得
点法により、文字列の高さを計メｒする場合の原則は次
の通りである。

（１）ある高さｈが発生した時、ｈとその前後領域は対
応した高さ得点に対し、影響を与えるＱ（２）漢字の矩
形が英数字の矩形よりも大きいといつＱｆ性で漢字の得
点比重を増大させる。

（３）−文字列の中の最大得点の高さを漢字の高さとす
る。

第９図（ａ）　、　（ｂ）は、ある単一矩形の高さの得
点状況を示している。同図に示すように、文字列の高さ
は、該文字列におけろ全ての矩形高さの得点から統計し
たものである。

次に、使先切出プロセスを実行する。この優先切出プロ
セスでは、単一矩形を処理し、三種類の安定で誤りの発
生し難い漢字及び句読点記号を切り出すと共に、それぞ
れに表示の属性を与える。

第１類は、きちとした漢字であり、属性を１とする。

切り出し条件は、（１）　　１ｅｎ−３＜矩形の長さ　＜ｔｅｎ−Ｌ（２
）ｗｉｄ−３＜矩形の幅　　（ｗｉｄ−Ｌ（３）　　ｒ
ａｔ−３＜矩形の縦横比＜ｒａｔ−Ｌ（４）左右矩形と
の間隔＞ｂｎｋとする。

第２類は、読点（、）コンマ（１）、句点（ｏ）であり
、属性を２とする〇切り出し条件は、（１）左右矩形との間隔＞Ｃｏｍｍａ（２）　　ｄａｔ−８＜矩形の長さ、幅（ｄａｔ−Ｌと
する〇第３類は“−″、″、′＝′”であり、属性を３とする
。

切り出し争注は、（１）ｄａｔ−３＜矩形の長さく　（ｄａｔ−３＋　ｄ
ａｔ−Ｌ）　＞　　１（２）矩形の幅＜ｗｉｄ−３とする〇ここで、ｔｅｎ−３は、きちんとした漢字の許容され得
る最小矩形の長さ、１ｅｎ−Ｌは、きちんとした漢字の許容され得る最大矩
形の長さ、ｗｉｄ−３は、きちんとした漢字の許容され得る最小矩
形の幅、ｗｉｄ−Ｌは、きちんとした漢字の許容され得る最大矩
形の幅、ｒａｔ−３は、さちんとした漢字の許容され得る最小矩
形の縦横比、ｒａｔ−Ｌは、きちんとした漢字の許容され得る最大矩
形の縦横比、Ｃｏｍｍａは、句、読点等矩形及び左右矩形の許容され
得る最小矩形の長さ、ｄａｔ−８は、句、読点等矩形の許容され得ろ最小矩形
の長さ、ｄａｔ−Ｌは、句、読点等矩形の許容され得る最大矩形
の長さ、ｂｎｋ　　　は、二漢字間の距離、即ち余白の幅をいう。

第１０図は、上記優先切出プロセスで処理された矩形と
属性との対応状況を示すものである。

次いで、右方向切出プロセスを実行する０この右方向切
出プロセスでは、漢字同士が隣合うという特性を活用し
て、左側矩形が丁べに切り出されて、その隣（右側）の
矩形が未だ切り出されていないものに対し、比較的ゆる
やかな条件で単一矩形と融合矩形に関する構造的切出判
断を行い、切り出された全ての矩形に対し右側に位置す
る漢字矩形を捜し吊子。

切り出しの条件は、（１）　　ｌｅｎｇｔｈ−３＜　（融合）矩形の長さく
　ｌｅｎｇｔｈ−Ｌ（２）　　ｗｉｄｔｈ　−３＜　（融合）矩形の幅（ｗ
ｉｄｔｈ−Ｌ（３）（融合）矩形と隣の切出矩形との中
心間距離＞ｐｉｔｃｈ−８（４）単一矩形に対して、ｃａｍ−３＜矩形の縦横比＜
ｃｏｍ−Ｌ（５）融合矩形に対して、ｍ１ｄ−３＜矩形の縦横比＜
ｍ１ｄ−Ｌ上記条件を６４足したに強含）矩形が複数個ある場合、
（融合）矩形の幅と漢字の高さとの差が最小のもの、丁
なわち最も正方形に類似したものを選択し、これを切り
吊子。

この後、左方向切出プロセスを実行する。このプロセス
では、右方向切出プロセスと同じ操作を行うが、対象と
なるのは、右側矩形が既に切り出されているが、その叫
（左１ｆｔｌ＋　’）の矩形が未だ切り出されていない
ものとする。

このようにして文字列から文字に枠を付けて切り出すが
、文字列の中には最左端の矩形と最右端の矩形が切り出
されないままのものがある。このような謁合には、端点
切出プロセスにより、両端の矩形に対し特殊な処理を施
して、全ての漢字が正確に切り出されるようにするＱ第１１図は上記文字切出処理を施した結果を示すもので
ある。

この文字切出処理の後、光学文字認識系（Ｏｐ−ｔｉｃ
ａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ　
；　ＯＣＲ）に転送されろ。

前記枠字方法の実用性を確認するため、Ｃ言語でＰＣニ
ーＡＴ　で実験したところ次の表に示す結果が得られた
。

なお、変数値は下記のものを使用した。なお、５ｉｚｅ
は文字列の漢字の高さを表す。

ｌｅｎ　−Ｌ　＝　１．２５Ｘｓｉｚｅ　　ｆｅｎ　−
５＝　０．８７Ｘｓｉｓｅｗｉｄ−Ｌ　＝　１．１５　
Ｘ　５ｉｚｅ　　ｗｉｄ−３＝　０．８３　Ｘ　５ｉｚ
ｅｒａｔ　−Ｌ　＝　１．３７　　　　　ｒａｔ　−８
＝　０．７５１ｅｎｇｔｈ　−Ｌ＝　１．３５　Ｘ　ｓ
ｉｚｅｌｅｎｇｔｈ　−Ｓ＝　０．５８　Ｘ　ｓｉｚｅ
ｗｉｄｔｈ　−Ｌ　＝　１．４５　Ｘ　ｓｉｚｅｗｉｄ
ｔｈ　−Ｓ＝　０．５７　Ｘ　ｓｉｚｅｃｏｍ　−Ｌ　
　＝　１．８　　　　　ｃｏｍ　−Ｓ　＝　０．４８ｍ
１ｄ　−ＬＪ　　＝　１．５５　　　　ｍｊ　ｄ　−Ｓ
　＝　０．５８ｐｉｔｃｈ　−Ｓ　＝　０．９５　Ｘ　
ｓｉｚｅｃｏｍｍａ　　＝　　０．３５　Ｘ　５ｉｚｅ
ｄａｔ−Ｌ＝０．４５Ｘｓｉｚｅ　　　ｄａｔ−３＝Ｏ
，１Ｘｓｉｚｅまた、処理対象は電子発展月刊誌及び他
の雑誌等で、図表、文章（漢字、英数字及び特殊記号が
含まれ、かつ文字間の距離が定まっていないもの）が含
まれたもので、頁数は１０頁であった。

表テスト資料　　１２３４５６７８９１０総文字数　３３
０３００２２０３００３２０２２０７２０３９０４６０
８００誤りた字数　　３　　２　２　　４　　３　２　
１　１２　９　１５切出率チ　９９．　ｌ　９９．３９
９．１９８．７９９，１９９．１９９，８９６．９９８
．０９８．１（発明の効果）以上説明した。Ｊ：５に；ｊ’；　ｌの発明によれば、
一次走査ブロック・ラベリング法を採用しているので、
−回の走査で文字列、画像ブロック、図形ブロックを分
離処理でき、効率良くデータベース化を図ることが出来
ろ。また、第２の発明によれば、構造化文字切出法を採
用しているので、文字列から正確に文字に枠を付けて切
り出すことができ、効率良くデータベース化を図ること
が出来ろ。さらに、第３の発明によれば、一次走査ブロ
ック・ラベリング法により文字列、画像ブロック、図形
ブＯＺＩりな分離した後、構造化文字切出法により文字
列から文字に枠を付けて切り出すようにしているので、
ブロック分離に際し時間がかからず、また文字切出しに
際し正確に行え、効率良くデータベース化を図ることが
出来る。

【図面の簡単な説明】

′ｙＪ１図は第３の発明を実施する装置のブロック図、
第２図はブロック分離前のＶ類を示す図、第３図はブロ
ック分離処理後の書類を示す説明図、第４図は一次走査
ブロック・ラベリング法による処理内容を示すフローチ
ャート、第５図は°“近隣領・戎″の円容乞説明する説
明図、第６図（ａ）　、　（ｂ）は分析内容（判断の原
則）′？：説明するブロック特性分布図、第７・図は構
造化文字切出法による処理内容を示すフローチャート、
第８図は我（僕）という字をＸ、Ｙ方回に投影する操作
（矩形抄出プロセス）の説明図、′、■９図（、）　、
　（ｂ）は、ある単一矩形の高さの得点状況を示す説明
図とグラフ、第１０図は優先切出プロセスで処理された
矩形と属性との対応状況乞示す説明図、第１１図は文字
切出処理を施した結果を示す説明図である。ｉｏ・・・・光学読取装置、２０・・・・ブロック分離手段、３０・・・・文字切出手段。第１凹尾２圀　　　　　　　　＃、３図尾５図毛４関プロｖ７建已第ｉ１凹水＋方Ｉ８″１ＲＣ１−１ｏ　　ｌ−Ｉ＋ＨＯ川馨、７凹雉井蝿ｉ怜Ｕゑ出粂８図秦１０凹子へ峠工　≧ も１１凹ダτう・）　如オｐａ像一次８別 ’４４ｍ１　　ロロロロロロ＝ロロロロ浄先″７″　　
口　ローロ石カ旬１７７比胎都社口　　　口鳩、！！！旬出枠害ｈ＋ロロロロローロロロ定弯４姓　１１００１３１０１目之量化・以ｐｂ化四ロロ叩ロロロロロロロロ　ロロロロロロロロロロロロｎ口＋　　１　１　１　２１００１

Claims

【特許請求の範囲】

（１）コンピュータに読み込まれた書類の画像データを
、ブロック分離処理法により、文字列（文字ブロック）
、画像ブロック及び図形ブロックに分離し、次いで文字
切出法により、分離された文字列から漢字、英数字及び
句読点記号に枠を付けて切り出す枠字処理方法において
、前記ブロック分離処理法を、ビットマップ（ｂｉｔｍａｐ）画像をラン・レングス・
コード（Ｒｕｎ　Ｌｅｎｇｔｈ　Ｃｏｄｅ）に変換する
ためのＣＲＬＣ（Ｃｎｓｔｒａｉｎｅｄ　Ｒｕｎ　Ｌｅ
ｎｇｔｈ　Ｃｏｄｅ）転換プロセスと、ラベリング（Ｌａｂｅｌｉｎｇ）法で、隣接関係にある
ＣＲＬＣを連続させることにより、一ブロック（独立の
ブロック）として分離するブロック分離プロセスと、独立したブロックに記録されたＣＲＬＣからもとのビッ
トマップ（ｂｉｔｍａｐ）画像における各対応位置（Ｘ
、Ｙ）を算出することにより、各ブロックの画像を抽出
する画像抽出プロセスと、ブロックの高さとラン・レン
グス（Ｒｕｎ　Ｌｅｎ−ｇｔｈ）平均値からブロックの
種類を判別するブロック画像種類判別プロセスと、とからなる一次走査ブロック・ラベリング法により構成
したことを特徴とする枠字処理方法。
（２）コンピュータに読み込まれた書類の画像データを
、ブロック分離処理法により、文字列（文字ブロック）
、画像ブロック及び図形ブロックに分離し、次いで文字
切出法により、分離された文字列から漢字、英数字及び
句読点記号に枠を付けて切り出す枠字処理方法において
、前記文字切出法を、文字列の左右に分離された矩形に枠を付ける矩形捜索プ
ロセスと、高さ得点法により漢字の高さを求める文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出プロセスと
、比較的ゆるやかな条件により、切り出された全ての矩形
の右、あるいは左側に位置する漢字矩形を捜し出す右方
向、左方向切出プロセスとを具備した構造化文字切出法
により構成したことを特徴とする枠字処理方法。
（３）コンピュータに読み込まれた書類の画像データを
、文字列（文字ブロック）、画像ブロック及び図形ブロ
ックに区分する一次走査ブロック・ラベリングと、前記
文字列から漢字、英数字及び句読点記号に枠を付けて切
り出す構造化文字切出法とを具備し、前記一次走査ブロック・ラベリング法を、ビットマップ（ｂｉｔｍａｐ）画像をラン・レングス・
コード（Ｒｕｎ　Ｌｅｎｇｔｈ　Ｃｏｄｅ）に変換する
ためのＣＲＬＣ（Ｃｎｓｔｒａｉｎｅｄ　Ｒｕｎ　Ｌｅ
ｎｇｔｈ　Ｃｏｄｅ）転換プロセスと、ラベリング（Ｌａｂｅｌｉｎｇ）法で、隣接関係にある
ＣＲＬＣを連続させることにより、一ブロック（独立の
ブロック）として分離するブロック分離プロセスと、独立したブロックに記録されたＣＲＬＣからもとのビッ
トマップ（ｂｉｔｍａｐ）画像おける各対応位置（Ｘ、
Ｙ）を算出することにより、各ブロックの画像を抽出す
る画像抽出プロセスと、ブロックの高さとラン・レングス（Ｒｕｎ　Ｌｅｎ−ｇ
ｔｈ）平均値からブロックの種類を判別するブロック画
像種類判別プロセスとから構成し、また、前記構造化文字切出法を、文字列の左右に分離された矩形に枠を付ける矩形捜索プ
ロセスと、高さ得点法により漢字の高さを求める文字列高さ計算プ
ロセスと、属性により漢字や句読点を切り出す優先切出プロセスと
、比較的ゆるやかな条件により、切り出された全ての矩形
の右、あるいは左側に位置する漢字矩形を捜し出す右方
向、左方向切出プロセスとから構成したことを特徴とす
る枠字処理方法。