JPH011087A - 行及び文字分離装置 - Google Patents

行及び文字分離装置

Info

Publication number
JPH011087A
JPH011087A JP63-85925A JP8592588A JPH011087A JP H011087 A JPH011087 A JP H011087A JP 8592588 A JP8592588 A JP 8592588A JP H011087 A JPH011087 A JP H011087A
Authority
JP
Japan
Prior art keywords
line
characters
page
lines
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63-85925A
Other languages
English (en)
Other versions
JPS641087A (en
Inventor
ノーマン・エー・ペパーズ
ジェイムズ・アール・ヤング
壽巳 西
裕司 上野
香月 一雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Sheet Glass Co Ltd
Original Assignee
Nippon Sheet Glass Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/038,633 external-priority patent/US4827529A/en
Application filed by Nippon Sheet Glass Co Ltd filed Critical Nippon Sheet Glass Co Ltd
Publication of JPH011087A publication Critical patent/JPH011087A/ja
Publication of JPS641087A publication Critical patent/JPS641087A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、パターン認識の一段階として文書ページ中の
行同士及び文字同士を分離する行及び文字分離装置に関
するものである。
〔発明の概要〕
本発明は、上記の様な行及び文字分離装置において、ペ
ージ内の1つの領域から複数の画像を複製しておき、複
数の受光部の並列方向が互いに異なり且つ複製された複
数の画像と対を成している複数の光センサアレイを用い
ることによって、行及び文字を高速で分離することがで
きる様にしたものである。
〔従来の技術〕
文書ページ中の行同士及び文字同士を分離する装置とし
ては、従来から幾つかの装置が考えられている。
例えば、文書ページを走査して、行中の文字部の累積信
号と非文字部の累積信号との夫々の密度分布から行間を
直接に読み取る装置や、累積信号の密度分布を基本に統
計的に行間を算出する装置である。
そして、分離された各行について行同士の分離と同様な
処理を行うことによって、文字同士を分離している。
文書ページの走査としては、設定された方向へのラスク
走査や並列走査が行われるが、何れも始点から終点へ時
系列的に行われる。設定された方向の修正は、設定し直
した方向へ再び走査してみるか、前に求めたデータを解
析して即ちプロセッサを用いるかして行われる。
〔発明が解決しようとする課題〕
ところが、上述の何れの装置においても文書ページを走
査しており、この走査が時系列的に行われるので、行及
び文字の分離に長時間を要する。
しかも、行の傾斜等による走査方向の修正は、少なくと
も1回の走査を終了してからでないと行うことができな
い。従って、その場合には行及び文字の分離に更に長時
間を要する。
〔課題を解決するための手段〕
本発明による行及び文字分離装置は、ページ11内の1
つの領域から複数の画像21を復製する複製手段16と
、互いに並列に並んでいる複数の受光部を各々が有する
と共に前記並列の方向が互いに異なっており且つ前記複
数の画像21の各々と対を成している複数の光センサア
レイ23a〜23d、27a、27bとを夫々具備し、
前記複数の光センサアレイ23a〜23d、27a、2
7bの各々における前記複数の受光部についての検出出
力24.26の密度分布に基いて前記ページ11中の行
同士及び文字同士を分離する様にしている。
〔作 用〕
本発明による行及び文字分離装置では、ページll内の
1つの領域から複数の画像21を複製しておき、複数の
受光部の並列方向が互いに異なり且つ複製された複数の
画像21と対を成している複数の光センサアレイ23a
〜23d、27a。
27bを用いているので、行に関する情報及び文字に関
する情報が共に瞬時に得られ、更に、行同士の分離、文
字同士の分離及び行の分離と文字の分離とが夫々並列的
に行われる。
しかも、複数の受光部の並列方向が互いに異なっている
複数の光センサアレイ23a〜23d、27a、27b
と複製された複数の画像21とを対にしているので、傾
斜している行や文字に対しても傾斜していない行や文字
に対する場合と同様の方法で処理が行われる。
〔実施例〕
以下、本発明の一実施例を第1図〜第6図を参照しなが
ら説明する。
第1図が、本実施例の全体を示している。本実施例では
、文書を記載されたページ11がまずスキャナ12によ
って走査され、読み取られたページ11はメモリ13に
記録される。
スキャナ12は、l+n当りの標本数が8以下といった
低い分解能でよい。またメモリ13には、ページ分類装
置(図示せず)で既に判明している文書の書式の座標デ
ータ、つまりページ11を同一書式の領域毎に分割して
いる座標データが転送されている。
プロセッサ14は、メモリ13中の書式座標データを参
照して、メモリ13中のページ11の同一書式領域を更
に適当な領域に分割する。この様にして分割された領域
のうちの1個は、メモリ13からデイスプレィ15へ転
送されて表示される。
デイスプレィ15は、像複製光学系160入力となって
いる。この像複製光学系16は、第2図に示す様に、例
えば単一の凸レンズ17とレンズアレイ18とから成っ
ている。
凸レンズ17のレンズアレイ18とは反対側の焦点にデ
イスプレィ15が配されており、レンズアレイ18の凸
レンズ17とは反対側の焦点には、デイスプレィ15に
表示されているページ11内の領域の画像21 (第4
図)が、レンズアレイ18のレンズ数だけ複製される。
複製された画像21は、本実施例では4個の像検出系2
22〜22dへ各々同時に入力される。
像検出系22a〜22dは、互いに異なるアレイ状の光
センサアレイ232〜23dを各々有しており、互いに
並列的に動作する。
(象検出系22a、22bは、第3図に示す様な光セン
サアレイ23a、23bを各々有しており、横書き文書
の検出用である。また像検出系22C122dは、縦書
き文書の検出用である。
従って、複製された画像21中の文書が第4図に示す様
に例えば横書き文字であれば、光センサアレイ23aか
らは第4図に示す様な密度分布の光検出出力24が得ら
れる。光検出出力2−4のうちで密度の低い部分が行間
であるので、この光検出出力24からセレクタ25によ
って行同士の分離が行われる。
また、画像21中の文字が各行内において等ピッチで記
入されていれば、光検出出力24と同様な等ピッチの光
検出出力が光センサアレイ23bから得られるので、行
同士の分離と同時に文字同士の分離も行われる。
もし、画像21中の文字が第5図に示す様に各行内にお
いて等ピンチで記入されていなければ、第4図の様にし
て求めた行分離座標をセレクタ25がメモリ13へ記憶
させる。そして、分離した各行について、第5図に示す
様な光検出出力26を再度求め、この光検出出力26か
らセレクタ25によって文字同士の分離が行われる。
そして、以上の様な行同士及び文字同士の分離をページ
11の総ての分割領域に対して行うことによって、ペー
ジ11の行同士及び文字同士の分離を完了する。
なお、第6図に示す様に適当な傾斜を有している光セン
サアレイ27a、27b等を多数配置し、これらの光セ
ンサアレイ27a、27b等からの光検出出力から行や
列の傾斜を求め、この傾斜に関するデータをプロセッサ
14を介してセレクタ25へ転送し、転送されたデータ
に基づいてセレクタ25が何れの像検出系222〜22
dの検出出力を採用するか決定する様にすることによっ
て、傾斜している行同士や列同士及びその中の文字同士
を分離することができる。
〔発明の効果〕
本発明による行及び文字分離装置では、行に関する情報
及び文字に関する情報が共に瞬時に得られ、更に、行同
士の分離、文字同士の分離及び行の分離と文字の分離と
が夫々並列的に行われ、しかも傾斜している行や文字に
対しても傾斜していない行や文字に対する場合と同様の
方法で処理が行われるので、行及び文字を高速で分離す
ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図、第2図は像複
製光学系の側面図、第3図及び第6図は光センサアレイ
の正面図、第4図は行同士の分離方法を説明するための
概略図、第5図は文字同士の分離方法を説明するための
概略図である。 なお図面に用いた符号において、 1t−−−−−−−・−・・・・−・ページ16・・−
・・−・−・−・−像複製光学系21・−・・−・−・
−・−・−−一一一画像23a〜23d・−光センサア
レイ 24.26・−・・・−・・光検出出力27a 、 2
7b・−一−−−・光センサアレイである。

Claims (1)

  1. 【特許請求の範囲】 ページ内の1つの領域から複数の画像を複製する複製手
    段と、 互いに並列に並んでいる複数の受光部を各々が有すると
    共に前記並列の方向が互いに異なっており且つ前記複数
    の画像の各々と対を成している複数の光センサアレイと
    を夫々具備し、 前記複数の光センサアレイの各々における前記複数の受
    光部についての検出出力の密度分布に基いて前記ページ
    中の行同士及び文字同士を分離する様にした行及び文字
    分離装置。
JP63085925A 1987-04-14 1988-04-07 Row and character separation device Pending JPS641087A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US38,633 1987-04-14
US07/038,633 US4827529A (en) 1987-04-14 1987-04-14 Lines and characters separation apparatus

Publications (2)

Publication Number Publication Date
JPH011087A true JPH011087A (ja) 1989-01-05
JPS641087A JPS641087A (en) 1989-01-05

Family

ID=21901021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63085925A Pending JPS641087A (en) 1987-04-14 1988-04-07 Row and character separation device

Country Status (2)

Country Link
US (1) US4827529A (ja)
JP (1) JPS641087A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5202933A (en) * 1989-12-08 1993-04-13 Xerox Corporation Segmentation of text and graphics
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
DE69130469T2 (de) * 1990-08-03 1999-05-06 Canon K.K., Tokio/Tokyo Gerät und Verfahren zur Bildverarbeitung
US5245672A (en) * 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
US5692069A (en) * 1995-03-17 1997-11-25 Eastman Kodak Company Apparatus for performing character segmentation using slant histograms
JP4658848B2 (ja) * 2006-03-30 2011-03-23 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3160854A (en) * 1961-01-12 1964-12-08 Internat Busianess Machines Co Lattice-type character recognition system
US3244889A (en) * 1961-07-06 1966-04-05 United Aircraft Corp Photosensitive tracker with special x and y axis photocells having pluralities of parallel electrodes
NL287453A (ja) * 1962-01-05
EP0020897B1 (de) * 1979-06-26 1983-11-16 International Business Machines Corporation Vorrichtung zur Bestimmung des optimalen Abtastwinkels von Druckschriften
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置

Similar Documents

Publication Publication Date Title
US4809344A (en) Apparatus for preprocessing of character recognition
US5038393A (en) Method of effectively reading data written on data sheet, and data reading apparatus therefor
JPH011087A (ja) 行及び文字分離装置
US4827529A (en) Lines and characters separation apparatus
US4817169A (en) Page segmentor
US4901365A (en) Method of searching binary images to find search regions in which straight lines may be found
JP2023036833A (ja) 情報処理装置、及びプログラム
JPS63304387A (ja) 文書読取装置
JP2000113106A (ja) 文書画像処理装置
JPS62121589A (ja) 文字切出し方法
JPH0334112B2 (ja)
JPS5911153B2 (ja) 光学的文字読取方式
JPH03142691A (ja) 表形式文書認識方式
JPS61196381A (ja) 文字切出し方式
JP2001053935A (ja) 撮像装置
JPH0564396B2 (ja)
JPS596418B2 (ja) 文字読取方式
JPH0573717A (ja) 光学的文字読取装置
JPH0461395B2 (ja)
JPH0581475A (ja) 文字領域抽出方法
JPH083827B2 (ja) キャラクタ画像処理方法
JP2571826B2 (ja) 文字列パターン切り出し装置
JPS6312311B2 (ja)
JPH05284335A (ja) 画像情報縮小方法
JPH04167193A (ja) 文字認識方法