JPH011087A - 行及び文字分離装置 - Google Patents
行及び文字分離装置Info
- Publication number
- JPH011087A JPH011087A JP63-85925A JP8592588A JPH011087A JP H011087 A JPH011087 A JP H011087A JP 8592588 A JP8592588 A JP 8592588A JP H011087 A JPH011087 A JP H011087A
- Authority
- JP
- Japan
- Prior art keywords
- line
- characters
- page
- lines
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、パターン認識の一段階として文書ページ中の
行同士及び文字同士を分離する行及び文字分離装置に関
するものである。
行同士及び文字同士を分離する行及び文字分離装置に関
するものである。
本発明は、上記の様な行及び文字分離装置において、ペ
ージ内の1つの領域から複数の画像を複製しておき、複
数の受光部の並列方向が互いに異なり且つ複製された複
数の画像と対を成している複数の光センサアレイを用い
ることによって、行及び文字を高速で分離することがで
きる様にしたものである。
ージ内の1つの領域から複数の画像を複製しておき、複
数の受光部の並列方向が互いに異なり且つ複製された複
数の画像と対を成している複数の光センサアレイを用い
ることによって、行及び文字を高速で分離することがで
きる様にしたものである。
文書ページ中の行同士及び文字同士を分離する装置とし
ては、従来から幾つかの装置が考えられている。
ては、従来から幾つかの装置が考えられている。
例えば、文書ページを走査して、行中の文字部の累積信
号と非文字部の累積信号との夫々の密度分布から行間を
直接に読み取る装置や、累積信号の密度分布を基本に統
計的に行間を算出する装置である。
号と非文字部の累積信号との夫々の密度分布から行間を
直接に読み取る装置や、累積信号の密度分布を基本に統
計的に行間を算出する装置である。
そして、分離された各行について行同士の分離と同様な
処理を行うことによって、文字同士を分離している。
処理を行うことによって、文字同士を分離している。
文書ページの走査としては、設定された方向へのラスク
走査や並列走査が行われるが、何れも始点から終点へ時
系列的に行われる。設定された方向の修正は、設定し直
した方向へ再び走査してみるか、前に求めたデータを解
析して即ちプロセッサを用いるかして行われる。
走査や並列走査が行われるが、何れも始点から終点へ時
系列的に行われる。設定された方向の修正は、設定し直
した方向へ再び走査してみるか、前に求めたデータを解
析して即ちプロセッサを用いるかして行われる。
ところが、上述の何れの装置においても文書ページを走
査しており、この走査が時系列的に行われるので、行及
び文字の分離に長時間を要する。
査しており、この走査が時系列的に行われるので、行及
び文字の分離に長時間を要する。
しかも、行の傾斜等による走査方向の修正は、少なくと
も1回の走査を終了してからでないと行うことができな
い。従って、その場合には行及び文字の分離に更に長時
間を要する。
も1回の走査を終了してからでないと行うことができな
い。従って、その場合には行及び文字の分離に更に長時
間を要する。
本発明による行及び文字分離装置は、ページ11内の1
つの領域から複数の画像21を復製する複製手段16と
、互いに並列に並んでいる複数の受光部を各々が有する
と共に前記並列の方向が互いに異なっており且つ前記複
数の画像21の各々と対を成している複数の光センサア
レイ23a〜23d、27a、27bとを夫々具備し、
前記複数の光センサアレイ23a〜23d、27a、2
7bの各々における前記複数の受光部についての検出出
力24.26の密度分布に基いて前記ページ11中の行
同士及び文字同士を分離する様にしている。
つの領域から複数の画像21を復製する複製手段16と
、互いに並列に並んでいる複数の受光部を各々が有する
と共に前記並列の方向が互いに異なっており且つ前記複
数の画像21の各々と対を成している複数の光センサア
レイ23a〜23d、27a、27bとを夫々具備し、
前記複数の光センサアレイ23a〜23d、27a、2
7bの各々における前記複数の受光部についての検出出
力24.26の密度分布に基いて前記ページ11中の行
同士及び文字同士を分離する様にしている。
本発明による行及び文字分離装置では、ページll内の
1つの領域から複数の画像21を複製しておき、複数の
受光部の並列方向が互いに異なり且つ複製された複数の
画像21と対を成している複数の光センサアレイ23a
〜23d、27a。
1つの領域から複数の画像21を複製しておき、複数の
受光部の並列方向が互いに異なり且つ複製された複数の
画像21と対を成している複数の光センサアレイ23a
〜23d、27a。
27bを用いているので、行に関する情報及び文字に関
する情報が共に瞬時に得られ、更に、行同士の分離、文
字同士の分離及び行の分離と文字の分離とが夫々並列的
に行われる。
する情報が共に瞬時に得られ、更に、行同士の分離、文
字同士の分離及び行の分離と文字の分離とが夫々並列的
に行われる。
しかも、複数の受光部の並列方向が互いに異なっている
複数の光センサアレイ23a〜23d、27a、27b
と複製された複数の画像21とを対にしているので、傾
斜している行や文字に対しても傾斜していない行や文字
に対する場合と同様の方法で処理が行われる。
複数の光センサアレイ23a〜23d、27a、27b
と複製された複数の画像21とを対にしているので、傾
斜している行や文字に対しても傾斜していない行や文字
に対する場合と同様の方法で処理が行われる。
以下、本発明の一実施例を第1図〜第6図を参照しなが
ら説明する。
ら説明する。
第1図が、本実施例の全体を示している。本実施例では
、文書を記載されたページ11がまずスキャナ12によ
って走査され、読み取られたページ11はメモリ13に
記録される。
、文書を記載されたページ11がまずスキャナ12によ
って走査され、読み取られたページ11はメモリ13に
記録される。
スキャナ12は、l+n当りの標本数が8以下といった
低い分解能でよい。またメモリ13には、ページ分類装
置(図示せず)で既に判明している文書の書式の座標デ
ータ、つまりページ11を同一書式の領域毎に分割して
いる座標データが転送されている。
低い分解能でよい。またメモリ13には、ページ分類装
置(図示せず)で既に判明している文書の書式の座標デ
ータ、つまりページ11を同一書式の領域毎に分割して
いる座標データが転送されている。
プロセッサ14は、メモリ13中の書式座標データを参
照して、メモリ13中のページ11の同一書式領域を更
に適当な領域に分割する。この様にして分割された領域
のうちの1個は、メモリ13からデイスプレィ15へ転
送されて表示される。
照して、メモリ13中のページ11の同一書式領域を更
に適当な領域に分割する。この様にして分割された領域
のうちの1個は、メモリ13からデイスプレィ15へ転
送されて表示される。
デイスプレィ15は、像複製光学系160入力となって
いる。この像複製光学系16は、第2図に示す様に、例
えば単一の凸レンズ17とレンズアレイ18とから成っ
ている。
いる。この像複製光学系16は、第2図に示す様に、例
えば単一の凸レンズ17とレンズアレイ18とから成っ
ている。
凸レンズ17のレンズアレイ18とは反対側の焦点にデ
イスプレィ15が配されており、レンズアレイ18の凸
レンズ17とは反対側の焦点には、デイスプレィ15に
表示されているページ11内の領域の画像21 (第4
図)が、レンズアレイ18のレンズ数だけ複製される。
イスプレィ15が配されており、レンズアレイ18の凸
レンズ17とは反対側の焦点には、デイスプレィ15に
表示されているページ11内の領域の画像21 (第4
図)が、レンズアレイ18のレンズ数だけ複製される。
複製された画像21は、本実施例では4個の像検出系2
22〜22dへ各々同時に入力される。
22〜22dへ各々同時に入力される。
像検出系22a〜22dは、互いに異なるアレイ状の光
センサアレイ232〜23dを各々有しており、互いに
並列的に動作する。
センサアレイ232〜23dを各々有しており、互いに
並列的に動作する。
(象検出系22a、22bは、第3図に示す様な光セン
サアレイ23a、23bを各々有しており、横書き文書
の検出用である。また像検出系22C122dは、縦書
き文書の検出用である。
サアレイ23a、23bを各々有しており、横書き文書
の検出用である。また像検出系22C122dは、縦書
き文書の検出用である。
従って、複製された画像21中の文書が第4図に示す様
に例えば横書き文字であれば、光センサアレイ23aか
らは第4図に示す様な密度分布の光検出出力24が得ら
れる。光検出出力2−4のうちで密度の低い部分が行間
であるので、この光検出出力24からセレクタ25によ
って行同士の分離が行われる。
に例えば横書き文字であれば、光センサアレイ23aか
らは第4図に示す様な密度分布の光検出出力24が得ら
れる。光検出出力2−4のうちで密度の低い部分が行間
であるので、この光検出出力24からセレクタ25によ
って行同士の分離が行われる。
また、画像21中の文字が各行内において等ピッチで記
入されていれば、光検出出力24と同様な等ピッチの光
検出出力が光センサアレイ23bから得られるので、行
同士の分離と同時に文字同士の分離も行われる。
入されていれば、光検出出力24と同様な等ピッチの光
検出出力が光センサアレイ23bから得られるので、行
同士の分離と同時に文字同士の分離も行われる。
もし、画像21中の文字が第5図に示す様に各行内にお
いて等ピンチで記入されていなければ、第4図の様にし
て求めた行分離座標をセレクタ25がメモリ13へ記憶
させる。そして、分離した各行について、第5図に示す
様な光検出出力26を再度求め、この光検出出力26か
らセレクタ25によって文字同士の分離が行われる。
いて等ピンチで記入されていなければ、第4図の様にし
て求めた行分離座標をセレクタ25がメモリ13へ記憶
させる。そして、分離した各行について、第5図に示す
様な光検出出力26を再度求め、この光検出出力26か
らセレクタ25によって文字同士の分離が行われる。
そして、以上の様な行同士及び文字同士の分離をページ
11の総ての分割領域に対して行うことによって、ペー
ジ11の行同士及び文字同士の分離を完了する。
11の総ての分割領域に対して行うことによって、ペー
ジ11の行同士及び文字同士の分離を完了する。
なお、第6図に示す様に適当な傾斜を有している光セン
サアレイ27a、27b等を多数配置し、これらの光セ
ンサアレイ27a、27b等からの光検出出力から行や
列の傾斜を求め、この傾斜に関するデータをプロセッサ
14を介してセレクタ25へ転送し、転送されたデータ
に基づいてセレクタ25が何れの像検出系222〜22
dの検出出力を採用するか決定する様にすることによっ
て、傾斜している行同士や列同士及びその中の文字同士
を分離することができる。
サアレイ27a、27b等を多数配置し、これらの光セ
ンサアレイ27a、27b等からの光検出出力から行や
列の傾斜を求め、この傾斜に関するデータをプロセッサ
14を介してセレクタ25へ転送し、転送されたデータ
に基づいてセレクタ25が何れの像検出系222〜22
dの検出出力を採用するか決定する様にすることによっ
て、傾斜している行同士や列同士及びその中の文字同士
を分離することができる。
本発明による行及び文字分離装置では、行に関する情報
及び文字に関する情報が共に瞬時に得られ、更に、行同
士の分離、文字同士の分離及び行の分離と文字の分離と
が夫々並列的に行われ、しかも傾斜している行や文字に
対しても傾斜していない行や文字に対する場合と同様の
方法で処理が行われるので、行及び文字を高速で分離す
ることができる。
及び文字に関する情報が共に瞬時に得られ、更に、行同
士の分離、文字同士の分離及び行の分離と文字の分離と
が夫々並列的に行われ、しかも傾斜している行や文字に
対しても傾斜していない行や文字に対する場合と同様の
方法で処理が行われるので、行及び文字を高速で分離す
ることができる。
第1図は本発明の一実施例のブロック図、第2図は像複
製光学系の側面図、第3図及び第6図は光センサアレイ
の正面図、第4図は行同士の分離方法を説明するための
概略図、第5図は文字同士の分離方法を説明するための
概略図である。 なお図面に用いた符号において、 1t−−−−−−−・−・・・・−・ページ16・・−
・・−・−・−・−像複製光学系21・−・・−・−・
−・−・−−一一一画像23a〜23d・−光センサア
レイ 24.26・−・・・−・・光検出出力27a 、 2
7b・−一−−−・光センサアレイである。
製光学系の側面図、第3図及び第6図は光センサアレイ
の正面図、第4図は行同士の分離方法を説明するための
概略図、第5図は文字同士の分離方法を説明するための
概略図である。 なお図面に用いた符号において、 1t−−−−−−−・−・・・・−・ページ16・・−
・・−・−・−・−像複製光学系21・−・・−・−・
−・−・−−一一一画像23a〜23d・−光センサア
レイ 24.26・−・・・−・・光検出出力27a 、 2
7b・−一−−−・光センサアレイである。
Claims (1)
- 【特許請求の範囲】 ページ内の1つの領域から複数の画像を複製する複製手
段と、 互いに並列に並んでいる複数の受光部を各々が有すると
共に前記並列の方向が互いに異なっており且つ前記複数
の画像の各々と対を成している複数の光センサアレイと
を夫々具備し、 前記複数の光センサアレイの各々における前記複数の受
光部についての検出出力の密度分布に基いて前記ページ
中の行同士及び文字同士を分離する様にした行及び文字
分離装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US38,633 | 1987-04-14 | ||
| US07/038,633 US4827529A (en) | 1987-04-14 | 1987-04-14 | Lines and characters separation apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH011087A true JPH011087A (ja) | 1989-01-05 |
| JPS641087A JPS641087A (en) | 1989-01-05 |
Family
ID=21901021
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63085925A Pending JPS641087A (en) | 1987-04-14 | 1988-04-07 | Row and character separation device |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US4827529A (ja) |
| JP (1) | JPS641087A (ja) |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5272764A (en) * | 1989-12-08 | 1993-12-21 | Xerox Corporation | Detection of highlighted regions |
| US5202933A (en) * | 1989-12-08 | 1993-04-13 | Xerox Corporation | Segmentation of text and graphics |
| US5048109A (en) * | 1989-12-08 | 1991-09-10 | Xerox Corporation | Detection of highlighted regions |
| DE69130469T2 (de) * | 1990-08-03 | 1999-05-06 | Canon K.K., Tokio/Tokyo | Gerät und Verfahren zur Bildverarbeitung |
| US5245672A (en) * | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
| US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
| US5692069A (en) * | 1995-03-17 | 1997-11-25 | Eastman Kodak Company | Apparatus for performing character segmentation using slant histograms |
| JP4658848B2 (ja) * | 2006-03-30 | 2011-03-23 | 日本電産サンキョー株式会社 | 文字列認識方法及び文字列認識装置 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3160854A (en) * | 1961-01-12 | 1964-12-08 | Internat Busianess Machines Co | Lattice-type character recognition system |
| US3244889A (en) * | 1961-07-06 | 1966-04-05 | United Aircraft Corp | Photosensitive tracker with special x and y axis photocells having pluralities of parallel electrodes |
| NL287453A (ja) * | 1962-01-05 | |||
| EP0020897B1 (de) * | 1979-06-26 | 1983-11-16 | International Business Machines Corporation | Vorrichtung zur Bestimmung des optimalen Abtastwinkels von Druckschriften |
| JPS6043555B2 (ja) * | 1980-02-26 | 1985-09-28 | 株式会社トキメック | 印字文字切出し装置 |
-
1987
- 1987-04-14 US US07/038,633 patent/US4827529A/en not_active Expired - Fee Related
-
1988
- 1988-04-07 JP JP63085925A patent/JPS641087A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4809344A (en) | Apparatus for preprocessing of character recognition | |
| US5038393A (en) | Method of effectively reading data written on data sheet, and data reading apparatus therefor | |
| JPH011087A (ja) | 行及び文字分離装置 | |
| US4827529A (en) | Lines and characters separation apparatus | |
| US4817169A (en) | Page segmentor | |
| US4901365A (en) | Method of searching binary images to find search regions in which straight lines may be found | |
| JP2023036833A (ja) | 情報処理装置、及びプログラム | |
| JPS63304387A (ja) | 文書読取装置 | |
| JP2000113106A (ja) | 文書画像処理装置 | |
| JPS62121589A (ja) | 文字切出し方法 | |
| JPH0334112B2 (ja) | ||
| JPS5911153B2 (ja) | 光学的文字読取方式 | |
| JPH03142691A (ja) | 表形式文書認識方式 | |
| JPS61196381A (ja) | 文字切出し方式 | |
| JP2001053935A (ja) | 撮像装置 | |
| JPH0564396B2 (ja) | ||
| JPS596418B2 (ja) | 文字読取方式 | |
| JPH0573717A (ja) | 光学的文字読取装置 | |
| JPH0461395B2 (ja) | ||
| JPH0581475A (ja) | 文字領域抽出方法 | |
| JPH083827B2 (ja) | キャラクタ画像処理方法 | |
| JP2571826B2 (ja) | 文字列パターン切り出し装置 | |
| JPS6312311B2 (ja) | ||
| JPH05284335A (ja) | 画像情報縮小方法 | |
| JPH04167193A (ja) | 文字認識方法 |