JPH09120460A - 書類から記事を抽出する装置および方法 - Google Patents

書類から記事を抽出する装置および方法

Info

Publication number
JPH09120460A
JPH09120460A JP8190012A JP19001296A JPH09120460A JP H09120460 A JPH09120460 A JP H09120460A JP 8190012 A JP8190012 A JP 8190012A JP 19001296 A JP19001296 A JP 19001296A JP H09120460 A JPH09120460 A JP H09120460A
Authority
JP
Japan
Prior art keywords
image
article
objects
articles
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8190012A
Other languages
English (en)
Other versions
JP3048330B2 (ja
Inventor
Frederik Johan Hommersom
フレデリク・ヨハン・ホマーソム
Karen Janine Hanse
カレン・ヤニーネ・ハンセ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Production Printing Netherlands BV
Original Assignee
Oce Nederland BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Nederland BV filed Critical Oce Nederland BV
Publication of JPH09120460A publication Critical patent/JPH09120460A/ja
Application granted granted Critical
Publication of JP3048330B2 publication Critical patent/JP3048330B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/00Two-dimensional [2D] image generation
    • G06T11/60Creating or editing images; Combining images with text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 例えば新聞紙の紙面のような合成画像におい
て別々の記事を識別する。 【解決手段】 第1のステップにおいて、画像がレイア
ウトに関して分析され、本文ブロック、表題、写真及び
図表が識別される。第2のステップにおいて、それらの
要素は、それらの種類及びそれらの相互の位置に関する
ルールを連続して適用することによってグループに組み
合わせされる。画像はスクリーン上に表示され、オペレ
ータは記事を選択し、それらの要素をオペレータによっ
て特定されたフォームに自動的に再構成し、さらに、プ
リンタによってそれらを印刷することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本願発明は書類から記事を抽
出する方法及び装置に関する。
【0002】
【従来の技術】本願発明は、画像を持つ書類に対応する
画像信号を入力する手段であって、画像は以後「対象」
と称する別々の要素部分からなる画像信号入力手段と、
その画像を構成対象に分割する処理ユニットと、少なく
とも画像の一部を表示するVDUと、スクリーン上の少
なくとも1つの対象を選択する手段と、処理ユニット内
にあって画像の残りの部分から分けられて選択された少
なくとも1つの対象を出力する手段とを備える装置に関
する。
【0003】そのような装置は欧州特許出願第0629
078号に開示されているように公知である。その装置
は、書類を走査し、その書類上の画像に対応するデジタ
ル画像データを発生する走査装置(スキャナ)と、書類
のレイアウトを決定するために画像データを分析する処
理ユニットとを備える。その分析の間、画像はレイアウ
ト要素に分割され、それらは例えば本文のブロック、写
真および図表要素のような「対象」と呼ばれる。画像は
その後にVDUに表示され、オペレータは任意に対象を
選択でき、それをワード処理として知られている「切り
張り」(cut andpaste)方法によって画像の他の部分から
分離して受信画像に移動することができる。
【0004】
【発明が解決しようとする課題】合成書類画像の1つの
例を図1に示す。それは新聞紙の1面であり、それには
異なる種類の多数の対象のアウトライン(簡略化のため
に3種類のみ、つまり、「表題」、「本文のブロック」
および「写真」のアウトライン)が示されている。図示
された対象はグループ内で記事として互いに関連する。
図1はハッチングによってある記事を示す。
【0005】新聞紙の紙面が作られたときには様々な対
象が互いに関連するように配置され、互いにラインのよ
うな補助要素によって分離されていて、これにより、読
者がどの対象がどの記事に関連するのかを容易に判断す
ることができる。紙面を造り上げる際に適用される規則
は、多数の一般的な規則が存在するからと思われるが、
新聞紙ごとに異なる。
【0006】一組の書類、例えば新聞紙から特定の目的
に関連する記事を集め、それらを別々に提供する必要と
する場合がある。それは、頻繁に、関連する記事を切り
取り、それらを紙の上に張り付けることによって行われ
ている。それは「新聞の切り抜き」と呼ばれることがあ
る。切り抜きを行うことは時間を消費する作業で、それ
はときには切り抜きに順応する退屈な仕事で、また、そ
の切り抜きは元の書類に印刷されたままの形状を持って
いる。つまり、記事はその書類から「切り抜き」の新聞
紙の紙面として台紙の形状に切り取られる。
【0007】公知の装置を用いると、記事を書類の他の
部分から分離し、それを単独で例えばプリンターに出力
することができる。記事が多数の対象から作られている
場合には、しかしながら、それは、各対象を個別に選択
して出力しなければならないので、時間を消費する作業
となる。そのため、オペレータが一度の操作で記事を選
択しかつ出力できる装置の必要性がある。
【0008】
【課題を解決するための手段】その要求に合致するた
め、上記の従来装置に、処理ユニットに画像の対象の中
で以後「記事」と称する一群の関連する対象を識別する
装置を設ける。
【0009】その装置の1つの実施例においては、記事
を識別する装置には画像の対象の相互の位置的関係を決
定し、それらをその位置的関係に関してあらかじめ定め
た一組の規則に基づいて識別する装置を設ける。
【0010】本願発明に係る装置の他の実施例において
は、処理ユニットは、画像を対象に分割するときに、そ
れらの対象を種類によって分類するのに適するもので、
そこでは記事を識別する装置には画像の対象の相互の位
置的関係を決定し、それらを種類および対象の位置的関
係に関してあらかじめ定めた一組の規則に基づいて識別
する装置を設ける。
【0011】識別工程はその結果元の書類のレイアウト
に関する規則に基づく「知識制御」工程である。それら
の規則は経験から得られるもので、少なくとも部分的に
各書類ごとに異なっていることがある。
【0012】別の実施例においては、その装置には記事
をその対象を再配置することによって異なるフォームに
導くことができる装置が設けられ、読取りシーケンスが
維持される、つまり、そのシーケンスで記事の異なる対
象が読み取られなければならない。その方法では、元の
書類にしばしば気まぐれに収容されていてその結果他の
記事の間に配置されることがある記事を、出力・公開媒
体に適したフォームに導くことができる。これは概略矩
形となる。
【0013】本願発明は本願発明に係る装置に適用され
る方法にも関する。
【0014】
【発明の実施の形態】以下、図面を参照しながら本願発
明を詳細に説明する。
【0015】以下の説明を通じて用語「新聞紙」を用い
ているが、合成画像(合成イメージ)を持つ他のどの書
類をも意味するものであることを理解すべきである。
【0016】図2は本願発明に係る装置を示しており、
それは、合成画像(新聞紙の1面)からなる元の書類内
の別々の記事を認識し、その記事をそれぞれ示し、オペ
レータの命令に応答して紙の上に印刷するように、それ
らを別々に出力するのに適する。その装置は中央処理ユ
ニット11を備えており、それにはスキャナ12、デジ
タル画像データの他の(光学的)出所源13、プリンタ
14、処理された画像データの他の(光学的)出力1
5、メモリディスク20及びオペレーティングユニット
16が接続されている。オペレーティングユニット16
にはVDU17及びマウス18及びキーボードのような
操作手段が接続されている。
【0017】スキャナ12は書類をラインごとに走査す
る光・電子スキャナで、ラスター内の画像素子またはピ
クセルのグレー値のフォームのデジタル画像データを生
成する。スキャナは1インチあたり300ドット(30
0dpi)の解像度を持ち、その解像度は本文画像または
映像化された図表を鮮明に再生成するのに十分である。
デジタルデータの他の出所源13は例えば大規模メモリ
またはネットワーク接続である。
【0018】中央処理ユニット11は例えば同様なもの
に適したプログラムを持つコンピュータであるが、必要
に応じて部分的に適用に適したハードウエアも持つ。処
理ユニット11はデジタル画像データを処理するために
異なるモジュールを持つ。
【0019】オペレーティングユニット16はオペレー
タにその装置の操作及び必要に応じ処理結果の修正の機
会を与える。このため、図形の操作対象がスクリーン1
7に表示され、マウス18によって操作することができ
る。加えて、VDU17は記事の選択のために元の書類
の画像や必要に応じて部分的な画像を表示するために用
いられる。
【0020】最後に、プリンター14は要求された解像
度で画像データを印刷するのに適した一般的なプリンタ
ーである。他の出力15は大規模メモリまたはネットワ
ーク接続とすることができる。処理ユニット11によっ
て実行されたように、新聞紙のような書類の原本に対応
する画像データの処理は、図3及び図4を参照しながら
以下に説明する。
【0021】端的に述べると、処理は、画像の対象と呼
ぶ部分への分割化、記事に属する対象の収集及びオペレ
ータへの結果の提供からなる。最後のものは記事を選択
し、それを他の部分から分割することができる。命令
(コマンド入力)により、記事のレイアウトを変更する
ことができる(「再フォーマット化」)。このため、対
象の順序(「読取り順序」)は最初に分離された記事に
関して決定され、それにより、その順序は再フォーマッ
ト化に確保される。その分離された記事はそれからプリ
ンタによって印刷することができる。
【0022】ステップS1では、画像は対象に分割され
る。このような処理は出願人の欧州特許出願第0629
078号に詳細に説明されており、2つの工程からな
る。第1の工程では、隣接情報の保持ピクセルのかたま
りが画像内から捜され、それらは「文字」「図表」また
は「写真」のように類型化されて管理される。また、平
均的な文字の寸法よりも大きな文字は「大きな」という
ようにより詳細に類型化される。第2の工程では、「文
字」種類の画像情報は反復工程において本文ブロック、
ライン及び語に分割される。この方法に関するより詳し
い説明は上掲の欧州特許出願を参照のこと。ここで説明
する本願発明の目的のために、分割結果は対象の「表
題」(本文ブロックまたは「大きな文字」からなるライ
ン)及び(水平及び垂直寸法の比率から決定された)
「水平ライン」及び「垂直ライン」とともに拡張され
る。さらに、本文ブロックの平均的な幅が計算され、そ
れから対象の「表題」及び「水平ライン」は「広い」
(その幅より広いもの)または「狭い」(その幅と同程
度のもの)に、より詳細に類型化される。
【0023】画像内のすべての対象はここではわかって
いて名前が付けられており、それらの位置は例えば各対
象の左上角および右下角からの座標上のフォーム内に固
定されている。その結果は後に「分割画像」という。こ
の分割画像に加えて、元の画像はスクリーンに表示する
ためにメモリに記憶される。
【0024】ステップS2においては、S1からの分割
結果にはフィルタがかけられて「本文ブロック」、「表
題」、「写真」「水平ライン」および「垂直ライン」の
種類の対象のみを維持する。また、写真内の対象は除去
する。
【0025】ステップS3は残っているすべての対象に
対する定性位置的特徴を決定する工程を含む。これは下
部、上部、左側および右側に隣接する対象を座標を参照
しながら各対象ごとに決定することを意味する。それら
の相互に関連する位置関係は各対象ごとにメモリに記憶
される。
【0026】分割画像の実際の分析はステップS4で開
始する。これは、解釈手段によって、処理のための書類
の一般的なレイアウトに基づく多数のルールを参照しな
がら実行される。一組のその様なルールが異なる書類ご
とにメモリ20に記憶され、解釈装置は、そのメモリか
ら、分割画像の基礎を形成する元の書類が発生する新聞
紙のための一組のルールを呼び出す。メモリ20に記憶
されたルールのすべてを処理のために元の書類に適用す
る必要はない。その一組のルールに加えて、そのため多
数の新聞紙に対し特定の新聞紙に適用されるルールを含
むリストがそのメモリに記憶される。新聞紙の名前はオ
ペレーティングユニット16を用いてオペレータによっ
て解釈装置に通知される。そのリストから解釈装置はど
のルールを呼び出すべきかを知る。ページの始点がわか
らないときまたは問題の元の書類に対するルールの組が
存在しないときには、一般的な種類のルールの省略組が
持ち出される。
【0027】読み出されたルールはその後1つずつステ
ップS3から生じた分割画像に適用される。このルール
の適用の効果は、初期化のときにそれぞれが記事とみな
された分割画像からの対象は互いに連続して加えられて
グループを形成する。それらのグループは元の書類の実
際の記事を示す。
【0028】解釈装置の操作のより詳細な説明を以下に
行う。
【0029】分析が完了すると、元の書類はVDU17
に表示され(ステップS5)、オペレータはマウス18
を用いて記事を選択することができる(S6)。処理の
全般的な部分はここで完了したので説明は選択された記
事に関するものに移る。
【0030】選択のために、オペレータはマウスで記事
のどの対象の上でもクリックすることができる。それは
その後自動的に記事全体の選択に転換される。選択され
た記事はグレーまたは色の付いた背景によってスクリー
ンに表示され、これにより、使用者が、解釈の結果が正
しいか否かを調べることができる。分析結果に適合する
操作対象がその後スクリーン17上に表示される。これ
らによると、使用者は(S7において)、記事から対象
を除いたりまたは他の対象を追加したりすることを、単
に、マウスを用いてそれらをクリックしたりその目的を
意図したコマンドを与えることによって行うことができ
る。
【0031】オペレータは、分析結果を修正(訂正)し
た後またはそうでない場合に、「切り貼り」操作の態様
で、選択記事を分割するコマンドを与えると、その記事
は分割スクリーンウインドウに移される。ステップS7
はスクリーンから分割画像を消し、分割ウインドウを表
示することによって実行される。
【0032】ステップS8では第2の解釈装置が呼び出
され、再度ルールを参照することによってその解釈装置
が選択された記事の対象の順序(「読取り順序」)(シ
ーケンス)を決定する。その分析はすべての(西部の)
新聞紙に対し有効な限定されたルールを用いて実行され
る。いくつかの例を以下に示す。
【0033】a)記事(対象のグループ)が表題の種類の
1つの対象を含む場合には、その対象は読取り順序位置
1を持つ。
【0034】b)本文ブロックが読取り順序位置nを持つ
対象の下方の左上の直ぐそばに配置された場合には、そ
の対象は読取り順序位置n+1を持つ。
【0035】c)本文ブロックが最も高い位置kを持つ本
文ブロックの列の次の右側上方の直ぐそばに配置された
場合には、その対象は読取り順序k+1を持つ。
【0036】その分析の結果は、その後メモリに記憶さ
れ(ステップS9)、オペレータからのその目的のため
のコマンドがあると、例えば、読取り順序を示す番号を
画像を横切って表示することによって、選択された記事
の画像と組み合わせて表示することができる。
【0037】オペレータは特定の対象をクリックして番
号の付け替えを行うことによって、その読取り順序を変
える機会を持つ。これにより選択された記事は概略プリ
ンタ14(または他の出力15)に別々に出力される用
意ができるが、元の書類の記事といまだ同一の記事の形
態を変えなければならない(再フォーマット)とするこ
とができる。オペレータはこの目的のための行為を行っ
て(ステップS11において)、スクリーン17にその
目的のために現れた操作要素の手段によってその形態を
変更することができる。
【0038】再フォーマット化(ステップS12)が、
読取り順序が正しくないことを示す場合には、ステップ
S10に戻ることができる。再フォーマット化を以下に
詳細に説明する。
【0039】再フォーマット化の後、処理された記事の
画像情報はステップS13においてメモリに出力するこ
とができ、その後、ステップS14において元の書類か
ら他の記事を選択するためにステップS6に戻ることが
できる。
【0040】その画像情報はメモリからプリンタ14ま
たは他の出力15に伝達することができる。
【0041】図3のステップS4における解釈装置の作
動を説明する。
【0042】解釈装置がメモリから元の書類に関連する
1組のルールを読出した後は、それは所定の順序でそれ
をルールごとに処理し、各ルールは元の書類のすべての
対象に適用される。
【0043】最初に、すべての対象は記事と呼ばれ、そ
れらには任意の方法により識別番号が付される。解釈装
置の作動はルールを連続して適用して対象をグループに
組み合わせることを意図する。それらの条件においてす
べての対象は連続的に分析され、各(第1の)対象は適
用されたルールを参照してすべての他の(第2の)対象
との関係について規則的にテストされる。そのテストの
結果が肯定的である場合には、第2の対象が第1に追加
される。この方法によって他の対象に追加された対象に
は前記他の対象の識別番号が与えられ、それ自身の識別
番号を失うが、一単位として残されるのでそのルールを
まだそれに適用することができる。
【0044】ルールは一般的なフォームを持つ。つま
り、1) (第1の)対象の種類に関連する要求、2) 他の
(第2の)対象の種類に関連する要求、3) 2つの対象
の位置関係に関連する要求および4) 要求1)、2)および
3)が合致したときに追加を行う決定。ルールは異なる組
の要求1)、2)および3)を持つこともできる。その場合に
は、4)における作業は、すべての組の要求が満たされた
場合にのみに実行される。
【0045】解釈装置によるルールの適用は、「バック
トラッキング」原理に基づいて実行される。そこでは、
第1の対象に対し、それがルールから要求された種類で
あるか否かのチェックを最初に行うことができる。その
場合には、各他の(第2の)対象に対し、その他の対象
もルールから要求された種類であるか否かのチェックを
連続して行うことができる。他の(第2の)対象に対す
る場合に、各他の(第2の)対象に関して、第1および
関連する他の(第2の)対象の組み合わせに対し、相互
の位置に関する条件が満たされた否かのチェックが行わ
れる。その場合に、ルールがより多くの対象に対する基
準を含む場合には、第1および第2の対象と第3の対象
とのすべての組み合わせに対し、第3の対象の種類がル
ールを満たしているか否かまたは一条件が満たされてい
るか否か等のテストが実行される。対象の組み合わせが
完全にルールを満たしている場合には何時でも、ルール
によって特定された作業(ある対象の他の対象への追
加)が実行される。
【0046】以下のルールは一般的な利用のための基本
組を形成する。各新聞紙ごとに追加する多数の特定のル
ールが存在する。当然ではあるが、分析の結果は増加し
た数のルールを用いるとよくなるが、任意の追加の新た
なルールを用いると、対象が互いに不正確に追加され、
その結果識別効果を減少させるというリスクの増加を招
く。
【0047】ルールはそれらの効果が何であるかがただ
ちに明白になるように言い換えられている。
【0048】R1:表題の下方に在り表題またはライン
によってそれから分離されていない各本文ブロックまた
は写真はその表題に追加される。
【0049】R2:写真の下方に配置され表題またはラ
インによってそれから分離されていない各本文ブロック
または写真はその表題に追加される。
【0050】R3:垂直ラインがすべての対象のすぐ隣
に配置されている場合には、すぐ下方にまず本文ブロッ
クを持ちそれから表題を持つ写真はその表題に追加され
る。
【0051】R4:全く同一の記事に属する対象が両側
に位置する本文ブロック、写真または表題はその記事に
追加される。
【0052】R5:すぐ下方に位置する水平ラインを持
つ表題はそのラインのすぐ下方に位置する本文ブロック
に追加される。
【0053】R6:他の表題のすぐ下方に配置された表
題はそれに追加される。
【0054】R7:水平ラインの下方に垂直ラインも存
在しない場合には、非常に広くはない水平ラインととも
にそのすぐ下方の第2の表題をすぐ下方に持つ表題はそ
の第2表題に追加される。
【0055】R8:本文のすぐ下方に配置され次に「広
い」表題の下方に配置されている「狭い」表題はその本
文のブロックに追加される。
【0056】特定の単純な新聞紙に対しては、以下のル
ールの追加がある(ルールの適用の順序は必須であり、
その結果、それらはそれらの副番号付けに従って上述の
ルールの間に追加しなければならないことを再び触れな
ければならない。) R2a:記事にいまだ追加されておらず、水平ラインの
下方に位置し表題またはラインによって水平ラインから
分離されていないいずれの本文ブロック、表題または写
真も、同一の位置的特性を持ついずれかの隣接する他の
本文ブロックまたは写真に追加される。
【0057】R4a:記事にいまだ追加されてなく「広
い」水平ラインのすぐ下方に配置されるとともに表題の
すぐ上方にも配置されたいずれの本文ブロックもその表
題に追加される。
【0058】R5a:水平ラインの上方に配置されると
ともにそれから表題またはラインによって分離されてな
く、また、水平ラインの下方に配置されるともにそれか
ら表題またはラインによって分離されていないいずれの
本文ブロックも、同一の位置的特性を持ついずれかの隣
接する表題、本文ブロックまたは写真に追加される。
【0059】R6a:他の本文ブロックのすぐ下方に配
置されたいずれの本文ブロックもそれに追加される。
【0060】R6b:2つの本文ブロックの右側に他方
の本文ブロックと同一の記事に属する本文ブロックまた
は写真が存在する場合には、水平ラインのすぐ下方に配
置されていて、その水平ラインは次に他の本文ブロック
のすぐ下方に配置された本文ブロックは他の本文ブロッ
クに追加される。
【0061】R6c:R4と同じ。
【0062】R8a:R4と同じ。
【0063】R6cおよびR8aはR4と同じである
が、それらは余分なものではない。その理由は、それら
は後の時間にその結果異なる中間結果に適用されるから
である。
【0064】すべてのルールが対象のすべての組み合わ
せに適用されると、対象は元の書類の記事に対応するグ
ループに組み合わされる。
【0065】別々の記事の再フォーマット化は処理ユニ
ット11の別々のモジュールによって実行される。以下
のルールが再フォーマット化に適用される。
【0066】・読取り順序は維持しなければならない。
【0067】・本文は原則として真の寸法に表示されな
ければならない。
【0068】・表題および写真は必要であればそれらの
元のフォーマットの40%の最小値に減少することがで
きる。
【0069】・本文ブロックは水平方向に分割したもの
とすることができる(つまり、2つのラインの間での切
断)。
【0070】再フォーマット化工程の前に、記事に対す
る入手可能な受入れ空間が決定される。これは一般的に
はプリンター用紙のフォーマットであるが、マウスを用
いてオペレータが小さくすることもできる。その場合に
は、スクリーン17上に受入れ空間が矩形の形状で表示
され、その後、オペレータがマウスを用いて下方右側角
をドラッグすることができる。その受入れ空間は新たな
下方右側角および(変更なしの)上方左側角によって画
定される矩形として設定される。
【0071】一度、その受入れ空間が決定されると、そ
れは読取り順序において記事の対象で満たされる。これ
は以下に示すように再フォーマット化によって実行され
る。
【0072】まず、表題および写真(存在すれば)受入
れ空間内に適合するか否かのチェックが行われる。そう
でない場合には、その種類の対象がそれが適合するため
に必要な分まで減縮される。その減縮は等方性(水平お
よび垂直方向に等しいこと)で、元の寸法の40%を決
して越えることはない。対象がそれでも適合しない場合
には、エラー信号が与えられ、再フォーマット化は停止
する。オペレータはその後必要な作業を行う(例えば、
さらに減縮するか記事から対象を削除する)。
【0073】その受取り空間の垂直列は記事の対象で埋
められる。その操作はその受取り空間の左側端部に接す
る列から開始する。その対象は読取り順序で一方が他方
の真下に位置し、左側端部に隣接するように上方から下
方に配置される。それらの条件においては、受入れ空間
の下方端部には所定の時間で到達またはその下方端部は
越えられる。それが越えられ、越えられた対象が本文ブ
ロックの場合には、それは受入れ空間内で下方端部まで
可能な限り接近するように分割され、残りの部分は次の
列の第1項目として配置される。
【0074】それから、どこに後続の列(右に見て)を
配置することができるのかのチェックを行う。次のその
列のために選択された左側の端部は、前の列内の最も狭
い本文ブロックと所定の分離距離(白空間)とを足した
もので、選択された上方の境界は決定された左側端部上
の最も高い位置であるが前の列の対象には配置されてい
ない。前の列から飛び出した写真を飛び越すことができ
るが(その場合には新しい列は2つの分割部分からな
る)、前にある列から飛び出た本文ブロックおよび表題
を飛び越すことはない。
【0075】これらのルールの効果を図5に示す。そこ
では、フレームが受取り空間を含んでおり、第1列、つ
まり最も遠い左側のものが、上方から下方に読む対象、
つまり、広い表題、平均的な本文ブロックより広い本文
ブロック、通常の本文ブロック、広い写真およびまた通
常の本文ブロックですでに満たされている。簡略化のた
め、後続のすべての対象は通常の本文ブロックである。
ルールによると、ハッチングで示す第2列は第1列の通
常の本文ブロックと対面する。その第2列は広い本文の
真下からすぐに始まり、写真を「飛び越す」。第3列
(交差ハッチング)が第2列に対面する。広い本文列は
その列の通りにはないので、第3列は表題からすぐに始
まるが、写真はその第3列の空間にまだ飛び出ていて飛
び越されている。最後に、第4列(水平のハッチングで
示す)には障害がないので、それは受取り空間の上方の
境界からその下方の境界まで延びる。
【0076】この場合には、受取り空間は再フォーマッ
ト化のための記事の対象で満たされる。受取り空間が記
事全体を含むほどには大きくないと思われる場合には、
再フォーマット化モジュールがエラー信号を与えてその
作業を停止する。オペレータは上述の方法にしたがって
受取り空間を拡大しまたはその記事を「切り貼り」コマ
ンド(ワード処理で公知)を用いて部分に分割し、それ
らの部分を別々に再フォーマット化することができる。
【0077】オペレータが再フォーマット化に満足しな
い場合には、そのオペレータは異なる寸法を用いて受取
り空間を再特定して再フォーマット化を行うことができ
る。
【0078】その結果がオペレータの要求を満たした場
合には、オペレータは本文のつながりを画像に追加して
記事の始点を特定し、それからその記事をプリンタで印
刷するコマンドまたはその画像データを出力15を経由
して出力するコマンドを与える。異なる(再フォーマッ
ト化された)記事は受信用紙に印刷するために組み合わ
せることもできる。ここで、再び、「切り貼り」および
「ドラッグ」のようなワード処理の通常の画像操作を用
いることができる。
【0079】本願発明を上記の例示の実施例を参照して
説明したが、それに限定されるものではない。保護範囲
は特許請求の範囲の記載から決定され、その範囲内の様
々なすべての可能性のあるものを含む。
【図面の簡単な説明】
【図1】合成書類、新聞紙からなる元の書類の例であ
る。
【図2】本願発明に係る装置の構成の概略図である。
【図3】本願発明に係る方法の流れ図の一部である。
【図4】本願発明に係る方法の流れ図の一部である。
【図5】本願発明に係る装置によって再構成された記事
の例である。
【符号の説明】
11 中央処理ユニット 12 スキャナ 14 プリンタ 16 オペレーティングユニット 17 VDU 18 マウス 20 メモリディスク
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成8年8月22日
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図1】
【図2】
【図5】
【図3】
【図4】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/62 330G

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 画像を持つ書類に対応する画像信号を入
    力する手段であって、該画像が以後「対象」と呼ぶ異な
    る構成要素部分からなる画像信号入力手段と、 前記画像を構成対象に分割する処理ユニットと、 前記画像の少なくとも一部を表示するVDUと、 スクリーン上の少なくとも1つの対象を選択する手段
    と、 前記処理ユニット内にあって少なくとも1つの選択され
    た対象を前記画像の残りの部分から分けて出力する手段
    とを備える装置であって、 前記処理ユニットが、前記画像の対象の中から以後「記
    事」と呼ぶ関連ある1グループの対象を識別する手段も
    有することを特徴とする装置。
  2. 【請求項2】 請求項1の装置において、記事を識別す
    る前記手段が、前記画像の対象の相互の位置関係を決定
    するとともに該位置関係に関する所定の組のルールに基
    づいて前記対象を区別する手段を備えることを特徴とす
    る装置。
  3. 【請求項3】 請求項1の装置において、前記処理ユニ
    ットが、画像を対象に分割したときに、前記対象を種類
    によって分類するのに適し、また、記事を識別する前記
    手段が、画像の対象の相互の位置関係を決定するととも
    に対象の種類および前記位置関係に関する所定の組のル
    ールに基づいて前記対象を区別する手段を備えることを
    特徴とする装置。
  4. 【請求項4】 請求項1、2または3のいずれかの装置
    において、スクリーン上の対象を選択する前記手段が記
    事を全体として選択するのに適し、また、前記処理ユニ
    ット内にあって少なくとも1つの選択された対象を画像
    の残りの部分から分けて出力する前記手段が、画像の残
    りの部分から別々に選択された記事を出力するのに適す
    ることを特徴とする装置。
  5. 【請求項5】 請求項4の装置において、前記処理ユニ
    ットが、記事に属する対象を読み取る予定の順序を決定
    する手段を備えることを特徴とする装置。
  6. 【請求項6】 請求項5の装置において、前記読取り順
    序を決定する手段が、記事内の対象の位置に関連する所
    定の組のルールに基づいて同様のものを決定することを
    特徴とする装置。
  7. 【請求項7】 請求項5または6の装置において、前記
    処理ユニットが、読取り順序を維持する間に記事の対象
    を再構成することによってその記事を他のフォームに導
    く手段を有することを特徴とする装置。
  8. 【請求項8】 請求項7の装置において、記事を他のフ
    ォームに導く前記手段が本文のブロックを互いに下方に
    配置するとともに2つのラインの間の本文のブロックを
    切り離しかつその結果の部分を異なる位置に配置するこ
    とに適していることを特徴とする装置。
  9. 【請求項9】 異なる記事からなる画像を含む新聞紙の
    紙面のような書類上の画像の残りの部分から記事を分離
    して出力する方法であって、 前記画像に対応する画像データを、例えば、本文ブロッ
    ク、表題、写真および図表要素のような、以後「対象」
    と呼ぶ画像の構成上の基本的構成部分に分割する工程
    と、 前記画像の対象の中から、以後「記事」と呼ぶ関連する
    対象のグループを識別する工程とを含む方法。
  10. 【請求項10】 請求項9の方法において、前記分割工
    程の後に画像の対象の相互の位置関係を決定し、また、
    その後に、前記位置関係に関連する所定の組のルールに
    基づいて記事を識別することを特徴とする方法。
  11. 【請求項11】 請求項9の方法において、前記分割工
    程の間に、対象を種類に関して分類し、また、画像の対
    象の相互の位置関係を決定し、さらに、その後に、対象
    の種類および前記位置関係に関連する所定の組のルール
    に基づいて記事を識別することを特徴とする方法。
  12. 【請求項12】 請求項9、10または11のいずれか
    の方法において、オペレータが記事を選択し、また、画
    像の残りの部分から分離された選択された記事に対応す
    る画像データをプリンタまたは他の出力に出力すること
    を特徴とする方法。
  13. 【請求項13】 請求項12の方法において、記事に属
    する対象を読み取るべき順序を決定することを特徴とす
    る方法。
  14. 【請求項14】 請求項13の方法において、前記読取
    り順序が、記事内の対象の位置に関連する所定の組のル
    ールに基づいて決定されることを特徴とする方法。
  15. 【請求項15】 請求項13または14の方法におい
    て、オペレータのコマンドがあると、記事の対象を再構
    成することによってその記事を他のフォームに導くが読
    取り順序は維持することを特徴とする方法。
  16. 【請求項16】 請求項15の方法において、記事の再
    構成の間に、本文のブロックが互いに下方の必要な場所
    に配置され、または本文のブロックが2つのラインの間
    で分離され、その結果の部分が異なる位置に配置される
    方法。
JP8190012A 1995-06-30 1996-07-01 書類から記事を抽出する装置および方法 Expired - Fee Related JP3048330B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL1000701 1995-06-30
NL1000701A NL1000701C2 (nl) 1995-06-30 1995-06-30 Inrichting en werkwijze voor het extraheren van artikelen uit een document.

Publications (2)

Publication Number Publication Date
JPH09120460A true JPH09120460A (ja) 1997-05-06
JP3048330B2 JP3048330B2 (ja) 2000-06-05

Family

ID=19761254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8190012A Expired - Fee Related JP3048330B2 (ja) 1995-06-30 1996-07-01 書類から記事を抽出する装置および方法

Country Status (5)

Country Link
US (1) US6134565A (ja)
EP (1) EP0753833B1 (ja)
JP (1) JP3048330B2 (ja)
DE (1) DE69605255T2 (ja)
NL (1) NL1000701C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500428A (ja) * 2008-08-13 2012-01-05 グーグル インコーポレイテッド 印刷媒体ページの記事へのセグメント化

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520952B2 (ja) * 1997-02-04 2004-04-19 シャープ株式会社 文書表示装置
EP0974102A4 (en) * 1997-04-09 2002-10-23 Zebra Software Solutions Ltd METHOD FOR AUTOMATICALLY LAYING A DOCUMENT BASED ON A TYPE OF DATA OBJECT
DE69835263T2 (de) 1997-10-13 2006-11-23 Matsushita Electric Industrial Co., Ltd., Kadoma Fuzzy Inferenzverfahren und -gerat
US6665841B1 (en) * 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6857102B1 (en) * 1998-04-07 2005-02-15 Fuji Xerox Co., Ltd. Document re-authoring systems and methods for providing device-independent access to the world wide web
US6151426A (en) 1998-10-01 2000-11-21 Hewlett-Packard Company Click and select user interface for document scanning
US6620206B1 (en) * 1999-01-27 2003-09-16 Hewlett-Packard Development Company, L.P. White space equalization around features placed on a page
US6674901B1 (en) * 1999-04-21 2004-01-06 Hewlett-Packard Development Company, L.P. Document analysis system and method
DE10000935C2 (de) * 1999-05-13 2003-07-31 Hewlett Packard Co Vorrichtung und Verfahren zum Steuern einer Dokumentenbereichsanalyse
US6880122B1 (en) 1999-05-13 2005-04-12 Hewlett-Packard Development Company, L.P. Segmenting a document into regions associated with a data type, and assigning pipelines to process such regions
US8132097B2 (en) * 1999-10-15 2012-03-06 Saepio Technologies, Inc. Computer-implemented system for creating a publication and method thereof
US6931591B1 (en) * 1999-10-15 2005-08-16 Saepio Technologies, Inc. Publishing layout wizard
US20020040375A1 (en) * 2000-04-27 2002-04-04 Simon Richard A. Method of organizing digital images on a page
WO2001093141A1 (en) * 2000-06-01 2001-12-06 Fujitsu Limited System for managing right of using and recorded medium
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
US6463220B1 (en) * 2000-11-08 2002-10-08 Xerox Corporation Method and apparatus for indicating a field of view for a document camera
US7058885B1 (en) * 2000-11-21 2006-06-06 Hewlett-Packard Development Company, L.P. Picture book template and system and method for creating the same
DE10160607A1 (de) * 2001-12-10 2003-06-26 Oce Printing Systems Gmbh Verfahren, Gerätesystem und Computerprogrammprodukt zur Erzeugung eines gedruckten Dokuments aus mehreren Eingangsdateien
DE10162559B4 (de) * 2001-12-19 2006-08-10 Siemens Ag Verfahren und Vorrichtung zur Unterdrückung von periodischen Störsignalen
US7275210B2 (en) * 2003-03-21 2007-09-25 Fuji Xerox Co., Ltd. Systems and methods for generating video summary image layouts
US8723964B2 (en) * 2003-09-12 2014-05-13 Sony Corporation Method and device for communication using an optical sensor
US7376282B2 (en) * 2003-11-20 2008-05-20 Xerox Corporation Method for designing nearly circularly symmetric descreening filters that can be efficiently implemented in VLIW (very long instruction word) media processors
US7697757B2 (en) * 2005-06-15 2010-04-13 Hewlett-Packard Development Company, L.P. Computer assisted document modification
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体
TWI320554B (en) * 2006-10-20 2010-02-11 Primax Electronics Ltd Method for calculating and adjusting photo and text separation performance
CN100530242C (zh) * 2007-09-14 2009-08-19 北大方正集团有限公司 一种图文的自动排版方法
JP2010123002A (ja) * 2008-11-20 2010-06-03 Canon Inc 文書画像レイアウト装置
CN101419717B (zh) * 2008-12-11 2011-01-05 北大方正集团有限公司 一种版式文件图文自动关联的方法及系统
CN102375806B (zh) * 2010-08-23 2014-05-07 北大方正集团有限公司 一种文档标题提取方法和装置
JP6311645B2 (ja) * 2015-05-08 2018-04-18 キヤノンマーケティングジャパン株式会社 情報処理装置、処理方法、およびプログラム
US10580215B2 (en) * 2018-03-29 2020-03-03 Rovi Guides, Inc. Systems and methods for displaying supplemental content for print media using augmented reality

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
US5185813A (en) * 1988-01-19 1993-02-09 Kabushiki Kaisha Toshiba Document image processing apparatus
US5181162A (en) * 1989-12-06 1993-01-19 Eastman Kodak Company Document management and production system
US5341469A (en) * 1991-05-13 1994-08-23 Arcom Architectural Computer Services, Inc. Structured text system
US5437008A (en) * 1992-06-23 1995-07-25 Adobe Systems Incorporated Method of establishing constraints and links in a distribution frame between graphical elements and resolving the constaints
NL9301004A (nl) 1993-06-11 1995-01-02 Oce Nederland Bv Inrichting voor het bewerken en reproduceren van digitale beeldinformatie.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012500428A (ja) * 2008-08-13 2012-01-05 グーグル インコーポレイテッド 印刷媒体ページの記事へのセグメント化

Also Published As

Publication number Publication date
EP0753833A1 (en) 1997-01-15
US6134565A (en) 2000-10-17
NL1000701C2 (nl) 1996-12-31
JP3048330B2 (ja) 2000-06-05
EP0753833B1 (en) 1999-11-24
DE69605255T2 (de) 2000-05-11
DE69605255D1 (de) 1999-12-30

Similar Documents

Publication Publication Date Title
JPH09120460A (ja) 書類から記事を抽出する装置および方法
US5459826A (en) System and method for preparing text and pictorial materials for printing using predetermined coding and merging regimen
DE4430369C2 (de) Verfahren und Einrichtung zum Erzeugen eines Dokumenten-Layouts
EP0381300B1 (en) Image processing system
US8139257B2 (en) Document editing apparatus, image forming apparatus, document editing method, and computer program product
EP0690415B1 (en) Editing scanned document images using simple interpretations
EP0654746A2 (en) Form identification and processing system
EP1739574B1 (en) Method of identifying words in an electronic document
EP0629078A1 (en) Apparatus for processing and reproducing image information
US7454697B2 (en) Manual and automatic alignment of pages
JPH09171557A (ja) イメージ処理方法及び装置
EP0760140B1 (en) Method and system for checking print orders for short run printing applications
JP3636490B2 (ja) 画像処理装置および画像処理方法
JP2022170175A (ja) 情報処理装置、情報処理方法、及びプログラム
US6996293B1 (en) Reduced image forming method and apparatus
JP2004280691A (ja) 文書ファイリング装置
JP4501731B2 (ja) 画像処理装置
JPH10337925A (ja) 折りのパターン表示方法
JP2006011746A (ja) 文書画像処理装置、文書画像処理プログラム、文書画像処理方法
US20090316210A1 (en) Image forming apparatus, image forming method and computer readable medium
JP2025138320A (ja) 画像読取装置、画像読取方法および画像形成装置
JP3154790B2 (ja) 光学的文字読取装置
JP2866464B2 (ja) 線図形境界抽出方法
JP2001307020A (ja) 文字認識装置
JP2005208978A (ja) 文書ファイリング装置および文書ファイリング方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080324

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090324

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090324

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100324

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110324

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120324

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130324

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130324

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140324

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees