JPH11232439A - 文書画像構造解析方法 - Google Patents

文書画像構造解析方法

Info

Publication number
JPH11232439A
JPH11232439A JP10050130A JP5013098A JPH11232439A JP H11232439 A JPH11232439 A JP H11232439A JP 10050130 A JP10050130 A JP 10050130A JP 5013098 A JP5013098 A JP 5013098A JP H11232439 A JPH11232439 A JP H11232439A
Authority
JP
Japan
Prior art keywords
document
page
extracted
index
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10050130A
Other languages
English (en)
Inventor
Toshinari Hayashi
俊成 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP10050130A priority Critical patent/JPH11232439A/ja
Priority to PCT/JP1999/000649 priority patent/WO1999041681A1/ja
Publication of JPH11232439A publication Critical patent/JPH11232439A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 より効率的で正確な文書画像構造解析方法を
提供すること。 【解決手段】 目次頁の文書画像を取り込んで得られる
テキストを解析して全体の文書構造を調べ(目次解
析)、本文頁の文書画像を取り込んでレイアウト解析を
行い、目次解析で得られた情報を用いてマッチング処理
を行うことにより、論理構造等を有した正確な電子化文
書が効率的に得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像構造解析
技術に関し、特に、文書の論理構造まで認識し効率的に
文書を電子化する文書画像構造解析技術に関する。
【0002】
【従来の技術】パーソナルコンピュータ、ワープロ等の
普及に伴い電子化文書が一般化しはじめ、これら電子化
文書の編集の容易さ、効率の良さから電子出版なども盛
んになってきている。この電子化文書を新たに作成する
場合は、その過程で適宜SGMLやODA などの標準マークア
ップ言語を使用すればよい。
【0003】一方、既存の印刷文書を電子化し再利用し
たいという要求も高く、特に膨大な蔵書をもつ図書館の
場合、書籍を電子化することによって、効率よく蔵書を
検索し参照することができる。これを実現する技術が文
書画像構造解析技術である。この文書画像構造解析技術
は、単なる文字認識、領域の識別だけでなく、スキャナ
から読み込んだ文書画像から各種の情報、例えば属性
(表紙、目次、図など)、章節構成、頁番号を獲得して
文書の論理的構造まで認識し、効率良く文書を蓄積する
処理技術である。
【0004】文書画像構造解析技術に関しては、文字認
識や図形認識等のメディア変換や文書画像のレイアウト
構造解析を中心として盛んに研究が行われている。文書
画像のレイアウト構造解析の研究として、拡大・縮退法
[ミックスモード通信のための文字領域の抽出アルゴリ
ズム,信学論(D) ,J67-D ,11,pp.1277-1285(1984-1
1) ]、連結法[マルチメディア文書構造処理システ
ム,画像電子学会誌,19,5 ,pp.286-295(1990-10)
]、周辺分布等に基づく領域分割法[スプリット検出
による文書画像構造解析,信学論(D-II),J74-D-II,4
,pp.491-499(1991-04)]などの文書要素抽出に関する
もの、書式定義言語を用いるもの[自動ファイリングの
ための文書理解の方式,学信論(D) ,J71-D ,10,pp.2
050-2058(1988-10) ]、モデルベースのアプローチ[モ
デルに基づいた文書画像のレイアウト理解,電子情報通
信学会論文誌(D-II),J75-D-II,10,pp.1673-1681]な
どが報告されている。これらは、文書のレイアウト要素
(カラム、図、表、文字行、文字など)の分離・抽出を
実現したものと言える。
【0005】
【発明が解決しようとする課題】書籍や雑誌などの文書
の「文書構造」は、図1に示すように、章節から成る
「論理構造」、頁が示す「線形構造」及び索引から本文
への「参照構造」からなる。目次は、文書の論理構造を
最も忠実かつ簡潔に表しているものであり、これを解析
することによって、文書の論理構造が得られる。しか
も、ほとんどの目次は図表などの情報を含んでいないの
で、領域分割における解析は容易で、この論理構造をベ
ースに、本文の文書画像を解析した方がより効率的な解
析を行うことができると考えられる。また、索引情報が
書籍のキーワードとなり、索引を解析することにより、
キーワードとして用いることが可能である。
【0006】従って、本発明の目的は、文書画像を電子
化文書に変換するに際し目次情報および索引情報を利用
してより正確で効率的な文書画像構造解析方法を提供す
ることにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文書画像構造解析方法では、文書全体の文
書構造を知るためにまず目次頁の文書画像を取り込んで
得られるテキストを解析する(目次解析)。次に、本文
頁の文書画像を取り込んでレイアウト要素を調べ(レイ
アウト解析)、目次解析で得られた情報を用いてレイア
ウト要素のマッチング処理を行い、論理構造、線形構造
及び参照構造等を有した電子化文書を得る(図2参
照)。
【0008】
【発明の実施の形態】本発明で行う処理の概略を示す。 文書全体(目次頁と本文頁)について文書画像を取り
込む。 目次解析:ラインごとを基本矩形で抽出し、文字認識
を行ってから解析する。ここでは、章節番号解析、見出
し抽出および各見出しの頁番号抽出を行なう。 本文解析:連続した数十頁を入力し各頁に対して、基
本矩形を抽出し解析する。ここでは、抽出した基本矩形
のレイアウト特徴からヘッダ・フッタ、頁番号、章節、
本文、図・表などのレイアウト要素の識別を行なう。図
・表として識別された矩形以外は、全て文字認識を行
う。 マッチング処理:目次解析で抽出した見出しの頁ごと
に、その見出しと本文解析で抽出した見出し候補とマッ
チングを行い、より正確な見出し情報を解析する。 索引解析処理:索引頁を基本矩形で抽出し、段組判定
を行ったあと、キーワードとなる索引および頁番号を抽
出する。なお、上記目次及び本文解析においては、夫々
の頁に対して抽出された基本矩形のレイアウト特徴(位
置、幅、高さ、インデントなど)を基にして解析する。
【0009】上記処理に関し、その好適且つ具体的な処
理内容をさらに説明する。 1.基本矩形の抽出(Basic Rectangle Extraction) 文書全頁に対する共通処理として、目次の場合は1頁ご
とに、本文の場合は左右開き頁ごとに、イメージスキャ
ナで読み取り2値画像に変換する。変換した画像に対し
ノイズ除去および傾き補正をした後、以下のアルゴリズ
ムによりレイアウト要素の基本単位となる基本矩形を抽
出する。 (1) 8 連結ラベリングにより隣接する黒画素領域を求
め、これに連結する最小矩形領域を求める。次に、領域
の重なり合った矩形をそれらの外接矩形で統合する。 (2) (1) で求めた矩形に対して、横方向の射影分布を求
め、空白は或しきい値以下で隣接する外接矩形の統合を
行い、文字列、行となる矩形を抽出する。以上の処理に
より、各頁の文字行列、図・表などは独立した基本矩形
として抽出される。
【0010】2.目次解析 目次のレイアウトも何種類かあるが、ここでは、表1の
左側に示すように文書に一番多く使われている、1行ご
とに一つの章・節を示すものとする。この場合、各行単
位は表1の右側に示すようなフォーマットの一つとな
る。
【0011】2.1 目次の構造分析 一般に文書の目次は、図表などの情報を含んでおらず、
基本矩形抽出処理を行った後、行ごとに切り出し、行単
位で文字認識を行い、文字コードに変換する。以下の処
理により、章節番号、頁番号および見出しを抽出する。
【0012】2.2 章節番号の抽出 見出しの内容が全部数字ではないという前提で(数字だ
けの見出しは考えられない)各行の最初の数文字分を取
り出し、この中から数字だけ抽出し、数字以外の文字
(例えば、「第?章」の「第」や「章」、「1−1」、
「1.1」のセパレータ文字「−」や「.」など)を取
り除く。この処理によって、章節番号を持たない見出し
は除かれ、表2のパターンのようになる。
【0013】2.3 頁番号の識別 章節番号解析と同様に、今度は各行から最後の一定文字
数を取り、このうち数字だけを抽出し、頁番号とする。
以下、見出しの各行の章節番号、見出しおよび頁番号を
見出しセット(headline set)と呼び、頁番号がない行
は、下の行の頁番号をこの見出しの頁番号とする。ま
た、各見出しセットの見出し部と頁番号部の間に使われ
るセパレータ(「,」、「.」、空白など)の文字コー
ドは取り除かれる。以上の処理によって、目次のフォー
マットは表1の右側のようになる。
【0014】
【表1】
【0015】
【表2】
【0016】2.4 節番号の補正 節番号の補正については、山田[文書画像のODA 論理構
造化文書への変換方式,進学論(D-II),J76-D-II,11,
pp2274-2284(1993-11)]はあるmレベルの階層にある節
番号に対して、1次導出番号および2次導出番号を利用
したマッチング手法によって、補正することができた。
しかし、文字認識する際セパレータである「−」
や「.」などの脱落や認識誤りなどの原因で、マッチン
グが失敗することもある。この問題を回避するために、
節番号を抽出する際に、セパレータ文字を取り除き、こ
こで、あるmレベルの階層の節番号snr に対して、次に
予想される節番号は最高m+1レベルで、図5に示した
通りになる。これらをsnr の1次導出番号と呼び、この
1次導出番号の次に生じ得る節番号の全体をsnr の2次
導出番号とし、以下、同様にn次導出番号を定義する。
これらの章節番号は、文字の誤認識あるいは見出しに数
字が含まれている場合もあるので、ここでは、このよう
な乱れは散発的に起きると想定して、次のような補正処
理と行う。
【0017】(1) 節番号リストから1個目の数字を解析
の始点(snr0)とし、その数字は必ず0あるいは1であ
り、これを開始点とする。 (2) この開始点を snri とし、目次リストから次の節番
号のある行の節番号を snri+1 、次の次の節番号のある
行の節番号を snri+2 とする。 (3) snri+1 が snri の1次導出番号のいずれかとマッ
チングが成功すれば、 snri+1 を新始点とし、(2) を繰
り返す。 (4) snri+1 が snri の1次導出番号のいずれともマッ
チングしない場合、次の処理を行う。 (ケース1): snri+1 に文字認識の誤りがあるものの
数字部分が存在しているsnri+2 を snri の2次導出番
号と比較し、マッチングが成功すれば snri+2 を新始点
とし(2) へ戻る。この時、 snri+1 の訂正も行う。 (ケース2):文字認識の誤りにより節番号部に数字が
存在していない snri+1の目次リスト番号と snri の目
次リスト番号の差分は2であり、かつ snri の1次導出
番号とマッチングした場合、 snri+1 を新始点とし、前
の目次セットに節番号を追加する。 (5) (4) のいずれも失敗した場合、本処理全体を失敗と
みなす。なお、本処理が失敗したとしても節番号を抽出
できないだけであり、引き続き他の処理を行う。
【0018】3.本文レイアウト解析 3.1 処理概要 文書の本文頁には、見出し、本文、図表(写真も含
む)、ヘッダ・フッタ、頁番号などのレイアウト要素が
含まれる。従って、文書の本文領域は、大別して見出し
領域、本文領域、図表・写真領域、ヘッダ・フッタ領
域、頁番号領域から構成される。これらの領域は、罫線
(Field Separator) 、または空白領域によって分類さ
れ、領域分割のために、まず画像をスキャナーから入力
し二値化、ノイズ除去等の前処理をした後、矩形の抽出
を行う。得られた矩形から特徴量を用いて、各矩形の識
別を行う。以下、処理フローに従って処理の詳細につい
て述べる。
【0019】3.2 画像入力および特徴量の抽出 連続した複数頁を有する文書から見開き2頁を1画像と
して入力し、二値化処理、雑音除去をした後、左右の頁
ごとに紙面中のすべての黒画素を囲む外接方形(Boundin
g Rectangle)を求め、この外接方形の左上角を(0,
0)座標とする。これは、後で述べる基本方形特徴の一
つに相対座標を用いるものがあり、印字領域をそろえる
必要がある。左右頁ごとに、基本矩形を抽出した後、図
3に示すように抽出した矩形から左上座標(x,y)、
幅、高さ、インデント(揃え)、上下行間の6つの特徴
量とする。インデントは画像の左端基準位置から個々の
矩形の左端までの変位とし、行間については抽出した矩
形にソートを行い上下の矩形との距離とする。また、得
られた矩形ごとに文字認識を行い、文字コードとして保
持し、頁ごとに基本矩形リストを作成し、以下、これを
本文リストと呼ぶ。
【0020】3.3 頁番号、ヘッダ・フッタの抽出 頁番号、ヘッダ・フッタは必ず各頁の最上行あるいは最
下行にあるので、各頁の最上、下行の基本矩形を候補と
する。後述する方法でヘッダ・フッタおよび頁番号を抽
出する。
【0021】3.3.1 ヘッダ・フッタの抽出 ヘッダ・フッタは頁毎についており、内容は全部同じと
はかぎらないが、置く位置は必ず頁の一番上あるいは一
番下の行にある。しかも、その文字の大きさつまり基本
矩形の高さが等しく、長さは頁番号の基本矩形より長い
が、頁外接矩形の幅より短い。以上の条件により、下記
の方法でヘッダ・フッタを抽出する。
【0022】特徴量の右上座標を利用し連続とした各
頁の最上下行にある基本矩形を取り出し、上下別々に高
さの統計をとり、数の一番多いものを候補とする。 全候補の中から長さがある一定以下であるもの(頁番
号の基本矩形)と、頁外接矩形の幅と同じもの(本文の
基本矩形)を取り除く。 上下行の数を別々に計算し、多い方をヘッダ・フッタ
候補とする。本文リストから上述の方法で得られたヘッ
ダ・フッタ候補の基本矩形を取り除く。
【0023】3.3.2 頁番号の抽出 ヘッダ・フッタの抽出方法と同じく、最上下行の基本矩
形を調べ、高さが等しく、しかも内容が数字である場
合、これを頁番号候補とする。文書によって、頁番号
は、ヘッダ・フッタの隣にあり、基本矩形を切り出す
際、ヘッダ・フッタと同じ基本矩形にある可能性もある
ので、上述の方法で頁番号を抽出できない場合、ヘッダ
・フッタ候補のうち最も外側(左頁は先頭の文字列、右
頁は後ろの文字列)の数字を取り出し頁番号候補とす
る。なお、文字の認識誤りにより、頁番号が間違ってい
る可能性があるが、頁番号は連続した数字順であるの
で、ある頁の頁番号を基準としその番号がNである場
合、前頁の頁番号はN−1、次の頁番号はN+1とし
て、最後の頁までマッチングを行い、マッチング率が7
0%以上の場合に正しい頁番号順とし、この頁番号順と
合っていない頁番号を補正する。最後に、頁番号が抽出
されなかった頁に対し、抽出された他の頁の頁番号と同
じ位置にある基本矩形を頁番号候補とし、全頁番号候補
を本文リストから取り除く。
【0024】3.4 本文識別 本文は、文書に最も多い矩形であるので、本文リストに
ある全ての基本矩形の特徴量から高さと行間の統計をと
り、もっとも多い基本矩形を本文領域候補とする。ま
た、これらの基本矩形パターンは、図4に示すように三
つあるので、以下の条件の一つに合うものを本文領域候
補とする。 パターンA:インデントがありかつ本文領域の右端ま
での長さがある。 パターンB:頁の外接矩形と同じ幅の矩形 パターンC:インデントがない。 なお、パターンBとパターンCに合った基本矩形の場合
は、前の基本矩形がパターンAあるいはパターンBに属
しているものだけとし、頁の一番上の基本矩形である場
合は、前の基本矩形は前頁の最後にある基本矩形とす
る。以上の処理を終わった後、本文リストから本文領域
と認識されるものを取り除く。
【0025】3.5 見出しの識別 本文リストに残された基本矩形の全てを見出し候補とし
ておく。これには本文識別に失敗したもの一部が含まれ
てしまうが、最終的に見出しとのマッチングで識別す
る。
【0026】4.マッチング処理 4.1 目次の見出しと本文の見出しとのマッチング処
理 マッチング処理では、本文レイアウト解析から得られた
見出し候補のうちのテキストが目次解析で得られた見出
しテキストと最も一致している基本矩形を見出しとす
る。具体的には、目次から作成された見出しセットリス
トから章節番号、見出し、頁番号の見出しセット1組を
抜出し、その頁番号にある見出し候補と比較し、一致率
の最も高い見出し候補をこの見出しとする。比較する際
は、見出しセットの章節番号と見出しは、文字認識で得
られた文字列を用いる。この一致率は、下式に示すよう
な方法で計算される。 (2つの比較文字列のうち一致する文字数)/(長い文
字列の方の文字数)
【0027】5.索引解析処理 5.1 段組判定 索引頁の基本矩形抽出を行った後、以下の二タイプの索
引頁を段組判定する。 1.セパレータのある場合 段組を分けるセパレータのある場合は、その座標を調べ
ることによって、段組部分を分けることができる。 2.セパレータのない場合 セパレータのない場合、まず、全頁をY座標方向にヒス
トグラムをとり、濃度で行として区切る。次に行ごとに
文字認識を行い、得られた結果から文字であるのか数字
であるのかを調べる。そして、数字でない文字列領域を
索引情報の文字部分とし、数字である部分を頁番号とす
る。これによって、索引頁の段組を分ける。 5.2 索引解析 この解析方法では索引行ごとに逐次解析していく手法を
とっているので、同じ段に存在する領域をまとめ、さら
にそのまとめた段組を高い順に並び換える。次に、段組
領域を各行の文字となり索引部分と頁番号となる数字部
分で分け、索引情報リストを作成する。
【0028】
【発明の効果】以上説明したごとく、本発明によれば格
納すべき対象文書の論理構造を自動的に解析することが
可能になり、キーボートから二次情報を入力することが
不要となるかあるいは大幅に削減されるので、入力がき
わめて簡素化されることになる。また、文書の論理構造
を解析したことにより、大型ハイパーテキストシステム
を構築することが簡単になる。
【図面の簡単な説明】
【図1】文書の文書構造を示す。
【図2】本発明の処理ブロック図を示す。
【図3】基本矩形の特徴量を示す。
【図4】本文の基本矩形パターンA、B及びCを示す。
【図5】章節番号補正の説明図である。
【図6A】章節番号補正の説明図である。
【図6B】章節番号補正の説明図である。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】少なくとも目次頁及び本文頁を有する文書
    から電子化文書を作る際、目次頁及び本文頁の各文書画
    像を取り込み、目次頁に示された文書全体の文書構造を
    解析し、本文頁のレイアウト解析を行ってレイアウト要
    素を分離・抽出し、目次頁解析から得られた文書全体の
    文書構造の情報を用いて、本文頁のレイアウト要素に対
    してマッチング処理を行う、文書画像構造解析方法。
  2. 【請求項2】目次頁に示された文書全体の文書構造を解
    析する際、章節番号の文字認識誤りに対応して章節番号
    補正を行う、請求項1記載の文書画像構造解析方法。
  3. 【請求項3】索引を含んだ文書を電子化する際に、索引
    情報を解析し、索引とその索引の頁番号を分け、書籍を
    検索する際に索引をキーワードとして用いる文書画像解
    析システム。
JP10050130A 1998-02-16 1998-02-16 文書画像構造解析方法 Pending JPH11232439A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10050130A JPH11232439A (ja) 1998-02-16 1998-02-16 文書画像構造解析方法
PCT/JP1999/000649 WO1999041681A1 (en) 1998-02-16 1999-02-15 Document image structure analyzing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10050130A JPH11232439A (ja) 1998-02-16 1998-02-16 文書画像構造解析方法

Publications (1)

Publication Number Publication Date
JPH11232439A true JPH11232439A (ja) 1999-08-27

Family

ID=12850567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10050130A Pending JPH11232439A (ja) 1998-02-16 1998-02-16 文書画像構造解析方法

Country Status (2)

Country Link
JP (1) JPH11232439A (ja)
WO (1) WO1999041681A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503075A (ja) * 2006-08-30 2010-01-28 アマゾン テクノロジーズ,インク. ドキュメントページの自動分類
WO2012118135A1 (ja) * 2011-03-02 2012-09-07 日本電気株式会社 書籍情報提供システム、電子書籍端末、電子書籍情報サーバ、書籍情報提供方法およびそのプログラム
JP2014075032A (ja) * 2012-10-04 2014-04-24 Nippon Steel & Sumitomo Metal 情報処理装置、タイトル抽出方法及びプログラム
JP2014164384A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2014527660A (ja) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. レイアウトファイルにおける構造化情報の取得方法及び装置
US9355313B2 (en) 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407889B (zh) * 2021-07-15 2023-10-20 北京百度网讯科技有限公司 小说转码方法、装置、设备以及存储介质
CN115114892A (zh) * 2022-07-22 2022-09-27 武汉烽火技术服务有限公司 一种文稿生成方法与装置
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03161866A (ja) * 1989-11-20 1991-07-11 Seiko Epson Corp 目次認識装置
JP3074191B2 (ja) * 1991-03-15 2000-08-07 富士通株式会社 目次の検査を行う文書処理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503075A (ja) * 2006-08-30 2010-01-28 アマゾン テクノロジーズ,インク. ドキュメントページの自動分類
WO2012118135A1 (ja) * 2011-03-02 2012-09-07 日本電気株式会社 書籍情報提供システム、電子書籍端末、電子書籍情報サーバ、書籍情報提供方法およびそのプログラム
JP2014527660A (ja) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. レイアウトファイルにおける構造化情報の取得方法及び装置
JP2014075032A (ja) * 2012-10-04 2014-04-24 Nippon Steel & Sumitomo Metal 情報処理装置、タイトル抽出方法及びプログラム
JP2014164384A (ja) * 2013-02-22 2014-09-08 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US9355313B2 (en) 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document

Also Published As

Publication number Publication date
WO1999041681A1 (en) 1999-08-19

Similar Documents

Publication Publication Date Title
Shafait et al. Table detection in heterogeneous documents
CN111090990B (zh) 一种医疗体检报告单文字识别及纠正方法
US7937653B2 (en) Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
JP3940491B2 (ja) 文書処理装置および文書処理方法
Tran et al. Table detection from document image using vertical arrangement of text blocks
Mandal et al. A simple and effective table detection system from document images
Khurshid et al. Word spotting in historical printed documents using shape and sequence comparisons
KR100412317B1 (ko) 문자인식/수정방법및장치
US7046847B2 (en) Document processing method, system and medium
Harit et al. Table detection in document images using header and trailer patterns
JP2003288334A (ja) 文書処理装置及び文書処理方法
Palfray et al. Logical segmentation for article extraction in digitized old newspapers
JP2005043990A (ja) 文書処理装置および文書処理方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
Chowdhury et al. Automated segmentation of math-zones from document images
JPH11232439A (ja) 文書画像構造解析方法
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
KR20060007204A (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
US20230315799A1 (en) Method and system for extracting information from input document comprising multi-format information
JPH08320914A (ja) 表認識方法および装置
US20020085755A1 (en) Method for region analysis of document image
Saitoh et al. Document image segmentation and layout analysis
Kamola et al. Image-based logical document structure recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070704