JPH04248687A - 文書画像のレイアウト解析方法及びシステム - Google Patents
文書画像のレイアウト解析方法及びシステムInfo
- Publication number
- JPH04248687A JPH04248687A JP3021471A JP2147191A JPH04248687A JP H04248687 A JPH04248687 A JP H04248687A JP 3021471 A JP3021471 A JP 3021471A JP 2147191 A JP2147191 A JP 2147191A JP H04248687 A JPH04248687 A JP H04248687A
- Authority
- JP
- Japan
- Prior art keywords
- separator
- data
- character string
- area
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【産業上の利用分野】本発明は、レイアウトモデルを用
いた文書画像のレイアウト解析方法及びシステムに関す
る。
いた文書画像のレイアウト解析方法及びシステムに関す
る。
【0002】
【従来の技術】大容量光デイスクを用いた文書ファイリ
ングシステムが実用化されている。電子化された文書画
像のデータベースは、従来の紙をベースにしたファイリ
ングに比べて、省スペース、分類、検索の容易性という
点で優れているのみならず、個々の情報を互に関連付け
たり情報の概念体系を構築することにより、より高度な
情報検索を行うことができるという利点を有する。しか
し、現在の市場に出回っているファイリングシステムは
、必ずしもこれらの要求を満たしているわけではない。 多くのシステムではページ単位で2値画像を格納し、オ
ペレータが個々の画像にインデックス、キーワードをつ
けるというのが一般的である。したがって、情報を体系
化して蓄積する機能としては、従来の紙をベースにした
ファイリングとなんら変わるところがない。各々の文書
画像は、情報の集積としてではなく、単なる絵として蓄
えられているにすぎない。
ングシステムが実用化されている。電子化された文書画
像のデータベースは、従来の紙をベースにしたファイリ
ングに比べて、省スペース、分類、検索の容易性という
点で優れているのみならず、個々の情報を互に関連付け
たり情報の概念体系を構築することにより、より高度な
情報検索を行うことができるという利点を有する。しか
し、現在の市場に出回っているファイリングシステムは
、必ずしもこれらの要求を満たしているわけではない。 多くのシステムではページ単位で2値画像を格納し、オ
ペレータが個々の画像にインデックス、キーワードをつ
けるというのが一般的である。したがって、情報を体系
化して蓄積する機能としては、従来の紙をベースにした
ファイリングとなんら変わるところがない。各々の文書
画像は、情報の集積としてではなく、単なる絵として蓄
えられているにすぎない。
【0003】より高度なファイリングシステムを構築す
るためには、文書画像から文書の内容を抽出することが
必要である。いわゆる文字認識の技術は既に成熟期にさ
しかかっており、かな漢字を含んだ印刷文書の認識では
マルチフォントの読み取りを完全に行えるシステムこそ
まだないけれども、ある程度機能を限定すれば98%を
越える高率で読み取ることが可能な商用機が出回ってい
る。しかし、印刷文書の読み取りに関しては、認識以前
に文字部分と図表部分を分離し、読み取り順序を決定す
るセグメンテーションが重要かつ困難な問題である。さ
らに高度な情報検索を可能にするためには、単なる文字
部分と図表の分離にとどまらず、文書画像を意味的に一
様な領域に切り分け、かつ個々の領域が表題、著者名、
本文といった紙面の構成要素のうちのどれであるかを識
別するレイアウト理解が必要である。
るためには、文書画像から文書の内容を抽出することが
必要である。いわゆる文字認識の技術は既に成熟期にさ
しかかっており、かな漢字を含んだ印刷文書の認識では
マルチフォントの読み取りを完全に行えるシステムこそ
まだないけれども、ある程度機能を限定すれば98%を
越える高率で読み取ることが可能な商用機が出回ってい
る。しかし、印刷文書の読み取りに関しては、認識以前
に文字部分と図表部分を分離し、読み取り順序を決定す
るセグメンテーションが重要かつ困難な問題である。さ
らに高度な情報検索を可能にするためには、単なる文字
部分と図表の分離にとどまらず、文書画像を意味的に一
様な領域に切り分け、かつ個々の領域が表題、著者名、
本文といった紙面の構成要素のうちのどれであるかを識
別するレイアウト理解が必要である。
【0004】レイアウト理解の研究については、次のよ
うな方法が従来研究されている。 (A)文書画像から特徴量を抽出しそれらの分布、規則
性から文字領域と図表領域を分離する方法や新聞記事等
の特殊な規則に則って書かれた文書について、その規則
を利用して記事を切り分ける(例えば、K.Inaga
ki, T.Kato, A.Hiroshima,a
nd T.Sakai: ”MACSYM: A Hi
erarchical Image Processi
ng System for Event−Drive
n Pattern Understanding S
ystem,” Proc. 7th Int. Co
nf. Pattern Recognition,
pp.612−614, 1984)。
うな方法が従来研究されている。 (A)文書画像から特徴量を抽出しそれらの分布、規則
性から文字領域と図表領域を分離する方法や新聞記事等
の特殊な規則に則って書かれた文書について、その規則
を利用して記事を切り分ける(例えば、K.Inaga
ki, T.Kato, A.Hiroshima,a
nd T.Sakai: ”MACSYM: A Hi
erarchical Image Processi
ng System for Event−Drive
n Pattern Understanding S
ystem,” Proc. 7th Int. Co
nf. Pattern Recognition,
pp.612−614, 1984)。
【0005】(B)文字領域をさらに構成要素に細分化
するために、書式定義言語を開発しこれを利用する(例
えば、東野、藤沢、中野、江尻:”矩形領域の集合表現
に基づく知識表現言語FDLと文書画像理解への応用,
” 信学技法、PRU86−31、1986)。
するために、書式定義言語を開発しこれを利用する(例
えば、東野、藤沢、中野、江尻:”矩形領域の集合表現
に基づく知識表現言語FDLと文書画像理解への応用,
” 信学技法、PRU86−31、1986)。
【0006】(C)構成要素の位置等の幾何的情報を盛
りこんだ木構造モデルとのすり合せによって構成要素の
認識を行う(例えば、A.Dengel and G.
Barth: ”High Level Docume
nt Analysis Guided by Geo
metric Aspects,” Int. Jou
rnal of Pattern Recogniti
on and Artificial Intelli
gence, 2,4, pp.641−655, 1
988、 西村、高橋、小林 ”木構造モデルによる
文書画像からの検索情報抽出,” 信学技法、PRU
89−34, 1989)。
りこんだ木構造モデルとのすり合せによって構成要素の
認識を行う(例えば、A.Dengel and G.
Barth: ”High Level Docume
nt Analysis Guided by Geo
metric Aspects,” Int. Jou
rnal of Pattern Recogniti
on and Artificial Intelli
gence, 2,4, pp.641−655, 1
988、 西村、高橋、小林 ”木構造モデルによる
文書画像からの検索情報抽出,” 信学技法、PRU
89−34, 1989)。
【0007】(D)ルールベースのエキスパートシステ
ムを枠組みとして用いる(例えば、黄瀬、杉山、馬場口
、手塚: ”レイアウトモデルに基づく文書構造解析
,”信学論、72−D2,7,pp1029−1039
、D.Niyogi and S.N.Srihari
: ”A Rule−Based System fo
rDocument Understanding S
ystem,” Proc. AAAI, pp.78
9−793, 1986)。
ムを枠組みとして用いる(例えば、黄瀬、杉山、馬場口
、手塚: ”レイアウトモデルに基づく文書構造解析
,”信学論、72−D2,7,pp1029−1039
、D.Niyogi and S.N.Srihari
: ”A Rule−Based System fo
rDocument Understanding S
ystem,” Proc. AAAI, pp.78
9−793, 1986)。
【0008】新聞という特殊な対象に特化した解析手法
を用いている(A)の方式は、新聞固有のルールにこだ
わりすぎたために,一般文書に拡張するのは困難である
。 特に、過去において行われた新聞を対象としたレイアウ
ト理解は、新聞作成が写植から電算化される時代になっ
た現在では、実用性を全く失っている。書式言語を定義
した(B)の方式や構成要素の配置、抽出方法等を全て
ルールで書き下だす(D)の方式は、それぞれ書式言語
やル−ルを書けばどのような文書も解析することができ
、汎用的な手法といえる。しかし、書式の定義が大変煩
雑かつ柔軟性に乏しく、したがって文書の各ページにつ
いてこのような細かい記述をするのでは実用的とは言い
難い。
を用いている(A)の方式は、新聞固有のルールにこだ
わりすぎたために,一般文書に拡張するのは困難である
。 特に、過去において行われた新聞を対象としたレイアウ
ト理解は、新聞作成が写植から電算化される時代になっ
た現在では、実用性を全く失っている。書式言語を定義
した(B)の方式や構成要素の配置、抽出方法等を全て
ルールで書き下だす(D)の方式は、それぞれ書式言語
やル−ルを書けばどのような文書も解析することができ
、汎用的な手法といえる。しかし、書式の定義が大変煩
雑かつ柔軟性に乏しく、したがって文書の各ページにつ
いてこのような細かい記述をするのでは実用的とは言い
難い。
【0009】(C)のDengelの方式では、ユーザ
がレイアウトに関する知識として、簡単な木構造の構成
要素モデルを与え、システムがそれを基に解析を行うも
のである。多種類の文書に適用でき、かつモデルの記述
は(B)、(D)の方式より容易である。しかし、紙面
上で占める位置座標の情報を木構造モデルに組み込み、
それを積極的に利用しているので、構成要素の大きさの
変動や位置ずれに弱く、同一種類の文書でも場合によっ
ては複数のモデルが必要になる。
がレイアウトに関する知識として、簡単な木構造の構成
要素モデルを与え、システムがそれを基に解析を行うも
のである。多種類の文書に適用でき、かつモデルの記述
は(B)、(D)の方式より容易である。しかし、紙面
上で占める位置座標の情報を木構造モデルに組み込み、
それを積極的に利用しているので、構成要素の大きさの
変動や位置ずれに弱く、同一種類の文書でも場合によっ
ては複数のモデルが必要になる。
【0010】同様に、西村らの方式でも構成要素の出現
が予想される場所の座標情報をモデルに与えており、上
記Dengelの方式と同様の問題点を持つ。さらに、
モデルとのすり合せの段階でDPマッチングを使ってお
り、構成要素の配置が1次元的な順序関係の部分(論文
のタイトル、著者名等)だけを解析対象としている。こ
の方式を表や特許公報のように構成要素が2次元的に配
置されている文書の解析に拡張すると、膨大な計算が必
要となる。
が予想される場所の座標情報をモデルに与えており、上
記Dengelの方式と同様の問題点を持つ。さらに、
モデルとのすり合せの段階でDPマッチングを使ってお
り、構成要素の配置が1次元的な順序関係の部分(論文
のタイトル、著者名等)だけを解析対象としている。こ
の方式を表や特許公報のように構成要素が2次元的に配
置されている文書の解析に拡張すると、膨大な計算が必
要となる。
【0011】すべてのレイアウト理解方式に共通して言
えることは、解析にあたって文書の構成要素に関する知
識(モデル)を与えてやらなければならないということ
である。そして、全ての文書に対処できるだけの膨大な
モデルを予め用意することは不可能なので、処理対象と
なる文書に応じてユーザにモデルを記述してもらうこと
を念頭におく必要がある。そこで、上記(B)、(C)
、(D)の方法は、書式が不定形な一般文書から、表の
ような特殊な書式を持ったものまで、様々な文書画像に
対し、構成要素を検出するために同一の手法を適用しよ
うとして、構成要素の位置情報を含む多くの情報を与え
て1つのモデルを指定しようとした。しかし、指定しな
ければならない情報が多いほど、ユーザはモデルを簡単
に指定できなくなる。
えることは、解析にあたって文書の構成要素に関する知
識(モデル)を与えてやらなければならないということ
である。そして、全ての文書に対処できるだけの膨大な
モデルを予め用意することは不可能なので、処理対象と
なる文書に応じてユーザにモデルを記述してもらうこと
を念頭におく必要がある。そこで、上記(B)、(C)
、(D)の方法は、書式が不定形な一般文書から、表の
ような特殊な書式を持ったものまで、様々な文書画像に
対し、構成要素を検出するために同一の手法を適用しよ
うとして、構成要素の位置情報を含む多くの情報を与え
て1つのモデルを指定しようとした。しかし、指定しな
ければならない情報が多いほど、ユーザはモデルを簡単
に指定できなくなる。
【0012】また、実際の文書では、たとえ同一種類の
ものであっても、構成要素の位置や大きさが変動するこ
とが十分予想される。しかし、従来の方式のようにモデ
ルの記述が詳しくなると、1つのモデルでカバーできる
文書画像の範囲が狭まる。そこで、従来の方式では、そ
ういった変動に対応するために、同一種類の文書のため
に2以上のモデルを指定しなければならなかった。
ものであっても、構成要素の位置や大きさが変動するこ
とが十分予想される。しかし、従来の方式のようにモデ
ルの記述が詳しくなると、1つのモデルでカバーできる
文書画像の範囲が狭まる。そこで、従来の方式では、そ
ういった変動に対応するために、同一種類の文書のため
に2以上のモデルを指定しなければならなかった。
【0013】
【発明が解決しようとする課題】したがって、本発明の
目的は、モデルとしてトップダウンに与える情報が少な
くても、文書画像から構成要素を正確に検出することに
ある。
目的は、モデルとしてトップダウンに与える情報が少な
くても、文書画像から構成要素を正確に検出することに
ある。
【0014】本発明の他の目的は、1つのモデルでもっ
て、構成要素の位置または大きさの変動に十分対応する
ことのできるレイアウト解析方式を提供することにある
。
て、構成要素の位置または大きさの変動に十分対応する
ことのできるレイアウト解析方式を提供することにある
。
【0015】本発明のさらに他の目的は、全く書式の異
なる文書であっても、与えるモデルを変えるだけで、レ
イアウトの解析を可能にすることにある。
なる文書であっても、与えるモデルを変えるだけで、レ
イアウトの解析を可能にすることにある。
【0016】本発明のさらに他の目的は、機械の行う計
算量の増加を抑制しつつ、ユーザの負担を減少させるこ
とにある。
算量の増加を抑制しつつ、ユーザの負担を減少させるこ
とにある。
【0017】
【課題を解決するための手段】本発明は、紙面の構成要
素が木構造で表わされる階層関係をなす文書画像のレイ
アウトを解析する方法であって、(a)構成要素相互の
位置関係データ、各構成要素の紙面上での存否に関わる
データ、各構成要素が含む文字列または直接の下位構成
要素の数に関するデータを含むレイアウトモデルを作成
し、(b)文書の画像データを入力し、(c)上記画像
データに基づいて文字列領域と一定の条件を満たす白ま
たは黒領域たるセパレータとを検出し、それらの位置デ
ータを発生させ 、(d)上記文字列領域とセパレータ
の位置関係を制約として用い、上記レイアウトモデルが
含むデータと矛盾しないように、各文字列領域に最適な
構成要素名を割り当てるステップを含む。
素が木構造で表わされる階層関係をなす文書画像のレイ
アウトを解析する方法であって、(a)構成要素相互の
位置関係データ、各構成要素の紙面上での存否に関わる
データ、各構成要素が含む文字列または直接の下位構成
要素の数に関するデータを含むレイアウトモデルを作成
し、(b)文書の画像データを入力し、(c)上記画像
データに基づいて文字列領域と一定の条件を満たす白ま
たは黒領域たるセパレータとを検出し、それらの位置デ
ータを発生させ 、(d)上記文字列領域とセパレータ
の位置関係を制約として用い、上記レイアウトモデルが
含むデータと矛盾しないように、各文字列領域に最適な
構成要素名を割り当てるステップを含む。
【0018】この方法では、文書画像から得られるボト
ムアップの情報を十分に利用しているので、モデルとし
てトップダウンに与える情報を少なくしても解析が可能
である。したがって、モデルの記述は非常に容易なもの
となり、記述が少ない分1つのモデルで広い範囲の文書
画像をカバーできる。
ムアップの情報を十分に利用しているので、モデルとし
てトップダウンに与える情報を少なくしても解析が可能
である。したがって、モデルの記述は非常に容易なもの
となり、記述が少ない分1つのモデルで広い範囲の文書
画像をカバーできる。
【0019】また、画像の解析のために、区切りである
信頼性の高いセパレータと、信頼性の低いサブセパレー
タを区別して抽出している。そして、明確な区切りと考
えられるセパレータの情報を使いて文字列領域に割り当
てる構成要素名の候補を絞ることにより、文字列領域へ
の構成要素名の割当パターンが爆発的に発生するのを防
ぎ、要素の区切りを最終的に確定する段階でサブセパレ
ータの情報を取り込んだコスト関数を用いるという方式
により、レイアウト理解の効率の良さと正確さの両面を
実現する。
信頼性の高いセパレータと、信頼性の低いサブセパレー
タを区別して抽出している。そして、明確な区切りと考
えられるセパレータの情報を使いて文字列領域に割り当
てる構成要素名の候補を絞ることにより、文字列領域へ
の構成要素名の割当パターンが爆発的に発生するのを防
ぎ、要素の区切りを最終的に確定する段階でサブセパレ
ータの情報を取り込んだコスト関数を用いるという方式
により、レイアウト理解の効率の良さと正確さの両面を
実現する。
【0020】極端な例では文書画像からセパレータが検
出されない場合も考えられるが、その場合でもレイアウ
トモデルとサブセパレータのデータから(弛緩法の効率
は悪くとも)正しい解析結果を得ることができる。
出されない場合も考えられるが、その場合でもレイアウ
トモデルとサブセパレータのデータから(弛緩法の効率
は悪くとも)正しい解析結果を得ることができる。
【0021】
【実施例】1.レイアウトモデル
一般に、レイアウト理解において、紙面の各構成要素は
、文字列を内包する矩形として扱われる。そして、文書
画像のレイアウトを記述するのには、水平または垂直方
向に並んだ矩形の階層構造モデルを用いることが多い。 実施例でも、そのような従来の紙面の構成要素の扱い方
及びモデルの記述方法に基本的には従う。
、文字列を内包する矩形として扱われる。そして、文書
画像のレイアウトを記述するのには、水平または垂直方
向に並んだ矩形の階層構造モデルを用いることが多い。 実施例でも、そのような従来の紙面の構成要素の扱い方
及びモデルの記述方法に基本的には従う。
【0022】図1に論文第1ページのレイアウトモデル
の例を示す。各ノードは、論文第1ページの構成要素の
1つに対応し、当該構成要素の名前を割り当てることの
できる矩形の属性データを格納する。図1の木において
、同じレベルにあるノードは、その表わす構成要素の紙
面での上下または左右方向の順序にしたがって並べられ
ている。子であるノードは、親であるノードに対応する
矩形を水平又は垂直方向に切り分けた結果得られる矩形
に対応する。
の例を示す。各ノードは、論文第1ページの構成要素の
1つに対応し、当該構成要素の名前を割り当てることの
できる矩形の属性データを格納する。図1の木において
、同じレベルにあるノードは、その表わす構成要素の紙
面での上下または左右方向の順序にしたがって並べられ
ている。子であるノードは、親であるノードに対応する
矩形を水平又は垂直方向に切り分けた結果得られる矩形
に対応する。
【0023】同じ種類の文書では、構成要素(表題、著
者名、本文等)の論理的な配置は変わらないが物理的な
位置、サイズはページによって異なる可能性がある。そ
こで、特定の構成要素が実際のページであったりなかっ
たりするような変動を吸収するために、ノードごとに、
そのノードの表わす構成要素が、モデルが表わすレイア
ウト中に必ず現れるか否かのデータを記憶しておく。さ
らに、実際のページで表題、著者名等の構成要素の行数
が変動するのを吸収するために、非ターミナルノード(
例えば図1の’Header’)ごとにその子ノードの
表わす構成要素が水平または垂直何れの方向に配置され
るかとその数の最小最大値についてのデータを記憶し、
かつターミナルノード(葉ノード、例えば図1の’Bo
dy’)ごとに、そのノードの表わす構成要素が内包す
る文字列が水平または垂直何れの方向に並ぶかとその数
の最小最大値についてのデータを記憶する。また、文字
列領域への構成要素の割り当て(ラベル付け)を正確か
つ迅速に行うためには、ターミナルノードごとに、その
ノードの表わす構成要素の上下左右に明らかに他の構成
要素との境となるセパレータが必ず存在するか否かのデ
ータを記憶しておくことが望ましい。
者名、本文等)の論理的な配置は変わらないが物理的な
位置、サイズはページによって異なる可能性がある。そ
こで、特定の構成要素が実際のページであったりなかっ
たりするような変動を吸収するために、ノードごとに、
そのノードの表わす構成要素が、モデルが表わすレイア
ウト中に必ず現れるか否かのデータを記憶しておく。さ
らに、実際のページで表題、著者名等の構成要素の行数
が変動するのを吸収するために、非ターミナルノード(
例えば図1の’Header’)ごとにその子ノードの
表わす構成要素が水平または垂直何れの方向に配置され
るかとその数の最小最大値についてのデータを記憶し、
かつターミナルノード(葉ノード、例えば図1の’Bo
dy’)ごとに、そのノードの表わす構成要素が内包す
る文字列が水平または垂直何れの方向に並ぶかとその数
の最小最大値についてのデータを記憶する。また、文字
列領域への構成要素の割り当て(ラベル付け)を正確か
つ迅速に行うためには、ターミナルノードごとに、その
ノードの表わす構成要素の上下左右に明らかに他の構成
要素との境となるセパレータが必ず存在するか否かのデ
ータを記憶しておくことが望ましい。
【0024】以上、モデルが持つ情報をまとめると、次
のようになる。 (1) 構成要素の紙面上での相対的位置関係(レイ
アウト木) (2) 構成要素が必ず存在するか否か(3) 非
ターミナルノードの子ノードの表わす、下位の構成要素
数の最大値と最小値、及びターミナルノードの表わす構
成要素が包含する文字列の数の最大値と最小値(4)
ターミナルノードの表わす構成要素の上下左右にセパ
レータがあるかどうか(ただし、たとえこのデータが全
くなくても、ラベル付けは可能である。)
のようになる。 (1) 構成要素の紙面上での相対的位置関係(レイ
アウト木) (2) 構成要素が必ず存在するか否か(3) 非
ターミナルノードの子ノードの表わす、下位の構成要素
数の最大値と最小値、及びターミナルノードの表わす構
成要素が包含する文字列の数の最大値と最小値(4)
ターミナルノードの表わす構成要素の上下左右にセパ
レータがあるかどうか(ただし、たとえこのデータが全
くなくても、ラベル付けは可能である。)
【0025】
図2は、図1のモデルの各ノードにセットされる情報を
表形式で表わしたものである。Nestは木の深さ、M
an.は、そのノードの表わす構成要素がレイアウト中
に必ず存在するか(Yes)否か(No)を表わす。D
ir.は、非ターミナルノードについてはその子ノード
の表わす構成要素の配置が横並びか(Hor)縦並びか
(Ver)を表わし、ターミナルノードについてはその
ノードの表わす構成要素の包含する文字列の配置が横並
びか(Hor)縦並びか(Ver)を表わす。また、E
lementは、そのノードがレイアウト木の非ターミ
ナルノードか(Dummy)ターミナルノードか(St
ring)を表わし、Min.Max.は、非ターミナ
ルノードについてはその子ノードの表わす構成要素の最
小、最大個数、ターミナルノードについてはそのノード
の表わす構成要素の包含する文字列の最小、最大個数を
表わす。ただし、実施例では後述するようにして文字列
数をカウントするので、Min.Max.は、ターミナ
ルノードについては実質的にその対応する構成要素が紙
面で占める行の数の最小、最大値を表わす。Separ
.は、そのノードの構成要素の左右上下(L,R,T,
B)にセパレータが必ず存在するか否かを示す。セパレ
ータのデータは、最低限ターミナルノードに格納してお
けばよいけれども、実施例では、非ターミナルノードに
も格納してある。非ターミナルノードのセパレータのデ
ータは、その直接または間接の子ノードであるターミナ
ルノードのセパレータのデータによって自動的に決定さ
れる関係にある。
図2は、図1のモデルの各ノードにセットされる情報を
表形式で表わしたものである。Nestは木の深さ、M
an.は、そのノードの表わす構成要素がレイアウト中
に必ず存在するか(Yes)否か(No)を表わす。D
ir.は、非ターミナルノードについてはその子ノード
の表わす構成要素の配置が横並びか(Hor)縦並びか
(Ver)を表わし、ターミナルノードについてはその
ノードの表わす構成要素の包含する文字列の配置が横並
びか(Hor)縦並びか(Ver)を表わす。また、E
lementは、そのノードがレイアウト木の非ターミ
ナルノードか(Dummy)ターミナルノードか(St
ring)を表わし、Min.Max.は、非ターミナ
ルノードについてはその子ノードの表わす構成要素の最
小、最大個数、ターミナルノードについてはそのノード
の表わす構成要素の包含する文字列の最小、最大個数を
表わす。ただし、実施例では後述するようにして文字列
数をカウントするので、Min.Max.は、ターミナ
ルノードについては実質的にその対応する構成要素が紙
面で占める行の数の最小、最大値を表わす。Separ
.は、そのノードの構成要素の左右上下(L,R,T,
B)にセパレータが必ず存在するか否かを示す。セパレ
ータのデータは、最低限ターミナルノードに格納してお
けばよいけれども、実施例では、非ターミナルノードに
も格納してある。非ターミナルノードのセパレータのデ
ータは、その直接または間接の子ノードであるターミナ
ルノードのセパレータのデータによって自動的に決定さ
れる関係にある。
【0026】実施例では、上記(1)ないし(4)のデ
ータのほかに、ノードごとに、Reco.という項目の
データが記憶される。これは、レイアウト解析が終った
後で、そのノードの表わす構成要素に文字認識処理を施
すべきか(Yes)否か(No)を表わす。
ータのほかに、ノードごとに、Reco.という項目の
データが記憶される。これは、レイアウト解析が終った
後で、そのノードの表わす構成要素に文字認識処理を施
すべきか(Yes)否か(No)を表わす。
【0027】このように、本発明のモデルでは、構成要
素の紙面での位置、サイズについての座標情報を特に規
定する必要はない。勿論、紙面上の位置の具体的情報、
文字サイズや字体といった構成要素の内容についての情
報が与えられればより正確なラベル付け(矩形への構成
要素名の割り当て)ができるが、先に示した情報だけで
ほとんどの場合ラベル付けが可能である。モデルの定義
を極力簡単にして、できる限り少ない情報、すなわち構
成要素または文字列の並び方向とその数だけで矩形のラ
ベル付けができるようにするのが、本発明のポイントで
ある。
素の紙面での位置、サイズについての座標情報を特に規
定する必要はない。勿論、紙面上の位置の具体的情報、
文字サイズや字体といった構成要素の内容についての情
報が与えられればより正確なラベル付け(矩形への構成
要素名の割り当て)ができるが、先に示した情報だけで
ほとんどの場合ラベル付けが可能である。モデルの定義
を極力簡単にして、できる限り少ない情報、すなわち構
成要素または文字列の並び方向とその数だけで矩形のラ
ベル付けができるようにするのが、本発明のポイントで
ある。
【0028】木構造データの作成には、例えば、グラフ
ィックエディタを使って木構造を記述する公知の方法を
採用することができる。ノードに以上のデータをセット
した木構造は、記憶装置中に形成され、保持される。
ィックエディタを使って木構造を記述する公知の方法を
採用することができる。ノードに以上のデータをセット
した木構造は、記憶装置中に形成され、保持される。
【0029】2.解析方法
図3にレイアウト理解のプロセスの概要を示す。まず、
文書画像データをレイアウト解析のためのシステムに入
力する(ステップ10)。文書画像データは、スキャナ
を使って発生させてもよいし、既存の画像データベース
から取り出してもよい。次に、文書画像から、文字列、
縦横罫線、その他の黒画素領域が矩形として検出され、
その座標データが発生される(ステップ12)。これ以
降の処理は、抽出されたこれら矩形の座標データを基に
行なわれる。発生された矩形の座標データから、構成要
素の区切り(セパレータ)となる長く幅のある白領域や
長い黒罫線を抽出する(ステップ14)。図形領域を除
いた後に、抽出されたセパレータを用いて文字領域をお
おまかに区分けする(ステップ16)。さらに、分割に
よって形成された個々の文字領域内で、行ピッチや文字
サイズの変化から構成要素の切れ目の候補(サブセパレ
ータ)を検出し、その座標データを求めておく(ステッ
プ18)。ここまでの処理は、モデルに関係なく全ての
文書画像について共通に行なわれる。このようにして画
像から直接得られた情報とレイアウトモデルをもとに各
文字列矩形に構成要素名を表わすラベルをつけていく。 ラベル付けの時点で、先に求めた領域のおおまかな構成
と明らかに矛盾するようなラベル付けが生じた場合には
、該当するラベル及び関連するパスを弛緩法を用いて削
除する(ステップ20)。整合性のあるラベル付けが終
わった時点でまだ複数ラベルが同一矩形に割り当てられ
ている時には、可能なラベルの割当パターンごとに、そ
の確信度をコスト関数により求め、最適な割当パターン
を決める(ステップ22)。もし、文書画像とのすり合
わせの対象となるモデルが複数あるならば、モデルごと
にステップ20と22を実行して最適なラベルの割当パ
ターンとその確信度を求め、しかる後、求まった割当パ
ターンの中から、最も確信度の高いものを決定する。以
下、プロセスのステップ12ないし22について次に詳
しく述べる。
文書画像データをレイアウト解析のためのシステムに入
力する(ステップ10)。文書画像データは、スキャナ
を使って発生させてもよいし、既存の画像データベース
から取り出してもよい。次に、文書画像から、文字列、
縦横罫線、その他の黒画素領域が矩形として検出され、
その座標データが発生される(ステップ12)。これ以
降の処理は、抽出されたこれら矩形の座標データを基に
行なわれる。発生された矩形の座標データから、構成要
素の区切り(セパレータ)となる長く幅のある白領域や
長い黒罫線を抽出する(ステップ14)。図形領域を除
いた後に、抽出されたセパレータを用いて文字領域をお
おまかに区分けする(ステップ16)。さらに、分割に
よって形成された個々の文字領域内で、行ピッチや文字
サイズの変化から構成要素の切れ目の候補(サブセパレ
ータ)を検出し、その座標データを求めておく(ステッ
プ18)。ここまでの処理は、モデルに関係なく全ての
文書画像について共通に行なわれる。このようにして画
像から直接得られた情報とレイアウトモデルをもとに各
文字列矩形に構成要素名を表わすラベルをつけていく。 ラベル付けの時点で、先に求めた領域のおおまかな構成
と明らかに矛盾するようなラベル付けが生じた場合には
、該当するラベル及び関連するパスを弛緩法を用いて削
除する(ステップ20)。整合性のあるラベル付けが終
わった時点でまだ複数ラベルが同一矩形に割り当てられ
ている時には、可能なラベルの割当パターンごとに、そ
の確信度をコスト関数により求め、最適な割当パターン
を決める(ステップ22)。もし、文書画像とのすり合
わせの対象となるモデルが複数あるならば、モデルごと
にステップ20と22を実行して最適なラベルの割当パ
ターンとその確信度を求め、しかる後、求まった割当パ
ターンの中から、最も確信度の高いものを決定する。以
下、プロセスのステップ12ないし22について次に詳
しく述べる。
【0030】・文字列抽出(ステップ12)既に知られ
ている連結黒画素領域追跡法や黒ランレングス組み合わ
せ法によれば、文書画像から文字列、罫線、その他の黒
画素領域をすべて矩形で表現して抽出し、その座標デー
タを発生させることが可能である。例えば、特開平1ー
253077号公報及びT.Amano et. al
, ”Method forcharacter st
ring detection”, IBM Tech
nical Disclosure Bulletin
Vol.33, No.4, pp.141−142
(Sept. 1990)に開示された方法を使えば
、抽出された矩形のうち、(縦方向の)幅と(横方向の
)長さがそれぞれある最大値と最小値の間にあるという
条件を満たすものが文字列領域として、幅がある閾値以
下で長さがある閾値以上のものが横罫線領域として、幅
がある閾値以上で長さがある閾値以下のものが縦罫線領
域として認識される。
ている連結黒画素領域追跡法や黒ランレングス組み合わ
せ法によれば、文書画像から文字列、罫線、その他の黒
画素領域をすべて矩形で表現して抽出し、その座標デー
タを発生させることが可能である。例えば、特開平1ー
253077号公報及びT.Amano et. al
, ”Method forcharacter st
ring detection”, IBM Tech
nical Disclosure Bulletin
Vol.33, No.4, pp.141−142
(Sept. 1990)に開示された方法を使えば
、抽出された矩形のうち、(縦方向の)幅と(横方向の
)長さがそれぞれある最大値と最小値の間にあるという
条件を満たすものが文字列領域として、幅がある閾値以
下で長さがある閾値以上のものが横罫線領域として、幅
がある閾値以上で長さがある閾値以下のものが縦罫線領
域として認識される。
【0031】・セパレータ抽出(ステップ14)文字列
、縦横罫線等の矩形データを基に、白画素領域を囲む矩
形集合を求める。近接し、高さがほぼ同じ白画素矩形同
志は統合した後に、長さと幅がそれぞれ所定の基準に達
する矩形の全てを縦或は横のセパレータとして登録する
。具体的には、まず画像の上端から下端まで延びる縦の
セパレータを検出し、その位置データを求め、登録する
。次に、そのようにして抽出された縦のセパレータに両
端が接する横のセパレータを検出し、その位置データを
求め、登録する。次に、そのようにして抽出された横の
セパレータに両端が接する縦のセパレータを検出し、そ
の位置データを求め、登録する。以下、縦と横のセパレ
ータを交互に抽出することを繰り返す。例えば、図4に
示すページからは、便宜上太線でその概略的位置を示す
セパレータが抽出される。以上の過程に続けて、または
それと並行して、一定長さ以上の縦または横の黒罫線も
セパレータとして登録される。
、縦横罫線等の矩形データを基に、白画素領域を囲む矩
形集合を求める。近接し、高さがほぼ同じ白画素矩形同
志は統合した後に、長さと幅がそれぞれ所定の基準に達
する矩形の全てを縦或は横のセパレータとして登録する
。具体的には、まず画像の上端から下端まで延びる縦の
セパレータを検出し、その位置データを求め、登録する
。次に、そのようにして抽出された縦のセパレータに両
端が接する横のセパレータを検出し、その位置データを
求め、登録する。次に、そのようにして抽出された横の
セパレータに両端が接する縦のセパレータを検出し、そ
の位置データを求め、登録する。以下、縦と横のセパレ
ータを交互に抽出することを繰り返す。例えば、図4に
示すページからは、便宜上太線でその概略的位置を示す
セパレータが抽出される。以上の過程に続けて、または
それと並行して、一定長さ以上の縦または横の黒罫線も
セパレータとして登録される。
【0032】抽出されるセパレータは、続けて行われる
領域分割の誤りを防ぐために、構成要素の区切りである
信頼性の高い(幅が広く長い)ものであることが要請さ
れる。幅や長さの閾値は、そういった観点から選ばれる
ものであり、同じ種類に属する文書画像中の白画素矩形
の大きさの分布を調べて、最適な値を定めるのが望まし
い。
領域分割の誤りを防ぐために、構成要素の区切りである
信頼性の高い(幅が広く長い)ものであることが要請さ
れる。幅や長さの閾値は、そういった観点から選ばれる
ものであり、同じ種類に属する文書画像中の白画素矩形
の大きさの分布を調べて、最適な値を定めるのが望まし
い。
【0033】・おおまかな領域分割(ステップ16)縦
横のセパレータのデータを基にして、文字領域の切り分
けを行う。分割に先立って、抽出されたセパレータと文
字列等の矩形の分布から、図形領域を特定し処理対象か
ら除く。既に知られているように、黒画素分布の複雑さ
等の特徴量を使って、図形領域を文字領域と分離するこ
とがが可能である。
横のセパレータのデータを基にして、文字領域の切り分
けを行う。分割に先立って、抽出されたセパレータと文
字列等の矩形の分布から、図形領域を特定し処理対象か
ら除く。既に知られているように、黒画素分布の複雑さ
等の特徴量を使って、図形領域を文字領域と分離するこ
とがが可能である。
【0034】文字領域の分割は、次のようにして行われ
る。まず、図形領域を除いた画像全体を2以上の領域に
分割する縦のセパレータが存在すれば、これを用いて画
像を分割する。次に、分割により形成された領域の何れ
かに、それを2以上の領域に再分割できる横のセパレー
タがあれば、その領域をさらに小さな領域に分割する。 このように、縦と横のセパレータを交互に使いながら再
帰的に分割を繰り返し、画像全体を木構造を成す領域群
に分ける。図4に示される例では、まずセパレータS1
を用いて、文字領域が領域A、B、C、Dに分割される
。次に、セパレータS2を用いて、領域Cが領域C1と
C2に再分割される。
る。まず、図形領域を除いた画像全体を2以上の領域に
分割する縦のセパレータが存在すれば、これを用いて画
像を分割する。次に、分割により形成された領域の何れ
かに、それを2以上の領域に再分割できる横のセパレー
タがあれば、その領域をさらに小さな領域に分割する。 このように、縦と横のセパレータを交互に使いながら再
帰的に分割を繰り返し、画像全体を木構造を成す領域群
に分ける。図4に示される例では、まずセパレータS1
を用いて、文字領域が領域A、B、C、Dに分割される
。次に、セパレータS2を用いて、領域Cが領域C1と
C2に再分割される。
【0035】・サブセパレータ検出(ステップ18)こ
こでは、まず、分割により形成された領域ごとに、当該
領域に属する各文字列矩形について、当該文字列矩形の
文字サイズ及び当該文字列矩形を代表する線であるベー
スラインのデータを発生させる。次に、文字サイズが直
上の文字列のそれと異なる文字列を検出する。そして、
検出された文字列の上にある白領域を横のサブセパレー
タとして検出し、その位置データを登録する。それに続
いて、またはそれと並行して、縦方向に関して相隣接す
る文字列同士の間の白領域ごとに、ピッチデータを発生
させ、直前のピッチと異なるピッチを持つ白領域を横の
サブセパレータとして検出し、その位置データを登録す
る。また、縦方向に規則正しくならんだ二つの文字列群
を分離する、セパレータよりは小さいけれども一定の大
きさ以上の白領域が検出された場合にはそれを縦のサブ
セパレータして登録しておく。例えば、図4に示すペー
ジからは、便宜上破線でその概略的位置を示すサブセパ
レータが抽出される。サブセパレータは、構成要素の区
切りとしてセパレータを補完するという性格を持つ。し
たがって、セパレータのように検出条件が厳格である必
要はなく、冗長な候補が登録されても構わない。
こでは、まず、分割により形成された領域ごとに、当該
領域に属する各文字列矩形について、当該文字列矩形の
文字サイズ及び当該文字列矩形を代表する線であるベー
スラインのデータを発生させる。次に、文字サイズが直
上の文字列のそれと異なる文字列を検出する。そして、
検出された文字列の上にある白領域を横のサブセパレー
タとして検出し、その位置データを登録する。それに続
いて、またはそれと並行して、縦方向に関して相隣接す
る文字列同士の間の白領域ごとに、ピッチデータを発生
させ、直前のピッチと異なるピッチを持つ白領域を横の
サブセパレータとして検出し、その位置データを登録す
る。また、縦方向に規則正しくならんだ二つの文字列群
を分離する、セパレータよりは小さいけれども一定の大
きさ以上の白領域が検出された場合にはそれを縦のサブ
セパレータして登録しておく。例えば、図4に示すペー
ジからは、便宜上破線でその概略的位置を示すサブセパ
レータが抽出される。サブセパレータは、構成要素の区
切りとしてセパレータを補完するという性格を持つ。し
たがって、セパレータのように検出条件が厳格である必
要はなく、冗長な候補が登録されても構わない。
【0036】・弛緩法を用いたラベリング(ステップ2
0) ここでは、抽出された文字列矩形の相対的な位置関係と
セパレータを制限条件として、レイアウトモデルに従っ
て、可能なラベルを、各文字列につけていく。具体的な
制限は、以下の通りである。
0) ここでは、抽出された文字列矩形の相対的な位置関係と
セパレータを制限条件として、レイアウトモデルに従っ
て、可能なラベルを、各文字列につけていく。具体的な
制限は、以下の通りである。
【0037】(a)ラベル間の相対的位置関係及びラベ
ルの数は、レイアウトモデルのノード相互の配置関係及
びMin.Maxのデータと矛盾しない。
ルの数は、レイアウトモデルのノード相互の配置関係及
びMin.Maxのデータと矛盾しない。
【0038】(b)セパレータを越えて同じラベルが連
続することはない。(ただし、セパレータの誤検出に対
処するため、他に適当なラベルが付けられない場合には
、セパレータを越えて同一ラベルが連続することも可能
とする。)
続することはない。(ただし、セパレータの誤検出に対
処するため、他に適当なラベルが付けられない場合には
、セパレータを越えて同一ラベルが連続することも可能
とする。)
【0039】(c)構成要素の周囲にセパレータが必須
であるか否かに関わるデータがモデルに含まれる場合に
は、そのデータと矛盾しない。
であるか否かに関わるデータがモデルに含まれる場合に
は、そのデータと矛盾しない。
【0040】一般に、離散的弛緩法では、始めに単項制
限条件を満たす可能な全てのラベルを各対象に付け、そ
の後で関連制限条件を用いて整合性の無いラベルの組合
せを刈っていくけれども、ここではラベルづけの時点か
ら上記条件(a)ないし(c)のすべてを満足するラベ
ルだけを、文字列矩形に付けていく。
限条件を満たす可能な全てのラベルを各対象に付け、そ
の後で関連制限条件を用いて整合性の無いラベルの組合
せを刈っていくけれども、ここではラベルづけの時点か
ら上記条件(a)ないし(c)のすべてを満足するラベ
ルだけを、文字列矩形に付けていく。
【0041】図5と図6を使って、縦方向のラベリング
の具体例を説明する。実際に論文の第1ページの画像か
ら得られた文字列矩形を図5に、論文第1ページのため
のレイアウトモデルのデータの一部を図6に示す。(図
5では、文字列1の上等の位置にある、ページ全体を囲
んでいるセパレータの図示を省略している。)レイアウ
トモデルの木構造の左上ノードから順に、該当する文字
列矩形にラベルを割り当てる。具体的には、次のように
して割当が行われる。
の具体例を説明する。実際に論文の第1ページの画像か
ら得られた文字列矩形を図5に、論文第1ページのため
のレイアウトモデルのデータの一部を図6に示す。(図
5では、文字列1の上等の位置にある、ページ全体を囲
んでいるセパレータの図示を省略している。)レイアウ
トモデルの木構造の左上ノードから順に、該当する文字
列矩形にラベルを割り当てる。具体的には、次のように
して割当が行われる。
【0042】(i)モデルから、紙面の最も上にある、
dummyでない構成要素は’Title’であり、そ
れに含まれる文字列は、最大3個で、縦方向に並ぶこと
がわかる。したがって、文字列1、2、3にTiのラベ
ルをつける。
dummyでない構成要素は’Title’であり、そ
れに含まれる文字列は、最大3個で、縦方向に並ぶこと
がわかる。したがって、文字列1、2、3にTiのラベ
ルをつける。
【0043】文字列4へのラベル付けについて説明する
。文字列4は、今ラベルTiを付けた文字列3の右に位
置する。’Title’の親である’Paper’のノ
ードを調べると、その’Dir’のデータは’Ver’
であるので、その下位の構成要素である’Author
’は、’Title’に対して下にしか位置し得ない。 よって、この場合、文字列4は、Tiのラベルを付けざ
るを得ない。これは、文字列4は、本来、文字列3と統
合されるべきであったことを意味する。したがって、文
字列4にTiのラベルを付すけれども、ラベルTiを付
けた文字列のカウントは増やさない。このように、文字
列の(仮想的な)統合可能性を、モデルとセパレータの
データに基づいて的確に判断できることが、本発明の大
きなメリットである。
。文字列4は、今ラベルTiを付けた文字列3の右に位
置する。’Title’の親である’Paper’のノ
ードを調べると、その’Dir’のデータは’Ver’
であるので、その下位の構成要素である’Author
’は、’Title’に対して下にしか位置し得ない。 よって、この場合、文字列4は、Tiのラベルを付けざ
るを得ない。これは、文字列4は、本来、文字列3と統
合されるべきであったことを意味する。したがって、文
字列4にTiのラベルを付すけれども、ラベルTiを付
けた文字列のカウントは増やさない。このように、文字
列の(仮想的な)統合可能性を、モデルとセパレータの
データに基づいて的確に判断できることが、本発明の大
きなメリットである。
【0044】(ii)モデルから、次の構成要素’Au
thor’は、’Title’より下にあり、その含む
文字列は最大3個で、縦方向に並ぶことがわかる。Ti
が文字列4までつく可能性があるので、ラベルAuを文
字列2、3、4、5につける。文字列3にラベルAuを
付けたなら、文字列4にも同じラベルを付けざるを得な
いこと、そして文字列は1つと数えることは、(i)の
場合と同じである。相対的な位置関係から言えば、もう
一行下の文字列6、7にもAuのラベルを付け得るけれ
ども、ここではセパレータによって領域が変わっており
、セパレータを挟んで同じラベルが続かないという規則
(b)にしたがい、文字列6,7にはAuのラベルを付
けない。
thor’は、’Title’より下にあり、その含む
文字列は最大3個で、縦方向に並ぶことがわかる。Ti
が文字列4までつく可能性があるので、ラベルAuを文
字列2、3、4、5につける。文字列3にラベルAuを
付けたなら、文字列4にも同じラベルを付けざるを得な
いこと、そして文字列は1つと数えることは、(i)の
場合と同じである。相対的な位置関係から言えば、もう
一行下の文字列6、7にもAuのラベルを付け得るけれ
ども、ここではセパレータによって領域が変わっており
、セパレータを挟んで同じラベルが続かないという規則
(b)にしたがい、文字列6,7にはAuのラベルを付
けない。
【0045】(iii)同様に、その次の構成要素’A
ffiliation’のラベルAfは、文字列3、4
、5に付けられる。ラベルAuが文字列5についている
ので、構成要素’Author’がそこで終り、セパレ
ータで隔てられた別の領域である文字列6、7から構成
要素’Affiliation’が始まる可能性を、検
討しなければならない。そこで、次のターミナルノード
を調べると、構成要素’Body−Column’の上
にはセパレータがなければならない、つまり、構成要素
’Titile’から’Affiliation’まで
は、横セパレータでその下が仕切られた1つの領域に収
っていなければならないことがわかる。そこで、ラベル
Afを付けるのは、文字列5までとする。
ffiliation’のラベルAfは、文字列3、4
、5に付けられる。ラベルAuが文字列5についている
ので、構成要素’Author’がそこで終り、セパレ
ータで隔てられた別の領域である文字列6、7から構成
要素’Affiliation’が始まる可能性を、検
討しなければならない。そこで、次のターミナルノード
を調べると、構成要素’Body−Column’の上
にはセパレータがなければならない、つまり、構成要素
’Titile’から’Affiliation’まで
は、横セパレータでその下が仕切られた1つの領域に収
っていなければならないことがわかる。そこで、ラベル
Afを付けるのは、文字列5までとする。
【0046】さて、ラベル付けは続いて構成要素’Bo
dy−Column’に関して行われるわけだが、上記
制限条件(c)を満足するためには、紙面上で最も左に
ある’Body−Column’(そのラベルをBC1
とする)は文字列6から始まるしかない。したがって、
文字列6のラベルはこの時点でBC1に決定する。文字
列6のラベル決定にともなって、既にラベルをつけた文
字列1−5についても関連条件によりさらにラベルを絞
りこむことができる。このように、ラベルが一意に決定
した文字列が現れた時点で関連条件を逐次伝搬させ、弛
緩法によりラベル刈りを行う。図5の例では、文字列6
のラベルがBC1に決定したことにより、文字列5のラ
ベルはAfに決定する。さらに、構成要素’Autho
r’は必ず存在するから、文字列3、4のラベルがTi
でないことが決定される。このようにして、ラベル付け
と弛緩法を繰り返しながら、整合性のとれたラベルが全
文字列に対して付けられる。次に、図7と図8を使って
、縦方向のラベリングの具体例を説明する。実際の文書
画像から得られた文字列矩形を図7に、そのページのた
めのレイアウトモデルのデータの一部を図8に示す。(
図7では、文字列1、2、3、4の上等の位置にある、
ページ全体を囲んでいるセパレータの図示を省略してい
る。)
dy−Column’に関して行われるわけだが、上記
制限条件(c)を満足するためには、紙面上で最も左に
ある’Body−Column’(そのラベルをBC1
とする)は文字列6から始まるしかない。したがって、
文字列6のラベルはこの時点でBC1に決定する。文字
列6のラベル決定にともなって、既にラベルをつけた文
字列1−5についても関連条件によりさらにラベルを絞
りこむことができる。このように、ラベルが一意に決定
した文字列が現れた時点で関連条件を逐次伝搬させ、弛
緩法によりラベル刈りを行う。図5の例では、文字列6
のラベルがBC1に決定したことにより、文字列5のラ
ベルはAfに決定する。さらに、構成要素’Autho
r’は必ず存在するから、文字列3、4のラベルがTi
でないことが決定される。このようにして、ラベル付け
と弛緩法を繰り返しながら、整合性のとれたラベルが全
文字列に対して付けられる。次に、図7と図8を使って
、縦方向のラベリングの具体例を説明する。実際の文書
画像から得られた文字列矩形を図7に、そのページのた
めのレイアウトモデルのデータの一部を図8に示す。(
図7では、文字列1、2、3、4の上等の位置にある、
ページ全体を囲んでいるセパレータの図示を省略してい
る。)
【0047】モデルから、文字列を直接の下位要素とす
る構成要素は3つあって、横方向に並び、何れもその右
と左にセパレータを持つことがわかる。しかし、この画
像からは、文字列同士の間にセパレータが全く抽出され
ていない。そこで、このようにあるべき数のセパレータ
が抽出されていない場合には、構成要素の切れ目として
サブセパレータを使うことにする。
る構成要素は3つあって、横方向に並び、何れもその右
と左にセパレータを持つことがわかる。しかし、この画
像からは、文字列同士の間にセパレータが全く抽出され
ていない。そこで、このようにあるべき数のセパレータ
が抽出されていない場合には、構成要素の切れ目として
サブセパレータを使うことにする。
【0048】今、図7のサブセパレータ(SSP)A、
B、Cのうち、Cだけは一定値を越える幅(横方向の長
さ)を持っており、AとBの幅はその一定値に達してい
ないとする。このとき、サブセパレータCは他のサブセ
パレータよりも構成要素の区切りである蓋然性が高い。 そして、サブセパレータCを確定的にセパレータとして
扱っても、図7に示す画像の中でセパレータが多すぎる
ことにはならない。そこで、以下の処理では、サブセパ
レータCをセパレータとみなすことにする。
B、Cのうち、Cだけは一定値を越える幅(横方向の長
さ)を持っており、AとBの幅はその一定値に達してい
ないとする。このとき、サブセパレータCは他のサブセ
パレータよりも構成要素の区切りである蓋然性が高い。 そして、サブセパレータCを確定的にセパレータとして
扱っても、図7に示す画像の中でセパレータが多すぎる
ことにはならない。そこで、以下の処理では、サブセパ
レータCをセパレータとみなすことにする。
【0049】さて、モデルから、構成要素’Item1
’は、必ず存在し、かつ他の構成要素’Item2’、
’Item3’よりも左に位置する。しかも、サブセパ
レータAをセパレータとして扱うことは可能であるから
、’Item1’のラベルIt1を文字列1、5、9に
対して付け得ることがまずわかる。しかし、サブセパレ
ータAまたはBをセパレータとして扱うことの可否は、
この時点では確定していない。 つまり、文字列2、3は、本来文字列1とともに1つの
文字列矩形として認識されるべきであった可能性が存在
する。そこで、文字列2、3にもラベルIt1を付けて
おく。そのようなラベル付けが許されることは、上記(
i)で説明したとおりである。同様に、文字列6、7、
10にもラベルIt1を付けておく。上記規則(b)か
ら、文字列4、8、11にラベルIt1を付けることは
しない。次に、構成要素’Item2’についてモデル
を調べると、これは必ず構成要素’Item1’の右に
登場することがわかる。 よって、まずラベルIt2を文字列2、6と文字列3、
7、10に付ける。また構成要素’Item1’が文字
列3、7、10まで続く場合には、文字列4、8、11
が構成要素’Item2’に含まれる可能性もあるので
、それらにラベルIt2を割り当てておく。次に、構成
要素’Item3’についてモデルを調べると、これは
必ず’Item2’の右に登場することがわかる。よっ
て、ラベルIt3を割り当てることができるのは、文字
列3、7、10、4、8、11であることがまずわかる
。次に、ラベルIt3の右横に続くラベルのないことが
レイアウトモデルからわかるので、上記規則(b)も考
慮すると、ラベルIt3は文字列4、8、11だけに割
り当てられることがわかる。その結果、It3の直ぐ左
にIt1のラベルがつくことはモデルと矛盾するので、
ただちに弛緩法によって文字列3、7、10はIt2に
決定する。
’は、必ず存在し、かつ他の構成要素’Item2’、
’Item3’よりも左に位置する。しかも、サブセパ
レータAをセパレータとして扱うことは可能であるから
、’Item1’のラベルIt1を文字列1、5、9に
対して付け得ることがまずわかる。しかし、サブセパレ
ータAまたはBをセパレータとして扱うことの可否は、
この時点では確定していない。 つまり、文字列2、3は、本来文字列1とともに1つの
文字列矩形として認識されるべきであった可能性が存在
する。そこで、文字列2、3にもラベルIt1を付けて
おく。そのようなラベル付けが許されることは、上記(
i)で説明したとおりである。同様に、文字列6、7、
10にもラベルIt1を付けておく。上記規則(b)か
ら、文字列4、8、11にラベルIt1を付けることは
しない。次に、構成要素’Item2’についてモデル
を調べると、これは必ず構成要素’Item1’の右に
登場することがわかる。 よって、まずラベルIt2を文字列2、6と文字列3、
7、10に付ける。また構成要素’Item1’が文字
列3、7、10まで続く場合には、文字列4、8、11
が構成要素’Item2’に含まれる可能性もあるので
、それらにラベルIt2を割り当てておく。次に、構成
要素’Item3’についてモデルを調べると、これは
必ず’Item2’の右に登場することがわかる。よっ
て、ラベルIt3を割り当てることができるのは、文字
列3、7、10、4、8、11であることがまずわかる
。次に、ラベルIt3の右横に続くラベルのないことが
レイアウトモデルからわかるので、上記規則(b)も考
慮すると、ラベルIt3は文字列4、8、11だけに割
り当てられることがわかる。その結果、It3の直ぐ左
にIt1のラベルがつくことはモデルと矛盾するので、
ただちに弛緩法によって文字列3、7、10はIt2に
決定する。
【0050】・優先順位の決定(ステップ22)レイア
ウトモデルのデータとの整合性だけからでは、必ずしも
どの文字列矩形についてもそれに付すラベルを1つに絞
りこめるわけではない。図5と図7の例でも、ある文字
列については複数のラベルがついたままである。 そこで、可能なラベルの割当パターンのそれぞれについ
て、ラベルの変化点とセパレータ、サブセパレータがど
れ位一致しているかを評価するコスト関数を導入し、割
当パターンの順位付けを行う。例えば、図5に示す文字
列1、2、3、4、5に関して、可能な割当パターンは
、 Ti−Ti−(Au−Au)−Af (1) Ti−
Au−(Au−Au)−Af (2) Ti−Au−
(Af−Af)−Af (3) ()内は同一
行を示すの3通りである。いま、例えば次のようなコス
ト関数を考える。
ウトモデルのデータとの整合性だけからでは、必ずしも
どの文字列矩形についてもそれに付すラベルを1つに絞
りこめるわけではない。図5と図7の例でも、ある文字
列については複数のラベルがついたままである。 そこで、可能なラベルの割当パターンのそれぞれについ
て、ラベルの変化点とセパレータ、サブセパレータがど
れ位一致しているかを評価するコスト関数を導入し、割
当パターンの順位付けを行う。例えば、図5に示す文字
列1、2、3、4、5に関して、可能な割当パターンは
、 Ti−Ti−(Au−Au)−Af (1) Ti−
Au−(Au−Au)−Af (2) Ti−Au−
(Af−Af)−Af (3) ()内は同一
行を示すの3通りである。いま、例えば次のようなコス
ト関数を考える。
【0051】
== : イコール
!= : ノットイコール
n : n番目の文字列
Fn : コスト関数
Cn : n番目と(n+1)番目の文字列について
のコストLn : n番目の文字列に対するラベルS
ep : n番目と(n+1)番目の文字列との間にサ
ブセパレータが存在する None: n番目と(n+1)番目の文字列との間に
サブセパレータが存在しない Same: n番目と(n+1)番目の文字列とが同一
行に存在するw : 横(或は縦)のサブセパレー
タの幅p : ペナルティー
のコストLn : n番目の文字列に対するラベルS
ep : n番目と(n+1)番目の文字列との間にサ
ブセパレータが存在する None: n番目と(n+1)番目の文字列との間に
サブセパレータが存在しない Same: n番目と(n+1)番目の文字列とが同一
行に存在するw : 横(或は縦)のサブセパレー
タの幅p : ペナルティー
【0052】図5に示すように、文字列2、3の間にサ
ブセパレータ(高さw1とする)があり、さらに文字列
3、5の間にサブセパレータ(高さw2とする)がある
場合、各割当パターンのコスト関数の値は、 (1) +p +w1 +0 +w2 = +w1+w
2+p(2) −p −w1 +0 +w2 = −w
1+w2−p(3) −p +w1 +0 −w2 =
+w1−w2−pである。したがって、割当パターン
(1)が最も確からしいことがわかる。
ブセパレータ(高さw1とする)があり、さらに文字列
3、5の間にサブセパレータ(高さw2とする)がある
場合、各割当パターンのコスト関数の値は、 (1) +p +w1 +0 +w2 = +w1+w
2+p(2) −p −w1 +0 +w2 = −w
1+w2−p(3) −p +w1 +0 −w2 =
+w1−w2−pである。したがって、割当パターン
(1)が最も確からしいことがわかる。
【0053】図7の場合も、全く同様にして縦のサブセ
パレータの存在と幅をもとにコスト関数が定義される。 そのコスト関数を用いれば、文字列2、6がIt1とI
t2のどちらであるかを決定することができる。
パレータの存在と幅をもとにコスト関数が定義される。 そのコスト関数を用いれば、文字列2、6がIt1とI
t2のどちらであるかを決定することができる。
【0054】文字列2、6のラベルがIt2に決定され
た場合、後の文字認識処理では、構成要素’Item1
’に関して、当然のことながら、文字列1、5、9の順
で行われる。これに対し、文字列2、6のラベルがIt
1に決定された場合には、後の文字認識処理は、構成要
素’Item1’に関して、文字列1、2、5、6、9
の順で行われる。
た場合、後の文字認識処理では、構成要素’Item1
’に関して、当然のことながら、文字列1、5、9の順
で行われる。これに対し、文字列2、6のラベルがIt
1に決定された場合には、後の文字認識処理は、構成要
素’Item1’に関して、文字列1、2、5、6、9
の順で行われる。
【0055】最後に、日本国特許庁発行の公開特許公報
の第1ページについて行ったレイアウト理解の実験デー
タを紹介する。使ったレイアウトモデルが含むデータは
、図9に示す通りである。パーソナルコンピュータ(C
PUはインテル社の80386 20MHz)による
処理速度は、300pel/inchでスキャンした2
400x3600ドットの画像について、文字列領域抽
出に約10秒を要し、それ以降の処理(セパレータとサ
ブセパレータの抽出、領域分割、ラベル付けと弛緩、優
先順位付け)には平均約1秒弱を要しただけであった。
の第1ページについて行ったレイアウト理解の実験デー
タを紹介する。使ったレイアウトモデルが含むデータは
、図9に示す通りである。パーソナルコンピュータ(C
PUはインテル社の80386 20MHz)による
処理速度は、300pel/inchでスキャンした2
400x3600ドットの画像について、文字列領域抽
出に約10秒を要し、それ以降の処理(セパレータとサ
ブセパレータの抽出、領域分割、ラベル付けと弛緩、優
先順位付け)には平均約1秒弱を要しただけであった。
【0056】
【発明の効果】本発明によれば、モデル上で構成要素の
座標位置等の厳密な指定を行わなくても、文書画像の構
成要素への切り分けが可能である。したがって、モデル
の記述が容易である。しかも、1つのモデルでもって、
構成要素の位置または大きさの変動に十分対応すること
ができる。したがって、同一種類の文書が1つのモデル
で解析できることは勿論、構成要素の順序、相対的な位
置関係さえ同じであれば、同じモデルで異なる種類の文
書画像も処理可能である。また、モデルさえ記述できれ
ば、縦横いかなる構成要素の並びを持つ文書画像でも処
理することができる。
座標位置等の厳密な指定を行わなくても、文書画像の構
成要素への切り分けが可能である。したがって、モデル
の記述が容易である。しかも、1つのモデルでもって、
構成要素の位置または大きさの変動に十分対応すること
ができる。したがって、同一種類の文書が1つのモデル
で解析できることは勿論、構成要素の順序、相対的な位
置関係さえ同じであれば、同じモデルで異なる種類の文
書画像も処理可能である。また、モデルさえ記述できれ
ば、縦横いかなる構成要素の並びを持つ文書画像でも処
理することができる。
【図1】レイアウトモデルのノードの配置例を示す図で
ある。
ある。
【図2】図1の各ノードに格納されるデータの説明図で
ある。
ある。
【図3】レイアウト理解のプロセスを示す流れ図である
。
。
【図4】セパレータとサブセパレータの説明図である。
【図5】縦方向のラベリングの説明図である。
【図6】図5の画像を解析するためのレイアウトモデル
の説明図である。
の説明図である。
【図7】横方向のラベリングの説明図である。
【図8】図7の画像を解析するためのレイアウトモデル
の説明図である。
の説明図である。
【図9】実験で用いたレイアウトモデルの説明図である
。
。
S1、S2 セパレータ
Claims (29)
- 【請求項1】紙面の構成要素が木構造で表わされる階層
関係をなす文書画像のレイアウトを解析する方法であっ
て、(a)構成要素相互の位置関係データ、各構成要素
の紙面上での存否に関わるデータ、木構造の葉に位置す
る構成要素のそれぞれごとの、当該構成要素が含む文字
列の数に関するデータ、及び木構造の節点に位置する構
成要素のそれぞれごとの、直接の下位構成要素の数に関
するデータを含むレイアウトモデルを作成し、(b)文
書の画像データを入力し、(c)上記画像データに基づ
いて文字列領域と一定の条件を満たす白または黒領域た
るセパレータとを検出し、それらの位置データを発生さ
せ、(d)上記文字列領域とセパレータの位置関係を制
約として用い、上記レイアウトモデルが含むデータと矛
盾しないように、各文字列領域に最適な構成要素名を割
り当てるステップを含む方法。 - 【請求項2】上記ステップ(d)では、同じ構成要素名
を持つ文字列領域は、セパレータを越えて続かないとい
う制約にしたがう請求項1記載の方法。 - 【請求項3】上記レイアウトモデルは、木構造の葉に位
置する構成要素のそれぞれごとの、当該構成要素がその
周囲にセパレータを必ず持つか否かに関わるデータを含
み、上記ステップ(d)では、かかるデータにも矛盾し
ないように、各文字列領域に最適な構成要素名を割り当
てる請求項1記載の方法。 - 【請求項4】セパレータとは異なる一定の条件を満たす
白領域をサブセパレータとして検出し、その位置データ
を発生するステップを含み、上記ステップ(d)は、(
d1)検出されたセパレータと上記レイアウトモデルに
含まれるデータを制約条件として用いて、文字列領域に
対して割り当てることの可能な構成要素名の割当パター
ンデータを発生させ、(d2)1のレイアウトモデルに
ついて複数の割当パターンが発生されたことに応答して
、割当パターンごとに、構成要素とサブセパレータの位
置関係に着目してコストを計算し、計算結果に基づいて
最適な構成要素名の割当パターンを決定するステップを
含む請求項1ないし3記載の方法。 - 【請求項5】上記ステップ(d1)では、離散的弛緩法
を用いる請求項4記載の方法。 - 【請求項6】上記ステップ(d2)では、同じ構成要素
名を割り当てられた文字列領域がサブセパレータを越え
て続くことに応答して、ペナルティを課すことを特徴と
する請求項4記載の方法。 - 【請求項7】文書画像にあるべき数のセパレータが検出
されないことに応答して、上記ステップ(d1)でサブ
セパレータをセパレータとして扱うことを特徴とする請
求項4記載の方法。 - 【請求項8】紙面の構成要素が木構造で表わされる階層
関係をなす文書画像のレイアウトを解析するシステムで
あって、(a)構成要素相互の位置関係データ、各構成
要素の紙面上での存否に関わるデータ、木構造の葉に位
置する構成要素のそれぞれごとの、当該構成要素が含む
文字列の数に関するデータ、及び木構造の節点に位置す
る構成要素のそれぞれごとの、直接の下位構成要素の数
に関するデータを含むレイアウトモデルを記憶する手段
、(b)文書の画像データに基づいて文字列領域と一定
の条件を満たす白または黒領域たるセパレータとを検出
し、それらの位置データを発生させる手段、及び(c)
上記文字列領域とセパレータの位置関係を制約として用
い、上記レイアウトモデルが含むデータと矛盾しないよ
うに、各文字列領域に最適な構成要素名を割り当てる手
段を含むシステム。 - 【請求項9】上記手段(c)は、同じ構成要素名を持つ
文字列領域は、セパレータを越えて続かないという制約
にしたがう請求項8記載のシステム。 - 【請求項10】上記レイアウトモデルは、木構造の葉に
位置する構成要素のそれぞれごとの、当該構成要素がそ
の周囲にセパレータを必ず持つか否かに関わるデータを
含み、上記手段(c)は、かかるデータにも矛盾しない
ように、各文字列領域に最適な構成要素名を割り当てる
請求項8記載のシステム。 - 【請求項11】セパレータとは異なる一定の条件を満た
す白領域をサブセパレータとして検出し、その位置デー
タを発生する手段を含み、上記手段(c)は、(c1)
検出されたセパレータと上記レイアウトモデルに含まれ
るデータを制約条件として用いて、文字列領域に対して
割り当てることの可能な構成要素名の割当パターンデー
タを発生させる動作と、(c2)1のレイアウトモデル
について複数の割当パターンが発生されたことに応答し
て、割当パターンごとに、構成要素とサブセパレータの
位置関係に着目してコストを計算し、計算結果に基づい
て最適な構成要素名の割当パターンを決定する動作を実
行する、請求項8ないし10記載のシステム。 - 【請求項12】上記動作(c1)では、離散的弛緩法を
用いる請求項11記載のシステム。 - 【請求項13】上記動作(c2)では、同じ構成要素名
を割り当てられた文字列領域がサブセパレータを越えて
続くことに応答して、ペナルティを課す、請求項11記
載のシステム。 - 【請求項14】文書画像にあるべき数のセパレータが検
出されないことに応答して、上記手段(c)がサブセパ
レータをセパレータとして扱うことを特徴とする請求項
11記載のシステム。 - 【請求項15】レイアウトモデル作成手段を含む、請求
項8ないし14記載のシステム。 - 【請求項16】文書画像を入力する手段を含む、請求項
8ないし15記載のシステム。 - 【請求項17】文字認識手段を含み、上記レイアウトモ
デルには、文字認識処理が必要な構成要素を示すデータ
が含まれる、請求項8ないし16記載のシステム。 - 【請求項18】文書画像から文字列領域を抽出し、抽出
された文字列領域を紙面での構成要素相互の位置関係を
表すレイアウトモデルとすり合わせることによって、文
書画像から構成要素を抽出する方法であって、(a)文
書画像から一定の条件を満たす白または黒領域たるセパ
レータを検出し、その位置データを発生させ、(b)上
記セパレータのデータにしたがって、上記文書画像を木
構造領域に区分し、(c)上記区分の結果形成された領
域ごとに、セパレータとは異なる一定の条件を満たす白
領域たるサブセパレータを検出し、その位置データを発
生させ、(d)上記セパレータのデータを構成要素の区
切りとし、上記サブセパレータを構成要素の区切りの候
補として、上記文字列領域とレイアウトモデルのすり合
わせを行うステップを含む方法。 - 【請求項19】上記ステップ(c)では、文字列領域ご
とに文字サイズデータを発生させ、文字サイズが直上の
文字列領域のそれと異なる文字列領域を検出し、その文
字列領域の上の白領域をサブセパレータとして検出する
、請求項18記載の方法。 - 【請求項20】上記ステップ(c)では、縦方向に関し
て相隣接する文字列領域同士の間の白領域ごとに、ピッ
チデータを発生させ、直前のピッチと異なるピッチを持
つ白領域をサブセパレータとして検出する、請求項18
記載の方法。 - 【請求項21】上記ステップ(d)では、離散的弛緩法
を用いる、ステップ18記載の方法。 - 【請求項22】上記ステップ(d)は、1のレイアウト
モデルについて、上記文字列に対して割り当てることの
可能な構成要素名のパターンが複数発生されたことに応
答して、パターンごとに、構成要素とサブセパレータの
位置関係に着目してコストを計算し、計算結果に基づい
て最適な構成要素名の割当パターンを決定するステップ
を含む請求項18ないし21記載の方法。 - 【請求項23】上記コスト計算ステップでは、同じ構成
要素名を割り当てられた文字列領域がサブセパレータを
越えて続くことに応答して、ペナルティを課すことを特
徴とする請求項22記載の方法。 - 【請求項24】文書画像にあるべき数のセパレータが検
出されないことに応答して、上記ステップ(d)でサブ
セパレータをセパレータとして扱うことを特徴とする請
求項18記載の方法。 - 【請求項25】文書画像から文字列領域を抽出し、抽出
された文字列領域を紙面での構成要素相互の位置関係を
表すレイアウトモデルとすり合わせることによって、文
書画像から構成要素を抽出するシステムであって、(a
)文書画像から一定の条件を満たす白または黒領域たる
セパレータを検出し、その位置データを発生させる手段
、(b)上記セパレータのデータにしたがって、上記文
書画像を木構造領域に区分する手段、(c)上記区分の
結果形成された領域ごとに、セパレータとは異なる一定
の条件を満たす白領域たるサブセパレータを検出し、そ
の位置データを発生させる手段、及び(d)上記セパレ
ータのデータを構成要素の区切りとし、上記サブセパレ
ータを構成要素の区切りの候補として、上記文字列領域
とモデルのすり合わせを行う手段を含むシステム。 - 【請求項26】上記レイアウトモデルを記憶する手段を
含む、請求項25記載のシステム。 - 【請求項27】上記レイアウトモデルを作成する手段を
含む、請求項25または26記載のシステム。 - 【請求項28】上記文書画像を入力する手段を含む、請
求項25ないし27記載のシステム。 - 【請求項29】文字認識手段を含み、上記レイアウトモ
デルには、文字認識処理が必要な構成要素を示すデータ
が含まれる、請求項25ないし28記載のシステム。 【0001】
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3021471A JPH04248687A (ja) | 1991-01-23 | 1991-01-23 | 文書画像のレイアウト解析方法及びシステム |
| EP92300380A EP0496531A2 (en) | 1991-01-23 | 1992-01-16 | Method and system for layout analysis of a document image |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3021471A JPH04248687A (ja) | 1991-01-23 | 1991-01-23 | 文書画像のレイアウト解析方法及びシステム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04248687A true JPH04248687A (ja) | 1992-09-04 |
Family
ID=12055894
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3021471A Pending JPH04248687A (ja) | 1991-01-23 | 1991-01-23 | 文書画像のレイアウト解析方法及びシステム |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP0496531A2 (ja) |
| JP (1) | JPH04248687A (ja) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5452374A (en) * | 1992-04-06 | 1995-09-19 | Ricoh Corporation | Skew detection and correction of a document image representation |
| DE4345324C2 (de) * | 1992-04-06 | 1999-01-21 | Ricoh Kk | Vorlagensegmentierungssystem |
| US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
| DE69333694T2 (de) * | 1992-09-11 | 2005-10-20 | Canon K.K. | Verfahren und Anordnung zur Bildverarbeitung |
| JPH06348800A (ja) * | 1993-06-02 | 1994-12-22 | Canon Inc | 画像処理方法及び装置 |
| NL9301004A (nl) * | 1993-06-11 | 1995-01-02 | Oce Nederland Bv | Inrichting voor het bewerken en reproduceren van digitale beeldinformatie. |
| US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
| EP0692767B1 (en) * | 1994-07-13 | 2003-10-08 | Canon Kabushiki Kaisha | Image processing apparatus and method |
| US6389162B2 (en) | 1996-02-15 | 2002-05-14 | Canon Kabushiki Kaisha | Image processing apparatus and method and medium |
| US5893127A (en) * | 1996-11-18 | 1999-04-06 | Canon Information Systems, Inc. | Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document |
| US6512848B2 (en) | 1996-11-18 | 2003-01-28 | Canon Kabushiki Kaisha | Page analysis system |
-
1991
- 1991-01-23 JP JP3021471A patent/JPH04248687A/ja active Pending
-
1992
- 1992-01-16 EP EP92300380A patent/EP0496531A2/en not_active Withdrawn
Also Published As
| Publication number | Publication date |
|---|---|
| EP0496531A3 (ja) | 1994-01-19 |
| EP0496531A2 (en) | 1992-07-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5848184A (en) | Document page analyzer and method | |
| Shamilian et al. | A retargetable table reader | |
| US5325444A (en) | Method and apparatus for determining the frequency of words in a document without document image decoding | |
| EP0544433B1 (en) | Method and apparatus for document image processing | |
| US6009196A (en) | Method for classifying non-running text in an image | |
| US6035061A (en) | Title extracting apparatus for extracting title from document image and method thereof | |
| JP3452774B2 (ja) | 文字認識方法 | |
| EP0544432A2 (en) | Method and apparatus for document processing | |
| Lovegrove et al. | Document analysis of PDF files: methods, results and implications | |
| EP0543598A2 (en) | Method and apparatus for document image processing | |
| CN102782703A (zh) | 经历光学字符识别的图像的页面布局确定 | |
| JPH11250041A (ja) | 文書処理装置および文書処理方法 | |
| JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
| CN110704570A (zh) | 一种连续页版式文档结构化信息提取方法 | |
| KR102572180B1 (ko) | 텍스트 분류 | |
| JPH04248687A (ja) | 文書画像のレイアウト解析方法及びシステム | |
| US9098581B2 (en) | Method for finding text reading order in a document | |
| Palfray et al. | Logical segmentation for article extraction in digitized old newspapers | |
| CN120373260A (zh) | 一种pdf转换复用方法、装置、计算机设备及存储介质 | |
| Tran et al. | A deep learning-based system for document layout analysis | |
| Viswanathan | Analysis of scanned documents—A syntactic approach | |
| Bhat et al. | Automatic segmentation of handwritten devanagari word documents enabling accurate recognition | |
| WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム | |
| ALSalamah et al. | Using prior knowledge to facilitate computational reading of Arabic calligraphy | |
| Djaghbellou et al. | A survey on text-line segmentation process in historical Arab manuscripts. |