JP3487523B2 - 文書処理装置 - Google Patents
文書処理装置Info
- Publication number
- JP3487523B2 JP3487523B2 JP09206595A JP9206595A JP3487523B2 JP 3487523 B2 JP3487523 B2 JP 3487523B2 JP 09206595 A JP09206595 A JP 09206595A JP 9206595 A JP9206595 A JP 9206595A JP 3487523 B2 JP3487523 B2 JP 3487523B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- logical structure
- document image
- image
- bibliographic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検出する文書処理装置に関する。
置は、文書画像をスキャナにより読取入力してデータベ
ースに保存することができる。このように文書画像をデ
ータベースに保存する場合、文字を絵柄として単純に読
取入力しても、これを表示出力すれば人間は認識できる
ので有用である。
画像は、自在に検索できないと有効に利用されない。デ
ータベースに保存した文書画像を自在に検索するために
は、文書画像に検索用のキーワードを設定しておく必要
がある。しかし、データベースに保存する文書画像にキ
ーワードを設定するためには、作業者が文書画像から適
当な用語を読み取ってキーボードにより入力操作する必
要がある。
159101号公報に開示された装置では、スキャナにより読
取入力した文書画像の論理構造が検出され、この論理構
造に従って文書画像の記載内容が認識される。より詳細
には、複数の構造モデルが予め設定されており、この構
造モデルに、文書画像のレイアウト構造と論理構造との
関係が定義されている。スキャナにより読取入力した文
書画像を複数の要素に分割し、この分割された複数の要
素の相互関係にマッチングする構造モデルを検出する。
この構造モデルの検出により文書画像の論理構造が認識
されるので、複数の要素の各々をタイトルや著者名や本
文などとして識別することができ、キーワードに最適な
用語を抽出することもできる。
を入力して保存する場合、キーワードを抽出するために
論理構造を認識することが望ましい。
装置では、ページにおける要素の位置や複数の要素の相
対位置などを仮定し、これに基づいて論理構造を認識し
ている。このため、学術論文などのようにフォーマット
が固定的な文書画像の論理構造は良好に認識できるが、
オフィスの通達文書などのようにレイアウトが様々な文
書画像から論理構造を認識することは困難である。
タイトルや日付や発信元などの書誌情報は特定の位置に
記載されるが、例えば、日付の記載が省略される場合も
ある。本文のフォーマットも千差万別であるので、これ
を構造モデルにマッチングさせることは困難である。フ
ァクシミリ送信やコピーが繰り返されて画像品質が低下
している場合もあり、この場合は文字認識が困難なので
論理構造も良好に認識できない。手書メモや検印が付加
されている場合もあり、この場合は要素分割や文字認識
の精度が低下する。
利用する場合には、文書画像をデータベースから読み出
してディスプレイに表示出力させ、その記載内容を確認
して必要な文書画像のみをプリンタにより印刷出力する
ことが多い。このような場合、スキャナにより読取入力
されてデータベースに保存された文書画像はイメージデ
ータであるので、ディスプレイが低解像度であると記載
内容を確認することが困難である。
者名などがコード化されていれば、これは低解像度のデ
ィスプレイでも良好に表示されるので、文書画像の記載
内容を確認することができる。このような情報には文書
のタイトルや著者名などの書誌情報が相当し、これは検
索用のキーワードにも最適である。つまり、文書画像を
スキャナにより読取入力してデータベースに保存する場
合、文書画像の論理構造を認識して書誌情報を抽出し、
これをキーワードとして設定することが有用である。
文書画像を入力する画像入力手段を設け、入力された文
書画像を予め設定された条件に従って複数の要素に分割
する画像分割手段を設け、分割された複数の要素の各々
から文字を認識する文字認識手段を設け、特定の要素を
書誌領域として検出する領域検出手段を設け、検出され
た書誌領域の論理構造を認識する構造認識手段を設け、
認識された論理構造を出力する構造出力手段を設け、前
記構造認識手段は、予め設定された複数の文字列パター
ンとのマッチングにより書誌領域の文字列を論理構造と
認識し、予め規定された文字列パターンの優先順位に対
応して論理構造の認識を規制する。
や著者名などの書誌情報が位置する領域であり、具体的
には、第一ページの上縁部の中央に位置するタイトルの
記載領域、その右下に位置する著者名の記載領域、など
である。また、論理構造は、文書を良好に特定できる情
報の集合であり、具体的には、文書から選択的に抽出し
て記載内容まで認識した書誌事項の集合である。
発明において、構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識する。
段により入力されると、この入力された文書画像が画像
分割手段により予め設定された条件に従って複数の要素
に分割され、この分割された複数の要素の各々から文字
認識手段により文字が認識される。領域検出手段により
特定の要素が書誌領域として検出されると、この検出さ
れた書誌領域の論理構造が構造認識手段により認識され
るので、構造出力手段により文書画像の論理構造が出力
される。構造認識手段は、予め設定された複数の文字列
パターンとマッチングした書誌領域の文字列を論理構造
と認識するので、文書画像の入力精度が良好でない場合
でも論理構造が的確に認識され、予め規定された文字列
パターンの優先順位に対応して論理構造の認識を規制す
るので、論理構造の複数の候補を適切に選択するような
ことができる。
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識するので、誤認識が予測される文字列を適切に修
正してから論理構造を認識することができる。
明する。まず、本実施例の文書処理装置1は、図1に示
すように、画像入力手段2、画像分割手段3、文字認識
手段4、領域検出手段5、構造認識手段6、構造出力手
段7、を有している。
(図示せず)により原稿を読取走査することにより、原
稿に記載された文書の画像である文書画像8を、ドット
マトリクスのイメージデータとして入力する。前記画像
分割手段3は、入力された文書画像8を予め設定された
条件に従って複数の要素に分割し、前記文字認識手段4
は、分割された複数の要素の各々から文字を認識する。
このような要素の分割や文字の認識は公知技術により実
現され、例えば、このような技術は特開平5-159101号公
報に開示されている。
からなることもあるが、ここで問題とする書誌情報は第
一ページに位置すると予測されるので、要素の分割から
以下の処理は第一ページのみに実行される。
された複数の要素に対し、特定の要素を書誌領域として
検出する。より詳細には、“その上端がページの上方に
位置する”“その左端がページの左方に位置する”なる
二つの条件が予め設定されており、複数の要素を上記条
件に対応させてソートする。このようにソートされた複
数の要素から、横幅が文書画像8の有効領域に一致する
要素を検出し、この要素より上方に位置する要素を書誌
領域として検出する。
は本文より上方に位置すると想定し、本文は横幅が文書
画像8の有効領域に一致すると予測している。そこで、
より上方かつ左方に位置して幅広の要素を本文の上部と
して検出し、これより上方の要素を書誌領域として検出
している。
された書誌領域の論理構造を認識する。より詳細には、
書誌領域にはタイトルや著者名などの書誌事項が記載さ
れているので、これらの書誌事項を個々に抽出すること
により書誌領域の論理構造を認識する。このため、図2
に示すように、書誌事項の抽出ルールが各種別毎に予め
設定されており、この抽出ルールにより書誌領域から各
種の書誌事項が抽出される。
の種別、第二フィールド10は抽出処理の内容、第三フ
ィールド11は文字列パターン、第四フィールド12は
優先順位、第五フィールド13は変換処理の内容、を示
す。例えば、タイトルはセンタリングにより抽出され、
その優先順位は“1”で変換処理は設定されていない。
日付は文字列パターンとのパターンマッチングにより抽
出されるが、二つの文字列パターンに優先順位が設定さ
れている。優先順位が“2”の文字列パターンは、文字
の誤認識に対応したもので、先頭がアルファベットの
“l(エル)”であり、これに対応した変換処理は“l
(エル)→1(イチ)”である。
された文書画像8の論理構造を出力する。この論理構造
の出力形式は、図3に示すように、ISO(Internation
al Organization for Standardization)標準のSGML
(Standard Generalized Markup Language)形式として設
定されている。なお、このSGML形式の各項目の意味
は、 frontm … 書誌事項の集合 title … 文書のタイトル date … 文書の日付 y … 年 m … 月 d … 日 key …その他の書誌事項 body … 本文 である。この場合、“frontm〜key”は書誌領域から抽
出される書誌事項であり、そのイメージデータは文字コ
ードに変換されてから出力されるが、“body”は書誌領
域でない本文領域であり、そのイメージデータは文字コ
ードに変換されることなく出力される。
処理装置1は、文書画像8が画像入力手段2に入力され
ると、この文書画像8の論理構造を構造出力手段7から
出力する。このような文書処理装置1の処理動作を、図
4のフローチャートに基づいて説明する。
イメージデータとして入力し(ステップS1)、この入
力された文書画像8を画像分割手段3により複数の要素
に分割し(ステップS2)、この分割された複数の要素
の各々の文字を文字認識手段4により認識する(ステッ
プS3)。つぎに、領域検出手段5により、複数の要素
を前述した条件に対応させてソートしてから、文書画像
8の有効領域に横幅が一致する要素を本文領域として検
出し(ステップS4)、この本文領域の要素より上方に
位置する要素を書誌領域として検出する(ステップS
5)。
イトル、発信日付、発信元、送信先”などの書誌事項が
存在するので、これらの書誌事項が論理構造として構造
認識手段6により認識される(ステップS6)。この
時、文字列のパターンが予測される日付などの書誌事項
は、複数の文字列パターンとのマッチングにより書誌領
域から抽出される。
ーンの優先順位に従って取捨選択されるので、抽出され
た文字列が多数の場合、優先順位の高い文字列のみ採用
され、ノイズの増加が防止される。さらに、上述のよう
に抽出された文字列が変換条件に一致する場合は、文字
列は変換処理されてから論理構造に認識される。より具
体的には、書誌事項である日付には“1(イチ)”なる
数字が多用されるが、これは文字認識においてアルファ
ベットの“l(エル)”に誤認識されることが多い。こ
の小文字の“l(エル)”が書誌事項の先頭の文字に使
用される可能性は低いので、これが書誌事項の先頭に位
置した場合は“1(イチ)”に変換処理する。
認識されると、構造出力手段7は、図3に示すように、
文書画像8の論理構造をSGML形式で出力する(ステ
ップS7,S8)。この時、書誌領域から抽出された書
誌事項は文字コードに変換されて出力されるが、本文領
域はイメージデータのまま出力される。
では、文書画像8が画像入力手段2に入力されると、こ
の文書画像8の論理構造を構造出力手段7から出力する
ので、この文書画像8をデータベースに格納する場合で
も、論理構造によりキーワードを良好に設定することが
できる。この時、文書画像8から書誌事項が位置する書
誌領域を検出し、この書誌領域のみを論理構造の認識対
象とし、文書画像8の全体を解析する必要がないので、
簡易な処理動作で的確に論理構造が認識される。
報は文字認識手段4によりコード化されているので、デ
ータベースから読み出した文書画像8を表示するディス
プレイが低解像度で本文の文字などが読み取れない場合
でも、コード化された論理構造は明確に読み取ることが
できるので、文書画像8の記載内容を確認することがで
きる。しかも、書誌領域でない本文領域は文字コードに
変換されないので、処理動作の負担が軽減されて時間が
短縮され、文書画像8の本文が正確に保存される。
文領域の要素は、文書画像8の有効領域に横幅が一致す
る要素として検出されるので、簡易な処理動作で高精度
に検出される。さらに、書誌領域の要素は、本文領域の
要素より上方に位置する要素として検出されるので、簡
易な処理動作で高精度に検出される。しかし、本発明は
上記実施例に限定されるものではなく、本文領域の要素
を、行数が予め設定された基準値より多数の要素として
検出することや、字数が予め設定された基準値より多数
の要素として検出することも可能である。つまり、一般
的に本文は書誌事項に比較して行数や字数が多大なの
で、これを利用することでも本文領域と書誌領域とを簡
易な処理動作で高精度に検出することができる。なお、
この場合の処理動作は、文書画像8から分割された複数
の要素の各々の行数や字数をカウントし、これを基準値
と比較することにより容易に実現される。
め設定された複数の文字列パターンとマッチングした書
誌領域の文字列を論理構造と認識するので、各種の論理
構造を的確に認識することができる。しかも、この論理
構造の認識は文字列パターンの優先順位に従って実行さ
れるので、抽出される書誌事項が多数の場合に個数を限
定したり、誤認識が発生しやすい文字列を予測して排除
するようなことができる。しかし、本発明は上記実施例
に限定されるものでもなく、文字列パターンとマッチン
グした全部の書誌事項を論理構造として認識することに
より、文書画像8の検索の許容範囲を拡大することも可
能である。
文字列パターンとマッチングした書誌領域の文字列を予
め設定された変換条件により変換するので、前述のよう
にアルファベットの“l(エル)”に誤認識されやすい
日付の“1(イチ)”を修正するようなことができ、文
書画像8の入力精度が低く文字認識に誤動作が発生して
いる場合でも、文書画像8の論理構造を正確に認識する
ことができる。
する画像入力手段を設け、入力された文書画像を予め設
定された条件に従って複数の要素に分割する画像分割手
段を設け、分割された複数の要素の各々から文字を認識
する文字認識手段を設け、特定の要素を書誌領域として
検出する領域検出手段を設け、検出された書誌領域の論
理構造を認識する構造認識手段を設け、認識された論理
構造を出力する構造出力手段を設けたことにより、論理
構造が文書画像の全体でなく書誌領域のみから認識され
るので、処理範囲が減縮されて論理構造の認識処理の負
担が軽減され、書誌領域には文書画像を良好に特定でき
る書誌事項が存在するので、文書画像の論理構造が的確
に認識される。構造認識手段は、予め設定された複数の
文字列パターンとのマッチングにより書誌領域の文字列
を論理構造と認識することにより、各種の論理構造を簡
易な処理動作で的確に認識することができ、予め規定さ
れた文字列パターンの優先順位に対応して論理構造の認
識を規制することにより、認識される論理構造が多数の
場合に、これを優先順位により取捨選択したり重み付け
るようなことができる。
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識することにより、文字認識において誤認識されや
すい文字列を予測して修正することができるので、文書
画像の入力精度が低い場合でも論理構造を良好に認識す
ることができる。
ク図である。
である。
Claims (2)
- 【請求項1】 文書画像を入力する画像入力手段と、入
力された文書画像を予め設定された条件に従って複数の
要素に分割する画像分割手段と、分割された複数の要素
の各々から文字を認識する文字認識手段と、特定の要素
を書誌領域として検出する領域検出手段と、検出された
書誌領域の論理構造を認識する構造認識手段と、認識さ
れた論理構造を出力する構造出力手段と、を有し、前記
構造認識手段は、予め設定された複数の文字列パターン
とのマッチングにより書誌領域の文字列を論理構造と認
識し、予め規定された文字列パターンの優先順位に対応
して論理構造の認識を規制することを特徴とする文書処
理装置。 - 【請求項2】 構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識することを特徴とす
る請求項1記載の文書処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP09206595A JP3487523B2 (ja) | 1995-04-18 | 1995-04-18 | 文書処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP09206595A JP3487523B2 (ja) | 1995-04-18 | 1995-04-18 | 文書処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08287189A JPH08287189A (ja) | 1996-11-01 |
| JP3487523B2 true JP3487523B2 (ja) | 2004-01-19 |
Family
ID=14044081
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP09206595A Expired - Fee Related JP3487523B2 (ja) | 1995-04-18 | 1995-04-18 | 文書処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3487523B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3653156B2 (ja) * | 1997-01-29 | 2005-05-25 | 株式会社リコー | 文書画像領域抽出方法 |
| US6456738B1 (en) | 1998-07-16 | 2002-09-24 | Ricoh Company, Ltd. | Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document |
| JP5317638B2 (ja) * | 2008-11-13 | 2013-10-16 | 日本電信電話株式会社 | Web文書主要コンテンツ抽出装置及びプログラム |
| JP5663866B2 (ja) | 2009-08-20 | 2015-02-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
1995
- 1995-04-18 JP JP09206595A patent/JP3487523B2/ja not_active Expired - Fee Related
Non-Patent Citations (4)
| Title |
|---|
| PRU93−125 パターン分類手法に基づくレイアウト解析,電子情報通信学会技術研究報告,日本,1994年 1月,第93巻第431号,pp.71−78 |
| PRU94−36 文書画像のSGML文書への変換に関する一検討,電子情報通信学会技術研究報告,日本,1994年 9月22日,第94巻第242号,pp.73−80 |
| PRU94−42 文書の論理構造を解釈する一手法,電子情報通信学会技術研究報告,日本,1994年10月20日,第94巻第291号,pp.25−32 |
| 文書画像構造解析のための知識ベースの一構成法,情報処理学会論文誌,日本,1993年 1月15日,第34巻第1号,pp.75−87 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH08287189A (ja) | 1996-11-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA2116600C (en) | Methods and apparatus for inferring orientation of lines of text | |
| JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
| US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
| US5325444A (en) | Method and apparatus for determining the frequency of words in a document without document image decoding | |
| US5265242A (en) | Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates | |
| JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
| US5164899A (en) | Method and apparatus for computer understanding and manipulation of minimally formatted text documents | |
| Déjean et al. | A system for converting PDF documents into structured XML format | |
| KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
| JP3294995B2 (ja) | 帳票読取装置 | |
| Ha et al. | Information extraction from scanned invoice images using text analysis and layout features | |
| Lin et al. | Logical structure analysis of book document images using contents information | |
| Meunier | Optimized XY-cut for determining a page reading order | |
| US6728403B1 (en) | Method for analyzing structure of a treatise type of document image | |
| US8170371B2 (en) | Method of image pre-analyzing of a machine-readable form of non-fixed layout | |
| JP3487523B2 (ja) | 文書処理装置 | |
| Slavin et al. | Models and methods flexible documents matching based on the recognized words | |
| JP2008257543A (ja) | 画像処理システム及びプログラム | |
| US20210240973A1 (en) | Extracting data from tables detected in electronic documents | |
| Nagy | Document image analysis: Automated performance evaluation | |
| JPH08263587A (ja) | 文書入力方法および文書入力装置 | |
| JP3142986B2 (ja) | 文書情報検索装置 | |
| Ramteke et al. | Tesseract OCR Recognition Based on Arabic | |
| JP3190603B2 (ja) | 文字読み取り装置、その読み取り方法および記録媒体 | |
| WO2007070010A1 (en) | Improvements in electronic document analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071031 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081031 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081031 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091031 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101031 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |