JP3487523B2

JP3487523B2 - 文書処理装置

Info

Publication number: JP3487523B2
Application number: JP09206595A
Authority: JP
Inventors: 詔今郷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-04-18
Filing date: 1995-04-18
Publication date: 2004-01-19
Anticipated expiration: 2019-01-19
Also published as: JPH08287189A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書画像の論理構造を
検出する文書処理装置に関する。

【０００２】

【従来の技術】電子ファイルシステムなどの文書処理装
置は、文書画像をスキャナにより読取入力してデータベ
ースに保存することができる。このように文書画像をデ
ータベースに保存する場合、文字を絵柄として単純に読
取入力しても、これを表示出力すれば人間は認識できる
ので有用である。

【０００３】上述のようにデータベースに保存した文書
画像は、自在に検索できないと有効に利用されない。デ
ータベースに保存した文書画像を自在に検索するために
は、文書画像に検索用のキーワードを設定しておく必要
がある。しかし、データベースに保存する文書画像にキ
ーワードを設定するためには、作業者が文書画像から適
当な用語を読み取ってキーボードにより入力操作する必
要がある。

【０００４】このような課題を解決するため、特開平5-
159101号公報に開示された装置では、スキャナにより読
取入力した文書画像の論理構造が検出され、この論理構
造に従って文書画像の記載内容が認識される。より詳細
には、複数の構造モデルが予め設定されており、この構
造モデルに、文書画像のレイアウト構造と論理構造との
関係が定義されている。スキャナにより読取入力した文
書画像を複数の要素に分割し、この分割された複数の要
素の相互関係にマッチングする構造モデルを検出する。
この構造モデルの検出により文書画像の論理構造が認識
されるので、複数の要素の各々をタイトルや著者名や本
文などとして識別することができ、キーワードに最適な
用語を抽出することもできる。

【０００５】

【発明が解決しようとする課題】上述のように文書画像
を入力して保存する場合、キーワードを抽出するために
論理構造を認識することが望ましい。

【０００６】しかし、上記した特開平5-159101号公報の
装置では、ページにおける要素の位置や複数の要素の相
対位置などを仮定し、これに基づいて論理構造を認識し
ている。このため、学術論文などのようにフォーマット
が固定的な文書画像の論理構造は良好に認識できるが、
オフィスの通達文書などのようにレイアウトが様々な文
書画像から論理構造を認識することは困難である。

【０００７】具体的には、オフィスの通達文書の場合、
タイトルや日付や発信元などの書誌情報は特定の位置に
記載されるが、例えば、日付の記載が省略される場合も
ある。本文のフォーマットも千差万別であるので、これ
を構造モデルにマッチングさせることは困難である。フ
ァクシミリ送信やコピーが繰り返されて画像品質が低下
している場合もあり、この場合は文字認識が困難なので
論理構造も良好に認識できない。手書メモや検印が付加
されている場合もあり、この場合は要素分割や文字認識
の精度が低下する。

【０００８】また、データベースに保存した文書画像を
利用する場合には、文書画像をデータベースから読み出
してディスプレイに表示出力させ、その記載内容を確認
して必要な文書画像のみをプリンタにより印刷出力する
ことが多い。このような場合、スキャナにより読取入力
されてデータベースに保存された文書画像はイメージデ
ータであるので、ディスプレイが低解像度であると記載
内容を確認することが困難である。

【０００９】このような場合、文書画像のタイトルや著
者名などがコード化されていれば、これは低解像度のデ
ィスプレイでも良好に表示されるので、文書画像の記載
内容を確認することができる。このような情報には文書
のタイトルや著者名などの書誌情報が相当し、これは検
索用のキーワードにも最適である。つまり、文書画像を
スキャナにより読取入力してデータベースに保存する場
合、文書画像の論理構造を認識して書誌情報を抽出し、
これをキーワードとして設定することが有用である。

【００１０】

【課題を解決するための手段】請求項１記載の発明は、
文書画像を入力する画像入力手段を設け、入力された文
書画像を予め設定された条件に従って複数の要素に分割
する画像分割手段を設け、分割された複数の要素の各々
から文字を認識する文字認識手段を設け、特定の要素を
書誌領域として検出する領域検出手段を設け、検出され
た書誌領域の論理構造を認識する構造認識手段を設け、
認識された論理構造を出力する構造出力手段を設け、前
記構造認識手段は、予め設定された複数の文字列パター
ンとのマッチングにより書誌領域の文字列を論理構造と
認識し、予め規定された文字列パターンの優先順位に対
応して論理構造の認識を規制する。

【００１１】なお、本発明で云う書誌領域は、タイトル
や著者名などの書誌情報が位置する領域であり、具体的
には、第一ページの上縁部の中央に位置するタイトルの
記載領域、その右下に位置する著者名の記載領域、など
である。また、論理構造は、文書を良好に特定できる情
報の集合であり、具体的には、文書から選択的に抽出し
て記載内容まで認識した書誌事項の集合である。

【００１２】

【００１３】

【００１４】

【００１５】

【００１６】

【００１７】

【００１８】請求項２記載の発明では、請求項１記載の
発明において、構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識する。

【００１９】

【作用】請求項１記載の発明は、文書画像が画像入力手
段により入力されると、この入力された文書画像が画像
分割手段により予め設定された条件に従って複数の要素
に分割され、この分割された複数の要素の各々から文字
認識手段により文字が認識される。領域検出手段により
特定の要素が書誌領域として検出されると、この検出さ
れた書誌領域の論理構造が構造認識手段により認識され
るので、構造出力手段により文書画像の論理構造が出力
される。構造認識手段は、予め設定された複数の文字列
パターンとマッチングした書誌領域の文字列を論理構造
と認識するので、文書画像の入力精度が良好でない場合
でも論理構造が的確に認識され、予め規定された文字列
パターンの優先順位に対応して論理構造の認識を規制す
るので、論理構造の複数の候補を適切に選択するような
ことができる。

【００２０】

【００２１】

【００２２】

【００２３】

【００２４】

【００２５】

【００２６】請求項２記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識するので、誤認識が予測される文字列を適切に修
正してから論理構造を認識することができる。

【００２７】

【実施例】本発明の一実施例を図面に基づいて以下に説
明する。まず、本実施例の文書処理装置１は、図１に示
すように、画像入力手段２、画像分割手段３、文字認識
手段４、領域検出手段５、構造認識手段６、構造出力手
段７、を有している。

【００２８】前記画像入力手段２は、イメージスキャナ
（図示せず）により原稿を読取走査することにより、原
稿に記載された文書の画像である文書画像８を、ドット
マトリクスのイメージデータとして入力する。前記画像
分割手段３は、入力された文書画像８を予め設定された
条件に従って複数の要素に分割し、前記文字認識手段４
は、分割された複数の要素の各々から文字を認識する。
このような要素の分割や文字の認識は公知技術により実
現され、例えば、このような技術は特開平5-159101号公
報に開示されている。

【００２９】なお、入力される文書画像８が複数ページ
からなることもあるが、ここで問題とする書誌情報は第
一ページに位置すると予測されるので、要素の分割から
以下の処理は第一ページのみに実行される。

【００３０】前記領域検出手段５は、上述のように分割
された複数の要素に対し、特定の要素を書誌領域として
検出する。より詳細には、“その上端がページの上方に
位置する”“その左端がページの左方に位置する”なる
二つの条件が予め設定されており、複数の要素を上記条
件に対応させてソートする。このようにソートされた複
数の要素から、横幅が文書画像８の有効領域に一致する
要素を検出し、この要素より上方に位置する要素を書誌
領域として検出する。

【００３１】つまり、タイトルや著者名などの書誌情報
は本文より上方に位置すると想定し、本文は横幅が文書
画像８の有効領域に一致すると予測している。そこで、
より上方かつ左方に位置して幅広の要素を本文の上部と
して検出し、これより上方の要素を書誌領域として検出
している。

【００３２】前記構造認識手段６は、上述のように検出
された書誌領域の論理構造を認識する。より詳細には、
書誌領域にはタイトルや著者名などの書誌事項が記載さ
れているので、これらの書誌事項を個々に抽出すること
により書誌領域の論理構造を認識する。このため、図２
に示すように、書誌事項の抽出ルールが各種別毎に予め
設定されており、この抽出ルールにより書誌領域から各
種の書誌事項が抽出される。

【００３３】なお、図２の第一フィールド９は書誌事項
の種別、第二フィールド１０は抽出処理の内容、第三フ
ィールド１１は文字列パターン、第四フィールド１２は
優先順位、第五フィールド１３は変換処理の内容、を示
す。例えば、タイトルはセンタリングにより抽出され、
その優先順位は“１”で変換処理は設定されていない。
日付は文字列パターンとのパターンマッチングにより抽
出されるが、二つの文字列パターンに優先順位が設定さ
れている。優先順位が“２”の文字列パターンは、文字
の誤認識に対応したもので、先頭がアルファベットの
“ｌ（エル）”であり、これに対応した変換処理は“ｌ
（エル）→１（イチ）”である。

【００３４】前記構造出力手段７は、上述のように認識
された文書画像８の論理構造を出力する。この論理構造
の出力形式は、図３に示すように、ＩＳＯ(Internation
al Organization for Standardization)標準のＳＧＭＬ
(Standard Generalized Markup Language)形式として設
定されている。なお、このＳＧＭＬ形式の各項目の意味
は、 frontm … 書誌事項の集合 title … 文書のタイトル date … 文書の日付ｙ … 年ｍ … 月ｄ … 日 key …その他の書誌事項 body … 本文である。この場合、“frontm〜key”は書誌領域から抽
出される書誌事項であり、そのイメージデータは文字コ
ードに変換されてから出力されるが、“body”は書誌領
域でない本文領域であり、そのイメージデータは文字コ
ードに変換されることなく出力される。

【００３５】このような構成において、本実施例の文書
処理装置１は、文書画像８が画像入力手段２に入力され
ると、この文書画像８の論理構造を構造出力手段７から
出力する。このような文書処理装置１の処理動作を、図
４のフローチャートに基づいて説明する。

【００３６】まず、画像入力手段２により文書画像８を
イメージデータとして入力し（ステップＳ１）、この入
力された文書画像８を画像分割手段３により複数の要素
に分割し（ステップＳ２）、この分割された複数の要素
の各々の文字を文字認識手段４により認識する（ステッ
プＳ３）。つぎに、領域検出手段５により、複数の要素
を前述した条件に対応させてソートしてから、文書画像
８の有効領域に横幅が一致する要素を本文領域として検
出し（ステップＳ４）、この本文領域の要素より上方に
位置する要素を書誌領域として検出する（ステップＳ
５）。

【００３７】このように検出された書誌領域には、“タ
イトル、発信日付、発信元、送信先”などの書誌事項が
存在するので、これらの書誌事項が論理構造として構造
認識手段６により認識される（ステップＳ６）。この
時、文字列のパターンが予測される日付などの書誌事項
は、複数の文字列パターンとのマッチングにより書誌領
域から抽出される。

【００３８】このように抽出される文字列は文字列パタ
ーンの優先順位に従って取捨選択されるので、抽出され
た文字列が多数の場合、優先順位の高い文字列のみ採用
され、ノイズの増加が防止される。さらに、上述のよう
に抽出された文字列が変換条件に一致する場合は、文字
列は変換処理されてから論理構造に認識される。より具
体的には、書誌事項である日付には“１（イチ）”なる
数字が多用されるが、これは文字認識においてアルファ
ベットの“ｌ（エル）”に誤認識されることが多い。こ
の小文字の“ｌ（エル）”が書誌事項の先頭の文字に使
用される可能性は低いので、これが書誌事項の先頭に位
置した場合は“１（イチ）”に変換処理する。

【００３９】上述のようにして文書画像８の論理構造が
認識されると、構造出力手段７は、図３に示すように、
文書画像８の論理構造をＳＧＭＬ形式で出力する（ステ
ップＳ７，Ｓ８）。この時、書誌領域から抽出された書
誌事項は文字コードに変換されて出力されるが、本文領
域はイメージデータのまま出力される。

【００４０】上述のように、本実施例の文書処理装置１
では、文書画像８が画像入力手段２に入力されると、こ
の文書画像８の論理構造を構造出力手段７から出力する
ので、この文書画像８をデータベースに格納する場合で
も、論理構造によりキーワードを良好に設定することが
できる。この時、文書画像８から書誌事項が位置する書
誌領域を検出し、この書誌領域のみを論理構造の認識対
象とし、文書画像８の全体を解析する必要がないので、
簡易な処理動作で的確に論理構造が認識される。

【００４１】さらに、論理構造により判別された書誌情
報は文字認識手段４によりコード化されているので、デ
ータベースから読み出した文書画像８を表示するディス
プレイが低解像度で本文の文字などが読み取れない場合
でも、コード化された論理構造は明確に読み取ることが
できるので、文書画像８の記載内容を確認することがで
きる。しかも、書誌領域でない本文領域は文字コードに
変換されないので、処理動作の負担が軽減されて時間が
短縮され、文書画像８の本文が正確に保存される。

【００４２】また、本実施例の文書処理装置１では、本
文領域の要素は、文書画像８の有効領域に横幅が一致す
る要素として検出されるので、簡易な処理動作で高精度
に検出される。さらに、書誌領域の要素は、本文領域の
要素より上方に位置する要素として検出されるので、簡
易な処理動作で高精度に検出される。しかし、本発明は
上記実施例に限定されるものではなく、本文領域の要素
を、行数が予め設定された基準値より多数の要素として
検出することや、字数が予め設定された基準値より多数
の要素として検出することも可能である。つまり、一般
的に本文は書誌事項に比較して行数や字数が多大なの
で、これを利用することでも本文領域と書誌領域とを簡
易な処理動作で高精度に検出することができる。なお、
この場合の処理動作は、文書画像８から分割された複数
の要素の各々の行数や字数をカウントし、これを基準値
と比較することにより容易に実現される。

【００４３】また、本実施例の文書処理装置１では、予
め設定された複数の文字列パターンとマッチングした書
誌領域の文字列を論理構造と認識するので、各種の論理
構造を的確に認識することができる。しかも、この論理
構造の認識は文字列パターンの優先順位に従って実行さ
れるので、抽出される書誌事項が多数の場合に個数を限
定したり、誤認識が発生しやすい文字列を予測して排除
するようなことができる。しかし、本発明は上記実施例
に限定されるものでもなく、文字列パターンとマッチン
グした全部の書誌事項を論理構造として認識することに
より、文書画像８の検索の許容範囲を拡大することも可
能である。

【００４４】さらに、本実施例の文書処理装置１では、
文字列パターンとマッチングした書誌領域の文字列を予
め設定された変換条件により変換するので、前述のよう
にアルファベットの“ｌ（エル）”に誤認識されやすい
日付の“１（イチ）”を修正するようなことができ、文
書画像８の入力精度が低く文字認識に誤動作が発生して
いる場合でも、文書画像８の論理構造を正確に認識する
ことができる。

【００４５】

【発明の効果】請求項１記載の発明は、文書画像を入力
する画像入力手段を設け、入力された文書画像を予め設
定された条件に従って複数の要素に分割する画像分割手
段を設け、分割された複数の要素の各々から文字を認識
する文字認識手段を設け、特定の要素を書誌領域として
検出する領域検出手段を設け、検出された書誌領域の論
理構造を認識する構造認識手段を設け、認識された論理
構造を出力する構造出力手段を設けたことにより、論理
構造が文書画像の全体でなく書誌領域のみから認識され
るので、処理範囲が減縮されて論理構造の認識処理の負
担が軽減され、書誌領域には文書画像を良好に特定でき
る書誌事項が存在するので、文書画像の論理構造が的確
に認識される。構造認識手段は、予め設定された複数の
文字列パターンとのマッチングにより書誌領域の文字列
を論理構造と認識することにより、各種の論理構造を簡
易な処理動作で的確に認識することができ、予め規定さ
れた文字列パターンの優先順位に対応して論理構造の認
識を規制することにより、認識される論理構造が多数の
場合に、これを優先順位により取捨選択したり重み付け
るようなことができる。

【００４６】

【００４７】

【００４８】

【００４９】

【００５０】

【００５１】

【００５２】請求項２記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識することにより、文字認識において誤認識されや
すい文字列を予測して修正することができるので、文書
画像の入力精度が低い場合でも論理構造を良好に認識す
ることができる。

【図面の簡単な説明】

【図１】本発明の一実施例の文書処理装置を示すブロッ
ク図である。

【図２】書誌情報の抽出ルールを示す模式図である。

【図３】論理構造の出力形式を示す模式図である。

【図４】文書処理装置の処理動作を示すフローチャート
である。

【符号の説明】

１文書処理装置２画像入力手段３画像分割手段４文字認識手段５領域検出手段６構造認識手段７構造出力手段８文書画像

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平３−127169（ＪＰ，Ａ) 特開平５−342326（ＪＰ，Ａ) ＰＲＵ94−36 文書画像のＳＧＭＬ文書への変換に関する一検討，電子情報通信学会技術研究報告，日本，1994年９月22日，第94巻第242号，ｐｐ．73−80 文書画像構造解析のための知識ベースの一構成法，情報処理学会論文誌，日本，1993年１月15日，第34巻第１号, ｐｐ．75−87 ＰＲＵ93−125 パターン分類手法に基づくレイアウト解析，電子情報通信学会技術研究報告，日本，1994年１月, 第93巻第431号，ｐｐ．71−78 ＰＲＵ94−42 文書の論理構造を解釈する一手法，電子情報通信学会技術研究報告，日本，1994年10月20日，第94巻第 291号，ｐｐ．25−32 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/82 G06F 17/30 G06T 1/00

Claims

(57)【特許請求の範囲】

【請求項１】文書画像を入力する画像入力手段と、入
力された文書画像を予め設定された条件に従って複数の
要素に分割する画像分割手段と、分割された複数の要素
の各々から文字を認識する文字認識手段と、特定の要素
を書誌領域として検出する領域検出手段と、検出された
書誌領域の論理構造を認識する構造認識手段と、認識さ
れた論理構造を出力する構造出力手段と、を有し、前記
構造認識手段は、予め設定された複数の文字列パターン
とのマッチングにより書誌領域の文字列を論理構造と認
識し、予め規定された文字列パターンの優先順位に対応
して論理構造の認識を規制することを特徴とする文書処
理装置。
【請求項２】構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識することを特徴とす
る請求項１記載の文書処理装置。