JPH10162098A

JPH10162098A - 文書電子化装置及び文書電子化方法

Info

Publication number: JPH10162098A
Application number: JP8321471A
Authority: JP
Inventors: Kazuki Shibata; 和樹柴田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-12-02
Filing date: 1996-12-02
Publication date: 1998-06-19
Also published as: US20010016068A1

Abstract

(57)【要約】【課題】文字認識率の高く、図表を含む文書に対して
マークアップ言語を用いた電子データを自動生成できる
文書電子化装置を提供する。【解決手段】画像入力装置１１から取り込まれ画像記
憶部１２に格納された文書画像を表示装置１４に表示さ
せる。表示装置上の文書に対し、位置入力装置１５、文
字入力装置１６を用いて領域指定を行い、各領域に属性
情報を与える。文字認識部１８は、属性情報によって指
定される辞書を用いて領域毎に文字認識を行い、結果を
テキスト記憶部１７ｂに記憶させる。画像抽出部２０
は、属性情報に従い、画像データを抽出し、画像データ
記憶部１７ｃに格納する。マークアップ部１９は、属性
情報に基づいて、文字領域、図表領域の双方に対してマ
ークアップ処理を行い、その結果をテキスト記憶部に格
納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書電子化装置及
び文書電子化方法に関し、特に、自動文字認識を行う文
書電子化装置及び文書電子化方法に関する。

【０００２】

【従来の技術】文書を電子化する方法には、文書をイメ
ージ（画像）情報として電子化する方法と、文字を認識
してコード化する方法とがある。文書をイメージ情報と
して電子化する方法は、その文書に図表等が含まれてい
る場合であっても、文字列を図表とを区別することなく
電子化が可能なので処理が容易であるという特徴があ
る。しかしながら、電子化された文書のデータ量や、そ
の後のデータの利用を考えると、文字列はコード化して
おく方が望ましい。そこで、文字列と図表等とを区別し
て、文字列はコード情報として、図表等は画像情報とし
て電子化する文書電子化装置が提案され、実用化されて
いる。

【０００３】従来の、この種の文書電子化装置では、文
書をスキャナ等で読み取り、オペレータが予め定められ
た文書形式を指定することにより、文字列領域と図表領
域とを区別したり、あるいは、オペレータが、文字列領
域と図表領域とを指定することにより、これらの領域を
区別したりしている。また、特開平２−５９９７９号公
報には、自動的に文字列領域と図表領域とを区別する文
書電子化装置が開示されている。

【０００４】いずれにしても、文字列領域であると指定
（または判定）された領域に対しては、自動文字認識が
行われ、文字列はコード化される。そして、コード化さ
れた文字情報と図表領域のイメージ情報とは、別々に記
憶される。

【０００５】上記のようにして文書電子化装置で電子化
された文字情報は、通常、原文書のフォーマットをもた
ない。そこで、ＳＧＭＬ等のマークアップ言語を用いた
マークアップ処理が施される場合がある。

【０００６】従来のマークアップ処理は、一連の文書電
子化作業が終了した後で行われる。

【０００７】

【発明が解決しようとする課題】第１の問題点は、従来
の文書電子化装置では、文字の種類（大きさ、フォント
等）が一様でなければ、文字認識率が低下することであ
る。

【０００８】その理由は、従来の文書電子化装置が、文
字を認識するために使用する辞書は、特定の種類の文字
に対して最適化されているにもかかわらず、文字の大き
さやフォントの異なる文字に対しても、その辞書を使用
しなければならないからである。

【０００９】第２の問題点は、従来の文書電子化装置に
よる自動文字認識では、マークアップ言語を使用した文
書の構造化（自動マークアップシステムの適用）が困難
になることである。

【００１０】その理由は、自動文字認識を行うと、タイ
トル、章、節等の文書構造や、文字の大きさ、フォント
等の情報が失われてしまうからである。

【００１１】第３の問題点は、電子化された文書が、図
表を含む場合には、マークアップを行う場合に、編集作
業が必要とされることである。

【００１２】その理由は、一旦、自動文字認識が行われ
ると、文字列領域に関しては、文字コード（テキストデ
ータ）以外の情報が失われ、図表についてはその位置が
分からなくなるからである。

【００１３】本発明は、文字認識率の高い文書電子化装
置及び文書電子化方法を提供することを目的とする。

【００１４】また、本発明は、取り込んだ文書画像から
マークアップ言語を用いた電子データを生成することが
でき、しかも、図表を含む文書に対してマークアップ処
理が容易に行える文書電子化装置及び文書電子化方法を
提供することを目的とする。

【００１５】

【課題を解決するための手段】本発明によれば、文書を
読み取り、読み取った文書に対して文字認識を行なう文
書電子化装置において、読み取った文書に対して領域指
定を行う領域指定手段と、各領域に対応する属性情報を
入力する手段と、前記各領域と前記属性情報とを関連づ
けて記憶する属性記憶手段と、複数の文字種にそれぞれ
対応する辞書を有する辞書群と、前記属性情報を参照し
て前記辞書群から適切な辞書を選択して各領域毎に文字
認識を実行する文字認識手段とを有することを特徴とす
る文書電子化装置が得られる。

【００１６】また、前記文書が図表を含んでいる場合
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出する画
像抽出手段を備えたことを特徴とする文字電子化装置が
得られる。

【００１７】さら、各領域に対する文字認識の結果、ま
たは、画像データ抽出の結果に対して、マークアップ処
理を実行するマークアップ処理手段を備えたことを特徴
とする文字電子化装置が得られる。

【００１８】また、本発明によれば、文書を読み取り、
読み取った文書に対して文字認識を行なう文書電子化方
法において、読み取った文書に対して領域指定を行い、
各領域に対応する属性情報を入力して、前記各領域と前
記属性情報とを関連づけて記憶させておき、予め用意し
ておいた複数の辞書の中から、前記属性情報によって指
定される辞書を各領域毎に選択して文字認識を実行する
ようにしたとを特徴とする文書電子化方法が得られる。

【００１９】また、前記文書が図表を含んでいる場合
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出するこ
とを特徴とする文字電子化方法が得られる。

【００２０】さらに、前記各領域に対して文字認識が実
行されたあと、または、画像データの抽出が行われたあ
と、前記属性情報を参照して各領域に対してマークアッ
プ処理を実行することを特徴とする文字電子化装置が得
られる。

【００２１】

【作用】装置内に取り込んだ文書に対して領域指定を行
い、各領域毎に属性を与えると、文字認識は、与えられ
た属性に従って各領域毎に行われる。また、マークアッ
プも、各領域に与えられた属性に従って行われる。

【００２２】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。

【００２３】図１に本発明の文書電子化装置の一実施の
形態を示す。図１に示す文書電子化装置は、文書１０を
画像として取り込むスキャナ、ＯＣＲ等の画像入力装置
１１と、画像入力装置１１により取り込まれた画像デー
タを保持する画像記憶部１２と、取り込んだ画像を表示
させるための表示部１３及びＣＲＴ等の表示装置１４
と、表示装置１４に表示された画像に対して１以上の領
域を指定するためのマウス等の位置入力装置１５と、指
定された各領域の属性情報を入力するためのキーボード
等の文字入力装置１６と、領域毎の情報を記憶する領域
記憶部１７と、領域毎に文字認識を行う文字認識部１８
と、領域毎にマークアップを行うマークアップ部１９
と、画像領域のデータを画像記憶部１２に記憶された画
像データから抽出する画像抽出部２０と、電子データを
出力する出力部２１とを有している。

【００２４】また、領域記憶部１７は、位置入力装置１
５及び文字入力装置１６からそれぞれ入力された位置情
報及び属性情報を記憶する属性記憶部１７ａ、文字認識
部１８の認識結果（テキストデータ）を記憶するテキス
ト記憶部１７ｂ、及び、画像抽出部２０の抽出結果を記
憶する画像データ記憶部１７ｃを有している。

【００２５】また、文字認識部１８は、文字認識を行う
文字認識エンジン１８ａと、文字認識のために文字認識
エンジン１８ａが使用する複数種類の文字認識辞書を含
む文字認識辞書群１８ｂとを有している。

【００２６】次に、図２をも参照して図１の文書電子化
装置の動作について説明する。

【００２７】まず、画像入力装置１１は、ステップＡ１
で、電子化しようとする文書を画像として読み取り、画
像データを出力する。画像入力装置１１から出力された
画像データは、ステップＡ２で、画像記憶部１２に入力
され格納される。表示部１３は、画像記憶部１２に格納
された画像データを読み出して表示装置１４の画面上に
文書画像を表示させる。

【００２８】次に、オペレータは、ステップＡ３で、位
置入力装置１５を用いて、表示装置１４に表示された文
書画像上で領域指定を行う。ここでは、文字列領域及び
図表領域という単純な領域指定ではなく、タイトル、項
目、或いは、段落といった、さらに細かい領域指定を行
う。これは、文字サイズ、フォントなどが統一された範
囲を１つの領域とするために行われる。続いて、オペレ
ータは、ステップＡ４で、指定した領域の自動文字認
識、マークアップ、自動画像データ抽出等を行う際に利
用される属性を、文字入力装置１６から入力する。この
結果、属性記憶部１７ａには、指定された領域の範囲及
び文書上の位置を表す位置情報、及び入力された属性情
報が格納される。

【００２９】上記、オペレータによる領域の指定、及び
属性の入力は、自動文字認識、マークアップ、自動画像
データ抽出を行う全ての範囲が終了するまで繰り返され
る。なお、領域指定の度に属性入力を行わず、全ての領
域指定が終了したあと、各領域について属性を入力する
ようにしてもよい。この場合、各領域と属性とを対応づ
けるために、属性を入力する際に位置入力装置１５が併
用される。

【００３０】全ての領域指定及び属性入力が終了する
と、オペレータは、ステップＡ５において、位置入力装
置１５または文字入力装置１６からデータ入力終了を通
知する。そして、ステップＡ７で、位置入力装置１５を
用いて、自動文字認識、マークアップ、または、自動画
像データ抽出を行おうとする領域（未処理領域）を選択
する。

【００３１】処理しようとする領域が選択されると、そ
の属性情報が（図示しない制御装置により）確認され
る。ステップＡ８において、その領域が画像情報である
と判定されたならば、画像抽出部２０が起動される。画
像抽出部２０は、ステップＡ９で、画像記憶部１２に格
納されている画像データから対応する領域のデータを抽
出し、ステップＡ１０で、画像データ記憶部１７ｃに格
納する。

【００３２】一方、ステップＡ８で、選択された領域が
文字領域であると判定された場合は、文字認識エンジン
１８ａが起動される。文字認識エンジン１８ａは、ステ
ップＡ１１において、その領域の属性情報に辞書の種類
を指定する情報が含まれているか判定する。そして、辞
書の指定がある場合は、ステップＡ１２で、文字認識辞
書群１８ｂからその辞書を選択し、指定がない場合は、
予め定められた辞書を用いて、ステップＡ１３で、自動
文字認識を実行する。なお、選択された領域のデータ
は、画像情報と同様に画像記憶部１２から抽出される。
また、文字認識は、属性情報に含まれる文字の記載方向
（縦書き、横書き）等の情報に基づいて行われる。そし
て、文字認識の結果は、ステップＡ１４で、テキスト記
憶部１７ｂに格納される。

【００３３】画像データの抽出または自動文字認識が終
了すると、ステップ１５において、再び、その領域の属
性情報が参照され、マークアップを行うか否かの判定が
行われる。マークアップを行う場合は、マークアップ部
１９が起動され、マークアップ部は、テキスト記憶部１
７ｂに格納されたデータを一旦取り出し、属性情報に基
づいてマークアップを行った後、再び、テキスト記憶部
１７ｂに格納する。なお、画像領域に対してマークアッ
プを行う場合は、画像データとの対応を表現するような
マークアップを行い、その結果を他の文字列データと同
様にテキスト記憶部１７ｂに格納する。

【００３４】この後、再びステップＡ７に戻り、未処理
の領域を選択し、上記ステップＡ８からＡ１６までの処
理を繰り返す。

【００３５】全ての領域に対して、上記ステップＡ８か
らＡ１６までの処理が行われたと、ステップＡ１７で判
定されたならば、出力部２１が起動される。出力部２１
は、属性記憶部１７ａに格納された、各領域についての
属性情報や、文書画像上の位置情報を利用して、各領域
のテキストデータ及び画像データのそれぞれについて出
力順序を決定し、順次出力（電子データ２２を出力）す
る。

【００３６】以上のように、本実施の形態では、文字認
識辞書群１８ｂに複数の文字種にそれぞれ対応する辞書
を用意しておき、属性情報により辞書を指定するように
したことで、自動文字認識において高い認識精度が得ら
れる。

【００３７】また、各領域毎にマークアップを行うの
で、自動マークアップ処理が可能になる。

【００３８】さらに、マークアップ処理を文字領域及び
図表領域の区別なく行うことができるので、編集作業を
行う必要がない。

【００３９】なお、上記実施の形態では、文字認識行う
際も、選択された領域のデータは、画像情報と同様に画
像記憶部１２から抽出される、と説明したが、属性記憶
部１７ａに属性情報とともに画像記憶部１２と同一のデ
ータを記憶させるようにしても良い。

【００４０】

【実施例】次に、図３乃至図７を参照して本発明の実施
例について説明する。ここでは、図３に示すような文書
を電子化する例について説明する。

【００４１】図３の文書は、タイトル、第１の文章（段
落１）、図表、及び、第２の文章（段落２）で構成され
ている。この文書を画像入力装置１１で読み取ると（ス
テップＡ１、Ａ２）、表示装置１４の画面上には、図３
と同じ状態で文書が表示される。

【００４２】次に、位置入力装置１５を用いて画面上の
カーソルを移動させながら、領域指定を行う（ステップ
Ａ３）。ここでは、図４に示すように、タイトル、段落
１、図表、及び、段落２をそれぞれ、領域１、２、３、
及び４として指定する。さらに、文字入力装置１６か
ら、各領域に関する属性情報を入力する（ステップＡ
４）。属性情報としては、図５に示すように、フォント
等応じた辞書の種別、マークアップ処理に使用されるタ
グ、及び画像領域と文字領域との区別、等がある。

【００４３】次に、各領域の処理に移る。領域１は、そ
の属性にあるように（図５参照）、文書領域なので、ま
ず、辞書の指定がなされているか判断される（ステップ
Ａ１１）。ここで、領域１は“ゴシック”との指定がな
されているので、ゴシック文字に最適化された文字認識
用辞書が選択される（ステップＡ１２）。そして、選択
された辞書を用いて高精度の自動文字認識が行われる。
その結果、図６の上から２行目に示すような、認識され
た文字列が得られる。さらに、領域１については、マー
クアップ情報（タグ）として“title ”が与えられてい
るので、認識した文字列の前後に“〈title 〉”と
“〈/title〉”のラベルを配してマークアップが行われ
る（ステップＡ１５，Ａ１６）。この結果が、テキスト
記憶部１７ｂに格納される。

【００４４】領域２については、上記とほぼ同様にして
処理される。異なる点は、辞書として“明朝”が指定さ
れているので、その文字認識に、明朝文字に最適化され
た文字認識用辞書が選択されて、自動文字認識に使用さ
れる点と、タグが“para”と指定されているので、
“〈para〉”及び“〈/para 〉”を用いてマークアップ
が行われる点である。なお、領域４も領域２と同様の処
理が行われる。

【００４５】このように本装置では、ゴシック文字や、
明朝文字が混在する文書であっても、辞書を指定するこ
とにより、一様に、高精度な自動文字認識が行える。

【００４６】領域３は、その属性情報にあるように図表
領域である。従って、その領域の画像データが、画像記
憶部１２から抽出される（ステップＡ９，Ａ１０）。こ
こでは、図表領域に“画像”なる文字が含まれていて
も、文字認識は行わない。そして、マークアップ処理
は、“graphic ”というラベルでマークアップが行われ
る（ステップＡ１５，Ａ１６）。図表領域に対するマー
クアップ処理では、その領域の画像データを参照するこ
とができるように、その画像データのファイル名、例え
ば、“GRAPHIC1.DAT”という文字列を加える。この結
果、“〈graphic file=GRAPHIC1.DAT 〉〈/fraphic〉”
というマークアップされた文字列が、テキスト記憶部１
７ｂに格納される。なお、ここでは、画像データを画像
データ記憶部１７ｃに格納することを前提としている
が、画像データをテキスト形式のデータにエンコードし
て、例えば、“〈graphicdata 〉”及び“〈/graphicda
ta〉”のようなラベルでマークアップを行い、テキスト
記憶部１７ｂに記憶させるようにしても良い。

【００４７】以上のようにして、全ての領域について処
理が終了したならば、テキスト記憶部１７ｂと画像デー
タ記憶部１７ｃとから、それぞれ、文字列データ、画像
データが出力される。

【００４８】文字列データは、文書上での領域の座標
や、オペレータからの指定等、属性情報に含まれる（図
５には示していない）情報に従って、出力される。本実
施例では、領域１から順番に出力する。ただし図表領域
については、マークアップ処理に基づく文字列のみが出
力される。出力結果は、図７のようになる。

【００４９】また、画像データについては、マークアッ
プ処理で付加された情報に基づいてアクセスできるよ
う、ファイル名を用いて出力する。これで、全ての処理
が終了する。

【００５０】

【発明の効果】第１の効果は、複数の文字種が混在した
文書であっても、高い認識精度で自動文字認識を行うこ
とができることである。

【００５１】その理由は、文字種に応じた辞書を設け、
領域ごとに辞書を指定するようにしたことで、適切な領
域指定が成されれば、文字種に対応する適切な辞書を用
いて文字認識を行うことができるからである。

【００５２】第２の効果は、マークアップ処理が自動的
に効率良く行われることである。

【００５３】その理由は、文書に対して領域指定を行
い、領域ごとに文字認識等の処理を行うが、各領域に
は、マークアップ処理に必要な情報が、属性情報として
与えられているからである。

【００５４】第３の効果は、文書に図表領域が含まれて
いても、マークアップ処理が自動的に行われることであ
る。

【００５５】その理由は、図表領域についても、マーク
アップ処理に必要な情報が、属性情報として与えられて
いるからである。

【図面の簡単な説明】

【図１】本発明の一実施の形態を示すブロック図であ
る。

【図２】図１の文書電子化装置の動作を説明するための
フローチャートである。

【図３】本発明の実施例に使用される文書を示す図であ
る。

【図４】本発明の実施例による領域指定を説明するため
の図である。

【図５】本発明の実施例で使用される属性情報を説明す
るための図である。

【図６】本発明の実施例による自動文字認識の結果を示
す図である。

【図７】本発明の実施例によるテキストデータを示す図
である。

【符号の説明】

１０文書１１画像入力装置１２画像記憶部１３表示部１４表示装置１５位置入力装置１６文字入力装置１７領域記憶部１７ａ属性記憶部１７ｂテキスト記憶部１７ｃ画像データ記憶部１８文字認識部１８ａ文字認識エンジン１８ｂ文字認識辞書群１９マークアップ部２０画像抽出部２１出力部２２電子データ

Claims

【特許請求の範囲】

【請求項１】文書を読み取り、読み取った文書に対し
て文字認識を行なう文書電子化装置において、読み取っ
た文書に対して領域指定を行う領域指定手段と、各領域
に対応する属性情報を入力する手段と、前記各領域と前
記属性情報とを関連づけて記憶する属性記憶手段と、複
数の文字種にそれぞれ対応する辞書を有する辞書群と、
前記属性情報を参照して前記辞書群から適切な辞書を選
択して各領域毎に文字認識を実行する文字認識手段とを
有することを特徴とする文書電子化装置。
【請求項２】前記文書が図表を含んでいる場合に、前
記属性情報によって図表と指定された領域に対応する画
像データを、前記読み取った文書から抽出する画像抽出
手段を備えたことを特徴とする請求項１の文字電子化装
置。
【請求項３】各領域に対する文字認識の結果、また
は、画像データ抽出の結果に対して、マークアップ処理
を実行するマークアップ処理手段を備えたことを特徴と
する請求項１または２の文字電子化装置。
【請求項４】文書を読み取り、読み取った文書に対し
て文字認識を行なう文書電子化方法において、読み取っ
た文書に対して領域指定を行い、各領域に対応する属性
情報を入力して、前記各領域と前記属性情報とを関連づ
けて記憶させておき、予め用意しておいた複数の辞書の
中から、前記属性情報によって指定される辞書を各領域
毎に選択して文字認識を実行するようにしたとを特徴と
する文書電子化方法。
【請求項５】前記文書が図表を含んでいる場合に、前
記属性情報によって図表と指定された領域に対応する画
像データを、前記読み取った文書から抽出することを特
徴とする請求項４の文字電子化方法。
【請求項６】前記各領域に対して文字認識が実行され
たあと、または、画像データの抽出が行われたあと、前
記属性情報を参照して各領域に対してマークアップ処理
を実行することを特徴とする請求項４または５の文字電
子化方法。