JPH10162098A - 文書電子化装置及び文書電子化方法 - Google Patents
文書電子化装置及び文書電子化方法Info
- Publication number
- JPH10162098A JPH10162098A JP8321471A JP32147196A JPH10162098A JP H10162098 A JPH10162098 A JP H10162098A JP 8321471 A JP8321471 A JP 8321471A JP 32147196 A JP32147196 A JP 32147196A JP H10162098 A JPH10162098 A JP H10162098A
- Authority
- JP
- Japan
- Prior art keywords
- document
- area
- attribute information
- character
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 文字認識率の高く、図表を含む文書に対して
マークアップ言語を用いた電子データを自動生成できる
文書電子化装置を提供する。 【解決手段】 画像入力装置11から取り込まれ画像記
憶部12に格納された文書画像を表示装置14に表示さ
せる。表示装置上の文書に対し、位置入力装置15、文
字入力装置16を用いて領域指定を行い、各領域に属性
情報を与える。文字認識部18は、属性情報によって指
定される辞書を用いて領域毎に文字認識を行い、結果を
テキスト記憶部17bに記憶させる。画像抽出部20
は、属性情報に従い、画像データを抽出し、画像データ
記憶部17cに格納する。マークアップ部19は、属性
情報に基づいて、文字領域、図表領域の双方に対してマ
ークアップ処理を行い、その結果をテキスト記憶部に格
納する。
マークアップ言語を用いた電子データを自動生成できる
文書電子化装置を提供する。 【解決手段】 画像入力装置11から取り込まれ画像記
憶部12に格納された文書画像を表示装置14に表示さ
せる。表示装置上の文書に対し、位置入力装置15、文
字入力装置16を用いて領域指定を行い、各領域に属性
情報を与える。文字認識部18は、属性情報によって指
定される辞書を用いて領域毎に文字認識を行い、結果を
テキスト記憶部17bに記憶させる。画像抽出部20
は、属性情報に従い、画像データを抽出し、画像データ
記憶部17cに格納する。マークアップ部19は、属性
情報に基づいて、文字領域、図表領域の双方に対してマ
ークアップ処理を行い、その結果をテキスト記憶部に格
納する。
Description
【0001】
【発明の属する技術分野】本発明は、文書電子化装置及
び文書電子化方法に関し、特に、自動文字認識を行う文
書電子化装置及び文書電子化方法に関する。
び文書電子化方法に関し、特に、自動文字認識を行う文
書電子化装置及び文書電子化方法に関する。
【0002】
【従来の技術】文書を電子化する方法には、文書をイメ
ージ(画像)情報として電子化する方法と、文字を認識
してコード化する方法とがある。文書をイメージ情報と
して電子化する方法は、その文書に図表等が含まれてい
る場合であっても、文字列を図表とを区別することなく
電子化が可能なので処理が容易であるという特徴があ
る。しかしながら、電子化された文書のデータ量や、そ
の後のデータの利用を考えると、文字列はコード化して
おく方が望ましい。そこで、文字列と図表等とを区別し
て、文字列はコード情報として、図表等は画像情報とし
て電子化する文書電子化装置が提案され、実用化されて
いる。
ージ(画像)情報として電子化する方法と、文字を認識
してコード化する方法とがある。文書をイメージ情報と
して電子化する方法は、その文書に図表等が含まれてい
る場合であっても、文字列を図表とを区別することなく
電子化が可能なので処理が容易であるという特徴があ
る。しかしながら、電子化された文書のデータ量や、そ
の後のデータの利用を考えると、文字列はコード化して
おく方が望ましい。そこで、文字列と図表等とを区別し
て、文字列はコード情報として、図表等は画像情報とし
て電子化する文書電子化装置が提案され、実用化されて
いる。
【0003】従来の、この種の文書電子化装置では、文
書をスキャナ等で読み取り、オペレータが予め定められ
た文書形式を指定することにより、文字列領域と図表領
域とを区別したり、あるいは、オペレータが、文字列領
域と図表領域とを指定することにより、これらの領域を
区別したりしている。また、特開平2−59979号公
報には、自動的に文字列領域と図表領域とを区別する文
書電子化装置が開示されている。
書をスキャナ等で読み取り、オペレータが予め定められ
た文書形式を指定することにより、文字列領域と図表領
域とを区別したり、あるいは、オペレータが、文字列領
域と図表領域とを指定することにより、これらの領域を
区別したりしている。また、特開平2−59979号公
報には、自動的に文字列領域と図表領域とを区別する文
書電子化装置が開示されている。
【0004】いずれにしても、文字列領域であると指定
(または判定)された領域に対しては、自動文字認識が
行われ、文字列はコード化される。そして、コード化さ
れた文字情報と図表領域のイメージ情報とは、別々に記
憶される。
(または判定)された領域に対しては、自動文字認識が
行われ、文字列はコード化される。そして、コード化さ
れた文字情報と図表領域のイメージ情報とは、別々に記
憶される。
【0005】上記のようにして文書電子化装置で電子化
された文字情報は、通常、原文書のフォーマットをもた
ない。そこで、SGML等のマークアップ言語を用いた
マークアップ処理が施される場合がある。
された文字情報は、通常、原文書のフォーマットをもた
ない。そこで、SGML等のマークアップ言語を用いた
マークアップ処理が施される場合がある。
【0006】従来のマークアップ処理は、一連の文書電
子化作業が終了した後で行われる。
子化作業が終了した後で行われる。
【0007】
【発明が解決しようとする課題】第1の問題点は、従来
の文書電子化装置では、文字の種類(大きさ、フォント
等)が一様でなければ、文字認識率が低下することであ
る。
の文書電子化装置では、文字の種類(大きさ、フォント
等)が一様でなければ、文字認識率が低下することであ
る。
【0008】その理由は、従来の文書電子化装置が、文
字を認識するために使用する辞書は、特定の種類の文字
に対して最適化されているにもかかわらず、文字の大き
さやフォントの異なる文字に対しても、その辞書を使用
しなければならないからである。
字を認識するために使用する辞書は、特定の種類の文字
に対して最適化されているにもかかわらず、文字の大き
さやフォントの異なる文字に対しても、その辞書を使用
しなければならないからである。
【0009】第2の問題点は、従来の文書電子化装置に
よる自動文字認識では、マークアップ言語を使用した文
書の構造化(自動マークアップシステムの適用)が困難
になることである。
よる自動文字認識では、マークアップ言語を使用した文
書の構造化(自動マークアップシステムの適用)が困難
になることである。
【0010】その理由は、自動文字認識を行うと、タイ
トル、章、節等の文書構造や、文字の大きさ、フォント
等の情報が失われてしまうからである。
トル、章、節等の文書構造や、文字の大きさ、フォント
等の情報が失われてしまうからである。
【0011】第3の問題点は、電子化された文書が、図
表を含む場合には、マークアップを行う場合に、編集作
業が必要とされることである。
表を含む場合には、マークアップを行う場合に、編集作
業が必要とされることである。
【0012】その理由は、一旦、自動文字認識が行われ
ると、文字列領域に関しては、文字コード(テキストデ
ータ)以外の情報が失われ、図表についてはその位置が
分からなくなるからである。
ると、文字列領域に関しては、文字コード(テキストデ
ータ)以外の情報が失われ、図表についてはその位置が
分からなくなるからである。
【0013】本発明は、文字認識率の高い文書電子化装
置及び文書電子化方法を提供することを目的とする。
置及び文書電子化方法を提供することを目的とする。
【0014】また、本発明は、取り込んだ文書画像から
マークアップ言語を用いた電子データを生成することが
でき、しかも、図表を含む文書に対してマークアップ処
理が容易に行える文書電子化装置及び文書電子化方法を
提供することを目的とする。
マークアップ言語を用いた電子データを生成することが
でき、しかも、図表を含む文書に対してマークアップ処
理が容易に行える文書電子化装置及び文書電子化方法を
提供することを目的とする。
【0015】
【課題を解決するための手段】本発明によれば、文書を
読み取り、読み取った文書に対して文字認識を行なう文
書電子化装置において、読み取った文書に対して領域指
定を行う領域指定手段と、各領域に対応する属性情報を
入力する手段と、前記各領域と前記属性情報とを関連づ
けて記憶する属性記憶手段と、複数の文字種にそれぞれ
対応する辞書を有する辞書群と、前記属性情報を参照し
て前記辞書群から適切な辞書を選択して各領域毎に文字
認識を実行する文字認識手段とを有することを特徴とす
る文書電子化装置が得られる。
読み取り、読み取った文書に対して文字認識を行なう文
書電子化装置において、読み取った文書に対して領域指
定を行う領域指定手段と、各領域に対応する属性情報を
入力する手段と、前記各領域と前記属性情報とを関連づ
けて記憶する属性記憶手段と、複数の文字種にそれぞれ
対応する辞書を有する辞書群と、前記属性情報を参照し
て前記辞書群から適切な辞書を選択して各領域毎に文字
認識を実行する文字認識手段とを有することを特徴とす
る文書電子化装置が得られる。
【0016】また、前記文書が図表を含んでいる場合
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出する画
像抽出手段を備えたことを特徴とする文字電子化装置が
得られる。
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出する画
像抽出手段を備えたことを特徴とする文字電子化装置が
得られる。
【0017】さら、各領域に対する文字認識の結果、ま
たは、画像データ抽出の結果に対して、マークアップ処
理を実行するマークアップ処理手段を備えたことを特徴
とする文字電子化装置が得られる。
たは、画像データ抽出の結果に対して、マークアップ処
理を実行するマークアップ処理手段を備えたことを特徴
とする文字電子化装置が得られる。
【0018】また、本発明によれば、文書を読み取り、
読み取った文書に対して文字認識を行なう文書電子化方
法において、読み取った文書に対して領域指定を行い、
各領域に対応する属性情報を入力して、前記各領域と前
記属性情報とを関連づけて記憶させておき、予め用意し
ておいた複数の辞書の中から、前記属性情報によって指
定される辞書を各領域毎に選択して文字認識を実行する
ようにしたとを特徴とする文書電子化方法が得られる。
読み取った文書に対して文字認識を行なう文書電子化方
法において、読み取った文書に対して領域指定を行い、
各領域に対応する属性情報を入力して、前記各領域と前
記属性情報とを関連づけて記憶させておき、予め用意し
ておいた複数の辞書の中から、前記属性情報によって指
定される辞書を各領域毎に選択して文字認識を実行する
ようにしたとを特徴とする文書電子化方法が得られる。
【0019】また、前記文書が図表を含んでいる場合
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出するこ
とを特徴とする文字電子化方法が得られる。
に、前記属性情報によって図表と指定された領域に対応
する画像データを、前記読み取った文書から抽出するこ
とを特徴とする文字電子化方法が得られる。
【0020】さらに、前記各領域に対して文字認識が実
行されたあと、または、画像データの抽出が行われたあ
と、前記属性情報を参照して各領域に対してマークアッ
プ処理を実行することを特徴とする文字電子化装置が得
られる。
行されたあと、または、画像データの抽出が行われたあ
と、前記属性情報を参照して各領域に対してマークアッ
プ処理を実行することを特徴とする文字電子化装置が得
られる。
【0021】
【作用】装置内に取り込んだ文書に対して領域指定を行
い、各領域毎に属性を与えると、文字認識は、与えられ
た属性に従って各領域毎に行われる。また、マークアッ
プも、各領域に与えられた属性に従って行われる。
い、各領域毎に属性を与えると、文字認識は、与えられ
た属性に従って各領域毎に行われる。また、マークアッ
プも、各領域に与えられた属性に従って行われる。
【0022】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。
施の形態について説明する。
【0023】図1に本発明の文書電子化装置の一実施の
形態を示す。図1に示す文書電子化装置は、文書10を
画像として取り込むスキャナ、OCR等の画像入力装置
11と、画像入力装置11により取り込まれた画像デー
タを保持する画像記憶部12と、取り込んだ画像を表示
させるための表示部13及びCRT等の表示装置14
と、表示装置14に表示された画像に対して1以上の領
域を指定するためのマウス等の位置入力装置15と、指
定された各領域の属性情報を入力するためのキーボード
等の文字入力装置16と、領域毎の情報を記憶する領域
記憶部17と、領域毎に文字認識を行う文字認識部18
と、領域毎にマークアップを行うマークアップ部19
と、画像領域のデータを画像記憶部12に記憶された画
像データから抽出する画像抽出部20と、電子データを
出力する出力部21とを有している。
形態を示す。図1に示す文書電子化装置は、文書10を
画像として取り込むスキャナ、OCR等の画像入力装置
11と、画像入力装置11により取り込まれた画像デー
タを保持する画像記憶部12と、取り込んだ画像を表示
させるための表示部13及びCRT等の表示装置14
と、表示装置14に表示された画像に対して1以上の領
域を指定するためのマウス等の位置入力装置15と、指
定された各領域の属性情報を入力するためのキーボード
等の文字入力装置16と、領域毎の情報を記憶する領域
記憶部17と、領域毎に文字認識を行う文字認識部18
と、領域毎にマークアップを行うマークアップ部19
と、画像領域のデータを画像記憶部12に記憶された画
像データから抽出する画像抽出部20と、電子データを
出力する出力部21とを有している。
【0024】また、領域記憶部17は、位置入力装置1
5及び文字入力装置16からそれぞれ入力された位置情
報及び属性情報を記憶する属性記憶部17a、文字認識
部18の認識結果(テキストデータ)を記憶するテキス
ト記憶部17b、及び、画像抽出部20の抽出結果を記
憶する画像データ記憶部17cを有している。
5及び文字入力装置16からそれぞれ入力された位置情
報及び属性情報を記憶する属性記憶部17a、文字認識
部18の認識結果(テキストデータ)を記憶するテキス
ト記憶部17b、及び、画像抽出部20の抽出結果を記
憶する画像データ記憶部17cを有している。
【0025】また、文字認識部18は、文字認識を行う
文字認識エンジン18aと、文字認識のために文字認識
エンジン18aが使用する複数種類の文字認識辞書を含
む文字認識辞書群18bとを有している。
文字認識エンジン18aと、文字認識のために文字認識
エンジン18aが使用する複数種類の文字認識辞書を含
む文字認識辞書群18bとを有している。
【0026】次に、図2をも参照して図1の文書電子化
装置の動作について説明する。
装置の動作について説明する。
【0027】まず、画像入力装置11は、ステップA1
で、電子化しようとする文書を画像として読み取り、画
像データを出力する。画像入力装置11から出力された
画像データは、ステップA2で、画像記憶部12に入力
され格納される。表示部13は、画像記憶部12に格納
された画像データを読み出して表示装置14の画面上に
文書画像を表示させる。
で、電子化しようとする文書を画像として読み取り、画
像データを出力する。画像入力装置11から出力された
画像データは、ステップA2で、画像記憶部12に入力
され格納される。表示部13は、画像記憶部12に格納
された画像データを読み出して表示装置14の画面上に
文書画像を表示させる。
【0028】次に、オペレータは、ステップA3で、位
置入力装置15を用いて、表示装置14に表示された文
書画像上で領域指定を行う。ここでは、文字列領域及び
図表領域という単純な領域指定ではなく、タイトル、項
目、或いは、段落といった、さらに細かい領域指定を行
う。これは、文字サイズ、フォントなどが統一された範
囲を1つの領域とするために行われる。続いて、オペレ
ータは、ステップA4で、指定した領域の自動文字認
識、マークアップ、自動画像データ抽出等を行う際に利
用される属性を、文字入力装置16から入力する。この
結果、属性記憶部17aには、指定された領域の範囲及
び文書上の位置を表す位置情報、及び入力された属性情
報が格納される。
置入力装置15を用いて、表示装置14に表示された文
書画像上で領域指定を行う。ここでは、文字列領域及び
図表領域という単純な領域指定ではなく、タイトル、項
目、或いは、段落といった、さらに細かい領域指定を行
う。これは、文字サイズ、フォントなどが統一された範
囲を1つの領域とするために行われる。続いて、オペレ
ータは、ステップA4で、指定した領域の自動文字認
識、マークアップ、自動画像データ抽出等を行う際に利
用される属性を、文字入力装置16から入力する。この
結果、属性記憶部17aには、指定された領域の範囲及
び文書上の位置を表す位置情報、及び入力された属性情
報が格納される。
【0029】上記、オペレータによる領域の指定、及び
属性の入力は、自動文字認識、マークアップ、自動画像
データ抽出を行う全ての範囲が終了するまで繰り返され
る。なお、領域指定の度に属性入力を行わず、全ての領
域指定が終了したあと、各領域について属性を入力する
ようにしてもよい。この場合、各領域と属性とを対応づ
けるために、属性を入力する際に位置入力装置15が併
用される。
属性の入力は、自動文字認識、マークアップ、自動画像
データ抽出を行う全ての範囲が終了するまで繰り返され
る。なお、領域指定の度に属性入力を行わず、全ての領
域指定が終了したあと、各領域について属性を入力する
ようにしてもよい。この場合、各領域と属性とを対応づ
けるために、属性を入力する際に位置入力装置15が併
用される。
【0030】全ての領域指定及び属性入力が終了する
と、オペレータは、ステップA5において、位置入力装
置15または文字入力装置16からデータ入力終了を通
知する。そして、ステップA7で、位置入力装置15を
用いて、自動文字認識、マークアップ、または、自動画
像データ抽出を行おうとする領域(未処理領域)を選択
する。
と、オペレータは、ステップA5において、位置入力装
置15または文字入力装置16からデータ入力終了を通
知する。そして、ステップA7で、位置入力装置15を
用いて、自動文字認識、マークアップ、または、自動画
像データ抽出を行おうとする領域(未処理領域)を選択
する。
【0031】処理しようとする領域が選択されると、そ
の属性情報が(図示しない制御装置により)確認され
る。ステップA8において、その領域が画像情報である
と判定されたならば、画像抽出部20が起動される。画
像抽出部20は、ステップA9で、画像記憶部12に格
納されている画像データから対応する領域のデータを抽
出し、ステップA10で、画像データ記憶部17cに格
納する。
の属性情報が(図示しない制御装置により)確認され
る。ステップA8において、その領域が画像情報である
と判定されたならば、画像抽出部20が起動される。画
像抽出部20は、ステップA9で、画像記憶部12に格
納されている画像データから対応する領域のデータを抽
出し、ステップA10で、画像データ記憶部17cに格
納する。
【0032】一方、ステップA8で、選択された領域が
文字領域であると判定された場合は、文字認識エンジン
18aが起動される。文字認識エンジン18aは、ステ
ップA11において、その領域の属性情報に辞書の種類
を指定する情報が含まれているか判定する。そして、辞
書の指定がある場合は、ステップA12で、文字認識辞
書群18bからその辞書を選択し、指定がない場合は、
予め定められた辞書を用いて、ステップA13で、自動
文字認識を実行する。なお、選択された領域のデータ
は、画像情報と同様に画像記憶部12から抽出される。
また、文字認識は、属性情報に含まれる文字の記載方向
(縦書き、横書き)等の情報に基づいて行われる。そし
て、文字認識の結果は、ステップA14で、テキスト記
憶部17bに格納される。
文字領域であると判定された場合は、文字認識エンジン
18aが起動される。文字認識エンジン18aは、ステ
ップA11において、その領域の属性情報に辞書の種類
を指定する情報が含まれているか判定する。そして、辞
書の指定がある場合は、ステップA12で、文字認識辞
書群18bからその辞書を選択し、指定がない場合は、
予め定められた辞書を用いて、ステップA13で、自動
文字認識を実行する。なお、選択された領域のデータ
は、画像情報と同様に画像記憶部12から抽出される。
また、文字認識は、属性情報に含まれる文字の記載方向
(縦書き、横書き)等の情報に基づいて行われる。そし
て、文字認識の結果は、ステップA14で、テキスト記
憶部17bに格納される。
【0033】画像データの抽出または自動文字認識が終
了すると、ステップ15において、再び、その領域の属
性情報が参照され、マークアップを行うか否かの判定が
行われる。マークアップを行う場合は、マークアップ部
19が起動され、マークアップ部は、テキスト記憶部1
7bに格納されたデータを一旦取り出し、属性情報に基
づいてマークアップを行った後、再び、テキスト記憶部
17bに格納する。なお、画像領域に対してマークアッ
プを行う場合は、画像データとの対応を表現するような
マークアップを行い、その結果を他の文字列データと同
様にテキスト記憶部17bに格納する。
了すると、ステップ15において、再び、その領域の属
性情報が参照され、マークアップを行うか否かの判定が
行われる。マークアップを行う場合は、マークアップ部
19が起動され、マークアップ部は、テキスト記憶部1
7bに格納されたデータを一旦取り出し、属性情報に基
づいてマークアップを行った後、再び、テキスト記憶部
17bに格納する。なお、画像領域に対してマークアッ
プを行う場合は、画像データとの対応を表現するような
マークアップを行い、その結果を他の文字列データと同
様にテキスト記憶部17bに格納する。
【0034】この後、再びステップA7に戻り、未処理
の領域を選択し、上記ステップA8からA16までの処
理を繰り返す。
の領域を選択し、上記ステップA8からA16までの処
理を繰り返す。
【0035】全ての領域に対して、上記ステップA8か
らA16までの処理が行われたと、ステップA17で判
定されたならば、出力部21が起動される。出力部21
は、属性記憶部17aに格納された、各領域についての
属性情報や、文書画像上の位置情報を利用して、各領域
のテキストデータ及び画像データのそれぞれについて出
力順序を決定し、順次出力(電子データ22を出力)す
る。
らA16までの処理が行われたと、ステップA17で判
定されたならば、出力部21が起動される。出力部21
は、属性記憶部17aに格納された、各領域についての
属性情報や、文書画像上の位置情報を利用して、各領域
のテキストデータ及び画像データのそれぞれについて出
力順序を決定し、順次出力(電子データ22を出力)す
る。
【0036】以上のように、本実施の形態では、文字認
識辞書群18bに複数の文字種にそれぞれ対応する辞書
を用意しておき、属性情報により辞書を指定するように
したことで、自動文字認識において高い認識精度が得ら
れる。
識辞書群18bに複数の文字種にそれぞれ対応する辞書
を用意しておき、属性情報により辞書を指定するように
したことで、自動文字認識において高い認識精度が得ら
れる。
【0037】また、各領域毎にマークアップを行うの
で、自動マークアップ処理が可能になる。
で、自動マークアップ処理が可能になる。
【0038】さらに、マークアップ処理を文字領域及び
図表領域の区別なく行うことができるので、編集作業を
行う必要がない。
図表領域の区別なく行うことができるので、編集作業を
行う必要がない。
【0039】なお、上記実施の形態では、文字認識行う
際も、選択された領域のデータは、画像情報と同様に画
像記憶部12から抽出される、と説明したが、属性記憶
部17aに属性情報とともに画像記憶部12と同一のデ
ータを記憶させるようにしても良い。
際も、選択された領域のデータは、画像情報と同様に画
像記憶部12から抽出される、と説明したが、属性記憶
部17aに属性情報とともに画像記憶部12と同一のデ
ータを記憶させるようにしても良い。
【0040】
【実施例】次に、図3乃至図7を参照して本発明の実施
例について説明する。ここでは、図3に示すような文書
を電子化する例について説明する。
例について説明する。ここでは、図3に示すような文書
を電子化する例について説明する。
【0041】図3の文書は、タイトル、第1の文章(段
落1)、図表、及び、第2の文章(段落2)で構成され
ている。この文書を画像入力装置11で読み取ると(ス
テップA1、A2)、表示装置14の画面上には、図3
と同じ状態で文書が表示される。
落1)、図表、及び、第2の文章(段落2)で構成され
ている。この文書を画像入力装置11で読み取ると(ス
テップA1、A2)、表示装置14の画面上には、図3
と同じ状態で文書が表示される。
【0042】次に、位置入力装置15を用いて画面上の
カーソルを移動させながら、領域指定を行う(ステップ
A3)。ここでは、図4に示すように、タイトル、段落
1、図表、及び、段落2をそれぞれ、領域1、2、3、
及び4として指定する。さらに、文字入力装置16か
ら、各領域に関する属性情報を入力する(ステップA
4)。属性情報としては、図5に示すように、フォント
等応じた辞書の種別、マークアップ処理に使用されるタ
グ、及び画像領域と文字領域との区別、等がある。
カーソルを移動させながら、領域指定を行う(ステップ
A3)。ここでは、図4に示すように、タイトル、段落
1、図表、及び、段落2をそれぞれ、領域1、2、3、
及び4として指定する。さらに、文字入力装置16か
ら、各領域に関する属性情報を入力する(ステップA
4)。属性情報としては、図5に示すように、フォント
等応じた辞書の種別、マークアップ処理に使用されるタ
グ、及び画像領域と文字領域との区別、等がある。
【0043】次に、各領域の処理に移る。領域1は、そ
の属性にあるように(図5参照)、文書領域なので、ま
ず、辞書の指定がなされているか判断される(ステップ
A11)。ここで、領域1は“ゴシック”との指定がな
されているので、ゴシック文字に最適化された文字認識
用辞書が選択される(ステップA12)。そして、選択
された辞書を用いて高精度の自動文字認識が行われる。
その結果、図6の上から2行目に示すような、認識され
た文字列が得られる。さらに、領域1については、マー
クアップ情報(タグ)として“title ”が与えられてい
るので、認識した文字列の前後に“〈title 〉”と
“〈/title〉”のラベルを配してマークアップが行われ
る(ステップA15,A16)。この結果が、テキスト
記憶部17bに格納される。
の属性にあるように(図5参照)、文書領域なので、ま
ず、辞書の指定がなされているか判断される(ステップ
A11)。ここで、領域1は“ゴシック”との指定がな
されているので、ゴシック文字に最適化された文字認識
用辞書が選択される(ステップA12)。そして、選択
された辞書を用いて高精度の自動文字認識が行われる。
その結果、図6の上から2行目に示すような、認識され
た文字列が得られる。さらに、領域1については、マー
クアップ情報(タグ)として“title ”が与えられてい
るので、認識した文字列の前後に“〈title 〉”と
“〈/title〉”のラベルを配してマークアップが行われ
る(ステップA15,A16)。この結果が、テキスト
記憶部17bに格納される。
【0044】領域2については、上記とほぼ同様にして
処理される。異なる点は、辞書として“明朝”が指定さ
れているので、その文字認識に、明朝文字に最適化され
た文字認識用辞書が選択されて、自動文字認識に使用さ
れる点と、タグが“para”と指定されているので、
“〈para〉”及び“〈/para 〉”を用いてマークアップ
が行われる点である。なお、領域4も領域2と同様の処
理が行われる。
処理される。異なる点は、辞書として“明朝”が指定さ
れているので、その文字認識に、明朝文字に最適化され
た文字認識用辞書が選択されて、自動文字認識に使用さ
れる点と、タグが“para”と指定されているので、
“〈para〉”及び“〈/para 〉”を用いてマークアップ
が行われる点である。なお、領域4も領域2と同様の処
理が行われる。
【0045】このように本装置では、ゴシック文字や、
明朝文字が混在する文書であっても、辞書を指定するこ
とにより、一様に、高精度な自動文字認識が行える。
明朝文字が混在する文書であっても、辞書を指定するこ
とにより、一様に、高精度な自動文字認識が行える。
【0046】領域3は、その属性情報にあるように図表
領域である。従って、その領域の画像データが、画像記
憶部12から抽出される(ステップA9,A10)。こ
こでは、図表領域に“画像”なる文字が含まれていて
も、文字認識は行わない。そして、マークアップ処理
は、“graphic ”というラベルでマークアップが行われ
る(ステップA15,A16)。図表領域に対するマー
クアップ処理では、その領域の画像データを参照するこ
とができるように、その画像データのファイル名、例え
ば、“GRAPHIC1.DAT”という文字列を加える。この結
果、“〈graphic file=GRAPHIC1.DAT 〉〈/fraphic〉”
というマークアップされた文字列が、テキスト記憶部1
7bに格納される。なお、ここでは、画像データを画像
データ記憶部17cに格納することを前提としている
が、画像データをテキスト形式のデータにエンコードし
て、例えば、“〈graphicdata 〉”及び“〈/graphicda
ta〉”のようなラベルでマークアップを行い、テキスト
記憶部17bに記憶させるようにしても良い。
領域である。従って、その領域の画像データが、画像記
憶部12から抽出される(ステップA9,A10)。こ
こでは、図表領域に“画像”なる文字が含まれていて
も、文字認識は行わない。そして、マークアップ処理
は、“graphic ”というラベルでマークアップが行われ
る(ステップA15,A16)。図表領域に対するマー
クアップ処理では、その領域の画像データを参照するこ
とができるように、その画像データのファイル名、例え
ば、“GRAPHIC1.DAT”という文字列を加える。この結
果、“〈graphic file=GRAPHIC1.DAT 〉〈/fraphic〉”
というマークアップされた文字列が、テキスト記憶部1
7bに格納される。なお、ここでは、画像データを画像
データ記憶部17cに格納することを前提としている
が、画像データをテキスト形式のデータにエンコードし
て、例えば、“〈graphicdata 〉”及び“〈/graphicda
ta〉”のようなラベルでマークアップを行い、テキスト
記憶部17bに記憶させるようにしても良い。
【0047】以上のようにして、全ての領域について処
理が終了したならば、テキスト記憶部17bと画像デー
タ記憶部17cとから、それぞれ、文字列データ、画像
データが出力される。
理が終了したならば、テキスト記憶部17bと画像デー
タ記憶部17cとから、それぞれ、文字列データ、画像
データが出力される。
【0048】文字列データは、文書上での領域の座標
や、オペレータからの指定等、属性情報に含まれる(図
5には示していない)情報に従って、出力される。本実
施例では、領域1から順番に出力する。ただし図表領域
については、マークアップ処理に基づく文字列のみが出
力される。出力結果は、図7のようになる。
や、オペレータからの指定等、属性情報に含まれる(図
5には示していない)情報に従って、出力される。本実
施例では、領域1から順番に出力する。ただし図表領域
については、マークアップ処理に基づく文字列のみが出
力される。出力結果は、図7のようになる。
【0049】また、画像データについては、マークアッ
プ処理で付加された情報に基づいてアクセスできるよ
う、ファイル名を用いて出力する。これで、全ての処理
が終了する。
プ処理で付加された情報に基づいてアクセスできるよ
う、ファイル名を用いて出力する。これで、全ての処理
が終了する。
【0050】
【発明の効果】第1の効果は、複数の文字種が混在した
文書であっても、高い認識精度で自動文字認識を行うこ
とができることである。
文書であっても、高い認識精度で自動文字認識を行うこ
とができることである。
【0051】その理由は、文字種に応じた辞書を設け、
領域ごとに辞書を指定するようにしたことで、適切な領
域指定が成されれば、文字種に対応する適切な辞書を用
いて文字認識を行うことができるからである。
領域ごとに辞書を指定するようにしたことで、適切な領
域指定が成されれば、文字種に対応する適切な辞書を用
いて文字認識を行うことができるからである。
【0052】第2の効果は、マークアップ処理が自動的
に効率良く行われることである。
に効率良く行われることである。
【0053】その理由は、文書に対して領域指定を行
い、領域ごとに文字認識等の処理を行うが、各領域に
は、マークアップ処理に必要な情報が、属性情報として
与えられているからである。
い、領域ごとに文字認識等の処理を行うが、各領域に
は、マークアップ処理に必要な情報が、属性情報として
与えられているからである。
【0054】第3の効果は、文書に図表領域が含まれて
いても、マークアップ処理が自動的に行われることであ
る。
いても、マークアップ処理が自動的に行われることであ
る。
【0055】その理由は、図表領域についても、マーク
アップ処理に必要な情報が、属性情報として与えられて
いるからである。
アップ処理に必要な情報が、属性情報として与えられて
いるからである。
【図1】本発明の一実施の形態を示すブロック図であ
る。
る。
【図2】図1の文書電子化装置の動作を説明するための
フローチャートである。
フローチャートである。
【図3】本発明の実施例に使用される文書を示す図であ
る。
る。
【図4】本発明の実施例による領域指定を説明するため
の図である。
の図である。
【図5】本発明の実施例で使用される属性情報を説明す
るための図である。
るための図である。
【図6】本発明の実施例による自動文字認識の結果を示
す図である。
す図である。
【図7】本発明の実施例によるテキストデータを示す図
である。
である。
10 文書 11 画像入力装置 12 画像記憶部 13 表示部 14 表示装置 15 位置入力装置 16 文字入力装置 17 領域記憶部 17a 属性記憶部 17b テキスト記憶部 17c 画像データ記憶部 18 文字認識部 18a 文字認識エンジン 18b 文字認識辞書群 19 マークアップ部 20 画像抽出部 21 出力部 22 電子データ
Claims (6)
- 【請求項1】 文書を読み取り、読み取った文書に対し
て文字認識を行なう文書電子化装置において、読み取っ
た文書に対して領域指定を行う領域指定手段と、各領域
に対応する属性情報を入力する手段と、前記各領域と前
記属性情報とを関連づけて記憶する属性記憶手段と、複
数の文字種にそれぞれ対応する辞書を有する辞書群と、
前記属性情報を参照して前記辞書群から適切な辞書を選
択して各領域毎に文字認識を実行する文字認識手段とを
有することを特徴とする文書電子化装置。 - 【請求項2】 前記文書が図表を含んでいる場合に、前
記属性情報によって図表と指定された領域に対応する画
像データを、前記読み取った文書から抽出する画像抽出
手段を備えたことを特徴とする請求項1の文字電子化装
置。 - 【請求項3】 各領域に対する文字認識の結果、また
は、画像データ抽出の結果に対して、マークアップ処理
を実行するマークアップ処理手段を備えたことを特徴と
する請求項1または2の文字電子化装置。 - 【請求項4】 文書を読み取り、読み取った文書に対し
て文字認識を行なう文書電子化方法において、読み取っ
た文書に対して領域指定を行い、各領域に対応する属性
情報を入力して、前記各領域と前記属性情報とを関連づ
けて記憶させておき、予め用意しておいた複数の辞書の
中から、前記属性情報によって指定される辞書を各領域
毎に選択して文字認識を実行するようにしたとを特徴と
する文書電子化方法。 - 【請求項5】 前記文書が図表を含んでいる場合に、前
記属性情報によって図表と指定された領域に対応する画
像データを、前記読み取った文書から抽出することを特
徴とする請求項4の文字電子化方法。 - 【請求項6】 前記各領域に対して文字認識が実行され
たあと、または、画像データの抽出が行われたあと、前
記属性情報を参照して各領域に対してマークアップ処理
を実行することを特徴とする請求項4または5の文字電
子化方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8321471A JPH10162098A (ja) | 1996-12-02 | 1996-12-02 | 文書電子化装置及び文書電子化方法 |
| US08/976,495 US20010016068A1 (en) | 1996-12-02 | 1997-11-24 | Electronic document generating apparatus, electronic document generating method, and program thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8321471A JPH10162098A (ja) | 1996-12-02 | 1996-12-02 | 文書電子化装置及び文書電子化方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10162098A true JPH10162098A (ja) | 1998-06-19 |
Family
ID=18132944
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8321471A Pending JPH10162098A (ja) | 1996-12-02 | 1996-12-02 | 文書電子化装置及び文書電子化方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20010016068A1 (ja) |
| JP (1) | JPH10162098A (ja) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6883137B1 (en) * | 2000-04-17 | 2005-04-19 | International Business Machines Corporation | System and method for schema-driven compression of extensible mark-up language (XML) documents |
| ES2336187B2 (es) * | 2008-10-07 | 2010-10-27 | Universitat Rovira I Virgili | Procedimiento de obtencion de informacion asociada a una ubicacion. |
| US11461010B2 (en) * | 2015-07-13 | 2022-10-04 | Samsung Electronics Co., Ltd. | Data property-based data placement in a nonvolatile memory device |
| US10509770B2 (en) | 2015-07-13 | 2019-12-17 | Samsung Electronics Co., Ltd. | Heuristic interface for enabling a computer device to utilize data property-based data placement inside a nonvolatile memory device |
| US10282324B2 (en) | 2015-07-13 | 2019-05-07 | Samsung Electronics Co., Ltd. | Smart I/O stream detection based on multiple attributes |
| AU2015415910A1 (en) * | 2015-12-02 | 2018-05-10 | Landmark Graphics Corporation | Creation of digital representations of well schematics |
| WO2020102937A1 (zh) * | 2018-11-19 | 2020-05-28 | 深圳市柔宇科技有限公司 | 手写笔迹处理方法、手写输入设备及计算机可读存储介质 |
| US10735615B1 (en) | 2019-03-15 | 2020-08-04 | Ricoh Company, Ltd. | Approach for cloud EMR communication via a content parsing engine |
| US11861523B2 (en) * | 2019-09-30 | 2024-01-02 | Ricoh Company, Ltd. | Approach for cloud EMR communication via a content parsing engine and a storage service |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03225565A (ja) * | 1990-01-31 | 1991-10-04 | Teremateiiku Kokusai Kenkyusho:Kk | 文書処理装置 |
| JPH05159101A (ja) * | 1991-11-01 | 1993-06-25 | Fuji Xerox Co Ltd | 文書論理構造認識および文書内容認識のための装置および方法 |
| JPH05307638A (ja) * | 1991-12-27 | 1993-11-19 | Xerox Corp | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 |
| JPH06274680A (ja) * | 1993-03-17 | 1994-09-30 | Hitachi Ltd | 文書認識方法およびシステム |
| JPH0883285A (ja) * | 1994-09-13 | 1996-03-26 | N T T Data Tsushin Kk | 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置 |
-
1996
- 1996-12-02 JP JP8321471A patent/JPH10162098A/ja active Pending
-
1997
- 1997-11-24 US US08/976,495 patent/US20010016068A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03225565A (ja) * | 1990-01-31 | 1991-10-04 | Teremateiiku Kokusai Kenkyusho:Kk | 文書処理装置 |
| JPH05159101A (ja) * | 1991-11-01 | 1993-06-25 | Fuji Xerox Co Ltd | 文書論理構造認識および文書内容認識のための装置および方法 |
| JPH05307638A (ja) * | 1991-12-27 | 1993-11-19 | Xerox Corp | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 |
| JPH06274680A (ja) * | 1993-03-17 | 1994-09-30 | Hitachi Ltd | 文書認識方法およびシステム |
| JPH0883285A (ja) * | 1994-09-13 | 1996-03-26 | N T T Data Tsushin Kk | 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20010016068A1 (en) | 2001-08-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7984076B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
| US6466694B2 (en) | Document image processing device and method thereof | |
| US8819545B2 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
| US8952985B2 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
| US20130326341A1 (en) | Digital comic editor, method and non-transitorycomputer-readable medium | |
| JPH11282829A (ja) | フォント共有システムおよび方法ならびにフォント共有方法を実行するためのプログラムを格納した記録媒体 | |
| JP2002279433A (ja) | 映像中の文字検索方法及び装置 | |
| JPH10162098A (ja) | 文書電子化装置及び文書電子化方法 | |
| CN113378526A (zh) | Pdf段落处理方法、装置、存储介质及设备 | |
| JPH08180068A (ja) | 電子ファイリング装置 | |
| JPH103483A (ja) | 情報検索装置 | |
| JPH03276260A (ja) | 文字コードのタイトル処理機能を備えた電子フアイリング装置 | |
| JP2001297080A (ja) | 読取支援装置 | |
| Fruchterman | DAFS: A standard for document and image understanding | |
| JPH10171920A (ja) | 文字認識装置、その文字認識方法およびその記録媒体 | |
| JPH0991371A (ja) | 文字表示装置 | |
| JPH11312231A (ja) | データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法 | |
| JPH07107711B2 (ja) | 文書画像の処理装置 | |
| JPS6327990A (ja) | 文字認識方法 | |
| JPS61229161A (ja) | 文書作成編集装置 | |
| JP2616522B2 (ja) | 文書イメージ情報編集装置 | |
| JPH1185906A (ja) | 文書理解装置及び方法及び記録媒体 | |
| JPH0757046A (ja) | 文字認識装置における文書画像記憶方式 | |
| JP2005267394A (ja) | 情報処理装置および領域変更方法およびプログラムおよび記録媒体 | |
| JPH07182344A (ja) | 機械翻訳装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19990602 |