JPH087781B2 - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH087781B2
JPH087781B2 JP2020656A JP2065690A JPH087781B2 JP H087781 B2 JPH087781 B2 JP H087781B2 JP 2020656 A JP2020656 A JP 2020656A JP 2065690 A JP2065690 A JP 2065690A JP H087781 B2 JPH087781 B2 JP H087781B2
Authority
JP
Japan
Prior art keywords
character
document
image data
area
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2020656A
Other languages
English (en)
Other versions
JPH03225565A (ja
Inventor
芳正 谷脇
剛 良永
重治 岸本
Original Assignee
株式会社テレマティーク国際研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テレマティーク国際研究所 filed Critical 株式会社テレマティーク国際研究所
Priority to JP2020656A priority Critical patent/JPH087781B2/ja
Publication of JPH03225565A publication Critical patent/JPH03225565A/ja
Publication of JPH087781B2 publication Critical patent/JPH087781B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字および図形が混在した文書を認識し、
文字コードデータおよびイメージデータのミクスモード
で記憶して文書データベースを構築する文書処理装置に
関するものである。
〔概要〕
本発明は、文字および図形が混在した文書を認識して
ミクスモードで記憶して文書データベースを構築する文
書処理装置において、 文字コード化ができないイメージ情報については、そ
のレイアウト情報とともにイメージ情報のまま記憶し、
コード化された文字情報とともに記憶することにより、 イメージ情報が混在する文書のデータベース構築を簡
単化するとともに、保存の際のデータ量を削減するもの
である。
〔従来の技術〕
従来、既存の文書を記憶してデータベース化する方法
として、イメージ情報のまま保存する方法がある。この
方法は、例えば特許公報など、図面を含む文書をコード
化することなく、イメージ情報のままで光ディスクに保
存する方法であり、この方法は多量の文書を保存できる
特徴がある。しかし、この光ディスクに保存された情報
をデータベースとして利用するには文字情報がコード化
されることなく記憶されているため、その記憶情報量が
膨大なものとなり、それを検索する方法およびその検索
応答性に問題があり、特に文書の全文を対象として検索
を行う処理が難しくなる問題があった。
このため、既存文書をデータベース化する方法とし
て、読み込んだ文書画像を文字領域とイメージ領域とに
分け、文字領域は文字コードに変換してコードデータと
して記憶し、イメージ領域は画像データのまま保存する
いわゆるミクスモードによる文書のデータベース化が考
えられ、研究されている。
〔発明が解決しようとする課題〕
しかしながら、例えば論文等をデータベース化しよう
とする場合、このような論文中の文字領域には、数式が
通常含まれており、特殊文字も存在するため、この部分
については必ずしも文字として認識してコード化できる
ものではないので、文字領域の認識の際には、人が介在
して文字コード化できない部分についてコードに変更す
る操作を行う必要があった。特に文字認識装置で認識で
きない特殊な不読文字についてはいちいち文字コードに
変換しなければならないため、文書のデータベース化に
人手がかかる問題があった。
本発明は、上述の問題を解決するもので文字とイメー
ジが混在した文書を人手を介することなくミクスモード
でデータベース化することができる文書処理装置を提供
することを目的とする。
〔課題を解決するための手段〕
本発明は、文書を光学的に走査して文書画像データに
変換する走査装置と、この走査装置で読み込んだ文書画
像データを処理して文字コードに変換する手段を備えた
情報処理装置と、この情報処理装置で処理された文書を
文字コードデータとイメージデータとが混在した形で記
憶するファイル装置とを備え、上記情報処理装置は、上
記走査装置によって頁単位で読み込まれた文書情報を文
字領域とイメージ領域とに分けて指定する領域指定手段
と、文字領域内の文字を認識して文字コードに変換する
手段と、文字コードに変換されたデータに位置情報を含
むレイアウト情報を付加して上記ファイル装置に記憶さ
せる手段と、イメージ領域内の画像データをイメージデ
ータとして位置情報を含むレイアウト情報を付加して上
記文字領域のデータとともに上記ファイル装置に記憶さ
せる手段とを備えた文書処理装置において、 上記文字領域内の文字コードに変換できない部分につ
いてはイメージデータとして文字行単位でそのイメージ
データの位置情報を含むレイアウト情報とともにファイ
ル装置に記憶させる手段を備えたことを特徴とする。
なお、文字コードに変換できない文字が含まれる文字
行を一括してイメージデータとしてファイル装置に記憶
することがよい。また、文書を出力する出力手段を備
え、情報処理装置には、文字コードデータを文字パター
ンに変換する手段と、変換された文字パターンとイメー
ジデータとをレイアウト情報にしたがって一つの文書に
編集して上記出力手段に出力する手段とを含むことがよ
い。
〔作用〕
1頁単位で入力された文書は、文字領域とイメージ領
域が指定されて分けられる。文字領域では文字切出しを
行って1文字ごとに文字コード化し、その文字位置など
のレイアウト情報とともにファイルに記憶する。コード
化できない不読文字あるいは数式などについてはイメー
ジ情報として扱い、文書中での位置などのレイアウト情
報とともにファイルに記憶する。イメージ領域について
は、同様にレイアウト情報とともにファイルに記憶す
る。
このようにして一つの文書を文字コードデータとイメ
ージデータとが混在した形で文書データを保存してデー
タベースを構築する。
また、文書を出力するときは、レイアウト情報をもと
に文字情報とイメージ情報とを合わせて編集し一つの文
書にして表示あるいはプリントアウトする。
〔実施例〕 以下本発明を図面を参照して説明する。
第1図は本発明の文書データをデータベース化する文
書処理装置の構成を示すブロック図である。この文書処
理装置は、データベース化すべき文書を1頁単位で走査
して文書画像データに変換して読み込むためのスキャナ
1と、このスキャナ1で走査して読み込まれた文書画像
データを処理して文字コードデータとイメージデータと
が混在したデータとしてファイル3に記憶させ、またこ
のファイル3に文字コードデータとイメージデータとに
分けて記憶された文書情報を編集する情報処理装置2
と、この情報処理装置2での処理結果あるいは出力結果
を表示するCRT4、この情報処理装置2で編集した文書を
出力するプリンタ5およびこの情報処理装置2の操作用
キーボード6、マウス7を備える。
そしてこの情報処理装置2は、入力された文書情報を
ミクスモードでファイル3に記憶するための手段とし
て、入力文書画像データを文字領域とイメージ領域に分
けるための領域指定手段21、文字領域の文字データを切
り出すための文字切出し手段22、切り出した文字データ
を文字コード化するための文字コード化手段23、文字コ
ード化された文字コードデータを他のレイアウト情報と
ともにファイル3に記憶させる文字コード記憶手段24、
文字領域内の文字コード化できなかった数式などの不読
文字データおよびイメージ領域のイメージデータを他の
レイアウト情報とともにファイル3に記憶させるイメー
ジコード記憶手段25、文字コードデータとイメージデー
タとの形でファイル3に記憶された文書情報を一つの文
書画像データに変換してCRT4あるいはプリンタ5に出力
する文書編集手段26を備えている。
次に本実施例の動作を第2図にフローチャートを示し
て説明する。
まずファイル化すべき文書を頁単位でスキャナ1で走
査し、文書画像データに変換する(ステップS1)。そし
て、変換された文書画像データを文字領域とイメージ領
域とに分ける(ステップS2)。この文字領域およびイメ
ージ領域の指定は例えば読み込んだ文書画像データをCR
T4に表示し、これを操作者が見て、キーボード6あるい
はマウス7によってCRT4上で領域指定をすることによっ
て行う。また、情報処理装置2において、頁全体の切出
し作業を行い、文字が一定割合で存在する領域を文字領
域、その他の領域をイメージ領域に操作者を介すること
なく指定することも可能である。
このステップS2のように、文書画像データを文字領域
およびイメージ領域に指定するのは、研究論文などの図
面あるいは写真などが一つの頁の中に文字と混在する形
で印刷されている文書の場合に適用する。なお、図面と
文章とが混在せずに頁毎に分けられている文書について
はこの領域指定を行うことなく、文書画像データに対す
る文字認識動作に入ることができる。
そして、文字領域が指定された領域については、1文
字ごとに切出して文字認識を行い、文字コードに変換す
る(ステップS4)。そして、変換された文字コードデー
タに、行の始点、文字の大きさ、文字間隔、縦横の文字
の並び方向についてもデータを付加する(ステップS
6)。なお、文字列切出しの際に文字間隔が大幅にある
文字については違う行として扱い、同行扱いはしないも
のとする。
そして、変換された文字コードデータに上述のデータ
を付加してファイルの文字コードデータ記憶領域に格納
する(ステップS7)。
次に文字領域で文字認識ができない不読文字について
は、その不読文字をイメージとして扱い、この不読文字
の位置にイメージデータとして扱う旨の情報を挿入して
文字領域のファイルに格納するとともに、そのイメージ
データに位置情報などのレイアウト情報を付加して、フ
ァイルの文字コードデータとは別のイメージデータ格納
領域に格納する(ステップS8)。
この例を説明する。例えば数式が次のような数式が文
章中に含まれていたとする。
この数式は、通常の文字認識はできないので、この数
式の部分はライン単位でイメージデータとして処理し、
このイメージデータのある位置を上記認識した文字中の
どこに位置するかを示すデータを文字コード化データを
格納するファイル中に合わせて格納するとともに、イメ
ージデータに付加してイメージデータとして上記文字コ
ードデータとは別にファイルに格納する。また、1行の
文字列中に認識できない文字が一定割合以上ある場合は
1行全体を文字コード化できないものとして扱い、1行
全体をイメージデータとして格納することがよい。これ
は文書画像データはラスタスキャンのデータで与えられ
るため、例えば横書き文書は1行単位で処理することが
画像処理上も簡単になるからである。
また、文字コード化を文字1行単位で行い、文字コー
ド化できない文字を含む行を一括してイメージデータと
して扱うこともできる。このように行単位でイメージデ
ータとして扱うことは数式が含まれる論文などの印刷文
書を文書データベース化する場合には有効である。
最後にイメージ領域に指定された領域のイメージデー
タに同じく位置情報などのレイアウト情報を付加してフ
ァイルのイメージデータ格納領域に格納する(ステップ
S9、S7)。
1頁分の処理が終わると次の頁を走査し、次頁の文書
処理に移る(ステップS10)。
発明者らは、図面および文章中に数式を含む論文の読
み取りを行って文書画像データの処理を行い、1頁中の
入力文書画像データが1974Kbyteのものを画像データ
(イメージ領域)404Kbyte、文字領域中の不読文字であ
りイメージデータとして処理した不読文字データ16Kbyt
e、文字コード化された文字コードデータ5.2Kbyte、計4
25Kbyteに圧縮することができた。
次にファイル3に記憶された文書を出力するときは、
文書編集手段26にて、ファイル3のそれぞれの領域に記
憶された1頁分の文字コードデータとイメージデータと
を読み出し、文字コードデータは文字パターンに変換す
る。そして、それぞれのデータに付加されているレイア
ウト情報にしたがって、文字領域については文字中にイ
メージデータを挿入し、文字領域とイメージ領域とを合
わせて1頁の文書に編集する。この編集された1頁分の
文書はCRT4に出力され、あるいはプリンタ5にプリント
アウトされる。
〔発明の効果〕
上述したように、本発明は文書中の文字データを読み
取り、文字中の数式などの読み取りができない文字につ
いても、人手を介することなくイメージデータとして扱
い、文字コードデータとは別にイメージデータとして処
理してファイルに格納できるため、認識できない文字デ
ータの処理が人手を介することなく行うことができる。
このため既存文書の電子ファイル化の省力化を図ること
ができ、文書データベースの構築が容易となる。
また、文字コードデータとイメージデータとに分けて
記憶された文書情報を編集して一つの文書として表示さ
れるので、文書データベースの検索に対する処理が容易
になる。
さらに、本発明では、文字領域中の不読文字は1文字
行単位でイメージデータとして扱うため、画像処理が簡
単であり、特に、不読文字が含まれる文字行を一括して
イメージデータとして扱う場合には、文字領域中の数式
を一括して行単位でイメージデータとして扱うことがで
きるため、文章中で数式が現れるような論文を文書デー
タベース化する場合の処理が容易である。
【図面の簡単な説明】
第1図は本発明一実施例の構成を示すブロック図。 第2図は実施例の動作を示すフローチャート。 1……スキャナ、2……情報処理装置、3……ファイ
ル、4……CRT、5……プリンタ、6……キーボード、
7……マウス。
フロントページの続き (56)参考文献 特開 昭64−70882(JP,A) 特開 昭58−125180(JP,A) 特開 昭63−212985(JP,A) 特開 昭62−281072(JP,A) 特開 昭63−197266(JP,A) 特開 昭63−291162(JP,A)

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文書を光学的に走査して文書画像データに
    変換する走査装置と、 この走査装置で読み込んだ文書画像データを処理して文
    字コードに変換する手段を備えた情報処理装置と、 この情報処理装置で処理された文書を文字コードデータ
    とイメージデータとが混在した形で記憶するファイル装
    置とを備え、 上記情報処理装置は、 上記走査装置によって頁単位で読み込まれた文書情報を
    文字領域とイメージ領域とに分けて指定する領域指定手
    段と、 文字領域内の文字を認識して文字コードに変換する手段
    と、 文字コードに変換されたデータに位置情報を含むレイア
    ウト情報を付加して上記ファイル装置に記憶させる手段
    と、 イメージ領域内の画像データをイメージデータとして位
    置情報を含むレイアウト情報を付加して上記文字領域の
    データとともに上記ファイル装置に記憶させる手段と を備えた文書処理装置において、 上記文字領域内の文字コードに変換できない部分につい
    てはイメージデータとして文字行単位でそのイメージデ
    ータの位置情報を含むレイアウト情報とともにファイル
    装置に記憶させる手段を備えた ことを特徴とする文書処理装置。
  2. 【請求項2】文字コードに変換できない文字が含まれる
    文字行を一括してイメージデータとしてファイル装置に
    記憶する請求項1記載の文書処理装置。
  3. 【請求項3】文書を出力する出力装置を備え、情報処理
    装置は、文字コードに変換されファイル装置に記憶され
    た文字コードデータを文字パターンに変換する手段と、
    変換された文字パターンとイメージデータとをレイアウ
    ト情報にしたがって一つの文書に編集して上記出力装置
    に出力する手段とを含む請求項1または2記載の文書処
    理装置。
JP2020656A 1990-01-31 1990-01-31 文書処理装置 Expired - Lifetime JPH087781B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020656A JPH087781B2 (ja) 1990-01-31 1990-01-31 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020656A JPH087781B2 (ja) 1990-01-31 1990-01-31 文書処理装置

Publications (2)

Publication Number Publication Date
JPH03225565A JPH03225565A (ja) 1991-10-04
JPH087781B2 true JPH087781B2 (ja) 1996-01-29

Family

ID=12033260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020656A Expired - Lifetime JPH087781B2 (ja) 1990-01-31 1990-01-31 文書処理装置

Country Status (1)

Country Link
JP (1) JPH087781B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736941A (ja) * 1993-07-23 1995-02-07 Nec Corp イメージファイル管理装置
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JP4655335B2 (ja) * 2000-06-20 2011-03-23 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58125180A (ja) * 1982-01-21 1983-07-26 Ricoh Co Ltd 情報入力装置
JP2895834B2 (ja) * 1987-02-28 1999-05-24 株式会社東芝 画像記録装置
JPS6470882A (en) * 1987-09-11 1989-03-16 Fuji Electric Co Ltd Document input device

Also Published As

Publication number Publication date
JPH03225565A (ja) 1991-10-04

Similar Documents

Publication Publication Date Title
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
JP4208780B2 (ja) 画像処理システム及び画像処理装置の制御方法並びにプログラム
US20050278624A1 (en) Image processing apparatus, control method therefor, and program
JP4546291B2 (ja) 画像処理装置およびその制御方法
JPH06236367A (ja) 文書作成装置の制御方法
US7126612B2 (en) Image processing apparatus, image processing method, program, and storage medium
MX2010009615A (es) Metodo de exploracion.
US20060217826A1 (en) Image processing apparatus and a method therefor
JPH087781B2 (ja) 文書処理装置
JPH08180068A (ja) 電子ファイリング装置
US20020031270A1 (en) Image processing apparatus, image processing method, and computer readable storage medium
JP3309084B2 (ja) 図形の電子化方法
JP2007129557A (ja) 画像処理システム
JPH05342325A (ja) 文書処理装置およびその装置のためのフォーム登録装置
JPH07262317A (ja) 文書処理装置
JP2730073B2 (ja) 表題一覧作成装置
JPH07107711B2 (ja) 文書画像の処理装置
JP3424942B2 (ja) 対訳画像形成装置
JPH05145769A (ja) 画像処理装置
JPH04348475A (ja) 画像情報検索方法及びその装置
JPH03103996A (ja) 光学的文字読取装置
JP2790276B2 (ja) 文字読取装置
JPH08202824A (ja) 文書画像認識装置
JPS62134765A (ja) 漢和辞書の電子検索方法
JPS62293475A (ja) 画像処理装置