JPH08167003A - 文書処理装置 - Google Patents
文書処理装置Info
- Publication number
- JPH08167003A JPH08167003A JP6332977A JP33297794A JPH08167003A JP H08167003 A JPH08167003 A JP H08167003A JP 6332977 A JP6332977 A JP 6332977A JP 33297794 A JP33297794 A JP 33297794A JP H08167003 A JPH08167003 A JP H08167003A
- Authority
- JP
- Japan
- Prior art keywords
- document
- data
- character code
- character
- code data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000013075 data extraction Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 32
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- UNPLRYRWJLTVAE-UHFFFAOYSA-N Cloperastine hydrochloride Chemical compound Cl.C1=CC(Cl)=CC=C1C(C=1C=CC=CC=1)OCCN1CCCCC1 UNPLRYRWJLTVAE-UHFFFAOYSA-N 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】 電子的な文書の表示を文書作成アプリケーシ
ョンに依存することなく実現できる文書処理装置におい
て、文書の編集処理を実現する。 【構成】 文書作成に用いたアプリケーションプログラ
ムに依存しない表示用データと当該アプリケーションプ
ログラムに依存するアプリケーションデータとを含む文
書データに基づいて文書処理を行う文書処理装置におい
て、文字画像データと文字コードデータとを対応付けて
格納する第1の辞書13と、文書データから各文字の文
字コードデータを抽出する抽出手段14と、抽出された
文字コードデータを格納する第2の辞書15と、表示用
データに基づいて文書画像を表示する表示手段16と、
表示された文書画像中の任意の範囲を指定する指定手段
17と、指定された範囲について表示用データから第1
の辞書13を用いて文字コードデータを得る認識手段1
8と、認識し得た文字コードデータの並びを第2の辞書
15に参照して認識し得なかった文字の文字コードデー
タを得る補償手段19とを備え、画像データから文字コ
ードデータを取得する。
ョンに依存することなく実現できる文書処理装置におい
て、文書の編集処理を実現する。 【構成】 文書作成に用いたアプリケーションプログラ
ムに依存しない表示用データと当該アプリケーションプ
ログラムに依存するアプリケーションデータとを含む文
書データに基づいて文書処理を行う文書処理装置におい
て、文字画像データと文字コードデータとを対応付けて
格納する第1の辞書13と、文書データから各文字の文
字コードデータを抽出する抽出手段14と、抽出された
文字コードデータを格納する第2の辞書15と、表示用
データに基づいて文書画像を表示する表示手段16と、
表示された文書画像中の任意の範囲を指定する指定手段
17と、指定された範囲について表示用データから第1
の辞書13を用いて文字コードデータを得る認識手段1
8と、認識し得た文字コードデータの並びを第2の辞書
15に参照して認識し得なかった文字の文字コードデー
タを得る補償手段19とを備え、画像データから文字コ
ードデータを取得する。
Description
【0001】
【産業上の利用分野】本発明は、文書データに含まれた
表示用データよって文書を作成時に用いたアプリケーシ
ョンプログラムを用いることなく表示出力することがで
きる文書処理装置に関し、特に、当該文書データに基づ
いて生成される文書画像を認識して編集等に用いる文字
コードデータを取得する文書処理装置に関する。
表示用データよって文書を作成時に用いたアプリケーシ
ョンプログラムを用いることなく表示出力することがで
きる文書処理装置に関し、特に、当該文書データに基づ
いて生成される文書画像を認識して編集等に用いる文字
コードデータを取得する文書処理装置に関する。
【0002】
【従来の技術】現在、様々な種類の文書作成用のアプリ
ケーションプログラム(以下、単にアプリケーションと
略記する。)が市場に提供されており、これらアプリケ
ーションはパーソナルコンピュータ等にインストールさ
れて文書の作成や編集に供せられる文書処理装置を構成
している。
ケーションプログラム(以下、単にアプリケーションと
略記する。)が市場に提供されており、これらアプリケ
ーションはパーソナルコンピュータ等にインストールさ
れて文書の作成や編集に供せられる文書処理装置を構成
している。
【0003】上記のように種類の異なるアプリケーショ
ン間では作成した文書データの形式が異なることから、
或る文書処理装置と他の文書処理装置とでインストール
されている文書作成アプリケーションが異なる場合に、
一方の文書処理装置で作成した文書を他方の文書処理装
置ではディスプレイ装置に表示したり、或いは、プリン
タ装置で印刷することができず文書による情報伝達を円
滑に行うことができないという問題がある。このような
問題を解決するため、文書作成アプリケーションで作成
された文書を、そのアプリケーションの有無に係わらず
(すなわち、アプリケーションに依存せずに)、表示や
印刷して出力させることができるシステムが提供されて
いる。
ン間では作成した文書データの形式が異なることから、
或る文書処理装置と他の文書処理装置とでインストール
されている文書作成アプリケーションが異なる場合に、
一方の文書処理装置で作成した文書を他方の文書処理装
置ではディスプレイ装置に表示したり、或いは、プリン
タ装置で印刷することができず文書による情報伝達を円
滑に行うことができないという問題がある。このような
問題を解決するため、文書作成アプリケーションで作成
された文書を、そのアプリケーションの有無に係わらず
(すなわち、アプリケーションに依存せずに)、表示や
印刷して出力させることができるシステムが提供されて
いる。
【0004】アドビシステムズ社(Adobe Systems In
c.)のアドビアクロバット(Adobe Acrobat:登録商
標)と称するシステムでは、文書処理装置にインストー
ルされていない文書作成アプリケーションで作成された
文書でも表示や印刷して出力することができる。(アド
ビシステムズジャパン、[Adobe Acrobat
−製品と技術概要」参照) このシステムでは、文書作成アプリケーションで作成さ
れた文書データを当該文書作成アプリケーションの印刷
機能を用いてポストスクリプト言語(PostScript:登録
商標)によりPDFと称する標準化された統一形式の表
示用データに変換し、この表示用データで表示や印刷を
行うことにより文書作成アプリケーションに依存しない
文書の出力を実現している。なお、この表示用データは
ビットマップから成る画像データであり、文書の出力は
実現できるが文書の編集は実現できないものである。
c.)のアドビアクロバット(Adobe Acrobat:登録商
標)と称するシステムでは、文書処理装置にインストー
ルされていない文書作成アプリケーションで作成された
文書でも表示や印刷して出力することができる。(アド
ビシステムズジャパン、[Adobe Acrobat
−製品と技術概要」参照) このシステムでは、文書作成アプリケーションで作成さ
れた文書データを当該文書作成アプリケーションの印刷
機能を用いてポストスクリプト言語(PostScript:登録
商標)によりPDFと称する標準化された統一形式の表
示用データに変換し、この表示用データで表示や印刷を
行うことにより文書作成アプリケーションに依存しない
文書の出力を実現している。なお、この表示用データは
ビットマップから成る画像データであり、文書の出力は
実現できるが文書の編集は実現できないものである。
【0005】また、マイクロソフト社(Microsoft Cor
p.)のOLE(Object Linking andEmbedding:商品
名)と称するシステムでは、上記のような表示用データ
の形式の文書データの他に、アプリケーションで作成さ
れたままの文書データ(すなわち、文書作成アプリケー
ションに依存するアプリケーションデータ)も保有し、
対応する文書作成アプリケーションがインストールされ
ている場合には、アプリケーションデータを用いて文書
の編集をも実現している。(1993年5月発行「Su
perASCII]第45〜58頁参照)
p.)のOLE(Object Linking andEmbedding:商品
名)と称するシステムでは、上記のような表示用データ
の形式の文書データの他に、アプリケーションで作成さ
れたままの文書データ(すなわち、文書作成アプリケー
ションに依存するアプリケーションデータ)も保有し、
対応する文書作成アプリケーションがインストールされ
ている場合には、アプリケーションデータを用いて文書
の編集をも実現している。(1993年5月発行「Su
perASCII]第45〜58頁参照)
【0006】ここで、文書処理装置で作成された電子的
な文書に比べて、紙媒体に記述された文書においては、
文書中の一部分を切り貼りして他の部分に転記したり、
或いは、文書中の一部分を消して書き直す等といった編
集作業を自由に行うことができる。このため、電子的な
文書についても紙媒体の文書に近似した取り扱いができ
れば便利であり、このような取り扱いを実現することが
要求されている。
な文書に比べて、紙媒体に記述された文書においては、
文書中の一部分を切り貼りして他の部分に転記したり、
或いは、文書中の一部分を消して書き直す等といった編
集作業を自由に行うことができる。このため、電子的な
文書についても紙媒体の文書に近似した取り扱いができ
れば便利であり、このような取り扱いを実現することが
要求されている。
【0007】
【発明が解決しようとする課題】このような要求に対し
て、上記した前者のシステムにあっては、電子的な文書
についての表示出力を文書作成アプリケーションが存在
しない環境下でも行えるだけであり、当該文書データの
編集を実現できるものではなかった。また、上記した後
者のシステムにあっては、電子的な文書の編集をも実現
するが、この編集処理はあくまでも当該文書データを作
成した対応するアプリケーションが存在する環境下でで
あり、紙媒体の文書のような取り扱いを実現し得るもの
ではなかった。
て、上記した前者のシステムにあっては、電子的な文書
についての表示出力を文書作成アプリケーションが存在
しない環境下でも行えるだけであり、当該文書データの
編集を実現できるものではなかった。また、上記した後
者のシステムにあっては、電子的な文書の編集をも実現
するが、この編集処理はあくまでも当該文書データを作
成した対応するアプリケーションが存在する環境下でで
あり、紙媒体の文書のような取り扱いを実現し得るもの
ではなかった。
【0008】そこで、本発明は文字認識の手法により画
像データ(イメージデータ)から文字コードデータが取
得できることに着目し、電子的な文書の表示を文書作成
アプリケーションに依存することなく実現できる文書処
理装置において、更に文書作成アプリケーションに依存
することのない編集処理を実現するものである。ここ
で、文字認識に関する技術は従来より種々知られている
が、文字認識の精度を如何に向上させるかが重要な課題
となっている。このため、例えば特開平4−15848
8号公報や特開平4−211885号公報に記載された
文字認識装置では、文字のイメージパターンの特徴量を
増やし、認識する文字パターンを大分類によって大きく
分け、その中で複雑な文字パターンは更に詳細分類する
ことにより、文字パターンを精度良く認識しようとして
いる。
像データ(イメージデータ)から文字コードデータが取
得できることに着目し、電子的な文書の表示を文書作成
アプリケーションに依存することなく実現できる文書処
理装置において、更に文書作成アプリケーションに依存
することのない編集処理を実現するものである。ここ
で、文字認識に関する技術は従来より種々知られている
が、文字認識の精度を如何に向上させるかが重要な課題
となっている。このため、例えば特開平4−15848
8号公報や特開平4−211885号公報に記載された
文字認識装置では、文字のイメージパターンの特徴量を
増やし、認識する文字パターンを大分類によって大きく
分け、その中で複雑な文字パターンは更に詳細分類する
ことにより、文字パターンを精度良く認識しようとして
いる。
【0009】しかしながら、従来の文字認識の手法を単
に利用しただけでは、要求される認識精度を満たすため
に、文字コードデータを文字のイメージパターンに対応
して格納した辞書をかなり大きなものとしなければなら
ない。このため、文書処理装置に辞書ファイルを格納す
るための大容量のメモリを要求することとなり、コスト
の増大を招いてしまうという問題があった。また、辞書
に含まれていない文字は認識することができないため、
十分な内容を含んだ辞書を予め作成して準備しておかな
ければならず、簡易な構成で所期の目的を達成すること
ができないという問題があった。
に利用しただけでは、要求される認識精度を満たすため
に、文字コードデータを文字のイメージパターンに対応
して格納した辞書をかなり大きなものとしなければなら
ない。このため、文書処理装置に辞書ファイルを格納す
るための大容量のメモリを要求することとなり、コスト
の増大を招いてしまうという問題があった。また、辞書
に含まれていない文字は認識することができないため、
十分な内容を含んだ辞書を予め作成して準備しておかな
ければならず、簡易な構成で所期の目的を達成すること
ができないという問題があった。
【0010】本発明は上記従来の事情に鑑み成されたも
ので、電子的な文書の表示を文書作成アプリケーション
に依存することなく実現できる文書処理装置において、
辞書の大きさに関わりなく、文字認識の手法を利用する
ことによって文書作成アプリケーションに依存すること
のない編集処理を実現することを目的とする。
ので、電子的な文書の表示を文書作成アプリケーション
に依存することなく実現できる文書処理装置において、
辞書の大きさに関わりなく、文字認識の手法を利用する
ことによって文書作成アプリケーションに依存すること
のない編集処理を実現することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文書処理装置は、文書作成に用いたアプリ
ケーションプログラムに依存しない表示用データと当該
アプリケーションプログラムに依存するアプリケーショ
ンデータとを含む文書データに基づいて、文書処理を行
う文書処理装置において、文字の画像データと該当する
文字コードデータとを対応付けて格納する第1の辞書
(13)と、前記文書データから文書を成す各文字の文
字コードデータを抽出するコードデータ抽出手段(1
4)と、抽出された各文字コードデータを前記文書の文
字列と対応する文字コードデータ列として格納する第2
の辞書(15)と、前記表示用データに基づいて文書画
像を表示する表示手段(16)と、表示手段(16)に
表示された文書画像中の任意の範囲を指定する指定手段
(17)と、指定された文書画像の範囲について前記表
示用データの文字画像データから第1の辞書(13)を
用いて文字コードデータを得る認識手段(18)と、認
識し得た文字コードデータの並びを第2の辞書(15)
に参照して認識し得なかった文字に該当する文字コード
データを得る補償手段(18)とを備えたことを特徴と
する。
め、本発明の文書処理装置は、文書作成に用いたアプリ
ケーションプログラムに依存しない表示用データと当該
アプリケーションプログラムに依存するアプリケーショ
ンデータとを含む文書データに基づいて、文書処理を行
う文書処理装置において、文字の画像データと該当する
文字コードデータとを対応付けて格納する第1の辞書
(13)と、前記文書データから文書を成す各文字の文
字コードデータを抽出するコードデータ抽出手段(1
4)と、抽出された各文字コードデータを前記文書の文
字列と対応する文字コードデータ列として格納する第2
の辞書(15)と、前記表示用データに基づいて文書画
像を表示する表示手段(16)と、表示手段(16)に
表示された文書画像中の任意の範囲を指定する指定手段
(17)と、指定された文書画像の範囲について前記表
示用データの文字画像データから第1の辞書(13)を
用いて文字コードデータを得る認識手段(18)と、認
識し得た文字コードデータの並びを第2の辞書(15)
に参照して認識し得なかった文字に該当する文字コード
データを得る補償手段(18)とを備えたことを特徴と
する。
【0012】
【作用】本発明の文書処理装置によると、文書の表示出
力は表示用データを用いることにより当該文書に対応す
る文書作成アプリケーションが存在しなくても行われ
る。また、文書の編集処理は対応する文書作成アプリケ
ーションが存在するときには当該アプリケーションを用
いて行う。そして、対応する文書作成アプリケーション
が存在しない環境下で文書の編集を行う場合には、文書
を表示手段に画像として表示し、オペレータが指示手段
によって表示された文書画像中の編集を行う範囲を指定
すると、認識手段がこの範囲の文書画像を第1の辞書を
用いて文字認識して、当該範囲内の各文字に対する文字
コードデータを取得する。この第1の辞書には予め多く
の文字について画像データと該当する文字コードデータ
とを対応付けて格納してあり、指定された範囲に記載さ
れているこれらの文字については文字コードデータが取
得される。
力は表示用データを用いることにより当該文書に対応す
る文書作成アプリケーションが存在しなくても行われ
る。また、文書の編集処理は対応する文書作成アプリケ
ーションが存在するときには当該アプリケーションを用
いて行う。そして、対応する文書作成アプリケーション
が存在しない環境下で文書の編集を行う場合には、文書
を表示手段に画像として表示し、オペレータが指示手段
によって表示された文書画像中の編集を行う範囲を指定
すると、認識手段がこの範囲の文書画像を第1の辞書を
用いて文字認識して、当該範囲内の各文字に対する文字
コードデータを取得する。この第1の辞書には予め多く
の文字について画像データと該当する文字コードデータ
とを対応付けて格納してあり、指定された範囲に記載さ
れているこれらの文字については文字コードデータが取
得される。
【0013】ここで、指定された範囲に第1の辞書には
格納されていない文字が含まれている場合には、当該文
字については上記の文字認識で文字コードデータを得る
ことができない。この場合、補償手段が文字認識で得ら
れた文字コードデータの並びを用いて第2の辞書を参照
し、文字認識されなかった文字の文字コードデータを第
1の辞書から取得する。この第2の辞書には抽出手段で
抽出された文書に含まれる全ての文字の文字コードが文
書中の文字列を反映して格納されており、文字認識で得
られた文字コードデータの並びを用いて第2の辞書を参
照すると、指定された範囲及び文字認識されなかった文
字が割り出される。
格納されていない文字が含まれている場合には、当該文
字については上記の文字認識で文字コードデータを得る
ことができない。この場合、補償手段が文字認識で得ら
れた文字コードデータの並びを用いて第2の辞書を参照
し、文字認識されなかった文字の文字コードデータを第
1の辞書から取得する。この第2の辞書には抽出手段で
抽出された文書に含まれる全ての文字の文字コードが文
書中の文字列を反映して格納されており、文字認識で得
られた文字コードデータの並びを用いて第2の辞書を参
照すると、指定された範囲及び文字認識されなかった文
字が割り出される。
【0014】すなわち、対応する文書作成アプリケーシ
ョンが存在しない環境下にあっても、文字認識によって
でき得る限りの文字コードデータを取得する。そして、
これら得られた文字コードデータの並びに基づいて、文
書中における指定された範囲を割り出すと共に当該範囲
内で文字認識し得なかった文字を割り出し、当該文字の
文字コードデータを第2の辞書から取得して補う。した
がって、文字認識に用いる第1の辞書を予め大きな辞書
として用意しておかずとも、指定された範囲内の文字コ
ードデータを全て得ることができ、これら文字コードデ
ータによって文書の編集処理を行うことができる。
ョンが存在しない環境下にあっても、文字認識によって
でき得る限りの文字コードデータを取得する。そして、
これら得られた文字コードデータの並びに基づいて、文
書中における指定された範囲を割り出すと共に当該範囲
内で文字認識し得なかった文字を割り出し、当該文字の
文字コードデータを第2の辞書から取得して補う。した
がって、文字認識に用いる第1の辞書を予め大きな辞書
として用意しておかずとも、指定された範囲内の文字コ
ードデータを全て得ることができ、これら文字コードデ
ータによって文書の編集処理を行うことができる。
【0015】
【実施例】本発明に係る文書処理装置の一実施例を図面
を参照して説明する。なお、以下の説明では、図2に示
すように、文書処理装置A、Bをネットワーク1を介し
て接続し、一方の文書処理装置で作成された文書データ
をネットワークを介して他方の文書処理装置に伝送し、
当該他方の文書処理装置で文書編集を行う例を用いてい
る。そして、文書編集を行う文書処理装置にインストー
ルされている文書作成アプリケーションは文書を作成し
た文書処理装置にインストールされている文書作成アプ
リケーションと文書データに対する共通性はなく、文書
データをそのまま用いて編集処理を行うことができない
状態となっている。但し、両者の文書作成アプリケーシ
ョンは文書データに含まれる文字コードデータでは共通
性があり、更に、文書編集を行う側の文書作成アプリケ
ーションは当該文字コードデータで編集処理を行うこと
ができるものとなっている。
を参照して説明する。なお、以下の説明では、図2に示
すように、文書処理装置A、Bをネットワーク1を介し
て接続し、一方の文書処理装置で作成された文書データ
をネットワークを介して他方の文書処理装置に伝送し、
当該他方の文書処理装置で文書編集を行う例を用いてい
る。そして、文書編集を行う文書処理装置にインストー
ルされている文書作成アプリケーションは文書を作成し
た文書処理装置にインストールされている文書作成アプ
リケーションと文書データに対する共通性はなく、文書
データをそのまま用いて編集処理を行うことができない
状態となっている。但し、両者の文書作成アプリケーシ
ョンは文書データに含まれる文字コードデータでは共通
性があり、更に、文書編集を行う側の文書作成アプリケ
ーションは当該文字コードデータで編集処理を行うこと
ができるものとなっている。
【0016】また、図3に示すように、文書処理装置で
作成された文書データ2は表示用データ3とアプリケー
ションデータ4とを含んでおり、本実施例ではアプリケ
ーションデータ4に文字コードデータ5が含まれてい
る。表示用データ3は、従来例で説明したと同様に、文
書を作成した文書作成アプリケーションに依存しない標
準化された統一形式(例えば、ビットマップ形式)で文
書の内容を記述した画像データであり、文書処理装置は
表示用データによって文書作成アプリケーションに依存
することなく文書をディスプレイ装置等に表示出力する
ことができる。この表示用データ3は、作成した文書を
その文書作成アプリケーションの印刷機能により出力す
ることで作成される。なお、表示用データ3はポストス
クリプト(登録商標)等の印刷標準フォーマットデータ
や、Windows(登録商標)等の表示標準フォーマ
ットデータ等としてもよい。
作成された文書データ2は表示用データ3とアプリケー
ションデータ4とを含んでおり、本実施例ではアプリケ
ーションデータ4に文字コードデータ5が含まれてい
る。表示用データ3は、従来例で説明したと同様に、文
書を作成した文書作成アプリケーションに依存しない標
準化された統一形式(例えば、ビットマップ形式)で文
書の内容を記述した画像データであり、文書処理装置は
表示用データによって文書作成アプリケーションに依存
することなく文書をディスプレイ装置等に表示出力する
ことができる。この表示用データ3は、作成した文書を
その文書作成アプリケーションの印刷機能により出力す
ることで作成される。なお、表示用データ3はポストス
クリプト(登録商標)等の印刷標準フォーマットデータ
や、Windows(登録商標)等の表示標準フォーマ
ットデータ等としてもよい。
【0017】アプリケーションデータ4は文書作成アプ
リケーションに依存した文書データであり、図4に示す
ように、文字コードデータ5に付帯して当該文書作成ア
プリケーションに固有の書式データ6を含んでいる。し
たがって、対応する文書作成アプリケーションが存在す
る環境下ではアプリケーションデータ4を用いて文書の
編集処理を行うことができるが、対応する文書作成アプ
リケーションが存在しない環境下では書式データ6等の
不一致により文書の編集処理を行うことができない。こ
の文字コードデータ5は例えばJISコードであり、こ
の文字コードデータ5には文書を構成する全文字につい
ての文字コードデータが文書中の配列順に含まれてい
る。
リケーションに依存した文書データであり、図4に示す
ように、文字コードデータ5に付帯して当該文書作成ア
プリケーションに固有の書式データ6を含んでいる。し
たがって、対応する文書作成アプリケーションが存在す
る環境下ではアプリケーションデータ4を用いて文書の
編集処理を行うことができるが、対応する文書作成アプ
リケーションが存在しない環境下では書式データ6等の
不一致により文書の編集処理を行うことができない。こ
の文字コードデータ5は例えばJISコードであり、こ
の文字コードデータ5には文書を構成する全文字につい
ての文字コードデータが文書中の配列順に含まれてい
る。
【0018】図1に示すように、本実施例の文書処理装
置は、他の文書処理装置で作成された文書データ2をネ
ットワーク1を介して受信する通信手段11と、受信し
た文書データを格納する記憶手段12と、文字の画像パ
ターンデータと該当する文字コードデータとを対応付け
て格納した第1の辞書13と、文書データ2から文字コ
ードデータ5を抽出するコードデータ抽出手段14と、
抽出された文字コードデータ5を文書中の文字列のまま
格納する第2の辞書15と、文書データ2に含まれてい
る表示用データ3に基づいて文書の画像を表示する表示
手段16と、表示手段16に表示された文書画像中の任
意の範囲を指定する指定手段17と、指定された文書画
像の範囲について文字認識を行って文字画像データから
文字コードデータを取得する認識手段18と、認識手段
18で認識し得なかった文字について取得した文字コー
ドデータを第2の辞書15に参照して該当する文字コー
ドデータを取得する補償手段19と、各機能手段11〜
19の制御を統括する制御手段20とを備えている。
置は、他の文書処理装置で作成された文書データ2をネ
ットワーク1を介して受信する通信手段11と、受信し
た文書データを格納する記憶手段12と、文字の画像パ
ターンデータと該当する文字コードデータとを対応付け
て格納した第1の辞書13と、文書データ2から文字コ
ードデータ5を抽出するコードデータ抽出手段14と、
抽出された文字コードデータ5を文書中の文字列のまま
格納する第2の辞書15と、文書データ2に含まれてい
る表示用データ3に基づいて文書の画像を表示する表示
手段16と、表示手段16に表示された文書画像中の任
意の範囲を指定する指定手段17と、指定された文書画
像の範囲について文字認識を行って文字画像データから
文字コードデータを取得する認識手段18と、認識手段
18で認識し得なかった文字について取得した文字コー
ドデータを第2の辞書15に参照して該当する文字コー
ドデータを取得する補償手段19と、各機能手段11〜
19の制御を統括する制御手段20とを備えている。
【0019】第1の辞書13には予め選択した多数の文
字についてその画像パターンデータが格納されており、
図6に示すように、これら文字画像データ13aはそれ
ぞれ該当する文字コードデータ13bと共に格納されて
いる。この文字コードデータ13bは文書データ2に含
まれている文字コードデータ5と同種のものであり、例
えばJISコード体系の第1水準のものが格納されてい
る。したがって、従来の文字認識において必要とされる
辞書より小さなものとなっている。
字についてその画像パターンデータが格納されており、
図6に示すように、これら文字画像データ13aはそれ
ぞれ該当する文字コードデータ13bと共に格納されて
いる。この文字コードデータ13bは文書データ2に含
まれている文字コードデータ5と同種のものであり、例
えばJISコード体系の第1水準のものが格納されてい
る。したがって、従来の文字認識において必要とされる
辞書より小さなものとなっている。
【0020】コードデータ抽出手段14は受信した文書
データ2を解析して、当該文字コードデータ2に含まれ
ている文字コードデータ5を抽出し、この文字コードデ
ータ5を第2の辞書15に格納する。したがって、第2
の辞書15には図4に示したアプリケーションデータ4
中の文字コードデータ5が格納されており、処理対象の
文書を構成している文字列の順序で格納されている。
データ2を解析して、当該文字コードデータ2に含まれ
ている文字コードデータ5を抽出し、この文字コードデ
ータ5を第2の辞書15に格納する。したがって、第2
の辞書15には図4に示したアプリケーションデータ4
中の文字コードデータ5が格納されており、処理対象の
文書を構成している文字列の順序で格納されている。
【0021】なお、文書データ2から文字コードデータ
5を得る方法としては、上記の他に、印刷機能を用いる
方法や高機能な光学的文字認識装置(OCR装置)を用
いる方法がある。前者の方法では、表示用データとして
印刷機能を用いて形成した例えばポストスクリプト(登
録商標)形式のものを用いる。この表示用データには印
刷コマンドの後に印刷文書の文字コードデータが含まれ
ているので、この文字コードデータ部分を抜き出して第
2辞書15に格納すればよい。また、後者の方法では、
文書を紙媒体に一旦印刷出力し、この文書をOCR装置
で認識して文字コードデータを得、第2辞書15に格納
すればよい。なお、OCR認識できない文字が残る場合
には、これら文字についてはユーザが別途文字コードデ
ータを指定して第2辞書15に格納すればよい。
5を得る方法としては、上記の他に、印刷機能を用いる
方法や高機能な光学的文字認識装置(OCR装置)を用
いる方法がある。前者の方法では、表示用データとして
印刷機能を用いて形成した例えばポストスクリプト(登
録商標)形式のものを用いる。この表示用データには印
刷コマンドの後に印刷文書の文字コードデータが含まれ
ているので、この文字コードデータ部分を抜き出して第
2辞書15に格納すればよい。また、後者の方法では、
文書を紙媒体に一旦印刷出力し、この文書をOCR装置
で認識して文字コードデータを得、第2辞書15に格納
すればよい。なお、OCR認識できない文字が残る場合
には、これら文字についてはユーザが別途文字コードデ
ータを指定して第2辞書15に格納すればよい。
【0022】表示手段16はディスプレイ装置を有して
おり、受信した文書データ2の表示用データ3に基づい
て文書の画像を表示する。指定手段17はマウス17や
キーボード等の入力手段を有しており、この入力手段1
7をオペレータが操作することにより、図5に示すよう
に、表示手段16の画面上に表示された文書画像中に任
意の範囲21を指定できるようになっている。この範囲
21はオペレータが文書中で編集処理を指定した範囲で
あり、この範囲21内について認識手段18が文字認識
を行う。
おり、受信した文書データ2の表示用データ3に基づい
て文書の画像を表示する。指定手段17はマウス17や
キーボード等の入力手段を有しており、この入力手段1
7をオペレータが操作することにより、図5に示すよう
に、表示手段16の画面上に表示された文書画像中に任
意の範囲21を指定できるようになっている。この範囲
21はオペレータが文書中で編集処理を指定した範囲で
あり、この範囲21内について認識手段18が文字認識
を行う。
【0023】認識手段18は、紙媒体等に表示された文
書を光学的に読み取って認識するのではなく、表示され
た文書の画像データ(すなわち、表示用データ3)から
直接的に文字認識処理を行う。この文字認識処理は第1
の辞書13を用いて行われ、当該辞書13に格納されて
いる文字の範囲内で文字画像データから文字コードデー
タが取得される。なお、第1の辞書13が比較的小さな
ものであることから、認識手段18による処理では認識
し得ない文字が従来に比して多くなる可能性があるが、
補償手段19によるその後の補償処理でほぼ完全な認識
結果が得られることとなる。
書を光学的に読み取って認識するのではなく、表示され
た文書の画像データ(すなわち、表示用データ3)から
直接的に文字認識処理を行う。この文字認識処理は第1
の辞書13を用いて行われ、当該辞書13に格納されて
いる文字の範囲内で文字画像データから文字コードデー
タが取得される。なお、第1の辞書13が比較的小さな
ものであることから、認識手段18による処理では認識
し得ない文字が従来に比して多くなる可能性があるが、
補償手段19によるその後の補償処理でほぼ完全な認識
結果が得られることとなる。
【0024】補償手段19は、認識手段18で文字コー
ドデータを取得できなかった文字があった場合、取得で
きた文字コードデータを第2の辞書15に参照して取得
できなかった文字に該当する文字コードデータを再度取
得する処理を行う。例えば、文書中の「文書作成に関す
るニーズを考慮した発明であり」という部分が編集範囲
21に指定され、解像能力の問題或いは第1の辞書13
に該当する文字がないといった理由から、「関」と
「慮」の文字が認識できなかった場合、補償手段19
は、取得された「文書作成に」、「するニーズを考」及
び「した発明であり」の文字の文字コードデータを第2
の辞書15を参照して取得する。
ドデータを取得できなかった文字があった場合、取得で
きた文字コードデータを第2の辞書15に参照して取得
できなかった文字に該当する文字コードデータを再度取
得する処理を行う。例えば、文書中の「文書作成に関す
るニーズを考慮した発明であり」という部分が編集範囲
21に指定され、解像能力の問題或いは第1の辞書13
に該当する文字がないといった理由から、「関」と
「慮」の文字が認識できなかった場合、補償手段19
は、取得された「文書作成に」、「するニーズを考」及
び「した発明であり」の文字の文字コードデータを第2
の辞書15を参照して取得する。
【0025】すなわち、第2の辞書15には指定範囲2
1の「文書作成に関するニーズを考慮した発明であり」
に対応する全ての文字コードデータが文書中の語順通り
に格納されており、「文書作成に」、「するニーズを
考」及び「した発明であり」の文字の文字コードデータ
を参照すると、欠落している「関」と「慮」の文字が割
り出され、これら文字に対応する文字コードデータを抽
出することができる。
1の「文書作成に関するニーズを考慮した発明であり」
に対応する全ての文字コードデータが文書中の語順通り
に格納されており、「文書作成に」、「するニーズを
考」及び「した発明であり」の文字の文字コードデータ
を参照すると、欠落している「関」と「慮」の文字が割
り出され、これら文字に対応する文字コードデータを抽
出することができる。
【0026】上記構成の文書処理装置による文書の編集
処理を説明する。まず、通信手段11で受信された文書
データは制御装置20による制御によって記憶手段12
に格納されるとともに、この文書データから成る文書が
表示手段16のディスプレイ画面上に画像表示される
(ステップS1)。そして、オペレータが入力手段17
を操作して表示された文書中に編集を行う範囲21を指
定すると(ステップS2)、制御装置20による制御下
で認識手段18が指定された範囲21について文字認識
処理を行う(ステップS3)。
処理を説明する。まず、通信手段11で受信された文書
データは制御装置20による制御によって記憶手段12
に格納されるとともに、この文書データから成る文書が
表示手段16のディスプレイ画面上に画像表示される
(ステップS1)。そして、オペレータが入力手段17
を操作して表示された文書中に編集を行う範囲21を指
定すると(ステップS2)、制御装置20による制御下
で認識手段18が指定された範囲21について文字認識
処理を行う(ステップS3)。
【0027】この文字認識処理は第1の辞書13を用い
て行われ、指定範囲21内の各文字のパターンデータと
該当する文字パターン画像データ13aが第1の辞書1
3に格納されているときには、これら文字パターン画像
データ13aに対応する文字コードデータ13bが認識
結果として取得される。なお、この文字認識処理には従
来より知られた種々な手法を用いることができ、従来例
で説明した特徴量による分類化等を採用することもでき
る。
て行われ、指定範囲21内の各文字のパターンデータと
該当する文字パターン画像データ13aが第1の辞書1
3に格納されているときには、これら文字パターン画像
データ13aに対応する文字コードデータ13bが認識
結果として取得される。なお、この文字認識処理には従
来より知られた種々な手法を用いることができ、従来例
で説明した特徴量による分類化等を採用することもでき
る。
【0028】認識手段18による文字認識処理が終了す
ると、制御手段20が指定範囲21内の全ての文字につ
いて文字コードデータが得られたかを判断し(ステップ
S4)、全て得られている場合には所期の目的と達成し
たので処理を終了する。一方、全て得られていない場合
には、制御装置20による制御下で補償手段19が指定
された範囲21について補償処理を行う(ステップS
5)。
ると、制御手段20が指定範囲21内の全ての文字につ
いて文字コードデータが得られたかを判断し(ステップ
S4)、全て得られている場合には所期の目的と達成し
たので処理を終了する。一方、全て得られていない場合
には、制御装置20による制御下で補償手段19が指定
された範囲21について補償処理を行う(ステップS
5)。
【0029】この補償処理は第2の辞書15を用いて行
われ、上記の例を用いれば、認識手段18による認識結
果として得られた「文書作成に」、「するニーズを考」
及び「した発明であり」の文字の文字コードデータを第
2の辞書15に参照して、認識できなかった「関」と
「慮」の文字コードデータが取得される。そして、この
補償処理によって得られた文字コードデータを前記の認
識結果中に欠落していた部分に補充し(ステップS
6)、処理を終了する。
われ、上記の例を用いれば、認識手段18による認識結
果として得られた「文書作成に」、「するニーズを考」
及び「した発明であり」の文字の文字コードデータを第
2の辞書15に参照して、認識できなかった「関」と
「慮」の文字コードデータが取得される。そして、この
補償処理によって得られた文字コードデータを前記の認
識結果中に欠落していた部分に補充し(ステップS
6)、処理を終了する。
【0030】したがって、第1の辞書13を格納した文
字数が少ない小さなものとしても、補償処理によって結
果的に完全な文字認識がなされ、指定範囲21の全ての
文字コードデータを認識結果として得ることができる。
更に、文字画像データから対応する文字コードデータを
取得する認識処理や補償処理は、従来のように紙媒体に
記録した文書を光学的に読み取って行うのではなく、文
書処理装置の内部的なデータ処理によって行われるた
め、処理が迅速であると共に印刷や表示の解像度の影響
を受けることなく高精度な結果を得られる。上記のよう
にして得られた文字コードデータは文書編集処理に用い
られ、この文字コードデータによって文書の指定部分2
1の書換や他の部分への転写が行われる。
字数が少ない小さなものとしても、補償処理によって結
果的に完全な文字認識がなされ、指定範囲21の全ての
文字コードデータを認識結果として得ることができる。
更に、文字画像データから対応する文字コードデータを
取得する認識処理や補償処理は、従来のように紙媒体に
記録した文書を光学的に読み取って行うのではなく、文
書処理装置の内部的なデータ処理によって行われるた
め、処理が迅速であると共に印刷や表示の解像度の影響
を受けることなく高精度な結果を得られる。上記のよう
にして得られた文字コードデータは文書編集処理に用い
られ、この文字コードデータによって文書の指定部分2
1の書換や他の部分への転写が行われる。
【0031】なお、上記の実施例では他の文書処理装置
で作成された文書データをネットワーク1を介して受信
する態様を示したが、文書データをフロッピーディスク
等の記録媒体に記録して文書処理装置間で受け渡しする
態様としてもよい。また、上記の実施例では文書データ
2のアプリケーションデータ4部分に文字コードデータ
5が含まれている例を示したが、本発明では文書データ
2中の何処かに文字コードデータ5が含まれていればよ
く、抽出手段14によってこの文字コードデータ5を抽
出して第2の辞書15に格納すればよい。
で作成された文書データをネットワーク1を介して受信
する態様を示したが、文書データをフロッピーディスク
等の記録媒体に記録して文書処理装置間で受け渡しする
態様としてもよい。また、上記の実施例では文書データ
2のアプリケーションデータ4部分に文字コードデータ
5が含まれている例を示したが、本発明では文書データ
2中の何処かに文字コードデータ5が含まれていればよ
く、抽出手段14によってこの文字コードデータ5を抽
出して第2の辞書15に格納すればよい。
【0032】
【発明の効果】以上詳細に説明したように、本発明によ
ると、表示用データとアプリケーションデータとを含ん
だ文書データに対し、表示用データによる表示文書中の
指定された範囲内について、認識手段による認識結果に
更に補償手段による補償処理を施すようにしたため、電
子的な文書を文書作成アプリケーションに依存すること
なく表示出力できる文書処理装置で電子的な文書の編集
処理も実現することができ、電子的な文書に対して紙媒
体の文書のような取り扱いを実現することができる。
ると、表示用データとアプリケーションデータとを含ん
だ文書データに対し、表示用データによる表示文書中の
指定された範囲内について、認識手段による認識結果に
更に補償手段による補償処理を施すようにしたため、電
子的な文書を文書作成アプリケーションに依存すること
なく表示出力できる文書処理装置で電子的な文書の編集
処理も実現することができ、電子的な文書に対して紙媒
体の文書のような取り扱いを実現することができる。
【0033】そして、上記の効果を導くための文字コー
ドデータの取得処理は従来のように大きな辞書を予め用
意せずとも簡単な辞書によって実現でき、辞書の準備に
伴う手間やコストの増大を招くことなく極めて高い精度
及び確率で文字コードデータの取得を実現することがで
きる。また、このような処理は、文書処理装置の内部的
なデータ処理で行えるため、処理が迅速であると共に印
刷や表示の文書解像度の影響を受けることなく高精度な
結果を安定して得ることができる。
ドデータの取得処理は従来のように大きな辞書を予め用
意せずとも簡単な辞書によって実現でき、辞書の準備に
伴う手間やコストの増大を招くことなく極めて高い精度
及び確率で文字コードデータの取得を実現することがで
きる。また、このような処理は、文書処理装置の内部的
なデータ処理で行えるため、処理が迅速であると共に印
刷や表示の文書解像度の影響を受けることなく高精度な
結果を安定して得ることができる。
【図1】 本発明の一実施例に係る文書処理装置の構成
図である。
図である。
【図2】 複数の文書処理装置から成るネットワークの
構成図である。
構成図である。
【図3】 文書データの構造を示す概念図である。
【図4】 アプリケーションデータの構成を示す概念図
である。
である。
【図5】 文書画像の表示状態を示す概念図である。
【図6】 第1の辞書の構造を示す概念図である。
【図7】 文字コードデータの取得処理を示すフローチ
ャートである。
ャートである。
2・・・文書データ、 3・・・表示用データ、4・・
・アプリケーションデータ、 5・・・文字コードデー
タ、13・・・第1の辞書、 14・・・抽出手段、
15・・・第2の辞書、16・・・表示手段、 17・
・・指示手段、 18・・・認識手段、19・・・補償
手段、 21・・・指示範囲、
・アプリケーションデータ、 5・・・文字コードデー
タ、13・・・第1の辞書、 14・・・抽出手段、
15・・・第2の辞書、16・・・表示手段、 17・
・・指示手段、 18・・・認識手段、19・・・補償
手段、 21・・・指示範囲、
Claims (1)
- 【請求項1】 文書作成に用いたアプリケーションプロ
グラムに依存しない表示用データと当該アプリケーショ
ンプログラムに依存するアプリケーションデータとを含
む文書データに基づいて、文書処理を行う文書処理装置
において、 文字の画像データと該当する文字コードデータとを対応
付けて格納する第1の辞書と、 前記文書データから文書を成す各文字の文字コードデー
タを抽出するコードデータ抽出手段と、 抽出された各文字コードデータを前記文書の文字列と対
応する文字コードデータ列として格納する第2の辞書
と、 前記表示用データに基づいて文書画像を表示する表示手
段と、 表示手段に表示された文書画像中の範囲を指定する指定
手段と、 指定された文書画像の範囲について前記表示用データの
文字画像データから第1の辞書を用いて文字コードデー
タを得る認識手段と、 認識し得た文字コードデータの並びを第2の辞書に参照
して認識し得なかった文字に該当する文字コードデータ
を得る補償手段と、 を備えたことを特徴とする文書処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6332977A JPH08167003A (ja) | 1994-12-14 | 1994-12-14 | 文書処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6332977A JPH08167003A (ja) | 1994-12-14 | 1994-12-14 | 文書処理装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08167003A true JPH08167003A (ja) | 1996-06-25 |
Family
ID=18260942
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6332977A Pending JPH08167003A (ja) | 1994-12-14 | 1994-12-14 | 文書処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08167003A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018101325A (ja) * | 2016-12-21 | 2018-06-28 | 株式会社リコー | 情報処理システム、情報処理装置およびプログラム |
-
1994
- 1994-12-14 JP JP6332977A patent/JPH08167003A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018101325A (ja) * | 2016-12-21 | 2018-06-28 | 株式会社リコー | 情報処理システム、情報処理装置およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5133024A (en) | Image data bank system with selective conversion | |
| US6353840B2 (en) | User-defined search template for extracting information from documents | |
| JP3277014B2 (ja) | データ処理資源を操作するための方法 | |
| US8179556B2 (en) | Masking of text in document reproduction | |
| US5708766A (en) | Filing device | |
| US5887088A (en) | Inputting device and inputting method for information processing system | |
| US5950213A (en) | Input sheet creating and processing system | |
| JP2002236569A (ja) | 複合文書をディジタル印刷する方法 | |
| JPH11272654A (ja) | 文書編集装置及び方法 | |
| US5596753A (en) | Scanner interactive application program | |
| JPH07200631A (ja) | 電子ファイリング装置 | |
| US6594405B1 (en) | Method and apparatus for preprinted forms completion | |
| US5854860A (en) | Image filing apparatus having a character recognition function | |
| JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
| JP2002073598A (ja) | 文書処理装置および方法 | |
| JP2001256256A (ja) | 電子文書検索装置および電子文書検索方法 | |
| US8395793B2 (en) | Apparatuses and methods that use a stamp function to register and edit a stamp | |
| JPH08167003A (ja) | 文書処理装置 | |
| US20100188674A1 (en) | Added image processing system, image processing apparatus, and added image getting-in method | |
| JP2003132078A (ja) | データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体 | |
| US7844138B2 (en) | History control apparatus | |
| JP4480109B2 (ja) | 画像管理装置および画像管理方法 | |
| JPH07114610A (ja) | 情報処理システムの入力装置及び情報処理システムの入力方法 | |
| KR100366657B1 (ko) | 프린트 출력 이미지의 텍스트 파일 역변환 방법 및 그 장치 | |
| JP7690273B2 (ja) | 情報処理装置、情報処理方法、及びプログラム |