JPH11203410A

JPH11203410A - 画像処理方法及び装置及びその記憶媒体

Info

Publication number: JPH11203410A
Application number: JP10003990A
Authority: JP
Inventors: Kitahiro Kaneda; 北洋金田; Tomotoshi Kanatsu; 知俊金津
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-01-12
Filing date: 1998-01-12
Publication date: 1999-07-30
Anticipated expiration: 2018-01-12
Also published as: JP4109738B2

Abstract

(57)【要約】【課題】複数の言語の文章が混在する文書を高精度で
文字認識させる場合には、原稿の画像に対してユーザが
言語種ごとに認識対象領域を指定し、言語種を限定して
認識させる。という操作を、言語種数だけ繰り返さなけ
ればならなかった。【解決手段】入力画像から領域を識別し、各領域の言
語種を自動判定し、各領域毎に適した言語種の文字認識
を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は画像処理方法及び装
置及びその記憶媒体に関し、特に異なる言語が混在する
文書の画像を文字認識する処理に関するものである。

【０００２】本発明は画像処理方法及び装置及びその記
憶媒体に関し、特に複数のブロックに分割し得る画像を
解析する処理に関するものである。

【０００３】

【従来の技術】従来の文字認識処理は、基本的には単一
言語を対象としており、例えば、日本語なら日本語専門
文字認識装置を、英語なら英語専門文字認識装置を使用
して文字認識を行っていた。ただし、日本語専門文字認
識装置の場合、対象文字としてアルファベットも含んで
いる場合が多いので、アルファベットからなる言語、例
えば英語の認識も可能ではあった。しかしながらこのよ
うな場合、英語専門文字認識装置に比較し英語部分の認
識精度が悪化することは否めない。

【０００４】このような欠点をなくすため、ユーザーが
文章ごとに英語か日本語かを視認により判断し、日本語
の文章部分を指定して日本語専門の文字認識を行うよう
指示し、或は、英語の文章部分を指定して英語専門の文
字認識を行うように指示させる文字認識装置もある。

【０００５】

【発明が解決しようとする課題】しかしながら前記従来
例で述べた文字認識装置においては、異なる言語が混在
した文書を認識させる場合、日英両文章に対して無理に
日本語で文字認識を行うか、或は文章部分の指定と認識
言語種の指示を、日本語と英語の２回繰り返さなければ
ならないというように、認識率と使い勝手は両立せず、
いずれか一方をとらざるを得なかった。また、これは文
字認識装置の普及のためにも大きな障害となっていた。

【０００６】

【課題を解決するための手段】上記課題を解決するため
に、本発明は、入力画像から属性毎に領域を抽出し、前
記領域毎に言語種を判定し、前記各領域の画像を、前記
判定された言語種に応じて文字認識する画像処理方法及
び装置及びその記憶媒体を提供する。

【０００７】上記課題を解決するために、本発明は、好
ましくは前記言語種の判定は、前記抽出した領域の画像
特性を解析して言語種を判定する。

【０００８】上記課題を解決するために、本発明は、好
ましくは前記言語種の判定は、前記抽出した領域に対し
て設定されている言語種の属性を識別することにより判
定する。

【０００９】上記課題を解決するために、本発明は、好
ましくは異なる言語に対応する複数の文字認識方法を備
え、前記判定された言語種に応じて当該言語種に適した
文字認識方法で文字認識を行う。

【００１０】上記課題を解決するために、本発明は、好
ましくは言語種自動判定の指示の有無を判定し、前記判
定により、言語種自動判定の指示がなされていると判定
された場合に、前記抽出した領域の画像特性を解析して
言語種を判定する。

【００１１】上記課題を解決するために、本発明は、好
ましくは前記言語種の判定を、特定の言語種に所定の重
み付けをして判定する。

【００１２】上記課題を解決するために、本発明は、好
ましくは前記言語種の判定を、対象文字の多い言語種を
優先して選択するよう制御する。

【００１３】上記課題を解決するために、本発明は、好
ましくは前記言語種の判定は、文章の属性を有する領域
に対して選択的に行う。

【００１４】上記課題を解決するために、本発明は、好
ましくはユーザによる言語種の指示を入力し、前記入力
した画像情報を、当該入力された言語種に応じて文字認
識する。

【００１５】上記課題を解決するために、本発明は、好
ましくは前記文字認識した結果に文書識別情報を付加し
て記憶する。

【００１６】上記課題を解決するために、本発明は、好
ましくは前記文字認識した結果及び前記入力した画像情
報を、文書識別情報を付加して記憶する。

【００１７】上記課題を解決するために、本発明は、好
ましくは前記文字認識した結果及び前記入力した画像情
報を圧縮した情報を、文書識別情報を付加して記憶す
る。

【００１８】上記課題を解決するために、本発明は、好
ましくは前記文字認識した結果及び前記抽出した領域の
レイアウト情報を、文書識別情報を付加して記憶する。

【００１９】上記課題を解決するために、本発明は、好
ましくは文書識別情報の特定に応じて、当該文書識別情
報が付加されて記憶されている文字認識の結果を出力す
る。

【００２０】上記課題を解決するために、本発明は、好
ましくは文書識別情報の特定に応じて、当該文書識別情
報が付加されて記憶されている文字認識した結果及び画
像情報を出力する。

【００２１】上記課題を解決するために、本発明は、好
ましくは文書識別情報の特定に応じて、当該文書識別情
報が付加されて記憶されている文字認識した結果及び画
像情報を圧縮した情報を出力する。

【００２２】上記課題を解決するために、本発明は、好
ましくは文書識別情報の特定に応じて、当該文書識別情
報が付加されて記憶されている文字認識した結果及び領
域のレイアウト情報を出力する。

【００２３】

【発明の実施の形態】以下図面を参照して本発明の実施
の形態を説明する。

【００２４】図５は本発明に係る装置の構成図である。

【００２５】５１はＣＰＵ（中央処理装置）であって、
ＭＥＭ５３に格納されている制御プログラムに従って本
発明に係る処理の制御を行う。後述するフローチャート
に示す処理もＣＰＵ５１の制御により実行される。５３
はＭＥＭ（ＲＡＭ及びＲＯＭからなる）であって、ＣＰ
Ｕ５１が実行する処理の制御プログラムや、その処理に
用いる各種パラメータ、入力画像、文字認識の辞書等、
各種データの格納はこのＭＥＭ５３に行われる。５４は
ＣＲＴやＬＣＤ等の表示器であって、入力画像、処理結
果のテキスト、操作指示画面、入力手段５９により特定
された文書識別情報に応じてファイルから読み出した認
識結果等を表示する。ＭＥＭ５３に格納された文字認識
結果を表示器５４に表示し、入力手段５９を用いて複数
の候補文字から正しい文字を選択する等の編集が可能で
ある。５５はＬＢＰやＢＪプリンタ等のプリンタであっ
て、画像、テキスト等を印字する。５６はスキャナであ
って、原稿の画像を光学的に読み取り、電気的信号とし
て装置に入力する。５７は通信Ｉ／Ｆであって、公衆回
線やＬＡＮ等を介してデータの送・受信を制御する。本
発明に係る画像の入力及びその画像を処理した結果の出
力を、この通信Ｉ／Ｆを介して他端末と送受信すること
もできる。５８は、本装置に着脱可能であり、コンピュ
ータにより読み取り、更には書き込み可能な記憶媒体で
あって、ＣＤ−ＲＯＭ、ＣＲ−Ｒ、ＦＤ等である。本発
明に係る画像をこの記憶媒体５８から読み取り、処理結
果を記憶媒体５８に書き込んでも良い。また、ＭＥＭ５
３に格納する制御プログラムを、通信Ｉ／Ｆを介して他
端末からインストールしたり、或は記憶媒体５８からイ
ンストールしても良い。５９はキーボード、ポインティ
ングデバイス等の入力手段であり、オペレータからの指
示はこの入力手段５９を介して行う。５０はバスであっ
て、各手段間のデータの授受を行う。

【００２６】図1は本発明に係る装置のプロセス概略図
である。本実施の形態では、日本語と英語を認識対象と
している場合を例に挙げ、説明する。

【００２７】図1において、2は原稿画像を入力する画像
入力部であり、スキャナ５６或は通信Ｉ／Ｆ５７を介し
て他端末から、或は記憶媒体５８から入力し、ＭＥＭ５
３に格納する。4は入力された原稿画像の領域識別部、6
は当該領域が日本語か英語かを判別する日英判別部、8
は前記日英判別部を制御する日英判別制御部であり、入
力手段５９による言語種自動判別を行うか否か、自動判
別を行わない場合の認識モードの指示の入力に応じて、
その指示を表わす制御信号を生成する。10は日本語と英
語の文字認識を行う文字認識部であり、これらの各プロ
セスは後述するフローチャートに示すように、ＭＥＭ５
３に格納された制御プログラムに従ってＣＰＵ５１によ
り実行される。

【００２８】次に動作について説明する。

【００２９】画像入力部2より取得された原稿画像は、
領域識別部4において、図2に示すようにその属性ごとに
小領域（以下ブロックとする）に分割され、ブロックナ
ンバー、ブロック属性、ブロックの大きさ、ブロックの
位置を識別する。この、領域識別部４で行う領域識別の
処理は、入力した原稿画像における黒画素の配置を分析
し、テキスト、図、画像、セパレータ等の属性を判別
し、同属性であって一固まりの画像を一つのブロックと
して識別するものである。また、同じテキストであって
も、行方向が異なっていたり、或は行間が規定値以上に
広いものについては、段が異なるテキストであると判断
し、異なるブロックとして識別する。

【００３０】ブロックの識別がなされたら、各ブロック
ごとに、例えば上から順にブロックナンバーを自動付与
し、ブロックの大きさを表す幅情報及び高さ情報と、ブ
ロックの位置を規定する、例えばブロックの左上端の座
標データをセットにしてブロックデータとしてＭＥＭ５
３に格納する。このブロックデータを参照することによ
り、入力画像の所望の１ブロックの画像を抽出すること
も、また、原稿におけるテキスト、図、画像、セパレー
タ等の配置を再現することもできる。一方、日英判別制
御部8においては、ユーザーによる、日英自動判別を行
うか否かの設定、及び日英自動判別を行うことがユーザ
ーにより設定されなかった場合に設定される認識言語モ
ード（日本語認識か、英語認識か）に応じた制御信号を
生成し、日英判別部6に入力する。日英判別部6において
は、前記日英判別制御部8で生成された制御信号と、前
記領域識別部4において設定された領域属性を基に文字
領域の日本語か英語かの判断を行う。

【００３１】日本語、あるいは英語の属性を加えられた
文字領域の画像データは文字認識部10に送られ、それぞ
れの属性が特定する言語に応じた文字認識が施される。
文字認識部１０は、後述するＳ４０６の日本語文字認識
のルーチン及びＳ４０８の英語文字認識ルーチンを行う
が、これは、各々別個の文字認識別部を備えても良い
し、或は文字画像の切り出し、認識用辞書を言語毎に備
え、マッチングのアルゴリズムを共通にしても良い。

【００３２】文字認識部１０での文字認識処理が終了し
たら、文字認識の結果は文書識別情報を付加して記憶
（ファイリング）する。この文書識別情報は、ユーザに
よるキーボード操作により入力しても良いし、また、文
字認識結果から抽出しても良い。或は、入力日時、時
刻、ユーザＩＤ等を自動的に付与しても良い。後にファ
イルから読み出す際のインデックスとして用い得るよ
う、各文書毎に異なっていれば良い。また、ファイリン
グするデータは、文字認識結果のみならず、入力画像や
入力画像を圧縮したデータ領域のレイアウト情報も共に
して良い。

【００３３】ここで日英判別部6と、文字認識部10につ
いて詳細に説明する。

【００３４】図3に日英判別部6の処理の流れを表すフロ
ーチャートを示す。

【００３５】S302は、ユーザーの指示に応じて日英判別
制御部8において生成され、ＭＥＭ５３に格納してある
制御信号を読み込むルーチンである。処理対象の原稿画
像が複数ある場合は、現在処理対象として特定されてい
る画像に対応づけてＭＥＭ５３に格納されている制御信
号を選択的に読み込む。この制御信号は、日英自動判別
を行うか否か、および行わない場合の認識言語モードを
表わすものである。

【００３６】S304において、S302で読込まれた制御信号
に基づいて日英自動判別を行うか否かを決定し、行う場
合はS306へ、行わない場合はS322へ制御を移行させる。

【００３７】S306は、領域識別部４により図２のごとく
分割されたブロック毎の属性を読み込むルーチンであっ
て、ＭＥＭ５３に格納されているブロックデータをブロ
ックナンバー順に１つずつ読み込む。

【００３８】S308において、S306で読込まれたブロック
データ内のブロック属性を基に当該ブロックが文章領域
であってＳ３１０に進むべきか否かを判別し、文章領域
である場合はS310以下の当該ブロックに対する日英判別
処理へ制御を移行する。Ｓ３０８において当該ブロック
が文章領域でなく、Ｓ３１０に進むべきでないと判別さ
れた場合はS306に制御を戻し、次のブロックデータをＭ
ＥＭ５３から読込む。図２の例では、ブロック2,3,4に
テキストの属性が与えられていることから、これらのブ
ロックは文章領域であると判別し、Ｓ３１０以下の日英
判別処理の対象ブロックとなる。

【００３９】S310は、当該ブロックの画像特性を解析し
て言語種が日本語か英語かを判別するためのルーチンで
あって、Ｓ３０６で読み込んだブロックデータの内のブ
ロック位置及び大きさデータに基づいて特定し得るＭＥ
Ｍ５３の入力画像から対応領域の画像に対して行う処理
である。これは、例えば、特開平8-339424、特開平8-30
5792に記述されている入力画像の特徴から日英等の言語
種を自動判別する技術などを適用すれば可能である。

【００４０】S312において、S310で判定された結果を元
に当該ブロックデータに新たな属性、すなわち言語種を
設定してＭＥＭ５３に格納する。ここで設定するのは、
日本語、英語、未知の三種である。“未知”は、Ｓ３１
０における日英判別ルーチンでの日本語である確からし
さ及び英語である確からしさが閾値よりも低い場合に設
定する。

【００４１】S314において、ＭＥＭ５３に格納されてい
る当該原稿画像の全ブロックについてＳ３０６〜Ｓ３１
２の言語種判定処理がなされたか否かを判定し、処理が
すべて終了している場合はS316へ、そうでない場合は、
S306へ制御を移行する。

【００４２】S316、S318、S320は当該原稿の全ブロック
の言語種をチェックし、その中に日本語ブロックが一つ
でも存在している場合は未知ブロックを日本語ブロック
と、そうでない場合、すなわちすべて英語ブロックであ
った場合は、英語ブロックと設定する未知ブロックの言
語種決定のルーチンである。このルーチンでは、Ｓ３１
６において、ＭＥＭ５３に格納されている全ブロックの
言語種に関する属性を読み込んで、日本語の属性が設定
されているブロックが少なくとも１つあるか判定し、あ
ると判定される場合は、Ｓ３１６で読み込んだブロック
の属性が未知となっているブロックに対して言語種を日
本語であると設定してＭＥＭ５３に格納し（Ｓ３１
８）、Ｓ３１６で１つも日本語ブロックがないと判定さ
れた場合は、Ｓ３１６で読み込んだブロックの属性が未
知となっているブロックに対して言語種を英語であると
設定してＭＥＭ５３に格納する（Ｓ３２０）。尚、Ｓ３
１６の判定基準は、予め定めておけば良く、特定の言語
種ブロックの所定の個数（１、２、・・・）でも、所定
の割合（５％、１０％、・・・）であっても良い。

【００４３】これは、未知ブロックが実際は英語ブロッ
クであるにもかかわらずＳ３１８において日本語ブロッ
クと設定した場合でも、文字認識部１０で行う日本語文
字認識にはアルファベットの認識も入っている（即ち、
日本語のかな、漢字、数字、記号等の他に、アルファベ
ットも認識対象文字としている）ので、認識不能には陥
らないが、逆の場合、すなわち日本語ブロックを英語ブ
ロックと間違って設定した場合は認識不能に陥ってしま
うので、そのように判断する方を厳しく行っているとい
うことである。すなわち認識対象文字数が多い言語種を
より選択しやすくしている。より好ましくは、本実施例
で述べているように一方の言語種の認識対象文字が、も
う一方の言語種の認識対象文字を含んでいる場合、含ん
でいる方の言語種を選択しやすくするとよい。

【００４４】S322は、S304で日英自動判別を行わないと
決定した場合、認識言語モードの設定を行うルーチンであ
る。この設定は、入力手段５９を介してオペレータによ
り操作、指示された言語種に応じて日英判別制御部8に
おいて生成された制御信号を基にして行う。

【００４５】S324は、S322で日本語認識モードと判定さ
れた場合、当該原稿内の全文章領域を日本語と設定し、
ＭＥＭ５３に格納するルーチン。

【００４６】S326は、S322で英語認識モードと判定され
た場合、当該原稿内の全文章領域を英語と設定し、ＭＥ
Ｍ５３に格納するルーチン。

【００４７】図4に文字認識部10が行う文字認識処理の
流れを表すフローチャートを示す。

【００４８】S402は、ＭＥＭ５３に格納されているブロ
ックデータから、属性がテキストとして設定されている
文章ブロックのブロックデータ及びブロック内の画像デ
ータを読込むルーチン。

【００４９】S404は、S402で読込んだブロックデータの
属性により、当該ブロックの言語種属性を判定するルー
チン。このルーチンにより判定する属性が、Ｓ３１０、
Ｓ３１８、Ｓ３２０、Ｓ３２４、Ｓ３２６で設定した言
語種の属性である。

【００５０】S406は、S404で日本語と判断された場合、
文字認識部１０において日本語文字認識を行うルーチ
ン。

【００５１】S408は、S404で英語と判断された場合、文
字認識部１０において英語文字認識を行うルーチン。

【００５２】S410は、ＭＥＭ５３に格納されている当該
原稿の全文章ブロックに対しＳ４０２〜Ｓ４０８の文字
認識処理を行ったか否かを判定し、まだ処理ブロックが
残っている場合は制御をS402へ移行し、次の文章ブロッ
クを読み込む。

【００５３】以上述べてきたように、本発明によれば、
日英自動判別技術を核として、その制御のためにユーザ
ーフレンドリーなインターフェースを提供し、さらに未
知ブロックの処理に関しても、独自の後処理を施した文
字認識装置を構築できるので、日本語、英語の混在した
文書においても、認識精度と、使い勝手の向上を同時に
実現させることができ、文字認識装置の普及のため大き
く貢献することとなる。

【００５４】本実施の形態では日本語と英語の言語種判
別を例に挙げて説明したが、何もこれに限ることはな
く、他言語の判別を行っても良い。この場合、基本的に
は図3のS310日英判別部をそれに適する言語種判別ルー
チンに置き換えるだけで対応することができる。

【００５５】

【発明の効果】以上述べてきたように本発明によれば、
言語種自動判別技術を核として、その制御のためにユー
ザーフレンドリーなインターフェースを提供し、さらに
誤判定時の後処理も考慮した文字認識装置を構築できる
ので、異なる言語が混在した文書においても、認識精度
と、使い勝手の向上を同時に実現させることができ、文
字認識機能の普及のため大きく貢献することができる。

【００５６】以上述べたように本発明によれば、原稿に
含まれる複数の領域に分かれた文章を、領域ごとに言語
種を判別し、各領域の言語種に合わせた文字認識を行う
ので、複数言語が混在した文書の認識を高精度で高速に
行うことができる。

【図面の簡単な説明】

【図１】本発明に係る文字認識装置のプロセス概略図

【図２】領域識別結果の例示図

【図３】日英判別部６の処理の流れを表すフローチャー
ト

【図４】文字認識部１０の処理の流れを表すフローチャ
ート

【図５】本発明に係る装置の構成図

Claims

【特許請求の範囲】

【請求項１】入力画像から属性毎に領域を抽出し、前記領域毎に言語種を判定し、前記各領域の画像を、前記判定された言語種に応じて文
字認識することを特徴とする画像処理方法。
【請求項２】前記言語種の判定は、前記抽出した領域
の画像特性を解析して言語種を判定することを特徴とす
る請求項1に記載の画像処理方法。
【請求項３】前記言語種の判定は、前記抽出した領域
に対して設定されている言語種の属性を識別することに
より判定することを特徴とする請求項1に記載の画像処
理方法。
【請求項４】異なる言語に対応する複数の文字認識方
法を備え、前記判定された言語種に応じて当該言語種に
適した文字認識方法で文字認識を行うことを特徴とする
請求項1に記載の画像処理方法。
【請求項５】言語種自動判定の指示の有無を判定し、前記判定により、言語種自動判定の指示がなされている
と判定された場合に、前記抽出した領域の画像特性を解
析して言語種を判定することを特徴とする請求項1に記
載の画像処理方法。
【請求項６】前記言語種の判定を、特定の言語種に所
定の重み付けをして判定することを特徴とする請求項1
に記載の画像処理方法。
【請求項７】前記言語種の判定を、対象文字の多い言
語種を優先して選択するよう制御することを特徴とする
請求項1に記載の画像処理方法。
【請求項８】前記言語種の判定は、文章の属性を有す
る領域に対して選択的に行うことを特徴とする請求項1
に記載の画像処理方法。
【請求項９】ユーザによる言語種の指示を入力し、前記入力した画像情報を、当該入力された言語種に応じ
て文字認識することを特徴とする請求項1に記載の画像
処理方法。
【請求項１０】前記文字認識した結果に文書識別情報
を付加して記憶することを特徴とする請求項1に記載の
画像処理方法。
【請求項１１】前記文字認識した結果及び前記入力し
た画像情報を、文書識別情報を付加して記憶することを
特徴とする請求項1に記載の画像処理方法。
【請求項１２】前記文字認識した結果及び前記入力し
た画像情報を圧縮した情報を、文書識別情報を付加して
記憶することを特徴とする請求項1に記載の画像処理方
法。
【請求項１３】前記文字認識した結果及び前記抽出し
た領域のレイアウト情報を、文書識別情報を付加して記
憶することを特徴とする請求項1に記載の画像処理方
法。
【請求項１４】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識の結果
を出力することを特徴とする請求項10に記載の画像処理
方法。
【請求項１５】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び画像情報を出力することを特徴とする請求項１１
に記載の画像処理方法。
【請求項１６】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び画像情報を圧縮した情報を出力することを特徴と
する請求項12に記載の画像処理方法。
【請求項１７】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び領域のレイアウト情報を出力することを特徴とす
る請求項13に記載の画像処理方法。
【請求項１８】入力画像から属性毎に領域を抽出する
領域抽出手段と、前記領域毎に言語種を判定する言語種判定手段と、前記各領域の画像を、前記判定された言語種に応じて文
字認識する文字認識手段とを有することを特徴とする画
像処理装置。
【請求項１９】前記言語種判定手段は、前記抽出した
領域の画像特性を解析して言語種を判定することを特徴
とする請求項18に記載の画像処理装置。
【請求項２０】前記言語種判定手段は、前記抽出した
領域に対して設定されている言語種の属性を識別するこ
とにより判定することを特徴とする請求項18に記載の画
像処理装置。
【請求項２１】前記文字認識手段は、異なる言語に対
応する複数の文字認識手段を備え、前記言語種判定手段
により判定された言語種に応じて当該言語種に適した文
字認識手段で文字認識を行うことを特徴とする請求項18
に記載の画像処理装置。
【請求項２２】言語種自動判定の指示の有無に応じ
て、前記抽出した領域の画像特性を解析して言語種を判
定するか否かを切り替える言語種自動判定制御手段を有
することを特徴とする請求項18に記載の画像処理装置。
【請求項２３】前記言語種判定手段は、特定の言語種
に所定の重み付けをして言語種を判定することを特徴と
する請求項18に記載の画像処理装置。
【請求項２４】前記言語種判定手段は、対象文字の多
い言語種を優先して選択するよう制御することを特徴と
する請求項18に記載の画像処理装置。
【請求項２５】前記言語種判定手段は、文章の属性を
有する領域に対して選択的に行うことを特徴とする請求
項18に記載の画像処理装置。
【請求項２６】ユーザによる言語種の指示を入力する
言語種指示入力手段を有し、前記文字認識手段は、前記言語種指示入力手段により入
力された言語種に応じて画像情報を文字認識することを
特徴とする請求項18に記載の画像処理装置。
【請求項２７】前記文字認識した結果に文書識別情報
を付加して記憶する記憶手段を有することを特徴とする
請求項18に記載の画像処理装置。
【請求項２８】前記文字認識した結果及び前記入力し
た画像情報を、文書識別情報を付加して記憶する記憶手
段を有することを特徴とする請求項18に記載の画像処理
装置。
【請求項２９】前記文字認識した結果及び前記入力し
た画像情報を圧縮した情報を、文書識別情報を付加して
記憶する記憶手段を有することを特徴とする請求項18に
記載の画像処理装置。
【請求項３０】前記文字認識した結果及び前記抽出し
た領域のレイアウト情報を、文書識別情報を付加して記
憶する記憶手段を有することを特徴とする請求項18に記
載の画像処理装置。
【請求項３１】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識の結果
を出力する出力手段を有することを特徴とする請求項27
に記載の画像処理装置。
【請求項３２】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び画像情報を出力する出力手段を有することを特徴
とする請求項28に記載の画像処理装置。
【請求項３３】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び画像情報を圧縮した情報を出力する出力手段を有
することを特徴とする請求項29に記載の画像処理装置。
【請求項３４】文書識別情報の特定に応じて、当該文
書識別情報が付加されて記憶されている文字認識した結
果及び領域のレイアウト情報を出力する出力手段を有す
ることを特徴とする請求項30に記載の画像処理装置。
【請求項３５】入力画像から属性毎に領域を抽出する
工程の制御プログラムと、前記領域毎に言語種を判定する工程の制御プログラム
と、前記各領域の画像を、前記判定された言語種に応じて文
字認識する工程の制御プログラムとを記憶した、コンピ
ュータにより読取り可能な記憶媒体。