JP2004242075A

JP2004242075A - 画像処理装置および方法

Info

Publication number: JP2004242075A
Application number: JP2003029583A
Authority: JP
Inventors: Tomotoshi Kanatsu; 知俊金津; Keiko Nakanishi; 恵子中西
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-02-06
Filing date: 2003-02-06
Publication date: 2004-08-26

Abstract

【課題】文字切り処理に色抽出結果をフィードバックし、多値画像の文字食および文字領域情報の抽出を精度良く行う。
【解決手段】カラー画像より文字領域の二値画像を生成する文字領域画像作成手段と、前記文字領域の二値画像に対し文字矩形を作成する文字切り手段と、前記文字矩形の単色判定をおこなう単色判定手段と、非単色の文字矩形が複数種の単色文字集合であることを判定する手段と、上記判定矩形内を文字切りする詳細文字切り手段を有する画像処理装置。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は画像処理装置および方法に関するものである。
【０００２】
【従来の技術】
近年、スキャナの普及により文書の電子化が進んでいる。電子化された紙文書をフルカラービットマップ形式の状態では、Ａ４サイズの場合３００ｄｐｉで約２４Ｍバイトにもなる。このような大容量のデータは、メイルに添付して送信するのに適したサイズとはいえない。そこで、フルカラー画像を圧縮することが通常行われており、その圧縮方式としてＪＰＥＧが知られている。ＪＰＥＧは写真などの自然画像を圧縮するには非常に効果も高く、画質も良い。しかし一方で、文字部などの高周波部分をＪＰＥＧ圧縮すると、モスキートノイズと呼ばれる画像劣化が発生し、圧縮率も悪い。そこで、領域分割を行い、文字領域を抜いた下地部分に自然画向きの圧縮方式、単色あるいは小数色の文字領域部分には可逆圧縮方式を施す方法があった。
【０００３】
圧縮の際に、領域分割により分けられた文字領域部分は減色してＭＭＲやＺＩＰ圧縮を施すとともに色情報を保持し、文字部を抜いた下地部分はＪＰＥＧ圧縮を施す。展開時には下地画像の上に、文字領域の画像を色情報に従って描画することで、高画質と高圧縮率を両立する画像処理装置を提供している（例えば、特許文献１参照）。
【０００４】
上記のような装置においては、文字領域の色情報抽出精度が、画質と圧縮率双方の性能に大きく影響する。そのため、二値画像の文字切り処理を利用して文字色抽出の性能を向上させている（例えば、特許文献２参照）。
【０００５】
【特許文献１】
特開２００２−０７７６３１号公報
【特許文献２】
特開２００３−００８９０９号公報
【０００６】
【発明が解決しようとしている問題】
しかし、特殊なレイアウトや領域分割の誤り、あるいはノイズや傾きなどの影響で文字切り処理が正しく行われなかった領域に、異なる色の文字が混在する場合、色抽出が正しくおこなわれず、該領域が非文字と認識され画質劣化、圧縮率低下の原因となっていた。
【０００７】
たとえば、図１３のように画像が傾いており、かつ色の異なる２行が接近している場合、射影を用いた行の分割ができないため文字の切り出しに失敗し、個々の文字に対応する正しい色を抽出できない。その結果この領域は非文字の図形と判断されてしまう。
【０００８】
また、図１４のように、見出しなど大きな文字と小さな文字が接近している場合、領域分割はこれをひとつの文字列と看倣してしまうことがある。このときも文字切り失敗により、文字毎の単色抽出がおこなえず、非文字の図形とされてしまう。
【０００９】
なおこれらの例では、文字が複数種の単色ではなく、すべて同色からなる領域であれば、たとえ文字切りは失敗しても色抽出は自体は正しくおこなわれるので、文字領域内の処理に問題は生じない。そのうえ、文字切り処理自体を例外対応により複雑化していくことには限界があることをふまえると、既存の文字切り処理を用いたうえで、複数色の文字領域に関する例外事象に対処することがより望ましい。
【００１０】
本発明は上記従来技術の課題を解決するために成されたものであり、文字切り処理に色抽出の結果をフィードバックして、多値画像の文字色および文字領域情報の抽出を精度良く行う画像処理装置および方法を提供することを目的とする。
【００１１】
【課題を解決するための手段】
この発明は下記の構成を備えることにより上記課題を解決できるものである。
【００１２】
（１）スキャンされたカラー画像に対し、前記カラー画像より文字領域の二値画像を生成する文字領域画像作成手段と、前記文字領域の二値画像に対し文字矩形を作成する文字切り手段と、前記文字矩形の単色判定をおこなう単色判定手段と、非単色の文字矩形が複数種の単色文字集合であることを判定する手段と、上記判定矩形内を文字切りする詳細文字切り手段と、を有する画像処理装置。
【００１３】
（２）前記（１）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、非単色矩形およびそれに隣接する矩形を含めて複数種の単色文字集合であることを判定することを特徴とする画像処理装置。
【００１４】
（３）前記（２）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、行間位置が一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理装置。
【００１５】
（４）前記（２）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、色分布一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理装置。
【００１６】
（５）スキャンされたカラー画像に対し、前記カラー画像より文字領域の二値画像を生成する文字領域画像作成手段と、前記文字領域の二値画像に対し文字矩形を作成する文字切り手段と、前記文字矩形の単色判定をおこなう単色判定手段と、非単色の文字矩形が複数種の単色文字集合であることを判定する手段と、
上記判定矩形内を文字切りする詳細文字切り手段と、を有する画像処理方法。
【００１７】
（６）前記（５）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、非単色矩形およびそれに隣接する矩形を含めて複数種の単色文字集合であることを判定することを特徴とする画像処理方法。
【００１８】
（７）前記（６）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、行間位置が一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理方法。
【００１９】
（８）前記（６）記載の文字矩形が複数種の単色文字集合であることを判定する手段は、色分布一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理方法。
【００２０】
【発明の実施の形態】
図１に本発明の第一の実施例のブロック図を示す。
【００２１】
１００は多値画像より全面二値画像を作成する縮小・二値化部である。１０１は画像中の文字領域を検出して複数の文字領域座標（１０９）を作成する文字領域検出部である。１０２は上記文字領域座標と原画像より、複数の文字領域部分の画像（１０７）を作成する文字領域画像作成部である。１０３は上記文字領域画像の黒部分と原画像を参照しながら黒部分の代表色（１１０）を算出する文字色抽出部である。１０４は上記文字領域画像の黒画素に対応する原画像上の画素を、周辺の色で塗りつぶし下地多値画像（１０８）を作成する文字部塗りつぶし部である。１０５は複数の文字領域画像を圧縮して複数の圧縮コードＡ（１１１）を作成する文字領域画像圧縮部である。１０６は下地多値画像（１０８）を圧縮して圧縮コードＢ（１１２）を作成する下地画像圧縮部である。
【００２２】
次に、図１の構成を用いて、スキャナなどで入力した画像データを圧縮する際の処理を、図３のフローチャートを用いて説明する。
【００２３】
ステップＳ３０１では、縮小・二値化部１００にて、入力多値画像に対し二値化処理を行う。その内容を以下簡単に説明する。
【００２４】
ＲＧＢ多値画像に次式のような輝度変換を行って、輝度画像Ｊを作成する。
【００２５】
Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ
このとき、入力画像の解像度に応じて解像度変換をおこなってもよい。例えば原画像が３００ｄｐｉのとき、縦方向、横方向とも４画素ごとに上式の演算を行い、新しい画像Ｊを作成すると画像ＪはＹ８ビット７５ｄｐｉの画像となる。次に、輝度画像Ｊのヒストグラムを取り、二値化閾値Ｔを算出する。輝度画像ＪをＴにて二値化し、全面二値画像Ｋを作成する。なお、ヒストグラムより閾値Ｔを算出する際には公知の方法を用いるとする。
【００２６】
ステップＳ３０２では、文字領域検出部１０１にて、二値画像に対して領域分割処理をおこない、その結果から文字領域のみを抽出して文字領域座標１０９を作成する。
【００２７】
上記領域分割処理は、ＵＳＰ５６８０４７８“ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ”（Ｓｈｉｎ−ＹｗａｎＷａｎｇら／ＣａｎｏｎＫ．Ｋ．）などを用いる。簡単に説明すると、二値画像中の黒画素を輪郭線追跡して得られた塊を抽出し、その形状、大きさ、文字、絵や図、線、表、を分類するとともに、文字と判定される塊の集合から、文字列をなす文字領域を抽出する処理となる。
【００２８】
Ｓ３０１およびＳ３０２の処理例を示す。例えば図２に示すカラー原稿を入力し、間引いて輝度変換したもののヒストグラムを取ると図１２のようになる。このヒストグラムから平均、分散、などのデータを利用して閾値Ｔ＝１９９を算出し、二値化した画像は図６のようになる。図６を領域分割処理すると、図７に示すような１５個の文字領域が検出される。これらの座標データが図１の１０９に格納される。
【００２９】
ステップＳ３０３では、文字領域画像作成部１０２が、文字領域座標１０９に基き、それぞれ文字領域ごとに領域内の文字部を黒、背景を白とする二値画像を作成する。この二値画像は、二値化部で得た閾値で多値画像を全面二値化し、それらから切りとって作成してもよいし、文字領域内で多値画像から輝度ヒストグラムを取りなおし、領域毎に最適な二値化閾値を算出して得た二値画像を用いてもよい。
【００３０】
ステップＳ３０４では、文字色抽出部１０３が、各文字領域内の代表色を抽出する。ここで代表色数は１に限定してもよいし、領域内に複数色の文字が混在する場合には任意の最大代表色数を選ぶようにすればよい。以下に、ある文字領域に対する文字色抽出処理の詳細を、図４のフローチャートを用いて説明する。
【００３１】
Ｓ４０１では、文字領域の二値画像Ｒより、文字行および個別文字に対応する矩形を抽出する、いわゆる文字切り処理をおこなう。以下に文字切り処理の概要を説明する。
【００３２】
まず水平方向の射影と垂直方向の射影をとり、その分散の高いほうを文字列方向とし、その射影の切れ目で行を分割する。さらに個々の行内で先の射影方向と垂直の射影をとりなおし、その切れめより文字行を分割して文字矩形を作成する。以降の処理は文字切りされた矩形毎におこなわれる。図９に文字切り処理の例を示す。
【００３３】
Ｓ４０２では文字矩形内の二値画像を細線化した二値画像Ｐを作成する。これはスキャナ特性やプリント時のアンチエイリアシングにより乱された、文字周辺付近よりの色抽出を回避するためである。図１１に細線化の例を示す。
【００３４】
Ｓ４０３では、細線化された二値画像Ｐの各画素に対応する色情報を、元のカラー画像を参照して求め、ＲＧＢそれぞれヒストグラムを作成する。もちろん、ＲＧＢのかわりにＹＵＶなど他の色空間を用いてもよい。
【００３５】
Ｓ４０４では、文字矩形の単色判定を行う。具体的には、ＲＧＢ各ヒストグラムの分散を求め、あらかじめ定めた閾値と比較し、ＲＧＢいずれの分散値も閾値以内の場合は、単色と判定しＳ４０５に進む。閾値を超える分散値があった場合は複数色を所持するとしてＳ４０６へ進む。
【００３６】
Ｓ４０５では、ＲＧＢ各ヒストグラムから注目文字矩形の代表色を決定する。これは各ヒストグラムのピーク値からなる色をとってもよいし、平均値を用いてもよい。
【００３７】
図１０に、Ｓ４０３〜Ｓ４０５の処理例を示す。図１０（ａ）の「イ」は黒文字（ｂ）の「ン」は赤文字として、それぞれ代表色のＲＧＢ値を得るが、図１０（ｃ）の花模様はヒストグラムの分散が大きく、かつ文字切り不能なため、非文字と判定されている。
【００３８】
次に、Ｓ４０６では注目の複数色を有す矩形が、非文字であるか、あるいは複数の単色文字の集合であるかを判定する。
【００３９】
このＳ４０６内の判定処理について、図５のフローチャートを用いて説明する。なお、ここでは水平方向の文字列からなる文字領域の場合について説明するが、垂直方向の文字列の場合は９０度方向を入れ換えることで同様の処理が可能である。
【００４０】
Ｓ５０１では、入力矩形Ｃに対し、その高さを閾値Ｈと比較する。この閾値Ｈは複数の文字が縦に並んでいる可能性を持つ高さの最小値であり、画像解像度に応じてあらかじめ定める数値である。Ｈより小さい場合は、矩形Ｃを非文字と判断して終了する。Ｈより大きければＳ５０２に進む。
【００４１】
Ｓ５０２では、矩形Ｃ内のみを対象にＳ４０１と同様の文字切り処理をおこなう。ただし文字列方向についてはあらたに判定せず、処理中の領域と同じ方向とみなす。
【００４２】
Ｓ５０３では、Ｓ５０２の文字切り処理で得た行数が２未満、あるいは行高の閾値ｔ未満の高さの行を含む場合、矩形Ｃを非文字と判断して終了する。それ以外の場合はＳ５０４に進む。
【００４３】
Ｓ５０４では、Ｓ５０２の文字切り処理で得た文字行と文字矩形に関して、行毎の文字数の最大値ｐと最小値ｑを求める。ただしあらかじめ定めた幅および高さの範囲にない文字矩形は文字数としてカウントしない。ここで、ｑが０の場合矩形Ｃは非文字と判断して終了し、ｐ≧２かつｑ≧１の場合は、矩形Ｃを複数の単色文字集合と判断して終了する。それ以外の場合、すなわちｐ＝ｑ＝１の場合Ｓ５０５へ進む。
【００４４】
Ｓ５０５では、矩形Ｃの右に隣接する矩形に対し、Ｃと同等の行間の隙間を持つ矩形が連続する数Ｎをカウントする。具体的には、矩形Ｃの水平方向の射影の切れ目と、注目矩形の水平方向射影の切れ目を比較して、一致するものをカウントする。また、右隣の矩形と行間が一致した場合、さらにその右隣と比較する、というように行間が一致しなくなるまで範囲を広げてゆく。このグループ化によれば、文字切り処理回数を減らし効率を上げる効果があるが、数Ｎを文字としての確信度に用いてもよい。たとえば、Ｎ≧１でなければ矩形Ｃを非文字と判定して終了してもよい。
【００４５】
Ｓ５０６では、Ｓ５０２の文字切り結果は破棄し、Ｓ５０５で得た矩形集合に外接する領域内に対し、詳細文字切り処理をおこなう。そして、矩形Ｃおよび、その右に続くＮ−１個の矩形のすべてを含む領域が、複数種の単色文字の集合であると判定し終了する。
【００４６】
図１５はＳ５０６の詳細文字切り処理に至る例を説明する図である。Ｓ４０１で得られた文字切り矩形Ｃ１〜Ｃ５において、Ｃ１、Ｃ２はの単色一文字だが、Ｃ３〜Ｃ５は異なる色の複数文字を含む矩形になっている。図４処理ではＣ１、Ｃ２を単色と判定した後、Ｃ３は単色ではないためＳ４０６の処理にはいる。図５に移り、Ｓ５０１〜Ｓ５０４を経てＳ５０５により、同一行間を持つ右側の矩形Ｃ４とＣ５を含めた領域で、Ｓ５０６詳細文字切りが行われている。最終的な文字矩形はすべて単色となっており、文字切りの精度が向上されるのがわかる。
【００４７】
図４に戻り、Ｓ４０６で非文字と判定された場合はＳ４０７に進み、複数種の単色文字と判定された場合はＳ４０８に進む。
【００４８】
Ｓ４０７では、二値画像Ｒにおいて、非文字と判定された該文字矩形部分内の黒画素をすべて消去する。これは、該当部分を二値画像から消去することで、後の穴うめ処理の対象外とし、非文字の複雑な色情報を下地側に残して保存するための処理である。消去後、矩形は破棄してＳ４０９に進む。
【００４９】
Ｓ４０８では、矩形Ｃを破棄するとともに、その内側に存在する文字矩形をそれぞれを図４処理で未処理の矩形として追加する。これらはＳ５０２あるいはＳ５０６で作成された文字矩形群に相当し、なお、文字矩形群がＳ５０６で作成された場合は、それらのもとになったＮ−１個の矩形もＣ同様破棄する。そしてＳ４０９に進む。
【００５０】
Ｓ４０９にて、未処理の文字矩形が残っていれば、Ｓ４０３に戻って繰り返す。なければＳ４１０に進む。
【００５１】
Ｓ４１０では、各文字矩形に対応して文字数ぶんの色の集合が作成されているので、これに対して減色処理を施し、合計ｎ色以下にまとめる。本処理はスキャナ処理などの影響で生じた色のばらつきをまとめる為の処理である。具体的減色方法としては、ヒストグラムをとって閾値以上のピークを１個以上抽出し、それらの色は近接ピークと統合する、などの方法があるが、他の種々のクラスタリング手法を用いてもよい。またｎの値は任意であるが、圧縮率に影響するので、たかだかｎ＝４程度を妥当とする。
【００５２】
図３に戻り、ステップＳ３０５では，文字部塗りつぶし部１０４が、文字領域画像内の黒画素に対応する原画像上の各画素を、周辺の色で塗りつぶし下地多値画像（１０８）を作成する。本処理の一例を図８を用いて説明する。
【００５３】
グラデーション画像を背景とし、「イン」という青色の文字が中央付近に描かれた、図８（ａ）のような画像を原画像とする。この原画像から（ｂ）のような１つの文字領域の二値画像を得たとする。本実施の形態では、例えば全画像を３２×３２の領域（以下、パーツ）に分割し、パーツごとの処理をおこなう。図８（ｃ）にパーツ分けの様子を示す。この図では簡単に説明するため、４×３のパーツに分割した状態を示している。各領域の左上の数字はパーツ番号を示す。このとき、パーツ００〜０３，１０，１３，２０〜２３内には文字がないので、処理は行われない。パーツ１１に対しては、対応する二値画像中の画素より、各パーツ内の白部分に対応するカラー画像のＲＧＢ値（またはＹＵＶ等でも良い）の平均値ａｖｅ＿ｃｏｌｏｒ１１を算出する。そして、原画像上で、二値画像の黒部分にあたる画素このａｖｅ＿ｃｏｌｏｒ１１で塗りつぶす。パーツ２２に対しても同様である。
【００５４】
このようにすれば、文字の存在する部分の周りの画素の平均値をもって、文字の存在する画素を塗りつぶすことができ、見掛け上自然に文字のみが取り除かれた、下地画像１０８が生成される。
【００５５】
図３に戻り、ステップＳ３０６では、文字領域画像圧縮部１０７にて、文字領域画像にあたる部分二値画像の集合１０８を圧縮して圧縮コードＡを作成する。この際、単色の文字領域はＭＭＲ圧縮を施すが、Ｓ３０４にて複数の代表色が抽出された文字領域は、領域内の色情報を保存できる最低必要ｂｉｔ数に変換し、ＺＩＰ圧縮をするか、あるいは同一領域を色別に異なる二値画像に分解する形で、それぞれをＭＭＲ圧縮を施すようにしてもよい。
【００５６】
ステップＳ３０７では、下地画像圧縮処理部１０６にて、下地画像１０８に対しＪＰＥＧ圧縮を行い圧縮コードＢを作成する。ＪＰＥＧ圧縮処理は一般的なものを用いる。簡単に説明すると、画像をＹＵＶの各成分に分割し、それぞれを小領域（たとえば８ｘ８ｐｉｘｅｌ）ごとにＤＣＴ変換し、得られた変換係数を量子化し、符号化することで圧縮コードを得る。なお、文字の取り去られた下地は一般に高い解像度を必要としないため、ＪＰＥＧ圧縮をおこなう前に解像度変換をおこなってもよい。
【００５７】
最後に、ステップＳ３０８では、文字領域座標（１０９）、文字領域色情報（１１０）、圧縮コードＣ（１１１）、圧縮コードＤ（１１２）の４つをまとめて最終的な画像データとして出力する。また、これらはＰＤＦやＸＭＬのように一般的に共有されるフォーマットで出力してもよい。
【００５８】
以上説明したように、本発明によれば、複数種の文字色が混在する文字領域において、文字切り処理が失敗した場合でも、文字色抽出の結果を利用して失敗を検出し、該当領域に詳細文字切り処理をおこなって、正しい文字切り結果を得ることができるので、多値画像の文字色および文字領域情報抽出の精度を向上できる。
【００５９】
この効果により、上記実施例のように、色情報付きの二値画像の文字領域と下地画像を分離し、双方を異なる圧縮方法で圧縮して、高画質かつ高圧縮のデータを生成する処理においては、ノイズやレイアウトの例外などに対して性能の劣化しない処理が可能になる。
【００６０】
【第二の実施例】
本発明第一の実施例では、複数色を有す文字矩形が、非文字であるか、あるいは複数種の単色文字の集合であるかを判定する処理の過程において、注目矩形の右側にあり、かつ射影を利用して求める行間位置が一致することを条件に、詳細文字切りの範囲を拡大したが、行間の一致ではなく、矩形内のＲＧＢヒストグラムの分布の一致を利用して、詳細文字切りの範囲を拡大するようにしてもよい。
【００６１】
特に、接近した色の異なる文字行があり、その一部がノイズの影響で二値画像上で接触している場合など、射影より行間を求めることが困難な場合でも、隣接する矩形で詳細文字切りが必要であるもののグループに含めて正しい文字切り結果を得ることができ、文字色および文字領域情報抽出の精度を向上させることができる。
【００６２】
このように、本発明第二の実施例においても、複数種の文字色が混在する文字領域において、文字切り処理が失敗した場合、文字色抽出の結果を利用して失敗を検出し、該当領域に詳細文字切り処理をおこなって正しい文字切り結果を得ることができるので、多値画像の文字色および文字領域情報抽出の精度向上が可能になる。
【００６３】
【発明の効果】
本発明によれば、多値画像の文字色および文字領域情報の抽出を精度良く行うことができる。
【図面の簡単な説明】
【図１】本発明の第１の実施例に係る圧縮装置のブロック図である。
【図２】本発明の第１の実施例の文字領域検出処理を説明するための原画像の例を示す図である。
【図３】本発明の第１の実施例のスキャン画像の圧縮処理を説明するためのフローチャートである。
【図４】本発明の第１の実施例の文字色抽出部の処理を説明するためのフローチャートである。
【図５】本発明の第１の実施例の文字判定部の処理を説明するためのフローチャートである。
【図６】本発明の第１の実施例の文字領域検出処理を説明するための二値画像の例を示す図である。
【図７】本発明の第１の実施例の文字領域検出処理を説明するための文字領域の例を示す図である。
【図８】本発明の第１の実施例の文字部塗りつぶし処理を説明するための図である。
【図９】本発明の第１の実施例の文字切り処理を説明するための図である。
【図１０】本発明の第１の実施例の文字色抽出処理を説明するための図である。
【図１１】本発明の第１の実施例の細線化処理を説明するための図である。
【図１２】本発明の第１の実施例の文字領域検出処理を説明するためのヒストグラムを示す図である。
【図１３】傾斜した、複数色を有する文字領域に対する文字切り誤りの例である。
【図１４】大小、複数色の混在する文字領域に対する文字切り誤りの例である。
【図１５】本発明の第１の実施例の詳細文字切り処理の例である。゜
【符号の説明】
１００縮小・二値化部
１０１文字領域検出部
１０２文字領域画像作成部
１０３文字色抽出部
１０４文字部塗りつぶし部
１０５文字領域画像圧縮部
１０６下地画像圧縮部
１０７画像
１０８下地多値画像
１０９文字領域座標
１１０文字領域代表色
１１１圧縮コードＡ
１１２圧縮コードＢ

Claims

スキャンされたカラー画像に対し、
前記カラー画像より文字領域の二値画像を生成する文字領域画像作成手段と、
前記文字領域の二値画像に対し文字矩形を作成する文字切り手段と、
前記文字矩形の単色判定をおこなう単色判定手段と、
非単色の文字矩形が複数種の単色文字集合であることを判定する手段と、
上記判定矩形内を文字切りする詳細文字切り手段と、
を有する画像処理装置。
前記請求項１記載の文字矩形が複数種の単色文字集合であることを判定する手段は、非単色矩形およびそれに隣接する矩形を含めて複数種の単色文字集合であることを判定することを特徴とする画像処理装置。
前記請求項２記載の文字矩形が複数種の単色文字集合であることを判定する手段は、行間位置が一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理装置。
前記請求項２記載の文字矩形が複数種の単色文字集合であることを判定する手段は、色分布一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理装置。
スキャンされたカラー画像に対し、
前記カラー画像より文字領域の二値画像を生成する文字領域画像作成手段と、
前記文字領域の二値画像に対し文字矩形を作成する文字切り手段と、
前記文字矩形の単色判定をおこなう単色判定手段と、
非単色の文字矩形が複数種の単色文字集合であることを判定する手段と、
上記判定矩形内を文字切りする詳細文字切り手段と、
を有する画像処理方法。
前記請求項５記載の文字矩形が複数種の単色文字集合であることを判定する手段は、非単色矩形およびそれに隣接する矩形を含めて複数種の単色文字集合であることを判定することを特徴とする画像処理方法。
前記請求項６記載の文字矩形が複数種の単色文字集合であることを判定する手段は、行間位置が一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理方法。
前記請求項６記載の文字矩形が複数種の単色文字集合であることを判定する手段は、色分布一致する隣接複数矩形の総領域が複数種の単色文字集合であると判定することを特徴とする画像処理方法。