JPH10232926A

JPH10232926A - 画像処理装置及びその方法

Info

Publication number: JPH10232926A
Application number: JP9335995A
Authority: JP
Inventors: Takeshi Makita; 剛蒔田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-20
Filing date: 1997-12-05
Publication date: 1998-09-02

Abstract

(57)【要約】【課題】入力画像内の対象物濃度と背景濃度との間に
適切な量子化閾値を設定して画像処理を行なう画像処理
装置及びその方法を提供する。【解決手段】多値画像を量子化して画像処理を行う際
に、輝度頻度累計部１０３にて多値画像の輝度頻度を算
出し、算出された輝度頻度に基づき、量子化閾値算出部
１０４にて量子化の量子化閾値を特定し、特定された量
子化閾値と輝度頻度とに基づき、量子化部１０５にて多
値画像の量子化に用いる代表値を算出し、算出された代
表値を用いて多値画像を量子化する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、多値画像
の量子化閾値を決定して量子化を行なう画像処理装置及
びその方法に関するものである。

【０００２】

【従来の技術】近年の画像処理技術の発展はめざまし
く、フルカラー画像等の多値画像の処理や、多値画像内
の文字認識処理等が可能な画像処理装置も普及してきて
いる。このような画像処理技術において、多値画像の２
値化処理は不可欠な技術となっている。

【０００３】従来の２値化手法としては、あらかじめ設
定してある固定閾値による単純２値化法をはじめとし
て、ある閾値でヒストグラムを２クラスに分割した場合
のクラス間分散が最大になるときの閾値を２値化閾値と
する大津法（「判別および最小２乗規準に基づく自動し
きい値選定法」（大津）、電子通信学会論文誌、Ｖｏ
ｌ．Ｊ６３−Ｄ，Ｎｏ．４．ｐｐ．３４９−３５６，１
９８０）、あるいは、階調を持つ画像に対して、局所的
濃度に応じて閾値を設定する２値化法等がある。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の画像処理装置における２値化方法では、以下の
ような問題がある。

【０００５】すなわち、固定閾値による単純２値化法で
は、画像内の対象物濃度と背景濃度の間に適切な閾値を
設定することが難しく、その結果、画像一面が黒く潰れ
てしまったり、逆に白くなってしまう。また、大津法で
は、２クラスの分布が極端に異なる場合においては、大
さい方のクラスに閾値が寄ってしまうという性質があ
り、ノイズの多い２値画像が生成されてしまう。さら
に、局所的濃度に応じて閾値を設定する２値化法では、
画像を局所に分割しているため、ブロック歪が発生しや
すい。また、仮に最適な閾値を特定できても、２値化に
よって原画の下地や文字等のグレイスケール惜報が失わ
れてしまう等の問題がある。

【０００６】本発明は、上記課題を解決するためにされ
たもので、入力画像内の対象物濃度と背景濃度との間に
適切な量子化閾値を設定して画像処理を行なう画像処理
装置及びその方法を提供することを目的とする。

【０００７】また、上記課題を解決するために、本発明
は最適な量子化閾値を特定し、原画の下地や文字等のグ
レースケール情報を失うことなく領域分離を行える画像
処理装置及びその方法を提供することを目的とする。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、多値画像を量子化して画像処理を行う画
像処理装置において、前記多値画像の輝度頻度を算出す
る第１の算出手段と、前記算出された輝度頻度に基づ
き、量子化の量子化閾値を特定する特定手段と、前記特
定された量子化閾値と前記輝度頻度とに基づき、前記多
値画像の量子化に用いる代表値を算出する第２の算出手
段と、前記算出された代表値を用いて前記多値画像を量
子化する量子化手段とを有することを特徴とする。

【０００９】また、上記目的を達成するために、本発明
は、多値画像を量子化して画像処理を行う画像処理方法
において、前記多値画像の輝度頻度を算出し、前記算出
された輝度頻度に基づき、量子化の量子化閾値を特定
し、前記特定された量子化閾値と前記輝度頻度とに基づ
き、前記多値画像の量子化に用いる代表値を算出し、前
記算出された代表値を用いて前記多値画像を量子化する
ことを特徴とする。

【００１０】

【発明の実施の形態】以下、添付図面を参照して、本発
明に係る実施の形態を詳細に説明する。

【００１１】図１は、本発明の実施の形態に係る量子化
処理を実行する画像処理システムの構成を示すブロック
図である。同図において、１は、文字認識処理を行なう
画像処理装置、２は画像を入力するための、例えば、ス
キャナ等の画像入力装置、３は、処理後の画像を表示す
る画像表示装置である。

【００１２】上記の画像処理装置１において、１０１は
画像入力装置２とのインターフェースとなる入力部、１
０２は処理中のデータを記憶するメモリ等の記憶部、１
０３は入力画像の輝度頻度（ヒストグラム）を累計する
輝度頻度累計部ある。また、１０４は入力画像の量子化
閾値を算出する量子化閾値算出部、１０５は量子化閾値
算出部１０４において算出された閾値を用いて量子化画
像を作成する量子化部である。

【００１３】１０６は画像を属性毎の領域に分離する領
域分離部、１０７はこの領域分離により文字領域として
抽出された領域に対する文字認識処理を行なう文字認識
部、１０８は文字領域以外として分離された領域に対す
る各種画像処理を行なう画像処理部、１０９は画像表示
装置３とのインターフェースとなる出力部である。な
お、これらの各構成要素は、本装置１全体を制御するＣ
ＰＵ、そのＣＰＵのプログラム等を格納しているＲＯ
Ｍ、ＣＰＵが処理を実行時に使用するワークエリアやテ
ーブル等が定義されているＲＡＭで構成される不図示の
制御部により統括的に制御されている。

【００１４】以下、上述した構成をとる本実施の形態に
係る画像処理装置において実行されるＯＣＲ処理につい
て説明する。

【００１５】図２は、本実施の形態に係る量子化閾値決
定方法を利用した像域分離ＯＣＲ処理を示すフローチャ
ートである。

【００１６】まず、ステップＳ２０１では、スキャナな
どの画像入力装置２より、入力部１０１が画像データを
入力し、記憶部１０２に格納する。ここでの画像データ
の入力は、８ビットの多値画像データとして行なわれ
る。続いて、ステップＳ２０２においては、ステップＳ
２０１で入力された多値画像に対して、量子化閾値算出
部１０４が後述する像域分離に最適な量子化閾値を決定
して、この量子化閾値により量子化部１０５が量子化画
像を生成する。そして、ステップＳ２０３では、領域分
離部１０６がステップＳ２０２で生成された量子化画像
の像域分離を行ない、その属性を付加した領域データを
画像処理部１０８へ出力する。続くステップＳ２０４で
は、ステップＳ２０３において分離された領域データに
ついて画像処理部１０８が「テキスト」と指定された領
域を２値化し、その後、２値画像から切り出す。そし
て、この２値画像に対して文字認識部１０７がＯＣＲ処
理を行なって、認識された文字コードを出力する。

【００１７】＜量子化処理の説明＞本実施の形態におけ
る量子化処理について説明する。

【００１８】図３は、本実施の形態における量子化処理
の手順を示すフローチャートである。同図において、ま
ず、ステップＳ３０１で、８ビットの多値画像を、画像
処理装置１内の記憶部１０２から不図示のメモリ等に入
力し、ステップＳ３０２で処理ブロックの単位（６４×
６４画素）ごとに抽出する。なお、この多値画像は、ス
キャナなどの画像入力装置２により読み込まれ、あらか
じめ記憶部１０２に格納されているものとする。そし
て、ステップＳ３０３において、輝度頻度累計部１０３
が処理ブロックごとのヒストグラムを算出する。ここで
は、処理ブロック全画素を用い、８ビット、すなわち
「０」から「２５５」までの各デジタル値に対する頻度
を計算する。これにより、例えば、図６に示すようなヒ
ストグラムが得られる。

【００１９】次に、ステップＳ３０４において、パラメ
ータＳＴＡＲＴ，ＥＮＤに、それぞれ「０」，「２５
５」とセットする。これらのパラメータＳＴＡＥＴ，Ｅ
ＮＤは、それぞれ、後段のステップＳ３０５やステップ
Ｓ３０６で求める輝度値の統計量の始点及び終点に対応
する。

【００２０】ステップＳ３０５では、ＳＴＡＲＴからＥ
ＮＤまでのデジタル値に対応する画素の平均値ＡＶを算
出する。例えば、ＳＴＡＲＴ＝０，ＥＮＤ＝２５５であ
れば、「０」から「２５５」の値を持つ画素（この場
合、全画素）の平均値ＡＶを算出し、ＳＴＡＲＴ＝０，
ＥＮＤ＝１７７であれば、「０」から「１７７」の値を
持つ画素の平均値ＡＶを算出する。

【００２１】ステップＳ３０６では、ＳＴＡＲＴからＥ
ＮＤまでの輝度値に対応する画素のスキュー値Ｓｋを算
出する。ここで、スキュー値とは、ヒストグラム分布の
偏りを示す統計量である。このスキュー算出には、以下
に示す式（１）を用いる。

【００２２】Ｓｋ＝（Σ（Ｘｉ−ＡＶ）＾３）／Ｄ …（１）ここで、“＾”は、べき乗を意味し、Ｘｉは、画素の輝
度値である。また、Ｄは画像全体の分散値であり、以下
の式（２）により算出される。

【００２３】Ｄ＝Σ（Ｘｉ−ＡＶ）＾２ …（２）上記の式（１）において、スキュー値は、各画素の輝度
値とその平均値との差分を３乗することにより算出され
るが、奇数乗であれば３乗に限定されるものではない。

【００２４】続くステップＳ３０７，Ｓ３０８では、ヒ
ストグラムの偏りの方向を判断する。まず、ステップＳ
３０７では、以下の式（３）により、ヒストグラムの偏
りの方向を判断する。これは、ヒストグラムの偏りが、
平均値ＡＶよりも小さい値の範囲にあるか否かの判断と
なる。

【００２５】Ｓｋ＜−１．０ …（３）ステップＳ３０７において、算出したスキュー値につい
て、式（３）が「真」ならば、ステップ３１２へすす
み、また、式（３）が「偽」ならば、ステップＳ３０８
へ進む。このステップＳ３１２では、ＳＴＡＲＴは変化
させず、ＥＮＤに平均値ＡＶをセットする。そして、ス
テップＳ３０５に戻り、再び、ＳＴＡＲＴ値からＥＮＤ
値までの平均値ＡＶを算出する。

【００２６】一方、ステップＳ３０８では、以下に示す
式（４）により、ヒストグラムの偏り方向を判断する。
これは、ヒストグラムの偏りが、平均値ＡＶより大きい
値の範囲にあるか否かの判断となる。

【００２７】Ｓｋ＞１．０ …（４）ステップＳ３０８において、求めたスキュー値に関して
式（４）が「真」ならば、処理をステップＳ３１３へ進
め、また、それが「偽」ならば、ステップＳ３０９へ進
む。ステップＳ３１３では、ＳＴＡＲＴに平均値ＡＶを
セットし、ＥＮＤは変化させない。そして、ステップＳ
３０５に戻り、再び、ＳＴＡＲＴ値からＥＮＤ値までの
平均値ＡＶを算出する。

【００２８】一方、ステップＳ３０９では、ステップＳ
３０７，Ｓ３０８における条件が共に「偽」である場合
の平均値ＡＶを、量子化閾値ＴＨとして設定する。そし
て、ステップＳ３１０で、量子化閾値ＴＨを用いた量子
化処理を行なう。

【００２９】そして、ステップＳ３１１では、入力画像
の最後の処理ブロック（６４×６４画素）かどうかの判
断をし、最後の処理ブロックであるならば、処理を終了
し、未処理ブロックがあればステップＳ３０２に戻る。

【００３０】この量子化の様子を、図４を参照して説明
する。

【００３１】上記のステップＳ３０３で算出されたヒス
トグラム中、ステップＳ３０９にて算出された量子化閾
値ＴＨの値よりも小さい領域をＢＢ、これとは逆に、Ｔ
Ｈよりも大きい領域をＷＢとする。通常は、ＢＢ領域の
代表値を０、ＷＢ領域の代表値を１に設定して２値化を
行なう。但し、この場合、グレイ情報は失われてしま
う。

【００３２】そこで、本実施の形態では、ＢＢ領域の平
均値ＢＢＶと、ＷＢ領域の平均値ＷＢＶを算出し、これ
ら２つの平均値ＢＢＶ，ＷＢＶによって画像の量子化を
行なう。

【００３３】この結果、図５の５０１に示すように、画
像領域の多値情報が、わずか２種類の多値情報で表現さ
れることになる。なお、量子化後のデータは、図５の５
０２に示すように、ＢＢＶで表わされる領域を０にて置
き換え、同様にＷＢＶで表わされる領域を１にて置き換
えたビットマップに、ＢＢＶ，ＷＢＶによるヘッダー情
報５０３を添付するようにしてもよい。また、ＢＢＶ，
ＷＢＶは、平均値に限定されるものではなく、ＢＢ領域
とＷＢ領域の各々の中央値としてもよい。

【００３４】以上説明したように、本実施の形態におけ
る量子化処理が行なわれるが、式（３），（４）で示し
た範囲は、これに限定されるものではない。

【００３５】以下、具体的な画像の例を参照して、本実
施の形態に係る量子化処理について、更に詳細に説明す
る。図６に示すヒストグラムの例を用いて、本実施の形
態における量子化閾値ＴＨの決定処理について説明す
る。

【００３６】図６は、ある画像（８ビット入力）のヒス
トグラムを示したものである。同図において、横軸は、
その左端が「０」、すなわち黒、右端が「２５５」、す
なわち白を表わす輝度のデジタル値であり、縦軸は、各
デジタル値の頻度を表わしている。

【００３７】図７は、図６に示すようなヒストグラムを
有する画像に対して、図３に示す量子化処理において、
ステップ３０５とステップＳ３０６での処理の際の、各
パラメータの値の変化を示す図である。なお、図７の各
パラメータ値は、図３のステップＳ３０５及びステップ
Ｓ３０６を通過する回数によって、それぞれ示されてい
る。

【００３８】まず、ステップＳ３０５，Ｓ３０６を通過
する１回目の処理では、ＳＴＡＲＴ＝０，ＥＮＤ＝２５
５で平均値ＡＶ，スキュー値Ｓｋを計算し、それぞれが
「１７７」，「−７８．９」という値を得る。この場
合、スキュー値Ｓｋが［−１．０」未満であるため、図
３のステップＳ３１２において、ＳＴＡＲＴ＝０，ＥＮ
Ｄ＝１７７が設定される。続いて、２回目の処理では、
ＳＴＡＲＴ＝０，ＥＮＤ＝１７７における平均値ＡＶ、
スキュー値Ｓｋを計算し、それぞれが「９１」，「−
８．６」という値を得る。これについても、そのスキュ
ー値Ｓｋが「−１．０」未満であるため、図３のステッ
プＳ３１２において、ＳＴＡＲＴ＝０，ＥＮＤ＝９１が
設定される。

【００３９】３回目の処理では、ＳＴＡＲＴ＝０，ＥＮ
Ｄ＝９１における平均値ＡＶ、スキュー値Ｓｋを計算
し、それぞれが「４３」，「９．６」という値を得る。
この場合はスキュー値Ｓｋが「１．０」を超えるため、
図３のステップＳ３１３において、ＳＴＡＲＴ＝４３，
ＥＮＤ＝９１が設定される。続く４回目の処理では、Ｓ
ＴＡＲＴ＝４３，ＥＮＤ＝９１における平均値ＡＶ、ス
キュー値Ｓｋを計算し、それぞれが「７２」，「−７．
０」という値を得る。この値についてもスキュー値Ｓｋ
が「−１．０」未満であるため、図３のステップＳ３１
２において、ＳＴＡＲＴ＝４３，ＥＮＤ＝７２が設定さ
れる。

【００４０】５回目の処理では、ＳＴＡＲＴ＝４３，Ｅ
ＮＤ＝７２における平均値ＡＶ、スキュー値Ｓｋを計算
し、それぞれが「５８」，「−２．２」という値を得
る。これもそのスキュー値Ｓｋが「−１．０」未満であ
るため、図３のステップＳ３１２において、ＳＴＡＲＴ
＝４３，ＥＮＤ＝５８が設定される。そして、６回目の
処理ではＳＴＡＲＴ＝４３，ＥＮＤ＝５８における平均
値ＡＶ、スキュー値Ｓｋを計算し、それぞれが「５
０」，「−０．４」という値を得る。

【００４１】ここで、スキューとＳｋが「−１．０」以
上、かつ「１．０」以下となり、図３のステップＳ３０
７，Ｓ３０８の条件を満たさない（そこでの判定がＮ
Ｏ）ことになるので、処理をステップＳ３０９へ進め
て、量子化閾値ＴＨとして「５０」が設定される。そし
て、続くステップＳ３１０において、この量子化閾値Ｔ
Ｈを用いた量子化処理が行なわれ、量子化された画像
は、画像処理装置ｌ内の記憶部１０２に格納される。

【００４２】この量子化は、量子化閾値ＴＨよりも小さ
な領域頻度の平均値を代表値１とし、量子化閾値ＴＨよ
りも大さな領域頻度の平均値を代表値２とし、この２つ
の値で量子化を行なうものである。ただし、代表値とし
ては、量子化閾値ＴＨよりも小さな領域頻度と、量子化
閾値ＴＨよりも大きな領域頻度の特徴量を表わすものな
らば何でもよく、例えば、平均値の代わりに中央値であ
っても構わない。

【００４３】＜像域分離処理の説明＞以下、本量子化結
果を用いた像域分離処理（図２のステップＳ２０３）を
図８に示すフローチャートを参照して詳細に説明する。

【００４４】まず、図８のステップＳ８０１において、
量子化画像を入力して、それを記憶部１０２に格納す
る。ステップＳ８０２では、ｍ×ｎ画素が１画素となる
ように入力画像を間引き、像域分離用画像を生成する。
このとき、ｍ×ｎ画素中に１つでも黒画素が存在してい
れば、この画素を黒の１画素とする。そして、ステップ
Ｓ８０３では、像域分離用画像の全画素について、黒画
素が、上下、左右、斜め方向に所定数、連続している領
域を一つの領域として、領域分割を行なう。その際、領
域の検出順に番号を付すことにより、各領域に対するラ
ベル付けを行なう。

【００４５】次に、ステップＳ８０４において、各領域
の幅、高さ、面積領域内の黒画素密度により領域を分類
し、属性のラベル付けを行なう。領域の属性には、例え
ば、「テーブル」、「外枠領域」、「テキスト」等があ
る。そして、ステップＳ８０５では、「テキスト」とラ
ベル付けされた全ての領域の幅と高さの平均を算出し、
得られた平均幅が平均高さより大きい場合には、処理画
像は横書きであるとみなし、逆の場合は縦下記とみなす
ことにより、文字組を判断する。同時に、横書きならば
平均高さを、横書きならば平均幅をもって、一文字の文
字サイズとする。

【００４６】また、像域分離用画像上の縦方向（横書き
のとき）、または横方向（縦書きのとき）の「テキス
ト」領域全てのヒストグラムから、文章の段組み、行間
隔が検出される。ステップＳ８０６では、「テキスト」
領域において、文字サイズが大きい領域については「タ
イトル」とする。

【００４７】ところが、従来の２値化画像による領域判
定では、タイトルと判別された領域の背景にタイトル強
調を意味する帯が存在していても背景情報が失われてい
るため、その存在を理解することは出来ない。同様の理
由で、タイトル文字自身に色付けされていても単に「黒
文字」として判定されてしまう。しかしながら、タイト
ルの背景に帯を入れたり、タイトル文字に色を付けるの
はドキュメント作成者がそのタイトルを他のタイトルと
差別化したい意図の現れにもかかわらず、全て同じ「タ
イトル」と判定してしまうが従来法の弱点であった。

【００４８】本量子化画像を領域分離用画像に用いる最
大の利点は正にこの点の改善にある。例えば原画中のタ
イトルが図９の９０１のように、タイトル文字が８ビッ
ト表現で２００のグレー文字、背景が６４のグレー帯で
表現されていた場合、従来の２値化画像では、タイトル
文字色と背景色の有無に関わらず図９の９０２のように
２値化されるため文字色ならびに背景色情報が２値化の
時点で欠落してしまう。

【００４９】一方、本量子化では、図９の９０３のよう
に、例えば６４×６４画素ブロック単位の左ブロックで
算出された量子化閾値ＴＨの値よりも小さい領域、この
場合“ＴＩＴＬＥ”という文字の“Ｔ”文字領域の画素
平均値ＢＢＶは６４と算出されてる。同様に同ブロック
中、量子化閾値ＴＨの値よりも大きい領域の平均値、こ
の場合背景色に相当する領域の平均値ＷＢＶは２００と
算出され、このＢＢＶおよぴＷＢＶを通常の２値化画像
に加え６４×６４画素ブロック単位ごと添付するため、
タイトル文字色と背景色がかなり判別出来るようになっ
ている。

【００５０】本実施形態では、タイトルと判定された領
域に対し、図１０に示す処理を施す。まず、ステップＳ
１００１では、上述のように量子化された画像情報のみ
使用して領域判定を行なう。ここで「タイトル」と判定
された領域に対しステップＳ１００２の処理を実行す
る。尚、図中の記号ＷＢＶ，ＢＢＶ，ＰＷ，ＰＢは以下
を表わしている。

【００５１】ＷＢＶ：ブロック単位で算出された量子化
閾値ＴＨの値よりも大きい領域の平均値ＢＢＶ：ブロック単位で算出された量子化閾値ＴＨの値
よりも小さい領域の平均値ＰＷ：原画の下地領域の代表値ＰＢ：原画の文字領域の代表値ＷＢＶとＢＢＶは本量子化の際、例えば６４×６４画素
寮ブロック単位ごと２値化情報に加え添付されている。
一方、ＰＷは原画の下地の代表値で、スキャナで読み込
んだ際の紙の白色濃度を意味する。ＰＷはスキャナの機
器間差や、紙種によって多少ばらつきがあるため前もっ
て何種類かのサンプルを基にセッティングしておく。Ｐ
Ｂは原画の文字領域の代表値で、スキャナで読み込んだ
際の紙上に印刷された文字濃度を意味する。ＰＢもＰＷ
同様スキャナの機器間差や、紙種によって多少ばらつき
があるため前もって何種類かのサンプルを基にセッティ
ングしておく。

【００５２】先ず、ＷＢＶとＰＷを比較し、ＷＢＶがＰ
Ｗより小さい場合、このブロックの背景色は紙に下地よ
りも濃い背景色が存在すると推測する。次にＢＢＶとＰ
Ｂとを比較し、ＢＢＶがＰＢよりも大きい場合、このブ
ロックに印刷された文字濃度は通常の黒文字濃度よりも
薄い色文字と推測する。従って、ＷＢＶがＰＷより小さ
い、もしくはＷＢＢがＰＢよりも大きい場合、この領域
のタイトルにはタイトルを強調する背景色か文字色が存
在すると判定し、ステップＳ１００３に分岐し、それ以
外はステップＳ１００４に進む。これに対してステップ
Ｓ１００３では「強調タイトル」としてラベル付けを行
い、ステップＳ１００４では「通常タイトル」としてラ
ベル付けを行う。

【００５３】そして、ステップＳ８０７では、何の関連
もなく、ばらばらに存在したままの「タイトル」領域、
「テキスト」領域を、周りの領域との間隔に応じて併合
し、一つのまとまった領域とする。

【００５４】次に、ステップＳ８０８において、各領域
毎に属性、原画像における座標や大きさ等の領域データ
を出力する。以上の処理を行なうことにより、量子化画
像の像域分離処理を行ない、領域データが得られる。

【００５５】図１１は、上述した領域データの例を示す
図である。同図に示す各領域データ項目について、以下
説明する。・「番号」：領域の検出順序を示す。・「属性」：領域の属性情報を示し、以下に示す９通り
が用意されている。

【００５６】「ルート」入力画像そのものである
ことを示す。

【００５７】「テキスト」文字であることを示す。

【００５８】「強調タイトル」強調された見出し領域で
あることを示す。

【００５９】「通常タイトル」通常の見出し領域である
ことを示す。

【００６０】「テーブル」表領域であることを示
す。

【００６１】「ノイズ領域」文字とも画像とも判断で
きなかった領域であることを示す。「外枠領域」罫線などの領域であることを示す。

【００６２】「写真画像」写真領域であることを示
す。

【００６３】「線画像」線画像領域であることを
示す。・「始点座標」：原画像における領域開始のＸ，Ｙ座標
を示す。・「終点座標」：原画像における領域終了のＸ，Ｙ座標
を示す。・「画素数」：領域内の全画素数を示す。・「文字組情報」：縦書き、横書き、不明の３通りの文
字組情報を示す。

【００６４】図１１に示す領域データについて、その
「属性」が「テキスト」で示される領域のみ、図８のス
テップＳ８０７における併合前の、行に関する領域デー
タ（行領域データ）を階層的に保持している。

【００６５】ここでは、上述のように像域分離処理が行
なわれるが、図１１に示した領域データは、本実施の形
態を適用した一例に過ぎず、画像処理装置に応じて、例
えば他の情報を適宜追加しても良いし、あるいは減らし
ても良い。

【００６６】以上説明したように、本実施の形態によれ
ば、入力された多値画像の輝度頻度とその偏りを示すス
キュー値が、所定値まで収束するようにして量子化閾値
を決定し、その量子化閾値をもとに量子化を行なうこと
で、画像内の背景と対象物とを分離するために最も適し
た閾値が存在する領域を特定した後、この特定領域の平
均輝度値をもって量子化処理ができ、これにより、多値
入力画像上の領域内における各画素の輝度値を背景と対
象物との２つのクラスに分類する際の最適値を容易に求
めることができるとともに、高精細なＯＣＲ処理が実行
可能となる。

【００６７】なお、上述の実施の形態において、入力さ
れる画像は、８ビットの多値画像データとしたが、本発
明はこれに限定されるものではなく、例えば、カラー画
像等、量子化するために画像情報として複数ビットの情
報があれば良い。また、統計量であるスキュー値Ｓｋの
収束条件を±１．０としたが、これに限定されるもので
はない。換言すれば、スキュー値Ｓｋを用いて２値化の
閾値を決定するように構成されていれば良い。

【００６８】本発明は、複数の機器（例えば、ホストコ
ンピュータ，インタフェイス機器，リーダ，プリンタな
ど）から構成されるシステムに適用しても、一つの機器
からなる装置（例えば、複写機，ファクシミリ装置な
ど）に適用してもよい。

【００６９】また、本発明の目的は前述した実施形態の
機能を実現するソフトウェアのプログラムコードを記録
した記憶媒体を、システム或いは装置に供給し、そのシ
ステム或いは装置のコンピュータ（ＣＰＵ若しくはＭＰ
Ｕ）が記憶媒体に格納されたプログラムコードを読出し
実行することによっても、達成されることは言うまでも
ない。

【００７０】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００７１】プログラムコードを供給するための記憶媒
体としては、例えばフロッピーディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。

【００７２】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部又は全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれることは言うまでもない。

【００７３】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
ＣＰＵなどが実際の処理の一部又は全部を行い、その処
理によって前述した実施形態の機能が実現される場合も
含まれることは言うまでもない。

【００７４】

【発明の効果】以上説明したように、本発明によれば、
多値入力画像の輝度頻度とその分布の偏りとに基づい
て、輝度頻度が極小となる領域を特定し、特定された領
域の平均輝度値を量子化閾値として量子化を行なうこと
により、画像内の対象物と背景濃度の間に適切な閾値を
設定でき、ブロック歪みの発生を抑えた画像を得ること
ができる。

【００７５】

【図面の簡単な説明】

【図１】本実施例における画像処理システムの構成を示
すブロック図である。

【図２】本実施例における像域分離ＯＣＲ処理を示すフ
ローチャートである。

【図３】本実施例における２値化処理を示すフローチャ
ートである。

【図４】図３に示すステップＳ９での量子化処理を説明
するための図である。

【図５】量子化結果を説明するための図である。

【図６】本実施例における画像のヒストグラムの例を示
す図である。

【図７】本実施例における２値化処理の各変数値の変換
例を示す図である。

【図８】本実施例における像域分離処理を示すフローチ
ャートである。

【図９】本実施例における強調タイトルを説明するため
の図である。

【図１０】本実施例におけるタイトル判定処理を示すフ
ローチャートである。

【図１１】本実施例における領域データの例を示す図で
ある。

【符号の説明】

１画像処理装置２画像入力装置３画像表示装置１０１入力部１０２記憶部１０３輝度頻度累計部１０４量子化閾値算出部１０５量子化部１０６領域分離部１０７文字認識部１０８画像処理部１０９出力部

Claims

【特許請求の範囲】

【請求項１】多値画像を量子化して画像処理を行う画
像処理装置において、前記多値画像の輝度頻度を算出する第１の算出手段と、前記算出された輝度頻度に基づき、量子化の量子化閾値
を特定する特定手段と、前記特定された量子化閾値と前記輝度頻度とに基づき、
前記多値画像の量子化に用いる代表値を算出する第２の
算出手段と、前記算出された代表値を用いて前記多値画像を量子化す
る量子化手段とを有することを特徴とする画像処理装
置。
【請求項２】前記量子化閾値は、前記輝度頻度のヒス
トグラム分布の偏りが所定範囲内になるように、前記ヒ
ストグラム分布を収束させたときの平均輝度値であるこ
とを特徴とする請求項１記載の画像処理装置。
【請求項３】前記代表値は、前記量子化閾値により分
割される輝度頻度のヒストグラム分布の各々の分布領域
における平均輝度値であることを特徴とする請求項１記
載の画像処理装置。
【請求項４】前記代表値は、前記量子化閾値により分
割される輝度頻度のヒストグラム分布の各々の分布領域
における中央の輝度値であることを特徴とする請求項１
記載の画像処理装置。
【請求項５】更に、前記量子化手段により量子化され
た画像の像域分離を行い、像域分離された領域の属性を
含む領域データを出力する手段を有することを特徴とす
る請求項１記載の画像処理装置。
【請求項６】更に、前記領域の属性がタイトルの場
合、強調タイトルか否かを判定する手段を有することを
特徴とする請求項５記載の画像処理装置。
【請求項７】多値画像を量子化して画像処理を行う画
像処理方法であって、前記多値画像の輝度頻度を算出し、前記算出された輝度頻度に基づき、量子化の量子化閾値
を特定し、前記特定された量子化閾値と前記輝度頻度とに基づき、
前記多値画像の量子化に用いる代表値を算出し、前記算出された代表値を用いて前記多値画像を量子化す
る各ステップを有することを特徴とする画像処理方法。
【請求項８】前記量子化閾値は、前記輝度頻度のヒス
トグラム分布の偏りが所定範囲内になるように、前記ヒ
ストグラム分布を収束させたときの平均輝度値であるこ
とを特徴とする請求項７記載の画像処理方法。
【請求項９】前記代表値は、前記量子化閾値により分
割される輝度頻度のヒストグラム分布の各々の分布領域
における平均輝度値であることを特徴とする請求項７記
載の画像処理方法。
【請求項１０】前記代表値は、前記量子化閾値により
分割される輝度頻度のヒストグラム分布の各々の分布領
域における中央の輝度値であることを特徴とする請求項
７記載の画像処理方法。
【請求項１１】更に、前記量子化工程により量子化さ
れた画像の像域分離を行い、像域分離された領域の属性
を含む領域データを出力するステップを有することを特
徴とする請求項７記載の画像処理方法。
【請求項１２】更に、前記鋲域の属性がタイトルの場
合、強調タイトルか否かを判定するステップを有するこ
とを特徴とする請求項１１記載の画像処理方法。
【請求項１３】画像処理方法のプログラムコードが格
納されたコンピュータ可読記憶媒体であって、前記多値画像の輝度頻度を算出するステップのコード
と、前記算出された輝度頻度に基づき、量子化の量子化閾値
を特定するステップのコードと、前記特定された量子化閾値と前記輝度頻度とに基づき、
前記多値画像の量子化に用いる代表値を算出するステッ
プのコードと、前記算出された代表値を用いて前記多値画像を量子化す
るステップのコードとを有することを特徴とする記憶媒
体。