JPH11312218A - 文字最適2値化装置 - Google Patents

文字最適2値化装置

Info

Publication number
JPH11312218A
JPH11312218A JP10132579A JP13257998A JPH11312218A JP H11312218 A JPH11312218 A JP H11312218A JP 10132579 A JP10132579 A JP 10132579A JP 13257998 A JP13257998 A JP 13257998A JP H11312218 A JPH11312218 A JP H11312218A
Authority
JP
Japan
Prior art keywords
histogram
character
evaluation value
threshold value
binarization threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10132579A
Other languages
English (en)
Inventor
Yoshiyuki Matsuyama
好幸 松山
Chihiro Ueki
千尋 植木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10132579A priority Critical patent/JPH11312218A/ja
Publication of JPH11312218A publication Critical patent/JPH11312218A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 一文字毎に最適な2値化しきい値を算出して
正確に文字を切り出すことができる文字最適2値化装置
を提供する。 【解決手段】 本発明は、一文字毎のヒストグラムを取
得するヒストグラム取得手段1と、ヒストグラムの移動
平均をとりヒストグラムを平滑化するヒストグラム平滑
化手段2と、ヒストグラムの谷位置を検出するヒストグ
ラム谷位置検出手段3と、ヒストグラムの形状を表す評
価値を算出するヒストグラム評価値算出手段4と、ヒス
トグラム評価値から2値化しきい値を設定する2値化し
きい値設定手段5とから構成されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識に利用さ
れる文字最適2値化装置に関し、特に一文字毎の最適2
値化しきい値を決定してこれに基づいて文字を一文字毎
正確に切り出し得るよう構成したものである。
【0002】
【従来の技術】文字を切り出して文字情報を2値化する
2値化装置は、OCR(光学的文字読取装置)に普通に
備えられているものである。OCR(光学的文字読取装
置)の2値化装置は、通常、帳票に記載されている全文
字を固定しきい値で2値化している。
【0003】従来、帳票に記載されている文字は、活字
印刷・スタンプ・手書き等様々な文字種であり、さらに
薄いもの、濃いもの、かすれているもの、ノイズで汚れ
ているもの等文字の濃度も様々である。帳票に記載され
ている全文字を固定しきい値で2値化したのでは、2値
化文字イメージのかすれ又はつぶれが生じ、後の文字認
識に悪影響を与えてしまう。
【0004】そこで、たとえば特開昭61−14607
0号公報に開示された技術では、文字2値化回路とは別
にしきい値の異なる2値化回路を領域判定に使用するこ
とにより、画像特性に応じた最適な2値化処理を可能と
しているが、文字2値化回路とは別にしきい値の異なる
2値化回路を用意しなければならないので回路構成が複
雑になるという問題があった。
【0005】
【発明が解決しようとする課題】そこで本発明は、ヒス
トグラムに基づいて一文字毎に最適な2値化しきい値を
決定し、正確な文字の切り出しを行なえる文字最適2値
化装置を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明は、一文字毎のヒストグラムを取得するヒスト
グラム取得手段と、ヒストグラムの移動平均をとりヒス
トグラムを平滑化するヒストグラム平滑化手段と、ヒス
トグラムの谷位置を検出するヒストグラム谷位置検出手
段と、ヒストグラムの形状を表す評価値を算出するヒス
トグラム評価値算出手段と、ヒストグラム評価値から2
値化しきい値を決定する2値化しきい値決定手段を備え
ることを特徴とする。
【0007】上記構成により、本発明は、一文字毎に最
適な2値化しきい値を決定できるので、正確な文字の切
り出しを行なうことができる。
【0008】
【発明の実施の形態】本発明の請求項1に記載の発明
は、一文字毎のヒストグラムを取得するヒストグラム取
得手段と、ヒストグラムの移動平均をとりヒストグラム
を平滑化するヒストグラム平滑化手段と、ヒストグラム
の谷位置を検出するヒストグラム谷位置検出手段と、ヒ
ストグラムの形状を表す評価値を算出するヒストグラム
評価値算出手段と、ヒストグラム評価値から2値化しき
い値を決定する2値化しきい値決定手段を備えることを
特徴とする文字最適2値化装置としたものであり、一文
字毎に最適な2値化しきい値を決定できるという作用を
有する。
【0009】本発明の請求項2に記載の発明は、一文字
毎のヒストグラムを取得するヒストグラム取得手段と、
ヒストグラムの移動平均をとりヒストグラムを平滑化す
るヒストグラム平滑化手段と、ヒストグラムの谷位置を
検出するヒストグラム谷位置検出手段と、ヒストグラム
の形状を表す評価値を算出するヒストグラム評価値算出
手段と、ヒストグラム評価値から2値化しきい値を決定
する2値化しきい値決定手段と、2値化後の全面積に対
する黒画素割合を算出する黒画素割合算出手段と、黒画
素割合から2値化しきい値を補正する2値化しきい値補
正手段を備えることを特徴とする文字最適2値化装置と
したものであり、ヒストグラム分布から文字の性質別に
最適な2値化しきい値を算出することができるという作
用を有する。
【0010】以下、本発明の実施の形態について、図面
を用いて説明する。
【0011】(第1の実施の形態)図1は、本発明の第
1の実施の形態に係る文字最適2値化装置の構成を示す
ブロック図である。図1において、文字最適2値化装置
は、一文字毎のヒストグラムを取得するヒストグラム取
得手段1と、ヒストグラムの移動平均をとりヒストグラ
ムを平滑化するヒストグラム平滑化手段2と、ヒストグ
ラムの谷位置を検出するヒストグラム谷位置検出手段3
と、ヒストグラムの形状を表す評価値を算出するヒスト
グラム評価値算出手段4と、ヒストグラム評価値から2
値化しきい値を設定する2値化しきい値決定手段5とか
ら構成されている。
【0012】次に本発明の第1の実施の形態における文
字最適2値化装置の動作を説明する。ヒストグラム取得
手段1はよく知られているように一文字毎のヒストグラ
ムを取得する。ヒストグラム平滑化手段2は、よく知ら
れているように取得したヒストグラムの移動平均をとり
ヒストグラムを平滑化する。
【0013】ヒストグラム谷位置検出手段3は上記の平
滑化したヒストグラムの谷位置を検出する。このヒスト
グラム谷位置の検出について、図2〜図4を用いてさら
に詳しく説明する。
【0014】図2は通常の文字ヒストグラムの一般的な
傾向を示すものである。図2において、一般に文字を外
接する矩形のヒストグラムは、濃度の一番低い側の山に
背景部分が含まれている。文字の2値化は文字と背景を
分離するために行なうので、背景部分の終わりつまり濃
度の一番低い山の谷位置th_lを求める必要がある。ま
た、濃度の一番高い側の山は文字部分の山であるので、
濃度の一番高い山の谷位置th_rを求める。そして最適な
2値化しきい値はth_l〜th_rの間に設定する。
【0015】図3および図4はヒストグラム谷位置th_
l、th_rを算出するための算出手順を説明するものであ
る。 文字ヒストグラムに対して移動平均幅17の移動平均を
かける。端末において、階調のサンプリング数が17に満
たない場合は、サンプル値0のデータが存在していると
して計算する。 階調値 x(0≦x≦255)に対してそのヒストグラムを h
(x)、h(x)に移動平均をかけたものを h_s(x)とする。5
階調間の差分ヒストグラムを h_sub(x)=h_s(x+5)−h_s
(x)を定義する。 x=0を始点として、h_sub(x)<0になる最初の階調値を
x0とすると、x0以降の階調値で h_sub(x)≦0かつh_sub
(x)>0になる階調値 th_l1=x+1を求める。 th_l1以降の連続上昇数(連続して h_sub(x)≧0となる
サンプル数) up_continue_countを求める。 th_l1≦x≦th_l1+up_continue_count間で連続して h_
sub(x)>2となる数 up_rate_countを求める(図3右端参
照)。 up_rate_count≧5の時はそれ以降に山が存在すると判
定してth_l1を谷位置th_lとするが、th_l1以前にh_sub
(x)=0が連続して存在する場合はth_l1をh_sub(x)=0の開
始点th_l2まで戻し処理を終了する。 up_rate_count<5の時(図4参照)は、th_l1以前に連続
してh_sub(x)=0または-1となる数 flat_countとその開
始点 th_l3を求める。 flat_count≧5の時は th_l3を th_lとする。flat_cou
nt<5の時は谷と判定せずに、に戻り始点 th_l1より同
様に繰り返す。 th_rの算出方法は階調の濃い側からサーチするのを除
いて上記〜のth_l算出方法と同様に行なう。
【0016】上記した手順によってヒストグラム谷位置
の検出を実施する。そうしておいてから、ヒストグラム
評価値算出手段4はヒストグラムの形状を表す評価値を
算出する。
【0017】ここでヒストグラムの評価値を算出するこ
との有効性について説明する。帳票に記入された文字に
は、かすれた文字やノイズのある文字など濃度は様々で
ある。図5に示されるように、一般にかすれた文字のヒ
ストグラムは背景の山があり、その先はなだらかに推移
し、濃度の最濃な山の面積が小さいという傾向がある。
また、図6に示されるように、ノイズのある文字のヒス
トグラムは背景の山があり、その先には数個の山があり
起伏が激しく、濃度の最濃な山の面積が大きい。
【0018】これらの文字種を判別するためには以下に
説明する評価値 th_paraが有効である。この評価値を用
いると、かすれた文字は評価値が低く、ノイズのある文
字は評価値が高く算出され、文字種の判別に有効であ
る。
【0019】しきい値を決める評価値として、上記した
th_l以降のヒストグラム変化量に階調値の重みをかけ正
規化した値を用いる。すなわち、評価値を th_paraとす
ると、
【数1】 に基づいて算出される。
【0020】しきい値を決める評価値が算出されたの
で、2値化しきい値設定手段5は、ヒストグラム評価値
から2値化しきい値を決定する。
【0021】すなわち、上記したth_paraの値からしき
い値を次のように決定する。 th_para<TH_PARA_Lの場合 th=th_l TH_PARA_L≦th_para≦TH_PARA_Hの場合 th=th_l〜th_r間の面積比を0.5にする値 th_para>TH_PARA_Hの場合 th=th_r このようにして決定された2値化しきい値に基づいて文
字の切り出しを行なうことにより、正確な文字の切り出
すが行なえる。
【0022】(第2の実施の形態)図7は、本発明の第
2の実施の形態に係る文字最適2値化装置の構成を示す
ブロック図である。図7において、文字最適2値化装置
は、一文字毎のヒストグラムを取得するヒストグラム取
得手段1と、ヒストグラムの移動平均をとりヒストグラ
ムを平滑化するヒストグラム平滑化手段2と、ヒストグ
ラムの谷位置を検出するヒストグラム谷位置検出手段3
と、ヒストグラムの形状を表す評価値を算出するヒスト
グラム評価値算出手段4と、ヒストグラム評価値から2
値化しきい値を設定する2値化しきい値決定手段5と、
2値化後の全面積に対する黒画素割合を算出する黒画素
割合算出手段6と、黒画素割合から2値化しきい値を補
正する2値化しきい値補正手段7とから構成されてい
る。
【0023】次に本発明の第2の実施の形態における文
字最適2値化装置の動作を説明する。2値化しきい値決
定手段5により2値化しきい値を決定するところまで
は、上記した第1の実施の形態と同じである。
【0024】しかしながら、かすれた文字やノイズがか
った文字については、この方法でも十分とまではいかな
い場合がある。そこで、黒画素割合算出手段6により、
2値化後の全面積に対する黒画素割合を算出する。そし
て、2値化しきい値補正手段7により黒画素の割合から
上記した2値化しきい値決定手段5が決定した2値化し
きい値を補正する。この補正動作は最適な2値化しきい
値が決まるまで繰り返され、そして、最終的に決まった
補正2値化しきい値に基づいて文字の切り出しを実行す
ることで上記した第1の実施の形態よりも正確な文字の
切り出しを行なうことができる。
【0025】
【発明の効果】以上のように本発明の文字最適2値化装
置は、一文字毎に最適な2値化しきい値を算出するの
で、固定しきい値に比べ正確に文字を切り出すことがで
きるという効果を有する。
【0026】また、ヒストグラム分布から文字の性質別
に最適な2値化しきい値を算出するので、かすれた文字
やノイズがかった文字を2値化して正確な文字を切り出
すことができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文字最適2値
化装置の構成を示すブロック図、
【図2】通常の文字のヒストグラムの一般的な傾向を示
す図、
【図3】ヒストグラム谷位置を算出するための算出手順
を説明するための図、
【図4】ヒストグラム谷位置を算出するための算出手順
を説明するための図、
【図5】かすれた文字のヒストグラムの一般的な傾向を
示す図、
【図6】ノイズのある文字のヒストグラムの一般的な傾
向を示す図、
【図7】本発明の第2の実施の形態に係る文字最適2値
化装置の構成を示すブロック図である。
【符号の説明】
1 ヒストグラム取得手段 2 ヒストグラム平滑化手段 3 ヒストグラム谷位置検出手段 4 ヒストグラム評価値算出手段 5 2値化しきい値設定手段 6 黒画素割合算出手段 7 2値化しきい値補正手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 一文字毎のヒストグラムを取得するヒス
    トグラム取得手段と、ヒストグラムの移動平均をとりヒ
    ストグラムを平滑化するヒストグラム平滑化手段と、ヒ
    ストグラムの谷位置を検出するヒストグラム谷位置検出
    手段と、ヒストグラムの形状を表す評価値を算出するヒ
    ストグラム評価値算出手段と、ヒストグラム評価値から
    2値化しきい値を決定する2値化しきい値決定手段を備
    えることを特徴とする文字最適2値化装置。
  2. 【請求項2】 一文字毎のヒストグラムを取得するヒス
    トグラム取得手段と、ヒストグラムの移動平均をとりヒ
    ストグラムを平滑化するヒストグラム平滑化手段と、ヒ
    ストグラムの谷位置を検出するヒストグラム谷位置検出
    手段と、ヒストグラムの形状を表す評価値を算出するヒ
    ストグラム評価値算出手段と、ヒストグラム評価値から
    2値化しきい値を設定する2値化しきい値設定手段と、
    2値化後の全面積に対する黒画素割合を算出する黒画素
    割合算出手段と、黒画素割合から2値化しきい値を補正
    する2値化しきい値補正手段を備えることを特徴とする
    文字最適2値化装置。
JP10132579A 1998-04-28 1998-04-28 文字最適2値化装置 Pending JPH11312218A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10132579A JPH11312218A (ja) 1998-04-28 1998-04-28 文字最適2値化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10132579A JPH11312218A (ja) 1998-04-28 1998-04-28 文字最適2値化装置

Publications (1)

Publication Number Publication Date
JPH11312218A true JPH11312218A (ja) 1999-11-09

Family

ID=15084636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10132579A Pending JPH11312218A (ja) 1998-04-28 1998-04-28 文字最適2値化装置

Country Status (1)

Country Link
JP (1) JPH11312218A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013211750A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 画像処理装置および画像処理プログラム
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013211750A (ja) * 2012-03-30 2013-10-10 Brother Ind Ltd 画像処理装置および画像処理プログラム
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Similar Documents

Publication Publication Date Title
US5784500A (en) Image binarization apparatus and method of it
JP4416365B2 (ja) スキャンした文書の自動式検出
US7292375B2 (en) Method and apparatus for color image processing, and a computer product
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US6754369B1 (en) License plate reading apparatus and method
US4941192A (en) Method and apparatus for recognizing pattern of gray level image
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US20030063802A1 (en) Image processing method, apparatus and system
US20070253040A1 (en) Color scanning to enhance bitonal image
Saddami et al. Improvement of binarization performance using local otsu thresholding.
CN117315668A (zh) 一种基于ocr的文本智能识别系统
US8442348B2 (en) Image noise reduction for digital images using Gaussian blurring
CN112232344B (zh) 一种数字式万用表读数识别方法
JP3099771B2 (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JPH08305795A (ja) 文字認識方法
JP2000048120A (ja) 濃淡画像の文字領域抽出方法及びそのプログラムを記録した記録媒体
CN114267035A (zh) 一种文档图像处理方法、系统、电子设备及可读介质
JPH11312218A (ja) 文字最適2値化装置
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP3983721B2 (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JP2010250387A (ja) 画像認識装置、及びプログラム
JPH0256688A (ja) 文字切出し装置
JP3230368B2 (ja) 二値化処理方法
JPH0935003A (ja) 文字認識装置
JP3705405B2 (ja) 2値化閾値決定方法