JPH0468669B2 - - Google Patents

Info

Publication number
JPH0468669B2
JPH0468669B2 JP58160763A JP16076383A JPH0468669B2 JP H0468669 B2 JPH0468669 B2 JP H0468669B2 JP 58160763 A JP58160763 A JP 58160763A JP 16076383 A JP16076383 A JP 16076383A JP H0468669 B2 JPH0468669 B2 JP H0468669B2
Authority
JP
Japan
Prior art keywords
character
pitch
estimated
frequent value
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58160763A
Other languages
English (en)
Other versions
JPS6054083A (ja
Inventor
Yoshitake Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58160763A priority Critical patent/JPS6054083A/ja
Publication of JPS6054083A publication Critical patent/JPS6054083A/ja
Publication of JPH0468669B2 publication Critical patent/JPH0468669B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 発明の詳細な説明 本発明は紙面上に記載された文字列イメージを
個々に分離するための文字ピツチを自動的に検出
する文字ピツチ検出装置に関するものである。各
種印刷文字等を光学的に読み取る装置(以下、
OCRと呼ぶ)において、一連の文字を認識する
場合、各文字を1字毎に分離して文字認識部に送
出してやる必要がある。各文字を1字毎に分離す
るために必要となる情報として文字ピツチがあ
り、OCRの読み取り対象となる印刷物の大きさ
や種類が限定されれば、前もつて与えることがで
きる。
しかし、最近のように、OCRにおける読み取
り対象も不特定な文字ピツチを持つ郵便物や文書
のような広汎な適用範囲のものがとられると、前
以つて、文字ピツチを知ることができないため、
紙面上の文字列イメージから文字ピツチを推定す
る必要が生じる。従来の文字ピツチの推定方法と
して、例えば、平均文字ピツチなどが用いられて
いた。しかし、英印字文字のように、フオントや
文字カテゴリーによつて、個々の文字幅が大きく
異なる場合や接触する文字数が増加した場合に
は、上述した平均文字ピツチと実際の文字ピツチ
とでは、一文字の分離を行う時に生じる誤差が無
視できなくなる。そのため、例えば、上述した平
均文字ピツチを用いて、文字間で接触が生じた多
くの文字を含む文字列イメージを分離した場合に
は、接触した文字の個数を誤まつたり、不正確な
分離位置で切断されたりする。
そこで、本発明の目的は、上述した問題点を解
決するために、白地で分離可能な複数個の文字イ
メージ即ち、文字塊から算出される文字塊間距離
に関する頻度分布を、複数個の文字塊の平均高さ
から始めて、クラスター化しながら、推定文字ピ
ツチを更新するようにした文字ピツチ検出装置を
提供することにある。
本発明の他の目的は、紙面上の一連の文字イメ
ージに文字間の接触を含む文字イメージや1文字
が2文字に分離する文字イメージが含まれていて
も、安定にしかも最良な文字ピツチを推定するこ
とが可能な文字ピツチ検出装置を提供することに
ある。
本発明によれば、紙面上に記載された一連の文
字列イメージを走査し、一文字単位に分離するた
めの文字ピツチを抽出する文字ピツチ検出装置に
おいて、前記一連の文字列イメージから白地で分
離可能な複数個の文字イメージ(以下、文字塊と
呼ぶ)を順次検出する手段と、複数個の文字塊の
始端位置の間又は終端位置の間の距離を示す文字
塊間距離を算出し、文字塊間距離の頻度を記憶す
る頻度分布テーブルと、複数個の文字塊の高さか
ら文字ピツチの予測区間を設定し、頻度分布テー
ブルを用いて、最頻度値n1及び最頻度値文字塊間
距離p1を予測区間内で検出し、文字塊間距離p1
推定文字ピツチp^(1)とする手段と、文字ピツチの
k倍(但し、k=2,3…)の予測区間を順次算
出される推定文字ピツチp^(k−1)(但し、k=
2,3…)から設定し、頻度分布テーブルを用い
て、最頻度値nk及び最頻度値文字塊間距離pkを予
測区間内で検出する手段と、k個の最頻度値文字
塊間距離p1,p2,…pk及び最頻度値n1,n2,…nk
を用いて、推定文字ピツチp^kの最尤推定を行う
ことによつて推定文字ピツチp^(k−1)を更新
する手段とを有することを特徴とする文字ピツチ
検出装置が得られる。
以下、本発明における具体的一実施例を参照し
て説明する。
第1図は本発明が適用される文字列イメージの
一部を示した一例である。図において、斜線で示
した白地で分離可能な文字イメージ即ち文字塊を
矩形領域を示している。図中Hi(i=1……7)
は、各文字塊の高さを示している。図中Vi(i=
1……7)は文字塊間距離の一例であり、各文字
塊の始端位置から次に出現する文字塊の始端位置
までの距離を示している。ここで、文字塊間距離
は、図1の記号Vi(i=1……7)の一例で示し
たように各文字塊の始端間で測定される距離のみ
ならず、各文字塊の終端間で測定される距離も含
むものである。即ち、文字塊間距離は、各文字塊
の始端(終端)位置から次又は次以降に出現する
文字塊の始端(終端)位置の間で測定される距離
を意味する。尚、図10の記号V10で示すよう
な、文字行の最後に出現する文字塊の幅は、特殊
な文字塊間距離として取り扱うことは可能である
が、本発明では文字塊間距離には含めないものと
する。
第2図は、第1図で示したような一連の文字塊
間距離の頻度分布の一例である。図において、頻
度分布の横軸Vは、文字塊間距離Vの値を示して
おり、縦軸NUMは、任意の文字塊間距離におけ
る頻度値を示している。そこで、第2図を用い
て、本発明の原理を説明する。
第1図で示した複数個の文字塊の高さH1
H2,……の平均高さHnと、係数α1,α2(但し、
α1<α2)から予測区間C1を設定する。次に、予
測区間C1内で、一定許容幅△γ(図中、△γ=
1)で、最頻度値n1及び最頻度値n1を持つ文字塊
間距離p1を求める。尚、図において、最頻度値n1
は5となる。ここで、文字塊間距離p1を推定文字
ピツチp^(1)とする。通常、文字間の接触等がな
く、最頻度値n1が大きければ、推定文字ピツチp^
(1)を文字ピツチと見なすことも可能であるが、前
述した条件下では、p^(1)だけでは推定誤差が大き
くなることがある。
そこで、推定文字ピツチp^(1)から、文字ピツチ
の2倍となる予測区間C2を2・p^(1)±α3より設定
し、予測区間C2内で、一定許容幅△γで最頻度
値n2及び最頻度値n2を持つ文字塊間距離p2を求め
る。ここで、定数α3は、推定文字ピツチp^(1)の精
度、例えば、最頻度値n1に応じて、設定すること
も可能である。
次に、推定文字ピツチp^(1)を次のようにして更
新し、より正確な推定文字ピツチp^(2)を求める。
より正確な推定文字ピツチは、得られた最頻度値
文字塊間距離p1,p2及び最頻度値n1,n2を用いた
最尤推定によつて行われる。
例えば、p^(2)=12K=1 k・√k・(√1・p1
2・√2・p2/2)を計算することによつて、推定 文字ピツチp^(2)を得ることができる。
同様にして、推定文字ピツチp^(2)から、文字ピ
ツチの3倍となる予測区間C3を3p^(2)±α3より設
定し、最頻度値n3及び最頻度値n3を持つ文字塊間
距離p3を求め、推定文字ピツチp^(3)を同様にして
更新する。一般に、文字ピツチの倍となる予測
区間Cから得られた上記文字塊間距離p及び
最頻度値nまでの文字塊間距離及び最頻度値を
用いて、得られる線形最良推定文字ピツチp^()
は、p^()=lk=1 w(k,nk)・pk/kより算出できる。
尚、上述した係数w(k,nk)は整数値k及び
最頻度値nkによつて定まり、例えば、k・√k
lk=1 k・√kより得られる。更に、前述した最尤
推定値p^()は、加算部、乗算部、除算部によ
つて、容易に計算されることは言うまでもない。
更に、加算や乗算部・除算分の順序性を変えるこ
とによつて、計算時間を減少させることも可能で
ある。
第3図は本発明の具体的一実施例を示す論理ブ
ロツク図である。走査装置1は、紙面上に記載さ
れた文字列イメージを光学的に走査して、電気信
号に変換し、2値量子化後、文字列イメージメモ
リ2へ書き込む。文字塊抽出装置3は、文字列イ
メージメモリ2に格納された複数個の文字列イメ
ージから文字塊を順次抽出し、各文字塊の始点位
置及び大きさを文字塊レジスタ4へ格納する。
尚、文字塊の大きさは、文字塊の幅及び高さを表
わすものとする。また、このような文字抽出装置
は例えば、同一出願人による特願昭56−27512号
明細書で示されている技術を用いることができ
る。制御装置7は、順次、文字塊レジスタ4から
転送される文字塊の始点位置から文字塊間距離を
算出し、頻度分布テーブル6の対応する文字塊間
距離のアドレス位置の内容である頻度値をインク
リメントする。このようにして、メモリから構成
される頻度分布テーブル6に、第2図に示したよ
うな文字塊間距離の頻度分布が生成される。尚、
頻度分布テーブル6は、最初0に初期化されてい
るとする。次に、制御装置7によつて、文字塊レ
ジスタ4に格納された複数個の文字塊の高さから
平均高さHnが算出され、予測区間算出部8へ転
送される。
定数レジスタ20は、第2図で示した係数α1
α2(但し、α1<α2)を格納し、定数レジスタ21
は第2図で示した係数α3を格納する。22はカウ
ンタであり、値k(但し、初期値として1)がセ
ツトされている。制御装置7によつて、予測区間
算出部8へ、平均高さHnが入力されると、予測
区間算出部8は、定数レジスタ20より係数α1
びα2を入力し、α1・Hn及びα2・Hnを前述した予
測区間の下限値及び上限値として算出し、最頻度
文字塊間距離検出部9へ転送する。一方、制御装
置7によつて、予測区間算出部8へ、後述する推
定文字ピツチp^(k)が入力されると、予測区間算出
部8は、定数レジスタ21より係数α3を入力し、
更に、カウンタ22よりカウンタ値kを入力し
て、k・p^(k)−α3及びk・p^(k)+α3を前述した予
測区間の下限値及び上限値として算出し、最頻度
文字塊間距離検出部9へ転送する。
最頻度文字塊間距離検出部9は、予測区間算出
部8より入力された予測区間の下限値と上限値内
に属する文字塊間距離の頻度値を制御装置7を介
して、頻度分布テーブル6より読み出し、一定許
容幅△γ(但し、△γ=1,2…)で最頻度値を
持つ文字塊間距離pk及び最頻度値nkを求め、レジ
スタ10に格納する。尚、文字塊間距離pk及び最
頻度値nkは、カウンタ22の値kに応じて、レジ
スタ10の所定の位置にセツトされる。文字ピツ
チ演算部11は、カウンタ22の値k及びレジス
タ10に格納された文字塊間距離p1,p2,……pk
及び最頻度値n1,n2,…を用いて、推定文字ピツ
チp^(k)を算出し、推定文字ピツチレジスタ12へ
格納する。推定文字ピツチレジスタ12に推定文
字ピツチp^(k)がセツトされると、制御装置7によ
つて、カウンタ22を1カウントアツプすると共
に、推定文字ピツチp^(k)を予測区間算出部8へ転
送される。
前述した推定文字ピツチp^(k)は第2図で示した
ような計算式で求められる。
以上の動作が繰り返えされ、頻度分布テーブル
6上の文字塊間距離の頻度をすべて、調べられる
と、文字ピツチの最適な推定値が推定文字ピツチ
レジスタ12へセツトされる。1文字分離手段5
は、推定文字ピツチレジスタ12にセツトされた
文字ピツチ及び文字塊レジスタ4に格納された文
字塊の位置及び大きさ情報に基づいて、1文字単
位の分離を行う。1文字分離手段5は、公知の技
術を用いて行うことができる。
なお、“,”や“.”等について、予め従来行な
われているノイズ除去方法にてこれ等を取り除い
た後に本発明装置にて文字ピツチの検出を行なえ
ばより効果は大きく、特に文字数の少ない場合に
おいて効果は大きい。
以上、述べたように、本発明を用いることによ
り、予め文字ピツチがわからなくとも、また、文
字塊の接触や文字間の分離を含む文字イメージが
含まれていても正確に、文字ピツチを測定するこ
とが容易に実現できる。
【図面の簡単な説明】
第1図は、本発明が適用される文字列イメージ
の一部を一例として示した図、第2図は、紙面上
の文字塊間距離の頻度分布の一例を示す図、第3
図は、本発明の具体的一実施例を示す論理ブロツ
ク図である。 図において、1は走査装置、2は文字列イメー
ジメモリ、3は文字塊抽出装置、4は文字塊レジ
スタ、6は頻度分布テーブル、8は予測区間算出
部、9は最頻度文字塊間距離検出部、10はレジ
スタ、11は推定ピツチ演算部、12は推定文字
ピツチレジスタ、20及び21は定数レジスタ、
22はカウンタ、5は一文字分離手段、7は制御
装置である。

Claims (1)

    【特許請求の範囲】
  1. 1 紙面上に記載された一連の文字列イメージを
    走査し、一文字単位に分離するための文字ピツチ
    を抽出する文字ピツチ検出装置において、前記一
    連の文字列イメージから白地で分離可能な複数個
    の文字塊を順次検出する手段と、前記複数個の文
    字塊の始端位置の間又は終端位置の間の距離を示
    す文字塊間距離を算出し、該文字塊間距離の頻度
    を記憶する頻度分布テーブルと、前記複数個の文
    字塊の高さから文字ピツチの予測区間を設定し、
    前記頻度分布テーブルを用いて、最頻度値n1及び
    最頻度値文字塊間距離p1を該予測区間内で検出
    し、該最頻度値文字塊間距離P1を推定文字ピツ
    チp^(1)とする手段と、推定文字ピツチのk倍(但
    し、k=2,3……)となる予測区間を順次算出
    される推定文字ピツチp^(k−1)(但し、k=
    2,3……)から設定し、該頻度分布テーブルを
    用いて、該最頻度値nk及び該最頻度値文字塊間距
    離pkを該予測区間内で検出する手段と、k個の該
    最頻度値文字塊間距離p1,p2,……pk及び該最頻
    度値n1,n2,……nkを用いて、該推定文字ピツチ
    p^(k)の最尤推定を行うことによつて該推定文
    字ピツチp^(k−1)を更新する手段とを有する
    ことを特徴とする文字ピツチ検出装置。
JP58160763A 1983-09-01 1983-09-01 文字ピッチ検出装置 Granted JPS6054083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58160763A JPS6054083A (ja) 1983-09-01 1983-09-01 文字ピッチ検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58160763A JPS6054083A (ja) 1983-09-01 1983-09-01 文字ピッチ検出装置

Publications (2)

Publication Number Publication Date
JPS6054083A JPS6054083A (ja) 1985-03-28
JPH0468669B2 true JPH0468669B2 (ja) 1992-11-04

Family

ID=15721930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58160763A Granted JPS6054083A (ja) 1983-09-01 1983-09-01 文字ピッチ検出装置

Country Status (1)

Country Link
JP (1) JPS6054083A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0673304U (ja) * 1992-07-13 1994-10-18 住友建機株式会社 エンジンオイルの不純物除去回路

Also Published As

Publication number Publication date
JPS6054083A (ja) 1985-03-28

Similar Documents

Publication Publication Date Title
US4594732A (en) Letter pitch detection system
US5513277A (en) Measuring character and stroke sizes and spacings for an image
EP0054439A2 (en) Character segmentation method
US20090052786A1 (en) Computer vision-based methods for enhanced jbig2 and generic bitonal compression
CN106339704A (zh) 字符识别方法和字符识别设备
CN100514355C (zh) 指定文本行提取方法和装置
US5923782A (en) System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings
JP5337194B2 (ja) 画像処理装置
JPH0468669B2 (ja)
JPS5991582A (ja) 文字読取装置
US7680329B2 (en) Character recognition apparatus and character recognition method
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JPH0471232B2 (ja)
EP4036871A1 (en) Image processing apparatus, image processing method, program and storage medium
JP2861860B2 (ja) 宛名行抽出装置
JPH04352295A (ja) 文字列方向判別装置
JP2630261B2 (ja) 文字認識装置
JPH0326427B2 (ja)
JPS60164878A (ja) 文字ピツチ検出装置
JPH0368431B2 (ja)
JP4129898B2 (ja) 文字サイズ推定方法および装置
JP2982221B2 (ja) 文字読み取り装置
JPS58214969A (ja) 文字読取装置
JPH04276885A (ja) 文字切出し装置
CN115937867A (zh) 基于字精度的歌词时间提取方法及计算机可读存储介质