JPH0471232B2 - - Google Patents

Info

Publication number
JPH0471232B2
JPH0471232B2 JP58161421A JP16142183A JPH0471232B2 JP H0471232 B2 JPH0471232 B2 JP H0471232B2 JP 58161421 A JP58161421 A JP 58161421A JP 16142183 A JP16142183 A JP 16142183A JP H0471232 B2 JPH0471232 B2 JP H0471232B2
Authority
JP
Japan
Prior art keywords
character
pitch
distance
blocks
prediction interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58161421A
Other languages
English (en)
Other versions
JPS6054084A (ja
Inventor
Yoshitake Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58161421A priority Critical patent/JPS6054084A/ja
Publication of JPS6054084A publication Critical patent/JPS6054084A/ja
Publication of JPH0471232B2 publication Critical patent/JPH0471232B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 本発明は紙面上に記載された文字列メイージを
個々に分離するための文字ピツチを自動的に検出
する文字ピツチ検出装置に関するものである。各
種印刷文字等を光学的に読み取る装置(以下、
OCRと呼ぶ)において、一連の文字を認識する
場合、各文字を1字毎に分離して文字認識部に送
出してやる必要がある。各文字を1字毎に分離す
るために必要となる情報として文字ピツチがあ
り、OCRの読み取り対象となる印刷物の大きさ
や種類が限定されれば、前もつて与えることがで
きる。
しかし、最近のように、OCRにおける読み取
り対象も不特定な文字ピツチを持つ郵便物や文書
のような広汎な適用範囲のものがとられると、前
以つて、文字ピツチを知ることができないため、
紙面上の文字列イメージから文字ピツチを推定す
る必要が生じる。従来の文字ピツチの推定方法と
して、例えば、平均文字ピツチなどが用いられて
いた。しかし、英印字文字のように、フオントや
文字カテゴリーによつて、個々の文字幅が大きく
異なる場合や接触する文字数が増加した場合に
は、上述した平均文字ピツチと実際の文字ピツチ
とでは、一文字の分離を行う時に生じる誤差が無
視できなくなる。そのため、例えば、上述した平
均文字ピツチを用いて、文字間で接触が生じた多
くの文字を含む文字列メメージを分離した場合に
は、接触した文字の個数を誤まつたり、不正確な
分離位置で切断されたりする。
また、上述した条件下で、一文字単位の分離を
行うためには、文字ピツチの精度の良い推定値と
共にその文字ピツチがどの程度正確であるかを表
わす文字ピツチの推定誤差も検出することが必要
となる。
このような推定精度が与えられれば、例えば、
文字ピツチの微小誤差を文字パターンイメージの
特徴を用いて吸収する際のパラメータとしても利
用することができる。
そこで、本発明の目的は、上述した問題点を解
決するために、白地で分離可能な複数個の文字イ
メージ即ち、文字塊から算出される文字塊間距離
に関する頻度分布を、複数個の文字塊の平均高さ
から始めて、クラスター化しながら、推定文字ピ
ツチを更新し、推定誤差も算出するようにした文
字ピツチ検出装置を提供することにある。
本発明の他の目的は、紙面上の一連の文字イメ
ージに文字間の接触を含む文字イメージや1文字
が2文字に分離する文字イメージが含まれていて
も、安定にしかも最良な文字ピツチを推定するこ
とが可能な文字ピツチ検出装置を提供することに
ある。
本発明によれば紙面上に記載された一連の文字
列イメージを走査し、一文字単位に分離するため
の文字ピツチを抽出する文字ピツチ検出装置にお
いて、一連の文字列イメージから白地で分離可能
な複数個の文字塊を順次検出する手段と、複数個
の文字塊の始端位置の間又は終端位置の間の距離
を示す文字塊間距離を算出し、文字塊間距離の頻
度を記憶する頻度分布テーブルと、複数個の文字
塊の高さから文字ピツチの予測区間を設定し、頻
度分布テーブルを用いて、最頻度値文字塊間距離
p1を予測区間内で検出する手段と、順次算出され
る最頻値文字塊間距離pk(但し、K=1,2…)
からk文字の存在範囲を設定し、存在範囲に属す
る複数個の文字塊間距離における分散σ2 k及びサ
ンプル数nkを算出する手段と、算出されたk個の
最頻値文字塊間距離p1,p2…pk及び分散σ2 1,σ2 2
…σ2 k及びサンプル数n1,n2…nkを用いて、推定文
字ピツチP∧(k)及び推定誤差を最尤推定により算出
する手段と、推定文字ピツチP∧(k)から、文字ピツ
チの(k+1)倍となる予測区間を設定し、頻度
テーブルを用いて最頻度値文字塊間距離pk+1を予
測区間内で検出する手段とを有することを特徴と
する文字ピツチ検出装置が得られる。
以下、本発明における具体的一実施例を参照し
て説明する。
第1図は本発明が適用される文字列イメージの
一部を示した一例である。図において、斜線で示
した白地で分離可能な文字イメージ即ち文字塊を
矩形領域を示している。図中Hi(i=1……7)
は、各文字塊の高さを示している。図中Vi(i=
1……7)は文字塊間距離の一例であり、各文字
塊の始端位置から次に出現する文字塊の始端位置
までの距離を示している。ここで、文字塊間距離
は、図1の記号Vi(i=1……7)の一例で示し
たように各文字塊の始端間で測定される距離のみ
ならず、各文字塊の終端間で測定される距離も含
むものである。即ち、文字塊間距離は、各文字塊
の始端(終端)位置から次又は次以降に出現する
文字塊の始端(終端)位置の間で測定される距離
を意味する。尚、図10の記号V10で示すよう
な、文字行の最後に出現する文字塊の幅は、特殊
な文字塊間距離として取り扱うことは可能である
が、本発明では文字塊間距離には含めないものと
する。
第2図は、第1図で示したような一連の文字塊
間距離の頻度分布の一例である。図において、頻
度分布の横軸Vは、文字塊間距離Vの値を示して
おり、縦軸NUMは、任意の文字塊間距離におけ
る頻度数を示している。そこで、第2図を用い
て、本発明の原理を説明する。
第1図で示した複数個の文字塊の高さH1
H2,…の平均高さHnと、係数α1,α2(但し、α1
<α2)から、予測区間C1を設定する。次に、予
測区間C1内で、一定許容幅△τ(図中、△τ=
1)で最頻値文字塊間距離p1を求める。最頻値文
字塊間距離p1から1文字の存在範囲s1の上限値を
例えばp1+p1/2として算出する。尚、ここで、1 文字の存在範囲s1の下限値を、p1/2とする。上述 した存在範囲s1内のn1個(以下、サンプル数n1
表わす)の文字塊間距離について、前述した最頻
値文字塊間距離p1に対する分散σ2 1を算出する。
次に、推定文字ピツチを算出するのであるが、
最頻値文字塊間距離p1のみの検出しか行つていな
いので、推定文字ピツチp∧(1)は、p1となる。ま
た、この時点での文字ピツチの推定誤差△ε(1)と
して、分散σ2 1で表わすことができる。
次に、推定文字ピツチp∧(1)から、文字ピツチの
2倍となる予測区間C2を2・p∧(1)±α3より設定
し、予測区間C2内で、一定許容幅△τを設け、
最頻値文字塊間距離p2を検出する。ここでα3は定
数でも良いし、例えば、分散σ2 1の標準偏差σに基
づいて設定しても良い。最頻値文字塊間距離p2
検出されると、同様にして、2文字の存在範囲s2
の上限値を例えば、p2+1/2・(p2/2)より算出し
、 上述した存在範囲s2内のサンプル数n2の文字塊間
距離について、分散σ2 2を算出する。
次に、推定文字ピツチp∧(1)を次のようにして更
新し、より正確な推定文字ピツチp∧(2)を求める。
より正確な推定文字ピツチは、得られた最頻値文
字塊間距離p1,p2及びサンプル数n1,n2を用い
て、最尤推定によつて、行われる。
例えば、 p∧(2)=1/2 Σk=1 k・√k・(√1・p1+2・√2
p2/2) を計算することによつて、推定文字ピツチp∧(2)を
得ることができる。
またこの時点での推定誤差△ε(2)は、例えば、 △ε(2)=1/2 Σk=1 ・√k・(√1・σ2 1+2√2・σ2 2) を計算することによつて、得ることができる。
以下、同様にして、推定文字ピツチp∧(3),p∧(4)
と順次、推定文字ピツチを更新が行われる。
そこで、l個の最頻値文字塊間距離p1,p2,…
…pl及びサンプル数n1,n2,…nl及び分散σ2 1σ2 2
σ2 lを用いて、得られる最尤推定文字ピツチp∧(l)は p∧(l)=l Σk=1 w(k,nk)・4k/k より算出できる。また、この時点での推定誤差△
ε(l)は、 △ε(l)=l Σk=1 w(k,nk)・σ2 k より算出できる。
尚、上述した係数w(k,nk)は整数値k及び
最頻度数nkによつて定まり例えば、 k・√kl Σk=1 k・√k より得られる。更に、前述した最尤推定値p∧(l)及
び推定誤差△ε(l)は、加算部、乗算部、除算部に
よつて、容易に計算されることは言うまでもな
い。更に、加算や乗算部・除算部の順序性を変え
ることによつて、計算時間を減少させることも可
能である。
第3図は本発明の具体的一実施例を示す論理ブ
ロツク図である。走査装置1は紙面上に記載され
た文字列イメージを光学的に走査して、電気信号
に変換し、2値量子化後、文字列イメージメモリ
2へ書き込む。文字塊抽出装置3は、文字列イメ
ージメモリ2に格納された複数個の文字列イメー
ジから文字塊を順次抽出し、各文字塊の始点位置
及び大きさを文字塊レジスタ4へ格納する。尚、
文字塊の大きさは、文字塊の幅及び高さを表わす
ものとする。また、このような文字塊抽出装置
は、例えば、同一出願人による特願昭56−27512
号明細書で示されている技術を用いることができ
る。制御装置7は、順次、文字塊レジスタ4から
転送される文字塊の始点位置から文字塊間距離を
算出し、頻度分布テーブル6の対応する文字塊間
距離のアドレス位置の内容である頻度数をインク
リメントする。このようにして、メモリから構成
される頻度分布テーブル6に、第2図で示したよ
うな文字塊間距離の頻度分布が生成される。尚、
頻度分布テーブル6は、最初0に初期化されてい
るとする。
次に、制御装置7によつて、文字塊レジスタ4
に格納された複数個の文字塊の高さから平均高さ
Hnが算出され、予測区間算出部8へ転送される。
定数レジスタ20は、第2図で示した係数α1,α2
(但し、α1<α2)を格納し、定数レジスタ21は
第2図で示した係数α3を格納する。22はカウン
タであり、値k(但し、初期値として1)がセツ
トされている。制御装置7によつて、予測区間算
出部8へ、平均高さHnが入力されると、予測区
間算出部8は、定数レジスタ20より係数α1及び
α2を入力し、α1,Hn及びα2・Hnを前述した予測
区間の下限値及び上限値として算出し、最頻値文
字塊間距離検出部9へ転送する。一方、制御装置
7によつて、予測区間算出部8へ、後述する推定
文字ピツチp∧(k)が入力されると、予測区間算出部
8は、定数レジスタ21より係数α3を入力し、更
に、カウンタ22よりカウンタ値kを入力して、
k・p∧(k)−α3及びk・p∧(k)+α3を前述した予測

間の下限値及び上限値として算出し、最頻値文字
塊間距離検出部9へ転送する。
最頻値文字塊間距離検出部9は、予測区間算出
部8より入力された予測区間の下限値と上限値内
に属する文字塊間距離の頻度数を制御装置7を介
して、頻度分布テーブル6より読み出し、一定許
容幅△τ(但し、△τ=1,2…)で最頻値文字
塊間距離pkを求めレジスタ10に格納する。尚、
最頻値文字塊間距離pkは、カウンタ22の値kに
応じて、レジスタ10の所定の位置にセツトされ
る。存在区間算出部11は、カウンタ22の値k
に応じてレジスタ10の所定の位置にセツトされ
た最頻値文字塊間距離pkを読み出し、k文字の存
在範囲の上限値として、pk+1/2・(pk/k)を算出 し、レジスタ12の所定の位置に転送する。
尚、カウンタ22の値kが1の時、レジスタ1
0の所定の位置に格納された最頻値文字塊間距離
p1を読み出し、1文字の存在範囲の上限値とし
て、p1+1/2・p1を算出すると共に、1文字の存 在範囲の下限値として、p1−1/2・p1も同時に算 出し、レジスタ12の所定の位置に転送する。
文字塊間距離分散算出部13は、カウンタ22
の値kに応じて、レジスタ10にセツトされた最
頻値文字塊間距離pk及びレジスタ12にセツトさ
れたk文字の存在範囲の下限値pk-1+1/2 (pk-1/k−1)(但し、k=1の時p1−1/2p1とな
る) と上限値pk+1/2(pk/k)を用いて、制御装置7を 介して、頻度分布テーブル6を参照し、前述した
存在範囲に属するサンプル数nk個の文字塊間距離
Vi(i=1…nk)を順次読み出し、分散σ2 kを算出
し、分散σ2 k及びサンプル数nkを分散レジスタ14
の所定の位置に転送する。
前述した分散σ2 kとして、例えば、 1/nkok Σi=1 (Vi−pk2 を計算することにより得られる。
推定文字ピツチ演算部14は、カウンタ22の
値k及びレジスタ10の所定の位置に格納された
文字塊間距離p1,p2,…pk及び分散レジスタ13
の所定の位置に格納された分散σ2 1,σ2 2,…σ2 k及び
サンプル数n1,n2…nkを用いて、推定ピツチp∧(k)
及び推定誤差△εkを算出し、文字ピツチ情報レジ
スタ15へ格納する。
文字ピツチ情報レジスタ15に推定文字ピツチ
p∧(k)及び推定誤差△εkがセツトされると、制御装
置7によつてカウンタ22を1カウントアツプす
ると共に推定文字ピツチp∧(k)を予測区間算出部8
へ転送する。
前述した推定文字ピツチp∧(k)及び推定誤差△ε
(k)は、例えば第2図の説明において、示したよう
な計算式で求められる。
以上の動作が繰り返えされ、頻度分布テーブル
6上の文字塊間距離の頻度をすべて調べられる
と、文字ピツチの最適な推定値及び推定誤差△ε
(k)が文字ピツチ情報レジスタ15へセツトされ
る。1文字分離位置決定部5は、文字ピツチ情報
レジスタ15にセツトされた文字及び推定誤差△
ε(k)及び文字塊レジスタ4に格納された文字塊の
位置及び大きさに基づいて、一文字単位の文字イ
メージに分離する。1文字分離位置決定部5は公
知の技術を用いて行うことができる。
なお、“,”や“.”等について、予め従来行な
われているノイズ除去方法にてこれ等を取り除い
た後に本発明装置にて文字ピツチの検出を行なえ
ばより効果は大きく、特に文字数の少ない場合に
おいて効果が大きい。
以上、述べたように、本発明を用いることによ
り、予め文字ピツチがわからなくとも、また、文
字塊の接触や文字間の分離を含む文字イメージが
含まれていても正確に、文字ピツチを測定するこ
とが容易に実現できる。
【図面の簡単な説明】
第1図は、本発明が適用される文字列イメージ
の一部を一例として示した図である。第2図は、
紙面上の文字塊間距離の頻度分布の一例を示す図
である。第3図は、本発明の具体的一実施例を示
す論理ブロツク図である。 図において、1は走査装置、2は文字列イメー
ジメモリ、3は文字塊抽出装置、4は文字塊レジ
スタ、6は頻度分布テーブル、8は予測区間算出
部、9は最頻値文字塊間距離検出部、10はレジ
スタ、11は存在区間算出部、12は、レジス
タ、13は、文字塊間距離分散算出部、14は分
散レジスタ14,15は推定文字ピツチ演算部、
16は文字ピツチ情報レジスタ、20及び21は
定数レジスタ、22はカウンタ、5は、1文字分
離位置決定部、7は制御装置である。

Claims (1)

    【特許請求の範囲】
  1. 1 紙面上に記載された一連の文字列イメージを
    走査し、一文字単位に分離するための文字ピツチ
    を抽出する文字ピッチ検出装置において、前記一
    連の文字列イメージから白地で分離可能な複数個
    の文字塊を順次検出する手段と、前記複数個の文
    字塊の始端位置の間又は終端位置の間の距離を示
    す文字塊間距離を算出し、該文字塊間距離の頻度
    を記憶する頻度分布テーブルと、前記複数個の文
    字塊の高さから文字ピツチの予測区間を設定し、
    前記頻度分布テーブルを用いて、最頻度値文字塊
    間距離p1を該予測区間で検出する手段と、順次算
    出される前記最頻値文字塊間距離pk(但し、k=
    1,2……)からk文字の存在範囲を設定し、該
    存在範囲に属する複数個の該文字塊間距離におけ
    る分散σ2 k及びサンプル数nkを算出する手段と、
    算出されたk個の前記最頻値文字塊間距離p1,p2
    …pk及び該分散σ2 1,σ2 2…σ2 k及びサンプル数n1
    n2…nkを用いて、推定文字ピツチp∧(k)及び推定誤
    差を最光推定により算出する手段と、前記推定文
    字ピツチp∧(k)から、文字ピツチの(k+1)倍と
    なる該予測区間を設定し、前記頻度テーブルを用
    いて該最頻度値文字塊間距離Pk+1を該予測区間内
    で検出する手段とを有することを特徴とする文字
    ピツチ検出装置。
JP58161421A 1983-09-02 1983-09-02 文字ピッチ検出装置 Granted JPS6054084A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58161421A JPS6054084A (ja) 1983-09-02 1983-09-02 文字ピッチ検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58161421A JPS6054084A (ja) 1983-09-02 1983-09-02 文字ピッチ検出装置

Publications (2)

Publication Number Publication Date
JPS6054084A JPS6054084A (ja) 1985-03-28
JPH0471232B2 true JPH0471232B2 (ja) 1992-11-13

Family

ID=15734777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58161421A Granted JPS6054084A (ja) 1983-09-02 1983-09-02 文字ピッチ検出装置

Country Status (1)

Country Link
JP (1) JPS6054084A (ja)

Also Published As

Publication number Publication date
JPS6054084A (ja) 1985-03-28

Similar Documents

Publication Publication Date Title
EP0120334B1 (en) Letter pitch detection system
US5513277A (en) Measuring character and stroke sizes and spacings for an image
CN102982328A (zh) 字符识别装置和字符识别方法
EP0524797B1 (en) Image processing method and apparatus
JPH0471232B2 (ja)
JPH0430070B2 (ja)
JPH0468669B2 (ja)
JPH0410087A (ja) 基本ライン抽出方法
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JP2007280345A (ja) 画像処理装置、画像方向判別方法、および画像方向判別プログラム
JP2630261B2 (ja) 文字認識装置
JPH0326427B2 (ja)
JP4129898B2 (ja) 文字サイズ推定方法および装置
JPS60164878A (ja) 文字ピツチ検出装置
JP4136257B2 (ja) 文字認識装置、文字認識方法および記憶媒体
JPS60164879A (ja) 文字分離装置
JPS6054082A (ja) 光学文字読取装置
JPH04276885A (ja) 文字切出し装置
JP2778436B2 (ja) 文字切り出し装置
JPH0259502B2 (ja)
JP3411795B2 (ja) 文字認識装置
JPS62169286A (ja) 文字切出方式
JPH0632074B2 (ja) 正規化方法
JPS6223350B2 (ja)
JPH0676103A (ja) 文書画像の文章領域抽出装置