JPS59158478A - 文字ピツチ検出装置 - Google Patents
文字ピツチ検出装置Info
- Publication number
- JPS59158478A JPS59158478A JP58033068A JP3306883A JPS59158478A JP S59158478 A JPS59158478 A JP S59158478A JP 58033068 A JP58033068 A JP 58033068A JP 3306883 A JP3306883 A JP 3306883A JP S59158478 A JPS59158478 A JP S59158478A
- Authority
- JP
- Japan
- Prior art keywords
- character
- width
- register
- pitch
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は紙面上に記載された文字列イメージを個々に分
離するための文字ピッチを自動的に検出する文字ピッチ
検出装置に関するものである。
離するための文字ピッチを自動的に検出する文字ピッチ
検出装置に関するものである。
各種印刷文字群を光学的に読み堆る装置(以下0CTL
と呼ぶ)において、一連の文字を認識する場合、各文字
を1字毎に分離]7て文字認識部に選出してやる必要が
ある。各文字を1字毎に分離するために必要となる情報
として文字ピッチがあシ、OCRの読み取シ対象と々る
印刷物の大きさや種類が限定されれば、前もって、与え
ることができる。しかし、最近のように、OCRKおけ
る読み取シ対象も不特定な文字ピッチを持つ郵便物や文
書のような広汎な適用範囲のものがとられると、前取っ
て文字ピッチを知ることが出来ないため、紙面上の文字
列イメージから文字ピッチを推定する必要が生じる。
と呼ぶ)において、一連の文字を認識する場合、各文字
を1字毎に分離]7て文字認識部に選出してやる必要が
ある。各文字を1字毎に分離するために必要となる情報
として文字ピッチがあシ、OCRの読み取シ対象と々る
印刷物の大きさや種類が限定されれば、前もって、与え
ることができる。しかし、最近のように、OCRKおけ
る読み取シ対象も不特定な文字ピッチを持つ郵便物や文
書のような広汎な適用範囲のものがとられると、前取っ
て文字ピッチを知ることが出来ないため、紙面上の文字
列イメージから文字ピッチを推定する必要が生じる。
(2)
従来の文字ピッチの推定方法として、紙面上から抽出さ
れる一文字イメージに関する文字幅から得られる情報、
例えば、平均文字ピッチなどが用いられていた。しかし
、英印字文字のように1フオントや文字カテゴ9−KJ
って個々の文字幅が異なる場合には、上述した平均文字
ピッチと実際の文字ピッチとでは、文字の分離を行なう
時に生じる誤差が無視できなくなる。そのため、例えば
上述した平均文字ピッチを用いて、文字間で接触が生じ
た多くの文字を含む文字列イメージを分離した場合には
、接触した文字の個数を誤まったυ、不正確な分離位置
で切断されたシする。
れる一文字イメージに関する文字幅から得られる情報、
例えば、平均文字ピッチなどが用いられていた。しかし
、英印字文字のように1フオントや文字カテゴ9−KJ
って個々の文字幅が異なる場合には、上述した平均文字
ピッチと実際の文字ピッチとでは、文字の分離を行なう
時に生じる誤差が無視できなくなる。そのため、例えば
上述した平均文字ピッチを用いて、文字間で接触が生じ
た多くの文字を含む文字列イメージを分離した場合には
、接触した文字の個数を誤まったυ、不正確な分離位置
で切断されたシする。
そこで、本発明の目的は、上述した問題点を解決するた
めに、白地で分離可能な複数個の文字イメージ即ち、文
字塊から得られる平均高さ及び文字塊幅に関する頻度情
報に基づいて検出された1文字幅となシ、文字ピッチ検
出の対象とするための有効区間とその有効区間より設定
される許容スペース幅から一文字塊の連続であると認め
られる文字群を検出し、文字群内の文字数と文字群内の
(3) 文字塊幅と文字塊幅のスペース幅の累卵値に基づいて、
文字ピッチを推定するようにした文字ピッチ検出装置を
、提供することにある。
めに、白地で分離可能な複数個の文字イメージ即ち、文
字塊から得られる平均高さ及び文字塊幅に関する頻度情
報に基づいて検出された1文字幅となシ、文字ピッチ検
出の対象とするための有効区間とその有効区間より設定
される許容スペース幅から一文字塊の連続であると認め
られる文字群を検出し、文字群内の文字数と文字群内の
(3) 文字塊幅と文字塊幅のスペース幅の累卵値に基づいて、
文字ピッチを推定するようにした文字ピッチ検出装置を
、提供することにある。
本発明の他の目的は、紙面上の一連の文字イメージに、
文字間の接触を含む文字イメージや1文字が2文字に分
離する文字イメージが含まれていても、安定にしかも最
良な文字ピンチを推定することが可能な文字ピッチ検出
装置を提供することにある。
文字間の接触を含む文字イメージや1文字が2文字に分
離する文字イメージが含まれていても、安定にしかも最
良な文字ピンチを推定することが可能な文字ピッチ検出
装置を提供することにある。
本発明によれば、紙面上で記載された一連の文字列イメ
ージを走査し、−文字単位に分離するための文字ビッナ
を抽出する文字ピッチ検出装置において、一連の文字列
イメージから白地で分離可能な複数個の文字イメージ(
以下文字塊と呼ぶ)を順次、抽出し、文字塊の位置及び
高さを検出する手段と、文字塊毎の頻度情報を格納する
頻度テーブルと、複数個の文字塊高さから平均高さを算
出し、可能な一文字幅の範囲を設定する手段と、頻度テ
ーブル内の頻度情報を参照して、−文字幅の可能な範囲
内でt&頻値文字塊幅を検出する最頻(4) 値文字幅検出手段と、最頻値文字幅に基づいて、頻度テ
ーブルを参照しながら、文字ピッチPsの推定に有効な
一文字幅の区間(以下、有効区間と呼ぶ)を検出する有
効区間抽出手段と、再び、一連の文字イメージを走査し
1.抽出された複数個の文字塊の位置及び幅を順次参照
し、有効区間と有効区間より設定される許容スペース幅
から一文字塊の連続であると認められる文字群を検出し
、文字群内に含まれる文字数(以下連続数と呼ぶ)と文
字群内の文字塊幅及び文字塊幅間のスペース幅(以下、
スペース幅と呼ぶ)Kおける累卵値を連続数毎に検出す
る文字群幅抽出手段と、異なる連続数毎に得られる、累
卵値及び累卵値の数(以下、サンプル数と呼ぶ)に基づ
いて、文字ピッチの最尤推定値を算出する、文字ピッチ
推定手段とを有するととを特徴とした文字ピッチ検出装
置が得られる。
ージを走査し、−文字単位に分離するための文字ビッナ
を抽出する文字ピッチ検出装置において、一連の文字列
イメージから白地で分離可能な複数個の文字イメージ(
以下文字塊と呼ぶ)を順次、抽出し、文字塊の位置及び
高さを検出する手段と、文字塊毎の頻度情報を格納する
頻度テーブルと、複数個の文字塊高さから平均高さを算
出し、可能な一文字幅の範囲を設定する手段と、頻度テ
ーブル内の頻度情報を参照して、−文字幅の可能な範囲
内でt&頻値文字塊幅を検出する最頻(4) 値文字幅検出手段と、最頻値文字幅に基づいて、頻度テ
ーブルを参照しながら、文字ピッチPsの推定に有効な
一文字幅の区間(以下、有効区間と呼ぶ)を検出する有
効区間抽出手段と、再び、一連の文字イメージを走査し
1.抽出された複数個の文字塊の位置及び幅を順次参照
し、有効区間と有効区間より設定される許容スペース幅
から一文字塊の連続であると認められる文字群を検出し
、文字群内に含まれる文字数(以下連続数と呼ぶ)と文
字群内の文字塊幅及び文字塊幅間のスペース幅(以下、
スペース幅と呼ぶ)Kおける累卵値を連続数毎に検出す
る文字群幅抽出手段と、異なる連続数毎に得られる、累
卵値及び累卵値の数(以下、サンプル数と呼ぶ)に基づ
いて、文字ピッチの最尤推定値を算出する、文字ピッチ
推定手段とを有するととを特徴とした文字ピッチ検出装
置が得られる。
以下、本発明における具体的一実施例を参照して説明す
る。
る。
第1図は本発明が適用される文字列イメージの(5)
一部を示した一例である。図において、斜線で示した白
地で分離可能な文字イメージ即ち、文字塊を矩形領域で
示しており、図中Vi及びHi(i=1・・・9)は、
各文字塊の幅及び高さを示している。
地で分離可能な文字イメージ即ち、文字塊を矩形領域で
示しており、図中Vi及びHi(i=1・・・9)は、
各文字塊の幅及び高さを示している。
そこで、第1図を用いて、本発明の原理を要約する。一
連の文字塊における位置、及び高さ及び幅を検出すると
共に、得られた一連の文字塊幅の頻度分布(第2図参照
)K基づいて、文字ピッチを推定するのに有効な一文字
幅の有効区間を求める。
連の文字塊における位置、及び高さ及び幅を検出すると
共に、得られた一連の文字塊幅の頻度分布(第2図参照
)K基づいて、文字ピッチを推定するのに有効な一文字
幅の有効区間を求める。
この有効区間内に属する文字塊を対象として、連続数に
の文字塊幅及びスペース幅(例えば、図中を参照すると
、v、 、v、 、v6.v、及びVa、s r Va
11■。ttaVtr@であり連続数k = 4となる
)からその累卵値V(k)(例えば、図中■(4)に相
当する)を求める。上述した連fVak個の文字塊幅及
びスペース幅は第に−1−2番目の文字塊の位置及び第
k −1−1番目の文字塊の位置及び幅によって求まる
第に十1番目”) スペースm Vk+1 、 k+2
(図中Va + eニ相当する)が、後述する方法に
よって定まる許容スペース幅よシも大きくなれば、第1
番目から第に番(6) 目までの文字塊幅及びスペース幅を、連続数kを持つ文
字塊及びスペース幅として求めることができる。
の文字塊幅及びスペース幅(例えば、図中を参照すると
、v、 、v、 、v6.v、及びVa、s r Va
11■。ttaVtr@であり連続数k = 4となる
)からその累卵値V(k)(例えば、図中■(4)に相
当する)を求める。上述した連fVak個の文字塊幅及
びスペース幅は第に−1−2番目の文字塊の位置及び第
k −1−1番目の文字塊の位置及び幅によって求まる
第に十1番目”) スペースm Vk+1 、 k+2
(図中Va + eニ相当する)が、後述する方法に
よって定まる許容スペース幅よシも大きくなれば、第1
番目から第に番(6) 目までの文字塊幅及びスペース幅を、連続数kを持つ文
字塊及びスペース幅として求めることができる。
尚、図における文字塊の幅■8のように前述で示したよ
うな方法によシ連続数k(但し、k≧1)の文字塊が得
られないような孤立する1個の文字ピッチを推定するの
に有効ガ文字幅が得られた時、その文字塊幅を前述した
に=1の時の累積値■(1)として、検出することも可
能である。
うな方法によシ連続数k(但し、k≧1)の文字塊が得
られないような孤立する1個の文字ピッチを推定するの
に有効ガ文字幅が得られた時、その文字塊幅を前述した
に=1の時の累積値■(1)として、検出することも可
能である。
このようにして、異なる連続数に毎に得られたサンプル
数n (k)の累和値V (k) K基づいて、最適な
文字ピッチPgが推定される。尚、以下累和値V(k)
を連続数にで割ったスミ・VQc)を−文字予測幅と呼
ぶととにする。また、す/プル数n(k)の累和値の平
均累和値を累和値V (k)と表わすことKする。
数n (k)の累和値V (k) K基づいて、最適な
文字ピッチPgが推定される。尚、以下累和値V(k)
を連続数にで割ったスミ・VQc)を−文字予測幅と呼
ぶととにする。また、す/プル数n(k)の累和値の平
均累和値を累和値V (k)と表わすことKする。
さて、累和値V (k)を用いた一文字予測幅−V (
k)のに 性質を簡単に述べて置くと累和値V (k)は、隣接す
る文字幅間の間隔即ち、スペース幅も考慮されているた
めに一文字予測幅i−’V(k)は、連続数及びサンプ
ル数n (klが大きくなるとともに文字ピッチ(7) Ps との娯差が小さくなシ、文字ピッチPgの良好な
推定値となる。
k)のに 性質を簡単に述べて置くと累和値V (k)は、隣接す
る文字幅間の間隔即ち、スペース幅も考慮されているた
めに一文字予測幅i−’V(k)は、連続数及びサンプ
ル数n (klが大きくなるとともに文字ピッチ(7) Ps との娯差が小さくなシ、文字ピッチPgの良好な
推定値となる。
そこで、文字ピッチP8の推定値を簡単にイ9る方法と
して、前述した連続数にのうち、最長連続数MAX (
k)を持っ累和値V飼を連続数にで除算して得られる一
文字予測幅一 −V(MAX(k))をMAX(kl 文字ピッチpsの推定値として得ることができる。
して、前述した連続数にのうち、最長連続数MAX (
k)を持っ累和値V飼を連続数にで除算して得られる一
文字予測幅一 −V(MAX(k))をMAX(kl 文字ピッチpsの推定値として得ることができる。
一方、より精確な文字ピッチPsを推定する場合には2
個の異なる連続数に、に対して、得られたることKよっ
て文字ピッチP8の最良な線形推定値を得るととができ
る。
個の異なる連続数に、に対して、得られたることKよっ
て文字ピッチP8の最良な線形推定値を得るととができ
る。
尚、上述して係数w(ki、n(ki))は、連続数k
及びサンプル数nkKよって定まシ例えばJ−Qn−(
x〒)7Σk 1 oJri(K iアー より得られ
る。
及びサンプル数nkKよって定まシ例えばJ−Qn−(
x〒)7Σk 1 oJri(K iアー より得られ
る。
i二1
更に1前述した文字ピッチ推定値は、加算部、乗算部、
除算部によって、容易に計算されることは言うまでもな
い。更に1加算や乗算部・除算部の順序性を変えるとと
Kよって、計算時間を減少さく8) せ、計算誤差を減少させるようにすることも可能である
。更に係数w (kl −n (k 1 ) )を用い
ず、単に線形和で表わ゛される推定値としても良い。
除算部によって、容易に計算されることは言うまでもな
い。更に1加算や乗算部・除算部の順序性を変えるとと
Kよって、計算時間を減少さく8) せ、計算誤差を減少させるようにすることも可能である
。更に係数w (kl −n (k 1 ) )を用い
ず、単に線形和で表わ゛される推定値としても良い。
第2図は、第1図で示したような紙面上の文字塊幅の頻
度分布の一例を示している。図中、複数個の文字塊幅に
関する頻度分布の横軸■は、文字塊幅■の値を示してお
シ、縦軸NUM は、任慧の文字塊幅の値における頻度
値を示している。
度分布の一例を示している。図中、複数個の文字塊幅に
関する頻度分布の横軸■は、文字塊幅■の値を示してお
シ、縦軸NUM は、任慧の文字塊幅の値における頻度
値を示している。
そζで、本発明において、頻度分布に基づいて前述した
文字ピッチP、を推定するのに有効な複数個の文字塊幅
tよ、次のようにして求められる。最初に1図に示した
頻度分布から1文字となり得る可能な文字塊幅A1を求
める。ここで、区間A1は、第1図で示した複数個の文
字塊高さH,、H,・・・の平均高さ■(。と、係数α
1.α、(但し、α、〈α、)から設定することができ
る。
文字ピッチP、を推定するのに有効な複数個の文字塊幅
tよ、次のようにして求められる。最初に1図に示した
頻度分布から1文字となり得る可能な文字塊幅A1を求
める。ここで、区間A1は、第1図で示した複数個の文
字塊高さH,、H,・・・の平均高さ■(。と、係数α
1.α、(但し、α、〈α、)から設定することができ
る。
尚、平均高さHmは、複数個の文字高さの最大値に基づ
いて、高さの上限値と下限値を設けて、一定の区間内の
平均^さとして算出してもよい。
いて、高さの上限値と下限値を設けて、一定の区間内の
平均^さとして算出してもよい。
次に、区間AI内で、一定許容幅ΔI(図中△τ(9)
=3)で、最頻度を有する区間c8を求め、区間Csか
ら始めて、その上限値Usを頻度分布を滲照しながら、
増加する方向に更新することKよって、文字ピッチPs
を推定するのに有効な文字塊幅の有効区間CI の上
限値Uh下限値Llとする。
ら始めて、その上限値Usを頻度分布を滲照しながら、
増加する方向に更新することKよって、文字ピッチPs
を推定するのに有効な文字塊幅の有効区間CI の上
限値Uh下限値Llとする。
ここで、下限値り、は、区間c8の下限値り、がら頻度
分布を用いて更新を行なわない場合には、例えば欧文印
字文字における11” のような極端に文字幅が小さい
ものや、区読点及び−文字が2文字以上に分離したもの
を除去することが可能と女る@尚、例えば、文字幅の変
動が少ないような場合には、区間C8がら始めて、その
下限値U。
分布を用いて更新を行なわない場合には、例えば欧文印
字文字における11” のような極端に文字幅が小さい
ものや、区読点及び−文字が2文字以上に分離したもの
を除去することが可能と女る@尚、例えば、文字幅の変
動が少ないような場合には、区間C8がら始めて、その
下限値U。
を、頻度分布を参照しながら減少する方向に更新して、
有効区間c1に属する文字塊幅の数を増やし推定の信頼
性を上げることも可能である。
有効区間c1に属する文字塊幅の数を増やし推定の信頼
性を上げることも可能である。
第3図は、本発明の具体的一実施例を示す論理ブ四ツク
図である。走査装置1は、紙面上の記載された、文字列
イメージを光学的に走査して、電気信号に変換し、2値
量子化後、文字列イメージメモリ2へ書き込む。3は、
文字塊抽出装置であ(10) シ、文字列イメージメモリ2に格納された複数個の文字
列イメージから文字塊を順次抽出し、各文字塊の始端位
置及び大きさを文字塊レジスタ4へ格納する。尚、文字
塊の大きさは、文字塊幅及び文字塊高さを表わすものと
する。をた、このようA文字塊抽出装置11ま、例えば
、同一出願人による特願昭56−27512号明細書で
示されている技術を用いて求めるととができる。文字塊
レジスタ4に格納された複数個の文字塊幅は、制御装置
7へ、順次送られる9、制御装置7は、順次、転送され
る文字塊幅をメモリから構成される頻度テーブル6のア
ドレスに変換し、変換したアドレスに対応する頻度テー
ブル6の内容を、読み出し、インクリメントした後、頻
度テーブル6内の同一記憶場所に再度書き込まれる。こ
のようにして、頻度テーブル6内に文字列イメージメモ
リ2よシ抽出された文字塊幅Vの頻度値が、頻度テーブ
ル5のアドレスV番地に格納されることによって、第2
図で示したような文字塊幅に関する頻度分布が頻度テー
ブル6に格能されることKなる。。
図である。走査装置1は、紙面上の記載された、文字列
イメージを光学的に走査して、電気信号に変換し、2値
量子化後、文字列イメージメモリ2へ書き込む。3は、
文字塊抽出装置であ(10) シ、文字列イメージメモリ2に格納された複数個の文字
列イメージから文字塊を順次抽出し、各文字塊の始端位
置及び大きさを文字塊レジスタ4へ格納する。尚、文字
塊の大きさは、文字塊幅及び文字塊高さを表わすものと
する。をた、このようA文字塊抽出装置11ま、例えば
、同一出願人による特願昭56−27512号明細書で
示されている技術を用いて求めるととができる。文字塊
レジスタ4に格納された複数個の文字塊幅は、制御装置
7へ、順次送られる9、制御装置7は、順次、転送され
る文字塊幅をメモリから構成される頻度テーブル6のア
ドレスに変換し、変換したアドレスに対応する頻度テー
ブル6の内容を、読み出し、インクリメントした後、頻
度テーブル6内の同一記憶場所に再度書き込まれる。こ
のようにして、頻度テーブル6内に文字列イメージメモ
リ2よシ抽出された文字塊幅Vの頻度値が、頻度テーブ
ル5のアドレスV番地に格納されることによって、第2
図で示したような文字塊幅に関する頻度分布が頻度テー
ブル6に格能されることKなる。。
尚、頻度テーブル6は、最初0に初期化されているとす
る。一方、制令釦装置7によって、文字塊レジスタ4に
格能された複数個の文字塊高さの平均値Hmが求められ
、1文字幅クラス初期情報抽出手段5へ送られる。1文
字幅クラス初期情報抽出手段5け、平均の文字塊高さH
mによって設定される範囲(α1Hm〜αtHm)内に
おいて、一定許容幅Δτで最頻値を持つ第2図で示しよ
うな区間C5(Ls、U’s)を頻度テーブル6によっ
て求め、その上限値Us及び下限値Lsを初期情報とし
、初期情報レジスタHに格納される。尚、1文字幅クラ
ス初期情報抽出手段5は、同一出願人による同−出願臼
の出願明細書(文字分離装置)で示される技術を用いて
求めることができる。9け、文字ピッチPsを検出する
のに有効な文字塊幅の有効区間を検出するだめの有効文
字塊幅検出手段である。有効文字塊幅検出手段9におい
て、初期情報レジスタ8に格納された上限値U3がカウ
ンタ91にセットされると、1カウントアツプされ、カ
ウンター82の内容である文字塊幅に対応する頻度値を
、制御装置7によって、頻度テーブル6から読み出し、
頻度値レジスタ83に格納された後、ゼロ検出回路93
によって、0か否かの判定か行なわれる。ゼロ検出回路
93によって、頻度値レジスタ83の内容がOであると
判定されると、カウンタ91の内容が、有効文字塊幅の
上限値U。
る。一方、制令釦装置7によって、文字塊レジスタ4に
格能された複数個の文字塊高さの平均値Hmが求められ
、1文字幅クラス初期情報抽出手段5へ送られる。1文
字幅クラス初期情報抽出手段5け、平均の文字塊高さH
mによって設定される範囲(α1Hm〜αtHm)内に
おいて、一定許容幅Δτで最頻値を持つ第2図で示しよ
うな区間C5(Ls、U’s)を頻度テーブル6によっ
て求め、その上限値Us及び下限値Lsを初期情報とし
、初期情報レジスタHに格納される。尚、1文字幅クラ
ス初期情報抽出手段5は、同一出願人による同−出願臼
の出願明細書(文字分離装置)で示される技術を用いて
求めることができる。9け、文字ピッチPsを検出する
のに有効な文字塊幅の有効区間を検出するだめの有効文
字塊幅検出手段である。有効文字塊幅検出手段9におい
て、初期情報レジスタ8に格納された上限値U3がカウ
ンタ91にセットされると、1カウントアツプされ、カ
ウンター82の内容である文字塊幅に対応する頻度値を
、制御装置7によって、頻度テーブル6から読み出し、
頻度値レジスタ83に格納された後、ゼロ検出回路93
によって、0か否かの判定か行なわれる。ゼロ検出回路
93によって、頻度値レジスタ83の内容がOであると
判定されると、カウンタ91の内容が、有効文字塊幅の
上限値U。
として、レジスタ10へセットされる。一方、ゼロ検出
回路93によって、頻度値レジスタ83の内容が0でな
いと判定されると、カウンター91が、1カウントアツ
プされ、上述した動作が繰シ返えされる。尚、初期情報
レジスタ8の内容である下限値L3は制御装置7によっ
て、更新されずに、レジスタIOK有効文字塊幅の下限
値L1 として、セットされるものとする。尚、有効
文字幅検出手段酸、初期情報レジスタ8に格納された上
限値U3を増加させ、頻度テーブル6を参照しながら、
文字塊幅の頻度値が極小値となる文字幅を有効区間の上
限値U、 として検出するようにすることも可納であ
るととは言うまでもない。11は、文字群幅抽出手段で
ある。文字群幅抽出手段1tl(13) は、連続数k(但し、k≧2)の有効区間に属する文字
塊Vt 、 ’Vt ”’ 及びスヘースQ’N vt
+ 1 * ■tps・・・・・・V k 、 kト
1の累卵値” (k)を検出し、連続数k 15に抽出
されたサンプル数n (k)の累卵値V (k)を観?
!+11テーブル12へ順次格納する。文字ピッチ推定
手段13は、観測テーブル12に順次格納された連続数
に毎に抽出されたサンプル数n(k)個の累卵値V (
klに基づいて、文字ピッチPsの最適な推定値が求め
られる。
回路93によって、頻度値レジスタ83の内容が0でな
いと判定されると、カウンター91が、1カウントアツ
プされ、上述した動作が繰シ返えされる。尚、初期情報
レジスタ8の内容である下限値L3は制御装置7によっ
て、更新されずに、レジスタIOK有効文字塊幅の下限
値L1 として、セットされるものとする。尚、有効
文字幅検出手段酸、初期情報レジスタ8に格納された上
限値U3を増加させ、頻度テーブル6を参照しながら、
文字塊幅の頻度値が極小値となる文字幅を有効区間の上
限値U、 として検出するようにすることも可納であ
るととは言うまでもない。11は、文字群幅抽出手段で
ある。文字群幅抽出手段1tl(13) は、連続数k(但し、k≧2)の有効区間に属する文字
塊Vt 、 ’Vt ”’ 及びスヘースQ’N vt
+ 1 * ■tps・・・・・・V k 、 kト
1の累卵値” (k)を検出し、連続数k 15に抽出
されたサンプル数n (k)の累卵値V (k)を観?
!+11テーブル12へ順次格納する。文字ピッチ推定
手段13は、観測テーブル12に順次格納された連続数
に毎に抽出されたサンプル数n(k)個の累卵値V (
klに基づいて、文字ピッチPsの最適な推定値が求め
られる。
本発明における文字ピッチ推定手段13の1形態として
、最大値検出回路と平均値算出回路(図中省略)から構
成された簡単な回路忙よっても実現できる。即ち、観測
テーブル12から最長連続数MAX(k)を持つ累卵値
V (MAX(kl) を、最大値検出回路によって
、検出し、平均値算出回路によって、n (MA、X(
k))個の抽出された累卵値V(MAX(k))の平均
値累卵V (MAX(kl )を文字ピッチP。
、最大値検出回路と平均値算出回路(図中省略)から構
成された簡単な回路忙よっても実現できる。即ち、観測
テーブル12から最長連続数MAX(k)を持つ累卵値
V (MAX(kl) を、最大値検出回路によって
、検出し、平均値算出回路によって、n (MA、X(
k))個の抽出された累卵値V(MAX(k))の平均
値累卵V (MAX(kl )を文字ピッチP。
の推定値として検出される。14は、−文字分離手段で
ある。−文字分離手段14は、文字ピッグ−推定手段1
3によって得られた文字ピッチPs及(14) び文字塊レジスタ4に格納された文字塊の位置及び大き
さ情報に基づいて、−文字単位の分離が行なわれ、公知
の技術を用いて行なうことができる。
ある。−文字分離手段14は、文字ピッグ−推定手段1
3によって得られた文字ピッチPs及(14) び文字塊レジスタ4に格納された文字塊の位置及び大き
さ情報に基づいて、−文字単位の分離が行なわれ、公知
の技術を用いて行なうことができる。
第4図は、文字群幅抽出手段の具体的一実施例を示す論
理ブロック図である。
理ブロック図である。
尚、信号線の末尾にSを付けることKよシその信号を表
わすものとする。最初に、制御装置7によって、文字塊
レジスタ4に格納された一連の文字塊幅V、、V、l−
・・は、抽出された順序でレジスタ20に格納され、更
に一連の文字塊の幅及び位置に基づいて、前述したスペ
ース幅v、 ?21 VP+1・・・・・・が算出され
、順次、レジスタ23に格納されているものとする。比
較部22は、制御装置7によって順次転送されるレジス
タ20 K格納された文字塊幅Vj(但し、iは抽出さ
れた順序を示す)がレジスタ10に格納された有効区間
に属するか否かを調べ、有効区間に属するのであれば、
文字塊検知信号101st−月2に11文字塊幅vIを
レジスタ20 K格納する。有効区間に属さなければ、
文字塊検知信号101sを@0”にする。
わすものとする。最初に、制御装置7によって、文字塊
レジスタ4に格納された一連の文字塊幅V、、V、l−
・・は、抽出された順序でレジスタ20に格納され、更
に一連の文字塊の幅及び位置に基づいて、前述したスペ
ース幅v、 ?21 VP+1・・・・・・が算出され
、順次、レジスタ23に格納されているものとする。比
較部22は、制御装置7によって順次転送されるレジス
タ20 K格納された文字塊幅Vj(但し、iは抽出さ
れた順序を示す)がレジスタ10に格納された有効区間
に属するか否かを調べ、有効区間に属するのであれば、
文字塊検知信号101st−月2に11文字塊幅vIを
レジスタ20 K格納する。有効区間に属さなければ、
文字塊検知信号101sを@0”にする。
文字塊検知信号101sが11” Kなると、制御装置
7は、レジスタ21に格納されたスペース幅Vl、i+
1を比較部25へ転送する。尚、許容値レジスタ24に
は第3図で述べた1文字幅クラス初期情報抽出手段5に
よってセットされた初期情報レジスタ8の内容である一
文字幅内の最頻値に基づいて、設定された許容スペース
幅を、制御装置7によって、予め、セットされてhるも
のとする。
7は、レジスタ21に格納されたスペース幅Vl、i+
1を比較部25へ転送する。尚、許容値レジスタ24に
は第3図で述べた1文字幅クラス初期情報抽出手段5に
よってセットされた初期情報レジスタ8の内容である一
文字幅内の最頻値に基づいて、設定された許容スペース
幅を、制御装置7によって、予め、セットされてhるも
のとする。
また、許容値レジスタ24の内容は例えば、−文字以上
の空白などによる単語の区切シ等を検知するために用い
られる。文字塊検知信号101sが11″となると、制
御装置7によって、レジスタ20に格納されたスペース
幅Vi、i+1が比較部25へ4送られる。比較部25
は、許容値レジスタ24の内容と、スペース幅Vj 、
i千1とを比較し、スペース幅Vi 、 14−1
が許容値レジスタの内容よシも小さければ、区切シ検知
信号102stl−”l”にし、スペース@Vl、I+
1が許容値レジスタの内容よシも大きくガれば、区切シ
検知信号102$を頌”にする・区切り検知信号102
gが01″になると、制御装置7によって、スペース#
ii V+ 、 t+1及び、レジスタ23 K格納さ
れた文字塊幅Yz を加算部26へ送られる。加勢部2
6Fi、、前述した文字塊幅■1 とスペース幅Vi
、 I+1及び累卵値レジスタ27の内容とを、加算し
、累卵値レジスタ27へ格納する。尚、累卵値、レジス
タ27は最初0にセットされているとする。連続数カウ
ンター28は、前述した文字塊検知信号101sが”1
”となることによって有効区間に属する文字塊幅が検出
されると、制御装置7によって、1カウントアツプされ
る。尚、連続数カウンター28は、当初0にリセットさ
れているとする。以上の動作が文字塊検知信号101m
が@1011になるかあるいは区切シ検知信号102s
が0”(になるまで行なわれる。
の空白などによる単語の区切シ等を検知するために用い
られる。文字塊検知信号101sが11″となると、制
御装置7によって、レジスタ20に格納されたスペース
幅Vi、i+1が比較部25へ4送られる。比較部25
は、許容値レジスタ24の内容と、スペース幅Vj 、
i千1とを比較し、スペース幅Vi 、 14−1
が許容値レジスタの内容よシも小さければ、区切シ検知
信号102stl−”l”にし、スペース@Vl、I+
1が許容値レジスタの内容よシも大きくガれば、区切シ
検知信号102$を頌”にする・区切り検知信号102
gが01″になると、制御装置7によって、スペース#
ii V+ 、 t+1及び、レジスタ23 K格納さ
れた文字塊幅Yz を加算部26へ送られる。加勢部2
6Fi、、前述した文字塊幅■1 とスペース幅Vi
、 I+1及び累卵値レジスタ27の内容とを、加算し
、累卵値レジスタ27へ格納する。尚、累卵値、レジス
タ27は最初0にセットされているとする。連続数カウ
ンター28は、前述した文字塊検知信号101sが”1
”となることによって有効区間に属する文字塊幅が検出
されると、制御装置7によって、1カウントアツプされ
る。尚、連続数カウンター28は、当初0にリセットさ
れているとする。以上の動作が文字塊検知信号101m
が@1011になるかあるいは区切シ検知信号102s
が0”(になるまで行なわれる。
次に1文字塊検知信号1013が0”になると、有効区
間に属さない文字塊幅が検知されたと解釈し、制御袋f
f17によって、連続数カウンター13および累卵値レ
ジスタ27の内容がa611Iテーブル12に格納され
、カウンター13の内容をリセットする。尚、カウンタ
ー13の内容が0であれば(17) 観測テーブル12へのセットは行なわれないとする。一
方、区切り検知信号102sが0″になると単語間のス
ペース等が検知されたと力l釈し、制御装置7によって
連続数カウンター13を1減少させ、連続数カウンター
13及び累卵値レジスタ27の内容が観測テーブル】2
に格納され、カウンター13の内容をリセットする。
間に属さない文字塊幅が検知されたと解釈し、制御袋f
f17によって、連続数カウンター13および累卵値レ
ジスタ27の内容がa611Iテーブル12に格納され
、カウンター13の内容をリセットする。尚、カウンタ
ー13の内容が0であれば(17) 観測テーブル12へのセットは行なわれないとする。一
方、区切り検知信号102sが0″になると単語間のス
ペース等が検知されたと力l釈し、制御装置7によって
連続数カウンター13を1減少させ、連続数カウンター
13及び累卵値レジスタ27の内容が観測テーブル】2
に格納され、カウンター13の内容をリセットする。
尚、区切シ検知信号102sがO″にガル、連続数カウ
ンター13が1である場合制御装置7によって、レジス
タ23の内容である文字塊幅及び連続数カウンター13
の内容(但し、内容は1である)を観測チーフル12に
格納してもよい。
ンター13が1である場合制御装置7によって、レジス
タ23の内容である文字塊幅及び連続数カウンター13
の内容(但し、内容は1である)を観測チーフル12に
格納してもよい。
以上の動作を、レジスタ20に順欠格納されたすべての
文字塊幅に対して行なわれる。
文字塊幅に対して行なわれる。
第5図は、第3図で示した文字ピッチ推定手段の他の一
形態を示す具体的一実施例のブロック図である。
形態を示す具体的一実施例のブロック図である。
尚、図において、文字ピッチ推定:P段13は点線で示
されている=まだ、観測テーブル12にit第3図およ
びM4図で示したに文字ピッチ抽出子(18) 段11によって、7個の異なる連続数ki(但し量=1
−・・・・・l)毎に、サンプル数n (kI)個の累
和値V(k i )が格納されるとし、また、前述した
連続数k t iの累和値V(ki) が順次セット
される時に、制御装置7によって、サンプル数n(+c
t)がカウントされ、観測テーブル12の所定のエリア
に格能されているとする。最初に1観測テーブル12内
の連続数ki及びサンプル数rt (kl) til[
次、積算部31へ送られると同時に、観測テーブル内の
連続数に1を持つn(ki)個の累和値v(ki)は、
加算部32へ送られる。積算部31は、連続数kiとサ
ングル数n(ki)の積をki 、f’1(ki)を求
め、除算部33へ積ki・It(kI)を転送する。加
算部32醜”(kl)個の累和値v(kI)を加算し、
除算部33は、 n (kl)個の累和値V(ki)を
積kl”n(ki)で除算するととKよって、連続数k
l よシ得られる一文字予測幅一・V(kI)、(但
し、V[ki)はすkl ンプル数n (J)個の平均累和値である)を積算部3
5へ送られる。34は係数テーブルであシ、前述した連
続数kl 及びサンプル数n (kI)によって定ま
る係数α(ki、n(ki))が格納されている。
されている=まだ、観測テーブル12にit第3図およ
びM4図で示したに文字ピッチ抽出子(18) 段11によって、7個の異なる連続数ki(但し量=1
−・・・・・l)毎に、サンプル数n (kI)個の累
和値V(k i )が格納されるとし、また、前述した
連続数k t iの累和値V(ki) が順次セット
される時に、制御装置7によって、サンプル数n(+c
t)がカウントされ、観測テーブル12の所定のエリア
に格能されているとする。最初に1観測テーブル12内
の連続数ki及びサンプル数rt (kl) til[
次、積算部31へ送られると同時に、観測テーブル内の
連続数に1を持つn(ki)個の累和値v(ki)は、
加算部32へ送られる。積算部31は、連続数kiとサ
ングル数n(ki)の積をki 、f’1(ki)を求
め、除算部33へ積ki・It(kI)を転送する。加
算部32醜”(kl)個の累和値v(kI)を加算し、
除算部33は、 n (kl)個の累和値V(ki)を
積kl”n(ki)で除算するととKよって、連続数k
l よシ得られる一文字予測幅一・V(kI)、(但
し、V[ki)はすkl ンプル数n (J)個の平均累和値である)を積算部3
5へ送られる。34は係数テーブルであシ、前述した連
続数kl 及びサンプル数n (kI)によって定ま
る係数α(ki、n(ki))が格納されている。
例えば、係数α(kl、n(J))の−例として値ki
−v’iη丁が連続数ki及びサンプル数n(kl)に
対して、決めることができる。積算部35に、連続数k
i及びサンプル数n (ki)個よシ得られ − る−文字予測幅1・V (ki)が送られると、制御装
置7によって、係数テーブル34 より係数w(ki、
n(ki))が積算部35に読み出されると同時に係数
加算部36へも送られる。積算部35において係数α(
kI 、n(kI))と連続数に1 よシ得られる3
7へ送られる。加算部37は、順次送られる7個の異な
る連続数に、 よシ得られる重み付けられ除算部38へ
送られる。
−v’iη丁が連続数ki及びサンプル数n(kl)に
対して、決めることができる。積算部35に、連続数k
i及びサンプル数n (ki)個よシ得られ − る−文字予測幅1・V (ki)が送られると、制御装
置7によって、係数テーブル34 より係数w(ki、
n(ki))が積算部35に読み出されると同時に係数
加算部36へも送られる。積算部35において係数α(
kI 、n(kI))と連続数に1 よシ得られる3
7へ送られる。加算部37は、順次送られる7個の異な
る連続数に、 よシ得られる重み付けられ除算部38へ
送られる。
一方、係数加算部37は、順次送られる1個の裸出され
、除算部38へ送られる。除算部38におッチP、の線
形推定値が として得られる。
、除算部38へ送られる。除算部38におッチP、の線
形推定値が として得られる。
尚、第5図で示した文字ピッチ手段13は、第1図を参
照して本発明の詳細な説明した最良な線係数w (kI
、n(J))の除算回数を減少させるようにした実施例
の1′)である。即ち、−文字予測幅まるから11、・
、 前述した最良な線形推定値の、求め方として、用いるハ
ードウェア素子によっては、処理時間や計算精度も考慮
して、除算回数等を減少させる必要があれば、例えば累
和値V (ki) に関するサンプ(21) ル数n(i)及び連続数kj による除算計算を最初に
行なわず、最後に行なうようにすることも可能であるこ
とは言うまで本ない。
照して本発明の詳細な説明した最良な線係数w (kI
、n(J))の除算回数を減少させるようにした実施例
の1′)である。即ち、−文字予測幅まるから11、・
、 前述した最良な線形推定値の、求め方として、用いるハ
ードウェア素子によっては、処理時間や計算精度も考慮
して、除算回数等を減少させる必要があれば、例えば累
和値V (ki) に関するサンプ(21) ル数n(i)及び連続数kj による除算計算を最初に
行なわず、最後に行なうようにすることも可能であるこ
とは言うまで本ない。
以上、述べたように、本発明を用いることKよシ、予め
文字ピッチがわからなくとも、また、文字間の接触や文
字間の分離を含む文字イメージが含まれていても正確に
、文字ピッチを測定することが容易に実現できる。
文字ピッチがわからなくとも、また、文字間の接触や文
字間の分離を含む文字イメージが含まれていても正確に
、文字ピッチを測定することが容易に実現できる。
第1図は、本発明が適用される文字列イメージの一部を
一例として示した図である。 第2図は、紙面上の文字塊幅の頻度分布の一例を示す図
である。 ” 第3図は、本発明の具体的一実施例を示す論理ブロック
図である。 第4図は、文字群抽出手段11の具体的一実施例を示す
ブロック図である。 第5図は、文字ピッチ推定手段の他の一形態を示す具体
的−冥施例を示すブロック図である〇(22) 図において、1は走査装置、2け文字列イメージメモリ
、3は文字塊抽出装置、4は文字塊レジスタ、5は1文
字幅クラス初期情報抽出手段、6は頻度テーブル、7は
制御装置、8は初期情報レジスタ、9Fi有効文字塊検
出手段、1oはレジスタ、11は文字塊抽出装置、12
は観測テーブル、13は文字ピッチ推定手段、14は一
文字分離手段である。 代理人 1p):・+(、、H,1,lj、 F(
23) 第 η 肥 μ 菊 5 区 /Z
一例として示した図である。 第2図は、紙面上の文字塊幅の頻度分布の一例を示す図
である。 ” 第3図は、本発明の具体的一実施例を示す論理ブロック
図である。 第4図は、文字群抽出手段11の具体的一実施例を示す
ブロック図である。 第5図は、文字ピッチ推定手段の他の一形態を示す具体
的−冥施例を示すブロック図である〇(22) 図において、1は走査装置、2け文字列イメージメモリ
、3は文字塊抽出装置、4は文字塊レジスタ、5は1文
字幅クラス初期情報抽出手段、6は頻度テーブル、7は
制御装置、8は初期情報レジスタ、9Fi有効文字塊検
出手段、1oはレジスタ、11は文字塊抽出装置、12
は観測テーブル、13は文字ピッチ推定手段、14は一
文字分離手段である。 代理人 1p):・+(、、H,1,lj、 F(
23) 第 η 肥 μ 菊 5 区 /Z
Claims (1)
- 【特許請求の範囲】 紙面上に記載された一連の文字列イメージを走査し、−
文字単位に分離するための文字ピッチを抽出する文字ピ
ッチ検出装置において、前記一連の文字列イメージから
白地で分離可能な複数個の文字塊を順次抽出し、該文字
塊の位置と幅と高さ及び頻度を検出する手段と、前記複
数個の文字塊から算出される平均高さと前記頻度を用い
て、文字ピッチの推定に有効な一文字幅の区間を設定す
る有効区間検出手段と、前記複数個の文字塊において、
該有効区間と該有効区間より設定される許容スペース幅
から一文字塊の連続であると認められる文字群を検出し
、該文字群に含まれる文字数と該文字塊幅及び該文字塊
幅間のスペース幅の累和値を算出する文字群幅抽出手段
と、前記文字数毎の該累和値及び該累和筐の数から文字
ピッチの(1) 最尤推定を行なう文字ピッチ推定手段とを有することを
特徴とした文字ピッチ検出装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58033068A JPS59158478A (ja) | 1983-03-01 | 1983-03-01 | 文字ピツチ検出装置 |
| DE8484102139T DE3480667D1 (de) | 1983-03-01 | 1984-02-29 | System zum bestimmen des zeichenabstandes. |
| EP84102139A EP0120334B1 (en) | 1983-03-01 | 1984-02-29 | Letter pitch detection system |
| US06/585,130 US4594732A (en) | 1983-03-01 | 1984-03-01 | Letter pitch detection system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58033068A JPS59158478A (ja) | 1983-03-01 | 1983-03-01 | 文字ピツチ検出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS59158478A true JPS59158478A (ja) | 1984-09-07 |
| JPH0326427B2 JPH0326427B2 (ja) | 1991-04-10 |
Family
ID=12376407
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58033068A Granted JPS59158478A (ja) | 1983-03-01 | 1983-03-01 | 文字ピツチ検出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS59158478A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0337782A (ja) * | 1989-07-04 | 1991-02-19 | Mitsubishi Electric Corp | 文字パターン切り出し装置 |
-
1983
- 1983-03-01 JP JP58033068A patent/JPS59158478A/ja active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0337782A (ja) * | 1989-07-04 | 1991-02-19 | Mitsubishi Electric Corp | 文字パターン切り出し装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0326427B2 (ja) | 1991-04-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4594732A (en) | Letter pitch detection system | |
| US4948955A (en) | Barcode location determination | |
| US4481665A (en) | Character segmentation method | |
| EP0555024B1 (en) | Method and apparatus for pattern recognition | |
| US4899394A (en) | Apparatus and method for image compression | |
| EP0621542A2 (en) | Method and apparatus for automatic language determination of a script-type document | |
| JPH05500129A (ja) | 光学式文字認識のための行ごとのセグメント化及びしきい値設定 | |
| JPH1075351A (ja) | テキストのバイナリー画像から抽出されたシンボルを比較する方法 | |
| JP3977468B2 (ja) | シンボル分類装置 | |
| US5923782A (en) | System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings | |
| JPS59158478A (ja) | 文字ピツチ検出装置 | |
| EP4036871B1 (en) | Image processing apparatus, image processing method, program and storage medium | |
| EP0496531A2 (en) | Method and system for layout analysis of a document image | |
| JPH0410087A (ja) | 基本ライン抽出方法 | |
| JP2004280691A (ja) | 文書ファイリング装置 | |
| JP3914119B2 (ja) | 文字認識方法および文字認識装置 | |
| JPH0277891A (ja) | 文字認識装置 | |
| JPS60164878A (ja) | 文字ピツチ検出装置 | |
| JP2714012B2 (ja) | 宛名領域検出装置 | |
| JPH0468669B2 (ja) | ||
| EP0113119B1 (en) | Character pitch detecting apparatus | |
| JPS60164879A (ja) | 文字分離装置 | |
| JPH0750496B2 (ja) | 画信号処理装置 | |
| JPS58214969A (ja) | 文字読取装置 | |
| JPH0822507A (ja) | 文書認識装置 |