JPH04264993A - 一文字切り出し方法 - Google Patents
一文字切り出し方法Info
- Publication number
- JPH04264993A JPH04264993A JP3026020A JP2602091A JPH04264993A JP H04264993 A JPH04264993 A JP H04264993A JP 3026020 A JP3026020 A JP 3026020A JP 2602091 A JP2602091 A JP 2602091A JP H04264993 A JPH04264993 A JP H04264993A
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- storage area
- stored
- product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、文字認識装置において
、文書のイメージ情報中で連結した文字を分離する一文
字切り出し方法に関する。
、文書のイメージ情報中で連結した文字を分離する一文
字切り出し方法に関する。
【0002】
【従来の技術】文字認識装置において、文書自体に文字
同士の黒画素の連結がある、もしくはスキャナーの解像
度が十分でないことにより文字同士の黒画素の連結を生
じることがある。このように連結した文字は強制的に分
離をする必要がある。
同士の黒画素の連結がある、もしくはスキャナーの解像
度が十分でないことにより文字同士の黒画素の連結を生
じることがある。このように連結した文字は強制的に分
離をする必要がある。
【0003】そこで、文字が連結している場合、従来は
一文字に分離するために、例えば横書き文書の場合、連
結した文字の垂直方向の射影(水平軸に対する射影)を
求め、射影した値が特定の数値以下の部分で強制的に分
離する方法や、連結した文字を含む文字列全体の垂直方
向の射影を求め、射影した値がゼロとなる位置の周期性
から連結した文字の分離位置を決定した。
一文字に分離するために、例えば横書き文書の場合、連
結した文字の垂直方向の射影(水平軸に対する射影)を
求め、射影した値が特定の数値以下の部分で強制的に分
離する方法や、連結した文字を含む文字列全体の垂直方
向の射影を求め、射影した値がゼロとなる位置の周期性
から連結した文字の分離位置を決定した。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
連結した文字の分離方法によると、射影した値が特定の
数値以下となる部分が複数個存在し、分離位置が決定で
きなかったり、文字幅、文字間隔が等しくないために、
射影した値がゼロとなる位置のの周期性がなく、連結し
た文字の分離位置を誤ったりすることがあった。
連結した文字の分離方法によると、射影した値が特定の
数値以下となる部分が複数個存在し、分離位置が決定で
きなかったり、文字幅、文字間隔が等しくないために、
射影した値がゼロとなる位置のの周期性がなく、連結し
た文字の分離位置を誤ったりすることがあった。
【0005】そこで本発明はこのような問題点を解決す
るもので、その目的とするところは連結した文字の部分
の周辺分布と線密度を併用することにより、文字幅や文
字間隔が等しくない文書中にある連結した文字に対応で
き、しかも文字の分離位置を探索する範囲のみを処理す
るので処理速度が速く、文字分離位置を決定できる方法
を提供するところにある。
るもので、その目的とするところは連結した文字の部分
の周辺分布と線密度を併用することにより、文字幅や文
字間隔が等しくない文書中にある連結した文字に対応で
き、しかも文字の分離位置を探索する範囲のみを処理す
るので処理速度が速く、文字分離位置を決定できる方法
を提供するところにある。
【0006】
【課題を解決するための手段】本発明による文字分離方
法は、処理対象の各行に連結した文字がある場合、文字
の分離位置を探索する範囲を設定し、設定した範囲内で
連結した文字のイメージから周辺分布と線密度を求め、
求めた周辺分布と線密度の各走査位置での積を求め、求
めた積から連結した文字の分離位置を決定することを特
徴とする。
法は、処理対象の各行に連結した文字がある場合、文字
の分離位置を探索する範囲を設定し、設定した範囲内で
連結した文字のイメージから周辺分布と線密度を求め、
求めた周辺分布と線密度の各走査位置での積を求め、求
めた積から連結した文字の分離位置を決定することを特
徴とする。
【0007】
【実施例】(実施例1)以下本発明の実施例につき図面
を用いて詳細に説明する。
を用いて詳細に説明する。
【0008】図1は本発明の実施に必要な装置構成を示
すブロック図である。10は文書画像を入力するための
スキャナー、11は処理を実行するためのCPU、12
は各処理のプログラムを格納したROM、13は画像や
処理に関連したデータ、処理結果を格納するためのRA
Mである。図1では各処理のプログラムをROM12に
格納したが、ROM12の代りにRAMに各処理のプロ
グラムをロードしてから処理を始めてもかまわない。
すブロック図である。10は文書画像を入力するための
スキャナー、11は処理を実行するためのCPU、12
は各処理のプログラムを格納したROM、13は画像や
処理に関連したデータ、処理結果を格納するためのRA
Mである。図1では各処理のプログラムをROM12に
格納したが、ROM12の代りにRAMに各処理のプロ
グラムをロードしてから処理を始めてもかまわない。
【0009】以上の装置の構成例による処理内容につい
て説明する。
て説明する。
【0010】スキャナー10によって入力した文書の画
像はRAM13内の画像イメージ格納領域13aに蓄え
られる。なお、ここで扱う分書の画像は2値、すなわち
0(白画素)と1(黒画素)で構成されたものを対象と
する。画像イメージ格納領域13aに蓄えた文書画像に
対し、CUP11は行切り出しプログラム12aに従っ
て行の切り出しを行い、切り出した行のイメージをRA
M13内の行イメージ格納領域13bに格納する。この
行切り出しは、例えば文書(ここでは横書き文書とする
)の水平方向の射影(垂直軸に対する射影)を測定し、
射影の値が特定の数値を越える範囲を行の範囲として切
り出す方法などによって行う。なお、行を複数のブロッ
クに分割し、ブロック毎の水平射影によって行切り出し
を行う方法など、行切り出しの方法自体は任意である。
像はRAM13内の画像イメージ格納領域13aに蓄え
られる。なお、ここで扱う分書の画像は2値、すなわち
0(白画素)と1(黒画素)で構成されたものを対象と
する。画像イメージ格納領域13aに蓄えた文書画像に
対し、CUP11は行切り出しプログラム12aに従っ
て行の切り出しを行い、切り出した行のイメージをRA
M13内の行イメージ格納領域13bに格納する。この
行切り出しは、例えば文書(ここでは横書き文書とする
)の水平方向の射影(垂直軸に対する射影)を測定し、
射影の値が特定の数値を越える範囲を行の範囲として切
り出す方法などによって行う。なお、行を複数のブロッ
クに分割し、ブロック毎の水平射影によって行切り出し
を行う方法など、行切り出しの方法自体は任意である。
【0011】切り出した行イメージから、CPU11は
文字切り出しプログラム12bに従い文字の切り出しを
行い、切り出した文字のイメージをRAM13内の文字
イメージ格納領域13cに格納する。それと同時に文字
幅を求め、RAM13内の文字幅格納領域13dに格納
する。この文字の切り出しは、例えば文字例(ここでは
横書き文書とする)の垂直方向の射影(水平軸に対する
射影)を測定し、射影の数値がゼロより大きい数値とな
る部分を文字の範囲として切り出す方法などによって行
う。文字幅を求める方法は、切り出した文字の範囲の平
均値等を用いることによって行う。また、文字幅は予め
与えられてRAM13内の文字幅格納領域13dに格納
されていてもかまわない。なお、文字の切り出し、文字
幅の計算の方法自体は任意である。
文字切り出しプログラム12bに従い文字の切り出しを
行い、切り出した文字のイメージをRAM13内の文字
イメージ格納領域13cに格納する。それと同時に文字
幅を求め、RAM13内の文字幅格納領域13dに格納
する。この文字の切り出しは、例えば文字例(ここでは
横書き文書とする)の垂直方向の射影(水平軸に対する
射影)を測定し、射影の数値がゼロより大きい数値とな
る部分を文字の範囲として切り出す方法などによって行
う。文字幅を求める方法は、切り出した文字の範囲の平
均値等を用いることによって行う。また、文字幅は予め
与えられてRAM13内の文字幅格納領域13dに格納
されていてもかまわない。なお、文字の切り出し、文字
幅の計算の方法自体は任意である。
【0012】一文字切り出しにおいて、文書自体に文字
同士の黒画素の連結がある、もしくはスキャナー10の
解像度が十分でないことにより文字同士の黒画素の連結
を生じることがある。そこでCPU11は文字分離プロ
グラム12cに従い、文字同士が連結したまま文字イメ
ージの格納領域13cに登録されたものがないかをチェ
クし、文字同士が連結したまま文字イメージの格納領域
13cに登録されたと判断した文字イメージについては
文字の分離を行い、再登録を行う処理をする。図2を参
照し、文字分離プログラム12cの処理の流れを説明す
る。
同士の黒画素の連結がある、もしくはスキャナー10の
解像度が十分でないことにより文字同士の黒画素の連結
を生じることがある。そこでCPU11は文字分離プロ
グラム12cに従い、文字同士が連結したまま文字イメ
ージの格納領域13cに登録されたものがないかをチェ
クし、文字同士が連結したまま文字イメージの格納領域
13cに登録されたと判断した文字イメージについては
文字の分離を行い、再登録を行う処理をする。図2を参
照し、文字分離プログラム12cの処理の流れを説明す
る。
【0013】CPU11が文字切り出しプログラム12
bに従い、登録した文字イメージの幅と、求めた文字幅
をα倍した値を比較する(ステップ202)。ここでα
は文字同士が連結した場合の幅を示す数値であり、例え
ばα=2とする。
bに従い、登録した文字イメージの幅と、求めた文字幅
をα倍した値を比較する(ステップ202)。ここでα
は文字同士が連結した場合の幅を示す数値であり、例え
ばα=2とする。
【0014】比較した結果、文字イメージの幅が文字幅
をα倍した数値以上であったならば、2文字以上が連結
していると判断し、文字分離の位置を探索する範囲を設
定する(ステップ203)。文字分離の位置を探索する
範囲を文字イメージの先頭から文字幅進んだ位置を中心
に、文字幅のβ倍左右に進んだ範囲とする。ここでβは
文字分離の位置を探索する範囲を設定するときに用いる
数値で、例えばβ=0.25とする。これは印刷文字に
おいて同じポイント数の文字の場合、文字の仮想ボディ
(図3、301)は同じであるが、文字に外接する矩形
で示される字面(3図、302)は文字によって異なり
、仮想ボディの幅に対して、字面の幅は平均5%から2
5%小さいことにより設定した数値である。
をα倍した数値以上であったならば、2文字以上が連結
していると判断し、文字分離の位置を探索する範囲を設
定する(ステップ203)。文字分離の位置を探索する
範囲を文字イメージの先頭から文字幅進んだ位置を中心
に、文字幅のβ倍左右に進んだ範囲とする。ここでβは
文字分離の位置を探索する範囲を設定するときに用いる
数値で、例えばβ=0.25とする。これは印刷文字に
おいて同じポイント数の文字の場合、文字の仮想ボディ
(図3、301)は同じであるが、文字に外接する矩形
で示される字面(3図、302)は文字によって異なり
、仮想ボディの幅に対して、字面の幅は平均5%から2
5%小さいことにより設定した数値である。
【0015】ステップ203で設定した範囲内で、文字
イメージから周辺分布を求め、RAM13内の周辺分布
格納領域13eに格納する(ステップ204)。横書き
文書の場合、周辺分布は垂直方向に走査し、画素値1が
(黒画素)の画素を各走査位置毎に計数することにより
求める。
イメージから周辺分布を求め、RAM13内の周辺分布
格納領域13eに格納する(ステップ204)。横書き
文書の場合、周辺分布は垂直方向に走査し、画素値1が
(黒画素)の画素を各走査位置毎に計数することにより
求める。
【0016】次にステップ203で設定した範囲内で、
文字イメージから線密度を求め、RAM13内の線密度
各領域13fに格納する(ステップ205)。横書き文
書の場合、線密度は垂直方向に走査し、画素値が0から
1に反転する場所を各走査位置毎に計数することにより
求める。
文字イメージから線密度を求め、RAM13内の線密度
各領域13fに格納する(ステップ205)。横書き文
書の場合、線密度は垂直方向に走査し、画素値が0から
1に反転する場所を各走査位置毎に計数することにより
求める。
【0017】周辺分布格納領域13eに格納された周辺
分布と、線密度格納領域13fに格納された線密度の積
を求め。RAM内の積格納領域13gに格納する(ステ
ップ206)。積は同じ走査位置の周辺分布の値と線密
度の値を掛けることにより求める。
分布と、線密度格納領域13fに格納された線密度の積
を求め。RAM内の積格納領域13gに格納する(ステ
ップ206)。積は同じ走査位置の周辺分布の値と線密
度の値を掛けることにより求める。
【0018】積格納領域13gに格納された数値を用い
て、連結した文字の分離位置の決定を行う(ステップ2
07)。位置の決定の方法は、積の値が最小となる走査
位置を連結した文字の分離位置とする。最小値が範囲内
に複数個存在する場合には、文字イメージの先頭から、
文字幅進んだ位置にいちばん近い最小値の走査位置を文
字分離の位置とする。
て、連結した文字の分離位置の決定を行う(ステップ2
07)。位置の決定の方法は、積の値が最小となる走査
位置を連結した文字の分離位置とする。最小値が範囲内
に複数個存在する場合には、文字イメージの先頭から、
文字幅進んだ位置にいちばん近い最小値の走査位置を文
字分離の位置とする。
【0019】処理した文字イメージを文字イメージ格納
領域13cから削除し、ステップ205で、決定した文
字の分離位置で、文字イメージを分離し、改めて文字イ
メージ格納領域13cに再登録する(ステップ208)
。
領域13cから削除し、ステップ205で、決定した文
字の分離位置で、文字イメージを分離し、改めて文字イ
メージ格納領域13cに再登録する(ステップ208)
。
【0020】次に、文字イメージ格納領域13cに、ス
テップ202で用いた条件を満たす文字イメージが残っ
ているかどうかを判断し、存在しない場合にはCPU1
1は文字分離プログラム12cの処理を終了する。存在
する場合には同様の処理を続ける(ステップ201)。
テップ202で用いた条件を満たす文字イメージが残っ
ているかどうかを判断し、存在しない場合にはCPU1
1は文字分離プログラム12cの処理を終了する。存在
する場合には同様の処理を続ける(ステップ201)。
【0021】図4にCPU11が文字分離プログラム1
2cに従い、連結した文字イメージから分離位置を決定
する例を示す。図4(a)は文字イメージ格納領域13
cに連結したまま登録した文字イメージの例である。 「煙」という文字と「道」という文字が連結しているの
がわかる。また図4(a)に示す範囲rは、ステップ2
03で設定された文字の分離位置を探索する範囲である
。図4(b)は、設定した範囲内で図4(a)から求め
た周辺分布である。周辺分布の最小値はポイントp11
からp12まで2ポイントみられる。図4(c)は、設
定した範囲内で、図4(a)から求めた線密度である。 線密度の最小値はポイントp21からp22まで2ポイ
ントみられる。図4(d)は、図4(b)と図4(c)
から求めた積である。最小値はポイントp31のみで、
文字の分離位置はポイントp31と決定する。
2cに従い、連結した文字イメージから分離位置を決定
する例を示す。図4(a)は文字イメージ格納領域13
cに連結したまま登録した文字イメージの例である。 「煙」という文字と「道」という文字が連結しているの
がわかる。また図4(a)に示す範囲rは、ステップ2
03で設定された文字の分離位置を探索する範囲である
。図4(b)は、設定した範囲内で図4(a)から求め
た周辺分布である。周辺分布の最小値はポイントp11
からp12まで2ポイントみられる。図4(c)は、設
定した範囲内で、図4(a)から求めた線密度である。 線密度の最小値はポイントp21からp22まで2ポイ
ントみられる。図4(d)は、図4(b)と図4(c)
から求めた積である。最小値はポイントp31のみで、
文字の分離位置はポイントp31と決定する。
【0022】図4に示すように、周辺分布や線密度のみ
では最小値となる走査位置が複数あり、連結した文字の
分離位置を決定しがたい。しかし、文字同士が連結する
とき、連結する部分が1カ所である確率が高いため、周
辺分布に線密度を掛け、重み付けをすることにより文字
同士が連結した位置を決定するのが容易になる。
では最小値となる走査位置が複数あり、連結した文字の
分離位置を決定しがたい。しかし、文字同士が連結する
とき、連結する部分が1カ所である確率が高いため、周
辺分布に線密度を掛け、重み付けをすることにより文字
同士が連結した位置を決定するのが容易になる。
【0023】
【発明の効果】以上説明したように本発明によれば、連
結した文字の分離において周辺分布と線密度を併用して
文字の分離位置の決定を行うことにより、文字の間隔が
不定の文字列中にある連結した文字の分離が可能であり
、文字の分離位置の候補を絞ることができ、しかも文字
の分離位置を探索する範囲を設定するので処理速度が速
く、分離位置の決定ができるという効果を有する。
結した文字の分離において周辺分布と線密度を併用して
文字の分離位置の決定を行うことにより、文字の間隔が
不定の文字列中にある連結した文字の分離が可能であり
、文字の分離位置の候補を絞ることができ、しかも文字
の分離位置を探索する範囲を設定するので処理速度が速
く、分離位置の決定ができるという効果を有する。
【図1】本発明の実施に必要な装置の構成例を示すブロ
ック図である。
ック図である。
【図2】本発明の一文字切り出しの処理の流れを示す流
れ図である。
れ図である。
【図3】文字の大きさについて説明するための図である
。
。
【図4】図2で示す処理により、連結した文字から分離
位置を決定する例を示す図である。
位置を決定する例を示す図である。
10 スキャナー
11 CPU
12 ROM
13 RAM
Claims (1)
- 【請求項1】処理対象の文書の各行において、行中に連
結した文字が存在する場合、文字の分離位置を探索する
範囲を設定し、前記設定範囲内で、連結した文字イメー
ジから周辺分布、線密度を求め、前記周辺分布、前記線
密度の対応する各走査位置での積を求め、前記積が最小
値となる走査位置を連結した文字の分離位置とすること
を特徴とする一文字切り出し方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3026020A JPH04264993A (ja) | 1991-02-20 | 1991-02-20 | 一文字切り出し方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3026020A JPH04264993A (ja) | 1991-02-20 | 1991-02-20 | 一文字切り出し方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04264993A true JPH04264993A (ja) | 1992-09-21 |
Family
ID=12182017
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3026020A Pending JPH04264993A (ja) | 1991-02-20 | 1991-02-20 | 一文字切り出し方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04264993A (ja) |
-
1991
- 1991-02-20 JP JP3026020A patent/JPH04264993A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5075895A (en) | Method and apparatus for recognizing table area formed in binary image of document | |
| JP2940936B2 (ja) | 表領域識別方法 | |
| US5889885A (en) | Method and apparatus for separating foreground from background in images containing text | |
| CN111461133B (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
| US4556985A (en) | Pattern recognition apparatus | |
| JP2021135993A (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
| CN115223172A (zh) | 文本提取方法、装置及设备 | |
| JPH07160812A (ja) | 画像処理装置及び方法 | |
| JP2926066B2 (ja) | 表認識装置 | |
| JPH04264993A (ja) | 一文字切り出し方法 | |
| JPS6325391B2 (ja) | ||
| JP3548234B2 (ja) | 文字認識方法及び装置 | |
| JPH04248688A (ja) | 一文字切り出し方法 | |
| JPS6254380A (ja) | 文字認識装置 | |
| JP3000480B2 (ja) | 文字領域区切り検出方法 | |
| JP2982221B2 (ja) | 文字読み取り装置 | |
| CN115731250A (zh) | 文本分割方法、装置、设备及存储介质 | |
| JPH04264687A (ja) | 文字認識処理方式 | |
| JPH05114047A (ja) | 文字切り出し装置 | |
| JPH05298487A (ja) | 英文字認識装置 | |
| JPH0343879A (ja) | 文字認識装置およびその文字領域分離方法 | |
| JP2784059B2 (ja) | 2値画像のノイズ除去方法および装置 | |
| JPH0573718A (ja) | 領域属性識別方式 | |
| JP2974167B2 (ja) | 文字の大分類認識方法 | |
| JPH0344788A (ja) | 文書画像の領域抽出方法 |