JPH0762860B2 - 文字分離装置 - Google Patents
文字分離装置Info
- Publication number
- JPH0762860B2 JPH0762860B2 JP61235941A JP23594186A JPH0762860B2 JP H0762860 B2 JPH0762860 B2 JP H0762860B2 JP 61235941 A JP61235941 A JP 61235941A JP 23594186 A JP23594186 A JP 23594186A JP H0762860 B2 JPH0762860 B2 JP H0762860B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- line
- partial
- characters
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000926 separation method Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は記載書式の制限のない文字行を読み取る光学的
文字読取装置等に用いる文字分離装置に関し、特に郵便
物上に記載されている住所等の特定分野において、記載
書式の制限のない文字行から個々の文字を切り出す文字
分離装置に係わる。
文字読取装置等に用いる文字分離装置に関し、特に郵便
物上に記載されている住所等の特定分野において、記載
書式の制限のない文字行から個々の文字を切り出す文字
分離装置に係わる。
(従来技術とその問題点) 従来、印字あるいは手書き文字を光学的に読取る装置
(以下、OCRと呼ぶ)において、英数字及びカタカナを
対象とするものはすでに実用化されており、最近では手
書き漢字を読み取ることも実用化されつつある。このよ
うなOCRを用いて文字を読み取る場合、紙面上の文字行
から個々の文字を切り出す文字分離技術が必要不可欠と
なる。従来の文字分離技術では、例えば電子通信学会論
文誌(D),J68−D,No.8.p1497−1504(1985年8月)に
示されているように、文字ピツチに基づいて文字切り出
しを行う方法や英数字などを対象として簡単な空白によ
る文字分離を行う方法を始め、各種手法が開発されてい
る。これら従来の文字分離技術を用いて文字を切り出す
場合には、1つの文字行内に例えば縦書きと横書きなど
が混在しないという仮定を設けている。しかしながら、
このような仮定が成立しない例として郵便物上の宛て名
などがある。このような郵便物上の宛て名は、手書き漢
字や手書き数字なども含まれており、例えば、縦書きの
宛て名住所に対して丁目や番地などが省略形を用いた横
書きで記載されることがある。この場合、省略形で記載
された横書き宛て名部(例えば丁目・番地)は、県名や
氏名で用いる漢字などとは異なり、アラビア数字などを
用いることが多いため、このような郵便宛て名のよう
に、文字行内に異なる向きを持つ部分文字行が含まれる
場合には、その部分文字行の向きなどの要因に応じて適
当な文字分離方式を選択する必要が生じる。ところが、
郵便物上の宛て名などに見られるように、文字行内に異
なる方向を持つ部分文字行が含まれる文字行に対して従
来の文字分離技術では、精度良くしかも効率的に個々の
文字を切り出すことが困難であつた。
(以下、OCRと呼ぶ)において、英数字及びカタカナを
対象とするものはすでに実用化されており、最近では手
書き漢字を読み取ることも実用化されつつある。このよ
うなOCRを用いて文字を読み取る場合、紙面上の文字行
から個々の文字を切り出す文字分離技術が必要不可欠と
なる。従来の文字分離技術では、例えば電子通信学会論
文誌(D),J68−D,No.8.p1497−1504(1985年8月)に
示されているように、文字ピツチに基づいて文字切り出
しを行う方法や英数字などを対象として簡単な空白によ
る文字分離を行う方法を始め、各種手法が開発されてい
る。これら従来の文字分離技術を用いて文字を切り出す
場合には、1つの文字行内に例えば縦書きと横書きなど
が混在しないという仮定を設けている。しかしながら、
このような仮定が成立しない例として郵便物上の宛て名
などがある。このような郵便物上の宛て名は、手書き漢
字や手書き数字なども含まれており、例えば、縦書きの
宛て名住所に対して丁目や番地などが省略形を用いた横
書きで記載されることがある。この場合、省略形で記載
された横書き宛て名部(例えば丁目・番地)は、県名や
氏名で用いる漢字などとは異なり、アラビア数字などを
用いることが多いため、このような郵便宛て名のよう
に、文字行内に異なる向きを持つ部分文字行が含まれる
場合には、その部分文字行の向きなどの要因に応じて適
当な文字分離方式を選択する必要が生じる。ところが、
郵便物上の宛て名などに見られるように、文字行内に異
なる方向を持つ部分文字行が含まれる文字行に対して従
来の文字分離技術では、精度良くしかも効率的に個々の
文字を切り出すことが困難であつた。
本発明の目的は、上記従来の問題点を解決すべく、文字
行内に含まれた異なる向きを有する部分文字行を検知
し、検知された部分文字行の形状や文字行内の相対位置
等からその部分文字行を個々の文字に分離する手法を変
更することによつて、効率的にしかも精度良く文字切り
出しが行えるようにした文字分離装置を提供することに
ある。
行内に含まれた異なる向きを有する部分文字行を検知
し、検知された部分文字行の形状や文字行内の相対位置
等からその部分文字行を個々の文字に分離する手法を変
更することによつて、効率的にしかも精度良く文字切り
出しが行えるようにした文字分離装置を提供することに
ある。
(問題点を解決するための手段) 前述の問題点を解決するために本発明が提供する手段
は:紙面上に記載された複数の文字行を走査し、個々の
文字イメージを抽出する文字分離装置であつて:ブロツ
ク化された文字行内に異なる向きを有する部分文字行が
混在するか否かを検知し、同一方向の前記部分文字行毎
に前記文字行を分割する手段と;複数個の文字分離手段
を設け,前記部分文字行の特性及び前記文字行内の相対
位置に従つて前記複数個の文字分離手段から所定の文字
分離手段を選択する手段とを具備することを特徴とす
る。
は:紙面上に記載された複数の文字行を走査し、個々の
文字イメージを抽出する文字分離装置であつて:ブロツ
ク化された文字行内に異なる向きを有する部分文字行が
混在するか否かを検知し、同一方向の前記部分文字行毎
に前記文字行を分割する手段と;複数個の文字分離手段
を設け,前記部分文字行の特性及び前記文字行内の相対
位置に従つて前記複数個の文字分離手段から所定の文字
分離手段を選択する手段とを具備することを特徴とす
る。
(作 用) 本発明において、文字行内に異なる向きを有する部分文
字行の有無を検知し、それらの部分文字行の特性及び相
対位置に従つて文字分離方式を変更することにより、効
率良くしかも精度良く文字切り出し処理を行うことが可
能となる。
字行の有無を検知し、それらの部分文字行の特性及び相
対位置に従つて文字分離方式を変更することにより、効
率良くしかも精度良く文字切り出し処理を行うことが可
能となる。
(実施例) 以下、本発明の実施例について図面を参照しつつ説明す
る。
る。
図1は、縦書きと横書きが混在する郵便物上の住所の一
例を示す図であり、本発明の原理を説明するためのもの
である。
例を示す図であり、本発明の原理を説明するためのもの
である。
図において斜線で示した文字は、住所を示しており、図
中丸印は住所の一部の省略を表わしている。図1(a)
の文字行において、図に示すように、水平方向に投影分
布を求めると、文字の塊まりや文字の一部(以下、文字
塊と呼ぶ)に相当する分布が生じ、この分布を調べるこ
とにより、文字イメージを抽出することができるが、図
中文字イメージ“市”や“4−1−1"は、正しく文字を
切り出すことができない。そこで、図1(a)で示した
水平方向の投影分布により分割された各文字塊イメージ
に対して水平方向の投影分布を図1(b)で示すように
算出する。図1(b)で示すように、文字塊イメージ
“川”及び“4−1−1"では、それぞれ3個及び5個の
部分文字を表わす投影分布が抽出され、文字塊イメージ
“川”及び“4−1−1"の水平方向の両端位置が判明す
るため、各文字塊イメージの位置及び大きさ更には、文
字塊内に含まれる要素数(例えば文字塊イメージ“川”
及び“4−1−1"では要素数はそれぞれ3及び4であ
る)が抽出できる。次に、各文字塊イメージの大きさ及
び文字塊内に含まれる要素数を検査して、横書きである
可能性が調べられる。例えば図1(c)において、文字
塊イメージ“川”及び“4−1−4"が要素数及び文字塊
イメージの縦横比から横書きである候補文字塊イメージ
と判断される。そこで、横書き候補文字塊イメージとし
て、図1(c)の記号L1,L3で示す2つの領域が得ら
れ、記号L2で示す縦書き文字塊イメージが得られる。
中丸印は住所の一部の省略を表わしている。図1(a)
の文字行において、図に示すように、水平方向に投影分
布を求めると、文字の塊まりや文字の一部(以下、文字
塊と呼ぶ)に相当する分布が生じ、この分布を調べるこ
とにより、文字イメージを抽出することができるが、図
中文字イメージ“市”や“4−1−1"は、正しく文字を
切り出すことができない。そこで、図1(a)で示した
水平方向の投影分布により分割された各文字塊イメージ
に対して水平方向の投影分布を図1(b)で示すように
算出する。図1(b)で示すように、文字塊イメージ
“川”及び“4−1−1"では、それぞれ3個及び5個の
部分文字を表わす投影分布が抽出され、文字塊イメージ
“川”及び“4−1−1"の水平方向の両端位置が判明す
るため、各文字塊イメージの位置及び大きさ更には、文
字塊内に含まれる要素数(例えば文字塊イメージ“川”
及び“4−1−1"では要素数はそれぞれ3及び4であ
る)が抽出できる。次に、各文字塊イメージの大きさ及
び文字塊内に含まれる要素数を検査して、横書きである
可能性が調べられる。例えば図1(c)において、文字
塊イメージ“川”及び“4−1−4"が要素数及び文字塊
イメージの縦横比から横書きである候補文字塊イメージ
と判断される。そこで、横書き候補文字塊イメージとし
て、図1(c)の記号L1,L3で示す2つの領域が得ら
れ、記号L2で示す縦書き文字塊イメージが得られる。
ここで、本発明では、例えば、郵便物上の住所で用いら
れる横書き文字に関して丁目、番地などを数字及び特殊
記号を用いて表現されることが多いことから、文字行の
横書き候補文字塊イメージの相対位置も利用されるた
め、図1(d)で示すように、文字塊イメージ“川”は
縦書きで1文字と判断される。ここで文字分離に関し、
横書きと判断された領域“4−1−1"は、図1(d)の
図中点線で示すように空白により1文字毎に分離され、
縦書きと判断された領域は例えば、文字ピツチを基礎と
して文字分離装置により1文字毎に分離される。
れる横書き文字に関して丁目、番地などを数字及び特殊
記号を用いて表現されることが多いことから、文字行の
横書き候補文字塊イメージの相対位置も利用されるた
め、図1(d)で示すように、文字塊イメージ“川”は
縦書きで1文字と判断される。ここで文字分離に関し、
横書きと判断された領域“4−1−1"は、図1(d)の
図中点線で示すように空白により1文字毎に分離され、
縦書きと判断された領域は例えば、文字ピツチを基礎と
して文字分離装置により1文字毎に分離される。
尚、以上の処理は、投影分布を用いた説明したが、例え
ば、文字イメージの輪郭追跡などの方法を用いて実現で
きることは言うまでもない。また本発明は、図1で説明
した縦書き住所に限定されることなく、利用できること
は言うまでもない。
ば、文字イメージの輪郭追跡などの方法を用いて実現で
きることは言うまでもない。また本発明は、図1で説明
した縦書き住所に限定されることなく、利用できること
は言うまでもない。
図2は、本発明の一実施例を示す論理ブロツク図であ
る。図において、1は行イメージ記憶部であり、図1
(a)で示すような文字行イメージを記憶する。尚、紙
面上から前述した文字行イメージを検出する技術は公知
の技術を用いて行うことができる。
る。図において、1は行イメージ記憶部であり、図1
(a)で示すような文字行イメージを記憶する。尚、紙
面上から前述した文字行イメージを検出する技術は公知
の技術を用いて行うことができる。
2は、行分割部である。行分割部2は、図1(b)で示
したように、文字行を部分文字行に分割し、各文字塊イ
メージの位置・大きさ及び要素数(以下、文字塊情報と
呼ぶ)を検出し、文字塊情報記憶部3に格納する。尚、
行分割部2は公知の技術を用いることができる。部分行
判定部は、文字塊情報記憶部3より各文字塊イメージの
位置・大きさ及び要素数を基にして、図1で示したよう
に縦書きの部分行イメージと横書きの部分行イメージで
あるかを判定して、各文字塊情報及び縦書き又は横書き
の各部分行の領域情報を部分行情報記憶部5に格納す
る。
したように、文字行を部分文字行に分割し、各文字塊イ
メージの位置・大きさ及び要素数(以下、文字塊情報と
呼ぶ)を検出し、文字塊情報記憶部3に格納する。尚、
行分割部2は公知の技術を用いることができる。部分行
判定部は、文字塊情報記憶部3より各文字塊イメージの
位置・大きさ及び要素数を基にして、図1で示したよう
に縦書きの部分行イメージと横書きの部分行イメージで
あるかを判定して、各文字塊情報及び縦書き又は横書き
の各部分行の領域情報を部分行情報記憶部5に格納す
る。
文字分離部6では、複数個の文字分離手段を内蔵してお
り、文字分離部6に順次、転送される部分行情報記憶部
5に格納された部分行の領域情報及び各文字塊情報に従
つて、所定の文字分離手段を起動し、行イメージ記憶部
1に格納された文字行イメージを順次1文字毎に切り出
し、文字イメージ記憶部7に格納する。
り、文字分離部6に順次、転送される部分行情報記憶部
5に格納された部分行の領域情報及び各文字塊情報に従
つて、所定の文字分離手段を起動し、行イメージ記憶部
1に格納された文字行イメージを順次1文字毎に切り出
し、文字イメージ記憶部7に格納する。
(発明の効果) 以上説明したように、本発明によれば、縦書き、横書き
が混在し、手書き文字も利用される文字行であつても、
処理速度を低下させることなく、しかも精度良く文字切
り出しを可能とする文字分離装置を容易に提供すること
が可能となる。
が混在し、手書き文字も利用される文字行であつても、
処理速度を低下させることなく、しかも精度良く文字切
り出しを可能とする文字分離装置を容易に提供すること
が可能となる。
図1は、郵便物上の住所の一例を用いて本発明の原理を
示す図である。図2は、本発明の一実施例を示す論理ブ
ロツク図である。 図において、1は行イメージ記憶部、2は行分割部、3
は文字塊情報記憶部、4は部分行判定部、5は部分行情
報記憶部、6は文字分離部、7は文字イメージ記憶部で
ある。
示す図である。図2は、本発明の一実施例を示す論理ブ
ロツク図である。 図において、1は行イメージ記憶部、2は行分割部、3
は文字塊情報記憶部、4は部分行判定部、5は部分行情
報記憶部、6は文字分離部、7は文字イメージ記憶部で
ある。
Claims (1)
- 【請求項1】紙面上に記載された複数の文字行を走査
し、個々の文字イメージを抽出する文字分離装置におい
て:ブロツク化された文字行内に異なる向きを有する部
分文字行が混在するか否かを検知し、同一方向の前方部
分文字行毎に前記文字行を分割する手段と;複数個の文
字分離手段を設け,前記部分文字行の特性及び前記文字
行内の相対位置に従つて前記複数個の文字分離手段から
所定の文字分離手段を選択する手段とを具備することを
特徴とする文字分離装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61235941A JPH0762860B2 (ja) | 1986-10-03 | 1986-10-03 | 文字分離装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61235941A JPH0762860B2 (ja) | 1986-10-03 | 1986-10-03 | 文字分離装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6389989A JPS6389989A (ja) | 1988-04-20 |
| JPH0762860B2 true JPH0762860B2 (ja) | 1995-07-05 |
Family
ID=16993493
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61235941A Expired - Lifetime JPH0762860B2 (ja) | 1986-10-03 | 1986-10-03 | 文字分離装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0762860B2 (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS55121584A (en) * | 1979-03-12 | 1980-09-18 | Daihen Corp | Automatic pattern checking method |
-
1986
- 1986-10-03 JP JP61235941A patent/JPH0762860B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6389989A (ja) | 1988-04-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5201011A (en) | Method and apparatus for image hand markup detection using morphological techniques | |
| Aradhye | A generic method for determining up/down orientation of text in roman and non-roman scripts | |
| US6778703B1 (en) | Form recognition using reference areas | |
| JP3086702B2 (ja) | テキスト又は線図形を識別する方法及びデジタル処理システム | |
| JPH0420226B2 (ja) | ||
| JPH0762860B2 (ja) | 文字分離装置 | |
| JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
| JPH04502526A (ja) | 像認識 | |
| JP3440501B2 (ja) | 運転免許証認識装置 | |
| JP4244692B2 (ja) | 文字認識装置及び文字認識プログラム | |
| Jeong et al. | A document image preprocessing system for keyword spotting | |
| JP2570703B2 (ja) | 文字読取装置 | |
| JP3091278B2 (ja) | 文書認識方式 | |
| Wolf et al. | Form-based localization of the destination address block on complex envelopes | |
| JP3162552B2 (ja) | 郵便物あて名認識装置及びあて名認識方法 | |
| JPS6394384A (ja) | 文字行方向判定方式 | |
| JP2000210624A (ja) | 郵便宛名認識装置 | |
| JPH0737034A (ja) | 光学式文字読み取り装置 | |
| JPH11238095A (ja) | 郵便物宛先読取装置 | |
| JP2616995B2 (ja) | 文字認識装置 | |
| JP2000339408A (ja) | 文字切り出し装置 | |
| JPH02230484A (ja) | 文字認識装置 | |
| JPH04309B2 (ja) | ||
| JPH09212579A (ja) | 郵便物の宛名文字認識方法 | |
| JPH0433082A (ja) | 文書認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |