JPH0762860B2

JPH0762860B2 - 文字分離装置

Info

Publication number: JPH0762860B2
Application number: JP61235941A
Authority: JP
Inventors: 善丈辻
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1986-10-03
Filing date: 1986-10-03
Publication date: 1995-07-05
Anticipated expiration: 2010-07-05
Also published as: JPS6389989A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は記載書式の制限のない文字行を読み取る光学的
文字読取装置等に用いる文字分離装置に関し、特に郵便
物上に記載されている住所等の特定分野において、記載
書式の制限のない文字行から個々の文字を切り出す文字
分離装置に係わる。

（従来技術とその問題点）従来、印字あるいは手書き文字を光学的に読取る装置
（以下、OCRと呼ぶ）において、英数字及びカタカナを
対象とするものはすでに実用化されており、最近では手
書き漢字を読み取ることも実用化されつつある。このよ
うなOCRを用いて文字を読み取る場合、紙面上の文字行
から個々の文字を切り出す文字分離技術が必要不可欠と
なる。従来の文字分離技術では、例えば電子通信学会論
文誌（Ｄ）,J68−D,No.8.p1497−1504（1985年８月）に
示されているように、文字ピツチに基づいて文字切り出
しを行う方法や英数字などを対象として簡単な空白によ
る文字分離を行う方法を始め、各種手法が開発されてい
る。これら従来の文字分離技術を用いて文字を切り出す
場合には、１つの文字行内に例えば縦書きと横書きなど
が混在しないという仮定を設けている。しかしながら、
このような仮定が成立しない例として郵便物上の宛て名
などがある。このような郵便物上の宛て名は、手書き漢
字や手書き数字なども含まれており、例えば、縦書きの
宛て名住所に対して丁目や番地などが省略形を用いた横
書きで記載されることがある。この場合、省略形で記載
された横書き宛て名部（例えば丁目・番地）は、県名や
氏名で用いる漢字などとは異なり、アラビア数字などを
用いることが多いため、このような郵便宛て名のよう
に、文字行内に異なる向きを持つ部分文字行が含まれる
場合には、その部分文字行の向きなどの要因に応じて適
当な文字分離方式を選択する必要が生じる。ところが、
郵便物上の宛て名などに見られるように、文字行内に異
なる方向を持つ部分文字行が含まれる文字行に対して従
来の文字分離技術では、精度良くしかも効率的に個々の
文字を切り出すことが困難であつた。

本発明の目的は、上記従来の問題点を解決すべく、文字
行内に含まれた異なる向きを有する部分文字行を検知
し、検知された部分文字行の形状や文字行内の相対位置
等からその部分文字行を個々の文字に分離する手法を変
更することによつて、効率的にしかも精度良く文字切り
出しが行えるようにした文字分離装置を提供することに
ある。

（問題点を解決するための手段）前述の問題点を解決するために本発明が提供する手段
は：紙面上に記載された複数の文字行を走査し、個々の
文字イメージを抽出する文字分離装置であつて：ブロツ
ク化された文字行内に異なる向きを有する部分文字行が
混在するか否かを検知し、同一方向の前記部分文字行毎
に前記文字行を分割する手段と；複数個の文字分離手段
を設け，前記部分文字行の特性及び前記文字行内の相対
位置に従つて前記複数個の文字分離手段から所定の文字
分離手段を選択する手段とを具備することを特徴とす
る。

（作用）本発明において、文字行内に異なる向きを有する部分文
字行の有無を検知し、それらの部分文字行の特性及び相
対位置に従つて文字分離方式を変更することにより、効
率良くしかも精度良く文字切り出し処理を行うことが可
能となる。

（実施例）以下、本発明の実施例について図面を参照しつつ説明す
る。

図１は、縦書きと横書きが混在する郵便物上の住所の一
例を示す図であり、本発明の原理を説明するためのもの
である。

図において斜線で示した文字は、住所を示しており、図
中丸印は住所の一部の省略を表わしている。図１（ａ）
の文字行において、図に示すように、水平方向に投影分
布を求めると、文字の塊まりや文字の一部（以下、文字
塊と呼ぶ）に相当する分布が生じ、この分布を調べるこ
とにより、文字イメージを抽出することができるが、図
中文字イメージ“市”や“４−１−1"は、正しく文字を
切り出すことができない。そこで、図１（ａ）で示した
水平方向の投影分布により分割された各文字塊イメージ
に対して水平方向の投影分布を図１（ｂ）で示すように
算出する。図１（ｂ）で示すように、文字塊イメージ
“川”及び“４−１−1"では、それぞれ３個及び５個の
部分文字を表わす投影分布が抽出され、文字塊イメージ
“川”及び“４−１−1"の水平方向の両端位置が判明す
るため、各文字塊イメージの位置及び大きさ更には、文
字塊内に含まれる要素数（例えば文字塊イメージ“川”
及び“４−１−1"では要素数はそれぞれ３及び４であ
る）が抽出できる。次に、各文字塊イメージの大きさ及
び文字塊内に含まれる要素数を検査して、横書きである
可能性が調べられる。例えば図１（ｃ）において、文字
塊イメージ“川”及び“４−１−4"が要素数及び文字塊
イメージの縦横比から横書きである候補文字塊イメージ
と判断される。そこで、横書き候補文字塊イメージとし
て、図１（ｃ）の記号L₁,L₃で示す２つの領域が得ら
れ、記号L₂で示す縦書き文字塊イメージが得られる。

ここで、本発明では、例えば、郵便物上の住所で用いら
れる横書き文字に関して丁目、番地などを数字及び特殊
記号を用いて表現されることが多いことから、文字行の
横書き候補文字塊イメージの相対位置も利用されるた
め、図１（ｄ）で示すように、文字塊イメージ“川”は
縦書きで１文字と判断される。ここで文字分離に関し、
横書きと判断された領域“４−１−1"は、図１（ｄ）の
図中点線で示すように空白により１文字毎に分離され、
縦書きと判断された領域は例えば、文字ピツチを基礎と
して文字分離装置により１文字毎に分離される。

尚、以上の処理は、投影分布を用いた説明したが、例え
ば、文字イメージの輪郭追跡などの方法を用いて実現で
きることは言うまでもない。また本発明は、図１で説明
した縦書き住所に限定されることなく、利用できること
は言うまでもない。

図２は、本発明の一実施例を示す論理ブロツク図であ
る。図において、１は行イメージ記憶部であり、図１
（ａ）で示すような文字行イメージを記憶する。尚、紙
面上から前述した文字行イメージを検出する技術は公知
の技術を用いて行うことができる。

２は、行分割部である。行分割部２は、図１（ｂ）で示
したように、文字行を部分文字行に分割し、各文字塊イ
メージの位置・大きさ及び要素数（以下、文字塊情報と
呼ぶ）を検出し、文字塊情報記憶部３に格納する。尚、
行分割部２は公知の技術を用いることができる。部分行
判定部は、文字塊情報記憶部３より各文字塊イメージの
位置・大きさ及び要素数を基にして、図１で示したよう
に縦書きの部分行イメージと横書きの部分行イメージで
あるかを判定して、各文字塊情報及び縦書き又は横書き
の各部分行の領域情報を部分行情報記憶部５に格納す
る。

文字分離部６では、複数個の文字分離手段を内蔵してお
り、文字分離部６に順次、転送される部分行情報記憶部
５に格納された部分行の領域情報及び各文字塊情報に従
つて、所定の文字分離手段を起動し、行イメージ記憶部
１に格納された文字行イメージを順次１文字毎に切り出
し、文字イメージ記憶部７に格納する。

（発明の効果）以上説明したように、本発明によれば、縦書き、横書き
が混在し、手書き文字も利用される文字行であつても、
処理速度を低下させることなく、しかも精度良く文字切
り出しを可能とする文字分離装置を容易に提供すること
が可能となる。

【図面の簡単な説明】

図１は、郵便物上の住所の一例を用いて本発明の原理を
示す図である。図２は、本発明の一実施例を示す論理ブ
ロツク図である。図において、１は行イメージ記憶部、２は行分割部、３
は文字塊情報記憶部、４は部分行判定部、５は部分行情
報記憶部、６は文字分離部、７は文字イメージ記憶部で
ある。

Claims

【特許請求の範囲】

【請求項１】紙面上に記載された複数の文字行を走査
し、個々の文字イメージを抽出する文字分離装置におい
て：ブロツク化された文字行内に異なる向きを有する部
分文字行が混在するか否かを検知し、同一方向の前方部
分文字行毎に前記文字行を分割する手段と；複数個の文
字分離手段を設け，前記部分文字行の特性及び前記文字
行内の相対位置に従つて前記複数個の文字分離手段から
所定の文字分離手段を選択する手段とを具備することを
特徴とする文字分離装置。