JPH083830B2 - 文字列パタ−ン切り出し方式 - Google Patents

文字列パタ−ン切り出し方式

Info

Publication number
JPH083830B2
JPH083830B2 JP61289799A JP28979986A JPH083830B2 JP H083830 B2 JPH083830 B2 JP H083830B2 JP 61289799 A JP61289799 A JP 61289799A JP 28979986 A JP28979986 A JP 28979986A JP H083830 B2 JPH083830 B2 JP H083830B2
Authority
JP
Japan
Prior art keywords
character string
area
character
document
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61289799A
Other languages
English (en)
Other versions
JPS63142485A (ja
Inventor
一巳 松浦
文夫 依田
陽二 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP61289799A priority Critical patent/JPH083830B2/ja
Publication of JPS63142485A publication Critical patent/JPS63142485A/ja
Publication of JPH083830B2 publication Critical patent/JPH083830B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は光学式文字読み取り装置における文字パタ
ーン切り出し方式に関する。
〔従来の技術〕
近年、英文のOCR(光学式文字読み取り装置)の出現
により、日本文のOCRの開発研究が盛んに行なわれてい
る。例えば電子通信学会研究会資料SP−86−35(67−7
6)に記載された「手書き日本語文書からの文字切り出
し方式」がある。一方従来の手書き漢字OCRは所定の帳
票にあらかじめ設けられた文字枠に記入された文字しか
読み取れなかった。又文字の接触を予防するため行間を
広くしてあり、1枚の帳票に書ける文字数が制限される
という問題があった。
而して、文書画像から文字を切り出す方式は、階層的
にまず文字列を切り出し、更に各文字列から個々の文字
を切り出すようになっている。
第14図は従来の文字切り出し方式を説明するための流
れ図である。なお全ての処理は光電変換器や計算機等に
より処理されている。
第15図に示す文書1をOCR装置に入力し文字列を切り
出す方式について説明する。第15図の文書1には“あ
等”の文字列と“0等”の文字列及び“ア等”の文字列
とが記載されており、“0等”の文字列の2の下方と
“ア等”の文字列ウの上方とが接触している。
まずステップS1では、文書1を所定のOCR装置にセッ
トし、ステップS2では文書1は光電変換されて所定の画
像メモリへ第16図に示す文書画像2として記憶される。
ステップS3ではこの文書画像2を矩形の小領域に分割
し、各小領域の黒画素数を所定の閾値で2値化すること
によりこれら小領域を1画素に圧縮した第17図に示すよ
うな変換画像3を作成する。これは文書画像2の濃度特
徴を抽出し所定の閾値で2値化している。
ステップS4では、文字列検出を行うが、即ち変換画像
3上でラベル付けを行うことにより連結成分を求め、同
一ラベルが付された連結成分から成る第18図に示す連結
領域の外接矩形の位置情報を第19図の領域情報テーブル
4に格納する。次に、領域情報テーブル4を調べ、文字
列はほぼ一定の高さをしているので第18図の外接矩形6,
7の高さが所定の範囲内にある連結領域を文字列領域6,
その他の連結領域を文字列以外の領域7と判定し、領域
情報テーブル4の属性の欄に上記判定結果を格納する。
ステップS5では、文字列切り出しを行う文字列検出のス
テップS4で文字列領域と判定された連結領域6に対応す
るパターンのみを文書画像2から切り出し、第20図に示
す文字列パターン8を得る。
〔発明が解決しようとする問題点〕
従来の文字列パターン切り出し方式は以上の様に処理
されていたので、文字列間で接触がある場合、接触した
複数個の文字列が連結した1つの領域として検出され、
文字列検出の処理では文字列以外の領域と判定される
為、接触した文字列を個々の文字列領域に分離して切り
出すことが出来ないという問題点があった。
特に、書式が定まっていない手書き文書では、読点や
文字のハネ等が他の文字列に接触する場合が多い為、切
り出し精度が著しく低下するという問題点があった。従
って、個々の文字を切り出す階層に到るまでに文書の多
くが脱落してしまうという欠点があった。
この発明は上記の様な問題点を解消する為になされた
もので、文字列間で接触がある場合でも、個々の文字列
領域を分離して切り出すことの出来る文字列パターン切
り出し方式を得ることを目的とする。
〔問題点を解決するための手段〕
この発明では、文字列パターン切り出し方式におい
て、入力画像を走査して、文字列方向に近接した黒画素
が連結するように処理して変換画像を作成し(ステップ
T3)、この変換画像上で連結領域を求め(ステップT
4)、この連結領域の形状情報を用いて、該連結領域が
一の文字列か、複数の文字列が接触した接触文字列かを
判定し(ステップT5)、この接触文字列を文字列に垂直
な方向に走査して文字列に挟まれた白画素の領域全体を
セパレータとして検出し(ステップT12)、文字列方向
に隣り合う2つのセパレータに挟まれた黒画素領域を切
断領域として検出し(ステップT13)、この切断領域の
黒画素を白画素に変換することにより接触文字列を独立
の文字列に切断するようにした(ステップT14)。
〔作用〕
接触文字列を検出して、文字列間にある切断領域を検
出する。この切断領域を切断して、個々の文字列に分離
する。このようにして接触文字列でも正確に分離可能と
なり、更に上層の文字切り出しに文字列を欠落させるこ
となく進むことができる。
〔実施例〕
以下、この発明を第1図乃至第13図に従って説明す
る。第1図は本発明の処理の流れを示す図であり、全て
の処理は図示外の光電変換器と計算機等により処理され
るものとする。第2図に示す文書1をOCR装置に入力し
文字列を切り出す方式について説明する。
第2図の文書1には“あ等”の文字列と“0等”の文
字列及び“ア等”の文字列とが記載されており、“0
等”の文字列の2の下方と“ア等”の文字列ウの上方と
が接触している。
まずステップT1では、文書1を所定のOCR装置にセッ
トし、ステップT2では文書1は光電変換されて画像メモ
リへ第3図に示す文書画像2として記憶される。ステッ
プT3ではこの文書画像2を矩形の小領域に分割し、各小
領域の黒画素数を所定の閾値で2値化することによりこ
れら小領域を1画素に圧縮した第4図に示すような変換
画像3を作成する。これは文書画像2の濃度特徴を抽出
し所定の閾値で2値化している。
ステップT4では、変換画像3上でラベル付けを行うこ
とにより連結成分を求め、同一ラベルが付された連結成
分から成る連結領域の外接矩形の位置情報を第6図の領
域情報テーブル10に格納する。次に、ステップT5では領
域情報テーブル10を調べ外接矩形の高さが文字列の平均
高さの2倍以上ある連結領域を第5図に示す接触文字列
領域9bと判定し、該連結領域に対して分離処理を行いス
テップT12へ進む。又高さが2倍以下の連結領域を文字
列領域9aと判定し、ステップT6へ進む。これら判定結果
を領域情報テーブル10の属性の欄に格納する。ステップ
T5で接触文字列領域と判定された連結領域9bに対して、
ステップT12のセパレータ検出を行う。変換画像3を上
下方向に走査し、黒画素に挟まれた狭い白画素の領域w
の画素の値を1とする画像を作成し、第7図に示すこの
画像に対してラベル付けを行うことによって連結成分を
求め、同一ラベルが付された連結成分から成る連結領域
をセパレータ15a,15bとして検出し、その矩形情報を第
8図のセパレータ情報テーブル16に格納する。このと
き、領域の左右端にダミーのセパレータを追加し、この
矩形情報をセパレータ情報テーブル16に追加する。これ
は、左端又は右端で接触している場合、左又は右のセパ
レータが検出出来ないことに対処する為である。
次のステップT13では切断領域検出を行うセパレータ
情報テーブル16を用いて、隣接する2つのセパレータ15
a,15bにより文字列方向に挟まれた領域17を検出し、第
9図に示す切断領域17として第10図の切断領域情報テー
ブル18に記憶する。ステップT14では分離文字列検出を
行う切断領域情報テーブル18を調べて、切断領域内の17
黒画素を白画素に変換することによって、接触文字列領
域内の黒画素の連結領域を切断する。そして、得られた
画像に対して、ラベル付けをすることによって連結成分
から成る領域を求めて第12図の領域情報テーブル20に矩
形情報を格納し、連結領域の形状から第11図に示す文字
列領域19a,19bを検出することにより接触した文字列を
分離する。最後に、ステップT6の文字列切り出しを行
う。即ち、ステップT4の文字列検出とステップT14の分
離文字列検出とで得られた第5,11図の文字列領域9a,19
a,19bに対応する文書画像の領域を第13図に示す文字列
パターン11,21a,21bとして切り出す。
尚、上記実施例では、画像変換処理において、文書画
像を圧縮した画像に変換する場合について説明したが、
本発明はこれに限らず、他の画像に変換する画像変換手
段でも良い。要は、文字列が文字列の方向に連結する画
像に変換出来る手段であれば良い。例えば,文書画像を
文字列方向に走査し、黒画素に挟まれる狭い白画素の領
域を黒画素に変換し、得られた画像を変換画像としても
良い。
又、上記実施例では横書き文書について説明したが、
縦書き文書でも上記実施例と同様の効果がある。
このようにして一般に、文字列間には白い領域が存在
し、これが文字列を分離する領域であると考えられ、文
字列間で接触がある場合でも接触している部分以外では
白い領域が存在する。そこで、この白い領域に挟まれる
部分を切断領域として検出し、検出した切断領域で切断
することにより、接触文字列を分離して個々の文字列領
域を切り出すことが出来る。
尚、文字列間に存在する白画素の領域の検出には周辺
分布値を用いる方法もあるが、文字列の傾きに弱いもの
である。本発明によれば、文字列が傾いている場合でも
接触文字列領域から個々の文字列領域を高精度で切り出
すことが出来る。
〔発明の効果〕
以上説明してきたように、この発明によれば、入力画
像を走査して、文字列方向に近接した黒画素が連結する
ように処理して変換画像を作成し、この変換画像上で連
結領域を求め、この連結領域の形状情報を用いて、該連
結領域が一の文字列か、複数の文字列が接触した接触文
字列かを判定し、この接触文字列を文字列に垂直な方向
に走査して文字列に挟まれた白画素の領域全体をセパレ
ータとして検出し、文字列方向に隣り合う2つのセパレ
ータに挟まれた黒画素領域を切断領域として検出し、こ
の切断領域の黒画素を白画素に変換することにより接触
文字列を独立の文字列に切断するようにしたので、文字
列間で接触がある場合でも個々の文字列を分離して正確
に切り出すことが出来、従来装置に比べて切り出し精度
を向上させることが出来る。
【図面の簡単な説明】
第1図は本発明の実施例を示すフローチャート、第2図
は入力文書図、第3図は文書画像の図、第4図は変換画
像の図、第5図は連結領域の図、第6図は領域情報テー
ブルの図、第7図はセパレータの図、第8図はセパレー
タ情報テーブルの図、第9図は切断領域の図、第10図は
切断領域情報テーブルの図、第11図は分離された連結領
域の図、第12図は分離された領域情報テーブルの図、第
13図は切り出された各独立の文字列のパターン図であ
り、第14図は従来のフローチャート、第15図は入力文書
図、第16図は文書画像の図、第17図は変換画像の図、第
18図は従来の連結領域の図、第19図は従来の領域情報テ
ーブルの図、第20図は従来の文字列のパターン図であ
る。 1……文書、2……文書画像、3……変換画像、9a,19
a,19b……文字列領域、15a,15b……セパレータ、17……
切断領域、11,21a,21b……文字列、w……白画素領域。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−175875(JP,A) 特開 昭60−142784(JP,A) 特開 昭58−101374(JP,A) 特開 昭60−181880(JP,A) 特開 昭60−195685(JP,A) 特開 昭57−5181(JP,A) 特開 昭58−15368(JP,A) 特開 昭57−189274(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文書を光学的に走査し、光電変換すること
    によって得られた入力画像から文字列を切り出す文字列
    パターン切り出し方式において、 前記入力画像を走査して、文字列方向に近接した黒画素
    が連結するように処理して変換画像を作成し、この変換
    画像上で連結領域を求め、この連結領域の形状情報を用
    いて、該連結領域が一の文字列か、複数の文字列が接触
    した接触文字列かを判定し、この接触文字列を文字列に
    垂直な方向に走査して文字列に挟まれた白画素の領域全
    体をセパレータとして検出し、文字列方向に隣り合う2
    つのセパレータに挟まれた黒画素領域を切断領域として
    検出し、この切断領域の黒画素を白画素に変換すること
    により前記接触文字列を独立の文字列に切断するように
    したことを特徴とする文字列パターン切り出し方式。
JP61289799A 1986-12-05 1986-12-05 文字列パタ−ン切り出し方式 Expired - Fee Related JPH083830B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61289799A JPH083830B2 (ja) 1986-12-05 1986-12-05 文字列パタ−ン切り出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61289799A JPH083830B2 (ja) 1986-12-05 1986-12-05 文字列パタ−ン切り出し方式

Publications (2)

Publication Number Publication Date
JPS63142485A JPS63142485A (ja) 1988-06-14
JPH083830B2 true JPH083830B2 (ja) 1996-01-17

Family

ID=17747914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61289799A Expired - Fee Related JPH083830B2 (ja) 1986-12-05 1986-12-05 文字列パタ−ン切り出し方式

Country Status (1)

Country Link
JP (1) JPH083830B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60142784A (ja) * 1983-12-29 1985-07-27 Fujitsu Ltd 文字分離方式
JPS61175875A (ja) * 1985-01-31 1986-08-07 Mitsubishi Electric Corp 文書読取り装置

Also Published As

Publication number Publication date
JPS63142485A (ja) 1988-06-14

Similar Documents

Publication Publication Date Title
JP3253356B2 (ja) 文書画像の領域識別方法
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5774580A (en) Document image processing method and system having function of determining body text region reading order
EP0854433B1 (en) Caption and photo extraction from scanned document images
JP3411472B2 (ja) パターン抽出装置
JP2926066B2 (ja) 表認識装置
JP3344774B2 (ja) 矩形分類方法
Saitoh et al. Document image segmentation and layout analysis
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH083830B2 (ja) 文字列パタ−ン切り出し方式
JP3187895B2 (ja) 文字領域抽出方法
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP2004046528A (ja) 文書方向推定方法および文書方向推定プログラム
Balasubramanian et al. Information extraction from tabular drawings
JP3064391B2 (ja) 文字認識方法
JPH0713994A (ja) 文字認識装置
JP3086277B2 (ja) 文書画像処理装置
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
US6142374A (en) Optical character reader
JP3060248B2 (ja) 表認識装置
JPH07160810A (ja) 文字認識装置
JPH031712B2 (ja)
JPH0535914A (ja) 画像傾き検出方法
JP2571826B2 (ja) 文字列パターン切り出し装置
JP2917394B2 (ja) 文字認識装置及び文字切り出し方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees