JPH1117936A - 宛名領域抽出方法および装置 - Google Patents
宛名領域抽出方法および装置Info
- Publication number
- JPH1117936A JPH1117936A JP9164603A JP16460397A JPH1117936A JP H1117936 A JPH1117936 A JP H1117936A JP 9164603 A JP9164603 A JP 9164603A JP 16460397 A JP16460397 A JP 16460397A JP H1117936 A JPH1117936 A JP H1117936A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- area
- character
- character candidate
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Facsimile Image Signal Circuits (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 FAXカバーシート等、予め書式を知ること
ができない文書から、宛名が記入された宛名領域を抽出
できるようにする。 【解決手段】 文書入力部1は文書を走査し、2値化
(白画素:0、黒画素:1)した原画像を作成する。宛
名領域候補抽出部2は、直線を検出した後、文字列を囲
む枠(囲み枠)の中で最も下に位置する文字列の領域
と、アンダライン上の文字列の領域を抽出する。宛名領
域抽出部3は、宛名領域候補抽出部2で抽出された宛名
領域候補の中の最右端の文字が「様」「殿」であるか
を、文字認識、文字間隔の比較、文字の大きさの比較の
3つの手法を用いて確認することで、宛名領域を決定す
る。
ができない文書から、宛名が記入された宛名領域を抽出
できるようにする。 【解決手段】 文書入力部1は文書を走査し、2値化
(白画素:0、黒画素:1)した原画像を作成する。宛
名領域候補抽出部2は、直線を検出した後、文字列を囲
む枠(囲み枠)の中で最も下に位置する文字列の領域
と、アンダライン上の文字列の領域を抽出する。宛名領
域抽出部3は、宛名領域候補抽出部2で抽出された宛名
領域候補の中の最右端の文字が「様」「殿」であるか
を、文字認識、文字間隔の比較、文字の大きさの比較の
3つの手法を用いて確認することで、宛名領域を決定す
る。
Description
【0001】
【発明の属する技術分野】本発明は、FAXのカバーシ
ートのような、宛名が記入された帳票から、宛名が記入
された領域(宛名領域)を抽出する方法および装置に関
する。
ートのような、宛名が記入された帳票から、宛名が記入
された領域(宛名領域)を抽出する方法および装置に関
する。
【0002】
【従来の技術】従来、帳票から文字が記入された領域を
切り出す方法として、帳票上の認識すべき文字が記入さ
れる領域の位置、大きさ等を書式ファイルにあらかじめ
定義しておき、その定義に基づいて領域を切り出すとい
う方法があり、主にオーダエントリシステム等で用いら
れている。また、書式ファイルを定義できない文書から
宛名領域を抽出する方法として、予め決められた識別子
を宛名とともに記入しておき、その識別子をカバーシー
トの中から探し出すことで宛名領域を抽出する方法(A
kiyama:“Addressee Recogni
tion forAutomated FAX Mai
l Distribution”,Proc.of t
he SPIE,Vol.2660,pp216−22
3)が提案されている。
切り出す方法として、帳票上の認識すべき文字が記入さ
れる領域の位置、大きさ等を書式ファイルにあらかじめ
定義しておき、その定義に基づいて領域を切り出すとい
う方法があり、主にオーダエントリシステム等で用いら
れている。また、書式ファイルを定義できない文書から
宛名領域を抽出する方法として、予め決められた識別子
を宛名とともに記入しておき、その識別子をカバーシー
トの中から探し出すことで宛名領域を抽出する方法(A
kiyama:“Addressee Recogni
tion forAutomated FAX Mai
l Distribution”,Proc.of t
he SPIE,Vol.2660,pp216−22
3)が提案されている。
【0003】
【発明が解決しようとする課題】前者の方法は、FAX
カバーシートからの宛名領域抽出など、あらかじめ書式
ファイルを定義できない場合には適用することはできな
いという問題点があった。後者の方法は、送信者が予め
決められた識別子を宛名と共に記入しておかなければな
らないという問題点があった。
カバーシートからの宛名領域抽出など、あらかじめ書式
ファイルを定義できない場合には適用することはできな
いという問題点があった。後者の方法は、送信者が予め
決められた識別子を宛名と共に記入しておかなければな
らないという問題点があった。
【0004】本発明の目的は、FAXカバーシート等の
あらかじめ書式を知ることができない文書から、宛名が
記入された宛名領域を抽出できる宛名領域抽出方法およ
び装置を提供することにある。
あらかじめ書式を知ることができない文書から、宛名が
記入された宛名領域を抽出できる宛名領域抽出方法およ
び装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の宛名領域抽出方
法は、帳票を入力し、標本化および量子化によって、白
と黒の2値で表現される文書画像に変換する文書入力段
階と、文書入力段階で得られた文書画像から、アンダラ
インの上に記入された文字列の領域と、囲み枠に囲まれ
た文字列の中で最も下に位置する文字列の領域を抽出
し、これらの領域を宛名領域の候補とする宛名領域候補
抽出段階と、宛名領域候補抽出段階で抽出された宛名領
域候補の中から宛名領域を抽出する宛名領域抽出段階を
有する。
法は、帳票を入力し、標本化および量子化によって、白
と黒の2値で表現される文書画像に変換する文書入力段
階と、文書入力段階で得られた文書画像から、アンダラ
インの上に記入された文字列の領域と、囲み枠に囲まれ
た文字列の中で最も下に位置する文字列の領域を抽出
し、これらの領域を宛名領域の候補とする宛名領域候補
抽出段階と、宛名領域候補抽出段階で抽出された宛名領
域候補の中から宛名領域を抽出する宛名領域抽出段階を
有する。
【0006】本発明の実施態様によれば、宛名領域抽出
段階は、宛名領域候補抽出段階で抽出された、宛名領域
候補の領域から、文字であると推測される図形である文
字候補図形を抽出する文字候補図形抽出段階と、文字候
補図形抽出段階で抽出された文字候補図形の中で、各々
の宛名領域候補の最右端に位置する文字候補図形を、該
宛名領域候補の特定文字候補図形として抽出する特定文
字候補図形抽出段階と、特定文字候補図形抽出段階で抽
出された特定文字候補図形を文字認識する特定文字候補
認識段階と、特定文字候補認識段階の結果として得られ
る文字候補の中に特定文字が含まれる場合、該特定文字
候補図形を含む宛名領域候補を宛名領域として抽出する
認識結果判別段階と、文字候補図形抽出段階で抽出され
た文字候補図形の、隣接する文字候補図形との間の距離
を用いて、宛名領域候補抽出段階で抽出された宛名領域
候補を絞り込む文字候補図形間隔比較段階と、文字候補
図形抽出段階で抽出された文字候補図形の高さと幅を用
いて、宛名領域候補抽出段階で抽出された宛名領域候補
を絞り込む文字候補図形大きさ比較段階と、文字候補図
形間隔比較段階で得られた宛名領域候補と、文字候補図
形大きさ比較段階で得られた宛名領域候補を用いて宛名
領域を決定する宛名領域決定段階を有する。
段階は、宛名領域候補抽出段階で抽出された、宛名領域
候補の領域から、文字であると推測される図形である文
字候補図形を抽出する文字候補図形抽出段階と、文字候
補図形抽出段階で抽出された文字候補図形の中で、各々
の宛名領域候補の最右端に位置する文字候補図形を、該
宛名領域候補の特定文字候補図形として抽出する特定文
字候補図形抽出段階と、特定文字候補図形抽出段階で抽
出された特定文字候補図形を文字認識する特定文字候補
認識段階と、特定文字候補認識段階の結果として得られ
る文字候補の中に特定文字が含まれる場合、該特定文字
候補図形を含む宛名領域候補を宛名領域として抽出する
認識結果判別段階と、文字候補図形抽出段階で抽出され
た文字候補図形の、隣接する文字候補図形との間の距離
を用いて、宛名領域候補抽出段階で抽出された宛名領域
候補を絞り込む文字候補図形間隔比較段階と、文字候補
図形抽出段階で抽出された文字候補図形の高さと幅を用
いて、宛名領域候補抽出段階で抽出された宛名領域候補
を絞り込む文字候補図形大きさ比較段階と、文字候補図
形間隔比較段階で得られた宛名領域候補と、文字候補図
形大きさ比較段階で得られた宛名領域候補を用いて宛名
領域を決定する宛名領域決定段階を有する。
【0007】本発明の実施態様によれば、文字候補図形
間隔比較段階は、文字候補図形抽出段階で宛名領域候補
の中から切り出された各々の文字候補図形について、該
文字候補図形の左右に隣接する文字候補図形までの近い
方の距離である近接文字間距離を求めてこれを特定文字
候補図形の近接文字間距離と比較した時、特定文字候補
図形の近接文字間距離よりも大きな近接文字間距離を持
つ文字候補図形が存在する場合に、該宛名領域候補を取
り除くことで、宛名領域候補を絞り込む。
間隔比較段階は、文字候補図形抽出段階で宛名領域候補
の中から切り出された各々の文字候補図形について、該
文字候補図形の左右に隣接する文字候補図形までの近い
方の距離である近接文字間距離を求めてこれを特定文字
候補図形の近接文字間距離と比較した時、特定文字候補
図形の近接文字間距離よりも大きな近接文字間距離を持
つ文字候補図形が存在する場合に、該宛名領域候補を取
り除くことで、宛名領域候補を絞り込む。
【0008】本発明の実施態様によれば、文字候補図形
大きさ比較段階は、文字候補図形抽出段階で宛名領域候
補の中から切り出された各文字候補図形について、特定
文字候補図形の高さと該特定文字候補図形を除く文字候
補図形の高さの比を求めた時、それらの比が一定の条件
を満足する場合に、該宛名領域候補を取り除くことで、
宛名領域候補を絞り込む。
大きさ比較段階は、文字候補図形抽出段階で宛名領域候
補の中から切り出された各文字候補図形について、特定
文字候補図形の高さと該特定文字候補図形を除く文字候
補図形の高さの比を求めた時、それらの比が一定の条件
を満足する場合に、該宛名領域候補を取り除くことで、
宛名領域候補を絞り込む。
【0009】本発明の実施態様によれば、宛名領域決定
段階は、文字候補図形間隔比較段階で絞り込まれた宛名
領域候補と前記文字候補図形大きさ比較段階で絞り込ま
れた宛名領域候補との一致が求められた時、該宛名領域
候補を宛名領域として出力する。
段階は、文字候補図形間隔比較段階で絞り込まれた宛名
領域候補と前記文字候補図形大きさ比較段階で絞り込ま
れた宛名領域候補との一致が求められた時、該宛名領域
候補を宛名領域として出力する。
【0010】本発明の宛名領域抽出装置は、帳票を入力
し、標本化及び量子化によって、白と黒の2値で表現さ
れる文書画像に変換する文書入力手段と、文書入力手段
で得られた文書画像から、アンダラインの上に記入され
た文字列の領域と、囲み枠に囲まれた文字列の中で最も
下に位置する文字列の領域を抽出し、これらの領域を宛
名領域の候補とする宛名領域候補抽出段階と、前記宛名
領域候補抽出手段で抽出された宛名領域候補の中から宛
名領域を抽出する宛名領域抽出手段を有する。
し、標本化及び量子化によって、白と黒の2値で表現さ
れる文書画像に変換する文書入力手段と、文書入力手段
で得られた文書画像から、アンダラインの上に記入され
た文字列の領域と、囲み枠に囲まれた文字列の中で最も
下に位置する文字列の領域を抽出し、これらの領域を宛
名領域の候補とする宛名領域候補抽出段階と、前記宛名
領域候補抽出手段で抽出された宛名領域候補の中から宛
名領域を抽出する宛名領域抽出手段を有する。
【0011】図5(1)、(2)はFAXカバーシート
の中にある宛名が記入されている領域(宛名領域)の例
を示す図である。図5に示すように、宛名領域は、宛先
の人の名前と、宛名であることを示す特定文字「様」
「殿」などを含んでいる。また、図5に示すように、宛
名領域はアンダライン上にあるか枠に囲まれている場合
が多い。
の中にある宛名が記入されている領域(宛名領域)の例
を示す図である。図5に示すように、宛名領域は、宛先
の人の名前と、宛名であることを示す特定文字「様」
「殿」などを含んでいる。また、図5に示すように、宛
名領域はアンダライン上にあるか枠に囲まれている場合
が多い。
【0012】本発明は、宛名が記入された領域(宛名領
域)に関して、宛名領域は枠に囲まれているかアンダ
ラインが引かれていることが多い、宛名領域内に宛名
であることを示す特定文字、例えば、「様」「殿」を語
尾に含む、という2つの性質を利用することにより、宛
名領域の抽出を行う。具体的には、性質を利用し、枠
内に記入された文字の領域やアンダライン上に記入され
た文字の領域を宛名領域の候補として抽出した後、性質
を利用して、宛名領域候補内の最右端の文字が「様」
「殿」などの特定文字であるか否か判断することで、こ
れらの宛名領域候補の中から宛名領域を抽出する。
域)に関して、宛名領域は枠に囲まれているかアンダ
ラインが引かれていることが多い、宛名領域内に宛名
であることを示す特定文字、例えば、「様」「殿」を語
尾に含む、という2つの性質を利用することにより、宛
名領域の抽出を行う。具体的には、性質を利用し、枠
内に記入された文字の領域やアンダライン上に記入され
た文字の領域を宛名領域の候補として抽出した後、性質
を利用して、宛名領域候補内の最右端の文字が「様」
「殿」などの特定文字であるか否か判断することで、こ
れらの宛名領域候補の中から宛名領域を抽出する。
【0013】宛名領域候補内の最右端の文字が特定文字
であるか否かの判別は、以下の様に行う。まず、宛名領
域候補内の最右端の文字を認識する。認識結果として得
られる文字候補の中に「様」「殿」などの特定文字が含
まれる場合、その最右端の文字は特定文字であるとす
る。また、文字認識結果の候補文字の中に特定文字が含
まれていなくても、特定文字と推定される宛名領域候補
内の最右端の文字が、他の文字に比べて小さい場合や、
他の文字から離れて存在している場合には、その最右端
の文字が特定文字であるとする。
であるか否かの判別は、以下の様に行う。まず、宛名領
域候補内の最右端の文字を認識する。認識結果として得
られる文字候補の中に「様」「殿」などの特定文字が含
まれる場合、その最右端の文字は特定文字であるとす
る。また、文字認識結果の候補文字の中に特定文字が含
まれていなくても、特定文字と推定される宛名領域候補
内の最右端の文字が、他の文字に比べて小さい場合や、
他の文字から離れて存在している場合には、その最右端
の文字が特定文字であるとする。
【0014】以上により、FAXカバーシート等、予め
書式を知ることができない文書から、宛名が記入された
宛名領域を抽出できるようになる。
書式を知ることができない文書から、宛名が記入された
宛名領域を抽出できるようになる。
【0015】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0016】図1は本発明の一実施形態の宛名領域抽出
装置の構成図である。
装置の構成図である。
【0017】本実施形態の宛名領域抽出装置は文字入力
部1と宛名領域候補抽出部2と宛名領域抽出部3で構成
されている。
部1と宛名領域候補抽出部2と宛名領域抽出部3で構成
されている。
【0018】文書入力部1は、ファクシミリ、スキャナ
等を用いて文書を走査し、2値化(白画素:0、黒画
素:1)した原画像を作成する。宛名領域候補抽出部2
では、まず、文書入力部1で得られた原画像から直線を
検出し、次に、それらの直線を利用して、文字列を囲む
枠(囲み枠)の中で最も下に位置する文字列の領域と、
アンダライン上の文字列の領域を抽出する。そして、抽
出されたこれらの領域を宛名領域の候補とする。入力装
置としてFAXを使用する場合には、入力した画像が傾
いたり、雑音が入ったり、量子化によりつぶれやかすれ
が生じるなど、画質が劣化する場合もあるが、このよう
な場合でも、例えば特開平8−109527「フィール
ド抽出方法」に記載された方法を用いて、アンダライン
上の文字列の領域を高精度に抽出できる。囲み枠の中で
最も下に位置する文字列の領域も、囲み枠の下端の線を
アンダラインとみなして同様な処理を行うことで、抽出
できる。宛名領域抽出部3は、宛名領域候補抽出部2で
抽出された宛名領域候補の中から宛名領域を決定し、出
力する。
等を用いて文書を走査し、2値化(白画素:0、黒画
素:1)した原画像を作成する。宛名領域候補抽出部2
では、まず、文書入力部1で得られた原画像から直線を
検出し、次に、それらの直線を利用して、文字列を囲む
枠(囲み枠)の中で最も下に位置する文字列の領域と、
アンダライン上の文字列の領域を抽出する。そして、抽
出されたこれらの領域を宛名領域の候補とする。入力装
置としてFAXを使用する場合には、入力した画像が傾
いたり、雑音が入ったり、量子化によりつぶれやかすれ
が生じるなど、画質が劣化する場合もあるが、このよう
な場合でも、例えば特開平8−109527「フィール
ド抽出方法」に記載された方法を用いて、アンダライン
上の文字列の領域を高精度に抽出できる。囲み枠の中で
最も下に位置する文字列の領域も、囲み枠の下端の線を
アンダラインとみなして同様な処理を行うことで、抽出
できる。宛名領域抽出部3は、宛名領域候補抽出部2で
抽出された宛名領域候補の中から宛名領域を決定し、出
力する。
【0019】図2は宛名領域抽出部3の処理の流れを詳
細に示すフローチャートである。
細に示すフローチャートである。
【0020】文字候補図形抽出段階11では、宛名領域
候補抽出部2で抽出された宛名領域候補の中に含まれる
図形を文字であると仮定して切り出し処理を行う。具体
的には、連結黒画素の外接矩形や投影などを利用した方
法(秋山他:“非接触文字優先切り出しによる印刷物か
らの文字切り出し”、電子通信学会論文誌J67−D,
No.10,pp,1194−1201)など、既存の
方法を用いればよい。以後、文字候補図形抽出段階11
で抽出された図形を文字候補図形と呼ぶ。
候補抽出部2で抽出された宛名領域候補の中に含まれる
図形を文字であると仮定して切り出し処理を行う。具体
的には、連結黒画素の外接矩形や投影などを利用した方
法(秋山他:“非接触文字優先切り出しによる印刷物か
らの文字切り出し”、電子通信学会論文誌J67−D,
No.10,pp,1194−1201)など、既存の
方法を用いればよい。以後、文字候補図形抽出段階11
で抽出された図形を文字候補図形と呼ぶ。
【0021】特定文字候補図形抽出段階12では、文字
候補図形抽出段階11で切り出された文字候補図形のう
ち、各宛名領域候補の中で最も右に位置する文字候補図
形を、該宛名領域候補の特定文字候補図形として抽出す
る。
候補図形抽出段階11で切り出された文字候補図形のう
ち、各宛名領域候補の中で最も右に位置する文字候補図
形を、該宛名領域候補の特定文字候補図形として抽出す
る。
【0022】特定文字認識段階13では、特定文字候補
図形抽出段階12で抽出された特定文字候補図形に対し
て文字認識処理を行う。文字認識は既存の方法を用いれ
ば良い。
図形抽出段階12で抽出された特定文字候補図形に対し
て文字認識処理を行う。文字認識は既存の方法を用いれ
ば良い。
【0023】認識結果判別段階14では、特定文字候補
認識段階13で得られた文字認識処理結果を用いて、特
定文字である「様」「殿」が候補文字の中に含まれてい
て、なおかつ一定の条件を満たす場合、該特定文字候補
図形を含む宛名領域候補を宛名領域とする。この条件
は、認識結果として得られる文字候補順位、距離値など
を基に設定する。同様の条件を満たす宛名領域候補が複
数ある場合には、例えば、認識結果として得られた距離
値が最も小さいものを選択すればよい。認識結果判別段
階14で宛名領域を決定できない場合は、文字候補図形
間隔比較段階15に進む。
認識段階13で得られた文字認識処理結果を用いて、特
定文字である「様」「殿」が候補文字の中に含まれてい
て、なおかつ一定の条件を満たす場合、該特定文字候補
図形を含む宛名領域候補を宛名領域とする。この条件
は、認識結果として得られる文字候補順位、距離値など
を基に設定する。同様の条件を満たす宛名領域候補が複
数ある場合には、例えば、認識結果として得られた距離
値が最も小さいものを選択すればよい。認識結果判別段
階14で宛名領域を決定できない場合は、文字候補図形
間隔比較段階15に進む。
【0024】文字候補図形間隔比較段階15では、文字
候補図形抽出段階11で得られた各文字候補図形につい
て、左右に隣接する近い方の文字候補図形までの距離
(近接文字間距離)を求める。各文字候補図形につい
て、特定文字候補図形の近接文字間距離より大きい近接
文字間距離を持つ文字候補図形が存在する場合、該宛名
領域候補を除外する。この処理を全ての宛名領域候補に
ついて行う。
候補図形抽出段階11で得られた各文字候補図形につい
て、左右に隣接する近い方の文字候補図形までの距離
(近接文字間距離)を求める。各文字候補図形につい
て、特定文字候補図形の近接文字間距離より大きい近接
文字間距離を持つ文字候補図形が存在する場合、該宛名
領域候補を除外する。この処理を全ての宛名領域候補に
ついて行う。
【0025】図3に近接文字間距離の例を示す。宛名領
域候補内のn個の文字候補図形を左側から1,
2....nとしたとき、k番目とk+1番目の文字候
補図形の間隔をd(k+1,k)とする。k番目の文字
候補図形の近接文字間距離は、min(d(k−1,
k),d(k,k+1))で表すことができる。この
時、以下の(1)式を満足する宛名領域候補を宛名領域
候補から除外する。
域候補内のn個の文字候補図形を左側から1,
2....nとしたとき、k番目とk+1番目の文字候
補図形の間隔をd(k+1,k)とする。k番目の文字
候補図形の近接文字間距離は、min(d(k−1,
k),d(k,k+1))で表すことができる。この
時、以下の(1)式を満足する宛名領域候補を宛名領域
候補から除外する。
【0026】 d(n-1,n)≦max(d(1,2),min(d(1,2),d(2,3)),...,min(d(n-2,n-1),d(n-1),n) ))...(1) 文字候補図形大きさ比較段階16では、文字候補図形抽
出段階11で得られた文字候補図形全ての高さを求め、
特定文字候補図形を除いた文字候補図形の高さの平均値
を特定文字候補図形の高さと比較する。文字候補図形の
高さの平均値を特定文字候補図形の高さで割った値が一
定値以下になる宛名領域候補を宛名領域候補から除外す
る。
出段階11で得られた文字候補図形全ての高さを求め、
特定文字候補図形を除いた文字候補図形の高さの平均値
を特定文字候補図形の高さと比較する。文字候補図形の
高さの平均値を特定文字候補図形の高さで割った値が一
定値以下になる宛名領域候補を宛名領域候補から除外す
る。
【0027】図4に文字候補図形の高さの例を示す。宛
名領域候補内のn個の文字候補図形を左側から順に1,
2,...,nとしたとき、k番目の文字候補図形の高
さをh(k)とする。文字候補図形大きさ比較段階16
では、文字候補図形k=1,2,...,n−1の高さ
h(k)の平均値をMとした時、以下の(2)式を満足
する宛名領域候補を宛名領域候補から除外する。(2)
式中のparlはパラメータである。
名領域候補内のn個の文字候補図形を左側から順に1,
2,...,nとしたとき、k番目の文字候補図形の高
さをh(k)とする。文字候補図形大きさ比較段階16
では、文字候補図形k=1,2,...,n−1の高さ
h(k)の平均値をMとした時、以下の(2)式を満足
する宛名領域候補を宛名領域候補から除外する。(2)
式中のparlはパラメータである。
【0028】M<parl・h(n)...(2) 宛名領域決定段階17では、文字候補図形間隔比較段階
15、文字候補図形大きさ比較段階16の結果に基づい
て、宛名領域候補の中から宛名領域を決定する。例え
ば、文字候補図形間隔比較段階15で絞り込まれた宛名
領域候補と文字候補図形大きさ比較段階16絞り込まれ
た宛名領域候補が一致する宛名領域候補が唯一存在する
時、該宛名領域候補を宛名領域と決定する。2つ以上の
領域候補が存在する場合には、宛名領域抽出処理を中断
し、その後人手で処理してもよいし、文字候補図形間隔
比較段階15と文字候補図形大きさ比較段階16におい
て各々信頼度を求めておき、その信頼度(特定文字候補
の距離値や文字候補順位、文字候補図形の比較の際の大
きさなど)に基づいて宛名領域を決定してもよい。
15、文字候補図形大きさ比較段階16の結果に基づい
て、宛名領域候補の中から宛名領域を決定する。例え
ば、文字候補図形間隔比較段階15で絞り込まれた宛名
領域候補と文字候補図形大きさ比較段階16絞り込まれ
た宛名領域候補が一致する宛名領域候補が唯一存在する
時、該宛名領域候補を宛名領域と決定する。2つ以上の
領域候補が存在する場合には、宛名領域抽出処理を中断
し、その後人手で処理してもよいし、文字候補図形間隔
比較段階15と文字候補図形大きさ比較段階16におい
て各々信頼度を求めておき、その信頼度(特定文字候補
の距離値や文字候補順位、文字候補図形の比較の際の大
きさなど)に基づいて宛名領域を決定してもよい。
【0029】なお、以上に述べた方法は多値で入力した
画像に対しても、同様な処理を行うことができ、しかも
有効に作用することは明らかである。
画像に対しても、同様な処理を行うことができ、しかも
有効に作用することは明らかである。
【0030】
【発明の効果】以上説明したように、本発明によれば、
FAXカバーシート等の定型の書式を持たない文書か
ら、宛名が記入された領域を抽出することが可能とな
る。
FAXカバーシート等の定型の書式を持たない文書か
ら、宛名が記入された領域を抽出することが可能とな
る。
【図1】本発明の一実施形態の宛名領域抽出装置の構成
図である。
図である。
【図2】宛名領域抽出部3の処理の流れ図である。
【図3】文字候補図形間隔比較段階15の原理を示す図
である。
である。
【図4】文字候補図形大きさ比較段階16の原理を示す
図である。
図である。
【図5】宛名記入部分にアンダラインを用いたFAXカ
バーシートの宛名領域の例(図5(1))と、宛名記入
部分に枠を用いたFAXカバーシートの宛名領域の例
(図5(2))を示す図である。
バーシートの宛名領域の例(図5(1))と、宛名記入
部分に枠を用いたFAXカバーシートの宛名領域の例
(図5(2))を示す図である。
1 文書入力部 2 宛名領域候補抽出部 3 宛名領域抽出部 11 文字候補図形抽出段階 12 特定文字候補図形抽出段階 13 特定文字認識段階 14 識別結果判別段階 15 文字候補図形間隔比較段階 16 文字候補図形大きさ比較段階 17 宛名領域決定段階
Claims (6)
- 【請求項1】 帳票の中の宛名が記入された領域である
宛名領域を抽出する宛名領域抽出方法であって、 帳票を入力し、標本化および量子化によって、白と黒の
2値で表現される文書画像に変換する文書入力段階と、 前記文書入力段階で得られた文書画像から、アンダライ
ンの上に記入された文字列の領域と、囲み枠に囲まれた
文字列の中で最も下に位置する文字列の領域を抽出し、
これらの領域を宛名領域の候補とする宛名領域候補抽出
段階と、 前記宛名領域候補抽出段階で抽出された宛名領域候補の
中から宛名領域を抽出する宛名領域抽出段階を有する宛
名領域抽出方法。 - 【請求項2】 前記宛名領域抽出段階は、 前記宛名領域候補抽出段階で抽出された、宛名領域候補
の領域から、文字であると推測される図形である文字候
補図形を抽出する文字候補図形抽出段階と、 前記文字候補図形抽出段階で抽出された文字候補図形の
中で、各々の宛名領域候補の最右端に位置する文字候補
図形を、該宛名領域候補の特定文字候補図形として抽出
する特定文字候補図形抽出段階と、 前記特定文字候補図形抽出段階で抽出された特定文字候
補図形を文字認識する特定文字候補認識段階と、 前記特定文字候補認識段階の結果として得られる文字候
補の中に特定文字が含まれる場合、該特定文字候補図形
を含む宛名領域候補を宛名領域として抽出する認識結果
判別段階と、 前記文字候補図形抽出段階で抽出された文字候補図形
の、隣接する文字候補図形との間の距離を用いて、前記
宛名領域候補抽出段階で抽出された宛名領域候補を絞り
込む文字候補図形間隔比較段階と、 前記文字候補図形抽出段階で抽出された文字候補図形の
高さと幅を用いて、前記宛名領域候補抽出段階で抽出さ
れた宛名領域候補を絞り込む文字候補図形大きさ比較段
階と、 前記文字候補図形間隔比較段階で得られた宛名領域候補
と、前記文字候補図形大きさ比較段階で得られた宛名領
域候補を用いて宛名領域を決定する宛名領域決定段階を
有する請求項1に記載の宛名領域抽出方法。 - 【請求項3】 前記文字候補図形間隔比較段階は、前記
文字候補図形抽出段階で宛名領域候補の中から切り出さ
れた各々の文字候補図形について、該文字候補図形の左
右に隣接する文字候補図形までの近い方の距離である近
接文字間距離を求めてこれを特定文字候補図形の近接文
字間距離と比較した時、特定文字候補図形の近接文字間
距離よりも大きな近接文字間距離を持つ文字候補図形が
存在する場合に、該宛名領域候補を取り除くことで、宛
名領域候補を絞り込む請求項2に記載の宛名領域抽出方
法。 - 【請求項4】 前記文字候補図形大きさ比較段階は、前
記文字候補図形抽出段階で宛名領域候補の中から切り出
された各文字候補図形について、特定文字候補図形の高
さと該特定文字候補図形を除く文字候補図形の高さの比
を求めた時、それらの比が一定の条件を満足する場合
に、該宛名領域候補を取り除くことで、宛名領域候補を
絞り込む請求項2に記載の宛名領域抽出方法。 - 【請求項5】 前記宛名領域決定段階は、前記文字候補
図形間隔比較段階で絞り込まれた宛名領域候補と前記文
字候補図形大きさ比較段階で絞り込まれた宛名領域候補
との一致が求められた時、該宛名領域候補を宛名領域と
して出力する請求項2に記載の宛名領域抽出方法。 - 【請求項6】 帳票の中の宛名が記入された領域である
宛名領域を抽出する宛名領域抽出装置であって、 帳票を入力し、標本化及び量子化によって、白と黒の2
値で表現される文書画像に変換する文書入力手段と、 前記文書入力手段で得られた文書画像から、アンダライ
ンの上に記入された文字列の領域と、囲み枠に囲まれた
文字列の中で最も下に位置する文字列の領域を抽出し、
これらの領域を宛名領域の候補とする宛名領域候補抽出
段階と、 前記宛名領域候補抽出手段で抽出された宛名領域候補の
中から宛名領域を抽出する宛名領域抽出手段を有する宛
名領域抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9164603A JPH1117936A (ja) | 1997-06-20 | 1997-06-20 | 宛名領域抽出方法および装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9164603A JPH1117936A (ja) | 1997-06-20 | 1997-06-20 | 宛名領域抽出方法および装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1117936A true JPH1117936A (ja) | 1999-01-22 |
Family
ID=15796325
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9164603A Pending JPH1117936A (ja) | 1997-06-20 | 1997-06-20 | 宛名領域抽出方法および装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1117936A (ja) |
-
1997
- 1997-06-20 JP JP9164603A patent/JPH1117936A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1146478B1 (en) | A method for extracting titles from digital images | |
| US7039235B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
| US5563403A (en) | Method and apparatus for detection of a skew angle of a document image using a regression coefficient | |
| JP4189506B2 (ja) | 画像処理のための装置、方法及び記録媒体 | |
| EP0843277A2 (en) | Page analysis system | |
| JPH0713995A (ja) | 自動テキスト特徴決定装置 | |
| JP2001351066A (ja) | 文書認識処理のための装置、方法及び記録媒体 | |
| JPH05225378A (ja) | 文書画像の領域分割システム | |
| JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
| JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
| JP4613397B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
| JP3215163B2 (ja) | 罫線識別方法及び領域識別方法 | |
| Aparna et al. | A complete OCR system development of Tamil magazine documents | |
| JPH1117936A (ja) | 宛名領域抽出方法および装置 | |
| JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
| JP4079411B2 (ja) | 画像処理方法、画像処理装置、画像処理プログラムおよび画像処理プログラムが格納されたコンピュータ読み取り可能な記憶媒体 | |
| JP4731748B2 (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
| US20080225340A1 (en) | Image processing apparatus, image processing method, and computer program product | |
| CN115131806B (zh) | 一种基于深度学习的各类证件ocr图像信息识别方法、系统 | |
| JPH10171924A (ja) | 文字認識装置 | |
| JPH05159062A (ja) | 文書認識装置 | |
| JPH05174185A (ja) | 日本語文字認識装置 | |
| JPH04241074A (ja) | 自動文書清書装置 | |
| JP2001175808A (ja) | 画像処理装置、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 | |
| JP2002157550A (ja) | 文字認識装置、文字認識方法、および記録媒体 |