JPH09305701A - 帳票認識方法 - Google Patents
帳票認識方法Info
- Publication number
- JPH09305701A JPH09305701A JP8114573A JP11457396A JPH09305701A JP H09305701 A JPH09305701 A JP H09305701A JP 8114573 A JP8114573 A JP 8114573A JP 11457396 A JP11457396 A JP 11457396A JP H09305701 A JPH09305701 A JP H09305701A
- Authority
- JP
- Japan
- Prior art keywords
- character
- extracted
- line
- image
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
精度な帳票認識手法を提案することである。また,種類
の識別手法を提案することである。また,帳票に記載さ
れている下線を抽出する手法を提供することである。 【解決手段】帳票画像200から罫線枠204,206
と文字行212を抽出し,文字識別結果と単語辞書を照
合することにより,文字識別の誤りを修正する。表の特
徴と,照合により求めた帳票名と項目名から帳票の種類
を識別する。帳票画像から文字行と罫線を抽出し,抽出
した罫線から枠を構成する罫線を除去し,残りの罫線と
文字行の配置を比較することにより,下線を抽出する。 【効果】登記済通知書のような非定型帳票に対しても高
精度に帳票の種類を識別することができ,下線を文字中
のストロークなどと間違うことなく,高精度に抽出する
ことができる。
Description
に関する登記情報が記載された多様な帳票に関し,特
に,登記済通知書から文字データを読み取り,自動的に
入力する帳票認識方法に関する。
としては,以下のものが挙げられる。第1は,全ての種
類の帳票に対して同じ位置に記載された帳票の種類を表
すID番号を読み取ることにより,帳票の種類を識別す
る方式である。第2は,帳票の種類ごとに枠の構造が異
なる場合に,枠の構造を識別することにより帳票の種類
を識別する方式である。この例は,特開平7―1414
62号公報に記載されている。
通知書は現在7種類ある。これらの帳票は不動産に関す
る課税のためのデ−タ入力に用いられるものであるが、
この通知書には,帳票の種類を特定するID番号の記載
がないため,ID番号読み取りにより帳票を識別する従
来手法を用いることはできない。さらに,これらの帳票
は,同じ種類であっても枠の形状が異なる非定型帳票で
あるため,枠の構造から帳票を識別する従来手法を用い
ることはできない。また,表題部の文字を読み取ること
により帳票を識別する従来手法を用いる場合には,帳票
の識別精度は文字認識の精度に大きく依存するという問
題がある。登記済通知書の帳票名は,「権利に関する土
地登記済通知書」,「権利に関する建物登記済通知書
(一般)」,「権利に関する建物登記済通知書(専
有)」,「表示に関する土地登記済通知書」,「表示に
関する建物登記済通知書(一般)」,「表示に関する建
物登記済通知書(一棟)」,「表示に関する建物登記済
通知書(専有)」の7種類である。このうち,「表示に
関する建物登記済通知書(一般)」と「表示に関する建
物登記済通知書(一棟)」は,一字しか違わないため,
この二種類に対する識別精度が低くなる可能性がある。
類が多様な読み取り対象に対して,高精度な帳票識別手
段を有する帳票認識手段を提案することである。
を下線としていたため,文字の横方向のストローク等の
ノイズ成分を下線として誤抽出する可能性があった。そ
こで,本発明の第2の目的は,高精度な下線検出手段を
有する帳票認識手段を提案することである。
明は、登記済通知書の表面画像を入力し文字を読み取る
登記情報の認識方法であって,登記済通知書の画像から
文字行を抽出する文字行抽出手段と,抽出した複数の文
字行と枠との位置関係から帳票名の文字行を選択し文字
行選択手段と,帳票名の文字行を読み取る文字識別手段
から,登記済通知書の種類を識別する第1の帳票識別手
段と,登記済通知書の画像から罫線を抽出する罫線抽出
手段と,抽出した罫線から表の特徴を抽出する表特徴抽
出手段と,表の特徴から登記済通知書の種類を識別する
第2の帳票識別手段と,登記済通知書の画像から文字行
を抽出する文字行抽出手段と,抽出した文字行を読み取
る文字識別手段と,読み取り結果の中から帳票の項目名
を選択する項目名選択手段と,項目名の組み合わせから
登記済通知書の種類を識別する第3の帳票識別手段とを
具備し,当該3つの手段の結果を組み合わせることによ
り,登記済通知書の種類を識別する帳票認識方法を提供
する。
書の表面画像を入力し文字を読み取る登記情報の認識方
法であって,登記済通知書の画像から文字行と罫線を抽
出する文字行抽出手段と,抽出した罫線から枠罫線と枠
罫線でない罫線を区別する罫線種判定手段と,枠罫線で
ない罫線が含まれる枠内の文字行を検出する手段と,当
該枠内の文字行と当該枠内の枠罫線でない罫線との位置
関係から,当該枠内の枠罫線でない罫線が下線か否かを
判定する下線検出手段を具備する帳票認識方法を提供す
る。
説明する。なお、これにより本発明が限定されるもので
はない。
システムの構成図である。登記情報の認識を行う認識部
101と認識結果の修正を行う修正部105がネットワ
ーク104により接続されており,入力センタ111に
おいて認識と修正を並行して行うことができる。処理の
過程は,まずスキャナ102により登記済通知書100
の画像を入力する。次に,認識用計算機103では,文
字および罫線の認識を行い,修正用計算機106におい
て認識結果の修正確認を行う。また,辞書やコード表と
照合チェックし,コードデータを出力する。認識結果
は,通信制御用計算機107を介して,遠隔地にある計
算センタ110にあるホスト計算機108に接続された
登記情報データベース109に格納される。修正部10
5では,認識結果の一部を利用し,登記情報データベー
ス109をアクセスし,登録済の登記情報を読み出す。
当該読み出した登録情報と認識結果の一部を照合し,矛
盾がないかどうかの検定を行う。
ロック図である。認識部101では,帳票画像を読み取
り,修正部105に縮小画像248,枠座標250,下
線座標252,文字行座標254,帳票種類256,認
識結果ラティス258,文字座標260を出力する。修
正部105では,これらの入力データをもとに,操作者
が認識結果を修正する。画像入力部200では,帳票表
面の画像を白黒2値化して入力する。
行画像抽出部218に出力される。画像縮小部202で
は,後続の処理の高速化のため帳票画像を縮小し,縮小
画像248を出力する。縮小処理は,細い罫線が縮小後
かすれないよう,画素ごとのOR処理を行う。縮小した
画像に対し,罫線抽出部204において実線と点線の罫
線を抽出する。実線は,黒画素の連続するつながりをも
とに抽出される。点線は,黒画素の連結成分の外接矩形
の配置,サイズの拘束条件をもとに抽出される。枠抽出
部206では,204で抽出した罫線から罫線が四方を
取り囲む枠を求め,枠の頂点座標250を出力する。表
特徴抽出部208では,206で抽出された枠の情報か
ら,枠の集まりである表の特徴量を抽出する。この特徴
量とは,縦横の罫線の本数や,罫線同士の接続関係,枠
の位置関係等である。
ら出力された縮小画像から,文字の集合である文字行を
抽出する。ここでは,黒画素の連結成分うち,文字と推
定される大きさの連結成分の外接矩形の頂点座標をもと
に,文字の並びと推定される外接矩形を融合することに
より,文字行を生成する。行―枠対応部214では,2
12で抽出した文字行の頂点座標と206で抽出した枠
の頂点座標を比較することにより,各文字行がどの枠内
に存在するか,もしくは枠外にあるかを判定し,枠ごと
に含まれる文字行の頂点座標と枠外の文字行の頂点座標
254を出力する。 また,下線抽出部216では,2
04で抽出した罫線座標と,206で抽出した枠の頂点
座標と,214で抽出した枠内の文字行座標とをもと
に,下線を抽出して,下線の座標252を出力する。さ
らに,文字行画像抽出部218では,214で抽出され
た文字行座標をもとに,200で入力された画像から文
字行部分の画像を切り出す。文字切り出し・文字識別部
220では,文字切り出し部222と文字識別部224
が協調して,文字を1文字ずつ切り出し,その文字座標
260を出力する。さらに,文字識別部224では,切
り出した1文字分の画像パターンに対して,識別辞書2
26を用いて文字を識別する。帳票名照合部228で
は,文字識別部224の出力である文字識別結果を入力
し,単語照合部230により帳票名辞書232に格納さ
れた帳票名単語と照合することにより帳票名についての
認識結果の誤りを修正して帳票名を求める。
識対象の帳票名である。認識対象の帳票名はあらかじめ
わかっており,帳票名は帳票の種類に1対1に対応す
る。さらに,項目照合部234では,228で照合され
なかった文字認識結果を入力し,単語照合部236によ
り項目辞書238に格納された項目名単語と照合するこ
とにより項目名についての認識結果の誤りを修正して項
目名を求める。項目辞書238にされた単語は,認識対
象の帳票内に記載された項目である。内容照合部240
では,234で照合されなかった文字認識結果を入力
し,単語照合部242により内容辞書244に格納され
た内容単語と照合することにより内容についての認識結
果の誤りを修正する。ここで,「内容」とは帳票におい
て,項目名に対して記載されている内容をさす。例え
ば,「地目」という項目に対する内容には「居宅」や
「公園」などがある。内容辞書244に格納された単語
は,認識対象の帳票内に記載された内容を記載する単語
のうち,あらかじめ使用が決められている単語である。
240の処理の結果出力される認識結果ラティス258
は,1文字ごとに文字識別処理の結果である候補文字を
類似度が高い順に並べたものである。この文字識別結果
は,帳票名照合,項目照合,内容照合により誤りを修正
してある。
部208と帳票名照合部228と項目名照合部234の
出力結果を入力し,表特徴と帳票名,項目名から帳票の
種類を識別し,帳票種類256を出力する。
フローを示す図である。ステップ300で画像を入力
し,ステップ302で当該画像を縮小する。次いで,ス
テップ304で画像から罫線を抽出し,ステップ306
で罫線から枠を抽出する。さらに,ステップ308で表
の特徴を抽出する。また,ステップ310で当該縮小画
像から文字行を抽出し,ステップ312で,抽出した行
と枠とを対応付ける。また,ステップ314で,罫線と
枠と文字行の座標から下線を抽出する。さらに,ステッ
プ316で,文字行の座標値に基づいて帳票画像から文
字行部分の画像のみを抽出する。ステップ318で,当
該文字行画像を1文字ずつの画像に分割し,ステップ3
20で切り出された画像パターンに対して文字識別を実
行する。ステップ322では,文字識別結果を帳票名の
単語と照合して帳票名を識別する。ステップ324で
は,文字識別結果を項目名の単語と照合して項目名を識
別する。ステップ326では,文字識別結果を内容の単
語と照合して内容を識別する。ステップ328では,ス
テップ308の処理結果である表の特徴とステップ32
2の処理結果である帳票名とステップ324の処理結果
である項目名から帳票の種類を識別する。ステップ33
0では,300から328の処理で得た結果を出力す
る。
像を,説明のために簡略的に示した図である。帳票画像
400の例では,帳票名「権利に関する建物登記済通知
書(専有)」401が記載されており。横罫線402,
404,406,408と縦罫線410,412,41
4,416が印刷されている。また,項目として「符
号」418と「所在」420,「地目」422がある。
「符号」の内容としては「1」(424)と「2」(4
26),「所在」の内容としては428と430に「国
分寺市東恋ヶ窪1丁目280番地」が記載されている。
「地目」の内容としては,「宅地」(432)と「公
園」(434)が記載されている。さらに,内容424
「1」,428「国分寺市東恋ヶ窪1丁目280番
地」,432「宅地」には,それぞれ下線436,43
8,440が印刷されている。
ステップ304の罫線抽出処理結果を示すものである。
(a)の500は横罫線の抽出結果であり,(b)の5
20は縦罫線の抽出結果である。(a)では,図4の横
罫線402から408に相当する罫線として,それぞ
れ,502から508が抽出されている。下線436,
438,440に相当する下線として,それぞれ,51
0,514,516が抽出されている。512と518
は,「市東恋」の横ストロークをつなげることによっ
て,罫線として抽出したものである。この離れた横スト
ロークが接続される現象は,横罫線を抽出する際に黒画
素を横方向に収縮・膨張処理することにより,接近した
黒画素が接続されることに起因する。また,(b)で
は,図4の縦罫線410から416に相当する罫線とし
て,それぞれ,522から528が抽出されている。
ステップ306の枠抽出処理結果を示すものである。6
00は枠抽出結果である。602から618の9個の枠
が抽出されている。
ステップ310の文字行抽出処理結果を示すものであ
る。700は文字行抽出結果である。図4の文字行40
1,418,420,422,424から434の文字
行に対して,それぞれ702から720の文字行の外接
矩形が抽出されている。
出処理に関する処理フローである。罫線抽出処理30
4,枠抽出処理306,文字行抽出処理310の結果を
用いて,ステップ800では,枠を構成しない罫線を抽
出する。ステップ802では,ステップ800で抽出し
た罫線の本数分だけ,以下の処理を繰り返す。ステップ
804では,文字行の座標と罫線の座標を比較する。比
較の方法については図9と図10を用いて説明する。ス
テップ806では,比較した値が基準を満たすか否かを
判定する。基準値を満たす場合,ステップ808で,比
較対象の罫線を下線とする。なお,上記ステップ808
において抽出された2本の下線について,端点同士がが
微小な間隔で離れており,延長線上に存在する場合に
は,1本の下線であるとすることもできる。また,上記
ステップ808において抽出した下線の長さが基準値以
下であれば,下線とみなさないとすることもできる。
の帳票の枠の例である。横罫線900と902,縦罫線
904と906,文字行908,下線910が印刷され
ている。
出した結果である。この図を用いて下線の判定を説明す
る。下線判定処理は,文字行と同一枠内にある罫線の中
で,文字行の下に位置し,文字行とほぼ同じ長さの罫線
を下線と判定する。図10において,1007は文字が
印刷されていた領域であり,1008は1007の外接
矩形である。図9の900から910の罫線は,それぞ
れ1000から1010として抽出されている。さら
に,1012は文字の横ストロークを罫線として抽出し
たものである。抽出された罫線の中から,枠を構成して
いない罫線として,1010と1012が抽出される。
以下,1010を例として下線と判定される場合につい
て説明し,1012を例として下線と判定されない場合
を説明する。
ず,罫線の下端のy座標と文字行の下端のy座標との差
d11(1014)を求める。次に,罫線の上端のy座
標と文字行の上端のy座標との差d12(1016)を
求める。さらに,罫線のx方向の長さL1(1018)
と文字行のx方向の長さLc(1020)との差を求め
る。この値を基準値,α,β,γ1,γ2と比較する。
d11が文字行より下でα未満であり,d12がβ以上
であり,L1―Lcがγ1以上γ2以下であれば,この
罫線を下線とする。上記の処理の判定基準であるα,
β,γ1,γ2の値は経験的に求めることができる。
定であればその値を用いることができる。一定でなけれ
ば,枠の高さと文字の高さの差の1/2を用いることが
できる。βは,文字行の下端と下線との間隔と,文字の
高さとが一定であれば,この2つの値の和を用いること
ができる。γ1とγ2の値は,一文字程度のマージンを
見込んで,γ1は文字幅に(−1)をかけた値,γ2は
文字幅等を用いることができる。上記のα,β,γ1,
γ2の値の設定にあたっては,帳票の傾きや,線のかす
れやつぶれ等に対して頑健性をもたせるため,マージン
をもたせて値を設定することができる。また,d11の
値の許容値について,負の値を許容すれば,下線が文字
と重なる場合にも対応できる。
る。まず,罫線の下端のy座標と文字行の下端のy座標
との差d21(1022)を求める。次に,罫線の上端
のy座標と文字行の上端のy座標との差d22(102
4)を求める。さらに,罫線のx方向の長さL2(10
26)と文字行のx方向の長さLc(1020)との差
を求める。これらの値を上記α,β,γ1,γ2と比較
した場合,d21は負の大きな値となり,d22はβよ
り小さな値になるため,下線ではないと判定される。
の高さや枠の高さ等で正規化してもよい。また,L1と
Lcの差の代わりに比を比較してもよい。α,β,γ
1,γ2の値は,比較対象の定義に合わせて設定する。
字行の下端のy座標との差1014と,罫線の上端のy
座標と文字行の上端のy座標との差1016,罫線のx
方向の長さ(1018)と文字行のx方向の長さ(10
20)との差の3つの評価値を用いたが,必要に応じて
この中の1つもしくは2つのみを用いていもよい。
処理において,文字行の座標の代わりに文字の座標を用
いた例である。図10で説明した判定基準を用いて,枠
を構成しない罫線1108と文字の外接矩形1112を
比較することにより,1108は下線であると判定でき
る。また,枠を構成しない罫線1110と文字の外接矩
形1114を比較することにより,1110は下線でな
いと判定できる。
のみ下線が印刷されている例である。枠1200内に,
文字行1202と下線1204が記載されている。図1
1の方法を用いれば,文字行中の「1丁目280番」の
文字のみに下線が印刷されていることを判定できる。
抽出処理に関する別の処理フローである。登記済通知書
では,図4の436,438,440のように同一線上
に複数の下線が存在することが多い。一方,下線436
は短いので,文字内の横方向のストロークと長さが変わ
らないため,罫線抽出の際に抽出もれする可能性があ
る。この処理では,罫線抽出の際に抽出もれする可能性
のある短い下線を正しく抽出することを目的とする。こ
のため,まず長い下線を抽出し,この下線の延長上にあ
る罫線を下線と判定する。
る。ステップ1300では,長い下線のみを抽出する。
この処理は,図8で示した処理等を用いて実現できる。
ステップ1302では,横方向のランレングスデータの
うち枠線を構成しないランレングスデータを抽出する。
ステップ1304では,抽出したランレングスデータの
個数分についてステップ1306と1308の処理を繰
り返す。ステップ1306では,対象とするランレング
スデータが下線の延長線上にあるか否かを判定する。延
長線上にあれば,ステップ1308で下線を構成するラ
ンレングスデータであるとして抽出する。ステップ13
10では,ステップ1308で下線を構成すると判定さ
れたランレングスデータから構成される罫線を下線とし
て抽出する。なお,上記ステップ1310において抽出
された2本の下線について,端点同士がが微小な間隔で
離れており,延長線上に存在する場合には,1本の下線
であるとすることもできる。また,上記ステップ131
0において抽出した下線の長さが基準値以下であれば,
下線とみなさないとすることもできる。
ための帳票の枠の例である。横罫線1400と140
2,縦罫線1404から1410,下線1412から1
416,文字行1418から1422が印刷されてい
る。
い横方向のランレングスデータと長い下線とを抽出した
結果である。1500は図13のステップ1300で抽
出された長い下線である。横方向のランレングスデータ
の連結成分のうち,1502と1504は1500の延
長線上1508から許容範囲w(1510)以内にある
ので,下線であると判定する。1506はwよりも外に
あるので,下線はないと判定する。
抽出処理に関する別の処理フローである。この処理で
は,枠を構成しない横方向のランレングスデータの長さ
の値をランの中点から傾き方向に投影して作成したヒス
トグラムを用いて下線を抽出する。以下,図16の各ス
テップにてついて説明する。ステップ1600では,横
方向のランレングスデータのうち枠線を構成しないラン
レングスデータを抽出する。ステップ1602では,抽
出したランレングスデータの長さの値を,ランの中点か
ら傾き方向に投影してヒストグラムを作成する。ステッ
プ1604では,ヒストグラムの山の数だけステップ1
606とステップ1608の処理を繰り返す。ステップ
1606では,投影値が基準値以上であるか否かを判定
する。基準値以上であれば,ステップ1608で投影さ
れたランレングスデータは下線を構成すると判定する。
ステップ1610では,ステップ1608で下線を構成
すると判定されたランレングスデータから下線を抽出す
る。なお,上記ステップ1610において抽出された2
本の下線について,端点同士がが微小な間隔で離れてお
り,延長線上に存在する場合には,1本の下線であると
することもできる。また,上記ステップ1610におい
て抽出した下線の長さが基準値以下であれば,下線とみ
なさないとすることもできる。
い横方向のランレングスデータを抽出し,ヒストグラム
を作成した結果である。1700から1706は図16
のステップ1600で抽出された横方向のランレングス
データの連結成分である。ヒストグラム1708と17
10は,ステップ1602で投影された結果である。ス
テップ1606において,1708と1710につい
て,許容範囲w(1712)の範囲内の面積を基準値と
比較する。この場合,1708は基準値以上,1710
は基準値未満であるとすると,1700,1702,1
704は下線であり,1706は下線ではないと判定で
きる。
別処理に関する処理フローである。ステップ308では
表の特徴量を抽出する。ステップ322では帳票名の単
語照合結果を求める。ステップ324では項目名の単語
照合結果を求める。ステップ1800では,308,3
22,324の結果からそれぞれ導出される帳票の種類
を用いて,多数決により帳票種類を識別する。
は,罫線の接続関係,枠の個数,枠の配置関係,縦罫線
の本数,横罫線の本数等がある。罫線の接続関係が帳票
の種類ごとに異なる場合には,特開平7―141462
号公報に記載されている技術を用いて帳票の種類を特定
できる。
特徴の例として,認識対象である登記済通知書の縦の実
線罫線の本数を示している。これにより,縦の実線罫線
は7,8,10,11,12,16本のうちのいずれか
でることがわかる。このうち,8本と10本の場合を除
けば,帳票の種類が一意に決定する。8本と10本の場
合も帳票種類の候補を挙げることができる。
単語は,帳票名全てを一つの単語として登録してもよ
く,「権利」「表示」,「建物」「土地」,「一般」,
「専有」,「一棟」など特徴的な単語のみを登録しても
よい。
の中から一部を抜粋して示したものである。表2より,
「所在」や「所」のように複数の帳票に共通する項目名
や,「地積」や「一棟の建物番号」,「棟」,「表」の
ように帳票固有の項目名などがある。帳票固有の項目名
をもたない種類の帳票でも,複数の項目を組み合わせて
存在を判定することにより,「表示に関する建物登記済
通知書(一般)」と「表示に関する建物登記済通知書
(専有)」を除く5種類の帳票の種類を識別することが
できる。例えば,「床面積」の項目が存在し,「一棟の
建物番号」の項目が存在しなければ「権利に関する建物
登記済通知書(一般)」と識別することができる。
322,324の結果を統合して帳票の種類を識別す
る。統合の手段としては,上記3つの結果の多数決を用
いることができる。
2,324の各ステップで,一意に帳票の種類を識別で
きない場合でも,各ステップの処理結果を相互に補完す
ることによって,帳票の種類を識別することもできる。
例えば,ステップ308において,縦の実線罫線の本数
が8本抽出された場合,表1より帳票の種類は「表示に
関する土地登記済通知書」,「表示に関する建物登記済
通知書(一般)」,「表示に関する建物登記済通知書
(専有)」の3種類が考えられる。しかし,ステップ3
24において,項目名「表」が抽出されれば,「表示に
関する土地登記済通知書」であると一意に決定できる。
8,322,324の3つのステップの結果を用いるの
ではなく,2つのみを用いることもできる。
8,322,324の各ステップの結果を同等に扱うの
ではなく,一つのステップで得た結果から帳票を識別
し,他のステップで得た結果は,帳票識別の結果を検証
するために用いることもできる。
報システムの構成図である。101から109の構成は
図1に同じである。ソータ1900は,認識部101で
認識し,修正部105で修正した結果に基づき,登記済
通知書を記載内容の優先度順に帳票100をソートす
る。以下にソートの例を2つ挙げる。第一は,所在と地
番に該当する文字から,町ごとに丁目,番地,号の順に
ソートする。第二は,作成日,番号の順にソートする。
また,ソートする対象は,登記済通知書の帳票でも,認
識結果のデータでもよい。
通知書のような非定型帳票に対しても高精度に帳票の種
類を識別することができる。
線を文字中のストロークなどと間違うことなく,高精度
に抽出することができる。
票の認識結果に基づいて,帳票をソートすることができ
る。
の構成図である。
る。
ある。
線抽出処理をした結果を示す図である。
抽出処理をした結果を示す図である。
字行抽出処理をした結果を示す図である。
PAD図である。
結果を示す図である。
り出した結果を示す図である。
されている画像の説明図である。
るPAD図である。
レングスデータと長い下線線を抽出した結果を示す図で
ある。
るPAD図である。
レングスデータを抽出し,ランレングスデータの長さを
傾き方向に投影した結果を示す図である。
るPAD図である。
登記情報認識システムの構成図である。
出、208…表特徴抽出、246…帳票識別、222…
文字切り出し、224…文字識別、236…単語照合、
240…内容照合
Claims (8)
- 【請求項1】帳票の表面画像を入力し文字を読み取る帳
票認識方法において,上記表面画像から文字行と枠を抽
出し,抽出した複数の文字行と枠との位置関係から帳票
の名称を示す文字行を選択し,該帳票の名称を示す文字
行を読み取るとことにより,上記帳票の種類を識別する
第1の処理と,上記表面画像から罫線を抽出し,抽出し
た罫線から帳票上の表の特徴を抽出し,該表の特徴から
上記帳票の種類を識別する第2の処理と,上記上面画像
から文字行を抽出し,抽出した文字行を読み取り,読み
取り結果の中から上記帳票の項目名を選択し,項目名の
組み合わせから上記帳票の種類を識別する第3の処理と
を有し,当該3つの処理の処理結果を組み合わせること
により,上記帳票の種類を識別することを特徴とする帳
票認識方法。 - 【請求項2】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した複数の文字行と枠と
の位置関係から帳票名の文字行を選択し,帳票名の文字
行を読み取るとことにより,登記済通知書の種類を識別
する第1の方法と,登記済通知書の画像から罫線を抽出
し,抽出した罫線から表の特徴を抽出し,表の特徴から
登記済通知書の種類を識別する第2の方法とを有し,当
該2つの方法の結果を組み合わせることにより,登記済
通知書の種類を識別することを特徴とする帳票認識方
法。 - 【請求項3】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した複数の文字行と枠と
の位置関係から帳票名の文字行を選択し,帳票名の文字
行を読み取るとことにより,登記済通知書の種類を識別
する第1の方法と,登記済通知書の画像から文字行を抽
出し,抽出した文字行を読み取り,読み取り結果の中か
ら帳票の項目名を選択し,項目名の組み合わせから登記
済通知書の種類を識別する第2の方法とを有し,当該2
つの方法の結果を組み合わせることにより,登記済通知
書の種類を識別することを特徴とする帳票認識方法。 - 【請求項4】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行と罫線を抽出し,抽出した罫線から枠罫
線と枠罫線でない罫線を区別し,枠罫線でない罫線が含
まれる枠内の文字行を検出し,当該枠内の文字行と当該
枠内の枠罫線でない罫線との位置関係から,当該枠内の
枠罫線でない罫線が下線か否かを判定することを特徴と
する帳票認識方法。 - 【請求項5】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から下線を抽出し,当該下線の延長線上に存在する
黒画素を検出し,検出した黒画素の並びを下線であると
判定することを特徴とする帳票認識方法。 - 【請求項6】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から枠罫線を構成しないの罫線を抽出し,当該罫線
の長さの値を傾き方向に投影し,投影値を判定すること
により,下線を抽出することを特徴とする帳票認識方
法。 - 【請求項7】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した文字行から文字を切
り出し,切り出した文字を識別し,識別した文字から,
所在と地番に該当する文字を検出し,町ごとに丁目,番
地,号の順に登記済通知書をソートすることを特徴とす
る帳票認識方法。 - 【請求項8】登記済通知書の表面画像を入力し文字を読
み取る登記情報の認識方法において, 登記済通知書の
画像から文字行を抽出し,抽出した文字行から文字を切
り出し,切り出した文字を識別し,識別した文字から,
作成日と番号に該当する文字を検出し,作成日,番号の
順に登記済通知書をソートすることを特徴とする帳票認
識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11457396A JP3689485B2 (ja) | 1996-05-09 | 1996-05-09 | 帳票認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11457396A JP3689485B2 (ja) | 1996-05-09 | 1996-05-09 | 帳票認識方法 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005127313A Division JP2005293605A (ja) | 2005-04-26 | 2005-04-26 | 帳票認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH09305701A true JPH09305701A (ja) | 1997-11-28 |
| JP3689485B2 JP3689485B2 (ja) | 2005-08-31 |
Family
ID=14641226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP11457396A Expired - Lifetime JP3689485B2 (ja) | 1996-05-09 | 1996-05-09 | 帳票認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3689485B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003504760A (ja) * | 1999-07-09 | 2003-02-04 | イエマ − ヨリ アクチボラゲット | データベースの中のオブジェクトにidを割り当てる方法 |
| US6778712B1 (en) * | 1999-12-20 | 2004-08-17 | Fujitsu Limited | Data sheet identification device |
| JP2007328820A (ja) * | 2007-09-05 | 2007-12-20 | Hitachi Ltd | 帳票認識方法 |
| JP2012093876A (ja) * | 2010-10-26 | 2012-05-17 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
| JP2016027442A (ja) * | 2014-06-30 | 2016-02-18 | キヤノンマーケティングジャパン株式会社 | 情報処理システムと、その処理方法及びプログラム |
-
1996
- 1996-05-09 JP JP11457396A patent/JP3689485B2/ja not_active Expired - Lifetime
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003504760A (ja) * | 1999-07-09 | 2003-02-04 | イエマ − ヨリ アクチボラゲット | データベースの中のオブジェクトにidを割り当てる方法 |
| US6778712B1 (en) * | 1999-12-20 | 2004-08-17 | Fujitsu Limited | Data sheet identification device |
| JP2007328820A (ja) * | 2007-09-05 | 2007-12-20 | Hitachi Ltd | 帳票認識方法 |
| JP2012093876A (ja) * | 2010-10-26 | 2012-05-17 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
| JP2016027442A (ja) * | 2014-06-30 | 2016-02-18 | キヤノンマーケティングジャパン株式会社 | 情報処理システムと、その処理方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3689485B2 (ja) | 2005-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7120318B2 (en) | Automatic document reading system for technical drawings | |
| US6339651B1 (en) | Robust identification code recognition system | |
| US8059868B2 (en) | License plate recognition apparatus, license plate recognition method, and computer-readable storage medium | |
| US6850645B2 (en) | Pattern recognizing apparatus | |
| EP1497787B1 (en) | System and method for identifying and extracting character strings from captured image data | |
| US8792715B2 (en) | System and method for forms classification by line-art alignment | |
| EP0335696A2 (en) | Pattern recognition apparatus | |
| Kennard et al. | Separating lines of text in free-form handwritten historical documents | |
| JP2002324236A (ja) | 帳票識別方法及び帳票登録方法 | |
| US20050123199A1 (en) | Method for optical recognition of a multi-language set of letters with diacritics | |
| JP2000285190A (ja) | 帳票識別方法および帳票識別装置および記憶媒体 | |
| CN114937269B (zh) | 一种基于英文和汉字联合的船舶号牌识别方法及系统 | |
| US7715633B2 (en) | Medium processing apparatus, medium processing method, medium processing system and computer readable recording medium with medium processing program recorded thereon | |
| JP3689485B2 (ja) | 帳票認識方法 | |
| JP2898562B2 (ja) | ナンバープレート決定方法 | |
| JP3573945B2 (ja) | フォーマット認識装置及び文字読み取り装置 | |
| JPH11328309A (ja) | 光学的文字読み取り方法とその装置 | |
| JP2005250786A (ja) | 画像認識方法 | |
| JP2007328820A (ja) | 帳票認識方法 | |
| JP2005293605A (ja) | 帳票認識方法 | |
| JPH09259222A (ja) | フォーマット認識装置及び文字読取り装置 | |
| JP2002366893A (ja) | 帳票認識方法 | |
| JP3428504B2 (ja) | 文字認識装置 | |
| JP2993252B2 (ja) | 同形異文字判別方法および装置 | |
| JP3220226B2 (ja) | 文字列方向判別方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050426 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050613 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080617 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110617 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110617 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130617 Year of fee payment: 8 |
|
| EXPY | Cancellation because of completion of term |