JPH01154296A - 文字切出方法 - Google Patents

文字切出方法

Info

Publication number
JPH01154296A
JPH01154296A JP62314753A JP31475387A JPH01154296A JP H01154296 A JPH01154296 A JP H01154296A JP 62314753 A JP62314753 A JP 62314753A JP 31475387 A JP31475387 A JP 31475387A JP H01154296 A JPH01154296 A JP H01154296A
Authority
JP
Japan
Prior art keywords
character
positions
characters
window
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62314753A
Other languages
English (en)
Inventor
Takafumi Enami
隆文 枝並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62314753A priority Critical patent/JPH01154296A/ja
Publication of JPH01154296A publication Critical patent/JPH01154296A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [目次] 概要 産業上の利用分野 従来の技術 発明が解決しようとする問題点 問題点を解決するための手段 作用 実施例 発明の効果 [概要コ 本発明は、イメージデータに変換された紙葉上の印刷文
字を文字認識のために切り出す文字切出方法に関するも
のであり、 文字認識の精度を向上できる方法の提供を目的とし、 このため、−文字領域のイメージデータにより該領域に
含まれた文字の両端位置を検出し、両検出位置の文字両
外側のうち両検出位置 より定まる側で両検出位置に応
じた量となる空白が設けられた方形の切出窓を前記イメ
ージデータに対して設定し、設定枠内のイメージデータ
を文字切出データとして抽出する、ことを特徴としてい
る。
[産業上の利用分野] 本発明はイメージデータに変換された紙葉上の印刷文字
を切り出す文字切出方法に関するものである。
紙葉上に印刷された文字は、その読み取りをイメージス
キャナなどで光学的に行ない、各文字をイメージデータ
から切り出し、切り出された文字を辞書と照合すること
により認識できる。
[従来の技術] 第8図は従来における文字切出方法を説明するものであ
り、同図(A>、(B)、(C)、(D)で示される全
角文字「A」、半角文字「A」、記号「′″」、記号「
〜」は同図(E)、(F)。
(G)、(H)のようにそれらが全ての辺に内接する方
形の窓で切り出されていた。
このように認識の対象となる文字が切り出し用方形窓の
全通に内接するので、常に安定した文字認識を行なうこ
とが可能となる。
[発明が解決しようとする問題点] しかしながら従来においては、同図(E)。
(F)、(G)、(H>から理解されるように切り出し
時には文字の大きさや位置が切り出されたイメージデー
タには含まれておらず、窓に内接した文字の形状のみが
認識資料となり、したがって例えば同図(G)、(H>
の区別か困難となり、その結果、文字認識に誤りが発生
するという問題があった。
すなわち、通常の文書には略正方形で十分な結果が得ら
れる漢字よりそれ以外のものが多く含まれており、漢字
以外のものには撥音便や記号などの様に大きさや位置で
その内容を示すものも含まれるので、それらの場合には
ほぼ全てが誤って認識される。
本発明は上記従来の課題に鑑みてなされたものであり、
その目的は、大きさや位置などでその内容を示す撥音便
や記号などを正確に認識すること ゛が可能となる文字
切出方法を提供することにある。
[問題点を解決するための手段] 上記目的を達成するために、本発明に係る方法は第1図
のように構成されている。
まず第1図のステップ10では一文字領域のイメージデ
ータより該領域に含まれた文字の両端位置が検出される
なお、本発明では文字の左右または上下おるいはそれら
の双方の両端位置が検出され、同図においては、上下及
び左右の両端位置が検出されている。
このようにして文字の両端位置が検出されると、次のス
テップ12では、両位置に応じた量の空白を両位置の文
字外側に設けた方形の切出窓が前記イメージデータに対
して設定される。
そして空白が設けられる側は両検出位置により定まり、
 同図においては文字偏り側の反対側に空白が設けられ
る。
最後のステップ14では、ステップ12で設定された窓
内のイメージデータが文字切出データとして抽出されて
おり、その抽出データが該文字の認識に用いられる。
[作用] 本発明では、文字の両検出位置が文字の大きざ及びその
位置を示し、これに応じて設けられる空白がその大きさ
2位置の情報となるので、第1図に示された全ての文字
が、それらの大きさや位置にかかわらず、正確に認識さ
れる。
[実施例] 以下、図面に基づいて本発明に係る方法の好適な実施例
を説明する。
第2図は本発明が適用されたシステムを説明するもので
あり、紙葉20の印刷文はスキャナ22で光学的に読み
取られ、そのイメージデータによりコンピュータ24で
印刷文の文字認識が行なわれる。
この文字認識のための処理を行なう際には、同図のよう
に各文字の切り出しが行なわれており、第3図にはその
手順か示されている。
本実施例では、各行ごとに文字高さ1文字横区間がまず
検出され、これにより一文字の領域が決定される。
その決定作用が第4図で説明されており、同図において
は一行内に「・J、r、J、r−J。
rAJ、 r J、 rBJ、 r、 J、 rcJ、
ビ」が含まれている。
そしてこの行内で上下方向寸法が最も大きな文字rAJ
の上端位置cup、下端位置cdwnが検出されてそれ
らが打上端位置1up、行下端位置I dwnとされ、
文字領域が原則的に正方形であるので、それら位置1u
p、Idwn間の距離が諸行における一文字の高さ及び
その横区間bc−bcとして設定される。
つぎに、各文字の上端と下端の位置(cup。
cdwn)が検出され(ステップ31)、それらの上下
方向中央の位置が求められる(ステップ32)。
ざらにそれらの中央位置から文字高さの半分だけ各々外
側に離れた位置(ctop、cbottOm)が求めら
れるとくステップ33)、これらが打上下端位置1up
、Idwnを越えたか否かが判断され(ステップ34.
35>、越えた場合にはそれらの位置Iup、ldwn
に制限される(ステップ36.37>。
このようにして定められた上下位置(ctop。
cbottom)は内側へ向かって移動を開始しくステ
ップ38)、それらの一方が文字の上端位置cupまた
下端位置cdownに達したことが確認され(ステップ
39でYES) 、あるいは移動量が文字高さの半分と
なったことが確認されると(ステップ40でYES) 
、移動が停止され(ステップ41)、そのときの上側停
止位置ctop及び下側停止位置cdownが上下方向
における文字の切出位置として記′臣される。
そして左右端についても同様な処理が行なわれ(ステッ
プ43)、その確認が行なわれると(ステップ44でY
ES)、記憶位置で定まる方形窓内におけるイメージデ
ータが文字切出データとして抽出され、出力される(ス
テップ45)。
第5図は実施例の作用を示すものであり、ここでは同図
(A)のように記号「、」の文字が切り出される。
その場合にはこの文字が左下側に位置した小さなもので
あるので、同図(B)のように文字の上側及び右側に空
白を有した窓でそのイメージデータが抽出される。
また「−」の場合にはこれが一文字領域の上下方向中央
に位置するので、同図(C)の様に示す文字の上下に余
白を有した窓でイメージデータが抽出される。
以上の説明から理解されるように本実施例によれば、文
字切出窓の全ての辺に文字が内接しないときにはその文
字が小さなものであり、またスペースの存在位置で一文
字領域の文字の偏り位置が示されるので、これを利用し
て、第4図の記号r−J、r  J、r、J、r、Jは
正確に誤りなく認識される。
このことは撥音便のかなについても同様であり、その結
果、かなや記号の文字認識を従来に比して極めて正確に
行なうことが可能となる。
ただし、第4図に示された記号「・」のように文字が小
さく、−文字領域の中央に位置する場合には第6図から
も理解されるようにその文字は前記窓に内接せず、した
がって、場合によっては記号「、」と認識される様に文
字認識に誤りが生ずる。
この場合には窓の左右辺が文字の左右両端に各々接する
ように窓を設定することが安定した文字認識を行なう上
でも好ましい。
第7図はその方法を説明するものであり、まず文字左端
位置c+eftおよび文字右端位置criclhtが検
出される。
次にそれらの中央位置cmidが求められ、文字高さの
半分だけ離れた一文字領域の左右境界bCと一致する左
右位置ch I eft、 chr i C1htが求
められる。
なお、境界位置bcをそれらが越えたときは、境界位置
bcにそれらが境界位置にそれらが制限される。
さらに位置ch l eft、chr i ghtが内
側へ移動され、文字「・」の両側へそれらが達したとき
に、それらの位置C1eft、crightが同図(B
>のように窓の左右辺を決定するものとなる。
ただし、文字「、」のように左右対称の位置に配置され
ない場合には、左右いずれかの窓辺かその文字に外接す
る。
本実施例によれば窓の上下左右四辺の内二辺に切り出す
べき文字が内接するので、第1実施例よりさらに正確な
文字認識を行なうことが可能となる。
[発明の効果] 以上説明したように本発明によれば、文字切出窓の空白
から切り出すべき文字の大きさや一文字領域内における
文字位置を確認できるので、撥音便かな文字、記号文字
などの認識をきわめて高い精度で認識することが可能と
なる。
なお、記号文字のみの認識率は従来では60%程度であ
ったものを95%に、かな及び記号については認識率を
従来の90%から95%へ向上できることが確認されて
いる。
【図面の簡単な説明】
第1図は発明の県理説明図、第2図は実施例のシステム
説明図、第3図は実施例の手順説明図、第4図は実施例
の一文字領域決定作用説明図、第5図及び第6図は実施
例の作用説明図、第7図は他の左右方向切出方法の説明
図、第8図は従来例の説明図である。 10・・・両端位置検出 12・・・切出窓設定 14・・・イメージデータ抽出 ン 発明の原理説明図 第  1  図 実施例のシステム説明図 第2図 <”−−一文字領域 第5図 他の左右方向切出方法の説明図 第7図

Claims (1)

  1. 【特許請求の範囲】 一文字領域のイメージデータより該領域に含まれた文字
    の両端位置を検出し(10)、 両検出位置の文字両外側のうち両検出位置により定まる
    側で両検出位置に応じた量となる空白が設けられた方形
    の切出窓を前記イメージデータに対して設定し(12)
    、 設定窓内のイメージデータを文字切出データとして抽出
    する(14)、 ことを特徴とする文字切出方法。
JP62314753A 1987-12-10 1987-12-10 文字切出方法 Pending JPH01154296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62314753A JPH01154296A (ja) 1987-12-10 1987-12-10 文字切出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62314753A JPH01154296A (ja) 1987-12-10 1987-12-10 文字切出方法

Publications (1)

Publication Number Publication Date
JPH01154296A true JPH01154296A (ja) 1989-06-16

Family

ID=18057170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62314753A Pending JPH01154296A (ja) 1987-12-10 1987-12-10 文字切出方法

Country Status (1)

Country Link
JP (1) JPH01154296A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10119766B4 (de) * 2000-04-26 2009-02-26 Oc Oerlikon Balzers Ag RF Plasma Reaktor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6132187A (ja) * 1984-07-19 1986-02-14 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字認識方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6132187A (ja) * 1984-07-19 1986-02-14 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字認識方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10119766B4 (de) * 2000-04-26 2009-02-26 Oc Oerlikon Balzers Ag RF Plasma Reaktor

Similar Documents

Publication Publication Date Title
JPH04321183A (ja) ファイリング装置の文書登録方法
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
JPH01154296A (ja) 文字切出方法
JPH0516632B2 (ja)
Sahoo et al. Auto-Table-Extract: A System To Identify And Extract Tables From PDF To Excel
JPH09288714A (ja) 表認識方法および装置
JP3091278B2 (ja) 文書認識方式
JPH0728935A (ja) 文書画像処理装置
JP2682873B2 (ja) 表形式文書の認識装置
JP2618468B2 (ja) 文書処理装置
JPH0351029B2 (ja)
JPH04309B2 (ja)
JP2749425B2 (ja) 記事抽出方式
JPH0496882A (ja) 全角/半角判定方法
JPS61206090A (ja) 文字読取装置
JPS63188284A (ja) 文字読取装置
JP2623292B2 (ja) 辞書データの作成方法
JPH0330191B2 (ja)
JPH04252389A (ja) 文字認識装置及び文字認識方法
JPH039506B2 (ja)
JPH01270183A (ja) 文字認識装置
JPH0440748B2 (ja)
JPS59127174A (ja) 漢字など字体コ−ド読出し法
JPH01265378A (ja) 欧文文字認識方式
JPH0354684A (ja) 文字認識装置