JPH07105309A - 行切出し方法 - Google Patents
行切出し方法Info
- Publication number
- JPH07105309A JPH07105309A JP5246743A JP24674393A JPH07105309A JP H07105309 A JPH07105309 A JP H07105309A JP 5246743 A JP5246743 A JP 5246743A JP 24674393 A JP24674393 A JP 24674393A JP H07105309 A JPH07105309 A JP H07105309A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- line
- temporary character
- virtual
- temporary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 表などのように1行中に大きな空白部がある
場合の文字行の切出し精度を向上させる。 【構成】 短冊領域から切り出された個々の行要素(仮
文字列)を連結して1つの行とするに当たり、隣に連結
可能な仮文字列が存在しない場合は、実在しない仮想的
な仮文字列を追加することにより、仮文字列の連結処理
を合理化し精度を上げる。
場合の文字行の切出し精度を向上させる。 【構成】 短冊領域から切り出された個々の行要素(仮
文字列)を連結して1つの行とするに当たり、隣に連結
可能な仮文字列が存在しない場合は、実在しない仮想的
な仮文字列を追加することにより、仮文字列の連結処理
を合理化し精度を上げる。
Description
【0001】
【産業上の利用分野】この発明は、一般的な印刷文書を
読み取る漢字読取装置(OCR)、特にその各文字行ま
たは文字列の切出し方法に関する。
読み取る漢字読取装置(OCR)、特にその各文字行ま
たは文字列の切出し方法に関する。
【0002】
【従来の技術】出願人は、文書の傾きにも強くするよ
う、各行を短冊状に分割して行切出しを行なう方法を先
に提案している(特開平2−141890号公報参照:
提案方式ともいう)。図10は提案方式の強連結処理を
示すフローチャート、図11は提案方式の弱連結処理を
示すフローチャートである。以下、これらのフローチャ
ートに従い、図12〜図16も参照しながら提案方式を
説明する。なお、ここでは主として横書きの文書を想定
しているが、縦書きの場合も同様である。
う、各行を短冊状に分割して行切出しを行なう方法を先
に提案している(特開平2−141890号公報参照:
提案方式ともいう)。図10は提案方式の強連結処理を
示すフローチャート、図11は提案方式の弱連結処理を
示すフローチャートである。以下、これらのフローチャ
ートに従い、図12〜図16も参照しながら提案方式を
説明する。なお、ここでは主として横書きの文書を想定
しているが、縦書きの場合も同様である。
【0003】まず、文書を所定の幅をもつ複数の帯領域
に分割し、各帯毎に列方向の投影をとると、図12に示
すような投影値の分布が得られる。この投影値を所定値
と比較し、所定値以上の場合は文字行があると判断し、
この文字行の上端と下端の座標を記憶する。なお、かか
る文字行の切出し技術は公知である。
に分割し、各帯毎に列方向の投影をとると、図12に示
すような投影値の分布が得られる。この投影値を所定値
と比較し、所定値以上の場合は文字行があると判断し、
この文字行の上端と下端の座標を記憶する。なお、かか
る文字行の切出し技術は公知である。
【0004】一方、図示されない記憶装置に図13,図
14に示す如きファイルを予め作成しておく。そして、
文字行が切り出される毎に、図13のファイルに対し、
帯の上から順に各文字行に1,2,3…の番号を付
け、その各々にスタート座標,エンド座標,幅(スター
ト座標−エンド座標),帯番号,属性(標準,細い,太
いを幅により判別)を書き込んで行く。しかる後、図1
0に示す如き強連結処理を順次行なう。
14に示す如きファイルを予め作成しておく。そして、
文字行が切り出される毎に、図13のファイルに対し、
帯の上から順に各文字行に1,2,3…の番号を付
け、その各々にスタート座標,エンド座標,幅(スター
ト座標−エンド座標),帯番号,属性(標準,細い,太
いを幅により判別)を書き込んで行く。しかる後、図1
0に示す如き強連結処理を順次行なう。
【0005】(1)ここでは、図15の如き具体的な文
書の強連結処理について説明する。 イ)1番目の帯について、上から順に〔1〕,
〔2〕,〔3〕のラベル番号を付与する。 ロ)1番目の帯の標準文字行をサーチすることによ
り、最初は行1がサーチされる(ステップS1)。 ハ)2番目の帯の標準文字行をサーチすることによ
り、最初に行4がサーチされる(ステップS2)。
書の強連結処理について説明する。 イ)1番目の帯について、上から順に〔1〕,
〔2〕,〔3〕のラベル番号を付与する。 ロ)1番目の帯の標準文字行をサーチすることによ
り、最初は行1がサーチされる(ステップS1)。 ハ)2番目の帯の標準文字行をサーチすることによ
り、最初に行4がサーチされる(ステップS2)。
【0006】ニ)強連結条件を満たすかどうかのチェッ
クをすべく、行1の座標(S11,E11)と行4の座
標(S21,E21)を求め、例えば、次式を満足して
いるかどうかを判断する。 Wo≧TH1・Wa かつ Wo≧TH1・Wb …(1) ここに、Wa,Wbは図16に示す如き2つの文字行1
m,1nの文字行幅、Woは重なり幅、TH1は設定値
をそれぞれ示している。図15の例では、上式の条件を
満たしているので、強連結と判断する(ステップS
3)。
クをすべく、行1の座標(S11,E11)と行4の座
標(S21,E21)を求め、例えば、次式を満足して
いるかどうかを判断する。 Wo≧TH1・Wa かつ Wo≧TH1・Wb …(1) ここに、Wa,Wbは図16に示す如き2つの文字行1
m,1nの文字行幅、Woは重なり幅、TH1は設定値
をそれぞれ示している。図15の例では、上式の条件を
満たしているので、強連結と判断する(ステップS
3)。
【0007】ホ)強連結と判定されると、行4のラベル
番号に対し、行1と同じラベル番号〔1〕が付されると
ともに、行1の連結情報欄に行4が記録される(ステッ
プS4)。 ヘ)次に、ステップS2に戻り、2番目の帯の標準文
字行をサーチすることにより、次の行5がサーチされ
る。しかし、この行5は行1と座標が重なる部分がない
ので、ステップS3で強連結ではないと判断され、その
結果、ステップS4では連結情報は記録されず、再びス
テップS2に戻る。
番号に対し、行1と同じラベル番号〔1〕が付されると
ともに、行1の連結情報欄に行4が記録される(ステッ
プS4)。 ヘ)次に、ステップS2に戻り、2番目の帯の標準文
字行をサーチすることにより、次の行5がサーチされ
る。しかし、この行5は行1と座標が重なる部分がない
ので、ステップS3で強連結ではないと判断され、その
結果、ステップS4では連結情報は記録されず、再びス
テップS2に戻る。
【0008】ト)1番目の帯の標準文字行2,3につ
いても同様の処理が行なわれることにより、行5にはラ
ベル番号〔2〕、行2の連結情報には行5が記録され
る。 チ)この例では、このような処理が2番目の帯,3番
目の帯,4番目の帯についても行なわれる。 リ)なお、2番目の帯の行6、3番目の帯の行7お
よび4番目の帯の行9は前の帯との強連結がないの
で、新たなラベル番号〔4〕,〔5〕,〔6〕がそれぞ
れ付与される。これにより、図13(イ)のようなファ
イルが作成されることになる。 ヌ)また、この図13(イ)のファイルをもとに、図1
4(イ)のような各ラベル内の行の連結を示すラベルフ
ァイルが作成される。
いても同様の処理が行なわれることにより、行5にはラ
ベル番号〔2〕、行2の連結情報には行5が記録され
る。 チ)この例では、このような処理が2番目の帯,3番
目の帯,4番目の帯についても行なわれる。 リ)なお、2番目の帯の行6、3番目の帯の行7お
よび4番目の帯の行9は前の帯との強連結がないの
で、新たなラベル番号〔4〕,〔5〕,〔6〕がそれぞ
れ付与される。これにより、図13(イ)のようなファ
イルが作成されることになる。 ヌ)また、この図13(イ)のファイルをもとに、図1
4(イ)のような各ラベル内の行の連結を示すラベルフ
ァイルが作成される。
【0009】(2)次に、弱連結処理について主に図1
1を参照して説明する。 ル)図14(イ)に基づき1番目の行(ラベル番号
〔1〕が付与されたもの)の終わりが属する帯の番号+
1により、ここでは帯が指定される(ステップS
5)。 オ)帯は帯総数4を超えていないので処理Aに進み、
帯の細い文字行7がサーチされる(ステップS6)。
1を参照して説明する。 ル)図14(イ)に基づき1番目の行(ラベル番号
〔1〕が付与されたもの)の終わりが属する帯の番号+
1により、ここでは帯が指定される(ステップS
5)。 オ)帯は帯総数4を超えていないので処理Aに進み、
帯の細い文字行7がサーチされる(ステップS6)。
【0010】ワ)図14(イ)のラベル番号〔1〕のエ
ンド帯の行4の座標(S21,E21)と、行7の座
標(S31,E31)の重なり具合、すなわち次式を満
たすかどうかにより弱連結か否かを判断する。 Wo≧TH2・Wa または Wo≧TH2・Wb …(2) (TH2は設定値) ここでは、この条件を満たすので、弱連結と判断する
(ステップS7)。
ンド帯の行4の座標(S21,E21)と、行7の座
標(S31,E31)の重なり具合、すなわち次式を満
たすかどうかにより弱連結か否かを判断する。 Wo≧TH2・Wa または Wo≧TH2・Wb …(2) (TH2は設定値) ここでは、この条件を満たすので、弱連結と判断する
(ステップS7)。
【0011】カ)弱連結と判断されると、行7のラベル
番号に行4と同じラベル番号〔1〕が付与されるととも
に、行1の連結情報に行4が記録される(ステップS
8)。また、図14(ロ)のようにラベル〔1〕のエン
ド帯番号がから、帯数が2から3にそれぞれ書き換
えられる。
番号に行4と同じラベル番号〔1〕が付与されるととも
に、行1の連結情報に行4が記録される(ステップS
8)。また、図14(ロ)のようにラベル〔1〕のエン
ド帯番号がから、帯数が2から3にそれぞれ書き換
えられる。
【0012】ヨ)次に、ステップS11で帯が指定さ
れるが、帯には太いあるいは細い文字行がないので、
連結情報は記録されない。その後、再びステップS11
において帯が指定されるが、帯はこの例での帯総数
4を超えているので、ステップS12で次のラベル
〔2〕が指定される。ところが、ラベル〔2〕のエンド
帯はであるため、ステップS5で帯番号に+1すると
帯総数4を超えてしまうので、再びステップS12に戻
り、次のラベル〔3〕が指定される。 タ)ラベル〔3〕では、行3と行6が弱連結と判断され
るので、行6のラベル番号に、行3と同じラベル番号
〔3〕が付与されるとともに、行3の連結情報に行6が
記録される(ステップS8)。また、図14(ロ)のよ
うにラベル〔3〕のエンド帯番号がから、帯数が1
から2にそれぞれ書き換えられる。
れるが、帯には太いあるいは細い文字行がないので、
連結情報は記録されない。その後、再びステップS11
において帯が指定されるが、帯はこの例での帯総数
4を超えているので、ステップS12で次のラベル
〔2〕が指定される。ところが、ラベル〔2〕のエンド
帯はであるため、ステップS5で帯番号に+1すると
帯総数4を超えてしまうので、再びステップS12に戻
り、次のラベル〔3〕が指定される。 タ)ラベル〔3〕では、行3と行6が弱連結と判断され
るので、行6のラベル番号に、行3と同じラベル番号
〔3〕が付与されるとともに、行3の連結情報に行6が
記録される(ステップS8)。また、図14(ロ)のよ
うにラベル〔3〕のエンド帯番号がから、帯数が1
から2にそれぞれ書き換えられる。
【0013】レ)このようにして、ラベル〔4〕,ラベ
ル〔5〕およびラベル〔6〕が指定されるが、ラベル
〔4〕,ラベル〔5〕は無くなっているので、ラベル
〔6〕の処理が行なわれる。ところが、ラベル〔6〕の
エンド帯番号は4であり、ステップS5で帯番号+1に
すると帯総数4を超えてしまう。そのため、ステップS
13で再びラベル〔1〕に戻り、ステップS9で帯番号
を−1する。しかし、ラベル番号〔1〕のスタート帯番
号はであるので、0になってしまう。その結果、ステ
ップS14で次のラベル〔2〕が指定されるが、ラベル
〔2〕もラベル〔1〕と同様なので、次にはラベル
〔3〕が指定されるが、このラベル〔3〕も同様なの
で、次のラベル〔4〕が指定される。ところが、ラベル
〔4〕と〔5〕は既に処理されて無くなっているので、
次のラベル〔6〕が指定される。
ル〔5〕およびラベル〔6〕が指定されるが、ラベル
〔4〕,ラベル〔5〕は無くなっているので、ラベル
〔6〕の処理が行なわれる。ところが、ラベル〔6〕の
エンド帯番号は4であり、ステップS5で帯番号+1に
すると帯総数4を超えてしまう。そのため、ステップS
13で再びラベル〔1〕に戻り、ステップS9で帯番号
を−1する。しかし、ラベル番号〔1〕のスタート帯番
号はであるので、0になってしまう。その結果、ステ
ップS14で次のラベル〔2〕が指定されるが、ラベル
〔2〕もラベル〔1〕と同様なので、次にはラベル
〔3〕が指定されるが、このラベル〔3〕も同様なの
で、次のラベル〔4〕が指定される。ところが、ラベル
〔4〕と〔5〕は既に処理されて無くなっているので、
次のラベル〔6〕が指定される。
【0014】ソ)次のラベル〔6〕のスタート帯番号は
であるので、ステップS9で−1されると帯番号と
なり、帯について処理Aが行なわれる。帯の細い行
7がステップS6でサーチされる。そして、ステップS
7で行9と行7が弱連結と判断されるので、行9のラベ
ル番号に、行7と同じラベル番号〔1〕が付与されると
ともに、行7の連結情報に行9が記録される(ステップ
S8)。また、図14(ロ)のようにラベル〔1〕のエ
ンド帯番号がから、帯数が3から4にそれぞれ書き
換えられる。また、図13(イ)のファイルは、最終的
には図13(ロ)のようになる。
であるので、ステップS9で−1されると帯番号と
なり、帯について処理Aが行なわれる。帯の細い行
7がステップS6でサーチされる。そして、ステップS
7で行9と行7が弱連結と判断されるので、行9のラベ
ル番号に、行7と同じラベル番号〔1〕が付与されると
ともに、行7の連結情報に行9が記録される(ステップ
S8)。また、図14(ロ)のようにラベル〔1〕のエ
ンド帯番号がから、帯数が3から4にそれぞれ書き
換えられる。また、図13(イ)のファイルは、最終的
には図13(ロ)のようになる。
【0015】以上、詳述したように、短冊状に分割され
た文書領域内で切り出された行要素(以下、仮文字列と
もいう)を1つの行に連結する場合に、各仮文字列に対
しその切出し幅に応じて本文,見出し,注釈またはその
他の属性を付与し、隣り合う短冊内の同一属性の仮文字
列の重なり具合を調べ、定められた条件を満たす場合に
同一行と見なす強連結処理と、隣り合う短冊内の異なる
属性の仮文字列の重なり具合を調べ、定められた条件を
満たすときに同一行と見なすなど、属性の組み合わせに
応じた仮文字列の統合,強制分割等の弱連結処理との2
段階の処理により、行の切出しを行なうようにしてい
る。
た文書領域内で切り出された行要素(以下、仮文字列と
もいう)を1つの行に連結する場合に、各仮文字列に対
しその切出し幅に応じて本文,見出し,注釈またはその
他の属性を付与し、隣り合う短冊内の同一属性の仮文字
列の重なり具合を調べ、定められた条件を満たす場合に
同一行と見なす強連結処理と、隣り合う短冊内の異なる
属性の仮文字列の重なり具合を調べ、定められた条件を
満たすときに同一行と見なすなど、属性の組み合わせに
応じた仮文字列の統合,強制分割等の弱連結処理との2
段階の処理により、行の切出しを行なうようにしてい
る。
【0016】その結果、例えば図17(イ)のように罫
線を含む文書等で、同図(ロ)の実線ように切出しに失
敗した仮文字列があった場合でも、その前後の短冊内の
仮文字列との弱連結処理を実行することによって、斜線
と点線で示すように強制的に分割することができるよう
になり、行切出しの精度を向上させることができるとい
うわけである。
線を含む文書等で、同図(ロ)の実線ように切出しに失
敗した仮文字列があった場合でも、その前後の短冊内の
仮文字列との弱連結処理を実行することによって、斜線
と点線で示すように強制的に分割することができるよう
になり、行切出しの精度を向上させることができるとい
うわけである。
【0017】
【発明が解決しようとする課題】しかしながら、以上の
如き提案方式では連結が隣り合う短冊内の仮文字列を対
象として行なわれるので、例えば図18(イ)のような
表の場合には、本来1行であるべきはずの仮文字列が、
間にその行を含まない短冊が存在するために連結でき
ず、別の行になってしまうという問題がある。また、図
18(ロ)のような場合は、切出し失敗の仮文字列を、
弱連結処理によっても強制分割できない(第2,4,5
行参照)という問題が生じることになる。したがって、
この発明の課題は間に連結すべき仮文字列がない短冊が
存在する場合でも行切出しを可能にし、精度を高めるこ
とにある。
如き提案方式では連結が隣り合う短冊内の仮文字列を対
象として行なわれるので、例えば図18(イ)のような
表の場合には、本来1行であるべきはずの仮文字列が、
間にその行を含まない短冊が存在するために連結でき
ず、別の行になってしまうという問題がある。また、図
18(ロ)のような場合は、切出し失敗の仮文字列を、
弱連結処理によっても強制分割できない(第2,4,5
行参照)という問題が生じることになる。したがって、
この発明の課題は間に連結すべき仮文字列がない短冊が
存在する場合でも行切出しを可能にし、精度を高めるこ
とにある。
【0018】
【課題を解決するための手段】このような課題を解決す
るため、この発明では、文書画像を短冊状の領域に分割
してその各領域から行要素を仮文字列として切り出す一
方、切り出された仮文字列の各々にその切出し幅に応じ
て本文,見出し,注釈またはその他の属性を付与すると
ともに、同一属性の各仮文字列についての重なり具合を
調べる強連結処理と、異なる属性の各仮文字列について
の重なり具合を調べる弱連結処理とを実行し、弱連結処
理において対象となる仮文字列と連結する仮文字列が隣
の短冊状領域に存在しない場合は、その仮文字列と開
始,終了位置を含む属性が等しく、かつ実在しないとい
う情報を持つ仮想的な仮文字列(仮想仮文字列)を生成
させ、この仮想仮文字列によって連結処理を続行するこ
とを特徴としている。この発明においては、前記生成さ
せるべき仮想仮文字列の開始,終了位置を、すでに確定
している仮文字列の連結情報をもとに補正して生成する
ことができる。
るため、この発明では、文書画像を短冊状の領域に分割
してその各領域から行要素を仮文字列として切り出す一
方、切り出された仮文字列の各々にその切出し幅に応じ
て本文,見出し,注釈またはその他の属性を付与すると
ともに、同一属性の各仮文字列についての重なり具合を
調べる強連結処理と、異なる属性の各仮文字列について
の重なり具合を調べる弱連結処理とを実行し、弱連結処
理において対象となる仮文字列と連結する仮文字列が隣
の短冊状領域に存在しない場合は、その仮文字列と開
始,終了位置を含む属性が等しく、かつ実在しないとい
う情報を持つ仮想的な仮文字列(仮想仮文字列)を生成
させ、この仮想仮文字列によって連結処理を続行するこ
とを特徴としている。この発明においては、前記生成さ
せるべき仮想仮文字列の開始,終了位置を、すでに確定
している仮文字列の連結情報をもとに補正して生成する
ことができる。
【0019】
【作用】仮想的な仮文字列を生成,連結して行くことに
より、隣り合ってはいないが実質上同一行になる仮文字
列どうしを連結可能とし、表などのように間に空白部分
を含む行の切出し精度を向上させる。
より、隣り合ってはいないが実質上同一行になる仮文字
列どうしを連結可能とし、表などのように間に空白部分
を含む行の切出し精度を向上させる。
【0020】
【実施例】図1はこの発明の実施例を示すフローチャー
トである。なお、この発明が適用されるOCRの構成は
良く知られているものを使用できるので、その構成につ
いては説明を省略する。また、具体的には図2の如き文
書画像が入力された場合について説明する。先ず、ステ
ップ(step)1では、文書画像領域を行方向と垂直
な方向にいくつかの短冊状の領域に分割する。図2の如
き文書画像を領域分割した例を図3に示す。R1〜R6
は短冊領域を示す。
トである。なお、この発明が適用されるOCRの構成は
良く知られているものを使用できるので、その構成につ
いては説明を省略する。また、具体的には図2の如き文
書画像が入力された場合について説明する。先ず、ステ
ップ(step)1では、文書画像領域を行方向と垂直
な方向にいくつかの短冊状の領域に分割する。図2の如
き文書画像を領域分割した例を図3に示す。R1〜R6
は短冊領域を示す。
【0021】次に、step2では提案方式と同様に、
短冊状の領域内で行方向に投影を取り、その投影値をも
とに仮文字列(行要素)の切出しを行なう。図2または
図3に対応する仮文字列の例を図4に示す。この切出さ
れた仮文字列に対し、step3でその幅に応じて本
文,見出し,注釈またはその他の属性を付与する。
短冊状の領域内で行方向に投影を取り、その投影値をも
とに仮文字列(行要素)の切出しを行なう。図2または
図3に対応する仮文字列の例を図4に示す。この切出さ
れた仮文字列に対し、step3でその幅に応じて本
文,見出し,注釈またはその他の属性を付与する。
【0022】step4,5では各仮文字列と、それが
含まれる短冊と隣り合う短冊に含まれる同一属性のすべ
ての仮文字列との重なり具合を調べる。図16と同様の
図5の場合について説明すると、仮文字列A(開始位置
SA ,終了位置EA ,仮文字幅HA =EA −SA )と、
その隣の仮文字列B(開始位置SB ,終了位置EB ,仮
文字幅HB =EB −SB )との重なりL=EA −S
B を、それぞれの仮文字幅HA ,HB と比較し、 条件1:L≧αHA かつL≧αHB (αは予め定められ
た定数) を満たす場合に、連結条件成立として強連結処理を行な
う。なお、この式は符号が異なるだけで、(1)式と同
じである。
含まれる短冊と隣り合う短冊に含まれる同一属性のすべ
ての仮文字列との重なり具合を調べる。図16と同様の
図5の場合について説明すると、仮文字列A(開始位置
SA ,終了位置EA ,仮文字幅HA =EA −SA )と、
その隣の仮文字列B(開始位置SB ,終了位置EB ,仮
文字幅HB =EB −SB )との重なりL=EA −S
B を、それぞれの仮文字幅HA ,HB と比較し、 条件1:L≧αHA かつL≧αHB (αは予め定められ
た定数) を満たす場合に、連結条件成立として強連結処理を行な
う。なお、この式は符号が異なるだけで、(1)式と同
じである。
【0023】step6では、step8で追加される
仮想仮文字列と、それが含まれる短冊と隣り合う短冊に
含まれる属性の異なるすべての仮文字列(仮想仮文字列
を含む)との重なり具合を調べる。図6の場合で説明す
ると、仮文字列C(開始位置SC ,終了位置EC ,仮文
字幅HC =EC −SC )と、仮文字列D(開始位置
S D ,終了位置ED ,仮文字幅HD =ED −SD )との
重なりL=ED −SD (=HD )を、それぞれの仮文字
幅HC ,HD と比較し、 条件2:L≧βHC またはL≧βHD (βは予め定めら
れた定数) を満たす場合に、連結条件成立とする。なお、この式も
符号が異なるだけで、(2)式と同じである。
仮想仮文字列と、それが含まれる短冊と隣り合う短冊に
含まれる属性の異なるすべての仮文字列(仮想仮文字列
を含む)との重なり具合を調べる。図6の場合で説明す
ると、仮文字列C(開始位置SC ,終了位置EC ,仮文
字幅HC =EC −SC )と、仮文字列D(開始位置
S D ,終了位置ED ,仮文字幅HD =ED −SD )との
重なりL=ED −SD (=HD )を、それぞれの仮文字
幅HC ,HD と比較し、 条件2:L≧βHC またはL≧βHD (βは予め定めら
れた定数) を満たす場合に、連結条件成立とする。なお、この式も
符号が異なるだけで、(2)式と同じである。
【0024】そして、上記連結条件が成立したらste
p7へ進み、連結条件が成立する仮文字列が存在しなか
った場合はstep8へ進む。step7では従来と同
様の弱連結処理を行なう。このstep7までは提案方
式と同様である。これに対し、step8はこの発明の
特徴となるところである。すなわち、ここでは隣の短冊
に連結する仮文字列が存在しない場合、例えば図7に示
すような新たな仮文字列Gを追加し、仮文字列F(開始
位置SF ,終了位置EF )と連結させる。このとき、追
加する仮文字列Gの属性は仮文字列Fと等しいものと
し、実在しない仮文字列(仮想仮文字列)であるという
情報を付加しておく。
p7へ進み、連結条件が成立する仮文字列が存在しなか
った場合はstep8へ進む。step7では従来と同
様の弱連結処理を行なう。このstep7までは提案方
式と同様である。これに対し、step8はこの発明の
特徴となるところである。すなわち、ここでは隣の短冊
に連結する仮文字列が存在しない場合、例えば図7に示
すような新たな仮文字列Gを追加し、仮文字列F(開始
位置SF ,終了位置EF )と連結させる。このとき、追
加する仮文字列Gの属性は仮文字列Fと等しいものと
し、実在しない仮文字列(仮想仮文字列)であるという
情報を付加しておく。
【0025】仮文字列Gの開始,終了位置SG ,E
G は、第1の方法では、 式1 SG =SF ,EG =EF とし、第2の方法では、 式2 SG =f(SF ),EG =f(EF ) とする。ここで、補正f(x)は例えば文書の傾きを表
現するものとして、 式3 f(x)=x+Δc(−) (ただし、Δc(−)は確定した仮文字列の中心間の距
離の平均を示すものとする。図8参照)のようにするこ
とが考えられる。
G は、第1の方法では、 式1 SG =SF ,EG =EF とし、第2の方法では、 式2 SG =f(SF ),EG =f(EF ) とする。ここで、補正f(x)は例えば文書の傾きを表
現するものとして、 式3 f(x)=x+Δc(−) (ただし、Δc(−)は確定した仮文字列の中心間の距
離の平均を示すものとする。図8参照)のようにするこ
とが考えられる。
【0026】以上の如き処理を、仮想仮文字列を含む切
り出されたすべての仮文字列に対して行ない、最終的な
行を生成する。なお、最終的に行情報を生成する段階で
は、本来実在しない仮想仮文字列に関する情報は使用し
ないものとする。こうして生成された最終的な行の例を
図9に示す。
り出されたすべての仮文字列に対して行ない、最終的な
行を生成する。なお、最終的に行情報を生成する段階で
は、本来実在しない仮想仮文字列に関する情報は使用し
ないものとする。こうして生成された最終的な行の例を
図9に示す。
【0027】
【発明の効果】この発明によれば、一般的な表などに見
られるように、本来1つの行であるが中に空白部分が含
まれていて、従来の如く単に短冊に分割する切り出し方
法では別の行になってしまうような行も、この発明の仮
想仮文字列を用いることで1つの行として切り出すこと
が可能となる。すなわち、入力文書の傾きに強いという
短冊分割による長所を生かしつつ、行切り出しの精度を
向上させることができる利点が得られる。
られるように、本来1つの行であるが中に空白部分が含
まれていて、従来の如く単に短冊に分割する切り出し方
法では別の行になってしまうような行も、この発明の仮
想仮文字列を用いることで1つの行として切り出すこと
が可能となる。すなわち、入力文書の傾きに強いという
短冊分割による長所を生かしつつ、行切り出しの精度を
向上させることができる利点が得られる。
【図1】この発明の実施例を示すフローチャートであ
る。
る。
【図2】入力画像例を説明するための説明図である。
【図3】図2に示す文書領域の短冊分割方法を説明する
ための説明図である。
ための説明図である。
【図4】図2から切り出された仮文字列を説明するため
の説明図である。
の説明図である。
【図5】仮文字列の重なり具合を説明するための説明図
である。
である。
【図6】仮文字列の重なり具合の別の例を説明するため
の説明図である。
の説明図である。
【図7】仮想仮文字列の生成方法を説明するための説明
図である。
図である。
【図8】傾きの補正方法を説明するための説明図であ
る。
る。
【図9】図2から最終的に切り出された行を説明するた
めの説明図である。
めの説明図である。
【図10】提案方式の強連結処理を説明するためのフロ
ーチャートである。
ーチャートである。
【図11】提案方式の弱連結処理を説明するためのフロ
ーチャートである。
ーチャートである。
【図12】文字行の切出し方法例を説明するための説明
図である。
図である。
【図13】行番号順の文字行ファイルを説明するための
説明図である。
説明図である。
【図14】ラベル番号順のファイルを説明するための説
明図である。
明図である。
【図15】傾きを持つ文書の具体例を説明するための説
明図である。
明図である。
【図16】文字行の行幅を説明するための説明図であ
る。
る。
【図17】仮文字列の従来の強制分割方法を説明するた
めの説明図である。
めの説明図である。
【図18】提案方式の問題点を説明するための説明図で
ある。
ある。
A〜F…仮文字列、G…仮想仮文字列、R1〜R6…短
冊領域。
冊領域。
Claims (2)
- 【請求項1】 文書画像を短冊状の領域に分割してその
各領域から行要素を仮文字列として切り出す一方、切り
出された仮文字列の各々にその切出し幅に応じて本文,
見出し,注釈またはその他の属性を付与するとともに、
同一属性の各仮文字列についての重なり具合を調べる強
連結処理と、異なる属性の各仮文字列についての重なり
具合を調べる弱連結処理とを実行し、弱連結処理におい
て対象となる仮文字列と連結する仮文字列が隣の短冊状
領域に存在しない場合は、その仮文字列と開始,終了位
置を含む属性が等しく、かつ実在しないという情報を持
つ仮想的な仮文字列(仮想仮文字列)を生成させ、この
仮想仮文字列によって連結処理を続行することを特徴と
する行切出し方法。 - 【請求項2】 前記生成させるべき仮想仮文字列の開
始,終了位置を、すでに確定している仮文字列の連結情
報をもとに補正して生成することを特徴とする請求項1
に記載の行切出し方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5246743A JPH07105309A (ja) | 1993-10-01 | 1993-10-01 | 行切出し方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5246743A JPH07105309A (ja) | 1993-10-01 | 1993-10-01 | 行切出し方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07105309A true JPH07105309A (ja) | 1995-04-21 |
Family
ID=17152997
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5246743A Pending JPH07105309A (ja) | 1993-10-01 | 1993-10-01 | 行切出し方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07105309A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7352897B2 (en) | 2001-09-27 | 2008-04-01 | Canon Kabushiki Kaisha | Method and means for dividing an image into character image lines, and method and apparatus for character image recognition |
| CN110991437A (zh) * | 2019-11-28 | 2020-04-10 | 北京嘉楠捷思信息技术有限公司 | 字符识别方法及其装置、字符识别模型的训练方法及其装置 |
-
1993
- 1993-10-01 JP JP5246743A patent/JPH07105309A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7352897B2 (en) | 2001-09-27 | 2008-04-01 | Canon Kabushiki Kaisha | Method and means for dividing an image into character image lines, and method and apparatus for character image recognition |
| CN110991437A (zh) * | 2019-11-28 | 2020-04-10 | 北京嘉楠捷思信息技术有限公司 | 字符识别方法及其装置、字符识别模型的训练方法及其装置 |
| CN110991437B (zh) * | 2019-11-28 | 2023-11-14 | 嘉楠明芯(北京)科技有限公司 | 字符识别方法及其装置、字符识别模型的训练方法及其装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5613131A (en) | Auto-formatting of tables in a spreadsheet program | |
| JP5826299B2 (ja) | 文書内のリストの再構築 | |
| US7398200B2 (en) | Token stream differencing with moved-block detection | |
| US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
| JPH07105309A (ja) | 行切出し方法 | |
| US6478337B1 (en) | Book with indexing means | |
| JPH08320914A (ja) | 表認識方法および装置 | |
| US7698637B2 (en) | Method and computer readable medium for laying out footnotes | |
| US7680329B2 (en) | Character recognition apparatus and character recognition method | |
| JP3307336B2 (ja) | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 | |
| JP3870672B2 (ja) | 文書ファイリング装置 | |
| JPH0361596B2 (ja) | ||
| JPH10207981A (ja) | 帳票認識方法 | |
| JP2794042B2 (ja) | 表形式文書の認識装置 | |
| JPH0743728B2 (ja) | 要約文生成方式 | |
| JP2569156B2 (ja) | 文字行切出し方法 | |
| JP2918380B2 (ja) | 文字認識結果の後処理方法 | |
| JPH051510B2 (ja) | ||
| JP2682873B2 (ja) | 表形式文書の認識装置 | |
| JPH01185761A (ja) | 文書整形装置 | |
| JPH07290792A (ja) | 帳票作成処理方法 | |
| JPH0225967A (ja) | 同音語の誤入力訂正方式 | |
| JP2933947B2 (ja) | 画像処理方法及び装置 | |
| JPS58203547A (ja) | 段組み処理方法 | |
| JPH0567163A (ja) | 図面分割方式 |