JPH0433075B2 - - Google Patents
Info
- Publication number
- JPH0433075B2 JPH0433075B2 JP60110286A JP11028685A JPH0433075B2 JP H0433075 B2 JPH0433075 B2 JP H0433075B2 JP 60110286 A JP60110286 A JP 60110286A JP 11028685 A JP11028685 A JP 11028685A JP H0433075 B2 JPH0433075 B2 JP H0433075B2
- Authority
- JP
- Japan
- Prior art keywords
- ruby
- character line
- line
- boundary
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000010979 ruby Substances 0.000 claims description 53
- 229910001750 ruby Inorganic materials 0.000 claims description 53
- 238000009826 distribution Methods 0.000 claims description 40
- 238000000926 separation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、文字行抽出装置に係わり、特にルビ
付き文字を含む文字行から所望の文字行を抽出す
る装置に関するものである。
付き文字を含む文字行から所望の文字行を抽出す
る装置に関するものである。
(従来技術とその問題点)
文庫本等の書籍などに印字された一般的な日本
語文章には、ところどころの文字にふりがなや傍
点(以下、ルビと呼ぶ)が付されていることがあ
る。このようにルビが付された文字を文字認識技
術を用いて読み取る場合、このルビは誤読又はリ
ジエクトの原因となる。このため、文字又は文字
行とルビとを分離する必要が生じる。このような
ルビを文字を分離する装置として、例えば、特公
昭58−8024号公報(特願昭53−127855号)に開示
されているように、1行分の文章のうち、ルビが
示されていない側の端部から所定幅の範囲の射影
情報の空白部を基にして分離する方法があるが、
所定幅を印字された文字の大きさによつて予め定
めて置く必要が生じる。しかし、例えば、書籍等
の比較的大きな文字である章題と前記章題に比べ
小さな本文文字行のように、大きさの異なる文字
が混在する場合のルビについては予め文字の大き
さを固定的に定めることができない。さらには、
画像入力装置の分解能などが原因して、文字行と
ルビとが互いに接触する場合などには、ルビを分
離することが困難となる。
語文章には、ところどころの文字にふりがなや傍
点(以下、ルビと呼ぶ)が付されていることがあ
る。このようにルビが付された文字を文字認識技
術を用いて読み取る場合、このルビは誤読又はリ
ジエクトの原因となる。このため、文字又は文字
行とルビとを分離する必要が生じる。このような
ルビを文字を分離する装置として、例えば、特公
昭58−8024号公報(特願昭53−127855号)に開示
されているように、1行分の文章のうち、ルビが
示されていない側の端部から所定幅の範囲の射影
情報の空白部を基にして分離する方法があるが、
所定幅を印字された文字の大きさによつて予め定
めて置く必要が生じる。しかし、例えば、書籍等
の比較的大きな文字である章題と前記章題に比べ
小さな本文文字行のように、大きさの異なる文字
が混在する場合のルビについては予め文字の大き
さを固定的に定めることができない。さらには、
画像入力装置の分解能などが原因して、文字行と
ルビとが互いに接触する場合などには、ルビを分
離することが困難となる。
(発明の目的)
本発明は、上記従来の欠点を解決するために為
されたものであり、文字行内の文字の並び方向に
射影し、黒画素数の分布を算出した場合、その分
布の平均位置は、ルビの存在に影響されにくいの
に対して、文字行の幅は、ルビによつて変化する
という性質に着目することによつて、上記従来の
欠点を解決したルビ分離装置を有する文字行抽出
装置を提供することにある。
されたものであり、文字行内の文字の並び方向に
射影し、黒画素数の分布を算出した場合、その分
布の平均位置は、ルビの存在に影響されにくいの
に対して、文字行の幅は、ルビによつて変化する
という性質に着目することによつて、上記従来の
欠点を解決したルビ分離装置を有する文字行抽出
装置を提供することにある。
(発明の構成)
本発明によれば、光学的に走査量子化された文
章画像から抽出された文字行において、文字行を
重畳領域を有する複数個の部分領域に分け、文字
並び方向に走査して射影分布を検出する手段と、
複数個の部分領域の両端位置及び平均位置を射影
分布に従つて、検出する手段と、射影分布上の黒
画素数が一定値以下となる複数個の候補区間を検
出する手段と、該平均値及び両端位置を基にし
て、複数個の候補区間から部分文字行とルビ領域
との境界区間を算出する手段と、複数個の境界区
間から文字行とルビ行との境界領域を算出し、境
界領域内で、文字行の並び方向に得られる射影分
布上の黒画素数が最小となる位置として検出する
手段と、ルビ分離位置に従つて、所望の文字行を
抽出することを特徴とする文字行抽出装置を提供
することにある。
章画像から抽出された文字行において、文字行を
重畳領域を有する複数個の部分領域に分け、文字
並び方向に走査して射影分布を検出する手段と、
複数個の部分領域の両端位置及び平均位置を射影
分布に従つて、検出する手段と、射影分布上の黒
画素数が一定値以下となる複数個の候補区間を検
出する手段と、該平均値及び両端位置を基にし
て、複数個の候補区間から部分文字行とルビ領域
との境界区間を算出する手段と、複数個の境界区
間から文字行とルビ行との境界領域を算出し、境
界領域内で、文字行の並び方向に得られる射影分
布上の黒画素数が最小となる位置として検出する
手段と、ルビ分離位置に従つて、所望の文字行を
抽出することを特徴とする文字行抽出装置を提供
することにある。
(実施例)
以下、本発明について図面を参照しながら説明
する。第1図d〜gは、一例として本発明におけ
るルビ付き文字を含む文字行から所望の文字行を
抽出する方法を説明するための図である。同図
a,b,c,f,gはルビを含む文字行の一部を
示したものであり、同図d,eはルビを含まない
文字行の一部である。また、同図aは、ルビの一
部と所望の文字とに接触が生じている状態を表わ
している。尚、同図a及び同図dに示したような
文字行の抽出は、従来の公知の技術を用いて行う
ことができる。また、同図b,e,f,g文字行
内の文字の並び方向に走査することによつて得ら
れる黒画素数の分布、即ち射影分布を示してい
る。同図a及び図dにおける記号R1,R2は、例
えば文字行の幅情報を基にして設定した所定の大
きさを用いて、文字行を重畳領域を持つ複数個に
分割した際に得られる部分領域を示している。そ
こで、同図aに示す部分領域R1に対して同図b、
R2に対して同図c、同図dに示すR1に対して同
図eに示すような射影分布を抽出することができ
る。同図b,c,e,fの射影分布に記された記
号B1(l),B2(l),Bi(l)は、それぞれの射影分布に
対して得られる左端位置を示し、同様に記号B1
(U),B2(U),Bi(U)は、右端位置を示している。更
に、記号μ1,μ2,μiは、それぞれの射影分布にお
ける平均位置を示している。そこで、同図a及び
同図dに示した部分領域R1において、左端及び
右端位置B1(l),B1(U)平均値μ1との距離Dl及びDU
を式Dl=μ1−B1(l),DU=B1(U)−μ1を用いて算出
した場合、ルビを含まない同図dの場合には、距
離DlとDUはほぼ等しいと見なせる一方、ルビを
含む同図aの場合には、距離DUは距離Dlよりも
大きくなる。これは、同図aにおける平均値μ1
が、ルビを含むか否かに影響を受けにくいためで
ある。そこで、ルビ行と所望の文字行との境界付
近を例えば、同図bで示した位置S1=μ1+Dlより
求めることができる。尚、同図dにおいて、同図
aで示したようなルビ行と所望の文字行との境界
付近を同図dで示す平均値μ1と上述した距離Dlを
用いて算出すると、上述した境界は、文字行の右
端を含むことになり、ルビが存在しないことが容
易に判明する。
する。第1図d〜gは、一例として本発明におけ
るルビ付き文字を含む文字行から所望の文字行を
抽出する方法を説明するための図である。同図
a,b,c,f,gはルビを含む文字行の一部を
示したものであり、同図d,eはルビを含まない
文字行の一部である。また、同図aは、ルビの一
部と所望の文字とに接触が生じている状態を表わ
している。尚、同図a及び同図dに示したような
文字行の抽出は、従来の公知の技術を用いて行う
ことができる。また、同図b,e,f,g文字行
内の文字の並び方向に走査することによつて得ら
れる黒画素数の分布、即ち射影分布を示してい
る。同図a及び図dにおける記号R1,R2は、例
えば文字行の幅情報を基にして設定した所定の大
きさを用いて、文字行を重畳領域を持つ複数個に
分割した際に得られる部分領域を示している。そ
こで、同図aに示す部分領域R1に対して同図b、
R2に対して同図c、同図dに示すR1に対して同
図eに示すような射影分布を抽出することができ
る。同図b,c,e,fの射影分布に記された記
号B1(l),B2(l),Bi(l)は、それぞれの射影分布に
対して得られる左端位置を示し、同様に記号B1
(U),B2(U),Bi(U)は、右端位置を示している。更
に、記号μ1,μ2,μiは、それぞれの射影分布にお
ける平均位置を示している。そこで、同図a及び
同図dに示した部分領域R1において、左端及び
右端位置B1(l),B1(U)平均値μ1との距離Dl及びDU
を式Dl=μ1−B1(l),DU=B1(U)−μ1を用いて算出
した場合、ルビを含まない同図dの場合には、距
離DlとDUはほぼ等しいと見なせる一方、ルビを
含む同図aの場合には、距離DUは距離Dlよりも
大きくなる。これは、同図aにおける平均値μ1
が、ルビを含むか否かに影響を受けにくいためで
ある。そこで、ルビ行と所望の文字行との境界付
近を例えば、同図bで示した位置S1=μ1+Dlより
求めることができる。尚、同図dにおいて、同図
aで示したようなルビ行と所望の文字行との境界
付近を同図dで示す平均値μ1と上述した距離Dlを
用いて算出すると、上述した境界は、文字行の右
端を含むことになり、ルビが存在しないことが容
易に判明する。
次に同図fに示した第i番目(i=1,2,
3,…)の部分領域に対し、検出された射影分布
を用いて、ルビ行と所望の文字行との境界領域を
検出する方法について説明する。最初に、図中点
線に示すように、射影分布上の黒画素数が所定の
スライスレベルTs以下となる区間a,b,cを
検出する。次に、上述した平均値μ1及び距離Dlを
用いて上述した位置S1(=μ1+Dl)を算出し、位
置S1から所定許容幅を有する境界候補区間を設定
した場合、前述した区間a,b,cと境界候補区
間との論理積で示される領域を第i番領域Riに
おける境界区間として求めることができる。例え
ば、同図fの場合には、区間bより得られ、図中
LiとUiで示す区間が境界区間として求まる。尚
図中、Liは境界区間の左端位置を表わし、Uiは
境界区間の右端位置を表わしている。また、上述
した平均値μiを基にして射影分布を算出する方法
は、上述した所定のスライスレベルTsを用いる
方法に限定されるものではない。
3,…)の部分領域に対し、検出された射影分布
を用いて、ルビ行と所望の文字行との境界領域を
検出する方法について説明する。最初に、図中点
線に示すように、射影分布上の黒画素数が所定の
スライスレベルTs以下となる区間a,b,cを
検出する。次に、上述した平均値μ1及び距離Dlを
用いて上述した位置S1(=μ1+Dl)を算出し、位
置S1から所定許容幅を有する境界候補区間を設定
した場合、前述した区間a,b,cと境界候補区
間との論理積で示される領域を第i番領域Riに
おける境界区間として求めることができる。例え
ば、同図fの場合には、区間bより得られ、図中
LiとUiで示す区間が境界区間として求まる。尚
図中、Liは境界区間の左端位置を表わし、Uiは
境界区間の右端位置を表わしている。また、上述
した平均値μiを基にして射影分布を算出する方法
は、上述した所定のスライスレベルTsを用いる
方法に限定されるものではない。
このようにして求められた複数個の部分領域に
対して検出された境界区間の左端位置Li及び右端
位置Ui(i=1,2,…)から、同図gで示した
ような文字行全体に対する境界区間の左端位置L
及びUを容易に算出することができる。最後に文
字行全体に対する射影分布に対して、境界区間の
左端位置Lから右端位置Uまでのうち同図gの点
線矢印で示すように、射影分布上の黒画素数が最
も少ない位置をルビ行と文字行との分離位置とし
て求めることができる。尚、前述した分離位置の
算出時に用いる射影分布を文字行全体に対して再
度、検出しても良いし、処理速度の向上を目的と
して、部分領域の射影分布を累積することによつ
て代用しても良い。第2図は、本発明の具体的実
施例を示した論理ブロツク図である。図におい
て、1は画像メモリであり、画像メモリ1には、
書籍や帳票などの文書画像が、光学的に走査量子
化され画像情報として記憶される。2は、文字行
検出部であり、画像メモリ1に記憶された画像情
報から文字行を順次検出し、行情報記憶部3へ、
該文字行の位置や大きさなどの領域情報を格納す
る。尚、上述した文書画像を入力し、画像メモリ
1に記憶する画像入力装置や画像メモリ1に記憶
された画像情報から文字行を順次抽出する文字行
検出部2は、公知の技術を用いることにより実現
できる。部分領域算出部4は、行情報記憶部3に
格納された文字行を、第1図aで示したように、
n個(n≧1)の部分領域Ri(i=1,2,…
n)に分け、順次文字の並び方向(例えば、第1
図aでは垂直方向)及び部分領域Riの位置・大
きさの各情報を射影分布抽出部5に転送した後、
射影分布抽出部5によつて得られる部分領域Ri
に対する射影分布を順次部分射影記憶部6に格納
する。射影分布抽出部5は、設定された領域に対
する設定された方向の射影分布を画像メモリ1を
走査読出しすることによつて抽出する。平均位置
算出部7は、部分射影記憶部6より順次転送され
る射影分布から第1図に説明した平均位置μiを算
出する。候補区間検出部8は、部分射影記憶部6
より順次転送される射影分布を第1図に説明した
ように、射影分布上の黒画素数が所定のスライス
レベルTs以下となる複数個の区間を求める。境
界区間算出部9は、部分領域におけるルビ行と所
望の文字行との境界区間Li,Uiを、第1図で説
明したように、平均位置算出部7の出力である平
均位置μi及び候補区間検出部8の出力である複数
個の区間a,b,c及び該部分領域の左端位置
Bi(l)と右端位置Bi(U)を基にして算出する。尚、
前述した部分領域の左端位置と右端位置は、部分
領域算出部4へ該射影分布を射影分布抽出部5か
ら転送された際に、部分領域算出部4において検
出され、境界区間算出部9へ転送されるとする。
次に、境界区間算出部9から順次出力される部分
領域Ri(i=1,2,…n)の境界区間(第1図
fで示したように、境界区間の左端位置をLi、右
端位置をUiで示す)がそれぞれ、最小値算出部
10及び最大値算出部12へ転送される。即ち、
境界区間の左端位置Liが、最小値算出部10へ、
境界区間の右端位置Ui値が最大算出部12へ転
送される。11は、左端記憶部であり、ルビと所
望の文字行との境界区間の左端位置Lを記憶す
る。尚、左端記憶部11は、初期値として、非常
に大きな値がセツトされる。13は、右端記憶部
であり、ルビと所望の文字行との境界区間の右端
位置Uを記憶する。尚、右端記憶部13は、初期
値として0がセツトされる。最小値算出部10に
おいて、境界区間算出部9より順次出力される部
分領域Ri(i=1,2,…n)の境界区間の左端
位置Liと左端記憶部11に格納された内容とを比
較し、境界区間算出部9の出力値である左端位置
Liが左端記憶部11の内容より小さければ、該左
端位置Liを左端記憶部11へ転送し、左端記憶部
11の内容が更新される。最大値算出部12にお
いて、境界区間算出部9より順次出力される部分
領域Ri(i=1,2,…n)の境界区間の右端位
置Uiと右端記憶部13に格納された内容とを比
較し、境界区間算出部9の出力値である右端位置
Uiが右端記憶部13の内容より大きければ、該
右端位置Uiを右端記憶部13へ転送し、右端記
憶部13の内容が更新される。上記動作をn個の
部分領域Ri(i=1,2,…n)について行うこ
とによつて、ルビと所望の文字行との境界区間の
左端位置L及び右端位置Uがそれぞれ、左端記憶
部11及び右端記憶部13に記憶されることにあ
る。ルビ分離位置判定部14は、左端記憶部11
及び右端記憶部13の内容である左端位置L及び
右端位置Uと、該左端位置L及び右端位置Uの算
出対象となる文字行の領域情報を行情報記憶部3
から取り込み、該領域情報と文字行の文字並び方
向とを射影分布抽出部5へ転送し、射影分布抽出
部5より得られる該文字行の文字の並び方向の射
影分布とを用いて、ルビと所望の文字行とを分離
する位置(以下、ルビ分離位置)を算出する。即
ち、左端位置Lから右端位置Uで示される境界区
間において、文字行全体における射影分布上の黒
画素が最小となる位置をルビ分離位置として算出
される。尚、前述した説明では、文字行全体にお
ける射影分布を抽出するとしたが、文字行全体の
うち、左端位置Lから右端位置Uで示される境界
区間の射影分布を射影分布抽出部5によつて抽出
することによつて、射影分布算出の処理時間を短
縮することもできるし、更に、部分射影記憶部6
に記憶される部分領域Ri(i=1,2,…n)の
射影分布を累積した射影分布を算出し、前述した
文字行全体の射影分布の代用として用いることも
できる。ルビ分離位置判定部14により得られた
ルビ分離位置及び行情報記憶部3に格納された文
字行の領域情報に基づいて、画像メモリ1から該
文字行からルビ領域を除去した所望の文字行を抽
出し、従来技術によつて実現できる文字切出し装
置(図中省略)へ転送し、一文字毎に分離され
る。上述した動作は、行情報記憶部3に記憶され
すべての文字行に適用される。尚、行情報記憶部
3に記憶された文字行のうち、ルビを含まない文
字行の場合には、前述した文字行に対する複数個
の部分領域に対して、すべてルビと所望の文字行
との境界区間が検出されないか、または、検出さ
れた境界区間の右端位置Uに、文字行全体の右端
位置が含まれるようになるため、ルビを含まない
文字行に対して適用しても安定に所望の文字行を
抽出することができる。
対して検出された境界区間の左端位置Li及び右端
位置Ui(i=1,2,…)から、同図gで示した
ような文字行全体に対する境界区間の左端位置L
及びUを容易に算出することができる。最後に文
字行全体に対する射影分布に対して、境界区間の
左端位置Lから右端位置Uまでのうち同図gの点
線矢印で示すように、射影分布上の黒画素数が最
も少ない位置をルビ行と文字行との分離位置とし
て求めることができる。尚、前述した分離位置の
算出時に用いる射影分布を文字行全体に対して再
度、検出しても良いし、処理速度の向上を目的と
して、部分領域の射影分布を累積することによつ
て代用しても良い。第2図は、本発明の具体的実
施例を示した論理ブロツク図である。図におい
て、1は画像メモリであり、画像メモリ1には、
書籍や帳票などの文書画像が、光学的に走査量子
化され画像情報として記憶される。2は、文字行
検出部であり、画像メモリ1に記憶された画像情
報から文字行を順次検出し、行情報記憶部3へ、
該文字行の位置や大きさなどの領域情報を格納す
る。尚、上述した文書画像を入力し、画像メモリ
1に記憶する画像入力装置や画像メモリ1に記憶
された画像情報から文字行を順次抽出する文字行
検出部2は、公知の技術を用いることにより実現
できる。部分領域算出部4は、行情報記憶部3に
格納された文字行を、第1図aで示したように、
n個(n≧1)の部分領域Ri(i=1,2,…
n)に分け、順次文字の並び方向(例えば、第1
図aでは垂直方向)及び部分領域Riの位置・大
きさの各情報を射影分布抽出部5に転送した後、
射影分布抽出部5によつて得られる部分領域Ri
に対する射影分布を順次部分射影記憶部6に格納
する。射影分布抽出部5は、設定された領域に対
する設定された方向の射影分布を画像メモリ1を
走査読出しすることによつて抽出する。平均位置
算出部7は、部分射影記憶部6より順次転送され
る射影分布から第1図に説明した平均位置μiを算
出する。候補区間検出部8は、部分射影記憶部6
より順次転送される射影分布を第1図に説明した
ように、射影分布上の黒画素数が所定のスライス
レベルTs以下となる複数個の区間を求める。境
界区間算出部9は、部分領域におけるルビ行と所
望の文字行との境界区間Li,Uiを、第1図で説
明したように、平均位置算出部7の出力である平
均位置μi及び候補区間検出部8の出力である複数
個の区間a,b,c及び該部分領域の左端位置
Bi(l)と右端位置Bi(U)を基にして算出する。尚、
前述した部分領域の左端位置と右端位置は、部分
領域算出部4へ該射影分布を射影分布抽出部5か
ら転送された際に、部分領域算出部4において検
出され、境界区間算出部9へ転送されるとする。
次に、境界区間算出部9から順次出力される部分
領域Ri(i=1,2,…n)の境界区間(第1図
fで示したように、境界区間の左端位置をLi、右
端位置をUiで示す)がそれぞれ、最小値算出部
10及び最大値算出部12へ転送される。即ち、
境界区間の左端位置Liが、最小値算出部10へ、
境界区間の右端位置Ui値が最大算出部12へ転
送される。11は、左端記憶部であり、ルビと所
望の文字行との境界区間の左端位置Lを記憶す
る。尚、左端記憶部11は、初期値として、非常
に大きな値がセツトされる。13は、右端記憶部
であり、ルビと所望の文字行との境界区間の右端
位置Uを記憶する。尚、右端記憶部13は、初期
値として0がセツトされる。最小値算出部10に
おいて、境界区間算出部9より順次出力される部
分領域Ri(i=1,2,…n)の境界区間の左端
位置Liと左端記憶部11に格納された内容とを比
較し、境界区間算出部9の出力値である左端位置
Liが左端記憶部11の内容より小さければ、該左
端位置Liを左端記憶部11へ転送し、左端記憶部
11の内容が更新される。最大値算出部12にお
いて、境界区間算出部9より順次出力される部分
領域Ri(i=1,2,…n)の境界区間の右端位
置Uiと右端記憶部13に格納された内容とを比
較し、境界区間算出部9の出力値である右端位置
Uiが右端記憶部13の内容より大きければ、該
右端位置Uiを右端記憶部13へ転送し、右端記
憶部13の内容が更新される。上記動作をn個の
部分領域Ri(i=1,2,…n)について行うこ
とによつて、ルビと所望の文字行との境界区間の
左端位置L及び右端位置Uがそれぞれ、左端記憶
部11及び右端記憶部13に記憶されることにあ
る。ルビ分離位置判定部14は、左端記憶部11
及び右端記憶部13の内容である左端位置L及び
右端位置Uと、該左端位置L及び右端位置Uの算
出対象となる文字行の領域情報を行情報記憶部3
から取り込み、該領域情報と文字行の文字並び方
向とを射影分布抽出部5へ転送し、射影分布抽出
部5より得られる該文字行の文字の並び方向の射
影分布とを用いて、ルビと所望の文字行とを分離
する位置(以下、ルビ分離位置)を算出する。即
ち、左端位置Lから右端位置Uで示される境界区
間において、文字行全体における射影分布上の黒
画素が最小となる位置をルビ分離位置として算出
される。尚、前述した説明では、文字行全体にお
ける射影分布を抽出するとしたが、文字行全体の
うち、左端位置Lから右端位置Uで示される境界
区間の射影分布を射影分布抽出部5によつて抽出
することによつて、射影分布算出の処理時間を短
縮することもできるし、更に、部分射影記憶部6
に記憶される部分領域Ri(i=1,2,…n)の
射影分布を累積した射影分布を算出し、前述した
文字行全体の射影分布の代用として用いることも
できる。ルビ分離位置判定部14により得られた
ルビ分離位置及び行情報記憶部3に格納された文
字行の領域情報に基づいて、画像メモリ1から該
文字行からルビ領域を除去した所望の文字行を抽
出し、従来技術によつて実現できる文字切出し装
置(図中省略)へ転送し、一文字毎に分離され
る。上述した動作は、行情報記憶部3に記憶され
すべての文字行に適用される。尚、行情報記憶部
3に記憶された文字行のうち、ルビを含まない文
字行の場合には、前述した文字行に対する複数個
の部分領域に対して、すべてルビと所望の文字行
との境界区間が検出されないか、または、検出さ
れた境界区間の右端位置Uに、文字行全体の右端
位置が含まれるようになるため、ルビを含まない
文字行に対して適用しても安定に所望の文字行を
抽出することができる。
(発明の効果)
以上、説明したように、本発明のルビ付き文字
を含む文字行抽出装置によれば、予め文字の大き
さを固定的に定めることが困難な場合や所望の文
字行とルビとが互いに接触する場合にも安定にル
ビ行と文字行とを分離することが可能となる。
を含む文字行抽出装置によれば、予め文字の大き
さを固定的に定めることが困難な場合や所望の文
字行とルビとが互いに接触する場合にも安定にル
ビ行と文字行とを分離することが可能となる。
第1図a〜gは、一例として本発明のルビ付き
文字を含む文字行から所望の文字行を抽出する方
法を説明する図である。第2図は本発明の具体的
実施例を示す論理ブロツク図である。図におい
て、1は画像メモリ、2は文字行検出部、3は行
情報記憶部、4は部分領域算出部、5は射影分布
抽出部、6は部分射影記憶部、7は平均位置算出
部、8は候補区間検出部、9は境界区間算出部、
10は最小値算出部、11は左端記憶部、12は
最大算出部、13は右端記憶部、14はルビ分離
位置判定部である。
文字を含む文字行から所望の文字行を抽出する方
法を説明する図である。第2図は本発明の具体的
実施例を示す論理ブロツク図である。図におい
て、1は画像メモリ、2は文字行検出部、3は行
情報記憶部、4は部分領域算出部、5は射影分布
抽出部、6は部分射影記憶部、7は平均位置算出
部、8は候補区間検出部、9は境界区間算出部、
10は最小値算出部、11は左端記憶部、12は
最大算出部、13は右端記憶部、14はルビ分離
位置判定部である。
Claims (1)
- 1 ルビが付加された文字行からルビを分離し、
所望の文字行を抽出する装置において、光学的に
走査量子化された文章画像情報から文字行を抽出
する手段と、前記文字行を重畳領域を有する複数
個の部分領域に分割し、前記部分領域の射影分布
を前記文字行内の文字の並び方向に抽出する手段
と、複数個の前記部分領域の両端位置及び平均位
置を、前記射影分布に従つて検出する手段と、前
記射影分布上の黒画素数が一定値以下となる複数
個の候補区間を検出する手段と、前記両端位置及
び平均位置を基にして、前記複数個の候補区間か
ら部分文字行とルビ領域との境界区間を算出する
手段と、複数個の前記部分領域の境界区間から文
字行とルビ行との境界領域を算出し、前記境界領
域内で、前記文字行内の文字の並び方向に得られ
る射影分布上の黒画素数が最小となるルビ分離位
置を検出する手段と、前記ルビ分離位置に従つ
て、所望の文字行を抽出することを特徴とする文
字行抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60110286A JPS61269778A (ja) | 1985-05-24 | 1985-05-24 | 文字行抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60110286A JPS61269778A (ja) | 1985-05-24 | 1985-05-24 | 文字行抽出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS61269778A JPS61269778A (ja) | 1986-11-29 |
| JPH0433075B2 true JPH0433075B2 (ja) | 1992-06-02 |
Family
ID=14531843
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60110286A Granted JPS61269778A (ja) | 1985-05-24 | 1985-05-24 | 文字行抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS61269778A (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2569103B2 (ja) * | 1988-02-01 | 1997-01-08 | 富士電機株式会社 | 文字検出方法 |
| JP2569132B2 (ja) * | 1988-07-21 | 1997-01-08 | 富士電機株式会社 | 特殊文字行の判別方法 |
| JP2569134B2 (ja) * | 1988-07-25 | 1997-01-08 | 富士電機株式会社 | 文字列抽出方法 |
-
1985
- 1985-05-24 JP JP60110286A patent/JPS61269778A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS61269778A (ja) | 1986-11-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2011112573A2 (en) | Paragraph recognition in an optical character recognition (ocr) process | |
| JPH04195692A (ja) | 文書読取装置 | |
| JPH0433075B2 (ja) | ||
| Baird | Global-to-local layout analysis | |
| JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
| KR20230080113A (ko) | 전자 문서 학습용 컨텐츠 내 문항 영역 및 유형 자동 추출 시스템 및 그 방법 | |
| Gayashan et al. | Old sinhala newspaper article segmentation for content recognition using image processing | |
| JP4731748B2 (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
| JPH0368431B2 (ja) | ||
| JPH01265378A (ja) | 欧文文字認識方式 | |
| JP3187182B2 (ja) | 光学的手書き文字列認識方法および装置 | |
| JP4580520B2 (ja) | 文字認識方法および文字認識装置 | |
| JPS61190679A (ja) | 文字デ−タ処理装置 | |
| ANTONACOPOULOS | Automatic reading of Braille documents | |
| JPH02230484A (ja) | 文字認識装置 | |
| KR910007032B1 (ko) | 한글 문서 인식장치의 문자열과 개별문자 절출방법 | |
| JPH04130979A (ja) | 文字画像切出し方法 | |
| LengIeng | Khmer Optical Character Recognition (OCR) | |
| JP2778436B2 (ja) | 文字切り出し装置 | |
| JPS5831028B2 (ja) | 文字認識装置 | |
| JP3060237B2 (ja) | 日本語文字認識装置 | |
| JP3199033B2 (ja) | 光学式文字読取方法、及び光学式文字読取装置 | |
| Panichkriangkrai et al. | Character segmentation for Japanese woodblock printed historical books | |
| JPS58105385A (ja) | 文字読取り認識装置 | |
| JPH0452782A (ja) | 文字読み取り装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |