JPH01196685A - 文字検出方法 - Google Patents

文字検出方法

Info

Publication number
JPH01196685A
JPH01196685A JP63019595A JP1959588A JPH01196685A JP H01196685 A JPH01196685 A JP H01196685A JP 63019595 A JP63019595 A JP 63019595A JP 1959588 A JP1959588 A JP 1959588A JP H01196685 A JPH01196685 A JP H01196685A
Authority
JP
Japan
Prior art keywords
character
ruby
line
pitch
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63019595A
Other languages
English (en)
Other versions
JP2569103B2 (ja
Inventor
Masatoshi Okada
岡田 正年
Akiko Konno
紺野 章子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP63019595A priority Critical patent/JP2569103B2/ja
Publication of JPH01196685A publication Critical patent/JPH01196685A/ja
Application granted granted Critical
Publication of JP2569103B2 publication Critical patent/JP2569103B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、公知の画像処理技術を利用して縦書または
横書の文書、特に傍点、傍線、ルビまたはアンダーライ
ンを含む文書から、これらが付された文字を検出するた
めの方法に関する。
〔従来の技術〕
従来、文書中から文字列または文字行を切出す方法とし
ては、傍点、傍線、ルビまたはアンダーラインの存在を
特に意識せずに文字切出しを行ない、切出された文字列
または文字行の幅を対象となる文字領域の標準文字の大
きさと比較し、これが所定幅以下のときはその文字列ま
たは文字行をノイズを含むものとして除去する方法が知
られている。なお、縦書文章と横書文章における傍点。
傍線、ルビまたはアンダーラインの関係を図示すると第
7図の如くなる。
〔発明が解決しようとする課題〕
しかしながら、このような方法ではルビやアンダーライ
ンを含む列または行は、その幅から云って除去の対象と
なってしまい、しかも−度除去されてしまうと、それら
に関する情報は全く失なわれてしまうことになる。′=
また、特にルビの場合、所定幅以上の幅をもつものは除
去の対象とはならないが、その切出し結果の文字列また
は文字行はルビではない他の文字列または文字行と全く
同等、すなわち独立した1つの文字列または文字行とし
て扱われること〜なる。本来、ルビは他の文字列または
文字行に付随するものでsb、それ単独″で意味をなす
ものではないので、従来の方法を使用して文書の読取り
e行なうと、結果として文脈上無意味な行があちこちに
挿入されてしまうことになる。
このように、傍点、傍線、ルビ、アンダーライン等は跡
形もなく消滅してしまうか、あるいは他と全く独立した
1個の(しかも無意味な)列または行として存在するか
のいずれかでめった。
したがって、この発明は傍点、傍線、ルビまたはアンダ
ーライン等の情報が失なわれないようにすると〜もに、
これらが付された文字の検出を可能にし、文字読取り性
能を向上させることを目的とする。
〔課題を解決するための手段〕
画像処理装置によυ対象となる文書領域内の文字列(ま
たは文字行)を切出し、隣接する2つの文字列(または
文字行)間の各ピッチから標準ピッチを求め、該標準ピ
ッチから求められるピッチのしきい値と各文字列(iた
は文字行)間のピッチとを比較し、しきい値以下のピッ
チをもつ2つの文字列(または文字行)の幅をそれぞれ
標準文字の大きさと比較して一方の文字列(または文字
行)の幅だけが所定値以下のとき、幅の狭い方の文字列
(または文字行)f、傍点、傍線、ルビまたはアンダー
ラインを含む列(または行)として検出した後、この列
(または行)から個々の要素の切出しを行なう一方、文
字列または文字行からも個々の文字の切出しを行ない、
両者の結果を比較することにより傍点、傍線、ルビまた
はアンダーラインが付されている文字を検出する。
〔作用〕
各切出し文字列(iたは文字行)間のピッチおよび各文
字列(または文字行)の幅を利用して通常の文字列(ま
たは文字行)と傍点、傍線、ルビまたはアンダーライン
を含む列(または行)とを分離した後、傍点、傍線、ル
ビまたはアンダーライン列に対しその垂直方向にとった
投影結果よシ個々の要素の位置を検出し、この位置と文
字列(または文字行)の各文字位置とを比較することに
より、傍点、傍線、ルビまたはアンダーライン等の付く
文字を検出できるようにし、読取シ性能を向上させる。
〔実施例〕
第1図はこの発明の実施例を示す概略フローチャート、
第2図はその詳細を示すフローチャートで、以下、第2
図に沿って説明する。なお、具体的な例として第3図の
縦書文章を考える。
■(第2図の■に対応、以下同様)文字列の切出し結果
の切出し座標(開始座標Ai、終了座標B、)をもとに
、文字列の中心軸間の距離(ピッチ)Piを、 pi−(Ai+1+ni)/2 (A4+J)/2によ
り求める(第3図のP。−P5参照)。
■得られたピッチPiからその平均値P&(Pa−、召
。Pl/N)″または中央呟もしくは最頻値を求め、そ
れを標準ピッチとする。
■P1の直からPth””αPa(α:定足数によって
ピッチのしきい値Ptht求め、Pthと各ピッチPi
とを比較する。
■2文字列の幅をそれぞれ求める。
■しさい[Pth以下のピッチをもつ2文字列に対し、
それぞれの文字列の幅を標準文字の大きさをもとに得ら
れる所定の幅しさい匝と比較する。
■比較した結果、2つの文字列のうち1方の文字列の幅
のみが所定幅に満たない場合、その2つの文字列を通常
の文字列と傍点、 IJS、ルビあるいはアンダーライ
ン(以下、ルビ、アンダーライン等ともいう。)のA且
であるとみなす。
以上の操作を、例えば第3図のごとく文字列の切出しが
行なわれた場合について考える。ピッチPo%P5によ
シ例えば平均値P、とそのしきい値Pthが求められ、
PthとP。−B5をそれぞれ比較して、こへでは小さ
いピッチP およびB4を検出する。ピッチP。は文字
列C8と文字列C1の間のピッチ、B4は文字列C4と
文字列C5の間のピッチである。こうして幅の狭いピッ
チを検出したら、次はその両端の文字列の@を調べるこ
とになる。例えばピッチP0についてであれば、文字列
C8と文字列C4の@を調べる。この場合、文字列C8
の幅W。−Bo−Aoに比して文字列10幅W1””B
1−△1は小さいのでW。が標準文字の大きさ程度の幅
をもつ通常文字列であれば、適当なしきいl(例えば、
標準文字サイズの0.8倍)によって文字列C6はしき
い値以上、文字列C1はしきい値以下と判定され、これ
ら2つの文字列は通常の文字列と傍点、傍線、ルビ、ア
ンダーラインとの組であるとされる。文字列C4と文字
列C5に対しても、同様の手順で検出が行なわれること
になる。
こうして検出された通常文字列とルビ、アンダーライン
等の組に対して、以下の手順によシルビ。
アンダーライン等の位置検出が行なわれる。
■2つの文字列のうち、幅の広い方の文字列(第3図で
いえば、文字列C6や文字列C,)に対しては、文字切
出しアルゴリズムに従って文字切出しを行なう。なお、
文字切出しアルゴリズムについてはよく知られているの
で、ここでは省略する。
0幅の狭い方の文字列(第3図でいう文字列c1や文字
列C5)に対しては、傍点、傍線、ルビ。
アンダーライン文字列であると考えられるので、傍点、
傍線、ルビ、アンダーラインの切出しを行なう。この切
出しも通常の文字列と同様、文字切出しアルゴリズムに
従う。ただし、この場合、ルビの文字を1文字1文字切
出すことはせず、文字間隔(文字の終了位置と次の文字
の開始位置との距離:第4B図のDr)が所定の大きさ
以下であるものについては、1つの単語にふられている
ルビ1iとtbとみなし、ルビの最初の文字の開始位置
(第4B図のXr)および最後の文字の終了位置(第4
B図のYr)をもってルビの位置とする。ここで、ルビ
、傍点列と傍線、アンダーライン列とは列の投影(線の
本数または黒点の長さの投影)によシ区別する。また、
ルビと傍点とは線の本数で区別する。
■通常文字の切出しによる各文字の位置とルビ。
アンダーライン等の切出しによるルビ、アンダーライン
等の位置との比較を行ない、ルビまたはアンダーライン
等の引かれている文字を見つけ出す。
具体的な操作手順を、第4A図のような切出し結果が得
られた場合を例にとって説明する。たyし、と〜ではル
ビだけが付された例を示す。
■−1)各文字の開始座標S、(第4C図のS。〜S5
)を値の小さなものから順にルビ開始座標Xrと比較し
ていき1.最初にXr<8.となるSiを見つける。第
4C図でいえば、これはS、となる。
■−2)XrとSlおよび3.−、との距離Dl、Di
−。
を算出する(第4C図のD3.D2)。
■−5)DlとDト、全比較し、 Di−、< Diならば、5i−1を開始座標としても
つ文字を、 Di−、〉Diならば、5iを開始座標としてもつ文字
を、 それぞれルビのふられている単語の最初の文字とする。
第4C図の例でいうと、D2〈D、であるので、B2を
開始座標としてもつ「漢」が最初の文字となる。
■−4)同様の比較を文字の終了座標T1とルビ。
アンダーライン等の終了座標Yrに対しても行ない、最
初にYrくT1となるTIを見つけ、開始座標の場合と
同様にE、、E、、、−1’に比較することによって、
こメではルビのふられている単語の最後の文字を見つけ
る。第4D図の例でいうと、検出−kfべてのルビ、ア
ンダーライン等に対して行なう。
以上の如く操作を行ない、ルビ、アンダーライン等に対
しての位置情報を得る。第5図は文字認職にこの発明に
よる方法を適用し、得られた認識結果においてルビのふ
られている単語の前後にルビマークを挿入するという処
理を加えて結果を出力した例でおる。傍点マーク、fj
I線マークまたはアンダーラインマークについても同様
な処理が行なわれる。なお、第5図と対応する入力文書
を第6図に示す。
〔発明の効果〕
この発明によれば、傍点、傍線、ルビまたはアンダーラ
インを検出することによ)これらの情報が失なわれるの
を防ぐとへもに各々の位置を検出し、その検出結果とこ
れらが本来付くべき文字列(または文字行)の文字切出
し結果との比較を行なうことにより、どの文字に傍点、
傍線、ルビまたはアンダーラインのいずれが付されてい
るかを検出するようにしたので、読取シ性能が著しく向
上すると云う利点がもたらされる。
【図面の簡単な説明】
第1図はこの発明の実施例を示す概略フ四−チヤード、
第2図はその詳細を示すフローチャート、第3図は各文
字列のピッチの求め方の具体例を説明するための説明図
、第4A図ないし第4D図は傍点、傍線、ルビまたはア
ンダーラインの付く文字を検出する方法の具体例を説明
するための説明図、第5図はルビの付されている文字を
検出してルビマークを付した例を説明するための説明図
、第6図は第5図と対応する文章例全示す説明図、第7
図は縦書文、横書文と傍点、傍線、ルビまたはアンダー
ラインとの関係を説明するための説明図である。 符号説明 Al・・・・・・文字列の切出し開始座標、Bi・・・
・・・文字、Pi・・・・・・文字列の距離(ピッチ)
、Pa・・・・・・標準ピッチ” th・・・・・・ピ
ッチのしきい呟、C,・・・・・・文字列、WOe W
l・・・・・・文字列の幅、Xr・・・・・・ルビの最
初の文字の開始位置、Yr・・・・・・ルビの最後の文
字の終了位置、S、・・・・・・各文字の開始座漂、T
I・・・・・・各文字の終了座標。 代理人 弁理士 並 木 昭 夫 代理人 弁理士 松 崎    清 算 1 図 に21i!+ 53 図 第4A図 14B図 1Ω図

Claims (1)

    【特許請求の範囲】
  1. 1)画像処理装置により、対象となる文書領域内の文字
    列(または文字行)を切出し、隣接する2つの文字列(
    または文字行)間の各ピッチから標準ピッチを求め、該
    標準ピッチから求められるピッチのしきい値と各文字列
    (または文字行)間のピッチとを比較し、しきい値以下
    のピッチをもつ2つの文字列(または文字行)の幅をそ
    れぞれ標準文字の大きさと比較して一方の文字列(また
    は文字行)の幅だけが所定値以下のとき、幅の狭い方の
    文字列(または文字行)を傍点、傍線、ルビまたはアン
    ダーラインを含む列(または行)として検出した後、該
    列(または行)から傍点、傍線、ルビまたはアンダーラ
    イン等の切出しを行なう一方、文字列(または文字行)
    からも個々の文字の切出しを行ない、両者の結果を比較
    することにより傍点、傍線、ルビまたはアンダーライン
    等が付されている文字を検出することを特徴とする文字
    検出方法。
JP63019595A 1988-02-01 1988-02-01 文字検出方法 Expired - Lifetime JP2569103B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63019595A JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63019595A JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Publications (2)

Publication Number Publication Date
JPH01196685A true JPH01196685A (ja) 1989-08-08
JP2569103B2 JP2569103B2 (ja) 1997-01-08

Family

ID=12003592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63019595A Expired - Lifetime JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Country Status (1)

Country Link
JP (1) JP2569103B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757257A (en) * 1993-09-20 1998-05-26 Hitachi, Ltd. Permanent current switch and superconducting magnet system
JP2015170981A (ja) * 2014-03-06 2015-09-28 ブラザー工業株式会社 画像処理装置
JP2016194801A (ja) * 2015-03-31 2016-11-17 富士通株式会社 傍線問題採点方法、傍線問題採点プログラム及び傍線問題採点装置
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5556257A (en) * 1978-10-19 1980-04-24 Agency Of Ind Science & Technol Detecting segmentation unit for character with agate
JPS6048582A (ja) * 1983-08-25 1985-03-16 Fujitsu Ltd 文字認識装置の文字切出し方法
JPS61269778A (ja) * 1985-05-24 1986-11-29 Agency Of Ind Science & Technol 文字行抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5556257A (en) * 1978-10-19 1980-04-24 Agency Of Ind Science & Technol Detecting segmentation unit for character with agate
JPS6048582A (ja) * 1983-08-25 1985-03-16 Fujitsu Ltd 文字認識装置の文字切出し方法
JPS61269778A (ja) * 1985-05-24 1986-11-29 Agency Of Ind Science & Technol 文字行抽出装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757257A (en) * 1993-09-20 1998-05-26 Hitachi, Ltd. Permanent current switch and superconducting magnet system
JP2015170981A (ja) * 2014-03-06 2015-09-28 ブラザー工業株式会社 画像処理装置
JP2016194801A (ja) * 2015-03-31 2016-11-17 富士通株式会社 傍線問題採点方法、傍線問題採点プログラム及び傍線問題採点装置
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JP2569103B2 (ja) 1997-01-08

Similar Documents

Publication Publication Date Title
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US20120303636A1 (en) System and Method for Web Content Extraction
US8023740B2 (en) Systems and methods for notes detection
ATE376696T1 (de) Geschäftsverwaltungssystem
US20070186152A1 (en) Analyzing lines to detect tables in documents
CN101796509A (zh) 准备显示文档用于分析的设备
US7643682B2 (en) Method of identifying redundant text in an electronic document
JPH01196685A (ja) 文字検出方法
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JP2977247B2 (ja) 文字間スペース処理方法
US3763471A (en) Method of editing an erroneous section of a message
CN121071165A (zh) Markdown文档内容溯源定位方法、装置及相关设备
JP2569156B2 (ja) 文字行切出し方法
JPH09259225A (ja) 文字認識変換方法及び文字データ処理装置
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JP3888833B2 (ja) 文書編集装置及びその方法
JPH04236685A (ja) 文字間スペース認識方法
JPH07120391B2 (ja) 文字切出し装置
JPS63245760A (ja) 文書整形装置
JPH0637944U (ja) 光学的文字読取り用帳票
JPH01209586A (ja) 倍角文字・半角文字混在文章の文字認識方式
JPH02139686A (ja) 文字読取方法
JPH06348910A (ja) 文字認識結果の後処理方法
JPS63250735A (ja) 画像出力装置
JPH07239915A (ja) オンライン手書き文字列切り出し認識装置