JPH01231186A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPH01231186A
JPH01231186A JP63056221A JP5622188A JPH01231186A JP H01231186 A JPH01231186 A JP H01231186A JP 63056221 A JP63056221 A JP 63056221A JP 5622188 A JP5622188 A JP 5622188A JP H01231186 A JPH01231186 A JP H01231186A
Authority
JP
Japan
Prior art keywords
character
line
center line
classification
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63056221A
Other languages
English (en)
Inventor
Kaoru Suzuki
薫 鈴木
Shuichi Tsujimoto
辻本 修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63056221A priority Critical patent/JPH01231186A/ja
Priority to US07/321,268 priority patent/US4998285A/en
Priority to EP19890302416 priority patent/EP0332471A3/en
Publication of JPH01231186A publication Critical patent/JPH01231186A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は文書画像から文字列を切り出し、各文字を認識
するための文字認識方式に関する。
(従来の技術) 欧文認識においては1例えばコンマとアポストロフィの
区別やX2とX2における“2″の持つ意味の区別が文
字の形だけでは決定できない場合がある。
これらの文字の区別は文字の出現位置の差異に着目すれ
ば容易に決定できるが、評価のための位置の基準を設け
る必要がある。また様々な文書に対応するためには、こ
れらの基準は文書中から抽出して用いるのが望ましい。
従ってどのような基準をどのようにして文書から抽出す
るかが問題であった。
従来1文書中の文字を位置に着目して分類する方法とし
て、例えば特開昭62−187988のように文字行中
に4本のサプラインを設定し、該サプラインを補正しな
がら文字を分類してゆく方法等があったが十分なものと
はいえなかった。
また文書認識においては、互いに関連する文字行を比較
・統合・分類できると文書の構造理解に役立つ。そのた
めには比較のためのパラメータを文字行から抽出する必
要があった。
(発明が解決しようとする課題) 以上のように、従来技術には形だけでは決定できない文
字の区別、区別のための基準を文書中から抽出する問題
1文書の構造理解のためのパラメータを文字行から抽出
する問題があった。
本発明の目的は、−文字行からその中心線を抽出し、こ
れに基いて文字の高さ位置を評価して文字を分類し、上
記問題点を全て解決することにある。
〔発明の構成〕
(課題を解決するための手段) 上記目的を達成するため、本発明は文字パターンの存在
位置と存在範囲により定義される数値または関数を行方
向に演算して得られる関数を用いて中心線を抽出する機
能及び当該文字行中の各文字を得られた中心線に対する
行来直方向へのずれ量によって分類する機能を有する文
字認識方式を提供する。
(作 用) 本発明によれば5文字行毎に安定に中心線を抽出でき、
抽出された中心線を用いて文字を分類できる。この分類
によれば、文字の位置の差異が明確になるので、形のみ
の評価では難しい文字の区別を決定できる。また抽出さ
れた中心線の位置及び間隔を評価することによって1行
ピッチの抽出、行の比較・統合・分類が可能となる。
(実施例) 本発明の一実施例を図面に従って説明する。第1図は本
発明に係る文字認識装置の全体構成を示すブロック図で
ある。入力手段1より入力された文書画像は、文字行抽
出部2及び文字切り出し部3を経て一連の文字外接矩形
と文字パターンが抽出される。中心線抽出部4はこの一
連の文字外接矩形から中心線を抽出する。分類部5は得
られた中心線を用いて各文字をその外接矩形の位置に基
いて分類する。パターン認識部6は当該文字のパターン
とパターン照合用辞書7を対応付けて照合結果を出力す
る。解釈部8では分類結果と照合結果の両方を評価して
認識結果を出力する。出力手段9は該認識結果を出力す
る。
次に中心線抽出部4の詳細な説明をする。第2図は、第
1図における中心線抽出部4の一処理系のフローである
。以下に第2図の各ブロックの働きを説明する6 関数定義10では文字行中の各文字の位置と行に垂直な
方向の文字の大さきに応じた関数を定義する。本実施例
ではこの関数は第4図に示すような3角形の形をした関
数である。この3角形は第3図13に示す示すX軸(文
字行に垂直な方向)上の辺を底辺とし、その高さをある
固定の値Hとしたような2等辺3角形である。
ヒストグラム作成11では10で定義した関数を1文字
行にわたって行方向に加算したヒストグラムを作成する
ピーク検出12では得られたヒストグラム中から最も高
いピークを検出する。このピークが中心線の位置を与え
る。
次に第1図の分類部5の働きを説明する。本実施例では
第4図(a)(b)に示すω〜■のカテゴリーに文字を
分類する。第1図の分類部では、中心線に対する行に垂
直な方向へのずれ量により文字を分類する。第5図は上
記ずれ量の定義を示す図である1図中のLlとL2の差
を求めこれをLとしてLの絶対値の大きさにより該文字
をこの値が小さい文字・中程度の文字・大きい文字の3
通りに分類する。この3つの分類区分は、第4図のカテ
ゴリ一番号で〔■〕及び〔■■〕及び〔に)■〕の3つ
のグループに文字を分類することに相当する。このとき
上記2番目と3番目のグループに属する文字を上記りの
値の正負によりさらに分類する。すなわちLをL=L1
−L2と定義すれば、Lが正となる場合には該文字は第
4図のカテゴリ一番号で■もしくは(へ)であると判定
し、Lが負となる場合には該文字は■もしくは■である
と判定する。
第6図に上記分類の条件を示す0図中のカッコ内の数字
は第4図におけるカテゴリ一番号である。
またthl、th2.th3はしきい値である。なお第
1図の解釈部8では、パターン照合により得られる尤度
の付属した候補文字のうち上記分類結果に合致するもの
で尤度の最大となる文字を認識結果として選択する。
またこの実施例の変形として、次に例を挙げる。
上記実施例において、パターン照合に先立って文字分類
を行うことにより該文字の属するカテゴリーを限定して
、パターン照合に際しては該カテゴリーに属する文字だ
けから成るパターン照合用辞書のみを参照するようにし
ても良い。
上記実施例において、文字の位置と存在領域により定義
される2等辺3角形を行方向に加算して得られるヒスト
グラムだけでなく、例えば文字外接矩形の中心位置のヒ
ストグラムを用いても良い。
またそのヒストグラムをぼかす等の処理を行っても良い
上記実施例において、予め微小文字を除去したりスキュ
ーの補正を行ってから中心線を抽出しても良い。
上記実施例の第1図の分類部において、文字のカテゴリ
ーを一意に決定せず尤度を付加するなどして複数のカテ
ゴリーを出力しても良い。この場合、解釈部では出力さ
れた全てのカテゴリーと出力されたパターン照合結果に
ついて、双方の尤度を評価して最終結果を決定する。
上記実施例において、あるフォントのある文字が分類さ
れ得るカテゴリーについての知識を持ち、同じ文字であ
ってもフォントの違いにより複数の分類カテゴリーに属
する文字の分類結果と該知識を照合することにより処理
中の文字フォントの種類の範囲を推定でき、以後の処理
を該文字フォントの種類の範囲に適応させることが可能
である。
上記実施例において、1行のみならず多数行の情報を用
いて同様の処理を行っても良い。
上記実施例により抽出された中心線に基いた行ピツチ検
出1行の比較・統合・分類も行える。すなわち、行方向
に垂直な方向に隣接した行の中心線間の距離を求めて隣
接行間の距離(行ピッチ)を得る。行ピッチが同程度の
行は同一の記事として統合することが可能である。また
、行方向に隣接した行について、各々の中心線の位置が
同程度である行は同一の行に統合することができる。
要するに本発明はその要旨を逸脱しない限り種々に変形
して用いることができる。
〔発明の効果〕
この発明により、形だけでは区別できない文字の分類、
行ピッチの検出、行ピッチ・中心線位置に基く行の比較
・統合・分類が可能となる。
【図面の簡単な説明】 第1図は本発明による文字認識装置の構成図、第2図は
第1図に示す文字認識装置の一実施例における中心線抽
出処理のフロー図、第3図は第1図に示す文字認識装置
の一実施例における文字外接矩形の存在位置と存在領域
により定義される関数を示す図、第4図は第1図に示す
文字認識装置の一実施例における文字分類区分を示す図
、第5図は第1図に示す文字認識装置の一実施例におけ
るずれ量の定義を示す図、第6図は第1図に示す文字認
識装置の一実施例における分類条件を示す図である。 1・・・入力手段、     2・・・文字行抽出部、
3・・・文字切り出し部、  4・・・中心線抽出部、
5、・1分類部、      6・・・パターン認識部
。 7・・・パターン照合用辞書、 8・・・解釈部、      9・・・出力手段。 代理人 弁理士 則 近 憲 佑 同  松山光之 第  1 図 第  2 図 第3図 イク!【りよ)a/+其(〃デゴリー(ト号(α) (F) (21(3) (41(5)  カテゴリー増
Y号Cb) 第  4 図

Claims (2)

    【特許請求の範囲】
  1. (1)文字列を含む画像から文字行を切り出し、文字行
    中の各文字の存在位置または存在領域によって数値また
    は関数を定義し、この定義された数値または関数を各文
    字について行方向に演算して得られる関数を用いて前記
    文字行の中心線を抽出することを特徴とする文字認識方
    式。
  2. (2)抽出された中心線は、文字行中の各文字の位置と
    該中心線に対する行垂直方向へのずれ量によって該文字
    を分類するために供されるものである請求項1記載の文
    字認識方式。
JP63056221A 1988-03-11 1988-03-11 文字認識方式 Pending JPH01231186A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63056221A JPH01231186A (ja) 1988-03-11 1988-03-11 文字認識方式
US07/321,268 US4998285A (en) 1988-03-11 1989-03-09 Character recognition apparatus
EP19890302416 EP0332471A3 (en) 1988-03-11 1989-03-10 Character recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63056221A JPH01231186A (ja) 1988-03-11 1988-03-11 文字認識方式

Publications (1)

Publication Number Publication Date
JPH01231186A true JPH01231186A (ja) 1989-09-14

Family

ID=13021050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63056221A Pending JPH01231186A (ja) 1988-03-11 1988-03-11 文字認識方式

Country Status (1)

Country Link
JP (1) JPH01231186A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04344585A (ja) * 1991-05-21 1992-12-01 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH04344584A (ja) * 1991-05-21 1992-12-01 Oki Electric Ind Co Ltd 光学式文字読取装置
US5369715A (en) * 1990-04-27 1994-11-29 Sharp Kabushiki Kaisha Optical character recognition system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369715A (en) * 1990-04-27 1994-11-29 Sharp Kabushiki Kaisha Optical character recognition system
JPH04344585A (ja) * 1991-05-21 1992-12-01 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH04344584A (ja) * 1991-05-21 1992-12-01 Oki Electric Ind Co Ltd 光学式文字読取装置

Similar Documents

Publication Publication Date Title
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
Taylor et al. Extraction of data from preprinted forms
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
Chen et al. Hybrid page segmentation with efficient whitespace rectangles extraction and grouping
Khayyat et al. Arabic handwritten text line extraction by applying an adaptive mask to morphological dilation
EP0436819B1 (en) Handwriting recognition employing pairwise discriminant measures
CN101615252A (zh) 一种自适应图像文本信息提取方法
CN108830274A (zh) 一种复杂背景环境下车牌字符自动检测定位及识别方法
Suen et al. Bank check processing system
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN115063817A (zh) 一种基于形态学检测的表格识别方法、系统以及储存介质
Lam et al. Automatic processing of information on cheques
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JPH01231186A (ja) 文字認識方式
Van Phan et al. Collecting handwritten nom character patterns from historical document pages
Li et al. Vehicle license plate recognition combing MSER and support vector machine in a complex environment
Kumar et al. Text line segmentation of handwritten documents using clustering method based on thresholding approach
Mitrpanont et al. Using contour analysis to improve feature extraction in Thai handwritten character recognition systems
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Gao et al. Segmentation and recognition of dimension texts in engineering drawings
JPH02116987A (ja) 文字認識装置
Khan et al. Efficient segmentation of sub-words within handwritten arabic words
Guo et al. Detection of street-level traffic panels based on cascaded color segmentation
Chen et al. A robust algorithm for separation of Chinese characters from line drawings
Amin et al. Hand-printed Chinese character recognition via machine learning