JPS60225986A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS60225986A
JPS60225986A JP59081998A JP8199884A JPS60225986A JP S60225986 A JPS60225986 A JP S60225986A JP 59081998 A JP59081998 A JP 59081998A JP 8199884 A JP8199884 A JP 8199884A JP S60225986 A JPS60225986 A JP S60225986A
Authority
JP
Japan
Prior art keywords
pattern
input
character
characters
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59081998A
Other languages
English (en)
Inventor
Yoshikatsu Nakamura
中村 好勝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59081998A priority Critical patent/JPS60225986A/ja
Publication of JPS60225986A publication Critical patent/JPS60225986A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は文字認識装置に怠ける前処理方法に関する。
〔発明の技術的背景とその問題点〕
我国に於ける文字認識技術は、手書数字の読取りから始
まり1手書き、又は印刷漢字まで読取る0CR(光学的
文字読取装置へと商用化が進んでいる。@1図はこのよ
うな漢字OCRの概略機能ブロック図であり、帳票上か
ら光電変換、量子化された帳票イメージから文字を検出
しその文字領域を切出丁11文字検切部、検出され文字
を12正規化回路によって、標準パターンと同一の空間
次元数に入力文字パターンサイズを正規化し、識別的処
理として、13標本化部によって1ボケ“の処理をし、
1411別計算部へ入力する。−刀先に検出された文字
イメージは、15大分類部によって、大局的な特徴を補
え、それらの特徴から16標準パターンとして格納され
た読取対象文字種中の候補文字種を限足し、14識別計
算部を起動させ、類似度など計算結果を出力する。日本
語入力における読取対象文字種は、カタカナ、ひらがな
数字、英字、漢字からなり、その文字数は数千字種に達
する多さとなり、大局的特徴抽出によって識別計算する
標準パターンを限定することによりて、その識別処理時
間を大幅に短縮している。
しかし、漢字認識ということで、第1図に示すように読
取対象文字種の内最も複雑な字体を基準として標準パタ
ーンが設計されているため、英数カナを読取対象とした
OCRに比べて、3倍から4倍の次元数をもち、読取対
象文字種の多さが加わって約100倍もの標準パターン
情報量をもたなければならず、このことが先に述べた大
分類部による識別対象文字種の限定があっても、十分な
効果を発せず、高速な読取を行うには、ハードウェアと
して回路の並列化、パイプライン化によって行われ、非
常に高価tものとなっている。
また伝票など数、英字のみで記入された帳票等を読取る
場合についても同一処理装置によって読取ることとなり
、伝票の高速処理が機能せず、あえて高速化を行うには
、別に用意した英、数字専用の認識機能を並置して処理
することとなり高価格な装置となっている。
〔発明の目的〕
この発明は従来装置の欠点を改良したもので、入力文字
の大局的特徴から簡易な文字を高速処理し、英数字等の
データエントリの場合、漢字まじり日本語入力の場合に
ても高速に伝票処理できる文字認識装置を提供すること
を目的とする。
〔発明の概要〕
この発明は入力文字の文字線の複雑さを簡易な方法によ
って大局的に捕えることにより、複雑さに応じて、識別
次元数を変えることにより、簡易な文字は低次元、複雑
な文字は高次元に表現することで、英数文字で表記され
る帳票、漢字まじり日本語入力帳票の場合も高速処理を
可能としたものである。
〔発明の効果〕
日本語文章入力の場合では、統計的に低字画数の文字、
例えばカタカナ、ひらがな、英字、6画以下の漢字は文
章全体の60係以上あり、これらが4倍の処理速度で処
理されるものとすれば、帳票の処理速度は倍になる(高
速化が可能)。
また英数字のみで表記される伝票処理においても、重複
して標準パターン、認識回路をもつ必要がないので装置
の価格が低下する。
低字画数の文字種において、その標準パターン次元数が
少なくなるため、標準パターン格納のための記憶装置が
低容量となり、コスト低減に効果がある。
標準パターン記憶のための記1装置が低容量となるに従
い参照回路が減りそのデータ信頼性が向上する。
〔発明の実施例〕
この発明のさらに詳細な説明を図を付して述べる。
第2図はこの発明の一実施例で帳票上に記入された文字
を走査機構、光電変換装置によりて、電気信号に変換し
た文字イメージを、20イメージバツフフに記憶する。
20イメージバツフフに蓄積された情報、ならびにあら
かじめ知られている手書き文字が印刷文字か、また英数
字か、漢字かのフォーマット情報31を受けて一文字毎
に検出切り出し処理を21検切部で行う。
検出された文字イメージサイズ内を、例えF1%許94
7930に述べられ゛る手法等によって検出切出し領域
内を走査し、縦線、横線の数から文字の複雑さをめる。
22大分類処理部に入力する。
22大分類処理部によって得られる複雑さの値によって
、あらかじめその複雑さに応じて識別計算時に参照する
標準パターンの候補が選択される。
同時に複雑さの値は、あらかじめ設電された値と比較さ
れ、その糖果入力値が小さければ、入力文字は簡易な構
造をもった文字であるとして、また複雑さの値が閾値よ
り太きけれd1複雑な構造をもりた入力文字であるとし
て、この状態を30制御線を通じて、23正規化部、2
4標本化部へ転送する。
23正規化部、24標本化部は、この30制御信号によ
って、入力文字の大きさを正規化するに際して第3図に
示すように、複雑を文字は、より情報量を大きく(例え
ば58X58ドツト)、簡易な文字は(例えば29X2
9ドツト)情報量を少なく入カバターンを拡大、縮少処
理する。24標本化部はあらかじめ与えられる第4図荷
重テーブルをもって、41サンプリング点、サンプリン
グピッチ(例えば3h口毎)によって正規化パターンを
標本化処理し、第3図に示す如く、正規化パターン領域
に応じて、多値からなる標本化パターンを第3図に示す
如く得ることとなる。
このようにして処理され得られた標本化パターンは25
誠別計算部に入力される。
先に大分類処理部によって得られた入カバターンの複雑
さの値により決定された大きさ制御信号30は、標準パ
ターン選択回路28へ入力し、あらかじめ用意された、
複1ea1!標準パターン群27浦易な構造をもった標
準パターン群26のいずれかが選択される。
25識別計算回路は、仁のようにして得られた制御信号
30標本化パターン32、そして大分類処理部からの出
力によって26又は27の標準パターン候補アドレス3
3を出力し、候補数分の識別処理を25の識別計算部で
処理し、答を出力する。
〔発明の他の実施例〕
この発明の一実施例として、複雑さの値によって、複雑
、簡易の2種に分類したが、この分類は固定したもので
はなく、必要に応じてより細か(分類することによって
、より効果的に発明の効果を得ることができる。
大分類処理部による入カバターンの複雑さをめる例とし
て縦線、横線を文字領域について検出する方法をとった
が、入カバターンの輪隔線長。
文字の黒領域をめることから、前記文字イメージの複雑
さに担当する値をめるなど文字サイズに無関係となるそ
の他部品な方法によっても可能である。
複雑さの値を閾値によって評価する場合、複雑か、簡易
か、閾値に近い値で複雑さがまった場合において、複数
の(複雑、簡易)標本化パターンをめ、それぞれに対応
した標準パターンとの識別計算を行うことによって答を
出力する。
【図面の簡単な説明】
第1図は従来漢字OCRの処理過程を説明する図、Il
!2図は本発明の一実施例を説明する図、第3図は入カ
バターンの複雑さによって識別情報量を2種に分けて処
理する過程を説明する図、第4図は、標本化処理におけ
る荷重テーブルの一例を説明する図である。 20・・・走査文字イメージバッファ、21・・・検切
部、22・・・大分類処理部、23・・・正規化部、2
4・・・標本化部、25・・・識別計算部、26・・・
簡易構造をもった標準パターン格納部、27・・・複雑
な構造をもった標準パターン格納部、2B・・・標準パ
ターン選択回路。 代理人弁理士 則 近 IF 佑(ほか1名)第 1 
図 第 21!!

Claims (1)

    【特許請求の範囲】
  1. 文字認識装置において、入力文字パターンの複雑さなど
    入力文字の大局的特徴を抽出する手段と、この手段によ
    って得られた値によりて入力文字パターンの大きさを正
    規化する手段、前記手段によって得られる正規化パター
    ンを使用して、識別処理をすることを特徴とする文字認
    識装置。
JP59081998A 1984-04-25 1984-04-25 文字認識装置 Pending JPS60225986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59081998A JPS60225986A (ja) 1984-04-25 1984-04-25 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59081998A JPS60225986A (ja) 1984-04-25 1984-04-25 文字認識装置

Publications (1)

Publication Number Publication Date
JPS60225986A true JPS60225986A (ja) 1985-11-11

Family

ID=13762138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59081998A Pending JPS60225986A (ja) 1984-04-25 1984-04-25 文字認識装置

Country Status (1)

Country Link
JP (1) JPS60225986A (ja)

Similar Documents

Publication Publication Date Title
Elgammal et al. Techniques for language identification for hybrid Arabic-English document images
Isheawy et al. Optical character recognition (OCR) system
Dessai et al. A deep learning approach for optical character recognition of handwritten Devanagari script
Al-Badr et al. Segmentation-free word recognition with application to Arabic
Verma et al. Removal of obstacles in Devanagari script for efficient optical character recognition
JPH0430070B2 (ja)
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
JPS60153574A (ja) 文字読取方法
JPS60225986A (ja) 文字認識装置
KR20090111202A (ko) 한글의 기본 구성요소인 수평선, 수직선, 사선, 원의개수와 특성치를 이용한 한글인식 방법 및 장치
Oladele et al. Offline Yorùbá handwritten word recognition using geometric feature extraction and support vector machine classifier
JPS592191A (ja) 手書き日本語文の認識処理方式
Douma et al. Application of artificial neural networks technology for handwritten Arabic letters recognition
Lohakan et al. Single-character segmentation for handprinted Thai word
Trenkle An Off-Line Arabic Recognition System for Machine
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH02230484A (ja) 文字認識装置
Sareen et al. Generating a Standardized Dataset: Gurmukhi Offline Handwritten Collection of Tehsil and Sub-Tehsil names from Punjab
JPH05298487A (ja) 英文字認識装置
Ito Automatic input of flow chart in document image
JP2972443B2 (ja) 文字認識装置
Uber et al. Japanese Kana and Brazilian Portuguese Manuscript Database
Chaudhari et al. Character level separation and identification of english and gujarati digits from bilingual (english-gujarati) printed documents
JPS6095689A (ja) 光学的文字読取装置
Khin et al. Detection and Recognition of Myanmar Characters from the Dissimilar Images