JPS60225986A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPS60225986A JPS60225986A JP59081998A JP8199884A JPS60225986A JP S60225986 A JPS60225986 A JP S60225986A JP 59081998 A JP59081998 A JP 59081998A JP 8199884 A JP8199884 A JP 8199884A JP S60225986 A JPS60225986 A JP S60225986A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- input
- character
- characters
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
この発明は文字認識装置に怠ける前処理方法に関する。
我国に於ける文字認識技術は、手書数字の読取りから始
まり1手書き、又は印刷漢字まで読取る0CR(光学的
文字読取装置へと商用化が進んでいる。@1図はこのよ
うな漢字OCRの概略機能ブロック図であり、帳票上か
ら光電変換、量子化された帳票イメージから文字を検出
しその文字領域を切出丁11文字検切部、検出され文字
を12正規化回路によって、標準パターンと同一の空間
次元数に入力文字パターンサイズを正規化し、識別的処
理として、13標本化部によって1ボケ“の処理をし、
1411別計算部へ入力する。−刀先に検出された文字
イメージは、15大分類部によって、大局的な特徴を補
え、それらの特徴から16標準パターンとして格納され
た読取対象文字種中の候補文字種を限足し、14識別計
算部を起動させ、類似度など計算結果を出力する。日本
語入力における読取対象文字種は、カタカナ、ひらがな
。
まり1手書き、又は印刷漢字まで読取る0CR(光学的
文字読取装置へと商用化が進んでいる。@1図はこのよ
うな漢字OCRの概略機能ブロック図であり、帳票上か
ら光電変換、量子化された帳票イメージから文字を検出
しその文字領域を切出丁11文字検切部、検出され文字
を12正規化回路によって、標準パターンと同一の空間
次元数に入力文字パターンサイズを正規化し、識別的処
理として、13標本化部によって1ボケ“の処理をし、
1411別計算部へ入力する。−刀先に検出された文字
イメージは、15大分類部によって、大局的な特徴を補
え、それらの特徴から16標準パターンとして格納され
た読取対象文字種中の候補文字種を限足し、14識別計
算部を起動させ、類似度など計算結果を出力する。日本
語入力における読取対象文字種は、カタカナ、ひらがな
。
数字、英字、漢字からなり、その文字数は数千字種に達
する多さとなり、大局的特徴抽出によって識別計算する
標準パターンを限定することによりて、その識別処理時
間を大幅に短縮している。
する多さとなり、大局的特徴抽出によって識別計算する
標準パターンを限定することによりて、その識別処理時
間を大幅に短縮している。
しかし、漢字認識ということで、第1図に示すように読
取対象文字種の内最も複雑な字体を基準として標準パタ
ーンが設計されているため、英数カナを読取対象とした
OCRに比べて、3倍から4倍の次元数をもち、読取対
象文字種の多さが加わって約100倍もの標準パターン
情報量をもたなければならず、このことが先に述べた大
分類部による識別対象文字種の限定があっても、十分な
効果を発せず、高速な読取を行うには、ハードウェアと
して回路の並列化、パイプライン化によって行われ、非
常に高価tものとなっている。
取対象文字種の内最も複雑な字体を基準として標準パタ
ーンが設計されているため、英数カナを読取対象とした
OCRに比べて、3倍から4倍の次元数をもち、読取対
象文字種の多さが加わって約100倍もの標準パターン
情報量をもたなければならず、このことが先に述べた大
分類部による識別対象文字種の限定があっても、十分な
効果を発せず、高速な読取を行うには、ハードウェアと
して回路の並列化、パイプライン化によって行われ、非
常に高価tものとなっている。
また伝票など数、英字のみで記入された帳票等を読取る
場合についても同一処理装置によって読取ることとなり
、伝票の高速処理が機能せず、あえて高速化を行うには
、別に用意した英、数字専用の認識機能を並置して処理
することとなり高価格な装置となっている。
場合についても同一処理装置によって読取ることとなり
、伝票の高速処理が機能せず、あえて高速化を行うには
、別に用意した英、数字専用の認識機能を並置して処理
することとなり高価格な装置となっている。
この発明は従来装置の欠点を改良したもので、入力文字
の大局的特徴から簡易な文字を高速処理し、英数字等の
データエントリの場合、漢字まじり日本語入力の場合に
ても高速に伝票処理できる文字認識装置を提供すること
を目的とする。
の大局的特徴から簡易な文字を高速処理し、英数字等の
データエントリの場合、漢字まじり日本語入力の場合に
ても高速に伝票処理できる文字認識装置を提供すること
を目的とする。
この発明は入力文字の文字線の複雑さを簡易な方法によ
って大局的に捕えることにより、複雑さに応じて、識別
次元数を変えることにより、簡易な文字は低次元、複雑
な文字は高次元に表現することで、英数文字で表記され
る帳票、漢字まじり日本語入力帳票の場合も高速処理を
可能としたものである。
って大局的に捕えることにより、複雑さに応じて、識別
次元数を変えることにより、簡易な文字は低次元、複雑
な文字は高次元に表現することで、英数文字で表記され
る帳票、漢字まじり日本語入力帳票の場合も高速処理を
可能としたものである。
日本語文章入力の場合では、統計的に低字画数の文字、
例えばカタカナ、ひらがな、英字、6画以下の漢字は文
章全体の60係以上あり、これらが4倍の処理速度で処
理されるものとすれば、帳票の処理速度は倍になる(高
速化が可能)。
例えばカタカナ、ひらがな、英字、6画以下の漢字は文
章全体の60係以上あり、これらが4倍の処理速度で処
理されるものとすれば、帳票の処理速度は倍になる(高
速化が可能)。
また英数字のみで表記される伝票処理においても、重複
して標準パターン、認識回路をもつ必要がないので装置
の価格が低下する。
して標準パターン、認識回路をもつ必要がないので装置
の価格が低下する。
低字画数の文字種において、その標準パターン次元数が
少なくなるため、標準パターン格納のための記憶装置が
低容量となり、コスト低減に効果がある。
少なくなるため、標準パターン格納のための記憶装置が
低容量となり、コスト低減に効果がある。
標準パターン記憶のための記1装置が低容量となるに従
い参照回路が減りそのデータ信頼性が向上する。
い参照回路が減りそのデータ信頼性が向上する。
この発明のさらに詳細な説明を図を付して述べる。
第2図はこの発明の一実施例で帳票上に記入された文字
を走査機構、光電変換装置によりて、電気信号に変換し
た文字イメージを、20イメージバツフフに記憶する。
を走査機構、光電変換装置によりて、電気信号に変換し
た文字イメージを、20イメージバツフフに記憶する。
20イメージバツフフに蓄積された情報、ならびにあら
かじめ知られている手書き文字が印刷文字か、また英数
字か、漢字かのフォーマット情報31を受けて一文字毎
に検出切り出し処理を21検切部で行う。
かじめ知られている手書き文字が印刷文字か、また英数
字か、漢字かのフォーマット情報31を受けて一文字毎
に検出切り出し処理を21検切部で行う。
検出された文字イメージサイズ内を、例えF1%許94
7930に述べられ゛る手法等によって検出切出し領域
内を走査し、縦線、横線の数から文字の複雑さをめる。
7930に述べられ゛る手法等によって検出切出し領域
内を走査し、縦線、横線の数から文字の複雑さをめる。
22大分類処理部に入力する。
22大分類処理部によって得られる複雑さの値によって
、あらかじめその複雑さに応じて識別計算時に参照する
標準パターンの候補が選択される。
、あらかじめその複雑さに応じて識別計算時に参照する
標準パターンの候補が選択される。
同時に複雑さの値は、あらかじめ設電された値と比較さ
れ、その糖果入力値が小さければ、入力文字は簡易な構
造をもった文字であるとして、また複雑さの値が閾値よ
り太きけれd1複雑な構造をもりた入力文字であるとし
て、この状態を30制御線を通じて、23正規化部、2
4標本化部へ転送する。
れ、その糖果入力値が小さければ、入力文字は簡易な構
造をもった文字であるとして、また複雑さの値が閾値よ
り太きけれd1複雑な構造をもりた入力文字であるとし
て、この状態を30制御線を通じて、23正規化部、2
4標本化部へ転送する。
23正規化部、24標本化部は、この30制御信号によ
って、入力文字の大きさを正規化するに際して第3図に
示すように、複雑を文字は、より情報量を大きく(例え
ば58X58ドツト)、簡易な文字は(例えば29X2
9ドツト)情報量を少なく入カバターンを拡大、縮少処
理する。24標本化部はあらかじめ与えられる第4図荷
重テーブルをもって、41サンプリング点、サンプリン
グピッチ(例えば3h口毎)によって正規化パターンを
標本化処理し、第3図に示す如く、正規化パターン領域
に応じて、多値からなる標本化パターンを第3図に示す
如く得ることとなる。
って、入力文字の大きさを正規化するに際して第3図に
示すように、複雑を文字は、より情報量を大きく(例え
ば58X58ドツト)、簡易な文字は(例えば29X2
9ドツト)情報量を少なく入カバターンを拡大、縮少処
理する。24標本化部はあらかじめ与えられる第4図荷
重テーブルをもって、41サンプリング点、サンプリン
グピッチ(例えば3h口毎)によって正規化パターンを
標本化処理し、第3図に示す如く、正規化パターン領域
に応じて、多値からなる標本化パターンを第3図に示す
如く得ることとなる。
このようにして処理され得られた標本化パターンは25
誠別計算部に入力される。
誠別計算部に入力される。
先に大分類処理部によって得られた入カバターンの複雑
さの値により決定された大きさ制御信号30は、標準パ
ターン選択回路28へ入力し、あらかじめ用意された、
複1ea1!標準パターン群27浦易な構造をもった標
準パターン群26のいずれかが選択される。
さの値により決定された大きさ制御信号30は、標準パ
ターン選択回路28へ入力し、あらかじめ用意された、
複1ea1!標準パターン群27浦易な構造をもった標
準パターン群26のいずれかが選択される。
25識別計算回路は、仁のようにして得られた制御信号
30標本化パターン32、そして大分類処理部からの出
力によって26又は27の標準パターン候補アドレス3
3を出力し、候補数分の識別処理を25の識別計算部で
処理し、答を出力する。
30標本化パターン32、そして大分類処理部からの出
力によって26又は27の標準パターン候補アドレス3
3を出力し、候補数分の識別処理を25の識別計算部で
処理し、答を出力する。
この発明の一実施例として、複雑さの値によって、複雑
、簡易の2種に分類したが、この分類は固定したもので
はなく、必要に応じてより細か(分類することによって
、より効果的に発明の効果を得ることができる。
、簡易の2種に分類したが、この分類は固定したもので
はなく、必要に応じてより細か(分類することによって
、より効果的に発明の効果を得ることができる。
大分類処理部による入カバターンの複雑さをめる例とし
て縦線、横線を文字領域について検出する方法をとった
が、入カバターンの輪隔線長。
て縦線、横線を文字領域について検出する方法をとった
が、入カバターンの輪隔線長。
文字の黒領域をめることから、前記文字イメージの複雑
さに担当する値をめるなど文字サイズに無関係となるそ
の他部品な方法によっても可能である。
さに担当する値をめるなど文字サイズに無関係となるそ
の他部品な方法によっても可能である。
複雑さの値を閾値によって評価する場合、複雑か、簡易
か、閾値に近い値で複雑さがまった場合において、複数
の(複雑、簡易)標本化パターンをめ、それぞれに対応
した標準パターンとの識別計算を行うことによって答を
出力する。
か、閾値に近い値で複雑さがまった場合において、複数
の(複雑、簡易)標本化パターンをめ、それぞれに対応
した標準パターンとの識別計算を行うことによって答を
出力する。
第1図は従来漢字OCRの処理過程を説明する図、Il
!2図は本発明の一実施例を説明する図、第3図は入カ
バターンの複雑さによって識別情報量を2種に分けて処
理する過程を説明する図、第4図は、標本化処理におけ
る荷重テーブルの一例を説明する図である。 20・・・走査文字イメージバッファ、21・・・検切
部、22・・・大分類処理部、23・・・正規化部、2
4・・・標本化部、25・・・識別計算部、26・・・
簡易構造をもった標準パターン格納部、27・・・複雑
な構造をもった標準パターン格納部、2B・・・標準パ
ターン選択回路。 代理人弁理士 則 近 IF 佑(ほか1名)第 1
図 第 21!!
!2図は本発明の一実施例を説明する図、第3図は入カ
バターンの複雑さによって識別情報量を2種に分けて処
理する過程を説明する図、第4図は、標本化処理におけ
る荷重テーブルの一例を説明する図である。 20・・・走査文字イメージバッファ、21・・・検切
部、22・・・大分類処理部、23・・・正規化部、2
4・・・標本化部、25・・・識別計算部、26・・・
簡易構造をもった標準パターン格納部、27・・・複雑
な構造をもった標準パターン格納部、2B・・・標準パ
ターン選択回路。 代理人弁理士 則 近 IF 佑(ほか1名)第 1
図 第 21!!
Claims (1)
- 文字認識装置において、入力文字パターンの複雑さなど
入力文字の大局的特徴を抽出する手段と、この手段によ
って得られた値によりて入力文字パターンの大きさを正
規化する手段、前記手段によって得られる正規化パター
ンを使用して、識別処理をすることを特徴とする文字認
識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59081998A JPS60225986A (ja) | 1984-04-25 | 1984-04-25 | 文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59081998A JPS60225986A (ja) | 1984-04-25 | 1984-04-25 | 文字認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS60225986A true JPS60225986A (ja) | 1985-11-11 |
Family
ID=13762138
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59081998A Pending JPS60225986A (ja) | 1984-04-25 | 1984-04-25 | 文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60225986A (ja) |
-
1984
- 1984-04-25 JP JP59081998A patent/JPS60225986A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Elgammal et al. | Techniques for language identification for hybrid Arabic-English document images | |
| Isheawy et al. | Optical character recognition (OCR) system | |
| Dessai et al. | A deep learning approach for optical character recognition of handwritten Devanagari script | |
| Al-Badr et al. | Segmentation-free word recognition with application to Arabic | |
| Verma et al. | Removal of obstacles in Devanagari script for efficient optical character recognition | |
| JPH0430070B2 (ja) | ||
| Almohri et al. | A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T | |
| JPS60153574A (ja) | 文字読取方法 | |
| JPS60225986A (ja) | 文字認識装置 | |
| KR20090111202A (ko) | 한글의 기본 구성요소인 수평선, 수직선, 사선, 원의개수와 특성치를 이용한 한글인식 방법 및 장치 | |
| Oladele et al. | Offline Yorùbá handwritten word recognition using geometric feature extraction and support vector machine classifier | |
| JPS592191A (ja) | 手書き日本語文の認識処理方式 | |
| Douma et al. | Application of artificial neural networks technology for handwritten Arabic letters recognition | |
| Lohakan et al. | Single-character segmentation for handprinted Thai word | |
| Trenkle | An Off-Line Arabic Recognition System for Machine | |
| Hwang et al. | Segmentation of a text printed in Korean and English using structure information and character recognizers | |
| JPH02230484A (ja) | 文字認識装置 | |
| Sareen et al. | Generating a Standardized Dataset: Gurmukhi Offline Handwritten Collection of Tehsil and Sub-Tehsil names from Punjab | |
| JPH05298487A (ja) | 英文字認識装置 | |
| Ito | Automatic input of flow chart in document image | |
| JP2972443B2 (ja) | 文字認識装置 | |
| Uber et al. | Japanese Kana and Brazilian Portuguese Manuscript Database | |
| Chaudhari et al. | Character level separation and identification of english and gujarati digits from bilingual (english-gujarati) printed documents | |
| JPS6095689A (ja) | 光学的文字読取装置 | |
| Khin et al. | Detection and Recognition of Myanmar Characters from the Dissimilar Images |