JPH01219970A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPH01219970A
JPH01219970A JP63044332A JP4433288A JPH01219970A JP H01219970 A JPH01219970 A JP H01219970A JP 63044332 A JP63044332 A JP 63044332A JP 4433288 A JP4433288 A JP 4433288A JP H01219970 A JPH01219970 A JP H01219970A
Authority
JP
Japan
Prior art keywords
character
histogram
large classification
categories
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63044332A
Other languages
English (en)
Inventor
Katsumi Yaguchi
矢口 克己
Bunpei Irie
文平 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63044332A priority Critical patent/JPH01219970A/ja
Publication of JPH01219970A publication Critical patent/JPH01219970A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) この発明は、漢字等も読取可能な光学的文字読取装置で
、大分類と個別認識を行う文字認識方式(従来の技術) 漢字等の多数のカテゴリ(数千カテゴリ)の文字認識を
行う場合、まず、比較的簡便な方法で全カテゴリについ
て得点を算出し、そのうち上位数百カテゴリな選び(大
分類)候補をしぼっておいて、その後で詳細な特徴を用
いて文学誌R(個別認識)が行われることが多い。
この大分類で、上位数百カテゴリを選ぶ場合、従来は全
カテゴリについて得点の高い順にソーティングし、上位
のカテゴリを選ぶ方式がとられていた。この方式では、
全カテゴリの得点をソーティングするのに手間がかかり
、処理速度が遅くなるという欠点があった。また、ソー
ティングを行わず、あらかじめ定めておいた固定値でス
ライスする方式も採用されているが、スライス値の決定
が難しく高すぎると候補数は減るが、正解の含まれる確
率も減少し、低すぎると候補数が増大し、次段の個別認
識の時間がかかるという欠点があった。
(発明が解決しようとする課題) 従来、漢字の大分類を行う場合、あらかじめ決められた
固定スライスで全カテゴリとの得点のスライスを行う方
式と、全カテゴリとの得点のソーティングを行い、上位
必要順位までのカテゴリなスライスする方式があった。
前者では適当な固定スライスの決定が難しく、スライス
が高すぎると正解もはじいてしまい、低すぎると候補数
が多くなりすぎてしまう。後者ではソーティングに手間
がかかり、処理速朦が遅くなる。
以上の欠点を考えて、!゛の発明の目的は手間のかかる
ソーティングや決定の難しい固定スライスをとることな
しに、大分類の得点分布のヒストグラムを用いた候補の
しぼり込法(大分類〕を含む文字認識を行うことである
〔発明の構成〕 (課題を解決するための手段) 本発明は、大分類実行時に得られた全カテゴリの得点デ
ータをあらかじめ適当に定めておいた得点中で区切り、
得点分布のヒストグラムを作成し、その後最高得点より
ヒストグラムを累積し、所望の(i!(大分類の候補数
)をこえたところで累積を拐ちきり、そこまでのヒスト
グラムlこ含まれるカテゴリを大分類結果(個別認識の
候補Jとして出力し、その候補により個別認識を行い、
文字認識を行うようにしたものである。
(作用) この発明によれば、大分類実行時の類似度のソーティン
グが削除され処理速度の大巾な向上あるいは、固定スラ
イスより妥当なスライスが得られるので、高精度化を実
現することができる。
(実施例) 以下、図を用いてこの発明の詳細な説明する。
第1図は、本発明の文字認識方式の概略フローである。
認識されるべき文字が1文字入力されると、まず大分類
を行い、数千種のカテゴリーの中から数百候補にしぼり
込む。その数百候補に対して個別認識を行い認識結果を
得る。
第2図に、大分類の詳細フローを示す。lでは人力され
た文字の特徴抽出を行う。特徴としては既知のもので、
濃度特徴や輪郭線の特徴1周辺分布特徴などが考えられ
る。特徴抽出の結果は、数十次元のベクトル(特徴ベク
トルンで示される。
2では、1で得られた特徴ベクトルとあらかじめ登録し
である辞書パターンベクトルとの類似度を計算する。計
算手法は年率類似度や複合類似度、など、辞書パターン
ベクトルと入カバターンベクトルの距離を表わすもので
あればなんでもよい。距離が小さければ小さい程、類似
度は大きくなる。
3では、2で求められた類似度のヒストグラムを作成す
る。作成例を第3図に示す。横軸に類似度をとり、あら
かじめ適当に定めておいた値XOJl・・・、Xnで区
切り、その間に含まれるカテゴリ数を縦軸にとる。第3
図では、Xi以上)(i+1未満の類似度のカテゴリが
Yi個<o(−i≦12Hζあることを示している。X
iの値は、類似度の最大値から等間隔に定めてもよいし
、対数目盛りに定めてもよい。4では、3で得られた類
似度のヒストグラムをXiの大きいものから順に累積を
とり、所望の候補数NをはじめてこえるXNをスライス
 −値に決定する。第3図で詳しく説明すると、累積値
の初期値をYllとし、YllとNを比較してYll≧
NであればXimをスライス値とする。Yll<Nであ
れば、累積値を(Yll +Y10 )とする。1例と
して、(Yll +Y10 +Y9 )(N<(Yxt
 +Yto +Y9+Yf )であった場合、XNがス
ライス値となり、第3図のヒストグラムの斜線の部分が
候補文字と判定され、第2図5で出力される。Nの値は
個別認識の速度、大分類の精度によるが、百〜数百程度
に定める。以上の大分類lこより出力された候補文字に
対して個別認識を行い、最終結果とする。
〔発明の効果〕
以上説明したように、本発明の文字認識方式の特色ある
大分類方式により、漢字等の多カテゴリの文字認識にお
いて、高速でかつ高精度の認識な行うことができる。
【図面の簡単な説明】
第1図は、本発明の文字認識方式の概略フロー図、第2
図は、大分類方式のフローチャート図、第3図は、大分
類実行時の類似度値のヒストグラムの図である。

Claims (1)

    【特許請求の範囲】
  1. 入力文字パターンに対して特徴抽出を行う手段と、辞書
    パターンを記憶しておく手段と、入力文字の特徴と辞書
    パターンとの間で類似度計算を行う手段と、単調増加点
    列Xi(i=0、1、2、・・・、N)を記憶または作
    成する手段と、類似度計算の結果をXi毎に区切りXi
    −1、Xiの区間に含まれる要素の数のヒストグラムを
    作成する手段と、該ヒストグラムにもとづいてXN−1
    〜XNの区間から順にXi〜XN(i=N−1、N−2
    、・・・)の区間に含まれる要素数の累計値Rを求め所
    望の候補数Cと比較し、C>Rであれば累積をつづけ、
    C≦Rであればその区間のXiをスライス値として出力
    する手段と、前記類似度について前記スライス値と比較
    し大きければ候補として出力する候補選択手段を有する
    ことを特徴とする文字認識方式。
JP63044332A 1988-02-29 1988-02-29 文字認識方式 Pending JPH01219970A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63044332A JPH01219970A (ja) 1988-02-29 1988-02-29 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63044332A JPH01219970A (ja) 1988-02-29 1988-02-29 文字認識方式

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP63080954A Division JPH0278529A (ja) 1988-04-01 1988-04-01 シート表皮の製造方法

Publications (1)

Publication Number Publication Date
JPH01219970A true JPH01219970A (ja) 1989-09-01

Family

ID=12688559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63044332A Pending JPH01219970A (ja) 1988-02-29 1988-02-29 文字認識方式

Country Status (1)

Country Link
JP (1) JPH01219970A (ja)

Similar Documents

Publication Publication Date Title
EP0847018B1 (en) A data processing method and apparatus for indentifying a classification to which data belongs
DE69907513T2 (de) Handgeschriebene oder gesprochene wort-erkennung mit neuronalen netzwerken
US7031530B2 (en) Compound classifier for pattern recognition applications
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
JPH0664631B2 (ja) 文字認識装置
CN100501764C (zh) 字符识别系统及方法
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
US5426711A (en) Online handwritten character recognition
EP0432937B1 (en) Hand-written character recognition apparatus
JPH069054B2 (ja) 文書自動分類装置
CN119025685B (zh) 一种知识图谱关系预测方法、装置、设备及存储介质
Jain et al. Automatic question tagging using k-nearest neighbors and random forest
JP2009129253A (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JPH07160822A (ja) パターン認識方法
Ali et al. Different handwritten character recognition methods: a review
CN105975994B (zh) 基于非相似性变换一类svm模型的sar目标鉴别方法
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
JPH01219970A (ja) 文字認識方式
Sabapathi et al. Analysis of Customer Review and Predicting Future Release of the Product using machine learning concepts
Bumbu On classification of 17th century fonts using neural networks
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3706646B2 (ja) Ocrの制御方法並びに分類方法及び装置
JPH0830734A (ja) 文字列認識装置
CN115809331A (zh) 一种篇章关系识别方法和装置
JP3266441B2 (ja) 文字認識方法