JPS636686A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS636686A
JPS636686A JP61149752A JP14975286A JPS636686A JP S636686 A JPS636686 A JP S636686A JP 61149752 A JP61149752 A JP 61149752A JP 14975286 A JP14975286 A JP 14975286A JP S636686 A JPS636686 A JP S636686A
Authority
JP
Japan
Prior art keywords
character
characters
recognition
processing
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61149752A
Other languages
English (en)
Inventor
Yumie Gou
郷 由美恵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP61149752A priority Critical patent/JPS636686A/ja
Publication of JPS636686A publication Critical patent/JPS636686A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字認識装置、特に読み取った文字パターンと
予め記憶された文字パターンとを比較して文字を認識す
る文字認識装置に関するものである。
[従来の技術] 文字認識装置、とりわけ処理の高速化が可能な光学式文
字認識装置については、近年漢字を含む日本語文章を高
認識率で読み取れるものが開発されている。しかし、誤
読を完全になくすのは困難であり、仮に文字認識の高速
処理が実現したとしても、人手によって一文字ずつ認識
結果を検証して修正する工程が残されており、更に、こ
の工程を経ても誤認識を一つ残らず発見し、修正するこ
とは難しい。
この検証工程を簡略化する一つの手段として、デイスプ
レィ上に認識結果を表示し、認識できなかった文字、即
ちリジェクト文字の位置には特定の記号を表示し、更に
進んで、認識ができるとしても、統計上読み取った文字
パターンと、判定した文字の標準パターンとのずれが大
きい場合はデイスプレィ上で、この文字だけ他と色を変
えて、疑わしい文字として表示する、等の方法が考案さ
れている。
しかし、デイスプレィ上で確認修正を行う方法は、簡便
・迅速であるが、 (1)デイスプレィの解像度は向上しているとはいえ、
類似文字はデイスプレィ上では簡単に区別できず誤文字
を見落しやすい。(例:力(漢字)と力(カタカナ)1
、−(カタカナ)と−(ハイフォン)、己と巳など) (2)認識結果の確認作業は十分綿密に行う必要がある
が、デイスプレィ上で行う場合、1の問題も重なり操作
者の目にかかる負担が大きい。又、これが原因で誤文字
の見落しもおこりやすい。
という欠点をもっている。
[発明が解決しようとする問題点] 本発明は上記従来例の欠点に鑑み、出力された認識結果
を利用して簡便に確認作業を行える文字認識装置を提供
する。
[問題点を解決するための手段コ この問題点を解決するための一手段として、本発明の文
字認識装置は、読み取った文字パターンと予め記憶され
た文字パターンとの類似度あるいは相違度を表わす値と
、1つ又は複数の所定のしきい値との大小を、識別可能
に出力する出力手段を備える。
[作用] かかる構成において、出力手段は、読み取った文字パタ
ーンと予め記憶された文字パターンとの類似度あるいは
相違度を表わす値と、1つ又は複数の所定のしきい値と
の大小を、識別可能に出力する。
[実施例] 第1図は、本実施例の文字認識装置の外観図である。図
中、1は原稿を置き光学的に文字の読み取りを行うスキ
ャナ、2は文字の認識結果を表示して画面上で修正ある
いは編集を行うデイスプレィ、3はデイスプレィ操作を
指示するキーボード、4は認識結果あるいは修正編集済
の文書を印字するプリンタである。
第2図は、本実施例の文字認識装置のブロック図である
。スキャナ1.デイスプレィ2.キーボード3.プリン
タ4はそれぞれインターフェースを介してデータバス8
に接続されている。
CPU5はMC68000等のマイクロプロセッサ、R
OM6は文字認識プログラム、文字パターンデータ、処
理プログラム等を収めた読み出し専用メモリ、RAM7
は認識結果等を一時的に保存する随時書き込み/読出し
メモリである。
第3図に、本実施例の文字認識装置の処理手順のフロー
チャートを示す。ステップS31でスキャナから原稿を
読み取り、ステップS32で文字認識処理を行い、その
結果がステップ533aでデイスプレィ2上に表示され
る。同時に選択すれば、ステップ533bで同じフォー
マットでプリンタ4より出力される。操作者は、デイス
プレィ2の表示もしくはプリンタ4から出力されたハー
ドコピーを参照して認識結果の確認を行う。確認過程で
誤認識文字を抽出し、ステップS34でデイスプレィ2
上でそれらの文字の修正を行う。必要ならば、ステップ
533a−34、又はステップ533b−34を繰返し
、ステップ535a。
35bで最終的にプリンタ4への印字を行うか、あるい
はステップS35cで認識されたデータを基に次の処理
を行う。
第4図は、本実施例の文字認識装置における文字認識お
よび被疑文字表示処理のフローチャートを示したもので
ある。ステップS41でスキャナ1から読み取られた文
字の2値データは、前処理(文字切り出し、ノイズ除去
、細線化、ベクトル化等)を経て、文字特徴(文字領域
における密度9曲線比、ベクトル方向3局所的特徴等)
に従って、分類・量子化される。ステップ342で、こ
のデータとその内蔵されている各文字の標準パターンの
特徴データとの照合を行い、ステップ343で類似度の
高いものから順に候補を抽出する。
最も類似度の高い文字のコードをCH(1)その類似度
をA(1)に代入し、以下、類似度の高い順にCH(2
)、CH(3)、・−CH(I)、A (2)、 A 
(3)、・・・A(I)と代入する。本例では、■=1
0の場合を説明する。
次に、ステップS44で、第一候補が正当であるか否か
を推定するため相関演算を行い、ステップS45でデイ
スプレィ2に表示する。
以下に本実施例の文字認識方法について説明する。ある
−種類の標準的な活字もしくはドツト文字について、光
学的に読み取りを行い、白黒の2値化をして、−定の一
文字領域あたりの黒色部分の面積を密度として一文字ず
つ測定すると、概して漢字よりも平仮名1汁仮名の方が
密度が低い。
ある活字(あるいはフォント)について文字密度(もし
くは−窓領域内の黒値の絶対量)の分布を示したのが第
5図である。これより、このフォントでは平仮名1汁仮
名は密度がa%からb%の間に分布し、b%より大きい
ものは漢字であると仮定することができる。この分布を
利用するため、文章を光学的に読み取った際に、−文字
ごとに領域中の白に対する黒値の絶対量を測定する。こ
こで、平仮名1汁仮名の下限密度をa%、上限密度をb
%として、密度がa%からb%の範囲にある文字をか平
仮名1汁仮名候補として抽出する。
次に、この中から平仮名候補を抽出する。片仮名に比べ
た平仮名の特徴としては、密度がやや高い(b’%以上
)。円状”ざ”を含め、曲線要素が多いという点があげ
られる。そこで、文字をなす線分について方向ベクトル
を求め、−文字あたりの直線に対する曲線の比及び曲線
の複雑度を算出する。その−方法として、第6図に示し
たように、文字をなす線分上に点をサンプリングし、線
分上の隣接する点間の方向ベクトルを調べる。垂直成分
及び水平成分から成る線分を除くその他の線分について
、連続するベクトル間の方向のずれを求め、これを加算
して直線的に連続するベクトルとの比を求める。これを
以後曲線度と呼ぶ。
基本的なフォントについてこの曲線度の分布をとると、
第7図の様なグラフが得られる。曲線度と密度との相関
より、第7図に示された領域Aに分布するものは平板名
、領域Bに分布するものは片仮名と仮定される。文字の
読取りを行った結果、密度がb%以下の文字のうち、A
領域部ち曲線度がC以上のものは、まず平板名とみなす
。また、B領域のみ即ち曲線度C以下の文字は片仮名と
みなす。実際には、A、B領域には漢字も含まれており
、またA領域に片仮名、B領域に平板名が存在しうるが
、この段階では問題としない。
以上、概略的に字種分類を行い、次にそれぞれの字種に
ついて、文字の判定を行う。判定の対象とする候補文字
は、同一字種の他に上記分類で用いた領域中に分布しつ
る地学種文字も含む。また、判定に際しては、上記で用
いた密度、曲線度も利用する。この様にして、読み取っ
た各文字について、比較結果の認識候補文字(文字コー
ド)とその字種情報(例えば、平板名・・・01、片仮
名・・・02、漢字・・・03等)を出力する。認識候
補文字が複数ある場合は、各々について情報を出力する
次に、判定された認識候補文字について、字種情報を利
用しながら、前後の文字列との関係を見て、比較結果の
検証を行う。検証を行う前後の文字列は以下の様に定め
る。最初の比較結果によって得られた文字列について字
種の変わり目に着目し、グループの先頭または字種の変
わり目から、次の字種の変わり目までの同一字種から成
る文字列を、1−5TIRNGとする。1つの5TRI
NGとそれに続<5TRINGの字種の組み合わせに応
じて、処理の選択を行う。この方法を図示したのが第8
図である。
グループを字種によって区分し、平板名、片仮名、漢字
から成る5TRINGにそれぞれ01゜02.03の番
号をふる。このフラッグを、以下STRで示す。5TR
=03、即ち漢字から成る5TRINGについては、用
意された漢字単語、熟語辞書を用いて、文字列を有意単
位に分割する(第8図の0.0.の)。分割方法が2通
り以上ある場合は、基本的に一番長い有意単位を持つ分
割方法を選択し、その他は次候補として保持する。また
、5TR=01、即ち平板名から成る5TRINGにつ
いても分割を行う。この際、辞書情報として、自立語以
外の文法的情報(助詞、助動詞、活用語尾など)や接続
規則を利用し、活用語については、5TRI NG中の
接続関係より活用形まで解析する(第8図のO,@、@
)。活用形や文法単位が2通り以上の解釈可能性がある
場合は、やはり最も長い分割単位を持つ分割法を第1候
補とし、その他を次候補として保持する。片仮名から成
る5TRING (STR=02)については、辞書照
合は行うが一致する辞書がなければ比較結果の第1位の
認識候補文字を優先する(第8図のO20【Φ)。
続いて、連続する5TRING間の接続関係を調べる。
第8図中、■はグループ先頭のSTRINGで始点を表
す。
グループ先頭5TRINGが漢字でこれに続く5TRI
NGが平板名の場合は、平板名5TRINGの先頭の分
割単位が自立型か否かと、活用型か否かとを調べ、非自
立活用型の場合は、先行する漢字5TRINGの最終端
の有意分割単位に注目し、用意された当該分割単位の接
続情報より5TRING間の接続の適合性を照合する。
接続が適切でない場合は、それぞれについて順次次候補
の照合を行う(第8図の■)。
グループ先頭5TRINGが漢字で続<5TRINGが
片仮名の場合は、接続照合は行わない(第8図の■)。
片仮名5TRINGに漢字5TRING場合も、照合は
行わない(第8図の■)。
平板名5TRINGに漢字5TRINGが続く場合は、
先行する平板名5TRINGの最終端の分割単位に注目
し、これが活用語もしくはその語尾であるときは、接続
の漢字5TRINGが体言に相当するか用言に相当する
か調べ、その結果に応じて照合を行う(第8図の■)。
漢字5TRINGが体言か用言かの決定は、さらに接続
する5TRINGが活用語か否かに依存する(第8図の
■)。これだけで決められない場合は、接続照合は行わ
ず比較結果の第1位の認識候補文字を優先する。
平板名5TRINGに片仮名5TRINGが続く場合も
同様に、平板名5TRINGの最終端の分割単位の活用
形(活用型の場合)と、続く片仮名5TRINGの体言
/用言属性との照合を行う(第8図の■)。
片仮名5TRINGに平板名5TRINGが続く場合は
、後続の平板名5TRINGの先頭分割単位がす変動側
活用形、または形容動詞活用語尾の要素でありうるなら
ば、先行の片仮名STRINGが辞書に存在することを
条件に、その接続情報を基に照合を行う(第8図の■)
。それ以外は比較結果の第1位の認識候補文字を優先す
る。
第8図には、グループの先頭5TRINGから順に後続
5TRINGを検証する方法を示したが、逆方向即ち読
点ないし句点を始点として文の終わりから5TRING
を追うことも同様の方法ででき、処理していく方向は限
定しない。
いずれの場合においても、第一候補による平板名5TR
INGの解析及び5TRING間接続の解析が成功しな
い場合、即ち分割単位が辞書に適合しないあるいは接続
規則に反する場合は、次以下候補を含めて適合する分割
単位を検索する。繰り下げられた今認識候補文字の字種
が第一候補文字と異なるときは、字l5TRINGがず
れるため、改めて5TRING解析を行う。具体的には
、変化した認識候補文字の字種が、その文字の直前の5
TRINGの字種と同じ場合は、その直前の5TRIN
Gの先頭に戻って、字種変化文字を含めた同一字種文字
列を1−3TRINGとして解析を行う。変化した認識
候補文字の字種が直前の5TRINGと異なる場合は、
その字種変化した文字を5TRINGの先頭として、以
下の同一字種文字列を1−5TRINGとして解析を行
う。
ところで文字認識の対象とする文書中で、片仮名文字が
単独で1文字出現することはまれであリ、また片仮名5
TRINGにはさまれて平仮名文字が単独で出現するこ
とも、助詞や活用語尾などが限定された語を除いてまれ
である。そこで、これらの文字の次候補以下に、第1位
の認識候補文字とパターン類似度が大きく変わらない範
囲内で前後の文字列と同じ字種の文字が存在すれば、そ
の文字を選択する。第1位の認識候補文字以下の認識候
補文字については、1文字につき10位程度までメモリ
に保持してデイスプレィ上で参照できる。同時に、それ
ぞれの文字についての標準パターンに対する類似度も保
持し、類似度と辞書項目及び文法適合性の相関より文字
判定を行う。
例えば、辞書に一致する漢字文字列が第1位の認識候補
文字ではなく、第2位以下に存在する場合、読み取った
文字バタンとこの認識候補文字の類似度との比を算出し
、いずれも−定値以下の場合は、この認識候補文字が正
当である確率は低いとみなし、第−位の認識候補文字を
出力する。
尚、文法解析のために必要な情報、例えば漢字熟語及び
片仮名、平仮名単語については、品詞。
接続しうる活用語(す変化動詞、形容動詞など)、漢字
−字については、接続しつる送り仮名及び活用変化形等
を、予め辞書に登録しておく。
また、異字種ながら字形が同一、もしくは類似している
文字、例えば、へ(平板名)とへ(片仮名)、力(片仮
名)と力(漢字)等については、字種番号の低いものを
優先して(例、へ−平板名、カー片仮名)、文字列の適
合性を検証し、適切でない場合は、異字梯形を次の候補
として引き続き処理を行う。
次に、第4図のステップS44に示した候補文字が正当
であるか否か推定する相関演算の一方・法について第9
図を用いて説明する。
まず、ステップS90でI=1として第1位の認識候補
文字を設定し、比較結果を有効とする類似度の限界値r
と、類似度がこれよりも大きければ認識結果として出力
するのに十分と考えられる値θと、−定値Pとを設定す
る。ステップS91で類似度A(1)とrの値を比較し
、類似度A(1)がr以下であれば、ステップ5100
からステップ5101に行って、認識不能とし文字は出
力せずにリジェクトマーク(例えば■印)を出力する。
類似度A(1)がrよりも大きければ、次のステップS
92に進む。ステップS92で類似度A(1)とθを比
較する。次に、大小それぞれの結果について、更にステ
ップS93とステップS94で類似度A(1)と類似度
A(2)の比を調べ、 A(1)≧θ且つA (2)/A (1)≦Pならば、
C’T(1)が正当である確率が高いものとして、ステ
ップS95でCH(1)と共にFlag==Qを出力す
る。
A(1)<θ且つA (2) /A (1) >pなら
ば、CH(1)が正当である確率が高くないものとして
、ステップS97でCH(1)と共にF 1 ag=2
を出力する。
A(1)≧θ且つA (2) /A (1) >p、あ
るいはA(1)<θ且つA (2)/A (1)≦Pの
場合は、2位以下の候補が正答である等の可能性がある
としてF1ag=1を出力する。
尚、本例では、FlagをO〜2の3つにしたため、前
記のような分岐としたが、Flagを0〜3の4つにし
て、各条件に別のFlagを振り分けてもよい。又、さ
らに多くの条件を基に細かい判別をすると、正答の確率
がより高くなる。
更に、内蔵辞書による単語照合や、接続・活用などの文
法的妥当性検証等、前後の文字列を参照して認識結果を
検証する方法を採用した場合、処理の結果、第1位の認
識候補文字と第2位以下の認識候補文字が入れ替わるこ
とがある。この場合は、第9図のステップS98でIを
順にインクリメントし、A(I)とr及びθ値、またA
(I+1)/A(I)とP値を比較して、同様に結果を
Flag番号で出力する。又、ステップS99で認識候
補文字の終了と判断したか(本例では10番目まで)、
又はステップ5100でA(I)≦rで、かつI≠1の
場合には相関演算のステップS44を終了する。
r、θ、pの値をさらに細かく段階化することによりF
lagを多値出力し、これと文字列参照結果の妥当性と
の相関により文字判定を行い、正当の確率を推定するこ
ともできる。例えば、検証する文字を含むある漢字ある
いは片仮名の文字列が文書に存在しなくても、その文字
における類似度A(I)がθよりも十分大きく、またA
(I+1)/A(I)の値がpよりも十分小さければ、
この文字を正当とみなして出力する。
r、θ、pは標準的な原稿の認識結果に基づいて予め一
定値に設定するが、例えば、認識結果として出力された
文字別に与えられたFlag番号(第9図のステップS
95〜97のF1ag=0〜2)のそれぞれの比を一定
にすることにより、原稿に応じて、自動的にr、θ、p
値を変化させることができる。また、原稿の印字状態、
活字種類、処理時間等の条件に従って、利用者がキーボ
ードまたはスキャナ上の操作面よりr。
θ、p値を設定することもできる。(但し、Oar<θ
、0くp≦1) この様に認識処理を行った結果、それぞれの文字につい
て、第1位の認識候補文字と判定された文字のコード番
号と、Flag番号(リジェクトならばリジェクトコー
ド)、及び第2位から第1位(本例ではn=10)まで
の認識候補文字のコード番号がRAM7の一時内部記憶
部に出力される。
処理プログラムは、RAM7の一時内部記憶部より第1
位の認識候補文字列の各コードを受は取り、文字に変換
して出力形式に従ってデイスプレィ2に表示する。同時
に、各文字のFlagを参照し、Flag番号に従って
表示する文字の色や字体を変えたり、識別マーク(網か
け、アンダーライン等)を施したりする。−例として、
Flag=oの場合は黒、F1ag=1の場合は青。
F 1 ag=2の場合は赤色を各文字のカラーとして
指定することにより、認識された文字が正しい確率が一
番低い文字グループは赤1次に低いグループの文字は青
、それ以外の文字は黒で表示される。こうすることによ
り、まず赤く表示された文字、次に青色文字に注意して
確認作業を行えばよく、誤認識を発見しやすい。また、
必ずしも3通りに区別することはなく、例えばF1ag
=1を赤又は黒に設定することにより、被疑文字の表示
が一色に統一される。全文字中の被疑文字比は、前述の
通り、θ、pの値を変えることにより調整できる。
本装置は、デイスプレィ2上に認識結果を表示しながら
、その結果をデイスプレィ2上と同形式で、且つ判定さ
れた文字が正しい確率に従った識別マークを付けて、ハ
ードコピー上に印字する機能を持つ。プリンタ4には、
印字の高速性(1分間で8枚以上)、印字品質の高さの
点で電子写真式のレーザプリンタを用いる。このプリン
タ4は、本文字認識装置をワードプロセッサとして用い
た場合には、作成済文書を印字するプリンタと兼用する
ことができる。認識結果のデータは、RAMT内の一時
内部記憶部にストアされたデイスプレィ表示と同一のも
のを使う。Flag番号に応じた識別マークの選択は、
プリンタ4の機能及び利用者の便宜に依存する。例とし
て、赤黒の2色印字によって区別する場合と、黒一色で
印字し、マークによって2通りの区別を行う場合につい
て説明をする。
第10図(a)、(b)に、このプリンタの内部構造を
示す。第10図(a)は、2色のトナー容器を内蔵し、
2色(例えば赤と黒)の印字が可能なレーザープリンタ
、第10図(b)は単色印字用のレーザプリンタである
。図中、11はカセット給紙部、12は手差し給紙部、
13は分離・搬送部、14は定着・排紙部、15は感光
ドラム、16は単色用トナーケース(黒など)、17は
カラートナーケース(赤などの)である。
このプリンタは、コントロール部にMC68000をC
PUとして内蔵しており、これがデータの受信、文字パ
ターンの生成、印刷、紙送りなどを制御する。ホストコ
ンピュータからの指示により、ページフォーマット、文
字1行ピッチ、印字の制御ができ、さらに−文字毎に、
アンダーライン、アミ掛け、白黒反転等の文字属性指定
が行える。
第11図に、このプリンタで用いられるアミ掛け、白黒
反転のための文字属性指定命令コードを示す。例として
「プリンタ制御」という文字列の認識結果を印字する場
合、プリンタに送られるデータフォーマットを第12図
に示す。各文字についてコードナンバーとともに、認識
結果に確からしさを示すFlag番号がプリンタ9に渡
される。
各文字のFlag番号に従って、赤黒2色で印字する場
合の処理の流れを第13図(a)に示す。まず、ステッ
プ5131でトナーカラーを初期化しく黒、J=O)、
カウンタ11=0とする。ステップ5132で一文字分
のデータをRAM7より受は取り、ステップ5133で
各文字のフラグを調べる。ここではF1ag=O1ある
いはF1ag=1の場合は、ステップ5135でそのま
まコードを出力し、この場合は、ステップ5134でコ
ード番号をスペースに該当するもの(例3902)に入
れ替えてステップ5135で出力する。ステップ513
6でカウンタ11を1つカウントアツプして、順に1文
字ずつデータを受は取り、ステップ5137で1ペ一ジ
分の処理が終了した時点でコードをフォントに変換し、
ステップ3138で黒色で印字を行う。印字用紙は、第
6図(a)の感光ドラム15で黒色トナーを転写した後
、分離・搬送部13を経て、−度定着部14で定着を行
い、下部搬送部13aを経て再び給紙部に戻る。
次に、ステップ5139でトナーカラーが赤色に切り換
えられ(J=1)、■1=0とする。ステップ5140
で再びRAM7より同一の文字データを一文字分ずつ受
は取る。今度は、F1ag=2の場合は、ステップ51
43で、そのままコード番号を出力し、F l ag=
o又はF1ag=1の場合はステップ5142でコード
をスペースに入れ替えてステップ5143で出力する。
ステップ5144でカウンタエ1を+1して、順に一文
字ずつデータを受は取り、ステップ5145で1ペ一ジ
分終了すると、ステップ5146でコードをフォントに
変換し、赤色で印字を行う。赤字トナーを転写された紙
は、搬送部13を経て、定着器14を通り廃紙され、認
識精度確率に応じて赤黒2色に刷り分けられた認識結果
が出力される。
次に単色印字で認識精度確率に応じて識別を行う場合の
処理の流れを第15図に示す。ステップ5151で初期
化(12=O)の後、ステップ5152でRAM7より
一文字分ずつデータが読み込まれ、ステップ5153で
各文字のFlagを調べる。F 1 ag=oの場合は
、ステップ5154でコードのみを出力し、マークfi
 31は行わない。F 1 ag=1の場合は、ステッ
プ5155でコードを出力するとともにMARKI処理
を行う。F1ag=2の場合は、ステップ5156でコ
ードを出力するとともにMARK2処理を行う。ここで
マーク処理とは、第11図の文字属性指定命令に従って
、文字単位に修飾制御を行うことを指す。MARK1m
理でアミ掛け、MARK2処理で白黒反転を行う場合、
文字コードの前後にMARKI処理ではアミ掛は開始命
令(CI35m)、アミ掛は終了命令(SCI25m)
を出力し、MARK2処理は白黒反転開始命令(CSI
7m)、白黒反転終了命令(CSI27m)を出力する
。マーク処理なしの場合は、文字属性命令は出力しない
。ステップ5157でカウンタI2を+1して、ステッ
プ5158で1ペ一ジ分の終了を判断し、文字データの
受取りが終了すると、ステップ5159ではフォントに
変換され、マーク処理がある場合は、アミ掛け、または
白黒反転を施して、紙に転写・印字される。
この結果、文字の認識精度の確率に応じて白黒反転、ア
ミ掛け、無印の3通りの識別を施した出力がハードコピ
ーの形で得られる。文字出力例を第14図に示す。左か
ら4番目と6番目がFlag=2の文字、2番目がF1
ag=1の文字、その他がF1ag=Oの文字である。
認識結果の修正作業は、直接デイスプレィ2に表示され
た認識結果を見ながら、または、プリンタ4より出力さ
れたハードコピー上の認識結果を参照したのち、デイス
プレィ2上で対話式に、もしくは原稿上の文字を修正し
て再入力することによって行われる。原稿の水平方向の
文字数(縦書きならば縦方向)が−定数以内ならば、デ
イスプレィ2上の文字の配置は原稿と同一であり、プリ
ンタ4から出力されたハードコピー上にも同一のフォー
マットで印字が行われる。従って、認識結果のハードコ
ピーと原稿とを比べながら、誤認識文字を用意に発見す
ることができる。
修正作業が終了した後、【識結果として得られた文字の
コードデータを利用してアプリケーションに応じた処理
が行われる。
本実施例の文字認識装置を、ホストコンピュータへのデ
ータ入力装置として用いる場合は、第3図のステップ5
35cのように、修正終了後命令によりFlagを除く
コードデータから成るデータファイルが形成さn1ホス
トに渡される。
ワードプロセッサとして用いる場合は、ステップ535
bのように、終了・印刷コマンドを送ることにより、マ
ーク処理がクリアされ、識別マークが除かれた状態のハ
ードコピーを得ることができる。また、ステップ535
aのように、デイスプレィ2上で識別マークをクリアし
、削除、挿入。
組み替え等の編集を行った後、ハードコピーを出力する
こともできる。
尚、平板名、片仮名、漢字以外の文字種についても同じ
方法で対応可能である。
又、あらかじめ特徴データを登録しておけば、たいがい
の活字、及びドツト文字を認識することができる。また
、−文字の領域を(サイズとピッチより)切り出す処理
を付加すれば、文字の大きさは制限されない。
以上説明したように、まず、平仮名文字の特徴から平板
名を判別し、次に片仮名を判別することにより、字種に
応じて精度の高い認識ができ、平板名の誤認識も向上す
る。
また、字種毎の性質に応じて異なる文字列照合を行うた
め、処理の高速化、単語辞書1文法ルールの簡略化が図
れる。
漢字の場合は、専門用語、固有名詞、複合語の処理、片
仮名では、専門語、固有名詞を含む新語、異形(ヂーゼ
ルとディーゼルなど)への対応等が単語辞書作りの障害
となっているが、本発明では字種列により独立した処理
をとっており、辞書と文法処理によって認識精度を高め
ると同時に、辞書にない単語・熟語についても、比較的
正確に認識をすることが可能である。
[発明の効果] 本発明により、出力された認識結果を利用して簡便に確
認作業を行える文字認識装置を提供できる。
【図面の簡単な説明】
第1図は本実施例の文字認識装置の外観図、第2図は本
実施例の文字認識装置のブロック図、 第3図は本実施例の文字認識装置の処理手順フローチャ
ート、 第4図は本実施例の文字認識装置の文字認識及び被疑文
字表示処理のフローチャート、第5図は文字密度の分布
図、 第6図は曲線度の算出説明図、 第7図は文字密度と曲線度の分布図、 第8図は字種の前後関係による処理の説明図、第9図は
相関演算のフローチャート、 第10図(a)、(b)はプリンタの内部構造図、 第11図はプリンタの文字属性指定命令コード側口、 第12図はプリンタに送られるデータフォーマット図、 第13図は赤黒2色刷りの印字処理フローチャート、 第14図は1色刷りの印字例図、 第15図は1色刷りの印字処理フローチャートである。 図中、1・・・スキャナ、2・・・デイスプレィ、3・
・・キーボード、4・・・プリンタ、5・・・CPU、
6・・・ROM、7・・・RAM、8・・・データバス
である。 特許出願人   キャノン株式会社 代理人 弁理士    大 塚 康 撫・′パ、′二: 直−−− 第 1 図 第2召 第4図 第5図 第6図 烹瓜(−) 第7E 第8図 !30 第1○図 (0) 第10図 (b)

Claims (3)

    【特許請求の範囲】
  1. (1)読み取つた文字パターンと予め記憶された文字パ
    ターンとを比較して文字を認識する文字認識装置におい
    て、読み取つた文字パターンと予め記憶された文字パタ
    ーンとの類似度あるいは相違度を表わす値と、1つ又は
    複数の所定のしきい値との大小を、識別可能に出力する
    出力手段を備えることを特徴とする文字認識装置。
  2. (2)出力手段は印字装置であつて、1つ又は複数の所
    定のしきい値との大小に対応して、色分けして印字する
    ことを特徴とする特許請求の範囲第1項記載の文字認識
    装置。
  3. (3)出力手段は印字装置であつて、1つ又は複数の所
    定のしきい値との大小に対応して、所定の形式で印字す
    ることを特徴とする特許請求の範囲第1項記載の文字認
    識装置。
JP61149752A 1986-06-27 1986-06-27 文字認識装置 Pending JPS636686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61149752A JPS636686A (ja) 1986-06-27 1986-06-27 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61149752A JPS636686A (ja) 1986-06-27 1986-06-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPS636686A true JPS636686A (ja) 1988-01-12

Family

ID=15481977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61149752A Pending JPS636686A (ja) 1986-06-27 1986-06-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPS636686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544188A (en) * 1993-12-16 1996-08-06 Mitsubishi Denki Kabushiki Kaisha Semiconductor laser device having a high emission efficiency and a large modulation bandwidth
JP2014203339A (ja) * 2013-04-08 2014-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置、画像形成装置、及び画像処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS616430A (ja) * 1984-06-20 1986-01-13 Hitachi Ltd 軸継手
JPS6174080A (ja) * 1984-09-18 1986-04-16 Sanyo Electric Co Ltd 文字認識装置の表示方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS616430A (ja) * 1984-06-20 1986-01-13 Hitachi Ltd 軸継手
JPS6174080A (ja) * 1984-09-18 1986-04-16 Sanyo Electric Co Ltd 文字認識装置の表示方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544188A (en) * 1993-12-16 1996-08-06 Mitsubishi Denki Kabushiki Kaisha Semiconductor laser device having a high emission efficiency and a large modulation bandwidth
JP2014203339A (ja) * 2013-04-08 2014-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置、画像形成装置、及び画像処理プログラム

Similar Documents

Publication Publication Date Title
JP3183577B2 (ja) 画像内容を復号することなく文書画像中の意味的に重要な画像を選択するための方法
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US4611346A (en) Method and apparatus for character recognition accommodating diacritical marks
US5883986A (en) Method and system for automatic transcription correction
EP0544434B1 (en) Method and apparatus for processing a document image
US7162086B2 (en) Character recognition apparatus and method
EP0844583A2 (en) Method and apparatus for character recognition
EP0649112A2 (en) A method and means for enhancing optical character recognition of printed documents
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JPS636686A (ja) 文字認識装置
Kumar et al. Line based robust script identification for indianlanguages
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache
JPS636687A (ja) 文字認識装置
JP3727422B2 (ja) 文字認識装置及びその方法
JPH10177623A (ja) 文書認識装置および言語処理装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JPH0991371A (ja) 文字表示装置
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
CN113052179B (zh) 多音字处理方法、装置、电子设备及存储介质
JP2906758B2 (ja) 文字読取装置
JPH028348B2 (ja)
JP2001022773A (ja) イメージ文書のキーワード抽出方法
Leishman Shape-free statistical information in optical character recognition
US20220309272A1 (en) Information processing apparatus and non-transitory computer readable medium storing program