JPS636686A

JPS636686A - 文字認識装置

Info

Publication number: JPS636686A
Application number: JP61149752A
Authority: JP
Inventors: Yumie Gou; 郷　由美恵
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1986-06-27
Filing date: 1986-06-27
Publication date: 1988-01-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は文字認識装置、特に読み取った文字パターンと
予め記憶された文字パターンとを比較して文字を認識す
る文字認識装置に関するものである。

［従来の技術］文字認識装置、とりわけ処理の高速化が可能な光学式文
字認識装置については、近年漢字を含む日本語文章を高
認識率で読み取れるものが開発されている。しかし、誤
読を完全になくすのは困難であり、仮に文字認識の高速
処理が実現したとしても、人手によって一文字ずつ認識
結果を検証して修正する工程が残されており、更に、こ
の工程を経ても誤認識を一つ残らず発見し、修正するこ
とは難しい。

この検証工程を簡略化する一つの手段として、デイスプ
レィ上に認識結果を表示し、認識できなかった文字、即
ちリジェクト文字の位置には特定の記号を表示し、更に
進んで、認識ができるとしても、統計上読み取った文字
パターンと、判定した文字の標準パターンとのずれが大
きい場合はデイスプレィ上で、この文字だけ他と色を変
えて、疑わしい文字として表示する、等の方法が考案さ
れている。

しかし、デイスプレィ上で確認修正を行う方法は、簡便
・迅速であるが、（１）デイスプレィの解像度は向上しているとはいえ、
類似文字はデイスプレィ上では簡単に区別できず誤文字
を見落しやすい。（例：力（漢字）と力（カタカナ）１
、−（カタカナ）と−（ハイフォン）、己と巳など）（２）認識結果の確認作業は十分綿密に行う必要がある
が、デイスプレィ上で行う場合、１の問題も重なり操作
者の目にかかる負担が大きい。又、これが原因で誤文字
の見落しもおこりやすい。

という欠点をもっている。

［発明が解決しようとする問題点］本発明は上記従来例の欠点に鑑み、出力された認識結果
を利用して簡便に確認作業を行える文字認識装置を提供
する。

［問題点を解決するための手段コこの問題点を解決するための一手段として、本発明の文
字認識装置は、読み取った文字パターンと予め記憶され
た文字パターンとの類似度あるいは相違度を表わす値と
、１つ又は複数の所定のしきい値との大小を、識別可能
に出力する出力手段を備える。

［作用］かかる構成において、出力手段は、読み取った文字パタ
ーンと予め記憶された文字パターンとの類似度あるいは
相違度を表わす値と、１つ又は複数の所定のしきい値と
の大小を、識別可能に出力する。

［実施例］第１図は、本実施例の文字認識装置の外観図である。図
中、１は原稿を置き光学的に文字の読み取りを行うスキ
ャナ、２は文字の認識結果を表示して画面上で修正ある
いは編集を行うデイスプレィ、３はデイスプレィ操作を
指示するキーボード、４は認識結果あるいは修正編集済
の文書を印字するプリンタである。

第２図は、本実施例の文字認識装置のブロック図である
。スキャナ１．デイスプレィ２．キーボード３．プリン
タ４はそれぞれインターフェースを介してデータバス８
に接続されている。

ＣＰＵ５はＭＣ６８０００等のマイクロプロセッサ、Ｒ
ＯＭ６は文字認識プログラム、文字パターンデータ、処
理プログラム等を収めた読み出し専用メモリ、ＲＡＭ７
は認識結果等を一時的に保存する随時書き込み／読出し
メモリである。

第３図に、本実施例の文字認識装置の処理手順のフロー
チャートを示す。ステップＳ３１でスキャナから原稿を
読み取り、ステップＳ３２で文字認識処理を行い、その
結果がステップ５３３ａでデイスプレィ２上に表示され
る。同時に選択すれば、ステップ５３３ｂで同じフォー
マットでプリンタ４より出力される。操作者は、デイス
プレィ２の表示もしくはプリンタ４から出力されたハー
ドコピーを参照して認識結果の確認を行う。確認過程で
誤認識文字を抽出し、ステップＳ３４でデイスプレィ２
上でそれらの文字の修正を行う。必要ならば、ステップ
５３３ａ−３４、又はステップ５３３ｂ−３４を繰返し
、ステップ５３５ａ。

３５ｂで最終的にプリンタ４への印字を行うか、あるい
はステップＳ３５ｃで認識されたデータを基に次の処理
を行う。

第４図は、本実施例の文字認識装置における文字認識お
よび被疑文字表示処理のフローチャートを示したもので
ある。ステップＳ４１でスキャナ１から読み取られた文
字の２値データは、前処理（文字切り出し、ノイズ除去
、細線化、ベクトル化等）を経て、文字特徴（文字領域
における密度９曲線比、ベクトル方向３局所的特徴等）
に従って、分類・量子化される。ステップ３４２で、こ
のデータとその内蔵されている各文字の標準パターンの
特徴データとの照合を行い、ステップ３４３で類似度の
高いものから順に候補を抽出する。

最も類似度の高い文字のコードをＣＨ（１）その類似度
をＡ（１）に代入し、以下、類似度の高い順にＣＨ（２
）、ＣＨ（３）、・−ＣＨ（Ｉ）、Ａ　（２）、　Ａ　
（３）、・・・Ａ（Ｉ）と代入する。本例では、■＝１
０の場合を説明する。

次に、ステップＳ４４で、第一候補が正当であるか否か
を推定するため相関演算を行い、ステップＳ４５でデイ
スプレィ２に表示する。

以下に本実施例の文字認識方法について説明する。ある
−種類の標準的な活字もしくはドツト文字について、光
学的に読み取りを行い、白黒の２値化をして、−定の一
文字領域あたりの黒色部分の面積を密度として一文字ず
つ測定すると、概して漢字よりも平仮名１汁仮名の方が
密度が低い。

ある活字（あるいはフォント）について文字密度（もし
くは−窓領域内の黒値の絶対量）の分布を示したのが第
５図である。これより、このフォントでは平仮名１汁仮
名は密度がａ％からｂ％の間に分布し、ｂ％より大きい
ものは漢字であると仮定することができる。この分布を
利用するため、文章を光学的に読み取った際に、−文字
ごとに領域中の白に対する黒値の絶対量を測定する。こ
こで、平仮名１汁仮名の下限密度をａ％、上限密度をｂ
％として、密度がａ％からｂ％の範囲にある文字をか平
仮名１汁仮名候補として抽出する。

次に、この中から平仮名候補を抽出する。片仮名に比べ
た平仮名の特徴としては、密度がやや高い（ｂ’％以上
）。円状”ざ”を含め、曲線要素が多いという点があげ
られる。そこで、文字をなす線分について方向ベクトル
を求め、−文字あたりの直線に対する曲線の比及び曲線
の複雑度を算出する。その−方法として、第６図に示し
たように、文字をなす線分上に点をサンプリングし、線
分上の隣接する点間の方向ベクトルを調べる。垂直成分
及び水平成分から成る線分を除くその他の線分について
、連続するベクトル間の方向のずれを求め、これを加算
して直線的に連続するベクトルとの比を求める。これを
以後曲線度と呼ぶ。

基本的なフォントについてこの曲線度の分布をとると、
第７図の様なグラフが得られる。曲線度と密度との相関
より、第７図に示された領域Ａに分布するものは平板名
、領域Ｂに分布するものは片仮名と仮定される。文字の
読取りを行った結果、密度がｂ％以下の文字のうち、Ａ
領域部ち曲線度がＣ以上のものは、まず平板名とみなす
。また、Ｂ領域のみ即ち曲線度Ｃ以下の文字は片仮名と
みなす。実際には、Ａ、Ｂ領域には漢字も含まれており
、またＡ領域に片仮名、Ｂ領域に平板名が存在しうるが
、この段階では問題としない。

以上、概略的に字種分類を行い、次にそれぞれの字種に
ついて、文字の判定を行う。判定の対象とする候補文字
は、同一字種の他に上記分類で用いた領域中に分布しつ
る地学種文字も含む。また、判定に際しては、上記で用
いた密度、曲線度も利用する。この様にして、読み取っ
た各文字について、比較結果の認識候補文字（文字コー
ド）とその字種情報（例えば、平板名・・・０１、片仮
名・・・０２、漢字・・・０３等）を出力する。認識候
補文字が複数ある場合は、各々について情報を出力する
。

次に、判定された認識候補文字について、字種情報を利
用しながら、前後の文字列との関係を見て、比較結果の
検証を行う。検証を行う前後の文字列は以下の様に定め
る。最初の比較結果によって得られた文字列について字
種の変わり目に着目し、グループの先頭または字種の変
わり目から、次の字種の変わり目までの同一字種から成
る文字列を、１−５ＴＩＲＮＧとする。１つの５ＴＲＩ
ＮＧとそれに続＜５ＴＲＩＮＧの字種の組み合わせに応
じて、処理の選択を行う。この方法を図示したのが第８
図である。

グループを字種によって区分し、平板名、片仮名、漢字
から成る５ＴＲＩＮＧにそれぞれ０１゜０２．０３の番
号をふる。このフラッグを、以下ＳＴＲで示す。５ＴＲ
＝０３、即ち漢字から成る５ＴＲＩＮＧについては、用
意された漢字単語、熟語辞書を用いて、文字列を有意単
位に分割する（第８図の０．０．の）。分割方法が２通
り以上ある場合は、基本的に一番長い有意単位を持つ分
割方法を選択し、その他は次候補として保持する。また
、５ＴＲ＝０１、即ち平板名から成る５ＴＲＩＮＧにつ
いても分割を行う。この際、辞書情報として、自立語以
外の文法的情報（助詞、助動詞、活用語尾など）や接続
規則を利用し、活用語については、５ＴＲＩ　ＮＧ中の
接続関係より活用形まで解析する（第８図のＯ，＠、＠
）。活用形や文法単位が２通り以上の解釈可能性がある
場合は、やはり最も長い分割単位を持つ分割法を第１候
補とし、その他を次候補として保持する。片仮名から成
る５ＴＲＩＮＧ　（ＳＴＲ＝０２）については、辞書照
合は行うが一致する辞書がなければ比較結果の第１位の
認識候補文字を優先する（第８図のＯ２０【Φ）。

続いて、連続する５ＴＲＩＮＧ間の接続関係を調べる。

第８図中、■はグループ先頭のＳＴＲＩＮＧで始点を表
す。

グループ先頭５ＴＲＩＮＧが漢字でこれに続く５ＴＲＩ
ＮＧが平板名の場合は、平板名５ＴＲＩＮＧの先頭の分
割単位が自立型か否かと、活用型か否かとを調べ、非自
立活用型の場合は、先行する漢字５ＴＲＩＮＧの最終端
の有意分割単位に注目し、用意された当該分割単位の接
続情報より５ＴＲＩＮＧ間の接続の適合性を照合する。

接続が適切でない場合は、それぞれについて順次次候補
の照合を行う（第８図の■）。

グループ先頭５ＴＲＩＮＧが漢字で続＜５ＴＲＩＮＧが
片仮名の場合は、接続照合は行わない（第８図の■）。

片仮名５ＴＲＩＮＧに漢字５ＴＲＩＮＧ場合も、照合は
行わない（第８図の■）。

平板名５ＴＲＩＮＧに漢字５ＴＲＩＮＧが続く場合は、
先行する平板名５ＴＲＩＮＧの最終端の分割単位に注目
し、これが活用語もしくはその語尾であるときは、接続
の漢字５ＴＲＩＮＧが体言に相当するか用言に相当する
か調べ、その結果に応じて照合を行う（第８図の■）。

漢字５ＴＲＩＮＧが体言か用言かの決定は、さらに接続
する５ＴＲＩＮＧが活用語か否かに依存する（第８図の
■）。これだけで決められない場合は、接続照合は行わ
ず比較結果の第１位の認識候補文字を優先する。

平板名５ＴＲＩＮＧに片仮名５ＴＲＩＮＧが続く場合も
同様に、平板名５ＴＲＩＮＧの最終端の分割単位の活用
形（活用型の場合）と、続く片仮名５ＴＲＩＮＧの体言
／用言属性との照合を行う（第８図の■）。

片仮名５ＴＲＩＮＧに平板名５ＴＲＩＮＧが続く場合は
、後続の平板名５ＴＲＩＮＧの先頭分割単位がす変動側
活用形、または形容動詞活用語尾の要素でありうるなら
ば、先行の片仮名ＳＴＲＩＮＧが辞書に存在することを
条件に、その接続情報を基に照合を行う（第８図の■）
。それ以外は比較結果の第１位の認識候補文字を優先す
る。

第８図には、グループの先頭５ＴＲＩＮＧから順に後続
５ＴＲＩＮＧを検証する方法を示したが、逆方向即ち読
点ないし句点を始点として文の終わりから５ＴＲＩＮＧ
を追うことも同様の方法ででき、処理していく方向は限
定しない。

いずれの場合においても、第一候補による平板名５ＴＲ
ＩＮＧの解析及び５ＴＲＩＮＧ間接続の解析が成功しな
い場合、即ち分割単位が辞書に適合しないあるいは接続
規則に反する場合は、次以下候補を含めて適合する分割
単位を検索する。繰り下げられた今認識候補文字の字種
が第一候補文字と異なるときは、字ｌ５ＴＲＩＮＧがず
れるため、改めて５ＴＲＩＮＧ解析を行う。具体的には
、変化した認識候補文字の字種が、その文字の直前の５
ＴＲＩＮＧの字種と同じ場合は、その直前の５ＴＲＩＮ
Ｇの先頭に戻って、字種変化文字を含めた同一字種文字
列を１−３ＴＲＩＮＧとして解析を行う。変化した認識
候補文字の字種が直前の５ＴＲＩＮＧと異なる場合は、
その字種変化した文字を５ＴＲＩＮＧの先頭として、以
下の同一字種文字列を１−５ＴＲＩＮＧとして解析を行
う。

ところで文字認識の対象とする文書中で、片仮名文字が
単独で１文字出現することはまれであリ、また片仮名５
ＴＲＩＮＧにはさまれて平仮名文字が単独で出現するこ
とも、助詞や活用語尾などが限定された語を除いてまれ
である。そこで、これらの文字の次候補以下に、第１位
の認識候補文字とパターン類似度が大きく変わらない範
囲内で前後の文字列と同じ字種の文字が存在すれば、そ
の文字を選択する。第１位の認識候補文字以下の認識候
補文字については、１文字につき１０位程度までメモリ
に保持してデイスプレィ上で参照できる。同時に、それ
ぞれの文字についての標準パターンに対する類似度も保
持し、類似度と辞書項目及び文法適合性の相関より文字
判定を行う。

例えば、辞書に一致する漢字文字列が第１位の認識候補
文字ではなく、第２位以下に存在する場合、読み取った
文字バタンとこの認識候補文字の類似度との比を算出し
、いずれも−定値以下の場合は、この認識候補文字が正
当である確率は低いとみなし、第−位の認識候補文字を
出力する。

尚、文法解析のために必要な情報、例えば漢字熟語及び
片仮名、平仮名単語については、品詞。

接続しうる活用語（す変化動詞、形容動詞など）、漢字
−字については、接続しつる送り仮名及び活用変化形等
を、予め辞書に登録しておく。

また、異字種ながら字形が同一、もしくは類似している
文字、例えば、へ（平板名）とへ（片仮名）、力（片仮
名）と力（漢字）等については、字種番号の低いものを
優先して（例、へ−平板名、カー片仮名）、文字列の適
合性を検証し、適切でない場合は、異字梯形を次の候補
として引き続き処理を行う。

次に、第４図のステップＳ４４に示した候補文字が正当
であるか否か推定する相関演算の一方・法について第９
図を用いて説明する。

まず、ステップＳ９０でＩ＝１として第１位の認識候補
文字を設定し、比較結果を有効とする類似度の限界値ｒ
と、類似度がこれよりも大きければ認識結果として出力
するのに十分と考えられる値θと、−定値Ｐとを設定す
る。ステップＳ９１で類似度Ａ（１）とｒの値を比較し
、類似度Ａ（１）がｒ以下であれば、ステップ５１００
からステップ５１０１に行って、認識不能とし文字は出
力せずにリジェクトマーク（例えば■印）を出力する。

類似度Ａ（１）がｒよりも大きければ、次のステップＳ
９２に進む。ステップＳ９２で類似度Ａ（１）とθを比
較する。次に、大小それぞれの結果について、更にステ
ップＳ９３とステップＳ９４で類似度Ａ（１）と類似度
Ａ（２）の比を調べ、Ａ（１）≧θ且つＡ　（２）／Ａ　（１）≦Ｐならば、
Ｃ’Ｔ（１）が正当である確率が高いものとして、ステ
ップＳ９５でＣＨ（１）と共にＦｌａｇ＝＝Ｑを出力す
る。

Ａ（１）＜θ且つＡ　（２）　／Ａ　（１）　＞ｐなら
ば、ＣＨ（１）が正当である確率が高くないものとして
、ステップＳ９７でＣＨ（１）と共にＦ　１　ａｇ＝２
を出力する。

Ａ（１）≧θ且つＡ　（２）　／Ａ　（１）　＞ｐ、あ
るいはＡ（１）＜θ且つＡ　（２）／Ａ　（１）≦Ｐの
場合は、２位以下の候補が正答である等の可能性がある
としてＦ１ａｇ＝１を出力する。

尚、本例では、ＦｌａｇをＯ〜２の３つにしたため、前
記のような分岐としたが、Ｆｌａｇを０〜３の４つにし
て、各条件に別のＦｌａｇを振り分けてもよい。又、さ
らに多くの条件を基に細かい判別をすると、正答の確率
がより高くなる。

更に、内蔵辞書による単語照合や、接続・活用などの文
法的妥当性検証等、前後の文字列を参照して認識結果を
検証する方法を採用した場合、処理の結果、第１位の認
識候補文字と第２位以下の認識候補文字が入れ替わるこ
とがある。この場合は、第９図のステップＳ９８でＩを
順にインクリメントし、Ａ（Ｉ）とｒ及びθ値、またＡ
（Ｉ＋１）／Ａ（Ｉ）とＰ値を比較して、同様に結果を
Ｆｌａｇ番号で出力する。又、ステップＳ９９で認識候
補文字の終了と判断したか（本例では１０番目まで）、
又はステップ５１００でＡ（Ｉ）≦ｒで、かつＩ≠１の
場合には相関演算のステップＳ４４を終了する。

ｒ、θ、ｐの値をさらに細かく段階化することによりＦ
ｌａｇを多値出力し、これと文字列参照結果の妥当性と
の相関により文字判定を行い、正当の確率を推定するこ
ともできる。例えば、検証する文字を含むある漢字ある
いは片仮名の文字列が文書に存在しなくても、その文字
における類似度Ａ（Ｉ）がθよりも十分大きく、またＡ
（Ｉ＋１）／Ａ（Ｉ）の値がｐよりも十分小さければ、
この文字を正当とみなして出力する。

ｒ、θ、ｐは標準的な原稿の認識結果に基づいて予め一
定値に設定するが、例えば、認識結果として出力された
文字別に与えられたＦｌａｇ番号（第９図のステップＳ
９５〜９７のＦ１ａｇ＝０〜２）のそれぞれの比を一定
にすることにより、原稿に応じて、自動的にｒ、θ、ｐ
値を変化させることができる。また、原稿の印字状態、
活字種類、処理時間等の条件に従って、利用者がキーボ
ードまたはスキャナ上の操作面よりｒ。

θ、ｐ値を設定することもできる。（但し、Ｏａｒ＜θ
、０くｐ≦１）この様に認識処理を行った結果、それぞれの文字につい
て、第１位の認識候補文字と判定された文字のコード番
号と、Ｆｌａｇ番号（リジェクトならばリジェクトコー
ド）、及び第２位から第１位（本例ではｎ＝１０）まで
の認識候補文字のコード番号がＲＡＭ７の一時内部記憶
部に出力される。

処理プログラムは、ＲＡＭ７の一時内部記憶部より第１
位の認識候補文字列の各コードを受は取り、文字に変換
して出力形式に従ってデイスプレィ２に表示する。同時
に、各文字のＦｌａｇを参照し、Ｆｌａｇ番号に従って
表示する文字の色や字体を変えたり、識別マーク（網か
け、アンダーライン等）を施したりする。−例として、
Ｆｌａｇ＝ｏの場合は黒、Ｆ１ａｇ＝１の場合は青。

Ｆ　１　ａｇ＝２の場合は赤色を各文字のカラーとして
指定することにより、認識された文字が正しい確率が一
番低い文字グループは赤１次に低いグループの文字は青
、それ以外の文字は黒で表示される。こうすることによ
り、まず赤く表示された文字、次に青色文字に注意して
確認作業を行えばよく、誤認識を発見しやすい。また、
必ずしも３通りに区別することはなく、例えばＦ１ａｇ
＝１を赤又は黒に設定することにより、被疑文字の表示
が一色に統一される。全文字中の被疑文字比は、前述の
通り、θ、ｐの値を変えることにより調整できる。

本装置は、デイスプレィ２上に認識結果を表示しながら
、その結果をデイスプレィ２上と同形式で、且つ判定さ
れた文字が正しい確率に従った識別マークを付けて、ハ
ードコピー上に印字する機能を持つ。プリンタ４には、
印字の高速性（１分間で８枚以上）、印字品質の高さの
点で電子写真式のレーザプリンタを用いる。このプリン
タ４は、本文字認識装置をワードプロセッサとして用い
た場合には、作成済文書を印字するプリンタと兼用する
ことができる。認識結果のデータは、ＲＡＭＴ内の一時
内部記憶部にストアされたデイスプレィ表示と同一のも
のを使う。Ｆｌａｇ番号に応じた識別マークの選択は、
プリンタ４の機能及び利用者の便宜に依存する。例とし
て、赤黒の２色印字によって区別する場合と、黒一色で
印字し、マークによって２通りの区別を行う場合につい
て説明をする。

第１０図（ａ）、（ｂ）に、このプリンタの内部構造を
示す。第１０図（ａ）は、２色のトナー容器を内蔵し、
２色（例えば赤と黒）の印字が可能なレーザープリンタ
、第１０図（ｂ）は単色印字用のレーザプリンタである
。図中、１１はカセット給紙部、１２は手差し給紙部、
１３は分離・搬送部、１４は定着・排紙部、１５は感光
ドラム、１６は単色用トナーケース（黒など）、１７は
カラートナーケース（赤などの）である。

このプリンタは、コントロール部にＭＣ６８０００をＣ
ＰＵとして内蔵しており、これがデータの受信、文字パ
ターンの生成、印刷、紙送りなどを制御する。ホストコ
ンピュータからの指示により、ページフォーマット、文
字１行ピッチ、印字の制御ができ、さらに−文字毎に、
アンダーライン、アミ掛け、白黒反転等の文字属性指定
が行える。

第１１図に、このプリンタで用いられるアミ掛け、白黒
反転のための文字属性指定命令コードを示す。例として
「プリンタ制御」という文字列の認識結果を印字する場
合、プリンタに送られるデータフォーマットを第１２図
に示す。各文字についてコードナンバーとともに、認識
結果に確からしさを示すＦｌａｇ番号がプリンタ９に渡
される。

各文字のＦｌａｇ番号に従って、赤黒２色で印字する場
合の処理の流れを第１３図（ａ）に示す。まず、ステッ
プ５１３１でトナーカラーを初期化しく黒、Ｊ＝Ｏ）、
カウンタ１１＝０とする。ステップ５１３２で一文字分
のデータをＲＡＭ７より受は取り、ステップ５１３３で
各文字のフラグを調べる。ここではＦ１ａｇ＝Ｏ１ある
いはＦ１ａｇ＝１の場合は、ステップ５１３５でそのま
まコードを出力し、この場合は、ステップ５１３４でコ
ード番号をスペースに該当するもの（例３９０２）に入
れ替えてステップ５１３５で出力する。ステップ５１３
６でカウンタ１１を１つカウントアツプして、順に１文
字ずつデータを受は取り、ステップ５１３７で１ペ一ジ
分の処理が終了した時点でコードをフォントに変換し、
ステップ３１３８で黒色で印字を行う。印字用紙は、第
６図（ａ）の感光ドラム１５で黒色トナーを転写した後
、分離・搬送部１３を経て、−度定着部１４で定着を行
い、下部搬送部１３ａを経て再び給紙部に戻る。

次に、ステップ５１３９でトナーカラーが赤色に切り換
えられ（Ｊ＝１）、■１＝０とする。ステップ５１４０
で再びＲＡＭ７より同一の文字データを一文字分ずつ受
は取る。今度は、Ｆ１ａｇ＝２の場合は、ステップ５１
４３で、そのままコード番号を出力し、Ｆ　ｌ　ａｇ＝
ｏ又はＦ１ａｇ＝１の場合はステップ５１４２でコード
をスペースに入れ替えてステップ５１４３で出力する。

ステップ５１４４でカウンタエ１を＋１して、順に一文
字ずつデータを受は取り、ステップ５１４５で１ペ一ジ
分終了すると、ステップ５１４６でコードをフォントに
変換し、赤色で印字を行う。赤字トナーを転写された紙
は、搬送部１３を経て、定着器１４を通り廃紙され、認
識精度確率に応じて赤黒２色に刷り分けられた認識結果
が出力される。

次に単色印字で認識精度確率に応じて識別を行う場合の
処理の流れを第１５図に示す。ステップ５１５１で初期
化（１２＝Ｏ）の後、ステップ５１５２でＲＡＭ７より
一文字分ずつデータが読み込まれ、ステップ５１５３で
各文字のＦｌａｇを調べる。Ｆ　１　ａｇ＝ｏの場合は
、ステップ５１５４でコードのみを出力し、マークｆｉ
　３１は行わない。Ｆ　１　ａｇ＝１の場合は、ステッ
プ５１５５でコードを出力するとともにＭＡＲＫＩ処理
を行う。Ｆ１ａｇ＝２の場合は、ステップ５１５６でコ
ードを出力するとともにＭＡＲＫ２処理を行う。ここで
マーク処理とは、第１１図の文字属性指定命令に従って
、文字単位に修飾制御を行うことを指す。ＭＡＲＫ１ｍ
理でアミ掛け、ＭＡＲＫ２処理で白黒反転を行う場合、
文字コードの前後にＭＡＲＫＩ処理ではアミ掛は開始命
令（ＣＩ３５ｍ）、アミ掛は終了命令（ＳＣＩ２５ｍ）
を出力し、ＭＡＲＫ２処理は白黒反転開始命令（ＣＳＩ
７ｍ）、白黒反転終了命令（ＣＳＩ２７ｍ）を出力する
。マーク処理なしの場合は、文字属性命令は出力しない
。ステップ５１５７でカウンタＩ２を＋１して、ステッ
プ５１５８で１ペ一ジ分の終了を判断し、文字データの
受取りが終了すると、ステップ５１５９ではフォントに
変換され、マーク処理がある場合は、アミ掛け、または
白黒反転を施して、紙に転写・印字される。

この結果、文字の認識精度の確率に応じて白黒反転、ア
ミ掛け、無印の３通りの識別を施した出力がハードコピ
ーの形で得られる。文字出力例を第１４図に示す。左か
ら４番目と６番目がＦｌａｇ＝２の文字、２番目がＦ１
ａｇ＝１の文字、その他がＦ１ａｇ＝Ｏの文字である。

認識結果の修正作業は、直接デイスプレィ２に表示され
た認識結果を見ながら、または、プリンタ４より出力さ
れたハードコピー上の認識結果を参照したのち、デイス
プレィ２上で対話式に、もしくは原稿上の文字を修正し
て再入力することによって行われる。原稿の水平方向の
文字数（縦書きならば縦方向）が−定数以内ならば、デ
イスプレィ２上の文字の配置は原稿と同一であり、プリ
ンタ４から出力されたハードコピー上にも同一のフォー
マットで印字が行われる。従って、認識結果のハードコ
ピーと原稿とを比べながら、誤認識文字を用意に発見す
ることができる。

修正作業が終了した後、【識結果として得られた文字の
コードデータを利用してアプリケーションに応じた処理
が行われる。

本実施例の文字認識装置を、ホストコンピュータへのデ
ータ入力装置として用いる場合は、第３図のステップ５
３５ｃのように、修正終了後命令によりＦｌａｇを除く
コードデータから成るデータファイルが形成さｎ１ホス
トに渡される。

ワードプロセッサとして用いる場合は、ステップ５３５
ｂのように、終了・印刷コマンドを送ることにより、マ
ーク処理がクリアされ、識別マークが除かれた状態のハ
ードコピーを得ることができる。また、ステップ５３５
ａのように、デイスプレィ２上で識別マークをクリアし
、削除、挿入。

組み替え等の編集を行った後、ハードコピーを出力する
こともできる。

尚、平板名、片仮名、漢字以外の文字種についても同じ
方法で対応可能である。

又、あらかじめ特徴データを登録しておけば、たいがい
の活字、及びドツト文字を認識することができる。また
、−文字の領域を（サイズとピッチより）切り出す処理
を付加すれば、文字の大きさは制限されない。

以上説明したように、まず、平仮名文字の特徴から平板
名を判別し、次に片仮名を判別することにより、字種に
応じて精度の高い認識ができ、平板名の誤認識も向上す
る。

また、字種毎の性質に応じて異なる文字列照合を行うた
め、処理の高速化、単語辞書１文法ルールの簡略化が図
れる。

漢字の場合は、専門用語、固有名詞、複合語の処理、片
仮名では、専門語、固有名詞を含む新語、異形（ヂーゼ
ルとディーゼルなど）への対応等が単語辞書作りの障害
となっているが、本発明では字種列により独立した処理
をとっており、辞書と文法処理によって認識精度を高め
ると同時に、辞書にない単語・熟語についても、比較的
正確に認識をすることが可能である。

［発明の効果］本発明により、出力された認識結果を利用して簡便に確
認作業を行える文字認識装置を提供できる。

【図面の簡単な説明】

第１図は本実施例の文字認識装置の外観図、第２図は本
実施例の文字認識装置のブロック図、第３図は本実施例の文字認識装置の処理手順フローチャ
ート、第４図は本実施例の文字認識装置の文字認識及び被疑文
字表示処理のフローチャート、第５図は文字密度の分布
図、第６図は曲線度の算出説明図、第７図は文字密度と曲線度の分布図、第８図は字種の前後関係による処理の説明図、第９図は
相関演算のフローチャート、第１０図（ａ）、（ｂ）はプリンタの内部構造図、第１１図はプリンタの文字属性指定命令コード側口、第１２図はプリンタに送られるデータフォーマット図、第１３図は赤黒２色刷りの印字処理フローチャート、第１４図は１色刷りの印字例図、第１５図は１色刷りの印字処理フローチャートである。図中、１・・・スキャナ、２・・・デイスプレィ、３・
・・キーボード、４・・・プリンタ、５・・・ＣＰＵ、
６・・・ＲＯＭ、７・・・ＲＡＭ、８・・・データバス
である。特許出願人　　　キャノン株式会社代理人　弁理士　　　　大　塚　康　撫・′パ、′二：直−−− 第　１　図第２召第４図第５図第６図烹瓜（−）第７Ｅ第８図！３０第１○図　（０）第１０図　（ｂ）

Claims

【特許請求の範囲】

（１）読み取つた文字パターンと予め記憶された文字パ
ターンとを比較して文字を認識する文字認識装置におい
て、読み取つた文字パターンと予め記憶された文字パタ
ーンとの類似度あるいは相違度を表わす値と、１つ又は
複数の所定のしきい値との大小を、識別可能に出力する
出力手段を備えることを特徴とする文字認識装置。
（２）出力手段は印字装置であつて、１つ又は複数の所
定のしきい値との大小に対応して、色分けして印字する
ことを特徴とする特許請求の範囲第１項記載の文字認識
装置。
（３）出力手段は印字装置であつて、１つ又は複数の所
定のしきい値との大小に対応して、所定の形式で印字す
ることを特徴とする特許請求の範囲第１項記載の文字認
識装置。