JPH0424781A

JPH0424781A - 文書処理装置

Info

Publication number: JPH0424781A
Application number: JP2125935A
Authority: JP
Inventors: Tetsuomi Tanaka; 哲臣田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1990-05-15
Filing date: 1990-05-15
Publication date: 1992-01-28
Also published as: DE69130655T2; DE69130655D1; US5784501A; EP0457545A2; EP0457545B1; EP0457545A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、文字の認識を行うことができる文書処理装置
に関する。

〔従来の技術〕

従来、文字の認識に関して以下に示す種々の欠点が考え
られる。

■従来、文字認識装置においては、文字切出し、文字特
徴抽出、識別処理の各段階をへて文字画像から文字コー
ドへの変換処理が行われるが、文字切出しから文字特徴
抽出へ送られる文字画像フォーマットは一定であるのが
普通である。ここで特徴抽出とは文字画像の正規化を行
い、正規化された画像をブロック分割して、各ブロック
単位に方向指数や背けい密度等の文字の特徴量を特徴ベ
クトルとして出力するものである。

■従来臼ヌキ文字を認識処理しようとした場合認識処理
する文字画像を反転処理してから通常の認識処理を行っ
ていた。

■文字の方向には「あ」、「碇」、「年」、「（」等、
種々の方向が考えられるが従来は例えば、「あ」の様に
、決まった方向の文字しか認識しなかった。または特徴
ベクトル並べかえによって対応していた。

■文字方向の分からない文字列を認識する場合に、４方
向で識別し、文字方向を決めて以下文字方向がわかった
後も、特徴ベクトルの並べかえをしなければならなかっ
た。

■従来、イタリック体処理は、不可能か、別の手段を用
いていた。

■従来傾いた文字を認識するためには、スキャナで画像
を入力しなおすか、画像自体を回転処理していた。

■従来認識する画像は１文字車位に分割されて特徴抽出
以下の処理を行っていた。

〔発明が解決しようとしている課題〕

■しかしながら、上記従来例では文字画像フォーマット
が固定であるため、文字認識手段を必要とする種々のシ
ステムを考えた場合にそれぞれのシステムに都合の良い
画像フォーマットに対応しようとした時に文字画像フォ
ーマット自体を特徴抽出部が前提とするフォーマットに
変換するか特徴抽出以下体を変更しなければならない。

前者の場合余分な処理時間がかかり後者の場合は変更毎
に多大な労力を要し経済的ではない。

■しかし、上記従来例では、文字画像反転処理の時間が
余分に必要であった。

■しかし、上記従来例では第１Ｏ図に示すようなＡ４文
書をＡ４スキャナで読もうとしたときに認識処理出来る
文字方向が決まっているため、２回に分けてスキャナで
読まなければならなかった。また可能であっても処理時
間がかかったりした（特徴ベクトル並べかえ）。

具体的に第１１図で説明する。特徴ベクトルとは、（ａ
）のように文字画像をいくつかのブロックに分割し、そ
のブロックごとの方向指数や白、黒画素の密度等のヒス
トグラムをとることによって得られる。

例では、（Ｃ）にしめず１〜４の方向指数を特徴量とす
るものとする（ａ）を９０’　回転させたものを（ｂ）
として、（ａ）と（ｂ）を同じように特徴抽出するもの
とする。Ｃａ）における方向指数１は（ｂ）においては
方向指数３として抽出される。また、（ａ）のブロック
２の特徴は（ｂ）においてブロック９′にあたる。した
がって（ｂ）の特徴ベクトルの方向指数１と３．２と４
を変換しブロック１′　の特徴をブロック４の特徴とす
るというような操作をすることによって（ａ）と（ｂ）
の特徴ベクトルは同一になる。画素密度などの特徴量も
このような並べかえて可能であり、別の特徴量を特徴ベ
クトルとする場合も変換方法が存在すると考えられる。

■しかしながら従来例では文字方向がわかった後でも特
徴ベクトルを並べかえて文字方向の変換をしなければな
らないので不合理かつ処理時間もかかった。

■しかしながら上記従来例ではイタリック体用に別の手
段がいるという欠点があった。

■しかしながら、上記従来例ではスキャナを読みなおす
場合はユーザの負担があり、画像回転の場合はその回転
時間と文字画像の変形による認識率の低下という欠点が
あった。

■しかしながら上記従来例では「い」を１文字か２文字
かを判定するために「い」、「（」、「）」の３つの画
像が同一画像から生成され不合理である上に本来工つの
画像を３つの画像で管理しなければならないため管理が
大変で文字画像生成のための処理時間がかかるという欠
点があった。

■Ａ４文書４０のｄｐｉ１ルミ１ページを上記７て実現
した場合にはテーブルメモリのバス幅は２４ｂｉｔ必要
（２Ｍ　Ｂ　ｙ　ｔ　ｅ　）であり、バス幅とメモリサ
イズが大きくなる。１６ｂｉｔのバス幅にして２回のア
クセスで読み出す場合は処理時間がますという欠点があ
った。

〔課題を解決するための手段（及び作用）〕本発明によ
れば、以下の作用を有するものである。

■本発明によれば、ＡＳＢの２つの正規化アドレステー
ブルメモリと、各文字画像のフォーマットに応じて正規
化アドレスを演算するマイクロプロセッサと正規化画像
の各画素に対応する文字画像上のビットアドレスを求め
、前記各画素の情報を該ビットアドレスにある文字画像
上の画素の情報から求めることにより前記ＡＳＢの正規
化アドレステーブルを参照し文字画像正規化以降の特徴
抽出を行う特徴抽出部と、文字画像を格納する文字画像
メモリと、これらの制御手段を設けることにより、特徴
抽出部や文字画像フォーマットの変更を必要としない多
種類の画像フォーマットに対応した文字認識装置を実現
できる。

■本発明によれば、文字画像部分が２値の１．０のどち
らかにあたるか記憶する手段と、その記憶された情報に
より、文字格納メモリから特徴抽出部への画像データを
反転、非反転して出力する手段を設けることにより白ぬ
き文字等の処理が出来ることを特徴とした文字認識装置
。

■本発明によればＡ、８２つの正規化アドレステーブル
メモリと各文字方向によって異なる正規化アドレス演算
する計算機と前記Ａ、Ｂのテーブルメモリを参照して文
字画像正規化以下の文字特徴抽出部と文字画像を格納す
る文字格納メモリとこれらを制御する制御部を設けるこ
とにより、文字方向が変わっても処理時間が変わらない
ので認識処理が可能な文字認識装置。

■本発明によれば上の３と得られた特徴ベクトルを並べ
替えて４文字方向の特徴ベクトルを作成する能力をもつ
、識別部をもつことにより、高速な、文字方向自動識別
手段をもつ文字認識装置。

■本発明によればｌにおいてイタリック体の文字の傾斜
度を補正した正規化アドレスを演算する計算機をもつこ
とによりイタリック体の識別の可能な文字認識装置。

■本発明によればｌにおいて文字の傾き度を補正した正
規化アドレスを演算する計算機をもつことにより、傾い
た文字の認識に強い文字認識装置。

■本発明によれば１において認識対象の文字域全体を格
納可能な文字格納メモリと、ｌからの特徴ベクトルによ
り識別処理をする識別部とこれらを管理する管理部によ
り半角、分離文字等に強い文字認識装置。

■本発明によればｌにおいてアドレス演算にシフト加算
手段をもつことにより容易に文字格納メモリを大きく出
来る文字認識装置。テーブルメモリのサイズは１よりも
小さい。

■本発明によればｌにおいて文字方向によってアドレス
演算が変わるシフト加算手段をもつことにより容易に文
字格納メモリを大きく出来、文字方向によって処理時間
の変わらない文字認識装置。テーブルメモリのサイズは
ｌよりも小さい。

〔実施例〕

以下、図面を参照し、本発明の実施例について、詳細に
説明する。尚、本発明は１つの機器において実現しても
良く、複数の機器から成るシステムにおいて、実現して
も良いことは言うまでもない。又、パソコン等にソフト
を供給することによって実現する様にしても良い。

第１図（ａ）は認識処理の流れを示す図である。

図から明らかな様に、文字特徴抽出部は正規化、画像の
ブロック分割、特徴ベクトル抽出から成っている。後述
する正規化以降の特徴抽出処理とは画像のブロック分割
、特徴ベクトル抽出処理である、尚、特徴ベクトル抽出
処理には、ブロック単位の方向指数や画素密度の抽出や
、そのブロックに刻するフィルタ処理による次元縮小、
例えば７×７のブロックを４×４のブロックに圧縮する
処理など力・ふくまれる。

又、本発明で言う特徴抽出処理とは与えられた文字画像
をある大きさに正規化した画像を作成するしないにかか
わらず、該正規化画像の黒、白画素情報を正規化アドレ
ステーブルより求まる文字画像上のビットアドレス（正
規化ビットアドレス）の画素情報より求め、文字の特徴
量を抽出して特徴ベクトルとして出力するものである。

特徴量は文字の方向量、白黒画素の密度量など任意のも
のである。また、原文字画像、濃淡情報（多値画像）を
もっていても問題はない。そして文字の特徴量を求める
ために原文字画像を正規化する全てのアルゴリズムに使
用出来る。

以下、前記計算機が作成したテーブルを正規化アドレス
テーブルと呼びＡとＢのテーブルの内容を加算して得ら
れた内容を正規化ビットアドレスと呼ぶ。正規化ビット
アドレスは前記文字メモリ内の１点を表わし、正規化画
像上の１点のデータとなる。

■〔２つの正規化テーブル〕第１図（ｂ）は本発明の特徴を最もよ（表わす図面であ
り、第１図（ａ）における文字特徴抽出部の詳細説明図
である。同図において１は前段の文字切出し部よりの入
力部であり文字メモリ上の認識処理に必要な文字位置な
どの文字切出し情報及び文字画像が送られる。２はプロ
クラムメモリ、データメモリを有した計算機、３は文字
画像を格納する文字画像メモリ、４は正規化アドレスを
格納するＡ、Ｂ２つのテーブルメモリ、５はテーブルメ
モリ４を参照し、文字メモリ３内部の文字画像を正規化
以下の特徴抽出処理を行う特徴抽出部、６は前記メモリ
に対する外部アクセスの切換え、及び特徴抽出部等の全
体の制御を行う制御部、７−１〜３は制御部６より信号
を受は各メモリのアクセスを制御するバッファであり、
８は特徴抽出部６より特徴ベクトルを次段の識別部へ送
る出力部である。

まず、第２図（ａ）の文字画像を同図（ｂ）にあるよう
にＮＸＮのサイズに正規化することを考えてみる。ここ
で文字メモリ内のワード単位をＩＢｙｔｅとして１Ｂｙ
ｔｅ内のビット順はＭＳＢ　＋ＬＳＢとしてヒツト７が
Ｏでビット０が７として順位づけされるものとする。よ
ってＯ番地ビット７はビットアドレス０となり、１番地
ビット７はビットアドレス８番地となる。

ここで正規化画像（ｂ）上の点（ｘ、　　ｙ）が与えら
れた場合の元の文字画像（ａ）上の点を計算してみると
、の点となる。第２図（ａ）から明らかな様に、横方向は
ＷＢｙｔｅ（Ｗ・２３ｂｉｔ）長であるから元の文字画
像（ａ）上のビットアドレスを求めるとＢｉｔ　　Ａｄ
ｄｒｅｓｓ　　（ｘ、　　）’）となる。（全て整数、
演算でよい）これは正規化画像を作成するためのデータ
を格納した文字メモリ（３）内のビットアドレスである
ので、以下、正規化ヒツトアドレスと呼ぶ。

よって正規化画像上の点に対応する文字画像の点のアド
レスは（１）項と（２）項の加算で表わされることとな
る。ここてＡ、８２つのテーブルメモリを用意してここ
に正規化ヒツトアドレス演算用に前述の（１）、（２）
項をそれぞれＡとＢに格納し、特徴抽出部はテーブルＡ
、Ｂの内容の加算値によって正規化ビットアドレスを計
算し、それに対応する文字画像上の点を正規化画像上の
点に対応するデータとして正規化処理以降の特徴抽出処
理を行う構成にすれば、Ａ、　Ｂの内容の変更だけて多
種類の文字フォーマット例えば第３図（ａ）、（ｂ）、
（ｃ）参照）に対応出来ることとなる。

さて実際の動作であるが、第３図の（ａ）〜（Ｃ）のフ
ォーマットで説明する（ａ）は、文字画像を出来るだけ
小さくしたもの、（ｂ）は文字の外接矩形の２点で表わ
したもの、（ｃ）は、文字メモリ内に文字切りされた画
像が多数台まれるものである。入力部１より計算機２に
は切り出された文字が第３図の（ａ）〜（Ｃ）のどの場
合であるかを示すフォーマット情報と、文字切りによる
文字位置情報が、文字メモリ３には実際の文字画像が入
力される。計算機２は、まず、フォーマット情報に基づ
いて、文字フォーマットの種類が、（ａ）〜（Ｃ）のど
れにあたるか判定し、それぞれの第３図Ａ　（ｘ）、Ｂ
　（ｙ）を演算してテーブルメモリ４　（Ａ、Ｂ）に格
納する。

演算が終了したことを制御部６へ知らせる。制御部６は
、文字メモリ２とテーブルメモリ４のアクセス権をバッ
ファ７を制御して特徴抽出部５に渡し、特徴抽出部５を
起動する。特徴抽出部５は、テーブルメモリ４のＡ、Ｂ
を参照し、加算により正規化ビットアドレスを演算し該
当する文字メモリ３のビットデータを読みこんで正規化
処理以下の特徴抽出処理を行なう。処理が終了したとこ
ろで特徴抽出部５は制御部６に知らせ、出力部８に得ら
れた特徴ベクトルを出力する。制御部６は終了後メモリ
アクセス権を元にもどし、計算機２に次の処理が出来る
ことを知らせる。

■〔白抜き文字の処理〕第１図は、本発明を最もよ（表す図であり、６は計算機
２より文字画像が２値の３０どちらかを記憶する手段を
有した制御部であり、７−１は、制御部６からの信号を
受は特徴抽出部５の文字メモリ３へのアクセス権を調整
し、かつメモリ３から特徴抽出部５へのデータを反転ま
たは非反転の処理をするものである。

以下、第３図（ａ）と（（１）で説明する。（ｄ）は（
ａ）を反転した文字（白ヌキ文字）であり大きさなどは
変わらない。（ａ）で文字本体が２値の”ビにあたると
すると（ｄ）では“ＯＮでありこのまま特徴抽出すると
、文字ｒＡＪの全く反対の特徴が出力されてしまう。こ
こで特徴抽出部５が処理をはじめる前にその情報を、制
御部６に記憶させ、制御部６は７−１を制御し文字メモ
リ２から特徴抽出部５へのデータは全て反転させるよう
にする。これによって文字本体の“０”は全て“１”に
変換され（ａ）と（ｄ）は全く同じ特徴が抽出される。

これにより白ヌキ文字等の認識が可能となる。

尚、白ヌキ文字の検出であるが、ユーザが白ヌキ文字の
まわりの白画素がふ（まないように領域指定する。文字
切出部は領域内の縦または横方向の射影をとる。第３図
（ｅ）で説明すると文書画像上の座標（ａ、　　ｂ）　
−（ｃ、　　ｄ）が指定されたとして、上記の射影をと
ると、指定されたａ−ｃ間と、ｂ−ｄ間の全域にわたっ
て射影が検出される。ここで（ａ、　ｂ）と（ｃ、　ｄ
）の座標の画素をｌかＯを判定する。通常、黒画素が１
として、両方がＯてあったならば白ヌキ文字と判断して
白ヌキ文字に対応した文字切出しをする。これによって
、文字の切出しが成功した場合その文字位置情報と白ヌ
キ文字であるという情報を前記実施例に送る。座標を調
べるのは、文書が傾いて、全域に射影がとられた場合と
区別するためである。

または、最初に指定領域の４点の座標の０．１判別をし
てもよい。

■〔２つの正規化テーブル十文字の方向性加味〕第１図
は本発明を最もよく表わす図である。説明は■と同じで
ある。

まず第４図の（ａ）〜（ｄ）で説明する。（ａ）が通常
の文字方向であり、文字画像は矢印の方向にアクセスさ
れ左上から右下へ正規化処理がされるものとする。（ｂ
）〜（ｄ）は（ａ）を９０°づつ回転させたものである
が、文字画像が（ａ）と同じように正規化されると「あ
」という文字とは全く異なる特徴が抽出されてしまう。

そこで文字画像のアクセスを文字の左上から右下へ行な
われるようにすれば、（ｂ）〜（ｄ）の正規化画像は（
ａ）と同じくなり、（ａ）と全く同じ特徴ベクトルが抽
出されることになる。すなわち、（ｂ）においては画像
の左下から右上、（Ｃ）では右下から左上、（ｄ）では
右上から左下というようにアクセスがなされるようＡ、
８２つのテーブルメモリを書換えてやればよいことにな
る。左側の式が正規化演算式であるが、（ａ）、（ｂ）
を比べると、（ａ）のＡ　（ｘ）とＢ（ｙ）を交換した
形でＢ　（ｙ）の演算式の結果を（ｂ）のＡ　（ｘ）に
逆に並べた形であり、（ａ）と（Ｃ）では（ａ）のＡ　
（ｘ）、Ｂ　（ｙ）をそのまま逆にテーブルメモリ内に
格納する形である。すなわち、テーブル作成のための演
算量がかわらず格納のしかたがかわるだけなのである。

従って入力部１より文字位置情報のほかに、文字方向の
情報を受けとり文字方向によってテーブル４の作成方法
を変えるだけで、特徴抽出部５に影響を与えず全ての方
向の文字の認識処理が行える。

尚、文字方向と文書方向は、人が指定して、文字切出部
はその情報によって文字切出をして文字方向のデータと
共に文字画像、文字位置情報を上記実施例に送り説明し
たように文字方向に応じてＡＳＢのテーブルの内容を（
ａ）〜（ｄ）のように作成し、以下特徴抽出、識別処理
をして結果を出力する。

これにより縦、横混在、文書方向のセツティングミスに
よるスキャナ入力やりなおし等１枚の文書を複数回に分
けてスキャナ入力しないでよいといった点が解決される
。

■〔■十特徴ベクトル並べ換え技術〕第５図は本発明を最もよく表わす図である。ｌは文字入
力部であり、文字位置情報と、文字画像が入力される。

９は前述の■であり文字方向処理可能な特徴抽出装置で
ある。８は９の出力部であり、特徴ベクトルが出力され
る。ｌＯは識別部であり８より得られた特徴ベクトルよ
り距離計算により、最も近い文字フードを出力する。１
１はその文字コード出力部である。本発明では文字方向
の指定はこの識別部１０て行う。

ここで特徴ベクトルの性質であるが文字画像をＭ等分し
た各ブロック単位の方向量や背けい密度であり、並べか
えによって■における処理と同等の効果を得ることが出
来る。しかし並べかえの時間だけ遅くなる。

まず、文字方向の全くわからない文字列に対して、最初
の数文字は第４図（ａ）の方向で特徴抽出させる。次に
識別部１０において並へかえをして第４図（ｂ）〜（ｄ
）の特徴ベクトルを作成してそれぞれについて識別処理
をする。識別結果の平均値の最もよい方向を文字方向と
して９に送る。９は以下、指定された方向で特徴抽出を
行う。これにより、文字方向を自動的に判定し、かつ認
識処理速度の速い（並べかえがいらない）文字認識装置
が出来る。

実際には、文字方向の不明な文書画像に対して、文字切
出し部が画像の射影やヒストグラム処理によって、縦、
横方向の行の検出をして行方向を求める。求まった行を
あらかじめ決めておいた順序（右−左、上→下といった
順）で行に対して文字の切出しをして、上記認識装置に
送り、結果である候補文字列と判定された文字方向を認
識装置より受取る。文字切出し部で判定された行方向と
認識部の文字方向の情報により、候補文字列を並べかえ
て正しい文書とする。文字切出し部はあらかじめ行方向
とそれに対する文字方向によって正しい文書となる文字
列の順序をそうていしておく。並べかえは、文字切出し
を行ったところでやる。認識装置に行単位の各行の文字
数と行数、そうていされる行方向情報も送られる場合は
、第９図のような構成にして管理部Ｉ２が並べかえをす
る。

■、■〔■十文字の傾き度補正〕第１図は本発明を最もよく表わす図である。■と同じで
あるので詳細は省略する。

第６図で説明すると第６図■のようなイタリック体の文
字があった場合にその傾き具合を補正して正規化処理が
行えるようにＡ、Ｂのテーブルを作成すれば良いのであ
る。第６図に示す式のＢ　（ｙ）のｕ＋（Ｎ−ｙ＋１）
カーそれてあり、これｉ。

第２項のよって特徴抽出部５は一切の変更なしにイタリック体文
字を補正して特徴抽出が可能となり、その認識も可能と
なる。

尚、傾き具合をしめすω１は文字切出し部が検出する。

例えば文字列中に他の文字は正常な切出しが出来、横幅
の極端に広い文字があった場合にイタリック体の角度（
イタリック体の角度はほとんど決まっていて、大多数の
イタリック体がカバーできる）で射影をとり、ω！を近
似的に求める。これにより前記実施例にイタリック体で
あるという情報と傾き度ωＩを含めた文字位置情報を送
る。

またはユーザによるイタリック体モードの指定。

又、第７図（ａ）、（ｂ）２つの画像入力時に傾斜して
しまった文字画像があるがそれぞれ下式のＡ　（ｘ）、
Ｂ　（ｙ）のように傾き補正をした正規化データをＡ、
Ｂ２つのテーブルメモリ４に格納すれば特徴抽出部５に
は何の変更もなしに傾いた文字を補正した特徴抽出が出
来、よって傾斜文字に対する認識率が向上する。

尚、文字の傾き度ωＡ、ｈ＾と、傾き方向は文字切出し
部が検出する。まず行を通常の方法で切出しを行い外接
矩形を求める。次に文字外接矩形の下端部の中心点の最
小２乗法をとって傾き角θを求める（公知の例による）
。傾き角θが求まったのでその角度で射影をとり傾き度
のＡ％　ｈＡといった傾き度を求める。

■〔文字格納部を広げる〕第９図は本発明を最もよく表わす図である。ｌは入力部
であり、前段の文字切り出し部より文字画像は第１図の
文字メモリ２へ各文字情報（例えば第８図の（１）、（
３）、（４）、（５）の位置）は管理部１２へ入力され
る。１０は第１図より特徴ベクトルを入力され識別距離
計算を行い候補文字と距離値を出力する識別部、１２は
第１図と候補文字の管理を行う管理部、１１は認識結果
を出力する出力部。

まず第１図においてＡＳＢ２つのテーブルメモリの加算
によって特徴抽出を行うことを前に述べたが、あつかえ
る最大の画像サイズは加算結果のビット数による。たと
えばＡ　（ｘ）、Ｂ　（ｙ）力月６ｂｉｔデータの場合
は最大８ＫＢｙｔｅ、２４ｂｉｔの場合は２Ｍ　Ｂ　ｙ
　ｔ　ｅの画像をあつかえることになる。第１図には任
意の画像フォーマット（第３図（ａ）、（ｂ）、（Ｃ）
）が入力出来るので、第８図のような識別処理する全体
の画像てもよいのである。（場合によっては文書１ペ一
ジ分の画像）最初に入力部１より第１図文字メモリには、認識処理す
る全体の文字画像が送られ、管理部には文字位置情報が
送られる。第８図で説明すると（１）、（３）、（４）
、（５）の位置情報と（３）、（４）は工文字なのか２
文字なのか分からないという情報が送られる。管理部に
はこの情報を元にして（１）、（２）、（３）、（４）
、（５）の文字位置情報として第１図に送る。第１図は
（１）、（２）、（３）、（４）、（５）の順に特徴抽
出をして特徴ベクトルを識別部１ｏへ送る。この間文字
メモリの内容は変化しない。（文字特徴抽出ごとに送ら
なくて良い）。識別部は（１）〜（５）の順に候補文字
と距離値を管理部１２へ送る。管理部には（２）〜（４
）の文字について（２）の第一候補が「いＪのような分
離文字であったら（１）、（２）、（３）の文字を出力
部１１へ出力する。

（３）、（４）の第一候補が半角文字ならば（１）、（
３）、（４）、（５）を出力部１１へ出力する。どちら
でもない場合は距離値を比較して近い方を出力する。

尚、本発明では管理部には文字の位置関係を把握してい
るので「−」がアンダーラインなのがマイナス記号なの
かという判定も位置関係から判定出来る。

■〔シフト加算手段〕第１図は本発明を最もよく表わす図である。■でも述べ
た様に扱える画像サイズはＡ　（ｘ）、Ｂ　（ｙ）のビ
ット数に制限される。

第３図（ａ）　〜（ｄ）においてＢ　（ｙ）には２２が
乗算されている。そこてＢ　（ｙ）　’　＝Ｂ　（ｙ）
　／２２をテーブルメモリＢに格納し特徴抽出部てＡ　
（ｘ）＋　（Ｂ　（ｙ）　（３）の加算をすれば２２２
８倍の画像メモリを扱えることになる。（１ワードの単
位が２Ｂｙｔｅであれば２°２１６倍） ■〔■十■〕第１図は本発明を最もよ（表わす図である。

第４図（ａ）、（ｃ）においてＢ　（ｙ）　’　＝Ｂ　
（ｙ）／２２をテーブルメモリＢに格納し、（ｂ）、（
ｄ）においてＡ　（ｘ）　’　＝Ａ　（ｘ）　／２２を
テーブルメモリＡに格納する。制御部６は計算機２がら
文字方向を記憶し、特徴抽出部５に伝える。特徴抽出部
５は（ａ）、（ｃ）の場合は、Ａ　（ｘ）　＋　（Ｂ　
（ｙ）　＜ｓ）の加算をし、（ｂ）、（ｄ）の場合は（
Ａ　（ｘ）　（３）　十Ｂ　（ｙ）の加算をする。効果
は８と同様にテーブルメモリの節約が出きて、かつ４文
字方向の特徴抽出が可能となる。

〔他の実施例〕

第１図において計算機２、特徴抽出部５、制御部６が１
つの計算機である場合、計算機２は文字フォーマットに
応じてテーブルメモリＡ、Ｂの内容を作成し、次に特徴
抽出プログラムによって、前記Ａ、Ｂを参照しながら正
規化以下の特徴抽出処理をする。

これは計算機２がＡ、Ｂのテーブルを参照しながら特徴
抽出することて、文字方向、傾きなどに無関係に同一プ
ログラムによって多種類の処理が可能である。・・・（
計算機が高速化された場合と処理時間が問題にならない
場合）〔実施例３〕第５図、第９図において第１図計算機２が管理作業をす
る。

〔実施例４〕第１図において文字格納メモリに文字位置情報と文字画
像が格納され計算機２は文字メモリ３から文字位置情報
を読みこんで処理する。

（文字メモリ内はいかなるフォーマットでも良いので資
源の有効利用が出来る）クレーム１〜７の全ての組合わせ処理が可能例・・・傾
いた分離文字（クレーム６＋７）尚第１２図は装置全体
の構成ブロック図てあり、ｌＯＯはホストであり画像入
力、領域指定、文字の切出し、文書編集といった処理を
する。２００はスキャナであり文書画像をホストｌへ送
る。３００は認識装置であり、ホスト１００より送られ
た文字画像フォーマットに応じて、特徴抽出をして（第
１図）、得られた特徴ベクトルを用いて識別処理をする
ことにより文字画像より候補文字の文字コードをホスト
１００へ送る。

〔発明の効果〕

以上、詳述した様に本発明によって以下に示す効果が得
られる。

■以上説明したようにＡ、８２つの正規化テーブルメモ
リと文字フォーマットに応じて前記テーブルの内容を作
成する計算機を設けることにより■特徴抽出部の変更な
しに多種類の文字画像フォーマットに対応出来る。

■プロセッサが演算する正規化アドレスはＮ２個ではな
く２Ｎ個であるため比較的処理負担が小さい。

■特徴抽出部が正規化ビットアドレスを演算するのはた
だの加算のみなので簡略化される。

■以上説明したように文字画像メモリのデータを反転、
非反転して、特徴抽出部へ出力する手段を設けたことに
より、 ■白ヌキ文字の認識が可能となる ■文字画像自体を反転させないため処理時間はかわらな
い。

■以上説明したようにＡ、Ｂ２つの正規化テーブルメモ
リと文字方向によって正規化ビットアドレス演算を変更
する計算機を設けたことにより通常と処理時間がかわら
ず、特徴抽出部の変更のいらないでいかなる文字方向で
も認識処理が出来る。

０以上説明したように３と特徴ベクトル並べかえの機能
を有する識別部を有することにより、文字方向の判別、
認識処理が自動的かつ高速にすることが出来る。

■以上説明したようにＡＸＢ２つの正規化アトＬ／ステ
ーブルメモリと文字の傾き度を補正して正規化アドレス
を演算する計算機を設けたことにより、イタリック体の
認識が通常とかわらず出来る。

０以上説明したようにＡ、８２つの正規化テーブルメモ
リと文字の傾き度を補正して正規化アドレスを演算する
計算機を設けたことにより傾いた文字の認識率が向上す
る。

■以上説明したように文字格納メモリを大きくして、管
理部を設けることにより、文字の半角、全角判定および
位置判定が一括して処理出来る。

０以上説明したように、特徴抽出部にシフト加算手段を
設けることにより、テーブルメモリサイズが小さくかつ
接続する文字画像メモリの大きい文字認識装置が実現出
来る。

０以上説明したように、文字方向を記憶する手段と、そ
の記憶に応じた特徴抽出器正規化アドレスシフト加算手
段を設けることによりテープルメモリサイズが小さく、
接続する文字画像メモリが大きく、かつ任意の文字方向
の文字に対し処理時間の変わらずに認識処理する文字認
識装置が実現出来る。

【図面の簡単な説明】

第１図（ａ）は認識処理のアルゴリズムを示す図、第１
図（ｂ）は本発明の実施例の構成図、第２図は文字正規
化の説明図、第３図（ａ）〜（ｃ）は文字フォーマット例、′：４３
１１９（ｄ）（ｅ）は白ヌキ文字例を示す図、第４図は
■の文字方向処理の説明図、第５図は■の実施例の説明図、第６図は■のイタリック体文字処理の説明図、第７図は
■の傾き文字処理の説明図、第８図は■の処理説明図、第９図は■の実施例の説明図、第１０図は■の従来説明図、第１１図は特徴ベクトル並べかえの説明図、第１２図は
装置全体の構成ブロック図。 ■・・・文字切り情報入力部２・・・計算機３・・・テーブルメモリＡ１４・・・文字格納メモリ５・・・特徴抽出部６・・・制御部８−・・特徴ベク１０・・・識別部１１・・・文字コード出力部１２・・・管理部トル出力部（α）第１図（ｂ）坪り呆 ′ｉ＃３図 −−’１１　）８（ω“【）Ａ（１）−七α に）丈寄ｆ）’１９す・・、Ｔ本４１Ａｊａ釈わ耳第Ｗ■ （ｂ）＼Ｎ

Claims

【特許請求の範囲】

（１）２つのテーブルメモリと、各文字画像の種類に応
じた処理を行って、前記テーブルメモリの内容を生成す
る生成手段と認識処理を行う対象の画像を格納する文字
画像メモリと、前記テーブルメモリ内のデータの加算を
して、その加算結果に対応する前記文字画像メモリ内の
ビットデータによって文字画像の正規化以降の文字特徴
抽出処理をする特徴抽出手段とを有することを特徴とし
た文書処理装置。
（２）前記文書処理装置において、文字画像部分が２値
の０、１のどちらにあたるか記憶する手段と、その記憶
された情報により文字格納メモリから特徴抽出部への画
像データを反転、非反転して出力する手段を有すること
を特徴とした請求項第１項記載の文書処理装置。
（３）更に文字方向情報により方向補正をした正規化ア
ドレステーブルを生成する手段を持つことを特徴とした
請求項第１項記載の文書処理装置。
（４）更に文字特徴ベクトルを並べかえて４方向特徴ベ
クトルを生成する手段を有したことを特徴とした請求項
第３項記載の文書処理装置。
（５）文字の傾き度を補正した正規化アドレステーブル
を生成する手段とを有したことを特徴とする請求項第１
項記載の文書処理装置。
（６）前記特徴抽出手段によって、得られた特徴ベクト
ルと学習データを比較して候補文字を出力する識別処理
をする識別部と、これらを管理する管理部をもつことを
特徴とした請求項第１項記載の文書処理装置。
（７）前記２つのテーブルのデータをシフト操作してそ
のシフト操作されたデータを加算して正規化ビットアド
レスを演算するシフト加算手段を有したことを特徴とす
る請求項第１項記載の文書処理装置。
（８）文字方向を記憶する手段とそれに応じた特徴抽出
手段の正規化ビットアドレス演算用シフト加算手段をも
つことを特徴とした請求項第１項記載の文書処理装置。