JPS63155390A

JPS63155390A - 光学文字読取装置

Info

Publication number: JPS63155390A
Application number: JP61302899A
Authority: JP
Inventors: Masao Hashimoto; 政雄橋本; Kenji Yasujima; 安島　顕司
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-12-19
Filing date: 1986-12-19
Publication date: 1988-06-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】皮嵐欠見この発明は、一般にｒｏＣＲＪと略称される光学文字読
取装置に関する。

盗ＩＬ匪紙に文字を含む画情報が印刷あるいは手書きされた原稿
をイメージスキャナでスキャンして、原稿の画情報をイ
メージデータとして取り込み、そのイメージデータかち
文字を認識して文字コードデータに変換する光学文字読
取装置が種々開発されている。

この光学文字読取装置をワードプロセッサや自動翻訳装
置、あるいは帳票集計装置や検索用データファイル作成
装置などの文字を扱う処理システムや文字データを伝送
するデータ通信などの通信システムへの文字情報の入力
手段として使用すれば、キーボード入力に比べて入力効
率を大幅に向上させることが可能である。

・この光学文字読取置には、読取可能な各文字のイメー
ジデータが基準画情報としてあらかじめ登録された文字
認識用辞書が設けられており、文字認識手段がその辞書
を参照し、入力された文字のイメージデータを辞書のイ
メージデータと比較してパターンマツチングをとること
によって、これを特定の文字として認識してそれに対応
する文字コードデータを発生する。

一般に使用される活字等の文字種のデザイン、すなわち
書体（活字の場合「フォント」という）には多くの種類
がある。そのため４通常用いられる複数の文字種につい
て、その各書体の文字のセットごとに文字認識用辞書を
備えたものもある。

しかし５このような各種書体用の複数の文字認識用辞書
を備えた光学文字読取装置によって原稿の文書を読み取
る場合、従来は予めその原稿に使用されている文字の書
体（フォント）名を装置に指定してやらなければならな
かった。

そのため、操作者がそのフォント名を知らなければそれ
を指定できなので、装置側で文字認識用辞書を選択する
ことができず読取不能となり、また、同−原稿内に異な
る書体の文字が混在している場合にも読み取れないとい
う問題があった。

目　　　的この発明は、このような従来の光学文字読取装置におけ
る問題点を解決し、Ｈ稿の書体（フォント）名を指定し
なくても、それを装置側で自動的に判別して文字認識用
辞書を選択して読み取れるようにすることを目的とする
。

構成この発明は上記の目的を達成するため、上述のような光
学文字読取装置において、第１図に示すように、イメー
ジデータから文字を認識するための異なる書体用の複数
の辞書Ｄ　Ｉ　＋　Ｄ　２・・・Ｄｎと、原稿をスキャ
ンするスキャナＡから取り込んだイメージデータに含ま
れる文字の書体を上記複数の辞書を用いて判別する書体
判別手段と、該手段によって判別した書体用の辞書を用
いて上記イメージデータから文字を認識して文字コード
を判定する文字コード判定手段とを設けたものである。

以下、この発明の一実施例に基づいて具体的に説明する
。

第２図は、この発明による光学文字読取装置の機能を備
えたワードプロセッサ、オフィスコンピュータ、自動翻
訳装置、帳票処理装置等に使用できる文書処理システム
の一例を示す外観斜視図である。

この文書処理システムは、入力装置として、英数字キー
、カナキーなどの文字キー及びカーソル移動キーや各種
ファンクションキー等を有し、操作者の指示を入力する
キーボード１と、原稿を光電的にスキャンして文字を含
む画情報をイメージデータとして入力するイメージスキ
ャナ２とを備えている。

また、出力装置として、操作者に対するガイダンスを含
む各種文字及び画情報を表示するための表示装置である
ＣＲＴディスプレイ装置（以下単にｒＣＲＴＪ　という
）３と、このシステムで処理した各種情報をプリントア
ウトするためのレーザプリンタ等のプリンタ４とを備え
ている。

そして１本体５にはデータ記憶装置であるフロッピディ
スク装［（ＦＤＤ）６とハードディスク装置（ＨＤｏ）
７とを備えており、さらに第３図に示すように、このシ
ステム全体の動作を統括制御するマイクロコンピュータ
等からなる制御部（ＣＰＵ）１０と、プログラムメモリ
であるＲＯＭ１１．データメモリであるＲ　ＡＭ（２５
６Ｋｂｉｊ以上）１２．キーボードインタフェース１３
．スキャナインタフェース１４．ＣＲＴコントローラ１
５、ＦＤＤコントローラ１Ｇ、ＨＤＤコントローラ１７
．及びプリンタコントローラ１８等が設けられている。

このシステムにより、イメージスキャナ２が読み取った
原稿画像のイメージデータをスキャナコントローラ１４
を介して本体５に取り込み、それを直接あるいは一旦Ｆ
ＤＤ６又はＨＤ　Ｄ　７のイメージデータファイルに格
納して、ＣＲＴ３に表示したり、そのデータを用いてこ
の発明による書体判別及び文字コード判定等の処理を行
なう。

各種書体ごとに各文字のイメージデータが基準画情報と
して登録されている文字認識用の複数の辞書は、通常Ｈ
ＤＤ７に格納されている。

なお１手書きのくせ字（フォーマット化されていない書
体）についても、後述するようにして辞書を作成するこ
とができ、それを登録して活字用の辞書と同様に使用す
ることが可能である。

次に、この実施例の作用を第４図のフローチャート及び
その他の図によって説明する。

イメージスキャナ２から原稿のイメージデータを直接数
°り込んで文字を認識する場合には、まずステップ１で
原稿に書か九でいる文字の濃度を判定し、ステップ２で
モの判定結果に応じてイメージスキャナ２の原稿照明用
蛍光灯の明るさを設定する。

文字濃度判定は、オペレータによる濃度指定によって判
定するか、あるいはイメージスキャナにより原稿を部分
的にスキャンしてその検出レベルから自動的に判定する
こともできる。

蛍光灯の明るさの設定は、原稿の文字が濃く書かれてい
たら暗めに点灯するように設定し、薄く書かれていたら
明るめに点灯するように設定する。

それによって、文字の潰れや欠けを防ぐ。

そして、ステップ３でイメージスキャナ２により原稿の
全面を予め設定された読取密度でスキャンして、そのイ
メージデータを本体Ｓへ取り込んでメモリ（ＲＡＭ１２
）へ書き込む。

一方、ＨＤ０７等のイメージデータファイルに格納しで
あるイメージデータがら文字認識を行なう場合には、そ
のイメージデータファイルがらのデータを読み込んでメ
モリ（ＲＡＭ１２）へ書き込むにの場合は、予めイメージスキャナ２によって読み取った
イメージデータをイメージデータファイルに格納してお
く必要がある。

その時、イメージデータファイルには、第５図に示すよ
うにヘッダ部を設け、読取密度と、読み込んだ文書の縦
と横の長さの情報をイメージデータに入れておく。

文字認識するに当り１行切り出しと文字切り出しを行な
う時にこの縦と横の長さが必要になり。

文字コード判定時に読取密度の情報が必要になる。

次に、ステップ３又はステップ４からステップ５へ進ん
で自動行切り出しを行ない、続いてステップ６で文字切
り出しを行なう。

ところで、イメージスキャナ２は原稿を横方向に走査し
てイメージデータを取ってくるので、イメージデータフ
ァイルあるいはＲＡＭ１２のイメージデータ格納領域に
は、第６図に示すようにイメージデータが順にバイト単
位で入っている。

そこで１行切り出しと文字切り出しを行なう場合に、縦
と横の長さの情報がないと１文字部分のイメージの切り
出しができない。

また、読取密度が高くなると、−文字分の高さと幅が大
きくなるので、当然マツチングのデータも変わる。

第６図（Ａ）と（Ｂ）は、同じ文字を読取密度２００ｄ
ｐｉと３００ｄｐｉで読み込んだ時のイメージデータの
状態を示す。

また１行切り出しを行なう際には、水平斜影をとって１
行間のスペースからスペースまでを行として切り出すが
、イメージスキャナに原稿が若干斜めにセットされたり
すると、読み込んだイメージデータが第７図に示すよう
になり、全体で水平斜影をとっても行と行の間のスペー
スがなくなってしまう場合がある。

そこで、このような場合には第７図に細線で囲んで示す
ように、水平斜影により行と行の間にスペースができる
ようなブロックに行を分割して、行切り出しを行なう。

次に、この実施例では手書き文字も読み取れるようにす
るため、第４図のステップ７で文字タイプの判別を行な
っている。

この判定は１手書き文字の場合には認１！率を高めるた
めに１例えば第８図に示すように文書を複数のフィール
ドに区切って、その各フィールドの長さの情報とその各
フィールド内にある文字の種類（アルファベット、数字
、記号、ひらがな、漢字など）の指定情報を与えておく
。

したがって、これらの情報が有るが否かによって、手書
文字か活字文字かを判別することができる。

そして、活字文字の場合には、ステップ８八進んで文字
フォント判別（活字書体判別）を行なって文字認識に使
用する文字フォント辞書を決定し、ステップ１２でその
辞書を用いて文字コード判定の処理を行なうが、その詳
細は後述する。

手書文字の場合には、ステップ９へ進んでスムージング
処理を行なって凸凹を修正し、ステップ１０で正規化に
より文字の大きさを修正する。

この場合、例えば大文字と小文字が同じ形状のアルファ
ベットの識別ができなくならない範囲で、文字の拡大あ
るいは縮小を行なって大きさを揃える。

そして、ステップ１１で手書き書体の判別を行なって１
文字Ｌ’Ｓ識に用いる手書き書体用の辞書を決定し、ス
テップ１２でその辞書を用いて文字コード判定の処理を
行なう。

次に、ステップ１３で文字認識終りか否かを判断して、
終りでなければステップ５へ戻って１次の行の切り出し
から文字コード判定までの処理を繰り返す。

そして、最終行までの文字認識を終了すればこの処理を
終る。

ここで、上述した文字フォント（活字書体）判別と文字
コード判定の処理について、第Ｓ図及び第１０図によっ
て詳細に説明する。

文字フォント判別処理は、複数の文字フォント辞書を用
いて第Ｓ図のフローチャートに示すようにして行なうが
、その際用意されている複数の文字フォント辞書に１例
えば次表に示すような可変の優先順位をつけておく。

そして、１行分の文字のイメージデータについて、一番
優先順位の高い辞書からマツチングを行ない、あるレベ
ル以上のマツチング結果が得られるまで１次々に優先順
位の低い辞書とのマツチングを行なう。

その時、ある辞書とのマツチングの結果が不合格の場合
には、その辞書の優先順位を一番蝕＜シて、それ以外の
辞書の優先順位を１つずつ繰り上げる。

−通りの複数の辞書とのマツチングの結果、あるレベル
以上のマツチング結果が得られれば、その時の辞書を選
び５それが得られない場合には一番高いマツチングが得
られた辞書を選ぶことによって文字フォントを判別する
。

通常、−文書は同一文字フォントで印刷されているので
、このように辞書に優先順位をつけることにより１次の
行からの文字′Ｌ！ｇ識（文字フォント判別及び文字コ
ード判定）の高速化を計ることができる。

この文字フォント判別処理を第Ｓ図によって説明すると
、最初は第１優先順位の辞書（前記表ではＡ辞書）を読
み込み、まず１行の第１文字を読み込んでパターンマツ
チング（あるいは特徴マツチング）を行ない、マツチン
グがとれて認識可能（○Ｋ）であればレジスタの値Ｘ（
最初は「０」ンからある一定値αを減じ、マツチングが
とれなければレジスタの値Ｘにある一定値β（α〈β）
を加える。

そして１行末か否かを判断して、行末でなければ次の文
字を読み込にで同様の処理を行なう。

二九を１行の最後の文字まで行なうと、その時のＸの値
を記憶し、次にＸく０か否かの判断を行なって、ＹＥＳ
であればその時使用した辞？（Ａ辞書）に決定する。

Ｘ〈０でなければ、未使用の辞書が有るか否かを判断し
て、有れば辞書の優先順位を例えば前記表の第２判定時
のように変更して、新らたな第１優先順位の辞書（Ｂ辞
書）を読み込んで、１行の第１文字から行末の文字まで
順次マツチングをとって前述と同様な処理を行なった後
、Ｘ〈０の判断を行ない、ＹＥＳであればその時使用し
た辞書（Ｂ辞書）に決定する。

この時もＸ〈０でなければ、また未使用の辞書が有るか
否かを判断して、有れば再び辞書の優先順位を例えば前
記表の第３判定時のように変更し、新らたな第１優先順
位の辞？　＜ｃｎ書）を読み込んで同様な処理を行なう
。

そして、Ｘ＜Ｏになればその時使用した辞書（Ｃ辞書）
に決定するが、この時もＸく０にならず、未使用の辞書
がなくなった場合には、記憶している各辞書使用時のＸ
の値を比較して、それが最小の辞書に決定する。

次に１文字コード判定処理は、第１０図のフローチャー
トに従ってなされ、ま−ず文字フォント判別によって決
定した辞書を読み込むが、第９図の文字フォント判別処
理に続けてこの文字コード判定処理を行なう場合で、ｘ
く０になって辞書を決定した時にはその辞書が読み込ま
れているので、このステップを省略できる。

そして、１行の第１文字を読み込んで辞書とのパターン
マツチング（例えば２４次元マツチング）を行ない、マ
ツチングがとれて文字コード判定が可能（ＯＫ）であれ
ば文字コードを出力し、コード判定が不能（ＮＧ）であ
れば次に他の方法によるパターンマツチング（４Ｘ４Ｘ
８次元マツチング、３Ｘ３Ｘ８次元マツチング、多層方
向ヒストグラム法によるパターンマツチング等）を行な
って、文字コードの判定が可能になれば文字コードを出
力し、それでも文字コードの判定が不能であれば、読み
取り不能のコードを出力する。

このような処理を１行の最後の文字まで順次行なって１
行分のコード判定処理を行なう。

このようにして１行づつ文字フォント判別と文字コード
判定を続けて行なって、全文書を読み取る。その読み取
った文字データを表示あるいは印刷する場合には、読み
取り不能のコードがある部分には読み取り不能の文字が
あることを示すマークを表示又は印字する。

このように、原稿に使用されている活字のフォントを指
定しなくても、複数の文字フォント辞書を用いて自動的
にそのフォントを判別して文字読取を行なう機能を以後
「マルチフォント」と称する。

手書き書体の判別及び文字コード判定処理も、この活字
の場合とほぼ同様にして行なうが、この場合には第８図
に示したフィールドの長さと文字種の情報も利用してパ
ターンマツチングを行なう。

なお、そこで使用する手書きのくせ字用辞書の作成方法
については後述する。

また、第４図における文字フォント判別と手書き書体の
判別を、まとめて書体判別処理として行なうことも可能
である。

〔辞書の作成及び保守について〕

次に、上述の光学文字読取装置に使用する辞書の作成及
び保守方法について説明する。

第２図及び第３図に示した光学文字読取装置の機能を有
する文書処理装置において、キーボード１からのキー人
力により「辞書の作成保守」が指令されると、まず第１
１１！Ｉのフローチャートに示すユーティリティ選択の
処理を開始し、処理の種類を示すメインメニューを表示
する。

そして、キー人力により処理の選択がなされると、それ
を判別して「単一辞書作成保守ユーティリティ」　［マ
ルチフォント辞書作成保守ユーティリティ」　「辞書フ
ァイル名一覧」　「手書き辞書作成保守ユーティリティ
Ｊ及び「終了Ｊのいずれかの処理を行なう。

〈単一辞書作成保守ユーティリティ〉文字認識に使用する活字用の単一辞書を作成するプログ
ラムであり、第１２図に示すように、各辞書ファイルへ
のファイル名の登録１文字の登録及び追加、削除、登録
文字リスト印刷の各機能があって、それぞれ辞書ファイ
ルとの読み書きを行なう。

″ファイル名登録′″は、第１３図に示すフローチャー
トに従って実行され、ファイルの領域取り及びファイル
名のディレクトリへの登録を行なう。

″″文字登録・追加゛′は１．第１４図に示すフローチ
ャートに従って実行され１文字作成機能の中心となるも
のである。

ここで、１行の文字数と読取濃度を入力し、作業許可が
なされて原稿をセットすると、スキャナが１行の文字を
読み取り、画像処理によりその各文字のパターンを重ね
るか平均化してＣＲＴに表示する。

そのパターンをオペレータが見て、それに対応する文字
をキャラクタキーによって入力すると、その文字コード
と表示中の文字パターンのデータとを対応付けて辞書フ
ァイルに書き込む。

なお、この文字登録に関しては後でより詳細に説明する
。

″文字削除″は、第１５図のフローチャートに従って実
行され、辞書ファイル内の登録文字を削除する処理であ
る。

″登録文字リスト印刷″は、第１６図のフローチャート
に従って実行され、辞書ファイルに登録しである文字を
ＣＲＴ！１あるいはプリンタ４（第２図、第３図）へ出
力して、表示あるいは印刷する処理である。

〈マルチフォント辞書作成保守ユーティリティ〉マルチ
フォント機能によって、前述したようにフォント指定が
なくても文字認識ができるように。

使用する辞書ファイル名を登録しておくファイルの作成
保守プログラムであるにのプログラムは第１７図に示すように、マルチフォント
・ファイル名登録、辞書ファイル名登録、辞書ファイル
名削除、辞書ファイル内登録文字印刷、辞書ファイル名
追加、辞書ファイル名人れ替えの各処理プログラムから
なる。

そして、各処理はそれぞれ第１８図乃至第２３図に示す
フローチャートに従って実行される。

この例では、マルチフォント・ファイルには６個の辞書
ファイル名を登録することができ、その登録された辞書
ファイル名には前述したように優先順位を付けである。

例えば、最初に辞書ファイル名を全て新しく登録する場
合には登ＤＭに優先順位をつけ、それを使用すると前述
のように優先順位が入九替わり、辞書ファイル名を追加
登録した時はその辞書の優先順位を最も低くシ、辞書フ
ァイル名を削除した時はその辞書より低い優先順位の辞
書ファイル名の優先順位を繰り上げて付は直す。

また、辞書ファイル名を入れ替えた時にも同様に優先順
位を付は直す。

〈辞書ファイル名一覧〉カレントディスク（今仕事中のディスク）内にある文字
認識用辞書のファイル名の一覧表を表示するプログラム
であり、第２４図に示すフローチャートに従って実行さ
れる。

この例では、一画面（１頁）に８個の辞書ファイル名を
表示することができるが、登録されている辞書ファイル
の総数が８個以上の場合には、Ｎ（ネクスト）キーを押
すことによって次の頁の辞書ファイル名を表示させるこ
とができ、Ｂ（バック）キーを押すことによって前の頁
の辞書ファイル名の表示に戻すことができる。そして、
Ｅ（エンド）キーを押すとこの処理を終了する。

〈手書き辞書作成保守ユーティリティ〉文字認識に使用
する手書き辞書を作るプログラムであり、第２５図に示
すように、辞書ファイルへのファイル名登録１文字の登
録及び追加２文字削除、登録文字リスト印刷の各機能が
ある。

この機能は第１２図に示した単一辞書作成保守ユーティ
リティの機能と同じであり、その各処理内容を示す第２
６図乃至第２９図のフローチャートも、単一辞書作成保
守ユーティリティにおける第１３図乃至第１Ｓ図の処理
と略同様である。

但し、第２８図に示す文字削除処理において。

「削除文字種類入力」を設けており、削除できる文字の
種類（活字のみ１手暑きのみ２両方の３種類）の指定が
できるようになっている。

次に、活字あるいは手書の辞書作成方法について、第３
０図以降によって具体的に説明する。

所望の文字（記号等も含ものとする）を辞書登録する際
には、１行にその同一文字を多数列記した原稿をイメー
ジスキャナによってスキャンさせてそのイメージデータ
を取り込み、その水平斜影を取る。

これは、第３１図に示すように、スキャン方向Ｓに直交
する水平方向（矢示Ｈ方向）から各文字を見て、その文
字の始まり（白い部分から文字の影である黒い部分にか
かる所）から文字の終り（文字の影である黒い部分から
白い部分に変化する所）を判断し、それによって文字の
高さを決定して行切り出しを行なうために取るのでであ
る。

そして、この水平斜影はある程度の高さを予め持ってお
り１例えば少しかすれた文字を読み取った時に、そのか
すれの部分で水平斜影がなくなっても文字の終りと誤認
するようなことを防止するようにしている。

したがって、この水平斜影が始めに持つ高さを高くして
おけば、１″や１′ｊ”あるいはｕ　：１１などの上下
に分離した部分からなる文字を１つの文字と判断するこ
とができる。

し力Ｚしながら、そのようにすると小さな文字を登録し
ようとした時、隣接する他の文字の一部まで１文字と判
断してしまう恐れがあるので、必要最少限の範囲でしか
高さを持つことはできない。

そこで、以下に説明する例では第３２図に示すように、
原稿の１行に登録しようとする文字（図示の例では１１
１″）を横方向に間隔を置いて例えば１０文字列記し、
その最後の文字から少し離れた位置にこの行の文字の高
さを示すマークＭ（この例では縦線）を付記しておく。

この原稿をイメージスキャナでスキャンさせてそのイメ
ージデータを取り込めば、マークＭが検出されてからそ
れが検出されなくなるまでを１つの文字の高さとして正
確に判断して１行切り出しを行なうことができるので、
゛＆パやｊ″のように上下に分離した２部分からなる文
字でも全体で１つの文字として１文字パターンデータを
正しく切す出すことができる。

そして、小さい文字の場合にも、その文字の高さに合わ
せたマークＭを付記することによって、その文字のパタ
ーンデータのみを正しく切り出すことができる。

また、このようにすることによって、手書き文字を登録
゛する場合にも、例えばｉ″の点を離して書きすぎるよ
うな、くせのある字でも制約なく登録することが可能に
なる。

なお、ごみや点状のノイズをマークと誤認しないように
、マークＭをある程度太くして横方向のスキャン時に数
ドツト分の黒レベルのデータが得られるようにしておく
のが望ましい。

この方法を用いて辞書登録を行なう際の処理を。

第３０図のフローチャートによって説明する。

第３２図に示したように、登録しようとする文字を１行
に１０文字列記（印刷でも手書きでもよい）して、その
最後の文字から少し離して文字の高さを示すマークＭを
付記した原稿をスキャナにセットして、第１４図あるい
は第２７図の「読み取り」を開始すると、この第３０図
の処理がスタートする。

まず、スキャナを始動させて原稿のスキャンを開始し゛
、横方向の１スキヤン中に予め定めたドツト数（マーク
Ｍを検出した時のドツト数より少ない）以上の黒レベル
が検出されない間は原稿の白い部分（スペース部分）を
スキャンしていると判断して何もせずにスキャンを続け
る。

そして、横方向の１スキヤン中に所定ドツト数以上の黒
レベルが検出されると、マークＭの黒い部分を検出した
と判断して１行のイメージデータの切り出しを開始し、
その黒い部分が検出されなくなるまで１行の切り出しを
続け、黒い部分が検出されなくなると１行の切り呂しを
終了する。

そして、切り出した１行分のイメージデータから文字切
り出しを行なって、その１行に含まれている各文字（こ
の例では同一文字が１０文字）の文字パターン（ドツト
パターン）データをそれぞれ切り出す。

手書き文字の場合には、ここで文字パターンの凸凹を修
正するスムージング処理と、大きさを統一するために文
字パターン全体を若干拡大又は縮小する正規化処理を行
なうのが望ましい。

次いで、その各文字パターンのそれぞれ対応するドツト
のデータ（１″か０″）のＯＲをとって重ね合わせる重
畳処理を行なう。その際各ドツト位置毎に黒レベルのデ
ータが予め設定した数似下の場合は白レベルとみなすよ
うにすれば、ノイズの影響を除去できると共に、手書き
文字の場合には書体のバラツキの影響を少なくして平均
化した文字パターンを得ることができる。

このようにして得た文字パターンを１例えば第３３図に
示すようにＣＲＴ３の画面に表示する。

この表示を作成者が確認して、この文字パターンに対応
する文字（この例では「ｌ」）をキーボード１のキャラ
クタキーによって入力すると、その文字を示す文字コー
ドを発生し、それを表示中の文字パターンのデータ台付
与してＨＤＤ７の文字認識用辞書ファイルに登録する。

このキーボードからの文字入力に代えて直接文字コード
を入力して登録することも可能である。

この辞書登録方法によれば、活字は勿論のことであるが
、手書きのくせ字であっても簡単に辞書登録することが
できる。

簸−釆以上説明してきたように、この発明による光学文字読取
装置は、原稿に記載されている文字の書体（フォント）
を指定しなくても、自動的にそれを判別して文字認識用
辞書を選択して読み取ることができるので、誰でも容易
に使用することができ、広範な文書データを短時間で文
書処理装置に入力することが可能になる。

【図面の簡単な説明】

第１図はこの発明による光学文字読取装置の基本構成を
示すブロック図、第２図はこの発明の一実施例である文書処理システムの
外観斜視図、第３図は同じくそのブロック構成図第４図は同じくそのこの発明に関する動作を示すフロー
図、第５図乃至第８図は第４図による動作説明に共する説明
図、第Ｓ図は第４図における文字フォント判別処理の詳細を
示すフロー図、第１０図は第４図における文字コード判定処理の詳細を
示すフロー図。＠１１図乃至第３０図は文字認識用辞書の作成保守に関
する各種の処理を説明するためのフロー図、第３１図乃至第３３＠は第３０図による辞書登録処理の
説明に共する説明図である。Ａ・・・スキャナ　　　Ｂ・・・書体判別手段Ｃ・・・
文字コード判定手段　　Ｄ、〜Ｄｎ・・・辞書１・・・
キーボード　　２・・・イメージスキャナ３・・・ＣＲ
Ｔディスプレイ装置！４・・・プリンタＳ・・・本体　
　　　　６・・・フロッピディスク装置７・・・ハード
゛ディスク装置１０・・・制御部（ＣＰ　Ｕ）笥１　図Ｄ＋　　　Ｄ２　−ｍ−−−−Ｄｎ第３図Ｍ５図ヘッダ部！９図第１０図第３０図第３１図第３２図第３３図

Claims

【特許請求の範囲】

１　スキャナによつて原稿をスキャンして文字を含む画
情報をイメージデータとして取り込み、そのイメージデ
ータから文字を認識して文字コードデータに変換する光
学文字読取装置において、取り込んだイメージデータか
ら文字を認識するための異なる書体用の複数の辞書と、
その複数の辞書を用いて前記イメージデータに含まれる
文字の書体を判別する書体判別手段と、該手段によつて
判別した書体用の辞書を用いて前記イメージデータから
文字を認識して文字コードを判定する文字コード判定手
段とを設けたことを特徴とする光学文字読取装置。