JPS63155390A - 光学文字読取装置 - Google Patents
光学文字読取装置Info
- Publication number
- JPS63155390A JPS63155390A JP61302899A JP30289986A JPS63155390A JP S63155390 A JPS63155390 A JP S63155390A JP 61302899 A JP61302899 A JP 61302899A JP 30289986 A JP30289986 A JP 30289986A JP S63155390 A JPS63155390 A JP S63155390A
- Authority
- JP
- Japan
- Prior art keywords
- character
- dictionary
- characters
- image data
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
皮嵐欠見
この発明は、一般にroCRJと略称される光学文字読
取装置に関する。
取装置に関する。
盗IL匪
紙に文字を含む画情報が印刷あるいは手書きされた原稿
をイメージスキャナでスキャンして、原稿の画情報をイ
メージデータとして取り込み、そのイメージデータかち
文字を認識して文字コードデータに変換する光学文字読
取装置が種々開発されている。
をイメージスキャナでスキャンして、原稿の画情報をイ
メージデータとして取り込み、そのイメージデータかち
文字を認識して文字コードデータに変換する光学文字読
取装置が種々開発されている。
この光学文字読取装置をワードプロセッサや自動翻訳装
置、あるいは帳票集計装置や検索用データファイル作成
装置などの文字を扱う処理システムや文字データを伝送
するデータ通信などの通信システムへの文字情報の入力
手段として使用すれば、キーボード入力に比べて入力効
率を大幅に向上させることが可能である。
置、あるいは帳票集計装置や検索用データファイル作成
装置などの文字を扱う処理システムや文字データを伝送
するデータ通信などの通信システムへの文字情報の入力
手段として使用すれば、キーボード入力に比べて入力効
率を大幅に向上させることが可能である。
・この光学文字読取置には、読取可能な各文字のイメー
ジデータが基準画情報としてあらかじめ登録された文字
認識用辞書が設けられており、文字認識手段がその辞書
を参照し、入力された文字のイメージデータを辞書のイ
メージデータと比較してパターンマツチングをとること
によって、これを特定の文字として認識してそれに対応
する文字コードデータを発生する。
ジデータが基準画情報としてあらかじめ登録された文字
認識用辞書が設けられており、文字認識手段がその辞書
を参照し、入力された文字のイメージデータを辞書のイ
メージデータと比較してパターンマツチングをとること
によって、これを特定の文字として認識してそれに対応
する文字コードデータを発生する。
一般に使用される活字等の文字種のデザイン、すなわち
書体(活字の場合「フォント」という)には多くの種類
がある。そのため4通常用いられる複数の文字種につい
て、その各書体の文字のセットごとに文字認識用辞書を
備えたものもある。
書体(活字の場合「フォント」という)には多くの種類
がある。そのため4通常用いられる複数の文字種につい
て、その各書体の文字のセットごとに文字認識用辞書を
備えたものもある。
しかし5このような各種書体用の複数の文字認識用辞書
を備えた光学文字読取装置によって原稿の文書を読み取
る場合、従来は予めその原稿に使用されている文字の書
体(フォント)名を装置に指定してやらなければならな
かった。
を備えた光学文字読取装置によって原稿の文書を読み取
る場合、従来は予めその原稿に使用されている文字の書
体(フォント)名を装置に指定してやらなければならな
かった。
そのため、操作者がそのフォント名を知らなければそれ
を指定できなので、装置側で文字認識用辞書を選択する
ことができず読取不能となり、また、同−原稿内に異な
る書体の文字が混在している場合にも読み取れないとい
う問題があった。
を指定できなので、装置側で文字認識用辞書を選択する
ことができず読取不能となり、また、同−原稿内に異な
る書体の文字が混在している場合にも読み取れないとい
う問題があった。
目 的
この発明は、このような従来の光学文字読取装置におけ
る問題点を解決し、H稿の書体(フォント)名を指定し
なくても、それを装置側で自動的に判別して文字認識用
辞書を選択して読み取れるようにすることを目的とする
。
る問題点を解決し、H稿の書体(フォント)名を指定し
なくても、それを装置側で自動的に判別して文字認識用
辞書を選択して読み取れるようにすることを目的とする
。
構成
この発明は上記の目的を達成するため、上述のような光
学文字読取装置において、第1図に示すように、イメー
ジデータから文字を認識するための異なる書体用の複数
の辞書D I + D 2・・・Dnと、原稿をスキャ
ンするスキャナAから取り込んだイメージデータに含ま
れる文字の書体を上記複数の辞書を用いて判別する書体
判別手段と、該手段によって判別した書体用の辞書を用
いて上記イメージデータから文字を認識して文字コード
を判定する文字コード判定手段とを設けたものである。
学文字読取装置において、第1図に示すように、イメー
ジデータから文字を認識するための異なる書体用の複数
の辞書D I + D 2・・・Dnと、原稿をスキャ
ンするスキャナAから取り込んだイメージデータに含ま
れる文字の書体を上記複数の辞書を用いて判別する書体
判別手段と、該手段によって判別した書体用の辞書を用
いて上記イメージデータから文字を認識して文字コード
を判定する文字コード判定手段とを設けたものである。
以下、この発明の一実施例に基づいて具体的に説明する
。
。
第2図は、この発明による光学文字読取装置の機能を備
えたワードプロセッサ、オフィスコンピュータ、自動翻
訳装置、帳票処理装置等に使用できる文書処理システム
の一例を示す外観斜視図である。
えたワードプロセッサ、オフィスコンピュータ、自動翻
訳装置、帳票処理装置等に使用できる文書処理システム
の一例を示す外観斜視図である。
この文書処理システムは、入力装置として、英数字キー
、カナキーなどの文字キー及びカーソル移動キーや各種
ファンクションキー等を有し、操作者の指示を入力する
キーボード1と、原稿を光電的にスキャンして文字を含
む画情報をイメージデータとして入力するイメージスキ
ャナ2とを備えている。
、カナキーなどの文字キー及びカーソル移動キーや各種
ファンクションキー等を有し、操作者の指示を入力する
キーボード1と、原稿を光電的にスキャンして文字を含
む画情報をイメージデータとして入力するイメージスキ
ャナ2とを備えている。
また、出力装置として、操作者に対するガイダンスを含
む各種文字及び画情報を表示するための表示装置である
CRTディスプレイ装置(以下単にrCRTJ という
)3と、このシステムで処理した各種情報をプリントア
ウトするためのレーザプリンタ等のプリンタ4とを備え
ている。
む各種文字及び画情報を表示するための表示装置である
CRTディスプレイ装置(以下単にrCRTJ という
)3と、このシステムで処理した各種情報をプリントア
ウトするためのレーザプリンタ等のプリンタ4とを備え
ている。
そして1本体5にはデータ記憶装置であるフロッピディ
スク装[(FDD)6とハードディスク装置(HDo)
7とを備えており、さらに第3図に示すように、このシ
ステム全体の動作を統括制御するマイクロコンピュータ
等からなる制御部(CPU)10と、プログラムメモリ
であるROM11.データメモリであるR AM(25
6Kbij以上)12.キーボードインタフェース13
.スキャナインタフェース14.CRTコントローラ1
5、FDDコントローラ1G、HDDコントローラ17
.及びプリンタコントローラ18等が設けられている。
スク装[(FDD)6とハードディスク装置(HDo)
7とを備えており、さらに第3図に示すように、このシ
ステム全体の動作を統括制御するマイクロコンピュータ
等からなる制御部(CPU)10と、プログラムメモリ
であるROM11.データメモリであるR AM(25
6Kbij以上)12.キーボードインタフェース13
.スキャナインタフェース14.CRTコントローラ1
5、FDDコントローラ1G、HDDコントローラ17
.及びプリンタコントローラ18等が設けられている。
このシステムにより、イメージスキャナ2が読み取った
原稿画像のイメージデータをスキャナコントローラ14
を介して本体5に取り込み、それを直接あるいは一旦F
DD6又はHD D 7のイメージデータファイルに格
納して、CRT3に表示したり、そのデータを用いてこ
の発明による書体判別及び文字コード判定等の処理を行
なう。
原稿画像のイメージデータをスキャナコントローラ14
を介して本体5に取り込み、それを直接あるいは一旦F
DD6又はHD D 7のイメージデータファイルに格
納して、CRT3に表示したり、そのデータを用いてこ
の発明による書体判別及び文字コード判定等の処理を行
なう。
各種書体ごとに各文字のイメージデータが基準画情報と
して登録されている文字認識用の複数の辞書は、通常H
DD7に格納されている。
して登録されている文字認識用の複数の辞書は、通常H
DD7に格納されている。
なお1手書きのくせ字(フォーマット化されていない書
体)についても、後述するようにして辞書を作成するこ
とができ、それを登録して活字用の辞書と同様に使用す
ることが可能である。
体)についても、後述するようにして辞書を作成するこ
とができ、それを登録して活字用の辞書と同様に使用す
ることが可能である。
次に、この実施例の作用を第4図のフローチャート及び
その他の図によって説明する。
その他の図によって説明する。
イメージスキャナ2から原稿のイメージデータを直接数
°り込んで文字を認識する場合には、まずステップ1で
原稿に書か九でいる文字の濃度を判定し、ステップ2で
モの判定結果に応じてイメージスキャナ2の原稿照明用
蛍光灯の明るさを設定する。
°り込んで文字を認識する場合には、まずステップ1で
原稿に書か九でいる文字の濃度を判定し、ステップ2で
モの判定結果に応じてイメージスキャナ2の原稿照明用
蛍光灯の明るさを設定する。
文字濃度判定は、オペレータによる濃度指定によって判
定するか、あるいはイメージスキャナにより原稿を部分
的にスキャンしてその検出レベルから自動的に判定する
こともできる。
定するか、あるいはイメージスキャナにより原稿を部分
的にスキャンしてその検出レベルから自動的に判定する
こともできる。
蛍光灯の明るさの設定は、原稿の文字が濃く書かれてい
たら暗めに点灯するように設定し、薄く書かれていたら
明るめに点灯するように設定する。
たら暗めに点灯するように設定し、薄く書かれていたら
明るめに点灯するように設定する。
それによって、文字の潰れや欠けを防ぐ。
そして、ステップ3でイメージスキャナ2により原稿の
全面を予め設定された読取密度でスキャンして、そのイ
メージデータを本体Sへ取り込んでメモリ(RAM12
)へ書き込む。
全面を予め設定された読取密度でスキャンして、そのイ
メージデータを本体Sへ取り込んでメモリ(RAM12
)へ書き込む。
一方、HD07等のイメージデータファイルに格納しで
あるイメージデータがら文字認識を行なう場合には、そ
のイメージデータファイルがらのデータを読み込んでメ
モリ(RAM12)へ書き込むに の場合は、予めイメージスキャナ2によって読み取った
イメージデータをイメージデータファイルに格納してお
く必要がある。
あるイメージデータがら文字認識を行なう場合には、そ
のイメージデータファイルがらのデータを読み込んでメ
モリ(RAM12)へ書き込むに の場合は、予めイメージスキャナ2によって読み取った
イメージデータをイメージデータファイルに格納してお
く必要がある。
その時、イメージデータファイルには、第5図に示すよ
うにヘッダ部を設け、読取密度と、読み込んだ文書の縦
と横の長さの情報をイメージデータに入れておく。
うにヘッダ部を設け、読取密度と、読み込んだ文書の縦
と横の長さの情報をイメージデータに入れておく。
文字認識するに当り1行切り出しと文字切り出しを行な
う時にこの縦と横の長さが必要になり。
う時にこの縦と横の長さが必要になり。
文字コード判定時に読取密度の情報が必要になる。
次に、ステップ3又はステップ4からステップ5へ進ん
で自動行切り出しを行ない、続いてステップ6で文字切
り出しを行なう。
で自動行切り出しを行ない、続いてステップ6で文字切
り出しを行なう。
ところで、イメージスキャナ2は原稿を横方向に走査し
てイメージデータを取ってくるので、イメージデータフ
ァイルあるいはRAM12のイメージデータ格納領域に
は、第6図に示すようにイメージデータが順にバイト単
位で入っている。
てイメージデータを取ってくるので、イメージデータフ
ァイルあるいはRAM12のイメージデータ格納領域に
は、第6図に示すようにイメージデータが順にバイト単
位で入っている。
そこで1行切り出しと文字切り出しを行なう場合に、縦
と横の長さの情報がないと1文字部分のイメージの切り
出しができない。
と横の長さの情報がないと1文字部分のイメージの切り
出しができない。
また、読取密度が高くなると、−文字分の高さと幅が大
きくなるので、当然マツチングのデータも変わる。
きくなるので、当然マツチングのデータも変わる。
第6図(A)と(B)は、同じ文字を読取密度200d
piと300dpiで読み込んだ時のイメージデータの
状態を示す。
piと300dpiで読み込んだ時のイメージデータの
状態を示す。
また1行切り出しを行なう際には、水平斜影をとって1
行間のスペースからスペースまでを行として切り出すが
、イメージスキャナに原稿が若干斜めにセットされたり
すると、読み込んだイメージデータが第7図に示すよう
になり、全体で水平斜影をとっても行と行の間のスペー
スがなくなってしまう場合がある。
行間のスペースからスペースまでを行として切り出すが
、イメージスキャナに原稿が若干斜めにセットされたり
すると、読み込んだイメージデータが第7図に示すよう
になり、全体で水平斜影をとっても行と行の間のスペー
スがなくなってしまう場合がある。
そこで、このような場合には第7図に細線で囲んで示す
ように、水平斜影により行と行の間にスペースができる
ようなブロックに行を分割して、行切り出しを行なう。
ように、水平斜影により行と行の間にスペースができる
ようなブロックに行を分割して、行切り出しを行なう。
次に、この実施例では手書き文字も読み取れるようにす
るため、第4図のステップ7で文字タイプの判別を行な
っている。
るため、第4図のステップ7で文字タイプの判別を行な
っている。
この判定は1手書き文字の場合には認1!率を高めるた
めに1例えば第8図に示すように文書を複数のフィール
ドに区切って、その各フィールドの長さの情報とその各
フィールド内にある文字の種類(アルファベット、数字
、記号、ひらがな、漢字など)の指定情報を与えておく
。
めに1例えば第8図に示すように文書を複数のフィール
ドに区切って、その各フィールドの長さの情報とその各
フィールド内にある文字の種類(アルファベット、数字
、記号、ひらがな、漢字など)の指定情報を与えておく
。
したがって、これらの情報が有るが否かによって、手書
文字か活字文字かを判別することができる。
文字か活字文字かを判別することができる。
そして、活字文字の場合には、ステップ8八進んで文字
フォント判別(活字書体判別)を行なって文字認識に使
用する文字フォント辞書を決定し、ステップ12でその
辞書を用いて文字コード判定の処理を行なうが、その詳
細は後述する。
フォント判別(活字書体判別)を行なって文字認識に使
用する文字フォント辞書を決定し、ステップ12でその
辞書を用いて文字コード判定の処理を行なうが、その詳
細は後述する。
手書文字の場合には、ステップ9へ進んでスムージング
処理を行なって凸凹を修正し、ステップ10で正規化に
より文字の大きさを修正する。
処理を行なって凸凹を修正し、ステップ10で正規化に
より文字の大きさを修正する。
この場合、例えば大文字と小文字が同じ形状のアルファ
ベットの識別ができなくならない範囲で、文字の拡大あ
るいは縮小を行なって大きさを揃える。
ベットの識別ができなくならない範囲で、文字の拡大あ
るいは縮小を行なって大きさを揃える。
そして、ステップ11で手書き書体の判別を行なって1
文字L’S識に用いる手書き書体用の辞書を決定し、ス
テップ12でその辞書を用いて文字コード判定の処理を
行なう。
文字L’S識に用いる手書き書体用の辞書を決定し、ス
テップ12でその辞書を用いて文字コード判定の処理を
行なう。
次に、ステップ13で文字認識終りか否かを判断して、
終りでなければステップ5へ戻って1次の行の切り出し
から文字コード判定までの処理を繰り返す。
終りでなければステップ5へ戻って1次の行の切り出し
から文字コード判定までの処理を繰り返す。
そして、最終行までの文字認識を終了すればこの処理を
終る。
終る。
ここで、上述した文字フォント(活字書体)判別と文字
コード判定の処理について、第S図及び第10図によっ
て詳細に説明する。
コード判定の処理について、第S図及び第10図によっ
て詳細に説明する。
文字フォント判別処理は、複数の文字フォント辞書を用
いて第S図のフローチャートに示すようにして行なうが
、その際用意されている複数の文字フォント辞書に1例
えば次表に示すような可変の優先順位をつけておく。
いて第S図のフローチャートに示すようにして行なうが
、その際用意されている複数の文字フォント辞書に1例
えば次表に示すような可変の優先順位をつけておく。
そして、1行分の文字のイメージデータについて、一番
優先順位の高い辞書からマツチングを行ない、あるレベ
ル以上のマツチング結果が得られるまで1次々に優先順
位の低い辞書とのマツチングを行なう。
優先順位の高い辞書からマツチングを行ない、あるレベ
ル以上のマツチング結果が得られるまで1次々に優先順
位の低い辞書とのマツチングを行なう。
その時、ある辞書とのマツチングの結果が不合格の場合
には、その辞書の優先順位を一番蝕<シて、それ以外の
辞書の優先順位を1つずつ繰り上げる。
には、その辞書の優先順位を一番蝕<シて、それ以外の
辞書の優先順位を1つずつ繰り上げる。
−通りの複数の辞書とのマツチングの結果、あるレベル
以上のマツチング結果が得られれば、その時の辞書を選
び5それが得られない場合には一番高いマツチングが得
られた辞書を選ぶことによって文字フォントを判別する
。
以上のマツチング結果が得られれば、その時の辞書を選
び5それが得られない場合には一番高いマツチングが得
られた辞書を選ぶことによって文字フォントを判別する
。
通常、−文書は同一文字フォントで印刷されているので
、このように辞書に優先順位をつけることにより1次の
行からの文字′L!g識(文字フォント判別及び文字コ
ード判定)の高速化を計ることができる。
、このように辞書に優先順位をつけることにより1次の
行からの文字′L!g識(文字フォント判別及び文字コ
ード判定)の高速化を計ることができる。
この文字フォント判別処理を第S図によって説明すると
、最初は第1優先順位の辞書(前記表ではA辞書)を読
み込み、まず1行の第1文字を読み込んでパターンマツ
チング(あるいは特徴マツチング)を行ない、マツチン
グがとれて認識可能(○K)であればレジスタの値X(
最初は「0」ンからある一定値αを減じ、マツチングが
とれなければレジスタの値Xにある一定値β(α〈β)
を加える。
、最初は第1優先順位の辞書(前記表ではA辞書)を読
み込み、まず1行の第1文字を読み込んでパターンマツ
チング(あるいは特徴マツチング)を行ない、マツチン
グがとれて認識可能(○K)であればレジスタの値X(
最初は「0」ンからある一定値αを減じ、マツチングが
とれなければレジスタの値Xにある一定値β(α〈β)
を加える。
そして1行末か否かを判断して、行末でなければ次の文
字を読み込にで同様の処理を行なう。
字を読み込にで同様の処理を行なう。
二九を1行の最後の文字まで行なうと、その時のXの値
を記憶し、次にXく0か否かの判断を行なって、YES
であればその時使用した辞?(A辞書)に決定する。
を記憶し、次にXく0か否かの判断を行なって、YES
であればその時使用した辞?(A辞書)に決定する。
X〈0でなければ、未使用の辞書が有るか否かを判断し
て、有れば辞書の優先順位を例えば前記表の第2判定時
のように変更して、新らたな第1優先順位の辞書(B辞
書)を読み込んで、1行の第1文字から行末の文字まで
順次マツチングをとって前述と同様な処理を行なった後
、X〈0の判断を行ない、YESであればその時使用し
た辞書(B辞書)に決定する。
て、有れば辞書の優先順位を例えば前記表の第2判定時
のように変更して、新らたな第1優先順位の辞書(B辞
書)を読み込んで、1行の第1文字から行末の文字まで
順次マツチングをとって前述と同様な処理を行なった後
、X〈0の判断を行ない、YESであればその時使用し
た辞書(B辞書)に決定する。
この時もX〈0でなければ、また未使用の辞書が有るか
否かを判断して、有れば再び辞書の優先順位を例えば前
記表の第3判定時のように変更し、新らたな第1優先順
位の辞? <cn書)を読み込んで同様な処理を行なう
。
否かを判断して、有れば再び辞書の優先順位を例えば前
記表の第3判定時のように変更し、新らたな第1優先順
位の辞? <cn書)を読み込んで同様な処理を行なう
。
そして、X<Oになればその時使用した辞書(C辞書)
に決定するが、この時もXく0にならず、未使用の辞書
がなくなった場合には、記憶している各辞書使用時のX
の値を比較して、それが最小の辞書に決定する。
に決定するが、この時もXく0にならず、未使用の辞書
がなくなった場合には、記憶している各辞書使用時のX
の値を比較して、それが最小の辞書に決定する。
次に1文字コード判定処理は、第10図のフローチャー
トに従ってなされ、ま−ず文字フォント判別によって決
定した辞書を読み込むが、第9図の文字フォント判別処
理に続けてこの文字コード判定処理を行なう場合で、x
く0になって辞書を決定した時にはその辞書が読み込ま
れているので、このステップを省略できる。
トに従ってなされ、ま−ず文字フォント判別によって決
定した辞書を読み込むが、第9図の文字フォント判別処
理に続けてこの文字コード判定処理を行なう場合で、x
く0になって辞書を決定した時にはその辞書が読み込ま
れているので、このステップを省略できる。
そして、1行の第1文字を読み込んで辞書とのパターン
マツチング(例えば24次元マツチング)を行ない、マ
ツチングがとれて文字コード判定が可能(OK)であれ
ば文字コードを出力し、コード判定が不能(NG)であ
れば次に他の方法によるパターンマツチング(4X4X
8次元マツチング、3X3X8次元マツチング、多層方
向ヒストグラム法によるパターンマツチング等)を行な
って、文字コードの判定が可能になれば文字コードを出
力し、それでも文字コードの判定が不能であれば、読み
取り不能のコードを出力する。
マツチング(例えば24次元マツチング)を行ない、マ
ツチングがとれて文字コード判定が可能(OK)であれ
ば文字コードを出力し、コード判定が不能(NG)であ
れば次に他の方法によるパターンマツチング(4X4X
8次元マツチング、3X3X8次元マツチング、多層方
向ヒストグラム法によるパターンマツチング等)を行な
って、文字コードの判定が可能になれば文字コードを出
力し、それでも文字コードの判定が不能であれば、読み
取り不能のコードを出力する。
このような処理を1行の最後の文字まで順次行なって1
行分のコード判定処理を行なう。
行分のコード判定処理を行なう。
このようにして1行づつ文字フォント判別と文字コード
判定を続けて行なって、全文書を読み取る。その読み取
った文字データを表示あるいは印刷する場合には、読み
取り不能のコードがある部分には読み取り不能の文字が
あることを示すマークを表示又は印字する。
判定を続けて行なって、全文書を読み取る。その読み取
った文字データを表示あるいは印刷する場合には、読み
取り不能のコードがある部分には読み取り不能の文字が
あることを示すマークを表示又は印字する。
このように、原稿に使用されている活字のフォントを指
定しなくても、複数の文字フォント辞書を用いて自動的
にそのフォントを判別して文字読取を行なう機能を以後
「マルチフォント」と称する。
定しなくても、複数の文字フォント辞書を用いて自動的
にそのフォントを判別して文字読取を行なう機能を以後
「マルチフォント」と称する。
手書き書体の判別及び文字コード判定処理も、この活字
の場合とほぼ同様にして行なうが、この場合には第8図
に示したフィールドの長さと文字種の情報も利用してパ
ターンマツチングを行なう。
の場合とほぼ同様にして行なうが、この場合には第8図
に示したフィールドの長さと文字種の情報も利用してパ
ターンマツチングを行なう。
なお、そこで使用する手書きのくせ字用辞書の作成方法
については後述する。
については後述する。
また、第4図における文字フォント判別と手書き書体の
判別を、まとめて書体判別処理として行なうことも可能
である。
判別を、まとめて書体判別処理として行なうことも可能
である。
次に、上述の光学文字読取装置に使用する辞書の作成及
び保守方法について説明する。
び保守方法について説明する。
第2図及び第3図に示した光学文字読取装置の機能を有
する文書処理装置において、キーボード1からのキー人
力により「辞書の作成保守」が指令されると、まず第1
11!Iのフローチャートに示すユーティリティ選択の
処理を開始し、処理の種類を示すメインメニューを表示
する。
する文書処理装置において、キーボード1からのキー人
力により「辞書の作成保守」が指令されると、まず第1
11!Iのフローチャートに示すユーティリティ選択の
処理を開始し、処理の種類を示すメインメニューを表示
する。
そして、キー人力により処理の選択がなされると、それ
を判別して「単一辞書作成保守ユーティリティ」 [マ
ルチフォント辞書作成保守ユーティリティ」 「辞書フ
ァイル名一覧」 「手書き辞書作成保守ユーティリティ
J及び「終了Jのいずれかの処理を行なう。
を判別して「単一辞書作成保守ユーティリティ」 [マ
ルチフォント辞書作成保守ユーティリティ」 「辞書フ
ァイル名一覧」 「手書き辞書作成保守ユーティリティ
J及び「終了Jのいずれかの処理を行なう。
〈単一辞書作成保守ユーティリティ〉
文字認識に使用する活字用の単一辞書を作成するプログ
ラムであり、第12図に示すように、各辞書ファイルへ
のファイル名の登録1文字の登録及び追加、削除、登録
文字リスト印刷の各機能があって、それぞれ辞書ファイ
ルとの読み書きを行なう。
ラムであり、第12図に示すように、各辞書ファイルへ
のファイル名の登録1文字の登録及び追加、削除、登録
文字リスト印刷の各機能があって、それぞれ辞書ファイ
ルとの読み書きを行なう。
″ファイル名登録′″は、第13図に示すフローチャー
トに従って実行され、ファイルの領域取り及びファイル
名のディレクトリへの登録を行なう。
トに従って実行され、ファイルの領域取り及びファイル
名のディレクトリへの登録を行なう。
″″文字登録・追加゛′は1.第14図に示すフローチ
ャートに従って実行され1文字作成機能の中心となるも
のである。
ャートに従って実行され1文字作成機能の中心となるも
のである。
ここで、1行の文字数と読取濃度を入力し、作業許可が
なされて原稿をセットすると、スキャナが1行の文字を
読み取り、画像処理によりその各文字のパターンを重ね
るか平均化してCRTに表示する。
なされて原稿をセットすると、スキャナが1行の文字を
読み取り、画像処理によりその各文字のパターンを重ね
るか平均化してCRTに表示する。
そのパターンをオペレータが見て、それに対応する文字
をキャラクタキーによって入力すると、その文字コード
と表示中の文字パターンのデータとを対応付けて辞書フ
ァイルに書き込む。
をキャラクタキーによって入力すると、その文字コード
と表示中の文字パターンのデータとを対応付けて辞書フ
ァイルに書き込む。
なお、この文字登録に関しては後でより詳細に説明する
。
。
″文字削除″は、第15図のフローチャートに従って実
行され、辞書ファイル内の登録文字を削除する処理であ
る。
行され、辞書ファイル内の登録文字を削除する処理であ
る。
″登録文字リスト印刷″は、第16図のフローチャート
に従って実行され、辞書ファイルに登録しである文字を
CRT!1あるいはプリンタ4(第2図、第3図)へ出
力して、表示あるいは印刷する処理である。
に従って実行され、辞書ファイルに登録しである文字を
CRT!1あるいはプリンタ4(第2図、第3図)へ出
力して、表示あるいは印刷する処理である。
〈マルチフォント辞書作成保守ユーティリティ〉マルチ
フォント機能によって、前述したようにフォント指定が
なくても文字認識ができるように。
フォント機能によって、前述したようにフォント指定が
なくても文字認識ができるように。
使用する辞書ファイル名を登録しておくファイルの作成
保守プログラムであるに のプログラムは第17図に示すように、マルチフォント
・ファイル名登録、辞書ファイル名登録、辞書ファイル
名削除、辞書ファイル内登録文字印刷、辞書ファイル名
追加、辞書ファイル名人れ替えの各処理プログラムから
なる。
保守プログラムであるに のプログラムは第17図に示すように、マルチフォント
・ファイル名登録、辞書ファイル名登録、辞書ファイル
名削除、辞書ファイル内登録文字印刷、辞書ファイル名
追加、辞書ファイル名人れ替えの各処理プログラムから
なる。
そして、各処理はそれぞれ第18図乃至第23図に示す
フローチャートに従って実行される。
フローチャートに従って実行される。
この例では、マルチフォント・ファイルには6個の辞書
ファイル名を登録することができ、その登録された辞書
ファイル名には前述したように優先順位を付けである。
ファイル名を登録することができ、その登録された辞書
ファイル名には前述したように優先順位を付けである。
例えば、最初に辞書ファイル名を全て新しく登録する場
合には登DMに優先順位をつけ、それを使用すると前述
のように優先順位が入九替わり、辞書ファイル名を追加
登録した時はその辞書の優先順位を最も低くシ、辞書フ
ァイル名を削除した時はその辞書より低い優先順位の辞
書ファイル名の優先順位を繰り上げて付は直す。
合には登DMに優先順位をつけ、それを使用すると前述
のように優先順位が入九替わり、辞書ファイル名を追加
登録した時はその辞書の優先順位を最も低くシ、辞書フ
ァイル名を削除した時はその辞書より低い優先順位の辞
書ファイル名の優先順位を繰り上げて付は直す。
また、辞書ファイル名を入れ替えた時にも同様に優先順
位を付は直す。
位を付は直す。
〈辞書ファイル名一覧〉
カレントディスク(今仕事中のディスク)内にある文字
認識用辞書のファイル名の一覧表を表示するプログラム
であり、第24図に示すフローチャートに従って実行さ
れる。
認識用辞書のファイル名の一覧表を表示するプログラム
であり、第24図に示すフローチャートに従って実行さ
れる。
この例では、一画面(1頁)に8個の辞書ファイル名を
表示することができるが、登録されている辞書ファイル
の総数が8個以上の場合には、N(ネクスト)キーを押
すことによって次の頁の辞書ファイル名を表示させるこ
とができ、B(バック)キーを押すことによって前の頁
の辞書ファイル名の表示に戻すことができる。そして、
E(エンド)キーを押すとこの処理を終了する。
表示することができるが、登録されている辞書ファイル
の総数が8個以上の場合には、N(ネクスト)キーを押
すことによって次の頁の辞書ファイル名を表示させるこ
とができ、B(バック)キーを押すことによって前の頁
の辞書ファイル名の表示に戻すことができる。そして、
E(エンド)キーを押すとこの処理を終了する。
〈手書き辞書作成保守ユーティリティ〉文字認識に使用
する手書き辞書を作るプログラムであり、第25図に示
すように、辞書ファイルへのファイル名登録1文字の登
録及び追加2文字削除、登録文字リスト印刷の各機能が
ある。
する手書き辞書を作るプログラムであり、第25図に示
すように、辞書ファイルへのファイル名登録1文字の登
録及び追加2文字削除、登録文字リスト印刷の各機能が
ある。
この機能は第12図に示した単一辞書作成保守ユーティ
リティの機能と同じであり、その各処理内容を示す第2
6図乃至第29図のフローチャートも、単一辞書作成保
守ユーティリティにおける第13図乃至第1S図の処理
と略同様である。
リティの機能と同じであり、その各処理内容を示す第2
6図乃至第29図のフローチャートも、単一辞書作成保
守ユーティリティにおける第13図乃至第1S図の処理
と略同様である。
但し、第28図に示す文字削除処理において。
「削除文字種類入力」を設けており、削除できる文字の
種類(活字のみ1手暑きのみ2両方の3種類)の指定が
できるようになっている。
種類(活字のみ1手暑きのみ2両方の3種類)の指定が
できるようになっている。
次に、活字あるいは手書の辞書作成方法について、第3
0図以降によって具体的に説明する。
0図以降によって具体的に説明する。
所望の文字(記号等も含ものとする)を辞書登録する際
には、1行にその同一文字を多数列記した原稿をイメー
ジスキャナによってスキャンさせてそのイメージデータ
を取り込み、その水平斜影を取る。
には、1行にその同一文字を多数列記した原稿をイメー
ジスキャナによってスキャンさせてそのイメージデータ
を取り込み、その水平斜影を取る。
これは、第31図に示すように、スキャン方向Sに直交
する水平方向(矢示H方向)から各文字を見て、その文
字の始まり(白い部分から文字の影である黒い部分にか
かる所)から文字の終り(文字の影である黒い部分から
白い部分に変化する所)を判断し、それによって文字の
高さを決定して行切り出しを行なうために取るのでであ
る。
する水平方向(矢示H方向)から各文字を見て、その文
字の始まり(白い部分から文字の影である黒い部分にか
かる所)から文字の終り(文字の影である黒い部分から
白い部分に変化する所)を判断し、それによって文字の
高さを決定して行切り出しを行なうために取るのでであ
る。
そして、この水平斜影はある程度の高さを予め持ってお
り1例えば少しかすれた文字を読み取った時に、そのか
すれの部分で水平斜影がなくなっても文字の終りと誤認
するようなことを防止するようにしている。
り1例えば少しかすれた文字を読み取った時に、そのか
すれの部分で水平斜影がなくなっても文字の終りと誤認
するようなことを防止するようにしている。
したがって、この水平斜影が始めに持つ高さを高くして
おけば、1″や1′j”あるいはu :11などの上下
に分離した部分からなる文字を1つの文字と判断するこ
とができる。
おけば、1″や1′j”あるいはu :11などの上下
に分離した部分からなる文字を1つの文字と判断するこ
とができる。
し力Zしながら、そのようにすると小さな文字を登録し
ようとした時、隣接する他の文字の一部まで1文字と判
断してしまう恐れがあるので、必要最少限の範囲でしか
高さを持つことはできない。
ようとした時、隣接する他の文字の一部まで1文字と判
断してしまう恐れがあるので、必要最少限の範囲でしか
高さを持つことはできない。
そこで、以下に説明する例では第32図に示すように、
原稿の1行に登録しようとする文字(図示の例では11
1″)を横方向に間隔を置いて例えば10文字列記し、
その最後の文字から少し離れた位置にこの行の文字の高
さを示すマークM(この例では縦線)を付記しておく。
原稿の1行に登録しようとする文字(図示の例では11
1″)を横方向に間隔を置いて例えば10文字列記し、
その最後の文字から少し離れた位置にこの行の文字の高
さを示すマークM(この例では縦線)を付記しておく。
この原稿をイメージスキャナでスキャンさせてそのイメ
ージデータを取り込めば、マークMが検出されてからそ
れが検出されなくなるまでを1つの文字の高さとして正
確に判断して1行切り出しを行なうことができるので、
゛&パやj″のように上下に分離した2部分からなる文
字でも全体で1つの文字として1文字パターンデータを
正しく切す出すことができる。
ージデータを取り込めば、マークMが検出されてからそ
れが検出されなくなるまでを1つの文字の高さとして正
確に判断して1行切り出しを行なうことができるので、
゛&パやj″のように上下に分離した2部分からなる文
字でも全体で1つの文字として1文字パターンデータを
正しく切す出すことができる。
そして、小さい文字の場合にも、その文字の高さに合わ
せたマークMを付記することによって、その文字のパタ
ーンデータのみを正しく切り出すことができる。
せたマークMを付記することによって、その文字のパタ
ーンデータのみを正しく切り出すことができる。
また、このようにすることによって、手書き文字を登録
゛する場合にも、例えばi″の点を離して書きすぎるよ
うな、くせのある字でも制約なく登録することが可能に
なる。
゛する場合にも、例えばi″の点を離して書きすぎるよ
うな、くせのある字でも制約なく登録することが可能に
なる。
なお、ごみや点状のノイズをマークと誤認しないように
、マークMをある程度太くして横方向のスキャン時に数
ドツト分の黒レベルのデータが得られるようにしておく
のが望ましい。
、マークMをある程度太くして横方向のスキャン時に数
ドツト分の黒レベルのデータが得られるようにしておく
のが望ましい。
この方法を用いて辞書登録を行なう際の処理を。
第30図のフローチャートによって説明する。
第32図に示したように、登録しようとする文字を1行
に10文字列記(印刷でも手書きでもよい)して、その
最後の文字から少し離して文字の高さを示すマークMを
付記した原稿をスキャナにセットして、第14図あるい
は第27図の「読み取り」を開始すると、この第30図
の処理がスタートする。
に10文字列記(印刷でも手書きでもよい)して、その
最後の文字から少し離して文字の高さを示すマークMを
付記した原稿をスキャナにセットして、第14図あるい
は第27図の「読み取り」を開始すると、この第30図
の処理がスタートする。
まず、スキャナを始動させて原稿のスキャンを開始し゛
、横方向の1スキヤン中に予め定めたドツト数(マーク
Mを検出した時のドツト数より少ない)以上の黒レベル
が検出されない間は原稿の白い部分(スペース部分)を
スキャンしていると判断して何もせずにスキャンを続け
る。
、横方向の1スキヤン中に予め定めたドツト数(マーク
Mを検出した時のドツト数より少ない)以上の黒レベル
が検出されない間は原稿の白い部分(スペース部分)を
スキャンしていると判断して何もせずにスキャンを続け
る。
そして、横方向の1スキヤン中に所定ドツト数以上の黒
レベルが検出されると、マークMの黒い部分を検出した
と判断して1行のイメージデータの切り出しを開始し、
その黒い部分が検出されなくなるまで1行の切り出しを
続け、黒い部分が検出されなくなると1行の切り呂しを
終了する。
レベルが検出されると、マークMの黒い部分を検出した
と判断して1行のイメージデータの切り出しを開始し、
その黒い部分が検出されなくなるまで1行の切り出しを
続け、黒い部分が検出されなくなると1行の切り呂しを
終了する。
そして、切り出した1行分のイメージデータから文字切
り出しを行なって、その1行に含まれている各文字(こ
の例では同一文字が10文字)の文字パターン(ドツト
パターン)データをそれぞれ切り出す。
り出しを行なって、その1行に含まれている各文字(こ
の例では同一文字が10文字)の文字パターン(ドツト
パターン)データをそれぞれ切り出す。
手書き文字の場合には、ここで文字パターンの凸凹を修
正するスムージング処理と、大きさを統一するために文
字パターン全体を若干拡大又は縮小する正規化処理を行
なうのが望ましい。
正するスムージング処理と、大きさを統一するために文
字パターン全体を若干拡大又は縮小する正規化処理を行
なうのが望ましい。
次いで、その各文字パターンのそれぞれ対応するドツト
のデータ(1″か0″)のORをとって重ね合わせる重
畳処理を行なう。その際各ドツト位置毎に黒レベルのデ
ータが予め設定した数似下の場合は白レベルとみなすよ
うにすれば、ノイズの影響を除去できると共に、手書き
文字の場合には書体のバラツキの影響を少なくして平均
化した文字パターンを得ることができる。
のデータ(1″か0″)のORをとって重ね合わせる重
畳処理を行なう。その際各ドツト位置毎に黒レベルのデ
ータが予め設定した数似下の場合は白レベルとみなすよ
うにすれば、ノイズの影響を除去できると共に、手書き
文字の場合には書体のバラツキの影響を少なくして平均
化した文字パターンを得ることができる。
このようにして得た文字パターンを1例えば第33図に
示すようにCRT3の画面に表示する。
示すようにCRT3の画面に表示する。
この表示を作成者が確認して、この文字パターンに対応
する文字(この例では「l」)をキーボード1のキャラ
クタキーによって入力すると、その文字を示す文字コー
ドを発生し、それを表示中の文字パターンのデータ台付
与してHDD7の文字認識用辞書ファイルに登録する。
する文字(この例では「l」)をキーボード1のキャラ
クタキーによって入力すると、その文字を示す文字コー
ドを発生し、それを表示中の文字パターンのデータ台付
与してHDD7の文字認識用辞書ファイルに登録する。
このキーボードからの文字入力に代えて直接文字コード
を入力して登録することも可能である。
を入力して登録することも可能である。
この辞書登録方法によれば、活字は勿論のことであるが
、手書きのくせ字であっても簡単に辞書登録することが
できる。
、手書きのくせ字であっても簡単に辞書登録することが
できる。
簸−釆
以上説明してきたように、この発明による光学文字読取
装置は、原稿に記載されている文字の書体(フォント)
を指定しなくても、自動的にそれを判別して文字認識用
辞書を選択して読み取ることができるので、誰でも容易
に使用することができ、広範な文書データを短時間で文
書処理装置に入力することが可能になる。
装置は、原稿に記載されている文字の書体(フォント)
を指定しなくても、自動的にそれを判別して文字認識用
辞書を選択して読み取ることができるので、誰でも容易
に使用することができ、広範な文書データを短時間で文
書処理装置に入力することが可能になる。
第1図はこの発明による光学文字読取装置の基本構成を
示すブロック図、 第2図はこの発明の一実施例である文書処理システムの
外観斜視図、 第3図は同じくそのブロック構成図 第4図は同じくそのこの発明に関する動作を示すフロー
図、 第5図乃至第8図は第4図による動作説明に共する説明
図、 第S図は第4図における文字フォント判別処理の詳細を
示すフロー図、 第10図は第4図における文字コード判定処理の詳細を
示すフロー図。 @11図乃至第30図は文字認識用辞書の作成保守に関
する各種の処理を説明するためのフロー図、 第31図乃至第33@は第30図による辞書登録処理の
説明に共する説明図である。 A・・・スキャナ B・・・書体判別手段C・・・
文字コード判定手段 D、〜Dn・・・辞書1・・・
キーボード 2・・・イメージスキャナ3・・・CR
Tディスプレイ装置!4・・・プリンタS・・・本体
6・・・フロッピディスク装置7・・・ハード
゛ディスク装置 10・・・制御部(CP U) 笥1 図 D+ D2 −m−−−−Dn 第3図 M5図 ヘッダ部 !9図 第10図 第30図 第31図 第32図 第33図
示すブロック図、 第2図はこの発明の一実施例である文書処理システムの
外観斜視図、 第3図は同じくそのブロック構成図 第4図は同じくそのこの発明に関する動作を示すフロー
図、 第5図乃至第8図は第4図による動作説明に共する説明
図、 第S図は第4図における文字フォント判別処理の詳細を
示すフロー図、 第10図は第4図における文字コード判定処理の詳細を
示すフロー図。 @11図乃至第30図は文字認識用辞書の作成保守に関
する各種の処理を説明するためのフロー図、 第31図乃至第33@は第30図による辞書登録処理の
説明に共する説明図である。 A・・・スキャナ B・・・書体判別手段C・・・
文字コード判定手段 D、〜Dn・・・辞書1・・・
キーボード 2・・・イメージスキャナ3・・・CR
Tディスプレイ装置!4・・・プリンタS・・・本体
6・・・フロッピディスク装置7・・・ハード
゛ディスク装置 10・・・制御部(CP U) 笥1 図 D+ D2 −m−−−−Dn 第3図 M5図 ヘッダ部 !9図 第10図 第30図 第31図 第32図 第33図
Claims (1)
- 1 スキャナによつて原稿をスキャンして文字を含む画
情報をイメージデータとして取り込み、そのイメージデ
ータから文字を認識して文字コードデータに変換する光
学文字読取装置において、取り込んだイメージデータか
ら文字を認識するための異なる書体用の複数の辞書と、
その複数の辞書を用いて前記イメージデータに含まれる
文字の書体を判別する書体判別手段と、該手段によつて
判別した書体用の辞書を用いて前記イメージデータから
文字を認識して文字コードを判定する文字コード判定手
段とを設けたことを特徴とする光学文字読取装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61302899A JPS63155390A (ja) | 1986-12-19 | 1986-12-19 | 光学文字読取装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61302899A JPS63155390A (ja) | 1986-12-19 | 1986-12-19 | 光学文字読取装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS63155390A true JPS63155390A (ja) | 1988-06-28 |
Family
ID=17914445
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61302899A Pending JPS63155390A (ja) | 1986-12-19 | 1986-12-19 | 光学文字読取装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS63155390A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0677817A3 (en) * | 1994-04-15 | 1996-10-02 | Canon Kk | Page segmentation system and character recognition. |
-
1986
- 1986-12-19 JP JP61302899A patent/JPS63155390A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0677817A3 (en) * | 1994-04-15 | 1996-10-02 | Canon Kk | Page segmentation system and character recognition. |
| US5809167A (en) * | 1994-04-15 | 1998-09-15 | Canon Kabushiki Kaisha | Page segmentation and character recognition system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4944022A (en) | Method of creating dictionary for character recognition | |
| US7391917B2 (en) | Image processing method | |
| US6208744B1 (en) | Document image processor and method for setting a document format conforming to a document image | |
| JPS63155386A (ja) | 帳票デ−タ読取装置 | |
| JP2713622B2 (ja) | 表形式文書読取装置 | |
| JPH06274680A (ja) | 文書認識方法およびシステム | |
| US5854860A (en) | Image filing apparatus having a character recognition function | |
| US20020181779A1 (en) | Character and style recognition of scanned text | |
| JP3319203B2 (ja) | 文書ファイリング方法及び装置 | |
| JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
| JP2662404B2 (ja) | 光学文字読取装置における辞書作成方法 | |
| JPS63155390A (ja) | 光学文字読取装置 | |
| JP3159087B2 (ja) | 文書照合装置および方法 | |
| JP2023046687A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP2018142066A (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 | |
| JP3309084B2 (ja) | 図形の電子化方法 | |
| JP2008028716A (ja) | 画像処理方法及び装置 | |
| JPS63155385A (ja) | 光学文字読取装置 | |
| EP0692768A2 (en) | Full text storage and retrieval in image at OCR and code speed | |
| JP2005208872A (ja) | 画像処理システム | |
| JPH0757040A (ja) | Ocr付きファイリング装置 | |
| JPH07262317A (ja) | 文書処理装置 | |
| JP2931485B2 (ja) | 文字切出し装置及び方法 | |
| JP2993533B2 (ja) | 情報処理装置及び文字認識装置 | |
| JP2829186B2 (ja) | 光学的文字読取装置 |