JPH07200734A - 光学的文字読取装置 - Google Patents
光学的文字読取装置Info
- Publication number
- JPH07200734A JPH07200734A JP5335223A JP33522393A JPH07200734A JP H07200734 A JPH07200734 A JP H07200734A JP 5335223 A JP5335223 A JP 5335223A JP 33522393 A JP33522393 A JP 33522393A JP H07200734 A JPH07200734 A JP H07200734A
- Authority
- JP
- Japan
- Prior art keywords
- character
- unit
- line
- information
- emphasized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 読取データから強調文字による情報検索を可
能にして、読取データの有効利用を図った光学的文字読
取装置を提供する。 【構成】 本装置は、イメージ検出部1,文字切出し部
3,特徴抽出部5,文字認識部7及び編集出力部10を
有する。イメージ検出部1が文書のイメージを検出する
と、文字切出し部3は検出されたイメージから文字パタ
ーンを切り出す。特徴抽出部5は切り出された文字パタ
ーンから文字認識のための認識情報と強調文字の識別情
報を抽出する。文字認識部7は、抽出された認識情報に
基づいて通常の文字及び強調文字を認識する。編集出力
部10は認識されたが強調文字である場合に、強調文字
の識別情報を付加した読取データを出力する。
能にして、読取データの有効利用を図った光学的文字読
取装置を提供する。 【構成】 本装置は、イメージ検出部1,文字切出し部
3,特徴抽出部5,文字認識部7及び編集出力部10を
有する。イメージ検出部1が文書のイメージを検出する
と、文字切出し部3は検出されたイメージから文字パタ
ーンを切り出す。特徴抽出部5は切り出された文字パタ
ーンから文字認識のための認識情報と強調文字の識別情
報を抽出する。文字認識部7は、抽出された認識情報に
基づいて通常の文字及び強調文字を認識する。編集出力
部10は認識されたが強調文字である場合に、強調文字
の識別情報を付加した読取データを出力する。
Description
【0001】
【産業上の利用分野】本発明は、光学的文字読取装置
(以下「OCR」とも略す。)に関し、より詳しくは読
取データから強調文字による情報検索が可能な光学的文
字読取装置に関する。
(以下「OCR」とも略す。)に関し、より詳しくは読
取データから強調文字による情報検索が可能な光学的文
字読取装置に関する。
【0002】
【従来の技術】日常的な文書には、見出しや重要な文章
等を字の大きさや字体を変えて、通常の文字より際立っ
て見える強調文字を用いることが多い。その例を図11
に示す。同図に示す文書20では、大見出しの「電気的
特性」,中見出しの「5.電気的特性」及び小見出しの
「5.1 一般整流、検波、スイッチングダイオード」
の強調文字21は、一般の文章の文字22より大きい文
字を用い、字体も一般の文章とは異ならせている。
等を字の大きさや字体を変えて、通常の文字より際立っ
て見える強調文字を用いることが多い。その例を図11
に示す。同図に示す文書20では、大見出しの「電気的
特性」,中見出しの「5.電気的特性」及び小見出しの
「5.1 一般整流、検波、スイッチングダイオード」
の強調文字21は、一般の文章の文字22より大きい文
字を用い、字体も一般の文章とは異ならせている。
【0003】このような文書20を従来のOCRにより
読み取る場合は、同図に示すように複数の読取フィール
ド23を設定し、各読取フィールド23毎に文字の大き
さや字体等を指定して、文字を読み取っていた。また、
近年では文字の認識技術も進歩し、図11に示すような
指定を行わなくとも文字の読取りが可能となってきてい
る。
読み取る場合は、同図に示すように複数の読取フィール
ド23を設定し、各読取フィールド23毎に文字の大き
さや字体等を指定して、文字を読み取っていた。また、
近年では文字の認識技術も進歩し、図11に示すような
指定を行わなくとも文字の読取りが可能となってきてい
る。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
OCRの認識結果の出力は、字体情報等の抽出が行えな
いために、図12に示すように、オリジナルの字体情報
等が失われて文字の大きさ及び字体が等しくなって、オ
リジナルとはかなり異なったものとなっている。
OCRの認識結果の出力は、字体情報等の抽出が行えな
いために、図12に示すように、オリジナルの字体情報
等が失われて文字の大きさ及び字体が等しくなって、オ
リジナルとはかなり異なったものとなっている。
【0005】このため、従来のOCRでは、字体を識別
する機能を有していないため、文字コードのみが出力さ
れるために、字体による情報の検索ができず、読取デー
タの有効利用が図れないという問題があった。
する機能を有していないため、文字コードのみが出力さ
れるために、字体による情報の検索ができず、読取デー
タの有効利用が図れないという問題があった。
【0006】そこで、本発明は、上記事情に鑑みてなさ
れたものであり、読取データから強調文字による情報検
索を可能にして、読取データの有効利用を図った光学的
文字読取装置を提供することを目的とする。
れたものであり、読取データから強調文字による情報検
索を可能にして、読取データの有効利用を図った光学的
文字読取装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の光学的文字読取装置は、通常の文字よ
り際立って見える強調文字を含む文書を光学的に読み取
る光学的文字読取装置において、前記文書のイメージを
検出するイメージ検出手段と、検出されたイメージから
文字パターンを切り出す文字切出し手段と、切り出され
た文字パターンから文字構造の特徴情報と文字の属性情
報とを抽出する抽出手段と、抽出された文字構造の特徴
情報に基づいて文字を認識する認識手段と、認識された
文字に抽出された属性情報を付加すると共に、その認識
された文字が前記属性情報に基づいて強調文字か否かを
判定し、強調文字と判定した場合に、その文字の認識結
果に強調文字であることを示す強調文字識別情報を付加
する編集手段とを有することを特徴とするものである。
に請求項1記載の光学的文字読取装置は、通常の文字よ
り際立って見える強調文字を含む文書を光学的に読み取
る光学的文字読取装置において、前記文書のイメージを
検出するイメージ検出手段と、検出されたイメージから
文字パターンを切り出す文字切出し手段と、切り出され
た文字パターンから文字構造の特徴情報と文字の属性情
報とを抽出する抽出手段と、抽出された文字構造の特徴
情報に基づいて文字を認識する認識手段と、認識された
文字に抽出された属性情報を付加すると共に、その認識
された文字が前記属性情報に基づいて強調文字か否かを
判定し、強調文字と判定した場合に、その文字の認識結
果に強調文字であることを示す強調文字識別情報を付加
する編集手段とを有することを特徴とするものである。
【0008】また、請求項2記載の光学的文字読取装置
は、属性情報には、文字の字体及び大きさの情報を含む
ものである。
は、属性情報には、文字の字体及び大きさの情報を含む
ものである。
【0009】
【作用】請求項1記載の光学的文字読取装置によれば、
イメージ検出手段が文書のイメージを検出すると、文字
切出し手段は、検出されたイメージから文字パターンを
切り出す。抽出手段は、切り出された文字パターンから
文字構造の特徴情報と文字の属性情報とを抽出する。認
識手段は、抽出された文字構造の特徴情報に基づいて通
常の文字及び強調文字を認識する。編集手段は、認識さ
れた文字に抽出された属性情報を付加すると共に、その
認識された文字が前記属性情報に基づいて強調文字か否
かを判定する。続いて編集手段は、強調文字と判定した
場合に、その文字の認識結果に強調文字であることを示
す強調文字識別情報を付加し、認識された文字が通常の
文字である場合は、その認識結果には属性情報のみが付
加された読取データとして出力される。
イメージ検出手段が文書のイメージを検出すると、文字
切出し手段は、検出されたイメージから文字パターンを
切り出す。抽出手段は、切り出された文字パターンから
文字構造の特徴情報と文字の属性情報とを抽出する。認
識手段は、抽出された文字構造の特徴情報に基づいて通
常の文字及び強調文字を認識する。編集手段は、認識さ
れた文字に抽出された属性情報を付加すると共に、その
認識された文字が前記属性情報に基づいて強調文字か否
かを判定する。続いて編集手段は、強調文字と判定した
場合に、その文字の認識結果に強調文字であることを示
す強調文字識別情報を付加し、認識された文字が通常の
文字である場合は、その認識結果には属性情報のみが付
加された読取データとして出力される。
【0010】これにより、読取データから強調文字によ
る情報検索が可能となり、読取データの有効利用が図れ
る。
る情報検索が可能となり、読取データの有効利用が図れ
る。
【0011】請求項2記載の光学的文字読取装置によれ
ば、強調文字の文字の字体又は大きさが通常の文字と異
なる場合に、文字の字体又は大きさの情報を含む属性情
報に基づいて強調文字による情報検索が可能となる。
ば、強調文字の文字の字体又は大きさが通常の文字と異
なる場合に、文字の字体又は大きさの情報を含む属性情
報に基づいて強調文字による情報検索が可能となる。
【0012】
【実施例】以下、本発明の実施例を図面を参照して詳述
する。
する。
【0013】図1は本発明の光学的文字読取装置の一実
施例を示す概略構成図である。
施例を示す概略構成図である。
【0014】同図に示す本実施例装置は、文書のイメー
ジを検出するイメージ検出部1と、検出された文書のイ
メージを格納するイメージバッファ2と、このイメージ
バッファ2に格納された文書のイメージから1文字毎に
文字パターンを切り出す文字切出し部3と、切り出され
た文字パターンの大きさ(属性情報)を検出する大きさ
検出部(抽出手段)4と、切り出された文字パターンの
特徴を抽出する特徴抽出部(抽出手段)5と、文字認識
辞書が格納された文字認識辞書部6と、文字認識辞書を
参照して文字の認識を行う文字認識部7と、字体識別辞
書が格納された字体識別辞書部8と、字体識別辞書を参
照して字体の識別を行う字体識別部9と、大きさ検出部
4及び字体識別部9からのコードデータに基づいて、文
字認識部7の認識結果に対して文字の大きさ及び字体を
編集して読取データを出力する編集出力部10と、この
装置の各部の制御を行う制御部11と、図示しない外部
ホストコンピュータとを有して構成されている。
ジを検出するイメージ検出部1と、検出された文書のイ
メージを格納するイメージバッファ2と、このイメージ
バッファ2に格納された文書のイメージから1文字毎に
文字パターンを切り出す文字切出し部3と、切り出され
た文字パターンの大きさ(属性情報)を検出する大きさ
検出部(抽出手段)4と、切り出された文字パターンの
特徴を抽出する特徴抽出部(抽出手段)5と、文字認識
辞書が格納された文字認識辞書部6と、文字認識辞書を
参照して文字の認識を行う文字認識部7と、字体識別辞
書が格納された字体識別辞書部8と、字体識別辞書を参
照して字体の識別を行う字体識別部9と、大きさ検出部
4及び字体識別部9からのコードデータに基づいて、文
字認識部7の認識結果に対して文字の大きさ及び字体を
編集して読取データを出力する編集出力部10と、この
装置の各部の制御を行う制御部11と、図示しない外部
ホストコンピュータとを有して構成されている。
【0015】次に、上記各部の詳細を説明する。
【0016】前記イメージ検出部1は、文書上に光を照
射する光源と、文書からの反射光を受けて電気信号に変
換する光電変換素子とを具備し、文書全体を光学的に走
査して文書のイメージを検出するものである。
射する光源と、文書からの反射光を受けて電気信号に変
換する光電変換素子とを具備し、文書全体を光学的に走
査して文書のイメージを検出するものである。
【0017】前記大きさ検出部4は、文字切出し部3か
ら出力された文字パターンについて垂直射影,水平射影
を検出し、その検出結果から文字の幅と高さ(大きさ情
報)をポイント数で検出し、そのポイント数を大きさコ
ード(後述する図9参照)105として編集出力部10
に出力するものである。
ら出力された文字パターンについて垂直射影,水平射影
を検出し、その検出結果から文字の幅と高さ(大きさ情
報)をポイント数で検出し、そのポイント数を大きさコ
ード(後述する図9参照)105として編集出力部10
に出力するものである。
【0018】前記特徴抽出部5は、文字認識部7が行う
文字認識のための文字構造の特徴情報の抽出と、字体識
別部9が行う字体識別のための文字線(文字パターン)
の特徴情報(属性情報)の抽出とを行うものである。
文字認識のための文字構造の特徴情報の抽出と、字体識
別部9が行う字体識別のための文字線(文字パターン)
の特徴情報(属性情報)の抽出とを行うものである。
【0019】この特徴抽出部5による文字線の特徴抽出
を図2乃至図5を参照して説明する。図2は特徴抽出部
5が用いる線素追跡マトリクス50を示す。同図中0乃
至9及びA乃至Fは、線素方向を示す。図3は線素追跡
例を示し、図4は図3におけるG部拡大図、図5は図3
におけるH部拡大図である。図3乃至図5中、○,△,
×印が線素遷移の移動状態を示す。また、後述する図6
の明朝体の文字線(文字パターン)30Aを特徴抽出の
対象として説明する。この文字線30Aの特徴抽出は、
文字線30Aの上側の線縁31及び下側の線縁32につ
いて線素方向を追跡することにより上側及び下側の線素
データを得て、次にその得られた両線素データを解析
し、文字線30Aの太さと線方向の角度とを求めるよう
になっている。
を図2乃至図5を参照して説明する。図2は特徴抽出部
5が用いる線素追跡マトリクス50を示す。同図中0乃
至9及びA乃至Fは、線素方向を示す。図3は線素追跡
例を示し、図4は図3におけるG部拡大図、図5は図3
におけるH部拡大図である。図3乃至図5中、○,△,
×印が線素遷移の移動状態を示す。また、後述する図6
の明朝体の文字線(文字パターン)30Aを特徴抽出の
対象として説明する。この文字線30Aの特徴抽出は、
文字線30Aの上側の線縁31及び下側の線縁32につ
いて線素方向を追跡することにより上側及び下側の線素
データを得て、次にその得られた両線素データを解析
し、文字線30Aの太さと線方向の角度とを求めるよう
になっている。
【0020】まず、線素データを得る場合は、図3に示
すように、文字パターン上に図2に示すような線素追跡
マトリクス(例えば5×5)50を形成し、文字線30
Aの内側をマトリクス50の中心点51が移動して線素
方向の追跡を行うようになっている。
すように、文字パターン上に図2に示すような線素追跡
マトリクス(例えば5×5)50を形成し、文字線30
Aの内側をマトリクス50の中心点51が移動して線素
方向の追跡を行うようになっている。
【0021】追跡を始点33aから開始し、上側の線縁
31を追跡した場合は、その線素方向の追跡結果は、図
4に示すように、「3−2−3−2−3−2−3−2−
F」となる(この例では、始点33aの位置情報は、文
字認識の特徴抽出結果より与えられるものとする)。こ
の追跡結果によれば、この部分の文字線30Aは、緩や
かな曲線を示している。追跡結果の終点近傍の「3−2
−F」は、急激な曲率変化であるために、この終点近傍
が線縁31の交差又は分岐と判断して追跡をFで停止す
るようにしている。
31を追跡した場合は、その線素方向の追跡結果は、図
4に示すように、「3−2−3−2−3−2−3−2−
F」となる(この例では、始点33aの位置情報は、文
字認識の特徴抽出結果より与えられるものとする)。こ
の追跡結果によれば、この部分の文字線30Aは、緩や
かな曲線を示している。追跡結果の終点近傍の「3−2
−F」は、急激な曲率変化であるために、この終点近傍
が線縁31の交差又は分岐と判断して追跡をFで停止す
るようにしている。
【0022】また、次に先程の始点33aに線素追跡マ
トリクス50を戻し、追跡した線縁31の反対側の線縁
32の追跡を行う。その追跡を図3及び図4中△印で示
す。その線素方向の追跡結果は、図4に示すように、
「3−3−3−2−3−3−2−3−3−6」となる。
この場合も追跡結果の終点近傍の「3−3−6」で急激
な曲率変化となっているため、線縁32の交差又は分岐
と判断して追跡を停止する。
トリクス50を戻し、追跡した線縁31の反対側の線縁
32の追跡を行う。その追跡を図3及び図4中△印で示
す。その線素方向の追跡結果は、図4に示すように、
「3−3−3−2−3−3−2−3−3−6」となる。
この場合も追跡結果の終点近傍の「3−3−6」で急激
な曲率変化となっているため、線縁32の交差又は分岐
と判断して追跡を停止する。
【0023】次に、両線素データを解析して文字線30
Aの太さと線方向の角度とを求める場合は、この角度に
より線30Aの太さの測定方向を決定する。この例では
Y方向の線30Aの太さを求めるとする。文字線30A
の太さを測定する箇所は、線素を追跡したマトリクス5
0の中心点51とする。図4の例では文字線30Aの太
さは、「1−1−2−2−2−2−3−2」となり、始
点33aの方が細くなっていることが分かる。
Aの太さと線方向の角度とを求める場合は、この角度に
より線30Aの太さの測定方向を決定する。この例では
Y方向の線30Aの太さを求めるとする。文字線30A
の太さを測定する箇所は、線素を追跡したマトリクス5
0の中心点51とする。図4の例では文字線30Aの太
さは、「1−1−2−2−2−2−3−2」となり、始
点33aの方が細くなっていることが分かる。
【0024】次に、図3に示す始点33bから線素方向
の追跡を前述したように行うと、図5に示すように、上
側の線縁31の追跡により「4−4−4−4−4−4−
4−3−0」の線素データが得られ、下側の線縁32の
追跡により「5−4−4−5−7」の線素データが得ら
れる。この例では、上側の線縁31は直線を示し、下側
の線縁32は短い直線の後、線縁32の分岐を示してい
る。この短い直線の太さはY方向で求められ、線30A
の太さとして2が得られる。同様に他の端点(始点)に
ついても線30Aの角度及び太さを求める。
の追跡を前述したように行うと、図5に示すように、上
側の線縁31の追跡により「4−4−4−4−4−4−
4−3−0」の線素データが得られ、下側の線縁32の
追跡により「5−4−4−5−7」の線素データが得ら
れる。この例では、上側の線縁31は直線を示し、下側
の線縁32は短い直線の後、線縁32の分岐を示してい
る。この短い直線の太さはY方向で求められ、線30A
の太さとして2が得られる。同様に他の端点(始点)に
ついても線30Aの角度及び太さを求める。
【0025】ここでは、説明していないが線素データの
解析により縦線,横線,曲線に分類されてそれぞれの線
の太さ情報及び横線の場合は右端の形状、そして各線の
端点の形状が取り出される。
解析により縦線,横線,曲線に分類されてそれぞれの線
の太さ情報及び横線の場合は右端の形状、そして各線の
端点の形状が取り出される。
【0026】前記文字認識部7は、文字認識を行い、そ
の認識結果を文字コード(後述する図9参照)102,
103として編集出力部10に出力するものである。こ
こで行う文字認識は、特徴抽出部5が抽出した文字構造
の特徴情報に基づいて、文字認識辞書部6に格納された
文字認識辞書を参照し、例えば複合類似度法等のパター
ンマッチング法の認識方式により行うものである。すな
わち、文書のイメージから切り出された文字パターンと
文字認識辞書部6に格納された候補文字パターンとを照
合して類似度値を演算して求め、類似度値の最も大きい
第1候補文字から順に第n候補文字まで複数の候補文字
を決定するものである。なお、この文字認識は、パター
ンマッチング法に限定されず、構造解析法等の他の方法
を用いてもよい。
の認識結果を文字コード(後述する図9参照)102,
103として編集出力部10に出力するものである。こ
こで行う文字認識は、特徴抽出部5が抽出した文字構造
の特徴情報に基づいて、文字認識辞書部6に格納された
文字認識辞書を参照し、例えば複合類似度法等のパター
ンマッチング法の認識方式により行うものである。すな
わち、文書のイメージから切り出された文字パターンと
文字認識辞書部6に格納された候補文字パターンとを照
合して類似度値を演算して求め、類似度値の最も大きい
第1候補文字から順に第n候補文字まで複数の候補文字
を決定するものである。なお、この文字認識は、パター
ンマッチング法に限定されず、構造解析法等の他の方法
を用いてもよい。
【0027】前記字体識別部9は、特徴抽出部5が抽出
した字体の特徴情報に基づいて、字体識別辞書部8に格
納された字体識別辞書を参照し、特徴マッチング処理に
より字体の識別を行い、その識別結果を字体コード(後
述する図9参照)104として編集出力部10に出力す
るものである。この字体識別部9は、特徴抽出部5より
取り出されたデータの始点33a,33bの位置情報
と、その文字線の方向が直線であるか又は曲線であるか
の情報と、太さコード105とに基づいて字体の識別を
行うものである。この字体識別では、例えば、線素の特
徴から明朝体,ゴシック体,斜字体又は計算機出力文字
のJISフォント等の識別が行われる。図6乃至図7に
代表的な字体の例を示す。図6は明朝体、図7は角ゴシ
ック体、図8は丸ゴシック体を示す。図6に示す明朝体
は、文字線30Aの太さが違うことが大きな特徴であ
る。図7に示す角ゴシック体の文字線30B及び図8に
示す丸ゴシック体の文字線30Cは、共に文字線30
B,30Cの太さが一定であるが、文字線30B,30
Cの端点34b,34cが大きく相違する。図7に示す
角ゴシック体の文字線30Bは、端点34bが直線であ
り、図8に示す丸ゴシック体の文字線30Cは、端点3
4cが曲線である。図3の例では、最終的なデータの例
は示していないが、各始点33a,33bからの線30
Aの方向と太さ及び端点(始点)近傍のデータより、曲
線の太さが一定でなく、横線と縦線の太さが異なり、横
線の左右端の形状が異なることから明朝体と判断され
る。
した字体の特徴情報に基づいて、字体識別辞書部8に格
納された字体識別辞書を参照し、特徴マッチング処理に
より字体の識別を行い、その識別結果を字体コード(後
述する図9参照)104として編集出力部10に出力す
るものである。この字体識別部9は、特徴抽出部5より
取り出されたデータの始点33a,33bの位置情報
と、その文字線の方向が直線であるか又は曲線であるか
の情報と、太さコード105とに基づいて字体の識別を
行うものである。この字体識別では、例えば、線素の特
徴から明朝体,ゴシック体,斜字体又は計算機出力文字
のJISフォント等の識別が行われる。図6乃至図7に
代表的な字体の例を示す。図6は明朝体、図7は角ゴシ
ック体、図8は丸ゴシック体を示す。図6に示す明朝体
は、文字線30Aの太さが違うことが大きな特徴であ
る。図7に示す角ゴシック体の文字線30B及び図8に
示す丸ゴシック体の文字線30Cは、共に文字線30
B,30Cの太さが一定であるが、文字線30B,30
Cの端点34b,34cが大きく相違する。図7に示す
角ゴシック体の文字線30Bは、端点34bが直線であ
り、図8に示す丸ゴシック体の文字線30Cは、端点3
4cが曲線である。図3の例では、最終的なデータの例
は示していないが、各始点33a,33bからの線30
Aの方向と太さ及び端点(始点)近傍のデータより、曲
線の太さが一定でなく、横線と縦線の太さが異なり、横
線の左右端の形状が異なることから明朝体と判断され
る。
【0028】前記編集出力部10は、行単位で認識され
た当該行に強調文字が含まれているか否かを判定し、強
調文字と判定したものに対しては後述するように字体及
び文字の大きさの情報を付加する編集を行うものであ
る。文書は一般的に同一の行の中では連続したものであ
るから、大きさコード105と字体コード104の連続
性を見つけて、例えば2文字以上同じ大きさコード10
5と字体コード104が続けば、その行は全て同一の強
調文字と判定する。また、連続性がない場合は、文字コ
ード102,103により文章単位又は単語単位で編集
を行う。なお、文章単位で編集を行う場合は、仮名漢字
混じり行か又は英数字行かを判定して行い、単語単位で
編集を行う場合は、漢字,仮名,数字の連続した字種を
判定して行う。
た当該行に強調文字が含まれているか否かを判定し、強
調文字と判定したものに対しては後述するように字体及
び文字の大きさの情報を付加する編集を行うものであ
る。文書は一般的に同一の行の中では連続したものであ
るから、大きさコード105と字体コード104の連続
性を見つけて、例えば2文字以上同じ大きさコード10
5と字体コード104が続けば、その行は全て同一の強
調文字と判定する。また、連続性がない場合は、文字コ
ード102,103により文章単位又は単語単位で編集
を行う。なお、文章単位で編集を行う場合は、仮名漢字
混じり行か又は英数字行かを判定して行い、単語単位で
編集を行う場合は、漢字,仮名,数字の連続した字種を
判定して行う。
【0029】編集出力部10は、上記判定結果により強
調文字と判定した場合は、図9に示すように、文字コー
ド102,103の後に字体コード104及び文字の大
きさをポイント数で示した大きさコード105を付加
し、文字コード102,103の前に字体コード104
又は大きさコード105が付加されていることを示すデ
ータ(FD)101を付加して5バイトのデータ構造の
コードデータ(読取データ)100を作成するようにし
ている。なお、編集出力部10は、制御部11から字体
コード104又は大きさコード105が不要の指示がな
された場合は、文字コード102,103のみを出力す
るようにしている。
調文字と判定した場合は、図9に示すように、文字コー
ド102,103の後に字体コード104及び文字の大
きさをポイント数で示した大きさコード105を付加
し、文字コード102,103の前に字体コード104
又は大きさコード105が付加されていることを示すデ
ータ(FD)101を付加して5バイトのデータ構造の
コードデータ(読取データ)100を作成するようにし
ている。なお、編集出力部10は、制御部11から字体
コード104又は大きさコード105が不要の指示がな
された場合は、文字コード102,103のみを出力す
るようにしている。
【0030】また、編集出力部10は、編集が完了する
と、1行又は1ページ単位で編集結果を制御部9を介し
て図示しないホストに送出するようになっている。
と、1行又は1ページ単位で編集結果を制御部9を介し
て図示しないホストに送出するようになっている。
【0031】次に、本実施例の動作を図10に示すフロ
ーチャートに従って説明する。
ーチャートに従って説明する。
【0032】なお、読取り対象とする文書には、強調文
字が含まれているものとする。
字が含まれているものとする。
【0033】まず、制御部9は、図示しない外部ホスト
コンピュータから文書の読取り指令があると、この装置
の各部を制御して文書の読取りを実行する。
コンピュータから文書の読取り指令があると、この装置
の各部を制御して文書の読取りを実行する。
【0034】イメージ検出部1は、制御部9の制御の下
に、光源により文書上に光を照射し、光電変換素子によ
り文書からの反射光を電気信号に変換して、文書のイメ
ージを検出し、そのイメージをイメージバッファ2に格
納する(S1)。
に、光源により文書上に光を照射し、光電変換素子によ
り文書からの反射光を電気信号に変換して、文書のイメ
ージを検出し、そのイメージをイメージバッファ2に格
納する(S1)。
【0035】文書のイメージの検出が終了すると、制御
部9は、文字切出し部3に指令を送り、文字切出し部3
は、イメージバッファ2に格納された文書のイメージか
ら文字パターンの切出しを行う。文字切出し部3は、制
御部9の制御の下に、1文字の切出しが完了する度に、
その文字パターンを、大きさ検出部4及び特徴抽出部5
に送出する(S2)。
部9は、文字切出し部3に指令を送り、文字切出し部3
は、イメージバッファ2に格納された文書のイメージか
ら文字パターンの切出しを行う。文字切出し部3は、制
御部9の制御の下に、1文字の切出しが完了する度に、
その文字パターンを、大きさ検出部4及び特徴抽出部5
に送出する(S2)。
【0036】大きさ検出部4は、文字切出し部3から出
力された文字パターンについて垂直射影,水平射影を検
出し、文字の幅と高さを検出し、その結果をコード化し
た大きさコード105として編集出力部10に送る(S
3)。
力された文字パターンについて垂直射影,水平射影を検
出し、文字の幅と高さを検出し、その結果をコード化し
た大きさコード105として編集出力部10に送る(S
3)。
【0037】特徴抽出部5は、制御部9の指令により、
文字認識部7が行う文字認識のための文字構造の特徴抽
出を行い、その抽出結果を文字認識部7に送出し、字体
識別部9が行う字体識別のための文字線の特徴抽出を行
い、その抽出結果を字体識別部9に送出する(S4)。
文字認識部7が行う文字認識のための文字構造の特徴抽
出を行い、その抽出結果を文字認識部7に送出し、字体
識別部9が行う字体識別のための文字線の特徴抽出を行
い、その抽出結果を字体識別部9に送出する(S4)。
【0038】一方、制御部9は、文字認識部7に文字認
識の指令を送る。文字認識部7は、特徴抽出部5からの
文字構造の特徴抽出結果を基に、文字切出し部3により
切り出された文字パターンと文字認識辞書部6に格納さ
れた候補文字パターンとを照合して、特徴マッチング等
の認識方式により文字認識を行う。文字認識部7は、認
識結果を文字コード102,103として編集出力部1
0に送出する(S5)。
識の指令を送る。文字認識部7は、特徴抽出部5からの
文字構造の特徴抽出結果を基に、文字切出し部3により
切り出された文字パターンと文字認識辞書部6に格納さ
れた候補文字パターンとを照合して、特徴マッチング等
の認識方式により文字認識を行う。文字認識部7は、認
識結果を文字コード102,103として編集出力部1
0に送出する(S5)。
【0039】その後、特徴抽出部5による字体の特徴抽
出が終わると、字体識別部9は、制御部9の指令によ
り、特徴抽出部5が抽出した字体の特徴情報に基づい
て、字体識別辞書部8に格納された字体識別辞書を参照
し、特徴マッチング処理により字体の識別を行い、その
識別結果を字体コード104として編集出力部10に出
力する(S6)。
出が終わると、字体識別部9は、制御部9の指令によ
り、特徴抽出部5が抽出した字体の特徴情報に基づい
て、字体識別辞書部8に格納された字体識別辞書を参照
し、特徴マッチング処理により字体の識別を行い、その
識別結果を字体コード104として編集出力部10に出
力する(S6)。
【0040】編集出力部10は、行単位で認識された当
該行に強調文字が含まれているか否かを判定し、強調文
字と判定したものに対しては字体及び文字の大きさの情
報を付加する編集を行う。編集出力部10は、編集が完
了すると、その編集結果を1行又は1ページ単位で制御
部9を介して図示しないホストコンピュータに送出する
(S7)。
該行に強調文字が含まれているか否かを判定し、強調文
字と判定したものに対しては字体及び文字の大きさの情
報を付加する編集を行う。編集出力部10は、編集が完
了すると、その編集結果を1行又は1ページ単位で制御
部9を介して図示しないホストコンピュータに送出する
(S7)。
【0041】このような上記実施例によれば、読取デー
タには強調文字の識別情報が付加されているので、その
読取データから強調文字による情報検索を可能となり、
読取データの有効利用が図れる。また、OCRをデータ
ベースの入力装置と組み合わせて使用する際に、文字コ
ード以外に文字の大きさや字体の情報が入力可能になれ
ば、情報検索の幅が広がり、また出力フォーマットがオ
リジナルデータに合わせることができる等の効果が期待
できる。
タには強調文字の識別情報が付加されているので、その
読取データから強調文字による情報検索を可能となり、
読取データの有効利用が図れる。また、OCRをデータ
ベースの入力装置と組み合わせて使用する際に、文字コ
ード以外に文字の大きさや字体の情報が入力可能になれ
ば、情報検索の幅が広がり、また出力フォーマットがオ
リジナルデータに合わせることができる等の効果が期待
できる。
【0042】なお、本発明は上記実施例に限定されず、
その要旨を変更しない範囲内で種々に変形実施できる。
例えば、強調文字として、本実施例で示した文字の大き
さや字体を強調した文字に限らず、色を付加し若しくは
異なる色を用いて強調した文字、縦方向若しくは横方向
に圧縮した文字、輪郭を残して中を白く抜いた文字、斜
目にした文字又は回転させた文字等でもよく、また、文
字自体を強調する以外に、その文字に下線等の如く文字
を強調させるために付加したものでもよい。
その要旨を変更しない範囲内で種々に変形実施できる。
例えば、強調文字として、本実施例で示した文字の大き
さや字体を強調した文字に限らず、色を付加し若しくは
異なる色を用いて強調した文字、縦方向若しくは横方向
に圧縮した文字、輪郭を残して中を白く抜いた文字、斜
目にした文字又は回転させた文字等でもよく、また、文
字自体を強調する以外に、その文字に下線等の如く文字
を強調させるために付加したものでもよい。
【0043】
【発明の効果】以上詳述した請求項1記載の発明によれ
ば、文字の認識結果である読取データには、強調文字の
識別情報が付加されているので、その読取データから強
調文字による情報検索を可能にして、読取データの有効
利用を図った光学的文字読取装置を提供することができ
る。
ば、文字の認識結果である読取データには、強調文字の
識別情報が付加されているので、その読取データから強
調文字による情報検索を可能にして、読取データの有効
利用を図った光学的文字読取装置を提供することができ
る。
【0044】また、請求項2記載の発明によれば、強調
文字の文字の字体又は大きさが通常の文字と異なる場合
に、請求項1記載と同様、強調文字による情報検索が可
能となる。
文字の文字の字体又は大きさが通常の文字と異なる場合
に、請求項1記載と同様、強調文字による情報検索が可
能となる。
【図1】本発明の光学的文字読取装置の一実施例を示す
概略構成図。
概略構成図。
【図2】本実施例の特徴抽出部の動作を説明するための
図。
図。
【図3】本実施例の特徴抽出部の動作を説明するための
図。
図。
【図4】図3におけるG部拡大図。
【図5】図3におけるH部拡大図。
【図6】字体の例を示す図。
【図7】字体の例を示す図。
【図8】字体の例を示す図。
【図9】本実施例の編集出力部が作成するコードデータ
を示す図。
を示す図。
【図10】本実施例の動作を示すフローチャート。
【図11】文書の例を示す図。
【図12】従来の光学的文字読取装置による出力結果を
示す図。
示す図。
1 イメージ検出部 3 文字切出し部 5 特徴抽出部 7 文字認識部 10 編集出力部
Claims (2)
- 【請求項1】 通常の文字より際立って見える強調文字
を含む文書を光学的に読み取る光学的文字読取装置にお
いて、 前記文書のイメージを検出するイメージ検出手段と、 検出されたイメージから文字パターンを切り出す文字切
出し手段と、 切り出された文字パターンから文字構造の特徴情報と文
字の属性情報とを抽出する抽出手段と、 抽出された文字構造の特徴情報に基づいて文字を認識す
る認識手段と、 認識された文字に抽出された属性情報を付加すると共
に、その認識された文字が前記属性情報に基づいて強調
文字か否かを判定し、強調文字と判定した場合に、その
文字の認識結果に強調文字であることを示す強調文字識
別情報を付加する編集手段と、 を有することを特徴とする光学的文字読取装置。 - 【請求項2】 前記属性情報には、文字の字体又は大き
さの情報を含むものとする請求項1記載の光学的文字読
取装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5335223A JPH07200734A (ja) | 1993-12-28 | 1993-12-28 | 光学的文字読取装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5335223A JPH07200734A (ja) | 1993-12-28 | 1993-12-28 | 光学的文字読取装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07200734A true JPH07200734A (ja) | 1995-08-04 |
Family
ID=18286136
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5335223A Pending JPH07200734A (ja) | 1993-12-28 | 1993-12-28 | 光学的文字読取装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07200734A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007503145A (ja) * | 2003-08-18 | 2007-02-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 映像要約方法 |
| JP2012175406A (ja) * | 2011-02-22 | 2012-09-10 | Sharp Corp | 画像形成装置、および、画像形成方法 |
| JP2013041535A (ja) * | 2011-08-19 | 2013-02-28 | Fuji Xerox Co Ltd | 情報処理装置およびプログラム |
| US8542407B2 (en) | 2009-09-29 | 2013-09-24 | Sharp Kabushiki Kaisha | Image processing apparatus and method determines attributes of image blocks based on pixel edge intensities relative to normalized and fixed thresholds |
-
1993
- 1993-12-28 JP JP5335223A patent/JPH07200734A/ja active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007503145A (ja) * | 2003-08-18 | 2007-02-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 映像要約方法 |
| US8542407B2 (en) | 2009-09-29 | 2013-09-24 | Sharp Kabushiki Kaisha | Image processing apparatus and method determines attributes of image blocks based on pixel edge intensities relative to normalized and fixed thresholds |
| JP2012175406A (ja) * | 2011-02-22 | 2012-09-10 | Sharp Corp | 画像形成装置、および、画像形成方法 |
| US8629990B2 (en) | 2011-02-22 | 2014-01-14 | Sharp Kabushiki Kaisha | Image forming apparatus for identifying an unknown term in a document |
| JP2013041535A (ja) * | 2011-08-19 | 2013-02-28 | Fuji Xerox Co Ltd | 情報処理装置およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
| US5384863A (en) | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding | |
| US5669007A (en) | Method and system for analyzing the logical structure of a document | |
| Lu et al. | Document image retrieval through word shape coding | |
| JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
| KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
| JPS63155386A (ja) | 帳票デ−タ読取装置 | |
| KR20010093764A (ko) | 어근 모델에 근거한 초서체 한자 주석의 검색법 | |
| JPH0520500A (ja) | 文書認識装置 | |
| JPH0682403B2 (ja) | 光学式文字読取装置 | |
| JP3216800B2 (ja) | 手書き文字認識方法 | |
| JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
| JPH07200734A (ja) | 光学的文字読取装置 | |
| JP2002063548A (ja) | 手書き文字認識方法 | |
| JPH08180068A (ja) | 電子ファイリング装置 | |
| JPH103483A (ja) | 情報検索装置 | |
| JP3897999B2 (ja) | 手書き文字認識方法 | |
| JPH0528324A (ja) | 英文字認識装置 | |
| JPH09274645A (ja) | 文字認識方法および装置 | |
| Amin | Recognition of printed Arabic text using machine learning | |
| JPH113401A (ja) | 情報処理装置及びその方法 | |
| JPS62281082A (ja) | 文字認識装置 | |
| JP2549831B2 (ja) | 文字認識装置の入力パターン・文字列登録方法 | |
| KR100292352B1 (ko) | 형태소 분석을 이용한 인식기의 편집방법 | |
| JP2851865B2 (ja) | 文字認識装置 |