JPH076202A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH076202A JPH076202A JP5030986A JP3098693A JPH076202A JP H076202 A JPH076202 A JP H076202A JP 5030986 A JP5030986 A JP 5030986A JP 3098693 A JP3098693 A JP 3098693A JP H076202 A JPH076202 A JP H076202A
- Authority
- JP
- Japan
- Prior art keywords
- line
- character
- lines
- characters
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【目的】 画像データから1行として切り出された行内
に含まれる1行分よりも小さな文字で構成された複数行
を正しく切り出して、認識率の向上を図る。 【構成】 認識対象文書を光電変換する画像読み取り部
1と、認識対象文書の画像データから行単位の画像デー
タを切り出す行切り出し部2と、切り出された1行中に
含まれて1行分よりも小さな文字で複数行を構成する分
行文字の有無を検出する分行文字検出部3と、分行文字
を含む行が正しく認識されるように切り出し直す分行文
字処理部4と、切り出された結果を基にして文字認識を
行なう文字認識部5とを備えている。
に含まれる1行分よりも小さな文字で構成された複数行
を正しく切り出して、認識率の向上を図る。 【構成】 認識対象文書を光電変換する画像読み取り部
1と、認識対象文書の画像データから行単位の画像デー
タを切り出す行切り出し部2と、切り出された1行中に
含まれて1行分よりも小さな文字で複数行を構成する分
行文字の有無を検出する分行文字検出部3と、分行文字
を含む行が正しく認識されるように切り出し直す分行文
字処理部4と、切り出された結果を基にして文字認識を
行なう文字認識部5とを備えている。
Description
【0001】
【産業上の利用分野】本発明は、文書に書かれた文字を
認識するための文字認識装置に関する。
認識するための文字認識装置に関する。
【0002】
【従来の技術】従来、この種の文字認識装置では、新
聞、雑誌、小説などの活字、ドット文字および手書き文
字パターン等をスキャナなどの画像読み取り装置から画
像データとして読み込み、一文字ずつJIS等のコード
情報に変換して出力していた。
聞、雑誌、小説などの活字、ドット文字および手書き文
字パターン等をスキャナなどの画像読み取り装置から画
像データとして読み込み、一文字ずつJIS等のコード
情報に変換して出力していた。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の文字認識装置では、文字画像データの外接矩形の並
びを基にして行を切り出していたため、行内に大きさの
小さい複数行の文字列が含まれている場合は、その行を
正確に切り出すことができなかった。
来の文字認識装置では、文字画像データの外接矩形の並
びを基にして行を切り出していたため、行内に大きさの
小さい複数行の文字列が含まれている場合は、その行を
正確に切り出すことができなかった。
【0004】このため、認識対象文書の原文が例えば、
図6に示すように、通常の1行分である「松下太郎」の
前に小さな文字で2行分の「九州事業部」「営業課長」
の文字列がある場合、従来の装置では、図7に示すよう
に、すべてが「松下太郎」の1行分にあわせて切り出さ
れてしまうため、図8に示すように、「松下太郎」の前
の2行分が正しく認識されずに、誤った文字が出力され
るという問題があった。
図6に示すように、通常の1行分である「松下太郎」の
前に小さな文字で2行分の「九州事業部」「営業課長」
の文字列がある場合、従来の装置では、図7に示すよう
に、すべてが「松下太郎」の1行分にあわせて切り出さ
れてしまうため、図8に示すように、「松下太郎」の前
の2行分が正しく認識されずに、誤った文字が出力され
るという問題があった。
【0005】本発明は、このような従来の問題を解決す
るものであり、1行分中に小さな文字で複数行の文字列
がある場合でも、その複数行を正しく切り出すことので
きる文字認識装置を提供することを目的とする。
るものであり、1行分中に小さな文字で複数行の文字列
がある場合でも、その複数行を正しく切り出すことので
きる文字認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文字認識装置は、認識対象文書を光電変換
する画像読み取り部と、認識対象文書の画像データから
行単位の画像データを切り出す行切り出し部と、切り出
された1行中に含まれて1行分よりも小さな文字で複数
行を構成する分行文字の有無を検出する分行文字検出部
と、分行文字を含む行が正しく認識されるように切り出
し直す分行文字処理部と、切り出された結果を基にして
文字認識を行なう文字認識部とを備えたものである。
に、本発明の文字認識装置は、認識対象文書を光電変換
する画像読み取り部と、認識対象文書の画像データから
行単位の画像データを切り出す行切り出し部と、切り出
された1行中に含まれて1行分よりも小さな文字で複数
行を構成する分行文字の有無を検出する分行文字検出部
と、分行文字を含む行が正しく認識されるように切り出
し直す分行文字処理部と、切り出された結果を基にして
文字認識を行なう文字認識部とを備えたものである。
【0007】
【作用】本発明は、上記構成により、文字画像データか
ら1行として切り出された行内に含まれる1行分よりも
小さな文字で構成された複数行を正しく切り出すことが
でき、認識率の向上を図ることができる。
ら1行として切り出された行内に含まれる1行分よりも
小さな文字で構成された複数行を正しく切り出すことが
でき、認識率の向上を図ることができる。
【0008】
【実施例】以下、本発明の一実施例について説明する。
まず、語句の定義を行なう。切り出された1行中に含ま
れる1行分よりも小さな文字で構成された複数行の文字
を「分行文字」と呼ぶことにする。
まず、語句の定義を行なう。切り出された1行中に含ま
れる1行分よりも小さな文字で構成された複数行の文字
を「分行文字」と呼ぶことにする。
【0009】図1は本発明の一実施例における文字認識
装置のブロック図である。図1において、1は認識対象
文書を光電変換する画像読み取り部、2は認識対象文書
の画像データから行単位の画像データを切り出す行切り
出し部、3は分行文字の有無を検出する分行文字検出
部、4は分行文字を含む行が正しく認識されるように切
り出し直す分行文字処理部、5は切り出された結果を基
にして文字認識を行なう文字認識部である。
装置のブロック図である。図1において、1は認識対象
文書を光電変換する画像読み取り部、2は認識対象文書
の画像データから行単位の画像データを切り出す行切り
出し部、3は分行文字の有無を検出する分行文字検出
部、4は分行文字を含む行が正しく認識されるように切
り出し直す分行文字処理部、5は切り出された結果を基
にして文字認識を行なう文字認識部である。
【0010】以上のように構成された本実施例の文字認
識装置について、以下その動作を図2のフローチャート
を用いて説明する。なお、原画像は、従来例と同じ図6
に示すものとする。まず画像読み取り部1において、認
識対象文書を光電変換し、画像データを得る(ステップ
11)。次に、行切り出し部2において、原画像データ
から行単位の画像データを切り出す(ステップ12)。
切り出された行数をlineMax とする(ステップ13)。
次にlineにlineMax を代入する(ステップ14)。次
に、line行中の全ての文字画像の外接矩形を求める(ス
テップ15)。このようにして外接矩形を求めた結果を
図3に示す。
識装置について、以下その動作を図2のフローチャート
を用いて説明する。なお、原画像は、従来例と同じ図6
に示すものとする。まず画像読み取り部1において、認
識対象文書を光電変換し、画像データを得る(ステップ
11)。次に、行切り出し部2において、原画像データ
から行単位の画像データを切り出す(ステップ12)。
切り出された行数をlineMax とする(ステップ13)。
次にlineにlineMax を代入する(ステップ14)。次
に、line行中の全ての文字画像の外接矩形を求める(ス
テップ15)。このようにして外接矩形を求めた結果を
図3に示す。
【0011】次に、外接矩形データの中からノイズを取
り除く(ステップ16)。ノイズとみなされる条件は次
の2点である。 外接矩形の幅、高さともに5ドット以下である。 他の外接矩形と接触していない。 以上の2点を満足する外接矩形はノイズとみなし、除去
する。
り除く(ステップ16)。ノイズとみなされる条件は次
の2点である。 外接矩形の幅、高さともに5ドット以下である。 他の外接矩形と接触していない。 以上の2点を満足する外接矩形はノイズとみなし、除去
する。
【0012】次に、分行文字検出部3において、line行
の上下端のy座標を求める(ステップ17)。図4に示
すように、切り出されたline行の上端をuyとし、下端を
lyとし、上端y座標をuyに代入し、下端y座標をlyに代
入する。次いで、line行の中心線cyを求め(ステップ1
8)、(ly−uy)/2をcyに代入する。次いで、分行文
字処理を行なうかどうかを判定する(ステップ19)。
判定基準を以下に示す。 外接矩形の幅、高さともに10ドット以上ある。 外接矩形が、cyにまたがらない。 外接矩形が、他の外接矩形に接触していない。 以上の条件を満足する外接矩形が5回以上連続して存在
するとき、ステップ20へ進んで分行文字処理部4によ
り分行文字処理を行ない、存在しないときはステップ2
1へ進む。
の上下端のy座標を求める(ステップ17)。図4に示
すように、切り出されたline行の上端をuyとし、下端を
lyとし、上端y座標をuyに代入し、下端y座標をlyに代
入する。次いで、line行の中心線cyを求め(ステップ1
8)、(ly−uy)/2をcyに代入する。次いで、分行文
字処理を行なうかどうかを判定する(ステップ19)。
判定基準を以下に示す。 外接矩形の幅、高さともに10ドット以上ある。 外接矩形が、cyにまたがらない。 外接矩形が、他の外接矩形に接触していない。 以上の条件を満足する外接矩形が5回以上連続して存在
するとき、ステップ20へ進んで分行文字処理部4によ
り分行文字処理を行ない、存在しないときはステップ2
1へ進む。
【0013】ステップ20において、外接矩形データを
x,y座標、中心線cyによりソートし、新しい行を構築
する。以下にその手順を示す。 x1座標の小さい外接矩形から順に並べる。 中心線にまたがる外接矩形を探す。 外接矩形が発見されたならば、その外接矩形の直前
までの外接矩形をy2座標の小さいものから順番に並べ
る。 中心線cyによって上下に分割することにより、細分
化された2行が得られる。 またがった外接矩形から順番に外接矩形データ群を
検索し、またがらない外接矩形を探す。 外接矩形が発見されたならば、その外接矩形の直前
までの外接矩形を一つの行とする。 以上の手順を繰り返す。但し、またがった外接矩形
が発見されないまま全ての外接矩形を探索し終わったな
らば、未処理の外接矩形は境界線で上下に分割し、新し
い行を得る。 以上のような処理により図5に示すような正しく分行さ
れた文字列を得ることができる。
x,y座標、中心線cyによりソートし、新しい行を構築
する。以下にその手順を示す。 x1座標の小さい外接矩形から順に並べる。 中心線にまたがる外接矩形を探す。 外接矩形が発見されたならば、その外接矩形の直前
までの外接矩形をy2座標の小さいものから順番に並べ
る。 中心線cyによって上下に分割することにより、細分
化された2行が得られる。 またがった外接矩形から順番に外接矩形データ群を
検索し、またがらない外接矩形を探す。 外接矩形が発見されたならば、その外接矩形の直前
までの外接矩形を一つの行とする。 以上の手順を繰り返す。但し、またがった外接矩形
が発見されないまま全ての外接矩形を探索し終わったな
らば、未処理の外接矩形は境界線で上下に分割し、新し
い行を得る。 以上のような処理により図5に示すような正しく分行さ
れた文字列を得ることができる。
【0014】次に、行切り出し結果を基にして文字認識
を行ない(ステップ21)、次いで1ラインデクリメン
トし(ステップ22)、最後の行まで以上の処理を繰り
返す(ステップ23)。
を行ない(ステップ21)、次いで1ラインデクリメン
トし(ステップ22)、最後の行まで以上の処理を繰り
返す(ステップ23)。
【0015】
【発明の効果】本発明は、上記実施例から明らかなよう
に、文字画像データから1行として切り出された行内に
含まれる1行分よりも小さい文字で構成された複数行を
正しく切り出すことができ、認識率の向上を図ることが
できる。
に、文字画像データから1行として切り出された行内に
含まれる1行分よりも小さい文字で構成された複数行を
正しく切り出すことができ、認識率の向上を図ることが
できる。
【図1】本発明の一実施例における文字認識装置のブロ
ック図。
ック図。
【図2】本発明の一実施例におけるフローチャート。
【図3】本発明の一実施例における外接矩形図。
【図4】本発明の一実施例における行中心線設定図。
【図5】本発明の一実施例における行切り出し結果図。
【図6】本発明および従来技術の説明に用いる原画像
図。
図。
【図7】従来技術の説明に用いる行切り出し結果図。
【図8】従来技術の説明に用いる文字認識結果図。
1 画像読み取り部 2 行切り出し部 3 分行文字検出部 4 分行文字処理部 5 文字認識部
Claims (2)
- 【請求項1】 認識対象文書を光電変換する画像読み取
り部と、認識対象文書の画像データから行単位の画像デ
ータを切り出す行切り出し部と、切り出された1行中に
含まれて1行分よりも小さな文字で複数行を構成する分
行文字の有無を検出する分行文字検出部と、分行文字を
含む行が正しく認識されるように切り出し直す分行文字
処理部と、切り出された結果を基にして文字認識を行な
う文字認識部とを備えた文字認識装置。 - 【請求項2】 2行の分行文字が検出された場合、分行
文字処理部は、切り出された1行の上端と下端を検出
し、その上下端の中心を前記2行の境界線と定め、境界
線に重ならない領域と、境界線に重なる領域とに分割
し、境界線に重ならない領域は境界線を境にして2行分
の行を切り出し、境界線に重なる領域は1行分の行を切
り出すことを特徴とする請求項1記載の文字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5030986A JPH076202A (ja) | 1993-02-19 | 1993-02-19 | 文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5030986A JPH076202A (ja) | 1993-02-19 | 1993-02-19 | 文字認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH076202A true JPH076202A (ja) | 1995-01-10 |
Family
ID=12318951
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5030986A Pending JPH076202A (ja) | 1993-02-19 | 1993-02-19 | 文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH076202A (ja) |
-
1993
- 1993-02-19 JP JP5030986A patent/JPH076202A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6754385B2 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
| US6640010B2 (en) | Word-to-word selection on images | |
| JPH11120293A (ja) | 文字認識/修正方式 | |
| JP3411472B2 (ja) | パターン抽出装置 | |
| JPH04270485A (ja) | 印刷文字認識装置 | |
| JPH0713994A (ja) | 文字認識装置 | |
| JP3608674B2 (ja) | 楽譜認識装置 | |
| JPH076202A (ja) | 文字認識装置 | |
| JPH04352295A (ja) | 文字列方向判別装置 | |
| JP4849883B2 (ja) | 行方向判定プログラム、方法及び装置 | |
| JP3613356B2 (ja) | 楽譜認識装置 | |
| JP3437296B2 (ja) | 文字列高速抽出装置 | |
| JPH09134404A (ja) | 棒グラフ認識装置 | |
| JP2918363B2 (ja) | 文字分類方法及び文字認識装置 | |
| JP3196603B2 (ja) | バーコード認識方法及びシステム | |
| JP2931485B2 (ja) | 文字切出し装置及び方法 | |
| JP2006277149A (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
| JPH10162104A (ja) | 文字認識装置 | |
| JP2917394B2 (ja) | 文字認識装置及び文字切り出し方法 | |
| JPH05128305A (ja) | 領域分割方法 | |
| JPH04260980A (ja) | 図形認識装置 | |
| JPH0343879A (ja) | 文字認識装置およびその文字領域分離方法 | |
| JPH0728933A (ja) | 文字認識装置 | |
| JPH0573716A (ja) | 英文字認識装置 | |
| JPH0324681A (ja) | 画像処理方法及び装置 |