JPH06203207A - 文字切出し装置 - Google Patents
文字切出し装置Info
- Publication number
- JPH06203207A JPH06203207A JP4349430A JP34943092A JPH06203207A JP H06203207 A JPH06203207 A JP H06203207A JP 4349430 A JP4349430 A JP 4349430A JP 34943092 A JP34943092 A JP 34943092A JP H06203207 A JPH06203207 A JP H06203207A
- Authority
- JP
- Japan
- Prior art keywords
- character
- pitch
- standard
- width
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title description 2
- 238000009826 distribution Methods 0.000 claims description 8
- 239000011295 pitch Substances 0.000 abstract description 69
- 238000005520 cutting process Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 101000685663 Homo sapiens Sodium/nucleoside cotransporter 1 Proteins 0.000 description 4
- 101000821827 Homo sapiens Sodium/nucleoside cotransporter 2 Proteins 0.000 description 4
- 102100023116 Sodium/nucleoside cotransporter 1 Human genes 0.000 description 4
- 102100021541 Sodium/nucleoside cotransporter 2 Human genes 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【目的】文字列の文字が連結したり、空白文字が存在し
たりしても確実に文字の切り出しが行えるようにする。 【構成】黒ドット数を数えて各文字のスタート点、エン
ド点を検出する(ステップ5〜10)。検出した各スター
ト点、エンド点から各文字の幅、ピッチを算出し(ステ
ップ11)、標準文字幅WK 、標準文字ピッチPK を算出
する(ステップ15)。そして各文字の幅、ピッチを夫々
標準文字幅WK 、標準文字ピッチPKと比較して(ステ
ップ20、23)文字列に空白文字が存在するか、連結した
文字が存在するかを判定し(ステップ21、24、25)、判
定結果に基づいて文字の切り出しを行う(ステップ22、
26)。
たりしても確実に文字の切り出しが行えるようにする。 【構成】黒ドット数を数えて各文字のスタート点、エン
ド点を検出する(ステップ5〜10)。検出した各スター
ト点、エンド点から各文字の幅、ピッチを算出し(ステ
ップ11)、標準文字幅WK 、標準文字ピッチPK を算出
する(ステップ15)。そして各文字の幅、ピッチを夫々
標準文字幅WK 、標準文字ピッチPKと比較して(ステ
ップ20、23)文字列に空白文字が存在するか、連結した
文字が存在するかを判定し(ステップ21、24、25)、判
定結果に基づいて文字の切り出しを行う(ステップ22、
26)。
Description
【0001】
【産業上の利用分野】本発明は、文字認識をするために
1文字毎に文字切り出しを行う文字切り出し装置に関す
る。
1文字毎に文字切り出しを行う文字切り出し装置に関す
る。
【0002】
【従来の技術】近年、文字認識装置が開発されつつあ
る。かかる装置で1文字ずつ文字認識するには、所定の
文字列から1文字ずつ文字の切り出しを行わなければな
らない。。かかる処理を行う文字切り出し装置では、文
字切り出し対象の文字列上を例えばイメージスキャナ等
で走査して検出されたイメージデータを入力し、このイ
メージデータから文字の切れ目を探し、1文字ずつ切り
出すようにしている。
る。かかる装置で1文字ずつ文字認識するには、所定の
文字列から1文字ずつ文字の切り出しを行わなければな
らない。。かかる処理を行う文字切り出し装置では、文
字切り出し対象の文字列上を例えばイメージスキャナ等
で走査して検出されたイメージデータを入力し、このイ
メージデータから文字の切れ目を探し、1文字ずつ切り
出すようにしている。
【0003】
【発明が解決しようとする課題】ところで、従来の文字
切り出し装置では、例えばコピーをした時に文字列上の
文字がつぶれてしまって隣同士の文字が連結した場合に
は、連結した文字を1つの文字と判定してしまい、1つ
1つの文字を切り出すことが出来なくなり、また文字列
に空白文字が存在する場合には、空白文字を文字の切れ
目と判定してしまい、空白文字の切り出しがうまく行え
なかった。そしてこのように1つ1つの文字の切り出し
が正確に行えないと、次工程における文字認識も不正確
となる。
切り出し装置では、例えばコピーをした時に文字列上の
文字がつぶれてしまって隣同士の文字が連結した場合に
は、連結した文字を1つの文字と判定してしまい、1つ
1つの文字を切り出すことが出来なくなり、また文字列
に空白文字が存在する場合には、空白文字を文字の切れ
目と判定してしまい、空白文字の切り出しがうまく行え
なかった。そしてこのように1つ1つの文字の切り出し
が正確に行えないと、次工程における文字認識も不正確
となる。
【0004】本発明ではこのような従来の課題に鑑みて
なされたもので、文字列の文字が連結したり、空白文字
が存在したりしても確実に文字の切り出しを行うことが
可能な文字切り出し装置を提供することを目的とする。
なされたもので、文字列の文字が連結したり、空白文字
が存在したりしても確実に文字の切り出しを行うことが
可能な文字切り出し装置を提供することを目的とする。
【0005】
【課題を解決するための手段】このため本発明は、図1
に示すように、文字ピッチ及び文字の大きさを一定にし
て記述された文字列から、文字を1つずつ切り出す文字
切り出し装置において、切り出し対象の1行の文字列に
切り出し枠を設定し、切り出し枠内の文字列を読み取る
入力手段と、前記読み取った切り出し枠内の文字列を、
表示有りドット、表示無しドットのドットパターンに2
値化する2値化手段と、前記切り出し枠内の前記ドット
パターンを文字列に沿って走査してドット数をカウント
するカウント手段と、前記ドットパターンの各ドットの
表示の有無を検知し、表示無しドットから表示有りドッ
トになった時、表示有りドットから表示無しドットにな
った時のカウント手段のカウント値を始点、終点として
検出する始点・終点検出手段と、前記各文字の始点間の
ドット数を文字ピッチとし、始点から終点までのドット
数を文字幅として文字ピッチ・文字幅を算出する文字ピ
ッチ・文字幅算出手段と、前記文字列のすべての文字ピ
ッチ、文字幅に基づいて夫々の度数分布を算出し、該度
数分布からこの文字列の標準文字幅と標準文字ピッチと
を設定する標準幅・標準ピッチ設定手段と、前記文字幅
・文字ピッチ算出手段により算出された文字ピッチ、文
字幅を、前記標準幅・標準ピッチ設定手段により設定さ
れた標準文字幅・標準文字ピッチと比較し、比較結果に
基づいて1文字であるか、2つ以上の文字が連結してい
るか、あるいは空白文字有りと判定する判定手段と、該
判定手段により1文字であると判定された時には、該1
文字をそのまま切り出し、2つ以上の文字が連結してい
ると判定された時、及び文字の後ろに空白文字有りと判
定された時には標準文字ピッチに基づいて連結した文字
を1文字ずつ、あるいは文字と空白文字とを強制的に切
り出す切り出し手段と、を備えるようにした。
に示すように、文字ピッチ及び文字の大きさを一定にし
て記述された文字列から、文字を1つずつ切り出す文字
切り出し装置において、切り出し対象の1行の文字列に
切り出し枠を設定し、切り出し枠内の文字列を読み取る
入力手段と、前記読み取った切り出し枠内の文字列を、
表示有りドット、表示無しドットのドットパターンに2
値化する2値化手段と、前記切り出し枠内の前記ドット
パターンを文字列に沿って走査してドット数をカウント
するカウント手段と、前記ドットパターンの各ドットの
表示の有無を検知し、表示無しドットから表示有りドッ
トになった時、表示有りドットから表示無しドットにな
った時のカウント手段のカウント値を始点、終点として
検出する始点・終点検出手段と、前記各文字の始点間の
ドット数を文字ピッチとし、始点から終点までのドット
数を文字幅として文字ピッチ・文字幅を算出する文字ピ
ッチ・文字幅算出手段と、前記文字列のすべての文字ピ
ッチ、文字幅に基づいて夫々の度数分布を算出し、該度
数分布からこの文字列の標準文字幅と標準文字ピッチと
を設定する標準幅・標準ピッチ設定手段と、前記文字幅
・文字ピッチ算出手段により算出された文字ピッチ、文
字幅を、前記標準幅・標準ピッチ設定手段により設定さ
れた標準文字幅・標準文字ピッチと比較し、比較結果に
基づいて1文字であるか、2つ以上の文字が連結してい
るか、あるいは空白文字有りと判定する判定手段と、該
判定手段により1文字であると判定された時には、該1
文字をそのまま切り出し、2つ以上の文字が連結してい
ると判定された時、及び文字の後ろに空白文字有りと判
定された時には標準文字ピッチに基づいて連結した文字
を1文字ずつ、あるいは文字と空白文字とを強制的に切
り出す切り出し手段と、を備えるようにした。
【0006】
【作用】上記の構成によれば、入力手段により切り出し
対象の1行の文字列に切り出し枠が設定され、切り出し
枠内の文字列が読み取られる。この文字列は2値化手段
により2値化され、表示有りドットと表示無しドットの
ドットパターンになる。そしてカウント手段により切り
出し枠内のドットパターンが文字列に沿って走査され、
そのドット数がカウントされる。ドットの表示の有無は
始点・終点検出手段により検知されると共に、始点・終
点検出手段は表示無しドットから表示有りドットになっ
た時、表示有りドットから表示無しドットになった時の
カウント手段のカウント値を始点、終点として検出す
る。1行の文字列に記述された文字中心間の文字中心ピ
ッチ、及び文字の大きさは一定なので、文字幅・文字ピ
ッチ算出手段により、始点間のドット数を文字ピッチと
し、始点から終点までのドット数を文字幅として文字幅
・文字ピッチが算出される。そしてこの各文字幅と文字
ピッチとに基づいて夫々の度数分布が標準幅・標準ピッ
チ設定手段により算出され、該度数分布から標準文字幅
と標準文字ピッチとが設定される。
対象の1行の文字列に切り出し枠が設定され、切り出し
枠内の文字列が読み取られる。この文字列は2値化手段
により2値化され、表示有りドットと表示無しドットの
ドットパターンになる。そしてカウント手段により切り
出し枠内のドットパターンが文字列に沿って走査され、
そのドット数がカウントされる。ドットの表示の有無は
始点・終点検出手段により検知されると共に、始点・終
点検出手段は表示無しドットから表示有りドットになっ
た時、表示有りドットから表示無しドットになった時の
カウント手段のカウント値を始点、終点として検出す
る。1行の文字列に記述された文字中心間の文字中心ピ
ッチ、及び文字の大きさは一定なので、文字幅・文字ピ
ッチ算出手段により、始点間のドット数を文字ピッチと
し、始点から終点までのドット数を文字幅として文字幅
・文字ピッチが算出される。そしてこの各文字幅と文字
ピッチとに基づいて夫々の度数分布が標準幅・標準ピッ
チ設定手段により算出され、該度数分布から標準文字幅
と標準文字ピッチとが設定される。
【0007】次に判定手段により、各文字列の各文字の
算出された文字幅は標準文字幅と比較され、また文字ピ
ッチは標準文字ピッチと比較され、比較した結果、判定
手段により文字列の各文字が1文字ずつになっているか
否かが判定される。即ち、文字ピッチと標準文字ピッ
チ、あるいは文字幅と標準文字幅が略同じである時に
は、対応する文字は1文字であると判定される。また例
えば文字ピッチが標準文字ピッチよりも大きく、且つ該
文字幅が標準文字幅よりも大きい時には2つ以上の文字
が連結していると判定され、文字ピッチが標準文字ピッ
チより大きく、文字幅が標準幅と略同じである時には、
文字の後ろに空白文字有りと判定される。
算出された文字幅は標準文字幅と比較され、また文字ピ
ッチは標準文字ピッチと比較され、比較した結果、判定
手段により文字列の各文字が1文字ずつになっているか
否かが判定される。即ち、文字ピッチと標準文字ピッ
チ、あるいは文字幅と標準文字幅が略同じである時に
は、対応する文字は1文字であると判定される。また例
えば文字ピッチが標準文字ピッチよりも大きく、且つ該
文字幅が標準文字幅よりも大きい時には2つ以上の文字
が連結していると判定され、文字ピッチが標準文字ピッ
チより大きく、文字幅が標準幅と略同じである時には、
文字の後ろに空白文字有りと判定される。
【0008】この判定に基づいて、1文字であると判定
された時には、切り出し手段により該1文字はそのまま
切り出され、2つ以上の文字が連結していると判定され
た時、及び文字の後ろに空白有りと判定された時には標
準文字ピッチに基づいて連結した文字が1文字ずつ、ま
た文字と空白文字とが強制的に切り出される。これによ
り文字列の文字は確実に1文字ずつ切り出され、文字認
識も確実に行うことが可能となる。
された時には、切り出し手段により該1文字はそのまま
切り出され、2つ以上の文字が連結していると判定され
た時、及び文字の後ろに空白有りと判定された時には標
準文字ピッチに基づいて連結した文字が1文字ずつ、ま
た文字と空白文字とが強制的に切り出される。これによ
り文字列の文字は確実に1文字ずつ切り出され、文字認
識も確実に行うことが可能となる。
【0009】
【実施例】以下、本発明の一実施例を図2〜6に基づい
て説明する。本実施例を示す図2において、原稿上に
は、文字ピッチ及び文字の大きさを一定にして記述され
た文字列が表示されている。イメージスキャナ1は、こ
の原稿上の1行の文字列に、図5(A)に示すような切
り出し枠11を設定し、切り出し枠11内の文字列をイメー
ジデータとして読み取るもので入力手段に相当する。イ
メージスキャナ1によって読み取られたデータは、A/
D変換器2によってディジタル化されて例えば白黒2値
のドットパターンに変換された後、文字切り出し・認識
装置3に入力され、記憶される。文字切り出し・認識装
置3には、カウンタと文字切り出し処理を行うソフトウ
ェアが内蔵され、記憶した文字列の入力データから文字
認識用の文字が1文字ずつ切り出される。
て説明する。本実施例を示す図2において、原稿上に
は、文字ピッチ及び文字の大きさを一定にして記述され
た文字列が表示されている。イメージスキャナ1は、こ
の原稿上の1行の文字列に、図5(A)に示すような切
り出し枠11を設定し、切り出し枠11内の文字列をイメー
ジデータとして読み取るもので入力手段に相当する。イ
メージスキャナ1によって読み取られたデータは、A/
D変換器2によってディジタル化されて例えば白黒2値
のドットパターンに変換された後、文字切り出し・認識
装置3に入力され、記憶される。文字切り出し・認識装
置3には、カウンタと文字切り出し処理を行うソフトウ
ェアが内蔵され、記憶した文字列の入力データから文字
認識用の文字が1文字ずつ切り出される。
【0010】次に本実施例の文字切り出し処理を図3及
び4のフローチャートに基づいて説明する。ステップ
(図中では「S」と記してあり、以下同様とする)1で
は、設定された切り出し枠11内において、黒ドットの数
を縦方向に数え、図5(B)のような黒ドット数の分布
図を作成する。そして例えばごみ等による黒ドットの影
響を受けないような所定基準値を設け、縦方向の黒ドッ
ト数をこの基準値と比較判定して2値化することによ
り、図5(C)のような文字を構成する黒ドットの有無
を示す1次元の数字列が作成される。尚、本実施例で
は、表示有りドット、表示無しドットを夫々黒ドット、
白ドットとして、黒ドットがある時、ない時の入力信号
が夫々ハイレベル「H」、「L」となるようにしたが、
これに限られるものではなく、例えば反転文字のような
場合には、表示有りドット、表示無しドットは夫々白ド
ット、黒ドットとなるし、また入力信号の信号レベルも
本実施例の逆になるように設定してもよい。
び4のフローチャートに基づいて説明する。ステップ
(図中では「S」と記してあり、以下同様とする)1で
は、設定された切り出し枠11内において、黒ドットの数
を縦方向に数え、図5(B)のような黒ドット数の分布
図を作成する。そして例えばごみ等による黒ドットの影
響を受けないような所定基準値を設け、縦方向の黒ドッ
ト数をこの基準値と比較判定して2値化することによ
り、図5(C)のような文字を構成する黒ドットの有無
を示す1次元の数字列が作成される。尚、本実施例で
は、表示有りドット、表示無しドットを夫々黒ドット、
白ドットとして、黒ドットがある時、ない時の入力信号
が夫々ハイレベル「H」、「L」となるようにしたが、
これに限られるものではなく、例えば反転文字のような
場合には、表示有りドット、表示無しドットは夫々白ド
ット、黒ドットとなるし、また入力信号の信号レベルも
本実施例の逆になるように設定してもよい。
【0011】ステップ2では、エンド点E、スタート点
Sのカウント値nを1にセットし、初期化する。ステッ
プ3では、切り出し枠11の一端から、文字列に沿ったド
ット数をカウントするカウンタのカウント値CNT1、
及びスタート点Sからのドット数をカウントするカウン
タのカウント値CNT2を各々1にセットし、初期化す
る。
Sのカウント値nを1にセットし、初期化する。ステッ
プ3では、切り出し枠11の一端から、文字列に沿ったド
ット数をカウントするカウンタのカウント値CNT1、
及びスタート点Sからのドット数をカウントするカウン
タのカウント値CNT2を各々1にセットし、初期化す
る。
【0012】ステップ4では、切り出し枠11の最初が黒
ドットであるか否かを判定する。最初が黒ドットであれ
ば切り出し枠11の端から文字が存在することになる。最
初が黒ドットでなければステップ4→8に進むが、黒ド
ットであればステップ5に進む。ステップ5では、黒ド
ットが切れたか否かを判定し、黒ドットが切れて入力信
号が「L」になるまでステップ7でカウント値CNT
1、CNT2を夫々インクリメントする。
ドットであるか否かを判定する。最初が黒ドットであれ
ば切り出し枠11の端から文字が存在することになる。最
初が黒ドットでなければステップ4→8に進むが、黒ド
ットであればステップ5に進む。ステップ5では、黒ド
ットが切れたか否かを判定し、黒ドットが切れて入力信
号が「L」になるまでステップ7でカウント値CNT
1、CNT2を夫々インクリメントする。
【0013】黒ドットが切れた時、ステップ5→7に進
み、カウント値CNT1の値をエンド点En に代入し、
エンド点En を記憶保持する。尚、最初が黒ドットの時
にはエンド点を記憶しない。次にステップ8〜9では、
もう一度黒が出て来るまでの黒ドット数を、カウント値
CNT1、2をインクリメントすることにより数え、黒
ドットが出てきたら入力信号が「H」となるので、ステ
ップ10→11に進み、カウント値CNT1をスタート点S
n に代入し、スタート点Sn を記憶する。
み、カウント値CNT1の値をエンド点En に代入し、
エンド点En を記憶保持する。尚、最初が黒ドットの時
にはエンド点を記憶しない。次にステップ8〜9では、
もう一度黒が出て来るまでの黒ドット数を、カウント値
CNT1、2をインクリメントすることにより数え、黒
ドットが出てきたら入力信号が「H」となるので、ステ
ップ10→11に進み、カウント値CNT1をスタート点S
n に代入し、スタート点Sn を記憶する。
【0014】ステップ11では、文字幅Wn 、文字ピッチ
Pn を算出する。即ち、(En −S n )を文字幅W
n に、カウント値CNT2を文字ピッチPn に代入す
る。ステップ5〜11の処理を、切り出し枠11内の文字列
の読み取りが終了するまで繰り返し、その間、ステップ
12→13に進み、ステップ13、14で夫々カウント値n、C
NT2をインクリメントしてステップ5に戻る。
Pn を算出する。即ち、(En −S n )を文字幅W
n に、カウント値CNT2を文字ピッチPn に代入す
る。ステップ5〜11の処理を、切り出し枠11内の文字列
の読み取りが終了するまで繰り返し、その間、ステップ
12→13に進み、ステップ13、14で夫々カウント値n、C
NT2をインクリメントしてステップ5に戻る。
【0015】切り出し枠11内の文字列の読み取りがすべ
て終了したら、ステップ12→15に進み、標準文字ピッチ
PK 、標準文字幅WK を設定する。標準文字ピッチ
PK 、標準文字幅WK を設定するには、文字列の各文字
の文字幅Wn 、文字ピッチPn のヒストグラムを作成す
る。例えば図6は、標準文字ピッチPK を設定する為に
作成されたヒストグラムであり、横軸、縦軸は夫々文字
ピッチのドット数、度数である。図6において、横軸を
1つずつ見ていくと、文字ピッチの頻度が最も高い点は
11ドットであるが、この図を3ドットずつまとめて見て
いくと、実際には標準文字ピッチPK は10となる。この
まとめて見ていくドット数3は設定値であり、イメージ
スキャナ1の解像度と文字の大きさによって決まる数字
である。また20、30ドットにも分布が現れているのは、
例えばコピーをした時に文字列上の文字がつぶれてしま
って連結した文字によるものである。このように文字ピ
ッチのヒストグラムを作成して標準文字ピッチPK を設
定することが出来る。文字幅についても同じようなヒス
トグラムとなり、同様にして標準文字幅WK を設定する
ことが出来る。
て終了したら、ステップ12→15に進み、標準文字ピッチ
PK 、標準文字幅WK を設定する。標準文字ピッチ
PK 、標準文字幅WK を設定するには、文字列の各文字
の文字幅Wn 、文字ピッチPn のヒストグラムを作成す
る。例えば図6は、標準文字ピッチPK を設定する為に
作成されたヒストグラムであり、横軸、縦軸は夫々文字
ピッチのドット数、度数である。図6において、横軸を
1つずつ見ていくと、文字ピッチの頻度が最も高い点は
11ドットであるが、この図を3ドットずつまとめて見て
いくと、実際には標準文字ピッチPK は10となる。この
まとめて見ていくドット数3は設定値であり、イメージ
スキャナ1の解像度と文字の大きさによって決まる数字
である。また20、30ドットにも分布が現れているのは、
例えばコピーをした時に文字列上の文字がつぶれてしま
って連結した文字によるものである。このように文字ピ
ッチのヒストグラムを作成して標準文字ピッチPK を設
定することが出来る。文字幅についても同じようなヒス
トグラムとなり、同様にして標準文字幅WK を設定する
ことが出来る。
【0016】標準文字ピッチPK 、標準文字幅WK を設
定したら、ステップ16でまずひとつ目のエンド点E1 と
スタート点S1 とを比較する。もし先頭文字が途中で切
れていなければE1 >S1 となり、ステップ16→17に進
み、先頭の文字から切り出すようにする。またひとつ目
のエンド点E1 がスタート点S1 より小さければE1 <
S1 となり、先頭の文字は途中で切れていると判定され
てステップ17→18に進む。
定したら、ステップ16でまずひとつ目のエンド点E1 と
スタート点S1 とを比較する。もし先頭文字が途中で切
れていなければE1 >S1 となり、ステップ16→17に進
み、先頭の文字から切り出すようにする。またひとつ目
のエンド点E1 がスタート点S1 より小さければE1 <
S1 となり、先頭の文字は途中で切れていると判定され
てステップ17→18に進む。
【0017】次に、ステップ19では、カウント値mを2
にセットする。ステップ20では、文字ピッチPm と標準
文字ピッチPK とを比較する。文字ピッチPm と標準文
字ピッチPK とが略等しければステップ20で1文字であ
ると判定してステップ22に進み、1文字切り出しを行
う。もし文字ピッチPm が標準文字ピッチPK よりもか
なり大きく、文字ピッチP m に対応する文字幅Wm もか
なり大きければステップ20→23→24に進み、2つ以上の
文字が連結していると判定され、ステップ26に進んで標
準文字ピッチPK 付近で強制的に文字の切り出しを行
う。
にセットする。ステップ20では、文字ピッチPm と標準
文字ピッチPK とを比較する。文字ピッチPm と標準文
字ピッチPK とが略等しければステップ20で1文字であ
ると判定してステップ22に進み、1文字切り出しを行
う。もし文字ピッチPm が標準文字ピッチPK よりもか
なり大きく、文字ピッチP m に対応する文字幅Wm もか
なり大きければステップ20→23→24に進み、2つ以上の
文字が連結していると判定され、ステップ26に進んで標
準文字ピッチPK 付近で強制的に文字の切り出しを行
う。
【0018】また文字ピッチPm が標準文字ピッチPK
よりも大きく、文字ピッチPm に対応する文字幅Wm が
標準文字幅WK と略同じであれば、ステップ20→23→25
に進み、文字のあとに空白文字(スペース)が入ってい
ると判定される。この時も標準文字ピッチPK 付近で強
制的に文字の切り出しを行う。尚、強制的に文字の切り
出しを行った場合には、カウント値nを切り出し数だけ
インクリメントする。
よりも大きく、文字ピッチPm に対応する文字幅Wm が
標準文字幅WK と略同じであれば、ステップ20→23→25
に進み、文字のあとに空白文字(スペース)が入ってい
ると判定される。この時も標準文字ピッチPK 付近で強
制的に文字の切り出しを行う。尚、強制的に文字の切り
出しを行った場合には、カウント値nを切り出し数だけ
インクリメントする。
【0019】このようにして切り出し枠11の文字列から
全ての文字が切り出されるまで、即ち、m≧nとなるま
で繰り返す。切り出された文字は1文字毎に文字認識さ
れる。そして切り出し枠11の最後の文字が途中で途切れ
ていれば、スタート点Sm とエンド点Em とが対応しな
くなるので、ステップ27→29に進み、切り出しを行わな
いでこのルーチンを終了する。
全ての文字が切り出されるまで、即ち、m≧nとなるま
で繰り返す。切り出された文字は1文字毎に文字認識さ
れる。そして切り出し枠11の最後の文字が途中で途切れ
ていれば、スタート点Sm とエンド点Em とが対応しな
くなるので、ステップ27→29に進み、切り出しを行わな
いでこのルーチンを終了する。
【0020】尚、ステップ1が2値化手段、ステップ
3、7、10がカウント手段、ステップ6、8、9、11が
始点・終点検出手段、ステップ12が文字幅・文字ピッチ
算出手段、ステップ15が標準幅・標準ピッチ算出手段、
ステップ20、21、23〜25が判定手段、ステップ22、26が
切り出し手段に相当する。かかる構成によれば、文字列
の各文字の標準文字幅、標準文字ピッチを算出し、文字
列の各文字の幅、ピッチを、この標準文字幅、標準文字
ピッチと比較して文字切り出しを行うので、例えばコピ
ーをした時に文字列上の文字がつぶれてしまって隣同士
の文字が連結した場合、空白文字が文字列に存在する場
合、切り出し枠11の両端に中途半端な文字があった場合
でも、これらを許容し、確実に文字切り出しを1文字毎
に行うことが出来る。したがって文字認識も1文字ずつ
確実に行えるようになる。
3、7、10がカウント手段、ステップ6、8、9、11が
始点・終点検出手段、ステップ12が文字幅・文字ピッチ
算出手段、ステップ15が標準幅・標準ピッチ算出手段、
ステップ20、21、23〜25が判定手段、ステップ22、26が
切り出し手段に相当する。かかる構成によれば、文字列
の各文字の標準文字幅、標準文字ピッチを算出し、文字
列の各文字の幅、ピッチを、この標準文字幅、標準文字
ピッチと比較して文字切り出しを行うので、例えばコピ
ーをした時に文字列上の文字がつぶれてしまって隣同士
の文字が連結した場合、空白文字が文字列に存在する場
合、切り出し枠11の両端に中途半端な文字があった場合
でも、これらを許容し、確実に文字切り出しを1文字毎
に行うことが出来る。したがって文字認識も1文字ずつ
確実に行えるようになる。
【0021】尚、本実施例では、連結文字、空白文字の
判定を、文字幅と文字ピッチとを、夫々標準文字幅、標
準文字ピッチと比較して行っていたが、これに限られる
ものではない。例えばスタート点、エンド点が標準文字
ピッチと対応した位置にあるか否かで判定することもで
きる。
判定を、文字幅と文字ピッチとを、夫々標準文字幅、標
準文字ピッチと比較して行っていたが、これに限られる
ものではない。例えばスタート点、エンド点が標準文字
ピッチと対応した位置にあるか否かで判定することもで
きる。
【0022】
【発明の効果】以上説明したように本発明によれば、文
字列の入力データに基づいて各文字の標準文字幅、標準
文字ピッチを算出し、文字列の各文字の幅、ピッチを、
この標準文字幅、標準文字ピッチと比較して文字切り出
しを行うことにより、文字列に空白文字が存在する場合
でも、空白文字を認識することが出来、文字がつぶれて
連結した文字が存在する場合でも、文字の連結を判定す
ることが出来、標準文字ピッチ付近で強制的に文字の切
り出しを行うことが出来るので、確実に文字の切り出し
が1文字毎に出来る。したがって文字認識も1文字ずつ
確実に行えるようになる。
字列の入力データに基づいて各文字の標準文字幅、標準
文字ピッチを算出し、文字列の各文字の幅、ピッチを、
この標準文字幅、標準文字ピッチと比較して文字切り出
しを行うことにより、文字列に空白文字が存在する場合
でも、空白文字を認識することが出来、文字がつぶれて
連結した文字が存在する場合でも、文字の連結を判定す
ることが出来、標準文字ピッチ付近で強制的に文字の切
り出しを行うことが出来るので、確実に文字の切り出し
が1文字毎に出来る。したがって文字認識も1文字ずつ
確実に行えるようになる。
【図1】本発明の構成を示すブロック図。
【図2】本発明の一実施例の構成を示すブロック図。
【図3】図2の文字切り出し処理を示すフローチャー
ト。
ト。
【図4】同上のフローチャート。
【図5】図2の信号処理の説明図。
【図6】図2の処理データのヒストグラム。
1 イメージスキャナ 2 A/D変換器 3 文字切り出し・認識装置
Claims (1)
- 【請求項1】 文字ピッチ及び文字の大きさを一定にし
て記述された文字列から、文字を1つずつ切り出す文字
切り出し装置において、 切り出し対象の1行の文字列に切り出し枠を設定し、切
り出し枠内の文字列を読み取る入力手段と、 前記読み取った切り出し枠内の文字列を、表示有りドッ
ト、表示無しドットのドットパターンに2値化する2値
化手段と、 前記切り出し枠内の前記ドットパターンを文字列に沿っ
て走査してドット数をカウントするカウント手段と、 前記ドットパターンの各ドットの表示の有無を検知し、
表示無しドットから表示有りドットになった時、表示有
りドットから表示無しドットになった時のカウント手段
のカウント値を始点、終点として検出する始点・終点検
出手段と、 前記各文字の始点間のドット数を文字ピッチとし、始点
から終点までのドット数を文字幅として文字ピッチ・文
字幅を算出する文字ピッチ・文字幅算出手段と、 前記文字列のすべての文字ピッチ、文字幅に基づいて夫
々の度数分布を算出し、該度数分布からこの文字列の標
準文字幅と標準文字ピッチとを設定する標準幅・標準ピ
ッチ設定手段と、 前記文字幅・文字ピッチ算出手段により算出された文字
ピッチ、文字幅を、前記標準幅・標準ピッチ設定手段に
より設定された標準文字幅・標準文字ピッチと比較し、
比較結果に基づいて1文字であるか、2つ以上の文字が
連結しているか、あるいは空白文字有りと判定する判定
手段と、 該判定手段により1文字であると判定された時には、該
1文字をそのまま切り出し、2つ以上の文字が連結して
いると判定された時、及び文字の後ろに空白文字有りと
判定された時には標準文字ピッチに基づいて連結した文
字を1文字ずつ、あるいは文字と空白文字とを強制的に
切り出す切り出し手段と、を備えたことを特徴とする文
字切出し装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4349430A JPH06203207A (ja) | 1992-12-28 | 1992-12-28 | 文字切出し装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4349430A JPH06203207A (ja) | 1992-12-28 | 1992-12-28 | 文字切出し装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06203207A true JPH06203207A (ja) | 1994-07-22 |
Family
ID=18403697
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4349430A Pending JPH06203207A (ja) | 1992-12-28 | 1992-12-28 | 文字切出し装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06203207A (ja) |
-
1992
- 1992-12-28 JP JP4349430A patent/JPH06203207A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0138445B1 (en) | Method and apparatus for segmenting character images | |
| US5410611A (en) | Method for identifying word bounding boxes in text | |
| JP3259993B2 (ja) | 語形測定方法及び画像信号処理方法 | |
| US4847912A (en) | Method of detecting a space between words with optical character reader | |
| JPH05242292A (ja) | 分離方法 | |
| JPH0713995A (ja) | 自動テキスト特徴決定装置 | |
| US5369715A (en) | Optical character recognition system | |
| US5119441A (en) | Optical character recognition apparatus and method using masks operation | |
| JPH06203207A (ja) | 文字切出し装置 | |
| JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
| US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
| JP3710164B2 (ja) | 画像処理装置及び方法 | |
| JP2963508B2 (ja) | 文字切出し装置 | |
| JPH0679348B2 (ja) | 行切り出し方法 | |
| JPH0632074B2 (ja) | 正規化方法 | |
| JP4439054B2 (ja) | 文字認識装置及び文字枠線の検出方法 | |
| JP3193573B2 (ja) | かぎかっこ付文字認識装置 | |
| JP2674475B2 (ja) | 文字読取装置 | |
| JPS59180783A (ja) | 光学的文字読取装置 | |
| JP2005242825A (ja) | 帳票読取装置及び帳票読取装置による帳票方向判定方法 | |
| JPS62169287A (ja) | 記載文字形態判別方式 | |
| JPH10233930A (ja) | 画像処理装置 | |
| JP2832035B2 (ja) | 文字認識装置 | |
| JPH05135204A (ja) | 文字認識装置 | |
| JPH0498477A (ja) | 文字切り出し方法 |