JPH06203207A

JPH06203207A - 文字切出し装置

Info

Publication number: JPH06203207A
Application number: JP4349430A
Authority: JP
Inventors: Hitoshi Kojima; 仁小嶋
Original assignee: Nippon Signal Co Ltd
Current assignee: Nippon Signal Co Ltd
Priority date: 1992-12-28
Filing date: 1992-12-28
Publication date: 1994-07-22

Abstract

(57)【要約】【目的】文字列の文字が連結したり、空白文字が存在し
たりしても確実に文字の切り出しが行えるようにする。【構成】黒ドット数を数えて各文字のスタート点、エン
ド点を検出する（ステップ５〜10）。検出した各スター
ト点、エンド点から各文字の幅、ピッチを算出し（ステ
ップ11）、標準文字幅Ｗ_K、標準文字ピッチＰ_Kを算出
する（ステップ15）。そして各文字の幅、ピッチを夫々
標準文字幅Ｗ_K、標準文字ピッチＰ_Kと比較して（ステ
ップ20、23）文字列に空白文字が存在するか、連結した
文字が存在するかを判定し（ステップ21、24、25）、判
定結果に基づいて文字の切り出しを行う（ステップ22、
26）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識をするために
１文字毎に文字切り出しを行う文字切り出し装置に関す
る。

【０００２】

【従来の技術】近年、文字認識装置が開発されつつあ
る。かかる装置で１文字ずつ文字認識するには、所定の
文字列から１文字ずつ文字の切り出しを行わなければな
らない。。かかる処理を行う文字切り出し装置では、文
字切り出し対象の文字列上を例えばイメージスキャナ等
で走査して検出されたイメージデータを入力し、このイ
メージデータから文字の切れ目を探し、１文字ずつ切り
出すようにしている。

【０００３】

【発明が解決しようとする課題】ところで、従来の文字
切り出し装置では、例えばコピーをした時に文字列上の
文字がつぶれてしまって隣同士の文字が連結した場合に
は、連結した文字を１つの文字と判定してしまい、１つ
１つの文字を切り出すことが出来なくなり、また文字列
に空白文字が存在する場合には、空白文字を文字の切れ
目と判定してしまい、空白文字の切り出しがうまく行え
なかった。そしてこのように１つ１つの文字の切り出し
が正確に行えないと、次工程における文字認識も不正確
となる。

【０００４】本発明ではこのような従来の課題に鑑みて
なされたもので、文字列の文字が連結したり、空白文字
が存在したりしても確実に文字の切り出しを行うことが
可能な文字切り出し装置を提供することを目的とする。

【０００５】

【課題を解決するための手段】このため本発明は、図１
に示すように、文字ピッチ及び文字の大きさを一定にし
て記述された文字列から、文字を１つずつ切り出す文字
切り出し装置において、切り出し対象の１行の文字列に
切り出し枠を設定し、切り出し枠内の文字列を読み取る
入力手段と、前記読み取った切り出し枠内の文字列を、
表示有りドット、表示無しドットのドットパターンに２
値化する２値化手段と、前記切り出し枠内の前記ドット
パターンを文字列に沿って走査してドット数をカウント
するカウント手段と、前記ドットパターンの各ドットの
表示の有無を検知し、表示無しドットから表示有りドッ
トになった時、表示有りドットから表示無しドットにな
った時のカウント手段のカウント値を始点、終点として
検出する始点・終点検出手段と、前記各文字の始点間の
ドット数を文字ピッチとし、始点から終点までのドット
数を文字幅として文字ピッチ・文字幅を算出する文字ピ
ッチ・文字幅算出手段と、前記文字列のすべての文字ピ
ッチ、文字幅に基づいて夫々の度数分布を算出し、該度
数分布からこの文字列の標準文字幅と標準文字ピッチと
を設定する標準幅・標準ピッチ設定手段と、前記文字幅
・文字ピッチ算出手段により算出された文字ピッチ、文
字幅を、前記標準幅・標準ピッチ設定手段により設定さ
れた標準文字幅・標準文字ピッチと比較し、比較結果に
基づいて１文字であるか、２つ以上の文字が連結してい
るか、あるいは空白文字有りと判定する判定手段と、該
判定手段により１文字であると判定された時には、該１
文字をそのまま切り出し、２つ以上の文字が連結してい
ると判定された時、及び文字の後ろに空白文字有りと判
定された時には標準文字ピッチに基づいて連結した文字
を１文字ずつ、あるいは文字と空白文字とを強制的に切
り出す切り出し手段と、を備えるようにした。

【０００６】

【作用】上記の構成によれば、入力手段により切り出し
対象の１行の文字列に切り出し枠が設定され、切り出し
枠内の文字列が読み取られる。この文字列は２値化手段
により２値化され、表示有りドットと表示無しドットの
ドットパターンになる。そしてカウント手段により切り
出し枠内のドットパターンが文字列に沿って走査され、
そのドット数がカウントされる。ドットの表示の有無は
始点・終点検出手段により検知されると共に、始点・終
点検出手段は表示無しドットから表示有りドットになっ
た時、表示有りドットから表示無しドットになった時の
カウント手段のカウント値を始点、終点として検出す
る。１行の文字列に記述された文字中心間の文字中心ピ
ッチ、及び文字の大きさは一定なので、文字幅・文字ピ
ッチ算出手段により、始点間のドット数を文字ピッチと
し、始点から終点までのドット数を文字幅として文字幅
・文字ピッチが算出される。そしてこの各文字幅と文字
ピッチとに基づいて夫々の度数分布が標準幅・標準ピッ
チ設定手段により算出され、該度数分布から標準文字幅
と標準文字ピッチとが設定される。

【０００７】次に判定手段により、各文字列の各文字の
算出された文字幅は標準文字幅と比較され、また文字ピ
ッチは標準文字ピッチと比較され、比較した結果、判定
手段により文字列の各文字が１文字ずつになっているか
否かが判定される。即ち、文字ピッチと標準文字ピッ
チ、あるいは文字幅と標準文字幅が略同じである時に
は、対応する文字は１文字であると判定される。また例
えば文字ピッチが標準文字ピッチよりも大きく、且つ該
文字幅が標準文字幅よりも大きい時には２つ以上の文字
が連結していると判定され、文字ピッチが標準文字ピッ
チより大きく、文字幅が標準幅と略同じである時には、
文字の後ろに空白文字有りと判定される。

【０００８】この判定に基づいて、１文字であると判定
された時には、切り出し手段により該１文字はそのまま
切り出され、２つ以上の文字が連結していると判定され
た時、及び文字の後ろに空白有りと判定された時には標
準文字ピッチに基づいて連結した文字が１文字ずつ、ま
た文字と空白文字とが強制的に切り出される。これによ
り文字列の文字は確実に１文字ずつ切り出され、文字認
識も確実に行うことが可能となる。

【０００９】

【実施例】以下、本発明の一実施例を図２〜６に基づい
て説明する。本実施例を示す図２において、原稿上に
は、文字ピッチ及び文字の大きさを一定にして記述され
た文字列が表示されている。イメージスキャナ１は、こ
の原稿上の１行の文字列に、図５（Ａ）に示すような切
り出し枠11を設定し、切り出し枠11内の文字列をイメー
ジデータとして読み取るもので入力手段に相当する。イ
メージスキャナ１によって読み取られたデータは、Ａ／
Ｄ変換器２によってディジタル化されて例えば白黒２値
のドットパターンに変換された後、文字切り出し・認識
装置３に入力され、記憶される。文字切り出し・認識装
置３には、カウンタと文字切り出し処理を行うソフトウ
ェアが内蔵され、記憶した文字列の入力データから文字
認識用の文字が１文字ずつ切り出される。

【００１０】次に本実施例の文字切り出し処理を図３及
び４のフローチャートに基づいて説明する。ステップ
（図中では「Ｓ」と記してあり、以下同様とする）１で
は、設定された切り出し枠11内において、黒ドットの数
を縦方向に数え、図５（Ｂ）のような黒ドット数の分布
図を作成する。そして例えばごみ等による黒ドットの影
響を受けないような所定基準値を設け、縦方向の黒ドッ
ト数をこの基準値と比較判定して２値化することによ
り、図５（Ｃ）のような文字を構成する黒ドットの有無
を示す１次元の数字列が作成される。尚、本実施例で
は、表示有りドット、表示無しドットを夫々黒ドット、
白ドットとして、黒ドットがある時、ない時の入力信号
が夫々ハイレベル「Ｈ」、「Ｌ」となるようにしたが、
これに限られるものではなく、例えば反転文字のような
場合には、表示有りドット、表示無しドットは夫々白ド
ット、黒ドットとなるし、また入力信号の信号レベルも
本実施例の逆になるように設定してもよい。

【００１１】ステップ２では、エンド点Ｅ、スタート点
Ｓのカウント値ｎを１にセットし、初期化する。ステッ
プ３では、切り出し枠11の一端から、文字列に沿ったド
ット数をカウントするカウンタのカウント値ＣＮＴ１、
及びスタート点Ｓからのドット数をカウントするカウン
タのカウント値ＣＮＴ２を各々１にセットし、初期化す
る。

【００１２】ステップ４では、切り出し枠11の最初が黒
ドットであるか否かを判定する。最初が黒ドットであれ
ば切り出し枠11の端から文字が存在することになる。最
初が黒ドットでなければステップ４→８に進むが、黒ド
ットであればステップ５に進む。ステップ５では、黒ド
ットが切れたか否かを判定し、黒ドットが切れて入力信
号が「Ｌ」になるまでステップ７でカウント値ＣＮＴ
１、ＣＮＴ２を夫々インクリメントする。

【００１３】黒ドットが切れた時、ステップ５→７に進
み、カウント値ＣＮＴ１の値をエンド点Ｅ_nに代入し、
エンド点Ｅ_nを記憶保持する。尚、最初が黒ドットの時
にはエンド点を記憶しない。次にステップ８〜９では、
もう一度黒が出て来るまでの黒ドット数を、カウント値
ＣＮＴ１、２をインクリメントすることにより数え、黒
ドットが出てきたら入力信号が「Ｈ」となるので、ステ
ップ10→11に進み、カウント値ＣＮＴ１をスタート点Ｓ
_nに代入し、スタート点Ｓ_nを記憶する。

【００１４】ステップ11では、文字幅Ｗ_n、文字ピッチ
Ｐ_nを算出する。即ち、（Ｅ_n−Ｓ _n）を文字幅Ｗ
_nに、カウント値ＣＮＴ２を文字ピッチＰ_nに代入す
る。ステップ５〜11の処理を、切り出し枠11内の文字列
の読み取りが終了するまで繰り返し、その間、ステップ
12→13に進み、ステップ13、14で夫々カウント値ｎ、Ｃ
ＮＴ２をインクリメントしてステップ５に戻る。

【００１５】切り出し枠11内の文字列の読み取りがすべ
て終了したら、ステップ12→15に進み、標準文字ピッチ
Ｐ_K、標準文字幅Ｗ_Kを設定する。標準文字ピッチ
Ｐ_K、標準文字幅Ｗ_Kを設定するには、文字列の各文字
の文字幅Ｗ_n、文字ピッチＰ_nのヒストグラムを作成す
る。例えば図６は、標準文字ピッチＰ_Kを設定する為に
作成されたヒストグラムであり、横軸、縦軸は夫々文字
ピッチのドット数、度数である。図６において、横軸を
１つずつ見ていくと、文字ピッチの頻度が最も高い点は
11ドットであるが、この図を３ドットずつまとめて見て
いくと、実際には標準文字ピッチＰ_Kは10となる。この
まとめて見ていくドット数３は設定値であり、イメージ
スキャナ１の解像度と文字の大きさによって決まる数字
である。また20、30ドットにも分布が現れているのは、
例えばコピーをした時に文字列上の文字がつぶれてしま
って連結した文字によるものである。このように文字ピ
ッチのヒストグラムを作成して標準文字ピッチＰ_Kを設
定することが出来る。文字幅についても同じようなヒス
トグラムとなり、同様にして標準文字幅Ｗ_Kを設定する
ことが出来る。

【００１６】標準文字ピッチＰ_K、標準文字幅Ｗ_Kを設
定したら、ステップ16でまずひとつ目のエンド点Ｅ₁と
スタート点Ｓ₁とを比較する。もし先頭文字が途中で切
れていなければＥ₁＞Ｓ₁となり、ステップ16→17に進
み、先頭の文字から切り出すようにする。またひとつ目
のエンド点Ｅ₁がスタート点Ｓ₁より小さければＥ₁＜
Ｓ₁となり、先頭の文字は途中で切れていると判定され
てステップ17→18に進む。

【００１７】次に、ステップ19では、カウント値ｍを２
にセットする。ステップ20では、文字ピッチＰ_mと標準
文字ピッチＰ_Kとを比較する。文字ピッチＰ_mと標準文
字ピッチＰ_Kとが略等しければステップ20で１文字であ
ると判定してステップ22に進み、１文字切り出しを行
う。もし文字ピッチＰ_mが標準文字ピッチＰ_Kよりもか
なり大きく、文字ピッチＰ _mに対応する文字幅Ｗ_mもか
なり大きければステップ20→23→24に進み、２つ以上の
文字が連結していると判定され、ステップ26に進んで標
準文字ピッチＰ_K付近で強制的に文字の切り出しを行
う。

【００１８】また文字ピッチＰ_mが標準文字ピッチＰ_K
よりも大きく、文字ピッチＰ_mに対応する文字幅Ｗ_mが
標準文字幅Ｗ_Kと略同じであれば、ステップ20→23→25
に進み、文字のあとに空白文字（スペース）が入ってい
ると判定される。この時も標準文字ピッチＰ_K付近で強
制的に文字の切り出しを行う。尚、強制的に文字の切り
出しを行った場合には、カウント値ｎを切り出し数だけ
インクリメントする。

【００１９】このようにして切り出し枠11の文字列から
全ての文字が切り出されるまで、即ち、ｍ≧ｎとなるま
で繰り返す。切り出された文字は１文字毎に文字認識さ
れる。そして切り出し枠11の最後の文字が途中で途切れ
ていれば、スタート点Ｓ_mとエンド点Ｅ_mとが対応しな
くなるので、ステップ27→29に進み、切り出しを行わな
いでこのルーチンを終了する。

【００２０】尚、ステップ１が２値化手段、ステップ
３、７、10がカウント手段、ステップ６、８、９、11が
始点・終点検出手段、ステップ12が文字幅・文字ピッチ
算出手段、ステップ15が標準幅・標準ピッチ算出手段、
ステップ20、21、23〜25が判定手段、ステップ22、26が
切り出し手段に相当する。かかる構成によれば、文字列
の各文字の標準文字幅、標準文字ピッチを算出し、文字
列の各文字の幅、ピッチを、この標準文字幅、標準文字
ピッチと比較して文字切り出しを行うので、例えばコピ
ーをした時に文字列上の文字がつぶれてしまって隣同士
の文字が連結した場合、空白文字が文字列に存在する場
合、切り出し枠11の両端に中途半端な文字があった場合
でも、これらを許容し、確実に文字切り出しを１文字毎
に行うことが出来る。したがって文字認識も１文字ずつ
確実に行えるようになる。

【００２１】尚、本実施例では、連結文字、空白文字の
判定を、文字幅と文字ピッチとを、夫々標準文字幅、標
準文字ピッチと比較して行っていたが、これに限られる
ものではない。例えばスタート点、エンド点が標準文字
ピッチと対応した位置にあるか否かで判定することもで
きる。

【００２２】

【発明の効果】以上説明したように本発明によれば、文
字列の入力データに基づいて各文字の標準文字幅、標準
文字ピッチを算出し、文字列の各文字の幅、ピッチを、
この標準文字幅、標準文字ピッチと比較して文字切り出
しを行うことにより、文字列に空白文字が存在する場合
でも、空白文字を認識することが出来、文字がつぶれて
連結した文字が存在する場合でも、文字の連結を判定す
ることが出来、標準文字ピッチ付近で強制的に文字の切
り出しを行うことが出来るので、確実に文字の切り出し
が１文字毎に出来る。したがって文字認識も１文字ずつ
確実に行えるようになる。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図。

【図２】本発明の一実施例の構成を示すブロック図。

【図３】図２の文字切り出し処理を示すフローチャー
ト。

【図４】同上のフローチャート。

【図５】図２の信号処理の説明図。

【図６】図２の処理データのヒストグラム。

【符号の説明】

１イメージスキャナ２Ａ／Ｄ変換器３文字切り出し・認識装置

Claims

【特許請求の範囲】

【請求項１】文字ピッチ及び文字の大きさを一定にし
て記述された文字列から、文字を１つずつ切り出す文字
切り出し装置において、切り出し対象の１行の文字列に切り出し枠を設定し、切
り出し枠内の文字列を読み取る入力手段と、前記読み取った切り出し枠内の文字列を、表示有りドッ
ト、表示無しドットのドットパターンに２値化する２値
化手段と、前記切り出し枠内の前記ドットパターンを文字列に沿っ
て走査してドット数をカウントするカウント手段と、前記ドットパターンの各ドットの表示の有無を検知し、
表示無しドットから表示有りドットになった時、表示有
りドットから表示無しドットになった時のカウント手段
のカウント値を始点、終点として検出する始点・終点検
出手段と、前記各文字の始点間のドット数を文字ピッチとし、始点
から終点までのドット数を文字幅として文字ピッチ・文
字幅を算出する文字ピッチ・文字幅算出手段と、前記文字列のすべての文字ピッチ、文字幅に基づいて夫
々の度数分布を算出し、該度数分布からこの文字列の標
準文字幅と標準文字ピッチとを設定する標準幅・標準ピ
ッチ設定手段と、前記文字幅・文字ピッチ算出手段により算出された文字
ピッチ、文字幅を、前記標準幅・標準ピッチ設定手段に
より設定された標準文字幅・標準文字ピッチと比較し、
比較結果に基づいて１文字であるか、２つ以上の文字が
連結しているか、あるいは空白文字有りと判定する判定
手段と、該判定手段により１文字であると判定された時には、該
１文字をそのまま切り出し、２つ以上の文字が連結して
いると判定された時、及び文字の後ろに空白文字有りと
判定された時には標準文字ピッチに基づいて連結した文
字を１文字ずつ、あるいは文字と空白文字とを強制的に
切り出す切り出し手段と、を備えたことを特徴とする文
字切出し装置。