JPH03225576A - 単語切り出し装置 - Google Patents

単語切り出し装置

Info

Publication number
JPH03225576A
JPH03225576A JP2021508A JP2150890A JPH03225576A JP H03225576 A JPH03225576 A JP H03225576A JP 2021508 A JP2021508 A JP 2021508A JP 2150890 A JP2150890 A JP 2150890A JP H03225576 A JPH03225576 A JP H03225576A
Authority
JP
Japan
Prior art keywords
character string
pitch
word
character
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021508A
Other languages
English (en)
Other versions
JP2753094B2 (ja
Inventor
Koshi Sakurada
桜田 孔司
Koji Ito
伊東 晃治
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=12056911&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH03225576(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2021508A priority Critical patent/JP2753094B2/ja
Publication of JPH03225576A publication Critical patent/JPH03225576A/ja
Application granted granted Critical
Publication of JP2753094B2 publication Critical patent/JP2753094B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、欧文文書等の画像情報から単語を切り出すた
めの単語切り出し装置に関するものである。
(従来の技術〉 従来、このような分野の技術としては、特開昭62−1
33585号公報に記載されるものがあった。
一般に、文書画像を処理する装置において、欧文等を扱
う場合、文字単位の処理だけではなく、単語単位の処理
が必要となることが多い。例えば、光学的文字読取装置
(OCR)では、文字認識処理を行った後に単語認識処
理を行うことにより、文字単位での認識結果が誤った場
合でも、単語認識処理によって誤った文字を修正するこ
とが可能となる。この際、対象となる文書の画像情報か
ら文字行を切り出し、各文字行中から文字を切り出すと
共に、単語をも切り出すことが必要となる。
従来のこの種の単語切り出し装置としては、前記文献に
記載されるものがあった。この単語切り出し装置では、
文字列の画像情報の文字列方向に沿った周辺分布に基づ
き、該周辺分布の切れ目の幅のヒストグラム(hist
o(lram ;単一のランダム変数の発生頻度分布図
)を作成する。そして、そのヒストグラムのピークに対
応する最大の幅に沿って単語間ギャップの判定閾値を決
定し、その判定閾値以上の幅の周辺分布の切れ目を単語
間のギャップと判定して単語を切り出すものであった。
(発明が解決しようとする課題) しかしながら、上記構成の装置では、次のような課題が
あった。
(a)  従来の装置では、文字列に含まれる単語数が
少ない場合、作成したヒストグラムにおいて単語間ギャ
ップに対応するピークが得られにくいため、単語間ギャ
ップの判定閾値を決定することが困難となり、その結果
、正しく単語を切り出すことかできない。
(b)  従来の装置では、単語間ギャップの判定閾値
を決定するなめにヒストグラムを作成する必要があるの
で、装置構成が複雑化すると共に、処理速度が低下する
という問題があった。
本発明は前記従来技術が持っていた課題として、単語の
切り出しが正確に行えないという点と、装置構成が複雑
化すると共に処理速度が低下するという点について解決
した単語切り出し装置を提供するものである。
(課題を解決するための手段) 本発明は前記課題を解決するために、欧文等の文書の画
像情報に基づき該文書の単語の切り出し処理を行う単語
切り出し装置において、前記文書の画像情報より文字列
パタンを抽出する前処理手段と、前記文字列パタンの推
定文字ピッチを検出するピッチ推定手段と、前記文字列
パタンにおいて前記推定文字ピッチに応じて定められる
判定閾値よりも大きな空白幅を検出してその空白幅の位
置により単語を切り出す切り出し手段とを、備えたもの
である。
前記ピッチ判定手段は、例えば前記文字列パタンの文字
列方向についての周辺分布に基づき、推定文字ピッチを
検出するよう構成される。
(作用) 本発明によれば、以上のように単語切り出し装置を構成
したので、前処理手段は、欧文等の文書の画像情報より
文字列パタンを抽出し、それをピッチ推定手段に与える
。ピッチ推定手段は、例えば文字列パタンの文字列方向
についての周辺分布に基づき、推定文字ピッチを検出し
、その推定文字ピッチを切り出し手段に与える。切り出
し手段は、推定文字ピッチに基づき判定閾値を定め、そ
の判定閾値を基準にしてそれよりも大きな空白幅を検出
し、その空白幅位置により単語を切り出す。
これにより、文字列に含まれる単語数の大小にかかわら
ず、高精度に単語の切り出しが行えると共に、従来のよ
うなヒストグラムの作成が不安になって装置構成の簡単
化と処理速度の高速化が図れる。従って、前記課題を解
決できるのである。
(実施例) 第1図は、本発明の一実施例を示す単語切り出し装置の
構成ブロック図である。
この単語切り出し装置は、文字列パタンデータ8103
を得るための前処理手段100と、文字列パタンデータ
5103に基づき推定文字ピッチpを検出するピッチ推
定手段110と、推定文字ピッチpに応じて判定閾値T
Hを定め、文字列パタンデータ5103において判定閾
値THより大きい空白幅を検出してその空白位置により
単語を切り出す切り出し手段120とで、構成されてい
る。
前処理手段100は、欧文印刷文書等の記録媒体より白
黒2値の画像情報5101を読み取る画像読取部101
を有している。この画像読取部101は、イメージスキ
ャナ等で構成され、その出力側には、画像情報5101
を記憶する画像バッファ等からなる画像記憶部102と
、文字列抽出部103とが、接続されている。文字列抽
出部103は、画像記憶部102に記憶された画像情報
5101より、文字列パタンデータ5103を抽出し、
それをピッチ推定手段110に与える機能を有している
ピッチ推定手段110は、文字列パタンデータ5103
の文字列方向に沿った周辺分布に基づいて文字列を構成
する部分図形(これを黒ブロックという)の位置情報5
111を検出するブロック抽出部106と、黒ブロック
の位置情報5111に基づき推定文字ピッチpを検出す
るピッチ計算部107とで、構成され、その出力側に切
り出し手段120が接続されている。
切り出し手段120は、推定文字ピッチpに基づき判定
閾値THを計算する閾値計算部121と、単語抽出部1
22とで、構成されている。単語抽出部122は、黒ブ
ロックの位置情報5111に基づいて計算される隣接す
る黒ブロツク間の空白幅が、判定閾値THより大きいこ
とを検知して該空白位置により、単語を切り出すことを
示す単語切り出し信号5122を出力する機能を有して
いる。
第2図は、第1図の単語切り出しの動作例を説明するた
めの図であり、この図を参照しつつ第1図の装置の動作
を説明する。
なお、第2図中の111aは文字列パタンデータ510
3における文字列方向に沿った周辺分布、81〜B22
は黒ブロック、W1〜W4は空白領域、Hは黒ブロック
B8と空白領域W1を合わせた幅である。
先ず、欧文印刷文書等の記録情報は、画像読取部101
により読み取られ、白黒2値の画像情報5101として
画像記憶部102に記憶される。
次に、文字列抽出部103は、画像記憶部102に記憶
された2値の画像情報より、1行分に相当する文字列パ
タンデータ5103 (例えば、wordsegmen
tation method )を抽出し、それをブロ
ック抽出部111に与える。
ブロック抽出部111は、文字列パタンデータ5103
の文字列方向に沿った周辺分布111aを計算により作
成し、さらにその周辺分布111aが正の値となる連続
領域の各々を黒ブロックB1〜B22として抽出する。
そして各黒ブロックB1〜B22の文字列方向に沿った
始端位置及び終端位置からなる各黒ブロックB1〜B2
2の位置情報5111を計算し、その計算結果を保存す
る。
次にピッチ計算部112は、黒ブロックの位置情報5i
ll(始端位置及び終端位置)に基づき、黒ブロックの
最大幅と該最大幅を持つ黒ブロックに隣接する空白領域
の最小幅との和を求め、これを推定文字ピッチpとして
閾値計算部121へ出力する。すなわち、第1番目の黒
ブロックに対する文字列方向に沿った始端位置と終端位
置をそれぞれS、、E、(但し、Si<Ei<Si+1
、i=1.2,3.・・・、N、Nは黒ブロツク数)と
すると、推定文字ピッチpは次式で示される。
臣− 但し、 Zは値(Ei S )が最大値を取る場 合のiを表し、m1n(A、 B)はAとBの最小値を
表す。このようにして求めた推定文字ピッチ臣は、各単
語内の文字ピッチと近似的に等しい値となる。
つまりピッチ計算部112では、第2図に示すように、
黒ブロック81〜B22より最大幅を持つ黒ブロックB
8を検出すると共に、その黒ブロックB8に隣接する空
白領域W1及びW2のうち最小幅となる空白領域W1を
検出し、黒ブロックB8と空白領域W1を合わせた幅H
を計算してそれを推定文字ピッチpとして閾値計算部1
20へ出力する。
閾値計算部121は、推定文字ピッチF)(=H)に基
づき、単語を切り出すための空白幅に関する判定閾値T
Hを次式に従って計算し、単語抽出部122へ出力する
TH=aX15 但し、aは定数であり、本実施例では例えばa=0.2
5とする。
単語抽出部122では、ブロック抽出部111に保存さ
れた各黒ブロックの位置情報5111に基づき、隣接す
る黒ブロツク間の空白領域(例えば、W3及びW4)の
幅が判定閾値THを越える場合に、該空白位置により、
単語を切り出すことを示す単語切り出し信号5122を
出力する。すなわち、値(Si、1−E、−1>が値T
Hより大きい場合に、第1番目の黒ブロックと第(i+
1)番目の黒ブロックとの間を、単語の切れ目と判断し
て単語切り出し信号111を出力する(i=1゜2、・
・・、N−1)。従って本実施例においては、推定文字
ピッチpの0.25倍を越える空白幅を検出する毎に、
1つの単語の切り出し位置(始端位置及び終端位置)が
確定する。
例えば、第2図では、黒ブロック81〜B4(”wor
d” ) 、黒ブロック85〜B 16 (”segm
entation” ) 、及び黒ブロックB17〜B
22(”method” )が各々単語を構成すること
を示す単語切り出し信号5122となる。このような単
語切り出し信号5122が単語抽出部122から出力さ
れると、文字列パタンデータ5103に対する単語切り
出しの処理が完了する。
以上のように、本実施例では、次のような利点を有して
いる。
(a)  文字列パタンデータ5103の推定文字ピッ
チpを検出し、文字列パタンデータ5103において推
定文字ピッチβに応じて定められる判定閾値THより大
きい空白幅を検出してその空白位置により、単語パタン
を切り出す構成にしたので、文字列に含まれる単語数の
大小にかかわらず、高精度に単語を切り出すことができ
る。
(b)  ピッチ推定手段110は、文字列パタンデー
タ5103の文字列方向についての周辺分布111aに
基づき、黒ブロックの位置情報5l11を求め、黒ブロ
ックの最大幅と該最大幅を持つ黒ブロックに隣接する空
白領域の最小幅との和(H)により、推定文字ピッチp
を検出する構成にしなので、周辺分布111aの切れ目
の幅のヒストグラムを作成する必要のあった従来の単語
切り出し装置に比べ、装置構成が簡単になると共に、処
理速度をより高速化できる。
なお、本発明は図示の実施例に限定されず、種々の変形
が可能である。その変形例としては、例えば次のような
ものがある。
(i>  上記実施例において、ピッチ推定手段110
は、文字列パタンデータ5103の文字列方向について
の周辺分布111aに基づき、黒ブロックの位置情報5
111を求め、黒ブロックの最大幅と該最大幅を持つ黒
ブロックに隣接する空白領域の最小幅との和(H)によ
り、推定文字ピッチロを検出する構成にしたが、これを
他の構成にしてもよい。例えば、文字列パタンデータ5
103の文字列方向についての周辺分布111aに基づ
き、黒ブロックの位置情報を求め、黒ブロックの最大幅
と空白領域の最小幅との和により、推定とッチpを検出
する等、種々の方法で推定文字ピッチpの検出が可能で
ある。
(ii)  第1図の各ブロックは、個別回路で構成す
る他に、マイクロプロセッサ等を用いたソフトウェア処
理等によって構成してもよい。
(発明の効果) 以上詳細に説明したように、本発明によれば、前処理手
段により抽出した文字列パタンに基づき、ピッチ推定手
段で推定文字ピッチを検出し、次いで切り出し手段によ
り、文字列パタンにおいて推定文字ピッチに応じて定め
られる判定閾値より大きい空白幅を検出してその空白位
置により単語パタンを切り出す構成にしたので、文字列
に含まれる単語数の大小にかかわらず、高精度に単語を
切り出すことができる。
その上、例えば文字列パタンの文字列方向についての周
辺分布に基づき推定文字ピッチを検出する手段等により
、ピッチ推定手段を構成したので、従来のようなヒスト
グラムの作成が不要となり、装置構成の簡単化と、処理
速度の高速化という効果も期待できる。
【図面の簡単な説明】
第1図は本発明の実施例を示す単語切り出し装置の構成
ブロック図、第2図は第1図の単語切り出し動作例を説
明するための図である。 100・・・・・・前処理手段、101・・・・・・画
像読取部、102・・・・・・画像記憶部、103・・
・・・・文字列抽出部、110・・・・・・ピッチ推定
手段、111・・・・・・ブロック抽出部、112・・
・・・・ピッチ計算部、120・・・・・・切り出し手
段、121・・・・・・閾値計算部、122・・・・・
・単語抽出部。

Claims (1)

  1. 【特許請求の範囲】 1、文書の画像情報に基づき該文書の単語の切り出し処
    理を行う単語切り出し装置において、前記文書の画像情
    報より文字列パタンを抽出する前処理手段と、 前記文字列パタンの推定文字ピッチを検出するピッチ推
    定手段と、 前記文字列パタンにおいて前記推定文字ピッチに応じて
    定められる判定閾値よりも大きな空白幅を検出してその
    空白幅の位置により単語を切り出す切り出し手段とを、 備えたことを特徴とする単語切り出し装置。 2、請求項1記載の単語切り出し装置において、前記ピ
    ッチ推定手段は、前記文字列パタンの文字列方向につい
    ての周辺分布に基づき推定文字ピッチを検出する構成に
    したことを特徴とする単語切り出し装置。
JP2021508A 1990-01-31 1990-01-31 単語切り出し装置 Expired - Lifetime JP2753094B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021508A JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021508A JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Publications (2)

Publication Number Publication Date
JPH03225576A true JPH03225576A (ja) 1991-10-04
JP2753094B2 JP2753094B2 (ja) 1998-05-18

Family

ID=12056911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021508A Expired - Lifetime JP2753094B2 (ja) 1990-01-31 1990-01-31 単語切り出し装置

Country Status (1)

Country Link
JP (1) JP2753094B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033416A (ja) * 2011-08-03 2013-02-14 Sharp Corp 文字認識装置、文字認識方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033416A (ja) * 2011-08-03 2013-02-14 Sharp Corp 文字認識装置、文字認識方法及びプログラム
US8861862B2 (en) 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program

Also Published As

Publication number Publication date
JP2753094B2 (ja) 1998-05-18

Similar Documents

Publication Publication Date Title
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JPH03225576A (ja) 単語切り出し装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP3422896B2 (ja) 画像認識方法及びその装置
JPH0528319A (ja) 画像処理方法及び装置
JP2630261B2 (ja) 文字認識装置
JP3411795B2 (ja) 文字認識装置
JP2856409B2 (ja) 文字認識装置および方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4094359B2 (ja) 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム
JPS6111886A (ja) 文字認識方式
JPH11203405A (ja) 文字認識装置及び方法並びにプログラム記憶媒体
JP2768289B2 (ja) 文字切り出し装置
JPH01234985A (ja) 文字読取装置の文字切出し装置
JP2894087B2 (ja) 文字行切り出し装置
JP3712825B2 (ja) 画像処理方法、装置および記録媒体
JPS62169286A (ja) 文字切出方式
JP3167551B2 (ja) 文字認識装置
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JP2683116B2 (ja) 罫線の除去方法
JP2844728B2 (ja) 文書読取装置
JPH02294791A (ja) 文字パターン切り出し装置
JP2925270B2 (ja) 文字読取装置
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体