JPS62133585A - 単語切出方式 - Google Patents

単語切出方式

Info

Publication number
JPS62133585A
JPS62133585A JP60274051A JP27405185A JPS62133585A JP S62133585 A JPS62133585 A JP S62133585A JP 60274051 A JP60274051 A JP 60274051A JP 27405185 A JP27405185 A JP 27405185A JP S62133585 A JPS62133585 A JP S62133585A
Authority
JP
Japan
Prior art keywords
gap
word
image information
words
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60274051A
Other languages
English (en)
Inventor
Koichi Ejiri
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60274051A priority Critical patent/JPS62133585A/ja
Publication of JPS62133585A publication Critical patent/JPS62133585A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、欧文原稿などの読取画像情報から単語を切り
出すための11を語切出方式に関する。
〔従来技術〕
文書処理を行う装置類において、欧文などを処理する場
合1文字li位の処理だけでなく、単語!1を位の処理
が必要になることが多い。
例えば欧文を処理するOCRにおいては、個々の文字を
認識するだけではなく、認識した文字の集まりである単
語を単語辞書と比較することにより、認識エラーを修正
ないし防+fz したり、あるいは、認識不可能な文字
を推定するなどの単語単位の処理を行うことがある。こ
の場合に、欧文原稿の読取画像情報から文章行を切り出
し、さらに文字を切り出すだけではなく、単J5の切出
も必要である。
同様の1′L語切出処理は、欧文を邦文に翻訳するコン
ピュータ翻訳システムにおいては不可欠である。
従来、そのような単語切出処理は、読取画像から切り出
された文章行の画像情報の垂直射影をとり、その射影の
切れ[1の幅榮予め設定された固定のQt語間ギャップ
の判定閾値と比較し、その判定閾値以上の幅の射影の切
れ[1を単語の切れ目とみなし1文章行画像情報から1
11語を切り出している。
しかし、欧文雑誌などはプロポーション・ピッチで印刷
されているのが一般的であって、文字間ギャップ幅およ
び単語間ギャップ幅は一定しておらず、一定の閾値では
単語間ギャップの判定エラーが起きやすく、その結果、
単語の切出エラーが起きやすい。
また、必ずしもプロポーショナル・ピッチ印刷の欧文原
稿でなくとも、一定の判定閾値を用いる方法では、単語
の切出エラーが頻繁に起こる場合がある。例えば異サイ
ズの文字が混在している欧文原稿の場合がそうである。
つまり、大きな文字サイズで印刷された文字間キャップ
の幅が小さな文字サイズで印刷された単語間ギャップの
幅より大きくなることがあるため、従来のように一定の
判定閾値を用いたのでは!lj−nri間ギャップを正
しく判定できずに単語の切出エラーが起こる確率が高℃
)。
〔口 的〕
本発明の目的は、プロポーショナル・ピッチ印刷の欧文
原稿、人文字サイズの文字が混在しているような欧文原
稿などから読み取られた画像情報から、単語を確実に切
り出すための単語切出方式を提供することにある。
〔構 成〕
この目的を達成すべくなされた本発明の単語切出方式は
、文章行の画像情報の垂直方向の射影をとり、その射影
の切れ目の幅のヒストグラムを作成し、そのピークに対
応する最大の幅に従って単語間ギャップの判定閾値を決
定し、その判定閾値以上の幅の射影の切れ目を単語間の
ギャップと判定し、文章行の画像情報から単語を切り出
すことを特徴とするものである。
〔実施例〕
以下、本発明の一実施例について図面を参照し説明する
第1図は本発明の単語切出方式の適用された文書処理装
置の要部の構成を示す概略ブロック図である。同図にお
いて、10は文書原稿(例えば英文原稿)を読み取るた
めのスキャナであり、このスキャナ10により読み取ら
れた文書原稿の画像情報は画像バッファ12に蓄積され
る。この画像バッファ12より画像情報は行切出部14
に順次入力され、文章行の画像情報が切り出される。
この行切出処理は、例えば水平方向(行方向)の射影を
求め、その射影の谷と谷の間を切り出すという一般的な
射影法によって行われる。勿論。
部分領域毎の射影をとる改良型射影法によって行切男し
を行ってもよい。切り出された文章行の画像情報は行バ
ッファ16に一時的に蓄積され、後段の単語切出部18
に入力される。
このη1語切出部18は垂直射影抽出回路20、ギャッ
プヒスドグ911作成回路22、’l’−l!n間ギャ
ップ判定閾値決定回路24および単語切出回路26から
なっている。
垂直射影抽出回路20は行バッファ16から人力された
文章行画像情報の垂直方向(文章行に対して直角の方向
)の射影を求める回路である。この射影の連続した部分
は文字の範囲に対応し、射影の切れ「1(山部)は文字
と文字の間のギャップまたは111語と111、語の間
のギャップである。
前述のように、プロポーショナル・ピッチ印刷の欧文原
稿などにあっては、文字間ギャップおよび単語間ギャッ
プが大輪に変動するため、単語1jlTギヤツプを識別
するための判定閾値を文章行毎に適切に設定する必要が
ある。そのための回路がギャップヒストグラム作成回路
22および単語間ギャップ判定閾値決定回路24である
ギャップヒストグラム作成回路22は垂直射影抽出回路
20より一つの文章行の垂直射影の情報を人力され、そ
の垂直射影の切れ目(ギャップ)の幅の頻度を計数して
ギャップヒストグラムを作成する。例えば第2図に示す
ような欧文原稿の画像情報が入力された場合を想定する
。この図において、LL、L2.L3はそれぞれ文章行
を意味し、斜線を施した範囲がそれぞれ単語を意味し、
単語の間の空白部は!1を語間のギャップを意味する。
いまL2の文章行の画像情報が単語切71′j部18に
入力された場合、第73図に示すようなギャップヒス1
−グラムが得られる。このギャップヒストグラム中のA
の範囲は文字間ギャップに対応し、またBの範囲は単語
間ギャップに対応している。
単語間ギャップ判定閾値決定回路24は、そのようなギ
ャップヒストグラムの情報を入力され、そのギャップヒ
ストグラムのピークに対応する最大の幅(Gm)を検出
する。但し、そのピークは所定値(例えば2)以上の頻
度値のものとする。
例えば第3図に示すギャップヒストグラムの場合、範囲
Bのピークに対応するギャップ幅がGmとして検出され
る。
そして単語間ギャップ判定閾値決定回路24は、単語間
ギャップ判定閾値Gtを式 %式% (こ\でGδはO<Gδ(Gmの定数)によって算定し
、その単d11間ギャップ判定閾値G1、の情報を単語
切出回路26に送る。
11語り出回路26は、垂直射影抽出回路20から入力
される垂直射影の情報から単、!ri間ギャップ判定閾
値以上の幅の垂直射影の切れ目を単語間ギャップとして
識別し1文章行画像情報から単語間ギャップによって区
切られた単語の画像情報を切り出す。
例えば、垂直射影が第4図のようになる二つの文章行の
画像情報が単語切出部18に順次入力されたとする。図
中、斜線を施した範囲は垂直射影の連続している範囲で
あり、それぞれ1個ないし複数個の文字の列または単語
に相当する。プロポーショナル・ピッチ印刷の場合には
1文章行の垂直射影はこの例のようにギャップ幅が変動
する。
このような文章行では、矢印↑を付した垂直射影の切れ
Llが単語間ギャップと判定され、単語が切り出される
このように、文章行の垂直射影のギャップヒストグラム
に基づき単語間ギャップ判定閾値がダイナミックに決定
されるため、プロポーショナル・ピッチ印刷の文書、異
なったサイズの文字が混在した文書の場合にも、単語間
キャップを間違いなく識別した正確に単;(6を切り出
すことができる。
なお、単語切出部[8の機能はマイクロプロセッサなど
を用いてソフ1へウェア処理により実現してもよい。こ
れ以外にも1本発明は種々変形して実施しつるものであ
る。
〔効 果〕
以」二の詳細な説明から明らかなように、本発明は、文
章行の垂直射影のギャップヒストグラムに基づき単語間
ギャップ判定閾値をダイナミックに決定して単語切出を
行うため、プロポーショナル・ピッチ印刷の文書、異な
ったサイズの文字が4A在した文書の場合にも正確に単
語を切り出すことができる。
【図面の簡単な説明】
第1図は本発明の単語切出方式を適用した文書処理装置
の要部構成のみを示す概略ブロック図、第2図はギャッ
プヒス1−グラムの説明のための文章行の一例を示す図
、第3図はギャップヒストグラムの一例を示す図、第4
図は文章行の垂直射影とその単語間ギャップを対照させ
て示す図である。 10・・・スキャナ、  12・・・画像バッファ、1
4・・行切出部、  16・・行バッファ、18・、単
語切出部、  2o・・・11峠直射影抽出回路、22
・・・ギャップヒストグラム作成回路、24・・・単語
1j11ギャップ判定闇値決定回路、26・・111語
切出回路。 代理人弁理士  鈴 木   誠 第2図 四コロロロ=コーし1 図コロ=コロニーL2 0コーロコロe−L3 第3図 縛 度 第4図 ↑  ↑↑ ↑

Claims (1)

    【特許請求の範囲】
  1. (1)文書の画像情報を入力して文書の単語の切出処理
    を含む処理を行う文書処理装置において、文章行の画像
    情報の垂直方向の射影をとり、その射影の切れ目の幅の
    ヒストグラムを作成し、そのピークに対応する最大の幅
    に従って単語間ギャップの判定閾値を決定し、その判定
    閾値以上の幅の射影の切れ目を単語間のギャップと判定
    し、文章行の画像情報から単語を切り出すことを特徴と
    する単語切出方式。
JP60274051A 1985-12-05 1985-12-05 単語切出方式 Pending JPS62133585A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60274051A JPS62133585A (ja) 1985-12-05 1985-12-05 単語切出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60274051A JPS62133585A (ja) 1985-12-05 1985-12-05 単語切出方式

Publications (1)

Publication Number Publication Date
JPS62133585A true JPS62133585A (ja) 1987-06-16

Family

ID=17536281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60274051A Pending JPS62133585A (ja) 1985-12-05 1985-12-05 単語切出方式

Country Status (1)

Country Link
JP (1) JPS62133585A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63103390A (ja) * 1986-10-20 1988-05-09 Sharp Corp 単語処理方式
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法
JPH03225576A (ja) * 1990-01-31 1991-10-04 Oki Electric Ind Co Ltd 単語切り出し装置
US5357581A (en) * 1991-11-01 1994-10-18 Eastman Kodak Company Method and apparatus for the selective filtering of dot-matrix printed characters so as to improve optical character recognition
US5394482A (en) * 1991-11-01 1995-02-28 Eastman Kodak Company Method and apparatus for the detection of dot-matrix printed text so as to improve optical character recognition
JPH07319998A (ja) * 1988-04-28 1995-12-08 Seiko Epson Corp 文字切り出し方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63103390A (ja) * 1986-10-20 1988-05-09 Sharp Corp 単語処理方式
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
JPH02255995A (ja) * 1988-04-28 1990-10-16 Seiko Epson Corp 文字切り出し方法
JPH07319998A (ja) * 1988-04-28 1995-12-08 Seiko Epson Corp 文字切り出し方法
JPH03225576A (ja) * 1990-01-31 1991-10-04 Oki Electric Ind Co Ltd 単語切り出し装置
US5357581A (en) * 1991-11-01 1994-10-18 Eastman Kodak Company Method and apparatus for the selective filtering of dot-matrix printed characters so as to improve optical character recognition
US5394482A (en) * 1991-11-01 1995-02-28 Eastman Kodak Company Method and apparatus for the detection of dot-matrix printed text so as to improve optical character recognition

Similar Documents

Publication Publication Date Title
EP0544430B1 (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
EP0544433B1 (en) Method and apparatus for document image processing
JPS62133585A (ja) 単語切出方式
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JP3725635B2 (ja) 文字認識方法及び装置
JP2915175B2 (ja) 単語間スペース検出方法
JP2968354B2 (ja) 文字認識結果の後処理方法
JPS6226587A (ja) 光学文字読取装置の文字フイ−ルドフリ−ピツチ処理方式
JPH02230484A (ja) 文字認識装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JP2746345B2 (ja) 文字認識の後処理方法
JP2887823B2 (ja) 文書認識装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JP2891368B2 (ja) 文字認識結果の後処理方法
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPH04236685A (ja) 文字間スペース認識方法
JPH10171924A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
Akiyama Addressee recognition for automated fax mail distribution
JPH0756924A (ja) 対訳装置
JP3492442B2 (ja) 語形状トークンを用いる文書内容特性表示
CN115937885A (zh) 用于提取版面信息的方法、系统和计算机可读介质
JPS60138689A (ja) 文字認識方法
JPS62145486A (ja) 文字認識方式