JPS62133585A - 単語切出方式 - Google Patents
単語切出方式Info
- Publication number
- JPS62133585A JPS62133585A JP60274051A JP27405185A JPS62133585A JP S62133585 A JPS62133585 A JP S62133585A JP 60274051 A JP60274051 A JP 60274051A JP 27405185 A JP27405185 A JP 27405185A JP S62133585 A JPS62133585 A JP S62133585A
- Authority
- JP
- Japan
- Prior art keywords
- gap
- word
- image information
- words
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔技術分野〕
本発明は、欧文原稿などの読取画像情報から単語を切り
出すための11を語切出方式に関する。
出すための11を語切出方式に関する。
文書処理を行う装置類において、欧文などを処理する場
合1文字li位の処理だけでなく、単語!1を位の処理
が必要になることが多い。
合1文字li位の処理だけでなく、単語!1を位の処理
が必要になることが多い。
例えば欧文を処理するOCRにおいては、個々の文字を
認識するだけではなく、認識した文字の集まりである単
語を単語辞書と比較することにより、認識エラーを修正
ないし防+fz したり、あるいは、認識不可能な文字
を推定するなどの単語単位の処理を行うことがある。こ
の場合に、欧文原稿の読取画像情報から文章行を切り出
し、さらに文字を切り出すだけではなく、単J5の切出
も必要である。
認識するだけではなく、認識した文字の集まりである単
語を単語辞書と比較することにより、認識エラーを修正
ないし防+fz したり、あるいは、認識不可能な文字
を推定するなどの単語単位の処理を行うことがある。こ
の場合に、欧文原稿の読取画像情報から文章行を切り出
し、さらに文字を切り出すだけではなく、単J5の切出
も必要である。
同様の1′L語切出処理は、欧文を邦文に翻訳するコン
ピュータ翻訳システムにおいては不可欠である。
ピュータ翻訳システムにおいては不可欠である。
従来、そのような単語切出処理は、読取画像から切り出
された文章行の画像情報の垂直射影をとり、その射影の
切れ[1の幅榮予め設定された固定のQt語間ギャップ
の判定閾値と比較し、その判定閾値以上の幅の射影の切
れ[1を単語の切れ目とみなし1文章行画像情報から1
11語を切り出している。
された文章行の画像情報の垂直射影をとり、その射影の
切れ[1の幅榮予め設定された固定のQt語間ギャップ
の判定閾値と比較し、その判定閾値以上の幅の射影の切
れ[1を単語の切れ目とみなし1文章行画像情報から1
11語を切り出している。
しかし、欧文雑誌などはプロポーション・ピッチで印刷
されているのが一般的であって、文字間ギャップ幅およ
び単語間ギャップ幅は一定しておらず、一定の閾値では
単語間ギャップの判定エラーが起きやすく、その結果、
単語の切出エラーが起きやすい。
されているのが一般的であって、文字間ギャップ幅およ
び単語間ギャップ幅は一定しておらず、一定の閾値では
単語間ギャップの判定エラーが起きやすく、その結果、
単語の切出エラーが起きやすい。
また、必ずしもプロポーショナル・ピッチ印刷の欧文原
稿でなくとも、一定の判定閾値を用いる方法では、単語
の切出エラーが頻繁に起こる場合がある。例えば異サイ
ズの文字が混在している欧文原稿の場合がそうである。
稿でなくとも、一定の判定閾値を用いる方法では、単語
の切出エラーが頻繁に起こる場合がある。例えば異サイ
ズの文字が混在している欧文原稿の場合がそうである。
つまり、大きな文字サイズで印刷された文字間キャップ
の幅が小さな文字サイズで印刷された単語間ギャップの
幅より大きくなることがあるため、従来のように一定の
判定閾値を用いたのでは!lj−nri間ギャップを正
しく判定できずに単語の切出エラーが起こる確率が高℃
)。
の幅が小さな文字サイズで印刷された単語間ギャップの
幅より大きくなることがあるため、従来のように一定の
判定閾値を用いたのでは!lj−nri間ギャップを正
しく判定できずに単語の切出エラーが起こる確率が高℃
)。
本発明の目的は、プロポーショナル・ピッチ印刷の欧文
原稿、人文字サイズの文字が混在しているような欧文原
稿などから読み取られた画像情報から、単語を確実に切
り出すための単語切出方式を提供することにある。
原稿、人文字サイズの文字が混在しているような欧文原
稿などから読み取られた画像情報から、単語を確実に切
り出すための単語切出方式を提供することにある。
この目的を達成すべくなされた本発明の単語切出方式は
、文章行の画像情報の垂直方向の射影をとり、その射影
の切れ目の幅のヒストグラムを作成し、そのピークに対
応する最大の幅に従って単語間ギャップの判定閾値を決
定し、その判定閾値以上の幅の射影の切れ目を単語間の
ギャップと判定し、文章行の画像情報から単語を切り出
すことを特徴とするものである。
、文章行の画像情報の垂直方向の射影をとり、その射影
の切れ目の幅のヒストグラムを作成し、そのピークに対
応する最大の幅に従って単語間ギャップの判定閾値を決
定し、その判定閾値以上の幅の射影の切れ目を単語間の
ギャップと判定し、文章行の画像情報から単語を切り出
すことを特徴とするものである。
以下、本発明の一実施例について図面を参照し説明する
。
。
第1図は本発明の単語切出方式の適用された文書処理装
置の要部の構成を示す概略ブロック図である。同図にお
いて、10は文書原稿(例えば英文原稿)を読み取るた
めのスキャナであり、このスキャナ10により読み取ら
れた文書原稿の画像情報は画像バッファ12に蓄積され
る。この画像バッファ12より画像情報は行切出部14
に順次入力され、文章行の画像情報が切り出される。
置の要部の構成を示す概略ブロック図である。同図にお
いて、10は文書原稿(例えば英文原稿)を読み取るた
めのスキャナであり、このスキャナ10により読み取ら
れた文書原稿の画像情報は画像バッファ12に蓄積され
る。この画像バッファ12より画像情報は行切出部14
に順次入力され、文章行の画像情報が切り出される。
この行切出処理は、例えば水平方向(行方向)の射影を
求め、その射影の谷と谷の間を切り出すという一般的な
射影法によって行われる。勿論。
求め、その射影の谷と谷の間を切り出すという一般的な
射影法によって行われる。勿論。
部分領域毎の射影をとる改良型射影法によって行切男し
を行ってもよい。切り出された文章行の画像情報は行バ
ッファ16に一時的に蓄積され、後段の単語切出部18
に入力される。
を行ってもよい。切り出された文章行の画像情報は行バ
ッファ16に一時的に蓄積され、後段の単語切出部18
に入力される。
このη1語切出部18は垂直射影抽出回路20、ギャッ
プヒスドグ911作成回路22、’l’−l!n間ギャ
ップ判定閾値決定回路24および単語切出回路26から
なっている。
プヒスドグ911作成回路22、’l’−l!n間ギャ
ップ判定閾値決定回路24および単語切出回路26から
なっている。
垂直射影抽出回路20は行バッファ16から人力された
文章行画像情報の垂直方向(文章行に対して直角の方向
)の射影を求める回路である。この射影の連続した部分
は文字の範囲に対応し、射影の切れ「1(山部)は文字
と文字の間のギャップまたは111語と111、語の間
のギャップである。
文章行画像情報の垂直方向(文章行に対して直角の方向
)の射影を求める回路である。この射影の連続した部分
は文字の範囲に対応し、射影の切れ「1(山部)は文字
と文字の間のギャップまたは111語と111、語の間
のギャップである。
前述のように、プロポーショナル・ピッチ印刷の欧文原
稿などにあっては、文字間ギャップおよび単語間ギャッ
プが大輪に変動するため、単語1jlTギヤツプを識別
するための判定閾値を文章行毎に適切に設定する必要が
ある。そのための回路がギャップヒストグラム作成回路
22および単語間ギャップ判定閾値決定回路24である
。
稿などにあっては、文字間ギャップおよび単語間ギャッ
プが大輪に変動するため、単語1jlTギヤツプを識別
するための判定閾値を文章行毎に適切に設定する必要が
ある。そのための回路がギャップヒストグラム作成回路
22および単語間ギャップ判定閾値決定回路24である
。
ギャップヒストグラム作成回路22は垂直射影抽出回路
20より一つの文章行の垂直射影の情報を人力され、そ
の垂直射影の切れ目(ギャップ)の幅の頻度を計数して
ギャップヒストグラムを作成する。例えば第2図に示す
ような欧文原稿の画像情報が入力された場合を想定する
。この図において、LL、L2.L3はそれぞれ文章行
を意味し、斜線を施した範囲がそれぞれ単語を意味し、
単語の間の空白部は!1を語間のギャップを意味する。
20より一つの文章行の垂直射影の情報を人力され、そ
の垂直射影の切れ目(ギャップ)の幅の頻度を計数して
ギャップヒストグラムを作成する。例えば第2図に示す
ような欧文原稿の画像情報が入力された場合を想定する
。この図において、LL、L2.L3はそれぞれ文章行
を意味し、斜線を施した範囲がそれぞれ単語を意味し、
単語の間の空白部は!1を語間のギャップを意味する。
いまL2の文章行の画像情報が単語切71′j部18に
入力された場合、第73図に示すようなギャップヒス1
−グラムが得られる。このギャップヒストグラム中のA
の範囲は文字間ギャップに対応し、またBの範囲は単語
間ギャップに対応している。
入力された場合、第73図に示すようなギャップヒス1
−グラムが得られる。このギャップヒストグラム中のA
の範囲は文字間ギャップに対応し、またBの範囲は単語
間ギャップに対応している。
単語間ギャップ判定閾値決定回路24は、そのようなギ
ャップヒストグラムの情報を入力され、そのギャップヒ
ストグラムのピークに対応する最大の幅(Gm)を検出
する。但し、そのピークは所定値(例えば2)以上の頻
度値のものとする。
ャップヒストグラムの情報を入力され、そのギャップヒ
ストグラムのピークに対応する最大の幅(Gm)を検出
する。但し、そのピークは所定値(例えば2)以上の頻
度値のものとする。
例えば第3図に示すギャップヒストグラムの場合、範囲
Bのピークに対応するギャップ幅がGmとして検出され
る。
Bのピークに対応するギャップ幅がGmとして検出され
る。
そして単語間ギャップ判定閾値決定回路24は、単語間
ギャップ判定閾値Gtを式 %式% (こ\でGδはO<Gδ(Gmの定数)によって算定し
、その単d11間ギャップ判定閾値G1、の情報を単語
切出回路26に送る。
ギャップ判定閾値Gtを式 %式% (こ\でGδはO<Gδ(Gmの定数)によって算定し
、その単d11間ギャップ判定閾値G1、の情報を単語
切出回路26に送る。
11語り出回路26は、垂直射影抽出回路20から入力
される垂直射影の情報から単、!ri間ギャップ判定閾
値以上の幅の垂直射影の切れ目を単語間ギャップとして
識別し1文章行画像情報から単語間ギャップによって区
切られた単語の画像情報を切り出す。
される垂直射影の情報から単、!ri間ギャップ判定閾
値以上の幅の垂直射影の切れ目を単語間ギャップとして
識別し1文章行画像情報から単語間ギャップによって区
切られた単語の画像情報を切り出す。
例えば、垂直射影が第4図のようになる二つの文章行の
画像情報が単語切出部18に順次入力されたとする。図
中、斜線を施した範囲は垂直射影の連続している範囲で
あり、それぞれ1個ないし複数個の文字の列または単語
に相当する。プロポーショナル・ピッチ印刷の場合には
1文章行の垂直射影はこの例のようにギャップ幅が変動
する。
画像情報が単語切出部18に順次入力されたとする。図
中、斜線を施した範囲は垂直射影の連続している範囲で
あり、それぞれ1個ないし複数個の文字の列または単語
に相当する。プロポーショナル・ピッチ印刷の場合には
1文章行の垂直射影はこの例のようにギャップ幅が変動
する。
このような文章行では、矢印↑を付した垂直射影の切れ
Llが単語間ギャップと判定され、単語が切り出される
。
Llが単語間ギャップと判定され、単語が切り出される
。
このように、文章行の垂直射影のギャップヒストグラム
に基づき単語間ギャップ判定閾値がダイナミックに決定
されるため、プロポーショナル・ピッチ印刷の文書、異
なったサイズの文字が混在した文書の場合にも、単語間
キャップを間違いなく識別した正確に単;(6を切り出
すことができる。
に基づき単語間ギャップ判定閾値がダイナミックに決定
されるため、プロポーショナル・ピッチ印刷の文書、異
なったサイズの文字が混在した文書の場合にも、単語間
キャップを間違いなく識別した正確に単;(6を切り出
すことができる。
なお、単語切出部[8の機能はマイクロプロセッサなど
を用いてソフ1へウェア処理により実現してもよい。こ
れ以外にも1本発明は種々変形して実施しつるものであ
る。
を用いてソフ1へウェア処理により実現してもよい。こ
れ以外にも1本発明は種々変形して実施しつるものであ
る。
以」二の詳細な説明から明らかなように、本発明は、文
章行の垂直射影のギャップヒストグラムに基づき単語間
ギャップ判定閾値をダイナミックに決定して単語切出を
行うため、プロポーショナル・ピッチ印刷の文書、異な
ったサイズの文字が4A在した文書の場合にも正確に単
語を切り出すことができる。
章行の垂直射影のギャップヒストグラムに基づき単語間
ギャップ判定閾値をダイナミックに決定して単語切出を
行うため、プロポーショナル・ピッチ印刷の文書、異な
ったサイズの文字が4A在した文書の場合にも正確に単
語を切り出すことができる。
第1図は本発明の単語切出方式を適用した文書処理装置
の要部構成のみを示す概略ブロック図、第2図はギャッ
プヒス1−グラムの説明のための文章行の一例を示す図
、第3図はギャップヒストグラムの一例を示す図、第4
図は文章行の垂直射影とその単語間ギャップを対照させ
て示す図である。 10・・・スキャナ、 12・・・画像バッファ、1
4・・行切出部、 16・・行バッファ、18・、単
語切出部、 2o・・・11峠直射影抽出回路、22
・・・ギャップヒストグラム作成回路、24・・・単語
1j11ギャップ判定闇値決定回路、26・・111語
切出回路。 代理人弁理士 鈴 木 誠 第2図 四コロロロ=コーし1 図コロ=コロニーL2 0コーロコロe−L3 第3図 縛 度 第4図 ↑ ↑↑ ↑
の要部構成のみを示す概略ブロック図、第2図はギャッ
プヒス1−グラムの説明のための文章行の一例を示す図
、第3図はギャップヒストグラムの一例を示す図、第4
図は文章行の垂直射影とその単語間ギャップを対照させ
て示す図である。 10・・・スキャナ、 12・・・画像バッファ、1
4・・行切出部、 16・・行バッファ、18・、単
語切出部、 2o・・・11峠直射影抽出回路、22
・・・ギャップヒストグラム作成回路、24・・・単語
1j11ギャップ判定闇値決定回路、26・・111語
切出回路。 代理人弁理士 鈴 木 誠 第2図 四コロロロ=コーし1 図コロ=コロニーL2 0コーロコロe−L3 第3図 縛 度 第4図 ↑ ↑↑ ↑
Claims (1)
- (1)文書の画像情報を入力して文書の単語の切出処理
を含む処理を行う文書処理装置において、文章行の画像
情報の垂直方向の射影をとり、その射影の切れ目の幅の
ヒストグラムを作成し、そのピークに対応する最大の幅
に従って単語間ギャップの判定閾値を決定し、その判定
閾値以上の幅の射影の切れ目を単語間のギャップと判定
し、文章行の画像情報から単語を切り出すことを特徴と
する単語切出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60274051A JPS62133585A (ja) | 1985-12-05 | 1985-12-05 | 単語切出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP60274051A JPS62133585A (ja) | 1985-12-05 | 1985-12-05 | 単語切出方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS62133585A true JPS62133585A (ja) | 1987-06-16 |
Family
ID=17536281
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP60274051A Pending JPS62133585A (ja) | 1985-12-05 | 1985-12-05 | 単語切出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62133585A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63103390A (ja) * | 1986-10-20 | 1988-05-09 | Sharp Corp | 単語処理方式 |
| JPS63158678A (ja) * | 1986-12-23 | 1988-07-01 | Sharp Corp | 単語間スペ−ス検出方法 |
| JPH02255995A (ja) * | 1988-04-28 | 1990-10-16 | Seiko Epson Corp | 文字切り出し方法 |
| JPH03225576A (ja) * | 1990-01-31 | 1991-10-04 | Oki Electric Ind Co Ltd | 単語切り出し装置 |
| US5357581A (en) * | 1991-11-01 | 1994-10-18 | Eastman Kodak Company | Method and apparatus for the selective filtering of dot-matrix printed characters so as to improve optical character recognition |
| US5394482A (en) * | 1991-11-01 | 1995-02-28 | Eastman Kodak Company | Method and apparatus for the detection of dot-matrix printed text so as to improve optical character recognition |
| JPH07319998A (ja) * | 1988-04-28 | 1995-12-08 | Seiko Epson Corp | 文字切り出し方法 |
-
1985
- 1985-12-05 JP JP60274051A patent/JPS62133585A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63103390A (ja) * | 1986-10-20 | 1988-05-09 | Sharp Corp | 単語処理方式 |
| JPS63158678A (ja) * | 1986-12-23 | 1988-07-01 | Sharp Corp | 単語間スペ−ス検出方法 |
| JPH02255995A (ja) * | 1988-04-28 | 1990-10-16 | Seiko Epson Corp | 文字切り出し方法 |
| JPH07319998A (ja) * | 1988-04-28 | 1995-12-08 | Seiko Epson Corp | 文字切り出し方法 |
| JPH03225576A (ja) * | 1990-01-31 | 1991-10-04 | Oki Electric Ind Co Ltd | 単語切り出し装置 |
| US5357581A (en) * | 1991-11-01 | 1994-10-18 | Eastman Kodak Company | Method and apparatus for the selective filtering of dot-matrix printed characters so as to improve optical character recognition |
| US5394482A (en) * | 1991-11-01 | 1995-02-28 | Eastman Kodak Company | Method and apparatus for the detection of dot-matrix printed text so as to improve optical character recognition |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0544430B1 (en) | Method and apparatus for determining the frequency of words in a document without document image decoding | |
| US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
| EP0544433B1 (en) | Method and apparatus for document image processing | |
| JPS62133585A (ja) | 単語切出方式 | |
| JP3537570B2 (ja) | 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法 | |
| JP3725635B2 (ja) | 文字認識方法及び装置 | |
| JP2915175B2 (ja) | 単語間スペース検出方法 | |
| JP2968354B2 (ja) | 文字認識結果の後処理方法 | |
| JPS6226587A (ja) | 光学文字読取装置の文字フイ−ルドフリ−ピツチ処理方式 | |
| JPH02230484A (ja) | 文字認識装置 | |
| JP2985813B2 (ja) | 文字列認識装置および知識データベース学習方法 | |
| JP2746345B2 (ja) | 文字認識の後処理方法 | |
| JP2887823B2 (ja) | 文書認識装置 | |
| JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
| JP2891368B2 (ja) | 文字認識結果の後処理方法 | |
| JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
| JPH04236685A (ja) | 文字間スペース認識方法 | |
| JPH10171924A (ja) | 文字認識装置 | |
| JP2851102B2 (ja) | 文字切出し方法 | |
| Akiyama | Addressee recognition for automated fax mail distribution | |
| JPH0756924A (ja) | 対訳装置 | |
| JP3492442B2 (ja) | 語形状トークンを用いる文書内容特性表示 | |
| CN115937885A (zh) | 用于提取版面信息的方法、系统和计算机可读介质 | |
| JPS60138689A (ja) | 文字認識方法 | |
| JPS62145486A (ja) | 文字認識方式 |