JPH0832816A - Image compression method - Google Patents

Image compression method

Info

Publication number
JPH0832816A
JPH0832816A JP6167922A JP16792294A JPH0832816A JP H0832816 A JPH0832816 A JP H0832816A JP 6167922 A JP6167922 A JP 6167922A JP 16792294 A JP16792294 A JP 16792294A JP H0832816 A JPH0832816 A JP H0832816A
Authority
JP
Japan
Prior art keywords
pattern
connected component
template
image
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6167922A
Other languages
Japanese (ja)
Inventor
Kazunori Takatsu
和典 高津
Takashi Saito
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6167922A priority Critical patent/JPH0832816A/en
Publication of JPH0832816A publication Critical patent/JPH0832816A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 複数の連結成分を統合して一つのパターンと
して切り出すことにより、シンボル系列や位置の予測精
度を向上させて高圧縮率を可能にする。 【構成】 太め、細め処理部102は、入力画像に前処
理として太め処理を施し、次いで、連結成分に影響を与
えない細め処理を加える。かすれなどの劣化によって1
画素程度分離したパターンは、太め、細め処理によって
連結成分が統合されたパターンになり、より本来のパタ
ーンに近い形で切り出しができる。パターン切り出し部
103は、前処理された画像から連結成分を切り出し、
テンプレート生成マッチング部104でパターンマッチ
ングを行い、テンプレートを作成、更新する。
(57) [Abstract] [Purpose] By integrating a plurality of connected components and cutting them out as one pattern, it is possible to improve the prediction accuracy of the symbol sequence and the position and enable a high compression rate. [Structure] A thickening / thinning processing unit 102 performs thickening processing as preprocessing on an input image, and then adds thinning processing that does not affect a connected component. 1 due to deterioration such as scratches
The pattern separated by about pixels becomes a pattern in which the connected components are integrated by the thickening and thinning processing, and can be cut out in a shape closer to the original pattern. The pattern cutout unit 103 cuts out a connected component from the preprocessed image,
The template generation matching unit 104 performs pattern matching to create and update the template.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、漢字のような複数の連
結成分からなるシンボルを的確に切り出すことにより予
測効率を上げ、予測符号化を行う際に効率よく符号化を
行うようにした画像圧縮方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention improves the prediction efficiency by accurately cutting out a symbol composed of a plurality of connected components such as Chinese characters, and an image which is efficiently coded when performing predictive coding. Regarding the compression method.

【0002】[0002]

【従来の技術】文書画像から連結成分を切り出し、一つ
の連結成分を一つのパターンとみなしてテンプレートと
して登録し、該切り出されたパターンの内、類似のパタ
ーンをテンプレートで置き換えることによって、イメー
ジ情報を削減する画像圧縮方法がある(例えば、米国特
許第5,303,313号を参照)。
2. Description of the Related Art A connected component is cut out from a document image, one connected component is regarded as one pattern and registered as a template, and among the cut out patterns, a similar pattern is replaced with a template to obtain image information. There are image compression methods that reduce (see, eg, US Pat. No. 5,303,313).

【0003】図14は、上記公報に記載された従来の画
像圧縮装置の構成を示す。画像圧縮装置は、画像解析部
1401と、予測符号化部1402から構成され、画像
解析部1401は、文書画像からパターンを切り出すパ
ターン切り出し部1403と、切り出したパターンと登
録されているテンプレートとのマッチングをとるパター
ンマッチング部1404と、マッチングに成功したキャ
ラクタはそのテンプレートに統合し、マッチングに失敗
したキャラクタは新たにテンプレートを作成して登録す
るテンプレート生成部1405と、キャラクタを読み順
に並べ替える並べ替え処理部1406からなる。
FIG. 14 shows the configuration of the conventional image compression apparatus described in the above publication. The image compression apparatus includes an image analysis unit 1401 and a predictive coding unit 1402. The image analysis unit 1401 matches a pattern cutout unit 1403 that cuts out a pattern from a document image and a cutout pattern with a registered template. A pattern matching unit 1404 that takes a pattern, a character that succeeds in matching are integrated into the template, and a character that fails in matching is created in a template and registered in a template generation unit 1405, and a rearrangement process that rearranges the characters in reading order. The unit 1406.

【0004】図15は、従来の画像圧縮方法を説明する
図である。1501は英文字からなる文書画像、150
2はテンプレート、1503は位置情報、1504はシ
ンボル(テンプレート番号)である。文書画像1501
から連結成分(文字パターン)を切り出す。図の例で
は、まず連結成分「H」を切り出し、これをテンプレー
ト1502に登録されたパターンとのパターンマッチン
グを行う。この場合、何も登録されていないのでマッチ
ングせず、連結成分「H」がテンプレートとして新規に
登録される。また、連結成分「H」をシンボル「1」
(テンプレート番号)で表現し、そのシンボル1504
の位置情報(例えば、重心の位置)1503と共にメモ
リに格納する。つまり、切り出された各連結成分(文字
パターン)は、シンボル1504と、シンボルの位置情
報1503で表される。
FIG. 15 is a diagram for explaining a conventional image compression method. 1501 is a document image composed of English characters, 150
2 is a template, 1503 is position information, and 1504 is a symbol (template number). Document image 1501
The connected component (character pattern) is cut out from. In the example of the figure, first, the connected component “H” is cut out, and this is subjected to pattern matching with the pattern registered in the template 1502. In this case, since nothing is registered, no matching is performed and the connected component “H” is newly registered as a template. In addition, the connected component “H” is the symbol “1”.
Expressed by (template number), its symbol 1504
And the position information (eg, the position of the center of gravity) 1503 of That is, each clipped connected component (character pattern) is represented by the symbol 1504 and the symbol position information 1503.

【0005】次いで、連結成分「e」を切り出し、これ
もテンプレートに登録されたパターンとマッチングしな
いので、テンプレートとして新規に登録し、これをシン
ボル「2」で表す。以下、連結成分「t」、「o」、
「l」、「d」、「m」までは、同様に処理されてテン
プレートとして登録され、それぞれにシンボル「3」か
ら「7」が割当られ、その位置情報がメモリに格納され
る。
Next, the connected component "e" is cut out, and since this also does not match the pattern registered in the template, it is newly registered as a template and is represented by the symbol "2". Hereinafter, connected components “t”, “o”,
Similarly, “l”, “d”, and “m” are processed and registered as templates, symbols “3” to “7” are assigned to each, and the position information is stored in the memory.

【0006】続いて、「m」の次の「e」が切り出され
と、この連結成分「e」は、テンプレートに登録された
パターン「e」とマッチングするのでテンプレートとし
て新規に登録されない。ただし、登録済みのパターンと
マッチングしたパターンとの平均(あるいは両パターン
の代表値)をとったパターンを作成してテンプレートを
更新処理する。これにより、類似するパターンについて
は、その代表パターンが登録されるように更新処理され
る。
Then, when the next "e" after "m" is cut out, this connected component "e" matches the pattern "e" registered in the template, and is not newly registered as a template. However, an average of the registered pattern and the matched pattern (or a representative value of both patterns) is created to update the template. As a result, similar patterns are updated so that their representative patterns are registered.

【0007】また、シンボルには既に決定されている
「2」が割り当てられる。以下、同様にしてシンボルと
して数字「9」までが使用されると、文字「h」、
「a」には、それぞれシンボル「a」、「b」が割当ら
れる。
Also, the already assigned "2" is assigned to the symbol. In the same manner, when the symbols up to the number “9” are used in the same manner, the character “h”,
Symbols "a" and "b" are assigned to "a", respectively.

【0008】上記したようにして文書画像は、シンボル
列(テンプレート番号列)と、シンボルの位置情報と、
各テンプレートのパターン情報に分解される。そして、
これらの情報を予測符号化部1402で予測符号化する
ことにより、画像を高い圧縮率で圧縮する。このよう
に、上記従来の圧縮方法は、テキスト画像の圧縮を考慮
した方法であり、つまりタイプされた文字は本来同じパ
ターンであることから、この情報の中の冗長性を排除す
ることによって大きな圧縮率を得る手法である。
As described above, the document image includes a symbol string (template number string), symbol position information, and
It is decomposed into pattern information of each template. And
By predictively encoding these pieces of information by the predictive encoding unit 1402, the image is compressed at a high compression rate. As described above, the above-described conventional compression method is a method that considers compression of a text image, that is, since the typed characters are originally the same pattern, a large compression is achieved by eliminating the redundancy in this information. It is a method of obtaining a rate.

【0009】[0009]

【発明が解決しようとする課題】ところで、上記したよ
うにパターンを切り出すとき、正しい読み順で文字が抽
出されない。つまり、文書を上から下に(そして、左か
ら右に)順に画像入力装置によってスキャンしたとき、
図15の例では「H」、「t」、「l」の文字が抽出さ
れ、「H」の次の文字「e」よりも先に「t」が抽出さ
れる。
By the way, when the pattern is cut out as described above, the characters are not extracted in the correct reading order. That is, when scanning a document from top to bottom (and from left to right) in sequence with an image input device,
In the example of FIG. 15, the characters “H”, “t”, and “l” are extracted, and “t” is extracted before the character “e” next to “H”.

【0010】このような正しい読み順でないシンボル列
を符号化するよりも、シンボルを読みの順に並べ替える
ことができれば、シンボル列の予測の効率が向上し、高
い圧縮率を得ることができる。そこで、従来、読み順へ
の並べ替えは以下にようにして行っていた。
If the symbols can be rearranged in the order of reading rather than encoding the symbol string which is not in the correct reading order, the prediction efficiency of the symbol string can be improved and a high compression rate can be obtained. Therefore, conventionally, the reading order is rearranged as follows.

【0011】図16は、従来の読み順への並べ替えを説
明する図である。並べ替えは次のように行う。 (1)パターンを行に登録する。まず、パターン「A」
を行(現在の登録行)に登録する。
FIG. 16 is a diagram for explaining rearrangement into the conventional reading order. The rearrangement is performed as follows. (1) Register a pattern in a row. First, the pattern "A"
To the line (currently registered line).

【0012】(2)次のパターンの水平軸(x軸)の座
標に応じて、現在の行の中の適切な場所に仮挿入する。
次のパターンは「E」であり、図16の位置に仮挿入さ
れている。
(2) According to the coordinate of the horizontal axis (x-axis) of the next pattern, temporary insertion is performed at an appropriate place in the current row.
The next pattern is "E", which is provisionally inserted at the position shown in FIG.

【0013】(3)そのパターンの水平方向への射影
が、隣接するパターン(もしくは近接するパターン)に
重なる場合、現在の行に登録する。パターン「E」と隣
接するパターン「A」、「D」とは重なりがない。
(3) If the horizontal projection of the pattern overlaps the adjacent pattern (or the adjacent pattern), it is registered in the current row. There is no overlap between the pattern "E" and the adjacent patterns "A" and "D".

【0014】(4)重ならない場合、新しい行を作り、
その行に登録する。従って、パターン「E」は新しい行
に登録される。
(4) If they do not overlap, create a new line,
Register on that line. Therefore, the pattern "E" is registered in a new line.

【0015】(5)以下、(2)−(4)の処理を繰り
返す。次のパターン「D」は、パターン「A」、「D」
と重なるので、現在の行に登録され、同様にパターン
「B」、「C」も現在の行に登録される。
(5) Thereafter, the processes of (2)-(4) are repeated. The next pattern "D" is the pattern "A", "D"
Therefore, the patterns “B” and “C” are also registered in the current line.

【0016】英語などアルファベットからなる文書画像
の場合、単純に連結成分を一つのパターンとした場合で
も一つのパターンがほぼ1文字に対応する。従って、上
記した並べ替えは、切り出したパターンの単位がシンボ
ルの単位に一致する(あるいは非常に近い)場合に有効
となる。
In the case of a document image consisting of alphabets such as English, one pattern corresponds to almost one character even if the connected component is simply one pattern. Therefore, the above-mentioned rearrangement is effective when the unit of the cut out pattern matches (or is very close to) the unit of the symbol.

【0017】ところが、例えば、日本語文書画像を連結
成分単位で切り出した場合には、日本語の漢字などのキ
ャラクタが複数の連結成分で構成され、かつ連結成分と
キャラクタが対応していないので、上記した並べ替えが
正しく行われない。このため、シンボル系列や位置の予
測効率が低下し、高い圧縮率を得ることができない。つ
まり、従来技術においては、連結成分をそのままパター
ンとして切り出しているため、英語文書に対する圧縮率
に比べ、日本語文書における圧縮率がはるかに低いとい
う欠点がある。
However, for example, when a Japanese document image is cut out in units of connected components, a character such as Japanese Kanji is composed of a plurality of connected components, and the connected components do not correspond to the characters. The above sort is not done correctly. For this reason, the prediction efficiency of the symbol sequence and the position is reduced, and a high compression rate cannot be obtained. That is, in the prior art, since the connected component is cut out as it is as a pattern, the compression rate in the Japanese document is much lower than that in the English document.

【0018】本発明の目的は、複数の連結成分を統合し
て一つのパターンとして切り出すことにより、シンボル
系列や位置の予測精度を向上させて高圧縮率を可能にし
た画像圧縮方法を提供することにある。
It is an object of the present invention to provide an image compression method in which a plurality of connected components are integrated and cut out as one pattern to improve the prediction accuracy of symbol sequences and positions and to enable a high compression rate. It is in.

【0019】[0019]

【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像から連結成分を
切り出し、該連結成分をパターンとみなしてテンプレー
トとして登録し、該パターンと類似する他のパターンを
該テンプレートで置き換えることにより画像情報を圧縮
する画像圧縮方法において、前記連結成分の切り出しを
行う前に、前記文書画像に対して太め処理を施し、該太
め処理された画像に対してさらに、連結成分を保存した
細め処理を施すことを特徴としている。
In order to achieve the above object, according to the invention of claim 1, a connected component is cut out from a document image, and the connected component is regarded as a pattern and registered as a template, and is similar to the pattern. In an image compression method for compressing image information by replacing another pattern with the template, a thickening process is performed on the document image before clipping the connected component, and the thickened image is processed. Further, it is characterized by performing a thinning process in which connected components are preserved.

【0020】請求項2記載の発明では、文書を主走査方
向および副走査方向に読み取ることによって生成される
文書画像から連結成分を切り出し、該連結成分をパター
ンとみなしてテンプレートとして登録し、該パターンと
類似する他のパターンを該テンプレートで置き換えるこ
とにより画像情報を圧縮する画像圧縮方法において、前
記連結成分の切り出しは、前記連結成分が副走査方向に
おいて重なりを持ち、かつ近接する連結成分を1つのパ
ターンとして切り出すことを特徴としている。
According to the second aspect of the present invention, the connected component is cut out from the document image generated by reading the document in the main scanning direction and the sub-scanning direction, the connected component is regarded as a pattern and registered as a template, and the pattern is added. In the image compression method for compressing image information by replacing another pattern similar to the above with the template, the connected component is cut out so that the connected component has an overlap in the sub-scanning direction and one adjacent connected component is extracted. It is characterized by cutting out as a pattern.

【0021】請求項3記載の発明では、前記連結成分の
切り出しは、近接する連結成分を一つにまとめ、該まと
められた連結成分のパターン幅を予測して切り出すこと
を特徴としている。
According to the third aspect of the present invention, the extraction of the connected components is characterized by collecting adjacent connected components into one and predicting and extracting the pattern width of the combined connected components.

【0022】請求項4記載の発明では、文書画像から連
結成分を切り出し、該連結成分をパターンとみなしてテ
ンプレートとして登録し、該パターンと類似する他のパ
ターンを該テンプレートで置き換えるとともに、該連結
成分にシンボルを割り当てることにより画像情報を圧縮
する画像圧縮方法において、該シンボルが割り当てられ
た連結成分中から近接している連結成分を求め、該近接
する連結成分のシンボルの組とその相対位置を記録し、
該記録されたシンボルの組とその相対位置が一致するも
のについて計数し、該計数値が所定の値以上であると
き、当該シンボルの組を一つのシンボルとして統合する
ことを特徴としている。
According to the fourth aspect of the present invention, the connected component is cut out from the document image, the connected component is regarded as a pattern and registered as a template, and other patterns similar to the pattern are replaced with the template, and the connected component is also replaced. In an image compression method for compressing image information by allocating a symbol to a symbol, a connected component that is close to the connected component to which the symbol is allocated is obtained, and a set of symbols of the adjacent connected component and its relative position are recorded. Then
It is characterized in that the number of recorded symbols that match the relative position of the symbol is counted, and when the counted value is equal to or more than a predetermined value, the symbol group is integrated as one symbol.

【0023】[0023]

【作用】一実施例では、入力画像に対して前処理として
太め処理を施し、次いで、連結成分に影響を与えない細
め処理を施す。この前処理で、かすれなどの劣化によっ
て1画素程度分離したパターンは、連結成分が統合され
たパターンになり、より本来のパターンに近い形で切り
出しができる。前処理された画像から連結成分が切り出
され、テンプレートとパターンマッチングされ、マッチ
ングに成功したときはテンプレートを更新し、マッチン
グに失敗したときはテンプレートを新規に作成する。シ
ンボルを並べ替え、シンボル列、その位置を符号化す
る。
In one embodiment, the input image is subjected to a thickening process as a preprocess and then a thinning process which does not affect the connected component. In this pre-processing, the pattern separated by about one pixel due to deterioration such as blurring becomes a pattern in which connected components are integrated, and can be cut out in a form closer to the original pattern. Connected components are cut out from the preprocessed image and pattern-matched with the template. When the matching is successful, the template is updated, and when the matching is unsuccessful, a new template is created. The symbols are rearranged, and the symbol sequence and its position are encoded.

【0024】[0024]

【実施例】以下、本発明の一実施例を図面を用いて具体
的に説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be specifically described below with reference to the drawings.

【0025】〈実施例1〉図1は、本発明の実施例1の
構成を示す。図において、101はスキャナなどの画像
入力装置、102は分離されたパターンに対して太め、
細め処理を施して結合したパターンを作成する太め、細
め処理部、103はパターン切り出し部、104はテン
プレートを生成し、パターンマッチングを行うテンプレ
ート生成マッチング部、105はシンボルを並べ替える
並べ替え部、106はパターン情報や位置情報などを符
号化する符号化部、107は入力画像や生成データを記
憶する記憶部、108は全体を制御する制御部、109
はデータ通信路である。
<First Embodiment> FIG. 1 shows the structure of a first embodiment of the present invention. In the figure, 101 is an image input device such as a scanner, 102 is a thick pattern for the separated pattern,
A thickening / thinning processing unit that performs a thinning process to create a combined pattern, 103 a pattern cutting unit, 104 a template generation matching unit that generates a template and performs pattern matching, 105 a rearrangement unit that rearranges symbols, 106 Is an encoding unit that encodes pattern information and position information, 107 is a storage unit that stores an input image and generated data, 108 is a control unit that controls the whole, and 109
Is a data communication path.

【0026】図2は、本発明の実施例1の処理フローチ
ャートである。図を参照しながら動作を説明する。ま
ず、スキャナなどの画像入力装置101によって、文書
を主走査方向および副走査方向に走査して画像を入力す
る(ステップ201)。次いで、太め、細め処理部10
2は、入力画像に前処理として太め処理(例えば、膨張
処理)を施す(ステップ202)。続いて、連結成分に
影響を与えない細め処理(例えば、収縮処理、細線化処
理)を加える(ステップ203)。図3は、太め、細め
処理によるパターンの統合を説明する図である。図にお
いて、例えば、かすれなどの劣化によって1画素程度分
離したパターン301であっても、太め、細め処理によ
って連結成分を統合したパターン303にすることがで
き、より本来のパターンに近い形で切り出しを行うこと
が可能となる。
FIG. 2 is a processing flowchart of the first embodiment of the present invention. The operation will be described with reference to the drawings. First, the image is input by scanning the document in the main scanning direction and the sub scanning direction by the image input device 101 such as a scanner (step 201). Next, the thickening / thinning processing unit 10
In step 2, the input image is subjected to thickening processing (for example, expansion processing) as preprocessing (step 202). Then, thinning processing (for example, contraction processing, thinning processing) that does not affect the connected components is added (step 203). FIG. 3 is a diagram for explaining pattern integration by thickening and thinning processing. In the figure, for example, even if the pattern 301 is separated by about one pixel due to deterioration such as blurring, it can be made into a pattern 303 in which connected components are integrated by thickening and thinning processing, and the pattern can be cut out in a shape closer to the original pattern. It becomes possible to do.

【0027】パターン切り出し部103は、上記した前
処理が行われた画像から連結成分を切り出し(ステップ
204)、従来技術で説明したと同様にして、テンプレ
ート生成マッチング部104でパターンマッチングを行
う(ステップ205、206)。マッチングに失敗した
ときは新規のテンプレートを作成し(ステップ20
7)、マッチングに成功したときは登録されたテンプレ
ートを更新する(ステップ208)。これらの処理が全
ての連結成分に対して行われると、連結成分にシンボル
が割り当てられ、シンボル並べ替え部105は、シンボ
ルを並べ替えて(ステップ209)、符号化部106で
はシンボル列、シンボル位置を予測符号化する(ステッ
プ210)。
The pattern cutout unit 103 cuts out the connected component from the image subjected to the above-mentioned preprocessing (step 204), and the template generation matching unit 104 performs pattern matching in the same manner as described in the prior art (step). 205, 206). If matching fails, create a new template (step 20).
7) If the matching is successful, the registered template is updated (step 208). When these processes are performed on all the connected components, symbols are assigned to the connected components, the symbol rearrangement unit 105 rearranges the symbols (step 209), and the encoding unit 106 rearranges the symbol string and symbol position. Is predictively encoded (step 210).

【0028】〈実施例2〉図4は、本発明の実施例2の
構成を示し、実施例1の太め、細め処理部102を、パ
ターン統合処理部402に置き換えて構成されている。
他の構成要素は実施例1のものと同一である。図5は、
実施例2の処理フローチャートである。画像入力装置4
01によって入力され(ステップ501)、パターン切
り出し部403によって連結成分が切り出された(切り
出しの前処理として、実施例1の太め、細め処理を施す
ようにしてもよい)すべての連結成分に対して(ステッ
プ502、503)、パターン統合処理部402は、以
下の処理を行う。
<Embodiment 2> FIG. 4 shows the construction of Embodiment 2 of the present invention, in which the thickening / thinning processing unit 102 of Embodiment 1 is replaced with a pattern integration processing unit 402.
The other components are the same as those in the first embodiment. Figure 5
9 is a processing flowchart of the second embodiment. Image input device 4
01 (step 501), and the connected components are cut out by the pattern cutout unit 403 (all the connected components may be subjected to the thickening and thinning processes of the first embodiment as preprocessing for cutting out). (Steps 502 and 503), the pattern integration processing unit 402 performs the following processing.

【0029】パターン統合処理部402は、連結成分が
垂直方向に重なっているか否かを判定し(ステップ50
4)、次いで、連結成分が近接しているか否かを判定す
る(ステップ505)。
The pattern integration processing unit 402 determines whether or not the connected components overlap in the vertical direction (step 50).
4) Then, it is determined whether or not the connected components are close to each other (step 505).

【0030】図6(a)、(b)、(c)は、垂直方向
に重なりを持つ連結成分の統合処理を説明する図であ
る。図6(a)の「言」を構成する連結成分601から
605は、垂直方向(副走査方向)に対して重なりを持
ち、かつ連結成分間が近接(例えば、両者の距離が5画
素以内にある)しているので、1つのパターンとして切
り出される。
FIGS. 6A, 6B, and 6C are diagrams for explaining the integration processing of connected components that overlap in the vertical direction. The connected components 601 to 605 forming the “word” of FIG. 6A have overlap in the vertical direction (sub-scanning direction), and the connected components are close to each other (for example, the distance between them is within 5 pixels). Yes, it is cut out as one pattern.

【0031】また、図6(b)の連結成分「言」と連結
成分「正」において、連結成分607の一部608と連
結成分606の一部609とが、垂直方向に対して重な
りを持ち、かつ連結成分「言」と連結成分「正」は近接
しているので、連結成分「言」と「正」は1つのパター
ンとして統合される(ステップ506)。ステップ50
7以下の処理は、実施例1と同様であるので、その説明
を省略する。
In the connected component “word” and the connected component “positive” in FIG. 6B, a part 608 of the connected component 607 and a part 609 of the connected component 606 have an overlap in the vertical direction. Moreover, since the connected component "word" and the connected component "positive" are close to each other, the connected component "word" and "positive" are integrated as one pattern (step 506). Step 50
Since the processing from 7 is the same as that of the first embodiment, the description thereof is omitted.

【0032】このように、垂直方向に対して重なりを持
ち、近接する連結成分を1つのパターンとして統合して
切り出すことによって、日本語における多くの文字を1
つのパターンとして切り出すことが可能となり、従っ
て、従来方法による並べ替えが正しく行われることにな
り、シンボル系列や位置の予測の効率が向上する。ま
た、このパターン統合処理は、比較的簡単な処理であ
り、高速動作が可能である。
As described above, many characters in Japanese are combined into one pattern by integrating and cutting out connected components that have overlap in the vertical direction and are adjacent to each other.
It is possible to cut out as one pattern, so that the rearrangement by the conventional method is correctly performed, and the efficiency of predicting the symbol sequence and the position is improved. Further, this pattern integration process is a relatively simple process and can be operated at high speed.

【0033】なお、図6(c)に示す連結成分610
「酉」と611「己」は、垂直方向に対して重なりを持
たないので、1文字が左右に分離して切り出されること
になる。しかし、多くの場合、辺とつくりに分かれ、そ
れぞれがパターンとしての意味を持ち、上記した例では
「酉」の次に「己」が続く頻度が高いことなどから、シ
ンボル系列の予測精度は向上する。また、左右(水平方
向)への分離、つまり「辺」と「つくり」への分離は、
シンボルの並べ替えにも悪影響を与えない。
The connected component 610 shown in FIG. 6 (c).
Since “rooster” and 611 “self” have no overlap in the vertical direction, one character will be cut out left and right. However, in many cases, it is divided into edges and structures, each of which has a meaning as a pattern, and in the above example, the frequency of "self" following "rooster" is high. To do. In addition, the separation into left and right (horizontal direction), that is, the separation into "side" and "making",
It does not adversely affect the rearrangement of symbols.

【0034】〈実施例3〉図7は、実施例3の構成を示
し、実施例2の構成にさらにパターン幅予測部703を
加えている。図8は、実施例3の処理フローチャートで
ある。実施例2と同様に、連結成分を切り出し(ステッ
プ802)、パターン統合処理部702は、近接してい
る(所定の距離以下にある)連結成分を仮パターンとし
て統合する(ステップ804、805)。近接する連結
成分をまとめ、それらのまとまりを幾つかマクロにみる
ことにより、パターン幅を予測することができる。
<Third Embodiment> FIG. 7 shows the structure of the third embodiment, in which a pattern width prediction unit 703 is further added to the structure of the second embodiment. FIG. 8 is a processing flowchart of the third embodiment. Similar to the second embodiment, the connected components are cut out (step 802), and the pattern integration processing unit 702 integrates the adjacent (closer than a predetermined distance) connected components as a temporary pattern (steps 804 and 805). The pattern width can be predicted by collecting the connected components that are close to each other and viewing some of them as macros.

【0035】図9は、近接する連結成分を一つにまとめ
てパターン幅を予測する図である。901、902は、
連結成分であり、連結成分901と902は近接してい
るので、これを1つのパターンとしてまとめ、パターン
幅予測部703は、そのパターン幅906を予測する
(ステップ806)。パターン幅予測部703でのパタ
ーン幅の予測を基に、パターン切り出し部704がパタ
ーンの切り分けを行うことにより、より確実に、複数の
連結成分からなる、意味を持つシンボルとしての切り出
しが可能になる。
FIG. 9 is a diagram for predicting the pattern width by combining adjacent connected components into one. 901 and 902 are
Since they are connected components and the connected components 901 and 902 are close to each other, they are put together as one pattern, and the pattern width prediction unit 703 predicts the pattern width 906 (step 806). Since the pattern cutout unit 704 performs pattern division based on the pattern width prediction in the pattern width prediction unit 703, it is possible to more reliably cut out as a symbol having meaning, which is composed of a plurality of connected components. .

【0036】なお、904は、3つの連結成分が近接し
ているので1つにまとめられ、さらに903と904が
近接しているので1つにまとめられ、上記したと同様に
そのパターン幅が予測される。ステップ808以下の処
理は前述した通りであるので、省略する。
Note that 904 is grouped into one because three connected components are close to each other, and is further grouped into one because 903 and 904 are close to each other, and its pattern width is predicted as described above. To be done. The processing from step 808 onward is the same as described above, and will be omitted.

【0037】〈実施例4〉図10は、実施例4の構成を
示し、実施例1の太め、細め処理部を連結成分処理部に
置き換えて構成したもので、他の構成要素は実施例1の
ものと同一である。図11は、実施例4の処理フローチ
ャートである。ステップ1101からステップ1106
までの処理は、従来技術で説明したものと同様である。
ステップ1106までの処理によって、各連結成分にシ
ンボルが割り当てられる。
<Embodiment 4> FIG. 10 shows the construction of Embodiment 4, in which the thickening / thinning processing unit of Embodiment 1 is replaced with a connected component processing unit, and the other constituent elements are the same as those of Embodiment 1. Is the same as FIG. 11 is a processing flowchart of the fourth embodiment. Step 1101 to Step 1106
The processing up to is similar to that described in the related art.
By the processing up to step 1106, a symbol is assigned to each connected component.

【0038】次いで、連結成分処理部1002は、全て
の連結成分に対して、近接している(つまり、所定の距
離以内にある)連結成分を探す(ステップ1108)。
そして、近接するシンボルの組とそのシンボルの相対位
置をデータ記憶部1007に記録する(ステップ110
9)。
Next, the connected component processing unit 1002 searches for connected components that are close to each other (that is, within a predetermined distance) with respect to all connected components (step 1108).
Then, the set of adjacent symbols and the relative position of the symbols are recorded in the data storage unit 1007 (step 110).
9).

【0039】図12は、近接するシンボルの組を説明す
る図である。この例では、「私」の辺の連結成分120
1と、つくりの連結成分1202が近接しているので、
辺の連結成分1201のシンボルAと、つくりの連結成
分1202のシンボルBの組ABが記録される。次の文
字「の」(割り当てられたシンボルはC)は、「私」と
近接していないので、記録されない。「名」も同様であ
る。「前」は、4つの連結成分1203、1204、1
205、1206からなり、これらは近接しているの
で、そのシンボルの組E,F,G,Hが記録される。以
下、同様に処理されて、図12の例では、シンボルの組
(I,J)、(M,N,O)などが記録される。
FIG. 12 is a diagram for explaining a set of adjacent symbols. In this example, the connected component 120 on the "I" side is
Since 1 and the connected component 1202 of the structure are close to each other,
A set AB of the symbol A of the connected component 1201 of the side and the symbol B of the connected component 1202 of the structure is recorded. The next character "of" (the assigned symbol is C) is not recorded because it is not in close proximity to "I". The same applies to "name". “Before” means four connected components 1203, 1204, 1
205, 1206, which are close to each other, so that the symbol sets E, F, G, and H are recorded. Thereafter, similar processing is performed, and in the example of FIG. 12, a set of symbols (I, J), (M, N, O) and the like are recorded.

【0040】また、シンボルの組の相対位置を記録する
が、その理由は次の通りである。図13は、相対位置を
記録しない場合の不都合を説明する図である。すなわ
ち、「陪」と「部」にはそれぞれシンボル(A,B)、
(B,A)が割り当てられたとき、相対位置を記録しな
い場合、(A,B)と(B,A)の相違が分からず、こ
れを1つのシンボルで置き換えると異なるべき文字が同
じ文字になる。また、「杉」と「林須」についても、杉
にはシンボル(A,B)が割り当てられ、林須には
(C,A,B,D)が割り当てられる。そして、杉の
(A,B)と「林須」中の「杉」(A,B)を1つのシ
ンボルで置き換えると、フォントのバランスが崩れる。
The relative position of the symbol set is recorded for the following reason. FIG. 13 is a diagram illustrating an inconvenience when the relative position is not recorded. That is, the symbols (A, B) are assigned to the "horizon" and "part", respectively.
When (B, A) is assigned and the relative position is not recorded, the difference between (A, B) and (B, A) cannot be seen, and if this is replaced with one symbol, the characters that should be different become the same character. Become. Further, regarding “cedar” and “bayashi”, the symbols (A, B) are assigned to the cedar and (C, A, B, D) are assigned to the forest. Then, if the cedar (A, B) and the "cedar" (A, B) in "Hayashisu" are replaced with one symbol, the font balance is lost.

【0041】さらに、シンボル1301と1302、1
303と1304、1305と1306を区別しないで
1つのシンボルに置き換えると、同じパターンになる。
以上の理由からシンボルの組の相対位置を記録すること
になるが、シンボルの組(A,B)の座標を(XA,Y
A)、(XB,YB)とすると、相対位置として(XA
−XB)、(YA−YB)を記録すればよい。また、こ
の数値が一致しているか否かは簡単にチェックすること
ができる。
Further, the symbols 1301 and 1302, 1
If 303 and 1304 and 1305 and 1306 are not distinguished and replaced with one symbol, the same pattern is obtained.
For the above reasons, the relative position of the symbol set is recorded, but the coordinates of the symbol set (A, B) are (XA, Y
A) and (XB, YB), the relative position is (XA
-XB) and (YA-YB) may be recorded. Moreover, it can be easily checked whether or not these numerical values match.

【0042】次いで、連結成分処理部1002は、記録
されたデータを参照して、シンボルの組が一致し、相対
位置が一致するものをカウントする(ステップ111
0、1111)。そして、所定の回数以上出現したシン
ボルの組(例えば、図12の例では、シンボルの組AB
が2回出現)を1つのシンボルとして統合する(ステッ
プ1112)。以下、シンボルを並べ替え(ステップ1
113)、符号化する(ステップ1114)。
Next, the connected component processing unit 1002 refers to the recorded data, and counts those whose symbol pairs match and their relative positions match (step 111).
0, 1111). Then, a set of symbols that appears a predetermined number of times or more (for example, in the example of FIG. 12, a set of symbols AB
Appear twice) are integrated as one symbol (step 1112). Hereafter, rearrange the symbols (Step 1
113) and encode (step 1114).

【0043】このように実施例4では、切り出しの後処
理として、画像中の他の場所にも存在するシンボルの組
を、1シンボルとして統合しているので、より確実にシ
ンボルに近い形でパターンが切り出され、シンボル系列
や位置の予測符号化の効率が上がる。
As described above, in the fourth embodiment, as a post-cutting process, a set of symbols existing in other places in the image is integrated as one symbol, so that the pattern can be more reliably approximated to the pattern. Are extracted, and the efficiency of predictive coding of symbol sequences and positions is improved.

【0044】[0044]

【発明の効果】以上、説明したように、請求項1記載の
発明によれば、切り出しを行う前処理として画像に太
め、細め処理を施しているので、かすれなどの劣化によ
り分離したパターンが連結されて本来のパターンに復元
され、従ってパターンマッチングの成功率が向上すると
ともに圧縮率を向上させることができる。
As described above, according to the first aspect of the invention, since the image is thickened and thinned as a preprocessing for cutting out, the separated patterns are connected due to deterioration such as blurring. As a result, the original pattern is restored and thus the success rate of pattern matching is improved and the compression rate can be improved.

【0045】請求項2記載の発明によれば、垂直方向に
重なりを持ち、かつ近接している連結成分を1つのパタ
ーンとしてまとめて切り出しているので、パターンの切
り出しが連結成分ではなく、日本語における辺やつくり
といったシンボルに近い形で切り出しを行うことがで
き、この結果、シンボル系列や位置の予測の的中確率が
向上し、予測符号化を行う際に、より効率よく符号化す
ることができる。
According to the second aspect of the present invention, since the connected components which overlap in the vertical direction and which are adjacent to each other are collectively cut out as one pattern, the cut-out of the pattern is not the connected component, and It is possible to cut out in a shape close to a symbol such as an edge or a structure in, and as a result, the hit probability of prediction of the symbol sequence or position is improved, and more efficient coding can be performed when performing predictive coding. it can.

【0046】請求項3記載の発明によれば、近接する連
結成分をまとめた上で、パターン幅を推定することによ
り、よりシンボルに近い形でパターンの切り出しを行う
ことができ、シンボル系列や位置の予測符号化の効率が
向上し、圧縮率が向上する。
According to the third aspect of the invention, by collecting the adjacent connected components and estimating the pattern width, the pattern can be cut out in a form closer to the symbol, and the symbol series and position The efficiency of the predictive coding is improved and the compression rate is improved.

【0047】請求項4記載の発明によれば、近接するシ
ンボルの組を1つのシンボルとして統合する際に、画像
中の他の場所に同様なシンボルの組が所定数以上存在す
ることを考慮しているので、該統合されたシンボルは、
意味を持つシンボルである確度が高く、より確実にシン
ボルに近い形でパターンが切り出され、シンボル系列や
位置の予測符号化の効率が上がり、圧縮率を向上させる
ことができる。
According to the fourth aspect of the present invention, when the sets of adjacent symbols are integrated into one symbol, it is taken into consideration that there are a predetermined number or more of similar sets of symbols in other places in the image. Therefore, the integrated symbol is
The probability of being a meaningful symbol is high, and the pattern is more reliably cut out in a form close to the symbol, the efficiency of predictive coding of the symbol series and the position is improved, and the compression rate can be improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例1の構成を示す。FIG. 1 shows a configuration of a first embodiment of the present invention.

【図2】本発明の実施例1の処理フローチャートであ
る。
FIG. 2 is a processing flowchart of the first embodiment of the present invention.

【図3】太め、細め処理によるパターンの統合を説明す
る図である。
FIG. 3 is a diagram illustrating integration of patterns by thickening and thinning processing.

【図4】本発明の実施例2の構成を示す。FIG. 4 shows a configuration of a second embodiment of the present invention.

【図5】本発明の実施例2の処理フローチャートであ
る。
FIG. 5 is a processing flowchart of a second embodiment of the present invention.

【図6】(a)、(b)、(c)は、垂直方向に重なり
を持つ連結成分の統合処理を説明する図である。
6 (a), (b), and (c) are diagrams illustrating a process of integrating connected components that overlap in the vertical direction.

【図7】本発明の実施例3の構成を示す。FIG. 7 shows a configuration of a third embodiment of the present invention.

【図8】本発明の実施例3の処理フローチャートであ
る。
FIG. 8 is a processing flowchart of a third embodiment of the present invention.

【図9】近接する連結成分をまとめてパターン幅を予測
する図である。
FIG. 9 is a diagram for predicting a pattern width by collectively collecting adjacent connected components.

【図10】本発明の実施例4の構成を示す。FIG. 10 shows a configuration of a fourth embodiment of the present invention.

【図11】本発明の実施例4の処理フローチャートであ
る。
FIG. 11 is a processing flowchart according to the fourth embodiment of the present invention.

【図12】近接するシンボルの組を説明する図である。FIG. 12 is a diagram illustrating sets of adjacent symbols.

【図13】相対位置を記録しない場合の不都合を説明す
る図である。
FIG. 13 is a diagram illustrating an inconvenience when a relative position is not recorded.

【図14】従来の画像圧縮装置の構成を示す。FIG. 14 shows a configuration of a conventional image compression device.

【図15】従来の画像圧縮方法を説明する図である。FIG. 15 is a diagram illustrating a conventional image compression method.

【図16】従来の読み順への並べ替えを説明する図であ
る。
FIG. 16 is a diagram for explaining rearrangement into a conventional reading order.

【符号の説明】[Explanation of symbols]

101 画像入力装置 102 太め、細め処理部 103 パターン切り出し部 104 テンプレート生成マッチング部 105 シンボル並べ替え部 106 符号化部 107 データ記憶部 108 制御部 109 データ通信路 Reference Signs List 101 image input device 102 thickening / thinning processing unit 103 pattern cutout unit 104 template generation matching unit 105 symbol rearranging unit 106 encoding unit 107 data storage unit 108 control unit 109 data communication path

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/34 H04N 1/417 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI Technical display location G06K 9/34 H04N 1/417

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 文書画像から連結成分を切り出し、該連
結成分をパターンとみなしてテンプレートとして登録
し、該パターンと類似する他のパターンを該テンプレー
トで置き換えることにより画像情報を圧縮する画像圧縮
方法において、前記連結成分の切り出しを行う前に、前
記文書画像に対して太め処理を施し、該太め処理された
画像に対してさらに、連結成分を保存した細め処理を施
すことを特徴とする画像圧縮方法。
1. An image compression method for compressing image information by extracting a connected component from a document image, regarding the connected component as a pattern, registering it as a template, and replacing another pattern similar to the pattern with the template. An image compression method characterized by performing a thickening process on the document image before cutting out the connected component, and further performing a thinning process in which the connected component is stored on the thickened image. .
【請求項2】 文書を主走査方向および副走査方向に読
み取ることによって生成される文書画像から連結成分を
切り出し、該連結成分をパターンとみなしてテンプレー
トとして登録し、該パターンと類似する他のパターンを
該テンプレートで置き換えることにより画像情報を圧縮
する画像圧縮方法において、前記連結成分の切り出し
は、前記連結成分が副走査方向において重なりを持ち、
かつ近接する連結成分を1つのパターンとして切り出す
ことを特徴とする画像圧縮方法。
2. A connected component is cut out from a document image generated by reading a document in a main scanning direction and a sub-scanning direction, the connected component is regarded as a pattern and registered as a template, and another pattern similar to the pattern. In the image compression method for compressing image information by replacing the connected component with the template, the connected component is cut out so that the connected component has an overlap in the sub-scanning direction,
An image compression method is characterized in that adjacent connected components are cut out as one pattern.
【請求項3】 前記連結成分の切り出しは、近接する連
結成分を一つにまとめ、該まとめられた連結成分のパタ
ーン幅を予測して切り出すことを特徴とする請求項2記
載の画像圧縮方法。
3. The image compression method according to claim 2, wherein the extraction of the connected component is performed by collecting adjacent connected components into one and predicting the pattern width of the combined connected component and extracting the pattern width.
【請求項4】 文書画像から連結成分を切り出し、該連
結成分をパターンとみなしてテンプレートとして登録
し、該パターンと類似する他のパターンを該テンプレー
トで置き換えるとともに、該連結成分にシンボルを割り
当てることにより画像情報を圧縮する画像圧縮方法にお
いて、該シンボルが割り当てられた連結成分中から近接
している連結成分を求め、該近接する連結成分のシンボ
ルの組とその相対位置を記録し、該記録されたシンボル
の組とその相対位置が一致するものについて計数し、該
計数値が所定の値以上であるとき、当該シンボルの組を
一つのシンボルとして統合することを特徴とする画像圧
縮方法。
4. A connected component is cut out from a document image, the connected component is regarded as a pattern and registered as a template, another pattern similar to the pattern is replaced with the template, and a symbol is assigned to the connected component. In an image compression method for compressing image information, a neighboring connected component is obtained from the connected components to which the symbol is assigned, a set of symbols of the neighboring connected component and their relative positions are recorded, and the recorded An image compression method, characterized in that a set of symbols and those whose relative positions match each other are counted, and when the count value is a predetermined value or more, the set of symbols is integrated as one symbol.
JP6167922A 1994-07-20 1994-07-20 Image compression method Pending JPH0832816A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6167922A JPH0832816A (en) 1994-07-20 1994-07-20 Image compression method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6167922A JPH0832816A (en) 1994-07-20 1994-07-20 Image compression method

Publications (1)

Publication Number Publication Date
JPH0832816A true JPH0832816A (en) 1996-02-02

Family

ID=15858551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6167922A Pending JPH0832816A (en) 1994-07-20 1994-07-20 Image compression method

Country Status (1)

Country Link
JP (1) JPH0832816A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006353A (en) * 2004-08-18 2005-01-06 Sharp Corp Image encoding apparatus, image encoding method, computer-readable recording medium recording program of image encoding method, and computer-readable recording medium recording program of image decoding method and image decoding method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006353A (en) * 2004-08-18 2005-01-06 Sharp Corp Image encoding apparatus, image encoding method, computer-readable recording medium recording program of image encoding method, and computer-readable recording medium recording program of image decoding method and image decoding method

Similar Documents

Publication Publication Date Title
JP2940496B2 (en) Pattern matching encoding apparatus and method
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
US6389166B1 (en) On-line handwritten Chinese character recognition apparatus
GB2190778A (en) Character recognition with variable subdivision of a character region
JPS6118381B2 (en)
CN112070649B (en) Method and system for removing specific character string watermark
US7889926B2 (en) Image dictionary creating apparatus, coding apparatus, image dictionary creating method
US6701022B2 (en) Pattern matching coding device and method thereof
US6560359B2 (en) Data processing method and apparatus
US20050226516A1 (en) Image dictionary creating apparatus and method
US6487311B1 (en) OCR-based image compression
JPH0832816A (en) Image compression method
JP3031603B2 (en) Image compression method
JP3095071B2 (en) Pattern matching encoding apparatus and encoding method therefor
JP3090070B2 (en) Form identification method and device
JP2796561B2 (en) Tabular document recognition method
US20030152270A1 (en) Image encoding device, decoding device and encoding method, decoding method, and recorded program on which programs of the methods are recorded
JP3848792B2 (en) Character string recognition method and recording medium
EP0930787A2 (en) Image coding apparatus and method using pattern coding
JP3376931B2 (en) Character line extraction method and apparatus
JPH10207985A (en) Method and device for segmenting character
JPH0535913A (en) Character row segmenting device and character recognition device
JPH07104940B2 (en) Figure recognition device
JPH10116321A (en) Character recognition method and device therefor
JPS60210069A (en) Document information encoding method