JPH01101740A - データ圧縮方式 - Google Patents

データ圧縮方式

Info

Publication number
JPH01101740A
JPH01101740A JP25935887A JP25935887A JPH01101740A JP H01101740 A JPH01101740 A JP H01101740A JP 25935887 A JP25935887 A JP 25935887A JP 25935887 A JP25935887 A JP 25935887A JP H01101740 A JPH01101740 A JP H01101740A
Authority
JP
Japan
Prior art keywords
code
byte
character
data
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25935887A
Other languages
English (en)
Inventor
Akihiko Yonetani
昭彦 米谷
Hajime Sugiura
一 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP25935887A priority Critical patent/JPH01101740A/ja
Publication of JPH01101740A publication Critical patent/JPH01101740A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔目次〕 概要 産業上の利用分野 従来の技術(第6図) 発明が解決しようとする問題点 問題点を解決するための手段(第1図)作用 実施例 (a)一実施例の説明 (第2図、第3図、第4図、第5図) (b)他の実施例の説明 発明の効果 〔概要〕 バイト単位のデータを可変長コードに変換してデータ圧
縮するデータ圧縮方式に関し、複数バイトで構成される
文字コードを含むデータを高い圧縮率でデータ圧縮する
ことを目的とし、複数バイトで構成される文字コードを
含むデータをコード変換してデータ圧縮するデータ圧縮
方式において、1バイトを単位とするデータを文字コー
ドを単位とするデータに組立てる文字コード組立部と、
該変換された文字コードを単位に可変長コードに変換す
るコード変換部とを含む。
〔産業上の利用分野〕
本発明は、バイト単位のデータを可変長コードに変換し
てデータ圧縮するデータ圧縮方式に関する。
データを記憶したり、伝送する際に、記憶量や伝送量を
減少するためデータ圧縮技術が利用されている。
特に、テキストデータを対象とするデータ圧縮において
は、文字コードを可変長コードに変換する方法がよく用
いられる。
このようなコード変換を用いたデータ圧縮においては、
データ圧縮率が高いことが望まれている。
〔従来の技術〕
第6図は従来技術の説明図である。
第6図(A)に示す如く、原データは1バイト単位で入
力され、ラッチ回路Rでラッチされた後、1バイト単位
の可変長コード変換を行うコード変換回路DCによって
可変長コードに変換して圧縮を行う。
コード変換回路DCは、1バイトの各コードをその出現
額度に応じたコード長を有する可変長コードに変換する
ものであり、1バイトの各コードと対応する可変長コー
ドとの対照表をROM(リードオンリーメモリ)に有し
ている。
このため、第6図(B)の如く、2バイトより構成され
る漢字コードも、1バイト毎に分解し、分解された1バ
イトのコードに対して、コード変換を行っていた。
〔発明が解決しようとする問題点〕
一般に、2バイトコードである漢字コードをその内容と
するデータは冗長度が大きく、高いデータ圧縮率が期待
される。
しかしながら、従来技術では、本来複数バイトで構成さ
れている文字コードをコード変換単位である1バイト毎
に分解し、コード変換しているため、係る文字コードの
圧縮率を高めることができないとい、う問題があった。
即ち、従来技術では、1バイト単位のコード変換のため
1バイトコードに対しては圧縮率の高い可変長コードを
採用できるが、複数バイトコードは、1バイトコードの
変換コードの複数バイト分の組み合わせのコードが圧縮
コードとなるため、複数バイトコードに最適な変換コー
ドを採用できないからである。
特に、頻度の高いコードに少ないコード長の可変長コー
ドを割り当てるものでは、複数バイトコード自体に係る
可変長コードが割り当てられず、従って複数バイトコー
ドの頻度が高くても圧縮率が向上しないという問題が生
じていた。
本発明は、複数バイトで構成される文字コードを含むデ
ータを高い圧縮率でデータ圧縮することのできるデータ
圧縮方式を提供することを目的とする。
〔問題点を解決するための手段〕
第1図は本発明の原理説明図である。
図中、1は文字コード組立部であり、1バイトを単位と
するデータを文字コード単位とするデータに組立てるも
の、2はコード変換部であり、変換された文字コードを
単位に可変長コードに変換するものである。
〔作用〕
本発明では、文字コード単位にデータを組立て、文字コ
ード単位でコード変換するため、文字コード単位の可変
長コードを設定できる。
このため、1バイトコードのみならず、複数バイトの文
字コードに対しても頻度に応じた最適コード長の可変長
コードを用いることができ、データ圧縮率を大幅に高め
ることができる。
〔実施例〕
(a)一実施例の説明 第2図は本発明の一実施例構成図、第3図は本発明の一
実施例変換コード説明図である。
第2図中、第1図で示したものと同一のものは同一の記
号で示してあり、10.11は各々ラッ子回路であり、
1バイト毎の原データをラッチするもの、12は制御回
路であり、原データに含まれるシフトインコード(Sl
)、シフトアウトコード(SO)から1バイトコードか
2バイトコードかを判定し、ラッチ回路10.11を制
御し、且つ文字コード長(1バイト、2バイト)信号を
出力するもの、20はコード変換用ROMであり、1バ
イトコードと2バイトコードの一部の割り当て可変長コ
ードを格納しておくもの、21は判定変換回路であり、
与えられた文字コードが2バイト毎号の場合、第2水準
漢字かを判定し、第2水準漢字ならコード変換用ROM
20を用いず、変換コードを生成するものである。
3は1バイト整合回路であり、コード変換回路2からの
可変長コードをコード長信号に応じ、1バイト長に整合
して、出力するものである。
変換コードについて第3図を用いて説明する。
先づ、1バイトコード(EBCDICコード)のうち、
出現頻度の高いもの128個を8ビツトコードに割り当
て、先頭(最上位)ビットを“0”とする。
次に、1バイトコードの残り(128個)の内64個と
2バイトコード(ここではJEFコードを用いる)の出
現頻度の高い平仮名、片仮名、数字など192個の計2
56個を10ビツトコードに割り当て、最上位2ビツト
を“lO”とする。
残りの1バイトコ一ド64個と、第1水準漢字のうち比
較的よく用いるもの1472個の計1536個を13ビ
ツトコードに割り当てる。この13ビツトコードの最上
位4ビツトは1100”、”1101″又は“1110
″である。
更に、残りの2バイトコード、即ち第1水準漢字の残り
と第2水準漢字等を19ビツトコードに割り当てる。
この19ビツトコードでは、16ビツト(2バイト)コ
ードの上位に3ビツトの“111″を付したものであり
、最上位4ビツトは1111”となる。
この内1バイトコードと2バイトコードの内の第1水準
漢字に対しては、対応する割り当て変換コードをコード
変換ROM20に格納してお(。
但し、第1水準漢字の内、19ビツトコードのものは、
コード変換ROM20内にその漢字コードの変換コード
は格納せず、ビット長のみ格納する。
従って、1バイトコードと2バイトコードの一部がコー
ド変換ROM20を用いて8ピツ1〜.10ビツト、1
3ビツトコードに変換され、使用頻度の少ない2バイト
コードの残りは、JEFコードの最上位ビットが“1”
であることを利用して元の2バイトコードに“111″
の3ビツトを付は加え、19ビツトに変換することによ
り済ましている。
このことにより、コード変換テーブル(ROM)20を
用いてコード変換を行う対象となるコードの数を限定で
き、第2水準漢字等に対する変換コードをコード変換テ
ーブルに記憶しなくても済むようにし、デコード(圧縮
)及びエンコード(復元)におけるコード変換テーブル
の大きさを小さくできるようにしている。
第4図は本発明の一実施例動作説明図である。
漢字コードにJEFコードを用いた場合、JEFコード
(2バイトコード)とEBCD I Cコード(1バイ
トコード)の識別にシフトイン(Sりコード、シフトア
ウト(SO)コードが用いられる。
SOCコード、2バイトコードから1バイトコードへの
切替えを示し、Slコードは1バイトコードから2バイ
トコードへの切替えを示す。
従って、第2図の左からクロックとともに、原データが
制御回路12に入力されると、31又はSOCコードよ
って1バイトデータか2バイI・データかを識別し、1
バイトデータなら、入力データをラッチ回路lOにセッ
トして文字コード長信号(1バイト)をコード変換回路
2へ送出する。
一方、2バイトデータなら、入力データの1バイト目を
ラッチ回路10にセットし、2バイト目をラッチ回路1
1ヘセツトした後、文字コード長信号(2バイト)をコ
ード変換回路2へ送出する。
コード変換回路2は、2バイト幅の文字コードを受け、
文字コード長信号が1バイトを示していれば、コード変
換ROM20を1バイトの文字コードで参照し、その文
字コードに対応する8ビット、lOビット又は13ビツ
トコードを変換コードとして、更にコード長を1バイト
整合回路3に出力する。
逆に、文字コード長信号が2バイトを示していれば、2
バイトの文字コードが第2水準漢字かを判定変換回路2
1で判定し、第2水準漢字以外なら、係る2バイトの文
字コードでコード変換ROM20を参照する。
この時、前述の如く、10ビツトコード、13ビットコ
ードが割り当てられたものは、コード変換ROM20か
ら10ビツト又は13ビツトの変換コードが出力され、
コード長も出力される。
一方、割り当てられてないもの及び第2水準漢字等のも
のは、判定変換回路で2バイトの文字コードの先頭は3
ビツトの”111”が付され、19ビツトコードに変換
して出力され19ビット長信号も出力される。
1バイト整合回路3では、変換コードとコード長から1
バイトずつの圧縮データに整合し、バイト単位で圧縮デ
ータをパラレル出力する。
このようにして、2バイトコードは2バイトコ一ド単位
に、1バイトコードは1バイトコ一ド単位に、即ち文字
コード単位にコード変換できる。
第3図に示した変換コードの割り当てでは、全ての各文
字コードに対する変換コードが唯一存在するユニーク性
を持たせである。
このため、圧縮データとしては、入力されるモード変遷
コードとしてのシフトイン及びシフトコードを省略する
ことができ、−面圧縮効率が向上する。
第5図は本発明の詳細な説明図である。
第5図は「漢字コードに対するデータ圧縮について」と
いう18文字の文字コードに対し、各文字コードを1バ
イト毎にコード変換した時の変換コードピット数と文字
コード(2バイト)毎にコード変換した時の変換コード
ビット数を示したものである。
ここで、例えば、文字「漢」に対しての2バイトの文字
コードは1バイトコード「B4」と1バイトコード「C
1」とである。
そして、例えば文字「す」に対しては、1バイト毎にコ
ード変換すると、1バイト目の「A4」力(5ビツトコ
ードに、2バイト目の「B9」が6ビツトコードに変換
され、合わせて11ビット要す。
これに対し、文字コード毎にコード変換すると10ビツ
トですむ。
このようにして18文字の総ビット数は、1バイト毎の
コード変換では213ビツト、文字コード(2バイト)
毎のコード変換では195ビツトとなり、この例では約
lO%程度圧縮効率が上がる。
例えば、外部記憶装置に原データを圧縮して記憶する場
合には、記憶量が10%減少することになり、逆に言え
ば、10%余分にデータを記憶できる。
尚、データ復元の際には、第3図の割り当て変換コード
の上位1〜4ビツトを調べることによりコード長が判別
する。
(b)他の実施例の説明 上述の実施例では、2バイトコードを例にしているが文
字コードが複数バイトであればよく、2バイトコードに
限られず、又変換側り当てコードも第3図のものに限ら
ず種々のコード長や種類のものを必要に応じて採用しう
る。
更に、19ビツト長コードをROM20に格納しておい
てもよく、要求された機能に合わせ、種々のものを用い
てもよい。
以上本発明を実施例により説明したが、本発明は本発明
の主旨に従い種々の変形が可能であり、本発明からこれ
らを排除するものではない。
〔発明の効果〕
以上説明した様に、本発明によれば、文字コード単位で
コード変換するので、文字コード単位で出現頻度に応じ
た変換コードを設定でき、データ圧縮率を大幅に向上で
きるという効果を奏す。
特に、漢字コードを内容として含むデータ圧縮に対し、
高い圧縮率かえられる。
【図面の簡単な説明】
第1図は本発明の原理説明図、 第2図は本発明の一実施例構成図、 第3図は第2図における変換コードの説明図、第4図は
本発明の一実施例動作説明図、第5図は本発明の詳細な
説明図、 第6図は従来技術の説明図である。 図中、1−・・文字コード組立部、 2・−・コード変換部。

Claims (1)

  1. 【特許請求の範囲】 複数バイトで構成される文字コードを含むデータをコー
    ド変換してデータ圧縮するデータ圧縮方式において、 1バイトを単位とするデータを文字コードを単位とする
    データに組立てる文字コード組立部(1)と、 該変換された文字コードを単位に可変長コードに変換す
    るコード変換部(2)とを含むことを特徴とするデータ
    圧縮方式。
JP25935887A 1987-10-14 1987-10-14 データ圧縮方式 Pending JPH01101740A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25935887A JPH01101740A (ja) 1987-10-14 1987-10-14 データ圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25935887A JPH01101740A (ja) 1987-10-14 1987-10-14 データ圧縮方式

Publications (1)

Publication Number Publication Date
JPH01101740A true JPH01101740A (ja) 1989-04-19

Family

ID=17333005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25935887A Pending JPH01101740A (ja) 1987-10-14 1987-10-14 データ圧縮方式

Country Status (1)

Country Link
JP (1) JPH01101740A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627444A (en) * 1979-08-13 1981-03-17 Nippon Telegr & Teleph Corp <Ntt> Data compression processing system
JPS61109353A (ja) * 1984-11-02 1986-05-27 Hitachi Ltd デ−タ圧縮方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627444A (en) * 1979-08-13 1981-03-17 Nippon Telegr & Teleph Corp <Ntt> Data compression processing system
JPS61109353A (ja) * 1984-11-02 1986-05-27 Hitachi Ltd デ−タ圧縮方式

Similar Documents

Publication Publication Date Title
US4597057A (en) System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles
US5532694A (en) Data compression apparatus and method using matching string searching and Huffman encoding
US5408234A (en) Multi-codebook coding process
US5389922A (en) Compression using small dictionaries with applications to network packets
US5270712A (en) Sort order preserving method for data storage compression
JP3258552B2 (ja) データ圧縮装置及びデータ復元装置
US6100824A (en) System and method for data compression
US6218970B1 (en) Literal handling in LZ compression employing MRU/LRU encoding
US4044347A (en) Variable-length to fixed-length conversion of minimum-redundancy codes
EP0438956A1 (en) Method of encoding compressed data
US5010345A (en) Data compression method
JPH10107645A (ja) 符号化器及び符号化システム
US5353024A (en) Method for data compression having an improved encoding algorithm which utilizes a token stacking technique
US5594435A (en) Permutation-based data compression
EP0582907A2 (en) Data compression apparatus and method using matching string searching and Huffman encoding
JP2968112B2 (ja) 符号変換方法
EP0435802B1 (en) Method of decompressing compressed data
EP0438954B1 (en) Method of decoding compressed data
JPH01101740A (ja) データ圧縮方式
JP2940948B2 (ja) データ圧縮方式
EP0494038A2 (en) Run-length encoding in extensible character sets
JP3105598B2 (ja) ユニバーサル符号を用いたデータ圧縮方式
KR101791877B1 (ko) 유티에프-8 코드 문자의 압축 방법 및 장치
GB2334654A (en) Data compression with compensation for variations in compression rate
JP3199291B2 (ja) ハフマン復号化テーブルの構成方法