JPH1153349A - タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH1153349A JPH1153349A JP9210915A JP21091597A JPH1153349A JP H1153349 A JPH1153349 A JP H1153349A JP 9210915 A JP9210915 A JP 9210915A JP 21091597 A JP21091597 A JP 21091597A JP H1153349 A JPH1153349 A JP H1153349A
- Authority
- JP
- Japan
- Prior art keywords
- tag
- document
- unit
- code
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
および復元を行なうことにより、タグ文書の圧縮率を向
上してそのデータ量を削減できるようにする。 【解決手段】 入力されたタグ文書の文書型定義部を走
査してタグを抽出するタグ抽出部30と、このタグ抽出
部30により抽出されたタグに基づいて、文書型定義部
内のタグに所定の符号を割り当ててタグ符号表を作成す
るタグ符号表作成部40と、このタグ符号表作成部40
により作成されたタグ符号表に基づいて、文書実現部内
のタグを符号化するタグ符号化部60とをそなえるよう
に構成する。
Description
び復元技術に関し、特に、タグと呼ばれる文書構造を定
義した制御文字(列)に従い構造化されて記述された文
書(タグ文書)の圧縮および復元に用いて好適な、装
置,方法および記録媒体に関する。
書の形式を統一する動きがある。これまで、計算機ある
いはアプリケーションによってばらばらであった文書の
形式を異なる計算機環境でも使用できるようにするもの
である。この代表的なものに、SGML(Standard Gen
eralized Markup Language)と呼ばれる1986年にI
SOが制定した文書形式の国際規格(ISO8879)
がある。SGML文書は図31に模式的に示すように、
SGML宣言部301,文書型定義部(DTD:Docume
nt Type Definision)302および文書実現値303の
3つの部分からなっている。
L文書を他のシステムで処理するのに必要な文字体系な
どを宣言する部分であり、DTD302は、文書の章や
節,タイトルなどの文書中の構造を定義する部分で、例
えば図32に示すような形式で記述されている。なお、
この図32に示すDTD302は、インターネットのW
WW(World Wide Web)の記述形式として普及している
SGMLの一種であるHTML(HyperText Markup Lan
guage)のDTDの一部である。
の本文で、筆者(ユーザ)がDTD302を参考にしな
がらコンピュータのエディタなどを用いて作成する部分
である。具体的に、この文書実現値303は、通常、タ
グと呼ばれる要素を示す制御用文字(列)を使用して記
述される。このタグは上述のDTD302で定義されて
おり、本文303中の各要素が何であるか(例えば、タ
イトルであるのか章であるのかなど)を表している。
示す図であるが、この図33では、“<”と“>”ある
いは“</”と“>”とによって囲まれた文字列(<T
ITLE>,</TITLE>,<SECTION>,
</SECION>など)がタグである。そして、例え
ば、この図33に示すように、 <TITLE>発明(考案)明細書</TITLE> と記述された部分は、開始タグである<TITLE>と
終了タグである</TITLE>で囲まれた文字(列)
が要素(タイトル名)であることを表している。
Lを採用する動きが活発化していきている。特に、アメ
リカ国防総省では文書をSGMLで記述して納入するこ
とを義務付けており、日本でも特許庁のCD−ROM公
報としてSGMLを採用することを決めている。ところ
で、近年、文字コードやベクトル情報,画像情報など様
々な種類のデータが計算機で扱われるようになってきて
おり、扱われるデータ量も急速に増加してきている。こ
れに伴い、通常、計算機では、大量のデータを扱うとき
には、そのデータの中の冗長な部分を省いてデータ量を
圧縮することで、データの記憶容量を削減したり、デー
タの伝送を高速に行なえるようにしている。
法があるが、ここでは、計算機上で使われているデータ
圧縮の適用例として、アーカイバと圧縮ドライブとにつ
いて説明する。まず、アーカイバは、1つあるいは複数
のデータファイルを圧縮すると同時に1つのファイルに
まとめるという手法であり、使用頻度の低いファイル
や、古いファイルなどに対してこのアーカイバを用いる
ことでファイル容量を削減することができる。また、パ
ソコン通信やインターネットなどでサーバがファイル
(データやアプリケーション等)を供給するとき、この
アーカイバを用いて全てのファイルを圧縮して1つにま
とめることで、通信コストと転送の手間を削減すること
もできる。
ィスク(HD)やフロッピーディスク(FD)などディ
スクシステム単位にデータの圧縮を行なう手法で、任意
のディスクドライブを指定することで、指定したドライ
ブ内の全てのファイルが圧縮されて保持される。通常、
この圧縮ドライブでは圧縮・復元処理は計算機のバック
グラウンドで処理され、ユーザの通常のオペレーション
(読み書き)で自動的に圧縮/復元(読み込みの時は復
元、書き込みの時は圧縮)が行なわれる。従って、ユー
ザはデータの圧縮/復元を全く意識しないため、見かけ
上指定したディスクシステムのサイズが増えたように見
える。
られる符号化方式としては、計算機上では文字や機械
語,画像,音声など様々なデータが扱われることから、
圧縮効率がデータの性質にあまり依存しないユニバーサ
ル符号化方式がよく用いられている。このユニバーサル
符号化方式には、さらに、文字の再現性を利用した辞書
型符号化方式と文字の出現確率を符号化する確率統計型
符号化方式とがあり、辞書型符号化方式は、過去に出現
した文字(列)をバッファ内に保存し、同じ文字(列)
が出現したとき、バッファ内の開始位置と一致長を符号
化データとして出力する。一方、確率統計型符号化方式
は、過去に出現した文字の出現確率(頻度)を計算し、
出現確率に応じた符号を出力する。辞書型符号化方式は
高速処理、確率統計型方式は高圧縮率が期待できる。
のデータ容量の削減や通信コストの削減などに日常的に
使われており、文書ファイルにおいても、文書全体を圧
縮して保持することで大量の文書を管理することができ
る。
書の本文303では、文書に加えて文書内の各要素を定
義するタグが加わるため、文書のデータ量は増加する。
或るSGML文書について調査したところ、文書全体の
タグが占める割合は4割を超えていた。官公庁への提出
書類だけでなく、現在では製品に添付されるマニュアル
類もSGML文書化されてきている。このようなマニュ
アルは数十からときには数百ページにもわたることがあ
り、また頻繁に改版されるため、改版履歴も含めると、
そのデータ量は膨大なものとなる。
文書や他の形式の文書の圧縮と同様に上述のユニバーサ
ル符号化方式や他の符号化方式を用いて圧縮すれば、あ
る程度、データ量を削減することができるが、いずれの
場合も、従来から使われている符号化方式をSGML文
書に適用しただけであり、文書全体の多くを占めている
タグを考慮した圧縮は行なっていないので、非常に、非
効率的である。
たもので、タグ文書内のタグを考慮してその文書の圧縮
および復元を行なうことにより、タグ文書の圧縮率を向
上してそのデータ量を削減できるようにすることを目的
とする。
文書の圧縮装置は、文書構造を示すタグを定義した文書
型定義部と文書型定義部に定義されているタグを用いて
記述された文書実現部とを有するタグ文書を符号化して
圧縮するためのものであって、入力されたタグ文書の文
書型定義部を走査してタグを抽出するタグ抽出部と、こ
のタグ抽出部により抽出されたタグに基づいて、文書型
定義部内のタグに所定の符号を割り当ててタグ符号表を
作成するタグ符号表作成部と、このタグ符号表作成部に
より作成されたタグ符号表に基づいて、文書実現部内の
タグを符号化するタグ符号化部とをそなえたことを特徴
としている(請求項1)。
型定義部を有する複数のタグ文書については、タグ抽出
部およびタグ符号表作成部において最初のタグ文書につ
いて作成されたタグ符号表に基づいて、全てのタグ文書
の文書実現部内のタグに対する符号化を行なうように構
成してもよい(請求項2)。また、本発明のタグ文書の
圧縮装置は、文書構造を示すタグを定義した文書型定義
部と文書型定義部に定義されているタグを用いて記述さ
れた文書実現部とを有するタグ文書を符号化して圧縮す
るためのものであって、入力されたタグ文書の文書型定
義部を走査してタグを抽出するタグ抽出部と、このタグ
抽出部により抽出されたタグに基づいて、文書型定義部
内のタグに所定の符号を割り当ててタグ符号表を作成す
るタグ符号表作成部と、入力された文書実現部のデータ
が上記のタグ抽出部により抽出されたタグであるか否か
を判別するタグ判別部と、このタグ判別部において上記
の入力データがタグであると判別されると、上記のタグ
符号表に基づいて入力データを符号化する一方、上記の
タグ判別部において入力データがタグでないと判別され
ると、入力データを所定の符号化方式で符号化する符号
化処理部と、上記のタグ判別部において上記の入力デー
タがタグであると判別されると、入力データの符号化前
に、タグの符号化を示す特殊コードをタグの復号側へ出
力する特殊コード出力部とをそなえたことを特徴として
いる(請求項3)。
タを上記のタグ符号表に基づいて符号化する第1符号化
部と、入力データを所定の符号化方式で符号化する第2
符号化部と、上記のタグ判別部において入力データがタ
グであると判別されると入力データを第1符号化部へ出
力する一方、上記のタグ判別部において入力データがタ
グでないと判別されると入力データを第2符号化部へ出
力する切り替え制御部とをそなえてもよい(請求項
4)。
タグ抽出部により抽出されたタグを記憶するタグ記憶部
を有し、上記タグのタグ記憶部における記憶箇所につい
ての情報をタグの符号として割り当てることにより上記
のタグ符号表を作成するように構成してもよい(請求項
5)。なお、上記の記憶箇所についての情報は、例え
ば、上記タグ記憶部のアドレス情報を含む情報で(請求
項6)、具体的には、上記タグ記憶部のアドレス情報と
タグの長さ情報とであってもよい(請求項7)。
のタグ抽出部により抽出されたタグに所定の初期符号を
割り当てることによりタグの第1符号化用辞書をタグ符
号表として作成する第1符号化用辞書作成部と、上記の
符号化処理部によりタグが符号化されると、そのタグの
出現頻度に応じて、第1符号化用辞書作成部により作成
された第1符号化用辞書内の符号の更新を行なう符号化
用辞書更新部とをそなえてもよい(請求項8)。
タグ抽出部により抽出されたタグに基づいて文書実現部
内のタグの出現頻度を計数し、その計数結果に応じた符
号をタグに割り当てることによりタグの第2符号化用辞
書をタグ符号表として作成する第2符号化用辞書作成部
をそなえてもよい(請求項9)。なお、この場合、本圧
縮装置は、上記のタグの出現頻度に関する情報をタグの
復号側へ出力する出現頻度情報出力部をそなえてもよい
(請求項10)。
は、具体的に、上記のタグ抽出部により抽出されたタグ
と文書実現部内のタグとが一致するか否かを判定するこ
とにより文書実現部内のタグの出現頻度を計数するタグ
計数部と、このタグ計数部での計数結果に応じた符号を
生成する符号生成部と、この符号生成部により生成され
た符号を保持することにより第2符号化用辞書を作成す
る符号保持部とをそなえてもよい(請求項11)。
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、入力されたタグ文書の文書型定義部を走査して
タグを抽出するタグ抽出部と、このタグ抽出部により抽
出されたタグに基づいて、文書型定義部内のタグに所定
の符号を割り当ててタグ符号表を作成するタグ符号表作
成部と、入力された文書実現部のデータがタグ抽出部に
より抽出されたタグであるか否かを判別するタグ判別部
と、このタグ判別部において上記の入力データがタグで
あると判別されると、上記のタグ符号表に基づいて入力
データを符号化する一方、上記のタグ判別部において入
力データがタグでないと判別されると、入力データを所
定の符号化方式で符号化する符号化処理部とをそなえた
ことを特徴としている(請求項12)。
抽出されたタグに基づいてタグの始まりを示す開始タグ
を検出することにより入力データがタグであると判別す
るように構成してもよい(請求項13)。一方、本発明
のタグ文書の復元装置は、文書構造を示すタグを定義し
た文書型定義部と文書型定義部に定義されているタグを
用いて記述された文書実現部とを有する符号化後のタグ
文書を復号して復元するためのものであって、入力され
たタグ文書の文書型定義部を走査してタグを抽出するタ
グ抽出部と、このタグ抽出部により抽出されたタグに基
づいて、文書型定義部内のタグに所定の符号を割り当て
てタグ復号表を作成するタグ復号表作成部と、このタグ
復号表作成部により作成されたタグ復号表に基づいて、
符号化された文書実現部内のタグを復号するタグ復号部
とをそなえたことを特徴としている(請求項14)。
定義部を有する複数のタグ文書については、上記のタグ
抽出部およびタグ復号表作成部を通じて最初のタグ文書
について作成されたタグ復号表に基づいて、全てのタグ
文書の文書実現部に対するタグの復号を行なうように構
成してもよい(請求項15)。また、本発明のタグ文書
の復元装置は、文書構造を示すタグを定義した文書型定
義部と文書型定義部に定義されているタグを用いて記述
された文書実現部とを有する符号化後のタグ文書を復号
して復元するためのものであって、入力されたタグ文書
の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて、
文書型定義部内のタグに所定の符号を割り当ててタグ復
号表を作成するタグ復号表作成部と、入力された符号化
データが、タグの符号化データが入力されることを示す
特殊コードであるか否かを判別する特殊コード判別部
と、この特殊コード判別部において符号化データが特殊
コードであると判別されると、その特殊コードの後に入
力される符号化データをタグ復号表に基づいて復号する
一方、上記の特殊コード判別部において符号化データが
特殊コードでないと判別されると、その符号化データを
所定の復号方式で復号する復号処理部とをそなえたこと
を特徴としている(請求項16)。
入力された符号化データを上記のタグ復号表に基づいて
復号する第1復号部と、入力された符号化データを所定
の復号方式で復号する第2復号部と、上記の特殊コード
判別部において符号化データが特殊コードであると判別
されるとその特殊コードの後に入力される符号化データ
を第1復号部へ出力する一方、上記の特殊コード判別部
において符号化データが特殊コードでないと判別される
とその符号化データを第2復号部へ出力する切り替え制
御部とをそなえてもよい(請求項17)。
タグ抽出部により抽出されたタグを記憶するタグ記憶部
を有し、上記タグのタグ記憶部における記憶箇所につい
ての情報をタグの符号として割り当てることによりタグ
復号表を作成するように構成してもよい(請求項1
8)。なお、上記の記憶箇所についての情報は、例え
ば、上記タグ記憶部のアドレス情報を含む情報で(請求
項19)、具体的には、上記のアドレス情報とタグの長
さ情報とであってもよい(請求項20)。
のタグ抽出部により抽出されたタグに所定の初期符号を
割り当てることによりタグの第1復号用辞書をタグ復号
表を作成する第1復号用辞書作成部と、上記の復号処理
部によりタグが復号されると、そのタグの出現頻度に応
じて、上記の第1復号用辞書作成部により作成された第
1復号用辞書内の符号の更新を行なう復号用辞書更新部
とをそなえてもよい(請求項21)。
タグ抽出部により抽出されたタグとタグの出現頻度に関
する情報とに基づいて、タグの第2復号用辞書を作成す
る第2復号用辞書作成部をそなえてもよい(請求項2
2)。さらに、本発明のタグ文書の復元装置は、文書構
造を示すタグを定義した文書型定義部と文書型定義部に
定義されているタグを用いて記述された文書実現部とを
有する符号化後のタグ文書を復号して復元するためのも
のであって、入力されたタグ文書の文書型定義部を走査
してタグを抽出するタグ抽出部と、このタグ抽出部によ
り抽出されたタグに基づいて、文書型定義部内のタグに
所定の符号を割り当ててタグ復号表を作成するタグ復号
表作成部と、入力された符号化データがタグの符号化デ
ータであるか否かを判別するタグ符号判別部と、このタ
グ符号判別部において符号化データがタグであると判別
されると、上記のタグ復号表に基づいて符号化データを
復号する一方、上記のタグ符号判別部において符号化デ
ータがタグでないと判別されると、その符号化データを
所定の復号方式で復号する復号処理部とをそなえたこと
を特徴としている(請求項23)。
部で抽出されたタグに基づいてタグの始まりを示す開始
タグを検出することにより符号化データがタグであると
判別するように構成してもよい(請求項24)。また、
本発明のタグ文書の圧縮/復元装置は、文書構造を示す
タグを定義した文書型定義部と文書型定義部に定義され
ているタグを用いて記述された文書実現部とを有するタ
グ文書を符号化して圧縮する一方、符号化されたタグ文
書を復号して復元するためのものであって、入力された
タグ文書の文書型定義部を走査してタグを抽出するタグ
抽出部と、このタグ抽出部により抽出されたタグに基づ
いて、文書型定義部内のタグに所定の符号を割り当てて
タグ符号/復号表を作成するタグ符号/復号表作成部
と、このタグ符号/復号表作成部により作成されたタグ
符号/復号表に基づいて、文書実現部内のタグを符号化
するタグ符号化部と、上記のタグ符号/復号表作成部に
より作成されたタグ符号/復号表に基づいて、上記のタ
グ符号化部によって符号化された文書実現部内のタグを
復号するタグ復号部とをそなえたことを特徴としている
(請求項25)。
置は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、入力されたタグ文書の文書型定義部を走査
してタグを抽出するタグ抽出部と、このタグ抽出部によ
り抽出されたタグに基づいて、文書型定義部内のタグに
所定の符号を割り当ててタグ符号/復号表を作成するタ
グ符号/復号表作成部と、入力された文書実現部のデー
タが上記のタグ抽出部により抽出されたタグであるか否
かを判別するタグ判別部と、このタグ判別部において上
記の入力データがタグであると判別されると、上記のタ
グ符号/復号表に基づいて入力データを符号化する一
方、上記のタグ判別部において入力データがタグでない
と判別されると、入力データを所定の符号化方式で符号
化する符号化処理部と、上記のタグ判別部において上記
の入力データがタグであると判別されると、入力データ
の符号化前に、タグの符号化を示す特殊コードを出力す
る特殊コード出力部と、上記の符号化処理部から出力さ
れる符号化データが特殊コードであるか否かを判別する
特殊コード判別部と、この特殊コード判別部において符
号化データが特殊コードであると判別されると、その特
殊コードの後に符号化処理部から出力される符号化デー
タをタグ符号/復号表に基づいて復号する一方、上記の
特殊コード判別部において符号化データが特殊コードで
ないと判別されると、符号化処理部から出力される符号
化データを所定の復号方式で復号する復号処理部とをそ
なえたことを特徴としている(請求項26)。
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、文書型定義部内のタグに所定の符号を割り当て
てタグ符号表を作成し、そのタグ符号表に基づいて、文
書実現部内のタグを符号化することを特徴としている
(請求項27)。
する複数のタグ文書については、最初のタグ文書につい
て作成された上記のタグ符号表に基づいて、全てのタグ
文書の文書実現部内のタグに対する符号化を行なっても
よい(請求項28)。また、本発明のタグ文書の圧縮方
法は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ符号表を作成し、入力された文書実現部
のデータがタグである場合は、タグの符号化を示す特殊
コードをタグの復号側へ出力した後、上記のタグ符号表
に基づいて入力データを符号化する一方、入力データが
タグでない場合は入力データを所定の符号化方式で符号
化することを特徴としている(請求項29)。
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有するタグ文書を符号化して圧縮するためのもの
であって、文書型定義部内のタグに所定の符号を割り当
ててタグ符号表を作成し、入力された文書実現部のデー
タがタグである場合は上記のタグ符号表に基づいて入力
データを符号化する一方、入力データがタグでない場合
は入力データを所定の符号化方式で符号化することを特
徴としている(請求項30)。
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、そのタグ復号表に基づ
いて符号化された文書実現部内のタグを復号することを
特徴としている(請求項31)。
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ復号表に基づいて、全てのタグ文書の
文書実現部に対するタグの復号を行なってもよい(請求
項32)。さらに、本発明のタグ文書の復元方法は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、入力された符号化デー
タが、タグの符号化データが入力されることを示す特殊
コードである場合は、その特殊コードの後に入力される
符号化データをタグ復号表に基づいて復号する一方、入
力された符号化データが特殊コードでない場合は、その
符号化データを所定の復号方式で復号することを特徴と
している(請求項33)。
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、入力された符号化デー
タがタグの符号化データである場合は、上記のタグ復号
表に基づいて符号化データを復号する一方、入力された
符号化データがタグの符号化データでない場合は、その
符号化データを所定の復号方式で復号することを特徴と
している(請求項34)。
法は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、文書型定義部内のタグに所定の符号を割り
当ててタグ符号/復号表を作成し、そのタグ符号/復号
表に基づいて文書実現部内のタグを符号化する一方、符
号化されたタグを上記のタグ符号/復号表に基づいて復
号することを特徴としている(請求項35)。
は、文書構造を示すタグを定義した文書型定義部と文書
型定義部に定義されているタグを用いて記述された文書
実現部とを有するタグ文書を符号化して圧縮する一方、
符号化されたタグ文書を復号して復元するためのもので
あって、文書型定義部内のタグに所定の符号を割り当て
てタグ符号/復号表を作成し、入力された文書実現部の
データがタグである場合は、タグの符号化を示す特殊コ
ードを出力した後、上記のタグ符号/復号表に基づいて
入力データを符号化する一方、入力データがタグでない
場合は、その入力データを所定の符号化方式で符号化す
るとともに、符号化データの復号に際しては、符号化デ
ータが特殊コードであれば、特殊コードの後の符号化デ
ータを上記のタグ符号/復号表に基づいて復号する一
方、符号化データが特殊コードでなければ、その符号化
データを所定の復号方式で復号することを特徴としてい
る(請求項36)。
ムを記録したコンピュータ読み取り可能な記録媒体は、
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有するタグ文書を符号化して圧縮するためのもの
であって、上記のコンピュータを、入力されたタグ文書
の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて、
文書型定義部内のタグに所定の符号を割り当ててタグ符
号表を作成するタグ符号表作成部と、このタグ符号表作
成部により作成されたタグ符号表に基づいて、文書実現
部内のタグを符号化するタグ符号化部として機能させる
ためのタグ文書の圧縮プログラムが記録されていること
を特徴としている(請求項37)。
を記録したコンピュータ読み取り可能な記録媒体は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、上記のコンピュータを、入力されたタグ文書の
文書型定義部を走査してタグを抽出するタグ抽出部と、
このタグ抽出部により抽出されたタグに基づいて、文書
型定義部内のタグに所定の符号を割り当ててタグ符号表
を作成するタグ符号表作成部と、入力された文書実現部
のデータがタグ抽出部により抽出されたタグであるか否
かを判別するタグ判別部と、このタグ判別部において上
記の入力データがタグであると判別されると、上記のタ
グ符号表に基づいて入力データを符号化する一方、上記
のタグ判別部において入力データがタグでないと判別さ
れると、その入力データを所定の符号化方式で符号化す
る符号化処理部と、上記のタグ判別部において上記の入
力データがタグであると判別されると、入力データの符
号化前に、タグの符号化を示す特殊コードをタグの復号
側へ出力する特殊コード出力部として機能させるための
タグ文書の圧縮プログラムが記録されていることを特徴
としている(請求項38)。
ムを記録したコンピュータ読み取り可能な記録媒体は、
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有する符号化後のタグ文書を復号して復元するた
めのものであって、上記のコンピュータを、入力された
タグ文書の文書型定義部を走査してタグを抽出するタグ
抽出部と、このタグ抽出部により抽出されたタグに基づ
いて、文書型定義部内のタグに所定の符号を割り当てて
タグ復号表を作成するタグ復号表作成部と、このタグ復
号表作成部により作成されたタグ復号表に基づいて、符
号化された文書実現部内のタグを復号するタグ復号部と
して機能させるためのタグ文書の復元プログラムが記録
されていることを特徴としている(請求項39)。
を記録したコンピュータ読み取り可能な記録媒体は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、上記のコンピュータを、入力されたタ
グ文書の文書型定義部を走査してタグを抽出するタグ抽
出部と、このタグ抽出部により抽出されたタグに基づい
て、文書型定義部内のタグに所定の符号を割り当ててタ
グ復号表を作成するタグ復号表作成部と、入力された符
号化データが、タグの符号化データが入力されることを
示す特殊コードであるか否かを判別する特殊コード判別
部と、この特殊コード判別部において符号化データが特
殊コードであると判別されると、その特殊コードの後に
入力される符号化データをタグ復号表に基づいて復号す
る一方、上記の特殊コード判別部において符号化データ
が特殊コードでないと判別されると、その符号化データ
を所定の復号方式で復号する復号処理部として機能させ
るためのタグ文書の復元プログラムが記録されているこ
とを特徴としている(請求項40)。
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、上記のコンピュータを、入力されたタグ文
書の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて文
書型定義部内のタグに所定の符号を割り当ててタグ符号
/復号表を作成するタグ符号/復号表作成部と、このタ
グ符号/復号表作成部により作成されたタグ符号/復号
表に基づいて文書実現部内のタグを符号化するタグ符号
化部と、上記のタグ符号/復号表作成部により作成され
たタグ符号/復号表に基づいて上記のタグ符号化部によ
って符号化された文書実現部内のタグを復号するタグ復
号部として機能させるためのタグ文書の圧縮/復元プロ
グラムが記録されていることを特徴としている(請求項
41)。
グラムを記録したコンピュータ読み取り可能な記録媒体
は、文書構造を示すタグを定義した文書型定義部と文書
型定義部に定義されているタグを用いて記述された文書
実現部とを有するタグ文書を符号化して圧縮する一方、
符号化されたタグ文書を復号して復元するためのもので
あって、上記のコンピュータを、入力されたタグ文書の
文書型定義部を走査してタグを抽出するタグ抽出部と、
このタグ抽出部により抽出されたタグに基づいて文書型
定義部内のタグに所定の符号を割り当ててタグ符号/復
号表を作成するタグ符号/復号表作成部と、入力された
文書実現部のデータがタグ抽出部により抽出されたタグ
であるか否かを判別するタグ判別部と、このタグ判別部
において上記の入力データがタグであると判別されると
上記のタグ符号/復号表に基づいて入力データを符号化
する一方、上記のタグ判別部において入力データがタグ
でないと判別されると入力データを所定の符号化方式で
符号化する符号化処理部と、上記のタグ判別部において
上記の入力データがタグであると判別されると入力デー
タの符号化前にタグの符号化を示す特殊コードを出力す
る特殊コード出力部と、上記の符号化処理部から出力さ
れる符号化データが特殊コードであるか否かを判別する
特殊コード判別部と、この特殊コード判別部において符
号化データが特殊コードであると判別されるとその特殊
コードの後に符号化処理部から出力される符号化データ
をタグ符号/復号表に基づいて復号する一方、上記の特
殊コード判別部において上記符号化データが特殊コード
でないと判別されるとその符号化データを所定の復号方
式で復号する復号処理部として機能させるためのタグ文
書の圧縮/復元プログラムが記録されていることを特徴
としている(請求項42)。
グ文書)の圧縮装置および復元装置が適用されるコンピ
ュータシステムを示すブロック図であるが、この図1に
示すように、本実施形態におけるシステムは、パーソナ
ルコンピュータ(以下、単に「パソコン」という)2,
3がモデムやTA(Terminal Adapter)などのネットワー
ク接続装置4を介してインターネットなどの所要のネッ
トワーク6に接続された構成となっている。
すように、それぞれ、パソコン本体21,ディスプレイ
(表示画面)22,キーボード23およびマウス(ポイ
ンティングデバイス)24などから構成されており、例
えば、ユーザは、パソコン2,3のエディタ上でキーボ
ード23を通じて前述のSGML文書(タグ文書)を作
成したり、作成した文書をCPU(Central Processing
Unit)26の処理によって本体21内のハードディスク
(記憶装置)27に文書ファイルとして保存したりネッ
トワーク6を介して他のパソコン3,2に提供(ファイ
ル転送)したりすることができるようになっている。
くハードディスク27に保存したりネットワーク6を介
して転送する場合、前述したようにそのままでは非常に
データ量が多いので、メモリ容量の節約,データ伝送
量,データ伝送時間の削減のためにも、符号化して圧縮
してから保存/伝送を行ない、その文書をディスプレイ
22に表示したりプリントアウトしたりする場合に圧縮
された文書を復元(復号)することが望ましい。
ようなシステム(例えば、CALSシステムなど)の場
合、SGML文書の本文303以外の部分も毎回送らな
ければならないので、そのまま文書を送るよりも、符号
化して圧縮してから送ることで、伝送時間の削減、文書
の送信側(サーバ側)/受信側(クライアント側)の記
憶装置の容量の削減などが期待できる。
の圧縮プログラムや復元プログラムがハードディスク2
7内に記憶されており、CPU26がこれらのプログラ
ムに従って動作することにより、パソコン2,3(具体
的にはCPU26)がSGML文書を符号化して圧縮す
る圧縮装置あるいは符号化されて圧縮されたSGML文
書を復号して復元する復元装置として使用されるように
なっている。
SGML文書の圧縮装置,パソコン3がSGML文書の
復元装置として使用されるものとして説明を行なう。ま
た、上記の各プログラムは、ユーザがパソコン2,3を
使って作成することによりハードディスク27に予め保
存しておくことも可能であるし、フロッピーディスク
(FD)11やCD−ROM12,MO(光磁気ディス
ク)13などの各種の記録媒体15に予め記録されてい
るものをディスクドライブ25を通じて読み取ることに
よりハードディスク27に保存することも可能である。
側)の説明 図2は上述のSGML文書の圧縮装置としてのパソコン
2の要部の構成を示すブロック図で、この図2に示すよ
うに、本実施形態のパソコン(以下、圧縮装置という)
2は、SGMLタグ抽出部30,タグ符号表作成部4
0,タグ判別部50及びタグ符号化部60を有して構成
されている。
ば、CPU26がハードディスク27内に文書ファイル
として記憶されているSGML文書を読み出すことによ
り入力されたSGML文書のDTD(文書型定義部)3
02(図31参照)を走査してDTD302内に定義さ
れているタグを抽出するものであり、タグ符号表作成部
40は、このタグ抽出部により抽出されたタグに基づい
て、DTD302内のタグに所定の符号を割り当ててタ
グ符号表を作成するものである。
ともに入力されたSGML文書の文書実現値(本文)3
03のデータ(文字もしくは文字列)がタグであるか否
かを判別するもので、入力データがタグであればそのデ
ータをタグ符号化部60へ出力する一方、入力データが
タグでなければそのデータをそのまま外部(例えば、ハ
ードディスク27やネットワーク6)へ出力するように
なっている。
作成部40により作成されたタグ符号表に基づいて、S
GML文書の本文303内のタグを符号化するもので、
ここでは、タグ判別部50から入力されたデータ(タ
グ)に対応する上記符号表における符号をタグの符号と
して出力するようになっている。上述のごとく構成され
た本第1実施形態の圧縮装置2では、図3に示すよう
に、まず、SGMLタグ抽出部30がSGML文書のD
TD302を走査してタグを抽出し(ステップA1)、
タグ符号表作成部40が抽出されたタグに所定の符号を
割り当てることによりタグの符号表を作成する(ステッ
プA2)。そして、入力されたSGML文書の本文30
3のデータがタグであるとタグ判別部50において判別
されると、そのデータは、タグ符号化部60において上
記タグ符号表に基づいて符号化されて出力される(ステ
ップA3)。
TLE>及び</TITLE>というタグを抽出し、タ
グ符号表作成部40において各タグにそれぞれ<TIT
LE>=“00”,</TITLE>=“10”という
符号が割り当てられてタグ符号表が作成されたとする。
このとき、例えば、本文303として、 <TITLE>発明(考案)明細書</TITLE> が入力されたとすると、タグ判別部50では、まず、<
TITLE>がタグであると判別するので、このタグは
タグ符号化部60へ出力される。タグ符号化部60で
は、入力されたタグ(<TITLE>)を基に上記のタ
グ符号表を参照することにより<TITLE>に対応す
る符号“00”を得て、この“00”を<TITLE>
の符号として出力する。
(<TITLE>)に続いて入力されたデータがタグで
あるか否かを判別するが、今、上記の<TITLE>に
続いて入力されるのは「発明(考案)明細書」であるの
で、タグ判別部50は、入力データがタグ以外であると
判別し、その入力データを符号化せずにそのまま外部へ
出力する。
力されたデータがタグであるか否かを判別するが、今、
上記の「発明(考案)明細書」の後に入力されるのは<
/TITLE>(終了タグ)であるので、タグ判別部5
0は、そのタグをタグ符号化部60へ出力し、タグ符号
化部60では、入力されたタグ(</TITLE>)を
基に上記のタグ符号表を参照することにより</TIT
LE>に対応する符号“10”を得て、この“10”を
</TITLE>の符号として出力する。
は、“00発明(考案)明細書10”というようにタグ
のみが符号化され圧縮されて出力される。ただし、本実
施形態ではDTD302自体は符号化されずに出力され
る。このように、本実施形態のSGML文書の圧縮装置
2によれば、DTD302内のタグに所定の符号を割り
当ててタグ符号表を作成し、そのタグ符号表に基づい
て、本文303内のタグを符号化するので、通常、SG
ML文書内に多数使用されているタグを極めて効率良く
圧縮することができ、SGML文書のデータ量を大幅に
削減することができる。
モリ容量が節約されるとともに、SGML文書をネット
ワーク6を通じて伝送する際のデータ伝送量やデータ伝
送時間も大幅に削減される。 (a2)SGML文書の復元装置(復号側)の説明 次に、図4は上述のSGML文書の復元装置としてのパ
ソコン3の要部の構成を示すブロック図であるが、この
図4に示すパソコン(以下、復元装置という)3は、図
2により上述した圧縮装置2で符号化(圧縮)されたS
GML文書を復号(復元)するためのもので、本実施形
態では、SGMLタグ抽出部30′,タグ復号表作成部
40′,タグ判別部50′及びタグ復号部60′を有し
て構成されている。
えば、ネットワーク6を介して圧縮装置2から入力され
たDTD302(ただし、符号化されていないもの)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、タグ復号表作成部40′は、このタ
グ抽出部30′により抽出されたタグに基づいて、DT
D302内のタグに所定の符号を割り当ててタグ復号表
を作成するものである。
とともに入力された符号化側でタグのみ符号化されたS
GML文書の本文303のデータがタグであるか否かを
判別するもので、入力データがタグの符号であればその
符号化データをタグ復号部60′へ出力する一方、入力
データがタグの符号以外であればその入力データをその
まま外部(例えば、ハードディスク27)へ出力するよ
うになっている。
作成部40′により作成されたタグ復号表に基づいて、
符号化された本文303内のタグを復号するもので、こ
こでは、タグ判別部50から入力されたデータ(タグの
符号)に対応する上記復号表におけるタグを復号結果と
して出力するようになっている。上述のごとく構成され
た本第1実施形態の復元装置3では、図5に示すよう
に、まず、SGMLタグ抽出部30′がSGML文書の
DTD302を走査してタグを抽出し(ステップB
1)、タグ復号表作成部40′が抽出されたタグに符号
化側と同じ符号を割り当てることによりタグの復号表を
作成する(ステップB2)。そして、入力されたSGM
L文書の本文303のデータがタグの符号であるとタグ
判別部50′において判別されると、そのデータは、タ
グ符号化部60′において上記タグ復号表に基づいてタ
グが復号されて出力される(ステップB3)。
0′及びタグ復号表作成部40′によって、<TITL
E>=“00”,</TITLE>=“10”というよ
うに各タグに符号が割り当てられたタグ復号表が作成さ
れたとする。このとき、例えば、入力データとして、符
号化側で符号化された“00発明(考案)明細書10”
が入力されたとすると、タグ判別部50′では、まず、
“00”がタグの符号であるであると判別するので、こ
の符号化データはタグ符号化部60′へ出力される。
の符号“00”を基に上記のタグ復号表を参照すること
により“00”に対応するタグ<TITLE>を得て、
この<TITLE>を符号“00”の復号結果として出
力する。次に、タグ判別部50では、上記の“00”に
続いて入力されたデータがタグの符号であるか否かを判
別するが、今、上記の“00”に続いて入力されるのは
「発明(考案)明細書」であるので、タグ判別部50′
は、入力データがタグの符号以外であると判別し、その
符号化データは復号せずにそのまま外部へ出力する。
続いて入力されたデータがタグの符号であるか否かを判
別するが、今、上記の「発明(考案)明細書」の後に入
力されるのは“10”というタグの符号であるので、タ
グ判別部50′は、そのタグの符号をタグ復号部60′
へ出力し、タグ復号部60′では、入力されたタグの符
号“10”を基に上記のタグ復号表を参照することによ
り符号“10”に対応するタグ(</TITLE>)を
得て、この</TITLE>を符号“10”の復号結果
として出力する。
て入力されたSGML文書の本文303は、“<TIT
LE>発明(考案)明細書</TITLE>”というよ
うに元の状態に復元されて出力される。このように、本
実施形態のSGML文書の復元装置3によれば、DTD
302内のタグに符号化側と同じ符号を割り当ててタグ
復号表を作成し、そのタグ復号表に基づいて符号化され
たSGML文書の本文303内のタグを復号するので、
SGML文書内の符号化されたタグを極めて効率良く、
且つ、正確に復号(復元)することができる。
置の要部の構成を示すブロック図であるが、この図6に
示す圧縮装置2は、図2に示すものに比して、DTD比
較部70及びコントローラ80を有して構成されている
点が異なる。
に入力されたSGML文書のDTD302とそのDTD
302の直前に入力された過去のSGML文書のDTD
302とを比較して、各DTD302の一致/不一致信
号をコントローラ80へ出力するもので、本実施形態で
は、入力されたDTD302を順次保持しながら新規入
力されたDTD302との比較を行なうようになってい
る。
較部70からの一致/不一致信号に応じてタグ符号表作
成部40での符号表作成処理を制御するもので、ここで
は、DTD比較部70から各DTD302の一致信号を
受けるとタグ符号表作成部40に対し過去に作成したタ
グ符号表を維持するよう指示する一方、各DTD302
の不一致信号を受けるとタグ符号表作成部40に対しタ
グ符号表の更新を指示するものである。
0は、同一のDTD302を有するSGML文書が入力
される間はそれら複数の文書のうち最初の文書について
作成したタグ符号表をそのまま維持し、異なるDTD3
02を有するSGML文書が入力された時点で、第1実
施形態と同様に、SGMLタグ抽出部30によってその
DTD302から抽出されたタグに所定の符号を割り当
てることにより、タグ符号表を再作成するようになって
いるのである。
る圧縮装置2の動作を図7に示すフローチャート(ステ
ップC1〜C4)を参照しながら説明すると、まず、圧
縮装置2は、DTD302が新規に入力されると、その
DTD302と過去に入力されたDTD302とをDT
D比較部70にて比較する(ステップC1)。この比較
の結果、各DTD302が一致していなければ(ステッ
プC1でNOと判定されれば)、DTD比較部70は、
不一致信号をコントローラ80に出力するとともに、新
規に入力された上記のDTD302をSGMLタグ抽出
部30へ出力する。
TD302を走査してそのDTD302内に定義されて
いるタグを抽出し(ステップC2)、タグ符号表作成部
40へ出力する。このとき、タグ符号表作成部40は、
上述のごとくDTD比較部70からコントローラ80へ
不一致信号が出力されていることから、コントローラ8
0からタグ符号表の更新指示を受けるので、SGMLタ
グ抽出部30で抽出されたタグに所定の符号を割り当て
ることにより、タグ符号表を再作成する(ステップC
3)。
入力されたSGML文書の文書実現値303は、タグ判
別部50へ入力され、タグ判別部50は、入力された文
書実現値303がタグであればそのタグをタグ符号化部
60へ出力する。タグ符号化部60は、受け取ったタグ
に対応する符号をタグ符号表作成部40で作成されたタ
グ符号表から取得し、その符号をタグの符号として出力
する(ステップC4)。
結果、各DTDが一致していた場合(ステップC1でY
ESと判定された場合)、DTD比較部70は、コント
ローラ80へ一致信号を出力し、コントローラ80は、
タグ符号表作成部40にタグ符号表の維持(非更新)を
指示する。これにより、タグ符号化部60は、過去に作
成されたタグ符号表に基づいて、上記と同様に文書実現
値303内のタグの符号化を行なう(ステップC4)。
文書の圧縮装置2によれば、同一のDTD302を有す
る複数のSGML文書については、それらのうちの最初
の文書について作成されたタグ符号表に基づいて、全て
のSGML文書の本文303内のタグに対する符号化を
行なうので、各SGML文書毎にタグ符号表を作成する
必要がなく、タグの符号化処理を極めて高速に行なうこ
とができる。
は、文書の提供先(サーバ)と受け手(クライアント)
との間で、どのようなDTD302に基づくSGML文
書が送られてくるかが既に確立されている場合がある。
このような場合は本文303以外を毎回相手に渡す必要
はない。例えば、インターネットのWWWで使用されて
いるHTML形式の文書のように予め使用するDTD3
02の形式が統一されており全ての文書のDTD302
が同じであるような場合は、コントローラ80の制御に
より、最初にタグ符号表作成部40で作成されたタグ符
号表を固定的に使用することで、さらに高速にタグの符
号化処理を行なうことができる。
の維持/更新をコントローラ80がタグ符号表作成部4
0でのタグ符号表の作成処理を直接的に制御することで
行なっているが、SGMLタグ抽出部30でのタグの抽
出処理を制御する(各DTD302の比較結果に応じて
タグの抽出を許可/禁止する)ことで行なってもよい。
側)の説明 図8は本発明の第2実施形態としてのSGML文書の復
元装置の要部の構成を示すブロック図であるが、この図
8に示す復元装置3は、図6及び図7により上述した圧
縮装置2の復号側に相当するもので、図4に示す構成
に、図6により上述したものとそれぞれ同様のDTD比
較部70′及びコントローラ80′が設けられた構成と
なっている。
文書の復元装置3では、符号化されたタグの復号につい
ては符号化側と同様に、同一のDTD302を有するS
GML文書が入力される間はそれら複数の文書のうち最
初の文書についてタグ復号表作成部40′にて作成され
たタグ復号表に基づいてタグ復号部60′がタグの復号
を行ない、異なるDTD302を有するSGML文書が
入力されると、タグ復号表作成部40′によってタグ復
号表を再作成し、そのタグ復号表に基づいてタグ復号部
60′がタグの復号を行なう。
ート(ステップD1〜D4)参照しがら詳述すると、ま
ず、復元装置3は、DTD302が新規に入力される
と、そのDTD302と過去に入力されたDTD302
とをDTD比較部70′にて比較する(ステップD
1)。この比較の結果、各DTD302が一致していな
ければ(ステップD1でNOと判定されれば)、DTD
比較部70′は、不一致信号をコントローラ80′に出
力するとともに、新規に入力された上記のDTD302
をSGMLタグ抽出部30′へ出力する。
DTD302を走査してそのDTD302内に定義され
ているタグを抽出し(ステップD2)、タグ復号表作成
部40′へ出力する。このとき、タグ復号表作成部4
0′は、上述のごとくDTD比較部70′からコントロ
ーラ80′へ不一致信号が出力されていることから、コ
ントローラ80′からタグ符号表の更新指示を受けるの
で、SGMLタグ抽出部30′で抽出されたタグに所定
の符号を割り当てることにより、タグ復号表を再作成す
る(ステップD3)。
入力された符号化後のSGML文書の文書実現値303
は、タグ判別部50′へ入力され、タグ判別部50′
は、入力された文書実現値303の符号がタグであれば
その符号をタグ復号部60′へ出力する。タグ復号部6
0′は、受け取った符号に対応するシンボル(タグ)を
タグ復号表作成部40′で作成されたタグ復号表から取
得し、そのタグを復号結果として出力する(ステップD
4)。
の結果、各DTDが一致していた場合(ステップD1で
YESと判定された場合)、DTD比較部70′は、コ
ントローラ80′へ一致信号を出力し、コントローラ8
0′は、タグ復号表作成部40′にタグ復号表の維持
(非更新)を指示する。これにより、タグ復号部60′
は、過去に作成されたタグ復号表に基づいて、上記と同
様に文書実現値303内の符号化されたタグの復号を行
なう(ステップD4)。
文書の復元装置3によれば、同一のDTD302を有す
る複数のSGML文書については、それらのうちの最初
のSGML文書について作成されたタグ復号表に基づい
て、全てのSGML文書の本文303に対するタグの復
号を行なうので、各SGML文書毎にタグ復号表を作成
する必要がなく、タグの復号処理を極めて高速に行なう
ことができる。
ML形式の文書のように予め使用するDTD302の形
式が統一されており全ての文書のDTD302が同じで
あるような場合は、コントローラ80′の制御により、
最初にタグ復号表作成部40′で作成されたタグ復号表
を固定的に使用することで、さらに高速にタグの復号処
理を行なうことができる。
の維持/更新をコントローラ80′がタグ復号表作成部
40′でのタグ復号表の作成処理を直接的に制御するこ
とで行なっているが、SGMLタグ抽出部30′でのタ
グの抽出処理を制御する(各DTD302の比較結果に
応じてタグの抽出を許可/禁止する)ことで行なっても
よい。
圧縮装置の要部の構成を示すブロック図であるが、この
図10に示すように、本第3実施形態におけるSGML
文書の圧縮装置2は、SGMLタグ抽出部100,メモ
リ101,SGMLタグ検出部102,符号化処理部1
03a及びCOC出力部106を有して構成されてい
る。
力されたSGML文書のDTD302(図31参照)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、メモリ(タグ記憶部)101は、タ
グ符号表作成部としての機能を果たすもので、SGML
タグ抽出部100により抽出されたタグを順次記憶し、
そのメモリ101におけるタグのアドレス情報と長さ情
報とをタグの符号として割り当てることによりタグ符号
表を作成するようになっている。
て、図11に示すような文書が入力されたとする(ただ
し、文書中の1文字は1バイトとする)と、SGMLタ
グ抽出部100により抽出された“TITLE”,“/
TITLE”,“SECTION”,“/SECTIO
N”,“SUBSECTION”,“/SUBSECT
ION”などの各タグが、メモリ101のアドレス“0
0”番地から順次記憶され、<TITLE>には“0
0”番地とそのタグの長さ(5バイト)を示す“05”
とを組み合わせた“0005”が符号として割り当てら
れ、<SECTION>には“0c(HEX)”番地と
そのタグの長さ(7バイト)を示す“07”とを組み合
わせた“0c07”が符号として割り当てられることに
なる。
102は、入力されたSGML文書の本文303のデー
タがSGMLタグ抽出部100により抽出されたタグで
あるか否かを判別することにより本文303内で使用さ
れているタグを検出するもので、本実施形態では、入力
された本文303のデータ(以下、本文データというこ
とがある)がメモリ101に記憶されているタグと一致
するか否かをみることでタグの検出を行なうようになっ
ている。
SGMLタグ検出部102において上記の入力データが
タグであると判別されると、タグ符号表として作成され
たメモリ101の記憶内容に基づいてその入力データを
符号化する一方、SGMLタグ検出部102において入
力データがタグでないと判別されると、その入力データ
を所定の符号化方式(ユニバーサル符号化方式など)で
符号化するものである。
は、この図10に示すように、さらに、タグ符号化部1
03,第2符号化部104及び切り替え制御部105を
有して構成されている。ここで、タグ符号化部(第1符
号化部)103は、入力データを上記のタグ符号表(メ
モリ101の記憶内容)に基づいて符号化するものであ
り、第2符号化部104は、入力データをユニバーサル
符号化方式などの所定の符号化方式で符号化するもので
あり、切り替え制御部105は、SGMLタグ検出部1
02において入力データがタグであると判別されるとそ
の入力データをタグ符号化部103へ出力する一方、S
GMLタグ検出部102において入力データがタグでな
いと判別されるとその入力データを第2符号化部104
へ出力するものである。
の符号化が終了すると、SGMLタグ検出部102にそ
の旨を通知するようになっており、SGMLタグ検出部
102はこの通知を受けると、再度、次の本文データに
対するタグの検出処理を行なうようになっている。ま
た、COC出力部(特殊コード出力部)106は、SG
MLタグ検出部102において上記の入力データがタグ
であると判別されると、その入力データのタグ符号化部
103での符号化前に、タグの符号化(符号化方式の切
り替え)を示す特殊コード(COC:Change Of Codin
g) を後述するタグの復号側へ出力するものである。
形態におけるSGML文書の圧縮装置2の動作につい
て、図12に示すフローチャート(ステップE1〜E
6)を参照しながら詳述する。まず、圧縮装置2は、S
GMLタグ抽出部100により、入力されたDTD30
2を走査してそのDTD302内に定義されているタグ
を抽出し、抽出したタグを、順次、メモリ101に記憶
することにより、そのタグにメモリ101のアドレス情
報とタグの長さ情報とをタグの符号として割り当ててタ
グ符号表を作成する(ステップE1)。
部102により、入力された本文データがタグであるか
否かを判別し(ステップE2)、タグであれば、COC
出力部106にCOCの出力を指示するとともに、符号
化処理部103aの切り替え制御部105に本文データ
のタグ符号化部103側への出力切り替えを指示する。
これにより、COC出力部106は後述する復号側へC
OCを出力し(ステップE2のYESルートからステッ
プE3)、タグ符号化部103は、入力データ(タグ)
を基にメモリ101を参照し、そのタグに対応する符号
(アドレスと長さ)をタグの符号として出力する(ステ
ップE4)。
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップE2のNOルートか
らステップE5)。
か否かを判定し(ステップE5)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップE2からの処理を繰り返す(ステップ
E6のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップE6のYESルート)。ここ
で、例えば図13に示すように、本文データとして“今
日は<B>晴れ</B>です。”が入力されたと仮定し
(ステップF1)、タグ<B>,</B>にそれぞれ符
号“0”,“1”が割り当てられてタグ符号表101a
が作成され、これらのタグ以外の各文字にそれぞれ図1
3中に示すような符号が割り当てられている(第2符号
化部104用の符号表104aが作成されている)もの
とする。
>,</B>の前にCOC(“10”)が挿入されたの
ち、これらの各タグがタグ符号化部103によってタグ
符号表101aに基づいて符号化されるとともに(ステ
ップF2)、タグ以外の文字がそれぞれ第2符号化部1
04によって符号表104aに基づいて符号化される。
に、この図13中に示すように、16進(HEX)表示
で“ff9e7b2e2b”、2進表示で“11111/1111
0/0111/10/0/11110/1100/10/1/1101/0110/010 ”という
符号に符号化される(ステップF3)。以上のように、
本第3実施形態におけるSGML文書の圧縮装置2によ
れば、入力された本文データがタグである場合は、CO
Cをタグの復号側へ出力した後、タグ符号化部103が
タグ符号表に基づいて入力データを符号化する一方、本
文データがタグでない場合はその本文データを第2符号
化部104が所定の符号化方式で符号化するので、SG
ML文書内のタグのみならずタグ以外の文書さえも極め
て効率良く圧縮することができ、より大幅にSGML文
書のデータ量を削減することができる。
側へ出力することにより、後述するように、タグの復号
側ではタグの判別を容易に行なうことができるので、タ
グの復号処理の高速化にも大いに寄与している。なお、
このCOC出力部106は、復号側での処理を考慮しな
ければ省略することも可能である。また、本実施形態の
符号化処理部103aは、タグ符号化部103,第2符
号化部104及び切り替え制御部105をそなえること
により、その機能が簡素な構成で容易に実現されてい
る。
してのメモリ101は、タグのメモリ101内でのアド
レスと長さについての情報タグの符号として割り当てる
ことによりタグ符号表を作成するので、タグをメモリ1
01に順次記憶してゆくだけで各タグに符号が割り当て
られることになり、メモリ101を1つ設けるという極
めて簡素な構成で、且つ、高速に、タグ符号表を作成す
ることができる。
は、これらのアドレスと長さとを基に、容易に、復号す
べきタグを特定することができ、タグの復号処理の高速
化にも大いに寄与している。ただし、タグに割り当てる
符号は、必ずしも、上記のアドレスと長さについての情
報でなくてもよく、少なくともアドレス情報を含む情報
であればよい。
側)の説明 図14は本発明の第3実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図14に示す復元装置2は、図10〜図13により上述
した圧縮装置2の復号側に相当するもので、SGMLタ
グ抽出部200,メモリ201,COC判別部202及
び復号処理部203aを有して構成されている。
力されたSGML文書のDTD302(図31参照)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、メモリ201は、タグ復号表作成部
としての機能を果たすもので、符号化側と同様に、SG
MLタグ抽出部200により抽出されたタグを順次記憶
し、そのメモリ201におけるタグのアドレス情報と長
さ情報とをタグの符号として割り当てることによりタグ
復号表を作成するようになっている。
202は、入力された符号化データが、タグの符号化デ
ータが入力されることを示すCOCであるか否かを判別
するものであり、復号処理部203aは、このCOC判
別部202において入力された符号化データがCOCで
あると判別されると、そのCOCの後に入力される符号
化データ(つまり、タグの符号)をタグ復号表に基づい
て復号する一方、COC判別部202において入力され
た符号化データがCOCでないと判別されると、その符
号化データを所定の復号方式で復号するものである。
この図14に示すように、タグ復号部203,第2復号
部204及び切り替え制御部205を有して構成されて
いる。ここで、タグ復号部(第1復号部)203は、入
力された符号化データを上記のタグ復号表として作成さ
れたメモリ201の記憶内容に基づいて復号するもので
あり、第2復号部204は、入力された符号化データを
所定の復号方式で復号するものであるが、この場合は、
符号化側に対応する復号方式で復号処理を行なうように
なっている。
別部202において入力された符号化データがCOCで
あると判別されるとそのCOCの後に入力される符号化
データをタグ復号部203へ出力する一方、COC判別
部202において入力された符号化データがCOCでな
いと判別されるとその符号化データを第2復号部204
へ出力するものである。
形態におけるSGML文書の復元装置3の動作につい
て、図15に示すフローチャート(ステップG1〜G
5)を参照しながら詳述する。まず、復元装置3は、S
GMLタグ抽出部200により、入力されたDTD30
2を走査してそのDTD302内に定義されているタグ
を抽出し、抽出したタグを、順次、メモリ201に記憶
することにより、そのタグにメモリ101のアドレス情
報とタグの長さ情報とをタグの符号として割り当てるこ
とにより符号化側と同じ記憶内容のタグ復号表を作成す
る(ステップG1)。
2により、入力された符号化データがCOCであるか否
かを判別し(ステップG2)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データ(タグの符号:アドレスと長さ)を基にメモリ2
01を参照し、その符号化データに対応するシンボル
(タグ)を復号結果として出力する(ステップG3)。
対象の符号化データがCOCでなければ、復元装置3
は、切り替え制御部205に符号化データの第2復号部
203側への出力切り替えを指示し、第2復号部204
によって、その符号化データ(文字または文字列)を符
号化側に対応する復号方式で復号する(ステップG2の
NOルートからステップG4)。
否かを判定し(ステップG5)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップG2からの処理を繰り返す(ステップ
G5のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップG5のYESルート)。以上の
ように、本第3実施形態におけるSGML文書の復元装
置3によれば、入力された符号化データがCOCである
場合は、そのCOCの後に入力される符号化データをタ
グ復号部203がタグ復号表に基づいて復号する一方、
入力された符号化データがCOCでない場合は、その符
号化データを第2復号部204が符号化側に対応する復
号方式で復号するので、タグだけでなく符号化されたタ
グ以外の文書をも極めて効率良く、且つ、正確に復元す
ることができる。
の符号化データがタグであるか否かを判別することがで
きるので、タグの復号処理を大幅に高速化することが可
能になっている。さらに、本実施形態の復号処理部20
3aは、タグ復号部203,第2復号部204及び切り
替え制御部205をそなえることにより、その機能が簡
素な構成で容易に実現されている。
モリ201は、タグのメモリ201におけるアドレス情
報とそのタグの長さ情報とをタグの符号として割り当て
ることによりタグ復号表を作成するので、タグをメモリ
201に順次記憶してゆくだけで自動的に各タグに符号
が割り当てられて符号化側と同一の記憶内容を有するタ
グ復号表を作成することができ、極めて簡素な構成で、
高速且つ正確にタグの復号処理を行なうことができる。
メモリ201のアドレス情報とタグの長さ情報とがその
ままタグの符号として使用されているので、符号化側に
おいてタグがアドレス情報とタグの長さ情報からなる符
号として符号化されていればその符号化データに対応す
るタグをメモリ201から容易に取り出すことができ、
タグの復号処理の大幅高速化に大いに寄与している。
も、上記のアドレスと長さについての情報でなくてもよ
く、符号化側と対応していれば、少なくともアドレス情
報を含む情報であればよい。ところで、上述の復元装置
3は、COC検出タイミングでタグの復号とタグ以外の
文字(列)の復号とを切り替えるようにしているが、タ
グ以外の文字(列)群の符号とタグの符号とが一致しな
いように符号の割り当てを行なえば、例えば図16に示
すように、上記のCOC判別部202の代わりに、入力
された符号化データがタグであるか否かを判別するSG
MLタグ判別部202′をそなえることにより、タグ自
体の検出タイミングでタグの復号とタグ以外の文字
(列)の復号とを切り替えることができる。
圧縮装置の要部の構成を示すブロック図であるが、この
図17に示すように、本第4実施形態におけるSGML
文書の圧縮装置2は、図10に示すメモリ101に代え
て、タグ符号表作成部101′として、辞書作成部10
7及び辞書更新部108をそなえた構成となっている。
成部)107は、SGMLタグ抽出部100により抽出
されたタグに所定の初期符号を割り当てることによりタ
グの辞書(統計型動的辞書:第1符号化用辞書)をタグ
符号表として作成するものであり、辞書更新部(符号化
用辞書更新部)108は、符号化処理部103a(タグ
符号化部103)によりタグが符号化されると、そのタ
グの出現頻度に応じて、辞書作成部107により作成さ
れた辞書内の符号の更新を行なうもので、本実施形態で
は、出現頻度の高いタグほど短いそのタグには短い符号
(出現頻度に反比例した長さの符号)が割り当てられる
ようになっている。
圧縮装置2は、タグの符号化の際に使用する辞書(符号
表)をタグの符号化毎にそのタグの出現頻度を考慮しな
がら更新して、タグの符号化を行なうようになっている
のである。以下、上述のごとく構成された本第4実施形
態におけるSGML文書の圧縮装置2の動作について、
図18に示すフローチャート(ステップH1〜H8)を
参照しながら詳述する。
100によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップH1)、タグ符号表作成部101′の辞書作成部1
07へ出力する。辞書作成部107は、入力されたタグ
に、順次、所定の初期符号を割り当てることにより、タ
グ符号表を作成する(ステップH2)。
部102により、上記のDTD302とともに入力され
た本文303のデータがタグであるか否かを判別し(ス
テップH3)、タグであれば、COC出力部106にC
OCの出力を指示するとともに、符号化処理部103a
の切り替え制御部105に本文データのタグ符号化部1
03側への出力切り替えを指示する。
る復号側へCOCを出力し(ステップH3のYESルー
トからステップH4)、タグ符号化部103は、入力デ
ータ(タグ)を基に辞書作成部107により作成された
辞書(タグ符号表)を参照し、そのタグに対応する符号
をタグの符号として出力する(ステップH5)。する
と、圧縮装置2は、辞書更新部108により、タグ符号
化部103で符号化されたタグの出現頻度を計算し、そ
の計算結果に応じた符号(初期符号よりも短い符号)を
符号化したタグに再割り当てして辞書の更新を行なう
(ステップH6)。
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップH3のNOルートか
らステップH7)。
か否かを判定し(ステップH8)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップH3からの処理を繰り返す(ステップ
H8のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップH8のYESルート)。このよ
うに、本第4実施形態におけるSGML文書の圧縮装置
2は、SGMLタグ抽出部100により抽出されたタグ
に所定の初期符号を割り当てることによりタグの辞書を
作成し、出現頻度の高いタグの符号が短くなくなるよ
う、タグが符号化されると、そのタグの出現頻度に応じ
て、辞書内の符号の更新を行なうこので、タグの符号化
が進むにつれて、出現頻度の高いタグほど短い符号が再
割り当てされることになり、タグの圧縮率を大幅に向上
することができる。
側)の説明 図19は本発明の第4実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図19に示す復元装置3は、図17及び図18により上
述した圧縮装置2の復号側に相当するもので、本実施形
態では、図14に示す構成に、辞書作成部207及び辞
書更新部208をタグ復号表作成部201′としてそな
えた構成となっている。
部)208は、SGMLタグ抽出部200により抽出さ
れたタグに所定の初期符号を割り当てることによりタグ
の辞書(第1復号用辞書)をタグ復号表として作成する
ものであるが、ここでは、上述の符号化側と同じルール
に従って初期符号を各タグに割り当てるようになってい
る。
07は、復号処理部203a(タグ復号部203)によ
りタグが復号されると、出現頻度の高いタグの符号ほど
その符号が短くなるように、タグの出現頻度に応じて、
辞書作成部207により作成された辞書内の符号の更新
(再割り当て)を行なうものである。以下、上述のごと
く構成された本第4実施形態におけるSGML文書の復
元装置3の動作について、図20に示すフローチャート
(ステップJ1〜J7)を参照しながら詳述する。
200によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップJ1)、タグ復号表作成部201′の辞書作成部2
07へ出力する。辞書作成部207は、受け取ったタグ
に、符号化側での初期符号の割り当てと同じルールに従
って、順次、初期符号を割り当てることにより辞書(タ
グ復号表)を作成する(ステップJ2)。
2により、入力された符号化データがCOCであるか否
かを判別し(ステップJ3)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データを基に辞書作成部207により作成された辞書を
参照し、その符号化データに対応するシンボル(タグ)
を復号結果として出力する(ステップJ4)。
により、タグ復号部203で復号されたタグの出現頻度
を計算し、その計算結果に応じた符号(初期符号よりも
短い符号)を復号したタグに再割り当てして辞書の更新
を行なう(ステップJ5)。一方、上記のステップJ3
において、復号対象の符号化データがCOCでなけれ
ば、復元装置3は、切り替え制御部205に符号化デー
タの第2復号部203側への出力切り替えを指示し、第
2復号部204によって、その符号化データ(文字また
は文字列)を符号化側に対応する復号化方式で復号する
(ステップJ3のNOルートからステップJ6)。
否かを判定し(ステップJ7)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップJ3からの処理を繰り返す(ステップ
J7のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップJ7のYESルート)。このよ
うに、本第4実施形態におけるSGML文書の復元装置
3によれば、SGMLタグ抽出部200により抽出され
たタグに符号化側と同じルールに従って所定の初期符号
を割り当てることによりタグの辞書を作成し、タグが復
号されると、そのタグの出現頻度に応じて、第1復号用
辞書内の符号の更新を行なうので、タグの復号が進むに
つれて、出現頻度の高いタグほど短い符号が再割り当て
されることになり、タグの復号効率を大幅に向上するこ
とができるとともに、正確に符号化されたタグを復号す
ることがでできる。
圧縮装置の要部の構成を示すブロック図であるが、この
図21に示すように、本第5実施形態におけるSGML
文書の圧縮装置2は、図17に示す構成に比して、タグ
符号表作成部101′として符号作成部109をそなえ
るほか、符号情報出力部112及びバッファ113をそ
なえて構成されている点が異なる。
辞書作成部)109は、SGMLタグ抽出部100によ
り抽出されたタグに基づいて本文303内のタグの出現
頻度を計数し、その計数結果に応じた符号をタグに割り
当てることによりタグの辞書(統計型準動的辞書:第2
符号化用辞書)をタグ符号表として作成するものであ
り、符号情報出力部(出現頻度情報出力部)112は、
上記のタグの出現頻度に関する情報を後述するタグの復
号側へ出力するものである。
9にてタグ符号表(辞書)が作成されるまで、本文デー
タを保持するものである。そして、上述の符号作成部1
09は、本実施形態では、例えば図22に示すように、
タグ計数部151,タグ保持部152,タグ判定部15
3,符号生成部154及び符号保持部155をそなえる
ことにより、容易に上記の統計型準動的辞書を作成でき
るようになっている。
グ抽出部100により抽出されたタグと本文303内の
タグとが一致するか否かを判定することにより本文30
3内のタグの出現頻度を計数するもので、本実施形態で
は、SGMLタグ抽出部100により抽出されたタグ
と、タグ判定部153でタグであると判定された本文3
03内のタグとがそれぞれタグ保持部152に保持さ
れ、保持された各タグの一致数を計数することにより各
タグの出現頻度を求めるようになっている。
51での計数結果に応じた符号をタグに割り当てる符号
として生成するものであり、符号保持部155は、この
符号生成部154により生成された符号をタグ判定部1
53を通じてタグ保持部152に保持されているタグと
対応付けて保持することによりタグの辞書を作成するも
のである。
圧縮装置2は、最初に本文303内のタグの出現頻度を
考慮したタグの辞書(符号表)を作成しておき、以降の
符号化処理では、その辞書に基づいて(辞書の更新は行
なわずに)タグの符号化を行なうようになっているので
ある。以下、上述のごとく構成された本第5実施形態に
おけるSGML文書の圧縮装置2の動作について、図2
3に示すフローチャート(ステップK1〜K8)を参照
しながら詳述する。
100によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップK1)、符号作成部109へ出力する。符号作成部
109では、受け取ったタグをタグ保持部152に保持
するとともに、入力された本文303のデータがタグで
あるか否かを判定することにより、本文データ内のタグ
のみをタグ保持部152に保持し、タグ計数部151が
タグ保持部152内に保持されているタグの一致数を計
数することにより、各タグの出現頻度を算出する(ステ
ップK2)。
154によって、上述のごとく得られた各タグの出現頻
度に応じた符号を生成し、各符号をそれぞれ対応するタ
グに割り当てて符号保持部155に保持する(タグの辞
書を作成する)(ステップK3)。なお、このとき、タ
グ計数部151によって計数されたタグの出現頻度情報
は、復号側で本符号化側と同じ辞書を作成するための情
報として符号情報出力部112を通じて復号側へ出力さ
れている。
部102により、入力された本文データがタグであるか
否かを判別し(ステップK4)、タグであれば、COC
出力部106にCOCの出力を指示するとともに、符号
化処理部103aの切り替え制御部105に本文データ
のタグ符号化部103側への出力切り替えを指示する。
これにより、COC出力部106は後述する復号側へC
OCを出力し(ステップK4のYESルートからステッ
プK5)、タグ符号化部103は、入力データ(タグ)
を基に符号作成部109により作成された辞書を参照
し、そのタグに対応する符号をタグの符号として出力す
る(ステップK6)。
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップK4のNOルートか
らステップK7)。
か否かを判定し(ステップK8)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップK4からの処理を繰り返す(ステップ
K8のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップK8のYESルート)。このよ
うに、本第5実施形態におけるSGML文書の圧縮装置
2によれば、本文303内のタグの出現頻度を計数し、
その計数結果に応じた符号(出現頻度の高いタグほど短
い符号)をタグに割り当ててタグの辞書(統計型準動的
辞書)を作成するので、タグの符号化前に予め出現頻度
の高いタグに短い符号を割り当てておくことができる。
グの符号化毎に辞書を更新する必要がないので、タグの
圧縮率を向上させながら圧縮処理を高速化することがで
きる。また、上述の圧縮装置2では、符号情報出力部1
12により、タグの出現頻度に関する情報をタグの復号
側へ出力するので、復号側では容易に符号化側で作成さ
れた辞書と同一の辞書を作成することができるようにな
り、復号側におけるタグの復号処理の正確性の向上にも
大いに寄与している。なお、復号側へはタグの出現頻度
に関する情報ではなく、符号化側で作成された符号表そ
のものの情報を送るようにしてもよい。
側)の説明 図24は本発明の第5実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図24に示す復元装置3は、図21〜図23により上述
した圧縮装置2の復号側に相当するもので、本実施形態
では、図14に示すメモリ201の代わりにタグ復号表
作成部201′として符号作成部209をそなえるほ
か、バッファ213をそなえて構成されている。
書作成部)209は、SGMLタグ抽出部200により
抽出されたタグと、符号化側の符号情報出力部112を
通じて送られてくるそのタグの出現頻度に関する情報と
に基づいて、符号化側と同一の符号内容を有するタグの
辞書(統計型準動的辞書:第2復号用辞書)をタグ復号
表として作成するものである。
209にてタグ復号表(辞書)が作成されるまで、入力
された符号化データを保持するものである。以下、上述
のごとく構成された本第5実施形態におけるSGML文
書の復元装置3の動作について、図25に示すフローチ
ャート(ステップL1〜L6)を参照しながら詳述す
る。
200によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップL1)、タグ復号表作成部201′の辞書作成部2
09へ出力する。辞書作成部209は、受け取ったタグ
と符号化側から送られてくるタグの出現頻度情報とに基
づいて、符号化側で作成された符号表と同一の符号内容
を有するタグの復号表を(辞書)作成する(ステップL
2)。
2により、入力された符号化データがCOCであるか否
かを判別し(ステップL3)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データを基に辞書作成部207により作成された辞書を
参照し、その符号化データに対応するシンボル(タグ)
を復号結果として出力する(ステップL3のYESルー
トからステップL4)。
なければ、復元装置3は、切り替え制御部205に符号
化データの第2復号部203側への出力切り替えを指示
し、第2復号部204によって、その符号化データ(文
字または文字列)を符号化側に対応する復号化方式で復
号する(ステップL3のNOルートからステップL
5)。
否かを判定し(ステップL6)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップL3からの処理を繰り返す(ステップ
L6のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップL6のYESルート)。このよ
うに、本第5実施形態におけるSGML文書の復元装置
3によれば、SGMLタグ抽出部200により抽出され
たDTD302内のタグと、符号化側から送られてくる
SGML文書の本文303内のタグの出現頻度に関する
情報とに基づいて、符号化側と同一の符号内容を有する
タグの復号表を作成するので、符号化側で符号化された
タグを正確に復号することができる。また、符号化側と
同様に、タグの復号前に予め出現頻度の高いタグには短
い符号が割り当てられるので、タグの復号効率を向上さ
せながら復号処理を高速化することができる。
圧縮装置の要部の構成を示すブロック図であるが、この
図26に示す圧縮装置2は、図10に示すSGMLタグ
検出部102に代えて、開始タグ保持部110及び開始
タグ検出部111を有するSGMLタグ検出部102′
をそなえた構成となっている。
GMLタグ抽出部100により抽出されたDTD302
内のタグの始まりを示すタグ開始文字(列)(例えば、
“<”や“</”など)のみを保持するものであり、開
始タグ検出部111は、この開始タグ保持部110に保
持されたタグ開始文字(列)(以下、開始タグという)
に基づいて、入力された本文303のデータがタグ開始
タグである否かを検出するものである。
(タグ判別部)102′は、SGMLタグ抽出部100
で抽出されたタグに基づいてタグの始まりを示す開始タ
グを検出することにより入力データがタグであると判別
するようになっているのである。ただし、上記の開始タ
グ検出部111は、本実施形態では、上記の開始タグが
検出されると、開始タグそのもの(“<”や“</”)
は第2符号化部104にてタグ以外のデータとして符号
化されるよう切り替え制御部205に指示を与えたの
ち、上記の開始タグに続くデータがタグ本体としてタグ
符号化部103で符号化されるよう切り替え制御部20
5に指示を与えるようになっている。
形態におけるSGML文書の圧縮装置2の動作につい
て、図27に示すフローチャート(ステップM1〜M
6)を参照しながら詳述する。まず、圧縮装置2は、S
GMLタグ抽出部100によって、入力されたDTD3
02を走査してそのDTD302内に定義されているタ
グを抽出し、抽出したタグを順次メモリ101に記憶す
ることにより、そのタグにメモリ101のアドレス情報
とタグの長さ情報とをタグの符号として割り当ててタグ
符号表を作成する(ステップM1)。
はSGMLタグ抽出部100によって抽出されたタグの
うち開始タグのみが出力され、開始タグ保持部110
は、入力された開始タグを順次保持することにより、開
始タグを決定しておく(ステップM2)。そして、圧縮
装置2は、開始タグ検出部111により、入力された本
文データが開始タグであるか否かを判別し(ステップM
3)、開始タグであれば、符号化処理部103aの切り
替え制御部105に本文データの第2符号化部104側
への出力切り替えを指示する。これにより、第2符号化
部103は、入力データ(開始タグ)を所定の符号化方
式で符号化する。
え制御部105に本文データのタグ符号化部103側へ
の出力切り替えを指示し、これにより、上記の開始タグ
に続くタグ本体がタグ符号化部103へ入力され、タグ
符号化部103では、その入力データ(タグ本体)を基
にメモリ101を参照し、そのタグのアドレスと長さと
をタグの符号として出力する(ステップM3のYESル
ートからステップM4)。
なければ、開始タグ検出部111は、切り替え制御部1
05に本文データの第2符号化部104側への出力切り
替えを指示し、第2符号化部104によって、その本文
データ(文字または文字列)を所定の符号化方式で符号
化する(ステップM3のNOルートからステップM
5)。
か否かを判定し(ステップM6)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップM3からの処理を繰り返す(ステップ
M6のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップM6のYESルート)。このよ
うに、本第6実施形態におけるSGML文書の圧縮装置
2によれば、入力された本文データがタグである否かを
開始タグを検出することにより判別するので、上記のC
OCを復号側へ出力しなくても復号側でも同様に開始タ
グからタグの判別を行なうことができ、COCを出力し
ない分、よりSGML文書の圧縮率を高めることができ
る。
ることにより行なっているので、より簡素な構成で、且
つ、高速に、タグの判別を行なうことができ、タグの圧
縮処理の高速化にも大いに寄与している。 (f2)SGML文書の復元装置(復号側)の説明 図28は本発明の第6実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図28に示す復元装置3は、図26及び図27により上
述した圧縮装置2の復号側に相当するもので、本実施形
態では、図14に示すSGMLタグ検出部202に代え
て、開始タグ保持部210及び開始タグ検出部211を
有するSGMLタグ検出部202′をそなえた構成とな
っている。
開始タグ検出部211は、それぞれ、符号化側の開始タ
グ保持部110及び開始タグ検出部111と同様のもの
で、開始タグ保持部210は、SGMLタグ抽出部20
0により抽出されたDTD302内の開始タグ(“<”
や“</”など)のみを保持するものであり、開始タグ
検出部211は、この開始タグ保持部210に保持され
た開始タグに基づいて、第2復号部204で復号された
シンボルが開始タグであるか否かを検出するもので、開
始タグが検出されると、その後の復号対象の符号化デー
タがタグの符号であるので、切り替え制御部205の出
力をタグ復号部203側へ切り替えるよう指示するよう
になっている。
形態における復元装置3の動作について、図29に示す
フローチャート(ステップN1〜N6)を参照しながら
詳述する。まず、復元装置3は、SGMLタグ抽出部2
00によって、入力されたDTD302を走査してその
DTD302内に定義されているタグを抽出し、抽出し
たタグを順次メモリ101に記憶することにより、その
タグにメモリ101のアドレス情報とタグの長さ情報と
をタグの符号として割り当ててタグ復号表を作成する
(ステップN1)。
はSGMLタグ抽出部200によって抽出されたタグの
うち開始タグのみが出力され、開始タグ保持部210
は、入力された開始タグを順次保持することにより、開
始タグを決定しておく(ステップN2)。そして、復元
装置2は、開始タグ検出部211により、第2復号部2
04で復号されたシンボルが開始タグであるか否かを判
別し(ステップN3)、開始タグであれば、続いて入力
される符号化データ(タグ本体の符号=アドレスと長
さ)がタグ復号部204へ出力されるよう、切り替え制
御部205に符号化データのタグ復号部203側への出
力切り替えを指示する。
ータ(アドレスと長さ)を基にメモリ201を参照して
該当するタグを復号結果として出力する(ステップN3
のYESルートからステップN4)。一方、第2復号部
204で復号されたシンボルが開始タグでなかった場
合、開始タグ検出部211は、切り替え制御部105に
符号化データの第2復号部204側への出力切り替えを
指示し、第2復号部204によって、その符号化データ
を符号化側の符号化方式と対応する復号方式で復号する
(ステップN3のNOルートからステップN5)。
否かを判定し(ステップN6)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップN3からの処理を繰り返す(ステップ
N6のNOルート)一方、復号が終了していれば復元処
理を終える(ステップN6のYESルート)。このよう
に、本第6実施形態におけるSGML文書の復元装置3
によれば、復号された符号化データが開始タグである否
かを検出することによりタグの開始位置を判別するの
で、上記のCOCを受信しなくてもタグの復号とタグ以
外の文字(列)の復号とを切り替えることができる。従
って、COCを受信しない分、符号化側での圧縮率を高
めながら正確にタグの復元処理を行なうことができる。
ることにより行なっているので、より簡素な構成で、且
つ、高速に、タグの判別を行なうことができ、タグの復
元処理の高速化にも大いに寄与している。以上のよう
に、上述した各実施形態におけるSGML文書の圧縮装
置2によれば、本文303内のタグを符号化して圧縮す
ることができるので、SGML文書のデータ量を大幅に
削減することができる。また、タグだけでなく、タグ以
外の文字(列)についても所定の符号化方式で符号化し
て圧縮することができるので、SGML文書のデータ量
をより大幅に削減することができる。
ML文書の復元装置3によれば、符号化されたタグもし
くはタグとタグ以外の文字(列)とを効率良く、且つ、
確実に復号することができるので、常に正確にタグもし
くはタグとタグ以外の文字(列)を復元することができ
る。また、上述した各圧縮装置2,復元装置3は、それ
ぞれ、上述のような機能を有する圧縮プログラム,復元
プログラムを記録したフロッピーディスク11やCD−
ROM12,MO13などの記録媒体15をコンピュー
タ2,3に提供することで、容易に実現されるので、本
発明の汎用性を大幅に向上させることができ、本発明の
普及が大いに期待できる。 (g)その他 なお、上述した実施形態では、いずれも、圧縮装置2,
復元装置3がそれぞれ単体で異なるパソコン上で実現さ
れている場合について説明したが、圧縮装置2と復元装
置3の両方を圧縮/復元装置として1つのパソコン上で
実現することも可能である。
置2(図10参照)と復元装置(図14参照)とを1つ
のパソコン上で実現することを考えた場合、その構成は
図30に示すようになる。ただし、この場合、復元側で
は、符号化側で作成されたタグ符号表を使用してタグの
復号を行なえばよいので、図30に示すように、メモリ
101が符号化側と復元側とで共用化されている(タグ
符号/復号表作成部として機能している)。なお、この
図30に示すSGML文書の圧縮/復元装置の各部の動
作は、第3実施形態にて前述したものと同様であるの
で、ここでは、その説明は省略する。
復元装置によれば、タグの復号に際しては、タグの符号
化時に作成・使用したメモリ101の記憶内容(タグ符
号/復号表)に基づいて、タグの復号処理を行なうの
で、少なくとも、前述の各実施形態で述べたようにタグ
復号用の復号表をタグ符号化用の符号表と個別に作成す
る必要がなく、タグ復号(復元)処理の高速化,装置規
模の削減に大いに寄与している。
態における圧縮装置2,復元装置3についても、同様
に、1つの装置(パソコン)上で圧縮/復元装置として
実現することが可能である。また、上述した各実施形態
では、SGML文書のDTD302内に定義されている
タグを抽出して符号を割り当てているが、SGML宣言
部301にもDTD302と同様にタグが定義されてい
れば、そのSGML宣言部301内のタグも抽出して符
号を割り当てるようにしてもよい。
L文書の本文303についてのみ圧縮/復元を行なって
いるが、本文303以外(SGML宣言部301,DT
D302)についても同様に圧縮/復元を行なっても良
い。
の圧縮装置および圧縮方法によれば、文書型定義部内の
タグに所定の符号を割り当ててタグ符号表を作成し、そ
のタグ符号表に基づいて、文書実現部内のタグを符号化
するので、タグ文書のタグを極めて効率良く圧縮するこ
とができ、タグ文書のデータ量を大幅に削減することが
できる(請求項1,27)。
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ符号表に基づいて、全てのタグ文書の
文書実現部内のタグに対する符号化を行なうので、各タ
グ文書毎にタグ符号表を作成する必要がなく、タグの符
号化処理を極めて高速に行なうことができる(請求項
2,28)。
圧縮方法によれば、上記と同様のタグ符号表を作成し、
入力されたデータがタグである場合は、タグの符号化を
示す特殊コードをタグの復号側へ出力した後、タグ符号
表に基づいて入力データを符号化する一方、入力データ
がタグでない場合は入力データを所定の符号化方式で符
号化するので、タグ文書内のタグのみならずタグ以外の
文書さえも極めて効率良く圧縮することができ、より大
幅にタグ文書のデータ量を削減することができる。ま
た、タグの復号側では上記の特殊コードによりタグの判
別を容易に行なうことができるので、タグの復号処理の
高速化にも大いに寄与する(請求項3,29)。
を上記のタグ符号表に基づいて符号化する第1符号化部
と、入力データを所定の符号化方式で符号化する第2符
号化部と、入力データがタグであると判別されるとその
入力データを第1符号化部へ出力する一方、入力データ
がタグでないと判別されるとその入力データを第2符号
化部へ出力する切り替え制御部とをそなえることによ
り、簡素な構成で容易に実現される(請求項4)。
憶部に記憶させ、そのタグ記憶部における記憶箇所につ
いての情報をタグの符号として割り当てることにより作
成すれば、タグをタグ記憶部に順次記憶してゆくだけで
各タグに符号が割り当てられることになるので、極めて
簡素な構成で、且つ、高速に、上記のタグ符号表を作成
することができる(請求項5)。
例えば、上記タグ記憶部のアドレス情報を含む情報とす
れば、タグ記憶部のアドレス情報がそのままタグの符号
として使用されるので、より高速に、タグの符号化を行
なうことができる(請求項6)。具体的に、上記の記憶
箇所についての情報を、例えば、上記アドレス情報とタ
グの長さ情報とすれば、タグの長さもそのタグの符号と
して割り当てられるので、タグの復号側では、容易に、
復号すべきタグを特定することができ、タグの復号処理
の高速化に大いに寄与する(請求項7)。
抽出部により抽出されたタグに所定の初期符号を割り当
てることによりタグの第1符号化用辞書を作成し、タグ
が符号化されると、そのタグの出現頻度に応じて、第1
符号化用辞書内の符号の更新を行なうことにより作成す
れば、タグの符号化が進むにつれて、例えば出現頻度の
高いタグほど短い符号が再割り当てされるので、タグの
圧縮効率を大幅に向上することができる(請求項8)。
のタグの出現頻度を計数し、その計数結果に応じた符号
をタグに割り当ててタグの第2符号化用辞書として作成
すれば、タグの符号化前に予め出現頻度の高いタグには
短い符号を割り当てておくことができるので、タグの圧
縮効率を向上させながら圧縮処理を高速化することがで
きる(請求項9)。
関する情報をタグの復号側へ出力するようにすれば、復
号側では容易に上記の第2符号化用辞書と同一の辞書を
作成することができるので、復号側におけるタグの復号
処理の正確性の向上に大いに寄与する(請求項10)。
なお、上記の第2符号化用辞書は、文書実現部内のタグ
の出現頻度を計数するタグ計数部と、このタグ計数部で
の計数結果に応じた符号を生成する符号生成部と、この
符号生成部により生成された符号を保持する符号保持部
とをそなえることにより、容易に作成することができる
(請求項11)。
圧縮方法によれば、文書型定義部内のタグに所定の符号
を割り当ててタグ符号表を作成し、入力された文書実現
部のデータがタグである場合は上記のタグ符号表に基づ
いて入力データを符号化する一方、入力データがタグで
ない場合は入力データを所定の符号化方式で符号化する
ので、上記の特殊コードを出力しない分、より圧縮効率
を高めることができる(請求項12,30)。
タグを検出することにより入力データがタグであると判
別するようにすれば、より簡素な構成で、且つ、高速
に、タグの判別を行なうことができ、これにより、タグ
の圧縮処理を高速化することができる(請求項13)。
一方、本発明のタグ文書の復元装置および復元方法によ
れば、文書型定義部内のタグに所定の符号を割り当てて
タグ復号表を作成し、そのタグ復号表に基づいて符号化
された文書実現部内のタグを復号するので、タグ文書内
の符号化されたタグを極めて効率良く、且つ、正確に復
号(復元)することができる(請求項14,31)。
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ復号表に基づいて、全てのタグ文書の
文書実現部に対するタグの復号を行なうので、各タグ文
書毎にタグ復号表を作成する必要がなく、タグの復号処
理を極めて高速に行なうことができる(請求項15,3
2)。
復元方法によれば、上記と同様のタグ復号表を作成し、
入力された符号化データが特殊コードである場合は、そ
の特殊コードの後に入力される符号化データをタグ復号
表に基づいて復号する一方、入力された符号化データが
特殊コードでない場合は、その符号化データを所定の復
号方式で復号するので、タグだけでなく符号化されたタ
グ以外の文書をも極めて効率良く、且つ、正確に復元す
ることができる。また、特殊コードを検出するだけで、
復号対象の符号化データがタグであるか否かを判別する
ことができるので、タグの復号処理を大幅に高速化する
ことができる(請求項16,33)。
号化データを上記のタグ復号表に基づいて復号する第1
復号部と、入力された符号化データを所定の復号方式で
復号する第2復号部と、符号化データが特殊コードであ
ると判別されるとその特殊コードの後に入力される符号
化データを第1復号部へ出力する一方、符号化データが
特殊コードでないと判別されるとその符号化データを第
2復号部へ出力する切り替え制御部とをそなえることに
より、簡素な構成で容易に実現される(請求項17)。
憶部をさせ、そのタグ記憶部における記憶箇所について
の情報をタグの符号として割り当てることにより作成す
れば、タグをタグ記憶部に順次記憶してゆくだけで各タ
グに符号が割り当てられることになるので、極めて簡素
な構成で、且つ、高速に、上記のタグ復号表を作成する
ことができる(請求項18)。
例えば、上記タグ記憶部のアドレス情報を含む情報とす
れば、タグ記憶部のアドレス情報がそのままタグの符号
として使用されるので、符号化側においてタグがアドレ
ス情報を含む情報として符号化されていればその符号化
データに対応するタグをタグ記憶部から容易に取り出す
ことができ、タグの復号処理が大幅に高速化される(請
求項19)。
を、例えば、上記アドレス情報とタグの長さ情報とすれ
ば、タグの長さもそのタグの符号として割り当てられる
ので、符号化側においてタグが上記のアドレス情報とそ
の長さ情報として符号化されていれば、より正確に、そ
の符号化データに対応するタグをタグ記憶部から取り出
すことができ、タグ復号処理の高速化,正確性の向上に
大いに寄与する(請求項20)。
部内のタグに所定の初期符号を割り当てることによりタ
グの第1復号用辞書を作成し、タグが復号されると、そ
のタグの出現頻度に応じて、第1復号用辞書内の符号の
更新を行なうことにより作成すれば、タグの復号が進む
につれて、例えば出現頻度の高いタグほど短い符号が再
割り当てされるので、タグの復号効率を大幅に向上する
ことができる(請求項21)。
内のタグと文書実現部内のタグの出現頻度に関する情報
とに基づいて、文書型定義部内のタグにその出現頻度に
応じた符号を割り当ててタグの第2復号用辞書として作
成すれば、タグの復号前に予め出現頻度の高いタグには
短い符号を割り当てておくことができるので、タグの復
号効率を向上させながら復号処理を高速化することがで
きる(請求項22)。
び復元方法によれば、文書型定義部内のタグに所定の符
号を割り当ててタグ復号表を作成し、入力された符号化
データがタグの符号化データである場合は、上記のタグ
復号表に基づいて符号化データを復号する一方、入力さ
れた符号化データがタグの符号化データでない場合は、
その符号化データを所定の復号方式で復号するので、上
記の特殊コードを受信しない分、符号化側での圧縮効率
を高めながら正確にタグの復元処理を行なうことができ
る(請求項23,34)。
タグを検出することにより入力データがタグであると判
別するようにすれば、より簡素な構成で、且つ、高速
に、タグの判別を行なうことができ、これにより、タグ
の復元処理を高速化することができる(請求項24)。
また、本発明のタグ文書の圧縮/復元装置および圧縮/
復元方法によれば、文書実現部内のタグに所定の符号を
割り当ててタグ符号/復号表を作成し、タグの復号に際
しては、タグの符号化時に使用した上記のタグ符号/復
号表に基づいて、タグの復号処理を行なうので、少なく
とも、タグ復号用の復号表をタグ符号化用の符号表と個
別に作成する必要がなく、タグ復号(復元)処理の高速
化,装置規模の削減に大いに寄与する(請求項25,3
5)。
置および圧縮/復元方法によれば、文書実現部内のタグ
に所定の符号を割り当ててタグ符号/復号表を作成し、
タグの復号に際して、前記と同様の特殊コードを検出す
ると、タグの符号化時に使用した上記のタグ符号/復号
表に基づいて、タグの復号処理を行なうので、上記と同
様に、タグ復号(復元)処理の高速化,装置規模の削減
に大いに寄与するほか、上記特殊コードにより、高速且
つ正確に、復号対象のタグを特定してタグの復号を行な
うことができる(請求項26,36)。
置および圧縮/復元装置は、それぞれコンピュータを上
述のごとく機能させるための圧縮プログラム,復元プロ
グラムおよび圧縮/復元プログラムをコンピュータ読み
取り可能な記録媒体に記録して、その記録媒体を所望の
コンピュータに提供することにより容易に実現されるの
で、本発明の汎用性を大幅に向上させることができ、本
発明の普及が大いに期待できる(請求項37〜42)。
(タグ文書)の圧縮装置および復元装置が適用されるコ
ンピュータシステムを示すブロック図である。
としてのパソコンの要部の構成を示すブロック図であ
る。
の動作を説明するためのフローチャートである。
復元装置としてのパソコンの要部の構成を示すブロック
図である。
の動作を説明するためのフローチャートである。
圧縮装置の要部の構成を示すブロック図である。
の動作を説明するためのフローチャートである。
復元装置の要部の構成を示すブロック図である。
の動作を説明するためのフローチャートである。
の圧縮装置の要部の構成を示すブロック図である。
置の動作を説明するための図である。
置の動作を説明するためのフローチャートである。
置の動作を説明するための図である。
の復元装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
置の変形例を示すブロック図である。
の圧縮装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
の復元装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
の圧縮装置の要部の構成を示すブロック図である。
置の符号作成部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
の復元装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
の圧縮装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
の復元装置の要部の構成を示すブロック図である。
置の動作を説明するためのフローチャートである。
圧縮/復元装置の要部の構成を示すブロック図である。
図である。
述例を示す図である。
を示す図である。
Claims (42)
- 【請求項1】 文書構造を示すタグを定義した文書型定
義部と該文書型定義部に定義されている該タグを用いて
記述された文書実現部とを有するタグ文書を符号化して
圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ符
号表を作成するタグ符号表作成部と、 該タグ符号表作成部により作成された該タグ符号表に基
づいて、該文書実現部内の該タグを符号化するタグ符号
化部とをそなえたことを特徴とする、タグ文書の圧縮装
置。 - 【請求項2】 該タグ符号化部が、 同一の文書型定義部を有する複数のタグ文書について
は、該タグ抽出部および該タグ符号表作成部において最
初のタグ文書について作成されたタグ符号表に基づい
て、全てのタグ文書の文書実現部内のタグに対する符号
化を行なうように構成されていることを特徴とする、請
求項1記載のタグ文書の圧縮装置。 - 【請求項3】 文書構造を示すタグを定義した文書型定
義部と該文書型定義部に定義されている該タグを用いて
記述された文書実現部とを有するタグ文書を符号化して
圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ符
号表を作成するタグ符号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
抽出された該タグであるか否かを判別するタグ判別部
と、 該タグ判別部において上記の入力データが該タグである
と判別されると、該タグ符号表に基づいて該入力データ
を符号化する一方、該タグ判別部において該入力データ
が該タグでないと判別されると、該入力データを所定の
符号化方式で符号化する符号化処理部と、 該タグ判別部において上記の入力データが該タグである
と判別されると、該入力データの符号化前に、タグの符
号化を示す特殊コードを該タグの復号側へ出力する特殊
コード出力部とをそなえたことを特徴とする、タグ文書
の圧縮装置。 - 【請求項4】 該符号化処理部が、 入力データを該タグ符号表に基づいて符号化する第1符
号化部と、 入力データを所定の符号化方式で符号化する第2符号化
部と、 該タグ判別部において該入力データが該タグであると判
別されると該入力データを該第1符号化部へ出力する一
方、該タグ判別部において該入力データが該タグでない
と判別されると該入力データを該第2符号化部へ出力す
る切り替え制御部とをそなえていることを特徴とする、
請求項3記載のタグ文書の圧縮装置。 - 【請求項5】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグを記憶するタグ記
憶部を有し、該タグの該タグ記憶部における該記憶箇所
についての情報を該タグの符号として割り当てることに
より該タグ符号表を作成するように構成されていること
を特徴とする、請求項3記載のタグ文書の圧縮装置。 - 【請求項6】 上記の記憶箇所についての情報が、該タ
グ記憶部のアドレス情報を含む情報であることを特徴と
する、請求項5記載のタグ文書の圧縮装置。 - 【請求項7】 上記の記憶箇所についての情報が、該ア
ドレス情報と該タグの長さ情報とであることを特徴とす
る、請求項6記載のタグ文書の圧縮装置。 - 【請求項8】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグに所定の初期符号
を割り当てることにより該タグの第1符号化用辞書を該
タグ符号表として作成する第1符号化用辞書作成部と、 該符号化処理部により該タグが符号化されると、該タグ
の出現頻度に応じて、該第1符号化用辞書作成部により
作成された該第1符号化用辞書内の該符号の更新を行な
う符号化用辞書更新部とをそなえていることを特徴とす
る、請求項3記載のタグ文書の圧縮装置。 - 【請求項9】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグに基づいて該文書
実現部内の該タグの出現頻度を計数し、その計数結果に
応じた符号を該タグに割り当てることにより該タグの第
2符号化用辞書を該タグ符号表として作成する第2符号
化用辞書作成部をそなえていることを特徴とする、請求
項3記載のタグ文書の圧縮装置。 - 【請求項10】 該タグの出現頻度に関する情報を該タ
グの復号側へ出力する出現頻度情報出力部をそなえてい
ることを特徴とする、請求項9記載のタグ文書の圧縮装
置。 - 【請求項11】 該第2符号化用辞書作成部が、 該タグ抽出部により抽出された該タグと該文書実現部内
の該タグとが一致するか否かを判定することにより該文
書実現部内の該タグの出現頻度を計数するタグ計数部
と、 該タグ計数部での計数結果に応じた符号を生成する符号
生成部と、 該符号生成部により生成された該符号を保持することに
より該第2符号化用辞書を作成する符号保持部とをそな
えていることを特徴とする、請求項9記載のタグ文書の
圧縮装置。 - 【請求項12】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ符
号表を作成するタグ符号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
抽出された該タグであるか否かを判別するタグ判別部
と、 該タグ判別部において上記の入力データが該タグである
と判別されると、該タグ符号表に基づいて該入力データ
を符号化する一方、該タグ判別部において該入力データ
が該タグでないと判別されると、該入力データを所定の
符号化方式で符号化する符号化処理部とをそなえたこと
を特徴とする、タグ文書の圧縮装置。 - 【請求項13】 該タグ判別部が、 該タグ抽出部で抽出された該タグに基づいてタグの始ま
りを示す開始タグを検出することにより該入力データが
該タグであると判別するように構成されていることを特
徴とする、請求項12記載のタグ文書の圧縮装置。 - 【請求項14】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ復
号表を作成するタグ復号表作成部と、 該タグ復号表作成部により作成された該タグ復号表に基
づいて、符号化された該文書実現部内の該タグを復号す
るタグ復号部とをそなえたことを特徴とする、タグ文書
の復元装置。 - 【請求項15】 該タグ復号部が、 同一の文書型定義部を有する複数のタグ文書について
は、該タグ抽出部および該タグ復号表作成部を通じて最
初のタグ文書について作成されたタグ復号表に基づい
て、全てのタグ文書の文書実現部に対するタグの復号を
行なうように構成されていることを特徴とする、請求項
14記載のタグ文書の復元装置。 - 【請求項16】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ復
号表を作成するタグ復号表作成部と、 入力された符号化データが、タグの符号化データが入力
されることを示す特殊コードであるか否かを判別する特
殊コード判別部と、 該特殊コード判別部において該符号化データが該特殊コ
ードであると判別されると、該特殊コードの後に入力さ
れる符号化データを該タグ復号表に基づいて復号する一
方、該特殊コード判別部において該符号化データが該特
殊コードでないと判別されると、該符号化データを所定
の復号方式で復号する復号処理部とをそなえたことを特
徴とする、タグ文書の復元装置。 - 【請求項17】 該復号処理部が、 入力された符号化データを該タグ復号表に基づいて復号
する第1復号部と、 入力された符号化データを所定の復号方式で復号する第
2復号部と、 該特殊コード判別部において該符号化データが該特殊コ
ードであると判別されると該特殊コードの後に入力され
る符号化データを該第1復号部へ出力する一方、該特殊
コード判別部において該符号化データが該特殊コードで
ないと判別されると該符号化データを該第2復号部へ出
力する切り替え制御部とをそなえていることを特徴とす
る、請求項16記載のタグ文書の復元装置。 - 【請求項18】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグを記憶するタグ記
憶部を有し、該タグの該タグ記憶部における該記憶箇所
についての情報を該タグの符号として割り当てることに
より該タグ復号表を作成するように構成されていること
を特徴とする、請求項16記載のタグ文書の復元装置。 - 【請求項19】 上記の記憶箇所についての情報が、該
タグ記憶部のアドレス情報を含む情報であることを特徴
とする、請求項18記載のタグ文書の復元装置。 - 【請求項20】 上記の記憶箇所についての情報が、該
アドレス情報と該タグの長さ情報とであることを特徴と
する、請求項19記載のタグ文書の復元装置。 - 【請求項21】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグに所定の初期符号
を割り当てることにより該タグの第1復号用辞書を該タ
グ復号表として作成する第1復号用辞書作成部と、 該復号処理部により該タグが復号されると、該タグの出
現頻度に応じて、該第1復号用辞書作成部により作成さ
れた該第1復号用辞書内の該符号の更新を行なう復号用
辞書更新部とをそなえていることを特徴とする、請求項
16記載のタグ文書の復元装置。 - 【請求項22】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグと該タグの出現頻
度に関する情報とに基づいて、該タグの第2復号用辞書
を作成する第2復号用辞書作成部をそなえていることを
特徴とする、請求項16記載のタグ文書の復元装置。 - 【請求項23】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ復
号表を作成するタグ復号表作成部と、 入力された符号化データがタグの符号化データであるか
否かを判別するタグ符号判別部と、 該タグ符号判別部において該符号化データがタグである
と判別されると、該タグ復号表に基づいて該符号化デー
タを復号する一方、該タグ符号判別部において該符号化
データがタグでないと判別されると、該符号化データを
所定の復号方式で復号する復号処理部とをそなえたこと
を特徴とする、タグ文書の復元装置。 - 【請求項24】 該タグ符号判別部が、 該タグ抽出部で抽出された該タグに基づいてタグの始ま
りを示す開始タグを検出することにより該符号化データ
が該タグであると判別するように構成されていることを
特徴とする、請求項23記載のタグ文書の復元装置。 - 【請求項25】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ符
号/復号表を作成するタグ符号/復号表作成部と、 該タグ符号/復号表作成部により作成された該タグ符号
/復号表に基づいて、該文書実現部内の該タグを符号化
するタグ符号化部と、 該タグ符号/復号表作成部により作成された該タグ符号
/復号表に基づいて、該タグ符号化部によって符号化さ
れた該文書実現部内の該タグを復号するタグ復号部とを
そなえたことを特徴とする、タグ文書の圧縮/復元装
置。 - 【請求項26】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
書型定義部内の該タグに所定の符号を割り当ててタグ符
号/復号表を作成するタグ符号/復号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
抽出された該タグであるか否かを判別するタグ判別部
と、 該タグ判別部において上記の入力データが該タグである
と判別されると、該タグ符号/復号表に基づいて該入力
データを符号化する一方、該タグ判別部において該入力
データが該タグでないと判別されると、該入力データを
所定の符号化方式で符号化する符号化処理部と、 該タグ判別部において上記の入力データが該タグである
と判別されると、該入力データの符号化前に、タグの符
号化を示す特殊コードを出力する特殊コード出力部と、 該符号化処理部から出力される符号化データが該特殊コ
ードであるか否かを判別する特殊コード判別部と、 該特殊コード判別部において該符号化データが該特殊コ
ードであると判別されると、該特殊コードの後に該符号
化処理部から出力される符号化データを該タグ符号/復
号表に基づいて復号する一方、該特殊コード判別部にお
いて該符号化データが該特殊コードでないと判別される
と、該符号化処理部から出力される符号化データを所定
の復号方式で復号する復号処理部とをそなえたことを特
徴とする、タグ文書の圧縮/復元装置。 - 【請求項27】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ符号表を作成し、該タグ符号表に基づいて、該文書実
現部内の該タグを符号化することを特徴とする、タグ文
書の圧縮方法。 - 【請求項28】 同一の文書型定義部を有する複数のタ
グ文書については、最初のタグ文書について作成された
タグ符号表に基づいて、全てのタグ文書の該文書実現部
内のタグに対する符号化を行なうことを特徴とする、請
求項27記載のタグ文書の圧縮方法。 - 【請求項29】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ符号表を作成し、 入力された該文書実現部のデータがタグである場合は、
タグの符号化を示す特殊コードを該タグの復号側へ出力
した後、該タグ符号表に基づいて該入力データを符号化
する一方、該入力データが該タグでない場合は該入力デ
ータを所定の符号化方式で符号化することを特徴とす
る、タグ文書の圧縮方法。 - 【請求項30】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ符号表を作成し、 入力された該文書実現部のデータがタグである場合は該
タグ符号表に基づいて該入力データを符号化する一方、
該入力データがタグでない場合は該入力データを所定の
符号化方式で符号化することを特徴とする、タグ文書の
圧縮方法。 - 【請求項31】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ復号表を作成し、 該タグ復号表に基づいて、符号化された該文書実現部内
の該タグを復号することを特徴とする、タグ文書の復元
方法。 - 【請求項32】 同一の文書型定義部を有する複数のタ
グ文書については、最初のタグ文書について作成された
タグ復号表に基づいて、全てのタグ文書の文書実現部に
対するタグの復号を行なうことを特徴とする、請求項3
1記載のタグ文書の復元方法。 - 【請求項33】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ復号表を作成し、 入力された符号化データが、タグの符号化データが入力
されることを示す特殊コードである場合は、その特殊コ
ードの後に入力される符号化データを該タグ復号表に基
づいて復号する一方、入力された符号化データが該特殊
コードでない場合は、その符号化データを所定の復号方
式で復号することを特徴とする、タグ文書の復元方法。 - 【請求項34】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ復号表を作成し、 入力された符号化データがタグの符号化データである場
合は、該タグ復号表に基づいて該符号化データを復号す
る一方、入力された符号化データがタグの符号化データ
でない場合は、該符号化データを所定の復号方式で復号
することを特徴とする、タグ文書の復元方法。 - 【請求項35】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ符号/復号表を作成し、 該タグ符号/復号表に基づいて該文書実現部内の該タグ
を符号化する一方、符号化された該タグを該タグ符号/
復号表に基づいて復号することを特徴とする、タグ文書
の圧縮/復元方法。 - 【請求項36】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
グ符号/復号表を作成し、 入力された該文書実現部のデータがタグである場合は、
タグの符号化を示す特殊コードを出力した後、該タグ符
号/復号表に基づいて該入力データを符号化する一方、
該入力データがタグでない場合は、該入力データを所定
の符号化方式で符号化するとともに、 符号化データの復号に際しては、該符号化データが該特
殊コードであれば、該特殊コードの後の符号化データを
該タグ符号/復号表に基づいて復号する一方、該符号化
データが特殊コードでなければ、該符号化データを所定
の復号方式で復号することを特徴とする、タグ文書の圧
縮/復元方法。 - 【請求項37】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮プログラムを記録したコンピ
ュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて、該文書型定義部内の該タグに所定の
符号を割り当ててタグ符号表を作成するタグ符号表作成
部と、該タグ符号表作成部により作成された該タグ符号
表に基づいて、該文書実現部内の該タグを符号化するタ
グ符号化部として機能させるためのタグ文書の圧縮プロ
グラムが記録されていることを特徴とする、タグ文書の
圧縮プログラムを記録したコンピュータ読み取り可能な
記録媒体。 - 【請求項38】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮するタグ文書の圧縮プログラムを記録したコンピ
ュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて、該文書型定義部内の該タグに所定の
符号を割り当ててタグ符号表を作成するタグ符号表作成
部と、入力された該文書実現部のデータが該タグ抽出部
により抽出された該タグであるか否かを判別するタグ判
別部と、該タグ判別部において上記の入力データが該タ
グであると判別されると、該タグ符号表に基づいて該入
力データを符号化する一方、該タグ判別部において該入
力データが該タグでないと判別されると、該入力データ
を所定の符号化方式で符号化する符号化処理部と、該タ
グ判別部において上記の入力データが該タグであると判
別されると、該入力データの符号化前に、タグの符号化
を示す特殊コードを該タグの復号側へ出力する特殊コー
ド出力部として機能させるためのタグ文書の圧縮プログ
ラムが記録されていることを特徴とする、タグ文書の圧
縮プログラムを記録したコンピュータ読み取り可能な記
録媒体。 - 【請求項39】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元プログラムを記録し
たコンピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて、該文書型定義部内の該タグに所定の
符号を割り当ててタグ復号表を作成するタグ復号表作成
部と、該タグ復号表作成部により作成された該タグ復号
表に基づいて、符号化された該文書実現部内の該タグを
復号するタグ復号部として機能させるためのタグ文書の
復元プログラムが記録されていることを特徴とする、タ
グ文書の復元プログラムを記録したコンピュータ読み取
り可能な記録媒体。 - 【請求項40】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有する符号化後のタグ文書
を復号して復元するタグ文書の復元プログラムを記録し
たコンピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて、該文書型定義部内の該タグに所定の
符号を割り当ててタグ復号表を作成するタグ復号表作成
部と、入力された符号化データが、タグの符号化データ
が入力されることを示す特殊コードであるか否かを判別
する特殊コード判別部と、該特殊コード判別部において
該符号化データが該特殊コードであると判別されると、
該特殊コードの後に入力される符号化データを該タグ復
号表に基づいて復号する一方、該特殊コード判別部にお
いて該符号化データが該特殊コードでないと判別される
と、該符号化データを所定の復号方式で復号する復号処
理部として機能させるためのタグ文書の復元プログラム
が記録されていることを特徴とする、タグ文書の復元プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体。 - 【請求項41】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元プログラムを記録したコン
ピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて該文書型定義部内の該タグに所定の符
号を割り当ててタグ符号/復号表を作成するタグ符号/
復号表作成部と、該タグ符号/復号表作成部により作成
された該タグ符号/復号表に基づいて該文書実現部内の
該タグを符号化するタグ符号化部と、該タグ符号/復号
表作成部により作成された該タグ符号/復号表に基づい
て該タグ符号化部によって符号化された該文書実現部内
の該タグを復号するタグ復号部として機能させるための
タグ文書の圧縮/復元プログラムが記録されていること
を特徴とする、タグ文書の圧縮/復元プログラムを記録
したコンピュータ読み取り可能な記録媒体。 - 【請求項42】 文書構造を示すタグを定義した文書型
定義部と該文書型定義部に定義されている該タグを用い
て記述された文書実現部とを有するタグ文書を符号化し
て圧縮する一方、符号化された該タグ文書を復号して復
元するタグ文書の圧縮/復元プログラムを記録したコン
ピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
抽出するタグ抽出部と、該タグ抽出部により抽出された
該タグに基づいて該文書型定義部内の該タグに所定の符
号を割り当ててタグ符号/復号表を作成するタグ符号/
復号表作成部と、入力された該文書実現部のデータが該
タグ抽出部により抽出された該タグであるか否かを判別
するタグ判別部と、該タグ判別部において上記の入力デ
ータが該タグであると判別されると該タグ符号/復号表
に基づいて該入力データを符号化する一方、該タグ判別
部において該入力データが該タグでないと判別されると
該入力データを所定の符号化方式で符号化する符号化処
理部と、該タグ判別部において上記の入力データが該タ
グであると判別されると該入力データの符号化前にタグ
の符号化を示す特殊コードを出力する特殊コード出力部
と、該符号化処理部から出力される符号化データが該特
殊コードであるか否かを判別する特殊コード判別部と、
該特殊コード判別部において該符号化データが該特殊コ
ードであると判別されると該特殊コードの後に該符号化
処理部から出力される符号化データを該タグ符号/復号
表に基づいて復号する一方、該特殊コード判別部におい
て該符号化データが該特殊コードでないと判別されると
該符号化データを所定の復号方式で復号する復号処理部
として機能させるためのタグ文書の圧縮/復元プログラ
ムが記録されていることを特徴とする、タグ文書の圧縮
/復元プログラムを記録したコンピュータ読み取り可能
な記録媒体。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21091597A JP3859313B2 (ja) | 1997-08-05 | 1997-08-05 | タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US09/050,104 US6330574B1 (en) | 1997-08-05 | 1998-03-30 | Compression/decompression of tags in markup documents by creating a tag code/decode table based on the encoding of tags in a DTD included in the documents |
| EP98302590A EP0896284A1 (en) | 1997-08-05 | 1998-04-02 | Compressing and decompressing data |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21091597A JP3859313B2 (ja) | 1997-08-05 | 1997-08-05 | タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1153349A true JPH1153349A (ja) | 1999-02-26 |
| JP3859313B2 JP3859313B2 (ja) | 2006-12-20 |
Family
ID=16597179
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21091597A Expired - Fee Related JP3859313B2 (ja) | 1997-08-05 | 1997-08-05 | タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US6330574B1 (ja) |
| EP (1) | EP0896284A1 (ja) |
| JP (1) | JP3859313B2 (ja) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002044348A (ja) * | 2000-07-28 | 2002-02-08 | Murata Mach Ltd | ファクシミリサーバ |
| JP2002044347A (ja) * | 2000-07-28 | 2002-02-08 | Murata Mach Ltd | ネットワークシステム |
| JP2003263461A (ja) * | 2002-03-08 | 2003-09-19 | Just Syst Corp | 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム |
| JP2004015743A (ja) * | 2002-06-11 | 2004-01-15 | Vehicle Information & Communication System Center | 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法 |
| JP2004514966A (ja) * | 2000-10-17 | 2004-05-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Mpeg−7インスタンス用の二進フォーマット |
| JP2004528737A (ja) * | 2000-11-07 | 2004-09-16 | ユーアイエボルーション・インコーポレーテッド | 構成要素発生頻度に基づく圧縮形式でデータ構造を送信および受信するための方法および装置 |
| JP2005018672A (ja) * | 2003-06-30 | 2005-01-20 | Hitachi Ltd | 構造化文書の圧縮方法 |
| JP2007141247A (ja) * | 2005-11-21 | 2007-06-07 | Sap Ag | 電子ビジネス通信におけるデータ要素の使用の追跡 |
| JP2016134754A (ja) * | 2015-01-19 | 2016-07-25 | 富士通株式会社 | 変換処理プログラム、情報処理装置および変換処理方法 |
Families Citing this family (103)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6311223B1 (en) * | 1997-11-03 | 2001-10-30 | International Business Machines Corporation | Effective transmission of documents in hypertext markup language (HTML) |
| JP4003854B2 (ja) * | 1998-09-28 | 2007-11-07 | 富士通株式会社 | データ圧縮装置及び復元装置並びにその方法 |
| US6635088B1 (en) * | 1998-11-20 | 2003-10-21 | International Business Machines Corporation | Structured document and document type definition compression |
| US6964011B1 (en) * | 1998-11-26 | 2005-11-08 | Canon Kabushiki Kaisha | Document type definition generating method and apparatus, and storage medium for storing program |
| GB9911099D0 (en) * | 1999-05-13 | 1999-07-14 | Euronet Uk Ltd | Compression/decompression method |
| JP2000339312A (ja) * | 1999-05-31 | 2000-12-08 | Toshiba Corp | 文書編集システム及びタグ情報管理テーブル作成方法 |
| JP4776050B2 (ja) * | 1999-07-13 | 2011-09-21 | ソニー株式会社 | 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法 |
| AU8035100A (en) * | 1999-09-10 | 2001-04-10 | General Instrument Corporation | Method and apparatus for compressing scripting language content |
| US6732330B1 (en) * | 1999-09-30 | 2004-05-04 | International Business Machines Corporation | Scripting language blocks to support multiple scripting languages in a single web page |
| US7266766B1 (en) | 1999-09-30 | 2007-09-04 | International Business Machines Corporation | Method for developing a custom tagbean |
| US6981212B1 (en) | 1999-09-30 | 2005-12-27 | International Business Machines Corporation | Extensible markup language (XML) server pages having custom document object model (DOM) tags |
| US6981211B1 (en) | 1999-09-30 | 2005-12-27 | International Business Machines Corporation | Method for processing a document object model (DOM) tree using a tagbean |
| US6718516B1 (en) | 1999-09-30 | 2004-04-06 | International Business Machines Corporation | Method for verifying context between multiple related XML tags in document object model (DOM) |
| US6675354B1 (en) | 1999-11-18 | 2004-01-06 | International Business Machines Corporation | Case-insensitive custom tag recognition and handling |
| JP3368883B2 (ja) * | 2000-02-04 | 2003-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
| US6883137B1 (en) * | 2000-04-17 | 2005-04-19 | International Business Machines Corporation | System and method for schema-driven compression of extensible mark-up language (XML) documents |
| US6789229B1 (en) | 2000-04-19 | 2004-09-07 | Microsoft Corporation | Document pagination based on hard breaks and active formatting tags |
| US7814408B1 (en) * | 2000-04-19 | 2010-10-12 | Microsoft Corporation | Pre-computing and encoding techniques for an electronic document to improve run-time processing |
| KR100933387B1 (ko) | 2000-04-24 | 2009-12-22 | 비자 인터내셔날 써비스 어쏘시에이션 | 온라인 지불인 인증 서비스 |
| US7600183B2 (en) * | 2000-06-16 | 2009-10-06 | Olive Software Inc. | System and method for data publication through web pages |
| US7080314B1 (en) * | 2000-06-16 | 2006-07-18 | Lucent Technologies Inc. | Document descriptor extraction method |
| US6938204B1 (en) * | 2000-08-31 | 2005-08-30 | International Business Machines Corporation | Array-based extensible document storage format |
| US6904562B1 (en) * | 2000-08-31 | 2005-06-07 | International Business Machines Corporation | Machine-oriented extensible document representation and interchange notation |
| US20020138518A1 (en) * | 2000-12-27 | 2002-09-26 | Kddi Corporation | Method and system for code processing of document data |
| US7415669B1 (en) | 2001-02-27 | 2008-08-19 | Open Invention Network | Method and apparatus for viewing electronic commerce-related documents |
| US7036072B1 (en) | 2001-12-18 | 2006-04-25 | Jgr Acquisition, Inc. | Method and apparatus for declarative updating of self-describing, structured documents |
| US20020138526A1 (en) * | 2001-03-20 | 2002-09-26 | International Business Machines Corporation | Javascript code optimizer |
| US7134075B2 (en) * | 2001-04-26 | 2006-11-07 | International Business Machines Corporation | Conversion of documents between XML and processor efficient MXML in content based routing networks |
| FR2826754B1 (fr) * | 2001-06-29 | 2004-02-06 | Canon Kk | Procede et dispositif d'indexation reppresente avec un langage de balisage |
| US20030121005A1 (en) * | 2001-12-20 | 2003-06-26 | Axel Herbst | Archiving and retrieving data objects |
| EP1324221A3 (en) * | 2001-12-21 | 2003-12-03 | Sap Ag | Storing data objects either in database or in archive |
| JP3997790B2 (ja) * | 2002-02-15 | 2007-10-24 | コニカミノルタビジネステクノロジーズ株式会社 | プログラム及びスタイルシート選択装置 |
| JP3888621B2 (ja) * | 2002-02-21 | 2007-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書処理システム、文書処理方法及びプログラム |
| GB2385686A (en) * | 2002-02-25 | 2003-08-27 | Oracle Corp | Mark-up language conversion |
| US7707120B2 (en) * | 2002-04-17 | 2010-04-27 | Visa International Service Association | Mobile account authentication service |
| US7032170B2 (en) * | 2002-06-03 | 2006-04-18 | General Electric Company | Creating data structures from a form file and creating a web page in conjunction with corresponding data structures |
| US8645862B2 (en) * | 2002-06-28 | 2014-02-04 | International Business Machines Corporation | Displaying and executing web services in multiple content domains |
| AU2003250302A1 (en) * | 2002-07-15 | 2004-03-03 | Siemens Aktiengesellschaft | Method and devices for encoding/decoding structured documents, especially xml documents |
| AU2003267149B2 (en) | 2002-09-10 | 2010-03-11 | Visa International Service Association | Data authentication and provisioning method and system |
| US7409440B1 (en) | 2002-12-12 | 2008-08-05 | F5 Net Works, Inc. | User defined data items |
| US7296263B1 (en) * | 2002-12-12 | 2007-11-13 | F5 Networks, Inc. | Method and system for performing operations on data using XML streams |
| US7415665B2 (en) * | 2003-01-15 | 2008-08-19 | At&T Delaware Intellectual Property, Inc. | Methods and systems for compressing markup language files |
| WO2004073278A1 (en) * | 2003-02-14 | 2004-08-26 | Research In Motion Limited | System and method of compact messaging in network communications |
| CN100578942C (zh) * | 2003-02-14 | 2010-01-06 | 捷讯研究有限公司 | 用于压缩以结构化定义语言表达的无线应用程序的系统和方法 |
| US7308458B2 (en) | 2003-06-11 | 2007-12-11 | Wtviii, Inc. | System for normalizing and archiving schemas |
| US7890852B2 (en) | 2003-06-26 | 2011-02-15 | International Business Machines Corporation | Rich text handling for a web application |
| EP1654675A1 (en) * | 2003-07-08 | 2006-05-10 | Telefonaktiebolaget LM Ericsson (publ) | Method for compressing markup languages files, by replacing a long word with a shorter word |
| US7039394B2 (en) * | 2003-11-25 | 2006-05-02 | Good Technology, Inc. | Communication system and method for compressing information sent by a communication device to a target portable communication device |
| US8762283B2 (en) | 2004-05-03 | 2014-06-24 | Visa International Service Association | Multiple party benefit from an online authentication service |
| JP2005327154A (ja) * | 2004-05-17 | 2005-11-24 | Fujitsu Ltd | Htmlファイル処理方法及びプログラム |
| US7735001B2 (en) * | 2005-02-11 | 2010-06-08 | Fujitsu Limited | Method and system for decoding encoded documents |
| US20060288028A1 (en) * | 2005-05-26 | 2006-12-21 | International Business Machines Corporation | Decompressing electronic documents |
| CN101529807B (zh) * | 2006-11-02 | 2011-02-02 | 中兴通讯股份有限公司 | 一种网管系统通用的接口实现方法及其系统 |
| US7836396B2 (en) * | 2007-01-05 | 2010-11-16 | International Business Machines Corporation | Automatically collecting and compressing style attributes within a web document |
| US20090044101A1 (en) * | 2007-08-07 | 2009-02-12 | Wtviii, Inc. | Automated system and method for creating minimal markup language schemas for a framework of markup language schemas |
| US8121117B1 (en) | 2007-10-01 | 2012-02-21 | F5 Networks, Inc. | Application layer network traffic prioritization |
| JP5379372B2 (ja) | 2007-11-15 | 2013-12-25 | キヤノン株式会社 | データ圧縮装置、データ伸長装置およびデータ圧縮方法 |
| US20100146410A1 (en) * | 2008-12-10 | 2010-06-10 | Barrett Kreiner | Markup language stream compression using a data stack |
| US9558164B1 (en) | 2008-12-31 | 2017-01-31 | F5 Networks, Inc. | Methods and system for converting WSDL documents into XML schema |
| US8438558B1 (en) | 2009-03-27 | 2013-05-07 | Google Inc. | System and method of updating programs and data |
| JP5507295B2 (ja) * | 2009-06-05 | 2014-05-28 | 株式会社ミツトヨ | 信号処理装置、および信号変換伝送システム |
| US10721269B1 (en) | 2009-11-06 | 2020-07-21 | F5 Networks, Inc. | Methods and system for returning requests with javascript for clients before passing a request to a server |
| US8806056B1 (en) | 2009-11-20 | 2014-08-12 | F5 Networks, Inc. | Method for optimizing remote file saves in a failsafe way |
| US11140178B1 (en) | 2009-11-23 | 2021-10-05 | F5 Networks, Inc. | Methods and system for client side analysis of responses for server purposes |
| US9069731B2 (en) * | 2009-12-29 | 2015-06-30 | Olive Software Inc. | System and method for providing online versions of print-medium publications |
| US9420049B1 (en) | 2010-06-30 | 2016-08-16 | F5 Networks, Inc. | Client side human user indicator |
| US9503375B1 (en) | 2010-06-30 | 2016-11-22 | F5 Networks, Inc. | Methods for managing traffic in a multi-service environment and devices thereof |
| US8347100B1 (en) | 2010-07-14 | 2013-01-01 | F5 Networks, Inc. | Methods for DNSSEC proxying and deployment amelioration and systems thereof |
| US10296653B2 (en) | 2010-09-07 | 2019-05-21 | F5 Networks, Inc. | Systems and methods for accelerating web page loading |
| WO2012158854A1 (en) | 2011-05-16 | 2012-11-22 | F5 Networks, Inc. | A method for load balancing of requests' processing of diameter servers |
| US8396836B1 (en) | 2011-06-30 | 2013-03-12 | F5 Networks, Inc. | System for mitigating file virtualization storage import latency |
| US8463850B1 (en) | 2011-10-26 | 2013-06-11 | F5 Networks, Inc. | System and method of algorithmically generating a server side transaction identifier |
| US10230566B1 (en) | 2012-02-17 | 2019-03-12 | F5 Networks, Inc. | Methods for dynamically constructing a service principal name and devices thereof |
| US9244843B1 (en) | 2012-02-20 | 2016-01-26 | F5 Networks, Inc. | Methods for improving flow cache bandwidth utilization and devices thereof |
| US9020912B1 (en) | 2012-02-20 | 2015-04-28 | F5 Networks, Inc. | Methods for accessing data in a compressed file system and devices thereof |
| WO2013163648A2 (en) | 2012-04-27 | 2013-10-31 | F5 Networks, Inc. | Methods for optimizing service of content requests and devices thereof |
| US10033837B1 (en) | 2012-09-29 | 2018-07-24 | F5 Networks, Inc. | System and method for utilizing a data reducing module for dictionary compression of encoded data |
| US9578090B1 (en) | 2012-11-07 | 2017-02-21 | F5 Networks, Inc. | Methods for provisioning application delivery service and devices thereof |
| US10375155B1 (en) | 2013-02-19 | 2019-08-06 | F5 Networks, Inc. | System and method for achieving hardware acceleration for asymmetric flow connections |
| US9876507B2 (en) | 2013-02-22 | 2018-01-23 | Sap Se | Semantic compression of structured data |
| US9497614B1 (en) | 2013-02-28 | 2016-11-15 | F5 Networks, Inc. | National traffic steering device for a better control of a specific wireless/LTE network |
| US10187317B1 (en) | 2013-11-15 | 2019-01-22 | F5 Networks, Inc. | Methods for traffic rate control and devices thereof |
| US11838851B1 (en) | 2014-07-15 | 2023-12-05 | F5, Inc. | Methods for managing L7 traffic classification and devices thereof |
| CN105323103B (zh) * | 2014-08-01 | 2019-11-05 | 中兴通讯股份有限公司 | 网络运维系统及其兼容网管系统报文变化的方法 |
| US10182013B1 (en) | 2014-12-01 | 2019-01-15 | F5 Networks, Inc. | Methods for managing progressive image delivery and devices thereof |
| US11895138B1 (en) | 2015-02-02 | 2024-02-06 | F5, Inc. | Methods for improving web scanner accuracy and devices thereof |
| US10834065B1 (en) | 2015-03-31 | 2020-11-10 | F5 Networks, Inc. | Methods for SSL protected NTLM re-authentication and devices thereof |
| US10505818B1 (en) | 2015-05-05 | 2019-12-10 | F5 Networks. Inc. | Methods for analyzing and load balancing based on server health and devices thereof |
| US11350254B1 (en) | 2015-05-05 | 2022-05-31 | F5, Inc. | Methods for enforcing compliance policies and devices thereof |
| US10476992B1 (en) | 2015-07-06 | 2019-11-12 | F5 Networks, Inc. | Methods for providing MPTCP proxy options and devices thereof |
| US11757946B1 (en) | 2015-12-22 | 2023-09-12 | F5, Inc. | Methods for analyzing network traffic and enforcing network policies and devices thereof |
| US10404698B1 (en) | 2016-01-15 | 2019-09-03 | F5 Networks, Inc. | Methods for adaptive organization of web application access points in webtops and devices thereof |
| US12464021B1 (en) | 2016-01-20 | 2025-11-04 | F5, Inc. | Methods for providing secure access using preemptive measures and devices thereof |
| US10797888B1 (en) | 2016-01-20 | 2020-10-06 | F5 Networks, Inc. | Methods for secured SCEP enrollment for client devices and devices thereof |
| US11178150B1 (en) | 2016-01-20 | 2021-11-16 | F5 Networks, Inc. | Methods for enforcing access control list based on managed application and devices thereof |
| US10412198B1 (en) | 2016-10-27 | 2019-09-10 | F5 Networks, Inc. | Methods for improved transmission control protocol (TCP) performance visibility and devices thereof |
| US11063758B1 (en) | 2016-11-01 | 2021-07-13 | F5 Networks, Inc. | Methods for facilitating cipher selection and devices thereof |
| US10505792B1 (en) | 2016-11-02 | 2019-12-10 | F5 Networks, Inc. | Methods for facilitating network traffic analytics and devices thereof |
| US10812266B1 (en) | 2017-03-17 | 2020-10-20 | F5 Networks, Inc. | Methods for managing security tokens based on security violations and devices thereof |
| US11122042B1 (en) | 2017-05-12 | 2021-09-14 | F5 Networks, Inc. | Methods for dynamically managing user access control and devices thereof |
| US11343237B1 (en) | 2017-05-12 | 2022-05-24 | F5, Inc. | Methods for managing a federated identity environment using security and access control data and devices thereof |
| US11223689B1 (en) | 2018-01-05 | 2022-01-11 | F5 Networks, Inc. | Methods for multipath transmission control protocol (MPTCP) based session migration and devices thereof |
| US12003422B1 (en) | 2018-09-28 | 2024-06-04 | F5, Inc. | Methods for switching network packets based on packet data and devices |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB928070A (en) * | 1962-02-12 | 1963-06-06 | Mine Safety Appliances Co | Pipe flaring tool |
| US5179378A (en) * | 1991-07-30 | 1993-01-12 | University Of South Florida | Method and apparatus for the compression and decompression of data using Lempel-Ziv based techniques |
| US5590317A (en) | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
| US5442350A (en) | 1992-10-29 | 1995-08-15 | International Business Machines Corporation | Method and means providing static dictionary structures for compressing character data and expanding compressed data |
| JPH08255155A (ja) | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
| US5663721A (en) * | 1995-03-20 | 1997-09-02 | Compaq Computer Corporation | Method and apparatus using code values and length fields for compressing computer data |
| JPH0981763A (ja) * | 1995-07-07 | 1997-03-28 | Oki Data:Kk | 文字・イメージ混在データの圧縮方法及び装置 |
| US5893109A (en) * | 1996-03-15 | 1999-04-06 | Inso Providence Corporation | Generation of chunks of a long document for an electronic book system |
| JP3305191B2 (ja) * | 1996-03-19 | 2002-07-22 | 富士通株式会社 | 文書管理装置及びデータ圧縮方法及びデータ復元方法 |
| US5673322A (en) * | 1996-03-22 | 1997-09-30 | Bell Communications Research, Inc. | System and method for providing protocol translation and filtering to access the world wide web from wireless or low-bandwidth networks |
| US5890172A (en) * | 1996-10-08 | 1999-03-30 | Tenretni Dynamics, Inc. | Method and apparatus for retrieving data from a network using location identifiers |
| US5999949A (en) * | 1997-03-14 | 1999-12-07 | Crandall; Gary E. | Text file compression system utilizing word terminators |
| US5946697A (en) * | 1997-04-22 | 1999-08-31 | Microsoft Corporation | Rapid transfer of HTML files |
| US5991713A (en) * | 1997-11-26 | 1999-11-23 | International Business Machines Corp. | Efficient method for compressing, storing, searching and transmitting natural language text |
-
1997
- 1997-08-05 JP JP21091597A patent/JP3859313B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-30 US US09/050,104 patent/US6330574B1/en not_active Expired - Fee Related
- 1998-04-02 EP EP98302590A patent/EP0896284A1/en not_active Withdrawn
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002044348A (ja) * | 2000-07-28 | 2002-02-08 | Murata Mach Ltd | ファクシミリサーバ |
| JP2002044347A (ja) * | 2000-07-28 | 2002-02-08 | Murata Mach Ltd | ネットワークシステム |
| JP2004514966A (ja) * | 2000-10-17 | 2004-05-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Mpeg−7インスタンス用の二進フォーマット |
| JP2004528737A (ja) * | 2000-11-07 | 2004-09-16 | ユーアイエボルーション・インコーポレーテッド | 構成要素発生頻度に基づく圧縮形式でデータ構造を送信および受信するための方法および装置 |
| JP2003263461A (ja) * | 2002-03-08 | 2003-09-19 | Just Syst Corp | 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム |
| JP2004015743A (ja) * | 2002-06-11 | 2004-01-15 | Vehicle Information & Communication System Center | 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法 |
| JP2005018672A (ja) * | 2003-06-30 | 2005-01-20 | Hitachi Ltd | 構造化文書の圧縮方法 |
| JP2007141247A (ja) * | 2005-11-21 | 2007-06-07 | Sap Ag | 電子ビジネス通信におけるデータ要素の使用の追跡 |
| JP2016134754A (ja) * | 2015-01-19 | 2016-07-25 | 富士通株式会社 | 変換処理プログラム、情報処理装置および変換処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0896284A1 (en) | 1999-02-10 |
| JP3859313B2 (ja) | 2006-12-20 |
| US6330574B1 (en) | 2001-12-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3859313B2 (ja) | タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP3305191B2 (ja) | 文書管理装置及びデータ圧縮方法及びデータ復元方法 | |
| JP3337633B2 (ja) | データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| US5999949A (en) | Text file compression system utilizing word terminators | |
| US7277878B2 (en) | Variable length file header apparatus and system | |
| US8712977B2 (en) | Computer product, information retrieval method, and information retrieval apparatus | |
| JP3421700B2 (ja) | データ圧縮装置及び復元装置並びにその方法 | |
| US6020972A (en) | System for performing collective symbol-based compression of a corpus of document images | |
| JP4003854B2 (ja) | データ圧縮装置及び復元装置並びにその方法 | |
| KR100490240B1 (ko) | 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체 | |
| JPS59231683A (ja) | データ圧縮方法 | |
| US8954400B2 (en) | Method, system and program product for managing structured data | |
| US6834283B1 (en) | Data compression/decompression apparatus using additional code and method thereof | |
| US7379940B1 (en) | Focal point compression method and apparatus | |
| Vijayalakshmi et al. | LOSSLESS TEXT COMPRESSION FOR UNICODE TAMIL DOCUMENTS. | |
| JPH10261969A (ja) | データ圧縮方法および装置 | |
| JP2006100973A (ja) | データ圧縮装置、及びデータ伸長装置 | |
| US8244677B2 (en) | Focal point compression method and apparatus | |
| JPH0546358A (ja) | テキストデータの圧縮方法 | |
| JPH0546357A (ja) | テキストデータの圧縮方法および復元方法 | |
| Rincy et al. | Preprocessed text compression method for Malayalam text files | |
| JP3325326B2 (ja) | 電子ファイリング装置 | |
| JP4329493B2 (ja) | 辞書データ圧縮装置、電子辞書装置及びプログラム | |
| JPH0969785A (ja) | データ圧縮方法及びデータ圧縮装置 | |
| JP2004013680A (ja) | 文字コード圧縮・復元装置および同方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040701 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051213 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060515 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060912 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060919 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |