JPH1153349A - タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1153349A
JPH1153349A JP9210915A JP21091597A JPH1153349A JP H1153349 A JPH1153349 A JP H1153349A JP 9210915 A JP9210915 A JP 9210915A JP 21091597 A JP21091597 A JP 21091597A JP H1153349 A JPH1153349 A JP H1153349A
Authority
JP
Japan
Prior art keywords
tag
document
unit
code
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9210915A
Other languages
English (en)
Other versions
JP3859313B2 (ja
Inventor
Kimitaka Murashita
君孝 村下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21091597A priority Critical patent/JP3859313B2/ja
Priority to US09/050,104 priority patent/US6330574B1/en
Priority to EP98302590A priority patent/EP0896284A1/en
Publication of JPH1153349A publication Critical patent/JPH1153349A/ja
Application granted granted Critical
Publication of JP3859313B2 publication Critical patent/JP3859313B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 タグ文書内のタグを考慮してその文書の圧縮
および復元を行なうことにより、タグ文書の圧縮率を向
上してそのデータ量を削減できるようにする。 【解決手段】 入力されたタグ文書の文書型定義部を走
査してタグを抽出するタグ抽出部30と、このタグ抽出
部30により抽出されたタグに基づいて、文書型定義部
内のタグに所定の符号を割り当ててタグ符号表を作成す
るタグ符号表作成部40と、このタグ符号表作成部40
により作成されたタグ符号表に基づいて、文書実現部内
のタグを符号化するタグ符号化部60とをそなえるよう
に構成する。

Description

【発明の詳細な説明】
【0001】(目次) 発明の属する技術分野 従来の技術(図31〜図33) 発明が解決しようとする課題 課題を解決するための手段 発明の実施の形態 (a)第1実施形態の説明(図1〜図5) (b)第2実施形態の説明(図6〜図9) (c)第3実施形態の説明(図10〜図16) (d)第4実施形態の説明(図17〜図20) (e)第5実施形態の説明(図21〜図25) (f)第6実施形態の説明(図26〜図29) (g)その他(図30) 発明の効果
【0002】
【発明の属する技術分野】本発明は、データの圧縮およ
び復元技術に関し、特に、タグと呼ばれる文書構造を定
義した制御文字(列)に従い構造化されて記述された文
書(タグ文書)の圧縮および復元に用いて好適な、装
置,方法および記録媒体に関する。
【0003】
【従来の技術】近年、コンピュータ(計算機)で扱う文
書の形式を統一する動きがある。これまで、計算機ある
いはアプリケーションによってばらばらであった文書の
形式を異なる計算機環境でも使用できるようにするもの
である。この代表的なものに、SGML(Standard Gen
eralized Markup Language)と呼ばれる1986年にI
SOが制定した文書形式の国際規格(ISO8879)
がある。SGML文書は図31に模式的に示すように、
SGML宣言部301,文書型定義部(DTD:Docume
nt Type Definision)302および文書実現値303の
3つの部分からなっている。
【0004】ここで、SGML宣言部301は、SGM
L文書を他のシステムで処理するのに必要な文字体系な
どを宣言する部分であり、DTD302は、文書の章や
節,タイトルなどの文書中の構造を定義する部分で、例
えば図32に示すような形式で記述されている。なお、
この図32に示すDTD302は、インターネットのW
WW(World Wide Web)の記述形式として普及している
SGMLの一種であるHTML(HyperText Markup Lan
guage)のDTDの一部である。
【0005】また、文書実現値303は、SGML文書
の本文で、筆者(ユーザ)がDTD302を参考にしな
がらコンピュータのエディタなどを用いて作成する部分
である。具体的に、この文書実現値303は、通常、タ
グと呼ばれる要素を示す制御用文字(列)を使用して記
述される。このタグは上述のDTD302で定義されて
おり、本文303中の各要素が何であるか(例えば、タ
イトルであるのか章であるのかなど)を表している。
【0006】図33はこの文書実現値303の記述例を
示す図であるが、この図33では、“<”と“>”ある
いは“</”と“>”とによって囲まれた文字列(<T
ITLE>,</TITLE>,<SECTION>,
</SECION>など)がタグである。そして、例え
ば、この図33に示すように、 <TITLE>発明(考案)明細書</TITLE> と記述された部分は、開始タグである<TITLE>と
終了タグである</TITLE>で囲まれた文字(列)
が要素(タイトル名)であることを表している。
【0007】なお、現在、公的機関を中心にこのSGM
Lを採用する動きが活発化していきている。特に、アメ
リカ国防総省では文書をSGMLで記述して納入するこ
とを義務付けており、日本でも特許庁のCD−ROM公
報としてSGMLを採用することを決めている。ところ
で、近年、文字コードやベクトル情報,画像情報など様
々な種類のデータが計算機で扱われるようになってきて
おり、扱われるデータ量も急速に増加してきている。こ
れに伴い、通常、計算機では、大量のデータを扱うとき
には、そのデータの中の冗長な部分を省いてデータ量を
圧縮することで、データの記憶容量を削減したり、デー
タの伝送を高速に行なえるようにしている。
【0008】ここで、データ圧縮技術にはいくつかの手
法があるが、ここでは、計算機上で使われているデータ
圧縮の適用例として、アーカイバと圧縮ドライブとにつ
いて説明する。まず、アーカイバは、1つあるいは複数
のデータファイルを圧縮すると同時に1つのファイルに
まとめるという手法であり、使用頻度の低いファイル
や、古いファイルなどに対してこのアーカイバを用いる
ことでファイル容量を削減することができる。また、パ
ソコン通信やインターネットなどでサーバがファイル
(データやアプリケーション等)を供給するとき、この
アーカイバを用いて全てのファイルを圧縮して1つにま
とめることで、通信コストと転送の手間を削減すること
もできる。
【0009】一方、圧縮ドライブは、計算機のハードデ
ィスク(HD)やフロッピーディスク(FD)などディ
スクシステム単位にデータの圧縮を行なう手法で、任意
のディスクドライブを指定することで、指定したドライ
ブ内の全てのファイルが圧縮されて保持される。通常、
この圧縮ドライブでは圧縮・復元処理は計算機のバック
グラウンドで処理され、ユーザの通常のオペレーション
(読み書き)で自動的に圧縮/復元(読み込みの時は復
元、書き込みの時は圧縮)が行なわれる。従って、ユー
ザはデータの圧縮/復元を全く意識しないため、見かけ
上指定したディスクシステムのサイズが増えたように見
える。
【0010】そして、具体的に、これらの適用例で用い
られる符号化方式としては、計算機上では文字や機械
語,画像,音声など様々なデータが扱われることから、
圧縮効率がデータの性質にあまり依存しないユニバーサ
ル符号化方式がよく用いられている。このユニバーサル
符号化方式には、さらに、文字の再現性を利用した辞書
型符号化方式と文字の出現確率を符号化する確率統計型
符号化方式とがあり、辞書型符号化方式は、過去に出現
した文字(列)をバッファ内に保存し、同じ文字(列)
が出現したとき、バッファ内の開始位置と一致長を符号
化データとして出力する。一方、確率統計型符号化方式
は、過去に出現した文字の出現確率(頻度)を計算し、
出現確率に応じた符号を出力する。辞書型符号化方式は
高速処理、確率統計型方式は高圧縮率が期待できる。
【0011】このように、データ圧縮技術は、計算機上
のデータ容量の削減や通信コストの削減などに日常的に
使われており、文書ファイルにおいても、文書全体を圧
縮して保持することで大量の文書を管理することができ
る。
【0012】
【発明が解決しようとする課題】ところで、SGML文
書の本文303では、文書に加えて文書内の各要素を定
義するタグが加わるため、文書のデータ量は増加する。
或るSGML文書について調査したところ、文書全体の
タグが占める割合は4割を超えていた。官公庁への提出
書類だけでなく、現在では製品に添付されるマニュアル
類もSGML文書化されてきている。このようなマニュ
アルは数十からときには数百ページにもわたることがあ
り、また頻繁に改版されるため、改版履歴も含めると、
そのデータ量は膨大なものとなる。
【0013】そこで、このようなSGML文書も通常の
文書や他の形式の文書の圧縮と同様に上述のユニバーサ
ル符号化方式や他の符号化方式を用いて圧縮すれば、あ
る程度、データ量を削減することができるが、いずれの
場合も、従来から使われている符号化方式をSGML文
書に適用しただけであり、文書全体の多くを占めている
タグを考慮した圧縮は行なっていないので、非常に、非
効率的である。
【0014】本発明は、このような課題に鑑み創案され
たもので、タグ文書内のタグを考慮してその文書の圧縮
および復元を行なうことにより、タグ文書の圧縮率を向
上してそのデータ量を削減できるようにすることを目的
とする。
【0015】
【課題を解決するための手段】このため、本発明のタグ
文書の圧縮装置は、文書構造を示すタグを定義した文書
型定義部と文書型定義部に定義されているタグを用いて
記述された文書実現部とを有するタグ文書を符号化して
圧縮するためのものであって、入力されたタグ文書の文
書型定義部を走査してタグを抽出するタグ抽出部と、こ
のタグ抽出部により抽出されたタグに基づいて、文書型
定義部内のタグに所定の符号を割り当ててタグ符号表を
作成するタグ符号表作成部と、このタグ符号表作成部に
より作成されたタグ符号表に基づいて、文書実現部内の
タグを符号化するタグ符号化部とをそなえたことを特徴
としている(請求項1)。
【0016】なお、上記のタグ符号化部は、同一の文書
型定義部を有する複数のタグ文書については、タグ抽出
部およびタグ符号表作成部において最初のタグ文書につ
いて作成されたタグ符号表に基づいて、全てのタグ文書
の文書実現部内のタグに対する符号化を行なうように構
成してもよい(請求項2)。また、本発明のタグ文書の
圧縮装置は、文書構造を示すタグを定義した文書型定義
部と文書型定義部に定義されているタグを用いて記述さ
れた文書実現部とを有するタグ文書を符号化して圧縮す
るためのものであって、入力されたタグ文書の文書型定
義部を走査してタグを抽出するタグ抽出部と、このタグ
抽出部により抽出されたタグに基づいて、文書型定義部
内のタグに所定の符号を割り当ててタグ符号表を作成す
るタグ符号表作成部と、入力された文書実現部のデータ
が上記のタグ抽出部により抽出されたタグであるか否か
を判別するタグ判別部と、このタグ判別部において上記
の入力データがタグであると判別されると、上記のタグ
符号表に基づいて入力データを符号化する一方、上記の
タグ判別部において入力データがタグでないと判別され
ると、入力データを所定の符号化方式で符号化する符号
化処理部と、上記のタグ判別部において上記の入力デー
タがタグであると判別されると、入力データの符号化前
に、タグの符号化を示す特殊コードをタグの復号側へ出
力する特殊コード出力部とをそなえたことを特徴として
いる(請求項3)。
【0017】ここで、上記の符号化処理部は、入力デー
タを上記のタグ符号表に基づいて符号化する第1符号化
部と、入力データを所定の符号化方式で符号化する第2
符号化部と、上記のタグ判別部において入力データがタ
グであると判別されると入力データを第1符号化部へ出
力する一方、上記のタグ判別部において入力データがタ
グでないと判別されると入力データを第2符号化部へ出
力する切り替え制御部とをそなえてもよい(請求項
4)。
【0018】また、上記のタグ符号表作成部は、上記の
タグ抽出部により抽出されたタグを記憶するタグ記憶部
を有し、上記タグのタグ記憶部における記憶箇所につい
ての情報をタグの符号として割り当てることにより上記
のタグ符号表を作成するように構成してもよい(請求項
5)。なお、上記の記憶箇所についての情報は、例え
ば、上記タグ記憶部のアドレス情報を含む情報で(請求
項6)、具体的には、上記タグ記憶部のアドレス情報と
タグの長さ情報とであってもよい(請求項7)。
【0019】さらに、上記のタグ符号表作成部は、上記
のタグ抽出部により抽出されたタグに所定の初期符号を
割り当てることによりタグの第1符号化用辞書をタグ符
号表として作成する第1符号化用辞書作成部と、上記の
符号化処理部によりタグが符号化されると、そのタグの
出現頻度に応じて、第1符号化用辞書作成部により作成
された第1符号化用辞書内の符号の更新を行なう符号化
用辞書更新部とをそなえてもよい(請求項8)。
【0020】また、上記のタグ符号表作成部は、上記の
タグ抽出部により抽出されたタグに基づいて文書実現部
内のタグの出現頻度を計数し、その計数結果に応じた符
号をタグに割り当てることによりタグの第2符号化用辞
書をタグ符号表として作成する第2符号化用辞書作成部
をそなえてもよい(請求項9)。なお、この場合、本圧
縮装置は、上記のタグの出現頻度に関する情報をタグの
復号側へ出力する出現頻度情報出力部をそなえてもよい
(請求項10)。
【0021】さらに、上記の第2符号化用辞書作成部
は、具体的に、上記のタグ抽出部により抽出されたタグ
と文書実現部内のタグとが一致するか否かを判定するこ
とにより文書実現部内のタグの出現頻度を計数するタグ
計数部と、このタグ計数部での計数結果に応じた符号を
生成する符号生成部と、この符号生成部により生成され
た符号を保持することにより第2符号化用辞書を作成す
る符号保持部とをそなえてもよい(請求項11)。
【0022】また、本発明のタグ文書の圧縮装置は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、入力されたタグ文書の文書型定義部を走査して
タグを抽出するタグ抽出部と、このタグ抽出部により抽
出されたタグに基づいて、文書型定義部内のタグに所定
の符号を割り当ててタグ符号表を作成するタグ符号表作
成部と、入力された文書実現部のデータがタグ抽出部に
より抽出されたタグであるか否かを判別するタグ判別部
と、このタグ判別部において上記の入力データがタグで
あると判別されると、上記のタグ符号表に基づいて入力
データを符号化する一方、上記のタグ判別部において入
力データがタグでないと判別されると、入力データを所
定の符号化方式で符号化する符号化処理部とをそなえた
ことを特徴としている(請求項12)。
【0023】なお、上記のタグ判別部は、タグ抽出部で
抽出されたタグに基づいてタグの始まりを示す開始タグ
を検出することにより入力データがタグであると判別す
るように構成してもよい(請求項13)。一方、本発明
のタグ文書の復元装置は、文書構造を示すタグを定義し
た文書型定義部と文書型定義部に定義されているタグを
用いて記述された文書実現部とを有する符号化後のタグ
文書を復号して復元するためのものであって、入力され
たタグ文書の文書型定義部を走査してタグを抽出するタ
グ抽出部と、このタグ抽出部により抽出されたタグに基
づいて、文書型定義部内のタグに所定の符号を割り当て
てタグ復号表を作成するタグ復号表作成部と、このタグ
復号表作成部により作成されたタグ復号表に基づいて、
符号化された文書実現部内のタグを復号するタグ復号部
とをそなえたことを特徴としている(請求項14)。
【0024】なお、上記のタグ復号部は、同一の文書型
定義部を有する複数のタグ文書については、上記のタグ
抽出部およびタグ復号表作成部を通じて最初のタグ文書
について作成されたタグ復号表に基づいて、全てのタグ
文書の文書実現部に対するタグの復号を行なうように構
成してもよい(請求項15)。また、本発明のタグ文書
の復元装置は、文書構造を示すタグを定義した文書型定
義部と文書型定義部に定義されているタグを用いて記述
された文書実現部とを有する符号化後のタグ文書を復号
して復元するためのものであって、入力されたタグ文書
の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて、
文書型定義部内のタグに所定の符号を割り当ててタグ復
号表を作成するタグ復号表作成部と、入力された符号化
データが、タグの符号化データが入力されることを示す
特殊コードであるか否かを判別する特殊コード判別部
と、この特殊コード判別部において符号化データが特殊
コードであると判別されると、その特殊コードの後に入
力される符号化データをタグ復号表に基づいて復号する
一方、上記の特殊コード判別部において符号化データが
特殊コードでないと判別されると、その符号化データを
所定の復号方式で復号する復号処理部とをそなえたこと
を特徴としている(請求項16)。
【0025】ここで、上記の復号処理部は、具体的に、
入力された符号化データを上記のタグ復号表に基づいて
復号する第1復号部と、入力された符号化データを所定
の復号方式で復号する第2復号部と、上記の特殊コード
判別部において符号化データが特殊コードであると判別
されるとその特殊コードの後に入力される符号化データ
を第1復号部へ出力する一方、上記の特殊コード判別部
において符号化データが特殊コードでないと判別される
とその符号化データを第2復号部へ出力する切り替え制
御部とをそなえてもよい(請求項17)。
【0026】また、上記のタグ復号表作成部は、上記の
タグ抽出部により抽出されたタグを記憶するタグ記憶部
を有し、上記タグのタグ記憶部における記憶箇所につい
ての情報をタグの符号として割り当てることによりタグ
復号表を作成するように構成してもよい(請求項1
8)。なお、上記の記憶箇所についての情報は、例え
ば、上記タグ記憶部のアドレス情報を含む情報で(請求
項19)、具体的には、上記のアドレス情報とタグの長
さ情報とであってもよい(請求項20)。
【0027】さらに、上記のタグ復号表作成部は、上記
のタグ抽出部により抽出されたタグに所定の初期符号を
割り当てることによりタグの第1復号用辞書をタグ復号
表を作成する第1復号用辞書作成部と、上記の復号処理
部によりタグが復号されると、そのタグの出現頻度に応
じて、上記の第1復号用辞書作成部により作成された第
1復号用辞書内の符号の更新を行なう復号用辞書更新部
とをそなえてもよい(請求項21)。
【0028】また、上記のタグ復号表作成部は、上記の
タグ抽出部により抽出されたタグとタグの出現頻度に関
する情報とに基づいて、タグの第2復号用辞書を作成す
る第2復号用辞書作成部をそなえてもよい(請求項2
2)。さらに、本発明のタグ文書の復元装置は、文書構
造を示すタグを定義した文書型定義部と文書型定義部に
定義されているタグを用いて記述された文書実現部とを
有する符号化後のタグ文書を復号して復元するためのも
のであって、入力されたタグ文書の文書型定義部を走査
してタグを抽出するタグ抽出部と、このタグ抽出部によ
り抽出されたタグに基づいて、文書型定義部内のタグに
所定の符号を割り当ててタグ復号表を作成するタグ復号
表作成部と、入力された符号化データがタグの符号化デ
ータであるか否かを判別するタグ符号判別部と、このタ
グ符号判別部において符号化データがタグであると判別
されると、上記のタグ復号表に基づいて符号化データを
復号する一方、上記のタグ符号判別部において符号化デ
ータがタグでないと判別されると、その符号化データを
所定の復号方式で復号する復号処理部とをそなえたこと
を特徴としている(請求項23)。
【0029】なお、上記のタグ符号判別部は、タグ抽出
部で抽出されたタグに基づいてタグの始まりを示す開始
タグを検出することにより符号化データがタグであると
判別するように構成してもよい(請求項24)。また、
本発明のタグ文書の圧縮/復元装置は、文書構造を示す
タグを定義した文書型定義部と文書型定義部に定義され
ているタグを用いて記述された文書実現部とを有するタ
グ文書を符号化して圧縮する一方、符号化されたタグ文
書を復号して復元するためのものであって、入力された
タグ文書の文書型定義部を走査してタグを抽出するタグ
抽出部と、このタグ抽出部により抽出されたタグに基づ
いて、文書型定義部内のタグに所定の符号を割り当てて
タグ符号/復号表を作成するタグ符号/復号表作成部
と、このタグ符号/復号表作成部により作成されたタグ
符号/復号表に基づいて、文書実現部内のタグを符号化
するタグ符号化部と、上記のタグ符号/復号表作成部に
より作成されたタグ符号/復号表に基づいて、上記のタ
グ符号化部によって符号化された文書実現部内のタグを
復号するタグ復号部とをそなえたことを特徴としている
(請求項25)。
【0030】さらに、本発明のタグ文書の圧縮/復元装
置は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、入力されたタグ文書の文書型定義部を走査
してタグを抽出するタグ抽出部と、このタグ抽出部によ
り抽出されたタグに基づいて、文書型定義部内のタグに
所定の符号を割り当ててタグ符号/復号表を作成するタ
グ符号/復号表作成部と、入力された文書実現部のデー
タが上記のタグ抽出部により抽出されたタグであるか否
かを判別するタグ判別部と、このタグ判別部において上
記の入力データがタグであると判別されると、上記のタ
グ符号/復号表に基づいて入力データを符号化する一
方、上記のタグ判別部において入力データがタグでない
と判別されると、入力データを所定の符号化方式で符号
化する符号化処理部と、上記のタグ判別部において上記
の入力データがタグであると判別されると、入力データ
の符号化前に、タグの符号化を示す特殊コードを出力す
る特殊コード出力部と、上記の符号化処理部から出力さ
れる符号化データが特殊コードであるか否かを判別する
特殊コード判別部と、この特殊コード判別部において符
号化データが特殊コードであると判別されると、その特
殊コードの後に符号化処理部から出力される符号化デー
タをタグ符号/復号表に基づいて復号する一方、上記の
特殊コード判別部において符号化データが特殊コードで
ないと判別されると、符号化処理部から出力される符号
化データを所定の復号方式で復号する復号処理部とをそ
なえたことを特徴としている(請求項26)。
【0031】また、本発明のタグ文書の圧縮方法は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、文書型定義部内のタグに所定の符号を割り当て
てタグ符号表を作成し、そのタグ符号表に基づいて、文
書実現部内のタグを符号化することを特徴としている
(請求項27)。
【0032】なお、このとき、同一の文書型定義部を有
する複数のタグ文書については、最初のタグ文書につい
て作成された上記のタグ符号表に基づいて、全てのタグ
文書の文書実現部内のタグに対する符号化を行なっても
よい(請求項28)。また、本発明のタグ文書の圧縮方
法は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ符号表を作成し、入力された文書実現部
のデータがタグである場合は、タグの符号化を示す特殊
コードをタグの復号側へ出力した後、上記のタグ符号表
に基づいて入力データを符号化する一方、入力データが
タグでない場合は入力データを所定の符号化方式で符号
化することを特徴としている(請求項29)。
【0033】さらに、本発明のタグ文書の圧縮方法は、
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有するタグ文書を符号化して圧縮するためのもの
であって、文書型定義部内のタグに所定の符号を割り当
ててタグ符号表を作成し、入力された文書実現部のデー
タがタグである場合は上記のタグ符号表に基づいて入力
データを符号化する一方、入力データがタグでない場合
は入力データを所定の符号化方式で符号化することを特
徴としている(請求項30)。
【0034】また、本発明のタグ文書の復元方法は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、そのタグ復号表に基づ
いて符号化された文書実現部内のタグを復号することを
特徴としている(請求項31)。
【0035】なお、このとき、同一の文書型定義部を有
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ復号表に基づいて、全てのタグ文書の
文書実現部に対するタグの復号を行なってもよい(請求
項32)。さらに、本発明のタグ文書の復元方法は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、入力された符号化デー
タが、タグの符号化データが入力されることを示す特殊
コードである場合は、その特殊コードの後に入力される
符号化データをタグ復号表に基づいて復号する一方、入
力された符号化データが特殊コードでない場合は、その
符号化データを所定の復号方式で復号することを特徴と
している(請求項33)。
【0036】また、本発明のタグ文書の復元方法は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、文書型定義部内のタグに所定の符号を
割り当ててタグ復号表を作成し、入力された符号化デー
タがタグの符号化データである場合は、上記のタグ復号
表に基づいて符号化データを復号する一方、入力された
符号化データがタグの符号化データでない場合は、その
符号化データを所定の復号方式で復号することを特徴と
している(請求項34)。
【0037】さらに、本発明のタグ文書の圧縮/復元方
法は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、文書型定義部内のタグに所定の符号を割り
当ててタグ符号/復号表を作成し、そのタグ符号/復号
表に基づいて文書実現部内のタグを符号化する一方、符
号化されたタグを上記のタグ符号/復号表に基づいて復
号することを特徴としている(請求項35)。
【0038】また、本発明のタグ文書の圧縮/復元方法
は、文書構造を示すタグを定義した文書型定義部と文書
型定義部に定義されているタグを用いて記述された文書
実現部とを有するタグ文書を符号化して圧縮する一方、
符号化されたタグ文書を復号して復元するためのもので
あって、文書型定義部内のタグに所定の符号を割り当て
てタグ符号/復号表を作成し、入力された文書実現部の
データがタグである場合は、タグの符号化を示す特殊コ
ードを出力した後、上記のタグ符号/復号表に基づいて
入力データを符号化する一方、入力データがタグでない
場合は、その入力データを所定の符号化方式で符号化す
るとともに、符号化データの復号に際しては、符号化デ
ータが特殊コードであれば、特殊コードの後の符号化デ
ータを上記のタグ符号/復号表に基づいて復号する一
方、符号化データが特殊コードでなければ、その符号化
データを所定の復号方式で復号することを特徴としてい
る(請求項36)。
【0039】さらに、本発明のタグ文書の圧縮プログラ
ムを記録したコンピュータ読み取り可能な記録媒体は、
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有するタグ文書を符号化して圧縮するためのもの
であって、上記のコンピュータを、入力されたタグ文書
の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて、
文書型定義部内のタグに所定の符号を割り当ててタグ符
号表を作成するタグ符号表作成部と、このタグ符号表作
成部により作成されたタグ符号表に基づいて、文書実現
部内のタグを符号化するタグ符号化部として機能させる
ためのタグ文書の圧縮プログラムが記録されていること
を特徴としている(請求項37)。
【0040】また、本発明のタグ文書の圧縮プログラム
を記録したコンピュータ読み取り可能な記録媒体は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有するタグ文書を符号化して圧縮するためのもので
あって、上記のコンピュータを、入力されたタグ文書の
文書型定義部を走査してタグを抽出するタグ抽出部と、
このタグ抽出部により抽出されたタグに基づいて、文書
型定義部内のタグに所定の符号を割り当ててタグ符号表
を作成するタグ符号表作成部と、入力された文書実現部
のデータがタグ抽出部により抽出されたタグであるか否
かを判別するタグ判別部と、このタグ判別部において上
記の入力データがタグであると判別されると、上記のタ
グ符号表に基づいて入力データを符号化する一方、上記
のタグ判別部において入力データがタグでないと判別さ
れると、その入力データを所定の符号化方式で符号化す
る符号化処理部と、上記のタグ判別部において上記の入
力データがタグであると判別されると、入力データの符
号化前に、タグの符号化を示す特殊コードをタグの復号
側へ出力する特殊コード出力部として機能させるための
タグ文書の圧縮プログラムが記録されていることを特徴
としている(請求項38)。
【0041】さらに、本発明のタグ文書の復元プログラ
ムを記録したコンピュータ読み取り可能な記録媒体は、
文書構造を示すタグを定義した文書型定義部と文書型定
義部に定義されているタグを用いて記述された文書実現
部とを有する符号化後のタグ文書を復号して復元するた
めのものであって、上記のコンピュータを、入力された
タグ文書の文書型定義部を走査してタグを抽出するタグ
抽出部と、このタグ抽出部により抽出されたタグに基づ
いて、文書型定義部内のタグに所定の符号を割り当てて
タグ復号表を作成するタグ復号表作成部と、このタグ復
号表作成部により作成されたタグ復号表に基づいて、符
号化された文書実現部内のタグを復号するタグ復号部と
して機能させるためのタグ文書の復元プログラムが記録
されていることを特徴としている(請求項39)。
【0042】また、本発明のタグ文書の復元プログラム
を記録したコンピュータ読み取り可能な記録媒体は、文
書構造を示すタグを定義した文書型定義部と文書型定義
部に定義されているタグを用いて記述された文書実現部
とを有する符号化後のタグ文書を復号して復元するため
のものであって、上記のコンピュータを、入力されたタ
グ文書の文書型定義部を走査してタグを抽出するタグ抽
出部と、このタグ抽出部により抽出されたタグに基づい
て、文書型定義部内のタグに所定の符号を割り当ててタ
グ復号表を作成するタグ復号表作成部と、入力された符
号化データが、タグの符号化データが入力されることを
示す特殊コードであるか否かを判別する特殊コード判別
部と、この特殊コード判別部において符号化データが特
殊コードであると判別されると、その特殊コードの後に
入力される符号化データをタグ復号表に基づいて復号す
る一方、上記の特殊コード判別部において符号化データ
が特殊コードでないと判別されると、その符号化データ
を所定の復号方式で復号する復号処理部として機能させ
るためのタグ文書の復元プログラムが記録されているこ
とを特徴としている(請求項40)。
【0043】さらに、本発明のタグ文書の圧縮/復元プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、文書構造を示すタグを定義した文書型定義部と文
書型定義部に定義されているタグを用いて記述された文
書実現部とを有するタグ文書を符号化して圧縮する一
方、符号化されたタグ文書を復号して復元するためのも
のであって、上記のコンピュータを、入力されたタグ文
書の文書型定義部を走査してタグを抽出するタグ抽出部
と、このタグ抽出部により抽出されたタグに基づいて文
書型定義部内のタグに所定の符号を割り当ててタグ符号
/復号表を作成するタグ符号/復号表作成部と、このタ
グ符号/復号表作成部により作成されたタグ符号/復号
表に基づいて文書実現部内のタグを符号化するタグ符号
化部と、上記のタグ符号/復号表作成部により作成され
たタグ符号/復号表に基づいて上記のタグ符号化部によ
って符号化された文書実現部内のタグを復号するタグ復
号部として機能させるためのタグ文書の圧縮/復元プロ
グラムが記録されていることを特徴としている(請求項
41)。
【0044】また、本発明のタグ文書の圧縮/復元プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、文書構造を示すタグを定義した文書型定義部と文書
型定義部に定義されているタグを用いて記述された文書
実現部とを有するタグ文書を符号化して圧縮する一方、
符号化されたタグ文書を復号して復元するためのもので
あって、上記のコンピュータを、入力されたタグ文書の
文書型定義部を走査してタグを抽出するタグ抽出部と、
このタグ抽出部により抽出されたタグに基づいて文書型
定義部内のタグに所定の符号を割り当ててタグ符号/復
号表を作成するタグ符号/復号表作成部と、入力された
文書実現部のデータがタグ抽出部により抽出されたタグ
であるか否かを判別するタグ判別部と、このタグ判別部
において上記の入力データがタグであると判別されると
上記のタグ符号/復号表に基づいて入力データを符号化
する一方、上記のタグ判別部において入力データがタグ
でないと判別されると入力データを所定の符号化方式で
符号化する符号化処理部と、上記のタグ判別部において
上記の入力データがタグであると判別されると入力デー
タの符号化前にタグの符号化を示す特殊コードを出力す
る特殊コード出力部と、上記の符号化処理部から出力さ
れる符号化データが特殊コードであるか否かを判別する
特殊コード判別部と、この特殊コード判別部において符
号化データが特殊コードであると判別されるとその特殊
コードの後に符号化処理部から出力される符号化データ
をタグ符号/復号表に基づいて復号する一方、上記の特
殊コード判別部において上記符号化データが特殊コード
でないと判別されるとその符号化データを所定の復号方
式で復号する復号処理部として機能させるためのタグ文
書の圧縮/復元プログラムが記録されていることを特徴
としている(請求項42)。
【0045】
【発明の実施の形態】
(a)本発明の第1実施形態の説明 図1は本発明の第1実施形態としてのSGML文書(タ
グ文書)の圧縮装置および復元装置が適用されるコンピ
ュータシステムを示すブロック図であるが、この図1に
示すように、本実施形態におけるシステムは、パーソナ
ルコンピュータ(以下、単に「パソコン」という)2,
3がモデムやTA(Terminal Adapter)などのネットワー
ク接続装置4を介してインターネットなどの所要のネッ
トワーク6に接続された構成となっている。
【0046】そして、パソコン2,3は、この図1に示
すように、それぞれ、パソコン本体21,ディスプレイ
(表示画面)22,キーボード23およびマウス(ポイ
ンティングデバイス)24などから構成されており、例
えば、ユーザは、パソコン2,3のエディタ上でキーボ
ード23を通じて前述のSGML文書(タグ文書)を作
成したり、作成した文書をCPU(Central Processing
Unit)26の処理によって本体21内のハードディスク
(記憶装置)27に文書ファイルとして保存したりネッ
トワーク6を介して他のパソコン3,2に提供(ファイ
ル転送)したりすることができるようになっている。
【0047】ここで、上記のSGML文書を上述のごと
くハードディスク27に保存したりネットワーク6を介
して転送する場合、前述したようにそのままでは非常に
データ量が多いので、メモリ容量の節約,データ伝送
量,データ伝送時間の削減のためにも、符号化して圧縮
してから保存/伝送を行ない、その文書をディスプレイ
22に表示したりプリントアウトしたりする場合に圧縮
された文書を復元(復号)することが望ましい。
【0048】特に、複数種類のSGML文書が流通する
ようなシステム(例えば、CALSシステムなど)の場
合、SGML文書の本文303以外の部分も毎回送らな
ければならないので、そのまま文書を送るよりも、符号
化して圧縮してから送ることで、伝送時間の削減、文書
の送信側(サーバ側)/受信側(クライアント側)の記
憶装置の容量の削減などが期待できる。
【0049】このため、本実施形態では、SGML文書
の圧縮プログラムや復元プログラムがハードディスク2
7内に記憶されており、CPU26がこれらのプログラ
ムに従って動作することにより、パソコン2,3(具体
的にはCPU26)がSGML文書を符号化して圧縮す
る圧縮装置あるいは符号化されて圧縮されたSGML文
書を復号して復元する復元装置として使用されるように
なっている。
【0050】ただし、以下では、便宜上、パソコン2が
SGML文書の圧縮装置,パソコン3がSGML文書の
復元装置として使用されるものとして説明を行なう。ま
た、上記の各プログラムは、ユーザがパソコン2,3を
使って作成することによりハードディスク27に予め保
存しておくことも可能であるし、フロッピーディスク
(FD)11やCD−ROM12,MO(光磁気ディス
ク)13などの各種の記録媒体15に予め記録されてい
るものをディスクドライブ25を通じて読み取ることに
よりハードディスク27に保存することも可能である。
【0051】(a1)SGML文書の圧縮装置(符号化
側)の説明 図2は上述のSGML文書の圧縮装置としてのパソコン
2の要部の構成を示すブロック図で、この図2に示すよ
うに、本実施形態のパソコン(以下、圧縮装置という)
2は、SGMLタグ抽出部30,タグ符号表作成部4
0,タグ判別部50及びタグ符号化部60を有して構成
されている。
【0052】ここで、SGMLタグ抽出部30は、例え
ば、CPU26がハードディスク27内に文書ファイル
として記憶されているSGML文書を読み出すことによ
り入力されたSGML文書のDTD(文書型定義部)3
02(図31参照)を走査してDTD302内に定義さ
れているタグを抽出するものであり、タグ符号表作成部
40は、このタグ抽出部により抽出されたタグに基づい
て、DTD302内のタグに所定の符号を割り当ててタ
グ符号表を作成するものである。
【0053】また、タグ判別部50は、DTD302と
ともに入力されたSGML文書の文書実現値(本文)3
03のデータ(文字もしくは文字列)がタグであるか否
かを判別するもので、入力データがタグであればそのデ
ータをタグ符号化部60へ出力する一方、入力データが
タグでなければそのデータをそのまま外部(例えば、ハ
ードディスク27やネットワーク6)へ出力するように
なっている。
【0054】さらに、タグ符号化部60は、タグ符号表
作成部40により作成されたタグ符号表に基づいて、S
GML文書の本文303内のタグを符号化するもので、
ここでは、タグ判別部50から入力されたデータ(タ
グ)に対応する上記符号表における符号をタグの符号と
して出力するようになっている。上述のごとく構成され
た本第1実施形態の圧縮装置2では、図3に示すよう
に、まず、SGMLタグ抽出部30がSGML文書のD
TD302を走査してタグを抽出し(ステップA1)、
タグ符号表作成部40が抽出されたタグに所定の符号を
割り当てることによりタグの符号表を作成する(ステッ
プA2)。そして、入力されたSGML文書の本文30
3のデータがタグであるとタグ判別部50において判別
されると、そのデータは、タグ符号化部60において上
記タグ符号表に基づいて符号化されて出力される(ステ
ップA3)。
【0055】例えば、SGMLタグ抽出部30が<TI
TLE>及び</TITLE>というタグを抽出し、タ
グ符号表作成部40において各タグにそれぞれ<TIT
LE>=“00”,</TITLE>=“10”という
符号が割り当てられてタグ符号表が作成されたとする。
このとき、例えば、本文303として、 <TITLE>発明(考案)明細書</TITLE> が入力されたとすると、タグ判別部50では、まず、<
TITLE>がタグであると判別するので、このタグは
タグ符号化部60へ出力される。タグ符号化部60で
は、入力されたタグ(<TITLE>)を基に上記のタ
グ符号表を参照することにより<TITLE>に対応す
る符号“00”を得て、この“00”を<TITLE>
の符号として出力する。
【0056】次に、タグ判別部50では、上記のタグ
(<TITLE>)に続いて入力されたデータがタグで
あるか否かを判別するが、今、上記の<TITLE>に
続いて入力されるのは「発明(考案)明細書」であるの
で、タグ判別部50は、入力データがタグ以外であると
判別し、その入力データを符号化せずにそのまま外部へ
出力する。
【0057】その後、タグ判別部50では、さらに、入
力されたデータがタグであるか否かを判別するが、今、
上記の「発明(考案)明細書」の後に入力されるのは<
/TITLE>(終了タグ)であるので、タグ判別部5
0は、そのタグをタグ符号化部60へ出力し、タグ符号
化部60では、入力されたタグ(</TITLE>)を
基に上記のタグ符号表を参照することにより</TIT
LE>に対応する符号“10”を得て、この“10”を
</TITLE>の符号として出力する。
【0058】この結果、最終的に、上記の本文303
は、“00発明(考案)明細書10”というようにタグ
のみが符号化され圧縮されて出力される。ただし、本実
施形態ではDTD302自体は符号化されずに出力され
る。このように、本実施形態のSGML文書の圧縮装置
2によれば、DTD302内のタグに所定の符号を割り
当ててタグ符号表を作成し、そのタグ符号表に基づい
て、本文303内のタグを符号化するので、通常、SG
ML文書内に多数使用されているタグを極めて効率良く
圧縮することができ、SGML文書のデータ量を大幅に
削減することができる。
【0059】従って、SGML文書を保存するためのメ
モリ容量が節約されるとともに、SGML文書をネット
ワーク6を通じて伝送する際のデータ伝送量やデータ伝
送時間も大幅に削減される。 (a2)SGML文書の復元装置(復号側)の説明 次に、図4は上述のSGML文書の復元装置としてのパ
ソコン3の要部の構成を示すブロック図であるが、この
図4に示すパソコン(以下、復元装置という)3は、図
2により上述した圧縮装置2で符号化(圧縮)されたS
GML文書を復号(復元)するためのもので、本実施形
態では、SGMLタグ抽出部30′,タグ復号表作成部
40′,タグ判別部50′及びタグ復号部60′を有し
て構成されている。
【0060】ここで、SGMLタグ抽出部30′は、例
えば、ネットワーク6を介して圧縮装置2から入力され
たDTD302(ただし、符号化されていないもの)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、タグ復号表作成部40′は、このタ
グ抽出部30′により抽出されたタグに基づいて、DT
D302内のタグに所定の符号を割り当ててタグ復号表
を作成するものである。
【0061】また、タグ判別部50′は、DTD302
とともに入力された符号化側でタグのみ符号化されたS
GML文書の本文303のデータがタグであるか否かを
判別するもので、入力データがタグの符号であればその
符号化データをタグ復号部60′へ出力する一方、入力
データがタグの符号以外であればその入力データをその
まま外部(例えば、ハードディスク27)へ出力するよ
うになっている。
【0062】さらに、タグ復号部60′は、タグ復号表
作成部40′により作成されたタグ復号表に基づいて、
符号化された本文303内のタグを復号するもので、こ
こでは、タグ判別部50から入力されたデータ(タグの
符号)に対応する上記復号表におけるタグを復号結果と
して出力するようになっている。上述のごとく構成され
た本第1実施形態の復元装置3では、図5に示すよう
に、まず、SGMLタグ抽出部30′がSGML文書の
DTD302を走査してタグを抽出し(ステップB
1)、タグ復号表作成部40′が抽出されたタグに符号
化側と同じ符号を割り当てることによりタグの復号表を
作成する(ステップB2)。そして、入力されたSGM
L文書の本文303のデータがタグの符号であるとタグ
判別部50′において判別されると、そのデータは、タ
グ符号化部60′において上記タグ復号表に基づいてタ
グが復号されて出力される(ステップB3)。
【0063】例えば、符号化側と同様に、タグ抽出部3
0′及びタグ復号表作成部40′によって、<TITL
E>=“00”,</TITLE>=“10”というよ
うに各タグに符号が割り当てられたタグ復号表が作成さ
れたとする。このとき、例えば、入力データとして、符
号化側で符号化された“00発明(考案)明細書10”
が入力されたとすると、タグ判別部50′では、まず、
“00”がタグの符号であるであると判別するので、こ
の符号化データはタグ符号化部60′へ出力される。
【0064】タグ符号化部60′では、入力されたタグ
の符号“00”を基に上記のタグ復号表を参照すること
により“00”に対応するタグ<TITLE>を得て、
この<TITLE>を符号“00”の復号結果として出
力する。次に、タグ判別部50では、上記の“00”に
続いて入力されたデータがタグの符号であるか否かを判
別するが、今、上記の“00”に続いて入力されるのは
「発明(考案)明細書」であるので、タグ判別部50′
は、入力データがタグの符号以外であると判別し、その
符号化データは復号せずにそのまま外部へ出力する。
【0065】その後、タグ判別部50′では、さらに、
続いて入力されたデータがタグの符号であるか否かを判
別するが、今、上記の「発明(考案)明細書」の後に入
力されるのは“10”というタグの符号であるので、タ
グ判別部50′は、そのタグの符号をタグ復号部60′
へ出力し、タグ復号部60′では、入力されたタグの符
号“10”を基に上記のタグ復号表を参照することによ
り符号“10”に対応するタグ(</TITLE>)を
得て、この</TITLE>を符号“10”の復号結果
として出力する。
【0066】この結果、最終的に、タグのみ符号化され
て入力されたSGML文書の本文303は、“<TIT
LE>発明(考案)明細書</TITLE>”というよ
うに元の状態に復元されて出力される。このように、本
実施形態のSGML文書の復元装置3によれば、DTD
302内のタグに符号化側と同じ符号を割り当ててタグ
復号表を作成し、そのタグ復号表に基づいて符号化され
たSGML文書の本文303内のタグを復号するので、
SGML文書内の符号化されたタグを極めて効率良く、
且つ、正確に復号(復元)することができる。
【0067】(b)第2実施形態の説明 (b1)SGML文書の圧縮装置(符号化側)の説明 図6は本発明の第2実施形態としてのタグ文書の圧縮装
置の要部の構成を示すブロック図であるが、この図6に
示す圧縮装置2は、図2に示すものに比して、DTD比
較部70及びコントローラ80を有して構成されている
点が異なる。
【0068】ここで、上記のDTD比較部70は、新規
に入力されたSGML文書のDTD302とそのDTD
302の直前に入力された過去のSGML文書のDTD
302とを比較して、各DTD302の一致/不一致信
号をコントローラ80へ出力するもので、本実施形態で
は、入力されたDTD302を順次保持しながら新規入
力されたDTD302との比較を行なうようになってい
る。
【0069】また、コントローラ80は、このDTD比
較部70からの一致/不一致信号に応じてタグ符号表作
成部40での符号表作成処理を制御するもので、ここで
は、DTD比較部70から各DTD302の一致信号を
受けるとタグ符号表作成部40に対し過去に作成したタ
グ符号表を維持するよう指示する一方、各DTD302
の不一致信号を受けるとタグ符号表作成部40に対しタ
グ符号表の更新を指示するものである。
【0070】つまり、本実施形態のタグ符号表作成部4
0は、同一のDTD302を有するSGML文書が入力
される間はそれら複数の文書のうち最初の文書について
作成したタグ符号表をそのまま維持し、異なるDTD3
02を有するSGML文書が入力された時点で、第1実
施形態と同様に、SGMLタグ抽出部30によってその
DTD302から抽出されたタグに所定の符号を割り当
てることにより、タグ符号表を再作成するようになって
いるのである。
【0071】上述のごとく構成された本実施形態におけ
る圧縮装置2の動作を図7に示すフローチャート(ステ
ップC1〜C4)を参照しながら説明すると、まず、圧
縮装置2は、DTD302が新規に入力されると、その
DTD302と過去に入力されたDTD302とをDT
D比較部70にて比較する(ステップC1)。この比較
の結果、各DTD302が一致していなければ(ステッ
プC1でNOと判定されれば)、DTD比較部70は、
不一致信号をコントローラ80に出力するとともに、新
規に入力された上記のDTD302をSGMLタグ抽出
部30へ出力する。
【0072】SGMLタグ抽出部30は、受け取ったD
TD302を走査してそのDTD302内に定義されて
いるタグを抽出し(ステップC2)、タグ符号表作成部
40へ出力する。このとき、タグ符号表作成部40は、
上述のごとくDTD比較部70からコントローラ80へ
不一致信号が出力されていることから、コントローラ8
0からタグ符号表の更新指示を受けるので、SGMLタ
グ抽出部30で抽出されたタグに所定の符号を割り当て
ることにより、タグ符号表を再作成する(ステップC
3)。
【0073】そして、このとき、DTD302とともに
入力されたSGML文書の文書実現値303は、タグ判
別部50へ入力され、タグ判別部50は、入力された文
書実現値303がタグであればそのタグをタグ符号化部
60へ出力する。タグ符号化部60は、受け取ったタグ
に対応する符号をタグ符号表作成部40で作成されたタ
グ符号表から取得し、その符号をタグの符号として出力
する(ステップC4)。
【0074】一方、上記のDTD比較部70での比較の
結果、各DTDが一致していた場合(ステップC1でY
ESと判定された場合)、DTD比較部70は、コント
ローラ80へ一致信号を出力し、コントローラ80は、
タグ符号表作成部40にタグ符号表の維持(非更新)を
指示する。これにより、タグ符号化部60は、過去に作
成されたタグ符号表に基づいて、上記と同様に文書実現
値303内のタグの符号化を行なう(ステップC4)。
【0075】このように、本実施形態におけるSGML
文書の圧縮装置2によれば、同一のDTD302を有す
る複数のSGML文書については、それらのうちの最初
の文書について作成されたタグ符号表に基づいて、全て
のSGML文書の本文303内のタグに対する符号化を
行なうので、各SGML文書毎にタグ符号表を作成する
必要がなく、タグの符号化処理を極めて高速に行なうこ
とができる。
【0076】なお、SGMLを利用する環境によって
は、文書の提供先(サーバ)と受け手(クライアント)
との間で、どのようなDTD302に基づくSGML文
書が送られてくるかが既に確立されている場合がある。
このような場合は本文303以外を毎回相手に渡す必要
はない。例えば、インターネットのWWWで使用されて
いるHTML形式の文書のように予め使用するDTD3
02の形式が統一されており全ての文書のDTD302
が同じであるような場合は、コントローラ80の制御に
より、最初にタグ符号表作成部40で作成されたタグ符
号表を固定的に使用することで、さらに高速にタグの符
号化処理を行なうことができる。
【0077】また、上述した実施形態では、タグ符号表
の維持/更新をコントローラ80がタグ符号表作成部4
0でのタグ符号表の作成処理を直接的に制御することで
行なっているが、SGMLタグ抽出部30でのタグの抽
出処理を制御する(各DTD302の比較結果に応じて
タグの抽出を許可/禁止する)ことで行なってもよい。
【0078】(b2)SGML文書の復元装置(復号
側)の説明 図8は本発明の第2実施形態としてのSGML文書の復
元装置の要部の構成を示すブロック図であるが、この図
8に示す復元装置3は、図6及び図7により上述した圧
縮装置2の復号側に相当するもので、図4に示す構成
に、図6により上述したものとそれぞれ同様のDTD比
較部70′及びコントローラ80′が設けられた構成と
なっている。
【0079】これにより、本実施形態におけるSGML
文書の復元装置3では、符号化されたタグの復号につい
ては符号化側と同様に、同一のDTD302を有するS
GML文書が入力される間はそれら複数の文書のうち最
初の文書についてタグ復号表作成部40′にて作成され
たタグ復号表に基づいてタグ復号部60′がタグの復号
を行ない、異なるDTD302を有するSGML文書が
入力されると、タグ復号表作成部40′によってタグ復
号表を再作成し、そのタグ復号表に基づいてタグ復号部
60′がタグの復号を行なう。
【0080】以下、上述の動作を図9に示すフローチャ
ート(ステップD1〜D4)参照しがら詳述すると、ま
ず、復元装置3は、DTD302が新規に入力される
と、そのDTD302と過去に入力されたDTD302
とをDTD比較部70′にて比較する(ステップD
1)。この比較の結果、各DTD302が一致していな
ければ(ステップD1でNOと判定されれば)、DTD
比較部70′は、不一致信号をコントローラ80′に出
力するとともに、新規に入力された上記のDTD302
をSGMLタグ抽出部30′へ出力する。
【0081】SGMLタグ抽出部30′は、受け取った
DTD302を走査してそのDTD302内に定義され
ているタグを抽出し(ステップD2)、タグ復号表作成
部40′へ出力する。このとき、タグ復号表作成部4
0′は、上述のごとくDTD比較部70′からコントロ
ーラ80′へ不一致信号が出力されていることから、コ
ントローラ80′からタグ符号表の更新指示を受けるの
で、SGMLタグ抽出部30′で抽出されたタグに所定
の符号を割り当てることにより、タグ復号表を再作成す
る(ステップD3)。
【0082】そして、このとき、DTD302とともに
入力された符号化後のSGML文書の文書実現値303
は、タグ判別部50′へ入力され、タグ判別部50′
は、入力された文書実現値303の符号がタグであれば
その符号をタグ復号部60′へ出力する。タグ復号部6
0′は、受け取った符号に対応するシンボル(タグ)を
タグ復号表作成部40′で作成されたタグ復号表から取
得し、そのタグを復号結果として出力する(ステップD
4)。
【0083】一方、上記のDTD比較部70′での比較
の結果、各DTDが一致していた場合(ステップD1で
YESと判定された場合)、DTD比較部70′は、コ
ントローラ80′へ一致信号を出力し、コントローラ8
0′は、タグ復号表作成部40′にタグ復号表の維持
(非更新)を指示する。これにより、タグ復号部60′
は、過去に作成されたタグ復号表に基づいて、上記と同
様に文書実現値303内の符号化されたタグの復号を行
なう(ステップD4)。
【0084】このように、本実施形態におけるSGML
文書の復元装置3によれば、同一のDTD302を有す
る複数のSGML文書については、それらのうちの最初
のSGML文書について作成されたタグ復号表に基づい
て、全てのSGML文書の本文303に対するタグの復
号を行なうので、各SGML文書毎にタグ復号表を作成
する必要がなく、タグの復号処理を極めて高速に行なう
ことができる。
【0085】なお、上記の復元装置3についても、HT
ML形式の文書のように予め使用するDTD302の形
式が統一されており全ての文書のDTD302が同じで
あるような場合は、コントローラ80′の制御により、
最初にタグ復号表作成部40′で作成されたタグ復号表
を固定的に使用することで、さらに高速にタグの復号処
理を行なうことができる。
【0086】また、上述した実施形態では、タグ復号表
の維持/更新をコントローラ80′がタグ復号表作成部
40′でのタグ復号表の作成処理を直接的に制御するこ
とで行なっているが、SGMLタグ抽出部30′でのタ
グの抽出処理を制御する(各DTD302の比較結果に
応じてタグの抽出を許可/禁止する)ことで行なっても
よい。
【0087】(c)第3実施形態の説明 (c1)SGML文書の圧縮装置(符号化側)の説明 図10は本発明の第3実施形態としてのSGML文書の
圧縮装置の要部の構成を示すブロック図であるが、この
図10に示すように、本第3実施形態におけるSGML
文書の圧縮装置2は、SGMLタグ抽出部100,メモ
リ101,SGMLタグ検出部102,符号化処理部1
03a及びCOC出力部106を有して構成されてい
る。
【0088】ここで、SGMLタグ抽出部100は、入
力されたSGML文書のDTD302(図31参照)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、メモリ(タグ記憶部)101は、タ
グ符号表作成部としての機能を果たすもので、SGML
タグ抽出部100により抽出されたタグを順次記憶し、
そのメモリ101におけるタグのアドレス情報と長さ情
報とをタグの符号として割り当てることによりタグ符号
表を作成するようになっている。
【0089】例えば、文書実現値(本文)303とし
て、図11に示すような文書が入力されたとする(ただ
し、文書中の1文字は1バイトとする)と、SGMLタ
グ抽出部100により抽出された“TITLE”,“/
TITLE”,“SECTION”,“/SECTIO
N”,“SUBSECTION”,“/SUBSECT
ION”などの各タグが、メモリ101のアドレス“0
0”番地から順次記憶され、<TITLE>には“0
0”番地とそのタグの長さ(5バイト)を示す“05”
とを組み合わせた“0005”が符号として割り当てら
れ、<SECTION>には“0c(HEX)”番地と
そのタグの長さ(7バイト)を示す“07”とを組み合
わせた“0c07”が符号として割り当てられることに
なる。
【0090】また、SGMLタグ検出部(タグ判別部)
102は、入力されたSGML文書の本文303のデー
タがSGMLタグ抽出部100により抽出されたタグで
あるか否かを判別することにより本文303内で使用さ
れているタグを検出するもので、本実施形態では、入力
された本文303のデータ(以下、本文データというこ
とがある)がメモリ101に記憶されているタグと一致
するか否かをみることでタグの検出を行なうようになっ
ている。
【0091】さらに、符号化処理部103aは、上記の
SGMLタグ検出部102において上記の入力データが
タグであると判別されると、タグ符号表として作成され
たメモリ101の記憶内容に基づいてその入力データを
符号化する一方、SGMLタグ検出部102において入
力データがタグでないと判別されると、その入力データ
を所定の符号化方式(ユニバーサル符号化方式など)で
符号化するものである。
【0092】このため、上記の符号化処理部103a
は、この図10に示すように、さらに、タグ符号化部1
03,第2符号化部104及び切り替え制御部105を
有して構成されている。ここで、タグ符号化部(第1符
号化部)103は、入力データを上記のタグ符号表(メ
モリ101の記憶内容)に基づいて符号化するものであ
り、第2符号化部104は、入力データをユニバーサル
符号化方式などの所定の符号化方式で符号化するもので
あり、切り替え制御部105は、SGMLタグ検出部1
02において入力データがタグであると判別されるとそ
の入力データをタグ符号化部103へ出力する一方、S
GMLタグ検出部102において入力データがタグでな
いと判別されるとその入力データを第2符号化部104
へ出力するものである。
【0093】なお、上記のタグ符号化部103は、タグ
の符号化が終了すると、SGMLタグ検出部102にそ
の旨を通知するようになっており、SGMLタグ検出部
102はこの通知を受けると、再度、次の本文データに
対するタグの検出処理を行なうようになっている。ま
た、COC出力部(特殊コード出力部)106は、SG
MLタグ検出部102において上記の入力データがタグ
であると判別されると、その入力データのタグ符号化部
103での符号化前に、タグの符号化(符号化方式の切
り替え)を示す特殊コード(COC:Change Of Codin
g) を後述するタグの復号側へ出力するものである。
【0094】以下、上述のごとく構成された本第3実施
形態におけるSGML文書の圧縮装置2の動作につい
て、図12に示すフローチャート(ステップE1〜E
6)を参照しながら詳述する。まず、圧縮装置2は、S
GMLタグ抽出部100により、入力されたDTD30
2を走査してそのDTD302内に定義されているタグ
を抽出し、抽出したタグを、順次、メモリ101に記憶
することにより、そのタグにメモリ101のアドレス情
報とタグの長さ情報とをタグの符号として割り当ててタ
グ符号表を作成する(ステップE1)。
【0095】そして、圧縮装置2は、SGMLタグ検出
部102により、入力された本文データがタグであるか
否かを判別し(ステップE2)、タグであれば、COC
出力部106にCOCの出力を指示するとともに、符号
化処理部103aの切り替え制御部105に本文データ
のタグ符号化部103側への出力切り替えを指示する。
これにより、COC出力部106は後述する復号側へC
OCを出力し(ステップE2のYESルートからステッ
プE3)、タグ符号化部103は、入力データ(タグ)
を基にメモリ101を参照し、そのタグに対応する符号
(アドレスと長さ)をタグの符号として出力する(ステ
ップE4)。
【0096】一方、上記のステップE2において、符号
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップE2のNOルートか
らステップE5)。
【0097】そして、圧縮装置2は、符号化が終了した
か否かを判定し(ステップE5)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップE2からの処理を繰り返す(ステップ
E6のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップE6のYESルート)。ここ
で、例えば図13に示すように、本文データとして“今
日は<B>晴れ</B>です。”が入力されたと仮定し
(ステップF1)、タグ<B>,</B>にそれぞれ符
号“0”,“1”が割り当てられてタグ符号表101a
が作成され、これらのタグ以外の各文字にそれぞれ図1
3中に示すような符号が割り当てられている(第2符号
化部104用の符号表104aが作成されている)もの
とする。
【0098】すると、上記の本文データは、各タグ<B
>,</B>の前にCOC(“10”)が挿入されたの
ち、これらの各タグがタグ符号化部103によってタグ
符号表101aに基づいて符号化されるとともに(ステ
ップF2)、タグ以外の文字がそれぞれ第2符号化部1
04によって符号表104aに基づいて符号化される。
【0099】この結果、上記の本文データは、最終的
に、この図13中に示すように、16進(HEX)表示
で“ff9e7b2e2b”、2進表示で“11111/1111
0/0111/10/0/11110/1100/10/1/1101/0110/010 ”という
符号に符号化される(ステップF3)。以上のように、
本第3実施形態におけるSGML文書の圧縮装置2によ
れば、入力された本文データがタグである場合は、CO
Cをタグの復号側へ出力した後、タグ符号化部103が
タグ符号表に基づいて入力データを符号化する一方、本
文データがタグでない場合はその本文データを第2符号
化部104が所定の符号化方式で符号化するので、SG
ML文書内のタグのみならずタグ以外の文書さえも極め
て効率良く圧縮することができ、より大幅にSGML文
書のデータ量を削減することができる。
【0100】また、COC出力部106がCOCを復号
側へ出力することにより、後述するように、タグの復号
側ではタグの判別を容易に行なうことができるので、タ
グの復号処理の高速化にも大いに寄与している。なお、
このCOC出力部106は、復号側での処理を考慮しな
ければ省略することも可能である。また、本実施形態の
符号化処理部103aは、タグ符号化部103,第2符
号化部104及び切り替え制御部105をそなえること
により、その機能が簡素な構成で容易に実現されてい
る。
【0101】さらに、本実施形態のタグ符号表作成部と
してのメモリ101は、タグのメモリ101内でのアド
レスと長さについての情報タグの符号として割り当てる
ことによりタグ符号表を作成するので、タグをメモリ1
01に順次記憶してゆくだけで各タグに符号が割り当て
られることになり、メモリ101を1つ設けるという極
めて簡素な構成で、且つ、高速に、タグ符号表を作成す
ることができる。
【0102】また、後述するように、タグの復号側で
は、これらのアドレスと長さとを基に、容易に、復号す
べきタグを特定することができ、タグの復号処理の高速
化にも大いに寄与している。ただし、タグに割り当てる
符号は、必ずしも、上記のアドレスと長さについての情
報でなくてもよく、少なくともアドレス情報を含む情報
であればよい。
【0103】(c2)SGML文書の復元装置(復号
側)の説明 図14は本発明の第3実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図14に示す復元装置2は、図10〜図13により上述
した圧縮装置2の復号側に相当するもので、SGMLタ
グ抽出部200,メモリ201,COC判別部202及
び復号処理部203aを有して構成されている。
【0104】ここで、SGMLタグ抽出部200は、入
力されたSGML文書のDTD302(図31参照)を
走査してそのDTD302内に定義されているタグを抽
出するものであり、メモリ201は、タグ復号表作成部
としての機能を果たすもので、符号化側と同様に、SG
MLタグ抽出部200により抽出されたタグを順次記憶
し、そのメモリ201におけるタグのアドレス情報と長
さ情報とをタグの符号として割り当てることによりタグ
復号表を作成するようになっている。
【0105】また、COC判別部(特殊コード判別部)
202は、入力された符号化データが、タグの符号化デ
ータが入力されることを示すCOCであるか否かを判別
するものであり、復号処理部203aは、このCOC判
別部202において入力された符号化データがCOCで
あると判別されると、そのCOCの後に入力される符号
化データ(つまり、タグの符号)をタグ復号表に基づい
て復号する一方、COC判別部202において入力され
た符号化データがCOCでないと判別されると、その符
号化データを所定の復号方式で復号するものである。
【0106】このため、上記の復号処理部203aは、
この図14に示すように、タグ復号部203,第2復号
部204及び切り替え制御部205を有して構成されて
いる。ここで、タグ復号部(第1復号部)203は、入
力された符号化データを上記のタグ復号表として作成さ
れたメモリ201の記憶内容に基づいて復号するもので
あり、第2復号部204は、入力された符号化データを
所定の復号方式で復号するものであるが、この場合は、
符号化側に対応する復号方式で復号処理を行なうように
なっている。
【0107】また、切り替え制御部205は、COC判
別部202において入力された符号化データがCOCで
あると判別されるとそのCOCの後に入力される符号化
データをタグ復号部203へ出力する一方、COC判別
部202において入力された符号化データがCOCでな
いと判別されるとその符号化データを第2復号部204
へ出力するものである。
【0108】以下、上述のごとく構成された本第3実施
形態におけるSGML文書の復元装置3の動作につい
て、図15に示すフローチャート(ステップG1〜G
5)を参照しながら詳述する。まず、復元装置3は、S
GMLタグ抽出部200により、入力されたDTD30
2を走査してそのDTD302内に定義されているタグ
を抽出し、抽出したタグを、順次、メモリ201に記憶
することにより、そのタグにメモリ101のアドレス情
報とタグの長さ情報とをタグの符号として割り当てるこ
とにより符号化側と同じ記憶内容のタグ復号表を作成す
る(ステップG1)。
【0109】そして、復元装置3は、COC判別部20
2により、入力された符号化データがCOCであるか否
かを判別し(ステップG2)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データ(タグの符号:アドレスと長さ)を基にメモリ2
01を参照し、その符号化データに対応するシンボル
(タグ)を復号結果として出力する(ステップG3)。
【0110】一方、上記のステップG2において、復号
対象の符号化データがCOCでなければ、復元装置3
は、切り替え制御部205に符号化データの第2復号部
203側への出力切り替えを指示し、第2復号部204
によって、その符号化データ(文字または文字列)を符
号化側に対応する復号方式で復号する(ステップG2の
NOルートからステップG4)。
【0111】そして、復元装置3は、復号が終了したか
否かを判定し(ステップG5)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップG2からの処理を繰り返す(ステップ
G5のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップG5のYESルート)。以上の
ように、本第3実施形態におけるSGML文書の復元装
置3によれば、入力された符号化データがCOCである
場合は、そのCOCの後に入力される符号化データをタ
グ復号部203がタグ復号表に基づいて復号する一方、
入力された符号化データがCOCでない場合は、その符
号化データを第2復号部204が符号化側に対応する復
号方式で復号するので、タグだけでなく符号化されたタ
グ以外の文書をも極めて効率良く、且つ、正確に復元す
ることができる。
【0112】また、COCを検出するだけで、復号対象
の符号化データがタグであるか否かを判別することがで
きるので、タグの復号処理を大幅に高速化することが可
能になっている。さらに、本実施形態の復号処理部20
3aは、タグ復号部203,第2復号部204及び切り
替え制御部205をそなえることにより、その機能が簡
素な構成で容易に実現されている。
【0113】また、上記のタグ復号表作成部としてのメ
モリ201は、タグのメモリ201におけるアドレス情
報とそのタグの長さ情報とをタグの符号として割り当て
ることによりタグ復号表を作成するので、タグをメモリ
201に順次記憶してゆくだけで自動的に各タグに符号
が割り当てられて符号化側と同一の記憶内容を有するタ
グ復号表を作成することができ、極めて簡素な構成で、
高速且つ正確にタグの復号処理を行なうことができる。
【0114】そして、本実施形態では、上述のように、
メモリ201のアドレス情報とタグの長さ情報とがその
ままタグの符号として使用されているので、符号化側に
おいてタグがアドレス情報とタグの長さ情報からなる符
号として符号化されていればその符号化データに対応す
るタグをメモリ201から容易に取り出すことができ、
タグの復号処理の大幅高速化に大いに寄与している。
【0115】なお、タグに割り当てる符号は、必ずし
も、上記のアドレスと長さについての情報でなくてもよ
く、符号化側と対応していれば、少なくともアドレス情
報を含む情報であればよい。ところで、上述の復元装置
3は、COC検出タイミングでタグの復号とタグ以外の
文字(列)の復号とを切り替えるようにしているが、タ
グ以外の文字(列)群の符号とタグの符号とが一致しな
いように符号の割り当てを行なえば、例えば図16に示
すように、上記のCOC判別部202の代わりに、入力
された符号化データがタグであるか否かを判別するSG
MLタグ判別部202′をそなえることにより、タグ自
体の検出タイミングでタグの復号とタグ以外の文字
(列)の復号とを切り替えることができる。
【0116】(d)第4実施形態の説明 (d1)SGML文書の圧縮装置(符号化側)の説明 図17は本発明の第4実施形態としてのSGML文書の
圧縮装置の要部の構成を示すブロック図であるが、この
図17に示すように、本第4実施形態におけるSGML
文書の圧縮装置2は、図10に示すメモリ101に代え
て、タグ符号表作成部101′として、辞書作成部10
7及び辞書更新部108をそなえた構成となっている。
【0117】ここで、辞書作成部(第1符号化用辞書作
成部)107は、SGMLタグ抽出部100により抽出
されたタグに所定の初期符号を割り当てることによりタ
グの辞書(統計型動的辞書:第1符号化用辞書)をタグ
符号表として作成するものであり、辞書更新部(符号化
用辞書更新部)108は、符号化処理部103a(タグ
符号化部103)によりタグが符号化されると、そのタ
グの出現頻度に応じて、辞書作成部107により作成さ
れた辞書内の符号の更新を行なうもので、本実施形態で
は、出現頻度の高いタグほど短いそのタグには短い符号
(出現頻度に反比例した長さの符号)が割り当てられる
ようになっている。
【0118】つまり、本第4実施形態のSGML文書の
圧縮装置2は、タグの符号化の際に使用する辞書(符号
表)をタグの符号化毎にそのタグの出現頻度を考慮しな
がら更新して、タグの符号化を行なうようになっている
のである。以下、上述のごとく構成された本第4実施形
態におけるSGML文書の圧縮装置2の動作について、
図18に示すフローチャート(ステップH1〜H8)を
参照しながら詳述する。
【0119】まず、圧縮装置2は、SGMLタグ抽出部
100によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップH1)、タグ符号表作成部101′の辞書作成部1
07へ出力する。辞書作成部107は、入力されたタグ
に、順次、所定の初期符号を割り当てることにより、タ
グ符号表を作成する(ステップH2)。
【0120】そして、圧縮装置2は、SGMLタグ検出
部102により、上記のDTD302とともに入力され
た本文303のデータがタグであるか否かを判別し(ス
テップH3)、タグであれば、COC出力部106にC
OCの出力を指示するとともに、符号化処理部103a
の切り替え制御部105に本文データのタグ符号化部1
03側への出力切り替えを指示する。
【0121】これにより、COC出力部106は後述す
る復号側へCOCを出力し(ステップH3のYESルー
トからステップH4)、タグ符号化部103は、入力デ
ータ(タグ)を基に辞書作成部107により作成された
辞書(タグ符号表)を参照し、そのタグに対応する符号
をタグの符号として出力する(ステップH5)。する
と、圧縮装置2は、辞書更新部108により、タグ符号
化部103で符号化されたタグの出現頻度を計算し、そ
の計算結果に応じた符号(初期符号よりも短い符号)を
符号化したタグに再割り当てして辞書の更新を行なう
(ステップH6)。
【0122】一方、上記のステップH3において、符号
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップH3のNOルートか
らステップH7)。
【0123】そして、圧縮装置2は、符号化が終了した
か否かを判定し(ステップH8)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップH3からの処理を繰り返す(ステップ
H8のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップH8のYESルート)。このよ
うに、本第4実施形態におけるSGML文書の圧縮装置
2は、SGMLタグ抽出部100により抽出されたタグ
に所定の初期符号を割り当てることによりタグの辞書を
作成し、出現頻度の高いタグの符号が短くなくなるよ
う、タグが符号化されると、そのタグの出現頻度に応じ
て、辞書内の符号の更新を行なうこので、タグの符号化
が進むにつれて、出現頻度の高いタグほど短い符号が再
割り当てされることになり、タグの圧縮率を大幅に向上
することができる。
【0124】(d2)SGML文書の復元装置(復号
側)の説明 図19は本発明の第4実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図19に示す復元装置3は、図17及び図18により上
述した圧縮装置2の復号側に相当するもので、本実施形
態では、図14に示す構成に、辞書作成部207及び辞
書更新部208をタグ復号表作成部201′としてそな
えた構成となっている。
【0125】ここで、辞書作成部(第1復号用辞書作成
部)208は、SGMLタグ抽出部200により抽出さ
れたタグに所定の初期符号を割り当てることによりタグ
の辞書(第1復号用辞書)をタグ復号表として作成する
ものであるが、ここでは、上述の符号化側と同じルール
に従って初期符号を各タグに割り当てるようになってい
る。
【0126】また、辞書更新部(復号用辞書更新部)2
07は、復号処理部203a(タグ復号部203)によ
りタグが復号されると、出現頻度の高いタグの符号ほど
その符号が短くなるように、タグの出現頻度に応じて、
辞書作成部207により作成された辞書内の符号の更新
(再割り当て)を行なうものである。以下、上述のごと
く構成された本第4実施形態におけるSGML文書の復
元装置3の動作について、図20に示すフローチャート
(ステップJ1〜J7)を参照しながら詳述する。
【0127】まず、復元装置3は、SGMLタグ抽出部
200によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップJ1)、タグ復号表作成部201′の辞書作成部2
07へ出力する。辞書作成部207は、受け取ったタグ
に、符号化側での初期符号の割り当てと同じルールに従
って、順次、初期符号を割り当てることにより辞書(タ
グ復号表)を作成する(ステップJ2)。
【0128】そして、復元装置3は、COC判別部20
2により、入力された符号化データがCOCであるか否
かを判別し(ステップJ3)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データを基に辞書作成部207により作成された辞書を
参照し、その符号化データに対応するシンボル(タグ)
を復号結果として出力する(ステップJ4)。
【0129】すると、復元装置3は、辞書更新部208
により、タグ復号部203で復号されたタグの出現頻度
を計算し、その計算結果に応じた符号(初期符号よりも
短い符号)を復号したタグに再割り当てして辞書の更新
を行なう(ステップJ5)。一方、上記のステップJ3
において、復号対象の符号化データがCOCでなけれ
ば、復元装置3は、切り替え制御部205に符号化デー
タの第2復号部203側への出力切り替えを指示し、第
2復号部204によって、その符号化データ(文字また
は文字列)を符号化側に対応する復号化方式で復号する
(ステップJ3のNOルートからステップJ6)。
【0130】そして、復元装置3は、復号が終了したか
否かを判定し(ステップJ7)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップJ3からの処理を繰り返す(ステップ
J7のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップJ7のYESルート)。このよ
うに、本第4実施形態におけるSGML文書の復元装置
3によれば、SGMLタグ抽出部200により抽出され
たタグに符号化側と同じルールに従って所定の初期符号
を割り当てることによりタグの辞書を作成し、タグが復
号されると、そのタグの出現頻度に応じて、第1復号用
辞書内の符号の更新を行なうので、タグの復号が進むに
つれて、出現頻度の高いタグほど短い符号が再割り当て
されることになり、タグの復号効率を大幅に向上するこ
とができるとともに、正確に符号化されたタグを復号す
ることがでできる。
【0131】(e)第5実施形態の説明 (e1)SGML文書の圧縮装置(符号化側)の説明 図21は本発明の第5実施形態としてのSGML文書の
圧縮装置の要部の構成を示すブロック図であるが、この
図21に示すように、本第5実施形態におけるSGML
文書の圧縮装置2は、図17に示す構成に比して、タグ
符号表作成部101′として符号作成部109をそなえ
るほか、符号情報出力部112及びバッファ113をそ
なえて構成されている点が異なる。
【0132】ここで、上記の符号作成部(第2符号化用
辞書作成部)109は、SGMLタグ抽出部100によ
り抽出されたタグに基づいて本文303内のタグの出現
頻度を計数し、その計数結果に応じた符号をタグに割り
当てることによりタグの辞書(統計型準動的辞書:第2
符号化用辞書)をタグ符号表として作成するものであ
り、符号情報出力部(出現頻度情報出力部)112は、
上記のタグの出現頻度に関する情報を後述するタグの復
号側へ出力するものである。
【0133】なお、バッファ113は、符号作成部10
9にてタグ符号表(辞書)が作成されるまで、本文デー
タを保持するものである。そして、上述の符号作成部1
09は、本実施形態では、例えば図22に示すように、
タグ計数部151,タグ保持部152,タグ判定部15
3,符号生成部154及び符号保持部155をそなえる
ことにより、容易に上記の統計型準動的辞書を作成でき
るようになっている。
【0134】ここで、タグ計数部151は、SGMLタ
グ抽出部100により抽出されたタグと本文303内の
タグとが一致するか否かを判定することにより本文30
3内のタグの出現頻度を計数するもので、本実施形態で
は、SGMLタグ抽出部100により抽出されたタグ
と、タグ判定部153でタグであると判定された本文3
03内のタグとがそれぞれタグ保持部152に保持さ
れ、保持された各タグの一致数を計数することにより各
タグの出現頻度を求めるようになっている。
【0135】また、符号生成部154は、タグ計数部1
51での計数結果に応じた符号をタグに割り当てる符号
として生成するものであり、符号保持部155は、この
符号生成部154により生成された符号をタグ判定部1
53を通じてタグ保持部152に保持されているタグと
対応付けて保持することによりタグの辞書を作成するも
のである。
【0136】つまり、本第5実施形態のSGML文書の
圧縮装置2は、最初に本文303内のタグの出現頻度を
考慮したタグの辞書(符号表)を作成しておき、以降の
符号化処理では、その辞書に基づいて(辞書の更新は行
なわずに)タグの符号化を行なうようになっているので
ある。以下、上述のごとく構成された本第5実施形態に
おけるSGML文書の圧縮装置2の動作について、図2
3に示すフローチャート(ステップK1〜K8)を参照
しながら詳述する。
【0137】まず、圧縮装置2は、SGMLタグ抽出部
100によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップK1)、符号作成部109へ出力する。符号作成部
109では、受け取ったタグをタグ保持部152に保持
するとともに、入力された本文303のデータがタグで
あるか否かを判定することにより、本文データ内のタグ
のみをタグ保持部152に保持し、タグ計数部151が
タグ保持部152内に保持されているタグの一致数を計
数することにより、各タグの出現頻度を算出する(ステ
ップK2)。
【0138】さらに、符号作成部109は、符号生成部
154によって、上述のごとく得られた各タグの出現頻
度に応じた符号を生成し、各符号をそれぞれ対応するタ
グに割り当てて符号保持部155に保持する(タグの辞
書を作成する)(ステップK3)。なお、このとき、タ
グ計数部151によって計数されたタグの出現頻度情報
は、復号側で本符号化側と同じ辞書を作成するための情
報として符号情報出力部112を通じて復号側へ出力さ
れている。
【0139】そして、圧縮装置2は、SGMLタグ検出
部102により、入力された本文データがタグであるか
否かを判別し(ステップK4)、タグであれば、COC
出力部106にCOCの出力を指示するとともに、符号
化処理部103aの切り替え制御部105に本文データ
のタグ符号化部103側への出力切り替えを指示する。
これにより、COC出力部106は後述する復号側へC
OCを出力し(ステップK4のYESルートからステッ
プK5)、タグ符号化部103は、入力データ(タグ)
を基に符号作成部109により作成された辞書を参照
し、そのタグに対応する符号をタグの符号として出力す
る(ステップK6)。
【0140】一方、上記のステップK4において、符号
化対象の本文データがタグでなければ、圧縮装置2は、
切り替え制御部105に本文データの第2符号化部10
3側への出力切り替えを指示し、第2符号化部104に
よって、その本文データ(文字または文字列)を所定の
符号化方式で符号化する(ステップK4のNOルートか
らステップK7)。
【0141】そして、圧縮装置2は、符号化が終了した
か否かを判定し(ステップK8)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップK4からの処理を繰り返す(ステップ
K8のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップK8のYESルート)。このよ
うに、本第5実施形態におけるSGML文書の圧縮装置
2によれば、本文303内のタグの出現頻度を計数し、
その計数結果に応じた符号(出現頻度の高いタグほど短
い符号)をタグに割り当ててタグの辞書(統計型準動的
辞書)を作成するので、タグの符号化前に予め出現頻度
の高いタグに短い符号を割り当てておくことができる。
【0142】従って、前記の統計型動的辞書のようにタ
グの符号化毎に辞書を更新する必要がないので、タグの
圧縮率を向上させながら圧縮処理を高速化することがで
きる。また、上述の圧縮装置2では、符号情報出力部1
12により、タグの出現頻度に関する情報をタグの復号
側へ出力するので、復号側では容易に符号化側で作成さ
れた辞書と同一の辞書を作成することができるようにな
り、復号側におけるタグの復号処理の正確性の向上にも
大いに寄与している。なお、復号側へはタグの出現頻度
に関する情報ではなく、符号化側で作成された符号表そ
のものの情報を送るようにしてもよい。
【0143】(e2)SGML文書の復元装置(復号
側)の説明 図24は本発明の第5実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図24に示す復元装置3は、図21〜図23により上述
した圧縮装置2の復号側に相当するもので、本実施形態
では、図14に示すメモリ201の代わりにタグ復号表
作成部201′として符号作成部209をそなえるほ
か、バッファ213をそなえて構成されている。
【0144】ここで、上記の符号作成部(第2復号用辞
書作成部)209は、SGMLタグ抽出部200により
抽出されたタグと、符号化側の符号情報出力部112を
通じて送られてくるそのタグの出現頻度に関する情報と
に基づいて、符号化側と同一の符号内容を有するタグの
辞書(統計型準動的辞書:第2復号用辞書)をタグ復号
表として作成するものである。
【0145】なお、バッファ213は、この符号作成部
209にてタグ復号表(辞書)が作成されるまで、入力
された符号化データを保持するものである。以下、上述
のごとく構成された本第5実施形態におけるSGML文
書の復元装置3の動作について、図25に示すフローチ
ャート(ステップL1〜L6)を参照しながら詳述す
る。
【0146】まず、復元装置3は、SGMLタグ抽出部
200によって、入力されたDTD302を走査してそ
のDTD302内に定義されているタグを抽出し(ステ
ップL1)、タグ復号表作成部201′の辞書作成部2
09へ出力する。辞書作成部209は、受け取ったタグ
と符号化側から送られてくるタグの出現頻度情報とに基
づいて、符号化側で作成された符号表と同一の符号内容
を有するタグの復号表を(辞書)作成する(ステップL
2)。
【0147】そして、復元装置3は、COC判別部20
2により、入力された符号化データがCOCであるか否
かを判別し(ステップL3)、COCであれば、復号処
理部203aの切り替え制御部205に符号化データの
タグ復号部203側への出力切り替えを指示する。これ
により、タグ復号部203は、COCの後に続く符号化
データを基に辞書作成部207により作成された辞書を
参照し、その符号化データに対応するシンボル(タグ)
を復号結果として出力する(ステップL3のYESルー
トからステップL4)。
【0148】一方、復号対象の符号化データがCOCで
なければ、復元装置3は、切り替え制御部205に符号
化データの第2復号部203側への出力切り替えを指示
し、第2復号部204によって、その符号化データ(文
字または文字列)を符号化側に対応する復号化方式で復
号する(ステップL3のNOルートからステップL
5)。
【0149】そして、復元装置3は、復号が終了したか
否かを判定し(ステップL6)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップL3からの処理を繰り返す(ステップ
L6のNOルート)一方、復号化が終了していれば復元
処理を終える(ステップL6のYESルート)。このよ
うに、本第5実施形態におけるSGML文書の復元装置
3によれば、SGMLタグ抽出部200により抽出され
たDTD302内のタグと、符号化側から送られてくる
SGML文書の本文303内のタグの出現頻度に関する
情報とに基づいて、符号化側と同一の符号内容を有する
タグの復号表を作成するので、符号化側で符号化された
タグを正確に復号することができる。また、符号化側と
同様に、タグの復号前に予め出現頻度の高いタグには短
い符号が割り当てられるので、タグの復号効率を向上さ
せながら復号処理を高速化することができる。
【0150】(f)第6実施形態の説明 (f1)SGML文書の圧縮装置(符号化側)の説明 図26は本発明の第6実施形態としてのSGML文書の
圧縮装置の要部の構成を示すブロック図であるが、この
図26に示す圧縮装置2は、図10に示すSGMLタグ
検出部102に代えて、開始タグ保持部110及び開始
タグ検出部111を有するSGMLタグ検出部102′
をそなえた構成となっている。
【0151】ここで、上記の開始タグ保持110は、S
GMLタグ抽出部100により抽出されたDTD302
内のタグの始まりを示すタグ開始文字(列)(例えば、
“<”や“</”など)のみを保持するものであり、開
始タグ検出部111は、この開始タグ保持部110に保
持されたタグ開始文字(列)(以下、開始タグという)
に基づいて、入力された本文303のデータがタグ開始
タグである否かを検出するものである。
【0152】つまり、本実施形態のSGMLタグ検出部
(タグ判別部)102′は、SGMLタグ抽出部100
で抽出されたタグに基づいてタグの始まりを示す開始タ
グを検出することにより入力データがタグであると判別
するようになっているのである。ただし、上記の開始タ
グ検出部111は、本実施形態では、上記の開始タグが
検出されると、開始タグそのもの(“<”や“</”)
は第2符号化部104にてタグ以外のデータとして符号
化されるよう切り替え制御部205に指示を与えたの
ち、上記の開始タグに続くデータがタグ本体としてタグ
符号化部103で符号化されるよう切り替え制御部20
5に指示を与えるようになっている。
【0153】以下、上述のごとく構成された本第6実施
形態におけるSGML文書の圧縮装置2の動作につい
て、図27に示すフローチャート(ステップM1〜M
6)を参照しながら詳述する。まず、圧縮装置2は、S
GMLタグ抽出部100によって、入力されたDTD3
02を走査してそのDTD302内に定義されているタ
グを抽出し、抽出したタグを順次メモリ101に記憶す
ることにより、そのタグにメモリ101のアドレス情報
とタグの長さ情報とをタグの符号として割り当ててタグ
符号表を作成する(ステップM1)。
【0154】一方、このとき、開始タグ保持部110へ
はSGMLタグ抽出部100によって抽出されたタグの
うち開始タグのみが出力され、開始タグ保持部110
は、入力された開始タグを順次保持することにより、開
始タグを決定しておく(ステップM2)。そして、圧縮
装置2は、開始タグ検出部111により、入力された本
文データが開始タグであるか否かを判別し(ステップM
3)、開始タグであれば、符号化処理部103aの切り
替え制御部105に本文データの第2符号化部104側
への出力切り替えを指示する。これにより、第2符号化
部103は、入力データ(開始タグ)を所定の符号化方
式で符号化する。
【0155】その後、開始タグ検出部111は、切り替
え制御部105に本文データのタグ符号化部103側へ
の出力切り替えを指示し、これにより、上記の開始タグ
に続くタグ本体がタグ符号化部103へ入力され、タグ
符号化部103では、その入力データ(タグ本体)を基
にメモリ101を参照し、そのタグのアドレスと長さと
をタグの符号として出力する(ステップM3のYESル
ートからステップM4)。
【0156】一方、入力された本文データが開始タグで
なければ、開始タグ検出部111は、切り替え制御部1
05に本文データの第2符号化部104側への出力切り
替えを指示し、第2符号化部104によって、その本文
データ(文字または文字列)を所定の符号化方式で符号
化する(ステップM3のNOルートからステップM
5)。
【0157】そして、圧縮装置2は、符号化が終了した
か否かを判定し(ステップM6)、終了していなければ
(本文データが未だ残っていれば)、符号化が終了する
まで上記ステップM3からの処理を繰り返す(ステップ
M6のNOルート)一方、符号化が終了していれば圧縮
処理を終える(ステップM6のYESルート)。このよ
うに、本第6実施形態におけるSGML文書の圧縮装置
2によれば、入力された本文データがタグである否かを
開始タグを検出することにより判別するので、上記のC
OCを復号側へ出力しなくても復号側でも同様に開始タ
グからタグの判別を行なうことができ、COCを出力し
ない分、よりSGML文書の圧縮率を高めることができ
る。
【0158】また、タグの判別を開始タグのみを検出す
ることにより行なっているので、より簡素な構成で、且
つ、高速に、タグの判別を行なうことができ、タグの圧
縮処理の高速化にも大いに寄与している。 (f2)SGML文書の復元装置(復号側)の説明 図28は本発明の第6実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図であるが、この
図28に示す復元装置3は、図26及び図27により上
述した圧縮装置2の復号側に相当するもので、本実施形
態では、図14に示すSGMLタグ検出部202に代え
て、開始タグ保持部210及び開始タグ検出部211を
有するSGMLタグ検出部202′をそなえた構成とな
っている。
【0159】ここで、上記の開始タグ保持部210及び
開始タグ検出部211は、それぞれ、符号化側の開始タ
グ保持部110及び開始タグ検出部111と同様のもの
で、開始タグ保持部210は、SGMLタグ抽出部20
0により抽出されたDTD302内の開始タグ(“<”
や“</”など)のみを保持するものであり、開始タグ
検出部211は、この開始タグ保持部210に保持され
た開始タグに基づいて、第2復号部204で復号された
シンボルが開始タグであるか否かを検出するもので、開
始タグが検出されると、その後の復号対象の符号化デー
タがタグの符号であるので、切り替え制御部205の出
力をタグ復号部203側へ切り替えるよう指示するよう
になっている。
【0160】以下、上述のごとく構成された本第6実施
形態における復元装置3の動作について、図29に示す
フローチャート(ステップN1〜N6)を参照しながら
詳述する。まず、復元装置3は、SGMLタグ抽出部2
00によって、入力されたDTD302を走査してその
DTD302内に定義されているタグを抽出し、抽出し
たタグを順次メモリ101に記憶することにより、その
タグにメモリ101のアドレス情報とタグの長さ情報と
をタグの符号として割り当ててタグ復号表を作成する
(ステップN1)。
【0161】一方、このとき、開始タグ保持部210へ
はSGMLタグ抽出部200によって抽出されたタグの
うち開始タグのみが出力され、開始タグ保持部210
は、入力された開始タグを順次保持することにより、開
始タグを決定しておく(ステップN2)。そして、復元
装置2は、開始タグ検出部211により、第2復号部2
04で復号されたシンボルが開始タグであるか否かを判
別し(ステップN3)、開始タグであれば、続いて入力
される符号化データ(タグ本体の符号=アドレスと長
さ)がタグ復号部204へ出力されるよう、切り替え制
御部205に符号化データのタグ復号部203側への出
力切り替えを指示する。
【0162】これにより、タグ復号部203は、入力デ
ータ(アドレスと長さ)を基にメモリ201を参照して
該当するタグを復号結果として出力する(ステップN3
のYESルートからステップN4)。一方、第2復号部
204で復号されたシンボルが開始タグでなかった場
合、開始タグ検出部211は、切り替え制御部105に
符号化データの第2復号部204側への出力切り替えを
指示し、第2復号部204によって、その符号化データ
を符号化側の符号化方式と対応する復号方式で復号する
(ステップN3のNOルートからステップN5)。
【0163】そして、復元装置2は、復号が終了したか
否かを判定し(ステップN6)、終了していなければ
(符号化データが未だ残っていれば)、復号が終了する
まで上記ステップN3からの処理を繰り返す(ステップ
N6のNOルート)一方、復号が終了していれば復元処
理を終える(ステップN6のYESルート)。このよう
に、本第6実施形態におけるSGML文書の復元装置3
によれば、復号された符号化データが開始タグである否
かを検出することによりタグの開始位置を判別するの
で、上記のCOCを受信しなくてもタグの復号とタグ以
外の文字(列)の復号とを切り替えることができる。従
って、COCを受信しない分、符号化側での圧縮率を高
めながら正確にタグの復元処理を行なうことができる。
【0164】また、タグの判別を開始タグのみを検出す
ることにより行なっているので、より簡素な構成で、且
つ、高速に、タグの判別を行なうことができ、タグの復
元処理の高速化にも大いに寄与している。以上のよう
に、上述した各実施形態におけるSGML文書の圧縮装
置2によれば、本文303内のタグを符号化して圧縮す
ることができるので、SGML文書のデータ量を大幅に
削減することができる。また、タグだけでなく、タグ以
外の文字(列)についても所定の符号化方式で符号化し
て圧縮することができるので、SGML文書のデータ量
をより大幅に削減することができる。
【0165】さらに、上述した各実施形態におけるSG
ML文書の復元装置3によれば、符号化されたタグもし
くはタグとタグ以外の文字(列)とを効率良く、且つ、
確実に復号することができるので、常に正確にタグもし
くはタグとタグ以外の文字(列)を復元することができ
る。また、上述した各圧縮装置2,復元装置3は、それ
ぞれ、上述のような機能を有する圧縮プログラム,復元
プログラムを記録したフロッピーディスク11やCD−
ROM12,MO13などの記録媒体15をコンピュー
タ2,3に提供することで、容易に実現されるので、本
発明の汎用性を大幅に向上させることができ、本発明の
普及が大いに期待できる。 (g)その他 なお、上述した実施形態では、いずれも、圧縮装置2,
復元装置3がそれぞれ単体で異なるパソコン上で実現さ
れている場合について説明したが、圧縮装置2と復元装
置3の両方を圧縮/復元装置として1つのパソコン上で
実現することも可能である。
【0166】例えば、第3実施形態にて前述した圧縮装
置2(図10参照)と復元装置(図14参照)とを1つ
のパソコン上で実現することを考えた場合、その構成は
図30に示すようになる。ただし、この場合、復元側で
は、符号化側で作成されたタグ符号表を使用してタグの
復号を行なえばよいので、図30に示すように、メモリ
101が符号化側と復元側とで共用化されている(タグ
符号/復号表作成部として機能している)。なお、この
図30に示すSGML文書の圧縮/復元装置の各部の動
作は、第3実施形態にて前述したものと同様であるの
で、ここでは、その説明は省略する。
【0167】このように、上述のSGML文書の圧縮/
復元装置によれば、タグの復号に際しては、タグの符号
化時に作成・使用したメモリ101の記憶内容(タグ符
号/復号表)に基づいて、タグの復号処理を行なうの
で、少なくとも、前述の各実施形態で述べたようにタグ
復号用の復号表をタグ符号化用の符号表と個別に作成す
る必要がなく、タグ復号(復元)処理の高速化,装置規
模の削減に大いに寄与している。
【0168】なお、上記の第3実施形態以外の各実施形
態における圧縮装置2,復元装置3についても、同様
に、1つの装置(パソコン)上で圧縮/復元装置として
実現することが可能である。また、上述した各実施形態
では、SGML文書のDTD302内に定義されている
タグを抽出して符号を割り当てているが、SGML宣言
部301にもDTD302と同様にタグが定義されてい
れば、そのSGML宣言部301内のタグも抽出して符
号を割り当てるようにしてもよい。
【0169】さらに、上述した各実施形態では、SGM
L文書の本文303についてのみ圧縮/復元を行なって
いるが、本文303以外(SGML宣言部301,DT
D302)についても同様に圧縮/復元を行なっても良
い。
【0170】
【発明の効果】以上詳述したように、本発明のタグ文書
の圧縮装置および圧縮方法によれば、文書型定義部内の
タグに所定の符号を割り当ててタグ符号表を作成し、そ
のタグ符号表に基づいて、文書実現部内のタグを符号化
するので、タグ文書のタグを極めて効率良く圧縮するこ
とができ、タグ文書のデータ量を大幅に削減することが
できる(請求項1,27)。
【0171】なお、このとき、同一の文書型定義部を有
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ符号表に基づいて、全てのタグ文書の
文書実現部内のタグに対する符号化を行なうので、各タ
グ文書毎にタグ符号表を作成する必要がなく、タグの符
号化処理を極めて高速に行なうことができる(請求項
2,28)。
【0172】また、本発明のタグ文書の圧縮装置および
圧縮方法によれば、上記と同様のタグ符号表を作成し、
入力されたデータがタグである場合は、タグの符号化を
示す特殊コードをタグの復号側へ出力した後、タグ符号
表に基づいて入力データを符号化する一方、入力データ
がタグでない場合は入力データを所定の符号化方式で符
号化するので、タグ文書内のタグのみならずタグ以外の
文書さえも極めて効率良く圧縮することができ、より大
幅にタグ文書のデータ量を削減することができる。ま
た、タグの復号側では上記の特殊コードによりタグの判
別を容易に行なうことができるので、タグの復号処理の
高速化にも大いに寄与する(請求項3,29)。
【0173】ここで、上記の符号化処理は、入力データ
を上記のタグ符号表に基づいて符号化する第1符号化部
と、入力データを所定の符号化方式で符号化する第2符
号化部と、入力データがタグであると判別されるとその
入力データを第1符号化部へ出力する一方、入力データ
がタグでないと判別されるとその入力データを第2符号
化部へ出力する切り替え制御部とをそなえることによ
り、簡素な構成で容易に実現される(請求項4)。
【0174】また、上記のタグ符号表は、タグをタグ記
憶部に記憶させ、そのタグ記憶部における記憶箇所につ
いての情報をタグの符号として割り当てることにより作
成すれば、タグをタグ記憶部に順次記憶してゆくだけで
各タグに符号が割り当てられることになるので、極めて
簡素な構成で、且つ、高速に、上記のタグ符号表を作成
することができる(請求項5)。
【0175】なお、上記の記憶箇所についての情報を、
例えば、上記タグ記憶部のアドレス情報を含む情報とす
れば、タグ記憶部のアドレス情報がそのままタグの符号
として使用されるので、より高速に、タグの符号化を行
なうことができる(請求項6)。具体的に、上記の記憶
箇所についての情報を、例えば、上記アドレス情報とタ
グの長さ情報とすれば、タグの長さもそのタグの符号と
して割り当てられるので、タグの復号側では、容易に、
復号すべきタグを特定することができ、タグの復号処理
の高速化に大いに寄与する(請求項7)。
【0176】さらに、上記のタグ符号表は、上記のタグ
抽出部により抽出されたタグに所定の初期符号を割り当
てることによりタグの第1符号化用辞書を作成し、タグ
が符号化されると、そのタグの出現頻度に応じて、第1
符号化用辞書内の符号の更新を行なうことにより作成す
れば、タグの符号化が進むにつれて、例えば出現頻度の
高いタグほど短い符号が再割り当てされるので、タグの
圧縮効率を大幅に向上することができる(請求項8)。
【0177】また、上記のタグ符号表は、文書実現部内
のタグの出現頻度を計数し、その計数結果に応じた符号
をタグに割り当ててタグの第2符号化用辞書として作成
すれば、タグの符号化前に予め出現頻度の高いタグには
短い符号を割り当てておくことができるので、タグの圧
縮効率を向上させながら圧縮処理を高速化することがで
きる(請求項9)。
【0178】なお、この場合、上記のタグの出現頻度に
関する情報をタグの復号側へ出力するようにすれば、復
号側では容易に上記の第2符号化用辞書と同一の辞書を
作成することができるので、復号側におけるタグの復号
処理の正確性の向上に大いに寄与する(請求項10)。
なお、上記の第2符号化用辞書は、文書実現部内のタグ
の出現頻度を計数するタグ計数部と、このタグ計数部で
の計数結果に応じた符号を生成する符号生成部と、この
符号生成部により生成された符号を保持する符号保持部
とをそなえることにより、容易に作成することができる
(請求項11)。
【0179】また、本発明のタグ文書の圧縮装置および
圧縮方法によれば、文書型定義部内のタグに所定の符号
を割り当ててタグ符号表を作成し、入力された文書実現
部のデータがタグである場合は上記のタグ符号表に基づ
いて入力データを符号化する一方、入力データがタグで
ない場合は入力データを所定の符号化方式で符号化する
ので、上記の特殊コードを出力しない分、より圧縮効率
を高めることができる(請求項12,30)。
【0180】なお、このとき、タグの始まりを示す開始
タグを検出することにより入力データがタグであると判
別するようにすれば、より簡素な構成で、且つ、高速
に、タグの判別を行なうことができ、これにより、タグ
の圧縮処理を高速化することができる(請求項13)。
一方、本発明のタグ文書の復元装置および復元方法によ
れば、文書型定義部内のタグに所定の符号を割り当てて
タグ復号表を作成し、そのタグ復号表に基づいて符号化
された文書実現部内のタグを復号するので、タグ文書内
の符号化されたタグを極めて効率良く、且つ、正確に復
号(復元)することができる(請求項14,31)。
【0181】なお、このとき、同一の文書型定義部を有
する複数のタグ文書については、最初のタグ文書につい
て作成されたタグ復号表に基づいて、全てのタグ文書の
文書実現部に対するタグの復号を行なうので、各タグ文
書毎にタグ復号表を作成する必要がなく、タグの復号処
理を極めて高速に行なうことができる(請求項15,3
2)。
【0182】また、本発明のタグ文書の復元装置および
復元方法によれば、上記と同様のタグ復号表を作成し、
入力された符号化データが特殊コードである場合は、そ
の特殊コードの後に入力される符号化データをタグ復号
表に基づいて復号する一方、入力された符号化データが
特殊コードでない場合は、その符号化データを所定の復
号方式で復号するので、タグだけでなく符号化されたタ
グ以外の文書をも極めて効率良く、且つ、正確に復元す
ることができる。また、特殊コードを検出するだけで、
復号対象の符号化データがタグであるか否かを判別する
ことができるので、タグの復号処理を大幅に高速化する
ことができる(請求項16,33)。
【0183】ここで、上記の復号処理は、入力された符
号化データを上記のタグ復号表に基づいて復号する第1
復号部と、入力された符号化データを所定の復号方式で
復号する第2復号部と、符号化データが特殊コードであ
ると判別されるとその特殊コードの後に入力される符号
化データを第1復号部へ出力する一方、符号化データが
特殊コードでないと判別されるとその符号化データを第
2復号部へ出力する切り替え制御部とをそなえることに
より、簡素な構成で容易に実現される(請求項17)。
【0184】また、上記のタグ復号表は、タグをタグ記
憶部をさせ、そのタグ記憶部における記憶箇所について
の情報をタグの符号として割り当てることにより作成す
れば、タグをタグ記憶部に順次記憶してゆくだけで各タ
グに符号が割り当てられることになるので、極めて簡素
な構成で、且つ、高速に、上記のタグ復号表を作成する
ことができる(請求項18)。
【0185】なお、上記の記憶箇所についての情報を、
例えば、上記タグ記憶部のアドレス情報を含む情報とす
れば、タグ記憶部のアドレス情報がそのままタグの符号
として使用されるので、符号化側においてタグがアドレ
ス情報を含む情報として符号化されていればその符号化
データに対応するタグをタグ記憶部から容易に取り出す
ことができ、タグの復号処理が大幅に高速化される(請
求項19)。
【0186】具体的に、上記の記憶箇所についての情報
を、例えば、上記アドレス情報とタグの長さ情報とすれ
ば、タグの長さもそのタグの符号として割り当てられる
ので、符号化側においてタグが上記のアドレス情報とそ
の長さ情報として符号化されていれば、より正確に、そ
の符号化データに対応するタグをタグ記憶部から取り出
すことができ、タグ復号処理の高速化,正確性の向上に
大いに寄与する(請求項20)。
【0187】さらに、上記のタグ復号表は、文書型定義
部内のタグに所定の初期符号を割り当てることによりタ
グの第1復号用辞書を作成し、タグが復号されると、そ
のタグの出現頻度に応じて、第1復号用辞書内の符号の
更新を行なうことにより作成すれば、タグの復号が進む
につれて、例えば出現頻度の高いタグほど短い符号が再
割り当てされるので、タグの復号効率を大幅に向上する
ことができる(請求項21)。
【0188】また、上記のタグ復号表は、文書型定義部
内のタグと文書実現部内のタグの出現頻度に関する情報
とに基づいて、文書型定義部内のタグにその出現頻度に
応じた符号を割り当ててタグの第2復号用辞書として作
成すれば、タグの復号前に予め出現頻度の高いタグには
短い符号を割り当てておくことができるので、タグの復
号効率を向上させながら復号処理を高速化することがで
きる(請求項22)。
【0189】さらに、本発明のタグ文書の復元装置およ
び復元方法によれば、文書型定義部内のタグに所定の符
号を割り当ててタグ復号表を作成し、入力された符号化
データがタグの符号化データである場合は、上記のタグ
復号表に基づいて符号化データを復号する一方、入力さ
れた符号化データがタグの符号化データでない場合は、
その符号化データを所定の復号方式で復号するので、上
記の特殊コードを受信しない分、符号化側での圧縮効率
を高めながら正確にタグの復元処理を行なうことができ
る(請求項23,34)。
【0190】なお、このとき、タグの始まりを示す開始
タグを検出することにより入力データがタグであると判
別するようにすれば、より簡素な構成で、且つ、高速
に、タグの判別を行なうことができ、これにより、タグ
の復元処理を高速化することができる(請求項24)。
また、本発明のタグ文書の圧縮/復元装置および圧縮/
復元方法によれば、文書実現部内のタグに所定の符号を
割り当ててタグ符号/復号表を作成し、タグの復号に際
しては、タグの符号化時に使用した上記のタグ符号/復
号表に基づいて、タグの復号処理を行なうので、少なく
とも、タグ復号用の復号表をタグ符号化用の符号表と個
別に作成する必要がなく、タグ復号(復元)処理の高速
化,装置規模の削減に大いに寄与する(請求項25,3
5)。
【0191】さらに、本発明のタグ文書の圧縮/復元装
置および圧縮/復元方法によれば、文書実現部内のタグ
に所定の符号を割り当ててタグ符号/復号表を作成し、
タグの復号に際して、前記と同様の特殊コードを検出す
ると、タグの符号化時に使用した上記のタグ符号/復号
表に基づいて、タグの復号処理を行なうので、上記と同
様に、タグ復号(復元)処理の高速化,装置規模の削減
に大いに寄与するほか、上記特殊コードにより、高速且
つ正確に、復号対象のタグを特定してタグの復号を行な
うことができる(請求項26,36)。
【0192】なお、上記のタグ文書の圧縮装置,復元装
置および圧縮/復元装置は、それぞれコンピュータを上
述のごとく機能させるための圧縮プログラム,復元プロ
グラムおよび圧縮/復元プログラムをコンピュータ読み
取り可能な記録媒体に記録して、その記録媒体を所望の
コンピュータに提供することにより容易に実現されるの
で、本発明の汎用性を大幅に向上させることができ、本
発明の普及が大いに期待できる(請求項37〜42)。
【図面の簡単な説明】
【図1】本発明の第1実施形態としてのSGML文書
(タグ文書)の圧縮装置および復元装置が適用されるコ
ンピュータシステムを示すブロック図である。
【図2】第1実施形態におけるSGML文書の圧縮装置
としてのパソコンの要部の構成を示すブロック図であ
る。
【図3】第1実施形態におけるSGML文書の圧縮装置
の動作を説明するためのフローチャートである。
【図4】本発明の第1実施形態におけるSGML文書の
復元装置としてのパソコンの要部の構成を示すブロック
図である。
【図5】第1実施形態におけるSGML文書の復元装置
の動作を説明するためのフローチャートである。
【図6】本発明の第2実施形態としてのSGML文書の
圧縮装置の要部の構成を示すブロック図である。
【図7】第2実施形態におけるSGML文書の圧縮装置
の動作を説明するためのフローチャートである。
【図8】本発明の第2実施形態としてのSGML文書の
復元装置の要部の構成を示すブロック図である。
【図9】第2実施形態におけるSGML文書の復元装置
の動作を説明するためのフローチャートである。
【図10】本発明の第3実施形態としてのSGML文書
の圧縮装置の要部の構成を示すブロック図である。
【図11】第3実施形態におけるSGML文書の圧縮装
置の動作を説明するための図である。
【図12】第3実施形態におけるSGML文書の圧縮装
置の動作を説明するためのフローチャートである。
【図13】第3実施形態におけるSGML文書の圧縮装
置の動作を説明するための図である。
【図14】本発明の第3実施形態としてのSGML文書
の復元装置の要部の構成を示すブロック図である。
【図15】第3実施形態におけるSGML文書の復元装
置の動作を説明するためのフローチャートである。
【図16】第3実施形態におけるSGML文書の復元装
置の変形例を示すブロック図である。
【図17】本発明の第4実施形態としてのSGML文書
の圧縮装置の要部の構成を示すブロック図である。
【図18】第4実施形態におけるSGML文書の圧縮装
置の動作を説明するためのフローチャートである。
【図19】本発明の第4実施形態としてのSGML文書
の復元装置の要部の構成を示すブロック図である。
【図20】第4実施形態におけるSGML文書の復元装
置の動作を説明するためのフローチャートである。
【図21】本発明の第5実施形態としてのSGML文書
の圧縮装置の要部の構成を示すブロック図である。
【図22】第5実施形態におけるSGML文書の圧縮装
置の符号作成部の構成を示すブロック図である。
【図23】第5実施形態におけるSGML文書の圧縮装
置の動作を説明するためのフローチャートである。
【図24】本発明の第5実施形態としてのSGML文書
の復元装置の要部の構成を示すブロック図である。
【図25】第5実施形態におけるSGML文書の復元装
置の動作を説明するためのフローチャートである。
【図26】本発明の第6実施形態としてのSGML文書
の圧縮装置の要部の構成を示すブロック図である。
【図27】第6実施形態におけるSGML文書の圧縮装
置の動作を説明するためのフローチャートである。
【図28】本発明の第6実施形態としてのSGML文書
の復元装置の要部の構成を示すブロック図である。
【図29】第6実施形態におけるSGML文書の復元装
置の動作を説明するためのフローチャートである。
【図30】本発明の一実施形態としてのSGML文書の
圧縮/復元装置の要部の構成を示すブロック図である。
【図31】SGML文書のフォーマットを模式的に示す
図である。
【図32】SGML文書の文書型定義部(DTD)の記
述例を示す図である。
【図33】SGML文書の文書実現値(本文)の記述例
を示す図である。
【符号の説明】
2 パーソナルコンピュータ(圧縮装置) 3 パーソナルコンピュータ(復元装置) 4 ネットワーク接続装置 11 フロッピーディスク(FD) 12 CD−ROM 13 MO(光磁気ディスク) 15 記録媒体 21 本体 22 ディスプレイ 23 キーボード 24 マウス(ポインティングデバイス) 25 ディスクドライブ 26 CPU(Central Processing Unit) 27 ハードディスク(記憶装置) 30,30′,100,200 SGMLタグ抽出部 40,101′ タグ符号表作成部 40′,201′ タグ復号表作成部 50,50′ タグ判別部 60 タグ符号化部 60′ タグ復号部 70,70′ DTD比較部 80,80′ コントローラ 101,201 メモリ(タグ記憶部) 101a タグ符号表 102,102′ SGMLタグ検出部(タグ判別部) 103 タグ符号化部(第1符号化部) 103a 符号化処理部 104 第2符号化部 104a 符号表 105,205 切り替え制御部 106 COC出力部(特殊コード出力部) 107 辞書作成部(第1符号化用辞書作成部) 108 辞書更新部(符号化用辞書更新部) 109 符号作成部(第2符号化用辞書作成部) 110,210 開始タグ保持部 111,211 開始タグ検出部 112 符号情報出力部(出現頻度情報出力部) 113,213 バッファ 151 タグ計数部 152 タグ保持部 153 タグ判定部 154 符号生成部 155 符号保持部 202 COC判別部(特殊コード判別部) 202′ SGMLタグ判別部 203 タグ復号部(第1復号部) 203a 復号処理部 204 第2復号部 207 辞書作成部(第1復号用辞書作成部) 208 辞書更新部(復号用辞書更新部) 209 符号作成部(第2復号用辞書作成部) 301 SGML宣言部 302 文書型定義部(DTD) 303 文書実現値(本文)
───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復 元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な 記録媒体

Claims (42)

    【特許請求の範囲】
  1. 【請求項1】 文書構造を示すタグを定義した文書型定
    義部と該文書型定義部に定義されている該タグを用いて
    記述された文書実現部とを有するタグ文書を符号化して
    圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ符
    号表を作成するタグ符号表作成部と、 該タグ符号表作成部により作成された該タグ符号表に基
    づいて、該文書実現部内の該タグを符号化するタグ符号
    化部とをそなえたことを特徴とする、タグ文書の圧縮装
    置。
  2. 【請求項2】 該タグ符号化部が、 同一の文書型定義部を有する複数のタグ文書について
    は、該タグ抽出部および該タグ符号表作成部において最
    初のタグ文書について作成されたタグ符号表に基づい
    て、全てのタグ文書の文書実現部内のタグに対する符号
    化を行なうように構成されていることを特徴とする、請
    求項1記載のタグ文書の圧縮装置。
  3. 【請求項3】 文書構造を示すタグを定義した文書型定
    義部と該文書型定義部に定義されている該タグを用いて
    記述された文書実現部とを有するタグ文書を符号化して
    圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ符
    号表を作成するタグ符号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
    抽出された該タグであるか否かを判別するタグ判別部
    と、 該タグ判別部において上記の入力データが該タグである
    と判別されると、該タグ符号表に基づいて該入力データ
    を符号化する一方、該タグ判別部において該入力データ
    が該タグでないと判別されると、該入力データを所定の
    符号化方式で符号化する符号化処理部と、 該タグ判別部において上記の入力データが該タグである
    と判別されると、該入力データの符号化前に、タグの符
    号化を示す特殊コードを該タグの復号側へ出力する特殊
    コード出力部とをそなえたことを特徴とする、タグ文書
    の圧縮装置。
  4. 【請求項4】 該符号化処理部が、 入力データを該タグ符号表に基づいて符号化する第1符
    号化部と、 入力データを所定の符号化方式で符号化する第2符号化
    部と、 該タグ判別部において該入力データが該タグであると判
    別されると該入力データを該第1符号化部へ出力する一
    方、該タグ判別部において該入力データが該タグでない
    と判別されると該入力データを該第2符号化部へ出力す
    る切り替え制御部とをそなえていることを特徴とする、
    請求項3記載のタグ文書の圧縮装置。
  5. 【請求項5】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグを記憶するタグ記
    憶部を有し、該タグの該タグ記憶部における該記憶箇所
    についての情報を該タグの符号として割り当てることに
    より該タグ符号表を作成するように構成されていること
    を特徴とする、請求項3記載のタグ文書の圧縮装置。
  6. 【請求項6】 上記の記憶箇所についての情報が、該タ
    グ記憶部のアドレス情報を含む情報であることを特徴と
    する、請求項5記載のタグ文書の圧縮装置。
  7. 【請求項7】 上記の記憶箇所についての情報が、該ア
    ドレス情報と該タグの長さ情報とであることを特徴とす
    る、請求項6記載のタグ文書の圧縮装置。
  8. 【請求項8】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグに所定の初期符号
    を割り当てることにより該タグの第1符号化用辞書を該
    タグ符号表として作成する第1符号化用辞書作成部と、 該符号化処理部により該タグが符号化されると、該タグ
    の出現頻度に応じて、該第1符号化用辞書作成部により
    作成された該第1符号化用辞書内の該符号の更新を行な
    う符号化用辞書更新部とをそなえていることを特徴とす
    る、請求項3記載のタグ文書の圧縮装置。
  9. 【請求項9】 該タグ符号表作成部が、 該タグ抽出部により抽出された該タグに基づいて該文書
    実現部内の該タグの出現頻度を計数し、その計数結果に
    応じた符号を該タグに割り当てることにより該タグの第
    2符号化用辞書を該タグ符号表として作成する第2符号
    化用辞書作成部をそなえていることを特徴とする、請求
    項3記載のタグ文書の圧縮装置。
  10. 【請求項10】 該タグの出現頻度に関する情報を該タ
    グの復号側へ出力する出現頻度情報出力部をそなえてい
    ることを特徴とする、請求項9記載のタグ文書の圧縮装
    置。
  11. 【請求項11】 該第2符号化用辞書作成部が、 該タグ抽出部により抽出された該タグと該文書実現部内
    の該タグとが一致するか否かを判定することにより該文
    書実現部内の該タグの出現頻度を計数するタグ計数部
    と、 該タグ計数部での計数結果に応じた符号を生成する符号
    生成部と、 該符号生成部により生成された該符号を保持することに
    より該第2符号化用辞書を作成する符号保持部とをそな
    えていることを特徴とする、請求項9記載のタグ文書の
    圧縮装置。
  12. 【請求項12】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ符
    号表を作成するタグ符号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
    抽出された該タグであるか否かを判別するタグ判別部
    と、 該タグ判別部において上記の入力データが該タグである
    と判別されると、該タグ符号表に基づいて該入力データ
    を符号化する一方、該タグ判別部において該入力データ
    が該タグでないと判別されると、該入力データを所定の
    符号化方式で符号化する符号化処理部とをそなえたこと
    を特徴とする、タグ文書の圧縮装置。
  13. 【請求項13】 該タグ判別部が、 該タグ抽出部で抽出された該タグに基づいてタグの始ま
    りを示す開始タグを検出することにより該入力データが
    該タグであると判別するように構成されていることを特
    徴とする、請求項12記載のタグ文書の圧縮装置。
  14. 【請求項14】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ復
    号表を作成するタグ復号表作成部と、 該タグ復号表作成部により作成された該タグ復号表に基
    づいて、符号化された該文書実現部内の該タグを復号す
    るタグ復号部とをそなえたことを特徴とする、タグ文書
    の復元装置。
  15. 【請求項15】 該タグ復号部が、 同一の文書型定義部を有する複数のタグ文書について
    は、該タグ抽出部および該タグ復号表作成部を通じて最
    初のタグ文書について作成されたタグ復号表に基づい
    て、全てのタグ文書の文書実現部に対するタグの復号を
    行なうように構成されていることを特徴とする、請求項
    14記載のタグ文書の復元装置。
  16. 【請求項16】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ復
    号表を作成するタグ復号表作成部と、 入力された符号化データが、タグの符号化データが入力
    されることを示す特殊コードであるか否かを判別する特
    殊コード判別部と、 該特殊コード判別部において該符号化データが該特殊コ
    ードであると判別されると、該特殊コードの後に入力さ
    れる符号化データを該タグ復号表に基づいて復号する一
    方、該特殊コード判別部において該符号化データが該特
    殊コードでないと判別されると、該符号化データを所定
    の復号方式で復号する復号処理部とをそなえたことを特
    徴とする、タグ文書の復元装置。
  17. 【請求項17】 該復号処理部が、 入力された符号化データを該タグ復号表に基づいて復号
    する第1復号部と、 入力された符号化データを所定の復号方式で復号する第
    2復号部と、 該特殊コード判別部において該符号化データが該特殊コ
    ードであると判別されると該特殊コードの後に入力され
    る符号化データを該第1復号部へ出力する一方、該特殊
    コード判別部において該符号化データが該特殊コードで
    ないと判別されると該符号化データを該第2復号部へ出
    力する切り替え制御部とをそなえていることを特徴とす
    る、請求項16記載のタグ文書の復元装置。
  18. 【請求項18】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグを記憶するタグ記
    憶部を有し、該タグの該タグ記憶部における該記憶箇所
    についての情報を該タグの符号として割り当てることに
    より該タグ復号表を作成するように構成されていること
    を特徴とする、請求項16記載のタグ文書の復元装置。
  19. 【請求項19】 上記の記憶箇所についての情報が、該
    タグ記憶部のアドレス情報を含む情報であることを特徴
    とする、請求項18記載のタグ文書の復元装置。
  20. 【請求項20】 上記の記憶箇所についての情報が、該
    アドレス情報と該タグの長さ情報とであることを特徴と
    する、請求項19記載のタグ文書の復元装置。
  21. 【請求項21】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグに所定の初期符号
    を割り当てることにより該タグの第1復号用辞書を該タ
    グ復号表として作成する第1復号用辞書作成部と、 該復号処理部により該タグが復号されると、該タグの出
    現頻度に応じて、該第1復号用辞書作成部により作成さ
    れた該第1復号用辞書内の該符号の更新を行なう復号用
    辞書更新部とをそなえていることを特徴とする、請求項
    16記載のタグ文書の復元装置。
  22. 【請求項22】 該タグ復号表作成部が、 該タグ抽出部により抽出された該タグと該タグの出現頻
    度に関する情報とに基づいて、該タグの第2復号用辞書
    を作成する第2復号用辞書作成部をそなえていることを
    特徴とする、請求項16記載のタグ文書の復元装置。
  23. 【請求項23】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ復
    号表を作成するタグ復号表作成部と、 入力された符号化データがタグの符号化データであるか
    否かを判別するタグ符号判別部と、 該タグ符号判別部において該符号化データがタグである
    と判別されると、該タグ復号表に基づいて該符号化デー
    タを復号する一方、該タグ符号判別部において該符号化
    データがタグでないと判別されると、該符号化データを
    所定の復号方式で復号する復号処理部とをそなえたこと
    を特徴とする、タグ文書の復元装置。
  24. 【請求項24】 該タグ符号判別部が、 該タグ抽出部で抽出された該タグに基づいてタグの始ま
    りを示す開始タグを検出することにより該符号化データ
    が該タグであると判別するように構成されていることを
    特徴とする、請求項23記載のタグ文書の復元装置。
  25. 【請求項25】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ符
    号/復号表を作成するタグ符号/復号表作成部と、 該タグ符号/復号表作成部により作成された該タグ符号
    /復号表に基づいて、該文書実現部内の該タグを符号化
    するタグ符号化部と、 該タグ符号/復号表作成部により作成された該タグ符号
    /復号表に基づいて、該タグ符号化部によって符号化さ
    れた該文書実現部内の該タグを復号するタグ復号部とを
    そなえたことを特徴とする、タグ文書の圧縮/復元装
    置。
  26. 【請求項26】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元装置であって、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、 該タグ抽出部により抽出された該タグに基づいて、該文
    書型定義部内の該タグに所定の符号を割り当ててタグ符
    号/復号表を作成するタグ符号/復号表作成部と、 入力された該文書実現部のデータが該タグ抽出部により
    抽出された該タグであるか否かを判別するタグ判別部
    と、 該タグ判別部において上記の入力データが該タグである
    と判別されると、該タグ符号/復号表に基づいて該入力
    データを符号化する一方、該タグ判別部において該入力
    データが該タグでないと判別されると、該入力データを
    所定の符号化方式で符号化する符号化処理部と、 該タグ判別部において上記の入力データが該タグである
    と判別されると、該入力データの符号化前に、タグの符
    号化を示す特殊コードを出力する特殊コード出力部と、 該符号化処理部から出力される符号化データが該特殊コ
    ードであるか否かを判別する特殊コード判別部と、 該特殊コード判別部において該符号化データが該特殊コ
    ードであると判別されると、該特殊コードの後に該符号
    化処理部から出力される符号化データを該タグ符号/復
    号表に基づいて復号する一方、該特殊コード判別部にお
    いて該符号化データが該特殊コードでないと判別される
    と、該符号化処理部から出力される符号化データを所定
    の復号方式で復号する復号処理部とをそなえたことを特
    徴とする、タグ文書の圧縮/復元装置。
  27. 【請求項27】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ符号表を作成し、該タグ符号表に基づいて、該文書実
    現部内の該タグを符号化することを特徴とする、タグ文
    書の圧縮方法。
  28. 【請求項28】 同一の文書型定義部を有する複数のタ
    グ文書については、最初のタグ文書について作成された
    タグ符号表に基づいて、全てのタグ文書の該文書実現部
    内のタグに対する符号化を行なうことを特徴とする、請
    求項27記載のタグ文書の圧縮方法。
  29. 【請求項29】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ符号表を作成し、 入力された該文書実現部のデータがタグである場合は、
    タグの符号化を示す特殊コードを該タグの復号側へ出力
    した後、該タグ符号表に基づいて該入力データを符号化
    する一方、該入力データが該タグでない場合は該入力デ
    ータを所定の符号化方式で符号化することを特徴とす
    る、タグ文書の圧縮方法。
  30. 【請求項30】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ符号表を作成し、 入力された該文書実現部のデータがタグである場合は該
    タグ符号表に基づいて該入力データを符号化する一方、
    該入力データがタグでない場合は該入力データを所定の
    符号化方式で符号化することを特徴とする、タグ文書の
    圧縮方法。
  31. 【請求項31】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ復号表を作成し、 該タグ復号表に基づいて、符号化された該文書実現部内
    の該タグを復号することを特徴とする、タグ文書の復元
    方法。
  32. 【請求項32】 同一の文書型定義部を有する複数のタ
    グ文書については、最初のタグ文書について作成された
    タグ復号表に基づいて、全てのタグ文書の文書実現部に
    対するタグの復号を行なうことを特徴とする、請求項3
    1記載のタグ文書の復元方法。
  33. 【請求項33】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ復号表を作成し、 入力された符号化データが、タグの符号化データが入力
    されることを示す特殊コードである場合は、その特殊コ
    ードの後に入力される符号化データを該タグ復号表に基
    づいて復号する一方、入力された符号化データが該特殊
    コードでない場合は、その符号化データを所定の復号方
    式で復号することを特徴とする、タグ文書の復元方法。
  34. 【請求項34】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ復号表を作成し、 入力された符号化データがタグの符号化データである場
    合は、該タグ復号表に基づいて該符号化データを復号す
    る一方、入力された符号化データがタグの符号化データ
    でない場合は、該符号化データを所定の復号方式で復号
    することを特徴とする、タグ文書の復元方法。
  35. 【請求項35】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ符号/復号表を作成し、 該タグ符号/復号表に基づいて該文書実現部内の該タグ
    を符号化する一方、符号化された該タグを該タグ符号/
    復号表に基づいて復号することを特徴とする、タグ文書
    の圧縮/復元方法。
  36. 【請求項36】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元方法であって、 該文書型定義部内の該タグに所定の符号を割り当ててタ
    グ符号/復号表を作成し、 入力された該文書実現部のデータがタグである場合は、
    タグの符号化を示す特殊コードを出力した後、該タグ符
    号/復号表に基づいて該入力データを符号化する一方、
    該入力データがタグでない場合は、該入力データを所定
    の符号化方式で符号化するとともに、 符号化データの復号に際しては、該符号化データが該特
    殊コードであれば、該特殊コードの後の符号化データを
    該タグ符号/復号表に基づいて復号する一方、該符号化
    データが特殊コードでなければ、該符号化データを所定
    の復号方式で復号することを特徴とする、タグ文書の圧
    縮/復元方法。
  37. 【請求項37】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮プログラムを記録したコンピ
    ュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて、該文書型定義部内の該タグに所定の
    符号を割り当ててタグ符号表を作成するタグ符号表作成
    部と、該タグ符号表作成部により作成された該タグ符号
    表に基づいて、該文書実現部内の該タグを符号化するタ
    グ符号化部として機能させるためのタグ文書の圧縮プロ
    グラムが記録されていることを特徴とする、タグ文書の
    圧縮プログラムを記録したコンピュータ読み取り可能な
    記録媒体。
  38. 【請求項38】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮するタグ文書の圧縮プログラムを記録したコンピ
    ュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて、該文書型定義部内の該タグに所定の
    符号を割り当ててタグ符号表を作成するタグ符号表作成
    部と、入力された該文書実現部のデータが該タグ抽出部
    により抽出された該タグであるか否かを判別するタグ判
    別部と、該タグ判別部において上記の入力データが該タ
    グであると判別されると、該タグ符号表に基づいて該入
    力データを符号化する一方、該タグ判別部において該入
    力データが該タグでないと判別されると、該入力データ
    を所定の符号化方式で符号化する符号化処理部と、該タ
    グ判別部において上記の入力データが該タグであると判
    別されると、該入力データの符号化前に、タグの符号化
    を示す特殊コードを該タグの復号側へ出力する特殊コー
    ド出力部として機能させるためのタグ文書の圧縮プログ
    ラムが記録されていることを特徴とする、タグ文書の圧
    縮プログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  39. 【請求項39】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元プログラムを記録し
    たコンピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて、該文書型定義部内の該タグに所定の
    符号を割り当ててタグ復号表を作成するタグ復号表作成
    部と、該タグ復号表作成部により作成された該タグ復号
    表に基づいて、符号化された該文書実現部内の該タグを
    復号するタグ復号部として機能させるためのタグ文書の
    復元プログラムが記録されていることを特徴とする、タ
    グ文書の復元プログラムを記録したコンピュータ読み取
    り可能な記録媒体。
  40. 【請求項40】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有する符号化後のタグ文書
    を復号して復元するタグ文書の復元プログラムを記録し
    たコンピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて、該文書型定義部内の該タグに所定の
    符号を割り当ててタグ復号表を作成するタグ復号表作成
    部と、入力された符号化データが、タグの符号化データ
    が入力されることを示す特殊コードであるか否かを判別
    する特殊コード判別部と、該特殊コード判別部において
    該符号化データが該特殊コードであると判別されると、
    該特殊コードの後に入力される符号化データを該タグ復
    号表に基づいて復号する一方、該特殊コード判別部にお
    いて該符号化データが該特殊コードでないと判別される
    と、該符号化データを所定の復号方式で復号する復号処
    理部として機能させるためのタグ文書の復元プログラム
    が記録されていることを特徴とする、タグ文書の復元プ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
  41. 【請求項41】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元プログラムを記録したコン
    ピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて該文書型定義部内の該タグに所定の符
    号を割り当ててタグ符号/復号表を作成するタグ符号/
    復号表作成部と、該タグ符号/復号表作成部により作成
    された該タグ符号/復号表に基づいて該文書実現部内の
    該タグを符号化するタグ符号化部と、該タグ符号/復号
    表作成部により作成された該タグ符号/復号表に基づい
    て該タグ符号化部によって符号化された該文書実現部内
    の該タグを復号するタグ復号部として機能させるための
    タグ文書の圧縮/復元プログラムが記録されていること
    を特徴とする、タグ文書の圧縮/復元プログラムを記録
    したコンピュータ読み取り可能な記録媒体。
  42. 【請求項42】 文書構造を示すタグを定義した文書型
    定義部と該文書型定義部に定義されている該タグを用い
    て記述された文書実現部とを有するタグ文書を符号化し
    て圧縮する一方、符号化された該タグ文書を復号して復
    元するタグ文書の圧縮/復元プログラムを記録したコン
    ピュータ読み取り可能な記録媒体であって、 該コンピュータを、 入力されたタグ文書の文書型定義部を走査して該タグを
    抽出するタグ抽出部と、該タグ抽出部により抽出された
    該タグに基づいて該文書型定義部内の該タグに所定の符
    号を割り当ててタグ符号/復号表を作成するタグ符号/
    復号表作成部と、入力された該文書実現部のデータが該
    タグ抽出部により抽出された該タグであるか否かを判別
    するタグ判別部と、該タグ判別部において上記の入力デ
    ータが該タグであると判別されると該タグ符号/復号表
    に基づいて該入力データを符号化する一方、該タグ判別
    部において該入力データが該タグでないと判別されると
    該入力データを所定の符号化方式で符号化する符号化処
    理部と、該タグ判別部において上記の入力データが該タ
    グであると判別されると該入力データの符号化前にタグ
    の符号化を示す特殊コードを出力する特殊コード出力部
    と、該符号化処理部から出力される符号化データが該特
    殊コードであるか否かを判別する特殊コード判別部と、
    該特殊コード判別部において該符号化データが該特殊コ
    ードであると判別されると該特殊コードの後に該符号化
    処理部から出力される符号化データを該タグ符号/復号
    表に基づいて復号する一方、該特殊コード判別部におい
    て該符号化データが該特殊コードでないと判別されると
    該符号化データを所定の復号方式で復号する復号処理部
    として機能させるためのタグ文書の圧縮/復元プログラ
    ムが記録されていることを特徴とする、タグ文書の圧縮
    /復元プログラムを記録したコンピュータ読み取り可能
    な記録媒体。
JP21091597A 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3859313B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP21091597A JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US09/050,104 US6330574B1 (en) 1997-08-05 1998-03-30 Compression/decompression of tags in markup documents by creating a tag code/decode table based on the encoding of tags in a DTD included in the documents
EP98302590A EP0896284A1 (en) 1997-08-05 1998-04-02 Compressing and decompressing data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21091597A JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1153349A true JPH1153349A (ja) 1999-02-26
JP3859313B2 JP3859313B2 (ja) 2006-12-20

Family

ID=16597179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21091597A Expired - Fee Related JP3859313B2 (ja) 1997-08-05 1997-08-05 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US6330574B1 (ja)
EP (1) EP0896284A1 (ja)
JP (1) JP3859313B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002044348A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ファクシミリサーバ
JP2002044347A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ネットワークシステム
JP2003263461A (ja) * 2002-03-08 2003-09-19 Just Syst Corp 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム
JP2004015743A (ja) * 2002-06-11 2004-01-15 Vehicle Information & Communication System Center 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法
JP2004514966A (ja) * 2000-10-17 2004-05-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Mpeg−7インスタンス用の二進フォーマット
JP2004528737A (ja) * 2000-11-07 2004-09-16 ユーアイエボルーション・インコーポレーテッド 構成要素発生頻度に基づく圧縮形式でデータ構造を送信および受信するための方法および装置
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
JP2007141247A (ja) * 2005-11-21 2007-06-07 Sap Ag 電子ビジネス通信におけるデータ要素の使用の追跡
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311223B1 (en) * 1997-11-03 2001-10-30 International Business Machines Corporation Effective transmission of documents in hypertext markup language (HTML)
JP4003854B2 (ja) * 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6964011B1 (en) * 1998-11-26 2005-11-08 Canon Kabushiki Kaisha Document type definition generating method and apparatus, and storage medium for storing program
GB9911099D0 (en) * 1999-05-13 1999-07-14 Euronet Uk Ltd Compression/decompression method
JP2000339312A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書編集システム及びタグ情報管理テーブル作成方法
JP4776050B2 (ja) * 1999-07-13 2011-09-21 ソニー株式会社 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法
AU8035100A (en) * 1999-09-10 2001-04-10 General Instrument Corporation Method and apparatus for compressing scripting language content
US6732330B1 (en) * 1999-09-30 2004-05-04 International Business Machines Corporation Scripting language blocks to support multiple scripting languages in a single web page
US7266766B1 (en) 1999-09-30 2007-09-04 International Business Machines Corporation Method for developing a custom tagbean
US6981212B1 (en) 1999-09-30 2005-12-27 International Business Machines Corporation Extensible markup language (XML) server pages having custom document object model (DOM) tags
US6981211B1 (en) 1999-09-30 2005-12-27 International Business Machines Corporation Method for processing a document object model (DOM) tree using a tagbean
US6718516B1 (en) 1999-09-30 2004-04-06 International Business Machines Corporation Method for verifying context between multiple related XML tags in document object model (DOM)
US6675354B1 (en) 1999-11-18 2004-01-06 International Business Machines Corporation Case-insensitive custom tag recognition and handling
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US6883137B1 (en) * 2000-04-17 2005-04-19 International Business Machines Corporation System and method for schema-driven compression of extensible mark-up language (XML) documents
US6789229B1 (en) 2000-04-19 2004-09-07 Microsoft Corporation Document pagination based on hard breaks and active formatting tags
US7814408B1 (en) * 2000-04-19 2010-10-12 Microsoft Corporation Pre-computing and encoding techniques for an electronic document to improve run-time processing
KR100933387B1 (ko) 2000-04-24 2009-12-22 비자 인터내셔날 써비스 어쏘시에이션 온라인 지불인 인증 서비스
US7600183B2 (en) * 2000-06-16 2009-10-06 Olive Software Inc. System and method for data publication through web pages
US7080314B1 (en) * 2000-06-16 2006-07-18 Lucent Technologies Inc. Document descriptor extraction method
US6938204B1 (en) * 2000-08-31 2005-08-30 International Business Machines Corporation Array-based extensible document storage format
US6904562B1 (en) * 2000-08-31 2005-06-07 International Business Machines Corporation Machine-oriented extensible document representation and interchange notation
US20020138518A1 (en) * 2000-12-27 2002-09-26 Kddi Corporation Method and system for code processing of document data
US7415669B1 (en) 2001-02-27 2008-08-19 Open Invention Network Method and apparatus for viewing electronic commerce-related documents
US7036072B1 (en) 2001-12-18 2006-04-25 Jgr Acquisition, Inc. Method and apparatus for declarative updating of self-describing, structured documents
US20020138526A1 (en) * 2001-03-20 2002-09-26 International Business Machines Corporation Javascript code optimizer
US7134075B2 (en) * 2001-04-26 2006-11-07 International Business Machines Corporation Conversion of documents between XML and processor efficient MXML in content based routing networks
FR2826754B1 (fr) * 2001-06-29 2004-02-06 Canon Kk Procede et dispositif d'indexation reppresente avec un langage de balisage
US20030121005A1 (en) * 2001-12-20 2003-06-26 Axel Herbst Archiving and retrieving data objects
EP1324221A3 (en) * 2001-12-21 2003-12-03 Sap Ag Storing data objects either in database or in archive
JP3997790B2 (ja) * 2002-02-15 2007-10-24 コニカミノルタビジネステクノロジーズ株式会社 プログラム及びスタイルシート選択装置
JP3888621B2 (ja) * 2002-02-21 2007-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書処理システム、文書処理方法及びプログラム
GB2385686A (en) * 2002-02-25 2003-08-27 Oracle Corp Mark-up language conversion
US7707120B2 (en) * 2002-04-17 2010-04-27 Visa International Service Association Mobile account authentication service
US7032170B2 (en) * 2002-06-03 2006-04-18 General Electric Company Creating data structures from a form file and creating a web page in conjunction with corresponding data structures
US8645862B2 (en) * 2002-06-28 2014-02-04 International Business Machines Corporation Displaying and executing web services in multiple content domains
AU2003250302A1 (en) * 2002-07-15 2004-03-03 Siemens Aktiengesellschaft Method and devices for encoding/decoding structured documents, especially xml documents
AU2003267149B2 (en) 2002-09-10 2010-03-11 Visa International Service Association Data authentication and provisioning method and system
US7409440B1 (en) 2002-12-12 2008-08-05 F5 Net Works, Inc. User defined data items
US7296263B1 (en) * 2002-12-12 2007-11-13 F5 Networks, Inc. Method and system for performing operations on data using XML streams
US7415665B2 (en) * 2003-01-15 2008-08-19 At&T Delaware Intellectual Property, Inc. Methods and systems for compressing markup language files
WO2004073278A1 (en) * 2003-02-14 2004-08-26 Research In Motion Limited System and method of compact messaging in network communications
CN100578942C (zh) * 2003-02-14 2010-01-06 捷讯研究有限公司 用于压缩以结构化定义语言表达的无线应用程序的系统和方法
US7308458B2 (en) 2003-06-11 2007-12-11 Wtviii, Inc. System for normalizing and archiving schemas
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
EP1654675A1 (en) * 2003-07-08 2006-05-10 Telefonaktiebolaget LM Ericsson (publ) Method for compressing markup languages files, by replacing a long word with a shorter word
US7039394B2 (en) * 2003-11-25 2006-05-02 Good Technology, Inc. Communication system and method for compressing information sent by a communication device to a target portable communication device
US8762283B2 (en) 2004-05-03 2014-06-24 Visa International Service Association Multiple party benefit from an online authentication service
JP2005327154A (ja) * 2004-05-17 2005-11-24 Fujitsu Ltd Htmlファイル処理方法及びプログラム
US7735001B2 (en) * 2005-02-11 2010-06-08 Fujitsu Limited Method and system for decoding encoded documents
US20060288028A1 (en) * 2005-05-26 2006-12-21 International Business Machines Corporation Decompressing electronic documents
CN101529807B (zh) * 2006-11-02 2011-02-02 中兴通讯股份有限公司 一种网管系统通用的接口实现方法及其系统
US7836396B2 (en) * 2007-01-05 2010-11-16 International Business Machines Corporation Automatically collecting and compressing style attributes within a web document
US20090044101A1 (en) * 2007-08-07 2009-02-12 Wtviii, Inc. Automated system and method for creating minimal markup language schemas for a framework of markup language schemas
US8121117B1 (en) 2007-10-01 2012-02-21 F5 Networks, Inc. Application layer network traffic prioritization
JP5379372B2 (ja) 2007-11-15 2013-12-25 キヤノン株式会社 データ圧縮装置、データ伸長装置およびデータ圧縮方法
US20100146410A1 (en) * 2008-12-10 2010-06-10 Barrett Kreiner Markup language stream compression using a data stack
US9558164B1 (en) 2008-12-31 2017-01-31 F5 Networks, Inc. Methods and system for converting WSDL documents into XML schema
US8438558B1 (en) 2009-03-27 2013-05-07 Google Inc. System and method of updating programs and data
JP5507295B2 (ja) * 2009-06-05 2014-05-28 株式会社ミツトヨ 信号処理装置、および信号変換伝送システム
US10721269B1 (en) 2009-11-06 2020-07-21 F5 Networks, Inc. Methods and system for returning requests with javascript for clients before passing a request to a server
US8806056B1 (en) 2009-11-20 2014-08-12 F5 Networks, Inc. Method for optimizing remote file saves in a failsafe way
US11140178B1 (en) 2009-11-23 2021-10-05 F5 Networks, Inc. Methods and system for client side analysis of responses for server purposes
US9069731B2 (en) * 2009-12-29 2015-06-30 Olive Software Inc. System and method for providing online versions of print-medium publications
US9420049B1 (en) 2010-06-30 2016-08-16 F5 Networks, Inc. Client side human user indicator
US9503375B1 (en) 2010-06-30 2016-11-22 F5 Networks, Inc. Methods for managing traffic in a multi-service environment and devices thereof
US8347100B1 (en) 2010-07-14 2013-01-01 F5 Networks, Inc. Methods for DNSSEC proxying and deployment amelioration and systems thereof
US10296653B2 (en) 2010-09-07 2019-05-21 F5 Networks, Inc. Systems and methods for accelerating web page loading
WO2012158854A1 (en) 2011-05-16 2012-11-22 F5 Networks, Inc. A method for load balancing of requests' processing of diameter servers
US8396836B1 (en) 2011-06-30 2013-03-12 F5 Networks, Inc. System for mitigating file virtualization storage import latency
US8463850B1 (en) 2011-10-26 2013-06-11 F5 Networks, Inc. System and method of algorithmically generating a server side transaction identifier
US10230566B1 (en) 2012-02-17 2019-03-12 F5 Networks, Inc. Methods for dynamically constructing a service principal name and devices thereof
US9244843B1 (en) 2012-02-20 2016-01-26 F5 Networks, Inc. Methods for improving flow cache bandwidth utilization and devices thereof
US9020912B1 (en) 2012-02-20 2015-04-28 F5 Networks, Inc. Methods for accessing data in a compressed file system and devices thereof
WO2013163648A2 (en) 2012-04-27 2013-10-31 F5 Networks, Inc. Methods for optimizing service of content requests and devices thereof
US10033837B1 (en) 2012-09-29 2018-07-24 F5 Networks, Inc. System and method for utilizing a data reducing module for dictionary compression of encoded data
US9578090B1 (en) 2012-11-07 2017-02-21 F5 Networks, Inc. Methods for provisioning application delivery service and devices thereof
US10375155B1 (en) 2013-02-19 2019-08-06 F5 Networks, Inc. System and method for achieving hardware acceleration for asymmetric flow connections
US9876507B2 (en) 2013-02-22 2018-01-23 Sap Se Semantic compression of structured data
US9497614B1 (en) 2013-02-28 2016-11-15 F5 Networks, Inc. National traffic steering device for a better control of a specific wireless/LTE network
US10187317B1 (en) 2013-11-15 2019-01-22 F5 Networks, Inc. Methods for traffic rate control and devices thereof
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
CN105323103B (zh) * 2014-08-01 2019-11-05 中兴通讯股份有限公司 网络运维系统及其兼容网管系统报文变化的方法
US10182013B1 (en) 2014-12-01 2019-01-15 F5 Networks, Inc. Methods for managing progressive image delivery and devices thereof
US11895138B1 (en) 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US10834065B1 (en) 2015-03-31 2020-11-10 F5 Networks, Inc. Methods for SSL protected NTLM re-authentication and devices thereof
US10505818B1 (en) 2015-05-05 2019-12-10 F5 Networks. Inc. Methods for analyzing and load balancing based on server health and devices thereof
US11350254B1 (en) 2015-05-05 2022-05-31 F5, Inc. Methods for enforcing compliance policies and devices thereof
US10476992B1 (en) 2015-07-06 2019-11-12 F5 Networks, Inc. Methods for providing MPTCP proxy options and devices thereof
US11757946B1 (en) 2015-12-22 2023-09-12 F5, Inc. Methods for analyzing network traffic and enforcing network policies and devices thereof
US10404698B1 (en) 2016-01-15 2019-09-03 F5 Networks, Inc. Methods for adaptive organization of web application access points in webtops and devices thereof
US12464021B1 (en) 2016-01-20 2025-11-04 F5, Inc. Methods for providing secure access using preemptive measures and devices thereof
US10797888B1 (en) 2016-01-20 2020-10-06 F5 Networks, Inc. Methods for secured SCEP enrollment for client devices and devices thereof
US11178150B1 (en) 2016-01-20 2021-11-16 F5 Networks, Inc. Methods for enforcing access control list based on managed application and devices thereof
US10412198B1 (en) 2016-10-27 2019-09-10 F5 Networks, Inc. Methods for improved transmission control protocol (TCP) performance visibility and devices thereof
US11063758B1 (en) 2016-11-01 2021-07-13 F5 Networks, Inc. Methods for facilitating cipher selection and devices thereof
US10505792B1 (en) 2016-11-02 2019-12-10 F5 Networks, Inc. Methods for facilitating network traffic analytics and devices thereof
US10812266B1 (en) 2017-03-17 2020-10-20 F5 Networks, Inc. Methods for managing security tokens based on security violations and devices thereof
US11122042B1 (en) 2017-05-12 2021-09-14 F5 Networks, Inc. Methods for dynamically managing user access control and devices thereof
US11343237B1 (en) 2017-05-12 2022-05-24 F5, Inc. Methods for managing a federated identity environment using security and access control data and devices thereof
US11223689B1 (en) 2018-01-05 2022-01-11 F5 Networks, Inc. Methods for multipath transmission control protocol (MPTCP) based session migration and devices thereof
US12003422B1 (en) 2018-09-28 2024-06-04 F5, Inc. Methods for switching network packets based on packet data and devices

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB928070A (en) * 1962-02-12 1963-06-06 Mine Safety Appliances Co Pipe flaring tool
US5179378A (en) * 1991-07-30 1993-01-12 University Of South Florida Method and apparatus for the compression and decompression of data using Lempel-Ziv based techniques
US5590317A (en) 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
US5442350A (en) 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
JPH08255155A (ja) 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
US5663721A (en) * 1995-03-20 1997-09-02 Compaq Computer Corporation Method and apparatus using code values and length fields for compressing computer data
JPH0981763A (ja) * 1995-07-07 1997-03-28 Oki Data:Kk 文字・イメージ混在データの圧縮方法及び装置
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
JP3305191B2 (ja) * 1996-03-19 2002-07-22 富士通株式会社 文書管理装置及びデータ圧縮方法及びデータ復元方法
US5673322A (en) * 1996-03-22 1997-09-30 Bell Communications Research, Inc. System and method for providing protocol translation and filtering to access the world wide web from wireless or low-bandwidth networks
US5890172A (en) * 1996-10-08 1999-03-30 Tenretni Dynamics, Inc. Method and apparatus for retrieving data from a network using location identifiers
US5999949A (en) * 1997-03-14 1999-12-07 Crandall; Gary E. Text file compression system utilizing word terminators
US5946697A (en) * 1997-04-22 1999-08-31 Microsoft Corporation Rapid transfer of HTML files
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002044348A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ファクシミリサーバ
JP2002044347A (ja) * 2000-07-28 2002-02-08 Murata Mach Ltd ネットワークシステム
JP2004514966A (ja) * 2000-10-17 2004-05-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Mpeg−7インスタンス用の二進フォーマット
JP2004528737A (ja) * 2000-11-07 2004-09-16 ユーアイエボルーション・インコーポレーテッド 構成要素発生頻度に基づく圧縮形式でデータ構造を送信および受信するための方法および装置
JP2003263461A (ja) * 2002-03-08 2003-09-19 Just Syst Corp 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム
JP2004015743A (ja) * 2002-06-11 2004-01-15 Vehicle Information & Communication System Center 道路交通情報の圧縮符号化送信装置、その解凍復号化受信装置、その圧縮符号化送信方法、及びその解凍復号化受信方法
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
JP2007141247A (ja) * 2005-11-21 2007-06-07 Sap Ag 電子ビジネス通信におけるデータ要素の使用の追跡
JP2016134754A (ja) * 2015-01-19 2016-07-25 富士通株式会社 変換処理プログラム、情報処理装置および変換処理方法

Also Published As

Publication number Publication date
EP0896284A1 (en) 1999-02-10
JP3859313B2 (ja) 2006-12-20
US6330574B1 (en) 2001-12-11

Similar Documents

Publication Publication Date Title
JP3859313B2 (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3305191B2 (ja) 文書管理装置及びデータ圧縮方法及びデータ復元方法
JP3337633B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US5999949A (en) Text file compression system utilizing word terminators
US7277878B2 (en) Variable length file header apparatus and system
US8712977B2 (en) Computer product, information retrieval method, and information retrieval apparatus
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
US6020972A (en) System for performing collective symbol-based compression of a corpus of document images
JP4003854B2 (ja) データ圧縮装置及び復元装置並びにその方法
KR100490240B1 (ko) 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체
JPS59231683A (ja) データ圧縮方法
US8954400B2 (en) Method, system and program product for managing structured data
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
US7379940B1 (en) Focal point compression method and apparatus
Vijayalakshmi et al. LOSSLESS TEXT COMPRESSION FOR UNICODE TAMIL DOCUMENTS.
JPH10261969A (ja) データ圧縮方法および装置
JP2006100973A (ja) データ圧縮装置、及びデータ伸長装置
US8244677B2 (en) Focal point compression method and apparatus
JPH0546358A (ja) テキストデータの圧縮方法
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
Rincy et al. Preprocessed text compression method for Malayalam text files
JP3325326B2 (ja) 電子ファイリング装置
JP4329493B2 (ja) 辞書データ圧縮装置、電子辞書装置及びプログラム
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees