JPH07282040A - 日本語情報圧縮方式 - Google Patents
日本語情報圧縮方式Info
- Publication number
- JPH07282040A JPH07282040A JP6073686A JP7368694A JPH07282040A JP H07282040 A JPH07282040 A JP H07282040A JP 6073686 A JP6073686 A JP 6073686A JP 7368694 A JP7368694 A JP 7368694A JP H07282040 A JPH07282040 A JP H07282040A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- japanese
- code
- conversion
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【目的】日本語情報を分析して短文・文節・単語単位で
コード変換を行うことにより、より高密な圧縮を可能と
する。 【構成】文書ファイル読込み手段2は文書ファイル1に
格納されている圧縮対象となる日本語情報を“文”の単
位で分析し、短文・文節・単語の単位で文字列符号化処
理手段4に符号化要求を行う。文字列変換手段6は対象
文字列について文字列変換用辞書5を検索し、ヒットし
たときには符号表の変換コードを取り出し、属性コード
を付加した日本語情報を圧縮後日本語情報として圧縮フ
ァイル7に格納する。
コード変換を行うことにより、より高密な圧縮を可能と
する。 【構成】文書ファイル読込み手段2は文書ファイル1に
格納されている圧縮対象となる日本語情報を“文”の単
位で分析し、短文・文節・単語の単位で文字列符号化処
理手段4に符号化要求を行う。文字列変換手段6は対象
文字列について文字列変換用辞書5を検索し、ヒットし
たときには符号表の変換コードを取り出し、属性コード
を付加した日本語情報を圧縮後日本語情報として圧縮フ
ァイル7に格納する。
Description
【0001】
【産業上の利用分野】本発明は日本語情報圧縮方式に関
し、特にJIS漢字コードなどの通常1文字が2バイト
コードで表現された日本語情報を圧縮する短文・文節・
単語変換による日本語情報圧縮方式に関する。
し、特にJIS漢字コードなどの通常1文字が2バイト
コードで表現された日本語情報を圧縮する短文・文節・
単語変換による日本語情報圧縮方式に関する。
【0002】
【従来の技術】日本語を圧縮する場合には、日本語文字
が14ビットで表せることに着目して、1文字を2バイ
トに格納するときに発生する余りの2バイトを詰める手
法が通常採用されている。
が14ビットで表せることに着目して、1文字を2バイ
トに格納するときに発生する余りの2バイトを詰める手
法が通常採用されている。
【0003】従来のこの種の技術として挙げられる特開
平2−255977号公報に所載の「日本語文字列情報
圧縮方式」では、2バイトで表現される日本語コードで
表現された日本語情報を圧縮する処理において、特定の
コードの値の日本語処理の連続した塊りを検出する文字
列検出手段(1)と、その塊りに符号を割り当てる符号
化手段(2)とを備えている。
平2−255977号公報に所載の「日本語文字列情報
圧縮方式」では、2バイトで表現される日本語コードで
表現された日本語情報を圧縮する処理において、特定の
コードの値の日本語処理の連続した塊りを検出する文字
列検出手段(1)と、その塊りに符号を割り当てる符号
化手段(2)とを備えている。
【0004】そして、文字列検出手段(1)は処理対象
の日本語情報の先頭に処理ポインタを位置付け、日本語
文字列の文字の前半バイトが16進数の30〜7Eかま
たは25であれば符号化手段(2)を呼び出し、符号化
手段(2)は日本語文字列の文字の前半バイトが16進
数の30〜7Eである文字の連なり、前半バイトが16
進数の25および前半バイトが16進数の21,後半バ
イトが16進数の3Cである文字の連なりを抽出し、抽
出された文字列が符号表に登録されていれば、符号表か
ら登録番号を取り出す。また、登録されていないときに
は、この文字列を次の登録番号で符号表に登録してい
る。
の日本語情報の先頭に処理ポインタを位置付け、日本語
文字列の文字の前半バイトが16進数の30〜7Eかま
たは25であれば符号化手段(2)を呼び出し、符号化
手段(2)は日本語文字列の文字の前半バイトが16進
数の30〜7Eである文字の連なり、前半バイトが16
進数の25および前半バイトが16進数の21,後半バ
イトが16進数の3Cである文字の連なりを抽出し、抽
出された文字列が符号表に登録されていれば、符号表か
ら登録番号を取り出す。また、登録されていないときに
は、この文字列を次の登録番号で符号表に登録してい
る。
【0005】
【発明が解決しようとする課題】日本語情報がJIS漢
字コードによってテキスト形式で表現されている状態を
「1」とすると、前述の従来の圧縮方式による圧縮効果
は約1.14倍を上回る程度で、より大きな圧縮効果を
期待できないという問題点があった。
字コードによってテキスト形式で表現されている状態を
「1」とすると、前述の従来の圧縮方式による圧縮効果
は約1.14倍を上回る程度で、より大きな圧縮効果を
期待できないという問題点があった。
【0006】本発明の目的は、日本語情報を分析して短
文・文節・単語単位でコード変換を行うことにより、よ
り高密な圧縮を可能とする日本語情報圧縮方式を提供す
ることにある。
文・文節・単語単位でコード変換を行うことにより、よ
り高密な圧縮を可能とする日本語情報圧縮方式を提供す
ることにある。
【0007】
【課題を解決するための手段】本発明によれば、日本語
コードが1文字2バイトで表現された日本語情報を圧縮
する日本語情報圧縮方式において、前記日本語情報を日
本語文法に基づいて文の単位で分析して短文・文節・単
語単位でコード変換対象文字列を抽出する文字列検出処
理手段と、統計的研究に基づいて作成された文字列変換
用辞書を索引して前記文字列検出処理手段が抽出した2
文字以上の文字列を符号化する文字列符号化処理手段と
を備えることを特徴とする日本語情報圧縮方式が得られ
る。
コードが1文字2バイトで表現された日本語情報を圧縮
する日本語情報圧縮方式において、前記日本語情報を日
本語文法に基づいて文の単位で分析して短文・文節・単
語単位でコード変換対象文字列を抽出する文字列検出処
理手段と、統計的研究に基づいて作成された文字列変換
用辞書を索引して前記文字列検出処理手段が抽出した2
文字以上の文字列を符号化する文字列符号化処理手段と
を備えることを特徴とする日本語情報圧縮方式が得られ
る。
【0008】また、前記文字列変換用辞書は“短文”単
位符号表群,“文節”単位符号表群および“短文”単位
符号表群に区切られ、それぞれ変換対象文字列と対応す
る変換コードから構成され、前記変換対象文字列には使
用頻度が高く出現率の多い短文,文節および単語が前記
統計的研究に基づいて選択されて登録されていることを
特徴とする日本語情報圧縮方式が得られる。
位符号表群,“文節”単位符号表群および“短文”単位
符号表群に区切られ、それぞれ変換対象文字列と対応す
る変換コードから構成され、前記変換対象文字列には使
用頻度が高く出現率の多い短文,文節および単語が前記
統計的研究に基づいて選択されて登録されていることを
特徴とする日本語情報圧縮方式が得られる。
【0009】
【実施例】次に、本発明について図面を参照して説明す
る。
る。
【0010】図1は本発明の日本語情報圧縮方式の一実
施例を示すブロック図である。
施例を示すブロック図である。
【0011】図1を参照すると、本実施例は圧縮前の日
本語情報を格納する文書ファイル1と、圧縮後の日本語
情報を格納する圧縮ファイル7と、文字列圧縮手段2と
を備えている。
本語情報を格納する文書ファイル1と、圧縮後の日本語
情報を格納する圧縮ファイル7と、文字列圧縮手段2と
を備えている。
【0012】文字列圧縮手段(文字列圧縮プログラム)
2は文書ファイル1から圧縮前の日本語情報を読み込む
文書ファイル読込み手段(文書ファイル読込みプログラ
ム)3と、文字列符号化処理手段4とから構成され、文
字列符号化処理手段4は文字列変換用辞書5を索引して
符号化対象文字列を符号化変換する文字列変換手段(文
字列変換プログラム)6を備えている。
2は文書ファイル1から圧縮前の日本語情報を読み込む
文書ファイル読込み手段(文書ファイル読込みプログラ
ム)3と、文字列符号化処理手段4とから構成され、文
字列符号化処理手段4は文字列変換用辞書5を索引して
符号化対象文字列を符号化変換する文字列変換手段(文
字列変換プログラム)6を備えている。
【0013】なお、文字列変換用辞書5は、使用頻度の
高い単語,出現率の多い文節などを統計的に研究して選
択登録することによって作成されたものである。
高い単語,出現率の多い文節などを統計的に研究して選
択登録することによって作成されたものである。
【0014】次に、本実施例における文字列符号化処理
について図2を併用して説明する。
について図2を併用して説明する。
【0015】図2は図1における文字列符号化処理動作
の流れを示すフローチャートである。
の流れを示すフローチャートである。
【0016】文書ファイル読込み手段3は文書ファイル
1に格納されている圧縮対象となる日本語情報の中から
“文”の単位で文字列を読み込む(ステップS11)。
1に格納されている圧縮対象となる日本語情報の中から
“文”の単位で文字列を読み込む(ステップS11)。
【0017】このとき、“。”で区切られた文以外にも
“〔〕”や“「」”で囲まれた文字列についても文の扱
いとする。
“〔〕”や“「」”で囲まれた文字列についても文の扱
いとする。
【0018】次に、文字列圧縮手段2では、文書ファイ
ル読込み手段3が読み込んだ“文”に対して、「単漢
字」,「漢字」,「アルファベット」,「平仮名」,
「片仮名」の文字の連なりをキーとして分析を行い、符
号化の対象となる文字列と符号化単位(“短文”単位,
“文節”単位,“単語”単位)とを決定する。
ル読込み手段3が読み込んだ“文”に対して、「単漢
字」,「漢字」,「アルファベット」,「平仮名」,
「片仮名」の文字の連なりをキーとして分析を行い、符
号化の対象となる文字列と符号化単位(“短文”単位,
“文節”単位,“単語”単位)とを決定する。
【0019】そして、文書ファイル読込み手段3は文字
列符号化処理手段4のサブルーチンに対して文字列符号
化処理要求を行うが、この文字列符号化処理要求はでき
るだけ長い文字列の“短文”単位から行っていき(S1
2)、この文字列符号化がNGであれば、さらに“文
節”単位(S13),“単語”単位(S14)と単位を
小さくして符号化要求を行う(S15)。
列符号化処理手段4のサブルーチンに対して文字列符号
化処理要求を行うが、この文字列符号化処理要求はでき
るだけ長い文字列の“短文”単位から行っていき(S1
2)、この文字列符号化がNGであれば、さらに“文
節”単位(S13),“単語”単位(S14)と単位を
小さくして符号化要求を行う(S15)。
【0020】このようにして、読み込んた“文”につい
て全文字列の符号化が終了したら(S16)、次の
“文”を読み込み、すべての日本語情報を符号化が終了
する(S17でYESとなる)まで、S11からS16
までの処理を繰り返す。
て全文字列の符号化が終了したら(S16)、次の
“文”を読み込み、すべての日本語情報を符号化が終了
する(S17でYESとなる)まで、S11からS16
までの処理を繰り返す。
【0021】次に、文字列符号化処理手段の動作につい
て図3および図5を併用して説明する。
て図3および図5を併用して説明する。
【0022】図3は図1における文字列符号化処理動作
の流れを示すフローチャート、図5は図1における圧縮
ファイルに格納する圧縮後日本語情報の一例の構成図で
ある。
の流れを示すフローチャート、図5は図1における圧縮
ファイルに格納する圧縮後日本語情報の一例の構成図で
ある。
【0023】図3において、ステップS21は文字列変
換用辞書5の検索処理を表しており、文字列変換手段6
は符号化対象文字列を“短文”,“文節”,“単語”単
位により分岐し(S21a)、文字列変換用辞書5内の
“短文”符号表群,“文節”符号表群,“単語”符号表
群をそれぞれ検索する(S21b,21c,21d)。
換用辞書5の検索処理を表しており、文字列変換手段6
は符号化対象文字列を“短文”,“文節”,“単語”単
位により分岐し(S21a)、文字列変換用辞書5内の
“短文”符号表群,“文節”符号表群,“単語”符号表
群をそれぞれ検索する(S21b,21c,21d)。
【0024】このように、符号化の単位(“短文”,
“文節”,“単語”)に合わせた各符号表群を検索する
ことにより、余分な検索を行わなくて済む。
“文節”,“単語”)に合わせた各符号表群を検索する
ことにより、余分な検索を行わなくて済む。
【0025】次に、S21aおよびS21bの“短文”
および“文節”の検索結果を判定する(S22)。
および“文節”の検索結果を判定する(S22)。
【0026】ここで、S22の検索結果がNGであった
ときには、変換未完了としてリターンコード「NG」を
返却する(S26)。また、S22で検索結果がOKで
あったときには、文字列変換手段6は文字列変換用辞書
5の符号表に従って変換コードを取り出して符号化を行
い、このときに圧縮した文字列の単位が短文か文節か単
語か無変換かを示す2ビットの属性コードを付加し、図
5に示す18ビットで表現される圧縮後の日本語情報を
圧縮ファイル7の圧縮後日本語情報エリアに格納する
(S24)。
ときには、変換未完了としてリターンコード「NG」を
返却する(S26)。また、S22で検索結果がOKで
あったときには、文字列変換手段6は文字列変換用辞書
5の符号表に従って変換コードを取り出して符号化を行
い、このときに圧縮した文字列の単位が短文か文節か単
語か無変換かを示す2ビットの属性コードを付加し、図
5に示す18ビットで表現される圧縮後の日本語情報を
圧縮ファイル7の圧縮後日本語情報エリアに格納する
(S24)。
【0027】次に、S21cの“単語”の検索結果を判
定する(S23)。
定する(S23)。
【0028】ここでS23の検索結果がOKであったと
きには、S24に進む。また、S23の検索結果がNG
であったときには、これ以上文字列を区切って符号化す
る必要がないため、無変換を示す属性コードを付加し、
JIS漢字コードの単位でそのままの日本語情報を圧縮
ファイル7の圧縮後日本語情報エリアに格納する(S2
5)。
きには、S24に進む。また、S23の検索結果がNG
であったときには、これ以上文字列を区切って符号化す
る必要がないため、無変換を示す属性コードを付加し、
JIS漢字コードの単位でそのままの日本語情報を圧縮
ファイル7の圧縮後日本語情報エリアに格納する(S2
5)。
【0029】S24およびS25においてコード変換が
完了したときには、変換完了としてリターンコード「O
K」を返却する(S27)。
完了したときには、変換完了としてリターンコード「O
K」を返却する(S27)。
【0030】S26およびS27においてそれぞれリタ
ーンコードを返却した時点で文字列符号化処理は終了す
る。
ーンコードを返却した時点で文字列符号化処理は終了す
る。
【0031】次に、本実施例における文字列変換用辞書
について図4を参照して説明する。
について図4を参照して説明する。
【0032】図4は図1における文字列変換用辞書の一
例の構成を示す図である。
例の構成を示す図である。
【0033】図4において、符号表群は“短文”単位符
号表群,“文節”単位符号表群および“短文”単位符号
表群に区切られており、それぞれ変換対象文字列と対応
する変換コードが指示されている。
号表群,“文節”単位符号表群および“短文”単位符号
表群に区切られており、それぞれ変換対象文字列と対応
する変換コードが指示されている。
【0034】ここで、変換対象文字列には、使用頻度の
高い、また出現率の多い短文,文節,単語が統計的研究
に基づいて選択されて登録されていることが前提とな
る。
高い、また出現率の多い短文,文節,単語が統計的研究
に基づいて選択されて登録されていることが前提とな
る。
【0035】また、変換対象となる日本語情報の性質に
合わせて複数の文字列変換用辞書を用意することも可能
である。
合わせて複数の文字列変換用辞書を用意することも可能
である。
【0036】次に、本実施例における圧縮後日本語情報
エリアに格納される日本語情報について図5を参照して
説明する。
エリアに格納される日本語情報について図5を参照して
説明する。
【0037】図5において、属性コードは符号化の終了
した文字列に対して格納する際に付加される2ビットの
コード情報である。これは変換単位を表し、B’00が
無変換、B’01が単語、B’10が文節、B’11が
短文単位でコード変換された情報が格納されていること
を区別している。
した文字列に対して格納する際に付加される2ビットの
コード情報である。これは変換単位を表し、B’00が
無変換、B’01が単語、B’10が文節、B’11が
短文単位でコード変換された情報が格納されていること
を区別している。
【0038】また、日本語コード情報は属性コードに対
応し、属性コードがB’00(無変換)の時にはJIS
漢字コードがそのまま登録され、属性コードがB’00
以外(無変換以外)の時には文字列変換用辞書5の変換
コードが登録されている。
応し、属性コードがB’00(無変換)の時にはJIS
漢字コードがそのまま登録され、属性コードがB’00
以外(無変換以外)の時には文字列変換用辞書5の変換
コードが登録されている。
【0039】圧縮された日本語情報を復元する場合に
は、この属性コードおよび日本語コード情報の内容に基
づき、属性コードが無変換(B’00)である時にはそ
のままの形で日本語コード情報を取り出し、無変換以外
(B’00以外)である時には文字列変換用辞書5の対
応する符号表群(図4に示す“短文”単位符号表群,
“文節”単位符号表群および“短文”単位符号表群)の
中から日本語コード情報の値で索引して所望の文字列情
報を取り出す。
は、この属性コードおよび日本語コード情報の内容に基
づき、属性コードが無変換(B’00)である時にはそ
のままの形で日本語コード情報を取り出し、無変換以外
(B’00以外)である時には文字列変換用辞書5の対
応する符号表群(図4に示す“短文”単位符号表群,
“文節”単位符号表群および“短文”単位符号表群)の
中から日本語コード情報の値で索引して所望の文字列情
報を取り出す。
【0040】本実施例では、この手法で復元することに
より、文字列変換用辞書が変わらない限り、論理的には
復元の失敗はあり得ない。
より、文字列変換用辞書が変わらない限り、論理的には
復元の失敗はあり得ない。
【0041】次に、検索のヒット率およびヒットした文
字列の平均文字数により本実施例の効果について説明す
る。ヒット率が0のときには平均文字数は1となり、属
性コードを付加する分だけ圧縮比は112.5%となっ
て効果はマイナスであるが、ヒット率が50%で平均文
字数が3文字のときには圧縮比は75%まで向上する。
また、ヒット率が70%で平均文字数が5文字であれば
圧縮比は約50%、さらに、ヒット率が90%で平均文
字数が6文字であれば圧縮比は約30%となって、2倍
以上の圧縮効果が得られる。
字列の平均文字数により本実施例の効果について説明す
る。ヒット率が0のときには平均文字数は1となり、属
性コードを付加する分だけ圧縮比は112.5%となっ
て効果はマイナスであるが、ヒット率が50%で平均文
字数が3文字のときには圧縮比は75%まで向上する。
また、ヒット率が70%で平均文字数が5文字であれば
圧縮比は約50%、さらに、ヒット率が90%で平均文
字数が6文字であれば圧縮比は約30%となって、2倍
以上の圧縮効果が得られる。
【0042】
【発明の効果】以上説明したように本発明は、日本語コ
ードが1文字2バイトで表現された日本語情報を圧縮す
る日本語情報圧縮方式において、日本語情報を日本語文
法に基づいて文の単位で分析して短文・文節・単語単位
でコード変換対象文字列を抽出する文字列検出処理手段
と、統計的研究に基づいて作成された文字列変換用辞書
を索引して文字列検出処理手段が抽出した2文字以上の
文字列を符号化する文字列符号化処理手段とを備えるこ
とにより、文字列変換用辞書を検索してヒットする文字
列が多ければ多いほど、また長ければ長いほど、高密な
圧縮が可能になるという効果を有する。
ードが1文字2バイトで表現された日本語情報を圧縮す
る日本語情報圧縮方式において、日本語情報を日本語文
法に基づいて文の単位で分析して短文・文節・単語単位
でコード変換対象文字列を抽出する文字列検出処理手段
と、統計的研究に基づいて作成された文字列変換用辞書
を索引して文字列検出処理手段が抽出した2文字以上の
文字列を符号化する文字列符号化処理手段とを備えるこ
とにより、文字列変換用辞書を検索してヒットする文字
列が多ければ多いほど、また長ければ長いほど、高密な
圧縮が可能になるという効果を有する。
【図1】本発明の日本語情報圧縮方式の一実施例を示す
ブロック図である。
ブロック図である。
【図2】図1における文字列符号化処理動作の流れを示
すフローチャートである。
すフローチャートである。
【図3】図1における文字列符号化処理動作の流れを示
すフローチャートである。
すフローチャートである。
【図4】図1における文字列変換用辞書の一例の構成を
示す図である。
示す図である。
【図5】図1における圧縮ファイルに格納する圧縮後日
本語情報の一例の構成図である。
本語情報の一例の構成図である。
1 文書ファイル 2 文字列圧縮手段 3 文書ファイル読込み手段 4 文字列符号化処理手段 5 文字列変換用辞書 6 文字列変換手段 7 圧縮ファイル
Claims (2)
- 【請求項1】 日本語コードが1文字2バイトで表現さ
れた日本語情報を圧縮する日本語情報圧縮方式におい
て、前記日本語情報を日本語文法に基づいて文の単位で
分析して短文・文節・単語単位でコード変換対象文字列
を抽出する文字列検出処理手段と、統計的研究に基づい
て作成された文字列変換用辞書を索引して前記文字列検
出処理手段が抽出した2文字以上の文字列を符号化する
文字列符号化処理手段とを備えることを特徴とする日本
語情報圧縮方式。 - 【請求項2】 前記文字列変換用辞書は“短文”単位符
号表群,“文節”単位符号表群および“短文”単位符号
表群に区切られ、それぞれ変換対象文字列と対応する変
換コードから構成され、前記変換対象文字列には使用頻
度が高く出現率の多い短文,文節および単語が前記統計
的研究に基づいて選択されて登録されていることを特徴
とする請求項1記載の日本語情報圧縮方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6073686A JPH07282040A (ja) | 1994-04-13 | 1994-04-13 | 日本語情報圧縮方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6073686A JPH07282040A (ja) | 1994-04-13 | 1994-04-13 | 日本語情報圧縮方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH07282040A true JPH07282040A (ja) | 1995-10-27 |
Family
ID=13525351
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6073686A Pending JPH07282040A (ja) | 1994-04-13 | 1994-04-13 | 日本語情報圧縮方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07282040A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1185459A (ja) * | 1997-09-01 | 1999-03-30 | Denso Corp | 文字データ符号化方法および記録媒体 |
| JP2003523564A (ja) * | 1999-12-23 | 2003-08-05 | ゼントロニクス プロプライエタリー リミテッド | 縮小化データを記憶及び検索する方法 |
| US7333667B2 (en) | 2004-12-23 | 2008-02-19 | Kabushiki Kaisha Toshiba | Image encoding apparatus and image encoding method |
| KR101396090B1 (ko) * | 2007-02-05 | 2014-05-21 | 주식회사 엘지씨엔에스 | Xml 문서변환장치 및 방법과, 그를 이용한 xml문서처리시스템 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6428751A (en) * | 1987-07-24 | 1989-01-31 | Nec Corp | File compressing device |
| JPS6459437A (en) * | 1987-08-29 | 1989-03-07 | Nec Corp | File compressing system |
| JPH02255964A (ja) * | 1989-01-23 | 1990-10-16 | Sumitomo Metal Ind Ltd | 文書変更部分の自動識別装置 |
| JPH02297180A (ja) * | 1989-03-04 | 1990-12-07 | Nec Corp | 文書編集方式 |
| JPH0338772A (ja) * | 1989-07-05 | 1991-02-19 | Nec Off Syst Ltd | 文字コードデータの圧縮方式 |
-
1994
- 1994-04-13 JP JP6073686A patent/JPH07282040A/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6428751A (en) * | 1987-07-24 | 1989-01-31 | Nec Corp | File compressing device |
| JPS6459437A (en) * | 1987-08-29 | 1989-03-07 | Nec Corp | File compressing system |
| JPH02255964A (ja) * | 1989-01-23 | 1990-10-16 | Sumitomo Metal Ind Ltd | 文書変更部分の自動識別装置 |
| JPH02297180A (ja) * | 1989-03-04 | 1990-12-07 | Nec Corp | 文書編集方式 |
| JPH0338772A (ja) * | 1989-07-05 | 1991-02-19 | Nec Off Syst Ltd | 文字コードデータの圧縮方式 |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1185459A (ja) * | 1997-09-01 | 1999-03-30 | Denso Corp | 文字データ符号化方法および記録媒体 |
| JP2003523564A (ja) * | 1999-12-23 | 2003-08-05 | ゼントロニクス プロプライエタリー リミテッド | 縮小化データを記憶及び検索する方法 |
| US7333667B2 (en) | 2004-12-23 | 2008-02-19 | Kabushiki Kaisha Toshiba | Image encoding apparatus and image encoding method |
| US7599567B2 (en) | 2004-12-23 | 2009-10-06 | Kabushiki Kaisha Toshiba | Image encoding apparatus and image encoding method |
| KR101396090B1 (ko) * | 2007-02-05 | 2014-05-21 | 주식회사 엘지씨엔에스 | Xml 문서변환장치 및 방법과, 그를 이용한 xml문서처리시스템 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101157693B1 (ko) | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 | |
| JP3277792B2 (ja) | データ圧縮方法および装置 | |
| US4955066A (en) | Compressing and decompressing text files | |
| US5109433A (en) | Compressing and decompressing text files | |
| JP3566441B2 (ja) | テキスト圧縮用辞書作成装置 | |
| JP3421700B2 (ja) | データ圧縮装置及び復元装置並びにその方法 | |
| JPH0682370B2 (ja) | 文字処理装置 | |
| JPH06208453A (ja) | テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法 | |
| JP4003854B2 (ja) | データ圧縮装置及び復元装置並びにその方法 | |
| US20040225497A1 (en) | Compressed yet quickly searchable digital textual data format | |
| US5560037A (en) | Compact hyphenation point data | |
| JP4057681B2 (ja) | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 | |
| JPH07282040A (ja) | 日本語情報圧縮方式 | |
| US6731229B2 (en) | Method to reduce storage requirements when storing semi-redundant information in a database | |
| JP2729416B2 (ja) | テキストデータの復元方法 | |
| JPH056398A (ja) | 文書登録装置及び文書検索装置 | |
| Awajan et al. | Hybrid technique for Arabic text compression | |
| JP3253657B2 (ja) | 文書検索方法 | |
| JPH0546358A (ja) | テキストデータの圧縮方法 | |
| JPS6268325A (ja) | 文章圧縮・伸展方式 | |
| WO1996011442A1 (en) | Character information processing method and apparatus for the same | |
| JPH0554077A (ja) | 単語辞書検索装置 | |
| CN100410852C (zh) | 字处理方法和装置 | |
| JPH05241776A (ja) | データ圧縮方式 | |
| JPS63263561A (ja) | 日本語文の圧縮方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19961112 |