JPH07282040A

JPH07282040A - 日本語情報圧縮方式

Info

Publication number: JPH07282040A
Application number: JP6073686A
Authority: JP
Inventors: Kiminori Tada; 公紀多田
Original assignee: NEC Communication Systems Ltd
Current assignee: NEC Communication Systems Ltd
Priority date: 1994-04-13
Filing date: 1994-04-13
Publication date: 1995-10-27

Abstract

(57)【要約】【目的】日本語情報を分析して短文・文節・単語単位で
コード変換を行うことにより、より高密な圧縮を可能と
する。【構成】文書ファイル読込み手段２は文書ファイル１に
格納されている圧縮対象となる日本語情報を“文”の単
位で分析し、短文・文節・単語の単位で文字列符号化処
理手段４に符号化要求を行う。文字列変換手段６は対象
文字列について文字列変換用辞書５を検索し、ヒットし
たときには符号表の変換コードを取り出し、属性コード
を付加した日本語情報を圧縮後日本語情報として圧縮フ
ァイル７に格納する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は日本語情報圧縮方式に関
し、特にＪＩＳ漢字コードなどの通常１文字が２バイト
コードで表現された日本語情報を圧縮する短文・文節・
単語変換による日本語情報圧縮方式に関する。

【０００２】

【従来の技術】日本語を圧縮する場合には、日本語文字
が１４ビットで表せることに着目して、１文字を２バイ
トに格納するときに発生する余りの２バイトを詰める手
法が通常採用されている。

【０００３】従来のこの種の技術として挙げられる特開
平２−２５５９７７号公報に所載の「日本語文字列情報
圧縮方式」では、２バイトで表現される日本語コードで
表現された日本語情報を圧縮する処理において、特定の
コードの値の日本語処理の連続した塊りを検出する文字
列検出手段（１）と、その塊りに符号を割り当てる符号
化手段（２）とを備えている。

【０００４】そして、文字列検出手段（１）は処理対象
の日本語情報の先頭に処理ポインタを位置付け、日本語
文字列の文字の前半バイトが１６進数の３０〜７Ｅかま
たは２５であれば符号化手段（２）を呼び出し、符号化
手段（２）は日本語文字列の文字の前半バイトが１６進
数の３０〜７Ｅである文字の連なり、前半バイトが１６
進数の２５および前半バイトが１６進数の２１，後半バ
イトが１６進数の３Ｃである文字の連なりを抽出し、抽
出された文字列が符号表に登録されていれば、符号表か
ら登録番号を取り出す。また、登録されていないときに
は、この文字列を次の登録番号で符号表に登録してい
る。

【０００５】

【発明が解決しようとする課題】日本語情報がＪＩＳ漢
字コードによってテキスト形式で表現されている状態を
「１」とすると、前述の従来の圧縮方式による圧縮効果
は約１．１４倍を上回る程度で、より大きな圧縮効果を
期待できないという問題点があった。

【０００６】本発明の目的は、日本語情報を分析して短
文・文節・単語単位でコード変換を行うことにより、よ
り高密な圧縮を可能とする日本語情報圧縮方式を提供す
ることにある。

【０００７】

【課題を解決するための手段】本発明によれば、日本語
コードが１文字２バイトで表現された日本語情報を圧縮
する日本語情報圧縮方式において、前記日本語情報を日
本語文法に基づいて文の単位で分析して短文・文節・単
語単位でコード変換対象文字列を抽出する文字列検出処
理手段と、統計的研究に基づいて作成された文字列変換
用辞書を索引して前記文字列検出処理手段が抽出した２
文字以上の文字列を符号化する文字列符号化処理手段と
を備えることを特徴とする日本語情報圧縮方式が得られ
る。

【０００８】また、前記文字列変換用辞書は“短文”単
位符号表群，“文節”単位符号表群および“短文”単位
符号表群に区切られ、それぞれ変換対象文字列と対応す
る変換コードから構成され、前記変換対象文字列には使
用頻度が高く出現率の多い短文，文節および単語が前記
統計的研究に基づいて選択されて登録されていることを
特徴とする日本語情報圧縮方式が得られる。

【０００９】

【実施例】次に、本発明について図面を参照して説明す
る。

【００１０】図１は本発明の日本語情報圧縮方式の一実
施例を示すブロック図である。

【００１１】図１を参照すると、本実施例は圧縮前の日
本語情報を格納する文書ファイル１と、圧縮後の日本語
情報を格納する圧縮ファイル７と、文字列圧縮手段２と
を備えている。

【００１２】文字列圧縮手段（文字列圧縮プログラム）
２は文書ファイル１から圧縮前の日本語情報を読み込む
文書ファイル読込み手段（文書ファイル読込みプログラ
ム）３と、文字列符号化処理手段４とから構成され、文
字列符号化処理手段４は文字列変換用辞書５を索引して
符号化対象文字列を符号化変換する文字列変換手段（文
字列変換プログラム）６を備えている。

【００１３】なお、文字列変換用辞書５は、使用頻度の
高い単語，出現率の多い文節などを統計的に研究して選
択登録することによって作成されたものである。

【００１４】次に、本実施例における文字列符号化処理
について図２を併用して説明する。

【００１５】図２は図１における文字列符号化処理動作
の流れを示すフローチャートである。

【００１６】文書ファイル読込み手段３は文書ファイル
１に格納されている圧縮対象となる日本語情報の中から
“文”の単位で文字列を読み込む（ステップＳ１１）。

【００１７】このとき、“。”で区切られた文以外にも
“〔〕”や“「」”で囲まれた文字列についても文の扱
いとする。

【００１８】次に、文字列圧縮手段２では、文書ファイ
ル読込み手段３が読み込んだ“文”に対して、「単漢
字」，「漢字」，「アルファベット」，「平仮名」，
「片仮名」の文字の連なりをキーとして分析を行い、符
号化の対象となる文字列と符号化単位（“短文”単位，
“文節”単位，“単語”単位）とを決定する。

【００１９】そして、文書ファイル読込み手段３は文字
列符号化処理手段４のサブルーチンに対して文字列符号
化処理要求を行うが、この文字列符号化処理要求はでき
るだけ長い文字列の“短文”単位から行っていき（Ｓ１
２）、この文字列符号化がＮＧであれば、さらに“文
節”単位（Ｓ１３），“単語”単位（Ｓ１４）と単位を
小さくして符号化要求を行う（Ｓ１５）。

【００２０】このようにして、読み込んた“文”につい
て全文字列の符号化が終了したら（Ｓ１６）、次の
“文”を読み込み、すべての日本語情報を符号化が終了
する（Ｓ１７でＹＥＳとなる）まで、Ｓ１１からＳ１６
までの処理を繰り返す。

【００２１】次に、文字列符号化処理手段の動作につい
て図３および図５を併用して説明する。

【００２２】図３は図１における文字列符号化処理動作
の流れを示すフローチャート、図５は図１における圧縮
ファイルに格納する圧縮後日本語情報の一例の構成図で
ある。

【００２３】図３において、ステップＳ２１は文字列変
換用辞書５の検索処理を表しており、文字列変換手段６
は符号化対象文字列を“短文”，“文節”，“単語”単
位により分岐し（Ｓ２１ａ）、文字列変換用辞書５内の
“短文”符号表群，“文節”符号表群，“単語”符号表
群をそれぞれ検索する（Ｓ２１ｂ，２１ｃ，２１ｄ）。

【００２４】このように、符号化の単位（“短文”，
“文節”，“単語”）に合わせた各符号表群を検索する
ことにより、余分な検索を行わなくて済む。

【００２５】次に、Ｓ２１ａおよびＳ２１ｂの“短文”
および“文節”の検索結果を判定する（Ｓ２２）。

【００２６】ここで、Ｓ２２の検索結果がＮＧであった
ときには、変換未完了としてリターンコード「ＮＧ」を
返却する（Ｓ２６）。また、Ｓ２２で検索結果がＯＫで
あったときには、文字列変換手段６は文字列変換用辞書
５の符号表に従って変換コードを取り出して符号化を行
い、このときに圧縮した文字列の単位が短文か文節か単
語か無変換かを示す２ビットの属性コードを付加し、図
５に示す１８ビットで表現される圧縮後の日本語情報を
圧縮ファイル７の圧縮後日本語情報エリアに格納する
（Ｓ２４）。

【００２７】次に、Ｓ２１ｃの“単語”の検索結果を判
定する（Ｓ２３）。

【００２８】ここでＳ２３の検索結果がＯＫであったと
きには、Ｓ２４に進む。また、Ｓ２３の検索結果がＮＧ
であったときには、これ以上文字列を区切って符号化す
る必要がないため、無変換を示す属性コードを付加し、
ＪＩＳ漢字コードの単位でそのままの日本語情報を圧縮
ファイル７の圧縮後日本語情報エリアに格納する（Ｓ２
５）。

【００２９】Ｓ２４およびＳ２５においてコード変換が
完了したときには、変換完了としてリターンコード「Ｏ
Ｋ」を返却する（Ｓ２７）。

【００３０】Ｓ２６およびＳ２７においてそれぞれリタ
ーンコードを返却した時点で文字列符号化処理は終了す
る。

【００３１】次に、本実施例における文字列変換用辞書
について図４を参照して説明する。

【００３２】図４は図１における文字列変換用辞書の一
例の構成を示す図である。

【００３３】図４において、符号表群は“短文”単位符
号表群，“文節”単位符号表群および“短文”単位符号
表群に区切られており、それぞれ変換対象文字列と対応
する変換コードが指示されている。

【００３４】ここで、変換対象文字列には、使用頻度の
高い、また出現率の多い短文，文節，単語が統計的研究
に基づいて選択されて登録されていることが前提とな
る。

【００３５】また、変換対象となる日本語情報の性質に
合わせて複数の文字列変換用辞書を用意することも可能
である。

【００３６】次に、本実施例における圧縮後日本語情報
エリアに格納される日本語情報について図５を参照して
説明する。

【００３７】図５において、属性コードは符号化の終了
した文字列に対して格納する際に付加される２ビットの
コード情報である。これは変換単位を表し、Ｂ’００が
無変換、Ｂ’０１が単語、Ｂ’１０が文節、Ｂ’１１が
短文単位でコード変換された情報が格納されていること
を区別している。

【００３８】また、日本語コード情報は属性コードに対
応し、属性コードがＢ’００（無変換）の時にはＪＩＳ
漢字コードがそのまま登録され、属性コードがＢ’００
以外（無変換以外）の時には文字列変換用辞書５の変換
コードが登録されている。

【００３９】圧縮された日本語情報を復元する場合に
は、この属性コードおよび日本語コード情報の内容に基
づき、属性コードが無変換（Ｂ’００）である時にはそ
のままの形で日本語コード情報を取り出し、無変換以外
（Ｂ’００以外）である時には文字列変換用辞書５の対
応する符号表群（図４に示す“短文”単位符号表群，
“文節”単位符号表群および“短文”単位符号表群）の
中から日本語コード情報の値で索引して所望の文字列情
報を取り出す。

【００４０】本実施例では、この手法で復元することに
より、文字列変換用辞書が変わらない限り、論理的には
復元の失敗はあり得ない。

【００４１】次に、検索のヒット率およびヒットした文
字列の平均文字数により本実施例の効果について説明す
る。ヒット率が０のときには平均文字数は１となり、属
性コードを付加する分だけ圧縮比は１１２．５％となっ
て効果はマイナスであるが、ヒット率が５０％で平均文
字数が３文字のときには圧縮比は７５％まで向上する。
また、ヒット率が７０％で平均文字数が５文字であれば
圧縮比は約５０％、さらに、ヒット率が９０％で平均文
字数が６文字であれば圧縮比は約３０％となって、２倍
以上の圧縮効果が得られる。

【００４２】

【発明の効果】以上説明したように本発明は、日本語コ
ードが１文字２バイトで表現された日本語情報を圧縮す
る日本語情報圧縮方式において、日本語情報を日本語文
法に基づいて文の単位で分析して短文・文節・単語単位
でコード変換対象文字列を抽出する文字列検出処理手段
と、統計的研究に基づいて作成された文字列変換用辞書
を索引して文字列検出処理手段が抽出した２文字以上の
文字列を符号化する文字列符号化処理手段とを備えるこ
とにより、文字列変換用辞書を検索してヒットする文字
列が多ければ多いほど、また長ければ長いほど、高密な
圧縮が可能になるという効果を有する。

【図面の簡単な説明】

【図１】本発明の日本語情報圧縮方式の一実施例を示す
ブロック図である。

【図２】図１における文字列符号化処理動作の流れを示
すフローチャートである。

【図３】図１における文字列符号化処理動作の流れを示
すフローチャートである。

【図４】図１における文字列変換用辞書の一例の構成を
示す図である。

【図５】図１における圧縮ファイルに格納する圧縮後日
本語情報の一例の構成図である。

【符号の説明】

１文書ファイル２文字列圧縮手段３文書ファイル読込み手段４文字列符号化処理手段５文字列変換用辞書６文字列変換手段７圧縮ファイル

Claims

【特許請求の範囲】

【請求項１】日本語コードが１文字２バイトで表現さ
れた日本語情報を圧縮する日本語情報圧縮方式におい
て、前記日本語情報を日本語文法に基づいて文の単位で
分析して短文・文節・単語単位でコード変換対象文字列
を抽出する文字列検出処理手段と、統計的研究に基づい
て作成された文字列変換用辞書を索引して前記文字列検
出処理手段が抽出した２文字以上の文字列を符号化する
文字列符号化処理手段とを備えることを特徴とする日本
語情報圧縮方式。
【請求項２】前記文字列変換用辞書は“短文”単位符
号表群，“文節”単位符号表群および“短文”単位符号
表群に区切られ、それぞれ変換対象文字列と対応する変
換コードから構成され、前記変換対象文字列には使用頻
度が高く出現率の多い短文，文節および単語が前記統計
的研究に基づいて選択されて登録されていることを特徴
とする請求項１記載の日本語情報圧縮方式。