JPH0338772A

JPH0338772A - 文字コードデータの圧縮方式

Info

Publication number: JPH0338772A
Application number: JP1175208A
Authority: JP
Inventors: Isao Kondo; 勲近藤
Original assignee: NEC Office Systems Ltd
Current assignee: NEC Office Systems Ltd
Priority date: 1989-07-05
Filing date: 1989-07-05
Publication date: 1991-02-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、文字コードデータの圧縮方式に関し、特に漢
字の文字コードデータの圧縮方式に関する。

〔従来の技術〕

一般に、日本語ワードプロセッサ等文書作成機等は、漢
字仮名混じり文の処理を行うため日本語データはＪＩＳ
規格（Ｃ−６２２６情報交換用漢字符号系）等を用い、
日本語１字を２バイトで表わし殆んどこの文字コードを
そのままの形で′処理されている。

このデータ処理の効率をあげるには、データの圧縮が必
要で従来の技術として文字コードデータ圧縮方式（特公
昭６ｌ−２３２７２４）があり、第１バイトのうち１ビ
ットまたは複数ビットで１バイト長か、２バイトを区別
し、残りのビット数を語のコード辞書に割り当てる、ま
た、語のコード辞書の数を増やすため、第１バイトを拡
張制御コードとして使い残りの２バイトを語のコード辞
書に割り当て、文字コードデータの文字列を語のコード
と一致をとる手段により圧縮変換する方式〔発明が解決
しようとする課題〕上述した従来の文字コードデータ圧縮方式においては、
使用頻度順に辞書のため低頻度の語に対しては検索に時
間がかかり、また、語コード、文字コードが共に可変長
であるため処理が複雑になったり、圧縮できない語の事
も考慮しなけれ１ばならず、元のバイト数より増加する
こともあるという欠点があった。

本発明の目的は、以上の欠点を解決し容易に検索できる
２文字２バイト、熟語３バイトの固定長である１元の文
字コード列のバイト数より増えない文字コードデータの
圧縮方式を提供することにある。

〔課題を解決するための手段〕本発明の文字コードデータの圧縮方式は、日本語ワード
プロセッサ等で日本語の処理を行うとき、個々の文字は
一般に２バイト（１６ビット〉の固定長で１字を表現し
て１つの言葉を表現する複数の文字列も２バイトのコー
ドデータをそのまま使用する文字コードデータの圧縮方
式において、日本語の漢字仮名混じり文の漢字部分に注
目し、漢字の文字列の組合せの言葉である漢字熟語に対
して、漢字の先頭文字を２バイトで表わし、次の１バイ
トで前記漢字先頭文字で始まる漢字熟語をコード化した
３バイトの漢字熟語のコード辞書を備え、あらかじめ前
記漢字熟語の先頭文字の音訓の読みを五十音順に並べ、
２バイトで表わされた漢字の前記先頭文字により検索し
、前記２バイトで表わされた漢字文字のコードと前記漢
字熟語のコードとの一致をとる手段により、漢字文字コ
ードデータ列を漢字熟語コードデータに圧縮変換し、熟
語として登録されていないために圧縮できない文字列は
そのまま使用することにより、元のバイト数が増えない
ように構成されている。

〔実施例〕

次に本発明について図面を参照して詳細に説明する。

第１図は本発明の一実施例の機能ブロック図で、１は入
力手段、２は文字コード列−時記憶手段、３は文字コー
ド辞書、４は判別手段、５は記憶手段、６は漢字熟語コ
ード辞書、７は漢字熟語コード部、８は文字列コード部
である。第２図は文字コード、漢字熟語コードの構成図
で、第１バイトの最上位ビットが０″の場合は文字コー
ド９゜最上位ビットが１″の場合は漢字熟語コード１０
として区別され、文字コード９は２バイトコードで、残
り１５ビットで３２に字に割り当てられ、漢字熟語コー
ド１０は第１バイト、第２バイトの残り１５ビットで文
字コード９の３２に字に割り当て、第３バイトで熟語の
先頭文字で始まる漢字熟語のコードに割り当てる。

第３図は漢字熟語の一例として漢字１日」で始まる漢字
熟語の例を示している。第４図は漢字熟語コード辞書の
一部で熟語コード１２文字コード１３が示されており、
漢字熟語コード辞書は漢字の読みを五十音順にならべて
おきキーワード１１で検索する。

使用法として第１図より、入力手段１より入力された漢
字かな混じり文の文字列は、文字コード辞書３より該当
文字コードにコード化され、文字列コード−時記憶手段
２に読み出す。読み出された文字コード列は判別手段４
により、漢字熟語コード辞書６の文字列コード部８を検
索し、該当文字列を探す。一致した場合、その漢字熟語
のコード部７のデータを読み出し記憶手段５に格納し、
また一致するものがない場合は文字コード辞書３より読
みだされた文字コードをそのまま記憶手段５に格納する
ことにより圧縮変換する。以後、このコード体系で編集
、出力、格納および伝送等の処理を行う。

なお、第５図はＪＩＳ２バイトコード文字列１４を処理
後の圧縮結果を１５に示す圧縮変換例である。この例で
は２８バイトのコードが２１バイトになり、０．７５に
圧縮されたことを示している。

このように、圧縮出来ない文字コードはそのまま２バイ
トで１字を表現し、また、圧縮される漢字熟語は第１．
第２バイトで漢字文字コードを。

第３バイトでその漢字で始まる漢字熟語コード（番号）
の文字コード２バイト、漢字熟語コード３バイトのコー
ドで統一していることにより処理が簡単である。また、
元のデータ長より増えない、漢字の読みを五十音順にソ
ートし、その個々の漢字をキーワードに使゛うことで低
頻度の熟語に対しても短時間で検索でき、さらに、１つ
の漢字で始まる熟語も２５６種とれるため充分実用化に
供することができ、圧縮結果データ量が減るため処理お
よび伝送速度があがり記憶容量を減らすことができる。

〔発明の効果〕

以上説明したように、本発明の文字コードデー７− タの圧縮方式は、五十音順にソートした漢字文字専用の
漢字熟語コード辞書を設け、文字コードは２バイト、熟
語コードは３バイトに統一した処理方式を採用するこに
より、容易に検索でき、文字２バイト、熟語３バイトの
固定長である１元の文字コード列のバイト数より増えな
い文字コードデータの圧縮を行うことができるという効
果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
文字コード及び漢字熟語コードの構成図、第３図は漢字
「日」で始まる漢字熟語の例を示す図、第４図は漢字熟
語コード辞書（一部）を示す図、第５図は圧縮変換例を
示す図である。１・・・入力手段、２・・・文字コード列−時記憶手段
、３・・・文字コード辞書、４・・・判別手段、５・・
・記憶手段、６・・・漢字熟語コード辞書、７・・・漢
字熟語コード部、８・・・文字列コード部、９・・・文
字コード、１０・・・漢字熟語コード、１１・・・キー
ワード、１２・・・一熟語コード、１３・・・文字列コード、１４・・・ＪＩ
Ｓ２バイトコード、１５・・・処理後の圧縮結果。

Claims

【特許請求の範囲】

日本語ワードプロセッサ等で日本語の処理を行うとき、
個々の文字は一般に２バイト（１６ビット）の固定長で
１字を表現して１つの言葉を表現する複数の文字列も２
バイトのコードデータをそのまま使用する文字コードデ
ータの圧縮方式において、日本語の漢字仮名混じり文の
漢字部分に注目し、漢字の文字列の組合せの言葉である
漢字熟語に対して、漢字の先頭文字を２バイトで表わし
、次の１バイトで前記漢字先頭文字で始まる漢字熟語を
コード化した３バイトの漢字熟語のコード辞書を備え、
あらかじめ前記漢字熟語の先頭文字の音訓の読みを五十
音順に並べ、２バイトで表わされた漢字の前記先頭文字
により検索し、前記２バイトで表わされた漢字文字のコ
ードと前記漢字熟語のコードとの一致をとる手段により
、漢字文字コードデータ列を漢字熟語コードデータに圧
縮変換し、熟語として登録されていないために圧縮でき
ない文字列はそのまま使用することにより、元のバイト
数が増えないように構成されたことを特徴とする文字コ
ードデータ圧縮方式。