JPH0338772A - 文字コードデータの圧縮方式 - Google Patents

文字コードデータの圧縮方式

Info

Publication number
JPH0338772A
JPH0338772A JP1175208A JP17520889A JPH0338772A JP H0338772 A JPH0338772 A JP H0338772A JP 1175208 A JP1175208 A JP 1175208A JP 17520889 A JP17520889 A JP 17520889A JP H0338772 A JPH0338772 A JP H0338772A
Authority
JP
Japan
Prior art keywords
kanji
character
code
bytes
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1175208A
Other languages
English (en)
Inventor
Isao Kondo
勲 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Office Systems Ltd
Original Assignee
NEC Office Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Office Systems Ltd filed Critical NEC Office Systems Ltd
Priority to JP1175208A priority Critical patent/JPH0338772A/ja
Publication of JPH0338772A publication Critical patent/JPH0338772A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字コードデータの圧縮方式に関し、特に漢
字の文字コードデータの圧縮方式に関する。
〔従来の技術〕
一般に、日本語ワードプロセッサ等文書作成機等は、漢
字仮名混じり文の処理を行うため日本語データはJIS
規格(C−6226情報交換用漢字符号系)等を用い、
日本語1字を2バイトで表わし殆んどこの文字コードを
そのままの形で′処理されている。
このデータ処理の効率をあげるには、データの圧縮が必
要で従来の技術として文字コードデータ圧縮方式(特公
昭6l−232724)があり、第1バイトのうち1ビ
ットまたは複数ビットで1バイト長か、2バイトを区別
し、残りのビット数を語のコード辞書に割り当てる、ま
た、語のコード辞書の数を増やすため、第1バイトを拡
張制御コードとして使い残りの2バイトを語のコード辞
書に割り当て、文字コードデータの文字列を語のコード
と一致をとる手段により圧縮変換する方式〔発明が解決
しようとする課題〕 上述した従来の文字コードデータ圧縮方式においては、
使用頻度順に辞書のため低頻度の語に対しては検索に時
間がかかり、また、語コード、文字コードが共に可変長
であるため処理が複雑になったり、圧縮できない語の事
も考慮しなけれ1ばならず、元のバイト数より増加する
こともあるという欠点があった。
本発明の目的は、以上の欠点を解決し容易に検索できる
2文字2バイト、熟語3バイトの固定長である1元の文
字コード列のバイト数より増えない文字コードデータの
圧縮方式を提供することにある。
〔課題を解決するための手段〕 本発明の文字コードデータの圧縮方式は、日本語ワード
プロセッサ等で日本語の処理を行うとき、個々の文字は
一般に2バイト(16ビット〉の固定長で1字を表現し
て1つの言葉を表現する複数の文字列も2バイトのコー
ドデータをそのまま使用する文字コードデータの圧縮方
式において、日本語の漢字仮名混じり文の漢字部分に注
目し、漢字の文字列の組合せの言葉である漢字熟語に対
して、漢字の先頭文字を2バイトで表わし、次の1バイ
トで前記漢字先頭文字で始まる漢字熟語をコード化した
3バイトの漢字熟語のコード辞書を備え、あらかじめ前
記漢字熟語の先頭文字の音訓の読みを五十音順に並べ、
2バイトで表わされた漢字の前記先頭文字により検索し
、前記2バイトで表わされた漢字文字のコードと前記漢
字熟語のコードとの一致をとる手段により、漢字文字コ
ードデータ列を漢字熟語コードデータに圧縮変換し、熟
語として登録されていないために圧縮できない文字列は
そのまま使用することにより、元のバイト数が増えない
ように構成されている。
〔実施例〕
次に本発明について図面を参照して詳細に説明する。
第1図は本発明の一実施例の機能ブロック図で、1は入
力手段、2は文字コード列−時記憶手段、3は文字コー
ド辞書、4は判別手段、5は記憶手段、6は漢字熟語コ
ード辞書、7は漢字熟語コード部、8は文字列コード部
である。第2図は文字コード、漢字熟語コードの構成図
で、第1バイトの最上位ビットが0″の場合は文字コー
ド9゜最上位ビットが1″の場合は漢字熟語コード10
として区別され、文字コード9は2バイトコードで、残
り15ビットで32に字に割り当てられ、漢字熟語コー
ド10は第1バイト、第2バイトの残り15ビットで文
字コード9の32に字に割り当て、第3バイトで熟語の
先頭文字で始まる漢字熟語のコードに割り当てる。
第3図は漢字熟語の一例として漢字1日」で始まる漢字
熟語の例を示している。第4図は漢字熟語コード辞書の
一部で熟語コード12文字コード13が示されており、
漢字熟語コード辞書は漢字の読みを五十音順にならべて
おきキーワード11で検索する。
使用法として第1図より、入力手段1より入力された漢
字かな混じり文の文字列は、文字コード辞書3より該当
文字コードにコード化され、文字列コード−時記憶手段
2に読み出す。読み出された文字コード列は判別手段4
により、漢字熟語コード辞書6の文字列コード部8を検
索し、該当文字列を探す。一致した場合、その漢字熟語
のコード部7のデータを読み出し記憶手段5に格納し、
また一致するものがない場合は文字コード辞書3より読
みだされた文字コードをそのまま記憶手段5に格納する
ことにより圧縮変換する。以後、このコード体系で編集
、出力、格納および伝送等の処理を行う。
なお、第5図はJIS2バイトコード文字列14を処理
後の圧縮結果を15に示す圧縮変換例である。この例で
は28バイトのコードが21バイトになり、0.75に
圧縮されたことを示している。
このように、圧縮出来ない文字コードはそのまま2バイ
トで1字を表現し、また、圧縮される漢字熟語は第1.
第2バイトで漢字文字コードを。
第3バイトでその漢字で始まる漢字熟語コード(番号)
の文字コード2バイト、漢字熟語コード3バイトのコー
ドで統一していることにより処理が簡単である。また、
元のデータ長より増えない、漢字の読みを五十音順にソ
ートし、その個々の漢字をキーワードに使゛うことで低
頻度の熟語に対しても短時間で検索でき、さらに、1つ
の漢字で始まる熟語も256種とれるため充分実用化に
供することができ、圧縮結果データ量が減るため処理お
よび伝送速度があがり記憶容量を減らすことができる。
〔発明の効果〕
以上説明したように、本発明の文字コードデー7− タの圧縮方式は、五十音順にソートした漢字文字専用の
漢字熟語コード辞書を設け、文字コードは2バイト、熟
語コードは3バイトに統一した処理方式を採用するこに
より、容易に検索でき、文字2バイト、熟語3バイトの
固定長である1元の文字コード列のバイト数より増えな
い文字コードデータの圧縮を行うことができるという効
果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
文字コード及び漢字熟語コードの構成図、第3図は漢字
「日」で始まる漢字熟語の例を示す図、第4図は漢字熟
語コード辞書(一部)を示す図、第5図は圧縮変換例を
示す図である。 1・・・入力手段、2・・・文字コード列−時記憶手段
、3・・・文字コード辞書、4・・・判別手段、5・・
・記憶手段、6・・・漢字熟語コード辞書、7・・・漢
字熟語コード部、8・・・文字列コード部、9・・・文
字コード、10・・・漢字熟語コード、11・・・キー
ワード、12・・・一 熟語コード、13・・・文字列コード、14・・・JI
S2バイトコード、15・・・処理後の圧縮結果。

Claims (1)

    【特許請求の範囲】
  1. 日本語ワードプロセッサ等で日本語の処理を行うとき、
    個々の文字は一般に2バイト(16ビット)の固定長で
    1字を表現して1つの言葉を表現する複数の文字列も2
    バイトのコードデータをそのまま使用する文字コードデ
    ータの圧縮方式において、日本語の漢字仮名混じり文の
    漢字部分に注目し、漢字の文字列の組合せの言葉である
    漢字熟語に対して、漢字の先頭文字を2バイトで表わし
    、次の1バイトで前記漢字先頭文字で始まる漢字熟語を
    コード化した3バイトの漢字熟語のコード辞書を備え、
    あらかじめ前記漢字熟語の先頭文字の音訓の読みを五十
    音順に並べ、2バイトで表わされた漢字の前記先頭文字
    により検索し、前記2バイトで表わされた漢字文字のコ
    ードと前記漢字熟語のコードとの一致をとる手段により
    、漢字文字コードデータ列を漢字熟語コードデータに圧
    縮変換し、熟語として登録されていないために圧縮でき
    ない文字列はそのまま使用することにより、元のバイト
    数が増えないように構成されたことを特徴とする文字コ
    ードデータ圧縮方式。
JP1175208A 1989-07-05 1989-07-05 文字コードデータの圧縮方式 Pending JPH0338772A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1175208A JPH0338772A (ja) 1989-07-05 1989-07-05 文字コードデータの圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1175208A JPH0338772A (ja) 1989-07-05 1989-07-05 文字コードデータの圧縮方式

Publications (1)

Publication Number Publication Date
JPH0338772A true JPH0338772A (ja) 1991-02-19

Family

ID=15992185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1175208A Pending JPH0338772A (ja) 1989-07-05 1989-07-05 文字コードデータの圧縮方式

Country Status (1)

Country Link
JP (1) JPH0338772A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282040A (ja) * 1994-04-13 1995-10-27 Nec Commun Syst Ltd 日本語情報圧縮方式
US5921792A (en) * 1994-03-10 1999-07-13 The Whitaker Corporation Card connector and card-ejecting mechanism

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5921792A (en) * 1994-03-10 1999-07-13 The Whitaker Corporation Card connector and card-ejecting mechanism
JPH07282040A (ja) * 1994-04-13 1995-10-27 Nec Commun Syst Ltd 日本語情報圧縮方式

Similar Documents

Publication Publication Date Title
Lewis et al. Syntax-directed transduction
JP3300866B2 (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
US5006849A (en) Apparatus and method for effecting data compression
JPH08194719A (ja) 検索装置および辞書/テキスト検索方法
JP6680126B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP6784084B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
KR100326634B1 (ko) 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법
JPH0338772A (ja) 文字コードデータの圧縮方式
JPH07182354A (ja) 電子文書の作成方法
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置
JPH04223556A (ja) 文字コードデータの圧縮方式
JPH0140370B2 (ja)
CN112800722B (zh) 基于语义理解的文字组织编码方法
JPS6057421A (ja) 文書作成装置
JPS6382061A (ja) デ−タ圧縮方式
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
JPS61232724A (ja) 文字コ−ドデ−タの圧縮方式
JPS62214468A (ja) かな漢字変換装置
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JPH01194065A (ja) 文書処理装置
JPH03282961A (ja) 相互変換辞書方式
JPH0721798B2 (ja) 言語処理装置
JPH0314167A (ja) データ変換方式