JPH0338772A - 文字コードデータの圧縮方式 - Google Patents
文字コードデータの圧縮方式Info
- Publication number
- JPH0338772A JPH0338772A JP1175208A JP17520889A JPH0338772A JP H0338772 A JPH0338772 A JP H0338772A JP 1175208 A JP1175208 A JP 1175208A JP 17520889 A JP17520889 A JP 17520889A JP H0338772 A JPH0338772 A JP H0338772A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- character
- code
- bytes
- codes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims description 11
- 230000006835 compression Effects 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims abstract description 15
- 150000001875 compounds Chemical class 0.000 claims description 26
- 238000013144 data compression Methods 0.000 claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 claims description 4
- 240000000220 Panda oleosa Species 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、文字コードデータの圧縮方式に関し、特に漢
字の文字コードデータの圧縮方式に関する。
字の文字コードデータの圧縮方式に関する。
一般に、日本語ワードプロセッサ等文書作成機等は、漢
字仮名混じり文の処理を行うため日本語データはJIS
規格(C−6226情報交換用漢字符号系)等を用い、
日本語1字を2バイトで表わし殆んどこの文字コードを
そのままの形で′処理されている。
字仮名混じり文の処理を行うため日本語データはJIS
規格(C−6226情報交換用漢字符号系)等を用い、
日本語1字を2バイトで表わし殆んどこの文字コードを
そのままの形で′処理されている。
このデータ処理の効率をあげるには、データの圧縮が必
要で従来の技術として文字コードデータ圧縮方式(特公
昭6l−232724)があり、第1バイトのうち1ビ
ットまたは複数ビットで1バイト長か、2バイトを区別
し、残りのビット数を語のコード辞書に割り当てる、ま
た、語のコード辞書の数を増やすため、第1バイトを拡
張制御コードとして使い残りの2バイトを語のコード辞
書に割り当て、文字コードデータの文字列を語のコード
と一致をとる手段により圧縮変換する方式〔発明が解決
しようとする課題〕 上述した従来の文字コードデータ圧縮方式においては、
使用頻度順に辞書のため低頻度の語に対しては検索に時
間がかかり、また、語コード、文字コードが共に可変長
であるため処理が複雑になったり、圧縮できない語の事
も考慮しなけれ1ばならず、元のバイト数より増加する
こともあるという欠点があった。
要で従来の技術として文字コードデータ圧縮方式(特公
昭6l−232724)があり、第1バイトのうち1ビ
ットまたは複数ビットで1バイト長か、2バイトを区別
し、残りのビット数を語のコード辞書に割り当てる、ま
た、語のコード辞書の数を増やすため、第1バイトを拡
張制御コードとして使い残りの2バイトを語のコード辞
書に割り当て、文字コードデータの文字列を語のコード
と一致をとる手段により圧縮変換する方式〔発明が解決
しようとする課題〕 上述した従来の文字コードデータ圧縮方式においては、
使用頻度順に辞書のため低頻度の語に対しては検索に時
間がかかり、また、語コード、文字コードが共に可変長
であるため処理が複雑になったり、圧縮できない語の事
も考慮しなけれ1ばならず、元のバイト数より増加する
こともあるという欠点があった。
本発明の目的は、以上の欠点を解決し容易に検索できる
2文字2バイト、熟語3バイトの固定長である1元の文
字コード列のバイト数より増えない文字コードデータの
圧縮方式を提供することにある。
2文字2バイト、熟語3バイトの固定長である1元の文
字コード列のバイト数より増えない文字コードデータの
圧縮方式を提供することにある。
〔課題を解決するための手段〕
本発明の文字コードデータの圧縮方式は、日本語ワード
プロセッサ等で日本語の処理を行うとき、個々の文字は
一般に2バイト(16ビット〉の固定長で1字を表現し
て1つの言葉を表現する複数の文字列も2バイトのコー
ドデータをそのまま使用する文字コードデータの圧縮方
式において、日本語の漢字仮名混じり文の漢字部分に注
目し、漢字の文字列の組合せの言葉である漢字熟語に対
して、漢字の先頭文字を2バイトで表わし、次の1バイ
トで前記漢字先頭文字で始まる漢字熟語をコード化した
3バイトの漢字熟語のコード辞書を備え、あらかじめ前
記漢字熟語の先頭文字の音訓の読みを五十音順に並べ、
2バイトで表わされた漢字の前記先頭文字により検索し
、前記2バイトで表わされた漢字文字のコードと前記漢
字熟語のコードとの一致をとる手段により、漢字文字コ
ードデータ列を漢字熟語コードデータに圧縮変換し、熟
語として登録されていないために圧縮できない文字列は
そのまま使用することにより、元のバイト数が増えない
ように構成されている。
プロセッサ等で日本語の処理を行うとき、個々の文字は
一般に2バイト(16ビット〉の固定長で1字を表現し
て1つの言葉を表現する複数の文字列も2バイトのコー
ドデータをそのまま使用する文字コードデータの圧縮方
式において、日本語の漢字仮名混じり文の漢字部分に注
目し、漢字の文字列の組合せの言葉である漢字熟語に対
して、漢字の先頭文字を2バイトで表わし、次の1バイ
トで前記漢字先頭文字で始まる漢字熟語をコード化した
3バイトの漢字熟語のコード辞書を備え、あらかじめ前
記漢字熟語の先頭文字の音訓の読みを五十音順に並べ、
2バイトで表わされた漢字の前記先頭文字により検索し
、前記2バイトで表わされた漢字文字のコードと前記漢
字熟語のコードとの一致をとる手段により、漢字文字コ
ードデータ列を漢字熟語コードデータに圧縮変換し、熟
語として登録されていないために圧縮できない文字列は
そのまま使用することにより、元のバイト数が増えない
ように構成されている。
次に本発明について図面を参照して詳細に説明する。
第1図は本発明の一実施例の機能ブロック図で、1は入
力手段、2は文字コード列−時記憶手段、3は文字コー
ド辞書、4は判別手段、5は記憶手段、6は漢字熟語コ
ード辞書、7は漢字熟語コード部、8は文字列コード部
である。第2図は文字コード、漢字熟語コードの構成図
で、第1バイトの最上位ビットが0″の場合は文字コー
ド9゜最上位ビットが1″の場合は漢字熟語コード10
として区別され、文字コード9は2バイトコードで、残
り15ビットで32に字に割り当てられ、漢字熟語コー
ド10は第1バイト、第2バイトの残り15ビットで文
字コード9の32に字に割り当て、第3バイトで熟語の
先頭文字で始まる漢字熟語のコードに割り当てる。
力手段、2は文字コード列−時記憶手段、3は文字コー
ド辞書、4は判別手段、5は記憶手段、6は漢字熟語コ
ード辞書、7は漢字熟語コード部、8は文字列コード部
である。第2図は文字コード、漢字熟語コードの構成図
で、第1バイトの最上位ビットが0″の場合は文字コー
ド9゜最上位ビットが1″の場合は漢字熟語コード10
として区別され、文字コード9は2バイトコードで、残
り15ビットで32に字に割り当てられ、漢字熟語コー
ド10は第1バイト、第2バイトの残り15ビットで文
字コード9の32に字に割り当て、第3バイトで熟語の
先頭文字で始まる漢字熟語のコードに割り当てる。
第3図は漢字熟語の一例として漢字1日」で始まる漢字
熟語の例を示している。第4図は漢字熟語コード辞書の
一部で熟語コード12文字コード13が示されており、
漢字熟語コード辞書は漢字の読みを五十音順にならべて
おきキーワード11で検索する。
熟語の例を示している。第4図は漢字熟語コード辞書の
一部で熟語コード12文字コード13が示されており、
漢字熟語コード辞書は漢字の読みを五十音順にならべて
おきキーワード11で検索する。
使用法として第1図より、入力手段1より入力された漢
字かな混じり文の文字列は、文字コード辞書3より該当
文字コードにコード化され、文字列コード−時記憶手段
2に読み出す。読み出された文字コード列は判別手段4
により、漢字熟語コード辞書6の文字列コード部8を検
索し、該当文字列を探す。一致した場合、その漢字熟語
のコード部7のデータを読み出し記憶手段5に格納し、
また一致するものがない場合は文字コード辞書3より読
みだされた文字コードをそのまま記憶手段5に格納する
ことにより圧縮変換する。以後、このコード体系で編集
、出力、格納および伝送等の処理を行う。
字かな混じり文の文字列は、文字コード辞書3より該当
文字コードにコード化され、文字列コード−時記憶手段
2に読み出す。読み出された文字コード列は判別手段4
により、漢字熟語コード辞書6の文字列コード部8を検
索し、該当文字列を探す。一致した場合、その漢字熟語
のコード部7のデータを読み出し記憶手段5に格納し、
また一致するものがない場合は文字コード辞書3より読
みだされた文字コードをそのまま記憶手段5に格納する
ことにより圧縮変換する。以後、このコード体系で編集
、出力、格納および伝送等の処理を行う。
なお、第5図はJIS2バイトコード文字列14を処理
後の圧縮結果を15に示す圧縮変換例である。この例で
は28バイトのコードが21バイトになり、0.75に
圧縮されたことを示している。
後の圧縮結果を15に示す圧縮変換例である。この例で
は28バイトのコードが21バイトになり、0.75に
圧縮されたことを示している。
このように、圧縮出来ない文字コードはそのまま2バイ
トで1字を表現し、また、圧縮される漢字熟語は第1.
第2バイトで漢字文字コードを。
トで1字を表現し、また、圧縮される漢字熟語は第1.
第2バイトで漢字文字コードを。
第3バイトでその漢字で始まる漢字熟語コード(番号)
の文字コード2バイト、漢字熟語コード3バイトのコー
ドで統一していることにより処理が簡単である。また、
元のデータ長より増えない、漢字の読みを五十音順にソ
ートし、その個々の漢字をキーワードに使゛うことで低
頻度の熟語に対しても短時間で検索でき、さらに、1つ
の漢字で始まる熟語も256種とれるため充分実用化に
供することができ、圧縮結果データ量が減るため処理お
よび伝送速度があがり記憶容量を減らすことができる。
の文字コード2バイト、漢字熟語コード3バイトのコー
ドで統一していることにより処理が簡単である。また、
元のデータ長より増えない、漢字の読みを五十音順にソ
ートし、その個々の漢字をキーワードに使゛うことで低
頻度の熟語に対しても短時間で検索でき、さらに、1つ
の漢字で始まる熟語も256種とれるため充分実用化に
供することができ、圧縮結果データ量が減るため処理お
よび伝送速度があがり記憶容量を減らすことができる。
以上説明したように、本発明の文字コードデー7−
タの圧縮方式は、五十音順にソートした漢字文字専用の
漢字熟語コード辞書を設け、文字コードは2バイト、熟
語コードは3バイトに統一した処理方式を採用するこに
より、容易に検索でき、文字2バイト、熟語3バイトの
固定長である1元の文字コード列のバイト数より増えな
い文字コードデータの圧縮を行うことができるという効
果がある。
漢字熟語コード辞書を設け、文字コードは2バイト、熟
語コードは3バイトに統一した処理方式を採用するこに
より、容易に検索でき、文字2バイト、熟語3バイトの
固定長である1元の文字コード列のバイト数より増えな
い文字コードデータの圧縮を行うことができるという効
果がある。
第1図は本発明の一実施例を示すブロック図、第2図は
文字コード及び漢字熟語コードの構成図、第3図は漢字
「日」で始まる漢字熟語の例を示す図、第4図は漢字熟
語コード辞書(一部)を示す図、第5図は圧縮変換例を
示す図である。 1・・・入力手段、2・・・文字コード列−時記憶手段
、3・・・文字コード辞書、4・・・判別手段、5・・
・記憶手段、6・・・漢字熟語コード辞書、7・・・漢
字熟語コード部、8・・・文字列コード部、9・・・文
字コード、10・・・漢字熟語コード、11・・・キー
ワード、12・・・一 熟語コード、13・・・文字列コード、14・・・JI
S2バイトコード、15・・・処理後の圧縮結果。
文字コード及び漢字熟語コードの構成図、第3図は漢字
「日」で始まる漢字熟語の例を示す図、第4図は漢字熟
語コード辞書(一部)を示す図、第5図は圧縮変換例を
示す図である。 1・・・入力手段、2・・・文字コード列−時記憶手段
、3・・・文字コード辞書、4・・・判別手段、5・・
・記憶手段、6・・・漢字熟語コード辞書、7・・・漢
字熟語コード部、8・・・文字列コード部、9・・・文
字コード、10・・・漢字熟語コード、11・・・キー
ワード、12・・・一 熟語コード、13・・・文字列コード、14・・・JI
S2バイトコード、15・・・処理後の圧縮結果。
Claims (1)
- 日本語ワードプロセッサ等で日本語の処理を行うとき、
個々の文字は一般に2バイト(16ビット)の固定長で
1字を表現して1つの言葉を表現する複数の文字列も2
バイトのコードデータをそのまま使用する文字コードデ
ータの圧縮方式において、日本語の漢字仮名混じり文の
漢字部分に注目し、漢字の文字列の組合せの言葉である
漢字熟語に対して、漢字の先頭文字を2バイトで表わし
、次の1バイトで前記漢字先頭文字で始まる漢字熟語を
コード化した3バイトの漢字熟語のコード辞書を備え、
あらかじめ前記漢字熟語の先頭文字の音訓の読みを五十
音順に並べ、2バイトで表わされた漢字の前記先頭文字
により検索し、前記2バイトで表わされた漢字文字のコ
ードと前記漢字熟語のコードとの一致をとる手段により
、漢字文字コードデータ列を漢字熟語コードデータに圧
縮変換し、熟語として登録されていないために圧縮でき
ない文字列はそのまま使用することにより、元のバイト
数が増えないように構成されたことを特徴とする文字コ
ードデータ圧縮方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1175208A JPH0338772A (ja) | 1989-07-05 | 1989-07-05 | 文字コードデータの圧縮方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1175208A JPH0338772A (ja) | 1989-07-05 | 1989-07-05 | 文字コードデータの圧縮方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0338772A true JPH0338772A (ja) | 1991-02-19 |
Family
ID=15992185
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1175208A Pending JPH0338772A (ja) | 1989-07-05 | 1989-07-05 | 文字コードデータの圧縮方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0338772A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07282040A (ja) * | 1994-04-13 | 1995-10-27 | Nec Commun Syst Ltd | 日本語情報圧縮方式 |
| US5921792A (en) * | 1994-03-10 | 1999-07-13 | The Whitaker Corporation | Card connector and card-ejecting mechanism |
-
1989
- 1989-07-05 JP JP1175208A patent/JPH0338772A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5921792A (en) * | 1994-03-10 | 1999-07-13 | The Whitaker Corporation | Card connector and card-ejecting mechanism |
| JPH07282040A (ja) * | 1994-04-13 | 1995-10-27 | Nec Commun Syst Ltd | 日本語情報圧縮方式 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lewis et al. | Syntax-directed transduction | |
| JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
| US5006849A (en) | Apparatus and method for effecting data compression | |
| JPH08194719A (ja) | 検索装置および辞書/テキスト検索方法 | |
| JP6680126B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
| US20040225497A1 (en) | Compressed yet quickly searchable digital textual data format | |
| KR100288144B1 (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
| JP6784084B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
| KR100326634B1 (ko) | 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법 | |
| JPH0338772A (ja) | 文字コードデータの圧縮方式 | |
| JPH07182354A (ja) | 電子文書の作成方法 | |
| JP2785168B2 (ja) | 単語検索のための電子辞書圧縮方法及び装置 | |
| JPH04223556A (ja) | 文字コードデータの圧縮方式 | |
| JPH0140370B2 (ja) | ||
| CN112800722B (zh) | 基于语义理解的文字组织编码方法 | |
| JPS6057421A (ja) | 文書作成装置 | |
| JPS6382061A (ja) | デ−タ圧縮方式 | |
| JP2004013680A (ja) | 文字コード圧縮・復元装置および同方法 | |
| JPS61232724A (ja) | 文字コ−ドデ−タの圧縮方式 | |
| JPS62214468A (ja) | かな漢字変換装置 | |
| JP2005275880A (ja) | 字句をデータに変換する装置、方法及びプログラム | |
| JPH01194065A (ja) | 文書処理装置 | |
| JPH03282961A (ja) | 相互変換辞書方式 | |
| JPH0721798B2 (ja) | 言語処理装置 | |
| JPH0314167A (ja) | データ変換方式 |