JPH0456350B2

JPH0456350B2 -

Info

Publication number: JPH0456350B2
Application number: JP59238875A
Authority: JP
Inventors: Kazuaki Ookuma
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-11-13
Filing date: 1984-11-13
Publication date: 1992-09-08
Also published as: JPS61117657A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、ワードプロセツサなどのかな漢字変
換処理を含む日本語情報処理装置に関するもので
あり、特に漢字を読みにしたがつてソート／マー
ジする際に使用される読み情報検索方式に関す
る。

〔従来の技術〕

日本語情報処理装置では、かな漢字変換結果の
候補文字リストあるいはシステム内漢字リストや
追加漢字リストなどの出力表示がしばしば行われ
る。

漢字は、JISコードあるいはJEFコードなどに
よつてコード化されているが、一般に複数の漢字
を出力表示する場合、操作者が目的の漢字を容易
に認識できるようにするため、その配列は、コー
ド順ではなく、読み、画数、部首などの漢字属性
を用いて行われるのが普通である。

漢字属性情報はテーブルの形で保持されてお
り、その１字当たりの情報量は、たとえば読みが
６種で36バイト（１種６バイト）、画数が１バイ
ト、部首が１バイトであり、読みが占める割合は
全体の94％にも達している。

第２図は、漢字の読みテーブルの構造を示した
ものである。この読みテーブルの各行は６個のエ
ントリ＃１ないし＃６で構成され、それぞれ１つ
の漢字の第１読みから第６読みまでが登録されて
いる。また行の縦方向配列は漢字コード順にした
がつている。この読みテーブルに収容される漢字
数がたとえば約3000文字であるとすれば、読みテ
ーブルの大きさは、６（バイト）×６（エントリ）×3000（文字）＝108Kバイトとなる。

〔発明が解決しようとする問題点〕

従来の漢字の読みテーブルは各漢字ごとの読み
の表示領域長が固定され、たとえば上記の例では
６種36バイトもの長さがあつた。しかし、複数の
読みを有する漢字であつても、その読みの数は２
〜３個が大部分であり、読みテーブルの半分以上
は空白となつて、メモリの利用効率を低下させる
という問題があつた。

〔問題点を解決するための手段〕本発明は、上記問題点を解決するため、漢字の
読みだけを集めた読みテーブルと、漢字ごとに読
みテーブル中の該当する読みを指示するポインタ
を登録したポインタテーブルとの２段構成とする
ことにより、テーブルサイズの縮小化を図つたも
ので、その構成は、日本語情報処理装置におい
て、装置内に収容されている全ての漢字の読みを
一定の順序で配列した読みテーブル手段と、漢字
コード順に各漢字の全ての読みを表す上記読みテ
ーブル手段中の位置を示す１個または複数個の読
みポインタを配列した読みポインタテーブル手段
とをそなえ、入力された漢字コードに基づいて読
みポインタテーブル手段中の対応する読みポイン
タを読み出し、次に該読みポインタを用いて読み
テーブル手段中の対応位置からその読みを読み出
すことを特徴としている。

〔発明の作用〕

第３図は本発明の概念を示したものである。図
において、３１は読みポインタテーブル、３２は
読みポインタエントリ列、３３は読みポインタエ
ントリ、３４は読みテーブル、３５は読みエント
リである。

本発明による読みテーブル３４は、日本語情報
処理装置に収容されている全ての漢字の読みを取
り出して、たとえばEBCDICコード順に分類統合
したもので、各読みは、その出所の漢字コードか
ら切り離れた形でひととおりに整理されて登録さ
れている。したがつて、川（カワ）、皮（カワ）
などの異なる漢字の同じ読みは、全て１つの読み
“カワ”を示す。読みエントリ３５に対応づけら
れるので、データ量の圧縮が可能となる。

読みポインタテーブル３１は、各漢字コードと
上記した読みテーブル３４の各読みエントリとの
対応づけを行うためのもので、読みテーブル３４
に対応するポインタすなわち読みポインタを漢字
コードごとに登録したものである。各読みポイン
タエントリ列３２は別々の漢字コードに対応し、
漢字コード順に配列されている。たとえば「川」
については、“カワ”、“ガワ”“セン”の各読みに
対する読みポインタが読みポインタエントリ列３
２中に登録される。読みポインタの長さは、読み
の長さにくらべてはるかに短くて済ますことがで
きる。

このようにして、漢字コードに対応する読みポ
インタテーブル３１中の読みポインタエントリ列
をアクセスすることにより、登録されている読み
ポインタを順次読み出し、それを用いて読みテー
ブル３４をアクセスし、その漢字の読みを全て取
り出すことができる。読みポインタテーブル３１
と読みテーブル３４とを合わせても、第２図に示
されている従来の読みテーブルよりも小さく構成
できる。

〔実施例〕

以下に本発明の詳細を実施例にしたがつて説明
する。

第１図は本発明の１実施例構成を示したもの
で、１は日本語情報処理装置、２は記憶装置、３
はテーブルアクセス制御部、４は漢字コード／ア
ドレス変換部、５は読みポインタテーブルポイン
タ、６は読みポインタエントリ選択部、７は読み
テーブルポインタ、８は読みポインタテーブル、
９は読みポインタエントリ列、１０は読みポイン
タエントリ、１１は読みテーブル、１２は読みエ
ントリ、１３は漢字コード入力、１４は読みポイ
ンタ出力、１５は読み出力を示している。

テーブルアクセス制御部３は、漢字コード入力
１３に対して、読みポインタテーブブル８および
読みテーブル１１をアクセス制御し、その漢字コ
ードが表す漢字について登録されている全ての読
みを読み出力１５として取り出す。

読みポインタテーブル８は、たとえば3000種の
文字（漢字コード）に対応して3000の読みポイン
タエントリ列９をもつている。各読みポインタエ
ントリ列９は、第１図で説明した従来例の読みテ
ーブルの場合と同様に各漢字ごとに最大６種の読
みを登録可能にするため、６個の読みポインタエ
ントリ１０をそなえている。各読みポインタエン
トリの長さは、本実施例の場合２バイトで構成さ
れている。したがつて、各読みポインタエントリ
列の長さは12バイトとなり、さらに読みポインタ
テーブル全体では36Kバイトの大きさとなる。読
みポインタエントリの値は、読みテーブル１１中
の読みエントリを直接ポイントしている。

読みテーブル１１は、本実施例の場合3000種の
文字から取り出された3170種の読みを登録したも
のであり、各読みエントリ１２はEBCDICコード
順に配列されている。また１つの読みエントリ１
２の長さは６バイトであり、読みテーブル１１の
全体の大きさは約20Kバイトとなつている。

動作においてテーブルアクセス制御部３は、漢
字コード入力１３に応じて、漢字コード／アドレ
ス変換部４に指示して、漢字コードに対応する読
みポインタテーブル８のアドレスすなわち、テー
ブルの先頭位置から目的の読みポインタエントリ
列までのオフセツトを計算させ、結果を読みポイ
ンタテーブルポインタ５に設定させる。

次に読みポインタテーブルポインタ５の値によ
り読みポインタテーブル８をアクセスして、読み
出された読みポインタ出力１４を、読みポインタ
エントリ選択部６に入力する。

読みポインタエントリ選択部６は、テーブルア
クセス制御部３からの指示に基づいて、読みポイ
ンタ出力１４から読みポインタエントリ列９に含
まれている６個の読みポインタエントリ１０の１
つを選択し、その値、すなわち読みポインタを読
みテーブブルポインタ７に設定する。ただし、読
みポインタエントリが空の場合には、次の読みポ
インタエントリを選択する。

次に読みテーブルポインタ７に設定された読み
ポインタにしたがつて、読みテーブル１１をアク
セスし、該当する読みエントリの内容を読み出力
１５として出力する。読みポインタエントリ選択
部６において、各読みポインタエントリを順次選
択することにより、入力された漢字コードに対応
する漢字の全ての読みを得ることができる。また
指示による１つの読みのみを選択出力することも
可能である。

第４図は読みポインタテーブル８の形式を示し
たもので、４１はテーブル識別子、４２および４
３はそれぞれテーブルの上限と下限を表示する収
容漢字の先頭漢字コードおよび最終漢字コードの
フイールドである。各読みポインタエントリ列９
内の６個の読みポインタエントリのうち最初の３
個は音読み用、後の３個は訓読み用として区別す
ることができる。

第５図は読みテーブル１１の形式を示したもの
で、５１はテーブル識別子、５２および５３はそ
れぞれテーブルの上限と下限を表示する収容読み
の先頭オフセツトおよび最終オフセツトである。
読みエントリ１２はEBCDICコードのカナ文字６
字以内で表示され、テーブル内に同じ読みは存在
しない。

第６図は、読みポインタテーブル８と読みテー
ブル１１の対応を具体例で示したものである。図
示の例は漢字「一」についてのものであり、読み
テーブル１１には、この漢字の読みが、音読み
“イチ”，“イツ”と訓読み“ハジメ”“ヒトタビ”，
“ヒトツ”が登録されており、読みポインタテー
ブル８の該当する読みポインタエントリ列には、
読みテーブル１１内の上記した各読みに対するオ
フセツト値ないしが、それぞれ設定されてい
る。なお、音読みは２個しかないため、空きの１
つの読みポインタエントリには“０”が設定され
る。

〔発明の効果〕

以上のように本発明によれば、漢字コードから
読みを得るためのテーブルが従来よりも小さくで
きるため、必要なメモリペースも少なくて済み、
また読みの修正の大部分はテーブル中のポインタ
の張り替えで済ますことができる。

【図面の簡単な説明】

第１図は本発明方式の１実施例装置の構成図、
第２図は従来の読みテーブルの説明図、第３図は
本発明方式の概念図、第４図は読みポインタテー
ブルの形式例を示す説明図、第５図は読みテーブ
ルの形式例を示す説明図、第６図は読みポインタ
テーブルと読みテーブルの対応の具体例の説明図
である。図中、１は日本語情報処理装置、２は記憶装
置、３はテーブルアクセス制御部、４は漢字コー
ド／アドレス変換部、５は読みポインタテーブル
ポインタ、６は読みポインタエントリ選択部、７
は読みテーブルポインタ、８は読みポインタテー
ブル、９は読みポインタエントリ列、１０は読み
ポインタエントリ、１１は読みテーブル、１２は
読みエントリを表す。

Claims

【特許請求の範囲】

１日本語情報処理装置において、装置内に収容
されている全ての漢字の読みを一定の順序で配列
した読みテーブル手段と、漢字コード順に各漢字
の全ての読みを表す上記読みテーブル手段中の位
置を示す１個または複数個の読みポインタを配列
した読みポインタテーブル手段とをそなえ、入力
された漢字コードに基づいて読みポインタテーブ
ル手段中の対応する読みポインタを読み出し、次
に該読みポインタを用いて読みテーブル手段中の
対応位置からその読みを読み出すことを特徴とす
る漢字読み情報検索方式。