JPS62197822A

JPS62197822A - 辞書デ−タ検索方式

Info

Publication number: JPS62197822A
Application number: JP61039215A
Authority: JP
Inventors: Tamotsu Ito; 保伊藤; Toshihiro Matsunaga; 敏裕松永
Original assignee: Hitachi Ltd; Hitachi Video Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi Industry and Control Solutions Co Ltd
Priority date: 1986-02-26
Filing date: 1986-02-26
Publication date: 1987-09-01
Anticipated expiration: 2010-03-08
Also published as: JPH0721805B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、カナ漢字変換辞書、言語翻訳辞書。

など、見出し語に対応するデータ（文字列）を検索する
方式に係り、特に、大容量辞書データを検索するのに好
適な辞書データ検索方式に関する。

〔従来の技術〕

従来辞書データファイルを検索する方法として、例えば
特開昭５５−８３９６２号、特開昭５６−３８６６１号
に記載されている方法がある。これらの方法は、見出し
語の１文字目もしくは２文字目までを第１次検索対象と
して検索し、得られたアドレス情報より３文字目以降が
格納されている辞書本体を第２次検索する方法である。

〔発明が解決しようとする間層点〕

上記従来技術は、大容量辞書データファイルを接続した
場合の辞書データ検索方法について配慮がされておらず
、見出し語の２文字までが一致しても、３文字目以降が
異なる大量の辞書データを検索するため、検索時間の増
大を招くという問題があった。

本発明の目的は、大容量辞書データファイルを高速に検
索でき、かつ少ないバッファメモリで実現できる辞書デ
ータ検索方式を提供することにある。

〔問題点を解決するための手段〕

上記目的を達するため、本発明は、大容量辞書データフ
ァイルが格納されているドライブの物理的最少単位（１
セクタ）を基準として、辞書データファイルの各セクタ
の先頭の見出し語のみを集めたサブインデックスファイ
ルを作成し、さらにサブインデックスの各セクタの先頭
見出し語のみを集めた１セクタのマスクインデックスを
作成して、大容量辞書データファイルを検索する。

その際、必要とするバッファメモリの大きさは、１セク
タであるマスタインデックスを読み込む場合、１セクタ
、そのマスタインデックスにより、サブインデックスの
該当セクタ（１セクタ）を読み込む場合、１セクタ、さ
らにそのサブインデックスにより、大容量辞書データフ
ァイルの該当する見出し語の格納されているセクタを読
み込む場合、１セクタとなり、１セクタの大きさのバッ
ファメモリを用意するだけで、大容量辞書データファイ
ルを検索することができる。

〔作用〕

本発明の動作について、以下説明する。

マスタインデックスファイルを読み出し、検索すべき文
字列が、マスタインデックスファイルの見出し語列のｎ
番目と一致もしくは、ｎ番目と（ｎ＋１）番目の間にあ
ることを検索（第１次）する０次にサブインデックスフ
ァイルのｎ番目のセクタを読み出す、検索すべき文字列
が、読み出したサブインデックス（１セクタ）の見出し
語列のｍ番目と一致もしくは１ｍ番目と（ｍ＋１）番目
の間にあることを検索（第２次）する０次に、サブイン
デックスの各セクタごとに設定されている辞書データフ
ァイルに対するオフセット値ｋを用いて、辞書データフ
ァイルの（ｋ＋ｍ）番目のセクタを読み出す、読み出し
た辞書データファイルの見出し語と検索すべき文字列と
を比較し、一致する見出し語を検索（第３次）する。

これらの動作により、どのような検索すべき文字列でも
、常にマスタインデックスファイル、サブインデックス
ファイル、辞書データファイルを各１回計３回アクセス
するだけで目的とする見出し語を検索することができ、
高速に大容量辞書データファイルを検索することができ
る。また、その際に必要とするバッファメモリの大きさ
は、マスタインデックスファイル（１セクタ）、サブイ
ンデックスファイル（該当すべき１セクタ）、辞書デー
タファイル（該当すべき１セクタ）を読み出すのに各１
セクタ分必要とし、その都度バッファメモリの内容を書
き換えて共通に使用することにより、１セクタ分のみの
バッファメモリサイズで充分である。

〔実施例〕

以下１本発明の一実施例を第１図、第２図、第３図によ
り説明する。第１図及び第３図は本発明の主要部分であ
る辞書データの構造を示しており。

第２図は辞書検索を行う装置１ｏのブロック図である。

装置１０は検索するコードを入力し検索した結果を出力
する入出力装置！１９と、辞書１及びその他のデータを
記憶する外部記憶装置（第１の記憶装置）１４と、ＣＰ
Ｕ　（中央処理装置）１１からの指令に従って外部記憶
装置１１４を制御する制御回路１２と、ＣＰＵＩＩから
直接読み書きされる内部メモリ（第２の記憶表Ｍ）１３
と、入出力装置１９及び制御回路１２を内部メモリ１５
のプログラム領域１５に格納されたプログラムに従って
制御し辞書検索を遂行するＣＰＵＩＩから構成される。

又、内部メモリ１３はプログラム領域１５、作業領域１
６．マスタインデックスファイル領域１７．バッファ領
域１８に分割されている。

以下に装置１０の動作の概略を説明する。入出力装置１
９から入力された語はＣＰＵＩＩにとりこまれ、ＣＰＵ
ＩＩは談話をもとに辞書１を検索する。検索の結果はＣ
ＰＵＩ　ｌにより入出力装置１９へ出力され、一連の動
作を終了する。本発明の主要部分である辞書検索につい
て更に説明を加える。辞書ｌは第３図に示すように、マ
スタインデックスファイル１００、サブインデックスフ
ァイル２００．辞書本体（辞書データファイル）３００
から構成されている。第１図を用いて辞書１の構成を説
明する。辞書本体３００は、アイウェオ順に並べられた
見出し語と該見出し語に対応する辞書内容から構成され
ている。すなわち、見出し語３１１の“ア”に対応する
辞書内容３１１ａ　”亜”、３１１ｂ“阿”、３１１ｃ
“合”等をルコードとして、続く見出し語３１２“アア
”のレコード、と以下同様にレコードが続き、辞書本体
３００を構成する。又、辞書本体３００は。

ある一定の長さごとにブロックとして切り分け。

各々第１ブロック３１０．第２ブロツク３２０・・・と
する。サブインデックスファイル２００は辞書本体３０
０の各ブロックの先頭の見出し語を集めて形成されてい
る。すなわち、辞書本体３００の第１ブロツク３１０の
最初の見出し語３１１“ア”がサブインデックスファイ
ル２００の最初の見出し語２１１　”ア”となり、辞書
本体３００の第２ブロツク３２０の最初の見出し語３２
１”７カツキ″がサブインデックスファイル２００の次
の見出し語２１２　”アカツキ“となる。以下同様にし
て辞書本体３００の各ブロックの最初の見出し語を順次
集めることで、サブインデックスファイル２００が作ら
れる。このとき、サブインデックスファイル２００の見
出し語は、辞書本体３００の見出し語と同様、アイウェ
オ順に並んでいる。サブインデックスファイル２００も
辞書本体３００と同様、ある一定の長さのブロックに切
り分けられ、第１のブロック２１０．第２のブロック２
２０・・・とじている、マスタインデックスファイル１
００は、サブインデックスファイル２００の各ブロック
の最初の見出し語を集めて作られる。

すなわち、サブインデックスファイル２００の第１のブ
ロック２１０の最初の見出し語２１１“ア″がマスタイ
ンデックスファイル１００の最初の見出し語１０１“ア
”となり、サブインデックスファイル２００の第２のブ
ロックの最初の見出し語２２１“キョクゲイ”がマスタ
インデックスファイル１００の次の見出し語１０２“キ
ョクゲイ”となる。以下この作業をくり返すことによっ
てマスタインデックスファイル１００が形成される。

マスタインデックスファイル１００の見出し語もアイウ
ェオ順に並んでいる。以上の方法で構成された辞書１の
マスタインデックスファイル１００゜サブインデックス
ファイル２００の見出し語は以下の特徴を持つ。マスタ
インデックスファイル２００の２つの隣接する見出し語
ＩｎとＩ　ｎ＋１に対してアイウェオ順の順位が、Ｉｎ
≦ｘ　＜　Ｉ　ｎ＋１にある語Ｘは、サブインデックス
ファイル２００の第ｎブロック中の隣接する２つの見出
し語Ｊｎｋ≦Ｘ＜Ｊｎｋ÷１、若しくはＪｎｋ≦ｘ＜Ｉ
ｎ＋１　の関係を持ち、更に辞書本体３００の第Ｓ番目
のブロック中に該当する見出し語が存在する。ここでサ
ブインデックスファイル２００中の各ブロック内の見出
し語数をａ、ＴＩとすれば、Ｓ　：、４．　ａｍ　十に
である。従ってマスタインデックスファイル１００の各
見出し語をカウントしながら順次比較し、ｘ　＜　Ｉ　
ｐとなったところでやめ、サブインデックスファイル２
００の第Ｐ−７ブロツクを内部メモリ１３中のバッファ
領域１８にロード、更に各見出し語をカウントしながら
順次比較し、ｘ　（Ｊ　ｑとなったところでやめ、先の
Ｓ　＝　’Ｘ２ａ　ｍ　＋　Ｑ−１を求め、辞書本体３
００の第Ｓブロックをバッファ領域１８にロード、見出
し語と順次比較して目的の辞書内容を得る。マスタイン
デックスファイル１００は検索処理に毎回使用されるの
で内部メモリ１３中にマスタインデックスファイル領域
１７を設けてあらかじめ外部記憶装置１４からロードし
ておく。−例として語“アガナ″の検索手順を示す。ま
ず、マスタインデックスファイル１００の見出し語１０
１の“ア”と比較、より後顧であるから続く見出し語１
０２“キョクゲイ″と比較、より前順であるからマスタ
インデックスファイル１００の検索を終える。この間に
カウントした見出し語は２こであるので２−１＝１を求
めサブインデックスファイル２００の第１ブロツク２１
０をバッファ領域１８にロードする。サブインデックス
ファイル２００の第１の見出し語２１１　”ア”より″
アガナ″は後顧のため、続く見出し語２１２“アカツキ
”と比較、より後顧であるから続く見出し語２１３“ア
ジ”と比較、前頭にあたるのでサブインデックスファイ
ル２００の検索を終了する。この間にカウントした見出
し語は３こであり、又第１ブロツク２１０以前には見出
し語かのであることから、（の）＋３−１＝２を求め、
辞書本体３００の第２ブロツク３２０をバッファ領域１
８にロードする。辞書本体３００の第２ブロツクの第１
の見出し語３２１“アカツキ”は語“アガナ”と異なる
ため、次の見出し語３２２′″アガナ”と比較、一致し
たので内容３２２ａ“購、蹟”を得る。

本実施例によれば、辞書１の使用する部分だけを内部メ
モリ１３にロードするため、内部メモリの効率向上に効
果がある。又本実施例によれば固定長のブロックのサイ
ズを小さく設定することで、必要とされるバッファ領域
１８を小さくすることができるので、小メモリ化の効果
がある。更に本実施例では検索のために辞書１の一部を
外部記憶装置１４からロードする回数が常に２回である
ため、検索処理時間の安定化、高速化に効果がある。

加えて本実施例では、辞書１が大容量であっても検索に
使用する内部メモリ１３を小さくすることが可能であり
、かつ２回の外部記憶装置１４からのロードで済むため
小型の電子計算機でも充分高速な検索が可能であるため
、大容量辞書検索装置の価格低減に効果がある。

第２の実施例を第４図を用いて説明する。第１の実施例
においては辞書検索毎に使用するマスタインデックスフ
ァイル１００を内部メモリ１３の中にマスタインデック
スファイル領域１７を設けて常駐させている１本実施例
においては第４図に示すようにマスタインデックスファ
イル１００は特定の領域を持たず、バッファ領域１８に
検索毎にロードして使用する。

本実施例によれば、マスタインデックスファイル領域１
７を占有しない分、メモリの小サイズ化の効果がある。

第３の実施例を以下に説明する。サブインデックスファ
イル２００及び辞書本体３００は各々ある特定の長さの
ブロックに分けられている０本実施例においてはこのブ
ロックの長さを外部記憶装＠１４並びに制御回路１２が
取り扱い得る最小のデータ長又は最小のデータ長の整数
倍としている。

本実施例によれば、サブインデックスファイル２００及
び辞書本体３００のあるブロックを内部メモリ１３上に
ロードする場合、外部記憶装置１４における物理的アド
レスを容易に求められるため、検索時間短縮の効果があ
る。また、本実施例によれば外部記憶装置１４から内部
メモリ１３上ヘロードされるデータに無駄な部分がない
ため省メモリ化の効果があり、ブロックとロードされた
データの先頭・末尾が一致するので、ブロックの先頭を
探す、先頭をつめるために転送する。といった処理が不
要となり、検索処理時間短縮の効果がある。

第４の実施例を第５図を用いて説明する。辞書本体３０
０が非常に大きくブロックの数が多大なものである場合
、サブインデックスファイル２００もまた大きくなり多
数のブロックを有することとなる。従ってマスタインデ
ックスファイル１００に含まれる見出し語の数が大きく
なり、サイズがサブインデックスファイル２０ｏのブロ
ックサイズで複数のブロックに相当する場合がある。

このとき、サブインデックスファイル２００の各ブロッ
クの先頭の見出し語を集めたものをサブインデックスフ
ァイルＡ（第２のサブインデックスファイル）４００と
し、更にサブインデックスファイルＡ４００をブロック
分割して各ブロックの先頭の見出し語を集めてマスタイ
ンデックスファイル１００を形成する。もし、サブイン
デックスファイルＡ４００のブロック数が多く、従って
各ブロックの先頭の見出し語を集めたものが大きい場合
は、サブインデックスファイルＢ（第３のサブインデッ
クスファイル）として、サブインデックスファイルＢを
ブロック分割し各々のブロックの先頭の見出し語を集め
てマスクインデックスフアイル１００を形成する。以上
の動作をくり返し複数のサブインデックスファイルｎ（
第ｎのサブインデックスファイル）を設けることによっ
て。

マスタインデックスファイル１００のサイズを制限する
。サブインデックスファイルｎが複数ある場合の検索方
法を第５図に示した、サブインデックスファイルｎが２
段である場合について説明する。まずマスタインデック
スファイル１００を検索、第１の実施例に示した手順で
サブインデックスファイルＡ４００から特定のブロック
を導く。

サブインデックスファイル２００に対するサブインデッ
クスファイルＡ４００の関係はサブインデックスファイ
ルＡ４００に対するマスタインデックスファイル１００
の関係と同じであることから、サブインデックスファイ
ルＡ４００の特定のブロックをマスタインデックスファ
イル１００と同じ方法で検索し、同じようにサブインデ
ックスファイル２００から特定のブロックを導く、サブ
インデックスファイル２００の特定のブロックを検索し
て辞書本体３００の特定ブロックを導き、辞書本体３０
０の特定ブロックから検索目的であるレコードを得る方
法については第１の実施例に述べた通りである。更にサ
ブインデックスファイルの数が増した場合も同じ処理の
くり返しから検索動作を実現できる。

本実施例によれば、サブインデックスファイルの段数を
増すことで非常に多くの見出し語を持つ辞書の検索を小
容量のメモリで実現できるため省メモリ化の効果がある
。又９本実施例によれば、サブインデックスファイルの
段数を増やした場合でも同じ検索処理のくり返しで検索
動作を実現できるため、検索処理の単純化の効果がある
。更に本実施例によれば、サブインデックスファイルの
段数が増加した場合、外部記憶装置１４からデータをロ
ードする回数は増加するものの、毎回検索する見出し語
の量がバッファ領域１８の大きさに限定されたものであ
るため処理時間全体を短くすることができるので、検索
時間短縮の効果がある。

第５の実施例を以下に説明する。サブインデックスファ
イル２００の各ブロックの先頭に見出し語に先立ち当該
ブロックより前に位置するブロックの中に含まれている
見出し語の総数をオフセットとして記録しておく、第１
の実施例に示したようにサブインデックス１００のある
特定のブロックを検索し続く辞書本体３００の特定ブロ
ックを決定するためには、サブインデックスファイル２
００中の当該ブロックより前に位置する全てのブロック
に含まれる見出し語の総数と検索の結果カウントした見
出し語の数の和より１引いた値を求める必要がある。本
実施例ではブロックの先頭にあるオフセットの値に見出
し語を順次検索しつつカウントした値を加えることから
続く辞書本体３００内のブロックを特定する。

本実施例によれば、検索の際に容易にブロック番号を得
られるので検索時間短縮の効果がある。

また本実施例によれば、辞書１を変更して見出し語数が
変わっても検索処理手順は同じでよいため、辞書１の拡
張性をよくする効果がある。

第６の実施例を以下に説明する６本実施例では、マスタ
インデックスファイル１００の第１の見出し語１０１の
前にサブインデックスファイル２００の先頭の外部記憶
装置１４上の論理的または物理的アドレスデータをおき
、又、サブインデックスファイル２００の各ブロックの
先頭に各ブロックの先頭の見出し語が示す辞書本体３０
０のブロックの先頭の外部記憶装置１４上の論理的また
は物理的アドレスデータをおく。辞書検索において、該
アドレスデータに（各ブロックもしくはマスタインデッ
クスファイル１００中の検索においてカウントした見出
し語数（ｎ−１）Ｘブロック長Ｑの演算結果を加算する
ことによって実際に外部記憶装置１４からロードするサ
ブインデックスファイル２００中の特定ブロックもしく
は辞書本体３００中の特定ブロックの論理的または物理
的アドレスを得られる。

本実施例によれば、外部記憶装置１４上の論理的又は物
理的アドレスを容易に求められるので、検索時間短縮の
効果がある。また本実施例によれば検索処理手順を変え
ることなく見出し語数を変えることができるので、辞書
の拡張性向上の効果がある６更に、本実施例によれば、
検索処理手順を変えることなくサブインデックスファイ
ル２００、辞書本体３００の外部記憶装置１４上の配置
を変更することができるので、外部記憶装置１４のメモ
リ効率向上の効果がある。

第７の実施例を以下に説明する。マスタインデックスフ
ァイル１００及びサブインデックスファイル２００の各
ブロックの先頭にはそれぞれ第５、第６の実施例で説明
したオフセットデータがおかれている。更に本実施例で
は辞書本体３００の各ブロックの先頭にオフセットデー
タとして使用されないデータをターミネータ（識別コー
ド）としておいている、第４の実施例において説明した
ように、マスタインデックスファイル１００からサブイ
ンデックスファイル２００のあるブロックを導く方法、
また、サブインデックスファイル２００のあるブロック
を検索して辞書本体３００のあるブロックを導く方法、
更にサブインデックスファイルが多数ある場合に上位の
サブインデックスファイルから下位のサブインデックス
ファイルを導く方法は全て同一である。従って、ロード
したブロックの先頭がターミネータになるまで、順次下
位のインデックスファイルを導く動作を繰り返し、ター
ミネータを検出した時点で辞書本体３００の検索方式に
切り換える。

本実施例によれば、検索処理手順を変えることなくサブ
インデックスファイルの段数を変更できるので、辞書１
の拡張性を高め、検索処理を汎用化する効果がある。

第８の実施例を第６図を用いて説明する。辞書本体３０
０は見出し語及び内容から成るレコードを単位として構
成されている。この見出し語３１１と内容３１１ａの間
に見出し語の末尾を示す区切り記号３１４１次の見出し
語までの距離を示す長さデータ（相対アドレス値）３１
５、長さデータ３１５の終わりを示す区切り記号３１５
を配置し、また内容３１１ａと内容３１１ｂの区切りを
示す区切り記号３１７、レコード全体の区切りを示す区
切り記号３１８を配置している。辞書本体３００の検索
において、語と見出し語が一致した場合はその内容を長
さデータ３１５の区切り記号３１６に後続するデータか
ら得１語と見出し語が一致しない場合は長さデータ３１
５をもとに次のレコードの先頭位置を求めて、次の見出
し語と語を比較、以下順次繰り返すことで一致する見出
し語を検索する。

本実施例によれば各レコードの長さ、レコード内の見出
し語長及び内容の長さを可変長にすることができるので
、辞書本体３００のメモリ効率向上の効果がある。また
本実施例によれば、見出し語が一致しなかった場合に次
の見出し語が容易に求められるので、検索速度向上の効
果がある。

第９の実施例を第７図を用いて説明する。サブインデッ
クスファイル２００に含まれている見出し語と見出し語
の間に見出し語には用いられないコードであるターミネ
ータ（識別コード）２１５を設ける。サブインデックス
ファイル２００の検索で語より後頭の見出し語を得るた
めに順次見出し語と比較する際に次の見出し語を探す場
合、ターミネータ２１５を探すことによって次の見出し
語を見つける６マスクインデツクスフアイル１００及び
複数のサブインデックスファイルについても同様にして
見出し語をターミネータで区切り、次々に見出し語を得
ることができる。

本実施例によれば、見出し語の長さを可変長にすること
ができるため、マスタインデックスファ・イル１００及
びサブインデックスファイルのメモリ効率向上の効果が
ある。

第１０の実施例を以下に説明する。マスタインデックス
ファイル１００及びサブインデックスファイル２００、
辞書本体３００の見出し語がカタカナであった場合、カ
タカナに対応する８ビツト＝１バイトのコードは通常１
０１００１１０　（＝）〜１１０１１１１０（＝）であ
り、常に最上位ビットが１１１　ＩＰとなっている。ま
た、該見出し語が英数字であった場合各々の文字に対応
するコードはＡＳＣＩＩ：ｌ−ドであれば００１０００
００（＝）〜０１１１１１１１　（＝）である。従って
、第８．第９の実施例のように見出し語の区切りに特別
な記号を置くかわりに、見出し語の最後の文字のビット
を操作して見出し語の区切りとすることができる。例え
ば見出し語がカタカナで構成されている場合、各文字の
最上位ビットは常に′″１″であるから見出し語の最後
の文字の最上位ビットを“′の″にすることで文字列の
区切りとする。見出し語を語と比較する場合には見出し
語の最後の文字の最上位ビットを“１”にしてもとのカ
タカナコードに戻す。同様にしてＡＳＣＩＩコード。

シフトＪＩＳコード、区点コードも語の識別に関与しな
い固定の値をとるビットを反転させることにより文字列
の区切りを示すことで辞書本体３００中のレコードとレ
コード、レコード中の内容と内容の区切りをつけること
ができる。

本実施例によれば区切り記号を追加することなく文字列
そのものに区切りマークを追加し可変長データを扱うこ
とができるので、メモリ効率向上の効果がある。

第１１の実施例を以下に説明する。辞書本体３００の見
出し語に対応する内容に、外部記憶装置１４上の特定の
アドレスを示す、アドレスデータを格納する。該アドレ
スデータの指し示す場所には画像情報及び音声情報等見
出し語によって順序を与えられたデータ、大容量のデー
タが格納されている。検索処理によって得た辞書内容で
あるアドレスデータをもとに該データをロードする。

本実施例によれば、大容量のデータを辞書本体３００の
外におくことにより辞書本体３００を小さくシ、またブ
ロックに含まれる見出し語数が多くなるので、検索時間
短縮の効果がある。

第１２の実施例を第８図を用いて説明する。辞書本体３
００の第１のブロック３１０の最後の見出し語３１９が
“アカス”であり、第２のブロック３２０の最初の見出
し語３２１が“アカツキ″であるような場合、第２のブ
ロック３２０に対応するサブインデックス２００の見出
し語２１２′を“アカツ″′　（識別可能語頭部）とす
る。辞書本体３００の第１ブロツク３１０に含まれる全
ての見出し語は最後の見出し語３１９の“アカス″より
前順にあり、′アカツ″は゛′アカス”より複類か第２
のブロック２２０の先頭の見出し語２２１″アカツキ”
より前順であることから検索手順は既に述べた方法と同
一でよい。すなわち、第ｎブロック最終の見出し語１　
（ｎ　、ｍ）と続く第（ｎ÷）ブロックの先頭の見出し
語Ｉ（ｎ＋、）に対しＩ（ｎ、ｍ）＜Ｉ　ｘ＜Ｉ（ｎ＋
　、）なる語Ｉｘを上位のサブインデックスファイル又
はマスタインデックスファイル１００の見出し語として
用いることができる。

本実施例によれば、見出し語として用いることのできる
語のうち語長の最も短いものを用いることによりサブイ
ンデックスファイルならびにマスタインデックスファイ
ル１００のサイズを小さくできるので、省メモリ化の効
果がある。また、本実施例によれば、検索の際に比較す
る語長の短い見出し語を使うことができるので、検索時
間短縮の効果がある。

第１３の実施例を第９図によって説明する。辞書本体３
００の各ブロックの先頭の見出し語は。

サブインデックスファイル２００の見出し語となった後
辞書本体３００から削除されている。検索処理において
、サブインデックスファイル２００の検索中に検索する
語と一致する見出し語があった場合、その見出し語に対
応する辞書本体３００のブロックの最初に記された辞書
内容を求めることで検索目標の内容を得る。同様にして
サブインデックスファイル２００、もしくは第２のイン
デックスファイルの各ブロックの先頭の見出し語を省略
することができる。

本実施例によれば、重なる見出し語を省略することがで
きるので、省メモリ化の効果がある。また１本実施例に
よれば、ブロック先頭の見出し語は上位のサブインデッ
クスファイルもしくはマスタインデックスファイルから
直接参照されるので検索処理が短くなり、平均検索時間
を短縮する効果がある。

第１４の実施例を第１０図を用いて説明する。

辞書１は外部記憶装置１４上に第１０図に示すように配
置されている。すなわち、マスタインデックスファイル
１００は辞書１全体の中央に位置し。

サブインデックスファイル２００はブロックごとに分割
され、各ブロック中の見出し語が示す辞書本体３００の
該当ブロックが近くに集まるように辞書本体３００を分
割して配置する。従ってマスタインデックスファイル１
００からサブインデックスファイル２００の各ブロック
との外部記憶装置１４上のアドレスの隔たりの総和が最
小となり、又、サブインデックスファイル２００の各ブ
ロックに対して、各々のブロックに含まれる見出し語が
示す辞書本体３００の該当ブロックとのアドレスの隔た
りの総和が最小となる構成になる。

本実施例によれば、辞書検索処理において外部記憶装置
１４から順次ロードするデータが外部記憶装置１４上の
近い場所に常にあるため、外部記憶装置１４のアクセス
時間を短縮できるので、検索時間を短縮する効果がある
。

第１５の実施例を以下説明する。マスタインデックスフ
ァイル１００の検索によりサブインデックスファイル２
００の特定のブロックを導いた時点で１次に導かれる辞
書本体３００の特定ブロックが辞書本体３００のおよそ
どのあたりに位置するかを予想することができる。すな
わち、サブインデックスファイル２００の第１のブロッ
クに含まれる見出し語が示す辞書本体３００のブロック
が第１〜第ｎブロツク、サブインデックスファイル２０
０の第２のブロックに含まれる見出し語が示す辞書本体
のブロックが第ｎ＋＋〜第ｍ　（ｍ　＞　ｎ　＋＋）と
すると、マスタインデックスファイル１００の検索の結
果、サブインデックスファイル２００の第２のブロック
が導かれた場合、次に導く辞書本体３００のブロックは
第ｎ＋＋〜第ｍのブロックのうちの何れかである。従っ
て、サブインデックスファイル２００の特定ブロックを
外部記憶装置１４からロードした後すぐに外部記憶装置
１４に辞書本体３００の第一２−ブロックをアクセスす
る制御を行う。外部記憶装置１４が第一］７−ブロック
をアクセスしている間にＣＰＵＩＩはさきにロードした
サブインデックスファイル２００の特定ブロックの検索
を行う。

本実施例によれば、サブインデックスファイル２００の
検索と外部記憶装置１４のアクセス動作を並行して行う
ため、検索処理時間を短縮する効果がある。

〔発明の効果〕

本発明によれば、ブロックサイズとして限られたメモリ
容量で大容量の辞書を検索できるので。

メモリ効率向上の効果がある。

また本発明によれば、小メモリの小型電子計算機を用い
て大容量辞書の検索ができるので、辞書検索装置の価格
低減の効果がある。

更に本発明によれば、多数の見出し語を集めブロック分
割し、各々のブロックの先頭の見出し語を集めて上位の
サブインデックスファイルもしくはマスタインデックス
ファイルを形成するため、上位のサブインデックスファ
イルもしくはマスタインデックスファイルに並ぶ見出し
語は隣合った見出し語同志であっても文字の重なりが少
なくなり、検索の際に比較する文字数が少なくてよいの
で、検索時間を短縮する効果がある。例えば第１図に見
られる辞書において、語１１アガナ”の検索の場合、マ
スタインデックスファイルの見出し語との比較は、′ア
”とキ”のみでよい。続くサブインデックスファイルで
は“ア”、′アカ”。

゛″アビで順関係は判別可能であり、辞書本体において
、″アカ”、′アガナ″の比較で所与の見出しを得る。

もし、辞書本体の見出し語を最初から検索したとすれば
第１ブロツクの全ての見出し、語の頭２文字を検査する
ことになる。

加えて本発明によれば、順序関係もしくは大小関係の規
定されたデータであれば見出し語に用いることができ、
カタカナ見出し語（アイウェオ順）。

英語見出し語（Ａ　Ｂ　Ｃ順）、数字見出し語（１２３
順）などに利用することができる。どのような検索すべ
き文字列でも、常にマスタインデックスファイル、サブ
インデックスファイル、辞書データファイルを各１回計
３回アクセスするだけで目的とする見出し語を検索する
ことができ、高速に大容量辞書データファイルを検索す
ることができる。

また、その際に必要とするバッファメモリの大きさは、
マスタインデックスファイル（１ブロツり）、サブイン
デックスファイル（該当すべき１ブロツク）、辞書デー
タファイル（該当すべき１ブロツク）を読み出すのみ各
１ブロツク分必要とし、その都度バッファメモリの内容
を書き換えて共通に使用することにより、１ブロツク分
の少ないバッファメモリの大きさで充分本発明を実現で
きる。

１ブロツクの大きさを２０４８バイトとし、平均見出し
語長を５バイトとすると、１ブロツクのマスタインデッ
クスファイルで、４１０ブロツクのサブインデックスフ
ァイルを管理することができ、さらに、サブインデック
スファイルの各ブロックがそれぞれ辞書データファイル
の４１０ブロツク分を管理することができる。すなわち
、１ブロツクのマスタインデックスファイルで、１６８
１００ブロツク（３４４メガバイト）の大容量辞書デー
タファイルを管理することができる。仮に２ブロツク分
のバッファメモリを用意したとすると、同様な計算によ
り６７１０００ブロツク（２゜７ギガバイト）もの大容
量辞書データファイルを管理することができるなどの効
果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図、
第３図は本発明の一実施例の辞書構造を説明するための
説明図、第４図は本発明の他の実施例を示すブロック図
、第５図、第６図、第７図第８図、第９図、第１０図は
それぞれ本発明の別の実施例を説明する説明図である。１・・・辞書、１０・・・辞書データ検索装置、１１・
・・ＣＰＵ　（中央処理袋［）、１３・・・内部メモリ
（第２の記憶装置ａｆ）、１４・・・外部記憶装置（第
１の記憶袋［）、１００・・・マスタインデックスファ
イル。２００・・・サブインデックスファイル、３００・・・
辞書本体（辞書データファイル）。／・−゛”〜

Claims

【特許請求の範囲】１、複数の見出し語および前記見出し語に対応するデー
タからなる辞書データファイルを記録した第１の記憶装
置と、前記見出し語を入力し前記見出し語に対する検索
結果を表示するための入出力装置と、前記第１の記憶装
置と前記入出力装置を制御する中央処理装置と、前記中
央処理装置の動作を決定するプログラムや前記第１の記
憶装置からのデータを一時格納するための第２の記憶装
置とからなる辞書データ検索装置において、前記辞書デ
ータファイルの各ブロックの先頭見出し語を集めたサブ
インデックスファイルを作成し、さらに前記サブインデ
ックスファイルの各ブロックの先頭見出し語を集めたマ
スタインデックスファイルを作成して、前記第１の記憶
装置の前記辞書データファイルを検索することを特徴と
する辞書データ検索方式。２、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記マスタインデックスファイルを前記第２の
記憶装置に常駐した辞書データ検索方式。３、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記ブロック長を前記第１の記憶装置における
物理的最小アクセス単位（セクター）もしくは前記最小
アクセス単位の整数倍とした辞書データ検索方式。４、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記サブインデックスファイルの各ブロックの
先頭見出し語のみを集めた第２のサブインデックスファ
イル、さらに同様な手法で生成した複数個のサブインデ
ックスファイルから構成されている辞書データ検索方式
。５、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記サブインデックスファイルの各ブロックの
先頭に、前記各ブロックの先頭見出し語が、前記サブイ
ンデックスファイル中の何番目の見出し語であるかを示
すオフセット値を記録した辞書データ検索方式。６、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記マスタインデックスファイルおよび前記サ
ブインデックスファイルの各ブロックの先頭に、その各
ブロックの先頭見出し語が格納されている前記辞書デー
タファイルの該当する物理アドレスもしくは論理アドレ
スを示すアドレス値を記録した辞書検索装置。７、特許請求の範囲第１項もしくは第４項記載の辞書デ
ータ検索方式において、前記辞書データファイルの各ブ
ロックの先頭に、インデックスファイルと区別するため
の識別コードを記録した辞書データ検索方式。８、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記辞書データファイルの各見出し語の次に、
次の見出し語との相対アドレス値を記録した辞書データ
検索方式。９、特許請求の範囲第１項記載の辞書データ検索方式に
おいて、前記サブインデックスファイルおよび前記マス
タインデックスファイルの各見出し語の最後に次の見出
し語と区別するための識別コードを記録した辞書データ
検索方式。１０、特許請求の範囲第１項記載の辞書データ検索方式
において、前記サブインデックスファイルおよび前記マ
スタインデックスファイルの各見出し語の最後の文字コ
ードを、次の見出し語との区別をするため、前記各見出
し語の中で常に変化しない固定ビットを反転して記録し
た辞書データ検索方式。１１、特許請求の範囲第１項記載の辞書データ検索方式
において、前記辞書データファイルの前記見出し語に対
応するデータとして、前記第１の記憶装置の物理アドレ
スもしくは論理アドレスを示すアドレス値列を記録した
辞書データ検索方式。１２、特許請求の範囲第１項記載の辞書データ検索方式
において、前記マスタインデックスファイルおよび前記
サブインデックスファイルの各見出し語を他の見出し語
と識別可能な語頭部のみで構成した辞書データ検索方式
。１３、特許請求の範囲第１項記載の辞書データ検索方式
において、前記辞書データファイルおよび前記サブイン
デックスファイルの各ブロックの先頭見出し語を省略し
た辞書データ検索方式。１４、特許請求の範囲第１項記載の辞書データ検索方式
において、前記マスタインデックスファイルおよび前記
サブインデックスファイルを前記第１の記憶装置に記憶
した辞書データ検索方式。１５、特許請求の範囲第１４項記載の辞書データ検索方
式において、前記マスタインデックスファイルを前記辞
書データファイルをほぼ２分するブロック位置に、また
前記サブインデックスファイルの各ブロックを前記辞書
データファイルの該当するブロックの近傍にそれぞれ配
置した辞書データ検索方式。１６、特許請求の範囲第１４項または第１項記載の辞書
データ検索方式において、前記マスタインデックスファ
イルをアクセス直後に前記サブインデックスファイルを
ほぼ２分するブロック位置に、また前記サブインデック
スファイルをアクセス直後に前記辞書データファイルの
該当するブロックの近傍に、あらかじめアクセス（シー
ク）しておく辞書データ検索方式。