JPH04215181A

JPH04215181A - 情報検索処理方式および検索ファイル作成装置

Info

Publication number: JPH04215181A
Application number: JP2417609A
Authority: JP
Inventors: Chuichi Kikuchi; 菊池忠一
Original assignee: TEREMATEIIKU KOKUSAI KENKYUSHO KK
Current assignee: TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date: 1990-12-12
Filing date: 1990-12-12
Publication date: 1992-08-05
Anticipated expiration: 2010-11-22
Also published as: JPH07109603B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に全文検索を行うこ
とに適し、入力された検索入力と全文との照合回数を大
幅に削減して高速に情報検索を行うことができる情報検
索処理方式に関する。本発明はデータベースシステムに
おいて全文検索処理を行う情報検索処理方式に適する。

【０００２】

【従来の技術】従来から、全文の最初から最後まで、検
索入力文字列との文字列照合を行い、検索者が指定する
入力文字列と検索条件に合致する文書を選出する逐次検
索方式や全文からあらかじめキーワードを抽出して検索
ファイルを作成するインデックス方式が全文検索技術と
して一般的である。また全文に出現する文字や文字列を
表形式にして、検索入力文字列から分解して作成する文
字や文字列の出現文書を絞り込むプリサーチ方式がある
。

【０００３】

【発明が解決しようとする課題】逐次検索方式では、全
文の最初から最後まで、検索入力文字列との照合を行う
ため、多量の文字列を有する文書を検索する場合、多く
の時間を要する。このため、多量文書の検索では、高速
な文字列照合を行う専用のプロセッサやＬＳＩが提案さ
れているが、これらの方式では、ハードウエアが限定さ
れるほか、検索処理を行う計算機と専用プロセッサやＬ
ＳＩとの間での文字列転送に時間がかかり、システムと
して満足できる高速性の実現が課題となっている。

【０００４】また、プリサーチ方式では、高速性を実現
するための並列処理機構や文字列照合に専用のハードウ
エアが必要であるほか、登録時に抽出する文字列の精度
向上が課題となっている。

【０００５】本発明者は、全文中に同じ文字や同じ文字
列が出現する頻度が低い特徴がある点に着目し、検索対
象文字列を先頭文字から１文字ずつ、その文字と次に続
く合計ｑ文字で文字セットを作成し、これらの文字セッ
ト種ごとにグループ化した文字セットグループで検索フ
ァイルを作成し、検索時には、検索ファイル中から文字
セットの連続性を照合することにより検索を高速化する
ことができることを見出した。

【０００６】本発明は、上述の観点から大量文書を対象
とする全文検索の高速化をソフトウエアだけで実現でき
、しかも特定のハードウエアに限定されず、検索処理を
主記憶上で行うことにより専用プロセッサやＬＳＩとの
文字列の転送が不要であり、文字セットと文字セット位
置に着目することにより任意の文字列検索が可能である
汎用性に富む情報検索処理方式を提供することを目的と
する。

【０００７】

【課題を解決するための手段】本発明の第一の特徴は、
検索対象となる文字列を検索を行う単位である検索単位
に分けこの検索単位ごとに昇順の符号を付与する検索単
位識別符号付与手段と、この分けられた検索単位に対し
てその検索単位の論理的な区分を示す属性符号を付与す
る属性符号付与手段と、検索対象となる文字列から１文
字ずつ取り出し、その文字と次に続く合成ｑ文字で文字
セットを作成し、検索単位における文字セットの先頭文
字位置を示す文字セット位置順序符号を付与する文字セ
ット位置順序符号付与手段と、上記検索単位識別符号と
文字セット位置順序符号と属性符号とからなる文字セッ
ト位置情報を作成して、この文字セット位置情報を文字
セット種ごとの領域に格納して検索ファイルを作成する
手段とを備えたことを特徴とする。

【０００８】なお、文字セット位置情報は、ｎを最大検
索単位文字数、ａを最大属性数とするとき｛（検索単位
識別符号×ｎ）＋文字セット位置順序符号｝×ａ＋属性
符号なる数字として与えられることが好ましい。

【０００９】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からｑ文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セット種に格納されている文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えたことを特徴とする。

【００１０】また、検索入力文字セット列と等しい文字
セット位置情報の抽出は、検索入力の出現頻度の小さい
文字セットから順に行うことが好ましい。

【００１１】なお、検索対象文字列が記号を含む欧文字
列の場合は、少なくとも３文字単位の文字セットとし記
号を含む欧文字のみの文字セット種グループ検索ファイ
ルを用いることがよい。

【００１２】

【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文は約９００　万文字ある
が、その中で仮名文字の出現頻度を調べると平均約５３
２００　回と高い。しかし、仮名２文字の文字列の出現
頻度を調べると平均出現頻度４７２　回と低くなる。こ
のため、仮名２文字を文字セットとすると、検索入力が
ｎ文字の場合、全文から抽出する照合対象は平均すれば
（ｎ／２）×４７２　個の文字セット位置情報となる。漢字は文字種が仮名文字より多いので、漢字２文字の文
字列の出現頻度は仮名文字より低くなり、全文から抽出
する照合対象も仮名文字より少なくなる。一般的に検索
入力は数十文字以下であるため、出現頻度の高い文字列
であっても、全部の文字を逐次照合するものに比べると
その照合回数は極めて少なくなる。

【００１３】例えば、「通信」という２つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように「通信」の文
字以降で同一の文字が発生する頻度が低くなる。この結
果、「通信」に続く「回線」や「装置」の文字列を照合
すると、検索対象が急激に絞り込まれていく。このよう
にして、検索入力文字セット列の構成文字セットで全文
との照合を進めていくと、それまでに得られた検索対象
候補の文字セット列の中から、検索入力文字セット列と
異なる文字セット列が削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全文出現頻度の低い文字セットから順に照合を行
うと一層絞り込まれて照合一致を取る回数を低減できる
。

【００１４】したがって、検索対象となる文字列（全文
）を構成する各文字セットが文字列中のどの位置にある
かを示す文字セット位置情報を文字セット種ごとにグル
ープ化した検索ファイルを作成し、この検索ファイルに
対して検索入力文字セット列との照合一致を行うことに
より文字列検索における照合一致処理回数を大幅に低減
することができる。

【００１５】この検索ファイルの作成は次のように行う
。

【００１６】まず検索対象となる文字列を検索単位に分
ける。検索対象文字列が例えば書籍や論文の場合、目次
、序文、章または節等のタイトル、本文、図または表等
のタイトル、参考文献という順序で構成されており、そ
れぞれの構成部分が論理的に区分されているため、検索
単位として構成できる。そこで書籍または論文を論理的
に検索単位に分け、それぞれの検索単位ごとに出現順序
に従って昇順に識別符号を付与する。このとき本文につ
いては複数の検索単位に分割し、それぞれ他の検索単位
とともに一連の識別符号を付与することもできる。また
、この検索単位について、目次、序文、タイトル、本文
のようにその検索単位の論理的な種別が区分されるので
、その論理的な種別を属性として、その属性を示す属性
符号を付与する。

【００１７】そして、文字列を先頭文字から１文字ずつ
取り出し、その文字と次に続く合計ｑ文字で文字セット
を作成し、各文字セットに検索単位識別符号と各文字セ
ットの先頭文字位置を示す文字セット位置順序符号と検
索単位の属性符号とからなる文字セット位置情報を生成
し、文字セット種ごとに構成された領域に格納し、検索
対象文字列を構成する各文字セット種別でグループ構成
される検索ファイルを作成する。

【００１８】この検索ファイルは、文字セットの種別ご
とに文字セット位置情報が格納された形のファイル構造
となる。

【００１９】検索処理は、検索入力を先頭文字からｑ文
字単位の文字セットに分解して検索入力文字セット列を
構成し、分解した文字セットと同じ文字セットの文字セ
ット位置情報を検索ファイルから取り出して、検索単位
識別符号が共通しており文字セット位置順序符号の差が
検索入力文字列の文字セットの先頭文字位置差に等しく
かつ属性符号が同じ文字セット位置情報の組み合わせを
照合して取り出す。

【００２０】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報から検索
単位識別符号が共通していて文字セット位置順序符号の
差が検索入力文字列の文字セットの先頭文字位置差に等
しくかつ属性符号が検索入力と同じ文字セットの組み合
わせを取り出すことにより行う。

【００２１】これにより、全検索ファイルの照合が不要
になり、検索ファイルにある検索入力と同じ文字セット
の文字セット位置情報だけの照合一致を行えばよいので
、照合回数は逐次照合に比べるときわめて低減すること
ができる。また、一般的に同じ文字列の出現頻度が低い
ので、ｑ文字の文字セットを照合するたびに検索対象が
絞り込まれるので、照合回数は低減していく。

【００２２】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全文出
現頻度の低い文字セットから順に行うと検索対象が一層
絞り込まれ、照合一致をとる回数がさらに低減できる。

【００２３】このようにして同一の文字列を見出したと
きはその検索単位識別符号から抽出すべき検索単位と文
字セット構成各文字の検索単位における先頭文字からの
位置を示す文字位置を抽出して、検索者に検索結果とし
て出力する。

【００２４】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００２５】図１は本発明一実施例における情報検索処
理装置の構成を示すものである。

【００２６】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うＣＰＵ１と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ２、キーボード４、ディスプレイ５を接続する
入出力部３、各種情報が記憶される外部記憶装置７を接
続する外部記憶装置制御部６、ＣＰＵ１、メモリ２、入
出力部３、外部記憶装置制御部６を接続する共通バス８
とを備える。

【００２７】本実施例での情報検索処理は、検索処理に
供するための文字列について文字列の先頭文字から１文
字ずつ取り出し、その文字の次に続く文字の２文字で文
字セットを作成し、これらの文字セット種ごとにグルー
プ化した文字セットグループで作成される検索ファイル
を作成する検索ファイル作成処理と、検索ファイルとの
照合一致を行って検索入力に合致する文字列を抽出する
検索処理との二つに分けられる。

【００２８】まず、検索ファイル作成処理について説明
する。

【００２９】この検索ファイル作成処理は、大まかに分
けると、■検索ファイル領域確保、■各文字セットへの
文字セット位置情報の付与、■文字セット種別ごとにグ
ループ化した文字セット位置情報の検索ファイルへの格
納の３つに分けることができる。この各処理についてそ
れぞれ説明する。

【００３０】■　　検索ファイル領域確保検索ファイル
は、図２に示すように、ＪＩＳコード表に記載されてい
る文字順に配列された文字セット群で構成される。各文
字セット群は図３に示すように、ＪＩＳコード表に記載
されている文字順に、記載文字を先頭文字とする２文字
の文字列で構成される文字セットグループで構成される
。そこで全文の先頭文字から１文字ずつ取り出し、その
文字と次に続く文字の２文字で文字セットを作成し、こ
れらの文字セット種ごとに出現頻度を計数する。これに
より、検索ファイルを構成する各文字セット種グループ
に登録される文字セット位置情報の数がわかるので、全
文字セット種グループで構成される検索ファイルの領域
を確保できる。また同時に、各文字セット種グループに
登録される文字セット位置情報の数から、検索ファイル
内に連続して格納される文字セット種グループの先頭番
地もわかる。この文字セット種グループの先頭番地を図
３の文字セット群一覧の記載順に配列したのが図４に示
す文字セットグループアドレス表である。

【００３１】■　　各文字セットへの文字セット位置情
報の付与ここで述べる文字セット位置情報は、文字セッ
トが属する検索単位が現れる順番を示す検索単位番号と
、検索単位におけるその文字セットの出現する位置をそ
の文字セットの先頭文字の位置で示す文字セット位置番
号と、検索単位の論理的な種別を示す属性番号で作成さ
れる。

【００３２】まず検索単位とその属性について説明する
。例えば一般的な書籍は、目次、序文、章または節のタ
イトル、本文、図または表のタイトル、参考文献などの
部分で構成されており、ほぼこの順序に従って現れる。この書籍の内容を検索するとき、検索対象としてこの部
分部分を検索単位に分け、その検索単位ごとに検索して
検索出力とすることが便利であるし、また検索目的に合
致することが多い。すなわち、検索目的によってタイト
ルのみや本文のみを検索対象として指定することが実際
の検索では多いからである。

【００３３】したがって、一つの書籍を全文検索対象と
して検索する場合に、その書籍を構成する論理的な部分
に分けて検索結果を出力することが好ましい。この検索
単位は、検索対象の文字列の論理的な分類を示すもので
あるため、この検索単位に論理的区分に従って属性番号
を付与する。例えば、属性番号として、目次に「１」、
序文に「２」、章または節のタイトルに「３」、図また
は表のタイトルに「４」、本文に「５」、参考文献に「
６」を付与する。

【００３４】そしてこの検索単位が書籍に出現する順序
に１から昇順に番号を付与する。これを検索単位番号と
する。なおこの際に本文が長文である場合には適当な区
分に分けて本文を複数の検索単位に分け、検索単位ごと
に出現する順位で検索単位番号を付与することもできる
。

【００３５】次に検索単位ごとに、検索単位の先頭から
１文字ずつ取り出し、その文字と次に続く文字の２文字
で文字セットを作成し、作成順に１、２、３・・・と昇
順に番号を付与して文字セット位置番号とする。検索単
位の構成文字が奇数個の場合には１文字が残るが、この
１文字には文末を示す特殊文字ＥＭ（エンドマーク）を
付加し、このＥＭ文字と連結させて文字セットとして、
文字セット位置番号を付与する。なお、ＥＭ文字は、Ｊ
ＩＳコード表の未使用領域を割り当てる。ここでは数字
９の直後にあるＪＩＳコードＡ３ＢＡとした。

【００３６】そして、このように与えられた検索単位番
号、文字セット位置番号、属性番号とから検索単位を構
成する文字セットを整数からなるコードに変換して文字
セット位置情報を作成する。

【００３７】この文字セット位置情報は、最大検索単位
文字数をｎ、最大属性数をａとするとき、文字セット位
置情報コード＝｛検索単位番号×ｎ＋文字セット位置番
号｝×ａ＋属性番号の式で与えられる数字コードである
。

【００３８】例えば、検索単位の最大文字数ｎ＝１００
００　、最大属性数ａ＝１０とし、８番目の検索単位で
ある本文（属性番号＝５）の先頭から第１２１　〜１２
５　番目の文字位置に「通信文書の」という文字列があ
った場合、この文字列「通信文書の」は、「通信」、「
信文」、「文書」、「書の」の文字セットに分解され、
それぞれ「８０１２１５」、「８０１２２５」、「８０
１２３５」、「８０１２４５」の文字セット位置情報が
与えられる。

【００３９】そしてこのように文字セット位置情報を４
バイトのコードで構成すれば、最大１００００　文字数
の検索単位を２６４／（ｎ×ａ）≒４万個取り扱うこと
が可能である。

【００４０】■　　文字セット位置情報の検索ファイル
への登録次にこの各文字セットごとに付与された文字セ
ット位置情報を検索ファイルに登録する。

【００４１】上述のように文字セット種別グループは、
図３に記載された順に検索ファイルに格納される。そし
て各文字セット種別グループに文字セット位置情報を登
録する。この文字セット位置情報の登録は、文字セット
種グループの末尾にそれぞれ文字セット位置情報を格納
することによって行われる。このため、検索単位順に登
録するとすれば文字セット種グループ内には文字セット
位置情報が数値順の昇順に登録されることになる。

【００４２】上述の「通信文書の」の文字セット位置情
報を検索ファイルに登録した例を図５に示す。このとき
、各グループ内の文字セット位置情報は昇順に格納され
る。このファイル容量は、文字セット位置情報が４バイ
トであると、下記の数式１に示す容量になる。

【数１】

【００４３】なお、文字セット位置情報の追加登録は、
追加文書の各文字セットに該当するグループの末尾に新
規文字セット位置情報を追加することで行う。また、削
除は削除文書の各文字セットに該当するグループ内の該
当文字セット位置情報を特殊記号に変更することによっ
て行う。これにより追加登録と削除を短時間に行うこと
ができる。

【００４４】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図４の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。

【００４５】以上の検索ファイルの作成処理の流れを図
６に示す。

【００４６】すなわち、各文字セットの出現度数を計数
して文字セットグループアドレス表を作成し（Ｓ１１、
１２）、検索ファイルの領域を確保する（Ｓ１３）。次
に検索単位登録順位カウンタをｋ＝１に初期設定して、
検索単位番号を「１」に、最大検索単位文字数を「ｎ＝
１００００　」に、最大属性数をａ＝１０に設定する（
Ｓ１４）。そして最初の検索単位を取り出す（Ｓ１５）
。ここまでが登録の前処理である。ここから検索単位ご
との登録処理となり、まず、文字セット位置番号をｐ＝
１に、登録する検索単位の構成文字数ｍ、登録する検索
単位の属性番号ａｉ　を設定する（Ｓ１６）。次に、検
索単位の先頭文字から順に、文字セット位置番号ｐに該
当する文字セット位置情報をＤ＝（ｋ×１００００　＋
ｐ）×１０＋ａｉ　の式で作成する（Ｓ１７）。文字セ
ット位置番号ｐにある文字セットと同じ文字セット種グ
ループが格納されている検索ファイルの文字セットグル
ープの先頭番地を示す文字セットグループ先頭番地を文
字セットグループアドレス表から取り出して（Ｓ１８）
、文字セットグループ先頭番地が示す検索ファイルの文
字セットグループの空領域の先頭行に文字セット位置情
報を格納する（Ｓ１９）。そして、ｐ＝ｐ＋１、ｍ＝ｍ
−１とし、検索単位内の全ての文字セットを処理したと
ころで、次の検索単位の処理に移る（Ｓ２３、２４）。

【００４７】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。

【００４８】本実施例では、検索ファイルから取り出し
た文字セット位置情報をもとに検索入力文字セット列と
同じ文字セット列を文字列照合して全文検索を行う例で
説明する。まず、その検索処理は大まかに分けると以下
の構成からなっている。

【００４９】■　　検索入力文字列の先頭文字から２文
字単位の文字セットに分解し、検索入力文字セット列を
作成する。■検索入力文字セット列の各文字セットに該
当する文字セットグループアドレス表内文字セットグル
ープ先頭番地を算出する。■検索入力文字セット列を出
現頻度の少ない文字セットから順に並べ変える。■並べ
変えた文字セット列の先頭から順に該当する文字セット
種グループを検索ファイルから取り出してそこに格納さ
れている文字セット位置情報から検索入力文字セット列
を構成できる文字セット位置情報の組み合わせを取り出
す。■抽出した文字セット位置情報から検索入力と同じ
属性を有する文字セット位置情報を取り出し照合一致と
する。■照合一致した文字セット位置情報から検索単位
番号と文字セット構成各文字の検索単位における先頭文
字からの位置を示す文字位置番号を検索結果として出力
する。

【００５０】次に具体的にそれぞれの処理を説明する。

【００５１】■　　検索入力文字セット列の作成検索フ
ァイルに格納されている文字セットと照合可能なように
、検索入力文字列を先頭文字から２文字単位の文字セッ
トに分解し、検索入力文字セット列とする。

【００５２】■　　各検索入力文字セットに該当する文
字セットグループアドレス表内文字セットグループ先頭
番地の算出検索ファイルの作成時と同様に、各検索入力
文字セットの図３の文字セット群一覧記載順位を算出し
、これを文字セットグループアドレス表における検索入
力文字セットのアドレスポインタとする。

【００５３】■　　出現頻度順の並べ変えそして、検索
ファイルの各文字セット種グループの先頭番地を示す文
字セットグループアドレス表の文字セットグループ先頭
番地を参照して、各検索入力文字セットの出現頻度を調
べ、検索入力文字セット列を全文出現頻度の低いものか
ら順に並べ変える。上述のように、文字セットグループ
アドレス表内の先頭番地は、検索ファイルに格納されて
いる各文字セット種グループの先頭番地を示しており、
次に続く文字セットグループ先頭番地との差をとれば、
各文字セット種グループに格納されている文字セット位
置情報の数から、全文中に出現する文字セット種別頻度
がわかる。

【００５４】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報との照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中の文字セ
ット位置番号を照合するため、その二つの文字セット種
グループ内に格納されている文字セット位置情報の数が
少なければそれだけ照合回数を少なくすることができる
。したがって、文字セット位置情報の照合を行うときに
、出現頻度の低い文字セットから照合を行って照合回数
を低減させる。特に検索入力文字が多くなるほど出現頻
度の低い文字セットが含まれるため低減効果は大きい。

【００５５】■　　文字セット列の照合出現頻度の低い
文字セットから文字セットグループアドレス表を参照し
てそれぞれの文字セット種グループに格納されている文
字セット位置情報を取り出す。そして取り出した文字セ
ット位置情報をもとに、出現頻度の低い文字セット種グ
ループから、各文字セット種グループ間で検索単位が等
しくかつ文字セット位置番号の差が検索入力文字列の文
字セットの先頭文字位置差に等しい文字セット位置情報
の組み合わせを抽出する。この文字セット位置差の照合
は、ａ＝最大属性数とすると、｛（検索入力文字列ｉ番
目文字を先頭とする文字セット種グループ内文字セット
位置情報）−（検索入力文字列ｊ番目文字を先頭とする
文字セット種グループ内文字セット位置情報）｝÷ａ＝
ｉ−ｊの式で照合すればよい。

【００５６】この文字セット種グループ間での文字セッ
ト位置差の照合処理は、出現頻度の低い文字セット種グ
ループの文字セット位置情報とそれより出現頻度の高い
文字セット種グループの文字セット位置情報との差を取
って文字セットの連続を照合する。

【００５７】この文字セット位置番号差に該当するもの
を抽出するときに、二つの文字セット種グループをＡＢ
とＣＤ、ＡとＣの文字位置差がＬであるとし、グループ
ＡＢの文字セット位置番号をＡｘ　、グループＣＤの文
字セット位置番号をＣｙ　としたときＡｘ　＋Ｌ＞Ｃｙ　ならＣｙ　を削除Ａｘ　＋Ｌ＜Ｃｙ　ならＡｘ　を削除Ａｘ　＋Ｌ＝Ｃｙ　ならＡｘ　、Ｃｙ　を合致として共
に削除というように照合対象から削除していくことによ
りその照合回数を削減させる。

【００５８】例えばグループＡＢの文字セット位置番号
が５、１３、１００　、２００　、１０００、１１００
グループＣＤの文字セット位置番号が３、１８、１０１
　、１５０　、１８０　であった場合、この二つのグル
ープ間の照合回数は全体で７回だけですみ、グループ内
の全ての文字セット位置情報を照合する必要はない。

【００５９】■　　属性番号の照合文字セット列照合から得られた文字セット位置情報の中
から、検索入力と同じ属性番号の文字セット位置情報を
取り出すことにより、検索入力で指定した属性に一致す
る文字セット位置情報を抽出できる。

【００６０】■　　検索単位の抽出取り出した文字セット位置情報から検索単位番号と文字
セット構成各文字の検索単位における先頭文字からの位
置を示す文字位置番号を検索結果として抽出する。

【００６１】なお、検索入力が複数ある場合には、２番
目以降の検索入力に対しては、検索入力の最初の文字セ
ットに該当する文字セット種グループからそれまでに得
られた検索単位番号を有する文字セット位置情報を取り
出した後、検索入力の次の文字セット以降の処理を行う
ようにする。これは第１番目の検索入力で得られた検索
結果と同じ検索単位に含まれる文字セットを第２番目以
降の検索入力から抽出することを目的とする。

【００６２】以上の■〜■の動作を具体例を挙げて説明
する。検索対象として本文が指定され、検索入力文字列
としては「通信文書」が指定されたとする。この場合本
文の属性番号は「５」とする。なお、図５の検索ファイ
ルを対象として説明する。

【００６３】検索入力が「通信文書」であるから、検索
入力文字セットは「通信」と「文書」になる。全文出現
頻度が「通信」＜「文書」の順であり、照合をこの順序
に行うとすると、まず検索ファイル中の「通信」の文字
セットグループ欄から取り出した文字セット位置情報と
「文書」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、検索入力「通信文書」における
「通」と「文」との文字位置が各々「１」と「３」であ
るから、これらの差に最大属性数＝１０を乗算した「−
２０」になる文字セット位置情報を抽出して、図５の検
索ファイルの「通信」内の文字セット位置情報の「８０
１２１５」と「文書」内の「８０１２３５」とを連続性
ある文字セット位置情報の組み合わせとして抽出するこ
とができる。

【００６４】さらに、検索条件は「本文」であるから、
これまでの文字列照合で残った文字セット位置情報の中
から、属性番号が「５」の文字セット位置情報として、
「８０１２１５」と「８０１２３５」を抽出できる。

【００６５】したがって、この文字列が属する検索単位
番号「８」の検索単位と文字位置番号「１２１　〜１２
４　」を検索結果として出力する。

【００６６】この検索処理動作を図７にフローチャート
として示す。

【００６７】すなわち、検索入力を取り出し、検索入力
文字列の先頭から２文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−１、
属性番号を設定し、各文字セットの出現頻度を文字セッ
トグループアドレス表を参照して調べ出現頻度の低いも
のから順に並び変える（Ｓ４１〜Ｓ４４）。そして並べ
変えた文字セットの中から先頭から２個の文字セットに
該当する文字セット種グループに格納されている文字セ
ット位置情報を検索ファイルから取り出す（Ｓ４５）。そして、二つの文字セット種グループ間で、（出現頻度
の低い文字セット種グループの文字セット位置情報）−
（出現頻度の高い文字セット種グループの文字セット位
置情報）＝（検索入力における二つの文字セットの先頭
文字位置差）×（最大属性数）である文字セット位置情
報を一致結果として取り出す（Ｓ４６）。そして照合が
終わったか否かを判断した後（Ｓ４７、４８）、文字セ
ット位置情報の中から属性番号がａｉ　の文字セット位
置情報を選別し、検索入力に一致した検索単位と文字セ
ット構成各文字の検索単位における先頭文字からの位置
を示す文字位置番号を検索結果として出力する。（Ｓ４
９、５０）。なお、ステップＳ４８で照合が連続した場
合、これまでの一致結果の文字セット位置情報と、検索
入力を並べ変えた文字セットの中の次の文字セットに該
当する文字セット種グループに格納されている文字セッ
ト位置情報とで照合を行う（Ｓ４６）。

【００６８】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、ＪＩＳコード表の中から、仮
名文字と漢字文字を除いた字種だけで検索ファイルと文
字セット群一覧と文字セットグループアドレス表を作成
すると、日本語文書に比べ文字セットの少ない検索ファ
イルが構成でき、日本語文書に比してコンパクトに全文
検索が容易にできる。この場合、英文字（記号を含む）
についてはＪＩＳコードに変えて例えばＩＳＯコードを
用いた文字セットグループアドレス表を作成し、文字セ
ットは最低３文字で構成されたものとすることがよい。

【００６９】なお、全文検索の高速性が求められる場合
、文字セットの構成文字数を増加するとますます文字セ
ットの出現頻度が低くなり、各文字セット種グループに
格納される文字セット位置情報が少なくなるため、容易
に高速化を実現できる。

【００７０】

【発明の効果】以上説明したように、本発明は検索対象
文字列の文字セット種ごとにその文字セットが属する検
索単位識別符号、文字セット位置順序符号、検索単位の
種別を示す属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、（１）　検索処理のための文字列照合回数を低減するこ
とができるため、高速照合を行うことができる、（２）
　文字セットと文字位置に着目して検索処理を行うため
任意の文字列検索を行うことができ、プリサーチ方式の
ように登録時に文字列抽出を行う必要はない、（３）　
専用のハードウエアを用いることなくソフトウエアだけ
で高速検索を実現できるため、汎用の情報処理装置で全
文検索を効率よく行うことができ汎用性に富む、（４）
　全文検索のデータベースシステムに利用したとき、そ
の検索ファイルの作成にキーワード抽出を行う必要がな
く、機械入力された論文などの文字列から自動的に検索
ファイルを作成することができるため、データベースシ
ステムを経済的にかつ効率よく構築することが可能であ
る、（５）　欧文字のように字種の少ない文字からなる文字
列も、その文字列を構成する文字セット種グループで文
字セット位置情報を格納した検索ファイルを作成して検
索することにより、同じ文字列の出現頻度は少ないため
各文字セットの出現頻度を低く抑えることができ、出現
頻度の少ない文字セットでの検索照合を可能とするので
高速検索を可能とする優れた効果がある。

【図面の簡単な説明】

【図１】　　本発明一実施例に使用する情報検索処理装
置の構成例。

【図２】　　実施例の検索ファイル例。

【図３】　　実施例文字セット群一覧。

【図４】　　実施例文字セットグループアドレス表。

【図５】　　実施例の検索ファイル例。

【図６】　　実施例の検索ファイル作成処理手順を説明
するフローチャート。

【図７】　　実施例の検索処理手順を説明するフローチ
ャート。

【符合の説明】

１　　ＣＰＵ２　　メモリ３　　入出力部４　　キーボード５　　ディスプレイ６　　外部記憶装置制御部７　　外部記憶装置８　　共通バス

Claims

【特許請求の範囲】

【請求項１】　　検索対象となる文字列を検索を行う単
位である検索単位に分けこの検索単位ごとに昇順の符号
を付与する検索単位識別符号付与手段と、この分けられ
た検索単位に対してその検索単位の論理的な区分を示す
属性符号を付与する属性符号付与手段と、検索対象とな
る文字列を各文字ごとにその文字と次に続く合計ｑ文字
（ただしｑは２以上の自然数）からなる文字セットとし
、この文字セットの属する検索単位中での文字セットの
先頭文字位置を示す文字セット位置順序符号を付与する
文字セット位置順序符号付与手段と、上記検索単位識別
符号と文字セット位置順序符号と属性符号とからなる文
字セット位置情報を作成して、この文字セット位置情報
を文字セット種ごとの領域に格納して検索ファイルを作
成する手段とを備えた情報検索処理方式。
【請求項２】　　文字セット位置情報は、｛（検索単位
識別符号×ｎ）＋文字セット位置順序符号｝×ａ＋属性
符号ｎ：最大検索単位文字数ａ：最大属性数なる数字として与えられる請求項１記載の情報検索処理
方式。
【請求項３】　　検索対象となる文字列について、文字
列を構成する文字ごとに、文字セット列からなり検索を
行う単位である検索単位に昇順に付された検索単位識別
符号と、検索単位中でのその文字セットの先頭文字位置
を示す文字セット位置順序符号と、検索単位の論理区分
を示す属性符号とからなる文字セット位置情報を文字セ
ット種別ごとに格納した検索ファイルを備え、検索入力
文字列の構成文字を先頭文字からｑ文字単位の文字セッ
トに分解した検索入力文字セット列を構成し、分解した
文字セットと同じ文字セットの文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えた情報検索処理方式。
【請求項４】　　検索入力文字セット列と等しい文字セ
ット位置情報の抽出は、検索入力の出現頻度の小さい文
字セットから順に行う請求項３記載の情報検索処理方式
。
【請求項５】　　検索対象文字列が記号を含む欧文字列
の場合は、少なくとも３文字記号単位の文字セットで記
号を含む欧文字の文字セット種のみの検索ファイルを用
いる請求項１ないし４のいずれかに記載の情報検索処理
方式。