JPH0782504B2

JPH0782504B2 - 情報検索処理方式および検索ファイル作成装置

Info

Publication number: JPH0782504B2
Application number: JP2338546A
Authority: JP
Inventors: 忠一菊池
Original assignee: 株式会社テレマティーク国際研究所
Priority date: 1990-11-30
Filing date: 1990-11-30
Publication date: 1995-09-06
Anticipated expiration: 2010-09-06
Also published as: JPH04205560A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、情報検索を行う情報検索処理方式に関する。
本発明は、特に全文検索を行うことに適し、入力された
検索入力と全文との照合回数を大幅に削減して高速に情
報検索を行うことができる情報検索処理方式に関する。
本発明はデータベースシステムにおいて全文検索処理を
行う情報検索処理方式に適する。

〔概要〕

本発明は、検索対象となる文字列と検索入力の文字列と
の一致照合を行うことにより情報検索を行う情報検索処
理方式において、検索対象となる文字列を文字ごとに、その文字の属する
検索単位の識別符号、検索単位中での文字位置を示す文
字位置順序符号、検索単位の論理的区分を示す属性符号
とから構成される文字位置情報を生成して文字種ごとに
グループ化した検索ファイルを生成しておき、検索入力
があったときこの検索入力を構成する文字の文字位置情
報を検索ファイルから取り出して照合し、検索単位識別
符号が共通で、検索入力と文字順序が等しくかつ属性符
号が同じ文字列を検索ファイル中から取り出すことによ
り、全文検索を高速に行うことができるようにするものであ
る。

〔従来の技術〕

従来から、全文の最初から最後まで、検索入力文字列と
の文字列照合を行い、検索者が指定する入力文字列と検
索条件に合致する文書を選出する逐次検索方式や全文か
らあらかじめキーワードを抽出して検索ファイルを作成
するインデックス方式が全文検索技術として一般的であ
る。また全文に出現する文字や文字列を表形式にして、
検索入力文字列から分解して作成する文字や文字列の出
現文書を絞り込むプリサーチ方式がある。

〔発明が解決しようとする課題〕

逐次検索方式では、全文の最初から最後まで、検索入力
文字列との照合を行うため、多量の文字列を有する文書
を検索する場合、多くの時間を要する。このため、多量
文書の検索では、高速な文字列照合を行う専用のプロセ
ッサやLSIが提案されているが、これらの方式では、ハ
ードウエアが限定されるほか、検索処理を行う計算機と
専用プロセッサやLSIとの間での文字列転送に時間がか
かり、システムとして満足できる高速性の実現が課題と
なっている。

また、プリサーチ方式では、高速性を実現するための並
列処理機構や文字列照合に専用のハードウエアが必要で
あるほか、登録時に抽出する文字列の精度向上が課題と
なっている。

本発明者は、日本語の場合には、全文中に同じ文字や同
じ文字列が出現する頻度が低い特徴がある点に着目し、
検索対象文字列を文字種ごとに分類してグループ化した
検索ファイルを作成し、検索時には、検索ファイル中か
ら文字列の連続性を照合することにより検索を高速化す
ることができることを見出した。

本発明は、上述の観点から大量文書を対象とする全文検
索の高速化をソフトウエアだけで実現でき、しかも特定
のハードウエアに限定されず、検索処理を主記憶上で行
うことにより専用プロセッサやLSIとの文字列の転送が
不要であり、文字と文字位置に着目することにより任意
の文字列検索が可能である汎用性に富む情報検索処理方
式を提供することを目的とする。

〔課題を解決するための手段〕

本発明の第一の特徴は、それぞれが文字列で構成され検
索を行う単位である複数の検索単位によって構成される
一連の文字列であって、この検索単位にはその論理区分
にしたがった属性が定められている一連の文字列を検索
対象として所定の検索入力文字列に合致する文字列を抽
出する情報検索方式の検索ファイル作成装置において、上記検索単位が現れるごとに検索単位ごとの昇順の符号
を付与する検索単位識別符号付与手段と、上記検索単位
にその属性にしたがって定められている属性符号を付与
する属性符号付与手段と、検索対象となる文字列を各文
字ごとに検索単位中での位置を示す文字位置順序符号を
付与する文字位置順序符号付与手段と、上記検索単位識
別符号と文字位置順序符号と属性符号とからなる文字位
置情報を作成して、この文字位置情報を文字種ごとの領
域に格納して検索ファイルを作成する手段とを備えたこ
とを特徴とする。

なお、文字位置情報は、｛（検索単位識別符号×ｎ）＋文字位置順序符号｝×ａ
＋属性符号 n:最大検索単位文字数 a:最大属性数なる数字として与えられることが好ましい。

また本発明の第二の特徴は、第一の特徴で作成された検
索ファイルを備え、検索入力文字列の構成文字と同じ文
字の文字位置情報を上記検索ファイルから取り出す手段
と、この取り出した各文字の文字位置情報間で、検索単
位識別符号が共通で文字位置順序符号が検索入力の文字
列と等しい順序であり、かつその属性符号が検索入力と
等しい文字位置情報を抽出する手段と、この抽出された
文字位置情報に基づいて検索入力と等しい文字列が属す
る検索単位および文字位置を検索結果として出力する手
段とを備えたことを特徴とする。

また、検索入力の文字列と等しい文字位置情報の抽出
は、検索入力文字の出現頻度の小さい文字から順に行う
ことが好ましい。

〔作用〕

日本語の文字列では、同一の文字が現れる頻度は英語な
どに比べると小さい。特に漢字については同一の漢字が
繰り返し現れる頻度は小さい。例えば広辞苑の見出し語
の説明文書は約900万字あるが、その中でJIS第１水準の
漢字の出現頻度を調べると平均出現頻度は1155回であ
る。このため、JIS第１水準2965種の漢字については、
検索入力がｎ文字の場合、全文から抽出する照合対象は
平均すればｎ×1155文字となる。一般的に検索入力は数
十文字以下であるため、出現頻度の高い文字列であって
も、全部の文字を逐次照合するものに比べるとその照合
回数は極めて少なくなる。

さらに日本語の文字列、特に漢字の文字列では同一の文
字列が発生する頻度は極めて小さい。例えば、「通信」
という２つの文字列を使用する用語は多々あるとしても
「通信・・」という４文字からなる文字列は「通信回
線」、「通信装置」のように４文字で同一の文字が発生
する頻度は非常に小さくなる。このため、検索入力文字
列の構成文字で全文との照合を進めていくと、それまで
に得られた検索対象候補の文字列の中から、検索入力文
字列と異なる文字列が削除され、照合する構成文字ごと
に検索対象が絞り込まれていく。特に、検索入力の中の
全文出現頻度の小さい文字から順に照合を行うと一層絞
り込まれて照合一致を取る回数を低減できる。

したがって、検索対象となる文字列（全文）を構成する
各文字が文字列中のどの位置にあるかを示す文字位置情
報を文字種ごとにグループ化した検索ファイルを作成
し、この検索ファイルに対して検索入力文字列との照合
一致を行うことにより文字列検索における照合一致処理
回数を大幅に低減することができる。

この検索ファイルの作成は次のように行う。

まず検索対象となる文字列を検索単位に分ける。検索対
象文字列が例えば書籍や論文の場合、目次、序文、章ま
たは節等のタイトル、本文、図または表等のタイトル、
参考文献という順序で構成されており、それぞれの構成
部分が論理的に区分されているため、検索単位として構
成できる。そこで書籍または論文を論理的に検索単位に
分け、それぞれの検索単位ごとに出現順序に従って昇順
に識別符号を付与する。このとき本文については複数の
検索単位に分割し、それぞれ他の検索単位とともに一連
の識別符号を付与することもできる。また、この検索単
位について、目次、序文、タイトル、本文のようにその
検索単位の論理的な種別が区分されるので、その論理的
な種別を属性として、その属性を示す属性符号を付与す
る。

そして、文字列をそれぞれの文字ごとに分解し、各文字
に検索単位識別符号と各文字が検索単位中のどの位置に
あるかを示す文字位置順序符号と検索単位の属性符号と
からなる文字位置情報を生成し、文字種ごとに構成され
た領域に格納し、検索対象文字列を構成する文字種別で
グループ化した検索ファイルを作成する。

この検索ファイルは、文字種別ごとに文字位置情報が格
納された形のファイル構造となり、周知の記憶媒体に記
憶される。

検索処理は、検索入力の文字列をそれぞれの構成文字に
分け、検索ファイル中から検索入力を構成する文字と同
じ文字の文字位置情報を取り出して、検索単位識別符号
が共通しており検索入力文字列と文字順序が等しくかつ
属性符号が同じ文字位置情報を照合して取り出す。

この照合処理は、検索入力と検索ファイルとの文字列の
連続性の一致と属性の一致とをみるもので、検索ファイ
ル中の文字位置情報から検索単位識別符号が共通してい
て検索入力の文字位置順序と同一で属性符号が同じ文字
列を取り出すことにより行う。

これにより、全検索ファイルの照合が不要になり、検索
ファイルにある検索入力と同じ構成文字の文字位置情報
だけの照合一致を行えばよいので、照合回数は逐次照合
に比べるときわめて低減することができる。また、日本
語文書では、同じ文字列の出現頻度が小さく、文字照合
の都度、検索対象が絞り込まれるので、照合回数は低減
していく。

さらに、検索ファイルから取り出した文字位置情報を照
合するとき、検索入力の中の全文出現頻度の小さい文字
から順に行うと検索対象が一層絞り込まれ、照合一致を
とる回数がさらに低減できる。

このようにして同一の文字列を見出したときはその検索
単位識別符号から抽出すべき検索単位を抽出して、検索
者に検索結果として出力する。

〔実施例〕

以下図面を参照して本発明の実施例を説明する。

第１図は本発明一実施例における情報検索処理装置の構
成を示すものである。

本実施例の情報検索処理装置は、各種演算処理あるいは
判断処理を行うCPU1と、検索処理、検索ファイル作成等
のプログラム、作成されたあるいは検索処理を行うため
の検索ファイル、検索入力等を記憶するメモリ２、キー
ボード４、ディスプレイ５を接続する入出力部３、各種
情報が記憶される外部記憶装置７を接続する外部記憶装
置制御部６、CPU1、メモリ２、入出力部３、外部記憶装
置制御部６を接続する共通バス８とを備える。

本実施例での情報検索処理は、検索処理に供するための
検索対象となる文字列について文字種ごとにグループ化
された検索ファイルを作成する検索ファイル作成処理
と、検索ファイルとの照合一致を行って検索入力に合致
する文字列を抽出する検索処理との二つに分けられる。

まず、検索ファイル作成処理について説明する。

この検索ファイル作成処理は、大まかに分けると、検
索ファイル領域確保、各構成文字への文字位置情報の
付与、文字種別ごとにグループ化した文字位置情報の
ファイルへの格納の３つに分けることができる。この各
処理についてそれぞれ説明する。

検索ファイル領域確保全文の構成文字をJISコード表に準じて分類し、JISコー
ド表に記載されている文字種別に出現頻度を計数する。
これにより、検索ファイルを構成する各文字種グループ
に登録される文字位置情報の数がわかるので、全文字種
グループで構成される検索ファイルの領域を確保でき
る。また同時に、各文字種グループに登録される文字位
置情報から、検索ファイル内に連続して格納される文字
種グループの先頭番地もわかる。この文字種グループの
先頭番地をJISコード表の記載順に配列したのが第２図
に示す文字欄アドレス表である。

各構成文字へ文字位置情報の付与ここで述べる文字位置情報は、文字列を構成する各文字
が属する検索単位の現れる順番を示す検索単位番号と、
検索単位におけるその文字の出現する位置を示す文字位
置番号と、検索単位の論理的な種別を示す属性番号から
なる。

まず検索単位とその属性について説明する。例えば一般
的な書籍は、目次、序文、章または節のタイトル、本
文、図または表のタイトル、参考文献などの部分で構成
されており、ほぼこの順序に従って現れる。この書籍の
内容を検索するとき、検索対象としてこの部分部分を検
索単位に分け、その検索単位ごとに検索して検索出力と
することが便利であるし、また検索目的に合致すること
が多い。すなわち、検索目的によってタイトルのみや本
文のみを検索対象として指定することが実際の検索では
多いからである。

したがって、一つの書籍を全文検索対象として検索する
場合に、その書籍を構成する論理的な部分に分けて検索
結果を出力することが好ましい。この検索単位は、検索
対象の文字列の論理的な分類を示すものであるため、こ
の検索単位に論理的区分に従って属性番号を付与する。
例えば、属性番号として、目次に「１」、序文に
「２」、章または節のタイトルに「３」、図または表の
タイトルに「４」、本文に「５」、参考文献に「６」を
付与する。

そしてこの検索単位が書籍に出現する順序に１から昇順
に番号を付与する。これを検索単位番号とする。なおこ
の際に本文が長文である場合には適当な区分に分けて本
文を複数の検索単位に分け、検索単位ごとに出現する順
位で検索単位番号を付与することもできる。

次に検索単位ごとに文字の先頭から順に１、２、３…と
昇順に番号を付与して文字位置番号を付与する。

そして、このように与えられた検索単位番号、文字位置
番号、属性番号とから検索単位を構成する文字を整数か
らなるコードに変換して文字位置情報を作成する。

なお、一つの書籍の中でどれが目次、序文、タイトル等
の検索単位であるかは事前に区分されている。また、同
様に目次、序文等がどの属性であるかはあらかじめ決め
られている。このため、検索単位番号はこの区分された
どの検索単位が現れたかが識別されることで付与され、
属性番号もそれぞれの区分された検索単位について決め
られた番号が付与されるものである。

この文字位置情報は、最大検索単位文字数をｎ、最大属
性数をａとするとき、文字位置情報コード＝｛検索単位番号×ｎ＋文字位置番
号｝×ａ＋属性番号 …（１）からなる式で与えられる整数のコードである。

例えば、検索単位の最大文字数ｎ＝10000、最大属性数
ａ＝10とし、８番目の検索単位である本文（属性番号＝
５）の先頭から第121〜124番目の文字位置に「通信文
書」という文字列があった場合、この「通」、「信」、
「文」、「書」の文字には、それぞれ「801215」、「80
1225」、「801235」、「801245」の文字位置情報が与え
られる。

そしてこのように文字位置情報を４バイトのコードで構
成すれば、最大10000文字数の検索単位を 2⁶⁴／（ｎ×ａ）≒４万個取り扱うことが可能である。

文字位置情報の検索ファイルへの登録次にこの各文字ごとに付与された文字位置情報を検索フ
ァイルに登録する。

上述のように文字種別グループは、JISコード表に記載
された順に検索ファイルに格納される。そして文字種別
グループに文字位置情報を登録する。この文字位置情報
の登録は、文字種グループの末尾にそれぞれ文字位置情
報を格納することによって行われる。このため、検索単
位順に登録するとすれば文字種グループ内には文字位置
情報が数値順の昇順に登録されることになる。

上述の「通信文書」の文字位置情報を検索ファイルに登
録した例を第３図に示す。このとき、各グループ内の文
字位置情報は昇順に格納される。このファイル容量は、
文字位置情報が４バイトであると、になる。

なお、文字位置情報の追加登録は、追加文書の各文字に
該当するグループの末尾に新規コードを追加することで
行う。また、削除は削除文書の各文字に該当するグルー
プ内の該当文字位置情報を特殊記号に変更することによ
って行う。これにより追加登録と削除を短時間に行うこ
とができる。

なお上述のようにこの検索ファイルの各文字種グループ
ごとに格納された文字位置情報は、文字欄アドレス表の
文字欄先頭番地をディレクトリとして取り出すことがで
きる。

以上の検索ファイルの作成処理の流れを第４図に示す。

すなわち、文字種の使用度数を計数して文字欄アドレス
表を作成し（S11、12）、検索ファイルの領域を確保す
る（S13）。次に検索単位登録順位カウンタをｋ＝１に
初期設定して、検索単位番号を「１」に、最大検索単位
文字数を「ｎ＝10000」に、最大属性数をａ＝10に設定
する（S14）。そして最初の検索単位を取り出す（S1
5）。ここまでが登録の前処理である。ここから検索単
位ごとの登録処理となり、まず、文字位置番号をｐ＝１
に、登録する検索単位の属性番号をa_iを設定する（S1
6）。次に、検索単位の先頭文字から順に、文字位置番
号ｐに該当する文字位置情報を次の（２）式を用いて作
成し（S17）、Ｄ＝（ｋ×100000＋ｐ）×10＋a_i …（２）文字位置番号ｐにある文字種グループが格納されている
検索ファイルの文字欄を示す文字欄ディレクトリ（文字
欄先頭番地）を文字欄アドレス表から取り出して（S1
8）、文字欄ディレクトリが示す検索ファイルの文字欄
の最後尾の次の行に文字位置情報を格納する（S19）。
そして、ｐ＝ｐ＋１、ｌ＝ｌ−１とし、検索単位内の全
ての文字を処理したところで、次の検索単位の処理に移
る（S23、24）。

次にこのようにして作成された検索ファイルを用いる検
索処理について説明する。

本実施例では、検索ファイルから取り出した文字位置情
報をもとに検索入力の文字列と同じ文字列を文字列照合
して全文検索を行う例で説明する。

まず、その検索処理は大まかに分けると以下の構成から
なっている。

検索入力文字列に該当する文字連アドレス表内文字
欄先頭番地を算出する。

検索入力文字列を出現頻度の少ない文字から順に並
べ変える。

並び変えた文字列の先頭から順に該当する文字種グ
ループを検索ファイルから取り出してそこに格納されて
いる文字位置情報から検索入力の文字列の順序と一致す
る文字位置情報を取り出す。

抽出した文字位置情報から検索入力と同じ属性を有
する文字位置情報を取り出す。

照合一致した文字を含む検索単位を検索結果として
出力する。

次に具体的にそれぞれの処理を説明する。

検索入力文字列に該当する文字欄アドレス表内文字
欄先頭番地の算出検索ファイルの作成時と同様に、検索入力文字のJISコ
ード表記載順位を算出し、これを文字欄アドレス表にお
ける検索入力文字のアドレスポインタとする。

出現頻度順の並び変えそして、検索ファイルの各文字種グループの先頭番地を
示す文字欄アドレス表の文字欄先頭番地を参照して、検
索入力文字の出現頻度を調べ、検索入力の文字列を全文
出現頻度の小さいものから順に並び変える。上述のよう
に、文字欄アドレス表内の文字欄先頭番地は、検索ファ
イルに格納されている各文字種グループの先頭番地を示
しており、次に続く文字欄先頭番地との差をとれば、各
文字種グループに格納されている文字位置情報の数か
ら、全文中に出現する文字種別頻度がわかる。

これは出現頻度の小さい文字から照合一致を行うことに
より、検索ファイルに格納された各文字の文字位置情報
との照合回数をきわめて低減できるためである。すなわ
ち文字位置情報を照合して文字列の連続性を調べる場合
に二つの文字種グループ内の文字位置情報中の文字位置
番号を照合するため、その二つの文字種グループ内に格
納されている文字位置情報の文字位置番号数が少なけれ
ばそれだけ照合回数を少なくすることができる。したが
って、文字位置情報の照合を行うときに、出現頻度の小
さい文字から照合を行うことが照合回数を低減させる。
特に検索入力文字が多くなるほど出現頻度の小さい文字
が含まれるため低減効果は大きい。

文字列の照合出現頻度の小さい文字から文字欄アドレス表を参照して
それぞれの文字種グループに格納されている文字位置情
報を取り出す。そして取り出した文字位置情報をもと
に、出現頻度の小さい文字種グループから、各文字種グ
ループ間で検索単位が等しくかつ文字位置番号の差が検
索入力文字列の文字位置差に等しい文字位置情報を抽出
する。

この文字位置差の照合は、｛（検索入力文字列ｉ番目文字種グループ内文字位置情
報）−（検索入力文字列ｊ番目文字種グループ内文字位
置情報）｝÷ａ＝ｉ−ｊ …（３）ａ＝最大属性数となる文字位置情報を抽出すればよい。

この文字種グループ間での文字位置差の照合処理は、出
現頻度の小さい文字種グループの文字位置情報とそれよ
り出現頻度の大きい文字種グループの文字位置情報との
差を取って文字の連続を照合する。

この文字位置番号差に該当するものを抽出するときに、
二つの文字種グループをＡとＢとし、その文字位置差が
Ｌであるとし、グループＡの文字位置番号をA_x、グルー
プＢの文字位置番号をB_yとしたとき A_x＋Ｌ＞B_yならB_yを削除 A_x＋Ｌ＜B_yならA_xを削除 A_x＋Ｌ＝B_yならA_x、B_yを合致として共に削除というように照合対象から削除していくことによりその
照合回数を削減させる。

例えばグループＡの文字位置番号が５、13、100、200、1000、1100 グループＢの文字位置番号が３、18、101、150、180 であった場合、この二つのグループ間の照合回数は全体
で７回だけですみ、グループ内の全ての文字位置情報を
照合する必要はない。

属性番号の照合文字列照合から得られた文字位置情報の中から、検索入
力と同じ属性番号の文字位置情報を取り出すことによ
り、検索入力で指定した属性に一致する文字位置情報を
抽出できる。

検索単位の抽出取り出した文字位置情報から検索単位番号と文字位置番
号を検索結果として抽出する。

なお、検索入力が複数ある場合には、２番目以降の検索
入力に対しては、先頭文字に該当する文字種グループか
らそれまでに得られた検索単位番号を有する文字位置情
報を取り出し、２文字目以降の処理を行うようにする。
これは第１番目の検索入力で得られた検索結果に対して
２番目以降の検索入力による照合を行うものである。

以上の〜の動作を具体例を挙げて説明する。

検索対象として本文が指定され、検索入力文字列として
は「通信文書」が指定されたとする。この場合本文の属
性番号は「５」とする。

例えば各文字の全文出現頻度が「書」＜「文」＜「信」
＜「通」の順であり、照合をこの順序に行うとすると、
まず検索ファイル中の「書」の文字欄から取り出した文
字位置情報と「文」の文字欄から取り出した文字位置情
報とを上記（３）式を使用してその差が「−10」になる
文字位置情報を抽出すると、検索ファイルの「書」内の
文字位置情報の「801245」と「文」内の「801235」とを
連続性ある文字位置情報として抽出することができる。

次に、「書」の中で照合結果として残った文字位置情報
と、「信」に該当する検索ファイルの文字欄から取り出
した文字位置情報を上記（３）式を使用して、その差が
「−20」になる文字位置情報を抽出すると、「書」内の
文字位置情報の「801245」と「信」内の文字位置情報
「801225」とを連続性ある文字位置情報として抽出する
ことができる。同様にして、「書」内の文字位置情報の
「801245」と「通」内の文字位置情報「801215」とを連
続性ある文字位置情報として抽出することができる。さ
らに、検索条件は「本文」であるから、これまでの文字
列照合で残った文字位置情報の中から、属性番号が
「５」の文字位置情報として、「801215」〜「801245」
を抽出できる。

したがって、この文字列が属する検索単位番号「８」の
検索単位と文字位置番号「121〜124」を検索結果として
出力する。

この検索処理動作を第５図にフローチャートとして示
す。

すなわち、検索入力を取り出し、その文字数、属性番号
を設定し、検索入力文字の出現頻度を文字欄アドレス表
を参照して調べ出現頻度の小さいものから順に並び変え
る（S41〜S43）。そして検索ファイルから並べ変えた検
索入力文字に該当する文字種グループ（文字欄）に格納
されている文字位置情報を取り出す（S44）。そして、
二つの文字種グループ間で、（出現頻度の小さい文字種
グループの文字位置情報）−（出現頻度の大きい文字種
グループの文字位置情報）＝（並べ変えた検索入力の二
つの文字の文字位置番号差）×（最大属性数）であり、
文字位置情報の属性番号がa_iである文字位置情報を一致
結果として取り出す（S45）。そして照合が終わったか
否かを判断した後、検索入力に一致した検索単位と文字
位置番号を検索結果として出力する（S48）。

〔発明の効果〕

以上説明したように、本発明は検索対象文字列の文字種
ごとにその文字が属する検索単位識別符号、文字位置順
序符号、検索単位の種別を示す属性番号からなる文字位
置情報を格納した検索ファイルを作成し、この検索ファ
イルを検索入力の文字列を構成する文字種ごとにその文
字位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、（１）検索処理のための文字列照合回数を低減すること
ができるため、高速照合を行うことができる、（２）文字と文字位置に着目して検索処理を行うため任
意の文字列検索を行うことができ、プリサーチ方式のよ
うに登録時に文字列抽出を行う必要はない、（３）専用のハードウエアを用いることなくソフトウエ
アだけで高速検索を実現できるため、汎用の情報処理装
置で全文検索を効率よく行うことができ汎用性に富む、（４）全文検索のデータベースシステムに利用したと
き、その検索ファイルの作成にキーワード抽出を行う必
要がなく、機械入力された論文などの文字列から自動的
に検索ファイルを作成することができるため、データベ
ースシステムを経済的にかつ効率よく構築することが可
能である優れた効果がある。

【図面の簡単な説明】

第１図は本発明一実施例に使用する情報検索処理装置の
構成例。第２図は実施例の文字欄アドレス表。第３図は実施例の検索ファイル例。第４図は実施例の検索ファイル作成処理手順を説明する
フローチャート。第５図は実施例の検索処理手順を説明するフローチャー
ト。１…CPU、２…メモリ、３…入出力部、４…キーボー
ド、５…ディスプレイ、６…外部記憶装置制御部、７…
外部記憶装置、８…共通バス。

Claims

【特許請求の範囲】

【請求項１】それぞれが文字列で構成され検索を行う単
位である複数の検索単位によって構成される一連の文字
列であって、この検索単位にはその論理区分にしたがっ
た属性が定められている一連の文字列を検索対象として
所定の検索入力文字列に合致する文字列を抽出する情報
検索方式の検索ファイル作成装置において、上記検索単位が現れるごとに検索単位ごとの昇順の符号
を付与する検索単位識別符号付与手段と、上記検索単位にその属性にしたがって定められている属
性符号を付与する属性符号付与手段と、検索対象となる文字列を各文字ごとに検索単位中での位
置を示す文字位置順序符号を付与する文字位置順序符号
付与手段と、上記検索単位識別符号と文字位置順序符号と属性符号と
からなる文字位置情報を作成して、この文字位置情報を
文字種ごとの領域に格納して検索ファイルを作成する手
段とを備えた検索ファイル作成装置。
【請求項２】文字位置情報は、｛（検索単位識別符号×ｎ）＋文字位置順序符号｝×ａ
＋属性符号 n:最大検索単位文字数 a:最大属性数なる数字として与えられる請求項１記載の検索ファイル
作成装置。
【請求項３】それぞれが文字列で構成され検索を行う単
位である複数の検索単位によって構成される一連の文字
列であって、この検索単位にはその論理区分にしたがっ
た属性が定められている一連の文字列を検索対象として
所定の検索入力文字列に合致する文字列を抽出する情報
検索方式において、検索対象となる一連の文字列について、文字列を構成す
る文字ごとに、文字列からなり検索を行う単位である検
索単位に昇順に付された検索単位識別符号と、検索単位
中でのその文字の位置を示す文字位置順序符号と、検索
単位の論理区分を示す属性符号とからなる文字位置情報
を文字種別ごとに格納した検索ファイルを備え、検索入力文字列の構成文字と同じ文字の文字位置情報を
上記検索ファイルから取り出す手段と、この取り出した各文字の文字位置情報間で、検索単位識
別符号が共通で文字位置順序符号が検索入力の文字列と
等しい順序であり、かつその属性符号が検索入力と等し
い文字位置情報を抽出する手段と、この抽出された文字位置情報に基づいて検索入力と等し
い文字列が属する検索単位および文字位置を検索結果と
して出力する手段とを備えた情報検索処理方式。
【請求項４】検索入力の文字列と等しい文字位置情報の
抽出は、検索入力文字の出現頻度の小さい文字から順に
行う請求項３記載の情報検索処理方式。