JPH04340164A

JPH04340164A - マルチキーワード情報検索処理方式および検索ファイル作成装置

Info

Publication number: JPH04340164A
Application number: JP3013878A
Authority: JP
Inventors: Chuichi Kikuchi; 菊池　忠一
Original assignee: TEREMATEIIKU KOKUSAI KENKYUSHO KK
Current assignee: TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date: 1991-01-10
Filing date: 1991-01-10
Publication date: 1992-11-26
Anticipated expiration: 2011-07-31
Also published as: JP2519129B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に、マルチキーワー
ドを用いた部分一致検索を行うことに適し、入力された
マルチ検索入力文字列と登録キーワードとの文字列照合
回数を大幅に削減して、マルチ検索入力文字列に対する
部分一致（中間一致、前方一致、後方一致）や完全一致
の各検索処理を高速に行うことができる情報検索処理方
式に関する。本発明は、データベースシステムにおいて
マルチキーワード部分一致検索処理を行う情報検索処理
方式に適する。

【０００２】

【従来の技術】従来から、検索対象であるレコードが有
するキーワードの最初から最後まで、検索入力文字列と
の文字列照合を行い、検索者が指定する入力文字列と検
索条件に合致するキーワードからレコード番号をサーチ
する逐次検索方式や、キーワードから検索入力可能な文
字列を作成して索引形式に検索ファイルを格納し、検索
者が指定する入力文字列と検索条件に合致するキーワー
ドを検索ファイルのインデックス構造を利用してサーチ
するインデックス方式がマルチキーワードを用いた部分
一致検索技術として一般的である。

【０００３】

【発明が解決しようとする課題】しかし逐次検索方式で
は、検索対象レコードの有するキーワードの最初から最
後まで、検索入力文字列との照合を行うため、多量のキ
ーワードを有する場合、その検索に多くの時間を要する
。このため、大規模データベースの検索では、高速な文
字列照合を行う専用のプロセッサやＬＳＩが提案されて
いるが、これらの方式では、ハードウエアが限定される
ほか、検索処理を行う計算機と専用プロセッサやＬＳＩ
との間での文字列転送に時間がかかり、システムとして
満足できる高速性の実現が課題となっている。

【０００４】また、インデックス方式は、部分一致検索
の高速化が可能であるが、検索ファイルが巨大になると
いう欠点がある。このため完全一致、前方一致、後方一
致の検索が使用されているが、中間一致はサポートされ
ていないことが多い。これは、中間一致を行うために、
完全一致、前方一致、後方一致の検索インデックスとは
別に、中間一致用のインデックスが多量に必要になり、
検索ファイルの記憶容量が巨大となること、これに伴い
検索時間が増大すること、および検索ファイルの保守が
容易でないことが主な理由となっている。また、システ
ムによっては検索ファイルの規模の制約から、キーワー
ドの全ての前方一致や後方一致検索がサポートされない
こともある。しかし、検索者はキーワードの中の特徴あ
る文字や文字列を記憶することが多く、このため中間一
致を含む部分一致検索のサポートにより検索がスムーズ
に行なえるようになることが求められている。

【０００５】本発明者は、日本語の場合には、キーワー
ドになりうる単語に同じ文字や同じ文字列が出現する頻
度が低い特徴がある点に着目し、キーワード構成文字を
文字種ごとに格納して検索ファイルを作成し、検索時に
は、検索入力された任意の文字列の構成文字と同じ文字
を検索ファイルから取り出し、検索ファイル中から任意
の文字列の連続性を照合することにより検索を高速化す
ることができることを見出した。

【０００６】本発明は、上述の観点から巨大なデータベ
ースシステムを対象とするマルチキーワードを用いた部
分一致検索の高速化を実現することができ、しかも特定
のハードウエアに限定されず、検索処理を主記憶上で行
うことにより専用プロセッサやＬＳＩとの文字列の転送
が不要であり、文字と文字位置に着目することにより任
意の文字列検索が可能である汎用性に富む情報検索処理
方式を提供することを目的とする。

【０００７】

【課題を解決するための手段】本発明の第一の特徴は、
検索対象となるレコードごとに昇順の符号を付与するレ
コード識別符号付与手段と、このレコードが有する各キ
ーワードにキーワードの論理的な区分を示す属性符号を
付与するキーワード属性符号付与手段と、このキーワー
ドを各文字ごとに分解し各文字にキーワード中での位置
を示す文字位置順序符号を付与する文字位置順序符号付
与手段と、上記レコード識別手段とキーワード属性符号
と文字位置順序符号とからなる文字位置情報を作成して
、この文字位置情報を文字種ごとの領域に格納して検索
ファイルを作成する手段とを備えたことを特徴とする。

【０００８】なお、文字位置情報は、レコードが有する
各キーワードをキーワード属性符号に対応するキーワー
ド属性領域に配列して作成するキーワード列について、
各キーワードの全ての文字を、レコード識別符号とキー
ワード属性符号と文字位置順序符号とで整数からなるコ
ードに変換して作成するもので、レコード識別符号×ｎ＋（Ｐａ　−１）＋文字位置順序
符号ｎ：キーワード列文字数Ｐａ　：キーワード属性符号ａのキーワード属性領域の
キーワード列における先頭文字位置なる数字として与えられることが好ましい。

【０００９】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字と同じ文字の文字位置情報を上記検索ファイルから
取り出す手段と、この取り出した各文字の文字位置情報
間で、レコード識別符号とキーワード属性符号が共通で
文字位置順序符号が検索入力の文字列と等しい順序であ
り、かつそのキーワード属性符号が検索入力と等しい文
字位置情報の組み合わせを抽出する手段と、この抽出さ
れた文字位置情報の組み合わせに基づいて検索入力文字
列に対応するレコード識別符号を検索結果として出力す
る手段とを備えたことを特徴とする。

【００１０】また、検索入力の文字列を構成できる文字
位置情報の組み合わせの抽出は、検索入力の全キーワー
ドにおける出現頻度の低い文字から順に行うことが好ま
しい。

【００１１】また、検索入力の文字列を構成できる文字
位置情報の組み合わせの抽出は、検索入力文字列の全キ
ーワードにおける出現頻度の低い文字の文字位置順序符
号をｉ、出現頻度の高い文字の文字位置順序符号をｊと
するとき、（文字位置順序符号ｉの文字の文字位置情報
）−（文字位置順序符号ｊの文字の文字位置情報）＝ｉ
−ｊの式により行うことが好ましい。

【００１２】

【作用】日本語の文字列では、同一の文字が現れる頻度
は英語等に比べると低い。特に漢字については同一の漢
字が繰り返し現れる頻度は低い。例えば広辞苑（岩波書
店発行）の見出し語の説明文書は約９００　万字あるが
、その中でＪＩＳ第１水準の漢字の出現頻度を調べると
平均出現頻度は１１５５回である。このため、ＪＩＳ第
１水準２９６５種の漢字については、検索入力がｎ文字
の場合、広辞苑の見出し語の説明文書から抽出する照合
対象は平均すればｎ×１１５５文字となる。一般的に検
索入力は数十文字以下であるため、出現頻度の高い文字
を含む文字列であっても、全部の文字を逐次照合するも
のに比べるとその照合回数は極めて少なくなる。

【００１３】さらに日本語の文字列、特に漢字の文字列
では同一の文字列が発生する頻度は極めて小さい。例え
ば、「通信」という２つの文字列を使用する用語は多々
あるとしても「通信・・」という文字列は「通信回線」
、「通信装置」のように４文字で同一の文字が発生する
頻度は非常に低くなる。このため、検索入力文字列の構
成文字で検索ファイルとの照合を進めていくと、それま
でに得られた検索対象候補のキーワードの中から、検索
入力文字列と異なるキーワードが削除され、照合する構
成文字ごとに検索対象が絞り込まれていく。特に、検索
入力の中の全キーワードにおける出現頻度の低い文字か
ら順に照合を行うと一層絞り込まれて照合一致を取る回
数を低減できる。

【００１４】したがって、検索対象となるレコードが有
するキーワードを構成する各文字に対応して、レコード
を特定できるレコード識別符号と、キーワードの属性を
特定できるキーワード属性符号と、キーワード中の文字
位置を特定できる文字位置順序符号とから文字位置情報
を作成し、この文字位置情報を文字種ごとに格納して検
索ファイルを作成し、この検索ファイルに対して検索入
力文字列との照合一致を行うことにより文字列検索にお
ける照合一致処理回数を大幅に低減することができる。

【００１５】この検索ファイルの作成は次のように行う
。

【００１６】まず検索対象となる各レコードに登録順序
に従って昇順にレコード識別符号を付与する。次に、各
レコードが有するキーワードの論理的な種別を属性とし
て、その属性を示すキーワード属性符号を付与する。例
えば図書検索システムの場合、図書名、著者名、発行者
名、刊行年、抄録などの属性を示すキーワード属性符号
が付与される。さらに、キーワードを１文字ごとに分解
し、各文字にキーワードの先頭からの文字位置を示す文
字位置順序符号を付与する。これらのレコード識別符号
とキーワード属性符号と文字位置順序符号とから、キー
ワードの各文字の文字位置情報を生成する。このときキ
ーワード属性を文字位置で表せるように、キーワード属
性符号ごとにあらかじめ設定されたキーワードの先頭文
字位置が定数として文字位置情報に加算されるようにし
ている。この文字位置情報を文字種ごとにグループ化し
、これらの各グループを集合して検索ファイルを作成す
る。したがってこの検索ファイルは、文字種ごとに文字
位置情報が格納された形のファイル構造となる。

【００１７】検索処理では、検索入力文字列と検索入力
文字列属性との対が１個以上入力される。各検索入力文
字列について検索入力文字列を１文字ごとに分解し、検
索ファイル中から分解した文字と同じ文字の文字位置情
報を取り出して、レコード識別符号が共通で文字位置順
序符号が検索入力の文字列と等しい順序であり、かつそ
のキーワード属性符号が検索入力と等しい文字位置情報
の組み合わせを照合して取り出す。取り出した各検索入
力に対応する文字位置情報から検索入力文字列に対応す
るレコード識別符号を検索結果として取り出す。

【００１８】この照合処理は、検索入力と検索ファイル
との文字列の連続性の一致と属性の一致とをみるもので
、検索ファイル中の文字位置情報からレコードの識別符
号が共通していて検索入力の文字位置順序とキーワード
属性符号が同じキーワードを取り出すことにより行う。

【００１９】これにより、検索ファイル中の全キーワー
ドとの照合が不要になり、検索ファイルにある検索入力
の構成文字と同じ文字の文字位置情報だけの照合一致を
行えばよいので、照合回数は逐次照合に比べるときわめ
て低減することができる。また、日本語の単語では、同
じ文字列の出現頻度が低く、文字照合の都度、検索対象
が絞り込まれるので、照合回数は低減していく。

【００２０】さらに、検索ファイルから取り出した文字
位置情報を照合するとき、検索入力の中の全キーワード
における出現頻度の低い文字から順に行うと検索対象が
一層絞り込まれ、照合一致をとる回数がさらに低減でき
る。

【００２１】このようにして検索入力に合致する文字位
置情報を見出したときは検索入力に対応するレコード識
別符号に該当するレコードを抽出して、検索者に検索結
果として出力する。

【００２２】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００２３】図１は本発明一実施例における情報検索処
理装置の構成を示すものである。

【００２４】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うＣＰＵ１と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ２、キーボード４、ディスプレイ５を接続する
入出力部３、各種情報が記憶される外部記憶装置７を接
続する外部記憶装置制御部６、ＣＰＵ１、メモリ２、入
出力部３、外部記憶装置制御部６を接続する共通バス８
とを備える。

【００２５】本実施例での情報検索処理は、検索処理に
供するための検索対象となるレコードが有するマルチキ
ーワードから作成するキーワード列について各キーワー
ドの構成文字を文字種ごとに格納して検索ファイルを作
成する検索ファイル作成処理と、検索ファイルとの照合
一致を行って検索入力に合致するキーワードのレコード
を抽出する検索処理との二つに分けられる。

【００２６】まず、検索ファイル作成処理について説明
する。

【００２７】この検索ファイル作成処理は、大まかに分
けると、■検索ファイル領域確保、■各キーワード構成
文字への文字位置情報の付与、■文字種別ごとにグルー
プ化した文字位置情報のファイルへの格納の３つに分け
ることができる。この各処理についてそれぞれ説明する
。

【００２８】■　　検索ファイル領域確保登録するレコ
ードの有するキーワードの構成文字をＪＩＳコード表に
準じて分類し、ＪＩＳコード表に記載されている文字種
別に出現頻度を計数する。これにより、検索ファイルを
構成する各文字種グループに登録される文字位置情報の
数がわかるので、全文字種グループで構成される検索フ
ァイルの領域を確保できる。また同時に、各文字種グル
ープに登録される文字位置情報数から、検索ファイル内
に連続して格納される文字種グループの先頭番地もわか
る。この文字種グループの先頭番地をＪＩＳコード表の
記載順に配列したのが図２に示す文字欄アドレス表であ
る。

【００２９】■　　各キーワード構成文字への文字位置
情報の付与ここで述べる文字位置情報は、レコードが有する各キー
ワードをキーワード属性番号に対応するキーワード属性
領域に配列して作成するキーワード列において各キーワ
ードを構成するすべての文字が属するレコードの登録す
る順番を示すレコード番号と、キーワードにおけるその
文字の出現する位置を示す文字位置番号と、キーワード
の論理的な種別を示すキーワード属性番号とで作成され
る。

【００３０】まずレコード番号を説明する。例えば、一
般的な図書検索システムでは、図書名、著者名、発行者
名、刊行年、抄録のキーワードで図書を検索する。この
ときレコードは、図書名、著者名、発行者名、刊行年、
抄録のキーワードで構成される検索対象であって、この
レコードが登録される順序に１から昇順に番号を付与し
てレコード番号とする。

【００３１】次にキーワード属性番号を説明する。一般
的に検索者は、検索する図書を特定しやすいキーワード
を検索入力としたり、あるいは記憶しているキーワード
を検索入力する。このため図書検索システムでは、例え
ば図書名、著者名、発行者名、刊行年、抄録の各キーワ
ードにキーワード属性を付加し、検索入力と図書検索シ
ステムのキーワード間に論理的な関連付けを行っている
。ここではキーワード属性番号として、図書名に「１」
、著者名に「２」、発行者名に「３」、刊行年に「４」
、抄録に「５」を付与する。

【００３２】次に文字位置番号を説明する。各キーワー
ドを構成する各文字に各キーワードの先頭文字から順に
、１、２、３・・・と昇順に番号を付与し、文字位置番
号とする。

【００３３】次にキーワード列を説明する。レコードの
有するキーワードに対する部分一致検索を検索入力文字
列との文字列照合により実現するために、レコードの有
するすべてのキーワードを連結して文字列を構成し、こ
れをキーワード列とする。すなわち、各キーワードをキ
ーワード属性番号に対応する固定長のキーワード属性領
域に配列しキーワード列を作成する。これによりキーワ
ード列における文字位置から、その文字が属するキーワ
ードの属性がわかる。なお、各キーワード属性領域に続
いてキーワード属性領域の区切りを示すＥＮＤ記号がキ
ーワード列に格納される。このＥＮＤ記号はＪＩＳコー
ド表の未使用コードを割り当て、ここではコードＡ３Ｂ
Ｂとする。

【００３４】そしてこのキーワード列を対象として、レ
コード番号とキーワード属性番号と文字位置番号からキ
ーワードを構成するすべての文字を整数からなるコード
に変換して文字位置情報を作成する。この文字位置情報
は、次の式（１）で与えられる整数のコードである。文字位置情報コード＝レコード番号×ｎ＋（Ｐａ　−１
）＋ｐ　　　　…（１）ｎ：キーワード列文字数Ｐａ　：キーワード属性番号ａのキーワード属性領域の
キーワード列における先頭文字位置ｐ：文字位置番号

【００３５】例えば、キーワード列のキーワード属性領
域サイズが、図書名＝６４バイト３２文字、著者名＝３
２バイト１６文字、発行者＝６４バイト３２文字、刊行
年＝８バイト４文字、抄録＝４００　バイト２００　文
字の図書検索システムにおいて、レコード番号が１００
　のレコードが、「図書名＝通信文書の構造」、「著者
名＝田中一郎」、「発行者＝太平洋出版」、「刊行年＝
１９９０」、「抄録＝初めての人にも〜ている」の場合
、キーワード列は図３に示すようになる。このときキー
ワード列は５７８　バイト（２８９　文字）であるから
各文字の文字位置情報は図４に示すように構成される。

【００３６】そして、このように文字位置情報をそれぞ
れ４バイトのコードで構成すれば、２８９　文字数のキ
ーワード列を２３２÷２８９　≒１４８６万個取り扱う
ことが可能である。

【００３７】■　　文字位置情報の検索ファイルへの登
録次にこの各文字ごとに付与された文字位置情報を検索
ファイルに登録する。上述のように文字種グループは、
ＪＩＳコード表に記載された順に検索ファイルに格納さ
れる。そして各文字の文字位置情報を各文字種グループ
に登録する。この文字位置情報の登録は、文字種グルー
プの未格納領域の先頭にそれぞれ文字位置情報を格納す
ることによって行われる。このため、登録順にレコード
番号を付与すれば文字種グループ内には文字位置情報が
数値順の昇順に登録されることになる。

【００３８】上述の図書名「通信文書の構造」の文字位
置情報を検索ファイルに登録した例を図５に示す。この
とき、各グループ内の文字位置情報は昇順に格納される
。このファイル容量は、文字位置情報が４バイトである
と、

【数１】になる。

【００３９】なお、文字位置情報の追加登録は、追加レ
コードが有する各キーワードの各文字に該当するグルー
プの未格納領域の先頭に新規コードを追加することで行
う。また、削除は削除レコードが有する各キーワードの
各文字に該当するグループ内の該当文字位置情報を特殊
記号に変更することによって行う。これにより追加登録
と削除を短時間に行うことができる。

【００４０】なお上述のようにこの検索ファイルの各文
字種グループごとに格納された文字位置情報は、文字欄
アドレス表の文字欄先頭番地をディレクトリとして取り
出すことができる。

【００４１】以上の検索ファイルの作成処理の流れを図
６ａ、図６ｂに示す。

【００４２】すなわち、文字種の出現度数を計数して文
字欄アドレス表を作成し（Ｓ１１、１２）、検索ファイ
ルの領域を確保する（Ｓ１３）。次にレコード登録順位
カウンタをｋ＝１に初期設定して、レコード番号を「１
」に、キーワード列文字数をｎ＝２８９　に、キーワー
ド属性領域の先頭文字位置を図書名用としてＰ１　＝１
、著者名用としてＰ２　＝３４、発行者名用としてＰ３
　＝５１、刊行年用としてＰ４　＝８４、抄録用として
Ｐ５　＝８９を設定する（Ｓ１４）。そして最初のレコ
ードを取り出す（Ｓ１５）。ここまでが登録の前処理で
ある。ここからレコードごとの登録処理となり、まず、
キーワード属性番号をａ＝１にセットし（Ｓ１６）、レ
コードの中からキーワード属性番号ａのキーワードを取
り出す（Ｓ１７）。さらに、キーワードの構成文字数を
ｍに、文字位置番号をｐ＝１に、キーワード属性番号ａ
に該当するキーワード属性領域の先頭文字位置をＰａ　
に設定する（Ｓ１８）。次に、取り出したキーワードの
先頭文字から順に、文字位置番号ｐに相当する文字位置
情報をＤ＝ｋ×ｎ＋（Ｐａ　−１）＋ｐ　　…（２）の式（２
）を用いて作成する（Ｓ１９）。

【００４３】そして、文字位置番号ｐにある文字の文字
種グループが格納されている検索ファイルの文字欄を示
す文字欄ディレクトリ（文字欄先頭番地）を文字欄アド
レス表から取り出して（Ｓ２０）、文字欄ディレクトリ
が示す検索ファイルの文字欄の未格納行の先頭に文字位
置情報を格納する（Ｓ２１）。そして、ｐ＝ｐ＋１、ｍ
＝ｍ−１とし、キーワード内のすべての文字を処理した
ところで、ａ＝ａ＋１でキーワード属性番号を＋１して
次のキーワード処理に移る（Ｓ２４、Ｓ２５）。また、
レコードが有するすべてのキーワードを処理すると、ｋ
＝ｋ＋１でレコード登録順位カウンタを＋１して次のレ
コードの処理に移る（Ｓ２６、Ｓ２７、Ｓ２８）。全レ
コードの処理が終了すると登録処理が終わる（Ｓ２６）
。

【００４４】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。

【００４５】本実施例では、検索ファイルから取り出し
た文字位置情報を対象として、検索入力文字列と同じ文
字列を含むキーワードを文字列照合し、かつ検索入力と
同じ属性であることを確認後、すべての検索入力文字列
に共通するレコードを検索する例で説明する。

【００４６】まず、その検索処理は大まかに分けると以
下の構成からなっている。■検索入力文字列の各文字に
該当する文字欄アドレス表内の文字欄先頭番地を算出す
る。■検索入力文字列を全キーワードにおける出現頻度
の低い文字から順に並べ変える。■並べ変えた文字列の
先頭から順に該当する文字種グループを検索ファイルか
ら取り出してそこに格納されている文字位置情報から検
索入力の文字列の順序と一致する文字位置情報の組み合
わせを取り出す。■抽出した文字位置情報から検索入力
と同じ属性を有する文字位置情報を取り出す。■■〜■
を検索入力数分繰り返した後、すべての検索入力文字列
に共通するレコード番号を検索結果として出力する。

【００４７】次に具体的にそれぞれの処理を説明する。

【００４８】■　　検索入力文字列の各文字に該当する
文字欄アドレス表内の文字欄先頭番地の算出検索ファイ
ルの作成時と同様に、検索入力文字のＪＩＳコード表記
載順位を算出し、これを文字欄アドレス表における各検
索入力文字のアドレスポインタとする。

【００４９】■　　出現頻度順の並べ変えそして、検索
ファイルの各文字種グループの先頭番地を示す文字欄ア
ドレス表の文字欄先頭番地を参照して、検索入力文字の
出現頻度を調べ、検索入力の文字列を全キーワードにお
ける出現頻度の低いものから順に並べ変える。上述のよ
うに、文字欄アドレス表内の文字欄先頭番地は、検索フ
ァイルに格納されている各文字種グループの先頭番地を
示しており、次に続く文字欄先頭番地との差をとれば、
各文字種グループに格納されている文字位置情報の数か
ら、全キーワードにおける文字種別出現頻度がわかる。

【００５０】これは出現頻度の低い文字から照合一致を
行うことにより、検索ファイルに格納された各文字の文
字位置情報間の照合回数をきわめて低減できるためであ
る。すなわち文字位置情報を照合して文字の連続性を調
べる場合に二つの文字種グループ内の文字位置情報中の
レコード番号と文字位置番号とキーワード属性番号とを
照合するため、その二つの文字種グループ内に格納され
ている文字位置情報の数が少なければそれだけ照合回数
を少なくすることができる。したがって、文字位置情報
の照合を行うときに、出現頻度の低い文字から照合を行
うことが照合回数を低減させる。特に検索入力文字が多
くなるほど出現頻度の低い文字が含まれる割合が高まる
ため低減効果は大きい。

【００５１】■　　文字列の照合出現頻度の低い文字から文字欄アドレス表を参照してそ
れぞれの文字種グループに格納されている文字位置情報
を取り出す。そして取り出した文字位置情報をもとに、
出現頻度の低い文字種グループから順に、各文字種グル
ープ間でレコード番号が等しくかつ文字位置番号の差が
検索入力文字列の文字位置差に等しい文字位置情報の組
み合わせを抽出する。

【００５２】この文字位置情報の照合は、検索入力文字
列の全キーワードにおける出現頻度の低い文字の文字位
置番号をｉ、出現頻度の高い文字の文字位置番号をｊと
するとき、次の式（３）で（文字位置番号ｉの文字の文字種グループ内文字位置情
報）−（文字位置番号ｊの文字の文字種グループ内文字
位置情報）＝ｉ−ｊ　　　　　　…（３）となる文字位
置情報を抽出すればよい。

【００５３】この文字種グループ間での文字位置情報の
照合処理では、出現頻度の低い文字種グループの文字位
置情報とそれより出現頻度の高い文字種グループの文字
位置情報との差を取って文字の連続を照合する。

【００５４】検索入力文字列における任意の構成文字を
ＡとＢとすると、該当する文字位置情報を抽出するには
、ＡとＢとの文字位置番号差がＬであるとし、グループ
Ａの文字位置情報をＡｘ　、グループＢの文字位置情報
をＢｙ　としたときＡｘ　＋Ｌ＞Ｂｙ　ならＢｙ　を削除Ａｘ　＋Ｌ＜Ｂｙ　ならＡｘ　を削除Ａｘ　＋Ｌ＝Ｂｙ　ならＡｘ　、Ｂｙ　を合致として共
に削除というように不連続な文字位置情報を照合対象か
ら削除していくことによりその照合回数を削減させる。

【００５５】例えばグループＡの文字位置情報が５７１
　、１１４０、１０２３０　、１１３６５　、１１９２
８　、１３０６９グループＢの文字位置情報が５６９　、１７０６、１０２３１　、１０２３５　、１
１３６２文字位置番号差Ｌ＝１であった場合、この二つ
のグループ間の照合回数は全体で７回だけですみ、グル
ープ内の全ての文字位置情報を照合する必要はない。

【００５６】■　　キーワード属性番号の照合文字列照
合から得られた文字位置情報の文字位置番号についてキ
ーワード属性を照合する。すなわち、文字位置番号が１
〜３２ならば文字位置情報のキーワード属性は図書名で
あり、文字位置番号が３４〜４９ならば文字位置情報の
キーワード属性は著者名であり、文字位置番号が５１〜
８２ならば文字位置情報のキーワード属性は発行者名で
あり、文字位置番号が８４〜８７ならば文字位置情報の
キーワード属性は刊行年であり、文字位置番号が８９〜
２８８　ならば文字位置情報のキーワード属性は抄録で
あることがわかる。そこで、文字列照合で得られた文字
位置情報の中から検索入力時に指定された属性と同じ文
字位置情報だけを取り出す。

【００５７】■　　レコード番号の抽出検索入力の数だ
け■〜■を繰り返し、得られた各検索入力文字列に該当
する文字位置情報間で、すべての検索入力文字列に共通
するレコード番号を取り出す。上記実施例では、検索入
力が１個以上の場合について説明した。また検索入力が複数の場合には各検索入力間で論理積演
算を行う例として説明したが、論理積以外の論理演算を
伴う複数の検索入力の場合は、照合結果として残った文
字位置情報を各検索入力に対応付けて指定された論理演
算を行って検索入力の論理を満足するレコード番号を検
索結果として出力する。

【００５８】なお、１検索入力を複数の文字列で指定す
る場合、例えば抄録のような文字数が多い項目を対象と
する場合よくあることであるが、最初の文字列のキーワ
ード属性照合終了後、２番目以降の文字列に対しては、
その文字列の最初の照合文字の文字種グループから、そ
れまで得られたレコード番号とキーワード属性番号を有
する文字位置情報を取り出し、得られた文字位置情報を
文字列照合の先頭文字の文字種グループとして同じ文字
列内の他の文字について照合処理を行う。

【００５９】以上の■〜■の動作を具体例を挙げて説明
する。

【００６０】検索対象として図書名が指定され、検索入
力文字列としては「通信文書」が指定されたとする。こ
の場合図書名のキーワードの属性の属性番号は「１」と
する。

【００６１】例えば各文字の全キーワードにおける出現
頻度が「書」＜「文」＜「信」＜「通」の順であり、照
合をこの順序に行うとすると、まず検索ファイル中の「
書」の文字欄から取り出した文字位置情報と「文」の文
字欄から取り出した文字位置情報とを上述の式（３）を
使用してその差が「−１」になる文字位置情報を抽出す
ると、検索ファイルの「書」内の文字位置情報の「２８
９０４　」と「文」内の「２８９０３　」とを連続性あ
る文字位置情報として抽出することができる。

【００６２】次に、「書」の中で照合結果として残った
文字位置情報と、「信」に該当する検索ファイルの文字
欄から取り出した文字位置情報を同様に式（３）を使用
して、その差が「−２」になる文字位置情報を抽出する
と、「書」内の文字位置情報の「２８９０４　」と「信
」内の文字位置情報「２８９０２　」とを連続性ある文
字位置情報として抽出することができる。同様にして、
「書」内の文字位置情報の「２８９０４」と「通」内の
文字位置情報「２８９０１　」とを連続性ある文字位置
情報として抽出することができる。さらに、キーワード
属性は「図書名」であるから、これまでの文字列照合で
残った文字位置情報の中から、文字位置番号が１　〜３
２の文字位置情報として、「２８９０１　」〜「２８９
０４　」を抽出できる。

【００６３】キーワード列の文字数が「２８９　」であ
るから、文字位置番号は２８９０１　÷２８９　＝１０
０　余り１から、１〜４であることがわかる。またこの
文字列が属するレコード番号は１００　であることもわ
かる。

【００６４】この検索処理動作を図７ａ、図７ｂにフロ
ーチャートとして示す。

【００６５】すなわち、キーワード列文字数をｎ＝２８
９　に、キーワード属性領域の文字位置範囲Ｐａ　を図
書名はＰ１　＝１　〜３２、著者名はＰ２　＝３４〜４
９、発行者名はＰ３＝５１〜８２、刊行年はＰ４　＝８
４〜８７、抄録はＰ５　＝８９〜２８８　に、キーワー
ド属性番号をａ＝１に設定し（Ｓ３１）、キーワード属
性番号ａの検索入力文字列がある場合にはそれを取り出
す（Ｓ３２、Ｓ３３）。ここからは検索入力文字列の照
合処理になる。そこで、（検索入力文字列の文字数）−
１を照合回数ｑとし（Ｓ３４）、検索入力文字の全キー
ワードにおける出現頻度の低い順に文字を並べ変える（
Ｓ３５）。そして検索ファイルから並べ変えた各文字に
該当する文字種グループに格納されている文字位置情報
を取り出す（Ｓ３６）。次に検索入力文字列の全キーワ
ードにおける出現頻度の低い文字の文字位置番号をｉ、
出現頻度の高い文字の文字位置番号をｊとするとき、（
文字位置番号ｉの文字の文字位置情報）−（文字位置番
号ｊの文字の文字位置情報）＝ｉ−ｊである文字位置情
報の組み合わせを取り出す（Ｓ３７）。同様の処理を検
索入力文字列の残りの文字についても行い（Ｓ３８、Ｓ
３９）、残った文字位置情報の中から文字位置番号がキ
ーワード属性番号ａの文字位置範囲Ｐａ　内にあるレコ
ード番号だけを取り出す。文字位置情報から文字位置番
号を取り出すには、次の式（４）を用いる。（文字位置情報）÷（キーワード列文字数）＝レコード
番号余り文字位置番号…（４）ここまでの処理で、検索入力文字列を文字列として持ち
、さらに検索入力された属性と同じキーワードを有する
レコード番号がわかる（Ｓ４０）。抄録まで同様の処理
を行い、検索入力された属性と同じキーワードを有する
レコード番号を取り出す（Ｓ４１、Ｓ４２）。すべての
検索入力文字列の照合が終わると、残ったレコード番号
を対象として、すべての検索入力文字列に共通するレコ
ード番号を検索結果として出力する（Ｓ４３）。

【００６６】

【発明の効果】以上説明したように、本発明は検索対象
となるレコードが有するキーワードの構成文字の文字種
ごとにその文字が属するレコード識別符号、文字位置順
序符号、キーワードの種別を示す属性番号からなる文字
位置情報を格納した検索ファイルを作成し、この検索フ
ァイルを検索入力の文字列を構成する文字種ごとにその
文字位置情報を取り出して、検索入力に合致する文字列
を検索するようにした。

【００６７】このため、（１）　検索処理のための文字
列照合回数を低減することができるため、高速検索を行
うことができる、（２）　文字と文字位置に着目して検
索処理を行うため任意の文字列による検索ができ、（３
）　専用のハードウエアを用いることなくソフトウエア
だけで高速検索を実現できるため、汎用の情報処理装置
でマルチキーワードを用いた部分一致検索を効率よく行
うことができ汎用性に富む、（４）　データベースシス
テムに利用したとき、その検索ファイルの作成に使用可
能な部分一致検索文字列の作成を行う必要がなく、検索
対象となるレコードが有するキーワードから自動的に検
索ファイルを作成することができるため、データベース
システムを経済的にかつ効率よく構築することが可能で
ある優れた効果がある。

【図面の簡単な説明】

【図１】　　本発明一実施例に使用する情報検索処理装
置の構成例。

【図２】　　実施例の文字欄アドレス表。

【図３】　　実施例のキーワード列。

【図４】　　実施例の文字位置情報作成例。

【図５】　　実施例の検索ファイルの登録例。

【図６ａ，ｂ】　　実施例の検索ファイル作成処理手順
を説明するフローチャート。

【図７ａ，ｂ】　　実施例の検索処理手順を説明するフ
ローチャート。

【符号の説明】

１…ＣＰＵ２…メモリ３…入出力部４…キーボード５…ディスプレイ６…外部記憶装置制御部７…外部記憶装置８…共通バス

Claims

【特許請求の範囲】

【請求項１】　　検索対象となるレコードごとに昇順の
符号を付与するレコード識別符号付与手段と、このレコ
ードが有する各キーワードにキーワードの論理的な区分
を示す属性符号を付与するキーワード属性符号付与手段
と、このキーワードを各文字ごとに分解し、各文字にキ
ーワード中での位置を示す文字位置順序符号を付与する
文字位置順序符号付与手段と、上記レコード識別符号と
キーワード属性符号と文字位置順序符号とからなる文字
位置情報を作成して、この文字位置情報を文字種ごとの
領域に格納して検索ファイルを作成する手段とを備えた
情報検索処理方式。
【請求項２】　　文字位置情報は、レコードを構成する
各キーワードをキーワード属性符号に対応してキーワー
ド属性領域に配列したキーワード列の各キーワードを構
成するすべての文字について、レコード識別符号×ｎ＋（Ｐａ　−１）＋文字位置順序
符号ｎ：キーワード列文字数Ｐａ　：キーワード属性符号ａのキーワード属性領域の
キーワード列における先頭文字位置なる数字コードとして与えられる請求項１記載の情報検
索処理方式。
【請求項３】　　検索対象となるレコードのキーワード
列について、各キーワードを構成する文字ごとに、レコ
ードごとに昇順に付与されたレコード識別符号と、この
レコードが有するキーワードの論理区分を示すキーワー
ド属性符号とキーワード中でのその文字の位置を示す文
字位置順序符号とからなる文字位置情報を文字種別ごと
に格納した検索ファイルを備え、検索入力文字列の構成
文字と同じ文字の文字位置情報を上記検索ファイルから
取り出す手段と、この取り出した各文字の文字位置情報
間で、レコード識別符号とキーワード属性符号が共通で
文字位置順序符号が検索入力の文字列と等しい順序であ
り、かつそのキーワード属性符号が検索入力と等しい文
字位置情報の組み合わせを抽出する手段と、この抽出さ
れた文字位置情報の組み合わせに基づいて検索入力に対
応するレコード識別符号を検索結果として出力する手段
とを備えた情報検索処理方式。
【請求項４】　　検索入力の文字列を構成できる文字位
置情報の組み合わせの抽出は、検索入力の全キーワード
における出現頻度の低い文字から順に行う請求項３記載
の情報検索処理方式。
【請求項５】　　検索入力の文字列を構成できる文字位
置情報の組み合わせの抽出は、検索入力文字列の全キー
ワードにおける出現頻度の低い文字の文字位置順序符号
をｉ、出現頻度の高い文字の文字位置順序符号をｊとす
るとき、（文字位置順序符号ｉの文字の文字位置情報）−（文字
位置順序符号ｊの文字の文字位置情報）＝ｉ−ｊに合致
する文字位置情報を抽出する請求項３または請求項４記載の情報検索処理方式。