JPH04215181A - 情報検索処理方式および検索ファイル作成装置 - Google Patents
情報検索処理方式および検索ファイル作成装置Info
- Publication number
- JPH04215181A JPH04215181A JP2417609A JP41760990A JPH04215181A JP H04215181 A JPH04215181 A JP H04215181A JP 2417609 A JP2417609 A JP 2417609A JP 41760990 A JP41760990 A JP 41760990A JP H04215181 A JPH04215181 A JP H04215181A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character set
- search
- string
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title abstract description 20
- 238000003672 processing method Methods 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 8
- 239000000470 constituent Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 28
- 239000000284 extract Substances 0.000 description 10
- 235000016496 Panda oleosa Nutrition 0.000 description 7
- 240000000220 Panda oleosa Species 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に全文検索を行うこ
とに適し、入力された検索入力と全文との照合回数を大
幅に削減して高速に情報検索を行うことができる情報検
索処理方式に関する。本発明はデータベースシステムに
おいて全文検索処理を行う情報検索処理方式に適する。
索処理方式に関する。本発明は、特に全文検索を行うこ
とに適し、入力された検索入力と全文との照合回数を大
幅に削減して高速に情報検索を行うことができる情報検
索処理方式に関する。本発明はデータベースシステムに
おいて全文検索処理を行う情報検索処理方式に適する。
【0002】
【従来の技術】従来から、全文の最初から最後まで、検
索入力文字列との文字列照合を行い、検索者が指定する
入力文字列と検索条件に合致する文書を選出する逐次検
索方式や全文からあらかじめキーワードを抽出して検索
ファイルを作成するインデックス方式が全文検索技術と
して一般的である。また全文に出現する文字や文字列を
表形式にして、検索入力文字列から分解して作成する文
字や文字列の出現文書を絞り込むプリサーチ方式がある
。
索入力文字列との文字列照合を行い、検索者が指定する
入力文字列と検索条件に合致する文書を選出する逐次検
索方式や全文からあらかじめキーワードを抽出して検索
ファイルを作成するインデックス方式が全文検索技術と
して一般的である。また全文に出現する文字や文字列を
表形式にして、検索入力文字列から分解して作成する文
字や文字列の出現文書を絞り込むプリサーチ方式がある
。
【0003】
【発明が解決しようとする課題】逐次検索方式では、全
文の最初から最後まで、検索入力文字列との照合を行う
ため、多量の文字列を有する文書を検索する場合、多く
の時間を要する。このため、多量文書の検索では、高速
な文字列照合を行う専用のプロセッサやLSIが提案さ
れているが、これらの方式では、ハードウエアが限定さ
れるほか、検索処理を行う計算機と専用プロセッサやL
SIとの間での文字列転送に時間がかかり、システムと
して満足できる高速性の実現が課題となっている。
文の最初から最後まで、検索入力文字列との照合を行う
ため、多量の文字列を有する文書を検索する場合、多く
の時間を要する。このため、多量文書の検索では、高速
な文字列照合を行う専用のプロセッサやLSIが提案さ
れているが、これらの方式では、ハードウエアが限定さ
れるほか、検索処理を行う計算機と専用プロセッサやL
SIとの間での文字列転送に時間がかかり、システムと
して満足できる高速性の実現が課題となっている。
【0004】また、プリサーチ方式では、高速性を実現
するための並列処理機構や文字列照合に専用のハードウ
エアが必要であるほか、登録時に抽出する文字列の精度
向上が課題となっている。
するための並列処理機構や文字列照合に専用のハードウ
エアが必要であるほか、登録時に抽出する文字列の精度
向上が課題となっている。
【0005】本発明者は、全文中に同じ文字や同じ文字
列が出現する頻度が低い特徴がある点に着目し、検索対
象文字列を先頭文字から1文字ずつ、その文字と次に続
く合計q文字で文字セットを作成し、これらの文字セッ
ト種ごとにグループ化した文字セットグループで検索フ
ァイルを作成し、検索時には、検索ファイル中から文字
セットの連続性を照合することにより検索を高速化する
ことができることを見出した。
列が出現する頻度が低い特徴がある点に着目し、検索対
象文字列を先頭文字から1文字ずつ、その文字と次に続
く合計q文字で文字セットを作成し、これらの文字セッ
ト種ごとにグループ化した文字セットグループで検索フ
ァイルを作成し、検索時には、検索ファイル中から文字
セットの連続性を照合することにより検索を高速化する
ことができることを見出した。
【0006】本発明は、上述の観点から大量文書を対象
とする全文検索の高速化をソフトウエアだけで実現でき
、しかも特定のハードウエアに限定されず、検索処理を
主記憶上で行うことにより専用プロセッサやLSIとの
文字列の転送が不要であり、文字セットと文字セット位
置に着目することにより任意の文字列検索が可能である
汎用性に富む情報検索処理方式を提供することを目的と
する。
とする全文検索の高速化をソフトウエアだけで実現でき
、しかも特定のハードウエアに限定されず、検索処理を
主記憶上で行うことにより専用プロセッサやLSIとの
文字列の転送が不要であり、文字セットと文字セット位
置に着目することにより任意の文字列検索が可能である
汎用性に富む情報検索処理方式を提供することを目的と
する。
【0007】
【課題を解決するための手段】本発明の第一の特徴は、
検索対象となる文字列を検索を行う単位である検索単位
に分けこの検索単位ごとに昇順の符号を付与する検索単
位識別符号付与手段と、この分けられた検索単位に対し
てその検索単位の論理的な区分を示す属性符号を付与す
る属性符号付与手段と、検索対象となる文字列から1文
字ずつ取り出し、その文字と次に続く合成q文字で文字
セットを作成し、検索単位における文字セットの先頭文
字位置を示す文字セット位置順序符号を付与する文字セ
ット位置順序符号付与手段と、上記検索単位識別符号と
文字セット位置順序符号と属性符号とからなる文字セッ
ト位置情報を作成して、この文字セット位置情報を文字
セット種ごとの領域に格納して検索ファイルを作成する
手段とを備えたことを特徴とする。
検索対象となる文字列を検索を行う単位である検索単位
に分けこの検索単位ごとに昇順の符号を付与する検索単
位識別符号付与手段と、この分けられた検索単位に対し
てその検索単位の論理的な区分を示す属性符号を付与す
る属性符号付与手段と、検索対象となる文字列から1文
字ずつ取り出し、その文字と次に続く合成q文字で文字
セットを作成し、検索単位における文字セットの先頭文
字位置を示す文字セット位置順序符号を付与する文字セ
ット位置順序符号付与手段と、上記検索単位識別符号と
文字セット位置順序符号と属性符号とからなる文字セッ
ト位置情報を作成して、この文字セット位置情報を文字
セット種ごとの領域に格納して検索ファイルを作成する
手段とを備えたことを特徴とする。
【0008】なお、文字セット位置情報は、nを最大検
索単位文字数、aを最大属性数とするとき{(検索単位
識別符号×n)+文字セット位置順序符号}×a+属性
符号なる数字として与えられることが好ましい。
索単位文字数、aを最大属性数とするとき{(検索単位
識別符号×n)+文字セット位置順序符号}×a+属性
符号なる数字として与えられることが好ましい。
【0009】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からq文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セット種に格納されている文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えたことを特徴とする。
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からq文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セット種に格納されている文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えたことを特徴とする。
【0010】また、検索入力文字セット列と等しい文字
セット位置情報の抽出は、検索入力の出現頻度の小さい
文字セットから順に行うことが好ましい。
セット位置情報の抽出は、検索入力の出現頻度の小さい
文字セットから順に行うことが好ましい。
【0011】なお、検索対象文字列が記号を含む欧文字
列の場合は、少なくとも3文字単位の文字セットとし記
号を含む欧文字のみの文字セット種グループ検索ファイ
ルを用いることがよい。
列の場合は、少なくとも3文字単位の文字セットとし記
号を含む欧文字のみの文字セット種グループ検索ファイ
ルを用いることがよい。
【0012】
【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文は約900 万文字ある
が、その中で仮名文字の出現頻度を調べると平均約53
200 回と高い。しかし、仮名2文字の文字列の出現
頻度を調べると平均出現頻度472 回と低くなる。こ
のため、仮名2文字を文字セットとすると、検索入力が
n文字の場合、全文から抽出する照合対象は平均すれば
(n/2)×472 個の文字セット位置情報となる。 漢字は文字種が仮名文字より多いので、漢字2文字の文
字列の出現頻度は仮名文字より低くなり、全文から抽出
する照合対象も仮名文字より少なくなる。一般的に検索
入力は数十文字以下であるため、出現頻度の高い文字列
であっても、全部の文字を逐次照合するものに比べると
その照合回数は極めて少なくなる。
えば広辞苑の見出し語の説明文は約900 万文字ある
が、その中で仮名文字の出現頻度を調べると平均約53
200 回と高い。しかし、仮名2文字の文字列の出現
頻度を調べると平均出現頻度472 回と低くなる。こ
のため、仮名2文字を文字セットとすると、検索入力が
n文字の場合、全文から抽出する照合対象は平均すれば
(n/2)×472 個の文字セット位置情報となる。 漢字は文字種が仮名文字より多いので、漢字2文字の文
字列の出現頻度は仮名文字より低くなり、全文から抽出
する照合対象も仮名文字より少なくなる。一般的に検索
入力は数十文字以下であるため、出現頻度の高い文字列
であっても、全部の文字を逐次照合するものに比べると
その照合回数は極めて少なくなる。
【0013】例えば、「通信」という2つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように「通信」の文
字以降で同一の文字が発生する頻度が低くなる。この結
果、「通信」に続く「回線」や「装置」の文字列を照合
すると、検索対象が急激に絞り込まれていく。このよう
にして、検索入力文字セット列の構成文字セットで全文
との照合を進めていくと、それまでに得られた検索対象
候補の文字セット列の中から、検索入力文字セット列と
異なる文字セット列が削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全文出現頻度の低い文字セットから順に照合を行
うと一層絞り込まれて照合一致を取る回数を低減できる
。
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように「通信」の文
字以降で同一の文字が発生する頻度が低くなる。この結
果、「通信」に続く「回線」や「装置」の文字列を照合
すると、検索対象が急激に絞り込まれていく。このよう
にして、検索入力文字セット列の構成文字セットで全文
との照合を進めていくと、それまでに得られた検索対象
候補の文字セット列の中から、検索入力文字セット列と
異なる文字セット列が削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全文出現頻度の低い文字セットから順に照合を行
うと一層絞り込まれて照合一致を取る回数を低減できる
。
【0014】したがって、検索対象となる文字列(全文
)を構成する各文字セットが文字列中のどの位置にある
かを示す文字セット位置情報を文字セット種ごとにグル
ープ化した検索ファイルを作成し、この検索ファイルに
対して検索入力文字セット列との照合一致を行うことに
より文字列検索における照合一致処理回数を大幅に低減
することができる。
)を構成する各文字セットが文字列中のどの位置にある
かを示す文字セット位置情報を文字セット種ごとにグル
ープ化した検索ファイルを作成し、この検索ファイルに
対して検索入力文字セット列との照合一致を行うことに
より文字列検索における照合一致処理回数を大幅に低減
することができる。
【0015】この検索ファイルの作成は次のように行う
。
。
【0016】まず検索対象となる文字列を検索単位に分
ける。検索対象文字列が例えば書籍や論文の場合、目次
、序文、章または節等のタイトル、本文、図または表等
のタイトル、参考文献という順序で構成されており、そ
れぞれの構成部分が論理的に区分されているため、検索
単位として構成できる。そこで書籍または論文を論理的
に検索単位に分け、それぞれの検索単位ごとに出現順序
に従って昇順に識別符号を付与する。このとき本文につ
いては複数の検索単位に分割し、それぞれ他の検索単位
とともに一連の識別符号を付与することもできる。また
、この検索単位について、目次、序文、タイトル、本文
のようにその検索単位の論理的な種別が区分されるので
、その論理的な種別を属性として、その属性を示す属性
符号を付与する。
ける。検索対象文字列が例えば書籍や論文の場合、目次
、序文、章または節等のタイトル、本文、図または表等
のタイトル、参考文献という順序で構成されており、そ
れぞれの構成部分が論理的に区分されているため、検索
単位として構成できる。そこで書籍または論文を論理的
に検索単位に分け、それぞれの検索単位ごとに出現順序
に従って昇順に識別符号を付与する。このとき本文につ
いては複数の検索単位に分割し、それぞれ他の検索単位
とともに一連の識別符号を付与することもできる。また
、この検索単位について、目次、序文、タイトル、本文
のようにその検索単位の論理的な種別が区分されるので
、その論理的な種別を属性として、その属性を示す属性
符号を付与する。
【0017】そして、文字列を先頭文字から1文字ずつ
取り出し、その文字と次に続く合計q文字で文字セット
を作成し、各文字セットに検索単位識別符号と各文字セ
ットの先頭文字位置を示す文字セット位置順序符号と検
索単位の属性符号とからなる文字セット位置情報を生成
し、文字セット種ごとに構成された領域に格納し、検索
対象文字列を構成する各文字セット種別でグループ構成
される検索ファイルを作成する。
取り出し、その文字と次に続く合計q文字で文字セット
を作成し、各文字セットに検索単位識別符号と各文字セ
ットの先頭文字位置を示す文字セット位置順序符号と検
索単位の属性符号とからなる文字セット位置情報を生成
し、文字セット種ごとに構成された領域に格納し、検索
対象文字列を構成する各文字セット種別でグループ構成
される検索ファイルを作成する。
【0018】この検索ファイルは、文字セットの種別ご
とに文字セット位置情報が格納された形のファイル構造
となる。
とに文字セット位置情報が格納された形のファイル構造
となる。
【0019】検索処理は、検索入力を先頭文字からq文
字単位の文字セットに分解して検索入力文字セット列を
構成し、分解した文字セットと同じ文字セットの文字セ
ット位置情報を検索ファイルから取り出して、検索単位
識別符号が共通しており文字セット位置順序符号の差が
検索入力文字列の文字セットの先頭文字位置差に等しく
かつ属性符号が同じ文字セット位置情報の組み合わせを
照合して取り出す。
字単位の文字セットに分解して検索入力文字セット列を
構成し、分解した文字セットと同じ文字セットの文字セ
ット位置情報を検索ファイルから取り出して、検索単位
識別符号が共通しており文字セット位置順序符号の差が
検索入力文字列の文字セットの先頭文字位置差に等しく
かつ属性符号が同じ文字セット位置情報の組み合わせを
照合して取り出す。
【0020】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報から検索
単位識別符号が共通していて文字セット位置順序符号の
差が検索入力文字列の文字セットの先頭文字位置差に等
しくかつ属性符号が検索入力と同じ文字セットの組み合
わせを取り出すことにより行う。
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報から検索
単位識別符号が共通していて文字セット位置順序符号の
差が検索入力文字列の文字セットの先頭文字位置差に等
しくかつ属性符号が検索入力と同じ文字セットの組み合
わせを取り出すことにより行う。
【0021】これにより、全検索ファイルの照合が不要
になり、検索ファイルにある検索入力と同じ文字セット
の文字セット位置情報だけの照合一致を行えばよいので
、照合回数は逐次照合に比べるときわめて低減すること
ができる。また、一般的に同じ文字列の出現頻度が低い
ので、q文字の文字セットを照合するたびに検索対象が
絞り込まれるので、照合回数は低減していく。
になり、検索ファイルにある検索入力と同じ文字セット
の文字セット位置情報だけの照合一致を行えばよいので
、照合回数は逐次照合に比べるときわめて低減すること
ができる。また、一般的に同じ文字列の出現頻度が低い
ので、q文字の文字セットを照合するたびに検索対象が
絞り込まれるので、照合回数は低減していく。
【0022】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全文出
現頻度の低い文字セットから順に行うと検索対象が一層
絞り込まれ、照合一致をとる回数がさらに低減できる。
セット位置情報を照合するとき、検索入力の中の全文出
現頻度の低い文字セットから順に行うと検索対象が一層
絞り込まれ、照合一致をとる回数がさらに低減できる。
【0023】このようにして同一の文字列を見出したと
きはその検索単位識別符号から抽出すべき検索単位と文
字セット構成各文字の検索単位における先頭文字からの
位置を示す文字位置を抽出して、検索者に検索結果とし
て出力する。
きはその検索単位識別符号から抽出すべき検索単位と文
字セット構成各文字の検索単位における先頭文字からの
位置を示す文字位置を抽出して、検索者に検索結果とし
て出力する。
【0024】
【実施例】以下図面を参照して本発明の実施例を説明す
る。
る。
【0025】図1は本発明一実施例における情報検索処
理装置の構成を示すものである。
理装置の構成を示すものである。
【0026】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うCPU1と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ2、キーボード4、ディスプレイ5を接続する
入出力部3、各種情報が記憶される外部記憶装置7を接
続する外部記憶装置制御部6、CPU1、メモリ2、入
出力部3、外部記憶装置制御部6を接続する共通バス8
とを備える。
処理あるいは判断処理を行うCPU1と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ2、キーボード4、ディスプレイ5を接続する
入出力部3、各種情報が記憶される外部記憶装置7を接
続する外部記憶装置制御部6、CPU1、メモリ2、入
出力部3、外部記憶装置制御部6を接続する共通バス8
とを備える。
【0027】本実施例での情報検索処理は、検索処理に
供するための文字列について文字列の先頭文字から1文
字ずつ取り出し、その文字の次に続く文字の2文字で文
字セットを作成し、これらの文字セット種ごとにグルー
プ化した文字セットグループで作成される検索ファイル
を作成する検索ファイル作成処理と、検索ファイルとの
照合一致を行って検索入力に合致する文字列を抽出する
検索処理との二つに分けられる。
供するための文字列について文字列の先頭文字から1文
字ずつ取り出し、その文字の次に続く文字の2文字で文
字セットを作成し、これらの文字セット種ごとにグルー
プ化した文字セットグループで作成される検索ファイル
を作成する検索ファイル作成処理と、検索ファイルとの
照合一致を行って検索入力に合致する文字列を抽出する
検索処理との二つに分けられる。
【0028】まず、検索ファイル作成処理について説明
する。
する。
【0029】この検索ファイル作成処理は、大まかに分
けると、■検索ファイル領域確保、■各文字セットへの
文字セット位置情報の付与、■文字セット種別ごとにグ
ループ化した文字セット位置情報の検索ファイルへの格
納の3つに分けることができる。この各処理についてそ
れぞれ説明する。
けると、■検索ファイル領域確保、■各文字セットへの
文字セット位置情報の付与、■文字セット種別ごとにグ
ループ化した文字セット位置情報の検索ファイルへの格
納の3つに分けることができる。この各処理についてそ
れぞれ説明する。
【0030】■ 検索ファイル領域確保検索ファイル
は、図2に示すように、JISコード表に記載されてい
る文字順に配列された文字セット群で構成される。各文
字セット群は図3に示すように、JISコード表に記載
されている文字順に、記載文字を先頭文字とする2文字
の文字列で構成される文字セットグループで構成される
。そこで全文の先頭文字から1文字ずつ取り出し、その
文字と次に続く文字の2文字で文字セットを作成し、こ
れらの文字セット種ごとに出現頻度を計数する。これに
より、検索ファイルを構成する各文字セット種グループ
に登録される文字セット位置情報の数がわかるので、全
文字セット種グループで構成される検索ファイルの領域
を確保できる。また同時に、各文字セット種グループに
登録される文字セット位置情報の数から、検索ファイル
内に連続して格納される文字セット種グループの先頭番
地もわかる。この文字セット種グループの先頭番地を図
3の文字セット群一覧の記載順に配列したのが図4に示
す文字セットグループアドレス表である。
は、図2に示すように、JISコード表に記載されてい
る文字順に配列された文字セット群で構成される。各文
字セット群は図3に示すように、JISコード表に記載
されている文字順に、記載文字を先頭文字とする2文字
の文字列で構成される文字セットグループで構成される
。そこで全文の先頭文字から1文字ずつ取り出し、その
文字と次に続く文字の2文字で文字セットを作成し、こ
れらの文字セット種ごとに出現頻度を計数する。これに
より、検索ファイルを構成する各文字セット種グループ
に登録される文字セット位置情報の数がわかるので、全
文字セット種グループで構成される検索ファイルの領域
を確保できる。また同時に、各文字セット種グループに
登録される文字セット位置情報の数から、検索ファイル
内に連続して格納される文字セット種グループの先頭番
地もわかる。この文字セット種グループの先頭番地を図
3の文字セット群一覧の記載順に配列したのが図4に示
す文字セットグループアドレス表である。
【0031】■ 各文字セットへの文字セット位置情
報の付与ここで述べる文字セット位置情報は、文字セッ
トが属する検索単位が現れる順番を示す検索単位番号と
、検索単位におけるその文字セットの出現する位置をそ
の文字セットの先頭文字の位置で示す文字セット位置番
号と、検索単位の論理的な種別を示す属性番号で作成さ
れる。
報の付与ここで述べる文字セット位置情報は、文字セッ
トが属する検索単位が現れる順番を示す検索単位番号と
、検索単位におけるその文字セットの出現する位置をそ
の文字セットの先頭文字の位置で示す文字セット位置番
号と、検索単位の論理的な種別を示す属性番号で作成さ
れる。
【0032】まず検索単位とその属性について説明する
。例えば一般的な書籍は、目次、序文、章または節のタ
イトル、本文、図または表のタイトル、参考文献などの
部分で構成されており、ほぼこの順序に従って現れる。 この書籍の内容を検索するとき、検索対象としてこの部
分部分を検索単位に分け、その検索単位ごとに検索して
検索出力とすることが便利であるし、また検索目的に合
致することが多い。すなわち、検索目的によってタイト
ルのみや本文のみを検索対象として指定することが実際
の検索では多いからである。
。例えば一般的な書籍は、目次、序文、章または節のタ
イトル、本文、図または表のタイトル、参考文献などの
部分で構成されており、ほぼこの順序に従って現れる。 この書籍の内容を検索するとき、検索対象としてこの部
分部分を検索単位に分け、その検索単位ごとに検索して
検索出力とすることが便利であるし、また検索目的に合
致することが多い。すなわち、検索目的によってタイト
ルのみや本文のみを検索対象として指定することが実際
の検索では多いからである。
【0033】したがって、一つの書籍を全文検索対象と
して検索する場合に、その書籍を構成する論理的な部分
に分けて検索結果を出力することが好ましい。この検索
単位は、検索対象の文字列の論理的な分類を示すもので
あるため、この検索単位に論理的区分に従って属性番号
を付与する。例えば、属性番号として、目次に「1」、
序文に「2」、章または節のタイトルに「3」、図また
は表のタイトルに「4」、本文に「5」、参考文献に「
6」を付与する。
して検索する場合に、その書籍を構成する論理的な部分
に分けて検索結果を出力することが好ましい。この検索
単位は、検索対象の文字列の論理的な分類を示すもので
あるため、この検索単位に論理的区分に従って属性番号
を付与する。例えば、属性番号として、目次に「1」、
序文に「2」、章または節のタイトルに「3」、図また
は表のタイトルに「4」、本文に「5」、参考文献に「
6」を付与する。
【0034】そしてこの検索単位が書籍に出現する順序
に1から昇順に番号を付与する。これを検索単位番号と
する。なおこの際に本文が長文である場合には適当な区
分に分けて本文を複数の検索単位に分け、検索単位ごと
に出現する順位で検索単位番号を付与することもできる
。
に1から昇順に番号を付与する。これを検索単位番号と
する。なおこの際に本文が長文である場合には適当な区
分に分けて本文を複数の検索単位に分け、検索単位ごと
に出現する順位で検索単位番号を付与することもできる
。
【0035】次に検索単位ごとに、検索単位の先頭から
1文字ずつ取り出し、その文字と次に続く文字の2文字
で文字セットを作成し、作成順に1、2、3・・・と昇
順に番号を付与して文字セット位置番号とする。検索単
位の構成文字が奇数個の場合には1文字が残るが、この
1文字には文末を示す特殊文字EM(エンドマーク)を
付加し、このEM文字と連結させて文字セットとして、
文字セット位置番号を付与する。なお、EM文字は、J
ISコード表の未使用領域を割り当てる。ここでは数字
9の直後にあるJISコードA3BAとした。
1文字ずつ取り出し、その文字と次に続く文字の2文字
で文字セットを作成し、作成順に1、2、3・・・と昇
順に番号を付与して文字セット位置番号とする。検索単
位の構成文字が奇数個の場合には1文字が残るが、この
1文字には文末を示す特殊文字EM(エンドマーク)を
付加し、このEM文字と連結させて文字セットとして、
文字セット位置番号を付与する。なお、EM文字は、J
ISコード表の未使用領域を割り当てる。ここでは数字
9の直後にあるJISコードA3BAとした。
【0036】そして、このように与えられた検索単位番
号、文字セット位置番号、属性番号とから検索単位を構
成する文字セットを整数からなるコードに変換して文字
セット位置情報を作成する。
号、文字セット位置番号、属性番号とから検索単位を構
成する文字セットを整数からなるコードに変換して文字
セット位置情報を作成する。
【0037】この文字セット位置情報は、最大検索単位
文字数をn、最大属性数をaとするとき、文字セット位
置情報コード={検索単位番号×n+文字セット位置番
号}×a+属性番号の式で与えられる数字コードである
。
文字数をn、最大属性数をaとするとき、文字セット位
置情報コード={検索単位番号×n+文字セット位置番
号}×a+属性番号の式で与えられる数字コードである
。
【0038】例えば、検索単位の最大文字数n=100
00 、最大属性数a=10とし、8番目の検索単位で
ある本文(属性番号=5)の先頭から第121 〜12
5 番目の文字位置に「通信文書の」という文字列があ
った場合、この文字列「通信文書の」は、「通信」、「
信文」、「文書」、「書の」の文字セットに分解され、
それぞれ「801215」、「801225」、「80
1235」、「801245」の文字セット位置情報が
与えられる。
00 、最大属性数a=10とし、8番目の検索単位で
ある本文(属性番号=5)の先頭から第121 〜12
5 番目の文字位置に「通信文書の」という文字列があ
った場合、この文字列「通信文書の」は、「通信」、「
信文」、「文書」、「書の」の文字セットに分解され、
それぞれ「801215」、「801225」、「80
1235」、「801245」の文字セット位置情報が
与えられる。
【0039】そしてこのように文字セット位置情報を4
バイトのコードで構成すれば、最大10000 文字数
の検索単位を264/(n×a)≒4万個取り扱うこと
が可能である。
バイトのコードで構成すれば、最大10000 文字数
の検索単位を264/(n×a)≒4万個取り扱うこと
が可能である。
【0040】■ 文字セット位置情報の検索ファイル
への登録次にこの各文字セットごとに付与された文字セ
ット位置情報を検索ファイルに登録する。
への登録次にこの各文字セットごとに付与された文字セ
ット位置情報を検索ファイルに登録する。
【0041】上述のように文字セット種別グループは、
図3に記載された順に検索ファイルに格納される。そし
て各文字セット種別グループに文字セット位置情報を登
録する。この文字セット位置情報の登録は、文字セット
種グループの末尾にそれぞれ文字セット位置情報を格納
することによって行われる。このため、検索単位順に登
録するとすれば文字セット種グループ内には文字セット
位置情報が数値順の昇順に登録されることになる。
図3に記載された順に検索ファイルに格納される。そし
て各文字セット種別グループに文字セット位置情報を登
録する。この文字セット位置情報の登録は、文字セット
種グループの末尾にそれぞれ文字セット位置情報を格納
することによって行われる。このため、検索単位順に登
録するとすれば文字セット種グループ内には文字セット
位置情報が数値順の昇順に登録されることになる。
【0042】上述の「通信文書の」の文字セット位置情
報を検索ファイルに登録した例を図5に示す。このとき
、各グループ内の文字セット位置情報は昇順に格納され
る。このファイル容量は、文字セット位置情報が4バイ
トであると、下記の数式1に示す容量になる。
報を検索ファイルに登録した例を図5に示す。このとき
、各グループ内の文字セット位置情報は昇順に格納され
る。このファイル容量は、文字セット位置情報が4バイ
トであると、下記の数式1に示す容量になる。
【数1】
【0043】なお、文字セット位置情報の追加登録は、
追加文書の各文字セットに該当するグループの末尾に新
規文字セット位置情報を追加することで行う。また、削
除は削除文書の各文字セットに該当するグループ内の該
当文字セット位置情報を特殊記号に変更することによっ
て行う。これにより追加登録と削除を短時間に行うこと
ができる。
追加文書の各文字セットに該当するグループの末尾に新
規文字セット位置情報を追加することで行う。また、削
除は削除文書の各文字セットに該当するグループ内の該
当文字セット位置情報を特殊記号に変更することによっ
て行う。これにより追加登録と削除を短時間に行うこと
ができる。
【0044】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図4の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。
字セット種グループごとに格納された文字セット位置情
報は、図4の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。
【0045】以上の検索ファイルの作成処理の流れを図
6に示す。
6に示す。
【0046】すなわち、各文字セットの出現度数を計数
して文字セットグループアドレス表を作成し(S11、
12)、検索ファイルの領域を確保する(S13)。次
に検索単位登録順位カウンタをk=1に初期設定して、
検索単位番号を「1」に、最大検索単位文字数を「n=
10000 」に、最大属性数をa=10に設定する(
S14)。そして最初の検索単位を取り出す(S15)
。ここまでが登録の前処理である。ここから検索単位ご
との登録処理となり、まず、文字セット位置番号をp=
1に、登録する検索単位の構成文字数m、登録する検索
単位の属性番号ai を設定する(S16)。次に、検
索単位の先頭文字から順に、文字セット位置番号pに該
当する文字セット位置情報をD=(k×10000 +
p)×10+ai の式で作成する(S17)。文字セ
ット位置番号pにある文字セットと同じ文字セット種グ
ループが格納されている検索ファイルの文字セットグル
ープの先頭番地を示す文字セットグループ先頭番地を文
字セットグループアドレス表から取り出して(S18)
、文字セットグループ先頭番地が示す検索ファイルの文
字セットグループの空領域の先頭行に文字セット位置情
報を格納する(S19)。そして、p=p+1、m=m
−1とし、検索単位内の全ての文字セットを処理したと
ころで、次の検索単位の処理に移る(S23、24)。
して文字セットグループアドレス表を作成し(S11、
12)、検索ファイルの領域を確保する(S13)。次
に検索単位登録順位カウンタをk=1に初期設定して、
検索単位番号を「1」に、最大検索単位文字数を「n=
10000 」に、最大属性数をa=10に設定する(
S14)。そして最初の検索単位を取り出す(S15)
。ここまでが登録の前処理である。ここから検索単位ご
との登録処理となり、まず、文字セット位置番号をp=
1に、登録する検索単位の構成文字数m、登録する検索
単位の属性番号ai を設定する(S16)。次に、検
索単位の先頭文字から順に、文字セット位置番号pに該
当する文字セット位置情報をD=(k×10000 +
p)×10+ai の式で作成する(S17)。文字セ
ット位置番号pにある文字セットと同じ文字セット種グ
ループが格納されている検索ファイルの文字セットグル
ープの先頭番地を示す文字セットグループ先頭番地を文
字セットグループアドレス表から取り出して(S18)
、文字セットグループ先頭番地が示す検索ファイルの文
字セットグループの空領域の先頭行に文字セット位置情
報を格納する(S19)。そして、p=p+1、m=m
−1とし、検索単位内の全ての文字セットを処理したと
ころで、次の検索単位の処理に移る(S23、24)。
【0047】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。
ルを用いる検索処理について説明する。
【0048】本実施例では、検索ファイルから取り出し
た文字セット位置情報をもとに検索入力文字セット列と
同じ文字セット列を文字列照合して全文検索を行う例で
説明する。まず、その検索処理は大まかに分けると以下
の構成からなっている。
た文字セット位置情報をもとに検索入力文字セット列と
同じ文字セット列を文字列照合して全文検索を行う例で
説明する。まず、その検索処理は大まかに分けると以下
の構成からなっている。
【0049】■ 検索入力文字列の先頭文字から2文
字単位の文字セットに分解し、検索入力文字セット列を
作成する。■検索入力文字セット列の各文字セットに該
当する文字セットグループアドレス表内文字セットグル
ープ先頭番地を算出する。■検索入力文字セット列を出
現頻度の少ない文字セットから順に並べ変える。■並べ
変えた文字セット列の先頭から順に該当する文字セット
種グループを検索ファイルから取り出してそこに格納さ
れている文字セット位置情報から検索入力文字セット列
を構成できる文字セット位置情報の組み合わせを取り出
す。■抽出した文字セット位置情報から検索入力と同じ
属性を有する文字セット位置情報を取り出し照合一致と
する。■照合一致した文字セット位置情報から検索単位
番号と文字セット構成各文字の検索単位における先頭文
字からの位置を示す文字位置番号を検索結果として出力
する。
字単位の文字セットに分解し、検索入力文字セット列を
作成する。■検索入力文字セット列の各文字セットに該
当する文字セットグループアドレス表内文字セットグル
ープ先頭番地を算出する。■検索入力文字セット列を出
現頻度の少ない文字セットから順に並べ変える。■並べ
変えた文字セット列の先頭から順に該当する文字セット
種グループを検索ファイルから取り出してそこに格納さ
れている文字セット位置情報から検索入力文字セット列
を構成できる文字セット位置情報の組み合わせを取り出
す。■抽出した文字セット位置情報から検索入力と同じ
属性を有する文字セット位置情報を取り出し照合一致と
する。■照合一致した文字セット位置情報から検索単位
番号と文字セット構成各文字の検索単位における先頭文
字からの位置を示す文字位置番号を検索結果として出力
する。
【0050】次に具体的にそれぞれの処理を説明する。
【0051】■ 検索入力文字セット列の作成検索フ
ァイルに格納されている文字セットと照合可能なように
、検索入力文字列を先頭文字から2文字単位の文字セッ
トに分解し、検索入力文字セット列とする。
ァイルに格納されている文字セットと照合可能なように
、検索入力文字列を先頭文字から2文字単位の文字セッ
トに分解し、検索入力文字セット列とする。
【0052】■ 各検索入力文字セットに該当する文
字セットグループアドレス表内文字セットグループ先頭
番地の算出検索ファイルの作成時と同様に、各検索入力
文字セットの図3の文字セット群一覧記載順位を算出し
、これを文字セットグループアドレス表における検索入
力文字セットのアドレスポインタとする。
字セットグループアドレス表内文字セットグループ先頭
番地の算出検索ファイルの作成時と同様に、各検索入力
文字セットの図3の文字セット群一覧記載順位を算出し
、これを文字セットグループアドレス表における検索入
力文字セットのアドレスポインタとする。
【0053】■ 出現頻度順の並べ変えそして、検索
ファイルの各文字セット種グループの先頭番地を示す文
字セットグループアドレス表の文字セットグループ先頭
番地を参照して、各検索入力文字セットの出現頻度を調
べ、検索入力文字セット列を全文出現頻度の低いものか
ら順に並べ変える。上述のように、文字セットグループ
アドレス表内の先頭番地は、検索ファイルに格納されて
いる各文字セット種グループの先頭番地を示しており、
次に続く文字セットグループ先頭番地との差をとれば、
各文字セット種グループに格納されている文字セット位
置情報の数から、全文中に出現する文字セット種別頻度
がわかる。
ファイルの各文字セット種グループの先頭番地を示す文
字セットグループアドレス表の文字セットグループ先頭
番地を参照して、各検索入力文字セットの出現頻度を調
べ、検索入力文字セット列を全文出現頻度の低いものか
ら順に並べ変える。上述のように、文字セットグループ
アドレス表内の先頭番地は、検索ファイルに格納されて
いる各文字セット種グループの先頭番地を示しており、
次に続く文字セットグループ先頭番地との差をとれば、
各文字セット種グループに格納されている文字セット位
置情報の数から、全文中に出現する文字セット種別頻度
がわかる。
【0054】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報との照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中の文字セ
ット位置番号を照合するため、その二つの文字セット種
グループ内に格納されている文字セット位置情報の数が
少なければそれだけ照合回数を少なくすることができる
。したがって、文字セット位置情報の照合を行うときに
、出現頻度の低い文字セットから照合を行って照合回数
を低減させる。特に検索入力文字が多くなるほど出現頻
度の低い文字セットが含まれるため低減効果は大きい。
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報との照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中の文字セ
ット位置番号を照合するため、その二つの文字セット種
グループ内に格納されている文字セット位置情報の数が
少なければそれだけ照合回数を少なくすることができる
。したがって、文字セット位置情報の照合を行うときに
、出現頻度の低い文字セットから照合を行って照合回数
を低減させる。特に検索入力文字が多くなるほど出現頻
度の低い文字セットが含まれるため低減効果は大きい。
【0055】■ 文字セット列の照合出現頻度の低い
文字セットから文字セットグループアドレス表を参照し
てそれぞれの文字セット種グループに格納されている文
字セット位置情報を取り出す。そして取り出した文字セ
ット位置情報をもとに、出現頻度の低い文字セット種グ
ループから、各文字セット種グループ間で検索単位が等
しくかつ文字セット位置番号の差が検索入力文字列の文
字セットの先頭文字位置差に等しい文字セット位置情報
の組み合わせを抽出する。この文字セット位置差の照合
は、a=最大属性数とすると、{(検索入力文字列i番
目文字を先頭とする文字セット種グループ内文字セット
位置情報)−(検索入力文字列j番目文字を先頭とする
文字セット種グループ内文字セット位置情報)}÷a=
i−jの式で照合すればよい。
文字セットから文字セットグループアドレス表を参照し
てそれぞれの文字セット種グループに格納されている文
字セット位置情報を取り出す。そして取り出した文字セ
ット位置情報をもとに、出現頻度の低い文字セット種グ
ループから、各文字セット種グループ間で検索単位が等
しくかつ文字セット位置番号の差が検索入力文字列の文
字セットの先頭文字位置差に等しい文字セット位置情報
の組み合わせを抽出する。この文字セット位置差の照合
は、a=最大属性数とすると、{(検索入力文字列i番
目文字を先頭とする文字セット種グループ内文字セット
位置情報)−(検索入力文字列j番目文字を先頭とする
文字セット種グループ内文字セット位置情報)}÷a=
i−jの式で照合すればよい。
【0056】この文字セット種グループ間での文字セッ
ト位置差の照合処理は、出現頻度の低い文字セット種グ
ループの文字セット位置情報とそれより出現頻度の高い
文字セット種グループの文字セット位置情報との差を取
って文字セットの連続を照合する。
ト位置差の照合処理は、出現頻度の低い文字セット種グ
ループの文字セット位置情報とそれより出現頻度の高い
文字セット種グループの文字セット位置情報との差を取
って文字セットの連続を照合する。
【0057】この文字セット位置番号差に該当するもの
を抽出するときに、二つの文字セット種グループをAB
とCD、AとCの文字位置差がLであるとし、グループ
ABの文字セット位置番号をAx 、グループCDの文
字セット位置番号をCy としたとき Ax +L>Cy ならCy を削除 Ax +L<Cy ならAx を削除 Ax +L=Cy ならAx 、Cy を合致として共
に削除というように照合対象から削除していくことによ
りその照合回数を削減させる。
を抽出するときに、二つの文字セット種グループをAB
とCD、AとCの文字位置差がLであるとし、グループ
ABの文字セット位置番号をAx 、グループCDの文
字セット位置番号をCy としたとき Ax +L>Cy ならCy を削除 Ax +L<Cy ならAx を削除 Ax +L=Cy ならAx 、Cy を合致として共
に削除というように照合対象から削除していくことによ
りその照合回数を削減させる。
【0058】例えばグループABの文字セット位置番号
が5、13、100 、200 、1000、1100
グループCDの文字セット位置番号が3、18、101
、150 、180 であった場合、この二つのグル
ープ間の照合回数は全体で7回だけですみ、グループ内
の全ての文字セット位置情報を照合する必要はない。
が5、13、100 、200 、1000、1100
グループCDの文字セット位置番号が3、18、101
、150 、180 であった場合、この二つのグル
ープ間の照合回数は全体で7回だけですみ、グループ内
の全ての文字セット位置情報を照合する必要はない。
【0059】■ 属性番号の照合
文字セット列照合から得られた文字セット位置情報の中
から、検索入力と同じ属性番号の文字セット位置情報を
取り出すことにより、検索入力で指定した属性に一致す
る文字セット位置情報を抽出できる。
から、検索入力と同じ属性番号の文字セット位置情報を
取り出すことにより、検索入力で指定した属性に一致す
る文字セット位置情報を抽出できる。
【0060】■ 検索単位の抽出
取り出した文字セット位置情報から検索単位番号と文字
セット構成各文字の検索単位における先頭文字からの位
置を示す文字位置番号を検索結果として抽出する。
セット構成各文字の検索単位における先頭文字からの位
置を示す文字位置番号を検索結果として抽出する。
【0061】なお、検索入力が複数ある場合には、2番
目以降の検索入力に対しては、検索入力の最初の文字セ
ットに該当する文字セット種グループからそれまでに得
られた検索単位番号を有する文字セット位置情報を取り
出した後、検索入力の次の文字セット以降の処理を行う
ようにする。これは第1番目の検索入力で得られた検索
結果と同じ検索単位に含まれる文字セットを第2番目以
降の検索入力から抽出することを目的とする。
目以降の検索入力に対しては、検索入力の最初の文字セ
ットに該当する文字セット種グループからそれまでに得
られた検索単位番号を有する文字セット位置情報を取り
出した後、検索入力の次の文字セット以降の処理を行う
ようにする。これは第1番目の検索入力で得られた検索
結果と同じ検索単位に含まれる文字セットを第2番目以
降の検索入力から抽出することを目的とする。
【0062】以上の■〜■の動作を具体例を挙げて説明
する。検索対象として本文が指定され、検索入力文字列
としては「通信文書」が指定されたとする。この場合本
文の属性番号は「5」とする。なお、図5の検索ファイ
ルを対象として説明する。
する。検索対象として本文が指定され、検索入力文字列
としては「通信文書」が指定されたとする。この場合本
文の属性番号は「5」とする。なお、図5の検索ファイ
ルを対象として説明する。
【0063】検索入力が「通信文書」であるから、検索
入力文字セットは「通信」と「文書」になる。全文出現
頻度が「通信」<「文書」の順であり、照合をこの順序
に行うとすると、まず検索ファイル中の「通信」の文字
セットグループ欄から取り出した文字セット位置情報と
「文書」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、検索入力「通信文書」における
「通」と「文」との文字位置が各々「1」と「3」であ
るから、これらの差に最大属性数=10を乗算した「−
20」になる文字セット位置情報を抽出して、図5の検
索ファイルの「通信」内の文字セット位置情報の「80
1215」と「文書」内の「801235」とを連続性
ある文字セット位置情報の組み合わせとして抽出するこ
とができる。
入力文字セットは「通信」と「文書」になる。全文出現
頻度が「通信」<「文書」の順であり、照合をこの順序
に行うとすると、まず検索ファイル中の「通信」の文字
セットグループ欄から取り出した文字セット位置情報と
「文書」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、検索入力「通信文書」における
「通」と「文」との文字位置が各々「1」と「3」であ
るから、これらの差に最大属性数=10を乗算した「−
20」になる文字セット位置情報を抽出して、図5の検
索ファイルの「通信」内の文字セット位置情報の「80
1215」と「文書」内の「801235」とを連続性
ある文字セット位置情報の組み合わせとして抽出するこ
とができる。
【0064】さらに、検索条件は「本文」であるから、
これまでの文字列照合で残った文字セット位置情報の中
から、属性番号が「5」の文字セット位置情報として、
「801215」と「801235」を抽出できる。
これまでの文字列照合で残った文字セット位置情報の中
から、属性番号が「5」の文字セット位置情報として、
「801215」と「801235」を抽出できる。
【0065】したがって、この文字列が属する検索単位
番号「8」の検索単位と文字位置番号「121 〜12
4 」を検索結果として出力する。
番号「8」の検索単位と文字位置番号「121 〜12
4 」を検索結果として出力する。
【0066】この検索処理動作を図7にフローチャート
として示す。
として示す。
【0067】すなわち、検索入力を取り出し、検索入力
文字列の先頭から2文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−1、
属性番号を設定し、各文字セットの出現頻度を文字セッ
トグループアドレス表を参照して調べ出現頻度の低いも
のから順に並び変える(S41〜S44)。そして並べ
変えた文字セットの中から先頭から2個の文字セットに
該当する文字セット種グループに格納されている文字セ
ット位置情報を検索ファイルから取り出す(S45)。 そして、二つの文字セット種グループ間で、(出現頻度
の低い文字セット種グループの文字セット位置情報)−
(出現頻度の高い文字セット種グループの文字セット位
置情報)=(検索入力における二つの文字セットの先頭
文字位置差)×(最大属性数)である文字セット位置情
報を一致結果として取り出す(S46)。そして照合が
終わったか否かを判断した後(S47、48)、文字セ
ット位置情報の中から属性番号がai の文字セット位
置情報を選別し、検索入力に一致した検索単位と文字セ
ット構成各文字の検索単位における先頭文字からの位置
を示す文字位置番号を検索結果として出力する。(S4
9、50)。なお、ステップS48で照合が連続した場
合、これまでの一致結果の文字セット位置情報と、検索
入力を並べ変えた文字セットの中の次の文字セットに該
当する文字セット種グループに格納されている文字セッ
ト位置情報とで照合を行う(S46)。
文字列の先頭から2文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−1、
属性番号を設定し、各文字セットの出現頻度を文字セッ
トグループアドレス表を参照して調べ出現頻度の低いも
のから順に並び変える(S41〜S44)。そして並べ
変えた文字セットの中から先頭から2個の文字セットに
該当する文字セット種グループに格納されている文字セ
ット位置情報を検索ファイルから取り出す(S45)。 そして、二つの文字セット種グループ間で、(出現頻度
の低い文字セット種グループの文字セット位置情報)−
(出現頻度の高い文字セット種グループの文字セット位
置情報)=(検索入力における二つの文字セットの先頭
文字位置差)×(最大属性数)である文字セット位置情
報を一致結果として取り出す(S46)。そして照合が
終わったか否かを判断した後(S47、48)、文字セ
ット位置情報の中から属性番号がai の文字セット位
置情報を選別し、検索入力に一致した検索単位と文字セ
ット構成各文字の検索単位における先頭文字からの位置
を示す文字位置番号を検索結果として出力する。(S4
9、50)。なお、ステップS48で照合が連続した場
合、これまでの一致結果の文字セット位置情報と、検索
入力を並べ変えた文字セットの中の次の文字セットに該
当する文字セット種グループに格納されている文字セッ
ト位置情報とで照合を行う(S46)。
【0068】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、JISコード表の中から、仮
名文字と漢字文字を除いた字種だけで検索ファイルと文
字セット群一覧と文字セットグループアドレス表を作成
すると、日本語文書に比べ文字セットの少ない検索ファ
イルが構成でき、日本語文書に比してコンパクトに全文
検索が容易にできる。この場合、英文字(記号を含む)
についてはJISコードに変えて例えばISOコードを
用いた文字セットグループアドレス表を作成し、文字セ
ットは最低3文字で構成されたものとすることがよい。
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、JISコード表の中から、仮
名文字と漢字文字を除いた字種だけで検索ファイルと文
字セット群一覧と文字セットグループアドレス表を作成
すると、日本語文書に比べ文字セットの少ない検索ファ
イルが構成でき、日本語文書に比してコンパクトに全文
検索が容易にできる。この場合、英文字(記号を含む)
についてはJISコードに変えて例えばISOコードを
用いた文字セットグループアドレス表を作成し、文字セ
ットは最低3文字で構成されたものとすることがよい。
【0069】なお、全文検索の高速性が求められる場合
、文字セットの構成文字数を増加するとますます文字セ
ットの出現頻度が低くなり、各文字セット種グループに
格納される文字セット位置情報が少なくなるため、容易
に高速化を実現できる。
、文字セットの構成文字数を増加するとますます文字セ
ットの出現頻度が低くなり、各文字セット種グループに
格納される文字セット位置情報が少なくなるため、容易
に高速化を実現できる。
【0070】
【発明の効果】以上説明したように、本発明は検索対象
文字列の文字セット種ごとにその文字セットが属する検
索単位識別符号、文字セット位置順序符号、検索単位の
種別を示す属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、 (1) 検索処理のための文字列照合回数を低減するこ
とができるため、高速照合を行うことができる、(2)
文字セットと文字位置に着目して検索処理を行うため
任意の文字列検索を行うことができ、プリサーチ方式の
ように登録時に文字列抽出を行う必要はない、(3)
専用のハードウエアを用いることなくソフトウエアだけ
で高速検索を実現できるため、汎用の情報処理装置で全
文検索を効率よく行うことができ汎用性に富む、(4)
全文検索のデータベースシステムに利用したとき、そ
の検索ファイルの作成にキーワード抽出を行う必要がな
く、機械入力された論文などの文字列から自動的に検索
ファイルを作成することができるため、データベースシ
ステムを経済的にかつ効率よく構築することが可能であ
る、 (5) 欧文字のように字種の少ない文字からなる文字
列も、その文字列を構成する文字セット種グループで文
字セット位置情報を格納した検索ファイルを作成して検
索することにより、同じ文字列の出現頻度は少ないため
各文字セットの出現頻度を低く抑えることができ、出現
頻度の少ない文字セットでの検索照合を可能とするので
高速検索を可能とする優れた効果がある。
文字列の文字セット種ごとにその文字セットが属する検
索単位識別符号、文字セット位置順序符号、検索単位の
種別を示す属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、 (1) 検索処理のための文字列照合回数を低減するこ
とができるため、高速照合を行うことができる、(2)
文字セットと文字位置に着目して検索処理を行うため
任意の文字列検索を行うことができ、プリサーチ方式の
ように登録時に文字列抽出を行う必要はない、(3)
専用のハードウエアを用いることなくソフトウエアだけ
で高速検索を実現できるため、汎用の情報処理装置で全
文検索を効率よく行うことができ汎用性に富む、(4)
全文検索のデータベースシステムに利用したとき、そ
の検索ファイルの作成にキーワード抽出を行う必要がな
く、機械入力された論文などの文字列から自動的に検索
ファイルを作成することができるため、データベースシ
ステムを経済的にかつ効率よく構築することが可能であ
る、 (5) 欧文字のように字種の少ない文字からなる文字
列も、その文字列を構成する文字セット種グループで文
字セット位置情報を格納した検索ファイルを作成して検
索することにより、同じ文字列の出現頻度は少ないため
各文字セットの出現頻度を低く抑えることができ、出現
頻度の少ない文字セットでの検索照合を可能とするので
高速検索を可能とする優れた効果がある。
【図1】 本発明一実施例に使用する情報検索処理装
置の構成例。
置の構成例。
【図2】 実施例の検索ファイル例。
【図3】 実施例文字セット群一覧。
【図4】 実施例文字セットグループアドレス表。
【図5】 実施例の検索ファイル例。
【図6】 実施例の検索ファイル作成処理手順を説明
するフローチャート。
するフローチャート。
【図7】 実施例の検索処理手順を説明するフローチ
ャート。
ャート。
1 CPU
2 メモリ
3 入出力部
4 キーボード
5 ディスプレイ
6 外部記憶装置制御部
7 外部記憶装置
8 共通バス
Claims (5)
- 【請求項1】 検索対象となる文字列を検索を行う単
位である検索単位に分けこの検索単位ごとに昇順の符号
を付与する検索単位識別符号付与手段と、この分けられ
た検索単位に対してその検索単位の論理的な区分を示す
属性符号を付与する属性符号付与手段と、検索対象とな
る文字列を各文字ごとにその文字と次に続く合計q文字
(ただしqは2以上の自然数)からなる文字セットとし
、この文字セットの属する検索単位中での文字セットの
先頭文字位置を示す文字セット位置順序符号を付与する
文字セット位置順序符号付与手段と、上記検索単位識別
符号と文字セット位置順序符号と属性符号とからなる文
字セット位置情報を作成して、この文字セット位置情報
を文字セット種ごとの領域に格納して検索ファイルを作
成する手段とを備えた情報検索処理方式。 - 【請求項2】 文字セット位置情報は、{(検索単位
識別符号×n)+文字セット位置順序符号}×a+属性
符号n:最大検索単位文字数 a:最大属性数 なる数字として与えられる請求項1記載の情報検索処理
方式。 - 【請求項3】 検索対象となる文字列について、文字
列を構成する文字ごとに、文字セット列からなり検索を
行う単位である検索単位に昇順に付された検索単位識別
符号と、検索単位中でのその文字セットの先頭文字位置
を示す文字セット位置順序符号と、検索単位の論理区分
を示す属性符号とからなる文字セット位置情報を文字セ
ット種別ごとに格納した検索ファイルを備え、検索入力
文字列の構成文字を先頭文字からq文字単位の文字セッ
トに分解した検索入力文字セット列を構成し、分解した
文字セットと同じ文字セットの文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えた情報検索処理方式。 - 【請求項4】 検索入力文字セット列と等しい文字セ
ット位置情報の抽出は、検索入力の出現頻度の小さい文
字セットから順に行う請求項3記載の情報検索処理方式
。 - 【請求項5】 検索対象文字列が記号を含む欧文字列
の場合は、少なくとも3文字記号単位の文字セットで記
号を含む欧文字の文字セット種のみの検索ファイルを用
いる請求項1ないし4のいずれかに記載の情報検索処理
方式。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2417609A JPH07109603B2 (ja) | 1990-12-12 | 1990-12-12 | 情報検索処理方式および検索ファイル作成装置 |
| PCT/JP1991/000011 WO1992009960A1 (fr) | 1990-11-30 | 1991-01-10 | Dispositif d'extraction de donnees |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2417609A JPH07109603B2 (ja) | 1990-12-12 | 1990-12-12 | 情報検索処理方式および検索ファイル作成装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH04215181A true JPH04215181A (ja) | 1992-08-05 |
| JPH07109603B2 JPH07109603B2 (ja) | 1995-11-22 |
Family
ID=18525692
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2417609A Expired - Fee Related JPH07109603B2 (ja) | 1990-11-30 | 1990-12-12 | 情報検索処理方式および検索ファイル作成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH07109603B2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06149882A (ja) * | 1992-11-06 | 1994-05-31 | Fujitsu Ltd | 全文データベース検索装置 |
| JPH07160724A (ja) * | 1993-11-29 | 1995-06-23 | Ricoh Co Ltd | 文書検索装置 |
| JPH08147320A (ja) * | 1994-11-22 | 1996-06-07 | Internatl Business Mach Corp <Ibm> | 情報検索方法及びシステム |
-
1990
- 1990-12-12 JP JP2417609A patent/JPH07109603B2/ja not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06149882A (ja) * | 1992-11-06 | 1994-05-31 | Fujitsu Ltd | 全文データベース検索装置 |
| JPH07160724A (ja) * | 1993-11-29 | 1995-06-23 | Ricoh Co Ltd | 文書検索装置 |
| JPH08147320A (ja) * | 1994-11-22 | 1996-06-07 | Internatl Business Mach Corp <Ibm> | 情報検索方法及びシステム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07109603B2 (ja) | 1995-11-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3160201B2 (ja) | 情報検索方法、情報検索装置 | |
| US5995962A (en) | Sort system for merging database entries | |
| US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
| US5590317A (en) | Document information compression and retrieval system and document information registration and retrieval method | |
| US6094647A (en) | Presearch type document search method and apparatus | |
| US5752051A (en) | Language-independent method of generating index terms | |
| JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
| US7516125B2 (en) | Processor for fast contextual searching | |
| JPH08249354A (ja) | 単語索引および単語索引作成装置および文書検索装置 | |
| JP2669601B2 (ja) | 情報検索方法及びシステム | |
| JPH09288676A (ja) | 全文インデックス作成装置および全文データベース検索装置 | |
| JPH04205560A (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| JPH0740275B2 (ja) | キーワード重要度自動評価装置 | |
| JPH0484271A (ja) | 文書内情報検索装置 | |
| JPH05120345A (ja) | キーワード抽出装置 | |
| JPH0944523A (ja) | 関連語提示装置 | |
| JPH04215181A (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| JP2519130B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
| JP2519129B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
| JP3081093B2 (ja) | 索引作成方法およびその装置と文書検索装置 | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| JP2002183195A (ja) | 概念検索方式 | |
| WO1992009960A1 (fr) | Dispositif d'extraction de donnees | |
| JP2004280323A (ja) | 質問文書要約装置、質問応答検索装置、質問文書要約プログラム | |
| JPH10124524A (ja) | 文書検索装置及び文書検索方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071122 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081122 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091122 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091122 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 15 |
|
| LAPS | Cancellation because of no payment of annual fees |