JPH08314948A

JPH08314948A - 情報検索装置

Info

Publication number: JPH08314948A
Application number: JP7146898A
Authority: JP
Inventors: Takamasa Koyama; 隆正小山; Tetsuya Kinoshita; 哲也木下; Hirofumi Shinoki; 裕文篠木; Chuichi Kikuchi; 忠一菊池
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-05-23
Filing date: 1995-05-23
Publication date: 1996-11-29
Anticipated expiration: 2015-05-29
Also published as: JP3046221B2

Abstract

(57)【要約】（修正有）【目的】一つの項目に登録された複数のデータを高速
に検索する。【構成】項目内のデータが複数のデータから成ると
き、これらのデータを繋げた列の先頭、終端及びデータ
の間に区切りコードを付与する手段３、この列の隣接す
る２文字の組から成る文字連鎖を作成する手段７、文字
連鎖を構成する各文字の出現個数、レコード番号及びデ
ータの番号から成る文字連鎖情報を作成し、文字連鎖と
対応させてメモリに格納して検索ファイルを作成する手
段10、入力されたキーワードに区切りコードを付与する
手段13並びに、区切りコードが付与されたキーワードか
らキーワードの文字連鎖を作成する手段17を備え、検索
ファイルからキーワードの文字連鎖に対応する文字連鎖
情報を読出し、それらを照合してキーワードを含むデー
タを検索する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベースに登録さ
れたデータの中から、入力されたキーワードを含むデー
タを検索する情報検索装置に関し、特に、テーブルなど
のデータベースから該当するデータを的確に検索できる
ようにしたものである。

【０００２】

【従来の技術】近年、情報検索では、利用者が思いつい
た言葉をキーワードとして入力すると、データベースに
登録されたデータを全文検索して、そのキーワードの文
字列を含むデータを自動検索するシステムが注目を集め
ている。特に、リレーショナルデータベース管理システ
ム（ＲＤＢＭＳ）などではその製品化が図られており、
多方面での応用が広まっている。

【０００３】リレーショナルデータベースでは、例え
ば、図２２に示すように、レコード番号１のレコードが
神奈川県の横浜に関する記録であり、レコード番号２の
レコードが神奈川県の鎌倉に関する記録である場合に、
レコードの属性（県名、都市名、‥）を表す複数の項目
をデータ構造として設け、レコード番号に対応させて各
属性のデータをそれぞれの項目に格納して、テーブルを
構成する。

【０００４】このテーブルのデータベースから、例えば
「鎌倉」のレコードを検索する場合には、図２３に示す
ように、先ず、操作者は、情報検索装置に検索対象とな
るテーブルの項目（項目２）と検索対象となるキーワー
ド「鎌倉」とを入力する。これを受けて、情報検索装置
は、図２２のテーブルの全てのレコードに関するデータ
を読み込み、検索対象に指定された項目２を照合の対象
に設定して、キーワードと項目２の各データとを照合す
る。この照合によって一致したデータを検出したとき
は、そのデータに対応するレコード番号（番号２）を出
力する。

【０００５】こうして従来の情報検索装置では、操作者
の入力した項目とキーワードとを手掛かりに、目的のレ
コードを検索する。

【０００６】

【発明が解決しようとする課題】しかし、従来の情報検
索では、例えば、一方のレコードが「横浜」の「中華
街」に関する記録、他方が「横浜」の「山下公園」に関
する記録である場合に、これらのレコードを区別するた
め、新たに「名所」に関する項目を増設して、「中華
街」及び「山下公園」のデータを各レコードに対応させ
て格納する必要があり、そのため項目数が非常に多くな
るという問題点を有している。また、この場合、横浜の
中華街に関するレコードを検索するときは、「横浜」を
検索する項目と「中華街」を検索する項目との複数項目
を指定する必要があり、操作者はどの項目に必要とする
データが格納されているかを予め知っていなければなら
ず、検索の操作が煩雑になり、検索処理に時間が掛かる
などの問題点がある。

【０００７】また、こうした場合、１項目に複数のデー
タを列記する方法もある（先の例では「横浜中華街」
「横浜山下公園」とする）が、このときには、「横浜」
「中華街」「山下公園」はそれぞれ独立のデータとして
存在する訳ではないから、例えば、「横浜」という単独
のデータを有するレコードを検索したいときに、これら
のレコードは検索漏れとなってしまう。このとき、「横
浜」という語を含むデータを全て拾い上げる検索を行な
うならば、これらのレコードも検索漏れを免れることが
できるが、しかし、こうした検索では、検索者の意図に
反したデータ（検索ゴミ）を大量に検出してしまう可能
性がある。

【０００８】また、このように１項目に複数のデータを
記述した場合には、データの文字列が長くなるので、入
力されたキーワードをデータの先頭から順次照合するの
に時間が掛かる。

【０００９】また、このキーワードによる検索では、例
えば「横○×」や「○×横」のように、前方に「横」の
付くデータを検索（以下「前方一致検索」と呼ぶ）した
り、後方に「横」の付くデータを検索（以下「後方一致
検索」）したり、前方と後方の両者に指定された文字が
付くデータを検索（以下「完全一致検索」と呼ぶ）する
ことができるが、これらの検索時間も長くなる。

【００１０】本発明は、こうした従来の問題点を解決す
るものであり、テーブルの構成要素として設けた一つの
項目に複数のデータをそれぞれ独立に登録することがで
き、また、項目内のこれらのデータと入力されたキーワ
ードとの照合を高速で行なうことができる情報検索装置
を提供することを目的としている。

【００１１】

【課題を解決するための手段】そこで、本発明では、複
数の項目を持つレコードデータの項目内におけるデータ
から、入力されたキーワードを含むデータを検索する情
報検索装置において、この項目内のデータが複数のデー
タから成るとき、これらのデータを繋げた列の先頭、終
端及びデータの間に区切りコードを付与する区切り付与
手段と、この列の隣接する２文字の組から成る文字連鎖
を作成する文字連鎖パターン生成手段と、文字連鎖を構
成する各文字のデータにおける出現個数、レコード番
号、データの番号から成る文字連鎖情報を作成し、文字
連鎖と対応させてメモリに格納して検索ファイルを作成
する検索ファイル作成手段と、入力されたキーワードに
区切りコードを付与するキーワード区切り付与手段と、
区切りコードが付与されたキーワードからキーワードの
文字連鎖を作成するキーワード文字連鎖生成手段と、検
索ファイルからキーワードの文字連鎖に対応する文字連
鎖情報を読出し、それらを照合してキーワードを含むデ
ータを検索する照合手段とを設けている。

【００１２】また、照合手段に対して、区切りコードを
含むキーワードの文字連鎖に対応する文字連鎖情報の照
合を優先させる優先照合手段を設けている。

【００１３】また、文字連鎖パターン生成手段は、区切
りコードを文字連鎖の中に含めて文字連鎖を作成する。

【００１４】また、このとき検索ファイル作成手段は、
文字連鎖情報における区切りコードの出現個数として、
特定の番号を設定する。

【００１５】また、文字連鎖パターン生成手段が、区切
りコードを含めずに文字連鎖を作成し、検索ファイル作
成手段が、文字連鎖の内、区切りコードと隣接する文字
連鎖の文字連鎖情報をそれ以外の文字連鎖情報と区別し
て作成する。

【００１６】また、検索ファイル作成手段が、区切りコ
ードと隣接する文字連鎖の文字連鎖情報をメモリに群別
に格納する。

【００１７】また、区切り付与手段が、先の列に階層を
表す複数種類の区切りコードを付与し、キーワード区切
り付与手段が、入力されたキーワードに階層を表す区切
りコードを付与する。

【００１８】さらに、区切り付与手段が、先の列に順序
を表す複数種類の区切りコードを付与し、キーワード区
切り付与手段が、入力されたキーワードにこの順序を表
す区切りコードを付与する。

【００１９】

【作用】そのため、キーワードの文字列に相当する連続
する文字が同一データ内に存在するかどうかを、キーワ
ードの文字連鎖に対応させて読出した文字連鎖情報を照
合することにより、調べることができる。このデータが
１項目内に複数存在する場合でも、各データを区切りコ
ードで区切っているため、各データはそれぞれ独立のデ
ータとして作用する。従って、レコードデータの構成要
素である１項目に対して、複数のデータを繰り返し登録
することができ、入力されたキーワードを含む文字列や
パターンなどのデータを項目内で繰り返し検索すること
が可能である。

【００２０】また、キーワードの前または後ろに区切り
コードを付与し、この区切りコードを含む文字連鎖に対
応する文字連鎖情報を優先させて照合することにより、
前方一致検索や後方一致検索を高速で行なうことができ
る。

【００２１】また、区切りコードを文字連鎖の中に含め
ずに、この区切りコードに隣接する文字連鎖をデータの
先端または末端として扱う場合には、文字連鎖情報の数
を減らすことができ、照合回数を削減することができ
る。また、この区切りコードに隣接する文字連鎖の文字
連鎖情報をメモリに群別に格納することにより、メモリ
からの読出しが容易になる。また、前方一致検索、後方
一致検索、完全一致検索に応じて、文字連鎖情報の読出
し順序や照合順序を合わせることができ、これらの検索
を高速で行なうことができる。

【００２２】また、階層構造または順序構造を持つデー
タに対しては、階層または順序を示す区切りコードを付
与して検索ファイルを構成し、入力するキーワードにも
階層または順序を指定する区切りコードを付与すること
により、階層関係や順序関係を持った検索を実現するこ
とができる。

【００２３】

【実施例】

（第１実施例）実施例の情報検索装置では、図６に示す
用に、レコードの項目内に「あいうあえ、あいあえ、あ
とあし」の３個のデータがある場合に、このデータ中の
区切り「、」に代わって、区切りコード（^W）を付加
し、「^Wあいうあえ^Wあいあえ^Wあとあし^W」というデ
ータに変換する。次に、各データごとの文字出現頻度を
求める。この文字出現頻度は、それぞれの文字が、同一
種別の文字の何回目に出現した文字であるかを表すもの
で、図６（３）に示すようになる。次に、「^Wあいうあ
え^Wあいあえ^Wあとあし^W」の先頭より１文字ずつ移動
しながら隣接する２文字の組から成る文字連鎖パター
ン、即ち、（^W，あ）（あ，い）（い，う）（う，あ）
（あ，え）（え，^W）（^W，あ）（あ，い）（い，あ）
（あ，え）（え，^W）（^W，あ）（あ，と）（と，あ）
（あ，し）（し，^W）を作成し、この文字連鎖パターン
における各文字の文字出現頻度と、データ番号（３個の
データの順番を表す番号）と、レコード番号とを組合せ
て文字連鎖情報を作成する。

【００２４】例えば、２番目の文字連鎖パターンである
（あ，い）の文字連鎖情報は、「あ」の文字出現頻度が
１、「い」の文字出現頻度が１、データ番号が１、そし
てレコード番号が１であるから（１，１，１，１）とな
る。また、最後の文字連鎖パターン（し，^W）の文字連
鎖情報は（１，ｍ，３，１）となる。ここでは^Wの文字
出現頻度をｍで表している。こうして求めた各文字連鎖
パターンとその文字連鎖情報とを纏めて検索ファイル
（図６（４））を作成する。

【００２５】一方、検索時に、図１０に示すように「あ
とあし」というキーワードが入力されたとすると、この
キーワードに区切りコードを付加して「^Wあとあし^W」
を作成し、その文字連鎖パターン（^W，あ）（あ，と）
（と，あ）（あ，し）（し，^W）に対応する文字連鎖情
報を検索ファイルから求める（図１０（４））。

【００２６】次いで、この文字連鎖情報から、連続する
「あとあし」という文字列がデータ１〜３の中に存在す
るかどうかを次のように調べる。もしも、その文字列が
データ１〜３の中に存在するならば、前記の各文字連鎖
パターンにおける文字連鎖情報のデータ番号及びレコー
ド番号は一致している筈であるし、また、各文字連鎖パ
ターンにおける文字連鎖情報の２番目の要素の値は、そ
の次の文字連鎖パターンにおける文字連鎖情報の１番目
の要素の値と一致している筈である。検索ファイルから
求めた文字連鎖情報の中に、こうした条件を満たす文字
連鎖情報を検出することができたときには、そのレコー
ド番号を検出結果として出力する。

【００２７】こうした動作を行なう情報検索装置は、図
１に示すように、複数の項目から構成されるレコードデ
ータが格納されたレコードデータ記憶部２と、格納され
たレコードデータを読み取るレコード読取部１と、読み
取ったレコードデータから各項目毎のデータを切り出
し、データの順番をカウントし、さらにデータの先頭、
間、終端に区切りコードを付加する区切り付加部３と、
区切り付加部３からデータの順番を取得するとともに、
レコードデータ記憶部２からレコード番号を取得する番
号付加部９と、区切りコードの付加された各項目のデー
タにおける文字出現頻度を計算するとともに文字連鎖パ
ターンを作成する文字連鎖パターン生成部７と、区切り
コードを含む文字連鎖パターンを作成する区切り判定部
８と、文字連鎖パターン生成部７及び区切り判定部８か
ら得た文字連鎖パターンと前記番号付加部９から得たデ
ータ番号及びレコード番号とから文字連鎖情報を作成す
る検索ファイル生成部10と、文字連鎖パターン、文字連
鎖情報、区切りコード用の文字種別の各データを記憶す
る検索ファイル記憶部11と、入力されたキーワード及び
部分一致、前方一致、後方一致、完全一致の各検索種別
を読み取るキーワード読取部12と、検索種別に応じてキ
ーワードの前後に区切りコードを付加するキーワード区
切り付加部13と、区切りコードの付加されたキーワード
から文字連鎖パターンを生成するキーワード文字連鎖生
成部17と、キーワードから生成された文字連鎖パターン
に対応する文字連鎖情報を検索ファイル11から引き出し
て照合処理を行ない、キーワードと一致するレコードデ
ータを抽出する照合部18と、検索結果を表示する検索結
果表示部19とを備えるとともに、さらに、区切りコード
を第２要素に含む文字連鎖の文字連鎖情報を検索ファイ
ル記憶部11の優先的に引き出し得る位置に格納するよう
に指示する優先指示部６と、区切りコードを第２要素に
含む文字連鎖の文字連鎖情報を優先的に照合するように
指示する優先照合部16と、１項目に含まれる各データの
末端２文字の文字種組合せに対して区切りコードを付加
する群別区切り付加部４と、入力されたキーワードの末
端２文字の文字種組合せに対して区切りコードを付加す
るキーワード群別区切り付加部14と、レコードデータの
項目に含まれる複数のデータが階層構造を持つときに各
データの末端に階層構造に応じた区切りコードを付加す
る階層・順序別区切り付加部５と、入力されたキーワー
ドに階層を示す区切りコードを付加するキーワード階層
別区切り付加部15とを備えている。

【００２８】第１実施例では、この情報検索装置におけ
る検索ファイル生成の動作及びキーワード検索の動作に
ついて詳しく説明する。この動作では、図１の構成の
内、優先指示部６、優先照合部16、群別区切り付加部
４、キーワード群別区切り付加部14、階層・順序別区切
り付加部５及びキーワード階層別区切り付加部15は使用
しない。

【００２９】コードデータ記憶部２の構造は、図３に示
すように、レコード番号、項目などから構成されてお
り、各項目の中には複数のデータが格納されている（da
ta1，data2，‥）。本実施例では項目２にデータが存在
するものとする。このコードデータ記憶部２に格納され
たレコードデータから検索ファイルを生成するまでの手
順は図２の処理フローに従って行なわれる。

【００３０】ステップ１：レコード読取部１は、レコー
ドデータ記憶部２からレコードデータを読取り、その最
初のレコードデータを処理すべきレコードデータとして
設定（Ｌ＝１）し、ステップ２：このレコードデータの処理すべき項目（こ
こではｋ番目の項目）を指定する。この指定された項目
には、図６（１）で示すように、「あいうあえ、あいあ
え、あとあし」の３個のデータが区切り「、」で分けら
れているものとする。

【００３１】ステップ３：区切り付加部３は、このデー
タの先頭及び末尾に区切りコード（^W）を追加し、ま
た、データ間の区切り「、」を区切りコードに変える。
図６（２）に区切りコードが付加されたデータを示す。

【００３２】ステップ４：文字連鎖パターン生成部７
は、項目ｋの処理すべきデータのデータ番号ｈを１に設
定し、ステップ５：このデータ番号１のデータにおける区切り
コードの文字種別に対する出現頻度を特定の番号（ここ
ではｍ）にセットするとともに、ステップ６：このデータの各文字について、文字種別ご
との出現頻度を算出する。図６（３）には、第１〜第３
データの全てについて文字種別ごとの出現頻度を算出し
たときに得られる、データ別の文字出現頻度と区切りコ
ード（^W）との関係を示している。

【００３３】ステップ７：文字連鎖パターン生成部７
は、次いで、データ番号１のデータにおける文字連鎖
（Ｆ（ａ），Ｆ（ｂ））を作成する。このとき区切り判
定部８は、区切りコードを含む文字連鎖パターンを作成
する。

【００３４】ステップ８：検索ファイル生成部10は、文
字連鎖パターン生成部７及び区切り判定部８から文字連
鎖パターンとその出現頻度とを得るとともに、番号付加
部９が取得しているデータ番号（ｈ）とレコード番号
（Ｌ）とを得て、文字連鎖情報を作成し、検索ファイル
記憶部11に格納する。この文字連鎖情報は、図４に示す
ように、連続する２文字の文字出現頻度、データ番号、
レコード番号から構成される。

【００３５】ステップ９：こうしてデータ番号ｈのデー
タの全ての文字連鎖パターンにおける文字連鎖情報を作
成する。

【００３６】検索ファイル記憶部11は、図５に示すよう
に、文字連鎖情報の種別、文字連鎖パターン、文字連鎖
情報のリストから構成され、文字連鎖情報の種別は、文
字連鎖パターンに区切りコードが含まれているかどう
か、含まれている場合に、それが連続する２文字の前方
であるか後方であるかを区別しており、ステップ10：Ｆ（ａ）＝ｍであるとき、この文字連鎖の
文字連鎖情報を前方区切りコード付き文字連鎖情報とし
て格納し、ステップ11：Ｆ（ｂ）＝ｍであるとき、この文字連鎖の
文字連鎖情報を後方区切りコード付き文字連鎖情報とし
て格納する。

【００３７】ステップ12：次いで、処理の対象を項目ｋ
における次のデータに移すため、データ番号ｈをインク
リメントし、ステップ13：そのｈの値が項目ｋ内の最大のデータ番号
に達するまでステップ５以降の手順を繰り返す。

【００３８】図６（４）には、図６（１）のデータから
生成され、検索ファイル記憶部11に格納された検索ファ
イルを示している。

【００３９】ステップ13において、ｈの値が項目ｋ内の
最大のデータ番号を超えたときは、ステップ14：処理の対象を次のレコードデータに移すた
め、レコード番号Ｌをインクリメントし、ステップ15：全てのレコードデータについての処理が終
了するまで、ステップ２〜ステップ15の手順を繰り返
す。

【００４０】次に、図７の処理フローにより、検索ファ
イルを用いて入力されたキーワードと一致するデータを
検索する処理手順について説明する。このときのキーワ
ードの読込から検索までのデータの流れを図８に示して
いる。キーワード読取部12で読取るデータとして図８
（１）のパターン１「あと？」とパターン２「あいあ
え」とを例として挙げる。「あと？」は、「あとあし」
等のように冒頭に「あと」を含む文字列を調べることを
意味し、「あいあえ」の様に「？」がない場合はキーワ
ードと完全に一致する文字列を調べることを意味する。

【００４１】ステップ１：キーワード読取部12は、入力
されたパターン１やパターン２のキーワードを読み込
み、ステップ２：操作者から入力された項目ｋを指定項目と
して設定する。

【００４２】ステップ３：キーワード区切り付加部13
は、キーワードの文字列における「？」の有無に応じて
検索種別（部分一致、前方一致、後方一致、完全一致）
を判定し、ステップ４：検索種別に応じてキーワードに区切りコー
ド（^W）を付与する。図８（２）に示すように、キーワ
ードの検索種別が完全一致の場合は、文字列の両端に区
切りコードを付加し、キーワード文字列に「？」が有る
ときは、「？」の無い方の端にだけ区切りコードを付加
する。

【００４３】ステップ５：キーワード文字連鎖生成部17
は、区切りコードが付与されたキーワードに対して文字
連鎖パターン（ａ，ｂ）を作成する。図８（３）にパタ
ーン１及びパターン２に対応する文字連鎖パターンを示
している。

【００４４】ステップ６：次に照合部１８は、この文字
連鎖パターンに対応する文字連鎖情報を検索ファイル記
憶部11から引き出して照合を行なう。文字種ａが区切り
コードであるときは、ステップ７：検索ファイルの前方区切りコード付き文字
連鎖情報の中から該当する文字連鎖パターンの文字連鎖
情報を全て引き出し、ステップ８：文字種ｂが区切りコードであるときは、ステップ９：検索ファイルの後方区切りコード付き文字
連鎖情報の中から該当する文字連鎖パターンの文字連鎖
情報を全て引き出し、ステップ10：それ以外のときは、検索ファイルの区切り
コードなし文字連鎖情報の中から該当する文字連鎖パタ
ーンの文字連鎖情報を全て引き出す。

【００４５】ステップ11：次いで、キーワードの文字連
鎖の組の数を調べて、ステップ12：１組であるときは、ステップ13：引き出した文字連鎖情報を全て該当する文
字連鎖情報とする。

【００４６】ステップ14：２組以上であるときは、ステップ15：連続する２組の文字連鎖における文字連鎖
情報の間で、１番目の文字連鎖の第２文字の出現頻度と
２番目の文字連鎖の第１文字の出現頻度が一致し、且つ
データ番号が一致するものが在るかどうかを照合し、そ
れらが一致するまで次々と文字連鎖情報を取り替えて照
合を繰り返す。

【００４７】ステップ16：これらの照合で該当する文字
連鎖情報が存在するときは、ステップ17：照合部18は、該当するレコード番号と件数
とをレコードデータ記憶部２から抽出し、検索結果表示
部19に表示する。

【００４８】このときの照合時のデータの流れを図８
（４）に示している。図８（４）の＜パターン１＞の場
合には、照合１回目で第１文字連鎖と第２文字連鎖との
照合（(A)と(B)とに対する照合）が一致しないので、第
２文字連鎖情報はそのままにして次の第１文字連鎖情報
との照合を行なう（照合２回目）。以下繰り返し、照合
３回目で一致するので、照合部18は、一致した文字連鎖
情報から、項目番号２、データ番号３、レコード番号１
を取得し、その内容をレコードデータ記憶部２から求め
る。もし、全ての文字連鎖パターンに対して一致しない
場合には照合を終了する。

【００４９】また、図８（４）の＜パターン２＞は、５
個の文字連鎖パターンに対する照合の例であり、順番に
(A)と(B)、(C)と(B)、(D)と(B)、(E)と(B)で照合を行な
う過程を示している。また、図８（５）に最終的な検索
結果を示している。

【００５０】このように実施例の情報検索装置では、デ
ータの先頭、間、終端に区切りコードを付与し、区切り
コードを含めて文字連鎖パターンを形成し、各文字連鎖
パターンの文字連鎖情報を集めて検索ファイルを形成し
ている。そして、入力されたキーワードを区切りコード
を含む文字連鎖に分解し、その文字連鎖に対応する文字
連鎖情報を照合することによって、キーワードの文字列
を含むデータを検出している。

【００５１】このように項目内のデータに区切りコード
を付与しているため、１項目内に複数のデータを持つ場
合でも、それらのデータを、キーワード検索においてそ
れぞれ独立したデータとして作用させることができる。
従って、検索における支障を生じることなく、１項目内
に複数のデータを追加することが可能である。

【００５２】また、検索時には、キーワードの文字連鎖
に対応する文字連鎖情報だけを検索ファイルから読み出
して照合を行なうので、キーワードの文字列をデータ文
字列の全てと照合する場合に比べて、検索時間を短くす
ることができる。

【００５３】なお、実施例では、データが文字パターン
である場合について説明したが、○△など予めパターン
化されたデータであれば、何に対しても適用可能であ
る。また、区切りコードには、パターン化されたデータ
以外のものであれば、どのようなものでも用いることが
できる。

【００５４】（第２実施例）第２実施例では、後方一致
検索などの便を図るため、入力されたキーワードとの照
合を、キーワード文字列の後ろから行なう場合について
説明する。

【００５５】この動作は、図１の情報検索装置におい
て、第１実施例で使用した各部の他に、区切りコードを
第２文字に含む文字連鎖の文字連鎖情報を優先的な読出
し位置に格納するよう指示する優先指示部６と、区切り
コードを第２文字に含む文字連鎖の文字連鎖情報を優先
的に照合するように指示する優先照合部16とを使って実
行される。

【００５６】この装置において、検索ファイルの生成は
第１実施例と同じように行なわれる。但し、区切りコー
ドを第２文字に含む文字連鎖の文字連鎖情報について
は、優先指示部６の指示を受けた検索ファイル生成部10
が、検索ファイル記憶部11の優先的に読出しが可能な位
置に格納する。

【００５７】一方、入力されたキーワードとの一致検索
は、図９のフロー図に従って行なわれる。このときのキ
ーワードの読込みから検索までのデータの流れを図１０
に示している。入力キーワードは、図１０（１）の「あ
とあし」であるとする。

【００５８】ステップ１〜ステップ５：キーワード読取
部12は、入力キーワードを読込み、操作者から入力され
た項目ｋを指定項目として設定する。キーワード区切り
付加部13は、キーワードの文字列に応じて検索種別を判
定し、検索種別に応じてキーワードに区切りコード（^
W）を付与する。キーワード文字連鎖生成部17は、区切
りコードが付与されたキーワードの文字連鎖パターン
（ａ，ｂ）を作成する。ここまでの手順は第１実施例と
全く同じである。区切りコードが付加されたキーワード
を図１０（２）に、また、作成された文字連鎖パターン
を図１０（３）に示している。

【００５９】ステップ６：照合部18は、この中の文字種
ｂが区切りコードである文字連鎖パターン（し，^W）の
文字連鎖情報を検索ファイル記憶部11から優先して引き
出し、次いで、文字種ａが区切りコードである文字連鎖
パターン（^W，あ）の文字連鎖情報を引き出し、ステップ７：次に、その他の文字連鎖パターンの文字連
鎖情報を検索ファイルから引き出す。

【００６０】ステップ８：次いで、キーワードの文字連
鎖の組の数を調べて、ステップ９：１組であるときは、ステップ10：引き出した文字連鎖情報を全て該当する文
字連鎖情報とする。

【００６１】ステップ11：２組以上であるときは、ステップ12：連続する２組の文字連鎖における文字連鎖
情報の間で出現頻度とデータ番号とが一致するかどうか
を照合し、それらが一致するまで次々と文字連鎖情報を
取り替えて照合を繰り返す。

【００６２】ステップ13：これらの照合で一致する文字
連鎖情報が存在するときは、ステップ14：照合部18は、該当するレコード番号と件数
とをレコードデータ記憶部２から抽出し、検索結果表示
部19に表示する。

【００６３】このステップ８〜ステップ14の手順は、第
１実施例におけるステップ11〜ステップ17（図７）の手
順と同じである。但し、ステップ12における照合では、
図１０（４）に示すように、第２文字が区切りコードで
ある文字連鎖パターン（し，^W）を優先し、先ず、この
（し，^W）の文字連鎖情報と、その前の（あ，し）の文
字連鎖情報とを照合して、（し，^W）の第１文字の出現
頻度が（あ，し）の第２文字の出現頻度と一致し、且つ
データ番号が一致するかどうかを調べる。これらが一致
したときは、次に（あ，し）と（と，あ）との文字連鎖
情報の照合を行ない、順次、キーワードの後ろから照合
を進めて行く。

【００６４】このように第２実施例の情報検索装置で
は、照合に際して、第２文字に区切りコードを持つ文字
連鎖を優先させることができるため、後方一致検索を高
速で行なうことが可能となる。

【００６５】なお、照合に際して、第１文字に区切りコ
ードを持つ文字連鎖を優先させることも可能であり、こ
の場合には、前方一致検索を高速で行なうことができ
る。

【００６６】（第３実施例）第３実施例では、区切りコ
ードが付加されたデータの区切りコードの前後に続く２
文字を区切りコード付き文字連鎖として扱うことによ
り、高速での検索を実現する。

【００６７】この動作は、図１の情報検索装置におい
て、第１実施例で使用した各部の他に、１項目に含まれ
る各データの両端における２文字の文字種組合せに対し
て区切りコードを付加する群別区切り付加部４と、入力
されたキーワードの両端における２文字の文字種組合せ
に対して区切りコードを付加するキーワード群別区切り
付加部14とを使って実行される。

【００６８】この場合の検索ファイルの作成は、図１１
の処理フローに従って行なわれる。

【００６９】ステップ１〜ステップ７：レコードデータ
の処理すべき項目（第ｋ番目）が指定されると、レコー
ド読取部１は、レコードデータ記憶部２からレコードデ
ータを読取り、区切り付加部３は、このデータの先頭及
び末尾に区切りコード（^W）を追加し、また、データ間
の区切り「、」を区切りコードに変える。文字連鎖パタ
ーン生成部７は、項目ｋの処理すべきデータのデータ番
号ｈを１に設定し、文字種別が区切りコードのときにそ
の出現頻度を特定番号ｍに設定し、このデータのその他
の文字について、文字種別ごとの出現頻度を算出し、次
いで、文字連鎖（Ｆ（ａ），Ｆ（ｂ））を作成する。

【００７０】ここまでの動作は、実質的に第１実施例の
場合と同じであるが、但し、文字連鎖パターン生成部７
は、文字連鎖（Ｆ（ａ），Ｆ（ｂ））の作成に際して、
群別区切り付加部４の指示に基づいて、区切りコードを
群別の区切りコードとして扱い、この区切りコードを文
字種に含めずに文字連鎖（Ｆ（ａ），Ｆ（ｂ））を作成
する。そして、ステップ８：区切り判定部８は、この文字連鎖の第１文
字または第２文字が区切りコードと隣接しているかどう
かを調べ、ステップ９：区切りコードと接していないものと、ステップ10：第１文字が区切りコードと隣接する前方区
切りコード付き文字連鎖と、第２文字が区切りコードと
隣接する後方区切りコード付き文字連鎖とに分別する。

【００７１】ステップ11：検索ファイル生成部10は、こ
れらの分別された文字連鎖パターンの文字連鎖情報を検
索ファイル記憶部11に分別して格納する。この検索ファ
イル記憶部11の構成は図１２に示している。

【００７２】これらの動作を、データ番号が項目ｋ内で
最大に達するまで行ない、また、全てのレコードデータ
を対象にして繰り返す。

【００７３】図１３（１）に、レコードデータの文字種
別に応じた出現頻度と、区切りコードに接続する群別文
字連鎖パターンとを示しており、また、図１３（２）
に、図１３（１）から作成された検索ファイルを示して
いる。この検索ファイルでは、（あ，い）、（あ，と）
は前方区切りコード付き文字連鎖パターンとして格納さ
れるとともに、その第１文字により「あ」の群として区
画される。同様に（あ，え）（あ，し）は後方区切りコ
ード付き文字連鎖パターンとして格納され、「あ」の群
として区画される。

【００７４】ここで注目すべきは、（あ，い）、（あ，
と）、（あ，え）（あ，し）が区切りコードなし文字連
鎖情報としては格納されないということである。つま
り、それだけ照合すべき文字連鎖情報が減り、照合を高
速で行なうことが可能になる。

【００７５】次に、検索の処理の流れを図１４に示す。
また、検索時のデータの流れを図１５に示す。ここで
は、入力キーワードが「あとあし」であるとする。

【００７６】ステップ１〜３：第１実施例と同様に、キ
ーワード読取部12は、キーワードを読み込み、操作者の
入力操作を受けて、指定項目にセットし、検索種別を指
定する。

【００７７】ステップ４：キーワード群別区切り付加部
14は、キーワードに群別の区切りを付加し（図１５
（２））、キーワード文字連鎖生成部17は、キーワード
を文字パターンに分割して文字連鎖パターンを作成す
る。このとき、図１５（３）に示すように、区切りコー
ドに接続する文字連鎖（あ，と）（あ，し）と、区切り
コードに接続しない文字連鎖（と，あ）とが作成され
る。

【００７８】ステップ５：照合部18は、検索種別が前方
一致検索であるときは、ステップ６：検索ファイルから、前方区切りコード付き
の文字連鎖（あ，と）に該当する前方区切りコード付き
文字連鎖情報を優先して読込み、次いで、後方区切りコ
ード付きの文字連鎖（あ，し）に該当する後方区切りコ
ード付き文字連鎖情報を読込む。

【００７９】ステップ７：また、検索種別が後方一致検
索であるときは、ステップ８：検索ファイルから、後方区切りコード付き
の文字連鎖（あ，し）に該当する後方区切りコード付き
文字連鎖情報を優先して読込み、次いで、前方区切りコ
ード付きの文字連鎖（あ，と）に該当する前方区切りコ
ード付き文字連鎖情報を読込み、ステップ９：次いで、区切りコードなしの文字連鎖
（と，あ）に該当する区切りコードなし文字連鎖情報を
読込み、ステップ10〜ステップ16：第１実施例と同様の手順で照
合を行なう。

【００８０】この検索ファイルから、前方区切りコード
付き文字連鎖（あ，と）に該当する文字連鎖情報を読込
む場合には、検索ファイル記憶部11の前方区切りコード
付き文字連鎖情報が格納された領域から、文字種別
「あ」を含む群の中の（あ，と）に該当する情報（１，
１，３，１）を容易に取得することができ、また、後方
区切りコード付き文字連鎖（あ，し）の文字連鎖情報を
読込み場合にも、文字種別「あ」を含む群の中の（あ，
し）に該当する文字連鎖情報を容易に取得することがで
きる。

【００８１】このように第３実施例の情報検索装置で
は、区切りコードを付加したデータから区切りコードを
含めない状態で文字連鎖パターンを作成し、区切りコー
ドに接続する文字連鎖パターンの文字連鎖情報を、その
区切りコードの接続位置に応じて、前方または後方区切
りコード付き文字連鎖情報として扱っている。また、こ
れらの文字連鎖情報は、文字連鎖パターンの第１文字別
に区分するなどして、群別に検索ファイルに格納してい
る。そのため、検索ファイルにおける文字連鎖情報の総
数が減り、検索時の照合回数を削減することが可能にな
る。また、群別に整理されているため、これらの情報を
検索ファイルから読み出すことが容易になる。また、前
方一致検索、後方一致検索、完全一致検索などの検索種
別に応じて、該当する文字連鎖情報の照合を優先させる
ことができるため、各種検索を高速で行なうことができ
る。

【００８２】（第４実施例）第４実施例では、データの
階層または順序構造を意識した検索を行なう。この動作
は、図１の情報検索装置において、第１実施例で使用し
た各部の他に、各データの末端に階層構造に応じた区切
りコードを付加する階層・順序別区切り付加部５と、入
力されたキーワードに階層を示す区切りコードを付加す
るキーワード階層別区切り付加部15とを使って実行され
る。

【００８３】この場合の検索ファイルの作成は、図１６
の処理フローに従って行なわれる。

【００８４】ステップ１〜ステップ２：レコードデータ
の処理すべき項目（第ｋ番目）が指定されると、レコー
ド読取部１は、レコードデータ記憶部２からレコードデ
ータを読取り、レコード番号をセットする。

【００８５】ステップ３：階層・順序別区切り付加部５
は、各データの先頭、間、末尾に階層別・順序別区切り
コードを付加する。

【００８６】図１８（１）に、１つの項目内に記録され
た複数のデータの例を示している。この各データにはレ
ベルが付けられており、レベルに応じた区切りコードが
階層・順序別区切り付加部５により付けられる。図１８
（２）では、レベル１、２、３に対して区切りコードを
^S、^T、^Uに対応させている。

【００８７】ステップ４〜ステップ16の手順は、実質的
に第１実施例の手順（図２、ステップ４〜ステップ15）
と同じであり、文字連鎖パターン生成部７が、階層・順
序別の区切りコードが付加された文字列における文字種
別ごとの出現頻度を計算し、この文字列から文字連鎖パ
ターンを作成する。このとき区切りコードだけから成る
文字連鎖パターンは削除される（ステップ８）。検索フ
ァイル生成部10は、各種の区切りコードを含んだ文字連
鎖パターンに対応する文字連鎖情報を作成して検索ファ
イル記憶部11に格納し、検索ファイルを作成する。検索
ファイル記憶部11は、図１７に示すデータ構造を有し、
ここに、図１８（３）に示すように、文字連鎖情報が格
納される。なお、文字連鎖情報は、（第１文字出現頻
度，第２文字出現頻度，デ―タ番号，レコード番号）で
構成され、文字出現頻度は階層区切りコード用番号の場
合もある。ここでは、階層に応じて区切りコードがレベ
ル付けされ、文字連鎖情報がこのレベルで分類されてい
る。図１８（３）は図１８（１）に対する検索ファイル
の例である。

【００８８】次に、検索の処理の流れを図１９により説
明する。図２０には検索時のデータの流れを示してい
る。

【００８９】ステップ１〜ステップ３：第１実施例と同
様に、キーワード読取部12は、入力キーワードを読込
み、指定項目をセットし、検索種別を指定する。ここで
は、図２０（１）に示すように、入力キーワードとして
「？渋谷」が入力され、その階層レベルとして「２」が
指定されたとする。

【００９０】ステップ４：キーワード階層別区切り付加
部15は、指定された階層に対する区切りコードを選択
し、ステップ５：キーワード区切り付加部13は、選択された
区切りコードを検索種別に応じてキーワードに付加す
る。この時、区切りを付加されたキーワードは「？渋谷
^T」である（図２０（２））。

【００９１】ステップ６：キーワード文字連鎖生成部17
は、この区切りを付加されたキーワードを文字パターン
に分割し文字連鎖パターンを作成する（図２０
（３））。

【００９２】以下のステップ７〜ステップ18の動作は、
分割された文字連鎖パターンに対して該当する文字連鎖
情報を取得する処理であり、第１実施例または第３実施
例の処理と同様である。

【００９３】なお、図２１には、データを階層化する代
わりに、データに順序構造を取り入れた場合の例を示し
ている。図２１（１）は、そのデータの例、図２１
（２）は検索ファイルを作成した結果を示している。検
索ファイル作成及び検索処理の手順は階層化の場合と同
様である。

【００９４】このように第４実施例の情報検索装置で
は、項目に含まれる複数のデータが階層または順序構造
を持つ場合に、それらのデータに階層または順序構造に
応じた区切りコードを付与して検索ファイルを作成し、
検索時には、階層または順序を指定して検索を実行す
る。こうすることにより、検索ファイルに格納された文
字連鎖情報の中から指定された階層または順序の情報を
優先して照合することができ、１項目内の複数のデータ
に階層関係や順序関係を意識した検索ができる。

【００９５】

【発明の効果】以上の実施例の説明から明らかなよう
に、本発明の情報検索装置は、レコードデータの構成要
素である１項目に対して、複数のデータを繰り返し登録
することができ、入力されたキーワードを含む文字列や
パターンなどのデータを項目内で繰り返し高速で検索す
ることができる。

【００９６】また、複数のデータが共通の属性を持つ場
合でも、新たに項目数を増やすことなく、１項目内に複
数データを追加することができるので登録が容易であ
る。また、検索時には、１項目のみを検索指定すればよ
いので、検索の操作が簡素化され、かつ検索処理時間を
短縮することができる。

【００９７】また、１項目内のデータは全て区別されて
登録されているので、検索漏れが発生しない。

【００９８】また、１項目に追加されるデータの個数に
関係なく項目内の検索が実現できるので高速に検索がで
きる。

【００９９】また、キーワードを含む文字の照合で、区
切りコードを使用した文字連鎖情報（検索ファイル）を
検索するので、前方一致検索、後方一致検索、完全一致
検索、部分一致検索の各種検索が高速にできる。

【０１００】また、区切りコードを含む文字連鎖情報を
優先して検索することが可能なので、特に、完全一致検
索など従来時間が掛かっていた検索処理を高速で実施す
ることができる。

【０１０１】また、１項目内の複数のデータに階層関係
や順序関係を区切りコードとして持たせることが可能な
ので、１レコード内または１項目内で階層関係や順序関
係の持つデータを登録することが可能であり、階層構造
や順序関係を意識した検索ができる。

【図面の簡単な説明】

【図１】本発明の実施例における情報検索装置の構成を
示すブロック図、

【図２】第１実施例の情報検索装置における検索ファイ
ル生成の処理フロー、

【図３】第１実施例の情報検索装置におけるレコードデ
ータ記憶部のデータ構造、

【図４】第１実施例の情報検索装置における項目ｊの文
字連鎖情報を示す図、

【図５】第１実施例の情報検索装置における検索ファイ
ル記憶部のデータ構造、

【図６】第１実施例の情報検索装置における検索ファイ
ル作成までのデータフロー、

【図７】第１実施例の情報検索装置における検索処理フ
ロー、

【図８】第１実施例の情報検索装置における検索のデー
タフロー、

【図９】第２実施例の情報検索装置における検索処理フ
ロー、

【図１０】第２実施例の情報検索装置における検索のデ
ータフロー、

【図１１】第３実施例の情報検索装置における検索ファ
イル生成の処理フロー、

【図１２】第３実施例の情報検索装置における検索ファ
イル記憶部のデータ構造、

【図１３】第３実施例の情報検索装置における検索ファ
イル作成までのデータフロー、

【図１４】第３実施例の情報検索装置における検索処理
フロー、

【図１５】第３実施例の情報検索装置における検索時の
データフロー、

【図１６】第４実施例の情報検索装置における検索ファ
イル生成の処理フロー、

【図１７】第４実施例の情報検索装置における検索ファ
イル記憶部のデータ構造、

【図１８】第４実施例の情報検索装置における検索ファ
イル作成までのデータフロー、

【図１９】第４実施例の情報検索装置における検索処理
フロー、

【図２０】第４実施例の情報検索装置における検索時の
データフロー、

【図２１】第４実施例の情報検索装置における検索ファ
イル作成までのデータフロー、

【図２２】従来の情報検索装置におけるレコードデータ
の構成、

【図２３】従来の情報検索装置でのデータ検索手順を示
すフロー図である。

【符号の説明】

１レコード読取部２レコードデータ記憶部３区切り付加部４群別区切り付加部５階層・順序別区切り付加部６優先指示部７文字連鎖パターン生成部８区切り判定部９番号付加部 10 検索ファイル生成部 11 検索ファイル記憶部 12 キーワード読取部 13 キーワード区切り付加部 14 キーワード群別区切り付加部 15 キーワード階層・順序別区切り付加部 16 優先照合部 17 キーワード文字連鎖生成部 18 照合部 19 検索結果表示部

───────────────────────────────────────────────────── フロントページの続き (72)発明者菊池忠一大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】複数の項目を持つレコードデータの項目
内におけるデータから、入力されたキーワードを含むデ
ータを検索する情報検索装置において、前記項目内のデータが複数のデータから成るとき、これ
らのデータを繋げた列の先頭、終端及び前記データの間
に区切りコードを付与する区切り付与手段と、前記列の隣接する２文字の組から成る文字連鎖を作成す
る文字連鎖パターン生成手段と、前記文字連鎖を構成する各文字の前記データにおける出
現個数、レコード番号、前記データの番号から成る文字
連鎖情報を作成し、前記文字連鎖と対応させてメモリに
格納して検索ファイルを作成する検索ファイル作成手段
と、入力されたキーワードに前記区切りコードを付与するキ
ーワード区切り付与手段と、区切りコードが付与されたキーワードからキーワードの
文字連鎖を作成するキーワード文字連鎖生成手段と、前記検索ファイルから前記キーワードの文字連鎖に対応
する前記文字連鎖情報を読出し、それらを照合してキー
ワードを含む前記データを検索する照合手段とを設けた
ことを特徴とする情報検索装置。
【請求項２】前記照合手段に対して、前記区切りコー
ドを含むキーワードの文字連鎖に対応する文字連鎖情報
の照合を優先させる優先照合手段を設けたことを特徴と
する請求項１に記載の情報検索装置。
【請求項３】前記文字連鎖パターン生成手段が、前記
区切りコードを前記文字連鎖の中に含めることを特徴と
する請求項１に記載の情報検索装置。
【請求項４】前記検索ファイル作成手段が、前記文字
連鎖情報における前記区切りコードの出現個数として、
特定の番号を設定することを特徴とする請求項３に記載
の情報検索装置。
【請求項５】前記文字連鎖パターン生成手段が、前記
区切りコードを含めずに前記文字連鎖を作成し、前記検
索ファイル作成手段が、前記文字連鎖の内、前記区切り
コードと隣接する文字連鎖の文字連鎖情報をそれ以外の
文字連鎖情報と区別して作成することを特徴とする請求
項１に記載の情報検索装置。
【請求項６】前記検索ファイル作成手段が、前記区切
りコードと隣接する文字連鎖の文字連鎖情報を前記メモ
リに群別に格納することを特徴とする請求項５に記載の
情報検索装置。
【請求項７】前記区切り付与手段が、前記列に階層を
表す複数種類の区切りコードを付与し、前記キーワード
区切り付与手段が、入力されたキーワードに前記階層を
表す区切りコードを付与することを特徴とする請求項１
に記載の情報検索装置。
【請求項８】前記区切り付与手段が、前記列に順序を
表す複数種類の区切りコードを付与し、前記キーワード
区切り付与手段が、入力されたキーワードに前記順序を
表す区切りコードを付与することを特徴とする請求項１
に記載の情報検索装置。