JPH03260869A - データ検索装置及びデータ検索方法 - Google Patents

データ検索装置及びデータ検索方法

Info

Publication number
JPH03260869A
JPH03260869A JP2058045A JP5804590A JPH03260869A JP H03260869 A JPH03260869 A JP H03260869A JP 2058045 A JP2058045 A JP 2058045A JP 5804590 A JP5804590 A JP 5804590A JP H03260869 A JPH03260869 A JP H03260869A
Authority
JP
Japan
Prior art keywords
search
character
data
address
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2058045A
Other languages
English (en)
Other versions
JP2817103B2 (ja
Inventor
Yoshifusa Togawa
好房 外川
Takashi Tsubokura
孝 坪倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2058045A priority Critical patent/JP2817103B2/ja
Publication of JPH03260869A publication Critical patent/JPH03260869A/ja
Application granted granted Critical
Publication of JP2817103B2 publication Critical patent/JP2817103B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概   要〕 ユーザが入力した文字列によりデータの検索を行うデー
タベース検索方式に関し、 ユーザが自由に単語等を入力して検索を行え、かつより
高速な検索を行えることを目的とし、検索対象データ内
における文字の発生頻度と該文字の先頭出現場所アドレ
スとを記憶する発生頻度テーブルと、前記各文字の検索
対象データにおける次出現場所アドレスを記憶する次出
現場所テーブルと、検索すべき文字列が入力されたとき
、前記発生頻度テーブルを参照して、該文字列の中で最
も発生頻度の少ない文字を抽出する文字抽出部と、該文
字抽出部で抽出された文字の出現場所アドレスを、前記
発生頻度テーブルまたは次出現場所テーブルから順次求
め、該アドレスで指定される検索対象データの文字の前
後の文字を前記文字列と比較し、該文字列を含むデータ
を検索する検索処理部とを備えるように構成する。
〔産業上の利用分野〕
本発明は、ユーザが入力した文字列によりデータの検索
を行うデータベース検索方式に関する。
〔従来の技術〕
CD−ROM、光ディスクなどの大きな記憶容量を持つ
記憶媒体が実用化され、これらの記憶媒体を利用して辞
書、現代用語などの大きなデータ量を持つデータベース
を容易に構成できるようになってきた。
データベースの検索方法としては、ユーザが入力した単
語と一敗する単語を、データベースに記憶されているデ
ータ(以下、これを本文データと呼ぶ)から直接検索し
て、一致した単語を含むデータを検索する方法がある。
また、本文データ中の単語をキーワードとして抽出した
インデックスを設け、ユーザが入力した単語と一致する
キーワードをそのインデックスから検索して、一致する
キーワードが示す本文データを検索する方法がある。こ
のキーワードによる検索方法としては、ユーザから入力
された単語を先頭に持つキーワードを検索する前方一致
検索、入力された単語を末尾に持つキーワードを検索す
る後方一致検索、及び入力され単語と完全に一致するキ
ーワ・−ドを検索する完全一致検索などがある。
第9図は、キーワードにより検索を行う従来のデータベ
ース検索方式のフローチャートである。
先ずユーザから入力された検索単語を読み取る(第9図
、51)0次に、読み取った検索単語の長さを求める(
S2)。
そして、先ず前方一致検索かどうかを判断する(S3)
、前方一致検索であったときには、検索単語の長さに基
づいて、語句の先頭の単語と本文データ上の格納アドレ
スとを対応させて記憶している前方一致インデックスの
最初のインデックスと、入力された検索単語とを比較す
る(S 4 ) 。
そして、それらの単語が一致しているか否を判別する(
S5)。
一致した場合には、該当するインデックスの示す本文デ
ータをCD−ROMから読み出して表示する(S6)。
このときインデックスが一致しなければ、次のインデッ
クスを読み込み(S7)、読み込んだデータがアドレス
データか否かにより、検索インデックスが残っているか
どうかを判断す、る(3B)。
そして、インデックスが残っているときには、ステップ
S4に戻り次のインデックスについて同様な処理を繰り
返す。
一方、ステップS3の判別で前方一致検索でなかったと
きには、ステップS9に進み後方−敗検索かどうかを判
別する。後方一致検索であったときには、語句の末尾の
単語と本文データ上でのその語句の格納アドレスを記憶
している後方一致インデックスの最初のインデックスに
対し同様な比較を行う(310)、そして、それらの単
語が一敗しているか否かを判別する(Sll)。
一致した場合には、検索したインデックスの示す本文デ
ータをCD−ROMから読み出して表示する(312)
。このときインデックスが一致しなければ、次のインデ
ックスを読み込み(S13)、読み込んだデータがアド
レスデータか否かを見て、検索インデックスが残ってい
るかどうかを判断する(S14)。検索インデックスが
残っているときには、ステップSIOに戻り次のインデ
ックスについて同様な処理を行う。
他方、ステップS9の判別で後方一致検索でなかったと
きには、ステップS15に進み語句と本文データ上での
格納アドレスを記憶している完全一致インデックスに対
し同様な比較を行う。そして、それらの語句が一致して
いるか否を判別する(516)。
一致した場合には、検索したインデックスの示す本文デ
ータをCD−ROMから読み出し表示する(517)、
このときインデックスが一致しなければ、次のインデッ
クスを読み込み(31B)、読み込んだデータがアドレ
スデータか否かを見て、検索インデックスが残っている
かどうかを判断する(S19)。検索インデックスが残
っているときには、ステップS15に戻り次のインデッ
クスについて同様な処理を行う。
このように、予め本文中の単語(語句)をキーワードイ
ンデックスとして登録しておき、ユーザが入力した検索
単語とそのインデックスとを比較することにより、所望
の本文データを検索することができる。
〔発明が解決しようとする課題〕
本文データを直接検索する前者の方法は、ユーザが自由
な検索単語を選択できるという利点があるが、入力され
た検索単語と一敗する単語を検索する際に、例えば本文
データ中の単語を1文字型位で順に比較して検索を行う
必要があるので、検索に時間がかかるという欠点があっ
た。
一方、キーワードにより検索を行う後者の方法は、上記
の方法に比べて検索速度は早くなるが、検索する単語が
限定されユーザが自由に単語を入力して検索することが
できないという欠点があった。
また、キーワードで検索する方法では、抽出したキーワ
ードが適切でないと、必要な情報がなかなか得られず使
いにくくなるのでキーワードの抽出に工夫がいる。例え
ば、CD−ROMなどでは一旦書き込んだデータを書き
替えることができないので、キーワードの抽出に際して
検証用のシュミレーションソフトを作り、抽出したキー
ワードで正しく本文データが検索できるかどうかをm認
する必要がある。このとき、検証が不充分であると作成
したCD−ROMが使えないものとなってしまう。
本発明は、ユーザが自由に単語等を入力して検索を行え
、かつより高速な検索を行えることを目的とする。
〔課題を解決するための手段〕
第1図は、本発明の原理説明図である。
同図において、発生頻度テーブル2には、検索対象デー
タ1における文字の発生頻度と、それらの文字が出現す
る先頭出現場所アドレスとが記憶されている。また、次
出現テーブル3には、上記文字の次の出現場所アドレス
が記憶されている。
文字抽出部4は、発生頻度テーブル2を参照して、人力
された文字列の中で最も発生頻度の少ない文字を抽出す
る。
検索処理部5は、文字抽出部4で抽出された文字の出現
場所アドレスを、発生頻度テーブル2または次出現場所
テーブル3から順次求め、さらに、上記出現場所アドレ
スで指定されるデータの前後のデータと入力された文字
列とを比較し、人力された文字列を含むデータを検索す
る。
る。そして、そのアドレスで指定される文字の前後の文
字が検索対象データ1から読み出され、その読み出され
たデータと文字列との比較が行われる。
このように、人力された文字列の中で発生頻度の少ない
文字について、検索対象データを調べればよいので、検
索対象データを順次比較してい〈従来の直接検索方式に
比べ、検索速度を向上させることができる。
また、検索する文字列をユーザが自由に選択することが
できるのでより使い易いものとなる。さらに、キーワー
ドによる検索ではないので、キーワードの抽出作業が不
用となり、当然のことながらキーワードの検証も不要と
なる。
〔作   用〕
ユーザから検索すべき文字列が入力されると、その文字
列の中で最も発生頻度の少ない文字が抽出され、その文
字の格納アドレスが発生頻度テーブル2または次出現場
所テーブル3から求められ〔実  施  例〕 以下、本発明の実施例を図面を参照しながら説明する。
第2図は、本発明のデータベース検索方式に従うデータ
ベース検索装置の構成国である。
同図において、入力部11は検索すべき単語等を入力す
るキーボードである。表示部12は、CRTなどのデイ
スプレィであり、入力された単語あるいは検索された本
文データ等を表示する。
処理部13は、データベースの検索を実行する回路であ
り、後述するCD−ROMI 6からのデータの読み出
し等を行うCPU14と、CPUI4が読み出したデー
タを一時記憶するメモリ15とで構成されている。
CD−ROMI 6には、本文データ(データベースに
登録されたデータ)部17と、その本文データ部17内
における文字の発生頻度と、それらの文字の本文データ
部17における先頭出現場所アドレスとを記憶したコー
ドソート部18と、同一文字の次出現場所アドレスを記
憶した次出現場所テーブル19とが設けられている。
第3図は、コードソート部18の構成図であり、例えば
50音順に文字が記憶されており、各文字の発生頻度と
先頭出現場所アドレスとが、それらの文字に対応して記
憶されている。
次に以上のような構成の実施例の動作を、第4図のフロ
ーチャートを参照して説明する。
先ず、CD−ROM16からコードソート部18を読み
出しメモリに格納する(第4図、521)。
次番こ、ユーザから入力される検索単語を読み取る(S
22)。そして、コードソート部18を参照して人力さ
れた検索単語の中で発生頻度の最も少ない文字を探し、
その頻度を発生頻度カウンタ(図示せず)にセットする
と共に、その文字の先頭出現場所アドレスを求める(3
23)、さらに、発生頻度カウンタが「0」かどうかを
判別する(S24)。
発生頻度カウンタの値が「0」でなければ、コードソー
ト部18の先頭出現場所アドレスにより指示される本文
データを読み出し、対象なる文字の前後のデータと検索
単語とを比較する(S25)。
そして、読み出したデータと検索単語とが一致するか否
かを判別する(S26)。
第5図は、コードソート部18から文字の発生頻度を求
める動作、及びその文字の先頭出現場所アドレスから該
当する本文データを読み出す動作の説明図である。
例えば検索単語として「あいうえお」が人力されたとす
ると、コードソート部18の対応する文字の発生頻度が
調べられて、その文字列の中で本文データ中の発生頻度
が最も少ない文字が抽出される。この場合、文字「う」
の発生頻度が最も少ないので、その発生頻度「2」が発
生頻度カウンタにセットされる。さらに、文字「う」に
対応して記憶されている先頭出現場所アドレスとその前
後のアドレスのデータが読み出される。この場合、文字
「う」の前後の文字は、検索単語と一致しないので、文
字「う」の次出現場所アドレスを求める処理が実行され
る。
第4図に戻り、本文データの先頭出現場所アドレスから
読み出したデータが検索単語と一致しないときには、発
生頻度の最も少ない文字の次出現場所アドレスを次出現
場所テーブル19から読み出す(S27)、さらに、こ
こまでの処理で1回の検索動作が終了したので発生頻度
カウンタの値をデクリメントする(32B)。その後、
ステップ324に戻り、次出現場所テーブル19から読
み出した次出現場所アドレスとその前後のアドレスのデ
ータを読み出し検索単語と比較する。
以下、発生頻度カウンタの値が「0」となるまで上述し
たステップ324〜32Bの処理を繰り返し、検索単語
に一致するデータを探す。そして、検索単語と一致する
データが存在したなら、そのとき指示されたアドレス以
降の本文データを読み出し表示部に表示する(S29)
第6図〜第8図は、次出現場所テーブル19を参照して
の検索動作の説明図である。
前述したように「あいうえお」が検索単語として入力さ
れ、文字「うJの先頭出現場所アドレスの前後のデータ
が検索単語と一致しなかったときには、同一文字の次出
現場所アドレスが次出現場所テーブル19から読み出さ
れる〔第6図)。次出現場所テーブル19には、例えば
同一文字の出現場所アドレスが出現順に記憶されており
、これらのアドレスを順に読み出すことで、本文データ
中の伺じ文字を順名こ検索することができる。
次に、第7図に示すように、次出現場所アドレスで指定
される文字「う」の前後のデータが読み出され、そのデ
ータと検索単語とが一致するかどうかが調べられる。両
者が一致した場合には、第8図に示すように一致したデ
ータ以降の本文データが読み出され表示部12に表示さ
れる。
以上のように上記実施例では、人力された検索単語の中
で最も発生頻度の少ない文字を抽出し、その文字の本文
データにおける出現場所アドレスを順次求めて検索を行
うようにしたので、従来のようにユーザが人力した検索
単語で本文データを直接検索する方式に比べて検索をよ
り高速化することができる。
また、検索単語が予め抽出したキーワードに限定されな
いので、ユーザが自由に検索単語を決めることができ、
より使い易い検索方式を実現できる。さらに、キーワー
ドによる検索ではないので、抽出したキーワードが不適
切であった為に、知りたいデータがなかなか検索できな
いという問題を生じることがない。
これにより、CD−ROMなどを制作する場合でも、キ
ーワードの検証等が不要となり制作作業が容易になり、
検証が不完全であった為にCD−ROMを廃棄すること
もなくなる。
尚、検索対象データは、文字だけに限らず絵、音などの
データと組み合わせてもよく、例えば音声の記憶されて
いるメモリのポインタを文字データの間に組み込んでお
けば、文字と共に音声を検索することができる。
また、本発明は、実施例に述べたCD−ROMに限らず
光ディスクなどの他の記録媒体を使用した装置にも適用
でき、ワードプロセッサ、パーソナルコンピュータ及び
ハイパーテキストなどのマルチメディアに利用できる。
〔発明の効果〕
本発明によれば、検索すべき文字列の中で最も発生頻度
の少ない文字により対象となるデータ群を検索するよう
にしたので、検索を高速化することができる。さらに、
検索する単語をユーザが自由に選択することができるの
でより容易に検索を行うことができる。
【図面の簡単な説明】
第1図は、本発明の原理説明図、 第2図は、実施例のデータベース検索装置の構成図、 第3図は、第2図のコードソート部の構成図、第4図は
、実施例の動作を説明するフローチャート、 第5図〜第8図は、検索動作の説明図、第9図は、従来
の検索方式を説明するフローチャートである。 ・検索対象データ、 ・発生頻度テーブル、 ・次出現場所テーブル、 ・文字抽出部、 ・検索処理部。

Claims (1)

  1. 【特許請求の範囲】 検索対象データ(1)内における文字の発生頻度と該文
    字の先頭出現場所アドレスとを記憶する発生頻度テーブ
    ル(2)と、 前記各文字の検索対象データ(1)における次出現場所
    アドレスを記憶する次出現場所テーブル(3)と、 検索すべき文字列が入力されたとき、前記発生頻度テー
    ブル(2)を参照して、該文字列の中で最も発生頻度の
    少ない文字を抽出する文字抽出部(4)と、 該文字抽出部(4)で抽出された文字の出現場所アドレ
    スを、前記発生頻度テーブル(2)または次出現場所テ
    ーブル(3)から順次求め、該アドレスで指定される検
    索対象データ(1)の文字の前後の文字を前記文字列と
    比較し、該文字列を含むデータを検索する検索処理部(
    5)とを備えたことを特徴とするデータベース検索方式
JP2058045A 1990-03-12 1990-03-12 データ検索装置及びデータ検索方法 Expired - Fee Related JP2817103B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2058045A JP2817103B2 (ja) 1990-03-12 1990-03-12 データ検索装置及びデータ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2058045A JP2817103B2 (ja) 1990-03-12 1990-03-12 データ検索装置及びデータ検索方法

Publications (2)

Publication Number Publication Date
JPH03260869A true JPH03260869A (ja) 1991-11-20
JP2817103B2 JP2817103B2 (ja) 1998-10-27

Family

ID=13072962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2058045A Expired - Fee Related JP2817103B2 (ja) 1990-03-12 1990-03-12 データ検索装置及びデータ検索方法

Country Status (1)

Country Link
JP (1) JP2817103B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357431A (en) * 1992-01-27 1994-10-18 Fujitsu Limited Character string retrieval system using index and unit for making the index
JPH08227426A (ja) * 1995-02-21 1996-09-03 Fujitsu Ltd データ検索装置
JPH08314975A (ja) * 1995-05-22 1996-11-29 Matsushita Electric Ind Co Ltd 情報検索装置
WO1998034183A1 (fr) * 1997-02-03 1998-08-06 Hitachi, Ltd. Procede de recherche de chaines de caracteres et base de donnees de chaines de caracteres
JP2007293743A (ja) * 2006-04-27 2007-11-08 Yokogawa Electric Corp 多重ソート装置およびこれを用いたトラフィック統計システム
US8608382B2 (en) 2010-01-22 2013-12-17 Sintokogio Ltd. Static-pressure bearing apparatus and stage comprising static-pressure bearing apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123429A1 (ja) 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357431A (en) * 1992-01-27 1994-10-18 Fujitsu Limited Character string retrieval system using index and unit for making the index
JPH08227426A (ja) * 1995-02-21 1996-09-03 Fujitsu Ltd データ検索装置
US5857200A (en) * 1995-02-21 1999-01-05 Fujitsu Limited Data retrieving apparatus used in a multimedia system
JPH08314975A (ja) * 1995-05-22 1996-11-29 Matsushita Electric Ind Co Ltd 情報検索装置
WO1998034183A1 (fr) * 1997-02-03 1998-08-06 Hitachi, Ltd. Procede de recherche de chaines de caracteres et base de donnees de chaines de caracteres
JP2007293743A (ja) * 2006-04-27 2007-11-08 Yokogawa Electric Corp 多重ソート装置およびこれを用いたトラフィック統計システム
US8608382B2 (en) 2010-01-22 2013-12-17 Sintokogio Ltd. Static-pressure bearing apparatus and stage comprising static-pressure bearing apparatus

Also Published As

Publication number Publication date
JP2817103B2 (ja) 1998-10-27

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
CA2007285C (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2832988B2 (ja) データ検索システム
US8438024B2 (en) Indexing method for quick search of voice recognition results
JP3545824B2 (ja) データ検索装置
US20120109994A1 (en) Robust auto-correction for data retrieval
JPH03260869A (ja) データ検索装置及びデータ検索方法
CN100483409C (zh) 一种字符数据的检索方法
JP2835335B2 (ja) データ検索装置及びデータ検索方法
JP3945075B2 (ja) 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体
JP3275704B2 (ja) 入力文字列推測認識装置
JPH0991297A (ja) 文字列検索方法及び装置
JPH06325091A (ja) 類似度評価型データベース検索装置
JP3505610B2 (ja) 文書検索システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2001022782A (ja) ガイドidを持たないメッセージの詳細説明の検索・表示方法
JP3187671B2 (ja) 電子辞書表示装置
JP2000339342A (ja) 文書検索方法および文書検索装置
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0635971A (ja) 文書検索装置
TW541472B (en) Word/vocabulary searching method for electronic dictionary
JP2004318328A (ja) 情報検索方法
JP2752864B2 (ja) テキストベース情報検索装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0721212A (ja) 文書処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080821

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees