JPH05108726A - マルチ属性類似データ検索装置 - Google Patents

マルチ属性類似データ検索装置

Info

Publication number
JPH05108726A
JPH05108726A JP3294873A JP29487391A JPH05108726A JP H05108726 A JPH05108726 A JP H05108726A JP 3294873 A JP3294873 A JP 3294873A JP 29487391 A JP29487391 A JP 29487391A JP H05108726 A JPH05108726 A JP H05108726A
Authority
JP
Japan
Prior art keywords
search
attribute
similarity
index
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3294873A
Other languages
English (en)
Inventor
Kazuhiro Tsubaki
和弘 椿
Taro Morishita
太朗 森下
Takahiro Yamaji
孝浩 山路
Shigeki Kuga
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP3294873A priority Critical patent/JPH05108726A/ja
Publication of JPH05108726A publication Critical patent/JPH05108726A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 曖昧な検索キーワード入力に対して複数のシ
ソーラスに渡ってキーワードとインデックスの類似度を
計算することにより柔軟な検索処理を行う。 【構成】 検索キーワードに使用される属性に関する複
数のシソーラスを利用して、入力される検索キーワード
とインデックスとの類似度を数値化し(13、14、1
5、16、17の処理)、検索結果を類似度の高い検索
対象の順に出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は複数のシソーラスを利用
して複数の属性と属性値から構成されるインデックスを
持つ検索対象の検索処理を行なう、マルチ属性類似デー
タ検索装置に関するものである。本発明の利用分野とし
ては、データベースシステム、エキスパートシステム、
情報想起システムなどが挙げられる。
【0002】
【従来技術】データベース等の検索処理では入力された
検索キーワードとインデックスとの完全マッチ、及び検
索キーワードの文字列のサブセットとの完全マッチ等に
より検索を行なっている。一般の検索においては、著者
名や全キーワードのような検索キーワード属性ごとに複
数個の属性値を指定して一次検索を行ない、論理積等の
集合演算による2次検索を行なうことによって検索を行
なう。この場合はユーザが適切な検索キーワードを入力
できる場合には効率良く精度の高い検索を行なうことが
できるが、検索キーワードの入力はユーザの判断に任せ
られている。このため曖昧な検索キーワードが入力され
た場合にはユーザの意図するデータの検索を行なうこと
が難しい。
【0003】また、マッチング方法は検索キーワード、
あるいは検索キーワードのサブセットの文字列による完
全マッチであり、入力された検索キーワードと概念的に
近いインデックスと照合することは難しい。このためデ
ータベース検索においては検索を行専門に行なう職業で
あるデータベース検索技術者(通称、サーチャー)も存在
する。
【0004】
【発明が解決しようとする課題】ユーザが検索対象を検
索する際に、明確なキーワードを考えられない場合には
曖昧なキーワードが入力される。この場合はユーザの入
力したキーワードの概念とデータベースシステム内の検
索キーワードの概念の属するシソーラスが異なることが
検索を困難にする問題点である。例えば、トマトは食べ
ものという視点のシソーラスでは野菜に属するが、形状
の視点のシソーラスでは円形に属する。どのシソーラス
を用いるかはユーザがどのような視点(目的)で検索対象
を検索するかに依存する。このように検索対象が明確で
ない場合には、検索対象のインデックスには複数のシソ
ーラスが必要になる。現在の技術では一つの属性に複数
のシソーラスを持たせることは難しいという問題点があ
る。
【0005】また、複数のシソーラスを用いることによ
り検索対象が広がり、検索可能な範囲が大きくなるとい
うメリットがあるが、ユーザの必要としない検索対象ま
でも検索するという問題がある。このため入力された検
索キーワードとインデックスのシソーラス内における類
似度を、複数のシソーラスに渡って計算することが必要
であるが、現在はまだ有効な方法が確立されていないと
いう問題点がある。
【0006】本発明は、複数のシソーラスを予め用意し
て、曖昧な検索キーワード入力に対する検索処理問題点
を解決するために、複数のシソーラスに渡ってキーワー
ドとインデックスの類似度を計算することを行なおうと
するものである。
【0007】
【課題を解決するための手段】本発明は、検索キーワー
ド情報を複数の属性と属性値の文字情報で入力する手段
と、文字情報を出力する手段と、属性と属性値のテーブ
ル形式で表現される検索対象を複数の属性と属性値によ
って検索可能なインデックスへ変換する手段と、変換さ
れたデータや処理データの途中結果や制御の途中結果を
一時的に記憶する手段と、検索キーワードと検索対象の
属性を複数のシソーラスを用いて類似度を計算する手段
と、検索結果を類似度の高い順にソートする手段と、検
索結果を表示する手段と、これらを制御する手段から構
成される。
【0008】
【作用】本発明によれば、はじめに、制御手段の制御に
より、インデックスと検索キーワードの入力が入力手段
により行なわれ、記憶手段に記憶される。
【0009】次に、入力されたインデックスは変換手段
によって属性と属性値の解析が行なわれ類似度計算を行
なうためのデータ構造へ変換され、その結果が記憶手段
に記憶される。
【0010】次に、類似度計算手段により記憶された検
索キーワードとインデックスデータとの照合を行ない、
インデックスと検索キーワード間のシソーラス上での類
似度を複数のシソーラス間に渡って計算する。
【0011】次に、類似度計算手段の計算結果をソート
手段により点数の高い順に並べ替える。
【0012】更に、計算結果を出力手段により表示を行
なう。
【0013】
【実施例】以下図に基づいて本発明を詳細に説明する。
図1は本発明にかかわるマルチ属性類似データ検索装置
のブロック構成図である。図において1は検索対象の属
性と属性値情報や検索キーワードなどの文字情報を入力
するためのキーボードなどの入力手段である。2は入力
した文字情報や検索結果情報を出力するためのプリンタ
などの出力手段である。3は入力された情報を半導体素
子、ディスク、フロッピーディスクなどに記憶するため
の記憶手段である。4は入力されたり、途中の処理結果
を文字情報として表示するためのCRTなどの表示手段で
ある。
【0014】更に、5はテーブル形式で入力された検索
対象を類似度計算可能なデータ構造へ変換する変換手段
である。6は入力された検索キーワード(複数の属性と複
数の属性値により構成される)に対して検索対象の属性
と属性値情報と検索キーワード間のシソーラス上での類
似度を複数のシソーラス間に渡って計算する類似度計算
手段である。7はその計算結果を点数の高い順に並べ替
えるするソート手段である。8はこれらの各手段を制御
するCPUなどの制御手段である。
【0015】図2は本発明の機能ブロックの概略フロー
図である。9はシソーラスの入力、及び検索キーワード
やインデックスを入力するデータ前処理モジュールであ
る。10はテーブル形式で表現された検索対象を装置が解
釈可能な形式に変えて記憶するインデックス変換モジュ
ールである。11は複数のシソーラスを用いてインデック
スと検索キーワード間の類似度を数値化する類似度計算
モジュールである。12は計算結果を点数の高い順に並べ
替えるソートモジュールである。以後これらの各モジュ
ールごとに具体的に説明を行なう。
【0016】データ前処理モジュールは予め、シソーラ
スを入力して、記憶手段に蓄える。また、検索処理にお
いて、検索対象の属性と属性値情報や検索キーワードの
入力を行ない、記憶手段へ蓄えられる。検索対象の属性
と属性値情報の入力はシソーラスの入力時に行なっても
本装置の機能に支障をきたすことはない。
【0017】インデックス変換モジュールは、まず、記
憶手段に蓄えられた検索対象の属性と属性値情報(図3)
を装置が解釈可能なデータ構造へ変換する。図3のよう
に複数の属性を定義可能であり、また一つの属性に対し
て複数の属性値を定義可能である。また、属性値を定義
しなくても(表中の空欄)構わない。例では中華料理の検
索対象を料理タイプ(dishType)、材料(ingred)、味(tas
te)、料理のきめ(texture)の属性で表現している。この
テーブル形式の属性と属性値情報は図4で表現されるデ
ータ構造へ変換される。各属性ごとにその属性のとり得
る値を配置する。さらにこれらの属性値に対して関連す
る検索対象名を配置する。このように属性と属性値、属
性値と検索対象名の2階層の構造を持つインデックスへ
変換される。そして、変換後は記憶手段へ記憶される。
図3と図4では、検索対象は事例という名称である。 類似度計算モジュールは記憶手段に蓄えられた複数のシ
ソーラスと2階層構造を持つインデックス、及び検索キ
ーワードから、インデックスと検索キーワードの照合を
行ない、類似度計算を行なう。図5はシソーラスをトリ
ー構造で表現したものである。シソーラスは属性の種々
の視点から作成したサブシソーラスから構成される。例
では、材料(ingred)というインデックス属性に対して、
種類(kind)と形(form)の2つのサブシソーラスから構成
されていることを示している。シソーラスの末端は材料
の具体的な名称であり、中間ノードは視点を構成する中
間概念を表現したもである。このように属性ごとに、複
数のシソーラスが定義可能である。図5のシソーラスは
装置内では図6の形式で記憶されている。類似度の計算
は検索対象と検索キーワードとが同じ属性名を持つ割合
が高いほど類似していることを考慮しており、下記の数
1の式で表現される。
【0018】
【数1】 数1にて、各記号の意味は次ぎの通りである。
【0019】S:検索対象と検索キーワードの類似度 P:検索対象と検索キーワード両方が持つ属性の属性値間
の類似度 u:検索対象の属性数 l:シソーラス上での距離 v:検索キーワードの属性数 m:検索対象と検索キーワードの両方が持つ属性数(属性
名が一致するもの) N:シソーラスの数 X:ある特定サブシソーラス上での距離 ここで、シソーラスは属性ごとに複数個存在するが、必
ずしも設定する必要はない。上述の式の説明を行なう。
【0020】ある特定サブシソーラス上での距離Xはサ
ブシソーラス上で、検索キーワードとインデックス属性
値とが完全マッチ(サブシソーラスの末端から一つ上の
ノードで照合が成功する場合)ならば、1をとる。部分マ
ッチ(サブシソーラスの末端から二以上のノードで照合
が成功する場合)の場合はサブシソーラスの末端から照
合の成功する中間ノードまでの距離(2つの隣接する上位
下位ノード間の距離を1とする)により上述の式で計算す
る。
【0021】次に、属性内のシソーラスは先に述べたよ
うに複数の視点により作成されるサブシソーラスから構
成され、ある属性の類似度Pは各サブシソーラス上での
類似度(P0,P1,...,Pn)の平均値である。例えば、図5の
シラースにおいてbeefとchichenの類似度Pは下記の数2
になる。
【0022】
【数2】 このため検索対象と検索キーワードの類似度Sはこれら
に含まれるすべての属性間の類似度の平均をとったもの
になる。
【0023】図7は類似度計算の処理フローである。13
は入力された検索キーワードに含まれる属性を一つ選択
する処理である。14は検索キーワードの属性と、属性と
属性値の検索対象との照合を行なう処理である。15は14
の照合に成功した検索対象について、検索キーワードの
属性値と、属性値と検索対象のインデックスとの照合を
行なう処理である。16は入力されたすべての検索キーワ
ードの属性が調べられたかをチェックする処理である。
17は15の照合が成功した検索対象に対して、検索対象と
検索キーワードのすべての属性に対して上述の類似度の
計算を行なう処理である。
【0024】計算結果は記憶手段3に蓄えられる。例え
ば、これまで説明したシソーラスとインデックスに対し
てdishTypeがstir_fry,ingredがbroccoli,textureがcri
spという検索キーワードが与えられると、本装置による
出力は、検索対象broccoli_with_tofuの類似度が0.6、
検索対象chicken_and_peanutsの類似度が0.55、検索対
象beef_dumplingの類似度が0.25、検索対象duck__dumpl
ingの類似度が0.18、検索対象beef_and_green_beansの
類似度が0.1になる。
【0025】ソートモジュールは類似度の計算結果を点
数の高い順に並べ替える。並べ替えた結果は記憶手段3
に蓄えられる。
【0026】出力モジュールでは指定されたフォーマッ
トに従い出力する。
【0027】
【発明の効果】本発明の効果としては、属性毎の複数の
シソーラスを利用して、また入力された検索キーワード
とシソーラスの照合を類似度計算により数値化すること
ができるため、曖昧な検索キーワードに対しても容易に
検索を行なうことができる点にある。 また、属性毎の
複数のシソーラスを定義することが可能であり、ユーザ
の視点に応じたシソーラス作成に対処できる。即ち、ユ
ーザの視点、検索要求、検索内容に関する不満等の解析
を行ない、複数のシソーラスを作成することにより、ユ
ーザの意図を反映したシソーラスの作成し、検索処理に
使用できる点にある。
【0028】更に、検索対象の定義はユーザに分かりや
すい属性と属性値テーブル形式で行なうことができるの
で、検索対象のインデックス作成が容易に行なえ、この
処理を自動化することも可能である。
【図面の簡単な説明】
【図1】本発明の検索装置のブロック構成図である。
【図2】本発明の検索装置の機能ブロックの概略フロー
図である。
【図3】検索対象の表現例である。
【図4】インデックスの装置内でのデータ構造である。
【図5】シソーラスの例である。
【図6】シソーラスの装置内でのデータ構造である。
【図7】類似度計算の詳細処理フローである。
【符号の説明】
1 入力手段 2 出力手段 3 記憶手段 4 表示手段 5 変換手段 6 類似度計算手段 7 ソート手段 8 制御手段 13 入力された検索キーワードに含まれる属性を一つ
選択する処理 14 検索キーワードの属性と、属性と属性値の検索対
象との照合を行なう処理 15 検索キーワードの属性値と、属性値と検索対象の
インデックスとの照合を行なう処理 16 入力されたすべての検索キーワードの属性が調べ
られたかをチェックする処理 17 検索対象と検索キーワードのすべての属性に対し
て、類似度の計算を行なう処理
───────────────────────────────────────────────────── フロントページの続き (72)発明者 空閑 茂起 大阪市阿倍野区長池町22番22号 シヤープ 株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 検索キーワード情報を複数の属性と属性
    値の文字情報で入力する手段と、文字情報を出力する手
    段と、属性と属性値のテーブル形式で表現される検索対
    象を複数の属性と属性値によって検索可能なインデック
    スへ変換する手段と、変換されたデータや処理データの
    途中結果や制御の途中結果を一時的に記憶する手段と、
    検索キーワードと検索対象の属性を複数のシソーラスを
    用いて類似度を計算する手段と、検索結果を類似度の高
    い順にソートする手段と、検索結果を表示する手段と、
    これらを制御する手段を持つ装置において、対象領域に
    固有の複数のシソーラスを用いることにより、検索キー
    ワードから類似した検索対象を検索することを特徴とす
    るマルチ属性類似データ検索装置。
JP3294873A 1991-10-16 1991-10-16 マルチ属性類似データ検索装置 Pending JPH05108726A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3294873A JPH05108726A (ja) 1991-10-16 1991-10-16 マルチ属性類似データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3294873A JPH05108726A (ja) 1991-10-16 1991-10-16 マルチ属性類似データ検索装置

Publications (1)

Publication Number Publication Date
JPH05108726A true JPH05108726A (ja) 1993-04-30

Family

ID=17813357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3294873A Pending JPH05108726A (ja) 1991-10-16 1991-10-16 マルチ属性類似データ検索装置

Country Status (1)

Country Link
JP (1) JPH05108726A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234987A (ja) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp ファジィシソーラス生成装置
JPH11195039A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 検索方法及び検索装置並びにデータベース方法及びデータベース装置
WO2018225576A1 (ja) * 2017-06-06 2018-12-13 オムロン株式会社 スコア算出ユニット、検索装置、スコア算出方法、およびスコア算出プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (ja) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd 情報登録検索装置
JPS62196726A (ja) * 1986-02-24 1987-08-31 Nippon Telegr & Teleph Corp <Ntt> 意味照合装置
JPH0232470A (ja) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> シソーラス編集装置
JPH02285419A (ja) * 1989-04-27 1990-11-22 Ricoh Co Ltd 意味分類方法
JPH0330066A (ja) * 1989-06-28 1991-02-08 Hitachi Ltd 情報検索方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (ja) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd 情報登録検索装置
JPS62196726A (ja) * 1986-02-24 1987-08-31 Nippon Telegr & Teleph Corp <Ntt> 意味照合装置
JPH0232470A (ja) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> シソーラス編集装置
JPH02285419A (ja) * 1989-04-27 1990-11-22 Ricoh Co Ltd 意味分類方法
JPH0330066A (ja) * 1989-06-28 1991-02-08 Hitachi Ltd 情報検索方式

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234987A (ja) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp ファジィシソーラス生成装置
JPH11195039A (ja) * 1998-01-05 1999-07-21 Toshiba Corp 検索方法及び検索装置並びにデータベース方法及びデータベース装置
WO2018225576A1 (ja) * 2017-06-06 2018-12-13 オムロン株式会社 スコア算出ユニット、検索装置、スコア算出方法、およびスコア算出プログラム
JP6451904B1 (ja) * 2017-06-06 2019-01-16 オムロン株式会社 スコア算出ユニット、検索装置、スコア算出方法、およびスコア算出プログラム
CN110582759A (zh) * 2017-06-06 2019-12-17 欧姆龙株式会社 得分计算单元、检索装置、得分计算方法和得分计算程序
US11144595B2 (en) 2017-06-06 2021-10-12 Omron Corporation Score calculation unit, search device, score calculation method, and score calculation program
CN110582759B (zh) * 2017-06-06 2024-01-12 欧姆龙株式会社 得分计算单元、检索装置、得分计算方法和得分计算程序

Similar Documents

Publication Publication Date Title
Eakins et al. Similarity retrieval of trademark images
US7047255B2 (en) Document information display system and method, and document search method
Willett Recent trends in hierarchic document clustering: a critical review
US8341159B2 (en) Creating taxonomies and training data for document categorization
Sheikholeslami et al. SemQuery: semantic clustering and querying on heterogeneous features for visual data
JP3781696B2 (ja) イメージ検索方法及び検索装置
Nepal et al. Query processing issues in image (multimedia) databases
Shin et al. Classification of document pages using structure-based features
US6363379B1 (en) Method of clustering electronic documents in response to a search query
US7426509B2 (en) Method and apparatus for document filtering using ensemble filters
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US6243713B1 (en) Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6665661B1 (en) System and method for use in text analysis of documents and records
US6741985B2 (en) Document retrieval system and search method using word set and character look-up tables
Paek et al. Integration of visual and text-based approaches for the content labeling and classification of photographs
US20030145014A1 (en) Method and apparatus for ordering electronic data
JPH11282876A (ja) 文書検索装置
Shin et al. Classification of document page images based on visual similarity of layout structures
Marinai et al. A general system for the retrieval of document images from digital libraries
JP4426041B2 (ja) カテゴリ因子による情報検索方法
WO1998052119A1 (en) Method and system for image retrieval
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH05108726A (ja) マルチ属性類似データ検索装置
EP0601759A1 (en) Method for searching a collection of documents
Mojsilovic et al. Matching and retrieval based on the vocabulary and grammar of color patterns