JPH11126212A - 特徴量選択装置 - Google Patents

特徴量選択装置

Info

Publication number
JPH11126212A
JPH11126212A JP9292221A JP29222197A JPH11126212A JP H11126212 A JPH11126212 A JP H11126212A JP 9292221 A JP9292221 A JP 9292221A JP 29222197 A JP29222197 A JP 29222197A JP H11126212 A JPH11126212 A JP H11126212A
Authority
JP
Japan
Prior art keywords
feature
feature amount
information
unit
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9292221A
Other languages
English (en)
Other versions
JP3597026B2 (ja
Inventor
Toshihiro Kakimoto
俊博 柿元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP29222197A priority Critical patent/JP3597026B2/ja
Publication of JPH11126212A publication Critical patent/JPH11126212A/ja
Application granted granted Critical
Publication of JP3597026B2 publication Critical patent/JP3597026B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ブラウジング情報検索を行うための情報探索
空間に探索対象情報を適切に分布させる場合に、システ
ムによる当該処理の効率を改善することができる特徴量
選択装置を提供すること。 【解決手段】 情報探索空間への探索対象情報の配置を
行う際の、情報の分割に利用する特徴量を選択するにあ
たり、候補特徴量選択部1024において、当該特徴量
による情報の分割のされ方の類似性、特徴量の意味的な
類似性等を検査して、類似性を有する特徴量を候補特徴
量格納部108から排除しておき、特徴量選択部102
5が最終的に適切な数の特徴量を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ブラウジング検索
を行うための情報探索空間に探索対象情報を配置する際
に、前記探索対象情報を表す特徴量を用いて情報探索空
間における前記探索対象情報の分布を算出する情報探索
装置において、前記算出に用いる特徴量を選択する特徴
量選択装置に関する。
【0002】
【従来の技術】情報検索システムによって必要な情報を
得るための検索方法として、従来からハンティング検索
とブラウジング検索の二種類の方法があった。ハンティ
ング検索とは、データの集合から、例えばキーワードな
ど、ユーザによって指定された条件に基づいてデータを
選択する方法をいう。ハンティング検索によって検索さ
れた情報は、さらにブラウジング検索によって詳細に検
査される。ブラウジング検索とは、例えば2次元や3次
元の情報空間に情報を分散させて配置し、情報空間の中
を移動しつつ、閲覧したいデータを選択する方法をい
う。近年、静止画、動画や音声等のマルチメディア情報
を含むデータの検索を行う要求が高まっているが、この
ようなデータの検索においては、ハンティング検索のみ
による検索は困難であり、ハンティング検索の後のブラ
ウジング検索が重要性を増している。
【0003】一方、ブラウジング検索に用いるための情
報探索空間にランダムにデータを配置したのでは、ユー
ザが情報を閲覧しようとする際の情報探索空間内での移
動が煩雑なものとなるため、情報をユーザにわかりやす
いように分類してデータの配置を行うことが重要であ
る。ところが、最近の情報は種々雑多なものが大量に生
産され、これを事前の分類体系で分類することは困難に
なってきている。これに対応するために、種々のクラス
タリング技術が考案されている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
クラスタリング技術では、例えば、探索対象情報が書籍
データである場合には、多数のキーワードをそのまま利
用するものが多く、システムによる処理時間が増大する
ことにより、実時間でクラスタリングすることが困難で
あるという問題点を有していた。
【0005】本発明は、上記問題点に鑑み、ブラウジン
グ情報検索を行うための情報探索空間に探索対象情報を
適切に分布させる場合において、システムによる当該処
理の効率を改善することができる特徴量選択装置を提供
することを目的とする。
【0006】
【課題を解決するための手段】前記目的を達成するた
め、本発明の特徴量選択装置は、情報探索空間に探索対
象情報を配置する際に、前記探索対象情報を表す特徴量
を用いて情報探索空間における前記探索対象情報の配置
を決定する情報探索装置において、前記配置の決定に用
いる特徴量を選択する特徴量選択装置であって、それぞ
れの探索対象情報と、当該探索対象情報を表す複数の特
徴量との組を、複数格納する特徴量格納手段と、前記特
徴量格納手段に格納されている特徴量から、所定の規則
に基づいて、探索対象情報の配置に適切な順に、所定の
数だけ特徴量を選択する選択手段とを備えることを特徴
とする。
【0007】ここで、前記選択手段は、情報探索空間に
配置すべき探索対象情報を、ある一つの特徴量により表
されるか否かにより分割するとした場合に、二つの特徴
量による前記分割の結果が、所定の割合以上に類似して
いるか否かを判定する分割類似性判定部と、前記分割類
似性判定部により、類似していると判定された場合に、
前記二つの特徴量のうち一つを選択するように制御する
選択制御部とを有することが好ましい。分割のされ方が
類似しているということは、当該複数の特徴量を重複し
て選択する意味が乏しいことを意味するため、それらを
重複して選択してしまうことを防止することができるか
らである。
【0008】また、前記選択手段はさらに、前記分割類
似性判定部により、類似していると判定された場合に、
二つの特徴量のうち、選択されなかった一つを同一分割
特徴量として出力する同一分割特徴量出力部を備え、前
記特徴量選択装置はさらに、前記同一分割特徴量出力部
が出力した特徴量を格納する同一分割特徴量格納手段を
備えることが好ましい。分割のされ方が類似している特
徴量に関する情報は、一種のシソーラスデータとして用
いることができるので、当該情報を格納しておくことに
より、操作者の情報検索の利便を図ることが可能となる
からである。
【0009】さらに、前記分割類似性判定部は、二つの
特徴量について、それぞれの特徴量により表される探索
対象情報の数の和と、二つの特徴量のいずれか一方のみ
により表される探索対象情報の数との比率から、前記分
割の結果の類似性を判定することができる。
【0010】また、前記特徴量選択装置はさらに、二つ
の特徴量の類似性に関する情報を格納する類似特徴量情
報格納手段を備え、前記選択手段はさらに、前記類似特
徴量情報格納手段に格納された情報を参照して、二つの
特徴量が類似するか否かを判定する特徴量類似判定部
と、前記特徴量類似判定部により、類似していると判定
された場合に、当該二つの特徴量のうち一つを選択する
ように制御する第二の選択制御部とを有することが好ま
しい。例えば、「計算機」と「コンピュータ」など、同
義語や類義語を重複して特徴量として選択してしまうこ
とを防止することができるからである。
【0011】また、前記特徴量選択装置はさらに、操作
者により特定された特徴量を入力するユーザ指定特徴量
入力手段と、前記ユーザ指定特徴量入力手段により入力
された特徴量を格納するユーザ指定特徴量格納手段とを
備え、前記選択手段は、前記ユーザ指定特徴量格納手段
に格納された特徴量を常に選択することもできる。一定
数の特徴量をユーザが指定することを可能とすることに
よって、よりユーザにとって検索を行いやすい情報探索
空間を構築することも可能となる。
【0012】また、本発明の記憶媒体は、情報探索空間
に探索対象情報を配置する際に、前記探索対象情報を表
す特徴量を用いて情報探索空間における前記探索対象情
報の配置を決定する情報探索装置において、前記配置の
決定に用いる特徴量を選択する特徴量選択装置に用いる
プログラムであって、それぞれの探索対象情報と、当該
探索対象情報を表す複数の特徴量との組を、複数格納す
る特徴量格納手段から、前記配置の対象となる探索対象
情報を表す特徴量を順次取り出す取出ステップと、前記
取出ステップで取り出された特徴量により、前記配置の
対象となる探索対象情報が表されるか否かによって、配
置の対象となる探索対象情報を分割するとした場合に、
任意の二つの特徴量による前記分割の結果が、所定の割
合以上に類似しているか否かを判定する分割類似性判定
ステップと、前記分割類似性判定ステップにおいて、類
似していると判定された場合に、当該二つの特徴量のう
ち一つを、前記配置の決定に用いる特徴量として選択す
るように制御する選択制御ステップとを実行するコンピ
ュータで読み取り可能なプログラムを記憶したものであ
る。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。
【0014】図1は、本発明の一実施の形態に係る特徴
量選択装置を備える情報探索装置の構成を示す機能ブロ
ック図である。同図に示されるように、本実施の形態の
特徴量選択装置を含む情報探索装置は、入力部101、
制御部102、出力部103、探索対象情報格納部10
4、配置対象情報格納部105、探索対象特徴量格納部
106、特徴量しきい値格納部107、候補特徴量格納
部108、同一分割特徴量格納部109、類似特徴量情
報格納部110、ユーザ指定特徴量格納部111を備え
ている。なお、同図では、主として本発明に係る特徴量
選択装置を構成する部分を図示しており、情報探索装置
としての通常の使用に必要な処理を行う部分については
省略しているところもある。
【0015】入力部101は、ユーザが、情報探索の指
定入力や、ユーザ指定特徴量の入力等を行うために用い
られる。即ち、特許請求の範囲に記載したユーザ指定特
徴量入力手段に対応するものである。入力部101とし
ては、具体的には、マウス等のポインティングデバイス
や、キーボード等の入力装置を用いることができる。
【0016】制御部102は、情報探索装置全体の制御
を行う他、本発明に係る特徴量選択装置による特徴量の
選択に関する処理等を行う。特許請求の範囲に記載した
選択手段に対応するものである。また、制御部102
は、特徴量抽出部1021、1/2基準値算出部102
2、ユーザ指定特徴量判定部1023、候補特徴量選択
部1024、特徴量選択部1025を含んでいる。各部
の詳細な処理内容については後述する。
【0017】出力部103は、本実施の形態の情報探索
装置における情報探索空間を表示する。出力部103と
しては、具体的には、ディスプレイ装置等の二次元の像
を表示することができる出力装置が用いられる。なお、
情報探索空間は、二次元空間でも三次元空間でもよい。
【0018】探索対象情報格納部104には、本実施の
形態における特徴量選択装置を含む情報探索装置による
探索対象となる全ての情報が格納される。探索対象情報
格納部104には、例えば、探索対象となる情報が書籍
のデータであれば、書籍データを情報探索空間に表示す
るために必要な情報等が全て格納され、また、探索対象
情報が静止画のデータであれば、当該静止画のファイル
等が格納される。情報には、その情報を特定するために
必要な識別子が含まれる。制御部102は、必要に応じ
て探索対象情報格納部104を参照し、情報探索空間に
データを表示する。
【0019】配置対象情報格納部105には、情報探索
空間への配置の対象となるデータが格納される。例え
ば、探索対象となるのが書籍のデータであれば、情報探
索空間に配置されるべき書籍のID等、配置されるべき
情報を特定するために必要な識別子の情報が格納され
る。配置対象情報格納部105に格納される情報は、上
述の如く、探索対象情報格納部104に格納されている
情報全体から、予めハンティング検索によって絞り込ま
れた情報であるのが一般的であるが、情報量によって
は、探索対象情報格納部104に格納されている全ての
情報について、識別子等の必要な情報を格納する場合も
ある。
【0020】探索対象特徴量格納部106には、探索対
象情報格納部104に格納されている全ての情報につい
て、探索対象となるそれぞれの情報の識別子と、特徴量
との対応関係に関する情報が保持される。特許請求の範
囲に記載した特徴量格納手段に対応するものである。情
報の識別子は、配置対象情報格納部105に格納される
情報と同一である。図6は、探索対象特徴量格納部10
6に格納される情報の内容の例を示す図である。図6
(a)は、探索対象情報が書籍のデータである場合の例
であり、図6(b)は、探索対象情報が静止画のデータ
である場合の例である。
【0021】図6(a)に示されるように、探索対象情
報が書籍のデータである場合には、特徴量としてキーワ
ードを用いる。キーワードとして、本実施の形態では、
表紙及び目次に表示されている文字情報について、形態
素解析等の処理を行うことにより自動的に抽出したもの
を用いるが、当該書籍に含まれる全ての文章から抽出す
ることも可能であり、キーワードの抽出方法にも種々の
方法が考えられる。また、同図(a)に示されるよう
に、特徴量としてキーワードを用いる場合は、それぞれ
のキーワードについて、当該文書情報内における出現頻
度を情報として保持する。出現頻度情報の利用方法につ
いては後述する。尚、同図では、分かりやすくするため
テーブルの形で記載しているが、実際にはキーワードと
出現頻度とのペアのリストの形式で格納されている。
【0022】一方、探索対象情報が静止画の場合は、図
6(b)に示されるように、特徴量のみを保持し、出現
頻度は保持しない。ここで、探索対象情報が静止画の場
合の、本実施の形態における特徴量について説明する。
【0023】各画素のRGB値として与えられる静止画
のデータについて、HSV変換を行い、色相、彩度、明
度の情報に変換する。ここで、色相を32区間、彩度を
4区間、明度を4区間に分割し、この区間を一つの特徴
量と考える。即ち、色相、彩度、明度のそれぞれが8ビ
ットで表されるとすると、色相データについては0から
255までの値を32区間に分割し、0から7、8から
15、というように、それぞれの区間を一つの特徴量と
する。彩度、明度については4区間に分割されるので、
0から63、64から127、というように、それぞれ
の区間を一つの特徴量とする。
【0024】特徴量の値は、それぞれの区間の値をとる
画像内の画素数を、その区間の度数とし、それを全体の
画素数で割った値とする。これら40の特徴量から選択
する方法については後述する。
【0025】特徴量しきい値格納部107には、特徴量
ごとのしきい値が格納される。例えば、本実施の形態で
は、特徴量がキーワードである場合のしきい値を1とし
ている。これは、配置対象情報の特徴量として、当該キ
ーワードが一つでも出現する場合には、当該キーワード
を特徴量選択処理の対象とすることを意味する。また、
特徴量が上記色相、彩度及び明度である場合には、色相
の場合は1/32、再度と明度の場合は1/4とする。
これは均等に分布しているとした場合の値であるが、こ
の値に限定されるものではない。
【0026】候補特徴量格納部108には、最終的に特
徴量として選択される候補となる特徴量(以下、「候補
特徴量」という。)が格納される。候補特徴量の選択、
及びその格納の際の処理内容については後述する。
【0027】同一分割特徴量格納部109には、候補特
徴量の選択の際に行われる、情報の分割のされ方が類似
する特徴量の重複使用を排除するための処理において、
排除された方の特徴量が格納される。特許請求の範囲に
記載した同一分割特徴量格納手段に対応するものであ
る。同一分割特徴量格納部109に格納される特徴量の
詳細については後述する。
【0028】類似特徴量情報格納部110には、主とし
て同義語や類義語に関するシソーラスデータが格納され
る。特許請求の範囲に記載した類似特徴量格納手段に対
応するものである。これらの情報は、候補特徴量の選択
の際に行われる、意味的に類似する特徴量の重複使用を
排除するための処理において利用される。これらのシソ
ーラスデータの格納は、他の既存のプログラムや装置を
用いて、ユーザが行うことができるが、当該装置を本実
施の形態の情報探索装置に備えるようにすることも可能
である。
【0029】ユーザ指定特徴量格納部111には、ユー
ザから特に指定された特徴量の情報が格納される。特許
請求の範囲に記載したユーザ指定特徴量格納手段に対応
するものである。ユーザ指定特徴量格納部111に格納
された特徴量は、本発明に係る特徴量選択装置により本
来選択されるべきものであるか否かにかかわらず、常
に、最終的に特徴量として選択され、情報探索空間の構
築に用いられる。
【0030】次に制御部102の各部の処理内容につい
て説明する。
【0031】特徴量抽出部1021は、配置対象情報格
納部105に格納されている配置対象情報の識別子と、
探索対象特徴量格納部106に格納されている情報とか
ら、配置対象情報格納部105に格納されている配置対
象情報を表す特徴量であって、特徴量しきい値格納部1
07に格納されている特徴量のしきい値を超える特徴量
を抽出し、当該特徴量により表される配置対象情報のデ
ータ数を算出する。
【0032】1/2基準値算出部1022は、特徴量抽
出部1021により抽出された配置対象情報のデータ数
に基づいて、それぞれの特徴量の1/2基準値を算出す
る。ここで、「1/2基準値」とは、配置対象情報の中
で、当該特徴量により表されるものがどれくらいの割合
存在しているかを示す数値であり、具体的には、下記の
式1で算出される値をいう。
【0033】 h=|w/n−0.5| (1) 例えば、配置対象情報が書籍のデータである場合には、
上式1において、wは、配置対象情報の中で、当該キー
ワードを含む書籍の件数、nは、配置対象情報格納部1
05に格納されている配置対象情報の全件数である。例
えば、配置対象情報格納部105に100件の書籍デー
タが格納されているうち、キーワード「構造」により表
されるものが50件あるとした場合に、キーワード「構
造」についての1/2基準値は0となる。
【0034】本発明の特徴量選択装置は、情報探索空間
への配置の対象となる情報群を当該空間中に適切に分散
配置することを目的とするものであるため、あるキーワ
ードにより表されるか否かによって、配置対象情報を二
等分できるようなキーワードがもっとも分散配置に適し
ていると考えることができる。従って、情報の分割に適
したキーワードとして、1/2基準値が小さいものを優
先して使用する。
【0035】ユーザ指定特徴量判定部1023は、1/
2基準値算出部1022により1/2基準値が算出され
た特徴量について、ユーザ指定特徴量格納部111を参
照し、特徴量がユーザ指定特徴量に該当するか否かを順
次判定する。
【0036】候補特徴量選択部1024は、ユーザ指定
特徴量判定部1023によりユーザ指定特徴量でないと
判定された特徴量について、候補特徴量の選択処理を行
い、選択された特徴量を候補特徴量格納部108に格納
する。特許請求の範囲に記載した、分割類似性判定部、
選択制御部、同一分割特徴量出力部、特徴量類似判定部
に対応する処理を行うものである。
【0037】特徴量選択部1025は、候補特徴量格納
部108に格納された候補特徴量から所定の数の特徴量
を選択する。この際に、ユーザ指定特徴量格納部111
を参照して、ユーザ指定特徴量を追加して選択する。こ
こで、選択された特徴量が最終的に情報探索空間の構築
に利用される。
【0038】図2は、本実施の形態における制御部10
2の処理内容を示すフローチャートである。同図に示さ
れるように、制御部102は、まず、特徴量データ数の
算出を行う(S201)。具体的には、特徴量抽出部1
021が、配置対象情報格納部105に格納されている
情報の識別子に基づいて、探索対象特徴量格納部106
を参照し、配置対象情報に対応する特徴量の情報を抽出
する。
【0039】前述の如く、探索対象特徴量格納部106
に格納されている特徴量データは、例えば配置対象情報
が書籍のデータである場合には、図6(a)の如く、特
徴量として用いられるキーワードと、当該キーワードの
出現頻度とのペアの形で保持されている。そこで、特徴
量抽出部1021はさらに、特徴量しきい値格納部10
7を参照し、当該キーワードの出現頻度が、特徴量「キ
ーワード」のしきい値以上であるものについてキーワー
ドを抽出し、当該キーワードにより表される書籍の数を
算出する。
【0040】本実施の形態では、特徴量「キーワード」
のしきい値は1としている。これは、前述の如く、当該
キーワードを一つでも含んでいる書籍が、配置対象情報
の中に存在すれば、当該キーワードは、本実施の形態の
特徴量選択装置による選択処理の対象となることを意味
する。
【0041】次に、1/2基準値算出部1022が、抽
出されたそれぞれの特徴量について、1/2基準値を計
算する(S202)。1/2基準値については、先に詳
細に説明したので、ここでの説明は省略する。
【0042】次に、ユーザ指定特徴量判定部1023
が、1/2基準値算出部1022によって1/2基準値
が算出された特徴量を一つ取り出す(S203)。
【0043】取り出された特徴量(以下、「処理対象特
徴量」という。)について、ユーザ指定特徴量判定部1
023が、ユーザ指定特徴量であるか否かを判定する
(S204)。ここで、ユーザ指定特徴量とは、例え
ば、ハンティング検索処理において、情報の絞り込み等
のためにユーザから指定されたキーワードの如く、ユー
ザから指定された特徴量をいう。ただし、書籍データの
場合でも、ハンティング検索に用いたキーワードを必ず
ユーザ指定特徴量とする必要はなく、別途入力部101
を用いて入力するようにしてもよい。
【0044】後述のように、ユーザ指定特徴量は、本発
明に係る特徴量選択装置の動作に関係なく、常に選択さ
れるべき特徴量であるから、ステップS204で、ユー
ザ指定特徴量であると判定された場合(S204:Ye
s)には、その後の処理をスキップして、ステップS2
08へと進む。
【0045】処理対象特徴量が、ユーザ指定特徴量でな
かった場合(S204:No)には、当該処理対象特徴
量が、ユーザ指定特徴量以外のうちで最初のものである
か否か、即ち、候補特徴量格納部108に候補特徴量が
一つでも格納されていないかどうかを判定し(S20
5)、候補特徴量格納部108に候補特徴量がまったく
格納されていない場合(S205:Yes)には、当該
処理対象特徴量を、候補特徴量格納部108に格納する
(S206)。
【0046】既に、候補特徴量格納部108に一つでも
候補特徴量が格納されている場合には(S205:N
o)、候補特徴量選択部1024は、候補特徴量格納処
理(S207)へと進む。図3は、候補特徴量格納処理
の詳細な処理内容を示すフローチャートである。
【0047】同図に示されるように、候補特徴量格納処
理では、候補特徴量選択部1024は、まず、1/2基
準値が小さい候補特徴量との同一性検査を行う(S30
1)。
【0048】図4は、1/2基準値が小さい候補特徴量
との同一性検査の詳細な処理内容を示すフローチャート
である。1/2基準値が小さい候補特徴量とは、候補特
徴量格納部108に格納されている候補特徴量であっ
て、1/2基準値が等しいか又は小さい特徴量をいう。
候補特徴量選択部1024は、当該条件に該当する候補
特徴量について、まず、一つデータを取り出す(S40
1)。
【0049】次に、候補特徴量1024は、処理対象特
徴量と、取り出された候補特徴量との間でEOR値、も
しくは類似度を算出する(S402)。
【0050】ここで、EOR値について、配置対象情報
が書籍のデータである場合を例として説明する。EOR
値とは、二つのキーワードJ、Lについて、キーワード
Jを含む書籍の数をk(j)、キーワードLを含む書籍
の数をk(l)とし、両者の排他的論理和をとったも
の、即ち、キーワードJ、Lのいずれか一方のみを含む
書籍の数をe(k(j),k(l))とした場合に、下
記の式2で表される値をいう。
【0051】 EOR値= e(k(j),k(l)) / (k(j)+k(l)) (2) この様子を図7に示す。尚、同図において、外側の四角
形は、ハンティング検索により絞り込まれた情報を表わ
す。同図からもわかるように、EOR値が低いというこ
とは、当該二つのキーワードについて、その両方を含む
書籍データが多いということを意味しており、当該二つ
のキーワードを重複して用いても、情報の分割のされ方
が似通っているということを示す。このような場合に当
該二つのキーワードを、両方とも、配置決定のための特
徴量として選択する必要性に乏しいと考えられることか
ら、本発明の特徴量選択装置では、その一方のみを選択
することとしたものである。
【0052】EOR値が算出されると、候補特徴量選択
部1024は、算出されたEOR値が一定値以下である
か否かを判定する(S403)。
【0053】尚、本実施の形態では、ステップS403
におけるEOR値の一定値を1/4としたが、任意の値
を設定して構わない。本実施の形態で当該一定値を1/
4としたのは、例えば、二つのキーワードの1/2基準
値がともに0である場合、即ち、当該キーワードを含む
情報がそれぞれ全体の1/2であってデータの重複が互
いにないような場合の全体のデータ量を1とした場合
に、その全体のデータ量の1/4に相当する数までのデ
ータの重複については、情報の分割のされ方が異なるも
のとして取り扱うという考えに基づくものであるが、こ
の値に限定すべき性質のものではない。
【0054】EOR値が一定値以下でない場合(S40
3:No)には、候補特徴量選択部1024は、類似特
徴量情報格納部110を参照して、二つのキーワードの
意味的な類似性の検査を行う(S404)。これは、同
義語や類義語を重複して特徴量として選択してしまうこ
とを避けるための処理である。即ち、例えば、「計算
機」と、「コンピュータ」のような同義語や、類義語を
重複して特徴量として選択する必要性は乏しいと考えら
れることから、本発明の特徴量選択装置では、その一方
のみを選択するようにしたものである。
【0055】また、配置対象情報が静止画の場合には、
特徴量の類似性を示すものとして類似度を算出する。類
似度の算出には、色相、彩度、明度ごとの隣り合った色
区間の間の相関をガウス関数で決めたものを採用する。
例えば、色相の場合は区間の両端が隣り合っていると考
え、円上に区間が配置されているという関係で相関を計
算する。例えば、区間の隣が1離れているとすると、j
区間離れている区間との類似度は以下の式3で表すこと
ができる。
【0056】 類似度= (exp(-(16-j)*(16-j)/16)-exp(-16))/(1-exp(-16)) (3) 従って、類似特徴量情報格納部110には、上記のよう
な同義語、類義語に関する情報が、その類似性に関する
数値的な情報とともに、別途ユーザにより格納される。
【0057】類似性が一定値以上である場合(S40
5:Yes)は、選択処理の対象となっている特徴量を
候補特徴量としないように、その後の処理を行わず、1
/2基準値が小さい候補特徴量との同一性検査を終了す
る。
【0058】一方、類似性が一定値以上でない場合(S
405:No)には、両者が類似していないことを意味
するので、対象となる全ての候補特徴量について検査が
終了したか否かを判定し(S406)、全ての候補特徴
量について検査が終了していない場合には(S406:
No)、ステップS401に戻って、候補特徴量選択部
1024が、次の候補特徴量を取り出す。
【0059】対象となる全ての候補特徴量について検査
が終了した場合には、1/2基準値が小さい候補特徴量
との同一性検査を終了する(S406:Yes)。
【0060】また、本実施の形態では、EOR値が一定
値以下のものについては、候補特徴量選択部1024
が、当該特徴量を、同一分割特徴量格納部109に格納
するようにしている(S407)。ここに格納されたデ
ータは、必ずしも意味的に類似するものではないが、配
置対象情報の分割のされ方が似ているキーワードとして
一種のシソーラスデータとして利用することができる。
また、本実施の形態では、上記類似性の検査により排除
されるべき特徴量が検出された場合には、候補特徴量選
択部1024は、候補特徴量の選択にあたり、より1/
2基準値が小さい特徴量を候補特徴量として選択するよ
うにしているが、1/2基準値が同一の場合は、出現頻
度が大きい特徴量を選択し、出現頻度も同一であれば、
先に出現したものを選択するようにしている。選択され
ない特徴量については、例えばフラグを設定しておい
て、その後の候補特徴量格納処理(S303)におい
て、候補特徴量格納部108に格納しないようにするこ
と等が可能である。
【0061】次に、処理対象となっているキーワードよ
り1/2基準値が大きい候補対象量との検査の方法につ
いて詳細に説明する。図5は、当該検査における詳細な
処理内容を示すフローチャートである。
【0062】候補特徴量選択部1024は、当該条件に
該当する候補特徴量について、まず、一つ特徴量データ
を取り出す(S501)。
【0063】次に、候補特徴量選択部1024は、図4
の処理と同様に、処理対象特徴量と、取り出された候補
特徴量との間でEOR値を算出し(S502)、算出さ
れたEOR値が一定値以下であるか否かを判定する(S
503)。
【0064】EOR値が一定以下でない場合(S50
3:No)には、候補特徴量選択部1024は、類似特
徴量情報格納部110を参照して、二つのキーワードの
意味的な類似性の検査を行うが(S504)、類似性が
一定値以上である場合(S505:Yes)は、取り出
された候補特徴量の方を、候補特徴量格納部108から
削除し(S506)、ステップS507へと進む。
【0065】一方、類似性が一定値以上でない場合(S
505:No)には、両者が類似していないことを意味
するので、そのままステップS507へと進む。
【0066】ステップS507では、対象となる全ての
候補特徴量について検査が終了したか否かを判定し、全
ての候補特徴量について検査が終了していない場合には
(S507:No)、ステップS501に戻って次の候
補特徴量データを取り出す。
【0067】対象となる全ての候補特徴量について検査
が終了した場合には、1/2基準値が大きい候補特徴量
との同一性検査を終了する(S507:Yes)。
【0068】EOR値が一定値以下のものについて、同
一分割特徴量格納部109に格納するのは(S50
8)、図4で説明した例と同様であるが、この場合は、
原則として取り出された候補特徴量の方が同一分割特徴
量格納部109に格納されることとなる。
【0069】以上のように、1/2基準値が大きい候補
特徴量との同一性検査を終了すると、図3のフローチャ
ートに戻って、候補特徴量格納処理を行う(S30
3)。
【0070】候補特徴量格納処理(S303)では、ス
テップS301及びS302において、分割のされ方に
おいても、意味的にも類似でないと判定された特徴量に
ついて、候補特徴量選択部1024が、候補特徴量格納
部108の所定の位置に格納する。ここで、所定の位置
とは、候補特徴量格納部108において、1/2基準値
の小さい順、1/2基準値が同一であれば出現頻度の大
きい順に特徴量がソートして格納されるような位置を意
味する。
【0071】以上のように候補特徴量格納処理を終了す
ると、図2のフローチャートに戻って、未処理の処理対
象特徴量があるか否かを判定し(S208)、未処理の
処理対象特徴量があれば(S208:Yes)、ステッ
プS203へと進み、次の特徴量データを取り出す。
【0072】一方、未処理の処理対象特徴量がなければ
(S208:No)、ユーザ指定特徴量を除く全ての処
理対象特徴量について、処理が終了したことを意味する
ので、実際に配置対象情報の配置に利用する特徴量を選
択する処理を行う。この特徴量の選択にあたり、本実施
の形態では、特徴量選択部1025が、まず、ユーザ指
定特徴量格納部111からユーザ指定特徴量を読み出し
(S209)、さらに、残りの特徴量について、候補特
徴量格納部108から選択する(S210)。
【0073】上述の如く、候補特徴量格納部108に
は、候補特徴量が1/2基準値の小さい順にソートされ
ている状態で格納されているため、特徴量選択部102
5は、ソートされている順に所定の数だけ、実際に利用
する特徴量を選択する。その結果として、配置対象情報
が書籍データの場合であれば、1/2基準値が小さいキ
ーワードが優先して選択される。また、1/2基準値が
同一であれば、出現頻度が大きいキーワードが優先して
選択され、出現頻度も同一であれば先に出現したキーワ
ードが優先して選択されることとなるのは上述のとおり
である。
【0074】一方、配置対象情報が静止画データの場合
は出現頻度の情報を保持していないが、本実施の形態で
は1/2基準値が同一の特徴量は全て選択するようにし
ている。
【0075】また、選択する特徴量の数は、キーワード
の場合であれば、ユーザ指定特徴量を含めて9個選択す
れば、ほぼ適切な情報探索空間への配置という目的を達
することができる。もっとも、選択する特徴量の数は利
用目的によっても異なり、リアルタイムに分布を計算す
るために処理速度を重視すれば少ない方がよいが、情報
の分散を適切に実施するためにはある程度の数が必要で
ある。
【0076】図8は、本実施の形態における特徴量選択
装置において、候補特徴量の選択を行った結果の一例を
示す図である。同図は、書籍のデータから、「生物」と
いうキーワードを用いて、ハンティング検索を行った結
果として得られた検索結果集合(295件)について、
特徴量の選択を行った結果である。尚、同図の例では、
候補特徴量としてキーワードを20個格納しているが、
候補特徴量として格納可能な個数は、利用目的等により
任意に設定してよい。
【0077】実際に情報探索空間を構築する際には、こ
れらのキーワードから、1/2基準値が小さいものから
順に選択して利用することとなる。
【0078】図9は、本実施の形態の特徴量選択装置に
よって選択されたキーワードを用いて、情報探索空間に
書籍の情報を分散配置しようとした画面の一例を模式的
に示す図である。同図の例では、図8に示した例の候補
特徴量から、1/2基準値が小さい特徴量を9個、実際
の分散配置に用いている。同図において、「利用」のラ
ベルの周辺には、キーワード「利用」を含む書籍の情報
が配置されるようになるため、ユーザのブラウジング検
索の利便を図ることができる。
【0079】このように、本発明の特徴量選択装置を用
いることにより、ユーザがブラウジング検索を行いやす
い情報探索空間を構築するにあたり、最も適切な特徴量
を選択することができるため、最小の特徴量で情報探索
空間を構築することが可能となり、システムの処理効率
を向上させることができる。
【0080】なお、本発明である特徴量選択装置を実現
するプログラムを記憶した記憶媒体は、図10の記憶媒
体の例で示すように、CD−ROMやフロッピーディス
ク等の可搬型記憶媒体だけでなく、回線先の他の記憶装
置や、コンピュータのハードディスクやRAM等の記憶
媒体のいずれでもよく、プログラム実行時には、プログ
ラムはローディングされ、主メモリ上で実行される。
【0081】また、本実施の形態では、ユーザ指定特徴
量を、必ず最終的に特徴量として選択するようにしてい
るが、他の方法も可能である。例えば、ユーザ指定特徴
量であれば、分割の類似性や、意味の類似性の検査にお
いて優先して候補特徴量として選択されるようにしてお
き、最終的な選択の際には、ユーザ指定特徴量も他の候
補特徴量と同様に、1/2基準値等を基準として選択す
るようにすることもできる。
【0082】
【発明の効果】以上に説明したように、本発明に係る特
徴量選択装置によれば、ブラウジング検索を行うための
情報探索空間に、特徴量を用いて探索対象情報を分散配
置する際に、適切な配置を行いながら、かつ、システム
の処理効率を向上させることを可能とする特徴量を選択
することができるという効果がある。
【図面の簡単な説明】
【図1】 本発明に係る特徴量選択装置を含む情報探索
装置の一実施の形態における構成を示す機能ブロック図
である。
【図2】 本発明の実施の形態における制御部102の
処理内容を示すフローチャートである。
【図3】 本発明の実施の形態における候補特徴量格納
処理の処理内容を示すフローチャートである
【図4】 本発明の実施の形態における1/2基準値が
小さい候補特徴量との同一性検査の詳細な処理内容を示
すフローチャートである。
【図5】 本発明の実施の形態における1/2基準値が
大きい候補特徴量との同一性検査の詳細な処理内容を示
すフローチャートである。
【図6】(a)本発明の実施の形態において、配置対象
情報が書籍の情報である場合の、特徴量情報の内容の一
例を示す図である。 (b)本発明の実施の形態において、配置対象情報が静
止画の情報である場合の特徴量情報の内容の一例を示す
図である。
【図7】 本実施の形態の特徴量選択装置におけるEO
R値の内容を説明するための図である。
【図8】 本実施の形態の特徴量選択装置を用いて候補
特徴量の選択を行った結果の一例を示す図である。
【図9】 本実施の形態の特徴量選択装置によって選択
されたキーワードを用いて、情報探索空間に書籍の情報
を分散配置しようとした画面の一例を模式的に示す図で
ある。
【図10】 記憶媒体の例を示す図である。
【符号の説明】
101 入力部 102 制御部 103 出力部 104 探索対象情報格納部 105 配置対象情報格納部 106 探索対象特徴量格納部 107 特徴量しきい値格納部 108 候補特徴量格納部 109 同一分割特徴量格納部 110 類似特徴量情報格納部 111 ユーザ指定特徴量格納部 1021 特徴量抽出部 1022 1/2基準値算出部 1023 ユーザ指定特徴量判定部 1024 候補特徴量選択部 1025 特徴量選択部 901 回線先の記憶装置 902 CD−ROMやフロッピーディスク等
の可搬型記憶媒体 902−1 CD−ROM 902−2 フロッピーディスク 903 コンピュータ 904 コンピュータ上のRAM/ハードディ
スク等の記憶媒体

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 情報探索空間に探索対象情報を配置する
    際に、前記探索対象情報を表す特徴量を用いて情報探索
    空間における前記探索対象情報の配置を決定する情報探
    索装置において、前記配置の決定に用いる特徴量を選択
    する特徴量選択装置であって、それぞれの探索対象情報
    と、当該探索対象情報を表す複数の特徴量との組を、複
    数格納する特徴量格納手段と、前記特徴量格納手段に格
    納されている特徴量から、所定の規則に基づいて、探索
    対象情報の配置に適切な順に、所定の数だけ特徴量を選
    択する選択手段とを備えることを特徴とする特徴量選択
    装置。
  2. 【請求項2】 前記選択手段は、情報探索空間に配置す
    べき探索対象情報を、ある一つの特徴量により表される
    か否かにより分割するとした場合に、二つの特徴量によ
    る前記分割の結果が、所定の割合以上に類似しているか
    否かを判定する分割類似性判定部と、前記分割類似性判
    定部により、類似していると判定された場合に、前記二
    つの特徴量のうち一つを選択するように制御する選択制
    御部とを有する請求項1に記載の特徴量選択装置。
  3. 【請求項3】 前記選択手段はさらに、前記分割類似性
    判定部により、類似していると判定された場合に、二つ
    の特徴量のうち、選択されなかった一つを同一分割特徴
    量として出力する同一分割特徴量出力部を備え、前記特
    徴量選択装置はさらに、前記同一分割特徴量出力部が出
    力した特徴量を格納する同一分割特徴量格納手段を備え
    る請求項2に記載の特徴量選択装置。
  4. 【請求項4】 前記分割類似性判定部は、二つの特徴量
    について、それぞれの特徴量により表される探索対象情
    報の数の和と、二つの特徴量のいずれか一方のみにより
    表される探索対象情報の数との比率から、前記分割の結
    果の類似性を判定する請求項2又は3に記載の特徴量選
    択装置。
  5. 【請求項5】 前記特徴量選択装置はさらに、二つの特
    徴量の類似性に関する情報を格納する類似特徴量情報格
    納手段を備え、前記選択手段はさらに、前記類似特徴量
    情報格納手段に格納された情報を参照して、二つの特徴
    量が類似するか否かを判定する特徴量類似判定部と、前
    記特徴量類似判定部により、類似していると判定された
    場合に、当該二つの特徴量のうち一つを選択するように
    制御する第二の選択制御部とを有する請求項1から4の
    いずれかに記載の特徴量選択装置。
  6. 【請求項6】 前記特徴量選択装置はさらに、操作者に
    より特定された特徴量を入力するユーザ指定特徴量入力
    手段と、前記ユーザ指定特徴量入力手段により入力され
    た特徴量を格納するユーザ指定特徴量格納手段とを備
    え、前記選択手段は、前記ユーザ指定特徴量格納手段に
    格納された特徴量を常に選択する請求項1から5のいず
    れかに記載の特徴量選択装置。
  7. 【請求項7】 情報探索空間に探索対象情報を配置する
    際に、前記探索対象情報を表す特徴量を用いて情報探索
    空間における前記探索対象情報の配置を決定する情報探
    索装置において、前記配置の決定に用いる特徴量を選択
    する特徴量選択装置に用いるプログラムであって、それ
    ぞれの探索対象情報と、当該探索対象情報を表す複数の
    特徴量との組を、複数格納する特徴量格納手段から、前
    記配置の対象となる探索対象情報を表す特徴量を順次取
    り出す取出ステップと、前記取出ステップで取り出され
    た特徴量により、前記配置の対象となる探索対象情報が
    表されるか否かによって、配置の対象となる探索対象情
    報を分割するとした場合に、任意の二つの特徴量による
    前記分割の結果が、所定の割合以上に類似しているか否
    かを判定する分割類似性判定ステップと、前記分割類似
    性判定ステップにおいて、類似していると判定された場
    合に、当該二つの特徴量のうち一つを、前記配置の決定
    に用いる特徴量として選択するように制御する選択制御
    ステップとを実行するコンピュータで読み取り可能なプ
    ログラムを記憶した記憶媒体。
JP29222197A 1997-10-24 1997-10-24 特徴量選択装置 Expired - Fee Related JP3597026B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29222197A JP3597026B2 (ja) 1997-10-24 1997-10-24 特徴量選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29222197A JP3597026B2 (ja) 1997-10-24 1997-10-24 特徴量選択装置

Publications (2)

Publication Number Publication Date
JPH11126212A true JPH11126212A (ja) 1999-05-11
JP3597026B2 JP3597026B2 (ja) 2004-12-02

Family

ID=17779082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29222197A Expired - Fee Related JP3597026B2 (ja) 1997-10-24 1997-10-24 特徴量選択装置

Country Status (1)

Country Link
JP (1) JP3597026B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630823B2 (en) 2007-11-01 2014-01-14 Omron Corporation Feature parameter candidate generation apparatus and feature parameter candidate generation method
CN116542253A (zh) * 2022-01-25 2023-08-04 埃森哲环球解决方案有限公司 特征选择系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282587A (ja) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH07160844A (ja) * 1993-12-02 1995-06-23 Hitachi Ltd ファイリング装置
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
JPH09259130A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 情報探索方法及び装置
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282587A (ja) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH07160844A (ja) * 1993-12-02 1995-06-23 Hitachi Ltd ファイリング装置
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
JPH09259130A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 情報探索方法及び装置
JPH1131226A (ja) * 1997-07-11 1999-02-02 Canon Inc 情報処理方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630823B2 (en) 2007-11-01 2014-01-14 Omron Corporation Feature parameter candidate generation apparatus and feature parameter candidate generation method
CN116542253A (zh) * 2022-01-25 2023-08-04 埃森哲环球解决方案有限公司 特征选择系统

Also Published As

Publication number Publication date
JP3597026B2 (ja) 2004-12-02

Similar Documents

Publication Publication Date Title
US11663230B2 (en) Interface including graphic representation of relationships between search results
JP4363792B2 (ja) 情報検索システムおよび方法
JP3781696B2 (ja) イメージ検索方法及び検索装置
US8938153B2 (en) Representative image or representative image group display system, representative image or representative image group display method, and program therefor
US8375027B2 (en) Search supporting apparatus and method utilizing exclusion keywords
US20080215548A1 (en) Information search method and system
JPH0778182A (ja) キーワード付与システム
JP2001515623A (ja) コンピュータによるテキストサマリ自動生成方法
JP2004341940A (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
JP2009140361A (ja) データ管理装置及びデータ処理方法
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JP5699744B2 (ja) 検索方法、検索装置、ならびに、コンピュータプログラム
JPH08202733A (ja) 画像検索方法及びその装置
JP2005107931A (ja) 画像検索装置
JP3597026B2 (ja) 特徴量選択装置
CN112579912A (zh) 一种搜索方法、电子设备及计算机存储介质
JPH10275161A (ja) 画像検索方法およびその処理を実行するためのプログラムを記録した記録媒体
JP2000067081A (ja) 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
CN109815404B (zh) 基于剪贴板数据的搜索处理方法和装置
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2011191834A (ja) 文書分類方法、文書分類装置、およびプログラム
JP7639730B2 (ja) 検索方法
JPS6136868A (ja) 情報検索装置
JP2006318219A (ja) 類似スライド検索プログラム及び検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110917

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees