JPH09198400A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH09198400A
JPH09198400A JP8006055A JP605596A JPH09198400A JP H09198400 A JPH09198400 A JP H09198400A JP 8006055 A JP8006055 A JP 8006055A JP 605596 A JP605596 A JP 605596A JP H09198400 A JPH09198400 A JP H09198400A
Authority
JP
Japan
Prior art keywords
search
document
check
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8006055A
Other languages
English (en)
Inventor
Takehiro Koyama
剛弘 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8006055A priority Critical patent/JPH09198400A/ja
Publication of JPH09198400A publication Critical patent/JPH09198400A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードが文や節の場合でも、検索結果を
より精度よく優先度づけし、優先度の高いものから順に
検索を促すことで検索効率を向上させる。 【解決手段】 入力部1から入力されたキーワードに対
し、シソーラス展開部2はシソーラス辞書3を参照して
シソーラス展開して検索部4に与える。検索部4は上記
シソーラス展開された語によりテキスト情報記憶部5を
検索し、その検索結果をシソーラス展開チェック部6、
関係チェック部7、関連語チェック部8に与える。各チ
ェック部6、7、8では、上記検索結果に対してシソー
ラス展開の有無、キーワードとの語と語間の関係の一
致、キーワードと関連語の個数と位置を各々チェック
し、そのチェック結果を優先度算出部9に与える。優先
度算出部9は、上記各チェック結果に対する重み付けに
より優先度を算出する。表示部10は、上記優先度に従
って上記検索結果を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワードを用い
てテキスト情報等を検索した後、該検索結果それぞれの
重要度を計算し、その重要度に応じて上記検索結果を表
示する情報検索装置に関する。
【0002】
【従来の技術】近年、文書処理の高機能化により扱い得
る文書量が増加するのに伴い、検索対象の情報も増加す
る傾向にあり、こうした状況の中で、重要な情報をより
効率的に得ることへの要求が益々高まりつつある。例え
ば、キーワードを用いてテキスト情報の検索を行う装置
に関して言えば、検索結果の中には重要な情報からキー
ワードとほとんど関係ないゴミ情報まで様々なレベルの
情報が混在しており、こうした大量の情報の中からいか
に重要な情報を効率的に得るかが課題となっている。
【0003】かかる要望に対し、キーワードによる検索
結果を重要度によって優先度づけしてユーザに知らし
め、優先度の高いものからチェックを行うことで、重要
な情報を効率的に得るという手法が実用化されている。
【0004】ところで、キーワードを用いて情報検索を
行う装置の中には、例えば特開昭62-248032 号公報に記
載される文書検索装置の様に、検索漏れを極力少なくす
るために、シソーラス辞書によりキーワードを同義語な
どでふくらませて検索する手法を採用したものも少なく
ない。
【0005】しかしながら、この種の文書検索装置で
は、シソーラス辞書によりキーワードを同義語などでふ
くらませて検索する結果、検索漏れの防止効果があがる
一方で、検索結果が益々増大することになり、検索結果
の優先度づけが他の装置にも増して重要となる。
【0006】そこで、検索結果の優先度づけを行う従来
代表的な例として、特開昭59-223865 号公報に記載され
る情報検索方式や特開平4-281565号公報に記載される文
書検索装置等が知られている。前者の検索方式では、検
索対象のテキスト中に含まれるキーワードの個数によっ
て優先度づけを行うようにしており、また後者の装置で
は、キーワードの個数と位置(タイトル、アブストラク
ト、本文)によって優先度づけを行っている。
【0007】この他、検索結果の優先度づけを行う従来
技術としては、キーワード(語)と関連語(キーワード
と関係の強い語)の個数と位置により検索結果の優先度
を計算する方法や、キーワード(語、節、文)の中から
語と語間の関係を抽出し、同様に検索結果の中から抽出
した語と語間の関係と一致しているものを優先して表示
する方法なども知られている。
【0008】
【発明が解決しようとする課題】検索結果の重要度はキ
ーワードに関する記述量で判断でき、このキーワードに
関する記述としては、キーワ−ドについて直接言及した
直接記述と、キーワードに関連する項目について述べた
間接記述が考えられる。
【0009】検索結果の中でのキーワードの個数あるい
は位置によって優先度づけを行う方法(特開昭59-22386
5 号公報、あるいは特開平4-281565号公報)では、キー
ワードに関する直接記述しか考慮しておらず、特に文数
が少なくキーワードの個数が少ない場合はあまり差がつ
かず、精度の良い優先度づけができなかった。
【0010】この点、検索結果の中でのキーワードと関
連語の個数と位置によって優先度づけを行う方式では、
キーワードそのものが直接記述に相当し、関連語が間接
記述に相当していることから、直接記述と間接記述をあ
る程度考慮していると言える。この方式では、文数が少
ない場合でも精度よく優先度づけを行うことができる
が、反面、キーワードを単語に限定しており、キーワー
ドが文や節の場合には優先度づけそのものが行えなかっ
た。
【0011】そこで、キーワードが文や節の場合にも優
先度づけを可能にする方式として、キーワードから複数
の語とこれらの語の間の関係を抽出するとともに、同様
に検索結果の中からも語と語間の関係を抽出し、両者の
関係が一致しているもの(検索結果)を優先して表示す
る方式が着目されている。
【0012】この方式は、例えば、キーワード「文書を
作成する」を与えると、「文書」と、「作成」と、これ
ら両方の語の間の関係「を格」とが抽出され、検索結果
の中で、語と語間の関係が一致する例えば「文書を作成
する」,「文書の作成」,「文書作成」などが優先して
表示される結果、キーワードを単語に限定した方式に比
べて適用範囲が格段に高まる。
【0013】しかしながら、この方式では、キーワード
中と検索結果中でのそれぞれの語と語間の関係が一致す
るか否かのみを評価する方式のため、算出される優先度
が2値(一致、不一致)に止まっていた。これにより、
依然としておおざっぱな優先度づけしかできず、検索結
果を優先度順に表示して優先度の高いものからチェック
を促したところで、重要な情報を効率的に得るという観
点からは期待通りの効果は望めなかった。
【0014】本発明は上記問題点を解消するためになさ
れたものであり、キーワードによる検索結果の優先度づ
けをキーワードが文や節の場合にも行えるように拡張
し、かつ上記検索結果に対するより多様な項目チェック
に基づく総合的な評価によって当該検索結果の高精度な
優先度づけを可能にし、優先度の高いものからチェック
を促して重要な情報をより効率的に取得できる情報検索
装置を提供することを目的とする。
【0015】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、テキスト情報を記憶するテキスト情
報記憶手段と、検索キーを入力する入力手段と、前記入
力手段から入力された前記検索キーから、該検索キーの
語を同義語展開した同義語を含む検索式を作成する検索
式作成手段と、関連語を記憶する関連語記憶手段と、該
関連語記憶手段から、前記検索キーの関連語を取得する
関連語取得手段と、前記テキスト情報記憶手段を前記検
索式により検索する検索手段と、該検索手段の検索結果
別に、前記検索式中の同義語展開した語がいくつ含まれ
るかをチェックする同義語展開チェック手段と、前記検
索結果別に、各検索結果の中での語間の関係が、前記検
索キーの中の語間の関係に一致するか否かをチェックす
る関係チェック手段と、前記検索結果別に、各検索結果
に含まれる前記検索キーおよびその関連語の個数と位置
についてチェックする関連語チェック手段と、前記同義
語展開チェック手段、前記関係チェック手段、前記関連
語チェック手段の各チェック結果に基づき前記検索結果
別の優先度を算出する優先度算出手段と、前記各検索結
果を当該各検索結果に対応する前記優先度に従って表示
する表示手段とを具備することを特徴とする。
【0016】また、第2の発明は、テキスト情報を記憶
するテキスト情報記憶手段と、前記テキスト情報を予め
解析した解析情報を記憶する解析情報記憶手段と、検索
キーを入力する入力手段と、前記入力手段から入力され
た前記検索キーから、該検索キーの語を同義語展開した
同義語を含む検索式を作成する検索式作成手段と、関連
語を記憶する関連語記憶手段と、該関連語記憶手段か
ら、前記検索キーの関連語を取得する関連語取得手段
と、前記解析情報記憶手段を前記検索式により検索する
検索手段と、該検索手段の検索結果別に、前記検索式中
の同義語展開した語がいくつ含まれるかをチェックする
同義語展開チェック手段と、前記検索結果別に、各検索
結果の中での語間の関係が、前記検索キーの中の語間の
関係に一致するか否かをチェックする関係チェック手段
と、前記検索結果別に、各検索結果に含まれる前記検索
キーおよびその関連語の個数と位置についてチェックす
る関連語チェック手段と、前記同義語展開チェック手
段、前記関係チェック手段、前記関連語チェック手段の
各チェック結果に基づき前記検索結果別の優先度を算出
する優先度算出手段と、前記各検索結果を当該各検索結
果に対応する前記優先度に従って表示する表示手段とを
具備することを特徴とする。
【0017】
【発明の実施の形態】以下、本発明の実施の形態を添付
図面を参照して詳細に説明する。図1は、第1の発明の
実施の形態に係わる情報検索装置の概略構成を示すもの
である。この情報検索装置は、入力部1、シソーラス展
開部2、シソーラス辞書3、検索部4、テキスト情報記
憶部5、シソーラス展開チェック部6、関係チェック部
7、関連語チェック部8、優先度算出部9、表示部10
を具備して構成される。
【0018】入力部1は、形態素解析辞書を有し、ユー
ザからキーワードD1 を得ると、上記辞書を用いて形態
素解析を行い、キーワードD1 の解析情報D2 をシソー
ラス展開部2に伝達する。
【0019】シソーラス展開部2は、キーワードD1 の
解析情報D2 を得ると、キーワードD1 の名詞、サ変動
詞について、シソーラス辞書3を検索し、同義語、関連
語情報D3 を得る。次いで、この同義語、関連語情報D
3 を用いて、キーワードD1を同義語展開し、その結果
得られる同義語展開情報及び関連語情報の両情報D4を
検索部4に伝達する。
【0020】シソーラス辞書3は、見出し語に対して同
義語、関連語(関係が強い語)の情報が格納されてい
る。ここで、同義語とは見出し語と同じ意味の語であ
り、関連語とは見出し語と意味は異なるが関係の強い語
のことである。例えば、見出し語「AI、OA」に関し
ては、 AI…同義語「人工知能…」 関連語「コンピュータ、エキスパートシステム…」 OA…同義語「オフィスオートメーション…」 関連語「ワープロ、パソコン、ファックス…」 といった情報が格納されている。
【0021】検索部4は、キーワードD1 の同義語展開
情報と関連語情報の両情報D4 を得ると、キーワードD
1 の自立語間は積集合、同義語間は和集合として扱った
検索式を用いてテキスト情報記憶部5を検索し、その検
索結果D5 をシソーラス展開部6、関係チェック部7、
関連語チェック部8にそれぞれ伝達する。
【0022】テキスト情報記憶部5には、テキスト情報
が格納されており、任意の単語で検索することにより、
その単語に関する記述を得ることができる。
【0023】シソーラス展開チェック部6は、検索部4
から上記検索結果D5 を得ると、上記シソーラス展開に
より得た同義語情報を参照し、上記検索結果D5 の中
で、この同義語の中の何語がヒットしたかをチェック
し、そのチェック結果D6 を優先度算出部9に伝達す
る。
【0024】関係チェック部7は、検索部4から上記検
索結果D5 を得ると、キーワードD1 から該キーワード
D1 を構成している幾つかの語とこれらの語の間の関係
を抽出したうえで、上記検索結果D5 のそれぞれについ
ても語と語の間の関係を抽出し、両者(キーワードD1
と検索結果D5 )で語と語間の関係が一致しているか否
かをチェックし、そのチェック結果D7 を優先度算出部
9に伝達する。
【0025】関連語チェック部8は、検索部4から上記
検索結果D5 を得ると、この検索結果D5 の中に存在す
る上記キーワードD1 とその関連語の個数と位置をチェ
ックし、そのチェック結果D8 を優先度算出部9に伝達
する。
【0026】優先度算出部9は、上記検索結果D5 と、
上記シソーラス展開チェック結果D6 と、上記関係チェ
ック結果D7 と、上記関連語チェック結果D8 とを得る
と、これら各チェック結果を反映させることにより、上
記検索結果D5 それぞれの優先度を算出し、その結果得
られる優先度情報D9 を表示部10に伝達する。表示部
10は、優先度算出部9から上記検索結果D5 に関する
優先度情報D9 を得ると、その優先度に従って対応する
各検索結果D5 を表示する。
【0027】次に、実際の例を用いて各構成部の動作を
説明する。図2は、ユーザがキーワードとして『文書を
作成する』を指定した時の各構成部の入力及び出力の例
を処理の流れに併記した図である。
【0028】入力部1は、キーワードD1 として『文書
を作成する』という文を得ると、形態素解析を行い、上
記キーワードD1 を形態素に分解し、この形態素に品詞
情報を付与した情報D2 文書「名」,を/,作成[サ
動])をシソーラス展開部2に伝達する。ここで[],
/は品詞情報で、名は名詞、/は助詞、サ動はサ変動詞
を表している。キーワードD1 は、上記の例『文書を作
成する』からも分かるように、語に留まらず、節や文な
どにも対応できる。
【0029】シソーラス展開部2では、キーワードD1
の解析情報D2 (文書「名」,を/,作成 [サ動])
を得ると、キーワードD1 の名詞、サ変動詞(文書、作
成)についてシソーラス辞書3を検索し、キーワードD
1 の同義語情報(「文書」の同義語「ドキュメント、仕
様書」,「作成」の同義語「製作」)及び関連語情報
(「文書作成」の関連語「ワープロ」)の両情報D3 を
得る。
【0030】次いで、この同義語、関連語の両情報D3
を用いて、キーワードD1 を同義語展開し、その結果で
ある同義語展開情報〔(文書、ドキュメント、仕様書)
を(作成、製作)〕と関連語情報(ワープロ)の両情報
D4 を検索部4に伝達する。ここで、シソーラス辞書3
の関連語情報の見出し語としては、キーワードD1が文
や節の場合にも対応できるように、キーワードD1 の自
立語を結合した複合語としている。この例の場合、キー
ワードD1 『文書を作成する』から複合語(文書作成)
を合成し、関連語情報を検索する。また、この例では、
関連語情報をシソーラス辞書3から得ているが、ユーザ
に直接入力させたり、テキスト情報からその場で抽出す
るようにしても良い。後者の場合、テキスト情報からキ
ーワードとの共起頻度(キーワードの近くに出現する頻
度)を用いて関連語情報を抽出することができる。例え
ば、共起の範囲を1文とすると、キーワードD1 が語の
場合は、キーワードD1 と共起した(キーワードD1 と
同一文中に含まれる)語の頻度をカウントし、高頻度語
から不要語を除き関連語とし、キーワードD1 が文、節
の場合は、キーワードD1 から自立語を抽出し、キーワ
ードD1 の自立語全てと共起した(キーワードD1 の自
立語全てを含む文中に含まれる)語の頻度をカウント
し、高頻度語から不要語を除き関連語とする。
【0031】検索部4は、キーワードD1 の同義語展開
情報〔(文書、ドキュメント、仕様書)を(作成、製
作)〕と関連語情報(ワープロ)の両情報D4 を得る
と、キーワードD1 の自立語間は積集合、同義語間は和
集合すなわち〔(文書、ドキュメント、仕様書)&(作
成、製作)〕という検索式を用いてテキスト情報記憶部
5を検索する。
【0032】この例では、上記検索結果D5 として、図
2のa欄に示すように、〔…ワープロで文書を作成
…、…仕様書の作成…、…文書作成…、…文書で
表を作成…〕という4つの文書が検索された場合の様子
を示している。ここで〜は、文書番号を表す。この
検索結果D5 は、検索部4から、シソーラス展開チェッ
ク部6、関係チェック部7、関連語チェック部8にそれ
ぞれ伝達される。
【0033】シソーラス展開チェック部6は、上記検索
結果D5 (…ワープロで文書を作成…、…仕様書の
作成…、…文書作成、…文書で表を作成…)を得る
と、上記キーワードD1 をシソーラス展開して得られた
同義語(ドキュメント、仕様書、製作)の中で何語ヒッ
トしたかをチェックし、そのチェック結果D6 を優先度
算出部9に伝達する。
【0034】この例では、文書だけが同義語「仕様
書」でヒットしているため、この文書が1個だけヒッ
トしているような内容のチェック結果D6 を得る。この
様子を、図2のb欄においては、文書に対応付けて数
字の「1」を付した態様で表している。なお、本実施の
形態によれば、シソーラス展開した語の中で何語ヒット
したかを出力しているが、シソーラス展開した語でヒッ
トしている場合、元の語と展開した語との意味的な距離
を算出して出力し、優先度づけに利用するようにしても
良い。
【0035】関係チェック部7は、検索部4から検索結
果D5 (…ワープロで文書を作成…、…仕様書の作
成…、…文書作成、…文書で表を作成…)を得る
と、キーワードD1 の中から語と語間の関係を抽出する
一方、上記検索結果D5 すなわち文書〜のそれぞれ
についても語と語間の関係を抽出し、この関係が上記キ
ーワードD1 の関係と一致しているか否かについての関
係チェックを行う。
【0036】この例では、キーワードD1 『文書を作成
する』からは(文書←[を格]←作成)が抽出される。
他方、上記検索結果D5 のうち、文書「ワープロで文
書を作成」からは(文書←[を格]←作成)が、文書
「仕様書の作成」からは(仕様書←[を格]←作成)
が、文書「文書作成」からは(文書←[を格]←作
成)が、文書「文書で表を作成」からは(文書←[で
格]←作成)がそれぞれ抽出される。ここで、[を格]
は関係を示し、(文書←[を格]←作成)は「作成」の
[を格]が「文書」であることを示す。
【0037】この場合、キーワードD1 から抽出された
語と語間の関係(文書←[を格]←作成)に対し、文書
「ワープロで文書を作成」から抽出された(文書←
[を格]←作成)が一致、文書「仕様書の作成」から
抽出された(仕様書←[を格]←作成)が一致、文書
「文書作成」から抽出された(文書←[を格]←作成)
が一致、文書「文書で表を作成」から抽出された(文
書←[で格]←作成)が不一致となり、関係チェック部
7から優先度算出部9に対しては、これらの判定に対応
したチェック結果D7 が伝達される。この様子を、図2
のb欄においては、関係一致が認められる文書,文書
,文書に対応付けて丸印を付した態様で表してい
る。
【0038】関連語チェック部8は、検索部4から上記
検索結果D5 (…ワープロで文書を作成…、…仕様
書の作成…、…文書作成、…文書で表を作成…)を
得ると、これら各文書中における上記キーワードD1 と
の関連語の個数と位置(タイトル、本文)をチェックし
(この例では簡単のために関連語の個数のみを出力して
いる)、そのチェック結果D8 を優先度算出部9に伝達
する。
【0039】この例では、上記キーワードD1 『文書を
作成する』の関連語「ワープロ」が、文書の記述(ワ
ープロで文書を作成する)中に存在するため、文書に
関連語が1個だけ存在することを示すチェック結果D8
が優先度算出部9へと伝達される。この様子について、
図2のb欄では、関連語が存在する文書に対応付けて
その関連語の個数を示す数字「1」を付した態様で表し
ている。
【0040】優先度算出部9は、上記検索結果D5 (
…ワープロで文書を作成…、…仕様書の作成…、…
文書作成、…文書で表を作成…)と、上記シソーラス
展開チェック結果D6 (文書2が1個ヒット)、上記関
係チェック結果D7 (文書,文書,文書が一
致)、上記関連語チェック結果D8 (文書が関連語1
個を含む)とを得ると、これら各チェック結果D6 ,D
7 ,D8 を参照して、上記検索結果D5 である文書〜
それぞれの優先度を算出する。
【0041】優先度の算出方法は、例えば、上記各チェ
ック項目に応じた重み付けにより行い、その具体的な重
み値は例えば以下の如く定めることができる。
【0042】 (1)シソーラス展開した同義語でヒットした場合、1個につき -500 (2)キーワードに対する語と語間の関係が一致した場合、 2000 (3)関連語1個につき 100 この例を用いて優先度を算出すると、その算出結果は以
下の表1(図2のc欄に相当)のようになる。すなわ
ち、文書は関係が一致(2000)しかつ関連語が1個存
在する(100 )ために合計2100となり、文書はシソー
ラス展開によるヒットがあり(-500)かつ関係が一致す
る(2000)ために合計1500となり、文書は関係が一致
するのみのために(2000)となり、文書は上記チェッ
ク項目のいずれについても判定要件を満たさないので
(0 )となる。
【0043】 上記検索結果D5 の優先度情報D9 (文書[2100]…
ワープロで文書を作成…、文書[1500]…仕様書の作
成…、文書[2000]…文書作成…、文書[0]…文書
で表を作成…)は、優先度算出部9から表示部10に伝
達される。
【0044】表示部10は、上記検索結果D5 の優先度
情報D9 (文書[2100]…ワープロで文書を作成…、
文書[1500]…仕様書の作成…、文書[2000]…文書
作成…、文書[0 ]…文書で表を作成…)を得ると、
その中の優先度に従って検索結果D10を表示する。具体
的には、図2のd欄に示すように、上記優先度情報D9
の中の点数を参照し、この点数が多い順に、 1:ワープロで文書を作成…、 2:…仕様書の作成…、 3:…文書作成…、 4:…文書で表を作成… という内容の表示を行う。
【0045】なお、この例では、検索結果を優先度順に
ソートして表示しているが、ある点数以上のものだけを
表示するとか、点数によってグループ分けして表示する
等の種々の変形は勿論可能である。また、優先度の点数
をユーザに表示しても良い。このように、第1の発明で
は、キーワードを用いた情報検索結果について、上記キ
ーワードとの意味的な距離、上記キーワードに対する語
と語間の関係の一致/不一致、上記キーワードに関する
記述量などを総合的に評価することにより、情報検索結
果の高精度な優先度づけを行うことができ、優先度の高
いものからチェックすることにより重要な情報を効率的
に得ることができる。
【0046】次に、第2の発明の実施の形態について説
明する。図3は、第2の発明に係わる情報検索装置の概
略構成を示すものであり、図1における第1発明に係わ
る装置の各部と同じ機能を果たす部分には同一の符号を
付している。この第2の発明に係わる装置は、第1の発
明に係わる装置のテキスト情報記憶部5を解析情報記憶
部11に置換し、テキスト情報記憶部5は表示部10に
直結した構成を有するものである。
【0047】第1の発明によれば、検索部4はテキスト
情報そのものを検索対象としていて、キーワードD1 を
シソーラス展開して得た検索語に基づき単にこの検索語
を含むテキスト情報を検索するのみであった。このた
め、その後にこの検索結果D5の優先度を算出するにあ
たり、関係チェック部7あるいは関連語チェック部8に
おいて、上記検索結果D5 それぞれについての語と語間
の関係や、キーワードD1 との関連語の個数と位置等の
抽出に関連して当該検索結果D5 を改めて解析する必要
があった。
【0048】第2の発明は、この種の解析処理に起因す
る検索時間の増大を抑えるためになされたものであり、
第1の発明に係わる装置がテキスト情報そのものを検索
して優先度算出を行うのに対し、第2の発明に係わる装
置では予めテキストを解析して得た解析情報を検索対象
とし、この解析情報の検索結果に基づき優先度算出を行
うものである。
【0049】すなわち、第2の発明に係わる装置では、
テキスト情報記憶部5に記憶されているテキスト情報を
予め解析し、その結果を、解析情報として解析情報記憶
部11に格納しておく。この解析情報としては、少なく
とも分割された形態素情報と品詞情報が格納されていれ
ば良い。この解析情報記憶部11を、検索部4により、
任意の単語で検索することにより、その単語に関する記
述の解析情報を直に得ることができ、以降の関係チェッ
ク部7や関連語チェック部8での解析処理の負担軽減が
図れる。
【0050】次に、この第2の発明に係わる装置の情報
検索動作の概略について説明する。この装置の情報検索
動作において、検索部4は、第1の発明と同様にしてキ
ーワードD1 に基づく検索語を得る。
【0051】すなわち、検索部4は、キーワードD1 の
同義語展開情報と関連語情報の両情報D4 を得ると、キ
ーワードD1 の自立語間は積集合、同義語間は和集合で
解析情報記憶部11を検索し、その検索結果D50をシソ
ーラス展開チェック部6、関係チェック部7、関連語チ
ェック部8にそれぞれ伝達する。
【0052】ここで、解析情報記憶部11には、予めテ
キスト情報を解析して得た解析情報が格納されており、
検索部4より、キーワードD1 の自立語と同義語間の上
記論理式を満足する検索式を用いて検索することによ
り、その検索式に関する記述を含む解析情報を上記検索
結果D50として得ることができる。
【0053】シソーラス展開チェック部6、関係チェッ
ク部7、関連語チェック部8は、上記検索結果D50を検
索部4から得ると、この検索結果について、それぞれキ
ーワードD1 との意味的な距離、キーワードD1 との語
と関係の一致、キーワードD1 に関する記述量などのチ
ェック処理を行う。
【0054】すなわち、シソーラス展開チェック部6
は、検索部4から上記検索結果D50を得ると、上記シソ
ーラス展開により得た同義語情報を参照し、検索結果D
50の中で当該同義語の中の何語がヒットしたかをチェッ
クし、チェック結果D6 を優先度算出部9に伝達する。
【0055】関係チェック部7は、検索部4から上記検
索結果D50を得ると、キーワードD1 から該キーワード
D1 を構成している幾つかの語とこれら語の間の関係を
抽出し、検索結果D50のそれぞれの検索結果における語
とこれら語の間の関係が上記キーワードD1 の関係と一
致しているか否かをチェックし、チェック結果D7 を優
先度算出部9に伝達する。ここで、検索結果D50は、予
めテキスト情報を解析して得た解析情報の中から読み込
まれたものであり、関係チェック部7での上記関係チェ
ックに際して、検索結果D50を改めて解析する必要はな
い。
【0056】関連語チェック部8は、検索部4から上記
検索結果D50を得ると、この検索結果D50の中に存在す
る上記キーワードD1 に一致する語及びその関連語の個
数と位置をチェックし、そのチェック結果D8 を優先度
算出部9に伝達する。ここでも、検索結果D50が予めテ
キスト情報を解析した解析情報の中の一情報であること
から、関連語チェック部8での上記関連語チェックに際
して、検索結果D50を改めて解析するといった処理は不
要となる。
【0057】優先度算出部9は、上記検索結果D50と、
上記シソーラス展開チェック結果D6 と、上記関係チェ
ック結果D7 と、上記関連語チェック結果D8 とを得る
と、これら各チェック結果D6 ,D7 ,D8 に対して、
各チェック項目毎に予め定めた値で重み付けを行うこと
により、上記検索結果D50それぞれの優先度を算出し、
その算出結果である優先度情報D9 を表示部10に伝達
する。
【0058】表示部10は、検索結果D50の優先度情報
D9 を得ると、テキスト情報記憶部5からこれら各検索
結果D50に対応するテキスト情報を読み出す一方、この
読み出したテキスト情報を、当該テキスト情報に対応す
る検索結果D50に与えられた上記優先度に従ってユーザ
に表示する。
【0059】なお、第2の発明によれば、解析情報記憶
部11には、予めテキスト情報を解析して得た解析情報
が、少なくとも分割された形態素情報と品詞情報という
形態で格納されており、検索部4は、キーワードD1 を
用いて該キーワードD1 に対応する記述の解析情報を上
記検索結果D50として得るという処理を基本としている
ため、上記優先度算出部9から表示部10に伝達される
優先度情報D9 の中には、上記キーワードD1 に関連し
た、分割された形態素情報と品詞情報が少なくとも内包
されている。従って、表示部10における検索結果の優
先度順の表示にあたっては、わざわざテキスト情報記憶
部5からテキスト情報を検索する方法に依らずに、上記
優先度情報D9 中の解析情報の中から品詞情報を除いて
形態素情報から元のテキスト情報を合成する構成とする
ことも考えられる。
【0060】次に、実際の例を用いて各構成部の動作を
説明する。図4は、ユーザがキーワードD1 として『文
書を作成する』を指定した時の各構成部の入力及び出力
の例を処理の流れに併記した図である。この場合、キー
ワードD1 『文書を作成する』に対してのシソーラス展
開により検索語を得るまでの動作は、第1の発明と同様
であるため、以後の処理から説明する。
【0061】検索部4は、キーワードD1 『文書を作成
する』の同義語展開情報〔(文書、ドキュメント、仕様
書)を(作成、製作)〕と関連語情報(ワープロ)の両
情報D4 を得ると、キーワードD1 『文書を作成する』
の自立語間は積集合、同義語間は和集合で扱った検索式
すなわち〔(文書、ドキュメント、仕様書)&(作成、
製作)〕で解析情報記憶部11を検索し、その検索の結
果、 …ワープロ[名]で/文書[名]を/作成[サ動]… …仕様書[名]の/作成[サ名]… …文書[名]作成[サ名]… …文書[名]で/表[名]を/作成[サ動]… という解析情報(図4のa欄参照)を得る。この検索結
果D50は、検索部4から、シソーラス展開チェック部
6、関係チェック部7、関連語チェック部8にそれぞれ
伝達される。この検索結果D50の中の符号〜は、文
書(内容は、解析情報)番号を表している。
【0062】シソーラス展開チェック部6は、上記検索
結果D50(…ワープロ[名]で/文書[名]を/作成
[サ動]…,…仕様書[名]の/作成[サ名]…,
…文書[名]作成[サ名]…,…文書[名]で/表
[名]を/作成[サ動]…)を得ると、上記キーワード
D1 をシソーラス展開して得られた同義語(ドキュメン
ト、仕様書、製作)の中で何語ヒットしたかをチェック
し、そのチェック結果D6 を優先度算出部9に伝達す
る。
【0063】この例では、上記第1の実施例と同様、文
書だけが同義語「仕様書」でヒットしているため、こ
の文書が1個だけヒットしているような内容のチェッ
ク結果D6 を得る。この様子を、図4のb欄において
は、文書に対応付けて数字の「1」を付した態様で表
している。なお、この場合においても、シソーラス展開
した語の中で何語ヒットしたかを出力する方法の他、シ
ソーラス展開した語でヒットしている場合、元の語と展
開した語との意味的な距離を算出して出力し、優先度づ
けに利用するようにしても良い。
【0064】関係チェック部7は、検索部4から検索結
果D50(…ワープロ[名]で/文書[名]を/作成
[サ動]…,…仕様書[名]の/作成[サ名]…,
…文書[名]作成[サ名]…,…文書[名]で/表
[名]を/作成[サ動]…)を得ると、キーワードD1
から語と語間の関係を抽出する一方、上記検索結果D50
の中の各文書〜それぞれについても語と語間の関係
を抽出し、この関係が上記キーワードD1 の関係と一致
しているか否かについての関係チェックを行う。
【0065】この例においても、上記第1の発明と同
様、キーワードD1 『文書を作成する』から抽出された
(文書←[を格]←作成)に対し、上記検索結果D50を
成す各解析情報のうち、文書から抽出された(文書←
[を格]←作成)が一致、文書から抽出された(仕様
書←[を格]←作成)が一致、文書から抽出された
(文書←[を格]←作成)が一致、文書から抽出され
た(文書←[で格]←作成)が不一致となり、関係チェ
ック部7から優先度算出部9に対しては、これらの判定
に対応したチェック結果D7 が伝達される。この様子
を、図4のb欄においては、関係一致が認められる文書
,文書,文書に対応付けて丸印を付した態様で表
している。
【0066】関連語チェック部8は、検索部4から上記
検索結果D50(…ワープロ[名]で/文書[名]を/
作成[サ動]…,…仕様書[名]の/作成[サ名]
…,…文書[名]作成[サ名]…,…文書[名]で
/表[名]を/作成[サ動]…)を得ると、これら各文
書〜中での上記キーワードD1 と関連語の個数と位
置(タイトル、本文)をチェックし(この例では簡単の
ために関連語の個数のみを出力している)、そのチェッ
ク結果D8 を優先度算出部9に伝達する。
【0067】この例においても、第1の発明と同様、上
記キーワードD1 『文書を作成する』の関連語「ワープ
ロ」が、文書に関する解析情報(1…ワープロ[名]
で/文書[名]を/作成[サ動]…)中に存在するた
め、文書に関連語が1個だけ存在することを示すチェ
ック結果D8 が優先度算出部9へと伝達される。この様
子について、図4のb欄では、関連語が存在する文書
に対応付けてその関連語の個数を示す数字「1」を付し
た態様で表している。
【0068】優先度算出部9は、上記検索結果D50(
…ワープロ[名]で/文書[名]を/作成[サ動]…,
…仕様書[名]の/作成[サ名]…,…文書[名]
作成[サ名]…,…文書[名]で/表[名]を/作成
[サ動]…)と、上記シソーラス展開チェック結果D6
(文書が1個ヒット)、上記関係チェック結果D7
(文書,文書,文書が一致)、上記関連語チェッ
ク結果D8 (文書が関連語1個含む)を得ると、これ
ら各チェック結果D6 ,D7 ,D8 を参照して、上記検
索結果D50を成す文書〜それぞれの優先度を算出す
る。
【0069】この優先度の算出に際しての各チェック項
目毎の重み付けの処理は、第1の発明の時と同様になさ
れる。この結果、本発明においても、上記表1に示した
ような内容(図4のc欄参照)に沿って、上記検索結果
D50の優先度情報D9 として、([2100]…ワープロ
[名]で/文書[名]を/作成[サ動]…,[1500]
…仕様書[名]の/作成[サ名]…,[2000]…文書
[名]作成[サ名]…,[0] …文書[名]で/表
[名]を/作成[サ動]…)が得られ、これが優先度算
出部9から表示部10へと伝達される。
【0070】表示部10は、上記検索結果D50の優先度
情報D9 ([2100]…ワープロ[名]で/文書[名]
を/作成[サ動]…,[1500]…仕様書[名]の/作
成[サ名]…,[2000]…文書[名]作成[サ名]…,
[0] …文書[名]で/表[名]を/作成[サ動]…)
を得ると、テキスト情報記憶部5からこれら各検索結果
D50に対応するテキスト情報を検索し、次いで、このテ
キスト情報を、当該テキスト情報に対応する検索結果D
50に与えられた上記優先度に従い、検索結果D10として
ユーザに表示する。
【0071】具体的には、図4のd欄に示す如く、上記
優先度情報D9 の中の[]内の点数を参照し、この点数
が多い順に、 1…ワープロで文書を作成… 2…文書作成… 3…仕様書の作成… 4…文書で表を作成… という内容の表示を行う。
【0072】なお、上実施の形態では、表示部10がテ
キスト情報を実際に検索して優先度順に表示する場合に
ついて述べたが、この他、検索結果D50の解析情報から
テキスト情報を合成するようにしても良く、この場合に
は、テキスト情報記憶部5を設けず済む。
【0073】このように、第2の発明では、予めテキス
ト情報を解析して得た解析情報を格納したものを対象に
検索を行い、かつ優先度算出を行うものである。上記第
1の発明では、テキスト情報に対して直接検索にいき、
優先度算出を行うため、その後の関係チェックや関連語
チェックに際して検索結果のテキスト情報を解析する必
要があった。これに対して、第2の発明では、予めテキ
スト情報を解析しておいた解析情報を利用して優先度算
出を行うため、上記関係チェックや関連語チェックにお
いて検索結果のテキスト情報を解析する必要がなく、高
速に処理を行うことができる。
【0074】
【発明の効果】以上説明したように、第1の発明によれ
ば、キーワードによる情報検索結果の優先度付けを、キ
ーワードが文や節の場合にも適応できるように拡張する
とともに、上記キーワードと対応する情報検索結果との
関係については、キーワードとの意味的な距離、キーワ
ードとの語と語間の関係の一致/不一致、キーワードに
関する記述量の各項目毎にそのチェック結果を点数算出
により重みづけして優先度を算出し、その優先度に従っ
て上記検索結果を表示するようにしたため、上記複数の
項目チェックに基づく総合的な評価によって当該検索結
果の高精度な優先度づけができ、優先度の高いものから
チェックを促して重要な情報をより効率的に検索できる
ようになる。
【0075】また、第2の発明では、上記第1の発明
で、キーワードに基づきテキスト情報を直接検索した後
に、この検索結果のテキスト情報の解析を経て上記各項
目チェックを行う方法に換えて、予めテキスト情報を解
析して得た解析情報を用意しておき、キーワードにより
まずこの解析情報を検索した後、上記各項目チェックを
行うことにより、上記検索結果に対する上記各項目チェ
ックのうち関係チェック及び関連語チェックにおいて検
索結果のテキスト情報の解析処理が不要となることか
ら、より高速な検索動作を実現できる。
【図面の簡単な説明】
【図1】第1の発明の実施の形態に係わる情報検索装置
の概略構成図。
【図2】図1における装置の情報検索処理の流れを各構
成要素毎の入力及び出力例を併記して示す概念図。
【図3】第2の発明の実施の形態に係わる情報検索装置
の概略構成図。
【図4】図3における装置の情報検索処理の流れを各構
成要素毎の入力及び出力例を併記して示す概念図。
【符号の説明】
1…入力部、2…シソーラス展開部、3…シソーラス辞
書、4…検索部、5…テキスト情報記憶部、6…シソー
ラス展開チェック部、7…関係チェック部、8…関連語
チェック部、9…優先度算出部、10…表示部、11…
解析情報記憶部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 テキスト情報を記憶するテキスト情報記
    憶手段と、 検索キーを入力する入力手段と、 前記入力手段から入力された前記検索キーから、該検索
    キーの語を同義語展開した同義語を含む検索式を作成す
    る検索式作成手段と、 関連語を記憶する関連語記憶手段と、 該関連語記憶手段から、前記検索キーの関連語を取得す
    る関連語取得手段と、 前記テキスト情報記憶手段を前記検索式により検索する
    検索手段と、 該検索手段の検索結果別に、前記検索式中の同義語展開
    した語がいくつ含まれるかをチェックする同義語展開チ
    ェック手段と、 前記検索結果別に、各検索結果の中での語間の関係が、
    前記検索キーの中の語間の関係に一致するか否かをチェ
    ックする関係チェック手段と、 前記検索結果別に、各検索結果に含まれる前記検索キー
    およびその関連語の個数と位置についてチェックする関
    連語チェック手段と、 前記同義語展開チェック手段、前記関係チェック手段、
    前記関連語チェック手段の各チェック結果に基づき前記
    検索結果別の優先度を算出する優先度算出手段と、 前記各検索結果を当該各検索結果に対応する前記優先度
    に従って表示する表示手段とを具備することを特徴とす
    る情報検索装置。
  2. 【請求項2】 テキスト情報を記憶するテキスト情報記
    憶手段と、 前記テキスト情報を予め解析した解析情報を記憶する解
    析情報記憶手段と、 検索キーを入力する入力手段と、 前記入力手段から入力された前記検索キーから、該検索
    キーの語を同義語展開した同義語を含む検索式を作成す
    る検索式作成手段と、 関連語を記憶する関連語記憶手段と、 該関連語記憶手段から、前記検索キーの関連語を取得す
    る関連語取得手段と、 前記解析情報記憶手段を前記検索式により検索する検索
    手段と、 該検索手段の検索結果別に、前記検索式中の同義語展開
    した語がいくつ含まれるかをチェックする同義語展開チ
    ェック手段と、 前記検索結果別に、各検索結果の中での語間の関係が、
    前記検索キーの中の語間の関係に一致するか否かをチェ
    ックする関係チェック手段と、 前記検索結果別に、各検索結果に含まれる前記検索キー
    およびその関連語の個数と位置についてチェックする関
    連語チェック手段と、 前記同義語展開チェック手段、前記関係チェック手段、
    前記関連語チェック手段の各チェック結果に基づき前記
    検索結果別の優先度を算出する優先度算出手段と、 前記各検索結果を当該各検索結果に対応する前記優先度
    に従って表示する表示手段とを具備することを特徴とす
    る情報検索装置。
JP8006055A 1996-01-17 1996-01-17 情報検索装置 Pending JPH09198400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8006055A JPH09198400A (ja) 1996-01-17 1996-01-17 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8006055A JPH09198400A (ja) 1996-01-17 1996-01-17 情報検索装置

Publications (1)

Publication Number Publication Date
JPH09198400A true JPH09198400A (ja) 1997-07-31

Family

ID=11627932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8006055A Pending JPH09198400A (ja) 1996-01-17 1996-01-17 情報検索装置

Country Status (1)

Country Link
JP (1) JPH09198400A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249458A (ja) * 2006-03-15 2007-09-27 National Institute Of Information & Communication Technology 情報検索装置、及び情報検索プログラム
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
JP2009129098A (ja) * 2007-11-21 2009-06-11 Kddi Corp 情報検索装置およびコンピュータプログラム
JP2025027557A (ja) * 2023-08-16 2025-02-28 株式会社ビズリーチ 検索支援システム、検索支援方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249458A (ja) * 2006-03-15 2007-09-27 National Institute Of Information & Communication Technology 情報検索装置、及び情報検索プログラム
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2009093429A (ja) * 2007-10-09 2009-04-30 Kodansha Ltd 検索システム及び検索方法
JP2009129098A (ja) * 2007-11-21 2009-06-11 Kddi Corp 情報検索装置およびコンピュータプログラム
JP2025027557A (ja) * 2023-08-16 2025-02-28 株式会社ビズリーチ 検索支援システム、検索支援方法及びプログラム

Similar Documents

Publication Publication Date Title
US6055528A (en) Method for cross-linguistic document retrieval
US7974963B2 (en) Method and system for retrieving confirming sentences
US7293015B2 (en) Method and system for detecting user intentions in retrieval of hint sentences
JP2742115B2 (ja) 類似文書検索装置
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20070106499A1 (en) Natural language search system
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP1661031A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US20180004838A1 (en) System and method for language sensitive contextual searching
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
US6278990B1 (en) Sort system for text retrieval
US20050065920A1 (en) System and method for similarity searching based on synonym groups
EP1099171B1 (en) Accessing a semi-structured database
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
EP1290574B1 (en) System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match
JP3198932B2 (ja) 文書検索装置
JPH09198400A (ja) 情報検索装置
CN102346777B (zh) 一种对例句检索结果进行排序的方法和装置
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Xu et al. A machine learning approach to recognizing acronyms and their expansion
JP3562243B2 (ja) 文書検索装置
JP4336404B2 (ja) 情報検索装置及びその方法、コンピュータ可読メモリ