JPH02125363A - Document retrieving device - Google Patents
Document retrieving deviceInfo
- Publication number
- JPH02125363A JPH02125363A JP1186051A JP18605189A JPH02125363A JP H02125363 A JPH02125363 A JP H02125363A JP 1186051 A JP1186051 A JP 1186051A JP 18605189 A JP18605189 A JP 18605189A JP H02125363 A JPH02125363 A JP H02125363A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- search
- file
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書検索装置、とくに。[Detailed description of the invention] [Industrial application field] The present invention relates to a document retrieval device, and particularly to a document retrieval device.
文書検索時。When searching for documents.
検索結果において各文書が、利用者の検索要求に近いも
のほど大きな値を持つ評価値によって順序づけられ、さ
らに、その順序づけが利用者の判断・指示により変更可
能な柔軟で高速な文書検索装置に関する。The present invention relates to a flexible and high-speed document retrieval device in which each document in a search result is ordered by an evaluation value having a larger value as the documents are closer to a user's search request, and furthermore, the ordering can be changed according to the user's judgment and instructions.
従来の文書検索装置においては1文書登録時に登録オペ
レータが適切と思われるキーワードの選択・登録を行い
、文書検索時には検索装置利用者がシソーラスの中から
適切と思われるキーワードを指示することによって検索
を行っている。この方法によれば高速検索が可能である
。In conventional document search devices, when registering a document, a registration operator selects and registers keywords that are considered appropriate, and when searching for documents, the search device user specifies keywords that are considered appropriate from a thesaurus. Is going. According to this method, high-speed search is possible.
上記のような従来の装置によればキーワードの登録のた
めの記憶容量を必要とし、登録オにレータが選択するキ
ーワードの妥当性の問題がある。また、シソーラスによ
る分類・更新作業が煩雑であシ、これらの妥当性につい
ても問題点がある。The conventional device described above requires storage capacity for keyword registration, and there is a problem with the validity of the keywords selected by the registration operator. Furthermore, the classification and updating work using a thesaurus is complicated, and there are also problems with their validity.
さらに、従来の文書検索装置は、利用者が指定した検索
条件を満たしているか否かだけを調べるので、検索条件
をどの程度溝たしているかについてのあいまい検索かで
きない。そのため。Further, since conventional document search devices only check whether the search conditions specified by the user are satisfied, it is not possible to conduct an ambiguous search regarding the extent to which the search conditions are satisfied. Therefore.
利用者が指定した検索条件を完全ではないがほぼ満たし
ているような文書を検索するのにもう一度検索を実行し
なければならない。また、利用者が指定した検索条件を
満たすものがまったく無い場合、検索条件に最も近い文
書を検索することが極めて面倒であ右という問題点もあ
る。The search must be performed again to find a document that almost, but not completely, satisfies the search conditions specified by the user. Another problem is that if there is no document that satisfies the search conditions specified by the user, it is extremely troublesome to search for the document closest to the search conditions.
これらの問題を解決する方法として、キーワード間の関
係を数値で表現する方法が考えられている。しかし、具
体的な数値による表現方法が示されていない。また、学
習機能がないため、実際の文書検索装置としてシステム
にするには不十分であった。As a method to solve these problems, a method of expressing the relationship between keywords numerically has been considered. However, no specific numerical expression method is provided. Furthermore, since it did not have a learning function, it was insufficient to be used as an actual document retrieval device.
本発明はこのような従来技術の欠点を解消し。The present invention overcomes these drawbacks of the prior art.
動的キーワードコネクションという概念を利用し、文書
登録時にはシソーラスなどに基づいた煩雑な分類作業を
必要とせず、文書検索時には利用者の検索要求に近いも
の#1ど大きな値金持つような文書確・度という評価値
を導入し、その文書確度の大小をもとに利用者が要求を
満たす文書を柔軟に検索できる文書検索装置を提供する
ことを目的とする。本発明は、特に検索質問文がキーワ
ード1つあるいは複数のキーワードの論理和であるよう
な場合に、利用者の判断・指示に基づいてキーワードコ
ネクションを変更し1次の検索時に利用者の判断が検索
結果に反映されるようにするキーワードコネクションの
学習方式を備えた文書検索装置を提供することを目的と
する。Utilizing the concept of dynamic keyword connection, there is no need for complicated classification work based on thesaurus etc. when registering documents, and when searching documents, it is possible to identify documents with high value such as #1 that are close to the user's search request. The present invention aims to provide a document retrieval device that allows users to flexibly search for documents that meet their requirements based on the degree of document accuracy. In particular, when the search question text is a logical sum of one keyword or multiple keywords, the present invention changes the keyword connection based on the user's judgment/instruction, thereby changing the user's judgment during the first search. An object of the present invention is to provide a document retrieval device equipped with a keyword connection learning method that is reflected in search results.
本発明は上述の課題を解決するために、登録文書および
その文書情報がファイルに登録される際、文書情報によ
りキーワードを抽出するキーワード抽出手段と、登録文
書と前記キーワードとの間の関連を示すインバーテツド
ファイルを作成するインバーテッド7アイル作成手段と
。In order to solve the above-mentioned problems, the present invention provides a keyword extraction means for extracting keywords from document information when a registered document and its document information are registered in a file, and a relationship between the registered document and the keyword. An inverted 7 isle creation means for creating an inverted file.
キーワード間の関連情報の関連度を記述したキーワード
コネクション表を作成し、既に記録されている関連情報
の関速度の値を変更し、新規関連情報を生成するキーワ
ードコネクション表処理手段と、入力されたキーワード
により前記キーワードコネクション表およびインバーテ
ツドファイルから検索式に合致した文書を選出する文書
選出手段と有する文書検索装置において。A keyword connection table processing means that creates a keyword connection table that describes the degree of association of related information between keywords, changes the relationship speed value of the related information that has already been recorded, and generates new related information; A document search device comprising a document selection means for selecting a document matching a search formula from the keyword connection table and the inverted file using a keyword.
文書選出手段は、特定のキーワード群と各ファイル内の
登録文書のキーワード群との間の関連の強さを示す値を
文書確度とし、キーワードコネクション表、インバーテ
ツドファイルおよび所定の方法により文書確度を計算す
る文書確度計算手段を有し、文書選出手段は、検索式が
入力されると文書確度の大きさの順に検索結果の文書を
出力し1文書ごとの文書確度の可否が入力されると、所
定の方法によりキーワードコネクションを変更する。The document selection means uses a value indicating the strength of the relationship between a specific keyword group and the keyword group of registered documents in each file as document accuracy, and calculates the document accuracy using a keyword connection table, an inverted file, and a predetermined method. The document selection means outputs documents as search results in order of document accuracy when a search formula is input, and when the document accuracy of each document is input. , change the keyword connection by a predetermined method.
本発明による文書検索装置は、利用者の検索質問文(以
下検索式と呼ぶ)に対し装置内の各文書がどの程度検索
式を満たしているかその程度を表す文書確度を計算し、
文書を文書確度の大きい順にソートして利用者に提示す
る。利用者は検索結果の文書タイトルと文書確度の一覧
表からさらに詳しく見たい文書を選択し1文書内容を見
ることができる。利用者は一覧表の内容から、いま見て
いる文書が自分の検索式にふされしいか否かを判断する
。このような利用者の判断に基づく学習によりキーワー
ドコネクションを変更し、次の検索時にその判断が検索
結果に反映されるようにすることができる。The document retrieval device according to the present invention calculates the document certainty that represents the degree to which each document in the device satisfies the search formula for the user's search question sentence (hereinafter referred to as the search formula),
Documents are sorted in descending order of document accuracy and presented to the user. The user can select a document to view in more detail from a list of document titles and document certainty in the search results, and view the contents of one document. From the contents of the list, the user determines whether the document currently being viewed is suitable for his or her search formula. Keyword connections can be changed through learning based on such user judgments, and the judgments can be reflected in the search results at the next search.
次に1本発明の文書検索装置の実施例を添付図面を参照
して説明する。Next, an embodiment of a document retrieval device according to the present invention will be described with reference to the accompanying drawings.
本発明の文書検索装置はキーワードと各登録文書間の関
連を記述するキーワードコネクションを用いる。各文書
に対し利用者の検索要求に近いものほど大きな値を持つ
ような文書確度という評価値を導入し、文書検索時には
その文書確度の大小をもとに利用者が要求を満たす文書
を柔軟に選択する。The document search device of the present invention uses keyword connections that describe the relationship between keywords and each registered document. For each document, we introduce an evaluation value called document accuracy, which has a larger value as it is closer to the user's search request, and when searching for documents, users can flexibly select documents that meet their requirements based on the degree of document accuracy. select.
キーワードコネクションは、キーワード間の関連を記述
したものである。キーワードコネクションでは、関連の
大きさを0〜lの範囲とし。A keyword connection describes a relationship between keywords. For keyword connections, the magnitude of association is in the range 0 to l.
0はキーワード間に関係がないこと、0以上の値は関係
があること、さらに、1は関係の大きさが最大であるこ
とを表現するものとする。0 represents that there is no relationship between the keywords, a value of 0 or more represents that there is a relationship, and 1 represents that the magnitude of the relationship is maximum.
キーワードコネクションは2次元配列として捉えること
もできる。その場合、i番目のキーワードとj番目のキ
ーラードの関速度はWi(K j )あるいはもっと簡
単にWijで表現される。Keyword connections can also be viewed as a two-dimensional array. In that case, the relationship velocity between the i-th keyword and the j-th Keyard is expressed as Wi(K j ) or more simply Wij.
本発明の文書検索装置の構成を第1図に示す。FIG. 1 shows the configuration of a document retrieval device according to the present invention.
キーワード抽出部10は、登録文書11を入力すると、
そのキーワードを抽出し、キーワードおよび登録文書1
1を文書情報管理部20、キーワードコネクション表処
理部30.インバーテツドファイル作成部40へ出力す
る。When the keyword extraction unit 10 inputs the registered document 11,
Extract the keyword, keyword and registered document 1
1, a document information management section 20, a keyword connection table processing section 30. It is output to the inverted file creation section 40.
文書管理部20、キーワードコネクション表処理部30
.インバーテツドファイル作成部40は、それぞれファ
イル21,31.41を有する。文書情報管理部20は
、キーワードと書誌的情報をファイル21に格納し、検
索時に利用可能な形にデータベース化する。Document management section 20, keyword connection table processing section 30
.. The inverted file creation section 40 has files 21, 31, and 41, respectively. The document information management unit 20 stores keywords and bibliographic information in a file 21, and creates a database in a format that can be used during a search.
キーワードコネクション表管理部20は、必要なキーワ
ードとキーワードコネクション(以下関連情報と称する
)を記述したキーワードコネクション表を作成して、フ
ァイル31に格納する。さらに、要求処理部54からの
要求があれば、関連情報の重みを変更する。The keyword connection table management unit 20 creates a keyword connection table that describes necessary keywords and keyword connections (hereinafter referred to as related information), and stores it in the file 31. Furthermore, if there is a request from the request processing unit 54, the weight of the related information is changed.
インバーテツドファイル作成部40は、キーワードと文
書の関係を記述し、ファイル41に格納する。The inverted file creation unit 40 describes the relationship between keywords and documents, and stores it in a file 41.
文書選出部50は各部51〜55よりなる。The document selection section 50 consists of sections 51 to 55.
文書確度計算部51は要求処理部54から転送されてき
た検索式に基づき、ファイル31に格納されているキー
ワードコネクション表内の必要な情報を用いて各文書毎
に文書確度を計算する。計算方式は後で詳しく説明する
。The document accuracy calculation unit 51 calculates the document accuracy for each document based on the search formula transferred from the request processing unit 54 and using necessary information in the keyword connection table stored in the file 31. The calculation method will be explained in detail later.
文書ソート部52は文書確度計算部51で計算された文
書確度の大きい順にファイル21に格納されている文書
を整列し1表示管理部55に転送する。The document sorting unit 52 arranges the documents stored in the file 21 in descending order of document accuracy calculated by the document accuracy calculation unit 51 and transfers them to the 1 display management unit 55.
表示管理部55は要求処理部53から与えられる利用者
の指示に従い検索結果を表示する。The display management section 55 displays search results according to the user's instructions given from the request processing section 53.
学習管理部54は要求処理部S3から与えられる利用者
の指示に従いキーワードコネクションの学習を行う。学
習管理部54ではキーワードコネクションの各重みをど
の程度変化させるかの計算を行い、実際の値の変更はキ
ーワードコネクション表処理部30に指示を与えること
で実現される。学習方式は後で詳しく説明する。The learning management unit 54 performs keyword connection learning according to the user's instructions given from the request processing unit S3. The learning management unit 54 calculates how much each weight of the keyword connection should be changed, and the actual value change is realized by giving an instruction to the keyword connection table processing unit 30. The learning method will be explained in detail later.
要求処理部53は、検索要求にあった文書を検索するた
めに文書確度計算部51に対して、受理した検索式を転
送する。同時に必要があれば、最終的なキーワード群に
関する関連情報の重みの変更をキーワードコネクション
表処理部30に指示する。The request processing unit 53 transfers the received search expression to the document certainty calculation unit 51 in order to search for a document matching the search request. At the same time, if necessary, the keyword connection table processing unit 30 is instructed to change the weight of related information regarding the final keyword group.
文書検索処理は利用者の要求に従い、適切な文書を検索
表示することを目的としている。文書選択処理は文書選
出部sOで行われる。The purpose of document search processing is to search and display appropriate documents according to user requests. The document selection process is performed by the document selection unit sO.
検索条件はキーワードの指定およびその他書誌的情報に
対する条件設定により行われる。まず、各文書のキーワ
ード以外の条件設定が満たされているか否かが判定され
る。条件が満たされている場合、その文書の文書確度の
計算が行われ、条件が満たされていない場合、その文書
の文書確度の計算は行われず値は0とされる。Search conditions are performed by specifying keywords and setting conditions for other bibliographic information. First, it is determined whether condition settings other than keywords for each document are satisfied. If the conditions are met, the document accuracy of the document is calculated; if the conditions are not met, the document accuracy of the document is not calculated and the value is set to 0.
キーワードの指定は、利用者の得たい情報を表現するキ
ーワード式によって行う。キーワード式とは1つのキー
ワードあるいは複数のキーワードをOR(和演算)によ
り結合させたものである。複数のキーワードの結合が用
いられるのは文書管理装置内に利用者が得ようとしてい
る情報を表現する1語のキーワードが存在していない場
合である。Keywords are specified using keyword expressions that express the information the user wants to obtain. A keyword expression is a combination of one keyword or multiple keywords using OR (sum operation). A combination of multiple keywords is used when a single keyword expressing the information the user is trying to obtain does not exist in the document management device.
つぎに、キーワード式Queryに対する各文書確度の
計算法を示す(実際の計算は文書選出部50内の文書確
度計算部で行われる)。Next, a method of calculating each document accuracy for the keyword expression Query will be described (the actual calculation is performed by the document accuracy calculation unit in the document selection unit 50).
本発明による文書確度の計算において代数和eを用いる
。The algebraic sum e is used in the document accuracy calculation according to the present invention.
xFBy=x+y−xy=1 (1x)(1−y)ま
た、
ΦXj=X1ΦX2e −eXn=1−77(1−Xj
)j
である。xFBy=x+y-xy=1 (1x) (1-y) Also, ΦXj=X1ΦX2e -eXn=1-77(1-Xj
)j.
文書確度とは、各文書と利用者の指定した検索式の関連
の強さを表す数値である。本発明のキーワードコネクシ
ョンの学習法は検索式がキーワードが1つあるいは複数
のキーワードの論理和である場合を対象としているので
、その場合の計算法を説明する。鷹ず、各キーワードに
ついてキーワードコネクションの重みの検索式に含まれ
るキーワードの集合に関する代数和を求める。つぎに、
その結果のm番目の文書に含まれるキーワードの集合K
L (m)に関する代数和を求め、それを文書確度と
する。The document accuracy is a numerical value representing the strength of the relationship between each document and the search formula specified by the user. Since the keyword connection learning method of the present invention is intended for the case where the search expression is the logical sum of one or more keywords, the calculation method in that case will be explained. For each keyword, we calculate the algebraic sum of the set of keywords included in the keyword connection weight search formula. next,
A set K of keywords included in the resulting m-th document
Find the algebraic sum regarding L (m) and use it as the document accuracy.
ここで、1はいま注目しているm番目の文書についてい
るキーワードの隼合K L (m)の要素、jは検索式
に含まれるキーワードの集合QUERYの要素をとる。Here, 1 is an element of the combination of keywords K L (m) for the m-th document of interest, and j is an element of the set of keywords QUERY included in the search expression.
さらに、(A2)式の関係を用いることで、次のように
変形できる。Furthermore, by using the relationship of equation (A2), it can be modified as follows.
文書選出部50の文書確度計算部51で文書確度が計算
されたならば、次に、文書選出部SOの文書ソート部5
2で文書を文書確度の大きい順にソートする。そして、
その結果が表示管理部55に送られ利用者に表示される
。Once the document accuracy calculation unit 51 of the document selection unit 50 calculates the document accuracy, next, the document sorting unit 5 of the document selection unit SO
In step 2, documents are sorted in descending order of document accuracy. and,
The results are sent to the display management section 55 and displayed to the user.
本発明によるキーワードコネクションの学習方式を適用
できるキーワードコネクションは、各重みがθ〜1の範
囲内の値を取り、i = jの場合、重みが1に固定さ
れるものである。A keyword connection to which the keyword connection learning method according to the present invention can be applied is one in which each weight takes a value within the range of θ to 1, and the weight is fixed to 1 when i = j.
学習の方法はつぎの通りである。検索結果がどの程度利
用者の判断に近いかを評価する、すなわち、文書の文書
確度と利用者の判断との相違を数値化する評価関数Eを
あらかじめ設定しておく。この学習方式における評価関
数は後に具体的に示す。キーワードコネクションの学習
において、キーワードラネクシ1ンの重みをいま定義し
た評価関数Eの値を小さくするように変更する。The learning method is as follows. An evaluation function E is set in advance to evaluate how close the search results are to the user's judgment, that is, to quantify the difference between the document accuracy of a document and the user's judgment. The evaluation function in this learning method will be specifically shown later. In the learning of keyword connections, the weight of the keyword Lanexi 1 is changed so as to reduce the value of the evaluation function E just defined.
Wi j 4−Wi j+αΔWij
ここで、
また、αは正の定数で学習の速度を決定する学習係数で
ある。変更量ΔWijの決定は最急降下法に基づいて行
われる。すなわち、
以下で、2つの学習方式1・2で評価関数Eがどのよう
に与えられ、それに基づいてキーワードコネクションの
変更量Nijがどのように与えられるか詳しく説明する
。Wi j 4-Wi j+αΔWij where α is a positive constant and is a learning coefficient that determines the learning speed. The amount of change ΔWij is determined based on the steepest descent method. That is, how the evaluation function E is given in the two learning methods 1 and 2, and how the change amount Nij of keyword connections is given based on it will be explained in detail below.
(学習方式1)
学習方式1では、ある1つの文書が検索式に対し適切あ
るいは不適切であるか利用者によりて判断される。評価
関数Eは、ある文書のファイル確度と利用者の判断を数
値化したもの(適切である文書に対しては1、不適切で
ある文書に対してはOが与えられる)の差の2乗として
、つぎのように与えられる。(Learning method 1) In learning method 1, the user determines whether a certain document is appropriate or inappropriate for a search expression. The evaluation function E is the square of the difference between the file accuracy of a certain document and the user's judgment (1 is given to a document that is appropriate, and O is given to a document that is inappropriate). is given as follows.
ここで、FCmはm番目の文書の文書確度である。Here, FCm is the document certainty of the m-th document.
以下で■文書が適切と判断された場合、■文書が不適切
と判断された場合で変更量、lfwijの計算式が異な
るので、2つの場合に分けて計算式を詳細に説明する。In the following, the calculation formula for the change amount and lfwij is different depending on (1) when the document is determined to be appropriate and (2) when the document is determined to be inappropriate, so the calculation formula will be explained in detail in two cases.
■ 文書が適切と判断された場合
まず、評価関数Eの重みWijによる偏微分は(A4)
式よシ、
ここで、kはいま注目しているm番目の文書についてい
るキーワードの集合K L (m)の要素、1は検索式
に含まれるキーワードの集合QUER?の要素をとる。■ When the document is judged to be appropriate First, the partial differential of the evaluation function E with respect to the weight Wij is (A4)
Here, k is an element of the set of keywords K L (m) for the m-th document of interest, and 1 is the set of keywords included in the search formula QUER? Take the elements of
ただし、(k*t)が(i、j)となる組合せは除く。However, combinations in which (k*t) becomes (i, j) are excluded.
(6)式において、Wij鋒lの場合、と書き換えるこ
とができ、偏微分の計算量を減らすことができる。Wi
j = 1の場合、変更量は正となり、一方キーワード
コネクシlンの重みは0から1の範囲になければならな
いので、実際に値を変更することはできない。したがっ
て、となる。In Equation (6), it can be rewritten as in the case of Wij Fengl, and the amount of calculation of partial differentials can be reduced. Wi
When j = 1, the amount of change is positive, and on the other hand, the weight of the keyword connexin must be in the range from 0 to 1, so the value cannot actually be changed. Therefore, it becomes.
■ 文書が不適切と判断された場合
まず、先はどの指標E1の重みWiJによる偏微分は
FCmのWijによる偏微分は、先はどの(6)式で与
えられる。しかし、■で計算を省略可能だったWij=
1の場合、今回は省略せずに計算しなければならない。■ When a document is judged to be inappropriate First, which index E1 should be given a partial differential by the weight WiJ?The partial differential of FCm by Wij should be given by equation (6). However, Wij =
In the case of 1, you must calculate without omitting it this time.
したがって、 となる。therefore, becomes.
さて、以上のように■・■の場合にそれぞれAVijが
求められる。実際の重みの変更はAVijが0でない場
合についてのみ行えば良く、またi=jの場合重みの値
はlに固定なので、キーワードコネクションの学習のフ
ローチャートは第2図および第3因に示す通りになる。Now, as described above, AVij can be found in each case of ■ and ■. The actual weight needs to be changed only when AVij is not 0, and the weight value is fixed to l when i = j, so the flowchart for learning keyword connections is as shown in Figure 2 and the third factor. Become.
この学習方式によれば、利用者の判断、指示に基づいて
キーワードコネクションを変更し、次の検索時にその判
断、指示を検索結果に反映させることができる。しかも
高速で検索できるから対話処理に適している。この方式
によれば、日常検索時にキーワードコネクションを少し
づつ改良することができる。According to this learning method, keyword connections can be changed based on the user's judgment and instructions, and those judgments and instructions can be reflected in the search results at the time of the next search. Furthermore, it can be searched at high speed, making it suitable for interactive processing. According to this method, keyword connections can be improved little by little during daily searches.
(学習方式2)
学習方式2では、全文書が1文書ごとに検索式に対し適
切あるいは不適切であるか利用者によって判断される。(Learning method 2) In learning method 2, the user determines whether all documents are appropriate or inappropriate for the search expression, document by document.
評価関数Eは、ある文書のファイル確度と利用者の判断
を数値化したFCm(利用者の適切・不適切の判断を表
し、適切である文書に対しては1、不適切である文書に
対しては0が与えられる)の差の2乗の全文書に対する
和として、つぎのように与えられる。The evaluation function E is FCm, which quantifies the file accuracy of a certain document and the user's judgment. The sum of the squares of the differences over all documents is given as follows.
実際には、fCmを与える際に利用者は適切であるもの
だけを検索装置に教えればよい。また、mは全文書の集
合ALLDOCO中の要素を取る。In fact, when providing fCm, the user only needs to tell the search device what is appropriate. Further, m takes an element in the set ALLDOCO of all documents.
まず、評価関数Eの重みWijによる偏微分はFCmの
Wijによる偏微分は、前記(6)式で与えられる。(
6)式によれば、m番目の文書についているキーワード
に1番目のキーワードが含まれていない場合その偏微分
は0となるので、(2)式でmは全文書の集合の要素を
取るとせず、1番目のキーワードを含む文書の集合DO
C(lの要素を取るとできる。First, the partial differential of the evaluation function E with respect to the weight Wij and the partial differential of FCm with respect to Wij are given by the above equation (6). (
According to equation 6), if the keywords in the m-th document do not include the first keyword, the partial differential is 0, so in equation (2), m takes the element of the set of all documents. A set of documents containing the first keyword DO
You can do this by taking the elements of C(l.
Wi j ’x; 1の場合、(7)式の書換えができ
る。Wi j 'x; In the case of 1, equation (7) can be rewritten.
Wij=1の場合、省略せずに計算しなければならない
。したがりて、 、:
となる。When Wij=1, it must be calculated without omission. Therefore, , : becomes.
以上のように席1jが求められる。実際の重みの変更は
#ljが0でない場合についてのみ行えば良く、またl
=jの場合重みの値はlに固定なので、キーワードコネ
クションの学習のフローチャートは第4図〜第6図に示
す通りになる。Seat 1j is determined as described above. Actual weight changes only need to be made when #lj is not 0, and l
In the case of =j, the weight value is fixed to l, so the flowchart of keyword connection learning is as shown in FIGS. 4 to 6.
この学習方式の場合にも、利用者の判断、指示に基づい
てキーワードコネクションを変更し、次の検索時にその
判断、指示を検索結果に反映させることができる。この
方式による処理は比較的低速であるため、パッチ処理に
適し、キーワードコネクションの初期設定時などに用い
られる。In the case of this learning method as well, keyword connections can be changed based on the user's judgment and instructions, and those judgments and instructions can be reflected in the search results at the time of the next search. Processing using this method is relatively slow, so it is suitable for patch processing and is used when initializing keyword connections.
本発明によれば、あいまい検索が可能であシ、利用者の
判断、指示に基づいてキーワードコネクションを変更し
、次の検索時にその判断、指示を検索結果に反映させる
ことができる。その結果、利用者が過去に必要とした文
書が上位にランクされるようになシ、検索を効率化でき
る。According to the present invention, vague searches are possible, keyword connections can be changed based on the user's judgments and instructions, and the judgments and instructions can be reflected in the search results at the time of the next search. As a result, documents that the user has needed in the past are ranked higher, making the search more efficient.
逆に、利用者が過去に不必要とした文書は下位にランク
されるようになシ、検索を効率化できる。さらに、利用
者が用いないキーワードは不必要として取シ除くことが
可能であシ、記憶装置の効率利用が可能である。Conversely, documents that the user has deemed unnecessary in the past are ranked lower, making the search more efficient. Furthermore, keywords that are not used by the user can be removed as unnecessary, and the storage device can be used efficiently.
第1図は本発明による文書検索装置の一実施例を示すブ
ロック図、
第2図、第3図は本発明による文書検索装置において行
われる学習方式を示すフローチャート、
第4図、第5図、第6図は本発明による文書検索装置に
をいて行われる他の学習方式を示すフローチャートであ
る。
主要部分の符号の説明
1G・・・キーワード抽出部
11・・・登録文書
12・・・書誌情報
20・・・文書情報管理部
21.31.41・・・ファイル
30・・・キーワードコネクション表処理部40・・・
インバーテツドファイル作成部50・・・文書選出部
51・・・文書確度計算部
52・・・文書ソート部
53・・・要求処理部
54・・・学習管理部
55・・・表示管理部
O・・・キーボー
ド
0・・・デイスプレィFIG. 1 is a block diagram showing an embodiment of a document search device according to the present invention; FIGS. 2 and 3 are flowcharts showing a learning method performed in the document search device according to the present invention; FIGS. 4 and 5; FIG. 6 is a flowchart showing another learning method performed using the document search device according to the present invention. Explanation of symbols of main parts 1G...Keyword extraction section 11...Registered document 12...Bibliographic information 20...Document information management section 21.31.41...File 30...Keyword connection table processing Part 40...
Inverted file creation section 50...Document selection section 51...Document accuracy calculation section 52...Document sorting section 53...Request processing section 54...Learning management section 55...Display management section O ...Keyboard 0...Display
Claims (1)
る際、該文書情報によりキーワードを抽出するキーワー
ド抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
バーテッドファイルを作成するインバーテッドファイル
作成手段と、 前記キーワード間の関連情報の関連度を記述したキーワ
ードコネクション表を作成し、既に記録されている関連
情報の前記関連度の値を変更し、新規関連情報を生成す
るキーワードコネクション表処理手段と、 入力されたキーワードにより前記キーワードコネクショ
ン表および前記インバーテッドファイルから検索式に合
致した文書を選出する文書選出手段と有する文書検索装
置において、 該文書選出手段は、特定のキーワード群と各ファイル内
の登録文書のキーワード群との間の関連の強さを示す値
を文書確度とし、前記キーワードコネクション表、前記
インバーテッドファイルおよび所定の方法により文書確
度を計算する文書確度計算手段を有し、 前記文書選出手段は、前記検索式が入力されると文書確
度の大きさの順に検索結果の文書を出力し、該文書ごと
の前記文書確度の可否が入力されると、所定の方法によ
りキーワードコネクションを変更することを特徴とする
文書検索装置。 2、登録文書およびその文書情報がファイルに登録され
る際、該文書情報によりキーワードを抽出するキーワー
ド抽出手段と、 前記登録文書と前記キーワードとの間の関連を示すイン
バーテッドファイルを作成するインバーテッドファイル
作成手段と、 前記キーワード間の関連情報の関連度を記述したキーワ
ードコネクション表を作成し、既に記録されている関連
情報の前記関連度の値を変更し、新規関連情報を生成す
るキーワードコネクション表処理手段と、 入力されたキーワードにより前記キーワードコネクショ
ン表および前記インバーテッドファイルから検索条件に
合致した文書を選出する文書選出手段と有する文書検索
装置において、該文書選出手段は、特定のキーワード群
と各ファイル内の登録文書のキーワード群との間の関連
の強さを示す値を文書確度とし、前記キーワードコネク
ション表、前記インバーテッドファイルおよび所定の方
法により文書確度を計算する文書確度計算手段を有し、 前記文書選出手段は、前記検索式および文書群が入力さ
れると文書確度の大きさの順に検索結果の文書を出力し
、さらに、所定の方法によりキーワードコネクションを
変更することを特徴とする文書検索装置。[Claims] 1. Keyword extracting means for extracting keywords from the document information when a registered document and its document information are registered in a file; and an inverted keyword indicating a relationship between the registered document and the keyword. an inverted file creation means that creates a file; and a keyword connection table that describes the degree of association of related information between the keywords, changes the value of the degree of association of related information that has already been recorded, and generates new related information. A document retrieval device comprising: a keyword connection table processing means for generating a keyword connection table; and a document selection means for selecting a document matching a search formula from the keyword connection table and the inverted file according to an input keyword, the document selection means comprising: A document whose document accuracy is calculated using the keyword connection table, the inverted file, and a predetermined method, with document accuracy being a value indicating the strength of association between a specific keyword group and a keyword group of registered documents in each file. The document selection means includes a probability calculation means, when the search formula is input, the document selection means outputs documents as search results in order of document probability, and when the document probability of each document is input. , a document retrieval device characterized in that a keyword connection is changed by a predetermined method. 2. Keyword extraction means for extracting keywords from the document information when a registered document and its document information are registered in a file; and an inverted file for creating an inverted file indicating the relationship between the registered document and the keywords. a keyword connection table that creates a keyword connection table that describes the degree of association of related information between the keywords, changes the value of the degree of association of related information that has already been recorded, and generates new related information; In a document retrieval device comprising a processing means and a document selection means for selecting a document matching a search condition from the keyword connection table and the inverted file according to an input keyword, the document selection means selects a document matching a specific keyword group and each document. A value indicating the strength of association between a keyword group of a registered document in a file is defined as document accuracy, and the document accuracy calculation means calculates document accuracy using the keyword connection table, the inverted file, and a predetermined method. , wherein the document selection means outputs documents as search results in order of document certainty when the search formula and document group are input, and further changes keyword connections according to a predetermined method. Search device.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP18798888 | 1988-07-29 | ||
| JP63-187988 | 1988-07-29 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH02125363A true JPH02125363A (en) | 1990-05-14 |
| JP2954949B2 JP2954949B2 (en) | 1999-09-27 |
Family
ID=16215656
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1186051A Expired - Lifetime JP2954949B2 (en) | 1988-07-29 | 1989-07-20 | Document search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2954949B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05101106A (en) * | 1991-05-16 | 1993-04-23 | Internatl Business Mach Corp <Ibm> | Question answer system |
| JPH09288683A (en) * | 1995-09-04 | 1997-11-04 | Matsushita Electric Ind Co Ltd | Information filter device and information filtering method |
| JPH11259504A (en) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | Database creation device and database search device |
-
1989
- 1989-07-20 JP JP1186051A patent/JP2954949B2/en not_active Expired - Lifetime
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05101106A (en) * | 1991-05-16 | 1993-04-23 | Internatl Business Mach Corp <Ibm> | Question answer system |
| JPH09288683A (en) * | 1995-09-04 | 1997-11-04 | Matsushita Electric Ind Co Ltd | Information filter device and information filtering method |
| JPH11259504A (en) * | 1998-03-11 | 1999-09-24 | Mitsubishi Electric Corp | Database creation device and database search device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2954949B2 (en) | 1999-09-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Crouch et al. | The use of cluster hierarchies in hypertext information retrieval | |
| US8275773B2 (en) | Method of searching text to find relevant content | |
| US5960422A (en) | System and method for optimized source selection in an information retrieval system | |
| JP4116329B2 (en) | Document information display system, document information display method, and document search method | |
| US6574632B2 (en) | Multiple engine information retrieval and visualization system | |
| US6772148B2 (en) | Classification of information sources using graphic structures | |
| US6334131B2 (en) | Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures | |
| US6480835B1 (en) | Method and system for searching on integrated metadata | |
| US20020091679A1 (en) | System for searching collections of linked objects | |
| JP3577819B2 (en) | Information search apparatus and information search method | |
| Dubois et al. | Fuzzy logic techniques in multimedia database querying: A preliminary investigation of the potentials | |
| Lin et al. | ACIRD: intelligent Internet document organization and retrieval | |
| JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
| JPH09231238A (en) | Text search result display method and device | |
| Suanmali et al. | Feature-based sentence extraction using fuzzy inference rules | |
| Hoeber et al. | Interactive Web information retrieval using WordBars | |
| JPH07192020A (en) | Document information retrieval device | |
| JP2829745B2 (en) | Document search device | |
| JPH02125363A (en) | Document retrieving device | |
| JPH08272806A (en) | Database search system | |
| JPH04152468A (en) | Document retrieving device | |
| JP2006127523A (en) | Document information display system | |
| JPH0227478A (en) | document management device | |
| JP2000105769A (en) | Document display method | |
| JP3088805B2 (en) | Document management device |