JPH03131971A - document search device - Google Patents

document search device

Info

Publication number
JPH03131971A
JPH03131971A JP1271160A JP27116089A JPH03131971A JP H03131971 A JPH03131971 A JP H03131971A JP 1271160 A JP1271160 A JP 1271160A JP 27116089 A JP27116089 A JP 27116089A JP H03131971 A JPH03131971 A JP H03131971A
Authority
JP
Japan
Prior art keywords
document
accuracy
sub
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1271160A
Other languages
Japanese (ja)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1271160A priority Critical patent/JPH03131971A/en
Publication of JPH03131971A publication Critical patent/JPH03131971A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To shorten the time required for retrieval by setting up document accuracy to '0' when the calculated result of sub-document probability for a certain sub-retrieval condition expression becomes '0'. CONSTITUTION:Document accuracy indicating relation between the keyword group of respective documents in a document information data base 7 and a keyword in a retrieval condition expression specified by a user is calculated by a document probability calculating part 12. The document accuracy of the sub-retrieval condition expression is calculated at first, and then the product of the sub-document accuracy results of all sub-retrieval condition expressions is found out as document accuracy. When a certain sub-document accuracy is '0' even if the other sub-document accuracy has a value other than '0', the final document accuracy becomes '0' without fail. When the sub-document accuracy of a certain sub-retrieval condition expression is '0' in the case of finding out the document accuracy of a certain document, the document accuracy consisting of the product of sub-document accuracy results can be set up to '0' without calculating the residual sub-document accuracy in the document concerned.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書検索装置、特に、検索時に利用者の感覚
に近いキーワード群を生成でき、さらに、検索結果が利
用者の検索要求に近いものほど大きな値を持つ評価値に
よって順序付けられるような柔軟で高速な文書検索装置
に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a document retrieval device, and particularly to a document retrieval device, which can generate a group of keywords that are close to the sense of the user during a search, and furthermore, the closer the search results are to the user's search request, the more the search results are searchable. The present invention relates to a flexible and high-speed document retrieval device that can be ordered by evaluation values having large values.

従来の技術 従来の文書検索装置では、文書登録時に登録オペレータ
が適切と思われるキーワードを選択し、シソーラスによ
り適切に分類し、キーワードの追加、削除に伴いシソー
ラスを更新する作業がかなり煩雑である。また、検索時
に、利用者が指定した検索条件を概ね満たす文書を検索
するためには、検索条件を検討し直した上で再度の検索
が必要となる。
2. Description of the Related Art In conventional document retrieval devices, when registering a document, a registration operator has to select keywords deemed appropriate, classify them appropriately using a thesaurus, and update the thesaurus as keywords are added or deleted, which is quite a complicated task. Furthermore, in order to search for documents that generally satisfy the search conditions specified by the user during a search, it is necessary to reconsider the search conditions and perform the search again.

このような問題を解決するため、キーワード間の関連情
報なるキーワードコネクションを利用し、文書検索時に
は利用者の検索要求に近いものほど大きな値を持つ文書
確度という評価値を導入し、文書確度を基に利用者が要
求を満たす文書を柔軟に検索できるようにした文書検索
装置が、本出願人により特願昭63−8291号として
提案されている。また、利用者の判断・指示に基づいて
キーワードコネクションの各重みを変更し、次の検索時
にその判断を検索結果に反映させる学習機能を持たせた
ものも特願昭63−197988号として提案されてい
る。さらには、利用者の文書検索条件として、複数のキ
ーワードを論理積・論理和・否定なる演算子の任意の組
合せで結合させた検索式に対しても文書確度が計算でき
るよう改良し、適切な学習機能を持たせたものも提案さ
れている。
In order to solve these problems, we use keyword connections, which are related information between keywords, and introduce an evaluation value called document accuracy, which has a larger value when searching for documents, as the closer it is to the user's search request. A document retrieval device that allows a user to flexibly search for documents that meet their requirements has been proposed by the present applicant in Japanese Patent Application No. 8291/1983. Furthermore, a system with a learning function that changes the weight of each keyword connection based on the user's judgment and instructions and reflects that judgment in the search results at the next search was proposed in Japanese Patent Application No. 197988. ing. Furthermore, we have improved the document accuracy so that it can be calculated for search expressions in which multiple keywords are combined using any combination of AND, logical OR, and negation operators as document search conditions for users. Devices with a learning function have also been proposed.

発明が解決しようとする課題 ところが、このようなキーワードコネクションを用いた
提案内容においては、文書確度の計算量が比較的多いた
め、処理時間のかかるものとなる。
Problems to be Solved by the Invention However, in the content of proposals using such keyword connections, the amount of calculation for document accuracy is relatively large, so it takes a long processing time.

課題を解決するための手段 登録文書及びその書誌的情報を文書データベースに登録
する際に前記登録文書からキーワードを抽出するキーワ
ード抽出手段と、前記登録文書と前記キーワードとの間
の関連を示すインバーテツドファイルの作成及び変更を
行うインバーテツドファイル管理手段と、前記キーワー
ド間の関連情報を記述したキーワードコネクション表の
作成及び変更を行うキーワードコネクション表管理手段
とを設け、利用者が入力した検索条件式に含まれるキー
ワードと各ファイル内の登録文書のキーワード群との間
の関連の強さを示す値を文書確度と定義して前記キーワ
ードコネクション表、インバーテツドファイル及び所定
の方法により文書確度を計算する文書確度計算手段と、
算出された文書確度の大きさの順に検索結果の文書を出
力する文書ソート・表示管理手段と、検索結果内の文書
毎に与えられている文書確度を利用者が対話的に適切か
否か判断指示した時に所定の方法によりキーワードコネ
クションの重みを変更させる学習管理手段とを有して前
記検索条件式に合致した文書を選出する文書選出手段を
設け、キーワードを論理和・否定の論理演算子で結合し
た副検索条件式に対する文書確度で定義される副文書確
度の算出結果の何れかがOになった時、全開検索条件式
に対する残りの副文書確度の算出を停止しその文書確度
をOとするようにした。
Means for Solving the Problems Keyword extraction means for extracting keywords from the registered document when registering a registered document and its bibliographic information in a document database; and an inverter that indicates the relationship between the registered document and the keyword. an inverted file management means for creating and changing a keyword file; and a keyword connection table management means for creating and changing a keyword connection table that describes related information between the keywords; The document accuracy is defined as a value indicating the strength of the relationship between the keywords included in the expression and the keyword group of the registered documents in each file, and the document accuracy is calculated using the keyword connection table, the inverted file, and a predetermined method. a document accuracy calculation means for calculating;
A document sorting/display management means that outputs search result documents in the order of the calculated document accuracy, and a user who interactively determines whether the document accuracy given to each document in the search results is appropriate. A document selection means is provided which has a learning management means for changing the weight of a keyword connection according to a predetermined method when instructed to select a document that matches the search condition expression, and a document selection means for selecting a document that matches the search condition expression, When any of the calculation results of the sub-document probabilities defined by the document probabilities for the combined sub-search condition expressions becomes O, the calculation of the remaining sub-document probabilities for the fully open search condition expressions is stopped and the document certainty is set to O. I decided to do so.

作用 文書確度の計算に際しては、全ての文書について副文書
確度を副検索条件式の数だけ行わなければならないが、
ある副文書確度がOの時には、他の副文書確度がOでな
くても、最終的な文書確度は必ずOとなる。よって、文
書確度の計算に際して、ある副検索条件式に対する副文
書確度の算出結果がOとなった時点で文書確度をOとす
ればよく、その文書について残りの副文書確度の計算が
不要となり、文書確度の計算を高速化できる。これによ
り、検索に要する時間が短縮され、検索を効率的に行え
る。
When calculating the working document certainty, it is necessary to calculate the subdocument certainty for all documents as many times as there are subsearch condition expressions.
When the accuracy of a certain subdocument is O, even if the accuracy of other subdocuments is not O, the final document accuracy is always O. Therefore, when calculating the document accuracy, the document accuracy can be set to O when the calculation result of the sub-document accuracy for a certain sub-search condition expression becomes O, and there is no need to calculate the remaining sub-document accuracy for that document. It can speed up the calculation of document accuracy. As a result, the time required for a search is shortened, and the search can be performed efficiently.

実施例 本発明の一実施例を図面に基づいて説明する。Example An embodiment of the present invention will be described based on the drawings.

まず、本発明の文書検索装置では、前述した既提案方式
と同様に、キーワードコネクションという概念を用いる
ことを前提とする。また、各文書に対し利用者の検索要
求に近いものほど大きな値を持つような文書確度という
評価値なる概念も導入し、文書検索時にはその文書確度
の大小を基に利用者が要求を満たす文書を柔軟に選択で
きるようにしたものである。キーワードコネクションと
は、キーワード間の関連を記述したものである。
First, the document retrieval device of the present invention is premised on the use of the concept of keyword connection, similar to the previously proposed method described above. In addition, we have introduced the concept of evaluation value called document accuracy, which has a larger value for each document as it is closer to the user's search request, and when searching for a document, the user can search for documents that satisfy the user's request based on the degree of document accuracy. This allows for flexible selection. A keyword connection is a description of a relationship between keywords.

具体的に、本実施例のキーワードコネクションでは関連
の大きさをOから1までの範囲とし、Oはキーワード間
に関係がないこと、0以上の値は関係があり、特にlで
関係の大きさが最大であることを表現するものである。
Specifically, in the keyword connection of this embodiment, the magnitude of the relationship is in the range from O to 1, where O indicates that there is no relationship between the keywords, and a value of 0 or more indicates that there is a relationship, and in particular, l indicates the magnitude of the relationship. is the maximum.

i番目のキーワードと3番目のキーワードとの関連情報
(以下、これを「重み」という)はWIJで表現できる
Related information between the i-th keyword and the third keyword (hereinafter referred to as "weight") can be expressed in WIJ.

このような前提において、本発明の文書検索装置は第1
図のように構成される。まず、キーワード抽出部1は登
録文書2を入力すると、その文書中からキーワードを抽
出し、キーワード及び登録文書2を文書情報管理部3、
キーワードコネクション表管理部4、インバーテツドフ
ァイル管理部5へ出力するものである。文書情報管理部
3はキーワードと書誌的情報6とをファイル7に格納し
、検索時に利用可能な形にデータベース化するものであ
る。キーワードコネクション表管理部4はキーワード間
の関連情報を記述したキーワードコネクション表を作成
しファイル8に格納する。さらに、学習管理部9からの
要求があればキーワードコネクションの重みを変更する
。インバーテツドファイル管理部5はキーワードと登録
文書との間の関連を示すインバーテツドファイルを作成
しファイルlOに格納する。
Under such a premise, the document retrieval device of the present invention
It is configured as shown in the figure. First, when the keyword extraction unit 1 inputs the registered document 2, it extracts keywords from the document, and the keywords and the registered document 2 are sent to the document information management unit 3,
It is output to the keyword connection table management section 4 and the inverted file management section 5. The document information management unit 3 stores keywords and bibliographic information 6 in a file 7, and converts the information into a database in a form that can be used at the time of searching. The keyword connection table management unit 4 creates a keyword connection table that describes related information between keywords and stores it in a file 8. Furthermore, if there is a request from the learning management section 9, the weight of the keyword connection is changed. The inverted file management section 5 creates an inverted file indicating the relationship between keywords and registered documents, and stores it in file IO.

文書選出部11は前記学習管理部9、文書確度計算部1
2、要求処理部13、文書ソート部14及び表示管理部
15よりなる。まず、文書確度計算部12は要求処理部
13から転送されてきたキーワードからなる検索条件式
に基づき、ファイル8に格納されているキーワードコネ
クション表内の必要な情報を用いて各文書毎に文書確度
を計算する。この計算方式は後述する。文書ソート部1
4は文書確度計算部12で算出された文書確度の大きい
順にファイル7に格納されている全文書をソートし、表
示管理部15に転送する。要求処理部13は利用者がキ
ーボード16から入力した検索条件式を文書確度計算部
12に対して転送する。
The document selection section 11 includes the learning management section 9 and the document accuracy calculation section 1.
2, a request processing section 13, a document sorting section 14, and a display management section 15. First, the document accuracy calculation unit 12 uses the necessary information in the keyword connection table stored in the file 8 to calculate the document accuracy for each document based on the search condition expression consisting of keywords transferred from the request processing unit 13. Calculate. This calculation method will be described later. Document sorting section 1
4 sorts all documents stored in the file 7 in descending order of document accuracy calculated by the document accuracy calculation unit 12 and transfers the sorted documents to the display management unit 15. The request processing unit 13 transfers the search condition expression input by the user from the keyboard 16 to the document certainty calculation unit 12.

また、デイスプレィ17による検索結果の表示時に、利
用者が入力した表示指示を表示管理部15に転送する。
Further, when displaying search results on the display 17, a display instruction input by the user is transferred to the display management section 15.

さらに、利用者の指示があればキーワードコネクション
の学習に関する情報を学習管理部9に転送する。学習管
理部9は要求処理部13から与えられる利用者の指示に
従いキーワードコネクションの学習を行う。即ち、学習
管理部9ではキーワードコネクションの各重みの変化量
の計算を行うが、実際の重み値の変更はキーワー・ドコ
ネクション表管理部4に指示を与えることにより行われ
る。学習方式は後述する。表示管理部15は要求処理部
13から与えられる利用者の指示に従い検索結果をデイ
スプレィ17に表示させる。
Furthermore, if there is an instruction from the user, information regarding learning of keyword connections is transferred to the learning management section 9. The learning management unit 9 performs keyword connection learning according to the user's instructions given from the request processing unit 13. That is, the learning management section 9 calculates the amount of change in each weight of the keyword connection, but the actual change in the weight value is performed by giving an instruction to the keyword/connection table management section 4. The learning method will be described later. The display management section 15 displays the search results on the display 17 according to the user's instructions given from the request processing section 13.

文書検索処理は、利用者の要求に従い適切な文書を検索
表示することを目的とするものであり、そのための文書
選択処理が文書選出部11により行われる。
The purpose of the document search process is to search and display appropriate documents according to the user's request, and document selection processing for this purpose is performed by the document selection unit 11.

ここに、検索条件はキーワードの指定及びその他書誌的
情報に対する条件設定により行われる。
Here, the search conditions are determined by specifying keywords and setting conditions for other bibliographic information.

まず、各文書のキーワード以外の条件設定が満たされて
いるか否かが判定される。条件が満たされている場合、
その文書の文書確度の計算が後述のように行われる。条
件が満たされていない場合、その文書の文書確度の計算
は行われず、値は0とされる。
First, it is determined whether condition settings other than keywords for each document are satisfied. If the conditions are met,
The document accuracy of the document is calculated as described below. If the conditions are not met, the document accuracy of the document is not calculated and the value is set to zero.

キーワードの指定は、利用者の得たい情報を表現するキ
ーワードからなる検索条件式によって行う。検索条件式
とは、1つのキーワード或いは複数のキーワードをAN
D(論理積)・OR(論理和)・N0T(否定)で結合
させたものである。複数のキーワードの結合が用いられ
るのは、文書管理装置内に利用者が得ようとしている情
報を表現する1語のキーワードが存在していない場合で
ある。
Keywords are specified using a search condition expression consisting of keywords that express the information the user wants to obtain. A search condition expression is a keyword or multiple keywords.
They are combined using D (logical product), OR (logical sum), and NOT (negation). A combination of multiple keywords is used when a single keyword expressing the information the user is trying to obtain does not exist in the document management device.

次に、前述した既提案内容に含まれる検索条件式、文書
確度の計算方式及びキーワードコネクションの学習方式
について個別に説明する。
Next, the search condition expression, document accuracy calculation method, and keyword connection learning method included in the previously proposed contents will be individually explained.

A、検索条件式 本実施例の文書検索装置が入力として受は付ける検索条
件式は、キーワードがAND (論理積)・OR(論理
和)・NOT (否定)の演算子で結合されたものであ
る。これにより、例えば「キーワードAがない文書」 
「キーワードAとBとがともにある文書」等の検索を行
うことができる。キーワードをAND、OR,NOTで
任意に結合した検索条件式は、キーワードをOR,NO
Tで結合した副検索条件式のANDで結合した形式の積
標準形に変換できる。この変換は要求処理部13で行わ
れる。積標準形の検索条件式は、Query = S 
Q(1)*・・−* S Q(N)    −−−(1
)で表される。ここに、II * IIはANDを表し
、N22である。また、5Q(h)はORとNOTのみ
で構成される副検索条件式 %式% (2) を表す。ここで、” K Q + °′はq1番目のキ
ーワード、II 十IIは0R1rr 1 ++はNO
Tを表し、n≧0、m≧1、n+m≧1である。否定の
付かないキーワードの集合をQ+(h)、否定の付くキ
ーワードの集合をQih)とすると、 Q+(h) = (Kq、 、  −−、Kq、1Q 
(h)”= (Kqfl++ 、−・−・・・・・、K
qn+、)となる。ただし、Q+(h)、Q−(h)に
同時に含まれるキーワードはないものとする。このチエ
ツクは要求処理部13で行い、同時に含まれるキーワー
ドがあった場合、その旨がデイスプレィ17に表示され
、利用者に注意を喚起する。
A. Search Condition Expression The search condition expression that the document search device of this embodiment accepts as input is one in which keywords are combined using AND (logical product), OR (logical sum), and NOT (negation) operators. be. As a result, for example, "a document without keyword A"
Searches such as "documents containing both keywords A and B" can be performed. A search condition expression in which keywords are arbitrarily combined with AND, OR, NOT is a search condition expression that combines keywords with OR, NO.
It is possible to convert the sub-search condition expressions connected by T into the product standard form in the form of AND. This conversion is performed by the request processing unit 13. The search condition expression for the product standard form is Query = S
Q(1)*・・−* S Q(N) ---(1
). Here, II*II represents AND and is N22. Further, 5Q(h) represents a sub-search condition expression % expression % (2) consisting of only OR and NOT. Here, "K Q + °' is the q1th keyword, II 11 is 0R1rr 1 ++ is NO
represents T, and n≧0, m≧1, and n+m≧1. Let the set of keywords without negation be Q+(h) and the set of keywords with negation be Qih), then Q+(h) = (Kq, , --, Kq, 1Q
(h)”= (Kqfl++ , −・−・・・K
qn+, ). However, it is assumed that there are no keywords included in Q+(h) and Q-(h) at the same time. This check is performed by the request processing unit 13, and if there are keywords included at the same time, this fact is displayed on the display 17 to alert the user.

B0文書確度の計算方式 文書確度とは、文書データベース内の各文書のキーワー
ド群と利用者が指定する検索条件式中のキーワードとの
間の関連の強さを示す数値として定義され、文書確度計
算部12で計算される。
B0 Document accuracy calculation method Document accuracy is defined as a numerical value indicating the strength of the relationship between the keyword group of each document in the document database and the keyword in the search condition formula specified by the user. Calculated in section 12.

文書確度は、次の2ステツプで求められる。Document accuracy is determined by the following two steps.

a、副検索条件式に対する文書確度(これを、副文書確
度と呼ぶ)を計算する。
a. Calculate the document accuracy for the sub-search condition expression (this is called sub-document accuracy).

b、全開検索条件式に対する副文書確度の積を求め、文
書確度とする。
b. Calculate the product of the sub-document accuracy for the full-open search conditional expression and use it as the document accuracy.

文書確度は全文書について計算され、利用者の指定に従
って閾値処理等により適切な文書が選択され、検索結果
が求められる。
Document accuracy is calculated for all documents, appropriate documents are selected by threshold processing, etc. according to the user's specifications, and search results are obtained.

上記の2ステツプについて説明する。まず、最初のステ
ップである副検索条件式に対する副文書確度の計算は、
i番目の文書の6番目の副文書確度をri(h)とする
と、次の(3)式に従い行われる。
The above two steps will be explained. First, the first step is to calculate the subdocument probability for the subsearch condition expression.
If the 6th sub-document accuracy of the i-th document is ri(h), this is performed according to the following equation (3).

・・・・・・・・・・・・・・・・・・・・・(3)た
だし、A1をi番目の文書に索引として付されているキ
ーワードの集合とした時、RjJとsIJは次の(4)
(5)式により計算される。
・・・・・・・・・・・・・・・・・・・・・(3) However, when A1 is the set of keywords indexed to the i-th document, RjJ and sIJ are Next (4)
Calculated using equation (5).

ただし、 Wjkは5番目のキーワードとに番目のキーワードとの
間の関連度の大きさ (キーワード コネクションの重み)を示す。
However, Wjk indicates the degree of association between the fifth keyword and the second keyword (keyword connection weight).

Q+(h)或いはQ−(h)が空き集合(φ)の場合、
(3)式の代わりに、各々次の(6)(7)式が用いら
れる。
If Q+(h) or Q-(h) is an empty set (φ),
The following equations (6) and (7) are used instead of equation (3).

2番目のステップとして、N個の副検索条件式に対する
副文書確度を全て計算した後、文書確度を、(8)式に
より計算する。
As a second step, after calculating all sub-document probabilities for N sub-search condition expressions, document probabilities are calculated using equation (8).

C,キーワードコネクションの学習方式キーワードコネ
クションの学習は学習管理部9で行われる。キーワード
コネクションの学習方式は、例えば本出願人既提案の特
願平1−132696号記載の学習方式が用いられる。
C. Keyword connection learning method Keyword connection learning is performed by the learning management section 9. As the keyword connection learning method, for example, the learning method described in Japanese Patent Application No. 1-132696 proposed by the present applicant is used.

即ち、学習時の検索結果に対する利用者の判断を、正解
ならばriノ、不正解ならば「O」に割当て、曖昧な判
断は[0,1]間の実数値で表現する。文書確度Xに対
する利用者の判断を表す評価値をLとすると、評価関数
は次のように定義される。
That is, the user's judgment regarding the search result during learning is assigned ``ri'' if the answer is correct, ``O'' if the answer is incorrect, and an ambiguous judgment is expressed as a real value between [0, 1]. Letting L be the evaluation value representing the user's judgment regarding the document accuracy X, the evaluation function is defined as follows.

e(X) =−(t −X )″     ・・・・・
・・・・・・・・・・・・・(9)1回の学習では、い
ま注目している文書(ここでは、i番目の文書とする)
に対し、その文書に対する文書確度の評価関数の値e(
ri)を小さくするように、キーワードコネクションの
全ての重みが変更される。即ち、 Wmn 4−  g(Wmn + aΔWmn )  
  ・・・・−・・−(IQ)となる。ここに、aは正
の実数の学習係数であり、gは変更後のキーワードコネ
クションの値が[0,l]の範囲となるための正規化関
数である。
e(X) =-(t-X)''...
・・・・・・・・・・・・・・・(9) In one learning session, the document that is currently being focused on (here, the i-th document)
, the value e(
All weights of keyword connections are changed to reduce ri). That is, Wmn 4- g(Wmn + aΔWmn)
...--(IQ). Here, a is a learning coefficient of a positive real number, and g is a normalization function so that the value of the keyword connection after change falls within the range [0, l].

・・・・・・・・・・・・・・・・・・・・・・・・(
11)最急降下法を用いて変化分ΔWmnは(12)式
のように計算すればよい。
・・・・・・・・・・・・・・・・・・・・・・・・(
11) Using the steepest descent method, the variation ΔWmn can be calculated as shown in equation (12).

・・・・・・・・・・・・・・・・・・(12)ここで
、 (8)式より、 従って、 ・・・・・・・・・・・・・・・・・・・・・・・・(
14)変化分ΔWmnを求める計算式(14)において
、i (h )/ a Wmnは後述する(I5)〜(
17)式によって計算される。
・・・・・・・・・・・・・・・・・・(12) Here, from equation (8), therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
14) In the calculation formula (14) for calculating the change ΔWmn, i (h)/a Wmn is expressed as (I5) to (
17) Calculated by Eq.

従って、 rnc:Query かつ  E A である (m+ n) の組合せ以外では△Wmn==Oと なるので、ΔWmnの計算を行う必要があるのは、m1
EQuery  かつ nEAi である(m、n)の組合せだけである。
Therefore, △Wmn==O except for the combination of (m+n) where rnc:Query and E A
There are only combinations of (m, n) that are EQery and nEAi.

ΔWmnを計算するためには、ri(h)のWmnによ
る偏微分が計算できなければならない。ここに、Q”(
h)とQ−(h)とに同時に含まれるキーワードはない
、という仮定から、ri(h)のWmnによる偏微分は
次の3つの場合に分けて計算できる。
In order to calculate ΔWmn, it is necessary to be able to calculate the partial differential of ri(h) with respect to Wmn. Here, Q” (
Based on the assumption that there are no keywords included in h) and Q-(h) at the same time, the partial differential of ri(h) with respect to Wmn can be calculated in the following three cases.

1、mfEQ”(h)の場合 ・・・・・・・・・・・・・・・・・・・・・・・・・
・・(15)2゜ mEQ−(h)の場合 ・・・・・・・・・・・・・・・・・・・・・(1(3
゜ mlQ”(h)又はm1Q−(h)の場合(I5)〜(
17)式で計算される結果を(14)式に代入すればΔ
Wmnは求められるが、 (14)式をさらに簡 単にできる。
1. In the case of mfEQ” (h)・・・・・・・・・・・・・・・・・・・・・・・・
・・・(15) In the case of 2゜mEQ-(h)・・・・・・・・・・・・・・・・・・・・・(1(3
In the case of ゜mlQ'' (h) or m1Q-(h) (I5) ~ (
By substituting the result calculated by formula (17) into formula (14), Δ
Although Wmn can be found, equation (14) can be further simplified.

その場合、 i;0か否かによって 計算式が異なるので、 以下では2つの場合に分け て説明する。In that case, i; depending on whether it is 0 or not Since the calculation formula is different, Below, we divide into two cases. I will explain.

■。■.

i+oの場合 この時、 全てのh (l≦h≦N) に対して 1(h)≠0なので、 (8)式より と書換えることができるので、 (13)式は次のよう になる。In case of i+o At this time, all h (l≦h≦N) against Since 1(h)≠0, From equation (8) Since it can be rewritten as Equation (13) is as follows become.

jン 従って、 ・・・・・・・・・・・・・・・・・・・・・・・・(
20)■。
Therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
20)■.

i;0の場合 i=Oの時、 1(h)=Oであるhの個数に より計算式が変る。If i; 0 When i=O, The number of h such that 1(h)=O The calculation formula changes.

hの個数が1個の場合、その hをh*とすると、 (13)式は次のようになる。If the number of h is 1, then If h is h*, then Equation (13) becomes as follows.

従って、 ・・・・・・・・・・・・・・・・・・・・・・・・(
22hの個数が2個以上の場合、(13)式は次のよう
になる。
Therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
When the number of 22h is two or more, equation (13) becomes as follows.

ari=O・・・・・・・・・・・・・・・・・・・・
・・・・(23Wmn 従って、 ΔWmn == O・・・・・・・・・・・・・・・・
・・・・・・・・(24しかして、本実施例では前述し
た(3)〜(6)式による文書確度の計算を高速で行わ
せるものである。まず、既提案内容に従い、単純に(6
)式の計算式に従って文書確度を計算すると、全ての文
書について副文書確度を必ず副検索条件式の数だけ計算
しなければならない。しかし、(6)式によれば、ある
副文書確度がOであれば他の副文書確度がO以外の値を
持っても最終的な文書確度は必ず0となる。従って、あ
る文書の文書確度を計算する際、ある副検索条件式に対
する副文書確度がOであれば、その文書について残りの
副文書確度を計算しなくても文書確度をOとすればよい
。この結果、文書確度の計算に必要な計算量が減り、文
書確度の計算を高速化できる。第2図はこのような文書
確度の計算処理を示すフローチャートである。
ari=O・・・・・・・・・・・・・・・・・・
・・・・・・(23Wmn Therefore, ΔWmn == O・・・・・・・・・・・・・・・・・・
(24) However, in this embodiment, the calculation of document accuracy using equations (3) to (6) mentioned above is performed at high speed.First, according to the content already proposed, simply (6
), it is necessary to calculate the sub-document probabilities for all documents by the number of sub-search condition expressions. However, according to equation (6), if a certain sub-document certainty is O, the final document certainty will always be 0 even if other sub-document probabilities have values other than O. Therefore, when calculating the document certainty of a certain document, if the subdocument certainty for a certain subsearch condition expression is O, the document certainty may be set to O without calculating the remaining subdocument probabilities for that document. As a result, the amount of calculation required to calculate the document accuracy is reduced, and the calculation speed of the document accuracy can be increased. FIG. 2 is a flowchart showing such document accuracy calculation processing.

発明の効果 本発明は、上述したように構成したので、文書確度の計
算に際しては、ある副文書確度がOの時には、他の副文
書確度がOでなくても、最終的な文書確度は必ず0とな
るので、文書確度の計算時には、ある副検索条件式に対
する副文書確度の算出結果がOとなった時点で文書確度
をOとすることにより、その文書について残りの副文書
確度の計算が不要となり、文書確度の計算を高速化でき
、これにより、検索に要する時間を短縮でき、検索を効
率的に行えるものである。
Effects of the Invention Since the present invention is configured as described above, when calculating document accuracy, when a certain sub-document accuracy is O, even if other sub-document accuracy is not O, the final document accuracy is always calculated. Therefore, when calculating the document accuracy, when the calculation result of the sub-document accuracy for a certain sub-search condition expression becomes O, the document accuracy is set to O, and the remaining sub-document accuracy calculations for that document can be performed. This eliminates the need for document accuracy calculations, which speeds up the calculation of document accuracy, thereby reducing the time required for searching and making searches more efficient.

【図面の簡単な説明】[Brief explanation of the drawing]

図面は本発明の一実施例を示すもので、第1図はブロッ
ク図、第2図はフローチャートである。 l・・・キーワード抽出手段、2・・・登録文書、4キ
一ワードコネクシヨン表管理手段、5・・・インバーテ
ツドファイル管理手段、9・・・学習管理手段、11・
・・文書選出手段、12・・・文書確度計算手段、14
・・・ソート手段、15・・・表示管理手段図
The drawings show one embodiment of the present invention, with FIG. 1 being a block diagram and FIG. 2 being a flow chart. 1. Keyword extraction means, 2. Registered document, 4 keyword connection table management means, 5. Inverted file management means, 9. Learning management means, 11.
...Document selection means, 12...Document accuracy calculation means, 14
...Sort means, 15...Display management means diagram

Claims (1)

【特許請求の範囲】[Claims] 登録文書及びその書誌的情報を文書データベースに登録
する際に前記登録文書からキーワードを抽出するキーワ
ード抽出手段と、前記登録文書と前記キーワードとの間
の関連を示すインバーテッドファイルの作成及び変更を
行うインバーテッドファイル管理手段と、前記キーワー
ド間の関連情報を記述したキーワードコネクシヨン表の
作成及び変更を行うキーワードコネクシヨン表管理手段
とを設け、利用者が入力した検索条件式に含まれるキー
ワードと各ファイル内の登録文書のキーワード群との間
の関連の強さを示す値を文書確度と定義して前記キーワ
ードコネクシヨン表、インバーテッドファイル及び所定
の方法により文書確度を計算する文書確度計算手段と、
算出された文書確度の大きさの順に検索結果の文書を出
力する文書ソート・表示管理手段と、検索結果内の文書
毎に与えられている文書確度を利用者が対話的に適切か
否か判断指示した時に所定の方法によりキーワードコネ
クシヨンの重みを変更させる学習管理手段とを有して前
記検索条件式に合致した文書を選出する文書選出手段を
設け、キーワードを論理和・否定の論理演算子で結合し
た副検索条件式に対する文書確度で定義される副文書確
度の算出結果の何れかが0になった時、全副検索条件式
に対する残りの副文書確度の算出を停止しその文書確度
を0とするようにしたことを特徴とする文書検索装置。
A keyword extraction means for extracting keywords from the registered document when registering the registered document and its bibliographic information in a document database, and creating and changing an inverted file indicating the relationship between the registered document and the keyword. An inverted file management means and a keyword connection table management means for creating and changing a keyword connection table that describes related information between the keywords are provided, and the keywords included in the search condition expression input by the user and each Document accuracy calculation means that defines document accuracy as a value indicating the strength of association between a group of keywords of registered documents in a file, and calculates document accuracy using the keyword connection table, the inverted file, and a predetermined method; ,
A document sorting/display management means that outputs search result documents in the order of the calculated document accuracy, and a user who interactively determines whether the document accuracy given to each document in the search results is appropriate. A learning management means changes the weight of a keyword connection according to a predetermined method when an instruction is given, and a document selection means selects documents that match the search condition expression, When any of the calculation results of the sub-document probabilities defined by the document probabilities for the sub-search condition expressions combined with becomes 0, the calculation of the remaining sub-document probabilities for all sub-search condition expressions is stopped and the document certainty is set to 0. A document retrieval device characterized in that:
JP1271160A 1989-10-18 1989-10-18 document search device Pending JPH03131971A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1271160A JPH03131971A (en) 1989-10-18 1989-10-18 document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1271160A JPH03131971A (en) 1989-10-18 1989-10-18 document search device

Publications (1)

Publication Number Publication Date
JPH03131971A true JPH03131971A (en) 1991-06-05

Family

ID=17496176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1271160A Pending JPH03131971A (en) 1989-10-18 1989-10-18 document search device

Country Status (1)

Country Link
JP (1) JPH03131971A (en)

Similar Documents

Publication Publication Date Title
JPH03129472A (en) Processing method for document retrieving device
US8341159B2 (en) Creating taxonomies and training data for document categorization
JPH021057A (en) Document retrieving device
JP2003345810A (en) Document search method, document search system, and document search result indicating system
CN109582849A (en) A kind of Internet resources intelligent search method of knowledge based map
CN108986907A (en) A kind of tele-medicine based on KNN algorithm divides the method for examining automatically
JP2000123041A (en) Similarity determination method, document search device, document classification device, storage medium storing document search program, and storage medium storing document classification program
JP3315781B2 (en) User information management device, information filter, information classification device, information reproduction device, information search device, and kana-kanji conversion device
CN114817575B (en) Large-scale electric power affair map processing method based on extended model
JP5060020B2 (en) Content discovery device
JPH03131971A (en) document search device
JPH0394375A (en) document search device
JPH04152468A (en) Document retrieving device
JPH09245058A (en) Database system and keyword network construction device
JP2017173953A (en) Document retrieval device and computer program
JP2003216634A (en) Information retrieval system
JPH03131973A (en) document search device
JPH0227478A (en) document management device
JPH03131970A (en) document search device
JPH03294964A (en) Document search method
JPH02125363A (en) Document retrieving device
JPH03296862A (en) document search device
CN120561284B (en) A processing method to improve the efficiency of collecting localization translation demand data
CN119204855B (en) Real-time comparison method for quality data of building engineering
JPH02227773A (en) document search device