JPH03131970A - document search device - Google Patents
document search deviceInfo
- Publication number
- JPH03131970A JPH03131970A JP1271159A JP27115989A JPH03131970A JP H03131970 A JPH03131970 A JP H03131970A JP 1271159 A JP1271159 A JP 1271159A JP 27115989 A JP27115989 A JP 27115989A JP H03131970 A JPH03131970 A JP H03131970A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- accuracy
- keywords
- condition expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、文書検索装置、特に、検索時に利用者の感覚
に近いキーワード群を生成でき、さらに、検索結果が利
用者の検索要求に近いものほど大きな値を持つ評価値に
よって順序付けられるような柔軟で高速な文書検索装置
に関する。DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a document retrieval device, and particularly to a document retrieval device, which can generate a group of keywords that are close to the sense of the user during a search, and furthermore, the closer the search results are to the user's search request, the more the search results are searchable. The present invention relates to a flexible and high-speed document retrieval device that can be ordered by evaluation values having large values.
従来の技術
従来の文書検索装置では、文書登録時に登録オペレータ
が適切と思われるキーワードを選択し、シソーラスによ
り適切に分類し、キーワードの追加、削除に伴いシソー
ラスを更新する作業がかなり煩雑である。また、検索時
に、利用者が指定した検索条件を概ね満たす文書を検索
するためには、検索条件を検討し直した上で再度の検索
が必要となる。2. Description of the Related Art In conventional document retrieval devices, when registering a document, a registration operator has to select keywords deemed appropriate, classify them appropriately using a thesaurus, and update the thesaurus as keywords are added or deleted, which is quite a complicated task. Furthermore, in order to search for documents that generally satisfy the search conditions specified by the user during a search, it is necessary to reconsider the search conditions and perform the search again.
このような問題を解決するため、キーワード間の関連情
報なるキーワードコネクションを利用し、文書検索時に
は利用者の検索要求に近いものほど大きな値を持つ文書
確度という評価値を導入し、文書確度を基に利用者が要
求を瀾たす文書を柔軟に検索できるようにした文書検索
装置が、本出願人により特願昭63−8291号として
提案されている。また、利用者の判断・指示に基づいて
キーワードコネクションの各重みを変更し、次の検索時
にその判断を検索結果に反映させる学習機能を持たせた
ものも特願昭63〜197988号として提案されてい
る。さらには、利用者の文書検索条件として、複数のキ
ーワードを論理積・論理和・否定なる演算子の任意の組
合せで結合させた検索式に対しても文書確度が計算でき
るよう改良し、適切な学習機能を持たせたものも提案さ
れている。In order to solve these problems, we use keyword connections, which are related information between keywords, and introduce an evaluation value called document accuracy, which has a larger value when searching for documents, as the closer it is to the user's search request. A document retrieval device that allows a user to flexibly search for documents that meet his/her requirements has been proposed by the present applicant in Japanese Patent Application No. 8291/1983. Furthermore, a system with a learning function that changes the weight of each keyword connection based on the user's judgment and instructions and reflects that judgment in the search results at the next search was proposed in Japanese Patent Application No. 1979-197988. ing. Furthermore, we have improved the document accuracy so that it can be calculated for search expressions in which multiple keywords are combined using any combination of AND, logical OR, and negation operators as document search conditions for users. Devices with a learning function have also been proposed.
発明が解決しようとする課題
このようなキーワードコネクションを用いた一連の提案
内容においては、利用者の検索条件式を支援するためキ
ーワードを適切な順(即ち、適切さの評価を表す数値を
キーワード確度と称する)に利用者に表示する機能も提
案されている。しかし、検索用キーワード群に対するも
のであり、検索条件式中にAND (論理積)やOR(
論理和)などの論理演算子がある場合のキーワード確度
の計算方式については検討していないものである。Problems to be Solved by the Invention In a series of proposals using such keyword connections, keywords are sorted in an appropriate order (i.e., numerical values representing appropriateness evaluations are sorted by keyword accuracy) in order to support users' search condition expressions. A function to display the information to the user has also been proposed. However, it is for a group of search keywords, and AND (logical product) and OR (
The method for calculating keyword accuracy when there is a logical operator such as (or) has not been considered.
よって、検索条件式の作成が面倒かつ不便なものとなっ
ている。Therefore, creating a search condition expression is troublesome and inconvenient.
課題を解決するための手段
登録文書及びその書誌的情報を文書データベースに登録
する際に前記登録文書からキーワードを抽出するキーワ
ード抽出手段と、前記登録文書と前記キーワードとの間
の関連を示すインバーテツドファイルを作成するインバ
ーテツドファイル作成手段と、前記キーワード間の関連
情報を記述したキーワードコネクション表を作成すると
ともに既に登録されている関連情報を修正し新規関連情
報を生成するキーワードコネクション表処理手段とを設
け、利用者が入力したキーワードと論理演算子との組合
せによる検索条件式に含まれるキーワードと各ファイル
内の登録文書のキーワード群との間の関連の強さを示す
値を文書確度と定義して前記キーワードコネクション表
、インバーテツドファイル及び所定の方法により文書確
度を計算する文書確度計算手段と、算出された文書確度
の大きさの順に検索結果の文書を出力する文書ソート・
表示管理手段と、検索結果内の文書毎に与えられている
文書確度を利用者が対話的に適切か否か判断指示した時
に所定の方法によりキーワードコネクションの重みを変
更させる学習管理手段と、利用者が入力した検索条件式
と各キーワードとの間の関連の強さを示す値をキーワー
ド確度と定義して所定の計算式によりキーワード確度を
計算するキーワード確度計算手段と、算出されたキーワ
ード確度の大きさの順にキーワードを出力するキーワー
ドソート手段とを有して前記検索条件式に合致した文書
を選出する文書選出手段を設け、利用者が検索条件式を
作成する時に作成途中の検索条件式から全キーワードに
ついて算出したキーワード確度に基づき検索条件式に関
連の大きい順にキーワードを表示させるようにした。Means for Solving the Problems Keyword extraction means for extracting keywords from the registered document when registering a registered document and its bibliographic information in a document database; and an inverter that indicates the relationship between the registered document and the keyword. an inverted file creation means for creating an inverted file, and a keyword connection table processing means for creating a keyword connection table that describes related information between the keywords, and modifying already registered related information to generate new related information. A value indicating the strength of the relationship between the keywords included in the search condition expression, which is a combination of keywords and logical operators input by the user, and the keyword group of registered documents in each file is defined as document certainty. document accuracy calculation means for defining and calculating document accuracy using the keyword connection table, the inverted file, and a predetermined method; and a document sorting unit for outputting search result documents in order of the calculated document accuracy.
a display management means; a learning management means for changing the weight of a keyword connection according to a predetermined method when a user interactively instructs whether or not the document accuracy given to each document in the search results is appropriate; a keyword accuracy calculation means that defines keyword accuracy as a value indicating the strength of association between a search condition expression input by a person and each keyword, and calculates keyword accuracy using a predetermined calculation formula; a keyword sorting means for outputting keywords in order of size; and a document selection means for selecting documents that match the search condition expression; Keywords are now displayed in order of relevance in the search condition formula based on the keyword accuracy calculated for all keywords.
作用
利用者の検索条件式の作成時に作成途中の検索条件式と
関連あるキーワードがキーワード確度の大きい順に表示
されるので、利用者は表示された一連のキーワーにの中
から適切なキーワードを選択すればよく、キーワード選
択が支援されることになり、論理演算子を含む検索条件
式の作成が容易となり、適切な文書検索が可能となる。Effect When a user creates a search condition expression, keywords related to the search condition expression being created are displayed in descending order of keyword probability, so the user can select an appropriate keyword from the displayed set of keywords. If possible, keyword selection will be supported, making it easier to create search condition expressions that include logical operators, and making it possible to perform appropriate document searches.
実施例 本発明の一実施例を図面に基づいて説明する。Example An embodiment of the present invention will be described based on the drawings.
まず、本発明の文書検索装置では、前述した既提案方式
と同様に、キーワードコネクションという概念を用いる
ことを前提とする。また、各文書に対し利用者の検索要
求に近いものほど大きな値を持つような文書確度という
評価値なる概念も導入し、文書検索時にはその文書確度
の大小を基に利用者が要求を満たす文書を柔軟に選択で
きるようにしたものである。キーワードコネクションと
は、キーワード間の関連を記述したものである。First, the document retrieval device of the present invention is premised on the use of the concept of keyword connection, similar to the previously proposed method described above. In addition, we have introduced the concept of evaluation value called document accuracy, which has a larger value for each document as it is closer to the user's search request, and when searching for a document, the user can search for documents that satisfy the user's request based on the degree of document accuracy. This allows for flexible selection. A keyword connection is a description of a relationship between keywords.
具体的に、本実施例のキーワードコネクションでは関連
の大きさを0から1までの範囲とし、0はキーワード間
に関係がないこと、0以上の値は関係があり、特にlで
関係の大きさが最大であることを表現するものである。Specifically, in the keyword connection of this embodiment, the magnitude of the relationship is set in a range from 0 to 1, where 0 indicates that there is no relationship between the keywords, and a value of 0 or more indicates that there is a relationship, especially l indicates the magnitude of the relationship. is the maximum.
i番目のキーワードと3番目のキーワードとの関連情報
(以下、これを「重みJという)はWijで表現できる
。Related information between the i-th keyword and the third keyword (hereinafter referred to as "weight J") can be expressed as Wij.
二のような前提において、本発明の文書検索装置は図面
のように構成される。まず、キーワード抽出部1は登録
文書2を入力すると、その文書中からキーワードを抽出
し、キーワード及び登録文書2を文書情報管理部3、キ
ーワードコネクション表処理部4、インバーテツドファ
イル作成部5へ出力するものである。文書情報管理部3
はキーワードと書誌的情報6とをファイル7に格納し、
検索時に利用可能な形にデータベース化するものである
。キーワードコネクション表処理部4はキーワード間の
関連情報を記述したキーワードコネクション表を作成し
ファイル8に格納する。さらに、学習管理部9からの要
求があればキーワードコネクションの重みを変更する。Based on the second assumption, the document search device of the present invention is configured as shown in the drawings. First, when the keyword extraction unit 1 inputs the registered document 2, it extracts keywords from the document, and sends the keywords and the registered document 2 to the document information management unit 3, the keyword connection table processing unit 4, and the inverted file creation unit 5. This is what is output. Document information management department 3
stores keywords and bibliographic information 6 in file 7,
It creates a database in a format that can be used when searching. The keyword connection table processing unit 4 creates a keyword connection table that describes related information between keywords and stores it in a file 8. Furthermore, if there is a request from the learning management section 9, the weight of the keyword connection is changed.
インバーテツドファイル作成部5はキーワードと登録文
書との間の関連を示すインバーテツドファイルを作成し
ファイル10に格納する。The inverted file creation section 5 creates an inverted file showing the relationship between keywords and registered documents, and stores it in the file 10.
文書選出部11は前記学習管理部9、文書確度計算部L
2、要求処理部13、文書ソート部14及び表示管理部
15とともにキーワード確度計算部16及びキーワード
ソート部17よりなる。まず、文書確度計算部12は要
求処理部13から転送されてきたキーワードからなる検
索条件式に基づき、ファイル8に格納されているキーワ
ードコネクション表内の必要な情報を用いて各文書毎に
文書確度を計算する。この計算力式は後述する。The document selection section 11 includes the learning management section 9 and the document accuracy calculation section L.
2. It consists of a request processing section 13, a document sorting section 14, a display management section 15, a keyword certainty calculation section 16, and a keyword sorting section 17. First, the document accuracy calculation unit 12 uses the necessary information in the keyword connection table stored in the file 8 to calculate the document accuracy for each document based on the search condition expression consisting of keywords transferred from the request processing unit 13. Calculate. This calculation power formula will be described later.
文書ソート部14は文書確度計算部12で算出された文
書確度の大きい順にファイル7に格納されている全文書
をソートし、表示管理部15に転送する。要求処理部1
3は利用者がキーボード18から入力した検索条件式を
文書確度計算部12に対して転送する。また、デイスプ
レィ19による検索結果の表示時に、利用者が入力した
表示指示を表示管理部15に転送する。さらに、利用者
の指示があればキーワードコネクションの学習に関する
情報を学習管理部9に転送する。学習管理部9は要求処
理部13から与えられる利用者の指示に従いキーワード
コネクションの学習を行う。即ち、学習管理部9ではキ
ーワードコネクションの各重みの変化量の計算を行うが
、実際の重み値の変更はキーワードコネクション表処理
部4に指示を与えることにより行われる。学習方式は後
述する。表示管理部15は要求処理部13から与えられ
る利用者の指示に従い検索結果をデイスプレィ19に表
示させる。キーワード確度計算部16は要求処理部13
から与えられる利用者の指示に従いファイル8に(各納
されているキーワードコネクション表内の必要な情報を
用いてキーワード毎にキーワード確度を計算する。キー
ワードソート部17はキーワード確度計算部16で計算
されたキーワード確度の大きい順に全キーワードをソー
トし、表示管理部15に転送する。The document sorting unit 14 sorts all the documents stored in the file 7 in descending order of document accuracy calculated by the document accuracy calculation unit 12, and transfers the sorted documents to the display management unit 15. Request processing unit 1
3 transfers the search condition expression entered by the user from the keyboard 18 to the document certainty calculation section 12. Further, when displaying search results on the display 19, a display instruction input by the user is transferred to the display management section 15. Furthermore, if there is an instruction from the user, information regarding learning of keyword connections is transferred to the learning management section 9. The learning management unit 9 performs keyword connection learning according to the user's instructions given from the request processing unit 13. That is, the learning management section 9 calculates the amount of change in each weight of the keyword connection, but the actual change in the weight value is performed by giving an instruction to the keyword connection table processing section 4. The learning method will be described later. The display management section 15 displays the search results on the display 19 according to the user's instructions given from the request processing section 13. The keyword accuracy calculation unit 16 is the request processing unit 13
The keyword accuracy calculation unit 17 calculates the keyword accuracy for each keyword using the necessary information in the keyword connection table stored in the file 8 according to the user's instructions given from the keyword connection table. All the keywords are sorted in descending order of keyword accuracy and transferred to the display management section 15.
文書検索処理は、利用者の要求に従い適切な文書を検索
表示することを目的とするものであり、そのための文書
選択処理が文書選出部11により行われる。The purpose of the document search process is to search and display appropriate documents according to the user's request, and document selection processing for this purpose is performed by the document selection unit 11.
ここに、検索条件はキーワードの指定及びその他書誌的
情報に対する条件設定により行われる。Here, the search conditions are determined by specifying keywords and setting conditions for other bibliographic information.
まず、各文書のキーワード以外の条件設定が満たされて
いるか否かが判定される。条件が満たされている場合、
その文書の文書確度の計算が後述のように行われる。条
件が満たされていない場合、その文書の文書確度の計算
は行われず、値はOとされる。First, it is determined whether condition settings other than keywords for each document are satisfied. If the conditions are met,
The document accuracy of the document is calculated as described below. If the conditions are not met, the document accuracy of the document is not calculated and the value is set to O.
キーワードの指定は、利用者の得たい情報を表現するキ
ーワードからなる検索条件式によって行う。検索条件式
とは、1つのキーワード或いは複数のキーワードをAN
D (論理積)・OR(論理和)・NOT (否定)で
結合させたものである。Keywords are specified using a search condition expression consisting of keywords that express the information the user wants to obtain. A search condition expression is a keyword or multiple keywords.
They are combined using D (logical product), OR (logical sum), and NOT (negation).
複数のキーワードの結合が用いられるのは、文書管理装
置内に利用者が得ようとしている情報を表現する1語の
キーワードが存在していない場合である。A combination of multiple keywords is used when a single keyword expressing the information the user is trying to obtain does not exist in the document management device.
次に、前述した既提案内容に含まれる検索条件式、文書
確度の計算方式及びキーワードコネクションの学習方式
について個別に説明する。Next, the search condition expression, document accuracy calculation method, and keyword connection learning method included in the previously proposed contents will be individually explained.
A、検索条件式
本文書検索装置が入力として受は付ける検索条件式は、
キーワードがAND (論理積)・OR(論理和)・N
OT (否定)の演算子で結合されたものである。これ
により、例えば[キーワードAがない文書J 「キーワ
ードAとBとがともにある文書」等の検索を行うことが
できる。キーワードをAND、OR,NOTで任意に結
合した検索条件式は、キーワードをOR,NOTで結合
した副検索条件式のANDで結合した形式の積標準形に
変換できる。この変換は要求処理部13で行われる。積
標準形の検索条件式は、
Query = SQ(1)*・−−−−−* 5Q(
N) ・−−−(1)で表される。ここに、+1
* IIはANDを表し、Na3である。また、5Q
(h)はORとNOTのみで枯成される副検索条件式
%式%
(2)
を表す。ここで、“l K q、 IIはQ+番目のキ
ーワード、ll + IIはOR,”j”はNOTを表
し、n≧O,m≧1、n+m≧1である。否定の付かな
いキーワードの集合をQ+(h)、否定の付くキーワー
ドの集合をQ−(h)とすると、
Q”(h) = (Kq、 、 −・−= 、 Kq
、)Q−(h) = (Kq、、+1 、 ・・・・
・・・・・・・・、Kqn+、、)となる。ただし、Q
”(h)、Q’lh)に同時に含まれるキーワードはな
いものとする。このチエツクは要求処理部13で行い、
同時に含まれるキーワードがあった場合、その旨がデイ
スプレィ19に表示され、利用者に注意を喚起する。A. Search condition expression The search condition expression that the main document search device accepts as input is:
Keywords are AND (logical product), OR (logical sum), N
They are connected using the OT (negation) operator. As a result, it is possible to search for, for example, ``Document J without keyword A'' ``Document with both keywords A and B''. A search condition expression in which keywords are arbitrarily combined with AND, OR, and NOT can be converted into a product standard form in which a sub-search condition expression in which keywords are combined with OR and NOT is combined with AND. This conversion is performed by the request processing unit 13. The search condition expression for the product standard form is: Query = SQ(1)*・------* 5Q(
N) ・---Represented by (1). +1 here
*II represents AND and is Na3. Also, 5Q
(h) represents the sub-search condition expression % expression % (2) which is made up of only OR and NOT. Here, "l K q, II represents the Q+th keyword, ll + II represents OR, "j" represents NOT, and n≧O, m≧1, n+m≧1. A set of keywords that cannot be negated. Let Q+(h) be Q+(h), and let Q-(h) be the set of keywords with negation, then Q”(h) = (Kq, , −・−= , Kq
,)Q-(h) = (Kq,,+1,...
......, Kqn+,, ). However, Q
It is assumed that there are no keywords included in "(h), Q'lh) at the same time. This check is performed by the request processing unit 13,
If there are keywords included at the same time, a message to that effect is displayed on the display 19 to alert the user.
B1文書確度の計算方式
文書確度とは、文書データベース内の各文書のキーワー
ド群と利用者が指定する検索条件式中のキーワードとの
間の関連の強さを示す数値として定義され、文書確度計
算部12で計算される。B1 Document accuracy calculation method Document accuracy is defined as a numerical value indicating the strength of the relationship between the keyword group of each document in the document database and the keyword in the search condition formula specified by the user. Calculated in section 12.
文書確度は、次の2ステツプで求められる。Document accuracy is determined in the following two steps.
a、副検索条件式に対する文書確度(これを、副文書確
度と呼ぶ)を計算する。a. Calculate the document accuracy for the sub-search condition expression (this is called sub-document accuracy).
b、全開検索条件式に対する副文書確度の積を求め、文
書確度とする。b. Calculate the product of the sub-document accuracy for the full-open search conditional expression and use it as the document accuracy.
文書確度は全文書について計算され、利用者の指定に従
って閾値処理等により適切な文書が選択され、検索結果
が求められる。Document accuracy is calculated for all documents, appropriate documents are selected by threshold processing, etc. according to the user's specifications, and search results are obtained.
上記の2ステツプについて説明する。まず、最初のステ
ップである副検索条件式に対する副文書確度の計算は、
h番目の副文書確度をri(h)とすると、次の(3)
式に従い行われる。The above two steps will be explained. First, the first step is to calculate the subdocument probability for the subsearch condition expression.
Letting the h-th subdocument accuracy be ri(h), the following (3)
It is carried out according to the formula.
ただし、Aiを1番目の文書に索引として付されている
キーワードの集合とした時、
RljとSiJ
は次の(4)(5)式により計算される。However, when Ai is a set of keywords indexed to the first document, Rlj and SiJ are calculated by the following equations (4) and (5).
ただし、Wjkはj番目のキーワードとに番目のキーワ
ードとの間の関連度の大きさを示す。However, Wjk indicates the degree of association between the j-th keyword and the j-th keyword.
Q+(h)或いはQlh)が空き集合(φ)の場合、(
3)式の代わりに、各々次の(6)(7)式が用いられ
る。If Q+(h) or Qlh) is an empty set (φ), then (
The following equations (6) and (7) are used instead of equation 3).
jfEQ−(h)
2番目のステップとして、N個の副検索条件式に対する
副文書確度を全て計算した後、文書確度を、(8)式に
より計算する。jfEQ-(h) As a second step, after calculating all sub-document probabilities for N sub-search condition expressions, document probabilities are calculated using equation (8).
ri = +1 ri(h) ・・・
・・・・・・・・・・・・・・・・・・(8)h冨l
C,キーワードコネクションの学習方式キーワードコネ
クションの学習は学習管理部9で行われる。キーワード
コネクションの学習方式は、例えば本出願人既提案の特
願平1−132696号記載の学習方式が用いられる。ri = +1 ri(h)...
(8) C. Keyword connection learning method Keyword connection learning is performed in the learning management section 9. As the keyword connection learning method, for example, the learning method described in Japanese Patent Application No. 1-132696 proposed by the present applicant is used.
即ち、学習時の検索結果に対する利用者の判断を、正解
ならば「l」、不正解ならば「0」に割当て、曖昧な判
断は[0,l]間の実数値で表現する。文書確度Xに対
する利用者の判断を表す3・V価値をLとすると、評価
関数は次のように定義される。That is, the user's judgment regarding the search result during learning is assigned "l" if the answer is correct, "0" if it is incorrect, and an ambiguous judgment is expressed as a real value between [0, l]. Letting L be the 3·V value representing the user's judgment regarding the document accuracy X, the evaluation function is defined as follows.
1回の学習では、いま注目している文書(ここでは、i
番目の文書とする)に対し、その文書に対する文書確度
の評価関数の値e(ri)を小さくするように、キーワ
ードコネクションの全ての重みが変更される。即ち、
Wmn 1g(Wmn + aΔWmn ) −
・−−(to)となる。ここに、aは正の実数の学習係
数であり、gは変更後のキーワードコネクションの値が
[0゜
1]の範囲となるための正規化関数である。In one learning session, the document you are currently focusing on (here, i
All weights of the keyword connections are changed so as to reduce the value e(ri) of the document accuracy evaluation function for the document (denoted as the th document). That is, Wmn 1g(Wmn + aΔWmn) −
・--(to). Here, a is a learning coefficient of a positive real number, and g is a normalization function so that the value of the keyword connection after the change falls within the range of [0°1].
・・・・・・・・・・・・・・・・・・・・・・・(1
1)最急降下法を用いて変化分ΔWmnは(12)式の
ように計算すればよい。・・・・・・・・・・・・・・・・・・・・・・・・(1
1) Using the steepest descent method, the variation ΔWmn can be calculated as shown in equation (12).
・・・・・・・・・・・・・・・・・・(12)ここで
、
(8)式より、
従って、
・・・・・・・・・・・・・・・・・・・・・・・・(
I4)変化分ΔWmnを求める計算式(14)において
、a r i (h )/ a Wmnは後述する(+
5) 〜(17)式によって計算される。従って、
m E Q uery がつ nEAiである(m、
n)の組合せ以外では△Wmn=0となるので、ΔWm
nの計算を行う必要があるのは、m EE Q uer
’J かつ nEAiである(m、n)の組合せだけ
である。・・・・・・・・・・・・・・・・・・(12) Here, from equation (8), therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
I4) In the calculation formula (14) for calculating the change ΔWmn, a r i (h)/a Wmn is (+
5) Calculated by equations (17). Therefore, m E Q ery is nEAi (m,
Since △Wmn=0 for combinations other than n), △Wm
It is necessary to calculate n by m EE Que
'J and nEAi are the only combinations of (m, n).
ΔWmnを計算するためには、rt(h)のWmnによ
る偏微分が計算できなければならない。ここに、Q”(
h)とQ−(h )とに同時に含まれるキーワードはな
い、という仮定から、ri(h)のWmnによる偏微分
は次の3つの場合に分けて計算できる。In order to calculate ΔWmn, it is necessary to calculate the partial differential of rt(h) with respect to Wmn. Here, Q” (
Based on the assumption that there are no keywords included in h) and Q-(h) at the same time, the partial differential of ri(h) with respect to Wmn can be calculated in the following three cases.
1、mEQ”(h)の場合
・・・・・・・・(15)
2゜
mEQ”’(h)の場合
・・・・・・・・・・・・・・・・・・・・・(16)
3゜
m1EQ”(h)又はm牛Q−(h)の場合(15)〜
(17)式で計算される結果を(I4)式に代入すれば
ΔWmnは求められるが、
(14)式をさらに簡
単にできる。1. In the case of mEQ" (h)... (15) In the case of 2゜ mEQ"' (h)...・(16)
In the case of 3゜m1EQ” (h) or m cow Q-(h) (15) ~
By substituting the result calculated by equation (17) into equation (I4), ΔWmn can be obtained, but equation (14) can be further simplified.
その場合、 i=0か否かによって 計算式が異なるので、 以下では2つの場合に分け て説明する。In that case, Depending on whether i=0 or not Since the calculation formula is different, In the following, we divide into two cases. I will explain.
■。■.
i≠Oの場合 この時、 全てのh (l≦h≦N) に対して i (h)≠Oなので、 (8)式より と書換えることができるので、 (13)式は次のよう になる。If i≠O At this time, all h (l≦h≦N) against Since i (h)≠O, From equation (8) Since it can be rewritten as Equation (13) is as follows become.
従って、
・・・・・・・・・・・・・・・・・・・・・・・・(
20)■。Therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
20) ■.
1=00場合 i=0の時、 1(h)=0であるhの個数に より計算式が変る。If 1=00 When i=0, The number of h such that 1(h)=0 The calculation formula changes.
hの個数が1個の場合、その hをh*とすると、 (13)式は次のようになる。If the number of h is 1, then If h is h*, then Equation (13) becomes as follows.
従って、
・・・・・・・・・・・・・・・・・・・・・・・・(
22)hの個数が2個以上の場合、
(13)式は次のよう
になる。Therefore, ・・・・・・・・・・・・・・・・・・・・・・・・(
22) When the number of h is two or more, equation (13) becomes as follows.
従って、
ΔWmn = O・・・・・・・・・・・・・・・・・
・・・・・・・(24)しかして、本実施例の特徴とす
る、利用者による検索条件式作成時について説明する。Therefore, ΔWmn = O・・・・・・・・・・・・・・・・
(24) Now, a description will be given of the time when a user creates a search condition expression, which is a feature of this embodiment.
利用者は検索を行う際に、キーワードと論理演算子を適
当に組合せることにより検索条件式を作成する。本実施
例では、この際に適切なキーワードを選択させるために
、作成途中の検索条件式と関連のあるキーワードをデイ
スプレィ19に表示させることで検索条件式の作成を支
援させるものである。具体的には、キーワード確度計算
部16により全キーワードについてキーワード確度を計
算し、キーワードソート部17によりキーワード確度の
大きい順に並べ換えた一連のキーワードを利用者に提示
する。ここに、キーワード確度とは利用者が人力した検
索条件式(作成途中)と各キーワードとの間の関連の大
きさを表す数値をいう。よって、利用者は表示された一
連のキーワードの中から適切なキーワードをを選択しく
キーワード確度類であり、選択は容易)、検索条件式を
完成させることができる。When performing a search, a user creates a search condition expression by appropriately combining keywords and logical operators. In this embodiment, in order to select an appropriate keyword at this time, keywords related to the search condition expression being created are displayed on the display 19 to assist in the creation of the search condition expression. Specifically, the keyword accuracy calculation unit 16 calculates the keyword accuracy for all keywords, and the keyword sorting unit 17 presents the user with a series of keywords sorted in descending order of keyword accuracy. Here, the keyword accuracy refers to a numerical value representing the magnitude of the relationship between the search condition formula (currently being created) manually entered by the user and each keyword. Therefore, the user can select an appropriate keyword from the displayed series of keywords (keyword accuracy is easy) and complete the search condition expression.
ここで、キーワード確度の計算方式について説明する。Here, a method for calculating keyword accuracy will be explained.
いま、Ti(h)をh番目の副検索条件式に対する1番
目のキーワードに対するキーワード確度とすると、
その値は次式により計算される。Now, if Ti(h) is the keyword certainty for the first keyword for the h-th sub-search condition expression, its value is calculated by the following equation.
・・・・・・・・・・・・・・・・・・・・・・・・・
・・(25)さらに、最終的なキーワード確度Tiは次
式により計算される。・・・・・・・・・・・・・・・・・・・・・・・・
(25) Furthermore, the final keyword accuracy Ti is calculated by the following formula.
発明の効果
本発明は、上述したように構成したので、利用者の検索
条件式の作成時に作成途中の検索条件式と関連あるキー
ワードがキーワード確度の大きい順に表示されることに
より、キーワード選択が支援され、利用者は表示された
一連のキーワードの中から適切なキーワードを選択する
ことができ、キーワードと論理演算子とによる検索条件
式の作成が容易となり、適切な文書検索が可能となるも
のである。Effects of the Invention Since the present invention is configured as described above, when a user creates a search condition expression, keywords related to the search condition expression that is being created are displayed in descending order of keyword accuracy, thereby supporting keyword selection. This allows users to select appropriate keywords from a displayed set of keywords, making it easy to create search condition expressions using keywords and logical operators, and enabling appropriate document searches. be.
図面は本発明の一実施例を示すブロック図である。
l・・・キーワード抽出手段、2・・・登録文書、4・
・・キーワードコネクション表処理手段、5・・・イン
バーテツドファイル作成手段、9・・・学習管理手段、
11・・・文書選出手段、12・・・文書確度計算手段
、14・・・ソート手段、15・・・表示管理手段、1
6・・・キーワード確度計算手段、17・・・キーワー
ドソート手段The drawing is a block diagram showing one embodiment of the present invention. l...Keyword extraction means, 2...Registered document, 4.
...Keyword connection table processing means, 5.Inverted file creation means, 9.Learning management means,
11... Document selection means, 12... Document accuracy calculation means, 14... Sorting means, 15... Display management means, 1
6...Keyword accuracy calculation means, 17...Keyword sorting means
Claims (1)
する際に前記登録文書からキーワードを抽出するキーワ
ード抽出手段と、前記登録文書と前記キーワードとの間
の関連を示すインバーテッドファイルを作成するインバ
ーテッドファイル作成手段と、前記キーワード間の関連
情報を記述したキーワードコネクシヨン表を作成すると
ともに既に登録されている関連情報を修正し新規関連情
報を生成するキーワードコネクシヨン表処理手段とを設
け、利用者が入力したキーワードと論理演算子との組合
せによる検索条件式に含まれるキーワードと各ファイル
内の登録文書のキーワード群との間の関連の強さを示す
値を文書確度と定義して前記キーワードコネクシヨン表
、インバーテッドファイル及び所定の方法により文書確
度を計算する文書確度計算手段と、算出された文書確度
の大きさの順に検索結果の文書を出力する文書ソート・
表示管理手段と、検索結果内の文書毎に与えられている
文書確度を利用者が対話的に適切か否か判断指示した時
に所定の方法によりキーワードコネクシヨンの重みを変
更させる学習管理手段と、利用者が入力した検索条件式
と各キーワードとの間の関連の強さを示す値をキーワー
ド確度と定義して所定の計算式によりキーワード確度を
計算するキーワード確度計算手段と、算出されたキーワ
ード確度の大きさの順にキーワードを出力するキーワー
ドソート手段とを有して前記検索条件式に合致した文書
を選出する文書選出手段を設け、利用者が検索条件式を
作成する時に作成途中の検索条件式から全キーワードに
ついて算出したキーワード確度に基づき検索条件式に関
連の大きい順にキーワードを表示させるようにしたこと
を特徴とする文書検索装置。Keyword extraction means for extracting keywords from the registered document when registering the registered document and its bibliographic information in a document database; and an inverted file for creating an inverted file indicating the relationship between the registered document and the keyword. A keyword connection table processing means is provided for creating a keyword connection table that describes related information between the keywords, modifying related information that has already been registered, and generating new related information. A value indicating the strength of the relationship between the keyword included in the search condition expression based on the combination of the input keyword and logical operator and the keyword group of the registered documents in each file is defined as the document certainty, and the keyword connection is A document accuracy calculation means that calculates document accuracy using a table, an inverted file, and a predetermined method, and a document sorter that outputs search result documents in the order of the calculated document accuracy.
a display management means; a learning management means for changing the weight of a keyword connection according to a predetermined method when a user interactively instructs whether or not the document accuracy given to each document in the search results is appropriate; A keyword accuracy calculation means that defines keyword accuracy as a value indicating the strength of the relationship between the search condition expression input by the user and each keyword, and calculates the keyword accuracy using a predetermined calculation formula; and the calculated keyword accuracy. and a keyword sorting means for outputting keywords in order of magnitude of the search condition expression, and a document selection means for selecting documents that match the search condition expression. A document search device characterized in that keywords are displayed in descending order of relevance to a search condition expression based on keyword accuracy calculated for all keywords.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1271159A JPH03131970A (en) | 1989-10-18 | 1989-10-18 | document search device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1271159A JPH03131970A (en) | 1989-10-18 | 1989-10-18 | document search device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH03131970A true JPH03131970A (en) | 1991-06-05 |
Family
ID=17496161
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1271159A Pending JPH03131970A (en) | 1989-10-18 | 1989-10-18 | document search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH03131970A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020075062A1 (en) * | 2018-10-08 | 2020-04-16 | Arctic Alliance Europe Oy | Method and system to perform text-based search among plurality of documents |
-
1989
- 1989-10-18 JP JP1271159A patent/JPH03131970A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020075062A1 (en) * | 2018-10-08 | 2020-04-16 | Arctic Alliance Europe Oy | Method and system to perform text-based search among plurality of documents |
| US11880396B2 (en) | 2018-10-08 | 2024-01-23 | Arctic Alliance Europe Oy | Method and system to perform text-based search among plurality of documents |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH03129472A (en) | Processing method for document retrieving device | |
| JPH021057A (en) | Document retrieving device | |
| US20070022107A1 (en) | Methods and apparatus for generic semantic access to information systems | |
| CN106991276A (en) | A kind of data-interface dynamic creation method based on openEHR templates | |
| JP2013020439A (en) | Synonym extraction system, method and program | |
| JPH0486950A (en) | Document search method | |
| JP3315781B2 (en) | User information management device, information filter, information classification device, information reproduction device, information search device, and kana-kanji conversion device | |
| JPH03131970A (en) | document search device | |
| WO2020234930A1 (en) | Cluster analysis method, cluster analysis system, and cluster analysis program | |
| JP2829745B2 (en) | Document search device | |
| CN114528415A (en) | Medical knowledge rapid retrieval method and system based on knowledge graph | |
| JPH09259139A (en) | Documents Intelligent Search System | |
| JP2993530B2 (en) | Sentence generator | |
| JPH04127272A (en) | Key word connection processing method in document retriever | |
| JPH03131973A (en) | document search device | |
| JPH03131971A (en) | document search device | |
| JPH09311862A (en) | Data drilldown method | |
| JP3088805B2 (en) | Document management device | |
| JPH03296862A (en) | document search device | |
| An et al. | Building an ontology for eldercare service in China with a hierarchical clustering method | |
| JPH03122769A (en) | Keyword associative retrieving device | |
| JP2000035964A (en) | Relevance calculating apparatus, storage medium storing relevance calculating program, and information retrieval system | |
| JPH0496177A (en) | Document retrieving method and its keyword association degree list preparation device | |
| JPH06259479A (en) | Document retrieval support method | |
| JPH09251470A (en) | Database search method and apparatus |