JP2003281186A - Example-based search method and search system for similarity determination - Google Patents
Example-based search method and search system for similarity determinationInfo
- Publication number
- JP2003281186A JP2003281186A JP2002322059A JP2002322059A JP2003281186A JP 2003281186 A JP2003281186 A JP 2003281186A JP 2002322059 A JP2002322059 A JP 2002322059A JP 2002322059 A JP2002322059 A JP 2002322059A JP 2003281186 A JP2003281186 A JP 2003281186A
- Authority
- JP
- Japan
- Prior art keywords
- document
- paragraph
- similarity
- unit
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000013598 vector Substances 0.000 claims abstract description 91
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 51
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 235000001982 Physalis edulis Nutrition 0.000 description 4
- 244000064622 Physalis edulis Species 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 本発明は文書を自動検索する例題ベース文書
検索方法及び検索システムに関するもので、既に構築さ
れたデータベースの文書と例題文書との類似度合いを定
量的に計算して使用者に提供することにより、例題文書
と同一または類似した関連技術を短時間内に探し出すの
に役立つ類似性判断のための例題ベース検索方法及び検
索システムを提供する。
【解決手段】 本発明は、従来の関連技術文書を入力す
る段階、文書の特定構造分析により前記関連技術文書を
単語ベクトルで表現する段階、及び前記表現された単語
ベクトルを貯蔵する段階を含む索引過程と、例題文書を
入力する段階、文書の特定構造分析により前記例題文書
を単語ベクトルで表現する段階、及び前記索引過程にお
いて貯蔵された関連技術文書に対する単語ベクトルと例
題文書に対するベクトルとの類似度を求める段階を含む
検索過程とを含んで成る例題ベース検索方法及びその検
索システムを旨とする。
The present invention relates to an example-based document search method and a search system for automatically searching for a document, and quantitatively calculates the degree of similarity between a document in an already constructed database and an example document. Provided to a user is an example-based search method and a search system for determining similarity that are useful for searching for related technologies that are the same as or similar to an example document in a short time. The present invention provides an index including a step of inputting a related art document, a step of expressing the related art document as a word vector by analyzing a specific structure of the document, and a step of storing the expressed word vector. And inputting an example document, expressing the example document as a word vector by analyzing the specific structure of the document, and similarity between the word vector for the related technical document stored in the indexing process and the vector for the example document. And a search system therefor.
Description
【0001】[0001]
【発明の属する技術分野】本発明は文書を自動検索する
例題ベース検索方法及び検索システムに関するもので、
より詳しくは、文書の特定構造を利用して同一または類
似する関連技術を検索する類似性判断のための例題ベー
ス検索方法及び検索システムに関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an example-based search method and search system for automatically searching documents,
More specifically, the present invention relates to an example-based search method and a search system for determining similarity using the specific structure of a document to search for the same or similar related technologies.
【0002】[0002]
【従来の技術】新技術の開発は全く新たな思想に基づき
もするが、今日に至っては同一または関連技術分野の技
術を利用した改良技術から生み出される場合がより多
く、その内容もより複雑多様化され、その価値も増大し
ている。従って、産業分野においては、既に開発・発表
された技術同士の同一性及び/または類似性を判断すべ
き場合が頻繁になってくる。2. Description of the Related Art The development of new technology is based on a completely new idea, but to date, it is more often produced from improved technology utilizing the technology of the same or related technical fields, and its contents are more complex and diverse. And its value is increasing. Therefore, in the industrial field, it is often necessary to judge the identity and / or similarity between technologies already developed and announced.
【0003】例えば、企業や研究所などにて新技術の開
発を図る場合または新技術の開発途中あるいは完成後に
該技術と同一または類似な関連技術が存在するか否かを
検索し、該技術が検索された関連技術に対して同一性及
び類似性を有するか否かを判断する作業が行われてい
る。For example, when a new technology is developed in a company or a research institute, or while the new technology is being developed or completed, it is searched whether or not there is a related technology which is the same as or similar to the technology, and the technology is searched. Work is being performed to determine whether or not there is an identity and similarity with the related technology retrieved.
【0004】前記のように技術同士の同一性及び類似性
を判断するために従来のキーワード(keyword)検索シス
テムを利用する場合、使用者は例題技術(例えば、新技
術)を具体的に把握し例題技術に関連する技術を検索し
てから例題技術と検索された関連技術との同一性及び/
または類似性(差異点)などを直接判断しなければならな
い。As described above, when a conventional keyword search system is used to determine the identity and similarity between technologies, the user must understand the example technology (for example, new technology). After searching the technology related to the example technology, the example technology and the related technology found are identified as
Or, you have to directly judge the similarity (difference).
【0005】このように、従来のキーワード(keyword)
検索システムを利用する場合、使用者が新たな知識を理
解し且つ文書内容を確実に認知しなければならなく、例
題技術と検索された関連技術との同一性及び/または類
似性(差異点)などを判断するのに大変時間がかかり、ま
た幾つかのキーワードにより検索が行われる為関連技術
を見落とす可能性があり、検索の正確度が劣る問題があ
った。As described above, conventional keywords
When using the search system, the user must understand new knowledge and surely recognize the document content, and the sameness and / or similarity (difference) between the example technology and the related technology searched It takes a lot of time to judge such a problem, and there is a possibility that the related art may be overlooked because the search is performed by using some keywords, and the accuracy of the search is poor.
【0006】こうして、前記のような従来のキーワード
(keyword)検索システムの問題点を解決すべく例題ベー
ス検索(example-based retrieval)に関連した技術が提
案されてきた。Thus, the conventional keywords as described above
(keyword) Techniques related to example-based retrieval have been proposed to solve the problems of the retrieval system.
【0007】例えば、Verity社のSearch 97、Oracle社
のIntermediaなどのような常用検索システム製作社にて
検索システムの一部として提供するソフトウェアにかか
る機能が一部具現されている。さらに、理論的にはジェ
ラルド・サルトン(非特許文献1)やリカルドとベルチエ
(非特許文献2)などの文献にも例題ベース検索のための
基本的方法論が述べられている。For example, some functions related to software provided as a part of the search system by a regular search system manufacturer such as Verity's Search 97 and Oracle's Intermedia are realized. Furthermore, theoretically, Gerald Salton (Non-Patent Document 1), Ricardo and Berthier
Documents such as (Non-Patent Document 2) also describe basic methodologies for example-based retrieval.
【0008】一般に例題ベース検索とは、情報検索シス
テムにおいて特定文書を探し出すためにクエリー(quer
y)として幾つかの核心キーワードを組み合せて用いる代
わりに使用者が選択した例題文書(example)をそのまま
クエリーとして検索する方式のことをいう。即ち、文書
からキーワードを抽出して単語ベクトルで表現するが、
これを索引といい、かかる単語ベクトルがキーワードの
組み合せと同様の役目を果たす。In general, the example-based search is a query (quer) for finding a specific document in an information search system.
Instead of using some core keywords in combination as y), it refers to the method of directly searching the example document selected by the user as a query. That is, a keyword is extracted from a document and expressed by a word vector,
This is called an index, and such a word vector plays the same role as a combination of keywords.
【0009】しかし、前記常用検索システムや文献に提
示された方法論においてはキーワードの取扱や文書の取
扱を同一に看做し、索引過程において特定単語の出現当
否だけを重視する為、単語の出現位置など文書の主題を
示す重要情報が見落とされてしまう問題があった。言い
換えると、文書の特徴に対する処理を行わず文書におけ
る重要部分とそうでない部分の内容を区別しないので検
索の正確率が低下する問題があった。However, in the regular search system and the methodologies presented in the literature, the handling of keywords and the handling of documents are regarded as the same, and only the appearance or non-appearance of specific words is emphasized in the indexing process. There was a problem that important information indicating the subject of the document was overlooked. In other words, since the feature of the document is not processed and the content of the important part and the content of the unimportant part in the document are not distinguished, there is a problem that the accuracy rate of the search decreases.
【0010】かかる諸問題は文書の構造的な特徴により
文書が多くのフィールド(field)を含むことから惹起さ
れるものと看做される。かかる事項に鑑みて幾つかの常
用システムにおいては、使用者が文書を幾つかのフィー
ルドに区分するようにさせ、使用者が望むフィールド同
士の単なる関連性(similarity)を利用し検索する方式を
提供している。しかし、かかる文書部分同士の比較によ
る検索は文書全体の内容に対する精密な処理要求に符合
しないとの問題がある。It is considered that such problems are caused by the fact that the document includes many fields due to the structural characteristics of the document. In consideration of such matters, some commercial systems provide a method for allowing a user to divide a document into several fields, and to search by using the simple similarity between the fields desired by the user. is doing. However, there is a problem that the search by comparing the document parts does not meet the precise processing request for the content of the entire document.
【0011】[0011]
【非特許文献1】Gerard Salton. (1989). Automatic t
ext processing : the transformation, analysis, and
retrieval of information by computer. Addison-Wes
eley, Reading, Massachusetts.[Non-Patent Document 1] Gerard Salton. (1989). Automatic t
ext processing: the transformation, analysis, and
retrieval of information by computer.Addison-Wes
eley, Reading, Massachusetts.
【非特許文献2】Ricardo Baeza-Yates & Berthier Rib
erio-Neto.(1999).Modern information retrieval. Add
ison-Weseley, Reading, Seoul[Non-Patent Document 2] Ricardo Baeza-Yates & Berthier Rib
erio-Neto. (1999). Modern information retrieval. Add
ison-Weseley, Reading, Seoul
【0012】[0012]
【発明が解決しようとする課題】かかる従来技術の諸問
題を解決すべく本発明者は研究を重ねその結果に基づき
本発明を提案するまでに至ったもので、本発明は技術の
同一性及び/または類似性をより迅速且つ正確に判断で
きるよう同一及び/または類似な関連技術をその類似度
と共に表示する類似性判断のための例題ベース検索方法
及び検索システムを提供することに目的がある。SUMMARY OF THE INVENTION The present inventors have conducted research to solve the problems of the prior art and have proposed the present invention based on the results of the research. It is an object of the present invention to provide an example-based search method and a search system for similarity determination, which displays the same and / or similar related technologies together with their similarity so that the similarity can be determined more quickly and accurately.
【0013】[0013]
【課題を解決するための手段】以下、本発明について説
明する。本発明は、関連技術文書を入力する段階、文書
の特定構造分析により前記関連技術文書を単語ベクトル
で表現する段階、及び前記表現された単語ベクトルを貯
蔵する段階を含む索引過程;、例題文書を入力する段
階、文書の特定構造分析により前記例題文書を単語ベク
トルで表現する段階、及び前記索引過程において貯蔵さ
れた関連技術文書に対する単語ベクトルと例題文書に対
する単語ベクトルとの類似度を求める段階を含む検索過
程を含んで成る例題ベース検索方法に関するものであ
る。The present invention will be described below. The present invention provides an indexing process including inputting a related technical document, expressing the related technical document as a word vector by analyzing a specific structure of the document, and storing the expressed word vector; The steps include inputting, expressing the example document as a word vector by analyzing a specific structure of the document, and obtaining a similarity between the word vector for the related technical document stored in the indexing process and the word vector for the example document. The present invention relates to an example-based search method including a search process.
【0014】さらに、本発明の好ましき類似性判断のた
めの例題ベース検索方法は例題ベース索引過程及び例題
ベース検索過程を含み、前記例題ベース索引過程は、関
連技術文書を入力する段階;入力された関連技術文書に
おいて文書の構造的特性により段落を区分し、区分され
た段落別にキーワードを抽出する段階;前記各段落から
抽出されたキーワードに対する各段落内での加重値を求
め段落別にキーワード及びその加重値を単語ベクトルで
表現する段階;前記単語ベクトルで表現されたキーワー
ドとその加重値を貯蔵する段階を含み、並びに前記例題
ベース検索過程は、例題技術の記載された例題文書を入
力する段階;入力された例題文書において文書の構造的
特性により段落を区分し、区分された段落別にキーワー
ドを抽出する段階;前記各段落から抽出されたキーワー
ドに対する各段落内での加重値を求め段落別にキーワー
ド及びその加重値を単語ベクトルで表現する段階; 前
記表現された例題文書に対する段落別単語ベクトルと前
記索引過程において貯蔵された関連技術文書に対する段
落別単語ベクトルを用いて例題文書と関連技術文書との
対応段落同士の類似度を求め、その段落間類似度を用い
て例題文書と関連技術文書との類似度を求める段階;及
び前記求めた類似度の降冪順に関連技術文書を整列して
使用者に提供する段階を含んで成る(請求項1)。Further, the example-based search method for determining the preferred similarity according to the present invention includes an example-based index process and an example-based search process, wherein the example-based index process includes inputting a related technical document; In the related technical documents, a paragraph is divided according to the structural characteristics of the document, and a keyword is extracted for each divided paragraph; a weight value in each paragraph is calculated for each keyword extracted from each paragraph, and a keyword is obtained for each paragraph. Expressing the weights in a word vector; storing the keywords expressed in the word vector and the weights, and the example-based search process inputs an example document in which example techniques are described. ; A step of dividing paragraphs in the input example document according to the structural characteristics of the document and extracting a keyword for each divided paragraph Calculating a weight value in each paragraph for the keyword extracted from each paragraph and expressing the keyword and its weight value in each paragraph by a word vector; storing the word vector by paragraph in the expressed example document and the indexing process The degree of similarity between the corresponding paragraphs of the example document and the related technical document is obtained by using the word vector for each related technical document, and the similarity between the example document and the related technical document is obtained using the similarity between the paragraphs. And a step of arranging related technical documents and providing them to a user in descending order of the calculated similarity (claim 1).
【0015】さらに、本発明は、関連技術文書を入力す
る関連技術入力部、文書の構造分析により前記関連技術
入力部において入力された関連技術文書を単語ベクトル
で表現する関連技術文書表現部、及び前記関連技術文書
表現部において表現された単語ベクトルを貯蔵する関連
技術文書貯蔵部を含む索引部;例題技術の記載された例
題文書を入力する例題文書入力部、文書の構造分析によ
り例題文書入力部において入力された例題文書を単語ベ
クトルで表現する例題文書表現部、前記関連技術文書貯
蔵部に貯蔵された関連技術文書に対する単語ベクトルと
例題文書表現部で表現された例題文書に対する単語ベク
トルを用いて例題文書に対する類似度を求める類似度演
算部、及び類似度演算部から求めた類似度の降冪順に関
連技術文書を整列して使用者に提供する表示部を含んで
成る類似性判断のための例題ベース検索システムに関す
るものである。Further, according to the present invention, a related technology input section for inputting a related technology document, a related technology document expression section for expressing the related technology document input in the related technology input section by a structure analysis of the document by a word vector, and An index unit including a related technical document storage unit that stores the word vector expressed in the related technical document expression unit; an example document input unit for inputting an example document in which example techniques are described, and an example document input unit for analyzing the structure of the document. In the example document expression unit that expresses the example document input in 1. with the word vector, the word vector for the related technical document stored in the related technical document storage unit and the word vector for the example document expressed in the example document expression unit are used. Align the related technical documents in the descending order of the similarity calculated by the similarity calculating unit and the similarity calculating unit for obtaining the similarity to the example document It relates example based retrieval system for similarity determination comprising a display unit for providing the user Te.
【0016】さらに、本発明の好ましき類似性判断のた
めの例題ベース検索システムは、例題ベース索引部及び
例題ベース検索部を含み、前記例題ベース索引部は、関
連技術文書を入力する関連技術文書入力部;前記入力部
で入力された関連技術文書において文書の構造的特性に
より段落を区分し、区分された段落別にキーワードを抽
出する第1キーワード抽出部;前記第1キーワード抽出
部において各段落から抽出されたキーワードに対する各
段落内での加重値を求め段落別にキーワード及びその加
重値を単語ベクトルで表現する第1単語ベクトル表現
部;及び前記第1単語ベクトル表現部において単語ベク
トルで表現されたキーワードとその加重値を貯蔵する単
語ベクトル貯蔵部を含み、並びに前記例題ベース検索部
は、例題技術の記載された例題文書を入力する例題文書
入力部;前記例題文書入力部で入力された例題文書にお
いて文書の構造的特性により段落を区分し、区分された
段落別にキーワードを抽出する第2キーワード抽出部;
前記第2キーワード抽出部において各段落から抽出され
たキーワードに対する各段落内での加重値を求め段落別
にキーワード及びその加重値を単語ベクトルで表現する
第2単語ベクトル表現部;前記第2単語ベクトル表現部
で表現された例題文書に対する段落別単語ベクトルと前
記単語ベクトル貯蔵部に貯蔵された関連技術文書に対す
る段落別単語ベクトルを用いて例題文書と関連技術文書
との対応段落同士の類似度を求め、該段落間類似度を用
いて例題文書と関連技術文書との類似度を求める類似度
演算部; 及び類似度演算部において求めた類似度の降
冪順に関連技術文書を整列して使用者に提供する表示部
を含んで成る(請求項6)。Further, the example-based search system for determining the preferred similarity according to the present invention includes an example-base index unit and an example-base search unit, and the example-base index unit inputs related technical documents. Document input unit; first keyword extraction unit that divides paragraphs in the related technical document input by the input unit according to the structural characteristics of the document and extracts keywords for each divided paragraph; each paragraph in the first keyword extraction unit A first word vector expression part for expressing a keyword and its weight value for each paragraph by a word vector, and calculating a weight value in each paragraph for the keyword extracted from; and a word vector expressed by the first word vector expression part The example base search unit includes a word vector storage unit that stores keywords and their weights, and the example base search unit is a description of example techniques. Examples document input unit for inputting the example document; the example by dividing the paragraph by structural characteristics of the document in the example document input by the document input unit, the second keyword extracting unit for extracting a keyword by segmented paragraph;
A second word vector expression unit that obtains a weight value in each paragraph for a keyword extracted from each paragraph in the second keyword extraction unit and expresses the keyword and its weight value by a word vector for each paragraph; the second word vector expression Using the paragraph-based word vector for the example document represented by the section and the paragraph-based word vector for the related technical document stored in the word vector storage unit, the similarity between corresponding paragraphs of the example document and the related technical document is obtained, A similarity calculation unit that obtains the similarity between the example document and the related technical document using the inter-paragraph similarity; and the related technical documents are arranged and provided to the user in descending order of the similarity calculated by the similarity calculation unit. And a display unit for displaying the information (claim 6).
【0017】以下、本発明に対して詳しく説明する。こ
こで使う「例題技術」とは類似技術が存在するか否かを判
断しようとする技術のことを意味し、「関連技術」とは前
記例題技術の他の全ての技術を意味するもので、関連技
術には例題技術より先に公知されたものはいうまでもな
くその後公知されたものも含まれる。The present invention will be described in detail below. The "example technology" used here means a technology for determining whether or not there is a similar technology, and the "related technology" means all the other technologies of the above example technology. Related art includes not only those publicly known prior to the example technology but also those publicly known thereafter.
【0018】ここで使う「類似性判断」とは例題技術が関
連技術と同一及び/または類似するか否かを判断するこ
とを意味する。例えば、例題技術が特許に関わる発明で
ある場合、前記「類似性判断」は該発明の完成時点及び/
または出願時点等より先あるいは後に出願された特許文
書または先あるいは後に頒布された刊行物などに記載さ
れた発明(考案、技術など)などと同一及び/または類似
するか否かを判断することを意味し、同一または類似性
(進歩性)を前提とする特許要件(新規性、進歩性、先願
関係)判断、出願当否判断、特許侵害当否判断などに適
用される。As used herein, "similarity determination" means determining whether or not an example technique is the same and / or similar to a related technique. For example, when the example technology is an invention related to a patent, the “similarity judgment” means the completion point of the invention and / or
Alternatively, it may be determined whether or not the invention is the same as and / or similar to the invention (device, technology, etc.) described in the patent document filed before or after the filing date, or the publications distributed earlier or later. Mean, identical or similar
It is applied to the determination of patent requirements (newness, inventive step, prior application relationship) based on (inventive step), application judgment, patent infringement judgment, etc.
【0019】ここで用いる用語「例題文書」は技術(発
明、考案などを含む)などが記載された文書同士の同一
性及び/または類似性を判断する際、他関連技術などと
同一性及び/または類似性があるか否かを判断しようと
する技術が記載された文書のことを意味し、「関連技術
文書」とは同一性及び/または類似性があるか否かを判断
しようとする技術の他の関連技術が記載された文書のこ
とを意味する。The term "example document" used herein is used to determine the identity and / or similarity between documents in which technologies (including inventions, inventions, etc.) are described and the similarities with other related technologies. Or, it means a document in which technology for which it is determined whether there is similarity is described, and "related technical document" is technology for which it is determined whether there is identity and / or similarity. It means a document that describes other related technologies of.
【0020】前記例題文書及び関連技術文書の代表例に
は、一般技術文献及び技術資料、各国特許庁で要求する
記載要件に応じて発明などが記載された特許文書(特許
明細書など)、並びに記載内容が前記記載要件を一部充
たすか(発明申告書、提案書など)全く充たさない(発明
申告書、提案書など)申請文書が挙げられる。前記特許
文書などには発明または考案が記載された、出願中の非
公開明細書、特許または実用新案公開公報、特許または
実用新案公告公報及び特許または実用新案登録公報など
が挙げられる。さらに、前記申請文書には研究課題を整
理した文書、研究結果を整理した文書、完成した技術内
容を整理した文書など(職務発明申告書、提案書など)が
含まれる。Typical examples of the above-mentioned example documents and related technical documents are general technical documents and technical materials, patent documents (patent specifications, etc.) in which an invention or the like is described according to the description requirements required by each national patent office, and An application document may be one in which the described content partially satisfies the above described requirements (invention declaration, proposal, etc.) or does not satisfy at all (invention declaration, proposal, etc.). Examples of the patent documents and the like include non-disclosed specifications, patents or utility model publications, patents or utility model publications, and patents or utility model registrations, in which an invention or invention is described. Further, the application document includes a document summarizing research subjects, a document summarizing research results, a document summarizing completed technical contents (employee invention declaration, proposal, etc.).
【0021】[0021]
【発明の実施の形態】以下、添付の図面に基づいて本発
明による好ましき実施の形態を説明する。本発明は既に
構築されたデータベースの文書と例題文書との類似度合
いを定量的に計算して使用者に提供することにより、例
題文書と同一または類似な関連技術を短時間内に探し出
すのに役立つ類似性判断のための例題ベース検索方法及
び検索システムを提供するものである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT A preferred embodiment of the present invention will be described below with reference to the accompanying drawings. INDUSTRIAL APPLICABILITY The present invention quantitatively calculates the degree of similarity between a document in an already constructed database and an example document and provides it to the user, which helps to find a related technique that is the same as or similar to the example document in a short time. An example-based search method and a search system for determining similarity are provided.
【0022】図1は本発明に符合する類似性判断のため
の例題ベース検索システムにおける全体構成図を示す。
図1によると、本発明に符合する例題ベース検索システ
ム100は一般の情報検索システムと同様に索引部11
0と検索部120とに大きく分かれる。前記索引部11
0は関連技術文書が入力される関連技術文書入力部11
1、文書の構造分析により関連技術文書を表現する関連
技術文書表現部112及び表現された文書を貯蔵する関
連技術文書貯蔵部113を含み、また検索部120は例
題文書が入力される例題文書入力部121、文書の特定
構造分析により例題文書を表現する例題文書表現部12
2及び類似度演算部123を含む。FIG. 1 shows an overall configuration diagram of an example-based search system for similarity determination according to the present invention.
Referring to FIG. 1, the example-based search system 100 according to the present invention is similar to a general information search system in the index unit 11.
It is roughly divided into 0 and the search unit 120. The index section 11
Reference numeral 0 indicates a related technical document input section 11 into which a related technical document is input.
1, a related technical document expression unit 112 that expresses a related technical document by structural analysis of the document, and a related technical document storage unit 113 that stores the expressed document, and the search unit 120 inputs an example document to which an example document is input. Section 121, an example document expression section 12 for expressing an example document by analyzing a specific structure of the document
2 and the similarity calculation unit 123.
【0023】本発明において「索引」とは、本発明の例題
ベースシステムにおいて関連技術文書を検索すべく該文
書を予め検索し易い構造でシステムに記録する過程のこ
とをいい、本発明において「検索」とは、関連技術文書に
関わる類似性判断などのために使用者が提示した例題文
書(例題技術)を分析し索引された関連技術文書から技術
的類似性を求め検索する過程のことをいう。In the present invention, the "index" means a process of recording a related technical document in the example-based system of the present invention in a structure such that the document can be searched in advance in order to search the related technical document. '' Means a process of analyzing an example document (example technique) presented by the user for similarity determination related to the related technical document and searching for a technical similarity from the indexed related technical document. .
【0024】一般に文書検索及び情報検索はベクトル空
間モデル(vector space model)という理論に基づいてい
る。本発明においても索引と検索をベクトル空間モデル
に基づき構成する。Generally, document retrieval and information retrieval are based on the theory of vector space model. Also in the present invention, the index and the search are constructed based on the vector space model.
【0025】本発明を説明するために、先ずベクトル空
間モデルに基づいた例題ベース検索システムについて図
2を参照に説明する。図2によると、一般の例題ベース
検索システム200においては、索引部210と検索部
220の両方で所与された例題文書と関連文書を表現す
る共通過程の文書表現過程を介する。In order to explain the present invention, first, an example-based retrieval system based on a vector space model will be described with reference to FIG. Referring to FIG. 2, in the general example-based search system 200, a document representation process, which is a common process for expressing the given example document and the related document given by both the index unit 210 and the search unit 220, is performed.
【0026】ベクトル空間モデルに基づく例題ベース検
索システムにおいては全ての文書を単語から成るベクト
ルで表現する。貯蔵する文書の集合に現れる単語の数を
nとすれば、文書Diはn次元の単語ベクトル(W
i、1、Wi、2、.... 、Wi、 n)で表現される。In the example-based retrieval system based on the vector space model, all documents are represented by vectors consisting of words. If the number of words appearing in the set of documents to be stored is n, the document D i is an n-dimensional word vector (W
i, 1 , W i, 2 , ..., W i, n ).
【0027】この際、Wi、jは文書Diに対する単語
Tjの加重値を意味する。一般の文書検索において文書
Diに対する単語Tjの加重値Wi、jは単語頻度数(t
f:term frequency)と文書逆頻度(idf:inverse document
frequency)を利用して求める。At this time, W i, j means a weight value of the word T j with respect to the document D i . In general document retrieval, the weight value W i, j of the word T j with respect to the document D i is the word frequency count (t
f: term frequency) and document inverse frequency (idf: inverse document)
frequency).
【0028】文書Diにおける単語Tjの単語頻度数t
fi、jは単語Tjが文書Diに現れる出現回数であ
り、単語Tjが文書の内容をどれほど代表するのかに関
する尺度である。Word frequency number t of word Tj in document Di
f i, j is the number of occurrences of the word T j appears in document D i, word T j is a measure of whether the representative of how the contents of the document.
【0029】一方、単語Tjの文書逆頻度は文書集合に
おいて単語Tjが出現する文書数の比率である文書頻度
(document frequency)の逆(reverse)を意味する。単語
Tjが現れる文書の数が少ないほど単語Tjは単語Tj
が現れる文書を他の文書と区別させ得る能力が高い。単
語Tjの文書逆頻度は文書の差別性を表わす尺度として
働く。[0029] On the other hand, document frequency document reverse frequency of the word T j is the ratio of the number of documents in which the word T j appears in the document set
It means the reverse of (document frequency). The smaller the number of documents in which the word T j appears, the more the word T j becomes the word T j.
It has a high ability to distinguish the document in which is shown from other documents. The document inverse frequency of the word T j serves as a measure of document discrimination.
【0030】単語頻度数と文書逆頻度を使った様々な単
語加重値計算法が研究されてきた。本発明においては広
く知れ渡ったINQUERYシステムの単語加重値計算法を用
いる。文書Diに対する単語Tjの加重値Wi、jは下
記式(1)のように求める。Various word weight calculation methods using the word frequency and the document inverse frequency have been studied. In the present invention, the word weight calculation method of the widely known INQUERY system is used. The weight value W i, j of the word T j with respect to the document D i is obtained by the following equation (1).
【数1】
(ここで、tfi、j:文書Diに対する単語Tjの頻度
数、maxtf:文書D iにおいて最も頻繁に現れる単
語の頻度数、N:全体の文書の数、n:単語Tjが現れ
る文書の数)[Equation 1]
(Where tfi, j: Document DiFor the word TjFrequency
Number, maxtf: Document D iThe most frequently appearing in
Frequency of words, N: number of whole documents, n: word TjAppears
Number of documents)
【0031】前記式(1)により文書に現れる各単語の
加重値を求めれば文書を単語と単語加重値で表現するこ
とができる。If the weighted value of each word appearing in the document is calculated by the equation (1), the document can be expressed by the word and the word weighted value.
【0032】図2によると、索引部210を成す関連技
術文書入力部211に入力された関連技術文書を第1文
書表現部212において単語と単語加重値で表現する段
階を経た後、該文書表現をシステムに迅速且つ容易な検
索に適すよう記録すべく、文書貯蔵部213において逆
索引ファイル(inverted indexing file)貯蔵構造で貯蔵
する逆索引ファイル貯蔵段階を経ることになる。前記逆
索引ファイル貯蔵段階は情報検索において伝統的に用い
られてきた。Referring to FIG. 2, after the related technical document input to the related technical document input unit 211 forming the index unit 210 is expressed in the first document expression unit 212 by a word and a word weight value, the document expression is expressed. In order to record the data into the system for quick and easy retrieval, the document storage unit 213 undergoes an inverted index file storage step of storing it in an inverted indexing file storage structure. The reverse index file storage step has been traditionally used in information retrieval.
【0033】一方、例題ベース検索システムの検索部2
20においては、図2によると、前記式(1)により例
題文書入力部221に入力された例題文書を第2文書表
現部222において単語とその加重値から成るベクトル
で表現した後、文書−文書類似度演算部223において
前記文書貯蔵部213に既に貯蔵された関連文書のベク
トル表現と比較して類似度を求める文書−文書類似度の
計算過程を経てから、表示部において類似度が0より大
きい関連文書を類似度順に整列して使用者に提供するこ
とになる。On the other hand, the search unit 2 of the example-based search system
In FIG. 20, according to FIG. 2, after the example document input to the example document input unit 221 by the equation (1) is expressed by the second document expression unit 222 by a vector composed of words and weights thereof, document-document After the document-document similarity calculation process of calculating the similarity by comparing the vector representation of the related document already stored in the document storage 213 in the similarity calculation unit 223, the similarity is greater than 0 in the display unit. The related documents are arranged in order of similarity and provided to the user.
【0034】索引過程において与えられた例題文書Di
と貯蔵された各関連文書Dxとの類似度[sim(Dx、
Di)]は伝統的に下記式(2)のコサイン類似度(cosin
e similarity)式及び下記式(3)の内的類似度(inner
product similarity)式を用いて求める。An example document D i given in the indexing process
And similarity of each related document D x stored [sim (D x ,
D i )] is traditionally the cosine similarity (cosin
e similarity) and the following equation (3)
product similarity) formula.
【0035】[0035]
【数2】
(ここで、Wx、j:文書Dxに対する単語Tjの加重
値、Wi、j:文書Diに対する単語Tjの加重値)[Equation 2] (Where W x, j : weight value of word T j for document D x , W i, j : weight value of word T j for document D i )
【0036】[0036]
【数3】
(ここで、Wx、j:文書Dxに対する単語Tjの加重
値、Wi、j:文書Diに対する単語Tjの加重値)[Equation 3] (Where W x, j : weight value of word T j for document D x , W i, j : weight value of word T j for document D i )
【0037】本発明は、図1及び図2から判るように例
題ベース検索方法において索引過程と検索過程における
文書表現段階と検索過程における類似度を求める段階を
改善したものである。即ち、本発明の改善ポイントは、
図1に示すように例題ベース索引過程と例題ベース検索
過程において文書表現を例題文書の特徴的な構造把握に
基づいて行い、さらに例題ベース検索過程において類似
度を例題文書の特徴的な構造把握に基づく文書表現を用
いて求めることである。As can be seen from FIGS. 1 and 2, the present invention improves the steps of index representation, the step of document expression in the retrieval step, and the step of obtaining the similarity in the retrieval step in the example-based retrieval method. That is, the improvement point of the present invention is
As shown in FIG. 1, in the example-based index process and the example-based search process, document representation is performed based on the characteristic structure grasp of the example document, and in the example-base search process, similarity is used to grasp the characteristic structure of the example document. It is to obtain using the document expression based on.
【0038】本発明による例題ベース検索のための検索
システムの一例を図3に示す。図3によると、本発明の
検索システム300は例題ベース索引部310及び例題
ベース検索部320を含み、前記例題ベース索引部31
0は関連技術文書を入力する関連技術文書入力部31
1、第1キーワード抽出部312、第1単語ベクトル表
現部313及び単語ベクトル貯蔵部314を含む。An example of a search system for example-based search according to the present invention is shown in FIG. Referring to FIG. 3, the search system 300 of the present invention includes an example base index unit 310 and an example base search unit 320, and the example base index unit 31.
Reference numeral 0 indicates a related technical document input unit 31 for inputting a related technical document.
1, a first keyword extraction unit 312, a first word vector expression unit 313, and a word vector storage unit 314.
【0039】前記第1キーワード抽出部312は、前記
入力部で入力された関連技術文書において文書の構造的
特性により段落を区分し、区分された段落別にキーワー
ドを抽出するよう構成され、前記第1単語ベクトル表現
部313は、前記第1キーワード抽出部312において
各段落から抽出されたキーワードに対する各段落内での
加重値を求めて段落別にキーワード及びその加重値を単
語ベクトルで表現するよう構成される。The first keyword extracting unit 312 is configured to divide a paragraph in the related technical document input by the input unit according to the structural characteristics of the document, and extract a keyword for each divided paragraph. The word vector expression unit 313 is configured to obtain a weight value in each paragraph with respect to the keyword extracted from each paragraph in the first keyword extraction unit 312, and express the keyword and the weight value for each paragraph by a word vector. .
【0040】さらに、前記単語ベクトル貯蔵部314は
前記第1単語ベクトル表現部313において単語ベクト
ルで表現されたキーワードとその加重値を貯蔵するよう
構成される。Further, the word vector storage unit 314 is configured to store the keyword expressed by the word vector in the first word vector expression unit 313 and its weight value.
【0041】一方、前記例題ベース検索部320は例題
技術の記載された例題文書を入力する例題文書入力部3
21、第2キーワード抽出部322、第2単語ベクトル
表現部323、類似度演算部324、及び表示部325
を含む。On the other hand, the example base search unit 320 inputs an example document in which example techniques are described, as an example document input unit 3
21, second keyword extraction unit 322, second word vector expression unit 323, similarity calculation unit 324, and display unit 325.
including.
【0042】前記第2キーワード抽出部322は、前記
例題文書入力部321で入力された例題文書(例えば、
新技術など)において文書の構造的特性により段落を区
分し、区分された段落別にキーワードを抽出するように
構成され、前記第2単語ベクトル表現部323は、前記
第2キーワード抽出部322において各段落から抽出さ
れたキーワードに対する各段落内での加重値を求め段落
別にキーワード及びその加重値を単語ベクトルで表現す
るよう構成される。The second keyword extraction unit 322 is provided with an example document (eg, the example document input by the example document input unit 321).
(Eg, new technology), the paragraphs are divided according to the structural characteristics of the document, and the keywords are extracted for each of the divided paragraphs. The weight value in each paragraph for the keyword extracted from is calculated, and the keyword and its weight value are expressed by a word vector for each paragraph.
【0043】さらに、前記類似度演算部324は、前記
第2単語ベクトル表現部323で表現された例題文書に
対する段落別単語ベクトルと前記単語ベクトル貯蔵部3
14に貯蔵された関連技術文書に対する段落別単位ベク
トルを用いて例題文書と関連技術文書との対応段落間の
類似度を求め、該段落間類似度を用いて例題文書と関連
技術文書との類似度を求めるよう構成され、さらに前記
表示部325は類似度演算部324で求めた類似度の降
冪順に関連技術文書を整列して使用者に提供するよう構
成される。Further, the similarity calculation unit 324 and the word vector storage unit 3 and the word vectors for each paragraph with respect to the example document expressed by the second word vector expression unit 323.
The similarity between the corresponding paragraphs of the example document and the related technical document is calculated using the unit vector for each related technical document stored in 14, and the similarity between the example document and the related technical document is calculated using the paragraph similarity. The display unit 325 is further configured to arrange related technical documents in order of descending power of the similarity calculated by the similarity calculating unit 324 and provide the related technical documents to the user.
【0044】以下、図3の検索システムに基づき本発明
により検索する方法について説明する。The search method according to the present invention based on the search system of FIG. 3 will be described below.
【0045】本発明により例題ベース検索を行うために
は、先ず索引部310の関連技術文書入力部311に関
連技術文書を入力する。次いで、入力された関連技術文
書において文書の構造的特性により段落を区分し、区分
された段落別にキーワードを第1キーワード抽出部31
2で抽出する。次いで、前記のように各段落から抽出さ
れたキーワードに対する各段落内での加重値を求め、段
落別にキーワード及びその加重値を第1単語ベクトル表
現部313において単語ベクトルで表現する。次いで、
前記単語ベクトルで表現されたキーワードとその加重値
を単語ベクトル貯蔵部314に貯蔵する。In order to perform the example-based search according to the present invention, first, the related technical document is input to the related technical document input unit 311 of the index unit 310. Then, the input related technical document is divided into paragraphs according to the structural characteristics of the document, and the keywords are classified into the divided first paragraphs by the first keyword extracting unit 31.
Extract with 2. Next, the weight value in each paragraph for the keyword extracted from each paragraph as described above is obtained, and the keyword and its weight value are expressed by a word vector in the first word vector expression unit 313 for each paragraph. Then
The keyword expressed by the word vector and its weight value are stored in the word vector storage unit 314.
【0046】次いで、例題技術の記載された例題文書を
例題文書入力部321に入力する。次いで、入力された
例題文書において文書の構造的特性により段落を区分
し、区分された段落別にキーワードを第2キーワード抽
出部322で抽出する。次いで、前記各段落から抽出さ
れたキーワードに対する各段落内での加重値を求め、段
落別にキーワード及びその加重値を第2単語ベクトル表
現部323において単語ベクトルで表現する。次いで、
類似度演算部324において前記のように表現された例
題文書に対する段落別単語ベクトルと前記索引過程にお
いて貯蔵された関連技術文書に対する段落別単位ベクト
ルを用いて例題文書と関連技術文書との対応段落間の類
似度を求め、該段落間類似度を用いて例題文書と関連技
術文書間の類似度を求める。次いで、表示部325にお
いて前記求めた類似度の降冪順に関連技術文書を整列し
て使用者に提供するのである。Next, the example document in which the example technique is described is input to the example document input unit 321. Next, in the input example document, paragraphs are divided according to the structural characteristics of the document, and the keywords are extracted by the second keyword extraction unit 322 for each divided paragraph. Next, the weight value in each paragraph for the keyword extracted from each paragraph is obtained, and the keyword and its weight value are expressed by a word vector in the second word vector expression unit 323 for each paragraph. Then
Between the paragraphs corresponding to the example document and the related technical document using the paragraph-based word vector for the example document expressed as described above in the similarity calculator 324 and the paragraph-based unit vector stored for the related technical document in the indexing process. Is calculated, and the similarity between the example document and the related technical document is calculated using the similarity between paragraphs. Then, the related technical documents are arranged on the display unit 325 in the descending order of the calculated similarity and provided to the user.
【0047】図4には、例題文書入力部121に入力さ
れた例題文書に対して文書の構造分析により段落を区分
する段落区分部1221及び区分された段落別に文書を
表現(単語加重値を設定)する段落別文書表現部1222
を含んで成る本発明の例題文書表現部122の一例を示
してある。In FIG. 4, a paragraph division unit 1221 for dividing paragraphs into the example document input to the example document input unit 121 by the structural analysis of the document and a document is expressed for each divided paragraph (a word weight value is set). ) Paragraph-specific document representation unit 1222
An example of the example document expression unit 122 of the present invention is shown.
【0048】図4によると、本発明の類似性判断のため
の例題ベース検索方法において、索引過程と検索過程に
共通に含まれる、文書の特徴的な構造把握による文書表
現方法は大きく分けると2段階の過程から成る。即ち、
図4によると、本発明に符合する特許構造分析による文
書表現方法は、例題文書入力部121に入力された例題
文書に対して例題文書表現部122の段落区分部122
1で文書の特徴的な構造分析により段落を区分する段階
及び段落別文書表現部1222で段落別に文書を表現
(単語加重値を設定)する段階から成る。According to FIG. 4, in the example-based retrieval method for similarity determination according to the present invention, the document representation method by grasping the characteristic structure of the document, which is commonly included in the index process and the retrieval process, is roughly divided into two. It consists of stages. That is,
Referring to FIG. 4, the document representation method according to the present invention, which is based on the patent structure analysis, includes a paragraph division unit 122 of the example document representation unit 122 for the example document input to the example document input unit 121.
In step 1, the paragraph is divided by the characteristic structure analysis of the document, and the paragraph-based document representation unit 1222 represents the document in the paragraph.
It consists of the steps of (setting the word weights).
【0049】例えば、前記例題技術が特許関連発明(以
下、「例題発明」ともいう)の場合には次のように行うこ
とができる。即ち、前記例題発明の記載された例題文書
を本発明により表現するためには先ず、入力された各例
題文書を特許構造把握により段落に区分するのである
が、その例として次のような題目により段落を区分(段
落化)することが挙げられる。
1.発明の名称
2.要約書
3.索引語:発明の名称の他の重要なキーワードを文書
作成者が書き込む場合
4.図面の詳細な説明
5.本発明の詳細な説明:下記のように「関連技術、発
明の目的、構成、作用、効果、利用分野」の区分が具体
的に記述されない形で記述された場合に適用
6.関連技術及び発明の技術分野
7.本発明が果たそうとする技術的課題(または発明の
目的):一部特許文書において「発明目的及び構成」また
は「発明の目的、作用及び効果」などの形態で下記構造の
ように現れる場合があるが、かかる場合には最も先の記
述である「発明の目的」に区分する。
8.発明の構成:「発明の目的」に係り説明したように、
「発明の構成及び作用」などの形態で作成された場合には
「発明の構成」に区分する。
9.発明の作用:同じく「発明の作用及び効果」などの形
態である場合、「発明の作用」に区分する。
10.発明の効果:同じく「発明の効果及び利用分野」な
どの場合には、「発明の効果」に区分する。
11.発明の利用分野
12.構造把握ができない内容:具体的に如何なる特許
構造に所属するかが明確に把握されない全ての内容をこ
の構造に分類する。非構造的な特許文書の場合には全内
容がこの構造に区分される。
13.特許請求範囲の各請求項
入力された例題文書において、このような段落は特許庁
が要求する記載要件を充たす出願形式に応じた特許文書
(特許明細書など)の場合、各段落の題目により容易に区
分可能である。For example, when the example technique is a patent-related invention (hereinafter, also referred to as "example invention"), it can be performed as follows. That is, in order to express the example document described in the example invention according to the present invention, first, each input example document is divided into paragraphs by grasping the patent structure. One example is to divide paragraphs into paragraphs. 1. Title of invention 2. Summary 3. Index word: When the document creator writes other important keywords of the title of the invention. Detailed Description of the Drawings 5. Detailed explanation of the present invention: Applicable when the category of "related art, purpose of invention, structure, action, effect, field of use" is described in a form not specifically described as follows6. Related Art and Technical Field of Invention 7. Technical problem to be achieved by the present invention (or object of invention): In some patent documents, the following structure may appear in a form such as "object and structure of invention" or "object, function and effect of invention". However, in such a case, it is classified into the "purpose of the invention" which is the earliest description. 8. Structure of the invention: As explained in connection with "Object of invention",
When it is created in a form such as “structure and action of invention”, it is classified as “structure of invention”. 9. Action of the invention: Similarly, when it is in the form of "action and effect of the invention", it is classified as "action of the invention". 10. Effects of the invention: Similarly, in the case of "effects and fields of use of the invention", etc., they are classified as "effects of the invention". 11. Fields of Use of Invention 12. Contents whose structure cannot be grasped: All contents whose specific patent structure is not clearly understood are classified into this structure. In the case of unstructured patent documents, the entire content is divided into this structure. 13. In the example document entered in each claim of the claims, such paragraphs are patent documents corresponding to the application format that satisfies the description requirements required by the JPO.
In the case of patent specifications, etc., they can be easily classified by the title of each paragraph.
【0050】とりわけ、特許庁が要求するSGML(Sta
ndard Generalized Markup Language)から成る特許文書
やXML(Extensible Markup Language)などにより作成
された特許文書においては段落題目及び段落を区別し易
いので、前記段落を容易に区別することができる。In particular, SGML (Sta
Since it is easy to distinguish between paragraph titles and paragraphs in a patent document made up of ndard Generalized Markup Language) or a patent document created in XML (Extensible Markup Language), the paragraphs can be easily distinguished.
【0051】このように段落を容易に区別できるマーク
アップ言語(Markup Language)で作成された特許文書
の場合には、本発明において段落区分部1221を行う
ことなく直接段落文書表現部1222において段落別に
単語ベクトルで表現して全体文書を表現する。In the case of a patent document created in a markup language capable of easily distinguishing paragraphs as described above, the paragraph dividing unit 1221 is not performed in the present invention, and the paragraph document expression unit 1222 directly divides each paragraph. The whole document is represented by word vectors.
【0052】前記のように段落を容易に区分できない場
合には、文書において特定段落を探し出すために各段落
の題目を探す方法が必要となる。例えば、例題発明の場
合には特許庁が要求する記載要件を充たす文書及び、と
りわけ記載要件を一部充たした、または全く充たさない
文書において特定段落を探すために各段落の題目を探す
方法が必要である。When the paragraphs cannot be easily divided as described above, a method of searching the subject of each paragraph is required to find a specific paragraph in the document. For example, in the case of example inventions, there is a need for a method that searches for the subject of each paragraph in order to find a specific paragraph in a document that satisfies the description requirements required by the JPO and, in particular, in a document that partially or completely does not satisfy the description requirements. Is.
【0053】本発明により技術文書の段落題目を探す好
ましきシステム及び方法の一例を図5及び図6に夫々示
す。An example of a preferred system and method for searching for paragraph titles in technical documents according to the present invention is shown in FIGS. 5 and 6, respectively.
【0054】図5には本発明に符合する好ましき段落題
目抽出システムの一例を示す。図5によると、本発明に
符合する好ましき段落題目抽出システム400は、文章
抽出部410、語節抽出部420、段落題目表示部43
0、選択部440、段落題目当否判断部450、及び段
落題目抽出部460を含む。FIG. 5 shows an example of a preferred paragraph title extraction system consistent with the present invention. Referring to FIG. 5, a preferred paragraph title extraction system 400 according to the present invention includes a sentence extraction unit 410, a phrase extraction unit 420, and a paragraph title display unit 43.
0, a selection unit 440, a paragraph title validity determination unit 450, and a paragraph title extraction unit 460.
【0055】前記文章抽出部410は、夫々入力された
関連技術文書または例題文書から文章を抽出するよう構
成され、前記語節抽出部420は前記文章抽出部410
から抽出された文章から語節を抽出するよう構成され、
そして段落題目表示部430は前記語節抽出部420に
おいて抽出された語節が構造判断規則に該当する段落題
目を表示するよう構成される。The sentence extracting unit 410 is configured to extract a sentence from the related technical document or the example document respectively inputted, and the phrase extracting unit 420 makes the sentence extracting unit 410.
Configured to extract phrases from sentences extracted from
The paragraph title display unit 430 is configured to display the paragraph titles whose phrases extracted by the phrase extraction unit 420 correspond to the structure determination rule.
【0056】前記選択部440は、前記段落題目表示部
において段落題目表示過程が完了した文章中最も多い語
節と一致する段落題目を選択するよう構成され、前記段
落題目当否判断部450は前記選択部440で選択され
た語節に対して一致する語節数/全体語節数の比が一定
値以上、好ましくは0.8以上か判断して一定値(0.8)
以上であれば新たな段落題目として判断し、その比が一
定値(0.8)未満であれば関連段落に含ませるよう構成
し、前記段落題目抽出部460は段落題目当否判断部4
50において段落題目として判断されたものを段落題目
に抽出するよう構成される。The selection unit 440 is configured to select a paragraph title that matches the largest number of phrases in the sentence in which the paragraph title display process is completed in the paragraph title display unit, and the paragraph title hit / miss determination unit 450 selects the selection. A constant value (0.8) by judging whether the ratio of the number of matching clauses / the total number of clauses with respect to the clause selected by the section 440 is a certain value or more, preferably 0.8 or more.
If it is more than the above, it is judged as a new paragraph title, and if the ratio is less than a constant value (0.8), it is included in the related paragraph.
It is configured to extract what is determined as a paragraph title in 50 into a paragraph title.
【0057】前記段落題目抽出システムは前記第1キー
ワード抽出部312及び第2キーワード抽出部322に
夫々具備することが好ましい。The paragraph title extraction system is preferably provided in each of the first keyword extraction unit 312 and the second keyword extraction unit 322.
【0058】図5に示す段落題目抽出システムを用いて
例題文書及び関連技術文書の段落題目を抽出する過程を
図6に基づき説明する。A process of extracting the paragraph titles of the example document and the related technical document using the paragraph title extraction system shown in FIG. 5 will be described with reference to FIG.
【0059】図6によると、本発明により例題文書また
は関連技術文書の段落題目を探すためには先ず、文章抽
出部410において入力例題文書または関連技術文書か
ら文章を抽出した後(段階510)、語節抽出部420に
おいて抽出された文章から語節を抽出する(段階52
0)。本発明においては抽出される文章の単位にはリタ
ーン(return)文字で区分される単位を用いることが好ま
しい。次いで、段落題目表示部430において前記のよ
うに抽出された語節が段落判断規則に該当する段落題目
を表示して蓄積する(段階530)。前記語節抽出及び段
落題目表示過程を抽出された文章が終わるまで繰り返し
行う(段階540)。Referring to FIG. 6, in order to search for a paragraph title of an example document or a related technical document according to the present invention, first, a sentence extracting unit 410 extracts a sentence from the input example document or a related technical document (step 510). A phrase is extracted from the sentence extracted by the phrase extracting unit 420 (step 52).
0). In the present invention, it is preferable to use a unit divided by a return character as a unit of the extracted sentence. Then, the paragraph title display unit 430 displays and accumulates the paragraph titles whose phrases extracted as described above correspond to the paragraph determination rule (step 530). The phrase extraction and paragraph title display process is repeated until the extracted sentence is completed (step 540).
【0060】次いで、抽出された文章に対して段落題目
表示過程が完了すると、選択部440において文章中最
も多い語節に一致する段落題目を選択する(段階55
0)。次いで、段落題目当否判断部450において前記
のように選択された語節に対して一致した語節数/全体
語節数の比が一定値以上(図6には0.8以上としてい
る)であるかを判断して、0.8以上であれば新たな段落
題目として判断し、その比が0.8未満であれば関連段
落に含ませる(段階560)。次いで、段落題目当否判断
部450において段落題目として判断されたものは段落
題目抽出部460において段落題目に抽出(生成)する
(段階570)。前記過程を文書の最終文章まで繰り返し
行うことにより例題文書に対する段落題目を検査するこ
とができる(段階580)。Then, when the paragraph title display process is completed for the extracted sentence, the paragraph title corresponding to the most words in the sentence is selected in the selection unit 440 (step 55).
0). Next, when the ratio of the number of matching clauses / the total number of clauses with respect to the clause selected as described above in the paragraph title validity determination section 450 is a certain value or more (0.8 or more in FIG. 6). If it is 0.8 or more, it is determined as a new paragraph title, and if the ratio is less than 0.8, it is included in the related paragraph (step 560). Next, the paragraph title validity determining unit 450 determines (generates) a paragraph title as a paragraph title in the paragraph title extracting unit 460.
(Step 570). By repeating the above process until the final sentence of the document, the paragraph title of the example document can be checked (step 580).
【0061】以下、本発明により抽出された文章が新た
な段落の始まりを知らせる段落題目であるか検査する過
程、即ち抽出された文章から段落題目を抽出する過程の
一例を説明する。Hereinafter, an example of a process of checking whether the extracted sentence is a paragraph title that notifies the start of a new paragraph, that is, a process of extracting a paragraph title from the extracted sentence will be described.
【0062】前記段落題目であるか検査するための段落
判断規則の好ましき例として次のような構成を挙げられ
る。
[段落名][手掛り単語集合(相互間OR関係)][一致度合
い][必要度合い]$
・[段落名]:次の規則が一致する場合の特定段落を指す
・[手掛り単語集合]:端緒となる単語の羅列で、共に羅
列される場合はそれらの中のいずれかが一致すればよい
という意味である。即ち、ORの関係である。
・[一致度合い]:3種の一致度合いがある。「+」表示は
手掛り単語集合の単語と正確に入力語節が完全一致しな
ければならず、「−」表示は手掛り単語と部分一致しなけ
ればならず、「=」表示は手掛り単語が現れさえすれば該
段落が確実に一致することを意味する。即ち、他規則を
適用する必要無くその構造の初文章であることが明確に
分かることを意味する。
・[必要度合い]:2つのタイプがある。「y」タイプはそ
の構造として認識されるために必ず現在の規則が充たさ
れるべきであることを意味し、「n」タイプは現在の構造
として認識されるために必ず必要なものではなく、有り
得ることを意味する。
・$:一規則の終を区分する認識子である。As a preferable example of the paragraph judgment rule for checking whether the item is the above-mentioned paragraph title, the following configuration can be given. [Paragraph name] [Cue word set (mutual OR relationship)] [Matching degree] [Necessity] $ ・ [Paragraph name]: Pointing to a specific paragraph when the following rules match ・ [Cue word set]: Starting point It means that any of them should match if they are listed together. That is, it is the relation of OR. -[Matching degree]: There are three kinds of matching degree. The "+" display must exactly match the input phrase with the word in the clue word set, the "-" display must partially match the clue word, and the "=" display will show the clue word. This means that the paragraphs will match exactly. That is, it means that it is clearly understood that it is the first sentence of the structure without the need to apply other rules.・ [Necessity]: There are two types. The "y" type means that the current rules must be satisfied in order to be recognized as its structure, and the "n" type is not necessarily required to be recognized as the current structure, and can be Means that. $: A recognizer that distinguishes the end of one rule.
【0063】抽出された文章が段落題目であるかを検査
するためには先ず、抽出された文章から語節を抽出し、
抽出された各語節が前記各規則と比較して一致するかを
把握する。例えば、「発明の詳細な説明」の構造を把握す
るための規則は次のとおりである。
6 { 図面 図案 図名 面の 図面の簡単な 図 } − y
$
6 { 添付 内容 説明 名称 氏名 簡単化 説明図 書名
構成 } − y $
6 { 簡単な 詳細な } + n $
6 { 考案 発明 } + n $
6 { 各 本 } − n $
6 { 主要 } − n $
6 { 対する } + n $
6 { 符合 } − n $
6 { 部分 } − n $In order to check whether the extracted sentence is a paragraph title, first, words are extracted from the extracted sentence,
The extracted words are compared with the rules to determine whether they match. For example, the rules for understanding the structure of the "detailed description of the invention" are as follows. 6 {Simple drawing of the drawing on the drawing name side} -y
$ 6 {Attachment Description Name Name Name Simplified Explanation Book Name
Composition} − y $ 6 {Simple detailed} + n $ 6 {Invented invention} + n $ 6 {Each book} − n $ 6 {Main} − n $ 6 {Compare} + n $ 6 {Sign} − n $ 6 {part} − n $
【0064】前記例において「6」は「図面の詳細な説明」
を示す「段落名」フィールド(field)である。そして、最
初の規則は「図面、図案、図名、面の、図面の簡単な、
図」のように6つの手掛り単語に言及しながら、これら
が該入力語節と「部分一致」してもよいことを意味する。
ここで「部分一致」とは、所与された文章が「図面の詳細
な説明」である場合、「図面」という手掛り単語が「図面
の」という語節と一部一致する場合を意味する。In the above example, "6" is "detailed description of the drawing".
It is a "paragraph name" field that indicates. And the first rule is "drawing, design, drawing name, face, simple drawing,
References to six clue words, such as "Figure," mean that they may "partially match" the input phrase.
Here, "partial match" means that when the given sentence is "detailed description of the drawing", the clue word "drawing" partially matches the phrase "of the drawing".
【0065】第三の規則は「+」の完全一致とされ、先の
入力文章の「詳細な」という語節に適用される。もしこの
場合、所与された文章が「図面が詳細であれば説明がよ
り…」であったとすると、第一の規則が「図面が」で一致
する。しかし、第三の規則がたとえ「詳細であれば」で部
分一致しても、如何なる単語とも完全一致にならないの
で適用されない。The third rule is an exact match of "+" and is applied to the word "detailed" in the preceding input sentence. In this case, if the given text is "the description is more detailed if the drawing is detailed ...", the first rule matches "the drawing is". However, even if the third rule partially matches "if it is detailed", it does not apply because it does not exactly match any word.
【0066】先の「図面の詳細な説明」に対する規則中必
ず適用されべき規則は「y」で表示された第一と第二の規
則である。即ち、入力文章が「図面の詳細な説明」に対す
る段落の始まり、即ち段落題目であることを示すために
は、入力文章中この二つの規則を充たす語節が必ず存在
しなければならない。Among the rules for the above "Detailed Description of Drawings", the rules which must be applied are the first and second rules indicated by "y". That is, in order to indicate that the input sentence is the beginning of a paragraph for the "detailed description of the drawing", that is, the paragraph title, there must be a phrase satisfying these two rules in the input sentence.
【0067】文書の特徴的構造分析過程において最も重
要な規則は、入力文章の全体語節中80%以上の語節が
一つの段落を示す規則により正しく検査されてこそ新た
な段落題目とすることである。例えば、「図面の説明で
述べたように、図面1は…」のような文章が入力文章で
ある場合、「図面」と「説明」が先の第一と第二の規則に適
用され「発明の詳細な説明」に該当する段落題目となる可
能性が高いが、全体文章において残りの単語がその他の
規則により適用されない為その構造、即ち段落題目に分
析されないのである。The most important rule in the process of analyzing the characteristic structure of a document is that a new paragraph title is obtained when 80% or more of the entire phrases of the input sentence are correctly examined by the rule indicating one paragraph. Is. For example, when a sentence such as “as described in the description of drawings, drawing 1 is…” is an input sentence, “drawing” and “explanation” are applied to the first and second rules described above. There is a high possibility that it will be a paragraph title corresponding to "Detailed explanation of", but the rest of the words in the whole sentence are not applied by other rules, so that structure, that is, the paragraph title, is not analyzed.
【0068】次いで、前記のように文書の特徴的構造把
握により区分された段落別に単語を抽出してその加重値
を求め、単語及び加重値を単語ベクトルで表現する。Next, as described above, words are extracted for each paragraph divided by grasping the characteristic structure of the document, the weighted value is obtained, and the word and the weighted value are expressed by a word vector.
【0069】本発明においては関連例題ベース検索にお
いて文書を一つのベクトルで表示するのと違って、文書
を諸段落のベクトルで表現する。例えば、例題技術が特
許関連発明の場合には前述のように例題文書(特許文書)
を13個の段落で定義することができ、その中13段落
である特許請求範囲の各請求項は特許文書により異な
る。したがって、本発明においては各特許文書当り少な
くとも13個以上のベクトルが存在することになり、文
書を13個以上のベクトルで表現することができる。In the present invention, a document is represented by a vector of paragraphs, unlike displaying a document by one vector in the related example base search. For example, if the example technology is a patent-related invention, the example document (patent document) as described above
Can be defined in 13 paragraphs, of which 13 claims, each claim of which is dependent on the patent document. Therefore, in the present invention, there are at least 13 or more vectors for each patent document, and a document can be represented by 13 or more vectors.
【0070】したがって、特許文書Diは段落集合の
(Fi1、Fi2、…、Fim)で表記するとmは13以上の値
となる。Therefore, the patent document D i is
When expressed by (F i1 , F i2 , ..., F im ), m has a value of 13 or more.
【0071】さらに、各段落Fijはn次元の単語ベク
トル(Wij、1、Wij、2、…、Wij、n)で表現
される。この際、Wij、qは文書Diの段落Fijに
おける単語Tqの加重値を示す。したがって、関連加重
値計算法の前記式(1)を下記式(4)のように変更し
なければならない。Furthermore, each paragraph F ij is represented by an n-dimensional word vector (W ij, 1 , W ij, 2 , ..., W ij, n ). At this time, W ij, q indicates the weighted value of the word T q in the paragraph F ij of the document D i . Therefore, the equation (1) of the related weight calculation method must be changed to the following equation (4).
【0072】[0072]
【数4】
(ここで、tfij、q:文書Diの段落Fijにおけ
る単語Tqの頻度数、maxtf:文書Diの段落F
ijにおいて最も多く現れる単語の頻度数、N:全体の
文書の数、n:単語Tqが現れる文書の数)[Equation 4] (Where, tf ij, q: frequency number of documents D i word T q in paragraph F ij of, max tf: paragraph of the document D i F
( The frequency of the most frequently occurring words in ij , N: the number of documents in total, n: the number of documents in which the word T q appears)
【0073】前記文書の特徴的な構造分析(把握)による
文書表現方法は、本発明の例題ベース索引部及び検索部
に共通に用いられる。かかる表現方法を例題ベース索引
においては、前記索引部の関連技術文書貯蔵部に従来の
方法の如く逆索引ファイル貯蔵構造として貯蔵して、検
索の際迅速に検索可能にさせることが好ましい。The document expression method based on the characteristic structure analysis (grasping) of the document is commonly used for the example base index unit and the search unit of the present invention. In the example-based index, it is preferable that such a representation method is stored in the related technical document storage unit of the index unit as an inverted index file storage structure as in the conventional method, so that the index can be quickly searched.
【0074】本発明に符合する例題ベース検索過程は、
図1のように検索部の類似度演算部において後述の如く
技術的類似度を判断する段階を含む。例えば、新たな発
明の特許性を判断する場合、技術的類似度、即ち特許的
類似度判断過程は次のとおりである。An example-based search process consistent with the present invention is
As shown in FIG. 1, the similarity calculation unit of the search unit includes a step of determining a technical similarity as described later. For example, in determining the patentability of a new invention, the technical similarity, that is, the patent similarity determination process is as follows.
【0075】本発明の例題ベース検索過程においては、
特許性判断に役立つ特許的類似度計算を可能にすべく、
特許専担者が特許性判断を下す論理的行為に倣う。In the example-based search process of the present invention,
In order to enable patent similarity calculation that is useful for determining patentability,
The patent specialist follows the logical act of making a patentability decision.
【0076】通常、特許専担者は新たな発明の特許性を
判断するために、各請求項が関連特許において同じ形態
で現れる場合に最も先に両特許間の特許性が一致するも
のと判断する。そして、両特許の目的及び効果と題目が
類似する場合、その特許性が類似すると看做し、次いで
各請求項、発明の構成と作用が類似するかを検査する。
残りの内容はその後調べる。Generally, in order to determine the patentability of a new invention, the patent specialist determines that the patentability between the two patents is the earliest when the claims appear in the same form in the related patent. . Then, when the purpose and effect of both patents are similar to the subject, it is considered that the patentability is similar, and then it is examined whether or not each claim and the structure and operation of the invention are similar.
The rest of the content will be examined later.
【0077】したがって、本発明においても両特許文書
の特許的類似性判断は、最も先に両特許の請求項中一つ
でも100%一致すれば両特許の特許的類似性を手放し
で100%とし、そうでなければ重要段落が類似するほ
ど両特許間には高い特許的類似性があると看做す仕方で
行われることが好ましい。Therefore, also in the present invention, if the patent similarity judgment of both patent documents is 100% even if one of the claims of both patents is the earliest, the patent similarity of both patents is 100% without letting go. However, it is preferable to consider that there is a high degree of patent similarity between the two patents if the important paragraphs are similar to each other.
【0078】例えば、例題文書と関連技術文書が特許文
書(特許明細書)である場合、例題文書と関連技術文書と
の類似度判断は次のように行うことが好ましい。For example, when the example document and the related technical document are patent documents (patent specifications), it is preferable to determine the similarity between the example document and the related technical document as follows.
【0079】前記両文書の特許請求範囲段落中同一請求
項が一つでも存在すればその両特許は同一なものと判断
し、前記両文書の特許請求範囲段落中同一請求項が一項
も無い場合には類似度判断を次のように行う。If any one of the same claims exists in the claim paragraphs of both documents, the two patents are judged to be the same, and there is no same claim in the claim paragraphs of both documents. In this case, the similarity determination is performed as follows.
【0080】即ち、両文書の「発明の名称、発明の目的
及び発明の効果」段落同士の類似度を求め、こうして求
めた類似度中最も高いものをこれら段落の代表類似度値
に選定した後最も高い加重値を与え、「要約書、発明の
構成、発明の作用、請求範囲」段落同士の類似度を求
め、こうして求めた類似度中最も高いものをこれら段落
の代表類似度値として選定した後加重値を与え、また残
りの段落同士の類似度を求めてこれらの平均値を代表類
似度値として選定した後最も低い加重値を与える。前記
各代表類似度値に夫々加重値を乗じた値を合わせた値を
比較して類似度を判断する。That is, after calculating the similarity between the "title of invention, object of invention and effect of invention" paragraphs of both documents, the highest similarity among the similarities thus obtained is selected as the representative similarity value of these paragraphs. Given the highest weighted value, the similarity between the "abstract, composition of invention, action of invention, and claim" paragraphs was calculated, and the highest similarity among the similarities thus obtained was selected as the representative similarity value of these paragraphs. After giving the post-weighting value, determining the similarity between the remaining paragraphs and selecting the average value thereof as the representative similarity value, the lowest weighting value is given. The similarity is determined by comparing the values obtained by multiplying the respective representative similarity values by the respective weighted values.
【0081】一方、本発明による各段落間類似性判断
は、前記式(2)と前記式(3)において文書ベクトル
を段落ベクトルに変更した類似度式を用いて行うことが
できる。本発明においては前記式(2)のコサイン類似
度式を用いて段落間類似度を求めることが好ましい。On the other hand, the inter-paragraph similarity judgment according to the present invention can be carried out by using the similarity equation in which the document vector is changed to the paragraph vector in the equations (2) and (3). In the present invention, it is preferable to obtain the inter-paragraph similarity using the cosine similarity expression of the above equation (2).
【0082】例題文書Diのj番目の段落Fijと関連
技術文書Dpのq番目の段落Fpq間の類似度sim_
F(Fij、Fpq)は下記式(5)のように定義するこ
とができる。Similarity between the j-th paragraph F ij of the example document D i and the q-th paragraph F pq of the related technical document D p sim_
F (F ij , F pq ) can be defined by the following equation (5).
【数5】
(ここで、Wij、l:単語Tlが文書Diのj番目の
段落Fijにおける加重値、Wpq、l:単語Tlが文
書Dpのj番目の段落Fpqにおける加重値)[Equation 5] (Where W ij, l : the word T l is the weight value in the j-th paragraph F ij of the document D i , W pq, l : the word T l is the weight value in the j-th paragraph F pq of the document D p )
【0083】前記式(5)はコサイン類似度式を使うの
で、段落間類似度sim_F(Fij、Fpq)は常に0
と1の間の値となる。両段落間の類似度sim_F(F
ij、Fpq)が1の場合は100%相互一致するベク
トルであることを意味する。Since the above equation (5) uses the cosine similarity equation, the inter-paragraph similarity sim_F (F ij , F pq ) is always 0.
The value is between 1 and 1. Similarity between both paragraphs sim_F (F
When ij and F pq ) are 1, it means that the vectors are 100% mutually coincident.
【0084】段落表記法Fijにおいてjは先に説明し
た段落把握から得られる段落順序と一致する。したがっ
て、例えば、Fi1は特許文書Diの「発明の名称」段落
を意味し、Fi2は特許文書Diの「要約書」段落を意味
する。In the paragraph notation F ij , j matches the paragraph order obtained from the paragraph grasp described above. Thus, for example, F i1 means "entitled" paragraph patent document D i, F i2 means "abstract" paragraph patent documents D i.
【0085】次いで、前記のように段落間類似度を求め
てから、該段落間類似度を用いて下記式(6)により所
与された例題文書(例題技術)Diと関連技術文書(関連
技術)Dp間の技術的類似度sim_P(Di、Dp)を求
めることが好ましい。Next, after the inter-paragraph similarity is calculated as described above, the example document (example technology) D i and the related technical document (related technology) between D p technical similarity sim_P (D i, it is preferable to determine the D p).
【数6】 [Equation 6]
【0086】例えば、前記例題文書と関連技術文書が特
許文書である場合、前記式(6)の最初の項は、両特許
の請求項中いずれかが一致すれば両特許間の特許的類似
度sim_P(Di、Dp)が1となり完全に特許性が一
致すると看做すことを数式で表現したものである。そし
て、第二の項はそうでない場合、前述した段落重要度に
より求めることを意味する。この際、αとβ、μは各段
落グループの重要度を示す。従って、αとβ、μの和は
常に1にならなければならない。本発明においては実験
によりα値を0.5、β値を0.3、μ値を0.2と定め
る。For example, when the example document and the related technical document are patent documents, the first term of the formula (6) is the patent similarity between the two patents if the claims of both patents match. This is a mathematical expression that sim_P (D i , D p ) is 1 and is considered to be completely patentable. Then, the second term, if not, means to obtain the paragraph importance described above. At this time, α, β, and μ indicate the importance of each paragraph group. Therefore, the sum of α, β, and μ must always be 1. In the present invention, α value is set to 0.5, β value is set to 0.3, and μ value is set to 0.2 by experiments.
【0087】したがって、第二の項は、例えば「発明の
目的」と「発明の効果」と「発明の題目」の類似度中最も高
い値に加重値0.5を乗じた値と、「要約書」と「発明の構
成」と「発明の目的」と「請求項」の和から最も高い値に加
重値0.3を乗じた値、そして最後に残りの段落の類似
度平均に0.2を乗じた値を全て合わせた値により両特
許間特許的類似度を求める数式を意味するのである。Therefore, the second term is, for example, a value obtained by multiplying the highest value among the similarities of “object of invention”, “effect of invention” and “title of invention” by a weight value of 0.5, and “summary”. Value, which is obtained by multiplying the highest value from the sum of the “book”, the “structure of the invention”, the “object of the invention”, and the “claims” by a weighted value of 0.3, and finally, the average similarity between the remaining paragraphs is 0.2. It means a mathematical expression for obtaining the patent similarity between both patents by a value obtained by adding all the values multiplied by.
【0088】前記数式(6)は一例に過ぎず、例えば各
段落グループの重要度を3つでなく2つまたは4つ以上
に設定でき、その重要度の値も変化させ得ることは言う
までもない。The above formula (6) is merely an example, and it goes without saying that the importance of each paragraph group can be set to two or four or more instead of three, and the value of the importance can be changed.
【0089】前記式(6)により例題文書Diに対する
全ての関連技術文書の技術的類似度を求めると、これを
降冪順に整列して使用者に提供する。そうすると、使用
者は例題技術と技術的に類似する順に関連技術を検索で
きるようになる。When the technical similarities of all the related technical documents to the example document D i are calculated by the equation (6), they are arranged in descending order of power and provided to the user. Then, the user can search for related technologies in the order of technical similarity to the example technology.
【0090】なお、本発明の好ましき実施例は例示を目
的として開示されたものであり、当業者ならば本発明の
思想と範囲内において多様な修正、変更、付加などが可
能で、かかる修正・変更などは本発明の技術的範囲に属
するものと看做されるべきである。The preferred embodiments of the present invention are disclosed for the purpose of illustration, and those skilled in the art can make various modifications, changes and additions within the spirit and scope of the present invention. Modifications and changes should be regarded as belonging to the technical scope of the present invention.
【0091】[0091]
【発明の効果】上述したように、本発明は技術的に類似
する関連文書をその類似度合いと共に表示することによ
り類似性を容易且つ迅速に判断させ得る効果を奏する。
さらに、本発明を新たな発明の申告または出願時に用い
る場合、特許性判断専担者や発明者が類似する関連文書
をその類似度合いと共に見比べることができるので、発
明の特許性などを容易且つ迅速に判断させ得る効果を奏
する。さらに、本発明は技術が記載された文書を直接本
発明システムに提供することができるので、使用者が技
術に対する知識を習得及び理解する必要が無く検索時間
を大幅に短縮させ得る効果を奏する。As described above, according to the present invention, technically similar related documents are displayed together with their degree of similarity, so that the similarity can be judged easily and quickly.
Furthermore, when the present invention is used at the time of filing or filing a new invention, the patentability judgment specialist or the inventor can compare similar related documents together with the degree of similarity, so that the patentability of the invention can be easily and quickly obtained. The effect that can be judged is produced. Further, the present invention can directly provide a document in which the technology is described to the system of the present invention, so that the user does not need to learn and understand the technology, and thus the search time can be significantly shortened.
【図1】本発明に符合する類似性判断のための例題ベー
ス検索システムにおける全体構成図である。FIG. 1 is an overall configuration diagram of an example-based search system for similarity determination according to the present invention.
【図2】通常の例題ベース検索システムにおける全体構
成図である。FIG. 2 is an overall configuration diagram of a normal example-based search system.
【図3】本発明における好ましき例題ベース検索システ
ムの一例を示す構成図である。FIG. 3 is a configuration diagram showing an example of a preferred example-based search system according to the present invention.
【図4】本発明による文書の特定構造把握により文書を
表現する方法の一例を示すフロー図である。FIG. 4 is a flowchart showing an example of a method of expressing a document by grasping a specific structure of the document according to the present invention.
【図5】本発明による文書の特定構造把握により段落題
目を抽出する段落題目抽出システムの一例を示す構成図
である。FIG. 5 is a configuration diagram showing an example of a paragraph title extraction system for extracting a paragraph title by grasping a specific structure of a document according to the present invention.
【図6】本発明による文書の特定構造把握により段落題
目を抽出する方法の一例を示すフロー図である。FIG. 6 is a flowchart showing an example of a method of extracting a paragraph title by grasping a specific structure of a document according to the present invention.
100、300…検索システム、 110、310…索引部、 111、311…関連技術文書入力部、 112…関連技術文書表現部、 113…関連技術文書貯蔵部、 120、320…検索部、 121、321…例題文書入力部、 122…例題文書表現部、 123、324…類似度演算部、 312…第1キーワード抽出部、 313…第1単語ベクトル表現部、 314…単語ベクトル貯蔵部、 322…第2キーワード抽出部、 323…第2単語ベクトル表現部、 325…表示部、 400…段落題目抽出システム、 410…文章抽出部、 420…語節抽出部、 430…段落題目表示部、 440…選択部、 450…段落題目当否判断部、 460…段落題目抽出部。 100, 300 ... Search system, 110, 310 ... Index section, 111, 311 ... Related technical document input section, 112 ... Related technical document expression section, 113 ... Related technical document storage section, 120, 320 ... Search unit, 121, 321 ... Example document input section, 122 ... Example document expression part, 123, 324 ... Similarity calculation unit, 312 ... the first keyword extraction unit, 313 ... First word vector expression part, 314 ... Word vector storage section, 322 ... the second keyword extraction unit, 323 ... Second word vector expression part, 325 ... Display, 400 ... Paragraph title extraction system, 410 ... a sentence extraction unit, 420 ... a word extraction unit, 430 ... Paragraph title display section, 440 ... Selector 450 ... Paragraph title judgment unit, 460 ... Paragraph title extraction unit.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 パク ジョン ス 大韓民国、チョラナン−ド、ドンクワンギ ャン−シ、カンホー−ドン 700 クワン ギャン アイアン ファクトリー内 (72)発明者 ピ ユン ジン 大韓民国、チョラナン−ド、ドンクワンギ ャン−シ、カンホー−ドン 700 クワン ギャン アイアン ファクトリー内 (72)発明者 キム チン サン 大韓民国、キョンサンブック−ド、ポーハ ング−シ、ナン−ク、ドンチョン−ドン 5 ポスコ内 (72)発明者 ソン ナム ゴン 大韓民国、キョンサンブック−ド、ポーハ ング−シ、ナン−ク、コードン−ドン 1 ポスコ内 (72)発明者 リー ジョン ヒェオク 大韓民国、キョンサンブック−ド、ポーハ ング−シ、ナン−ク、ヒョジャ−ドン、サ ン 31 ポーハング ユニバーシティ オ ブ サイエンス アンド テクノロジー内 (72)発明者 クォン オー ウー 大韓民国、キョンサンブック−ド、ポーハ ング−シ、ナン−ク、ヒョジャ−ドン、サ ン 31 ポーハング ユニバーシティ オ ブ サイエンス アンド テクノロジー内 Fターム(参考) 5B075 ND03 NK02 NK32 NR05 PP24 PQ02 PQ46 PQ74 PR06 QM08 ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Park Johnson South Korea, Cholanand, Don Kwangi Yang-si, Kang Ho-dong 700 Kwang Gyan Iron Factory (72) Inventor Piyun Jin South Korea, Cholanand, Don Kwangi Yang-si, Kang Ho-dong 700 Kwang Gyan Iron Factory (72) Inventor Kim Jin Sun Republic of Korea, Kyongsan Book-do, Poha Ngushi, Nanku, Donchon-Don Within 5 POSCO (72) Inventor Song Nam Gong Republic of Korea, Kyongsan Book-do, Poha Ngushi, Nank, Cordon-Don 1 In POSCO (72) Inventor Lee Jong Hyuk Republic of Korea, Kyongsan Book-do, Poha Ngushi, Nanku, Hyoja Don, Sa 31 Pohang University In Buu Science and Technology (72) Inventor Kwon Ou Republic of Korea, Kyongsan Book-do, Poha Ngushi, Nanku, Hyoja Don, Sa 31 Pohang University In Buu Science and Technology F term (reference) 5B075 ND03 NK02 NK32 NR05 PP24 PQ02 PQ46 PQ74 PR06 QM08
Claims (8)
過程を含み、 前記例題ベース索引過程は関連技術文書を入力する段
階;入力された関連技術文書において文書の構造的特性
により段落を区分し、区分された段落別にキーワードを
抽出する段階;前記のように各段落から抽出されたキー
ワードに対する各段落内での加重値を求め段落別にキー
ワード及びその加重値を単語ベクトルで表現する段階;
及び前記のように単語ベクトルで表現されたキーワード
とその加重値を貯蔵する段階を含み、並びに前記例題ベ
ース検索過程は例題技術が記載された例題文書を入力す
る段階;入力された例題文書において文書の構造的特性
により段落を区分し、区分された段落別にキーワードを
抽出する段階;前記のように各段落から抽出されたキー
ワードに対する各段落内での加重値を求め段落別にキー
ワード及びその加重値を単語ベクトルで表現する段階;
及び前記のように表現された例題文書に対する段落別単
語ベクトルと前記索引過程において貯蔵された関連技術
文書に対する段落別単語ベクトルを用いて例題文書と関
連技術文書との対応段落間の類似度を求め、該段落間類
似度を用いて例題文書と関連技術文書間の類似度を求め
る段階;及び前記のように求めた類似度の降冪順に関連
技術文書を整列して使用者に提供する段階を含んで成る
類似性判断のための例題ベース検索方法。1. The method includes an example-based index process and an example-based search process, wherein the example-based index process inputs a related technical document; the input related technical document is divided into paragraphs according to structural characteristics of the document, and is divided. Extracting a keyword for each selected paragraph; determining a weight value in each paragraph for the keyword extracted from each paragraph as described above, and expressing the keyword and its weight value in each paragraph by a word vector;
And storing the keyword expressed by the word vector and its weight as described above, and the example-based search process inputting an example document in which example techniques are described; The paragraph is divided according to the structural characteristics of the paragraph, and the keyword is extracted for each of the divided paragraphs; as described above, the weight value in each paragraph is obtained for the keyword extracted from each paragraph, and the keyword and its weight value are obtained for each paragraph. Expressing with a word vector;
And a similarity between corresponding paragraphs of the example document and the related technical document is obtained using the paragraph-based word vector for the example document expressed as described above and the paragraph-based word vector for the related technical document stored in the indexing process. A step of obtaining a similarity between the example document and the related technical document using the similarity between paragraphs; and a step of arranging the related technical documents and providing them to the user in descending order of the similarity calculated as described above. An example-based search method for similarity determination comprising.
連技術文書と例題文書の段落区分が各国特許庁が要求す
る記載要件を充たした特許文書に記載される段落題目に
基づいて行われることを特徴とする請求項1に記載の類
似性判断のための例題ベース検索方法。2. In the indexing process and the searching process, the paragraph division between the related technical document and the example document is performed based on the paragraph title described in the patent document satisfying the description requirement required by each national patent office. An example-based search method for determining similarity according to claim 1.
ら語節を抽出する段階;前記のように抽出された語節が
構造判断規則に該当する段落題目を表示する段階;前記
語節抽出及び段落題目表示過程を抽出された文章が終わ
るまで繰り返し行う段階;抽出された文章に対して段落
題目表示過程が完了すると、文章中最も多い語節と一致
する段落題目を選択する段階;前記のように選択された
語節に対して一致する語節数/全体語節数の比が0.8以
上であるかを判断し、0.8以上であれば新たな段落題
目として判断し、その比が0.8未満であれば関連段落
に含ませる段階;及び前記過程を文書の最終文章まで繰
り返し行い例題文書に対する段落題目を抽出する段階を
含むことを特徴とする請求項2に記載の類似性判断のた
めの例題ベース検索方法。3. A step of extracting a sentence from the input example document and extracting a phrase from the extracted sentence for a paragraph title of the document; a paragraph in which the extracted phrase corresponds to the structure judgment rule. Displaying the title; Repeating the phrase extraction and paragraph title display process until the extracted sentence is finished; When the paragraph title display process is completed for the extracted sentence, it matches with the largest number of phrases in the sentence Selecting a paragraph title to be selected; it is determined whether the ratio of the number of matching phrases / the total number of phrases to the selected phrase as described above is 0.8 or more, and if it is 0.8 or more. If the ratio is less than 0.8, it is included in the relevant paragraph; and the step is repeated until the final sentence of the document, and the paragraph title for the example document is extracted. The type according to claim 2, characterized in that Example based search method for the sex judgment.
れることを特徴とする請求項3に記載の類似性判断のた
めの例題ベース検索方法。 [段落名][手掛り単語集合(相互間OR関係)][一致度合
い][必要度合い] $ {ここで、[段落名]:次の規則が一致する場合の特定段
落を示す、[手掛り単語集合]:端緒になる単語の羅列
で、共に羅列された場合はそれらの中からいずれかが一
致するだけでもよいという意味、即ちORの関係であ
る、[一致度合い]:3種の一致度合いがあるが、「+」表
示は手掛り単語集合の単語と正確に入力語節が完全一致
しなければならず、「−」表示は手掛り単語と部分一致し
なければならず、「=」の場合は手掛り単語が現れさえす
れば該段落が確実に一致するという意味で、即ち他規則
を適用する必要無くその構造の初文章であることを明確
に判断可能なことを意味する、[必要度合い]:2タイプ
があるが、「y」タイプはその構造として認識されるため
に必ず現在の規則が満足されるべきという意味で、「n」
タイプは現在の構造として認識されるために必ず必要な
ものではなく、有り得ることを意味する、$:一規則の
終を区分する認識子。}4. The example-based search method for determining similarity according to claim 3, wherein the structure determination rule is configured as follows. [Paragraph name] [Cue word set (mutual OR relationship)] [Match degree] [Necessity] $ {where [Paragraph name]: [Cue word set, which indicates a specific paragraph when the following rules match] ]: A list of starting words, which means that if they are listed together, only one of them may match, that is, the relationship of OR. [Matching degree]: There are 3 kinds of matching degree However, "+" display must exactly match the input phrase with the word in the clue word set, "-" display must partially match the clue word, and "=" indicates the clue It means that the paragraphs will be matched exactly as long as the word appears, that is, it is possible to clearly judge that it is the first sentence of the structure without applying other rules. [Necessity]: 2 There is a type, but because the "y" type is recognized as its structure Not in the sense that should the current rule is satisfied, "n"
The type is not necessarily required to be recognized as the current structure, and means that it is possible. $: A recognizer that distinguishes the end of one rule. }
ら成り、例題文書と関連技術文書間の類似度は、前記両
文書の特許請求範囲段落中同一請求項が一つでも存在す
ればその両特許は同一なものと判断する段階;及び両文
書の特許請求範囲段落中同一請求項が一項も無い場合、
両文書の「発明の名称、発明の目的及び発明の効果」段落
間の類似度を求め、こうして求めた類似度中最も高いも
のをこれらの段落の代表類似度値に選定した後最も高い
加重値を与え、「要約書、発明の構成、発明の作用、請
求範囲」段落間の類似度を求め、こうして求めた類似度
中最も高いものをこれら段落の代表類似度値に選定した
後加重値を与え、そして残りの段落間の類似度を求め、
これらの平均値を代表類似度値に選定した後最も低い加
重値を与え、前記代表類似度値に各加重値を乗じた値を
合わせた値を比較して類似度を判断する段階により判断
されることを特徴とする請求項1に記載の類似性判断の
ための例題ベース検索方法。5. The example document and the related technical document consist of a patent specification, and the similarity between the example document and the related technical document is determined by the same claim if any of the same claims exists in the claim paragraphs of the two documents. Determining that both patents are the same; and if there are no identical claims in the claims paragraphs of both documents,
The highest weighted value after selecting the similarity between the "title of invention, object of invention and effect of invention" paragraphs of both documents and selecting the highest similarity among the thus obtained similarity as the representative similarity value of these paragraphs Then, the similarity between paragraphs of “abstract, structure of invention, action of invention, and claims” is obtained, and the highest similarity among the thus obtained similarity is selected as the representative similarity value of these paragraphs, and then the weighted value is calculated. And give the similarity between the remaining paragraphs,
After the average value is selected as the representative similarity value, the lowest weighted value is given, and the value obtained by multiplying the representative similarity value by each weighted value is compared to determine the similarity. The example-based search method for determining similarity according to claim 1.
を含み、 前記例題ベース索引部は関連技術文書を入力する関連技
術文書入力部;前記入力部において入力された関連技術
文書において文書の構造的特性により段落を区分し、区
分された段落別にキーワードを抽出する第1キーワード
抽出部;前記第1キーワード抽出部において各段落から
抽出されたキーワードに対する各段落内での加重値を求
め段落別にキーワード及びその加重値を単語ベクトルで
表現する第1単語ベクトル表現部;及び前記第1単語ベ
クトル表現部において単語ベクトルで表現されたキーワ
ードとその加重値を貯蔵する単語ベクトル貯蔵部を含
み、並びに前記例題ベース検索部は例題技術が記載され
た例題文書を入力する例題文書入力部;前記例題文書入
力部で入力された例題文書において文書の構造的特性に
より段落を区分し、区分された段落別にキーワードを抽
出する第2キーワード抽出部;前記第2キーワード抽出
部において各段落から抽出されたキーワードに対する各
段落内での加重値を求め段落別にキーワード及びその加
重値を単語ベクトルで表現する第2単語ベクトル表現
部;前記第2単語ベクトル表現部において表現された例
題文書に対する段落別単語ベクトルと前記単語ベクトル
貯蔵部に貯蔵された関連技術文書に対する段落別単語ベ
クトルを用いて例題文書と関連技術文書との対応段落間
の類似度を求め、該段落間類似度を用いて例題文書と関
連技術文書との類似度を求める類似度演算部; 及び類
似度演算部により求めた類似度の降冪順に関連技術文書
を整列して使用者に提供する表示部を含んで成る類似性
判断のための例題ベース検索システム。6. An example base index unit and an example base search unit, wherein the example base index unit inputs a related technical document, a related technical document input unit, and a structural structure of a document in the related technical document input by the input unit. A first keyword extracting unit that divides paragraphs according to characteristics and extracts a keyword for each divided paragraph; a weighting value in each paragraph is calculated for each keyword extracted from each paragraph in the first keyword extracting unit, and a keyword for each paragraph and A first word vector expression unit that expresses the weighted value in a word vector; and a word vector storage unit that stores the keyword expressed in the word vector in the first word vector expression unit and the weighted value, and the example base The search unit inputs an example document in which example techniques are described; an example document input unit; input by the example document input unit A second keyword extracting unit that divides paragraphs according to the structural characteristics of the document in the generated example document and extracts a keyword for each divided paragraph; within each paragraph for the keyword extracted from each paragraph in the second keyword extracting unit. A second word vector expression unit for obtaining the weighted value of each keyword and expressing the weighted value as a word vector for each paragraph; the word vector for each paragraph and the word vector storage unit for the example document expressed in the second word vector expression unit. The similarity between the corresponding paragraphs of the example document and the related technical document is obtained by using the paragraph-based word vector for the stored related technical document, and the similarity between the example document and the related technical document is calculated by using the paragraph similarity. Similarity calculation unit to be sought; and display for arranging related technical documents in order of descending power of similarity calculated by similarity calculation unit and providing to user Example-based retrieval system for the comprising at similarity determination.
ワード抽出部は、夫々関連技術文書と例題文書の段落区
分を各国特許庁が要求する記載要件を満足する特許文書
に記載される段落題目に基づき行うよう構成されること
を特徴とする請求項6に記載の類似性判断のための例題
ベース検索システム。7. The first keyword extracting unit and the second keyword extracting unit respectively divide paragraph sections of a related technical document and an example document into a paragraph subject described in a patent document satisfying a description requirement required by each national patent office. The example-based search system for similarity determination according to claim 6, wherein the example-based search system is configured to be performed based on the above.
ワード抽出部は、夫々入力された関連技術文書または例
題文書から文章を抽出する文章抽出部;前記文章抽出部
から抽出された文章から語節を抽出する語節抽出部;前
記語節抽出部から抽出された語節が構造判断規則に該当
する段落題目を表示する段落題目表示部;前記段落題目
表示部において段落題目表示過程が完了された文章中最
も多くの語節と一致した段落題目を選択する選択部;前
記選択部において選択された語節に対して一致する語節
数/全体語節数の比が0.8以上であるかを判断し、0.
8以上であれば新たな段落題目として判断し、その比が
0.8未満であれば関連段落に含ませる段落題目当否判
断部;及び段落題目当否判断部において段落題目として
判断されたものを段落題目に抽出する段落題目抽出部を
含んで成る段落題目抽出システムを含むことを特徴とす
る請求項7に記載の類似性判断のための例題ベース検索
システム。8. The first keyword extracting section and the second keyword extracting section extract a sentence from a related technical document or an example document respectively input; a sentence extracting unit; a phrase from a sentence extracted from the sentence extracting unit. A paragraph extraction section that displays the paragraph titles whose phrases extracted from the phrase extraction section correspond to the structure judgment rule; the paragraph title display process is completed in the paragraph title display section. A selection unit that selects a paragraph title that matches the largest number of phrases in the sentence; is the ratio of the number of matching phrases / the total number of phrases to the phrase selected in the selecting unit 0.8 or more? Judgment, 0.
If it is 8 or more, it is judged as a new paragraph title, and if the ratio is less than 0.8, it is included in the related paragraph. The example-based search system for similarity determination according to claim 7, further comprising a paragraph title extraction system including a paragraph title extraction unit for extracting a title.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR2001-070541 | 2001-11-13 | ||
| KR1020010070541A KR100685023B1 (en) | 2001-11-13 | 2001-11-13 | Example-based Search Method and Search System for Similarity Decision |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003281186A true JP2003281186A (en) | 2003-10-03 |
| JP3735335B2 JP3735335B2 (en) | 2006-01-18 |
Family
ID=29244680
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002322059A Expired - Fee Related JP3735335B2 (en) | 2001-11-13 | 2002-11-06 | Example-based search method and search system for similarity judgment |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP3735335B2 (en) |
| KR (1) | KR100685023B1 (en) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101243054B1 (en) | 2012-07-06 | 2013-03-13 | 한국과학기술정보연구원 | Method and apparatus for terminology recognition based on web search |
| WO2016009553A1 (en) * | 2014-07-18 | 2016-01-21 | 株式会社Ubic | Intellectual property evaluation system, intellectual property evaluation system control method, and intellectual property evaluation program |
| JP2017138931A (en) * | 2016-02-05 | 2017-08-10 | 雲拓科技有限公司 | Patent search method |
| WO2017149711A1 (en) * | 2016-03-02 | 2017-09-08 | 株式会社日立製作所 | Document management device and document management method |
| JP2017167725A (en) * | 2016-03-15 | 2017-09-21 | 和之 白井 | Patent requirement adequacy prediction device and patent requirement adequacy prediction program |
| CN107544982A (en) * | 2016-06-24 | 2018-01-05 | 中兴通讯股份有限公司 | Text message processing method, device and terminal |
| JP2018077604A (en) * | 2016-11-08 | 2018-05-17 | 株式会社Personal AI | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description |
| JP2022527060A (en) * | 2019-03-22 | 2022-05-30 | サービスナウ, インコーポレイテッド | Determining the semantic similarity of text based on its subsections |
| CN116561245A (en) * | 2023-05-05 | 2023-08-08 | 之江实验室 | A sign language unregistered sign language vocabulary mapping method and system |
| CN118170927A (en) * | 2024-05-10 | 2024-06-11 | 山东圣剑医学研究有限公司 | A method for constructing a knowledge graph of scientific research data for AI digital humans |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100826014B1 (en) * | 2006-04-13 | 2008-04-28 | 엘지전자 주식회사 | Document management system and method |
| KR100816912B1 (en) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | Document search system and method |
| KR100816934B1 (en) * | 2006-04-13 | 2008-03-26 | 엘지전자 주식회사 | Clustering System and Method Using Document Search Results |
| KR100862587B1 (en) | 2007-03-28 | 2008-10-09 | 인하대학교 산학협력단 | XML document similarity measuring device and method |
| KR101259414B1 (en) | 2012-03-20 | 2013-05-10 | 한국과학기술정보연구원 | System and method for constructing a database for product demand/supply network |
| KR101413444B1 (en) * | 2013-04-05 | 2014-07-01 | 한국과학기술원 | Document Analysis Method |
| KR101629210B1 (en) * | 2015-01-30 | 2016-06-13 | 인하대학교 산학협력단 | Online automatic reference citation marking support system and services |
| KR101753768B1 (en) * | 2015-10-01 | 2017-07-04 | 한국외국어대학교 연구산학협력단 | A knowledge management system of searching documents on categories by using weights |
| KR101706300B1 (en) | 2015-10-13 | 2017-02-14 | 포항공과대학교 산학협력단 | Apparatus and method for generating word hierarchy of technology terms |
| KR101931859B1 (en) * | 2016-09-29 | 2018-12-21 | (주)시지온 | Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same |
| CN110175220B (en) * | 2019-05-16 | 2023-02-17 | 镇江市高等专科学校 | A method and system for measuring document similarity based on keyword position structure distribution |
| KR102187554B1 (en) * | 2019-08-27 | 2020-12-07 | 주식회사 한글과컴퓨터 | Electronic device capable of measuring the similarity between two areas specified on a spreadsheet and operating method thereof |
| CN118520504B (en) * | 2024-07-19 | 2024-10-15 | 泰安市东信智联信息科技有限公司 | Intelligent office system-oriented document desensitization storage method |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03172966A (en) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieving device |
| JPH06131398A (en) * | 1992-09-29 | 1994-05-13 | Xerox Corp | Method for retrieving plurality of documents |
| JPH07121549A (en) * | 1993-10-21 | 1995-05-12 | Sharp Corp | Document retrieval device |
| JPH11316764A (en) * | 1998-04-30 | 1999-11-16 | Hitachi Ltd | Structured document search method and apparatus, and computer-readable recording medium storing structured document search program |
| JP2000331027A (en) * | 1999-05-21 | 2000-11-30 | Toshiba Corp | Similar document search device and similar document search method |
| JP2001155027A (en) * | 1999-11-26 | 2001-06-08 | Nec Corp | Method, system and device for calculating similarity between documents, and recording medium recorded with program for similarity calculation |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08335222A (en) * | 1995-06-08 | 1996-12-17 | Fuji Electric Co Ltd | Computer device with similar sentence and document search function |
| JP3006526B2 (en) * | 1997-01-10 | 2000-02-07 | 日本電気株式会社 | Similar document search method and similar document search device |
| KR20000056245A (en) * | 1999-02-18 | 2000-09-15 | 윤종용 | Translation example selection method using similarity reflecting discriminitive value in example-based machine translation |
| JP2001043236A (en) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | Similar word extraction method, document search method, and apparatus used therefor |
-
2001
- 2001-11-13 KR KR1020010070541A patent/KR100685023B1/en not_active Expired - Fee Related
-
2002
- 2002-11-06 JP JP2002322059A patent/JP3735335B2/en not_active Expired - Fee Related
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03172966A (en) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieving device |
| JPH06131398A (en) * | 1992-09-29 | 1994-05-13 | Xerox Corp | Method for retrieving plurality of documents |
| JPH07121549A (en) * | 1993-10-21 | 1995-05-12 | Sharp Corp | Document retrieval device |
| JPH11316764A (en) * | 1998-04-30 | 1999-11-16 | Hitachi Ltd | Structured document search method and apparatus, and computer-readable recording medium storing structured document search program |
| JP2000331027A (en) * | 1999-05-21 | 2000-11-30 | Toshiba Corp | Similar document search device and similar document search method |
| JP2001155027A (en) * | 1999-11-26 | 2001-06-08 | Nec Corp | Method, system and device for calculating similarity between documents, and recording medium recorded with program for similarity calculation |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101243054B1 (en) | 2012-07-06 | 2013-03-13 | 한국과학기술정보연구원 | Method and apparatus for terminology recognition based on web search |
| WO2016009553A1 (en) * | 2014-07-18 | 2016-01-21 | 株式会社Ubic | Intellectual property evaluation system, intellectual property evaluation system control method, and intellectual property evaluation program |
| JP2017138931A (en) * | 2016-02-05 | 2017-08-10 | 雲拓科技有限公司 | Patent search method |
| WO2017149711A1 (en) * | 2016-03-02 | 2017-09-08 | 株式会社日立製作所 | Document management device and document management method |
| JP2017167725A (en) * | 2016-03-15 | 2017-09-21 | 和之 白井 | Patent requirement adequacy prediction device and patent requirement adequacy prediction program |
| CN107544982B (en) * | 2016-06-24 | 2022-12-02 | 中兴通讯股份有限公司 | Text information processing method and device and terminal |
| CN107544982A (en) * | 2016-06-24 | 2018-01-05 | 中兴通讯股份有限公司 | Text message processing method, device and terminal |
| JP2018077604A (en) * | 2016-11-08 | 2018-05-17 | 株式会社Personal AI | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description |
| JP2022527060A (en) * | 2019-03-22 | 2022-05-30 | サービスナウ, インコーポレイテッド | Determining the semantic similarity of text based on its subsections |
| JP2024020653A (en) * | 2019-03-22 | 2024-02-14 | サービスナウ, インコーポレイテッド | Determining the semantic similarity of a text based on its subsections |
| US12299397B2 (en) | 2019-03-22 | 2025-05-13 | Servicenow, Inc. | Determining semantic similarity of texts based on sub-sections thereof |
| JP7730880B2 (en) | 2019-03-22 | 2025-08-28 | サービスナウ, インコーポレイテッド | Determining the semantic similarity of a text based on its subsections |
| CN116561245A (en) * | 2023-05-05 | 2023-08-08 | 之江实验室 | A sign language unregistered sign language vocabulary mapping method and system |
| CN116561245B (en) * | 2023-05-05 | 2025-12-09 | 之江实验室 | Sign language non-login sign language entry mapping method and system |
| CN118170927A (en) * | 2024-05-10 | 2024-06-11 | 山东圣剑医学研究有限公司 | A method for constructing a knowledge graph of scientific research data for AI digital humans |
Also Published As
| Publication number | Publication date |
|---|---|
| KR100685023B1 (en) | 2007-02-20 |
| JP3735335B2 (en) | 2006-01-18 |
| KR20030039576A (en) | 2003-05-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2003281186A (en) | Example-based search method and search system for similarity determination | |
| CN108197117B (en) | A Chinese text keyword extraction method based on document topic structure and semantics | |
| CN104537116B (en) | A kind of books searching method based on label | |
| CN106649260B (en) | Product characteristic structure tree construction method based on comment text mining | |
| Bhattacharya et al. | Overview of the FIRE 2019 AILA Track: Artificial Intelligence for Legal Assistance. | |
| CN102918532B (en) | To the detection of rubbish in search results ranking | |
| JPH09153066A (en) | Document search device | |
| JPH09259140A (en) | Information retrieval method and device therefor, and medium for storing information retrieval program | |
| JP2669601B2 (en) | Information retrieval method and system | |
| RU2010107150A (en) | IDENTIFICATION OF SEMANTIC RELATIONS IN INDIRECT SPEECH | |
| RU2491622C1 (en) | Method of classifying documents by categories | |
| CN103838816A (en) | Document retrieval device and document retrieval method | |
| JP2014146301A (en) | Searching device, searching method and program | |
| CN115422948B (en) | Event level network identification system and method based on semantic analysis | |
| Renjit et al. | CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings. | |
| JP2009514076A (en) | Computer-based automatic similarity calculation system for quantifying the similarity of text expressions | |
| CN118862843A (en) | A method and system for checking duplicates and automatically annotating scientific and technological project documents | |
| CN108228612B (en) | Method and device for extracting network event keywords and emotional tendency | |
| JP2000163437A (en) | Document classification method, document classification device, and recording medium recording document classification processing program | |
| JP4595692B2 (en) | Time-series document aggregation method and apparatus, program, and storage medium storing program | |
| JP2012113459A (en) | Example translation system, example translation method and example translation program | |
| Wu et al. | Searching online book documents and analyzing book citations | |
| CN119046445A (en) | Legal system and legal system query method | |
| JP2002073680A (en) | Technical information search system | |
| JP3249743B2 (en) | Document search system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050510 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050805 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050928 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051021 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 3735335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091028 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091028 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101028 Year of fee payment: 5 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101028 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111028 Year of fee payment: 6 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121028 Year of fee payment: 7 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121028 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131028 Year of fee payment: 8 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |