JPH0749875A - Document information classification method, document information collection method using the same, and document information collection system - Google Patents

Document information classification method, document information collection method using the same, and document information collection system

Info

Publication number
JPH0749875A
JPH0749875A JP5195839A JP19583993A JPH0749875A JP H0749875 A JPH0749875 A JP H0749875A JP 5195839 A JP5195839 A JP 5195839A JP 19583993 A JP19583993 A JP 19583993A JP H0749875 A JPH0749875 A JP H0749875A
Authority
JP
Japan
Prior art keywords
folder
document information
folders
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5195839A
Other languages
Japanese (ja)
Inventor
Hiroko Yuasa
寛子 湯浅
Keiji Kojima
啓二 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5195839A priority Critical patent/JPH0749875A/en
Publication of JPH0749875A publication Critical patent/JPH0749875A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【構成】 文書収集サーバシステム100は、自動的に
複数の情報源に接続して新文書を取得し、適合度計算1
06によって、あらかじめユーザが記述した検索条件と
の適合度を調べる。文書格納処理107は、検索条件間
の関係から分類体系を構成し、適合した文書を分類して
フォルダに格納する。フォルダ管理処理108は、各フ
ォルダへの情報の集まり具合を監視し、自動的にフォル
ダの細分化、統合、構造の変更を行なって情報の整理を
する。 【効果】 各分類への情報の集まり具合に応じて、分類
体系や検索条件を改善し、各分類に分類される情報量を
その全体を容易に把握できる程度の数に抑さえることが
できる。
(57) [Summary] (Modified) [Configuration] The document collection server system 100 automatically connects to a plurality of information sources to acquire a new document, and calculates the degree of conformance 1
According to 06, the matching degree with the search condition previously described by the user is checked. The document storage processing 107 forms a classification system from the relationship between the search conditions, classifies the matched documents, and stores them in a folder. The folder management process 108 monitors the collection of information in each folder and automatically subdivides the folders, integrates them, and changes the structure to organize the information. [Effect] It is possible to improve the classification system and the search conditions according to the degree of information gathered in each classification, and to suppress the amount of information classified into each classification to a number that can easily grasp the whole.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、計算機ネットワークを
介して、自動的に情報を収集、分類、整理する情報収集
システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information collecting system for automatically collecting, classifying and organizing information via a computer network.

【0002】[0002]

【従来の技術】計算機ネットワークの整備は急速に進ん
でおり、オンライン情報検索サービス、ネットニュース
からの情報収集、電子メールや電子掲示板を利用した質
疑応答といった、いわゆる情報のブロードキャッチが行
なえる環境が整いつつある。
2. Description of the Related Art The development of computer networks is advancing rapidly, and there is an environment where the so-called broad catch of information can be performed, such as online information search services, information collection from net news, and question and answer using electronic mail and electronic bulletin boards. It's getting ready.

【0003】これらの最新情報の有用性は認識されてい
るものの、次のような点が問題となり、有効に利用され
ていない。
Although the usefulness of these latest information has been recognized, it has not been effectively used due to the following problems.

【0004】(1)情報源によって利用法が異なり、複
数の情報源から情報収集する操作が煩雑である。
(1) The usage varies depending on the information source, and the operation of collecting information from a plurality of information sources is complicated.

【0005】(2)検索式を論理式で入力しなければな
らない。所望の情報を得るための適切な検索式を記述す
るのは難しい。
(2) The search expression must be input as a logical expression. It is difficult to write an appropriate search formula for obtaining desired information.

【0006】(3)収集した情報の分類と整理に手間と
時間がかかる。
(3) It takes time and effort to classify and organize the collected information.

【0007】「21世紀の情報化社会」(日経バイト1
991年11月320ページ〜331ページ)に記載さ
れている広域情報サーバWAISは、(1)の問題点をプロ
トコルを共通化(NISO Z39.50を拡張)し、さらに情報
源への接続と検索を自動化することにより解決し、
(2)の問題点を関連性フィードバックにより解決し
た。関連性フィードバックは次のような検索条件の精練
手法である。ユーザが検索したい内容を記述すると、そ
れを検索条件としてWAIS はその内容に合う情報を検索
し提示する。ユーザがその中から欲しかった情報を選ぶ
と、WAISはユーザが選んだ情報を検索条件にフィードバ
ックし、検索条件を改善する。この関連性フィードバッ
クを用いた情報検索により、ユーザは検索式を記述する
ことなく所望の情報を検索できるようになった。
"The 21st Century Information Society" (Nikkei Byte 1
Wide-area information server WAIS described in November 991, pages 320 to 331) makes the problem (1) common to the protocol (expands NISO Z39.50), and connects to information sources and searches. Is solved by automating
The problem of (2) was solved by relevance feedback. Relevance feedback is a method of refining the following search conditions. When the user describes the contents to be searched, WAIS searches and presents the information that matches the contents, using the contents as the search condition. When the user selects the information that he / she wants, WAIS feeds back the information selected by the user to the search condition and improves the search condition. The information search using this relevance feedback allows the user to search for desired information without describing a search formula.

【0008】(3)の問題点を解決するために、様々な
文書の自動分類システムが考案されている。
In order to solve the problem (3), various document automatic classification systems have been devised.

【0009】たとえば、特開平1ー188934の文書
分類システムは、標本文書群を調べることにより、各分
野におけるキーワードの出現頻度情報を得て、入力され
た文書からキーワードを抽出して、分野毎に点数を計算
し、最高得点の分野へ分類する。
For example, the document classification system of Japanese Patent Laid-Open No. 1-188834 obtains information on the frequency of appearance of keywords in each field by examining a sample document group, extracts the keywords from the input document, and extracts the keywords for each field. Calculate scores and classify into the highest scoring areas.

【0010】特開昭63−214832の通知文書処理
システムは、通知文書の書式を解析し、通信文中に出現
する単語の重みを分類カテゴリー別に付加し、その総和
を求め、最大となるカテゴリーを選ぶことにより分類す
る。
The notification document processing system of Japanese Patent Laid-Open No. 63-214832 analyzes the format of the notification document, adds the weights of the words appearing in the message to each category, calculates the sum of them, and selects the maximum category. Classify by

【0011】[0011]

【発明が解決しようとする課題】WAISは、上記(1)、
(2)の問題点は解決したが、収集した情報の分類、整
理に関しては配慮していない。
[Problems to be Solved by the Invention] WAIS is based on the above (1),
Although the problem of (2) was solved, no consideration was given to the classification and organization of the collected information.

【0012】階層的に情報を分類整理することが望まれ
るが、従来の方法では、これに適していなかった。
It is desired to classify and organize information hierarchically, but the conventional method is not suitable for this.

【0013】また、(3)を解決する従来の自動分類シ
ステムにおいては、分類する分類体系をあらかじめ確立
しておく必要があった。さらに、各分野を特徴付けるキ
ーワード群やキーワード群の出現頻度などをあらかじめ
与えるか、または求めるかする必要があった。
Further, in the conventional automatic classification system that solves (3), it is necessary to establish a classification system for classification in advance. Furthermore, it is necessary to give or obtain in advance the keyword group that characterizes each field and the appearance frequency of the keyword group.

【0014】しかし、あらかじめ適切な汎用的分類体系
を設けるのは困難である。分類体系が適切でないと、あ
る分類に多くの情報が集中することがある。ある分類の
情報量が多くなり過ぎると、ユーザは収集した情報の全
容を把握しにくくなる。
However, it is difficult to provide an appropriate general-purpose classification system in advance. Inappropriate classification systems can concentrate a lot of information in a classification. When the amount of information of a certain category becomes too large, it becomes difficult for the user to grasp the whole content of the collected information.

【0015】また、最先端の分野では多くの人に認めら
れる分類体系や専門用語が確定していないことが多く、
しかも頻繁に変更される。最先端の分野に関する文書を
従来の自動分類システムで適切に分類するのは難しい。
Further, in the most advanced fields, the classification system and technical terms accepted by many people are often unfixed,
And it changes frequently. It is difficult to properly classify documents related to the state of the art with a conventional automatic classification system.

【0016】本発明の第1の目的は、階層的に情報を分
類整理するのに適した文書情報分類方法、それを使用し
た文書情報収集方法およびシステムを提供することにあ
る。
A first object of the present invention is to provide a document information classification method suitable for hierarchically classifying and organizing information, and a document information collecting method and system using the same.

【0017】本発明の第2の目的は、収集した文書情報
の集まり具合から、分類体系と分類に用いる検索条件の
改良を自動的に行なう文書情報収集方法およびシステム
を提供することにある。
A second object of the present invention is to provide a document information collecting method and system for automatically improving a classification system and a search condition used for classification based on a collection condition of collected document information.

【0018】[0018]

【課題を解決するための手段】本発明による第1の文書
情報分類方法は、階層関係で相互に関連付けされた複数
のフォルダの各々に対応して、一つまたは複数の検索条
件からなる検索条件群を記憶し、各フォルダに対応して
記憶された検索条件群に基づいて、分類すべき情報と各
フォルダとの間の適合度を検出し、各フォルダと該情報
との間の検出された適合度と上記階層関係とに基づい
て、該情報が対応するフォルダとして、該複数のフォル
ダの一つまたは複数を決定し、該決定されたする一つの
フォルダまたは複数のフォルダの各々に対応して該情報
を記憶するステップを有する。
According to a first document information classification method of the present invention, a search condition consisting of one or a plurality of search conditions corresponding to each of a plurality of folders which are associated with each other in a hierarchical relationship. A group is stored, the matching degree between the information to be classified and each folder is detected based on the search condition group stored corresponding to each folder, and the detected between each folder and the information is detected. Based on the compatibility and the hierarchical relationship, one or more of the plurality of folders is determined as a folder to which the information corresponds, and the determined one folder or each of the plurality of folders is determined. Storing the information.

【0019】本発明による第2の文書情報分類方法は、
階層関係で相互に関連付けされた複数のフォルダの各々
に対応して、一つまたは複数の検索条件からなる検索条
件群を記憶し、各フォルダに対応して記憶された検索条
件群と予め定めて判断基準とに基づいて、分類すべき情
報を対応させるフォルダとして、該複数のフォルダの一
つまたは複数を決定し、決定されたフォルダに対応して
該情報を記憶し、複数の分類すべき情報の各々に対して
上記決定および記憶を行ない、各フォルダに対応して記
憶された複数の情報が、そのフォルダの再構成のために
定めた所定の条件を満たすか否かを判別し、いずれか一
つのフォルダが該所定の条件を満たしたとき、その一つ
のフォルダに対応して記憶された複数の情報とそのフォ
ルダに対応して記憶された一群の検索条件を再構成する
ステップを有する。
A second document information classification method according to the present invention is
A search condition group consisting of one or a plurality of search conditions is stored in correspondence with each of a plurality of folders which are associated with each other in a hierarchical relationship, and the search condition group stored in advance corresponding to each folder is predetermined. Based on the determination criteria, one or more of the plurality of folders is determined as a folder to which the information to be classified is associated, the information is stored corresponding to the determined folder, and the plurality of information to be classified For each of the above, the above determination and storage are performed, and it is determined whether or not the plurality of pieces of information stored corresponding to each folder satisfy a predetermined condition defined for the reconstruction of the folder. And a step of reconstructing a plurality of information stored corresponding to the one folder and a group of search conditions stored corresponding to the folder when one folder satisfies the predetermined condition.

【0020】本発明による第3の文書情報分類方法は、
階層関係で相互に関連付けされた複数のフォルダの各々
に対応して、一つまたは複数の検索条件からなる検索条
件群を記憶し、各フォルダに対応して記憶された検索条
件群と予め定めて判断基準とに基づいて、分類すべき情
報を対応させるためのフォルダとして、該複数のフォル
ダの一つまたは複数を決定し、決定されたフォルダに対
応して該情報を記憶し、複数の分類すべき情報の各々に
対して上記決定および記憶を行ない、該複数のフォルダ
の内の一部の複数のフォルダに対応して記憶された複数
の情報が、該複数のフォルダの再構成のために定めた所
定の条件を満たすか否かを判別し、いずれかの一部の複
数のフォルダが該所定の条件を満たしたとき、該一部の
複数のフォルダに対応して記憶された複数の情報と、該
一部の複数のフォルダに対応して記憶された一群の検索
条件を再構成するステップを有する。
A third document information classification method according to the present invention is
A search condition group consisting of one or a plurality of search conditions is stored in correspondence with each of a plurality of folders which are associated with each other in a hierarchical relationship, and the search condition group stored in advance corresponding to each folder is predetermined. Based on the judgment criteria, one or more of the plurality of folders is determined as a folder for associating the information to be classified, and the information is stored in correspondence with the determined folder and a plurality of classifications are performed. The above-mentioned determination and storage are performed for each piece of information that should be stored, and a plurality of pieces of information stored corresponding to some of the plurality of folders are determined for reconstruction of the plurality of folders. It is determined whether or not a predetermined condition is satisfied, and when any one of the plurality of folders satisfies the predetermined condition, a plurality of pieces of information stored in correspondence with the some of the plurality of folders are stored. , Some of the Comprising the step of reconstructing a set of search conditions stored in correspondence with the da.

【0021】[0021]

【作用】本発明による第1の文書情報分類方法では、各
フォルダに対応して記憶された検索条件と検索対象文書
情報との適合度と、複数の検索条件の階層構造とを考慮
して、検索対象文書情報を対応させるフォルダを決定す
るので、ユーザが記述した検索条件群を階層構造をなす
分類体系であると見做して収集した文書情報を分類でき
る。
In the first document information classification method according to the present invention, the matching degree between the search condition stored in association with each folder and the search target document information and the hierarchical structure of the plurality of search conditions are considered, Since the folders to be associated with the search target document information are determined, the collected document information can be classified by regarding the search condition group described by the user as a classification system having a hierarchical structure.

【0022】本発明による第2の文書情報分類方法で
は、各フォルダに対応して記憶された文書情報に依存し
て、各フォルダの分割など、フォルダの再構成をするこ
とが出来る。したがって、検索により得られた文書情報
の集まり具合に応じて、自動的に分類体系を変更でき
る。
In the second document information classification method according to the present invention, folders can be reconfigured such as dividing each folder depending on the document information stored corresponding to each folder. Therefore, the classification system can be automatically changed according to the degree of collection of the document information obtained by the search.

【0023】本発明による第3の文書情報分類方法で
は、複数のフォルダにまたがるフォルダの再構成をする
ことが出来る。
In the third document information classification method according to the present invention, it is possible to reconfigure folders that span a plurality of folders.

【0024】[0024]

【実施例】以下本発明の1実施例について説明する。EXAMPLE One example of the present invention will be described below.

【0025】本実施例の文書情報収集システムが対象と
するのは、オンライン文書情報検索サービス、電子メー
ル、電子掲示板などを介して電子的に得ることができ
る、それぞれユーザにとって意味のある内容を一群の文
字で表した情報である。以下このような情報を文書情報
とよぶ。
The target of the document information collecting system of the present embodiment is a group of contents which are meaningful to the user and which can be obtained electronically through an online document information search service, electronic mail, electronic bulletin board and the like. It is the information represented by the character. Hereinafter, such information will be referred to as document information.

【0026】これらのサービスは、それぞれ様々な企業
や団体により運営されている。以後これらのサービスを
情報源と呼ぶ。各情報源が提供する文書情報は、一般
に、多岐に亘るので、複数の分野に分けてユーザに提示
される。これらの分野をドメインと呼ぶ。ドメインにお
いて提供される個々の情報を文書と呼ぶ。文書が検索条
件に適合したときに格納する検索結果格納領域をフォル
ダと呼ぶ。
Each of these services is operated by various companies and organizations. Hereinafter, these services will be referred to as information sources. Since the document information provided by each information source generally has a wide variety, it is presented to the user in a plurality of fields. These fields are called domains. Individual information provided in the domain is called a document. A search result storage area that is stored when a document matches the search condition is called a folder.

【0027】図1に本実施例の文書収集システムと本実
施例の文書収集システムが文書収集する外部の情報源と
からなるシステム構成例を示す。本実施例の文書収集シ
ステムは文書収集クライアント500と文書収集サーバ
510とからなる。
FIG. 1 shows an example of a system configuration including a document collection system of this embodiment and an external information source for collecting documents by the document collection system of this embodiment. The document collection system of this embodiment includes a document collection client 500 and a document collection server 510.

【0028】文書収集クライアント500はネットワー
ク上に複数存在して同時に文書収集サーバ510にアク
セスすることができる。
A plurality of document collection clients 500 exist on the network and can simultaneously access the document collection server 510.

【0029】文書収集クライアント500のメモリ52
2上の文書収集クライアントシステム501は、ユーザ
が、収集した文書を格納するフォルダを作成したり、ど
のような文書を収集するかを表す検索条件を各フォルダ
に登録したり、フォルダに収集された文書を見たりする
ためのグラフィカル・ユーザ・インタフェースを提供す
る。
Memory 52 of document collection client 500
In the document collection client system 501 on 2, the user creates a folder for storing the collected documents, registers a search condition indicating what kind of document is to be collected in each folder, or is collected in the folder. It provides a graphical user interface for viewing and viewing documents.

【0030】文書収集サーバ510のメモリ523上の
文書収集サーバシステム100は、文書収集クライアン
トシステム501からの要求に応じて文書情報を提供す
る一方で、自動的に、ニュースサーバ520や文書サー
バ521などの外部の情報源から、ユーザが登録した検
索条件群に適合する文書を収集し、さらに分類、整理を
行う。
The document collection server system 100 on the memory 523 of the document collection server 510 provides document information in response to a request from the document collection client system 501, while automatically automatically providing the news server 520 and the document server 521. Documents that meet the search condition group registered by the user are collected from external information sources, and further classified and organized.

【0031】まず、文書収集クライアントシステム50
1について説明する。
First, the document collection client system 50
1 will be described.

【0032】ユーザが文書収集クライアントシステム5
01を起動すると図3に示すようなインタフェース画面
400をCRT502上に表示する。ユーザはこのインタ
フェース画面400上で、キーボード503、マウス5
04などの入力デバイスを用いて様々な操作を行い、収
集した文書を格納するフォルダを作成・消去したり、文
書を収集するための検索条件を記述したり、収集結果を
見たり、評価したりする。
The user collects the document collecting client system 5
When 01 is activated, an interface screen 400 as shown in FIG. 3 is displayed on the CRT 502. The user can use the keyboard 503 and mouse 5 on the interface screen 400.
Perform various operations using input devices such as 04 to create / delete folders that store collected documents, describe search conditions for collecting documents, view collection results, and evaluate To do.

【0033】文書収集クライアントシステム501が行
う処理の流れ図を図7に示す。文書収集クライアントシ
ステム501が起動されると、まず文書収集サーバシス
テムへの接続を行う(ステップ120)。次に図3に示
すインタフェース画面400を表示する(ステップ12
1)。
FIG. 7 shows a flow chart of the processing performed by the document collection client system 501. When the document collection client system 501 is activated, first, the document collection server system is connected (step 120). Next, the interface screen 400 shown in FIG. 3 is displayed (step 12).
1).

【0034】この後、イベントループ122に入り、ス
テップ123〜126を繰り返す。即ち、ユーザの操作
を受理・解析し(ステップ123)、操作に対応するコ
マンドを文書収集サーバシステム100に送信し(ステ
ップ124)、実行結果を文書収集サーバシステム10
0から受信し(ステップ125)、その実行結果をイン
タフェース画面400に反映させる(ステップ12
6)、という処理を繰り返す。
After that, the event loop 122 is entered, and steps 123 to 126 are repeated. That is, the operation of the user is accepted and analyzed (step 123), the command corresponding to the operation is transmitted to the document collection server system 100 (step 124), and the execution result is sent to the document collection server system 10.
It is received from 0 (step 125) and the execution result is reflected on the interface screen 400 (step 12).
6) is repeated.

【0035】ユーザがメニューから終了を選ぶ操作を行
うと、終了コマンドを文書収集クライアントシステム5
01に送信して、イベントループ122を抜け、文書収
集サーバシステム100との接続切断処理を行い(ステ
ップ127)、終了する。
When the user selects the end from the menu, the end command is issued to the document collection client system 5
01, the process exits the event loop 122, disconnection processing with the document collection server system 100 is performed (step 127), and the processing ends.

【0036】図3に示したインターフェース画面400
の具体例について説明する。この画面は、既にユーザに
よってフォルダ作成とそのフォルダに収集すべき文書の
検索条件登録が行われ、文書収集サーバシステム100
により、ユーザが登録した検索条件群に適合する文書を
収集・分類された時点の例である。
The interface screen 400 shown in FIG.
A specific example of will be described. On this screen, the user has already created a folder and registered search conditions for documents to be collected in the folder, and the document collection server system 100
Is an example at the time when documents matching and collecting search conditions registered by the user are collected and classified.

【0037】402は、内容を表示中のフォルダの名前
である。この例ではuser1 というフォルダの下位ディレ
クトリであるvoice というフォルダの内容を表示中であ
る。
Reference numeral 402 is the name of the folder whose contents are being displayed. In this example, the contents of the folder named voice, which is a subordinate directory of the folder named user1, are being displayed.

【0038】403にはフォルダuser1/voiceにユーザ
が登録した検索条件を表示する。表示されたテキストを
直接編集することにより、検索条件の更新を行うことが
できる。本実施例では、各フォルダに対して記憶された
検索条件は、単語(以下ワードと呼ぶ)、あるいは句、
あるいは文章など、ユーザが自然語で記述し得るものを
列挙したものからなる。
In 403, search conditions registered by the user in the folder user1 / voice are displayed. The search conditions can be updated by directly editing the displayed text. In this embodiment, the search condition stored for each folder is a word (hereinafter referred to as a word) or a phrase,
Alternatively, it is a list of things that the user can describe in natural language, such as sentences.

【0039】404にはフォルダuser1/voiceの下位の
フォルダの一覧を表示する。各フォルダについて、フォ
ルダ名、フォルダに収集されている文書数、フォルダに
対応する検索条件の書き出しを表示している。この例で
は、user1/voice の下にそれぞれ、recognition とsynt
hesis の二つの下位フォルダがある。
In 404, a list of folders under the folder user1 / voice is displayed. For each folder, the folder name, the number of documents collected in the folder, and the writing of search conditions corresponding to the folder are displayed. In this example, recognition and synt are listed under user1 / voice, respectively.
There are two subfolders of hesis.

【0040】この下位フォルダ一覧の項目をクリックす
るとクリックされた下位フォルダへ移動することができ
る。
By clicking an item in this subordinate folder list, it is possible to move to the clicked subordinate folder.

【0041】405にはフォルダuser1/voiceにすでに
収集されている文書の一覧を表示する。
At 405, a list of documents already collected in the folder user1 / voice is displayed.

【0042】各文書について、タイトル、フォルダuser
1/voiceの検索条件への適合度、適合した検索条件中の
ワード、情報源名、ドメイン名などを表示している。
For each document, title, folder user
The degree of conformity to the search condition of 1 / voice, the word in the matched search condition, the information source name, the domain name, etc. are displayed.

【0043】この文書一覧の項目をクリックすると、ク
リックされた文書の内容を見ることができる。文書の内
容は406に表示される。
By clicking an item in this document list, the contents of the clicked document can be viewed. The content of the document is displayed at 406.

【0044】フォルダの作成・消去はメニュー401の
Fileメニューを使って行う。また、Gotoメニューを使っ
ても、別のフォルダへ移動できる。
Creating / deleting a folder can be done from the menu 401.
This is done using the File menu. You can also use the Goto menu to move to another folder.

【0045】また、ユーザはメニュー401のEdit メ
ニューを使って収集された文書や文書が格納されている
フォルダに対して評価を与えることができる。つまり、
ユーザが、メニューを用いて、有用/無用な文書であ
る、有用/無用なフォルダである、という評価を与える
と、対応するコマンドが文書収集サーバシステム100
に送られる。文書収集サーバシステム100は、文書や
フォルダに対する評価を検索条件に反映させ、次回の文
書収集時からよりユーザの意図にあった文書を収集す
る。
Further, the user can give an evaluation to the collected document or the folder in which the document is stored by using the Edit menu of the menu 401. That is,
When the user uses the menu to give an evaluation that it is a useful / useless document or a useful / useless folder, the corresponding command is the document collection server system 100.
Sent to. The document collection server system 100 reflects the evaluation of the documents and folders in the search condition, and collects the documents more suitable for the user from the next document collection.

【0046】サーバ510のメモリ上の文書収集サーバ
システム100は、クライアント500からの要求を処
理する一方で、ユーザが作成したフォルダ群と各フォル
ダに登録した検索条件に基づいて、文書の収集・分類・
整理を行う。
The document collection server system 100 on the memory of the server 510 processes the request from the client 500, while collecting and classifying the documents based on the folder group created by the user and the search condition registered in each folder.・
Organize.

【0047】つまり、文書収集サーバシステム100
は、ニュースサーバ520や文書サーバ521などの外
部の情報源に定期的にアクセスし、前回にアクセスした
後で各情報源に蓄積された文書を取得し、ユーザが登録
された検索条件群に適合するものを検索する。この際、
検索条件中の各ワードの対象文書における出現数を対象
文書とその検索条件との適合度とする。適合した検索条
件が登録されているフォルダの中から、フォルダの階層
構造を考慮して対象文書を分類するフォルダを選び、そ
のフォルダへ格納する。さらに、多くの文書が蓄積され
たフォルダを自動分割するなどの文書の収集状況に応じ
た文書の整理を行う。
That is, the document collection server system 100
Regularly accesses an external information source such as the news server 520 or the document server 521, acquires the documents accumulated in each information source after the previous access, and matches the search condition group with which the user is registered. Search for what you want to do. On this occasion,
The number of appearances of each word in the search condition in the target document is defined as the matching degree between the target document and the search condition. From the folders in which the matching search conditions are registered, a folder into which the target document is classified is selected in consideration of the hierarchical structure of the folders and stored in that folder. Furthermore, the documents are organized according to the document collection status such as automatically dividing the folder in which many documents are accumulated.

【0048】なお、文書収集の対象となる外部の情報源
は、サーバからアクセス可能な他のネットワーク上に在
っても良い。
The external information source that is the target of the document collection may be on another network accessible from the server.

【0049】文書の収集・分類・整理についてさらに詳
しく説明する前に、まず、ユーザが作成するフォルダと
検索条件について図4に示した例で説明する。
Before describing in more detail the collection / classification / arrangement of documents, first, folders created by the user and search conditions will be described with reference to the example shown in FIG.

【0050】文書収集サーバシステム100にユーザ登
録を行うと、各ユーザに一つのフォルダが割り当てられ
る。ユーザは自分に割り当てられたフォルダの下に、自
由に、下位フォルダを階層的に作成して、各々のフォル
ダに対して、そのフォルダにはどのような文書を収集す
べきかという検索条件を登録する。
When a user is registered in the document collection server system 100, one folder is assigned to each user. The user can freely create subordinate folders hierarchically under the folder assigned to him and register the search condition for each folder as to what documents should be collected in that folder. .

【0051】図4の例では2人のユーザ user1、 user2
が登録されており、それぞれフォルダ540、フォルダ
550が割り当てられている。user1 は、フォルダ54
0の下に階層的にフォルダ541ー544を作成し、各
フォルダに検索条件545ー548を登録してある。
In the example of FIG. 4, there are two users, user1 and user2.
Are registered, and a folder 540 and a folder 550 are respectively assigned. user1 is in folder 54
Folders 541 to 544 are hierarchically created under 0, and search conditions 545 to 548 are registered in each folder.

【0052】一方、user2は下位フォルダを作成せず、
フォルダ550に、興味のある事柄を羅列しただけの検
索条件551を登録してある。
On the other hand, user2 does not create a subordinate folder,
In the folder 550, the search conditions 551 are simply registered, listing the matters of interest.

【0053】フォルダとフォルダに対応する検索条件
は、ユーザが作成、更新するほかに、文書収集サーバシ
ステム100によっても、文書の収集状況に応じて自動
的に作成されたり、更新されたりすることもある。詳し
くは後述する。
In addition to the user creating and updating the folders and the search conditions corresponding to the folders, the document collecting server system 100 may also automatically create or update the folders according to the document collection status. is there. Details will be described later.

【0054】したがって、user2 のように、階層的なフ
ォルダを作成せずに、興味のある事柄を羅列しておくだ
けでも、収集された文書は自動的に分類・整理される。
Therefore, the collected documents are automatically classified / arranged simply by listing the matters of interest without creating a hierarchical folder like user2.

【0055】図2の流れ図に従い、文書収集サーバシス
テム100について説明する。
The document collection server system 100 will be described with reference to the flowchart of FIG.

【0056】文書収集サーバシステム100は、複数の
ユーザからの要求にいつでも対応し、同時に定期的に文
書の収集を行うために、常にユーザの接続要求がある
か、または、一定時間が経過したかを監視している(ス
テップ101)。ユーザが接続要求をした場合には、ク
ライアント要求処理110を開始する。一定時間が経過
した場合には、文書収集処理102を開始する。いずれ
の場合も、文書収集サーバシステム100本体の処理は
直ちにステップ101に戻り、ユーザの接続要求と一定
時間経過の監視を続ける。
The document collection server system 100 always responds to requests from a plurality of users and, at the same time, periodically collects documents, so that there is always a user connection request or whether a certain time has elapsed. Is being monitored (step 101). When the user makes a connection request, the client request processing 110 is started. When the fixed time has elapsed, the document collection process 102 is started. In either case, the process of the document collection server system 100 main body immediately returns to step 101 to continue the connection request from the user and the monitoring of the elapse of a fixed time.

【0057】図6にクライアント要求処理110の流れ
とコマンド実行時に用いるデータ構造との対応を示す。
FIG. 6 shows the correspondence between the flow of the client request processing 110 and the data structure used during command execution.

【0058】クライアント要求処理110が開始される
とまず、クライアントからの要求処理を行うための準備
として、クライアントとの接続(ステップ111)、フ
ォルダテーブルのロード(ステップ112)を行う。
When the client request processing 110 is started, first, as a preparation for processing the request from the client, connection with the client (step 111) and loading of the folder table (step 112) are performed.

【0059】このあと、クライアントから終了コマンド
を受信するまで、クライアント500から送信されてく
るコマンドの解析(ステップ113)と実行(ステップ
114)を繰り返す。
Thereafter, the command transmitted from the client 500 is repeatedly analyzed (step 113) and executed (step 114) until the end command is received from the client.

【0060】終了コマンドを受信して、繰り返しを終了
すると、クライアントの切断を行って、クライアント要
求処理110を終了する。
When the end command is received and the repetition is ended, the client is disconnected and the client request processing 110 is ended.

【0061】各コマンドの実行時には、必要に応じて各
種のテーブルのロード、参照、更新、セーブを行う。
When executing each command, various tables are loaded, referenced, updated, and saved as necessary.

【0062】たとえば、ユーザがあるフォルダに格納さ
れている文書一覧の表示を要求する操作をすると、文書
収集クライアントシステム501は対応するコマンドと
対象のフォルダ名を送信する。クライアント要求処理1
10はこのコマンドとフォルダ名を受信すると、フォル
ダテーブルを参照して、そのフォルダに格納されている
文書群の情報(各文書のタイトル、適合度、適合した検
索条件中のワード、情報源名など)をクライアントへ送
信する。
For example, when the user performs an operation of requesting the display of the document list stored in a certain folder, the document collection client system 501 sends the corresponding command and the target folder name. Client request processing 1
When 10 receives this command and the folder name, it refers to the folder table and refers to the information of the documents stored in the folder (title of each document, degree of conformity, word in conforming search condition, source name, etc.) ) Is sent to the client.

【0063】図5に示した文書収集処理102(図2)
の流れと文書収集処理時に用いるデータ構造との対応に
従って、文書収集処理について説明する。
Document collection process 102 shown in FIG. 5 (FIG. 2)
The document collection process will be described in accordance with the correspondence between the flow of the above and the data structure used in the document collection process.

【0064】まず、内部DB511からメモリ上に文書
収集用のテーブル(文書番号テーブル300、フォルダ
テーブル310、ワード・フォルダテーブル330、ワ
ード・文書テーブル350)をロードする(ステップ1
03)。
First, a table for collecting documents (document number table 300, folder table 310, word / folder table 330, word / document table 350) is loaded from the internal DB 511 onto the memory (step 1).
03).

【0065】文書番号テーブル300は、どのような情
報源が利用可能か、各情報源にはどのようなドメインが
あるか、それらのドメインにはそれぞれ何番から何番ま
での文書があり、既に何番までは取得済みであるかとい
う情報を表す。
The document number table 300 shows what types of information sources are available, what domains each information source has, what number of documents each of these domains has, and It represents information up to which number has been acquired.

【0066】フォルダテーブル310は、どのようなフ
ォルダがどのような階層構造を成しているか、各フォル
ダにはどのような文書が格納されているかを表す。
The folder table 310 shows what kind of folder has what kind of hierarchical structure, and what kind of document is stored in each folder.

【0067】ワード・フォルダテーブル330は、各フ
ォルダに対応付けられている検索条件にはどのようなワ
ードが出現するかを表す。
The word / folder table 330 represents what words appear in the search condition associated with each folder.

【0068】ワード・文書テーブル350にはどの文書
にどのようなワードが出現するかを表している。各テー
ブルについて詳しくは後述する。
The word / document table 350 shows what kind of word appears in which document. Details of each table will be described later.

【0069】次に、各情報源の全ての新文書について、
ステップ105〜107を繰り返し実行する。
Next, for all new documents of each information source,
Repeat steps 105 to 107.

【0070】ステップ105の新文書取得処理は、各情
報源に接続し、文書番号テーブル300に登録されてい
る文書番号より新しい文書があるかどうか調べ、もしあ
ればその文書を取得する。
In the new document acquisition processing of step 105, the information source is connected to check whether there is a newer document than the document number registered in the document number table 300, and if there is, obtain the document.

【0071】次に、ステップ106の適合度計算が、取
得した文書の各フォルダにおける適合度を計算する。ま
ず、取得した文書にどのようなワードが出現するかを表
わすフォルダ検索テーブル370を作成し、各フォルダ
における適合度を記憶するために適合フォルダテーブル
390を作成・初期化する。そして、フォルダ検索テー
ブル370とワード・フォルダテーブル330とを照合
して、適合度をフォルダごとに算出し、適合フォルダテ
ーブル390に登録する。適合度計算について詳しくは
後述する。
Next, the fitness calculation in step 106 calculates the fitness in each folder of the acquired document. First, a folder search table 370 that represents what words appear in the acquired document is created, and a compatible folder table 390 is created and initialized to store the degree of suitability in each folder. Then, the folder search table 370 and the word folder table 330 are collated to calculate the matching degree for each folder, and the matching degree is registered in the matching folder table 390. Details of the fitness calculation will be described later.

【0072】次にステップ107の文書格納処理が、適
合フォルダテーブル390に登録された各フォルダにお
ける適合度と、フォルダテーブル310が表わすフォル
ダ間の階層構造とから文書を格納するフォルダを決定
し、その文書をフォルダテーブル310とワード・文書
テーブル350に登録する。文書格納処理について詳し
くは後述する。
Next, in step 107, the document storing process determines the folder for storing the document from the degree of conformity in each folder registered in the conforming folder table 390 and the hierarchical structure between folders represented by the folder table 310, and The document is registered in the folder table 310 and the word / document table 350. Details of the document storage processing will be described later.

【0073】次に、ステップ108のフォルダ管理処理
が、ワード・文書テーブル350が表わす各文書におけ
るワードの出現頻度分布を用いてフォルダ内の文書を分
析し、フォルダの自動分割や統合を行ない、フォルダテ
ーブル310とワード・フォルダテーブル330とを更
新する。詳しくは後述する。
Next, the folder management processing of step 108 analyzes the documents in the folder using the word frequency distribution in each document represented by the word / document table 350, and performs automatic folder division and integration. The table 310 and the word folder table 330 are updated. Details will be described later.

【0074】以上のステップ105〜107の繰り返し
中に更新された文書収集用テーブルを内部DB511へ
セーブする(ステップ109)。
The document collection table updated during the repetition of the above steps 105 to 107 is saved in the internal DB 511 (step 109).

【0075】ここまでで、一通りの文書収集処理102
を終了する。
Up to this point, the general document collection processing 102
To finish.

【0076】以上述べた文書収集処理102で用いるデ
ータ構造や処理についてさらに詳しく説明する。
The data structure and processing used in the document collection processing 102 described above will be described in more detail.

【0077】文書番号テーブル300のデータ構造を-
13に示す。文書番号テーブル300は、ハッシュテー
ブルで、各エントリは図12に示す文書番号リスト30
2を指している。情報源名とドメイン名を入力とするハ
ッシュ関数の値でエントリを決定する。
[0077] The data structure of the document number table 300 -
13 shows. The document number table 300 is a hash table, and each entry has a document number list 30 shown in FIG.
Pointing to 2. The entry is determined by the value of the hash function that takes the source name and domain name as input.

【0078】文書番号リスト302は、情報源名へのポ
インタ303、ドメイン名へのポインタ304、そのド
メインの最古文書の番号305、最新文書の番号30
6、文書収集システムが既に収集処理を施した文書の番
号307、同ハッシュ値の他の文書番号リストへのポイ
ンタ308の組である。
The document number list 302 includes a pointer 303 to the information source name, a pointer 304 to the domain name, the number 305 of the oldest document in the domain, and the number 30 of the latest document.
6, a set of the document number 307 of the document which the document collection system has already collected, and a pointer 308 to another document number list of the same hash value.

【0079】文書番号テーブルは、文書収集を始める際
にロードされ、文書を情報源から取得する度に更新され
る。
The document number table is loaded at the beginning of document collection and is updated each time a document is acquired from the information source.

【0080】内部DBには、どのような情報源がある
か、どのようなドメインがあるか、どのドメインの文書
は何番まで収集処理済みかが記憶されている。まず、内
部DB511から、記憶されている情報源名、ドメイン
名、既取得文書番号を読み込んで文書番号リスト302
を作成し、情報源名とドメイン名を入力とするハッシュ
関数の値をエントリとして文書番号テーブル300に登
録する。次に、各情報源から各ドメインの最古文書番
号、最新文書番号を取得し、文書番号リストに書き込
む。このとき文書番号テーブル300に登録されていな
いドメインがあれば、これはその情報源において新規に
作成されたドメインであるので、既取得文書番号を0と
して文書番号リストを生成し、文書番号テーブル300
に登録する。
The internal DB stores what kind of information source exists, what kind of domain exists, and how many documents in which domain have been collected and processed. First, the stored information source name, domain name, and acquired document number are read from the internal DB 511, and the document number list 302 is read.
Is created, and the value of the hash function with the information source name and the domain name as input is registered in the document number table 300 as an entry. Next, the oldest document number and latest document number of each domain are acquired from each information source and written in the document number list. At this time, if there is a domain not registered in the document number table 300, this is a domain newly created in the information source, so that the document number list is generated with the already acquired document number set to 0, and the document number table 300
Register with.

【0081】たとえば、図13の文書番号リスト302
ーaは、internet news という情報源の fj.ai という
ドメインには、123番から145番までの文書があ
り、そのうち130番までは収集処理済みであることを
示している。
For example, the document number list 302 shown in FIG.
-A indicates that there are 123 to 145 documents in the domain fj.ai of the internet news source, and 130 of them have been collected and processed.

【0082】フォルダテーブル310のデータ構造を図
15に示す。フォルダテーブル310はハッシュテーブ
ルで、各エントリは図14に示すフォルダリスト314
を指している。フォルダ名を入力とするハッシュ関数の
値でエントリを決定する。
The data structure of the folder table 310 is shown in FIG. The folder table 310 is a hash table, and each entry has a folder list 314 shown in FIG.
Pointing to. The entry is determined by the value of the hash function that takes the folder name as input.

【0083】フォルダリスト314は、フォルダの ID
番号315、フォルダ名へのポインタ316、上位フォ
ルダを表すフォルダリストへのポインタ317、下位フ
ォルダリスト321へのポインタ318、格納文書リス
ト324へのポインタ319、同ハッシュ値の他のフォ
ルダを表すフォルダリストへのポインタ320の組であ
る。
The folder list 314 is a folder ID.
A reference numeral 315, a pointer 316 to a folder name, a pointer 317 to a folder list showing a higher folder, a pointer 318 to a lower folder list 321, a pointer 319 to a stored document list 324, and a folder list showing another folder having the same hash value. Is a set of pointers 320 to.

【0084】下位フォルダリスト321は、下位フォル
ダを表すフォルダリストへのポインタ322とフォルダ
リスト314で表されるフォルダの他の下位フォルダを
表す下位フォルダリストへのポインタ323の組であ
る。
The lower folder list 321 is a set of a pointer 322 to a folder list representing a lower folder and a pointer 323 to a lower folder list representing another lower folder of the folder represented by the folder list 314.

【0085】格納文書リスト324は、格納された文書
の情報源名へのポインタ325、ドメイン名へのポイン
タ326、文書番号327、格納文書リスト324が表
す文書のフォルダリスト314が表すフォルダにおける
適合度328、このフォルダに格納された他の文書を表
す格納文書リストへのポインタ329の組である。
The stored document list 324 is a pointer 325 to an information source name of a stored document, a pointer 326 to a domain name, a document number 327, and a matching degree of a document represented by the stored document list 324 in a folder represented by a folder list 314. 328 is a set of pointers 329 to the stored document list representing other documents stored in this folder.

【0086】例えば、図15のフォルダリスト314ー
aは、フォルダ ID が1003の voice というフォル
ダの上位フォルダはフォルダリスト314ーbで表され
るフォルダuser1であること、フォルダリスト314ー
cで表されるフォルダsynthesisを下位フォルダに持つ
ことと、このフォルダには適合度13点のinternet new
s という情報源のfj.ai というドメインの120番の文
書等が格納されていることとを表している。
For example, in the folder list 314-a of FIG. 15, the upper folder of the folder voice whose folder ID is 1003 is the folder user1 represented by the folder list 314-b, and is represented by the folder list 314-c. Have a folder synthesis, which is a subordinate folder, and that this folder has an internet new
This indicates that the 120th document in the domain fj.ai of the information source s is stored.

【0087】図17に示すワード・フォルダテーブル3
30は、ハッシュテーブルで、各エントリは図16に示
すワード・フォルダリスト333を指している。ワード
を入力とするハッシュ関数の値でエントリを定める。
Word folder table 3 shown in FIG.
Reference numeral 30 is a hash table, and each entry points to the word folder list 333 shown in FIG. The entry is defined by the value of the hash function that takes a word as input.

【0088】ワード・フォルダリスト333は、ワード
へのポインタ334、フォルダ頻度リスト340へのポ
インタ335、同ハッシュ値の他のワード・フォルダリ
ストへのポインタ336の組である。フォルダ頻度リス
ト340は、このワードが出現する検索条件に対応する
フォルダのフォルダ ID 341、検索条件中のワードの
出現頻度342、他のフォルダ頻度リストへのポインタ
343の組である。
The word folder list 333 is a set of a pointer 334 to a word, a pointer 335 to a folder frequency list 340, and a pointer 336 to another word folder list of the same hash value. The folder frequency list 340 is a set of a folder ID 341 of a folder corresponding to a search condition in which this word appears, an appearance frequency 342 of a word in the search condition, and a pointer 343 to another folder frequency list.

【0089】例えば、図17のフォルダリスト333ー
aとフォルダ頻度リスト340ーaは、言語というワー
ドが、フォルダ ID 1003のフォルダに対応する検索
条件中に1回出現することを表し、フォルダリスト33
3ーbとフォルダ頻度リスト340ーb、340ーc
は、音声認識というワードが、 ID 1003のフォルダ
と ID 1004のフォルダのそれぞれに対応する検索条
件中に1回づつ出現することを表す。
For example, the folder list 333-a and the folder frequency list 340-a shown in FIG. 17 indicate that the word "language" appears once in the search condition corresponding to the folder with the folder ID 1003.
3-b and folder frequency list 340-b, 340-c
Indicates that the word “voice recognition” appears once in the search condition corresponding to each of the folder with ID 1003 and the folder with ID 1004.

【0090】ワード・文書テーブル350のデータ構造
を図19に示す。ワード・文書テーブル350はハッシ
ュテーブルで、各エントリは図18に示すワード・文書
リスト354を指している。ワードを入力とするハッシ
ュ関数の値でエントリを決定する。
The data structure of the word / document table 350 is shown in FIG. The word / document table 350 is a hash table, and each entry points to the word / document list 354 shown in FIG. The entry is determined by the value of the hash function that takes a word as input.

【0091】図18のワード・文書リスト354は、ワ
ードへのポインタ355、文書頻度リスト360へのポ
インタ356、同ハッシュ値の他のワード・文書リスト
へのポインタ357の組である。文書頻度リスト360
は、このワードが出現する文書の情報源名へのポインタ
361、ドメイン名へのポインタ362、文書番号36
3、出現頻度364、このワードが出現する他の文書頻
度リストへのポインタ365の組である。
The word / document list 354 of FIG. 18 is a set of a pointer 355 to a word, a pointer 356 to a document frequency list 360, and a pointer 357 to another word / document list having the same hash value. Document frequency list 360
Is a pointer 361 to the information source name of the document in which this word appears, a pointer 362 to the domain name, and a document number 36.
3, the appearance frequency 364, and a pointer 365 to another document frequency list in which this word appears.

【0092】例えば、図19のワード・文書リスト33
4ーaと文書頻度リスト360ーaは、言語 というワ
ードが、情報源internet newsのドメインfj.sci.langの
56番の文書に5回出現することを表し、ワード・文書
リスト334ーbと文書頻度リスト360ーb、360
ーcは、音声認識というワードが情報源internet news
のドメインfj.ai の120番の文書に2回出現し、ドメ
インfj.sci.langの56番の文書に2回出現することを
表している。
For example, the word / document list 33 in FIG.
4-a and document frequency list 360-a indicate that the word language appears 5 times in the 56th document of domain fj.sci.lang of the information source internet news, and word and document list 334-b. Document frequency list 360-b, 360
The word c is the word "voice recognition" in the source of information internet news
It appears twice in the 120th document of domain fj.ai and twice in the 56th document of domain fj.sci.lang.

【0093】フォルダテーブル310、ワード・フォル
ダテーブル330、ワード・文書テーブル350の内容
は、内部DB511に記憶されている。これらのテーブ
ルは文書収集処理102が開始されたときやクライアン
ト要求処理110が開始された時やコマンド実行時に、
必要に応じてメモリ上へロードされ、それぞれの処理を
実行中に参照・更新され、終了するときに内部DB511
にセーブされる。ただし、各テーブルは排他的に更新さ
れる。フォルダの作成・削除によるフォルダテーブルの
更新、検索条件の更新によるワード・フォルダテーブル
の更新は、ただちにセーブされる。
The contents of the folder table 310, word / folder table 330, and word / document table 350 are stored in the internal DB 511. These tables are stored when the document collection process 102 is started, when the client request process 110 is started, or when a command is executed.
It is loaded into the memory as needed, is referenced / updated while each process is being executed, and internal DB 511 is used when it ends.
Will be saved to. However, each table is updated exclusively. The update of the folder table by creating / deleting a folder and the update of the word / folder table by updating the search condition are immediately saved.

【0094】例としてワード・フォルダテーブル350
のロードについて図8に流れ図を示す。ワード・フォル
ダテーブル350のロードは、フォルダテーブル310
をロードした後で行う。
As an example, the word folder table 350
FIG. 8 shows a flow chart for the loading of No. The word folder table 350 is loaded by the folder table 310.
After loading.

【0095】まず、ワード・フォルダテーブル350を
初期化する(ステップ160)。
First, the word folder table 350 is initialized (step 160).

【0096】次に、フォルダテーブル310に登録され
ている全てのフォルダについて、フォルダのワード登録
(ステップ164〜166)を繰り返す(ステップ16
1)。
Next, the word registration of the folders (steps 164 to 166) is repeated for all the folders registered in the folder table 310 (step 16).
1).

【0097】フォルダのワード登録は、まず、そのフォ
ルダに対応する検索条件を内部DB511からメモリ5
23上に読みこみ、(ステップ164)、ワードを抽出
する(ステップ165)。抽出した各ワードについて図
16のワード・フォルダリスト333を作成し、ワード
のハッシュ値を計算して図17のワード・フォルダテー
ブル330に登録する(ステップ166)。
In the word registration of a folder, first, search conditions corresponding to the folder are stored in the internal DB 511 to the memory 5
23 is read (step 164) and the word is extracted (step 165). The word folder list 333 of FIG. 16 is created for each extracted word, and the hash value of the word is calculated and registered in the word folder table 330 of FIG. 17 (step 166).

【0098】全てのフォルダについてワード登録を行う
とこの繰り返しを終了し、ワード・フォルダテーブルロ
ード処理151を終了する。
When word registration is performed for all folders, this repetition is ended, and the word / folder table load processing 151 is ended.

【0099】適合度計算106が行なう検索処理につい
て図9に基づいて説明する。
The search process performed by the fitness calculation 106 will be described with reference to FIG.

【0100】この処理は、検索条件群に出現するワード
と文書に出現するワードの類似性を調べることにより、
取得した文書と各フォルダの適合度を調べる。
This processing is performed by checking the similarity between the word appearing in the search condition group and the word appearing in the document,
Check the conformity between the acquired document and each folder.

【0101】ここで本実施例で使用する、検索対象文書
といずれかのフォルダとの適合度について説明する。
Here, the matching degree between the document to be searched and any of the folders used in this embodiment will be described.

【0102】検索対象文書といずれかのフォルダとの適
合度は、いくつかの方法が考えられるが、本実施例で
は、その文書内のワードのうち、そのフォルダに適合し
たワード(すなわち、そのフォルダに対応して記憶され
た検索条件に含まれるワードに一致した、文書内のワー
ド)のそれぞれとそのフォルダとの適合度を求め、それ
らのワードとそのフォルダとの適合度の総和を求め、こ
の総和をその文書とそのフォルダとの適応度とする。
There are several possible methods of matching the search target document with any of the folders, but in the present embodiment, among the words in the document, words that match the folder (that is, the folder). Of each word in the document that matches the word contained in the search condition stored in association with the folder and the sum of the degrees of conformity between those words and the folder is calculated. The sum is the fitness of the document and the folder.

【0103】ここで、そのフォルダに適応したワードと
そのフォルダとの適応度もいろいろの方法で求めること
が出来るが、本実施例では、より好適なものとして、そ
のワードのその文書内での重みとそのワードのそのフォ
ルダ内での重みとの積でもってそのワードとそのフォル
ダの適応度とする。
Here, the fitness of the word adapted to the folder and the fitness of the folder can also be obtained by various methods, but in this embodiment, as a more preferable one, the weight of the word in the document is set. And the weight of the word in the folder to obtain the fitness of the word and the folder.

【0104】ここで、そのワードの文書内の重みは、い
ろいろの方法で検出可能であるが、本実施例では、より
好適なものとして、そのワードのその文書内での出現頻
度でもって、そのワードのその文書内での重みとする。
Here, the weight of the word in the document can be detected by various methods, but in this embodiment, it is more preferable that the weight is the frequency of appearance of the word in the document. It is the weight of the word in the document.

【0105】さらに、そのワードとそのフォルダとの適
応度もいろいろの方法で検出可能であるが、本実施例で
は、より好適なものとして、そのフォルダに対応して記
憶された検索条件内でのそのワードの出現回数を使用す
る。
Further, the fitness between the word and the folder can be detected by various methods, but in the present embodiment, it is more preferable that the fitness within the search condition stored corresponding to the folder is satisfied. Use the number of occurrences of that word.

【0106】従って、本実施例では、そのワードとその
フォルダとの適合度は、そのワードの文書内出現頻度と
そのワードのそのフォルダに対応する検索条件内での出
現頻度の積でもって表すことが出来、その検索対象文書
とそのフォルダとの適応度は、このようにして求めた各
ワードの適応度の総和で与えられる。
Therefore, in this embodiment, the matching degree between the word and the folder is represented by the product of the appearance frequency of the word in the document and the appearance frequency of the word in the search condition corresponding to the folder. The fitness between the search target document and the folder is given by the sum of the fitness of each word thus obtained.

【0107】より具体的には、取得した文書に出現する
ワードを図21のフォルダ検索テーブル370に登録
し、全フォルダに対応する検索条件に出現するワードを
登録してあるワード・フォルダテーブル330と照合し
て、フォルダ毎に適合度を集計し、適合度順にフォルダ
をソートする。
More specifically, a word / folder table 330 in which the words appearing in the acquired document are registered in the folder search table 370 of FIG. 21, and the words appearing in the search conditions corresponding to all folders are registered. Collation is performed and the goodness of fit is totaled for each folder, and the folders are sorted in order of goodness of fit.

【0108】まず、フォルダ検索テーブル370の初期
化(ステップ170)、図23の適合フォルダテーブル
390の初期化(ステップ171)を行なう。
First, the folder search table 370 is initialized (step 170) and the compatible folder table 390 of FIG. 23 is initialized (step 171).

【0109】次に取得文書からワードを抽出し(ステッ
プ172)、各ワードをフォルダ検索テーブル370に
登録する(ステップ173)。
Next, words are extracted from the acquired document (step 172) and each word is registered in the folder search table 370 (step 173).

【0110】フォルダ検索テーブル370はハッシュテ
ーブルで、各エントリは、図20に示すフォルダ検索リ
スト372を指す。ワードを引数とするハッシュ関数の
値でエントリを決定する。フォルダ検索リスト372は
文書中のワードへのポインタ373、適合フォルダリス
ト380へのポインタ374、文書中の出現頻度37
5、同ハッシュ値の他のフォルダ検索リストへのポイン
タ376の組である。適合フォルダリスト380は、ワ
ードが出現する検索条件に対応するフォルダのフォルダ
ID 381、そのフォルダにおける適合度382、他の
適合フォルダリストへのポインタ383の組である。
The folder search table 370 is a hash table, and each entry points to the folder search list 372 shown in FIG. The entry is determined by the value of the hash function that takes the word as an argument. The folder search list 372 is a pointer 373 to a word in the document, a pointer 374 to a matching folder list 380, and an appearance frequency 37 in the document.
5, a set of pointers 376 to other folder search lists having the same hash value. The matching folder list 380 is a folder of folders corresponding to the search condition in which the word appears.
It is a set of an ID 381, a matching degree 382 in the folder, and a pointer 383 to another matching folder list.

【0111】たとえば、図21のフォルダ検索テーブル
330のフォルダ検索リスト372ーaは、言語という
ワードが検索対象の文書中に2回出現することを表して
いる。まだ検索を実行していないので、適合フォルダリ
ストへのポインタ374ーaは NULL である。同様
に、フォルダ検索リスト372ーb、372ーcはそれ
ぞれ対象文書中に無音時間というワードが3回出現する
こと、音声認識というワードが5回出現することを表し
ている。
For example, the folder search list 372-a of the folder search table 330 shown in FIG. 21 indicates that the word "language" appears twice in the document to be searched. Since no search has been performed yet, the pointer 374-a to the matching folder list is NULL. Similarly, the folder search lists 372-b and 372-c respectively show that the word "silent time" appears three times and the word "voice recognition" appears five times in the target document.

【0112】次に、フォルダ検索テーブル370とワー
ド・フォルダテーブル330を照合し、適合するフォル
ダがあれば、適合フォルダリストを作成し、フォルダ検
索テーブルに登録する(ステップ174)。
Next, the folder search table 370 and the word / folder table 330 are collated, and if there is a matching folder, a matching folder list is created and registered in the folder searching table (step 174).

【0113】すなわち、フォルダ検索テーブル370に
登録されているワードが、ワード・フォルダテーブル3
30にも登録されていれば、フォルダ検索リスト372
の頻度375とワード・フォルダリスト333に登録さ
れている各フォルダ頻度リスト340の頻度342を掛
け合わせた値をそのワードの各フォルダにおける適合度
として、それぞれに対応する適合フォルダリスト380
を作成し、フォルダ検索リスト372に登録する。
That is, the word registered in the folder search table 370 is the word / folder table 3
If it is also registered in 30, the folder search list 372
Value 375 and the frequency 342 of each folder frequency list 340 registered in the word / folder list 333 are taken as the matching degree in each folder of the word, and the matching folder list 380 corresponding to each
Is created and registered in the folder search list 372.

【0114】例えば、フォルダ検索テーブル370に登
録されている言語というワードはワード・フォルダテー
ブル330のフォルダ頻度リスト340ーaが示すよう
に、フォルダ ID 1003に対応する検索条件に1回出
現している。したがって、言語 というワードの ID 1
003のフォルダにおける適合度は2点で、検索実行前
にはNULLであった適合フォルダリストへのポインタ
は、図22に示した検索実行後のフォルダ検索テーブル
370のように適合フォルダリスト380ーaを指す。
For example, the word "language" registered in the folder search table 370 appears once in the search condition corresponding to the folder ID 1003 as shown in the folder frequency list 340-a of the word folder table 330. . Therefore, the word ID 1
The matching degree in the folder 003 is 2 points, and the pointer to the matching folder list, which was NULL before the search is executed, has a matching folder list 380-a as shown in the folder search table 370 after the search shown in FIG. Refers to.

【0115】同様に音声認識というワードは、ワード・
フォルダテーブル330のフォルダ頻度リスト340ー
bが示すように、ID1003のフォルダとID1004の
フォルダに対応する検索条件にそれぞれ1回出現してい
る。したがって、音声認識というワードの ID 1003
のフォルダと ID 1004のフォルダにおける適合度は
それぞれ5点である。したがって、検索実行後は、図2
2のフォルダ検索テーブル370に適合フォルダリスト
380ーbと380ーcが登録される。しかし、無音時
間というワードは、ワード・フォルダテーブルに登録さ
れていない。すなわち適合するフォルダが存在しないと
いうことで、検索実行後も適合フォルダリストへのポイ
ンタはNULLである。
Similarly, the word voice recognition is
As shown in the folder frequency list 340-b of the folder table 330, each appears once in the search condition corresponding to the folder of ID1003 and the folder of ID1004. Therefore, the word ID 1003
There are 5 points of conformity in each of the folder and the folder of ID 1004. Therefore, after executing the search,
The compatible folder lists 380-b and 380-c are registered in the second folder search table 370. However, the word silent time is not registered in the word folder table. That is, since there is no matching folder, the pointer to the matching folder list is NULL even after the search is executed.

【0116】最後にフォルダ毎に、各ワードのフォルダ
における適合度を集計し、適合度が0でないフォルダを
適合度の高い順に図23の適合フォルダテーブル380
に登録する(ステップ175)。適合フォルダテーブル
の各エントリは、適合フォルダリスト381を指す。適
合フォルダリストは、図20の適合フォルダリストと同
じデータ構造であるが、各ワードのフォルダにおける適
合度の合計を適合度とし、他の適合フォルダリストへの
ポインタ383は使用しない。
Finally, the goodness of fit in the folder of each word is tabulated for each folder, and the folders whose non-fitnesses are not 0 are arranged in descending order of goodness of fit.
(Step 175). Each entry in the compatible folder table points to the compatible folder list 381. The conforming folder list has the same data structure as the conforming folder list of FIG. 20, but the total of the conforming degrees in the folders of each word is the conforming degree, and the pointer 383 to another conforming folder list is not used.

【0117】以上の適合度計算によって作成された適合
フォルダテーブル390とフォルダの階層構造が登録さ
れているフォルダテーブル310を用いて、文書格納処
理109が、文書を格納すべきフォルダを選んで格納す
る。文書格納処理109の流れを図10に示す。
The document storing process 109 selects and stores the folder in which the document is to be stored by using the adaptive folder table 390 created by the above-described fitness calculation and the folder table 310 in which the hierarchical structure of folders is registered. . The flow of the document storage processing 109 is shown in FIG.

【0118】この文書格納処理は、大きく分けて2段階
(ステップ180、181)からなる。
This document storage processing is roughly divided into two stages (steps 180 and 181).

【0119】まず、ステップ180では、適合フォルダ
テーブル390に登録された各フォルダにおける適合度
とフォルダテーブル310に登録されたフォルダの階層
構造から、対象文書をどのフォルダに格納すべきかを決
定し、対象文書を格納した文書としてフォルダテーブル
310に登録する。
First, in step 180, it is determined which folder the target document should be stored in based on the conformance of each folder registered in the compatible folder table 390 and the hierarchical structure of the folders registered in the folder table 310. The document is registered in the folder table 310 as a document storing the document.

【0120】図24に格納フォルダの決定方法の説明図
を示す。本実施例ではフォルダの階層構造の各枝で適合
したフォルダの中で最も下位のフォルダに格納する。 A
からH までのフォルダがあり、それぞれ図に示す適合
度であった場合には、A―B―D―G という枝の適合した
フォルダの中で最も下位のD、同様に枝A―B―E 中のE、
枝 A―C―F―H 中のH に格納する。この方法は、下位の
フォルダは上位のフォルダの検索条件を継承していると
考え、検索条件をより詳しく記述しているフォルダに格
納するものである。
FIG. 24 shows an explanatory diagram of the method of determining the storage folder. In this embodiment, the folder is stored in the lowest folder among the matched folders in each branch of the folder hierarchical structure. A
If there are folders from H to H, and each has the matching degree shown in the figure, the lowest D among the matching folders of A-B-D-G, as well as branch A-B-E E inside,
Store in H of branch A-C-F-H. In this method, it is considered that the lower folders inherit the search conditions of the upper folders, and the search conditions are stored in a folder in which the search conditions are described in more detail.

【0121】次に、ステップ181では、対象文書に出
現するワードをワード・文書テーブル350に登録す
る。
Next, in step 181, the words appearing in the target document are registered in the word / document table 350.

【0122】すなわち、文書に出現する全ワードについ
て図18のワード・文書リストを作成し、ワード・文書
テーブル350に登録する。
That is, the word / document list of FIG. 18 is created for all the words appearing in the document, and registered in the word / document table 350.

【0123】この処理により、ワード・文書テーブル3
50には格納された全文書について、各文書にどのよう
なワードが出現するかが記録される。このワード・文書
テーブル350は、次に述べるフォルダ管理処理でフォ
ルダ内の文書を分析するのに用いる。
By this processing, the word / document table 3
In 50, what words appear in each document are recorded for all the stored documents. The word / document table 350 is used to analyze the documents in the folder in the folder management process described below.

【0124】フォルダ管理処理108について説明す
る。
The folder management process 108 will be described.

【0125】階層構造を成すフォルダに対応する検索条
件を分類体系とみなして文書の収集、分類を続けると、
文書が特定のフォルダに集中して、フォルダ内の文書数
がユーザが把握しきれないほど増えることがある。ま
た、文書が複数のフォルダに重複して格納されることが
多くなり、無駄が生じることもある。
When the retrieval conditions corresponding to folders having a hierarchical structure are regarded as a classification system and documents are collected and classified,
Documents may be concentrated in a specific folder, and the number of documents in the folder may increase beyond the user's knowledge. In addition, documents are often stored in a plurality of folders in duplicate, which may be wasteful.

【0126】これらの現象は、ユーザが適切に分類体系
を構成していなかった場合や世間の情勢や研究動向が変
化し、分類体系が合わなくなった場合に起きる。
These phenomena occur when the user does not properly configure the classification system, or when the situation and research trends in the world change and the classification system does not match.

【0127】フォルダ管理処理108は、各フォルダへ
の文書の集まり具合を分析することによって、これらの
現象を検知し、フォルダの階層構造やフォルダに対応す
る検索条件を改良する。これにより、フォルダ内の文書
数をユーザが把握できる程度の数に抑さえたり、文書が
複数のフォルダに不必要に重複して格納されないように
したりし、フォルダの階層構造を実情にあった体系に維
持する。
The folder management processing 108 detects these phenomena by analyzing the collection state of documents in each folder, and improves the hierarchical structure of folders and the search condition corresponding to the folders. As a result, the number of documents in a folder can be suppressed to a number that the user can grasp, and documents can be prevented from being stored in multiple folders unnecessarily redundantly. To maintain.

【0128】フォルダ管理処理の流れを図11に示す。FIG. 11 shows the flow of folder management processing.

【0129】各フォルダに対してステップ201〜ステ
ップ205を繰り返し行なう(ステップ200)。
Steps 201 to 205 are repeated for each folder (step 200).

【0130】まず、フォルダに格納された文書数を監視
する(ステップ201)。フォルダにあらかじめ与えた
数以上の文書が格納されていれば、そのフォルダ内の文
書を統計的手法を用いて分析する(ステップ202)。
異なった性質のものが混ざり合っている対象の中で、類
似している個体を集めてグループに分類する手法はクラ
スタ分析として知られており、たとえば、「多変量解析
ハンドブック」(現代数学社1986年)に記載されて
いる。ステップ202はクラスタ分析の手法を用いて、
フォルダ内の文書に出現するワードの頻度に基づき文書
を再分類する。再分類した文書の集合をクラスタと呼
ぶ。
First, the number of documents stored in the folder is monitored (step 201). If the folder stores more than the given number of documents in advance, the documents in the folder are analyzed using a statistical method (step 202).
A method of collecting similar individuals and classifying them into groups among objects having different properties is known as cluster analysis. For example, “Multivariate Analysis Handbook” (Hyundai Mathematics Co., Ltd. 1986). Year). Step 202 uses the method of cluster analysis,
Reclassify documents based on the frequency of words that appear in the documents in the folder. A set of reclassified documents is called a cluster.

【0131】次にクラスタ間の関係を分析し、クラスタ
の階層構造を決定する(ステップ203)。ここで行な
うクラスタ間の関係解析については後述する。クラスタ
に対応してフォルダと検索条件を生成し、クラスタの階
層構造に対応して階層的にフォルダを作成する(ステッ
プ204)。次にワード・文書テーブル350から、生
成した各フォルダ内の文書に共通して高頻度に出現する
ワードを抽出し、フォルダに対応する検索条件に加える
(ステップ205)。これにより、検索条件を精練する
ことができる。
Next, the relationship between clusters is analyzed to determine the hierarchical structure of clusters (step 203). The relationship analysis between clusters performed here will be described later. Folders and search conditions are generated corresponding to the clusters, and folders are created hierarchically corresponding to the hierarchical structure of the clusters (step 204). Next, from the word / document table 350, words that appear frequently in the generated documents in each folder are extracted and added to the search condition corresponding to the folder (step 205). As a result, the search condition can be refined.

【0132】ここまでの処理を各フォルダに施したら、
各フォルダに格納された文書群を分析し、フォルダの再
構成、すなわち、フォルダの統合、階層構造の変更を行
なう(ステップ206)。ここで行なう分析については
後述する。
When the above processing is applied to each folder,
The document group stored in each folder is analyzed, and the folders are reconstructed, that is, the folders are integrated and the hierarchical structure is changed (step 206). The analysis performed here will be described later.

【0133】図26ー31を使ってステップ206で行
なうクラスタ間関係の分析方法を説明する。
A method of analyzing the inter-cluster relationship performed in step 206 will be described with reference to FIGS.

【0134】図25のように、ワード群w1とワード群
w2からなる検索条件があり、この検索条件に対応する
フォルダ450に文書群dが格納されているとする。こ
のとき、このフォルダ内の文書について、ワード・文書
テーブルから得られるデータを統計的に分析してえられ
る、ワードと文書の関係のパタンを図26の451、図
26の455、図28の458に示す。
As shown in FIG. 25, it is assumed that there is a search condition consisting of a word group w1 and a word group w2, and a document group d is stored in a folder 450 corresponding to this search condition. At this time, regarding the documents in this folder, the pattern of the relationship between the word and the document, which is obtained by statistically analyzing the data obtained from the word / document table, is shown by 451 in FIG. 26, 455 in FIG. 26, and 458 in FIG. Shown in.

【0135】図26は、文書群dがワード群w1が出現
する文書群d1とワード群w2が出現する文書群d2の
二つの独立したクラスタに分類される場合である。この
場合、ワード群w1からなる検索条件とワード群w2か
らなる検索条件を生成し、それぞれに対応するフォルダ
453、454と両者の上位のフォルダ452を設け、
図26に示す階層構造にする。
FIG. 26 shows a case where the document group d is classified into two independent clusters, a document group d1 in which the word group w1 appears and a document group d2 in which the word group w2 appears. In this case, a search condition composed of the word group w1 and a search condition composed of the word group w2 are generated, and folders 453 and 454 corresponding to them and a folder 452 above them are provided,
The hierarchical structure shown in FIG. 26 is used.

【0136】図27は、ワード群1のみが出現する文書
群d1とワード群w1とワード群w2出現する文書群d
2の二つのクラスタに分類される場合である。ワード群
w2が出現する文書群にはワード群w1も出現してい
る。そこで、ワード群w1からなる検索条件とワード群
w2からなる検索条件を生成し、それぞれに対応するフ
ォルダ456と457を設け、図27に示す階層構造に
する。
FIG. 27 shows a document group d1 in which only word group 1 appears, a word group w1 and a document group d in which word group w2 appears.
This is the case of being classified into two clusters of 2. The word group w1 also appears in the document group in which the word group w2 appears. Therefore, a search condition including the word group w1 and a search condition including the word group w2 are generated, and folders 456 and 457 corresponding to the search conditions are provided to form the hierarchical structure shown in FIG.

【0137】図28は、ワード群w1のみが出現する文
書群d1とワード群w2のみが出現する文書群d3とワ
ード群w1とワード群w2の両方が出現する文書群d2
の3つのクラスタに分類される場合である。この場合、
ワード群w1のみからなる検索条件とワード群w2のみ
からなる検索条件とワード群w1かつワード群w2なる
検索条件を生成し、それぞれに対応するフォルダ45
6、457、458とこれらの上位のフォルダ455を
設け、図28のような階層構造にする。
FIG. 28 shows a document group d1 in which only the word group w1 appears, a document group d3 in which only the word group w2 appears, and a document group d2 in which both the word group w1 and the word group w2 appear.
This is the case of being classified into three clusters. in this case,
A search condition including only the word group w1 and a search condition including only the word group w2 and a search condition including the word group w1 and the word group w2 are generated, and folders 45 corresponding to the search conditions are generated.
6, 457, 458 and folders 455 above these are provided to form a hierarchical structure as shown in FIG.

【0138】同じ図25ー30を使ってステップ205
で行なうフォルダ間関係の分析方法を説明する。
Using the same FIGS. 25-30, step 205
The method of analyzing the relationship between folders will be described below.

【0139】図27のような階層構造のフォルダがある
ときに、フォルダ453とフォルダ454に重複して格
納される文書が増えたとすると、ワードと文書の関係の
パタンが451のパタンから457かまたは458のパ
タンに変化したと考えられる。文書が重複して格納され
ていることは、フォルダテーブル310から検知でき
る。そこで、フォルダ453、454に格納されている
文書について、ワード・文書テーブル350から得られ
る各文書におけるワードの出現頻度に基づきクラスタ間
関係分析と同様の統計的分析を行ってワードと文書の分
布のパタンを調べ、パタンに応じてフォルダと検索条件
を再構成する。
If there are more documents stored in the folders 453 and 454 in duplicate when there are folders having a hierarchical structure as shown in FIG. 27, the pattern of the relation between words and documents is 457 from the pattern of 451 or 457. It is thought that the pattern changed to 458. It can be detected from the folder table 310 that the documents are redundantly stored. Therefore, with respect to the documents stored in the folders 453 and 454, statistical analysis similar to the inter-cluster relation analysis is performed based on the word appearance frequency in each document obtained from the word / document table 350, and the distribution of the words and the documents is analyzed. Examine patterns and reconfigure folders and search conditions according to the patterns.

【0140】また、図27のような階層構造があるとき
に、フォルダ457に格納される文書の中でフォルダ4
56に適合しない文書の割合があらかじめ与えられた割
合を越えるようになった場合、検索条件の上下関係が変
化したことを意味する。このことは、フォルダテーブル
310に登録されているフォルダ457に格納された文
書のフォルダ456への適合度を調べることにより検知
できる。フォルダ456とフォルダ457とに格納され
ている文書に対しクラスタ分析を行ない、フォルダを再
構成する。
Further, when there is a hierarchical structure as shown in FIG. 27, among the documents stored in the folder 457, the folder 4
When the ratio of documents that do not conform to 56 exceeds a predetermined ratio, it means that the hierarchical relationship of the search conditions has changed. This can be detected by checking the compatibility of the document stored in the folder 457 registered in the folder table 310 with the folder 456. Cluster analysis is performed on the documents stored in the folders 456 and 457 to reconfigure the folders.

【0141】[0141]

【発明の効果】本発明によれば以下の効果が得られる。According to the present invention, the following effects can be obtained.

【0142】(1)ユーザが記述した検索条件群に適合
する情報を複数の情報源から収集し、検索条件群の階層
構造を分類体系と見做して収集した情報を分類できる。
(1) Information matching the search condition group described by the user can be collected from a plurality of information sources, and the collected information can be classified by regarding the hierarchical structure of the search condition group as a classification system.

【0143】(2)各検索条件に対応した検索結果格納
領域への情報の集まり具合に応じて、分類体系を変更す
ることができる。
(2) The classification system can be changed according to how information is collected in the search result storage area corresponding to each search condition.

【0144】その結果、ある検索結果格納領域に格納さ
れる情報量をユーザがその全体を把握できる程度の数に
抑さえることができる。あるいは情勢の変化に応じ、適
切な分類体系を維持できる。
As a result, the amount of information stored in a certain search result storage area can be suppressed to a number that allows the user to grasp the entire information. Alternatively, an appropriate classification system can be maintained according to changes in the situation.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例のシステム構成図である。FIG. 1 is a system configuration diagram of an embodiment of the present invention.

【図2】本実施例の文書収集サーバシステムの流れ図で
ある。
FIG. 2 is a flowchart of the document collection server system of this embodiment.

【図3】本実施例のインタフェース画面の例である。FIG. 3 is an example of an interface screen of this embodiment.

【図4】本実施例のフォルダとフォルダに対応する検索
条件の例である。
FIG. 4 is an example of folders and search conditions corresponding to the folders of the present embodiment.

【図5】本実施例の文書収集処理の流れ図である。FIG. 5 is a flowchart of a document collection process of this embodiment.

【図6】本実施例のクライアント要求処理の流れ図であ
る。
FIG. 6 is a flowchart of client request processing according to the present embodiment.

【図7】本実施例の文書収集クライアントシステムの流
れ図である。
FIG. 7 is a flow chart of the document collection client system of the present embodiment.

【図8】本実施例のワード・フォルダテーブルロード処
理の流れ図である。
FIG. 8 is a flow chart of a word folder table loading process of the present embodiment.

【図9】本実施例の適合度計算の流れ図である。FIG. 9 is a flowchart of the fitness calculation in this embodiment.

【図10】本実施例の文書格納処理の流れ図である。FIG. 10 is a flowchart of a document storage process of this embodiment.

【図11】本実施例のフォルダ管理処理の流れ図であ
る。
FIG. 11 is a flowchart of a folder management process of this embodiment.

【図12】本実施例の文書番号リストのデータ構造であ
る。
FIG. 12 is a data structure of a document number list of this embodiment.

【図13】本実施例の文書番号テーブルのデータ構造で
ある。
FIG. 13 is a data structure of a document number table of this embodiment.

【図14】本実施例のフォルダリストと下位フォルダリ
ストと格納文書リストのデータ構造である。
FIG. 14 is a data structure of a folder list, a subordinate folder list, and a stored document list according to this embodiment.

【図15】本実施例のフォルダテーブルのデータ構造で
ある。
FIG. 15 is a data structure of a folder table according to the present embodiment.

【図16】本実施例のワード・フォルダリストとフォル
ダ頻度リストのデータ構造である。
FIG. 16 is a data structure of a word / folder list and a folder frequency list according to this embodiment.

【図17】本実施例のワード・フォルダテーブルのデー
タ構造である。
FIG. 17 is a data structure of a word folder table according to the present embodiment.

【図18】本実施例のワード・文書リストと文書頻度リ
ストのデータ構造である。
FIG. 18 is a data structure of a word / document list and a document frequency list according to this embodiment.

【図19】本実施例のワード・文書テーブルのデータ構
造である。
FIG. 19 is a data structure of a word / document table according to the present embodiment.

【図20】本実施例のフォルダ検索リストと適合フォル
ダリストのデータ構造である。
FIG. 20 is a data structure of a folder search list and a compatible folder list according to this embodiment.

【図21】本実施例のフォルダ検索テーブルのデータ構
造である。
FIG. 21 is a data structure of a folder search table of this embodiment.

【図22】本実施例の検索処理後のフォルダ検索テーブ
ルの例である。
FIG. 22 is an example of a folder search table after the search processing of the present embodiment.

【図23】本実施例の適合フォルダテーブルのデータ構
造である。
FIG. 23 is a data structure of a compatible folder table of this embodiment.

【図24】本実施例の文書を格納するフォルダの決定方
法の説明図である。
FIG. 24 is an explanatory diagram of a method of determining a folder for storing a document according to this embodiment.

【図25】本実施例のフォルダ内文書分析を行なうフォ
ルダの説明図である。
FIG. 25 is an explanatory diagram of folders for performing in-folder document analysis according to the present embodiment.

【図26】本実施例のフォルダ内文書分析結果のワード
と文書の第1の分布パタンそれに従って生成されるフォ
ルダの説明図である。
FIG. 26 is an explanatory diagram of a word generated as a result of document analysis in a folder and a first distribution pattern of a document according to the present embodiment, and a folder generated according to the word;

【図27】本実施例のフォルダ内文書分析結果のワード
と文書の第2の分布パタンそれに従って生成されるフォ
ルダの説明図である。
FIG. 27 is an explanatory diagram of a word generated as a result of document analysis in a folder and a second distribution pattern of a document according to the present embodiment, and a folder generated according to the word;

【図28】本実施例のフォルダ内文書分析結果のワード
と文書の第3の分布パタンそれに従って生成されるフォ
ルダの説明図である。
FIG. 28 is an explanatory diagram of a word generated as a result of analyzing a document in a folder and a third distribution pattern of a document according to the present embodiment, and a folder generated according to the word;

【符号の説明】[Explanation of symbols]

100…文書収集サーバシステム、102…文書収集処
理、106…適合度計算、107…文書格納処理、10
8…フォルダ管理処理、110…クライアント要求処
理。
Reference numeral 100 ... Document collection server system, 102 ... Document collection processing, 106 ... Fitness calculation, 107 ... Document storage processing, 10
8 ... Folder management processing, 110 ... Client request processing.

Claims (28)

【特許請求の範囲】[Claims] 【請求項1】計算機により情報を自動的に分類するため
の方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
にそれぞれ対応し、それぞれ検索すべき一つまたは複数
の単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と分類すべき
文書情報との間の適合度を検出し、 各フォルダと該情報との間の検出された適合度と上記階
層関係とに基づいて、該複数のフォルダの内、該文書情
報を登録すべき一つまたは複数のフォルダを決定し、 該決定されたする一つまたは複数のフォルダに対応して
該文書情報を記憶する情報分類方法。
1. A method for automatically classifying information by a computer, which corresponds to one of a plurality of folders associated with each other in a hierarchical relationship, and one or more words to be searched respectively. Storing a plurality of search conditions that specify the search conditions, detecting the matching degree between the search conditions stored corresponding to each folder and the document information to be classified, and detecting the correspondence between each folder and the information. Based on the matching degree and the hierarchical relationship, one or more folders in which the document information should be registered are determined from among the plurality of folders, and one or more folders corresponding to the determined one or more folders are determined. An information classification method for storing the document information.
【請求項2】該検出は、 該文書情報と、各フォルダに対応して記憶された検索条
件が指定する単語の各々との間の適合度を検出し、 各フォルダに対応して記憶された検索条件が指定する単
語のそれぞれと該文書情報との間に関して検出された適
合度の総和を、そのフォルダと該文書情報との間の適合
度として決定するステップを含む請求項1記載の文書情
報分類方法。
2. The detection detects the degree of conformity between the document information and each of the words designated by the search condition stored corresponding to each folder, and is stored corresponding to each folder. 2. The document information according to claim 1, further comprising the step of determining a sum of matching degrees detected between each of the words designated by the search condition and the document information as a matching degree between the folder and the document information. Classification method.
【請求項3】該文書情報と各フォルダに対応して記憶さ
れた検索条件に含まれる一つまたは複数の単語の各々と
の間の適合度を決定するステップは、その文書情報内で
のその単語の重みと、その検索条件内でのその単語の重
みとの積をその単語とその文書情報との適合度として決
定するステップを有する請求項2記載の文書情報分類方
法。
3. The step of determining the matching degree between the document information and each of one or a plurality of words included in a search condition stored in correspondence with each folder includes the step of determining the matching degree in the document information. 3. The document information classification method according to claim 2, further comprising a step of determining a product of a weight of the word and a weight of the word in the search condition as a matching degree between the word and the document information.
【請求項4】各フォルダに対応して記憶された検索条件
に含まれる一つまたは複数の単語の各々のその文書情報
内での重みは、その文書情報内でのその単語の出現回数
に比例する値である請求項3記載の文書情報分類方法。
4. The weight in the document information of each of one or more words included in the search condition stored corresponding to each folder is proportional to the number of appearances of the word in the document information. The document information classification method according to claim 3, which is a value to be set.
【請求項5】各フォルダに対応して記憶された検索条件
に含まれる一つまたは複数の単語の各々のその検索条件
内の重みは、その検索条件内の複数の単語内でのその単
語の出現回数に比例する値である請求項3または4記載
の文書情報分類方法。
5. The weight in each of the one or a plurality of words included in the search condition stored corresponding to each folder in the search condition is the weight of the word in the plurality of words in the search condition. 5. The document information classification method according to claim 3, which is a value proportional to the number of appearances.
【請求項6】該決定は、 該文書情報と各フォルダとの間に対して検出された適合
度により、該文書情報に適合する一つまたは複数のフォ
ルダを検出し、 該検出により複数のフォルダが検出されたときには、そ
れらの検出された複数のフォルダ内の該文書情報を対応
させる一つまたは複数のフォルダを、該検出された複数
のフォルダの間の、上記階層関係内での相対的位置関係
に依存して選択する請求項1記載の文書情報分類方法。
6. The determination is performed by detecting one or a plurality of folders matching the document information according to the matching degree detected between the document information and each folder, and detecting the plurality of folders by the detection. Is detected, one or a plurality of folders corresponding to the document information in the detected plurality of folders is set to the relative position in the hierarchical relationship between the detected plurality of folders. The document information classification method according to claim 1, wherein the selection is performed depending on the relationship.
【請求項7】該選択は、該文書情報に適合すると検出さ
れた該複数のフォルダの中に、相対的に上下関係にある
一群のフォルダが含まれているときには、該一群のフォ
ルダを代表する一つのフォルダを該文書情報を対応させ
るフォルダとして選択するステップを有する請求項6記
載の文書情報分類方法。
7. The selection is representative of a group of folders when the plurality of folders detected as being compatible with the document information include a group of folders having a relatively upper and lower relationship. 7. The document information classification method according to claim 6, further comprising the step of selecting one folder as a folder to which the document information is associated.
【請求項8】該選択は、該検出された複数のフォルダの
中に、該一群のフォルダと相対的に上下関係にはない他
の一群のフォルダが含まれているときには、該他の一群
のフォルダを代表する一つのフォルダを該文書情報を対
応させる他のフォルダとして検出するステップをさらに
有する請求項7記載の文書情報分類方法。
8. The selection is performed when the detected plurality of folders include another group of folders that is not in a relative hierarchical relationship with the group of folders. 8. The document information classification method according to claim 7, further comprising the step of detecting one folder representing a folder as another folder corresponding to the document information.
【請求項9】該一群のフォルダを代表する一つのフォル
ダは、該一群のフォルダの内の最下層に位置するフォル
ダである請求項7記載の文書情報分類方法。
9. The document information classification method according to claim 7, wherein one folder representing the group of folders is a folder located at the lowest level of the group of folders.
【請求項10】計算機により文書情報を自動的に分類す
るための方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
にそれぞれ対応し、それぞれ一つまたは複数の検索すべ
き単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と予め定めて
判断基準とに基づいて、分類すべき文書情報を対応させ
るフォルダとして、該複数のフォルダの一つまたは複数
を決定し、 決定されたフォルダに対応して該文書情報を記憶し、 複数の分類すべき文書情報の各々に対して上記決定およ
び記憶を行ない、 各フォルダに対応して記憶された複数の文書情報が、そ
のフォルダの再構成のために定めた所定の条件を満たす
か否かを判別し、 いずれか一つのフォルダが該所定の条件を満たしたと
き、その一つのフォルダに対応して記憶された複数の文
書情報とそのフォルダに対応して記憶された検索条件を
再構成するステップを有する文書情報分類方法。
10. A method for automatically classifying document information by a computer, which corresponds to one of a plurality of folders mutually associated in a hierarchical relationship, each of which should be one or a plurality of searches. A plurality of search conditions for designating a word are stored, and based on the search condition stored corresponding to each folder and a predetermined judgment criterion, the document information to be classified is associated as a folder of the plurality of folders. Determine one or more, store the document information corresponding to the determined folder, perform the above determination and storage for each of the plurality of document information to be classified, and store the document information corresponding to each folder. It is determined whether a plurality of document information satisfy a predetermined condition defined for the reconstruction of the folder, and when any one of the folders satisfies the predetermined condition, one of them Document information classification method comprising the step of reconfiguring correspondingly stored search condition to a plurality of document information and the folder stored to correspond to the folder.
【請求項11】該所定の条件は、該一つのフォルダの登
録された文書情報の総数が所定値を越えているというこ
とである請求項10記載の文書情報分類方法。
11. The document information classification method according to claim 10, wherein the predetermined condition is that the total number of registered document information in the one folder exceeds a predetermined value.
【請求項12】該再構成するステップは、 そのフォルダに対応して記憶された検索条件を、その検
索条件が指定する複数の単語の一部をそれぞれ指定する
複数の新たな検索条件に分割し、 該一つのフォルダに登録された複数の文書情報を複数の
文書情報群に分割し、 該一つのフォルダを新たな複数のフォルダで置換し、 該複数の新たなフォルダの各々に対応して、該新たな複
数の検索条件の一つで指定される一つまたは複数の単語
と、該複数の文書情報の分割で得られた一部の文書情報
を記憶するステップを有する請求項10記載の文書情報
分類方法。
12. The reconstructing step divides the search condition stored corresponding to the folder into a plurality of new search conditions each designating a part of a plurality of words designated by the search condition. , Dividing a plurality of document information registered in the one folder into a plurality of document information groups, replacing the one folder with a plurality of new folders, and corresponding to each of the plurality of new folders, 11. The document according to claim 10, further comprising a step of storing one or a plurality of words designated by one of the new plurality of search conditions and a part of the document information obtained by dividing the plurality of document information. Information classification method.
【請求項13】該複数の文書情報を分割するステップ
は、 該一つのフォルダに対応して記憶された検索情報を分割
して得られた複数の新たな検索条件に適合する文書情報
からなる複数の文書情報部分群に分割するステップから
なる請求項12記載の文書情報分類方法。
13. The step of dividing the plurality of pieces of document information includes a plurality of pieces of document information that conforms to a plurality of new search conditions obtained by dividing the search information stored corresponding to the one folder. 13. The document information classification method according to claim 12, comprising the step of dividing the document information into the document information subgroups.
【請求項14】該再構成するステップは、 該一つのフォルダに登録された複数の文書情報の一部と
そのフォルダに対応して記憶された検索条件が指定する
複数の単語の一部とを選択し、 該一のフォルダの下位の階層に、少なくとも一つの新た
なフォルダを配置し、 該新たなフォルダに対応して、該選択された一部の単語
と該選択された一部の文書情報を記憶するステップを有
する請求項10記載の文書情報分類方法。
14. The step of reconstructing comprises reconstructing a part of a plurality of document information registered in the one folder and a part of a plurality of words specified by a search condition stored corresponding to the folder. Select, arrange at least one new folder in the lower hierarchy of the one folder, and correspond to the new folder, the selected part of the words and the selected part of the document information 11. The document information classification method according to claim 10, further comprising the step of storing.
【請求項15】該複数の文書情報の一部と該一部の単語
を選択するステップは、 該一つのフォルダに対応して該複数の文書情報を、該一
つのフォルダに対応して記憶された単語群の一部で検索
可能であるが、該単語群のうちの他の一部の単語では検
索不可能な一部の文書情報と、該一部の単語および該他
の一部の単語のいずれでも検索可能な他の文書情報とに
分離し、 該分離で得られた一部の文書情報およびその分離に使用
した該一部の単語を選択するステップを有する請求項1
4記載の文書情報分類方法。
15. The step of selecting a part of the plurality of pieces of document information and the part of the words includes storing the plurality of pieces of document information in association with the one folder. Part of the word group that is searchable, but some other words in the word group cannot be searched, and some of the document information and the other part of the word The method further comprises a step of separating the document information from other document information that can be searched by any of the above, and selecting a part of the document information obtained by the separation and the part of the words used for the separation.
Document information classification method described in 4.
【請求項16】該再構成するステップは、 新たなフォルダを生成し、 該一つのフォルダと他の一のフォルダに重複して登録さ
れた複数の文書情報を該新なフォルダに対応して登録
し、該一のフォルダと該他の一のフォルダに対する、該
重複する複数の文書の登録を削除し、 該一つのフォルダに対応して記憶された単語群と該他の
一つのフォルダに対応して記憶された他の単語群の内、
該重複する複数の文書を検索するための単語群を、該新
たなフォルダに対応して記憶するステップを有する請求
項10記載の文書情報分類方法。
16. The step of reconfiguring creates a new folder, and registers a plurality of pieces of document information registered in the one folder and another folder in a duplicated manner in correspondence with the new folder. Then, the registration of the plurality of overlapping documents in the one folder and the other one folder is deleted, and the word groups stored in correspondence with the one folder and the other one folder are deleted. Of the other word groups stored as
11. The document information classification method according to claim 10, further comprising a step of storing a word group for searching the plurality of overlapping documents in association with the new folder.
【請求項17】該新たなフォルダは、該一つのフォルダ
と該他の一のフォルダと同じ階層に配置される請求項1
6記載の文書情報分類方法。
17. The new folder is arranged in the same hierarchy as the one folder and the other folder.
Document information classification method described in 6.
【請求項18】該文書情報を対応させるための一つまた
は複数のフォルダの決定は、 各フォルダに対応して記憶された検索条件が指定する単
語群に基づいて、該分類すべき文書情報と各フォルダと
の間の適合度を検出し、 各フォルダと該文書情報との間の検出された適合度と上
記階層関係とに基づいて、該文書情報を登録するための
フォルダとして、該複数のフォルダの一つまたは複数を
決定するステップを有する請求項10記載の文書情報分
類方法。
18. Determining one or a plurality of folders for associating the document information with the document information to be classified based on a word group designated by a search condition stored corresponding to each folder. The degree of matching between each folder is detected, and based on the detected degree of matching between each folder and the document information and the hierarchical relationship, the plurality of folders are registered as the folders for registering the document information. 11. The document information classification method according to claim 10, further comprising the step of determining one or a plurality of folders.
【請求項19】計算機により文書情報を自動的に分類す
るための方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
にそれぞれ対応し、それぞれ一つまたは複数の検索すべ
き単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と予め定めて
判断基準とに基づいて、分類すべき文書情報を対応させ
るフォルダとして、該複数のフォルダの一つまたは複数
を決定し、 決定されたフォルダに対応して該文書情報を記憶し、 複数の分類すべき文書情報の各々に対して上記決定およ
び記憶を行ない、 該複数のフォルダの内の一部の複数のフォルダに対応し
て記憶された複数の文書情報が、該複数のフォルダの再
構成のために定めた所定の条件を満たすか否かを判別
し、 いずれかの一部の複数のフォルダが該所定の条件を満た
したとき、該一部の複数のフォルダに対応して記憶され
た複数の文書情報と、該一部の複数のフォルダに対応し
て記憶された複数の検索条件を再構成するステップを有
する文書情報分類方法。
19. A method for automatically classifying document information by a computer, each of which corresponds to one of a plurality of folders which are associated with each other in a hierarchical relationship, and one or more of each of which should be searched. A plurality of search conditions for designating a word are stored, and based on the search condition stored corresponding to each folder and a predetermined determination criterion, the document information to be classified is associated as a folder, One or more are determined, the document information is stored corresponding to the determined folder, and the above determination and storage are performed for each of the plurality of document information to be classified. It is determined whether a plurality of pieces of document information stored corresponding to a plurality of folders of a copy satisfy a predetermined condition defined for reconstruction of the plurality of folders, F When the folder satisfies the predetermined condition, a plurality of document information stored corresponding to the some folders and a plurality of search conditions stored corresponding to the some folders are displayed. A document information classification method having a step of reconstructing.
【請求項20】該所定の条件は、該一部の複数のフォル
ダが、上位側のフォルダとそのフォルダの下位側のフォ
ルダに関する条件を含み、 該再構成は、 該下位側のフォルダに対応して登録された文書情報群と
該上位側のフォルダに対応して登録された文書情報群と
を、該上位側のフォルダと該下位側のフォルダに対して
配分し直し、 この配分し直しの後に、該下位側のフォルダに対応して
登録された新たな文書情報群と該上位側のフォルダに登
録された新たな文書情報群とに基づいて、該下位側のフ
ォルダに対応して登録された文書情報群と該上位側のフ
ォルダに対応して登録された文書情報群とを該上位側の
フォルダと該下位側のフォルダに対して配分し直すステ
ップを有する請求項19記載の文書情報分類方法。
20. The predetermined condition includes a condition in which the some of the plurality of folders relate to an upper folder and a lower folder of the folder, and the reconfiguration corresponds to the lower folder. The document information group registered by the above and the document information group registered corresponding to the folder on the upper side are redistributed to the folder on the upper side and the folder on the lower side, and after the redistribution, , Based on the new document information group registered corresponding to the lower folder and the new document information group registered in the upper folder, registered corresponding to the lower folder 20. The document information classification method according to claim 19, further comprising the step of redistributing the document information group and the document information group registered corresponding to the upper folder to the upper folder and the lower folder. .
【請求項21】該所定の条件は、該下位側のフォルダに
対応して登録された文書情報の数と該上位側のフォルダ
に対応して登録された文書情報の数の相対的大きさに関
する条件である請求項19記載の文書情報分類方法。
21. The predetermined condition relates to a relative size of the number of pieces of document information registered corresponding to the lower folder and the number of document information registered corresponding to the upper folder. The document information classification method according to claim 19, which is a condition.
【請求項22】該条件は、該下位側のフォルダに対応し
て登録された文書情報の数が、該上位側のフォルダに対
応して登録された文書情報の数より少ないことである請
求項21記載の文書情報分類方法。
22. The condition is that the number of pieces of document information registered corresponding to the lower folder is smaller than the number of document information registered corresponding to the upper folder. 21. Document information classification method described in 21.
【請求項23】該文書情報を対応させるための一つまた
は複数のフォルダの決定は、 各フォルダに対応して記憶された検索条件とに基づい
て、分類すべき文書情報と各フォルダとの間の適合度を
検出し、 各フォルダと該文書情報との間の検出された適合度と上
記階層関係とに基づいて、該文書情報を対応させるフォ
ルダとして、該複数のフォルダの一つまたは複数を決定
するステップを有する請求項19記載の文書情報分類方
法。
23. The determination of one or a plurality of folders for associating the document information is performed between the document information to be classified and each folder based on a search condition stored corresponding to each folder. Of the plurality of folders is detected as a folder for associating the document information based on the detected degree of matching between each folder and the document information and the hierarchical relationship. 20. The document information classification method according to claim 19, further comprising a determining step.
【請求項24】データベースを保持す記憶装置と、該計
算機からユーザが指定した文書情報を選択的に検索する
計算機とを有すす計算機システムにおいて、 階層関係で相互に関連付けされた、ユーザが指定した複
数のフォルダの一つにそれぞれ対応し、それぞれ一つま
たは複数の検索すべき単語を指定する複数の検索条件を
記憶し、 そのデータベースに新規に登録される文書情報があるか
否かを監視し、 新規に登録された文書情報があるときには、その文書情
報と各検索条件との適合度を判別し、 各検索条件と該文書情報との適合度と該階層関係とに基
づいて、該文書情報を対応させる一つまたは複数のフォ
ルダを決定する文書情報収集方法。
24. In a computer system having a storage device for holding a database and a computer for selectively retrieving document information specified by the user from the computer, a user-specified computer system associated with each other in a hierarchical relationship. Corresponds to one of multiple folders, stores multiple search conditions that specify one or more words to be searched, and monitors whether there is newly registered document information in the database. When there is newly registered document information, the matching degree between the document information and each search condition is determined, and based on the matching degree between each search condition and the document information and the hierarchical relationship, the document information is searched. Document information collection method for determining one or a plurality of folders to be associated with each other.
【請求項25】該複数のフォルダの各々が、そのフォル
ダに対応して記憶された複数の文書情報に関連するフォ
ルダの再構成に関する条件を満たすか否かを判別し、 いずれか一つのフォルダが該再構成の条件を満たすと
き、新たなフォルダを生成し、 その一つのフォルダに対応して記憶された複数の文書情
報の少なくとも一部を検索するための新たな検索条件を
生成し、 該新たな検索条件と該一部の文書情報を該新たなフォル
ダに対応して記憶するステップをさらに有する請求項2
4記載の文書情報収集方法。
25. It is determined whether or not each of the plurality of folders satisfies a condition regarding reconstruction of a folder related to a plurality of document information stored corresponding to the folder, and any one of the folders is determined. When the reconstruction condition is satisfied, a new folder is generated, a new search condition for searching at least a part of the plurality of document information stored corresponding to the one folder is generated, and the new search condition is generated. 3. The method further comprising the step of storing different search conditions and the part of the document information in association with the new folder.
4. Document information collection method described in 4.
【請求項26】いずれかのフォルダが、そのフォルダに
対応して記憶された複数の文書情報を複数の新たなフォ
ルダに分割するための分割条件を満たすか否かを判別
し、 いずれか一つのフォルダが該分割条件を満たすとき、複
数の新たなフォルダを生成し、 その一つのフォルダに対応して記憶された複数の文書情
報および検索条件とから、該複数の文書情報を複数群に
分割するための複数の検索条件を決定し、 該分割により得られた複数群の文書情報の内の一つの群
の文書情報と、該分割により得られた複数群の検索文書
情報の内の一つの群の文書情報とを、該新たな複数のフ
ォルダの一つに対応して記憶するステップをさらに有す
る請求項24記載の文書情報収集方法。
26. It is determined whether or not any of the folders satisfies a division condition for dividing a plurality of pieces of document information stored corresponding to the folder into a plurality of new folders. When the folder satisfies the division condition, a plurality of new folders are generated, and the plurality of document information is divided into a plurality of groups based on the plurality of document information and the search condition stored corresponding to the one folder. Determining a plurality of search conditions for the document information, and selecting one of the plurality of groups of document information obtained by the division and one of the plurality of groups of search document information obtained by the division. 25. The document information collecting method according to claim 24, further comprising a step of storing the document information of 1. and the document information corresponding to one of the new plurality of folders.
【請求項27】ある一組みの複数のフォルダが、それら
に重複して対応して記憶された複数の文書情報を分離し
て記憶するための条件を満たすか否かを判別し、 その一組みのフォルダが、該分離条件を満たすとき、新
たなフォルダを生成し、 それらのフォルダに重複して記憶された複数の文書情報
を検索するための検索条件を、該一組みのフォルダのい
ずれかにそれぞれ対応して記憶された検索条件に基づい
て生成し、 該新たなフォルダに対応して、該生成された検索条件を
記憶し、 該重複する複数の文書情報を、該新たなフォルダに対応
するように記憶し直すステップをさらに有する請求項2
4記載の文書情報収集方法。
27. It is determined whether or not a set of a plurality of folders satisfies a condition for separating and storing a plurality of pieces of document information that are correspondingly stored in duplicate, and a set of the plurality of folders is determined. When any of the folders in the set satisfies the separation condition, a new folder is generated, and a search condition for searching a plurality of pieces of document information redundantly stored in those folders is set to any one of the set of folders. Generated based on the search conditions stored corresponding to each other, store the generated search conditions corresponding to the new folder, and correspond the plurality of duplicate document information to the new folder 2 further comprising the step of re-memorizing
4. Document information collection method described in 4.
【請求項28】ユーザに提供すべき文書情報を含むデー
タベースを記憶する手段を有する第1の計算機と、 該第1の計算機と交信して、該データベース内の文書情
報を検索するための第2の計算機と、 該第2の計算機に接続された、ユーザが操作可能な端末
とを有し、 該端末は、相互に階層関係で関係づけられた、ユーザが
指定した複数のフォルダの名称と、それぞれのフォルダ
に対応してユーザが指定した複数の単語を含む複数の検
索条件とを該第2の計算機に送付する手段を有し、 該第2の計算機は、 該送付された複数のフォルダの名称と検索条件を記憶す
る手段と、 そのデータベースに新規に登録される文書情報があるか
否かを該第1の計算機と交信して検出する手段と、 新規に登録された文書情報があるときには、その文書情
報と該複数の検索条件との適合度を判別し、各検索条件
と該文書情報との適合度と該階層関係とに基づいて、該
文書情報を対応させる一つまたは複数のフォルダを決定
し、決定されたフォルダの各々に対応して該文書情報と
その名称を記憶する手段と、 該端末からの要求に応答して、該複数のフォルダの名称
とそれぞれのフォルダに対応して記憶された複数の文書
情報の名称とを該端末に送付する手段とを有し、 該端末は、該送付された複数のフォルダの名称を有する
複数のフォルダを、該階層関係が識別可能な態様で表示
し、該送付された複数の文書情報の名称を、それぞれの
文書情報が対応するフォルダに対応して表示する手段を
さらに有する文書情報収集システム。
28. A first computer having means for storing a database containing document information to be provided to a user, and a second computer for communicating with the first computer to retrieve the document information in the database. And a user-operable terminal connected to the second computer, the terminal having names of a plurality of folders designated by the user, which are related to each other in a hierarchical relationship, And a means for sending to the second computer a plurality of search conditions including a plurality of words designated by the user corresponding to each folder, and the second computer has a means for sending the plurality of sent folders to the second computer. Means for storing the name and search condition, means for communicating with the first computer to detect whether or not there is document information newly registered in the database, and when there is newly registered document information , Its document information And the degree of matching of the plurality of search conditions with each other, and based on the degree of matching between each search condition and the document information and the hierarchical relationship, determine one or a plurality of folders to which the document information is associated, Means for storing the document information and its name corresponding to each of the determined folders, and a plurality of names of the plurality of folders and a plurality of folders stored corresponding to the respective folders in response to a request from the terminal. And a means for sending the name of the document information of the folder to the terminal, the terminal displaying a plurality of folders having the names of the plurality of sent folders in a mode in which the hierarchical relationship can be identified, A document information collecting system further comprising means for displaying the names of the plurality of sent document information in association with folders corresponding to the respective document information.
JP5195839A 1993-08-06 1993-08-06 Document information classification method, document information collection method using the same, and document information collection system Pending JPH0749875A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5195839A JPH0749875A (en) 1993-08-06 1993-08-06 Document information classification method, document information collection method using the same, and document information collection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5195839A JPH0749875A (en) 1993-08-06 1993-08-06 Document information classification method, document information collection method using the same, and document information collection system

Publications (1)

Publication Number Publication Date
JPH0749875A true JPH0749875A (en) 1995-02-21

Family

ID=16347868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5195839A Pending JPH0749875A (en) 1993-08-06 1993-08-06 Document information classification method, document information collection method using the same, and document information collection system

Country Status (1)

Country Link
JP (1) JPH0749875A (en)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (en) * 1995-07-31 1997-04-15 Toshiba Corp Information filtering device
JPH09198295A (en) * 1996-01-16 1997-07-31 Nec Corp Hypermedia system
JPH10222534A (en) * 1997-02-12 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> Information retrieval device
JPH10228486A (en) * 1997-02-14 1998-08-25 Nec Corp Distributed document classification system and recording medium which records program and which can mechanically be read
JPH10232815A (en) * 1996-04-30 1998-09-02 Ee I Soft Kk Communication terminal device, data update monitoring server, information distribution system including the same, information acquisition method, request transfer method, data update monitoring method, and recording medium
JPH1166080A (en) * 1997-08-11 1999-03-09 Mitsubishi Electric Corp Information retrieval system
JPH11175558A (en) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd Information retrieving device and method therefor and storage medium
JP2000259637A (en) * 1999-03-09 2000-09-22 Sharp Corp Information retrieval apparatus, information retrieval method, and recording medium recording information retrieval processing program
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP2007226663A (en) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd Content display apparatus and method
JP2007272892A (en) * 2006-03-29 2007-10-18 Xerox Corp Hierarchical clustering with real-time updating
JP2008070958A (en) * 2006-09-12 2008-03-27 Sony Corp Information processing apparatus and method, and program
JP2008070959A (en) * 2006-09-12 2008-03-27 Sony Corp Information processing apparatus and method, and program
JP2008204374A (en) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd Cluster generating device and program
JP2008299382A (en) * 2007-05-29 2008-12-11 Fujitsu Ltd Data division program, recording medium recording the program, data division apparatus, and data division method
JP2009025968A (en) * 2007-07-18 2009-02-05 Fujifilm Corp Related word dictionary creation device, method, program, and content search device
JP2009294939A (en) * 2008-06-05 2009-12-17 Toshiba Corp Document classification apparatus
JP2010501927A (en) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション Information terminal equipped with content search system
US7921290B2 (en) 2001-04-18 2011-04-05 Ipass Inc. Method and system for securely authenticating network access credentials for users
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents
JP2014010758A (en) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd File management device, file management method, and program
US9087129B2 (en) 1999-09-20 2015-07-21 Energico Acquisitions L.L.C. Methods, systems, and software for automated growth of intelligent on-line communities

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (en) * 1995-07-31 1997-04-15 Toshiba Corp Information filtering device
JPH09198295A (en) * 1996-01-16 1997-07-31 Nec Corp Hypermedia system
JPH10232815A (en) * 1996-04-30 1998-09-02 Ee I Soft Kk Communication terminal device, data update monitoring server, information distribution system including the same, information acquisition method, request transfer method, data update monitoring method, and recording medium
JPH10222534A (en) * 1997-02-12 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> Information retrieval device
US5983246A (en) * 1997-02-14 1999-11-09 Nec Corporation Distributed document classifying system and machine readable storage medium recording a program for document classifying
JPH10228486A (en) * 1997-02-14 1998-08-25 Nec Corp Distributed document classification system and recording medium which records program and which can mechanically be read
JPH1166080A (en) * 1997-08-11 1999-03-09 Mitsubishi Electric Corp Information retrieval system
JPH11175558A (en) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd Information retrieving device and method therefor and storage medium
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP2000259637A (en) * 1999-03-09 2000-09-22 Sharp Corp Information retrieval apparatus, information retrieval method, and recording medium recording information retrieval processing program
US9087129B2 (en) 1999-09-20 2015-07-21 Energico Acquisitions L.L.C. Methods, systems, and software for automated growth of intelligent on-line communities
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
US7921290B2 (en) 2001-04-18 2011-04-05 Ipass Inc. Method and system for securely authenticating network access credentials for users
JP2007226663A (en) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd Content display apparatus and method
JP2007272892A (en) * 2006-03-29 2007-10-18 Xerox Corp Hierarchical clustering with real-time updating
JP2010501927A (en) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション Information terminal equipped with content search system
JP2008070959A (en) * 2006-09-12 2008-03-27 Sony Corp Information processing apparatus and method, and program
JP2008070958A (en) * 2006-09-12 2008-03-27 Sony Corp Information processing apparatus and method, and program
JP2008204374A (en) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd Cluster generating device and program
JP2008299382A (en) * 2007-05-29 2008-12-11 Fujitsu Ltd Data division program, recording medium recording the program, data division apparatus, and data division method
JP2009025968A (en) * 2007-07-18 2009-02-05 Fujifilm Corp Related word dictionary creation device, method, program, and content search device
JP2009294939A (en) * 2008-06-05 2009-12-17 Toshiba Corp Document classification apparatus
JP2014010758A (en) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd File management device, file management method, and program

Similar Documents

Publication Publication Date Title
JPH0749875A (en) Document information classification method, document information collection method using the same, and document information collection system
US6912550B2 (en) File classification management system and method used in operating systems
McGill An Evaluation of Factors Affecting Document Ranking by Information Retrieval Systems.
Adar et al. Haystack: Per-user information environments
CA2288745C (en) Method and apparatus for searching a database of records
JP4994243B2 (en) Search processing by automatic categorization of queries
US7698255B2 (en) System for organizing knowledge data and communication with users having affinity to knowledge data
US20060129538A1 (en) Text search quality by exploiting organizational information
US7024405B2 (en) Method and apparatus for improved internet searching
JP2004094806A (en) Information search support system, application server, information search method, and program
JPH0589173A (en) Classification device for structured document
WO2001031502A1 (en) Multimedia information classifying/arranging device and method
JP2006268201A (en) Program for managing articles or topics
Dubois et al. Fuzzy logic techniques in multimedia database querying: A preliminary investigation of the potentials
US7013300B1 (en) Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user
US20040153436A1 (en) Automated information management system and methods
JP2001325272A (en) Information arrangement method, information processor, storage medium and program transmitter
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
US7134082B1 (en) Method and apparatus for individualizing and updating a directory of computer files
JP2005010848A (en) Information search apparatus, information search method, information search program, and recording medium
KR100667917B1 (en) Method and system for providing website search service
JP3772401B2 (en) Document classification device
JP2002312389A (en) Information retrieving device and information retrieving method
WO2001039008A1 (en) Method and system for collecting topically related resources
JP2003044486A (en) Knowledge analysis system, cluster management method, and cluster management program