JPH0749875A - 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム - Google Patents

文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム

Info

Publication number
JPH0749875A
JPH0749875A JP5195839A JP19583993A JPH0749875A JP H0749875 A JPH0749875 A JP H0749875A JP 5195839 A JP5195839 A JP 5195839A JP 19583993 A JP19583993 A JP 19583993A JP H0749875 A JPH0749875 A JP H0749875A
Authority
JP
Japan
Prior art keywords
folder
document information
folders
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5195839A
Other languages
English (en)
Inventor
Hiroko Yuasa
寛子 湯浅
Keiji Kojima
啓二 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5195839A priority Critical patent/JPH0749875A/ja
Publication of JPH0749875A publication Critical patent/JPH0749875A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【構成】 文書収集サーバシステム100は、自動的に
複数の情報源に接続して新文書を取得し、適合度計算1
06によって、あらかじめユーザが記述した検索条件と
の適合度を調べる。文書格納処理107は、検索条件間
の関係から分類体系を構成し、適合した文書を分類して
フォルダに格納する。フォルダ管理処理108は、各フ
ォルダへの情報の集まり具合を監視し、自動的にフォル
ダの細分化、統合、構造の変更を行なって情報の整理を
する。 【効果】 各分類への情報の集まり具合に応じて、分類
体系や検索条件を改善し、各分類に分類される情報量を
その全体を容易に把握できる程度の数に抑さえることが
できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機ネットワークを
介して、自動的に情報を収集、分類、整理する情報収集
システムに関する。
【0002】
【従来の技術】計算機ネットワークの整備は急速に進ん
でおり、オンライン情報検索サービス、ネットニュース
からの情報収集、電子メールや電子掲示板を利用した質
疑応答といった、いわゆる情報のブロードキャッチが行
なえる環境が整いつつある。
【0003】これらの最新情報の有用性は認識されてい
るものの、次のような点が問題となり、有効に利用され
ていない。
【0004】(1)情報源によって利用法が異なり、複
数の情報源から情報収集する操作が煩雑である。
【0005】(2)検索式を論理式で入力しなければな
らない。所望の情報を得るための適切な検索式を記述す
るのは難しい。
【0006】(3)収集した情報の分類と整理に手間と
時間がかかる。
【0007】「21世紀の情報化社会」(日経バイト1
991年11月320ページ〜331ページ)に記載さ
れている広域情報サーバWAISは、(1)の問題点をプロ
トコルを共通化(NISO Z39.50を拡張)し、さらに情報
源への接続と検索を自動化することにより解決し、
(2)の問題点を関連性フィードバックにより解決し
た。関連性フィードバックは次のような検索条件の精練
手法である。ユーザが検索したい内容を記述すると、そ
れを検索条件としてWAIS はその内容に合う情報を検索
し提示する。ユーザがその中から欲しかった情報を選ぶ
と、WAISはユーザが選んだ情報を検索条件にフィードバ
ックし、検索条件を改善する。この関連性フィードバッ
クを用いた情報検索により、ユーザは検索式を記述する
ことなく所望の情報を検索できるようになった。
【0008】(3)の問題点を解決するために、様々な
文書の自動分類システムが考案されている。
【0009】たとえば、特開平1ー188934の文書
分類システムは、標本文書群を調べることにより、各分
野におけるキーワードの出現頻度情報を得て、入力され
た文書からキーワードを抽出して、分野毎に点数を計算
し、最高得点の分野へ分類する。
【0010】特開昭63−214832の通知文書処理
システムは、通知文書の書式を解析し、通信文中に出現
する単語の重みを分類カテゴリー別に付加し、その総和
を求め、最大となるカテゴリーを選ぶことにより分類す
る。
【0011】
【発明が解決しようとする課題】WAISは、上記(1)、
(2)の問題点は解決したが、収集した情報の分類、整
理に関しては配慮していない。
【0012】階層的に情報を分類整理することが望まれ
るが、従来の方法では、これに適していなかった。
【0013】また、(3)を解決する従来の自動分類シ
ステムにおいては、分類する分類体系をあらかじめ確立
しておく必要があった。さらに、各分野を特徴付けるキ
ーワード群やキーワード群の出現頻度などをあらかじめ
与えるか、または求めるかする必要があった。
【0014】しかし、あらかじめ適切な汎用的分類体系
を設けるのは困難である。分類体系が適切でないと、あ
る分類に多くの情報が集中することがある。ある分類の
情報量が多くなり過ぎると、ユーザは収集した情報の全
容を把握しにくくなる。
【0015】また、最先端の分野では多くの人に認めら
れる分類体系や専門用語が確定していないことが多く、
しかも頻繁に変更される。最先端の分野に関する文書を
従来の自動分類システムで適切に分類するのは難しい。
【0016】本発明の第1の目的は、階層的に情報を分
類整理するのに適した文書情報分類方法、それを使用し
た文書情報収集方法およびシステムを提供することにあ
る。
【0017】本発明の第2の目的は、収集した文書情報
の集まり具合から、分類体系と分類に用いる検索条件の
改良を自動的に行なう文書情報収集方法およびシステム
を提供することにある。
【0018】
【課題を解決するための手段】本発明による第1の文書
情報分類方法は、階層関係で相互に関連付けされた複数
のフォルダの各々に対応して、一つまたは複数の検索条
件からなる検索条件群を記憶し、各フォルダに対応して
記憶された検索条件群に基づいて、分類すべき情報と各
フォルダとの間の適合度を検出し、各フォルダと該情報
との間の検出された適合度と上記階層関係とに基づい
て、該情報が対応するフォルダとして、該複数のフォル
ダの一つまたは複数を決定し、該決定されたする一つの
フォルダまたは複数のフォルダの各々に対応して該情報
を記憶するステップを有する。
【0019】本発明による第2の文書情報分類方法は、
階層関係で相互に関連付けされた複数のフォルダの各々
に対応して、一つまたは複数の検索条件からなる検索条
件群を記憶し、各フォルダに対応して記憶された検索条
件群と予め定めて判断基準とに基づいて、分類すべき情
報を対応させるフォルダとして、該複数のフォルダの一
つまたは複数を決定し、決定されたフォルダに対応して
該情報を記憶し、複数の分類すべき情報の各々に対して
上記決定および記憶を行ない、各フォルダに対応して記
憶された複数の情報が、そのフォルダの再構成のために
定めた所定の条件を満たすか否かを判別し、いずれか一
つのフォルダが該所定の条件を満たしたとき、その一つ
のフォルダに対応して記憶された複数の情報とそのフォ
ルダに対応して記憶された一群の検索条件を再構成する
ステップを有する。
【0020】本発明による第3の文書情報分類方法は、
階層関係で相互に関連付けされた複数のフォルダの各々
に対応して、一つまたは複数の検索条件からなる検索条
件群を記憶し、各フォルダに対応して記憶された検索条
件群と予め定めて判断基準とに基づいて、分類すべき情
報を対応させるためのフォルダとして、該複数のフォル
ダの一つまたは複数を決定し、決定されたフォルダに対
応して該情報を記憶し、複数の分類すべき情報の各々に
対して上記決定および記憶を行ない、該複数のフォルダ
の内の一部の複数のフォルダに対応して記憶された複数
の情報が、該複数のフォルダの再構成のために定めた所
定の条件を満たすか否かを判別し、いずれかの一部の複
数のフォルダが該所定の条件を満たしたとき、該一部の
複数のフォルダに対応して記憶された複数の情報と、該
一部の複数のフォルダに対応して記憶された一群の検索
条件を再構成するステップを有する。
【0021】
【作用】本発明による第1の文書情報分類方法では、各
フォルダに対応して記憶された検索条件と検索対象文書
情報との適合度と、複数の検索条件の階層構造とを考慮
して、検索対象文書情報を対応させるフォルダを決定す
るので、ユーザが記述した検索条件群を階層構造をなす
分類体系であると見做して収集した文書情報を分類でき
る。
【0022】本発明による第2の文書情報分類方法で
は、各フォルダに対応して記憶された文書情報に依存し
て、各フォルダの分割など、フォルダの再構成をするこ
とが出来る。したがって、検索により得られた文書情報
の集まり具合に応じて、自動的に分類体系を変更でき
る。
【0023】本発明による第3の文書情報分類方法で
は、複数のフォルダにまたがるフォルダの再構成をする
ことが出来る。
【0024】
【実施例】以下本発明の1実施例について説明する。
【0025】本実施例の文書情報収集システムが対象と
するのは、オンライン文書情報検索サービス、電子メー
ル、電子掲示板などを介して電子的に得ることができ
る、それぞれユーザにとって意味のある内容を一群の文
字で表した情報である。以下このような情報を文書情報
とよぶ。
【0026】これらのサービスは、それぞれ様々な企業
や団体により運営されている。以後これらのサービスを
情報源と呼ぶ。各情報源が提供する文書情報は、一般
に、多岐に亘るので、複数の分野に分けてユーザに提示
される。これらの分野をドメインと呼ぶ。ドメインにお
いて提供される個々の情報を文書と呼ぶ。文書が検索条
件に適合したときに格納する検索結果格納領域をフォル
ダと呼ぶ。
【0027】図1に本実施例の文書収集システムと本実
施例の文書収集システムが文書収集する外部の情報源と
からなるシステム構成例を示す。本実施例の文書収集シ
ステムは文書収集クライアント500と文書収集サーバ
510とからなる。
【0028】文書収集クライアント500はネットワー
ク上に複数存在して同時に文書収集サーバ510にアク
セスすることができる。
【0029】文書収集クライアント500のメモリ52
2上の文書収集クライアントシステム501は、ユーザ
が、収集した文書を格納するフォルダを作成したり、ど
のような文書を収集するかを表す検索条件を各フォルダ
に登録したり、フォルダに収集された文書を見たりする
ためのグラフィカル・ユーザ・インタフェースを提供す
る。
【0030】文書収集サーバ510のメモリ523上の
文書収集サーバシステム100は、文書収集クライアン
トシステム501からの要求に応じて文書情報を提供す
る一方で、自動的に、ニュースサーバ520や文書サー
バ521などの外部の情報源から、ユーザが登録した検
索条件群に適合する文書を収集し、さらに分類、整理を
行う。
【0031】まず、文書収集クライアントシステム50
1について説明する。
【0032】ユーザが文書収集クライアントシステム5
01を起動すると図3に示すようなインタフェース画面
400をCRT502上に表示する。ユーザはこのインタ
フェース画面400上で、キーボード503、マウス5
04などの入力デバイスを用いて様々な操作を行い、収
集した文書を格納するフォルダを作成・消去したり、文
書を収集するための検索条件を記述したり、収集結果を
見たり、評価したりする。
【0033】文書収集クライアントシステム501が行
う処理の流れ図を図7に示す。文書収集クライアントシ
ステム501が起動されると、まず文書収集サーバシス
テムへの接続を行う(ステップ120)。次に図3に示
すインタフェース画面400を表示する(ステップ12
1)。
【0034】この後、イベントループ122に入り、ス
テップ123〜126を繰り返す。即ち、ユーザの操作
を受理・解析し(ステップ123)、操作に対応するコ
マンドを文書収集サーバシステム100に送信し(ステ
ップ124)、実行結果を文書収集サーバシステム10
0から受信し(ステップ125)、その実行結果をイン
タフェース画面400に反映させる(ステップ12
6)、という処理を繰り返す。
【0035】ユーザがメニューから終了を選ぶ操作を行
うと、終了コマンドを文書収集クライアントシステム5
01に送信して、イベントループ122を抜け、文書収
集サーバシステム100との接続切断処理を行い(ステ
ップ127)、終了する。
【0036】図3に示したインターフェース画面400
の具体例について説明する。この画面は、既にユーザに
よってフォルダ作成とそのフォルダに収集すべき文書の
検索条件登録が行われ、文書収集サーバシステム100
により、ユーザが登録した検索条件群に適合する文書を
収集・分類された時点の例である。
【0037】402は、内容を表示中のフォルダの名前
である。この例ではuser1 というフォルダの下位ディレ
クトリであるvoice というフォルダの内容を表示中であ
る。
【0038】403にはフォルダuser1/voiceにユーザ
が登録した検索条件を表示する。表示されたテキストを
直接編集することにより、検索条件の更新を行うことが
できる。本実施例では、各フォルダに対して記憶された
検索条件は、単語(以下ワードと呼ぶ)、あるいは句、
あるいは文章など、ユーザが自然語で記述し得るものを
列挙したものからなる。
【0039】404にはフォルダuser1/voiceの下位の
フォルダの一覧を表示する。各フォルダについて、フォ
ルダ名、フォルダに収集されている文書数、フォルダに
対応する検索条件の書き出しを表示している。この例で
は、user1/voice の下にそれぞれ、recognition とsynt
hesis の二つの下位フォルダがある。
【0040】この下位フォルダ一覧の項目をクリックす
るとクリックされた下位フォルダへ移動することができ
る。
【0041】405にはフォルダuser1/voiceにすでに
収集されている文書の一覧を表示する。
【0042】各文書について、タイトル、フォルダuser
1/voiceの検索条件への適合度、適合した検索条件中の
ワード、情報源名、ドメイン名などを表示している。
【0043】この文書一覧の項目をクリックすると、ク
リックされた文書の内容を見ることができる。文書の内
容は406に表示される。
【0044】フォルダの作成・消去はメニュー401の
Fileメニューを使って行う。また、Gotoメニューを使っ
ても、別のフォルダへ移動できる。
【0045】また、ユーザはメニュー401のEdit メ
ニューを使って収集された文書や文書が格納されている
フォルダに対して評価を与えることができる。つまり、
ユーザが、メニューを用いて、有用/無用な文書であ
る、有用/無用なフォルダである、という評価を与える
と、対応するコマンドが文書収集サーバシステム100
に送られる。文書収集サーバシステム100は、文書や
フォルダに対する評価を検索条件に反映させ、次回の文
書収集時からよりユーザの意図にあった文書を収集す
る。
【0046】サーバ510のメモリ上の文書収集サーバ
システム100は、クライアント500からの要求を処
理する一方で、ユーザが作成したフォルダ群と各フォル
ダに登録した検索条件に基づいて、文書の収集・分類・
整理を行う。
【0047】つまり、文書収集サーバシステム100
は、ニュースサーバ520や文書サーバ521などの外
部の情報源に定期的にアクセスし、前回にアクセスした
後で各情報源に蓄積された文書を取得し、ユーザが登録
された検索条件群に適合するものを検索する。この際、
検索条件中の各ワードの対象文書における出現数を対象
文書とその検索条件との適合度とする。適合した検索条
件が登録されているフォルダの中から、フォルダの階層
構造を考慮して対象文書を分類するフォルダを選び、そ
のフォルダへ格納する。さらに、多くの文書が蓄積され
たフォルダを自動分割するなどの文書の収集状況に応じ
た文書の整理を行う。
【0048】なお、文書収集の対象となる外部の情報源
は、サーバからアクセス可能な他のネットワーク上に在
っても良い。
【0049】文書の収集・分類・整理についてさらに詳
しく説明する前に、まず、ユーザが作成するフォルダと
検索条件について図4に示した例で説明する。
【0050】文書収集サーバシステム100にユーザ登
録を行うと、各ユーザに一つのフォルダが割り当てられ
る。ユーザは自分に割り当てられたフォルダの下に、自
由に、下位フォルダを階層的に作成して、各々のフォル
ダに対して、そのフォルダにはどのような文書を収集す
べきかという検索条件を登録する。
【0051】図4の例では2人のユーザ user1、 user2
が登録されており、それぞれフォルダ540、フォルダ
550が割り当てられている。user1 は、フォルダ54
0の下に階層的にフォルダ541ー544を作成し、各
フォルダに検索条件545ー548を登録してある。
【0052】一方、user2は下位フォルダを作成せず、
フォルダ550に、興味のある事柄を羅列しただけの検
索条件551を登録してある。
【0053】フォルダとフォルダに対応する検索条件
は、ユーザが作成、更新するほかに、文書収集サーバシ
ステム100によっても、文書の収集状況に応じて自動
的に作成されたり、更新されたりすることもある。詳し
くは後述する。
【0054】したがって、user2 のように、階層的なフ
ォルダを作成せずに、興味のある事柄を羅列しておくだ
けでも、収集された文書は自動的に分類・整理される。
【0055】図2の流れ図に従い、文書収集サーバシス
テム100について説明する。
【0056】文書収集サーバシステム100は、複数の
ユーザからの要求にいつでも対応し、同時に定期的に文
書の収集を行うために、常にユーザの接続要求がある
か、または、一定時間が経過したかを監視している(ス
テップ101)。ユーザが接続要求をした場合には、ク
ライアント要求処理110を開始する。一定時間が経過
した場合には、文書収集処理102を開始する。いずれ
の場合も、文書収集サーバシステム100本体の処理は
直ちにステップ101に戻り、ユーザの接続要求と一定
時間経過の監視を続ける。
【0057】図6にクライアント要求処理110の流れ
とコマンド実行時に用いるデータ構造との対応を示す。
【0058】クライアント要求処理110が開始される
とまず、クライアントからの要求処理を行うための準備
として、クライアントとの接続(ステップ111)、フ
ォルダテーブルのロード(ステップ112)を行う。
【0059】このあと、クライアントから終了コマンド
を受信するまで、クライアント500から送信されてく
るコマンドの解析(ステップ113)と実行(ステップ
114)を繰り返す。
【0060】終了コマンドを受信して、繰り返しを終了
すると、クライアントの切断を行って、クライアント要
求処理110を終了する。
【0061】各コマンドの実行時には、必要に応じて各
種のテーブルのロード、参照、更新、セーブを行う。
【0062】たとえば、ユーザがあるフォルダに格納さ
れている文書一覧の表示を要求する操作をすると、文書
収集クライアントシステム501は対応するコマンドと
対象のフォルダ名を送信する。クライアント要求処理1
10はこのコマンドとフォルダ名を受信すると、フォル
ダテーブルを参照して、そのフォルダに格納されている
文書群の情報(各文書のタイトル、適合度、適合した検
索条件中のワード、情報源名など)をクライアントへ送
信する。
【0063】図5に示した文書収集処理102(図2)
の流れと文書収集処理時に用いるデータ構造との対応に
従って、文書収集処理について説明する。
【0064】まず、内部DB511からメモリ上に文書
収集用のテーブル(文書番号テーブル300、フォルダ
テーブル310、ワード・フォルダテーブル330、ワ
ード・文書テーブル350)をロードする(ステップ1
03)。
【0065】文書番号テーブル300は、どのような情
報源が利用可能か、各情報源にはどのようなドメインが
あるか、それらのドメインにはそれぞれ何番から何番ま
での文書があり、既に何番までは取得済みであるかとい
う情報を表す。
【0066】フォルダテーブル310は、どのようなフ
ォルダがどのような階層構造を成しているか、各フォル
ダにはどのような文書が格納されているかを表す。
【0067】ワード・フォルダテーブル330は、各フ
ォルダに対応付けられている検索条件にはどのようなワ
ードが出現するかを表す。
【0068】ワード・文書テーブル350にはどの文書
にどのようなワードが出現するかを表している。各テー
ブルについて詳しくは後述する。
【0069】次に、各情報源の全ての新文書について、
ステップ105〜107を繰り返し実行する。
【0070】ステップ105の新文書取得処理は、各情
報源に接続し、文書番号テーブル300に登録されてい
る文書番号より新しい文書があるかどうか調べ、もしあ
ればその文書を取得する。
【0071】次に、ステップ106の適合度計算が、取
得した文書の各フォルダにおける適合度を計算する。ま
ず、取得した文書にどのようなワードが出現するかを表
わすフォルダ検索テーブル370を作成し、各フォルダ
における適合度を記憶するために適合フォルダテーブル
390を作成・初期化する。そして、フォルダ検索テー
ブル370とワード・フォルダテーブル330とを照合
して、適合度をフォルダごとに算出し、適合フォルダテ
ーブル390に登録する。適合度計算について詳しくは
後述する。
【0072】次にステップ107の文書格納処理が、適
合フォルダテーブル390に登録された各フォルダにお
ける適合度と、フォルダテーブル310が表わすフォル
ダ間の階層構造とから文書を格納するフォルダを決定
し、その文書をフォルダテーブル310とワード・文書
テーブル350に登録する。文書格納処理について詳し
くは後述する。
【0073】次に、ステップ108のフォルダ管理処理
が、ワード・文書テーブル350が表わす各文書におけ
るワードの出現頻度分布を用いてフォルダ内の文書を分
析し、フォルダの自動分割や統合を行ない、フォルダテ
ーブル310とワード・フォルダテーブル330とを更
新する。詳しくは後述する。
【0074】以上のステップ105〜107の繰り返し
中に更新された文書収集用テーブルを内部DB511へ
セーブする(ステップ109)。
【0075】ここまでで、一通りの文書収集処理102
を終了する。
【0076】以上述べた文書収集処理102で用いるデ
ータ構造や処理についてさらに詳しく説明する。
【0077】文書番号テーブル300のデータ構造を-
13に示す。文書番号テーブル300は、ハッシュテー
ブルで、各エントリは図12に示す文書番号リスト30
2を指している。情報源名とドメイン名を入力とするハ
ッシュ関数の値でエントリを決定する。
【0078】文書番号リスト302は、情報源名へのポ
インタ303、ドメイン名へのポインタ304、そのド
メインの最古文書の番号305、最新文書の番号30
6、文書収集システムが既に収集処理を施した文書の番
号307、同ハッシュ値の他の文書番号リストへのポイ
ンタ308の組である。
【0079】文書番号テーブルは、文書収集を始める際
にロードされ、文書を情報源から取得する度に更新され
る。
【0080】内部DBには、どのような情報源がある
か、どのようなドメインがあるか、どのドメインの文書
は何番まで収集処理済みかが記憶されている。まず、内
部DB511から、記憶されている情報源名、ドメイン
名、既取得文書番号を読み込んで文書番号リスト302
を作成し、情報源名とドメイン名を入力とするハッシュ
関数の値をエントリとして文書番号テーブル300に登
録する。次に、各情報源から各ドメインの最古文書番
号、最新文書番号を取得し、文書番号リストに書き込
む。このとき文書番号テーブル300に登録されていな
いドメインがあれば、これはその情報源において新規に
作成されたドメインであるので、既取得文書番号を0と
して文書番号リストを生成し、文書番号テーブル300
に登録する。
【0081】たとえば、図13の文書番号リスト302
ーaは、internet news という情報源の fj.ai という
ドメインには、123番から145番までの文書があ
り、そのうち130番までは収集処理済みであることを
示している。
【0082】フォルダテーブル310のデータ構造を図
15に示す。フォルダテーブル310はハッシュテーブ
ルで、各エントリは図14に示すフォルダリスト314
を指している。フォルダ名を入力とするハッシュ関数の
値でエントリを決定する。
【0083】フォルダリスト314は、フォルダの ID
番号315、フォルダ名へのポインタ316、上位フォ
ルダを表すフォルダリストへのポインタ317、下位フ
ォルダリスト321へのポインタ318、格納文書リス
ト324へのポインタ319、同ハッシュ値の他のフォ
ルダを表すフォルダリストへのポインタ320の組であ
る。
【0084】下位フォルダリスト321は、下位フォル
ダを表すフォルダリストへのポインタ322とフォルダ
リスト314で表されるフォルダの他の下位フォルダを
表す下位フォルダリストへのポインタ323の組であ
る。
【0085】格納文書リスト324は、格納された文書
の情報源名へのポインタ325、ドメイン名へのポイン
タ326、文書番号327、格納文書リスト324が表
す文書のフォルダリスト314が表すフォルダにおける
適合度328、このフォルダに格納された他の文書を表
す格納文書リストへのポインタ329の組である。
【0086】例えば、図15のフォルダリスト314ー
aは、フォルダ ID が1003の voice というフォル
ダの上位フォルダはフォルダリスト314ーbで表され
るフォルダuser1であること、フォルダリスト314ー
cで表されるフォルダsynthesisを下位フォルダに持つ
ことと、このフォルダには適合度13点のinternet new
s という情報源のfj.ai というドメインの120番の文
書等が格納されていることとを表している。
【0087】図17に示すワード・フォルダテーブル3
30は、ハッシュテーブルで、各エントリは図16に示
すワード・フォルダリスト333を指している。ワード
を入力とするハッシュ関数の値でエントリを定める。
【0088】ワード・フォルダリスト333は、ワード
へのポインタ334、フォルダ頻度リスト340へのポ
インタ335、同ハッシュ値の他のワード・フォルダリ
ストへのポインタ336の組である。フォルダ頻度リス
ト340は、このワードが出現する検索条件に対応する
フォルダのフォルダ ID 341、検索条件中のワードの
出現頻度342、他のフォルダ頻度リストへのポインタ
343の組である。
【0089】例えば、図17のフォルダリスト333ー
aとフォルダ頻度リスト340ーaは、言語というワー
ドが、フォルダ ID 1003のフォルダに対応する検索
条件中に1回出現することを表し、フォルダリスト33
3ーbとフォルダ頻度リスト340ーb、340ーc
は、音声認識というワードが、 ID 1003のフォルダ
と ID 1004のフォルダのそれぞれに対応する検索条
件中に1回づつ出現することを表す。
【0090】ワード・文書テーブル350のデータ構造
を図19に示す。ワード・文書テーブル350はハッシ
ュテーブルで、各エントリは図18に示すワード・文書
リスト354を指している。ワードを入力とするハッシ
ュ関数の値でエントリを決定する。
【0091】図18のワード・文書リスト354は、ワ
ードへのポインタ355、文書頻度リスト360へのポ
インタ356、同ハッシュ値の他のワード・文書リスト
へのポインタ357の組である。文書頻度リスト360
は、このワードが出現する文書の情報源名へのポインタ
361、ドメイン名へのポインタ362、文書番号36
3、出現頻度364、このワードが出現する他の文書頻
度リストへのポインタ365の組である。
【0092】例えば、図19のワード・文書リスト33
4ーaと文書頻度リスト360ーaは、言語 というワ
ードが、情報源internet newsのドメインfj.sci.langの
56番の文書に5回出現することを表し、ワード・文書
リスト334ーbと文書頻度リスト360ーb、360
ーcは、音声認識というワードが情報源internet news
のドメインfj.ai の120番の文書に2回出現し、ドメ
インfj.sci.langの56番の文書に2回出現することを
表している。
【0093】フォルダテーブル310、ワード・フォル
ダテーブル330、ワード・文書テーブル350の内容
は、内部DB511に記憶されている。これらのテーブ
ルは文書収集処理102が開始されたときやクライアン
ト要求処理110が開始された時やコマンド実行時に、
必要に応じてメモリ上へロードされ、それぞれの処理を
実行中に参照・更新され、終了するときに内部DB511
にセーブされる。ただし、各テーブルは排他的に更新さ
れる。フォルダの作成・削除によるフォルダテーブルの
更新、検索条件の更新によるワード・フォルダテーブル
の更新は、ただちにセーブされる。
【0094】例としてワード・フォルダテーブル350
のロードについて図8に流れ図を示す。ワード・フォル
ダテーブル350のロードは、フォルダテーブル310
をロードした後で行う。
【0095】まず、ワード・フォルダテーブル350を
初期化する(ステップ160)。
【0096】次に、フォルダテーブル310に登録され
ている全てのフォルダについて、フォルダのワード登録
(ステップ164〜166)を繰り返す(ステップ16
1)。
【0097】フォルダのワード登録は、まず、そのフォ
ルダに対応する検索条件を内部DB511からメモリ5
23上に読みこみ、(ステップ164)、ワードを抽出
する(ステップ165)。抽出した各ワードについて図
16のワード・フォルダリスト333を作成し、ワード
のハッシュ値を計算して図17のワード・フォルダテー
ブル330に登録する(ステップ166)。
【0098】全てのフォルダについてワード登録を行う
とこの繰り返しを終了し、ワード・フォルダテーブルロ
ード処理151を終了する。
【0099】適合度計算106が行なう検索処理につい
て図9に基づいて説明する。
【0100】この処理は、検索条件群に出現するワード
と文書に出現するワードの類似性を調べることにより、
取得した文書と各フォルダの適合度を調べる。
【0101】ここで本実施例で使用する、検索対象文書
といずれかのフォルダとの適合度について説明する。
【0102】検索対象文書といずれかのフォルダとの適
合度は、いくつかの方法が考えられるが、本実施例で
は、その文書内のワードのうち、そのフォルダに適合し
たワード(すなわち、そのフォルダに対応して記憶され
た検索条件に含まれるワードに一致した、文書内のワー
ド)のそれぞれとそのフォルダとの適合度を求め、それ
らのワードとそのフォルダとの適合度の総和を求め、こ
の総和をその文書とそのフォルダとの適応度とする。
【0103】ここで、そのフォルダに適応したワードと
そのフォルダとの適応度もいろいろの方法で求めること
が出来るが、本実施例では、より好適なものとして、そ
のワードのその文書内での重みとそのワードのそのフォ
ルダ内での重みとの積でもってそのワードとそのフォル
ダの適応度とする。
【0104】ここで、そのワードの文書内の重みは、い
ろいろの方法で検出可能であるが、本実施例では、より
好適なものとして、そのワードのその文書内での出現頻
度でもって、そのワードのその文書内での重みとする。
【0105】さらに、そのワードとそのフォルダとの適
応度もいろいろの方法で検出可能であるが、本実施例で
は、より好適なものとして、そのフォルダに対応して記
憶された検索条件内でのそのワードの出現回数を使用す
る。
【0106】従って、本実施例では、そのワードとその
フォルダとの適合度は、そのワードの文書内出現頻度と
そのワードのそのフォルダに対応する検索条件内での出
現頻度の積でもって表すことが出来、その検索対象文書
とそのフォルダとの適応度は、このようにして求めた各
ワードの適応度の総和で与えられる。
【0107】より具体的には、取得した文書に出現する
ワードを図21のフォルダ検索テーブル370に登録
し、全フォルダに対応する検索条件に出現するワードを
登録してあるワード・フォルダテーブル330と照合し
て、フォルダ毎に適合度を集計し、適合度順にフォルダ
をソートする。
【0108】まず、フォルダ検索テーブル370の初期
化(ステップ170)、図23の適合フォルダテーブル
390の初期化(ステップ171)を行なう。
【0109】次に取得文書からワードを抽出し(ステッ
プ172)、各ワードをフォルダ検索テーブル370に
登録する(ステップ173)。
【0110】フォルダ検索テーブル370はハッシュテ
ーブルで、各エントリは、図20に示すフォルダ検索リ
スト372を指す。ワードを引数とするハッシュ関数の
値でエントリを決定する。フォルダ検索リスト372は
文書中のワードへのポインタ373、適合フォルダリス
ト380へのポインタ374、文書中の出現頻度37
5、同ハッシュ値の他のフォルダ検索リストへのポイン
タ376の組である。適合フォルダリスト380は、ワ
ードが出現する検索条件に対応するフォルダのフォルダ
ID 381、そのフォルダにおける適合度382、他の
適合フォルダリストへのポインタ383の組である。
【0111】たとえば、図21のフォルダ検索テーブル
330のフォルダ検索リスト372ーaは、言語という
ワードが検索対象の文書中に2回出現することを表して
いる。まだ検索を実行していないので、適合フォルダリ
ストへのポインタ374ーaは NULL である。同様
に、フォルダ検索リスト372ーb、372ーcはそれ
ぞれ対象文書中に無音時間というワードが3回出現する
こと、音声認識というワードが5回出現することを表し
ている。
【0112】次に、フォルダ検索テーブル370とワー
ド・フォルダテーブル330を照合し、適合するフォル
ダがあれば、適合フォルダリストを作成し、フォルダ検
索テーブルに登録する(ステップ174)。
【0113】すなわち、フォルダ検索テーブル370に
登録されているワードが、ワード・フォルダテーブル3
30にも登録されていれば、フォルダ検索リスト372
の頻度375とワード・フォルダリスト333に登録さ
れている各フォルダ頻度リスト340の頻度342を掛
け合わせた値をそのワードの各フォルダにおける適合度
として、それぞれに対応する適合フォルダリスト380
を作成し、フォルダ検索リスト372に登録する。
【0114】例えば、フォルダ検索テーブル370に登
録されている言語というワードはワード・フォルダテー
ブル330のフォルダ頻度リスト340ーaが示すよう
に、フォルダ ID 1003に対応する検索条件に1回出
現している。したがって、言語 というワードの ID 1
003のフォルダにおける適合度は2点で、検索実行前
にはNULLであった適合フォルダリストへのポインタ
は、図22に示した検索実行後のフォルダ検索テーブル
370のように適合フォルダリスト380ーaを指す。
【0115】同様に音声認識というワードは、ワード・
フォルダテーブル330のフォルダ頻度リスト340ー
bが示すように、ID1003のフォルダとID1004の
フォルダに対応する検索条件にそれぞれ1回出現してい
る。したがって、音声認識というワードの ID 1003
のフォルダと ID 1004のフォルダにおける適合度は
それぞれ5点である。したがって、検索実行後は、図2
2のフォルダ検索テーブル370に適合フォルダリスト
380ーbと380ーcが登録される。しかし、無音時
間というワードは、ワード・フォルダテーブルに登録さ
れていない。すなわち適合するフォルダが存在しないと
いうことで、検索実行後も適合フォルダリストへのポイ
ンタはNULLである。
【0116】最後にフォルダ毎に、各ワードのフォルダ
における適合度を集計し、適合度が0でないフォルダを
適合度の高い順に図23の適合フォルダテーブル380
に登録する(ステップ175)。適合フォルダテーブル
の各エントリは、適合フォルダリスト381を指す。適
合フォルダリストは、図20の適合フォルダリストと同
じデータ構造であるが、各ワードのフォルダにおける適
合度の合計を適合度とし、他の適合フォルダリストへの
ポインタ383は使用しない。
【0117】以上の適合度計算によって作成された適合
フォルダテーブル390とフォルダの階層構造が登録さ
れているフォルダテーブル310を用いて、文書格納処
理109が、文書を格納すべきフォルダを選んで格納す
る。文書格納処理109の流れを図10に示す。
【0118】この文書格納処理は、大きく分けて2段階
(ステップ180、181)からなる。
【0119】まず、ステップ180では、適合フォルダ
テーブル390に登録された各フォルダにおける適合度
とフォルダテーブル310に登録されたフォルダの階層
構造から、対象文書をどのフォルダに格納すべきかを決
定し、対象文書を格納した文書としてフォルダテーブル
310に登録する。
【0120】図24に格納フォルダの決定方法の説明図
を示す。本実施例ではフォルダの階層構造の各枝で適合
したフォルダの中で最も下位のフォルダに格納する。 A
からH までのフォルダがあり、それぞれ図に示す適合
度であった場合には、A―B―D―G という枝の適合した
フォルダの中で最も下位のD、同様に枝A―B―E 中のE、
枝 A―C―F―H 中のH に格納する。この方法は、下位の
フォルダは上位のフォルダの検索条件を継承していると
考え、検索条件をより詳しく記述しているフォルダに格
納するものである。
【0121】次に、ステップ181では、対象文書に出
現するワードをワード・文書テーブル350に登録す
る。
【0122】すなわち、文書に出現する全ワードについ
て図18のワード・文書リストを作成し、ワード・文書
テーブル350に登録する。
【0123】この処理により、ワード・文書テーブル3
50には格納された全文書について、各文書にどのよう
なワードが出現するかが記録される。このワード・文書
テーブル350は、次に述べるフォルダ管理処理でフォ
ルダ内の文書を分析するのに用いる。
【0124】フォルダ管理処理108について説明す
る。
【0125】階層構造を成すフォルダに対応する検索条
件を分類体系とみなして文書の収集、分類を続けると、
文書が特定のフォルダに集中して、フォルダ内の文書数
がユーザが把握しきれないほど増えることがある。ま
た、文書が複数のフォルダに重複して格納されることが
多くなり、無駄が生じることもある。
【0126】これらの現象は、ユーザが適切に分類体系
を構成していなかった場合や世間の情勢や研究動向が変
化し、分類体系が合わなくなった場合に起きる。
【0127】フォルダ管理処理108は、各フォルダへ
の文書の集まり具合を分析することによって、これらの
現象を検知し、フォルダの階層構造やフォルダに対応す
る検索条件を改良する。これにより、フォルダ内の文書
数をユーザが把握できる程度の数に抑さえたり、文書が
複数のフォルダに不必要に重複して格納されないように
したりし、フォルダの階層構造を実情にあった体系に維
持する。
【0128】フォルダ管理処理の流れを図11に示す。
【0129】各フォルダに対してステップ201〜ステ
ップ205を繰り返し行なう(ステップ200)。
【0130】まず、フォルダに格納された文書数を監視
する(ステップ201)。フォルダにあらかじめ与えた
数以上の文書が格納されていれば、そのフォルダ内の文
書を統計的手法を用いて分析する(ステップ202)。
異なった性質のものが混ざり合っている対象の中で、類
似している個体を集めてグループに分類する手法はクラ
スタ分析として知られており、たとえば、「多変量解析
ハンドブック」(現代数学社1986年)に記載されて
いる。ステップ202はクラスタ分析の手法を用いて、
フォルダ内の文書に出現するワードの頻度に基づき文書
を再分類する。再分類した文書の集合をクラスタと呼
ぶ。
【0131】次にクラスタ間の関係を分析し、クラスタ
の階層構造を決定する(ステップ203)。ここで行な
うクラスタ間の関係解析については後述する。クラスタ
に対応してフォルダと検索条件を生成し、クラスタの階
層構造に対応して階層的にフォルダを作成する(ステッ
プ204)。次にワード・文書テーブル350から、生
成した各フォルダ内の文書に共通して高頻度に出現する
ワードを抽出し、フォルダに対応する検索条件に加える
(ステップ205)。これにより、検索条件を精練する
ことができる。
【0132】ここまでの処理を各フォルダに施したら、
各フォルダに格納された文書群を分析し、フォルダの再
構成、すなわち、フォルダの統合、階層構造の変更を行
なう(ステップ206)。ここで行なう分析については
後述する。
【0133】図26ー31を使ってステップ206で行
なうクラスタ間関係の分析方法を説明する。
【0134】図25のように、ワード群w1とワード群
w2からなる検索条件があり、この検索条件に対応する
フォルダ450に文書群dが格納されているとする。こ
のとき、このフォルダ内の文書について、ワード・文書
テーブルから得られるデータを統計的に分析してえられ
る、ワードと文書の関係のパタンを図26の451、図
26の455、図28の458に示す。
【0135】図26は、文書群dがワード群w1が出現
する文書群d1とワード群w2が出現する文書群d2の
二つの独立したクラスタに分類される場合である。この
場合、ワード群w1からなる検索条件とワード群w2か
らなる検索条件を生成し、それぞれに対応するフォルダ
453、454と両者の上位のフォルダ452を設け、
図26に示す階層構造にする。
【0136】図27は、ワード群1のみが出現する文書
群d1とワード群w1とワード群w2出現する文書群d
2の二つのクラスタに分類される場合である。ワード群
w2が出現する文書群にはワード群w1も出現してい
る。そこで、ワード群w1からなる検索条件とワード群
w2からなる検索条件を生成し、それぞれに対応するフ
ォルダ456と457を設け、図27に示す階層構造に
する。
【0137】図28は、ワード群w1のみが出現する文
書群d1とワード群w2のみが出現する文書群d3とワ
ード群w1とワード群w2の両方が出現する文書群d2
の3つのクラスタに分類される場合である。この場合、
ワード群w1のみからなる検索条件とワード群w2のみ
からなる検索条件とワード群w1かつワード群w2なる
検索条件を生成し、それぞれに対応するフォルダ45
6、457、458とこれらの上位のフォルダ455を
設け、図28のような階層構造にする。
【0138】同じ図25ー30を使ってステップ205
で行なうフォルダ間関係の分析方法を説明する。
【0139】図27のような階層構造のフォルダがある
ときに、フォルダ453とフォルダ454に重複して格
納される文書が増えたとすると、ワードと文書の関係の
パタンが451のパタンから457かまたは458のパ
タンに変化したと考えられる。文書が重複して格納され
ていることは、フォルダテーブル310から検知でき
る。そこで、フォルダ453、454に格納されている
文書について、ワード・文書テーブル350から得られ
る各文書におけるワードの出現頻度に基づきクラスタ間
関係分析と同様の統計的分析を行ってワードと文書の分
布のパタンを調べ、パタンに応じてフォルダと検索条件
を再構成する。
【0140】また、図27のような階層構造があるとき
に、フォルダ457に格納される文書の中でフォルダ4
56に適合しない文書の割合があらかじめ与えられた割
合を越えるようになった場合、検索条件の上下関係が変
化したことを意味する。このことは、フォルダテーブル
310に登録されているフォルダ457に格納された文
書のフォルダ456への適合度を調べることにより検知
できる。フォルダ456とフォルダ457とに格納され
ている文書に対しクラスタ分析を行ない、フォルダを再
構成する。
【0141】
【発明の効果】本発明によれば以下の効果が得られる。
【0142】(1)ユーザが記述した検索条件群に適合
する情報を複数の情報源から収集し、検索条件群の階層
構造を分類体系と見做して収集した情報を分類できる。
【0143】(2)各検索条件に対応した検索結果格納
領域への情報の集まり具合に応じて、分類体系を変更す
ることができる。
【0144】その結果、ある検索結果格納領域に格納さ
れる情報量をユーザがその全体を把握できる程度の数に
抑さえることができる。あるいは情勢の変化に応じ、適
切な分類体系を維持できる。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成図である。
【図2】本実施例の文書収集サーバシステムの流れ図で
ある。
【図3】本実施例のインタフェース画面の例である。
【図4】本実施例のフォルダとフォルダに対応する検索
条件の例である。
【図5】本実施例の文書収集処理の流れ図である。
【図6】本実施例のクライアント要求処理の流れ図であ
る。
【図7】本実施例の文書収集クライアントシステムの流
れ図である。
【図8】本実施例のワード・フォルダテーブルロード処
理の流れ図である。
【図9】本実施例の適合度計算の流れ図である。
【図10】本実施例の文書格納処理の流れ図である。
【図11】本実施例のフォルダ管理処理の流れ図であ
る。
【図12】本実施例の文書番号リストのデータ構造であ
る。
【図13】本実施例の文書番号テーブルのデータ構造で
ある。
【図14】本実施例のフォルダリストと下位フォルダリ
ストと格納文書リストのデータ構造である。
【図15】本実施例のフォルダテーブルのデータ構造で
ある。
【図16】本実施例のワード・フォルダリストとフォル
ダ頻度リストのデータ構造である。
【図17】本実施例のワード・フォルダテーブルのデー
タ構造である。
【図18】本実施例のワード・文書リストと文書頻度リ
ストのデータ構造である。
【図19】本実施例のワード・文書テーブルのデータ構
造である。
【図20】本実施例のフォルダ検索リストと適合フォル
ダリストのデータ構造である。
【図21】本実施例のフォルダ検索テーブルのデータ構
造である。
【図22】本実施例の検索処理後のフォルダ検索テーブ
ルの例である。
【図23】本実施例の適合フォルダテーブルのデータ構
造である。
【図24】本実施例の文書を格納するフォルダの決定方
法の説明図である。
【図25】本実施例のフォルダ内文書分析を行なうフォ
ルダの説明図である。
【図26】本実施例のフォルダ内文書分析結果のワード
と文書の第1の分布パタンそれに従って生成されるフォ
ルダの説明図である。
【図27】本実施例のフォルダ内文書分析結果のワード
と文書の第2の分布パタンそれに従って生成されるフォ
ルダの説明図である。
【図28】本実施例のフォルダ内文書分析結果のワード
と文書の第3の分布パタンそれに従って生成されるフォ
ルダの説明図である。
【符号の説明】
100…文書収集サーバシステム、102…文書収集処
理、106…適合度計算、107…文書格納処理、10
8…フォルダ管理処理、110…クライアント要求処
理。

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】計算機により情報を自動的に分類するため
    の方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
    にそれぞれ対応し、それぞれ検索すべき一つまたは複数
    の単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と分類すべき
    文書情報との間の適合度を検出し、 各フォルダと該情報との間の検出された適合度と上記階
    層関係とに基づいて、該複数のフォルダの内、該文書情
    報を登録すべき一つまたは複数のフォルダを決定し、 該決定されたする一つまたは複数のフォルダに対応して
    該文書情報を記憶する情報分類方法。
  2. 【請求項2】該検出は、 該文書情報と、各フォルダに対応して記憶された検索条
    件が指定する単語の各々との間の適合度を検出し、 各フォルダに対応して記憶された検索条件が指定する単
    語のそれぞれと該文書情報との間に関して検出された適
    合度の総和を、そのフォルダと該文書情報との間の適合
    度として決定するステップを含む請求項1記載の文書情
    報分類方法。
  3. 【請求項3】該文書情報と各フォルダに対応して記憶さ
    れた検索条件に含まれる一つまたは複数の単語の各々と
    の間の適合度を決定するステップは、その文書情報内で
    のその単語の重みと、その検索条件内でのその単語の重
    みとの積をその単語とその文書情報との適合度として決
    定するステップを有する請求項2記載の文書情報分類方
    法。
  4. 【請求項4】各フォルダに対応して記憶された検索条件
    に含まれる一つまたは複数の単語の各々のその文書情報
    内での重みは、その文書情報内でのその単語の出現回数
    に比例する値である請求項3記載の文書情報分類方法。
  5. 【請求項5】各フォルダに対応して記憶された検索条件
    に含まれる一つまたは複数の単語の各々のその検索条件
    内の重みは、その検索条件内の複数の単語内でのその単
    語の出現回数に比例する値である請求項3または4記載
    の文書情報分類方法。
  6. 【請求項6】該決定は、 該文書情報と各フォルダとの間に対して検出された適合
    度により、該文書情報に適合する一つまたは複数のフォ
    ルダを検出し、 該検出により複数のフォルダが検出されたときには、そ
    れらの検出された複数のフォルダ内の該文書情報を対応
    させる一つまたは複数のフォルダを、該検出された複数
    のフォルダの間の、上記階層関係内での相対的位置関係
    に依存して選択する請求項1記載の文書情報分類方法。
  7. 【請求項7】該選択は、該文書情報に適合すると検出さ
    れた該複数のフォルダの中に、相対的に上下関係にある
    一群のフォルダが含まれているときには、該一群のフォ
    ルダを代表する一つのフォルダを該文書情報を対応させ
    るフォルダとして選択するステップを有する請求項6記
    載の文書情報分類方法。
  8. 【請求項8】該選択は、該検出された複数のフォルダの
    中に、該一群のフォルダと相対的に上下関係にはない他
    の一群のフォルダが含まれているときには、該他の一群
    のフォルダを代表する一つのフォルダを該文書情報を対
    応させる他のフォルダとして検出するステップをさらに
    有する請求項7記載の文書情報分類方法。
  9. 【請求項9】該一群のフォルダを代表する一つのフォル
    ダは、該一群のフォルダの内の最下層に位置するフォル
    ダである請求項7記載の文書情報分類方法。
  10. 【請求項10】計算機により文書情報を自動的に分類す
    るための方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
    にそれぞれ対応し、それぞれ一つまたは複数の検索すべ
    き単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と予め定めて
    判断基準とに基づいて、分類すべき文書情報を対応させ
    るフォルダとして、該複数のフォルダの一つまたは複数
    を決定し、 決定されたフォルダに対応して該文書情報を記憶し、 複数の分類すべき文書情報の各々に対して上記決定およ
    び記憶を行ない、 各フォルダに対応して記憶された複数の文書情報が、そ
    のフォルダの再構成のために定めた所定の条件を満たす
    か否かを判別し、 いずれか一つのフォルダが該所定の条件を満たしたと
    き、その一つのフォルダに対応して記憶された複数の文
    書情報とそのフォルダに対応して記憶された検索条件を
    再構成するステップを有する文書情報分類方法。
  11. 【請求項11】該所定の条件は、該一つのフォルダの登
    録された文書情報の総数が所定値を越えているというこ
    とである請求項10記載の文書情報分類方法。
  12. 【請求項12】該再構成するステップは、 そのフォルダに対応して記憶された検索条件を、その検
    索条件が指定する複数の単語の一部をそれぞれ指定する
    複数の新たな検索条件に分割し、 該一つのフォルダに登録された複数の文書情報を複数の
    文書情報群に分割し、 該一つのフォルダを新たな複数のフォルダで置換し、 該複数の新たなフォルダの各々に対応して、該新たな複
    数の検索条件の一つで指定される一つまたは複数の単語
    と、該複数の文書情報の分割で得られた一部の文書情報
    を記憶するステップを有する請求項10記載の文書情報
    分類方法。
  13. 【請求項13】該複数の文書情報を分割するステップ
    は、 該一つのフォルダに対応して記憶された検索情報を分割
    して得られた複数の新たな検索条件に適合する文書情報
    からなる複数の文書情報部分群に分割するステップから
    なる請求項12記載の文書情報分類方法。
  14. 【請求項14】該再構成するステップは、 該一つのフォルダに登録された複数の文書情報の一部と
    そのフォルダに対応して記憶された検索条件が指定する
    複数の単語の一部とを選択し、 該一のフォルダの下位の階層に、少なくとも一つの新た
    なフォルダを配置し、 該新たなフォルダに対応して、該選択された一部の単語
    と該選択された一部の文書情報を記憶するステップを有
    する請求項10記載の文書情報分類方法。
  15. 【請求項15】該複数の文書情報の一部と該一部の単語
    を選択するステップは、 該一つのフォルダに対応して該複数の文書情報を、該一
    つのフォルダに対応して記憶された単語群の一部で検索
    可能であるが、該単語群のうちの他の一部の単語では検
    索不可能な一部の文書情報と、該一部の単語および該他
    の一部の単語のいずれでも検索可能な他の文書情報とに
    分離し、 該分離で得られた一部の文書情報およびその分離に使用
    した該一部の単語を選択するステップを有する請求項1
    4記載の文書情報分類方法。
  16. 【請求項16】該再構成するステップは、 新たなフォルダを生成し、 該一つのフォルダと他の一のフォルダに重複して登録さ
    れた複数の文書情報を該新なフォルダに対応して登録
    し、該一のフォルダと該他の一のフォルダに対する、該
    重複する複数の文書の登録を削除し、 該一つのフォルダに対応して記憶された単語群と該他の
    一つのフォルダに対応して記憶された他の単語群の内、
    該重複する複数の文書を検索するための単語群を、該新
    たなフォルダに対応して記憶するステップを有する請求
    項10記載の文書情報分類方法。
  17. 【請求項17】該新たなフォルダは、該一つのフォルダ
    と該他の一のフォルダと同じ階層に配置される請求項1
    6記載の文書情報分類方法。
  18. 【請求項18】該文書情報を対応させるための一つまた
    は複数のフォルダの決定は、 各フォルダに対応して記憶された検索条件が指定する単
    語群に基づいて、該分類すべき文書情報と各フォルダと
    の間の適合度を検出し、 各フォルダと該文書情報との間の検出された適合度と上
    記階層関係とに基づいて、該文書情報を登録するための
    フォルダとして、該複数のフォルダの一つまたは複数を
    決定するステップを有する請求項10記載の文書情報分
    類方法。
  19. 【請求項19】計算機により文書情報を自動的に分類す
    るための方法であって、 階層関係で相互に関連付けされた複数のフォルダの一つ
    にそれぞれ対応し、それぞれ一つまたは複数の検索すべ
    き単語を指定する複数の検索条件を記憶し、 各フォルダに対応して記憶された検索条件と予め定めて
    判断基準とに基づいて、分類すべき文書情報を対応させ
    るフォルダとして、該複数のフォルダの一つまたは複数
    を決定し、 決定されたフォルダに対応して該文書情報を記憶し、 複数の分類すべき文書情報の各々に対して上記決定およ
    び記憶を行ない、 該複数のフォルダの内の一部の複数のフォルダに対応し
    て記憶された複数の文書情報が、該複数のフォルダの再
    構成のために定めた所定の条件を満たすか否かを判別
    し、 いずれかの一部の複数のフォルダが該所定の条件を満た
    したとき、該一部の複数のフォルダに対応して記憶され
    た複数の文書情報と、該一部の複数のフォルダに対応し
    て記憶された複数の検索条件を再構成するステップを有
    する文書情報分類方法。
  20. 【請求項20】該所定の条件は、該一部の複数のフォル
    ダが、上位側のフォルダとそのフォルダの下位側のフォ
    ルダに関する条件を含み、 該再構成は、 該下位側のフォルダに対応して登録された文書情報群と
    該上位側のフォルダに対応して登録された文書情報群と
    を、該上位側のフォルダと該下位側のフォルダに対して
    配分し直し、 この配分し直しの後に、該下位側のフォルダに対応して
    登録された新たな文書情報群と該上位側のフォルダに登
    録された新たな文書情報群とに基づいて、該下位側のフ
    ォルダに対応して登録された文書情報群と該上位側のフ
    ォルダに対応して登録された文書情報群とを該上位側の
    フォルダと該下位側のフォルダに対して配分し直すステ
    ップを有する請求項19記載の文書情報分類方法。
  21. 【請求項21】該所定の条件は、該下位側のフォルダに
    対応して登録された文書情報の数と該上位側のフォルダ
    に対応して登録された文書情報の数の相対的大きさに関
    する条件である請求項19記載の文書情報分類方法。
  22. 【請求項22】該条件は、該下位側のフォルダに対応し
    て登録された文書情報の数が、該上位側のフォルダに対
    応して登録された文書情報の数より少ないことである請
    求項21記載の文書情報分類方法。
  23. 【請求項23】該文書情報を対応させるための一つまた
    は複数のフォルダの決定は、 各フォルダに対応して記憶された検索条件とに基づい
    て、分類すべき文書情報と各フォルダとの間の適合度を
    検出し、 各フォルダと該文書情報との間の検出された適合度と上
    記階層関係とに基づいて、該文書情報を対応させるフォ
    ルダとして、該複数のフォルダの一つまたは複数を決定
    するステップを有する請求項19記載の文書情報分類方
    法。
  24. 【請求項24】データベースを保持す記憶装置と、該計
    算機からユーザが指定した文書情報を選択的に検索する
    計算機とを有すす計算機システムにおいて、 階層関係で相互に関連付けされた、ユーザが指定した複
    数のフォルダの一つにそれぞれ対応し、それぞれ一つま
    たは複数の検索すべき単語を指定する複数の検索条件を
    記憶し、 そのデータベースに新規に登録される文書情報があるか
    否かを監視し、 新規に登録された文書情報があるときには、その文書情
    報と各検索条件との適合度を判別し、 各検索条件と該文書情報との適合度と該階層関係とに基
    づいて、該文書情報を対応させる一つまたは複数のフォ
    ルダを決定する文書情報収集方法。
  25. 【請求項25】該複数のフォルダの各々が、そのフォル
    ダに対応して記憶された複数の文書情報に関連するフォ
    ルダの再構成に関する条件を満たすか否かを判別し、 いずれか一つのフォルダが該再構成の条件を満たすと
    き、新たなフォルダを生成し、 その一つのフォルダに対応して記憶された複数の文書情
    報の少なくとも一部を検索するための新たな検索条件を
    生成し、 該新たな検索条件と該一部の文書情報を該新たなフォル
    ダに対応して記憶するステップをさらに有する請求項2
    4記載の文書情報収集方法。
  26. 【請求項26】いずれかのフォルダが、そのフォルダに
    対応して記憶された複数の文書情報を複数の新たなフォ
    ルダに分割するための分割条件を満たすか否かを判別
    し、 いずれか一つのフォルダが該分割条件を満たすとき、複
    数の新たなフォルダを生成し、 その一つのフォルダに対応して記憶された複数の文書情
    報および検索条件とから、該複数の文書情報を複数群に
    分割するための複数の検索条件を決定し、 該分割により得られた複数群の文書情報の内の一つの群
    の文書情報と、該分割により得られた複数群の検索文書
    情報の内の一つの群の文書情報とを、該新たな複数のフ
    ォルダの一つに対応して記憶するステップをさらに有す
    る請求項24記載の文書情報収集方法。
  27. 【請求項27】ある一組みの複数のフォルダが、それら
    に重複して対応して記憶された複数の文書情報を分離し
    て記憶するための条件を満たすか否かを判別し、 その一組みのフォルダが、該分離条件を満たすとき、新
    たなフォルダを生成し、 それらのフォルダに重複して記憶された複数の文書情報
    を検索するための検索条件を、該一組みのフォルダのい
    ずれかにそれぞれ対応して記憶された検索条件に基づい
    て生成し、 該新たなフォルダに対応して、該生成された検索条件を
    記憶し、 該重複する複数の文書情報を、該新たなフォルダに対応
    するように記憶し直すステップをさらに有する請求項2
    4記載の文書情報収集方法。
  28. 【請求項28】ユーザに提供すべき文書情報を含むデー
    タベースを記憶する手段を有する第1の計算機と、 該第1の計算機と交信して、該データベース内の文書情
    報を検索するための第2の計算機と、 該第2の計算機に接続された、ユーザが操作可能な端末
    とを有し、 該端末は、相互に階層関係で関係づけられた、ユーザが
    指定した複数のフォルダの名称と、それぞれのフォルダ
    に対応してユーザが指定した複数の単語を含む複数の検
    索条件とを該第2の計算機に送付する手段を有し、 該第2の計算機は、 該送付された複数のフォルダの名称と検索条件を記憶す
    る手段と、 そのデータベースに新規に登録される文書情報があるか
    否かを該第1の計算機と交信して検出する手段と、 新規に登録された文書情報があるときには、その文書情
    報と該複数の検索条件との適合度を判別し、各検索条件
    と該文書情報との適合度と該階層関係とに基づいて、該
    文書情報を対応させる一つまたは複数のフォルダを決定
    し、決定されたフォルダの各々に対応して該文書情報と
    その名称を記憶する手段と、 該端末からの要求に応答して、該複数のフォルダの名称
    とそれぞれのフォルダに対応して記憶された複数の文書
    情報の名称とを該端末に送付する手段とを有し、 該端末は、該送付された複数のフォルダの名称を有する
    複数のフォルダを、該階層関係が識別可能な態様で表示
    し、該送付された複数の文書情報の名称を、それぞれの
    文書情報が対応するフォルダに対応して表示する手段を
    さらに有する文書情報収集システム。
JP5195839A 1993-08-06 1993-08-06 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム Pending JPH0749875A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5195839A JPH0749875A (ja) 1993-08-06 1993-08-06 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5195839A JPH0749875A (ja) 1993-08-06 1993-08-06 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム

Publications (1)

Publication Number Publication Date
JPH0749875A true JPH0749875A (ja) 1995-02-21

Family

ID=16347868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5195839A Pending JPH0749875A (ja) 1993-08-06 1993-08-06 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム

Country Status (1)

Country Link
JP (1) JPH0749875A (ja)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JPH09198295A (ja) * 1996-01-16 1997-07-31 Nec Corp ハイパーメディアシステム
JPH10222534A (ja) * 1997-02-12 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> 情報検索装置
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JPH10232815A (ja) * 1996-04-30 1998-09-02 Ee I Soft Kk 通信端末装置、データ更新監視サーバ及びそれを備えた情報配信システム、並びに情報取得方法、要求転送方法及びデータ更新監視方法、並びに記録媒体
JPH1166080A (ja) * 1997-08-11 1999-03-09 Mitsubishi Electric Corp 情報検索システム
JPH11175558A (ja) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd 情報検索装置、情報検索方法および記録媒体
JP2000259637A (ja) * 1999-03-09 2000-09-22 Sharp Corp 情報検索装置及び情報検索方法並びに情報検索処理プログラムを記録した記録媒体
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP2007226663A (ja) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd コンテンツ表示装置および方法
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
JP2008070958A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
JP2008070959A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
JP2008299382A (ja) * 2007-05-29 2008-12-11 Fujitsu Ltd データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2009294939A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 文書分類装置
JP2010501927A (ja) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション コンテンツ検索システムを搭載した情報端末機
US7921290B2 (en) 2001-04-18 2011-04-05 Ipass Inc. Method and system for securely authenticating network access credentials for users
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents
JP2014010758A (ja) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd ファイル管理装置、ファイル管理方法、及びプログラム
US9087129B2 (en) 1999-09-20 2015-07-21 Energico Acquisitions L.L.C. Methods, systems, and software for automated growth of intelligent on-line communities

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101990A (ja) * 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
JPH09198295A (ja) * 1996-01-16 1997-07-31 Nec Corp ハイパーメディアシステム
JPH10232815A (ja) * 1996-04-30 1998-09-02 Ee I Soft Kk 通信端末装置、データ更新監視サーバ及びそれを備えた情報配信システム、並びに情報取得方法、要求転送方法及びデータ更新監視方法、並びに記録媒体
JPH10222534A (ja) * 1997-02-12 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> 情報検索装置
US5983246A (en) * 1997-02-14 1999-11-09 Nec Corporation Distributed document classifying system and machine readable storage medium recording a program for document classifying
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JPH1166080A (ja) * 1997-08-11 1999-03-09 Mitsubishi Electric Corp 情報検索システム
JPH11175558A (ja) * 1997-12-17 1999-07-02 Fuji Xerox Co Ltd 情報検索装置、情報検索方法および記録媒体
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
JP2000259637A (ja) * 1999-03-09 2000-09-22 Sharp Corp 情報検索装置及び情報検索方法並びに情報検索処理プログラムを記録した記録媒体
US9087129B2 (en) 1999-09-20 2015-07-21 Energico Acquisitions L.L.C. Methods, systems, and software for automated growth of intelligent on-line communities
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents
US6549752B2 (en) 2001-01-29 2003-04-15 Fujitsu Limited Apparatus and method accumulating cases to be learned
US7921290B2 (en) 2001-04-18 2011-04-05 Ipass Inc. Method and system for securely authenticating network access credentials for users
JP2007226663A (ja) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd コンテンツ表示装置および方法
JP2007272892A (ja) * 2006-03-29 2007-10-18 Xerox Corp リアルタイムアップデートを行う階層的クラスタリング
JP2010501927A (ja) * 2006-08-23 2010-01-21 ハイエル リーダース トゥモロウ コーポレイション コンテンツ検索システムを搭載した情報端末機
JP2008070959A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
JP2008070958A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
JP2008204374A (ja) * 2007-02-22 2008-09-04 Fuji Xerox Co Ltd クラスタ生成装置およびクラスタ生成プログラム
JP2008299382A (ja) * 2007-05-29 2008-12-11 Fujitsu Ltd データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
JP2009294939A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 文書分類装置
JP2014010758A (ja) * 2012-07-02 2014-01-20 Hitachi Solutions Ltd ファイル管理装置、ファイル管理方法、及びプログラム

Similar Documents

Publication Publication Date Title
JPH0749875A (ja) 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
US6912550B2 (en) File classification management system and method used in operating systems
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
McGill An Evaluation of Factors Affecting Document Ranking by Information Retrieval Systems.
CA2288745C (en) Method and apparatus for searching a database of records
JP4994243B2 (ja) クエリの自動的カテゴリ化による検索処理
US20060129538A1 (en) Text search quality by exploiting organizational information
US20030154186A1 (en) System for synchronizing of user&#39;s affinity to knowledge
US7024405B2 (en) Method and apparatus for improved internet searching
JP2004094806A (ja) 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
JPH0589173A (ja) 構造化文書分類装置
WO2001031502A1 (en) Multimedia information classifying/arranging device and method
JP2006268201A (ja) 記事又は話題を管理するためのプログラム
US7013300B1 (en) Locating, filtering, matching macro-context from indexed database for searching context where micro-context relevant to textual input by user
US20040153436A1 (en) Automated information management system and methods
JP2001325272A (ja) 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
US7134082B1 (en) Method and apparatus for individualizing and updating a directory of computer files
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP2023057658A (ja) 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム
JP3772401B2 (ja) 文書分類装置
CA2396459A1 (en) Method and system for collecting topically related resources
JP2002312389A (ja) 情報検索装置および情報検索方法
JP2003044486A (ja) 知識分析システム、クラスタ管理方法およびクラスタ管理プログラム