JPH10228486A - 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 - Google Patents
分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体Info
- Publication number
- JPH10228486A JPH10228486A JP9047332A JP4733297A JPH10228486A JP H10228486 A JPH10228486 A JP H10228486A JP 9047332 A JP9047332 A JP 9047332A JP 4733297 A JP4733297 A JP 4733297A JP H10228486 A JPH10228486 A JP H10228486A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- storage unit
- information storage
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ドキュメントの自動分類を可能にし、またド
キュメント作成者が自己のドキュメントが属すべき分類
を指定できるようにする。 【解決手段】 サービス提供者は一部のドキュメントに
ついて、その識別子及びドキュメント内容を特徴づける
書誌項目を含む情報をデータベース部12の格納部122 に
登録し、更に一部の分類先を決定して格納部121 の分類
項目にそれらの識別子を登録する。計算部13は、データ
ベース部12中の分類済ドキュメントの書誌項目を参照し
て各分類項目の特徴量を計算する。計算部14は、データ
ベース部12中の未分類ドキュメントの特徴量を計算し、
判定部15はその計算結果と各分類項目の特徴量とから未
分類ドキュメントが属すべき分類項目を決定して分類す
る。収集部66は定期的に新規又は更新ドキュメントをネ
ットワーク環境から収集し、分類情報抽出部67はドキュ
メント中の分類項目指定に従ってデータベース部12に分
類登録する。
キュメント作成者が自己のドキュメントが属すべき分類
を指定できるようにする。 【解決手段】 サービス提供者は一部のドキュメントに
ついて、その識別子及びドキュメント内容を特徴づける
書誌項目を含む情報をデータベース部12の格納部122 に
登録し、更に一部の分類先を決定して格納部121 の分類
項目にそれらの識別子を登録する。計算部13は、データ
ベース部12中の分類済ドキュメントの書誌項目を参照し
て各分類項目の特徴量を計算する。計算部14は、データ
ベース部12中の未分類ドキュメントの特徴量を計算し、
判定部15はその計算結果と各分類項目の特徴量とから未
分類ドキュメントが属すべき分類項目を決定して分類す
る。収集部66は定期的に新規又は更新ドキュメントをネ
ットワーク環境から収集し、分類情報抽出部67はドキュ
メント中の分類項目指定に従ってデータベース部12に分
類登録する。
Description
【0001】
【発明の属する技術分野】本発明はネットワーク環境に
分散して存在するドキュメントを分類するシステムに関
し、特に、予め分類項目を用意し、サービス提供者が代
表的なドキュメントの内容を判断してこれを分類し、そ
れ以外のドキュメントは既に分類されているドキュメン
ト群との類似度を計算することによって自動的に分類す
る分散ドキュメント分類システムに関する。
分散して存在するドキュメントを分類するシステムに関
し、特に、予め分類項目を用意し、サービス提供者が代
表的なドキュメントの内容を判断してこれを分類し、そ
れ以外のドキュメントは既に分類されているドキュメン
ト群との類似度を計算することによって自動的に分類す
る分散ドキュメント分類システムに関する。
【0002】
【従来の技術】World Wide Web(以下、
WWWと称す)のように多数のドキュメントが分散して
存在するネットワーク環境においては、ドキュメント数
に比例して所望のドキュメントを探し出すことが困難に
なる。このため、WWWのディレクトリサービスのよう
に、ネットワーク上に分散するドキュメントを予め分類
してその所在や書誌項目をデータベースに蓄積し、クラ
イアントに対して検索サービスを提供するディレクトリ
サービスが普及している。本発明はこのようなディレク
トリサービスなどを実現する際に必要な分散ドキュメン
ト分類システムに関する。
WWWと称す)のように多数のドキュメントが分散して
存在するネットワーク環境においては、ドキュメント数
に比例して所望のドキュメントを探し出すことが困難に
なる。このため、WWWのディレクトリサービスのよう
に、ネットワーク上に分散するドキュメントを予め分類
してその所在や書誌項目をデータベースに蓄積し、クラ
イアントに対して検索サービスを提供するディレクトリ
サービスが普及している。本発明はこのようなディレク
トリサービスなどを実現する際に必要な分散ドキュメン
ト分類システムに関する。
【0003】図14にこの種の従来の分散ドキュメント
分類システムの構成を示す。同図に示すように従来の分
散ドキュメント分類システムは、分類情報格納部921
およびドキュメント情報格納部922を含むデータベー
ス部92と、ドキュメント手動登録部91とからなる。
分類システムの構成を示す。同図に示すように従来の分
散ドキュメント分類システムは、分類情報格納部921
およびドキュメント情報格納部922を含むデータベー
ス部92と、ドキュメント手動登録部91とからなる。
【0004】データベース部92において、ドキュメン
ト情報格納部922は、ネットワーク上に分散して存在
するドキュメントのドキュメント識別子とその書誌項目
のリストとを保持する部分であり、分類情報格納部92
1は、分類項目のリストと各分類項目に分類されている
ドキュメントのドキュメント識別子とを保持する部分で
ある。サービス管理者は、新たなドキュメントを登録す
る場合、そのドキュメントの内容を確認して書誌項目と
して使用すべき項目を判断し、この判断した書誌項目と
何らかの方法で決定したドキュメント識別子とを、ドキ
ュメント手動登録部91を通じてドキュメント情報格納
部922に追加し、また、上記確認したドキュメントの
内容から当該ドキュメントが分類される項目を判断し、
分類情報格納部921中の該当する分類項目に当該ドキ
ュメントのドキュメント識別子を追加登録する。
ト情報格納部922は、ネットワーク上に分散して存在
するドキュメントのドキュメント識別子とその書誌項目
のリストとを保持する部分であり、分類情報格納部92
1は、分類項目のリストと各分類項目に分類されている
ドキュメントのドキュメント識別子とを保持する部分で
ある。サービス管理者は、新たなドキュメントを登録す
る場合、そのドキュメントの内容を確認して書誌項目と
して使用すべき項目を判断し、この判断した書誌項目と
何らかの方法で決定したドキュメント識別子とを、ドキ
ュメント手動登録部91を通じてドキュメント情報格納
部922に追加し、また、上記確認したドキュメントの
内容から当該ドキュメントが分類される項目を判断し、
分類情報格納部921中の該当する分類項目に当該ドキ
ュメントのドキュメント識別子を追加登録する。
【0005】上記の分散ドキュメント分類システムは、
ドキュメントの分類作業を全て人手で行うシステムであ
るが、それを自動的に行うシステムも提案されている。
例えば、特開平7−49875号公報では、各分類ごと
に予め用意した検索条件としての単語リストと各ドキュ
メント間の適合度を計算することによって、自動的にド
キュメントを分類している。また、ネットワーク上のド
キュメントの更新状況を監視して、更新があったドキュ
メントを収集し、分類処理するようにしている。
ドキュメントの分類作業を全て人手で行うシステムであ
るが、それを自動的に行うシステムも提案されている。
例えば、特開平7−49875号公報では、各分類ごと
に予め用意した検索条件としての単語リストと各ドキュ
メント間の適合度を計算することによって、自動的にド
キュメントを分類している。また、ネットワーク上のド
キュメントの更新状況を監視して、更新があったドキュ
メントを収集し、分類処理するようにしている。
【0006】
【発明が解決しようとする課題】しかしながら、図14
に示されるような従来の分散ドキュメント分類システム
では、ドキュメント識別子や書誌項目の登録ならびに各
ドキュメントの分類作業は、ドキュメント手動登録部を
通じて全てサービス提供者が行う必要があるため、非常
にコストがかかるという問題点があった。
に示されるような従来の分散ドキュメント分類システム
では、ドキュメント識別子や書誌項目の登録ならびに各
ドキュメントの分類作業は、ドキュメント手動登録部を
通じて全てサービス提供者が行う必要があるため、非常
にコストがかかるという問題点があった。
【0007】他方、特開平7−49875号公報記載の
システムでは、文書の分類を自動的に行うことができ
る。しかし、全ての文書を自動分類することを前提とし
ているため、各分類に付与する検索条件を前もって設定
しておく必要がある。検索条件は単語のリストなどであ
るが、一つの文書も分類していない状態で、各分類ごと
の検索条件を適切に設定することは相当なスキルが要求
される。また、或る分類項目に分類されるべき幾つかの
文書を実際に調べて検索条件を求める作業を行うとして
も、その作業に使用した文書は既に分類先が決まってい
るにもかかわらず、これらも自動分類の対象としなけれ
ばならず、無駄が多い。
システムでは、文書の分類を自動的に行うことができ
る。しかし、全ての文書を自動分類することを前提とし
ているため、各分類に付与する検索条件を前もって設定
しておく必要がある。検索条件は単語のリストなどであ
るが、一つの文書も分類していない状態で、各分類ごと
の検索条件を適切に設定することは相当なスキルが要求
される。また、或る分類項目に分類されるべき幾つかの
文書を実際に調べて検索条件を求める作業を行うとして
も、その作業に使用した文書は既に分類先が決まってい
るにもかかわらず、これらも自動分類の対象としなけれ
ばならず、無駄が多い。
【0008】したがって本発明の第1の目的は、手動分
類と自動分類とを組み合わせ、ネットワーク環境に分散
して存在するドキュメントの一部を手動で分類する作業
をサービス提供者が行えば、その他のドキュメントは既
に分類されているドキュメント群との類似度を計算して
自動的に分類する分散ドキュメント分類システムを提供
することにある。
類と自動分類とを組み合わせ、ネットワーク環境に分散
して存在するドキュメントの一部を手動で分類する作業
をサービス提供者が行えば、その他のドキュメントは既
に分類されているドキュメント群との類似度を計算して
自動的に分類する分散ドキュメント分類システムを提供
することにある。
【0009】また、サービス提供者によるドキュメント
の手動分類やこの手動分類されたドキュメント群との類
似度による他のドキュメントの自動分類では、ドキュメ
ントの分類結果は、分類を行うサービス提供者の判断に
依存する部分が多く、必ずしもドキュメント作成者の意
図と一致するとは限らない。特開平7−49875号公
報に記載された技術では、そもそも全ての文書を検索条
件に基づいて自動的に分類してしまうため、文書作成者
の意図とは無関係に分類されてしまう。ドキュメントを
作成した者はそのドキュメントに関して最も熟知してい
る者であるため、このようなドキュメント作成者の協力
があれば、より一層適切な分類が可能になるであろう。
の手動分類やこの手動分類されたドキュメント群との類
似度による他のドキュメントの自動分類では、ドキュメ
ントの分類結果は、分類を行うサービス提供者の判断に
依存する部分が多く、必ずしもドキュメント作成者の意
図と一致するとは限らない。特開平7−49875号公
報に記載された技術では、そもそも全ての文書を検索条
件に基づいて自動的に分類してしまうため、文書作成者
の意図とは無関係に分類されてしまう。ドキュメントを
作成した者はそのドキュメントに関して最も熟知してい
る者であるため、このようなドキュメント作成者の協力
があれば、より一層適切な分類が可能になるであろう。
【0010】したがって本発明の第2の目的は、ドキュ
メント作成者が自己のドキュメントが属すべき分類を明
示的に指定することができる分散ドキュメント分類シス
テムを提供することにある。
メント作成者が自己のドキュメントが属すべき分類を明
示的に指定することができる分散ドキュメント分類シス
テムを提供することにある。
【0011】
【課題を解決するための手段】本発明は上記第1の目的
を達成するために、ネットワーク環境に分散して存在す
るドキュメントを分類する分散ドキュメント分類システ
ムにおいて、予め指定された分類項目および各分類項目
に属するドキュメントの識別子を含む分類情報を格納す
る分類情報格納部と、各ドキュメントの識別子および各
ドキュメントの内容を特徴付ける書誌項目を含むドキュ
メント情報を格納するドキュメント情報格納部とを有す
るデータベース部と、サービス提供者が、ドキュメント
のドキュメント情報を前記ドキュメント情報格納部に登
録し、且つ、ドキュメントの識別子を前記分類情報格納
部の該当する分類項目に登録するためのドキュメント手
動登録部と、前記分類情報格納部に格納された分類情報
と前記ドキュメント情報格納部に格納されたドキュメン
ト情報とに基づき、各分類項目の特徴量を計算する分類
特徴計算部と、前記ドキュメント情報格納部にドキュメ
ント情報が登録されているが、そのドキュメント識別子
が前記分類情報格納部に登録されていない未分類のドキ
ュメントについて、前記ドキュメント情報格納部に登録
されているドキュメント情報に基づき、そのドキュメン
トの特徴量を計算するドキュメント特徴計算部と、該ド
キュメント特徴計算部で計算された特徴量と前記分類特
徴計算部で計算された各分類項目の特徴量とに基づい
て、前記未分類のドキュメントが属すべき分類項目を判
定し、そのドキュメントの識別子を前記分類情報格納部
の前記判定した分類項目に登録する分類判定部とから構
成される。
を達成するために、ネットワーク環境に分散して存在す
るドキュメントを分類する分散ドキュメント分類システ
ムにおいて、予め指定された分類項目および各分類項目
に属するドキュメントの識別子を含む分類情報を格納す
る分類情報格納部と、各ドキュメントの識別子および各
ドキュメントの内容を特徴付ける書誌項目を含むドキュ
メント情報を格納するドキュメント情報格納部とを有す
るデータベース部と、サービス提供者が、ドキュメント
のドキュメント情報を前記ドキュメント情報格納部に登
録し、且つ、ドキュメントの識別子を前記分類情報格納
部の該当する分類項目に登録するためのドキュメント手
動登録部と、前記分類情報格納部に格納された分類情報
と前記ドキュメント情報格納部に格納されたドキュメン
ト情報とに基づき、各分類項目の特徴量を計算する分類
特徴計算部と、前記ドキュメント情報格納部にドキュメ
ント情報が登録されているが、そのドキュメント識別子
が前記分類情報格納部に登録されていない未分類のドキ
ュメントについて、前記ドキュメント情報格納部に登録
されているドキュメント情報に基づき、そのドキュメン
トの特徴量を計算するドキュメント特徴計算部と、該ド
キュメント特徴計算部で計算された特徴量と前記分類特
徴計算部で計算された各分類項目の特徴量とに基づい
て、前記未分類のドキュメントが属すべき分類項目を判
定し、そのドキュメントの識別子を前記分類情報格納部
の前記判定した分類項目に登録する分類判定部とから構
成される。
【0012】このように構成された本発明の分散ドキュ
メント分類システムにあっては、サービス提供者は、ネ
ットワーク環境に分散して存在するドキュメントの内容
から、書誌項目として使用すべき項目を判断し、ドキュ
メント手動登録部を通じて、この判断した書誌項目とそ
のドキュメントを一意に識別するドキュメント識別子と
を含むドキュメント情報をデータベース部のドキュメン
ト情報格納部に登録し、また、幾つかの代表的なドキュ
メントについてその内容から当該ドキュメントが分類さ
れる項目を判断し、分類情報格納部の該当する分類項目
に当該ドキュメントのドキュメント識別子を登録してお
く。こうしておくと、後は、ドキュメント情報格納部に
ドキュメント情報が格納されている未分類のドキュメン
トが以下のように自動的に分類される。まず、分類特徴
計算部が、分類情報格納部に格納された分類情報とドキ
ュメント情報格納部に格納されたドキュメント情報とに
基づき、各分類項目の特徴量を計算し、ドキュメント特
徴計算部が、ドキュメント情報格納部にドキュメント情
報が登録されているが、そのドキュメント識別子が分類
情報格納部に登録されていない未分類のドキュメントに
ついて、ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算する。そして、分類判定部が、ドキュメント特徴計算
部で計算された特徴量と分類特徴計算部で計算された各
分類項目の特徴量とに基づいて、前記未分類のドキュメ
ントが属すべき分類項目を判定し、そのドキュメントの
識別子を分類情報格納部の前記判定した分類項目に登録
する。
メント分類システムにあっては、サービス提供者は、ネ
ットワーク環境に分散して存在するドキュメントの内容
から、書誌項目として使用すべき項目を判断し、ドキュ
メント手動登録部を通じて、この判断した書誌項目とそ
のドキュメントを一意に識別するドキュメント識別子と
を含むドキュメント情報をデータベース部のドキュメン
ト情報格納部に登録し、また、幾つかの代表的なドキュ
メントについてその内容から当該ドキュメントが分類さ
れる項目を判断し、分類情報格納部の該当する分類項目
に当該ドキュメントのドキュメント識別子を登録してお
く。こうしておくと、後は、ドキュメント情報格納部に
ドキュメント情報が格納されている未分類のドキュメン
トが以下のように自動的に分類される。まず、分類特徴
計算部が、分類情報格納部に格納された分類情報とドキ
ュメント情報格納部に格納されたドキュメント情報とに
基づき、各分類項目の特徴量を計算し、ドキュメント特
徴計算部が、ドキュメント情報格納部にドキュメント情
報が登録されているが、そのドキュメント識別子が分類
情報格納部に登録されていない未分類のドキュメントに
ついて、ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算する。そして、分類判定部が、ドキュメント特徴計算
部で計算された特徴量と分類特徴計算部で計算された各
分類項目の特徴量とに基づいて、前記未分類のドキュメ
ントが属すべき分類項目を判定し、そのドキュメントの
識別子を分類情報格納部の前記判定した分類項目に登録
する。
【0013】また本発明は上記第1および第2の目的を
も達成するために、更に、新規に作成されたドキュメン
ト及び内容の更新されたドキュメントをネットワーク環
境から定期的に収集し、そのドキュメントのドキュメン
ト情報を前記ドキュメント情報格納部に新規登録または
更新登録するドキュメント収集部と、該ドキュメント収
集部で収集されたドキュメント中に分類項目指定が存在
するか否かを調べ、存在する場合にはそのドキュメント
のドキュメント識別子を前記分類情報格納部の前記指定
された分類項目に登録する分類情報抽出部とを有する。
も達成するために、更に、新規に作成されたドキュメン
ト及び内容の更新されたドキュメントをネットワーク環
境から定期的に収集し、そのドキュメントのドキュメン
ト情報を前記ドキュメント情報格納部に新規登録または
更新登録するドキュメント収集部と、該ドキュメント収
集部で収集されたドキュメント中に分類項目指定が存在
するか否かを調べ、存在する場合にはそのドキュメント
のドキュメント識別子を前記分類情報格納部の前記指定
された分類項目に登録する分類情報抽出部とを有する。
【0014】このような構成の分散ドキュメント分類シ
ステムにあっては、ドキュメントの新規作成時または更
新時に、ドキュメント作成者がドキュメント中に分類項
目指定を記述しておくと、ドキュメント収集部がこのド
キュメントを収集した際に、そのドキュメントのドキュ
メント情報をドキュメント情報格納部に新規登録または
更新登録し、分類情報抽出部が、収集されたドキュメン
ト中に記述された分類項目指定に従ってそのドキュメン
トのドキュメント識別子を分類情報格納部の前記指定さ
れた分類項目に登録することで、ドキュメント作成者の
意図する分類項目に分類する。
ステムにあっては、ドキュメントの新規作成時または更
新時に、ドキュメント作成者がドキュメント中に分類項
目指定を記述しておくと、ドキュメント収集部がこのド
キュメントを収集した際に、そのドキュメントのドキュ
メント情報をドキュメント情報格納部に新規登録または
更新登録し、分類情報抽出部が、収集されたドキュメン
ト中に記述された分類項目指定に従ってそのドキュメン
トのドキュメント識別子を分類情報格納部の前記指定さ
れた分類項目に登録することで、ドキュメント作成者の
意図する分類項目に分類する。
【0015】以上の構成では、サービス提供者がドキュ
メント手動登録部を使用して一部のドキュメントを手動
登録することを前提としたが、ドキュメント作成者の比
較的多くの者が自己のドキュメントに分類項目指定を含
めるような状況下では、各分類項目の特徴量を求める基
礎となる分類済みドキュメントとして、ドキュメント作
成者が分類指定したドキュメントだけで足りるようにな
り、その場合には、サービス提供者による手動分類は一
切不要で、ドキュメント手動登録部を省略することがで
きる。かかる構成の分散ドキュメント分類システムは、
上述した、データベース部と、ドキュメント収集部と、
分類情報抽出部と、分類特徴計算部と、ドキュメント特
徴計算部と、分類判定部とから構成される。動作にあっ
ては、1回目の起動時に、ドキュメント収集部がネット
ワーク環境に分散するドキュメントを収集して、そのド
キュメント情報をデータベース部のドキュメント情報格
納部に格納し、次いで、収集されたドキュメントのうち
分類項目指定のあるドキュメントを分類情報抽出部によ
って分類する。この後、分類特徴計算部が、既分類のド
キュメントの書誌項目に従って各分類項目の特徴量を計
算し、ドキュメント特徴計算部が未分類のドキュメント
の特徴量を計算し、分類判定部がそれらの結果から未分
類のドキュメントの属すべき分類項目を決定して分類す
る。次回の定期起動時には、新規または更新ドキュメン
トだけが収集され、そのうち分類項目指定のあるものは
分類情報抽出部で分類登録され、分類項目指定のないも
のは分類判定部によって自動的に分類される。
メント手動登録部を使用して一部のドキュメントを手動
登録することを前提としたが、ドキュメント作成者の比
較的多くの者が自己のドキュメントに分類項目指定を含
めるような状況下では、各分類項目の特徴量を求める基
礎となる分類済みドキュメントとして、ドキュメント作
成者が分類指定したドキュメントだけで足りるようにな
り、その場合には、サービス提供者による手動分類は一
切不要で、ドキュメント手動登録部を省略することがで
きる。かかる構成の分散ドキュメント分類システムは、
上述した、データベース部と、ドキュメント収集部と、
分類情報抽出部と、分類特徴計算部と、ドキュメント特
徴計算部と、分類判定部とから構成される。動作にあっ
ては、1回目の起動時に、ドキュメント収集部がネット
ワーク環境に分散するドキュメントを収集して、そのド
キュメント情報をデータベース部のドキュメント情報格
納部に格納し、次いで、収集されたドキュメントのうち
分類項目指定のあるドキュメントを分類情報抽出部によ
って分類する。この後、分類特徴計算部が、既分類のド
キュメントの書誌項目に従って各分類項目の特徴量を計
算し、ドキュメント特徴計算部が未分類のドキュメント
の特徴量を計算し、分類判定部がそれらの結果から未分
類のドキュメントの属すべき分類項目を決定して分類す
る。次回の定期起動時には、新規または更新ドキュメン
トだけが収集され、そのうち分類項目指定のあるものは
分類情報抽出部で分類登録され、分類項目指定のないも
のは分類判定部によって自動的に分類される。
【0016】
【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。
いて図面を参照して詳細に説明する。
【0017】図1は本発明の第1の実施例にかかる分散
ドキュメント分類システムの構成を示すブロック図であ
る。
ドキュメント分類システムの構成を示すブロック図であ
る。
【0018】図示のように、本実施例の分散ドキュメン
ト分類システムは、ドキュメント手動登録部11と、デ
ータベース部12と、分類特徴計算部13と、ドキュメ
ント特徴計算部14と、分類判定部15とから構成され
ている。なお、図には本実施例の特徴的な構成のみが記
載されており、他の構成は省略してある。
ト分類システムは、ドキュメント手動登録部11と、デ
ータベース部12と、分類特徴計算部13と、ドキュメ
ント特徴計算部14と、分類判定部15とから構成され
ている。なお、図には本実施例の特徴的な構成のみが記
載されており、他の構成は省略してある。
【0019】データベース部12は、ネットワーク環境
に分散して存在するドキュメントを分類して登録してお
く部分であり、分類情報格納部121とドキュメント情
報格納部122とを備えている。
に分散して存在するドキュメントを分類して登録してお
く部分であり、分類情報格納部121とドキュメント情
報格納部122とを備えている。
【0020】分類情報格納部121は、ドキュメントの
分類項目および各分類項目に属するドキュメントの識別
子を含む分類情報を格納する部分である。図2は、分類
情報格納部121に格納される情報のデータ構造の一例
を示すテーブルである。図示のように、テーブル20
は、カラムとして、分類IDと、分類項目と、その分類
に属しているドキュメントの識別子のリストとを格納す
る行(レコード)を、複数行有している。
分類項目および各分類項目に属するドキュメントの識別
子を含む分類情報を格納する部分である。図2は、分類
情報格納部121に格納される情報のデータ構造の一例
を示すテーブルである。図示のように、テーブル20
は、カラムとして、分類IDと、分類項目と、その分類
に属しているドキュメントの識別子のリストとを格納す
る行(レコード)を、複数行有している。
【0021】ドキュメント情報格納部122は、各ドキ
ュメントの識別子および各ドキュメントの内容を特徴づ
ける書誌項目などを含むドキュメント情報を格納する部
分である。図3は、ドキュメント情報格納部122に格
納される情報のデータ構造の一例を示すテーブルであ
る。図示のように、テーブル30は、カラムとして、ド
キュメント識別子と、当該ドキュメントのネットワーク
上のアドレスと、当該ドキュメントの書誌項目と、分類
方法とを持つ行(レコード)を、複数行有している。
ュメントの識別子および各ドキュメントの内容を特徴づ
ける書誌項目などを含むドキュメント情報を格納する部
分である。図3は、ドキュメント情報格納部122に格
納される情報のデータ構造の一例を示すテーブルであ
る。図示のように、テーブル30は、カラムとして、ド
キュメント識別子と、当該ドキュメントのネットワーク
上のアドレスと、当該ドキュメントの書誌項目と、分類
方法とを持つ行(レコード)を、複数行有している。
【0022】以上のようなデータベース部12は、例え
ばプログラム制御されたCPUおよび磁気ディスク装置
などの記憶装置で実現される。
ばプログラム制御されたCPUおよび磁気ディスク装置
などの記憶装置で実現される。
【0023】ドキュメント手動登録部11は、ドキュメ
ントを手動で分類して登録する際に使用する部分であ
る。サービス提供者は、ドキュメント手動登録部11を
通じて、ネットワーク環境に分散して存在するドキュメ
ントについて、そのドキュメント識別子と書誌項目など
を含むドキュメント情報をデータベース部12のドキュ
メント情報格納部122に登録し、また、各分類項目に
属すべき一部のドキュメントについて、そのドキュメン
ト識別子を分類情報格納部121中の該当する分類項目
に登録する。更に、分類情報格納部121に分類項目を
定義する場合にもこのドキュメント手動登録部11が使
用される。このようなドキュメント手動登録部11は、
例えばプログラム制御されたCPUを用いた制御手段お
よびディスプレイ装置などで実現される。
ントを手動で分類して登録する際に使用する部分であ
る。サービス提供者は、ドキュメント手動登録部11を
通じて、ネットワーク環境に分散して存在するドキュメ
ントについて、そのドキュメント識別子と書誌項目など
を含むドキュメント情報をデータベース部12のドキュ
メント情報格納部122に登録し、また、各分類項目に
属すべき一部のドキュメントについて、そのドキュメン
ト識別子を分類情報格納部121中の該当する分類項目
に登録する。更に、分類情報格納部121に分類項目を
定義する場合にもこのドキュメント手動登録部11が使
用される。このようなドキュメント手動登録部11は、
例えばプログラム制御されたCPUを用いた制御手段お
よびディスプレイ装置などで実現される。
【0024】分類特徴計算部13,ドキュメント特徴計
算部14および分類判定部15は、手動で分類しなかっ
た残りのドキュメントを自動分類するためのものであ
る。このうち、分類特徴計算部13は、データベース部
12中で既に各分類項目に分類されているドキュメント
の書誌項目を参照して、各分類項目の特徴量を計算する
部分である。また、ドキュメント特徴計算部14は、デ
ータベース部12中の未分類のドキュメントの特徴量を
その書誌項目に基づいて計算する部分である。更に、分
類判定部15は、ドキュメント特徴計算部14で計算さ
れた特徴量と分類特徴計算部13で計算された各分類項
目の特徴量とに基づいて、未分類のドキュメントが属す
べき分類項目を判定し、分類登録する部分である。
算部14および分類判定部15は、手動で分類しなかっ
た残りのドキュメントを自動分類するためのものであ
る。このうち、分類特徴計算部13は、データベース部
12中で既に各分類項目に分類されているドキュメント
の書誌項目を参照して、各分類項目の特徴量を計算する
部分である。また、ドキュメント特徴計算部14は、デ
ータベース部12中の未分類のドキュメントの特徴量を
その書誌項目に基づいて計算する部分である。更に、分
類判定部15は、ドキュメント特徴計算部14で計算さ
れた特徴量と分類特徴計算部13で計算された各分類項
目の特徴量とに基づいて、未分類のドキュメントが属す
べき分類項目を判定し、分類登録する部分である。
【0025】これらの分類特徴計算部13,ドキュメン
ト特徴計算部14および分類判定部15は、例えばプロ
グラム制御されたCPUおよびメモリなどの一時記憶装
置で実現される。
ト特徴計算部14および分類判定部15は、例えばプロ
グラム制御されたCPUおよびメモリなどの一時記憶装
置で実現される。
【0026】次に本実施例の各部の詳細な機能を、全体
の動作と共に説明する。
の動作と共に説明する。
【0027】サービス提供者は、ネットワーク環境に分
散して存在するドキュメントに適用する分類項目を予め
用意しておき、これをドキュメント手動登録部11を通
じてデータベース部12の分類情報格納部121に定義
する。この定義にしたがって、分類項目の識別子が図2
のテーブル20のカラム「分類ID」に、分類名がカラ
ム「分類」に格納される。なお、分類項目の識別子は任
意のもので良いが、ここでは0から始まる連続番号を付
与している。
散して存在するドキュメントに適用する分類項目を予め
用意しておき、これをドキュメント手動登録部11を通
じてデータベース部12の分類情報格納部121に定義
する。この定義にしたがって、分類項目の識別子が図2
のテーブル20のカラム「分類ID」に、分類名がカラ
ム「分類」に格納される。なお、分類項目の識別子は任
意のもので良いが、ここでは0から始まる連続番号を付
与している。
【0028】また、サービス提供者は分類対象となるド
キュメントに関するドキュメント情報を、ドキュメント
手動登録部11を通じてデータベース部12のドキュメ
ント情報格納部122に設定する。設定するドキュメン
ト情報としては、ドキュメント識別子,そのドキュメン
トのネットワーク上の所在を示すアドレス,そのドキュ
メントの内容を特徴づける書誌項目などである。この設
定操作にしたがって、各ドキュメント毎に図3のテーブ
ル30の1行が割り当てられ、その行のカラム「ドキュ
メント識別子」,カラム「アドレス」,カラム「書誌項
目」にそれぞれドキュメント識別子,アドレス,書誌項
目が格納される。なお、カラム「分類方法」はこの時点
ではNULLである。
キュメントに関するドキュメント情報を、ドキュメント
手動登録部11を通じてデータベース部12のドキュメ
ント情報格納部122に設定する。設定するドキュメン
ト情報としては、ドキュメント識別子,そのドキュメン
トのネットワーク上の所在を示すアドレス,そのドキュ
メントの内容を特徴づける書誌項目などである。この設
定操作にしたがって、各ドキュメント毎に図3のテーブ
ル30の1行が割り当てられ、その行のカラム「ドキュ
メント識別子」,カラム「アドレス」,カラム「書誌項
目」にそれぞれドキュメント識別子,アドレス,書誌項
目が格納される。なお、カラム「分類方法」はこの時点
ではNULLである。
【0029】さらにサービス提供者は、すでにドキュメ
ント情報格納部122にドキュメント情報が登録されて
いるドキュメントのうち、各分類項目に属すべき代表的
なドキュメントの内容を判別し、ドキュメント手動登録
部11を通じて適切な分類項目を指定する。この指定に
したがって、ドキュメント手動登録部11は、指定され
たドキュメントのドキュメント識別子Di を、分類情報
格納部121における指定された分類項目のドキュメン
ト識別子のリストに追加する。同時に、ドキュメント手
動登録部11は、ドキュメント情報格納部122におけ
るその指定されたドキュメント識別子Di を持つ行のカ
ラム「分類方法」に、手動で分類したことを示す値“m
anual”を設定する。なお、ドキュメント情報格納
部122に登録したドキュメント全てを手動で分類する
必要はないが、少なくとも各分類項目には1つ以上のド
キュメントを分類しておく必要があり、また、後述する
分類項目の特徴量の精度を上げるためには、ある程度の
数のドキュメントを各分類項目に分類しておく必要があ
る。なお、手動で分類されなかった残りのドキュメント
のドキュメント情報格納部122におけるカラム「分類
方法」の値はNULLのままである。
ント情報格納部122にドキュメント情報が登録されて
いるドキュメントのうち、各分類項目に属すべき代表的
なドキュメントの内容を判別し、ドキュメント手動登録
部11を通じて適切な分類項目を指定する。この指定に
したがって、ドキュメント手動登録部11は、指定され
たドキュメントのドキュメント識別子Di を、分類情報
格納部121における指定された分類項目のドキュメン
ト識別子のリストに追加する。同時に、ドキュメント手
動登録部11は、ドキュメント情報格納部122におけ
るその指定されたドキュメント識別子Di を持つ行のカ
ラム「分類方法」に、手動で分類したことを示す値“m
anual”を設定する。なお、ドキュメント情報格納
部122に登録したドキュメント全てを手動で分類する
必要はないが、少なくとも各分類項目には1つ以上のド
キュメントを分類しておく必要があり、また、後述する
分類項目の特徴量の精度を上げるためには、ある程度の
数のドキュメントを各分類項目に分類しておく必要があ
る。なお、手動で分類されなかった残りのドキュメント
のドキュメント情報格納部122におけるカラム「分類
方法」の値はNULLのままである。
【0030】以上に述べたような登録作業に引き続き、
分類特徴計算部13,ドキュメント特徴計算部14およ
び分類判定部15による自動分類処理が行われる。
分類特徴計算部13,ドキュメント特徴計算部14およ
び分類判定部15による自動分類処理が行われる。
【0031】まず、分類特徴計算部13は、分類情報格
納部121に格納された各分類項目ごとにその特徴量を
計算する。図4に特徴量計算の手順例を示す。
納部121に格納された各分類項目ごとにその特徴量を
計算する。図4に特徴量計算の手順例を示す。
【0032】分類特徴計算部13は、まず、読み出しカ
ウンタiを0にリセットし(step41)、分類情報
格納部121から分類識別子Ci の行のデータを読み出
す(step42)。次に、読み出したデータに含まれ
るドキュメント識別子のリストにしたがって、ドキュメ
ント情報格納部122からその分類項目Ci に分類され
ている全てのドキュメントの書誌項目を読み出し、一時
記憶に格納する(step44)。次に、一時記憶に格
納した書誌項目に基づいて分類項目Ci の特徴量Ki を
計算し(step45)、これを内部の特徴量記憶部に
格納する(step46)。そして、読み出しカウンタ
iを+1し(step47)、step42に戻って上
述した処理を繰り返す。step43で分類情報格納部
121から全ての分類項目のデータを読み出し終えたこ
とを検出した時点で、処理を終了する。
ウンタiを0にリセットし(step41)、分類情報
格納部121から分類識別子Ci の行のデータを読み出
す(step42)。次に、読み出したデータに含まれ
るドキュメント識別子のリストにしたがって、ドキュメ
ント情報格納部122からその分類項目Ci に分類され
ている全てのドキュメントの書誌項目を読み出し、一時
記憶に格納する(step44)。次に、一時記憶に格
納した書誌項目に基づいて分類項目Ci の特徴量Ki を
計算し(step45)、これを内部の特徴量記憶部に
格納する(step46)。そして、読み出しカウンタ
iを+1し(step47)、step42に戻って上
述した処理を繰り返す。step43で分類情報格納部
121から全ての分類項目のデータを読み出し終えたこ
とを検出した時点で、処理を終了する。
【0033】分類特徴計算部13において各分類項目の
特徴量の計算が終了すると、次にドキュメント特徴計算
部14が未分類のドキュメントの特徴量を計算し、この
値をもとに分類判定部15がそのドキュメントが属すべ
き分類項目を判定し、登録を行う。図5に、ドキュメン
ト特徴計算部14および分類判定部15の処理の手順例
を示す。
特徴量の計算が終了すると、次にドキュメント特徴計算
部14が未分類のドキュメントの特徴量を計算し、この
値をもとに分類判定部15がそのドキュメントが属すべ
き分類項目を判定し、登録を行う。図5に、ドキュメン
ト特徴計算部14および分類判定部15の処理の手順例
を示す。
【0034】まず、ドキュメント特徴計算部14は、ド
キュメント情報格納部122からまだ分類されていな
い、つまりカラム「分類方法」がNULLのドキュメン
ト(ドキュメント識別子をDj とする)の行のデータを
一つ読み出し(step51)、そのデータに記述され
ている書誌項目から、当該ドキュメントの特徴量DKj
を計算する(step53)。
キュメント情報格納部122からまだ分類されていな
い、つまりカラム「分類方法」がNULLのドキュメン
ト(ドキュメント識別子をDj とする)の行のデータを
一つ読み出し(step51)、そのデータに記述され
ている書誌項目から、当該ドキュメントの特徴量DKj
を計算する(step53)。
【0035】続いて、分類判定部15は、この計算され
たドキュメントの特徴量DKj と、分類特徴計算部13
内部の特徴量記憶部に格納されている各分類項目の特徴
量Ki (i=0,1,…)とから、当該ドキュメントの
属すべき分類項目Cm を選択する(step54)。こ
の選択では、ドキュメントの特徴量DKj に最も値が近
い特徴量Ki を持つ1つの分類項目を選択しても良く、
その差が或る閾値の範囲内に収まる1つ以上の分類項目
を選択しても良い。
たドキュメントの特徴量DKj と、分類特徴計算部13
内部の特徴量記憶部に格納されている各分類項目の特徴
量Ki (i=0,1,…)とから、当該ドキュメントの
属すべき分類項目Cm を選択する(step54)。こ
の選択では、ドキュメントの特徴量DKj に最も値が近
い特徴量Ki を持つ1つの分類項目を選択しても良く、
その差が或る閾値の範囲内に収まる1つ以上の分類項目
を選択しても良い。
【0036】次に分類判定部15は、分類情報格納部1
21に格納されている上記選択した分類項目Cm のドキ
ュメント識別子のリストに、当該ドキュメントの識別子
Djを追加し(step55)、さらにドキュメント情
報格納部122に格納されている当該ドキュメント識別
子Dj を持つ行のカラム「分類方法」に、自動で分類し
たことを示す“auto”を設定する(step5
6)。
21に格納されている上記選択した分類項目Cm のドキ
ュメント識別子のリストに、当該ドキュメントの識別子
Djを追加し(step55)、さらにドキュメント情
報格納部122に格納されている当該ドキュメント識別
子Dj を持つ行のカラム「分類方法」に、自動で分類し
たことを示す“auto”を設定する(step5
6)。
【0037】そして、step51に戻って上述した処
理を繰り返し、step52でドキュメント情報格納部
122から未分類の全てのドキュメントを読み出し終え
たことを検出した時点で、処理を終了する。
理を繰り返し、step52でドキュメント情報格納部
122から未分類の全てのドキュメントを読み出し終え
たことを検出した時点で、処理を終了する。
【0038】以上のような自動分類処理が行われること
により、ドキュメント情報格納部122に格納された全
てのドキュメントの分類が終了する。
により、ドキュメント情報格納部122に格納された全
てのドキュメントの分類が終了する。
【0039】次に、書誌項目の具体例を示し、それに基
づいて分類特徴計算部13,ドキュメント特徴計算部1
4および分類判定部15の動作をより具体的に説明す
る。
づいて分類特徴計算部13,ドキュメント特徴計算部1
4および分類判定部15の動作をより具体的に説明す
る。
【0040】ネットワーク環境に分散して存在するドキ
ュメントは、画像や音声等のマルチメディアデータであ
って良いが、ここでは、テキストを含む文書とする。そ
して、ドキュメントの内容を特徴づける書誌項目とし
て、文書中に一定回数以上(例えば2回以上)出現する
単語(キーワード)とその出現回数の組の集合とする。
例えば或るドキュメントX中に、図6(a)に示すよう
に、「テニス」,「スキー」,「サッカー」という単語
がそれぞれ5回,4回,3回出現しており、それ以外に
2回以上出現する単語がないものとすると、「テニス」
=5回,「スキー」=4回,「サッカー」=3回がドキ
ュメントXの書誌項目となる。同様に別のドキュメント
Y中に、図6(b)に示すように、「テニス」,「野
球」,「スキー」という単語がそれぞれ3回,2回,6
回出現しており、それ以外に2回以上出現する単語がな
いものとすると、「テニス」=3回,「野球」=2回,
「スキー」=6回がドキュメントYの書誌項目となる。
ュメントは、画像や音声等のマルチメディアデータであ
って良いが、ここでは、テキストを含む文書とする。そ
して、ドキュメントの内容を特徴づける書誌項目とし
て、文書中に一定回数以上(例えば2回以上)出現する
単語(キーワード)とその出現回数の組の集合とする。
例えば或るドキュメントX中に、図6(a)に示すよう
に、「テニス」,「スキー」,「サッカー」という単語
がそれぞれ5回,4回,3回出現しており、それ以外に
2回以上出現する単語がないものとすると、「テニス」
=5回,「スキー」=4回,「サッカー」=3回がドキ
ュメントXの書誌項目となる。同様に別のドキュメント
Y中に、図6(b)に示すように、「テニス」,「野
球」,「スキー」という単語がそれぞれ3回,2回,6
回出現しており、それ以外に2回以上出現する単語がな
いものとすると、「テニス」=3回,「野球」=2回,
「スキー」=6回がドキュメントYの書誌項目となる。
【0041】ドキュメント特徴計算部14は、ドキュメ
ントの書誌項目に記述された各単語の出現回数を全単語
の総出現回数で割った出現頻度の集合を、当該ドキュメ
ントの特徴量とする。従って、ドキュメントXの場合に
は図6(a)に示すように、「テニス」=5/12,
「スキー」=4/12,「サッカー」=3/12が特徴
量となり、ドキュメントYの場合には図6(b)に示す
ように、「テニス」=3/11,「野球」=2/11,
「スキー」=6/11が特徴量となる。
ントの書誌項目に記述された各単語の出現回数を全単語
の総出現回数で割った出現頻度の集合を、当該ドキュメ
ントの特徴量とする。従って、ドキュメントXの場合に
は図6(a)に示すように、「テニス」=5/12,
「スキー」=4/12,「サッカー」=3/12が特徴
量となり、ドキュメントYの場合には図6(b)に示す
ように、「テニス」=3/11,「野球」=2/11,
「スキー」=6/11が特徴量となる。
【0042】また分類特徴計算部13は、各分類項目ご
とに、その分類項目に属するドキュメントの書誌項目に
現れる各単語の出現回数の総和を各単語ごとにカウント
し、これを全単語の総出現回数で割った出現頻度の集合
を、その分類項目の特徴量とする。例えば、ドキュメン
トXとドキュメントYとが同じ分類項目に属するものと
し、その分類項目にはそれ以外のドキュメントが分類さ
れていないとすると、図6(a),(b)の内容から、
図7に示すように、単語「テニス」,「スキー」,「サ
ッカー」,「野球」の総出現回数がそれぞれ8,10,
3,2として求まり、全単語の総出現回数は23なの
で、図7に示すように、「テニス」=8/23,「スキ
ー」=10/23,「サッカー」=3/23,「野球」
=2/23が当該分類項目の特徴量となる。
とに、その分類項目に属するドキュメントの書誌項目に
現れる各単語の出現回数の総和を各単語ごとにカウント
し、これを全単語の総出現回数で割った出現頻度の集合
を、その分類項目の特徴量とする。例えば、ドキュメン
トXとドキュメントYとが同じ分類項目に属するものと
し、その分類項目にはそれ以外のドキュメントが分類さ
れていないとすると、図6(a),(b)の内容から、
図7に示すように、単語「テニス」,「スキー」,「サ
ッカー」,「野球」の総出現回数がそれぞれ8,10,
3,2として求まり、全単語の総出現回数は23なの
で、図7に示すように、「テニス」=8/23,「スキ
ー」=10/23,「サッカー」=3/23,「野球」
=2/23が当該分類項目の特徴量となる。
【0043】分類判定部15は、ドキュメント特徴計算
部14で計算された未分類のドキュメントの特徴量に現
れる単語の出現頻度と、分類特徴計算部13で計算され
た各分類項目の特徴量に現れるこれと同一単語の出現頻
度との積の総和を類似度とする。例えば、未分類のドキ
ュメントZの書誌項目が図8に示すように、「テニス」
=4,「スキー」=2,「ゴルフ」=3であった場合、
その特徴量は同図に示すように「テニス」=4/9,
「スキー」=2/9,「ゴルフ」=3/9となる。従っ
て、このドキュメントZと図7に示した分類項目との類
似度は、(4/9)×(8/23)+(2/9)×(1
0/23)として求められる。
部14で計算された未分類のドキュメントの特徴量に現
れる単語の出現頻度と、分類特徴計算部13で計算され
た各分類項目の特徴量に現れるこれと同一単語の出現頻
度との積の総和を類似度とする。例えば、未分類のドキ
ュメントZの書誌項目が図8に示すように、「テニス」
=4,「スキー」=2,「ゴルフ」=3であった場合、
その特徴量は同図に示すように「テニス」=4/9,
「スキー」=2/9,「ゴルフ」=3/9となる。従っ
て、このドキュメントZと図7に示した分類項目との類
似度は、(4/9)×(8/23)+(2/9)×(1
0/23)として求められる。
【0044】図9は本発明の第2の実施例にかかる分散
ドキュメント分類システムの構成を示すブロック図であ
り、図1と同一符号は同一部分を示し、66はドキュメ
ント収集部、67は分類情報抽出部である。
ドキュメント分類システムの構成を示すブロック図であ
り、図1と同一符号は同一部分を示し、66はドキュメ
ント収集部、67は分類情報抽出部である。
【0045】本実施例の分散ドキュメント分類システム
は、ドキュメント収集部66および分類情報抽出部67
を更に有する点で図1に示した実施例の分散ドキュメン
ト分類システムと相違する。
は、ドキュメント収集部66および分類情報抽出部67
を更に有する点で図1に示した実施例の分散ドキュメン
ト分類システムと相違する。
【0046】ドキュメント手動登録部11,データベー
ス部12,分類特徴計算部13,ドキュメント特徴計算
部14および分類判定部15は、基本的に図1の実施例
のものと同じである。
ス部12,分類特徴計算部13,ドキュメント特徴計算
部14および分類判定部15は、基本的に図1の実施例
のものと同じである。
【0047】ドキュメント収集部66は、データベース
部12のドキュメント情報格納部122に登録されてい
ない新規なドキュメント、および登録されているがその
内容が更新されたドキュメントを、ネットワーク環境か
ら定期的に収集し、そのドキュメント情報をドキュメン
ト情報格納部122に新規登録または更新登録する部分
である。
部12のドキュメント情報格納部122に登録されてい
ない新規なドキュメント、および登録されているがその
内容が更新されたドキュメントを、ネットワーク環境か
ら定期的に収集し、そのドキュメント情報をドキュメン
ト情報格納部122に新規登録または更新登録する部分
である。
【0048】分類情報抽出部67は、ドキュメント収集
部66で収集されたドキュメント中にドキュメント作成
者が記述した分類項目指定が存在するか否かを調べ、存
在する場合にはそのドキュメントのドキュメント識別子
を分類情報格納部121の前記指定された分類項目に登
録する部分である。
部66で収集されたドキュメント中にドキュメント作成
者が記述した分類項目指定が存在するか否かを調べ、存
在する場合にはそのドキュメントのドキュメント識別子
を分類情報格納部121の前記指定された分類項目に登
録する部分である。
【0049】これらのドキュメント収集部66および分
類情報抽出部67は、例えばプログラム制御されたCP
Uおよびメモリや磁気ディスクなどの記憶装置で実現さ
れる。
類情報抽出部67は、例えばプログラム制御されたCP
Uおよびメモリや磁気ディスクなどの記憶装置で実現さ
れる。
【0050】次に本実施例の動作を、第1の実施例と相
違する部分を中心に説明する。
違する部分を中心に説明する。
【0051】サービス提供者は、ネットワーク環境に分
散して存在するドキュメントに適用する分類項目を予め
用意しておき、これをドキュメント手動登録部11を通
じてデータベース部12の分類情報格納部121に定義
する。この定義にしたがって、分類項目の識別子が図2
のテーブル20のカラム「分類ID」に、分類名がカラ
ム「分類」に格納される。
散して存在するドキュメントに適用する分類項目を予め
用意しておき、これをドキュメント手動登録部11を通
じてデータベース部12の分類情報格納部121に定義
する。この定義にしたがって、分類項目の識別子が図2
のテーブル20のカラム「分類ID」に、分類名がカラ
ム「分類」に格納される。
【0052】また、サービス提供者は分類対象となるド
キュメントに関するドキュメント情報を、ドキュメント
手動登録部11を通じてデータベース部12のドキュメ
ント情報格納部122に設定する。本実施例の場合、ド
キュメント収集部66によって後述する定期的なドキュ
メント収集が行われるため、サービス提供者は分類対象
となる全ドキュメントに関するドキュメント情報を必ず
しも登録する必要はない。設定するドキュメント情報と
しては、ドキュメント識別子,そのドキュメントのネッ
トワーク上の所在を示すアドレス,そのドキュメントの
内容を特徴づける書誌項目などである。書誌項目の具体
的な例は第1の実施例と同じである。この設定操作にし
たがって、各ドキュメント毎に図3のテーブル30の1
行が割り当てられ、その行のカラム「ドキュメント識別
子」,カラム「アドレス」,カラム「書誌項目」にそれ
ぞれドキュメント識別子,アドレス,書誌項目が格納さ
れる。なお、カラム「分類方法」はこの時点ではNUL
Lである。
キュメントに関するドキュメント情報を、ドキュメント
手動登録部11を通じてデータベース部12のドキュメ
ント情報格納部122に設定する。本実施例の場合、ド
キュメント収集部66によって後述する定期的なドキュ
メント収集が行われるため、サービス提供者は分類対象
となる全ドキュメントに関するドキュメント情報を必ず
しも登録する必要はない。設定するドキュメント情報と
しては、ドキュメント識別子,そのドキュメントのネッ
トワーク上の所在を示すアドレス,そのドキュメントの
内容を特徴づける書誌項目などである。書誌項目の具体
的な例は第1の実施例と同じである。この設定操作にし
たがって、各ドキュメント毎に図3のテーブル30の1
行が割り当てられ、その行のカラム「ドキュメント識別
子」,カラム「アドレス」,カラム「書誌項目」にそれ
ぞれドキュメント識別子,アドレス,書誌項目が格納さ
れる。なお、カラム「分類方法」はこの時点ではNUL
Lである。
【0053】さらにサービス提供者は、すでにドキュメ
ント情報格納部122にドキュメント情報が登録されて
いるドキュメントのうち、代表的なドキュメントの内容
を判別し、ドキュメント手動登録部11を通じて適切な
分類項目を指定する。この指定にしたがって、ドキュメ
ント手動登録部11は、指定されたドキュメントのドキ
ュメント識別子Di を、分類情報格納部121における
指定された分類名のドキュメント識別子のリストに追加
する。同時に、ドキュメント手動登録部11は、ドキュ
メント情報格納部122におけるその指定されたドキュ
メント識別子Di を持つ行のカラム「分類方法」に、手
動で分類したことを示す値“manual”を設定す
る。なお、ドキュメント情報格納部122に登録したド
キュメント全てを手動で分類する必要はないが、本動作
例では少なくとも各分類項目には1つ以上のドキュメン
トを分類しておく必要があり、また、後述する分類項目
の特徴量の精度を上げるためには、ある程度の数のドキ
ュメントを各分類項目に分類しておく必要がある。な
お、手動で分類されなかった残りのドキュメントのドキ
ュメント情報格納部122におけるカラム「分類方法」
の値はNULLのままである。
ント情報格納部122にドキュメント情報が登録されて
いるドキュメントのうち、代表的なドキュメントの内容
を判別し、ドキュメント手動登録部11を通じて適切な
分類項目を指定する。この指定にしたがって、ドキュメ
ント手動登録部11は、指定されたドキュメントのドキ
ュメント識別子Di を、分類情報格納部121における
指定された分類名のドキュメント識別子のリストに追加
する。同時に、ドキュメント手動登録部11は、ドキュ
メント情報格納部122におけるその指定されたドキュ
メント識別子Di を持つ行のカラム「分類方法」に、手
動で分類したことを示す値“manual”を設定す
る。なお、ドキュメント情報格納部122に登録したド
キュメント全てを手動で分類する必要はないが、本動作
例では少なくとも各分類項目には1つ以上のドキュメン
トを分類しておく必要があり、また、後述する分類項目
の特徴量の精度を上げるためには、ある程度の数のドキ
ュメントを各分類項目に分類しておく必要がある。な
お、手動で分類されなかった残りのドキュメントのドキ
ュメント情報格納部122におけるカラム「分類方法」
の値はNULLのままである。
【0054】また、サービス提供者は、ドキュメント手
動登録部11を通じてドキュメント情報格納部122に
登録した各ドキュメントごとに、そのネットワーク上の
所在を示すアドレスとそのドキュメントの更新日時との
組をファイルに記録しておく。このファイルはドキュメ
ント収集部66によって参照される。
動登録部11を通じてドキュメント情報格納部122に
登録した各ドキュメントごとに、そのネットワーク上の
所在を示すアドレスとそのドキュメントの更新日時との
組をファイルに記録しておく。このファイルはドキュメ
ント収集部66によって参照される。
【0055】以上に述べたような登録作業に引き続き、
分類特徴計算部13,ドキュメント特徴計算部14およ
び分類判定部15による自動分類処理が、第1の実施例
と同様に行われる。これにより、サービス提供者がドキ
ュメント情報格納部122に格納した全てのドキュメン
トの分類が終了する。
分類特徴計算部13,ドキュメント特徴計算部14およ
び分類判定部15による自動分類処理が、第1の実施例
と同様に行われる。これにより、サービス提供者がドキ
ュメント情報格納部122に格納した全てのドキュメン
トの分類が終了する。
【0056】続いて、ドキュメント収集部66および分
類情報抽出部67が例えば1日単位や1週単位といった
周期で定期的に起動される。
類情報抽出部67が例えば1日単位や1週単位といった
周期で定期的に起動される。
【0057】図10はドキュメント収集部66および分
類情報抽出部67の処理例を示すフローチャートであ
る。ドキュメント収集部66は起動されると、ネットワ
ーク環境から新規または更新されたドキュメントのアド
レスを取得する(step81)。これは、例えば以下
のようにして行う。まず、ネットワークを介して各種の
サーバにアクセスして、ネットワーク環境に分散して現
に存在するドキュメントのアドレスとその更新日時とを
収集し、ファイルに記録する。次に、前回の起動時に同
様にしてファイルに記録していたアドレスと更新日時と
の集合と、今回ファイルに記録したアドレスと更新日時
との集合を照合する。なお、1回目の起動時には、前回
の記録として前述したサービス提供者が作成したファイ
ルを使用する。そして、前回のファイルに記録されてお
らず、今回のファイルに記録されているアドレスを、新
規ドキュメントのアドレスとして抽出する。また、今回
のファイルにも、前回のファイルにも同じアドレスが記
録されているアドレスについては、その両者の更新日時
を比較し、相違するアドレスを、更新ドキュメントのア
ドレスとして抽出する。そして、それらのアドレスを一
時記憶に格納する。この一時記憶に格納されたアドレス
が、ネットワーク環境に新規に存在したドキュメントま
たは更新されたドキュメントのアドレスとなる。
類情報抽出部67の処理例を示すフローチャートであ
る。ドキュメント収集部66は起動されると、ネットワ
ーク環境から新規または更新されたドキュメントのアド
レスを取得する(step81)。これは、例えば以下
のようにして行う。まず、ネットワークを介して各種の
サーバにアクセスして、ネットワーク環境に分散して現
に存在するドキュメントのアドレスとその更新日時とを
収集し、ファイルに記録する。次に、前回の起動時に同
様にしてファイルに記録していたアドレスと更新日時と
の集合と、今回ファイルに記録したアドレスと更新日時
との集合を照合する。なお、1回目の起動時には、前回
の記録として前述したサービス提供者が作成したファイ
ルを使用する。そして、前回のファイルに記録されてお
らず、今回のファイルに記録されているアドレスを、新
規ドキュメントのアドレスとして抽出する。また、今回
のファイルにも、前回のファイルにも同じアドレスが記
録されているアドレスについては、その両者の更新日時
を比較し、相違するアドレスを、更新ドキュメントのア
ドレスとして抽出する。そして、それらのアドレスを一
時記憶に格納する。この一時記憶に格納されたアドレス
が、ネットワーク環境に新規に存在したドキュメントま
たは更新されたドキュメントのアドレスとなる。
【0058】次にドキュメント収集部66は、一時記憶
から1つのアドレスを読み出し(step82)、その
アドレスに従ってドキュメントをダウンロードする(s
tep84)。そして、そのドキュメントの内容から書
誌項目を決定し、この決定した書誌項目,アドレスおよ
びドキュメント識別子を含むドキュメント情報をドキュ
メント情報格納部122に登録する(step85)。
このとき、同じアドレスを持つドキュメント情報が既に
ドキュメント情報格納部122に登録されている場合、
そのドキュメント情報を削除すると共に、この削除した
ドキュメント情報のドキュメント識別子を分類情報格納
部121から削除する。
から1つのアドレスを読み出し(step82)、その
アドレスに従ってドキュメントをダウンロードする(s
tep84)。そして、そのドキュメントの内容から書
誌項目を決定し、この決定した書誌項目,アドレスおよ
びドキュメント識別子を含むドキュメント情報をドキュ
メント情報格納部122に登録する(step85)。
このとき、同じアドレスを持つドキュメント情報が既に
ドキュメント情報格納部122に登録されている場合、
そのドキュメント情報を削除すると共に、この削除した
ドキュメント情報のドキュメント識別子を分類情報格納
部121から削除する。
【0059】続いて、ダウンロードされたドキュメント
の内容およびそれに付与されたドキュメント識別子がド
キュメント収集部66から分類情報抽出部67に伝達さ
れ、分類情報抽出部67は、そのドキュメントの内容に
分類項目指定が存在するか否かを調べる(step8
6)。図11に、ドキュメント作成者がドキュメント中
に記述する分類項目指定の例を示す。図11に示すよう
に分類項目指定の記述は、ヘッダ71とコマンド名72
と引数73とから構成される。ヘッダ71は分類機能の
動作記述であることを示し、コマンド名72は分類項目
を指定するものであることを示し、引数73は分類項目
として分類1を指定することを示している。
の内容およびそれに付与されたドキュメント識別子がド
キュメント収集部66から分類情報抽出部67に伝達さ
れ、分類情報抽出部67は、そのドキュメントの内容に
分類項目指定が存在するか否かを調べる(step8
6)。図11に、ドキュメント作成者がドキュメント中
に記述する分類項目指定の例を示す。図11に示すよう
に分類項目指定の記述は、ヘッダ71とコマンド名72
と引数73とから構成される。ヘッダ71は分類機能の
動作記述であることを示し、コマンド名72は分類項目
を指定するものであることを示し、引数73は分類項目
として分類1を指定することを示している。
【0060】分類情報抽出部67は、ドキュメント中に
分類項目指定が存在しない場合は、step82に戻っ
て上述した処理を繰り返す。また、ドキュメント中に分
類項目指定が存在した場合は、指定された分類項目を抽
出し(step87)、分類情報格納部121における
指定された分類項目のドキュメント識別子のリストに、
当該ドキュメントのドキュメント識別子を追加する(s
tep88)。また、当該ドキュメント識別子を含む、
ドキュメント情報格納部122中の行のカラム「分類方
法」に、ドキュメント作成者の指定による分類であるこ
とを示す値“specify”を設定する(step8
9)。そして、step82に戻って上述した処理を繰
り返す。
分類項目指定が存在しない場合は、step82に戻っ
て上述した処理を繰り返す。また、ドキュメント中に分
類項目指定が存在した場合は、指定された分類項目を抽
出し(step87)、分類情報格納部121における
指定された分類項目のドキュメント識別子のリストに、
当該ドキュメントのドキュメント識別子を追加する(s
tep88)。また、当該ドキュメント識別子を含む、
ドキュメント情報格納部122中の行のカラム「分類方
法」に、ドキュメント作成者の指定による分類であるこ
とを示す値“specify”を設定する(step8
9)。そして、step82に戻って上述した処理を繰
り返す。
【0061】以上のような処理が繰り返され、新規また
は更新ドキュメントの全アドレスについての処理を終え
たことをstep83で検出すると、今回の処理を終了
する。これにより、ドキュメント収集部66で収集され
た新規または更新ドキュメントのうち、ドキュメント作
成者による分類項目指定が存在するドキュメントは、そ
の指定に従って分類されたことになる。
は更新ドキュメントの全アドレスについての処理を終え
たことをstep83で検出すると、今回の処理を終了
する。これにより、ドキュメント収集部66で収集され
た新規または更新ドキュメントのうち、ドキュメント作
成者による分類項目指定が存在するドキュメントは、そ
の指定に従って分類されたことになる。
【0062】その後、サービス提供者は、ドキュメント
特徴計算部14および分類判定部15に起動をかけ、ド
キュメント収集部66によって収集されたが分類情報抽
出部67によっては分類されなかったドキュメント、つ
まり分類項目指定のなかったドキュメントの自動分類を
行う。なお、分類情報抽出部67が図10のstep8
6で分類項目指定のなかったドキュメントが存在したこ
とを検出した場合に、処理の終了後に分類情報抽出部6
7からドキュメント特徴計算部14および分類判定部1
5を起動するようにしても良い。ドキュメント特徴計算
部14および分類判定部15は起動をかけられると、前
述と同様に図5に示す処理を行うことにより、ドキュメ
ント情報格納部122に格納された未分類のドキュメン
トを自動的に分類する。
特徴計算部14および分類判定部15に起動をかけ、ド
キュメント収集部66によって収集されたが分類情報抽
出部67によっては分類されなかったドキュメント、つ
まり分類項目指定のなかったドキュメントの自動分類を
行う。なお、分類情報抽出部67が図10のstep8
6で分類項目指定のなかったドキュメントが存在したこ
とを検出した場合に、処理の終了後に分類情報抽出部6
7からドキュメント特徴計算部14および分類判定部1
5を起動するようにしても良い。ドキュメント特徴計算
部14および分類判定部15は起動をかけられると、前
述と同様に図5に示す処理を行うことにより、ドキュメ
ント情報格納部122に格納された未分類のドキュメン
トを自動的に分類する。
【0063】また、この例では、分類特徴計算部13は
起動しなかったので、各分類項目の特徴量は、サービス
提供者が分類登録したドキュメントに基づいて先に決定
した値が使用される。別の実施例として、分類特徴計算
部13も起動し、各分類項目の特徴量を再計算させても
良い。こうすると、ドキュメント作成者の記述した分類
項目指定によって分類されたドキュメントの書誌項目を
も考慮して、各分類項目の特徴量が求められることにな
る。
起動しなかったので、各分類項目の特徴量は、サービス
提供者が分類登録したドキュメントに基づいて先に決定
した値が使用される。別の実施例として、分類特徴計算
部13も起動し、各分類項目の特徴量を再計算させても
良い。こうすると、ドキュメント作成者の記述した分類
項目指定によって分類されたドキュメントの書誌項目を
も考慮して、各分類項目の特徴量が求められることにな
る。
【0064】さらに以上の動作例では、サービス提供者
がドキュメントをデータベース部12に登録して一部の
ドキュメントを分類し、次いで、分類特徴計算部13,
ドキュメント特徴計算部14および分類判定部15によ
って、サービス提供者が分類しなかったドキュメントを
分類し、その後に、ドキュメント収集部66および分類
情報抽出部67の1回目の起動を行って新規および更新
ドキュメントのデータベース部12への登録と分類項目
指定のあるドキュメントの分類とを行い、そして、再び
ドキュメント特徴計算部14および分類判定部15によ
る未分類のドキュメントの分類処理を行わせた。しか
し、他の実施例として、サービス提供者がドキュメント
をデータベース部12に登録して一部のドキュメントを
分類し、次いで、ドキュメント収集部66および分類情
報抽出部67の1回目の起動を行って新規および更新ド
キュメントのデータベース部12への登録と分類項目指
定のあるドキュメントの分類とを行い、次いで、分類特
徴計算部13,ドキュメント特徴計算部14および分類
判定部15によって、未分類のドキュメント(サービス
提供者が分類しなかったドキュメント及び分類項目指定
のなかったドキュメント)を分類するようにしても良
い。
がドキュメントをデータベース部12に登録して一部の
ドキュメントを分類し、次いで、分類特徴計算部13,
ドキュメント特徴計算部14および分類判定部15によ
って、サービス提供者が分類しなかったドキュメントを
分類し、その後に、ドキュメント収集部66および分類
情報抽出部67の1回目の起動を行って新規および更新
ドキュメントのデータベース部12への登録と分類項目
指定のあるドキュメントの分類とを行い、そして、再び
ドキュメント特徴計算部14および分類判定部15によ
る未分類のドキュメントの分類処理を行わせた。しか
し、他の実施例として、サービス提供者がドキュメント
をデータベース部12に登録して一部のドキュメントを
分類し、次いで、ドキュメント収集部66および分類情
報抽出部67の1回目の起動を行って新規および更新ド
キュメントのデータベース部12への登録と分類項目指
定のあるドキュメントの分類とを行い、次いで、分類特
徴計算部13,ドキュメント特徴計算部14および分類
判定部15によって、未分類のドキュメント(サービス
提供者が分類しなかったドキュメント及び分類項目指定
のなかったドキュメント)を分類するようにしても良
い。
【0065】図12は本発明の第3の実施例にかかる分
散ドキュメント分類システムの構成を示すブロック図で
あり、図9と同一符号は同一部分を示す。
散ドキュメント分類システムの構成を示すブロック図で
あり、図9と同一符号は同一部分を示す。
【0066】本実施例の分散ドキュメント分類システム
は、ドキュメント手動登録部11を有していない点で図
9に示した第2の実施例の分散ドキュメント分類システ
ムと相違する。
は、ドキュメント手動登録部11を有していない点で図
9に示した第2の実施例の分散ドキュメント分類システ
ムと相違する。
【0067】データベース部12,分類特徴計算部1
3,ドキュメント特徴計算部14,分類判定部15,ド
キュメント収集部66および分類情報抽出部67は、基
本的に図9の第2の実施例のものと同じである。
3,ドキュメント特徴計算部14,分類判定部15,ド
キュメント収集部66および分類情報抽出部67は、基
本的に図9の第2の実施例のものと同じである。
【0068】次に本実施例の動作を、第2の実施例と相
違する部分を中心に説明する。
違する部分を中心に説明する。
【0069】サービス提供者は、ドキュメント収集部6
6および分類情報抽出部67を例えば1日単位や1週単
位といった周期で定期的に起動する。勿論、これらを定
期的に自動で起動する仕組みを組み込んでも良い。
6および分類情報抽出部67を例えば1日単位や1週単
位といった周期で定期的に起動する。勿論、これらを定
期的に自動で起動する仕組みを組み込んでも良い。
【0070】ドキュメント収集部66および分類情報抽
出部67は起動されると、図10に示した処理を開始す
る。まず、ドキュメント収集部66は、ネットワーク環
境から新規または更新されたドキュメントのアドレスを
取得し、一時記憶に記録する(step81)。この取
得は第2の実施例と同様に行われる。但し、1回目の気
時には前回ファイルが存在しないため、今回のファイル
に記録されたアドレス全てが一時記憶に移される。次に
ドキュメント収集部66は、一時記憶から1つのアドレ
スを読み出し(step82)、そのアドレスに従って
ドキュメントをダウンロードし(step84)、その
ドキュメントの内容から書誌項目を決定し、この決定し
た書誌項目,アドレスおよびドキュメント識別子を含む
ドキュメント情報をドキュメント情報格納部122に登
録する(step85)。このとき、同じアドレスを持
つドキュメント情報が既にドキュメント情報格納部12
2に登録されている場合、そのドキュメント情報を削除
すると共に、この削除したドキュメント情報のドキュメ
ント識別子を分類情報格納部121から削除する。
出部67は起動されると、図10に示した処理を開始す
る。まず、ドキュメント収集部66は、ネットワーク環
境から新規または更新されたドキュメントのアドレスを
取得し、一時記憶に記録する(step81)。この取
得は第2の実施例と同様に行われる。但し、1回目の気
時には前回ファイルが存在しないため、今回のファイル
に記録されたアドレス全てが一時記憶に移される。次に
ドキュメント収集部66は、一時記憶から1つのアドレ
スを読み出し(step82)、そのアドレスに従って
ドキュメントをダウンロードし(step84)、その
ドキュメントの内容から書誌項目を決定し、この決定し
た書誌項目,アドレスおよびドキュメント識別子を含む
ドキュメント情報をドキュメント情報格納部122に登
録する(step85)。このとき、同じアドレスを持
つドキュメント情報が既にドキュメント情報格納部12
2に登録されている場合、そのドキュメント情報を削除
すると共に、この削除したドキュメント情報のドキュメ
ント識別子を分類情報格納部121から削除する。
【0071】続いて、ダウンロードされたドキュメント
の内容およびそれに付与されたドキュメント識別子がド
キュメント収集部66から分類情報抽出部67に伝達さ
れ、分類情報抽出部67は、そのドキュメントの内容に
図11に例示したような分類項目指定が存在するか否か
を調べる(step86)。ドキュメント中に分類項目
指定が存在しない場合は、step82に戻って上述し
た処理を繰り返す。また、ドキュメント中に分類項目指
定が存在した場合は、指定された分類項目を抽出し(s
tep87)、分類情報格納部121における指定され
た分類項目のドキュメント識別子のリストに、当該ドキ
ュメントのドキュメント識別子を追加する(step8
8)。また、当該ドキュメント識別子を含む、ドキュメ
ント情報格納部122中の行のカラム「分類方法」に、
ドキュメント作成者の指定による分類であることを示す
値“specify”を設定する(step89)。そ
して、step82に戻って上述した処理を繰り返す。
の内容およびそれに付与されたドキュメント識別子がド
キュメント収集部66から分類情報抽出部67に伝達さ
れ、分類情報抽出部67は、そのドキュメントの内容に
図11に例示したような分類項目指定が存在するか否か
を調べる(step86)。ドキュメント中に分類項目
指定が存在しない場合は、step82に戻って上述し
た処理を繰り返す。また、ドキュメント中に分類項目指
定が存在した場合は、指定された分類項目を抽出し(s
tep87)、分類情報格納部121における指定され
た分類項目のドキュメント識別子のリストに、当該ドキ
ュメントのドキュメント識別子を追加する(step8
8)。また、当該ドキュメント識別子を含む、ドキュメ
ント情報格納部122中の行のカラム「分類方法」に、
ドキュメント作成者の指定による分類であることを示す
値“specify”を設定する(step89)。そ
して、step82に戻って上述した処理を繰り返す。
【0072】以上のような処理が繰り返され、新規また
は更新ドキュメントの全アドレスについての処理を終え
たことをstep83で検出すると、今回の処理を終了
する。これにより、ドキュメント収集部66で収集され
た新規または更新ドキュメントのうち、ドキュメント作
成者による分類項目指定が存在するドキュメントは、そ
の指定に従って分類される。
は更新ドキュメントの全アドレスについての処理を終え
たことをstep83で検出すると、今回の処理を終了
する。これにより、ドキュメント収集部66で収集され
た新規または更新ドキュメントのうち、ドキュメント作
成者による分類項目指定が存在するドキュメントは、そ
の指定に従って分類される。
【0073】その後、サービス提供者は、分類特徴計算
部13,ドキュメント特徴計算部14および分類判定部
15に起動をかけ、ドキュメント収集部66によって収
集されたが分類情報抽出部67によっては分類されなか
ったドキュメント、つまり分類項目指定のなかったドキ
ュメントの自動分類を行う。なお、分類情報抽出部67
が図10のstep86で分類項目指定のなかったドキ
ュメントが存在したことを検出した場合に、処理の終了
後に分類情報抽出部67から分類特徴計算部13,ドキ
ュメント特徴計算部14および分類判定部15を起動す
るようにしても良い。分類特徴計算部13,ドキュメン
ト特徴計算部14および分類判定部15は起動をかけら
れると、第1および第2の実施例と同様に図4および図
5に示す処理を行うことにより、ドキュメント情報格納
部122に格納された未分類のドキュメントを自動的に
分類する。
部13,ドキュメント特徴計算部14および分類判定部
15に起動をかけ、ドキュメント収集部66によって収
集されたが分類情報抽出部67によっては分類されなか
ったドキュメント、つまり分類項目指定のなかったドキ
ュメントの自動分類を行う。なお、分類情報抽出部67
が図10のstep86で分類項目指定のなかったドキ
ュメントが存在したことを検出した場合に、処理の終了
後に分類情報抽出部67から分類特徴計算部13,ドキ
ュメント特徴計算部14および分類判定部15を起動す
るようにしても良い。分類特徴計算部13,ドキュメン
ト特徴計算部14および分類判定部15は起動をかけら
れると、第1および第2の実施例と同様に図4および図
5に示す処理を行うことにより、ドキュメント情報格納
部122に格納された未分類のドキュメントを自動的に
分類する。
【0074】ドキュメント収集部66および分類情報抽
出部67は、1日後あるいは1週間後に再び起動され、
ネットワーク環境から新規または更新ドキュメントを収
集し、データベース部12に登録する。そして、その登
録後に再び未分類のドキュメントを自動分類するため
に、分類特徴計算部13,ドキュメント特徴計算部14
および分類判定部15が起動される。ここで、ドキュメ
ント収集部66および分類情報抽出部67の2回目以降
の動作終了時に行われる自動分類処理では、分類特徴計
算部13は必ずしも起動する必要はなく、前回求められ
た各分類項目の特徴量を使って自動分類するようにして
も良い。
出部67は、1日後あるいは1週間後に再び起動され、
ネットワーク環境から新規または更新ドキュメントを収
集し、データベース部12に登録する。そして、その登
録後に再び未分類のドキュメントを自動分類するため
に、分類特徴計算部13,ドキュメント特徴計算部14
および分類判定部15が起動される。ここで、ドキュメ
ント収集部66および分類情報抽出部67の2回目以降
の動作終了時に行われる自動分類処理では、分類特徴計
算部13は必ずしも起動する必要はなく、前回求められ
た各分類項目の特徴量を使って自動分類するようにして
も良い。
【0075】図13は本発明の分散ドキュメント分類シ
ステムを実現するハードウェアの一例を示すブロック図
であり、CPU,メモリ,磁気ディスク,ディスプレイ
装置,入力装置および通信装置等を含むデータ処理装置
(コンピュータ)71と、分散ドキュメント分類用プロ
グラムを記録した記録媒体72とから構成されている。
記録媒体72は、CDROM,半導体メモリ,磁気ディ
スクその他の記録媒体であって良い。分散ドキュメント
分類用プログラムは記録媒体72からデータ処理装置7
1に読み込まれ、データ処理装置71の動作を制御する
ことにより、前述した第1の実施例にあっては、データ
処理装置71上に、ドキュメント手動登録部11,デー
タベース部12,分類特徴計算部13,ドキュメント特
徴計算部14および分類判定部15を実現し、第2の実
施例にあっては、ドキュメント手動登録部11,データ
ベース部12,分類特徴計算部13,ドキュメント特徴
計算部14,分類判定部15,ドキュメント収集部66
および分類情報抽出部67を実現し、第3の実施例にあ
っては、データベース部12,分類特徴計算部13,ド
キュメント特徴計算部14,分類判定部15,ドキュメ
ント収集部66および分類情報抽出部67を実現する。
ステムを実現するハードウェアの一例を示すブロック図
であり、CPU,メモリ,磁気ディスク,ディスプレイ
装置,入力装置および通信装置等を含むデータ処理装置
(コンピュータ)71と、分散ドキュメント分類用プロ
グラムを記録した記録媒体72とから構成されている。
記録媒体72は、CDROM,半導体メモリ,磁気ディ
スクその他の記録媒体であって良い。分散ドキュメント
分類用プログラムは記録媒体72からデータ処理装置7
1に読み込まれ、データ処理装置71の動作を制御する
ことにより、前述した第1の実施例にあっては、データ
処理装置71上に、ドキュメント手動登録部11,デー
タベース部12,分類特徴計算部13,ドキュメント特
徴計算部14および分類判定部15を実現し、第2の実
施例にあっては、ドキュメント手動登録部11,データ
ベース部12,分類特徴計算部13,ドキュメント特徴
計算部14,分類判定部15,ドキュメント収集部66
および分類情報抽出部67を実現し、第3の実施例にあ
っては、データベース部12,分類特徴計算部13,ド
キュメント特徴計算部14,分類判定部15,ドキュメ
ント収集部66および分類情報抽出部67を実現する。
【0076】以上、本発明について幾つかの実施例を挙
げて説明したが、本発明は以上の実施例にのみ限定され
ず、その他各種の付加変更が可能である。例えば、書誌
項目として前述した具体例に示される以外のものを使用
しても良く、タイトル等の付随情報を含ませても良い。
また各分類項目の特徴量や各ドキュメントの特徴量の求
め方も前述した具体例以外の方法を適用することが可能
である。更に、分類項目はフラットな構造である必要は
なく、階層構造を持った分類項目を使用することもでき
る。
げて説明したが、本発明は以上の実施例にのみ限定され
ず、その他各種の付加変更が可能である。例えば、書誌
項目として前述した具体例に示される以外のものを使用
しても良く、タイトル等の付随情報を含ませても良い。
また各分類項目の特徴量や各ドキュメントの特徴量の求
め方も前述した具体例以外の方法を適用することが可能
である。更に、分類項目はフラットな構造である必要は
なく、階層構造を持った分類項目を使用することもでき
る。
【0077】
【発明の効果】以上説明したように本発明によれば以下
のような効果を得ることができる。
のような効果を得ることができる。
【0078】ネットワーク環境に分散して存在するドキ
ュメントの一部を手動で分類する作業をサービス提供者
が行えば、その他のドキュメントは既に分類されている
ドキュメント群との類似度を計算して自動的に分類する
ことができる。特に、手動登録においては、個々のドキ
ュメントの書誌項目を調べてそれをドキュメント識別子
と共にドキュメント情報格納部に登録する作業と並行し
て、そのように調査したドキュメントを実際に分類する
作業が行える。このため、後の自動登録の際に使用する
各分類項目ごとの特徴量の基礎となる書誌項目の設定を
正確に行えるばかりか、一部のドキュメントの分類も同
時に行えてしまうので無駄がない。
ュメントの一部を手動で分類する作業をサービス提供者
が行えば、その他のドキュメントは既に分類されている
ドキュメント群との類似度を計算して自動的に分類する
ことができる。特に、手動登録においては、個々のドキ
ュメントの書誌項目を調べてそれをドキュメント識別子
と共にドキュメント情報格納部に登録する作業と並行し
て、そのように調査したドキュメントを実際に分類する
作業が行える。このため、後の自動登録の際に使用する
各分類項目ごとの特徴量の基礎となる書誌項目の設定を
正確に行えるばかりか、一部のドキュメントの分類も同
時に行えてしまうので無駄がない。
【0079】収集されたドキュメント中に記述された分
類項目指定を識別して分類する分類情報抽出部を備える
ことによって、ドキュメント作成者自身が分類を指定す
ることができ、より正確な分類が可能となる。また、分
類項目指定のなかったドキュメントについても自動分類
することができる。
類項目指定を識別して分類する分類情報抽出部を備える
ことによって、ドキュメント作成者自身が分類を指定す
ることができ、より正確な分類が可能となる。また、分
類項目指定のなかったドキュメントについても自動分類
することができる。
【図1】本発明の第1の実施例にかかる分散ドキュメン
ト分類システムの構成を示すブロック図である。
ト分類システムの構成を示すブロック図である。
【図2】分類情報格納部に格納される情報のデータ構造
の一例を示すテーブルである。
の一例を示すテーブルである。
【図3】ドキュメント情報格納部に格納される情報のデ
ータ構造の一例を示すテーブルである。
ータ構造の一例を示すテーブルである。
【図4】分類特徴計算部の処理例を示すフローチャート
である。
である。
【図5】ドキュメント特徴計算部および分類判定部の処
理例を示すフローチャートである。
理例を示すフローチャートである。
【図6】ドキュメントの書誌項目および特徴量の具体例
を示す図である。
を示す図である。
【図7】分類項目の特徴量の具体例を示す図である。
【図8】未分類ドキュメントの書誌項目および特徴量の
具体例を示す図である。
具体例を示す図である。
【図9】本発明の第2の実施例にかかる分散ドキュメン
ト分類システムの構成を示すブロック図である。
ト分類システムの構成を示すブロック図である。
【図10】ドキュメント収集部および分類情報抽出部の
処理例を示すフローチャートである。
処理例を示すフローチャートである。
【図11】ドキュメント作成者がドキュメント中に記述
する分類項目指定の例を示す図である。
する分類項目指定の例を示す図である。
【図12】本発明の第3の実施例にかかる分散ドキュメ
ント分類システムの構成を示すブロック図である。
ント分類システムの構成を示すブロック図である。
【図13】本発明の分散ドキュメント分類システムを実
現するハードウェアの一例を示すブロック図である。
現するハードウェアの一例を示すブロック図である。
【図14】従来の分散ドキュメント分類システムの構成
を示すブロック図である。
を示すブロック図である。
11…ドキュメント手動登録部 12…データベース部 121…分類情報格納部 122…ドキュメント情報格納部 13…分類特徴計算部 14…ドキュメント特徴計算部 15…分類判定部 66…ドキュメント収集部 67…分類情報抽出部
Claims (6)
- 【請求項1】 ネットワーク環境に分散して存在するド
キュメントを分類する分散ドキュメント分類システムに
おいて、 予め指定された分類項目および各分類項目に属するドキ
ュメントの識別子を含む分類情報を格納する分類情報格
納部と、各ドキュメントの識別子および各ドキュメント
の内容を特徴付ける書誌項目を含むドキュメント情報を
格納するドキュメント情報格納部とを有するデータベー
ス部と、 サービス提供者が、ドキュメントのドキュメント情報を
前記ドキュメント情報格納部に登録し、且つ、ドキュメ
ントの識別子を前記分類情報格納部の該当する分類項目
に登録するためのドキュメント手動登録部と、 前記分類情報格納部に格納された分類情報と前記ドキュ
メント情報格納部に格納されたドキュメント情報とに基
づき、各分類項目の特徴量を計算する分類特徴計算部
と、 前記ドキュメント情報格納部にドキュメント情報が登録
されているが、そのドキュメント識別子が前記分類情報
格納部に登録されていない未分類のドキュメントについ
て、前記ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算するドキュメント特徴計算部と、 該ドキュメント特徴計算部で計算された特徴量と前記分
類特徴計算部で計算された各分類項目の特徴量とに基づ
いて、前記未分類のドキュメントが属すべき分類項目を
判定し、そのドキュメントの識別子を前記分類情報格納
部の前記判定した分類項目に登録する分類判定部とから
構成されることを特徴とする分散ドキュメント分類シス
テム。 - 【請求項2】 新規に作成されたドキュメント及び内容
の更新されたドキュメントをネットワーク環境から定期
的に収集し、そのドキュメントのドキュメント情報を前
記ドキュメント情報格納部に新規登録または更新登録す
るドキュメント収集部と、 該ドキュメント収集部で収集されたドキュメント中に分
類項目指定が存在するか否かを調べ、存在する場合には
そのドキュメントのドキュメント識別子を前記分類情報
格納部の前記指定された分類項目に登録する分類情報抽
出部とを有することを特徴とする請求項1記載の分散ド
キュメント分類システム。 - 【請求項3】 ネットワーク環境に分散して存在するド
キュメントを分類する分散ドキュメント分類システムに
おいて、 予め指定された分類項目および各分類項目に属するドキ
ュメントの識別子を含む分類情報を格納する分類情報格
納部と、各ドキュメントの識別子および各ドキュメント
の内容を特徴付ける書誌項目を含むドキュメント情報を
格納するドキュメント情報格納部とを有するデータベー
ス部と、 新規に作成されたドキュメント及び内容の更新されたド
キュメントをネットワーク環境から定期的に収集し、そ
のドキュメントのドキュメント情報を前記ドキュメント
情報格納部に新規登録または更新登録するドキュメント
収集部と、 該ドキュメント収集部で収集されたドキュメント中に分
類項目指定が存在するか否かを調べ、存在する場合には
そのドキュメントのドキュメント識別子を前記分類情報
格納部の前記指定された分類項目に登録する分類情報抽
出部と、 前記分類情報格納部に格納された分類情報と前記ドキュ
メント情報格納部に格納されたドキュメント情報とに基
づき、各分類項目の特徴量を計算する分類特徴計算部
と、 前記ドキュメント情報格納部にドキュメント情報が登録
されているが、そのドキュメント識別子が前記分類情報
格納部に登録されていない未分類のドキュメントについ
て、前記ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算するドキュメント特徴計算部と、 該ドキュメント特徴計算部で計算された特徴量と前記分
類特徴計算部で計算された各分類項目の特徴量とに基づ
いて、前記未分類のドキュメントが属すべき分類項目を
判定し、そのドキュメントの識別子を前記分類情報格納
部の前記判定した分類項目に登録する分類判定部とから
構成されることを特徴とする分散ドキュメント分類シス
テム。 - 【請求項4】 ネットワーク環境に分散して存在するド
キュメントを分類するプログラムであって、コンピュー
タを、 予め指定された分類項目および各分類項目に属するドキ
ュメントの識別子を含む分類情報を格納する分類情報格
納部と、各ドキュメントの識別子および各ドキュメント
の内容を特徴付ける書誌項目を含むドキュメント情報を
格納するドキュメント情報格納部とを有するデータベー
ス部、 サービス提供者が、ドキュメントのドキュメント情報を
前記ドキュメント情報格納部に登録し、且つ、ドキュメ
ントの識別子を前記分類情報格納部の該当する分類項目
に登録するためのドキュメント手動登録部、 前記分類情報格納部に格納された分類情報と前記ドキュ
メント情報格納部に格納されたドキュメント情報とに基
づき、各分類項目の特徴量を計算する分類特徴計算部、 前記ドキュメント情報格納部にドキュメント情報が登録
されているが、そのドキュメント識別子が前記分類情報
格納部に登録されていない未分類のドキュメントについ
て、前記ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算するドキュメント特徴計算部、 該ドキュメント特徴計算部で計算された特徴量と前記分
類特徴計算部で計算された各分類項目の特徴量とに基づ
いて、前記未分類のドキュメントが属すべき分類項目を
判定し、そのドキュメントの識別子を前記分類情報格納
部の前記判定した分類項目に登録する分類判定部、 として機能させるプログラムを記録した機械読み取り可
能な記録媒体。 - 【請求項5】 コンピュータを、更に、新規に作成され
たドキュメント及び内容の更新されたドキュメントをネ
ットワーク環境から定期的に収集し、そのドキュメント
のドキュメント情報を前記ドキュメント情報格納部に新
規登録または更新登録するドキュメント収集部、 該ドキュメント収集部で収集されたドキュメント中に分
類項目指定が存在するか否かを調べ、存在する場合には
そのドキュメントのドキュメント識別子を前記分類情報
格納部の前記指定された分類項目に登録する分類情報抽
出部、 として機能させるプログラムを記録した請求項4記載の
プログラムを記録した機械読み取り可能な記録媒体。 - 【請求項6】 ネットワーク環境に分散して存在するド
キュメントを分類するプログラムであって、コンピュー
タを、 予め指定された分類項目および各分類項目に属するドキ
ュメントの識別子を含む分類情報を格納する分類情報格
納部と、各ドキュメントの識別子および各ドキュメント
の内容を特徴付ける書誌項目を含むドキュメント情報を
格納するドキュメント情報格納部とを有するデータベー
ス部、 新規に作成されたドキュメント及び内容の更新されたド
キュメントをネットワーク環境から定期的に収集し、そ
のドキュメントのドキュメント情報を前記ドキュメント
情報格納部に新規登録または更新登録するドキュメント
収集部、 該ドキュメント収集部で収集されたドキュメント中に分
類項目指定が存在するか否かを調べ、存在する場合には
そのドキュメントのドキュメント識別子を前記分類情報
格納部の前記指定された分類項目に登録する分類情報抽
出部、 前記分類情報格納部に格納された分類情報と前記ドキュ
メント情報格納部に格納されたドキュメント情報とに基
づき、各分類項目の特徴量を計算する分類特徴計算部、 前記ドキュメント情報格納部にドキュメント情報が登録
されているが、そのドキュメント識別子が前記分類情報
格納部に登録されていない未分類のドキュメントについ
て、前記ドキュメント情報格納部に登録されているドキ
ュメント情報に基づき、そのドキュメントの特徴量を計
算するドキュメント特徴計算部、 該ドキュメント特徴計算部で計算された特徴量と前記分
類特徴計算部で計算された各分類項目の特徴量とに基づ
いて、前記未分類のドキュメントが属すべき分類項目を
判定し、そのドキュメントの識別子を前記分類情報格納
部の前記判定した分類項目に登録する分類判定部、 として機能させるプログラムを記録した機械読み取り可
能な記録媒体。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9047332A JPH10228486A (ja) | 1997-02-14 | 1997-02-14 | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
| US09/023,703 US5983246A (en) | 1997-02-14 | 1998-02-13 | Distributed document classifying system and machine readable storage medium recording a program for document classifying |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9047332A JPH10228486A (ja) | 1997-02-14 | 1997-02-14 | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10228486A true JPH10228486A (ja) | 1998-08-25 |
Family
ID=12772278
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9047332A Pending JPH10228486A (ja) | 1997-02-14 | 1997-02-14 | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5983246A (ja) |
| JP (1) | JPH10228486A (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000137723A (ja) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体 |
| JP2000250832A (ja) * | 1999-02-26 | 2000-09-14 | Oki Electric Ind Co Ltd | 分散ディレクトリ管理システム |
| JP2008070958A (ja) * | 2006-09-12 | 2008-03-27 | Sony Corp | 情報処理装置および方法、並びに、プログラム |
| JP2008524712A (ja) * | 2004-12-17 | 2008-07-10 | ゼネラル・エレクトリック・カンパニイ | ドメイン特定のデータ・エンティティ・マッピング方法及びシステム |
| JP2010509669A (ja) * | 2006-11-14 | 2010-03-25 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツアイテムを分類するための方法及び装置 |
| JP2012524941A (ja) * | 2009-04-22 | 2012-10-18 | マイクロソフト コーポレーション | 自動分類ルールを含むデータ分類パイプライン |
Families Citing this family (38)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6842876B2 (en) * | 1998-04-14 | 2005-01-11 | Fuji Xerox Co., Ltd. | Document cache replacement policy for automatically generating groups of documents based on similarity of content |
| US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
| GB9821787D0 (en) * | 1998-10-06 | 1998-12-02 | Data Limited | Apparatus for classifying or processing data |
| US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
| AU1356301A (en) | 1999-11-01 | 2001-05-14 | Lockheed Martin Corporation | System and method for the storage and access of electronic data in a web-based computer system |
| FR2801997A1 (fr) * | 1999-12-02 | 2001-06-08 | Itesoft | Technologie adaptative d'analyse automatique de document |
| US7024455B2 (en) * | 2000-03-31 | 2006-04-04 | Fujitsu Limited | Network community supporting method and system |
| US6826551B1 (en) * | 2000-05-10 | 2004-11-30 | Advanced Digital Systems, Inc. | System, computer software program product, and method for producing a contextual electronic message from an input to a pen-enabled computing system |
| TW548557B (en) * | 2000-09-13 | 2003-08-21 | Intumit Inc | A method and system for electronic document to have fast-search category and mutual link |
| US7200606B2 (en) * | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
| JP4900998B2 (ja) * | 2000-11-30 | 2012-03-21 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
| US6647396B2 (en) * | 2000-12-28 | 2003-11-11 | Trilogy Development Group, Inc. | Classification based content management system |
| US7286998B2 (en) * | 2001-04-20 | 2007-10-23 | American Express Travel Related Services Company, Inc. | System and method for travel carrier contract management and optimization using spend analysis |
| US7856359B2 (en) * | 2001-07-02 | 2010-12-21 | American Express Travel Related Services Company, Inc. | System and method for airline purchasing program management |
| US7539620B2 (en) * | 2002-07-02 | 2009-05-26 | American Express Travel Related Services Company, Inc. | System and method for facilitating transactions among consumers and providers of travel services |
| US7499864B2 (en) * | 2002-01-25 | 2009-03-03 | American Express Travel Related Services Company, Inc. | Integrated travel industry system |
| US20050288974A1 (en) * | 2001-08-23 | 2005-12-29 | American Express Travel Related Services Company, Inc. | Travel service broker system and method |
| US20040260581A1 (en) * | 2001-08-23 | 2004-12-23 | American Express Travel Related Services Company, Inc. | Travel market broker system |
| US8635687B2 (en) * | 2001-09-06 | 2014-01-21 | Mastercard International Incorporated | Method and device for control by consumers over personal data |
| JP4261783B2 (ja) * | 2001-09-11 | 2009-04-30 | キヤノン株式会社 | 文書登録システム、方法、プログラム及び記憶媒体 |
| WO2003030033A2 (en) * | 2001-10-01 | 2003-04-10 | Delphion, Inc. | System and method for generating a work set of patents or other documents |
| US7644102B2 (en) * | 2001-10-19 | 2010-01-05 | Xerox Corporation | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
| US7805323B2 (en) | 2002-01-25 | 2010-09-28 | American Express Travel Related Services Company, Inc. | System and method for processing trip requests |
| US20030221166A1 (en) * | 2002-05-17 | 2003-11-27 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
| DE10248837A1 (de) * | 2002-10-19 | 2004-04-29 | Philips Intellectual Property & Standards Gmbh | System und Verfahren zur Verarbeitung von elektronischen Dokumenten |
| US20040261016A1 (en) * | 2003-06-20 | 2004-12-23 | Miavia, Inc. | System and method for associating structured and manually selected annotations with electronic document contents |
| US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
| US7516492B1 (en) * | 2003-10-28 | 2009-04-07 | Rsa Security Inc. | Inferring document and content sensitivity from public account accessibility |
| US9235655B2 (en) * | 2004-05-21 | 2016-01-12 | Hewlett-Packard Development Company, L.P. | Task-based design evaluation |
| WO2007050646A2 (en) * | 2005-10-24 | 2007-05-03 | Capsilon Fsg, Inc. | A business method using the automated processing of paper and unstructured electronic documents |
| US8176004B2 (en) * | 2005-10-24 | 2012-05-08 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
| US7734554B2 (en) * | 2005-10-27 | 2010-06-08 | Hewlett-Packard Development Company, L.P. | Deploying a document classification system |
| US7529748B2 (en) * | 2005-11-15 | 2009-05-05 | Ji-Rong Wen | Information classification paradigm |
| US8219898B2 (en) * | 2007-06-11 | 2012-07-10 | Brother Kogyo Kabushiki Kaisha | Document registration system, information processing apparatus, and computer usable medium therefor |
| US9122679B1 (en) * | 2012-12-28 | 2015-09-01 | Symantec Corporation | Method and system for information retrieval effectiveness estimation in e-discovery |
| JP6525624B2 (ja) * | 2015-02-09 | 2019-06-05 | キヤノン株式会社 | 文書管理システム、文書登録装置、文書登録方法 |
| JP7293780B2 (ja) * | 2019-03-25 | 2023-06-20 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、文書管理システム及びプログラム |
| CN113239207B (zh) * | 2021-07-12 | 2021-09-24 | 深圳市知酷信息技术有限公司 | 一种基于文档数据分析的在线文献归纳和储存系统 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
| JPH06348755A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書分類方法およびそのシステム |
| JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
| JPH08153121A (ja) * | 1994-09-30 | 1996-06-11 | Hitachi Ltd | 文書情報分類方法および文書情報分類装置 |
| JPH08166965A (ja) * | 1994-12-14 | 1996-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本語テキスト自動分類方法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2770715B2 (ja) * | 1993-08-25 | 1998-07-02 | 富士ゼロックス株式会社 | 構造化文書検索装置 |
| US5799325A (en) * | 1993-11-19 | 1998-08-25 | Smartpatents, Inc. | System, method, and computer program product for generating equivalent text files |
| US5850490A (en) * | 1993-12-22 | 1998-12-15 | Xerox Corporation | Analyzing an image of a document using alternative positionings of a class of segments |
| CA2140850C (en) * | 1994-02-24 | 1999-09-21 | Howard Paul Katseff | Networked system for display of multimedia presentations |
| US5761686A (en) * | 1996-06-27 | 1998-06-02 | Xerox Corporation | Embedding encoded information in an iconic version of a text image |
| US5765176A (en) * | 1996-09-06 | 1998-06-09 | Xerox Corporation | Performing document image management tasks using an iconic image having embedded encoded information |
-
1997
- 1997-02-14 JP JP9047332A patent/JPH10228486A/ja active Pending
-
1998
- 1998-02-13 US US09/023,703 patent/US5983246A/en not_active Expired - Fee Related
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0554037A (ja) * | 1991-08-28 | 1993-03-05 | Fujitsu Ltd | 文書分類方式 |
| JPH06348755A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書分類方法およびそのシステム |
| JPH0749875A (ja) * | 1993-08-06 | 1995-02-21 | Hitachi Ltd | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム |
| JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
| JPH08153121A (ja) * | 1994-09-30 | 1996-06-11 | Hitachi Ltd | 文書情報分類方法および文書情報分類装置 |
| JPH08166965A (ja) * | 1994-12-14 | 1996-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本語テキスト自動分類方法 |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000137723A (ja) * | 1998-10-30 | 2000-05-16 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び文書分類プログラムを記録した媒体 |
| JP2000250832A (ja) * | 1999-02-26 | 2000-09-14 | Oki Electric Ind Co Ltd | 分散ディレクトリ管理システム |
| US7136911B1 (en) | 1999-02-26 | 2006-11-14 | Oki Electric Industry Co., Ltd. | Distributed directory management system |
| USRE42811E1 (en) | 1999-02-26 | 2011-10-04 | Gromens Acquisitions Co. L.L.C. | Distributed directory management system |
| JP2008524712A (ja) * | 2004-12-17 | 2008-07-10 | ゼネラル・エレクトリック・カンパニイ | ドメイン特定のデータ・エンティティ・マッピング方法及びシステム |
| JP2008070958A (ja) * | 2006-09-12 | 2008-03-27 | Sony Corp | 情報処理装置および方法、並びに、プログラム |
| JP2010509669A (ja) * | 2006-11-14 | 2010-03-25 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツアイテムを分類するための方法及び装置 |
| JP2012524941A (ja) * | 2009-04-22 | 2012-10-18 | マイクロソフト コーポレーション | 自動分類ルールを含むデータ分類パイプライン |
Also Published As
| Publication number | Publication date |
|---|---|
| US5983246A (en) | 1999-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH10228486A (ja) | 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体 | |
| JP4445509B2 (ja) | 構造化文書検索システム及びプログラム | |
| JP4786945B2 (ja) | インデックス付与強制クエリ | |
| JP5106045B2 (ja) | 検索エンジン連携ファイル共有システム | |
| US9043331B2 (en) | System and method for indexing documents on the world-wide web | |
| US7409401B2 (en) | Method and system for supporting multivalue attributes in a database system | |
| JPH10320423A (ja) | データベースシステムにおいて結合質問を実行する方法及び装置 | |
| US20130232175A1 (en) | Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program | |
| CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
| JP3698242B2 (ja) | 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体 | |
| JPH1031683A (ja) | Url情報データベース構築方法及びそれを利用したインターネット検索サーバ | |
| CN110597630B (zh) | 一种分布式系统中内容资源的处理方法及系统 | |
| JP2003173280A (ja) | データベース生成装置、データベース生成方法及びデータベース生成プログラム | |
| CN100449541C (zh) | 文档组分析设备、文档组分析方法及文档组分析系统 | |
| US20080071992A1 (en) | Method and Apparatus for Space Efficient Identification of Candidate Objects for Eviction from a Large Cache | |
| KR100616216B1 (ko) | 온라인 맞춤 정보의 검색 관리 시스템 및 그 방법 | |
| CN115658841B (zh) | 一种数据管理方法、装置、计算设备及存储介质 | |
| JP2001312520A5 (ja) | ||
| KR19990025292A (ko) | 필터링 과정에 의한 이미지 데이터 베이스의 효과적 검색 방법 | |
| JPH10326282A (ja) | 電子ファイル検索・編集方法及びシステム及び電子ファイル検索・編集プログラムを格納した記憶媒体 | |
| JP2000250922A (ja) | 文書検索システム、文書検索装置、文書検索方法および記録媒体 | |
| JPH08190571A (ja) | 文書検索方法 | |
| JP4219125B2 (ja) | 全文検索装置、全文検索方法、プログラム、及び記録媒体 | |
| US7779057B2 (en) | Method and apparatus for retrieving and sorting entries from a directory | |
| CN114238241B (zh) | 财务数据的元数据处理方法和计算机系统 |