JP2003256448A - データ管理装置、文書データ検索装置、データ管理プログラム及び文書データ検索プログラム、並びにデータ管理方法及び文書データ検索方法 - Google Patents
データ管理装置、文書データ検索装置、データ管理プログラム及び文書データ検索プログラム、並びにデータ管理方法及び文書データ検索方法Info
- Publication number
- JP2003256448A JP2003256448A JP2002058065A JP2002058065A JP2003256448A JP 2003256448 A JP2003256448 A JP 2003256448A JP 2002058065 A JP2002058065 A JP 2002058065A JP 2002058065 A JP2002058065 A JP 2002058065A JP 2003256448 A JP2003256448 A JP 2003256448A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document data
- document
- similarity
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/964—Database arrangement
- Y10S707/966—Distributed
- Y10S707/967—Peer-to-peer
- Y10S707/968—Partitioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
握するのに好適であり、しかも抽出の確実性を向上する
のが容易でかつユーザの要求に即応することができるデ
ータ管理装置を提供する。 【解決手段】 文書データの内容について類似度の時間
的推移を示す特徴データを文書データ登録DB44の文
書データから抽出し、抽出した特徴データに基づいて類
似度の変化点を特定し、特定した変化点をもとに文書デ
ータ登録DB44のなかから文書データを検索する。検
索では、特定した変化点またはその付近に属する文書デ
ータを検索する。
Description
新日時が異なる複数の文書データのなかから検索を行う
装置およびプログラム、並びに方法に係り、特に、膨大
なデータのなかから特徴のある部分を把握するのに好適
であり、しかも抽出の確実性を向上するのが容易でかつ
ユーザの要求に即応することができるデータ管理装置、
文書データ検索装置、データ管理プログラムおよび文書
データ検索プログラム、並びにデータ管理方法および文
書データ検索方法に関する。
ることにより業務の進捗状況を管理することがある。業
務日誌による報告は、多くの場合、一人の上司が複数人
の部下から提出された業務日誌に一つ一つ目を通してチ
ェックしている。しかし、上司も職務上の都合等によ
り、提出されたすべての業務日誌に必ずしも毎日目を通
すことはできない。また、仮にすべての業務日誌に目を
通していても、制約された時間内においては、把握でき
る情報量にどうしても限りがある。したがって、チェッ
クする業務日誌の量が膨大となった場合には、業務の進
捗状況を効率的に管理することが大変難しくなる。
に管理するには、上司は、膨大な業務日誌から効率的に
情報を得ることが必要である。そこで、まず、業務日誌
の性質について検討してみる。業務日誌は、各社員の毎
日の業務報告が主たる内容であるため、同一の社員が提
出した業務日誌について作成日時の近い業務日誌同士を
比較したときには、内容的に重複する部分が多いはずで
ある。内容的に重複する部分について毎日目を通すのは
非効率である。したがって、上司は、内容的に重複する
部分については一度だけ把握し、その後の業務日誌につ
いては特徴のある部分(すなわち、変化のあった部分)
だけを把握するようにすれば、比較的効率よく情報を得
ることができる。
務日誌を文書データとして文書データベース(以下、デ
ータベースのことを単にDBと略記する。)に蓄積し、
文書DBのなかから特徴のある部分だけを検索できるよ
うな構成を提案することができる。従来、複数の文書デ
ータのなかから検索を行う技術としては、例えば、特開
平7-325832号公報に開示されている単語仕様パターンの
時間的変化を利用した検索方法(以下、第1の従来例と
いう。)があった。また、その関連技術としては、例え
ば、特開平6-324871号公報に開示されている推論装置
(以下、第2の従来例という。)、および特開平5-5381
4号公報に開示されている事例ベース検索システム作成
支援装置(以下、第3の従来例という。)があった。
あらかじめ、テキスト情報から単語使用パターンの時間
的変化を表す特徴データを抽出する。ユーザが検索入力
を行うと、入力処理部は、ユーザの検索入力を検索処理
部で解釈できる表現形式に変換し、検索処理部に送る。
検索処理部は、テキスト情報および特徴データを利用し
て検索を行い、検索結果は、出力処理部に送られユーザ
に表示される。特徴データとしては、例えば、テキスト
情報における単語の出現確率等の各種統計量を用いるこ
とができる。
された特徴データを利用して、特定の分野・期間におい
て話題となった単語および情報等の検索を可能とし、質
の高いトレンド分析・動向分析を容易に行うことができ
る。第2の従来例では、ルール格納部に格納されたルー
ル、事例格納部に格納された事例および推論条件入力部
から入力された推論条件を、論理ベクトル変換部が、各
々、論理ベクトルである、ルールベクトル、事例ベクト
ルおよび条件ベクトルに変換する。不確定要素付加部が
ルールベクトルおよび事例ベクトルに不確定要素を付加
し、それぞれ不確定ルールベクトルおよび不確定事例ベ
クトルとする。また、結果ベクトル演算部が不確定ルー
ルベクトル、不確定事例ベクトルおよび条件ベクトルの
論理積を結果ベクトルとする。論理命題変換部が結果ベ
クトルを不確定論理命題に変換する。不確定要素除去部
が不確定論理命題から不確定要素を除去して確定論理命
題とする。論理命題出力部が確定論理命題を出力する。
負担が少ない推論を行うことができる。第3の従来例
は、事例を複数部分に分割して類似度検索が可能であ
る。ベクトル分割部とサブベクトル類似度計算部が関
連。サブベクトル化表現に伴う付加操作が可能である。
また、漸増的にシステムの性能向上を行なっていくとき
に使う変更モニター機能および変更比較機能を実現して
いる。
に必要な作成環境の必須機能を提供することができる。
来例にあっては、単語使用パターンの時間的変化を示す
特徴データに基づいて検索を行うようになっているた
め、例えば、ユーザが入力した検索単語の使用頻度が高
い文書データを抽出することができる。しかしながら、
重複する内容が比較的多い文書データ群のなかで特徴の
ある部分を抽出しようとする場合、特徴のある部分に特
定の単語が多数使用されていれば抽出も可能であるが、
特定の単語が必ずしも多数使用されているとは限らな
い。したがって、特徴のある部分を抽出することには不
向きであり、上記業務日誌の例にみるように、膨大な情
報のなかから効率的に情報を得ることは難しい。
応用した場合、専門家が構築したルールに基づいて検索
を行うことになる。しかしながら、抽出の確実性を向上
するには、専門家が構築したルールを多数蓄積すること
が必要であるが、一般に知識DBのルール蓄積は容易で
ない。さらに、ルール蓄積には時間を要するので、ユー
ザの要求に即応することが困難である。
ベクトルのみでは事例の特徴が平均化され、潜在的な適
合事例を見逃してしまうところ、サブベクトルを利用し
て部分的な特徴を比較することで潜在的な適合事例を発
見可能にしている。しかしながら、これは、あくまで事
例の検索を高精度に行うことを追求した技術であって、
重複する内容が比較的多い文書データ群のなかで特徴の
ある部分を抽出することには不向きであり、同様に、上
記業務日誌の例にみるように、膨大な情報のなかから効
率的に情報を得ることは難しい。
ような文書データの検索に限らず、膨大な情報のなかか
ら効率的に情報を得ようとするあらゆる場合に想定され
る問題である。例えば、画像データ、音楽データその他
のデータを管理するときにも起こり得るであろう。そこ
で、本発明は、このような従来の技術の有する未解決の
課題に着目してなされたものであって、膨大なデータの
なかから特徴のある部分を把握するのに好適であり、し
かも抽出の確実性を向上するのが容易でかつユーザの要
求に即応することができるデータ管理装置、文書データ
検索装置、データ管理プログラムおよび文書データ検索
プログラム、並びにデータ管理方法および文書データ検
索方法を提供することを目的としている。
成するために、発明1のデータ管理装置は、複数のデー
タを管理する装置であって、前記データの内容について
類似度を示す特徴データを前記複数のデータから抽出す
る特徴データ抽出手段と、前記特徴データ抽出手段で抽
出した特徴データに基づいて前記類似度の変化点を特定
する変化点特定手段とを備えることを特徴とする。
手段により、データの内容について類似度を示す特徴デ
ータが複数のデータから抽出され、変化点特定手段によ
り、抽出された特徴データに基づいて類似度の変化点が
特定される。したがって、ユーザは、特定された変化点
を参照することにより、膨大なデータのなかから特徴の
ある部分を比較的容易に把握することができる。 〔発明2〕さらに、発明2のデータ管理装置は、発明1
のデータ管理装置において、前記データは、文書データ
であることを特徴とする。
手段により、文書データの内容について類似度を示す特
徴データが複数の文書データから抽出され、変化点特定
手段により、抽出された特徴データに基づいて類似度の
変化点が特定される。したがって、ユーザは、特定され
た変化点を参照することにより、膨大な文書データのな
かから特徴のある部分を比較的容易に把握することがで
きる。 〔発明3〕一方、上記目的を達成するために、発明3の
文書データ検索装置は、作成日時または更新日時が異な
る複数の文書データのなかから検索を行う装置であっ
て、前記複数の文書データを記憶するための文書データ
記憶手段と、前記文書データの内容について類似度の時
間的推移を示す特徴データを前記文書データ記憶手段の
文書データから抽出する特徴データ抽出手段と、前記特
徴データ抽出手段で抽出した特徴データに基づいて前記
類似度の変化点を特定する変化点特定手段と、前記変化
点特定手段で特定した変化点をもとに前記文書データ記
憶手段のなかから前記文書データを検索する文書データ
検索手段とを備えることを特徴とする。
手段により、文書データの内容について類似度の時間的
推移を示す特徴データが文書データ記憶手段の文書デー
タから抽出され、変化点特定手段により、抽出された特
徴データに基づいて類似度の変化点が特定される。そし
て、文書データ検索手段により、特定された変化点をも
とに文書データ記憶手段のなかから文書データが検索さ
れる。
タをあらゆる手段でかつあらゆる時期に記憶するもので
あり、文書データをあらかじめ記憶してあるものであっ
てもよいし、文書データをあらかじめ記憶することな
く、本装置の動作時に外部からの入力等によって文書デ
ータを記憶するようになっていてもよい。以下、発明1
3の文書データ検索プログラムにおいて同じである。 〔発明4〕さらに、発明4の文書データ検索装置は、発
明3の文書データ検索装置において、前記文書データ検
索手段は、前記変化点特定手段で特定した変化点または
その付近に属する文書データを前記文書データ記憶手段
のなかから検索するようになっていることを特徴とす
る。
手段により、特定された変化点またはその付近に属する
文書データが文書データ記憶手段のなかから検索され
る。 〔発明5〕さらに、発明5の文書データ検索装置は、発
明3および4のいずれかの文書データ検索装置におい
て、前記変化点特定手段は、前記特徴データ抽出手段で
抽出した特徴データに基づいて許容範囲を設定し、前記
類似度の時間的推移のなかで前記許容範囲を超える点を
前記変化点として特定するようになっていることを特徴
とする。
により、抽出された特徴データに基づいて許容範囲が設
定され、類似度の時間的推移のなかで許容範囲を超える
点が変化点として特定される。 〔発明6〕さらに、発明6の文書データ検索装置は、発
明3ないし5のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記文書データ記憶手
段の文書データを所定期間ごとに区分し、各区分ごとに
その区分に属する文書データの内容を併合した期間文書
データを生成し、時系列上で隣接する期間文書データに
ついて前記類似度を算出し、算出した類似度に基づいて
前記特徴データを生成するようになっていることを特徴
とする。
手段により、文書データ記憶手段の文書データが所定期
間ごとに区分され、各区分ごとに期間文書データが生成
される。期間文書データは、一つの区分に属する文書デ
ータの内容を併合したものとして生成される。そして、
時系列上で隣接する期間文書データについて類似度が算
出され、算出された類似度に基づいて特徴データが生成
される。 〔発明7〕さらに、発明7の文書データ検索装置は、発
明3ないし5のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記文書データ記憶手
段の文書データを所定期間ごとに区分し、各区分ごとに
その区分に属する文書データの内容を併合した期間文書
データを生成し、生成した期間文書データの相互につい
て前記類似度を算出し、算出した類似度に基づいて前記
特徴データを生成するようになっていることを特徴とす
る。
手段により、文書データ記憶手段の文書データが所定期
間ごとに区分され、各区分ごとに期間文書データが生成
される。期間文書データは、一つの区分に属する文書デ
ータの内容を併合したものとして生成される。そして、
生成された期間文書データの相互について類似度が算出
され、算出された類似度に基づいて特徴データが生成さ
れる。 〔発明8〕さらに、発明8の文書データ検索装置は、発
明6および7のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記期間文書データの
内容的な特徴を示す文書ベクトルを算出し、算出した文
書ベクトルを比較することにより前記類似度を算出する
ようになっていることを特徴とする。
手段により、期間文書データの内容的な特徴を示す文書
ベクトルが算出され、算出された文書ベクトルが比較さ
れることにより類似度が算出される。 〔発明9〕さらに、発明9の文書データ検索装置は、発
明8の文書データ検索装置において、前記特徴データ抽
出手段は、前記期間文書データを形態素解析し、各形態
素ごとに前記期間文書データにおけるその形態素の出現
頻度に応じた要素をベクトル量として有するベクトルを
前記文書ベクトルとして生成するようになっていること
を特徴とする。
手段により、期間文書データが形態素解析され、各形態
素ごとに期間文書データにおけるその形態素の出現頻度
に応じた要素をベクトル量として有するベクトルが文書
ベクトルとして生成される。比較対象となる期間文書デ
ータの間で共通しない形態素がいずれかの文書データに
出現する場合は、いずれかの文書データに特徴のある部
分が含まれている可能性が高い。したがって、このよう
に、期間文書データにおける形態素の出現頻度に応じて
類似度を算出することは、膨大な文書データのなかから
特徴のある部分を検索するのに有効である。 〔発明10〕さらに、発明10の文書データ検索装置
は、発明6ないし9のいずれかの文書データ検索装置に
おいて、前記特徴データ抽出手段は、前記各期間文書デ
ータに共通する内容を前記各期間文書データから除去
し、除去を行った期間文書データに基づいて前記類似度
を算出するようになっていることを特徴とする。
手段により、各期間文書データに共通する内容が各期間
文書データから除去され、除去が行われた期間文書デー
タに基づいて類似度が算出される。 〔発明11〕一方、上記目的を達成するために、発明1
1のデータ管理プログラムは、複数のデータを管理する
プログラムであって、前記データの内容について類似度
を示す特徴データを前記複数のデータから抽出する特徴
データ抽出手段、および前記特徴データ抽出手段で抽出
した特徴データに基づいて前記類似度の変化点を特定す
る変化点特定手段として実現される処理をコンピュータ
に実行させるためのプログラムであることを特徴とす
る。
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明1の
データ管理装置と同等の作用が得られる。 〔発明12〕さらに、発明12のデータ管理プログラム
は、発明11のデータ管理プログラムにおいて、前記デ
ータは、文書データであることを特徴とする。
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明2の
データ管理装置と同等の作用が得られる。 〔発明13〕一方、上記目的を達成するために、発明1
3の文書データ検索プログラムは、作成日時または更新
日時が異なる複数の文書データのなかから検索を行うプ
ログラムであって、前記複数の文書データを記憶するた
めの文書データ記憶手段を利用可能なコンピュータに対
して、前記文書データの内容について類似度の時間的推
移を示す特徴データを前記文書データ記憶手段の文書デ
ータから抽出する特徴データ抽出手段、前記特徴データ
抽出手段で抽出した特徴データに基づいて前記類似度の
変化点を特定する変化点特定手段、および前記変化点特
定手段で特定した変化点をもとに前記文書データ記憶手
段のなかから前記文書データを検索する文書データ検索
手段として実現される処理を実行させるためのプログラ
ムであることを特徴とする。
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明3の
データ管理装置と同等の作用が得られる。 〔発明14〕一方、上記目的を達成するために、発明1
4のデータ管理方法は、複数のデータを管理する方法で
あって、前記データの内容について類似度を示す特徴デ
ータを前記複数のデータから抽出する特徴データ抽出ス
テップと、前記特徴データ抽出ステップで抽出した特徴
データに基づいて前記類似度の変化点を特定する変化点
特定ステップとを含むことを特徴とする。 〔発明15〕さらに、発明15のデータ管理方法は、発
明14のデータ管理方法において、前記データは、文書
データであることを特徴とする。 〔発明16〕一方、上記目的を達成するために、発明1
6の文書データ検索方法は、作成日時または更新日時が
異なる複数の文書データのなかから検索を行う方法であ
って、前記複数の文書データを文書データ記憶手段に記
憶する文書データ記憶ステップと、前記文書データの内
容について類似度の時間的推移を示す特徴データを前記
文書データ記憶手段の文書データから抽出する特徴デー
タ抽出ステップと、前記特徴データ抽出ステップで抽出
した特徴データに基づいて前記類似度の変化点を特定す
る変化点特定ステップと、前記変化点特定ステップで特
定した変化点をもとに前記文書データ記憶手段のなかか
ら前記文書データを検索する文書データ検索ステップと
を含むことを特徴とする。
を参照しながら説明する。図1ないし図9は、本発明に
係るデータ管理装置、文書データ検索装置、データ管理
プログラムおよび文書データ検索プログラム、並びにデ
ータ管理方法および文書データ検索方法の実施の形態を
示す図である。
装置、文書データ検索装置、データ管理プログラムおよ
び文書データ検索プログラム、並びにデータ管理方法お
よび文書データ検索方法を、図1に示すように、コンピ
ュータ100により、複数の文書データのなかから特徴
のある文書データを検索する場合について適用したもの
である。
0の構成を図1を参照しながら説明する。図1は、本発
明を適用するコンピュータ100の構成を示すブロック
図である。コンピュータ100は、図1に示すように、
制御プログラムに基づいて演算およびシステム全体を制
御するCPU30と、所定領域にあらかじめCPU30
の制御プログラム等を格納しているROM32と、RO
M32等から読み出したデータやCPU30の演算過程
で必要な演算結果を格納するためのRAM34と、外部
装置に対してデータの入出力を媒介するI/F38とで
構成されており、これらは、データを転送するための信
号線であるバス39で相互にかつデータ授受可能に接続
されている。
マンインターフェースとしてデータの入力が可能なキー
ボードやマウス等からなる入力装置40と、画像信号に
基づいて画面を表示する表示装置42と、文書データを
格納する文書データ登録DB44とが接続されている。
文書データ登録DB44は、例えば、各社員ごとに業務
日誌に関する文書データを格納するものである。したが
って、文書データ登録DB44には、作成日時または更
新日時が異なる複数の文書データが格納されている。
ニットMPU等からなり、ROM32の所定領域に格納
されている所定のプログラムを起動させ、そのプログラ
ムに従って、図2および図6のフローチャートに示す文
書ベクトル算出処理および文書データ検索処理をそれぞ
れ時分割で実行するようになっている。初めに、文書ベ
クトル算出処理を図2を参照しながら詳細に説明する。
図2は、文書ベクトル算出処理を示すフローチャートで
ある。
索に必要な文書ベクトルを算出する処理であって、CP
U30において実行されると、図2に示すように、ま
ず、ステップS100に移行するようになっている。ス
テップS100では、文書データ登録DB44に新たな
文書データが作成されたか否かを判定し、新たな文書デ
ータが作成されたと判定したとき(Yes)は、ステップS
102に移行する。
期間(例えば、1ヶ月)に属する文書データを文書デー
タ登録DB44から読み出し、ステップS104に移行
して、読み出した文書データの内容を併合した期間文書
データを生成する。ステップS104では、例えば、社
員が文書データを作成する間隔が1日単位で、上司が文
書データをチェックする間隔が1ヶ月単位である場合
は、図3(a),(b)に示すように、1月に作成され
た文書データであれば、それらを作成日時順に並び換え
て単純に結合することにより1月分の期間文書データを
生成する。また例えば、社員が文書データを作成する間
隔が1ヶ月単位で、上司が文書データをチェックする間
隔が同様に1ヶ月単位である場合は、図4に示すよう
に、1月に文書データが1つしか作成されていないとき
は、それをそのまま1月分の期間文書データとし、1月
に複数の文書データが作成されているときは、それらを
結合することにより1月分の期間文書データを生成す
る。図3および図4は、期間文書データを生成する場合
を示す図である。
成した期間文書データを文書データ登録DB44に格納
し、ステップS108に移行して、文書データ登録DB
44のすべての文書データについて期間文書データの生
成が終了したか否かを判定し、期間文書データの生成が
終了したと判定したとき(Yes)は、ステップS110に
移行する。
データを形態素解析し、いずれかの期間文書データに出
現するすべての種類の形態素を取得し、ステップS11
2に移行して、先頭の期間文書データを文書データ登録
DB44から読み出し、ステップS114に移行して、
ステップS110で取得した各形態素ごとに、読み出し
た期間文書データにおけるその形態素の出現頻度を算出
し、ステップS116に移行して、算出した出現頻度に
応じた要素をベクトル量として有するベクトルを文書ベ
クトルとして算出する。ここで、文書ベクトルを算出す
る方法を図5を参照しながら説明する。図5は、文書ベ
クトルの構成を示す図である。
に、下式(1)によりn次元ベクトルとして表現するこ
とができる。一般的に、nは、すべての期間文書データ
を形態素解析したときに得られる重複しない単語数であ
る。そして、各単語の重みWをTFIDF(Term Frequ
ency & Inverse Document Frequency)によって求め
る。
の単語の出現頻度(TF:Term Frequency)と、期間文
書データ全体でのその単語が使われている期間文書デー
タ数の頻度の逆数(IDF:Inverse Doxument Frequen
cy)の積で求め、数値が大きいほど、その単語が重要で
あるということを表している。TFは、頻出する単語は
重要であるという指標であり、下式(3)に示すよう
に、ある期間文書データに単語が出現する頻度が増加す
ると大きくなる性質を持っている。IDFは、多くの期
間文書データに出現する単語は重要でない、つまり、特
定の期間文書データに出現する単語が重要であるという
指標であり、下式(4)〜(6)に示すように、ある単
語が使われている期間文書データ数が減少すると大きく
なる性質を持っている。したがって、TFIDFの値
は、頻出するが多くの期間文書データに出現する単語
(接続詞、助詞など)や、特定の期間文書データにのみ
出現するがその期間文書データでも頻度が小さい単語に
対しては小さくなり、逆に、特定の期間文書データに高
頻度で出現する単語に対しては大きくなる性質を持って
いる。TFIDFによって期間文書データ内の単語は数
値化され、その数値を要素として期間文書データはベク
トル化することができる。
クトルを文書データ登録DB44に格納し、ステップS
120に移行して、すべての期間文書データについてス
テップS112〜S118の処理が終了したか否かを判
定し、すべての期間文書データについて処理が終了した
と判定したとき(Yes)は、一連の処理を終了して元の処
理に復帰させる。
文書データについてステップS112〜S118の処理
が終了していないと判定したとき(No)は、ステップS1
22に移行して、次の期間文書データを文書データ登録
DB44から読み出し、ステップS114に移行する。
一方、ステップS108で、文書データ登録DB44の
すべての文書データについて期間文書データの生成が終
了しないと判定したとき(No)は、ステップS124に移
行して、次の所定期間に属する文書データを文書データ
登録DB44から読み出し、ステップS104に移行す
る。
録DB44に新たな文書データが作成されないと判定し
たとき(No)は、ステップS126に移行して、文書デー
タ登録DB44の文書データが更新されたか否かを判定
し、文書データが更新されたと判定したとき(Yes)は、
ステップS102に移行するが、そうでないと判定した
とき(No)は、ステップS100に移行する。
ながら詳細に説明する。図6は、文書データ検索処理を
示すフローチャートである。文書データ検索処理は、時
系列上で隣接する期間文書データについて類似度の変化
点を特定し、特定した変化点に属する文書データを文書
データ登録DB44のなかから検索する処理であって、
CPU30において実行されると、図6に示すように、
まず、ステップS200に移行するようになっている。
要求を入力したか否かを判定し、検索要求を入力したと
判定したとき(Yes)は、ステップS202に移行する
が、そうでないと判定したとき(No)は、検索要求を入力
するまでステップS100で待機する。なお、ここでい
う検索要求とは、検索キーワードや文章ではなく、検索
すべきことをコンピュータ100に要求することであ
る。
ータの文書ベクトルを文書データ登録DB44から読み
出し、ステップS204に移行して、読み出した文書ベ
クトルに係る期間文書データに時系列上で隣接する期間
文書データ(時間的に新しい方に隣接する期間文書デー
タ)の文書ベクトルを文書データ登録DB44から読み
出し、ステップS206に移行する。
文書ベクトルを用いてベクトル演算を行うことによりそ
れらに係る期間文書データの類似度を算出する。ベクト
ル演算による類似度の算出は、ベクトル検索技術と呼ば
れるものであり、単語の重要度を反映して数値化するT
FIDFと、それによってベクトル化した文書の類似度
を計算するベクトル空間モデルとで成り立っている。例
えば、読み出した2つの文書ベクトルを文書ベクトルD
1,D2とした場合、類似度は、下式(7)により、文書
ベクトルD1,D2同士がなす角の余弦値(0〜1)とし
て算出することができる。
クトルについてステップS204,S206の処理が終
了したか否かを判定し、すべての文書ベクトルについて
処理が終了したと判定したとき(Yes)は、ステップS2
10に移行する。
で算出した1または複数の期間文書データの類似度に基
づいて、それら期間文書データの内容について類似度の
時間的推移を示す特徴データを生成する。特徴データ
は、図3の例を対象とした場合、図7に示すように、文
書ベクトル同士がなす角の余弦値(0〜1)として生成
される。図7は、特徴データを示す図である。
成した特徴データに基づいて類似度の変化点を特定す
る。具体的には、生成した特徴データに基づいて許容範
囲を設定し、類似度の時間的推移のなかで許容範囲を超
える点を変化点として特定する。例えば、図8に示すよ
うに、類似度の平均値および分散から限界線となる2つ
の水平線を求め、それら限界線で囲まれる領域を許容範
囲として設定することができる。この場合、期間文書デ
ータPxの類似度がその許容範囲を超えているので、こ
れを変化点として特定する。また例えば、図9に示すよ
うに、類似度の平均値および分散から類似度の推移曲線
に沿った2つの近似曲線を求め、それら近似曲線で囲ま
れる領域を許容範囲として設定することもできる。この
場合、同様に、期間文書データPxの類似度がその許容
範囲を超えているので、これを変化点として特定する。
図8および図9は、類似度の時間的推移を示すグラフで
ある。
定した変化点またはその付近に属する文書データを文書
データ登録DB44のなかから検索する。図3の例にお
いて、例えば、10月と11月の間に類似度の変化点が
存在した場合は、10月から11月に移行した際に業務
内容に変化があったことが分かるので、11月の業務日
誌の文書データを若い日付順に検索していけばよい。
索により抽出した文書データを類似度の高い順に並び換
えて文書データの一覧を生成し、ステップS216に移
行して、生成した文書データの一覧を表示装置42に表
示し、一連の処理を終了して元の処理に復帰させる。一
方、ステップS208で、すべての文書ベクトルについ
てステップS204,S206の処理が終了しないと判
定したとき(No)は、ステップS218に移行して、次の
期間文書データの文書ベクトルを文書データ登録DB4
4から読み出し、ステップS204に移行する。
る企業等では、社員に業務日誌を提出させることにより
業務の進捗状況を管理している。業務日誌による報告
は、一人の上司が複数人の部下から提出された業務日誌
に一つ一つ目を通してチェックする。各社員は、日々の
業務状況を記載した業務日報を文書データとして作成
し、作成した文書データをメールに添付して上司に送付
するとともに文書データ登録DB44に登録する。
文書ベクトルを作成する場合を説明する。文書データが
作成されると、ステップS100〜S106を経て、基
準日時から所定期間(例えば、1ヶ月)に属する文書デ
ータが文書データ登録DB44から読み出され、読み出
された文書データの内容を併合した期間文書データが生
成され、生成された期間文書データが文書データ登録D
B44に格納される。そして、ステップS102,S1
04を繰り返し経て、文書データ登録DB44のすべて
の文書データについて、期間文書データの生成および格
納が行われる。
タが生成されると、ステップS110を経て、すべての
期間文書データが形態素解析され、いずれかの期間文書
データに出現するすべての種類の形態素が取得される。
次いで、ステップS112〜S118を経て、先頭の期
間文書データが文書データ登録DB44から読み出さ
れ、取得された各形態素ごとに、読み出された期間文書
データにおけるその形態素の出現頻度が算出され、算出
された出現頻度に応じた要素をベクトル量として有する
ベクトルが文書ベクトルとして算出される。そして、ス
テップS114〜S118を繰り返し経て、すべての期
間文書データについて、出現頻度の算出、並びに文書ベ
クトルの算出および格納が行われる。
ータをチェックする場合を説明する。上司は、文書デー
タのチェックを行うに先立って検索要求を入力する。検
索要求が入力されると、ステップS200〜S206を
経て、先頭の期間文書データの文書ベクトルが文書デー
タ登録DB44から読み出され、読み出された文書ベク
トルに係る期間文書データに時系列上で隣接する期間文
書データの文書ベクトルが文書データ登録DB44から
読み出され、読み出された2つの文書ベクトルを用いて
ベクトル演算を行うことによりそれらに係る期間文書デ
ータの類似度が算出される。そして、ステップS20
4,S206を繰り返し経て、すべての文書ベクトルに
ついて、隣接の文書ベクトルの読出および類似度の算出
が行われる。
出されると、ステップS210,S211を経て、算出
された1または複数の期間文書データの類似度に基づい
て、それら期間文書データの内容について類似度の時間
的推移を示す特徴データが生成され、生成された特徴デ
ータに基づいて類似度の変化点が特定される。次いで、
ステップS212を経て、特定された変化点またはその
付近に属する文書データが文書データ登録DB44のな
かから検索される。その結果、該当の文書データが抽出
されると、ステップS214,S216を経て、検索に
より抽出された文書データが類似度の高い順に並び換え
られて文書データの一覧が生成され、生成された文書デ
ータの一覧が表示装置42に表示される。
文書データは、類似度の変化点またはその付近に属する
文書データであり、すなわち、業務内容に変化があった
と思われる場合の文書データであるため、上司は、すべ
ての文書データに目を通すことが困難な場合は、検索に
より抽出された文書データから優先的にチェックすれば
よい。これにより、チェックする業務日誌の量が膨大と
なった場合であっても、業務の進捗状況を効率的に管理
することができる。
データの内容について類似度の時間的推移を示す特徴デ
ータを文書データ登録DB44の文書データから抽出
し、抽出した特徴データに基づいて類似度の変化点を特
定し、特定した変化点をもとに文書データ登録DB44
のなかから文書データを検索するようになっている。こ
れにより、ユーザは、検索により抽出された文書データ
を参照することにより、膨大な文書データのなかから特
徴のある部分を比較的容易に把握することができる。ま
た、特徴データを複数の文書データから抽出するので、
専門家が構築したルールを蓄積する場合に比して、抽出
の確実性を向上するのが容易であり、しかもユーザの要
求に比較的即応することができる。
点またはその付近に属する文書データを文書データ登録
DB44のなかから検索するようになっている。これに
より、変化点またはその付近に属する文書データが検索
されるので、ユーザは、膨大な文書データのなかから特
徴のある部分をさらに容易に把握することができる。
データに基づいて許容範囲を設定し、類似度の時間的推
移のなかで許容範囲を超える点を変化点として特定する
ようになっている。これにより、変化点の特定を画一的
に行うことができるので、変化点の特定が比較的容易と
なる。
録DB44の文書データを所定期間ごとに区分し、各区
分ごとにその区分に属する文書データの内容を併合した
期間文書データを生成し、時系列上で隣接する期間文書
データについて類似度を算出し、算出した類似度に基づ
いて特徴データを生成するようになっている。これによ
り、文書データの関係を時系列上にみたときに、ユーザ
は、特徴のある部分を比較的容易に把握することができ
る。
タを形態素解析し、各形態素ごとに期間文書データにお
けるその形態素の出現頻度に応じた要素をベクトル量と
して有するベクトルを文書ベクトルとして生成するよう
になっている。これにより、期間文書データにおける形
態素の出現頻度に応じて類似度が算出されるので、類似
度を比較的実情に即したかたちで算出することができ、
ユーザは、膨大な文書データのなかから特徴のある部分
をさらに容易に把握することができる。
の角度計算において、上式(7)に示すように、同じ次
元同士の重みWが「0」でない部分だけを計算するよう
にした。これにより、計算の省略化を図ることができ
る。上記実施の形態において、文書データ登録DB44
は、発明3、4、6、13または16の文書データ記憶
手段に対応し、ステップS210は、発明1、3、5、
6、8、9、11若しくは13の特徴データ抽出手段、
または発明14若しくは16の特徴データ抽出ステップ
に対応している。また、ステップS211は、発明1、
3ないし5、11若しくは13の変化点特定手段、また
は発明14若しくは16の変化点特定ステップに対応
し、ステップS212は、発明3、4若しくは13の文
書データ検索手段、または発明16の文書データ検索ス
テップに対応している。
ータ登録DB44の文書データを所定期間ごとに区分
し、各区分ごとにその区分に属する文書データの内容を
併合した期間文書データを生成し、時系列上で隣接する
期間文書データについて類似度を算出し、算出した類似
度に基づいて特徴データを生成するように構成したが、
これに限らず、図10に示すように、文書データ登録D
B44の文書データを所定期間ごとに区分し、各区分ご
とにその区分に属する文書データの内容を併合した期間
文書データを生成し、生成した期間文書データの相互に
ついて類似度を算出し、算出した類似度に基づいて特徴
データを生成するように構成してもよい。図10は、2
次元分析により文書データを検索する場合を説明するた
めの図である。
士の比較だけの場合は、緩やかに変化している場合に定
常状態に収まる可能性がでてくる。分析方法としては、
多少コストがかかるが、図10に示すような2次元分析
を行うと、緩やかな変化も検出することが可能となる。
もちろん、2次元分析を行うに限らず、この発想を広げ
て3次元以上の多次元分析を行うこともできる。
関係を相互にみたときに、ユーザは、特徴のある部分を
比較的容易に把握することができる。この場合におい
て、文書データ登録DB44は、発明7の文書データ記
憶手段に対応し、ステップS210は、発明7の特徴デ
ータ抽出手段、またはに対応している。
ータ登録DB44の文書データを所定期間ごとに区分
し、各区分ごとにその区分に属する文書データの内容を
併合した期間文書データを生成し、生成した期間文書デ
ータに基づいて類似度を算出するように構成したが、こ
れに限らず、各期間文書データに共通する内容を各期間
文書データから除去し、除去を行った期間文書データに
基づいて類似度を算出するように構成してもよい。
類似度が算出されるので、類似度を比較的実情に即した
かたちで算出することができ、ユーザは、膨大な文書デ
ータのなかから特徴のある部分をさらに容易に把握する
ことができる。この場合において、ステップS210
は、発明10の特徴データ抽出手段、またはに対応して
いる。
た特徴データに基づいて許容範囲を設定し、類似度の時
間的推移のなかで許容範囲を超える点を変化点として特
定するように構成したが、これに限らず、図11に示す
ように、各期間文書データの文書ベクトルについて多次
元ベクトル空間における軌跡を予測して予測範囲を設定
し、予測範囲を超える文書ベクトルを変化点として特定
するように構成してもよい。図11は、文書ベクトルの
軌跡予測により変化点を特定する場合を説明するための
図である。
び図6のフローチャートに示す処理を実行するにあたっ
てはいずれも、ROM32にあらかじめ格納されている
制御プログラムを実行する場合について説明したが、こ
れに限らず、これらの手順を示したプログラムが記憶さ
れた記憶媒体から、そのプログラムをRAM34に読み
込んで実行するようにしてもよい。
の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒
体、CD、CDV、LD、DVD等の光学的読取方式記
憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体
であって、電子的、磁気的、光学的等の読み取り方法の
いかんにかかわらず、コンピュータで読み取り可能な記
憶媒体であれば、あらゆる記憶媒体を含むものである。
に係るデータ管理装置、文書データ検索装置、データ管
理プログラムおよび文書データ検索プログラム、並びに
データ管理方法および文書データ検索方法を、図1に示
すように、コンピュータ100により、複数の文書デー
タのなかから特徴のある文書データを検索する場合につ
いて適用したが、これに限らず、本発明の主旨を逸脱し
ない範囲で他の場合にも適用可能である。例えば、イン
ターネットその他のネットワークにおいて、複数の文書
データのなかから特徴のある文書データを検索する検索
サービスとして適用することもできる。
項1または2記載のデータ管理装置によれば、ユーザ
は、特定された変化点を参照することにより、膨大なデ
ータのなかから特徴のある部分を比較的容易に把握する
ことができるという効果が得られる。また、特徴データ
を複数のデータから抽出するので、専門家が構築したル
ールを蓄積する場合に比して、抽出の確実性を向上する
のが容易であり、しかもユーザの要求に比較的即応する
ことができるという効果も得られる。
タ管理装置によれば、ユーザは、特定された変化点を参
照することにより、膨大な文書データのなかから特徴の
ある部分を比較的容易に把握することができるという効
果も得られる。一方、本発明に係る請求項3ないし10
記載の文書データ検索装置によれば、ユーザは、検索に
より抽出された文書データを参照することにより、膨大
な文書データのなかから特徴のある部分を比較的容易に
把握することができるという効果が得られる。また、特
徴データを複数の文書データから抽出するので、専門家
が構築したルールを蓄積する場合に比して、抽出の確実
性を向上するのが容易であり、しかもユーザの要求に比
較的即応することができるという効果も得られる。
データ検索装置によれば、変化点またはその付近に属す
る文書データが検索されるので、ユーザは、膨大な文書
データのなかから特徴のある部分をさらに容易に把握す
ることができるという効果も得られる。さらに、本発明
に係る請求項5記載の文書データ検索装置によれば、変
化点の特定を画一的に行うことができるので、変化点の
特定が比較的容易となるという効果が得られる。
データ検索装置によれば、文書データの関係を時系列上
にみたときに、ユーザは、特徴のある部分を比較的容易
に把握することができるという効果も得られる。さら
に、本発明に係る請求項7記載の文書データ検索装置に
よれば、所定期間ごとに文書データの関係を相互にみた
ときに、ユーザは、特徴のある部分を比較的容易に把握
することができるという効果も得られる。
データ検索装置によれば、期間文書データにおける形態
素の出現頻度に応じて類似度が算出されるので、類似度
を比較的実情に即したかたちで算出することができ、ユ
ーザは、膨大な文書データのなかから特徴のある部分を
さらに容易に把握することができるという効果も得られ
る。
書データ検索装置によれば、共通する内容を除去してか
ら類似度が算出されるので、類似度を比較的実情に即し
たかたちで算出することができ、ユーザは、膨大な文書
データのなかから特徴のある部分をさらに容易に把握す
ることができるという効果も得られる。一方、本発明に
係る請求項11または12記載のデータ管理プログラム
によれば、請求項1記載のデータ管理装置と同等の効果
が得られる。
ータ管理プログラムによれば、請求項2記載のデータ管
理装置と同等の効果も得られる。一方、本発明に係る請
求項13記載の文書データ検索プログラムによれば、請
求項3記載のデータ管理装置と同等の効果が得られる。
一方、本発明に係る請求項14または15記載のデータ
管理方法によれば、請求項1記載のデータ管理装置と同
等の効果が得られる。
ータ管理方法によれば、請求項2記載のデータ管理装置
と同等の効果も得られる。一方、本発明に係る請求項1
6記載の文書データ検索方法によれば、請求項3記載の
データ管理装置と同等の効果が得られる。
を示すブロック図である。
である。
る。
る。
ある。
合を説明するための図である。
定する場合を説明するための図である。
Claims (16)
- 【請求項1】 複数のデータを管理する装置であって、 前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出手段と、前
記特徴データ抽出手段で抽出した特徴データに基づいて
前記類似度の変化点を特定する変化点特定手段とを備え
ることを特徴とするデータ管理装置。 - 【請求項2】 請求項1において、 前記データは、文書データであることを特徴とするデー
タ管理装置。 - 【請求項3】 作成日時又は更新日時が異なる複数の文
書データのなかから検索を行う装置であって、 前記複数の文書データを記憶するための文書データ記憶
手段と、前記文書データの内容について類似度の時間的
推移を示す特徴データを前記文書データ記憶手段の文書
データから抽出する特徴データ抽出手段と、前記特徴デ
ータ抽出手段で抽出した特徴データに基づいて前記類似
度の変化点を特定する変化点特定手段と、前記変化点特
定手段で特定した変化点をもとに前記文書データ記憶手
段のなかから前記文書データを検索する文書データ検索
手段とを備えることを特徴とする文書データ検索装置。 - 【請求項4】 請求項3において、 前記文書データ検索手段は、前記変化点特定手段で特定
した変化点又はその付近に属する文書データを前記文書
データ記憶手段のなかから検索するようになっているこ
とを特徴とする文書データ検索装置。 - 【請求項5】 請求項3及び4のいずれかにおいて、 前記変化点特定手段は、前記特徴データ抽出手段で抽出
した特徴データに基づいて許容範囲を設定し、前記類似
度の時間的推移のなかで前記許容範囲を超える点を前記
変化点として特定するようになっていることを特徴とす
る文書データ検索装置。 - 【請求項6】 請求項3乃至5のいずれかにおいて、 前記特徴データ抽出手段は、前記文書データ記憶手段の
文書データを所定期間ごとに区分し、各区分ごとにその
区分に属する文書データの内容を併合した期間文書デー
タを生成し、時系列上で隣接する期間文書データについ
て前記類似度を算出し、算出した類似度に基づいて前記
特徴データを生成するようになっていることを特徴とす
る文書データ検索装置。 - 【請求項7】 請求項3乃至5のいずれかにおいて、 前記特徴データ抽出手段は、前記文書データ記憶手段の
文書データを所定期間ごとに区分し、各区分ごとにその
区分に属する文書データの内容を併合した期間文書デー
タを生成し、生成した期間文書データの相互について前
記類似度を算出し、算出した類似度に基づいて前記特徴
データを生成するようになっていることを特徴とする文
書データ検索装置。 - 【請求項8】 請求項6及び7のいずれかにおいて、 前記特徴データ抽出手段は、前記期間文書データの内容
的な特徴を示す文書ベクトルを算出し、算出した文書ベ
クトルを比較することにより前記類似度を算出するよう
になっていることを特徴とする文書データ検索装置。 - 【請求項9】 請求項8において、 前記特徴データ抽出手段は、前記期間文書データを形態
素解析し、各形態素ごとに前記期間文書データにおける
その形態素の出現頻度に応じた要素をベクトル量として
有するベクトルを前記文書ベクトルとして生成するよう
になっていることを特徴とする文書データ検索装置。 - 【請求項10】 請求項6乃至9のいずれかにおいて、 前記特徴データ抽出手段は、前記各期間文書データに共
通する内容を前記各期間文書データから除去し、除去を
行った期間文書データに基づいて前記類似度を算出する
ようになっていることを特徴とする文書データ検索装
置。 - 【請求項11】 複数のデータを管理するプログラムで
あって、 前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出手段、及び
前記特徴データ抽出手段で抽出した特徴データに基づい
て前記類似度の変化点を特定する変化点特定手段として
実現される処理をコンピュータに実行させるためのプロ
グラムであることを特徴とするデータ管理プログラム。 - 【請求項12】 請求項11において、 前記データは、文書データであることを特徴とするデー
タ管理プログラム。 - 【請求項13】 作成日時又は更新日時が異なる複数の
文書データのなかから検索を行うプログラムであって、 前記複数の文書データを記憶するための文書データ記憶
手段を利用可能なコンピュータに対して、 前記文書データの内容について類似度の時間的推移を示
す特徴データを前記文書データ記憶手段の文書データか
ら抽出する特徴データ抽出手段、前記特徴データ抽出手
段で抽出した特徴データに基づいて前記類似度の変化点
を特定する変化点特定手段、及び前記変化点特定手段で
特定した変化点をもとに前記文書データ記憶手段のなか
から前記文書データを検索する文書データ検索手段とし
て実現される処理を実行させるためのプログラムである
ことを特徴とする文書データ検索プログラム。 - 【請求項14】 複数のデータを管理する方法であっ
て、 前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出ステップ
と、前記特徴データ抽出ステップで抽出した特徴データ
に基づいて前記類似度の変化点を特定する変化点特定ス
テップとを含むことを特徴とするデータ管理方法。 - 【請求項15】 請求項14において、 前記データは、文書データであることを特徴とするデー
タ管理方法。 - 【請求項16】 作成日時又は更新日時が異なる複数の
文書データのなかから検索を行う方法であって、 前記複数の文書データを文書データ記憶手段に記憶する
文書データ記憶ステップと、前記文書データの内容につ
いて類似度の時間的推移を示す特徴データを前記文書デ
ータ記憶手段の文書データから抽出する特徴データ抽出
ステップと、前記特徴データ抽出ステップで抽出した特
徴データに基づいて前記類似度の変化点を特定する変化
点特定ステップと、前記変化点特定ステップで特定した
変化点をもとに前記文書データ記憶手段のなかから前記
文書データを検索する文書データ検索ステップとを含む
ことを特徴とする文書データ検索方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002058065A JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
| US10/373,810 US7035861B2 (en) | 2002-03-04 | 2003-02-27 | System and methods for providing data management and document data retrieval |
| CN03106807A CN1442801A (zh) | 2002-03-04 | 2003-03-03 | 数据管理以及文件数据检索的装置、方法和程序 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002058065A JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2003256448A true JP2003256448A (ja) | 2003-09-12 |
| JP2003256448A5 JP2003256448A5 (ja) | 2005-09-02 |
| JP4175001B2 JP4175001B2 (ja) | 2008-11-05 |
Family
ID=27800135
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002058065A Expired - Fee Related JP4175001B2 (ja) | 2002-03-04 | 2002-03-04 | 文書データ検索装置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US7035861B2 (ja) |
| JP (1) | JP4175001B2 (ja) |
| CN (1) | CN1442801A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017045146A (ja) * | 2015-08-24 | 2017-03-02 | 富士電機株式会社 | 情報提供装置、情報提供方法、及びプログラム |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7333983B2 (en) * | 2000-02-03 | 2008-02-19 | Hitachi, Ltd. | Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored |
| US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
| US7519565B2 (en) * | 2003-11-03 | 2009-04-14 | Cloudmark, Inc. | Methods and apparatuses for classifying electronic documents |
| US9183600B2 (en) | 2013-01-10 | 2015-11-10 | International Business Machines Corporation | Technology prediction |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3525948B2 (ja) | 1994-05-31 | 2004-05-10 | 富士通株式会社 | 情報検索装置 |
| JP4025443B2 (ja) * | 1998-12-04 | 2007-12-19 | 富士通株式会社 | 文書データ提供装置及び文書データ提供方法 |
| EP1122651B1 (en) * | 2000-02-03 | 2010-05-19 | Hitachi, Ltd. | Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor |
| US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
-
2002
- 2002-03-04 JP JP2002058065A patent/JP4175001B2/ja not_active Expired - Fee Related
-
2003
- 2003-02-27 US US10/373,810 patent/US7035861B2/en not_active Expired - Fee Related
- 2003-03-03 CN CN03106807A patent/CN1442801A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017045146A (ja) * | 2015-08-24 | 2017-03-02 | 富士電機株式会社 | 情報提供装置、情報提供方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US7035861B2 (en) | 2006-04-25 |
| JP4175001B2 (ja) | 2008-11-05 |
| US20030187845A1 (en) | 2003-10-02 |
| CN1442801A (zh) | 2003-09-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Xie et al. | A novel text mining approach for scholar information extraction from web content in Chinese | |
| US8200695B2 (en) | Database for uploading, storing, and retrieving similar documents | |
| CN103593336B (zh) | 一种基于语义分析的知识推送系统及方法 | |
| JP2011141801A (ja) | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム | |
| KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
| JP2003288362A (ja) | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 | |
| KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
| US12093222B2 (en) | Data tagging and synchronisation system | |
| JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
| Parlak et al. | The impact of feature selection on medical document classification | |
| JPH10240766A (ja) | 情報検索方法および情報検索装置 | |
| JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
| El-Kishky et al. | k nn-embed: Locally smoothed embedding mixtures for multi-interest candidate retrieval | |
| CN120353939A (zh) | 一种工程知识混合检索方法、装置、设备、介质及产品 | |
| KR100341396B1 (ko) | 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법 | |
| JP2003256448A (ja) | データ管理装置、文書データ検索装置、データ管理プログラム及び文書データ検索プログラム、並びにデータ管理方法及び文書データ検索方法 | |
| JP2007219722A (ja) | 文書検索サーバおよび文書検索方法 | |
| JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
| CN121117157A (zh) | 基于ai会话交互的智慧图书馆信息检索方法及系统 | |
| JP2007219929A (ja) | 感性評価システム及び方法 | |
| WO2015063873A1 (ja) | 情報検索システムおよび情報検索方法 | |
| Lincy et al. | An enhanced pre-processing model for big data processing: A quality framework | |
| Qi et al. | Human–computer interaction based on the intelligent information retrieval method for customer satisfaction in power system service | |
| Mani et al. | Performance evaluation of compact prediction tree algorithm for web page prediction | |
| JP2011248740A (ja) | データ出力装置、データ出力方法およびデータ出力プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050225 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050225 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070402 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080620 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080620 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080729 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080811 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |