JP2003256448A

JP2003256448A - データ管理装置、文書データ検索装置、データ管理プログラム及び文書データ検索プログラム、並びにデータ管理方法及び文書データ検索方法

Info

Publication number: JP2003256448A
Application number: JP2002058065A
Authority: JP
Inventors: Naoki Kayahara; 直樹萱原
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-03-04
Filing date: 2002-03-04
Publication date: 2003-09-12
Anticipated expiration: 2022-03-04
Also published as: US7035861B2; JP4175001B2; US20030187845A1; CN1442801A

Abstract

(57)【要約】【課題】膨大なデータのなかから特徴のある部分を把
握するのに好適であり、しかも抽出の確実性を向上する
のが容易でかつユーザの要求に即応することができるデ
ータ管理装置を提供する。【解決手段】文書データの内容について類似度の時間
的推移を示す特徴データを文書データ登録ＤＢ４４の文
書データから抽出し、抽出した特徴データに基づいて類
似度の変化点を特定し、特定した変化点をもとに文書デ
ータ登録ＤＢ４４のなかから文書データを検索する。検
索では、特定した変化点またはその付近に属する文書デ
ータを検索する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、作成日時または更
新日時が異なる複数の文書データのなかから検索を行う
装置およびプログラム、並びに方法に係り、特に、膨大
なデータのなかから特徴のある部分を把握するのに好適
であり、しかも抽出の確実性を向上するのが容易でかつ
ユーザの要求に即応することができるデータ管理装置、
文書データ検索装置、データ管理プログラムおよび文書
データ検索プログラム、並びにデータ管理方法および文
書データ検索方法に関する。

【０００２】

【従来の技術】企業等では、社員に業務日誌を提出させ
ることにより業務の進捗状況を管理することがある。業
務日誌による報告は、多くの場合、一人の上司が複数人
の部下から提出された業務日誌に一つ一つ目を通してチ
ェックしている。しかし、上司も職務上の都合等によ
り、提出されたすべての業務日誌に必ずしも毎日目を通
すことはできない。また、仮にすべての業務日誌に目を
通していても、制約された時間内においては、把握でき
る情報量にどうしても限りがある。したがって、チェッ
クする業務日誌の量が膨大となった場合には、業務の進
捗状況を効率的に管理することが大変難しくなる。

【０００３】このような場合、業務の進捗状況を効率的
に管理するには、上司は、膨大な業務日誌から効率的に
情報を得ることが必要である。そこで、まず、業務日誌
の性質について検討してみる。業務日誌は、各社員の毎
日の業務報告が主たる内容であるため、同一の社員が提
出した業務日誌について作成日時の近い業務日誌同士を
比較したときには、内容的に重複する部分が多いはずで
ある。内容的に重複する部分について毎日目を通すのは
非効率である。したがって、上司は、内容的に重複する
部分については一度だけ把握し、その後の業務日誌につ
いては特徴のある部分（すなわち、変化のあった部分）
だけを把握するようにすれば、比較的効率よく情報を得
ることができる。

【０００４】この問題の一つの解法として、例えば、業
務日誌を文書データとして文書データベース（以下、デ
ータベースのことを単にＤＢと略記する。）に蓄積し、
文書ＤＢのなかから特徴のある部分だけを検索できるよ
うな構成を提案することができる。従来、複数の文書デ
ータのなかから検索を行う技術としては、例えば、特開
平7-325832号公報に開示されている単語仕様パターンの
時間的変化を利用した検索方法（以下、第１の従来例と
いう。）があった。また、その関連技術としては、例え
ば、特開平6-324871号公報に開示されている推論装置
（以下、第２の従来例という。）、および特開平5-5381
4号公報に開示されている事例ベース検索システム作成
支援装置（以下、第３の従来例という。）があった。

【０００５】第１の従来例では、特徴データ抽出部は、
あらかじめ、テキスト情報から単語使用パターンの時間
的変化を表す特徴データを抽出する。ユーザが検索入力
を行うと、入力処理部は、ユーザの検索入力を検索処理
部で解釈できる表現形式に変換し、検索処理部に送る。
検索処理部は、テキスト情報および特徴データを利用し
て検索を行い、検索結果は、出力処理部に送られユーザ
に表示される。特徴データとしては、例えば、テキスト
情報における単語の出現確率等の各種統計量を用いるこ
とができる。

【０００６】これにより、時系列テキスト情報から抽出
された特徴データを利用して、特定の分野・期間におい
て話題となった単語および情報等の検索を可能とし、質
の高いトレンド分析・動向分析を容易に行うことができ
る。第２の従来例では、ルール格納部に格納されたルー
ル、事例格納部に格納された事例および推論条件入力部
から入力された推論条件を、論理ベクトル変換部が、各
々、論理ベクトルである、ルールベクトル、事例ベクト
ルおよび条件ベクトルに変換する。不確定要素付加部が
ルールベクトルおよび事例ベクトルに不確定要素を付加
し、それぞれ不確定ルールベクトルおよび不確定事例ベ
クトルとする。また、結果ベクトル演算部が不確定ルー
ルベクトル、不確定事例ベクトルおよび条件ベクトルの
論理積を結果ベクトルとする。論理命題変換部が結果ベ
クトルを不確定論理命題に変換する。不確定要素除去部
が不確定論理命題から不確定要素を除去して確定論理命
題とする。論理命題出力部が確定論理命題を出力する。

【０００７】これにより、推論効率の優れた知識獲得の
負担が少ない推論を行うことができる。第３の従来例
は、事例を複数部分に分割して類似度検索が可能であ
る。ベクトル分割部とサブベクトル類似度計算部が関
連。サブベクトル化表現に伴う付加操作が可能である。
また、漸増的にシステムの性能向上を行なっていくとき
に使う変更モニター機能および変更比較機能を実現して
いる。

【０００８】これにより、事例ベース推論システム構築
に必要な作成環境の必須機能を提供することができる。

【０００９】

【発明が解決しようとする課題】このように、第１の従
来例にあっては、単語使用パターンの時間的変化を示す
特徴データに基づいて検索を行うようになっているた
め、例えば、ユーザが入力した検索単語の使用頻度が高
い文書データを抽出することができる。しかしながら、
重複する内容が比較的多い文書データ群のなかで特徴の
ある部分を抽出しようとする場合、特徴のある部分に特
定の単語が多数使用されていれば抽出も可能であるが、
特定の単語が必ずしも多数使用されているとは限らな
い。したがって、特徴のある部分を抽出することには不
向きであり、上記業務日誌の例にみるように、膨大な情
報のなかから効率的に情報を得ることは難しい。

【００１０】また、第２の従来例を文書データの検索に
応用した場合、専門家が構築したルールに基づいて検索
を行うことになる。しかしながら、抽出の確実性を向上
するには、専門家が構築したルールを多数蓄積すること
が必要であるが、一般に知識ＤＢのルール蓄積は容易で
ない。さらに、ルール蓄積には時間を要するので、ユー
ザの要求に即応することが困難である。

【００１１】また、第３の従来例にあっては、事例属性
ベクトルのみでは事例の特徴が平均化され、潜在的な適
合事例を見逃してしまうところ、サブベクトルを利用し
て部分的な特徴を比較することで潜在的な適合事例を発
見可能にしている。しかしながら、これは、あくまで事
例の検索を高精度に行うことを追求した技術であって、
重複する内容が比較的多い文書データ群のなかで特徴の
ある部分を抽出することには不向きであり、同様に、上
記業務日誌の例にみるように、膨大な情報のなかから効
率的に情報を得ることは難しい。

【００１２】これらのことは、上記業務日誌の例にみる
ような文書データの検索に限らず、膨大な情報のなかか
ら効率的に情報を得ようとするあらゆる場合に想定され
る問題である。例えば、画像データ、音楽データその他
のデータを管理するときにも起こり得るであろう。そこ
で、本発明は、このような従来の技術の有する未解決の
課題に着目してなされたものであって、膨大なデータの
なかから特徴のある部分を把握するのに好適であり、し
かも抽出の確実性を向上するのが容易でかつユーザの要
求に即応することができるデータ管理装置、文書データ
検索装置、データ管理プログラムおよび文書データ検索
プログラム、並びにデータ管理方法および文書データ検
索方法を提供することを目的としている。

【００１３】

【課題を解決するための手段】〔発明１〕上記目的を達
成するために、発明１のデータ管理装置は、複数のデー
タを管理する装置であって、前記データの内容について
類似度を示す特徴データを前記複数のデータから抽出す
る特徴データ抽出手段と、前記特徴データ抽出手段で抽
出した特徴データに基づいて前記類似度の変化点を特定
する変化点特定手段とを備えることを特徴とする。

【００１４】このような構成であれば、特徴データ抽出
手段により、データの内容について類似度を示す特徴デ
ータが複数のデータから抽出され、変化点特定手段によ
り、抽出された特徴データに基づいて類似度の変化点が
特定される。したがって、ユーザは、特定された変化点
を参照することにより、膨大なデータのなかから特徴の
ある部分を比較的容易に把握することができる。〔発明２〕さらに、発明２のデータ管理装置は、発明１
のデータ管理装置において、前記データは、文書データ
であることを特徴とする。

【００１５】このような構成であれば、特徴データ抽出
手段により、文書データの内容について類似度を示す特
徴データが複数の文書データから抽出され、変化点特定
手段により、抽出された特徴データに基づいて類似度の
変化点が特定される。したがって、ユーザは、特定され
た変化点を参照することにより、膨大な文書データのな
かから特徴のある部分を比較的容易に把握することがで
きる。〔発明３〕一方、上記目的を達成するために、発明３の
文書データ検索装置は、作成日時または更新日時が異な
る複数の文書データのなかから検索を行う装置であっ
て、前記複数の文書データを記憶するための文書データ
記憶手段と、前記文書データの内容について類似度の時
間的推移を示す特徴データを前記文書データ記憶手段の
文書データから抽出する特徴データ抽出手段と、前記特
徴データ抽出手段で抽出した特徴データに基づいて前記
類似度の変化点を特定する変化点特定手段と、前記変化
点特定手段で特定した変化点をもとに前記文書データ記
憶手段のなかから前記文書データを検索する文書データ
検索手段とを備えることを特徴とする。

【００１６】このような構成であれば、特徴データ抽出
手段により、文書データの内容について類似度の時間的
推移を示す特徴データが文書データ記憶手段の文書デー
タから抽出され、変化点特定手段により、抽出された特
徴データに基づいて類似度の変化点が特定される。そし
て、文書データ検索手段により、特定された変化点をも
とに文書データ記憶手段のなかから文書データが検索さ
れる。

【００１７】ここで、文書データ記憶手段は、文書デー
タをあらゆる手段でかつあらゆる時期に記憶するもので
あり、文書データをあらかじめ記憶してあるものであっ
てもよいし、文書データをあらかじめ記憶することな
く、本装置の動作時に外部からの入力等によって文書デ
ータを記憶するようになっていてもよい。以下、発明１
３の文書データ検索プログラムにおいて同じである。〔発明４〕さらに、発明４の文書データ検索装置は、発
明３の文書データ検索装置において、前記文書データ検
索手段は、前記変化点特定手段で特定した変化点または
その付近に属する文書データを前記文書データ記憶手段
のなかから検索するようになっていることを特徴とす
る。

【００１８】このような構成であれば、文書データ検索
手段により、特定された変化点またはその付近に属する
文書データが文書データ記憶手段のなかから検索され
る。〔発明５〕さらに、発明５の文書データ検索装置は、発
明３および４のいずれかの文書データ検索装置におい
て、前記変化点特定手段は、前記特徴データ抽出手段で
抽出した特徴データに基づいて許容範囲を設定し、前記
類似度の時間的推移のなかで前記許容範囲を超える点を
前記変化点として特定するようになっていることを特徴
とする。

【００１９】このような構成であれば、変化点特定手段
により、抽出された特徴データに基づいて許容範囲が設
定され、類似度の時間的推移のなかで許容範囲を超える
点が変化点として特定される。〔発明６〕さらに、発明６の文書データ検索装置は、発
明３ないし５のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記文書データ記憶手
段の文書データを所定期間ごとに区分し、各区分ごとに
その区分に属する文書データの内容を併合した期間文書
データを生成し、時系列上で隣接する期間文書データに
ついて前記類似度を算出し、算出した類似度に基づいて
前記特徴データを生成するようになっていることを特徴
とする。

【００２０】このような構成であれば、特徴データ抽出
手段により、文書データ記憶手段の文書データが所定期
間ごとに区分され、各区分ごとに期間文書データが生成
される。期間文書データは、一つの区分に属する文書デ
ータの内容を併合したものとして生成される。そして、
時系列上で隣接する期間文書データについて類似度が算
出され、算出された類似度に基づいて特徴データが生成
される。〔発明７〕さらに、発明７の文書データ検索装置は、発
明３ないし５のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記文書データ記憶手
段の文書データを所定期間ごとに区分し、各区分ごとに
その区分に属する文書データの内容を併合した期間文書
データを生成し、生成した期間文書データの相互につい
て前記類似度を算出し、算出した類似度に基づいて前記
特徴データを生成するようになっていることを特徴とす
る。

【００２１】このような構成であれば、特徴データ抽出
手段により、文書データ記憶手段の文書データが所定期
間ごとに区分され、各区分ごとに期間文書データが生成
される。期間文書データは、一つの区分に属する文書デ
ータの内容を併合したものとして生成される。そして、
生成された期間文書データの相互について類似度が算出
され、算出された類似度に基づいて特徴データが生成さ
れる。〔発明８〕さらに、発明８の文書データ検索装置は、発
明６および７のいずれかの文書データ検索装置におい
て、前記特徴データ抽出手段は、前記期間文書データの
内容的な特徴を示す文書ベクトルを算出し、算出した文
書ベクトルを比較することにより前記類似度を算出する
ようになっていることを特徴とする。

【００２２】このような構成であれば、特徴データ抽出
手段により、期間文書データの内容的な特徴を示す文書
ベクトルが算出され、算出された文書ベクトルが比較さ
れることにより類似度が算出される。〔発明９〕さらに、発明９の文書データ検索装置は、発
明８の文書データ検索装置において、前記特徴データ抽
出手段は、前記期間文書データを形態素解析し、各形態
素ごとに前記期間文書データにおけるその形態素の出現
頻度に応じた要素をベクトル量として有するベクトルを
前記文書ベクトルとして生成するようになっていること
を特徴とする。

【００２３】このような構成であれば、特徴データ抽出
手段により、期間文書データが形態素解析され、各形態
素ごとに期間文書データにおけるその形態素の出現頻度
に応じた要素をベクトル量として有するベクトルが文書
ベクトルとして生成される。比較対象となる期間文書デ
ータの間で共通しない形態素がいずれかの文書データに
出現する場合は、いずれかの文書データに特徴のある部
分が含まれている可能性が高い。したがって、このよう
に、期間文書データにおける形態素の出現頻度に応じて
類似度を算出することは、膨大な文書データのなかから
特徴のある部分を検索するのに有効である。〔発明１０〕さらに、発明１０の文書データ検索装置
は、発明６ないし９のいずれかの文書データ検索装置に
おいて、前記特徴データ抽出手段は、前記各期間文書デ
ータに共通する内容を前記各期間文書データから除去
し、除去を行った期間文書データに基づいて前記類似度
を算出するようになっていることを特徴とする。

【００２４】このような構成であれば、特徴データ抽出
手段により、各期間文書データに共通する内容が各期間
文書データから除去され、除去が行われた期間文書デー
タに基づいて類似度が算出される。〔発明１１〕一方、上記目的を達成するために、発明１
１のデータ管理プログラムは、複数のデータを管理する
プログラムであって、前記データの内容について類似度
を示す特徴データを前記複数のデータから抽出する特徴
データ抽出手段、および前記特徴データ抽出手段で抽出
した特徴データに基づいて前記類似度の変化点を特定す
る変化点特定手段として実現される処理をコンピュータ
に実行させるためのプログラムであることを特徴とす
る。

【００２５】このような構成であれば、コンピュータに
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明１の
データ管理装置と同等の作用が得られる。〔発明１２〕さらに、発明１２のデータ管理プログラム
は、発明１１のデータ管理プログラムにおいて、前記デ
ータは、文書データであることを特徴とする。

【００２６】このような構成であれば、コンピュータに
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明２の
データ管理装置と同等の作用が得られる。〔発明１３〕一方、上記目的を達成するために、発明１
３の文書データ検索プログラムは、作成日時または更新
日時が異なる複数の文書データのなかから検索を行うプ
ログラムであって、前記複数の文書データを記憶するた
めの文書データ記憶手段を利用可能なコンピュータに対
して、前記文書データの内容について類似度の時間的推
移を示す特徴データを前記文書データ記憶手段の文書デ
ータから抽出する特徴データ抽出手段、前記特徴データ
抽出手段で抽出した特徴データに基づいて前記類似度の
変化点を特定する変化点特定手段、および前記変化点特
定手段で特定した変化点をもとに前記文書データ記憶手
段のなかから前記文書データを検索する文書データ検索
手段として実現される処理を実行させるためのプログラ
ムであることを特徴とする。

【００２７】このような構成であれば、コンピュータに
よってプログラムが読み取られ、読み取られたプログラ
ムに従ってコンピュータが処理を実行すると、発明３の
データ管理装置と同等の作用が得られる。〔発明１４〕一方、上記目的を達成するために、発明１
４のデータ管理方法は、複数のデータを管理する方法で
あって、前記データの内容について類似度を示す特徴デ
ータを前記複数のデータから抽出する特徴データ抽出ス
テップと、前記特徴データ抽出ステップで抽出した特徴
データに基づいて前記類似度の変化点を特定する変化点
特定ステップとを含むことを特徴とする。〔発明１５〕さらに、発明１５のデータ管理方法は、発
明１４のデータ管理方法において、前記データは、文書
データであることを特徴とする。〔発明１６〕一方、上記目的を達成するために、発明１
６の文書データ検索方法は、作成日時または更新日時が
異なる複数の文書データのなかから検索を行う方法であ
って、前記複数の文書データを文書データ記憶手段に記
憶する文書データ記憶ステップと、前記文書データの内
容について類似度の時間的推移を示す特徴データを前記
文書データ記憶手段の文書データから抽出する特徴デー
タ抽出ステップと、前記特徴データ抽出ステップで抽出
した特徴データに基づいて前記類似度の変化点を特定す
る変化点特定ステップと、前記変化点特定ステップで特
定した変化点をもとに前記文書データ記憶手段のなかか
ら前記文書データを検索する文書データ検索ステップと
を含むことを特徴とする。

【００２８】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。図１ないし図９は、本発明に
係るデータ管理装置、文書データ検索装置、データ管理
プログラムおよび文書データ検索プログラム、並びにデ
ータ管理方法および文書データ検索方法の実施の形態を
示す図である。

【００２９】本実施の形態は、本発明に係るデータ管理
装置、文書データ検索装置、データ管理プログラムおよ
び文書データ検索プログラム、並びにデータ管理方法お
よび文書データ検索方法を、図１に示すように、コンピ
ュータ１００により、複数の文書データのなかから特徴
のある文書データを検索する場合について適用したもの
である。

【００３０】まず、本発明を適用するコンピュータ１０
０の構成を図１を参照しながら説明する。図１は、本発
明を適用するコンピュータ１００の構成を示すブロック
図である。コンピュータ１００は、図１に示すように、
制御プログラムに基づいて演算およびシステム全体を制
御するＣＰＵ３０と、所定領域にあらかじめＣＰＵ３０
の制御プログラム等を格納しているＲＯＭ３２と、ＲＯ
Ｍ３２等から読み出したデータやＣＰＵ３０の演算過程
で必要な演算結果を格納するためのＲＡＭ３４と、外部
装置に対してデータの入出力を媒介するＩ／Ｆ３８とで
構成されており、これらは、データを転送するための信
号線であるバス３９で相互にかつデータ授受可能に接続
されている。

【００３１】Ｉ／Ｆ３８には、外部装置として、ヒュー
マンインターフェースとしてデータの入力が可能なキー
ボードやマウス等からなる入力装置４０と、画像信号に
基づいて画面を表示する表示装置４２と、文書データを
格納する文書データ登録ＤＢ４４とが接続されている。
文書データ登録ＤＢ４４は、例えば、各社員ごとに業務
日誌に関する文書データを格納するものである。したが
って、文書データ登録ＤＢ４４には、作成日時または更
新日時が異なる複数の文書データが格納されている。

【００３２】ＣＰＵ３０は、マイクロプロセッシングユ
ニットＭＰＵ等からなり、ＲＯＭ３２の所定領域に格納
されている所定のプログラムを起動させ、そのプログラ
ムに従って、図２および図６のフローチャートに示す文
書ベクトル算出処理および文書データ検索処理をそれぞ
れ時分割で実行するようになっている。初めに、文書ベ
クトル算出処理を図２を参照しながら詳細に説明する。
図２は、文書ベクトル算出処理を示すフローチャートで
ある。

【００３３】文書ベクトル算出処理は、文書データの検
索に必要な文書ベクトルを算出する処理であって、ＣＰ
Ｕ３０において実行されると、図２に示すように、ま
ず、ステップＳ１００に移行するようになっている。ス
テップＳ１００では、文書データ登録ＤＢ４４に新たな
文書データが作成されたか否かを判定し、新たな文書デ
ータが作成されたと判定したとき(Yes)は、ステップＳ
１０２に移行する。

【００３４】ステップＳ１０２では、基準日時から所定
期間（例えば、１ヶ月）に属する文書データを文書デー
タ登録ＤＢ４４から読み出し、ステップＳ１０４に移行
して、読み出した文書データの内容を併合した期間文書
データを生成する。ステップＳ１０４では、例えば、社
員が文書データを作成する間隔が１日単位で、上司が文
書データをチェックする間隔が１ヶ月単位である場合
は、図３（ａ），（ｂ）に示すように、１月に作成され
た文書データであれば、それらを作成日時順に並び換え
て単純に結合することにより１月分の期間文書データを
生成する。また例えば、社員が文書データを作成する間
隔が１ヶ月単位で、上司が文書データをチェックする間
隔が同様に１ヶ月単位である場合は、図４に示すよう
に、１月に文書データが１つしか作成されていないとき
は、それをそのまま１月分の期間文書データとし、１月
に複数の文書データが作成されているときは、それらを
結合することにより１月分の期間文書データを生成す
る。図３および図４は、期間文書データを生成する場合
を示す図である。

【００３５】次いで、ステップＳ１０６に移行して、生
成した期間文書データを文書データ登録ＤＢ４４に格納
し、ステップＳ１０８に移行して、文書データ登録ＤＢ
４４のすべての文書データについて期間文書データの生
成が終了したか否かを判定し、期間文書データの生成が
終了したと判定したとき(Yes)は、ステップＳ１１０に
移行する。

【００３６】ステップＳ１１０では、すべての期間文書
データを形態素解析し、いずれかの期間文書データに出
現するすべての種類の形態素を取得し、ステップＳ１１
２に移行して、先頭の期間文書データを文書データ登録
ＤＢ４４から読み出し、ステップＳ１１４に移行して、
ステップＳ１１０で取得した各形態素ごとに、読み出し
た期間文書データにおけるその形態素の出現頻度を算出
し、ステップＳ１１６に移行して、算出した出現頻度に
応じた要素をベクトル量として有するベクトルを文書ベ
クトルとして算出する。ここで、文書ベクトルを算出す
る方法を図５を参照しながら説明する。図５は、文書ベ
クトルの構成を示す図である。

【００３７】まず、文書ベクトルは、図５に示すよう
に、下式（１）によりｎ次元ベクトルとして表現するこ
とができる。一般的に、ｎは、すべての期間文書データ
を形態素解析したときに得られる重複しない単語数であ
る。そして、各単語の重みＷをＴＦＩＤＦ（Term Frequ
ency & Inverse Document Frequency）によって求め
る。

【００３８】

【数１】ＴＦＩＤＦは、下式（２）により、期間文書データ内で
の単語の出現頻度（ＴＦ：Term Frequency）と、期間文
書データ全体でのその単語が使われている期間文書デー
タ数の頻度の逆数（ＩＤＦ：Inverse Doxument Frequen
cy）の積で求め、数値が大きいほど、その単語が重要で
あるということを表している。ＴＦは、頻出する単語は
重要であるという指標であり、下式（３）に示すよう
に、ある期間文書データに単語が出現する頻度が増加す
ると大きくなる性質を持っている。ＩＤＦは、多くの期
間文書データに出現する単語は重要でない、つまり、特
定の期間文書データに出現する単語が重要であるという
指標であり、下式（４）〜（６）に示すように、ある単
語が使われている期間文書データ数が減少すると大きく
なる性質を持っている。したがって、ＴＦＩＤＦの値
は、頻出するが多くの期間文書データに出現する単語
（接続詞、助詞など）や、特定の期間文書データにのみ
出現するがその期間文書データでも頻度が小さい単語に
対しては小さくなり、逆に、特定の期間文書データに高
頻度で出現する単語に対しては大きくなる性質を持って
いる。ＴＦＩＤＦによって期間文書データ内の単語は数
値化され、その数値を要素として期間文書データはベク
トル化することができる。

【００３９】

【数２】

【００４０】

【数３】

【００４１】

【数４】

【００４２】

【数５】

【００４３】

【数６】次いで、ステップＳ１１８に移行して、算出した文書ベ
クトルを文書データ登録ＤＢ４４に格納し、ステップＳ
１２０に移行して、すべての期間文書データについてス
テップＳ１１２〜Ｓ１１８の処理が終了したか否かを判
定し、すべての期間文書データについて処理が終了した
と判定したとき(Yes)は、一連の処理を終了して元の処
理に復帰させる。

【００４４】一方、ステップＳ１２０で、すべての期間
文書データについてステップＳ１１２〜Ｓ１１８の処理
が終了していないと判定したとき(No)は、ステップＳ１
２２に移行して、次の期間文書データを文書データ登録
ＤＢ４４から読み出し、ステップＳ１１４に移行する。
一方、ステップＳ１０８で、文書データ登録ＤＢ４４の
すべての文書データについて期間文書データの生成が終
了しないと判定したとき(No)は、ステップＳ１２４に移
行して、次の所定期間に属する文書データを文書データ
登録ＤＢ４４から読み出し、ステップＳ１０４に移行す
る。

【００４５】一方、ステップＳ１００で、文書データ登
録ＤＢ４４に新たな文書データが作成されないと判定し
たとき(No)は、ステップＳ１２６に移行して、文書デー
タ登録ＤＢ４４の文書データが更新されたか否かを判定
し、文書データが更新されたと判定したとき(Yes)は、
ステップＳ１０２に移行するが、そうでないと判定した
とき(No)は、ステップＳ１００に移行する。

【００４６】次に、文書データ検索処理を図６を参照し
ながら詳細に説明する。図６は、文書データ検索処理を
示すフローチャートである。文書データ検索処理は、時
系列上で隣接する期間文書データについて類似度の変化
点を特定し、特定した変化点に属する文書データを文書
データ登録ＤＢ４４のなかから検索する処理であって、
ＣＰＵ３０において実行されると、図６に示すように、
まず、ステップＳ２００に移行するようになっている。

【００４７】ステップＳ２００では、ユーザからの検索
要求を入力したか否かを判定し、検索要求を入力したと
判定したとき(Yes)は、ステップＳ２０２に移行する
が、そうでないと判定したとき(No)は、検索要求を入力
するまでステップＳ１００で待機する。なお、ここでい
う検索要求とは、検索キーワードや文章ではなく、検索
すべきことをコンピュータ１００に要求することであ
る。

【００４８】ステップＳ２０２では、先頭の期間文書デ
ータの文書ベクトルを文書データ登録ＤＢ４４から読み
出し、ステップＳ２０４に移行して、読み出した文書ベ
クトルに係る期間文書データに時系列上で隣接する期間
文書データ（時間的に新しい方に隣接する期間文書デー
タ）の文書ベクトルを文書データ登録ＤＢ４４から読み
出し、ステップＳ２０６に移行する。

【００４９】ステップＳ２０６では、読み出した２つの
文書ベクトルを用いてベクトル演算を行うことによりそ
れらに係る期間文書データの類似度を算出する。ベクト
ル演算による類似度の算出は、ベクトル検索技術と呼ば
れるものであり、単語の重要度を反映して数値化するＴ
ＦＩＤＦと、それによってベクトル化した文書の類似度
を計算するベクトル空間モデルとで成り立っている。例
えば、読み出した２つの文書ベクトルを文書ベクトルＤ
₁，Ｄ₂とした場合、類似度は、下式（７）により、文書
ベクトルＤ₁，Ｄ₂同士がなす角の余弦値（０〜１）とし
て算出することができる。

【００５０】

【数７】次いで、ステップＳ２０８に移行して、すべての文書ベ
クトルについてステップＳ２０４，Ｓ２０６の処理が終
了したか否かを判定し、すべての文書ベクトルについて
処理が終了したと判定したとき(Yes)は、ステップＳ２
１０に移行する。

【００５１】ステップＳ２１０では、ステップＳ２０６
で算出した１または複数の期間文書データの類似度に基
づいて、それら期間文書データの内容について類似度の
時間的推移を示す特徴データを生成する。特徴データ
は、図３の例を対象とした場合、図７に示すように、文
書ベクトル同士がなす角の余弦値（０〜１）として生成
される。図７は、特徴データを示す図である。

【００５２】次いで、ステップＳ２１１に移行して、生
成した特徴データに基づいて類似度の変化点を特定す
る。具体的には、生成した特徴データに基づいて許容範
囲を設定し、類似度の時間的推移のなかで許容範囲を超
える点を変化点として特定する。例えば、図８に示すよ
うに、類似度の平均値および分散から限界線となる２つ
の水平線を求め、それら限界線で囲まれる領域を許容範
囲として設定することができる。この場合、期間文書デ
ータＰ_xの類似度がその許容範囲を超えているので、こ
れを変化点として特定する。また例えば、図９に示すよ
うに、類似度の平均値および分散から類似度の推移曲線
に沿った２つの近似曲線を求め、それら近似曲線で囲ま
れる領域を許容範囲として設定することもできる。この
場合、同様に、期間文書データＰ_xの類似度がその許容
範囲を超えているので、これを変化点として特定する。
図８および図９は、類似度の時間的推移を示すグラフで
ある。

【００５３】次いで、ステップＳ２１２に移行して、特
定した変化点またはその付近に属する文書データを文書
データ登録ＤＢ４４のなかから検索する。図３の例にお
いて、例えば、１０月と１１月の間に類似度の変化点が
存在した場合は、１０月から１１月に移行した際に業務
内容に変化があったことが分かるので、１１月の業務日
誌の文書データを若い日付順に検索していけばよい。

【００５４】次いで、ステップＳ２１４に移行して、検
索により抽出した文書データを類似度の高い順に並び換
えて文書データの一覧を生成し、ステップＳ２１６に移
行して、生成した文書データの一覧を表示装置４２に表
示し、一連の処理を終了して元の処理に復帰させる。一
方、ステップＳ２０８で、すべての文書ベクトルについ
てステップＳ２０４，Ｓ２０６の処理が終了しないと判
定したとき(No)は、ステップＳ２１８に移行して、次の
期間文書データの文書ベクトルを文書データ登録ＤＢ４
４から読み出し、ステップＳ２０４に移行する。

【００５５】次に、本実施の形態の動作を説明する。あ
る企業等では、社員に業務日誌を提出させることにより
業務の進捗状況を管理している。業務日誌による報告
は、一人の上司が複数人の部下から提出された業務日誌
に一つ一つ目を通してチェックする。各社員は、日々の
業務状況を記載した業務日報を文書データとして作成
し、作成した文書データをメールに添付して上司に送付
するとともに文書データ登録ＤＢ４４に登録する。

【００５６】初めに、各社員が作成した文書データから
文書ベクトルを作成する場合を説明する。文書データが
作成されると、ステップＳ１００〜Ｓ１０６を経て、基
準日時から所定期間（例えば、１ヶ月）に属する文書デ
ータが文書データ登録ＤＢ４４から読み出され、読み出
された文書データの内容を併合した期間文書データが生
成され、生成された期間文書データが文書データ登録Ｄ
Ｂ４４に格納される。そして、ステップＳ１０２，Ｓ１
０４を繰り返し経て、文書データ登録ＤＢ４４のすべて
の文書データについて、期間文書データの生成および格
納が行われる。

【００５７】すべての文書データについて期間文書デー
タが生成されると、ステップＳ１１０を経て、すべての
期間文書データが形態素解析され、いずれかの期間文書
データに出現するすべての種類の形態素が取得される。
次いで、ステップＳ１１２〜Ｓ１１８を経て、先頭の期
間文書データが文書データ登録ＤＢ４４から読み出さ
れ、取得された各形態素ごとに、読み出された期間文書
データにおけるその形態素の出現頻度が算出され、算出
された出現頻度に応じた要素をベクトル量として有する
ベクトルが文書ベクトルとして算出される。そして、ス
テップＳ１１４〜Ｓ１１８を繰り返し経て、すべての期
間文書データについて、出現頻度の算出、並びに文書ベ
クトルの算出および格納が行われる。

【００５８】次に、上司が各社員から送付された文書デ
ータをチェックする場合を説明する。上司は、文書デー
タのチェックを行うに先立って検索要求を入力する。検
索要求が入力されると、ステップＳ２００〜Ｓ２０６を
経て、先頭の期間文書データの文書ベクトルが文書デー
タ登録ＤＢ４４から読み出され、読み出された文書ベク
トルに係る期間文書データに時系列上で隣接する期間文
書データの文書ベクトルが文書データ登録ＤＢ４４から
読み出され、読み出された２つの文書ベクトルを用いて
ベクトル演算を行うことによりそれらに係る期間文書デ
ータの類似度が算出される。そして、ステップＳ２０
４，Ｓ２０６を繰り返し経て、すべての文書ベクトルに
ついて、隣接の文書ベクトルの読出および類似度の算出
が行われる。

【００５９】すべての文書ベクトルについて類似度が算
出されると、ステップＳ２１０，Ｓ２１１を経て、算出
された１または複数の期間文書データの類似度に基づい
て、それら期間文書データの内容について類似度の時間
的推移を示す特徴データが生成され、生成された特徴デ
ータに基づいて類似度の変化点が特定される。次いで、
ステップＳ２１２を経て、特定された変化点またはその
付近に属する文書データが文書データ登録ＤＢ４４のな
かから検索される。その結果、該当の文書データが抽出
されると、ステップＳ２１４，Ｓ２１６を経て、検索に
より抽出された文書データが類似度の高い順に並び換え
られて文書データの一覧が生成され、生成された文書デ
ータの一覧が表示装置４２に表示される。

【００６０】表示装置４２に検索結果として表示された
文書データは、類似度の変化点またはその付近に属する
文書データであり、すなわち、業務内容に変化があった
と思われる場合の文書データであるため、上司は、すべ
ての文書データに目を通すことが困難な場合は、検索に
より抽出された文書データから優先的にチェックすれば
よい。これにより、チェックする業務日誌の量が膨大と
なった場合であっても、業務の進捗状況を効率的に管理
することができる。

【００６１】このようにして、本実施の形態では、文書
データの内容について類似度の時間的推移を示す特徴デ
ータを文書データ登録ＤＢ４４の文書データから抽出
し、抽出した特徴データに基づいて類似度の変化点を特
定し、特定した変化点をもとに文書データ登録ＤＢ４４
のなかから文書データを検索するようになっている。こ
れにより、ユーザは、検索により抽出された文書データ
を参照することにより、膨大な文書データのなかから特
徴のある部分を比較的容易に把握することができる。ま
た、特徴データを複数の文書データから抽出するので、
専門家が構築したルールを蓄積する場合に比して、抽出
の確実性を向上するのが容易であり、しかもユーザの要
求に比較的即応することができる。

【００６２】さらに、本実施の形態では、特定した変化
点またはその付近に属する文書データを文書データ登録
ＤＢ４４のなかから検索するようになっている。これに
より、変化点またはその付近に属する文書データが検索
されるので、ユーザは、膨大な文書データのなかから特
徴のある部分をさらに容易に把握することができる。

【００６３】さらに、本実施の形態では、抽出した特徴
データに基づいて許容範囲を設定し、類似度の時間的推
移のなかで許容範囲を超える点を変化点として特定する
ようになっている。これにより、変化点の特定を画一的
に行うことができるので、変化点の特定が比較的容易と
なる。

【００６４】さらに、本実施の形態では、文書データ登
録ＤＢ４４の文書データを所定期間ごとに区分し、各区
分ごとにその区分に属する文書データの内容を併合した
期間文書データを生成し、時系列上で隣接する期間文書
データについて類似度を算出し、算出した類似度に基づ
いて特徴データを生成するようになっている。これによ
り、文書データの関係を時系列上にみたときに、ユーザ
は、特徴のある部分を比較的容易に把握することができ
る。

【００６５】さらに、本実施の形態では、期間文書デー
タを形態素解析し、各形態素ごとに期間文書データにお
けるその形態素の出現頻度に応じた要素をベクトル量と
して有するベクトルを文書ベクトルとして生成するよう
になっている。これにより、期間文書データにおける形
態素の出現頻度に応じて類似度が算出されるので、類似
度を比較的実情に即したかたちで算出することができ、
ユーザは、膨大な文書データのなかから特徴のある部分
をさらに容易に把握することができる。

【００６６】さらに、本実施の形態では、文書ベクトル
の角度計算において、上式（７）に示すように、同じ次
元同士の重みＷが「０」でない部分だけを計算するよう
にした。これにより、計算の省略化を図ることができ
る。上記実施の形態において、文書データ登録ＤＢ４４
は、発明３、４、６、１３または１６の文書データ記憶
手段に対応し、ステップＳ２１０は、発明１、３、５、
６、８、９、１１若しくは１３の特徴データ抽出手段、
または発明１４若しくは１６の特徴データ抽出ステップ
に対応している。また、ステップＳ２１１は、発明１、
３ないし５、１１若しくは１３の変化点特定手段、また
は発明１４若しくは１６の変化点特定ステップに対応
し、ステップＳ２１２は、発明３、４若しくは１３の文
書データ検索手段、または発明１６の文書データ検索ス
テップに対応している。

【００６７】なお、上記実施の形態においては、文書デ
ータ登録ＤＢ４４の文書データを所定期間ごとに区分
し、各区分ごとにその区分に属する文書データの内容を
併合した期間文書データを生成し、時系列上で隣接する
期間文書データについて類似度を算出し、算出した類似
度に基づいて特徴データを生成するように構成したが、
これに限らず、図１０に示すように、文書データ登録Ｄ
Ｂ４４の文書データを所定期間ごとに区分し、各区分ご
とにその区分に属する文書データの内容を併合した期間
文書データを生成し、生成した期間文書データの相互に
ついて類似度を算出し、算出した類似度に基づいて特徴
データを生成するように構成してもよい。図１０は、２
次元分析により文書データを検索する場合を説明するた
めの図である。

【００６８】上記実施の形態のように、隣り合う期間同
士の比較だけの場合は、緩やかに変化している場合に定
常状態に収まる可能性がでてくる。分析方法としては、
多少コストがかかるが、図１０に示すような２次元分析
を行うと、緩やかな変化も検出することが可能となる。
もちろん、２次元分析を行うに限らず、この発想を広げ
て３次元以上の多次元分析を行うこともできる。

【００６９】これにより、所定期間ごとに文書データの
関係を相互にみたときに、ユーザは、特徴のある部分を
比較的容易に把握することができる。この場合におい
て、文書データ登録ＤＢ４４は、発明７の文書データ記
憶手段に対応し、ステップＳ２１０は、発明７の特徴デ
ータ抽出手段、またはに対応している。

【００７０】また、上記実施の形態においては、文書デ
ータ登録ＤＢ４４の文書データを所定期間ごとに区分
し、各区分ごとにその区分に属する文書データの内容を
併合した期間文書データを生成し、生成した期間文書デ
ータに基づいて類似度を算出するように構成したが、こ
れに限らず、各期間文書データに共通する内容を各期間
文書データから除去し、除去を行った期間文書データに
基づいて類似度を算出するように構成してもよい。

【００７１】これにより、共通する内容を除去してから
類似度が算出されるので、類似度を比較的実情に即した
かたちで算出することができ、ユーザは、膨大な文書デ
ータのなかから特徴のある部分をさらに容易に把握する
ことができる。この場合において、ステップＳ２１０
は、発明１０の特徴データ抽出手段、またはに対応して
いる。

【００７２】また、上記実施の形態においては、抽出し
た特徴データに基づいて許容範囲を設定し、類似度の時
間的推移のなかで許容範囲を超える点を変化点として特
定するように構成したが、これに限らず、図１１に示す
ように、各期間文書データの文書ベクトルについて多次
元ベクトル空間における軌跡を予測して予測範囲を設定
し、予測範囲を超える文書ベクトルを変化点として特定
するように構成してもよい。図１１は、文書ベクトルの
軌跡予測により変化点を特定する場合を説明するための
図である。

【００７３】また、上記実施の形態において、図２およ
び図６のフローチャートに示す処理を実行するにあたっ
てはいずれも、ＲＯＭ３２にあらかじめ格納されている
制御プログラムを実行する場合について説明したが、こ
れに限らず、これらの手順を示したプログラムが記憶さ
れた記憶媒体から、そのプログラムをＲＡＭ３４に読み
込んで実行するようにしてもよい。

【００７４】ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等
の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒
体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記
憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体
であって、電子的、磁気的、光学的等の読み取り方法の
いかんにかかわらず、コンピュータで読み取り可能な記
憶媒体であれば、あらゆる記憶媒体を含むものである。

【００７５】また、上記実施の形態においては、本発明
に係るデータ管理装置、文書データ検索装置、データ管
理プログラムおよび文書データ検索プログラム、並びに
データ管理方法および文書データ検索方法を、図１に示
すように、コンピュータ１００により、複数の文書デー
タのなかから特徴のある文書データを検索する場合につ
いて適用したが、これに限らず、本発明の主旨を逸脱し
ない範囲で他の場合にも適用可能である。例えば、イン
ターネットその他のネットワークにおいて、複数の文書
データのなかから特徴のある文書データを検索する検索
サービスとして適用することもできる。

【００７６】

【発明の効果】以上説明したように、本発明に係る請求
項１または２記載のデータ管理装置によれば、ユーザ
は、特定された変化点を参照することにより、膨大なデ
ータのなかから特徴のある部分を比較的容易に把握する
ことができるという効果が得られる。また、特徴データ
を複数のデータから抽出するので、専門家が構築したル
ールを蓄積する場合に比して、抽出の確実性を向上する
のが容易であり、しかもユーザの要求に比較的即応する
ことができるという効果も得られる。

【００７７】さらに、本発明に係る請求項２記載のデー
タ管理装置によれば、ユーザは、特定された変化点を参
照することにより、膨大な文書データのなかから特徴の
ある部分を比較的容易に把握することができるという効
果も得られる。一方、本発明に係る請求項３ないし１０
記載の文書データ検索装置によれば、ユーザは、検索に
より抽出された文書データを参照することにより、膨大
な文書データのなかから特徴のある部分を比較的容易に
把握することができるという効果が得られる。また、特
徴データを複数の文書データから抽出するので、専門家
が構築したルールを蓄積する場合に比して、抽出の確実
性を向上するのが容易であり、しかもユーザの要求に比
較的即応することができるという効果も得られる。

【００７８】さらに、本発明に係る請求項４記載の文書
データ検索装置によれば、変化点またはその付近に属す
る文書データが検索されるので、ユーザは、膨大な文書
データのなかから特徴のある部分をさらに容易に把握す
ることができるという効果も得られる。さらに、本発明
に係る請求項５記載の文書データ検索装置によれば、変
化点の特定を画一的に行うことができるので、変化点の
特定が比較的容易となるという効果が得られる。

【００７９】さらに、本発明に係る請求項６記載の文書
データ検索装置によれば、文書データの関係を時系列上
にみたときに、ユーザは、特徴のある部分を比較的容易
に把握することができるという効果も得られる。さら
に、本発明に係る請求項７記載の文書データ検索装置に
よれば、所定期間ごとに文書データの関係を相互にみた
ときに、ユーザは、特徴のある部分を比較的容易に把握
することができるという効果も得られる。

【００８０】さらに、本発明に係る請求項９記載の文書
データ検索装置によれば、期間文書データにおける形態
素の出現頻度に応じて類似度が算出されるので、類似度
を比較的実情に即したかたちで算出することができ、ユ
ーザは、膨大な文書データのなかから特徴のある部分を
さらに容易に把握することができるという効果も得られ
る。

【００８１】さらに、本発明に係る請求項１０記載の文
書データ検索装置によれば、共通する内容を除去してか
ら類似度が算出されるので、類似度を比較的実情に即し
たかたちで算出することができ、ユーザは、膨大な文書
データのなかから特徴のある部分をさらに容易に把握す
ることができるという効果も得られる。一方、本発明に
係る請求項１１または１２記載のデータ管理プログラム
によれば、請求項１記載のデータ管理装置と同等の効果
が得られる。

【００８２】さらに、本発明に係る請求項１２記載のデ
ータ管理プログラムによれば、請求項２記載のデータ管
理装置と同等の効果も得られる。一方、本発明に係る請
求項１３記載の文書データ検索プログラムによれば、請
求項３記載のデータ管理装置と同等の効果が得られる。
一方、本発明に係る請求項１４または１５記載のデータ
管理方法によれば、請求項１記載のデータ管理装置と同
等の効果が得られる。

【００８３】さらに、本発明に係る請求項１５記載のデ
ータ管理方法によれば、請求項２記載のデータ管理装置
と同等の効果も得られる。一方、本発明に係る請求項１
６記載の文書データ検索方法によれば、請求項３記載の
データ管理装置と同等の効果が得られる。

【図面の簡単な説明】

【図１】本発明を適用するコンピュータ１００の構成
を示すブロック図である。

【図２】文書ベクトル算出処理を示すフローチャート
である。

【図３】期間文書データを生成する場合を示す図であ
る。

【図４】期間文書データを生成する場合を示す図であ
る。

【図５】文書ベクトルの構成を示す図である。

【図６】文書データ検索処理を示すフローチャートで
ある。

【図７】特徴データを示す図である。

【図８】類似度の時間的推移を示すグラフである。

【図９】類似度の時間的推移を示すグラフである。

【図１０】２次元分析により文書データを検索する場
合を説明するための図である。

【図１１】文書ベクトルの軌跡予測により変化点を特
定する場合を説明するための図である。

【符号の説明】

１００コンピュータ３０ＣＰＵ３２ＲＯＭ３４ＲＡＭ３８Ｉ／Ｆ４０入力装置４２表示装置４４文書データ登録ＤＢ

Claims

【特許請求の範囲】

【請求項１】複数のデータを管理する装置であって、前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出手段と、前
記特徴データ抽出手段で抽出した特徴データに基づいて
前記類似度の変化点を特定する変化点特定手段とを備え
ることを特徴とするデータ管理装置。
【請求項２】請求項１において、前記データは、文書データであることを特徴とするデー
タ管理装置。
【請求項３】作成日時又は更新日時が異なる複数の文
書データのなかから検索を行う装置であって、前記複数の文書データを記憶するための文書データ記憶
手段と、前記文書データの内容について類似度の時間的
推移を示す特徴データを前記文書データ記憶手段の文書
データから抽出する特徴データ抽出手段と、前記特徴デ
ータ抽出手段で抽出した特徴データに基づいて前記類似
度の変化点を特定する変化点特定手段と、前記変化点特
定手段で特定した変化点をもとに前記文書データ記憶手
段のなかから前記文書データを検索する文書データ検索
手段とを備えることを特徴とする文書データ検索装置。
【請求項４】請求項３において、前記文書データ検索手段は、前記変化点特定手段で特定
した変化点又はその付近に属する文書データを前記文書
データ記憶手段のなかから検索するようになっているこ
とを特徴とする文書データ検索装置。
【請求項５】請求項３及び４のいずれかにおいて、前記変化点特定手段は、前記特徴データ抽出手段で抽出
した特徴データに基づいて許容範囲を設定し、前記類似
度の時間的推移のなかで前記許容範囲を超える点を前記
変化点として特定するようになっていることを特徴とす
る文書データ検索装置。
【請求項６】請求項３乃至５のいずれかにおいて、前記特徴データ抽出手段は、前記文書データ記憶手段の
文書データを所定期間ごとに区分し、各区分ごとにその
区分に属する文書データの内容を併合した期間文書デー
タを生成し、時系列上で隣接する期間文書データについ
て前記類似度を算出し、算出した類似度に基づいて前記
特徴データを生成するようになっていることを特徴とす
る文書データ検索装置。
【請求項７】請求項３乃至５のいずれかにおいて、前記特徴データ抽出手段は、前記文書データ記憶手段の
文書データを所定期間ごとに区分し、各区分ごとにその
区分に属する文書データの内容を併合した期間文書デー
タを生成し、生成した期間文書データの相互について前
記類似度を算出し、算出した類似度に基づいて前記特徴
データを生成するようになっていることを特徴とする文
書データ検索装置。
【請求項８】請求項６及び７のいずれかにおいて、前記特徴データ抽出手段は、前記期間文書データの内容
的な特徴を示す文書ベクトルを算出し、算出した文書ベ
クトルを比較することにより前記類似度を算出するよう
になっていることを特徴とする文書データ検索装置。
【請求項９】請求項８において、前記特徴データ抽出手段は、前記期間文書データを形態
素解析し、各形態素ごとに前記期間文書データにおける
その形態素の出現頻度に応じた要素をベクトル量として
有するベクトルを前記文書ベクトルとして生成するよう
になっていることを特徴とする文書データ検索装置。
【請求項１０】請求項６乃至９のいずれかにおいて、前記特徴データ抽出手段は、前記各期間文書データに共
通する内容を前記各期間文書データから除去し、除去を
行った期間文書データに基づいて前記類似度を算出する
ようになっていることを特徴とする文書データ検索装
置。
【請求項１１】複数のデータを管理するプログラムで
あって、前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出手段、及び
前記特徴データ抽出手段で抽出した特徴データに基づい
て前記類似度の変化点を特定する変化点特定手段として
実現される処理をコンピュータに実行させるためのプロ
グラムであることを特徴とするデータ管理プログラム。
【請求項１２】請求項１１において、前記データは、文書データであることを特徴とするデー
タ管理プログラム。
【請求項１３】作成日時又は更新日時が異なる複数の
文書データのなかから検索を行うプログラムであって、前記複数の文書データを記憶するための文書データ記憶
手段を利用可能なコンピュータに対して、前記文書データの内容について類似度の時間的推移を示
す特徴データを前記文書データ記憶手段の文書データか
ら抽出する特徴データ抽出手段、前記特徴データ抽出手
段で抽出した特徴データに基づいて前記類似度の変化点
を特定する変化点特定手段、及び前記変化点特定手段で
特定した変化点をもとに前記文書データ記憶手段のなか
から前記文書データを検索する文書データ検索手段とし
て実現される処理を実行させるためのプログラムである
ことを特徴とする文書データ検索プログラム。
【請求項１４】複数のデータを管理する方法であっ
て、前記データの内容について類似度を示す特徴データを前
記複数のデータから抽出する特徴データ抽出ステップ
と、前記特徴データ抽出ステップで抽出した特徴データ
に基づいて前記類似度の変化点を特定する変化点特定ス
テップとを含むことを特徴とするデータ管理方法。
【請求項１５】請求項１４において、前記データは、文書データであることを特徴とするデー
タ管理方法。
【請求項１６】作成日時又は更新日時が異なる複数の
文書データのなかから検索を行う方法であって、前記複数の文書データを文書データ記憶手段に記憶する
文書データ記憶ステップと、前記文書データの内容につ
いて類似度の時間的推移を示す特徴データを前記文書デ
ータ記憶手段の文書データから抽出する特徴データ抽出
ステップと、前記特徴データ抽出ステップで抽出した特
徴データに基づいて前記類似度の変化点を特定する変化
点特定ステップと、前記変化点特定ステップで特定した
変化点をもとに前記文書データ記憶手段のなかから前記
文書データを検索する文書データ検索ステップとを含む
ことを特徴とする文書データ検索方法。