JPH06215036A

JPH06215036A - ドキュメントコレクションの探索方法

Info

Publication number: JPH06215036A
Application number: JP5162989A
Authority: JP
Inventors: Richard D Henderson; ディー．ヘンダーソンリチャード; Michael J Barbarino; ジェイ．バーバリーノマイケル
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1992-12-10
Filing date: 1993-06-30
Publication date: 1994-08-05
Also published as: EP0601759A1

Abstract

(57)【要約】【目的】ユーザーが探索ワードを入力せずに、ドキュ
メントコレクションの中から、ユーザーにとって満足の
いくドキュメントセットを探索する。【構成】分割あるいはクラスタ化のアルゴリズムを用
いてドキュメントコレクションをドキュメントセットに
分割する（ステップ１１）。自動要約アルゴリズムを用
いて、この各ドキュメントセットに対して、要約を作成
する（ステップ１３）。ユーザーが、一つもしくはそれ
以上の要約を選択することができ（ステップ１５）、選
択した要約に対応するドキュメントセットが新たなドキ
ュメントコレクションを形成する（ステップ２０）。ユ
ーザーの満足するドキュメントセットを見つかるまで、
このドキュメントコレクションの分割、要約及び選択の
処理を繰り返して行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ドキュメントコレクシ
ョンの探索方法に関し、特にドキュメントの探索、分類
及び探索の改良に関する。

【０００２】

【従来の技術】ますます多量のドキュメントが出版さ
れ、参考文献として利用できる現在の社会において、ド
キュメントの探索あるいは検索は重要になってきてい
る。このように膨大なドキュメントの中から、ユーザー
の望む特別なドキュメントを探し出すことが難しいこと
が、膨大なドキュメントの抱える問題の一つである。

【０００３】ユーザーがキーワードあるいはフレーズ
を、例えば、コンピュータに入力すると、入力したキー
ワードあるいはフレーズを含むドキュメントを、ドキュ
メントの全体（あるいはこのドキュメントの全体から作
られるワードインデクスあるいはルックアップテーブ
ル）の中から探索できる多くのシステムが提案され、ま
た今日稼動している。

【０００４】

【発明が解決しようとする課題】しかしながら、ユーザ
ーが望むドキュメントあるいはドキュメントのセットに
おいて使用されるワードあるいはフレーズが独特のもの
でない限り、数多くのドキュメントが探索され、扱いや
すいヒット数に減らすためにユーザーに追加の入力を要
求することがよくある。

【０００５】しかも、記事やドキュメントの著者によっ
ては、異なるワードを同じか似た意味に用いることがよ
くある。ユーザーがさまざまな異なるワードを指定しな
い限り、入力されたワードあるいはフレーズによって
は、関連するドキュメントが探索されないということが
よくあることである。そこで、本発明の目的は、ユーザ
ーが探索ワードを入力せずに、ドキュメントのコレクシ
ョンの中から、ユーザーにとって満足のいくドキュメン
トセットを探索するドキュメント探索方法を提供するこ
とである。

【０００６】本発明の他の目的は、ドキュメント自動分
割及びドキュメント自動要約アルゴリズムを用いて、ユ
ーザーにとって満足のいくドキュメントセットを探索す
るドキュメント探索方法を提供することである。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に本発明に係わるドキュメント探索方法は、ユーザが探
索するためのワードを入力することなくユーザが満足で
きるドキュメントのセットをドキュメントコレクション
の中から探索するものであり、（ａ）上記ドキュメント
コレクションをドキュメントセットに分割し、（ｂ）上
記分割された各ドキュメントセットに対して各要約を作
成し、（ｃ）探索対象の上記ドキュメントコレクション
を限定するために、少なくとも１つの上記要約から探索
したい上記ドキュメントセットを選択して、これら選択
されたドキュメントセットからなる新たなドキュメント
コレクションを定義し、（ｄ）ユーザが満足できるドキ
ュメントセットが作られるまで上記（ａ）〜（ｃ）を繰
り返すことからなる。

【０００８】上記ドキュメントコレクションのドキュメ
ントセットへの分割及びドキュメントセットの要約作成
ステップは、自動ドキュメント分割・要約アルゴリズム
を実施することによって行う。このドキュメント自動分
割アルゴリズムはクラスターアルゴリズムあるいはフラ
クションアルコリズムのような線型分割アルゴリズムを
使用することが出来る。

【０００９】

【作用】本発明では、ドキュメントコレクションをドキ
ュメントセットに分割して、この分割された各ドキュメ
ントセットに対して各要約を作成して、少なくとも１つ
のこの要約から探索したい上記ドキュメントセットを選
択することによって、ドキュメントコレクションを限定
できる。これら選択されたドキュメントセットに対し
て、上記ドキュメントに分割、要約作成、ドキュメント
セットの選択を繰り返すことによって、ユーザが探索す
るためのワードを入力することなくユーザが満足できる
ドキュメントのセットを探索することが出来る。

【００１０】

【実施例】以下、図面を参照して、本発明の実施例を説
明する。本発明では、ドキュメントのコレクションの中
から、ユーザーが望むドキュメントあるいはドキュメン
トセットを識別するためコンピュータを援用する。図１
は、本発明に係わるドキュメント探索方法を示すフロー
チャートである。以下、図１に基づいてドキュメント探
索方法を説明する。ステップ１１において、ドキュメン
トコレクションをセットに分割するプログラムあるいは
アルゴリズムを用いて、ドキュメントコレクションをセ
ットに分割する。このプログラムは、例えば、ワードの
頻度、キーワードの存在あるいは他の基準を用いた所定
の基準に従って、自動的にドキュメントを分割するプロ
グラムを使用することが出来る。分割アルゴリズムは、
例えば、公知であるフラクションあるいはクラスタアル
ゴリリズムを使用することが出来る。分割プログラム
は、探索対象のドキュメントコレクションの含まれるド
キュメントの数が膨大になれば、特に線型的であること
が望ましいが、ドキュメントの数に対して、幾何級数的
あるいは指数的に増加するものであっても使用可能であ
る。

【００１１】使用可能なクラスタアルゴリズムについて
の論文が、Ｊonesによる１９９１年２月発行の”Notes
and reference on early automatic classification wo
rk”の10〜17ページに記載されており、参考のために引
用した。使用できるアルゴリズムの一つの例として、１
９８５年ACM の197 〜203 ページ、Yu他による”Adapti
ve Document Clustering”記載されており、参考のため
に引用した。階層化ドキュメントクラスタ化の別の一例
が、１９８８年のInformation Processing & Managemen
t の vol.24 、No.5、577 〜597 ページ、Willett によ
る”Recent Trends in Hierarchic Document Clusterin
g:A Critical Review ”に記載されており、参考のため
に引用した。

【００１２】他にも公知であるドキュメント分割技術が
あり、これらの技術を使用することによってドキュメン
トコレクションをセットに分割することが出来る。いく
ら基準の数があっても、この基準に従って、セットを決
定することが出来る。例えば、上述したInformation Pr
ocessing & Management のvol.24、No.5、577 〜597 ペ
ージ、”Recent Trends in Hierarchic Document Clust
ering:A Critical Review ”において、Peter Willett
は、ドキュメント探索のための階層型凝集クラスタ化方
法の使用について論じている。Willett はそこで、ドキ
ュメント間の類似についての計算及びドキュメントのク
ラスタ化にとって適切なクラスタ化方法を導入し、これ
らの方法を平凡でない大きさのデータベースに実施でき
るようなアルゴリズムについて論じており、ランダムグ
ラフ理論とクラスタ化すべきドキュメントコレクション
の経験的な特徴に基づたテストを行って、ドキュメント
の階層化ができることを確認している。Willett は、階
層化されたドキュメントを探索範囲とすることができる
ことを示している。

【００１３】また、数種類の異なるタイプの階層型凝集
クラスタ化方法を用いて、クラスタ化を行ない、その結
果生じたクラスタを探索すべき範囲として使用した一連
の研究プロジェクトの結果が示されている。また、完全
なリンケージ方法(completelinkage method) 、最も近
接する近接クラスタ方法(nearest neighbor clustermet
hod) 等が論じられている。

【００１４】また、ドキュメントの内容を識別する他の
例として、１９９０年６月にニュージャージ州のアトラ
ンタでの第１０回パターン認識国際会議において、Tsuj
imoto 他によって発表された、”Understanding Multi-
Articled Document ”がある。この論文は、ドキュメン
トを文字認識してこれによって内容の意味を判別すると
いうやり方によらず、ドキュメントを理解する方法を論
じている。それは、ドキュメントが明らかに幾何的な階
層構造をもっており、少しの規則を用いるだけで、この
幾何的な階層構造をドキュメントのもつ意味を表す論理
構造に変換できることを示している。

【００１５】上述したドキュメントコレクションの分割
によって生じるセットの数は所望により調整することが
出来るが、ユーザーに関心のありそうなドキュンメント
を効率的に選択したり、効率的に分離するためにユーザ
ーが簡単にソートできる程度の数が望ましい。セットの
数は１５〜２０の数が理想的である。ドキュメントがセ
ットに分割されたあと、ステップ１３において分割され
た各セットに対して要約が作成される。この要約は、例
えば、公知の自動要約アルゴリズムを用いて作成され
る。

【００１６】図２は、要約処理を示すフローチャートで
ある。ステップ３１において、ドキュメントのなかでそ
の内容を良く表すワードが決定され、ステップ３２にお
いてそのワードの使用頻度が決定される。ドキュメント
のなかでその内容を良く表すワードは、例えば、各ドキ
ュメントのなかで最も使用頻度の高いワードを見つけだ
す逆ドキュメント使用頻度法（Inverse Document Frequ
ency(IDF) ）を用いて、識別される。ステップ３２にお
いて、そのワードを含むドキュメント内の文章が表示さ
れる。

【００１７】要約が、例えば、コンピュータモニタ上に
表示される。図１のステップ１５において、表示された
要約に対して、例えば、マウス、ジョイスチック等のコ
ンピュータへの入力手段を用いて、１つもしくはそれ以
上の要約を選択することによって、対応した１つもしく
はそれ以上のドキュメントのセットを選択することが出
来る。

【００１８】ステップ１５において、ユーザーは表示さ
れたドキュメントセットが満足するものであるかどうか
を判断する。そのドキュメントセットが満足できる場合
は、ステップ１８において、そのセットに含まれるドキ
ュメントの内容が、印刷あるいは、熟読等のために、ユ
ーザーに表示される。一方、選択されたセットに余り多
くのドキュメントが含まれているようだと、選択される
ドキュメントの数を減らすために、以下の処理がされ
る。

【００１９】ステップ２０において、ユーザーによって
ドキュメントの分割によって作成されたドキュメントの
各セットに対して一つあるいはそれ以上の選択されたセ
ットがドキュメントの新しいコレクションを形成する。
この新しいドキュメントのコレクションが、ステップ１
３において、再度分割され、ステップ１５において、再
度要約が作成される。そして、この再度作成された要約
が、ユーザーに表示され、希望する場合は更に再選択さ
れる。この時、分割アルゴリズムは、選択されたドキュ
メントセットのなかでドキュメントの差に基づいてさら
に細かいパーティションを作成するタイプであり、ドキ
ュメントが前に分割されたコレクションにおいて、全ド
キュメントに共通な特別な探索ワード基づいて、分割を
行うものでないことが望ましい。

【００２０】このような処理を繰り返し行なって、ユー
ザーにとって満足できる最終的なセットに分割されるま
で、ドキュメントのセットが小さくされる。このよう
に、分割、要約、セットの選択の各ステップを繰り返し
行うことによって最終的にユーザーの望むセットにドキ
ュメントを分割・選択ができる。発明は、ある程度特別
な場合において説明したが、勿論これに限定されること
なく、その組合せ等を変更して使用することが可能であ
る。

【００２１】

【発明の効果】以上説明したように本発明では、ユーザ
ーが探索ワードを入力せずに、ドキュメントのコレクシ
ョンの中から、ユーザーにとって満足のいくドキュメン
トセットを探索することができる。

【図面の簡単な説明】

【図１】ドキュメント探索方法を示すフローチャートで
ある。

【図２】要約処理を示すフローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケルジェイ．バーバリーノアメリカ合衆国カリフォルニア州 94038 モスビーチピー．オー．ボックス 853

Claims

【特許請求の範囲】

【請求項１】ユーザが探索するためのワードを入力す
ることなくユーザが満足できるドキュメントのセットを
ドキュメントコレクションの中から探索するドキュメン
トコレクションの探索方法において、（ａ）上記ドキュメントコレクションをドキュメントセ
ットに分割し、（ｂ）上記分割された各ドキュメントセットに対して各
要約を作成し、（ｃ）探索対象の上記ドキュメントコレクションを限定
するために、少なくとも１つの上記要約から探索したい
上記ドキュメントセットを選択して、これら選択された
ドキュメントセットからなる新たなドキュメントコレク
ションを定義し、（ｄ）ユーザが満足できるドキュメントセットが作られ
るまで上記（ａ）〜（ｃ）を繰り返すことからなる、ド
キュメントコレクションの探索方法。