JPH1027125A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JPH1027125A
JPH1027125A JP8199543A JP19954396A JPH1027125A JP H1027125 A JPH1027125 A JP H1027125A JP 8199543 A JP8199543 A JP 8199543A JP 19954396 A JP19954396 A JP 19954396A JP H1027125 A JPH1027125 A JP H1027125A
Authority
JP
Japan
Prior art keywords
document
documents
distance
stored
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8199543A
Other languages
English (en)
Other versions
JP3772401B2 (ja
Inventor
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP19954396A priority Critical patent/JP3772401B2/ja
Publication of JPH1027125A publication Critical patent/JPH1027125A/ja
Application granted granted Critical
Publication of JP3772401B2 publication Critical patent/JP3772401B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 ハイパーテキストのような複雑にリンク付け
された多数の文書を適切に分類することができる文書分
類装置を提供する。 【解決手段】 文書分類装置は、電子化された複数の文
書を格納する文書格納手段と、前記文書格納手段に格納
された複数の文書の間のリンク関係を格納するリンク関
係格納手段と、前記文書格納手段に格納された各文書に
含まれる単語の出現頻度から文書間距離を計算する距離
計算手段と、前記リンク関係格納手段に格納されたリン
ク関係と前記距離計算手段から得られる文書間距離を基
にして、初期文書クラスターを生成し、文書間距離に基
づいたクラスター分析を行い、前記文書格納手段に格納
された複数の文書を分類する文書分類手段と、文書分類
手段による分類された結果を出力する出力手段とを備え
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークシス
テム上に存在する電子化された多数の文書を分類する文
書分類装置に関し、特に、ハイパーテキストのような複
雑にリンク付けされた多数の文書を分類する文書分類装
置に関するものである。
【0002】
【従来の技術】今日、インターネットの普及に伴い、物
理的に離れた位置に存在するコンピュータシステム上の
電子文書にネットワークを介して容易にアクセスするこ
とができるようになっている。このような電子文書は、
文書の中に他の電子文書を参照するためのリンク情報を
埋め込むことが可能であり、リンク情報が埋め込まれた
電子文書は、そのリンク情報を辿ることによって当該電
子文書に関連する他の電子文書に容易に到達することが
できる。このようなリンク情報が埋め込まれた電子文書
の形態を、一般にハイパーテキストと呼んでいる。
【0003】インターネットのようなネットワークシス
テムにおいて、アクセス可能な電子文書の数が大量に増
加すると、この大量の電子文書からリンク情報のみにし
たがって所望の文書を探し出すことが困難になりつつあ
る。
【0004】このような問題を解決するための1つの方
法として、インターネット上で公開されている電子文書
を対象とした検索サービスを提供するシステムが増えつ
つある。これらの検索システムでは、大量の文書に対し
て一括したキーワード検索を行うことができる。すなわ
ち、インターネット上で公開されている電子文書を予め
可能な限り漏れなく探索しておき、各文書の内容を取得
しておくことにより、このような一括のキーワード検索
を行うことができるようにしている。
【0005】また、更に、このような検索システムにお
いては、各文書をその内容にしたがっていくつかのカテ
ゴリーへと分類しておくことによって、より検索効率の
向上を図るものがある。この場合のシステムの利用者
は、所望の文書が含まれていると思われるカテゴリーを
中心にキーワード検索を行うことが可能となり、検索効
率の向上が期待できる。
【0006】ところで、文書を分類する方法には、人手
によって行う方法と、文書間の距離に基づいた計算によ
って自動的に行う方法とがある。大量の文書を分類する
場合には、効率の点から、後者の方法が有利である。
【0007】(従来技術1)このような文書を分類する
手法として、例えば、文献「Luhn, H. P., 'A statisti
cal approach to mechanised encoding and searching
of library information', IBM journal of research a
nd development, 1, 309-17 (1957)」において論じられ
ているように、文書中に含まれる各単語の出現頻度を基
に単語の重み付けを行なう方法がある。この場合、特
に、重みの高い単語は、その文書を代表するキーワード
とみなすことができる。
【0008】(従来技術2)また、単語の重みから文書
間距離を求める手法が、例えば、文献「Salton, G.and
McGill, N. J., ' Introduction to modern informatio
n retrieval', NewYork, McGraw-Hill (1983)」で提案
されており、いくつかの文書分類システムにおいて採用
されている。
【0009】このような文書分類システムにおいては、
文書Piに対して各単語Ruの重みWiuが設定されてい
るものとすると、文書Piの文書ベクトルVpiを以下の
ように定義する。ただし、文書Pi中に単語Ruが存在
しない場合には、重みWiuには“0”を設定する。ま
た、単語Ruが存在する場合には、重みWiuは“0”以
上の実数値とする。 Ωiu*=Wiu/(max Wiu) ……(1−1) Vpi*=(Ωi1*,Ωi2*,…,Ωim*) ……(1−2) Vpi=Vpi*/|Vpi*| =(Ωi1,Ωi2,…,Ωim) ……(1−3) ただし、ここでは、単語の異なり総数をmとしており、
また、Ωiu(0≦Ωiu≦1)を文書Piに対する各単語
Ruの重みWiuとして再定義する。そして、この場合に
おける文書Piと文書Pjの間の距離d(Pi,Pj)
{(0≦d(Pi,Pj)≦1)は、 d(Pi,Pj)=2(arccos(Vpi・Vpj))/π ……(1−4) として、両者の文書ベクトルの角度として定義する。
【0010】(従来技術3)上記のようにして求められ
た文書間距離に基づき、クラスター分析の手法を用いる
と、文書の分類が可能となる。クラスター分析の手法に
ついては、例えば、文献「田中,垂水,脇本,“統計解
析ハンドブックII 多変量解析編”,第226頁〜第
257頁,共立出版(1984)」が参照できる。クラ
スター分析の手法は、よく知られた技術であるのでここ
での説明は省略する。
【0011】
【発明が解決しようとする課題】ところで、上述した従
来の技術による文書分類システムにおいては、更に、解
決すべき課題として、次のような問題がある。すなわ
ち、(従来技術1)や(従来技術2)による文書分類シ
ステムにおいて、機械的に得られる文書間距離は、文書
の意味内容を深く勘案した上で設定されるものではな
い。したがって、このような文書間距離に基づいた文書
分類は、文書の意味内容が充分に反映されたものである
とは言い難い。このため、ユーザにとって、大量の電子
文書からは所望の文書を探し出すことが困難な状況にあ
ることにかわりはない。
【0012】本発明は、このような問題点を解決するた
めになされたものであり、本発明の目的は、ハイパーテ
キストのような複雑にリンク付けされた多数の文書を適
切に分類することができる文書分類装置を提供すること
にある。
【0013】
【課題を解決するための手段】上記のような目的を達成
するため、本発明による文書分類装置は、電子化された
複数の文書を格納する文書格納手段(11)と、前記文
書格納手段に格納された複数の文書の間のリンク関係を
格納するリンク関係格納手段(12)と、前記文書格納
手段に格納された各文書に含まれる単語の出現頻度から
文書間距離を計算する距離計算手段(13)と、前記リ
ンク関係格納手段に格納されたリンク関係と前記距離計
算手段から得られる文書間距離を基にして、初期文書ク
ラスターを生成し、文書間距離に基づいたクラスター分
析を行い、前記文書格納手段に格納された複数の文書を
分類する文書分類手段(14)と、文書分類手段による
分類された結果を出力する出力手段(15)とを有する
ことを特徴とする。
【0014】このような特徴を有する文書分類装置にお
いては、文書格納手段(11)が、電子化された複数の
文書を格納しており、リンク関係格納手段(12)が、
文書格納手段に格納された複数の文書の間のリンク関係
を格納している。距離計算手段(13)が、文書格納手
段に格納された各文書に含まれる単語の出現頻度から文
書間距離を計算すると、文書分類手段(14)が、リン
ク関係格納手段に格納されたリンク関係と前記距離計算
手段から得られる文書間距離を基にして、初期文書クラ
スターを生成し、文書間距離に基づいたクラスター分析
を行い、前記文書格納手段に格納された複数の文書を分
類する。そして、出力手段(15)により、文書分類手
段による分類された結果を出力する。
【0015】このようにして、本発明の文書分類装置で
は、ハイパーテキストの形態をとる文書をクラスター分
析の手法を用いて分類する際に、文書に記述されたリン
ク情報を利用する。文書間のリンク関係は、基本的に文
書の作成者が自分の作成した文書と意味的に近い(距離
が小さい)文書に対して設定されているので、リンク関
係情報と、文書間距離の双方を用いてクラスター分析を
行う。これにより、文書の作成者の意志を反映した文書
分類、つまりは、文書の意味内容に沿った文書分類が実
現できる。
【0016】
【発明の実施の形態】以下、本発明を実施する場合の一
形態について図面を参照して具体的に説明する。図1
は、本発明の一実施例の文書分類装置の要部の構成を示
すブロック図である。図1において、11は文書格納
部、12はリンク関係格納部、13は距離計算処理部、
14は文書分類処理部、15は出力処理部である。
【0017】本実施例の文書分類装置においては、文書
格納部11が、電子化された大量の文書を格納してお
り、ここに格納された各々の文書に対応して、リンク関
係格納部12が、各々の文書の間のリンク関係情報(参
照する文書の存在位置とその文書識別子)を格納してい
る。距離計算処理部13は、文書格納部11に格納され
た各文書を解析し、その文書に含まれる単語の出現頻度
から文書間距離を計算する。この文書間距離の計算は、
例えば、前述した(従来技術2)の文書分類システムと
同様な手法(アルゴリズム)により計算する。
【0018】このようにして文書間距離が計算される
と、文書分類処理部14では、リンク関係格納部12に
格納されたリンク関係情報と距離計算処理部13から得
られた文書間距離を基にして、初期文書クラスターを生
成し、文書間距離に基づいたクラスター分析を行う。そ
して、文書格納部11に格納された複数の文書を分類す
る。分類された結果は、出力処理部15によるグラフィ
カルユーザインタフェースを介して、見やすい表示形態
でユーザに対して表示出力される。これにより、例え
ば、クラスター分析の結果に応じて、大量の文書の中か
ら同じグループに属する文書のみが表示されるので、ユ
ーザは所望する文書を探しやすくなる。
【0019】図2は、本発明の別の実施例である広域ネ
ットワークに結合された文書分類システムの要部の構成
を示すブロック図である。図2において、20は広域ネ
ットワーク、21は文書取得処理部、22は文書格納
部、23はリンク関係格納部、24は自立語抽出処理
部、25は単語重み設定処理部、26は文書間距離計算
処理部、27は文書分類処理部、28は出力処理部であ
る。図2に示す文書分類システムでは、広域ネットワー
ク20上に分散して存在するハイパーテキストの形態の
文書に対して、これらの文書を取得し、その文書中に埋
め込まれたリンク情報から、これらの電子文書の内容を
対象として文書分類を行う。
【0020】広域ネットワーク20は、例えば、複数の
ネットワークシステムが互いに結合されたインターネッ
トであり、文書取得処理部21は、広域ネットワーク2
0にアクセス可能に存在する大量の文書を取得するプロ
グラムモジュールにより構成される。このプログラムモ
ジュールは、広域ネットワーク20に接続されているコ
ンピュータシステム上に格納されている電子文書の1つ
を指定すると、「指定された電子文書の内容を取得し、
この電子文書中に埋め込まれた他の文書を指示するリン
ク情報を同定し、リンク情報が指示する他の文書を取得
する操作」を再帰的に繰り返す処理を実行し、広域ネッ
トワーク20に接続された複数のコンピュータシステム
上に分散して存在する電子文書を取得する。
【0021】文書取得処理部21により取得された大量
の文書は、文書格納部22に格納される。この場合、文
書格納部22では、文書取得処理部21が取得した文書
をその文書を特定するリンク情報と対にして格納する。
また、リンク関係格納部23において、文書格納部22
に格納されている各々の文書間のリンク関係の有無を格
納する。
【0022】自立語抽出処理部24は、文書格納部22
に格納されている文書から形態素解析アルゴリズムを用
いて自立語(単語)を抽出する。これにより、文書から
単語が切り出される。単語重み設定処理部25は、自立
語抽出処理部24による抽出結果を基にして、各文書毎
に全ての自立語に対して重み(重要度)を設定する。そ
して、文書間距離計算処理部26において、単語重み設
定処理部25によって設定された重みを基にして、文書
格納部22に格納されている文書の全ての2つの項目の
間の距離を計算する。
【0023】このようにして、文書間の距離が計算され
ると、文書分類処理部27では、リンク関係格納部23
に格納されているリンク関係の有無と、文書間距離計算
処理部26によって計算された文書間距離に基づいて、
文書をクラスター分析により分類する。分類された結果
は、出力処理部28により、その文書分類処理部27の
分類結果が表示される。出力処理部28は、ユーザに対
して、グラフィカルユーザインターフェイスを利用して
見やすい表示形態により、例えば、同じグループに属す
る文書がまとめられて、その文書分類結果として出力表
示される。
【0024】一般的にハイパーテキストの形態をとる電
子文書では、文書の内容部分とリンク情報(他の文書の
ネットワーク上の存在位置および文書識別子)とを区別
するため、リンク情報には、リンク情報であることを示
すタグ付けがなされている。このため、文書中からタグ
と一致する文字列を検出することにより、文書取得処理
部21では、文書中からリンク情報を同定する。
【0025】図3は、文書取得処理部21の文書取得処
理のアルゴリズムを示すフローチャートである。図3に
示すフローチャートを参照して、文書取得処理部の動作
を説明する。広域ネットワーク上の1つの文書のリンク
情報を初期条件として指定して、文書取得処理を起動す
ると、ここでの処理が開始され、まず、ステップ31に
おいて、初期条件としてリンク情報(ネットワーク上の
存在位置および文書識別子)が指定された文書を文書D
とし、次のステップ32において、リストSの先頭に文
書Dのリンク情報を加え、リストSの先頭をカレントの
リスト位置Pとする。次に、次のステップ33におい
て、リストSのリスト位置Pに対応するリンク情報が存
在するか否かを判定する。この判定で、リンク情報が存
在しない場合は、ここでのリスト操作による文書取得処
理が終了したことなので、処理を終了する。
【0026】また、ステップ33の判定処理で、リンク
情報が存在する場合は、次のステップ34に進み、リン
ク情報を基にして、各リンク情報に対応する文書Dの文
書内容を取得する。次に、ステップ35において、文書
Dのリンク情報とその文書内容とを対にして、文書格納
部22に格納する(図4)。そして、次のステップ36
において、文書Dの文書中に記述されているリンク情報
(D1,D2,…,Dn)を全て同定する。
【0027】次に、ステップ37において、リンク情報
(D1,D2,…,Dn)のうち、リストS中に存在し
ないリンク情報があれば、リストSに連接する。次にス
テップ38において、文書Dと各リンク情報(D1,D
2,…,Dn)との間の2項間にリンク関係が存在する
ことをリンク情報格納部23に格納する。そして、次の
文書に対する処理のため、ステップ39において、カレ
ントのリスト位置PをリストS中のリスト位置Pの次の
位置とし、ステップ33に戻る。ステップ33において
は、前述のように、リストSのリスト位置Pに対応する
リンク情報が存在するか否かを判定し、この判定処理
で、リンク情報が存在する場合には、ステップ34から
の処理を繰り返し、また、リンク情報が存在しない場合
は、ここでのリスト操作による文書取得処理が終了した
ことなので、処理を終了する。
【0028】このようにして、文書取得処理部21の処
理によって、文書中でリンク付けされている他の文書が
再帰的に取得される。この結果、得られた各文書の内容
はその文書のリンク情報と共に文書格納部22に格納さ
れる。また、各文書間のリンク関係の情報は、リンク関
係格納部23に格納される。
【0029】図4は、文書格納部22に格納される文書
内容とリンク情報の関係を説明する図である。図4に示
すように、文書格納部には、取得された文書の文書内容
42とリンク情報(D1,D2,…,Dn)41とが対
応づけて格納される。
【0030】図5は、リンク関係格納部23に格納され
るリンク関係の情報を説明する図である。図5に示すよ
うに、リンク関係格納処理部23には、リンク関係が2
次元マトリックスの表の形式で格納される。表中の行見
出しおよび列見出しは、文書格納部22に格納されたリ
ンク情報(D1,D2,…,Dn)に対応し、リンク情
報によって特定される文書間にリンク関係がある場合を
○印で表記し、リンク関係がない場合を×印で表記して
いる。
【0031】前述したように、自立語抽出処理部24
は、文書格納部22に格納された各文書内容から公知の
形態素解析アルゴリズムを用いて単語を切り出し、各文
書内容の中の自立語を抽出する。ここで抽出した自立語
に対して、単語重み設定処理部25が、各文書の文書内
容の中に含まれる自立語に対して“1”を設定し、文書
内容の中に含まれない自立語に対して“0”を設定す
る。
【0032】図6は、単語重み設定処理部25による重
み付け結果の一例を示す図である。前述したように、こ
こでの文書の各文書内容は、リンク情報(D1,D2,
…,Dn)により対応づけられているので、図6に示す
ように、各文書内容に含まれている自立語(WORD
1,WORD2,WORD3,…,WORDn)に対し
て、当該各文書の文書内容の中に含まれる自立語には
“1”を設定し、文書内容の中に含まれない自立語は
“0”を設定するが、これらは、リンク情報(D1,D
2,…,Dn)により各文書内容と対応付けられる。
【0033】文書間距離計算処理部26は、前述した式
(1−1)〜式(1−4)に基づいて、文書格納処理部
22に格納された文書の全ての2項間について、その間
の距離を計算する。計算された各文書の文書間距離は、
各文書内容と対応づけられているリンク情報(D1,D
2,…,Dn)の間の距離として格納される。図7は、
文書間距離計算処理部26による文書間距離の計算結果
の一例を示している。
【0034】このようにして、リンク情報により取得さ
れた各文書の文書間距離が算出されると、文書分類処理
部27において、リンク関係の情報と、算出した文書間
距離に基づいて、文書分類処理部27は、初期文書クラ
スターを生成し、文書間距離に基づいたクラスター分析
を行い、文書格納部22に格納された各文書を分類す
る。
【0035】図8は、文書分類処理部27による文書分
類処理のアルゴリズムを示すフローチャートである。図
8を参照して、ここで文書分類処理を説明する。文書分
類処理においては、処理を開始すると、ステップ81に
おいて、初期文書クラスターの作成処理を行う。すなわ
ち、リンク関係格納部23のリンク関係の有無と、文書
間距離計算部26の計算結果を参照し、リンク関係があ
り、かつ、文書間距離が所定の定数K(0≦K≦1)以
下である文書の対を1つのクラスターとする。この場
合、3つ以上の文書が、この条件を満たして連なる場合
には、それらをまとめて1つのクラスターとする。
【0036】次に、ステップ82に進み、得られた前ク
ラスターと、クラスターに属さない全文書の2項間距離
を再計算する。次に、ステップ83において、得られた
2項間距離のうち最も小さい値となる2つのクラスター
あるいは文書を1つのクラスターとする。そして、次の
ステップ84において、クラスター数および文書数の合
計値が、所定数N(1≦N≦n:文書総数n)以下であ
るか否かを判定し、合計値が所定数N以下でない場合、
未だ分類されていない文書が存在するので、この場合に
は、ステップ82に戻り、ステップ82およびステップ
83のクラスター分析よる分類処理を繰り返し行う。こ
の結果、ステップ84の判定処理で、クラスター数およ
び文書数の合計値が所定数N以下であることが確認でき
ると、ここで文書の分類が終了したので、一連の処理を
終了する。そして、次に説明するように、分類した結果
を出力処理部28により表示する。
【0037】なお、このステップ82の処理において、
クラスターとクラスターに属さない文書の間の文書間距
離の再計算を行うが、この場合の文書と文書との間の文
書間距離計算は、前述したように、式(1−1)〜式
(1−4)により行う。また、クラスターCと文書Dの
間の距離計算は、クラスターCに属する全ての文書と文
書Dの距離計算を式(1−1)〜式(1−4)によって
行い、その平均値を距離とする。クラスターC1とクラ
スターC2の間では、クラスターC1とクラスターC2
に属する各文書の距離計算を行い、その平均値を距離と
する。
【0038】文書分類処理部27による文書分類アルゴ
リズムは、一般のクラスター分析の初期クラスターの設
定に文書間距離とリンク関係を併用するものである。す
なわち、リンク関係があり、かつ、文書間距離が近い文
書をまとめて、初期クラスターとし、更に、文書間距離
とリンク関係を併用することにより、意味的関係の深い
リンク関係を選択的に利用することが可能となる。ま
た、リンク関係を用いることにより、従来の文書間距離
情報のみに基づくクラスター分析と比較して、より信頼
性の高い分類が可能となる。これにより、文書の意味内
容をより反映したクラスター解析(分類)が可能とな
る。
【0039】具体例で説明すると、前述した図4,図
5,図6,および図7の数値例の場合には、K=0.6
とした場合、文書間距離が最も近いものは、文書D1と
文書D4との距離“0.09”であり、次に近い文書間
距離は文書D4と文書D5との距離“0.12”であ
り、その次に近い文書間距離は文書D2と文書D3との
距離“0.27”であることから、初期クラスターは
(D1,D4,D5)および(D2,D3)となる。
【0040】次に、出力処理部28の処理について説明
する。前述したように、出力処理部28は、ユーザに対
して、グラフィカルユーザインターフェイスを利用して
見やすい表示形態により、例えば、同じグループに属す
る文書がまとめられて、その文書分類結果として出力表
示する。このような出力処理部による表示形態を、具体
的な操作例を例示して説明する。図9〜図13は、ユー
ザが、ここでの文書分類装置に組み込まれている文書検
索装置を起動して、論文検索を行い、更に文書分類を行
う場合の操作画面の一連の状態の変化を示している。こ
こでの文書検索装置を起動すると、図9に示すように、
文献検索ウィンドウ画面90が表示される。この文献検
索ウィンドウ画面90には、検索操作ガイド共に、検索
キーワード入力ためのキーワード入力フィールド91が
設けられている。
【0041】この文献検索ウィンドウ画面90におい
て、例えば、ユーザが論文検索のためのキーワードとし
て、図10に示すように、「人工頭脳」,「定性推
論」,および「免疫ネットワーク」のキーワードを入力
する操作を行うと、文献検索ウィンドウ画面90は、キ
ーワード入力フィールド91に検索キーワードが入力さ
れた状態となり、この状態において、検索ボタン92を
ポインタカーソル93によりクリックすると、検索処理
が開始されて、その検索結果が、検索結果表示フィール
ド94に表示される。その結果、図11に示すように、
検索結果表示フィールド94には、例えば、ヒットした
文献の3件の文書のタイトルが表示される。
【0042】次に、ユーザが、検索された文書と関連の
深い文書を更に表示させるため、本実施例にかかる文書
分類装置を起動する。このため、図12に示すように、
検索結果表示フィールド94に表示された文書の内の1
つの文書95をポインタカーソル93の操作により指定
して(反転表示させて)、図13に示すように、関連文
献表示ボタン96を操作すると、つまり、マウス操作で
ポインタカーソル93によりクリックすると、本実施例
にかかる文書分類装置が起動される。そして、指定され
た文書から、その中に埋め込まれたリンク情報により関
連のある文書を取得し、その文書間距離に基づくクラス
ター分析による文書分類処理を実行し、同じグループに
属する文書を関連文書表示フィールド97に表示する。
このようして、ユーザは、文献検索を行う場合に、関連
のある文書まで含めて効率よく検索することとができ
る。
【0043】
【発明の効果】以上、説明したように、本発明の文書分
類装置によれば、ハイパーテキストの形態をとる文書を
クラスター分析する際に、文書に記述されたリンク情報
を利用することにより、文書の作成者の意志を反映した
文書分類を行うことができる。つまり、文書の意味内容
に沿った文書分類ができるようになる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施例の文書分類装置の要
部の構成を示すブロック図、
【図2】 図2は本発明の別の実施例である広域ネット
ワークに結合された文書分類システムの要部の構成を示
すブロック図、
【図3】 図3は文書取得処理部21の文書取得処理の
アルゴリズムを示すフローチャート、
【図4】 図4は文書格納部22に格納される文書内容
とリンク情報の関係を説明する図、
【図5】 図5はリンク関係格納部23に格納されるリ
ンク関係の情報を説明する図、
【図6】 図6は単語重み設定処理部25による重み付
け結果の一例を示す図、
【図7】 図7は文書間距離計算処理部26による文書
間距離の計算結果の一例を示す図、
【図8】 図8は文書分類処理部27による文書分類処
理のアルゴリズムを示すフローチャート、
【図9】 図9は論文検索を行い更に文書分類を行う場
合の操作画面の一連の状態の変化の第1の状態を示す
図、
【図10】 図10は論文検索を行い更に文書分類を行
う場合の操作画面の一連の状態の変化の第2の状態を示
す図、
【図11】 図11は論文検索を行い更に文書分類を行
う場合の操作画面の一連の状態の変化の第3の状態を示
す図、
【図12】 図12は論文検索を行い更に文書分類を行
う場合の操作画面の一連の状態の変化の第4の状態を示
す図、
【図13】 図13は論文検索を行い更に文書分類を行
う場合の操作画面の一連の状態の変化の第5の状態を示
す図である。
【符号の説明】
11…文書格納部、12…リンク関係格納部、13…距
離計算処理部、14…文書分類処理部、15…出力処理
部、20…広域ネットワーク、21…文書取得処理部、
22…文書格納部、23…リンク関係格納部、24…自
立語抽出処理部、25…単語重み設定処理部、26…文
書間距離計算処理部、27…文書分類処理部、28…出
力処理部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 電子化された複数の文書を格納する文書
    格納手段と、 前記文書格納手段に格納された複数の文書の間のリンク
    関係を格納するリンク関係格納手段と、 前記文書格納手段に格納された各文書に含まれる単語の
    出現頻度から文書間距離を計算する距離計算手段と、 前記リンク関係格納手段に格納されたリンク関係と前記
    距離計算手段から得られる文書間距離を基にして、初期
    文書クラスターを生成し、文書間距離に基づいたクラス
    ター分析を行い、前記文書格納手段に格納された複数の
    文書を分類する文書分類手段と、 文書分類手段による分類された結果を出力する出力手段
    とを有することを特徴とする文書分類装置。
JP19954396A 1996-07-11 1996-07-11 文書分類装置 Expired - Fee Related JP3772401B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19954396A JP3772401B2 (ja) 1996-07-11 1996-07-11 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19954396A JP3772401B2 (ja) 1996-07-11 1996-07-11 文書分類装置

Publications (2)

Publication Number Publication Date
JPH1027125A true JPH1027125A (ja) 1998-01-27
JP3772401B2 JP3772401B2 (ja) 2006-05-10

Family

ID=16409582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19954396A Expired - Fee Related JP3772401B2 (ja) 1996-07-11 1996-07-11 文書分類装置

Country Status (1)

Country Link
JP (1) JP3772401B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1014283A1 (en) * 1998-12-17 2000-06-28 Picom Software System Ltd. Intranet-based cataloguing and publishing system and method
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2000339350A (ja) * 1999-01-26 2000-12-08 Xerox Corp マルチモード情報アクセス
JP2001312683A (ja) * 2000-03-31 2001-11-09 Xerox Corp ユーザトラフィックフローを予測する方法および装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8443278B2 (en) 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1014283A1 (en) * 1998-12-17 2000-06-28 Picom Software System Ltd. Intranet-based cataloguing and publishing system and method
JP2000339350A (ja) * 1999-01-26 2000-12-08 Xerox Corp マルチモード情報アクセス
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2001312683A (ja) * 2000-03-31 2001-11-09 Xerox Corp ユーザトラフィックフローを予測する方法および装置

Also Published As

Publication number Publication date
JP3772401B2 (ja) 2006-05-10

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7113954B2 (en) System and method for generating a taxonomy from a plurality of documents
US6772148B2 (en) Classification of information sources using graphic structures
US6993517B2 (en) Information retrieval system for documents
US5625767A (en) Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US7493252B1 (en) Method and system to analyze data
US20040049499A1 (en) Document retrieval system and question answering system
EP0610760A2 (en) Document detection system with improved document detection efficiency
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US20100257177A1 (en) Document rating calculation system, document rating calculation method and program
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JPH08255172A (ja) 文書検索システム
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
WO2003032199A2 (en) Classification of information sources using graph structures
CN119807328A (zh) 知识文本检索方法、装置、存储介质及计算机设备
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP3385297B2 (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH1027125A (ja) 文書分類装置
JP2000105769A (ja) 文書表示方法
JPH10232871A (ja) 検索装置
JP3088805B2 (ja) 文書管理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100224

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110224

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120224

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130224

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140224

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees