JPH1027125A - 文書分類装置 - Google Patents
文書分類装置Info
- Publication number
- JPH1027125A JPH1027125A JP8199543A JP19954396A JPH1027125A JP H1027125 A JPH1027125 A JP H1027125A JP 8199543 A JP8199543 A JP 8199543A JP 19954396 A JP19954396 A JP 19954396A JP H1027125 A JPH1027125 A JP H1027125A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- distance
- stored
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007621 cluster analysis Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 abstract description 77
- 238000000034 method Methods 0.000 description 28
- 238000004364 calculation method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
された多数の文書を適切に分類することができる文書分
類装置を提供する。 【解決手段】 文書分類装置は、電子化された複数の文
書を格納する文書格納手段と、前記文書格納手段に格納
された複数の文書の間のリンク関係を格納するリンク関
係格納手段と、前記文書格納手段に格納された各文書に
含まれる単語の出現頻度から文書間距離を計算する距離
計算手段と、前記リンク関係格納手段に格納されたリン
ク関係と前記距離計算手段から得られる文書間距離を基
にして、初期文書クラスターを生成し、文書間距離に基
づいたクラスター分析を行い、前記文書格納手段に格納
された複数の文書を分類する文書分類手段と、文書分類
手段による分類された結果を出力する出力手段とを備え
る。
Description
テム上に存在する電子化された多数の文書を分類する文
書分類装置に関し、特に、ハイパーテキストのような複
雑にリンク付けされた多数の文書を分類する文書分類装
置に関するものである。
理的に離れた位置に存在するコンピュータシステム上の
電子文書にネットワークを介して容易にアクセスするこ
とができるようになっている。このような電子文書は、
文書の中に他の電子文書を参照するためのリンク情報を
埋め込むことが可能であり、リンク情報が埋め込まれた
電子文書は、そのリンク情報を辿ることによって当該電
子文書に関連する他の電子文書に容易に到達することが
できる。このようなリンク情報が埋め込まれた電子文書
の形態を、一般にハイパーテキストと呼んでいる。
テムにおいて、アクセス可能な電子文書の数が大量に増
加すると、この大量の電子文書からリンク情報のみにし
たがって所望の文書を探し出すことが困難になりつつあ
る。
法として、インターネット上で公開されている電子文書
を対象とした検索サービスを提供するシステムが増えつ
つある。これらの検索システムでは、大量の文書に対し
て一括したキーワード検索を行うことができる。すなわ
ち、インターネット上で公開されている電子文書を予め
可能な限り漏れなく探索しておき、各文書の内容を取得
しておくことにより、このような一括のキーワード検索
を行うことができるようにしている。
いては、各文書をその内容にしたがっていくつかのカテ
ゴリーへと分類しておくことによって、より検索効率の
向上を図るものがある。この場合のシステムの利用者
は、所望の文書が含まれていると思われるカテゴリーを
中心にキーワード検索を行うことが可能となり、検索効
率の向上が期待できる。
によって行う方法と、文書間の距離に基づいた計算によ
って自動的に行う方法とがある。大量の文書を分類する
場合には、効率の点から、後者の方法が有利である。
手法として、例えば、文献「Luhn, H. P., 'A statisti
cal approach to mechanised encoding and searching
of library information', IBM journal of research a
nd development, 1, 309-17 (1957)」において論じられ
ているように、文書中に含まれる各単語の出現頻度を基
に単語の重み付けを行なう方法がある。この場合、特
に、重みの高い単語は、その文書を代表するキーワード
とみなすことができる。
間距離を求める手法が、例えば、文献「Salton, G.and
McGill, N. J., ' Introduction to modern informatio
n retrieval', NewYork, McGraw-Hill (1983)」で提案
されており、いくつかの文書分類システムにおいて採用
されている。
文書Piに対して各単語Ruの重みWiuが設定されてい
るものとすると、文書Piの文書ベクトルVpiを以下の
ように定義する。ただし、文書Pi中に単語Ruが存在
しない場合には、重みWiuには“0”を設定する。ま
た、単語Ruが存在する場合には、重みWiuは“0”以
上の実数値とする。 Ωiu*=Wiu/(max Wiu) ……(1−1) Vpi*=(Ωi1*,Ωi2*,…,Ωim*) ……(1−2) Vpi=Vpi*/|Vpi*| =(Ωi1,Ωi2,…,Ωim) ……(1−3) ただし、ここでは、単語の異なり総数をmとしており、
また、Ωiu(0≦Ωiu≦1)を文書Piに対する各単語
Ruの重みWiuとして再定義する。そして、この場合に
おける文書Piと文書Pjの間の距離d(Pi,Pj)
{(0≦d(Pi,Pj)≦1)は、 d(Pi,Pj)=2(arccos(Vpi・Vpj))/π ……(1−4) として、両者の文書ベクトルの角度として定義する。
た文書間距離に基づき、クラスター分析の手法を用いる
と、文書の分類が可能となる。クラスター分析の手法に
ついては、例えば、文献「田中,垂水,脇本,“統計解
析ハンドブックII 多変量解析編”,第226頁〜第
257頁,共立出版(1984)」が参照できる。クラ
スター分析の手法は、よく知られた技術であるのでここ
での説明は省略する。
来の技術による文書分類システムにおいては、更に、解
決すべき課題として、次のような問題がある。すなわ
ち、(従来技術1)や(従来技術2)による文書分類シ
ステムにおいて、機械的に得られる文書間距離は、文書
の意味内容を深く勘案した上で設定されるものではな
い。したがって、このような文書間距離に基づいた文書
分類は、文書の意味内容が充分に反映されたものである
とは言い難い。このため、ユーザにとって、大量の電子
文書からは所望の文書を探し出すことが困難な状況にあ
ることにかわりはない。
めになされたものであり、本発明の目的は、ハイパーテ
キストのような複雑にリンク付けされた多数の文書を適
切に分類することができる文書分類装置を提供すること
にある。
するため、本発明による文書分類装置は、電子化された
複数の文書を格納する文書格納手段(11)と、前記文
書格納手段に格納された複数の文書の間のリンク関係を
格納するリンク関係格納手段(12)と、前記文書格納
手段に格納された各文書に含まれる単語の出現頻度から
文書間距離を計算する距離計算手段(13)と、前記リ
ンク関係格納手段に格納されたリンク関係と前記距離計
算手段から得られる文書間距離を基にして、初期文書ク
ラスターを生成し、文書間距離に基づいたクラスター分
析を行い、前記文書格納手段に格納された複数の文書を
分類する文書分類手段(14)と、文書分類手段による
分類された結果を出力する出力手段(15)とを有する
ことを特徴とする。
いては、文書格納手段(11)が、電子化された複数の
文書を格納しており、リンク関係格納手段(12)が、
文書格納手段に格納された複数の文書の間のリンク関係
を格納している。距離計算手段(13)が、文書格納手
段に格納された各文書に含まれる単語の出現頻度から文
書間距離を計算すると、文書分類手段(14)が、リン
ク関係格納手段に格納されたリンク関係と前記距離計算
手段から得られる文書間距離を基にして、初期文書クラ
スターを生成し、文書間距離に基づいたクラスター分析
を行い、前記文書格納手段に格納された複数の文書を分
類する。そして、出力手段(15)により、文書分類手
段による分類された結果を出力する。
は、ハイパーテキストの形態をとる文書をクラスター分
析の手法を用いて分類する際に、文書に記述されたリン
ク情報を利用する。文書間のリンク関係は、基本的に文
書の作成者が自分の作成した文書と意味的に近い(距離
が小さい)文書に対して設定されているので、リンク関
係情報と、文書間距離の双方を用いてクラスター分析を
行う。これにより、文書の作成者の意志を反映した文書
分類、つまりは、文書の意味内容に沿った文書分類が実
現できる。
形態について図面を参照して具体的に説明する。図1
は、本発明の一実施例の文書分類装置の要部の構成を示
すブロック図である。図1において、11は文書格納
部、12はリンク関係格納部、13は距離計算処理部、
14は文書分類処理部、15は出力処理部である。
格納部11が、電子化された大量の文書を格納してお
り、ここに格納された各々の文書に対応して、リンク関
係格納部12が、各々の文書の間のリンク関係情報(参
照する文書の存在位置とその文書識別子)を格納してい
る。距離計算処理部13は、文書格納部11に格納され
た各文書を解析し、その文書に含まれる単語の出現頻度
から文書間距離を計算する。この文書間距離の計算は、
例えば、前述した(従来技術2)の文書分類システムと
同様な手法(アルゴリズム)により計算する。
と、文書分類処理部14では、リンク関係格納部12に
格納されたリンク関係情報と距離計算処理部13から得
られた文書間距離を基にして、初期文書クラスターを生
成し、文書間距離に基づいたクラスター分析を行う。そ
して、文書格納部11に格納された複数の文書を分類す
る。分類された結果は、出力処理部15によるグラフィ
カルユーザインタフェースを介して、見やすい表示形態
でユーザに対して表示出力される。これにより、例え
ば、クラスター分析の結果に応じて、大量の文書の中か
ら同じグループに属する文書のみが表示されるので、ユ
ーザは所望する文書を探しやすくなる。
ットワークに結合された文書分類システムの要部の構成
を示すブロック図である。図2において、20は広域ネ
ットワーク、21は文書取得処理部、22は文書格納
部、23はリンク関係格納部、24は自立語抽出処理
部、25は単語重み設定処理部、26は文書間距離計算
処理部、27は文書分類処理部、28は出力処理部であ
る。図2に示す文書分類システムでは、広域ネットワー
ク20上に分散して存在するハイパーテキストの形態の
文書に対して、これらの文書を取得し、その文書中に埋
め込まれたリンク情報から、これらの電子文書の内容を
対象として文書分類を行う。
ネットワークシステムが互いに結合されたインターネッ
トであり、文書取得処理部21は、広域ネットワーク2
0にアクセス可能に存在する大量の文書を取得するプロ
グラムモジュールにより構成される。このプログラムモ
ジュールは、広域ネットワーク20に接続されているコ
ンピュータシステム上に格納されている電子文書の1つ
を指定すると、「指定された電子文書の内容を取得し、
この電子文書中に埋め込まれた他の文書を指示するリン
ク情報を同定し、リンク情報が指示する他の文書を取得
する操作」を再帰的に繰り返す処理を実行し、広域ネッ
トワーク20に接続された複数のコンピュータシステム
上に分散して存在する電子文書を取得する。
の文書は、文書格納部22に格納される。この場合、文
書格納部22では、文書取得処理部21が取得した文書
をその文書を特定するリンク情報と対にして格納する。
また、リンク関係格納部23において、文書格納部22
に格納されている各々の文書間のリンク関係の有無を格
納する。
に格納されている文書から形態素解析アルゴリズムを用
いて自立語(単語)を抽出する。これにより、文書から
単語が切り出される。単語重み設定処理部25は、自立
語抽出処理部24による抽出結果を基にして、各文書毎
に全ての自立語に対して重み(重要度)を設定する。そ
して、文書間距離計算処理部26において、単語重み設
定処理部25によって設定された重みを基にして、文書
格納部22に格納されている文書の全ての2つの項目の
間の距離を計算する。
ると、文書分類処理部27では、リンク関係格納部23
に格納されているリンク関係の有無と、文書間距離計算
処理部26によって計算された文書間距離に基づいて、
文書をクラスター分析により分類する。分類された結果
は、出力処理部28により、その文書分類処理部27の
分類結果が表示される。出力処理部28は、ユーザに対
して、グラフィカルユーザインターフェイスを利用して
見やすい表示形態により、例えば、同じグループに属す
る文書がまとめられて、その文書分類結果として出力表
示される。
子文書では、文書の内容部分とリンク情報(他の文書の
ネットワーク上の存在位置および文書識別子)とを区別
するため、リンク情報には、リンク情報であることを示
すタグ付けがなされている。このため、文書中からタグ
と一致する文字列を検出することにより、文書取得処理
部21では、文書中からリンク情報を同定する。
理のアルゴリズムを示すフローチャートである。図3に
示すフローチャートを参照して、文書取得処理部の動作
を説明する。広域ネットワーク上の1つの文書のリンク
情報を初期条件として指定して、文書取得処理を起動す
ると、ここでの処理が開始され、まず、ステップ31に
おいて、初期条件としてリンク情報(ネットワーク上の
存在位置および文書識別子)が指定された文書を文書D
とし、次のステップ32において、リストSの先頭に文
書Dのリンク情報を加え、リストSの先頭をカレントの
リスト位置Pとする。次に、次のステップ33におい
て、リストSのリスト位置Pに対応するリンク情報が存
在するか否かを判定する。この判定で、リンク情報が存
在しない場合は、ここでのリスト操作による文書取得処
理が終了したことなので、処理を終了する。
情報が存在する場合は、次のステップ34に進み、リン
ク情報を基にして、各リンク情報に対応する文書Dの文
書内容を取得する。次に、ステップ35において、文書
Dのリンク情報とその文書内容とを対にして、文書格納
部22に格納する(図4)。そして、次のステップ36
において、文書Dの文書中に記述されているリンク情報
(D1,D2,…,Dn)を全て同定する。
(D1,D2,…,Dn)のうち、リストS中に存在し
ないリンク情報があれば、リストSに連接する。次にス
テップ38において、文書Dと各リンク情報(D1,D
2,…,Dn)との間の2項間にリンク関係が存在する
ことをリンク情報格納部23に格納する。そして、次の
文書に対する処理のため、ステップ39において、カレ
ントのリスト位置PをリストS中のリスト位置Pの次の
位置とし、ステップ33に戻る。ステップ33において
は、前述のように、リストSのリスト位置Pに対応する
リンク情報が存在するか否かを判定し、この判定処理
で、リンク情報が存在する場合には、ステップ34から
の処理を繰り返し、また、リンク情報が存在しない場合
は、ここでのリスト操作による文書取得処理が終了した
ことなので、処理を終了する。
理によって、文書中でリンク付けされている他の文書が
再帰的に取得される。この結果、得られた各文書の内容
はその文書のリンク情報と共に文書格納部22に格納さ
れる。また、各文書間のリンク関係の情報は、リンク関
係格納部23に格納される。
内容とリンク情報の関係を説明する図である。図4に示
すように、文書格納部には、取得された文書の文書内容
42とリンク情報(D1,D2,…,Dn)41とが対
応づけて格納される。
るリンク関係の情報を説明する図である。図5に示すよ
うに、リンク関係格納処理部23には、リンク関係が2
次元マトリックスの表の形式で格納される。表中の行見
出しおよび列見出しは、文書格納部22に格納されたリ
ンク情報(D1,D2,…,Dn)に対応し、リンク情
報によって特定される文書間にリンク関係がある場合を
○印で表記し、リンク関係がない場合を×印で表記して
いる。
は、文書格納部22に格納された各文書内容から公知の
形態素解析アルゴリズムを用いて単語を切り出し、各文
書内容の中の自立語を抽出する。ここで抽出した自立語
に対して、単語重み設定処理部25が、各文書の文書内
容の中に含まれる自立語に対して“1”を設定し、文書
内容の中に含まれない自立語に対して“0”を設定す
る。
み付け結果の一例を示す図である。前述したように、こ
こでの文書の各文書内容は、リンク情報(D1,D2,
…,Dn)により対応づけられているので、図6に示す
ように、各文書内容に含まれている自立語(WORD
1,WORD2,WORD3,…,WORDn)に対し
て、当該各文書の文書内容の中に含まれる自立語には
“1”を設定し、文書内容の中に含まれない自立語は
“0”を設定するが、これらは、リンク情報(D1,D
2,…,Dn)により各文書内容と対応付けられる。
(1−1)〜式(1−4)に基づいて、文書格納処理部
22に格納された文書の全ての2項間について、その間
の距離を計算する。計算された各文書の文書間距離は、
各文書内容と対応づけられているリンク情報(D1,D
2,…,Dn)の間の距離として格納される。図7は、
文書間距離計算処理部26による文書間距離の計算結果
の一例を示している。
れた各文書の文書間距離が算出されると、文書分類処理
部27において、リンク関係の情報と、算出した文書間
距離に基づいて、文書分類処理部27は、初期文書クラ
スターを生成し、文書間距離に基づいたクラスター分析
を行い、文書格納部22に格納された各文書を分類す
る。
類処理のアルゴリズムを示すフローチャートである。図
8を参照して、ここで文書分類処理を説明する。文書分
類処理においては、処理を開始すると、ステップ81に
おいて、初期文書クラスターの作成処理を行う。すなわ
ち、リンク関係格納部23のリンク関係の有無と、文書
間距離計算部26の計算結果を参照し、リンク関係があ
り、かつ、文書間距離が所定の定数K(0≦K≦1)以
下である文書の対を1つのクラスターとする。この場
合、3つ以上の文書が、この条件を満たして連なる場合
には、それらをまとめて1つのクラスターとする。
ラスターと、クラスターに属さない全文書の2項間距離
を再計算する。次に、ステップ83において、得られた
2項間距離のうち最も小さい値となる2つのクラスター
あるいは文書を1つのクラスターとする。そして、次の
ステップ84において、クラスター数および文書数の合
計値が、所定数N(1≦N≦n:文書総数n)以下であ
るか否かを判定し、合計値が所定数N以下でない場合、
未だ分類されていない文書が存在するので、この場合に
は、ステップ82に戻り、ステップ82およびステップ
83のクラスター分析よる分類処理を繰り返し行う。こ
の結果、ステップ84の判定処理で、クラスター数およ
び文書数の合計値が所定数N以下であることが確認でき
ると、ここで文書の分類が終了したので、一連の処理を
終了する。そして、次に説明するように、分類した結果
を出力処理部28により表示する。
クラスターとクラスターに属さない文書の間の文書間距
離の再計算を行うが、この場合の文書と文書との間の文
書間距離計算は、前述したように、式(1−1)〜式
(1−4)により行う。また、クラスターCと文書Dの
間の距離計算は、クラスターCに属する全ての文書と文
書Dの距離計算を式(1−1)〜式(1−4)によって
行い、その平均値を距離とする。クラスターC1とクラ
スターC2の間では、クラスターC1とクラスターC2
に属する各文書の距離計算を行い、その平均値を距離と
する。
リズムは、一般のクラスター分析の初期クラスターの設
定に文書間距離とリンク関係を併用するものである。す
なわち、リンク関係があり、かつ、文書間距離が近い文
書をまとめて、初期クラスターとし、更に、文書間距離
とリンク関係を併用することにより、意味的関係の深い
リンク関係を選択的に利用することが可能となる。ま
た、リンク関係を用いることにより、従来の文書間距離
情報のみに基づくクラスター分析と比較して、より信頼
性の高い分類が可能となる。これにより、文書の意味内
容をより反映したクラスター解析(分類)が可能とな
る。
5,図6,および図7の数値例の場合には、K=0.6
とした場合、文書間距離が最も近いものは、文書D1と
文書D4との距離“0.09”であり、次に近い文書間
距離は文書D4と文書D5との距離“0.12”であ
り、その次に近い文書間距離は文書D2と文書D3との
距離“0.27”であることから、初期クラスターは
(D1,D4,D5)および(D2,D3)となる。
する。前述したように、出力処理部28は、ユーザに対
して、グラフィカルユーザインターフェイスを利用して
見やすい表示形態により、例えば、同じグループに属す
る文書がまとめられて、その文書分類結果として出力表
示する。このような出力処理部による表示形態を、具体
的な操作例を例示して説明する。図9〜図13は、ユー
ザが、ここでの文書分類装置に組み込まれている文書検
索装置を起動して、論文検索を行い、更に文書分類を行
う場合の操作画面の一連の状態の変化を示している。こ
こでの文書検索装置を起動すると、図9に示すように、
文献検索ウィンドウ画面90が表示される。この文献検
索ウィンドウ画面90には、検索操作ガイド共に、検索
キーワード入力ためのキーワード入力フィールド91が
設けられている。
て、例えば、ユーザが論文検索のためのキーワードとし
て、図10に示すように、「人工頭脳」,「定性推
論」,および「免疫ネットワーク」のキーワードを入力
する操作を行うと、文献検索ウィンドウ画面90は、キ
ーワード入力フィールド91に検索キーワードが入力さ
れた状態となり、この状態において、検索ボタン92を
ポインタカーソル93によりクリックすると、検索処理
が開始されて、その検索結果が、検索結果表示フィール
ド94に表示される。その結果、図11に示すように、
検索結果表示フィールド94には、例えば、ヒットした
文献の3件の文書のタイトルが表示される。
深い文書を更に表示させるため、本実施例にかかる文書
分類装置を起動する。このため、図12に示すように、
検索結果表示フィールド94に表示された文書の内の1
つの文書95をポインタカーソル93の操作により指定
して(反転表示させて)、図13に示すように、関連文
献表示ボタン96を操作すると、つまり、マウス操作で
ポインタカーソル93によりクリックすると、本実施例
にかかる文書分類装置が起動される。そして、指定され
た文書から、その中に埋め込まれたリンク情報により関
連のある文書を取得し、その文書間距離に基づくクラス
ター分析による文書分類処理を実行し、同じグループに
属する文書を関連文書表示フィールド97に表示する。
このようして、ユーザは、文献検索を行う場合に、関連
のある文書まで含めて効率よく検索することとができ
る。
類装置によれば、ハイパーテキストの形態をとる文書を
クラスター分析する際に、文書に記述されたリンク情報
を利用することにより、文書の作成者の意志を反映した
文書分類を行うことができる。つまり、文書の意味内容
に沿った文書分類ができるようになる。
部の構成を示すブロック図、
ワークに結合された文書分類システムの要部の構成を示
すブロック図、
アルゴリズムを示すフローチャート、
とリンク情報の関係を説明する図、
ンク関係の情報を説明する図、
け結果の一例を示す図、
間距離の計算結果の一例を示す図、
理のアルゴリズムを示すフローチャート、
合の操作画面の一連の状態の変化の第1の状態を示す
図、
う場合の操作画面の一連の状態の変化の第2の状態を示
す図、
う場合の操作画面の一連の状態の変化の第3の状態を示
す図、
う場合の操作画面の一連の状態の変化の第4の状態を示
す図、
う場合の操作画面の一連の状態の変化の第5の状態を示
す図である。
離計算処理部、14…文書分類処理部、15…出力処理
部、20…広域ネットワーク、21…文書取得処理部、
22…文書格納部、23…リンク関係格納部、24…自
立語抽出処理部、25…単語重み設定処理部、26…文
書間距離計算処理部、27…文書分類処理部、28…出
力処理部。
Claims (1)
- 【請求項1】 電子化された複数の文書を格納する文書
格納手段と、 前記文書格納手段に格納された複数の文書の間のリンク
関係を格納するリンク関係格納手段と、 前記文書格納手段に格納された各文書に含まれる単語の
出現頻度から文書間距離を計算する距離計算手段と、 前記リンク関係格納手段に格納されたリンク関係と前記
距離計算手段から得られる文書間距離を基にして、初期
文書クラスターを生成し、文書間距離に基づいたクラス
ター分析を行い、前記文書格納手段に格納された複数の
文書を分類する文書分類手段と、 文書分類手段による分類された結果を出力する出力手段
とを有することを特徴とする文書分類装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19954396A JP3772401B2 (ja) | 1996-07-11 | 1996-07-11 | 文書分類装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP19954396A JP3772401B2 (ja) | 1996-07-11 | 1996-07-11 | 文書分類装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1027125A true JPH1027125A (ja) | 1998-01-27 |
| JP3772401B2 JP3772401B2 (ja) | 2006-05-10 |
Family
ID=16409582
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP19954396A Expired - Fee Related JP3772401B2 (ja) | 1996-07-11 | 1996-07-11 | 文書分類装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3772401B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1014283A1 (en) * | 1998-12-17 | 2000-06-28 | Picom Software System Ltd. | Intranet-based cataloguing and publishing system and method |
| JP2000331016A (ja) * | 1999-05-19 | 2000-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 関連文書検索方法および装置、その方法を記録した記録媒体 |
| JP2000339350A (ja) * | 1999-01-26 | 2000-12-08 | Xerox Corp | マルチモード情報アクセス |
| JP2001312683A (ja) * | 2000-03-31 | 2001-11-09 | Xerox Corp | ユーザトラフィックフローを予測する方法および装置 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8443278B2 (en) | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
-
1996
- 1996-07-11 JP JP19954396A patent/JP3772401B2/ja not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1014283A1 (en) * | 1998-12-17 | 2000-06-28 | Picom Software System Ltd. | Intranet-based cataloguing and publishing system and method |
| JP2000339350A (ja) * | 1999-01-26 | 2000-12-08 | Xerox Corp | マルチモード情報アクセス |
| JP2000331016A (ja) * | 1999-05-19 | 2000-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 関連文書検索方法および装置、その方法を記録した記録媒体 |
| JP2001312683A (ja) * | 2000-03-31 | 2001-11-09 | Xerox Corp | ユーザトラフィックフローを予測する方法および装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3772401B2 (ja) | 2006-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
| US7113954B2 (en) | System and method for generating a taxonomy from a plurality of documents | |
| US6772148B2 (en) | Classification of information sources using graphic structures | |
| US6993517B2 (en) | Information retrieval system for documents | |
| US5625767A (en) | Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents | |
| US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
| JP3577819B2 (ja) | 情報探索装置及び情報探索方法 | |
| US7493252B1 (en) | Method and system to analyze data | |
| US20040049499A1 (en) | Document retrieval system and question answering system | |
| EP0610760A2 (en) | Document detection system with improved document detection efficiency | |
| JP2003167914A (ja) | マルチメディア情報検索方法、プログラム、記録媒体及びシステム | |
| US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
| JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
| EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
| JPH08255172A (ja) | 文書検索システム | |
| JP4967133B2 (ja) | 情報取得装置、そのプログラム及び方法 | |
| JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
| WO2003032199A2 (en) | Classification of information sources using graph structures | |
| CN119807328A (zh) | 知识文本检索方法、装置、存储介质及计算机设备 | |
| JP2002175330A (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
| JP3385297B2 (ja) | 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム | |
| JPH1027125A (ja) | 文書分類装置 | |
| JP2000105769A (ja) | 文書表示方法 | |
| JPH10232871A (ja) | 検索装置 | |
| JP3088805B2 (ja) | 文書管理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051108 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060206 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100224 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110224 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120224 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130224 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130224 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140224 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |