JPH02158871A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JPH02158871A
JPH02158871A JP63312107A JP31210788A JPH02158871A JP H02158871 A JPH02158871 A JP H02158871A JP 63312107 A JP63312107 A JP 63312107A JP 31210788 A JP31210788 A JP 31210788A JP H02158871 A JPH02158871 A JP H02158871A
Authority
JP
Japan
Prior art keywords
document
documents
keyword
conceptual
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63312107A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63312107A priority Critical patent/JPH02158871A/ja
Publication of JPH02158871A publication Critical patent/JPH02158871A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文書分類装置、とくに、文書に含まれるキーワ
ードに基き文書の概念特徴量を求め、概念特徴量により
文書を分類する文書分類装置に関する。
[従来の技術] 文書をあらかじめ設定した分野へ自動的に分類するため
カイ自乗値を用いてキーワードの偏りを調べ、文書を分
類する方式が知られている。このような分類方式を記載
したものとして、田村他「統計的手法による文書自動分
類」 (情報処理36回全国大会論文集、1987年)
、オよび林知己夫「数量化の方法」(東洋経済新聞社、
1974年)がある。
カイ自乗検定はキーワードの出現頻度の分野による偏り
を示す指標としてカイ自乗値を求め文書を分類するもの
である。カイ自乗値は、各キーワードの出現頻度値と各
分野ごとの総キーワード数か独ケ事象であると仮定した
場合のキーワー・ドの出現頻度値を理論度数とし、実測
値との差を求め正規化したものである。
上記の文献■はカイ自乗検定を用いて文書をあらかじめ
設定した分野へ自動的に分類する方式について述べたも
のである。この方式は、キーワードの出現頻度の偏りを
用いるために、あらかじめ大量の標本データを分野別に
分類してカイ自乗値を計算し、分類用データを用意して
おく必要かある。
文献■もやはりカイ自乗値を用いる統計的手法の−って
あり、複数の分野間の相関を見るための方式である。
[発明が解決しようとする課題] 上記の文献■■に記載された方式は、標本データの分類
にはやはり人手による作業が必要となる。したがって、
人手による分類のばらつきや不適切さが介入するという
問題がある。
また、後者は分類用の軸を決定するのが難しいという問
題かある。
本発明は上記の問題点を解決するために、文書に含まれ
るキーワードの頻度値から各文書の概念特徴是な求め、
これに応じて文書を分類する文書分類装置を提供するこ
とを目的とする。
[課題を解決するための手段] 上記目的を達成するために、本発明によれば、文書デー
タベースにおけるキーワードの出現頻度値を用いて計算
される各キーワードの自己情報量を保持するキーワード
情報量記憶手段と、キーワードの自己情報量を用いて各
文書ごとの概念性微量を求める概念特徴抽出手段と、文
書間の概念性微量の差に応じて文書間の距離を求める文
書間距離計算手段とを有する。
文書間距離計算手段は、文書間の距離によって文書の分
類を行う。
[作 用] 本発明によれば、キーワード情報量記憶手段か文書デー
タベース等のキーワード出現頻度により、所定の計算を
行って各キーワードの自己情報量を求め、概念特徴抽出
手段が自己情報量より所定の計算により各文書の概念性
微量を求め、文書間距離計算手段か概念性微量の差に応
じて文書の分類を行なう9以上のようにキーワードの頻
度より各手段の計算処理を通して、自動的に文書か分類
されるので、従来の人手作業が不要となり、ばらつきの
ない、概念量による文書分類が構築できる。
[実施例] 本発明の実施例を図面を用いて具体的に説明する。
本発明による文書分類装置の一実施例が図に示されてい
る。
キーワード情報量記憶部lは入力される未登録文6Qよ
りキーワードを抽出し、後述のようにその出現頻度より
キーワードの出現確率を求め、その対数値をキーワード
情報量Iとして記憶する。
概念特徴抽出部2はキーワード情報量記憶部1よリキー
ワード情報量工を入力し、その総和を文書Qの概念性微
量C(q)として出力する。文書間距離計算部3は概念
特徴抽出部2より各文書の概念性微量C(q)を入力し
て記憶し、2つの文書間の概念距離を求めて、概念距離
の近い文書をクラスタ(分類)して、各種の分類を文書
データベース4に格納する。各機能部は、各部の生成し
たデータを転送するデータバスa−Cによって接続され
ている。
一般にシソーラス等のキーワード集に登録されているキ
ーワードは、それらが現われる文書数や全文書における
延べ出現回数等によって各キーワードの出現頻度を定義
できる。いまキーワードKEY iの出現頻度を全キー
ワード数で正規化したP をキーワードKEY iの出
現確率とすると、キーワードに出現確率P を対応させ
るシステムは完■ 全事象系となり以下のように表せる。
たたし、  ΣP=1  である。
1;1 ここで、KEYiの自己情報量I (KEYi)は次式
で表せる。
1  (KEYi  )  = −log  Pi  
     =・ (1)また自己情報量は加法性を保つ
ため、KEYiとKEYjの持つ合成情報量は、次式で
表わされる。
1 (KEYi、KEYj) =  I (KEYi)
 +  l (KEYj)= −log Pi −lo
g Pj  −(2)キーワード情報量記憶部1は、文
書データベース4への未登録文書Qを概念特徴抽出部2
を介してデータバスaより入力し1文書Qの各キーワー
ドを抽出し、その出現確率にEYiを求め、(1)式に
よりキーワードの自己情報量 1(にEYi)を計算し
て保持する。シソーラスか用意されているときは、シソ
ーラスのキーワード分類項目ごとにキーワードの出現確
率を求め、(1)式により自己情報量な計算できる。
ある文書Qのキーワード集合なqとしその概念特徴量を
(:(q)と表すと、 で与えられる。
また既存の分類項目を持つシソーラスにおいては概念特
徴量をベクトルとして扱うことができる。最も単純な例
として、M個の分類項目を持つシソーラスではM次元の
ベクトルCvを考える。
今、R番目の分類項目に属するキーワードの集合をrと
すると、文書Qの概念特徴量ベクトルCV(q)のR要
素CVr(q)は、 ただし、 iε qniε r はキーワードiが文書
Q中に含まれ、かつR番目の分類項目中に含まれている
場合のPiの総和を計算することを意味する。
キーワード情報量記憶部lから文書Qの各キーワードの
自己情報量■を入力し、概念特徴抽出部2は、(3)式
または(4)式を用いて、概念特徴量C(q)またはC
Vr(q)を計算し、データバスbより文書間距離計算
部3に出力する。
(3)式によって求められた概念情報量はある文書のも
つキーワード情報量の和であり、その文書に付加された
自己情報量の大きさを示しているだけである。この場合
の概念情報量は、文書データベースの検索時における当
該文書の分離度の高さ(同定しやすさ)を表す、このよ
うな分離度の高さによって文書を分類することも可能で
ある。
しかし、通常は文書の内容によって既存の分類項目等に
分類する用途が考えられる。そのような場合、 (4)
式の概念特徴値ベクトルを用いる。−般にM個の分類項
目によってデータベースはM次元の概念空間を構成する
と考えられる。従ってこのようなデータベース中の文書
の持つ概念は、M個の特徴パラメータからなるM次元ベ
クトルとして表現できる。また任意の2つの概念特徴量
ベクトルの距離が計算できるため、ある文書のある分類
への帰属度や2つの文書間の概念的距離等が求められる
例えば、GV(q)という概念特徴量ベクトルを持つ文
書が、キーワード集合kをもつ分類Kに帰属する度合を
INC(k、Q)とすると、鋪 ING(k、q)= CVk(q)/ Σ  CVr(
q)     ・・・ (5)J で与えられる。
また、CV(s) 、 CV(t)という概念特徴量ベ
クトルを持つ2つの文書間の概念距離なり(s、t)と
し例えば市街地距離で計算すると、 補 D(s、t)=  Σ l CVr(s) −(:Vr
(t) l    ・・・(6)r寓1 で与えられる。
文書間距離計算部3は概念特徴量C(q)またはGV(
Q)を入力し、(5)式で示した計算を行なうことによ
り、未分類の文書の属すべき分類を決定でき、また(6
)式を用いると、概念距離の近い文書群によっていくつ
かの分類を構成できる0文書間距離計算部3は文書Qの
分類を文書データベース4に入力する。このとき生成さ
れる分類は、既存のいくつかの分類項目の概念を結合し
た合成概念になるため、既存の分類項目に捕われない文
書概念自体に指向した新しい分類体系を自然に構築して
いく。
(6)式を用いた同類文書の分類方法について具体的に
説明する。
前述のように既存の分類項目に対して文書分類を行なう
場合には、(5)式を用いて各分類Kに帰属する度合い
INC(k、q)を求めればよい、さらに概念特徴量ベ
クトルを用いると、既存の分類項目を用いて新しい分類
体系を構築することが可能となる。
まず、分類しようとする全ての文書について各文書間の
概念距離りを求める0次に全ての文書の中から任意に1
文書(文書Sとする)を選択し、その文書との概念距離
が所定のしきい値より小さい、すなわちその文書と概念
的に近い文書を抽出する。抽出された文書Tの集合を式
で表現すると1文書S、Tに含まれるキーワード集合を
それぞれt、sとすれば、 (TID (s、t)<θ) (ただし、D (s、5)=0は(6)より明らかであ
り、文書Sは必ず集合Tに含まれる。) この作業を全ての文書に対して行なうと文書数に等しい
同類文書の集合が出来上がる。これら同類文書集合をそ
の集合の要素数(文書数)に従って降順に並べ1文書数
の多い順に必要な分類数だけの同類文書集合を選択する
。この選択は分類数で制限しても良いし、文書数で制限
しても良い。
分類可能な数の最大値は文書数である。この場合各分類
に含まれる文書数はlであるが、このような分類が最適
となる場合もあってしかるべきである。
[発明の効果] 本発明によれば、キーワード抽出、または既存のキーワ
ード集の分類を用いて概念特徴量を計算できるため、未
登録文書の分類の前に評価用データを作成する必要がな
い。
概念距離の近い文書群によって分類を構成するため、既
存の分類項目に捕われない文書概念自体に指向した新し
い分類体系を自然に構築していくという優れた効果があ
る。
【図面の簡単な説明】
図は本発明の文書分類装置の一実施例を示す機能ブロッ
ク図である。 要部分の符号の説明 l・・・キーワード情報量記憶部、 2・・・概念特徴抽出部、 3・・・文書間距離計算部、 4・・・文書データベース。

Claims (1)

  1. 【特許請求の範囲】 1、文書データベースにおけるキーワードの出現頻度値
    を用いて計算される各キーワードの自己情報量を保持す
    るキーワード情報量記憶手段と、前記キーワードの自己
    情報量を用いて各文書ごとの概念特徴量を求める概念特
    徴抽出手段と、文書間の該概念特徴量の差に応じて文書
    間の距離を求める文書間距離計算手段とを有し、 該文書間距離計算手段は、前記文書間の距離によって文
    書の分類を行なうことを特徴とする文書分類装置。 2、文書データベースにおいて使用されるシソーラスの
    キーワード分類項目ごとにキーワードの出現頻度値を用
    いて計算されるキーワードの自己情報量を保持するキー
    ワード情報量記憶手段と、各キーワード分類項目ごとの
    該キーワード情報量の総和をベクトル化したものを概念
    特徴量として求める概念特徴抽出手段と、 文書間の該概念特徴量の差に応じて文書間の距離を求め
    る文書間距離計算手段とを有し、 該文書間距離計算は、前記文書間の距離によって文書の
    分類を行なうことを特徴とする文書分類装置。
JP63312107A 1988-12-12 1988-12-12 文書分類装置 Pending JPH02158871A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63312107A JPH02158871A (ja) 1988-12-12 1988-12-12 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63312107A JPH02158871A (ja) 1988-12-12 1988-12-12 文書分類装置

Publications (1)

Publication Number Publication Date
JPH02158871A true JPH02158871A (ja) 1990-06-19

Family

ID=18025323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63312107A Pending JPH02158871A (ja) 1988-12-12 1988-12-12 文書分類装置

Country Status (1)

Country Link
JP (1) JPH02158871A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06511580A (ja) * 1992-04-30 1994-12-22 アプル・コンピュータ・インコーポレーテッド コンピュータ・システムにおいて情報を編成する方法と装置
JP2000315207A (ja) * 1999-04-30 2000-11-14 Just Syst Corp 文書データを評価するプログラムを記憶した記憶媒体
US7249046B1 (en) 1998-10-09 2007-07-24 Fuji Xerox Co., Ltd. Optimum operator selection support system
US7836135B2 (en) 2001-06-14 2010-11-16 Apple Inc. Method and apparatus for filtering email
JP2016103156A (ja) * 2014-11-28 2016-06-02 エヌ・ティ・ティ・コムウェア株式会社 テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06511580A (ja) * 1992-04-30 1994-12-22 アプル・コンピュータ・インコーポレーテッド コンピュータ・システムにおいて情報を編成する方法と装置
US7991720B2 (en) 1992-04-30 2011-08-02 Apple Inc. Method and apparatus for organizing information in a computer system
US7249046B1 (en) 1998-10-09 2007-07-24 Fuji Xerox Co., Ltd. Optimum operator selection support system
JP2000315207A (ja) * 1999-04-30 2000-11-14 Just Syst Corp 文書データを評価するプログラムを記憶した記憶媒体
US7836135B2 (en) 2001-06-14 2010-11-16 Apple Inc. Method and apparatus for filtering email
US7856479B2 (en) 2001-06-14 2010-12-21 Apple Inc. Method and apparatus for filtering email
JP2016103156A (ja) * 2014-11-28 2016-06-02 エヌ・ティ・ティ・コムウェア株式会社 テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN107798033B (zh) 一种公安领域案件文本的分类方法
Li A scalable decision tree system and its application in pattern recognition and intrusion detection
WO2002025479A1 (en) A document categorisation system
CN111737694B (zh) 一种基于行为树的恶意软件同源性分析方法
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
KR20210142443A (ko) 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템
CN117574243A (zh) 一种数据分析方法、装置及系统
Mazarbhuiya Detecting anomaly using neighborhood rough set based classification approach
Lu et al. A code clone detection algorithm based on graph convolution network with AST tree edge
JPH02158871A (ja) 文書分類装置
Zobeidi et al. Effective text classification using multi-level fuzzy neural network
Zhang et al. A hierarchical clustering strategy of processing class imbalance and its application in fraud detection
Kishore et al. Applications of association rule mining algorithms in deep learning
Ganesan et al. A Comparative study on MMDBM classifier incorporating various sorting procedure
Salama et al. A Novel Feature Selection Measure Partnership-Gain.
CN113010884A (zh) 一种入侵检测系统中的实时特征过滤方法
Ramakrishnan et al. Hypergraph based clustering for document similarity using FP growth algorithm
Mekkamol et al. The Development of a New Hybrid K-Means and Elbow Method (C-Algorithm) for Multiple Domain Clustering
JP4010711B2 (ja) ターム評価プログラムを記憶した記憶媒体
JP3422396B2 (ja) 観点に基づく類似検索方法
Taileb et al. Multimodal automatic image annotation method using association rules mining and clustering
Geng et al. A new rough set-based heuristic algorithm for attribute reduct
Afreen et al. Document clustering using different unsupervised learning approaches: A survey
Thaoroijam et al. A fuzzy based document clustering algorithm
Amanchi et al. Fake News Detection Using Text Analytics