JPH02158871A

JPH02158871A - 文書分類装置

Info

Publication number: JPH02158871A
Application number: JP63312107A
Authority: JP
Inventors: Tetsuya Morita; 哲也森田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-12-12
Filing date: 1988-12-12
Publication date: 1990-06-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は文書分類装置、とくに、文書に含まれるキーワ
ードに基き文書の概念特徴量を求め、概念特徴量により
文書を分類する文書分類装置に関する。

［従来の技術］文書をあらかじめ設定した分野へ自動的に分類するため
カイ自乗値を用いてキーワードの偏りを調べ、文書を分
類する方式が知られている。このような分類方式を記載
したものとして、田村他「統計的手法による文書自動分
類」　（情報処理３６回全国大会論文集、１９８７年）
、オよび林知己夫「数量化の方法」（東洋経済新聞社、
１９７４年）がある。

カイ自乗検定はキーワードの出現頻度の分野による偏り
を示す指標としてカイ自乗値を求め文書を分類するもの
である。カイ自乗値は、各キーワードの出現頻度値と各
分野ごとの総キーワード数か独ケ事象であると仮定した
場合のキーワー・ドの出現頻度値を理論度数とし、実測
値との差を求め正規化したものである。

上記の文献■はカイ自乗検定を用いて文書をあらかじめ
設定した分野へ自動的に分類する方式について述べたも
のである。この方式は、キーワードの出現頻度の偏りを
用いるために、あらかじめ大量の標本データを分野別に
分類してカイ自乗値を計算し、分類用データを用意して
おく必要かある。

文献■もやはりカイ自乗値を用いる統計的手法の−って
あり、複数の分野間の相関を見るための方式である。

［発明が解決しようとする課題］上記の文献■■に記載された方式は、標本データの分類
にはやはり人手による作業が必要となる。したがって、
人手による分類のばらつきや不適切さが介入するという
問題がある。

また、後者は分類用の軸を決定するのが難しいという問
題かある。

本発明は上記の問題点を解決するために、文書に含まれ
るキーワードの頻度値から各文書の概念特徴是な求め、
これに応じて文書を分類する文書分類装置を提供するこ
とを目的とする。

［課題を解決するための手段］上記目的を達成するために、本発明によれば、文書デー
タベースにおけるキーワードの出現頻度値を用いて計算
される各キーワードの自己情報量を保持するキーワード
情報量記憶手段と、キーワードの自己情報量を用いて各
文書ごとの概念性微量を求める概念特徴抽出手段と、文
書間の概念性微量の差に応じて文書間の距離を求める文
書間距離計算手段とを有する。

文書間距離計算手段は、文書間の距離によって文書の分
類を行う。

［作　用］本発明によれば、キーワード情報量記憶手段か文書デー
タベース等のキーワード出現頻度により、所定の計算を
行って各キーワードの自己情報量を求め、概念特徴抽出
手段が自己情報量より所定の計算により各文書の概念性
微量を求め、文書間距離計算手段か概念性微量の差に応
じて文書の分類を行なう９以上のようにキーワードの頻
度より各手段の計算処理を通して、自動的に文書か分類
されるので、従来の人手作業が不要となり、ばらつきの
ない、概念量による文書分類が構築できる。

［実施例］本発明の実施例を図面を用いて具体的に説明する。

本発明による文書分類装置の一実施例が図に示されてい
る。

キーワード情報量記憶部ｌは入力される未登録文６Ｑよ
りキーワードを抽出し、後述のようにその出現頻度より
キーワードの出現確率を求め、その対数値をキーワード
情報量Ｉとして記憶する。

概念特徴抽出部２はキーワード情報量記憶部１よリキー
ワード情報量工を入力し、その総和を文書Ｑの概念性微
量Ｃ（ｑ）として出力する。文書間距離計算部３は概念
特徴抽出部２より各文書の概念性微量Ｃ（ｑ）を入力し
て記憶し、２つの文書間の概念距離を求めて、概念距離
の近い文書をクラスタ（分類）して、各種の分類を文書
データベース４に格納する。各機能部は、各部の生成し
たデータを転送するデータバスａ−Ｃによって接続され
ている。

一般にシソーラス等のキーワード集に登録されているキ
ーワードは、それらが現われる文書数や全文書における
延べ出現回数等によって各キーワードの出現頻度を定義
できる。いまキーワードＫＥＹ　ｉの出現頻度を全キー
ワード数で正規化したＰ　をキーワードＫＥＹ　ｉの出
現確率とすると、キーワードに出現確率Ｐ　を対応させ
るシステムは完■ 全事象系となり以下のように表せる。

たたし、　　ΣＰ＝１　　である。

１；１ここで、ＫＥＹｉの自己情報量Ｉ　（ＫＥＹｉ）は次式
で表せる。

１　　（ＫＥＹｉ　　）　　＝　−ｌｏｇ　　Ｐｉ　　
　　　　　＝・　（１）また自己情報量は加法性を保つ
ため、ＫＥＹｉとＫＥＹｊの持つ合成情報量は、次式で
表わされる。

１　（ＫＥＹｉ、ＫＥＹｊ）　＝　　Ｉ　（ＫＥＹｉ）
　＋　　ｌ　（ＫＥＹｊ）＝　−ｌｏｇ　Ｐｉ　−ｌｏ
ｇ　Ｐｊ　　−（２）キーワード情報量記憶部１は、文
書データベース４への未登録文書Ｑを概念特徴抽出部２
を介してデータバスａより入力し１文書Ｑの各キーワー
ドを抽出し、その出現確率にＥＹｉを求め、（１）式に
よりキーワードの自己情報量　１（にＥＹｉ）を計算し
て保持する。シソーラスか用意されているときは、シソ
ーラスのキーワード分類項目ごとにキーワードの出現確
率を求め、（１）式により自己情報量な計算できる。

ある文書Ｑのキーワード集合なｑとしその概念特徴量を
（：（ｑ）と表すと、で与えられる。

また既存の分類項目を持つシソーラスにおいては概念特
徴量をベクトルとして扱うことができる。最も単純な例
として、Ｍ個の分類項目を持つシソーラスではＭ次元の
ベクトルＣｖを考える。

今、Ｒ番目の分類項目に属するキーワードの集合をｒと
すると、文書Ｑの概念特徴量ベクトルＣＶ（ｑ）のＲ要
素ＣＶｒ（ｑ）は、ただし、　ｉε　ｑｎｉε　ｒ　はキーワードｉが文書
Ｑ中に含まれ、かつＲ番目の分類項目中に含まれている
場合のＰｉの総和を計算することを意味する。

キーワード情報量記憶部ｌから文書Ｑの各キーワードの
自己情報量■を入力し、概念特徴抽出部２は、（３）式
または（４）式を用いて、概念特徴量Ｃ（ｑ）またはＣ
Ｖｒ（ｑ）を計算し、データバスｂより文書間距離計算
部３に出力する。

（３）式によって求められた概念情報量はある文書のも
つキーワード情報量の和であり、その文書に付加された
自己情報量の大きさを示しているだけである。この場合
の概念情報量は、文書データベースの検索時における当
該文書の分離度の高さ（同定しやすさ）を表す、このよ
うな分離度の高さによって文書を分類することも可能で
ある。

しかし、通常は文書の内容によって既存の分類項目等に
分類する用途が考えられる。そのような場合、　（４）
式の概念特徴値ベクトルを用いる。−般にＭ個の分類項
目によってデータベースはＭ次元の概念空間を構成する
と考えられる。従ってこのようなデータベース中の文書
の持つ概念は、Ｍ個の特徴パラメータからなるＭ次元ベ
クトルとして表現できる。また任意の２つの概念特徴量
ベクトルの距離が計算できるため、ある文書のある分類
への帰属度や２つの文書間の概念的距離等が求められる
。

例えば、ＧＶ（ｑ）という概念特徴量ベクトルを持つ文
書が、キーワード集合ｋをもつ分類Ｋに帰属する度合を
ＩＮＣ（ｋ、Ｑ）とすると、鋪ＩＮＧ（ｋ、ｑ）＝　ＣＶｋ（ｑ）／　Σ　　ＣＶｒ（
ｑ）　　　　　・・・　（５）Ｊで与えられる。

また、ＣＶ（ｓ）　、　ＣＶ（ｔ）という概念特徴量ベ
クトルを持つ２つの文書間の概念距離なり（ｓ、ｔ）と
し例えば市街地距離で計算すると、補Ｄ（ｓ、ｔ）＝　　Σ　ｌ　ＣＶｒ（ｓ）　−（：Ｖｒ
（ｔ）　ｌ　　　　・・・（６）ｒ寓１で与えられる。

文書間距離計算部３は概念特徴量Ｃ（ｑ）またはＧＶ（
Ｑ）を入力し、（５）式で示した計算を行なうことによ
り、未分類の文書の属すべき分類を決定でき、また（６
）式を用いると、概念距離の近い文書群によっていくつ
かの分類を構成できる０文書間距離計算部３は文書Ｑの
分類を文書データベース４に入力する。このとき生成さ
れる分類は、既存のいくつかの分類項目の概念を結合し
た合成概念になるため、既存の分類項目に捕われない文
書概念自体に指向した新しい分類体系を自然に構築して
いく。

（６）式を用いた同類文書の分類方法について具体的に
説明する。

前述のように既存の分類項目に対して文書分類を行なう
場合には、（５）式を用いて各分類Ｋに帰属する度合い
ＩＮＣ（ｋ、ｑ）を求めればよい、さらに概念特徴量ベ
クトルを用いると、既存の分類項目を用いて新しい分類
体系を構築することが可能となる。

まず、分類しようとする全ての文書について各文書間の
概念距離りを求める０次に全ての文書の中から任意に１
文書（文書Ｓとする）を選択し、その文書との概念距離
が所定のしきい値より小さい、すなわちその文書と概念
的に近い文書を抽出する。抽出された文書Ｔの集合を式
で表現すると１文書Ｓ、Ｔに含まれるキーワード集合を
それぞれｔ、ｓとすれば、（ＴＩＤ　（ｓ、ｔ）＜θ）（ただし、Ｄ　（ｓ、５）＝０は（６）より明らかであ
り、文書Ｓは必ず集合Ｔに含まれる。）この作業を全ての文書に対して行なうと文書数に等しい
同類文書の集合が出来上がる。これら同類文書集合をそ
の集合の要素数（文書数）に従って降順に並べ１文書数
の多い順に必要な分類数だけの同類文書集合を選択する
。この選択は分類数で制限しても良いし、文書数で制限
しても良い。

分類可能な数の最大値は文書数である。この場合各分類
に含まれる文書数はｌであるが、このような分類が最適
となる場合もあってしかるべきである。

［発明の効果］本発明によれば、キーワード抽出、または既存のキーワ
ード集の分類を用いて概念特徴量を計算できるため、未
登録文書の分類の前に評価用データを作成する必要がな
い。

概念距離の近い文書群によって分類を構成するため、既
存の分類項目に捕われない文書概念自体に指向した新し
い分類体系を自然に構築していくという優れた効果があ
る。

【図面の簡単な説明】

図は本発明の文書分類装置の一実施例を示す機能ブロッ
ク図である。要部分の符号の説明ｌ・・・キーワード情報量記憶部、２・・・概念特徴抽出部、３・・・文書間距離計算部、４・・・文書データベース。

Claims

【特許請求の範囲】１、文書データベースにおけるキーワードの出現頻度値
を用いて計算される各キーワードの自己情報量を保持す
るキーワード情報量記憶手段と、前記キーワードの自己
情報量を用いて各文書ごとの概念特徴量を求める概念特
徴抽出手段と、文書間の該概念特徴量の差に応じて文書
間の距離を求める文書間距離計算手段とを有し、該文書間距離計算手段は、前記文書間の距離によって文
書の分類を行なうことを特徴とする文書分類装置。２、文書データベースにおいて使用されるシソーラスの
キーワード分類項目ごとにキーワードの出現頻度値を用
いて計算されるキーワードの自己情報量を保持するキー
ワード情報量記憶手段と、各キーワード分類項目ごとの
該キーワード情報量の総和をベクトル化したものを概念
特徴量として求める概念特徴抽出手段と、文書間の該概念特徴量の差に応じて文書間の距離を求め
る文書間距離計算手段とを有し、該文書間距離計算は、前記文書間の距離によって文書の
分類を行なうことを特徴とする文書分類装置。