JPH06282587A

JPH06282587A - 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置

Info

Publication number: JPH06282587A
Application number: JP5087774A
Authority: JP
Inventors: Masanori Nakamura; 正規中村; Keizo Uchiyama; 恵三内山
Original assignee: Tokyo Electric Power Co Inc
Current assignee: Tokyo Electric Power Co Holdings Inc
Priority date: 1993-03-24
Filing date: 1993-03-24
Publication date: 1994-10-07

Abstract

(57)【要約】【目的】文章の意味内容や表記上の相違を考慮してよ
り精度の高い自動分類を行うとともに、その分類を行う
ための辞書を自動的に形成すること【構成】文書中のキーワード対の同時出現頻度値を用
いて文書間の親近性を定量化（辞書化）し、親近性が高
いほど共通の文書であると認定できることを利用し、分
野既知の文書に基づいて各分野ごとの辞書を作成し、新
規の文書と最も親近性の高い辞書の分野を、その文書の
分野と決定する。この時、キーワードを抽出するに際
し、その種別（主語，目的語，その他等）も同時に判別
し、種別まで一致するキーワードを同一としてとらえ
（意味内容を考慮した辞書作成）、しかもキーワード対
の出現数を係数するに際し、文字列一致を同一のキーワ
ードとしてとらえ（表記上の相違に影響されない辞書を
作成）、各処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書の自動分類方法及
び装置並びに分類用の辞書作成方法及び装置に関するも
のである。

【０００２】

【発明の背景】各種の文書をファイリングしてデータベ
ースを構築するに際し、そのデータベースに格納する文
書に対して分類を決定したりキーワード付けをしたりす
る必要があり、係る作業の正確さがその後のデータベー
ス利用の便利さに繋がるため、重要な作業である。しか
し、係る分類分け等を人間が行うとすると、その文章を
すべて読み、理解した上で分類の決定等を行わなければ
ならず、その作業が極めて煩雑となるばかりでなく、作
業者によってばらつき正確さ（信頼性）にかける。

【０００３】そこで、係る文書の分類を自動的に行うシ
ステムとして、種々のものが開発されている。そしてそ
の中の１つは、例えば特開平３−２００９５６３号に開
示された知的検索方式のようにある分野の意味関係を表
した意味辞書を作成し、それに基づいてその後の未知デ
ータの検索を行うものがある。

【０００４】しかし、この方式では、予め意味辞書を人
為的分析により形成する必要があり、分野が異なるとそ
の分野についての解析が再度必要で、係る処理が、煩雑
となるという問題を有する。

【０００５】また、他の方式としては、例えば「ファジ
ィ文書検索システム」（情報処理学会第３９回全国大会
予稿集第１０６７〜１０６８頁）に代表されるように、
特定分野における文書の表記の特徴を統計処理した辞書
を用いて検索するものがある。係る方式は、１つの文書
に共通に含まれるキーワード対は、文書を既成概念と考
えた時に、何等かの概念上のつながりをもっていること
に着目し、キーワード対の同時出現頻度値を用いて文書
間の親近性を定量化（辞書化）している。そして、親近
性が高いほど共通の文書であると認定できる。そこで、
予め分野のわかっている文書に基づいて辞書を作成し、
新規の文書と分野既知の文書との親近性を求め、親近性
の高い文書の分野を、その新規な文書の分野に決定する
ものである。

【０００６】しかし、この方式では、前者に比べ人間が
介在しないで辞書を構築できるため異なる分野に対して
も自動的に辞書を作成できる点が有用性が高いが、文章
の意味理解までは行っていないため、生成した親近性
（ファジィな値）の精度が低い（曖昧な範囲が広い）と
いう問題がある。その結果、より近似する文書をそれぞ
れ適切な分野に分類しようとした場合には、曖昧な範囲
内に存在してしまい、正しく分類できなくなるおそれが
ある。

【０００７】さらに、上記の「共通のキーワード対を多
く有する文書同士ほど、両者の類似度は高い（共通の分
野に属する蓋然性が高い）」という方式では、係る判定
を行うための同一のキーワードが完全一致を前提として
いるため、そのままでは例えば「○×電力」とその略称
である「○電」や、電気関連の分野における「領収書」
と「電気料金領収書」のように本来は同一の意味として
扱うべきキーワード同士が、単に表記上の相違だけで別
のキーワードとして扱われてしまいう。その結果、さら
なる精度の低下を招くことになる。

【０００８】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、文章の意味内容や表
記上の相違を考慮してより精度の高い自動分類を行うと
ともに、その分類を行うための辞書を自動的に形成する
ことのできる文書の自動分類方法及び装置並びに分類用
の辞書作成方法及び装置を提供するものである。

【０００９】

【課題を解決するための手段】上記した目的を達成する
ため、本発明に係る文書の自動分類用の辞書作成方法で
は、分野既知の複数の文書をそれぞれ構成する語句の中
から主語，目的語などの種類分けを行いつつキーワード
抽出をし、抽出されたキーワードの出現文書数並びに任
意の２つのキーワードが同時に出現するキーワード対の
出現文書数を求める。そして、前記キーワードの出現文
書数と前記キーワード対の出現文書数から前記キーワー
ドを構成する２つのキーワード間の距離を算出する。次
いで、そのキーワード間の距離から各キーワード対のそ
の分野の依存度を算出し、少なくともその分野における
キーワード対と依存度の関係を辞書に格納する。

【００１０】そして、好ましくは、前記キーワード対の
出現文書数を求めるに際し、予め同一意味を表すキーワ
ードのグループを求め、同一グループに属するキーワー
ドがあれば前記出現文書数に加算するようにすることで
ある。

【００１１】また、上記した辞書を製造するための好適
な装置としては、分野既知の文書を入力する入力装置
と、その入力装置を介して与えられた文書に対してそれ
を構成する語句の中から主語，目的語などの種類分けを
行いつつキーワードを抽出する手段と、前記キーワード
を抽出する手段の出力を受けて、同一のキーワードを有
する同一分野の文書数を計数する第１計数手段と、前記
キーワードを抽出する手段の出力を受けて、同一のキー
ワード対を有する同一分野の文書数を計数する第２計数
手段と、前記両計数手段の出力を受け、前記キーワード
対を構成する２つのキーワード間の距離を求めるととも
に、そのキーワード対の前記分野に対する依存度を算出
し、求められたその分野におけるキーワード対の依存度
を辞書に格納する手段とから構成することで、さらに
は、前記キーワードを抽出する手段の出力を受けて、同
一意味を表すキーワードのグループを求める手段をさら
に設けるとともに、前記第２計数手段を、前記グループ
を求める手段と前記キーワード抽出する手段の出力を受
け、同一グループに属するキーワードがあれば前記キー
ワード対の出現文書数に加算するようにすると好まし
い。

【００１２】一方、本発明に係る文書の自動分類方法で
は、入力された分野未知の文書を構成する語句の中から
主語，目的語などの種類分けを行いつつキーワード抽出
をし、抽出されたキーワードが、前記辞書製造方法によ
り製造された辞書に格納された所定の分野に出現するキ
ーワードと一致するか否かの関係を求める。次いで、前
記求めた関係と、前記辞書に格納されたその分野の各キ
ーワード対の依存度とを掛け算して前記入力された文書
から抽出された各キーワードのその分野における依存度
を算出し、その依存度から各分野に対する曖昧度を求
め、最小の曖昧度となる分野を、前記入力された文書が
属する分野に決定するようにした。

【００１３】そして、係る方法を実施するための装置と
しては、分野未知の文書を入力する入力装置と、その入
力装置を介して与えられた文書に対してそれを構成する
語句の中から主語，目的語などの種類分けを行いつつキ
ーワードを抽出する手段と、上記した辞書製造装置によ
りデータが格納された辞書と、前記キーワードを抽出す
る手段と前記辞書に接続され、前記抽出されたキーワー
ドが前記辞書に格納された所定の分野に出現するキーワ
ードと一致するか否かの関係を求める手段と、前記求め
る手段から出力される関係と、前記辞書に格納されたそ
の分野の各キーワード対の依存度とを受け、それら関係
と依存度とを掛け算して入力された文書から抽出された
各キーワードのその分野に対する依存度を算出する依存
度算出手段と、前記依存度算出手段の出力を受け、前記
文書の各分野に対する曖昧度を求める曖昧度算出手段
と、前記曖昧度算出手段の出力を受け、各分野の曖昧度
を比較し最小の曖昧度となる分野を検出する判定手段と
を備えた。

【００１４】

【作用】文書中のキーワード対の同時出現頻度値を用い
て文書間の親近性を定量化（辞書化）し、親近性が高い
ほど共通の文書であると認定できることを利用し、分野
既知の文書に基づいて各分野ごとの辞書を作成し、新規
の文書と最も親近性の高い辞書の分野を、その文書の分
野と決定する。この時、キーワードを抽出するに際し、
その種類（主語，目的語，その他等）も同時に判別し、
種別まで同一で始めて同一のキーワードとしてとらえる
ようにしたため、文章の意味内容まで考慮して辞書が作
成される。よって、文書の意味内容に近い高精度の辞書
が作成され、その後の係る辞書に基づいて処理される分
野未知の文書に対する自動分類が正確に行われる。

【００１５】また、キーワード対の出現数を係数するに
際し、同一意味を表すキーワードのグループを求め、同
一グループに属するキーワードがあれば前記出現文書数
に加算するようにした場合には、たとえ表記上の相違が
あったとしても、それに影響されることなく正しい辞書
が作成でき、より正確な自動分類が行われる。

【００１６】

【実施例】以下、本発明に係る文書の自動分類方法及び
装置並びに分類用の辞書作成方法及び装置の好適な実施
例について添付図面を参照にして詳述する。図１は本発
明に係る辞書作成装置の一実施例を示している。同図に
示すように、キーボードやＯＣＲ等の入力装置１を介し
て、分野が既知の文書を入力するようになっている。そ
して、その入力された文書が次段のキーワード抽出部２
に送られ、文書中に存在する名詞を抽出するようになっ
ている。

【００１７】ここで本発明では、まずキーワードを抽出
するに際し、単に名詞を取り出すのではなく、その名詞
のすぐ後ろに付いている助詞や格助詞に着目してその名
詞の種類（主語，目的語，その他）を併せて抽出するよ
うになっている。これにより、抽出した名詞（キーワー
ド）がその文書中でどの様な使われ方をしているのかが
わかり、意味内容の理解が図れる。

【００１８】そこで本例におけるキーワード抽出部２
は、図２に示すフローにより処理される機能を有してい
る。すなわち、まず入力された文書に対して単語単位に
分割する「分かち書き処理」を行う（Ｓ１０１）。次
に、上記分かち書き処理したものに対し「文節切り出
し」処理を行う。この文節切り出し処理は、分かち書き
により単語毎に分割されたものの中から、所定のルール
にしたがって文節の区切りとなる言葉を見付け、文節と
して切断し直すものである（Ｓ１０２）。

【００１９】そして、そのようにして文節を切り出した
ら、次にその切り出された文節の中から以下の抽出ルー
ルに従って重要文節を抽出する（Ｓ１０３）。文節末が、「が」，「は」，「を」，「に」，
「で」，「や］，「も」の文節を抽出する。これによ
り、主語・目的語を含む節等が抽出される。文節末の言葉が「ひらがな混在」でないものを取り出
す。動詞等の節の場合には、その終わりに「ひらがな」
が記載されることに着目したもので、これによりキーワ
ードになりにくい動詞等が排除される。

【００２０】さらに、上記の処理により重要文節を抽出
したなら、その重要文節に対し再び分かち書き処理を
し、単語単位に再分割する。そして、各単語中、キーワ
ードになりにくい、「動詞」や「助詞」，「助動詞」、
さらには「すばらしい」等の「形容詞」等取り除くこと
により、キーワード（名詞）候補を抽出する（Ｓ１０
４）。

【００２１】次に、上記Ｓ１０４までの処理にて抽出さ
れたキーワード候補の次に来る語を見て、キーワードの
種類（主語，目的語，その他）分け等をおなう（Ｓ１０
５）。すなわち、キーワードの次に来る語が「が」，
「は」の場合にはそのキーワードは、「主語」とする。
また、「を」，「と」，「で」，「や」，「も」の場合
は「目的語」とする。そして、上記に該当しないキーワ
ードは、すべて「その他」とする。

【００２２】さらに、このようにして抽出されたキーワ
ード（種類付き）は、同一文書中に複数回出現すること
があるため、重複するキーワードを削除し、同一文書に
１つのみ残す処理を行う。これにより、キーワード（種
類付き）抽出処理が終了する。

【００２３】そして、その抽出結果の一例（サンプル文
書としては同一分野（ＴＶＣＭについての意見）の４５
個の文書を使用）を図３に示す。なお、図から明らかな
ように、従来方式では、同一キーワードと処理されたも
のが明確に分離される。すなわち、例えば文書１０の
「○電（その他）」と、文書２２の「○電（目的語）」
は、従来では同じとして処理されたが、本発明では異な
るものとして処理され、また、文書２のように同じ「○
電」でも、「主語」，「目的語」，「その他」というよ
うに違う使われ方をしている場合は、従来ではまとめて
１語として扱われたが、本発明では、３つの語として分
離されて扱われることになる。つまり、種類まで同じキ
ーワード、例えば文書２，３，１０の「○電（その
他）」や、文書２２，４１の「○電（目的語）」がそれ
ぞれ同一のキーワードとして取り扱われる。

【００２４】なおまた、この図３では、キーワードを具
体的な文字列として表記したが、高速処理を図るために
は、ＩＤ番号を付与し、ＩＤ番号に基づいて以下の一致
か否かの判断等の処理を行うようにし、それにともな
い、ＩＤ番号管理ファイルも別途も受けることである
（以下同じ）。

【００２５】そして、このようにして抽出されたキーワ
ード（種類付き）が、文書毎に次段のキーワードファイ
ル３に格納されるようになっている。さらに、本発明で
は、「○電」と「○×電力」等の表記上相違するが同一
の意味として取り扱うべきキーワードを抽出するため
に、上記キーワードファイル３に格納されたキーワード
を読み出すとともにキーワードのグループを求める手段
たる文字列一致キーワード抽出部４に与え、ここにおい
て、同一の意味を表すキーワード（種類付き）のグルー
プ化を求めるようになっている。すなわち、基となるキ
ーワード（比較キーワード）と、それと同一のグループ
に属するキーワード（要素キーワード）のテーブルを作
成する。

【００２６】そして具体的に本例では、各キーワードの
文字列の出現順序に着目し、基となるキーワードを構成
する文字の出現順序で同じ文字を含むキーワードは、同
一のキーワード（要素キーワード）としてみなすように
している。なお、出現順序が同じであれば、各文字間に
他の文字が介在してもかまわないものとしている。

【００２７】すなわち、図４（Ａ）に示すように、「○
電」が基（比較キーワード）とすると、文字列「○，
電」の順に並んでいるキーワードは完全一致の「○電」
はもちろんのこと、「○×電力」も同一グループ（要素
キーワード）となりカウントの対象となる。しかし、同
図（Ｂ）に示すように基が「○×電力」とすると、その
略称である「○電」は、「×」と「力」が含まれていな
いためカウントされない。なお、この方式をとると、同
図（Ｃ）に示すように、「ＰＲ」と意味の関係ない「Ｐ
ＯＩＮＴＥＲ」もカウントされてまうが、たとえこのよ
うなものが同一の仲間としてグループ化されたとして
も、係るキーワードがキーワード対として現れる可能性
が少いとともに、後段の特徴量算出等の処理における影
響度が少ないためさほど問題はない。一方、同図（Ｄ）
のように基が「ＣＩ」とすると、「ＣＩ」や「ＣＩマー
ク」は上記した理由により同一グループとしてカウント
されるが、「ＩＣ」はその出現順序が異なる（逆であ
る）ためカウントされない。

【００２８】そして、実際には読み出されたキーワード
を構成する文字の順列を相互に比較することにより求め
られる。さらに、この文字列一致キーワードを抽出する
際には、同一分野を構成するすべて文書を一纏めにとら
えて処理する。そして、このようにして抽出された文字
列一致キーワード（比較キーワード：要素キーワードの
テーブル）を、文字列一致キーワードファイル５に格納
する。

【００２９】なお、上記した図３に示す文書１０の「Ｃ
Ｉ目的語」が基とすると、文書１の「ＣＩマーク主
語」は、図４（Ｄ）からすると同一となるが、「目的
語」と「主語」というように種類がそもそも異なるた
め、異なるキーワードとして扱われ、文字列一致ファイ
ル５に格納されない。そして、仮に総文書数が図３に示
す８文書とすると、文字列一致キーワードファイルに
は、図５に示すような状態で格納されることになる。

【００３０】さらに、上記キーワードファイル３の出力
が、第１計数手段たるキーワードカウント部６並びに第
２計数手段たるキーワード対カウント部７に接続され、
また、このキーワード対カウント部７には、上記文字列
一致キーワードファイル５の出力も接続されている。そ
して、前者のキーワードカウント部６では、各キーワー
ドが出現する（存在する）文書の数を求めるようになっ
ている。

【００３１】一方、キーワード対カウント部７では、同
一のキーワード対が同時出現する文書の数を求めるよう
になっている。ここでキーワード対とは、１つの文書中
に存在する異なる２つのキーワードのペアの組み合わせ
で、組み合わせの前者を基準キーワード、後者を比較キ
ーワードとする。そして、カウントする際には、基準ワ
ードは完全一致とし、比較キーワードは上記求めた文字
列一致キーワードにより同一とされたワード（要素キー
ワード）が対象となる。

【００３２】すなわち、同一文書中に存在するキーワー
ドの組み合わせ表を作成し、作成したキーワードの組み
合わせ表に基づいて両ファイル３，５に格納されたデー
タをアクセスし、基準キーワードＸｉ別に比較キーワー
ドＸｊと要素キーワードが一致する組み合わせが存在す
る文書があったなら、そのキーワードの組み合わせ（キ
ーワード対）に対してカウントアップする。これによ
り、キーワード対の出現文書数が求められる。

【００３３】そして、その一例を示すと仮に総文書数が
図３に示す８つと仮定すると、例えば、「○電（目的
語）」（基準キーワード）と「温水器（その他）」（比
較キーワード）からなるキーワード対の場合は、完全一
致をとるとその出現文書数は１回（文書２２のみ）とな
るが、要素キーワードをも考慮した本例では、出現文書
数は２回（文書２２，４２）となる。また、同様に、
「コマーシャル（目的語），○電（その他）」からなる
キーワード対の出現文書数は２回（文書３，１０）とな
る。なお、文書４のコマーシャルは、その種類が「主
語」であるため、カウントされない。

【００３４】さらに、上記各カウント部６，７で求めた
各キーワード，キーワード対の出現文書数を特徴量算出
部８に送り、辞書を作るための各特徴量を求めるように
なっている。すなわち、まず、キーワード対を構成する
基準キーワード（ｘｉ）と比較キーワード（ｘｊ）との
間の距離Ｌ（xi，xj）を求め、さらに、そのキーワード
間の距離Ｌ（xi，xj）を用いてキーワードのファジィ集
合ｆ（ｘ）を求めるようになっている。そして具体的に
は、以下の式に基づいて算出される。

【００３５】まず、キーワード間の距離Ｌは、キーワー
ド対の同時出現頻度値を用いて親近性の定量化を求める
もので、下記式（１）により求められる。

【００３６】

【数１】Ｌ（xi，xj）＝（Ｎ（xi）＋Ｎ（xj）−Ｎ（xi，xj））／Ｎ（xi，xj） …（１）Ｎ（xi）：基準キーワードｘｉを含む文書数（カウント
部６から出力）Ｎ（xj）：比較キーワードｘｊを含む文書数（カウント
部６から出力）Ｎ（xi，xj）：ｘｉ，ｘｊを同時に含む文書数（カウン
ト部７から出力）次いで、上記算出された数値を下記式（２）に代入する
ことによりファジィ集合（基準キーワードｘｉに対する
比較キーワードｘｊの依存度）ｆ（ｘ）を求める。

【００３７】

【数２】ｆ（ｘ）＝ｅｘｐ（−ａ｜Ｌ（xi，xj）²｜）なお、上記式（２）中「ａ」は類推の強さを示し、距離
Ｌ（xi，xj）の最長となるキーワード対の依存度が０．
０５以下となるような任意の値をとる。そこで本例で
は、同一分野のすべての文書に対して上記式（１）に基
づいて各キーワード対の距離Ｌ（xi，xj）を求め、その
距離Ｌ（xi，xj）の最大値を式（２）に代入するととも
に依存度ｆ（ｘ）に０．０５を代入し、「ａ」について
解くことによりその分野についての「ａ」を決定する。
なお、求めた依存度は、０〜１の値となり、１に近いほ
どその分野の概念上の特徴を顕著に表していることを意
味している。

【００３８】そして、この特徴量抽出部８の出力が分類
用辞書９に接続されており、上記のようにして求めた特
徴量を係る分類用辞書９に格納するようになっている。
なお、自動分類するためには、少なくともキーワード対
に対する依存度が関連付けられた格納されていればよい
が、後述するように、係る分類用辞書９に格納されたデ
ータに基づいて新規の文書の分野の分類を行ったなら、
係る新規文書のデータに基づいて分類用辞書９の内容を
更新し、より最新の多数の文書情報に基づいてより正確
な辞書の更新を行うために、本例では、依存度に加えて
キーワードの出現回数Ｎ（xi），Ｎ（xj），キーワード
対の出現文書数Ｎ（xi，xj）や距離Ｌ（xi，xj）も併せ
て格納するようにしている。そして、格納のデータ構造
の一例を示すと図６のようになっている。さらに、係る
分類用辞書９と上記キーワードファイル３とにより、自
動分類をするための辞書を構成することになる。

【００３９】次に、上記した実施例を用いて、本発明方
法（辞書作成方法）の一実施例を説明する。図７に示す
ように分野が既知の複数のサンプル文書を用い、分野と
ともに各サンプル文書（同一分野のサンプル文書をそれ
ぞれ複数用意する）を、入力装置１を介して辞書作成装
置に入力する（Ｓ２０１）。次いで、各文書からキーワ
ード（種類付き）を抽出し、さらに、あるキーワードと
同一の意味内容を表す要素キーワードを文字列一致キー
ワード抽出部５を用いて求める（Ｓ２０２，２０３）。

【００４０】そして、各カウント部６，７にて各分野毎
にキーワードを有する文書の数並びにキーワード対を有
する文書（基準キーワードと比較キーワードのペアが同
時に出現する文書）の数をそれぞれ求める（Ｓ２０
４）。なお、本例ではキーワード対を求めるに際し、比
較キーワードが要素キーワードも含めるようにしたた
が、係る要素キーワードは考慮せずに比較キーワードも
基準キーワードと同様に完全一致としてもよい。

【００４１】そして、求めたキーワード，キーワード対
の出現文書数を特徴量算出部８に与え、各キーワード間
（基準キーワードと比較キーワードとの間）の距離を算
出し、それに基づいて係るキーワード間の依存度を算出
する。そして、算出した結果を、分類用辞書９に格納
し、処理を終了する（Ｓ２０５〜２０７）。

【００４２】そして、具体的にサンプル文書として同一
分野（ＴＶＣＭについての意見）の４５個の文書を上記
辞書作成装置に入力し、得られた結果（辞書）の一部
は、図６のようになる。また、同一のサンプル文書に対
し従来の方式（キーワードの種類分けをせずに、しか
も、比較キーワードの完全一致によりキーワード対の出
現文書数をカウントする方式）を用いて得られた辞書の
一部を図８に示す。図６，８から明らかなように両方式
により得られた辞書の内容は異なる。ところで、この辞
書を見ただけでは両辞書の精度の良否は不明であるが、
辞書を作成した際に用いた４５個のサンプル文書を次に
説明する自動分類装置に入力し、係る文書が本分野に属
する度合い（曖昧度）を求めることにより、良否を判定
することができ、その結果、本発明により製造された辞
書の方が属する度合いが高い（曖昧度が低い）ことが確
認された。

【００４３】図９は、本発明に係る自動分類装置の一実
施例を示している。同図に示すように、上記した図１に
示す辞書作成装置と同様の入力装置１′，キーワード抽
出部２′並びに辞書作成装置で作成されたキーワードフ
ァイル３並びに分類用辞書９を備えており、さらに、そ
れらキーワード抽出部２′，キーワードファイル３の出
力をファジィ関係作成部１０に入力するようにしてい
る。このファジィ関係作成部１０では、各分野のファジ
ィ集合の基準ワード（キーワードファイル３から得られ
る）と分野の未知の新規文書の抽出結果（キーワード抽
出部２より与えられる）とを比較し、一致する場合には
ファジィ関係１を「１」とし、一致しない場合に「０」
とする。そして、その様にして求めたファジィ関係Ｒを
ファジィ関係ファイル１１に格納する。

【００４４】今、説明の便宜上、分類用辞書９に格納さ
れたある分野のデータが図１０に示すようであったとし
（キーワード数は８個）、新規の文書からは、図１１に
示す５個のキーワードが抽出されたとすると、ファジィ
関係ファイル１１には、例えば図１２に示すような状態
で格納される。

【００４５】そして、ファジィ関係ファイル１１と、分
類用辞書９を分野別依存度算出部１２に接続し、そこに
おいて、既知の分野別に、分類用辞書９に格納されたフ
ァジィ集合Ｆと入力された文書（分野未知）に基づいて
作成されたファジィ関係Ｒとを合成し（下記式
（３））、新たなファジィ集合（依存度）を作成する。
これにより、各分野毎にその文書の各キーワードの依存
度が求められる。

【００４６】

【数３】そして、図１０に示す分野に対するキーワードの依存度
は、図１３，図１４に示す計算式にのっとり演算処理さ
れ、図１４中に示すような各値が得られる。ここで
「＊」は論理積（最小値をとる）であり、「Ｕ」は結ば
れた数値の中の最大値をとることを意味する。そして、
係る演算処理がすべての分野毎に行われるため、結局、
図１４に示すような各キーワードに対する依存度の関係
（表）が分野の数だけ存在することになる。

【００４７】そして、係る求めた分野別の依存度を、次
段の分野別曖昧度算出部１３に送り、ここにおいて上記
得られたファジィ集合を下記式（４）に代入し、各分類
毎の曖昧度ｄを求める。この曖昧度ｄが小さいほど、曖
昧さが少ない、すなわち、その分野にマッチした文書で
あることを意味する。

【００４８】

【数４】ｄ（category) ＝（Δ１＋Δ２＋…＋Δｎ）／ｎ Δｎ＝-ua(ai)log₂ua(ai)-(1-ua(ai))log₂(1-ua(ai)) ここで、ｎは分野別のキーワードの数を示し、ua(ai)は
キーワード対の依存度を示している。そして、その計算
の一例（図１０のある分野に対する図１１の新規文書の
曖昧度の算出）を図１５に示す。

【００４９】そして、その様にして得られた分野別曖昧
度算出部１３を判定・処理部１４に送り、そこにおいて
最も曖昧度の小さい分野を、入力した文書の分野に決定
し、その結果を出力装置（ＣＲＴやプリンター等）１５
に出力する。なお、通常は、データベースの作成を行う
に際し本発明を実施してデータベースに格納する文書の
分野を確定するため、抽出したキーワードと決定した分
野を所定のデータベース１６に格納するようにしてもよ
い。なお、文書の全文は入力装置１′を介してそのまま
データベース１６に格納される。

【００５０】さらに、本例では上記した図１に示した辞
書作成装置に、入力された処理対象の新規な文書を決定
した分野とともに送るようになっている。そして、その
新規な文書に基づいて、辞書の更新を行えるようになっ
ている。なお、図１に示す各カウント部６，７における
キーワード，キーワード対の出現文書数のカウントは、
実際には、分類用辞書９に格納された各回数のうち、該
当する箇所（新規な文書に存在するキーワード，キーワ
ード対）の数値をインクリメントする処理を行うことに
なる。

【００５１】なお上記のように分類用辞書の更新を行う
ようにした場合には、上記したキーワード抽出部２′に
て抽出されたキーワードのうち、既知の文書からすでに
抽出されてキーワードファイル３に格納されたキーワー
ドに含まれないものがあった場合には、その後の自動分
類のために係るキーワード並びにそれに基づくデータ
（要素キーワード等）を作成し、所定のファイル３，５
等に格納するのが好ましい。

【００５２】次に、上記した装置を用いて本発明に係る
自動部類方法の一例について説明する。まず、本例では
分類用辞書９に、２つの分野についてのファジィ集合が
格納されている。この２つの分野は、上記した「ＴＶＣ
Ｍについての意見（第１分野）」と「紙を媒体としたＣ
Ｍについての意見（第２分野）」であり、第１分野につ
いては４５個のサンプル文書に基づいて辞書を作成し、
また第２分野については６９個のサンプル文書に基づい
て辞書を作成した。

【００５３】この状態において、未知の文書を入力装
置１′を介して自動分類装置に入力し、まず、キーワー
ド抽出部２′によりキーワード（種類付き）を抽出す
る。この時、重複するキーワードは１個のみ残す。そし
て、その結果を図１６に示す。

【００５４】次いで、ファジィ関係作成部１０によりフ
ァジィ関係を求めた後、分野別に入力された新規な文書
に存在する、キーワードに一致する新たに求めたファジ
ィ集合を構成するキーワード（ｘj ）とそのファジィ集
合Ｆを抽出する。これにより第１分野についてのファジ
ィ集合（図１７）並びに第２分野についてのファジィ集
合（図１８）が求められる。それに基づいて、分野別依
存度算出部１２にてファジィ集合（依存度）を求める。

【００５５】さらに、分野別曖昧度算出部１３にて、曖
昧度を求める。そして、その結果を図１９に示す（な
お、依存度が「０」となったキーワードについては記載
を省略している）。そして、判定・処理部１４では、各
分野毎の曖昧度を比較し、最も小さい値を示す分野を選
択する。そして、本例では第１分野に決定される。

【００５６】また、他の文書（図２０に示すキーワー
ドを有する）を入力し、上記と同様の処理を行った結
果、図２１に示すような曖昧度が得られ、この文書の
場合には第２分野に属する文書であると判定できる。そ
して、上記した処理フロー（本発明にかかる自動分類方
法の一実施例）を図２２に示す。

【００５７】さらに、上記の文書と文書を従来の方
式に基づいて自動分類し、第１分野に対する曖昧度を求
めた結果、図２３に示すようになった。すなわち、この
図から明らかなように、このサンプル文書の場合では従
来方式でも正しく分類（文書→第１分野，文書→第
２分野）されたが、その曖昧度に着目すると、文書の
曖昧度は「０．１０６…」で、これは本発明により得ら
れた曖昧度「０．０８４１…」より大きな数値となり、
逆に文書の曖昧度は「０．４０４９６…」で、これは
本発明により得られた曖昧度「０．５３９２…」よりも
小さな数値となっている。このことから、本発明のもの
では、正しい分野に対しては曖昧度がより小さくなる一
方誤った分野に対しては曖昧度がより大きくなることに
なり、似かよった分野に対しても精度よく分離して分類
できることがわかる。

【００５８】また、辞書を作成する際に用いた第１分野
の４５のサンプル文書を構成するすべてのキーワードを
上記分類装置に入力して処理した結果得られた第１分野
についての曖昧度は、０．０８０７７５８１となった。
また同様に従来方式のものでは、０．０８２４２０８７
となった。すなわち、本発明の方が曖昧度が小さく、正
確に辞書が作成されていることがわかる。

【００５９】

【発明の効果】以上のように本発明に係る文書の自動分
類方法及び装置並びに分類用の辞書作成方法及び装置で
は、キーワードを抽出するに際し、その種別（主語，目
的語，その他等）も同時に判別し、種別まで同一で始め
て同一のキーワードとしてとらえるようにしたため、文
章の意味内容まで考慮して辞書が作成されるため、文書
の内容に近い高精度の辞書が作成でき、分野の未知の文
書に対する自動分類が正確に行える。

【００６０】また、キーワード対の出現数を係数するに
際し、文字列一致を同一のキーワードとしてとらえるよ
うにしたため、たとえ表記上の相違があったとしても、
それに影響されることなく正しい辞書が作成でき、自動
分類が可能となる。

【図面の簡単な説明】

【図１】本発明に係る辞書作成装置の一実施例を示すブ
ロック図である。

【図２】キーワード抽出部の機能を示すフローチャート
図である。

【図３】キーワード抽出部により抽出されたキーワード
の一例を示す図である。

【図４】文字列一致キーワード抽出部の作用を説明する
図である。

【図５】文字列一致キーワード抽出部により抽出された
同一グループを構成するキーワード群の一例を示す図で
ある。

【図６】分類用辞書のデータ構造の一例を示す図であ
る。

【図７】本発明に係る辞書作成方法の一実施例を示すフ
ローチャート図である。

【図８】従来方式により作成された分類用辞書の一部を
示す図である。

【図９】本発明に係る自動分類装置の一実施例を示すブ
ロック図である。

【図１０】分類用辞書に格納された辞書の一例を示す図
である。

【図１１】キーワード抽出部により抽出されたキーワー
ドの一例を示す図である。

【図１２】ファジィ関係作成部により作成された関係を
示す図である。

【図１３】分野別依存度算出部の作用を説明する図であ
る。

【図１４】分野別依存度算出部の作用を説明する図であ
る。

【図１５】分野別曖昧度算出部の作用を説明する図であ
る。

【図１６】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図１７】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図１８】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図１９】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図２０】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図２１】自動分類装置を用いて実施される自動分類方
法の処理過程を示す図である。

【図２２】自動分類装置を用いて実施される本発明に係
る自動分類方法の一例を示すフローチャート図である。

【図２３】従来方式により分類処理された結果を示す図
である。

【符号の説明】

１，１′ 入力装置２，２′ キーワード抽出装置３キーワードファイル４文字列一致キーワード抽出部５文字列一致キーワードファイル６キーワードカウント部７キーワード対カウント部８特徴量算出部９分類用辞書１０ファジィ関係作成部１１ファジィ関係ファイル１２分野別依存度算出部１３分野別曖昧度算出部１４判定・処理部１５出力装置１６データベース

Claims

【特許請求の範囲】

【請求項１】分野既知の複数の文書をそれぞれ構成す
る語句の中から主語，目的語などの種類分けを行いつつ
キーワードを抽出し、抽出されたキーワードの出現文書数並びに任意の２つの
キーワードが同時に出現するキーワード対の出現文書数
を求め、前記キーワードの出現文書数と前記キーワード対の出現
文書数から前記キーワードを構成する２つのキーワード
間の距離を算出し、そのキーワード間の距離から各キーワード対のその分野
の依存度を算出し、少なくともその分野におけるキーワ
ード対と依存度の関係を辞書に格納するようにした文書
の自動分類用の辞書作成方法。
【請求項２】前記キーワード対の出現文書数を求める
に際し、予め同一意味を表すキーワードのグループを求
め、同一グループに属するキーワードがあれば前記出現
文書数に加算するようにした請求項１に記載の文書の自
動分類用の辞書作成方法。
【請求項３】分野既知の文書を入力する入力装置と、その入力装置を介して与えられた文書に対してそれを構
成する語句の中から主語，目的語などの種類分けを行い
つつキーワードを抽出する手段と、前記キーワードを抽出する手段の出力を受けて、同一の
キーワードを有する同一分野の文書数を計数する第１計
数手段と、前記キーワードを抽出する手段の出力を受けて、同一の
キーワード対を有する同一分野の文書数を計数する第２
計数手段と、前記両計数手段の出力を受け、前記キーワード対を構成
する２つのキーワード間の距離を求めるとともに、その
キーワード対の前記分野に対する依存度を算出し、求め
られたその分野におけるキーワード対の依存度を辞書に
格納する手段とを備えた文書の自動分類用の辞書作成装
置。
【請求項４】前記キーワードを抽出する手段の出力を
受けて、同一意味を表すキーワードのグループを求める
手段をさらに備え、前記第２計数手段を、前記グループを求める手段と前記
キーワード抽出する手段の出力を受け、同一グループに
属するキーワードがあれば前記キーワード対の出現文書
数に加算するようにした請求項３に記載の文書の自動分
類用の辞書作成装置。
【請求項５】入力された分野未知の文書を構成する語
句の中から主語，目的語などの種類分けを行いつつキー
ワードを抽出し、抽出されたキーワードが、請求項１または２に記載の方
法により製造された辞書に格納された所定の分野に出現
するキーワードと一致するか否かの関係を求め、次いで、前記求めた関係と、前記辞書に格納されたその
分野の各キーワード対の依存度とを掛け算して前記入力
された文書から抽出された各キーワードのその分野にお
ける依存度を算出し、その依存度から各分野に対する曖昧度を求め、最小の曖
昧度となる分野を、前記入力された文書が属する分野に
決定するようにした文書の自動分類方法。
【請求項６】分野未知の文書を入力する入力装置と、その入力装置を介して与えられた文書に対してそれを構
成する語句の中から主語，目的語などの種類分けを行い
つつキーワードを抽出する手段と、請求項３または４に記載の装置によりデータ格納された
辞書と、前記キーワードを抽出する手段と前記辞書に接続され、
前記抽出されたキーワードが前記辞書に格納された所定
の分野に出現するキーワードと一致するか否かの関係を
求める手段と、前記求める手段から出力される関係と、前記辞書に格納
されたその分野の各キーワード対の依存度とを受け、そ
れら関係と依存度とを掛け算して入力された文書から抽
出された各キーワードのその分野に対する依存度を算出
する依存度算出手段と、前記依存度算出手段の出力を受け、前記文書の各分野に
対する曖昧度を求める曖昧度算出手段と、前記曖昧度算出手段の出力を受け、各分野の曖昧度を比
較し最小の曖昧度となる分野を検出する判定手段とを備
えた請求項５に記載の文書の自動分類装置。