JP2000285140A

JP2000285140A - 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2000285140A
Application number: JP11343890A
Authority: JP
Inventors: Atsuo Shimada; 敦夫嶋田; Tatsuo Miyaji; 達生宮地; Eiji Kenmochi; 栄治剣持; Makoto Yamazaki; 真湖人山崎; Kazuhisa Takeya; 一寿武谷; Tetsuo Nagatsuka; 哲郎長束
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-12-24
Filing date: 1999-12-02
Publication date: 2000-10-13
Also published as: US20070136288A1; US6826724B1

Abstract

(57)【要約】【課題】文書の意味に係わるような分析作業におい
て、単にその結果のみを出力するのではなく、情報分析
作業全般にわたる支援をおこなうことを課題とする。【解決手段】入力された文書データを記憶する文書記
憶部４０２と、文書記憶部４０２により記憶された文書
データの全部または一部を選択する選択部４０３と、選
択部４０３により選択された文書データの全部または一
部から文字列の特徴に関するデータを抽出する特徴抽出
部４０４と、特徴抽出４０４により抽出された文字列の
特徴に関するデータに基づいて文書データの全部または
一部を加工処理する加工処理部４０５と、加工処理部４
０５により加工処理された文書データの全部または一部
を出力する出力部４０６とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、入力された複数
の文書データを所定の形式で表示または印刷するために
出力する文書処理装置、文書処理方法およびその方法を
コンピュータに実行させるプログラムを記録したコンピ
ュータ読み取り可能な記録媒体に関する。また、この発
明は、入力された複数の文書をその文書の内容に基づい
て分類をおこなう、特に文書分類の際に算出される分類
カテゴリ（体系）を精錬化する文書分類装置、文書分類
方法およびその方法をコンピュータに実行させるプログ
ラムを記録したコンピュータ読み取り可能な記録媒体に
関する。

【０００２】

【従来の技術】近年、さまざまな文書分類装置や文書検
索装置が開発されている。また、インターネット等のネ
ットワーク技術の普及により国内外の大量の電子化文書
へのアクセスが可能になり、それに比例して業務上電子
的に蓄積される情報の量も飛躍的に拡大した。その中で
収集した大量の文書情報を意味あるカテゴリ（体系）に
分類する等の知的作業の必要性が高まってきている。

【０００３】これらの大量の文書情報を意味的に分類す
るという作業の目的は、以下のようなものである。まず
第１に、検索容易性の向上が考えられる。これは、膨大
な文書群を分類名称（内容名）を手がかりに検索できる
ので検索が比較的容易になるというものである。

【０００４】第２に、情報群全体の把握が考えられる。
これは、文書群全体がどのような内容（個々の分類）で
構成されているかを把握する。しかし、大量の文書情報
を操作者が手動で分類する場合、正確な分類をすること
はできるが、分類に係る人的・時間的コストが膨大なも
のになるため、近年の文書の蓄積量の膨大さから、文書
情報の自動分類装置が提案されるようになってきた。

【０００５】文書自動分類装置の従来技術としては、た
とえば、特開平７−３６８９７号公報に記載されている
ように、文書を、単語を特徴とする文書ベクトルとみな
し、クラスタリング手法を用いてこれらの文書ベクトル
を群分けし、群分けした文書ベクトルに基づいて文書の
自動分類をおこなうものがある。

【０００６】また、「Ｐｒｏｊｅｃｔｉｏｎｓｆｏｒ
ＥｆｆｉｃｉｅｎｔＤｏｃｕｍｅｎｔＣｌｕｓｔ
ｅｒｉｎｇ（著者名：ＨｉｎｒｉｃｈＳｃｈｕｔｚｅ
ａｎｄＣｒａｉｎｇＳｉｌｖｅｒｓｔｅｉｎ，
学会名：ＡＣＭ，論文名：Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆＳＩＧＩＲ，ページ：７４−８１，発行年：
１９９７）」においては、潜在的意味空間において文書
分類を実施しているものがある。そのほかの方法として
は、確率論的アプローチを用いる方法等が考えられる。

【０００７】また近年、インターネットなどの普及によ
り、大量の文書群へのアクセスが可能になり、その結
果、その文書群をさまざまな利用者の意図に基づいて、
かつ、効率的に利用できるようにする必要性が高まって
いる。そのため、大量の文書群を意味のあるカテゴリに
分類し、文書群の構造を把握するという知的作業がおこ
なわれ始めている。しかし、このような分類作業を人手
によりおこなう場合、その人的および時間的なコストが
膨大なものになるし、また、分類のための知識を分類者
のみが有することになるため、分類担当者が代わると分
類基準も変わってしまうことになる。

【０００８】そのため、文書群を人間が分類するような
分類基準で自動的に分類しうる文書分類装置が望まれて
おり、文書分類装置としては、たとえば、特開平７−１
１４５７２号公報に記載されているように、文書から自
動的に単語の特徴ベクトルを抽出し、その特徴ベクトル
をもとに文書分類することで、意味的な異なりを用いた
自動分類を可能にするものがある。

【０００９】

【発明が解決しようとする課題】しかしながら、上記従
来技術の文書分類装置は、本質的には単語で構成される
多次元空間に布置した文書を統計的な分類をする方法で
あるため、分類結果は単語のいわゆる振る舞いという観
点から統計的に求められたものにすぎず，分類の結果、
算出される各クラスタ（分類された個々の文書の部分集
合）が操作者（利用者）に理解不能な場合がある。

【００１０】また、どのような分類結果が最適かは、分
類対象の文書集合の特徴や、利用者の作業の目的に依存
するため、最適な分類結果について定義することが困難
であるという問題点があった。特に、上記情報群全体の
把握に関し、多様な操作者の意図により要求される分類
も異なるため、一度の分類作業で、操作者の所望する結
果を得ることが困難であるという問題点があった。

【００１１】このように、文書分類の結果は、多くのい
わゆるノイズを含んだものであると解釈することがで
き、その一部についてのみが操作者にとって有益な場合
が多いという問題点があった。

【００１２】また、これらの従来技術においては、文書
の構成単位を考慮していないため、文書が一つまたは複
数の段落記号やタイトルなどにより区切られた構造を持
つ場合には、一つの文書の中に複数の話題や意味が含ま
れてしまい、その結果、利用者がその分類カテゴリを理
解し難くなったり、また、ある特定の話題や特定の意味
に限定されたカテゴリになったり、利用者の意図するカ
テゴリとは異なるカテゴリに分類されてしまうという問
題か生じている。

【００１３】なお、特開平６−１７６０６４号公報に示
された文脈依存自動分類装置には、文書の段落情報を考
慮した文書自動分類をおこなうことにより分類精度を高
めようとするものが開示されているか、本質的に上記の
問題を解決するものではない。

【００１４】また、上記従来技術の文書分類装置や文書
検索装置等の文書処理装置は、単に文書を分類する、あ
るいは文書を検索する機能を有するのみで、その結果を
用いてさらなる分析をおこない、文書群に内在する隠れ
た情報の解析をおこなうことについては何ら考慮がされ
ておらず、文書群に内在する隠れた情報の解析は別の解
析装置を用いておこなわなければならないという問題点
があった。

【００１５】また、情報分析をおこなう操作者が分類作
業や検索作業をおこなうのは、これらの作業において、
結果は目的なのではなく、単に情報分析作業の途中経過
にすぎないからである。通常は、その後、さらに結果を
把握しやすくするために、元の文書に含まれる情報を最
大限に活用し、結果の並べ替えをおこなったり、集計・
統計処理を施したり、結果をもとに表の形式にまとめた
り、さらにはグラフ化したりというようなさまざまな処
理を繰り返しおこない、意味ある情報分析結果を導き出
す必要がある。

【００１６】また、数値データを対象とする情報の分析
作業において、表計算ソフトウエアが用いられる場合が
あるが、表計算ソフトウエアは、元来、数値データの取
扱いを意図して開発されたものであり、文字データ、特
に文書の意味に係わるような分析作業においては十分な
効果を発揮することはできなかった。

【００１７】この発明は、上述した従来例による問題点
を解消するため、文書の意味に係わるような分析作業に
おいて、単に分類作業や検索作業などを固定された機能
としておこない、その結果を出力するのではなく、情報
分析作業全般にわたる支援をおこなうことができる文書
処理装置、文書処理方法およびその方法をコンピュータ
に実行させるプログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することを第１の目的とする。

【００１８】またこの発明は、上述した従来例による問
題点を解消するため、任意の文書集合にどのような内容
が含まれるかを漸次的に収集することができる文書分類
装置、文書分類方法およびその方法をコンピュータに実
行させるプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することを第２の目的とする。

【００１９】またこの発明は、上述した従来例による問
題点を解決するため、一つの文書の中に複数の話題や意
味が含まれている場合に、ある特定の話題や意味に限定
されたカテゴリに分類されたり、利用者の意図するカテ
ゴリとは異なるカテゴリに分類されることがないことに
より、利用者かその分類カテゴリをよく理解できる文書
分類装置、文書分類方法およびその方法をコンピュータ
に実行させるプログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することを第３の目的とする。

【００２０】

【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項１の発明に係る文書処理装
置は、入力された複数の文書データを所定の形式で表示
または印刷するために出力する文書処理装置において、
入力された文書データを記憶する文書記憶手段と、前記
文書記憶手段により記憶された文書データの全部または
一部を選択する選択手段と、前記選択手段により選択さ
れた文書データの全部または一部から文字列の特徴に関
するデータを抽出する特徴抽出手段と、前記特徴抽出手
段により抽出された文字列の特徴に関するデータに基づ
いて前記文書データの全部または一部を加工処理する加
工処理手段と、前記加工処理手段により加工処理された
文書データの全部または一部を出力する出力手段と、を
備えたことを特徴とする。

【００２１】この請求項１の発明によれば、文書の意味
に係わるような分析作業において、単にその結果のみを
出力するのではなく、情報分析作業全般にわたる支援を
おこなうことができる。

【００２２】また、請求項２の発明に係る文書処理装置
は、請求項１の発明において、前記出力手段が、前記加
工処理手段により加工処理された文書データの全部また
は一部の内容に基づいて複数の項目値を設定する項目値
設定手段と、前記項目値設定手段により設定された項目
値ごとに前記文書データの全部または一部を集計する集
計手段と、を備え、前記文書データの全部または一部
を、項目値を少なくとも一つの軸とする表形式に展開し
て出力することを特徴とする。

【００２３】この請求項２の発明によれば、簡易な操作
で加工処理の結果をクロス表として表すことができ、情
報の内容の把握を容易におこなうことができることか
ら、文書の意味に係わるような分析作業において、単に
その結果のみを出力するのではなく、情報分析作業全般
にわたる支援をおこなうことができる。

【００２４】また、請求項３の発明に係る文書処理装置
は、請求項１または２の発明において、前記出力手段
が、さらに、前記加工処理手段により加工処理された文
書データの全部または一部を、前記加工処理手段により
加工処理される前の文書データの全部または一部ととも
に出力することを特徴とする。

【００２５】この請求項３の発明によれば、加工処理す
べき対象データとその他のデータが同時に表示され、そ
れを確認することにより、加工処理の対象範囲の決定を
正確かつ容易におこなうことができることから、文書の
意味に係わるような分析作業において、単にその結果の
みを出力するのではなく、情報分析作業全般にわたる支
援をおこなうことができる。

【００２６】また、請求項４の発明に係る文書処理装置
は、請求項１〜３の発明において、前記文書記憶手段
が、さらに、前記加工処理手段により加工処理された文
書データの全部または一部を記憶することを特徴とす
る。

【００２７】この請求項４の発明によれば、以後、他の
データと同様に扱うことができることから、文書の意味
に係わるような分析作業において、単にその結果のみを
出力するのではなく、情報分析作業全般にわたる支援を
おこなうことができる。

【００２８】また、請求項５の発明に係る文書処理装置
は、請求項１〜４の発明において、前記選択手段が、さ
らに、前記出力手段により出力された文書データの全部
または一部を選択することを特徴とする。

【００２９】この請求項５の発明によれば、出力手段に
より出力された文書データの全部または一部をさらなる
分析の対象とすることができ、多彩で高度な情報分析作
業ができることから、文書の意味に係わるような分析作
業において、単にその結果のみを出力するのではなく、
情報分析作業全般にわたる支援をおこなうことができ
る。

【００３０】また、請求項６の発明に係る文書処理装置
は、請求項１〜５の発明において、前記文書記憶手段
が、さらに、前記加工処理の内容に関するデータを記憶
することを特徴とする。

【００３１】この請求項６の発明によれば、加工処理の
内容に関するデータの紛失を防止し、当該データの管理
が容易になるだけでなく、加工処理に用いた設定とそれ
による処理結果を関連づけて把握することができること
から、文書の意味に係わるような分析作業において、単
にその結果のみを出力するのではなく、情報分析作業全
般にわたる支援をおこなうことができる。

【００３２】また、請求項７の発明に係る文書分類装置
は、文書の内容に基づいて文書の分類をおこなう文書分
類装置において、文書データを入力する入力手段と、前
記入力手段により入力された文書データを解析して言語
解析情報を得る言語解析手段と、前記言語解析手段によ
り得られた言語解析情報に基づいて前記文書データに対
する文書特徴ベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類手段と、前記分類手段により生成された
文書の部分集合の特徴であるクラスタ特徴を算出するク
ラスタ特徴算出手段と、前記クラスタ特徴算出手段によ
り算出されたクラスタ特徴を分類体系の構成要素として
記憶する分類体系記憶手段と、を備えたことを特徴とす
る。

【００３３】この請求項７の発明によれば、クラスタを
得ることができるとともに、クラスタ重心間の類似度等
を用いて、クラスタの内容に基づくクラスタの構造化・
体系化をおこなうことができる。

【００３４】また、請求項８の発明に係る文書分類装置
は、文書の内容に基づいて文書の分類をおこなう文書分
類装置において、文書データを入力する入力手段と、前
記入力手段により入力された文書データを解析して言語
解析情報を得る言語解析手段と、前記言語解析手段によ
り得られた言語解析情報に基づいて前記文書データに対
する文書特徴ベクトルを生成するベクトル生成手段と、
前記ベクトル生成手段により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類手段と、前記分類手段により生成された
文書の部分集合の特徴であるクラスタ特徴を算出するク
ラスタ特徴算出手段と、前記クラスタ特徴算出手段によ
り算出されたクラスタ特徴を表示する表示手段と、前記
分類手段により生成された文書の部分集合の中から所望
の部分集合を選択するクラスタ選択指示手段と、前記ク
ラスタ選択指示手段により選択された文書の部分集合を
分類体系の構成要素として記憶する分類体系記憶手段
と、を備えたことを特徴とする。

【００３５】この請求項８の発明によれば、選択された
クラスタのみを用いており、より操作者の意図したもの
に近いクラスタの構造化・体系化をおこなうことができ
る。

【００３６】また、請求項９の発明に係る文書分類装置
は、請求項８の発明において、前記ベクトル生成手段に
より生成された文書特徴ベクトルを記憶する文書特徴ベ
クトル記憶手段と、前記文書特徴ベクトル記憶手段によ
り記憶された文書特徴ベクトルを、前記クラスタ選択指
示手段により選択された部分集合に属する文書の文書特
徴ベクトルを除去したのこりとなるように修正するベク
トル修正手段と、を備え、前記分類手段が、前記ベクト
ル修正手段により修正された文書特徴ベクトルに基づい
て文書を分類することを特徴とする。

【００３７】この請求項９の発明によれば、既知になっ
たクラスタの影響を排除した新たなクラスタを生成する
ことができる。

【００３８】また、請求項１０の発明に係る文書分類装
置は、請求項８の発明において、前記ベクトル生成手段
により生成された文書特徴ベクトルを記憶する文書特徴
ベクトル記憶手段と、前記文書特徴ベクトル記憶手段に
より記憶された文書特徴ベクトル間の類似度を判断する
際の文書表現空間を前記クラスタ選択指示手段により選
択された部分集合から算出する特徴量に基づいて修正す
る文書表現空間修正手段と、を備え、前記分類手段が、
前記文書表現空間修正手段により修正された文書表現空
間を用いて、前記ベクトル生成手段により生成された文
書特徴ベクトル間の類似度に基づいて文書を分類するこ
とを特徴とする。

【００３９】この請求項１０の発明によれば、前回の分
類実行の結果、操作者に選択されたクラスタの形成特徴
を次回の分類実行時に排除することができ、排除した状
態で新たなクラスタを生成することができる。

【００４０】また、請求項１１の発明に係る文書分類装
置は、請求項９の発明において、前記ベクトル生成手段
により生成された文書特徴ベクトルを記憶する文書特徴
ベクトル記憶手段と、前記文書特徴ベクトル記憶手段に
より記憶された文書特徴ベクトル間の類似度を判断する
際の文書表現空間を前記クラスタ選択指示手段により選
択された部分集合から算出する特徴量に基づいて修正す
る文書表現空間修正手段と、を備え、前記分類手段が、
前記文書表現空間修正手段により修正された文書表現空
間を用いて、前記ベクトル修正手段により修正された文
書特徴ベクトル間の類似度に基づいて文書を分類するこ
とを特徴とする。

【００４１】この請求項１１の発明によれば、既知にな
ったクラスタの影響を排除し、かつ、前回の分類実行の
結果、操作者に選択されたクラスタの形成特徴を次回の
分類実行時に排除することができ、排除した状態で新た
なクラスタを生成することができる。

【００４２】また、請求項１２の発明に係る文書分類装
置は、請求項８または１０の発明において、前記分類手
段により生成された文書の部分集合に所属する文書のす
べてあるいは一部が選択された場合に選択されたことを
示す選択情報を付与する選択情報付与手段を備え、前記
表示手段が、前記クラスタ特徴を表示するとともに、前
記選択情報付与手段により付与された選択情報を表示す
ることを特徴とする。

【００４３】この請求項１２の発明によれば、多重に利
用される文書の識別性および一度も選択されない文書の
識別性を向上させることができる。

【００４４】また、請求項１３の発明に係る文書分類装
置は、請求項８〜１２の発明において、前記分類体系記
憶手段が、前記選択指示手段により選択された文書の部
分集合に属する全部あるいは一部の文書のほか、クラス
タ特徴および／または操作者が作成した任意の情報を分
類体系の構成要素として記憶することを特徴とする。

【００４５】この請求項１３の発明によれば、クラスタ
の内容把握を容易にし、かつ、操作者独自の分類体系を
簡易に生成できるので、分類体系の利用価値を向上させ
ることができる。

【００４６】また、請求項１４の発明に係る文書分類装
置は、文書の内容にしたがって文書群を分類する文書分
類装置において、文書データ群を入力する文書入力手段
と、入力された文書データ群の各文書に対して所定の基
準に基づき文書の分割をおこない、一つの文書データか
ら一つまたは複数の分割文書データを生成する文書分割
手段と、前記文書データと前記分割文書データとの対応
を示す文書−分割文書対応マップを生成する文書−分割
文書対応マップ生成手段と、前記分割文書データを分類
する分割文書分類手段と、前記分割文書分類手段による
分類結果に基づいて分割文書分類結果情報を生成する分
割文書分類結果生成手段と、前記文書−分割文書対応マ
ップと前記分割文書分類結果情報とを用いて前記文書デ
ータの分類結果情報を生成する文書分類結果生成手段
と、を備えたことを特徴とする。

【００４７】この請求項１４の発明によれば、一つの文
書の中に複数の話題や意味が含まれている場合に、ある
特定の話題や意味に限定されたカテゴリに分類された
り、利用者の意図するカテゴリとは異なるカテゴリに分
類されたりすることがなく、したがって、利用者がその
分類カテゴリをよく理解できる。また、分割前文書（所
属文書）中の分割文書の位置なども示されるので、利用
者は文書群中の読みたい部分を効率的に読むことができ
る。

【００４８】また、請求項１５の発明に係る文書分類装
置は、請求項１４の発明において、前記文書データを保
存する文書保存手段と、前記分割文書データを保存する
分割文書保存手段と、前記文書−分割文書対応マップ生
成手段により生成された文書−分割文書対応マップを保
存する文書−分割文書対応マップ保存手段と、を備えた
ことを特徴とする。

【００４９】この請求項１５の発明によれば、分割文書
データおよび文書−分割文書対応マップを再生成するこ
となしに、同一の文書データに対して、分類数、分類手
法、または分類時の諸設定などパラメータの異なる分類
結果を効率的に求めることができる。また、文書データ
を分類し、分類結果を生成するために必要なデータか保
存されることにより、利用者が分類作業に対して時間的
な自由度を持つことができるし、過去に行った文書分類
の再分析を任意の時間間におこなうこともできる。

【００５０】また、請求項１６の発明に係る文書分類装
置は、請求項１５の発明において、前記分割文書分類結
果生成手段により生成された分割文書分類結果情報を保
存する分割文書分類結果保存手段を備えたことを特徴と
する。

【００５１】この請求項１６の発明によれば、請求項１
５の発明の効果に加え、一度分類を実行すれば、その分
類結果をテキスト表現や表表現やグラフ表現などさまざ
まな形式で表現することができる。また、分割文書分類
結果情報が保存されることにより、分類の実行作業およ
び分類結果の分析作業において、利用者が時間的な自由
度を持つことができるし、過去に行った文書分類結果の
再分析をさまざまな表現形式で任意の時間におこなうこ
ともできる。

【００５２】また、請求項１７の発明に係る文書分類装
置は、請求項１４〜１６の発明において、前記文書分割
手段により生成される複数の分割文書データには分割前
の文書データそのものを含むことを特徴とする。

【００５３】この請求項１７の発明によれば、利用者
は、分割されている文書データを分類することで得られ
る詳細な文書データの分類構造だけでなく、分割前の文
書データ自体を分類した結果として得られる概略的でマ
クロな分類構造の融合した分類構造を得ることができ
る。

【００５４】また、請求項１８の発明に係る文書分類装
置は、請求項１４〜１７の発明において、前記文書分割
手段が、文書データの構造情報を基に文書データを分割
する構成にしたことを特徴とする。

【００５５】この請求項１８の発明によれば、異なった
話題の分割等を適切におこなうことができ、したがっ
て、文書データの詳細な分類構造がわかる文書分類を適
切におこなうことができる。

【００５６】また、請求項１９の発明に係る文書分類装
置は、請求項１４〜１７の発明において、前記文書デー
タに含まれる要素を抽出する文書要素抽出手段と、前記
文書要素抽出手段により抽出された要素に付随する要素
付随情報を抽出する要素付随情報抽出手段と、を備え、
前記文書分割手段が、前記文書要素抽出手段により抽出
された要素、または前記要素と前記要素付随情報抽出手
段により抽出された要素付随情報とを用いて前記文書デ
ータを分割する構成にしたことを特徴とする。

【００５７】この請求項１９の発明によれば、文書デー
タの詳細な分類構造がわかる文書分類を適切におこなう
ことができる。

【００５８】また、請求項２０の発明に係る文書分類装
置は、請求項１４〜１７の発明において、前記文書分割
手段が、指示された指定範囲にしたがって文書データの
分割をおこなう構成にしたことを特徴とする。

【００５９】この請求項２０の発明によれば、利用者の
意図に合い、かつ文書データの詳細な分類構造がわかる
文書分類をおこなうことができる。

【００６０】また、請求項２１の発明に係る文書分類装
置は、請求項１４〜１７において、前記文書分割手段
が、文書データ中の文字数、文数、または文字数と文数
の両方を基に文書データを分割する構成にしたことを特
徴とする。

【００６１】この請求項２１の発明によれば、話題の異
なった内容などが異なった文書として分類される可能性
が高くなり、したがって、この発明でも文書データの詳
細な分類構造がわかる文書分類をおこなうことができ
る。

【００６２】また、請求項２２の発明に係る文書分類装
置は、請求項１４〜２１の発明において、前記文書分類
結果生成手段が、文書データを示す情報および前記文書
データに付随する代表的情報を、分類結果情報として抽
出して提示する構成にしたことを特徴とする。

【００６３】この請求項２２の発明によれば、利用者は
文書データの詳細な分類構造の概要や全体的な構造を容
易に把握することができる。

【００６４】また、請求項２３の発明に係る文書分類装
置は、請求項２２の発明において、前記文書分類結果生
成手段が、分割文書データを示す情報および前記分割文
書データに付随する代表的情報を、分類結果情報とし
て、抽出して提示する構成にしたことを特徴とする。

【００６５】この請求項２３の発明によれば、利用者は
文書データの詳細な分類構造の概要や全体的な構造とと
もにどの分割文書が起因して当該カテゴリに分類された
かというようなことも容易にわかる。

【００６６】また、請求項２４の発明に係る文書処理方
法は、入力された複数の文書データを所定の形式で表示
または印刷するために出力する文書処理方法において、
入力された文書データを記憶する文書記憶工程と、前記
文書記憶工程により記憶された文書データの全部または
一部を選択する選択工程と、前記選択工程により選択さ
れた文書データの全部または一部から文字列の特徴に関
するデータを抽出する特徴抽出工程と、前記特徴抽出工
程により抽出された文字列の特徴に関するデータに基づ
いて前記文書データの全部または一部を加工処理する加
工処理工程と、前記加工処理工程により加工処理された
文書データの全部または一部を出力する出力工程と、を
含んだことを特徴とする。

【００６７】この請求項２４の発明によれば、文書の意
味に係わるような分析作業において、単にその結果のみ
を出力するのではなく、情報分析作業全般にわたる支援
をおこなうことができる。

【００６８】また、請求項２５の発明に係る文書処理方
法は、請求項２４の発明において、前記出力工程が、前
記加工処理工程により加工処理された文書データの全部
または一部の内容に基づいて複数の項目値を設定する項
目値設定工程と、前記項目値設定工程により設定された
項目値ごとに前記文書データの全部または一部を集計す
る集計工程と、を含み、前記文書データの全部または一
部を、項目値を少なくとも一つの軸とする表形式に展開
して出力することを特徴とする。

【００６９】この請求項２５の発明によれば、簡易な操
作で加工処理の結果をクロス表として表すことができ、
情報の内容の把握を容易におこなうことができることか
ら、文書の意味に係わるような分析作業において、単に
その結果のみを出力するのではなく、情報分析作業全般
にわたる支援をおこなうことができる。

【００７０】また、請求項２６の発明に係る文書処理方
法は、請求項２４または２５の発明において、前記出力
工程が、さらに、前記加工処理工程により加工処理され
た文書データの全部または一部を、前記加工処理工程に
より加工処理される前の文書データの全部または一部と
ともに出力することを特徴とする。

【００７１】この請求項２６の発明によれば、加工処理
すべき対象データとその他のデータが同時に表示され、
それを確認することにより、加工処理の対象範囲の決定
を正確かつ容易におこなうことができることから、文書
の意味に係わるような分析作業において、単にその結果
のみを出力するのではなく、情報分析作業全般にわたる
支援をおこなうことができる。

【００７２】また、請求項２７発明に係る文書処理方法
は、請求項２４〜２６の発明において、前記文書記憶工
程が、さらに、前記加工処理工程により加工処理された
文書データの全部または一部を記憶することを特徴とす
る。

【００７３】この請求項２７の発明によれば、以後、他
のデータと同様に扱うことができることから、文書の意
味に係わるような分析作業において、単にその結果のみ
を出力するのではなく、情報分析作業全般にわたる支援
をおこなうことができる。

【００７４】また、請求項２８の発明に係る文書処理方
法は、請求項２４〜２７の発明において、前記選択工程
が、さらに、前記出力工程により出力された文書データ
の全部または一部を選択することを特徴とする。

【００７５】この請求項２８の発明によれば、出力手段
により出力された文書データの全部または一部をさらな
る分析の対象とすることができ、多彩で高度な情報分析
作業ができることから、文書の意味に係わるような分析
作業において、単にその結果のみを出力するのではな
く、情報分析作業全般にわたる支援をおこなうことがで
きる。

【００７６】また、請求項２９の発明に係る文書処理方
法は、請求項２４〜２８の発明において、前記文書記憶
工程が、さらに、前記加工処理の内容に関するデータを
記憶することを特徴とする。

【００７７】この請求項２９の発明によれば、加工処理
の内容に関するデータの紛失を防止し、当該データの管
理が容易になるだけでなく、加工処理に用いた設定とそ
れによる処理結果を関連づけて把握することができるこ
とから、文書の意味に係わるような分析作業において、
単にその結果のみを出力するのではなく、情報分析作業
全般にわたる支援をおこなうことができる。

【００７８】また、請求項３０の発明に係る文書分類方
法は、文書の内容に基づいて文書の分類をおこなう文書
分類方法において、文書データを入力する入力工程と、
前記入力工程により入力された文書データを解析して言
語解析情報を得る言語解析工程と、前記言語解析工程に
より得られた言語解析情報に基づいて前記文書データに
対する文書特徴ベクトルを生成するベクトル生成工程
と、前記ベクトル生成工程により生成された文書特徴ベ
クトル間の類似度に基づいて文書を分類し、文書の部分
集合を生成する分類工程と、前記分類工程により生成さ
れた文書の部分集合の特徴であるクラスタ特徴を算出す
るクラスタ特徴算出工程と、前記クラスタ特徴算出工程
により算出されたクラスタ特徴に基づいて分類体系の構
成要素を生成する分類体系生成工程と、を含んだことを
特徴とする。

【００７９】この請求項３０の発明によれば、クラスタ
を得ることができるとともに、クラスタ重心間の類似度
等を用いて、クラスタの内容に基づくクラスタの構造化
・体系化をおこなうことができる。

【００８０】また、請求項３１の発明に係る文書分類方
法は、文書の内容に基づいて文書の分類をおこなう文書
分類方法において、文書データを入力する入力工程と、
前記入力工程により入力された文書データを解析して言
語解析情報を得る言語解析工程と、前記言語解析工程に
より得られた言語解析情報に基づいて前記文書データに
対する文書特徴ベクトルを生成するベクトル生成工程
と、前記ベクトル生成工程により生成された文書特徴ベ
クトル間の類似度に基づいて文書を分類し、文書の部分
集合を生成する分類工程と、前記分類工程により生成さ
れた文書の部分集合の特徴であるクラスタ特徴を算出す
るクラスタ特徴算出工程と、前記クラスタ特徴算出工程
により算出されたクラスタ特徴を表示する表示工程と、
前記分類工程により生成された文書の部分集合の中から
所望の部分集合を選択するクラスタ選択指示工程と、前
記クラスタ選択指示工程により選択されたクラスタ特徴
に基づいて分類体系の構成要素を生成する分類体系生成
工程と、を含んだことを特徴とする。

【００８１】この請求項３１の発明によれば、選択され
たクラスタのみを用いており、より操作者の意図したも
のに近いクラスタの構造化・体系化をおこなうことがで
きる。

【００８２】また、請求項３２の発明に係る文書分類方
法は、請求項３１の発明において、前記ベクトル生成工
程により生成された文書特徴ベクトルを、前記クラスタ
選択指示工程により選択された部分集合に属する文書の
文書特徴ベクトルを除去したのこりとなるように修正す
るベクトル修正工程と、を含み、前記分類工程が、前記
ベクトル修正工程により修正された文書特徴ベクトルに
基づいて文書を分類することを特徴とする。

【００８３】この請求項３２の発明によれば、既知にな
ったクラスタの影響を排除した新たなクラスタを生成す
ることができる。

【００８４】また、請求項３３の発明に係る文書分類方
法は、請求項３１の発明において、前記ベクトル生成工
程により生成された文書特徴ベクトル間の類似度を判断
する際の文書表現空間を前記クラスタ選択指示工程によ
り選択された部分集合から算出する特徴量に基づいて修
正する文書表現空間修正工程と、を含み、前記分類工程
が、前記文書表現空間修正工程により修正された文書表
現空間を用いて、前記ベクトル生成手段工程により生成
された文書特徴ベクトル間の類似度に基づいて文書を分
類することを特徴とする。

【００８５】この請求項３３の発明によれば、前回の分
類実行の結果、操作者に選択されたクラスタの形成特徴
を次回の分類実行時に排除することができ、排除した状
態で新たなクラスタを生成することができる。

【００８６】また、請求項３４の発明に係る文書分類方
法は、請求項３２の発明において、前記ベクトル生成工
程により生成された文書特徴ベクトル間の類似度を判断
する際の文書表現空間を前記クラスタ選択指示工程によ
り選択された部分集合から算出する特徴量に基づいて修
正する文書表現空間修正工程と、を含み、前記分類工程
が、前記文書表現空間修正工程により修正された文書表
現空間を用いて、前記ベクトル修正工程により修正され
た文書特徴ベクトル間の類似度に基づいて文書を分類す
ることを特徴とする。

【００８７】この請求項３４の発明によれば、既知にな
ったクラスタの影響を排除し、かつ、前回の分類実行の
結果、操作者に選択されたクラスタの形成特徴を次回の
分類実行時に排除することができ、排除した状態で新た
なクラスタを生成することができる。

【００８８】また、請求項３５の発明に係る文書分類方
法は、請求項３１または３３の発明において、前記分類
工程により生成された文書の部分集合に所属する文書の
すべてあるいは一部が選択された場合に選択されたこと
を示す選択情報を付与する選択情報付与工程を含み、前
記表示工程が、前記クラスタ特徴を表示するとともに、
前記選択情報付与工程により付与された選択情報を表示
することを特徴とする。

【００８９】この請求項３５の発明によれば、多重に利
用される文書の識別性および一度も選択されない文書の
識別性を向上させることができる。

【００９０】また、請求項３６の発明に係る文書分類方
法は、請求項３１〜３５の発明において、前記分類体系
生成工程が、前記選択指示工程により選択されたクラス
タ特徴のほか、前記文書の部分集合の中から選択された
文書の部分集合に所属する文書群の全部あるいは一部お
よび／または操作者が作成した情報に基づいて分類体系
の構成要素を生成することを特徴とする。

【００９１】この請求項３６の発明によれば、クラスタ
の内容把握を容易にし、かつ、操作者独自の分類体系を
簡易に生成できるので、分類体系の利用価値を向上させ
ることができる。

【００９２】また、請求項３７の発明に係る文書分類方
法は、文書の内容にしたがって文書群を分類する文書分
類方法において、文書データ群を入力し、入力された文
書データ群の各文書に対して所定の基準に基づき文書の
分割をおこない、一つの文書データから一つまたは複数
の分割文書データを生成し、前記文書データと前記分割
文書データとの対応を示す文書−分割文書対応マップを
生成し、前記分割文書データを分類し、分割文書分類結
果情報を生成し、前記文書−分割文書対応マップと前記
分割文書分類結果情報とを用いて前記文書データの分類
結果情報を生成することを特徴とする。

【００９３】この請求項３７の発明によれば、一つの文
書の中に複数の話題や意味が含まれている場合に、ある
特定の話題や意味に限定されたカテゴリに分類された
り、利用者の意図するカテゴリとは異なるカテゴリに分
類されたりすることがなく、したがって、利用者がその
分類カテゴリをよく理解できる。また、分割前文書（所
属文書）中の分割文書の位置なども示されるので、利用
者は文書群中の読みたい部分を効率的に読むことができ
る。

【００９４】また、請求項３８の発明に係る記憶媒体
は、請求項２４〜３７に記載された方法をコンピュータ
に実行させるプログラムを記録したことで、そのプログ
ラムを機械読み取り可能となり、これによって、請求項
２４〜３７の動作をコンピュータによって実現すること
が可能である。

【００９５】

【発明の実施の形態】以下に添付図面を参照して、この
発明に係る文書処理装置、文書処理方法およびその方法
をコンピュータに実行させるプログラムを記録したコン
ピュータ読み取り可能な記録媒体の好適な実施の形態を
詳細に説明する。

【００９６】〔実施の形態１〕まず、この発明の実施の
形態１による文書処理装置を構成する情報処理システム
全体のハードウエア構成を説明する。図１は、実施の形
態１による文書処理装置を構成する情報処理システム全
体のハードウエア構成を示す説明図である。

【００９７】図１において、実施の形態１による文書処
理装置を構成する情報処理システムは、サーバー／クラ
イアント方式で構成されている。すなわち、サーバー１
０１と複数のクライアント１０２がネットワーク１０３
によって接続されている。クライアント１０２は、分類
データ等の加工データの生成、サーバー１０１への指
示、分類結果等の加工処理結果の表示などをおこなう。
一方、クライアント１０２からの指示にしたがって、サ
ーバー１０１は文書（テキスト）分類等の加工処理を膨
大な数値演算によりおこない、その処理の結果をクライ
アント１０２へ送る。

【００９８】分類処理の場合、より具体的には、サーバ
ー１０１においては、テキスト分類処理（前処理、クラ
スタリング処理）がおこなわれ、クライアント１０２に
おいては、分類データ生成、処理実行指示、テキスト分
類結果表示等がおこなわれる。サーバー１０１における
処理は、上述のように、「前処理」と「分類処理」の二
つに分かれており、その処理はデータによっては非常に
負荷が大きくなる。したがって、サーバー１０１は「前
処理」と「分類処理」がそれぞれ一つずつしか処理をお
こなわないようにマネージャプロセスが処理受付リスト
を作成して管理する。

【００９９】また、サーバー１０１とクライアント１０
２との間のデータのやりとりはファイル共有という方法
を用いる。すなわち、分類処理等の加工処理に用いるフ
ァイルをサーバー１０１上の共有フォルダに作成するこ
とにより両者はデータのやりとりをおこなう。したがっ
て、クライアント１０２からはサーバー１０１の共有フ
ォルダをネットワーク共有して利用することが可能であ
る。

【０１００】つぎに、サーバー１０１およびクライアン
ト１０２のハードウエア構成について説明する。図２
は、実施の形態１による文書処理装置を構成する情報処
理システムにおけるサーバー１０１のハードウエア構成
を示す説明図である。サーバー１０１は、たとえばワー
クステーション（ＷＳ）等が用いられる。

【０１０１】図２において、２０１はサーバー１０１全
体を制御するＣＰＵを、２０２はブートプログラム等を
記憶したＲＯＭを、２０３はＣＰＵ２０１のワークエリ
アとして使用されるＲＡＭ２０３を、２０４は通信回線
２０５を介してネットワーク１０３に接続され、そのネ
ットワーク１０３と内部のインターフェイスを司るイン
ターフェイス（Ｉ／Ｆ）を、２０６はデータを記憶する
ディスク装置を示している。２００は上記各部を結合さ
せるためのバスを示している。

【０１０２】そのほか、文書情報、画像情報、機能情報
等を表示するディスプレイ２０８や、データを入力する
ためのキーボード２０９およびマウス２１０等が同様に
接続されていてもよい。さらに、ディスク装置２０６に
は、クライアント１０２との間のデータのやりとりをす
るための共有フォルダ２０７が設けられている。

【０１０３】また、図３は、実施の形態１による文書処
理装置を構成する情報処理システムにおけるクライアン
ト１０２のハードウエア構成を示す説明図である。クラ
イアント１０２は、たとえばパーソナルコンピュータ
（ＰＣ）等が用いられる。

【０１０４】図３において、３０１はシステム全体を制
御するＣＰＵを、３０２はブートプログラム等を記憶し
たＲＯＭを、３０３はＣＰＵ３０１のワークエリアとし
て使用されるＲＡＭを、３０４はＣＰＵ３０１の制御に
したがってＨＤ（ハードディスク）３０５に対するデー
タのリード／ライトを制御するＨＤＤ（ハードディスク
ドライブ）を、３０５はＨＤＤ３０４の制御で書き込ま
れたデータを記憶するＨＤを、３０６はＣＰＵ３０１の
制御にしたがってＦＤ（フロッピーディスク）３０７に
対するデータのリード／ライトを制御するＦＤＤ（フロ
ッピーディスクドライブ）を、３０７はＦＤＤ３０６の
制御で書き込まれたデータを記憶する着脱自在のＦＤ
を、３０８はドキュメント、画像、機能情報等を表示す
るディスプレイをそれぞれ示している。

【０１０５】また、３０９は通信回線３１０を介してネ
ットワーク１０３に接続され、そのネットワーク１０３
と内部のインターフェイスを司るインターフェイス（Ｉ
／Ｆ）を、３１１は文字、数値、各種指示等の入力のた
めのキーを備えたキーボードを、３１２はカーソルの移
動や範囲選択、あるいは表示画面に表示されたアイコン
やボタンの押下やウインドウの移動やサイズの変更等を
おこなうマウスを、３１３はＯＣＲ（Ｏｐｔｉｃａｌ
ＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を備えた画像
を光学的に読み取るスキャナを、３１４は分類結果を含
むデータの内容等を印刷するプリンタを、３１５は上記
各部を結合するためのバスをそれぞれ示している。ま
た、ＨＤ３０５にはワープロソフト等のアプリケーショ
ンソフト３１６が記憶されている。

【０１０６】つぎに、実施の形態１による文書処理装置
の機能的構成について説明する。図４は、実施の形態１
による文書処理装置の構成を機能的に示すブロック図で
ある。図４において、文書処理装置は、入力部４０１
と、文書記憶部４０２と、選択部４０３と、特徴抽出部
４０４と、加工処理部４０５と、出力部４０６を含む構
成である。

【０１０７】入力部４０１、文書記憶部４０２、選択部
４０３、特徴抽出部４０４、加工処理部４０５、出力部
４０６は、ＲＯＭ２０２または３０２、ＲＡＭ２０３ま
たは３０３、あるいはディスク装置３０６またはハード
ディスク３１６等の記録媒体に記録されたプログラムに
記載された命令にしたがってＣＰＵ２０１または３０１
等が命令処理を実行することにより、各部の機能を実現
する。

【０１０８】入力部４０１は、文書データを入力するも
のであり、たとえば、キーボード２０９または３１１、
スキャナ３１３、ＯＣＲ機能を備えたスキャナ３１３、
またはネットワーク１０３を経由して文書や文書群を得
ることができるＩ／Ｆ２０４または３０９等である。ま
た、入力部４０１は、上記以外に、文書データを取得す
ることができるものであれば、それらのすべてを含む。
たとえば、文書データがデータベース化されている場合
に、そのデータベースが記録された媒体を実施の形態１
の文書処理装置に組み入れた場合も文書データの入力と
する。

【０１０９】ここで、文書とは、自然言語で記述された
一つ以上の文の集まりであり、文字、文字列、数値等か
ら構成されており、それらの意味のあるまとまりを一つ
の文書とする。また、複数の文書の集まりを、文書群と
する。

【０１１０】文書は一つあるいは複数の項目から構成さ
れている。項目は、項目名と、項目値から構成されてい
る。項目名は項目の内容を示すラベルであり、文書に含
まれていても含まれていなくてもよい。項目値は項目の
実際の内容である。図５は、実施の形態１による文書処
理装置の項目名と項目値の関係を示す説明図である。た
とえば、一つの特許公報は一つの文書であり、特許公報
を項目名と項目値によって表現すると、図５のようにな
る。

【０１１１】入力部４０１によって取得された文書ある
いは文書群は、それぞれの文書に一意な文書ＩＤが付与
され、文書記憶部４０２により記憶される。図６は、実
施の形態１による文書処理装置の文書記憶部４０２に記
憶された文書のデータ構造を示す説明図である。各項目
名あるいは項目値は、文書記憶部４０２のセル、すなわ
ち一つの記憶単位に収納される。

【０１１２】図６においては、一つのセルは３つの記憶
領域から構成されており、第１番目の記憶領域６０１に
はつぎのセルの文書記憶部４０２上の位置（番地）が記
憶されている。第２番目の記憶領域６０２には、セルの
属性値が記憶されている。

【０１１３】セルの属性値としては、たとえば、「０」
が「空」、「１」が「数値」、「２」が文字列・・・と
いうように設定することができる。第３番目の記憶領域
６０３には、セルの実際の内容、すなわち、項目名ある
いは項目値等が格納される領域の先頭位置が記憶されて
いる。

【０１１４】セルの順序の並び替えや、セルの追加・削
除は、第１番目の記憶領域６０１に記憶されたつぎのセ
ルの位置を変更することにより、容易に実現することが
できる。また、セルの実際の内容は、セルの構造とは異
なる別の領域に記憶されているので、たとえば、項目を
変更した結果、あらかじめ確保された領域では収まり切
れなくなった場合には、セルの構造自体には影響なく、
別途大きな領域を確保してそこに項目値を記憶し、第３
番目に記憶された記憶領域６０３の先頭位置を変更する
だけでよい。

【０１１５】図７は、実施の形態１による文書処理装置
の文書記憶部４０２に記憶された文書の別のデータ構造
を示す説明図である。図７において、一つのセルは二つ
の記憶領域を使用している。第１番目の記憶領域７０１
には、セル属性値が記憶されている。第２番目の記憶領
域７０２には、セルの実際の内容、すなわち項目名ある
いは項目値などが格納される領域の先頭位置が記憶され
ている。

【０１１６】つぎのセルは、文書記憶部４０２上でとな
り合うつぎの記憶領域に記憶されている。このデータ構
造では、セルの順序の並び替え、セルの追加・削除が発
生した場合には、記憶内容の移動操作が必要となる。

【０１１７】文書記憶部４０２は、通常高速に情報を扱
える半導体メモリで構成されるが、磁気ディスクあるい
は光ディスク等で構成される補助記憶装置を含んでいて
もよい。

【０１１８】文書記憶部４０２に記憶された文書あるい
は文書群は、出力部４０６により表示される。実施の形
態１においては、出力部４０６は、ＣＲＴディスプレ
イ、液晶ディスプレイ等から構成される。出力部４０６
は、文書記憶部４０２に記憶された文書あるいは文書群
の内容をセルと順次たどって読み出し、表の形式で表示
または印刷する。

【０１１９】また、出力部４０６は、表の形式で表示ま
たは印刷されたデータに基づいてグラフを描画するグラ
フ描画部４０７を含んでいてもよい。グラフ描画部４０
７は、文書記憶部４０２に記憶された文書あるいは文書
群の項目値に対して利用者が設定した領域の内容を読み
出し、利用者の指示により棒グラフ、円グラフ、折れ線
グラフ等のグラフを描画し、表示または印刷する。

【０１２０】出力部４０６は、入力部４０１による操作
に関する表示、たとえば、操作メニューやマウスポイン
タ、カーソルの表示等もおこなう。また、処理結果を印
刷するためのプリンタ等の印刷装置を含んでいてもよ
い。

【０１２１】選択部４０３は、入力部４０１による操作
者の指示により、出力部４０６の表示上で選択された領
域のデータを文書記憶部４０２から読み出し、特徴抽出
部４０４へ送る。選択部４０３の選択方法について、図
８〜図１０を用いて説明する。

【０１２２】図８〜図１０は、実施の形態１による文書
処理装置の出力部４０６による画面表示の例、具体的に
は、自動車の故障状況の内容が表示された画面表示の例
を示す説明図である。図８において、画面表示には、文
書ＩＤ番号を示す「番号」欄８０１、故障情報を受け付
けた日付を示す「受付日」欄８０２、故障情報を受け付
けた営業所を示す「営業所」欄８０３、故障情報の対象
となった自動車の車種を示す「車種」欄８０４、故障情
報対象となった自動車の年式を示す「年式」欄８０５、
故障状況の内容を示す「内容」欄８０６が表示される。

【０１２３】図９において、選択領域９０１は、矩形で
囲まれ、表示色が変更されている部分であり、図１０に
おいても同様に、選択領域１００１は、矩形で囲まれ、
表示色が変更されている部分である。

【０１２４】選択部４０３が選択する領域としては、図
９に示すように、画面上の列の一部であってもよいし、
また、図１０に示すように項目名を選択した場合はその
項目名に属する項目値全部が選択されるようにしてもよ
い。なお、実施の形態１では、文字列の属性を持つ領域
のみ選択可能とする。

【０１２５】つぎに、特徴抽出部４０４によりおこなわ
れる抽出処理の内容について説明する。選択部４０３に
より選択された項目値は、特徴抽出部４０４によりその
項目値の特徴が抽出される。図１１は、実施の形態１に
よる文書処理装置の特徴抽出部４０４によりおこなわれ
る抽出処理の内容の一覧を示す説明図である。

【０１２６】図１１において、抽出処理には、対象とす
る文字列に含まれる単語、その単語の単語数、単語の文
字数、単語のそれぞれの出現回数．．．等がある。これ
らの抽出処理は、規則音声合成装置や自動翻訳装置等の
一般的に用いられている形態素解析技術あるいは構文解
析技術等の自然言語処理技術を用いて実現する。

【０１２７】つぎに、加工処理部４０５によりおこなわ
れる加工処理の内容について説明する。特徴抽出部４０
４により抽出処理された特徴量に対して、加工処理部４
０５により加工処理が施される。図１２は、実施の形態
１による文書処理装置の加工処理部４０５によりおこな
われる加工処理の内容の一覧を示す説明図である。

【０１２８】加工処理には、同一の特徴量ごと分類する
「分類処理」、所定の特徴量を検索する「検索処理」、
特徴量の内容ごとに並べ替えをおこなう「並べ替え処
理」、特徴量の代表値を抽出する「代表値抽出処理」、
特徴量のうちの最大値を抽出する「最大値抽出処理」、
特徴量のうち最小値を抽出する「最小値抽出処理」、特
徴量を算術する「算術処理」等がある。

【０１２９】特徴抽出部４０４によりおこなわれる特徴
量の抽出処理の内容と、加工処理部４０５によりおこな
われる抽出された特徴量の加工処理の内容の組み合わせ
は、おのおの操作者が選択できるようにすることができ
る。また、効果の高い組み合わせをあらかじめ設定し
て、その設定された組み合わせを操作者に提供するよう
にしてもよい。

【０１３０】加工処理部４０５により加工処理された処
理結果は、加工処理部４０５内の加工処理結果保持部４
０８に保持される。加工処理結果保持部４０８に保持さ
れた加工処理結果は、出力部４０６により出力される。
出力部４０６は、加工処理結果保持部４０８から内容を
読み出し、画像表示や印刷出力をおこなう。

【０１３１】ここで、特徴抽出部４０４により抽出され
る特徴（量）として、項目値に含まれる単語それぞれの
出現回数を選択し、加工処理部４０５によりおこなわれ
る加工処理として、分類処理を選択した場合について説
明する。

【０１３２】一般的に、二つの文書があり、それら二つ
の文書を構成する単語の出現頻度が等しい場合、それら
二つの文書の意味は似通っていると考えることができ
る。すなわち、ある文書での単語の出現回数は、その文
書の意味に関係の深い特徴量であると考えることができ
る。したがって、単語の出現回数を特徴量として、複数
の文書を分類した場合、それぞれの分類カテゴリには意
味の近い文書が所属すると考えることができる。

【０１３３】選択部４０３により選択された一つあるい
は複数の項目値は、特徴抽出部４０４に含まれる解析部
４０９よって項目値ごとに形態素解析等の自然言語解析
をおこない、単語に分割される。また、それぞれの単語
には、その単語の品詞情報も付与される。出現した単語
のうち、名詞であるものに対して一意な単語ＩＤを付与
し、一つの項目値および選択部４０３により選択された
すべての項目値に対する単語ＩＤごとの出現回数を計数
する。

【０１３４】特徴抽出部４０４に含まれる特徴ベクトル
生成部４１０は、計数された出現回数に基づいて個々の
項目値の特徴（量）を示す項目値特徴ベクトルを生成す
る。たとえば、選択部４０３により選択された項目値
が、「騒音が大きい」「塗装が変色する」「オーバーヒートが起こる」「塗装がはげる」「バッテリーが上がる」「排気が黒い」であった場合、各項目の特徴ベクトルは、図１３に示す
ようになる。また、図１４には、単語とその単語ＩＤご
との出現回数を示す。

【０１３５】すなわち、「騒音が大きい」：｛1 ，1 ，1 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ｝「塗装が変色する」：｛0 ，1 ，0 ，1 ，1 ，1 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ｝「オーバーヒートが起こる」：｛0 ，1 ，0 ，0 ，0 ，0 ，1 ，1 ，0 ，0 ，0 ，0 ，0 ｝「塗装がはげる」：｛0 ，1 ，0 ，1 ，0 ，0 ，0 ，0 ，1 ，0 ，0 ，0 ，0 ｝「バッテリーが上がる」：｛0 ，1 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，1 ，1 ，0 ，0 ｝「排気が黒い」：｛0 ，1 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，0 ，1 ，1 ｝という特徴ベクトルが得られる。

【０１３６】この項目値の特徴ベクトルは、特徴抽出部
４０４からの出力として加工処理部４０５へ送られる。
加工処理部４０５においては、項目値の特徴ベクトルを
用いて、分類処理をおこなう。分類処理は、まず、おの
おののベクトル間の距離を計算することにより求める。
距離の尺度には、たとえば内積を用いることができる。

【０１３７】距離を計算した後、距離の近いものをまと
める処理をおこなう。この処理には、たとえばベクトル
の集合をその距離に応じてＫ個のベクトルの集合に分類
するＫ−ｍｅａｎｓ法を用いることができる。それぞれ
のベクトルの分類が完了したら、ベクトルに対応する項
目値に対してどの分類に属するかの番号、すなわち、ク
ラスタ番号と、項目値に対応する文書ＩＤを付与し、加
工処理部４０５の出力とし、出力部４０６により出力表
示をおこなう。

【０１３８】図１５は、クラスタ番号１５０１を表示し
た画面の表示例を示す。クラスタ番号が同一番号である
文書、たとえば、番号「１」および「６」の文書のクラ
スタ番号が「５」であり、両者が同一の分類に属するこ
とを示している。

【０１３９】つぎに、請求項２の発明においてクロス表
を出力する場合について説明する。入力部４０１によ
り、分析対等とする文書群を読み込んだ後、操作者は分
類処理をおこなう対象となる項目名、クロス表の横軸あ
るいは縦軸となる項目名、いくつに分類をおこなうかの
分類数を指示する。

【０１４０】図１６はクロス表作成のための指示画面で
ある。図１６において、指示画面１６００は、処理対象
項目名入力欄１６０１と、軸となる項目名入力欄１６０
２と、縦軸指定ボタン１６０３と、横軸指定ボタン１６
０４と、分類数入力欄１６０５とから構成される。

【０１４１】処理対象項目名入力欄１６０１には、処理
対象となる項目名を入力する。キーボード２０９等から
入力するあるいは処理対象となる項目候補を表示させそ
の中からマウス２１０等により選択することにより項目
名を入力することができる。また、軸となる項目名入力
欄１６０２には、軸となる項目名を入力する。入力の方
法は、処理対象項目名入力欄１６０１への入力の方法と
同様である。

【０１４２】縦軸指定ボタン１６０３および横軸指定ボ
タン１６０４は、軸となる項目を縦軸に表示させるか横
軸に表示させるかを指定するためのボタンである。ま
た、分類数入力欄１６０５には、いくつに分類するかそ
の分類数を入力する。入力の方法としては、キーボード
２０９等から数字を入力するあるいは分類数候補を表示
させその中からマウス２１０等により選択することによ
り分類数を入力するようにしてもよい。

【０１４３】図１６においては、処理対象項目名入力欄
１６０１には「内容」が、軸となる項目名入力欄１６０
２には「車種」が、また、横軸指定ボタン１６０４がチ
ェックされ、分類数入力欄１６０５には「５０」が入力
され、これにより、文書群の中の「内容」に基づいて、
「５０（個）」に分類され、クロス表の横軸に「車種」
を表示するという指示がなされていることがわかる。

【０１４４】クロス表作成の指示がおこなわれることに
より、分類処理が実行され、その結果がクロス表で表示
される。図１７および図１８は、分類処理の結果が表示
されたクロス表を示す図である。図１７において、クロ
ス表１７００は、縦軸に分類を示す「クラスタ１」、
「クラスタ２」．．．が表示され、横軸に車種を示す
「ＡＢＣ１６００」、「ＡＢＣ１８００」．．．が表示
される。

【０１４５】表の縦軸、すなわち各行は、分類処理によ
り生成されたクラスタに対応する。各行の第１欄には、
分類処理終了時には既定値としてクラスタ番号を示す文
字列が入っている。表の横軸、すなわち各欄には、文書
群の項目「車種」に含まれる文字列が重複することなく
表示される。行「クラスタ１」の各セルには、クラスタ
１に分類された文書のうち、項目「車種」の値がその欄
の車種と一致するものの数が表示される。

【０１４６】ここで、数を表示する代わりに、セルの色
の濃淡や、セルを塗りつぶす面積により数の大きさを表
現するようにしてもよい。また、表の最右欄および最下
欄には、該当する行、欄の合計が表示される。

【０１４７】図１８において、クロス表１７００のある
セルにマウスポインタ１８００を移動させ、マウス２１
０のマウスボタンを押下する、あるいはキーボード２０
９のカーソルキー操作によりカーソルを移動させ、特定
キーを押下すると、そのセルの近傍に内容表示画面１８
０１が表示されることにより、該当する文書の項目「内
容」が表示される。

【０１４８】内容表示画面１８０１には、セル内のデー
タ数、表示項目、セル情報、および、各データにおける
表示項目の内容が表示される。マウスポインタ１８００
により指定されたセルにおいては、データ数：「４」、
表示項目：「内容」、セル情報：「ＡＢＣ２０００−ク
ラスタ１」、表示項目の内容として「内容」の４つの内
容である「排気が黒い、排気が黒い、．．．」が表示さ
れる。これにより、マウスポインタを所望のセルに移動
させてマウスボタンを押下するという簡易な操作によ
り、セルの内容を認識することができる。

【０１４９】また、内容表示画面１８０１に表示される
項目は、設定操作により変更することが可能であり、す
べての項目を表示させることもでき、また、項目を選択
して表示させることもできる。

【０１５０】各行の第１欄には、分類処理終了時には既
定値としてクラスタ番号を示す文字列が入っているが、
操作者により、この欄の書き換えをすることができる。
たとえば、上記の操作によってセルの内容を確認した
後、「クラスタ１」を「排気の問題」と書き換えること
ができる。これにより、情報内容の把握がより容易にな
る。

【０１５１】また、分類終了時に既定値としてクラスタ
番号を示す文字列を入れるのではなく、そのクラスタの
特徴を示す文字列を抽出し、セルに入れることも可能で
ある。たとえば、クラスタ１に含まれる文書の項目「内
容」から、もっとも頻度が高く出現する文や単語を抽出
することにより実現する。

【０１５２】図１８においては、クラスタ１には「排気
が黒い」あるいは「排気」等の単語が入れられる。この
ように、操作者は簡易な操作により文書全体の分布状態
を把握するだけでなく、必要に応じて個々の文書の内容
をも詳細に知ることができる。

【０１５３】つぎに、クロス表を作成するための出力部
４０６の詳細な構成の内容について説明する。図１９
は、実施の形態１による文書処理装置の出力部４０６の
詳細な構成を示すブロック図である。出力部４０６は、
グラフ描画部４０７のほかに、項目値選定部１９０１、
集計部１９０２とから構成され、集計部はさらに実際に
表示する内容に対応した記憶領域を持つ表保持部１９０
３を備えている。

【０１５４】項目値選定部１９０１は、操作者がクロス
表の一つの軸として指定した項目名（軸項目名）に対し
て、文書記憶部４０２に記憶された文書データから、項
目値を順次読み出し、重複のない項目値の集合を作成す
る。また、集計部１９０２は、表保持部１９０３の項目
値に対応する領域に数値を加算することにより文書の集
計をおこなう。

【０１５５】つぎに、クロス表の出力手順について説明
する。図２０は、実施の形態１による文書処理装置のク
ロス表の出力手順を示すフローチャートである。図２０
のフローチャートにおいて、まず、集計に先立ち、表保
持部１９０３の内容を初期化する（ステップＳ２００
１）。

【０１５６】つぎに、項目値設定部１９０１により作成
された項目値を、表の項目値ラベルに相当する部分に当
てはめ（ステップＳ２００２）、クラスタ番号を表す文
字列を、クラスタ番号に相当する部分に当てはめる（ス
テップＳ２００３）。

【０１５７】つぎに、加工処理結果保持部４０８に保持
された項目値に対応する文書ＩＤについて、文書記憶部
４０２に記憶された対応する文書を参照し、その軸項目
名に対応する項目値を決定する（ステップＳ２００
４）。その後、表保持部１９０３の対応する領域の内容
に１を加算する（ステップＳ２００５）。

【０１５８】すべての項目値について上記処理をおこな
ったか否かを判断し（ステップＳ２００６）、すべての
項目値について上記処理がおこなわれていない場合（ス
テップＳ２００６否定）は、ステップＳ２００４へ移行
し、ステップＳ２００４〜Ｓ２００６の処理を繰り返し
おこなう。

【０１５９】ステップＳ２００６において、すべての項
目値について上記処理がおこなわれた場合（ステップＳ
２００６肯定）は、最右列に表示するための行の合計を
計算し（ステップＳ２００７）、併せて、最下行に表示
するための欄の合計を計算する（ステップＳ２００
８）。

【０１６０】その後、表保持部１９０３に構成された表
を、順次読み出して出力し（ステップＳ２００９）、す
べての処理を終了する。

【０１６１】なお、加工処理部４０５から出力されたデ
ータを、文書記憶部４０２に送り、文書記憶部４０２に
他のデータとともに記憶するように構成してもよい。文
書記憶部４０２に記憶された加工処理部４０５から出力
されたデータは、出力部４０６によって表の新たな列と
して表示することができる。また、表の既存の列を消去
し、消去した列へ上書きするようにしてもよい。

【０１６２】この構成では、処理の結果である加工処理
部４０５から出力されたデータは、文書記憶部４０２に
おいて、今回の加工処理の対象とならなかった他のデー
タと対等に取り扱うことができ、その後の分析作業等
で、もともとの入力データに存在していたか、分析作業
の途中で加工処理によって生成されたのかを区別するこ
となく、加工処理の対象として選択することが可能であ
る。

【０１６３】したがって、データの性質や、おこないた
い情報分析作業の内容に応じて柔軟に加工処理対象と加
工処理内容を選択することができるので、多彩で高度な
情報分析作業が可能となる。

【０１６４】また、加工処理部４０５への入力データと
して、特徴抽出部４０４から出力されたデータだけでは
なく、選択部４０３により選択されたデータも含めるこ
とができる。これにより、文字列の特徴抽出を必要とし
ないデータや、加工処理結果の数値に対してもさらなる
加工処理を施すことができるので、より多彩で高度な情
報分析が可能となる。

【０１６５】図２１〜図２４は、実施の形態１による文
書処理装置の出力部４０６による画面表示の別の例を示
す説明図である。図２１において、「番号」、「受付
日」、「営業所」、「車種」、「年式」、「内容」の他
に、分類処理により得られた結果である「クラスタ番
号」２１０１が表示されている。

【０１６６】さらに、図２１においては、選択部４０３
により「クラスタ番号」２１０１が選択されており、
「クラスタ番号」２１０１に関するデータが反転表示さ
れている。選択された「クラスタ番号」２１０１をキー
として、加工処理部４０５により並べ替え処理をおこな
うよう指示をする。

【０１６７】並べ替え処理の指示により、並べ替え処理
がおこなわれた結果を表示しているのが図２２である。
図２２においては、「クラスタ番号」が「１」のものが
集まって表示されるように並べ替えられ、それに続き、
「クラスタ番号」が「２」のものが集まって表示される
ように並び替えられる。

【０１６８】具体的には、「クラスタ番号」が「１」で
ある「番号」が「２」、「１１」、「１５」、「２
３」、「３５」、「５４」、「６３」、「７３」、「８
２」の順で並べ替えられ、それに続き「クラスタ番号」
が「２」である「番号」が「１４」、「１８」、「２
２」、「２７」、「３７」、．．．が表示されているこ
とがわかる。

【０１６９】つぎに、項目「車種」の欄で、「クラスタ
番号」が「１」に属するものを選択する。図２３におい
ては、項目「車種」の欄で、「クラスタ番号」が「１」
に属するものが選択され、その選択領域２３０１が反転
表示されていることを示している。このように、すでに
「クラスタ番号」により並べ替えがおこなわれており、
同一クラスタに属するものが集まって表示されているの
で、画面上の連続した領域として容易に選択することが
できる。

【０１７０】つぎに、選択領域２３０１について車種別
の発生頻度の棒グラフを表示させたのが、図２４であ
る。図２４において、棒グラフ表示領域２４０１には、
選択領域２３０１によって選択された「クラスタ番号」
が「１」である９つの文書が選択され、その９つの文書
を車種別に棒グラフ化したものが表示される。

【０１７１】このように、加工処理の対象を柔軟かつ容
易に選択でき、選択された対象について多様な加工処理
をおこなうことができ、また、その加工処理結果も次回
の加工処理の対象とすることができるので、高度な情報
分析作業が可能となる。

【０１７２】このように、分類等の文字列の特徴量を抽
出して、その特徴量を用いておこなう加工処理を実施し
た後に多種の加工処理をおこなう例を示したが、事前に
多種の処理をおこなうことができるようにしてもよい。

【０１７３】たとえば、「車種」の項目を選択し、これ
をキーとして並べ替えをおこなった後、集まったある車
種、たとえば、「ＡＢＣ１６００」に対して分類処理を
おこなうこともできる。また、入力部４０１により入力
された文書が誤字等の誤りを含んでいる場合、分類等の
文字列の特徴量を抽出して、その特徴量を用いて加工処
理をおこなう前に、たとえば、文字列の検索・置換処理
をおこなって、誤字を一括して修正し、より好適な結果
が得られるようにデータを整えることもできる。

【０１７４】図２５は、実施の形態１による文書処理装
置の文書記憶部４０２の詳細な構成を示すブロック図で
ある。図２５において、文書記憶部４０２は、設定値記
憶部２５０１および設定値送受信部２５０２を含んでい
る。設定値記憶部２５０１には、文書を分類する際の分
類数等の分類情報記憶部２５０３をはじめとするさまざ
な設定値、すなわち文書処理装置の動作に必要な設定値
に関する情報を記憶する記憶部を備えている。これによ
り設定値に関する情報は、文書情報とともに記憶するこ
とができる。

【０１７５】また、設定値送受信部２５０２は、設定値
記憶部２５０１によって記憶された設定値に関する情報
を他の情報処理装置へ送信する。また、設定値送受信部
２５０２は、他の情報処理装置からの設定値に関する情
報を受信する。設定値送受信部２５０２により受信され
た設定値に関する情報は、設定値記憶部２５０１によっ
て記憶される。

【０１７６】記憶された設定値に関する情報は、後に文
書を再度読み込んだときに同時に読み込まれ設定値記憶
部２５０１に記憶される。この設定値に関する情報は操
作者が所定の操作をすることにより参照することができ
たり、以後の処理の際に、再利用することができる。こ
れにより、設定値に関する情報を文書とともに保存・管
理することが可能となるので、設定値に関する情報の紛
失を防ぎ、好適な設定値を後に再利用することができ
る。

【０１７７】図２６〜図２８は、実施の形態１による文
書処理装置の出力部４０６による画面表示の別の例を示
す説明図である。図２６において、まず、操作者が分類
をおこなうべき対象である「内容」を表示画面上で選択
する。それにより選択領域２６０１が反転表示される。
つぎに、メニュー・バー２６０３から、分類処理ボタン
２６０３を選択すると、分類処理に必要な分類数、すな
わち、対象をいくつに分類するかについての問い合わせ
画面２６０４が表示される。

【０１７８】操作者が問い合わせ画面２６０４において
分類数を入力すると、この分類数に関する情報が文書記
憶部４０２に記憶される。図２６においては、分類数と
して「５０」が入力されたことを示している。

【０１７９】その後、操作者が情報分析作業を完了し
て、メニュー・バー２６０３のファイルボタン２６０５
の選択によりポップアップする図示を省略する保存ボタ
ンを押下すると、文書記憶部４０２により、操作者が指
示したファイル名が付与され、文書の情報、分類結果と
ともに記憶される。

【０１８０】図２７において、分類結果を表示する欄２
７０１にマウスポインタ２７０２を移動させ、マウスボ
タンを押下すると、その分類をおこなうことに用いた分
類に関する情報および分類設定値に関する情報を表示す
る分類情報表示画面２７０３が表示される。これによ
り、用いた設定値の関連づけが容易に把握することがで
きる。

【０１８１】分類情報表示画面２７０３には、たとえ
ば、分類に関する情報として分類がおこなわれた日時に
関する情報を示す「分類日時」、分類の対象となった文
書数に関する情報を示す「分類対象数」等が表示され、
また、分類設定値に関する情報として、いくつに分類し
たかを示す「分類数」、どの品詞に基づいて分類をした
かを示す「分類品詞」等が表示される。

【０１８２】分類処理を実行するたびに新規な表が作成
される。図２８は、分類結果１を得た後、再度分類処理
がおこなわれ、分類結果２が表示された状態を示してい
る。分類結果１を再度表示させたい場合は、画面左下部
のラベル上の選択領域２８０１へマウスポインタを移動
させ、マウスボタンを押下する。これにより、分類結果
１が再度表示される。その後、分類結果２を再度表示さ
せる場合も同様の操作によりおこなうことができる。

【０１８３】また、図２８において、各分類処理の実行
に用いた設定値に関する情報が対応する表の所定の表示
領域２８０２に表示される。この表示領域２８０２は、
分類結果の表示を隠さないように表示させることがで
き、また、その表示位置を移動することもできる。これ
により、分類結果と、それに用いた設定値の関連づけが
容易に把握できる。

【０１８４】つぎに、実施の形態１における文書処理装
置の文書処理の一連の手順について説明する。図２９
は、実施の形態１による文書処理装置の文書処理の一連
の手順を示すフローチャートである。

【０１８５】図２９のフローチャートにおいて、まず、
文書データが文書処理装置に入力されたか否かを判断す
る（ステップＳ２９０１）。ここで、文書データが入力
されるのを待って、文書データが入力された場合（ステ
ップＳ２９０１肯定）は、入力された文書データを記憶
する（ステップＳ２９０２）。なお、ステップＳ２９０
１およびＳ２９０２の各ステップは、文書の入力がある
ごとに他のステップとは独自におこなわれるようにして
もよい。

【０１８６】つぎに、記憶された文書データの全部また
は一部が選択されたか否かを判断する（ステップＳ２９
０３）。ここで、文書データの全部または一部が選択さ
れるのを待って、選択された場合（ステップＳ２９０３
肯定）は、選択された文書データの全部または一部の文
字列の特徴に関するデータの抽出をおこなう（ステップ
Ｓ２９０４）。

【０１８７】その後、ステップＳ２９０４において、抽
出された文字列の特徴に関するデータに基づいて、分類
処理等、所定の加工処理をおこなう（ステップＳ２９０
５）。続いて、ステップＳ２９０５において加工処理が
おこなわれたデータを、表形式に展開する等の出力処理
をおこなう（ステップＳ２９０６）。

【０１８８】さらに、ステップＳ２９０５において加工
処理されてデータを元の文書データに関連づけして記憶
する（ステップＳ２９０７）。また、加工処理の設定値
等の加工処理の内容に関するデータも併せて記憶する
（ステップＳ２９０８）。

【０１８９】その後、ステップＳ２９０５において加工
処理されたデータの全部または一部が選択されたか否か
を判断し（ステップＳ２９０８）、選択されなかった場
合（ステップＳ２９０９否定）は、ステップＳ２９０４
へ移行し、以後、ステップＳ２９０４〜Ｓ２９０９の処
理を繰り返しおこなう。一方、ステップＳ２９０９にお
いて、加工処理されたデータの全部または一部が選択さ
れた場合（ステップＳ２９０９肯定）は、すべての処理
を終了する。

【０１９０】なお、実施の形態１で説明した文書処理方
法は、あらかじめ用意されたプログラムをパーソナルコ
ンピュータやワークステーション等のコンピュータで実
行することにより実現される。このプログラムは、ハー
ドディスク、フロッピーディスク、ＣＤ−ＲＯＭ、Ｍ
Ｏ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体
に記録され、コンピュータによって記録媒体から読み出
されることによって実行される。またこのプログラム
は、上記記録媒体を介して、または伝送媒体として、イ
ンターネット等のネットワークを介して配布することが
できる。

【０１９１】つぎに、実施の形態２〜６に係る情報分類
装置について説明する。なお、以下説明する実施の形態
２〜６においては、上記のように多くのノイズを含んだ
ものであるとの解釈に基づいて、一回の文書集合からの
話題（内容）抽出と位置づけ、文書分類のためのパラメ
ータ（対象文書集合やクラスタ数、類似度測度、ストッ
プワード等）を変化させながら複数化の分類を実行さ
せ、その結果を保持・統合する手段を設けることで、任
意の文書集合にどのような内容が含まれるかを漸次的に
収集するものである。

【０１９２】〔実施の形態２〕この発明の実施の形態２
に係る文書分類装置を構成する情報処理システムは、図
１に示したように実施の形態１の情報処理システムと同
様であるので、その説明は省略する。また、サーバー１
０１およびクライアント１０２のハードウエア構成につ
いても、図２・図３に示したように実施の形態１と同様
であるので、その説明は省略する。

【０１９３】つぎに、実施の形態２による文書分類装置
の機能的構成について説明する。図３０は、実施の形態
２による文書分類装置の構成を機能的に示すブロック図
である。

【０１９４】図３０のブロック図において、文書分類装
置は、入力部３００１と、言語解析部３００２と、ベク
トル生成部３００３と、分類部３００４と、分類パラメ
ータ指示部３００５と、分類結果記憶部３００６と、ク
ラスタ特徴表示部３００７と、クラスタ特徴算出部３０
０８と、分類体系記憶部３００９と、クラスタ選択指示
部３０１０と、分類体系閲覧操作部３０１１と、を含む
構成である。

【０１９５】入力部３００１、言語解析部３００２、ベ
クトル生成部３００３、分類部３００４、分類パラメー
タ指示部３００５、分類結果記憶部３００６、クラスタ
特徴表示部３００７、クラスタ特徴算出部３００８、分
類体系記憶部３００９、クラスタ選択指示部３０１０、
分類体系閲覧操作部３０１１は、ＲＯＭ２０２または３
０２、ＲＡＭ２０３または３０３、あるいはディスク装
置３０６またはハードディスク３１６等の記録媒体に記
録されたプログラムに記載された命令にしたがってＣＰ
Ｕ２０１または３０１等が命令処理を実行することによ
り、各部の機能を実現する。

【０１９６】ここで、入力部３００１は、文書データを
入力するものであり、たとえば、キーボード２０９また
は３１１、スキャナ３１３、ＯＣＲ機能を備えたスキャ
ナ３１３、またはネットワーク１０３を経由して文書や
文書群を得ることができるＩ／Ｆ２０４または３０９等
である。

【０１９７】また、入力部３００１は、上記以外に、文
書データを取得することができるものであれば、それら
のすべてを含む。たとえば、文書データがデータベース
化されている場合に、そのデータベースが記録された媒
体を本実施の形態の文書分類装置に組み入れた場合も文
書データの入力とする。

【０１９８】また、言語解析部３００２は、入力部３０
０１により入力された文書データを解析して言語解析情
報を得るものであり、ベクトル生成部３００３は、言語
解析部３００２により得られた言語解析情報に基づいて
前記文書データに対する文書特徴ベクトルを生成するも
のである。

【０１９９】また、分類部３００４は、ベクトル生成部
３００３により生成された文書特徴ベクトル間の類似度
に基づいて文書を分類し、文書の部分集合を生成するも
のであり、分類パラメータ指示部３００５は、分類パラ
メータを指示するものであり、たとえば、キーボード２
０９または３１１、マウス２１０または３１２、または
ネットワーク１０３を経由して指示情報を得ることがで
きるＩ／Ｆ２０４または３０９等である。

【０２００】また、分類結果記憶部３００６は、分類部
３００４により分類された結果、すなわち、分類された
文書の部分集合に関する情報を記憶するものである。ま
た、クラスタ特徴表示部３００７は、クラスタ特徴算出
部３００８により算出されたクラスタ特徴を表示する。

【０２０１】クラスタ特徴算出部３００８は、分類部３
００４により生成された文書の部分集合の特徴であるク
ラスタ特徴を算出するものである。また、分類体系記憶
部３００９は、クラスタ特徴算出部３００８により算出
されたクラスタ特徴を分類体系の構成要素として記憶す
るものである。また、分類体系記憶部３００９は、クラ
スタ選択指示部３０１０により選択された文書の部分集
合を分類体系の構成要素として記憶するものである。す
なわち、クラスタ選択指示部３０１０により選択された
クラスタに所属する全ての文書もしくは所属する文書の
一部を分類体系の構成要素として記憶するものである。

【０２０２】クラスタ選択指示部３０１０は、クラスタ
表示部３００７により表示された複数のクラスタ特徴の
中から所望のクラスタを選択するものである。また、ク
ラスタ選択指示部３０１０は、前記分類部３００４によ
り生成された文書の部分集合の中から所望の部分集合を
選択するものである。また、分類体系閲覧操作部３０１
１は、分類体系記憶部３００９に記憶されたデータを閲
覧したい場合に、その閲覧の操作をおこなうものであ
る。

【０２０３】つぎに、文書集合に含まれる話題（内容）
を抽出することが重要となる好適な例を、アンケート調
査等により得られた自由記述回答の分析場面を想定し、
その具体例を用いて説明する。

【０２０４】近年、たとえば、インターネット等を介し
て短期間に数千〜数万件の自由記述回答を回収すること
が可能であり、このような機能を用いて大量のテキスト
情報の収集をおこなうことができる。

【０２０５】アンケート調査により得られた大量のテキ
スト情報の収集の例として、「オフィスのネットワーク
化による無駄を挙げてください」という質問に対して文
書で答えた一つの回答記述を文書とすると、文書集合
（クラスタ）は１件ごとの回答の集合ということにな
る。

【０２０６】ここで、操作者（アンケートの分析者）
は、そのニーズの一つとして、意見集合（文書集合）に
どのような種類の意見（話題）が含まれており、意見の
概略を把握したい場合がある。このようなニーズを満た
すべく、話題の抽出を類似する意見のまとまり（分類）
により実現し、アンケート結果にどのような種類の意見
が含まれているかを抽出する。

【０２０７】文書分類は、典型的には大きく分けてつぎ
の３段階のステップから構成される。第１ステップで
は、入力部３００１により入力された各文書（意見）に
ついて、言語解析部３００２が、各文書に含まれる単語
（あるいは、特定の連続する文字列）を抽出する。この
際、たとえば、形態素形跡等の言語解析アルゴリズムが
用いられる。

【０２０８】第２ステップでは、抽出された単語を列と
し、各文書を行とし、要素を単語の出現頻度とした「単
語」×「文書」の行列が生成される。なお、一般的な形
態素解析機能と構文解析機能を有する言語解析ツールを
用いると単語抽出のほかに、単語の品詞情報、複合語
（フレーズ）、構文情報等の同時に取得することがで
き、こうした情報を上記単語×文書の行列を生成する
際、考慮することができる。

【０２０９】ベクトル生成部３００３は、この「単語」
×「文書」の行列に基づいて単語で構成される多次元空
間内に各文書をベクトル表現する。これには、以下の方
法があり、本実施の形態においては、すべての方法を実
装している。

【０２１０】（１）行列の列成分をそのまま利用する方
法、（２）各文書の長さ（文字の数やページ数等）や分
類対象全体の文書集合内での各単語の出現頻度を考慮し
て値の重み付けをする方法、（３）上記行列から文書間
の内積行列を算出し、これに特異値分解（たとえば、因
子分析や主成分分析、数量化理論第３類等を利用してお
こなわれる）を適用して潜在的意味空間を構成する方
法、等である。

【０２１１】また、「Ｒｅｐｒｅｓｅｎｔａｔｉｎｇ
ＤｏｃｕｍｅｎｔｓＵｓｉｎｇａｎＥｘｐｌｉｃｉ
ｔＭｏｄｅｌｏｆＴｈｅｉｒＳｉｍｉｌａｒｉ
ｔｉｅｓ（著者名：ＢｒｉａｎＴ．Ｂａｒｔｅｌ
ｌ，ＧａｒｒｉｓｏｎＷ．Ｃｏｔｔｒｅｌｌ，
ａｎｄＲｉｃｈａｒｄＫ．Ｂｅｌｅｗ，論文
名：ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎ
ＳｏｃｉｅｔｙｆｏｒＩｎｆｏｒｍａｔｉｏｎ
Ｓｃｉｅｎｃｅ，学会名：ｔｈｅＡｍｅｒｉｃａｎ
ＳｏｃｉｅｔｙｆｏｒＩｎｆｏｒｍａｔｉｏｎ
Ｓｃｉｅｎｃｅ，ページ：２５４−２７１，Ｖｏｌ．４
６Ｎｏ．４，発行年：１９９５）」においては、上
記潜在的意味空間への変換手法を一般化し、文書間の内
積行列に、文書が有するほかの文書への参照情報から生
成される共参照情報などを付加した行列を用いて、これ
らの類似性を反映する空間へ文書や単語を射影するため
の表現空間変換関数を導出しているものもあり、この方
法も利用することができる。

【０２１２】第３ステップでは、分類部３００４が、文
書特徴ベクトルの類似度を用いて文書を分類する。具体
的には分類対象データに対してカイ自乗法の手法、判別
分析の方法、クラスタリングの方法等を適用することに
より分類が実行される。

【０２１３】また、類似度としては、内積や余弦、ユー
クリッド距離、マハラノビスの距離等が考えられ、本実
施の形態においては、いずれの方法を用いてもよい。

【０２１４】また、クラスタリングのアルゴリズムに関
してもさまざまなものが公知になっている。クラスタリ
ングは、大別して階層型クラスタリングと非階層型クラ
スタリングが考えられるが、本実施の形態においては、
いずれの方法を用いてもよい。

【０２１５】また、分類パラメータ指示部３００５は、
分類部３００４が文書特徴ベクトルを分類するための分
類パラメータを指示する。分類部３００４は、分類パラ
メータ指示部３００５により指示された分類パラメータ
にしたがって内部に保持される文書特徴ベクトルを分類
する。

【０２１６】このようにして、第１ステップ〜第３ステ
ップの各処理を実行することにより第１回目の文書分類
が終了すると、分類結果は分類結果記憶部３００６によ
り保持される。

【０２１７】引き続き、クラスタ特徴算出部３００８
が、分類結果がどのようなクラスタを得ることができた
のかを示す特徴、すなわちクラス特徴を算出する。典型
的には各クラスタに所属する文書、あるいはその文書の
一部を算出するが、その際、クラスタの重心との類似度
に基づいて文書をソーティングして出力する。

【０２１８】そのほか、クラスタ内で最頻の単語、クラ
スタに所属する文書数、クラスタ内での文書のばらつき
の程度を表すクラスタ内の標準偏差のような数値をクラ
スタの特徴を表現するものとして算出する。

【０２１９】これらのクラスタの特徴情報は、操作者に
対して出力（表示）されたクラスタがどのようなもの
（どのような特徴を有するもの）かを把握させるために
算出されるものであり、操作者に対してクラスタの特徴
を示すものであれば、上記の内容（特徴）以外のもので
あってもよい。

【０２２０】また、クラスタ特徴算出部３００８は、上
記のようにクラスタの特徴を示すもの以外に、クラスタ
間の関係を示す情報も算出する。階層型クラスタリング
の場合は、その上位あるいは下位のクラスタを、非階層
型クラスタリングの場合は、クラスタ重心間の類似度に
基づく近接のクラスタを算出する。

【０２２１】つぎに、クラスタ特徴表示部３００７によ
るクラスタ特徴の表示およびクラスタ選択の内容につい
て説明する。図３１は、実施の形態２による文書分類装
置のクラスタ特徴表示部３００７の表示の一例を示す説
明図である。

【０２２２】図３１において、クラスタ単位で操作者が
できるようになっており、各クラスタは「クラスタＩ
Ｄ」欄３１０１、「メンバー数」欄３１０２、「頻度の
高い単語」欄３１０３、「文書内容」欄３１０４、「重
心との類似度」欄３１０５等の項目から構成される。

【０２２３】「クラスタＩＤ」欄３１０１には、クラス
タのＩＤを示す番号が通し番号で付与され、表示され
る。「メンバー数」欄３１０２はクラスタに所属する文
書あるいは文書の一部の数が算出され、表示される。そ
の中で頻度の高い単語が抽出され「頻度の高い単語」欄
３１０３に表示される。「文書内容」欄３１０４には文
書の内容が表示され、「重心との類似度」欄３１０５に
は、数値化された重心との類似度が表示される。これに
より、操作者の理解容易性が向上する。

【０２２４】操作者は、表示された情報（特徴量）に基
づいてクラスタについてその特徴を把握することができ
る。ここで、内容（特徴）が理解可能なクラスタが一つ
でもあれば、操作者はクラスタ選択指示部３０１０によ
りクラスタを選択することができる。

【０２２５】より具体的には、マウス２１０または３１
２等によって、表示されているクラスタの所定の位置、
たとえば、「クラスタＩＤ」欄３１０１へカーソル３１
１０を移動させ、その位置でクリックすることにより、
当該クラスタＩＤのクラスタ全体を選択することができ
る。なお、選択したクラスタに所属する文書は必ずすべ
てが選択されるわけではなく、その一部の文書が選択さ
れるようにしてもよい。

【０２２６】図３１においては、「クラスタＩＤ」欄３
１０１がクリックされ、これにより、クラスタ全体が反
転表示しており、当該クラスタ（クラスタＩＤ「１」）
が選択されたことを示している。

【０２２７】また、操作者は、内容が理解可能であるク
ラスタが存在しない場合は、分類パラメータ指示部３０
０５により分類パラメータの再設定をおこない、再度分
類実行をおこなうことができる。

【０２２８】クラスタ選択指示部３０１０により選択さ
れたクラスタＩＤに関するデータは分類体系記憶部３０
０９へ送信される。分類体系記憶部３００９は、このク
ラスタＩＤに関するデータに基づいてクラスタ特徴算出
部３００８からクラスタに関する上記特徴量を検索し記
憶する。

【０２２９】また、分類体系記憶部３００９は、同様
に、分類結果記憶部３００６から分類結果を検索し記憶
する。さらに、分類体系記憶部３００９は、操作者によ
り入力されたクラスタに関するコメント（たとえば、
「ネットワークの維持費が高い」等）の情報を併せて記
憶することもできる。このように、操作者が作成した情
報を分類体系の構成要素として記憶することにより、分
類体系の利用価値がより向上する。

【０２３０】なお、分類体系記憶部３００９により記憶
されたデータは、別途閲覧操作用のインターフェイスを
設けることにより、選択・保持するクラスタの内容の閲
覧や、クラスタ間の意味的な関連を手動であるいは、保
持されているクラスタ重心間の類似度等を用いて自動
で、構造化・体系化することができる。

【０２３１】つぎに、実施の形態２の文書分類装置の一
連の処理の手順について説明する。図３２は、実施の形
態２による文書分類装置の一連の処理の手順を示すフロ
ーチャートである。図３２のフローチャートにおいて、
まず、分類の対象となる文書が入力される（ステップＳ
３２０１）。

【０２３２】つぎに、入力された文書の言語が解析され
（ステップＳ３２０２）、解析された結果、すなわち、
抽出された単語に基づいて、文書特徴ベクトルが生成さ
れる（ステップＳ３２０３）。

【０２３３】その後、分類パラメータの指示があるのを
待って、分類パラメータの指示があった場合（ステップ
Ｓ３２０４肯定）は、指示があった分類パラメータにし
たがって文書を分類し（ステップＳ３２０５）、その結
果、すなわち、クラスタに関する情報を記憶する（ステ
ップＳ３２０６）。

【０２３４】つぎに、分類されたクラスタの特徴を算出
し（ステップＳ３２０７）、算出された結果を表示する
（ステップＳ３２０８）。表示されたクラスタの中か
ら、クラスタが選択されたか否かを判断し（ステップＳ
３２０９）、選択されなかった場合（ステップＳ３２０
９否定）は、ステップＳ３２０４へ移行し、再度分類パ
ラメータの指示があるのを待つ（ステップＳ３２０
４）。

【０２３５】一方、ステップＳ３２０９において、クラ
スタが選択された場合（ステップＳ３２０９肯定）は、
選択されたクラスタに関して分類体系を生成し、記憶す
る（ステップＳ３２１０）。この際、操作者により入力
されたクラスタに関する情報を併せて記憶することもで
きる。これにより、一連の処理を終了する。

【０２３６】以上説明したように、実施の形態２による
文書分類装置によれば、分類対象である文書群での文書
間の類似性に基づいて、各文書をそれら文書間の意味的
な関連性を反映しうる表現空間へ変換するための表現空
間変換関数を算出し、その表現空間で文書分類をおこな
うことにより、操作者の意図を反映しうる文書分類を実
現することができる。

【０２３７】したがって、分類部３００４によりクラス
タを得ることができるとともに、クラスタ特徴算出部３
００８・分類体系記憶部３００９により、クラスタ重心
間の類似度等を用いて、クラスタの内容に基づくクラス
タの構造化・体系化をおこなうことができる。

【０２３８】また、クラスタ選択指示部３０１０により
選択されたクラスタのみを用いて、より操作者の意図し
たものに近いクラスタの構造化・体系化をおこなうこと
ができる。

【０２３９】〔実施の形態３〕さて、上述した実施の形
態２に加えて、以下に説明する実施の形態３のように、
さらにベクトル記憶部と、ベクトル修正部とを含む構成
とするようにしてもよい。

【０２４０】実施の形態３による文書分類装置を構成す
る情報処理システムは、図１に示したように実施の形態
１と同様であるので、その説明は省略する。また、サー
バー１０１およびクライアント１０２のハードウエア構
成についても、図２・図３に示したように実施の形態１
と同様であるので、その説明は省略する。

【０２４１】つぎに、実施の形態３による文書分類装置
の機能的構成について説明する。図３３は、この発明の
実施の形態３による文書分類装置の構成を機能的に示す
ブロック図である。図３３において、実施の形態２の図
３０と同一のものに関しては同じ符号を付して、その説
明を省略する。

【０２４２】図３３のブロック図において、文書分類装
置は、入力部３００１、言語解析部３００２、ベクトル
生成部３００３、分類部３００４、分類パラメータ指示
部３００５、分類結果記憶部３００６、クラスタ特徴表
示部３００７、クラスタ特徴算出部３００８、分類体系
記憶部３００９、クラスタ選択指示部３０１０、分類体
系閲覧操作部３０１１のほか、ベクトル記憶部３３０１
と、ベクトル修正部３３０２とを含む構成である。

【０２４３】ベクトル記憶部３３０１は、ベクトル生成
部３００３により生成された文書特徴ベクトルを記憶す
るものである。また、ベクトル修正部３３０２は、文書
特徴ベクトル記憶部３３０１により記憶された文書特徴
ベクトルを、クラスタ選択指示部３０１０により選択さ
れた部分集合に属する文書の文書特徴ベクトルを除去し
たのこりとなるように修正するものである。

【０２４４】また、分類部３００４は、ベクトル修正部
３３０２により修正された文書特徴ベクトルに基づいて
文書を分類する。

【０２４５】なお、ベクトル記憶部３３０１、ベクトル
修正部３３０２は、ＲＯＭ２０２または３０２、ＲＡＭ
２０３または３０３、あるいはディスク装置３０６また
はハードディスク３１６等の記録媒体に記録されたプロ
グラムに記載された命令にしたがってＣＰＵ２０１また
は３０１等が命令処理を実行することにより、各部の機
能を実現する。

【０２４６】ベクトル生成部３００３において生成され
た文書特徴ベクトル（列ベクトル）・単語（単語特徴）
ベクトル（行ベクトル）はベクトル記憶部３３０１によ
って記憶される。これは、次回以降の分類実行の際に利
用する文書特徴ベクトルを確保するためである。

【０２４７】ベクトル修正部３３０２は、クラスタ選択
指示部３０１０により選択されたクラスタに所属する文
書のすべてあるいはその一部の文書を除き、次回以降も
これらの文書が除かれるよう削除する。削除された文書
特徴ベクトルはベクトル記憶部３３０１により記憶され
る。

【０２４８】この結果、ベクトル記憶部３３０１に記憶
されているベクトルデータのうち、選択されたクラスタ
に所属する文書（もしくは操作者に指定されたその一
部）列ベクトルを除いたものが、次回以降の分類が実行
される際に利用されるデータとなる。

【０２４９】つぎに、実施の形態３の文書分類装置の一
連の処理の手順について説明する。図３４は、実施の形
態３よる文書分類装置の一連の処理の手順を示すフロー
チャートである。図２のフローチャートにおいて、ま
ず、分類の対象となる文書が入力される（ステップＳ３
４０１）。

【０２５０】つぎに、入力された文書の言語が解析され
（ステップＳ３４０２）、解析された結果、すなわち、
抽出された単語に基づいて、文書特徴ベクトルが生成さ
れ（ステップＳ３４０３）、生成された文書特徴ベクト
ルが記憶される（ステップＳ３４０４）。

【０２５１】その後、分類パラメータの指示があるのを
待って、分類パラメータの指示があった場合（ステップ
Ｓ３４０５肯定）は、指示があった分類パラメータにし
たがって文書を分類し（ステップＳ３４０６）、その結
果、すなわち、クラスタに関する情報を記憶する（ステ
ップＳ３４０７）。

【０２５２】つぎに、分類されたクラスタの特徴を算出
し（ステップＳ３４０８）、算出された結果を表示する
（ステップＳ３４０９）。表示されたクラスタの中か
ら、クラスタが選択されたか否かを判断し（ステップＳ
３４１０）、選択されなかった場合（ステップＳ３４１
０否定）は、ステップＳ３４０５へ移行し、再度分類パ
ラメータの指示があるのを待つ（ステップＳ３４０
５）。

【０２５３】一方、ステップＳ３４１０において、クラ
スタが選択された場合（ステップＳ３４１０肯定）は、
選択されたクラスタに関して分類体系を生成し、記憶す
る（ステップ３４１１）。この際、操作者により入力さ
れたクラスタに関する情報を併せて記憶することもでき
る。その後、繰り返し処理をおこなう旨の指示があった
か否かを判断する（ステップＳ３４１２）。

【０２５４】ステップＳ３４１２において、繰り返して
処理をおこなう旨の指示があった場合（ステップＳ３４
１２肯定）は、選択されたクラスタに所属する文書のす
べてあるいはその一部の文書を除くように文書特徴ベク
トルを修正する（ステップＳ３４１３）。その後、ステ
ップＳ３４０５へ移行し、以後、ステップＳ３４０５〜
Ｓ３４１３の各処理を繰り返しおこなう。

【０２５５】一方、ステップＳ３４１２において、繰り
返して処理をおこなう旨の指示がない場合（ステップＳ
３４１２否定）は、これにより、一連の処理をすべて終
了する。

【０２５６】以上説明したように、実施の形態３による
文書分類装置によれば、ベクトル修正部３３０１によ
り、既知になったクラスタの影響を排除した新たなクラ
スタを生成することができる。

【０２５７】〔実施の形態４〕さて、上述した実施の形
態３においては、ベクトル記憶部およびベクトル修正部
とを含む構成であったが、以下に説明する実施の形態４
のように、ベクトル修正部に代わりに、文書表現空間修
正部を含む構成とするようにしてもよい。

【０２５８】実施の形態４による文書分類装置を構成す
る情報処理システムは、図１に示したように実施の形態
１と同様であるので、その説明は省略する。また、サー
バー１０１およびクライアント１０２のハードウエア構
成についても、図２・図３に示したように実施の形態１
と同様であるので、その説明は省略する。

【０２５９】つぎに、実施の形態４による文書分類装置
の機能的構成について説明する。図３５は、この発明の
実施の形態４による文書分類装置の構成を機能的に示す
ブロック図である。図３５において、実施の形態２の図
３０と同一のものに関しては同じ符号を付して、その説
明を省略する。

【０２６０】図３５のブロック図において、文書分類装
置は、入力部３００１、言語解析部３００２、ベクトル
生成部３００３、分類部３００４、分類パラメータ指示
部３００５、分類結果記憶部３００６、クラスタ特徴表
示部３００７、クラスタ特徴算出部３００８、分類体系
記憶部３００９、クラスタ選択指示部３０１０、分類体
系閲覧操作部３０１１のほか、ベクトル記憶部３５０１
と、文書表現空間修正部３５０２とを含む構成である。

【０２６１】ベクトル記憶部３５０１は、ベクトル生成
部３００３により生成された文書特徴ベクトルを記憶す
るものである。また、文書表現空間修正部３５０２は、
文書特徴ベクトル記憶部３５０１により記憶された文書
特徴ベクトル間の類似度を判断する際の文書表現空間を
前記クラスタ選択指示部３０１０により選択された部分
集合から算出する特徴量に基づいて修正するものであ
る。

【０２６２】また、分類部３００４は、文書表現空間修
正部３５０２により修正された文書表現空間を用いて、
ベクトル生成部３００３により生成された文書特徴ベク
トル間の類似度に基づいて文書を分類する。

【０２６３】なお、ベクトル記憶部３５０１、文書表現
空間修正部３５０２は、ＲＯＭ２０２または３０２、Ｒ
ＡＭ２０３または３０３、あるいはディスク装置３０６
またはハードディスク３１６等の記録媒体に記録された
プログラムに記載された命令にしたがってＣＰＵ２０１
または３０１等が命令処理を実行することにより、各部
の機能を実現する。

【０２６４】つぎに、文書表現空間修正部３５０２の内
容について説明する。実施の形態３におけるベクトル修
正部３３０２にあっては、既知になったクラスタの影響
を排除するために文書特徴ベクトルを除去するが、文書
特徴ベクトルを表現する多次元空間自体の変更はおこな
われない。

【０２６５】したがって、前回の分類実行の結果、操作
者により選択されたクラスタの形成特徴を次回の分類実
行の際に排除したい場合は、文書ベクトルを表現する空
間自体の変更が必要となる。

【０２６６】そこで、文書表現空間修正部３５０２を備
え、文書表現空間の修正をおこなうものである。ここ
で、文書表現空間の特徴次元を変更する例として、操作
者により選択されたクラスタの重心と類似度の高い特徴
次元の削除をおこなうことについて説明する。

【０２６７】操作者により選択されたクラスタの重心は
ベクトルとして表現することができるので、このクラス
タ重心ベクトルとベクトル記憶部３５０１に記憶されて
いる文書表現空間の各特徴次元との類似度を算出するこ
とにより、類似度の高い特徴次元を判別する。

【０２６８】なお、類似の測度としては、余弦、内積、
ユークリッド距離、マハラノビス距離等を用いる。ま
た、判別に関してはある類似度以上を削除対象として採
用するようなしきい値処理による判別や、類似度の高い
順にある一定数を削除対象として採用する定数処理によ
る判別を用いる。また、判別分析等も用いることができ
る。

【０２６９】文書表現空間修正部３５０２は、上述のよ
うな削除対象の特徴次元を算出して、特徴次元の削除を
おこなう。特徴次元の削除は、ベクトル記憶部３５０１
に記憶されている「特徴次元（単語）」×「文書」の行
列から判別された特徴次元について行ベクトルを削除す
ることによりおこなう。文書表現空間修正部３５０２に
より修正された文書ベクトルは、次回以降の分類のため
に、ベクトル記憶部３５０１に記憶される。

【０２７０】つぎに、実施の形態４の文書分類装置の一
連の処理の手順について説明する。図３６は、実施の形
態４よる文書分類装置の一連の処理の手順を示すフロー
チャートである。図３６のフローチャートにおいて、ま
ず、分類の対象となる文書が入力される（ステップＳ３
６０１）。

【０２７１】つぎに、入力された文書の言語が解析され
（ステップＳ３６０２）、解析された結果、すなわち、
抽出された単語に基づいて、文書特徴ベクトルが生成さ
れ（ステップＳ３６０３）、生成された文書特徴ベクト
ルが記憶される（ステップＳ３６０４）。

【０２７２】その後、分類パラメータの指示があるのを
待って、分類パラメータの指示があった場合（ステップ
Ｓ３６０５肯定）は、指示があった分類パラメータにし
たがって文書を分類し（ステップＳ３６０６）、その結
果、すなわち、クラスタに関する情報を記憶する（ステ
ップＳ３６０７）。

【０２７３】つぎに、分類されたクラスタの特徴を算出
し（ステップＳ３６０８）、算出された結果を表示する
（ステップＳ３６０９）。表示されたクラスタの中か
ら、クラスタが選択されたか否かを判断し（ステップＳ
３６１０）、選択されなかった場合（ステップＳ３６１
０否定）は、ステップＳ３６０５へ移行し、再度分類パ
ラメータの指示があるのを待つ（ステップＳ３６０
５）。

【０２７４】一方、ステップＳ３６１０において、クラ
スタが選択された場合（ステップＳ３６１０肯定）は、
選択されたクラスタに関して分類体系を生成し、記憶す
る（ステップ３６１１）。この際、操作者により入力さ
れたクラスタに関する情報を併せて記憶することもでき
る。その後、繰り返し処理をおこなう旨の指示があった
か否かを判断する（ステップＳ３６１２）。

【０２７５】ステップＳ３６１２において、繰り返して
処理をおこなう旨の指示があった場合（ステップＳ３６
１２肯定）は、「特徴次元（単語）」×「文書」の行列
から判別された特徴次元について行ベクトルを削除する
ことにより文書表現空間を修正する（ステップＳ３６１
３）。その後、ステップＳ３６０５へ移行し、以後、ス
テップＳ３６０５〜Ｓ３６１３の各処理を繰り返しおこ
なう。

【０２７６】一方、ステップＳ３６１２において、繰り
返して処理をおこなう旨の指示がなかった場合（ステッ
プＳ３６１２否定）は、これにより、一連の処理を終了
する。

【０２７７】以上説明したように、実施の形態４による
文書分類装置によれば、前回の分類実行の結果、文書表
現空間修正部３５０２により操作者に選択されたクラス
タの形成特徴を次回の分類実行時に排除することがで
き、排除した状態で新たなクラスタを生成することがで
きる。

【０２７８】〔実施の形態５〕さて、上述した実施の形
態３または実施の形態４においては、ベクトル修正部ま
たは文書表現空間修正部のいずれか一方のみを含む構成
であったが、以下に説明する実施の形態５のように、ベ
クトル修正部および文書表現空間修正部の両方を含む構
成とするようにしてもよい。

【０２７９】実施の形態５による文書分類装置を構成す
る情報処理システムは、図１に示したように実施の形態
１と同様であるので、その説明は省略する。また、サー
バー１０１およびクライアント１０２のハードウエア構
成についても、図２・図３に示したように実施の形態１
と同様であるので、その説明は省略する。

【０２８０】つぎに、実施の形態５による文書分類装置
の機能的構成について説明する。図３７は、この発明の
実施の形態５による文書分類装置の構成を機能的に示す
ブロック図である。図３７において、実施の形態２の図
３０と同一のものに関しては同じ符号を付して、その説
明を省略する。

【０２８１】図３７のブロック図において、文書分類装
置は、入力部３００１、言語解析部３００２、ベクトル
生成部３００３、分類部３００４、分類パラメータ指示
部３００５、分類結果記憶部３００６、クラスタ特徴表
示部３００７、クラスタ特徴算出部３００８、分類体系
記憶部３００９、クラスタ選択指示部３０１０、分類体
系閲覧操作部３０１１のほか、ベクトル記憶部３７０１
と、ベクトル修正部３７０２と、文書表現空間修正部３
７０３とを含む構成である。

【０２８２】ベクトル記憶部３７０１は、ベクトル生成
部３００３により生成された文書特徴ベクトルを記憶す
るものである。また、ベクトル修正部３７０２は、文書
特徴ベクトル記憶部３７０１により記憶された文書特徴
ベクトルを分類部３００４により生成された文書の部分
集合の文書特徴ベクトルを除去したのこりの文書特徴ベ
クトルとなるように修正するものである。

【０２８３】また、文書表現空間修正部３７０３は、ベ
クトル記憶部３７０１により記憶された文書特徴ベクト
ル間の類似度を判断する際の文書表現空間を前記クラス
タ選択指示部３０１０により選択されたクラスタ特徴に
基づいて修正するものである。

【０２８４】また、分類部３００４は、文書表現空間修
正部３７０３により修正された文書表現空間を用いて、
ベクトル修正部３７０２により修正された文書特徴ベク
トル間の類似度に基づいて文書を分類する。

【０２８５】なお、ベクトル記憶部３７０１、ベクトル
修正部３７０２、文書表現空間修正部３７０３は、ＲＯ
Ｍ２０２または３０２、ＲＡＭ２０３または３０３、あ
るいはディスク装置３０６またはハードディスク３１６
等の記録媒体に記録されたプログラムに記載された命令
にしたがってＣＰＵ２０１または３０１等が命令処理を
実行することにより、各部の機能を実現する。

【０２８６】つぎに、ベクトル修正部３７０２および文
書表現空間修正部３７０３の内容について説明する。実
施の形態４においては、選択されたクラスタに所属する
文書は次回以降の分類実行の際にも使用される。

【０２８７】実施の形態５では、ベクトル修正部３７０
２および文書表現空間修正部３７０３の両方を具備する
ことにより、選択されたクラスタに所属する文書を次回
の分類実行の際に除去し、次回の分類実行の際には分類
対象文書としないようにする。

【０２８８】実施の形態４においては、話題抽出の側面
を強調し、ある文書が複数の話題として分類される可能
性を前提としており、たとえば、ネットワーク化に関す
る調査における「エンドユーザーがソフトウエアのイン
ストール方法について聞いてくるのでシステム管理者と
しての仕事ができない」という回答について言えば、こ
の意見は「ソフトウエアの操作方法理解に関する困難
性」という話題として分類され得るし、「システム管理
者の仕事の多忙さ」という話題で分類される可能性もあ
る。

【０２８９】実施の形態４においては、いずれにして
も、「ソフトウエアの操作方法理解に関する困難性」と
いうクラスタと「システム管理者の仕事の多忙さ」とい
うクラスタの両方とも抽出したいというニーズに応えて
いる。

【０２９０】これとは反対に、操作者は、一度抽出した
話題は既知であるので、次回の分類の際はなるべく異な
る分類結果が欲しいとするケースも考えられる。実施の
形態５では、このような要求に応えるため、ベクトル修
正部３７０２により、ｎ回目の分類で選択されたクラス
タに所属する文書のすべてまたはその一部を次回以降の
分類を実行する際、分類対象から除去するものである。

【０２９１】クラスタ選択指示部３０１０により選択指
示を受けたクラスタの所属文書はベクトル記憶部３７０
１において列ベクトルの形式で記憶されているため、ベ
クトル修正部３７０２では劣ベクトルを除去すること
で、次回以降の分類実行用の分類対象文書集合を生成す
る。

【０２９２】さらに、実施の形態４と同様に、選択され
たクラスタにより文書表現空間修正部３７０３は、ベク
トル記憶部３７０１に記憶されている行列から特徴次元
を削除する。

【０２９３】つぎに、実施の形態５の文書分類装置の一
連の処理の手順について説明する。図３８は、実施の形
態５よる文書分類装置の一連の処理の手順を示すフロー
チャートである。図３８のフローチャートにおいて、ま
ず、分類の対象となる文書が入力される（ステップＳ３
８０１）。

【０２９４】つぎに、入力された文書の言語が解析され
（ステップＳ３８０２）、解析された結果、すなわち、
抽出された単語に基づいて、文書特徴ベクトルが生成さ
れ（ステップＳ３８０３）、生成された文書特徴ベクト
ルが記憶される（ステップＳ３８０４）。

【０２９５】その後、分類パラメータの指示があるのを
待って、分類パラメータの指示があった場合（ステップ
Ｓ３８０５肯定）は、指示があった分類パラメータにし
たがって文書を分類し（ステップＳ３８０６）、その結
果、すなわち、クラスタに関する情報を記憶する（ステ
ップＳ３８０７）。

【０２９６】つぎに、分類されたクラスタの特徴を算出
し（ステップＳ３８０８）、算出された結果を表示する
（ステップＳ３８０９）。表示されたクラスタの中か
ら、クラスタが選択されたか否かを判断し（ステップＳ
３８１０）、選択されなかった場合（ステップＳ３８１
０否定）は、ステップＳ３８０５へ移行し、再度分類パ
ラメータの指示があるのを待つ（ステップＳ３８０
５）。

【０２９７】一方、ステップＳ３８１０において、クラ
スタが選択された場合（ステップＳ３８１０肯定）は、
選択されたクラスタに関して分類体系を生成し、記憶す
る（ステップ３８１１）。この際、操作者により入力さ
れたクラスタに関する情報を併せて記憶することもでき
る。その後、繰り返し処理をおこなう旨の指示があった
か否かを判断する（ステップＳ３８１２）。

【０２９８】ステップＳ３８１２において、繰り返して
処理をおこなう旨の指示があった場合（ステップＳ３８
１２肯定）は、選択されたクラスタに所属する文書のす
べてあるいはその一部の文書を除くように文書特徴ベク
トルを修正する（ステップＳ３８１３）。

【０２９９】ステップＳ３８１３に引き続き、「特徴次
元（単語）」×「文書」の行列から判別された特徴次元
について行ベクトルを削除することにより文書表現空間
を修正する（ステップＳ３８１４）。その後、ステップ
Ｓ３８０５へ移行し、以後、ステップＳ３８０５〜Ｓ３
８１４を繰り返しおこなう。

【０３００】一方、ステップＳ３８１２において、繰り
返して処理をおこなう旨に指示がない場合（ステップＳ
３８１２否定）は、これにより、一連の処理をすべて終
了する。

【０３０１】以上説明したように、実施の形態５よる文
書分類装置によれば、ベクトル修正部３７０２が、既知
になったクラスタの影響を排除し、かつ、文書表現空間
修正部３７０３が、前回の分類実行の結果、操作者に選
択されたクラスタの形成特徴を次回の分類実行時に排除
することができ、排除した状態で新たなクラスタを生成
することができる。

【０３０２】〔実施の形態６〕さて、上述した実施の形
態２または実施の形態４においては、繰り返し分類処理
をおこなった場合に、ある文書が何度選択されたかその
情報については考慮していなかったが以下に説明する実
施の形態６のように、選択情報付与部を含む構成とし、
選択情報をクラスタ特徴とともに表示するようにしても
よい。

【０３０３】実施の形態６による文書分類装置を構成す
る情報処理システムは、図１に示したように実施の形態
１と同様であるので、その説明は省略する。また、サー
バー１０１およびクライアント１０２のハードウエア構
成についても、図２・図３に示したように実施の形態１
と同様であるので、その説明は省略する。

【０３０４】つぎに、実施の形態６による文書分類装置
の機能的構成について説明する。図３９は、この発明の
実施の形態６による文書分類装置の構成を機能的に示す
ブロック図である。図３９において、実施の形態４の図
３５と同一のものに関しては同じ符号を付して、その説
明を省略する。

【０３０５】図３９のブロック図において、文書分類装
置は、入力部３００１、言語解析部３００２、ベクトル
生成部３００３、分類部３００４、分類パラメータ指示
部３００５、分類結果記憶部３００６、クラスタ特徴表
示部３００７、クラスタ特徴算出部３００８、分類体系
記憶部３００９、クラスタ選択指示部３０１０、分類体
系閲覧操作部３０１１、ベクトル記憶部３５０１、文書
表現空間修正部３５０２のほか、選択情報付与部３９０
１を含む構成である。

【０３０６】選択情報付与部３９０１は、分類部３００
４により生成された文書の部分集合に所属する文書のす
べてあるいは一部が選択された場合に選択されたことを
示す選択情報を付与する。また、クラスタ特徴表示部３
００７は、クラスタ特徴を表示するとともに、選択情報
付与部３９０１により付与された選択情報を表示する。

【０３０７】なお、選択情報付与部３９０１は、ＲＯＭ
２０２または３０２、ＲＡＭ２０３または３０３、ある
いはディスク装置３０６またはハードディスク３１６等
の記録媒体に記録されたプログラムに記載された命令に
したがってＣＰＵ２０１または３０１等が命令処理を実
行することにより、機能を実現する。

【０３０８】つぎに、選択情報付与部３９０１の詳細な
内容について説明する。アンケートの調査の例におい
て、独自性の高いユニークな意見は貴重であることが経
験的に知られている。これは、調査を企画する担当者が
予想できなかった意見である場合が多いからである。

【０３０９】そこで、操作者に選択されたクラスタに所
属する文書を、次回以降の分類実行の際に使用する場合
において、クラスタ特徴表示部３００７で個々の文書を
表示する際に、各文書が何回選択されたかを示すこと
で、多重に利用される文書の識別性を向上させ、かつ一
度も選択されない文書の識別性も向上させることができ
る。

【０３１０】図４０は、実施の形態６による文書分類装
置の分類結果記憶部３００６において設けられたテーブ
ル４０００を示す説明図である。図４０において、文書
ＩＤごとにテーブル化されており、テーブル４０００
は、各文書がどのサイクルに分類実行の際に操作者に選
択されたかを記録する。すなわち、選択された場合は選
択情報として「１」を記録し、選択されなかった場合は
選択情報として「０」を記録する。

【０３１１】たとえば、４回分類が実行された際、文書
ＩＤの「１」、第１回目および第２回目の分類実行時に
操作者に選択されたことを示し、第３回目、第４回目の
分類実行時には選択されなかったことを示している。一
方、文書ＩＤの「２」は、未だ一度も選択されておら
ず、操作者にとって未知の意見という可能性を示唆して
いる。

【０３１２】こうした情報に基づいて、クラスタ特徴表
示部３００７が文書を操作者に表示する際、たとえば、
選択された回数に応じて表示を変化させるようにすると
よい。変化させる視覚的特性としては、たとえば文字や
背景の色の濃度や彩度等が考えられる。

【０３１３】また、直接的に数字やグラフ等で選択され
た回数を表現することもできる。いずれにしてもよ選択
される文書と一度も選択されていない文書とを視覚的に
識別できる表示形式であれば、上記のものに限らない。

【０３１４】また、上記選択情報を分類体系閲覧操作部
３０１１の閲覧操作により閲覧できるようにしてもよ
い。

【０３１５】つぎに、選択情報付与部３９０１の処理の
内容について説明する。図４１は、実施の形態６による
文書分類装置の選択情報付与部３９０１の処理の手順を
示すフローチャートである。図４１のフローチャートに
おいて、まず、分類処理がおこなわれ（ステップＳ４１
０１）、それに引き続き、最初の文書が抽出される（ス
テップＳ４１０２）。

【０３１６】抽出された文書が、ステップＳ４１０１に
おける分類処理の際に選択されたか否かを判断する（ス
テップＳ４１０３）。ここで、選択された場合（ステッ
プＳ４１０３肯定）は、選択情報としてデータ「１」を
記録する（ステップＳ４１０４）。一方、選択されなか
った場合（ステップＳ４１０３否定）は、選択情報とし
てデータ「０」を記録する（ステップＳ４１０５）。

【０３１７】つぎに、すべての文書について処理が終了
したか否かを判断する（ステップＳ４１０６）。ここ
で、すべての文書について処理が終了していない場合
（ステップＳ４１０６否定）は、つぎに文書を抽出し
（ステップＳ４１０７）、ステップＳ４１０３へ移行
し、以後、ステップＳ４１０３〜Ｓ４１０７を繰り返し
おこなう。

【０３１８】一方、ステップＳ４１０６において、すべ
ての文書について処理が終了した場合（ステップＳ４１
０６肯定）は、ステップＳ４１０１へ移行し、再度分類
処理がおこなわれる（ステップＳ４１０１）。このよう
にして、分類処理がおこなわれる回数だけ、ステップＳ
４１０１〜Ｓ４１０７の各処理が繰り返しおこなわれ
る。

【０３１９】以上説明したように、実施の形態６によれ
ば、選択情報付与部３９０１が選択情報を付与し、その
選択情報をクラスタ特徴表示部３００７が表示するの
で、多重に利用される文書の識別性および一度も選択さ
れない文書の識別性を向上させることができる。

【０３２０】なお、実施の形態２〜５で説明した文書分
類方法は、あらかじめ用意されたプログラムをパーソナ
ルコンピュータやワークステーション等のコンピュータ
で実行することにより実現される。このプログラムは、
ハードディスク、フロッピーディスク、ＣＤ−ＲＯＭ、
ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒
体に記録され、コンピュータによって記録媒体から読み
出されることによって実行される。またこのプログラム
は、上記記録媒体を介して、または伝送媒体として、イ
ンターネット等のネットワークを介して配布することが
できる。

【０３２１】つぎに、実施の形態７〜１６に係る情報分
類装置について説明する。本発明の実施の形態では、自
然言語で記述された一つ以上の文の集まりであり、かつ
その一つ以上の文の集まりが分類される対象である場
合、それを文書と言う。具体的な例をあげれば、ＩＰＣ
分類等により分類される公開特許公報や、政治・経済・
文化・科学技術等の特定分野に分類される新聞記事も文
書であるし、それらから請求項や特定の一文を取り出し
たものであっても、請求項という分類に含まれる文であ
るか、用途等により分類可能な特定の一文であれば文書
とみなす。以下、図面によりこの発明の実施の形態７〜
１６を詳細に説明する。

【０３２２】〔実施の形態７〕図４２はこの発明の実施
の形態７を示す文書分類装置の構成ブロック図である。
図４２に示したように、実施の形態７の文書分類装置
は、文書データ群を入力する文書入力部（文書入力手
段）５００１、それぞれの文書データを所定の基準に基
づいて一つまたは複数の分割文書データに分割する文書
分割部（文書分割手段）５００２、上記文書データと分
割文書データとを対応付けるマップを生成する文書−分
割文書対応マップ生成部（文書−分割文書対応マップ生
成手段）５００３を備えている。

【０３２３】また、上記文書分類装置は、分割文書デー
タつまり分割された文書を分類する分割文書分類部（分
割文書分類手段）５００４、分割文書分類結果情報を生
成する分割文書分類結果生成部（分割文書分類結果生成
手段）５００５、上記文書−分割文書対応マップと上記
分割文書分類結果情報とを用いて上記文書データの分類
結果情報を生成する文書分類結果生成部（文書分類結果
生成手段）５００６などを備えている。

【０３２４】なお、上記文書分割部５００２、文書−分
割文書対応マップ生成部５００３、分割文書分類部５０
０４、分割文書分類結果生成部５００５、文書分類結果
生成部５００６は共有または独自のプログラム記憶用メ
モリおよびプログラムにしたがって動作するＣＰＵを有
している。

【０３２５】以下、図４２などにしたがって、実施の形
態７の文書分類装置、文書分類方法を詳細に説明する。
まず、文書入力部５００１により、文書群が入力され
る。上記文書入力部５００１はキーボード、ＯＣＲ装
置、着脱型記録媒体、またはネットワーク通信手段を備
え、それらのいずれか一つを介して文書データ群を入力
するのである。

【０３２６】そして、文書分割部５００２が上記文書デ
ータ群を取得し、それぞれの文書データを所定の基準に
基づいて分割し、一つの文書データから一つまたは複数
の分割文書データを生成する。なお、文書データを分割
する方法としては、文書の構造情報や文書を構成する要
素情報を用いたり、利用者が指定する方法などを用いる
が、ここでは、その方法は問わないこととする。

【０３２７】図４３に、この文書分類装置／文書分類方
法でおこなわれる、文書データから複数の分割文書デー
タを生成する一例を示す。この例に示した文書１には複
数のニューストピックが記述されており、１日分のトピ
ックが文書単位となっている。図示したように、この文
書ではそれぞれのニューストピックが二つの改行コード
により分離されているので、この規則を用いて一つの文
書である文書１を分割し、一つが一つのトピックにより
形成される分割文書１−１〜１−７の７つの分割文書デ
ータを生成する。なお、分割前の文書１も分割文書デー
タとして含めることもできるが、ここでは含めないこと
にする。

【０３２８】文書が分割されると、文書−分割文書対応
マップ生成部５００３が分割前の文書データとその文書
データから生成された分割文書データとを対応付けるマ
ップを生成する。たとえば、個々の文書データを一意に
示す識別子と個々の分割文書データを一意に示す識別子
とから構成されるマップ、あるいは文書データごとに分
割文書データを一意に示す識別子からなるマップを生成
するのである。なお、文書データと分割文書データを対
応付ける方法についてはここでは問わないこととする。

【０３２９】図４４に、文書−分割文書対応マップを生
成する一例を示す。図４４において、文書１〜文書３は
文書データを示し、分割文書１〜分割文書１２は分割文
書データを示している。図示のように、それぞれの文書
データおよび分割文書データにそれぞれを一意に識別す
ることかできる識別番号（識別子）を付与し、上記文書
データの識別番号と分割文書データの識別番号とを図４
４の左下に示したテーブル形式で対応づけている。な
お、任意の複数の分割文書データが文書分類にて用いら
れる基準において同一とみなすことができる場合は、そ
れらの識別番号を同一にしてもよい。

【０３３０】続いて、分割文書分類部５００４が上記分
割文書を対象に文書分類をおこなう。個々の分割文書に
対して、たとえば、言語処理を施し、文書中に含まれて
いるそれぞれの単語の出現頻度を計数し、それに基づい
てそれぞれの文書の特徴を計量的に表す特徴ベクトルを
求め、それらの特徴ベクトルに対してカイ自乗法、判別
分析手法、またはクラスタ分析手法などを適用すること
により文書分類をおこなう。

【０３３１】つぎに、図４５に示すように、分割文書分
類結果生成部５００５が上記の分割文書分類の結果に基
づいた分割文書分類結果情報を生成する。

【０３３２】ここで、分割文書分類結果情報とは、たと
えば、各分割文書データの所属カテゴリに関する情報
（たとえば、図４５に示した「分割文書データを３つの
カテゴリに分類した結果」という表中の「分類カテゴ
リ」および「所属カテゴリの代表値との距離」の項の情
報）、生成された所属カテゴリ個々に関する情報（たと
えば、図４５に示した「分類カテゴリに関する情報」と
いう表中の「代表値」および「所属データ数（分割文書
数）」の項の情報）、生成された所属カテゴリ間の情報
（たとえば図４５に示した「分類カテゴリ間の距離」と
いう表の中の情報）などである。なお、利用者は上記の
ような種々の情報を分類結果分析の際の基礎データとし
て利用することができる。

【０３３３】図４５は、１２個の分割文書データをそれ
らの有する計量的特徴ベクトルを用いて３つのカテゴリ
に分類した場合の分類結果の生成例である。分割文書デ
ータの有する計量的な３次元ベクトル（ベクトルの成分
数は分類対象文書群に生起するすべての単語の種類数に
なるが、ここでは、いくつかの単語が縮退した３次元ベ
クトルに線形変換している）に対してたとえばクラスタ
分析手法の一つであるＷａｒｄ法などを適用することで
３つのカテゴリに分類することができる。

【０３３４】つまり、各分割文書データは図示したよう
に３つのカテゴリのうちのいずれか一つに属する。な
お、所属カテゴリの代表値とは、所属分割文書データの
特徴ベクトルの平均値（所属分割文書データの重心）で
ある。

【０３３５】また、所属カテゴリの代表値との距離（類
似度に対応する）は、たとえば、図４５の分割文書３に
ついては、分割文書データ特徴ベクトルの項における分
割文書３の値と、分割文書３の分類カテゴリであるカテ
ゴリ２の代表値（所属分割文書データの重心）の項の値
により、以下の数式から求めることができる。

【０３３６】（（３．００−２．６６）²＋（２．００
−２．００）²÷（４．００−３．６６）²）^1/2＝０．
４８上記の所属カテゴリの代表値との距離が小さいほど、そ
のカテゴリに属する平均的分割文書との類似度が高いと
いうことになる。

【０３３７】なお、分割文書分類結果情報としては、図
４５に示した以外にも、カテゴリ内分散やカテゴリ間分
散、各カテゴリにおける類似度のレンジなどさまざまな
統計量を生成することかできる。

【０３３８】続いて、文書分類結果生成部５００６が上
記文書−分割文書対応マップと上記分割文書分類結果情
報とを用いて、たとえば図４６に示すような、上記文書
データの分類結果情報を生成する。図４６の例では、図
示したように、各分類カテゴリごとに、所属する分割文
書データ、その類似度（所属カテゴリの代表値との距
離）、分割文書データの属する分割前文書データ（所属
文書）、文書占有率（分割文書データの当該カテゴリに
所属する割合）、分割文書データの所属文書における相
対位置（順序）、所属カテゴリ内での当該分割文書デー
タの類似度の順位などを生成している。

【０３３９】なお、上記において、所属文書は文書−分
割文書対応マップから、それ以外の分類結果情報は分割
文書分類結果情報から得ている。文書分類結果生成部５
００６は図４６に示した情報以外にも、各カテゴリ内で
の分散、分割文書データの所属カテゴリ内での偏差値な
どさまざまな統計量、文書データや分割文書データの内
容などを分類結果情報として利用することもできる。

【０３４０】また、上記においては、すべての結果を分
割文書データを単位とした表形式で表現しているが、分
類カテゴリや文書データを単位として表現することもで
きる。また、分類結果情報をテキスト表現にするだけで
なく、グラフィカルな表現にして、利用者が理解しやす
いようにすることも可能である。

【０３４１】こうして、本実施の形態によれば、一つの
文書が分割され、分割文書が分類され、分割前文書と上
記分割文書との対応が利用者に示され、上記分割文書の
分類結果が利用者に示されるので、一つの文書の中に複
数の話題や意味が含まれている場合に、ある特定の話題
や意味に限定されたカテゴリに分類されたり、利用者の
意図するカテゴリとは異なるカテゴリに分類されたりす
ることがなく、したがって、利用者がその分類カテゴリ
をよく理解できる。また、分割前文書（所属文書）中の
分割文書の位置なども示されるので、利用者は文書群中
の読みたい部分を効率的に読むことができる。

【０３４２】〔実施の形態８〕図４７は本発明の実施の
形態８に係る文書分類装置の構成ブロック図である。図
示したように、実施の形態８の文書分類装置は、図４２
に示した実施の形態７の構成に加え、文書データを保存
する文書保存部（文書保存手段）５００７、分割文書デ
ータを保存する分割文書保存部（分割文書保存手段）５
００８、文書−分割文書対応マップ生成部５００３によ
り生成された文書−分割文書対応マップを保存する文書
−分割文書対応マップ保存部（文書−分割文書対応マッ
プ保存手段）５００９を備えている。なお、上記各保存
部はたとえば共有のハードディスクや半導体メモリなど
により構成される。

【０３４３】上記した構成により、本実施の形態の文書
保存部５００７は、文書データの内容や、文書の作成
者、作成日、最終修正日などの文書データに付随する情
報を適切な形式で保存する。また、文書データが文書内
容とともにその要素からなる計量的な特徴ベクトルを持
つ場合にはこれらも保存する。文書入力部５００１に
て、個々の文書データにそれらを一意に表す識別子が付
与される場合にはこの識別子も適切な形式で保存するこ
とができる。

【０３４４】また、分割文書保存部５００８は、文書分
割部５００２により生成される分割文書データの内容を
適切な形式で保存するとともに、計量的な特徴ベクトル
を持つ場合にはこれらも保存する。個々の上記分割文書
データにそれらを一意に表す識別子が付与される場合に
はこの識別子も適切な形式で保存することができる。

【０３４５】また、文書−分割文書対応マップ保存部５
００９は、文書−分割文書対応マップ生成部５００３に
より生成される文書−分割文書対応マップを適切な形式
で保存する。

【０３４６】このように、実施の形態８によれば、文書
データ、分割文書データ、および文書−分割文書対応マ
ップが保存されるので、分割文書データおよび文書−分
割文書対応マップを再生成することなしに、同一の文書
データに対して、分類数、分類手法、または分類時の諸
設定などパラメータの異なる分類結果を効率的に求める
ことができる。また、文書データを分類し、分類結果を
生成するために必要なデータが保存されることにより、
利用者は、分類作業に対して時間的な自由度を持つこと
ができ、過去に行った文書分類の再分析を任意の時間に
おこなうこともできる。

【０３４７】〔実施の形態９〕図４８は本発明の実施の
形態９を示す文書分類装置の構成ブロック図である。図
４８に示したように、本実施の形態の文書分類装置は、
図４７に示した実施の形態８の構成に加え、分割文書分
類結果生成部５００５により生成された分割文書分類結
果情報を保有する分割文書分類結果保存部（分割文書分
類結果保存手段）５０１０を備えている。なお、上記分
割文書分類結果保存部５０１０は、たとえば、共有のハ
ードディスクや半導体メモリなどにより構成される。

【０３４８】このように、第３の実施の形態によれば、
文書データ、分割文書データ、文書−分割文書対応マッ
プ、および、分割文書分類結果情報が保存されるので、
実施の形態８の効果に加え、一度分類を実行すれば、そ
の分類結果をテキスト表現や表表現やグラフ表現などさ
まざまな形式で表現することかできる。また、分割文書
分類結果情報が保存されることにより、分類の実行作業
および分類結果の分析作業において、利用者は、時間的
な自由度を持つことができ、過去に行った文書分類結果
の再分析をさまざまな表現形式で任意の時間におこなう
こともできる。

【０３４９】〔実施の形態１０〕この発明の実施の形態
１０では、前記各実施の形態の文書分類装置、文書分類
方法において、図４９に示すように、文書分割部５００
２により生成される複数の分割文書データ中に分割前の
文書データである文書１を含む。これにより、本実施の
形態では、利用者は、分割されている文書データを分類
することで得られる詳細な文書データの分類構造だけで
なく、分割前の文書データ自体を分類した結果として得
られるマクロな分類構造の融合した分類構造を得ること
ができる。

【０３５０】〔実施の形態１１〕この発明の実施の形態
１１では、前記各実施の形態の文書分類装置、文書分類
方法において、文書分割部５００２は、文書データの構
造情報を基に文書データを分割する。図５０に、分類対
象文書データかＨＴＭＬ形式で記述された文書の例を示
す。分割をおこなう前に、図５０に示したようなＨＴＭ
Ｌ形式の文書データから構造情報を抽出し、それらの構
造を用いて文書の適切な分割規則を設定することにより
文書データから分割文書データを生成する。

【０３５１】つまり、この例では、文書データ中のタグ
＜Ｌｌ＞に着目し、「タグ＜Ｌｌ＞を持つテキストを一
つの分割文書データとする」という文言を分割文書デー
タを生成する規則とする。この規則を文書データに適用
することにより図５０に示したような７つの分割文書か
生成される。

【０３５２】上記のように、文書が、ＨＴＭＬ、ＸＭ
Ｌ、ＳＧＭＬなど特定の構造化文書の形式を有していな
い場合でも、文字の大きさ、文字の装飾、文字の色、お
よびフォントなどに関する情報から分割規則を生成し、
分割文書を生成することもできる。また、文書データが
イメージであってＯＣＲ装置などにより入力される場合
には、元のイメージのレイアウト情報などを利用するこ
とにより分割規則を生成し、分割文書を生成することも
できる。

【０３５３】なお、文書データのすべてをいずれかの分
割文書データにする必要はない。たとえば、図５０に示
した例では、文字列「ニューストピック（９８／０９／
２５）」は分割文書には採用しない。

【０３５４】このように、実施の形態１１では、文書デ
ータから構造情報を抽出し、文書割をおこなう前に構造
情報を用いて文書の適切な分割規則を設定することによ
り、異なった話題の分割などを適切におこなうことがで
き、したがって、文書データの詳細な分類構造がわかる
文書分類を適切におこなうことができる。

【０３５５】〔実施の形態１２〕この発明の実施の形態
１２では、前記実施の形態７〜１０の文書分類装置、文
書分類方法において、図５１に示すように、文書データ
に含まれる単語など要素を抽出する文書要素解析部（文
書要素抽出手段）５０１１、上記文書要素解析部５０１
１により抽出された要素に付随する品詞など要素付随情
報を抽出する要素付随情報抽出部（要素付随情報抽出手
段）５０１２を備え（図５１は図４８に示した実施の形
態９に文書要素抽出部５０１１、要素付随情報抽出５０
１２を加えた例で示している）、文書分割部５００２
が、上記文書要素解析部５０１１により抽出された要
素、または上記要素と上記要素付随情報抽出部５０１２
により抽出された要素付随情報とを用いて上記文書デー
タを分割する。

【０３５６】図５２に示すように、文書分割をおこなう
前に、自然言語処理手段である文書要素解析部５０１１
が文書データから単語などそれらの要素を抽出し、要素
付随情報抽出部５０１２が品詞など要素付随情報を抽出
して文書の適切な分割規則を設定するのである。なお、
上記文書要素解析部５０１１および要素付随情報抽出部
５０１２は新たに設けるのではなく、分割文書分類部５
００４内の同様の手段を用いることが可能である。

【０３５７】この実施の形態では、たとえば、図５２に
示したように、文書データが特定の構造情報を持たない
複数のニューストピックの集まりであり、各トピック
が、単語「トピック」＋「数字」＋「改行コード」とい
う文字列の後に記述されている場合で説明すると、上記
のような構造が文書要素解析部５０１１および要素付随
情報抽出部５０１２の抽出結果から認識され、文章の終
端を考慮して、「トピック＋数字＋改行コードという文
字列を先頭とし、上記文字列または文書終端記号を終端
として囲まれる文字列を一つの分割文書データとする」
という分割規則が生成されることになる。

【０３５８】さらに詳しく説明すると、抽出された単語
とその品詞情報などから、まず、名詞と改行コードのみ
を抽出し、つぎに、文字列「トピック＋数字＋改行コー
ド」および文書終端記号を検出し、文書内でのそれらの
位置を記憶する。そして、文書データに対して前記分割
規則を適用し、図５２に示したような分割文書データを
生成する。

【０３５９】なお、文書データのすべてをいずれかの分
割文書データにする必要はなく、たとえば、図５２に示
した例では、文字列「ニューストピック（９８／０９／
２５）」は分割文書には採用しない。また、上記の例で
は、文書データから要素およびその付随情報を抽出して
分割規則を設定する場合で説明したが、要素のみを抽出
してその要素情報から分割規則を設定することも可能で
ある。

【０３６０】こうして、実施の形態１２によれば、文書
データからそれらの要素情報などを抽出し、抽出した要
素情報などを用いて文書の分割規則を設定することによ
り、実施の形態１１と同様に、文書データの詳細な分類
構造がわかる文書分類を適切におこなうことができる。

【０３６１】〔実施の形態１３〕この発明の実施の形態
１３では、前記実施の形態７〜１０の文書分類装置、文
書分類方法において、利用者により指示された指定範囲
にしたがって文書分割部５００２が文書データを分割す
る。図５３に示すような文書データに対して利用者がそ
れぞれの分割文書の範囲を指定すると、指定にしたがっ
て文書分割部５００２が文書分割をおこなう。

【０３６２】本実施の形態では、文書分割時、文書分割
部５００２がまず、画面上に、その初期状態として左右
の指示ポイントおよび領域指定ラインからなる領域指定
オブジェクトを文書の最上部に表示する。この状態で、
利用者は、マウスなどポインティングデバイスを用い
て、左右どちらかの指示ポイントをドラッグし、それを
上下に移動させることにより、それぞれの分割文書の領
域を選択することができる。

【０３６３】また、この指定時、文書分割部５００２
は、領域選択処理をおこなっていることを示すため、指
示ポインタを黒色から白色に、領域指定ラインを実線か
ら破線に変化させる。選択領域を決定するには、所望の
位置で指示ポイントのドラッグを止めればよい。

【０３６４】つぎに、利用者は選択した領域を分割文書
とするかしないか決定する。分割領域としない場合に
は、それを明示的に表示するために、文書分割部５００
２は選択領域を図示のように網掛け表示にさせる。

【０３６５】こうして、本実施の形態によれば、利用者
は文書データからそれぞれの分割文書データを所望通り
に選択することができるので、文書データの詳細な分類
構造がわかり、かつ利用者の意図に合った文書分類をお
こなうことができる。

【０３６６】〔実施の形態１４〕この発明の実施の形態
１４では、前記実施の形態７〜１０の文書分類装置、文
書分類方法において、文書データ中の文字数、文数、ま
たは文字数と文数の両方を基に文書データを分割する。
たとえば、図５４に示す文書データをほぼ２００文字を
単位として分割をおこなう。

【０３６７】ここで、ほぼ２００文字を単位とするの
は、正確な２００文字単位としてもその終端が句点であ
る保証がないことから、２００文字目の前後のもっとも
近い句点をそれぞれの分割文書の終端とするからであ
る。こうして、図５４に示したような分割文書が生成さ
れる。同様に、所定の文数を単位とした文書分割をおこ
なうこともできるし、文字数と文数の両方を基にした文
書分割をおこなうこともできる。

【０３６８】このように、実施の形態１４によれば、文
字数、文数、または文字数と文数の両方を基に文書デー
タを分割することにより、話題の異なった内容などが異
なった分割文書として分割され、分類される可能性が高
くなるので、文書データの詳細な分類構造がわかる文書
分類をおこなうことができる。

【０３６９】〔実施の形態１５〕この発明の実施の形態
１５では、前記各実施の形態の文書分類装置、文書分類
方法において、文書分類結果生成部５００６が分類結果
情報として、文書データを示す情報および上記文書デー
タに付随する代表的情報のみを提示する。

【０３７０】たとえば図５５に示すように、先頭に分類
カテゴリ名を表示し、その横にそのカテゴリを代表する
キーワードを表示し、カテゴリ名の下には文書データを
示す情報として当該カテゴリに属する分割文書データを
含んでいる文書データの、たとえば、文書データ名（文
書名）を表示する。また、各文書データ名の左側には文
書アイコンを表示させ、この文書アイコンが指示された
とき、文書データの内容を表示させる。

【０３７１】また、各文書データ名の配置順は、カテゴ
リ代表値との類似度が高い分割文書データの文書データ
名を先（左側）にする。また、同じ文書データから生成
された複数の分割文書データが同一の分類カテゴリに属
している場合には、類似度のもっとも高い分割文書デー
タに対応する文書データ名のみを表示する。なお、上記
キーワードとは出現頻度の多い単語である。

【０３７２】このように、実施の形態１５によれば、文
書分類結果が文書データを示す情報と文書データに付随
する代表的情報のみが表示されるので、利用者は文書デ
ータの詳細な分類構造の概要を容易に把握することがで
きる。

【０３７３】〔実施の形態１６〕この発明の実施の形態
１６では、実施の形態１５の文書分類結果提示に加え
て、分割文書データを示す情報および上記分割文書デー
タに付随する情報を提示する。

【０３７４】たとえば、図５６に示すように、先頭に分
類カテゴリ名を表示し、その横にそのカテゴリを代表す
るキーワードを表示し、カテゴリ名の下には文書データ
を示す情報として当該カテゴリに属する分割文書データ
を含んでいる文書データのたとえば文書データ名（文書
名）を表示する。

【０３７５】また、各文書データ名の左側には文書アイ
コンを表示させ、この文書アイコンが指示されたとき、
文書データの内容を表示させる。また、文書データ名の
右側には分割文書アイコンを表示させる。なお、分割文
書アイコン中には当該文書データにおける分割文書デー
タの位置と当該文書データ中の分割文書数を表示させ
る。さらに、上記分割文書アイコンを指示することで文
書データ中の当該分割文書データを表示させることがで
きる。

【０３７６】また、各文書データ名の配置順はカテゴリ
代表値との類似度が高い分割文書データの文書データ名
を先にする。また、同じ文書データから生成された複数
の分割文書データが同一の分類カテゴリに属している場
合には類似度の順位がわかるようにその順位を表示させ
る。

【０３７７】このように、実施の形態１６によれば、文
書分類結果が文書データを示す情報と文書データに付随
する代表的情報、および分割文書データを示す情報と分
割文書データに付随する代表的情報のみが表示されるの
で、利用者は文書データの詳細な分類構造の概要ととも
にどの分割文書が起因して当該カテゴリに分類されたか
というようなことも容易にわかる。

【０３７８】以上、本発明の文書分類装置および文書分
類方法を説明したが、この文書分類方法を実現するプロ
グラムを着脱可能であるとともにコンピュータ読み取り
可能な記録媒体に記録し、上記記録媒体を移した先の情
報処理装置内で本発明によった文書分類をおこなうこと
もできる。

【０３７９】

【発明の効果】以上説明したように、請求項１の発明に
よれば、入力された文書データを記憶する文書記憶手段
と、前記文書記憶手段により記憶された文書データの全
部または一部を選択する選択手段と、前記選択手段によ
り選択された文書データの全部または一部から文字列の
特徴に関するデータを抽出する特徴抽出手段と、前記特
徴抽出手段により抽出された文字列の特徴に関するデー
タに基づいて前記文書データの全部または一部を加工処
理する加工処理手段と、前記加工処理手段により加工処
理された文書データの全部または一部を出力する出力手
段とを備えるため、文書の意味に係わるような分析作業
において、単にその結果のみを出力するのではなく、情
報分析作業全般にわたる支援をおこなうことが可能な文
書処理装置が得られるという効果を奏する。

【０３８０】また、請求項２の発明によれば、前記出力
手段が、前記加工処理手段により加工処理された文書デ
ータの全部または一部の内容に基づいて複数の項目値を
設定する項目値設定手段と、前記項目値設定手段により
設定された項目値ごとに前記文書データの全部または一
部を集計する集計手段と、を備え、前記文書データの全
部または一部を、項目値を少なくとも一つの軸とする表
形式に展開して出力するため、簡易な操作で加工処理の
結果をクロス表として表すことができ、情報の内容の把
握を容易におこなうことができることから、文書の意味
に係わるような分析作業において、単にその結果のみを
出力するのではなく、情報分析作業全般にわたる支援を
おこなうことが可能な文書処理装置が得られるという効
果を奏する。

【０３８１】また、請求項３の発明によれば、前記出力
手段が、さらに、前記加工処理手段により加工処理され
た文書データの全部または一部を、前記加工処理手段に
より加工処理される前の文書データの全部または一部と
ともに出力するため、加工処理すべき対象データとその
他のデータが同時に表示され、それを確認することによ
り、加工処理の対象範囲の決定を正確かつ容易におこな
うことができることから、文書の意味に係わるような分
析作業において、単にその結果のみを出力するのではな
く、情報分析作業全般にわたる支援をおこなうことが可
能な文書処理装置が得られるという効果を奏する。

【０３８２】また、請求項４の発明によれば、前記文書
記憶手段が、さらに、前記加工処理手段により加工処理
された文書データの全部または一部を記憶するため、以
後、他のデータと同様に扱うことができることから、文
書の意味に係わるような分析作業において、単にその結
果のみを出力するのではなく、情報分析作業全般にわた
る支援をおこなうことが可能な文書処理装置が得られる
という効果を奏する。

【０３８３】また、請求項５の発明によれば、前記選択
手段が、さらに、前記出力手段により出力された文書デ
ータの全部または一部を選択するため、出力手段により
出力された文書データの全部または一部をさらなる分析
の対象とすることができ、多彩で高度な情報分析作業が
できることから、文書の意味に係わるような分析作業に
おいて、単にその結果のみを出力するのではなく、情報
分析作業全般にわたる支援をおこなうことが可能な文書
処理装置が得られるという効果を奏する。

【０３８４】また、請求項６の発明によれば、前記文書
記憶手段が、さらに、前記加工処理の内容に関するデー
タを記憶するため、加工処理の内容に関するデータの紛
失を防止し、当該データの管理が容易になるだけでな
く、加工処理に用いた設定とそれによる処理結果を関連
づけて把握することができることから、文書の意味に係
わるような分析作業において、単にその結果のみを出力
するのではなく、情報分析作業全般にわたる支援をおこ
なうことが可能な文書処理装置が得られるという効果を
奏する。

【０３８５】また、請求項７の発明によれば、入力手段
が、文書データを入力し、言語解析手段が、前記入力手
段により入力された文書データを解析して言語解析情報
を得、ベクトル生成手段が、前記言語解析手段により得
られた言語解析情報に基づいて前記文書データに対する
文書特徴ベクトルを生成し、分類手段が、前記ベクトル
生成手段により生成された文書特徴ベクトル間の類似度
に基づいて文書を分類し、文書の部分集合を生成し、ク
ラスタ特徴算出手段が、前記分類手段により生成された
文書の部分集合の特徴であるクラスタ特徴を算出し、分
類体系記憶手段が、前記クラスタ特徴算出手段により算
出されたクラスタ特徴を分類体系の構成要素として記憶
するため、クラスタを得ることができるとともに、クラ
スタ重心間の類似度等を用いて、クラスタの内容に基づ
くクラスタの構造化・体系化をおこなうことができ、こ
れにより、任意の文書集合にどのような内容が含まれる
かを漸次的に収集することが可能な文書分類装置が得ら
れるという効果を奏する。

【０３８６】また、請求項８の発明によれば、入力手段
が、文書データを入力し、言語解析手段が、前記入力手
段により入力された文書データを解析して言語解析情報
を得、ベクトル生成手段が、前記言語解析手段により得
られた言語解析情報に基づいて前記文書データに対する
文書特徴ベクトルを生成し、分類手段が、前記ベクトル
生成手段により生成された文書特徴ベクトル間の類似度
に基づいて文書を分類し、文書の部分集合を生成し、ク
ラスタ特徴算出手段が、前記分類手段により生成された
文書の部分集合の特徴であるクラスタ特徴を算出し、表
示手段が、前記クラスタ特徴算出手段により算出された
クラスタ特徴を表示し、クラスタ選択指示手段が、前記
分類手段により生成された文書の部分集合の中から所望
の部分集合を選択し、分類体系記憶手段が、前記クラス
タ選択指示手段により選択された文書の部分集合を分類
体系の構成要素として記憶するため、選択されたクラス
タのみを用いて、より操作者の意図したものに近いクラ
スタの構造化・体系化をおこなうことができ、これによ
り、任意の文書集合にどのような内容が含まれるかを漸
次的に収集することが可能な文書分類装置が得られると
いう効果を奏する。

【０３８７】また、請求項９の発明によれば、請求項８
の発明において、文書特徴ベクトル記憶手段が、前記ベ
クトル生成手段により生成された文書特徴ベクトルを記
憶し、ベクトル修正手段が、前記文書特徴ベクトル記憶
手段により記憶された文書特徴ベクトルを、前記クラス
タ選択指示手段により選択された部分集合に属する文書
の文書特徴ベクトルを除去したのこりとなるように修正
し、前記分類手段が、前記ベクトル修正手段により修正
された文書特徴ベクトルに基づいて文書を分類するた
め、既知になったクラスタの影響を排除した新たなクラ
スタを生成することができ、これにより、任意の文書集
合にどのような内容が含まれるかを漸次的に収集するこ
とが可能な文書分類装置が得られるという効果を奏す
る。

【０３８８】また、請求項１０の発明によれば、請求項
８の発明において、文書特徴ベクトル記憶手段が、前記
ベクトル生成手段により生成された文書特徴ベクトルを
記憶し、文書表現空間修正手段が、前記文書特徴ベクト
ル記憶手段により記憶された文書特徴ベクトル間の類似
度を判断する際の文書表現空間を前記クラスタ選択指示
手段により選択された部分集合から算出する特徴量に基
づいて修正し、前記分類手段が、前記文書表現空間修正
手段により修正された文書表現空間を用いて、前記ベク
トル生成手段により生成された文書特徴ベクトル間の類
似度に基づいて文書を分類するため、前回の分類実行の
結果、操作者に選択されたクラスタの形成特徴を次回の
分類実行時に排除することができ、排除した状態で新た
なクラスタを生成することができ、これにより、任意の
文書集合にどのような内容が含まれるかを漸次的に収集
することが可能な文書分類装置が得られるという効果を
奏する。

【０３８９】また、請求項１１の発明によれば、請求項
９の発明において、文書特徴ベクトル記憶手段が、前記
ベクトル生成手段により生成された文書特徴ベクトルを
記憶し、文書表現空間修正手段が、前記文書特徴ベクト
ル記憶手段により記憶された文書特徴ベクトル間の類似
度を判断する際の文書表現空間を前記クラスタ選択指示
手段により選択されたクラスタ特徴に基づいて修正し、
前記分類手段が、前記文書表現空間修正手段により修正
された文書表現空間を用いて、前記ベクトル修正手段に
より修正された文書特徴ベクトル間の類似度に基づいて
文書を分類するため、既知になったクラスタの影響を排
除し、かつ、前回の分類実行の結果、操作者に選択され
たクラスタの形成特徴を次回の分類実行時に排除するこ
とができ、排除した状態で新たなクラスタを生成するこ
とができ、これにより、任意の文書集合にどのような内
容が含まれるかを漸次的に収集することが可能な文書分
類装置が得られるという効果を奏する。

【０３９０】また、請求項１２の発明によれば、請求項
８または１０の発明において、選択情報付与手段が、前
記分類手段により生成された文書の部分集合に所属する
文書のすべてあるいは一部が選択された場合に選択され
たことを示す選択情報を付与し、前記表示手段が、前記
クラスタ特徴を表示するとともに、選択情報付与手段に
より付与された選択情報を表示するため、多重に利用さ
れる文書の識別性および一度も選択されない文書の識別
性を向上させることができ、これにより、任意の文書集
合にどのような内容が含まれるかを漸次的に収集するこ
とが可能な文書分類装置が得られるという効果を奏す
る。

【０３９１】また、請求項１３の発明によれば、請求項
８〜１２の発明において、前記分類体系記憶手段が、前
記選択指示手段により選択された文書の部分集合に属す
る全部あるいは一部の文書のほか、クラスタ特徴および
／または操作者が作成した任意の情報を分類体系の構成
要素として記憶するため、クラスタの内容把握を容易に
し、かつ、操作者独自の分類体系を簡易に生成できるの
で、分類体系の利用価値を向上させることができ、これ
により、任意の文書集合にどのような内容が含まれるか
を漸次的に収集することが可能な文書分類装置が得られ
るという効果を奏する。

【０３９２】また、請求項１４の発明によれば、文書の
内容にしたがって文書群を分類する文書分類装置におい
て、文書データ群を入力する文書入力手段と、入力され
た文書データ群の各文書に対して所定の基準に基づき文
書の分割をおこない、一つの文書データから一つまたは
複数の分割文書データを生成する文書分割手段と、前記
文書データと前記分割文書データとの対応を示す文書−
分割文書対応マップを生成する文書−分割文書対応マッ
プ生成手段と、前記分割文書データを分類する分割文書
分類手段と、前記分割文書分類手段による分類結果に基
づいて分割文書分類結果情報を生成する分割文書分類結
果生成手段と、前記文書−分割文書対応マップと前記分
割文書分類結果情報とを用いて前記文書データの分類結
果情報を生成する文書分類結果生成手段と、を備えるた
め、一つの文書の中に複数の話題や意味が含まれている
場合に、ある特定の話題や意味に限定されたカテゴリに
分類されたり、利用者の意図するカテゴリとは異なるカ
テゴリに分類されたりすることがなく、したがって、利
用者がその分類カテゴリをよく理解が可能で、また、分
割前文書（所属文書）中の分割文書の位置なども示され
るので、利用者は文書群中の読みたい部分を効率的に読
むことが可能な文書分類装置が得られるという効果を奏
する。

【０３９３】また、請求項１５の発明によれば、請求項
１４の発明において、前記文書データを保存する文書保
存手段と、前記分割文書データを保存する分割文書保存
手段と、前記文書−分割文書対応マップ生成手段により
生成された文書−分割文書対応マップを保存する文書−
分割文書対応マップ保存手段と、を備えるため、分割文
書データおよび文書−分割文書対応マップを再生成する
ことなしに、同一の文書データに対して、分類数、分類
手法、または分類時の諸設定などパラメータの異なる分
類結果を効率的に求めることが可能で、また、文書デー
タを分類し、分類結果を生成するために必要なデータが
保存されることにより、利用者が分類作業に対して時間
的な自由度を持つことが可能で、過去に行った文書分類
の再分析を任意の時間間におこなうことも可能な文書分
類装置が得られるという効果を奏する。

【０３９４】また、請求項１６の発明によれば、請求項
１５の発明において、前記分割文書分類結果生成手段に
より生成された分割文書分類結果情報を保存する分割文
書分類結果保存手段を備えるため、請求項１５の発明の
効果に加え、一度分類を実行すれば、その分類結果をテ
キスト表現や表表現やグラフ表現などさまざまな形式で
表現することが可能で、また、分割文書分類結果情報が
保存されることにより、分類の実行作業および分類結果
の分析作業において、利用者が時間的な自由度を持つこ
とが可能で、過去に行った文書分類結果の再分析をさま
ざまな表現形式で任意の時間におこなうことも可能な文
書分類装置が得られるという効果を奏する。

【０３９５】また、請求項１７の発明によれば、請求項
１４〜１６の発明において、前記文書分割手段により生
成される複数の分割文書データには分割前の文書データ
そのものを含むため、利用者は、分割されている文書デ
ータを分類することで得られる詳細な文書データの分類
構造だけでなく、分割前の文書データ自体を分類した結
果として得られる概略的でマクロな分類構造の融合した
分類構造を得ることが可能な文書分類装置が得られると
いう効果を奏する。

【０３９６】また、請求項１８の発明によれば、請求項
１４〜１７の発明において、前記文書分割手段が、文書
データの構造情報を基に文書データを分割する構成にし
たため、異なった話題の分割等を適切におこなうことが
でき、したがって、文書データの詳細な分類構造がわか
る文書分類を適切におこなうことが可能な文書分類装置
が得られるという効果を奏する。

【０３９７】また、請求項１９の発明によれば、請求項
１４〜１７の発明において、前記文書データに含まれる
要素を抽出する文書要素抽出手段と、前記文書要素抽出
手段により抽出された要素に付随する要素付随情報を抽
出する要素付随情報抽出手段と、を備え、前記文書分割
手段が、前記文書要素抽出手段により抽出された要素、
または前記要素と前記要素付随情報抽出手段により抽出
された要素付随情報とを用いて前記文書データを分割す
る構成にしたため、文書データの詳細な分類構造がわか
る文書分類を適切におこなうことが可能な文書分類装置
が得られるという効果を奏する。

【０３９８】また、請求項２０の発明によれば、請求項
１４〜１７の発明において、前記文書分割手段が、指示
された指定範囲にしたがって文書データの分割をおこな
う構成にしたため、利用者の意図に合い、かつ文書デー
タの詳細な分類構造がわかる文書分類をおこなうことが
可能な文書分類装置が得られるという効果を奏する。

【０３９９】また、請求項２１の発明によれば、請求項
１４〜１７において、前記文書分割手段が、文書データ
中の文字数、文数、または文字数と文数の両方を基に文
書データを分割する構成にしたため、話題の異なった内
容などが異なった文書として分類される可能性が高くな
り、したがって、この発明でも文書データの詳細な分類
構造がわかる文書分類をおこなうことが可能な文書分類
装置が得られるという効果を奏する。

【０４００】また、請求項２２の発明によれば、請求項
１４〜２１の発明において、前記文書分類結果生成手段
が、文書データを示す情報および前記文書データに付随
する代表的情報を、分類結果情報として抽出して提示す
る構成にしたため、利用者は文書データの詳細な分類構
造の概要や全体的な構造を容易に把握することが可能な
文書分類装置が得られるという効果を奏する。

【０４０１】また、請求項２３の発明によれば、請求項
２２の発明において、前記文書分類結果生成手段が、分
割文書データを示す情報および前記分割文書データに付
随する代表的情報を、分類結果情報として、抽出して提
示する構成にしたため、利用者は文書データの詳細な分
類構造の概要や全体的な構造とともにどの分割文書が起
因して当該カテゴリに分類されたかというようなことも
容易にわかる文書分類装置が得られるという効果を奏す
る。

【０４０２】また、請求項２４の発明によれば、入力さ
れた文書データを記憶する文書記憶工程と、前記文書記
憶工程により記憶された文書データの全部または一部を
選択する選択工程と、前記選択工程により選択された文
書データの全部または一部から文字列の特徴に関するデ
ータを抽出する特徴抽出工程と、前記特徴抽出工程によ
り抽出された文字列の特徴に関するデータに基づいて前
記文書データの全部または一部を加工処理する加工処理
工程と、前記加工処理工程により加工処理された文書デ
ータの全部または一部を出力する出力工程と、を含むの
で、文書の意味に係わるような分析作業において、単に
その結果のみを出力するのではなく、情報分析作業全般
にわたる支援をおこなうことが可能な文書処理方法が得
られるという効果を奏する。

【０４０３】また、請求項２５の発明によれば、前記出
力工程が、前記加工処理工程により加工処理された文書
データの全部または一部の内容に基づいて複数の項目値
を設定する項目値設定工程と、前記項目値設定工程によ
り設定された項目値ごとに前記文書データの全部または
一部を集計する集計工程と、を含み、前記文書データの
全部または一部を、項目値を少なくとも一つの軸とする
表形式に展開して出力するので、簡易な操作で加工処理
の結果をクロス表として表すことができ、情報の内容の
把握を容易におこなうことができることから、文書の意
味に係わるような分析作業において、単にその結果のみ
を出力するのではなく、情報分析作業全般にわたる支援
をおこなうことが可能な文書処理方法が得られるという
効果を奏する。

【０４０４】また、請求項２６の発明によれば、前記出
力工程が、さらに、前記加工処理工程により加工処理さ
れた文書データの全部または一部を、前記加工処理工程
により加工処理される前の文書データの全部または一部
とともに出力するので、加工処理すべき対象データとそ
の他のデータが同時に表示され、それを確認することに
より、加工処理の対象範囲の決定を正確かつ容易におこ
なうことができることから、文書の意味に係わるような
分析作業において、単にその結果のみを出力するのでは
なく、情報分析作業全般にわたる支援をおこなうことが
可能な文書処理方法が得られるという効果を奏する。

【０４０５】また、請求項２７の発明によれば、前記文
書記憶工程が、さらに、前記加工処理工程により加工処
理された文書データの全部または一部を記憶するので、
以後、他のデータと同様に扱うことができることから、
文書の意味に係わるような分析作業において、単にその
結果のみを出力するのではなく、情報分析作業全般にわ
たる支援をおこなうことが可能な文書処理方法が得られ
るという効果を奏する。

【０４０６】また、請求項２８の発明によれば、前記選
択工程が、さらに、前記出力工程により出力された文書
データの全部または一部を選択するので、出力工程によ
り出力された文書データの全部または一部をさらなる分
析の対象とすることができ、多彩で高度な情報分析作業
ができることから、文書の意味に係わるような分析作業
において、単にその結果のみを出力するのではなく、情
報分析作業全般にわたる支援をおこなうことが可能な文
書処理方法が得られるという効果を奏する。

【０４０７】また、請求項２９の発明によれば、前記文
書記憶工程が、さらに、前記加工処理の内容に関するデ
ータを記憶するので、加工処理の内容に関するデータの
紛失を防止し、当該データの管理が容易になるだけでな
く、加工処理に用いた設定とそれによる処理結果を関連
づけて把握することができることから、文書の意味に係
わるような分析作業において、単にその結果のみを出力
するのではなく、情報分析作業全般にわたる支援をおこ
なうことが可能な文書処理方法が得られるという効果を
奏する。

【０４０８】また、請求項３０の発明によれば、入力工
程が、文書データを入力し、言語解析工程が、前記入力
工程により入力された文書データを解析して言語解析情
報を得、ベクトル生成工程が、前記言語解析工程により
得られた言語解析情報に基づいて前記文書データに対す
る文書特徴ベクトルを生成し、分類工程が、前記ベクト
ル生成工程により生成された文書特徴ベクトル間の類似
度に基づいて文書を分類し、文書の部分集合を生成し、
クラスタ特徴算出工程が、前記分類工程により生成され
た文書の部分集合の特徴であるクラスタ特徴を算出し、
分類体系生成工程が、前記クラスタ特徴算出工程により
算出されたクラスタ特徴に基づいて分類体系の構成要素
を生成するので、クラスタを得ることができるととも
に、クラスタ重心間の類似度等を用いて、クラスタの内
容に基づくクラスタの構造化・体系化をおこなうことが
でき、これにより、任意の文書集合にどのような内容が
含まれるかを漸次的に収集することが可能な文書分類方
法が得られるという効果を奏する。

【０４０９】また、請求項３１の発明によれば、入力工
程が、文書データを入力し、言語解析工程が、前記入力
工程により入力された文書データを解析して言語解析情
報を得、ベクトル生成工程が、前記言語解析工程により
得られた言語解析情報に基づいて前記文書データに対す
る文書特徴ベクトルを生成し、分類工程が、前記ベクト
ル生成工程により生成された文書特徴ベクトル間の類似
度に基づいて文書を分類し、文書の部分集合を生成し、
クラスタ特徴算出工程が、前記分類工程により生成され
た文書の部分集合の特徴であるクラスタ特徴を算出し、
表示工程が、前記クラスタ特徴算出工程により算出され
たクラスタ特徴を表示し、クラスタ選択指示工程が、前
記分類工程により生成された文書の部分集合の中から所
望の部分集合を選択し、分類体系生成工程が、前記クラ
スタ選択指示工程により選択されたクラスタ特徴に基づ
いて分類体系の構成要素を生成するので、選択されたク
ラスタのみを用いて、より操作者の意図したものに近い
クラスタの構造化・体系化をおこなうことができ、これ
により、任意の文書集合にどのような内容が含まれるか
を漸次的に収集することが可能な文書分類方法が得られ
るという効果を奏する。

【０４１０】また、請求項３２の発明によれば、請求項
３１の発明において、ベクトル修正工程が、前記クラス
タ選択指示手段により選択された部分集合に属する文書
の文書特徴ベクトルを除去したのこりとなるように修正
し、前記分類工程が、前記ベクトル修正工程により修正
された文書特徴ベクトルに基づいて文書を分類するの
で、既知になったクラスタの影響を排除した新たなクラ
スタを生成することができ、これにより、任意の文書集
合にどのような内容が含まれるかを漸次的に収集するこ
とが可能な文書分類方法が得られるという効果を奏す
る。

【０４１１】また、請求項３３の発明によれば、請求項
３１の発明において、文書表現空間修正工程が、前記ベ
クトル生成工程により生成された文書特徴ベクトル間の
類似度を判断する際の文書表現空間を前記クラスタ選択
指示工程により選択された部分集合から算出する特徴量
に基づいて修正し、前記分類工程が、前記文書表現空間
修正工程により修正された文書表現空間を用いて、前記
ベクトル生成手段工程により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類するので、前回の分
類実行の結果、操作者に選択されたクラスタの形成特徴
を次回の分類実行時に排除することができ、排除した状
態で新たなクラスタを生成することができ、これによ
り、任意の文書集合にどのような内容が含まれるかを漸
次的に収集することが可能な文書分類方法が得られると
いう効果を奏する。

【０４１２】また、請求項３４の発明によれば、請求項
３２の発明において、文書表現空間修正工程が、前記ベ
クトル生成工程により生成された文書特徴ベクトル間の
類似度を判断する際の文書表現空間を前記クラスタ選択
指示工程により選択された部分集合から算出する特徴量
に基づいて修正し、前記分類工程が、前記文書表現空間
修正工程により修正された文書表現空間を用いて、前記
ベクトル修正工程により修正された文書特徴ベクトル間
の類似度に基づいて文書を分類するので、既知になった
クラスタの影響を排除し、かつ、前回の分類実行の結
果、操作者に選択されたクラスタの形成特徴を次回の分
類実行時に排除することができ、排除した状態で新たな
クラスタを生成することができ、これにより、任意の文
書集合にどのような内容が含まれるかを漸次的に収集す
ることが可能な文書分類方法が得られるという効果を奏
する。

【０４１３】また、請求項３５の発明によれば、請求項
３１または３３の発明において、選択情報付与工程が、
前記分類工程により生成された文書の部分集合に所属す
る文書のすべてあるいは一部が選択された場合に選択さ
れたことを示す選択情報を付与し、前記表示工程が、前
記クラスタ特徴を表示するとともに、選択情報付与工程
により付与された選択情報を表示するので、多重に利用
される文書の識別性および一度も選択されない文書の識
別性を向上させることができ、これにより、任意の文書
集合にどのような内容が含まれるかを漸次的に収集する
ことが可能な文書分類方法が得られるという効果を奏す
る。

【０４１４】また、請求項３６の発明によれば、請求項
３１〜３５の発明において、前記分類体系生成工程が、
前記選択指示工程により選択されたクラスタ特徴のほ
か、前記文書の部分集合の中から選択された文書の部分
集合に所属する文書群の全部あるいは一部および／また
は操作者が作成した情報に基づいて分類体系の構成要素
を生成するので、クラスタの内容把握を容易にし、か
つ、操作者独自の分類体系を簡易に生成できることの
で、分類体系の利用価値を向上させることができ、これ
により、任意の文書集合にどのような内容が含まれるか
を漸次的に収集することが可能な文書分類方法が得られ
るという効果を奏する。

【０４１５】また、請求項３７の発明によれば、一つの
文書の中に複数の話題や意味が含まれている場合に、あ
る特定の話題や意味に限定されたカテゴリに分類された
り、利用者の意図するカテゴリとは異なるカテゴリに分
類されたりすることがなく、したがって、利用者がその
分類カテゴリをよく理解できる。また、分割前文書（所
属文書）中の分割文書の位置なども示されるので、利用
者は文書群中の読みたい部分を効率的に読むことが可能
な文書分類方法が得られるという効果を奏する。

【０４１６】また、請求項３８の発明によれば、請求項
２４〜３７のいずれか一つに記載された方法をコンピュ
ータに実行させるプログラムを記録したことで、そのプ
ログラムを機械読み取り可能となり、これによって、請
求項２４〜３７の動作をコンピュータによって実現する
ことが可能な記録媒体が得られるという効果を奏する。

【図面の簡単な説明】

【図１】この発明の実施の形態１による文書処理装置を
構成する情報処理システム全体のハードウエア構成を示
す説明図である。

【図２】この発明の実施の形態１による文書処理装置を
構成する情報処理システムにおけるサーバーのハードウ
エア構成を示す説明図である。

【図３】この発明の実施の形態１による文書処理装置を
構成する情報処理システムにおけるクライアントのハー
ドウエア構成を示す説明図である。

【図４】この発明の実施の形態１による文書処理装置の
構成を機能的に示すブロック図である。

【図５】この発明の実施の形態１による文書処理装置の
項目名と項目値の関係を示す説明図である。

【図６】この発明の実施の形態１による文書処理装置の
文書記憶部に記憶された文書のデータ構造を示す説明図
である。

【図７】この発明の実施の形態１による文書処理装置の
文書記憶部に記憶された文書の別のデータ構造を示す説
明図である。

【図８】この発明の実施の形態１による文書処理装置の
出力部による画面表示の例を示す説明図である。

【図９】この発明の実施の形態１による文書処理装置の
出力部による画面表示の別の例を示す説明図である。

【図１０】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図１１】この発明の実施の形態１による文書処理装置
の特徴抽出部によりおこなわれる抽出処理の内容の一覧
を示す説明図である。

【図１２】この発明の実施の形態１による文書処理装置
の加工処理部によりおこなわれる加工処理の内容の一覧
を示す説明図である。

【図１３】この発明の実施の形態１による文書処理装置
の各項目の特徴ベクトルを示す説明図である。

【図１４】この発明の実施の形態１による文書処理装置
の単語とその単語ＩＤごとの出現回数を示す説明図であ
る。

【図１５】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図１６】この発明の実施の形態１による文書処理装置
の出力部によるクロス表作成のための指示画面を示す説
明図である。

【図１７】この発明の実施の形態１による文書処理装置
の出力部による分類処理の結果が表示されたクロス表を
示す説明図である。

【図１８】この発明の実施の形態１による文書処理装置
の出力部による分類処理の結果が表示された別のクロス
表を示す説明図である。

【図１９】この発明の実施の形態１による文書処理装置
の出力部の詳細な構成を示すブロック図である。

【図２０】この発明の実施の形態１による文書処理装置
のクロス表の出力手順を示すフローチャートである。

【図２１】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２２】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２３】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２４】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２５】この発明の実施の形態１による文書処理装置
の文書記憶部の詳細な構成を示すブロック図である。

【図２６】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２７】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２８】この発明の実施の形態１による文書処理装置
の出力部による画面表示の別の例を示す説明図である。

【図２９】この発明の実施の形態１による文書処理装置
の文書処理の一連の手順を示すフローチャートである。

【図３０】この発明の実施の形態２による文書分類装置
の構成を機能的に示すブロック図である。

【図３１】この発明の実施の形態２による文書分類装置
のクラスタ特徴表示部の表示の一例を示す説明図であ
る。

【図３２】この発明の実施の形態２による文書分類装置
の一連の処理の手順を示すフローチャートである。

【図３３】この発明の実施の形態３による文書分類装置
の構成を機能的に示すブロック図である。

【図３４】この発明の実施の形態３よる文書分類装置の
一連の処理の手順を示すフローチャートである。

【図３５】この発明の実施の形態４による文書分類装置
の構成を機能的に示すブロック図である。

【図３６】この発明の実施の形態４よる文書分類装置の
一連の処理の手順を示すフローチャートである。

【図３７】この発明の実施の形態５による文書分類装置
の構成を機能的に示すブロック図である。

【図３８】この発明の実施の形態５よる文書分類装置の
一連の処理の手順を示すフローチャートである。

【図３９】この発明の実施の形態６による文書分類装置
の構成を機能的に示すブロック図である。

【図４０】この発明の実施の形態６による文書分類装置
の分類結果記憶部において設けられたテーブルを示す説
明図である。

【図４１】この発明の実施の形態６による文書分類装置
の選択情報付与部の処理の手順を示すフローチャートで
ある。

【図４２】この発明の実施の形態７を示す文書分類装置
の構成ブロック図である。

【図４３】この発明の実施の形態７による文書分類装置
および文書分類方法の説明図である。

【図４４】この発明の実施の形態７による文書分類装置
および文書分類方法の他の説明図である。

【図４５】この発明の実施の形態７による文書分類装置
および文書分類方法の他の説明図である。

【図４６】この発明の実施の形態７による文書分類装置
および文書分類方法の他の説明図である。

【図４７】この発明の実施の形態８による文書分類装置
の構成ブロック図である。

【図４８】この発明の実施の形態９による文書分類装置
の構成ブロック図である。

【図４９】この発明の実施の形態１０による文書分類装
置および文書分類方法の説明図である。

【図５０】この発明の実施の形態１１による文書分類装
置および文書分類方法の説明図である。

【図５１】この発明の実施の形態１２による文書分類装
置の構成ブロック図である。

【図５２】この発明の実施の形態１２による文書分類装
置および文書分類方法の説明図である。

【図５３】この発明の実施の形態１３による文書分類装
置および文書分類方法の説明図である。

【図５４】この発明の実施の形態１４による文書分類装
置および文書分類方法の説明図である。

【図５５】この発明の実施の形態１５による文書分類装
置および文書分類方法の説明図である。

【図５６】この発明の実施の形態１６による文書分類装
置および文書分類方法の説明図である。

【符号の説明】

１０１サーバー１０２クライアント１０３ネットワーク２０１ＣＰＵ２０４Ｉ／Ｆ２０６ディスク装置３０１ＣＰＵ３０６ハードディスク３０８ディスプレイ３０９Ｉ／Ｆ３１１キーボード３１２マウス３１３スキャナ４００バス４０１入力部４０２文書記憶部４０３選択部４０４特徴抽出部４０５加工処理部４０６出力部４０７グラフ描画部４０８加工処理結果保持部４０９解析部４１０特徴ベクトル生成部１６００指示画面１７００クロス表１８００マウスポインタ１８０１内容表示画面１９０１項目値選定部１９０２集計部１９０３表保持部２４０１棒グラフ表示領域２５０１設定値記憶部２５０２設定値送受信部２５０３分類情報記憶部２６０４問い合わせ画面２７０３分類情報表示画面２８０２表示領域３００１入力部３００２言語解析部３００３ベクトル生成部３００４分類部３００５分類パラメータ指示部３００６分類結果記憶部３００７クラスタ特徴表示部３００８クラスタ特徴算出部３００９分類体系記憶部３０１０クラスタ選択指示部３０１１分類体系閲覧操作部３１１０カーソル３３０１，３５０１，３７０１ベクトル記憶部３３０２，３７０２ベクトル修正部３５０２，３７０３文書表現空間修正部３９０１選択情報付与部４０００テーブル５００１文書入力部５００２文書分割部５００３文書−分割文書対応マップ生成部５００４分割文書分類部５００５分割文書分類結果生成部５００６文書分類結果生成部５００７文書保存部５００８分割文書保存部５００９文書−分割文書対応マップ保存部５０１０分割文書分類結果保存部５０１１文書要素解析部５０１２要素付随情報抽出部

───────────────────────────────────────────────────── フロントページの続き (72)発明者剣持栄治東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者山崎真湖人東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者武谷一寿東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者長束哲郎東京都大田区中馬込１丁目３番６号株式会社リコー内Ｆターム(参考） 5B075 ND03 NK06 NK39 NR12 PP02 PP03 PQ02 PQ03 PQ15 PQ22 PR06 QM07

Claims

【特許請求の範囲】

【請求項１】入力された複数の文書データを所定の形
式で表示または印刷するために出力する文書処理装置に
おいて、入力された文書データを記憶する文書記憶手段と、前記文書記憶手段により記憶された文書データの全部ま
たは一部を選択する選択手段と、前記選択手段により選択された文書データの全部または
一部から文字列の特徴に関するデータを抽出する特徴抽
出手段と、前記特徴抽出手段により抽出された文字列の特徴に関す
るデータに基づいて前記文書データの全部または一部を
加工処理する加工処理手段と、前記加工処理手段により加工処理された文書データの全
部または一部を出力する出力手段と、を備えたことを特徴とする文書処理装置。
【請求項２】前記出力手段は、前記加工処理手段により加工処理された文書データの全
部または一部の内容に基づいて複数の項目値を設定する
項目値設定手段と、前記項目値設定手段により設定された項目値ごとに前記
文書データの全部または一部を集計する集計手段と、を備え、前記文書データの全部または一部を、項目値を少なくと
も一つの軸とする表形式に展開して出力することを特徴
とする請求項１に記載の文書処理装置。
【請求項３】前記出力手段は、さらに、前記加工処理
手段により加工処理された文書データの全部または一部
を、前記加工処理手段により加工処理される前の文書デ
ータの全部または一部とともに出力することを特徴とす
る請求項１または２に記載の文書処理装置。
【請求項４】前記文書記憶手段は、さらに、前記加工
処理手段により加工処理された文書データの全部または
一部を記憶することを特徴とする請求項１〜３のいずれ
か一つに記載の文書処理装置。
【請求項５】前記選択手段は、さらに、前記出力手段
により出力された文書データの全部または一部を選択す
ることを特徴とする請求項１〜４のいずれか一つに記載
の文書処理装置。
【請求項６】前記文書記憶手段は、さらに、前記加工
処理の内容に関するデータを記憶することを特徴とする
請求項１〜５のいずれか一つに記載の文書処理装置。
【請求項７】文書の内容に基づいて文書の分類をおこ
なう文書分類装置において、文書データを入力する入力手段と、前記入力手段により入力された文書データを解析して言
語解析情報を得る言語解析手段と、前記言語解析手段により得られた言語解析情報に基づい
て前記文書データに対する文書特徴ベクトルを生成する
ベクトル生成手段と、前記ベクトル生成手段により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類手段と、前記分類手段により生成された文書の部分集合の特徴で
あるクラスタ特徴を算出するクラスタ特徴算出手段と、前記クラスタ特徴算出手段により算出されたクラスタ特
徴を分類体系の構成要素として記憶する分類体系記憶手
段と、を備えたことを特徴とする文書分類装置。
【請求項８】文書の内容に基づいて文書の分類をおこ
なう文書分類装置において、文書データを入力する入力手段と、前記入力手段により入力された文書データを解析して言
語解析情報を得る言語解析手段と、前記言語解析手段により得られた言語解析情報に基づい
て前記文書データに対する文書特徴ベクトルを生成する
ベクトル生成手段と、前記ベクトル生成手段により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類手段と、前記分類手段により生成された文書の部分集合の特徴で
あるクラスタ特徴を算出するクラスタ特徴算出手段と、前記クラスタ特徴算出手段により算出されたクラスタ特
徴を表示する表示手段と、前記分類手段により生成された文書の部分集合の中から
所望の部分集合を選択するクラスタ選択指示手段と、前記クラスタ選択指示手段により選択された文書の部分
集合を分類体系の構成要素として記憶する分類体系記憶
手段と、を備えたことを特徴とする文書分類装置。
【請求項９】前記ベクトル生成手段により生成された
文書特徴ベクトルを記憶する文書特徴ベクトル記憶手段
と、前記文書特徴ベクトル記憶手段により記憶された文書特
徴ベクトルを、前記クラスタ選択指示手段により選択さ
れた部分集合に属する文書の文書特徴ベクトルを除去し
たのこりとなるように修正するベクトル修正手段と、を備え、前記分類手段は、前記ベクトル修正手段により修正され
た文書特徴ベクトルに基づいて文書を分類することを特
徴とする請求項８に記載の文書分類装置。
【請求項１０】前記ベクトル生成手段により生成され
た文書特徴ベクトルを記憶する文書特徴ベクトル記憶手
段と、前記文書特徴ベクトル記憶手段により記憶された文書特
徴ベクトル間の類似度を判断する際の文書表現空間を前
記クラスタ選択指示手段により選択された部分集合から
算出する特徴量に基づいて修正する文書表現空間修正手
段と、を備え、前記分類手段は、前記文書表現空間修正手段により修正
された文書表現空間を用いて、前記ベクトル生成手段に
より生成された文書特徴ベクトル間の類似度に基づいて
文書を分類することを特徴とする請求項８に記載の文書
分類装置。
【請求項１１】前記ベクトル生成手段により生成され
た文書特徴ベクトルを記憶する文書特徴ベクトル記憶手
段と、前記文書特徴ベクトル記憶手段により記憶された文書特
徴ベクトル間の類似度を判断する際の文書表現空間を前
記クラスタ選択指示手段により選択された部分集合から
算出する特徴量に基づいて修正する文書表現空間修正手
段と、を備え、前記分類手段は、前記文書表現空間修正手段により修正
された文書表現空間を用いて、前記ベクトル修正手段に
より修正された文書特徴ベクトル間の類似度に基づいて
文書を分類することを特徴とする請求項９に記載の文書
分類装置。
【請求項１２】前記分類手段により生成された文書の
部分集合に所属する文書のすべてあるいは一部が選択さ
れた場合に選択されたことを示す選択情報を付与する選
択情報付与手段を備え、前記表示手段は、前記クラスタ特徴を表示するととも
に、前記選択情報付与手段により付与された選択情報を
表示することを特徴とする請求項８または１０に記載の
文書分類装置。
【請求項１３】前記分類体系記憶手段は、前記選択指
示手段により選択された文書の部分集合に属する全部あ
るいは一部の文書のほか、クラスタ特徴および／または
操作者が作成した任意の情報を分類体系の構成要素とし
て記憶することを特徴とする請求項８〜１２に記載の文
書分類装置。
【請求項１４】文書の内容にしたがって文書群を分類
する文書分類装置において、文書データ群を入力する文書入力手段と、入力された文書データ群の各文書に対して所定の基準に
基づき文書の分割をおこない、一つの文書データから一
つまたは複数の分割文書データを生成する文書分割手段
と、前記文書データと前記分割文書データとの対応を示す文
書−分割文書対応マップを生成する文書−分割文書対応
マップ生成手段と、前記分割文書データを分類する分割文書分類手段と、前記分割文書分類手段による分類結果に基づいて分割文
書分類結果情報を生成する分割文書分類結果生成手段
と、前記文書−分割文書対応マップと前記分割文書分類結果
情報とを用いて前記文書データの分類結果情報を生成す
る文書分類結果生成手段と、を備えたことを特徴とする文書分類装置。
【請求項１５】前記文書データを保存する文書保存手
段と、前記分割文書データを保存する分割文書保存手段と、前記文書−分割文書対応マップ生成手段により生成され
た文書−分割文書対応マップを保存する文書−分割文書
対応マップ保存手段と、を備えたことを特徴とする請求項１４に記載の文書分類
装置。
【請求項１６】前記分割文書分類結果生成手段により
生成された分割文書分類結果情報を保存する分割文書分
類結果保存手段を備えたことを特徴とする請求項１５に
記載の文書分類装置。
【請求項１７】前記文書分割手段により生成される複
数の分割文書データには分割前の文書データそのものを
含むことを特徴とする請求項１４〜１６のいずれか一つ
に記載の文書分類装置。
【請求項１８】前記文書分割手段が、文書データの構
造情報を基に文書データを分割する構成にしたことを特
徴とする請求項１４〜１７のいずれか一つに記載の文書
分類装置。
【請求項１９】前記文書データに含まれる要素を抽出
する文書要素抽出手段と、前記文書要素抽出手段により抽出された要素に付随する
要素付随情報を抽出する要素付随情報抽出手段と、を備え、前記文書分割手段が、前記文書要素抽出手段により抽出
された要素、または前記要素と前記要素付随情報抽出手
段により抽出された要素付随情報とを用いて前記文書デ
ータを分割する構成にしたことを特徴とする請求項１４
〜１７のいずれか一つに記載の文書分類装置。
【請求項２０】前記文書分割手段が、指示された指定
範囲にしたがって文書データの分割をおこなう構成にし
たことを特徴とする請求項１４〜１７のいずれか一つに
記載の文書分類装置。
【請求項２１】前記文書分割手段が、文書データ中の
文字数、文数、または文字数と文数の両方を基に文書デ
ータを分割する構成にしたことを特徴とする請求項１４
〜１７のいずれか一つに記載の文書分類装置。
【請求項２２】前記文書分類結果生成手段が、文書デ
ータを示す情報および前記文書データに付随する代表的
情報を、分類結果情報として抽出して提示する構成にし
たことを特徴とする請求項１４〜２１のいずれか一つに
記載の文書分類装置。
【請求項２３】前記文書分類結果生成手段が、分割文
書データを示す情報および前記分割文書データに付随す
る代表的情報を、分類結果情報として、抽出して提示す
る構成にしたことを特徴とする請求項２２に記載の文書
分類装置。
【請求項２４】入力された複数の文書データを所定の
形式で表示または印刷するために出力する文書処理方法
において、入力された文書データを記憶する文書記憶工程と、前記文書記憶工程により記憶された文書データの全部ま
たは一部を選択する選択工程と、前記選択工程により選択された文書データの全部または
一部から文字列の特徴に関するデータを抽出する特徴抽
出工程と、前記特徴抽出工程により抽出された文字列の特徴に関す
るデータに基づいて前記文書データの全部または一部を
加工処理する加工処理工程と、前記加工処理工程により加工処理された文書データの全
部または一部を出力する出力工程と、を含んだことを特徴とする文書処理方法。
【請求項２５】前記出力工程は、前記加工処理工程により加工処理された文書データの全
部または一部の内容に基づいて複数の項目値を設定する
項目値設定工程と、前記項目値設定工程により設定された項目値ごとに前記
文書データの全部または一部を集計する集計工程と、を含み、前記文書データの全部または一部を、項目値を少なくと
も一つの軸とする表形式に展開して出力することを特徴
とする請求項２４に記載の文書処理方法。
【請求項２６】前記出力工程は、さらに、前記加工処
理工程により加工処理された文書データの全部または一
部を、前記加工処理工程により加工処理される前の文書
データの全部または一部とともに出力することを特徴と
する請求項２４または２５に記載の文書処理方法。
【請求項２７】前記文書記憶工程は、さらに、前記加
工処理工程により加工処理された文書データの全部また
は一部を記憶することを特徴とする請求項２４〜２６の
いずれか一つに記載の文書処理方法。
【請求項２８】前記選択工程は、さらに、前記出力工
程により出力された文書データの全部または一部を選択
することを特徴とする請求項２４〜２７のいずれか一つ
に記載の文書処理方法。
【請求項２９】前記文書記憶工程は、さらに、前記加
工処理の内容に関するデータを記憶することを特徴とす
る請求項２４〜２８のいずれか一つに記載の文書処理方
法。
【請求項３０】文書の内容に基づいて文書の分類をお
こなう文書分類方法において、文書データを入力する入力工程と、前記入力工程により入力された文書データを解析して言
語解析情報を得る言語解析工程と、前記言語解析工程により得られた言語解析情報に基づい
て前記文書データに対する文書特徴ベクトルを生成する
ベクトル生成工程と、前記ベクトル生成工程により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類工程と、前記分類工程により生成された文書の部分集合の特徴で
あるクラスタ特徴を算出するクラスタ特徴算出工程と、前記クラスタ特徴算出工程により算出されたクラスタ特
徴に基づいて分類体系の構成要素を生成する分類体系生
成工程と、を含んだことを特徴とする文書分類方法。
【請求項３１】文書の内容に基づいて文書の分類をお
こなう文書分類方法において、文書データを入力する入力工程と、前記入力工程により入力された文書データを解析して言
語解析情報を得る言語解析工程と、前記言語解析工程により得られた言語解析情報に基づい
て前記文書データに対する文書特徴ベクトルを生成する
ベクトル生成工程と、前記ベクトル生成工程により生成された文書特徴ベクト
ル間の類似度に基づいて文書を分類し、文書の部分集合
を生成する分類工程と、前記分類工程により生成された文書の部分集合の特徴で
あるクラスタ特徴を算出するクラスタ特徴算出工程と、前記クラスタ特徴算出工程により算出されたクラスタ特
徴を表示する表示工程と、前記分類工程により生成された文書の部分集合の中から
所望の部分集合を選択するクラスタ選択指示工程と、前記クラスタ選択指示工程により選択されたクラスタ特
徴に基づいて分類体系の構成要素を生成する分類体系生
成工程と、を含んだことを特徴とする文書分類方法。
【請求項３２】前記ベクトル生成工程により生成され
た文書特徴ベクトルを、前記クラスタ選択指示工程によ
り選択された部分集合に属する文書の文書特徴ベクトル
を除去したのこりとなるように修正するベクトル修正工
程と、を含み、前記分類工程は、前記ベクトル修正工程により修正され
た文書特徴ベクトルに基づいて文書を分類することを特
徴とする請求項３１に記載の文書分類方法。
【請求項３３】前記ベクトル生成工程により生成され
た文書特徴ベクトル間の類似度を判断する際の文書表現
空間を前記クラスタ選択指示工程により選択された部分
集合から算出する特徴量に基づいて修正する文書表現空
間修正工程と、を含み、前記分類工程は、前記文書表現空間修正工程により修正
された文書表現空間を用いて、前記ベクトル生成手段工
程により生成された文書特徴ベクトル間の類似度に基づ
いて文書を分類することを特徴とする請求項３１に記載
の文書分類方法。
【請求項３４】前記ベクトル生成工程により生成され
た文書特徴ベクトル間の類似度を判断する際の文書表現
空間を前記クラスタ選択指示工程により選択された部分
集合から算出する特徴量に基づいて修正する文書表現空
間修正工程と、を含み、前記分類工程は、前記文書表現空間修正工程により修正
された文書表現空間を用いて、前記ベクトル修正工程に
より修正された文書特徴ベクトル間の類似度に基づいて
文書を分類することを特徴とする請求項３２に記載の文
書分類方法。
【請求項３５】前記分類工程により生成された文書の
部分集合に所属する文書のすべてあるいは一部が選択さ
れた場合に選択されたことを示す選択情報を付与する選
択情報付与工程を含み、前記表示工程は、前記クラスタ特徴を表示するととも
に、前記選択情報付与工程により付与された選択情報を
表示することを特徴とする請求項３１または３３に記載
の文書分類方法。
【請求項３６】前記分類体系生成工程は、前記選択指
示工程により選択されたクラスタ特徴のほか、前記文書
の部分集合の中から選択された文書の部分集合に所属す
る文書群の全部あるいは一部および／または操作者が作
成した情報に基づいて分類体系の構成要素を生成するこ
とを特徴とする請求項３１〜３５に記載の文書分類方
法。
【請求項３７】文書の内容にしたがって文書群を分類
する文書分類方法において、文書データ群を入力し、入力された文書データ群の各文
書に対して所定の基準に基づき文書の分割をおこない、
一つの文書データから一つまたは複数の分割文書データ
を生成し、前記文書データと前記分割文書データとの対
応を示す文書−分割文書対応マップを生成し、前記分割
文書データを分類し、分割文書分類結果情報を生成し、
前記文書−分割文書対応マップと前記分割文書分類結果
情報とを用いて前記文書データの分類結果情報を生成す
ることを特徴とする文書分類方法。
【請求項３８】前記請求項２４〜３７のいずれか一つ
に記載された方法をコンピュータに実行させるプログラ
ムを記録したことを特徴とするコンピュータ読み取り可
能な記録媒体。