JP2010061176A

JP2010061176A - テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Info

Publication number: JP2010061176A
Application number: JP2006315862A
Authority: JP
Inventors: Takahiro Ikeda; 崇博池田; Satoshi Nakazawa; 聡中澤; Yosuke Sakao; 要祐坂尾; Kenji Sato; 研治佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-11-22
Filing date: 2006-11-22
Publication date: 2010-03-18
Also published as: WO2008062822A1

Abstract

【課題】利用者により選択された特徴（テキストの）に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値（または、属性値の組み合わせ）を生成する。
【解決手段】属性条件指定手段３０１は、入力装置１０を介して利用者による第１種の正例・負例の属性値の条件を読み取り、テキストマイニング手段３０２は、テキスト記憶部２０２のテキストのマイニングを実行し、第１種の正例と負例とを分類するのに有効な特徴を抽出しマイニング結果保持部２０３に格納し出力装置４０を介して表示する。分析対象特徴指定手段３０３は、利用者により選択された特徴を入力し、正例負例テキスト抽出手段３０４は、第１種の正例と負例に該当するテキストを選択された特徴に基づいて、第２種の正例・負例に分別し、属性特徴抽出手段３０５は、第２種の正例と負例とを分類するのに有効な属性値を出力する。
【選択図】図１

Description

本発明は、テキストの特徴として単語を抽出するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関し、特に、マイニング結果として得られた単語から、その単語を含むテキストに特徴的な属性を抽出することができるテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関する。

テキストマイニングとは、いくつかの属性に関して属性値を付与されたテキストの集合に対して、利用者が特定の属性値を持つテキストを正例として指定したときに、正例のテキストに偏って出現する特徴を抽出し、出力する処理である。

例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録の場合、通常、受け付けた問い合わせ内容を記述したテキスト以外に、受け付けた問い合わせがどのような種類のものであったのかを表す「質問」「要望」「修理依頼」等の問い合わせ種別、問い合わせの対象であった機種の名称、問い合わせを受け付けた日、問い合わせに応対した担当者の氏名等をセットで記録しておくことが多い。テキストマイニングでは、このようなテキストを、「問い合わせ種別」属性、「機種名」属性、「受付日」属性、「担当者」属性の属性値が付与されたテキストと見なし、例えば、「問い合わせ種別」属性値として「修理依頼」を持つテキストを正例として、正例のテキストに偏って出現する特徴を抽出することができる。

従来のテキストマイニング装置は、各テキストから単語を抽出し、正例として指定される特定の属性値を持つテキストと関連性が高い単語もしくは単語の組み合わせを、その正例の特徴として抽出するように構成される。

この種のテキストマイニング装置の一例が、特許文献１に記載されている。この特許文献１に記載されたテキストマイニング装置は、マイニング対象のテキスト中に出現する特徴的な語句を抽出する特徴語抽出処理部と、分析の対象とする分類軸（属性に相当）を設定する分析軸設定処理部と、分類軸の各カテゴリ（属性値に相当）と関連する度合いが高い語句を抽出する関連語句取得処理部とを有し、分析の対象として利用者が設定した分類軸の各カテゴリに特徴的な語句を抽出する。

また、この種のテキストマイニング方法の別の一例が、非特許文献１に記載されている。この非特許文献１に記載されたテキストマイニング方法は、正例のテキスト（目的群）と、負例のテキスト（対象群）とが与えられたとき、正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度ができるだけ低いテキスト中のパターン、すなわち、その出現頻度によって正例と負例とを分離するのに有効なパターンを発見し、そのパターンを正例の特徴として抽出するものである。

一方、テキスト以外のデータ集合から、何らかのパターンやルールを学習する技術はデータマイニングと呼ばれ、データマイニングを行うさまざまな手法が広く知られている。

データマイニングを行う手法の一例として、分岐征服のアルゴリズムおよびカバーリングのアルゴリズムが、非特許文献２に記載されている。この手法は、予め正例と負例に分けられた属性付きのデータ集合がある場合に、正例を弁別する決定木を求める手法である。

また、データマイニングを行う別の手法の一例が、非特許文献３に記載されている。この手法は、アイテムの組み合わせであるトランザクションの集合が与えられたときに、アイテムの集合間の相関ルールを求めるための手法である。

特開２００３−１４１１３４号公報安部潤一郎他４名、「テキストデータからの高速データマイニング−探索的文書ブラウジングとウェブデータへの応用−」、人工知能学会誌、Ｖｏｌ．１５、Ｎｏ．４、２０００年７月、ｐｐ．６１８−６２８元田浩他２名、「機械学習とデータマイニング」、人工知能学会誌、Ｖｏｌ．１２、Ｎｏ．４、１９９７年７月、ｐｐ．５０５−５１２喜連川優、「データマイニングにおける相関ルール抽出技法」、人工知能学会誌、Ｖｏｌ．１２、Ｎｏ．４、１９９７年７月、ｐｐ．５１３−５２０

テキストマイニングによって、利用者が正例として指定するテキストに顕著に見られる特徴があれば、それを抽出することができる。このため、何らかの特徴が抽出された場合、利用者は、正例として指定したテキストには共通の特徴があることを知ることができる。しかしながら、抽出された特徴は、正例として指定されたテキスト全般に一様に出現しているとは限らない。また、正例として指定されたテキストだけに出現しているとも限らない。

例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録に対して、受付年月が「２００５年１０月」で、問い合わせ種別が「修理依頼」のテキストを正例としてテキストマイニングを行い、正例の特徴として単語「ハードディスク」が抽出されたとする。これは、受付年月が「２００６年１０月」で、問い合わせ種別が「修理依頼」のテキストにおいては、その他のテキストと比べ、単語「ハードディスク」が偏って出現していることを意味している。利用者は、この結果から、２００５年１０月の修理依頼は、他と比べて「ハードディスク」に関するものが多かったことを知ることができる。

このとき、実際には、単語「ハードディスク」が、受付年月が「２００５年１０月」で、問い合わせ種別が「修理依頼」であるテキストのうち、機種名が「ＰＣ−１００」であるテキストに特に偏って出現している可能性がある。また、単語「ハードディスク」が、受付日が「２００５年１１月」で、問い合わせ種別が「修理依頼」であるテキストにも他と比べて多く出現している可能性もある。しかしながら、利用者は、従来それを知ることができなかった。

以上のように、上述した従来のテキストマイニング装置の問題点は、テキストから特徴が抽出されたときに、その特徴がどの範囲のテキストに出現しているのかを利用者に提示できないことにある。すなわち、従来のテキストマイニング装置では、利用者により選択された特徴（テキストの）に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値（または、属性値の組み合わせ）を知ることができない。その理由は、上述した従来のテキストマイニング装置では、抽出された特徴が出現するテキストが、その特徴が出現するということ以外に、どのような共通する特徴を持つのかという情報を利用者に提示しないためである。

本発明の目的は、上述した問題点を解決するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムを提供することにある。

本発明の第１のテキストマイニング装置は、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。

本発明の第２のテキストマイニング装置は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出し、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力するデータ処理装置とを有する。

本発明の第３のテキストマイニング装置は、前記第１、または、第２のテキストマイニング装置であって、第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」である。

本発明の第４のテキストマイニング装置は、前記第１、第２、または、第３のテキストマイニング装置であって、第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。

本発明の第５のテキストマイニング装置は、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力し、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。

本発明の第６のテキストマイニング装置は、利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。

本発明の第７のテキストマイニング装置は、格納されている全テキスト中で頻出する要素を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。

本発明の第１のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。

本発明の第２のテキストマイニング方法は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニング方法であって、前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含む。

本発明の第３のテキストマイニング方法は、前記第１、または、第２のテキストマイニング方法であって、第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」である。

本発明の第４のテキストマイニング方法は、前記第１、第２、または、第３のテキストマイニング方法であって、第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。

本発明の第５のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力する手順と、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。

本発明の第６のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。

本発明の第７のテキストマイニング方法は、テキストマイニング装置が、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。

本発明の第１のテキストマイニングプログラムは、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。

本発明の第２のテキストマイニングプログラムは、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニングプログラムであって、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させる。

本発明の第３のテキストマイニングプログラムは、前記第１、または、第２のテキストマイニングプログラムであって、第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」である。

本発明の第４のテキストマイニングプログラムは、前記第１、第２、または、第３のテキストマイニングプログラムであって、第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。

本発明の第５のテキストマイニングプログラムは、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力する手順と、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。

本発明の第６のテキストマイニングプログラムは、利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。

本発明の第７のテキストマイニングプログラムは、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。

本発明の第８のテキストマイニング装置は、属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング装置であって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段とを有する。

本発明の第９のテキストマイニング装置は、テキストの集合を保持するテキスト記憶手段と、前記テキストに対する属性値を保持する属性記憶手段と、テキストマイニングの条件を入力する条件指定手段と、前記条件に従ってテキストの特徴を抽出するテキストマイニング手段と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段と、を有する。

本発明の第８のテキストマイニング方法は、コンピュータが属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング方法であって、前記特徴の中から着目すべき特徴を前記コンピュータが入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを前記コンピュータが抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を前記コンピュータが抽出するステップとを含む。

本発明の第９のテキストマイニング方法は、コンピュータにテキストの集合と、前記テキストに対する属性値とを記憶させ、前記コンピュータに、テキストマイニングの条件を入力するステップと、前記条件に従ってテキストの特徴を抽出するステップと、前記特徴の中から着目すべき特徴を入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出するステップとを含む。

本発明の第８のテキストマイニングプログラムは、属性付きのテキストの集合から特徴を抽出して出力する処理をコンピュータに実行させるテキストマイニングプログラムであって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴抽出する属性特徴抽出処理とを前記コンピュータに実行させる。

本発明の第９のテキストマイニングプログラムは、記憶装置にテキストの集合と前記テキストに対する属性値とを記憶させる処理と、テキストマイニングの条件を入力する条件指定処理と、前記条件に従ってテキストの特徴を抽出するテキストマイニング処理と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストと分類するのに有効な属性的な特徴抽出する属性特徴抽出処理と、をコンピュータに実行させる。

本発明の効果は、利用者にとって利用者により選択された特徴（テキストの）に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値（または、属性値の組み合わせ）を知ることができることである。

その理由は、利用者により指定されたテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例、出現しないテキストを負例としてデータマイニングを行い、正例と負例とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力するからである。

まず、本発明の概要について説明する。本発明のテキストマイニング装置は、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。

次に、テキストマイニング装置は、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する。

ここで、「正例と負例とを分類するのに有効な部分」とは、たとえば、「正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度が低い語句」である。すなわち、「正例のテキストには出現し、負例のテキストには、出現しない語句」に限定されるものではない。また、たとえば、出現頻度が高い、出現頻度が低いは、事前に設定されたそれぞれの「閾値」等との比較により決定することが可能である。また、たとえば、正例のテキストに出現する頻度と、負例のテキストに出現する頻度との比から決定することも可能である。このように、出現頻度の高低は、ある事前に設定された基準に基づいて決定されればよい。また、分類は、出現頻度以外の種々の尺度に基づくことが可能である。以降、「分類」を以上のような意味で使用する。

次に、本発明の第１の実施の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施の形態の構成を示すブロック図である。図１を参照すると、本発明の第１実施の形態のテキストマイニング装置は、キーボード、マウス等の入力装置１０と、情報を記憶するハードディスク等の記憶装置２１と、プログラム制御により動作するデータ処理装置３１と、ディスプレイ装置等の出力装置４０とから構成される。

記憶装置２１は、属性記憶部２０１と、テキスト記憶部２０２と、マイニング結果保持部２０３とを含む。属性記憶部２０１は、テキスト記憶部２０２に記憶される各テキストに対応付けて、そのテキストに付与された属性値の情報を記憶する。テキスト記憶部２０２は、テキストマイニングの対象となるテキストを記憶する。

図２にテキスト記憶部２０２の一例を、図３に属性記憶部２０１の一例を示す。この例では、各テキストに一意のテキスト番号を付与してテキスト記憶部２０２に格納し、属性記憶部２０１では、各テキスト番号に対して「問い合わせ種別」「機種名」「受付年月」「担当者」の４種類の属性の属性値を格納している。

なお、属性記憶部２０１とテキスト記憶部２０２とは、完全に分離する必要はなく、テキストとそのテキストに対する属性とを同時に記憶するように構成してもよい。マイニング結果保持部２０３は、テキスト記憶部２０２に記憶されているテキストに対して、テキストマイニングを行った結果得られる特徴を記憶する。

データ処理装置３１は、属性値条件指定手段３０１と、テキストマイニング手段３０２と、分析対象特徴指定手段３０３と、正例負例テキスト抽出手段３０４と、属性特徴抽出手段３０５とを含む。属性値条件指定手段３０１は、利用者が指定する正例（上述の第１種の）の属性値条件と負例（上述の第１種の）の属性値条件とを、入力装置１０を通して読み取る。

テキストマイニング手段３０２は、テキスト記憶部２０２に記憶されているテキストに対して、属性値条件指定手段３０１が読み取った正例の属性値条件に適合するものを正例のテキスト、負例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを適用する。これにより、テキストマイニング手段３０２は、正例のテキストの特徴として、正例を負例と分類するのに有効な特徴を抽出し、出力装置４０を通して利用者に出力する。また、抽出された特徴をマイニング結果保持部２０３に格納する。

テキストマイニングでは、一般に、単語、複数の単語からなる集合、フレーズ、文等、テキストの一部を構成する要素を特徴として抽出する。すなわち、テキストマイニングでは、これらの要素のうち、たとえば、負例のテキストにはあまり出現せず、正例のテキストに偏って出現するものを、正例のテキストの特徴として抽出する。このテキストマイニングには、非特許文献１記載の技術が部分的に適用可能である。

なお、テキストの構造を解析し、テキストをその解析結果の構造化データに変換した後に、構造化データの部分構造を特徴として抽出するテキストマイニング手法がある。これは、例えば、単語間の係り受け関係を事前に解析しておき、係り受けの関係にある２つの単語を特徴として抽出する手法や、依存構造解析によりテキストを依存構造木に変換し、その部分木を特徴として抽出する方法等である。このような手法を用いる場合は、テキストから得られた構造化データにある部分構造が包含されている場合に、該テキストに該部分構造が出現すると見なす。

テキストマイニング手段３０２は、テキストマイニングによって得られた特徴を出力装置４０を通して利用者に出力するとともに、マイニング結果保持部２０３に格納する。なお、出力装置４０を通して利用者に出力する情報は、抽出された特徴以外に、その特徴が出現するテキストが何件あるか、その特徴がどの程度正例のテキストに偏って出現しているか等の付加的な情報を含んでいてもよい。

分析対象特徴指定手段３０３は、テキストマイニング手段３０２によって出力された特徴のうち、着目すべき特徴を利用者に指定させ、その指定内容を入力装置１０を通して読み取る。

正例負例テキスト抽出手段３０４は、テキスト記憶部２０２に記憶されているテキストのうち、テキストマイニング手段３０２の処理の対象となったテキスト、すなわち、属性値条件指定手段３０１が読み取った正例または負例の属性値条件のいずれかに適合するテキストの各々について、分析対象特徴指定手段３０３が読み取った特徴が出現するかどうかを判別し、その特徴が出現するテキストを正例（上述の第２種の）、その特徴が出現しないテキストを負例（上述の第２種の）として抽出する。

なお、正例負例テキスト抽出手段３０４による正例と負例の判別を高速化するために、テキストマイニング手段３０２が、各特徴がどのテキストに出現するかを示すインデックスを作成して記録しておき、正例負例テキスト抽出手段３０４が、そのインデックスを参照して正例と負例との判別を行うようにしてもよい。

分析対象特徴指定手段３０３が、利用者に特徴を指定させる際、特徴を１つだけ指定させるようにしてもよいし、複数指定させるようにしてもよい。分析対象特徴指定手段３０３が利用者に複数の特徴を指定させる場合には、正例負例テキスト抽出手段３０４は、そのいずれかの特徴が出現するテキストを正例としてもよいし、そのすべての特徴が出現するテキストを正例とするようにしてもよい。

また、正例負例テキスト抽出手段３０４が正例と負例とを判別する際、分析対象特徴指定手段３０３が読み取った特徴がある閾値以上の回数出現するテキストのみを正例として判別するようにしてもよい。

属性特徴抽出手段３０５は、正例負例テキスト抽出手段３０４によって抽出された正例および負例のテキストを対象として、データマイニングを適用し、正例のテキストと負例のテキストとを分類するのに有効な特徴的な属性値または属性値の組み合わせを抽出して、出力装置４０を通して利用者に出力する。

本発明の第１の実施の形態において、属性特徴抽出手段３０５が適用するデータマイニング手法は、特定の方法に限定されない。

例えば、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、決定木分析の手法を用いることができる。すなわち、正例のテキストと負例のテキストを分類するための属性値の組み合わせを分岐条件とする決定木を求め、決定木において正例にいたるパスをたどるときの属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出することが可能である。なお、決定木は、例えば、非特許文献２に記載される手法を用いて求めることができる。

また、同様に、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、例えば、相関分析の手法を用いることもできる。すなわち、正例のテキストの集合をＴｐ、属性値の組み合わせによる条件Ｖを持つテキストの集合をＴ（Ｖ）、テキスト集合Ｘに属するテキストの数をＮ（Ｘ）と表すとき、確信度Ｃ（Ｖ）＝Ｎ（Ｔｐ∩Ｔ（Ｖ））／Ｎ（Ｔ（Ｖ））が予め定める閾値Ｃｔｈより高く、かつ、支持度Ｓ（Ｖ）＝Ｎ（Ｔｐ∩Ｔ（Ｖ））が予め定める閾値Ｓｔｈより高い場合に、Ｖで表される属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出する。これは、最小支持度と最小確信度を満たす相関ルールを抽出することに相当するため、例えば、非特許文献３に記載される手法により実現することが可能である。

このほか、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出することができる手法であれば、任意のデータマイニング手法を用いることができる。

次に、図１および図４を参照して本発明の実施の第１の形態の動作について詳細に説明する。図４は、本発明の実施の第１の形態の動作を示すフローチャートである。

まず、属性値条件指定手段３０１が、利用者が正例および負例の条件として指定する属性値条件を、入力装置１０を介して読み取る（図４ステップＡ１）。

次に、テキストマイニング手段３０２が、テキスト記憶部２０２に記憶されているテキストに対して、属性値条件指定手段３０１が読み取った正例の属性値条件に適合するものを正例のテキスト、正例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを行い、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する（ステップＡ２）。

テキストマイニング手段３０２は、抽出された特徴をマイニング結果保持部２０３に格納し、抽出された特徴をマイニング結果保持部２０３から読み出して出力装置４０を通して利用者に出力する（ステップＡ３）。次に、分析対象特徴指定手段３０３が、入力装置１０を介して利用者による特徴の選択を読み取る（ステップＡ４）。

正例負例テキスト抽出手段３０４は、テキスト記憶部２０２に記憶されているテキストを１つずつ読み出し（ステップＡ５）、そのテキストが、属性値条件指定手段３０１が読み取った正例または負例の属性値条件のいずれかに適合するかどうかを判定する（ステップＡ６）。適合する場合には（ステップＡ６／Ｙｅｓ）、正例負例テキスト抽出手段３０４は、そのテキストにステップＡ４で利用者により選択された特徴が出現するかどうかを判定する（ステップＡ７）。読み出したテキストに特徴が出現する場合には（ステップＡ７／Ｙｅｓ）、正例負例テキスト抽出手段３０４は、そのテキストを正例とし（ステップＡ８）、特徴が出現しない場合には（ステップＡ７／Ｎｏ）、そのテキストを負例とする（ステップＡ９）。正例負例テキスト抽出手段３０４は、すべてのテキストを処理し終えるまで、ステップＡ５−Ａ９の処理をくり返す（ステップＡ１０）。

次に、属性特徴抽出手段３０５が、データマイニングにより、ステップＡ５−Ａ１０の処理によって抽出された正例のテキストと負例のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出する（ステップＡ１１）。次に、属性特徴抽出手段３０５は、抽出結果（属性値または属性値の組み合わせ）を出力装置４０を介して利用者に出力する（ステップＡ１２）。

なお、本発明の第１の実施の形態では、属性値条件指定手段３０１が、利用者が指定する正例の属性値条件と負例の属性値条件とを読み取り、テキストマイニング手段３０２が、正例の属性値条件に適合するテキストを正例、負例の属性値条件に適合するテキストを負例としてテキストマイニングを行う。これとは異なり、属性値条件指定手段３０１が利用者から正例の属性値条件のみを受け取り、テキストマイニング手段３０２が、正例の属性値条件にあてはまらないテキストすべてを負例のテキストとして扱う構成も可能である。この場合、正例負例テキスト抽出手段３０４は、テキスト記憶部２０２に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。

また、属性値条件指定手段３０１を設けず、テキストマイニング手段３０２が、テキスト記憶部２０２に記憶されている全テキスト中で頻出する要素（単語、複数の単語からなる集合、フレーズ、文等）を抽出する構成が可能である。この場合も、正例負例テキスト抽出手段３０４は、テキスト記憶部２０２に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。

次に、本発明の第１の実施の形態の効果について説明する。

本発明の第１の実施の形態では、正例（第１種）、負例（第１種）の条件であるテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例（第２種の）、出現しないテキストを負例（第２種の）としてデータマイニングを行い、正例（第２種の）と負例（第２種の）とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力する。

すなわち、本発明の第１の実施の形態では、利用者により選択された特徴（テキストの）が出現するテキスト（必ずしも、選択されたすべての特徴が出現するテキストに限定されない）に特有の属性的な特徴を利用者に提示する。

したがって、利用者は、本発明の第１の実施の形態により、利用者により選択された特徴（テキストの）に基づく利用者が陽に指定しない新たなテキスト分類（第２種の正例、第２種の負例の分類）に有効な属性値（または、属性値の組み合わせ）を知ることができる。

次に、本発明の第２の実施の形態について詳細に説明する。図１における本発明の第２の実施の形態の構成は、本発明の第１の実施の形態の構成と同じである。本発明の第２の実施の形態は、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件のうち、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例をテキスト全体から分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。

本発明の第２の実施の形態は、テキストマイニング手段３０２が、第１種の正例にだけ基づくマイニングを行えばよいので、本発明の第１の実施の形態に比べて構成が簡単になるという効果を持つ。

次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。図５は、本発明の第３の実施の形態の構成を示すブロック図である。図５を参照すると、本発明の第３の実施の形態は、入力装置１０、記憶装置２２、データ処理装置３２（たとえば、コンピュータ）、出力装置４０、および、テキストマイニングプログラム５０とを備える。

テキストマイニングプログラム５０は、本発明の第１、第２の実施の形態の属性値条件指定手段３０１、テキストマイニング手段３０２、分析対象特徴指定手段３０３、正例負例テキスト抽出手段３０４、および、属性特徴抽出手段３０５の機能を実現する。テキストマイニングプログラム５０は、記憶装置２２、あるいは、図示しない他の記憶手段に格納される。

テキストマイニングプログラム５０は、記憶データ処理装置３２に読み込まれ、実行され、データ処理装置３２の動作を制御する。データ処理装置３２は、テキストマイニングプログラム５０の制御により第１、第２の実施の形態におけるデータ処理装置３１の処理と同一の処理を実行する。

このように、本発明の第３の実施の形態は、ハードウェアとソフトウェアとの協働により、図４の処理を実行するので、実現が容易であるという効果を持つ。

次に、本発明の第１の実施の形態の実施例について図面を参照して詳細に説明する。ここでは、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録のうち、修理依頼についての問い合わせを対象として、２００５年１０月の問い合わせの特徴を抽出する場合を例に、本発明の実施例の動作を説明する。

属性記憶部２０１には、図３に示すように、各テキストに対して「問い合わせ種別」「機種名」「受付年月」「担当者」の４種類の属性の属性値が格納されている。テキスト記憶部２０２には、図２に示すように、テキストマイニングの対象となるテキスト（応対記録の内容）が予め記憶されている。

このとき、まず、属性値条件指定手段３０１が、利用者による、テキストマイニングの正例および負例の属性値条件の指定を、入力装置１０を通して読み取る。

利用者は、ここで、正例（第１種）の属性値条件として『（「問い合わせ種別」＝「修理依頼」）ＡＮＤ（「受付年月」＝「２００５年１０月」）』、負例（第１種）の属性値条件として『（「問い合わせ種別」＝「修理依頼」）ＡＮＤ（「受付年月」≠「２００５年１０月」）』という条件を指定する。

次に、テキストマイニング手段３０２が、テキスト記憶部２０２に記憶されているテキストのうち、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が２００５年１０月」のものを正例とし、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が２００５年１０月でない」ものを負例としてテキストマイニングを実行し、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する。

図２のテキスト記憶部２０２に記録されているＴ１−Ｔ７のテキストでは、Ｔ１、Ｔ５、および、Ｔ７が正例（第１種）、Ｔ６が負例（第１種）となる。Ｔ２−Ｔ４のテキストは、正例の属性値条件にも負例の属性値条件にもあてはまらないため、テキストマイニングには用いられない。テキストマイニング手段３０２は、抽出した特徴を、出力装置４０を介して利用者に出力するとともに、マイニング結果保持部２０３に格納する。

図６は、テキストマイニングの結果の一例を示す説明図である。ここでは、テキストマイニング手段３０２が、テキスト中に出現する単語を特徴として抽出するものとし、図６に示すような特徴をマイニング結果保持部２０３に格納する。次に、分析対象特徴指定手段３０３が、利用者に着目する特徴を選択させ、その選択内容を入力装置１０を介して読み取る。

分析対象特徴指定手段３０３は、例えば、テキストマイニング手段３０２によって出力される特徴のそれぞれに対して、その特徴を選択するかどうかを入力できるようにし、利用者に特徴を選択させることができる。

図７は、出力装置４０に表示される内容の一例を示す説明図である。図７を参照すると、分析対象特徴指定手段３０３が、テキストマイニング手段３０２によって抽出された特徴のそれぞれに対して、利用者がその特徴を選択したことを示すためのチェックボックスを表示し、利用者がチェックボックスにチェックをつけた特徴を読み取る。図７では、利用者により、単語「ハードディスク」と単語「ＨＤＤ」が選択されている。

正例負例テキスト抽出手段３０４は、テキスト記憶部２０２に記憶されているテキストのうち、属性値条件指定手段３０１が読み取った正例（第１種の）または負例（第１種の）の属性値条件のいずれかに適合するテキストの各々について、利用者が指定した特徴が出現するかどうかを判別し、特徴が出現する場合には正例（第２種の）として、特徴が出現しない場合には負例（第２種の）として抽出する。

ここでは、利用者が指定した特徴のいずれかが出現する場合に、そのテキストを正例として抽出するものとする。

図２によると、Ｔ１のテキストは、属性値条件指定手段３０１が読み取った正例（第１種の）の属性値条件に適合し、なおかつ、単語「ハードディスク」を含むため、正例（第２種の）として抽出される。一方、Ｔ２−Ｔ４のテキストは、正例（第１種の）の属性値条件にも負例（第２種の）の属性値条件にもあてはまらないため、正例（第２種の）としても負例（第２種の）としても抽出されない。

Ｔ５のテキストは、属性値条件指定手段３０１が読み取った正例（第１種の）の属性値条件に適合するが、単語「ハードディスク」も単語「ＨＤＤ」も含まないため、負例（第２種の）として抽出される。

Ｔ６のテキストは、属性値条件指定手段３０１が読み取った負例（第１種の）の属性値条件に適合し、なおかつ、単語「ＨＤＤ」を含むため、正例（第２種の）として抽出される。Ｔ７のテキストは、属性値条件指定手段３０１が読み取った正例（第１種の）の属性値条件に適合し、なおかつ、単語「ＨＤＤ」を含むため、正例（第２種の）として抽出される。他のテキストについても、同様に処理が行われる。

次に、属性特徴抽出手段３０５が、正例負例テキスト抽出手段３０４によって抽出された正例（第２種の）、および、負例（第２種の）のテキストに対して、データマイニングを適用し、正例（第２種の）のテキストと負例（第２種の）のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出し、抽出結果を出力装置４０を介して利用者に出力する。

本実施例では、データマイニングにより、属性値の組み合わせを分岐条件とする、正例（第２種の）のテキストと負例（第２種の）のテキストとを分類する決定木を求め、決定木において正例（第２種の）にいたるパスに対応する属性値の組み合わせを、正例（第２種の）のテキストに特徴的に見られる属性値の組み合わせとして抽出する。図８は、決定木の一例を示す説明図である。

データマイニングにより、図８のような決定木が得られたとすると、正例（第２種の）のテキストに特徴的に見られる属性値の組み合わせとして、『（「受付年月」＝「２００５年１０月」ＯＲ「２００５年１１月」）ＡＮＤ（「機種名」＝「ＰＣ−１００」）』が得られる。

図９は、この場合の属性特徴抽出手段３０５の出力例を示す説明図である。図９を参照すると、出力された属性値の組み合わせは、『（「受付年月」＝「２００５年１０月」ＯＲ「２００５年１１月」）ＡＮＤ（「機種名」＝「ＰＣ−１００」）』である。

図１０は、本実施例の論理を示す説明図である。図１０を参照すると、本実施例において、利用者は、問い合わせ種別が修理依頼のテキストのうち、受付年月が２００５年１０月のものを正例（第１種の）とし（図１０（ａ）のＲ１１）、２００５年１０月以外のものを負例（第１種の）とし（図１０（ａ）のＲ１０）、テキストマイニングを行い、２００５年１０月の修理依頼の特徴として「ハードディスク」、「ＯＳ」、「ＨＤＤ」、「エラー」等の単語を得る。

次に、これらの特徴のうち、利用者に選択された「ハードディスク」と「ＨＤＤ」とに着目してデータマイニングを行い、テキストマイニングの対象とした、問い合わせ種別が修理依頼のテキストのうち、「ハードディスク」または「ＨＤＤ」が出現する正例（第２種の）テキスト（図１０（ｂ）のＲ２１）の属性的な特徴として『（「受付年月」＝「２００５年１０月」ＯＲ「２００５年１１月」）ＡＮＤ（「機種名」＝「ＰＣ−１００」）』という属性値の組み合わせを得る。

これにより、最初に正例として利用者が指定した条件は、問い合わせ種別が修理依頼で、なおかつ、受付年月が２００５年１０月であるという条件であったが、利用者は、「ハードディスク」または「ＨＤＤ」という単語が２００５年１０月だけでなく２００５年１１月の修理依頼のテキストを合わせても特徴的に出現しており、修理依頼のテキストの中でも、特にＰＣ−１００という機種に顕著に出現していることを知ることができる。

本発明によれば、コールセンタで録音した問い合わせのデータや報告書等の紙の文書データから不具合情報や問題点等の有効な知識を抽出するマイニングシステムや、マイニングシステムを実現するためのプログラムといった用途に適用できる。また、問い合わせの内容をテキストとして蓄積しておき、その中から頻出する問い合わせを抽出してＱ＆Ａ集を構築するシステム等の用途にも適用可能である。

本発明の第１の実施の形態の構成を示すブロック図。テキスト記憶部の内容の例を示す説明図。属性記憶部の内容の例を示す説明図。本発明の第１の実施の形態の動作を示すフローチャート。本発明の第２の実施の形態の構成を示すブロック図。テキストマイニングの結果の一例を示す説明図。出力装置に表示される内容の一例を示す説明図。決定木の一例を示す説明図。属性特徴抽出手段の出力の一例を示す説明図。本発明の第１の実施の形態の実施例の論理を示す説明図。

符号の説明

１０入力装置
４０出力装置
５０テキストマイニングプログラム
２１記憶装置
２２記憶装置
３１データ処理装置
３２データ処理装置
２０１属性記憶部
２０２テキスト記憶部
２０３マイニング結果保持部
３０１属性値条件指定手段
３０２テキストマイニング手段
３０３分析対象特徴指定手段
３０４正例負例テキスト抽出手段
３０５属性特徴抽出手段

Claims

利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出し、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力するデータ処理装置とを有することを特徴とするテキストマイニング装置。
第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項１、または、２記載のテキストマイニング装置。
第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項１、２、または、３記載のテキストマイニング装置。
利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力し、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
格納されている全テキスト中で頻出する要素を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
テキストマイニング装置が、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含むことを特徴とするテキストマイニング方法。
複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニング方法であって、
前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含むことを特徴とするテキストマイニング方法。
第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項８、または、９記載のテキストマイニング方法。
第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項８、９、または、１０記載のテキストマイニング方法。
テキストマイニング装置が、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力する手順と、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含むことを特徴とするテキストマイニング方法。
テキストマイニング装置が、利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含むことを特徴とするテキストマイニング方法。
テキストマイニング装置が、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含むことを特徴とするテキストマイニング方法。
利用者により指定された第１種の正例、第１種の負例の条件である属性値条件に基づいてテキストマイニングを行い第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニングプログラムであって、
前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第１種の正例と第１種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別し、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させることを特徴とするテキストマイニングプログラム。
第１種の正例と第１種の負例とを分類するのに有効な部分が、事前に設定された第１の基準に基づく「第１種の正例のテキストでの出現頻度が高く、第１種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項１５、または、１６記載のテキストマイニングプログラム。
第２種の正例と、第２種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第２の基準に基づく「第２種の正例に対する属性値として出現頻度が高く、第２種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項１５、１６、または、１７記載のテキストマイニングプログラム。
利用者により指定された第１種の正例、第１種の負例の条件である属性値条件を入力する手順と、第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第１種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
利用者により指定された第１種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第１種の正例とし、残りのテキストを第１種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第１種の正例、および、第１種の負例に該当するテキストを、選択された特徴が出現する第２種の正例のテキストと選択された特徴が出現しない第２種の負例のテキストとに分別する手順と、第２種の正例と第２種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング装置であって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段とを有することを特徴とするテキストマイニング装置。
テキストの集合を保持するテキスト記憶手段と、前記テキストに対する属性値を保持する属性記憶手段と、テキストマイニングの条件を入力する条件指定手段と、前記条件に従ってテキストの特徴を抽出するテキストマイニング手段と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段と、を有することを特徴とするテキストマイニング装置。
コンピュータが属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング方法であって、前記特徴の中から着目すべき特徴を前記コンピュータが入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを前記コンピュータが抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を前記コンピュータが抽出するステップとを含むことを特徴とするテキストマイニング方法。
コンピュータにテキストの集合と、前記テキストに対する属性値とを記憶させ、前記コンピュータに、テキストマイニングの条件を入力するステップと、前記条件に従ってテキストの特徴を抽出するステップと、前記特徴の中から着目すべき特徴を入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出するステップとを含むことを特徴とするテキストマイニング方法。
属性付きのテキストの集合から特徴を抽出して出力する処理をコンピュータに実行させるテキストマイニングプログラムであって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴抽出する属性特徴抽出処理とを前記コンピュータに実行させることを特徴とするテキストマイニングプログラム。
記憶装置にテキストの集合と前記テキストに対する属性値とを記憶させる処理と、テキストマイニングの条件を入力する条件指定処理と、前記条件に従ってテキストの特徴を抽出するテキストマイニング処理と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストと分類するのに有効な属性的な特徴抽出する属性特徴抽出処理と、をコンピュータに実行させることを特徴とするテキストマイニングプログラム。