JP2010061176A - テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム Download PDF

Info

Publication number
JP2010061176A
JP2010061176A JP2006315862A JP2006315862A JP2010061176A JP 2010061176 A JP2010061176 A JP 2010061176A JP 2006315862 A JP2006315862 A JP 2006315862A JP 2006315862 A JP2006315862 A JP 2006315862A JP 2010061176 A JP2010061176 A JP 2010061176A
Authority
JP
Japan
Prior art keywords
text
type
feature
positive example
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006315862A
Other languages
English (en)
Inventor
Takahiro Ikeda
崇博 池田
Satoshi Nakazawa
聡 中澤
Yosuke Sakao
要祐 坂尾
Kenji Sato
研治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006315862A priority Critical patent/JP2010061176A/ja
Priority to PCT/JP2007/072527 priority patent/WO2008062822A1/ja
Publication of JP2010061176A publication Critical patent/JP2010061176A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値(または、属性値の組み合わせ)を生成する。
【解決手段】属性条件指定手段301は、入力装置10を介して利用者による第1種の正例・負例の属性値の条件を読み取り、テキストマイニング手段302は、テキスト記憶部202のテキストのマイニングを実行し、第1種の正例と負例とを分類するのに有効な特徴を抽出しマイニング結果保持部203に格納し出力装置40を介して表示する。分析対象特徴指定手段303は、利用者により選択された特徴を入力し、正例負例テキスト抽出手段304は、第1種の正例と負例に該当するテキストを選択された特徴に基づいて、第2種の正例・負例に分別し、属性特徴抽出手段305は、第2種の正例と負例とを分類するのに有効な属性値を出力する。
【選択図】 図1

Description

本発明は、テキストの特徴として単語を抽出するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関し、特に、マイニング結果として得られた単語から、その単語を含むテキストに特徴的な属性を抽出することができるテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムに関する。
テキストマイニングとは、いくつかの属性に関して属性値を付与されたテキストの集合に対して、利用者が特定の属性値を持つテキストを正例として指定したときに、正例のテキストに偏って出現する特徴を抽出し、出力する処理である。
例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録の場合、通常、受け付けた問い合わせ内容を記述したテキスト以外に、受け付けた問い合わせがどのような種類のものであったのかを表す「質問」「要望」「修理依頼」等の問い合わせ種別、問い合わせの対象であった機種の名称、問い合わせを受け付けた日、問い合わせに応対した担当者の氏名等をセットで記録しておくことが多い。テキストマイニングでは、このようなテキストを、「問い合わせ種別」属性、「機種名」属性、「受付日」属性、「担当者」属性の属性値が付与されたテキストと見なし、例えば、「問い合わせ種別」属性値として「修理依頼」を持つテキストを正例として、正例のテキストに偏って出現する特徴を抽出することができる。
従来のテキストマイニング装置は、各テキストから単語を抽出し、正例として指定される特定の属性値を持つテキストと関連性が高い単語もしくは単語の組み合わせを、その正例の特徴として抽出するように構成される。
この種のテキストマイニング装置の一例が、特許文献1に記載されている。この特許文献1に記載されたテキストマイニング装置は、マイニング対象のテキスト中に出現する特徴的な語句を抽出する特徴語抽出処理部と、分析の対象とする分類軸(属性に相当)を設定する分析軸設定処理部と、分類軸の各カテゴリ(属性値に相当)と関連する度合いが高い語句を抽出する関連語句取得処理部とを有し、分析の対象として利用者が設定した分類軸の各カテゴリに特徴的な語句を抽出する。
また、この種のテキストマイニング方法の別の一例が、非特許文献1に記載されている。この非特許文献1に記載されたテキストマイニング方法は、正例のテキスト(目的群)と、負例のテキスト(対象群)とが与えられたとき、正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度ができるだけ低いテキスト中のパターン、すなわち、その出現頻度によって正例と負例とを分離するのに有効なパターンを発見し、そのパターンを正例の特徴として抽出するものである。
一方、テキスト以外のデータ集合から、何らかのパターンやルールを学習する技術はデータマイニングと呼ばれ、データマイニングを行うさまざまな手法が広く知られている。
データマイニングを行う手法の一例として、分岐征服のアルゴリズムおよびカバーリングのアルゴリズムが、非特許文献2に記載されている。この手法は、予め正例と負例に分けられた属性付きのデータ集合がある場合に、正例を弁別する決定木を求める手法である。
また、データマイニングを行う別の手法の一例が、非特許文献3に記載されている。この手法は、アイテムの組み合わせであるトランザクションの集合が与えられたときに、アイテムの集合間の相関ルールを求めるための手法である。
特開2003−141134号公報 安部潤一郎他4名、「テキストデータからの高速データマイニング−探索的文書ブラウジングとウェブデータへの応用−」、人工知能学会誌、Vol.15、No.4、2000年7月、pp.618−628 元田浩他2名、「機械学習とデータマイニング」、人工知能学会誌、Vol.12、No.4、1997年7月、pp.505−512 喜連川優、「データマイニングにおける相関ルール抽出技法」、人工知能学会誌、Vol.12、No.4、1997年7月、pp.513−520
テキストマイニングによって、利用者が正例として指定するテキストに顕著に見られる特徴があれば、それを抽出することができる。このため、何らかの特徴が抽出された場合、利用者は、正例として指定したテキストには共通の特徴があることを知ることができる。しかしながら、抽出された特徴は、正例として指定されたテキスト全般に一様に出現しているとは限らない。また、正例として指定されたテキストだけに出現しているとも限らない。
例えば、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録に対して、受付年月が「2005年10月」で、問い合わせ種別が「修理依頼」のテキストを正例としてテキストマイニングを行い、正例の特徴として単語「ハードディスク」が抽出されたとする。これは、受付年月が「2006年10月」で、問い合わせ種別が「修理依頼」のテキストにおいては、その他のテキストと比べ、単語「ハードディスク」が偏って出現していることを意味している。利用者は、この結果から、2005年10月の修理依頼は、他と比べて「ハードディスク」に関するものが多かったことを知ることができる。
このとき、実際には、単語「ハードディスク」が、受付年月が「2005年10月」で、問い合わせ種別が「修理依頼」であるテキストのうち、機種名が「PC−100」であるテキストに特に偏って出現している可能性がある。また、単語「ハードディスク」が、受付日が「2005年11月」で、問い合わせ種別が「修理依頼」であるテキストにも他と比べて多く出現している可能性もある。しかしながら、利用者は、従来それを知ることができなかった。
以上のように、上述した従来のテキストマイニング装置の問題点は、テキストから特徴が抽出されたときに、その特徴がどの範囲のテキストに出現しているのかを利用者に提示できないことにある。すなわち、従来のテキストマイニング装置では、利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値(または、属性値の組み合わせ)を知ることができない。その理由は、上述した従来のテキストマイニング装置では、抽出された特徴が出現するテキストが、その特徴が出現するということ以外に、どのような共通する特徴を持つのかという情報を利用者に提示しないためである。
本発明の目的は、上述した問題点を解決するテキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラムを提供することにある。
本発明の第1のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。
本発明の第2のテキストマイニング装置は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出し、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力するデータ処理装置とを有する。
本発明の第3のテキストマイニング装置は、前記第1、または、第2のテキストマイニング装置であって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。
本発明の第4のテキストマイニング装置は、前記第1、第2、または、第3のテキストマイニング装置であって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。
本発明の第5のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力し、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。
本発明の第6のテキストマイニング装置は、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。
本発明の第7のテキストマイニング装置は、格納されている全テキスト中で頻出する要素を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有する。
本発明の第1のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。
本発明の第2のテキストマイニング方法は、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニング方法であって、前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含む。
本発明の第3のテキストマイニング方法は、前記第1、または、第2のテキストマイニング方法であって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。
本発明の第4のテキストマイニング方法は、前記第1、第2、または、第3のテキストマイニング方法であって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。
本発明の第5のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含む。
本発明の第6のテキストマイニング方法は、テキストマイニング装置が、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。
本発明の第7のテキストマイニング方法は、テキストマイニング装置が、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含む。
本発明の第1のテキストマイニングプログラムは、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。
本発明の第2のテキストマイニングプログラムは、複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニングプログラムであって、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させる。
本発明の第3のテキストマイニングプログラムは、前記第1、または、第2のテキストマイニングプログラムであって、第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」である。
本発明の第4のテキストマイニングプログラムは、前記第1、第2、または、第3のテキストマイニングプログラムであって、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせである。
本発明の第5のテキストマイニングプログラムは、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。
本発明の第6のテキストマイニングプログラムは、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。
本発明の第7のテキストマイニングプログラムは、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させる。
本発明の第8のテキストマイニング装置は、属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング装置であって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段とを有する。
本発明の第9のテキストマイニング装置は、テキストの集合を保持するテキスト記憶手段と、前記テキストに対する属性値を保持する属性記憶手段と、テキストマイニングの条件を入力する条件指定手段と、前記条件に従ってテキストの特徴を抽出するテキストマイニング手段と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段と、を有する。
本発明の第8のテキストマイニング方法は、コンピュータが属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング方法であって、前記特徴の中から着目すべき特徴を前記コンピュータが入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを前記コンピュータが抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を前記コンピュータが抽出するステップとを含む。
本発明の第9のテキストマイニング方法は、コンピュータにテキストの集合と、前記テキストに対する属性値とを記憶させ、前記コンピュータに、テキストマイニングの条件を入力するステップと、前記条件に従ってテキストの特徴を抽出するステップと、前記特徴の中から着目すべき特徴を入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出するステップとを含む。
本発明の第8のテキストマイニングプログラムは、属性付きのテキストの集合から特徴を抽出して出力する処理をコンピュータに実行させるテキストマイニングプログラムであって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴抽出する属性特徴抽出処理とを前記コンピュータに実行させる。
本発明の第9のテキストマイニングプログラムは、記憶装置にテキストの集合と前記テキストに対する属性値とを記憶させる処理と、テキストマイニングの条件を入力する条件指定処理と、前記条件に従ってテキストの特徴を抽出するテキストマイニング処理と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストと分類するのに有効な属性的な特徴抽出する属性特徴抽出処理と、をコンピュータに実行させる。
本発明の効果は、利用者にとって利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類に有効な属性値(または、属性値の組み合わせ)を知ることができることである。
その理由は、利用者により指定されたテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例、出現しないテキストを負例としてデータマイニングを行い、正例と負例とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力するからである。
まず、本発明の概要について説明する。本発明のテキストマイニング装置は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。
次に、テキストマイニング装置は、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する。
ここで、「正例と負例とを分類するのに有効な部分」とは、たとえば、「正例のテキストでの出現頻度が高く、負例のテキストでの出現頻度が低い語句」である。すなわち、「正例のテキストには出現し、負例のテキストには、出現しない語句」に限定されるものではない。また、たとえば、出現頻度が高い、出現頻度が低いは、事前に設定されたそれぞれの「閾値」等との比較により決定することが可能である。また、たとえば、正例のテキストに出現する頻度と、負例のテキストに出現する頻度との比から決定することも可能である。このように、出現頻度の高低は、ある事前に設定された基準に基づいて決定されればよい。また、分類は、出現頻度以外の種々の尺度に基づくことが可能である。以降、「分類」を以上のような意味で使用する。
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施の形態の構成を示すブロック図である。図1を参照すると、本発明の第1実施の形態のテキストマイニング装置は、キーボード、マウス等の入力装置10と、情報を記憶するハードディスク等の記憶装置21と、プログラム制御により動作するデータ処理装置31と、ディスプレイ装置等の出力装置40とから構成される。
記憶装置21は、属性記憶部201と、テキスト記憶部202と、マイニング結果保持部203とを含む。属性記憶部201は、テキスト記憶部202に記憶される各テキストに対応付けて、そのテキストに付与された属性値の情報を記憶する。テキスト記憶部202は、テキストマイニングの対象となるテキストを記憶する。
図2にテキスト記憶部202の一例を、図3に属性記憶部201の一例を示す。この例では、各テキストに一意のテキスト番号を付与してテキスト記憶部202に格納し、属性記憶部201では、各テキスト番号に対して「問い合わせ種別」「機種名」「受付年月」「担当者」の4種類の属性の属性値を格納している。
なお、属性記憶部201とテキスト記憶部202とは、完全に分離する必要はなく、テキストとそのテキストに対する属性とを同時に記憶するように構成してもよい。マイニング結果保持部203は、テキスト記憶部202に記憶されているテキストに対して、テキストマイニングを行った結果得られる特徴を記憶する。
データ処理装置31は、属性値条件指定手段301と、テキストマイニング手段302と、分析対象特徴指定手段303と、正例負例テキスト抽出手段304と、属性特徴抽出手段305とを含む。属性値条件指定手段301は、利用者が指定する正例(上述の第1種の)の属性値条件と負例(上述の第1種の)の属性値条件とを、入力装置10を通して読み取る。
テキストマイニング手段302は、テキスト記憶部202に記憶されているテキストに対して、属性値条件指定手段301が読み取った正例の属性値条件に適合するものを正例のテキスト、負例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを適用する。これにより、テキストマイニング手段302は、正例のテキストの特徴として、正例を負例と分類するのに有効な特徴を抽出し、出力装置40を通して利用者に出力する。また、抽出された特徴をマイニング結果保持部203に格納する。
テキストマイニングでは、一般に、単語、複数の単語からなる集合、フレーズ、文等、テキストの一部を構成する要素を特徴として抽出する。すなわち、テキストマイニングでは、これらの要素のうち、たとえば、負例のテキストにはあまり出現せず、正例のテキストに偏って出現するものを、正例のテキストの特徴として抽出する。このテキストマイニングには、非特許文献1記載の技術が部分的に適用可能である。
なお、テキストの構造を解析し、テキストをその解析結果の構造化データに変換した後に、構造化データの部分構造を特徴として抽出するテキストマイニング手法がある。これは、例えば、単語間の係り受け関係を事前に解析しておき、係り受けの関係にある2つの単語を特徴として抽出する手法や、依存構造解析によりテキストを依存構造木に変換し、その部分木を特徴として抽出する方法等である。このような手法を用いる場合は、テキストから得られた構造化データにある部分構造が包含されている場合に、該テキストに該部分構造が出現すると見なす。
テキストマイニング手段302は、テキストマイニングによって得られた特徴を出力装置40を通して利用者に出力するとともに、マイニング結果保持部203に格納する。なお、出力装置40を通して利用者に出力する情報は、抽出された特徴以外に、その特徴が出現するテキストが何件あるか、その特徴がどの程度正例のテキストに偏って出現しているか等の付加的な情報を含んでいてもよい。
分析対象特徴指定手段303は、テキストマイニング手段302によって出力された特徴のうち、着目すべき特徴を利用者に指定させ、その指定内容を入力装置10を通して読み取る。
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストのうち、テキストマイニング手段302の処理の対象となったテキスト、すなわち、属性値条件指定手段301が読み取った正例または負例の属性値条件のいずれかに適合するテキストの各々について、分析対象特徴指定手段303が読み取った特徴が出現するかどうかを判別し、その特徴が出現するテキストを正例(上述の第2種の)、その特徴が出現しないテキストを負例(上述の第2種の)として抽出する。
なお、正例負例テキスト抽出手段304による正例と負例の判別を高速化するために、テキストマイニング手段302が、各特徴がどのテキストに出現するかを示すインデックスを作成して記録しておき、正例負例テキスト抽出手段304が、そのインデックスを参照して正例と負例との判別を行うようにしてもよい。
分析対象特徴指定手段303が、利用者に特徴を指定させる際、特徴を1つだけ指定させるようにしてもよいし、複数指定させるようにしてもよい。分析対象特徴指定手段303が利用者に複数の特徴を指定させる場合には、正例負例テキスト抽出手段304は、そのいずれかの特徴が出現するテキストを正例としてもよいし、そのすべての特徴が出現するテキストを正例とするようにしてもよい。
また、正例負例テキスト抽出手段304が正例と負例とを判別する際、分析対象特徴指定手段303が読み取った特徴がある閾値以上の回数出現するテキストのみを正例として判別するようにしてもよい。
属性特徴抽出手段305は、正例負例テキスト抽出手段304によって抽出された正例および負例のテキストを対象として、データマイニングを適用し、正例のテキストと負例のテキストとを分類するのに有効な特徴的な属性値または属性値の組み合わせを抽出して、出力装置40を通して利用者に出力する。
本発明の第1の実施の形態において、属性特徴抽出手段305が適用するデータマイニング手法は、特定の方法に限定されない。
例えば、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、決定木分析の手法を用いることができる。すなわち、正例のテキストと負例のテキストを分類するための属性値の組み合わせを分岐条件とする決定木を求め、決定木において正例にいたるパスをたどるときの属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出することが可能である。なお、決定木は、例えば、非特許文献2に記載される手法を用いて求めることができる。
また、同様に、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出するためのデータマイニング手法として、例えば、相関分析の手法を用いることもできる。すなわち、正例のテキストの集合をTp、属性値の組み合わせによる条件Vを持つテキストの集合をT(V)、テキスト集合Xに属するテキストの数をN(X)と表すとき、確信度C(V)=N(Tp∩T(V))/N(T(V))が予め定める閾値Cthより高く、かつ、支持度S(V)=N(Tp∩T(V))が予め定める閾値Sthより高い場合に、Vで表される属性値の組み合わせを正例のテキストに特有の属性値の組み合わせとして抽出する。これは、最小支持度と最小確信度を満たす相関ルールを抽出することに相当するため、例えば、非特許文献3に記載される手法により実現することが可能である。
このほか、正例のテキストに特徴的な属性値または属性値の組み合わせを抽出することができる手法であれば、任意のデータマイニング手法を用いることができる。
次に、図1および図4を参照して本発明の実施の第1の形態の動作について詳細に説明する。図4は、本発明の実施の第1の形態の動作を示すフローチャートである。
まず、属性値条件指定手段301が、利用者が正例および負例の条件として指定する属性値条件を、入力装置10を介して読み取る(図4ステップA1)。
次に、テキストマイニング手段302が、テキスト記憶部202に記憶されているテキストに対して、属性値条件指定手段301が読み取った正例の属性値条件に適合するものを正例のテキスト、正例の属性値条件に適合するものを負例のテキストとしてテキストマイニングを行い、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する(ステップA2)。
テキストマイニング手段302は、抽出された特徴をマイニング結果保持部203に格納し、抽出された特徴をマイニング結果保持部203から読み出して出力装置40を通して利用者に出力する(ステップA3)。次に、分析対象特徴指定手段303が、入力装置10を介して利用者による特徴の選択を読み取る(ステップA4)。
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストを1つずつ読み出し(ステップA5)、そのテキストが、属性値条件指定手段301が読み取った正例または負例の属性値条件のいずれかに適合するかどうかを判定する(ステップA6)。適合する場合には(ステップA6/Yes)、正例負例テキスト抽出手段304は、そのテキストにステップA4で利用者により選択された特徴が出現するかどうかを判定する(ステップA7)。読み出したテキストに特徴が出現する場合には(ステップA7/Yes)、正例負例テキスト抽出手段304は、そのテキストを正例とし(ステップA8)、特徴が出現しない場合には(ステップA7/No)、そのテキストを負例とする(ステップA9)。正例負例テキスト抽出手段304は、すべてのテキストを処理し終えるまで、ステップA5−A9の処理をくり返す(ステップA10)。
次に、属性特徴抽出手段305が、データマイニングにより、ステップA5−A10の処理によって抽出された正例のテキストと負例のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出する(ステップA11)。次に、属性特徴抽出手段305は、抽出結果(属性値または属性値の組み合わせ)を出力装置40を介して利用者に出力する(ステップA12)。
なお、本発明の第1の実施の形態では、属性値条件指定手段301が、利用者が指定する正例の属性値条件と負例の属性値条件とを読み取り、テキストマイニング手段302が、正例の属性値条件に適合するテキストを正例、負例の属性値条件に適合するテキストを負例としてテキストマイニングを行う。これとは異なり、属性値条件指定手段301が利用者から正例の属性値条件のみを受け取り、テキストマイニング手段302が、正例の属性値条件にあてはまらないテキストすべてを負例のテキストとして扱う構成も可能である。この場合、正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。
また、属性値条件指定手段301を設けず、テキストマイニング手段302が、テキスト記憶部202に記憶されている全テキスト中で頻出する要素(単語、複数の単語からなる集合、フレーズ、文等)を抽出する構成が可能である。この場合も、正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されている全テキストを対象に正例のテキストと負例のテキストを抽出する。
次に、本発明の第1の実施の形態の効果について説明する。
本発明の第1の実施の形態では、正例(第1種)、負例(第1種)の条件であるテキストの属性値に基づくテキストマイニングによって抽出されたテキストの特徴のうち、利用者が選択したものが出現するテキストを正例(第2種の)、出現しないテキストを負例(第2種の)としてデータマイニングを行い、正例(第2種の)と負例(第2種の)とを分類するのに有効な属性値または属性値の組み合わせを抽出して出力する。
すなわち、本発明の第1の実施の形態では、利用者により選択された特徴(テキストの)が出現するテキスト(必ずしも、選択されたすべての特徴が出現するテキストに限定されない)に特有の属性的な特徴を利用者に提示する。
したがって、利用者は、本発明の第1の実施の形態により、利用者により選択された特徴(テキストの)に基づく利用者が陽に指定しない新たなテキスト分類(第2種の正例、第2種の負例の分類)に有効な属性値(または、属性値の組み合わせ)を知ることができる。
次に、本発明の第2の実施の形態について詳細に説明する。図1における本発明の第2の実施の形態の構成は、本発明の第1の実施の形態の構成と同じである。本発明の第2の実施の形態は、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件のうち、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例をテキスト全体から分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を利用者に選択させる。
次に、テキストマイニング装置は、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する。
本発明の第2の実施の形態は、テキストマイニング手段302が、第1種の正例にだけ基づくマイニングを行えばよいので、本発明の第1の実施の形態に比べて構成が簡単になるという効果を持つ。
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。図5は、本発明の第3の実施の形態の構成を示すブロック図である。図5を参照すると、本発明の第3の実施の形態は、入力装置10、記憶装置22、データ処理装置32(たとえば、コンピュータ)、出力装置40、および、テキストマイニングプログラム50とを備える。
テキストマイニングプログラム50は、本発明の第1、第2の実施の形態の属性値条件指定手段301、テキストマイニング手段302、分析対象特徴指定手段303、正例負例テキスト抽出手段304、および、属性特徴抽出手段305の機能を実現する。テキストマイニングプログラム50は、記憶装置22、あるいは、図示しない他の記憶手段に格納される。
テキストマイニングプログラム50は、記憶データ処理装置32に読み込まれ、実行され、データ処理装置32の動作を制御する。データ処理装置32は、テキストマイニングプログラム50の制御により第1、第2の実施の形態におけるデータ処理装置31の処理と同一の処理を実行する。
このように、本発明の第3の実施の形態は、ハードウェアとソフトウェアとの協働により、図4の処理を実行するので、実現が容易であるという効果を持つ。
次に、本発明の第1の実施の形態の実施例について図面を参照して詳細に説明する。ここでは、製品に関する問い合わせを受け付けるコンタクトセンターにおける応対記録のうち、修理依頼についての問い合わせを対象として、2005年10月の問い合わせの特徴を抽出する場合を例に、本発明の実施例の動作を説明する。
属性記憶部201には、図3に示すように、各テキストに対して「問い合わせ種別」「機種名」「受付年月」「担当者」の4種類の属性の属性値が格納されている。テキスト記憶部202には、図2に示すように、テキストマイニングの対象となるテキスト(応対記録の内容)が予め記憶されている。
このとき、まず、属性値条件指定手段301が、利用者による、テキストマイニングの正例および負例の属性値条件の指定を、入力装置10を通して読み取る。
利用者は、ここで、正例(第1種)の属性値条件として『(「問い合わせ種別」=「修理依頼」)AND(「受付年月」=「2005年10月」)』、負例(第1種)の属性値条件として『(「問い合わせ種別」=「修理依頼」)AND(「受付年月」≠「2005年10月」)』という条件を指定する。
次に、テキストマイニング手段302が、テキスト記憶部202に記憶されているテキストのうち、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が2005年10月」のものを正例とし、「問い合わせ種別が修理依頼」で、なおかつ、「受付年月が2005年10月でない」ものを負例としてテキストマイニングを実行し、正例のテキストと負例のテキストとを分類するのに有効な特徴を抽出する。
図2のテキスト記憶部202に記録されているT1−T7のテキストでは、T1、T5、および、T7が正例(第1種)、T6が負例(第1種)となる。T2−T4のテキストは、正例の属性値条件にも負例の属性値条件にもあてはまらないため、テキストマイニングには用いられない。テキストマイニング手段302は、抽出した特徴を、出力装置40を介して利用者に出力するとともに、マイニング結果保持部203に格納する。
図6は、テキストマイニングの結果の一例を示す説明図である。ここでは、テキストマイニング手段302が、テキスト中に出現する単語を特徴として抽出するものとし、図6に示すような特徴をマイニング結果保持部203に格納する。次に、分析対象特徴指定手段303が、利用者に着目する特徴を選択させ、その選択内容を入力装置10を介して読み取る。
分析対象特徴指定手段303は、例えば、テキストマイニング手段302によって出力される特徴のそれぞれに対して、その特徴を選択するかどうかを入力できるようにし、利用者に特徴を選択させることができる。
図7は、出力装置40に表示される内容の一例を示す説明図である。図7を参照すると、分析対象特徴指定手段303が、テキストマイニング手段302によって抽出された特徴のそれぞれに対して、利用者がその特徴を選択したことを示すためのチェックボックスを表示し、利用者がチェックボックスにチェックをつけた特徴を読み取る。図7では、利用者により、単語「ハードディスク」と単語「HDD」が選択されている。
正例負例テキスト抽出手段304は、テキスト記憶部202に記憶されているテキストのうち、属性値条件指定手段301が読み取った正例(第1種の)または負例(第1種の)の属性値条件のいずれかに適合するテキストの各々について、利用者が指定した特徴が出現するかどうかを判別し、特徴が出現する場合には正例(第2種の)として、特徴が出現しない場合には負例(第2種の)として抽出する。
ここでは、利用者が指定した特徴のいずれかが出現する場合に、そのテキストを正例として抽出するものとする。
図2によると、T1のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合し、なおかつ、単語「ハードディスク」を含むため、正例(第2種の)として抽出される。一方、T2−T4のテキストは、正例(第1種の)の属性値条件にも負例(第2種の)の属性値条件にもあてはまらないため、正例(第2種の)としても負例(第2種の)としても抽出されない。
T5のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合するが、単語「ハードディスク」も単語「HDD」も含まないため、負例(第2種の)として抽出される。
T6のテキストは、属性値条件指定手段301が読み取った負例(第1種の)の属性値条件に適合し、なおかつ、単語「HDD」を含むため、正例(第2種の)として抽出される。T7のテキストは、属性値条件指定手段301が読み取った正例(第1種の)の属性値条件に適合し、なおかつ、単語「HDD」を含むため、正例(第2種の)として抽出される。他のテキストについても、同様に処理が行われる。
次に、属性特徴抽出手段305が、正例負例テキスト抽出手段304によって抽出された正例(第2種の)、および、負例(第2種の)のテキストに対して、データマイニングを適用し、正例(第2種の)のテキストと負例(第2種の)のテキストとを分類するのに有効な属性値または属性値の組み合わせを抽出し、抽出結果を出力装置40を介して利用者に出力する。
本実施例では、データマイニングにより、属性値の組み合わせを分岐条件とする、正例(第2種の)のテキストと負例(第2種の)のテキストとを分類する決定木を求め、決定木において正例(第2種の)にいたるパスに対応する属性値の組み合わせを、正例(第2種の)のテキストに特徴的に見られる属性値の組み合わせとして抽出する。図8は、決定木の一例を示す説明図である。
データマイニングにより、図8のような決定木が得られたとすると、正例(第2種の)のテキストに特徴的に見られる属性値の組み合わせとして、『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』が得られる。
図9は、この場合の属性特徴抽出手段305の出力例を示す説明図である。図9を参照すると、出力された属性値の組み合わせは、『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』である。
図10は、本実施例の論理を示す説明図である。図10を参照すると、本実施例において、利用者は、問い合わせ種別が修理依頼のテキストのうち、受付年月が2005年10月のものを正例(第1種の)とし(図10(a)のR11)、2005年10月以外のものを負例(第1種の)とし(図10(a)のR10)、テキストマイニングを行い、2005年10月の修理依頼の特徴として「ハードディスク」、「OS」、「HDD」、「エラー」等の単語を得る。
次に、これらの特徴のうち、利用者に選択された「ハードディスク」と「HDD」とに着目してデータマイニングを行い、テキストマイニングの対象とした、問い合わせ種別が修理依頼のテキストのうち、「ハードディスク」または「HDD」が出現する正例(第2種の)テキスト(図10(b)のR21)の属性的な特徴として『(「受付年月」=「2005年10月」OR「2005年11月」)AND(「機種名」=「PC−100」)』という属性値の組み合わせを得る。
これにより、最初に正例として利用者が指定した条件は、問い合わせ種別が修理依頼で、なおかつ、受付年月が2005年10月であるという条件であったが、利用者は、「ハードディスク」または「HDD」という単語が2005年10月だけでなく2005年11月の修理依頼のテキストを合わせても特徴的に出現しており、修理依頼のテキストの中でも、特にPC−100という機種に顕著に出現していることを知ることができる。
本発明によれば、コールセンタで録音した問い合わせのデータや報告書等の紙の文書データから不具合情報や問題点等の有効な知識を抽出するマイニングシステムや、マイニングシステムを実現するためのプログラムといった用途に適用できる。また、問い合わせの内容をテキストとして蓄積しておき、その中から頻出する問い合わせを抽出してQ&A集を構築するシステム等の用途にも適用可能である。
本発明の第1の実施の形態の構成を示すブロック図。 テキスト記憶部の内容の例を示す説明図。 属性記憶部の内容の例を示す説明図。 本発明の第1の実施の形態の動作を示すフローチャート。 本発明の第2の実施の形態の構成を示すブロック図。 テキストマイニングの結果の一例を示す説明図。 出力装置に表示される内容の一例を示す説明図。 決定木の一例を示す説明図。 属性特徴抽出手段の出力の一例を示す説明図。 本発明の第1の実施の形態の実施例の論理を示す説明図。
符号の説明
10 入力装置
40 出力装置
50 テキストマイニングプログラム
21 記憶装置
22 記憶装置
31 データ処理装置
32 データ処理装置
201 属性記憶部
202 テキスト記憶部
203 マイニング結果保持部
301 属性値条件指定手段
302 テキストマイニング手段
303 分析対象特徴指定手段
304 正例負例テキスト抽出手段
305 属性特徴抽出手段

Claims (27)

  1. 利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
  2. 複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出し、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力するデータ処理装置とを有することを特徴とするテキストマイニング装置。
  3. 第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項1、または、2記載のテキストマイニング装置。
  4. 第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項1、2、または、3記載のテキストマイニング装置。
  5. 利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力し、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
  6. 利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
  7. 格納されている全テキスト中で頻出する要素を特徴として抽出し、特徴の中から着目すべき特徴を前記利用者に選択させ、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成するデータ処理装置を有することを特徴とするテキストマイニング装置。
  8. テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含むことを特徴とするテキストマイニング方法。
  9. 複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニング方法であって、
    前記データ処理装置が、前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを含むことを特徴とするテキストマイニング方法。
  10. 第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項8、または、9記載のテキストマイニング方法。
  11. 第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項8、9、または、10記載のテキストマイニング方法。
  12. テキストマイニング装置が、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順と、を含むことを特徴とするテキストマイニング方法。
  13. テキストマイニング装置が、利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含むことを特徴とするテキストマイニング方法。
  14. テキストマイニング装置が、格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とを含むことを特徴とするテキストマイニング方法。
  15. 利用者により指定された第1種の正例、第1種の負例の条件である属性値条件に基づいてテキストマイニングを行い第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
  16. 複数のテキスト、および、前記テキストごとの属性値を格納する記憶装置と、データ処理装置とを備えるテキストマイニング装置におけるテキストマイニングプログラムであって、
    前記記憶装置から前記テキスト、および、前記テキストごとの属性値を読み出す手順と、利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を、前記テキスト、および、前記テキストごとの属性値に適用しテキストマイニングを行い、第1種の正例と第1種の負例とを分類するのに有効な部分を特徴として抽出し、前記記憶装置にマイニング結果として格納する手順と、抽出した特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別し、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成し出力装置に出力する手順とを前記データ処理装置に実行させることを特徴とするテキストマイニングプログラム。
  17. 第1種の正例と第1種の負例とを分類するのに有効な部分が、事前に設定された第1の基準に基づく「第1種の正例のテキストでの出現頻度が高く、第1種の負例のテキストでの出現頻度が低い語句」であることを特徴とする請求項15、または、16記載のテキストマイニングプログラム。
  18. 第2種の正例と、第2種の負例とを分類するのに有効な新たな特徴となる属性値条件が、事前に設定された第2の基準に基づく「第2種の正例に対する属性値として出現頻度が高く、第2種の負例に対する属性値として出現頻度が低い属性値」の組み合わせであることを特徴とする請求項15、16、または、17記載のテキストマイニングプログラム。
  19. 利用者により指定された第1種の正例、第1種の負例の条件である属性値条件を入力する手順と、第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、第1種の正例を分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
  20. 利用者により指定された第1種の正例の条件である属性値条件に基づいてテキストマイニングを行い、属性値条件に適合するテキストを第1種の正例とし、残りのテキストを第1種の負例として分類するのに有効な部分を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、第1種の正例、および、第1種の負例に該当するテキストを、選択された特徴が出現する第2種の正例のテキストと選択された特徴が出現しない第2種の負例のテキストとに分別する手順と、第2種の正例と第2種の負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
  21. 格納されている全テキスト中で頻出する要素を特徴として抽出する手順と、特徴の中から着目すべき特徴を前記利用者に選択させる手順と、選択された特徴が出現する正例のテキストと選択された特徴が出現しない負例のテキストとに分別し、正例と負例とを分類するのに有効な新たな特徴となる属性値条件を生成する手順とをテキストマイニング装置に実行させることを特徴とするテキストマイニングプログラム。
  22. 属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング装置であって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段とを有することを特徴とするテキストマイニング装置。
  23. テキストの集合を保持するテキスト記憶手段と、前記テキストに対する属性値を保持する属性記憶手段と、テキストマイニングの条件を入力する条件指定手段と、前記条件に従ってテキストの特徴を抽出するテキストマイニング手段と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定手段と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出手段と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出する属性特徴抽出手段と、を有することを特徴とするテキストマイニング装置。
  24. コンピュータが属性付きのテキストの集合から特徴を抽出して出力するテキストマイニング方法であって、前記特徴の中から着目すべき特徴を前記コンピュータが入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを前記コンピュータが抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を前記コンピュータが抽出するステップとを含むことを特徴とするテキストマイニング方法。
  25. コンピュータにテキストの集合と、前記テキストに対する属性値とを記憶させ、前記コンピュータに、テキストマイニングの条件を入力するステップと、前記条件に従ってテキストの特徴を抽出するステップと、前記特徴の中から着目すべき特徴を入力するステップと、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出するステップと、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴を抽出するステップとを含むことを特徴とするテキストマイニング方法。
  26. 属性付きのテキストの集合から特徴を抽出して出力する処理をコンピュータに実行させるテキストマイニングプログラムであって、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストとを分類するのに有効な属性的な特徴抽出する属性特徴抽出処理とを前記コンピュータに実行させることを特徴とするテキストマイニングプログラム。
  27. 記憶装置にテキストの集合と前記テキストに対する属性値とを記憶させる処理と、テキストマイニングの条件を入力する条件指定処理と、前記条件に従ってテキストの特徴を抽出するテキストマイニング処理と、前記特徴の中から着目すべき特徴を入力する分析対象特徴指定処理と、前記入力された特徴がテキスト中に出現するかどうかによって、テキスト中から正例テキストと負例テキストとを抽出する正例負例テキスト抽出処理と、該正例テキストと該負例テキストと分類するのに有効な属性的な特徴抽出する属性特徴抽出処理と、をコンピュータに実行させることを特徴とするテキストマイニングプログラム。
JP2006315862A 2006-11-22 2006-11-22 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム Withdrawn JP2010061176A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006315862A JP2010061176A (ja) 2006-11-22 2006-11-22 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
PCT/JP2007/072527 WO2008062822A1 (en) 2006-11-22 2007-11-21 Text mining device, text mining method and text mining program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006315862A JP2010061176A (ja) 2006-11-22 2006-11-22 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Publications (1)

Publication Number Publication Date
JP2010061176A true JP2010061176A (ja) 2010-03-18

Family

ID=39429751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006315862A Withdrawn JP2010061176A (ja) 2006-11-22 2006-11-22 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Country Status (2)

Country Link
JP (1) JP2010061176A (ja)
WO (1) WO2008062822A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118980A1 (ja) 2013-02-01 2014-08-07 富士通株式会社 情報変換方法、情報変換装置および情報変換プログラム
JPWO2014034557A1 (ja) * 2012-08-31 2016-08-08 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
US9792561B2 (en) 2013-02-01 2017-10-17 Fujitsu Limited Learning method, information conversion device, and recording medium
US10635991B2 (en) 2013-02-01 2020-04-28 Fujitsu Limited Learning method, information processing device, and recording medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5288959B2 (ja) * 2008-09-17 2013-09-11 三菱電機株式会社 データ分類装置及びコンピュータプログラム
US8805853B2 (en) 2009-12-25 2014-08-12 Nec Corporation Text mining system for analysis target data, a text mining method for analysis target data and a recording medium for recording analysis target data
CN109284383A (zh) * 2018-10-09 2019-01-29 北京来也网络科技有限公司 文本处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141134A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd テキストマイニング処理方法及びその実施装置
JP2006031198A (ja) * 2004-07-14 2006-02-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム
JP4595590B2 (ja) * 2005-03-04 2010-12-08 三菱電機株式会社 テキストマイング方法及びテキストマイニング装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014034557A1 (ja) * 2012-08-31 2016-08-08 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
US10140361B2 (en) 2012-08-31 2018-11-27 Nec Corporation Text mining device, text mining method, and computer-readable recording medium
WO2014118980A1 (ja) 2013-02-01 2014-08-07 富士通株式会社 情報変換方法、情報変換装置および情報変換プログラム
US9704100B2 (en) 2013-02-01 2017-07-11 Fujitsu Limited Authentication method, authentication device, and recording medium
US9792561B2 (en) 2013-02-01 2017-10-17 Fujitsu Limited Learning method, information conversion device, and recording medium
US10635991B2 (en) 2013-02-01 2020-04-28 Fujitsu Limited Learning method, information processing device, and recording medium

Also Published As

Publication number Publication date
WO2008062822A1 (en) 2008-05-29

Similar Documents

Publication Publication Date Title
US20170116203A1 (en) Method of automated discovery of topic relatedness
AU2013365452B2 (en) Document classification device and program
JP6902945B2 (ja) テキスト要約システム
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
EP4388429A1 (en) System and method for use of text analytics to transform, analyze, and visualize data
CN119250080B (zh) 一种科创项目成果与目标一致性分析方法
WO2008062822A1 (en) Text mining device, text mining method and text mining program
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
US20250053878A1 (en) Learning device, management sheet creation support device, non-transitory computer-readable storage medium, learning method, and management sheet creation support method
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same
US20180011919A1 (en) Systems and method for clustering electronic documents
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN116204823A (zh) 基于数据分类分级的解释分析方法、装置、设备及介质
JP2004326600A (ja) 構造化文書のクラスタリング装置
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP6957388B2 (ja) 業務用語判別装置、及び業務用語判別方法
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP7131130B2 (ja) 分類方法、装置、及びプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100406