JP2004178123A - 情報処理装置、該情報処理装置を実現するためのプログラム - Google Patents

情報処理装置、該情報処理装置を実現するためのプログラム Download PDF

Info

Publication number
JP2004178123A
JP2004178123A JP2002341671A JP2002341671A JP2004178123A JP 2004178123 A JP2004178123 A JP 2004178123A JP 2002341671 A JP2002341671 A JP 2002341671A JP 2002341671 A JP2002341671 A JP 2002341671A JP 2004178123 A JP2004178123 A JP 2004178123A
Authority
JP
Japan
Prior art keywords
dictionary
data
negative
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002341671A
Other languages
English (en)
Inventor
Atsuko Koizumi
敦子 小泉
Yasutsugu Morimoto
康嗣 森本
Hiroyuki Kumai
裕之 隈井
Naoto Akira
直人 秋良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002341671A priority Critical patent/JP2004178123A/ja
Priority to CNA031483518A priority patent/CN1503164A/zh
Priority to US10/623,598 priority patent/US20040158558A1/en
Publication of JP2004178123A publication Critical patent/JP2004178123A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】従来のキーワードによる文書分類技術は、高頻度知識の抽出・分類に適しているが、コールセンターの応答履歴からリスク管理上有用な情報や顧客の生の声を抽出するには、大量のありふれた情報を取り除いた中から真に有用な知識を抽出する必要がある。
【解決手段】キーワードで検索した文書をフォルダに保存する機能を設け、キーワード検索により高頻度情報をフォルダに保存した後、残りの文書を低頻度情報のフォルダに保存する機能を設ける。低頻度情報からリスク管理上有用な知識を抽出する手段として、ネガティブな表現や心的態度を表すモダリティ表現を抽出する機能を設ける。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、自然言語で記述されたテキストから知識を抽出するテキスト分析方法に関する。主として、コールセンターの応答履歴の分析を対象とする。
【0002】
【従来の技術】
ユーザが指定したキーワードにより文書を分類する文書分類システムとしては、文書中の単語の出現頻度に基づいて未使用視点(まだ分類に使っていないキーワード)を検出し表示することによりキーワードによる分類を支援する文書分類システムがある(例えば、特許文献1参照)。
リスク管理の上で有用な知識を抽出する手段としては、「失礼」「失望」などのネガティブな表現に着目することが考えられる。ネガティブ表現を抽出する方法としては、ドメインに応じて「失注」、「苦情」などのネガティブな意味を持つキーワードを予めセットしておき、検索を実行して、ヒットした場合にはアラートを出すという方法が考えられる。更に、文書分類のためのキーワード辞書をユーザが更新する手段を設けた文書分類システムもある(例えば、特許文献2参照)。
【特許文献1】特開2001−101226号公報
【特許文献2】特開2001−184351号公報
【発明が解決しようとする課題】
従来のキーワードによる文書分類技術は、高頻度知識の抽出・分類に適しているが、コールセンターの応答履歴からリスク管理上有用な情報や顧客の生の声を抽出するには、低頻度の知識の抽出が重要課題である。すなわち、大量のありふれた情報を取り除いた中から、効率よく、かつ漏れなく、真に有用な知識を抽出する必要がある。本発明の目的は、高頻度の問合せに基づいてFAQを作成することと、低頻度の問合せの中からリスク管理上有用な情報を抽出することにある。
リスク管理の目的でテキスト分析を行う際に、ネガティブな表現を抽出することが考えられる。ネガティブな表現を抽出するためには、ドメインに応じて「失望」「失礼」などのキーワードをセットしておき、検索を実行する方法が考えられるが、予めキーワードを設定することに手数がかかる上に、網羅することが困難であり、漏れが多く発生するという問題がある。
【0003】
【課題を解決するための手段】
上記課題を解決するため、テキスト分析支援システムにおいて、低頻度情報を抽出するための手段として、高頻度情報を含む文書を抽出してフォルダに保存した後、残りの文書を集めて低頻度情報のフォルダに保存する機能を設け、低頻度情報のフォルダのデータにはネガティブ表現の抽出漏れとノイズをなくすための手段として、「失」「負」などのネガティブな意味を持つ文字を格納した辞書を用いて対象テキストからネガティブ語候補を抽出し、ネガティブ語と判定したものをネガティブ語辞書に登録した上で、ネガティブ語辞書を用いてネガティブ表現の抽出を行うようにする。
また、
【0004】
【発明の実施の形態】
以下、本発明の実施例について説明する。本実施例は、コールセンタの応答履歴を対象としたテキスト分析支援システムである。以下、図面を使って詳細に説明する。
(システム構成)
図1は本発明の第1の実施例を示すテキスト分析支援システムの構成図である。本システムは、CPU101、入力装置102、表示装置103、コールセンタ応答履歴データベース104、シソーラスブラウジング用データ格納部105、文書保存フォルダ106、低頻度知識抽出用データ格納部107、メモリ108によって構成されている。シソーラスブラウジング用データ格納部105は、関連シソーラス格納部1051、タームベクトル格納部1052、およびシソーラス概観格納部1053によって構成されている。低頻度知識抽出用データ格納部107は、ネガティブ表現抽出機能を実現するためのネガティブ文字辞書1071、ネガティブ語辞書1072、ネガティブ語ストップワード辞書1073、モダリティ表現抽出機能を実現するためのモダリティ表現辞書1074、モダリティ表現ストップワード辞書1075によって構成されている。メモリ108には、シソーラスブラウジング用データ生成処理手段1081、シソーラスブラウジング処理手段1082、文書検索手段1083、ネガティブ語候補抽出手段1084、ネガティブ語辞書作成手段1085、モダリティ表現候補抽出手段1086、モダリティ表現辞書作成手段1087が記憶されている。
(コールセンタ応答履歴データベース)
図2にコールセンタ応答履歴データベース104のデータ構造を示す。コールセンタ応答履歴データベース104の各レコードには、問合せID1041、応答履歴メモ1042、キーワード検索で検索済みであることを示す検索フラグ1043、分類フォルダに分類済みであることを示す分類フラグ1044が記述されている。
(シソーラスブラウジング機能)
本システムは、高頻度情報を含む文書の抽出を支援するシソーラスブラウジング機能を備えている。ここでいうシソーラスとは、文書群中の特徴的な単語とその関係を示すネットワーク表現である。本システムのシソーラスブラウジング機能は、文書群からシソーラスを自動生成する機能と、生成したシソーラスの概観や細部を表示する機能(概観表示・ズーム表示)からなる。シソーラス自動生成およびシソーラス表示は、例えば特開2000−227917に記載されているシソーラスブラウジング方法によって行う。以下、本システムにおいてシソーラスブラウジング機能を実現するためのデータおよび処理手順の概要を説明する。まず、シソーラスブラウジング機能を実現するためのデータについて説明する。シソーラスブラウジング用データ格納部105は、関連シソーラス格納部1051、タームベクトル格納部1052、およびシソーラス概観格納部1053によって構成されている。
関連シソーラス格納部1051には、コールセンタ応答履歴データベース104の応答履歴メモ1042に格納された文書データから生成した関連シソーラスが格納されている。関連シソーラスとは、単語と単語の関連度を示すものである。本実施例では、関連度は2つの単語の共起しやすさを表すものであり、それぞれの単語の頻度と共起頻度(文書中のある範囲内に2つの語が同時に出現する頻度)に基づいて計算される。図3に関連シソーラス格納部1051のデータ構造を示す。関連シソーラス格納部1051は、レコードID10511、タームX10512、タームY10513、および関連度10514から構成される。タームX10512およびタームY10513には、関連関係にあるタームを、関連度10514にはその関連度を格納する。
タームベクトル格納部1052には、コールセンタ応答履歴データベース104の応答履歴メモ1042に格納された文書データから抽出したタームベクトルが格納されている。タームベクトルとは、文書を特徴付けるタームのリストであり、「Salton, G., et al.: A Vector Space Model for Automatic Indexing, Communications of the ACM, Vol.18, No.11(1975).」に記載のtf−idf法(Term Frequency inverse Document Frequency)を利用することにより抽出可能である。このtf−idf法は、文書インデクシング方法として最もよく知られているもののひとつであり、ある文書におけるタームの出現頻度(tf)と、当該タームが出現した文書数の逆数(idf)をかけた値を当該文書におけるタームの重要度とし、当該文書において重要度の高いターム(すなわち重要ターム)を抽出してタームベクトルとする技術である。図4にタームベクトル格納部1052のデータ構造を示す。タームベクトル格納部1052は、レコードID10521、問合せID10522および重要タームリスト10523から構成される。問合せID10521には、コールセンタ応答履歴データベース104に格納された応答履歴のIDを格納し、重要タームリスト10522には当該応答履歴の応答メモに出現するタームのうち重要なもののリストが格納される。
シソーラス概観格納部1053には、関連シソーラス格納部1051に格納された関連シソーラスの概観が格納されている。シソーラス概観とは、文書群中のもっとも特徴的な単語を代表タームとして抽出し、関係の強い代表タームをタームクラスタとしてまとめたものである。図5にシソーラス概観格納部1053のデータ構造を示す。シソーラス概観格納部1053は、タームグループ番号10531およびタームリスト10532から構成される。タームリスト10532には、タームクラスタに属するタームのリストが格納される。
【0005】
以上、シソーラスブラウジング用データについて説明した。
次に、シソーラスブラウジング機能を実現するためのシソーラスブラウジング用データ生成処理手順および、シソーラスブラウジング処理手順について図7および図8のフローチャートを用いて説明する。
(シソーラスブラウジング用データ生成処理手順)
まず、分析環境準備として、シソーラスブラウジング用データを作成する。図7に示すように、シソーラスブラウジング用データ生成処理では、まず文書データからタームとタームの関連度を示す関連シソーラスを生成し(ステップ701)、各文書のタームベクトルを抽出して(ステップ702)、シソーラス概観を生成する(ステップ703)。シソーラス概観は、文書群中のもっとも特徴的な単語を代表タームとして抽出し、関係の強い代表タームをタームクラスタとしてまとめたものである。代表ターム抽出処理では、各文書タームベクトルを構成する重要タームのうち、多くの文書で重要タームとなったタームを代表タームとする。タームクラスタ生成処理では、関連シソーラスに格納されたターム間の関連度に基づいて関連度の高い代表タームをひとつのクラスタにまとめる。
(シソーラスブラウジング処理手順)
図8に示すように、シソーラスブラウジング処理では、まずシソーラス概観格納部1053に格納されたシソーラス概観を例えば図6のシソーラス概観表示部602に示すような形でユーザに表示する(ステップ801)。シソーラス概観表示部602は、タームリスト表示部6021および選択ボタン6022からなる。タームリスト表示部6021には、シソーラス概観格納部1053に格納されているタームリスト10532が表示される。次にユーザがタームクラスタリスト6021を選択ボタン等の指示入力手段6022で選択してズームボタン6033でズームを指示すれば(ステップ802)、ユーザが選択したタームクラスタに属するタームの関連タームを関連シソーラス1051より取得する(ステップ803)。そして、それらをクラスタリングし(ステップ804)、生成したタームクラスタを関連タームクラスタ表示部604に表示する(ステップ805)。ユーザからのシソーラスブラウジング終了の指示があれば(ステップ806)、処理を終了し、なければステップ802の処理に戻る。ステップ802のズーミング指示において、関連タームクラスタ表示部604に表示されているタームクラスタ6041を選択ボタン6042で選択してズームボタン6033でズームを指示すれば、該関連タームクラスタの関連語が関連タームクラスタ表示部604に表示される。また、シソーラス概観表示部602あるいはタームクラスタ表示部604に表示されているタームをクリックしてからズームボタン6033をクリックすると、該タームの関連語が関連タームクラスタ表示部604に表示される。ユーザは、関連クラスタ数6031およびクラスタ内ターム数6033を選択することにより、いくつのクラスタに分けるか、1つのクラスタについて何ターム抽出するかを指定することができる。
(シソーラスブラウジングによる効果)
このようにキーワードで文書を検索する機能と、検索した文書をフォルダに保存する機能を設け、ユーザがキーワードとして入力した語に関連する問合せを抽出し、FAQ作成のために保存することができるようにする。また、応答履歴全体からシソーラスを生成し、シソーラスの全体構造を示すシソーラス概観から、ユーザが選択したタームを含む部分構造へと、ユーザをナビゲートするシソーラスブラウジング機能を設け、ユーザがキーワードを想起しやすいようにする。シソーラス概観を眺めることにより、文書群中のトピックを俯瞰することができる。1つのタームクラスタにまとめられた代表タームの並びを見ると、トピックやその内容を推測することができる。タームの関連語をクラスタ表示(関係の強い語をタームクラスタとしてまとめて表示)することにより、タームに対応するトピックのサブトピックとその内容を推測することができる。
【0006】
本システムは、シソーラスブラウジング機能およびキーワード文書検索機能により高頻度情報を含む文書を抽出して分類フォルダに保存した後、残りの文書を集めて低頻度情報のフォルダに保存する機能を備えている。図6に文書分類操作画面の構成を示す。図6に示すように、文書分類操作画面601は、シソーラスブラウジング機能のためのシソーラス概観表示部602、シソーラスズーミング指示部603、関連タームクラスタ表示部604、キーワード文書検索機能のための文書検索指示部605、文書検索結果表示部606、文書分類保存機能のための文書保存部607からなる。
シソーラス概観表示部602は、タームリスト表示部6021および選択ボタン6022からなる。タームリスト表示部6021には、シソーラス概観格納部1053に格納されているタームリスト10532が表示される。シソーラスズーミング指示部603は、クラスタ数6031、クラスタ内ターム数6032、ズームボタン6033からなる。
関連タームクラスタ表示部604は、タームリスト表示部6041および選択ボタン6042からなる。
文書検索指示部605は、検索ターム入力部6051および検索ボタン6052からなる。文書検索結果表示部606は、文書表示部6061および文書選択ボタン6062からなる。文書保存部607はフォルダ名表示部6071およびフォルダ選択ボタン6072からなる。
(文書分類手順)
本システムは、高頻度情報を含む文書を抽出してフォルダに保存した後、残りの文書を集めて低頻度情報のフォルダに保存する機能を備えている。図9は、本システムによる文書分類手順を示すフローチャートである。本システムによる文書分類手順について、図6の文書分類操作画面および図9のフローチャートを用いて説明する。まず、分類開始指示があると(ステップ901)、コールセンタ応答履歴データベース104にアクセスし、検索済みであることを示す検索フラグ1043と、分類済みであることを示す分類フラグ1044の値を“0”にリセットする。ユーザがターム入力部6051にタームを入力し、検索ボタン6052をクリックしてキーワード文書検索を指示すると(ステップ903)、コールセンタ応答履歴データベース104の応答履歴メモ1042を対象にキーワード文書検索を行い(ステップ904)、コールセンタ応答履歴データベース104の検索フラグ1043に検索済みであることを示すフラグ“1”を設定し(ステップ905)、文書検索結果を文書検索結果表示部606の文書表示部6061に表示する(ステップ906)。ユーザが文書検索結果一覧から保存したい文書を選択して文書選択ボタン6062とフォルダ選択ボタン6072をクリックすると(ステップ907)、選択された文書を文書保存フォルダ106へ保存し(ステップ908)、コールセンタ応答履歴データベース104の分類フラグ1044に分類済みであることを示すフラグ“1”を設定する(ステップ909)。ユーザから分類終了の指示があれば(ステップ910)、検索済みフラグ=0の文書を低頻度文書フォルダに保存する(911)。
低頻度文書フォルダへの文書保存方法の代案としては、分類済みフラグ=0の文書を低頻度文書フォルダに保存するようにしてもよい。また、文書保存フォルダに選択フラグを用意し、ユーザが指定したフォルダに分類済みの文書以外の文書を低頻度文書フォルダに保存するようにしてもよい。さらに、検索済み、分類済みかどうかを示す検索フラグおよび分類済みフラグの変わりに検索回数および分類回数を更新するようにし、検索回数あるいは分類回数が閾値よりも低いものを低頻度文書フォルダに保存するようにしてもよい。
【0007】
本システムは、キーワード想起を支援するシソーラスブラウジング機能を備えている。ユーザは、シソーラスブラウジングの過程で、表示されたタームを選択することによりキーワード文書検索を行うこともできる。シソーラス概観表示部602のタームリスト表示部6021に表示されたタームをクリックすると該タームが検索ターム入力部6051にコピーされる。また、シソーラス概観表示部602の選択ボタン6022をクリックすると、タームリスト表示部6021に表示されている全てのタームが検索ターム入力部6051にコピーされる。同様に、関連タームクラスタ表示部604のタームリスト表示部6041に表示されたタームをクリックすると該タームが検索ターム入力部6051にコピーされ、選択ボタン6042をクリックすると、タームリスト表示部6041に表示されている全てのタームが検索ターム入力部6051にコピーされる。シソーラスには、応答履歴全体に出現するタームが関連付けて格納されている。したがって、シソーラスブラウジングをすることにより、高頻度情報を収集・分類することができる。
(低頻度情報からの知識抽出)
以上に述べたように、本システムでは、分類開始から終了までの間に一度も検索されていな文書、あるいは、どの分類フォルダにも分類されていない文書をまとめて低頻度情報フォルダに格納することができる。リスク管理の目的でテキスト分析を行う際に、失礼」「失望」などのネガティブな意味を持つ単語や、「くれないのか」「そもそも」「なんなのか」「欲しい」などのモダリティ表現が有効な手がかりとなる。そこで、低頻度情報からリスク管理上有用な知識を抽出する手段として、ネガティブな表現を抽出する機能と、顧客やオペレータの心的態度を表すモダリティ表現を抽出する機能を設ける。以下、低頻度情報フォルダに保存された応答履歴メモからネガティブ表現およびモダリティ表現を含む文書を抽出する手順の概要を図21のフローチャートに従って説明する。まず、低頻度情報フォルダに保存された応答履歴メモから、ネガティブ語候補・モダリティ表現候補を抽出する(ステップ2101)。次に、ネガティブ語候補・モダリティ表現候補のうち、ユーザが選択したものをネガティブ語辞書・モダリティ表現辞書に登録する(ステップ2102)。最後に、低頻度情報フォルダの文書に対して、ネガティブ語辞書およびモダリティ表現辞書に登録された語をキーワードとしてキーワード検索を行うことにより(ステップ2103)、ネガティブ語およびモダリティ表現を含む文書を抽出し、内容を確認する(ステップ2104)。
以下、ネガティブ表現およびモダリティ表現の抽出の手順について詳細に述べる。
(ネガティブ表現の抽出)
応答履歴メモからネガティブな表現を抽出する手段として、本システムは、応答履歴メモからネガティブ語候補を抽出するネガティブ語候補抽出機能と、ネガティブ語候補の中でユーザがネガティブ語と判定した語をネガティブ語辞書に登録するネガティブ語辞書作成機能とを備えている。これらの機能を実現するため、本システムは、「失」「負」「遅」などのネガティブ語の構成要素となりやすい文字を登録したネガティブ文字辞書1071、ネガティブ語であることが判定済みの語が登録されているネガティブ語辞書1072、ネガティブ語でないことが判定済みの語が登録されているネガティブ語ストップワード辞書1073を備えている。
図12に、ネガティブ文字辞書1071のデータ構造を示す。ネガティブ文字辞書の各レコードには、レコードID10711、ネガティブ文字10712、ネガティブ度10713、ネガティブ語辞書登録語数10714、ネガティブ語ストップワード辞書登録語数10715が記述されている。ネガティブ語辞書登録語数10714は、ネガティブ語辞書に登録されている単語のうち、当該ネガティブ文字を含む単語の語数である。ネガティブ語ストップワード辞書登録語数10715は、ネガティブ語ストップワード辞書1073に登録されている単語のうち、当該ネガティブ文字を含む単語の語数である。ネガティブ度10713には、ネガティブ語候補として抽出された単語のうちネガティブ語辞書に登録された単語の割合を示す0〜1の値が記述されている。あるいは、ネガティブ度の値はユーザが任意に設定するようにしてもよい。図13に、ネガティブ語辞書1072のデータ構造を示す。ネガティブ語辞書の各レコードには、レコードID10721、ネガティブ語10722、ネガティブ度10723が記述されている。ネガティブ度10723には、ネガティブ文字辞書に記述されたネガティブ度10713の値が記述されている。図14に、ネガティブ語ストップワード辞書1073のデータ構造を示す。ネガティブ語ストップワード辞書の各レコードには、レコードID10731、ネガティブ語ストップワード10732が記述されている。
以下、ネガティブ語候補抽出の手順を図17のフローチャートにしたがって説明する。まず、応答履歴メモ1042にあらわれるすべての単語を抽出し、単語リストを作成する(ステップ1701)。単語リストの単語を1語読み(ステップ1703)、ネガティブ文字辞書1071を参照し、ネガティブ文字を含むかどうかを判定する(ステップ1704)。ネガティブ文字を含む場合は、ネガティブ語辞書1072を参照し、ネガティブ語辞書1072に登録済みであるかどうかを判定する(ステップ1705)。ネガティブ語辞書1072に登録済みの場合は、ネガティブ語であることがすでにわかっているので、ネガティブ語候補として抽出せずにこの単語に関する処理を終了する。ネガティブ語辞書1072に未登録の場合は、ネガティブ語ストップワード辞書1703を参照し、ネガティブ語ストップワード辞書1073に登録済みであるかどうかを判定する(ステップ1706)。ネガティブ語ストップワード辞書1073に登録済みの場合は、ネガティブ語でないことがすでにわかっているので、ネガティブ語候補として抽出せずにこの単語に関する処理を終了する。そして、ネガティブ語辞書にもネガティブ語ストップワード辞書にも登録されていない単語をネガティブ語候補リストに登録する(ステップ1707)。単語リストに登録されているすべての単語について同様の処理を行うことにより、ネガティブ文字を含む単語のうち、ネガティブ語辞書にもネガティブ語ストップワード辞書にも登録されていない単語をネガティブ語候補リストに登録する。
以下、ネガティブ語辞書作成の手順を図18のフローチャートにしたがって説明する。まず、ネガティブ語候補に対してネガティブ語かどうかの判定を行うため、ネガティブ語候補リストを画面に表示する(ステップ1801)。図11にネガティブ語判定画面の表示例を示す。ネガティブ語判定画面には、ネガティブ語候補表示部11011、ネガティブ語辞書既登録語表示部11012、ネガティブ語ストップワード辞書既登録語表示部11013、登録ボタン11014が配置されている。ネガティブ語辞書既登録語表示部11012およびネガティブ語ストップワード辞書既登録語表示部11013は判定のための参考情報として表示するものだが、省いても良い。ユーザは、ネガティブ語候補表示部11011に表示されたネガティブ語候補に対してネガティブ語かどうかを判定し、ネガティブ語と判定した語にチェックマークをいれる(ステップ1802)。ユーザが登録ボタン11014をクリックすると(ステップ1803)、ネガティブ語と判断された語がネガティブ語辞書に登録される(ステップ1804)。ネガティブ語と判断されなかった語は、ネガティブ語ストップワード辞書に登録される(ステップ1805)。
(モダリティ表現の抽出)
次に、顧客やオペレータの心的態度を表すモダリティ表現を抽出する機能について述べる。図15に、モダリティ表現辞書1074のデータ構造を示す。モダリティ表現辞書の各レコードには、レコードID10741、モダリティ表現10742、品詞10743、モダリティ10744が記述されている。図16に、モダリティ表現ストップワード辞書1075のデータ構造を示す。モダリティ表現ストップワード辞書の各レコードには、レコードID10751、モダリティ表現ストップワード10752、品詞10753が記述されている。
【0008】
以下、モダリティ表現候補抽出の手順を図19のフローチャートにしたがって説明する。まず、応答履歴メモ1042にあらわれるすべての単語を抽出し、単語リストを作成する(ステップ1901)。単語リストの単語を1語読み(ステップ1903)、品詞が副詞か助動詞の場合は(ステップ1904)、モダリティ表現候補抽出の処理を進める。すなわち、モダリティ表現辞書1074を参照し、モダリティ表現辞書1074に登録済みであるかどうかを判定する(ステップ1905)。モダリティ表現辞書1074に登録済みの場合は、モダリティ表現であることがすでにわかっているので、モダリティ表現候補として抽出せずにこの単語に関する処理を終了する。モダリティ表現辞書1074に未登録の場合は、モダリティ表現ストップワード辞書1705を参照し、モダリティ表現ストップワード辞書1075に登録済みであるかどうかを判定する(ステップ1906)。モダリティ表現ストップワード辞書1075に登録済みの場合は、モダリティ表現でないことがすでにわかっているので、モダリティ表現候補として抽出せずにこの単語に関する処理を終了する。そして、モダリティ表現辞書にもモダリティ表現ストップワード辞書にも登録されていない単語をモダリティ表現候補リストに登録する(ステップ1907)。単語リストに登録されているすべての単語について同様の処理を行うことにより、品詞が副詞あるいは助動詞である単語のうち、モダリティ表現辞書にもモダリティ表現ストップワード辞書にも登録されていない単語をモダリティ表現候補リストに登録する。
以下、モダリティ表現辞書作成の手順を図20のフローチャートにしたがって説明する。まず、モダリティ表現候補に対してモダリティ表現かどうかの判定を行うため、モダリティ表現候補リストを画面に表示する(ステップ2001)。モダリティ表現判定画面は、図11のネガティブ語判定画面と同様のものを用いる。ユーザは、画面に表示されたモダリティ表現候補に対してモダリティ表現かどうかを判定し、モダリティ表現と判定した語にチェックマークをいれる(ステップ2002)。ユーザが登録ボタンをクリックすると(ステップ2003)、モダリティ表現と判断された語がモダリティ表現辞書に登録される(ステップ2004)。モダリティ表現と判断されなかった語は、モダリティ表現ストップワード辞書に登録される(ステップ1805)。
【0009】
【発明の効果】
本発明によれば、応答履歴メモに含まれる情報を高頻度情報と低頻度情報に分けることができ、それぞれに適したテキスト分析方法を適用することができるという効果がある。高頻度情報に対しては、トピックで分類することにより、FAQ作成支援に活用することができる。低頻度情報に対しては、ネガティブ表現およびモダリティ表現というトピックとは別の観点から、リスク管理上有用な知識を抽出することができる。
本発明のネガティブ表現抽出方法によれば、文字を手がかりにして分析対象テキストに含まれるネガティブ語候補を抽出するので、抽出漏れを防ぐことができる。抽出したネガティブ語候補についてネガティブ語かどうかの判定を人手で行う必要があるが、ネガティブ語かどうか判定済みの語をネガティブ語辞書およびネガティブ語ストップワード辞書に蓄積していくので、繰り返すうちにネガティブ語候補として抽出されるものが減っていくという効果がある。
【図面の簡単な説明】
【図1】本発明のテキスト分析支援システムの実施例のシステム構成図である。
【図2】コールセンター応答履歴データベースのデータ構造を示す図である。
【図3】関連シソーラス格納部のデータ構造を示す図である。
【図4】タームベクトル格納部のデータ構造を示す図である。
【図5】シソーラス概観格納部のデータ構造を示す図である。
【図6】文書分類操作画面の構成を示す図である。
【図7】シソーラスブラウジング用データ生成処理手順を示すフローチャートである。
【図8】シソーラスブラウジング処理手順を示すフローチャートである。
【図9】文書分類手順を示すフローチャートである。
【図10】文書保存フォルダのデータ構造を示す図である。
【図11】ネガティブ語判定画面の表示例を示す図である。
【図12】ネガティブ文字辞書のデータ構造を示す図である。
【図13】ネガティブ語辞書のデータ構造を示す図である。
【図14】ネガティブ語ストップワード辞書のデータ構造を示す図である。
【図15】モダリティ表現辞書のデータ構造を示す図である。
【図16】モダリティ表現ストップワード辞書のデータ構造を示す図である。
【図17】ネガティブ語候補抽出手順を示すフローチャートである。
【図18】ネガティブ語辞書作成手順を示すフローチャートである。
【図19】モダリティ表現候補抽出手順を示すフローチャートである。
【図20】モダリティ表現辞書作成手順を示すフローチャートである。
【図21】ネガティブ表現およびモダリティ表現の抽出手順を示すフローチャートである。
【符号の説明】
101:CPU
102:入力装置
103:表示装置
104:コールセンタ応答履歴データベース
105:シソーラスブラウジング用データ格納部
106:文書保存フォルダ
107:低頻度知識抽出用データ格納部
108:メモリ
1051:関連シソーラス格納部
1052:タームベクトル格納部
1053:およびシソーラス概観格納部
1071:ネガティブ文字辞書
1072:ネガティブ語辞書
1073:ネガティブ語ストップワード辞書
1074:モダリティ表現辞書
1075:モダリティ表現ストップワード辞書
1081:シソーラスブラウジング用データ生成処理手段
1082:シソーラスブラウジング処理手段
1083:文書検索手段
1084:ネガティブ語候補抽出手段
1085:ネガティブ語辞書作成手段
1086:モダリティ表現候補抽出手段
1087:モダリティ表現辞書作成手段。

Claims (10)

  1. 複数のデータを格納する記憶手段と、
    上記記憶されるデータのうち単語若しくは語を共通に有するデータに共通の属性を付する手段と、
    上記データを分析する解析手段とを有し、
    上記解析手段は、属性付けのなされていないデータにはネガティブ語辞書を用いた分析を行い、上記属性付けのなされているデータには異なる分析を行うことを特徴とする情報処理装置。
  2. 上記情報処理装置は、
    入力手段と、
    上記入力手段を介して受けつけたキーワードを用いて上記データベース内を検索する手段を有し、
    上記属性を付する手段は、上記検索の結果抽出されたデータにその旨の属性付けを行うことを特徴とする請求項1記載の情報処理装置。
  3. 上記入力手段は上記検索手段において抽出された回数の指定を受け、
    上記解析手段は、上記回数以下抽出された旨の属性を有するデータと、上記回数より多い回数抽出された旨の属性を有するデータとで異なる解析方法で分析を行うことを特徴とする請求項2記載の情報処理装置。
  4. 上記ネガティブ語辞書は、漢字単位の語を格納する第1の辞書と該漢字を含む単語を格納する第2の辞書とから構成され、
    上記解析手段は、上記データから上記第1及び第2の辞書に格納される語を検索し、上記第1の辞書に格納される漢字を含むとして検索された単語のうち上記第2の辞書にないものを上記表示手段に表示して、該表示した単語のうち指定された単語を上記第2の辞書に格納することを特徴とする情報処理装置。
  5. モダリティを表現する単語を格納する辞書をさらに有し、
    上記解析手段は、上記辞書を使った分析を行うことを特徴とする請求項1乃至4の何れかに記載の情報処理装置。
  6. 上記記憶されるデータから単語と単語の関連度を計算する手段と、
    上記記憶されるデータから重要タームを抽出する手段と、
    上記関連度の情報を用いて上記重要タームをクラスタリングしシソーラス概観を生成する手段と、
    上記生成されたシソーラス概観を表示手段に表示する手段とを有し
    上記表示手段は、上記入力手段を介して選択された上記シソーラス概観のクラスタに属する重要タームを表示し、
    上記表示される重要タームのうち上記指示入力手段を介して指示された重要タームを上記キーワードとして設定することを特徴とする請求項2乃至5の何れかに記載の情報処理装置。
  7. 漢字単位の語を格納する第1の辞書と、
    該漢字を含む単語を格納する第2の辞書と、
    表示手段と、
    入力手段と、
    記録手段に記録されるデータから上記第2の辞書に格納される単語を検索する手段を有し、
    上記検索手段は、上記第1の辞書に格納される漢字を含む単語も検索し、上記第1の辞書に格納される漢字を含むとして検索された単語を上記表示手段に表示して、該表示した単語のうち指定された単語を上記第2の辞書に格納することを特徴とする情報処理装置。
  8. 上記指定されなかった単語を蓄積する第3の辞書を有することを特徴とする請求項7記載の情報処理装置。
  9. 上記第1の辞書は否定的な意味を持つ漢字を格納し、
    上記第2の辞書は、否定的な意味をもつ単語を格納することを特徴とする請求項7又は8に記載の情報処理装置。
  10. キーワードの入力を受けるステップと、
    複数のデータを格納する記憶手段に格納される複数のデータを上記キーワードを用いて検索するステップと、
    上記検索の結果抽出されたデータに共通の属性を付するステップと、
    上記属性付けのされていないデータについてネガティブ語辞書を用いた分析を行い、上記属性付けのなされているデータには上記ネガティブ辞書とは異なるデータを用いた分析を行うステップとをコンピュータに実行させることを特徴とするプログラム。
JP2002341671A 2002-11-26 2002-11-26 情報処理装置、該情報処理装置を実現するためのプログラム Pending JP2004178123A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002341671A JP2004178123A (ja) 2002-11-26 2002-11-26 情報処理装置、該情報処理装置を実現するためのプログラム
CNA031483518A CN1503164A (zh) 2002-11-26 2003-06-30 信息处理装置、用于实现该信息处理装置的程序
US10/623,598 US20040158558A1 (en) 2002-11-26 2003-07-22 Information processor and program for implementing information processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002341671A JP2004178123A (ja) 2002-11-26 2002-11-26 情報処理装置、該情報処理装置を実現するためのプログラム

Publications (1)

Publication Number Publication Date
JP2004178123A true JP2004178123A (ja) 2004-06-24

Family

ID=32703929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002341671A Pending JP2004178123A (ja) 2002-11-26 2002-11-26 情報処理装置、該情報処理装置を実現するためのプログラム

Country Status (3)

Country Link
US (1) US20040158558A1 (ja)
JP (1) JP2004178123A (ja)
CN (1) CN1503164A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
JP2007133805A (ja) * 2005-11-14 2007-05-31 Asahi Kasei Corp 危険予知管理システム
JP2008065361A (ja) * 2006-09-04 2008-03-21 Kayaba Ind Co Ltd 運行管理装置
CN110019641A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002312676A1 (en) 2001-06-12 2002-12-23 Silicon Optix Inc. System and method for correcting keystone distortion
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
JP4240329B2 (ja) * 2006-09-21 2009-03-18 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US9355090B2 (en) * 2008-05-30 2016-05-31 Apple Inc. Identification of candidate characters for text input
US8751531B2 (en) * 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP5472641B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
US9400790B2 (en) * 2009-12-09 2016-07-26 At&T Intellectual Property I, L.P. Methods and systems for customized content services with unified messaging systems
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US20130138474A1 (en) * 2011-11-25 2013-05-30 International Business Machines Corporation Customer retention and screening using contact analytics
WO2016024262A1 (en) * 2014-08-15 2016-02-18 Opisoftcare Ltd. Method and system for retrieval of findings from report documents
US11398083B2 (en) * 2017-04-03 2022-07-26 Nippon Telegraph And Telephone Corporation Analysis device, analysis method, and analysis program
US10498888B1 (en) * 2018-05-30 2019-12-03 Upcall Inc. Automatic call classification using machine learning
CN108984745B (zh) * 2018-07-16 2021-11-02 福州大学 一种融合多知识图谱的神经网络文本分类方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617938A (ja) * 1984-06-22 1986-01-14 Matsushita Electric Ind Co Ltd 文書検索装置
JPH0778182A (ja) * 1993-06-18 1995-03-20 Hitachi Ltd キーワード付与システム
JPH08335265A (ja) * 1995-06-07 1996-12-17 Canon Inc 文書処理装置および方法
JPH09311868A (ja) * 1996-05-24 1997-12-02 Fujitsu Ltd 情報検索装置
JPH1027181A (ja) * 1996-07-11 1998-01-27 Fuji Xerox Co Ltd 文書評価装置
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2001101226A (ja) * 1999-10-01 2001-04-13 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2002140465A (ja) * 2000-08-21 2002-05-17 Fujitsu Ltd 自然文処理装置及び自然文処理用プログラム
JP2002169943A (ja) * 2000-11-30 2002-06-14 Nbc:Kk 情報整理方法及び情報整理装置
JP2002183175A (ja) * 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6898586B1 (en) * 1998-10-23 2005-05-24 Access Innovations, Inc. System and method for database design and maintenance
US6801659B1 (en) * 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS617938A (ja) * 1984-06-22 1986-01-14 Matsushita Electric Ind Co Ltd 文書検索装置
JPH0778182A (ja) * 1993-06-18 1995-03-20 Hitachi Ltd キーワード付与システム
JPH08335265A (ja) * 1995-06-07 1996-12-17 Canon Inc 文書処理装置および方法
JPH09311868A (ja) * 1996-05-24 1997-12-02 Fujitsu Ltd 情報検索装置
JPH1027181A (ja) * 1996-07-11 1998-01-27 Fuji Xerox Co Ltd 文書評価装置
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2001101226A (ja) * 1999-10-01 2001-04-13 Ricoh Co Ltd 文書群分類装置および文書群分類方法
JP2001184351A (ja) * 1999-12-27 2001-07-06 Toshiba Corp 文書情報抽出装置および文書分類装置
JP2002140465A (ja) * 2000-08-21 2002-05-17 Fujitsu Ltd 自然文処理装置及び自然文処理用プログラム
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2002169943A (ja) * 2000-11-30 2002-06-14 Nbc:Kk 情報整理方法及び情報整理装置
JP2002183175A (ja) * 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梶 博行: "コーパス対応の関連シソーラスナビゲーション", 情報処理学会研究報告 VOL.99 NO.39, vol. 第99巻 第39号, JPN6008066101, 17 May 1999 (1999-05-17), JP, pages 97 - 104, ISSN: 0001215230 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
JPWO2006085661A1 (ja) * 2005-02-08 2008-08-07 日本電気株式会社 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
US8983962B2 (en) 2005-02-08 2015-03-17 Nec Corporation Question and answer data editing device, question and answer data editing method and question answer data editing program
JP2007133805A (ja) * 2005-11-14 2007-05-31 Asahi Kasei Corp 危険予知管理システム
JP2008065361A (ja) * 2006-09-04 2008-03-21 Kayaba Ind Co Ltd 運行管理装置
CN110019641A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统
CN110019641B (zh) * 2017-07-27 2023-09-08 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统

Also Published As

Publication number Publication date
CN1503164A (zh) 2004-06-09
US20040158558A1 (en) 2004-08-12

Similar Documents

Publication Publication Date Title
CN104537116B (zh) 一种基于标签的图书搜索方法
US7783644B1 (en) Query-independent entity importance in books
JP2004178123A (ja) 情報処理装置、該情報処理装置を実現するためのプログラム
CA2895511C (en) Systems and methods for patent-related document analysis and searching
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20120166414A1 (en) Systems and methods for relevance scoring
JP2002041546A (ja) 階層的統計分析のシステム及び方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
WO2000075809A1 (en) Information sorting method, information sorter, recorded medium on which information sorting program is recorded
US20080086453A1 (en) Method and apparatus for correlating the results of a computer network text search with relevant multimedia files
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Brenner et al. Social event detection and retrieval in collaborative photo collections
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
KR101441219B1 (ko) 정보 엔터티들의 자동 연관
EP1490795A2 (en) Database searching method and system
CN115526601A (zh) 文件管理方法及装置
CN121188178A (zh) 查询语句的检索处理方法、装置、设备、介质及程序产品
TW202316291A (zh) 專利檢索系統及其方法
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
CN101088082A (zh) 全文查询和搜索系统及其使用方法
JP4569179B2 (ja) ドキュメント検索装置
JP2002183175A (ja) テキストマイニング方法
CN116090473A (zh) 写作智能辅助方法、装置及系统
JP2004145626A (ja) 文書分類支援装置およびコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050926

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090818