JP2003108571A - 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 - Google Patents

文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体

Info

Publication number
JP2003108571A
JP2003108571A JP2001304680A JP2001304680A JP2003108571A JP 2003108571 A JP2003108571 A JP 2003108571A JP 2001304680 A JP2001304680 A JP 2001304680A JP 2001304680 A JP2001304680 A JP 2001304680A JP 2003108571 A JP2003108571 A JP 2003108571A
Authority
JP
Japan
Prior art keywords
sentence
vector
document
field
inner product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001304680A
Other languages
English (en)
Inventor
Koji Yamada
孝司 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001304680A priority Critical patent/JP2003108571A/ja
Publication of JP2003108571A publication Critical patent/JP2003108571A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 各分野における重要な単語の文章中における
出現頻度が低い場合であっても、各分野に対応させてよ
り正確な要約を作成する。 【解決手段】 文ベクトル生成部14は、要約対象の文
章を構成する文の文ベクトルを生成し、文章ベクトル生
成部および重要文生成部に出力する。文章ベクトル生成
部15は、文ベクトルに基づいて要約対象の文章に対応
する文章ベクトルを生成し、文ベクトル比較部16に出
力する。文ベクトル比較部16は、文ベクトル、分野別
特徴ベクトルおよび文章ベクトルに基づいて要約対象の
文章から重要文を抽出する。これらの結果、要約文出力
部13は、重要文から要約文を生成して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書要約装置、文
書要約装置の制御方法、文書要約装置の制御プログラム
及び記録媒体に係り、特に正確な要約を容易に作成する
ことが可能な文書要約装置、文書要約装置の制御方法、
文書要約装置の制御プログラム及び記録媒体に関する。
【0002】
【従来の技術】従来より、要約対象の文書を入力するこ
とにより、コンピュータなどの情報処理装置を用いて自
動的に要約を作成するものが様々提案されている。例え
ば、特許第2944346号公報に開示されている要約
装置は、要約対象の文書中の単語の特徴ベクトルに基づ
いて文の特徴ベクトルを生成し、文章中に現れる文と特
徴ベクトルの類似度を用いて要約を作成する構成を採っ
ている。また、特開平11−102372に開示されて
いる文書要約装置は、文脈ベクトルの類似度を計算し、
得られた文脈ベクトルの類似度に基づいて要約を作成す
る構成を採っている。
【0003】
【発明が解決しようとする課題】上記従来の技術におい
ては、文章中に出現する単語の頻度情報に基づいて特徴
ベクトルあるいは文脈ベクトルを作成し、要約文を作成
している。従って、当該文章の属する分野(例えば、工
学、経済学、機械、電気、金融など)においては重要な
単語が含まれている場合であっても、たまたま重要な単
語の出現頻度が低いと要約文に用いる単語して選択され
ず、ひいては、当該単語を含む文が要約文に用いられな
くなってしまうという可能性がある。この結果、不正確
な要約文が作成されてしまうという問題点があった。そ
こで、本発明の目的は、各分野における重要な単語の文
章中における出現頻度が低い場合であっても、各分野に
対応させてより正確な要約を作成することが可能な文書
要約装置、文書要約装置の制御方法、文書要約装置の制
御プログラム及び記録媒体を提供することにある。
【0004】
【課題を解決するための手段】上記課題を解決するた
め、文書要約装置は、要約対象の文章を構成する文の文
ベクトルを生成する文ベクトル生成部と、前記文ベクト
ルに基づいて要約対象の文章に対応する文章ベクトルを
生成する文章ベクトル生成部と、前記文ベクトル、前記
要約対象の文章が属する分野を特徴づける分野別特徴ベ
クトルおよび前記文章ベクトルに基づいて前記要約対象
の文章から重要文を抽出する重要文抽出部と、を備えた
ことを特徴としている。上記構成によれば、文ベクトル
生成部は、要約対象の文章を構成する文の文ベクトルを
生成し、文章ベクトル生成部および重要文生成部に出力
する。文章ベクトル生成部は、文ベクトルに基づいて要
約対象の文章に対応する文章ベクトルを生成し、重要文
生成部に出力する。重要文生成部は、文ベクトル、分野
別特徴ベクトルおよび前記文章ベクトルに基づいて前記
要約対象の文章から重要文を抽出する。
【0005】この場合において、前記文章ベクトル生成
部は、前記要約対象の文章を構成する文の文ベクトルの
平均ベクトルを前記文章ベクトルとするようにしてもよ
い。また、前記重要文抽出部は、前記文ベクトルと前記
文章との内積である第1の内積を算出し、前記文ベクト
ルと前記分野別特徴ベクトルとの内積である第2の内積
を算出し、前記第1の内積および前記第2の内積の和を
類似度とし、前記類似度を所定の基準類似度と比較する
ことにより前記重要文を抽出するようにしてもよい。さ
らに、前記抽出された重要文に基づいて要約文を作成す
る要約文作成部を備えるようにしてもよい。さらにま
た、前記分野毎に複数の学習用文章に基づいて前記分野
別特徴ベクトルを生成する分野別特徴ベクトル生成部を
備えるようにしてもよい。また、前記分野別特徴ベクト
ル生成部は、各前記学習用文章に対応する文章ベクトル
を生成し、複数の前記学習用文章に対応する文章ベクト
ルの平均ベクトルを前記分野別特徴ベクトルとして生成
するようにしてもよい。
【0006】また、文書要約装置の制御方法は、要約対
象の文章を構成する文の文ベクトルを生成する文ベクト
ル生成過程と、前記文ベクトルに基づいて要約対象の文
章に対応する文章ベクトルを生成する文章ベクトル生成
過程と、前記文ベクトル、前記要約対象の文章が属する
分野を特徴づける分野別特徴ベクトルおよび前記文章ベ
クトルに基づいて前記要約対象の文章から重要文を抽出
する重要文抽出過程と、を備えたことを特徴としてい
る。この場合において、前記文章ベクトル生成過程は、
前記要約対象の文章を構成する文の文ベクトルの平均ベ
クトルを前記文章ベクトルとする過程を備えるようにし
てもよい。
【0007】さらに前記重要文抽出過程は、前記文ベク
トルと前記文章との内積である第1の内積を算出する過
程と、前記文ベクトルと前記分野別特徴ベクトルとの内
積である第2の内積を算出する過程と、前記第1の内積
および前記第2の内積の和を類似度とする過程と、前記
類似度を所定の基準類似度と比較することにより前記重
要文を抽出する過程と、を備えるようにしてもよい。さ
らにまた、前記抽出された重要文に基づいて要約文を作
成する要約文作成過程を備えるようにしてもよい。
【0008】また、コンピュータを、入力された要約対
象文章データに基づいて要約文データを生成させるため
の文書要約装置として機能させるための文書要約装置の
制御プログラムは、前記要約対象文章データに対応する
要約対象の文章を構成する文の文ベクトルを生成させ、
前記文ベクトルに基づいて要約対象の文章に対応する文
章ベクトルを生成させ、前記文ベクトル、前記要約対象
の文章が属する分野を特徴づける分野別特徴ベクトルお
よび前記文章ベクトルに基づいて前記要約対象の文章か
ら重要文を抽出させる、ことを特徴としている。この場
合において、前記要約対象の文章を構成する文の文ベク
トルの平均ベクトルを算出させ、前記文章ベクトルとさ
せるようにしてもよい。
【0009】さらに前記文ベクトルと前記文章との内積
である第1の内積を算出させ、前記文ベクトルと前記分
野別特徴ベクトルとの内積である第2の内積を算出さ
せ、前記第1の内積および前記第2の内積の和を類似度
とさせ、前記類似度を所定の基準類似度と比較させるこ
とにより前記重要文を抽出させるようにしてもよい。ま
た、前記抽出された重要文に基づいて要約文を作成させ
るようにしてもよい。また、上記各文書要約装置の制御
プログラムを記録媒体に記録してもよい。
【0010】
【発明の実施の形態】次に本発明の好適な実施の形態に
ついて図面を参照して説明する。図1に実施形態の文書
要約装置の概要機能構成ブロック図を示す。文書要約装
置10は、大別すると、形態素解析部11と、文章解析
部12と、要約文出力部13と、文ベクトル生成部14
と、文章ベクトル生成部15と、分野別特徴ベクトル生
成部17と、文ベクトル比較部16と、分野別特徴ベク
トル辞書18と、を備えている。ここで、文書要約装置
10は、コンピュータシステムにおいて実現可能であ
り、形態素解析部11、文章解析部12、要約文出力部
13、文ベクトル生成部14、文章ベクトル生成部1
5、文ベクトル比較部16および分野別特徴ベクトル生
成部17の機能は、各部に対応するマイクロプロセッサ
で実行可能なプログラムによって実現される。また、こ
のようなプログラムは、半導体メモリ、CD−ROMな
どの記録媒体から直接実行してもよい。また、外部記憶
装置に予めプログラムインストールして実行することも
可能である。さらにプログラムの実行に先立って実行す
る毎、あるいは、最初に一度だけ、インターネットなど
のネットワークを介してインストールするようにしても
よい。
【0011】また、要約対象の文章の入力は、キーボー
ド、タブレットなどによる直接入力の他、フレキシブル
ディスク、ハードディスク等の記憶装置からの入力、ス
キャナ及びOCRなどを用いた文字認識入力、インター
ネット、LANなどのネットワークを介した通信入力な
どにより行われる。さらに、得られた要約文の出力は、
CRTなどの表示装置による出力、プリンタなどによる
印字出力、フレキシブルディスク、ハードディスク等の
記憶装置への記録出力、LANなどのネットワークを介
した通信出力などにより行われる。また分野別特徴ベク
トル辞書は、実際的には、データベースとして提供さ
れ、当該コンピュータシステムに接続されているハード
ディスク等の記憶装置上あるいはインターネット、LA
Nなどのネットワークを介したデータベースサーバなど
に接続されているハードディスク等の記憶装置上に構成
されている。形態素解析部11は、入力された要約対象
文章を形態素解析し、単語単位に分割し、名詞、形容動
詞など文ベクトルの生成に必要とされるものを抽出す
る。
【0012】文章解析部12は、文ベクトル生成部1
4、文章ベクトル生成部15および文ベクトル比較部1
6を制御して入力された要約対象文章を構成する複数の
文のうち当該要約対象文章の属する分野において重要度
の高いと思われる文(以下、重要文という。)を要約文
出力部13に出力することとなる。文ベクトル生成部1
4は、要約対象文章を構成する文毎にベクトル化し、生
成した文ベクトルを文章ベクトル生成部15に出力す
る。文章ベクトル生成部15は、入力された文ベクトル
に基づいて要約対象文書の文章ベクトルを生成する。そ
して、文ベクトル比較部16は、重要文抽出部として機
能し、入力された文ベクトル、生成した文章ベクトルお
よび分野別特徴ベクトル辞書から読み出した要約対象文
書の属する分野の特徴ベクトルに基づいて入力された要
約対象文章を構成する複数の文のうち当該要約対象文章
の属する分野における重要文を抽出し、要約文出力部1
3に出力する。
【0013】分野別特徴ベクトル生成部17は、文書要
約装置10の運用に先立って分野別特徴ベクトル辞書1
8に格納すべき、分野別特徴ベクトルを生成するもので
ある。この場合において、文書要約装置10の運用管理
者は、当該文書要約装置10を利用する要約対象文章の
属する分野に含まれることが分かっている文章である学
習用文章を各分野ごとに所定数だけ用意する。この場合
において用意すべき文章の数は、経験的に定めるもので
あり、統計学的に有意に分野ごとの特徴が現れるのに十
分な数とする。次に学習用文章から文章ベクトルを生成
する。ベクトル化の具体的な手法としては、例えば、出
現する単語を次元とするベクトルを用いる方法がある。
ベクトルの要素の値は、TFIDF値(単語の出現頻度
および文章中における単語の特徴量から計算される値)
を用いる。
【0014】例えば、複数の文章が格納されたデータベ
ース内の文章d1のベクトルD1(d1)は次の式で表
現できる。 D1(d1)=(TF(d1,t1)*IDF(t1), TF(d1,t2)*IDF(t2), TF(d1,t3)*IDF(t3), ……, TF(d1,tn)*IDF(tn)) ここで、t1、t2、t3、……、tnは、それぞれデータベー
ス内に出現する単語であり、t1〜tnは、データベース内
の全単語に相当する。そして各分野毎に、例えば学習用
文章のベクトル値の平均を求め、得られた平均ベクトル
値に対応する平均ベクトルを各分野の分野別特徴ベクト
ルとして分野別特徴ベクトル辞書18に格納する。具体
的には、図2に示すように、分野Aに属する複数の学習
用文章に対応する複数の文章ベクトルを得る。同様に分
野Bに属する複数の学習用文章に対応する複数の文章ベ
クトルを得る。なお、図2においては、図示の簡略化の
ため各分野における複数の文章ベクトルについて、2次
元上で表現し、各文章ベクトルが属する分野を表す符号
(AまたはB)を含む矩形として図示している。しかし
ながら、実際には、各文章ベクトルは、第1の単語のT
FIDF値を第1軸とし、第2の単語のTFIDF値を
第2軸とし、……、第Nの単語のTFIDF値を第N軸
として表したN次元のベクトルとして表される。ここ
で、Nは対象の全文書に出現する単語数に相当する。そ
して、得られた複数の文章ベクトルを各分野毎に平均
し、得られた平均ベクトルを各分野の分野別特徴ベクト
ルとする。図2においては、分野Aの分野別特徴ベクト
ルVCAおよび分野Bの分野別特徴ベクトルVCBを表
示している。
【0015】実際に各分野の特徴ベクトルを分野別特徴
ベクトル辞書18にデータベースとして格納する場合に
は、図3に示すように、各分野ごとに、当該分野を特定
するための分野IDデータおよび当該分野を表す単語T
FIDFデータをTFIDFの値が大きい順(出現頻度
が高い順)にn個づつ含むデータベースとして構成して
いる。より詳細には、分野IDデータ=1の分野につい
ては、当該分野において最もTFIDFの値が高い単語
である「パソコン」および対応するTFIDFの値
「0.0001」を表すTFIDFデータから順番に、
単語「ソフトウェア」までn個の単語TFIDFデータ
を格納している。同様に分野IDデータ=2の分野につ
いては、当該分野において最もTFIDFの値が高い単
語である「メール」および対応するTFIDFの値
「0.00015」を表すTFIDFデータから順番
に、単語「送信」までn個の単語TFIDFデータを格
納している。
【0016】次に図4の文章解析部の処理フローチャー
トを参照して文章要約装置の動作を文章解析部の動作を
中心として説明する。形態素解析部11は、入力された
要約対象文章を形態素解析し、単語単位に分割し、名
詞、形容動詞など文ベクトルの生成に必要とされるもの
を抽出して文章解析部12に出力する。文章解析部12
は、入力された要約対象文章を構成している文を取り出
す(ステップS11)。そして要約対象文章を構成する
文を全て取り出したか否かを判別する(ステップS1
2)。ステップS12の判別において、いまだ要約対象
文章を構成する文を全て取り出してはいない場合には
(ステップS12;No)、取り出した文を文ベクトル
生成部14に送り、文ベクトルを生成させる。
【0017】ここで、図5の文ベクトル生成部の処理フ
ローチャートを参照して文ベクトル生成部14の文ベク
トル生成動作について説明する。文ベクトル生成部14
は、形態素解析部11により入力された文ベクトル生成
に必要とする名詞、形容動詞等を取得する(ステップS
21)。そして文ベクトル生成部14は、形態素解析に
より得られた単語のTFIDFを計算し、文をベクトル
化する(ステップS22)。具体的なTFIDFの計算
は次式に基づいて行う。 TFIDF = TF(d,t) × IDF(t) ここで、TF(d,t):テキストd における単語t の出現頻
度 IDF(t):log[DB(db) / f(t,db)] DB(db):あるデータベースdb 内に格納されている全テ
キスト数 f(t,db):あるデータベースdb 内で単語t が出現するテ
キスト数である。
【0018】具体的な計算の一例として、百人一首にお
いて、単語t=「月」に対するテキストdである23番の
歌のテキストのTFIDF値を計算する場合について説
明する。。 テキストd=「月みれば ちぢに物こそ かなしけれ わ
が身ひとつの 秋にはあらねど」 この23番の歌のテキストdにおいて、単語t=「月」の
出現頻度TF(d,t) は1(回)である。また、百人一首の
全部の歌の数(全テキスト数DB(db)) は100であ
り、百人一首全体における単語t=「月」を含む歌の数
(出現頻度f(t,db))は11である。従って、単語t=
「月」 に対するテキストd=「月みれば ちぢに物こそ
かなしけれ わが身ひとつの 秋にはあらねど」のTF
IDF値は、以下のような結果となる。
【0019】ステップS12の判別において、既に要約
対象文章を構成する文を全て取り出した場合には(ステ
ップS12;Yes)、文章解析部12は、ステップS
13の処理において得られた全ての文ベクトルを文章ベ
クトル生成部15に送り、文章ベクトルを生成させる
(ステップS14)。ここで、図6の文章ベクトル生成
部15の処理フローチャートを参照して文章ベクトル生
成動作について説明する。文章ベクトル生成部15は、
文ベクトル生成部14により生成された文ベクトルの平
均値を計算する(ステップS31)。次に文章ベクトル
生成部15は、計算した文ベクトルの平均値(文ベクト
ルの平均ベクトル)を文章ベクトルとして文章解析部1
2に出力する(ステップS32)。次に文章解析部12
は、ステップS13の処理において得られた文ベクトル
およびステップS14の処理において得られた文章ベク
トルを文ベクトル比較部16に送り、重要文を抽出させ
る(ステップS15)。
【0020】ここで、図7の文ベクトル比較部16の処
理フローチャートを参照して要約作成に用いる重要文の
抽出動作について説明する。文ベクトル比較部16は、
文章解析部12から送られた文ベクトルのうちから順に
文ベクトルを一つ取り出すための処理を行う(ステップ
S41)。次に文ベクトル比較部16は、ステップS4
1において取り出すべき文ベクトルがもう無いか否かを
判別する(ステップS42)。ステップS42の判別に
おいて、取り出すべき文ベクトルがもう無い場合には
(ステップS42;Yes)、文ベクトル比較部16
は、全ての重要文抽出動作が終了したので処理を終了す
る。
【0021】ステップS42の判別において、取り出す
べき文ベクトルがあった場合には(ステップS;N
o)、文ベクトル比較部16は、取り出した文ベクト
ル、あらかじめユーザにより指定された要約対象文章が
属する分野に対応する特徴ベクトルおよび要約対象文章
の文章ベクトルに基づいて類似度を計算する(ステップ
S43)。具体的な類似度の計算手順としては、まず文
ベクトルと文章ベクトルとの内積(第1の内積)を求め
る。次に文ベクトルと分野に対応する特徴ベクトルとの
内積(第2の内積)を求める。そして、第1の内積と第
2の内積の和を類似度とする。
【0022】続いて、文ベクトル比較部16は、類似度
があらかじめ設定された一定値(重要文か否かを定める
ための基準類似度に相当する値)以上であるか否かを判
別する(ステップS44)。ステップS44の判別にお
いて、類似度が一定値未満である場合には(ステップS
44;No)、ステップS43において類似度の算出に
用いた文ベクトルに対応する文章は、要約作成における
重要文ではないので、処理をステップS41に移行して
全ての文ベクトルに対する処理が終了するまで以下同様
の処理を行う。ステップS44の判別において、類似度
が一定値以上である場合には(ステップS44;Ye
s)、ステップS43において類似度の算出に用いた文
ベクトルに対応する文章は要約作成に用いるべき重要文
として抽出する(ステップS45)。そして処理を再び
ステップS41に移行し、全ての文ベクトルに対する処
理が終了するまで以下同様の処理を繰り返す。これによ
り文章解析部12は、文ベクトル比較部16が抽出した
重要分を要約文出力部13に送出する。これにより要約
文出力部は送信された重要文を接続し、要約文を生成し
て出力して、処理を終了する(ステップS16)。要約
文の具体例については、以下に詳述する。
【0023】次に上記実施形態の手法により得られる要
約文と、従来の文ベクトルの類似度を用いて抽出された
重要文を用いて得られる要約文と、を比較する。以下の
説明においては、特許第2944346号の明細書に開
示されている従来の技術の部分を取り出したものを要約
対象文章として用いるものとする。この場合において、
元の文章に対し、説明の容易化のため、文番号を付加し
ている。要約対象文章は以下の通りである。 「 1:発想とは既知の情報の新たな組み合わせであ
り、決して無から有を作り出すことはできない。 2:そのために、文書作成時における発想に際しては、
既存の文書を参照して引用することが頻繁に行われる。 3:一般に、参考とする既存の文書はその数も多く、個
々の文書中における文章量も多い。 4:したがって、この参考とする既存の文書をそのまま
全部読んでいては時間や労力を消費してしまい、本来の
目的である文書作成にかける力が減少してしまう。 5:参考とする文書の多さについては、検索装置を用い
て文書内容を絞り込むことによって減らすことができ
る。 6:また、個々の文書中における文章量の多さについて
は、要約/要旨抽出装置を用いることによって減少でき
る。 7:ここで、個々の文書の文章量を減少させることによ
って参照の手間を軽減するために、文書から要約/要旨
抽出を抽出する場合を考える。 8:この場合には、文書の文章量を減少させても元の文
書に含まれる重要な内容が損なわれないような手法を用
いる必要がある。 9:従来から提唱されている文書要約の手法としては、
次の2つの手法がある。 10:第1の手法は、文章を表層的に解析するものであ
る。 11:この手法には、単語の出現頻度解析から文章の重
要箇所を決定して元の文書に含まれている単語の組み合
わせや文の抽出によって要約文の生成を行うものや、文
の文末表現および用言によって文章中における強調/主
張文を抽出するものが含まれる。 12:第2の手法は、文章を意味的に解析するものであ
る。 13:この手法には、事前に文章の形式や文脈を仮定し
ておいてその仮定に沿って文章を解析して要約を抽出す
るものや、文の係り受けの粗密性を用いることによって
内容の重要性を定義して要約を抽出するものが含まれ
る。」 上記要約対象文章に対して、従来の文ベクトルの類似度
を用いて抽出された重要文は以下の文番号7,8,13
の3文となる。 「 7:ここで、個々の文書の文章量を減少させること
によって参照の手間を軽減するために、文書から要約/
要旨抽出を抽出する場合を考える。」 「 8:この場合には、文書の文章量を減少させても元
の文書に含まれる重要な内容が損なわれないような手法
を用いる必要がある。」 「 13:この手法には、事前に文章の形式や文脈を仮
定しておいてその仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものが含ま
れる。」 これに対し、本実施形態の分野別の特徴ベクトルを用い
た手法で抽出された重要文は以下の文番号8,11,1
3の3文となる。 「 8:この場合には、文書の文章量を減少させても元
の文書に含まれる重要な内容が損なわれないような手法
を用いる必要がある。」 「 11:この手法には、単語の出現頻度解析から文章
の重要箇所を決定して元の文書に含まれている単語の組
み合わせや文の抽出によって要約文の生成を行うもの
や、文の文末表現および用言によって文章中における強
調/主張文を抽出するものが含まれる。」 「 13:この手法には、事前に文章の形式や文脈を仮
定しておいてその仮定に沿って文章を解析して要約を抽
出するものや、文の係り受けの粗密性を用いることによ
って内容の重要性を定義して要約を抽出するものが含ま
れる。」
【0024】ここで、各手法により得られる重要文の差
異について説明する。上記従来の手法では、"出現頻
度"、"強調"、"生成"などの単語の出現頻度が文書全体
では少ないため、文番号11の文が重要文として認識さ
れない。従って、従来の手法で得られる要約文は、以下
のようになる。「ここで、個々の文書の文章量を減少さ
せることによって参照の手間を軽減するために、文書か
ら要約/要旨抽出を抽出する場合を考える。この場合に
は、文書の文章量を減少させても元の文書に含まれる重
要な内容が損なわれないような手法を用いる必要があ
る。この手法には、事前に文章の形式や文脈を仮定して
おいてその仮定に沿って文章を解析して要約を抽出する
ものや、文の係り受けの粗密性を用いることによって内
容の重要性を定義して要約を抽出するものが含まれ
る。」
【0025】これに対し、本実施形態の手法では、あら
かじめ、ベクトル空間法を使用した自然言語処理の特許
明細書データを利用して、ベクトル空間法を利用した自
然言語処理という分野の特徴ベクトルを作成している。
従って、分野別特徴ベクトル辞書18には、この自然言
語処理分野の特徴ベクトルとして、ベクトル空間法を利
用した自然言語処理でよく出現する「出現頻度」、「強
調」、「生成」などの単語に対応する単語TFIDFデ
ータも含まれている。この結果、文番号7の文は、当該
自然言語処理分野においては、重要文としては取り扱わ
れなくなり、これに代わって文番号11の文が重要文と
して認識されるようになるのである。
【0026】この結果、要約文出力部13から出力され
る要約文は、以下のようになる。「 この場合には、文
書の文章量を減少させても元の文書に含まれる重要な内
容が損なわれないような手法を用いる必要がある。この
手法には、単語の出現頻度解析から文章の重要箇所を決
定して元の文書に含まれている単語の組み合わせや文の
抽出によって要約文の生成を行うものや、文の文末表現
および用言によって文章中における強調/主張文を抽出
するものが含まれる。この手法には、事前に文章の形式
や文脈を仮定しておいてその仮定に沿って文章を解析し
て要約を抽出するものや、文の係り受けの粗密性を用い
ることによって内容の重要性を定義して要約を抽出する
ものが含まれる。」
【0027】以上の説明のように、本実施形態によれ
ば、要約対象の文章が属する分野に特徴的な単語までも
考慮して要約文を作成するため、より正確な要約文を容
易に作成することが可能となる。
【0028】以下、本実施形態の変形例について説明す
る。以上の説明においては、文章の類似度として文章ベ
クトルの内積を用いる場合について説明したが、文章ベ
クトルのユークリッド距離を文章の類似度として用いる
ように構成することも可能である。上述したように、複
数の文章が格納されたデータベース内の文章d1のベク
トルD1は次の式で表現できる。 D1(d1)=(TF(d1,t1)*IDF(t1), TF(d1,t2)*IDF(t2), TF(d1,t3)*IDF(t3), ……,TF(d1,tn)*IDF(tn))
【0029】同様に、文章d2のベクトルD2は次の式
で表現できる。 D2(d2)=(TF(d2,t1)*IDF(t1), TF(d2,t2)*IDF(t2), TF(d2,t3)*IDF(t3), ……, TF(d2,tn)*IDF(tn)) ここで、t1、t2、t3、……、tnは、それぞれデータベー
ス内に出現する単語であり、t1〜tnは、データベース内
の全単語に相当する。これに基づき、文章d1に対応す
る文書ベクトルD1(d1)と、文章d2に対応する文
書ベクトルD2(d2)の類似度であるユークリッド距
離DEは次の式で計算できる。 DE=|D1(d1)-D2(d2)|
【0030】
【発明の効果】本発明によれば、要約対象の文章につい
て要約文を自動的に生成するに際し、当該要約対象の文
章が属する分野も考慮して要約文を生成するため、より
正確な要約文を容易に作成することが可能となる。
【図面の簡単な説明】
【図1】 実施形態の文書要約装置の概要機能構成ブロ
ック図である。
【図2】 各分野に属する複数の学習用文章に対応する
複数の文章ベクトルの説明図である。
【図3】 分野別特徴ベクトル辞書内のデータベースの
説明図である。
【図4】 文章解析部の処理フローチャートである。
【図5】 文スペクトル生成部の処理フローチャートで
ある。
【図6】 文章ベクトル生成部の処理フローチャートで
ある。
【図7】 文ベクトル比較部の処理フローチャートであ
る。
【符号の説明】
10……文書要約装置 11……形態素解析部 12……文章解析部 13……要約文出力部 14……文ベクトル生成部 15……文章ベクトル生成部 16……文ベクトル比較部(重要文抽出部) 17……分野別特徴ベクトル生成部 18……分野別特徴ベクトル辞書

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 要約対象の文章を構成する文の文ベクト
    ルを生成する文ベクトル生成部と、 前記文ベクトルに基づいて要約対象の文章に対応する文
    章ベクトルを生成する文章ベクトル生成部と、 前記文ベクトル、前記要約対象の文章が属する分野を特
    徴づける分野別特徴ベクトルおよび前記文章ベクトルに
    基づいて前記要約対象の文章から重要文を抽出する重要
    文抽出部と、 を備えたことを特徴とする文書要約装置。
  2. 【請求項2】 請求項1記載の文書要約装置において、 前記文章ベクトル生成部は、前記要約対象の文章を構成
    する文の文ベクトルの平均ベクトルを前記文章ベクトル
    とすることを特徴とする文書要約装置。
  3. 【請求項3】 請求項1記載の文書要約装置において、 前記重要文抽出部は、前記文ベクトルと前記文章との内
    積である第1の内積を算出し、 前記文ベクトルと前記分野別特徴ベクトルとの内積であ
    る第2の内積を算出し、 前記第1の内積および前記第2の内積の和を類似度と
    し、 前記類似度を所定の基準類似度と比較することにより前
    記重要文を抽出する、ことを特徴とする文書要約装置。
  4. 【請求項4】 請求項1記載の文書要約装置において、 前記抽出された重要文に基づいて要約文を作成する要約
    文作成部を備えたことを特徴とする文書要約装置。
  5. 【請求項5】 請求項1記載の文書要約装置において、 前記分野毎に複数の学習用文章に基づいて前記分野別特
    徴ベクトルを生成する分野別特徴ベクトル生成部を備え
    たことを特徴とする文書要約装置。
  6. 【請求項6】 請求項5記載の文書要約装置において、 前記分野別特徴ベクトル生成部は、各前記学習用文章に
    対応する文章ベクトルを生成し、 複数の前記学習用文章に対応する文章ベクトルの平均ベ
    クトルを前記分野別特徴ベクトルとして生成する、 ことを特徴とする文書要約装置。
  7. 【請求項7】 要約対象の文章を構成する文の文ベクト
    ルを生成する文ベクトル生成過程と、 前記文ベクトルに基づいて要約対象の文章に対応する文
    章ベクトルを生成する文章ベクトル生成過程と、 前記文ベクトル、前記要約対象の文章が属する分野を特
    徴づける分野別特徴ベクトルおよび前記文章ベクトルに
    基づいて前記要約対象の文章から重要文を抽出する重要
    文抽出過程と、 を備えたことを特徴とする文書要約装置の制御方法。
  8. 【請求項8】 請求項7記載の文書要約装置の制御方法
    において、 前記文章ベクトル生成過程は、前記要約対象の文章を構
    成する文の文ベクトルの平均ベクトルを前記文章ベクト
    ルとする過程を備えたことを特徴とする文書要約装置の
    制御方法。
  9. 【請求項9】 請求項7記載の文書要約装置の制御方法
    において、 前記重要文抽出過程は、前記文ベクトルと前記文章との
    内積である第1の内積を算出する過程と、 前記文ベクトルと前記分野別特徴ベクトルとの内積であ
    る第2の内積を算出する過程と、 前記第1の内積および前記第2の内積の和を類似度とす
    る過程と、 前記類似度を所定の基準類似度と比較することにより前
    記重要文を抽出する過程と、 を備えたことを特徴とする文書要約装置の制御方法。
  10. 【請求項10】 請求項7記載の文書要約装置の制御方
    法において、 前記抽出された重要文に基づいて要約文を作成する要約
    文作成過程を備えたことを特徴とする文書要約装置の制
    御方法。
  11. 【請求項11】 コンピュータを、入力された要約対象
    文章データに基づいて要約文データを生成させるための
    文書要約装置として機能させるための文書要約装置の制
    御プログラムにおいて、 前記要約対象文章データに対応する要約対象の文章を構
    成する文の文ベクトルを生成させ、 前記文ベクトルに基づいて要約対象の文章に対応する文
    章ベクトルを生成させ、 前記文ベクトル、前記要約対象の文章が属する分野を特
    徴づける分野別特徴ベクトルおよび生成させた前記文章
    ベクトルに基づいて前記要約対象の文章から重要文を抽
    出させる、 ことを特徴とする文書要約装置の制御プログラム。
  12. 【請求項12】 請求項11記載の文書要約装置の制御
    プログラムにおいて、 前記要約対象の文章を構成する文の文ベクトルの平均ベ
    クトルを算出させ、前記文章ベクトルとさせる、 ことを特徴とする文書要約装置の制御プログラム。
  13. 【請求項13】 請求項11記載の文書要約装置の制御
    プログラムにおいて、 前記文ベクトルと前記文章との内積である第1の内積を
    算出させ、 前記文ベクトルと前記分野別特徴ベクトルとの内積であ
    る第2の内積を算出させ、 前記第1の内積および前記第2の内積の和を類似度とさ
    せ、 前記類似度を所定の基準類似度と比較させることにより
    前記重要文を抽出させる、 ことを特徴とする文書要約装置の制御プログラム。
  14. 【請求項14】 請求項11記載の文書要約装置の制御
    プログラムにおいて、 前記抽出された重要文に基づいて要約文を作成させる、 ことを特徴とする文書要約装置の制御プログラム。
  15. 【請求項15】 請求項11ないし請求項14のいずれ
    かに記載の文書要約装置の制御プログラムを記録したこ
    とを特徴とする記録媒体。
JP2001304680A 2001-09-28 2001-09-28 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 Pending JP2003108571A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001304680A JP2003108571A (ja) 2001-09-28 2001-09-28 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001304680A JP2003108571A (ja) 2001-09-28 2001-09-28 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2003108571A true JP2003108571A (ja) 2003-04-11

Family

ID=19124569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001304680A Pending JP2003108571A (ja) 2001-09-28 2001-09-28 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2003108571A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118428A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 要求獲得システム、要求獲得方法、及び要求獲得用プログラム
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2016057669A (ja) * 2014-09-05 2016-04-21 日本電信電話株式会社 情報提示装置および情報提示プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN112883711A (zh) * 2021-01-25 2021-06-01 北京金山云网络技术有限公司 摘要生成的方法、装置及电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118428A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 要求獲得システム、要求獲得方法、及び要求獲得用プログラム
US9262394B2 (en) 2010-03-26 2016-02-16 Nec Corporation Document content analysis and abridging apparatus
JP2013097722A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2013097723A (ja) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法及びプログラム
JP2016057669A (ja) * 2014-09-05 2016-04-21 日本電信電話株式会社 情報提示装置および情報提示プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2019061656A (ja) * 2017-09-27 2019-04-18 株式会社リコー 要約文自動生成方法、装置及び電子デバイス
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN109783795B (zh) * 2017-11-14 2022-05-06 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN112883711A (zh) * 2021-01-25 2021-06-01 北京金山云网络技术有限公司 摘要生成的方法、装置及电子设备
CN112883711B (zh) * 2021-01-25 2024-09-24 北京金山云网络技术有限公司 摘要生成的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US9817821B2 (en) Translation and dictionary selection by context
JP5113750B2 (ja) 定義の抽出
JPH11272699A (ja) 文書要約装置およびその方法
JP2944346B2 (ja) 文書要約装置
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP7381052B2 (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
CN121233615B (zh) 基于自然语言的数据库查询方法、系统、设备和介质
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2004157931A (ja) 意図文型種別抽出方式
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
KR100897992B1 (ko) 자연언어처리 기술을 이용한 텍스트-이미지 변환 시스템및 그 방법
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP3614765B2 (ja) 概念辞書拡張装置
JP3139658B2 (ja) 文書表示方式
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
KR102390009B1 (ko) Ai기반 구문분석 연구노트 생성 시스템
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3848014B2 (ja) 文書検索方法および文書検索装置
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080527