JPH1145289A - 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 - Google Patents

文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Info

Publication number
JPH1145289A
JPH1145289A JP9218230A JP21823097A JPH1145289A JP H1145289 A JPH1145289 A JP H1145289A JP 9218230 A JP9218230 A JP 9218230A JP 21823097 A JP21823097 A JP 21823097A JP H1145289 A JPH1145289 A JP H1145289A
Authority
JP
Japan
Prior art keywords
preference
document
importance
important
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9218230A
Other languages
English (en)
Inventor
Naoyuki Nomura
直之 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP9218230A priority Critical patent/JPH1145289A/ja
Publication of JPH1145289A publication Critical patent/JPH1145289A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、利用目的等のユーザーの嗜好を
踏まえた要約の作成が可能な、文書処理装置、文書処理
プログラムが記憶された記憶媒体、及び文書処理方法を
提供すること。 【解決手段】 過去の処理文書の内容からキーワードと
その重要度を取得し、複数のユーザーとキーワードとの
一方を行、他方を列として前記各ユーザーに対する各キ
ーワードの重要度を要素値とするGP行列を取得する。
要約作成対象文書から重要語a,b,…と、その出現頻
度等からの重要度を取得し、この重要度を要素としたタ
ームベクトルVを、GP行列によってシフトさせ、嗜好
タームベクトルV’を取得する。嗜好タームベクトル
V’の要素(=嗜好重要度)をもとに要約作成対象文書
から嗜好重要文F(Z)を抽出し、要約作成対象文書に
おける出現順に並べて、嗜好要約とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書処理装置、文
書処理プログラムが記憶された記憶媒体、及び文書処理
方法に関し、更に詳細には、利用目的等のユーザーの嗜
好を踏まえた要約の作成に関する。
【0002】
【従来の技術】従来、書籍、論文、報告書等の各種の文
書に対し、要約(抄録を含む)の自動作成処理をコンピ
ュータを用いて行うことが行われている。文書の自動要
約については、例えば、「全文情報からの意味的情報の
抽出と加工」(情報処理学会第38回全国大会予稿集、
第222頁;1989年)で提案されている。この方法
では、まず文書中の重要語を字種や動詞等の情報から抽
出し、さらに重要語の出現頻度から最重要語を取得す
る。次に重要語と最重要語が出現するか否かから重要文
を取得することで、自動的に要約を作成することが可能
になる。また、文章の段落の性質を反映させることで、
より正確に要約を作成する特開平3−191475号公
報に記載された方法等も提案されている。
【0003】
【発明が解決しようとする課題】しかし、同一の文書で
も、例えば営業用や技術資料用等の利用目的その他のユ
ーザーの嗜好が異なると、文書における重要部位等に差
異が生じる。そして、上述のような従来の文書処理によ
って要約を作成しても、ユーザーの嗜好を踏まえた要約
を得ることはできない問題点がある。
【0004】本発明は、上述のような課題を解決するた
めになされたもので、利用目的等のユーザーの嗜好を踏
まえた要約自動作成処理文書処理を行うことのできる文
書処理装置、文書処理プログラムを記憶した記憶媒体、
及び文書処理方法を提供することを目的とする。
【0005】
【課題を解決するための手段】請求項1に記載の発明
は、複数の文よりなる文書を取得する文書取得手段と、
前記文書取得手段により取得された前記文書から重要語
句とその重要度を取得する重要語句抽出手段と、前記重
要語句に基づいて前記文書からユーザーの嗜好を反映し
た嗜好重要部分を選択する嗜好重要部分選択手段と、前
記嗜好重要部分選択手段により選択された嗜好重要部分
に基づいて前記文書の要約を作成する嗜好要約作成手段
と、を具備する文書処理装置を提供することにより、上
記目的を達成する。請求項2に記載の発明は、請求項1
に記載の文書処理装置において、前記重要語句抽出手段
は、前記文書取得手段により取得された前記文書から前
記重要語の候補語句とその重要度を取得する候補語句取
得手段と、ユーザーの嗜好を表す複数のキーワードの重
要度を要素値とする嗜好ベクトル、または、複数のユー
ザーと各ユーザーの嗜好を表す複数のキーワードとの一
方を行、他方を列として前記各ユーザーに対する前記各
キーワードの重要度を要素値とするGP行列、を取得す
る嗜好取得手段と、を有し、前記嗜好取得手段により取
得された前記嗜好ベクトルまたは前記GP行列を用い
て、前記候補語句取得手段により取得された候補語句の
重要度をシフトさせた重要度から前記重要語句を抽出
し、前記嗜好重要部分選択手段は、前記重要語句とその
重要度により前記嗜好重要部分を選択することを文書処
理装置を提供することにより、上記目的を達成する。請
求項3に記載の発明は、請求項1に記載の発明におい
て、前記重要語句抽出手段は、前記文書取得手段により
取得された前記文書から前記重要語の候補語句とその重
要度を取得して、前記候補語句の重要度により前記重要
語句を抽出し、前記嗜好重要部分選択手段は、ユーザー
の嗜好を表す複数のキーワードの重要度を要素値とする
嗜好ベクトル、または、複数のユーザーと複数のユーザ
ーそれぞれの嗜好を表す複数のキーワードとの一方を
行、他方を列として前記各ユーザーに対する前記各キー
ワードの重要度を要素値とするGP行列、を取得する嗜
好取得手段を有し、前記嗜好取得手段により取得された
前記嗜好ベクトルまたは前記GP行列を用いて、前記重
要語句抽出手段により取得された重要語句の重要度をシ
フトさせた重要度により前記重要部分を選択する文書処
理装置を提供することにより前記目的を達成する。請求
項4に記載の発明は、複数の文よりなる文書を取得する
文書取得機能と、前記文書取得機能により取得された前
記文書から重要語句とその重要度を取得する重要語句抽
出機能と、前記重要語句に基づいて前記文書からユーザ
ーの嗜好を反映した嗜好重要部分を選択する嗜好重要部
分選択機能と、前記嗜好重要部分選択機能により選択さ
れた嗜好重要部分に基づいて前記文書の要約を作成する
嗜好要約作成機能とをコンピュータに実現させるための
コンピュータ読みとり可能な文書処理プログラムが記憶
された記憶媒体を提供することにより上記目的を達成す
る。請求項5に記載の発明は、請求項4に記載の記憶媒
体において、前記重要語句抽出機能は、前記文書取得機
能により取得された前記文書から前記重要語の候補語句
とその重要度を取得する候補語句取得機能と、ユーザー
の嗜好を表す複数のキーワードの重要度を要素値とする
嗜好ベクトル、または、複数のユーザーと各ユーザーの
嗜好を表す複数のキーワードとの一方を行、他方を列と
して前記各ユーザーに対する前記各キーワードの重要度
を要素値とするGP行列、を取得する嗜好取得機能と、
を有し、前記嗜好取得機能により取得された前記嗜好ベ
クトルまたは前記GP行列を用いて、前記候補語句取得
機能により取得された候補語句の重要度をシフトさせた
重要度から前記重要語句を抽出し、前記嗜好重要部分選
択機能は、前記重要語句とその重要度により前記嗜好重
要部分を選択する文書処理プログラムが記憶された記憶
媒体を提供することにより前記目的を達成する。請求項
6に記載の発明は、請求項4に記載の記憶媒体におい
て、前記重要語句抽出機能は、前記文書取得機能により
取得された前記文書から前記重要語の候補語句とその重
要度を取得して、前記候補語句の重要度により前記重要
語句を抽出し、前記嗜好重要部分選択機能は、ユーザー
の嗜好を表す複数のキーワードの重要度を要素値とする
嗜好ベクトル、または、複数のユーザーと複数のユーザ
ーそれぞれの嗜好を表す複数のキーワードとの一方を
行、他方を列として前記各ユーザーに対する前記各キー
ワードの重要度を要素値とするGP行列、を取得する嗜
好取得機能を有し、前記嗜好取得機能により取得された
前記嗜好ベクトルまたは前記GP行列を用いて、前記重
要語句抽出機能により取得された重要語句の重要度をシ
フトさせた重要度により前記重要部分を選択する文書処
理プログラムが記憶された記憶媒体を提供することによ
り前記目的を達成する。請求項7に記載の発明は、複数
の文よりなる文書を取得し、取得された前記文書から重
要語句とその重要度を取得し、前記重要語句に基づいて
前記文書からユーザーの嗜好を反映した嗜好重要部分を
選択し、選択された前記嗜好重要部分に基づいて前記文
書の要約を作成する文書処理方法を提供することにより
前記目的を達成する。
【0006】
【発明の実施の形態】以下、本発明の文書処理装置、文
書処理プログラムが記憶された記憶媒体、及び文書処理
方法の好適な実施の形態について、図1から図7を参照
して詳細に説明する。 (1)実施形態の概要 本実施形態では、過去の処理文書の内容からキーワード
とその重要度を取得し、複数のユーザーとキーワードと
の一方を行、他方を列として前記各ユーザーに対する各
キーワードの重要度を要素値とするGP行列を取得す
る。要約作成対象文書から重要語a,b,…と、その出
現頻度等からの重要度g(p),g(q),…を取得
し、重要度を要素としたタームベクトルV=(g
(p),g(q),…)を、GP行列によってシフトさ
せ、嗜好タームベクトルV’を取得する。嗜好タームベ
クトルV’の要素(=嗜好重要度)g’(p),g’
(q),…をもとに要約作成対象文書から嗜好重要文を
抽出し、要約作成対象文書における出現順に並べて、嗜
好要約とする。
【0007】(2)実施形態の詳細 図1は、本発明の文書処理装置の一実施形態であり、本
発明の文書処理プログラムを記憶した記憶媒体の一実施
形態の該プログラムが読み取られたコンピュータの構成
を表したブロック図である。この図1に示すように、文
書処理装置(コンピュータ)は、装置全体を制御するた
めの制御部11を備えている。この制御部11には、デ
ータバス等のバスライン21を介して、入力装置として
のキーボード12やマウス13、表示装置14、印刷装
置15、記憶装置16、記憶媒体駆動装置17、通信制
御装置18、および、入出力I/F19、および、文字
認識装置20が接続されている。制御部11は、CPU
111、ROM112、RAM113を備えている。R
OM112は、CPU111が各種制御や演算を行うた
めの各種プログラムやデータが予め格納されたリードオ
ンリーメモリである。
【0008】RAM113は、CPU111にワーキン
グメモリとして使用されるランダムアクセスメモリであ
る。このRAM113には、本実施形態による嗜好要約
処理を行うためのエリアとして、対象文書格納エリア1
131、要約パラメータ格納エリア1132、重要語格
納エリア1133、タームベクトル格納エリア113
4、行列格納エリア1135、嗜好タームベクトル格納
エリア1136、要約格納エリア1137、その他の各
種エリアが確保されるようになっている。
【0009】対象文書格納エリア1131には、嗜好要
約作成の対象となる文書が格納される。要約パラメータ
格納エリア1132には、操作者からの入力等により取
得された要約パラメータの値または後述のデータ格納部
163から読み込んだ要約パラメータのデフォルト値が
格納される。操作者が入力する要約パラメータとして
は、例えば、全文書に対する要約の比率(1〜99%)
や、日付時刻、価格情報、物理量(サイズ、重量、温度
等)等の数量優先のある/なし、URL(UniformResou
rce Locator)重視長単文の優先のある/なし、です/
ます/であるの選択をする/しない、等の値が格納され
る。タームベクトル格納エリア1134には、本実施形
態により取得された、嗜好要約作成の対象文書の、ター
ムベクトルが格納される。要約格納エリア1135に
は、本実施形態により取得された重要文が、嗜好要約作
成対象文書における順番で格納される。
【0010】キーボード12は、かな文字を入力するた
めのかなキーやテンキー、各種機能を実行するための機
能キー、カーソルキー、等の各種キーが配置されてい
る。マウス13は、ポインティングデバイスであり、表
示装置14に表示されたキーやアイコン等を左クリック
することで対応する機能の指定を行う入力装置である。
表示装置14は、例えばCRTや液晶ディスプレイ等が
使用される。この表示装置14には、嗜好要約作成の対
象となる文書の内容や、本実施形態により作成された嗜
好要約等が表示されるようになっている。印刷装置15
は、表示装置14に表示された文章や、記憶装置16の
文書データベース165に格納された文書等の印刷を行
うためのものである。この印刷装置としては、レーザプ
リンタ、ドットプリンタ、インクジェットプリンタ、ペ
ージプリンタ、感熱式プリンタ、熱転写式プリンタ、等
の各種印刷装置が使用される。
【0011】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、データ格納部163、重要語データベース16
4、文書データベース165、行列データベース16
8、図示しないその他の格納部(例えば、この記憶装置
16内に格納されているプログラムやデータ等をバック
アップするための格納部)等を有している。プログラム
格納部162には、本実施形態における嗜好要約作成処
理プログラム等の各種プログラムの他、仮名漢字変換辞
書161を使用して入力された仮名文字列を漢字混り文
に変換する仮名漢字変換プログラム等の各種プログラム
が格納されている。データ格納部163には、要約パラ
メータのデフォルト値等の各種データが格納されてい
る。要約パラメータのデフォルト値としては、例えば、
全文書に対する要約の比率=「25%」や、日付時刻、
価格情報、物理量(サイズ、重量、温度等)等の数量重
視=「しない」や、URL(Uniform Resource Locato
r)重視=「しない」、長単文の重視=「しない」や、
です/ます/であるの選択=「しない」、等の値が格納
されている。
【0012】重要語データベース164には、本実施形
態において、過去の所定期間中に処理された文書をもと
に取得されたキーワード(処理重要語)とこのキーワー
ド(処理重要語)の重要度(処理重要度)が互いに対応
して格納されている。文書データベース165には、仮
名漢字変換プログラムにより作成された文書や、他の装
置で作成されて記憶媒体駆動装置17や通信制御装置1
8から読み込まれた文書が格納される。この文書データ
ベース165に格納される各文書の形式は特に限定され
るものではなく、テキスト形式の文書、HTML(Hype
r TextMarkup Language)形式の文書、JIS形式の文
書等の各種形式の文書の格納が可能である。更にこの文
書データベース165には、文書を処理したユーザー及
びその処理回数が各文書に対応付けて格納されている。
前記処理回数は、所定期間毎に値を0にリセットされ
る。
【0013】行列データベース168には、過去の所定
期間に行われた文書処理の処理内容により取得される行
列Ga,Gb,Gcが格納されている。これらの行列G
a,Gb,GcからGP(Group Personalize )行列が
取得され、このGP行列によって、要約対象文書の重要
語(句も含む)の重要度がシフト(重要度が変換)され
る。図2(a)〜(c)は、行列Ga,Gb,Gcの一
例を示す説明図である。
【0014】行列Gaは、図2(a)に示すように、過
去所定期間内に処理した処理文書から抽出された処理重
要語を行に、同処理文書を列にとった行列であり、各要
素は処理重要語の処理重要度f(x)を表している。行
列Gbは、図2(b)に示すように、前記処理文書を行
にとり、ユーザーを列にとった行列であり、各要素は、
ユーザーが各文書を前記所定期間内に処理した回数とな
っている。行列Gcは、図2(c)に示すように、行お
よび列がともにユーザーそれぞれの重要度係数を示して
いる。行列Ga及び行列Gbは所定期間ごとに書き換え
られ、行列Gcは操作者からの入力により適宜書き換え
られる。
【0015】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラムには、本実施
形態の文書処理装置により実行される各種処理のための
プログラム、および、そこで使用される辞書、データ等
も含まれる。ここで、記憶媒体とは、コンピュータプロ
グラムやデータ等が記憶される記憶媒体をいい、具体的
には、フロッピーディスク、ハードディスク、磁気テー
プ等の磁気記憶媒体、メモリチップやICカード等の半
導体記憶媒体、CD−ROMやMO、PD(相変化書換
型光ディスク)等の光学的に情報が読み取られる記憶媒
体、紙カードや紙テープ等の用紙(および、用紙に相当
する機能を持った媒体)を用いた記憶媒体、その他各種
方法でコンピュータプログラム等が記憶される記憶媒体
が含まれる。本実施形態の文書処理装置において使用さ
れる記憶媒体としては、主として、CD−ROMやフロ
ッピーディスクが使用される。記憶媒体駆動装置17
は、これらの各種記憶媒体からコンピュータプログラム
を読み込む他に、フロッピーディスクのような書き込み
可能な記憶媒体に対してRAM113や記憶装置16に
格納されているデータ等を書き込むことが可能である。
【0016】本実施形態の文書処理装置では、制御部1
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態による類似度算出等の各種処理
を実行する場合、記憶装置16から該当プログラムをR
AM113に読み込み、実行するようになっている。但
し、記憶装置16からではなく、記憶媒体駆動装置17
により外部の記憶媒体から直接RAM113に読み込ん
で実行することも可能である。また、文書処理装置によ
っては、本実施形態の嗜好要約作成処理プログラム等を
予めROM112に記憶しておき、これをCPU111
が実行するようにしてもよい。
【0017】通信制御装置18は、他のパーソナルコン
ピュータやワードプロセッサ等との間でテキスト形式や
HTML形式等の各種形式の文書やビットマップデータ
等の各種データの送受信を行うことができるようになっ
ている。入出力I/F19は、音声や音楽等の出力を行
うスピーカ等の各種機器を接続するためのインターフェ
ースである。文字認識装置20は、用紙等に記載された
文字をテキスト形式やHTML等の各種形式で認識する
装置であり、イメージスキャナや文字認識プログラム等
で構成されている。
【0018】本実施形態では、キーボード12の入力操
作により作成した文書(RAM113の所定格納エリア
に格納)の他、外部で作成して所定の記憶媒体に格納し
た文書で記憶媒体駆動装置17から読み込んだ文書、予
め文書データベースに格納されている文書、通信制御装
置18からダウンロードした文書、及び文字認識装置2
0で文字認識した文書、等の各種文書を対象文書として
取得する(文書取得手段)ことが可能である。
【0019】次に、上述のような構成の文書処理装置に
よる嗜好要約作成処理であって、本発明の文書処理方法
の一実施形態について図3〜図7を参照して説明する。
【0020】本実施形態においては、所定期間毎に、該
所定期間内に行われた文書処理の処理内容基づいて新た
な処理重要語及び処理重要度が取得され、行列データベ
ース168内の行列Ga及び行列Gbが書き換えられ
る。
【0021】図3は、行列Ga,Gb書き換え処理の動
作を表したフローチャートである。CPU111は、所
定期間内に処理された文書(処理文書)を文書データベ
ース165から順次取得してRAM113の所定作業領
域に格納し(ステップ11)、各文書についてのキーワ
ード(処理重要語(句も含む))及びその重要度(処理
重要度)を取得する(ステップ12)。
【0022】図4は、各文書についての処理重要語・処
理重要度取得処理の動作を表したフローチャートであ
る。図4に示すように、CPU111は、文書データベ
ース165から取得した文書について、形態素解析を行
うことで処理文書から自立語を抽出する(ステップ12
1)と共に、名詞句、複合名詞句等を含めた候補語
(句)を処理文書から抽出する(ステップ122)。次
に抽出した候補語(句)の処理文書での出現頻度、評価
関数から、各候補語(句)の処理重要度f(x)を取得
する(ステップ123)。ここで、評価関数としては、
例えば、所定の重要語が予め指定されている場合にはそ
の重要語に対する重み付け、単語、名詞句、複合名詞句
等の候補語(句)の種類による重み付け等が使用され
る。
【0023】さらにCPU111は、取得した処理重要
度f(x)の値をもとに候補語(句)から処理重要語
a,b,c,…を取得し(ステップ124)、この処理
重要語a,b,c,…及びその処理重要度f(a),f
(b),f(c)…を重要語データベース164に格納
する。すべての処理文書について、処理重要語及びその
処理重要度を取得すると、図3に示す行列Ga,Gb書
き換え処理ルーチンへリターンする。
【0024】次にCPU111は、行列データベース1
68の行列Gaを、前記処理重要語a,b,c,…を行
に、前記所定期間の処理文書を列に、また処理重要度f
(x)を各要素にとったものに書き換える(ステップ1
3)。そして、CPU111は、文書データベース16
5から、各文書の処理回数を取得し(ステップ14)、
行列Gbを、所定期間内の処理文書を行に、文書データ
ベース165から取得した処理回数を各要素としたもの
に書き換えて、行列Ga,Gb書き換え処理を終了す
る。
【0025】図5は、嗜好要約作成処理のメイン動作を
表すフローチャートである。要約作成処理に際しては、
CPU111は、要約を作成する対象となっている文書
(要約対象文書)を取得し、RAM113の対象文書格
納エリア1131に格納する(ステップ21)。要約対
象文書は、ユーザの指示に従ってRAM113、記憶装
置16の文書データベース165、記憶媒体駆動装置1
7、または通信制御装置18から取得する。続いてCP
U111は、ユーザによってキーボード12等から要約
パラメータが入力された場合には入力値を取得し、ユー
ザによる入力がない場合にはデータ格納部163に格納
された要約パラメータのデフォルト値を取得し、要約パ
ラメータ格納エリア1132に格納する(ステップ2
2)。
【0026】次にCPU111は、対象文書格納エリア
1131に格納した要約対象文書に対するタームベクト
ルVを求める(ステップ23)。図6は、タームベクト
ル取得処理の動作を表したフローチャートである。CP
U111は、まず形態素解析を行うことで要約対象文書
に含まれる自立語を抽出する(ステップ231)と共
に、名詞句、複合名詞句等を含めた候補語(句)を要約
対象文書から抽出しRAM113の所定作業領域に格納
する(ステップ232)。次に、RAM16の要約パラ
メータ格納エリア1132に格納した要約パラメータ
や、抽出した候補語(句)の要約対象文書中での出現頻
度、評価関数等から、客観的な重要度g(y)を決定す
る(ステップ233)。ここで、評価関数としては、例
えば、所定の重要語が予め指定されている場合にはその
重要語に対する重み付け、単語、名詞句、複合名詞句等
の候補語(句)の種類による重み付け等が使用される。
【0027】そして、この客観的な重要度g(y)によ
り重要語p,q,r,…を取得し(ステップ234)、
重要語p,q,r,…の客観的な重要度g(p),g
(q)、g(r),…を要素とするタームベクトルVを
取得し(ステップ235)、図5に示す嗜好要約作成処
理のルーチンへリターンする。
【0028】続いて、CPU111は、行列Gaを行列
データベース168から取得し、タームベクトルVと行
列Gaとの次元合わせを行う(ステップ24)。即ち、
タームベクトルVの次元数と、行列Gaの行数とを、要
約対象文書の重要語と行列Gaの行があらわす処理重要
語の和集合の数とし、タームベクトルVのみに含まれる
重要語に対する行列Gaの要素値、および、行列の行の
みに含まれる重要語に対するタームベクトルVの要素値
は、”0”と定義する。
【0029】例えば、要約対象文書の重要語が「重要、
重要語、重要度、…」、行列Gaの行があらわす処理重
要語が「重要、…、政治、…」であり、要約対象文書の
タームベクトルV=( 1,18,19,…)、行列G
aの、ある1列が(18,…,21,…)である場合、
次元を合わせると、要約対象文書のタームベクトルV=
( 1,18,19,…, 0,…)、行列Gaの1列
は(18, 0, 0,…,21,…)となる。次元合
わせ後の行列Ga及びタームベクトルVは、それぞれ、
RAM113の行列格納エリア1135、タームベクト
ル格納エリア1134に格納する。
【0030】続いて、CPU111は、行列Gb,Gc
を行列データベース168から取得し、次元を合わせを
行った行列Gaと行列Gb,GcとからGP行列を取得
する(ステップ25)。GP行列は、次の式に従って求
める。GP=Ga・Gb・Gc従って、本実施形態にお
けるGP行列は、Ga行列の次元合わせを行った行をそ
のまま行にとり、ユーザーの各メンバーを列にとってな
っており、GP行列の各要素は、メンバー毎の過去の文
書処理における処理重要語の処理重要度f(x)に各メ
ンバーの重要度を加味して表した数値となっている。
【0031】GP行列が取得されると、続いてCPU1
11は、このGP行列をもとにGPベクトルを算出する
(ステップ26)。
【0032】図7は、GP行列からGPベクトルを算出
する行程を概念的に説明する説明図である。CPU11
1は、まず、GP行列の各要素gij( i=1〜メンバ
ー数m、j=1〜要約対象文書の重要語と処理重要語の
和集合の数k)の各行毎の要素の平均値を算出して列ベ
クトル(総GPベクトル)を得る(図7(1)→
(2))。この総GPベクトルは、各要素giが重要語
毎のユーザーグループ全体における過去の文書処理での
出現頻度(但し各重要語の予め決められた重要語の重み
等や、メンバーの重要度が加味されている)を反映した
数値となっている。CPU111は、更に、この総GP
ベクトルの各要素giを文書の処理回数の総数で割っ
て、1列のGPベクトルを得る(図7(2)→
(3))。この様に、総GPベクトルを文書の処理回数
の総数で割るのは、行列Gbに文書の処理回数が要素と
して含まれており、処理回数が増えるに従ってGPベク
トルが大きくなっていくのを回避するためである。
【0033】そして、CPU111は、GPベクトルの
各要素とこの各要素に対応するタームベクトルVの要素
とを掛け合わせて、嗜好タームベクトルV’を得る(ス
テップ27)。この嗜好タームベクトルV’の各要素
は、客観的な重要度g(y)にユーザーのタームについ
ての嗜好を重み付けした嗜好重要度g’(y)となって
いる。
【0034】続いて、CPU111は、重要語の嗜好重
要度g’(y)により、要約対象文書に含まれる嗜好部
分重要度(嗜好文重要度F(Z))を取得する(ステッ
プ28)。そして、決定した各部分(各文)の嗜好部分
重要度(嗜好文重要度F(Z))の高い部分(文)の上
位から要約パラメータの要約比率(例えば、対象要約文
書中の全文数の内の上位25%)以内に入る部分(文)
を嗜好重要部分(嗜好重要文)としてリストアップし
(ステップ29)、リストアップした文を要約対象文書
の中での出現順に並べることで当該要約対象文書の嗜好
要約とし、これをRAM113の要約格納エリア113
7に格納して(ステップ30)、本実施形態による嗜好
要約作成処理を終了する。
【0035】この様に、本実施形態では、過去の文書処
理における出現頻度等をもとにユーザーの重要語に対す
る嗜好を把握し、要約対象文書から取得した重要語の客
観的な重要度g(y)を前記ユーザーの嗜好を反映して
重み付けをした嗜好重要度g’(y)に変換し、この嗜
好重要度g’(y)をもとに重要文を取得して要約を作
成する。従って、本実施形態によると、ユーザーの嗜好
の反映された要約が作成される。本実施形態によると、
重要語の客観的な重要度を要素としたタームベクトルV
を獲得し、ユーザーの嗜好を反映させたGP行列を用い
て変換させることによって、嗜好重要度を要素とする嗜
好タームベクトルV’を獲得しているので、計算処理が
簡単であり、ベクトル空間法を採用したコア・エンジン
を備えた一般の文書処理装置に容易に適用することが可
能である。
【0036】本実施形態よると、タームベクトルVを嗜
好タームベクトルV’にシフトさせるGP行列を、表現
すべき特徴毎の単純な観点で構成した行列Ga,Gb,
Gcの掛け合わせて求めているので、様々な特徴を考慮
に入れたGP行列を容易に構成してタームベクトルVを
シフトさせることが可能である。本実施形態よると、タ
ームベクトルVを嗜好タームベクトルV’にシフトさせ
るためのGP行列は、各列がユーザーの興味を反映して
いるので、複数のユーザーからなるグループを数グルー
プに分割した該グループのGP行列や個々のユーザーの
GP行列(ベクトル)を容易に得ることができる。本実
施形態よると、GP行列がユーザーの過去に処理した文
書をもとに所定期間毎に書き換えられている行列Ga,
Gb,Gcをもとに取得されているので、タームベクト
ルVがユーザーの嗜好の経時的変化に対応した嗜好ター
ムベクトルV’にシフトされ、ユーザーの嗜好の変遷に
追随した嗜好要約が作成される。
【0037】尚、本発明は、上述の実施形態に限定され
るものではなく、本発明の趣旨を逸脱しない限りにおい
て適宜変更が可能である。上述の実施形態においては文
書処理装置としてコンピュータを用いているが、コンピ
ュータに限定されるものではなく、ワードプロセッサ等
であってもよい。
【0038】要約対象文書から取得した重要語候補すべ
てについて嗜好重要度を獲得し、この嗜好重要度に基づ
いて重要語候補から重要語を取得することもできる。客
観的な重要度に基づいて嗜好重要度を取得する場合に、
客観的な重要度をベクトル化せずに、客観的な重要度そ
れぞれに適当な処理を施すことにより嗜好重要度を得る
こともできる。また、客観的な重要度をベクトル化する
場合であっても、タームベクトルを嗜好タームベクトル
に変換する手法はGP行列を用いていなくてもよい。候
補語抽出手段及び重要語獲得手段として、要約作成対象
文書から処理重要語を抽出する処理重要語抽出手段を用
いることもできる。
【0039】上述の実施形態においてはGP行列は、ユ
ーザー一人ずつの過去の文書処理回数(行列Ga)と各
文書における重要語の出現頻度(行列Gb)、および各
ユーザーの重要度(行列Gc)とから取得されている
が、ユーザー毎の過去の文書処理回数(行列Ga)と各
文書における重要語の出現頻度(行列Gb)のみにより
取得されてもよい。また、例えば、各文書の処理時間
や、他の文書作成に引用された件数等も加味して取得さ
れてもよい。更に、GP行列を上述の実施形態と同様に
行列Ga〜行列Gc等の行列の掛け合わせから取得する
場合において、行列Ga 〜行列Gc等の各行列の要素は
それぞれ重要語の文書中の出現頻度や、ユーザーが各文
書を処理した回数を反映した数値となっていればよく、
直接出現頻度や処理回数そのものを表していなくてもよ
い。
【0040】上述の実施形態においては行列Ga〜Gc
は過去の文書処理内容から取得されているが、ユーザー
から取得して行列データベース168に格納しておいて
もよい。上述の実施形態においては行列Ga〜Gcは所
定期間毎に書き換えられているが、文書処理毎にまたは
操作者等の判断により適宜書き換えるようにしてもよ
い。GPベクトルを表示装置に表示するGPベクトル表
示手段を備え、ユーザーのグループ全体やユーザーの嗜
好を視覚的に把握できるようにしてもよい。この場合、
GPベクトルを行列データベースまたは専用のGPベク
トルデータベースに経時順に格納しておき、経時変化も
把握できるようにしてもよい。上述の実施形態において
は、重要語句の嗜好重要度によって文単位で重要度が比
較され、嗜好重要部分として嗜好重要文が選択される
が、段落単位やタイトルの重要度を比較して、嗜好重要
部分として嗜好重要段落や嗜好重要タイトルを選択させ
るようにしてもよい。
【0041】
【発明の効果】以上説明したように、本発明によれば、
要約対象文書中の重要語について、ユーザーの嗜好を踏
まえた嗜好重要度を取得し、この嗜好重要度にもとづい
て重要部分を選択し、この重要部分から要約を作成する
ので、作成された要約にユーザーの興味や注目度、目的
等の嗜好が反映される。
【図面の簡単な説明】
【図1】本発明の文書処理装置の一実施形態であり、本
発明の文書処理プログラムを記憶した記憶媒体の一実施
形態の該プログラムが読み取られたコンピュータの構成
を表したブロック図である。
【図2】図1の実施形態における行列Ga,Gb,Gc
の一例を示す説明図である。
【図3】図1の実施形態における行列Ga,Gb書き換
え処理の動作を表したフローチャートである。
【図4】図1の実施形態における、各文書についての処
理重要語・処理重要度取得処理の動作を表したフローチ
ャートである。
【図5】図1の実施形態における嗜好要約作成処理のメ
イン動作を表すフローチャートである。
【図6】図1の実施形態におけるタームベクトル取得処
理の動作を表したフローチャートである。
【図7】図1の実施形態においてGP行列からGPベク
トルを取得する行程を概念的に説明する説明図である。
【符号の説明】
11 制御部 112 ROM 113 RAM 1131 対象文書格納エリア 1132 要約パラメータ格納エリア 1133 重要語格納エリア 1134 タームベクトル格納エリア 1135 行列格納エリア 1136 嗜好タームベクトル格納エリア 1137 要約格納エリア 12 キーボード 13 マウス 14 表示装置 15 印刷装置 16 記憶装置 161 仮名漢字変換辞書 162 プログラム格納部 163 データ格納部 164 重要語データベース 165 文書データベース 168 行列データベース

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 複数の文よりなる文書を取得する文書取
    得手段と、 前記文書取得手段により取得された前記文書から重要語
    句とその重要度を取得する重要語句抽出手段と、 前記重要語句に基づいて前記文書からユーザーの嗜好を
    反映した嗜好重要部分を選択する嗜好重要部分選択手段
    と、 前記嗜好重要部分選択手段により選択された嗜好重要部
    分に基づいて前記文書の要約を作成する嗜好要約作成手
    段とを具備することを特徴とする文書処理装置。
  2. 【請求項2】 前記重要語句抽出手段は、 前記文書取得手段により取得された前記文書から前記重
    要語の候補語句とその重要度を取得する候補語句取得手
    段と、 ユーザーの嗜好を表す複数のキーワードの重要度を要素
    値とする嗜好ベクトル、または、複数のユーザーと各ユ
    ーザーの嗜好を表す複数のキーワードとの一方を行、他
    方を列として前記各ユーザーに対する前記各キーワード
    の重要度を要素値とするGP行列、を取得する嗜好取得
    手段と、を有し、 前記嗜好取得手段により取得された前記嗜好ベクトルま
    たは前記GP行列を用いて、前記候補語句取得手段によ
    り取得された候補語句の重要度をシフトさせた重要度か
    ら前記重要語句を抽出し、 前記嗜好重要部分選択手段は、前記重要語句とその重要
    度により前記嗜好重要部分を選択することを特徴とする
    請求項1に記載の文書処理装置。
  3. 【請求項3】 前記重要語句抽出手段は、前記文書取得
    手段により取得された前記文書から前記重要語の候補語
    句とその重要度を取得して、前記候補語句の重要度によ
    り前記重要語句を抽出し、 前記嗜好重要部分選択手段は、ユーザーの嗜好を表す複
    数のキーワードの重要度を要素値とする嗜好ベクトル、
    または、複数のユーザーと複数のユーザーそれぞれの嗜
    好を表す複数のキーワードとの一方を行、他方を列とし
    て前記各ユーザーに対する前記各キーワードの重要度を
    要素値とするGP行列、を取得する嗜好取得手段を有
    し、前記嗜好取得手段により取得された前記嗜好ベクト
    ルまたは前記GP行列を用いて、前記重要語句抽出手段
    により取得された重要語句の重要度をシフトさせた重要
    度により前記重要部分を選択することを特徴とする請求
    項1に記載の文書処理装置。
  4. 【請求項4】 複数の文よりなる文書を取得する文書取
    得機能と、 前記文書取得機能により取得された前記文書から重要語
    句とその重要度を取得する重要語句抽出機能と、 前記重要語句に基づいて前記文書からユーザーの嗜好を
    反映した嗜好重要部分を選択する嗜好重要部分選択機能
    と、 前記嗜好重要部分選択機能により選択された嗜好重要部
    分に基づいて前記文書の要約を作成する嗜好要約作成機
    能とをコンピュータに実現させるためのコンピュータ読
    みとり可能な文書処理プログラムが記憶された記憶媒
    体。
  5. 【請求項5】 前記重要語句抽出機能は、 前記文書取得機能により取得された前記文書から前記重
    要語の候補語句とその重要度を取得する候補語句取得機
    能と、 ユーザーの嗜好を表す複数のキーワードの重要度を要素
    値とする嗜好ベクトル、または、複数のユーザーと各ユ
    ーザーの嗜好を表す複数のキーワードとの一方を行、他
    方を列として前記各ユーザーに対する前記各キーワード
    の重要度を要素値とするGP行列、を取得する嗜好取得
    機能と、を有し、 前記嗜好取得機能により取得された前記嗜好ベクトルま
    たは前記GP行列を用いて、前記候補語句取得機能によ
    り取得された候補語句の重要度をシフトさせた重要度か
    ら前記重要語句を抽出し、 前記嗜好重要部分選択機能は、前記重要語句とその重要
    度により前記嗜好重要部分を選択することを特徴とする
    請求項4に記載した文書処理プログラムが記憶された記
    憶媒体。
  6. 【請求項6】 前記重要語句抽出機能は、前記文書取得
    機能により取得された前記文書から前記重要語の候補語
    句とその重要度を取得して、前記候補語句の重要度によ
    り前記重要語句を抽出し、 前記嗜好重要部分選択機能は、ユーザーの嗜好を表す複
    数のキーワードの重要度を要素値とする嗜好ベクトル、
    または、複数のユーザーと複数のユーザーそれぞれの嗜
    好を表す複数のキーワードとの一方を行、他方を列とし
    て前記各ユーザーに対する前記各キーワードの重要度を
    要素値とするGP行列、を取得する嗜好取得機能を有
    し、前記嗜好取得機能により取得された前記嗜好ベクト
    ルまたは前記GP行列を用いて、前記重要語句抽出機能
    により取得された重要語句の重要度をシフトさせた重要
    度により前記重要部分を選択することを特徴とする請求
    項4に記載した文書処理プログラムが記憶された記憶媒
    体。
  7. 【請求項7】 複数の文よりなる文書を取得し、 取得された前記文書から重要語句とその重要度を取得
    し、 前記重要語句に基づいて前記文書からユーザーの嗜好を
    反映した嗜好重要部分を選択し、 選択された前記嗜好重要部分に基づいて前記文書の要約
    を作成することを特徴とする文書処理方法。
JP9218230A 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 Pending JPH1145289A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9218230A JPH1145289A (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9218230A JPH1145289A (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Publications (1)

Publication Number Publication Date
JPH1145289A true JPH1145289A (ja) 1999-02-16

Family

ID=16716656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9218230A Pending JPH1145289A (ja) 1997-07-28 1997-07-28 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Country Status (1)

Country Link
JP (1) JPH1145289A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US7610546B1 (en) 1999-08-02 2009-10-27 Sony Corporation Document processing apparatus having capability of controlling video data
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム
JP2013015920A (ja) * 2011-06-30 2013-01-24 Fujitsu Ltd 情報処理装置、情報処理方法、および情報処理プログラム
JP2015090663A (ja) * 2013-11-07 2015-05-11 三菱電機株式会社 テキスト要約装置
JP2016099686A (ja) * 2014-11-19 2016-05-30 日本電信電話株式会社 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2021077370A (ja) * 2019-11-07 2021-05-20 日本テレビ放送網株式会社 要約生成装置、要約生成方法及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7610546B1 (en) 1999-08-02 2009-10-27 Sony Corporation Document processing apparatus having capability of controlling video data
US8548987B2 (en) 1999-09-24 2013-10-01 Thalveg Data Flow Llc System and method for efficiently providing a recommendation
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization
US8155992B2 (en) 2000-06-23 2012-04-10 Thalveg Data Flow Llc Method and system for high performance model-based personalization
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム
JP2013015920A (ja) * 2011-06-30 2013-01-24 Fujitsu Ltd 情報処理装置、情報処理方法、および情報処理プログラム
JP2015090663A (ja) * 2013-11-07 2015-05-11 三菱電機株式会社 テキスト要約装置
JP2016099686A (ja) * 2014-11-19 2016-05-30 日本電信電話株式会社 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2018081702A (ja) * 2015-09-09 2018-05-24 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2021077370A (ja) * 2019-11-07 2021-05-20 日本テレビ放送網株式会社 要約生成装置、要約生成方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
JP2011513810A (ja) 用語識別方法および装置
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4021525B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP4005672B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2001216311A (ja) イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JPH1153396A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4025391B2 (ja) 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
JP2000194725A (ja) 類似グル―プ抽出装置、及び類似グル―プ抽出プログラムが記憶された記憶媒体
JP3154992B2 (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2000353163A (ja) データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体
JP4044644B2 (ja) 電子掲示板システム、電子掲示板プログラムが記憶された記憶媒体、及び電子掲示板の活性化方法
JP3489326B2 (ja) テーブル生成方法
JPH1153398A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194724A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JPH1145281A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145288A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP4289891B2 (ja) 情報検索装置、情報検索方法およびプログラム
JP2000194723A (ja) 類似度表示装置、類似度表示プログラムが記憶された記憶媒体、文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JPH1145240A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925