JPH0776971B2 - 文書抄録作成装置 - Google Patents

文書抄録作成装置

Info

Publication number
JPH0776971B2
JPH0776971B2 JP1063472A JP6347289A JPH0776971B2 JP H0776971 B2 JPH0776971 B2 JP H0776971B2 JP 1063472 A JP1063472 A JP 1063472A JP 6347289 A JP6347289 A JP 6347289A JP H0776971 B2 JPH0776971 B2 JP H0776971B2
Authority
JP
Japan
Prior art keywords
document
sentence
evaluation
rule
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1063472A
Other languages
English (en)
Other versions
JPH02289060A (ja
Inventor
孝 日比
Original Assignee
工業技術院長
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 工業技術院長 filed Critical 工業技術院長
Priority to JP1063472A priority Critical patent/JPH0776971B2/ja
Publication of JPH02289060A publication Critical patent/JPH02289060A/ja
Publication of JPH0776971B2 publication Critical patent/JPH0776971B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、機械で読み取り可能な文書から抄録を自動的
に作成するための文書抄録作成装置に関する。
(従来の技術) 従来、文書の抄録作成に関する技術としては、キーワー
ドを抽出して検索を容易にする方式のもの、及び文章の
表層的な情報を用いて重要部分を抽出する方式のものが
あった。
前者のキーワード方式は、文書を単語に分割し、単語の
頻度、出現場所などを記録し、各単語に対して評価関数
を適用して評価値を求め、評価の高い語をその文書のキ
ーワードとするものである。これにより、大量の文書か
ら求める文書の検索を容易にするのを主な目的としてい
る。さらに、このキーワード方式において文の長さとそ
こに含まれているキーワードの数から文の重要度を評価
する方法を提案されている(文献:「ザ オートマチッ
ク クリエーション オブ リタレイチャー アブスト
ラクト(The Automatic Creation of Literature Abstr
acts)、IBMジャーナル、1958年4月」)。
後者の文書の表層的な情報を用いて重要部分を抽出する
方式には、いくつかの方式が提案されているが、文の主
動詞に着目し、それらの関係を解析することによって文
書の構造を決定し、それから主要部分を取り出すもの、
接続の関係に着目するものなどが挙げられる。
(発明が解決しようとする課題) このような従来の方式では、単語単位または文単位のい
ずれかで重要度の評価を行っていたため、1つの文の中
の重要な部分のみを取り出すことはできない。
キーワード方式では、文書の検索には役立つが、内容の
チェックまでは行っていないので、どの部分が特に重要
であるかはわからず、文書の内容まで見る必要があると
いう問題があった。また、この際に使われる評価方法は
その単位を語にしているため、キーセンテンスがどれで
あるかを決定するには利用できないという問題があっ
た。
又、表層的な情報を用いて重要部分を抽出する方式で
は、キーワード方式での問題はないが、表層的な情報の
みを用いた場合、あまり重要でない部分が抽出されるこ
とが多いという問題があった。例えば、列挙などが含ま
れる部分などが抽出されてしまう。また、重要度の評価
の方法は固定されているため、異なった観点での評価を
することができないという問題もあった。
この発明の目的は、従来の方法よりも精密な評価を行う
こと、及び要求に応じた重要度の評価を行うことを可能
とした文書抄録作成装置を提供することにある。
(課題を解決するための手段) この目的を達成するために、本発明の文書抄録作成装置
は、入力文書の文を読み込むための入力装置と、読み込
んだ文書の文脈構造の解析を行ない、少なくとも文と文
との接続関係とその方向の情報及び文書内に現れる照応
と省略の情報を含む情報を文書構造の解析結果として出
力する文脈解析装置と、文及び単語の重要度評価のため
に、文に含まれる語彙から単語及び文の評価値を計算す
るための語彙レベルのルールと前記文脈構造の解析結果
から文の評価値を計算するための文書構造レベルのルー
ルとを含むルールのデータベースを記憶するデータベー
ス装置と、前記ルールを用いて語彙レベルの評価を行な
うと共に前記文脈解析装置によって出力される文書構造
の解析結果から文及び単語の重要度の評価を行なう評価
装置とを有することを特徴とする。
(作用) 上記の第1の問題に対しては、評価の対象を単語のみで
なく、単語及び文章としているため、重要文だけを拾い
出すことができる。また、表層情報のみを用いた方法の
欠点を補うため、文書の構造を解析し、その結果を用い
て重要部分を抽出する。これにより、文書中の著者の伝
えたい部分をより正確に取り出すことができる。第3の
問題に対しては、評価に用いるルールを変更できるの
で、ある着目点を特に重視した評価を行うことができ
る。例えば、文書の構造を重視した評価や、あるキーワ
ードを重視した評価を行うことができる。
(実施例) 以下、図面を参照してこの発明の文書抄録作成装置の実
施例につき説明する。
第1図は本発明の概要を示す構成図であって、10は入力
文書であり、12は入力文書10の文を読み込むための入力
装置、14は読み込んだ文書の文脈解析を行う文脈解析装
置、16は読み込んだ文書の文と単語の重要度を評価する
評価装置、18は文書の抄録を生成する生成装置であり、
20は評価装置16において重要度の評価に使用するルール
のデータベースを記録したデータベース装置である。
最初に入力装置12により、入力文書10を読み込む。この
とき、辞書を参照することにより、形態素解析が行なわ
れ、文書は単語に分割され品詞情報等が付け加えられて
記憶装置12aに一旦記憶する。次に入力装置12の出力を
受けて、文脈解析装置14により、文書構造の解析を行
い、その結果を文脈解析装置14内に設けた適当な記憶装
置14aに格納する。この文書構造の解析結果には、「文
と文の接続関係とその方向」の情報及び「文書内に現わ
れる照応と省略」の情報とが含まれている。
次に、評価装置16により、文及び単語の重要度の評価を
行う。
本装置では、文及び単語の重要度を評価するため、入力
装置12の出力である形態素解析の結果、記憶装置14aに
一旦格納した構文解析の結果、文脈解析の結果を読み出
して用いる。また、第1図に示すデータベース装置20か
ら、評価用のルールのデータベースを読み出してきて、
これにより文または単語に点数を与える規則と、各規則
に対する重みづけを与える。このため、ルールの追加、
重みづけの変更が容易に行える。
ここで用いるルールのデータベースは2つの部分から成
っている。
ルールのデータベースの第1の部分は入力装置12の出力
である形態素解析の結果を用い、語彙レベルの情報で重
要度の評価を行う。この重要度をはかるための語句のパ
ターンによる重要性評価ルールを持っており、これを用
いたルールによって、重要度の計算を行う。
このルールの例は次に述べるようなものである。キーワ
ードとして以下のものを与える。
高頻度の語:文書中の語の頻度を文書中の語数で割り、
それが一定以上のものを高頻度の語とする。ただし、助
詞、助動詞などの機能語は語数に含めない。
強調表現:強調語やかっこで囲まれた語を強調表現とす
る。
重要語:その部分が重要であることを明示している語
(例:結局、要するに、等) 分野別の重要語:文書の分野、種類ごとに、重要度を示
す単語のセットを与える。
これらの語にはそれぞれ重みが与えられる。文の中のキ
ーワードの点数の和をもって文章の得点とする。
ルールのデータベースの第2の部分では解析された文書
構造の情報を用いる。この情報は、文の間の依存関係、
及び照応の関係を含んでいる。
評価基準の1例を以下に挙げる。
その文にかかっている文の数:文の依存関係を調べ、そ
の文に直接、または間接的にかかっている文の数を数
え、得点とする。ここで、文1が文2にかかっていると
いうのは、2つの文の間に依存関係があり、その方向が
1から2の方向であることを示す。
語が照応されている回数:単語があとで照応されている
数を数え、その単語の得点とする。文に対しては文中の
各単語の得点の合計を求め、文の得点とする。
埋め込み文のチェック:埋め込み文に対しては、マイナ
スの評価点を与える。
文の種類による評価:文の種類及び文書の種類に依存す
る関数を決め、それによって得点を定める。例えば、論
説などでは意見を述べた部分に高い得点を与える。
評価装置16における評価は、それぞれのルールに関して
独立して行われる。各ルールには重みが与えられている
ので、評価値と重みの積を合計したものを得点とする。
式で表わせば、 となる。ここで、Eiはi番目のルールに関する評価値、
Wiはi番目のルールに対する重みであり、Eが最終的な
評価値となる。
評価値を各文について求めたら、その結果を生成装置18
にわたす。生成装置18では得点の高い部分を抜き出し、
文書の抄録として出力する。
この発明は上述した実施例にのみ限定されるものではな
い。例えば、記憶装置14aは文脈解析装置14とは独立し
て設けてもよい。又入力装置12に形態素解析の結果を一
旦記憶させる記憶装置12aを設けたが、入力装置12とは
独立して設けてもよい。又、データベース装置20を評価
装置16内に設けてもよい。
(発明の効果) 上述した説明からも明らかなように、この発明の文書抄
録作成装置によれば、文章からその重要部分を自動的に
抽出することにより、文書の拾い読み、必要な文献の検
索が容易になる。
【図面の簡単な説明】
第1図は、この発明の文書抄録作成装置の一例を示すブ
ロック図である。 10……入力文書、12……入力装置 12a……記憶装置、14……文脈解析装置 14a……記憶装置、16……評価装置 18……生成装置、20……データベース装置。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力文書の文を読み込むための入力装置
    と、 読み込んだ文書の文脈構造の解析を行ない、少なくとも
    文と文との接続関係とその方向の情報及び文書内に現れ
    る照応と省略の情報を含む情報を文書構造の解析結果と
    して出力する文脈解析装置と、 文及び単語の重要度評価のために、文に含まれる語彙か
    ら単語及び文の評価値を計算するための語彙レベルのル
    ールと前記文脈構造の解析結果から文の評価値を計算す
    るための文書構造レベルのルールとを含むルールのデー
    タベースを記憶するデータベース装置と、 前記ルールを用いて語彙レベルの評価を行なうと共に前
    記文脈解析装置によって出力される文書構造の解析結果
    から文及び単語の重要度の評価を行なう評価装置とを有
    することを特徴とする文書抄録作成装置。
JP1063472A 1989-03-17 1989-03-17 文書抄録作成装置 Expired - Lifetime JPH0776971B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1063472A JPH0776971B2 (ja) 1989-03-17 1989-03-17 文書抄録作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1063472A JPH0776971B2 (ja) 1989-03-17 1989-03-17 文書抄録作成装置

Publications (2)

Publication Number Publication Date
JPH02289060A JPH02289060A (ja) 1990-11-29
JPH0776971B2 true JPH0776971B2 (ja) 1995-08-16

Family

ID=13230208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1063472A Expired - Lifetime JPH0776971B2 (ja) 1989-03-17 1989-03-17 文書抄録作成装置

Country Status (1)

Country Link
JP (1) JPH0776971B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP3614648B2 (ja) * 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100435442B1 (ko) * 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
CN118095251B (zh) * 2024-04-23 2024-06-18 北京国际大数据交易有限公司 一种文本数据的离线评估方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62249269A (ja) * 1986-04-23 1987-10-30 Toshiba Corp 文書処理装置
JPS62249270A (ja) * 1986-04-23 1987-10-30 Toshiba Corp 文書処理装置
JPH0682363B2 (ja) * 1987-01-16 1994-10-19 シャープ株式会社 文書処理装置

Also Published As

Publication number Publication date
JPH02289060A (ja) 1990-11-29

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US6876998B2 (en) Method for cross-linguistic document retrieval
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
JPH0242572A (ja) 共起関係辞書生成保守方法
JPH05298360A (ja) 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
JPH03172966A (ja) 類似文書検索装置
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
Orliac et al. Collocation extraction for machine translation
JP3198932B2 (ja) 文書検索装置
JPH0776971B2 (ja) 文書抄録作成装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
JP2812511B2 (ja) キーワード抽出装置
JP3006526B2 (ja) 類似文書検索方法および類似文書検索装置
JP2003271616A (ja) 文書分類装置、文書分類方法及び記録媒体
JPH09198400A (ja) 情報検索装置
JP2003108583A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP3388393B2 (ja) データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JP3251032B2 (ja) 日本語解析装置
JP3025847B2 (ja) 電子化辞書検索方法
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0320866A (ja) テキストベース検索方式
JP2000250914A (ja) 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体
JP2002297587A (ja) 言語解析用データ作成方法、言語解析方法及び前記方法に用いるプログラム

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term