JPH07219953A - 文書要約装置 - Google Patents

文書要約装置

Info

Publication number
JPH07219953A
JPH07219953A JP6012006A JP1200694A JPH07219953A JP H07219953 A JPH07219953 A JP H07219953A JP 6012006 A JP6012006 A JP 6012006A JP 1200694 A JP1200694 A JP 1200694A JP H07219953 A JPH07219953 A JP H07219953A
Authority
JP
Japan
Prior art keywords
important
concept
document
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6012006A
Other languages
English (en)
Inventor
Kokui Jiyo
国偉 徐
Akira Ochitani
亮 落谷
Kenji Sugiyama
健司 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6012006A priority Critical patent/JPH07219953A/ja
Publication of JPH07219953A publication Critical patent/JPH07219953A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 本発明は、文書要約装置に関し、文書中の重
要単語を選定して、選定された重要語から、最も適切な
最重要語を選択し、選定された最重要語を用いて、文書
を要約する。 【構成】入力された原文書から、所定の手法によって
選定された複数個の重要語を用いて、物事, 又は、動
作等の概念を木構造で表現した概念体系を検索し、原文
書中の重要語を支配する数の最も多い概念ノード,
又は、該支配する重要語の数が同じであるときは、原文
書中の出現頻度の一番多い重要語を支配する概念ノ−
ドを、重要概念ノードaとして抽出し、該抽出され
た重要概念ノードaにより、原文書を要約する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された原文書か
ら、所定の手法により選定された重要語を用いて、物
事, 又は、動作等の概念を木構造で表現した概念体系を
チェックして、原文書の概念を示している重要概念ノー
ドaを選定し、該選定された重要概念ノ−ドaの概
念を用いて、原文書を要約する文書要約装置に関する。
【0002】
【従来の技術】図6は、従来の文書要約装置を説明する
図である。先ず、該原文書を形態素解析部 (入力部)
2 に入力して、原文書の原言語の構文を利用して、該
原文書を形態素に分割し、重要語抽出部 3で、該分割さ
れた形態素から、〜「は」とか, 〜「と」〜「は」等の
助詞の前にある単語を重要語として抽出する。
【0003】次に、出現頻度解析部 4で、該抽出した重
要語の中で頻度が一番高い重要語(単語) を、最重
要語aとして抽出し、該抽出した最重要語aと重要
語を含む文を、文書要約部 (出力部) 7 で重要文とし
て、文書の要約を行う。
【0004】該文書の具体的な、要約方法としては、上
記抽出した最重要語aと、重要語の単なる羅列で要
約文を形成するとか、該抽出した最重要語aに、適切
な加工文を付加して、『原文書は、「〜」に関する文書
である。』といった要約を行う等の方法がある。
【0005】
【発明が解決しようとする課題】上記、従来の文書要約
装置では、原文書の言語の構文だけを利用して、抽出
された重要語の中から、出現頻度の一番高い単語を、
最重要語aとして選定する。このようにして抽出され
た最重要語aは、単に、原文書の構文といった表層だ
けで重要語を抽出したものであり、重要語を選択する
のに、原文書全体が持つ意味のチェックを行っていな
い。
【0006】従って、上記のようにして抽出された最重
要語aは、適切な最重要語aでないことがある。こ
の適切でない最重要語aを中心に、要約を行った文書
では、原文書に対して適切な要約には、必ずしもなっ
ていないという問題があった。即ち、原文書が何を言
いたいのかのポイントを抽出していないという問題があ
った。
【0007】又、類似の技術として、特開昭63−17
5965号公報「文書処理装置」があり、文書中の用語
の意味内容からキーワードを抽出し、該抽出したキーワ
ードを参照して、文書の内容を表す概念候補を選出し、
これを基に、文書の概念を決定しいる。
【0008】然し、この特開昭63−175965号公
報「文書処理装置」で開示さている文書要約技術では、
文書の分野、例えば、「採用」「出荷」「送金」といっ
た事務処理の分野に依存して、分野毎に辞書と概念キー
ワードを作成し直す必要があるという問題がある。
【0009】本発明は上記従来の欠点に鑑み、所定の手
法で選定された重要語を用いて、物事, 又は、動作等
の概念を木構造で表現した一般的な、即ち、文書の技術
分野に依存していない概念体系をチェックして、原文書
の言いたいポイントを概念として抽出し、該抽出され
た概念を、前述の最重要語とし、原文書に最も適切な
要約を行う文書要約装置を提供することを目的とするも
のである。
【0010】
【課題を解決するための手段】図1は、本発明の原理構
成図であり、図2は、本発明で使用される概念体系の例
を示した図である。上記の問題点は下記の如くに構成し
た文書要約装置によって解決される。
【0011】(1) 本発明による文書要約装置は、原文書
を入力する入力部 2と、所定の手法で、上記原文書
から、重要語を抽出する重要語抽出部 3と、抽出され
た重要語で、物事, 又は、動作等の概念を木構造で表
現した概念体系 1を検索して、重要概念ノードaを選
定する重要概念ノード選定部 6と、該選定した重要概念
ノードaの概念を用いて、原文書の要約文書を出力
する出力部 7とから構成する。
【0012】(2) 上記文書要約装置の重要概念ノード選
定部 6は、一定の個数の単語を支配している上記概念体
系 1上のノードを探索し、それぞれのノードが、上
記重要語を幾つ支配するかをチェックし、より多くの
上記重要語を支配するノードを、重要概念ノード
aとして選定するように構成する。
【0013】(3) 上記文書要約装置の重要概念ノード選
定部 6は、概念体系 1上のノードが支配する重要語
の数が同じである場合、支配している重要語の原文書
での出現頻度をチェックして、出現頻度の高い方の重
要語を支配しているノードを、上記重要概念ノード
aとして選定するように構成する。
【0014】
【作用】本発明による文書要約装置では、所定の手法
で、原文書から抽出された重要語(単語)を用い
て、物事, 又は、動作等の概念を木構造で表現した概念
体系1を検索し、概念体系 1にある重要語にあたる単語
に対して、予め、設定した個数の単語を木構造の形で支
配する概念ノードが、上記抽出した重要語を幾つ支
配しているかを調べて、より多くの重要語を支配する
概念ノードを、重要概念ノードaとして選定し、こ
の重要概念ノードaを抽出して、原文書が何を言お
うとしているかのポイントを得て、該重要概念ノード
aの概念を用いて、例えば、該概念に、適切な文を付加
するなどの加工をおこなって、該原文書を要約するよ
うにしたものである。
【0015】上記、概念体系 1については、例えば、
「“分類語彙表",国立国語研究書資料集6, 国立国語研
究所編, 株式会社秀英出版刊, 昭和39年3月31日, 初版
発行」に、その例が見られるが、図2に示したように、
物事,又は、動作等の概念を木構造で表現したもので、
最上位のノードに、上記物事,又は、動作等があり、
その下位のノードに、該上位の概念を構成している下
位概念が、例えば、木構造の形式で階層構造で表現され
ている。そして、一番下位の層には、それぞれの概念が
支配する単語(重要語)が属している。
【0016】又、原文書から、重要語(単語)を抽
出する手法として、幾つかの方法が知られているが、例
えば、「“自動抄録法",岩淵保, 荒井幹夫, 藍沢実著,
電気学会通信研究会,CMN-89-23」がある。
【0017】上記の文献では、1)標題, 副標題を構成し
ている単語を選択する。2)本文中の「は」, 「には」,
「とは」の前の漢字、カナ文字で構成されている単語を
選択する。これは、上記「は」は、主題を述べるときに
使われているからであるとしている。3)上記 2) で抽出
された単語の前に「と」や「や」があると、その前の単
語も、漢字, カナ文字で構成されていると、重要語と
して抽出する。4)上記のようにして抽出された単語が、
一文字であれば、経験則から重要語にはなりえないとし
て削除する。といった手法が示されている。
【0018】本願発明による文書要約装置では、原文書
から重要語を抽出する手法については、限定するも
のではないが、例えば、上記の文献に示されているよう
な手法を用いて、重要語を抽出する。
【0019】従って、入力された原文書に対して、何
らかの手法を用いて、重要語を抽出し、該抽出された
重要語を用いて、上記、前持って構築されている、物
事,又は、動作等の概念を木構造で表現した概念体系 1
を検索し、指定された個数の単語を支配するノード
が、上記抽出した重要語をいくつ支配しているかを調
べ、より多くの重要語を支配しているノードを、重
要概念ノードaとして選定することにより、該原文書
の一番のポイントを得て、該原文書を、適切な文書
で要約することができる。
【0020】
【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1が、本発明の原理構成図であり、図2
は、本発明で使用される概念体系の例を示した図であ
り、図3〜図5は、本発明の一実施例を示した図であ
り、図3は、文書要約処理の一実施例を流れ図で示して
おり、図4は、本実施例で使用される概念体系の例を示
しており、図5は、重要概念ノードの選定の例を示して
いる。
【0021】本発明においては、原文書の構文を利用
して、重要語(単語)を抽出し、該抽出した重要語の
中で、最重要語aを選定するのに、物事, 又は、動作
等の概念を木構造で表現した概念体系 1を検索し、一定
の個数の単語を支配するノードを比較して、支配する
重要語の数が一番多い概念ノードを重要概念ノード
aとして選択し、該選択した重要概念ノードaの概
念を用いて、原文書の要約を行う手段が、本発明を実
施するのに必要な手段である。尚、全図を通して同じ符
号は同じ対象物を示している。
【0022】以下、図1,図2を参照しながら、図3〜
図5によって、本発明の文書要約装置の構成と動作を説
明する。図1に示されているように、本発明の文書要約
装置は、原文書を入力する入力部 2と、何らかの手法
で、該原文書中の重要語を抽出する重要語抽出部 3
と、該抽出された重要語を用いて、概念体系 1を検索
し、予め、設定されている数の単語を支配する概念ノー
ドが、上記重要語抽出部 3で抽出された重要語をい
くつ支配するか、又、重要語の出現頻度をチェックし
て、該原文書に対応する重要概念ノードaを選定す
る重要概念ノード選定部 6と、該選定された重要概念ノ
ードaが示す概念を用いて、原文書を要約して出力
する出力部7と、上記概念体系 1とから構成されてい
る。
【0023】本実施例において、使用される原文書
は、例えば、「A国のB国向けの繊維の輸出には重い反
ダンピング関税がかけられた場合は採算が合わなくなっ
てしまう。最近は反ダンピング関税を乱発するケースが
増えている。」であるとする。
【0024】又、図4は、本実施例で使用される概念体
系 1の一例であり、図2で示したように、木構造の概念
ノードで構成されており、最下位には、その上位の概
念ノードが支配する重要語(単語)が配置されてい
る。
【0025】図3において、先ず、図1の入力部 2に上
記原文書が入力されると、図1の重要語抽出部 3にお
いて、前述の文献に示されている手法で、上記原文書
から、原文書中の重要語を抽出する。
【0026】上記の原文書では、例えば、「採算」
(1),「最近」(1),「輸出」(2) が重要語として抽出さ
れる。ここで、( ) 内の数字は、出現頻度である。{図
3の処理ステップ 100参照}次に、図1の重要概念ノー
ド選定部 6において、上記抽出された重要語を用い
て、前述の図4に示した、概念体系 1を検索し、該概念
体系 1から、重要語を含む概念ノードを取出す。図
5(a) は、上記重要語を基に、図4の概念体系 1を検
索して得た、該重要語を支配する概念ノードの例で
ある。
【0027】即ち、単語「輸出」(2) は、概念ノード
「輸出入」(2)(1)に支配されており、該概念ノード「輸
出入」は、上位の概念ノード「取引」(4)(1)に支配され
ている。以下同様にして、単語「最近」(1) は、概念ノ
ード「時」(2)(1)に支配されており、単語「採算」(1)
は、概念ノード「会計」(2)(1)に支配されている。ここ
で、単語「輸出」等の後ろの数字は、重要語の出現頻
度であり、概念ノード「輸出入」等の次の数字は、該
概念ノードが支配する単語の数であり、その右の数字
は、支配する重要語の数である。{図3の処理ステッ
プ 101参照}次に、同じ重要概念ノード選定部 6で、一
定の個数 (例えば、2個)の単語を支配する概念ノード
を比べて、支配する重要語が一番多い概念ノード
を重要概念ノードaとして選定する。上記の例では、
図5(a) に示した例から明らかなように、各単語「輸
出」「最近」「採算」を、それぞれ、支配する概念ノ
ードは「輸出入」「時」「会計」であり、それらが支
配している重要語(単語)の数は“1”個で同じであ
る。
【0028】この場合には、原文書中での出現頻度の
一番高い重要語(単語)をチェックして、高い方の概
念ノードを、重要概念ノードaとして選定する。本
実施例では、図5(b) に示したように、「輸出入」なる
重要概念ノードaが選定されることになる。{図3の
処理ステップ 103,104参照}図1の出力部 7では、該選
定された重要概念ノードaの概念「輸出入」に、例え
ば、「に関する文書である。」といった文を付加 (文書
の加工) を行って、要約文「“輸出入”に関する文書で
ある。」なる要約文を出力する。
【0029】このように、本発明による文書要約装置
は、入力された原文書から、所定の手法によって選定
された複数個の重要語を用いて、物事, 又は、動作等
の概念を木構造で表現した概念体系を検索し、原文書
中の重要語が属する数の最も多い概念ノードを、重
要概念ノードaとして抽出し、該抽出された重要概念
ノードaの概念により、原文書を要約するようにし
たところに特徴がある。
【0030】
【発明の効果】以上、詳細に説明したように、本発明の
文書要約装置によれば、原文書から抽出された重要語
を用いて、概念体系をチェックし、原文書中のより
多くの重要語を支配する重要概念ノードaを抽出し
て、該原文書がポイントとしている意味を得ることに
より、該原文書のポイントとなる内容を要約文として
出力することができる効果がある。
【図面の簡単な説明】
【図1】本発明の原理構成図
【図2】本発明で使用される概念体系の例を示した図
【図3】本発明の一実施例を示した図(その1)
【図4】本発明の一実施例を示した図(その2)
【図5】本発明の一実施例を示した図(その3)
【図6】従来の文書要約装置を説明する図
【符号の説明】
1 概念体系 2 入力部,形
態素解析部 3 重要語抽出部 4 出現頻度解
析部 5 文書要約部,出力部 6 重要概念ノ
ード選定部 100 〜105 処理ステップ 原文書 重要語(単語) a 最重要語 概念ノード a 重要概念ノ−ド

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】原文書 () を入力する入力部(2) と、所
    定の手法で、上記原文書 () から、重要語 () を抽
    出する重要語抽出部(3) と、抽出された重要語 ()
    で、物事, 又は、動作等の概念を木構造で表現した概念
    体系(1) を検索して、重要概念ノード (a) を選定す
    る重要概念ノード選定部(6) と、該選定した重要概念ノ
    ード (a) の概念を用いて、原文書 () の要約文書
    を出力する出力部(7) とから構成されたことを特徴とす
    る文書要約装置。
  2. 【請求項2】上記文書要約装置の重要概念ノード選定部
    (6) は、一定の個数の単語を支配している上記概念体系
    (1) 上のノード()を探索し、それぞれのノード
    ()が、上記重要語 () を幾つ支配するかをチェッ
    クし、より多くの上記重要語 () を支配するノード
    ()を、重要概念ノード (a) として選定すること
    を特徴とする請求項1に記載の文書要約装置。
  3. 【請求項3】上記文書要約装置の重要概念ノード選定部
    (6) は、概念体系(1) 上のノード()が支配する重要
    語 () の数が同じである場合、支配している重要語
    ()の原文書()中の出現頻度をチェックして、出現
    頻度の高い方の重要語 ()を支配しているノード
    ()を、上記重要概念ノード(a)として選定する
    ことを特徴とする請求項1,又は2に記載の文書要約装
    置。
JP6012006A 1994-02-04 1994-02-04 文書要約装置 Withdrawn JPH07219953A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6012006A JPH07219953A (ja) 1994-02-04 1994-02-04 文書要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6012006A JPH07219953A (ja) 1994-02-04 1994-02-04 文書要約装置

Publications (1)

Publication Number Publication Date
JPH07219953A true JPH07219953A (ja) 1995-08-18

Family

ID=11793508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6012006A Withdrawn JPH07219953A (ja) 1994-02-04 1994-02-04 文書要約装置

Country Status (1)

Country Link
JP (1) JPH07219953A (ja)

Similar Documents

Publication Publication Date Title
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Zhang et al. A trainable method for extracting Chinese entity names and their relations
Ohta et al. CRF-based bibliography extraction from reference strings focusing on various token granularities
JPH07219953A (ja) 文書要約装置
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JPH05224687A (ja) 日本文読み上げ単語変換編集処理方式
JPS61248160A (ja) 文書情報登録方式
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Thottempudi A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition
JPH0748217B2 (ja) 文書要約装置
JPH0736686A (ja) 影響検索装置
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP3508312B2 (ja) キーワード抽出装置
Pramoda Devi et al. A Comparative Study on Various Approaches and Complexities of Text Summarization
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH07152778A (ja) 文書検索装置
JPH0711800B2 (ja) 日本文文章解析装置
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
Hauer et al. intelligentCAPTURE 1.0 adds tables of content to library catalogues and improves retrieval
WO2021040101A1 (ko) 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법
JPH04270450A (ja) 文書作成装置
JP2001051993A (ja) 日本語の散文や口語文の文字列をコンピュータ処理により単語列として認識する方法およびソフトウェア記録媒体
JPH06187329A (ja) 自然言語処理装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010508