JPH0490055A

JPH0490055A - 要約文生成方式

Info

Publication number: JPH0490055A
Application number: JP2203865A
Authority: JP
Inventors: Kenji Ono; 顕司小野; Satoshi Kinoshita; 聡木下; Teruhiko Ukita; 浮田　輝彦
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1990-08-02
Filing date: 1990-08-02
Publication date: 1992-03-24
Anticipated expiration: 2010-05-15
Also published as: JPH0743728B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は自然言語からなる文章の高品質な要約文を効果
的に生成することのできる要約文生成方式に関する。

（従来の技術）自然言語からなる文章の要約文の生成は、従来−船釣に
は文章全体に亘って出現頻度の高い語を多数含む文や、
例えば［重要なことは・・・ｊ等の特定の語や表現を含
む文を重要度の高い文であるけなので、内容的に同じ意
味を持つ複数の文が重複して抽出され易い。この結果、
往々にして冗長な要約文が生成され易いと云う問題があ
った。しかも文抽出の基準が文章全体の論旨の流れを踏
まえたものではないので、抽出された複数の文間の接続
関係を決定することが困難であり、適切な要約文を生成
することが難しい。更には抽出された複数の文を繋ぎ合
わせて生成された要訳文中には、往々にして必要な接続
詞がない場合や、不適切な接続詞が含まれることが多く
あり、その文意が曖昧なものとなり易いと云う問題があ
った。

一方、最近では文章全体の文脈構造を解析し、文章全体
の論旨の流れや、文章を構成する個々の文間の相対的な
関係を調べることが種々試みられている。この文脈構造
の解析は、例えば「情報処理学会研究会報告Ｖｏ１．８
９Ｎｏ、［ｉ　　８９−ＮＬ−７０−２ｐｐｌ−８１９
８９，１，２０Ｊ「情報処理学会シンポジウム論文集Ｖｏ１．８９　　Ｎｏ、５　　ｐｐ１２５−１３６　１
９８９．Ｊ、Ｉ　Ｊとによりなされる。

然し乍ら、このような解析処理にて文章全体の文脈構造
を求めても、−船釣にはその論旨の流れと、文章を構成
する複数の文間の接続関係が示されるだけで、このよう
な情報を用いて要約文を生成する手法については明らか
にされていない。

（発明が解決しようとする課題）このように従来の要約文生成処理にあっては、内容的に
同じ意味を持つ文を重複して抽出し易く、また抽出され
た複数の文間の接続関係を決定することが困難なので、
抽出された複数の文を繋ぎ合わせて要約文を生成した際
、冗長な要約文となったり、またその要約文中に不適切
な接続詞が含まれることが多々生じ易い等の問題があっ
た。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、文章中の重要な文を文間の接続
関係を明確に決定しながら抽出して高品質な要約文を効
果的に生成することのできる要約文生成方式を提供する
ことにある。

［発明の構成］（課題を解決するための手段）本発明に係る要約文生成方式は、自然言語の記文章の論
旨構造を文を単位として木構造表現した上で、前記共範
破約標識により示される文間の接続関係に固有な選択規
則に基づいて前記木構造で結ばれた文の一方または両方
を棄却する操作を再帰的に繰り返すことによって、要約
文として用いるに適した重要な文を適確に抽出し、且つ
その木構造に従って抽出文を繋ぎ合わせることにより高
品質な要約文を効率的に作成するようにしたことを特徴
とするものである。

（作　用）本発明によれば、解析処理により文章全体の論旨の流れ
を示す文脈構造を求め、この文脈構造に従って前記文章
を構成する複数の文を、複数の文間の接続関係を表す共
範破約標識を用いて木構造表現し、共範破約標識により
示される文間の接続関係に固有な選択規則に基づいて前
記木構造表現されて結ばれている複数の文の一方または
両方を棄却していくと云う操作を再帰的に行うので、諭
旨構造的、或いは接続関係の上で冗長な文や重要度の低
い文を効果的に除去していくことが可能となる。その上
で残された文、つまり棄却するこよ的に生成することが可能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る要約文生
成方式について説明する。

第１図は実施例方式を適用して構成される文書処理装置
の概略構成図で、ｌは自然言語からなる文章（テキスト
データ）を入力する文章入力部である。文脈構造解析部
２は前記文章入力部１から入力された文章に対して、例
えば前述したような手法を用いて文章中に出現する接続
詞等の修辞表現を手掛りとし、その修辞表現から複数の
文間の接続関係として好ましい系列を、接続関係間の系
列規則を参照して調べ、その論旨構造を示す文脈構造を
求めるものである。

木構造生成部３は上述した如く解析される入力文章の文
脈構造に従い、前記入力文章を構成する複数の文を、文
を単位とし、複数の文間の接続関係を表す共範破約標識
を用いて木構造表現するものである。

接続関係判断部４は、規則部５に予め登録されしても良
いか否かを判断する。そして棄却すべき文が見出された
場合、その文についての情報を前記木構造から棄却する
。この接続関係判断部４による不要文の棄却操作は、前
記木構造を修正しなから再帰的に繰り返し行われる。そ
して所定回数の棄却操作が繰り返し行われたとき、或い
は上記棄却操作により残された文の数が所定文数以下と
なったとき、不要文の棄却操作が停止され、残された文
をその木構造に従って繋ぎ合わせることにより、前記入
力文章に対する要約文が生成出力される。

このような要約文の生成処理の流れを更に詳しく説明す
る。

例えば第２図に示すような文章が前記文章入力部１から
入力されると、文脈構造解析部２は、例えば句点を文の
区切りとして検出し、文章中に出現する接続詞や特定の
文章表現等の修辞表現を手掛りとして複数の文間の接続
関係を調べる。この文間の接続関係は、例えば第３図に
示すように構成された辞書を参照する等し、文章中に出
現するれる。この際、その修辞表現から複数の文間の接
続関係として好ましい系列を、接続関係間の系列規則を
参照して文章全体に亘って調べ、前記入力文章の論旨構
造を示す文脈構造を決定する。

尚、このようにして求められる文間の接続関係は、例え
ば第３図に示すように「言明型」の接続関係として「重
複」　「補足」　「理由」・・・等の情報であり、「直
列型」の接続関係としては「順接」「逆接」　「同列」
・・・等の情報、また「並列型」の接続関係としては「
並列」　「対比」　「転換」・・・等の情報、更にその
他の接続関係として「予定」「参照」等の情報からなる
。

文脈構造解析部２は、このようにして前記第２図に示す
ような入力文章を解析し、その入力文章が■、■、〜■
の８つの文からなり、これらの文間には（（（（１−２）　−（（（３→４）ａｐ５）　Ｘ　６
））　−７）＊　８）なる接続関係があることが見出さ
れる。尚、ここに示した共範破約標識記号である［−］
は「順接」を示し、また［−］は「対比Ｊ、［Ｘ］は「
逆接」構造に従って、例えば第５図（ａ）に示すように
木構造を生成し、個々の文間の接続関係を示す部分つま
りその文脈構造を表現する。このようにして共範時標識
記号を用いて木構造表現された入力文章の文脈構造に従
い、前記接続関係判断部４の下で、例えば第４図に示す
ようにして要訳文の生成処理が実行される。

この処理手続きは、先ず生成しようとする要訳文の文数
を規定する上限値工を初期設定することから開始される
（ステップａ）。この上限値工は、要訳文を回文以下と
して生成するかを規定するものである。しかる後、前処
理として前述した如く共範時標識記号を用いて木構造表
現された入力文章の文脈構造から「参照型」　「予定型
」の共範時標識記号を持つ部分構造（部分木）を、要訳
文を構成するに冗長な文であると判断し、その部分構造
を前記入力文章の文脈構造から取除くと云う処理を実行
する（ステップｂ）。具体的には、第５図（ａ）に示す
木構造の文脈構造においては、「参照型」の共範時標識
記号［※］を持つ部分構造が文■であることから、この
文■を入力文章中から削除し、その木構造を第５図（ｂ
）に示すように修正変更する。

ツブＣ）。そしてこの文の数を示す制御値Ｊが前述した
上限値Ｉに示される要訳文としての許容文数に達してい
るか否かを判定しくステップｄ）、この時点でその文数
が上限値１以下となったことが検出された場合には、そ
れらの文を前述した如く文の削除に伴って修正変更され
た木構造（既約文脈構造）に従って繋ぎ合わせ、これを
要訳文として出力する（ステップｅ）。

然し乍ら、−船釣には上述した「参照型」　「予定型」
の共範鴫標識記号を持つ部分構造（部分木）の削除処理
だけでは、その文数を上限値Ｉ以下に抑えることは不可
能である。

従ってこのような場合には、文章全体の文脈構造を示す
木構造の中からＵ文　接続関係　文コなる形式で示されるように２つの文が直接構造化されて
いるような最小単位部分に着目し、その最小単位部分に
ついての既約を行う。この既約は前記規則部５に予め格
納されている文間の接続関係に固有な選択規則に基づい
て行われるもので、例で示されるとき、（１）接続関係Ｒｋが直列型のとき、その単位全体を文
Ｍｋにて置換する。

［Ｎｋ　　、　　Ｒｋ　　、　　Ｍｋ　　コ　　　→　
　　［Ｍｋ　　コ（２）接続関係Ｒｋが言明型のとき、
その単位全体を文Ｎｋにて置換する。

［Ｎｋ　　、　　　Ｒｋ　　、　　　Ｍｋ　　コ　　　
→　　　［Ｎｋ　　］（３）接続関係Ｒｋが並列型のと
き、その単位全体を削除する。

［Ｎｋ、Ｒｋ、Ｍｋｌ　　−［削除］等の規則に従って行われる。このような既約処理は、文
脈構造を示す木構造の最小単位構造の部分から再帰的に
繰り返し実行される。

即ち、この既約処理は、先ず文脈構造を示す木構造中か
らその最小単位構造［Ｎｋ、Ｒｋ、Ｍｋｌの全てを取り
出しくステップｆ）、制御パラメータＫにその最小単位
構造の総数りをセットする（ステップｇ）。そして上記
制御パラメータＫにより特定される最小単位構造につい
て、その接続関係Ｒｋが「言明型」であるか、「直列型
Ｊであが「直列型」である場合には、その最小単位構造
［Ｎｋ、Ｒｋ、Ｍｋｌを文Ｍｋにて置換する（ステップ
ｋ）。そしてその接続関係Ｒｋが「直列型でも「言明型
」でもない場合には、前述した第３図に示す接続関係か
ら明らかなように、残された「並列型」であることが示
されるので、その最小単位構造［Ｎｋ　、　Ｒｋ　、　
Ｍｋ　］全体を削除する（ステップｍ）。

このような処理を前記制御パラメータＫをデクリメント
しながら（ステップｎ）、その制御パラメータにの値が
零（０）になるまで、つまり前述した如く取り出した全
ての最小単位構造［Ｎｋ　。

Ｒｋ、Ｍｋｌのそれぞれに対する処理が完了するまで繰
り返し実行する（ステップ。）。

このような既約処理により第５図（ｂ）に示すような文
脈構造から、「直列型」の接続関係についての規則に従
って文■、■がそれぞれ削除され、その木構造が第５図
（Ｃ）に示すように既約される。

そして前述した第２図に示す入力文章は、第６図（ａ）
に示すように整理される。

下となるか否かを判定しくステップｑ）、許容文いる場
合には、再度前述した既約処理が実行される。そして第
５図（ｅ）に示す木構造の最小単位構造［Ｎｋ、Ｒｋ、
Ｍｋ］から、「並列型」の接続関係にある文■、■が見
出され、これらの文■。

■をそれぞれ抹消することにより第５図（ｄ）に示すよ
うな木構造が求められ、文章は第６図（ｂ）に示すよう
に整理される。

また上限値Ｉとして文数［１］が設定されている場合に
は、更に上記第５図（ｄ）に示すような既約処理結果に
対して再度既約処理が起動される。

そして第５図（ｄ）に示す木構造の最小単位構造［Ｎｋ
　、Ｒｋ　、Ｍｋコから、「並列型」の接続関係にある
文■、■が見出され、文■、■をそれぞれ抹消すること
によりその木構造が第５図（ｅ）に示すように修正され
、その文章が第６図（ｅ）に示すように整理される。

このようにして上限値■に示される文数以下の文が前記
入力文章中から抽出されたとき、つまり上述した木構造
に示される文脈構造の既約処理によって上限値工以下の
数の文が残されたとき、こ順序の早い左側の文から順に
並べ、これらの文の間に前述した木構造に示される共範
破約標識記号に従い、その記号に対応した接続表現を挿
入しな１がら行われる。

一このようにこの実施例における文脈構造の既約処理は、
要訳文として含むべき接続表現を木構造における共範破
約標識記号として保存しながら実行される。そして最小
単位構造である部分木においてその接続関係から不要で
あると判定される文を削除しながら文脈構造に対する既
約処理が実行される。この結果、要訳文として重要度の
高い文だけを効果的に抽出して要約文を作成することが
でき、またその要訳文に含まれる文の数が変化した場合
であっても、それらの文間の関係を文脈構造として保存
することができるので、常に適切な接続表現を備えた高
品質な要訳文を作成することが可能となる。

尚、入力文章中に同じ文意を持つ文が複数存在する場合
には、次のようにしてその排除が行われる。例えば入力
文章に対する解析処理により、その文脈構造がつてご　　（（２−３）　　−５）なる構造が求められる。ここで文■と文■を結ぶ共範破
約標識記号［−］は「同列」を意味し、同じ文意を持つ
文■、■が並列的に要訳文中に含まれることになる。し
かしこの場合、前述した上限値■が文数［２］であれば
、この既約文脈構造に対して再度既約処理が施されるこ
とになり、文■。

０間の接続関係である「直列型」の規則から文■が抹消
されることになる。従って要約文の長さとして余裕があ
る場合には、上述した並列関係にある同じ文意の文が存
在していても問題はないが、余裕がないような場合には
上限値Ｉを設定し直すことにより、重複した文の一方を
効果的に削除することができる。従ってこのようにして
既約処理を再帰的に繰り返すことにより、非常に効果的
に適切な表現の高品位な要訳文を簡易に生成することが
可能となる。

尚、本発明は上述した実施例に限定されるものではない
。実施例では要訳文としての文数の上限じ−で更に細か
く規定するようにしても良い。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。

一一−［発明の効果］以上説明したように本発明によれば、指定された要訳文
の文数に応じて入力文章中の重要な文−だ・けをその文
脈構造と共に抽出することができるので、抽出された文
間の接続関係を明確に決定しながら、接続表現の適切な
高品質な要訳文を効率的に生成することができる。しか
もその要約処理を再帰的な処理の繰り返しにより実現す
るので、その処理の繰り返し回数を制限することだけに
よって要訳文の長さを効果的に調節することができる等
の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

図は本発明の一実施例に係る要訳文生成方式について示
すもので、第１図は実施例方式を適用して構成される自
然言語処理装置の概略的な構成図、第２図は入力文章の
例を示す図、−第３図は文脈解析に用いられる接続表現
と共範破約標識記号■・・・文章入力部、２・・・文脈
構造解析部、３・・・木構造生成部、４・・・接続関係
判断部、５・・・規則部、ｂ・・・接続関係に従う文の
削除処理、ｅ・・・既約文脈構造に従う要訳文生成処理
、ｆ・・・木構造からの単位構造部分の抽出処理、ｊ、
に、ｍ・・・接続関係に従２、う文の削除処理（文脈構
造の既約処理）。

Claims

【特許請求の範囲】

（１）自然言語の文章を解析して文章全体の論旨構造を
求める手段と、複数の文間の接続関係を表す共範疇的標
識を用いて前記文章の論旨構造を文を単位として木構造
表現する手段と、共範疇的標識により示される分間の接
続関係に固有な選択規制に基づいて前記木構造で結ばれ
た文の一方または両方を棄却する操作を再帰的に繰り返
す手段と、文の棄却操作がなされた前記木構造に従って
前記文章の要約文を抽出する手段とを具備したことを特
徴とする要約文生成方式。
（２）木構造に対する文の棄却操作は、その再帰的な繰
り返し回数を制限して行われ、この繰り返し制限回数に
より要約文の長さを調節することを特徴とする請求項（
１）に記載の要約文生成方式。