JPH0490055A - 要約文生成方式 - Google Patents
要約文生成方式Info
- Publication number
- JPH0490055A JPH0490055A JP2203865A JP20386590A JPH0490055A JP H0490055 A JPH0490055 A JP H0490055A JP 2203865 A JP2203865 A JP 2203865A JP 20386590 A JP20386590 A JP 20386590A JP H0490055 A JPH0490055 A JP H0490055A
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- sentence
- tree structure
- connection
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 28
- 239000003550 marker Substances 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 abstract description 13
- 238000012545 processing Methods 0.000 description 13
- 238000013519 translation Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002910 structure generation Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は自然言語からなる文章の高品質な要約文を効果
的に生成することのできる要約文生成方式に関する。
的に生成することのできる要約文生成方式に関する。
(従来の技術)
自然言語からなる文章の要約文の生成は、従来−船釣に
は文章全体に亘って出現頻度の高い語を多数含む文や、
例えば[重要なことは・・・j等の特定の語や表現を含
む文を重要度の高い文であるけなので、内容的に同じ意
味を持つ複数の文が重複して抽出され易い。この結果、
往々にして冗長な要約文が生成され易いと云う問題があ
った。しかも文抽出の基準が文章全体の論旨の流れを踏
まえたものではないので、抽出された複数の文間の接続
関係を決定することが困難であり、適切な要約文を生成
することが難しい。更には抽出された複数の文を繋ぎ合
わせて生成された要訳文中には、往々にして必要な接続
詞がない場合や、不適切な接続詞が含まれることが多く
あり、その文意が曖昧なものとなり易いと云う問題があ
った。
は文章全体に亘って出現頻度の高い語を多数含む文や、
例えば[重要なことは・・・j等の特定の語や表現を含
む文を重要度の高い文であるけなので、内容的に同じ意
味を持つ複数の文が重複して抽出され易い。この結果、
往々にして冗長な要約文が生成され易いと云う問題があ
った。しかも文抽出の基準が文章全体の論旨の流れを踏
まえたものではないので、抽出された複数の文間の接続
関係を決定することが困難であり、適切な要約文を生成
することが難しい。更には抽出された複数の文を繋ぎ合
わせて生成された要訳文中には、往々にして必要な接続
詞がない場合や、不適切な接続詞が含まれることが多く
あり、その文意が曖昧なものとなり易いと云う問題があ
った。
一方、最近では文章全体の文脈構造を解析し、文章全体
の論旨の流れや、文章を構成する個々の文間の相対的な
関係を調べることが種々試みられている。この文脈構造
の解析は、例えば「情報処理学会研究会報告Vo1.8
9No、[i 89−NL−70−2ppl−819
89,1,20J「情報処理学会シンポジウム論文集 Vo1.89 No、5 pp125−136 1
989.J、I Jとによりなされる。
の論旨の流れや、文章を構成する個々の文間の相対的な
関係を調べることが種々試みられている。この文脈構造
の解析は、例えば「情報処理学会研究会報告Vo1.8
9No、[i 89−NL−70−2ppl−819
89,1,20J「情報処理学会シンポジウム論文集 Vo1.89 No、5 pp125−136 1
989.J、I Jとによりなされる。
然し乍ら、このような解析処理にて文章全体の文脈構造
を求めても、−船釣にはその論旨の流れと、文章を構成
する複数の文間の接続関係が示されるだけで、このよう
な情報を用いて要約文を生成する手法については明らか
にされていない。
を求めても、−船釣にはその論旨の流れと、文章を構成
する複数の文間の接続関係が示されるだけで、このよう
な情報を用いて要約文を生成する手法については明らか
にされていない。
(発明が解決しようとする課題)
このように従来の要約文生成処理にあっては、内容的に
同じ意味を持つ文を重複して抽出し易く、また抽出され
た複数の文間の接続関係を決定することが困難なので、
抽出された複数の文を繋ぎ合わせて要約文を生成した際
、冗長な要約文となったり、またその要約文中に不適切
な接続詞が含まれることが多々生じ易い等の問題があっ
た。
同じ意味を持つ文を重複して抽出し易く、また抽出され
た複数の文間の接続関係を決定することが困難なので、
抽出された複数の文を繋ぎ合わせて要約文を生成した際
、冗長な要約文となったり、またその要約文中に不適切
な接続詞が含まれることが多々生じ易い等の問題があっ
た。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、文章中の重要な文を文間の接続
関係を明確に決定しながら抽出して高品質な要約文を効
果的に生成することのできる要約文生成方式を提供する
ことにある。
の目的とするところは、文章中の重要な文を文間の接続
関係を明確に決定しながら抽出して高品質な要約文を効
果的に生成することのできる要約文生成方式を提供する
ことにある。
[発明の構成]
(課題を解決するための手段)
本発明に係る要約文生成方式は、自然言語の記文章の論
旨構造を文を単位として木構造表現した上で、前記共範
破約標識により示される文間の接続関係に固有な選択規
則に基づいて前記木構造で結ばれた文の一方または両方
を棄却する操作を再帰的に繰り返すことによって、要約
文として用いるに適した重要な文を適確に抽出し、且つ
その木構造に従って抽出文を繋ぎ合わせることにより高
品質な要約文を効率的に作成するようにしたことを特徴
とするものである。
旨構造を文を単位として木構造表現した上で、前記共範
破約標識により示される文間の接続関係に固有な選択規
則に基づいて前記木構造で結ばれた文の一方または両方
を棄却する操作を再帰的に繰り返すことによって、要約
文として用いるに適した重要な文を適確に抽出し、且つ
その木構造に従って抽出文を繋ぎ合わせることにより高
品質な要約文を効率的に作成するようにしたことを特徴
とするものである。
(作 用)
本発明によれば、解析処理により文章全体の論旨の流れ
を示す文脈構造を求め、この文脈構造に従って前記文章
を構成する複数の文を、複数の文間の接続関係を表す共
範破約標識を用いて木構造表現し、共範破約標識により
示される文間の接続関係に固有な選択規則に基づいて前
記木構造表現されて結ばれている複数の文の一方または
両方を棄却していくと云う操作を再帰的に行うので、諭
旨構造的、或いは接続関係の上で冗長な文や重要度の低
い文を効果的に除去していくことが可能となる。その上
で残された文、つまり棄却するこよ 的に生成することが可能となる。
を示す文脈構造を求め、この文脈構造に従って前記文章
を構成する複数の文を、複数の文間の接続関係を表す共
範破約標識を用いて木構造表現し、共範破約標識により
示される文間の接続関係に固有な選択規則に基づいて前
記木構造表現されて結ばれている複数の文の一方または
両方を棄却していくと云う操作を再帰的に行うので、諭
旨構造的、或いは接続関係の上で冗長な文や重要度の低
い文を効果的に除去していくことが可能となる。その上
で残された文、つまり棄却するこよ 的に生成することが可能となる。
(実施例)
以下、図面を参照して本発明の一実施例に係る要約文生
成方式について説明する。
成方式について説明する。
第1図は実施例方式を適用して構成される文書処理装置
の概略構成図で、lは自然言語からなる文章(テキスト
データ)を入力する文章入力部である。文脈構造解析部
2は前記文章入力部1から入力された文章に対して、例
えば前述したような手法を用いて文章中に出現する接続
詞等の修辞表現を手掛りとし、その修辞表現から複数の
文間の接続関係として好ましい系列を、接続関係間の系
列規則を参照して調べ、その論旨構造を示す文脈構造を
求めるものである。
の概略構成図で、lは自然言語からなる文章(テキスト
データ)を入力する文章入力部である。文脈構造解析部
2は前記文章入力部1から入力された文章に対して、例
えば前述したような手法を用いて文章中に出現する接続
詞等の修辞表現を手掛りとし、その修辞表現から複数の
文間の接続関係として好ましい系列を、接続関係間の系
列規則を参照して調べ、その論旨構造を示す文脈構造を
求めるものである。
木構造生成部3は上述した如く解析される入力文章の文
脈構造に従い、前記入力文章を構成する複数の文を、文
を単位とし、複数の文間の接続関係を表す共範破約標識
を用いて木構造表現するものである。
脈構造に従い、前記入力文章を構成する複数の文を、文
を単位とし、複数の文間の接続関係を表す共範破約標識
を用いて木構造表現するものである。
接続関係判断部4は、規則部5に予め登録されしても良
いか否かを判断する。そして棄却すべき文が見出された
場合、その文についての情報を前記木構造から棄却する
。この接続関係判断部4による不要文の棄却操作は、前
記木構造を修正しなから再帰的に繰り返し行われる。そ
して所定回数の棄却操作が繰り返し行われたとき、或い
は上記棄却操作により残された文の数が所定文数以下と
なったとき、不要文の棄却操作が停止され、残された文
をその木構造に従って繋ぎ合わせることにより、前記入
力文章に対する要約文が生成出力される。
いか否かを判断する。そして棄却すべき文が見出された
場合、その文についての情報を前記木構造から棄却する
。この接続関係判断部4による不要文の棄却操作は、前
記木構造を修正しなから再帰的に繰り返し行われる。そ
して所定回数の棄却操作が繰り返し行われたとき、或い
は上記棄却操作により残された文の数が所定文数以下と
なったとき、不要文の棄却操作が停止され、残された文
をその木構造に従って繋ぎ合わせることにより、前記入
力文章に対する要約文が生成出力される。
このような要約文の生成処理の流れを更に詳しく説明す
る。
る。
例えば第2図に示すような文章が前記文章入力部1から
入力されると、文脈構造解析部2は、例えば句点を文の
区切りとして検出し、文章中に出現する接続詞や特定の
文章表現等の修辞表現を手掛りとして複数の文間の接続
関係を調べる。この文間の接続関係は、例えば第3図に
示すように構成された辞書を参照する等し、文章中に出
現するれる。この際、その修辞表現から複数の文間の接
続関係として好ましい系列を、接続関係間の系列規則を
参照して文章全体に亘って調べ、前記入力文章の論旨構
造を示す文脈構造を決定する。
入力されると、文脈構造解析部2は、例えば句点を文の
区切りとして検出し、文章中に出現する接続詞や特定の
文章表現等の修辞表現を手掛りとして複数の文間の接続
関係を調べる。この文間の接続関係は、例えば第3図に
示すように構成された辞書を参照する等し、文章中に出
現するれる。この際、その修辞表現から複数の文間の接
続関係として好ましい系列を、接続関係間の系列規則を
参照して文章全体に亘って調べ、前記入力文章の論旨構
造を示す文脈構造を決定する。
尚、このようにして求められる文間の接続関係は、例え
ば第3図に示すように「言明型」の接続関係として「重
複」 「補足」 「理由」・・・等の情報であり、「直
列型」の接続関係としては「順接」「逆接」 「同列」
・・・等の情報、また「並列型」の接続関係としては「
並列」 「対比」 「転換」・・・等の情報、更にその
他の接続関係として「予定」「参照」等の情報からなる
。
ば第3図に示すように「言明型」の接続関係として「重
複」 「補足」 「理由」・・・等の情報であり、「直
列型」の接続関係としては「順接」「逆接」 「同列」
・・・等の情報、また「並列型」の接続関係としては「
並列」 「対比」 「転換」・・・等の情報、更にその
他の接続関係として「予定」「参照」等の情報からなる
。
文脈構造解析部2は、このようにして前記第2図に示す
ような入力文章を解析し、その入力文章が■、■、〜■
の8つの文からなり、これらの文間には ((((1−2) −(((3→4)ap5) X 6
)) −7)* 8)なる接続関係があることが見出さ
れる。尚、ここに示した共範破約標識記号である[−]
は「順接」を示し、また[−]は「対比J、[X]は「
逆接」構造に従って、例えば第5図(a)に示すように
木構造を生成し、個々の文間の接続関係を示す部分つま
りその文脈構造を表現する。このようにして共範時標識
記号を用いて木構造表現された入力文章の文脈構造に従
い、前記接続関係判断部4の下で、例えば第4図に示す
ようにして要訳文の生成処理が実行される。
ような入力文章を解析し、その入力文章が■、■、〜■
の8つの文からなり、これらの文間には ((((1−2) −(((3→4)ap5) X 6
)) −7)* 8)なる接続関係があることが見出さ
れる。尚、ここに示した共範破約標識記号である[−]
は「順接」を示し、また[−]は「対比J、[X]は「
逆接」構造に従って、例えば第5図(a)に示すように
木構造を生成し、個々の文間の接続関係を示す部分つま
りその文脈構造を表現する。このようにして共範時標識
記号を用いて木構造表現された入力文章の文脈構造に従
い、前記接続関係判断部4の下で、例えば第4図に示す
ようにして要訳文の生成処理が実行される。
この処理手続きは、先ず生成しようとする要訳文の文数
を規定する上限値工を初期設定することから開始される
(ステップa)。この上限値工は、要訳文を回文以下と
して生成するかを規定するものである。しかる後、前処
理として前述した如く共範時標識記号を用いて木構造表
現された入力文章の文脈構造から「参照型」 「予定型
」の共範時標識記号を持つ部分構造(部分木)を、要訳
文を構成するに冗長な文であると判断し、その部分構造
を前記入力文章の文脈構造から取除くと云う処理を実行
する(ステップb)。具体的には、第5図(a)に示す
木構造の文脈構造においては、「参照型」の共範時標識
記号[※]を持つ部分構造が文■であることから、この
文■を入力文章中から削除し、その木構造を第5図(b
)に示すように修正変更する。
を規定する上限値工を初期設定することから開始される
(ステップa)。この上限値工は、要訳文を回文以下と
して生成するかを規定するものである。しかる後、前処
理として前述した如く共範時標識記号を用いて木構造表
現された入力文章の文脈構造から「参照型」 「予定型
」の共範時標識記号を持つ部分構造(部分木)を、要訳
文を構成するに冗長な文であると判断し、その部分構造
を前記入力文章の文脈構造から取除くと云う処理を実行
する(ステップb)。具体的には、第5図(a)に示す
木構造の文脈構造においては、「参照型」の共範時標識
記号[※]を持つ部分構造が文■であることから、この
文■を入力文章中から削除し、その木構造を第5図(b
)に示すように修正変更する。
ツブC)。そしてこの文の数を示す制御値Jが前述した
上限値Iに示される要訳文としての許容文数に達してい
るか否かを判定しくステップd)、この時点でその文数
が上限値1以下となったことが検出された場合には、そ
れらの文を前述した如く文の削除に伴って修正変更され
た木構造(既約文脈構造)に従って繋ぎ合わせ、これを
要訳文として出力する(ステップe)。
上限値Iに示される要訳文としての許容文数に達してい
るか否かを判定しくステップd)、この時点でその文数
が上限値1以下となったことが検出された場合には、そ
れらの文を前述した如く文の削除に伴って修正変更され
た木構造(既約文脈構造)に従って繋ぎ合わせ、これを
要訳文として出力する(ステップe)。
然し乍ら、−船釣には上述した「参照型」 「予定型」
の共範鴫標識記号を持つ部分構造(部分木)の削除処理
だけでは、その文数を上限値I以下に抑えることは不可
能である。
の共範鴫標識記号を持つ部分構造(部分木)の削除処理
だけでは、その文数を上限値I以下に抑えることは不可
能である。
従ってこのような場合には、文章全体の文脈構造を示す
木構造の中から U文 接続関係 文コ なる形式で示されるように2つの文が直接構造化されて
いるような最小単位部分に着目し、その最小単位部分に
ついての既約を行う。この既約は前記規則部5に予め格
納されている文間の接続関係に固有な選択規則に基づい
て行われるもので、例で示されるとき、 (1)接続関係Rkが直列型のとき、その単位全体を文
Mkにて置換する。
木構造の中から U文 接続関係 文コ なる形式で示されるように2つの文が直接構造化されて
いるような最小単位部分に着目し、その最小単位部分に
ついての既約を行う。この既約は前記規則部5に予め格
納されている文間の接続関係に固有な選択規則に基づい
て行われるもので、例で示されるとき、 (1)接続関係Rkが直列型のとき、その単位全体を文
Mkにて置換する。
[Nk 、 Rk 、 Mk コ →
[Mk コ(2)接続関係Rkが言明型のとき、
その単位全体を文Nkにて置換する。
[Mk コ(2)接続関係Rkが言明型のとき、
その単位全体を文Nkにて置換する。
[Nk 、 Rk 、 Mk コ
→ [Nk ](3)接続関係Rkが並列型のと
き、その単位全体を削除する。
→ [Nk ](3)接続関係Rkが並列型のと
き、その単位全体を削除する。
[Nk、Rk、Mkl −[削除]
等の規則に従って行われる。このような既約処理は、文
脈構造を示す木構造の最小単位構造の部分から再帰的に
繰り返し実行される。
脈構造を示す木構造の最小単位構造の部分から再帰的に
繰り返し実行される。
即ち、この既約処理は、先ず文脈構造を示す木構造中か
らその最小単位構造[Nk、Rk、Mklの全てを取り
出しくステップf)、制御パラメータKにその最小単位
構造の総数りをセットする(ステップg)。そして上記
制御パラメータKにより特定される最小単位構造につい
て、その接続関係Rkが「言明型」であるか、「直列型
Jであが「直列型」である場合には、その最小単位構造
[Nk、Rk、Mklを文Mkにて置換する(ステップ
k)。そしてその接続関係Rkが「直列型でも「言明型
」でもない場合には、前述した第3図に示す接続関係か
ら明らかなように、残された「並列型」であることが示
されるので、その最小単位構造[Nk 、 Rk 、
Mk ]全体を削除する(ステップm)。
らその最小単位構造[Nk、Rk、Mklの全てを取り
出しくステップf)、制御パラメータKにその最小単位
構造の総数りをセットする(ステップg)。そして上記
制御パラメータKにより特定される最小単位構造につい
て、その接続関係Rkが「言明型」であるか、「直列型
Jであが「直列型」である場合には、その最小単位構造
[Nk、Rk、Mklを文Mkにて置換する(ステップ
k)。そしてその接続関係Rkが「直列型でも「言明型
」でもない場合には、前述した第3図に示す接続関係か
ら明らかなように、残された「並列型」であることが示
されるので、その最小単位構造[Nk 、 Rk 、
Mk ]全体を削除する(ステップm)。
このような処理を前記制御パラメータKをデクリメント
しながら(ステップn)、その制御パラメータにの値が
零(0)になるまで、つまり前述した如く取り出した全
ての最小単位構造[Nk 。
しながら(ステップn)、その制御パラメータにの値が
零(0)になるまで、つまり前述した如く取り出した全
ての最小単位構造[Nk 。
Rk、Mklのそれぞれに対する処理が完了するまで繰
り返し実行する(ステップ。)。
り返し実行する(ステップ。)。
このような既約処理により第5図(b)に示すような文
脈構造から、「直列型」の接続関係についての規則に従
って文■、■がそれぞれ削除され、その木構造が第5図
(C)に示すように既約される。
脈構造から、「直列型」の接続関係についての規則に従
って文■、■がそれぞれ削除され、その木構造が第5図
(C)に示すように既約される。
そして前述した第2図に示す入力文章は、第6図(a)
に示すように整理される。
に示すように整理される。
下となるか否かを判定しくステップq)、許容文いる場
合には、再度前述した既約処理が実行される。そして第
5図(e)に示す木構造の最小単位構造[Nk、Rk、
Mk]から、「並列型」の接続関係にある文■、■が見
出され、これらの文■。
合には、再度前述した既約処理が実行される。そして第
5図(e)に示す木構造の最小単位構造[Nk、Rk、
Mk]から、「並列型」の接続関係にある文■、■が見
出され、これらの文■。
■をそれぞれ抹消することにより第5図(d)に示すよ
うな木構造が求められ、文章は第6図(b)に示すよう
に整理される。
うな木構造が求められ、文章は第6図(b)に示すよう
に整理される。
また上限値Iとして文数[1]が設定されている場合に
は、更に上記第5図(d)に示すような既約処理結果に
対して再度既約処理が起動される。
は、更に上記第5図(d)に示すような既約処理結果に
対して再度既約処理が起動される。
そして第5図(d)に示す木構造の最小単位構造[Nk
、Rk 、Mkコから、「並列型」の接続関係にある
文■、■が見出され、文■、■をそれぞれ抹消すること
によりその木構造が第5図(e)に示すように修正され
、その文章が第6図(e)に示すように整理される。
、Rk 、Mkコから、「並列型」の接続関係にある
文■、■が見出され、文■、■をそれぞれ抹消すること
によりその木構造が第5図(e)に示すように修正され
、その文章が第6図(e)に示すように整理される。
このようにして上限値■に示される文数以下の文が前記
入力文章中から抽出されたとき、つまり上述した木構造
に示される文脈構造の既約処理によって上限値工以下の
数の文が残されたとき、こ順序の早い左側の文から順に
並べ、これらの文の間に前述した木構造に示される共範
破約標識記号に従い、その記号に対応した接続表現を挿
入しな1がら行われる。
入力文章中から抽出されたとき、つまり上述した木構造
に示される文脈構造の既約処理によって上限値工以下の
数の文が残されたとき、こ順序の早い左側の文から順に
並べ、これらの文の間に前述した木構造に示される共範
破約標識記号に従い、その記号に対応した接続表現を挿
入しな1がら行われる。
一
このようにこの実施例における文脈構造の既約処理は、
要訳文として含むべき接続表現を木構造における共範破
約標識記号として保存しながら実行される。そして最小
単位構造である部分木においてその接続関係から不要で
あると判定される文を削除しながら文脈構造に対する既
約処理が実行される。この結果、要訳文として重要度の
高い文だけを効果的に抽出して要約文を作成することが
でき、またその要訳文に含まれる文の数が変化した場合
であっても、それらの文間の関係を文脈構造として保存
することができるので、常に適切な接続表現を備えた高
品質な要訳文を作成することが可能となる。
要訳文として含むべき接続表現を木構造における共範破
約標識記号として保存しながら実行される。そして最小
単位構造である部分木においてその接続関係から不要で
あると判定される文を削除しながら文脈構造に対する既
約処理が実行される。この結果、要訳文として重要度の
高い文だけを効果的に抽出して要約文を作成することが
でき、またその要訳文に含まれる文の数が変化した場合
であっても、それらの文間の関係を文脈構造として保存
することができるので、常に適切な接続表現を備えた高
品質な要訳文を作成することが可能となる。
尚、入力文章中に同じ文意を持つ文が複数存在する場合
には、次のようにしてその排除が行われる。例えば入力
文章に対する解析処理により、その文脈構造が つて ご ((2−3) −5) なる構造が求められる。ここで文■と文■を結ぶ共範破
約標識記号[−]は「同列」を意味し、同じ文意を持つ
文■、■が並列的に要訳文中に含まれることになる。し
かしこの場合、前述した上限値■が文数[2]であれば
、この既約文脈構造に対して再度既約処理が施されるこ
とになり、文■。
には、次のようにしてその排除が行われる。例えば入力
文章に対する解析処理により、その文脈構造が つて ご ((2−3) −5) なる構造が求められる。ここで文■と文■を結ぶ共範破
約標識記号[−]は「同列」を意味し、同じ文意を持つ
文■、■が並列的に要訳文中に含まれることになる。し
かしこの場合、前述した上限値■が文数[2]であれば
、この既約文脈構造に対して再度既約処理が施されるこ
とになり、文■。
0間の接続関係である「直列型」の規則から文■が抹消
されることになる。従って要約文の長さとして余裕があ
る場合には、上述した並列関係にある同じ文意の文が存
在していても問題はないが、余裕がないような場合には
上限値Iを設定し直すことにより、重複した文の一方を
効果的に削除することができる。従ってこのようにして
既約処理を再帰的に繰り返すことにより、非常に効果的
に適切な表現の高品位な要訳文を簡易に生成することが
可能となる。
されることになる。従って要約文の長さとして余裕があ
る場合には、上述した並列関係にある同じ文意の文が存
在していても問題はないが、余裕がないような場合には
上限値Iを設定し直すことにより、重複した文の一方を
効果的に削除することができる。従ってこのようにして
既約処理を再帰的に繰り返すことにより、非常に効果的
に適切な表現の高品位な要訳文を簡易に生成することが
可能となる。
尚、本発明は上述した実施例に限定されるものではない
。実施例では要訳文としての文数の上限じ−で更に細か
く規定するようにしても良い。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。
。実施例では要訳文としての文数の上限じ−で更に細か
く規定するようにしても良い。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。
一一−[発明の効果]
以上説明したように本発明によれば、指定された要訳文
の文数に応じて入力文章中の重要な文−だ・けをその文
脈構造と共に抽出することができるので、抽出された文
間の接続関係を明確に決定しながら、接続表現の適切な
高品質な要訳文を効率的に生成することができる。しか
もその要約処理を再帰的な処理の繰り返しにより実現す
るので、その処理の繰り返し回数を制限することだけに
よって要訳文の長さを効果的に調節することができる等
の実用上多大なる効果が奏せられる。
の文数に応じて入力文章中の重要な文−だ・けをその文
脈構造と共に抽出することができるので、抽出された文
間の接続関係を明確に決定しながら、接続表現の適切な
高品質な要訳文を効率的に生成することができる。しか
もその要約処理を再帰的な処理の繰り返しにより実現す
るので、その処理の繰り返し回数を制限することだけに
よって要訳文の長さを効果的に調節することができる等
の実用上多大なる効果が奏せられる。
図は本発明の一実施例に係る要訳文生成方式について示
すもので、第1図は実施例方式を適用して構成される自
然言語処理装置の概略的な構成図、第2図は入力文章の
例を示す図、−第3図は文脈解析に用いられる接続表現
と共範破約標識記号■・・・文章入力部、2・・・文脈
構造解析部、3・・・木構造生成部、4・・・接続関係
判断部、5・・・規則部、b・・・接続関係に従う文の
削除処理、e・・・既約文脈構造に従う要訳文生成処理
、f・・・木構造からの単位構造部分の抽出処理、j、
に、m・・・接続関係に従2、う文の削除処理(文脈構
造の既約処理)。
すもので、第1図は実施例方式を適用して構成される自
然言語処理装置の概略的な構成図、第2図は入力文章の
例を示す図、−第3図は文脈解析に用いられる接続表現
と共範破約標識記号■・・・文章入力部、2・・・文脈
構造解析部、3・・・木構造生成部、4・・・接続関係
判断部、5・・・規則部、b・・・接続関係に従う文の
削除処理、e・・・既約文脈構造に従う要訳文生成処理
、f・・・木構造からの単位構造部分の抽出処理、j、
に、m・・・接続関係に従2、う文の削除処理(文脈構
造の既約処理)。
Claims (2)
- (1)自然言語の文章を解析して文章全体の論旨構造を
求める手段と、複数の文間の接続関係を表す共範疇的標
識を用いて前記文章の論旨構造を文を単位として木構造
表現する手段と、共範疇的標識により示される分間の接
続関係に固有な選択規制に基づいて前記木構造で結ばれ
た文の一方または両方を棄却する操作を再帰的に繰り返
す手段と、文の棄却操作がなされた前記木構造に従って
前記文章の要約文を抽出する手段とを具備したことを特
徴とする要約文生成方式。 - (2)木構造に対する文の棄却操作は、その再帰的な繰
り返し回数を制限して行われ、この繰り返し制限回数に
より要約文の長さを調節することを特徴とする請求項(
1)に記載の要約文生成方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2203865A JPH0743728B2 (ja) | 1990-08-02 | 1990-08-02 | 要約文生成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2203865A JPH0743728B2 (ja) | 1990-08-02 | 1990-08-02 | 要約文生成方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0490055A true JPH0490055A (ja) | 1992-03-24 |
| JPH0743728B2 JPH0743728B2 (ja) | 1995-05-15 |
Family
ID=16480986
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2203865A Expired - Lifetime JPH0743728B2 (ja) | 1990-08-02 | 1990-08-02 | 要約文生成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0743728B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0612447A (ja) * | 1992-03-31 | 1994-01-21 | Toshiba Corp | 要約文章作成装置 |
| US6338034B2 (en) | 1997-04-17 | 2002-01-08 | Nec Corporation | Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document |
| WO2007113903A1 (ja) * | 2006-04-04 | 2007-10-11 | Fujitsu Limited | 要約文書作成プログラム、要約文書作成装置、要約文書作成方法及びコンピュータ読み取り可能記録媒体 |
| US7796937B2 (en) | 2002-01-23 | 2010-09-14 | Educational Testing Service | Automated annotation |
| US8452225B2 (en) | 2001-01-23 | 2013-05-28 | Educational Testing Service | Methods for automated essay analysis |
-
1990
- 1990-08-02 JP JP2203865A patent/JPH0743728B2/ja not_active Expired - Lifetime
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0612447A (ja) * | 1992-03-31 | 1994-01-21 | Toshiba Corp | 要約文章作成装置 |
| US6338034B2 (en) | 1997-04-17 | 2002-01-08 | Nec Corporation | Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document |
| US8452225B2 (en) | 2001-01-23 | 2013-05-28 | Educational Testing Service | Methods for automated essay analysis |
| US7796937B2 (en) | 2002-01-23 | 2010-09-14 | Educational Testing Service | Automated annotation |
| US8626054B2 (en) | 2002-01-23 | 2014-01-07 | Educational Testing Service | Automated annotation |
| WO2007113903A1 (ja) * | 2006-04-04 | 2007-10-11 | Fujitsu Limited | 要約文書作成プログラム、要約文書作成装置、要約文書作成方法及びコンピュータ読み取り可能記録媒体 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0743728B2 (ja) | 1995-05-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4730270A (en) | Interactive foreign language translating method and apparatus | |
| US5369577A (en) | Text searching system | |
| US5708829A (en) | Text indexing system | |
| DE69032712T2 (de) | Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung | |
| Karaa | A new stemmer to improve information retrieval | |
| EP0283685B1 (en) | A spelling assistance method for compound words | |
| US20050015240A1 (en) | Machine translation | |
| JPH07244666A (ja) | 自然言語自動翻訳方法及び自然言語自動翻訳装置 | |
| US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
| Theeramunkong et al. | Non-dictionary-based Thai word segmentation using decision trees | |
| CN108491381B (zh) | 一种汉语二分结构的句法分析方法 | |
| JPH0490055A (ja) | 要約文生成方式 | |
| CN110134766A (zh) | 一种面向中医古籍文献的分词方法和装置 | |
| Sakiyama et al. | Automated keyphrase generation for brazilian legal information retrieval | |
| JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
| CN107145555A (zh) | 一种基于分词的模糊语句搜索方法 | |
| CN117909494A (zh) | 一种摘要一致性评估模型训练方法和装置 | |
| JPH06215035A (ja) | テキスト検索装置 | |
| Çilden | Stemming Turkish words using snowball | |
| Markellos et al. | Knowledge discovery in patent databases | |
| JPS61278970A (ja) | 自然言語処理装置における構文解析結果の表示及び校正のための制御方法 | |
| JP2009181524A (ja) | 文書検索システム及び文書検索方法 | |
| US11500867B2 (en) | Identification of multiple foci for topic summaries in a question answering system | |
| JPH07225770A (ja) | データ検索装置 | |
| JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |