JPH0887502A - テキスト用話題構造認識における話題語選択方法と話題構造認識装置 - Google Patents

テキスト用話題構造認識における話題語選択方法と話題構造認識装置

Info

Publication number
JPH0887502A
JPH0887502A JP6223152A JP22315294A JPH0887502A JP H0887502 A JPH0887502 A JP H0887502A JP 6223152 A JP6223152 A JP 6223152A JP 22315294 A JP22315294 A JP 22315294A JP H0887502 A JPH0887502 A JP H0887502A
Authority
JP
Japan
Prior art keywords
topic
word
priority
processing
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6223152A
Other languages
English (en)
Other versions
JP3329353B2 (ja
Inventor
Atsushi Takeshita
敦 竹下
Takashi Inoue
孝史 井上
Tamaki Saito
珠喜 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP22315294A priority Critical patent/JP3329353B2/ja
Publication of JPH0887502A publication Critical patent/JPH0887502A/ja
Application granted granted Critical
Publication of JP3329353B2 publication Critical patent/JP3329353B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 複雑な連体修飾を含むテキストに対しても話
題語を正しく認識でき、的確な話題構造を提供できるよ
うにする。 【構成】 話題語優先順位規則を用いて、話題確立区間
から抽出された各話題語候補に優先順位を付与し(ステ
ップ201)、その後、各話題語に関する連体修飾関係
を検出し(ステップ202)、話題語候補優先順位修正
テーブルにしたがって各話題語候補の優先順位を修正す
る(ステップ203)。優先順位が最も高い話題語候補
をその話題確立区間から抽出される話題語とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語解析における
話題構造認識の方法および装置に関し、特に話題語を選
択する話題語選択方法とこの話題語選択方法が適用され
る話題構造認識装置とに関する。
【0002】
【従来の技術】人間にテキストや対話データを呈示して
「これらテキストないし対話データの中から同じことが
書いてあるブロックと、その『同じこと』を求めよ」と
いう課題を与えると、個人差なく同じ構造を答えるとい
う性質が実験的に確認されている。その実験について
は、例えば『竹下他:「話題構造認識の観点からのヒュ
ーマンコミュニケーションの研究」電子情報通信学会1
993年秋季大会D-62(p.6-64)』に記載されている。人
間によって把握されるこのような構造を「話題構造」と
呼ぶ。話題構造は入れ子構造を形成するので、各話題
は、話題を示す「話題語」と、入れ子の深さを表す「話
題レベル」と、テキストないし対話データの中において
その話題がどの文からどの文まで継続するかという「話
題スコープ」によって表現できる。以下において、話題
構造の解析の対象となるテキストや対話データのことを
言語データと呼ぶ。
【0003】図1は、電気通信政策に関連した内容の言
語データに対する話題構造の一例を示している。言語デ
ータは、第0文から始まって少なくとも第770文まで
続いている。そして、「通信サービス」という話題語を
持つ話題の話題レベルは1であり、その話題スコープは
第0文から第770文までの範囲である。なお、説明を
簡単にするために、以下においては、『「通信サービ
ス」の話題』のように、話題語を用いてその話題を指す
ことにする。
【0004】「通信サービス」の話題の中には、話題レ
ベルが2である「新規サービス」と「従来からのサービ
ス」という話題が存在し、「新規サービス」の話題は第
125文から第431文までの話題スコープを持ち、
「従来からのサービス」の話題は第432文から第77
0文までの話題スコープを持つ。また、「新規サービ
ス」の話題の中には「サービスA」という子話題が、
「従来からのサービス」の話題の中には「サービスB」
という子話題が存在し、それぞれの話題スコープは第3
01文から第431文までと第521文と第770文ま
でである。
【0005】このような話題構造を計算機によって認識
することを話題構造認識と呼ぶ。話題構造を認識するた
めの方法は、これまでにもいくつか提案されている。こ
こでは、『竹下:「話題構造認識を用いた映像検索シス
テム」情報処理学会情報メディア研究会94-IM-15-1』で
述べられている話題構造の認識方法について簡単に説明
する。図2はこの認識方法で使用する話題構造認識装置
の一例の構成を示すブロック図であり、図3はこの認識
方法における話題構造認識処理を示すフローチャートで
あり、図4はこの話題構造認識処理における話題構造認
識前処理以降の処理の流れの一例を示す図である。
【0006】図2に示される従来の話題構造認識装置
は、言語データが入力するデータ入力部701と、各種
の処理を実行する処理部702と、結果を表示する表示
部703と、処理結果や処理途中で必要となるデータを
保持する記憶部704と、話題構造認識処理で使用され
る辞書や規則類を格納する辞書・規則部705によって
構成されている。記憶部704には、前処理後の言語デ
ータを記憶する言語データ記憶部710と、中間の処理
結果や最終的な処理結果を保持する話題構造記憶部71
1とが設けられている。さらに話題構造記憶部711に
は、基板展開記憶部712と意味的展開記憶部713と
統合話題記憶部714が設けられている。一方、辞書・
規則部705には、前処理用辞書721と意味的展開処
理規則722と基板展開処理規則723と統合処理規則
724とが設けられている。
【0007】この話題構造認識装置を用いて話題構造認
識処理を行なう場合、まず、図3に示すように、入力さ
れた言語データ730に対する話題構造認識前処理74
0を行なう。この話題構造認識前処理740の第1ステ
ップは、入力した言語データ730に対する形態素解析
処理741である。形態素解析処理741では、入力さ
れた言語データ730の文字列を単語ごとに区切って単
語列とし、さらに各単語の品詞や活用語の活用形等を同
定する。続いて、前処理740の第2ステップとして、
形態素解析の結果を入力として、単文区切り処理742
を行なう。単文区切り処理742は、埋め込み文や重文
のように複数の述語を含む文を、1つの述語のみを含む
単文に分割する処理である。前処理740の第3ステッ
プとして、顕著名詞句抽出743を実行する。顕著名詞
句抽出743は、単文区切り処理742の結果を入力と
して、各単文において最も強調されている名詞句を抽出
する処理である。これら、話題構造認識前処理740に
属する各処理は、辞書・規則部705内にある前処理用
辞書721を用いて、処理部702によって実行され、
その結果は、記憶部704内の言語データ記憶部710
に格納される。
【0008】話題構造認識前処理740が完了したら、
話題の展開の処理を基板展開処理750と意味的展開処
理760とに分離して実行する。ここで基盤展開とは、
「まず」や「次に」のような手掛かり句や章立て、箇条
書きなどによって明示的に示された話題展開のことであ
り、意味的展開とは、基盤展開の各話題の中で、明示的
ではない形で提示、進行する話題の展開のことである。
【0009】まず、図3に示されるように、基板展開処
理750において、話題確立区間の決定751、話題語
の決定752、話題スコープと話題レベルの決定753
という3つの処理を順次行なう。ここで話題確立区間と
は、話題が提示、確立される区間のことである。話題語
の決定752では、各話題確立区間における顕著名詞句
を話題語候補とし、これら話題語候補の中で優先順位が
最も高いものを選んで話題語とする。話題スコープと話
題レベルの決定753では、箇条書き等の構造に基づい
て、処理が行なわれる。基盤展開処理750は、辞書・
規則部705内の基盤展開処理規則723を用いて処理
部702で実行され、その結果は記憶部704の中の話
題構造記憶部711内に含まれる基盤展開記憶部712
に格納される。
【0010】このような基板展開処理750における処
理の具体例が図4に示されている。まず、言語データ
(テキスト)の開始時点と(1),(2)で番号付けされた箇
条書きの各項目とを基盤展開の話題確立区間として決定
している。そして、話題語の決定752では、最初の話
題確立区間からは「通信サービス」が、2番目の話題確
立区間からは「新規サービス」が、3番目の話題確立区
間からは「従来からのサービス」が、それぞれ、話題語
として選ばれている。
【0011】基盤展開処理750の実行後、意味的展開
処理760が実行される。意味的展開処理760は、基
盤展開処理750と同様に、話題確立区間の決定76
1、話題語の決定762、話題スコープと話題レベルの
決定763という3つの処理によって構成される。この
意味的展開処理760は、辞書・規則部705内の意味
的展開処理規則722を用いるとともに基盤展開処理7
50の結果も利用して処理部702で実行され、その結
果は記憶部704の中の話題構造記憶部711に含まれ
る意味的展開記憶部713に格納される。
【0012】図4に示した例では、話題確立区間とし
て、ある程度以上長い段落が選択され、それらにおける
話題語として、「サービスA」と「サービスB」が選ば
れている。話題スコープとしては、上述した話題確立区
間の開始点から基盤展開における次の話題確立区間の開
始点までが求められている。話題レベルは、テキストの
意味的展開の場合には、全て同じレベルすなわちレベル
1とされる。
【0013】最後に、基盤展開と意味的展開の統合処理
770が行なわれ、その結果として、言語データ全体の
話題構造780が出力される。この統合処理770は、
基盤展開処理750と意味的展開処理760のそれぞれ
の話題構造を入力とし、辞書・規則部705内の統合処
理規則724を用いて、処理部702によって実行され
る。図4に示した例では、統合処理の結果として、図1
に示したのと同様の話題構造780が得られている。
【0014】基盤展開と意味的展開のそれぞれにおい
て、話題確立区間や話題語、話題スコープ、話題レベル
を決定するための規則(意味的展開処理規則722や基
盤展開処理規則723)は、言語データが対話、モノロ
ーグ、書き言葉テキストなどのどの伝達形態によるもの
であるかによって異なる。伝達形態による話題展開様式
や話題構造認識規則の違いと、話題構造認識実験の結果
については、『竹下他:「話題構造認識の観点からのヒ
ューマンコミュニケーションの研究」電子情報通信学会
1993年秋季大会D-62(p.6-64)』に記載がある。
【0015】
【発明が解決しようとする課題】しかしながら、上述し
た従来の話題構造認識方法では、複雑な連体修飾を含む
ような書き言葉テキストに対しては話題語を正しく認識
することが難しく、また、長い話題スコープを持つ話題
の話題語の周りでは複雑な連体修飾が出現することが多
いため、長い話題スコープを持つ話題の話題語の認識が
困難であった。このため、例えば、認識した話題構造を
人間のための章立て・目次構造として利用する場合、章
立ての大きな項目を間違えているために、全体の概要を
把握しにくいという問題点がある。
【0016】複雑な連体修飾を含むテキストとして、例
えば、新聞報道に現れるようなものがある。図5はこの
ようなテキストの一例を示している。図5では、文ごと
に、[s0],[s1]のような文番号を付与してある。このテ
キストの主題は明らかに「カンボジアの総選挙」であ
る。このテキストに対し人間が認識した話題構造の例が
図6(a)に示され、従来の話題構造認識方法によって得
られた話題構造が図6(b)に示されている。人間による
話題構造を目次として扱えば、図5に示す元のテキスト
で述べられている項目を推定することができる。これに
対し、従来の話題構造認識方法による話題構造では、特
に一番大きな話題「UNTACの協力」が不適切である
ために、そもそも何について記述されているかが分かり
にくく、元のテキストの内容を推定することは困難であ
る。
【0017】本発明の目的は、複雑な連体修飾を含むテ
キストに対しても話題語を正しく認識でき、的確な話題
構造を提供できる方法および装置を提供することにあ
る。
【0018】
【課題を解決するための手段】本発明の話題語選択方法
は、予め準備された規則を用いて言語データの話題構造
を認識する話題構造認識処理における話題語の決定方法
において、前記言語データから抽出された話題語候補に
対して話題語候補優先順位規則にしたがって優先順位を
付与し、予め与えられた修正条件と修正内容との組に応
じ、前記修正条件が成立する場合には対応する修正内容
に応じて前記話題語候補の優先順位を修正し、複数の話
題語候補に付与されている優先順位を比較することによ
り話題語を決定する。
【0019】本発明の話題構造認識装置は、言語データ
を入力するための入力部と、話題構造認識のための規則
類を蓄える辞書・規則部と、該辞書・記憶部の規則類を
用いた処理を行なう処理部と、前記処理部による結果を
蓄える記憶部と、前記処理部による処理結果を表示する
表示部とを有し、前記辞書・規則部が、話題語候補に対
して優先順位を付与するための話題語候補優先順位規則
と、前記優先順位を修正するための修正条件と修正内容
の組を記述した話題語候補優先順位修正テーブルとを含
み、前記記憶部が、入力部から入力された言語データに
関する情報を蓄える言語データ記憶部と、話題構造に関
する情報を蓄える話題構造記憶部とを含み、前記言語デ
ータ記憶部が、前記言語データに含まれる各単語の文字
列と品詞に関する情報を格納する単語情報テーブルと、
前記言語データの各単文に含まれる単語と顕著名詞句と
顕著名詞句のタイプに関する情報を格納する単文情報テ
ーブルとを含み、話題構造記憶部が、話題が提示、確立
される範囲である話題確立区間と話題語と話題レベルと
話題スコープとを含む情報を格納するテーブルを含む。
【0020】
【作用】話題語候補を求めて各話題語候補に優先順位を
付与した後、所定の条件が成立している場合には優先順
位を修正し、優先順位に応じて話題語を決定するように
なっているので、より的確に話題語を選択できる。具体
的には、話題語候補が他の単文に連体修飾されていない
かなどの連体修飾関係を求め、その連体修飾関係に応じ
て話題語候補の優先順位を修正することにより、複雑な
連体修飾を含むテキストの話題語を正しく認識すること
が可能になる。特に、長い話題区間を持った話題の話題
語を正しく認識することが可能となる。
【0021】
【実施例】次に本発明の実施例について、図面を参照し
て説明する。図7は本発明の一実施例の話題構造認識装
置の構成を示すブロック図である。この話題構造認識装
置は、図2に示す従来の話題構造認識装置と比べ、特
に、辞書・規則部105に含まれる辞書・テーブル類の
構成において異なっている。すなわち、本実施例の話題
構造認識装置には、言語データが入力するデータ入力部
101と、各種の処理を実行する処理部102と、結果
を表示する表示部103と、処理結果や処理途中で必要
となるデータを保持する記憶部104と、話題構造認識
処理で使用される辞書や規則類を格納する辞書・規則部
105によって構成されている。記憶部104には、前
処理後の言語データを記憶する言語データ記憶部110
と、中間の処理結果や最終的な処理結果を保持する話題
構造記憶部111とが設けられている。言語データ記憶
部110には単文情報テーブル115と単語情報テーブ
ル116が設けられており、話題構造記憶部111に
は、基板展開記憶部112と意味的展開記憶部113と
統合話題記憶部114が設けられている。一方、辞書・
規則部105には、前処理用辞書121と意味的展開処
理規則122と基板展開処理規則123と統合処理規則
124と話題語候補優先順位規則125と疑問表現辞書
126と話題語候補優先順位修正テーブル127とが設
けられている。話題語候補優先順位修正テーブル127
には、話題語候補が他の単文によって連体修飾されてい
るかという連体修飾関係と話題語候補優先順位への変更
の対が、前もって記述されている。
【0022】この話題構造認識装置を用いて言語データ
の話題構造の解析を行なう場合、その処理は図3に示し
た従来の処理の流れと同様に処理が行なわれるが、話題
語の決定方法において相違する。この話題構造認識装置
を使用する場合には、話題語候補優先順位規則125を
参照して顕著名詞句に対して話題語候補としての優先順
位を付与した後に、その話題語候補が他の単文に連体修
飾されていないかなどの連体修飾関係を求めてその結果
に応じて優先順位を修正することにより、話題語が決定
される。以下、話題語の決定方法の中心にして、本実施
例の話題構造認識装置による話題構造の解析手順を説明
する。
【0023】[言語データ記憶部と基盤展開記憶部と意
味的展開記憶部]本実施例の話題構造認識装置による話
題構造の解析は、話題語の決定を行なうまでは、上述の
図3に示した手順と同様に進行する。そして、話題構造
認識前処理と基盤展開処理と意味的展開処理の結果は、
それぞれ、言語データ記憶部110と基盤展開記憶部1
12と意味的展開記憶部113に保存されている。基盤
展開処理の全てと、意味的展開処理の話題確立区間の決
定とが終了した時点におけるこれらの各記憶部110,
112,113の状態が、図8に示されている。
【0024】上述したように言語データ記憶部110に
は、単文情報テーブル115と単文情報テーブル116
が含まれている。単語情報テーブル116には、テキス
トでの単語の出現順を示す単語番号のフィールドと、形
態素解析結果としての単語の文字列を記述するフィール
ドと、その文字列の品詞等の情報を記述するためのフィ
ールドとが設けられている。図8の例では、認識対象の
テキストの最初の単語はサ変名詞(「する」と結び付い
てサ行変格動詞となり得る名詞)の「通信」である。
【0025】一方、単文情報テーブル115には、テキ
スト中での単文の出現順を単文番号として記述するフィ
ールドと、その単文の開始と終了の単語番号を記述する
ための単語範囲フィールドと、その単文に含まれている
顕著名詞句を記述するためのフィールドと、その顕著名
詞句のタイプを記述するためのフィールドと、その単文
に含まれている疑問表現を記述するためのフィールド
と、前述の顕著名詞句が基盤展開か意味的展開での話題
語候補となったときにその優先順位を記述するためのフ
ィールドが含まれる。図8の例では、最初の単文は単語
番号0から8までの範囲であって、その単文に含まれる
顕著名詞句は単語番号0、すなわち「通信」であり、そ
れは明示タイプの顕著名詞句である。顕著名詞句が複数
の単語から構成される場合は、0,1のように複数の単
語番号を指定する。最初の単文の疑問表現のフィールド
の値は"−1"となっているが、これは疑問表現がないこ
とを意味する。もし、辞書・規則部105に含まれる疑
問表現辞書126に記述されている疑問表現が単文内に
検出されれば、その疑問表現番号を単文情報テーブル1
15の疑問表現フィールドに記述する。例えば、「問い
かける」という疑問表現が検出されれば、その疑問表現
番号0をその単文に対応するレコードの疑問表現フィー
ルドに記述する。また最初の単文の話題候補優先順位は
2となっているが、これがどの話題確立区間における話
題候補かということについては後述する。
【0026】基盤展開記憶部112には、話題番号ごと
に、話題が提示・確立される話題確立区間の開始と終了
をそれぞれ示す単文番号を記述するフィールド(話題確
立区間フィールド)と、話題語を記述するフィールド
と、話題レベルを記述するフィールドと、話題スコープ
をその開始および終了の単語番号で記述するフィールド
とが含まれる。また、意味的展開記憶部113にも、基
盤展開記憶部112と同様のフィールドが含まれる。図
8の例では、基盤展開記憶部112において、最初の話
題の話題確立区間は単文番号0から10までの範囲であ
り、その話題語は単語番号0、すなわち「通信」となっ
ている。ここで、複数の単語から話題語が構成される場
合には、0,1のように複数の単語番号を指定するもの
とする。また、この話題の話題レベルは1であり、話題
スコープは単文番号0から3029までの範囲である。
【0027】[話題語の決定処理の全体の流れ]基盤展
開と意味的展開における各話題確立区間に含まれている
顕著名詞句を話題語候補とする。各話題確立区間におい
て、話題語候補から話題語を選択する処理の流れを図9
のフローチャートに示す。基盤展開と意味的展開とで
は、話題語を選択するために用いる規則が実際には異な
るが、処理の流れは両方とも図9のようになる。まず、
各話題語候補に対して話題語候補優先順位規則125に
基づき、話題語候補としての優先順位を付与する(ステ
ップ201)。そして、その話題語候補に関する連体修
飾関係を検出し(ステップ202)、話題語候補優先順
位修正テーブル127にしたがって各話題語候補の優先
順位を修正し(ステップ203)、優先順位の高いもの
をもって話題語と決定し、処理を終了する。
【0028】基盤展開における話題語の決定の場合、基
盤展開での各話題確立区間に含まれている顕著名詞句を
その話題確立区間における話題語候補とし、基盤展開用
の話題候補優先順位にしたがって優先順位を付与し、話
題語優先順位修正テーブルを用い話題語候補の連体修飾
関係に応じて各話題語候補の優先順位を修正し、各話題
確立区間における話題語候補から、最も優先順位が最も
高いものを選び、選ばれた候補が1つしかない場合はそ
の候補を話題語とし、選ばれた候補が複数ある場合は、
その話題確立区間が箇条書き全体の話題を確立するため
の簡条書き全体タイプであれば時間的に最も遅く出現し
た候補を、それ以外の章立てタイプであれば時間的に最
も早く出現した候補を、基盤展開での話題語として選
ぶ。
【0029】また、意味的展開での話題語決定の場合、
意味的展開での各話題確立区間に含まれている顕著名詞
句を各話題確立区間における話題語候補とし、意味的展
開用の話題候補優先順位にしたがって各候補に優先順位
を付与し、上述と同様に話題語候補優先順位修正テーブ
ルを用いて各話題話候補の優先順位を修正し、各話題確
立区間における話題語候補から、最も優先順位が最も高
いものを選び、選ばれた候補が1つしかない場合はその
候補を話題語とし、選ばれた候補が複数ある場合は、時
間的に最も早く出現した候補を意味的展開での話題語と
する。
【0030】[話題候補優先順位規則による優先順位の
付与]ここで話題語候補優先順位規則125による優先
順位の付与を説明する。図10は基盤展開において使用
される話題語候補優先順位規則を示し、図11は意味的
展開において使用される話題語候補優先順位規則を示し
ている。図8に示した例にこれらに話題語候補優先順位
規則を適用した場合を説明する。意味的展開記憶部11
3に記録されている最初の話題(話題番号0)の話題確
立区間は単文番号80から83の範囲であるので、単文
情報テーブル115上のその範囲の単文中の顕著名詞句
が話題候補となる。単文番号80と81のそれぞれの単
文に含まれる顕著名詞句は、単文情報テーブル115に
よると非明示タイプであるが、単語情報テーブル116
によるといずれの顕著名詞句も固有名詞を含んでいるの
で、図11の優先順位規則により、優先順位は2とな
る。一方、単文番号82と83の単文はともに顕著名詞
句を持たないので、話題語候補優先順位も持たない。こ
の意味的展開の最初の話題確立区間について、上述のよ
うにして話題語候補優先順位を付与した後の、単文情報
テーブル115の状態を図12に示す。単文番号82と
83については、優先順位を持たないので、−1という
値を話題語候補優先順位フィールドに記録している。
【0031】[連体修飾関係の検出]図9のフローチャ
ートに示されるように、話題語候補優先順位の付与を行
なった後、話題語候補に関する連体修飾関係を検出す
る。ここで連体修飾とは、名詞に対する修飾のことであ
り、例えば「彼が持ってきたカメラ」という名詞句にお
いて、「彼が持ってきた」という単文が「カメラ」とい
う名詞を修飾している。連体修飾関係を検出するための
処理の一例を図13のフローチャートを用いて説明す
る。連体修飾関係検出の処理は各話題語候補に対して行
なわれる。
【0032】まず話題語候補の中で最も後ろの単語をA
とし、元のテキストにおいてAの直前の単語をBとする
(ステップ211)。Bが現在の話題語候補に含まれて
いるかどうかが判断され(ステップ212)、話題語候
補に含まれている場合にはステップ215に移行し、話
題語候補に含まれていない場合には、Bが活用語の連体
形であるかどうかが判断される(ステップ213)。ス
テップ213で連体形でない場合にはステップ215に
進み、連体形である場合には、Bを含む単文は話題語候
補Aを連体修飾しているとものとし(ステップ21
4)、ステップ215に進む。すなわち、話題語候補の
中の最後の単語Aに対してその直前の単語Bがその話題
語候補に含まれておらず、かつ単語Bが動詞や形容詞の
ように語尾が変化する活用語の連体形であれば、Bを含
む単文は話題語候補を連体修飾しているものと見なして
いる。
【0033】ステップ215では、単語Aがその話題語
候補の中で最も前の位置にあるかどうかが調べられ、最
も前の位置にある単語であれば処理を終了し、そうでな
ければ、話題語候補中でAの前の単語をあらためてAと
し、元のテキストにおいてその更新後のAの直前にある
単語をBとし(ステップ216)、そののちステップ2
12に戻ってBが話題語候補に含まれているかどうかの
処理から再度実行する。
【0034】図8に示した例で考える。単文番号80の
単文に含まれている顕著名詞句の話題語候補は単語番号
1059の単語だけであるので、単語番号1059の単
語をAとし、単語番号1058の単語をBとする。単語
Bは話題語候補に含まれていないが活用語ではないの
で、連体修飾関係は検出されない。また、Aは話題語候
補中で最も前の単語であるので、この話題語候補に対す
る連体修飾関係検出の処理はこれで終了する。
【0035】次に単文番号81の単文に含まれている顕
著名詞句の話題語候補について調べる。この話題語候補
は単語番号が1063と1064の2つの単語から構成
されるので、まず、単語番号1064の単語をAとし
て、単語番号1063の単語をBとする。すると、単語
Bは話題語候補に含まれるので、この時点では連体修飾
関係は検出されない。このとき、Aは話題語候補中で最
も前の単語ではないので、次に新たに単語番号1063
の単語をAとし、単語番号1062の単語Bとする。す
ると、Bは話題語候補には含まれず、かつBは活用語の
連体形であるので、Bを含む単文80は現在の話題語候
補を連体修飾していると判断される。この時点ではAは
話題語候補中で最も前の単語であるので、ここで処理を
終了する。
【0036】[優先順位の修正と話題語の選択]図9の
フローチャートに示されるように、連体修飾関係の検出
を行なった後に、話題語候補優先順位修正テーブル12
7にしたがって各話題語候補の優先順位を修正する。図
14は話題語候補優先順位修正テーブル127の構成例
を示している。この例では、他の単文によって連体修飾
されている話題語候補の優先順位を0.5に修正するこ
とにより、優先順位を高めている。これ以外にも、話題
語候補優先順位修正テーブルによる優先順位の修正方法
として、解析対象のテキスト・データの性質に応じて、
例えば、他の話題語候補を連体修飾している単文に含ま
れる話題語候補の優先順位を操作することも考えられ
る。また、修正後の優先順位として0.5のような絶対
値を与えるのではなく、−0.5のようにそれまでの値
への加減値を与えた方がよい場合もあるので、テキスト
の性質に応じて修正方法を適宜選択する。
【0037】図8に示した例では、単文番号81の単文
に含まれる顕著名詞句の話題語候補は、他の単文80に
よって連体修飾されているので、図14に示した話題語
候補優先順位修正テーブルにしたがって、その優先順位
が0.5に修正される。優先順位の修正後の単文情報テ
ーブル115の状態が図15に示されている。
【0038】連体修飾関係に基づく優先順位の修正を行
なう前の単文情報テーブル115(図12参照)に基づ
いて話題語を選択すると、単文番号80と81の単文の
話題語候補がともに優先順位が2であるので、時間的に
早く出現している単文番号80の単文の方に含まれる話
題語候補が話題語として選ばれる。すなわち、単語番号
1059の単語「P社」が話題語として選ばれる。これ
に対して、上述したように連体修飾関係に応じて優先順
位を修正した後の単文情報テーブル115(図15参
照)に基づいて話題語を選択すると、単文番号81の単
文の話題語候補の優先順位が0.5と最も高いので、単
語番号1063,1064の単語からなる「製品Q」が
話題語として選ばれる。
【0039】本実施例の方法を用いて図5のテキスト例
に対して話題構造認識を行なった結果の例を図16に示
す。従来の方法を用いた結果を表わす図6(b)と比較す
ると、本実施例の方法による結果によれば、元のテキス
トの内容を容易に推定することが可能であることが分か
る。
【0040】[話題構造認識評価実験の結果]次に、上
述した本実施例の話題語選択方法を組み込んだ話題構造
認識システムと、この方法を組み込まないシステムとを
用いて、実際のテキスト・データの話題構造を認識した
結果について説明する。実験では、全部で63件の新聞
記事をテキスト・データとして使用した。そして、これ
らのテキスト・データに対して人間が認識した話題構造
と計算機が認識した話題構造とを比較して再現率と適合
率とを算出し、本実施例によるシステムと本実施例によ
らないシステム(従来のシステム)の双方を評価した。
ここで、再現率とは、人間が認識した話題構造のうち、
どれだけが計算機によっても認識されているかを示す尺
度であり、適合率とは、計算機が認識した話題構造のう
ち、どれだけが人間によっても認識されているかを示す
尺度である。もし、人間と計算機がそれぞれ認識した話
題構造が一致すれば、再現率、適合率とも100%とな
る。適合率と再現率は、話題確立区間、話題語、話題ス
コープに対してそれぞれ求めた。話題スコープに関する
適合率、再現率とは、話題語が正しいものについて、話
題スコープの長さを重み付けして評価したものであり、
例えば、長い話題スコープを持つ大きな話題が正しく認
識されていれば、適合率、再現率はよくなり、逆に短い
話題スコープを持つ小さな話題を誤認識してもそれほど
適合率、再現率は悪くならない。結果を表1に示す。
【0041】
【表1】 表1から明らかなように、本発明にしたがって連体修飾
関係を考慮することによって、連体修飾関係を考慮しな
い従来の方法に比べ、話題スコープについて、適合率と
再現率がともに向上する。これにより、本発明を用いる
ことにより、より大きな話題スコープを持つ話題語を正
しく認識できることが確認された。
【0042】
【発明の効果】以上説明したように本発明は、話題語候
補に対して優先順位を付与した後に話題語候補優先順位
修正テーブルによって優先順位を修正することにより、
正しく話題語を決定できるようになる。特に、連体修飾
関係に基づいて優先順位を修正することにより、複雑な
連体修飾を含む書き言葉テキストの話題語を正しく認識
できるようになるという効果がある。特に長い話題スコ
ープを持った話題に関して特に有効である。大きな話題
構造が正しく認識されるので、章立て・目次構造として
利用する場合に、ユーザにとって分かりやすいものとな
る。
【図面の簡単な説明】
【図1】人間による話題構造認識の例である。
【図2】従来の話題構造認識装置の一例の構造を示すブ
ロック図である。
【図3】従来の話題構造認識のための処理を示すフロー
チャートである。
【図4】従来の話題構造認識における前処理以降の例で
ある。
【図5】テキストの一例を示す図である。
【図6】(a)は図5に示すテキストに対して人間によっ
て認識された話題構造の例を示す図、(b)は図5に示す
テキストに対して従来の話題構造認識方法を適用して話
題構造を抽出した結果を示す図である。
【図7】本発明の一実施例の話題構造認識装置の構成を
示すブロック図である。
【図8】各テーブル、各記憶部間の関係を示す図であ
る。
【図9】図7の装置を利用して行なう話題語決定のため
の処理を示すフローチャートである。
【図10】基盤展開用の話題候補優先順位規則の一例を
示す図である。
【図11】意味的展開用の話題候補優先順位規則の一例
を示す図である。
【図12】図11の意味的展開の話題候補優先順位規則
にしたがい各話題候補に優先順位を付与した時点での単
文情報テーブルの状態を示す図である。
【図13】連体修飾検出のための処理を示すフローチャ
ートである。
【図14】話題候補優先順位修正テーブルの構成例を示
すである。
【図15】話題候補優先順位の修正後の単文情報テーブ
ルの状態を示す図である。
【図16】図5のテキスト例に対して本発明の方法を適
用した場合の結果の例を示す図である。
【符号の説明】
101 データ入力部 102 処理部 103 表示部 104 記憶部 105 辞書・規則部 110 言語データ記憶部 111 話題構造記憶部 112 基盤展開記憶部 113 意味的展開記憶部 114 統合話題記憶部 115 単文情報テーブル 116 単語情報テーブル 121 前処理用辞書 122 意味的展開処理規則 123 基盤展開処理規則 124 統合処理規則 125 話題語候補優先順位規則 126 疑問表現辞書 127 話題語候補優先順位修正テーブル 201〜203,211〜216 ステップ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 予め準備された規則を用いて言語データ
    の話題構造を認識する話題構造認識処理における話題語
    の決定方法において、 前記言語データから抽出された話題語候補に対して話題
    語候補優先順位規則にしたがって優先順位を付与し、 予め与えられた修正条件と修正内容との組に応じ、前記
    修正条件が成立する場合には対応する修正内容に応じて
    前記話題語候補の優先順位を修正し、 複数の話題語候補に付与されている優先順位を比較する
    ことにより話題語を決定することを特徴とする話題語選
    択方法。
  2. 【請求項2】 前記話題構造認識処理が、 述語を1つだけ持つ単位である単文に前記言語データを
    分割し、前記各単文ごとに当該単文で最も強調されてい
    る名詞句である顕著名詞句を抽出し、該顕著名詞句のタ
    イプを同定することを含む話題構造認識前処理を行な
    い、 その後、明示的に示される基盤展開と該基盤展開の中で
    展開する意味的展開とに話題の展開を分離し、 それぞれ基盤展開処理規則と意味的展開処理規則とを用
    いて、前記基盤展開について、話題が提示・確立される
    話題確立区間の決定と、該話題確立区間における話題語
    の決定と、話題の入れ子を表す話題レベルと話題スコー
    プの決定を順次行ない、次に、前記意味的展開につい
    て、話題確立区間の決定、話題語の決定、話題スコープ
    と話題レベルの決定を順次行ない、 その後、統合処理規則を用いて、基盤展開と意味的展開
    のそれぞれの処理結果に対して統合する処理を行なう処
    理である請求項1に記載の話題語選択方法。
  3. 【請求項3】 前記修正条件と修正内容の組に、話題語
    候補に対する連体修飾関係に応じた優先順位の修正が内
    容として含まれる請求項1に記載の話題語選択方法。
  4. 【請求項4】 前記修正条件と修正内容の組に、連体修
    飾されているような話題語候補に対して優先順位を上げ
    るという内容が含まれる請求項3に記載の話題語選択方
    法。
  5. 【請求項5】 言語データを入力するための入力部と、
    話題構造認識のための規則類を蓄える辞書・規則部と、
    該辞書・記憶部の規則類を用いた処理を行なう処理部
    と、前記処理部による結果を蓄える記憶部と、前記処理
    部による処理結果を表示する表示部とを有し、 前記辞書・規則部が、話題語候補に対して優先順位を付
    与するための話題語候補優先順位規則と、前記優先順位
    を修正するための修正条件と修正内容の組を記述した話
    題語候補優先順位修正テーブルとを含み、 前記記憶部が、入力部から入力された言語データに関す
    る情報を蓄える言語データ記憶部と、話題構造に関する
    情報を蓄える話題構造記憶部とを含み、 前記言語データ記憶部が、前記言語データに含まれる各
    単語の文字列と品詞に関する情報を格納する単語情報テ
    ーブルと、前記言語データの各単文に含まれる単語と顕
    著名詞句と顕著名詞句のタイプに関する情報を格納する
    単文情報テーブルとを含み、 話題構造記憶部が、話題が提示、確立される範囲である
    話題確立区間と話題語と話題レベルと話題スコープとを
    含む情報を格納するテーブルを含む、 ことを特徴とする話題構造認識装置。
  6. 【請求項6】 前記辞書・規則部が、前記言語データを
    単文に分割し、前記各単文から顕著名詞句を抽出し、該
    顕著名詞句のタイプを同定することを含む話題構造認識
    前処理のための前処理用辞書と、基盤展開に対する処理
    を行なうための基盤展開処理規則と、意味的展開に対す
    る処理を行なうための意味的展開処理規則と、基盤展開
    と意味的展開を統合するための統合処理規則とを含み、 前記話題構造記憶部が、基盤展開に関する情報を蓄える
    基盤展開記憶部と、意味的展開に関する情報を蓄える意
    味的展開記憶部と、基盤展開と意味的展開の統合後の情
    報を蓄える統合話題記憶部とを含み、 意味的展開記憶部と基盤展開記憶部のそれぞれが、話題
    が提示、確立される範囲である話題確立区間と、話題語
    と、話題レベルと、話題スコープとを含む情報を格納す
    るテーブルを含む、請求項5に記載の話題構造認識装
    置。
  7. 【請求項7】 前記話題語候補優先順位修正テーブルの
    修正条件として話題語候補に対する連体修飾関係が含ま
    れる請求項5に記載の話題構造認識装置。
  8. 【請求項8】 前記話題語候補優先順位修正テーブルの
    修正条件と修正内容の組には、話題語候補が他の単文に
    よって連体修飾されているという修正条件と優先順位を
    高くするという修正内容との組が含まれる請求項7に記
    載の話題構造認識装置。
JP22315294A 1994-09-19 1994-09-19 テキスト用話題構造認識における話題語選択方法と話題構造認識装置 Expired - Lifetime JP3329353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22315294A JP3329353B2 (ja) 1994-09-19 1994-09-19 テキスト用話題構造認識における話題語選択方法と話題構造認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22315294A JP3329353B2 (ja) 1994-09-19 1994-09-19 テキスト用話題構造認識における話題語選択方法と話題構造認識装置

Publications (2)

Publication Number Publication Date
JPH0887502A true JPH0887502A (ja) 1996-04-02
JP3329353B2 JP3329353B2 (ja) 2002-09-30

Family

ID=16793611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22315294A Expired - Lifetime JP3329353B2 (ja) 1994-09-19 1994-09-19 テキスト用話題構造認識における話題語選択方法と話題構造認識装置

Country Status (1)

Country Link
JP (1) JP3329353B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04332084A (ja) * 1991-05-07 1992-11-19 Nippon Telegr & Teleph Corp <Ntt> 自動情報提供方法
JPH06139276A (ja) * 1992-10-29 1994-05-20 Nippon Telegr & Teleph Corp <Ntt> 話題認識方法
JPH06236410A (ja) * 1991-11-12 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 自動情報提供方法
JPH07160711A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 書き言葉テキストに対する話題構造認識方法および装置
JPH07160710A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> モノローグ・データに対する話題構造認識方法および装置
JPH07160712A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 話題構造認識方法および装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04332084A (ja) * 1991-05-07 1992-11-19 Nippon Telegr & Teleph Corp <Ntt> 自動情報提供方法
JPH06236410A (ja) * 1991-11-12 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 自動情報提供方法
JPH06139276A (ja) * 1992-10-29 1994-05-20 Nippon Telegr & Teleph Corp <Ntt> 話題認識方法
JPH07160711A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 書き言葉テキストに対する話題構造認識方法および装置
JPH07160710A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> モノローグ・データに対する話題構造認識方法および装置
JPH07160712A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 話題構造認識方法および装置

Also Published As

Publication number Publication date
JP3329353B2 (ja) 2002-09-30

Similar Documents

Publication Publication Date Title
US8364470B2 (en) Text analysis method for finding acronyms
JP2795719B2 (ja) 認識距離の差に基づく最良優先探索処理方法
JPWO2007099812A1 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
CN117708309A (zh) 检索问答方法、系统、设备及介质
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
CN103365925A (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JP2005222294A (ja) 文章の感情認識装置及び文章の感情認識方法ならびにそのプログラム
JP4724051B2 (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP2960936B2 (ja) 係り受け解析装置
JPH0887502A (ja) テキスト用話題構造認識における話題語選択方法と話題構造認識装置
CN112560500A (zh) 文本处理方法、装置、设备及存储介质
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP3333952B2 (ja) 話題構造認識方法及び装置
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP3447127B2 (ja) 機械翻訳装置
JP3161660B2 (ja) キーワード検索方法
KR100657016B1 (ko) 문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과,증거소스 결합을 통한 질의 검색방법
JP3072955B2 (ja) 重複話題語を考慮した話題構造認識方法と装置
JPH0887501A (ja) 話題構造認識における話題レベル制御方法および話題構造認識装置
JPH03123971A (ja) 索引付け支援装置
JPH0251772A (ja) 品詞のあいまい性除去装置
JPS6368972A (ja) 未登録語処理方式
JP3943148B2 (ja) 自然語解析方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070719

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090719

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090719

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100719

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100719

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110719

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120719

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130719

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term