JPH0887502A

JPH0887502A - テキスト用話題構造認識における話題語選択方法と話題構造認識装置

Info

Publication number: JPH0887502A
Application number: JP6223152A
Authority: JP
Inventors: Atsushi Takeshita; 敦竹下; Takashi Inoue; 孝史井上; Tamaki Saito; 珠喜斎藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1994-09-19
Filing date: 1994-09-19
Publication date: 1996-04-02
Anticipated expiration: 2017-09-30
Also published as: JP3329353B2

Abstract

(57)【要約】【目的】複雑な連体修飾を含むテキストに対しても話
題語を正しく認識でき、的確な話題構造を提供できるよ
うにする。【構成】話題語優先順位規則を用いて、話題確立区間
から抽出された各話題語候補に優先順位を付与し（ステ
ップ２０１）、その後、各話題語に関する連体修飾関係
を検出し（ステップ２０２）、話題語候補優先順位修正
テーブルにしたがって各話題語候補の優先順位を修正す
る（ステップ２０３）。優先順位が最も高い話題語候補
をその話題確立区間から抽出される話題語とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然言語解析における
話題構造認識の方法および装置に関し、特に話題語を選
択する話題語選択方法とこの話題語選択方法が適用され
る話題構造認識装置とに関する。

【０００２】

【従来の技術】人間にテキストや対話データを呈示して
「これらテキストないし対話データの中から同じことが
書いてあるブロックと、その『同じこと』を求めよ」と
いう課題を与えると、個人差なく同じ構造を答えるとい
う性質が実験的に確認されている。その実験について
は、例えば『竹下他：「話題構造認識の観点からのヒュ
ーマンコミュニケーションの研究」電子情報通信学会１
９９３年秋季大会D-62(p.6-64)』に記載されている。人
間によって把握されるこのような構造を「話題構造」と
呼ぶ。話題構造は入れ子構造を形成するので、各話題
は、話題を示す「話題語」と、入れ子の深さを表す「話
題レベル」と、テキストないし対話データの中において
その話題がどの文からどの文まで継続するかという「話
題スコープ」によって表現できる。以下において、話題
構造の解析の対象となるテキストや対話データのことを
言語データと呼ぶ。

【０００３】図１は、電気通信政策に関連した内容の言
語データに対する話題構造の一例を示している。言語デ
ータは、第０文から始まって少なくとも第７７０文まで
続いている。そして、「通信サービス」という話題語を
持つ話題の話題レベルは１であり、その話題スコープは
第０文から第７７０文までの範囲である。なお、説明を
簡単にするために、以下においては、『「通信サービ
ス」の話題』のように、話題語を用いてその話題を指す
ことにする。

【０００４】「通信サービス」の話題の中には、話題レ
ベルが２である「新規サービス」と「従来からのサービ
ス」という話題が存在し、「新規サービス」の話題は第
１２５文から第４３１文までの話題スコープを持ち、
「従来からのサービス」の話題は第４３２文から第７７
０文までの話題スコープを持つ。また、「新規サービ
ス」の話題の中には「サービスＡ」という子話題が、
「従来からのサービス」の話題の中には「サービスＢ」
という子話題が存在し、それぞれの話題スコープは第３
０１文から第４３１文までと第５２１文と第７７０文ま
でである。

【０００５】このような話題構造を計算機によって認識
することを話題構造認識と呼ぶ。話題構造を認識するた
めの方法は、これまでにもいくつか提案されている。こ
こでは、『竹下：「話題構造認識を用いた映像検索シス
テム」情報処理学会情報メディア研究会94-IM-15-1』で
述べられている話題構造の認識方法について簡単に説明
する。図２はこの認識方法で使用する話題構造認識装置
の一例の構成を示すブロック図であり、図３はこの認識
方法における話題構造認識処理を示すフローチャートで
あり、図４はこの話題構造認識処理における話題構造認
識前処理以降の処理の流れの一例を示す図である。

【０００６】図２に示される従来の話題構造認識装置
は、言語データが入力するデータ入力部７０１と、各種
の処理を実行する処理部７０２と、結果を表示する表示
部７０３と、処理結果や処理途中で必要となるデータを
保持する記憶部７０４と、話題構造認識処理で使用され
る辞書や規則類を格納する辞書・規則部７０５によって
構成されている。記憶部７０４には、前処理後の言語デ
ータを記憶する言語データ記憶部７１０と、中間の処理
結果や最終的な処理結果を保持する話題構造記憶部７１
１とが設けられている。さらに話題構造記憶部７１１に
は、基板展開記憶部７１２と意味的展開記憶部７１３と
統合話題記憶部７１４が設けられている。一方、辞書・
規則部７０５には、前処理用辞書７２１と意味的展開処
理規則７２２と基板展開処理規則７２３と統合処理規則
７２４とが設けられている。

【０００７】この話題構造認識装置を用いて話題構造認
識処理を行なう場合、まず、図３に示すように、入力さ
れた言語データ７３０に対する話題構造認識前処理７４
０を行なう。この話題構造認識前処理７４０の第１ステ
ップは、入力した言語データ７３０に対する形態素解析
処理７４１である。形態素解析処理７４１では、入力さ
れた言語データ７３０の文字列を単語ごとに区切って単
語列とし、さらに各単語の品詞や活用語の活用形等を同
定する。続いて、前処理７４０の第２ステップとして、
形態素解析の結果を入力として、単文区切り処理７４２
を行なう。単文区切り処理７４２は、埋め込み文や重文
のように複数の述語を含む文を、１つの述語のみを含む
単文に分割する処理である。前処理７４０の第３ステッ
プとして、顕著名詞句抽出７４３を実行する。顕著名詞
句抽出７４３は、単文区切り処理７４２の結果を入力と
して、各単文において最も強調されている名詞句を抽出
する処理である。これら、話題構造認識前処理７４０に
属する各処理は、辞書・規則部７０５内にある前処理用
辞書７２１を用いて、処理部７０２によって実行され、
その結果は、記憶部７０４内の言語データ記憶部７１０
に格納される。

【０００８】話題構造認識前処理７４０が完了したら、
話題の展開の処理を基板展開処理７５０と意味的展開処
理７６０とに分離して実行する。ここで基盤展開とは、
「まず」や「次に」のような手掛かり句や章立て、箇条
書きなどによって明示的に示された話題展開のことであ
り、意味的展開とは、基盤展開の各話題の中で、明示的
ではない形で提示、進行する話題の展開のことである。

【０００９】まず、図３に示されるように、基板展開処
理７５０において、話題確立区間の決定７５１、話題語
の決定７５２、話題スコープと話題レベルの決定７５３
という３つの処理を順次行なう。ここで話題確立区間と
は、話題が提示、確立される区間のことである。話題語
の決定７５２では、各話題確立区間における顕著名詞句
を話題語候補とし、これら話題語候補の中で優先順位が
最も高いものを選んで話題語とする。話題スコープと話
題レベルの決定７５３では、箇条書き等の構造に基づい
て、処理が行なわれる。基盤展開処理７５０は、辞書・
規則部７０５内の基盤展開処理規則７２３を用いて処理
部７０２で実行され、その結果は記憶部７０４の中の話
題構造記憶部７１１内に含まれる基盤展開記憶部７１２
に格納される。

【００１０】このような基板展開処理７５０における処
理の具体例が図４に示されている。まず、言語データ
（テキスト）の開始時点と(1),(2)で番号付けされた箇
条書きの各項目とを基盤展開の話題確立区間として決定
している。そして、話題語の決定７５２では、最初の話
題確立区間からは「通信サービス」が、２番目の話題確
立区間からは「新規サービス」が、３番目の話題確立区
間からは「従来からのサービス」が、それぞれ、話題語
として選ばれている。

【００１１】基盤展開処理７５０の実行後、意味的展開
処理７６０が実行される。意味的展開処理７６０は、基
盤展開処理７５０と同様に、話題確立区間の決定７６
１、話題語の決定７６２、話題スコープと話題レベルの
決定７６３という３つの処理によって構成される。この
意味的展開処理７６０は、辞書・規則部７０５内の意味
的展開処理規則７２２を用いるとともに基盤展開処理７
５０の結果も利用して処理部７０２で実行され、その結
果は記憶部７０４の中の話題構造記憶部７１１に含まれ
る意味的展開記憶部７１３に格納される。

【００１２】図４に示した例では、話題確立区間とし
て、ある程度以上長い段落が選択され、それらにおける
話題語として、「サービスＡ」と「サービスＢ」が選ば
れている。話題スコープとしては、上述した話題確立区
間の開始点から基盤展開における次の話題確立区間の開
始点までが求められている。話題レベルは、テキストの
意味的展開の場合には、全て同じレベルすなわちレベル
１とされる。

【００１３】最後に、基盤展開と意味的展開の統合処理
７７０が行なわれ、その結果として、言語データ全体の
話題構造７８０が出力される。この統合処理７７０は、
基盤展開処理７５０と意味的展開処理７６０のそれぞれ
の話題構造を入力とし、辞書・規則部７０５内の統合処
理規則７２４を用いて、処理部７０２によって実行され
る。図４に示した例では、統合処理の結果として、図１
に示したのと同様の話題構造７８０が得られている。

【００１４】基盤展開と意味的展開のそれぞれにおい
て、話題確立区間や話題語、話題スコープ、話題レベル
を決定するための規則（意味的展開処理規則７２２や基
盤展開処理規則７２３）は、言語データが対話、モノロ
ーグ、書き言葉テキストなどのどの伝達形態によるもの
であるかによって異なる。伝達形態による話題展開様式
や話題構造認識規則の違いと、話題構造認識実験の結果
については、『竹下他：「話題構造認識の観点からのヒ
ューマンコミュニケーションの研究」電子情報通信学会
１９９３年秋季大会D-62(p.6-64)』に記載がある。

【００１５】

【発明が解決しようとする課題】しかしながら、上述し
た従来の話題構造認識方法では、複雑な連体修飾を含む
ような書き言葉テキストに対しては話題語を正しく認識
することが難しく、また、長い話題スコープを持つ話題
の話題語の周りでは複雑な連体修飾が出現することが多
いため、長い話題スコープを持つ話題の話題語の認識が
困難であった。このため、例えば、認識した話題構造を
人間のための章立て・目次構造として利用する場合、章
立ての大きな項目を間違えているために、全体の概要を
把握しにくいという問題点がある。

【００１６】複雑な連体修飾を含むテキストとして、例
えば、新聞報道に現れるようなものがある。図５はこの
ようなテキストの一例を示している。図５では、文ごと
に、[s0],[s1]のような文番号を付与してある。このテ
キストの主題は明らかに「カンボジアの総選挙」であ
る。このテキストに対し人間が認識した話題構造の例が
図６(a)に示され、従来の話題構造認識方法によって得
られた話題構造が図６(b)に示されている。人間による
話題構造を目次として扱えば、図５に示す元のテキスト
で述べられている項目を推定することができる。これに
対し、従来の話題構造認識方法による話題構造では、特
に一番大きな話題「ＵＮＴＡＣの協力」が不適切である
ために、そもそも何について記述されているかが分かり
にくく、元のテキストの内容を推定することは困難であ
る。

【００１７】本発明の目的は、複雑な連体修飾を含むテ
キストに対しても話題語を正しく認識でき、的確な話題
構造を提供できる方法および装置を提供することにあ
る。

【００１８】

【課題を解決するための手段】本発明の話題語選択方法
は、予め準備された規則を用いて言語データの話題構造
を認識する話題構造認識処理における話題語の決定方法
において、前記言語データから抽出された話題語候補に
対して話題語候補優先順位規則にしたがって優先順位を
付与し、予め与えられた修正条件と修正内容との組に応
じ、前記修正条件が成立する場合には対応する修正内容
に応じて前記話題語候補の優先順位を修正し、複数の話
題語候補に付与されている優先順位を比較することによ
り話題語を決定する。

【００１９】本発明の話題構造認識装置は、言語データ
を入力するための入力部と、話題構造認識のための規則
類を蓄える辞書・規則部と、該辞書・記憶部の規則類を
用いた処理を行なう処理部と、前記処理部による結果を
蓄える記憶部と、前記処理部による処理結果を表示する
表示部とを有し、前記辞書・規則部が、話題語候補に対
して優先順位を付与するための話題語候補優先順位規則
と、前記優先順位を修正するための修正条件と修正内容
の組を記述した話題語候補優先順位修正テーブルとを含
み、前記記憶部が、入力部から入力された言語データに
関する情報を蓄える言語データ記憶部と、話題構造に関
する情報を蓄える話題構造記憶部とを含み、前記言語デ
ータ記憶部が、前記言語データに含まれる各単語の文字
列と品詞に関する情報を格納する単語情報テーブルと、
前記言語データの各単文に含まれる単語と顕著名詞句と
顕著名詞句のタイプに関する情報を格納する単文情報テ
ーブルとを含み、話題構造記憶部が、話題が提示、確立
される範囲である話題確立区間と話題語と話題レベルと
話題スコープとを含む情報を格納するテーブルを含む。

【００２０】

【作用】話題語候補を求めて各話題語候補に優先順位を
付与した後、所定の条件が成立している場合には優先順
位を修正し、優先順位に応じて話題語を決定するように
なっているので、より的確に話題語を選択できる。具体
的には、話題語候補が他の単文に連体修飾されていない
かなどの連体修飾関係を求め、その連体修飾関係に応じ
て話題語候補の優先順位を修正することにより、複雑な
連体修飾を含むテキストの話題語を正しく認識すること
が可能になる。特に、長い話題区間を持った話題の話題
語を正しく認識することが可能となる。

【００２１】

【実施例】次に本発明の実施例について、図面を参照し
て説明する。図７は本発明の一実施例の話題構造認識装
置の構成を示すブロック図である。この話題構造認識装
置は、図２に示す従来の話題構造認識装置と比べ、特
に、辞書・規則部１０５に含まれる辞書・テーブル類の
構成において異なっている。すなわち、本実施例の話題
構造認識装置には、言語データが入力するデータ入力部
１０１と、各種の処理を実行する処理部１０２と、結果
を表示する表示部１０３と、処理結果や処理途中で必要
となるデータを保持する記憶部１０４と、話題構造認識
処理で使用される辞書や規則類を格納する辞書・規則部
１０５によって構成されている。記憶部１０４には、前
処理後の言語データを記憶する言語データ記憶部１１０
と、中間の処理結果や最終的な処理結果を保持する話題
構造記憶部１１１とが設けられている。言語データ記憶
部１１０には単文情報テーブル１１５と単語情報テーブ
ル１１６が設けられており、話題構造記憶部１１１に
は、基板展開記憶部１１２と意味的展開記憶部１１３と
統合話題記憶部１１４が設けられている。一方、辞書・
規則部１０５には、前処理用辞書１２１と意味的展開処
理規則１２２と基板展開処理規則１２３と統合処理規則
１２４と話題語候補優先順位規則１２５と疑問表現辞書
１２６と話題語候補優先順位修正テーブル１２７とが設
けられている。話題語候補優先順位修正テーブル１２７
には、話題語候補が他の単文によって連体修飾されてい
るかという連体修飾関係と話題語候補優先順位への変更
の対が、前もって記述されている。

【００２２】この話題構造認識装置を用いて言語データ
の話題構造の解析を行なう場合、その処理は図３に示し
た従来の処理の流れと同様に処理が行なわれるが、話題
語の決定方法において相違する。この話題構造認識装置
を使用する場合には、話題語候補優先順位規則１２５を
参照して顕著名詞句に対して話題語候補としての優先順
位を付与した後に、その話題語候補が他の単文に連体修
飾されていないかなどの連体修飾関係を求めてその結果
に応じて優先順位を修正することにより、話題語が決定
される。以下、話題語の決定方法の中心にして、本実施
例の話題構造認識装置による話題構造の解析手順を説明
する。

【００２３】［言語データ記憶部と基盤展開記憶部と意
味的展開記憶部］本実施例の話題構造認識装置による話
題構造の解析は、話題語の決定を行なうまでは、上述の
図３に示した手順と同様に進行する。そして、話題構造
認識前処理と基盤展開処理と意味的展開処理の結果は、
それぞれ、言語データ記憶部１１０と基盤展開記憶部１
１２と意味的展開記憶部１１３に保存されている。基盤
展開処理の全てと、意味的展開処理の話題確立区間の決
定とが終了した時点におけるこれらの各記憶部１１０,
１１２,１１３の状態が、図８に示されている。

【００２４】上述したように言語データ記憶部１１０に
は、単文情報テーブル１１５と単文情報テーブル１１６
が含まれている。単語情報テーブル１１６には、テキス
トでの単語の出現順を示す単語番号のフィールドと、形
態素解析結果としての単語の文字列を記述するフィール
ドと、その文字列の品詞等の情報を記述するためのフィ
ールドとが設けられている。図８の例では、認識対象の
テキストの最初の単語はサ変名詞（「する」と結び付い
てサ行変格動詞となり得る名詞）の「通信」である。

【００２５】一方、単文情報テーブル１１５には、テキ
スト中での単文の出現順を単文番号として記述するフィ
ールドと、その単文の開始と終了の単語番号を記述する
ための単語範囲フィールドと、その単文に含まれている
顕著名詞句を記述するためのフィールドと、その顕著名
詞句のタイプを記述するためのフィールドと、その単文
に含まれている疑問表現を記述するためのフィールド
と、前述の顕著名詞句が基盤展開か意味的展開での話題
語候補となったときにその優先順位を記述するためのフ
ィールドが含まれる。図８の例では、最初の単文は単語
番号０から８までの範囲であって、その単文に含まれる
顕著名詞句は単語番号０、すなわち「通信」であり、そ
れは明示タイプの顕著名詞句である。顕著名詞句が複数
の単語から構成される場合は、０,１のように複数の単
語番号を指定する。最初の単文の疑問表現のフィールド
の値は"−１"となっているが、これは疑問表現がないこ
とを意味する。もし、辞書・規則部１０５に含まれる疑
問表現辞書１２６に記述されている疑問表現が単文内に
検出されれば、その疑問表現番号を単文情報テーブル１
１５の疑問表現フィールドに記述する。例えば、「問い
かける」という疑問表現が検出されれば、その疑問表現
番号０をその単文に対応するレコードの疑問表現フィー
ルドに記述する。また最初の単文の話題候補優先順位は
２となっているが、これがどの話題確立区間における話
題候補かということについては後述する。

【００２６】基盤展開記憶部１１２には、話題番号ごと
に、話題が提示・確立される話題確立区間の開始と終了
をそれぞれ示す単文番号を記述するフィールド（話題確
立区間フィールド）と、話題語を記述するフィールド
と、話題レベルを記述するフィールドと、話題スコープ
をその開始および終了の単語番号で記述するフィールド
とが含まれる。また、意味的展開記憶部１１３にも、基
盤展開記憶部１１２と同様のフィールドが含まれる。図
８の例では、基盤展開記憶部１１２において、最初の話
題の話題確立区間は単文番号０から１０までの範囲であ
り、その話題語は単語番号０、すなわち「通信」となっ
ている。ここで、複数の単語から話題語が構成される場
合には、０,１のように複数の単語番号を指定するもの
とする。また、この話題の話題レベルは１であり、話題
スコープは単文番号０から３０２９までの範囲である。

【００２７】［話題語の決定処理の全体の流れ］基盤展
開と意味的展開における各話題確立区間に含まれている
顕著名詞句を話題語候補とする。各話題確立区間におい
て、話題語候補から話題語を選択する処理の流れを図９
のフローチャートに示す。基盤展開と意味的展開とで
は、話題語を選択するために用いる規則が実際には異な
るが、処理の流れは両方とも図９のようになる。まず、
各話題語候補に対して話題語候補優先順位規則１２５に
基づき、話題語候補としての優先順位を付与する（ステ
ップ２０１）。そして、その話題語候補に関する連体修
飾関係を検出し（ステップ２０２）、話題語候補優先順
位修正テーブル１２７にしたがって各話題語候補の優先
順位を修正し（ステップ２０３）、優先順位の高いもの
をもって話題語と決定し、処理を終了する。

【００２８】基盤展開における話題語の決定の場合、基
盤展開での各話題確立区間に含まれている顕著名詞句を
その話題確立区間における話題語候補とし、基盤展開用
の話題候補優先順位にしたがって優先順位を付与し、話
題語優先順位修正テーブルを用い話題語候補の連体修飾
関係に応じて各話題語候補の優先順位を修正し、各話題
確立区間における話題語候補から、最も優先順位が最も
高いものを選び、選ばれた候補が１つしかない場合はそ
の候補を話題語とし、選ばれた候補が複数ある場合は、
その話題確立区間が箇条書き全体の話題を確立するため
の簡条書き全体タイプであれば時間的に最も遅く出現し
た候補を、それ以外の章立てタイプであれば時間的に最
も早く出現した候補を、基盤展開での話題語として選
ぶ。

【００２９】また、意味的展開での話題語決定の場合、
意味的展開での各話題確立区間に含まれている顕著名詞
句を各話題確立区間における話題語候補とし、意味的展
開用の話題候補優先順位にしたがって各候補に優先順位
を付与し、上述と同様に話題語候補優先順位修正テーブ
ルを用いて各話題話候補の優先順位を修正し、各話題確
立区間における話題語候補から、最も優先順位が最も高
いものを選び、選ばれた候補が１つしかない場合はその
候補を話題語とし、選ばれた候補が複数ある場合は、時
間的に最も早く出現した候補を意味的展開での話題語と
する。

【００３０】［話題候補優先順位規則による優先順位の
付与］ここで話題語候補優先順位規則１２５による優先
順位の付与を説明する。図１０は基盤展開において使用
される話題語候補優先順位規則を示し、図１１は意味的
展開において使用される話題語候補優先順位規則を示し
ている。図８に示した例にこれらに話題語候補優先順位
規則を適用した場合を説明する。意味的展開記憶部１１
３に記録されている最初の話題（話題番号０）の話題確
立区間は単文番号８０から８３の範囲であるので、単文
情報テーブル１１５上のその範囲の単文中の顕著名詞句
が話題候補となる。単文番号８０と８１のそれぞれの単
文に含まれる顕著名詞句は、単文情報テーブル１１５に
よると非明示タイプであるが、単語情報テーブル１１６
によるといずれの顕著名詞句も固有名詞を含んでいるの
で、図１１の優先順位規則により、優先順位は２とな
る。一方、単文番号８２と８３の単文はともに顕著名詞
句を持たないので、話題語候補優先順位も持たない。こ
の意味的展開の最初の話題確立区間について、上述のよ
うにして話題語候補優先順位を付与した後の、単文情報
テーブル１１５の状態を図１２に示す。単文番号８２と
８３については、優先順位を持たないので、−１という
値を話題語候補優先順位フィールドに記録している。

【００３１】［連体修飾関係の検出］図９のフローチャ
ートに示されるように、話題語候補優先順位の付与を行
なった後、話題語候補に関する連体修飾関係を検出す
る。ここで連体修飾とは、名詞に対する修飾のことであ
り、例えば「彼が持ってきたカメラ」という名詞句にお
いて、「彼が持ってきた」という単文が「カメラ」とい
う名詞を修飾している。連体修飾関係を検出するための
処理の一例を図１３のフローチャートを用いて説明す
る。連体修飾関係検出の処理は各話題語候補に対して行
なわれる。

【００３２】まず話題語候補の中で最も後ろの単語をＡ
とし、元のテキストにおいてＡの直前の単語をＢとする
（ステップ２１１）。Ｂが現在の話題語候補に含まれて
いるかどうかが判断され（ステップ２１２）、話題語候
補に含まれている場合にはステップ２１５に移行し、話
題語候補に含まれていない場合には、Ｂが活用語の連体
形であるかどうかが判断される（ステップ２１３）。ス
テップ２１３で連体形でない場合にはステップ２１５に
進み、連体形である場合には、Ｂを含む単文は話題語候
補Ａを連体修飾しているとものとし（ステップ２１
４）、ステップ２１５に進む。すなわち、話題語候補の
中の最後の単語Ａに対してその直前の単語Ｂがその話題
語候補に含まれておらず、かつ単語Ｂが動詞や形容詞の
ように語尾が変化する活用語の連体形であれば、Ｂを含
む単文は話題語候補を連体修飾しているものと見なして
いる。

【００３３】ステップ２１５では、単語Ａがその話題語
候補の中で最も前の位置にあるかどうかが調べられ、最
も前の位置にある単語であれば処理を終了し、そうでな
ければ、話題語候補中でＡの前の単語をあらためてＡと
し、元のテキストにおいてその更新後のＡの直前にある
単語をＢとし（ステップ２１６）、そののちステップ２
１２に戻ってＢが話題語候補に含まれているかどうかの
処理から再度実行する。

【００３４】図８に示した例で考える。単文番号８０の
単文に含まれている顕著名詞句の話題語候補は単語番号
１０５９の単語だけであるので、単語番号１０５９の単
語をＡとし、単語番号１０５８の単語をＢとする。単語
Ｂは話題語候補に含まれていないが活用語ではないの
で、連体修飾関係は検出されない。また、Ａは話題語候
補中で最も前の単語であるので、この話題語候補に対す
る連体修飾関係検出の処理はこれで終了する。

【００３５】次に単文番号８１の単文に含まれている顕
著名詞句の話題語候補について調べる。この話題語候補
は単語番号が１０６３と１０６４の２つの単語から構成
されるので、まず、単語番号１０６４の単語をＡとし
て、単語番号１０６３の単語をＢとする。すると、単語
Ｂは話題語候補に含まれるので、この時点では連体修飾
関係は検出されない。このとき、Ａは話題語候補中で最
も前の単語ではないので、次に新たに単語番号１０６３
の単語をＡとし、単語番号１０６２の単語Ｂとする。す
ると、Ｂは話題語候補には含まれず、かつＢは活用語の
連体形であるので、Ｂを含む単文８０は現在の話題語候
補を連体修飾していると判断される。この時点ではＡは
話題語候補中で最も前の単語であるので、ここで処理を
終了する。

【００３６】［優先順位の修正と話題語の選択］図９の
フローチャートに示されるように、連体修飾関係の検出
を行なった後に、話題語候補優先順位修正テーブル１２
７にしたがって各話題語候補の優先順位を修正する。図
１４は話題語候補優先順位修正テーブル１２７の構成例
を示している。この例では、他の単文によって連体修飾
されている話題語候補の優先順位を０.５に修正するこ
とにより、優先順位を高めている。これ以外にも、話題
語候補優先順位修正テーブルによる優先順位の修正方法
として、解析対象のテキスト・データの性質に応じて、
例えば、他の話題語候補を連体修飾している単文に含ま
れる話題語候補の優先順位を操作することも考えられ
る。また、修正後の優先順位として０.５のような絶対
値を与えるのではなく、−０.５のようにそれまでの値
への加減値を与えた方がよい場合もあるので、テキスト
の性質に応じて修正方法を適宜選択する。

【００３７】図８に示した例では、単文番号８１の単文
に含まれる顕著名詞句の話題語候補は、他の単文８０に
よって連体修飾されているので、図１４に示した話題語
候補優先順位修正テーブルにしたがって、その優先順位
が０.５に修正される。優先順位の修正後の単文情報テ
ーブル１１５の状態が図１５に示されている。

【００３８】連体修飾関係に基づく優先順位の修正を行
なう前の単文情報テーブル１１５（図１２参照）に基づ
いて話題語を選択すると、単文番号８０と８１の単文の
話題語候補がともに優先順位が２であるので、時間的に
早く出現している単文番号８０の単文の方に含まれる話
題語候補が話題語として選ばれる。すなわち、単語番号
１０５９の単語「Ｐ社」が話題語として選ばれる。これ
に対して、上述したように連体修飾関係に応じて優先順
位を修正した後の単文情報テーブル１１５（図１５参
照）に基づいて話題語を選択すると、単文番号８１の単
文の話題語候補の優先順位が０.５と最も高いので、単
語番号１０６３，１０６４の単語からなる「製品Ｑ」が
話題語として選ばれる。

【００３９】本実施例の方法を用いて図５のテキスト例
に対して話題構造認識を行なった結果の例を図１６に示
す。従来の方法を用いた結果を表わす図６(b)と比較す
ると、本実施例の方法による結果によれば、元のテキス
トの内容を容易に推定することが可能であることが分か
る。

【００４０】［話題構造認識評価実験の結果］次に、上
述した本実施例の話題語選択方法を組み込んだ話題構造
認識システムと、この方法を組み込まないシステムとを
用いて、実際のテキスト・データの話題構造を認識した
結果について説明する。実験では、全部で６３件の新聞
記事をテキスト・データとして使用した。そして、これ
らのテキスト・データに対して人間が認識した話題構造
と計算機が認識した話題構造とを比較して再現率と適合
率とを算出し、本実施例によるシステムと本実施例によ
らないシステム（従来のシステム）の双方を評価した。
ここで、再現率とは、人間が認識した話題構造のうち、
どれだけが計算機によっても認識されているかを示す尺
度であり、適合率とは、計算機が認識した話題構造のう
ち、どれだけが人間によっても認識されているかを示す
尺度である。もし、人間と計算機がそれぞれ認識した話
題構造が一致すれば、再現率、適合率とも１００％とな
る。適合率と再現率は、話題確立区間、話題語、話題ス
コープに対してそれぞれ求めた。話題スコープに関する
適合率、再現率とは、話題語が正しいものについて、話
題スコープの長さを重み付けして評価したものであり、
例えば、長い話題スコープを持つ大きな話題が正しく認
識されていれば、適合率、再現率はよくなり、逆に短い
話題スコープを持つ小さな話題を誤認識してもそれほど
適合率、再現率は悪くならない。結果を表１に示す。

【００４１】

【表１】表１から明らかなように、本発明にしたがって連体修飾
関係を考慮することによって、連体修飾関係を考慮しな
い従来の方法に比べ、話題スコープについて、適合率と
再現率がともに向上する。これにより、本発明を用いる
ことにより、より大きな話題スコープを持つ話題語を正
しく認識できることが確認された。

【００４２】

【発明の効果】以上説明したように本発明は、話題語候
補に対して優先順位を付与した後に話題語候補優先順位
修正テーブルによって優先順位を修正することにより、
正しく話題語を決定できるようになる。特に、連体修飾
関係に基づいて優先順位を修正することにより、複雑な
連体修飾を含む書き言葉テキストの話題語を正しく認識
できるようになるという効果がある。特に長い話題スコ
ープを持った話題に関して特に有効である。大きな話題
構造が正しく認識されるので、章立て・目次構造として
利用する場合に、ユーザにとって分かりやすいものとな
る。

【図面の簡単な説明】

【図１】人間による話題構造認識の例である。

【図２】従来の話題構造認識装置の一例の構造を示すブ
ロック図である。

【図３】従来の話題構造認識のための処理を示すフロー
チャートである。

【図４】従来の話題構造認識における前処理以降の例で
ある。

【図５】テキストの一例を示す図である。

【図６】(a)は図５に示すテキストに対して人間によっ
て認識された話題構造の例を示す図、(b)は図５に示す
テキストに対して従来の話題構造認識方法を適用して話
題構造を抽出した結果を示す図である。

【図７】本発明の一実施例の話題構造認識装置の構成を
示すブロック図である。

【図８】各テーブル、各記憶部間の関係を示す図であ
る。

【図９】図７の装置を利用して行なう話題語決定のため
の処理を示すフローチャートである。

【図１０】基盤展開用の話題候補優先順位規則の一例を
示す図である。

【図１１】意味的展開用の話題候補優先順位規則の一例
を示す図である。

【図１２】図１１の意味的展開の話題候補優先順位規則
にしたがい各話題候補に優先順位を付与した時点での単
文情報テーブルの状態を示す図である。

【図１３】連体修飾検出のための処理を示すフローチャ
ートである。

【図１４】話題候補優先順位修正テーブルの構成例を示
すである。

【図１５】話題候補優先順位の修正後の単文情報テーブ
ルの状態を示す図である。

【図１６】図５のテキスト例に対して本発明の方法を適
用した場合の結果の例を示す図である。

【符号の説明】

１０１データ入力部１０２処理部１０３表示部１０４記憶部１０５辞書・規則部１１０言語データ記憶部１１１話題構造記憶部１１２基盤展開記憶部１１３意味的展開記憶部１１４統合話題記憶部１１５単文情報テーブル１１６単語情報テーブル１２１前処理用辞書１２２意味的展開処理規則１２３基盤展開処理規則１２４統合処理規則１２５話題語候補優先順位規則１２６疑問表現辞書１２７話題語候補優先順位修正テーブル２０１〜２０３,２１１〜２１６ステップ

Claims

【特許請求の範囲】

【請求項１】予め準備された規則を用いて言語データ
の話題構造を認識する話題構造認識処理における話題語
の決定方法において、前記言語データから抽出された話題語候補に対して話題
語候補優先順位規則にしたがって優先順位を付与し、予め与えられた修正条件と修正内容との組に応じ、前記
修正条件が成立する場合には対応する修正内容に応じて
前記話題語候補の優先順位を修正し、複数の話題語候補に付与されている優先順位を比較する
ことにより話題語を決定することを特徴とする話題語選
択方法。
【請求項２】前記話題構造認識処理が、述語を１つだけ持つ単位である単文に前記言語データを
分割し、前記各単文ごとに当該単文で最も強調されてい
る名詞句である顕著名詞句を抽出し、該顕著名詞句のタ
イプを同定することを含む話題構造認識前処理を行な
い、その後、明示的に示される基盤展開と該基盤展開の中で
展開する意味的展開とに話題の展開を分離し、それぞれ基盤展開処理規則と意味的展開処理規則とを用
いて、前記基盤展開について、話題が提示・確立される
話題確立区間の決定と、該話題確立区間における話題語
の決定と、話題の入れ子を表す話題レベルと話題スコー
プの決定を順次行ない、次に、前記意味的展開につい
て、話題確立区間の決定、話題語の決定、話題スコープ
と話題レベルの決定を順次行ない、その後、統合処理規則を用いて、基盤展開と意味的展開
のそれぞれの処理結果に対して統合する処理を行なう処
理である請求項１に記載の話題語選択方法。
【請求項３】前記修正条件と修正内容の組に、話題語
候補に対する連体修飾関係に応じた優先順位の修正が内
容として含まれる請求項１に記載の話題語選択方法。
【請求項４】前記修正条件と修正内容の組に、連体修
飾されているような話題語候補に対して優先順位を上げ
るという内容が含まれる請求項３に記載の話題語選択方
法。
【請求項５】言語データを入力するための入力部と、
話題構造認識のための規則類を蓄える辞書・規則部と、
該辞書・記憶部の規則類を用いた処理を行なう処理部
と、前記処理部による結果を蓄える記憶部と、前記処理
部による処理結果を表示する表示部とを有し、前記辞書・規則部が、話題語候補に対して優先順位を付
与するための話題語候補優先順位規則と、前記優先順位
を修正するための修正条件と修正内容の組を記述した話
題語候補優先順位修正テーブルとを含み、前記記憶部が、入力部から入力された言語データに関す
る情報を蓄える言語データ記憶部と、話題構造に関する
情報を蓄える話題構造記憶部とを含み、前記言語データ記憶部が、前記言語データに含まれる各
単語の文字列と品詞に関する情報を格納する単語情報テ
ーブルと、前記言語データの各単文に含まれる単語と顕
著名詞句と顕著名詞句のタイプに関する情報を格納する
単文情報テーブルとを含み、話題構造記憶部が、話題が提示、確立される範囲である
話題確立区間と話題語と話題レベルと話題スコープとを
含む情報を格納するテーブルを含む、ことを特徴とする話題構造認識装置。
【請求項６】前記辞書・規則部が、前記言語データを
単文に分割し、前記各単文から顕著名詞句を抽出し、該
顕著名詞句のタイプを同定することを含む話題構造認識
前処理のための前処理用辞書と、基盤展開に対する処理
を行なうための基盤展開処理規則と、意味的展開に対す
る処理を行なうための意味的展開処理規則と、基盤展開
と意味的展開を統合するための統合処理規則とを含み、前記話題構造記憶部が、基盤展開に関する情報を蓄える
基盤展開記憶部と、意味的展開に関する情報を蓄える意
味的展開記憶部と、基盤展開と意味的展開の統合後の情
報を蓄える統合話題記憶部とを含み、意味的展開記憶部と基盤展開記憶部のそれぞれが、話題
が提示、確立される範囲である話題確立区間と、話題語
と、話題レベルと、話題スコープとを含む情報を格納す
るテーブルを含む、請求項５に記載の話題構造認識装
置。
【請求項７】前記話題語候補優先順位修正テーブルの
修正条件として話題語候補に対する連体修飾関係が含ま
れる請求項５に記載の話題構造認識装置。
【請求項８】前記話題語候補優先順位修正テーブルの
修正条件と修正内容の組には、話題語候補が他の単文に
よって連体修飾されているという修正条件と優先順位を
高くするという修正内容との組が含まれる請求項７に記
載の話題構造認識装置。