JPH0785071A

JPH0785071A - 情報抽出装置

Info

Publication number: JPH0785071A
Application number: JP5230701A
Authority: JP
Inventors: Shinichi Ando; 真一安藤; Shinichi Doi; 伸一土井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-09-17
Filing date: 1993-09-17
Publication date: 1995-03-31
Anticipated expiration: 2011-10-23
Also published as: JP2546515B2

Abstract

(57)【要約】【目的】自然言語で記述された文書から与えられた分
野の情報を抽出し、単語間の関係を含む情報を一定の形
式で出力する情報抽出システムにおいて、抽出できない
情報を減少し、かつ抽出した情報に関しては正確に抽出
する。【構成】形態素解析部４は入力文書を形態素単位に語
切りした後、構文情報とキ抽出すべき情報の分野に関す
るキーワード情報を各形態素に割り当てる。構文解析規
則格納部５は構文情報を利用して入力文の構文解析を行
う規則を格納し、キーワード間関係計算規則格納部６は
キーワード情報によって構文解析規則を制御しながら、
キーワード間関係を示す意味構造を生成する規則を格納
し、文書情報抽出部７は構文解析規則とキーワード間関
係計算規則を用いて、形態素解析部４から出力された形
態素列をキーワード中心に解析し、キーワードとキーワ
ード間関係から成る意味構造を出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自然言語で記述された文
書を解析し、予め与えられた分野の情報を抽出し、文書
に含まれる単語間の関係を含む情報を一定の形式で出力
する情報抽出システムに関する。

【０００２】

【従来の技術】テキストから特定分野の情報を単語間の
関係まで抽出し、一定の形式で出力する情報抽出の手法
には、従来、キーワードの出現状況を利用する手法や、
構文解析を利用する手法があった。キーワードを利用す
る手法は抽出すべき情報の分野や出力すべき形式に関係
するキーワードを予め与え、入力文書内におけるキーワ
ードの出現や共起を基に情報抽出を行う手法である。し
かし、この手法は文章構造を無視しているため、キーワ
ードが含まれてはいるが単語間の関係が正しく成立しな
い不適切な情報を抽出する場合が多くあった。また構文
解析を利用する方法は構文解析によって得られた構文木
を再度解析して、意味に依らない一定の解釈木を生成し
ようとするものである。しかし、解析の対象が構文木で
あるため、わずかな構文木の違いによって抽出結果が異
なってしまう。

【０００３】

【発明が解決しようとする課題】キーワードの出現を利
用する方法は与えるキーワードの数を増やすことによっ
て抽出すべき情報を多く出力することができる。しかし
文章構造を無視し、単純にキーワードが出現したか否か
によって出力が決定されるため、抽出された出力には単
語間の関係が成立しない不適切な情報が多く含まれてい
た。またキーワードとして登録されていない語に対して
は情報抽出を行なうことはできなかった。構文解析を利
用する方法は文章の構文構造を認定するため、正しい抽
出結果を得ることができる。しかし、構文解析技術だけ
では構文上の曖昧性を解消しきれず、正しい解析木を得
ることが難しかった。このため、実際の文書へ適応した
場合、情報が含まれている文書を抽出できない場合が多
くあった。

【０００４】本発明の目的はキーワード間の関係を認定
しながら構文解析を行うことによって正しい情報を数多
く、かつ正確に抽出することである。

【０００５】

【課題を解決するための手段】第１の発明は、自然言語
で記述された文書を入力として受けつける文書入力部
と、形態素とその形態素毎に構文情報を記した形態素辞
書部と、予め決められた抽出すべき情報の分野に関する
キーワードとそのキーワード毎に最終的に出力すべき形
式内でそのキーワードが果たす役割を記述したキーワー
ド辞書と、前記文書入力部から入力された文を語切り
し、前記形態素辞書部、前記キーワード辞書部の辞書内
容を各語に割り当てる形態素解析部と、前記形態素辞書
部に格納された構文情報を利用して、入力文の構文解析
を行う規則を格納した構文解析規則格納部と、キーワー
ドに与えられたキーワード情報によって構文解析規則を
制御しながら、キーワード間関係を示す意味構造を生成
する規則を格納したキーワード間関係計算規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則を用いて、前記形態素解析部で
形態素解析された文を解析し、キーワード間関係を示す
意味構造を出力する文書情報抽出部と、前記文書情報抽
出部が出力した文書全体の意味構造を出力形式に変換
し、出力する抽出結果出力部を備えていることを特徴と
する。

【０００６】第２の発明は、第１の発明において、前記
キーワード辞書部に存在しない形態素列を構文構造から
キーワードとして推定するキーワード推定規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則と前記キーワード推定規則格納
部に格納されたキーワード推定規則を用いて、前記形態
素解析部で形態素解析された文を解析し、キーワード間
関係を示す意味構造を出力する文書情報抽出部を備えて
いることを特徴とする。

【０００７】

【実施例】次に本発明について図面を参照して説明す
る。

【０００８】図１は第１の発明の一実施例を示すブロッ
ク図である。図１を参照すると本発明は、自然言語で記
述された文書を入力として受けつける文書入力部１と、
形態素とその形態素毎に構文情報を記した形態素辞書部
２と、予め決められた抽出すべき情報の分野に関するキ
ーワードとそのキーワード毎に最終的に出力すべき形式
内でそのキーワードが果たす役割を記述したキーワード
辞書３と、前記文書入力部１から入力された文を語切り
し、前記形態素辞書部２、前記キーワード辞書部３の辞
書内容を各語に割り当てる形態素解析部４と、前記形態
素辞書部２に格納された構文情報を利用して、入力文の
構文解析を行う規則を格納した構文解析規則格納部５
と、キーワードに与えられたキーワード情報によって構
文解析規則を制御しながら、キーワード間関係を示す意
味構造を生成する規則を格納したキーワード間関係計算
規則格納部６と、前記構文解析規則格納部５に格納され
た構文解析規則と前記キーワード間関係計算規則格納部
６に格納されたキーワード間関係計算規則を用いて、前
記形態素解析部４で形態素解析された文を解析し、キー
ワード間関係を示す意味構造を出力する文書情報抽出部
７と、前記文書情報抽出部７が出力した文書全体の意味
構造を出力形式に変換し、出力する抽出結果出力部８か
ら構成される。

【０００９】図２は第２の発明の一実施例を示すブロッ
ク図である。図２を参照すると本発明は第１の発明に加
え、前記キーワード辞書部２に存在しない形態素列を構
文構造からキーワードとして推定するキーワード推定規
則格納部９を備えている。このとき文書情報抽出部７は
前記構文解析規則格納部５に格納された構文解析規則と
前記キーワード間関係計算規則格納部６に格納されたキ
ーワード間関係計算規則に加え、前記キーワード推定規
則格納部９に格納されたキーワード推定規則を用いて、
前記形態素解析部４で形態素解析された文を解析し、キ
ーワード間関係を示す意味構造を出力する。

【００１０】次に図１、図２を参照して、本発明の実施
例の動作について説明する。

【００１１】本発明の一実施例として半導体製造工程で
あるレイヤリングの装置をどこが開発、製造や販売して
いるか、あるいは利用しているかという情報を抽出する
場合を考える。また、例えば図３のような出力形式が与
えられたとする。ここで図３で示された関係の欄には開
発、製造、販売、利用の中から当てはまるもののいくつ
かが入り、企業、装置にはそれぞれ関係欄の関係にある
企業と装置が埋められる。

【００１２】例えば、「日本電気がスパッタリング装置
を開発した」という文が文書入力部１から入力されたと
する。この文が形態素解析部４によって語切りされ、そ
の各々の語に形態素辞書部２とキーワード辞書部３の辞
書情報が与えられる。ここで、「日本電気」、「ＣＶＤ
装置」、「開発」がそれぞれ企業名、装置名、関係のキ
ーワードであるとき、構文構造からこれら３つのキーワ
ードに関係があると認定でき、図３の出力を得ることが
できる。

【００１３】また、キーワードを用いる方法では、例え
ば「日本電気」が企業名キーワードとして登録されてい
ない場合、図２の情報を抽出することができない。これ
に対し、本発明では、キーワード推定規則格納部９に格
納されたキーワード推定規則によって、「日本電気」と
いう文字列は「装置を開発した」という文の主語に立っ
ているため装置の開発者であると推定して、「日本電
気」を企業名として認定することもできる。これため
「日本電気」がキーワードとして登録されていない場合
でも、図３の出力を得ることができる。

【００１４】またキーワードの出現だけでは誤って情報
を抽出してしまう文も、構文構造を利用して抽出すべき
情報が存在しないとして認定することができる。

【００１５】例えば、「日本電気がスパッタリングの材
料を開発した」という文には「日本電気」、「スパッタ
リング」、「開発」という３種のキーワードが含まれて
おり、キーワードの出現だけで判断すると図３の情報を
抽出してしまう。しかし、「スパッタリング」という装
置キーワードは「材料」に係っており、日本電気が開発
したのは材料である。本発明では構文構造から「日本電
気が材料を開発した」ことを検出することができ、図４
に示すように開発したのはレイヤリング装置でないとし
て認定することができる。

【００１６】さらに本発明はキーワードに含まれる語彙
知識を利用することによって、構文解析時に生じる曖昧
性を減少させることができる。

【００１７】例えば、１）「日本電気がスパッタリング装置とＣＶＤ装置を開
発した」２）「日本電気が住友金属工業とＣＶＤ装置を開発し
た」という２つの文は構文構造に曖昧性があることを示して
いる。すなわち、どちらも「ＡがＢとＣを開発した」と
格助詞の並びが同等であるにも関わらず、１）でＢはＣ
と並列構造をなし、２）でＢは随伴格としてＡと共に開
発に係る。これらの曖昧性は文法情報だけでは解消でき
ない。これに対し本発明では「日本電気」、「住友金属
工業」を企業キーワード、「スパッタリング装置」、
「ＣＶＤ装置」を装置キーワードとして認定することが
できる。このため、同種のキーワードから並列構造が成
り立つというキーワード間関係規則を利用することによ
り、図５に示すように、１）では「スパッタリング装
置」と「ＣＶＤ装置」を、２）では「日本電気」と「住
友金属工業」を並列として認定することができる。

【００１８】

【発明の効果】本発明では十分なキーワードを与えるこ
とによって正しい出力を多く抽出することができる。ま
た抽出すべき情報がキーワード間の関係を認定した結果
として生成されているため、誤った抽出結果の出力を減
少することができる。また与えられたキーワードが不十
分な場合でも構文構造からキーワードとなるべき語を認
定することが可能なため、正しい出力をより多く抽出す
ることができる。さらに構文解析を行いつつ、キーワー
ド間の関係からなる意味構造を生成しているため、構文
的な曖昧性を大幅に減少することができる。構文解析で
はキーワードに含まれる語彙知識を利用しているため、
構文規則を制御するため曖昧性を少なくすることができ
る。また、キーワードとして登録されていない語も構文
構造からキーワードとして推定することができ、これら
についても情報を抽出することができる。

【図面の簡単な説明】

【図１】第１の発明の一実施例であるブロック図を説明
する図である。

【図２】第２の発明の一実施例であるブロック図を説明
する図である。

【図３】本発明の一実施例の入出力を説明する図であ
る。

【図４】本発明の一実施例の入出力を説明する図であ
る。

【図５】本発明の一実施例の入出力を説明する図であ
る。

【符号の説明】

１文書入力部２形態素辞書部３キーワード辞書部４形態素解析部５構文解析規則格納部６キーワード間関係計算規則格納部７文書情報抽出部８抽出結果出力部９キーワード推定規則格納部

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された文書を入力として
受けつける文書入力部と、形態素とその形態素毎に構文
情報を記した形態素辞書部と、予め決められた抽出すべ
き情報の分野に関するキーワードとそのキーワード毎に
最終的に出力すべき形式内でそのキーワードが果たす役
割を記述したキーワード辞書と、前記文書入力部から入
力された文を語切りし、前記形態素辞書部、前記キーワ
ード辞書部の辞書内容を各語に割り当てる形態素解析部
と、前記形態素辞書部に格納された構文情報を利用し
て、入力文の構文解析を行う規則を格納した構文解析規
則格納部と、キーワードに与えられたキーワード情報に
よって構文解析規則を制御しながら、キーワード間関係
を示す意味構造を生成する規則を格納したキーワード間
関係計算規則格納部と、前記構文解析規則格納部に格納
された構文解析規則と前記キーワード間関係計算規則格
納部に格納されたキーワード間関係計算規則を用いて、
前記形態素解析部で形態素解析された文を解析し、キー
ワード間関係を示す意味構造を出力する文書情報抽出部
と、前記文書情報抽出部が出力した文書全体の意味構造
を出力形式に変換し、出力する抽出結果出力部を備えて
いることを特徴とする情報抽出装置。
【請求項２】前記キーワード辞書部に存在しない形態
素列を構文構造からキーワードとして推定するキーワー
ド推定規則格納部と、前記構文解析規則格納部に格納さ
れた構文解析規則と前記キーワード間関係計算規則格納
部に格納されたキーワード間関係計算規則と前記キーワ
ード推定規則格納部に格納されたキーワード推定規則を
用いて、前記形態素解析部で形態素解析された文を解析
し、キーワード間関係を示す意味構造を出力する文書情
報抽出部を備えていることを特徴とする請求項１記載の
情報抽出装置。