JPH0785071A - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JPH0785071A
JPH0785071A JP5230701A JP23070193A JPH0785071A JP H0785071 A JPH0785071 A JP H0785071A JP 5230701 A JP5230701 A JP 5230701A JP 23070193 A JP23070193 A JP 23070193A JP H0785071 A JPH0785071 A JP H0785071A
Authority
JP
Japan
Prior art keywords
keyword
information
unit
morpheme
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5230701A
Other languages
English (en)
Other versions
JP2546515B2 (ja
Inventor
Shinichi Ando
真一 安藤
Shinichi Doi
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5230701A priority Critical patent/JP2546515B2/ja
Priority to US08/304,945 priority patent/US5774845A/en
Publication of JPH0785071A publication Critical patent/JPH0785071A/ja
Application granted granted Critical
Publication of JP2546515B2 publication Critical patent/JP2546515B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 自然言語で記述された文書から与えられた分
野の情報を抽出し、単語間の関係を含む情報を一定の形
式で出力する情報抽出システムにおいて、抽出できない
情報を減少し、かつ抽出した情報に関しては正確に抽出
する。 【構成】 形態素解析部4は入力文書を形態素単位に語
切りした後、構文情報とキ抽出すべき情報の分野に関す
るキーワード情報を各形態素に割り当てる。構文解析規
則格納部5は構文情報を利用して入力文の構文解析を行
う規則を格納し、キーワード間関係計算規則格納部6は
キーワード情報によって構文解析規則を制御しながら、
キーワード間関係を示す意味構造を生成する規則を格納
し、文書情報抽出部7は構文解析規則とキーワード間関
係計算規則を用いて、形態素解析部4から出力された形
態素列をキーワード中心に解析し、キーワードとキーワ
ード間関係から成る意味構造を出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語で記述された文
書を解析し、予め与えられた分野の情報を抽出し、文書
に含まれる単語間の関係を含む情報を一定の形式で出力
する情報抽出システムに関する。
【0002】
【従来の技術】テキストから特定分野の情報を単語間の
関係まで抽出し、一定の形式で出力する情報抽出の手法
には、従来、キーワードの出現状況を利用する手法や、
構文解析を利用する手法があった。キーワードを利用す
る手法は抽出すべき情報の分野や出力すべき形式に関係
するキーワードを予め与え、入力文書内におけるキーワ
ードの出現や共起を基に情報抽出を行う手法である。し
かし、この手法は文章構造を無視しているため、キーワ
ードが含まれてはいるが単語間の関係が正しく成立しな
い不適切な情報を抽出する場合が多くあった。また構文
解析を利用する方法は構文解析によって得られた構文木
を再度解析して、意味に依らない一定の解釈木を生成し
ようとするものである。しかし、解析の対象が構文木で
あるため、わずかな構文木の違いによって抽出結果が異
なってしまう。
【0003】
【発明が解決しようとする課題】キーワードの出現を利
用する方法は与えるキーワードの数を増やすことによっ
て抽出すべき情報を多く出力することができる。しかし
文章構造を無視し、単純にキーワードが出現したか否か
によって出力が決定されるため、抽出された出力には単
語間の関係が成立しない不適切な情報が多く含まれてい
た。またキーワードとして登録されていない語に対して
は情報抽出を行なうことはできなかった。構文解析を利
用する方法は文章の構文構造を認定するため、正しい抽
出結果を得ることができる。しかし、構文解析技術だけ
では構文上の曖昧性を解消しきれず、正しい解析木を得
ることが難しかった。このため、実際の文書へ適応した
場合、情報が含まれている文書を抽出できない場合が多
くあった。
【0004】本発明の目的はキーワード間の関係を認定
しながら構文解析を行うことによって正しい情報を数多
く、かつ正確に抽出することである。
【0005】
【課題を解決するための手段】第1の発明は、自然言語
で記述された文書を入力として受けつける文書入力部
と、形態素とその形態素毎に構文情報を記した形態素辞
書部と、予め決められた抽出すべき情報の分野に関する
キーワードとそのキーワード毎に最終的に出力すべき形
式内でそのキーワードが果たす役割を記述したキーワー
ド辞書と、前記文書入力部から入力された文を語切り
し、前記形態素辞書部、前記キーワード辞書部の辞書内
容を各語に割り当てる形態素解析部と、前記形態素辞書
部に格納された構文情報を利用して、入力文の構文解析
を行う規則を格納した構文解析規則格納部と、キーワー
ドに与えられたキーワード情報によって構文解析規則を
制御しながら、キーワード間関係を示す意味構造を生成
する規則を格納したキーワード間関係計算規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則を用いて、前記形態素解析部で
形態素解析された文を解析し、キーワード間関係を示す
意味構造を出力する文書情報抽出部と、前記文書情報抽
出部が出力した文書全体の意味構造を出力形式に変換
し、出力する抽出結果出力部を備えていることを特徴と
する。
【0006】第2の発明は、第1の発明において、前記
キーワード辞書部に存在しない形態素列を構文構造から
キーワードとして推定するキーワード推定規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則と前記キーワード推定規則格納
部に格納されたキーワード推定規則を用いて、前記形態
素解析部で形態素解析された文を解析し、キーワード間
関係を示す意味構造を出力する文書情報抽出部を備えて
いることを特徴とする。
【0007】
【実施例】次に本発明について図面を参照して説明す
る。
【0008】図1は第1の発明の一実施例を示すブロッ
ク図である。図1を参照すると本発明は、自然言語で記
述された文書を入力として受けつける文書入力部1と、
形態素とその形態素毎に構文情報を記した形態素辞書部
2と、予め決められた抽出すべき情報の分野に関するキ
ーワードとそのキーワード毎に最終的に出力すべき形式
内でそのキーワードが果たす役割を記述したキーワード
辞書3と、前記文書入力部1から入力された文を語切り
し、前記形態素辞書部2、前記キーワード辞書部3の辞
書内容を各語に割り当てる形態素解析部4と、前記形態
素辞書部2に格納された構文情報を利用して、入力文の
構文解析を行う規則を格納した構文解析規則格納部5
と、キーワードに与えられたキーワード情報によって構
文解析規則を制御しながら、キーワード間関係を示す意
味構造を生成する規則を格納したキーワード間関係計算
規則格納部6と、前記構文解析規則格納部5に格納され
た構文解析規則と前記キーワード間関係計算規則格納部
6に格納されたキーワード間関係計算規則を用いて、前
記形態素解析部4で形態素解析された文を解析し、キー
ワード間関係を示す意味構造を出力する文書情報抽出部
7と、前記文書情報抽出部7が出力した文書全体の意味
構造を出力形式に変換し、出力する抽出結果出力部8か
ら構成される。
【0009】図2は第2の発明の一実施例を示すブロッ
ク図である。図2を参照すると本発明は第1の発明に加
え、前記キーワード辞書部2に存在しない形態素列を構
文構造からキーワードとして推定するキーワード推定規
則格納部9を備えている。このとき文書情報抽出部7は
前記構文解析規則格納部5に格納された構文解析規則と
前記キーワード間関係計算規則格納部6に格納されたキ
ーワード間関係計算規則に加え、前記キーワード推定規
則格納部9に格納されたキーワード推定規則を用いて、
前記形態素解析部4で形態素解析された文を解析し、キ
ーワード間関係を示す意味構造を出力する。
【0010】次に図1、図2を参照して、本発明の実施
例の動作について説明する。
【0011】本発明の一実施例として半導体製造工程で
あるレイヤリングの装置をどこが開発、製造や販売して
いるか、あるいは利用しているかという情報を抽出する
場合を考える。また、例えば図3のような出力形式が与
えられたとする。ここで図3で示された関係の欄には開
発、製造、販売、利用の中から当てはまるもののいくつ
かが入り、企業、装置にはそれぞれ関係欄の関係にある
企業と装置が埋められる。
【0012】例えば、「日本電気がスパッタリング装置
を開発した」という文が文書入力部1から入力されたと
する。この文が形態素解析部4によって語切りされ、そ
の各々の語に形態素辞書部2とキーワード辞書部3の辞
書情報が与えられる。ここで、「日本電気」、「CVD
装置」、「開発」がそれぞれ企業名、装置名、関係のキ
ーワードであるとき、構文構造からこれら3つのキーワ
ードに関係があると認定でき、図3の出力を得ることが
できる。
【0013】また、キーワードを用いる方法では、例え
ば「日本電気」が企業名キーワードとして登録されてい
ない場合、図2の情報を抽出することができない。これ
に対し、本発明では、キーワード推定規則格納部9に格
納されたキーワード推定規則によって、「日本電気」と
いう文字列は「装置を開発した」という文の主語に立っ
ているため装置の開発者であると推定して、「日本電
気」を企業名として認定することもできる。これため
「日本電気」がキーワードとして登録されていない場合
でも、図3の出力を得ることができる。
【0014】またキーワードの出現だけでは誤って情報
を抽出してしまう文も、構文構造を利用して抽出すべき
情報が存在しないとして認定することができる。
【0015】例えば、「日本電気がスパッタリングの材
料を開発した」という文には「日本電気」、「スパッタ
リング」、「開発」という3種のキーワードが含まれて
おり、キーワードの出現だけで判断すると図3の情報を
抽出してしまう。しかし、「スパッタリング」という装
置キーワードは「材料」に係っており、日本電気が開発
したのは材料である。本発明では構文構造から「日本電
気が材料を開発した」ことを検出することができ、図4
に示すように開発したのはレイヤリング装置でないとし
て認定することができる。
【0016】さらに本発明はキーワードに含まれる語彙
知識を利用することによって、構文解析時に生じる曖昧
性を減少させることができる。
【0017】例えば、 1)「日本電気がスパッタリング装置とCVD装置を開
発した」 2)「日本電気が住友金属工業とCVD装置を開発し
た」 という2つの文は構文構造に曖昧性があることを示して
いる。すなわち、どちらも「AがBとCを開発した」と
格助詞の並びが同等であるにも関わらず、1)でBはC
と並列構造をなし、2)でBは随伴格としてAと共に開
発に係る。これらの曖昧性は文法情報だけでは解消でき
ない。これに対し本発明では「日本電気」、「住友金属
工業」を企業キーワード、「スパッタリング装置」、
「CVD装置」を装置キーワードとして認定することが
できる。このため、同種のキーワードから並列構造が成
り立つというキーワード間関係規則を利用することによ
り、図5に示すように、1)では「スパッタリング装
置」と「CVD装置」を、2)では「日本電気」と「住
友金属工業」を並列として認定することができる。
【0018】
【発明の効果】本発明では十分なキーワードを与えるこ
とによって正しい出力を多く抽出することができる。ま
た抽出すべき情報がキーワード間の関係を認定した結果
として生成されているため、誤った抽出結果の出力を減
少することができる。また与えられたキーワードが不十
分な場合でも構文構造からキーワードとなるべき語を認
定することが可能なため、正しい出力をより多く抽出す
ることができる。さらに構文解析を行いつつ、キーワー
ド間の関係からなる意味構造を生成しているため、構文
的な曖昧性を大幅に減少することができる。構文解析で
はキーワードに含まれる語彙知識を利用しているため、
構文規則を制御するため曖昧性を少なくすることができ
る。また、キーワードとして登録されていない語も構文
構造からキーワードとして推定することができ、これら
についても情報を抽出することができる。
【図面の簡単な説明】
【図1】第1の発明の一実施例であるブロック図を説明
する図である。
【図2】第2の発明の一実施例であるブロック図を説明
する図である。
【図3】本発明の一実施例の入出力を説明する図であ
る。
【図4】本発明の一実施例の入出力を説明する図であ
る。
【図5】本発明の一実施例の入出力を説明する図であ
る。
【符号の説明】
1 文書入力部 2 形態素辞書部 3 キーワード辞書部 4 形態素解析部 5 構文解析規則格納部 6 キーワード間関係計算規則格納部 7 文書情報抽出部 8 抽出結果出力部 9 キーワード推定規則格納部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文書を入力として
    受けつける文書入力部と、形態素とその形態素毎に構文
    情報を記した形態素辞書部と、予め決められた抽出すべ
    き情報の分野に関するキーワードとそのキーワード毎に
    最終的に出力すべき形式内でそのキーワードが果たす役
    割を記述したキーワード辞書と、前記文書入力部から入
    力された文を語切りし、前記形態素辞書部、前記キーワ
    ード辞書部の辞書内容を各語に割り当てる形態素解析部
    と、前記形態素辞書部に格納された構文情報を利用し
    て、入力文の構文解析を行う規則を格納した構文解析規
    則格納部と、キーワードに与えられたキーワード情報に
    よって構文解析規則を制御しながら、キーワード間関係
    を示す意味構造を生成する規則を格納したキーワード間
    関係計算規則格納部と、前記構文解析規則格納部に格納
    された構文解析規則と前記キーワード間関係計算規則格
    納部に格納されたキーワード間関係計算規則を用いて、
    前記形態素解析部で形態素解析された文を解析し、キー
    ワード間関係を示す意味構造を出力する文書情報抽出部
    と、前記文書情報抽出部が出力した文書全体の意味構造
    を出力形式に変換し、出力する抽出結果出力部を備えて
    いることを特徴とする情報抽出装置。
  2. 【請求項2】 前記キーワード辞書部に存在しない形態
    素列を構文構造からキーワードとして推定するキーワー
    ド推定規則格納部と、前記構文解析規則格納部に格納さ
    れた構文解析規則と前記キーワード間関係計算規則格納
    部に格納されたキーワード間関係計算規則と前記キーワ
    ード推定規則格納部に格納されたキーワード推定規則を
    用いて、前記形態素解析部で形態素解析された文を解析
    し、キーワード間関係を示す意味構造を出力する文書情
    報抽出部を備えていることを特徴とする請求項1記載の
    情報抽出装置。
JP5230701A 1993-09-17 1993-09-17 情報抽出装置 Expired - Lifetime JP2546515B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5230701A JP2546515B2 (ja) 1993-09-17 1993-09-17 情報抽出装置
US08/304,945 US5774845A (en) 1993-09-17 1994-09-13 Information extraction processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5230701A JP2546515B2 (ja) 1993-09-17 1993-09-17 情報抽出装置

Publications (2)

Publication Number Publication Date
JPH0785071A true JPH0785071A (ja) 1995-03-31
JP2546515B2 JP2546515B2 (ja) 1996-10-23

Family

ID=16911968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5230701A Expired - Lifetime JP2546515B2 (ja) 1993-09-17 1993-09-17 情報抽出装置

Country Status (1)

Country Link
JP (1) JP2546515B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006926B2 (en) 2003-02-07 2006-02-28 Tdk Corporation Carbon dioxide sensor
JP2009032118A (ja) * 2007-07-27 2009-02-12 Nec Corp 情報構造化装置、情報構造化方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006926B2 (en) 2003-02-07 2006-02-28 Tdk Corporation Carbon dioxide sensor
JP2009032118A (ja) * 2007-07-27 2009-02-12 Nec Corp 情報構造化装置、情報構造化方法、及びプログラム

Also Published As

Publication number Publication date
JP2546515B2 (ja) 1996-10-23

Similar Documents

Publication Publication Date Title
US8185377B2 (en) Diagnostic evaluation of machine translators
US5774845A (en) Information extraction processor
JPH02159674A (ja) 意味解析装置と構文解析装置
JP2003196274A (ja) 構文解析方法及び装置
Orasmaa et al. Estnltk-nlp toolkit for estonian
JPH02165378A (ja) 機械翻訳システム
Nasr et al. MACAON an NLP tool suite for processing word lattices
Varshini et al. A recognizer and parser for basic sentences in telugu using cyk algorithm
US7562009B1 (en) Linguistic processing platform, architecture and methods
JPH0261763A (ja) 機械翻訳装置
JP2546515B2 (ja) 情報抽出装置
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2009128967A (ja) 文書検索装置
Kameyama Information extraction across linguistic barriers
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Bourbakis et al. An SPN based methodology for document understanding
JP2715875B2 (ja) 多言語要約生成装置
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3113257B2 (ja) 機械翻訳装置
Meurer Towards a Treebank of Abkhaz The AbNC, Analysing Abkhaz, and the Importance of Good Tools
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0287273A (ja) 自動翻訳装置
KR100413966B1 (ko) 한국어 표준 문형 규칙에 의한 표준 문형 유도 장치 및 그방법
Kang et al. Automatic Extraction of Base Noun Phrases from Law Corpus by Stanza
JP3827191B2 (ja) 係り受け関係解析装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070808

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100808

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110808

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120808

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130808

Year of fee payment: 17