JPH0785071A - 情報抽出装置 - Google Patents
情報抽出装置Info
- Publication number
- JPH0785071A JPH0785071A JP5230701A JP23070193A JPH0785071A JP H0785071 A JPH0785071 A JP H0785071A JP 5230701 A JP5230701 A JP 5230701A JP 23070193 A JP23070193 A JP 23070193A JP H0785071 A JPH0785071 A JP H0785071A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- information
- unit
- morpheme
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 238000004544 sputter deposition Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 4
- 239000002184 metal Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
野の情報を抽出し、単語間の関係を含む情報を一定の形
式で出力する情報抽出システムにおいて、抽出できない
情報を減少し、かつ抽出した情報に関しては正確に抽出
する。 【構成】 形態素解析部4は入力文書を形態素単位に語
切りした後、構文情報とキ抽出すべき情報の分野に関す
るキーワード情報を各形態素に割り当てる。構文解析規
則格納部5は構文情報を利用して入力文の構文解析を行
う規則を格納し、キーワード間関係計算規則格納部6は
キーワード情報によって構文解析規則を制御しながら、
キーワード間関係を示す意味構造を生成する規則を格納
し、文書情報抽出部7は構文解析規則とキーワード間関
係計算規則を用いて、形態素解析部4から出力された形
態素列をキーワード中心に解析し、キーワードとキーワ
ード間関係から成る意味構造を出力する。
Description
書を解析し、予め与えられた分野の情報を抽出し、文書
に含まれる単語間の関係を含む情報を一定の形式で出力
する情報抽出システムに関する。
関係まで抽出し、一定の形式で出力する情報抽出の手法
には、従来、キーワードの出現状況を利用する手法や、
構文解析を利用する手法があった。キーワードを利用す
る手法は抽出すべき情報の分野や出力すべき形式に関係
するキーワードを予め与え、入力文書内におけるキーワ
ードの出現や共起を基に情報抽出を行う手法である。し
かし、この手法は文章構造を無視しているため、キーワ
ードが含まれてはいるが単語間の関係が正しく成立しな
い不適切な情報を抽出する場合が多くあった。また構文
解析を利用する方法は構文解析によって得られた構文木
を再度解析して、意味に依らない一定の解釈木を生成し
ようとするものである。しかし、解析の対象が構文木で
あるため、わずかな構文木の違いによって抽出結果が異
なってしまう。
用する方法は与えるキーワードの数を増やすことによっ
て抽出すべき情報を多く出力することができる。しかし
文章構造を無視し、単純にキーワードが出現したか否か
によって出力が決定されるため、抽出された出力には単
語間の関係が成立しない不適切な情報が多く含まれてい
た。またキーワードとして登録されていない語に対して
は情報抽出を行なうことはできなかった。構文解析を利
用する方法は文章の構文構造を認定するため、正しい抽
出結果を得ることができる。しかし、構文解析技術だけ
では構文上の曖昧性を解消しきれず、正しい解析木を得
ることが難しかった。このため、実際の文書へ適応した
場合、情報が含まれている文書を抽出できない場合が多
くあった。
しながら構文解析を行うことによって正しい情報を数多
く、かつ正確に抽出することである。
で記述された文書を入力として受けつける文書入力部
と、形態素とその形態素毎に構文情報を記した形態素辞
書部と、予め決められた抽出すべき情報の分野に関する
キーワードとそのキーワード毎に最終的に出力すべき形
式内でそのキーワードが果たす役割を記述したキーワー
ド辞書と、前記文書入力部から入力された文を語切り
し、前記形態素辞書部、前記キーワード辞書部の辞書内
容を各語に割り当てる形態素解析部と、前記形態素辞書
部に格納された構文情報を利用して、入力文の構文解析
を行う規則を格納した構文解析規則格納部と、キーワー
ドに与えられたキーワード情報によって構文解析規則を
制御しながら、キーワード間関係を示す意味構造を生成
する規則を格納したキーワード間関係計算規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則を用いて、前記形態素解析部で
形態素解析された文を解析し、キーワード間関係を示す
意味構造を出力する文書情報抽出部と、前記文書情報抽
出部が出力した文書全体の意味構造を出力形式に変換
し、出力する抽出結果出力部を備えていることを特徴と
する。
キーワード辞書部に存在しない形態素列を構文構造から
キーワードとして推定するキーワード推定規則格納部
と、前記構文解析規則格納部に格納された構文解析規則
と前記キーワード間関係計算規則格納部に格納されたキ
ーワード間関係計算規則と前記キーワード推定規則格納
部に格納されたキーワード推定規則を用いて、前記形態
素解析部で形態素解析された文を解析し、キーワード間
関係を示す意味構造を出力する文書情報抽出部を備えて
いることを特徴とする。
る。
ク図である。図1を参照すると本発明は、自然言語で記
述された文書を入力として受けつける文書入力部1と、
形態素とその形態素毎に構文情報を記した形態素辞書部
2と、予め決められた抽出すべき情報の分野に関するキ
ーワードとそのキーワード毎に最終的に出力すべき形式
内でそのキーワードが果たす役割を記述したキーワード
辞書3と、前記文書入力部1から入力された文を語切り
し、前記形態素辞書部2、前記キーワード辞書部3の辞
書内容を各語に割り当てる形態素解析部4と、前記形態
素辞書部2に格納された構文情報を利用して、入力文の
構文解析を行う規則を格納した構文解析規則格納部5
と、キーワードに与えられたキーワード情報によって構
文解析規則を制御しながら、キーワード間関係を示す意
味構造を生成する規則を格納したキーワード間関係計算
規則格納部6と、前記構文解析規則格納部5に格納され
た構文解析規則と前記キーワード間関係計算規則格納部
6に格納されたキーワード間関係計算規則を用いて、前
記形態素解析部4で形態素解析された文を解析し、キー
ワード間関係を示す意味構造を出力する文書情報抽出部
7と、前記文書情報抽出部7が出力した文書全体の意味
構造を出力形式に変換し、出力する抽出結果出力部8か
ら構成される。
ク図である。図2を参照すると本発明は第1の発明に加
え、前記キーワード辞書部2に存在しない形態素列を構
文構造からキーワードとして推定するキーワード推定規
則格納部9を備えている。このとき文書情報抽出部7は
前記構文解析規則格納部5に格納された構文解析規則と
前記キーワード間関係計算規則格納部6に格納されたキ
ーワード間関係計算規則に加え、前記キーワード推定規
則格納部9に格納されたキーワード推定規則を用いて、
前記形態素解析部4で形態素解析された文を解析し、キ
ーワード間関係を示す意味構造を出力する。
例の動作について説明する。
あるレイヤリングの装置をどこが開発、製造や販売して
いるか、あるいは利用しているかという情報を抽出する
場合を考える。また、例えば図3のような出力形式が与
えられたとする。ここで図3で示された関係の欄には開
発、製造、販売、利用の中から当てはまるもののいくつ
かが入り、企業、装置にはそれぞれ関係欄の関係にある
企業と装置が埋められる。
を開発した」という文が文書入力部1から入力されたと
する。この文が形態素解析部4によって語切りされ、そ
の各々の語に形態素辞書部2とキーワード辞書部3の辞
書情報が与えられる。ここで、「日本電気」、「CVD
装置」、「開発」がそれぞれ企業名、装置名、関係のキ
ーワードであるとき、構文構造からこれら3つのキーワ
ードに関係があると認定でき、図3の出力を得ることが
できる。
ば「日本電気」が企業名キーワードとして登録されてい
ない場合、図2の情報を抽出することができない。これ
に対し、本発明では、キーワード推定規則格納部9に格
納されたキーワード推定規則によって、「日本電気」と
いう文字列は「装置を開発した」という文の主語に立っ
ているため装置の開発者であると推定して、「日本電
気」を企業名として認定することもできる。これため
「日本電気」がキーワードとして登録されていない場合
でも、図3の出力を得ることができる。
を抽出してしまう文も、構文構造を利用して抽出すべき
情報が存在しないとして認定することができる。
料を開発した」という文には「日本電気」、「スパッタ
リング」、「開発」という3種のキーワードが含まれて
おり、キーワードの出現だけで判断すると図3の情報を
抽出してしまう。しかし、「スパッタリング」という装
置キーワードは「材料」に係っており、日本電気が開発
したのは材料である。本発明では構文構造から「日本電
気が材料を開発した」ことを検出することができ、図4
に示すように開発したのはレイヤリング装置でないとし
て認定することができる。
知識を利用することによって、構文解析時に生じる曖昧
性を減少させることができる。
発した」 2)「日本電気が住友金属工業とCVD装置を開発し
た」 という2つの文は構文構造に曖昧性があることを示して
いる。すなわち、どちらも「AがBとCを開発した」と
格助詞の並びが同等であるにも関わらず、1)でBはC
と並列構造をなし、2)でBは随伴格としてAと共に開
発に係る。これらの曖昧性は文法情報だけでは解消でき
ない。これに対し本発明では「日本電気」、「住友金属
工業」を企業キーワード、「スパッタリング装置」、
「CVD装置」を装置キーワードとして認定することが
できる。このため、同種のキーワードから並列構造が成
り立つというキーワード間関係規則を利用することによ
り、図5に示すように、1)では「スパッタリング装
置」と「CVD装置」を、2)では「日本電気」と「住
友金属工業」を並列として認定することができる。
とによって正しい出力を多く抽出することができる。ま
た抽出すべき情報がキーワード間の関係を認定した結果
として生成されているため、誤った抽出結果の出力を減
少することができる。また与えられたキーワードが不十
分な場合でも構文構造からキーワードとなるべき語を認
定することが可能なため、正しい出力をより多く抽出す
ることができる。さらに構文解析を行いつつ、キーワー
ド間の関係からなる意味構造を生成しているため、構文
的な曖昧性を大幅に減少することができる。構文解析で
はキーワードに含まれる語彙知識を利用しているため、
構文規則を制御するため曖昧性を少なくすることができ
る。また、キーワードとして登録されていない語も構文
構造からキーワードとして推定することができ、これら
についても情報を抽出することができる。
する図である。
する図である。
る。
る。
る。
Claims (2)
- 【請求項1】 自然言語で記述された文書を入力として
受けつける文書入力部と、形態素とその形態素毎に構文
情報を記した形態素辞書部と、予め決められた抽出すべ
き情報の分野に関するキーワードとそのキーワード毎に
最終的に出力すべき形式内でそのキーワードが果たす役
割を記述したキーワード辞書と、前記文書入力部から入
力された文を語切りし、前記形態素辞書部、前記キーワ
ード辞書部の辞書内容を各語に割り当てる形態素解析部
と、前記形態素辞書部に格納された構文情報を利用し
て、入力文の構文解析を行う規則を格納した構文解析規
則格納部と、キーワードに与えられたキーワード情報に
よって構文解析規則を制御しながら、キーワード間関係
を示す意味構造を生成する規則を格納したキーワード間
関係計算規則格納部と、前記構文解析規則格納部に格納
された構文解析規則と前記キーワード間関係計算規則格
納部に格納されたキーワード間関係計算規則を用いて、
前記形態素解析部で形態素解析された文を解析し、キー
ワード間関係を示す意味構造を出力する文書情報抽出部
と、前記文書情報抽出部が出力した文書全体の意味構造
を出力形式に変換し、出力する抽出結果出力部を備えて
いることを特徴とする情報抽出装置。 - 【請求項2】 前記キーワード辞書部に存在しない形態
素列を構文構造からキーワードとして推定するキーワー
ド推定規則格納部と、前記構文解析規則格納部に格納さ
れた構文解析規則と前記キーワード間関係計算規則格納
部に格納されたキーワード間関係計算規則と前記キーワ
ード推定規則格納部に格納されたキーワード推定規則を
用いて、前記形態素解析部で形態素解析された文を解析
し、キーワード間関係を示す意味構造を出力する文書情
報抽出部を備えていることを特徴とする請求項1記載の
情報抽出装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5230701A JP2546515B2 (ja) | 1993-09-17 | 1993-09-17 | 情報抽出装置 |
| US08/304,945 US5774845A (en) | 1993-09-17 | 1994-09-13 | Information extraction processor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5230701A JP2546515B2 (ja) | 1993-09-17 | 1993-09-17 | 情報抽出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0785071A true JPH0785071A (ja) | 1995-03-31 |
| JP2546515B2 JP2546515B2 (ja) | 1996-10-23 |
Family
ID=16911968
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5230701A Expired - Lifetime JP2546515B2 (ja) | 1993-09-17 | 1993-09-17 | 情報抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2546515B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7006926B2 (en) | 2003-02-07 | 2006-02-28 | Tdk Corporation | Carbon dioxide sensor |
| JP2009032118A (ja) * | 2007-07-27 | 2009-02-12 | Nec Corp | 情報構造化装置、情報構造化方法、及びプログラム |
-
1993
- 1993-09-17 JP JP5230701A patent/JP2546515B2/ja not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7006926B2 (en) | 2003-02-07 | 2006-02-28 | Tdk Corporation | Carbon dioxide sensor |
| JP2009032118A (ja) * | 2007-07-27 | 2009-02-12 | Nec Corp | 情報構造化装置、情報構造化方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2546515B2 (ja) | 1996-10-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8185377B2 (en) | Diagnostic evaluation of machine translators | |
| US5774845A (en) | Information extraction processor | |
| JPH02159674A (ja) | 意味解析装置と構文解析装置 | |
| JP2003196274A (ja) | 構文解析方法及び装置 | |
| Orasmaa et al. | Estnltk-nlp toolkit for estonian | |
| JPH02165378A (ja) | 機械翻訳システム | |
| Nasr et al. | MACAON an NLP tool suite for processing word lattices | |
| Varshini et al. | A recognizer and parser for basic sentences in telugu using cyk algorithm | |
| US7562009B1 (en) | Linguistic processing platform, architecture and methods | |
| JPH0261763A (ja) | 機械翻訳装置 | |
| JP2546515B2 (ja) | 情報抽出装置 | |
| JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
| JP2009128967A (ja) | 文書検索装置 | |
| Kameyama | Information extraction across linguistic barriers | |
| JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
| Bourbakis et al. | An SPN based methodology for document understanding | |
| JP2715875B2 (ja) | 多言語要約生成装置 | |
| JP4033089B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
| JP3113257B2 (ja) | 機械翻訳装置 | |
| Meurer | Towards a Treebank of Abkhaz The AbNC, Analysing Abkhaz, and the Importance of Good Tools | |
| JP3972697B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
| JPH0287273A (ja) | 自動翻訳装置 | |
| KR100413966B1 (ko) | 한국어 표준 문형 규칙에 의한 표준 문형 유도 장치 및 그방법 | |
| Kang et al. | Automatic Extraction of Base Noun Phrases from Law Corpus by Stanza | |
| JP3827191B2 (ja) | 係り受け関係解析装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19960618 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070808 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080808 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080808 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090808 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090808 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100808 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110808 Year of fee payment: 15 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110808 Year of fee payment: 15 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120808 Year of fee payment: 16 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130808 Year of fee payment: 17 |