JP2000207407A - 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体 - Google Patents

情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体

Info

Publication number
JP2000207407A
JP2000207407A JP11006202A JP620299A JP2000207407A JP 2000207407 A JP2000207407 A JP 2000207407A JP 11006202 A JP11006202 A JP 11006202A JP 620299 A JP620299 A JP 620299A JP 2000207407 A JP2000207407 A JP 2000207407A
Authority
JP
Japan
Prior art keywords
word
information
relation
document
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11006202A
Other languages
English (en)
Inventor
Keiichi Hirota
啓一 廣田
Yutaka Sasaki
裕 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11006202A priority Critical patent/JP2000207407A/ja
Publication of JP2000207407A publication Critical patent/JP2000207407A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多様な対象分野における文書に対し、文書の
分野及び利用者の目的・要求に応じた柔軟な情報抽出を
行うことが可能な情報抽出方法及び装置及び情報抽出プ
ログラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、個々の文書中に出現する単語
を、語彙間の意味的関係を体系化した辞書であるオント
ロジ辞書上に記述された、抽出すべき情報の要素となる
単語である抽出対象語に読み替えて、格納し、文書中に
認識された抽出対象語をオントロジ辞書上に記述された
語彙間の意味的関係を用いて、該文書中に出現しない関
係を補足しつつ、該オントロジ辞書中で利用者の興味を
端的に示す指標である中心語に対する単語関係列へと展
開し、得られた該単語関係列を格納し、個々の単語関係
列を、部分的な単語の関係や記事全体の語の用いられ方
に基づいて、属性名と属性値からなる関係に変換し、得
られた関係を格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報抽出方法及び
装置及び情報抽出プログラムを格納した記憶媒体に係
り、文書情報をコンピュータが理解することによって処
理を行う自然言語処理技術、情報検索技術、情報抽出技
術及び情報整理・統合技術等の情報抽出方法及び装置及
び情報抽出プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】文書中に記載されている重要情報を抽出
することを一般に情報抽出という。従来の情報抽出手法
では、情報抽出機構の作成者がテンプレートと呼ばれる
表を予め決定する。当該テンプレートは、「発売日」と
いったいくつかの抽出対象項目名とその抽出対象語を入
れるための空欄からなる表である。次に、情報抽出機構
の作成者は当該テンプレートの空欄を埋めるための抽出
規則を予め分野毎、テンプレート毎に用意する。従来の
方法において、抽出規則は、当該テンプレートの各項目
について抽出対象情報の文書中での現れ方の文法的なパ
ターンを記述したものである。
【0003】利用者からある文書について情報抽出要求
を受け取ると、先に準備した当該抽出規則が適用できる
文を文書中から探し、抽出規則により抽出対象情報とし
て認識された情報を抽出する(例えば、松尾比呂志、木
本晴夫、「抽出パターンの階層的照合に基づく日本語テ
キストからの内容抽出法」、情報処理学会論文誌、Vol.
36.No.8, 1995 )。このような手法では、抽出規則が適
用可能などうかを調べることにより情報抽出が行えるた
めに処理が高速であり、かつ適切な抽出規則を大量に記
述すれば充分な抽出精度を得ることが可能である。
【0004】
【発明が解決しようとする課題】しかし、上記の従来の
方法では、適切な抽出規則を記述するためには、対象と
なる分野の文書について抽出すべき情報の要素となる抽
出対象語を人の目から見て判断し、その抽出対象語が文
書中に書かれる形式を人手により準備する必要があり、
一分野の抽出規則を記述するのにかなりの時間と労力を
必要とする。
【0005】また、自動あるいは半自動的な手法によっ
て抽出規則を作成するためには、当該テンプレートに対
応した大量の文書と各文書からの情報抽出の正解例を準
備する必要があり、この正解例を人手により作成するに
は、やはりかなりの時間と労力が必要である。このよう
に、従来の情報抽出手法では、予め抽出対象項目がテン
プレートにより固定されており、抽出対象を拡大するた
めには、抽出規則を含めた情報抽出機構を変更すること
が必要である。また、各分野における抽出規則を記述す
るためには、抽出すべき情報の要素との形式を事前に充
分に準備する必要があり、なおかつ適切な抽出規則とし
て記述することは多大な労力と時間を伴うために、多様
な分野の文書に対応した情報抽出を実現することは容易
ではない。
【0006】さらに、抽出規則は人手によって選定され
た少ない抽出対象語を抽出するものであり、準備した範
囲での抽出規則しか適用できない。このため、分野文書
に記述された多様な情報を充分に抽出できず、ユーザの
要求を満足する情報を完全には得られないという問題が
ある。本発明は、上記の点に鑑みなされたもので、従来
の情報抽出手法におけるテンプレートによる抽出対象の
制限と、抽出規則記述の時間と労力のために多様な分野
への対応性に欠けるという問題点、抽出規則記述の限界
のために抽出対象となる情報の多様性に欠けるという問
題点を解決し、多様な対象分野における文書に対し、文
書の分野及び利用者の目的・要求に応じた柔軟な情報抽
出を行うことが可能な情報抽出方法及び装置及び情報抽
出プログラムを格納した記憶媒体を提供することを目的
とする。
【0007】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、文書
情報から情報抽出する情報抽出方法において、個々の文
書中に出現する単語を、語彙間の意味的関係を体系化し
た辞書であるオントロジ辞書上に記述された、抽出すべ
き情報の要素となる単語である抽出対象語に読み替え
て、格納し(ステップ1)、文書中に認識された抽出対
象語をオントロジ辞書上に記述された語彙間の意味的関
係を用いて、該文書中に出現しない関係を補足しつつ、
該オントロジ辞書中で利用者の興味を端的に示す指標で
ある中心語に対する単語関係列へと展開し、得られた該
単語関係列を格納し(ステップ2)、個々の単語関係列
を、部分的な単語の関係や記事全体の語の用いられ方に
基づいて、属性名と属性値からなる関係に変換し、得ら
れた関係を格納する(ステップ3)。
【0008】図2は、本発明の原理構成図である。本発
明(請求項2)は、文書情報から情報抽出する情報抽出
装置であって、語彙間の意味的関係を体系化した辞書で
あるオントロジ辞書122と、文書集合を記憶する文書
集合記憶手段121と、文書集合記憶手段121の個々
の文書中に出現する単語を、オントロジ辞書上に記述さ
れた、抽出すべき情報の要素となる単語である抽出対象
語に読み替える出現単語認識手段101と、出現単語認
識手段101で取得した抽出対象語を格納する出現単語
記憶手段123と、出現単語記憶手段123の文書中の
認識された抽出対象語をオントロジ辞書122上に記述
された語彙間の意味的関係を用いて、該文書中に出現し
ない関係を補足しつつ、該オントロジ辞書中で利用者の
興味を端的に示す指標である中心語に対する単語関係列
へと展開する単語関係展開手段102と、単語関係展開
手段102で得られた該単語関係列を格納する情報関係
記憶手段124と、情報関係記憶手段124の個々の単
語関係列を、部分的な単語の関係や記事全体の語の用い
られ方に基づいて、属性名と属性値からなる関係に変換
する情報関係変換手段103と、情報関係変換手段10
3で得られた関係を格納する抽出情報記憶手段125と
を有する。
【0009】本発明(請求項3)は、文書情報から情報
抽出する情報抽出プログラムを格納した記憶媒体であっ
て、個々の文書中に出現する単語を、語彙間の意味的関
係を体系化した辞書であるオントロジ辞書上に記述され
た、抽出すべき情報の要素となる単語である抽出対象語
に読み替えて格納する出現単語認識プロセスと、文書中
の認識された抽出対象語をオントロジ辞書上に記述され
た語彙間の意味的関係を用いて、該文書中に出現しない
関係を補足しつつ、該オントロジ辞書中で利用者の興味
を端的に示す指標である中心語に対する単語関係列へと
展開し、格納する単語関係展開プロセスと、個々の単語
関係列を、部分的な単語の関係や記事全体の語の用いら
れ方に基づいて、属性名と属性値からなる関係に変換
し、格納する情報関係変換プロセスとを有する。
【0010】上記のように、本発明では、従来の手法で
用いられてきたテンプレートや抽出規則を利用せずに、
代わりに語彙の意味的体系を示す辞書であるオントロジ
辞書を利用することにより、分野に依存しない一般的な
手法として情報抽出を可能とする。具体的には、文書中
に出現する単語が示す抽出対象語をオントロジ辞書上で
同定し、当該文書中に記述されている抽出対象語間の関
係を、オントロジ辞書中に記述される抽出対象語間の関
係の認識と当該文書中に記述されない抽出対象語の補完
によって、より明確な関係へと展開し、展開された抽出
対象語間の関係に基づいて最終的な出力形式に合わせる
関係変換を行うことにより、当該文書からの情報抽出を
分野に依存しない手法により実現することを可能とす
る。分野に依存する語の関係はオントロジ辞書に含まれ
ているため、情報抽出手法自体は分野に依存しない一般
的な手法となる。これにより、大規模な汎用オントロジ
辞書を利用すれば、オントロジ辞書を含めた手法・機構
の全体が分野に依存しない。
【0011】また、オントロジ辞書を分野毎に用意する
ことにより、従来手法で行っていたような特定の分野に
特化した情報抽出が可能となる。
【0012】
【発明の実施の形態】図3は、本発明の情報抽出装置の
構成を示す。同図に示す情報抽出装置は、出現単語認識
部101、単語関係展開部102、情報関係変換部10
3、文書集合を記憶する文書集合記憶部121、オント
ロジ辞書を格納するオントロジ記憶部122、出現単語
認識部101で取得した出現単語を記憶する出現単語記
憶部123、情報関係記憶部124、抽出情報記憶部1
25から構成される。
【0013】出現単語認識部101は、文書集合記憶部
121に記憶されている個々の文書中に出現する単語
を、オントロジ記憶部122のオントロジ辞書に記述さ
れた、抽出すべき情報の要素となる抽出対象語に読み替
えて、出現単語記憶部123に格納する。単語関係展開
部102は、出現単語認識部101で文書中に認識され
た抽出対象語をオントロジ辞書上に記述された語彙間の
意味的関係を用いて、当該文書中に出現しない関係を補
足しつつ、オントロジ辞書中で利用者の興味を端的に示
す指標である中心語に対する関係列へと展開し、得られ
た関係列を情報関係記憶部124に格納する。
【0014】情報関係変換部103は、個々の単語関係
列を、部分的な単語の関係や記事全体の語の用いられ方
に基づいて、属性名と属性値からなる関係に変換し、得
られた関係を、抽出情報記憶部125に格納する。上記
の構成における動作の概要を説明する。まず、文書集合
記憶部121に記憶された文書集合から一文書を取り出
し、出現単語認識部101により、当該文中に出現する
単語からオントロジ記憶部122にアクセスし、そこに
記述されている抽出対象語を取得し、当該抽出対象語を
当該文書における出現単語と共に、出現単語記憶部12
3に記憶する。
【0015】次に、単語関係展開部102は、出現単語
記憶部123に記憶された抽出対象語群について、個々
の抽出対象語に関して、中心語に到達するまでの間、中
心語に近い抽出対象語に向けて、オントロジ記憶部12
2のオントロジ辞書に記述されている単語関係を連鎖的
に探索し、個々の単語関係を結合した単語関係列を生成
する。以上の処理によって生成される単語関係列は、当
該文書中には出現しない抽出対象語や単語関係を補完し
たものであり、中心語と当該文書中の各抽出対象語との
間の詳細な関係を示すものである。単語関係列を情報関
係として情報関係記憶部124に格納する。
【0016】文書集合記憶部121に記憶されたすべて
の文書について、出現単語認識部101、単語関係展開
部102の処理が終了すると、情報関係記憶部124に
は各文書毎に中心語と抽出対象語との関係を示す情報関
係が記憶されていることになる。情報関係変換部103
は、これらの情報関係を、分野毎に一般的な抽出対象語
の部分と、記事に固有の抽出対象語との部分とに分割
し、個々の部分を構成する単語の関係に従って適切な表
現に変換する。このようにして得られる二項関係は、従
来の情報抽出手法における属性名と属性値の関係に相当
するため、二項関係は抽出情報となる。
【0017】なお、本発明に示した情報抽出手法によっ
て得られた文書集合からの抽出情報群をどのように出力
する方法を規定するものではなく、個々の文書毎の抽出
情報を一枚ずつ表形式で出力する、あるいは抽出情報す
べてを一枚の表形式で出力することも可能であるが、一
般には、抽出情報記憶部125に記憶された状態そのま
ま、あるいは、単純な形式変換によって、文書理解プロ
グラムなどの他のプログラムに渡され、利用されること
になる。
【0018】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では図3の構成に基づいて説明する。
本実施例では、サービス総合ディジタル網(以下、IS
DNと略記する)における接続機器の一種であるターミ
ナルアダプタ(以下、TAと略記する)に関する新製品
紹介文書を対象とする情報抽出の例を説明する。
【0019】まず、ユーザの興味の対象であるTAの新
製品に関して記述された文書の集合が与えられ、文書集
合記憶部121に記憶される。本実施例では、文書集合
記憶部121における文書集合の記憶の形式を規定する
ものではなく、他に全文書を文書番号や区切り記号とと
もにひとまとまりで記憶する、各文書を個々の文書番号
と共に記憶する、等が考えられる。
【0020】また、本発明では、ユーザの興味の対象で
ある分野、即ち、本実施例におけるISDNのTAに関
して、関連する文書を収集する方法については特に規定
しない。例えば、電子会議室、ネットニュースやワール
ドワイドウェブ(WWW)、及びニュースメールなどか
ら文書を収集すること等が考えられる。TAに関連した
オントロジ辞書は、オントロジ記憶部122に記憶され
ているものとする。図4は、オントロジ記憶部122に
記憶された、本実施例で用いられるオントロジ辞書の一
部分の例を示す。同図において、個々のノードは、抽出
対象語に対応し、ノード間のリンクは抽出対象語間の関
係を示し、リンクに付けられたタグは、抽出対象語間の
関係を明確にする関係子を示す。個々のノードには、抽
出対象語に関する情報として、例えば、抽出対象語の同
義語・類義語、異表記といった該当語彙などの情報を持
つ。また、オントロジ辞書において、ユーザの興味の対
象を端的に表した語は中心語として指定されている。同
図においては、「TA」が中心語である。リンクに付い
たタグである関係子は抽出対象語間の関係を明確にする
もので、例えば、「of」はある語に対し付随的な語、
「is_a」は、ある概念的な語の実例となる語、「i
s_value」はある概念的な語の実質的な値となる
語、「is_object」はある動作を示す語の動作
対象である語を示している。例えば、同図に記述されて
いる「メーカー」と「N社」は、「is_a」のタグの
付いたリンクにより結ばれている。以下の説明では、こ
のようなノードとリンクの関係を説明文中では「N社
is_aメーカー」と表記する。
【0021】なお、本実施例では、オントロジ辞書を木
構造で表現してオントロジ記憶部122に格納している
が、特に、当該記憶を木構造の表現として規定するもの
ではなく、抽出対象語自体と抽出対象語間の関係、抽出
対象語に関する情報などを関連付けて記憶できるならば
どのような表現形式でも良く、他にリストやテーブル構
造などで記憶することが考えられる。また、本発明で
は、オントロジ辞書に含まれる情報の種類や形態を限定
するものではない。本実施例では、個々の抽出対象語に
ついて、その同義語・類義語・異表記などの該当語彙、
他の抽出対象語との関係を情報として持つものとしてい
るが、本発明での情報はこれらに限定されるものではな
い。さらに、本発明では、オントロジ辞書を用意する方
法については特に規定しない。
【0022】処理を開始すると、まず、出現単語認識部
101は、文書集合記憶部121から文書を一つ取り出
す。本実施例において文書集合記憶部121から取り出
された処理対象文書の例を図5に示す。出現単語認識部
101では、当該文書中に出現する個々の単語をオント
ロジ記憶部122上で検索し、当該単語と適合する抽出
対象語もしくは適合する該当語彙を持つ抽出対象語につ
いて、抽出対象語と当該単語を出現単語記憶部123に
格納する。この検索において当該単語をオントロジ記憶
部122上に発見できなかった場合には、当該単語は情
報として重要でない単語であるものとして廃棄する。
【0023】なお、本実施例では、オントロジ記憶部1
22上に発見できなかった当該単語を単純に破棄してい
るが、当該単語の扱いに関しては、他に類義語辞書等の
別の辞書を参照する方法や、当該単語をオントロジ辞書
に追加する方法、当該単語を他の単語との共起関係や統
語的関係により破棄するかどうかを判定する方法等が考
えられる。また、文書中において当該単語と他の単語の
位置関係を得て、当該単語に近い位置にある抽出対象語
は当該単語に深く関連するものとして、当該単語を抽出
対象語に関連付けて抽出対象語とする方法も考えられ
る。
【0024】出現単語認識部101では、図5の処理対
象文書例においては、下線を引かれた部分を単語として
認識し、オントロジ記憶部122上で検索する。まず、
単語「N社」を認識し、オントロジ記憶部122上で当
該単語を抽出対象語「N社」に読み替えて、出現単語記
憶部123に格納する。以下同様の処理を行って、文書
中に存在する全ての単語についてオントロジ記憶部12
2を検索し、得られた抽出対象語を当該単語「N社」と
共に出現単語記憶部123に記憶する。本実施例におけ
る出現単語記憶部123の内容を図6に示す。
【0025】なお、本発明では、文書中の単語の認識と
オントロジ記憶部122の検索方法を規定するものでは
なく、当該文書を単語単位に分割し、各単語に該当する
抽出対象語をオントロジ記憶部122上で辞書引きでき
れば良く、例えば、形態素解析器を使って単語認識し、
オントロジ記憶部122上の抽出対象語及び抽出対象語
の該当語彙に合致する単語を検索するなどの方法があ
る。また、他に、オントロジ記憶部122上での検索効
率を上げるために、抽出対象語の該当語彙による索引フ
ァイルなどを用意し、出現単語から該当する抽出対象語
への辞書引きを容易にするなどの方法が考えられる。
【0026】また、本実施例では、個々の抽出対象語を
テーブル形式で表現して出現単語記憶部123に格納し
ているが、本発明では、当該記憶データをテーブル形式
の表現として規定するものではなく、出現単語と抽出対
象語に関する情報を関連付けて記憶できるならばどのよ
うな表現形式でも良く、他にリスト構造や一階述語の形
式などが考えられる。また、本実施例は、抽出対象語に
関連する情報について限定するものではない。関連する
情報として、当該抽出対象語の当該文書における出現位
置や当該文書集合における出現頻度などを持つことが考
えられる。
【0027】次に、単語関係展開部102は、出現単語
記憶部123に記憶された抽出対象語群について、個々
の抽出対象語に関して中心語に到達するまでの間、中心
語に近い抽出対象語に向けてオントロジ記憶部122に
おける単語関係を連鎖的に探索し、探索によって得られ
た個々の単語関係を順次結合して、抽出対象語を基幹と
する単語関係列を生成する。例えば、図6の出現単語記
憶部123に記憶された抽出対象語について、抽出対象
語「N社」からは「N社 is_a メーカー」をオン
トロジ記憶部122上に見つけ、続いて「メーカー o
f TA」を見つける。この2つの関係を結合して単語
関係列「N社 is_a メーカー of TA」を生
成する。また、同様に抽出対象語「DSU」からは、オ
ントロジ記憶部122上に、 「DSU is_object 内蔵」; 「内蔵 is_a 機能」; 「機能 of TA」; といった3つの関係を見つけ、この3つの関係を結合し
て単語関係列 「DSU is_object 内蔵 is_a 機能
of TA」 を生成する。以下、出現単語記憶部123に記憶された
抽出対象語群について、同様の処理を行う。
【0028】以上の処理によって生成される単語関係列
は、当該文書中には出現しない抽出対象語や単語関係を
補完したものであり、中心語と当該文書中の各抽出対象
語との間の情報として詳細な関係を示すものである。当
該単語関係列群に対し、内容が重複する単語関係列、一
方が他方の部分関係に該当する単語関係列を除去し、残
りの単語関係列群を情報関係として情報関係記憶部12
4に記憶する。本実施例における文書例について、情報
関係記憶部124に記憶された情報関係の例を図7に示
す。
【0029】なお、本実施例においては単語関係列の表
現形式を規定するものではない。本実施例では、各関係
を同一単語間で結合した文字列の形式とし、抽出対象
語、単語関係列、中心語の3つ組で情報関係記憶部12
4に格納しているが、他に個々の単語関係をリスト構造
や一階述語の形式で結合した形式で格納することも考え
られる。
【0030】文書集合記憶部121に記憶されたすべて
の文書について、上記の出現単語認識部101、単語関
係展開部102の処理が終了すると、情報関係記憶部1
24には、中心語と抽出対象語との関係を示す情報関係
が記憶されていることになる。情報関係変換部103に
より、まず、これらの情報関係から中心語「TA」との
関係列部分を削除し、残りの関係列部分について、関係
子を指標として、分野に一般的な属性情報部分と、当該
文書に固有の値情報部分とに分割する。例えば、情報関
係記憶部124に記憶された情報関係 「N社 is_a メーカー of TA」 であれば、中心語「TA」との関係列部分「of T
A」を取り除き、関係子「is_a」を分割の指標とし
て、分野に一般的な属性情報部分「メーカー」と、当該
文書に固有の値情報部分「N社」に分割する。また、情
報関係 「49,800円 is_value 標準価格 of
TA」 であれば、関係子「is_value」を分割の指標と
して分割する。当該情報関係中に分割の指標となる関係
子が複数含まれている場合には、分割性の強い関係子を
分割の指標とする。例えば、情報関係 「128Kbps is_value 同期 is_a
通信速度 of TA」 であれば、関係子「is_value」よりも関係子
「is_a」の方を分割性が強いとして、関係子「is
_a」を分割の指標として属性情報部分 「通信速度」と値情報部分「128Kbps is_v
alue 同期」 に分割する。
【0031】なお、本実施例では、情報関係を分割する
方法を、情報関係を構成する関係子の種類によって分割
する方法に限定するものではない。当該情報関係を分野
に一般的な部分と当該文書に固有の部分とに分割できれ
ば良く、例えば、他に、文書集合における当該情報部分
を構成する抽出対象語の出現頻度などによって分割の判
定を行うことが考えられる。
【0032】さらに、情報関係変換部103では、情報
部分を構成する個々の抽出対象語に対し、抽出対象語の
属性や抽出対象語同士の関係子に従って、統合、省略、
削除などの変換処理を行う。例えば、先の値情報部分 「128Kbps is_value 同期」 では、関係子「is_value」の左右にある抽出対
象語は順序を入れ替えて統合するといった変換規則によ
り、統合変換を行って、値情報部分を「同期128Kb
ps」に書き換える。また、 「DSU is_object 内蔵 is_a 機能
of TA」 という情報関係では、関係子「is_a」を指標とし
て、値情報部分「DSUis_object 内蔵」と
属性情報部分「機能」に分割することができ、さらに、
値情報部分において、関係子「is_object」の
左右にある抽出対象語は統合するといった変換規則によ
り、統合変換を行って、値情報部分において関係子「i
s_object」の左右になる抽出対象語は統合する
といった変換規則により、統合変換を行って、値情報部
分を「DSU内蔵」に書き換える。
【0033】なお、本実施例では、情報部分を変換する
方法を、本実施例における変換規則に限定するものでは
ない。当該情報部分に含まれる関係子を適切に処理し、
情報部分に含まれる抽出対象語を統合、省略、削除する
ような変換規則であれば良い。また、このような変換規
則は、オントロジ辞書において定義される関係子の性質
や、抽出対象語の表層的な関係により定めるものであ
り、本発明において規定するものではない。
【0034】このようにして得られた属性情報部分と値
情報部分は、従来の情報抽出手法における属性名と属性
値の関係に相当するため、当該情報部分の組を抽出情報
とし、抽出情報記憶部125に格納する。以下、情報関
係記憶部124に記憶された情報関係について、同様の
処理を行う。本実施例における抽出情報記憶部125の
内容を図8に示す。
【0035】情報関係記憶部124に記憶されたすべて
の文書の情報関係について、情報関係変換部103の処
理が終了すると、抽出情報記憶部125には、抽出対象
語、即ち、当該文書中に記述された情報となる単語に関
して、文書分野の中心語との関係を抽出し、文書分野の
一般的な表現に正規化して格納した抽出情報が得られて
いることになる。当該抽出情報を出力として一連の処理
を終了する。
【0036】なお、本実施例においては、抽出情報を出
力して処理を終了するが、抽出情報の出力方法に関して
は、図8のような一枚の表形式の例示に限定するもので
はない。他に、対象とする文書集合についてすべての抽
出情報をまとめあげ、名称やメーカーなど利用者の興味
・目的に従った、項目による一覧形式で表示することも
考えられる。また、ユーザの要求、あるいは、文書分野
によって特定される項目名によって、各抽出情報の属性
情報部分を統一するなどの処理も考えられる。
【0037】また、上記の実施例では、図3の構成に基
づいて説明したが、出現単語認識部101、単語関係展
開部102、情報関係変換部103をプログラムとして
構築し、情報抽出装置として利用されるコンピュータに
接続されるディスク装置やフロッピー(登録商標)、C
D−ROM等の可搬記憶媒体に格納しておき、本発明を
実施する際にインストールすることにより容易に本発明
を容易に実現することが可能である。
【0038】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0039】
【発明の効果】上述のように、本発明によれば、記事か
ら抽出することのできる情報の範囲及び概要は、分野に
特有の語彙体系であるオントロジ辞書に全て記述される
ため、オントロジ辞書上での抽出対象語及び抽出対象語
関係を探索する本発明の手法により、抽出対象語同士の
関係を抽出規則として予め準備することなく、認識する
ことができる。
【0040】また、本発明は、多様な分野の文書に対し
ても記事分野に応じたオントロジ辞書を差し替えること
により、抽出規則を書き換えることなく、同一の手法で
汎用的に情報抽出を行うことができる。このように、本
発明により、多様な対象分野における大量の文書に対
し、文書の分野及び利用者の目的・要求に応じた柔軟な
情報抽出を行うことができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】情報抽出装置の構成図である。
【図4】本発明の一実施例のオントロジ辞書の例であ
る。
【図5】本発明の一実施例の文書集合記憶部から取り出
される文書の例である。
【図6】本発明の一実施例の出現単語記憶部の格納内容
の例である。
【図7】本発明の一実施例の情報関係記憶部の格納内容
の例である。
【図8】本発明の一実施例の抽出情報記憶部の格納内容
の例である。
【符号の説明】
101 出現単語認識手段、出現単語認識部 102 単語関係展開手段、単語関係展開部 103 情報関係変換手段、情報関係変換部 121 文書集合記憶手段、文書集合記憶部 122 オントロジ辞書、オントロジ記憶部 123 出現単語記憶手段、出現単語記憶部 124 情報関係記憶手段、情報関係記憶部 125 抽出情報記憶手段、抽出情報記憶部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文書情報から情報抽出する情報抽出方法
    において、 個々の文書中に出現する単語を、語彙間の意味的関係を
    体系化した辞書であるオントロジ辞書上に記述された、
    抽出すべき情報の要素となる単語である抽出対象語に読
    み替えて、格納し、 前記文書中に認識された前記抽出対象語を前記オントロ
    ジ辞書上に記述された語彙間の意味的関係を用いて、該
    文書中に出現しない関係を補足しつつ、該オントロジ辞
    書中で利用者の興味を端的に示す指標である中心語に対
    する単語関係列へと展開し、得られた該単語関係列を格
    納し、 個々の前記単語関係列を、部分的な単語の関係や記事全
    体の語の用いられ方に基づいて、属性名と属性値からな
    る関係に変換し、得られた関係を格納することを特徴と
    する情報抽出方法。
  2. 【請求項2】 文書情報から情報抽出する情報抽出装置
    であって、 語彙間の意味的関係を体系化した辞書であるオントロジ
    辞書と、 文書集合を記憶する文書集合記憶手段と、 前記文書集合記憶手段の個々の文書中に出現する単語
    を、前記オントロジ辞書上に記述された、抽出すべき情
    報の要素となる単語である抽出対象語に読み替える出現
    単語認識手段と、 前記出現単語認識手段で取得した前記抽出対象語を格納
    する出現単語記憶手段と、 前記出現単語記憶手段の前記文書中の認識された前記抽
    出対象語を前記オントロジ辞書上に記述された語彙間の
    意味的関係を用いて、該文書中に出現しない関係を補足
    しつつ、該オントロジ辞書中で利用者の興味を端的に示
    す指標である中心語に対する単語関係列へと展開する単
    語関係展開手段と、 前記単語関係展開手段で得られた該単語関係列を格納す
    る情報関係記憶手段と、 前記情報関係記憶手段の個々の前記単語関係列を、部分
    的な単語の関係や記事全体の語の用いられ方に基づい
    て、属性名と属性値からなる関係に変換する情報関係変
    換手段と、 前記情報関係変換手段で得られた関係を格納する抽出情
    報記憶手段とを有することを特徴とする情報抽出装置。
  3. 【請求項3】 文書情報から情報抽出する情報抽出プロ
    グラムを格納した記憶媒体であって、 個々の文書中に出現する単語を、語彙間の意味的関係を
    体系化した辞書であるオントロジ辞書上に記述された、
    抽出すべき情報の要素となる単語である抽出対象語に読
    み替えて格納する出現単語認識プロセスと、 前記文書中の認識された前記抽出対象語を前記オントロ
    ジ辞書上に記述された語彙間の意味的関係を用いて、該
    文書中に出現しない関係を補足しつつ、該オントロジ辞
    書中で利用者の興味を端的に示す指標である中心語に対
    する単語関係列へと展開し、格納する単語関係展開プロ
    セスと、 個々の前記単語関係列を、部分的な単語の関係や記事全
    体の語の用いられ方に基づいて、属性名と属性値からな
    る関係に変換し、格納する情報関係変換プロセスとを有
    することを特徴とする情報抽出プログラムを格納した記
    憶媒体。
JP11006202A 1999-01-13 1999-01-13 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体 Pending JP2000207407A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11006202A JP2000207407A (ja) 1999-01-13 1999-01-13 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11006202A JP2000207407A (ja) 1999-01-13 1999-01-13 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2000207407A true JP2000207407A (ja) 2000-07-28

Family

ID=11631964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11006202A Pending JP2000207407A (ja) 1999-01-13 1999-01-13 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2000207407A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199885A (ja) * 2006-01-25 2007-08-09 Nec Corp 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム
JP2007233856A (ja) * 2006-03-02 2007-09-13 Sony Corp 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム
WO2008146807A1 (ja) 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP2010237867A (ja) * 2009-03-30 2010-10-21 Nomura Research Institute Ltd メタデータ自動付与システム及び方法
US9311300B2 (en) 2013-09-13 2016-04-12 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
JP2021077393A (ja) * 2021-01-26 2021-05-20 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199885A (ja) * 2006-01-25 2007-08-09 Nec Corp 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム
JP2007233856A (ja) * 2006-03-02 2007-09-13 Sony Corp 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム
WO2008146807A1 (ja) 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US8244769B2 (en) 2007-05-31 2012-08-14 Nec Corporation System and method for judging properties of an ontology and updating same
JP2010237867A (ja) * 2009-03-30 2010-10-21 Nomura Research Institute Ltd メタデータ自動付与システム及び方法
US9311300B2 (en) 2013-09-13 2016-04-12 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
US9665568B2 (en) 2013-09-13 2017-05-30 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
JP2021077393A (ja) * 2021-01-26 2021-05-20 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム
JP7116940B2 (ja) 2021-01-26 2022-08-12 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
US7519903B2 (en) Converting a structured document using a hash value, and generating a new text element for a tree structure
CN108228676B (zh) 信息抽取方法和系统
US20100185702A1 (en) Computer-Implemented System And Method For Tagged And Rectangular Data Processing
CN108647194B (zh) 信息抽取方法及装置
JP2002099561A (ja) データ変換方法およびデータ変換システム並びに記憶媒体
CN112732743B (zh) 一种基于中文自然语言的数据分析方法及装置
CN111104437A (zh) 基于对象模型的试验数据统一检索方法和系统
CN114706938B (zh) 一种文档标签确定方法、装置、电子设备及存储介质
JP4521343B2 (ja) 文書処理装置及び文書処理方法
CN108399157A (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
US11301441B2 (en) Information processing system and information processing method
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000207407A (ja) 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体
JPH11110384A (ja) 構造化文書検索表示方法及び装置
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
CN115345152B (zh) 模板库更新方法、报告解析方法、装置、设备及介质
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
TW482962B (en) Method of automatic extracting for key features in digital document
JP3747542B2 (ja) 統合化検索装置
JP2001325284A (ja) 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体
JP2003108582A (ja) 類義語抽出方法および文書検索装置
TW201734851A (zh) 片語提取方法及裝置
CN112632959A (zh) 一种epub文件解析方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法