JP2000207407A

JP2000207407A - 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体

Info

Publication number: JP2000207407A
Application number: JP11006202A
Authority: JP
Inventors: Keiichi Hirota; 啓一廣田; Yutaka Sasaki; 裕佐々木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1999-01-13
Filing date: 1999-01-13
Publication date: 2000-07-28

Abstract

(57)【要約】【課題】多様な対象分野における文書に対し、文書の
分野及び利用者の目的・要求に応じた柔軟な情報抽出を
行うことが可能な情報抽出方法及び装置及び情報抽出プ
ログラムを格納した記憶媒体を提供する。【解決手段】本発明は、個々の文書中に出現する単語
を、語彙間の意味的関係を体系化した辞書であるオント
ロジ辞書上に記述された、抽出すべき情報の要素となる
単語である抽出対象語に読み替えて、格納し、文書中に
認識された抽出対象語をオントロジ辞書上に記述された
語彙間の意味的関係を用いて、該文書中に出現しない関
係を補足しつつ、該オントロジ辞書中で利用者の興味を
端的に示す指標である中心語に対する単語関係列へと展
開し、得られた該単語関係列を格納し、個々の単語関係
列を、部分的な単語の関係や記事全体の語の用いられ方
に基づいて、属性名と属性値からなる関係に変換し、得
られた関係を格納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報抽出方法及び
装置及び情報抽出プログラムを格納した記憶媒体に係
り、文書情報をコンピュータが理解することによって処
理を行う自然言語処理技術、情報検索技術、情報抽出技
術及び情報整理・統合技術等の情報抽出方法及び装置及
び情報抽出プログラムを格納した記憶媒体に関する。

【０００２】

【従来の技術】文書中に記載されている重要情報を抽出
することを一般に情報抽出という。従来の情報抽出手法
では、情報抽出機構の作成者がテンプレートと呼ばれる
表を予め決定する。当該テンプレートは、「発売日」と
いったいくつかの抽出対象項目名とその抽出対象語を入
れるための空欄からなる表である。次に、情報抽出機構
の作成者は当該テンプレートの空欄を埋めるための抽出
規則を予め分野毎、テンプレート毎に用意する。従来の
方法において、抽出規則は、当該テンプレートの各項目
について抽出対象情報の文書中での現れ方の文法的なパ
ターンを記述したものである。

【０００３】利用者からある文書について情報抽出要求
を受け取ると、先に準備した当該抽出規則が適用できる
文を文書中から探し、抽出規則により抽出対象情報とし
て認識された情報を抽出する（例えば、松尾比呂志、木
本晴夫、「抽出パターンの階層的照合に基づく日本語テ
キストからの内容抽出法」、情報処理学会論文誌、Vol.
36.No.8, 1995 ）。このような手法では、抽出規則が適
用可能などうかを調べることにより情報抽出が行えるた
めに処理が高速であり、かつ適切な抽出規則を大量に記
述すれば充分な抽出精度を得ることが可能である。

【０００４】

【発明が解決しようとする課題】しかし、上記の従来の
方法では、適切な抽出規則を記述するためには、対象と
なる分野の文書について抽出すべき情報の要素となる抽
出対象語を人の目から見て判断し、その抽出対象語が文
書中に書かれる形式を人手により準備する必要があり、
一分野の抽出規則を記述するのにかなりの時間と労力を
必要とする。

【０００５】また、自動あるいは半自動的な手法によっ
て抽出規則を作成するためには、当該テンプレートに対
応した大量の文書と各文書からの情報抽出の正解例を準
備する必要があり、この正解例を人手により作成するに
は、やはりかなりの時間と労力が必要である。このよう
に、従来の情報抽出手法では、予め抽出対象項目がテン
プレートにより固定されており、抽出対象を拡大するた
めには、抽出規則を含めた情報抽出機構を変更すること
が必要である。また、各分野における抽出規則を記述す
るためには、抽出すべき情報の要素との形式を事前に充
分に準備する必要があり、なおかつ適切な抽出規則とし
て記述することは多大な労力と時間を伴うために、多様
な分野の文書に対応した情報抽出を実現することは容易
ではない。

【０００６】さらに、抽出規則は人手によって選定され
た少ない抽出対象語を抽出するものであり、準備した範
囲での抽出規則しか適用できない。このため、分野文書
に記述された多様な情報を充分に抽出できず、ユーザの
要求を満足する情報を完全には得られないという問題が
ある。本発明は、上記の点に鑑みなされたもので、従来
の情報抽出手法におけるテンプレートによる抽出対象の
制限と、抽出規則記述の時間と労力のために多様な分野
への対応性に欠けるという問題点、抽出規則記述の限界
のために抽出対象となる情報の多様性に欠けるという問
題点を解決し、多様な対象分野における文書に対し、文
書の分野及び利用者の目的・要求に応じた柔軟な情報抽
出を行うことが可能な情報抽出方法及び装置及び情報抽
出プログラムを格納した記憶媒体を提供することを目的
とする。

【０００７】

【課題を解決するための手段】図１は、本発明の原理を
説明するための図である。本発明（請求項１）は、文書
情報から情報抽出する情報抽出方法において、個々の文
書中に出現する単語を、語彙間の意味的関係を体系化し
た辞書であるオントロジ辞書上に記述された、抽出すべ
き情報の要素となる単語である抽出対象語に読み替え
て、格納し（ステップ１）、文書中に認識された抽出対
象語をオントロジ辞書上に記述された語彙間の意味的関
係を用いて、該文書中に出現しない関係を補足しつつ、
該オントロジ辞書中で利用者の興味を端的に示す指標で
ある中心語に対する単語関係列へと展開し、得られた該
単語関係列を格納し（ステップ２）、個々の単語関係列
を、部分的な単語の関係や記事全体の語の用いられ方に
基づいて、属性名と属性値からなる関係に変換し、得ら
れた関係を格納する（ステップ３）。

【０００８】図２は、本発明の原理構成図である。本発
明（請求項２）は、文書情報から情報抽出する情報抽出
装置であって、語彙間の意味的関係を体系化した辞書で
あるオントロジ辞書１２２と、文書集合を記憶する文書
集合記憶手段１２１と、文書集合記憶手段１２１の個々
の文書中に出現する単語を、オントロジ辞書上に記述さ
れた、抽出すべき情報の要素となる単語である抽出対象
語に読み替える出現単語認識手段１０１と、出現単語認
識手段１０１で取得した抽出対象語を格納する出現単語
記憶手段１２３と、出現単語記憶手段１２３の文書中の
認識された抽出対象語をオントロジ辞書１２２上に記述
された語彙間の意味的関係を用いて、該文書中に出現し
ない関係を補足しつつ、該オントロジ辞書中で利用者の
興味を端的に示す指標である中心語に対する単語関係列
へと展開する単語関係展開手段１０２と、単語関係展開
手段１０２で得られた該単語関係列を格納する情報関係
記憶手段１２４と、情報関係記憶手段１２４の個々の単
語関係列を、部分的な単語の関係や記事全体の語の用い
られ方に基づいて、属性名と属性値からなる関係に変換
する情報関係変換手段１０３と、情報関係変換手段１０
３で得られた関係を格納する抽出情報記憶手段１２５と
を有する。

【０００９】本発明（請求項３）は、文書情報から情報
抽出する情報抽出プログラムを格納した記憶媒体であっ
て、個々の文書中に出現する単語を、語彙間の意味的関
係を体系化した辞書であるオントロジ辞書上に記述され
た、抽出すべき情報の要素となる単語である抽出対象語
に読み替えて格納する出現単語認識プロセスと、文書中
の認識された抽出対象語をオントロジ辞書上に記述され
た語彙間の意味的関係を用いて、該文書中に出現しない
関係を補足しつつ、該オントロジ辞書中で利用者の興味
を端的に示す指標である中心語に対する単語関係列へと
展開し、格納する単語関係展開プロセスと、個々の単語
関係列を、部分的な単語の関係や記事全体の語の用いら
れ方に基づいて、属性名と属性値からなる関係に変換
し、格納する情報関係変換プロセスとを有する。

【００１０】上記のように、本発明では、従来の手法で
用いられてきたテンプレートや抽出規則を利用せずに、
代わりに語彙の意味的体系を示す辞書であるオントロジ
辞書を利用することにより、分野に依存しない一般的な
手法として情報抽出を可能とする。具体的には、文書中
に出現する単語が示す抽出対象語をオントロジ辞書上で
同定し、当該文書中に記述されている抽出対象語間の関
係を、オントロジ辞書中に記述される抽出対象語間の関
係の認識と当該文書中に記述されない抽出対象語の補完
によって、より明確な関係へと展開し、展開された抽出
対象語間の関係に基づいて最終的な出力形式に合わせる
関係変換を行うことにより、当該文書からの情報抽出を
分野に依存しない手法により実現することを可能とす
る。分野に依存する語の関係はオントロジ辞書に含まれ
ているため、情報抽出手法自体は分野に依存しない一般
的な手法となる。これにより、大規模な汎用オントロジ
辞書を利用すれば、オントロジ辞書を含めた手法・機構
の全体が分野に依存しない。

【００１１】また、オントロジ辞書を分野毎に用意する
ことにより、従来手法で行っていたような特定の分野に
特化した情報抽出が可能となる。

【００１２】

【発明の実施の形態】図３は、本発明の情報抽出装置の
構成を示す。同図に示す情報抽出装置は、出現単語認識
部１０１、単語関係展開部１０２、情報関係変換部１０
３、文書集合を記憶する文書集合記憶部１２１、オント
ロジ辞書を格納するオントロジ記憶部１２２、出現単語
認識部１０１で取得した出現単語を記憶する出現単語記
憶部１２３、情報関係記憶部１２４、抽出情報記憶部１
２５から構成される。

【００１３】出現単語認識部１０１は、文書集合記憶部
１２１に記憶されている個々の文書中に出現する単語
を、オントロジ記憶部１２２のオントロジ辞書に記述さ
れた、抽出すべき情報の要素となる抽出対象語に読み替
えて、出現単語記憶部１２３に格納する。単語関係展開
部１０２は、出現単語認識部１０１で文書中に認識され
た抽出対象語をオントロジ辞書上に記述された語彙間の
意味的関係を用いて、当該文書中に出現しない関係を補
足しつつ、オントロジ辞書中で利用者の興味を端的に示
す指標である中心語に対する関係列へと展開し、得られ
た関係列を情報関係記憶部１２４に格納する。

【００１４】情報関係変換部１０３は、個々の単語関係
列を、部分的な単語の関係や記事全体の語の用いられ方
に基づいて、属性名と属性値からなる関係に変換し、得
られた関係を、抽出情報記憶部１２５に格納する。上記
の構成における動作の概要を説明する。まず、文書集合
記憶部１２１に記憶された文書集合から一文書を取り出
し、出現単語認識部１０１により、当該文中に出現する
単語からオントロジ記憶部１２２にアクセスし、そこに
記述されている抽出対象語を取得し、当該抽出対象語を
当該文書における出現単語と共に、出現単語記憶部１２
３に記憶する。

【００１５】次に、単語関係展開部１０２は、出現単語
記憶部１２３に記憶された抽出対象語群について、個々
の抽出対象語に関して、中心語に到達するまでの間、中
心語に近い抽出対象語に向けて、オントロジ記憶部１２
２のオントロジ辞書に記述されている単語関係を連鎖的
に探索し、個々の単語関係を結合した単語関係列を生成
する。以上の処理によって生成される単語関係列は、当
該文書中には出現しない抽出対象語や単語関係を補完し
たものであり、中心語と当該文書中の各抽出対象語との
間の詳細な関係を示すものである。単語関係列を情報関
係として情報関係記憶部１２４に格納する。

【００１６】文書集合記憶部１２１に記憶されたすべて
の文書について、出現単語認識部１０１、単語関係展開
部１０２の処理が終了すると、情報関係記憶部１２４に
は各文書毎に中心語と抽出対象語との関係を示す情報関
係が記憶されていることになる。情報関係変換部１０３
は、これらの情報関係を、分野毎に一般的な抽出対象語
の部分と、記事に固有の抽出対象語との部分とに分割
し、個々の部分を構成する単語の関係に従って適切な表
現に変換する。このようにして得られる二項関係は、従
来の情報抽出手法における属性名と属性値の関係に相当
するため、二項関係は抽出情報となる。

【００１７】なお、本発明に示した情報抽出手法によっ
て得られた文書集合からの抽出情報群をどのように出力
する方法を規定するものではなく、個々の文書毎の抽出
情報を一枚ずつ表形式で出力する、あるいは抽出情報す
べてを一枚の表形式で出力することも可能であるが、一
般には、抽出情報記憶部１２５に記憶された状態そのま
ま、あるいは、単純な形式変換によって、文書理解プロ
グラムなどの他のプログラムに渡され、利用されること
になる。

【００１８】

【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では図３の構成に基づいて説明する。
本実施例では、サービス総合ディジタル網（以下、ＩＳ
ＤＮと略記する）における接続機器の一種であるターミ
ナルアダプタ（以下、ＴＡと略記する）に関する新製品
紹介文書を対象とする情報抽出の例を説明する。

【００１９】まず、ユーザの興味の対象であるＴＡの新
製品に関して記述された文書の集合が与えられ、文書集
合記憶部１２１に記憶される。本実施例では、文書集合
記憶部１２１における文書集合の記憶の形式を規定する
ものではなく、他に全文書を文書番号や区切り記号とと
もにひとまとまりで記憶する、各文書を個々の文書番号
と共に記憶する、等が考えられる。

【００２０】また、本発明では、ユーザの興味の対象で
ある分野、即ち、本実施例におけるＩＳＤＮのＴＡに関
して、関連する文書を収集する方法については特に規定
しない。例えば、電子会議室、ネットニュースやワール
ドワイドウェブ（ＷＷＷ）、及びニュースメールなどか
ら文書を収集すること等が考えられる。ＴＡに関連した
オントロジ辞書は、オントロジ記憶部１２２に記憶され
ているものとする。図４は、オントロジ記憶部１２２に
記憶された、本実施例で用いられるオントロジ辞書の一
部分の例を示す。同図において、個々のノードは、抽出
対象語に対応し、ノード間のリンクは抽出対象語間の関
係を示し、リンクに付けられたタグは、抽出対象語間の
関係を明確にする関係子を示す。個々のノードには、抽
出対象語に関する情報として、例えば、抽出対象語の同
義語・類義語、異表記といった該当語彙などの情報を持
つ。また、オントロジ辞書において、ユーザの興味の対
象を端的に表した語は中心語として指定されている。同
図においては、「ＴＡ」が中心語である。リンクに付い
たタグである関係子は抽出対象語間の関係を明確にする
もので、例えば、「ｏｆ」はある語に対し付随的な語、
「ｉｓ＿ａ」は、ある概念的な語の実例となる語、「ｉ
ｓ＿ｖａｌｕｅ」はある概念的な語の実質的な値となる
語、「ｉｓ＿ｏｂｊｅｃｔ」はある動作を示す語の動作
対象である語を示している。例えば、同図に記述されて
いる「メーカー」と「Ｎ社」は、「ｉｓ＿ａ」のタグの
付いたリンクにより結ばれている。以下の説明では、こ
のようなノードとリンクの関係を説明文中では「Ｎ社
ｉｓ＿ａメーカー」と表記する。

【００２１】なお、本実施例では、オントロジ辞書を木
構造で表現してオントロジ記憶部１２２に格納している
が、特に、当該記憶を木構造の表現として規定するもの
ではなく、抽出対象語自体と抽出対象語間の関係、抽出
対象語に関する情報などを関連付けて記憶できるならば
どのような表現形式でも良く、他にリストやテーブル構
造などで記憶することが考えられる。また、本発明で
は、オントロジ辞書に含まれる情報の種類や形態を限定
するものではない。本実施例では、個々の抽出対象語に
ついて、その同義語・類義語・異表記などの該当語彙、
他の抽出対象語との関係を情報として持つものとしてい
るが、本発明での情報はこれらに限定されるものではな
い。さらに、本発明では、オントロジ辞書を用意する方
法については特に規定しない。

【００２２】処理を開始すると、まず、出現単語認識部
１０１は、文書集合記憶部１２１から文書を一つ取り出
す。本実施例において文書集合記憶部１２１から取り出
された処理対象文書の例を図５に示す。出現単語認識部
１０１では、当該文書中に出現する個々の単語をオント
ロジ記憶部１２２上で検索し、当該単語と適合する抽出
対象語もしくは適合する該当語彙を持つ抽出対象語につ
いて、抽出対象語と当該単語を出現単語記憶部１２３に
格納する。この検索において当該単語をオントロジ記憶
部１２２上に発見できなかった場合には、当該単語は情
報として重要でない単語であるものとして廃棄する。

【００２３】なお、本実施例では、オントロジ記憶部１
２２上に発見できなかった当該単語を単純に破棄してい
るが、当該単語の扱いに関しては、他に類義語辞書等の
別の辞書を参照する方法や、当該単語をオントロジ辞書
に追加する方法、当該単語を他の単語との共起関係や統
語的関係により破棄するかどうかを判定する方法等が考
えられる。また、文書中において当該単語と他の単語の
位置関係を得て、当該単語に近い位置にある抽出対象語
は当該単語に深く関連するものとして、当該単語を抽出
対象語に関連付けて抽出対象語とする方法も考えられ
る。

【００２４】出現単語認識部１０１では、図５の処理対
象文書例においては、下線を引かれた部分を単語として
認識し、オントロジ記憶部１２２上で検索する。まず、
単語「Ｎ社」を認識し、オントロジ記憶部１２２上で当
該単語を抽出対象語「Ｎ社」に読み替えて、出現単語記
憶部１２３に格納する。以下同様の処理を行って、文書
中に存在する全ての単語についてオントロジ記憶部１２
２を検索し、得られた抽出対象語を当該単語「Ｎ社」と
共に出現単語記憶部１２３に記憶する。本実施例におけ
る出現単語記憶部１２３の内容を図６に示す。

【００２５】なお、本発明では、文書中の単語の認識と
オントロジ記憶部１２２の検索方法を規定するものでは
なく、当該文書を単語単位に分割し、各単語に該当する
抽出対象語をオントロジ記憶部１２２上で辞書引きでき
れば良く、例えば、形態素解析器を使って単語認識し、
オントロジ記憶部１２２上の抽出対象語及び抽出対象語
の該当語彙に合致する単語を検索するなどの方法があ
る。また、他に、オントロジ記憶部１２２上での検索効
率を上げるために、抽出対象語の該当語彙による索引フ
ァイルなどを用意し、出現単語から該当する抽出対象語
への辞書引きを容易にするなどの方法が考えられる。

【００２６】また、本実施例では、個々の抽出対象語を
テーブル形式で表現して出現単語記憶部１２３に格納し
ているが、本発明では、当該記憶データをテーブル形式
の表現として規定するものではなく、出現単語と抽出対
象語に関する情報を関連付けて記憶できるならばどのよ
うな表現形式でも良く、他にリスト構造や一階述語の形
式などが考えられる。また、本実施例は、抽出対象語に
関連する情報について限定するものではない。関連する
情報として、当該抽出対象語の当該文書における出現位
置や当該文書集合における出現頻度などを持つことが考
えられる。

【００２７】次に、単語関係展開部１０２は、出現単語
記憶部１２３に記憶された抽出対象語群について、個々
の抽出対象語に関して中心語に到達するまでの間、中心
語に近い抽出対象語に向けてオントロジ記憶部１２２に
おける単語関係を連鎖的に探索し、探索によって得られ
た個々の単語関係を順次結合して、抽出対象語を基幹と
する単語関係列を生成する。例えば、図６の出現単語記
憶部１２３に記憶された抽出対象語について、抽出対象
語「Ｎ社」からは「Ｎ社ｉｓ＿ａメーカー」をオン
トロジ記憶部１２２上に見つけ、続いて「メーカーｏ
ｆＴＡ」を見つける。この２つの関係を結合して単語
関係列「Ｎ社ｉｓ＿ａメーカーｏｆＴＡ」を生
成する。また、同様に抽出対象語「ＤＳＵ」からは、オ
ントロジ記憶部１２２上に、「ＤＳＵｉｓ＿ｏｂｊｅｃｔ内蔵」；「内蔵ｉｓ＿ａ機能」；「機能ｏｆＴＡ」；といった３つの関係を見つけ、この３つの関係を結合し
て単語関係列「ＤＳＵｉｓ＿ｏｂｊｅｃｔ内蔵ｉｓ＿ａ機能
ｏｆＴＡ」を生成する。以下、出現単語記憶部１２３に記憶された
抽出対象語群について、同様の処理を行う。

【００２８】以上の処理によって生成される単語関係列
は、当該文書中には出現しない抽出対象語や単語関係を
補完したものであり、中心語と当該文書中の各抽出対象
語との間の情報として詳細な関係を示すものである。当
該単語関係列群に対し、内容が重複する単語関係列、一
方が他方の部分関係に該当する単語関係列を除去し、残
りの単語関係列群を情報関係として情報関係記憶部１２
４に記憶する。本実施例における文書例について、情報
関係記憶部１２４に記憶された情報関係の例を図７に示
す。

【００２９】なお、本実施例においては単語関係列の表
現形式を規定するものではない。本実施例では、各関係
を同一単語間で結合した文字列の形式とし、抽出対象
語、単語関係列、中心語の３つ組で情報関係記憶部１２
４に格納しているが、他に個々の単語関係をリスト構造
や一階述語の形式で結合した形式で格納することも考え
られる。

【００３０】文書集合記憶部１２１に記憶されたすべて
の文書について、上記の出現単語認識部１０１、単語関
係展開部１０２の処理が終了すると、情報関係記憶部１
２４には、中心語と抽出対象語との関係を示す情報関係
が記憶されていることになる。情報関係変換部１０３に
より、まず、これらの情報関係から中心語「ＴＡ」との
関係列部分を削除し、残りの関係列部分について、関係
子を指標として、分野に一般的な属性情報部分と、当該
文書に固有の値情報部分とに分割する。例えば、情報関
係記憶部１２４に記憶された情報関係「Ｎ社ｉｓ＿ａメーカーｏｆＴＡ」であれば、中心語「ＴＡ」との関係列部分「ｏｆＴ
Ａ」を取り除き、関係子「ｉｓ＿ａ」を分割の指標とし
て、分野に一般的な属性情報部分「メーカー」と、当該
文書に固有の値情報部分「Ｎ社」に分割する。また、情
報関係「４９，８００円ｉｓ＿ｖａｌｕｅ標準価格ｏｆ
ＴＡ」であれば、関係子「ｉｓ＿ｖａｌｕｅ」を分割の指標と
して分割する。当該情報関係中に分割の指標となる関係
子が複数含まれている場合には、分割性の強い関係子を
分割の指標とする。例えば、情報関係「１２８Ｋｂｐｓｉｓ＿ｖａｌｕｅ同期ｉｓ＿ａ
通信速度ｏｆＴＡ」であれば、関係子「ｉｓ＿ｖａｌｕｅ」よりも関係子
「ｉｓ＿ａ」の方を分割性が強いとして、関係子「ｉｓ
＿ａ」を分割の指標として属性情報部分「通信速度」と値情報部分「１２８Ｋｂｐｓｉｓ＿ｖ
ａｌｕｅ同期」に分割する。

【００３１】なお、本実施例では、情報関係を分割する
方法を、情報関係を構成する関係子の種類によって分割
する方法に限定するものではない。当該情報関係を分野
に一般的な部分と当該文書に固有の部分とに分割できれ
ば良く、例えば、他に、文書集合における当該情報部分
を構成する抽出対象語の出現頻度などによって分割の判
定を行うことが考えられる。

【００３２】さらに、情報関係変換部１０３では、情報
部分を構成する個々の抽出対象語に対し、抽出対象語の
属性や抽出対象語同士の関係子に従って、統合、省略、
削除などの変換処理を行う。例えば、先の値情報部分「１２８Ｋｂｐｓｉｓ＿ｖａｌｕｅ同期」では、関係子「ｉｓ＿ｖａｌｕｅ」の左右にある抽出対
象語は順序を入れ替えて統合するといった変換規則によ
り、統合変換を行って、値情報部分を「同期１２８Ｋｂ
ｐｓ」に書き換える。また、「ＤＳＵｉｓ＿ｏｂｊｅｃｔ内蔵ｉｓ＿ａ機能
ｏｆＴＡ」という情報関係では、関係子「ｉｓ＿ａ」を指標とし
て、値情報部分「ＤＳＵｉｓ＿ｏｂｊｅｃｔ内蔵」と
属性情報部分「機能」に分割することができ、さらに、
値情報部分において、関係子「ｉｓ＿ｏｂｊｅｃｔ」の
左右にある抽出対象語は統合するといった変換規則によ
り、統合変換を行って、値情報部分において関係子「ｉ
ｓ＿ｏｂｊｅｃｔ」の左右になる抽出対象語は統合する
といった変換規則により、統合変換を行って、値情報部
分を「ＤＳＵ内蔵」に書き換える。

【００３３】なお、本実施例では、情報部分を変換する
方法を、本実施例における変換規則に限定するものでは
ない。当該情報部分に含まれる関係子を適切に処理し、
情報部分に含まれる抽出対象語を統合、省略、削除する
ような変換規則であれば良い。また、このような変換規
則は、オントロジ辞書において定義される関係子の性質
や、抽出対象語の表層的な関係により定めるものであ
り、本発明において規定するものではない。

【００３４】このようにして得られた属性情報部分と値
情報部分は、従来の情報抽出手法における属性名と属性
値の関係に相当するため、当該情報部分の組を抽出情報
とし、抽出情報記憶部１２５に格納する。以下、情報関
係記憶部１２４に記憶された情報関係について、同様の
処理を行う。本実施例における抽出情報記憶部１２５の
内容を図８に示す。

【００３５】情報関係記憶部１２４に記憶されたすべて
の文書の情報関係について、情報関係変換部１０３の処
理が終了すると、抽出情報記憶部１２５には、抽出対象
語、即ち、当該文書中に記述された情報となる単語に関
して、文書分野の中心語との関係を抽出し、文書分野の
一般的な表現に正規化して格納した抽出情報が得られて
いることになる。当該抽出情報を出力として一連の処理
を終了する。

【００３６】なお、本実施例においては、抽出情報を出
力して処理を終了するが、抽出情報の出力方法に関して
は、図８のような一枚の表形式の例示に限定するもので
はない。他に、対象とする文書集合についてすべての抽
出情報をまとめあげ、名称やメーカーなど利用者の興味
・目的に従った、項目による一覧形式で表示することも
考えられる。また、ユーザの要求、あるいは、文書分野
によって特定される項目名によって、各抽出情報の属性
情報部分を統一するなどの処理も考えられる。

【００３７】また、上記の実施例では、図３の構成に基
づいて説明したが、出現単語認識部１０１、単語関係展
開部１０２、情報関係変換部１０３をプログラムとして
構築し、情報抽出装置として利用されるコンピュータに
接続されるディスク装置やフロッピー（登録商標）、Ｃ
Ｄ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を
実施する際にインストールすることにより容易に本発明
を容易に実現することが可能である。

【００３８】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。

【００３９】

【発明の効果】上述のように、本発明によれば、記事か
ら抽出することのできる情報の範囲及び概要は、分野に
特有の語彙体系であるオントロジ辞書に全て記述される
ため、オントロジ辞書上での抽出対象語及び抽出対象語
関係を探索する本発明の手法により、抽出対象語同士の
関係を抽出規則として予め準備することなく、認識する
ことができる。

【００４０】また、本発明は、多様な分野の文書に対し
ても記事分野に応じたオントロジ辞書を差し替えること
により、抽出規則を書き換えることなく、同一の手法で
汎用的に情報抽出を行うことができる。このように、本
発明により、多様な対象分野における大量の文書に対
し、文書の分野及び利用者の目的・要求に応じた柔軟な
情報抽出を行うことができる。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理構成図である。

【図３】情報抽出装置の構成図である。

【図４】本発明の一実施例のオントロジ辞書の例であ
る。

【図５】本発明の一実施例の文書集合記憶部から取り出
される文書の例である。

【図６】本発明の一実施例の出現単語記憶部の格納内容
の例である。

【図７】本発明の一実施例の情報関係記憶部の格納内容
の例である。

【図８】本発明の一実施例の抽出情報記憶部の格納内容
の例である。

【符号の説明】

１０１出現単語認識手段、出現単語認識部１０２単語関係展開手段、単語関係展開部１０３情報関係変換手段、情報関係変換部１２１文書集合記憶手段、文書集合記憶部１２２オントロジ辞書、オントロジ記憶部１２３出現単語記憶手段、出現単語記憶部１２４情報関係記憶手段、情報関係記憶部１２５抽出情報記憶手段、抽出情報記憶部

Claims

【特許請求の範囲】

【請求項１】文書情報から情報抽出する情報抽出方法
において、個々の文書中に出現する単語を、語彙間の意味的関係を
体系化した辞書であるオントロジ辞書上に記述された、
抽出すべき情報の要素となる単語である抽出対象語に読
み替えて、格納し、前記文書中に認識された前記抽出対象語を前記オントロ
ジ辞書上に記述された語彙間の意味的関係を用いて、該
文書中に出現しない関係を補足しつつ、該オントロジ辞
書中で利用者の興味を端的に示す指標である中心語に対
する単語関係列へと展開し、得られた該単語関係列を格
納し、個々の前記単語関係列を、部分的な単語の関係や記事全
体の語の用いられ方に基づいて、属性名と属性値からな
る関係に変換し、得られた関係を格納することを特徴と
する情報抽出方法。
【請求項２】文書情報から情報抽出する情報抽出装置
であって、語彙間の意味的関係を体系化した辞書であるオントロジ
辞書と、文書集合を記憶する文書集合記憶手段と、前記文書集合記憶手段の個々の文書中に出現する単語
を、前記オントロジ辞書上に記述された、抽出すべき情
報の要素となる単語である抽出対象語に読み替える出現
単語認識手段と、前記出現単語認識手段で取得した前記抽出対象語を格納
する出現単語記憶手段と、前記出現単語記憶手段の前記文書中の認識された前記抽
出対象語を前記オントロジ辞書上に記述された語彙間の
意味的関係を用いて、該文書中に出現しない関係を補足
しつつ、該オントロジ辞書中で利用者の興味を端的に示
す指標である中心語に対する単語関係列へと展開する単
語関係展開手段と、前記単語関係展開手段で得られた該単語関係列を格納す
る情報関係記憶手段と、前記情報関係記憶手段の個々の前記単語関係列を、部分
的な単語の関係や記事全体の語の用いられ方に基づい
て、属性名と属性値からなる関係に変換する情報関係変
換手段と、前記情報関係変換手段で得られた関係を格納する抽出情
報記憶手段とを有することを特徴とする情報抽出装置。
【請求項３】文書情報から情報抽出する情報抽出プロ
グラムを格納した記憶媒体であって、個々の文書中に出現する単語を、語彙間の意味的関係を
体系化した辞書であるオントロジ辞書上に記述された、
抽出すべき情報の要素となる単語である抽出対象語に読
み替えて格納する出現単語認識プロセスと、前記文書中の認識された前記抽出対象語を前記オントロ
ジ辞書上に記述された語彙間の意味的関係を用いて、該
文書中に出現しない関係を補足しつつ、該オントロジ辞
書中で利用者の興味を端的に示す指標である中心語に対
する単語関係列へと展開し、格納する単語関係展開プロ
セスと、個々の前記単語関係列を、部分的な単語の関係や記事全
体の語の用いられ方に基づいて、属性名と属性値からな
る関係に変換し、格納する情報関係変換プロセスとを有
することを特徴とする情報抽出プログラムを格納した記
憶媒体。