JPH11259524A - 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 - Google Patents
情報検索システム、情報検索システムにおける情報処理方法および記録媒体Info
- Publication number
- JPH11259524A JPH11259524A JP10073103A JP7310398A JPH11259524A JP H11259524 A JPH11259524 A JP H11259524A JP 10073103 A JP10073103 A JP 10073103A JP 7310398 A JP7310398 A JP 7310398A JP H11259524 A JPH11259524 A JP H11259524A
- Authority
- JP
- Japan
- Prior art keywords
- information
- concept
- context
- extracting
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を可能とした情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供する。 【解決手段】 概念抽出装置101により、自然言語文
書中から抽出したキーワード情報および該キーワード間
の関係を表す情報に基づいて概念単位または属性単位に
情報を構造化した概念情報を抽出し、該抽出した概念情
報を概念登録装置102によってデータベース104に
登録し、概念検索装置103により、ユーザの検索要求
にしたがって登録された概念情報から必要な概念情報を
検索することとし、キーワード間の関係を表す構文的、
意味的、文脈的および構造的な各情報を含む概念情報を
抽出して登録し、キーワード間の関係情報を活用して概
念単位または属性単位の情報を条件とした検索を行う。
と共に、該概念情報を有効に活用して精度の高い情報検
索を可能とした情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供する。 【解決手段】 概念抽出装置101により、自然言語文
書中から抽出したキーワード情報および該キーワード間
の関係を表す情報に基づいて概念単位または属性単位に
情報を構造化した概念情報を抽出し、該抽出した概念情
報を概念登録装置102によってデータベース104に
登録し、概念検索装置103により、ユーザの検索要求
にしたがって登録された概念情報から必要な概念情報を
検索することとし、キーワード間の関係を表す構文的、
意味的、文脈的および構造的な各情報を含む概念情報を
抽出して登録し、キーワード間の関係情報を活用して概
念単位または属性単位の情報を条件とした検索を行う。
Description
【0001】
【発明の属する技術分野】本発明は、情報検索システ
ム、情報検索システムにおける情報処理方法および該方
法を実行させるためのプログラムを記録した記録媒体に
係り、特に、情報抽出の段階で、キーワードを抽出する
代わりに、構文解析、意味解析、文脈解析および構造解
析等を行ってキーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を可能とした情報検索システム、情報検索システム
における情報処理方法および記録媒体に関する。
ム、情報検索システムにおける情報処理方法および該方
法を実行させるためのプログラムを記録した記録媒体に
係り、特に、情報抽出の段階で、キーワードを抽出する
代わりに、構文解析、意味解析、文脈解析および構造解
析等を行ってキーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を可能とした情報検索システム、情報検索システム
における情報処理方法および記録媒体に関する。
【0002】
【従来の技術】まず、従来の情報検索システムの一例
(以下、従来例という)として、「WWWページ検索シ
ステム」について説明する。なお、WWWページ検索シ
ステムに関しては、第1の文献『William B.Frakes, Re
cardo Baeza-Yates編; " Information Retrieval, Data
Structures & Algorithms", PRENTICE HALL, ISBN 0-1
3-463837-9』を参照されたい。
(以下、従来例という)として、「WWWページ検索シ
ステム」について説明する。なお、WWWページ検索シ
ステムに関しては、第1の文献『William B.Frakes, Re
cardo Baeza-Yates編; " Information Retrieval, Data
Structures & Algorithms", PRENTICE HALL, ISBN 0-1
3-463837-9』を参照されたい。
【0003】図49は、本従来例のWWWページ検索シ
ステムのシステム構成を表す構成図である。また、図5
0には、本従来例のWWWページ検索システムにおける
情報登録を行う際の処理手順を説明するフローチャート
を示す。
ステムのシステム構成を表す構成図である。また、図5
0には、本従来例のWWWページ検索システムにおける
情報登録を行う際の処理手順を説明するフローチャート
を示す。
【0004】本従来例のWWWページ検索システムは、
インターネット4915につながる複数台のコンピュー
タ上に構築され、該複数台のコンピュータの外部記憶装
置上に分散して蓄積された自然言語を含む文書群491
3から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。このよう
なWWWページ検索システムの製品としては、例えば
「マイクロソフト・インデックス・サーバ(Microsoft
Index Server)」等が存在するし、またサービスとして
は、「ヤフー(Yahoo(http://www.yahoo.com/)」等が存
在する。
インターネット4915につながる複数台のコンピュー
タ上に構築され、該複数台のコンピュータの外部記憶装
置上に分散して蓄積された自然言語を含む文書群491
3から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。このよう
なWWWページ検索システムの製品としては、例えば
「マイクロソフト・インデックス・サーバ(Microsoft
Index Server)」等が存在するし、またサービスとして
は、「ヤフー(Yahoo(http://www.yahoo.com/)」等が存
在する。
【0005】この種の情報検索システムにおいては、一
般的に、情報の登録および検索が行えるようになってい
て、情報検索は、ユーザがキーボード4912を介して
入力した検索文を元に、データベース4908に蓄積さ
れているインデックスを引くことによって行われ、検索
条件に該当する自然言語文書の所在情報(或いは文書そ
のもの)がディスプレイ4911上に表示される。ま
た、情報登録処理を起動する動作は、情報検索システム
によって様々なものが考えられるが、ここでは、例えば
次のようなものを提示しておく。第1に、ユーザが文書
の所在情報をキーボード4912を介して入力し情報登
録を行うもの、第2に、「エージェント」や「ロボッ
ト」と呼ばれる探索エンジンが、インターネットのWW
Wのハイパーリンク上をユーザから指定された範囲で探
索しながら情報を自動登録するものである。
般的に、情報の登録および検索が行えるようになってい
て、情報検索は、ユーザがキーボード4912を介して
入力した検索文を元に、データベース4908に蓄積さ
れているインデックスを引くことによって行われ、検索
条件に該当する自然言語文書の所在情報(或いは文書そ
のもの)がディスプレイ4911上に表示される。ま
た、情報登録処理を起動する動作は、情報検索システム
によって様々なものが考えられるが、ここでは、例えば
次のようなものを提示しておく。第1に、ユーザが文書
の所在情報をキーボード4912を介して入力し情報登
録を行うもの、第2に、「エージェント」や「ロボッ
ト」と呼ばれる探索エンジンが、インターネットのWW
Wのハイパーリンク上をユーザから指定された範囲で探
索しながら情報を自動登録するものである。
【0006】これらの起動動作によって起動された情報
登録処理は、データベース4908上に検索文から文書
所在情報に変換できるようなデータを蓄積し、情報検索
に備える。なお、情報検索を行うユーザ(利用者)と情
報登録を行うユーザ(管理者)とを明確に分けて考える
情報検索システムも多い。
登録処理は、データベース4908上に検索文から文書
所在情報に変換できるようなデータを蓄積し、情報検索
に備える。なお、情報検索を行うユーザ(利用者)と情
報登録を行うユーザ(管理者)とを明確に分けて考える
情報検索システムも多い。
【0007】次に、本従来例のWWWページ検索システ
ムにおける情報登録処理の一般的手順を、図50に示す
フローチャートを参照して説明する。まず、キーワード
抽出装置4901において、自然言語文書群4913か
らキーワードの抽出が行われる。
ムにおける情報登録処理の一般的手順を、図50に示す
フローチャートを参照して説明する。まず、キーワード
抽出装置4901において、自然言語文書群4913か
らキーワードの抽出が行われる。
【0008】まず最初に、ステップ5001では、形態
素解析装置4902により、解析対象の自然言語文書5
002を形態素に分解する。すなわち、自然言語文書5
002は形態素(単語)の集合に変換される。この形態
素への分解作業は、英語においては、スペースやピリオ
ド等の幾つかの記号で区切られた文字列を抽出する処理
に等しい。また、日本語の形態素解析については、処理
は複雑であるが、一般的な手法として、例えば、第2の
文献『吉村、日高、吉田 ;”文節数最小法を用いたべた
書き日本語文の形態素解析”, 情報処理学会論文誌Vol.
24, No.1, pp.40-46(1983)』等に述べられているものが
ある。
素解析装置4902により、解析対象の自然言語文書5
002を形態素に分解する。すなわち、自然言語文書5
002は形態素(単語)の集合に変換される。この形態
素への分解作業は、英語においては、スペースやピリオ
ド等の幾つかの記号で区切られた文字列を抽出する処理
に等しい。また、日本語の形態素解析については、処理
は複雑であるが、一般的な手法として、例えば、第2の
文献『吉村、日高、吉田 ;”文節数最小法を用いたべた
書き日本語文の形態素解析”, 情報処理学会論文誌Vol.
24, No.1, pp.40-46(1983)』等に述べられているものが
ある。
【0009】次のステップ5003では、ストップワー
ド除去装置4903によるストップワード除去の処理に
よって、ステップ5002で抽出された形態素の集合に
ついて、キーワードとして必要でない形態素が省かれ
る。ストップワードは、余りに一般的すぎてどの文書に
でも現れそうな単語等であり、例えば、英語の場合に
は、「is」,「the」,「have」,「go」等がストップワ
ードに該当し、日本語の場合でも助詞、助動詞、格助詞
等はストップワードとして除去される。なお、これらの
ストップワードは、一般的にはストップワードリストと
いう辞書に登録されている。
ド除去装置4903によるストップワード除去の処理に
よって、ステップ5002で抽出された形態素の集合に
ついて、キーワードとして必要でない形態素が省かれ
る。ストップワードは、余りに一般的すぎてどの文書に
でも現れそうな単語等であり、例えば、英語の場合に
は、「is」,「the」,「have」,「go」等がストップワ
ードに該当し、日本語の場合でも助詞、助動詞、格助詞
等はストップワードとして除去される。なお、これらの
ストップワードは、一般的にはストップワードリストと
いう辞書に登録されている。
【0010】次にステップ5004では、ステミング処
理装置4904によって行われるステミング処理によ
り、ストップワード除去後の形態素集合が正規化され
る。つまり、活用形を標準形に正規化したり、表記上の
ゆれを正規化したりする。なお、このステミング処理は
省略されることもある。
理装置4904によって行われるステミング処理によ
り、ストップワード除去後の形態素集合が正規化され
る。つまり、活用形を標準形に正規化したり、表記上の
ゆれを正規化したりする。なお、このステミング処理は
省略されることもある。
【0011】さらにステップ5005では、キーワード
への重み付け装置4905によって行われるキーワード
への重み付け処理により、キーワードに対する重みが導
入される場合もある。つまり、このキーワードへの重み
付け処理も省略可能な処理ステップである。なお、重み
の求め方は種々あるが、一例を挙げれば、対象の自然言
語文書群4913において均一に出現するキーワードは
余り重要ではないとみなして、該キーワードの重みを下
げるなどの方法がある。
への重み付け装置4905によって行われるキーワード
への重み付け処理により、キーワードに対する重みが導
入される場合もある。つまり、このキーワードへの重み
付け処理も省略可能な処理ステップである。なお、重み
の求め方は種々あるが、一例を挙げれば、対象の自然言
語文書群4913において均一に出現するキーワードは
余り重要ではないとみなして、該キーワードの重みを下
げるなどの方法がある。
【0012】以上のステップ5001,5003,50
04,5005の処理によって、1つの自然言語文書5
002はキーワード集合5006に変換されることとな
る。ここで、キーワード集合とは、ステップ5005の
キーワードへの重み付け処理を行わなかった場合には純
粋なキーワードの集合であり、重み付け処理を行った場
合にはキーワードと重みの数値による組の集合である。
04,5005の処理によって、1つの自然言語文書5
002はキーワード集合5006に変換されることとな
る。ここで、キーワード集合とは、ステップ5005の
キーワードへの重み付け処理を行わなかった場合には純
粋なキーワードの集合であり、重み付け処理を行った場
合にはキーワードと重みの数値による組の集合である。
【0013】また、ここで求められたキーワード集合5
006は、ステップ5007で取得された文書の所在情
報(文書ID)5008とセットにして、ステップ50
09において、データベース4908に登録される。こ
こで、文書ID5008は、WWWの場合にはURLと
呼ばれる「http://…」といったアドレス情報が該当す
る。
006は、ステップ5007で取得された文書の所在情
報(文書ID)5008とセットにして、ステップ50
09において、データベース4908に登録される。こ
こで、文書ID5008は、WWWの場合にはURLと
呼ばれる「http://…」といったアドレス情報が該当す
る。
【0014】ステップ5009のデータベース登録処理
は、キーワード登録装置4906によって行われる処理
であり、一般的には、図51に示すような「転置インデ
ックス」などのデータ構造が作成されて、キーワードか
ら文書の所在情報が検索できるデータとして情報登録が
行われる。ここで、転置インデックスを用いた情報検索
については、第3の文献『長尾真編;”自然言語処
理”, 岩波書店, 1996, ISBN 4-00-010355-5, 第11
章』に詳しく述べられている。また、図51に示した転
置インデックスの具体例は、ステップ5005によるキ
ーワードへの重み付け処理を行った場合の一例であり、
キーワード毎に各文書に対する重みを求めることができ
るデータ構造である。なお、重み処理を行わない場合に
は、図51におけるキーワード毎の各文書に対する重み
数値が、「文書に含まれる」または「含まれない」を表
す2値のフラグになる。
は、キーワード登録装置4906によって行われる処理
であり、一般的には、図51に示すような「転置インデ
ックス」などのデータ構造が作成されて、キーワードか
ら文書の所在情報が検索できるデータとして情報登録が
行われる。ここで、転置インデックスを用いた情報検索
については、第3の文献『長尾真編;”自然言語処
理”, 岩波書店, 1996, ISBN 4-00-010355-5, 第11
章』に詳しく述べられている。また、図51に示した転
置インデックスの具体例は、ステップ5005によるキ
ーワードへの重み付け処理を行った場合の一例であり、
キーワード毎に各文書に対する重みを求めることができ
るデータ構造である。なお、重み処理を行わない場合に
は、図51におけるキーワード毎の各文書に対する重み
数値が、「文書に含まれる」または「含まれない」を表
す2値のフラグになる。
【0015】次に、本従来例のWWWページ検索システ
ムにおける情報検索処理の一般的手順を、図53に示す
フローチャートを参照して説明する。
ムにおける情報検索処理の一般的手順を、図53に示す
フローチャートを参照して説明する。
【0016】情報検索において、ユーザがキーボード4
912を介して入力する検索文には、主として2種類の
検索文があり、この検索文の種類によって処理が一部異
なる。1つは自然言語による検索文をそのまま入力する
場合で、例えば「日本の人口統計について教えてくださ
い。」などという文章を入力する。もう1つは、ある定
められた文法に基づいてキーワード検索文を入力する場
合で、例えば「&」という文字を論理積を表す特殊記号
と定義して、複数のキーワードが共に含まれる文書のみ
を取り出すという文法が定められている情報検索システ
ムにおいて、「日本&人口&統計」などと入力すること
で、これら3つのキーワード「日本」,「人口」および
「統計」が共に含まれる文書を検索するといった処理と
なる。どちらの検索文が入力できるかについては、情報
検索システムに依存し、一方しか入力できないものもあ
れば、両方共入力可能で何れか一つを切り替えながら使
用するものもある。なお、該切り替え手法については、
ボタンを介してユーザが指定するなどの方法が一般的で
ある。また、図53のフローチャートでは、ステップ5
301において、これらの検索文の種類を判定して処理
を分岐させるようになっている。
912を介して入力する検索文には、主として2種類の
検索文があり、この検索文の種類によって処理が一部異
なる。1つは自然言語による検索文をそのまま入力する
場合で、例えば「日本の人口統計について教えてくださ
い。」などという文章を入力する。もう1つは、ある定
められた文法に基づいてキーワード検索文を入力する場
合で、例えば「&」という文字を論理積を表す特殊記号
と定義して、複数のキーワードが共に含まれる文書のみ
を取り出すという文法が定められている情報検索システ
ムにおいて、「日本&人口&統計」などと入力すること
で、これら3つのキーワード「日本」,「人口」および
「統計」が共に含まれる文書を検索するといった処理と
なる。どちらの検索文が入力できるかについては、情報
検索システムに依存し、一方しか入力できないものもあ
れば、両方共入力可能で何れか一つを切り替えながら使
用するものもある。なお、該切り替え手法については、
ボタンを介してユーザが指定するなどの方法が一般的で
ある。また、図53のフローチャートでは、ステップ5
301において、これらの検索文の種類を判定して処理
を分岐させるようになっている。
【0017】ステップ5301の判定において、検索文
が自然言語検索文である場合には、情報登録処理(図5
0参照)と同様に、キーワード抽出装置4901によっ
てキーワードを抽出する。ただし、情報検索処理におい
てはキーワードへの重み付け装置4905は使用されな
い。
が自然言語検索文である場合には、情報登録処理(図5
0参照)と同様に、キーワード抽出装置4901によっ
てキーワードを抽出する。ただし、情報検索処理におい
てはキーワードへの重み付け装置4905は使用されな
い。
【0018】まず、ステップ5302において、入力さ
れた自然言語検索文5303は形態素解析装置4902
によって形態素に分解される。分解された形態素の集合
は、ステップ5304において、ストップワード除去装
置4903によって不要な形態素が除去され、次にステ
ップ5307で、ステミング処理装置4904によって
正規化が行われる。なお、ステミング処理(ステップ5
307)は省略可能である。この段階で抽出されたキー
ワードの集合を、ここでは検索キーワード集合5308
と呼ぶ。
れた自然言語検索文5303は形態素解析装置4902
によって形態素に分解される。分解された形態素の集合
は、ステップ5304において、ストップワード除去装
置4903によって不要な形態素が除去され、次にステ
ップ5307で、ステミング処理装置4904によって
正規化が行われる。なお、ステミング処理(ステップ5
307)は省略可能である。この段階で抽出されたキー
ワードの集合を、ここでは検索キーワード集合5308
と呼ぶ。
【0019】またステップ5301の判定において、検
索文がキーワード検索文の場合には、ステップ5305
において、キーワード検索文解析装置4916により、
入力されたキーワード検索文5306が文法解析され
る。ここでの文法は情報検索システムに依存するが、一
般的には、論理積(AND)、論理和(OR)、否定
(NOT)の演算や、優先順位付け(『()』による階
層化)等を特殊記号(演算子)で表せる場合が多い。
索文がキーワード検索文の場合には、ステップ5305
において、キーワード検索文解析装置4916により、
入力されたキーワード検索文5306が文法解析され
る。ここでの文法は情報検索システムに依存するが、一
般的には、論理積(AND)、論理和(OR)、否定
(NOT)の演算や、優先順位付け(『()』による階
層化)等を特殊記号(演算子)で表せる場合が多い。
【0020】また、キーワード検索文の場合にも、自然
言語検索文の場合と同様に、次のステップ5307でス
テミング処理が行われて、検索キーワード集合5308
に変換される。この場合、検索キーワード集合5308
は、単なるキーワードの集合だけではなく上記演算子の
情報を保持している必要がある。なお、検索キーワード
集合5308を何らかの処理によって自動生成し、該検
索キーワード集合5308をを使用して検索を行うよう
な情報検索システムも、本従来例の情報検索システムと
同等のものとみなせる。この場合、キーワード検索文解
析装置4916は不要となる。
言語検索文の場合と同様に、次のステップ5307でス
テミング処理が行われて、検索キーワード集合5308
に変換される。この場合、検索キーワード集合5308
は、単なるキーワードの集合だけではなく上記演算子の
情報を保持している必要がある。なお、検索キーワード
集合5308を何らかの処理によって自動生成し、該検
索キーワード集合5308をを使用して検索を行うよう
な情報検索システムも、本従来例の情報検索システムと
同等のものとみなせる。この場合、キーワード検索文解
析装置4916は不要となる。
【0021】以上のように、自然言語検索文やキーワー
ド検索文によって指定された検索内容は、一旦、検索キ
ーワード集合5308に変換された後、ステップ530
9において、キーワード検索装置4907により、該検
索キーワード集合5308を元にしたデータベース49
08を対象とした検索処理が行われる。そしてその結果
が、ステップ5310でディスプレイ4911上に表示
されることになる。
ド検索文によって指定された検索内容は、一旦、検索キ
ーワード集合5308に変換された後、ステップ530
9において、キーワード検索装置4907により、該検
索キーワード集合5308を元にしたデータベース49
08を対象とした検索処理が行われる。そしてその結果
が、ステップ5310でディスプレイ4911上に表示
されることになる。
【0022】情報検索処理の内容は、上記演算子として
何を許すかや、自然言語検索文5303から抽出した単
なるキーワードの集合をどのように検索に用いるかによ
って様々であり、情報検索システムに依存する。例え
ば、単なるキーワードの集合は全て論理積(AND)で
つないだものと同じと考えるとか、1つでも多くのキー
ワードを含む文書の検索点数を高くするとか、といった
処理のバリエーションがある。一般的には、図51の転
置インデックスを用いて、キーワードがどの文書に含ま
れていたかをチェックする処理が含まれることになる
(上記第3の文献第11章を参照)。情報検索処理の一
例として、例えば、図51の転置インデックスに対して
「キーワード1 キーワード2」と指定され、演算子が
特に指定されていない場合には、それぞれの文書のキー
ワードに対する重みを足しあわせてキーワード数で割
り、文書1は (0.2+0)÷2=0.1、文書2は (0.5+0.3)÷
2=0.4、文書3は (0.6+0.1)÷2=0.35 などとして、検
索値(適合度)を求める手法もある。この場合、文書2
が上記検索文に最も適合しているということになる。
何を許すかや、自然言語検索文5303から抽出した単
なるキーワードの集合をどのように検索に用いるかによ
って様々であり、情報検索システムに依存する。例え
ば、単なるキーワードの集合は全て論理積(AND)で
つないだものと同じと考えるとか、1つでも多くのキー
ワードを含む文書の検索点数を高くするとか、といった
処理のバリエーションがある。一般的には、図51の転
置インデックスを用いて、キーワードがどの文書に含ま
れていたかをチェックする処理が含まれることになる
(上記第3の文献第11章を参照)。情報検索処理の一
例として、例えば、図51の転置インデックスに対して
「キーワード1 キーワード2」と指定され、演算子が
特に指定されていない場合には、それぞれの文書のキー
ワードに対する重みを足しあわせてキーワード数で割
り、文書1は (0.2+0)÷2=0.1、文書2は (0.5+0.3)÷
2=0.4、文書3は (0.6+0.1)÷2=0.35 などとして、検
索値(適合度)を求める手法もある。この場合、文書2
が上記検索文に最も適合しているということになる。
【0023】
【発明が解決しようとする課題】以上説明したように、
従来例のWWWページ検索システムにおいては、登録す
べき文書から、キーワードを抽出する技術をベースとし
て、キーワードから文書所在や適合度を求めることがで
きる索引(インデックス)をデータベースに作成し、そ
れを用いた検索を可能にしている。これは「テキストが
表現している内容をキーワードの集合という形で近似的
に表現できる」という考え方が背景になっている。しか
しながら、このような従来の情報検索技術においては、
キーワード集合による近似的表現とすることで、キーワ
ード間の関係を表す構文的、意味的、文脈的および構造
的な各情報が無視されることとなって、情報検索の精度
が低下するという問題点がある。以下、この問題につい
て具体例を挙げて説明する。
従来例のWWWページ検索システムにおいては、登録す
べき文書から、キーワードを抽出する技術をベースとし
て、キーワードから文書所在や適合度を求めることがで
きる索引(インデックス)をデータベースに作成し、そ
れを用いた検索を可能にしている。これは「テキストが
表現している内容をキーワードの集合という形で近似的
に表現できる」という考え方が背景になっている。しか
しながら、このような従来の情報検索技術においては、
キーワード集合による近似的表現とすることで、キーワ
ード間の関係を表す構文的、意味的、文脈的および構造
的な各情報が無視されることとなって、情報検索の精度
が低下するという問題点がある。以下、この問題につい
て具体例を挙げて説明する。
【0024】例えば、自然言語文書の一例として図4に
示されるような「オムロン製品情報」に関する文書が与
えられたとする。この文書を上記従来技術(図50のフ
ローチャート)で情報登録すると、図52に示されるよ
うなキーワード集合が得られ、図4の文書は図52のキ
ーワード集合として近似的に表現されることになる。し
かしながら、このキーワード集合では、既に、以下に示
すような情報が欠落している。
示されるような「オムロン製品情報」に関する文書が与
えられたとする。この文書を上記従来技術(図50のフ
ローチャート)で情報登録すると、図52に示されるよ
うなキーワード集合が得られ、図4の文書は図52のキ
ーワード集合として近似的に表現されることになる。し
かしながら、このキーワード集合では、既に、以下に示
すような情報が欠落している。
【0025】第1に「段落に関する文脈情報の欠落」で
ある。図4の文書において「オムロン製品情報」という
のは文書全体のタイトルであって、以下に続く文書内容
はすべてオムロンの製品についての情報であるという文
脈を与えるが、図52のキーワード集合ではその文脈が
わからない。
ある。図4の文書において「オムロン製品情報」という
のは文書全体のタイトルであって、以下に続く文書内容
はすべてオムロンの製品についての情報であるという文
脈を与えるが、図52のキーワード集合ではその文脈が
わからない。
【0026】第2に「箇条書きに関する文脈情報の欠
落」である。図4の文書においては、(a), (b), (c) と
いった箇条書きがあって、「血圧計」,「体温計」およ
び「低周波治療器」というキーワードがそれぞれの箇条
書きの見出し語になっている。これは、これらの箇条書
きの各項目に、それぞれ「血圧計」、「体温計」および
「低周波治療器」のことが述べられているという文脈を
与えるが、図52のキーワード集合ではその文脈がわか
らない。
落」である。図4の文書においては、(a), (b), (c) と
いった箇条書きがあって、「血圧計」,「体温計」およ
び「低周波治療器」というキーワードがそれぞれの箇条
書きの見出し語になっている。これは、これらの箇条書
きの各項目に、それぞれ「血圧計」、「体温計」および
「低周波治療器」のことが述べられているという文脈を
与えるが、図52のキーワード集合ではその文脈がわか
らない。
【0027】第3に「箇条書きに関する構造情報の欠
落」である。図4の文書においては、(a) の項目のさら
なる下位構造として、記号「●」で示された箇条書きの
項目が2つ存在することで、それら2つは独立した2つ
の製品について述べているということがわかるが、図4
のキーワード集合ではその単位がわからなくなってい
る。
落」である。図4の文書においては、(a) の項目のさら
なる下位構造として、記号「●」で示された箇条書きの
項目が2つ存在することで、それら2つは独立した2つ
の製品について述べているということがわかるが、図4
のキーワード集合ではその単位がわからなくなってい
る。
【0028】第4に「表に関する文脈・構造情報の欠
落」である。 (1.4.4)図3において、(a)の血圧計の医
療用具承認番号は表で示され、各列に見出し語が付いて
いることで、それぞれの型式の製品に対する医療用具承
認番号を正しく把握できるが、図4においてはそれがわ
からなくなっている。
落」である。 (1.4.4)図3において、(a)の血圧計の医
療用具承認番号は表で示され、各列に見出し語が付いて
いることで、それぞれの型式の製品に対する医療用具承
認番号を正しく把握できるが、図4においてはそれがわ
からなくなっている。
【0029】第5に「構文的・意味的情報の欠落」であ
る。図4の文書においては、各製品の発売情報が自然言
語文で表現されているため、構文的・意味的情報によ
り、それぞれの単語や文がどの製品について述べたもの
であるのかがわかるが、図4のキーワード集合ではそれ
が曖昧になってしまっている。
る。図4の文書においては、各製品の発売情報が自然言
語文で表現されているため、構文的・意味的情報によ
り、それぞれの単語や文がどの製品について述べたもの
であるのかがわかるが、図4のキーワード集合ではそれ
が曖昧になってしまっている。
【0030】以上の第1から第5までに示したような情
報欠落、すなわち、構文的、意味的、文脈的および構造
的な各情報が欠落しているため、ユーザの意図を正しく
把握した検索結果を得ることは難しい。
報欠落、すなわち、構文的、意味的、文脈的および構造
的な各情報が欠落しているため、ユーザの意図を正しく
把握した検索結果を得ることは難しい。
【0031】例えば、「12,500円の体温計について知り
たい」という意図の検索文として、「12,500円&体温
計」という検索文を与えた場合、図4の文書には12,500
円の体温計の情報は存在しないにも関わらず、図52の
キーワード集合にはこの2つのキーワードが両方とも含
まれるため、図4の自然言語文書を当該検索に適合させ
てしまうことになる。
たい」という意図の検索文として、「12,500円&体温
計」という検索文を与えた場合、図4の文書には12,500
円の体温計の情報は存在しないにも関わらず、図52の
キーワード集合にはこの2つのキーワードが両方とも含
まれるため、図4の自然言語文書を当該検索に適合させ
てしまうことになる。
【0032】本発明は、このような従来の問題点に着目
してなされたもので、その目的とするところは、情報抽
出の段階で、キーワードを抽出する代わりに、構文解
析、意味解析、文脈解析および構造解析等を行ってキー
ワード間の関係を表す構文的、意味的、文脈的および構
造的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索を可能とした情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することにある。
してなされたもので、その目的とするところは、情報抽
出の段階で、キーワードを抽出する代わりに、構文解
析、意味解析、文脈解析および構造解析等を行ってキー
ワード間の関係を表す構文的、意味的、文脈的および構
造的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索を可能とした情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することにある。
【0033】
【課題を解決するための手段】上記課題を解決するため
に、本出願の請求項1に記載の発明は、自然言語文書中
から抽出したキーワード情報および該キーワード間の関
係を表す情報に基づいて、概念単位または属性単位に前
記情報を構造化した概念情報を抽出する概念抽出装置
と、前記概念抽出装置により抽出した概念情報をデータ
ベースに登録する概念登録装置と、ユーザの検索要求に
したがって前記データベースに登録された概念情報から
必要な概念情報を検索する概念検索装置とを具備し、前
記キーワード間の関係情報を活用して前記概念単位また
は前記属性単位の情報を条件とした検索を行うことにあ
る。
に、本出願の請求項1に記載の発明は、自然言語文書中
から抽出したキーワード情報および該キーワード間の関
係を表す情報に基づいて、概念単位または属性単位に前
記情報を構造化した概念情報を抽出する概念抽出装置
と、前記概念抽出装置により抽出した概念情報をデータ
ベースに登録する概念登録装置と、ユーザの検索要求に
したがって前記データベースに登録された概念情報から
必要な概念情報を検索する概念検索装置とを具備し、前
記キーワード間の関係情報を活用して前記概念単位また
は前記属性単位の情報を条件とした検索を行うことにあ
る。
【0034】また、本出願の請求項2に記載の発明は、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に前記情報を構造化した概念情報を抽出する
概念抽出装置と、前記概念抽出装置により抽出した概念
情報をデータベースに登録する概念登録装置と、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に前記情報を構造化した検索概念
情報を抽出し、該抽出した検索概念情報にしたがって前
記データベースに登録された概念情報から必要な概念情
報を検索する概念検索装置とを具備し、前記キーワード
間の関係情報を活用して前記概念単位または前記属性単
位の情報を条件とした検索を行うことにある。
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に前記情報を構造化した概念情報を抽出する
概念抽出装置と、前記概念抽出装置により抽出した概念
情報をデータベースに登録する概念登録装置と、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に前記情報を構造化した検索概念
情報を抽出し、該抽出した検索概念情報にしたがって前
記データベースに登録された概念情報から必要な概念情
報を検索する概念検索装置とを具備し、前記キーワード
間の関係情報を活用して前記概念単位または前記属性単
位の情報を条件とした検索を行うことにある。
【0035】また、本出願の請求項3に記載の発明は、
前記概念登録装置が、前記概念抽出装置により抽出した
概念情報を、前記自然言語文書の文書所在情報との組に
よる転置インデックス形式で、或いは、前記文書所在情
報および該文書中に前記概念情報のどの属性が記述され
ていたかを表す対応属性情報との組による転置インデッ
クス形式で、前記データベースに登録することを特徴と
する請求項1または2に記載の情報検索システムにあ
る。
前記概念登録装置が、前記概念抽出装置により抽出した
概念情報を、前記自然言語文書の文書所在情報との組に
よる転置インデックス形式で、或いは、前記文書所在情
報および該文書中に前記概念情報のどの属性が記述され
ていたかを表す対応属性情報との組による転置インデッ
クス形式で、前記データベースに登録することを特徴と
する請求項1または2に記載の情報検索システムにあ
る。
【0036】また、本出願の請求項4に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報を記述した動詞格フレーム辞書と、前
記意味素の表層的定義を行う意味素辞書と、前記動詞に
対応する格要素を特定する格要素特定装置と、前記格要
素と概念との対応情報に基づいて概念情報を作成する格
要素からの概念作成装置とを具備し、動詞が依存する意
味素の情報を活用して概念情報を抽出することを特徴と
する請求項1、2または3に記載の情報検索システムに
ある。
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報を記述した動詞格フレーム辞書と、前
記意味素の表層的定義を行う意味素辞書と、前記動詞に
対応する格要素を特定する格要素特定装置と、前記格要
素と概念との対応情報に基づいて概念情報を作成する格
要素からの概念作成装置とを具備し、動詞が依存する意
味素の情報を活用して概念情報を抽出することを特徴と
する請求項1、2または3に記載の情報検索システムに
ある。
【0037】また、本出願の請求項5に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する表層格の情報を記述した動詞格フレーム辞書と、前
記動詞に対応する格要素を特定する格要素特定装置と、
前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置とを具備し、動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する表層格の情報を記述した動詞格フレーム辞書と、前
記動詞に対応する格要素を特定する格要素特定装置と、
前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置とを具備し、動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
【0038】また、本出願の請求項6に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報と表層格の情報を記述した動詞格フレ
ーム辞書と、前記意味素の表層的定義を行う意味素辞書
と、前記動詞に対応する格要素を特定する格要素特定装
置と、前記格要素と概念との対応情報に基づいて概念情
報を作成する格要素からの概念作成装置とを具備し、動
詞が依存する意味素の情報と表層格の情報を活用して概
念情報を抽出することを特徴とする請求項1、2または
3に記載の情報検索システムにある。
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報と表層格の情報を記述した動詞格フレ
ーム辞書と、前記意味素の表層的定義を行う意味素辞書
と、前記動詞に対応する格要素を特定する格要素特定装
置と、前記格要素と概念との対応情報に基づいて概念情
報を作成する格要素からの概念作成装置とを具備し、動
詞が依存する意味素の情報と表層格の情報を活用して概
念情報を抽出することを特徴とする請求項1、2または
3に記載の情報検索システムにある。
【0039】また、本出願の請求項7に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識と、前記各対
応カラムへの対応度を算出して最も対応度の高い対応カ
ラムに形態素を抽出する対応カラム決定装置とを具備す
ることを特徴とする請求項1、2または3に記載の情報
検索システムにある。
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識と、前記各対
応カラムへの対応度を算出して最も対応度の高い対応カ
ラムに形態素を抽出する対応カラム決定装置とを具備す
ることを特徴とする請求項1、2または3に記載の情報
検索システムにある。
【0040】また、本出願の請求項8に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、意味素と対応する概念のカラムの情報を記述した文
脈情報抽出知識を備えて、前記自然言語文書中の文から
文脈情報を抽出して、前記文脈階層構造情報中に文脈情
報を保存する文脈情報抽出装置と、前記文脈階層構造情
報および該文脈階層構造情報の下位の文脈領域から上位
の文脈領域に或いは上位の文脈領域から下位の文脈領域
にそれぞれ保存された文脈情報を活用して、概念情報が
記述されている領域を決定しながら前記概念情報を抽出
する概念記述領域決定型概念情報抽出装置とを具備する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、意味素と対応する概念のカラムの情報を記述した文
脈情報抽出知識を備えて、前記自然言語文書中の文から
文脈情報を抽出して、前記文脈階層構造情報中に文脈情
報を保存する文脈情報抽出装置と、前記文脈階層構造情
報および該文脈階層構造情報の下位の文脈領域から上位
の文脈領域に或いは上位の文脈領域から下位の文脈領域
にそれぞれ保存された文脈情報を活用して、概念情報が
記述されている領域を決定しながら前記概念情報を抽出
する概念記述領域決定型概念情報抽出装置とを具備する
ことを特徴とする請求項1、2または3に記載の情報検
索システムにある。
【0041】また、本出願の請求項9に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、前記自然言語文書中から形態素を抜き出す形態素解
析装置と、前記抜き出された各形態素(以下、着目要素
という)の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム(以下、対応カラムという)の情報
を記述した情報抽出知識と、前記各対応カラムへの対応
度を算出して最も対応度の高い対応カラムに形態素を抽
出する対応カラム決定装置と、を備えて前記自然言語文
書中の文から文脈情報を抽出して、前記文脈階層構造情
報中に文脈情報を保存する文脈情報抽出装置と、前記文
脈階層構造情報および該文脈階層構造情報の下位の文脈
領域から上位の文脈領域に或いは上位の文脈領域から下
位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出装
置とを具備することを特徴とする請求項1、2または3
に記載の情報検索システムにある。
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、前記自然言語文書中から形態素を抜き出す形態素解
析装置と、前記抜き出された各形態素(以下、着目要素
という)の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム(以下、対応カラムという)の情報
を記述した情報抽出知識と、前記各対応カラムへの対応
度を算出して最も対応度の高い対応カラムに形態素を抽
出する対応カラム決定装置と、を備えて前記自然言語文
書中の文から文脈情報を抽出して、前記文脈階層構造情
報中に文脈情報を保存する文脈情報抽出装置と、前記文
脈階層構造情報および該文脈階層構造情報の下位の文脈
領域から上位の文脈領域に或いは上位の文脈領域から下
位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出装
置とを具備することを特徴とする請求項1、2または3
に記載の情報検索システムにある。
【0042】また、本出願の請求項10に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項7ま
たは9に記載の情報検索システムにある。
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項7ま
たは9に記載の情報検索システムにある。
【0043】また、本出願の請求項11に記載の発明
は、前記概念抽出装置が、前記情報抽出知識のある知識
が合致した場合に、該知識と共起しやすい知識を活性化
させ、共起しにくい知識は抑制化する知識間相関ルール
を具備することを特徴とする請求項7、9または10に
記載の情報検索システムにある。
は、前記概念抽出装置が、前記情報抽出知識のある知識
が合致した場合に、該知識と共起しやすい知識を活性化
させ、共起しにくい知識は抑制化する知識間相関ルール
を具備することを特徴とする請求項7、9または10に
記載の情報検索システムにある。
【0044】また、本出願の請求項12に記載の発明
は、前記対応カラム決定装置が、前記対応度の算出を各
情報抽出知識毎に並列に、または前記対応カラムの決定
を各形態素毎に並列に処理することを特徴とする請求項
7、9、10または11に記載の情報検索システムにあ
る。
は、前記対応カラム決定装置が、前記対応度の算出を各
情報抽出知識毎に並列に、または前記対応カラムの決定
を各形態素毎に並列に処理することを特徴とする請求項
7、9、10または11に記載の情報検索システムにあ
る。
【0045】また、本出願の請求項13に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて、前記必須属性の抽出、複数の概念単位を
含まないことのチェック、並びに、新規の情報を含んで
いることのチェックを行って概念情報の必要十分性をチ
ェックすることを特徴とする請求項8、9、10、11
または12に記載の情報検索システムにある。
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて、前記必須属性の抽出、複数の概念単位を
含まないことのチェック、並びに、新規の情報を含んで
いることのチェックを行って概念情報の必要十分性をチ
ェックすることを特徴とする請求項8、9、10、11
または12に記載の情報検索システムにある。
【0046】また、本出願の請求項14に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて抽出済みの概念情報の重複を解消すること
を特徴とする請求項8、9、10、11、12または1
3に記載の情報検索システムにある。
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて抽出済みの概念情報の重複を解消すること
を特徴とする請求項8、9、10、11、12または1
3に記載の情報検索システムにある。
【0047】また、本出願の請求項15に記載の発明
は、前記概念抽出装置が、前記自然言語文書中から形態
素を抜き出す形態素解析装置と、構文を解析する構文解
析装置と、前記構文解析装置の結果からガ格・ヲ格、主
語・述語、係り・受け等の構文要素のうち予め設定され
た構文要素を抽出して概念情報を作成する構文要素から
の概念作成装置とを具備し、前記構文解析結果のみから
概念情報を抽出することを特徴とする請求項1、2また
は3に記載の情報検索システムにある。
は、前記概念抽出装置が、前記自然言語文書中から形態
素を抜き出す形態素解析装置と、構文を解析する構文解
析装置と、前記構文解析装置の結果からガ格・ヲ格、主
語・述語、係り・受け等の構文要素のうち予め設定され
た構文要素を抽出して概念情報を作成する構文要素から
の概念作成装置とを具備し、前記構文解析結果のみから
概念情報を抽出することを特徴とする請求項1、2また
は3に記載の情報検索システムにある。
【0048】また、本出願の請求項16に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザの検索要求にしたがって前記データベ
ースに登録された概念情報から必要な概念情報を検索す
る概念検索ステップとを具備し、前記キーワード間の関
係情報を活用して前記概念単位または前記属性単位の情
報を条件とした検索を行うことを特徴とする情報検索シ
ステムにおける情報処理方法にある。
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザの検索要求にしたがって前記データベ
ースに登録された概念情報から必要な概念情報を検索す
る概念検索ステップとを具備し、前記キーワード間の関
係情報を活用して前記概念単位または前記属性単位の情
報を条件とした検索を行うことを特徴とする情報検索シ
ステムにおける情報処理方法にある。
【0049】また、本出願の請求項17に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザが与える自然言語検索文中から抽出し
たキーワード情報および該キーワード間の関係を表す情
報に基づいて、概念単位または属性単位に前記情報を構
造化した検索概念情報を抽出し、該抽出した検索概念情
報にしたがって前記データベースに登録された概念情報
から必要な概念情報を検索する概念検索ステップとを具
備し、前記キーワード間の関係情報を活用して前記概念
単位または前記属性単位の情報を条件とした検索を行う
ことを特徴とする情報検索システムにおける情報処理方
法にある。
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザが与える自然言語検索文中から抽出し
たキーワード情報および該キーワード間の関係を表す情
報に基づいて、概念単位または属性単位に前記情報を構
造化した検索概念情報を抽出し、該抽出した検索概念情
報にしたがって前記データベースに登録された概念情報
から必要な概念情報を検索する概念検索ステップとを具
備し、前記キーワード間の関係情報を活用して前記概念
単位または前記属性単位の情報を条件とした検索を行う
ことを特徴とする情報検索システムにおける情報処理方
法にある。
【0050】また、本出願の請求項18に記載の発明
は、前記概念登録ステップが、前記概念抽出ステップに
より抽出した概念情報を、前記自然言語文書の文書所在
情報との組による転置インデックス形式で、或いは、前
記文書所在情報および該文書中に前記概念情報のどの属
性が記述されていたかを表す対応属性情報との組による
転置インデックス形式で、前記データベースに登録する
ことを特徴とする請求項16または17に記載の情報検
索システムにおける情報処理方法にある。
は、前記概念登録ステップが、前記概念抽出ステップに
より抽出した概念情報を、前記自然言語文書の文書所在
情報との組による転置インデックス形式で、或いは、前
記文書所在情報および該文書中に前記概念情報のどの属
性が記述されていたかを表す対応属性情報との組による
転置インデックス形式で、前記データベースに登録する
ことを特徴とする請求項16または17に記載の情報検
索システムにおける情報処理方法にある。
【0051】また、本出願の請求項19に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報を記述した動詞格フ
レーム辞書と、前記意味素の表層的定義を行う意味素辞
書とを参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、前記格要素と概念との対応情報
に基づいて概念情報を作成する格要素からの概念作成ス
テップとを具備し、動詞が依存する意味素の情報を活用
して概念情報を抽出することを特徴とする請求項16、
17または18に記載の情報検索システムにおける情報
処理方法にある。
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報を記述した動詞格フ
レーム辞書と、前記意味素の表層的定義を行う意味素辞
書とを参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、前記格要素と概念との対応情報
に基づいて概念情報を作成する格要素からの概念作成ス
テップとを具備し、動詞が依存する意味素の情報を活用
して概念情報を抽出することを特徴とする請求項16、
17または18に記載の情報検索システムにおける情報
処理方法にある。
【0052】また、本出願の請求項20に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する表層格の情報を記述した動詞格フ
レーム辞書を参照して、前記動詞に対応する格要素を特
定する格要素特定ステップと、前記格要素と概念との対
応情報に基づいて概念情報を作成する格要素からの概念
作成ステップとを具備し、動詞が依存する表層格要素の
情報を活用して概念情報を抽出することを特徴とする請
求項16、17または18に記載の情報検索システムに
おける情報処理方法にある。
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する表層格の情報を記述した動詞格フ
レーム辞書を参照して、前記動詞に対応する格要素を特
定する格要素特定ステップと、前記格要素と概念との対
応情報に基づいて概念情報を作成する格要素からの概念
作成ステップとを具備し、動詞が依存する表層格要素の
情報を活用して概念情報を抽出することを特徴とする請
求項16、17または18に記載の情報検索システムに
おける情報処理方法にある。
【0053】また、本出願の請求項21に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報と表層格の情報を記
述した動詞格フレーム辞書と、前記意味素の表層的定義
を行う意味素辞書とを参照して、前記動詞に対応する格
要素を特定する格要素特定ステップと、前記格要素と概
念との対応情報に基づいて概念情報を作成する格要素か
らの概念作成ステップとを具備し、動詞が依存する意味
素の情報と表層格の情報を活用して概念情報を抽出する
ことを特徴とする請求項16、17または18に記載の
情報検索システムにおける情報処理方法にある。
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報と表層格の情報を記
述した動詞格フレーム辞書と、前記意味素の表層的定義
を行う意味素辞書とを参照して、前記動詞に対応する格
要素を特定する格要素特定ステップと、前記格要素と概
念との対応情報に基づいて概念情報を作成する格要素か
らの概念作成ステップとを具備し、動詞が依存する意味
素の情報と表層格の情報を活用して概念情報を抽出する
ことを特徴とする請求項16、17または18に記載の
情報検索システムにおける情報処理方法にある。
【0054】また、本出願の請求項22に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた各形態素(以下、着目要素という)の意味素の条件
と、前記着目要素が共起する共起要素の条件と、前記着
目要素および前記共起要素の付属要素の条件と、前記共
起要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、前記各対応カラムへの対応度を算出して最
も対応度の高い対応カラムに形態素を抽出する対応カラ
ム決定ステップとを具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法にある。
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた各形態素(以下、着目要素という)の意味素の条件
と、前記着目要素が共起する共起要素の条件と、前記着
目要素および前記共起要素の付属要素の条件と、前記共
起要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、前記各対応カラムへの対応度を算出して最
も対応度の高い対応カラムに形態素を抽出する対応カラ
ム決定ステップとを具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法にある。
【0055】また、本出願の請求項23に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、意味素と対応する概念のカラムの情報を
記述した文脈情報抽出知識を参照して、前記自然言語文
書中の文から文脈情報を抽出し、前記文脈階層構造情報
中に文脈情報を保存する文脈情報抽出ステップと、前記
文脈階層構造情報および該文脈階層構造情報の下位の文
脈領域から上位の文脈領域に或いは上位の文脈領域から
下位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出ス
テップとを具備することを特徴とする請求項16、17
または18に記載の情報検索システムにおける情報処理
方法にある。
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、意味素と対応する概念のカラムの情報を
記述した文脈情報抽出知識を参照して、前記自然言語文
書中の文から文脈情報を抽出し、前記文脈階層構造情報
中に文脈情報を保存する文脈情報抽出ステップと、前記
文脈階層構造情報および該文脈階層構造情報の下位の文
脈領域から上位の文脈領域に或いは上位の文脈領域から
下位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出ス
テップとを具備することを特徴とする請求項16、17
または18に記載の情報検索システムにおける情報処理
方法にある。
【0056】また、本出願の請求項24に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、前記自然言語文書中から形態素を抜き出
す形態素解析ステップと、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定ステッ
プとを備えて前記自然言語文書中の文から文脈情報を抽
出して、前記文脈階層構造情報中に文脈情報を保存する
文脈情報抽出ステップと、前記文脈階層構造情報および
該文脈階層構造情報の下位の文脈領域から上位の文脈領
域に或いは上位の文脈領域から下位の文脈領域にそれぞ
れ保存された文脈情報を活用して、概念情報が記述され
ている領域を決定しながら前記概念情報を抽出する概念
記述領域決定型概念情報抽出ステップとを具備すること
を特徴とする請求項16、17または18に記載の情報
検索システムにおける情報処理方法にある。
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、前記自然言語文書中から形態素を抜き出
す形態素解析ステップと、前記抜き出された各形態素
(以下、着目要素という)の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定ステッ
プとを備えて前記自然言語文書中の文から文脈情報を抽
出して、前記文脈階層構造情報中に文脈情報を保存する
文脈情報抽出ステップと、前記文脈階層構造情報および
該文脈階層構造情報の下位の文脈領域から上位の文脈領
域に或いは上位の文脈領域から下位の文脈領域にそれぞ
れ保存された文脈情報を活用して、概念情報が記述され
ている領域を決定しながら前記概念情報を抽出する概念
記述領域決定型概念情報抽出ステップとを具備すること
を特徴とする請求項16、17または18に記載の情報
検索システムにおける情報処理方法にある。
【0057】また、本出願の請求項25に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項22
または24に記載の情報検索システムにおける情報処理
方法にある。
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項22
または24に記載の情報検索システムにおける情報処理
方法にある。
【0058】また、本出願の請求項26に記載の発明
は、前記概念抽出ステップが、前記情報抽出知識のある
知識が合致した場合に、該知識と共起しやすい知識を活
性化させ、共起しにくい知識は抑制化する知識間相関ル
ールを参照することを特徴とする請求項22、24また
は25に記載の情報検索システムにおける情報処理方法
にある。
は、前記概念抽出ステップが、前記情報抽出知識のある
知識が合致した場合に、該知識と共起しやすい知識を活
性化させ、共起しにくい知識は抑制化する知識間相関ル
ールを参照することを特徴とする請求項22、24また
は25に記載の情報検索システムにおける情報処理方法
にある。
【0059】また、本出願の請求項27に記載の発明
は、前記対応カラム決定ステップが、前記対応度の算出
を各情報抽出知識毎に並列に、または前記対応カラムの
決定を各形態素毎に並列に処理することを特徴とする請
求項22、24、25または26に記載の情報検索シス
テムにおける情報処理方法にある。
は、前記対応カラム決定ステップが、前記対応度の算出
を各情報抽出知識毎に並列に、または前記対応カラムの
決定を各形態素毎に並列に処理することを特徴とする請
求項22、24、25または26に記載の情報検索シス
テムにおける情報処理方法にある。
【0060】また、本出願の請求項28に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて、前記必須属性の抽出、複数の概
念単位を含まないことのチェック、並びに、新規の情報
を含んでいることのチェックを行って概念情報の必要十
分性をチェックすることを特徴とする請求項23、2
4、25、26または27に記載の情報検索システムに
おける情報処理方法にある。
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて、前記必須属性の抽出、複数の概
念単位を含まないことのチェック、並びに、新規の情報
を含んでいることのチェックを行って概念情報の必要十
分性をチェックすることを特徴とする請求項23、2
4、25、26または27に記載の情報検索システムに
おける情報処理方法にある。
【0061】また、本出願の請求項29に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて抽出済みの概念情報の重複を解消
することを特徴とする請求項23、24、25、26、
27または28に記載の情報検索システムにおける情報
処理方法にある。
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて抽出済みの概念情報の重複を解消
することを特徴とする請求項23、24、25、26、
27または28に記載の情報検索システムにおける情報
処理方法にある。
【0062】さらに、本出願の請求項30に記載の発明
は、請求項16、17、18、19、20、21、2
2、23、24、25、26、27、28または29に
記載の情報検索システムにおける情報処理方法をコンピ
ュータに実行させるためのプログラムとして記憶したコ
ンピュータにより読み取り可能な記録媒体にある。
は、請求項16、17、18、19、20、21、2
2、23、24、25、26、27、28または29に
記載の情報検索システムにおける情報処理方法をコンピ
ュータに実行させるためのプログラムとして記憶したコ
ンピュータにより読み取り可能な記録媒体にある。
【0063】そして、この請求項1、請求項16または
請求項30に記載の発明によれば、概念抽出装置(概念
抽出ステップ)により、自然言語文書中から抽出したキ
ーワード情報および該キーワード間の関係を表す情報に
基づいて、概念単位または属性単位に情報を構造化した
概念情報を抽出し、該抽出した概念情報を概念登録装置
(概念登録ステップ)によってデータベースに登録し、
概念検索装置(概念検索ステップ)により、ユーザの検
索要求にしたがってデータベースに登録された概念情報
から必要な概念情報を検索する。
請求項30に記載の発明によれば、概念抽出装置(概念
抽出ステップ)により、自然言語文書中から抽出したキ
ーワード情報および該キーワード間の関係を表す情報に
基づいて、概念単位または属性単位に情報を構造化した
概念情報を抽出し、該抽出した概念情報を概念登録装置
(概念登録ステップ)によってデータベースに登録し、
概念検索装置(概念検索ステップ)により、ユーザの検
索要求にしたがってデータベースに登録された概念情報
から必要な概念情報を検索する。
【0064】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、キーワード間の関係情報を活用
して概念単位または属性単位の情報を条件とした検索を
行うので、キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を実現できる。
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、キーワード間の関係情報を活用
して概念単位または属性単位の情報を条件とした検索を
行うので、キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を実現できる。
【0065】また、請求項2、請求項17または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)により、自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置(概念
登録ステップ)によってデータベースに登録し、概念検
索装置(概念検索ステップ)により、ユーザが与える自
然言語検索文中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した検索概念情報を抽出し、
該抽出した検索概念情報にしたがってデータベースに登
録された概念情報から必要な概念情報を検索する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)により、自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置(概念
登録ステップ)によってデータベースに登録し、概念検
索装置(概念検索ステップ)により、ユーザが与える自
然言語検索文中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した検索概念情報を抽出し、
該抽出した検索概念情報にしたがってデータベースに登
録された概念情報から必要な概念情報を検索する。
【0066】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、また自然言語検索文についても
検索概念情報を抽出して、キーワード間の関係情報を活
用して概念単位または属性単位の情報を条件とした検索
を行うので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を実現できる。
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、また自然言語検索文についても
検索概念情報を抽出して、キーワード間の関係情報を活
用して概念単位または属性単位の情報を条件とした検索
を行うので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を実現できる。
【0067】また、請求項3、請求項18または請求項
30に記載の発明によれば、概念登録装置(概念登録ス
テップ)において、抽出した概念情報を、自然言語文書
の文書所在情報との組による転置インデックス形式で、
或いは、文書所在情報および該文書中に前記概念情報の
どの属性が記述されていたかを表す対応属性情報との組
による転置インデックス形式で、データベースに登録す
る。
30に記載の発明によれば、概念登録装置(概念登録ス
テップ)において、抽出した概念情報を、自然言語文書
の文書所在情報との組による転置インデックス形式で、
或いは、文書所在情報および該文書中に前記概念情報の
どの属性が記述されていたかを表す対応属性情報との組
による転置インデックス形式で、データベースに登録す
る。
【0068】これにより、上記概念情報に基づく精度の
高い検索に加えて、概念情報を出力結果とするだけでは
なく元の文書の情報をも活用できるので、検索結果とし
て出力し得る情報量を増やすことができ、また、概念情
報の一部である属性情報がどの文書に記述されていたか
を特定できるので、適切な文書のみを検索結果として提
示することが可能となる。
高い検索に加えて、概念情報を出力結果とするだけでは
なく元の文書の情報をも活用できるので、検索結果とし
て出力し得る情報量を増やすことができ、また、概念情
報の一部である属性情報がどの文書に記述されていたか
を特定できるので、適切な文書のみを検索結果として提
示することが可能となる。
【0069】また特に、概念情報をリレーショナルデー
タベースのレコードで表現することとすれば、概念情報
の格納に公知のリレーショナルデータベースを流用し、
周知のリレーショナルデータベースの高速検索技術(イ
ンデックス等)を活用して高速検索を可能にしたり、S
QLや、GUIを用いたリレーショナルデータベースの
データ編集ツールを用いて、抽出した概念情報をメンテ
ナンスすることを容易にすることも可能である。
タベースのレコードで表現することとすれば、概念情報
の格納に公知のリレーショナルデータベースを流用し、
周知のリレーショナルデータベースの高速検索技術(イ
ンデックス等)を活用して高速検索を可能にしたり、S
QLや、GUIを用いたリレーショナルデータベースの
データ編集ツールを用いて、抽出した概念情報をメンテ
ナンスすることを容易にすることも可能である。
【0070】また、複数種類の概念情報を複数のテーブ
ルとして表現し、情報抽出知識の対象カラム(対応カラ
ム、抽出カラム、対象カラム等)の記述に、カラム名の
みではなくテーブル名をも記述することで、複数種類の
概念情報を同時に抽出することが可能になる。
ルとして表現し、情報抽出知識の対象カラム(対応カラ
ム、抽出カラム、対象カラム等)の記述に、カラム名の
みではなくテーブル名をも記述することで、複数種類の
概念情報を同時に抽出することが可能になる。
【0071】さらに、同時に抽出した複数の概念情報の
リレーションのためのキーとなるカラムを設定すること
によって、リレーショナルデータベースにおけるテーブ
ルジョインを可能とし、複数の概念情報にわたる複雑な
検索要求を受け付けることが可能になる。
リレーションのためのキーとなるカラムを設定すること
によって、リレーショナルデータベースにおけるテーブ
ルジョインを可能とし、複数の概念情報にわたる複雑な
検索要求を受け付けることが可能になる。
【0072】また、請求項4、請求項19または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報を
記述した動詞格フレーム辞書と意味素の表層的定義を行
う意味素辞書とを参照して、動詞に対応する格要素を特
定し、格要素からの概念作成装置(格要素からの概念作
成ステップ)により、格要素と概念との対応情報に基づ
いて概念情報を作成する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報を
記述した動詞格フレーム辞書と意味素の表層的定義を行
う意味素辞書とを参照して、動詞に対応する格要素を特
定し、格要素からの概念作成装置(格要素からの概念作
成ステップ)により、格要素と概念との対応情報に基づ
いて概念情報を作成する。
【0073】このように、動詞が依存する意味素の情報
を活用して、キーワード間の関係を表す構文的および意
味的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係情報を活用した検索を行うので、キーワー
ド間の関係を表す情報、特に構文的・意味的情報の欠落
を防ぐと共に、該概念情報を有効に活用して精度の高い
情報検索を実現できる。
を活用して、キーワード間の関係を表す構文的および意
味的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係情報を活用した検索を行うので、キーワー
ド間の関係を表す情報、特に構文的・意味的情報の欠落
を防ぐと共に、該概念情報を有効に活用して精度の高い
情報検索を実現できる。
【0074】また、請求項5、請求項20または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する表層格の情報を
記述した動詞格フレーム辞書を参照して動詞に対応する
格要素を特定し、格要素からの概念作成装置(格要素か
らの概念作成ステップ)により、格要素と概念との対応
情報に基づいて概念情報を作成する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する表層格の情報を
記述した動詞格フレーム辞書を参照して動詞に対応する
格要素を特定し、格要素からの概念作成装置(格要素か
らの概念作成ステップ)により、格要素と概念との対応
情報に基づいて概念情報を作成する。
【0075】このように、動詞が依存する表層格要素の
情報を活用して意味素辞書を具備することなしに、キー
ワード間の関係を表す構文的および意味的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用した検索を行うので、キーワード間の関係を表す
情報、特に構文的・意味的情報の欠落を防ぐと共に、該
概念情報を有効に活用してより簡潔な構成で精度の高い
情報検索を実現できる。
情報を活用して意味素辞書を具備することなしに、キー
ワード間の関係を表す構文的および意味的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用した検索を行うので、キーワード間の関係を表す
情報、特に構文的・意味的情報の欠落を防ぐと共に、該
概念情報を有効に活用してより簡潔な構成で精度の高い
情報検索を実現できる。
【0076】また、請求項6、請求項21または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報と
表層格の情報を記述した動詞格フレーム辞書と意味素の
表層的定義を行う意味素辞書とを参照して、動詞に対応
する格要素を特定し、格要素からの概念作成装置(格要
素からの概念作成ステップ)により、格要素と概念との
対応情報に基づいて概念情報を作成する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、動詞
抽出装置(動詞抽出ステップ)により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置(格要素
特定ステップ)により、動詞が依存する意味素の情報と
表層格の情報を記述した動詞格フレーム辞書と意味素の
表層的定義を行う意味素辞書とを参照して、動詞に対応
する格要素を特定し、格要素からの概念作成装置(格要
素からの概念作成ステップ)により、格要素と概念との
対応情報に基づいて概念情報を作成する。
【0077】このように、動詞が依存する意味素の情報
と表層格の情報を活用して、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録するので、表層格を表す格助詞が省略された文の場
合や、同一の意味素が複数含まれる文の場合等にも格要
素を特定することが可能となり、またキーワード間の関
係情報を活用した検索を行うので、キーワード間の関係
を表す情報、特に構文的・意味的情報の欠落を防ぐと共
に、該概念情報を有効に活用して精度の高い情報検索を
実現できる。
と表層格の情報を活用して、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録するので、表層格を表す格助詞が省略された文の場
合や、同一の意味素が複数含まれる文の場合等にも格要
素を特定することが可能となり、またキーワード間の関
係情報を活用した検索を行うので、キーワード間の関係
を表す情報、特に構文的・意味的情報の欠落を防ぐと共
に、該概念情報を有効に活用して精度の高い情報検索を
実現できる。
【0078】また、請求項7、請求項22または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、抜き
出された各形態素(以下、着目要素という)の意味素の
条件と、着目要素が共起する共起要素の条件と、着目要
素および共起要素の付属要素の条件と、共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
対応カラム決定装置(対応カラム決定ステップ)によ
り、各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、形態素解析装置(形態素解析ステッ
プ)により自然言語文書中から形態素を抜き出し、抜き
出された各形態素(以下、着目要素という)の意味素の
条件と、着目要素が共起する共起要素の条件と、着目要
素および共起要素の付属要素の条件と、共起要素の出現
位置の条件と、対応する概念のカラム(以下、対応カラ
ムという)の情報を記述した情報抽出知識を参照して、
対応カラム決定装置(対応カラム決定ステップ)によ
り、各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する。
【0079】これにより、動詞述語文、形容詞述語文、
名詞述語文、単語のみの文、名詞句のみの文、体言止め
の文等からの概念情報の抽出を行うことができ、該概念
情報を有効に活用して精度の高い情報検索を実現でき
る。
名詞述語文、単語のみの文、名詞句のみの文、体言止め
の文等からの概念情報の抽出を行うことができ、該概念
情報を有効に活用して精度の高い情報検索を実現でき
る。
【0080】特に、情報抽出知識内の情報登録の際に使
用する知識と情報検索の際に使用する知識とを同一の書
式で作成し、登録・検索の意図情報を付加して情報抽出
知識を構築し、対応カラム決定装置(対応カラム決定ス
テップ)におけるカラムへの対応度を求める処理の際
に、登録対応度と検索対応度を別々に集計できるように
すれば、登録・検索時の処理や知識を同等に扱うことが
できる。
用する知識と情報検索の際に使用する知識とを同一の書
式で作成し、登録・検索の意図情報を付加して情報抽出
知識を構築し、対応カラム決定装置(対応カラム決定ス
テップ)におけるカラムへの対応度を求める処理の際
に、登録対応度と検索対応度を別々に集計できるように
すれば、登録・検索時の処理や知識を同等に扱うことが
できる。
【0081】また特に、対応カラム決定装置(対応カラ
ム決定ステップ)において、対応カラムへの対応度を求
めるために各対応カラムの対応度の初期値を決め、情報
抽出知識の一要素に合致する度に対応度を一定量ずつ加
算していき、最終的に最も対応度の大きい対応カラムに
形態素を抽出することを決定するようにすれば、情報抽
出知識中に加算する対応度のデータを保持する必要がな
く、記憶領域を節約できる。
ム決定ステップ)において、対応カラムへの対応度を求
めるために各対応カラムの対応度の初期値を決め、情報
抽出知識の一要素に合致する度に対応度を一定量ずつ加
算していき、最終的に最も対応度の大きい対応カラムに
形態素を抽出することを決定するようにすれば、情報抽
出知識中に加算する対応度のデータを保持する必要がな
く、記憶領域を節約できる。
【0082】さらに、情報抽出知識中に各知識の確信度
(あるいは重要度)の情報を持ち、対応カラム決定装置
(対応カラム決定ステップ)において、対応カラムへの
対応度を求めるために、各対応カラムの対応度の初期値
を決め、情報抽出知識の一要素に合致する度にその知識
の確信度を対応度に加算していき、最終的に最も対応度
の大きい対応カラムに形態素を抽出するようにすれば、
各情報抽出知識に重み付けをすることができることによ
り、抽出精度および検索精度を高めることができ、また
確信度の変更による知識のチューニングを容易に行うこ
とができる。
(あるいは重要度)の情報を持ち、対応カラム決定装置
(対応カラム決定ステップ)において、対応カラムへの
対応度を求めるために、各対応カラムの対応度の初期値
を決め、情報抽出知識の一要素に合致する度にその知識
の確信度を対応度に加算していき、最終的に最も対応度
の大きい対応カラムに形態素を抽出するようにすれば、
各情報抽出知識に重み付けをすることができることによ
り、抽出精度および検索精度を高めることができ、また
確信度の変更による知識のチューニングを容易に行うこ
とができる。
【0083】また、請求項8、請求項23または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、意味素と対応する概念のカラ
ムの情報を記述した文脈情報抽出知識を参照して、文脈
情報抽出装置(文脈情報抽出ステップ)により、自然言
語文書中の文から文脈情報を抽出して文脈階層構造情報
中に該文脈情報を保存し、概念記述領域決定型概念情報
抽出装置(概念記述領域決定型概念情報抽出ステップ)
では、前記文脈階層構造情報および該文脈階層構造情報
の下位の文脈領域から上位の文脈領域に或いは上位の文
脈領域から下位の文脈領域にそれぞれ保存された文脈情
報を活用して、概念情報が記述されている領域を決定し
ながら前記概念情報を抽出する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、意味素と対応する概念のカラ
ムの情報を記述した文脈情報抽出知識を参照して、文脈
情報抽出装置(文脈情報抽出ステップ)により、自然言
語文書中の文から文脈情報を抽出して文脈階層構造情報
中に該文脈情報を保存し、概念記述領域決定型概念情報
抽出装置(概念記述領域決定型概念情報抽出ステップ)
では、前記文脈階層構造情報および該文脈階層構造情報
の下位の文脈領域から上位の文脈領域に或いは上位の文
脈領域から下位の文脈領域にそれぞれ保存された文脈情
報を活用して、概念情報が記述されている領域を決定し
ながら前記概念情報を抽出する。
【0084】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。また、文脈情報抽出知
識を意味素と対応する概念のカラムの情報による構築が
容易な単純な知識として、単語のみの文、名詞句のみの
文、体言止めの文等からの文脈情報の抽出をより簡単な
構成で可能にしている。
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。また、文脈情報抽出知
識を意味素と対応する概念のカラムの情報による構築が
容易な単純な知識として、単語のみの文、名詞句のみの
文、体言止めの文等からの文脈情報の抽出をより簡単な
構成で可能にしている。
【0085】特に、文脈情報抽出知識の開始ポイントお
よび終了ポイントにタグの情報を含ませれば、HTML
やSGML等のマークアップ言語からの文脈階層構造情
報の作成が可能となる。
よび終了ポイントにタグの情報を含ませれば、HTML
やSGML等のマークアップ言語からの文脈階層構造情
報の作成が可能となる。
【0086】また、請求項9、請求項24または請求項
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、文脈情報抽出装置(文脈情報
抽出ステップ)においては、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出することによ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に文脈情報を保存し、概念記述領域決定型
概念情報抽出装置(概念記述領域決定型概念情報抽出ス
テップ)では、文脈階層構造情報および該文脈階層構造
情報の下位の文脈領域から上位の文脈領域に或いは上位
の文脈領域から下位の文脈領域にそれぞれ保存された文
脈情報を活用して、概念情報が記述されている領域を決
定しながら前記概念情報を抽出する。
30に記載の発明によれば、概念抽出装置(概念抽出ス
テップ)において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置(文脈階層構造解析ステップ)によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、文脈情報抽出装置(文脈情報
抽出ステップ)においては、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出することによ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に文脈情報を保存し、概念記述領域決定型
概念情報抽出装置(概念記述領域決定型概念情報抽出ス
テップ)では、文脈階層構造情報および該文脈階層構造
情報の下位の文脈領域から上位の文脈領域に或いは上位
の文脈領域から下位の文脈領域にそれぞれ保存された文
脈情報を活用して、概念情報が記述されている領域を決
定しながら前記概念情報を抽出する。
【0087】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。特に、共起要素を複数
規定できたり、共起要素の出現位置をより柔軟に記述で
きることで、動詞述語文、形容詞述語文、名詞述語文、
単語のみの文、名詞句のみの文、体言止めの文等からの
高い精度での文脈情報の抽出が可能である。
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。特に、共起要素を複数
規定できたり、共起要素の出現位置をより柔軟に記述で
きることで、動詞述語文、形容詞述語文、名詞述語文、
単語のみの文、名詞句のみの文、体言止めの文等からの
高い精度での文脈情報の抽出が可能である。
【0088】また、請求項10、請求項25または請求
項30に記載の発明によれば、情報抽出知識を、着目要
素の意味素の条件、共起要素の条件、付属要素の条件お
よび共起要素の出現位置の条件を、正規表現等のパター
ン記述知識として記述して構築する。共起要素を複数規
定できたり、共起要素の出現位置をより柔軟に記述でき
ることで、動詞述語文、形容詞述語文、名詞述語文、単
語のみの文、名詞句のみの文、体言止めの文等からの概
念情報または文脈情報の抽出をより高い精度で行うこと
ができ、該概念情報または文脈情報を有効に活用して精
度の高い情報検索を実現できる。
項30に記載の発明によれば、情報抽出知識を、着目要
素の意味素の条件、共起要素の条件、付属要素の条件お
よび共起要素の出現位置の条件を、正規表現等のパター
ン記述知識として記述して構築する。共起要素を複数規
定できたり、共起要素の出現位置をより柔軟に記述でき
ることで、動詞述語文、形容詞述語文、名詞述語文、単
語のみの文、名詞句のみの文、体言止めの文等からの概
念情報または文脈情報の抽出をより高い精度で行うこと
ができ、該概念情報または文脈情報を有効に活用して精
度の高い情報検索を実現できる。
【0089】また、請求項11、請求項26または請求
項30に記載の発明によれば、概念抽出装置(概念抽出
ステップ)において、情報抽出知識のある知識が合致し
た場合に、該知識と共起しやすい知識を活性化させ、共
起しにくい知識は抑制化する知識間相関ルールを参照す
る。これにより、高い精度で対応カラムの決定が可能に
なり、結果として、高い精度の情報検索を行うことがで
きる。
項30に記載の発明によれば、概念抽出装置(概念抽出
ステップ)において、情報抽出知識のある知識が合致し
た場合に、該知識と共起しやすい知識を活性化させ、共
起しにくい知識は抑制化する知識間相関ルールを参照す
る。これにより、高い精度で対応カラムの決定が可能に
なり、結果として、高い精度の情報検索を行うことがで
きる。
【0090】また、請求項12、請求項27または請求
項30に記載の発明によれば、対応カラム決定装置(対
応カラム決定ステップ)において、対応度の算出を各情
報抽出知識毎に並列に、または対応カラムの決定を各形
態素毎に並列に処理する。このように、各情報抽出知識
が独立して処理される特徴を利用して、並列コンピュー
タ等を用いて並列処理で対応度の算出処理を行うことに
より高速処理が可能となり、また、各形態素が独立して
処理される特徴を利用して、並列コンピュータ等を用い
て並列処理で対応カラムの決定処理を行うことにより高
速処理が可能となる。
項30に記載の発明によれば、対応カラム決定装置(対
応カラム決定ステップ)において、対応度の算出を各情
報抽出知識毎に並列に、または対応カラムの決定を各形
態素毎に並列に処理する。このように、各情報抽出知識
が独立して処理される特徴を利用して、並列コンピュー
タ等を用いて並列処理で対応度の算出処理を行うことに
より高速処理が可能となり、また、各形態素が独立して
処理される特徴を利用して、並列コンピュータ等を用い
て並列処理で対応カラムの決定処理を行うことにより高
速処理が可能となる。
【0091】また、請求項13、請求項28または請求
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて、前記必須属性の
抽出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックする。これにより、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能となる。
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて、前記必須属性の
抽出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックする。これにより、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能となる。
【0092】また、請求項14、請求項29または請求
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて抽出済みの概念情
報の重複を解消する。これにより、概念単位の情報抽出
の精度が高められ、結果として高い精度の情報検索が可
能となる。
項30に記載の発明によれば、概念記述領域決定型概念
情報抽出装置(概念記述領域決定型概念情報抽出ステッ
プ)において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて抽出済みの概念情
報の重複を解消する。これにより、概念単位の情報抽出
の精度が高められ、結果として高い精度の情報検索が可
能となる。
【0093】さらに、本出願の請求項15に記載の発明
によれば、概念抽出装置において、形態素解析装置によ
り自然言語文書中から形態素を抜き出し、構文解析装置
により構文を解析し、構文要素からの概念作成装置によ
り、構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する。このように、意味素辞
書を具備することなしに、構文解析結果のみからキーワ
ード間の関係を表す構文的な情報を含む概念情報を抽出
して登録し、キーワード間の関係情報を活用した検索を
行うので、キーワード間の関係を表す情報、特に構文的
情報の欠落を防ぐと共に、該概念情報を有効に活用して
より簡潔な構成で精度の高い情報検索を実現できる。
によれば、概念抽出装置において、形態素解析装置によ
り自然言語文書中から形態素を抜き出し、構文解析装置
により構文を解析し、構文要素からの概念作成装置によ
り、構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する。このように、意味素辞
書を具備することなしに、構文解析結果のみからキーワ
ード間の関係を表す構文的な情報を含む概念情報を抽出
して登録し、キーワード間の関係情報を活用した検索を
行うので、キーワード間の関係を表す情報、特に構文的
情報の欠落を防ぐと共に、該概念情報を有効に活用して
より簡潔な構成で精度の高い情報検索を実現できる。
【0094】
【発明の実施の形態】以下、本発明に係る情報検索シス
テム、情報検索システムにおける情報処理方法および記
録媒体の実施の形態について、次の[目次]の順に図面
を参照して詳細に説明する。
テム、情報検索システムにおける情報処理方法および記
録媒体の実施の形態について、次の[目次]の順に図面
を参照して詳細に説明する。
【0095】[目次] 1.実施形態の概要 1−1.システムの構成 1−2.情報登録処理 1−3.情報検索処理 2.概念集合の表現 3.概念情報の抽出 3−1.意味解析を用いた概念情報の抽出 3−2.文脈解析および構造解析を用いた概念情報の抽
出 (1)文脈階層構造解析 (2)文脈情報抽出 (3)概念記述領域決定と概念情報抽出 4.概念情報の登録 5.概念情報の検索 6.実施形態の効果
出 (1)文脈階層構造解析 (2)文脈情報抽出 (3)概念記述領域決定と概念情報抽出 4.概念情報の登録 5.概念情報の検索 6.実施形態の効果
【0096】1.実施形態の概要 1−1.システムの構成 図1は本発明の一実施形態に係る情報検索システムの構
成図である。なお、本実施形態の情報検索システムも、
従来例と同様に「WWW(World Wide Web)ページ検索
システム」に適用した事例であり、同図において図49
(従来例)と重複する部分には同一の符号を附する。
成図である。なお、本実施形態の情報検索システムも、
従来例と同様に「WWW(World Wide Web)ページ検索
システム」に適用した事例であり、同図において図49
(従来例)と重複する部分には同一の符号を附する。
【0097】本実施形態のWWWページ検索システム
は、インターネット112につながる複数台のコンピュ
ータ上に構築され、該複数台のコンピュータの外部記憶
装置上に分散して蓄積された自然言語を含む文書群11
0から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。
は、インターネット112につながる複数台のコンピュ
ータ上に構築され、該複数台のコンピュータの外部記憶
装置上に分散して蓄積された自然言語を含む文書群11
0から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。
【0098】図1において、本実施形態のWWWページ
検索システムは、特徴的な構成要素として、概念抽出装
置101、概念登録装置102、概念検索装置103、
データベース104および概念検索文解析装置105を
具備する他、従来例と同様に、CPU106、メインメ
モリ107、ディスプレイ108およびキーボード10
9を備えて構成され、データベース104を除く各構成
要素はデータバス111を介して相互に接続された構成
となっている。
検索システムは、特徴的な構成要素として、概念抽出装
置101、概念登録装置102、概念検索装置103、
データベース104および概念検索文解析装置105を
具備する他、従来例と同様に、CPU106、メインメ
モリ107、ディスプレイ108およびキーボード10
9を備えて構成され、データベース104を除く各構成
要素はデータバス111を介して相互に接続された構成
となっている。
【0099】概念抽出装置101においては、自然言語
文書110中からキーワードおよび該キーワード間の関
係を表す情報を抽出し、概念単位や属性単位に情報を構
造化した「概念情報」にまとめあげる概念抽出処理が行
われる。これにより、自然言語文書110は概念の集合
に変換される。
文書110中からキーワードおよび該キーワード間の関
係を表す情報を抽出し、概念単位や属性単位に情報を構
造化した「概念情報」にまとめあげる概念抽出処理が行
われる。これにより、自然言語文書110は概念の集合
に変換される。
【0100】また、概念登録装置102においては、概
念抽出装置101によって抽出された概念情報をデータ
ベース104に登録して保存する。また、自然言語文書
110の文書所在情報を取得して、抽出した概念情報と
文書所在情報との組による概念情報転置インデックスと
してデータベース104に登録・保存することも可能で
あり、さらに、自然言語文書110中に概念情報のどの
属性が記述されていたかを表す対応属性情報を付加し
て、概念情報、文書所在情報および対応属性情報の組に
よる概念情報転置インデックスとしてデータベース10
4に登録・保存することも可能である。
念抽出装置101によって抽出された概念情報をデータ
ベース104に登録して保存する。また、自然言語文書
110の文書所在情報を取得して、抽出した概念情報と
文書所在情報との組による概念情報転置インデックスと
してデータベース104に登録・保存することも可能で
あり、さらに、自然言語文書110中に概念情報のどの
属性が記述されていたかを表す対応属性情報を付加し
て、概念情報、文書所在情報および対応属性情報の組に
よる概念情報転置インデックスとしてデータベース10
4に登録・保存することも可能である。
【0101】また、概念検索装置103においては、登
録・保存されているデータベース104中の概念情報か
ら検索要求にしたがって必要な概念情報を検索する。検
索要求は、従来例と同様に自然言語による検索文を入力
するものと、所定文法に基づく概念検索文を入力するも
のとの2種類がある。
録・保存されているデータベース104中の概念情報か
ら検索要求にしたがって必要な概念情報を検索する。検
索要求は、従来例と同様に自然言語による検索文を入力
するものと、所定文法に基づく概念検索文を入力するも
のとの2種類がある。
【0102】また、概念検索文解析装置104において
は、ユーザが与える自然言語検索文中から抽出したキー
ワード情報および該キーワード間の関係を表す情報に基
づいて、概念単位または属性単位に情報を構造化した検
索概念情報(検索概念集合)を抽出し、該抽出した検索
概念情報にしたがってデータベース104に登録された
概念情報から必要な概念情報を検索する。
は、ユーザが与える自然言語検索文中から抽出したキー
ワード情報および該キーワード間の関係を表す情報に基
づいて、概念単位または属性単位に情報を構造化した検
索概念情報(検索概念集合)を抽出し、該抽出した検索
概念情報にしたがってデータベース104に登録された
概念情報から必要な概念情報を検索する。
【0103】さらに、データベース104において、概
念情報をリレーショナルデータベースのレコードで表現
することにより、概念情報の格納に従前のリレーショナ
ルデータベースを流用し、公知のリレーショナルデータ
ベースの高速検索技術(インデックスなど)を活用して
高速検索を可能にしたり、データベース言語SQLや、
GUI(グラフィック・ユーザ・インタフェース)を用
いたリレーショナルデータベースのデータ編集ツールを
用いて、抽出した概念情報をメンテナンスすることを容
易にすることも可能である。
念情報をリレーショナルデータベースのレコードで表現
することにより、概念情報の格納に従前のリレーショナ
ルデータベースを流用し、公知のリレーショナルデータ
ベースの高速検索技術(インデックスなど)を活用して
高速検索を可能にしたり、データベース言語SQLや、
GUI(グラフィック・ユーザ・インタフェース)を用
いたリレーショナルデータベースのデータ編集ツールを
用いて、抽出した概念情報をメンテナンスすることを容
易にすることも可能である。
【0104】1−2.情報登録処理 次に、本実施形態のWWWページ検索システムにおける
情報登録処理について、図2に示す情報登録処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
情報登録処理について、図2に示す情報登録処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
【0105】まず、ステップ201では、概念抽出装置
101により自然言語文書202から概念抽出が行われ
る。この結果、自然言語文書202は概念の集合203
に変換される。当該ステップにおける概念抽出の方法、
並びに、概念集合203の保持方法については様々な手
法が考えられるが、概念抽出方法については「3.概念
情報の抽出」で、概念集合の保持方法については「2.
概念集合の表現」でそれぞれ後述する。また、概念抽出
装置101のより詳細な構成および作用等についても
「3.概念情報の抽出」で詳述する。
101により自然言語文書202から概念抽出が行われ
る。この結果、自然言語文書202は概念の集合203
に変換される。当該ステップにおける概念抽出の方法、
並びに、概念集合203の保持方法については様々な手
法が考えられるが、概念抽出方法については「3.概念
情報の抽出」で、概念集合の保持方法については「2.
概念集合の表現」でそれぞれ後述する。また、概念抽出
装置101のより詳細な構成および作用等についても
「3.概念情報の抽出」で詳述する。
【0106】一方、ステップ204では、概念登録装置
102により自然言語文書110の文書所在情報(文書
ID)205を取得する。ここで、自然言語文書110
の文書所在情報205は、WWWページ検索システムの
場合にはURL(Uniform Resource Locator)が該当す
る。
102により自然言語文書110の文書所在情報(文書
ID)205を取得する。ここで、自然言語文書110
の文書所在情報205は、WWWページ検索システムの
場合にはURL(Uniform Resource Locator)が該当す
る。
【0107】次に、ステップ206では、概念登録装置
102により、ステップ201で抽出された概念集合2
03およびステップ204で取得された文書所在情報2
05がセットにされてデータベース104に登録され
る。すなわち、従来の転置インデックス(図51参照)
におけるキーワード部分を概念情報で置き換えたデータ
構造の概念情報転置インデックス(図38参照)が登録
される。データベース104への概念情報の登録方法お
よび登録されるデータ構造に関する詳細については
「4.概念情報の登録」で説明する。
102により、ステップ201で抽出された概念集合2
03およびステップ204で取得された文書所在情報2
05がセットにされてデータベース104に登録され
る。すなわち、従来の転置インデックス(図51参照)
におけるキーワード部分を概念情報で置き換えたデータ
構造の概念情報転置インデックス(図38参照)が登録
される。データベース104への概念情報の登録方法お
よび登録されるデータ構造に関する詳細については
「4.概念情報の登録」で説明する。
【0108】1−3.情報検索処理 次に、本実施形態のWWWページ検索システムにおける
情報検索処理について、図3に示す情報検索処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
情報検索処理について、図3に示す情報検索処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。
【0109】従来例の場合と同様に、情報検索処理にお
いてユーザがキーボード109を介して入力する検索文
には、主に2種類あり、この検索文の種類によって処理
が一部異なる。1つは従来例と同様に、自然言語での検
索文をそのまま入力する場合であり、もう1つは所定の
文法に基づいて概念検索文を入力する場合である。概念
検索文は、従来例におけるキーワード検索文とは異なる
ものになるが、抽出された情報に直接アクセスして条件
を指定できるようなものと言う意味では同様なものとし
て捉えることができる。具体的には、SQLのようなも
のがその一例となるが、これに関する詳細は「5.概念
情報の検索」で述べる。
いてユーザがキーボード109を介して入力する検索文
には、主に2種類あり、この検索文の種類によって処理
が一部異なる。1つは従来例と同様に、自然言語での検
索文をそのまま入力する場合であり、もう1つは所定の
文法に基づいて概念検索文を入力する場合である。概念
検索文は、従来例におけるキーワード検索文とは異なる
ものになるが、抽出された情報に直接アクセスして条件
を指定できるようなものと言う意味では同様なものとし
て捉えることができる。具体的には、SQLのようなも
のがその一例となるが、これに関する詳細は「5.概念
情報の検索」で述べる。
【0110】図3のフローチャートでは、ステップ30
1において、これらの検索文の種類(自然言語検索文か
または概念検索文か)を判定して処理を分岐させてい
る。
1において、これらの検索文の種類(自然言語検索文か
または概念検索文か)を判定して処理を分岐させてい
る。
【0111】検索文が自然言語検索文303である場合
には、ステップ302に進んで、概念抽出装置101に
よって検索概念を抽出する。検索概念の抽出方法および
内部表現方法にはいろいろな手法が考えられるが、これ
らについては「5.概念情報の検索」で述べる。
には、ステップ302に進んで、概念抽出装置101に
よって検索概念を抽出する。検索概念の抽出方法および
内部表現方法にはいろいろな手法が考えられるが、これ
らについては「5.概念情報の検索」で述べる。
【0112】この段階で抽出された検索概念の集合を、
ここでは検索概念集合306と呼ぶ。
ここでは検索概念集合306と呼ぶ。
【0113】また、検索文が概念検索文305である場
合には、ステップ304に進んで、入力された概念検索
文305は概念検索文解析装置105によって文法解析
され、検索概念集合306に変換される。ここでの文法
はシステム依存であるが、SQLの検索文のような能力
を持った文法が定義されているものとする。この場合、
検索概念集合306は、単なる概念の集合だけではな
く、何を検索するのか、条件は何なのか等の情報を保持
しているものとなる。なお、詳細は「5.概念情報の検
索」で述べる。
合には、ステップ304に進んで、入力された概念検索
文305は概念検索文解析装置105によって文法解析
され、検索概念集合306に変換される。ここでの文法
はシステム依存であるが、SQLの検索文のような能力
を持った文法が定義されているものとする。この場合、
検索概念集合306は、単なる概念の集合だけではな
く、何を検索するのか、条件は何なのか等の情報を保持
しているものとなる。なお、詳細は「5.概念情報の検
索」で述べる。
【0114】さらに、キーボード109からの入力がな
くても、何らかの方法によって検索概念集合306を自
動生成するようなシステムも本発明の対象となる。例え
ば、人間同士がやり取りする電子メールを監視して、電
子メールの内容から自動的に関連情報を検索するための
検索概念集合306を作成するなどが考えられる。この
ようにすると、ユーザがキーボード109を介して検索
文を入力する作業が削減できるという利点がある。
くても、何らかの方法によって検索概念集合306を自
動生成するようなシステムも本発明の対象となる。例え
ば、人間同士がやり取りする電子メールを監視して、電
子メールの内容から自動的に関連情報を検索するための
検索概念集合306を作成するなどが考えられる。この
ようにすると、ユーザがキーボード109を介して検索
文を入力する作業が削減できるという利点がある。
【0115】以上のようにして、自然言語検索文303
または概念検索文305によって指定された検索内容
は、一旦、検索概念集合306に変換され、ステップ3
07では、これを元にして概念検索装置103によりデ
ータベース104からの検索処理が行われる。そして、
ステップ308で、その結果がディスプレイ108上に
表示されることになる。
または概念検索文305によって指定された検索内容
は、一旦、検索概念集合306に変換され、ステップ3
07では、これを元にして概念検索装置103によりデ
ータベース104からの検索処理が行われる。そして、
ステップ308で、その結果がディスプレイ108上に
表示されることになる。
【0116】2.概念集合の表現 「1−2.情報登録処理」の説明で述べたように、抽出
した概念集合203をどういった形態で保持するかとい
うことについては様々な方法が考えられるが、ここで
は、その一例としてデータベースのレコード様のデータ
構造によって概念集合203を表現する方法について述
べる。なお、概念表現を自然言語文書202から抽出す
る方法については、次の「3.概念情報の抽出」で述べ
る。
した概念集合203をどういった形態で保持するかとい
うことについては様々な方法が考えられるが、ここで
は、その一例としてデータベースのレコード様のデータ
構造によって概念集合203を表現する方法について述
べる。なお、概念表現を自然言語文書202から抽出す
る方法については、次の「3.概念情報の抽出」で述べ
る。
【0117】以下では、データベースのレコード様のデ
ータ構造によって概念集合203を表現する方法につい
て述べる。この方法では、概念集合203はレコードの
集合となるので、データベース104のテーブルが概念
集合に当たる。例えば、従来例でも引用した図4の自然
言語文書は、概念抽出処理(図2のステップ201)に
よって、図5に示すような概念集合のテーブルに変換さ
れる。すなわち図5において、各製品を表しているレコ
ードが抽出した概念に相当する。
ータ構造によって概念集合203を表現する方法につい
て述べる。この方法では、概念集合203はレコードの
集合となるので、データベース104のテーブルが概念
集合に当たる。例えば、従来例でも引用した図4の自然
言語文書は、概念抽出処理(図2のステップ201)に
よって、図5に示すような概念集合のテーブルに変換さ
れる。すなわち図5において、各製品を表しているレコ
ードが抽出した概念に相当する。
【0118】図5のように抽出された概念集合は、従来
例のキーワード集合(図52参照)に比べて、以下の2
点で情報の質が異なっている。まず第1に、「概念単位
の情報構造化」であり、概念単位(ここでは製品単位)
に情報が分離され、データベース104のレコードとし
て抽出されている。また第2に、「概念の属性単位の情
報構造化と属性の意味把握」であり、概念の保持する属
性単位(ここではテーブルのカラムに相当する)に情報
が分離されている。別の見方をすれば、概念に関係する
キーワードが、概念との関係単位に整理されていると見
ることもできる。同時に、この場合、カラムにカラム名
がついていることからもわかるように、概念との関係の
種類(或いは意味)が把握されていることがわかる。
例のキーワード集合(図52参照)に比べて、以下の2
点で情報の質が異なっている。まず第1に、「概念単位
の情報構造化」であり、概念単位(ここでは製品単位)
に情報が分離され、データベース104のレコードとし
て抽出されている。また第2に、「概念の属性単位の情
報構造化と属性の意味把握」であり、概念の保持する属
性単位(ここではテーブルのカラムに相当する)に情報
が分離されている。別の見方をすれば、概念に関係する
キーワードが、概念との関係単位に整理されていると見
ることもできる。同時に、この場合、カラムにカラム名
がついていることからもわかるように、概念との関係の
種類(或いは意味)が把握されていることがわかる。
【0119】このような情報の質の違いによって、従来
例のキーワード集合(図52参照)において欠落してい
た情報が保存されていると考えることができる。具体的
には以下のような特徴的な事項を挙げることができる。
例のキーワード集合(図52参照)において欠落してい
た情報が保存されていると考えることができる。具体的
には以下のような特徴的な事項を挙げることができる。
【0120】第1に、自然言語文書(図4)のタイトル
の「オムロン製品情報」によって与えられた、該タイト
ル以下の文書内容が全てオムロンの製品について述べら
れているという文脈情報は、従来例の図52では欠落し
ていたが、本実施形態の図5では「メーカー」のカラム
として情報が保存されている。
の「オムロン製品情報」によって与えられた、該タイト
ル以下の文書内容が全てオムロンの製品について述べら
れているという文脈情報は、従来例の図52では欠落し
ていたが、本実施形態の図5では「メーカー」のカラム
として情報が保存されている。
【0121】第2に、自然言語文書(図4)において、
(a), (b), (c) の箇条書きの見出し語によって与えられ
た、それぞれの箇条書き項目の製品種別の文脈情報は、
従来例の図52では欠落していたが、本実施形態の図5
では「製品」のカラムとして情報が保存されている。
(a), (b), (c) の箇条書きの見出し語によって与えられ
た、それぞれの箇条書き項目の製品種別の文脈情報は、
従来例の図52では欠落していたが、本実施形態の図5
では「製品」のカラムとして情報が保存されている。
【0122】第3に、自然言語文書(図4)において、
「●」で示された項目によって、(a)の中に独立した2
つの製品情報があるという構造情報は、従来例の図52
では欠落していたが、本実施形態の図5ではそれぞれ別
のレコードとして情報が保存されることで保たれてい
る。
「●」で示された項目によって、(a)の中に独立した2
つの製品情報があるという構造情報は、従来例の図52
では欠落していたが、本実施形態の図5ではそれぞれ別
のレコードとして情報が保存されることで保たれてい
る。
【0123】第4に、自然言語文書(図4)において、
表で示された各製品の血圧計の医療用具承認番号は、従
来例の図52ではどの番号がどの製品に対するかの情報
が欠落していたが、本実施形態の図5ではそれぞれの製
品に対する「医療用具承認番号」カラムとして保存され
ている。
表で示された各製品の血圧計の医療用具承認番号は、従
来例の図52ではどの番号がどの製品に対するかの情報
が欠落していたが、本実施形態の図5ではそれぞれの製
品に対する「医療用具承認番号」カラムとして保存され
ている。
【0124】第5に、自然言語文書(図4)において、
自然言語文で表現されていた各製品の発売に関する情報
は、従来例の図52ではどの製品に対するものかが情報
欠落していたが、本実施形態の図5ではそれぞれの製品
に対する「型式」,「発売日」,「価格」カラム等とし
て保存されている。
自然言語文で表現されていた各製品の発売に関する情報
は、従来例の図52ではどの製品に対するものかが情報
欠落していたが、本実施形態の図5ではそれぞれの製品
に対する「型式」,「発売日」,「価格」カラム等とし
て保存されている。
【0125】上記第1から第5までのような情報欠落の
防止によって、ユーザの意図を正しく把握した検索結果
を得ることが可能になる。例えば、「12,500円の血圧
計」は「HEM737」であるということがわかるし、文書の
所在情報と共にデータベースに保管してあれば、文書3
を見つけ出してくることも可能である。逆に「12,500円
の体温計」の情報はないということがわかるため、従来
例のように、誤って図4の自然言語文書を検索に適合さ
せてしまうこともない。
防止によって、ユーザの意図を正しく把握した検索結果
を得ることが可能になる。例えば、「12,500円の血圧
計」は「HEM737」であるということがわかるし、文書の
所在情報と共にデータベースに保管してあれば、文書3
を見つけ出してくることも可能である。逆に「12,500円
の体温計」の情報はないということがわかるため、従来
例のように、誤って図4の自然言語文書を検索に適合さ
せてしまうこともない。
【0126】なお、図5では、製品に関するテーブルだ
けで概念情報の説明をおこなったが、実際には企業に関
するテーブルなど、複数のテーブルが同時に存在しても
良い。なおかつ、あるテーブルのキー項目を他のテーブ
ルのカラムに記述することにより、リレーショナルデー
タベースのようにリレーションを定義することもでき
る。例えば、企業テーブルがあって、企業名カラムがキ
ーカラムとしてあり、企業テーブルの1つのレコードと
してオムロンのデータがあり、企業名が「オムロン」と
なっている場合、製品テーブルのメーカーカラムで「オ
ムロン」と指定すれば、それは企業テーブルのオムロン
に関するデータとリレーションをはっていることにな
る。つまり、これら2つのテーブルに対して同時に情報
抽出することによって、より複雑なデータ検索にも耐え
られる情報検索装置を実現することができる。この場
合、概念をフレーム理論のフレームで概念を表現したの
と等価の効果が得られる。
けで概念情報の説明をおこなったが、実際には企業に関
するテーブルなど、複数のテーブルが同時に存在しても
良い。なおかつ、あるテーブルのキー項目を他のテーブ
ルのカラムに記述することにより、リレーショナルデー
タベースのようにリレーションを定義することもでき
る。例えば、企業テーブルがあって、企業名カラムがキ
ーカラムとしてあり、企業テーブルの1つのレコードと
してオムロンのデータがあり、企業名が「オムロン」と
なっている場合、製品テーブルのメーカーカラムで「オ
ムロン」と指定すれば、それは企業テーブルのオムロン
に関するデータとリレーションをはっていることにな
る。つまり、これら2つのテーブルに対して同時に情報
抽出することによって、より複雑なデータ検索にも耐え
られる情報検索装置を実現することができる。この場
合、概念をフレーム理論のフレームで概念を表現したの
と等価の効果が得られる。
【0127】3.概念情報の抽出 次に、概念抽出処理(図2のステップ202)のより詳
細な説明として、概念情報を抽出する方法を、主にデー
タベースのレコード様のデータを概念情報として抽出す
る方法を一例に詳述する。
細な説明として、概念情報を抽出する方法を、主にデー
タベースのレコード様のデータを概念情報として抽出す
る方法を一例に詳述する。
【0128】3−1.意味解析を用いた概念情報の抽出 まず、意味解析(格解析)を行って概念情報を抽出する
方法について述べる。図6は意味解析を用いた概念抽出
装置のシステム構成図であり、図7は意味解析を用いた
概念情報抽出処理を説明するフローチャートである。
方法について述べる。図6は意味解析を用いた概念抽出
装置のシステム構成図であり、図7は意味解析を用いた
概念情報抽出処理を説明するフローチャートである。
【0129】図5において、本実施形態の概念抽出装置
は、自然言語文書中から形態素を抜き出す形態素解析装
置601と、形態素中の動詞成分のみを抜き出す動詞抽
出装置602と、動詞が依存する格要素の意味素の情報
や表層格の条件の情報等を記述した動詞格フレーム辞書
605と、意味素の表層的定義を行う意味素辞書606
と、動詞に対応する格要素を特定する格要素特定装置6
03と、格要素と概念情報との対応情報を保持する格要
素・概念対応情報607と、格要素・概念対応情報60
7に基づいて概念情報を作成する格要素からの概念作成
装置604を備えて構成されている。
は、自然言語文書中から形態素を抜き出す形態素解析装
置601と、形態素中の動詞成分のみを抜き出す動詞抽
出装置602と、動詞が依存する格要素の意味素の情報
や表層格の条件の情報等を記述した動詞格フレーム辞書
605と、意味素の表層的定義を行う意味素辞書606
と、動詞に対応する格要素を特定する格要素特定装置6
03と、格要素と概念情報との対応情報を保持する格要
素・概念対応情報607と、格要素・概念対応情報60
7に基づいて概念情報を作成する格要素からの概念作成
装置604を備えて構成されている。
【0130】本実施形態の概念抽出装置では、動詞が依
存する意味素の情報を活用して概念情報を抽出すること
が可能である。また、意味素辞書の参照なしに動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことが可能である。さらに、動詞が依存する意味素と表
層格の両方の情報を活用して概念情報を抽出し、表層格
をあらわす格助詞が省略された文の場合や、同一の意味
素が複数含まれる文の場合などにも格要素を特定するこ
とが可能である。
存する意味素の情報を活用して概念情報を抽出すること
が可能である。また、意味素辞書の参照なしに動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことが可能である。さらに、動詞が依存する意味素と表
層格の両方の情報を活用して概念情報を抽出し、表層格
をあらわす格助詞が省略された文の場合や、同一の意味
素が複数含まれる文の場合などにも格要素を特定するこ
とが可能である。
【0131】次に、本実施形態の概念抽出装置における
意味解析を用いた概念情報抽出処理について、図7のフ
ローチャートを参照して説明する。まず、第1の具体例
として、図8に示すような自然言語文書702が与えら
れたとき、本実施形態の概念抽出装置は、概念情報を抽
出した結果として、図9に示すような概念情報711
(製品テーブル)を出力する。以下、この第1の具体例
について、図7のフローチャートの各ステップの動作に
したがって説明する。
意味解析を用いた概念情報抽出処理について、図7のフ
ローチャートを参照して説明する。まず、第1の具体例
として、図8に示すような自然言語文書702が与えら
れたとき、本実施形態の概念抽出装置は、概念情報を抽
出した結果として、図9に示すような概念情報711
(製品テーブル)を出力する。以下、この第1の具体例
について、図7のフローチャートの各ステップの動作に
したがって説明する。
【0132】まず、ステップ701では、自然言語文書
702(図8参照)を形態素解析装置601により形態
素解析して、形態素703を出力する。そして、ステッ
プ704では、動詞抽出装置602により形態素703
から動詞を抽出する。この場合には動詞「発売する」が
抽出される。
702(図8参照)を形態素解析装置601により形態
素解析して、形態素703を出力する。そして、ステッ
プ704では、動詞抽出装置602により形態素703
から動詞を抽出する。この場合には動詞「発売する」が
抽出される。
【0133】次に、ステップ705においては、格要素
特定装置603により、動詞格フレーム辞書605を用
いて、動詞「発売する」が依存する格要素の条件を調べ
る。図10には、概念への対応情報を付加した動詞格フ
レーム辞書605を例示する。同図の動詞格フレーム辞
書605は動詞格フレーム辞書および概念への対応情報
を備えて構成されている。概念への対応情報については
後述するとして、ここでは、動詞格フレーム辞書の構成
について説明する。一般的な動詞格フレーム辞書は、図
10に示したように、動詞が依存する格要素の意味素や
表層格の条件が記述されている部分と考えて良い。便宜
上、図10においては各格要素に[1]から[5]までの番号
をつけている。
特定装置603により、動詞格フレーム辞書605を用
いて、動詞「発売する」が依存する格要素の条件を調べ
る。図10には、概念への対応情報を付加した動詞格フ
レーム辞書605を例示する。同図の動詞格フレーム辞
書605は動詞格フレーム辞書および概念への対応情報
を備えて構成されている。概念への対応情報については
後述するとして、ここでは、動詞格フレーム辞書の構成
について説明する。一般的な動詞格フレーム辞書は、図
10に示したように、動詞が依存する格要素の意味素や
表層格の条件が記述されている部分と考えて良い。便宜
上、図10においては各格要素に[1]から[5]までの番号
をつけている。
【0134】次に、ステップ707においては、格要素
特定装置603により、動詞格フレーム辞書605と、
形態素解析(ステップ701)で抽出された形態素70
3とを比較し、意味素または表層格の情報から、それぞ
れの格要素に対応した形態素を特定する。
特定装置603により、動詞格フレーム辞書605と、
形態素解析(ステップ701)で抽出された形態素70
3とを比較し、意味素または表層格の情報から、それぞ
れの格要素に対応した形態素を特定する。
【0135】まず、意味素の情報から格要素に対応した
形態素を特定するには、意味素辞書606が参照され
る。すなわち、意味素は、図11に示すような意味素辞
書606(一般的には意味解析辞書等と呼ばれる)に定
義されている。この意味素辞書606には、意味素に含
まれる単語或いはパターンが記述されており、該単語や
パターンにマッチすれば、形態素はその意味素であると
みなされる。例えば、「1997年7月1日」は意味素辞書
606に記述されている「<整数>年<整数>月<整数
>日」というパターンにマッチするので「<日時>」の
意味素であることがわかる。なお、図11において、
<...>は意味素を表し、<...>:: ...によって意味素
の定義を表している。また、orは選言要素を表す特殊
文字列として使用され、(…)は説明による定義を表し
ている。また、:は同様な定義がいろいろな意味素に対
してされていることを表し、…は定義内容がその他にも
考えられることを表している。その他の文字は文字その
ものを表しているものとする。
形態素を特定するには、意味素辞書606が参照され
る。すなわち、意味素は、図11に示すような意味素辞
書606(一般的には意味解析辞書等と呼ばれる)に定
義されている。この意味素辞書606には、意味素に含
まれる単語或いはパターンが記述されており、該単語や
パターンにマッチすれば、形態素はその意味素であると
みなされる。例えば、「1997年7月1日」は意味素辞書
606に記述されている「<整数>年<整数>月<整数
>日」というパターンにマッチするので「<日時>」の
意味素であることがわかる。なお、図11において、
<...>は意味素を表し、<...>:: ...によって意味素
の定義を表している。また、orは選言要素を表す特殊
文字列として使用され、(…)は説明による定義を表し
ている。また、:は同様な定義がいろいろな意味素に対
してされていることを表し、…は定義内容がその他にも
考えられることを表している。その他の文字は文字その
ものを表しているものとする。
【0136】また、意味素辞書606にマッチしなかっ
た未知語等の形態素でも、表層格の情報がマッチすれば
格要素を特定することができる。表層格は、日本語の場
合には格助詞の「は」,「が」,「を」,「で」,
「に」,「から」等によって決定され、「は」,「が」
は「ガ格」、「を」は「ヲ格」等となる。ただし、動詞
が依存する表層格は受動態や埋め込み文などによって変
化するため、受動態や埋め込み文用に別途辞書を作成す
る場合もある。
た未知語等の形態素でも、表層格の情報がマッチすれば
格要素を特定することができる。表層格は、日本語の場
合には格助詞の「は」,「が」,「を」,「で」,
「に」,「から」等によって決定され、「は」,「が」
は「ガ格」、「を」は「ヲ格」等となる。ただし、動詞
が依存する表層格は受動態や埋め込み文などによって変
化するため、受動態や埋め込み文用に別途辞書を作成す
る場合もある。
【0137】上述のように、意味素だけで格要素を特定
したり、表層格だけで格要素を特定する方法もある。し
かしながら、意味素が同じ複数の格要素に依存する動詞
の場合には、意味素だけでは格要素の特定は難しく、ま
た、表層格は実際の自然言語文では省略されることも多
いため、このような場合には表層格だけでは格要素の特
定は難しくなる。本実施形態では、このような場合でも
意味素と表層格を同時に活用して判断することにより、
格要素を特定することができる。
したり、表層格だけで格要素を特定する方法もある。し
かしながら、意味素が同じ複数の格要素に依存する動詞
の場合には、意味素だけでは格要素の特定は難しく、ま
た、表層格は実際の自然言語文では省略されることも多
いため、このような場合には表層格だけでは格要素の特
定は難しくなる。本実施形態では、このような場合でも
意味素と表層格を同時に活用して判断することにより、
格要素を特定することができる。
【0138】上記の処理により、自然言語文書702
(図8参照)に対して、次のような格要素が抽出され
る。すなわち、図10の格要素番号に対応して、[1] オ
ムロン,[2] 血圧計,[3] 「HEM-739」,[4] 1997年7月
1日,[5] 16000円 の格要素となる。
(図8参照)に対して、次のような格要素が抽出され
る。すなわち、図10の格要素番号に対応して、[1] オ
ムロン,[2] 血圧計,[3] 「HEM-739」,[4] 1997年7月
1日,[5] 16000円 の格要素となる。
【0139】さらに、ステップ709では、格要素から
の概念作成装置604により、格要素・概念対応情報6
07を参照して概念情報への代入が行われ、概念情報7
11を得る。図10に示したように、本実施形態で使用
する動詞格フレーム辞書605は、一般的な動詞格フレ
ーム辞書に、概念への対応情報として「対応カラム」の
情報を付加した構成を備え、格要素・概念対応情報60
7を動詞格フレーム辞書605内に具備している。すな
わち、格要素からの概念作成装置604においては、動
詞格フレーム辞書605の概念への対応情報を参照し
て、ステップ707で特定した番号[1] から[5] までの
格要素を、図9に示す「製品テーブル」のそれぞれの対
応カラムに代入していく。例えば、番号[1] で抽出され
た格要素「オムロン」は、動詞格フレーム辞書605の
対応カラムの欄に記述された「製品テーブル.メーカ
ー」という情報にしたがって、「製品テーブル」の「メ
ーカー」カラムに代入される。ここで、動詞格フレーム
辞書605の対応カラムの欄にテーブル名を明記してい
るのは、抽出すべき概念情報が複数のテーブルとして得
られるような場合などにも対応できるようにするためで
ある。
の概念作成装置604により、格要素・概念対応情報6
07を参照して概念情報への代入が行われ、概念情報7
11を得る。図10に示したように、本実施形態で使用
する動詞格フレーム辞書605は、一般的な動詞格フレ
ーム辞書に、概念への対応情報として「対応カラム」の
情報を付加した構成を備え、格要素・概念対応情報60
7を動詞格フレーム辞書605内に具備している。すな
わち、格要素からの概念作成装置604においては、動
詞格フレーム辞書605の概念への対応情報を参照し
て、ステップ707で特定した番号[1] から[5] までの
格要素を、図9に示す「製品テーブル」のそれぞれの対
応カラムに代入していく。例えば、番号[1] で抽出され
た格要素「オムロン」は、動詞格フレーム辞書605の
対応カラムの欄に記述された「製品テーブル.メーカ
ー」という情報にしたがって、「製品テーブル」の「メ
ーカー」カラムに代入される。ここで、動詞格フレーム
辞書605の対応カラムの欄にテーブル名を明記してい
るのは、抽出すべき概念情報が複数のテーブルとして得
られるような場合などにも対応できるようにするためで
ある。
【0140】以上説明した手順を踏むことにより、自然
言語文書702(図8参照)から概念情報711(図9
参照)を抽出することができる。
言語文書702(図8参照)から概念情報711(図9
参照)を抽出することができる。
【0141】なお、純粋な意味解析は動詞格フレームと
意味素の情報のみで解析する場合も多く、表層格情報な
どを用いるのは、どちらかというと統語解析(すなわち
構文解析)の範疇に入る。ここでは、概念情報のカラム
として概念の属性的なものを例に挙げているが、こうい
った統語解析の結果(すなわちガ格・ヲ格、主語・述
語、係り・受けなど)の観点から、整理した概念情報を
抽出するのも当然可能である。この場合、意味素辞書6
06を備える必要がなくなり、構文解析のみ行えば良い
ので、知識構築の手間がかからないという利点がある。
意味素の情報のみで解析する場合も多く、表層格情報な
どを用いるのは、どちらかというと統語解析(すなわち
構文解析)の範疇に入る。ここでは、概念情報のカラム
として概念の属性的なものを例に挙げているが、こうい
った統語解析の結果(すなわちガ格・ヲ格、主語・述
語、係り・受けなど)の観点から、整理した概念情報を
抽出するのも当然可能である。この場合、意味素辞書6
06を備える必要がなくなり、構文解析のみ行えば良い
ので、知識構築の手間がかからないという利点がある。
【0142】次に、第2の具体例として、図12に示す
ような自然言語文書702が与えられたとき、本実施形
態の概念抽出装置は、概念情報を抽出した結果として、
図13に示すような概念情報711(製品テーブル)を
出力する。以下、この第2の具体例について説明する。
ような自然言語文書702が与えられたとき、本実施形
態の概念抽出装置は、概念情報を抽出した結果として、
図13に示すような概念情報711(製品テーブル)を
出力する。以下、この第2の具体例について説明する。
【0143】第1の具体例(図8)と違って、図12の
自然言語文書には動詞がない。若しくは、英語で言うと
ころの「be動詞」であるとみなせる。このようなbe
動詞等のようにさまざまな状況で用いられる動詞の場
合、動詞が依存する格要素を特定することが難しく、動
詞格フレーム辞書605は作成しにくい。たとえ作成で
きたとしても、多様な意味素が対応可能なため、役に立
たないことも多い。
自然言語文書には動詞がない。若しくは、英語で言うと
ころの「be動詞」であるとみなせる。このようなbe
動詞等のようにさまざまな状況で用いられる動詞の場
合、動詞が依存する格要素を特定することが難しく、動
詞格フレーム辞書605は作成しにくい。たとえ作成で
きたとしても、多様な意味素が対応可能なため、役に立
たないことも多い。
【0144】このような問題を解決するために、図10
に示した動詞格フレーム辞書605を、もうすこし一般
化することを試みる。動詞格フレーム辞書605で行っ
ていることは、図14のような意味素間の相関関係を、
「発売する」という動詞が表す動作の事象の観点から整
理し、動詞が依存する格要素という形で検索できるよう
にしたものである。すなわち、図14の例では、「発
売」1401を中心として、それに関連した意味素の
「企業」1402から「型式」1406までを格要素と
して検索できるようにしたものである。
に示した動詞格フレーム辞書605を、もうすこし一般
化することを試みる。動詞格フレーム辞書605で行っ
ていることは、図14のような意味素間の相関関係を、
「発売する」という動詞が表す動作の事象の観点から整
理し、動詞が依存する格要素という形で検索できるよう
にしたものである。すなわち、図14の例では、「発
売」1401を中心として、それに関連した意味素の
「企業」1402から「型式」1406までを格要素と
して検索できるようにしたものである。
【0145】動詞を中心とした整理を行うのは、動詞に
よって状況が限定され、そこに関連する格要素の候補を
限定しやすいからであった。しかし、be動詞等のよう
に、動詞を限定しても、それに関連する格要素候補が限
定できない場合には、無理に動詞を中心と考えず、他の
名詞などを中心に考えても同等の効果が得られると考え
られる。したがって、このような場合には、図10に示
した動詞格フレームの動詞の代わりに名詞を用いて、名
詞格フレームを作成することで、自然言語文書(図12
参照)から概念情報(図13参照)の抽出を可能にする
ことができる。
よって状況が限定され、そこに関連する格要素の候補を
限定しやすいからであった。しかし、be動詞等のよう
に、動詞を限定しても、それに関連する格要素候補が限
定できない場合には、無理に動詞を中心と考えず、他の
名詞などを中心に考えても同等の効果が得られると考え
られる。したがって、このような場合には、図10に示
した動詞格フレームの動詞の代わりに名詞を用いて、名
詞格フレームを作成することで、自然言語文書(図12
参照)から概念情報(図13参照)の抽出を可能にする
ことができる。
【0146】さらに一般化すれば、動詞,名詞等に関わ
らず、自然言語文書におけるある形態素(構成素)は、
他の形態素(構成素)に対して依存関係(或いは共起関
係)を要求するため、それらを「情報抽出知識」として
作成しておけば、あとはそれらの知識を適用して最も妥
当性の高い格要素(或いは共起要素)を決定し、その結
果を用いて概念情報を抽出するということが可能にな
る。「3−2.文脈解析および構造解析を用いた概念情
報の抽出」で説明する図23および図24の文脈情報抽
出知識は、この情報抽出知識の一例ということができ
る。
らず、自然言語文書におけるある形態素(構成素)は、
他の形態素(構成素)に対して依存関係(或いは共起関
係)を要求するため、それらを「情報抽出知識」として
作成しておけば、あとはそれらの知識を適用して最も妥
当性の高い格要素(或いは共起要素)を決定し、その結
果を用いて概念情報を抽出するということが可能にな
る。「3−2.文脈解析および構造解析を用いた概念情
報の抽出」で説明する図23および図24の文脈情報抽
出知識は、この情報抽出知識の一例ということができ
る。
【0147】3−2.文脈解析および構造解析を用いた
概念情報の抽出 「3−1.意味解析を用いた概念情報の抽出」では、意
味解析を用いて自然言語文書から概念情報を抽出する方
法について述べたが、これによって解決できるのは、主
に、「発明が解決しようとする課題」で述べた情報欠落
のうち「第5の構文的・意味的情報の欠落」の問題につ
いてだけである。音声言語において問題となるのは主に
この「構文的・意味的情報の欠落」であるが、文字言語
においては、他の「段落に関する文脈情報の欠落」,
「箇条書きに関する文脈情報の欠落」,「箇条書きに関
する構造情報の欠落」,「表に関する文脈・構造情報の
欠落」についても重要な問題である。このような他の情
報欠落についても解決しつつ、図4に示した自然言語文
書から図5に示した概念集合を抽出するためには、以下
に示すような文脈解析や構造解析が必要となる。
概念情報の抽出 「3−1.意味解析を用いた概念情報の抽出」では、意
味解析を用いて自然言語文書から概念情報を抽出する方
法について述べたが、これによって解決できるのは、主
に、「発明が解決しようとする課題」で述べた情報欠落
のうち「第5の構文的・意味的情報の欠落」の問題につ
いてだけである。音声言語において問題となるのは主に
この「構文的・意味的情報の欠落」であるが、文字言語
においては、他の「段落に関する文脈情報の欠落」,
「箇条書きに関する文脈情報の欠落」,「箇条書きに関
する構造情報の欠落」,「表に関する文脈・構造情報の
欠落」についても重要な問題である。このような他の情
報欠落についても解決しつつ、図4に示した自然言語文
書から図5に示した概念集合を抽出するためには、以下
に示すような文脈解析や構造解析が必要となる。
【0148】本実施形態における文脈解析および構造解
析の処理においては、文書或いは文書群を階層化された
文脈領域と考える。ここで、「文脈領域」とは、文書或
いは文書群中に現れる「文書」,「段落」,「行」,
「箇条書き」,「箇条書き項目」,「表」,「表の
行」,「表の列」,「表のセル」,「ハイパーリンク」
といった構造のことである。それぞれの文脈領域は下位
の文脈領域を内部に含むことができる。また、下位の文
脈領域は上位の文脈領域を自動的に参照することがで
き、参照先の上位の文脈領域で抽出されている概念情報
を文脈情報として活用することができる。
析の処理においては、文書或いは文書群を階層化された
文脈領域と考える。ここで、「文脈領域」とは、文書或
いは文書群中に現れる「文書」,「段落」,「行」,
「箇条書き」,「箇条書き項目」,「表」,「表の
行」,「表の列」,「表のセル」,「ハイパーリンク」
といった構造のことである。それぞれの文脈領域は下位
の文脈領域を内部に含むことができる。また、下位の文
脈領域は上位の文脈領域を自動的に参照することがで
き、参照先の上位の文脈領域で抽出されている概念情報
を文脈情報として活用することができる。
【0149】図15には、本実施形態における文脈・構
造解析を用いた概念情報抽出装置のシステム構成図を示
し、図16には、文脈・構造解析を用いた概念情報抽出
処理を説明するフローチャートを示す。
造解析を用いた概念情報抽出装置のシステム構成図を示
し、図16には、文脈・構造解析を用いた概念情報抽出
処理を説明するフローチャートを示す。
【0150】図15において、本実施形態の概念抽出装
置は、自然言語文書群を階層化された文脈領域としてと
らえ、各分脈領域についての開始ポイントの条件、終了
ポイントの条件および下位となる文脈領域の候補につい
て記述した文脈領域抽出知識を備えて、自然言語文書の
文書構造が持つ階層性を解析して文脈階層構造情報を作
成する文脈階層構造解析装置1501と、意味素と対応
する概念のカラムの情報を記述した文脈情報抽出知識を
備えて、構築が容易な単純な知識で、単語のみの文、名
詞句のみの文または体言止めの文等からの文脈情報の抽
出を可能にし、前記文脈階層構造情報中に文脈情報を保
存する文脈情報抽出装置1502と、概念記述領域を決
定しながら概念情報を抽出する際に、文脈階層構造を活
用して下位の文脈領域から上位の文脈領域に保存された
文脈情報を参照したり、上位の文脈領域から下位の文脈
領域に保存された文脈情報を活用して、より精度の高い
概念抽出を行う概念記述領域決定型概念情報抽出装置1
503とを備えて構成(第1の構成)されている。な
お、ここで、「文脈階層構造」とは、自然言語文書中に
現れる種々の論理的構造、すなわち文書、段落、箇条書
き、箇条書き項目、表、表内の行,列およびセル等をい
い、また他の使用した語句の詳細については、後述の説
明において明かにする。
置は、自然言語文書群を階層化された文脈領域としてと
らえ、各分脈領域についての開始ポイントの条件、終了
ポイントの条件および下位となる文脈領域の候補につい
て記述した文脈領域抽出知識を備えて、自然言語文書の
文書構造が持つ階層性を解析して文脈階層構造情報を作
成する文脈階層構造解析装置1501と、意味素と対応
する概念のカラムの情報を記述した文脈情報抽出知識を
備えて、構築が容易な単純な知識で、単語のみの文、名
詞句のみの文または体言止めの文等からの文脈情報の抽
出を可能にし、前記文脈階層構造情報中に文脈情報を保
存する文脈情報抽出装置1502と、概念記述領域を決
定しながら概念情報を抽出する際に、文脈階層構造を活
用して下位の文脈領域から上位の文脈領域に保存された
文脈情報を参照したり、上位の文脈領域から下位の文脈
領域に保存された文脈情報を活用して、より精度の高い
概念抽出を行う概念記述領域決定型概念情報抽出装置1
503とを備えて構成(第1の構成)されている。な
お、ここで、「文脈階層構造」とは、自然言語文書中に
現れる種々の論理的構造、すなわち文書、段落、箇条書
き、箇条書き項目、表、表内の行,列およびセル等をい
い、また他の使用した語句の詳細については、後述の説
明において明かにする。
【0151】次に、本実施形態の概念抽出装置における
文脈・構造解析を用いた概念情報抽出処理について、図
16のフローチャートを参照して説明する。具体例とし
て、図4に示すような自然言語文書が与えられたとき、
概念情報を抽出した結果として、図5に示すような概念
集合を出力する場合を考える。
文脈・構造解析を用いた概念情報抽出処理について、図
16のフローチャートを参照して説明する。具体例とし
て、図4に示すような自然言語文書が与えられたとき、
概念情報を抽出した結果として、図5に示すような概念
集合を出力する場合を考える。
【0152】(1)文脈階層構造解析 まず、ステップ701では、文脈階層構造解析装置15
01により、自然言語文書(図4参照)について文脈領
域の階層構造が認識される。図17および図18には、
図4の自然言語文書について文脈構造解析を行った結果
を示す。ここで、図17は自然言語文書と文脈領域との
対応関係を示し、図18は文脈階層構造を表す内部デー
タ構造を示している。
01により、自然言語文書(図4参照)について文脈領
域の階層構造が認識される。図17および図18には、
図4の自然言語文書について文脈構造解析を行った結果
を示す。ここで、図17は自然言語文書と文脈領域との
対応関係を示し、図18は文脈階層構造を表す内部デー
タ構造を示している。
【0153】図17におけるAR1〜AR25の文脈領
域は、それぞれ図18の内部データ構造におけるノード
ND1〜ND25に対応している。すなわち、内部デー
タ構造は文脈領域を表しており、図18より、それぞれ
の文脈領域が下位の文脈領域を持つこと、並びに、下位
の文脈領域から上位の文脈領域への参照が可能であり、
該参照が図18中の矢印で表記されていることがわか
る。段落ND2や箇条書きND3等の文脈領域について
は、参照可能な上位文脈領域は1つだけであるが、表の
セルND13〜ND19等については、行(ND9〜N
D11)と列(ND12,ND13)の2つの文脈領域
を上位領域として参照できる。また、図17および図1
8の具体例には出てこないが、ハイパーリンク等は任意
個数の文脈領域を上位領域として参照できる。
域は、それぞれ図18の内部データ構造におけるノード
ND1〜ND25に対応している。すなわち、内部デー
タ構造は文脈領域を表しており、図18より、それぞれ
の文脈領域が下位の文脈領域を持つこと、並びに、下位
の文脈領域から上位の文脈領域への参照が可能であり、
該参照が図18中の矢印で表記されていることがわか
る。段落ND2や箇条書きND3等の文脈領域について
は、参照可能な上位文脈領域は1つだけであるが、表の
セルND13〜ND19等については、行(ND9〜N
D11)と列(ND12,ND13)の2つの文脈領域
を上位領域として参照できる。また、図17および図1
8の具体例には出てこないが、ハイパーリンク等は任意
個数の文脈領域を上位領域として参照できる。
【0154】このように図4の自然言語文書を解析して
図17および図18に示す解析結果を得る手法は幾つか
考えられる。例えば、文書が罫線等を用いた表を含んで
いる場合に該表部分を認識する方法として、特開平2−
116970号公報の『表内データ自動抽出処理方式』
に述べられているような方法を用いても良いし、また、
タグを含まない自然言語文書の場合に箇条書きの部分を
認識する方法として、特開平7−295981号公報の
『箇条書処理機能付き自然言語処理装置』に述べられて
いるような方法を用いても良い。
図17および図18に示す解析結果を得る手法は幾つか
考えられる。例えば、文書が罫線等を用いた表を含んで
いる場合に該表部分を認識する方法として、特開平2−
116970号公報の『表内データ自動抽出処理方式』
に述べられているような方法を用いても良いし、また、
タグを含まない自然言語文書の場合に箇条書きの部分を
認識する方法として、特開平7−295981号公報の
『箇条書処理機能付き自然言語処理装置』に述べられて
いるような方法を用いても良い。
【0155】本実施形態では「WWWページ検索システ
ム」への適用を想定しているので、ここでは特に、入力
がHTML(HyperText Markup Language)のようなタ
グ付けされた自然言語文書である場合の文脈階層構造の
解析手法について述べる。なお、HTMLはSGMLか
ら発展したマークアップ言語であるが、HTMLについ
ては http://www.w3.org/MarkUp/ などを参照された
い。図19には、図4の自然言語文書をHTMLで記述
したときの自然言語文書を例示する。
ム」への適用を想定しているので、ここでは特に、入力
がHTML(HyperText Markup Language)のようなタ
グ付けされた自然言語文書である場合の文脈階層構造の
解析手法について述べる。なお、HTMLはSGMLか
ら発展したマークアップ言語であるが、HTMLについ
ては http://www.w3.org/MarkUp/ などを参照された
い。図19には、図4の自然言語文書をHTMLで記述
したときの自然言語文書を例示する。
【0156】図17に例示した自然言語文書のように、
HTML記述では、各分脈領域に対応する部分はタグに
よって区切られている。例えば、「<TABLE>」と「</TAB
LE>」で囲まれた領域は「表」の文脈領域(AR8)に
対応している。また、階層構造もタグの階層構造によっ
て表現されている。例えば、「<OL>」「</OL>」によっ
て囲まれた箇条書きの文脈領域(AR3)の中に、「<U
L>」「</UL>」で囲まれた箇条書きの文脈領域(AR
5,AR21,AR24)が階層的に存在する。したが
って、タグの種別およびタグの始めと終わりの指定に応
じて、文脈領域、該文脈領域の開始ポイントおよび終了
ポイント、並びに、下位文脈領域を特定するための文脈
領域の抽出知識を図20に示すように持つことができ
る。ただし、箇条書き項目の開始ポイントを示す「<LI
>」等は、終了記号である「</LI>」を省略できたりする
ため、箇条書き項目の終了ポイントとして「<LI>」等も
候補としなければならない。
HTML記述では、各分脈領域に対応する部分はタグに
よって区切られている。例えば、「<TABLE>」と「</TAB
LE>」で囲まれた領域は「表」の文脈領域(AR8)に
対応している。また、階層構造もタグの階層構造によっ
て表現されている。例えば、「<OL>」「</OL>」によっ
て囲まれた箇条書きの文脈領域(AR3)の中に、「<U
L>」「</UL>」で囲まれた箇条書きの文脈領域(AR
5,AR21,AR24)が階層的に存在する。したが
って、タグの種別およびタグの始めと終わりの指定に応
じて、文脈領域、該文脈領域の開始ポイントおよび終了
ポイント、並びに、下位文脈領域を特定するための文脈
領域の抽出知識を図20に示すように持つことができ
る。ただし、箇条書き項目の開始ポイントを示す「<LI
>」等は、終了記号である「</LI>」を省略できたりする
ため、箇条書き項目の終了ポイントとして「<LI>」等も
候補としなければならない。
【0157】以上のように、文脈領域、開始ポイント、
終了ポイントおよび下位文脈領域等の対応関係を抽出知
識(図20)として持っておくことによって、文脈階層
構造の解析を行うことができる。
終了ポイントおよび下位文脈領域等の対応関係を抽出知
識(図20)として持っておくことによって、文脈階層
構造の解析を行うことができる。
【0158】図21には、この文脈階層構造の解析処理
(ステップ1601)の処理手順を説明するフローチャ
ートを示す。まず、ステップ2101では、「文書」の
文脈領域を作成して、これをカレント文脈とする。次
に、ステップ2102では、入力となる自然言語文書の
先頭位置をポイントする。
(ステップ1601)の処理手順を説明するフローチャ
ートを示す。まず、ステップ2101では、「文書」の
文脈領域を作成して、これをカレント文脈とする。次
に、ステップ2102では、入力となる自然言語文書の
先頭位置をポイントする。
【0159】次に、以下のステップ2103からステッ
プ2108までの処理は、繰り返し処理となる。まず、
ステップ2103では、自然言語文書の入力ポイントが
カレント文脈に対する下位文脈領域の開始ポイントに合
致しているかどうかをチェックする。例えば、カレント
文脈が「文書」であるならば下位文脈領域「段落」の開
始ポイントに合致しているか否かである。
プ2108までの処理は、繰り返し処理となる。まず、
ステップ2103では、自然言語文書の入力ポイントが
カレント文脈に対する下位文脈領域の開始ポイントに合
致しているかどうかをチェックする。例えば、カレント
文脈が「文書」であるならば下位文脈領域「段落」の開
始ポイントに合致しているか否かである。
【0160】合致していればステップ2104に進ん
で、下位文脈領域を作成して上位文脈領域に結合した
後、これをカレント文脈とする。なお、「文書」の始め
の場合は、この位置が「段落」の開始ポイントの条件に
合致しているため、「文書」の下位文脈領域として「段
落」を作成して結合し、カレント文脈を「段落」にする
ことになる。その後、ステップ2108において、自然
言語文書を読み進めて(入力ポイントを進めて)、再び
ステップ2103からの処理を繰り返すことになる。
で、下位文脈領域を作成して上位文脈領域に結合した
後、これをカレント文脈とする。なお、「文書」の始め
の場合は、この位置が「段落」の開始ポイントの条件に
合致しているため、「文書」の下位文脈領域として「段
落」を作成して結合し、カレント文脈を「段落」にする
ことになる。その後、ステップ2108において、自然
言語文書を読み進めて(入力ポイントを進めて)、再び
ステップ2103からの処理を繰り返すことになる。
【0161】またステップ2103において、下位文脈
領域の開始ポイントに合致していない場合には、ステッ
プ2105に進んで、自然言語文書の入力ポイントがカ
レント文脈の終了ポイントに合致しているかどうかをチ
ェックする。合致していない場合はステップ2108に
進んで、自然言語文書を読み進めて(入力ポイントを進
めて)、再びステップ2103からの処理を繰り返すこ
とになる。
領域の開始ポイントに合致していない場合には、ステッ
プ2105に進んで、自然言語文書の入力ポイントがカ
レント文脈の終了ポイントに合致しているかどうかをチ
ェックする。合致していない場合はステップ2108に
進んで、自然言語文書を読み進めて(入力ポイントを進
めて)、再びステップ2103からの処理を繰り返すこ
とになる。
【0162】またステップ2105において、カレント
文脈の終了ポイントに合致している場合はステップ21
06に進んで、カレント文脈が最上位の文脈領域(ここ
では「文書」)かどうかをチェックする。最上位の文脈
領域であった場合には文脈階層構造の解析処理全体を終
了する。
文脈の終了ポイントに合致している場合はステップ21
06に進んで、カレント文脈が最上位の文脈領域(ここ
では「文書」)かどうかをチェックする。最上位の文脈
領域であった場合には文脈階層構造の解析処理全体を終
了する。
【0163】また、最上位の文脈領域でなかった場合に
はステップ2107に進んで、上位の文脈領域をカレン
ト文脈とし、さらにステップ2108において自然言語
文書を読み進めて(入力ポイントを進めて)、再びステ
ップ2103からの処理を繰り返すことになる。以上の
処理によって、文脈階層構造の解析処理(ステップ16
01)が可能となる。
はステップ2107に進んで、上位の文脈領域をカレン
ト文脈とし、さらにステップ2108において自然言語
文書を読み進めて(入力ポイントを進めて)、再びステ
ップ2103からの処理を繰り返すことになる。以上の
処理によって、文脈階層構造の解析処理(ステップ16
01)が可能となる。
【0164】(2)文脈情報抽出 次に、図16のフローチャートにおけるステップ160
2では、文脈情報抽出装置1502により文脈情報が抽
出される。文脈情報の表現方法および抽出方法について
もさまざまな手法が考えられるが、本実施形態において
は、基本的に「2.概念集合の表現」および「3−1.
意味解析を用いた概念情報の抽出」で述べた手法による
概念表現および概念抽出と同様な方法を用いる。これ
は、最終的に本実施形態の概念情報抽出装置が抽出すべ
き情報が概念情報であることから、文脈の抽出において
も概念情報と同等の情報を抽出することが必要十分条件
であると考えられるからである。ただし、文脈情報は概
念情報と以下のような点で異なる特徴を持っていると考
えられるため、抽出方法を工夫する必要がある。
2では、文脈情報抽出装置1502により文脈情報が抽
出される。文脈情報の表現方法および抽出方法について
もさまざまな手法が考えられるが、本実施形態において
は、基本的に「2.概念集合の表現」および「3−1.
意味解析を用いた概念情報の抽出」で述べた手法による
概念表現および概念抽出と同様な方法を用いる。これ
は、最終的に本実施形態の概念情報抽出装置が抽出すべ
き情報が概念情報であることから、文脈の抽出において
も概念情報と同等の情報を抽出することが必要十分条件
であると考えられるからである。ただし、文脈情報は概
念情報と以下のような点で異なる特徴を持っていると考
えられるため、抽出方法を工夫する必要がある。
【0165】第1の特徴として、文書構造を利用して表
現した自然言語文書では、文書構造によって意味が表現
されているため、完全な文章で記述されていないことが
多くなる点である。つまり、見出し語等のように、単語
・名詞句・動詞のない体言止の文などで意味が記述され
ている場合が多くなってくる。こういった場合、「3−
1.意味解析を用いた概念情報の抽出」で述べたような
通常の格解析で行う文章の解析では情報が十分抽出でき
ないことも考えられる。したがって、単語の意味クラス
だけから情報抽出するといった、より柔軟な情報抽出方
法を加味する必要がある。
現した自然言語文書では、文書構造によって意味が表現
されているため、完全な文章で記述されていないことが
多くなる点である。つまり、見出し語等のように、単語
・名詞句・動詞のない体言止の文などで意味が記述され
ている場合が多くなってくる。こういった場合、「3−
1.意味解析を用いた概念情報の抽出」で述べたような
通常の格解析で行う文章の解析では情報が十分抽出でき
ないことも考えられる。したがって、単語の意味クラス
だけから情報抽出するといった、より柔軟な情報抽出方
法を加味する必要がある。
【0166】第2の特徴として、概念情報はシステムが
抽出した知識として保存されるが、文脈情報は概念情報
を抽出するための一時的な知識であるという点である。
これは脳の働きにおける短期記憶的なものと考えること
ができ、一時的に文脈領域データとして蓄積されるが、
概念抽出が終了した段階では破棄されても良い。このた
め、概念とは別の領域に保存する必要がある。
抽出した知識として保存されるが、文脈情報は概念情報
を抽出するための一時的な知識であるという点である。
これは脳の働きにおける短期記憶的なものと考えること
ができ、一時的に文脈領域データとして蓄積されるが、
概念抽出が終了した段階では破棄されても良い。このた
め、概念とは別の領域に保存する必要がある。
【0167】まず、第1の特徴への対処を可能にするた
めに次の2つの方法を考える。第1番目の方法は、文脈
情報の抽出は全て意味素のみに基づいて行うという方法
である。この場合、格助詞や語順の情報が活用できなく
なるため、抽出精度は低下すると思われるが、事前に用
意しなければならない辞書が小さくなったり、処理が単
純化され高速化されるという利点もある。
めに次の2つの方法を考える。第1番目の方法は、文脈
情報の抽出は全て意味素のみに基づいて行うという方法
である。この場合、格助詞や語順の情報が活用できなく
なるため、抽出精度は低下すると思われるが、事前に用
意しなければならない辞書が小さくなったり、処理が単
純化され高速化されるという利点もある。
【0168】この場合、文脈情報を抽出するための文脈
情報抽出知識は、図22に示すように意味素のみを活用
した形で保持され、この知識の意味素の欄に記述された
意味素パターン(図11に示したような意味素辞書60
6に記述してある意味クラス)と合致した文字列が対応
カラムの欄に記述されたカラムに抽出されることとな
る。なお、図22において対応カラムの欄にテーブル名
も記述してあるのは、複数テーブルの情報を同時に抽出
することも可能にするためである。
情報抽出知識は、図22に示すように意味素のみを活用
した形で保持され、この知識の意味素の欄に記述された
意味素パターン(図11に示したような意味素辞書60
6に記述してある意味クラス)と合致した文字列が対応
カラムの欄に記述されたカラムに抽出されることとな
る。なお、図22において対応カラムの欄にテーブル名
も記述してあるのは、複数テーブルの情報を同時に抽出
することも可能にするためである。
【0169】また、第2番目の方法としては、ある形態
素に対する意味素の情報と、その形態素が共起する他の
形態素の意味素、形態素に付随する後置詞、並びに、共
起要素の出現位置等の情報を文脈抽出知識として持ち、
そのうちで活用することができる(すなわち文章中に現
れた)情報のみを使用して、文脈情報を抽出するという
方法である。この方法を用いれば、文が単語のみ、名詞
句、体言止の文、通常の文などで記述されているといっ
た様々な場合を統括的に扱って解析することができ、精
度が高くなるという利点がある。
素に対する意味素の情報と、その形態素が共起する他の
形態素の意味素、形態素に付随する後置詞、並びに、共
起要素の出現位置等の情報を文脈抽出知識として持ち、
そのうちで活用することができる(すなわち文章中に現
れた)情報のみを使用して、文脈情報を抽出するという
方法である。この方法を用いれば、文が単語のみ、名詞
句、体言止の文、通常の文などで記述されているといっ
た様々な場合を統括的に扱って解析することができ、精
度が高くなるという利点がある。
【0170】この文脈情報抽出知識は、図10で示した
概念への対応関係を付加した動詞格フレームや図22の
知識を一般化したものと考えられ、実際には、図23お
よび図24に示すような、抽出要素・共起要素の意味素
・言語マーカー・語順等を活用した文脈情報抽出知識と
なる。なお、図23および図24の「抽出カラム」の欄
には、抽出すべき概念のカラムが記述されており、テー
ブル名も記述してあるのは、複数テーブルの情報を同時
に抽出することも可能にするためである。
概念への対応関係を付加した動詞格フレームや図22の
知識を一般化したものと考えられ、実際には、図23お
よび図24に示すような、抽出要素・共起要素の意味素
・言語マーカー・語順等を活用した文脈情報抽出知識と
なる。なお、図23および図24の「抽出カラム」の欄
には、抽出すべき概念のカラムが記述されており、テー
ブル名も記述してあるのは、複数テーブルの情報を同時
に抽出することも可能にするためである。
【0171】また、抽出カラムに対応する文字列のこと
を以下では「抽出要素」と呼ぶことにする。「抽出要素
の意味素」の欄で記述されているのは、この抽出要素が
満たすべき意味素の情報である。これは、図11に示し
たような意味素辞書606で定義されている文字列のパ
ターンであり、抽出すべき文字列自体が満たすべき文字
列パターンとも考えられる。
を以下では「抽出要素」と呼ぶことにする。「抽出要素
の意味素」の欄で記述されているのは、この抽出要素が
満たすべき意味素の情報である。これは、図11に示し
たような意味素辞書606で定義されている文字列のパ
ターンであり、抽出すべき文字列自体が満たすべき文字
列パターンとも考えられる。
【0172】また、「抽出要素の後置要素」の欄に記述
したのは、抽出要素に対する格助詞、助動詞等のいわゆ
る「付属語」に相当する要素である。この欄に具体的な
要素を記述してある知識は、抽出要素の直後に記述した
後置要素が現れる必要がある。また「共起要素」の欄に
は、抽出要素と共起する文字列や意味素が記述されてい
る。また「共起要素の後置要素」の欄には、共起要素の
直後に現れる必要のある付属語が記述されている。さら
に「共起要素の出現位置」の欄には、抽出要素と共起要
素の出現位置関係が規定できるようになっていて、自立
語の位置関係における前、直前、直後、後等や、文脈参
照可能かどうかも規定できる。
したのは、抽出要素に対する格助詞、助動詞等のいわゆ
る「付属語」に相当する要素である。この欄に具体的な
要素を記述してある知識は、抽出要素の直後に記述した
後置要素が現れる必要がある。また「共起要素」の欄に
は、抽出要素と共起する文字列や意味素が記述されてい
る。また「共起要素の後置要素」の欄には、共起要素の
直後に現れる必要のある付属語が記述されている。さら
に「共起要素の出現位置」の欄には、抽出要素と共起要
素の出現位置関係が規定できるようになっていて、自立
語の位置関係における前、直前、直後、後等や、文脈参
照可能かどうかも規定できる。
【0173】また、「確信度」の欄に記述してある数値
は、以上で記述された知識に抽出要素がマッチした場合
に、抽出カラムに抽出すべきである確信度を表してい
る。例えば、この確信度が”1.0”であれば、知識に
マッチした抽出要素は確実にその抽出カラムに対応する
だろうということを表している。なお、最後尾の欄に記
述した「知識ID」は便宜上番号付けした知識のIDであ
る。
は、以上で記述された知識に抽出要素がマッチした場合
に、抽出カラムに抽出すべきである確信度を表してい
る。例えば、この確信度が”1.0”であれば、知識に
マッチした抽出要素は確実にその抽出カラムに対応する
だろうということを表している。なお、最後尾の欄に記
述した「知識ID」は便宜上番号付けした知識のIDであ
る。
【0174】したがって、上記第1番目の方法により文
脈情報を抽出する文脈情報抽出装置1502は、図15
の説明(第1の構成)にあったように、意味素と対応す
る概念のカラムの情報を記述した図22のような文脈情
報抽出知識を備えて、構築が容易な単純な知識で、単語
のみの文、名詞句のみの文または体言止めの文等からの
文脈情報の抽出を可能にし、文脈階層構造情報中に文脈
情報を保存するもので実現される。
脈情報を抽出する文脈情報抽出装置1502は、図15
の説明(第1の構成)にあったように、意味素と対応す
る概念のカラムの情報を記述した図22のような文脈情
報抽出知識を備えて、構築が容易な単純な知識で、単語
のみの文、名詞句のみの文または体言止めの文等からの
文脈情報の抽出を可能にし、文脈階層構造情報中に文脈
情報を保存するもので実現される。
【0175】これに対して、上記第2番目の方法により
文脈抽出する文脈情報抽出装置1502は、自然言語文
書中から形態素を抜き出す形態素解析装置と、各形態素
(着目要素)の意味素の条件と着目要素が共起する共起
要素の条件と着目要素・共起要素の付属要素の条件と共
起要素の出現位置の条件と対応する概念のカラム(対応
カラム)の情報を記述した図23および図24のような
文脈情報抽出知識と、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出する対応
カラム決定装置を備え、動詞述語文、形容詞述語文、名
詞述語文、単語のみの文、名詞句のみの文、体言止めの
文などからの高い精度での文脈情報の抽出を可能にし、
文脈階層構造情報中に文脈情報を保存するもの(第2の
構成)で実現されることになる。
文脈抽出する文脈情報抽出装置1502は、自然言語文
書中から形態素を抜き出す形態素解析装置と、各形態素
(着目要素)の意味素の条件と着目要素が共起する共起
要素の条件と着目要素・共起要素の付属要素の条件と共
起要素の出現位置の条件と対応する概念のカラム(対応
カラム)の情報を記述した図23および図24のような
文脈情報抽出知識と、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出する対応
カラム決定装置を備え、動詞述語文、形容詞述語文、名
詞述語文、単語のみの文、名詞句のみの文、体言止めの
文などからの高い精度での文脈情報の抽出を可能にし、
文脈階層構造情報中に文脈情報を保存するもの(第2の
構成)で実現されることになる。
【0176】次に、このような構成の文脈情報抽出装置
1502(第2番目の方法)により、図23および図2
4のような文脈情報抽出知識を活用して、文脈情報を抽
出する処理(図16のステップ1602)について、図
25に示すフローチャートに基づいて説明する。
1502(第2番目の方法)により、図23および図2
4のような文脈情報抽出知識を活用して、文脈情報を抽
出する処理(図16のステップ1602)について、図
25に示すフローチャートに基づいて説明する。
【0177】まず、ステップ2501においては、形態
素解析装置により解析対象となる自然言語文書2502
の形態素解析を行い、メモリ上に形態素2503を保持
する。なお、入力の自然言語文書をHTML文書等にす
る場合は、この段階でタグの情報等は不要なので削除す
る。
素解析装置により解析対象となる自然言語文書2502
の形態素解析を行い、メモリ上に形態素2503を保持
する。なお、入力の自然言語文書をHTML文書等にす
る場合は、この段階でタグの情報等は不要なので削除す
る。
【0178】次に、ステップ2504では、抽出した形
態素2503を前から順に1つずつ着目し、これを抽出
要素と仮定する。例えば、図4に示した自然言語文書の
場合には、最初の抽出要素は「オムロン」になる。
態素2503を前から順に1つずつ着目し、これを抽出
要素と仮定する。例えば、図4に示した自然言語文書の
場合には、最初の抽出要素は「オムロン」になる。
【0179】次に、ステップ2508では、抽出要素の
存在する文脈領域を文脈情報保存領域としてポイントす
る。例えば、図4の自然言語文書の例(図17および図
18参照)では、段落ノードND2に対応する文脈領域
AR2に、抽出要素「オムロン」が存在するため、文脈
情報保存領域として段落ノードND2をポイントする。
文脈情報保存領域は、上述(文脈情報の第2の特徴)の
ように、文脈情報を保存するための一時記憶領域であ
り、形態素を読み進んで行くにつれて、箇条書きノード
ND3,箇条書き項目ノードND4,…と変化していく
ことになる。
存在する文脈領域を文脈情報保存領域としてポイントす
る。例えば、図4の自然言語文書の例(図17および図
18参照)では、段落ノードND2に対応する文脈領域
AR2に、抽出要素「オムロン」が存在するため、文脈
情報保存領域として段落ノードND2をポイントする。
文脈情報保存領域は、上述(文脈情報の第2の特徴)の
ように、文脈情報を保存するための一時記憶領域であ
り、形態素を読み進んで行くにつれて、箇条書きノード
ND3,箇条書き項目ノードND4,…と変化していく
ことになる。
【0180】次に、ステップ2506においては、抽出
カラム対応度テーブルを初期化する。ここで、抽出カラ
ム対応度テーブルは、図27に示すように各抽出要素に
対して1つ作成され、初期化直後は何の情報も保持して
いない。
カラム対応度テーブルを初期化する。ここで、抽出カラ
ム対応度テーブルは、図27に示すように各抽出要素に
対して1つ作成され、初期化直後は何の情報も保持して
いない。
【0181】図23および図24の文脈情報抽出知識に
は、抽出要素が文脈情報となり得るかどうかを判別する
ための文脈情報判別知識2508が、「抽出カラム」以
外のカラムによって1レコードに1つの知識として記述
されている。ステップ2507では、1つの抽出要素に
対して、文脈情報抽出知識2508に記述されている文
脈情報判別知識を順に1つずつ取り出す。
は、抽出要素が文脈情報となり得るかどうかを判別する
ための文脈情報判別知識2508が、「抽出カラム」以
外のカラムによって1レコードに1つの知識として記述
されている。ステップ2507では、1つの抽出要素に
対して、文脈情報抽出知識2508に記述されている文
脈情報判別知識を順に1つずつ取り出す。
【0182】また、文脈情報判別知識2508には、抽
出要素と共起要素が、意味素、後置詞および語順におい
て満たすべき条件が記述されている。ステップ2509
では、抽出要素が文脈情報判別知識2508に合致して
いるかどうかを調べ、合致している場合は、ステップ2
510において抽出カラムへの対応度を更新する。な
お、抽出カラム対応度テーブル(図27参照)に、既に
その抽出カラムに対する対応度が保存されていた場合に
は、現在の対応度との演算によって対応度を再計算して
更新する。また、着目している抽出カラムに対する対応
度のデータが無かった場合には、新規に対応度を計算し
て保存する。
出要素と共起要素が、意味素、後置詞および語順におい
て満たすべき条件が記述されている。ステップ2509
では、抽出要素が文脈情報判別知識2508に合致して
いるかどうかを調べ、合致している場合は、ステップ2
510において抽出カラムへの対応度を更新する。な
お、抽出カラム対応度テーブル(図27参照)に、既に
その抽出カラムに対する対応度が保存されていた場合に
は、現在の対応度との演算によって対応度を再計算して
更新する。また、着目している抽出カラムに対する対応
度のデータが無かった場合には、新規に対応度を計算し
て保存する。
【0183】ここで、対応度の計算方法は様々なものが
考えられるが、本実施形態における手法としては、対応
度の初期値を”0”として、抽出要素が文脈情報判別知
識に合致する度に、文脈情報抽出知識2508中の「確
信度」の欄に保持されている確信度を対応度に加算して
いく方法を取る。この方法を取ることで、文脈情報判別
知識2508に重み付けを行うことができ、確信度の変
更による知識のチューニングが可能になる。ただし、対
応度の算出方法は他にも考えられ、例えば、対応度の初
期値を”0”として、文脈情報判別知識2508に合致
するたびに対応度を”1”ずつ加算していくなどの方法
も可能であり、この方法によれば、文脈情報抽出知識2
508中に「確信度」の情報を保持する必要がなくなる
ため、必要な記憶領域を減らすことができる。
考えられるが、本実施形態における手法としては、対応
度の初期値を”0”として、抽出要素が文脈情報判別知
識に合致する度に、文脈情報抽出知識2508中の「確
信度」の欄に保持されている確信度を対応度に加算して
いく方法を取る。この方法を取ることで、文脈情報判別
知識2508に重み付けを行うことができ、確信度の変
更による知識のチューニングが可能になる。ただし、対
応度の算出方法は他にも考えられ、例えば、対応度の初
期値を”0”として、文脈情報判別知識2508に合致
するたびに対応度を”1”ずつ加算していくなどの方法
も可能であり、この方法によれば、文脈情報抽出知識2
508中に「確信度」の情報を保持する必要がなくなる
ため、必要な記憶領域を減らすことができる。
【0184】具体例を示してステップ2509,251
0の動作を説明すると、例えば 知識ID[RA1.
1]の文脈情報判別知識は、抽出要素の意味素が<企業
>であるという知識であり、該知識に合致した抽出要素
は、「製品テーブル.メーカー」への対応度が強くな
る。すなわち、図4の自然言語文書の場合、最初の抽出
要素である「オムロン」は文脈情報判別知識[RA1.
1]に合致するため、「製品テーブル.メーカー」への
対応度は、確信度”0.9”の値が対応度の初期値”
0”に加算され、対応度”0.9”に更新される。
0の動作を説明すると、例えば 知識ID[RA1.
1]の文脈情報判別知識は、抽出要素の意味素が<企業
>であるという知識であり、該知識に合致した抽出要素
は、「製品テーブル.メーカー」への対応度が強くな
る。すなわち、図4の自然言語文書の場合、最初の抽出
要素である「オムロン」は文脈情報判別知識[RA1.
1]に合致するため、「製品テーブル.メーカー」への
対応度は、確信度”0.9”の値が対応度の初期値”
0”に加算され、対応度”0.9”に更新される。
【0185】また図26には、知識間相関ルールの例を
示している。この知識間相関ルールは、ある知識に合致
したときに他の知識を活性化させたり、抑制化させたり
できるようにするためのルールである。図中、ノードの
枠内に記述されているのは知識IDであり、リンク上に
記述された数値は活性化指数であり、活性化指数が1.
0以上の場合は活性化させるように働き、活性化指数が
1.0未満の場合は抑制化させるように働くことを示し
ている。
示している。この知識間相関ルールは、ある知識に合致
したときに他の知識を活性化させたり、抑制化させたり
できるようにするためのルールである。図中、ノードの
枠内に記述されているのは知識IDであり、リンク上に
記述された数値は活性化指数であり、活性化指数が1.
0以上の場合は活性化させるように働き、活性化指数が
1.0未満の場合は抑制化させるように働くことを示し
ている。
【0186】知識間相関ルールを活用する場合には、各
知識に対して活性度を持たせ、ステップ2504の時点
で、活性度の初期値を(例えば”1.0”に)初期化し
ておく。そして、知識に合致してステップ2510にお
いて抽出カラムへの対応度を更新する際には、対応度に
確信度を単純に加算するのではなく、その時の知識の活
性度度と確信度を掛け合わせた値を対応度に加算する。
またこのとき、同時に適合した知識からリンクされてい
る知識に対する活性度の更新も行う。活性度は、リンク
の活性化指数を元々の活性度に掛け合わせた値に更新さ
れる。例えば、初期状態(全ての活性度が”1.0”の
状態)で文脈情報判別知識[RA1.1]の知識に抽出
要素が合致すると、RA1.2からRA1.6までの知
識の活性度は”1.5”に更新される。なお、活性度の
更新方法は他にも考えられるが、要は共起しやすい知識
は活性化させ、共起しにくい知識は抑制化させる更新方
法であればどんなものでも良い。こういったしくみを導
入すれば、同時には起こりにくい知識を同時に合致させ
てしまって、対応度がうまく求められないという現象を
回避することが可能となる。
知識に対して活性度を持たせ、ステップ2504の時点
で、活性度の初期値を(例えば”1.0”に)初期化し
ておく。そして、知識に合致してステップ2510にお
いて抽出カラムへの対応度を更新する際には、対応度に
確信度を単純に加算するのではなく、その時の知識の活
性度度と確信度を掛け合わせた値を対応度に加算する。
またこのとき、同時に適合した知識からリンクされてい
る知識に対する活性度の更新も行う。活性度は、リンク
の活性化指数を元々の活性度に掛け合わせた値に更新さ
れる。例えば、初期状態(全ての活性度が”1.0”の
状態)で文脈情報判別知識[RA1.1]の知識に抽出
要素が合致すると、RA1.2からRA1.6までの知
識の活性度は”1.5”に更新される。なお、活性度の
更新方法は他にも考えられるが、要は共起しやすい知識
は活性化させ、共起しにくい知識は抑制化させる更新方
法であればどんなものでも良い。こういったしくみを導
入すれば、同時には起こりにくい知識を同時に合致させ
てしまって、対応度がうまく求められないという現象を
回避することが可能となる。
【0187】このようにして、ステップ2511の判断
により、1つの抽出要素に対してRA1.2,RA1.
2, …というように全ての文脈情報判別知識2508を
順にチェックするべく、ステップ2507からステップ
2510の処理を繰り返す。これにより、1つの抽出要
素に対して合致した全ての抽出カラムへの対応度が求め
られ、抽出カラム対応度テーブルに保存される。図4の
自然言語文書の場合は、文脈領域AR1のみに合致する
ため、「製品テーブル.メーカー」への対応度のみ”
0.9”として保存される。このときの抽出カラム対応
度テーブルの状態を図27に示す。なお、対応度が保存
されていない抽出カラムについては対応度が”0”であ
るとも考えられる。
により、1つの抽出要素に対してRA1.2,RA1.
2, …というように全ての文脈情報判別知識2508を
順にチェックするべく、ステップ2507からステップ
2510の処理を繰り返す。これにより、1つの抽出要
素に対して合致した全ての抽出カラムへの対応度が求め
られ、抽出カラム対応度テーブルに保存される。図4の
自然言語文書の場合は、文脈領域AR1のみに合致する
ため、「製品テーブル.メーカー」への対応度のみ”
0.9”として保存される。このときの抽出カラム対応
度テーブルの状態を図27に示す。なお、対応度が保存
されていない抽出カラムについては対応度が”0”であ
るとも考えられる。
【0188】次に、ステップ2512では、抽出カラム
対応度テーブルにおいて、全ての抽出カラムへの対応度
が、予め設定しておいたしきい値以下であるかどうかを
チェックする。このしきい値は”0”でも良いし、それ
以上の値でも良い。ステップ2512でしきい値以上の
ものが1つ以上あった場合には、ステップ2513に進
んで、最も対応度の高い抽出カラムを対応カラムと決定
し、ステップ2514において、現在ポイントしている
文脈情報保存領域(図4の自然言語文書の例ではAR
2,ND2)に、対応カラムと抽出要素をセットにし
て、文脈情報2515として保存する。図4の自然言語
文書の例では、この時点での文脈情報2515の状態は
図28に示すようになる。
対応度テーブルにおいて、全ての抽出カラムへの対応度
が、予め設定しておいたしきい値以下であるかどうかを
チェックする。このしきい値は”0”でも良いし、それ
以上の値でも良い。ステップ2512でしきい値以上の
ものが1つ以上あった場合には、ステップ2513に進
んで、最も対応度の高い抽出カラムを対応カラムと決定
し、ステップ2514において、現在ポイントしている
文脈情報保存領域(図4の自然言語文書の例ではAR
2,ND2)に、対応カラムと抽出要素をセットにし
て、文脈情報2515として保存する。図4の自然言語
文書の例では、この時点での文脈情報2515の状態は
図28に示すようになる。
【0189】さらに、ステップ2516の判断により、
以上のステップ2504からステップ2514までの一
連の処理を全ての形態素について繰り返しおこなう。こ
れによって、最終的に図29に示すように、文脈情報抽
出知識2508に合致した抽出要素が文脈領域と対応カ
ラムに分類されて、文脈情報として抽出される。抽出さ
れた文脈情報は、それぞれ対応する文脈領域のデータ構
造に保存されることになる。
以上のステップ2504からステップ2514までの一
連の処理を全ての形態素について繰り返しおこなう。こ
れによって、最終的に図29に示すように、文脈情報抽
出知識2508に合致した抽出要素が文脈領域と対応カ
ラムに分類されて、文脈情報として抽出される。抽出さ
れた文脈情報は、それぞれ対応する文脈領域のデータ構
造に保存されることになる。
【0190】なお、図28の処理途中の文脈情報におけ
る対応度のデータは、図29の最終的に抽出された文脈
情報2515では省略したが、最終的な文脈情報251
5においても対応度のデータを保存して、後の処理の曖
昧性解消等のために用いても良い。
る対応度のデータは、図29の最終的に抽出された文脈
情報2515では省略したが、最終的な文脈情報251
5においても対応度のデータを保存して、後の処理の曖
昧性解消等のために用いても良い。
【0191】なお、図25のフローチャートにおけるス
テップ2507からステップ2511までの繰り返し処
理は、文脈情報抽出知識2508中に格納されている各
分脈情報判別知識について独立して行うことができるた
め、並列コンピュータ等を用いて並列に処理を行うこと
によって、高速に処理することが可能である。また、ス
テップ2504からステップ2516までの繰り返し処
理についても、抽出された各形態素2503について独
立して行うことができるため、同様に、並列に処理を行
うことによって、高速に処理することが可能である。
テップ2507からステップ2511までの繰り返し処
理は、文脈情報抽出知識2508中に格納されている各
分脈情報判別知識について独立して行うことができるた
め、並列コンピュータ等を用いて並列に処理を行うこと
によって、高速に処理することが可能である。また、ス
テップ2504からステップ2516までの繰り返し処
理についても、抽出された各形態素2503について独
立して行うことができるため、同様に、並列に処理を行
うことによって、高速に処理することが可能である。
【0192】さらに、図23および図24の文脈情報抽
出知識は、図30に示されるように正規表現等のパター
ンで記述することも可能である。図30において、文脈
情報抽出知識は拡張された正規表現で記述されている。
特殊文字として使用されているのは以下の通りである。
「X」は現在着目している抽出要素を表す。「<…>」
は意味素を表す。「X::Y」はXがYの意味素を満たし
ている条件を記述している。「.」は任意の一文字を表
す。「*」は直前の正規表現要素の0回以上の繰り返し
を示す。「?」は直前の正規表現要素が0回か1回現れ
ることを示す。「(…)」は複数の要素をまとめて1つ
の正規表現要素を作る。「|」は選言(すなわちor)
を表し、両側の要素が選択的に現れることを意味する。
上記以外の文字は通常の文字として扱う。
出知識は、図30に示されるように正規表現等のパター
ンで記述することも可能である。図30において、文脈
情報抽出知識は拡張された正規表現で記述されている。
特殊文字として使用されているのは以下の通りである。
「X」は現在着目している抽出要素を表す。「<…>」
は意味素を表す。「X::Y」はXがYの意味素を満たし
ている条件を記述している。「.」は任意の一文字を表
す。「*」は直前の正規表現要素の0回以上の繰り返し
を示す。「?」は直前の正規表現要素が0回か1回現れ
ることを示す。「(…)」は複数の要素をまとめて1つ
の正規表現要素を作る。「|」は選言(すなわちor)
を表し、両側の要素が選択的に現れることを意味する。
上記以外の文字は通常の文字として扱う。
【0193】この場合、知識の記述法が特殊になるとい
う欠点はあるが、複数の共起要素を規定できたり、共起
要素の出現位置をより柔軟に記述できたりといった利点
もある。この場合、第2番目の方法を実現する文脈情報
抽出装置1502(第2の構成)は、各形態素(着目要
素)が満たすべき意味素や共起要素等の条件を正規表現
等のパターン記述知識として記述した図30のような情
報抽出知識を備えることとなる。
う欠点はあるが、複数の共起要素を規定できたり、共起
要素の出現位置をより柔軟に記述できたりといった利点
もある。この場合、第2番目の方法を実現する文脈情報
抽出装置1502(第2の構成)は、各形態素(着目要
素)が満たすべき意味素や共起要素等の条件を正規表現
等のパターン記述知識として記述した図30のような情
報抽出知識を備えることとなる。
【0194】(3)概念記述領域決定と概念情報抽出 以上の処理により、文脈情報の抽出(図16のステップ
1602)が行われたので、次に、ステップ1603で
は、概念記述領域決定型概念情報抽出装置1503によ
り、概念記述領域の決定を行いながら、概念情報の抽出
を行っていく。図31には、本実施形態の概念記述領域
決定型概念情報抽出装置1503による概念記述領域決
定と概念情報抽出の処理手順を説明するフローチャート
を示す。
1602)が行われたので、次に、ステップ1603で
は、概念記述領域決定型概念情報抽出装置1503によ
り、概念記述領域の決定を行いながら、概念情報の抽出
を行っていく。図31には、本実施形態の概念記述領域
決定型概念情報抽出装置1503による概念記述領域決
定と概念情報抽出の処理手順を説明するフローチャート
を示す。
【0195】ここで、「概念記述領域」とは、ある概念
を表現する情報の1単位が過不足なく記述されている文
脈領域のことをいうものとする。図4の自然言語文の例
でいうと、1つの製品についての情報が記述されている
文脈領域のことであり、図17におけるAR6,AR
7,AR22,AR25のような文脈領域のことを指
す。これらの文脈領域を見つけ出して、そこから概念情
報を抽出する処理がステップ1603の処理である。こ
の概念記述領域決定と概念情報抽出の処理の詳細を図3
1を参照して説明する。
を表現する情報の1単位が過不足なく記述されている文
脈領域のことをいうものとする。図4の自然言語文の例
でいうと、1つの製品についての情報が記述されている
文脈領域のことであり、図17におけるAR6,AR
7,AR22,AR25のような文脈領域のことを指
す。これらの文脈領域を見つけ出して、そこから概念情
報を抽出する処理がステップ1603の処理である。こ
の概念記述領域決定と概念情報抽出の処理の詳細を図3
1を参照して説明する。
【0196】まず、ステップ3101では、図16のス
テップ1601の文脈階層構造解析処理によって解析し
た文脈階層構造について、最上位の文脈領域を概念記述
領域の探索起点とし、ステップ3102において、該探
索起点から走査して最下位の文脈領域を見つける。すな
わち、どこからも参照されていない文脈領域を見つけ
る。図4の自然言語文書の場合には、図18において、
文書ノードND1の文脈領域から走査し始め、段落ノー
ドND2,箇条書きノードND3,箇条書き項目ノード
ND4,箇条書きノードND5,箇条書き項目ノードN
D6と走査して、下位の文脈領域を持たない箇条書き項
目ノードND6を最下位の文脈領域として発見する。
テップ1601の文脈階層構造解析処理によって解析し
た文脈階層構造について、最上位の文脈領域を概念記述
領域の探索起点とし、ステップ3102において、該探
索起点から走査して最下位の文脈領域を見つける。すな
わち、どこからも参照されていない文脈領域を見つけ
る。図4の自然言語文書の場合には、図18において、
文書ノードND1の文脈領域から走査し始め、段落ノー
ドND2,箇条書きノードND3,箇条書き項目ノード
ND4,箇条書きノードND5,箇条書き項目ノードN
D6と走査して、下位の文脈領域を持たない箇条書き項
目ノードND6を最下位の文脈領域として発見する。
【0197】次に、ステップ3102では、この最下位
の文脈領域を概念記述領域の候補領域と仮定して、ステ
ップ3103において、文脈情報3104からの概念情
報候補の抽出を試みる。この際、抽出すべき属性情報
は、文脈情報として候補領域外に押しやられている場合
もあるため、候補領域より上位の文脈領域に、図16の
ステップ1602の文脈情報抽出処理で保存しておいた
文脈情報3104を、属性情報の候補として活用できる
ものとする。また、仮定した候補領域の下位の文脈領域
の文脈情報も活用できるものとする。すなわち、・現在
候補領域として仮定している概念記述領域に保存されて
いる文脈情報、・候補領域が持つ下位の文脈領域に保存
されている文脈情報、・下位の文脈領域が持つ更に下位
の文脈領域に保存されている文脈情報、・候補領域が参
照している上位の文脈領域に保存されている文脈情報、
・上位の文脈領域が参照している更に上位の文脈領域に
保存されている文脈情報、を全て活用して概念情報の抽
出を行うことになり、階層的な文脈を有効に活用した概
念情報抽出が可能になる。図4の自然言語文書の例にお
いて、ノードND6の場合だと、ノードND6自身と、
上位文脈領域であるノードND5,ND4,ND3,N
D2,ND1の全てを調べて、図32に示すような概念
情報候補が抽出される。
の文脈領域を概念記述領域の候補領域と仮定して、ステ
ップ3103において、文脈情報3104からの概念情
報候補の抽出を試みる。この際、抽出すべき属性情報
は、文脈情報として候補領域外に押しやられている場合
もあるため、候補領域より上位の文脈領域に、図16の
ステップ1602の文脈情報抽出処理で保存しておいた
文脈情報3104を、属性情報の候補として活用できる
ものとする。また、仮定した候補領域の下位の文脈領域
の文脈情報も活用できるものとする。すなわち、・現在
候補領域として仮定している概念記述領域に保存されて
いる文脈情報、・候補領域が持つ下位の文脈領域に保存
されている文脈情報、・下位の文脈領域が持つ更に下位
の文脈領域に保存されている文脈情報、・候補領域が参
照している上位の文脈領域に保存されている文脈情報、
・上位の文脈領域が参照している更に上位の文脈領域に
保存されている文脈情報、を全て活用して概念情報の抽
出を行うことになり、階層的な文脈を有効に活用した概
念情報抽出が可能になる。図4の自然言語文書の例にお
いて、ノードND6の場合だと、ノードND6自身と、
上位文脈領域であるノードND5,ND4,ND3,N
D2,ND1の全てを調べて、図32に示すような概念
情報候補が抽出される。
【0198】次に、ステップ3105および3108で
は、概念情報の必要十分性のチェックを行う。ここで、
「概念情報の必要十分性が言える条件」としては、以下
の3つの条件を満たす必要がある。すなわち、第1の必
要十分条件として、抽出すべき概念を特徴づける必須属
性の情報が抽出されていること、第2の必要十分条件と
して、複数の概念単位(図4の自然言語文書の例では複
数の製品)を候補領域中に含まないこと、並びに、第3
の必要十分条件として、新規の情報を含んでいることで
ある。
は、概念情報の必要十分性のチェックを行う。ここで、
「概念情報の必要十分性が言える条件」としては、以下
の3つの条件を満たす必要がある。すなわち、第1の必
要十分条件として、抽出すべき概念を特徴づける必須属
性の情報が抽出されていること、第2の必要十分条件と
して、複数の概念単位(図4の自然言語文書の例では複
数の製品)を候補領域中に含まないこと、並びに、第3
の必要十分条件として、新規の情報を含んでいることで
ある。
【0199】まず、第1の必要十分条件の「抽出すべき
概念を特徴づける必須属性」とは、その概念の1単位
(図4の自然言語文書の例では1製品)を決定するユニ
ークキーとなる情報であり、概念キー知識3106とし
て予め設定されるものである。例えば、図32に示す製
品テーブルの場合には、メーカー,製品および型式のカ
ラムのセットで1つの製品を表すとすることができるの
で、この場合の概念キー知識3106は、図33に示す
ようになる。
概念を特徴づける必須属性」とは、その概念の1単位
(図4の自然言語文書の例では1製品)を決定するユニ
ークキーとなる情報であり、概念キー知識3106とし
て予め設定されるものである。例えば、図32に示す製
品テーブルの場合には、メーカー,製品および型式のカ
ラムのセットで1つの製品を表すとすることができるの
で、この場合の概念キー知識3106は、図33に示す
ようになる。
【0200】次に、第2の必要十分条件の複数の概念単
位を含んでいるかどうかのチェックは、上記概念キー知
識3106を活用して行う。すなわち、概念キー知識3
106に相当する属性が複数抽出されたかどうかをチェ
ックし、複数含む場合は、概念単位が複数であるとして
当該第2の必要十分条件を満たさないとする。例えば、
概念記述領域の候補領域として、ノードND5を仮定し
た場合、抽出される概念情報候補は図34に示すように
なる。図34では、メーカー,製品および型式の組み合
わせのデータが2つ抽出されているため、第2の必要十
分条件には合致しないとする。
位を含んでいるかどうかのチェックは、上記概念キー知
識3106を活用して行う。すなわち、概念キー知識3
106に相当する属性が複数抽出されたかどうかをチェ
ックし、複数含む場合は、概念単位が複数であるとして
当該第2の必要十分条件を満たさないとする。例えば、
概念記述領域の候補領域として、ノードND5を仮定し
た場合、抽出される概念情報候補は図34に示すように
なる。図34では、メーカー,製品および型式の組み合
わせのデータが2つ抽出されているため、第2の必要十
分条件には合致しないとする。
【0201】次に、第3の必要十分条件の新規の情報を
含んでいるかどうかのチェックを行えるようにするため
に、既に抽出済みの概念情報が抽出済み概念情報310
7に保存されている必要がある。すなわち、この抽出済
み概念情報3107をチェックして、概念情報候補が包
含される抽出済み概念情報が存在すれば、第3の必要十
分条件は満たさないことになる。例えば、ノードND1
6のセルを候補領域とした場合に抽出される概念情報候
補は図35に示す如くなり、この時、抽出済み概念情報
3107として、図32に示した概念情報候補が保存さ
れていれば、図35の概念情報候補は図32の概念情報
に包含されるため、第3の必要十分条件は満たさないこ
とになる。別の例として、ノードND16およびノード
ND17のセルの上位文脈領域であるノードND10の
行を候補領域として概念情報候補を抽出した場合には、
図36に示すようになり、「医療用具承認番号」のカラ
ムの情報が図32と比較して新規の情報なので、この場
合は逆に第3の必要十分条件を満たすことになる。
含んでいるかどうかのチェックを行えるようにするため
に、既に抽出済みの概念情報が抽出済み概念情報310
7に保存されている必要がある。すなわち、この抽出済
み概念情報3107をチェックして、概念情報候補が包
含される抽出済み概念情報が存在すれば、第3の必要十
分条件は満たさないことになる。例えば、ノードND1
6のセルを候補領域とした場合に抽出される概念情報候
補は図35に示す如くなり、この時、抽出済み概念情報
3107として、図32に示した概念情報候補が保存さ
れていれば、図35の概念情報候補は図32の概念情報
に包含されるため、第3の必要十分条件は満たさないこ
とになる。別の例として、ノードND16およびノード
ND17のセルの上位文脈領域であるノードND10の
行を候補領域として概念情報候補を抽出した場合には、
図36に示すようになり、「医療用具承認番号」のカラ
ムの情報が図32と比較して新規の情報なので、この場
合は逆に第3の必要十分条件を満たすことになる。
【0202】以上説明した第1から第3までの必要十分
条件のチェックにより、1つの概念情報候補に対する概
念情報の必要十分性がチェックできることとなる。な
お、上記説明の例では、抽出すべき概念のテーブルは
「製品テーブル」のみであるが、テーブルが複数ある場
合には、ステップ3108における概念情報の必要十分
性のチェックは、全てのテーブルに対して繰り返し行う
必要がある。
条件のチェックにより、1つの概念情報候補に対する概
念情報の必要十分性がチェックできることとなる。な
お、上記説明の例では、抽出すべき概念のテーブルは
「製品テーブル」のみであるが、テーブルが複数ある場
合には、ステップ3108における概念情報の必要十分
性のチェックは、全てのテーブルに対して繰り返し行う
必要がある。
【0203】ステップ3108において、全ての概念抽
出対象となるテーブルについて概念情報の必要十分性が
言えないときには、ステップ3109に進んで、現在の
候補領域が最上位の文脈領域でない場合には、現在の候
補領域の上位の文脈領域を候補領域としてステップ31
03に戻る。すなわち、仮定したよりさらに上位の文脈
領域を概念記述領域の候補として仮定しなおして、上記
処理を繰り返す。ただし、上位の文脈領域が複数ある場
合には、複数の文脈領域について探索を繰り返すことに
なる。例えば、表の場合、セル単位で概念情報の必要十
分性が言えなかった場合、次の上位文脈は行単位か列単
位のいずれかであり、この両方をチェックしてみる必要
がある。また、より上位の文脈領域が存在しない場合、
すなわち現在の候補領域が最上位の文脈領域の場合に
は、ステップ3111において概念情報の重複解決処理
を行い、概念情報の抽出は終了する。
出対象となるテーブルについて概念情報の必要十分性が
言えないときには、ステップ3109に進んで、現在の
候補領域が最上位の文脈領域でない場合には、現在の候
補領域の上位の文脈領域を候補領域としてステップ31
03に戻る。すなわち、仮定したよりさらに上位の文脈
領域を概念記述領域の候補として仮定しなおして、上記
処理を繰り返す。ただし、上位の文脈領域が複数ある場
合には、複数の文脈領域について探索を繰り返すことに
なる。例えば、表の場合、セル単位で概念情報の必要十
分性が言えなかった場合、次の上位文脈は行単位か列単
位のいずれかであり、この両方をチェックしてみる必要
がある。また、より上位の文脈領域が存在しない場合、
すなわち現在の候補領域が最上位の文脈領域の場合に
は、ステップ3111において概念情報の重複解決処理
を行い、概念情報の抽出は終了する。
【0204】また、ステップ3108において、少なく
とも1つのテーブルについて概念情報の必要十分性が言
えた場合には、ステップ3112に進んで、抽出済み概
念情報として概念情報候補を保存し、ステップ3113
において、概念記述領域の候補領域を、現在の候補領域
と同レベルの次の領域、例えば現在の候補領域がノード
ND6の場合はノードND7を起点として最下位領域を
探索して発見し、文脈からの概念抽出処理を繰り返す。
同レベルに次の領域が存在しない場合には、上位の文脈
領域の次の領域、例えば現在の候補領域がノードND7
の場合はノードND8を候補領域探索の起点にする。ス
テップ3114において、さらに上位の文脈領域が存在
しない場合(現在が最上位の場合)には、ステップ31
11に進んで概念情報の重複解決処理を行い、概念情報
の抽出は終了する。
とも1つのテーブルについて概念情報の必要十分性が言
えた場合には、ステップ3112に進んで、抽出済み概
念情報として概念情報候補を保存し、ステップ3113
において、概念記述領域の候補領域を、現在の候補領域
と同レベルの次の領域、例えば現在の候補領域がノード
ND6の場合はノードND7を起点として最下位領域を
探索して発見し、文脈からの概念抽出処理を繰り返す。
同レベルに次の領域が存在しない場合には、上位の文脈
領域の次の領域、例えば現在の候補領域がノードND7
の場合はノードND8を候補領域探索の起点にする。ス
テップ3114において、さらに上位の文脈領域が存在
しない場合(現在が最上位の場合)には、ステップ31
11に進んで概念情報の重複解決処理を行い、概念情報
の抽出は終了する。
【0205】概念情報の重複解決処理(ステップ311
1)を行う前の段階では、抽出済み概念情報は図37に
示すような状態になっている。これは最終的に目標とす
る図5の概念集合に非常に近い形にはなっているが、ノ
ードND6とND10並びにノードND7とND11で
抽出した概念が同一の製品に対する情報を記述してお
り、結果として概念情報の重複がおこっている。これを
解消するためにステップ3111では、概念キー知識3
106を再び用いて概念キーが同一の概念を探索し、も
し存在すれば重複情報を解消して1つの概念情報とする
ことで、最終的に図5に示したような概念情報が抽出さ
れることになる。
1)を行う前の段階では、抽出済み概念情報は図37に
示すような状態になっている。これは最終的に目標とす
る図5の概念集合に非常に近い形にはなっているが、ノ
ードND6とND10並びにノードND7とND11で
抽出した概念が同一の製品に対する情報を記述してお
り、結果として概念情報の重複がおこっている。これを
解消するためにステップ3111では、概念キー知識3
106を再び用いて概念キーが同一の概念を探索し、も
し存在すれば重複情報を解消して1つの概念情報とする
ことで、最終的に図5に示したような概念情報が抽出さ
れることになる。
【0206】以上、この「3−2.文脈解析および構造
解析を用いた概念情報の抽出」で説明した文脈情報を用
いた概念抽出方式は、文書構造が存在しない自然言語文
書についての処理方式であった「3−1.意味解析を用
いた概念情報の抽出」の方式を包含したものとなってお
り、文書構造が存在しない図8や図12のような自然言
語文書も、「3−1.意味解析を用いた概念情報の抽
出」と同等の精度で解析することが可能である。
解析を用いた概念情報の抽出」で説明した文脈情報を用
いた概念抽出方式は、文書構造が存在しない自然言語文
書についての処理方式であった「3−1.意味解析を用
いた概念情報の抽出」の方式を包含したものとなってお
り、文書構造が存在しない図8や図12のような自然言
語文書も、「3−1.意味解析を用いた概念情報の抽
出」と同等の精度で解析することが可能である。
【0207】ただし、自然言語文書の長文(文が多くて
1つの文書で複数の意図を伝えようとしているもの)を
含む場合には、自然言語文書のみで、文脈階層構造を形
成していると考えられるため、この「3−2.文脈解析
および構造解析を用いた概念情報の抽出」で説明したよ
うなタグによる文脈階層構造の解析のみではなく、主題
の推移や接続詞等に基づく文脈階層構造の解析を行う必
要がある。これを実現する手法は、例えば第4の文献
『吉田悦子, 横山晶一 ;” 主題・焦点を用いた文脈解
析の一手法”, 電子情報通信学会技術研究報告, Vol97,
No330, pp.1-8,(1997)』等に述べられている。
1つの文書で複数の意図を伝えようとしているもの)を
含む場合には、自然言語文書のみで、文脈階層構造を形
成していると考えられるため、この「3−2.文脈解析
および構造解析を用いた概念情報の抽出」で説明したよ
うなタグによる文脈階層構造の解析のみではなく、主題
の推移や接続詞等に基づく文脈階層構造の解析を行う必
要がある。これを実現する手法は、例えば第4の文献
『吉田悦子, 横山晶一 ;” 主題・焦点を用いた文脈解
析の一手法”, 電子情報通信学会技術研究報告, Vol97,
No330, pp.1-8,(1997)』等に述べられている。
【0208】4.概念情報の登録 以上のように、「3.概念情報の抽出」における概念情
報抽出処理によって、「2.概念集合の表現」で説明し
たような概念情報が抽出された。これは図2のフローチ
ャートにおけるステップ201の処理に相当する。ま
た、図4の自然言語文書の例では、図5の概念集合への
変換が終了したことになる。
報抽出処理によって、「2.概念集合の表現」で説明し
たような概念情報が抽出された。これは図2のフローチ
ャートにおけるステップ201の処理に相当する。ま
た、図4の自然言語文書の例では、図5の概念集合への
変換が終了したことになる。
【0209】このような概念集合においても、キーワー
ド集合と同様の重み付け処理を行って、概念と重みの数
値の組によって概念集合とすることも可能である。ここ
で求められた概念集合は、図1の概念登録装置102を
用いて、図2の文書ID205と共にステップ206に
おいてデータベース104に登録されることになる。こ
こで登録されるデータ構造は、従来例の転置インデック
ス(図51参照)におけるキーワード部分を概念情報で
置き換えたものと考えられ、ここでは「概念情報転置イ
ンデックス」と呼ぶ。
ド集合と同様の重み付け処理を行って、概念と重みの数
値の組によって概念集合とすることも可能である。ここ
で求められた概念集合は、図1の概念登録装置102を
用いて、図2の文書ID205と共にステップ206に
おいてデータベース104に登録されることになる。こ
こで登録されるデータ構造は、従来例の転置インデック
ス(図51参照)におけるキーワード部分を概念情報で
置き換えたものと考えられ、ここでは「概念情報転置イ
ンデックス」と呼ぶ。
【0210】図38には、重み付け処理を行った場合の
概念情報転置インデックスの一例を示す。この重み付け
られた概念情報転置インデックスは、ある概念の各文書
に対する重みを求めることができるデータ構造を持って
おり、重み付け処理を行わない場合には、重み付け数値
の部分が、文書に含まれるまたは含まれないを表す2値
のフラグになる。
概念情報転置インデックスの一例を示す。この重み付け
られた概念情報転置インデックスは、ある概念の各文書
に対する重みを求めることができるデータ構造を持って
おり、重み付け処理を行わない場合には、重み付け数値
の部分が、文書に含まれるまたは含まれないを表す2値
のフラグになる。
【0211】また、従来例のキーワードの転置インデッ
クス(図51参照)と違って、索引の部分が複数の情報
の組み合わせでできているため、同一の概念の部分的情
報が、複数の文書から抽出されている可能性がある。す
なわち、価格は「文書1」、医療用具承認番号は「文書
3」に記述されていたというような場合である。これを
後で活用して、価格の情報が載っている文書を探したい
と思った場合に「文書1」を検索できるようにするため
に、対応する概念の属性の情報(以下では、対応属性情
報と呼ぶ)を保存しておくことも可能である。この対応
属性情報は、文書IDとの組で保存される。この方式を
適用すれば、例えば、図38の型式MC400という体温計
のレコードは、図39に示すように各文書カラムに対応
属性情報を保持した形式となる。図39に示した例で
は、キーとなるメーカー,製品および型式のカラムの情
報は、全ての文書に含まれるが、発売日、価格および医
療用具承認番号のカラムの情報は、それぞれ文書1、文
書2、文書3に別々に記載されていたことを表すことが
できる。
クス(図51参照)と違って、索引の部分が複数の情報
の組み合わせでできているため、同一の概念の部分的情
報が、複数の文書から抽出されている可能性がある。す
なわち、価格は「文書1」、医療用具承認番号は「文書
3」に記述されていたというような場合である。これを
後で活用して、価格の情報が載っている文書を探したい
と思った場合に「文書1」を検索できるようにするため
に、対応する概念の属性の情報(以下では、対応属性情
報と呼ぶ)を保存しておくことも可能である。この対応
属性情報は、文書IDとの組で保存される。この方式を
適用すれば、例えば、図38の型式MC400という体温計
のレコードは、図39に示すように各文書カラムに対応
属性情報を保持した形式となる。図39に示した例で
は、キーとなるメーカー,製品および型式のカラムの情
報は、全ての文書に含まれるが、発売日、価格および医
療用具承認番号のカラムの情報は、それぞれ文書1、文
書2、文書3に別々に記載されていたことを表すことが
できる。
【0212】なお、複数の概念情報(例えば、製品と企
業など)を同時に抽出した場合には、図38のような概
念情報転置インデックスが、概念情報の種類毎にでき
る。例えば、製品テーブルと企業テーブルを同時に概念
抽出した場合には、概念情報転置インデックスも、製品
概念情報転置インデックスと企業概念情報転置インデッ
クスの2つができることになる。
業など)を同時に抽出した場合には、図38のような概
念情報転置インデックスが、概念情報の種類毎にでき
る。例えば、製品テーブルと企業テーブルを同時に概念
抽出した場合には、概念情報転置インデックスも、製品
概念情報転置インデックスと企業概念情報転置インデッ
クスの2つができることになる。
【0213】また、本実施形態では、文書の所在情報と
の組で概念情報を登録する方法を述べたが、実際には、
概念情報のみをデータベース104に登録するようにし
ても良い。この場合、図2のフローチャートにおいて、
ステップ204の文書IDの取得および結果となる文書
IDは省略され、ステップ206では概念情報のみがデ
ータベース104に登録されることになる。
の組で概念情報を登録する方法を述べたが、実際には、
概念情報のみをデータベース104に登録するようにし
ても良い。この場合、図2のフローチャートにおいて、
ステップ204の文書IDの取得および結果となる文書
IDは省略され、ステップ206では概念情報のみがデ
ータベース104に登録されることになる。
【0214】5.概念情報の検索 最後に、「1−3.情報検索処理」で概説した概念検索
の詳細について述べる。概念をレコードで表現した場
合、図3における検索概念集合306が表現すべきもの
は、以下の2点である。すなわち、第1に、どのテーブ
ルの情報或いはどのテーブルのどのカラムの情報が知り
たいのかであり、第2に、どのレコードの情報が知りた
いのかである。
の詳細について述べる。概念をレコードで表現した場
合、図3における検索概念集合306が表現すべきもの
は、以下の2点である。すなわち、第1に、どのテーブ
ルの情報或いはどのテーブルのどのカラムの情報が知り
たいのかであり、第2に、どのレコードの情報が知りた
いのかである。
【0215】第1の検索要求は、何らかの手段を用いて
テーブルやカラムを指定できるようにすることで可能に
なる。例えば、テーブルのカラムに「?」が記述されて
いる場合にそのカラムの情報を回答することにすると、
製品の発売日が知りたいという条件は、図40に示すよ
うに表現できる。
テーブルやカラムを指定できるようにすることで可能に
なる。例えば、テーブルのカラムに「?」が記述されて
いる場合にそのカラムの情報を回答することにすると、
製品の発売日が知りたいという条件は、図40に示すよ
うに表現できる。
【0216】また、第2の検索要求は、テーブルのカラ
ムに対して条件を記述できるようにすることで可能にな
る。例えば、価格が12,500円の製品を知りたいという条
件は、図41に示すように表現できる。
ムに対して条件を記述できるようにすることで可能にな
る。例えば、価格が12,500円の製品を知りたいという条
件は、図41に示すように表現できる。
【0217】図40は、従来の情報抽出の結果と表現的
には同じものであるが、意味合い的に条件を表している
という点で異なる。しかし、表現が同じことで、情報登
録の際のアルゴリズムやデータ構造を情報検索にも流用
できるという利点がある。
には同じものであるが、意味合い的に条件を表している
という点で異なる。しかし、表現が同じことで、情報登
録の際のアルゴリズムやデータ構造を情報検索にも流用
できるという利点がある。
【0218】また、図40はテーブルのカラムを特定す
る実例であったが、テーブル全体について知りたいとい
う条件も考えられる。これを実現する手法としては、以
下の3つの方法が考えられる。第1の方法として、カラ
ムの条件が記述されており「?」が1つもないテーブル
はテーブル全体のことを知りたいものとする方法があ
り、第2の方法として、テーブルのすべてのカラムに
「?」をつける方法があり、第3の方法として、テーブ
ル全体のことを知りたいということを表現するための領
域を別に用意する方法がある。
る実例であったが、テーブル全体について知りたいとい
う条件も考えられる。これを実現する手法としては、以
下の3つの方法が考えられる。第1の方法として、カラ
ムの条件が記述されており「?」が1つもないテーブル
はテーブル全体のことを知りたいものとする方法があ
り、第2の方法として、テーブルのすべてのカラムに
「?」をつける方法があり、第3の方法として、テーブ
ル全体のことを知りたいということを表現するための領
域を別に用意する方法がある。
【0219】第1の方法は、簡単に実現できるが、テー
ブル間の参照を用いて複数テーブルに条件が渡ってい
て、かつ、全てのテーブルについては知りたいと思って
いない場合に表現する方法が無いという欠点がある。ま
た、情報登録なのか情報検索なのかの判断を別の知識に
基づいて行わなければならないという欠点もある。また
第2の方法は、本当に各々のカラムについて知りたいの
か、全体について知りたいのかという意味の情報が抜け
落ちてしまう。
ブル間の参照を用いて複数テーブルに条件が渡ってい
て、かつ、全てのテーブルについては知りたいと思って
いない場合に表現する方法が無いという欠点がある。ま
た、情報登録なのか情報検索なのかの判断を別の知識に
基づいて行わなければならないという欠点もある。また
第2の方法は、本当に各々のカラムについて知りたいの
か、全体について知りたいのかという意味の情報が抜け
落ちてしまう。
【0220】さらに第3の方法では、記憶領域が多くい
るが、最も情報欠落は少なく表現力が高いと考えられ
る。以下では、第3の方法を採用した具体例を述べる。
るが、最も情報欠落は少なく表現力が高いと考えられ
る。以下では、第3の方法を採用した具体例を述べる。
【0221】上記第3の方法に従えば、例えば、「オム
ロンの血圧計で価格が12,500円のものの発売日が知りた
い」という検索要求は、図42に示すように表すことが
できる。図42の表記例で述べていることは、基本的に
同一レコードに記述された条件は論理積の条件(すなわ
ちAND条件)とみなすということである。また、論理
和の条件(すなわちOR条件)を記述したい場合には、
テーブルにレコードを複数記述するか、テーブルのカラ
ムの中にOR条件を記述できるようにするかのどちらか
で対処できる。
ロンの血圧計で価格が12,500円のものの発売日が知りた
い」という検索要求は、図42に示すように表すことが
できる。図42の表記例で述べていることは、基本的に
同一レコードに記述された条件は論理積の条件(すなわ
ちAND条件)とみなすということである。また、論理
和の条件(すなわちOR条件)を記述したい場合には、
テーブルにレコードを複数記述するか、テーブルのカラ
ムの中にOR条件を記述できるようにするかのどちらか
で対処できる。
【0222】またさらに、テーブルのカラムが数値を表
している場合に、以上、以下等の不等号条件を記述した
い場合がある。この場合、条件として記述する数値の前
に比較演算子を記述することで表現する等と定めること
で単純な比較条件は記述できる。例えば、「オムロンの
15,000円以下の血圧計について知りたい」という検索要
求は、図43に示すように表される。また同様に演算子
を拡張して、最小のものを求めたり、最大のものを求め
られるようにする方法も考えられる。
している場合に、以上、以下等の不等号条件を記述した
い場合がある。この場合、条件として記述する数値の前
に比較演算子を記述することで表現する等と定めること
で単純な比較条件は記述できる。例えば、「オムロンの
15,000円以下の血圧計について知りたい」という検索要
求は、図43に示すように表される。また同様に演算子
を拡張して、最小のものを求めたり、最大のものを求め
られるようにする方法も考えられる。
【0223】この他にも、文字列で表されるカラムにつ
いて前方一致条件や後方一致条件を記述できるようにし
て部分文字列マッチを可能にするように拡張する方法
や、文字列そのものの条件を記述する代わりに意味素を
記述できるようにして意味素に分類される文字列はすべ
てマッチするように拡張する等の方法も考えられる。
いて前方一致条件や後方一致条件を記述できるようにし
て部分文字列マッチを可能にするように拡張する方法
や、文字列そのものの条件を記述する代わりに意味素を
記述できるようにして意味素に分類される文字列はすべ
てマッチするように拡張する等の方法も考えられる。
【0224】また、条件を記述したカラムの内容を知り
たい場合も想定し得る。文字列のExact Matchの場合
は、条件に書いた文字列そのものが答えになるため、あ
まり用途は思い浮かばないが、上記の数値の不等号条件
の場合や、文字列の部分文字列マッチや、意味素マッチ
の場合等には、条件で記述したものと実際に得られる文
字列は異なる可能性があるためである。これを表現可能
にするには、知りたいテーブルのカラムに「?」を記述
するという上記の方法では対処できなくなる。そのた
め、各カラムごとに「?」を記述するための回答要求欄
を設けることでこの問題を回避することができる。
たい場合も想定し得る。文字列のExact Matchの場合
は、条件に書いた文字列そのものが答えになるため、あ
まり用途は思い浮かばないが、上記の数値の不等号条件
の場合や、文字列の部分文字列マッチや、意味素マッチ
の場合等には、条件で記述したものと実際に得られる文
字列は異なる可能性があるためである。これを表現可能
にするには、知りたいテーブルのカラムに「?」を記述
するという上記の方法では対処できなくなる。そのた
め、各カラムごとに「?」を記述するための回答要求欄
を設けることでこの問題を回避することができる。
【0225】例えば、図44に示す具体例では、各カラ
ムごとに「?」を記述するための回答要求欄を設けてい
る。図44では、「オムロンの血圧計で15,000円以下の
ものの型式と値段が知りたい」という検索要求を表して
いる。ここで、価格のカラムには、条件と「?」の両方
が記述されていることに注意する必要がある。
ムごとに「?」を記述するための回答要求欄を設けてい
る。図44では、「オムロンの血圧計で15,000円以下の
ものの型式と値段が知りたい」という検索要求を表して
いる。ここで、価格のカラムには、条件と「?」の両方
が記述されていることに注意する必要がある。
【0226】なお、これまでの議論は、主に図3のフロ
ーチャートの検索概念抽出処理(ステップ302) を
考えるための下準備であったが、検索文のパース(ステ
ップ304)において、概念検索文305から直接的に
検索概念集合306を作成する際にも応用できる。
ーチャートの検索概念抽出処理(ステップ302) を
考えるための下準備であったが、検索文のパース(ステ
ップ304)において、概念検索文305から直接的に
検索概念集合306を作成する際にも応用できる。
【0227】まず、概念検索文305をSQLと同等
(あるいはそのサブセット)のものにする場合を考え
る。この場合、上記の「?」に相当するのが、SELE
CT文の「SELECT」の直後に記述するカラム名である。
また、上記の各カラムに記述する条件式は、SELEC
T文の「WHERE」の後に記述する条件式に相当する。こ
れによって、SQLのサブセットを上記の図40から図
44の表現に変換することは容易であり、この場合、検
索文のパース(ステップ304)はその変換処理に相当
する。これによって、例えば「SELECT 型式,価格 FROM
製品テーブル WHERE メーカー="オムロン" AND 製品="
血圧計" AND 価格<=15000;」というSQLが図44の表
現に変換される。また、テーブル全体を知るためのカラ
ムは、「SELECT *」と同等とみなすことができる。
(あるいはそのサブセット)のものにする場合を考え
る。この場合、上記の「?」に相当するのが、SELE
CT文の「SELECT」の直後に記述するカラム名である。
また、上記の各カラムに記述する条件式は、SELEC
T文の「WHERE」の後に記述する条件式に相当する。こ
れによって、SQLのサブセットを上記の図40から図
44の表現に変換することは容易であり、この場合、検
索文のパース(ステップ304)はその変換処理に相当
する。これによって、例えば「SELECT 型式,価格 FROM
製品テーブル WHERE メーカー="オムロン" AND 製品="
血圧計" AND 価格<=15000;」というSQLが図44の表
現に変換される。また、テーブル全体を知るためのカラ
ムは、「SELECT *」と同等とみなすことができる。
【0228】また、概念検索文305をSQLのような
ものにするのではなく、GUIで図40〜図44のよう
な表現そのものを実現することにより、SQL等の記述
法に関する専門的知識がなくとも検索概念集合を作成で
きるGUI等を実現することも可能である。
ものにするのではなく、GUIで図40〜図44のよう
な表現そのものを実現することにより、SQL等の記述
法に関する専門的知識がなくとも検索概念集合を作成で
きるGUI等を実現することも可能である。
【0229】以上のような検索概念集合306の表現方
法を用いて、以下では、WWWページ検索システムの情
報検索処理(図3)において自然言語検索文303を検
索概念集合306に変換する検索概念抽出処理(ステッ
プ302) の実現方法について述べる。ここでは、基
本的に「3−2.文脈解析および構造解析を用いた概念
情報の抽出」で説明した処理と同様の処理を行うものと
する。
法を用いて、以下では、WWWページ検索システムの情
報検索処理(図3)において自然言語検索文303を検
索概念集合306に変換する検索概念抽出処理(ステッ
プ302) の実現方法について述べる。ここでは、基
本的に「3−2.文脈解析および構造解析を用いた概念
情報の抽出」で説明した処理と同様の処理を行うものと
する。
【0230】今、図23および図24の文脈情報抽出知
識を拡張して、情報登録処理および情報検索処理の両方
に使用できる一般的な情報抽出知識とする方法を考え
る。図23および図24の知識は、現在着目している
「抽出要素」に対して適用され、適用できるようなら
「抽出カラム」への対応度が高まり、最終的に「抽出カ
ラム」に「抽出要素」そのものが概念情報として保存さ
れる。これを拡張して、図40から図44で述べたよう
な表現方法を適用できるようにするには、登録の意図へ
の対応度を高める知識と、検索の意図への対応度を高め
る知識を別々に集計して、最終的に検索の意図への対応
度が高かった場合には、対応する概念情報のカラムに
「?」を保存すれば良い。あとは意味的整合性のため
に、図23および図24の文脈情報抽出知識におけるカ
ラム名の幾つかを以下のように変更する。しかし、それ
ぞれに対するアルゴリズム上の扱いは同じである。
識を拡張して、情報登録処理および情報検索処理の両方
に使用できる一般的な情報抽出知識とする方法を考え
る。図23および図24の知識は、現在着目している
「抽出要素」に対して適用され、適用できるようなら
「抽出カラム」への対応度が高まり、最終的に「抽出カ
ラム」に「抽出要素」そのものが概念情報として保存さ
れる。これを拡張して、図40から図44で述べたよう
な表現方法を適用できるようにするには、登録の意図へ
の対応度を高める知識と、検索の意図への対応度を高め
る知識を別々に集計して、最終的に検索の意図への対応
度が高かった場合には、対応する概念情報のカラムに
「?」を保存すれば良い。あとは意味的整合性のため
に、図23および図24の文脈情報抽出知識におけるカ
ラム名の幾つかを以下のように変更する。しかし、それ
ぞれに対するアルゴリズム上の扱いは同じである。
【0231】「抽出カラム」→「対象カラム」 「抽出要素の意味素」→「着目要素」 「抽出要素の後置要素」→「着目要素の後置要素」 このような変更部分を反映した情報抽出知識を図45,
図46,図47および図48に示す。ここでは上記3つ
のカラム名の変更と、「意図」のカラムの追加が行われ
ており、意図のカラムに「登録」と記述してある知識に
マッチした場合は、着目要素そのものを概念情報に保存
し、「検索」と記述してある知識にマッチした場合は、
「?」を概念情報に保存するようにする。
図46,図47および図48に示す。ここでは上記3つ
のカラム名の変更と、「意図」のカラムの追加が行われ
ており、意図のカラムに「登録」と記述してある知識に
マッチした場合は、着目要素そのものを概念情報に保存
し、「検索」と記述してある知識にマッチした場合は、
「?」を概念情報に保存するようにする。
【0232】図45から図48までの情報抽出知識を用
いて検索概念情報の抽出を行う場合、図25の文脈情報
抽出処理のフローチャートにおける抽出カラム(対象カ
ラム)への対応度を更新する処理(ステップ2510)
の際に、対象カラムと意図の組毎に対応度を求めるよう
にする。すなわち、「製品テーブル.メーカー(登
録)」と「製品テーブル.メーカー(検索)」は別物と
考えるわけである。
いて検索概念情報の抽出を行う場合、図25の文脈情報
抽出処理のフローチャートにおける抽出カラム(対象カ
ラム)への対応度を更新する処理(ステップ2510)
の際に、対象カラムと意図の組毎に対応度を求めるよう
にする。すなわち、「製品テーブル.メーカー(登
録)」と「製品テーブル.メーカー(検索)」は別物と
考えるわけである。
【0233】そして、文脈情報抽出処理(図25)の文
脈情報保存領域に対応カラムと抽出要素を保存する処理
(ステップ2514)において、対応カラムが登録意図
のものならば、抽出要素(着目要素)を文脈情報として
保存し、対応カラムが検索意図のものならば、「?」を
文脈情報として保存する。
脈情報保存領域に対応カラムと抽出要素を保存する処理
(ステップ2514)において、対応カラムが登録意図
のものならば、抽出要素(着目要素)を文脈情報として
保存し、対応カラムが検索意図のものならば、「?」を
文脈情報として保存する。
【0234】後の処理は、「?」も他の情報と全く同等
に扱うことによって、検索概念情報の抽出が可能とな
る。ただし、図31の概念記述領域決定と概念情報抽出
処理のフローチャートにおける概念情報としての必要十
分性のチェック(ステップ3105)の際には概念キー
知識3106を用いたチェックのみを行っていたが、上
記で説明した「テーブル全体について知りたい」という
条件が抽出されていた場合には、この条件一つで概念キ
ーに相当するとみなし、十分性は言えるものとする。
に扱うことによって、検索概念情報の抽出が可能とな
る。ただし、図31の概念記述領域決定と概念情報抽出
処理のフローチャートにおける概念情報としての必要十
分性のチェック(ステップ3105)の際には概念キー
知識3106を用いたチェックのみを行っていたが、上
記で説明した「テーブル全体について知りたい」という
条件が抽出されていた場合には、この条件一つで概念キ
ーに相当するとみなし、十分性は言えるものとする。
【0235】以上で、WWWページ検索システムの情報
検索処理(図3)において自然言語検索文303を検索
概念集合306に変換する検索概念抽出処理(ステップ
302) の説明を終わる。次に、データベース104
からの概念検索処理(ステップ307)について述べ
る。
検索処理(図3)において自然言語検索文303を検索
概念集合306に変換する検索概念抽出処理(ステップ
302) の説明を終わる。次に、データベース104
からの概念検索処理(ステップ307)について述べ
る。
【0236】上述のように、図40から図44の表現
は、SQLのSELECT文のサブセットと考えること
ができ、相互変換は容易である。したがって、検索概念
集合306をSQLに変換し、通常のリレーショナルデ
ータベースに保存された概念情報を検索することは、公
知技術の範囲内でおこなうことが可能である。
は、SQLのSELECT文のサブセットと考えること
ができ、相互変換は容易である。したがって、検索概念
集合306をSQLに変換し、通常のリレーショナルデ
ータベースに保存された概念情報を検索することは、公
知技術の範囲内でおこなうことが可能である。
【0237】6.実施形態の効果 以上説明したように、本実施形態の情報検索システム
(WWWページ検索システム)では、概念抽出装置10
1により、自然言語文書202中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置102
によってデータベース104に登録し、概念検索装置1
03により、ユーザの検索要求にしたがってデータベー
ス104に登録された概念情報から必要な概念情報を検
索する。このように、キーワード間の関係を表す構文
的、意味的、文脈的および構造的な各情報を含む概念情
報を抽出して登録し、キーワード間の関係情報を活用し
て概念単位または属性単位の情報を条件とした検索を行
うので、キーワード間の関係を表す情報の欠落を防ぐと
共に、該概念情報を有効に活用して精度の高い情報検索
が可能となる。
(WWWページ検索システム)では、概念抽出装置10
1により、自然言語文書202中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置102
によってデータベース104に登録し、概念検索装置1
03により、ユーザの検索要求にしたがってデータベー
ス104に登録された概念情報から必要な概念情報を検
索する。このように、キーワード間の関係を表す構文
的、意味的、文脈的および構造的な各情報を含む概念情
報を抽出して登録し、キーワード間の関係情報を活用し
て概念単位または属性単位の情報を条件とした検索を行
うので、キーワード間の関係を表す情報の欠落を防ぐと
共に、該概念情報を有効に活用して精度の高い情報検索
が可能となる。
【0238】また、本実施形態の情報検索システム(W
WWページ検索システム)では、概念抽出装置101に
より、自然言語文書202中から抽出したキーワード情
報および該キーワード間の関係を表す情報に基づいて、
概念単位または属性単位に情報を構造化した概念情報を
抽出し、該抽出した概念情報を概念登録装置102によ
ってデータベース104に登録し、概念検索文解析装置
105(概念検索装置)により、ユーザが与える自然言
語検索文中から抽出したキーワード情報および該キーワ
ード間の関係を表す情報に基づいて、概念単位または属
性単位に情報を構造化した検索概念情報を抽出し、該抽
出した検索概念情報にしたがってデータベースに登録さ
れた概念情報から必要な概念情報を検索する。これによ
り、キーワード間の関係を表す構文的、意味的、文脈的
および構造的な各情報を含む概念情報を抽出して登録
し、また自然言語検索文についても検索概念情報を抽出
して、キーワード間の関係情報を活用して概念単位また
は属性単位の情報を条件とした検索を行うので、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索が可能となる。
WWページ検索システム)では、概念抽出装置101に
より、自然言語文書202中から抽出したキーワード情
報および該キーワード間の関係を表す情報に基づいて、
概念単位または属性単位に情報を構造化した概念情報を
抽出し、該抽出した概念情報を概念登録装置102によ
ってデータベース104に登録し、概念検索文解析装置
105(概念検索装置)により、ユーザが与える自然言
語検索文中から抽出したキーワード情報および該キーワ
ード間の関係を表す情報に基づいて、概念単位または属
性単位に情報を構造化した検索概念情報を抽出し、該抽
出した検索概念情報にしたがってデータベースに登録さ
れた概念情報から必要な概念情報を検索する。これによ
り、キーワード間の関係を表す構文的、意味的、文脈的
および構造的な各情報を含む概念情報を抽出して登録
し、また自然言語検索文についても検索概念情報を抽出
して、キーワード間の関係情報を活用して概念単位また
は属性単位の情報を条件とした検索を行うので、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索が可能となる。
【0239】従来例は、キーワード抽出を基本とした情
報登録装置および情報検索装置を備えた情報検索システ
ムであり、キーワードを含んだ検索文の問い合わせに対
して元の情報の所在位置を特定して出力する(或いは元
の情報そのものを出力する)ことを可能としていた。こ
れに対して本実施形態は、概念抽出を基本とした概念登
録装置および概念検索装置を備えた情報検索システムで
あり、抽出した概念情報中にも構造化された情報を保持
しているため、元の情報を表示しなくとも検索に回答す
ることも可能である。
報登録装置および情報検索装置を備えた情報検索システ
ムであり、キーワードを含んだ検索文の問い合わせに対
して元の情報の所在位置を特定して出力する(或いは元
の情報そのものを出力する)ことを可能としていた。こ
れに対して本実施形態は、概念抽出を基本とした概念登
録装置および概念検索装置を備えた情報検索システムで
あり、抽出した概念情報中にも構造化された情報を保持
しているため、元の情報を表示しなくとも検索に回答す
ることも可能である。
【0240】例えば、図5に示すように抽出された概念
情報に対して、図42に示す内容の情報検索を行った場
合、検索結果は「1996/11/01」になる。この場合、元の
情報の所在情報は必要ないかもしれない。しかし、「…
の製品についてできるだけたくさんの情報が欲しい」と
いう場合に、図38に示すような概念情報転置インデッ
クスの形で、概念情報と文書所在情報が組み合わされて
いることにより検索精度は向上し、かつ、元の文書の情
報も表示することができ、正確で、かつ、情報量の多い
情報検索が可能になる。
情報に対して、図42に示す内容の情報検索を行った場
合、検索結果は「1996/11/01」になる。この場合、元の
情報の所在情報は必要ないかもしれない。しかし、「…
の製品についてできるだけたくさんの情報が欲しい」と
いう場合に、図38に示すような概念情報転置インデッ
クスの形で、概念情報と文書所在情報が組み合わされて
いることにより検索精度は向上し、かつ、元の文書の情
報も表示することができ、正確で、かつ、情報量の多い
情報検索が可能になる。
【0241】すなわち、概念抽出を用いた概念登録装置
および概念検索装置を備えた情報検索システムは、キー
ワード抽出を基本とした従来の情報登録装置および情報
検索装置が持っていた検索機能の検索精度を一層向上さ
せ得るという効果と、概念情報という形で構造化された
情報を持つことで、元の文書を用いずに回答できるとい
う新しい検索機能をも実現可能であるという効果があ
る。
および概念検索装置を備えた情報検索システムは、キー
ワード抽出を基本とした従来の情報登録装置および情報
検索装置が持っていた検索機能の検索精度を一層向上さ
せ得るという効果と、概念情報という形で構造化された
情報を持つことで、元の文書を用いずに回答できるとい
う新しい検索機能をも実現可能であるという効果があ
る。
【0242】
【発明の効果】以上の説明から明らかなように、本発明
によれば、概念抽出装置(概念抽出ステップ)により、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した概念情報を抽出し、該抽
出した概念情報を概念登録装置(概念登録ステップ)に
よってデータベースに登録し、概念検索装置(概念検索
ステップ)により、ユーザの検索要求にしたがってデー
タベースに登録された概念情報から必要な概念情報を検
索することとし、キーワード間の関係を表す構文的、意
味的、文脈的および構造的な各情報を含む概念情報を抽
出して登録し、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
によれば、概念抽出装置(概念抽出ステップ)により、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した概念情報を抽出し、該抽
出した概念情報を概念登録装置(概念登録ステップ)に
よってデータベースに登録し、概念検索装置(概念検索
ステップ)により、ユーザの検索要求にしたがってデー
タベースに登録された概念情報から必要な概念情報を検
索することとし、キーワード間の関係を表す構文的、意
味的、文脈的および構造的な各情報を含む概念情報を抽
出して登録し、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
【0243】また、本発明によれば、概念抽出装置(概
念抽出ステップ)により、自然言語文書中から抽出した
キーワード情報および該キーワード間の関係を表す情報
に基づいて、概念単位または属性単位に情報を構造化し
た概念情報を抽出し、該抽出した概念情報を概念登録装
置(概念登録ステップ)によってデータベースに登録
し、概念検索装置(概念検索ステップ)により、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に情報を構造化した検索概念情報
を抽出し、該抽出した検索概念情報にしたがってデータ
ベースに登録された概念情報から必要な概念情報を検索
することとし、キーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、また自然言語検索文についても検索概念情
報を抽出して、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
念抽出ステップ)により、自然言語文書中から抽出した
キーワード情報および該キーワード間の関係を表す情報
に基づいて、概念単位または属性単位に情報を構造化し
た概念情報を抽出し、該抽出した概念情報を概念登録装
置(概念登録ステップ)によってデータベースに登録
し、概念検索装置(概念検索ステップ)により、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に情報を構造化した検索概念情報
を抽出し、該抽出した検索概念情報にしたがってデータ
ベースに登録された概念情報から必要な概念情報を検索
することとし、キーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、また自然言語検索文についても検索概念情
報を抽出して、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。
【0244】また、本発明によれば、概念登録装置(概
念登録ステップ)において、抽出した概念情報を、自然
言語文書の文書所在情報との組による転置インデックス
形式で、或いは、文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、データベース
に登録することとし、概念情報を出力結果とするだけで
はなく元の文書の情報をも活用できるので、検索結果と
して出力し得る情報量を増やすことができ、また、概念
情報の一部である属性情報がどの文書に記述されていた
かを特定できるので、適切な文書のみを検索結果として
提示することが可能な情報検索システム、情報検索シス
テムにおける情報処理方法および記録媒体を提供するこ
とができる。
念登録ステップ)において、抽出した概念情報を、自然
言語文書の文書所在情報との組による転置インデックス
形式で、或いは、文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、データベース
に登録することとし、概念情報を出力結果とするだけで
はなく元の文書の情報をも活用できるので、検索結果と
して出力し得る情報量を増やすことができ、また、概念
情報の一部である属性情報がどの文書に記述されていた
かを特定できるので、適切な文書のみを検索結果として
提示することが可能な情報検索システム、情報検索シス
テムにおける情報処理方法および記録媒体を提供するこ
とができる。
【0245】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報を記述した動詞格フレーム辞書と意味素の表層的
定義を行う意味素辞書とを参照して、動詞に対応する格
要素を特定し、格要素からの概念作成装置(格要素から
の概念作成ステップ)により、格要素と概念との対応情
報に基づいて概念情報を作成することとし、動詞が依存
する意味素の情報を活用して、キーワード間の関係を表
す構文的および意味的な各情報を含む概念情報を抽出し
て登録し、キーワード間の関係情報を活用した検索を行
うこととしたので、キーワード間の関係を表す情報、特
に構文的・意味的情報の欠落を防ぐと共に、該概念情報
を有効に活用して精度の高い情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報を記述した動詞格フレーム辞書と意味素の表層的
定義を行う意味素辞書とを参照して、動詞に対応する格
要素を特定し、格要素からの概念作成装置(格要素から
の概念作成ステップ)により、格要素と概念との対応情
報に基づいて概念情報を作成することとし、動詞が依存
する意味素の情報を活用して、キーワード間の関係を表
す構文的および意味的な各情報を含む概念情報を抽出し
て登録し、キーワード間の関係情報を活用した検索を行
うこととしたので、キーワード間の関係を表す情報、特
に構文的・意味的情報の欠落を防ぐと共に、該概念情報
を有効に活用して精度の高い情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
【0246】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する表層格
の情報を記述した動詞格フレーム辞書を参照して動詞に
対応する格要素を特定し、格要素からの概念作成装置
(格要素からの概念作成ステップ)により、格要素と概
念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する表層格要素の情報を活用して意味素
辞書を具備することなしに、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録し、キーワード間の関係情報を活用した検索を行う
こととしたので、キーワード間の関係を表す情報、特に
構文的・意味的情報の欠落を防ぐと共に、該概念情報を
有効に活用してより簡潔な構成で精度の高い情報検索が
可能な情報検索システム、情報検索システムにおける情
報処理方法および記録媒体を提供することができる。
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する表層格
の情報を記述した動詞格フレーム辞書を参照して動詞に
対応する格要素を特定し、格要素からの概念作成装置
(格要素からの概念作成ステップ)により、格要素と概
念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する表層格要素の情報を活用して意味素
辞書を具備することなしに、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録し、キーワード間の関係情報を活用した検索を行う
こととしたので、キーワード間の関係を表す情報、特に
構文的・意味的情報の欠落を防ぐと共に、該概念情報を
有効に活用してより簡潔な構成で精度の高い情報検索が
可能な情報検索システム、情報検索システムにおける情
報処理方法および記録媒体を提供することができる。
【0247】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報と表層格の情報を記述した動詞格フレーム辞書と
意味素の表層的定義を行う意味素辞書とを参照して、動
詞に対応する格要素を特定し、格要素からの概念作成装
置(格要素からの概念作成ステップ)により、格要素と
概念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する意味素の情報と表層格の情報を活用
して、キーワード間の関係を表す構文的および意味的な
各情報を含む概念情報を抽出して登録することとしたの
で、表層格を表す格助詞が省略された文の場合や、同一
の意味素が複数含まれる文の場合等にも格要素を特定す
ることが可能となり、またキーワード間の関係情報を活
用した検索を行うので、キーワード間の関係を表す情
報、特に構文的・意味的情報の欠落を防ぐと共に、該概
念情報を有効に活用して精度の高い情報検索が可能な情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することができる。
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、動詞抽出装置(動詞抽出ステップ)により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
(格要素特定ステップ)により、動詞が依存する意味素
の情報と表層格の情報を記述した動詞格フレーム辞書と
意味素の表層的定義を行う意味素辞書とを参照して、動
詞に対応する格要素を特定し、格要素からの概念作成装
置(格要素からの概念作成ステップ)により、格要素と
概念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する意味素の情報と表層格の情報を活用
して、キーワード間の関係を表す構文的および意味的な
各情報を含む概念情報を抽出して登録することとしたの
で、表層格を表す格助詞が省略された文の場合や、同一
の意味素が複数含まれる文の場合等にも格要素を特定す
ることが可能となり、またキーワード間の関係情報を活
用した検索を行うので、キーワード間の関係を表す情
報、特に構文的・意味的情報の欠落を防ぐと共に、該概
念情報を有効に活用して精度の高い情報検索が可能な情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することができる。
【0248】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出するので、動詞
述語文、形容詞述語文、名詞述語文、単語のみの文、名
詞句のみの文、体言止めの文等からの概念情報の抽出を
行うことができ、該概念情報を有効に活用して精度の高
い情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
念抽出ステップ)において、形態素解析装置(形態素解
析ステップ)により自然言語文書中から形態素を抜き出
し、抜き出された各形態素(以下、着目要素という)の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム(以
下、対応カラムという)の情報を記述した情報抽出知識
を参照して、対応カラム決定装置(対応カラム決定ステ
ップ)により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出するので、動詞
述語文、形容詞述語文、名詞述語文、単語のみの文、名
詞句のみの文、体言止めの文等からの概念情報の抽出を
行うことができ、該概念情報を有効に活用して精度の高
い情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
【0249】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、意味素と対応する概
念のカラムの情報を記述した文脈情報抽出知識を参照し
て、文脈情報抽出装置(文脈情報抽出ステップ)によ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に該文脈情報を保存し、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)では、前記文脈階層構造情報および該文脈階
層構造情報の下位の文脈領域から上位の文脈領域に或い
は上位の文脈領域から下位の文脈領域にそれぞれ保存さ
れた文脈情報を活用して、概念情報が記述されている領
域を決定しながら前記概念情報を抽出することとし、文
書構造の持つ階層性を解析して、キーワード間の関係を
表す構文的、意味的、文脈的および構造的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用して概念単位または属性単位の情報を条件とした
検索を行うこととしたので、段落や箇条書きに関する文
脈情報、箇条書きに関する構造情報、表に関する文脈・
構造情報、並びに、構文的・意味的情報等々、キーワー
ド間の関係を表す情報の欠落を防ぐと共に、文脈情報お
よび概念情報を有効に活用してより精度の高い情報検索
が可能な情報検索システム、情報検索システムにおける
情報処理方法および記録媒体を提供することができる。
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、意味素と対応する概
念のカラムの情報を記述した文脈情報抽出知識を参照し
て、文脈情報抽出装置(文脈情報抽出ステップ)によ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に該文脈情報を保存し、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)では、前記文脈階層構造情報および該文脈階
層構造情報の下位の文脈領域から上位の文脈領域に或い
は上位の文脈領域から下位の文脈領域にそれぞれ保存さ
れた文脈情報を活用して、概念情報が記述されている領
域を決定しながら前記概念情報を抽出することとし、文
書構造の持つ階層性を解析して、キーワード間の関係を
表す構文的、意味的、文脈的および構造的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用して概念単位または属性単位の情報を条件とした
検索を行うこととしたので、段落や箇条書きに関する文
脈情報、箇条書きに関する構造情報、表に関する文脈・
構造情報、並びに、構文的・意味的情報等々、キーワー
ド間の関係を表す情報の欠落を防ぐと共に、文脈情報お
よび概念情報を有効に活用してより精度の高い情報検索
が可能な情報検索システム、情報検索システムにおける
情報処理方法および記録媒体を提供することができる。
【0250】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、文脈情報抽出装置
(文脈情報抽出ステップ)においては、形態素解析装置
(形態素解析ステップ)により自然言語文書中から形態
素を抜き出し、抜き出された各形態素(以下、着目要素
という)の意味素の条件と、着目要素が共起する共起要
素の条件と、着目要素および共起要素の付属要素の条件
と、共起要素の出現位置の条件と、対応する概念のカラ
ム(以下、対応カラムという)の情報を記述した情報抽
出知識を参照して、対応カラム決定装置(対応カラム決
定ステップ)により、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出すること
により、自然言語文書中の文から文脈情報を抽出して文
脈階層構造情報中に文脈情報を保存し、概念記述領域決
定型概念情報抽出装置(概念記述領域決定型概念情報抽
出ステップ)では、文脈階層構造情報および該文脈階層
構造情報の下位の文脈領域から上位の文脈領域に或いは
上位の文脈領域から下位の文脈領域にそれぞれ保存され
た文脈情報を活用して、概念情報が記述されている領域
を決定しながら前記概念情報を抽出することとし、文書
構造の持つ階層性を解析して、キーワード間の関係を表
す構文的、意味的、文脈的および構造的な各情報を含む
概念情報を抽出して登録し、キーワード間の関係情報を
活用して概念単位または属性単位の情報を条件とした検
索を行うこととしたので、段落や箇条書きに関する文脈
情報、箇条書きに関する構造情報、表に関する文脈・構
造情報、並びに、構文的・意味的情報等々、キーワード
間の関係を表す情報の欠落を防ぐと共に、文脈情報およ
び概念情報を有効に活用してより精度の高い情報検索を
実現でき、特に、共起要素を複数規定できたり、共起要
素の出現位置をより柔軟に記述できることで、動詞述語
文、形容詞述語文、名詞述語文、単語のみの文、名詞句
のみの文、体言止めの文等からの高い精度での文脈情報
の抽出が可能な情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供することがで
きる。
念抽出ステップ)において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置(文脈階層構造解析ステッ
プ)により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、文脈情報抽出装置
(文脈情報抽出ステップ)においては、形態素解析装置
(形態素解析ステップ)により自然言語文書中から形態
素を抜き出し、抜き出された各形態素(以下、着目要素
という)の意味素の条件と、着目要素が共起する共起要
素の条件と、着目要素および共起要素の付属要素の条件
と、共起要素の出現位置の条件と、対応する概念のカラ
ム(以下、対応カラムという)の情報を記述した情報抽
出知識を参照して、対応カラム決定装置(対応カラム決
定ステップ)により、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出すること
により、自然言語文書中の文から文脈情報を抽出して文
脈階層構造情報中に文脈情報を保存し、概念記述領域決
定型概念情報抽出装置(概念記述領域決定型概念情報抽
出ステップ)では、文脈階層構造情報および該文脈階層
構造情報の下位の文脈領域から上位の文脈領域に或いは
上位の文脈領域から下位の文脈領域にそれぞれ保存され
た文脈情報を活用して、概念情報が記述されている領域
を決定しながら前記概念情報を抽出することとし、文書
構造の持つ階層性を解析して、キーワード間の関係を表
す構文的、意味的、文脈的および構造的な各情報を含む
概念情報を抽出して登録し、キーワード間の関係情報を
活用して概念単位または属性単位の情報を条件とした検
索を行うこととしたので、段落や箇条書きに関する文脈
情報、箇条書きに関する構造情報、表に関する文脈・構
造情報、並びに、構文的・意味的情報等々、キーワード
間の関係を表す情報の欠落を防ぐと共に、文脈情報およ
び概念情報を有効に活用してより精度の高い情報検索を
実現でき、特に、共起要素を複数規定できたり、共起要
素の出現位置をより柔軟に記述できることで、動詞述語
文、形容詞述語文、名詞述語文、単語のみの文、名詞句
のみの文、体言止めの文等からの高い精度での文脈情報
の抽出が可能な情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供することがで
きる。
【0251】また、本発明によれば、情報抽出知識を、
着目要素の意味素の条件、共起要素の条件、付属要素の
条件および共起要素の出現位置の条件を、正規表現等の
パターン記述知識として記述して構築することとしたの
で、共起要素を複数規定できたり、共起要素の出現位置
をより柔軟に記述できることで、動詞述語文、形容詞述
語文、名詞述語文、単語のみの文、名詞句のみの文、体
言止めの文等からの概念情報または文脈情報の抽出をよ
り高い精度で行うことができ、該概念情報または文脈情
報を有効に活用して精度の高い情報検索が可能な情報検
索システム、情報検索システムにおける情報処理方法お
よび記録媒体を提供することができる。
着目要素の意味素の条件、共起要素の条件、付属要素の
条件および共起要素の出現位置の条件を、正規表現等の
パターン記述知識として記述して構築することとしたの
で、共起要素を複数規定できたり、共起要素の出現位置
をより柔軟に記述できることで、動詞述語文、形容詞述
語文、名詞述語文、単語のみの文、名詞句のみの文、体
言止めの文等からの概念情報または文脈情報の抽出をよ
り高い精度で行うことができ、該概念情報または文脈情
報を有効に活用して精度の高い情報検索が可能な情報検
索システム、情報検索システムにおける情報処理方法お
よび記録媒体を提供することができる。
【0252】また、本発明によれば、概念抽出装置(概
念抽出ステップ)において、情報抽出知識のある知識が
合致した場合に、該知識と共起しやすい知識を活性化さ
せ、共起しにくい知識は抑制化する知識間相関ルールを
参照するので、高い精度で対応カラムの決定が可能にな
り、結果として、高い精度の情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
念抽出ステップ)において、情報抽出知識のある知識が
合致した場合に、該知識と共起しやすい知識を活性化さ
せ、共起しにくい知識は抑制化する知識間相関ルールを
参照するので、高い精度で対応カラムの決定が可能にな
り、結果として、高い精度の情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。
【0253】また、本発明によれば、対応カラム決定装
置(対応カラム決定ステップ)において、対応度の算出
を各情報抽出知識毎に並列に、または対応カラムの決定
を各形態素毎に並列に処理するので、高速処理が可能な
情報検索システム、情報検索システムにおける情報処理
方法および記録媒体を提供することができる。
置(対応カラム決定ステップ)において、対応度の算出
を各情報抽出知識毎に並列に、または対応カラムの決定
を各形態素毎に並列に処理するので、高速処理が可能な
情報検索システム、情報検索システムにおける情報処理
方法および記録媒体を提供することができる。
【0254】また、本発明によれば、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて、前記必須
属性の抽出、複数の概念単位を含まないことのチェッ
ク、並びに、新規の情報を含んでいることのチェックを
行って概念情報の必要十分性をチェックするので、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて、前記必須
属性の抽出、複数の概念単位を含まないことのチェッ
ク、並びに、新規の情報を含んでいることのチェックを
行って概念情報の必要十分性をチェックするので、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。
【0255】また、本発明によれば、概念記述領域決定
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて抽出済みの
概念情報の重複を解消するので、概念単位の情報抽出の
精度が高められ、結果として高い精度の情報検索が可能
な情報検索システム、情報検索システムにおける情報処
理方法および記録媒体を提供することができる。
型概念情報抽出装置(概念記述領域決定型概念情報抽出
ステップ)において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて抽出済みの
概念情報の重複を解消するので、概念単位の情報抽出の
精度が高められ、結果として高い精度の情報検索が可能
な情報検索システム、情報検索システムにおける情報処
理方法および記録媒体を提供することができる。
【0256】さらに、本発明によれば、概念抽出装置に
おいて、形態素解析装置により自然言語文書中から形態
素を抜き出し、構文解析装置により構文を解析し、構文
要素からの概念作成装置により、構文解析装置の結果か
らガ格・ヲ格、主語・述語、係り・受け等の構文要素の
うち予め設定された構文要素を抽出して概念情報を作成
するので、意味素辞書を具備することなしに、構文解析
結果のみからキーワード間の関係を表す構文的な情報を
含む概念情報を抽出して登録し、キーワード間の関係情
報を活用した検索を行うので、キーワード間の関係を表
す情報、特に構文的情報の欠落を防ぐと共に、該概念情
報を有効に活用してより簡潔な構成で精度の高い情報検
索が可能な情報検索システム、情報検索システムにおけ
る情報処理方法および記録媒体を提供することができ
る。
おいて、形態素解析装置により自然言語文書中から形態
素を抜き出し、構文解析装置により構文を解析し、構文
要素からの概念作成装置により、構文解析装置の結果か
らガ格・ヲ格、主語・述語、係り・受け等の構文要素の
うち予め設定された構文要素を抽出して概念情報を作成
するので、意味素辞書を具備することなしに、構文解析
結果のみからキーワード間の関係を表す構文的な情報を
含む概念情報を抽出して登録し、キーワード間の関係情
報を活用した検索を行うので、キーワード間の関係を表
す情報、特に構文的情報の欠落を防ぐと共に、該概念情
報を有効に活用してより簡潔な構成で精度の高い情報検
索が可能な情報検索システム、情報検索システムにおけ
る情報処理方法および記録媒体を提供することができ
る。
【図1】本発明の一実施形態に係る情報検索システムの
構成図である。
構成図である。
【図2】実施形態のWWWページ検索システムにおける
情報登録処理の手順を説明するフローチャートである。
情報登録処理の手順を説明するフローチャートである。
【図3】実施形態のWWWページ検索システムにおける
情報検索処理の手順を説明するフローチャートである。
情報検索処理の手順を説明するフローチャートである。
【図4】自然言語文書を例示する説明図である。
【図5】自然言語文書から抽出した概念集合(テーブ
ル)を例示する説明図である。
ル)を例示する説明図である。
【図6】意味解析を用いた概念抽出装置のシステム構成
図である。
図である。
【図7】意味解析を用いた概念情報抽出処理を説明する
フローチャートである。
フローチャートである。
【図8】意味解析を用いた概念情報抽出処理における自
然言語文書(第1の具体例)を例示する説明図である。
然言語文書(第1の具体例)を例示する説明図である。
【図9】図8の自然言語文書からの抽出結果である概念
情報(製品テーブル)を例示する説明図である。
情報(製品テーブル)を例示する説明図である。
【図10】概念への対応情報を付加した動詞格フレーム
辞書を例示する説明図である。
辞書を例示する説明図である。
【図11】意味素辞書を例示する説明図である。
【図12】意味解析を用いた概念情報抽出処理における
自然言語文書(第2の具体例)を例示する説明図であ
る。
自然言語文書(第2の具体例)を例示する説明図であ
る。
【図13】図8の自然言語文書からの抽出結果である概
念情報(製品テーブル)を例示する説明図である。
念情報(製品テーブル)を例示する説明図である。
【図14】意味素間の相関関係を例示する説明図であ
る。
る。
【図15】実施形態における文脈・構造解析を用いた概
念情報抽出装置のシステム構成図である。
念情報抽出装置のシステム構成図である。
【図16】文脈・構造解析を用いた概念情報抽出処理を
説明するフローチャートである。
説明するフローチャートである。
【図17】図4の自然言語文書について文脈構造解析を
行った結果であり、自然言語文書と文脈領域との対応関
係を例示する説明図である。
行った結果であり、自然言語文書と文脈領域との対応関
係を例示する説明図である。
【図18】図4の自然言語文書について文脈構造解析を
行った結果であり、文脈階層構造を表す内部データ構造
を例示する説明図である。
行った結果であり、文脈階層構造を表す内部データ構造
を例示する説明図である。
【図19】図4の自然言語文書をHTMLで記述したと
きの自然言語文書を例示する説明図である。
きの自然言語文書を例示する説明図である。
【図20】文脈領域の抽出知識を例示する説明図であ
る。
る。
【図21】文脈階層構造の解析処理の手順を説明するフ
ローチャートである。
ローチャートである。
【図22】意味素のみを活用した形式の文脈情報抽出知
識を例示する説明図である。
識を例示する説明図である。
【図23】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
(その1)である。
・語順等を活用した文脈情報抽出知識を例示する説明図
(その1)である。
【図24】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
(その2)である。
・語順等を活用した文脈情報抽出知識を例示する説明図
(その2)である。
【図25】文脈情報抽出知識を活用して文脈情報を抽出
する処理手順を説明するフローチャートである。
する処理手順を説明するフローチャートである。
【図26】知識間相関ルールを例示する説明図である。
【図27】抽出カラム対応度テーブルを例示する説明図
である。
である。
【図28】処理途中の文脈情報の状態を例示する説明図
である。
である。
【図29】文脈情報抽出知識を活用して抽出された文脈
情報を例示する説明図である。
情報を例示する説明図である。
【図30】拡張された正規表現で記述した文脈情報抽出
知識を例示する説明図である。
知識を例示する説明図である。
【図31】概念記述領域決定と概念情報抽出の処理手順
を説明するフローチャートである。
を説明するフローチャートである。
【図32】抽出された概念情報候補を例示する説明図で
ある。
ある。
【図33】概念キー知識を例示する説明図である。
【図34】概念記述領域の候補領域としてノードND5
を仮定した場合に抽出される概念情報候補を例示する説
明図である。
を仮定した場合に抽出される概念情報候補を例示する説
明図である。
【図35】ノードND16のセルを候補領域とした場合
に抽出される概念情報候補を例示する説明図である。
に抽出される概念情報候補を例示する説明図である。
【図36】ノードND10の行を候補領域とした場合に
抽出される概念情報候補を例示する説明図である。
抽出される概念情報候補を例示する説明図である。
【図37】概念情報の重複解決処理前の段階での抽出済
み概念情報の状態を例示する説明図である。
み概念情報の状態を例示する説明図である。
【図38】重み付け処理を行った場合の概念情報転置イ
ンデックスを例示する説明図である。
ンデックスを例示する説明図である。
【図39】対応属性情報を保持した形式の概念情報転置
インデックスを例示する説明図である。
インデックスを例示する説明図である。
【図40】検索概念集合の一例(その1)を例示する説
明図である。
明図である。
【図41】検索概念集合の一例(その2)を例示する説
明図である。
明図である。
【図42】検索概念集合の一例(その3)を例示する説
明図である。
明図である。
【図43】検索概念集合の一例(その4)を例示する説
明図である。
明図である。
【図44】検索概念集合の一例(その5)を例示する説
明図である。
明図である。
【図45】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その1)である。
抽出知識を例示する説明図(その1)である。
【図46】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その2)である。
抽出知識を例示する説明図(その2)である。
【図47】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その3)である。
抽出知識を例示する説明図(その3)である。
【図48】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図(その4)である。
抽出知識を例示する説明図(その4)である。
【図49】従来例のWWWページ検索システムのシステ
ム構成を表す構成図である。
ム構成を表す構成図である。
【図50】従来例のWWWページ検索システムにおける
情報登録処理の一般的手順を説明するフローチャートで
ある。
情報登録処理の一般的手順を説明するフローチャートで
ある。
【図51】キーワードへの重み付け処理を行った場合の
転置インデックスを例示する説明図である。
転置インデックスを例示する説明図である。
【図52】図4の自然言語文書を情報登録した場合に抽
出されるキーワード集合を例示する説明図である。
出されるキーワード集合を例示する説明図である。
【図53】従来例のWWWページ検索システムにおける
情報検索処理の一般的手順を説明するフローチャートで
ある。
情報検索処理の一般的手順を説明するフローチャートで
ある。
101 概念抽出装置 102 概念登録装置 103 概念検索装置 104,4908 データベース 105 概念検索文解析装置 106,4909 CPU 107,4910 メインメモリ 108,4911 ディスプレイ 109,4912 キーボード 110,4913 自然言語文書群 111,4914 データバス 112,4915 インターネット 202,303,702,2502 自然言語文書 203 概念集合 205,5008 文書ID 305 概念検索文 306 検索概念集合 601 形態素解析装置 602 動詞抽出装置 603 格要素特定装置 604 格要素からの概念作成装置 605 動詞格フレーム辞書 606 意味素辞書 607 格要素・概念対応情報 703,2503 形態素 711,3115 概念情報 1501 文脈階層構造解析装置 1502 文脈情報抽出装置 1503 概念記述領域決定型概念情報抽出装置 AR1〜AR25 文脈領域 ND1〜ND25 ノード RA1.1〜RA6.2,RB1.1〜RB6.2
知識ID 2508 文脈情報抽出知識 2515,3104 文脈情報 3106 概念キー知識 3107 抽出済み概念情報 RC1.1〜RC7.6 知識ID 4901 キーワード抽出装置 4902 形態素解析装置 4903 ストップワード除去装置 4904 ステミング処理装置 4905 キーワードへの重み付け装置 4906 キーワード登録装置 4907 キーワード検索装置 4916 キーワード検索文解析装置 5002,5303 自然言語文書 5006 キーワード集合 5306 キーワード検索文 5308 検索キーワード集合
知識ID 2508 文脈情報抽出知識 2515,3104 文脈情報 3106 概念キー知識 3107 抽出済み概念情報 RC1.1〜RC7.6 知識ID 4901 キーワード抽出装置 4902 形態素解析装置 4903 ストップワード除去装置 4904 ステミング処理装置 4905 キーワードへの重み付け装置 4906 キーワード登録装置 4907 キーワード検索装置 4916 キーワード検索文解析装置 5002,5303 自然言語文書 5006 キーワード集合 5306 キーワード検索文 5308 検索キーワード集合
───────────────────────────────────────────────────── フロントページの続き (72)発明者 加茂 正充 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内
Claims (30)
- 【請求項1】 自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、 前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、 ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
装置と、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。 - 【請求項2】 自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、 前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、 ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索装置と、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。 - 【請求項3】 前記概念登録装置は、前記概念抽出装置
により抽出した概念情報を、前記自然言語文書の文書所
在情報との組による転置インデックス形式で、或いは、
前記文書所在情報および該文書中に前記概念情報のどの
属性が記述されていたかを表す対応属性情報との組によ
る転置インデックス形式で、前記データベースに登録す
ることを特徴とする請求項1または2に記載の情報検索
システム。 - 【請求項4】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、 前記意味素の表層的定義を行う意味素辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項1、2または3に記載の情
報検索システム。 - 【請求項5】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する表層格の情報を記述した動詞格フレーム
辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項1、2または3に記載
の情報検索システム。 - 【請求項6】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、 動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、 前記意味素の表層的定義を行う意味素辞書と、 前記動詞に対応する格要素を特定する格要素特定装置
と、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、 動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項1、2また
は3に記載の情報検索システム。 - 【請求項7】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 前記抜き出された各形態素(以下、着目要素という)の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム(以下、対応カラムという)の情報を記述した
情報抽出知識と、 前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定装置
と、を具備することを特徴とする請求項1、2または3
に記載の情報検索システム。 - 【請求項8】 前記概念抽出装置は、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、 意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を備えて、前記自然言語文書中の文から文脈
情報を抽出して、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出装置と、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項1、2ま
たは3に記載の情報検索システム。 - 【請求項9】 前記概念抽出装置は、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された各形態素(以下、着目要素とい
う)の意味素の条件と、前記着目要素が共起する共起要
素の条件と、前記着目要素および前記共起要素の付属要
素の条件と、前記共起要素の出現位置の条件と、対応す
る概念のカラム(以下、対応カラムという)の情報を記
述した情報抽出知識と、前記各対応カラムへの対応度を
算出して最も対応度の高い対応カラムに形態素を抽出す
る対応カラム決定装置と、を備えて前記自然言語文書中
の文から文脈情報を抽出して、前記文脈階層構造情報中
に文脈情報を保存する文脈情報抽出装置と、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項1、2ま
たは3に記載の情報検索システム。 - 【請求項10】 前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項7または9に記載の情報検索システム。 - 【請求項11】 前記概念抽出装置は、前記情報抽出知
識のある知識が合致した場合に、該知識と共起しやすい
知識を活性化させ、共起しにくい知識は抑制化する知識
間相関ルールを具備することを特徴とする請求項7、9
または10に記載の情報検索システム。 - 【請求項12】 前記対応カラム決定装置は、前記対応
度の算出を各情報抽出知識毎に並列に、または前記対応
カラムの決定を各形態素毎に並列に処理することを特徴
とする請求項7、9、10または11に記載の情報検索
システム。 - 【請求項13】 前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、 前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて、前記必須属性の抽出、複数の概念単
位を含まないことのチェック、並びに、新規の情報を含
んでいることのチェックを行って概念情報の必要十分性
をチェックすることを特徴とする請求項8、9、10、
11または12に記載の情報検索システム。 - 【請求項14】 前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、 前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて抽出済みの概念情報の重複を解消する
ことを特徴とする請求項8、9、10、11、12また
は13に記載の情報検索システム。 - 【請求項15】 前記概念抽出装置は、 前記自然言語文書中から形態素を抜き出す形態素解析装
置と、 構文を解析する構文解析装置と、 前記構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する構文要素からの概念作成
装置と、を具備し、 前記構文解析結果のみから概念情報を抽出することを特
徴とする請求項1、2または3に記載の情報検索システ
ム。 - 【請求項16】 自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、 前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、 ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
ステップと、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。 - 【請求項17】 自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、 前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、 ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索ステップと、を具備し、 前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。 - 【請求項18】 前記概念登録ステップは、前記概念抽
出ステップにより抽出した概念情報を、前記自然言語文
書の文書所在情報との組による転置インデックス形式
で、或いは、前記文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、前記データベ
ースに登録することを特徴とする請求項16または17
に記載の情報検索システムにおける情報処理方法。 - 【請求項19】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、前記意味素の表層的定義を行う意味素辞書とを
参照して、前記動詞に対応する格要素を特定する格要素
特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項16、17または18に記
載の情報検索システムにおける情報処理方法。 - 【請求項20】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する表層格の情報を記述した動詞格フレーム
辞書を参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項16、17または18
に記載の情報検索システムにおける情報処理方法。 - 【請求項21】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、 動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、前記意味素の表層的定義を行う
意味素辞書とを参照して、前記動詞に対応する格要素を
特定する格要素特定ステップと、 前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、 動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項16、17
または18に記載の情報検索システムにおける情報処理
方法。 - 【請求項22】 前記概念抽出ステップは、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、 前記抜き出された各形態素(以下、着目要素という)の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム(以下、対応カラムという)の情報を記述した
情報抽出知識を参照して、前記各対応カラムへの対応度
を算出して最も対応度の高い対応カラムに形態素を抽出
する対応カラム決定ステップと、を具備することを特徴
とする請求項16、17または18に記載の情報検索シ
ステムにおける情報処理方法。 - 【請求項23】 前記概念抽出ステップは、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、 意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を参照して、前記自然言語文書中の文から文
脈情報を抽出し、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出ステップと、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法。 - 【請求項24】 前記概念抽出ステップは、 前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、 前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された各形態素(以下、着目要素
という)の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム(以下、対応カラムという)の情報
を記述した情報抽出知識を参照して、前記各対応カラム
への対応度を算出して最も対応度の高い対応カラムに形
態素を抽出する対応カラム決定ステップと、を備えて前
記自然言語文書中の文から文脈情報を抽出して、前記文
脈階層構造情報中に文脈情報を保存する文脈情報抽出ス
テップと、 前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項1
6、17または18に記載の情報検索システムにおける
情報処理方法。 - 【請求項25】 前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項22または24に記載の情報検索システムにおけ
る情報処理方法。 - 【請求項26】 前記概念抽出ステップは、前記情報抽
出知識のある知識が合致した場合に、該知識と共起しや
すい知識を活性化させ、共起しにくい知識は抑制化する
知識間相関ルールを参照することを特徴とする請求項2
2、24または25に記載の情報検索システムにおける
情報処理方法。 - 【請求項27】 前記対応カラム決定ステップは、前記
対応度の算出を各情報抽出知識毎に並列に、または前記
対応カラムの決定を各形態素毎に並列に処理することを
特徴とする請求項22、24、25または26に記載の
情報検索システムにおける情報処理方法。 - 【請求項28】 前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて、前記必須属性の抽
出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックすることを特徴とする請
求項23、24、25、26または27に記載の情報検
索システムにおける情報処理方法。 - 【請求項29】 前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて抽出済みの概念情報
の重複を解消することを特徴とする請求項23、24、
25、26、27または28に記載の情報検索システム
における情報処理方法。 - 【請求項30】 請求項16、17、18、19、2
0、21、22、23、24、25、26、27、28
または29に記載の情報検索システムにおける情報処理
方法をコンピュータに実行させるためのプログラムとし
て記憶したコンピュータにより読み取り可能な記録媒
体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10073103A JPH11259524A (ja) | 1998-03-06 | 1998-03-06 | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10073103A JPH11259524A (ja) | 1998-03-06 | 1998-03-06 | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11259524A true JPH11259524A (ja) | 1999-09-24 |
| JPH11259524A5 JPH11259524A5 (ja) | 2004-07-08 |
Family
ID=13508652
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10073103A Pending JPH11259524A (ja) | 1998-03-06 | 1998-03-06 | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11259524A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001050343A1 (en) * | 2000-01-05 | 2001-07-12 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| JP2005250682A (ja) * | 2004-03-02 | 2005-09-15 | Oki Electric Ind Co Ltd | 情報抽出システム |
| JP2005267647A (ja) * | 2004-03-18 | 2005-09-29 | Microsoft Corp | 自然言語コマンドを使用してテーブルをレンダリングすること |
| US7395498B2 (en) | 2002-03-06 | 2008-07-01 | Fujitsu Limited | Apparatus and method for evaluating web pages |
| WO2008093569A1 (ja) * | 2007-01-29 | 2008-08-07 | Nec Corporation | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
| WO2009110550A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電気株式会社 | 属性抽出方法、システム及びプログラム |
| JP2011048558A (ja) * | 2009-08-26 | 2011-03-10 | Ntt Docomo Inc | タスクモデル生成装置およびタスクモデル生成方法 |
| CN116662514A (zh) * | 2023-06-15 | 2023-08-29 | 北京墨丘科技有限公司 | 一种文献检索方法、装置及电子设备 |
-
1998
- 1998-03-06 JP JP10073103A patent/JPH11259524A/ja active Pending
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001050343A1 (en) * | 2000-01-05 | 2001-07-12 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| US7191177B2 (en) | 2000-01-05 | 2007-03-13 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
| US7395498B2 (en) | 2002-03-06 | 2008-07-01 | Fujitsu Limited | Apparatus and method for evaluating web pages |
| JP2005250682A (ja) * | 2004-03-02 | 2005-09-15 | Oki Electric Ind Co Ltd | 情報抽出システム |
| JP2005267647A (ja) * | 2004-03-18 | 2005-09-29 | Microsoft Corp | 自然言語コマンドを使用してテーブルをレンダリングすること |
| US8380650B2 (en) | 2007-01-29 | 2013-02-19 | Nec Corporation | Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program |
| JP5040925B2 (ja) * | 2007-01-29 | 2012-10-03 | 日本電気株式会社 | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
| WO2008093569A1 (ja) * | 2007-01-29 | 2008-08-07 | Nec Corporation | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
| WO2009110550A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電気株式会社 | 属性抽出方法、システム及びプログラム |
| US8463738B2 (en) | 2008-03-06 | 2013-06-11 | Nec Corporation | Attribute extraction method, system, and program |
| JP5445787B2 (ja) * | 2008-03-06 | 2014-03-19 | 日本電気株式会社 | 属性抽出方法、システム及びプログラム |
| JP2011048558A (ja) * | 2009-08-26 | 2011-03-10 | Ntt Docomo Inc | タスクモデル生成装置およびタスクモデル生成方法 |
| CN116662514A (zh) * | 2023-06-15 | 2023-08-29 | 北京墨丘科技有限公司 | 一种文献检索方法、装置及电子设备 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Moldovan et al. | Using wordnet and lexical operators to improve internet searches | |
| US10296584B2 (en) | Semantic textual analysis | |
| US8977953B1 (en) | Customizing information by combining pair of annotations from at least two different documents | |
| CN100511233C (zh) | 特定元素、字符串向量生成及相似性计算的装置、方法 | |
| US6366908B1 (en) | Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method | |
| JPWO2003012679A1 (ja) | データ処理方法、データ処理システムおよびプログラム | |
| Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
| KR20020058639A (ko) | 엑스엠엘 문서 검색 시스템 및 그 방법 | |
| Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
| JP2011085986A (ja) | テキスト要約方法、その装置およびプログラム | |
| CN102214189A (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
| Yeasmin et al. | Study of abstractive text summarization techniques | |
| Weiss et al. | From textual information to numerical vectors | |
| Kerremans et al. | Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler | |
| Radoev et al. | A language adaptive method for question answering on French and English | |
| Sindhu et al. | Text summarization: a technical overview and research perspectives | |
| JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
| Yunus et al. | Semantic method for query translation. | |
| Yun et al. | Semantic‐based information retrieval for content management and security | |
| Kan et al. | Corpus-trained text generation for summarization | |
| Agarwal et al. | Automatic Extraction of Multiword Expressions in Bengali: An Approach for Miserly Resource Scenario | |
| Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
| JP2003085181A (ja) | 事典システム | |
| JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
| JP2000105769A (ja) | 文書表示方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061101 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061227 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070207 |