JPH11259524A

JPH11259524A - 情報検索システム、情報検索システムにおける情報処理方法および記録媒体

Info

Publication number: JPH11259524A
Application number: JP10073103A
Authority: JP
Inventors: Hidenori Yatake; 英紀八竹; Kazuto Kojiya; 和人糀谷; Shoji Kitagawa; 昇治北川; Masamitsu Kamo; 正充加茂
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1998-03-06
Filing date: 1998-03-06
Publication date: 1999-09-24

Abstract

(57)【要約】【課題】キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を可能とした情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供する。【解決手段】概念抽出装置１０１により、自然言語文
書中から抽出したキーワード情報および該キーワード間
の関係を表す情報に基づいて概念単位または属性単位に
情報を構造化した概念情報を抽出し、該抽出した概念情
報を概念登録装置１０２によってデータベース１０４に
登録し、概念検索装置１０３により、ユーザの検索要求
にしたがって登録された概念情報から必要な概念情報を
検索することとし、キーワード間の関係を表す構文的、
意味的、文脈的および構造的な各情報を含む概念情報を
抽出して登録し、キーワード間の関係情報を活用して概
念単位または属性単位の情報を条件とした検索を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索システ
ム、情報検索システムにおける情報処理方法および該方
法を実行させるためのプログラムを記録した記録媒体に
係り、特に、情報抽出の段階で、キーワードを抽出する
代わりに、構文解析、意味解析、文脈解析および構造解
析等を行ってキーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を可能とした情報検索システム、情報検索システム
における情報処理方法および記録媒体に関する。

【０００２】

【従来の技術】まず、従来の情報検索システムの一例
（以下、従来例という）として、「ＷＷＷページ検索シ
ステム」について説明する。なお、ＷＷＷページ検索シ
ステムに関しては、第１の文献『William B.Frakes, Re
cardo Baeza-Yates編; " Information Retrieval, Data
Structures & Algorithms", PRENTICE HALL, ISBN 0-1
3-463837-9』を参照されたい。

【０００３】図４９は、本従来例のＷＷＷページ検索シ
ステムのシステム構成を表す構成図である。また、図５
０には、本従来例のＷＷＷページ検索システムにおける
情報登録を行う際の処理手順を説明するフローチャート
を示す。

【０００４】本従来例のＷＷＷページ検索システムは、
インターネット４９１５につながる複数台のコンピュー
タ上に構築され、該複数台のコンピュータの外部記憶装
置上に分散して蓄積された自然言語を含む文書群４９１
３から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。このよう
なＷＷＷページ検索システムの製品としては、例えば
「マイクロソフト・インデックス・サーバ（Microsoft
Index Server）」等が存在するし、またサービスとして
は、「ヤフー（Yahoo(http://www.yahoo.com/)」等が存
在する。

【０００５】この種の情報検索システムにおいては、一
般的に、情報の登録および検索が行えるようになってい
て、情報検索は、ユーザがキーボード４９１２を介して
入力した検索文を元に、データベース４９０８に蓄積さ
れているインデックスを引くことによって行われ、検索
条件に該当する自然言語文書の所在情報（或いは文書そ
のもの）がディスプレイ４９１１上に表示される。ま
た、情報登録処理を起動する動作は、情報検索システム
によって様々なものが考えられるが、ここでは、例えば
次のようなものを提示しておく。第１に、ユーザが文書
の所在情報をキーボード４９１２を介して入力し情報登
録を行うもの、第２に、「エージェント」や「ロボッ
ト」と呼ばれる探索エンジンが、インターネットのＷＷ
Ｗのハイパーリンク上をユーザから指定された範囲で探
索しながら情報を自動登録するものである。

【０００６】これらの起動動作によって起動された情報
登録処理は、データベース４９０８上に検索文から文書
所在情報に変換できるようなデータを蓄積し、情報検索
に備える。なお、情報検索を行うユーザ（利用者）と情
報登録を行うユーザ（管理者）とを明確に分けて考える
情報検索システムも多い。

【０００７】次に、本従来例のＷＷＷページ検索システ
ムにおける情報登録処理の一般的手順を、図５０に示す
フローチャートを参照して説明する。まず、キーワード
抽出装置４９０１において、自然言語文書群４９１３か
らキーワードの抽出が行われる。

【０００８】まず最初に、ステップ５００１では、形態
素解析装置４９０２により、解析対象の自然言語文書５
００２を形態素に分解する。すなわち、自然言語文書５
００２は形態素（単語）の集合に変換される。この形態
素への分解作業は、英語においては、スペースやピリオ
ド等の幾つかの記号で区切られた文字列を抽出する処理
に等しい。また、日本語の形態素解析については、処理
は複雑であるが、一般的な手法として、例えば、第２の
文献『吉村、日高、吉田 ;”文節数最小法を用いたべた
書き日本語文の形態素解析”, 情報処理学会論文誌Vol.
24, No.1, pp.40-46(1983)』等に述べられているものが
ある。

【０００９】次のステップ５００３では、ストップワー
ド除去装置４９０３によるストップワード除去の処理に
よって、ステップ５００２で抽出された形態素の集合に
ついて、キーワードとして必要でない形態素が省かれ
る。ストップワードは、余りに一般的すぎてどの文書に
でも現れそうな単語等であり、例えば、英語の場合に
は、「is」，「the」，「have」，「go」等がストップワ
ードに該当し、日本語の場合でも助詞、助動詞、格助詞
等はストップワードとして除去される。なお、これらの
ストップワードは、一般的にはストップワードリストと
いう辞書に登録されている。

【００１０】次にステップ５００４では、ステミング処
理装置４９０４によって行われるステミング処理によ
り、ストップワード除去後の形態素集合が正規化され
る。つまり、活用形を標準形に正規化したり、表記上の
ゆれを正規化したりする。なお、このステミング処理は
省略されることもある。

【００１１】さらにステップ５００５では、キーワード
への重み付け装置４９０５によって行われるキーワード
への重み付け処理により、キーワードに対する重みが導
入される場合もある。つまり、このキーワードへの重み
付け処理も省略可能な処理ステップである。なお、重み
の求め方は種々あるが、一例を挙げれば、対象の自然言
語文書群４９１３において均一に出現するキーワードは
余り重要ではないとみなして、該キーワードの重みを下
げるなどの方法がある。

【００１２】以上のステップ５００１，５００３，５０
０４，５００５の処理によって、１つの自然言語文書５
００２はキーワード集合５００６に変換されることとな
る。ここで、キーワード集合とは、ステップ５００５の
キーワードへの重み付け処理を行わなかった場合には純
粋なキーワードの集合であり、重み付け処理を行った場
合にはキーワードと重みの数値による組の集合である。

【００１３】また、ここで求められたキーワード集合５
００６は、ステップ５００７で取得された文書の所在情
報（文書ＩＤ）５００８とセットにして、ステップ５０
０９において、データベース４９０８に登録される。こ
こで、文書ＩＤ５００８は、ＷＷＷの場合にはＵＲＬと
呼ばれる「http://…」といったアドレス情報が該当す
る。

【００１４】ステップ５００９のデータベース登録処理
は、キーワード登録装置４９０６によって行われる処理
であり、一般的には、図５１に示すような「転置インデ
ックス」などのデータ構造が作成されて、キーワードか
ら文書の所在情報が検索できるデータとして情報登録が
行われる。ここで、転置インデックスを用いた情報検索
については、第３の文献『長尾真編；”自然言語処
理”, 岩波書店, 1996, ISBN 4-00-010355-5, 第１１
章』に詳しく述べられている。また、図５１に示した転
置インデックスの具体例は、ステップ５００５によるキ
ーワードへの重み付け処理を行った場合の一例であり、
キーワード毎に各文書に対する重みを求めることができ
るデータ構造である。なお、重み処理を行わない場合に
は、図５１におけるキーワード毎の各文書に対する重み
数値が、「文書に含まれる」または「含まれない」を表
す２値のフラグになる。

【００１５】次に、本従来例のＷＷＷページ検索システ
ムにおける情報検索処理の一般的手順を、図５３に示す
フローチャートを参照して説明する。

【００１６】情報検索において、ユーザがキーボード４
９１２を介して入力する検索文には、主として２種類の
検索文があり、この検索文の種類によって処理が一部異
なる。１つは自然言語による検索文をそのまま入力する
場合で、例えば「日本の人口統計について教えてくださ
い。」などという文章を入力する。もう１つは、ある定
められた文法に基づいてキーワード検索文を入力する場
合で、例えば「＆」という文字を論理積を表す特殊記号
と定義して、複数のキーワードが共に含まれる文書のみ
を取り出すという文法が定められている情報検索システ
ムにおいて、「日本＆人口＆統計」などと入力すること
で、これら３つのキーワード「日本」，「人口」および
「統計」が共に含まれる文書を検索するといった処理と
なる。どちらの検索文が入力できるかについては、情報
検索システムに依存し、一方しか入力できないものもあ
れば、両方共入力可能で何れか一つを切り替えながら使
用するものもある。なお、該切り替え手法については、
ボタンを介してユーザが指定するなどの方法が一般的で
ある。また、図５３のフローチャートでは、ステップ５
３０１において、これらの検索文の種類を判定して処理
を分岐させるようになっている。

【００１７】ステップ５３０１の判定において、検索文
が自然言語検索文である場合には、情報登録処理（図５
０参照）と同様に、キーワード抽出装置４９０１によっ
てキーワードを抽出する。ただし、情報検索処理におい
てはキーワードへの重み付け装置４９０５は使用されな
い。

【００１８】まず、ステップ５３０２において、入力さ
れた自然言語検索文５３０３は形態素解析装置４９０２
によって形態素に分解される。分解された形態素の集合
は、ステップ５３０４において、ストップワード除去装
置４９０３によって不要な形態素が除去され、次にステ
ップ５３０７で、ステミング処理装置４９０４によって
正規化が行われる。なお、ステミング処理（ステップ５
３０７）は省略可能である。この段階で抽出されたキー
ワードの集合を、ここでは検索キーワード集合５３０８
と呼ぶ。

【００１９】またステップ５３０１の判定において、検
索文がキーワード検索文の場合には、ステップ５３０５
において、キーワード検索文解析装置４９１６により、
入力されたキーワード検索文５３０６が文法解析され
る。ここでの文法は情報検索システムに依存するが、一
般的には、論理積（ＡＮＤ）、論理和（ＯＲ）、否定
（ＮＯＴ）の演算や、優先順位付け（『（）』による階
層化）等を特殊記号（演算子）で表せる場合が多い。

【００２０】また、キーワード検索文の場合にも、自然
言語検索文の場合と同様に、次のステップ５３０７でス
テミング処理が行われて、検索キーワード集合５３０８
に変換される。この場合、検索キーワード集合５３０８
は、単なるキーワードの集合だけではなく上記演算子の
情報を保持している必要がある。なお、検索キーワード
集合５３０８を何らかの処理によって自動生成し、該検
索キーワード集合５３０８をを使用して検索を行うよう
な情報検索システムも、本従来例の情報検索システムと
同等のものとみなせる。この場合、キーワード検索文解
析装置４９１６は不要となる。

【００２１】以上のように、自然言語検索文やキーワー
ド検索文によって指定された検索内容は、一旦、検索キ
ーワード集合５３０８に変換された後、ステップ５３０
９において、キーワード検索装置４９０７により、該検
索キーワード集合５３０８を元にしたデータベース４９
０８を対象とした検索処理が行われる。そしてその結果
が、ステップ５３１０でディスプレイ４９１１上に表示
されることになる。

【００２２】情報検索処理の内容は、上記演算子として
何を許すかや、自然言語検索文５３０３から抽出した単
なるキーワードの集合をどのように検索に用いるかによ
って様々であり、情報検索システムに依存する。例え
ば、単なるキーワードの集合は全て論理積（ＡＮＤ）で
つないだものと同じと考えるとか、１つでも多くのキー
ワードを含む文書の検索点数を高くするとか、といった
処理のバリエーションがある。一般的には、図５１の転
置インデックスを用いて、キーワードがどの文書に含ま
れていたかをチェックする処理が含まれることになる
（上記第３の文献第１１章を参照）。情報検索処理の一
例として、例えば、図５１の転置インデックスに対して
「キーワード１キーワード２」と指定され、演算子が
特に指定されていない場合には、それぞれの文書のキー
ワードに対する重みを足しあわせてキーワード数で割
り、文書１は (0.2+0)÷2＝0.1、文書２は (0.5+0.3)÷
2＝0.4、文書３は (0.6+0.1)÷2＝0.35 などとして、検
索値（適合度）を求める手法もある。この場合、文書２
が上記検索文に最も適合しているということになる。

【００２３】

【発明が解決しようとする課題】以上説明したように、
従来例のＷＷＷページ検索システムにおいては、登録す
べき文書から、キーワードを抽出する技術をベースとし
て、キーワードから文書所在や適合度を求めることがで
きる索引（インデックス）をデータベースに作成し、そ
れを用いた検索を可能にしている。これは「テキストが
表現している内容をキーワードの集合という形で近似的
に表現できる」という考え方が背景になっている。しか
しながら、このような従来の情報検索技術においては、
キーワード集合による近似的表現とすることで、キーワ
ード間の関係を表す構文的、意味的、文脈的および構造
的な各情報が無視されることとなって、情報検索の精度
が低下するという問題点がある。以下、この問題につい
て具体例を挙げて説明する。

【００２４】例えば、自然言語文書の一例として図４に
示されるような「オムロン製品情報」に関する文書が与
えられたとする。この文書を上記従来技術（図５０のフ
ローチャート）で情報登録すると、図５２に示されるよ
うなキーワード集合が得られ、図４の文書は図５２のキ
ーワード集合として近似的に表現されることになる。し
かしながら、このキーワード集合では、既に、以下に示
すような情報が欠落している。

【００２５】第１に「段落に関する文脈情報の欠落」で
ある。図４の文書において「オムロン製品情報」という
のは文書全体のタイトルであって、以下に続く文書内容
はすべてオムロンの製品についての情報であるという文
脈を与えるが、図５２のキーワード集合ではその文脈が
わからない。

【００２６】第２に「箇条書きに関する文脈情報の欠
落」である。図４の文書においては、(a), (b), (c) と
いった箇条書きがあって、「血圧計」，「体温計」およ
び「低周波治療器」というキーワードがそれぞれの箇条
書きの見出し語になっている。これは、これらの箇条書
きの各項目に、それぞれ「血圧計」、「体温計」および
「低周波治療器」のことが述べられているという文脈を
与えるが、図５２のキーワード集合ではその文脈がわか
らない。

【００２７】第３に「箇条書きに関する構造情報の欠
落」である。図４の文書においては、(a) の項目のさら
なる下位構造として、記号「●」で示された箇条書きの
項目が２つ存在することで、それら２つは独立した２つ
の製品について述べているということがわかるが、図４
のキーワード集合ではその単位がわからなくなってい
る。

【００２８】第４に「表に関する文脈・構造情報の欠
落」である。 (1.4.4)図３において、(a)の血圧計の医
療用具承認番号は表で示され、各列に見出し語が付いて
いることで、それぞれの型式の製品に対する医療用具承
認番号を正しく把握できるが、図４においてはそれがわ
からなくなっている。

【００２９】第５に「構文的・意味的情報の欠落」であ
る。図４の文書においては、各製品の発売情報が自然言
語文で表現されているため、構文的・意味的情報によ
り、それぞれの単語や文がどの製品について述べたもの
であるのかがわかるが、図４のキーワード集合ではそれ
が曖昧になってしまっている。

【００３０】以上の第１から第５までに示したような情
報欠落、すなわち、構文的、意味的、文脈的および構造
的な各情報が欠落しているため、ユーザの意図を正しく
把握した検索結果を得ることは難しい。

【００３１】例えば、「12,500円の体温計について知り
たい」という意図の検索文として、「12,500円＆体温
計」という検索文を与えた場合、図４の文書には12,500
円の体温計の情報は存在しないにも関わらず、図５２の
キーワード集合にはこの２つのキーワードが両方とも含
まれるため、図４の自然言語文書を当該検索に適合させ
てしまうことになる。

【００３２】本発明は、このような従来の問題点に着目
してなされたもので、その目的とするところは、情報抽
出の段階で、キーワードを抽出する代わりに、構文解
析、意味解析、文脈解析および構造解析等を行ってキー
ワード間の関係を表す構文的、意味的、文脈的および構
造的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索を可能とした情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することにある。

【００３３】

【課題を解決するための手段】上記課題を解決するため
に、本出願の請求項１に記載の発明は、自然言語文書中
から抽出したキーワード情報および該キーワード間の関
係を表す情報に基づいて、概念単位または属性単位に前
記情報を構造化した概念情報を抽出する概念抽出装置
と、前記概念抽出装置により抽出した概念情報をデータ
ベースに登録する概念登録装置と、ユーザの検索要求に
したがって前記データベースに登録された概念情報から
必要な概念情報を検索する概念検索装置とを具備し、前
記キーワード間の関係情報を活用して前記概念単位また
は前記属性単位の情報を条件とした検索を行うことにあ
る。

【００３４】また、本出願の請求項２に記載の発明は、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に前記情報を構造化した概念情報を抽出する
概念抽出装置と、前記概念抽出装置により抽出した概念
情報をデータベースに登録する概念登録装置と、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に前記情報を構造化した検索概念
情報を抽出し、該抽出した検索概念情報にしたがって前
記データベースに登録された概念情報から必要な概念情
報を検索する概念検索装置とを具備し、前記キーワード
間の関係情報を活用して前記概念単位または前記属性単
位の情報を条件とした検索を行うことにある。

【００３５】また、本出願の請求項３に記載の発明は、
前記概念登録装置が、前記概念抽出装置により抽出した
概念情報を、前記自然言語文書の文書所在情報との組に
よる転置インデックス形式で、或いは、前記文書所在情
報および該文書中に前記概念情報のどの属性が記述され
ていたかを表す対応属性情報との組による転置インデッ
クス形式で、前記データベースに登録することを特徴と
する請求項１または２に記載の情報検索システムにあ
る。

【００３６】また、本出願の請求項４に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報を記述した動詞格フレーム辞書と、前
記意味素の表層的定義を行う意味素辞書と、前記動詞に
対応する格要素を特定する格要素特定装置と、前記格要
素と概念との対応情報に基づいて概念情報を作成する格
要素からの概念作成装置とを具備し、動詞が依存する意
味素の情報を活用して概念情報を抽出することを特徴と
する請求項１、２または３に記載の情報検索システムに
ある。

【００３７】また、本出願の請求項５に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する表層格の情報を記述した動詞格フレーム辞書と、前
記動詞に対応する格要素を特定する格要素特定装置と、
前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置とを具備し、動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことを特徴とする請求項１、２または３に記載の情報検
索システムにある。

【００３８】また、本出願の請求項６に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された形態素中
の動詞成分のみを抽出する動詞抽出装置と、動詞が依存
する意味素の情報と表層格の情報を記述した動詞格フレ
ーム辞書と、前記意味素の表層的定義を行う意味素辞書
と、前記動詞に対応する格要素を特定する格要素特定装
置と、前記格要素と概念との対応情報に基づいて概念情
報を作成する格要素からの概念作成装置とを具備し、動
詞が依存する意味素の情報と表層格の情報を活用して概
念情報を抽出することを特徴とする請求項１、２または
３に記載の情報検索システムにある。

【００３９】また、本出願の請求項７に記載の発明は、
前記概念抽出装置が、前記自然言語文書中から形態素を
抜き出す形態素解析装置と、前記抜き出された各形態素
（以下、着目要素という）の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム（以下、対応カラ
ムという）の情報を記述した情報抽出知識と、前記各対
応カラムへの対応度を算出して最も対応度の高い対応カ
ラムに形態素を抽出する対応カラム決定装置とを具備す
ることを特徴とする請求項１、２または３に記載の情報
検索システムにある。

【００４０】また、本出願の請求項８に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、意味素と対応する概念のカラムの情報を記述した文
脈情報抽出知識を備えて、前記自然言語文書中の文から
文脈情報を抽出して、前記文脈階層構造情報中に文脈情
報を保存する文脈情報抽出装置と、前記文脈階層構造情
報および該文脈階層構造情報の下位の文脈領域から上位
の文脈領域に或いは上位の文脈領域から下位の文脈領域
にそれぞれ保存された文脈情報を活用して、概念情報が
記述されている領域を決定しながら前記概念情報を抽出
する概念記述領域決定型概念情報抽出装置とを具備する
ことを特徴とする請求項１、２または３に記載の情報検
索システムにある。

【００４１】また、本出願の請求項９に記載の発明は、
前記概念抽出装置が、前記自然言語文書を階層化された
文脈領域としてとらえ、各分脈領域についての開始ポイ
ントの条件、終了ポイントの条件および下位となる文脈
領域の候補について記述した文脈領域抽出知識を備え
て、前記自然言語文書の文書構造が持つ階層性を解析し
て文脈階層構造情報を作成する文脈階層構造解析装置
と、前記自然言語文書中から形態素を抜き出す形態素解
析装置と、前記抜き出された各形態素（以下、着目要素
という）の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム（以下、対応カラムという）の情報
を記述した情報抽出知識と、前記各対応カラムへの対応
度を算出して最も対応度の高い対応カラムに形態素を抽
出する対応カラム決定装置と、を備えて前記自然言語文
書中の文から文脈情報を抽出して、前記文脈階層構造情
報中に文脈情報を保存する文脈情報抽出装置と、前記文
脈階層構造情報および該文脈階層構造情報の下位の文脈
領域から上位の文脈領域に或いは上位の文脈領域から下
位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出装
置とを具備することを特徴とする請求項１、２または３
に記載の情報検索システムにある。

【００４２】また、本出願の請求項１０に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項７ま
たは９に記載の情報検索システムにある。

【００４３】また、本出願の請求項１１に記載の発明
は、前記概念抽出装置が、前記情報抽出知識のある知識
が合致した場合に、該知識と共起しやすい知識を活性化
させ、共起しにくい知識は抑制化する知識間相関ルール
を具備することを特徴とする請求項７、９または１０に
記載の情報検索システムにある。

【００４４】また、本出願の請求項１２に記載の発明
は、前記対応カラム決定装置が、前記対応度の算出を各
情報抽出知識毎に並列に、または前記対応カラムの決定
を各形態素毎に並列に処理することを特徴とする請求項
７、９、１０または１１に記載の情報検索システムにあ
る。

【００４５】また、本出願の請求項１３に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて、前記必須属性の抽出、複数の概念単位を
含まないことのチェック、並びに、新規の情報を含んで
いることのチェックを行って概念情報の必要十分性をチ
ェックすることを特徴とする請求項８、９、１０、１１
または１２に記載の情報検索システムにある。

【００４６】また、本出願の請求項１４に記載の発明
は、前記概念抽出装置が、抽出すべき概念を特徴づける
概念の必須属性を記述した概念知識キーを具備し、前記
概念記述領域決定型概念情報抽出装置が、概念記述領域
を決定しながら概念情報を抽出する際に、前記概念キー
知識を用いて抽出済みの概念情報の重複を解消すること
を特徴とする請求項８、９、１０、１１、１２または１
３に記載の情報検索システムにある。

【００４７】また、本出願の請求項１５に記載の発明
は、前記概念抽出装置が、前記自然言語文書中から形態
素を抜き出す形態素解析装置と、構文を解析する構文解
析装置と、前記構文解析装置の結果からガ格・ヲ格、主
語・述語、係り・受け等の構文要素のうち予め設定され
た構文要素を抽出して概念情報を作成する構文要素から
の概念作成装置とを具備し、前記構文解析結果のみから
概念情報を抽出することを特徴とする請求項１、２また
は３に記載の情報検索システムにある。

【００４８】また、本出願の請求項１６に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザの検索要求にしたがって前記データベ
ースに登録された概念情報から必要な概念情報を検索す
る概念検索ステップとを具備し、前記キーワード間の関
係情報を活用して前記概念単位または前記属性単位の情
報を条件とした検索を行うことを特徴とする情報検索シ
ステムにおける情報処理方法にある。

【００４９】また、本出願の請求項１７に記載の発明
は、自然言語文書中から抽出したキーワード情報および
該キーワード間の関係を表す情報に基づいて、概念単位
または属性単位に前記情報を構造化した概念情報を抽出
する概念抽出ステップと、前記概念抽出ステップにより
抽出した概念情報をデータベースに登録する概念登録ス
テップと、ユーザが与える自然言語検索文中から抽出し
たキーワード情報および該キーワード間の関係を表す情
報に基づいて、概念単位または属性単位に前記情報を構
造化した検索概念情報を抽出し、該抽出した検索概念情
報にしたがって前記データベースに登録された概念情報
から必要な概念情報を検索する概念検索ステップとを具
備し、前記キーワード間の関係情報を活用して前記概念
単位または前記属性単位の情報を条件とした検索を行う
ことを特徴とする情報検索システムにおける情報処理方
法にある。

【００５０】また、本出願の請求項１８に記載の発明
は、前記概念登録ステップが、前記概念抽出ステップに
より抽出した概念情報を、前記自然言語文書の文書所在
情報との組による転置インデックス形式で、或いは、前
記文書所在情報および該文書中に前記概念情報のどの属
性が記述されていたかを表す対応属性情報との組による
転置インデックス形式で、前記データベースに登録する
ことを特徴とする請求項１６または１７に記載の情報検
索システムにおける情報処理方法にある。

【００５１】また、本出願の請求項１９に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報を記述した動詞格フ
レーム辞書と、前記意味素の表層的定義を行う意味素辞
書とを参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、前記格要素と概念との対応情報
に基づいて概念情報を作成する格要素からの概念作成ス
テップとを具備し、動詞が依存する意味素の情報を活用
して概念情報を抽出することを特徴とする請求項１６、
１７または１８に記載の情報検索システムにおける情報
処理方法にある。

【００５２】また、本出願の請求項２０に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する表層格の情報を記述した動詞格フ
レーム辞書を参照して、前記動詞に対応する格要素を特
定する格要素特定ステップと、前記格要素と概念との対
応情報に基づいて概念情報を作成する格要素からの概念
作成ステップとを具備し、動詞が依存する表層格要素の
情報を活用して概念情報を抽出することを特徴とする請
求項１６、１７または１８に記載の情報検索システムに
おける情報処理方法にある。

【００５３】また、本出願の請求項２１に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた形態素中の動詞成分のみを抽出する動詞抽出ステッ
プと、動詞が依存する意味素の情報と表層格の情報を記
述した動詞格フレーム辞書と、前記意味素の表層的定義
を行う意味素辞書とを参照して、前記動詞に対応する格
要素を特定する格要素特定ステップと、前記格要素と概
念との対応情報に基づいて概念情報を作成する格要素か
らの概念作成ステップとを具備し、動詞が依存する意味
素の情報と表層格の情報を活用して概念情報を抽出する
ことを特徴とする請求項１６、１７または１８に記載の
情報検索システムにおける情報処理方法にある。

【００５４】また、本出願の請求項２２に記載の発明
は、前記概念抽出ステップが、前記自然言語文書中から
形態素を抜き出す形態素解析ステップと、前記抜き出さ
れた各形態素（以下、着目要素という）の意味素の条件
と、前記着目要素が共起する共起要素の条件と、前記着
目要素および前記共起要素の付属要素の条件と、前記共
起要素の出現位置の条件と、対応する概念のカラム（以
下、対応カラムという）の情報を記述した情報抽出知識
を参照して、前記各対応カラムへの対応度を算出して最
も対応度の高い対応カラムに形態素を抽出する対応カラ
ム決定ステップとを具備することを特徴とする請求項１
６、１７または１８に記載の情報検索システムにおける
情報処理方法にある。

【００５５】また、本出願の請求項２３に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、意味素と対応する概念のカラムの情報を
記述した文脈情報抽出知識を参照して、前記自然言語文
書中の文から文脈情報を抽出し、前記文脈階層構造情報
中に文脈情報を保存する文脈情報抽出ステップと、前記
文脈階層構造情報および該文脈階層構造情報の下位の文
脈領域から上位の文脈領域に或いは上位の文脈領域から
下位の文脈領域にそれぞれ保存された文脈情報を活用し
て、概念情報が記述されている領域を決定しながら前記
概念情報を抽出する概念記述領域決定型概念情報抽出ス
テップとを具備することを特徴とする請求項１６、１７
または１８に記載の情報検索システムにおける情報処理
方法にある。

【００５６】また、本出願の請求項２４に記載の発明
は、前記概念抽出ステップが、前記自然言語文書を階層
化された文脈領域としてとらえ、各分脈領域についての
開始ポイントの条件、終了ポイントの条件および下位と
なる文脈領域の候補について記述した文脈領域抽出知識
を参照して、前記自然言語文書の文書構造が持つ階層性
を解析して文脈階層構造情報を作成する文脈階層構造解
析ステップと、前記自然言語文書中から形態素を抜き出
す形態素解析ステップと、前記抜き出された各形態素
（以下、着目要素という）の意味素の条件と、前記着目
要素が共起する共起要素の条件と、前記着目要素および
前記共起要素の付属要素の条件と、前記共起要素の出現
位置の条件と、対応する概念のカラム（以下、対応カラ
ムという）の情報を記述した情報抽出知識を参照して、
前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定ステッ
プとを備えて前記自然言語文書中の文から文脈情報を抽
出して、前記文脈階層構造情報中に文脈情報を保存する
文脈情報抽出ステップと、前記文脈階層構造情報および
該文脈階層構造情報の下位の文脈領域から上位の文脈領
域に或いは上位の文脈領域から下位の文脈領域にそれぞ
れ保存された文脈情報を活用して、概念情報が記述され
ている領域を決定しながら前記概念情報を抽出する概念
記述領域決定型概念情報抽出ステップとを具備すること
を特徴とする請求項１６、１７または１８に記載の情報
検索システムにおける情報処理方法にある。

【００５７】また、本出願の請求項２５に記載の発明
は、前記情報抽出知識が、前記着目要素の意味素の条
件、前記共起要素の条件、前記付属要素の条件および前
記共起要素の出現位置の条件を、正規表現等のパターン
記述知識として記述されることを特徴とする請求項２２
または２４に記載の情報検索システムにおける情報処理
方法にある。

【００５８】また、本出願の請求項２６に記載の発明
は、前記概念抽出ステップが、前記情報抽出知識のある
知識が合致した場合に、該知識と共起しやすい知識を活
性化させ、共起しにくい知識は抑制化する知識間相関ル
ールを参照することを特徴とする請求項２２、２４また
は２５に記載の情報検索システムにおける情報処理方法
にある。

【００５９】また、本出願の請求項２７に記載の発明
は、前記対応カラム決定ステップが、前記対応度の算出
を各情報抽出知識毎に並列に、または前記対応カラムの
決定を各形態素毎に並列に処理することを特徴とする請
求項２２、２４、２５または２６に記載の情報検索シス
テムにおける情報処理方法にある。

【００６０】また、本出願の請求項２８に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて、前記必須属性の抽出、複数の概
念単位を含まないことのチェック、並びに、新規の情報
を含んでいることのチェックを行って概念情報の必要十
分性をチェックすることを特徴とする請求項２３、２
４、２５、２６または２７に記載の情報検索システムに
おける情報処理方法にある。

【００６１】また、本出願の請求項２９に記載の発明
は、前記概念記述領域決定型概念情報抽出ステップが、
概念記述領域を決定しながら概念情報を抽出する際に、
抽出すべき概念を特徴づける概念の必須属性を記述した
概念キー知識を用いて抽出済みの概念情報の重複を解消
することを特徴とする請求項２３、２４、２５、２６、
２７または２８に記載の情報検索システムにおける情報
処理方法にある。

【００６２】さらに、本出願の請求項３０に記載の発明
は、請求項１６、１７、１８、１９、２０、２１、２
２、２３、２４、２５、２６、２７、２８または２９に
記載の情報検索システムにおける情報処理方法をコンピ
ュータに実行させるためのプログラムとして記憶したコ
ンピュータにより読み取り可能な記録媒体にある。

【００６３】そして、この請求項１、請求項１６または
請求項３０に記載の発明によれば、概念抽出装置（概念
抽出ステップ）により、自然言語文書中から抽出したキ
ーワード情報および該キーワード間の関係を表す情報に
基づいて、概念単位または属性単位に情報を構造化した
概念情報を抽出し、該抽出した概念情報を概念登録装置
（概念登録ステップ）によってデータベースに登録し、
概念検索装置（概念検索ステップ）により、ユーザの検
索要求にしたがってデータベースに登録された概念情報
から必要な概念情報を検索する。

【００６４】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、キーワード間の関係情報を活用
して概念単位または属性単位の情報を条件とした検索を
行うので、キーワード間の関係を表す情報の欠落を防ぐ
と共に、該概念情報を有効に活用して精度の高い情報検
索を実現できる。

【００６５】また、請求項２、請求項１７または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）により、自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置（概念
登録ステップ）によってデータベースに登録し、概念検
索装置（概念検索ステップ）により、ユーザが与える自
然言語検索文中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した検索概念情報を抽出し、
該抽出した検索概念情報にしたがってデータベースに登
録された概念情報から必要な概念情報を検索する。

【００６６】このように、キーワード間の関係を表す構
文的、意味的、文脈的および構造的な各情報を含む概念
情報を抽出して登録し、また自然言語検索文についても
検索概念情報を抽出して、キーワード間の関係情報を活
用して概念単位または属性単位の情報を条件とした検索
を行うので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索を実現できる。

【００６７】また、請求項３、請求項１８または請求項
３０に記載の発明によれば、概念登録装置（概念登録ス
テップ）において、抽出した概念情報を、自然言語文書
の文書所在情報との組による転置インデックス形式で、
或いは、文書所在情報および該文書中に前記概念情報の
どの属性が記述されていたかを表す対応属性情報との組
による転置インデックス形式で、データベースに登録す
る。

【００６８】これにより、上記概念情報に基づく精度の
高い検索に加えて、概念情報を出力結果とするだけでは
なく元の文書の情報をも活用できるので、検索結果とし
て出力し得る情報量を増やすことができ、また、概念情
報の一部である属性情報がどの文書に記述されていたか
を特定できるので、適切な文書のみを検索結果として提
示することが可能となる。

【００６９】また特に、概念情報をリレーショナルデー
タベースのレコードで表現することとすれば、概念情報
の格納に公知のリレーショナルデータベースを流用し、
周知のリレーショナルデータベースの高速検索技術（イ
ンデックス等）を活用して高速検索を可能にしたり、Ｓ
ＱＬや、ＧＵＩを用いたリレーショナルデータベースの
データ編集ツールを用いて、抽出した概念情報をメンテ
ナンスすることを容易にすることも可能である。

【００７０】また、複数種類の概念情報を複数のテーブ
ルとして表現し、情報抽出知識の対象カラム（対応カラ
ム、抽出カラム、対象カラム等）の記述に、カラム名の
みではなくテーブル名をも記述することで、複数種類の
概念情報を同時に抽出することが可能になる。

【００７１】さらに、同時に抽出した複数の概念情報の
リレーションのためのキーとなるカラムを設定すること
によって、リレーショナルデータベースにおけるテーブ
ルジョインを可能とし、複数の概念情報にわたる複雑な
検索要求を受け付けることが可能になる。

【００７２】また、請求項４、請求項１９または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、形態素解析装置（形態素解析ステッ
プ）により自然言語文書中から形態素を抜き出し、動詞
抽出装置（動詞抽出ステップ）により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置（格要素
特定ステップ）により、動詞が依存する意味素の情報を
記述した動詞格フレーム辞書と意味素の表層的定義を行
う意味素辞書とを参照して、動詞に対応する格要素を特
定し、格要素からの概念作成装置（格要素からの概念作
成ステップ）により、格要素と概念との対応情報に基づ
いて概念情報を作成する。

【００７３】このように、動詞が依存する意味素の情報
を活用して、キーワード間の関係を表す構文的および意
味的な各情報を含む概念情報を抽出して登録し、キーワ
ード間の関係情報を活用した検索を行うので、キーワー
ド間の関係を表す情報、特に構文的・意味的情報の欠落
を防ぐと共に、該概念情報を有効に活用して精度の高い
情報検索を実現できる。

【００７４】また、請求項５、請求項２０または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、形態素解析装置（形態素解析ステッ
プ）により自然言語文書中から形態素を抜き出し、動詞
抽出装置（動詞抽出ステップ）により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置（格要素
特定ステップ）により、動詞が依存する表層格の情報を
記述した動詞格フレーム辞書を参照して動詞に対応する
格要素を特定し、格要素からの概念作成装置（格要素か
らの概念作成ステップ）により、格要素と概念との対応
情報に基づいて概念情報を作成する。

【００７５】このように、動詞が依存する表層格要素の
情報を活用して意味素辞書を具備することなしに、キー
ワード間の関係を表す構文的および意味的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用した検索を行うので、キーワード間の関係を表す
情報、特に構文的・意味的情報の欠落を防ぐと共に、該
概念情報を有効に活用してより簡潔な構成で精度の高い
情報検索を実現できる。

【００７６】また、請求項６、請求項２１または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、形態素解析装置（形態素解析ステッ
プ）により自然言語文書中から形態素を抜き出し、動詞
抽出装置（動詞抽出ステップ）により抜き出された形態
素中の動詞成分のみを抽出し、格要素特定装置（格要素
特定ステップ）により、動詞が依存する意味素の情報と
表層格の情報を記述した動詞格フレーム辞書と意味素の
表層的定義を行う意味素辞書とを参照して、動詞に対応
する格要素を特定し、格要素からの概念作成装置（格要
素からの概念作成ステップ）により、格要素と概念との
対応情報に基づいて概念情報を作成する。

【００７７】このように、動詞が依存する意味素の情報
と表層格の情報を活用して、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録するので、表層格を表す格助詞が省略された文の場
合や、同一の意味素が複数含まれる文の場合等にも格要
素を特定することが可能となり、またキーワード間の関
係情報を活用した検索を行うので、キーワード間の関係
を表す情報、特に構文的・意味的情報の欠落を防ぐと共
に、該概念情報を有効に活用して精度の高い情報検索を
実現できる。

【００７８】また、請求項７、請求項２２または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、形態素解析装置（形態素解析ステッ
プ）により自然言語文書中から形態素を抜き出し、抜き
出された各形態素（以下、着目要素という）の意味素の
条件と、着目要素が共起する共起要素の条件と、着目要
素および共起要素の付属要素の条件と、共起要素の出現
位置の条件と、対応する概念のカラム（以下、対応カラ
ムという）の情報を記述した情報抽出知識を参照して、
対応カラム決定装置（対応カラム決定ステップ）によ
り、各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する。

【００７９】これにより、動詞述語文、形容詞述語文、
名詞述語文、単語のみの文、名詞句のみの文、体言止め
の文等からの概念情報の抽出を行うことができ、該概念
情報を有効に活用して精度の高い情報検索を実現でき
る。

【００８０】特に、情報抽出知識内の情報登録の際に使
用する知識と情報検索の際に使用する知識とを同一の書
式で作成し、登録・検索の意図情報を付加して情報抽出
知識を構築し、対応カラム決定装置（対応カラム決定ス
テップ）におけるカラムへの対応度を求める処理の際
に、登録対応度と検索対応度を別々に集計できるように
すれば、登録・検索時の処理や知識を同等に扱うことが
できる。

【００８１】また特に、対応カラム決定装置（対応カラ
ム決定ステップ）において、対応カラムへの対応度を求
めるために各対応カラムの対応度の初期値を決め、情報
抽出知識の一要素に合致する度に対応度を一定量ずつ加
算していき、最終的に最も対応度の大きい対応カラムに
形態素を抽出することを決定するようにすれば、情報抽
出知識中に加算する対応度のデータを保持する必要がな
く、記憶領域を節約できる。

【００８２】さらに、情報抽出知識中に各知識の確信度
（あるいは重要度）の情報を持ち、対応カラム決定装置
（対応カラム決定ステップ）において、対応カラムへの
対応度を求めるために、各対応カラムの対応度の初期値
を決め、情報抽出知識の一要素に合致する度にその知識
の確信度を対応度に加算していき、最終的に最も対応度
の大きい対応カラムに形態素を抽出するようにすれば、
各情報抽出知識に重み付けをすることができることによ
り、抽出精度および検索精度を高めることができ、また
確信度の変更による知識のチューニングを容易に行うこ
とができる。

【００８３】また、請求項８、請求項２３または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置（文脈階層構造解析ステップ）によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、意味素と対応する概念のカラ
ムの情報を記述した文脈情報抽出知識を参照して、文脈
情報抽出装置（文脈情報抽出ステップ）により、自然言
語文書中の文から文脈情報を抽出して文脈階層構造情報
中に該文脈情報を保存し、概念記述領域決定型概念情報
抽出装置（概念記述領域決定型概念情報抽出ステップ）
では、前記文脈階層構造情報および該文脈階層構造情報
の下位の文脈領域から上位の文脈領域に或いは上位の文
脈領域から下位の文脈領域にそれぞれ保存された文脈情
報を活用して、概念情報が記述されている領域を決定し
ながら前記概念情報を抽出する。

【００８４】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。また、文脈情報抽出知
識を意味素と対応する概念のカラムの情報による構築が
容易な単純な知識として、単語のみの文、名詞句のみの
文、体言止めの文等からの文脈情報の抽出をより簡単な
構成で可能にしている。

【００８５】特に、文脈情報抽出知識の開始ポイントお
よび終了ポイントにタグの情報を含ませれば、ＨＴＭＬ
やＳＧＭＬ等のマークアップ言語からの文脈階層構造情
報の作成が可能となる。

【００８６】また、請求項９、請求項２４または請求項
３０に記載の発明によれば、概念抽出装置（概念抽出ス
テップ）において、自然言語文書を階層化された文脈領
域としてとらえ、各分脈領域についての開始ポイントの
条件、終了ポイントの条件および下位となる文脈領域の
候補について記述した文脈領域抽出知識を参照して、文
脈階層構造解析装置（文脈階層構造解析ステップ）によ
り、自然言語文書の文書構造が持つ階層性を解析して文
脈階層構造情報を作成し、文脈情報抽出装置（文脈情報
抽出ステップ）においては、形態素解析装置（形態素解
析ステップ）により自然言語文書中から形態素を抜き出
し、抜き出された各形態素（以下、着目要素という）の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム（以
下、対応カラムという）の情報を記述した情報抽出知識
を参照して、対応カラム決定装置（対応カラム決定ステ
ップ）により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出することによ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に文脈情報を保存し、概念記述領域決定型
概念情報抽出装置（概念記述領域決定型概念情報抽出ス
テップ）では、文脈階層構造情報および該文脈階層構造
情報の下位の文脈領域から上位の文脈領域に或いは上位
の文脈領域から下位の文脈領域にそれぞれ保存された文
脈情報を活用して、概念情報が記述されている領域を決
定しながら前記概念情報を抽出する。

【００８７】このように、文書構造の持つ階層性を解析
して、キーワード間の関係を表す構文的、意味的、文脈
的および構造的な各情報を含む概念情報を抽出して登録
し、キーワード間の関係情報を活用して概念単位または
属性単位の情報を条件とした検索を行うので、段落や箇
条書きに関する文脈情報、箇条書きに関する構造情報、
表に関する文脈・構造情報、並びに、構文的・意味的情
報等々、キーワード間の関係を表す情報の欠落を防ぐと
共に、文脈情報および概念情報を有効に活用してより精
度の高い情報検索を実現できる。特に、共起要素を複数
規定できたり、共起要素の出現位置をより柔軟に記述で
きることで、動詞述語文、形容詞述語文、名詞述語文、
単語のみの文、名詞句のみの文、体言止めの文等からの
高い精度での文脈情報の抽出が可能である。

【００８８】また、請求項１０、請求項２５または請求
項３０に記載の発明によれば、情報抽出知識を、着目要
素の意味素の条件、共起要素の条件、付属要素の条件お
よび共起要素の出現位置の条件を、正規表現等のパター
ン記述知識として記述して構築する。共起要素を複数規
定できたり、共起要素の出現位置をより柔軟に記述でき
ることで、動詞述語文、形容詞述語文、名詞述語文、単
語のみの文、名詞句のみの文、体言止めの文等からの概
念情報または文脈情報の抽出をより高い精度で行うこと
ができ、該概念情報または文脈情報を有効に活用して精
度の高い情報検索を実現できる。

【００８９】また、請求項１１、請求項２６または請求
項３０に記載の発明によれば、概念抽出装置（概念抽出
ステップ）において、情報抽出知識のある知識が合致し
た場合に、該知識と共起しやすい知識を活性化させ、共
起しにくい知識は抑制化する知識間相関ルールを参照す
る。これにより、高い精度で対応カラムの決定が可能に
なり、結果として、高い精度の情報検索を行うことがで
きる。

【００９０】また、請求項１２、請求項２７または請求
項３０に記載の発明によれば、対応カラム決定装置（対
応カラム決定ステップ）において、対応度の算出を各情
報抽出知識毎に並列に、または対応カラムの決定を各形
態素毎に並列に処理する。このように、各情報抽出知識
が独立して処理される特徴を利用して、並列コンピュー
タ等を用いて並列処理で対応度の算出処理を行うことに
より高速処理が可能となり、また、各形態素が独立して
処理される特徴を利用して、並列コンピュータ等を用い
て並列処理で対応カラムの決定処理を行うことにより高
速処理が可能となる。

【００９１】また、請求項１３、請求項２８または請求
項３０に記載の発明によれば、概念記述領域決定型概念
情報抽出装置（概念記述領域決定型概念情報抽出ステッ
プ）において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて、前記必須属性の
抽出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックする。これにより、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能となる。

【００９２】また、請求項１４、請求項２９または請求
項３０に記載の発明によれば、概念記述領域決定型概念
情報抽出装置（概念記述領域決定型概念情報抽出ステッ
プ）において、概念記述領域を決定しながら概念情報を
抽出する際に、抽出すべき概念を特徴づける概念の必須
属性を記述した概念キー知識を用いて抽出済みの概念情
報の重複を解消する。これにより、概念単位の情報抽出
の精度が高められ、結果として高い精度の情報検索が可
能となる。

【００９３】さらに、本出願の請求項１５に記載の発明
によれば、概念抽出装置において、形態素解析装置によ
り自然言語文書中から形態素を抜き出し、構文解析装置
により構文を解析し、構文要素からの概念作成装置によ
り、構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する。このように、意味素辞
書を具備することなしに、構文解析結果のみからキーワ
ード間の関係を表す構文的な情報を含む概念情報を抽出
して登録し、キーワード間の関係情報を活用した検索を
行うので、キーワード間の関係を表す情報、特に構文的
情報の欠落を防ぐと共に、該概念情報を有効に活用して
より簡潔な構成で精度の高い情報検索を実現できる。

【００９４】

【発明の実施の形態】以下、本発明に係る情報検索シス
テム、情報検索システムにおける情報処理方法および記
録媒体の実施の形態について、次の［目次］の順に図面
を参照して詳細に説明する。

【００９５】［目次］１．実施形態の概要１−１．システムの構成１−２．情報登録処理１−３．情報検索処理２．概念集合の表現３．概念情報の抽出３−１．意味解析を用いた概念情報の抽出３−２．文脈解析および構造解析を用いた概念情報の抽
出（１）文脈階層構造解析（２）文脈情報抽出（３）概念記述領域決定と概念情報抽出４．概念情報の登録５．概念情報の検索６．実施形態の効果

【００９６】１．実施形態の概要１−１．システムの構成図１は本発明の一実施形態に係る情報検索システムの構
成図である。なお、本実施形態の情報検索システムも、
従来例と同様に「ＷＷＷ（World Wide Web）ページ検索
システム」に適用した事例であり、同図において図４９
（従来例）と重複する部分には同一の符号を附する。

【００９７】本実施形態のＷＷＷページ検索システム
は、インターネット１１２につながる複数台のコンピュ
ータ上に構築され、該複数台のコンピュータの外部記憶
装置上に分散して蓄積された自然言語を含む文書群１１
０から、ユーザが所望する情報の所在を即座に発見する
ことを目的として構築されたシステムである。

【００９８】図１において、本実施形態のＷＷＷページ
検索システムは、特徴的な構成要素として、概念抽出装
置１０１、概念登録装置１０２、概念検索装置１０３、
データベース１０４および概念検索文解析装置１０５を
具備する他、従来例と同様に、ＣＰＵ１０６、メインメ
モリ１０７、ディスプレイ１０８およびキーボード１０
９を備えて構成され、データベース１０４を除く各構成
要素はデータバス１１１を介して相互に接続された構成
となっている。

【００９９】概念抽出装置１０１においては、自然言語
文書１１０中からキーワードおよび該キーワード間の関
係を表す情報を抽出し、概念単位や属性単位に情報を構
造化した「概念情報」にまとめあげる概念抽出処理が行
われる。これにより、自然言語文書１１０は概念の集合
に変換される。

【０１００】また、概念登録装置１０２においては、概
念抽出装置１０１によって抽出された概念情報をデータ
ベース１０４に登録して保存する。また、自然言語文書
１１０の文書所在情報を取得して、抽出した概念情報と
文書所在情報との組による概念情報転置インデックスと
してデータベース１０４に登録・保存することも可能で
あり、さらに、自然言語文書１１０中に概念情報のどの
属性が記述されていたかを表す対応属性情報を付加し
て、概念情報、文書所在情報および対応属性情報の組に
よる概念情報転置インデックスとしてデータベース１０
４に登録・保存することも可能である。

【０１０１】また、概念検索装置１０３においては、登
録・保存されているデータベース１０４中の概念情報か
ら検索要求にしたがって必要な概念情報を検索する。検
索要求は、従来例と同様に自然言語による検索文を入力
するものと、所定文法に基づく概念検索文を入力するも
のとの２種類がある。

【０１０２】また、概念検索文解析装置１０４において
は、ユーザが与える自然言語検索文中から抽出したキー
ワード情報および該キーワード間の関係を表す情報に基
づいて、概念単位または属性単位に情報を構造化した検
索概念情報（検索概念集合）を抽出し、該抽出した検索
概念情報にしたがってデータベース１０４に登録された
概念情報から必要な概念情報を検索する。

【０１０３】さらに、データベース１０４において、概
念情報をリレーショナルデータベースのレコードで表現
することにより、概念情報の格納に従前のリレーショナ
ルデータベースを流用し、公知のリレーショナルデータ
ベースの高速検索技術（インデックスなど）を活用して
高速検索を可能にしたり、データベース言語ＳＱＬや、
ＧＵＩ（グラフィック・ユーザ・インタフェース）を用
いたリレーショナルデータベースのデータ編集ツールを
用いて、抽出した概念情報をメンテナンスすることを容
易にすることも可能である。

【０１０４】１−２．情報登録処理次に、本実施形態のＷＷＷページ検索システムにおける
情報登録処理について、図２に示す情報登録処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。

【０１０５】まず、ステップ２０１では、概念抽出装置
１０１により自然言語文書２０２から概念抽出が行われ
る。この結果、自然言語文書２０２は概念の集合２０３
に変換される。当該ステップにおける概念抽出の方法、
並びに、概念集合２０３の保持方法については様々な手
法が考えられるが、概念抽出方法については「３．概念
情報の抽出」で、概念集合の保持方法については「２．
概念集合の表現」でそれぞれ後述する。また、概念抽出
装置１０１のより詳細な構成および作用等についても
「３．概念情報の抽出」で詳述する。

【０１０６】一方、ステップ２０４では、概念登録装置
１０２により自然言語文書１１０の文書所在情報（文書
ＩＤ）２０５を取得する。ここで、自然言語文書１１０
の文書所在情報２０５は、ＷＷＷページ検索システムの
場合にはＵＲＬ（Uniform Resource Locator）が該当す
る。

【０１０７】次に、ステップ２０６では、概念登録装置
１０２により、ステップ２０１で抽出された概念集合２
０３およびステップ２０４で取得された文書所在情報２
０５がセットにされてデータベース１０４に登録され
る。すなわち、従来の転置インデックス（図５１参照）
におけるキーワード部分を概念情報で置き換えたデータ
構造の概念情報転置インデックス（図３８参照）が登録
される。データベース１０４への概念情報の登録方法お
よび登録されるデータ構造に関する詳細については
「４．概念情報の登録」で説明する。

【０１０８】１−３．情報検索処理次に、本実施形態のＷＷＷページ検索システムにおける
情報検索処理について、図３に示す情報検索処理の手順
を説明するフローチャートを参照して、詳細に説明す
る。

【０１０９】従来例の場合と同様に、情報検索処理にお
いてユーザがキーボード１０９を介して入力する検索文
には、主に２種類あり、この検索文の種類によって処理
が一部異なる。１つは従来例と同様に、自然言語での検
索文をそのまま入力する場合であり、もう１つは所定の
文法に基づいて概念検索文を入力する場合である。概念
検索文は、従来例におけるキーワード検索文とは異なる
ものになるが、抽出された情報に直接アクセスして条件
を指定できるようなものと言う意味では同様なものとし
て捉えることができる。具体的には、ＳＱＬのようなも
のがその一例となるが、これに関する詳細は「５．概念
情報の検索」で述べる。

【０１１０】図３のフローチャートでは、ステップ３０
１において、これらの検索文の種類（自然言語検索文か
または概念検索文か）を判定して処理を分岐させてい
る。

【０１１１】検索文が自然言語検索文３０３である場合
には、ステップ３０２に進んで、概念抽出装置１０１に
よって検索概念を抽出する。検索概念の抽出方法および
内部表現方法にはいろいろな手法が考えられるが、これ
らについては「５．概念情報の検索」で述べる。

【０１１２】この段階で抽出された検索概念の集合を、
ここでは検索概念集合３０６と呼ぶ。

【０１１３】また、検索文が概念検索文３０５である場
合には、ステップ３０４に進んで、入力された概念検索
文３０５は概念検索文解析装置１０５によって文法解析
され、検索概念集合３０６に変換される。ここでの文法
はシステム依存であるが、ＳＱＬの検索文のような能力
を持った文法が定義されているものとする。この場合、
検索概念集合３０６は、単なる概念の集合だけではな
く、何を検索するのか、条件は何なのか等の情報を保持
しているものとなる。なお、詳細は「５．概念情報の検
索」で述べる。

【０１１４】さらに、キーボード１０９からの入力がな
くても、何らかの方法によって検索概念集合３０６を自
動生成するようなシステムも本発明の対象となる。例え
ば、人間同士がやり取りする電子メールを監視して、電
子メールの内容から自動的に関連情報を検索するための
検索概念集合３０６を作成するなどが考えられる。この
ようにすると、ユーザがキーボード１０９を介して検索
文を入力する作業が削減できるという利点がある。

【０１１５】以上のようにして、自然言語検索文３０３
または概念検索文３０５によって指定された検索内容
は、一旦、検索概念集合３０６に変換され、ステップ３
０７では、これを元にして概念検索装置１０３によりデ
ータベース１０４からの検索処理が行われる。そして、
ステップ３０８で、その結果がディスプレイ１０８上に
表示されることになる。

【０１１６】２．概念集合の表現「１−２．情報登録処理」の説明で述べたように、抽出
した概念集合２０３をどういった形態で保持するかとい
うことについては様々な方法が考えられるが、ここで
は、その一例としてデータベースのレコード様のデータ
構造によって概念集合２０３を表現する方法について述
べる。なお、概念表現を自然言語文書２０２から抽出す
る方法については、次の「３．概念情報の抽出」で述べ
る。

【０１１７】以下では、データベースのレコード様のデ
ータ構造によって概念集合２０３を表現する方法につい
て述べる。この方法では、概念集合２０３はレコードの
集合となるので、データベース１０４のテーブルが概念
集合に当たる。例えば、従来例でも引用した図４の自然
言語文書は、概念抽出処理（図２のステップ２０１）に
よって、図５に示すような概念集合のテーブルに変換さ
れる。すなわち図５において、各製品を表しているレコ
ードが抽出した概念に相当する。

【０１１８】図５のように抽出された概念集合は、従来
例のキーワード集合（図５２参照）に比べて、以下の２
点で情報の質が異なっている。まず第１に、「概念単位
の情報構造化」であり、概念単位（ここでは製品単位）
に情報が分離され、データベース１０４のレコードとし
て抽出されている。また第２に、「概念の属性単位の情
報構造化と属性の意味把握」であり、概念の保持する属
性単位（ここではテーブルのカラムに相当する）に情報
が分離されている。別の見方をすれば、概念に関係する
キーワードが、概念との関係単位に整理されていると見
ることもできる。同時に、この場合、カラムにカラム名
がついていることからもわかるように、概念との関係の
種類（或いは意味）が把握されていることがわかる。

【０１１９】このような情報の質の違いによって、従来
例のキーワード集合（図５２参照）において欠落してい
た情報が保存されていると考えることができる。具体的
には以下のような特徴的な事項を挙げることができる。

【０１２０】第１に、自然言語文書（図４）のタイトル
の「オムロン製品情報」によって与えられた、該タイト
ル以下の文書内容が全てオムロンの製品について述べら
れているという文脈情報は、従来例の図５２では欠落し
ていたが、本実施形態の図５では「メーカー」のカラム
として情報が保存されている。

【０１２１】第２に、自然言語文書（図４）において、
(a), (b), (c) の箇条書きの見出し語によって与えられ
た、それぞれの箇条書き項目の製品種別の文脈情報は、
従来例の図５２では欠落していたが、本実施形態の図５
では「製品」のカラムとして情報が保存されている。

【０１２２】第３に、自然言語文書（図４）において、
「●」で示された項目によって、(a)の中に独立した２
つの製品情報があるという構造情報は、従来例の図５２
では欠落していたが、本実施形態の図５ではそれぞれ別
のレコードとして情報が保存されることで保たれてい
る。

【０１２３】第４に、自然言語文書（図４）において、
表で示された各製品の血圧計の医療用具承認番号は、従
来例の図５２ではどの番号がどの製品に対するかの情報
が欠落していたが、本実施形態の図５ではそれぞれの製
品に対する「医療用具承認番号」カラムとして保存され
ている。

【０１２４】第５に、自然言語文書（図４）において、
自然言語文で表現されていた各製品の発売に関する情報
は、従来例の図５２ではどの製品に対するものかが情報
欠落していたが、本実施形態の図５ではそれぞれの製品
に対する「型式」，「発売日」，「価格」カラム等とし
て保存されている。

【０１２５】上記第１から第５までのような情報欠落の
防止によって、ユーザの意図を正しく把握した検索結果
を得ることが可能になる。例えば、「12,500円の血圧
計」は「HEM737」であるということがわかるし、文書の
所在情報と共にデータベースに保管してあれば、文書３
を見つけ出してくることも可能である。逆に「12,500円
の体温計」の情報はないということがわかるため、従来
例のように、誤って図４の自然言語文書を検索に適合さ
せてしまうこともない。

【０１２６】なお、図５では、製品に関するテーブルだ
けで概念情報の説明をおこなったが、実際には企業に関
するテーブルなど、複数のテーブルが同時に存在しても
良い。なおかつ、あるテーブルのキー項目を他のテーブ
ルのカラムに記述することにより、リレーショナルデー
タベースのようにリレーションを定義することもでき
る。例えば、企業テーブルがあって、企業名カラムがキ
ーカラムとしてあり、企業テーブルの１つのレコードと
してオムロンのデータがあり、企業名が「オムロン」と
なっている場合、製品テーブルのメーカーカラムで「オ
ムロン」と指定すれば、それは企業テーブルのオムロン
に関するデータとリレーションをはっていることにな
る。つまり、これら２つのテーブルに対して同時に情報
抽出することによって、より複雑なデータ検索にも耐え
られる情報検索装置を実現することができる。この場
合、概念をフレーム理論のフレームで概念を表現したの
と等価の効果が得られる。

【０１２７】３．概念情報の抽出次に、概念抽出処理（図２のステップ２０２）のより詳
細な説明として、概念情報を抽出する方法を、主にデー
タベースのレコード様のデータを概念情報として抽出す
る方法を一例に詳述する。

【０１２８】３−１．意味解析を用いた概念情報の抽出まず、意味解析（格解析）を行って概念情報を抽出する
方法について述べる。図６は意味解析を用いた概念抽出
装置のシステム構成図であり、図７は意味解析を用いた
概念情報抽出処理を説明するフローチャートである。

【０１２９】図５において、本実施形態の概念抽出装置
は、自然言語文書中から形態素を抜き出す形態素解析装
置６０１と、形態素中の動詞成分のみを抜き出す動詞抽
出装置６０２と、動詞が依存する格要素の意味素の情報
や表層格の条件の情報等を記述した動詞格フレーム辞書
６０５と、意味素の表層的定義を行う意味素辞書６０６
と、動詞に対応する格要素を特定する格要素特定装置６
０３と、格要素と概念情報との対応情報を保持する格要
素・概念対応情報６０７と、格要素・概念対応情報６０
７に基づいて概念情報を作成する格要素からの概念作成
装置６０４を備えて構成されている。

【０１３０】本実施形態の概念抽出装置では、動詞が依
存する意味素の情報を活用して概念情報を抽出すること
が可能である。また、意味素辞書の参照なしに動詞が依
存する表層格要素の情報を活用して概念情報を抽出する
ことが可能である。さらに、動詞が依存する意味素と表
層格の両方の情報を活用して概念情報を抽出し、表層格
をあらわす格助詞が省略された文の場合や、同一の意味
素が複数含まれる文の場合などにも格要素を特定するこ
とが可能である。

【０１３１】次に、本実施形態の概念抽出装置における
意味解析を用いた概念情報抽出処理について、図７のフ
ローチャートを参照して説明する。まず、第１の具体例
として、図８に示すような自然言語文書７０２が与えら
れたとき、本実施形態の概念抽出装置は、概念情報を抽
出した結果として、図９に示すような概念情報７１１
（製品テーブル）を出力する。以下、この第１の具体例
について、図７のフローチャートの各ステップの動作に
したがって説明する。

【０１３２】まず、ステップ７０１では、自然言語文書
７０２（図８参照）を形態素解析装置６０１により形態
素解析して、形態素７０３を出力する。そして、ステッ
プ７０４では、動詞抽出装置６０２により形態素７０３
から動詞を抽出する。この場合には動詞「発売する」が
抽出される。

【０１３３】次に、ステップ７０５においては、格要素
特定装置６０３により、動詞格フレーム辞書６０５を用
いて、動詞「発売する」が依存する格要素の条件を調べ
る。図１０には、概念への対応情報を付加した動詞格フ
レーム辞書６０５を例示する。同図の動詞格フレーム辞
書６０５は動詞格フレーム辞書および概念への対応情報
を備えて構成されている。概念への対応情報については
後述するとして、ここでは、動詞格フレーム辞書の構成
について説明する。一般的な動詞格フレーム辞書は、図
１０に示したように、動詞が依存する格要素の意味素や
表層格の条件が記述されている部分と考えて良い。便宜
上、図１０においては各格要素に[1]から[5]までの番号
をつけている。

【０１３４】次に、ステップ７０７においては、格要素
特定装置６０３により、動詞格フレーム辞書６０５と、
形態素解析（ステップ７０１）で抽出された形態素７０
３とを比較し、意味素または表層格の情報から、それぞ
れの格要素に対応した形態素を特定する。

【０１３５】まず、意味素の情報から格要素に対応した
形態素を特定するには、意味素辞書６０６が参照され
る。すなわち、意味素は、図１１に示すような意味素辞
書６０６（一般的には意味解析辞書等と呼ばれる）に定
義されている。この意味素辞書６０６には、意味素に含
まれる単語或いはパターンが記述されており、該単語や
パターンにマッチすれば、形態素はその意味素であると
みなされる。例えば、「1997年７月1日」は意味素辞書
６０６に記述されている「＜整数＞年＜整数＞月＜整数
＞日」というパターンにマッチするので「＜日時＞」の
意味素であることがわかる。なお、図１１において、
＜...＞は意味素を表し、＜...＞:: ...によって意味素
の定義を表している。また、ｏｒは選言要素を表す特殊
文字列として使用され、（…）は説明による定義を表し
ている。また、：は同様な定義がいろいろな意味素に対
してされていることを表し、…は定義内容がその他にも
考えられることを表している。その他の文字は文字その
ものを表しているものとする。

【０１３６】また、意味素辞書６０６にマッチしなかっ
た未知語等の形態素でも、表層格の情報がマッチすれば
格要素を特定することができる。表層格は、日本語の場
合には格助詞の「は」，「が」，「を」，「で」，
「に」，「から」等によって決定され、「は」，「が」
は「ガ格」、「を」は「ヲ格」等となる。ただし、動詞
が依存する表層格は受動態や埋め込み文などによって変
化するため、受動態や埋め込み文用に別途辞書を作成す
る場合もある。

【０１３７】上述のように、意味素だけで格要素を特定
したり、表層格だけで格要素を特定する方法もある。し
かしながら、意味素が同じ複数の格要素に依存する動詞
の場合には、意味素だけでは格要素の特定は難しく、ま
た、表層格は実際の自然言語文では省略されることも多
いため、このような場合には表層格だけでは格要素の特
定は難しくなる。本実施形態では、このような場合でも
意味素と表層格を同時に活用して判断することにより、
格要素を特定することができる。

【０１３８】上記の処理により、自然言語文書７０２
（図８参照）に対して、次のような格要素が抽出され
る。すなわち、図１０の格要素番号に対応して、[1] オ
ムロン，[2] 血圧計，[3] 「HEM-739」，[4] 1997年7月
1日，[5] 16000円の格要素となる。

【０１３９】さらに、ステップ７０９では、格要素から
の概念作成装置６０４により、格要素・概念対応情報６
０７を参照して概念情報への代入が行われ、概念情報７
１１を得る。図１０に示したように、本実施形態で使用
する動詞格フレーム辞書６０５は、一般的な動詞格フレ
ーム辞書に、概念への対応情報として「対応カラム」の
情報を付加した構成を備え、格要素・概念対応情報６０
７を動詞格フレーム辞書６０５内に具備している。すな
わち、格要素からの概念作成装置６０４においては、動
詞格フレーム辞書６０５の概念への対応情報を参照し
て、ステップ７０７で特定した番号[1] から[5] までの
格要素を、図９に示す「製品テーブル」のそれぞれの対
応カラムに代入していく。例えば、番号[1] で抽出され
た格要素「オムロン」は、動詞格フレーム辞書６０５の
対応カラムの欄に記述された「製品テーブル．メーカ
ー」という情報にしたがって、「製品テーブル」の「メ
ーカー」カラムに代入される。ここで、動詞格フレーム
辞書６０５の対応カラムの欄にテーブル名を明記してい
るのは、抽出すべき概念情報が複数のテーブルとして得
られるような場合などにも対応できるようにするためで
ある。

【０１４０】以上説明した手順を踏むことにより、自然
言語文書７０２（図８参照）から概念情報７１１（図９
参照）を抽出することができる。

【０１４１】なお、純粋な意味解析は動詞格フレームと
意味素の情報のみで解析する場合も多く、表層格情報な
どを用いるのは、どちらかというと統語解析（すなわち
構文解析）の範疇に入る。ここでは、概念情報のカラム
として概念の属性的なものを例に挙げているが、こうい
った統語解析の結果（すなわちガ格・ヲ格、主語・述
語、係り・受けなど）の観点から、整理した概念情報を
抽出するのも当然可能である。この場合、意味素辞書６
０６を備える必要がなくなり、構文解析のみ行えば良い
ので、知識構築の手間がかからないという利点がある。

【０１４２】次に、第２の具体例として、図１２に示す
ような自然言語文書７０２が与えられたとき、本実施形
態の概念抽出装置は、概念情報を抽出した結果として、
図１３に示すような概念情報７１１（製品テーブル）を
出力する。以下、この第２の具体例について説明する。

【０１４３】第１の具体例（図８）と違って、図１２の
自然言語文書には動詞がない。若しくは、英語で言うと
ころの「ｂｅ動詞」であるとみなせる。このようなｂｅ
動詞等のようにさまざまな状況で用いられる動詞の場
合、動詞が依存する格要素を特定することが難しく、動
詞格フレーム辞書６０５は作成しにくい。たとえ作成で
きたとしても、多様な意味素が対応可能なため、役に立
たないことも多い。

【０１４４】このような問題を解決するために、図１０
に示した動詞格フレーム辞書６０５を、もうすこし一般
化することを試みる。動詞格フレーム辞書６０５で行っ
ていることは、図１４のような意味素間の相関関係を、
「発売する」という動詞が表す動作の事象の観点から整
理し、動詞が依存する格要素という形で検索できるよう
にしたものである。すなわち、図１４の例では、「発
売」１４０１を中心として、それに関連した意味素の
「企業」１４０２から「型式」１４０６までを格要素と
して検索できるようにしたものである。

【０１４５】動詞を中心とした整理を行うのは、動詞に
よって状況が限定され、そこに関連する格要素の候補を
限定しやすいからであった。しかし、ｂｅ動詞等のよう
に、動詞を限定しても、それに関連する格要素候補が限
定できない場合には、無理に動詞を中心と考えず、他の
名詞などを中心に考えても同等の効果が得られると考え
られる。したがって、このような場合には、図１０に示
した動詞格フレームの動詞の代わりに名詞を用いて、名
詞格フレームを作成することで、自然言語文書（図１２
参照）から概念情報（図１３参照）の抽出を可能にする
ことができる。

【０１４６】さらに一般化すれば、動詞，名詞等に関わ
らず、自然言語文書におけるある形態素（構成素）は、
他の形態素（構成素）に対して依存関係（或いは共起関
係）を要求するため、それらを「情報抽出知識」として
作成しておけば、あとはそれらの知識を適用して最も妥
当性の高い格要素（或いは共起要素）を決定し、その結
果を用いて概念情報を抽出するということが可能にな
る。「３−２．文脈解析および構造解析を用いた概念情
報の抽出」で説明する図２３および図２４の文脈情報抽
出知識は、この情報抽出知識の一例ということができ
る。

【０１４７】３−２．文脈解析および構造解析を用いた
概念情報の抽出「３−１．意味解析を用いた概念情報の抽出」では、意
味解析を用いて自然言語文書から概念情報を抽出する方
法について述べたが、これによって解決できるのは、主
に、「発明が解決しようとする課題」で述べた情報欠落
のうち「第５の構文的・意味的情報の欠落」の問題につ
いてだけである。音声言語において問題となるのは主に
この「構文的・意味的情報の欠落」であるが、文字言語
においては、他の「段落に関する文脈情報の欠落」，
「箇条書きに関する文脈情報の欠落」，「箇条書きに関
する構造情報の欠落」，「表に関する文脈・構造情報の
欠落」についても重要な問題である。このような他の情
報欠落についても解決しつつ、図４に示した自然言語文
書から図５に示した概念集合を抽出するためには、以下
に示すような文脈解析や構造解析が必要となる。

【０１４８】本実施形態における文脈解析および構造解
析の処理においては、文書或いは文書群を階層化された
文脈領域と考える。ここで、「文脈領域」とは、文書或
いは文書群中に現れる「文書」，「段落」，「行」，
「箇条書き」，「箇条書き項目」，「表」，「表の
行」，「表の列」，「表のセル」，「ハイパーリンク」
といった構造のことである。それぞれの文脈領域は下位
の文脈領域を内部に含むことができる。また、下位の文
脈領域は上位の文脈領域を自動的に参照することがで
き、参照先の上位の文脈領域で抽出されている概念情報
を文脈情報として活用することができる。

【０１４９】図１５には、本実施形態における文脈・構
造解析を用いた概念情報抽出装置のシステム構成図を示
し、図１６には、文脈・構造解析を用いた概念情報抽出
処理を説明するフローチャートを示す。

【０１５０】図１５において、本実施形態の概念抽出装
置は、自然言語文書群を階層化された文脈領域としてと
らえ、各分脈領域についての開始ポイントの条件、終了
ポイントの条件および下位となる文脈領域の候補につい
て記述した文脈領域抽出知識を備えて、自然言語文書の
文書構造が持つ階層性を解析して文脈階層構造情報を作
成する文脈階層構造解析装置１５０１と、意味素と対応
する概念のカラムの情報を記述した文脈情報抽出知識を
備えて、構築が容易な単純な知識で、単語のみの文、名
詞句のみの文または体言止めの文等からの文脈情報の抽
出を可能にし、前記文脈階層構造情報中に文脈情報を保
存する文脈情報抽出装置１５０２と、概念記述領域を決
定しながら概念情報を抽出する際に、文脈階層構造を活
用して下位の文脈領域から上位の文脈領域に保存された
文脈情報を参照したり、上位の文脈領域から下位の文脈
領域に保存された文脈情報を活用して、より精度の高い
概念抽出を行う概念記述領域決定型概念情報抽出装置１
５０３とを備えて構成（第１の構成）されている。な
お、ここで、「文脈階層構造」とは、自然言語文書中に
現れる種々の論理的構造、すなわち文書、段落、箇条書
き、箇条書き項目、表、表内の行，列およびセル等をい
い、また他の使用した語句の詳細については、後述の説
明において明かにする。

【０１５１】次に、本実施形態の概念抽出装置における
文脈・構造解析を用いた概念情報抽出処理について、図
１６のフローチャートを参照して説明する。具体例とし
て、図４に示すような自然言語文書が与えられたとき、
概念情報を抽出した結果として、図５に示すような概念
集合を出力する場合を考える。

【０１５２】（１）文脈階層構造解析まず、ステップ７０１では、文脈階層構造解析装置１５
０１により、自然言語文書（図４参照）について文脈領
域の階層構造が認識される。図１７および図１８には、
図４の自然言語文書について文脈構造解析を行った結果
を示す。ここで、図１７は自然言語文書と文脈領域との
対応関係を示し、図１８は文脈階層構造を表す内部デー
タ構造を示している。

【０１５３】図１７におけるＡＲ１〜ＡＲ２５の文脈領
域は、それぞれ図１８の内部データ構造におけるノード
ＮＤ１〜ＮＤ２５に対応している。すなわち、内部デー
タ構造は文脈領域を表しており、図１８より、それぞれ
の文脈領域が下位の文脈領域を持つこと、並びに、下位
の文脈領域から上位の文脈領域への参照が可能であり、
該参照が図１８中の矢印で表記されていることがわか
る。段落ＮＤ２や箇条書きＮＤ３等の文脈領域について
は、参照可能な上位文脈領域は１つだけであるが、表の
セルＮＤ１３〜ＮＤ１９等については、行（ＮＤ９〜Ｎ
Ｄ１１）と列（ＮＤ１２，ＮＤ１３）の２つの文脈領域
を上位領域として参照できる。また、図１７および図１
８の具体例には出てこないが、ハイパーリンク等は任意
個数の文脈領域を上位領域として参照できる。

【０１５４】このように図４の自然言語文書を解析して
図１７および図１８に示す解析結果を得る手法は幾つか
考えられる。例えば、文書が罫線等を用いた表を含んで
いる場合に該表部分を認識する方法として、特開平２−
１１６９７０号公報の『表内データ自動抽出処理方式』
に述べられているような方法を用いても良いし、また、
タグを含まない自然言語文書の場合に箇条書きの部分を
認識する方法として、特開平７−２９５９８１号公報の
『箇条書処理機能付き自然言語処理装置』に述べられて
いるような方法を用いても良い。

【０１５５】本実施形態では「ＷＷＷページ検索システ
ム」への適用を想定しているので、ここでは特に、入力
がＨＴＭＬ（HyperText Markup Language）のようなタ
グ付けされた自然言語文書である場合の文脈階層構造の
解析手法について述べる。なお、ＨＴＭＬはＳＧＭＬか
ら発展したマークアップ言語であるが、ＨＴＭＬについ
ては http://www.w3.org/MarkUp/ などを参照された
い。図１９には、図４の自然言語文書をＨＴＭＬで記述
したときの自然言語文書を例示する。

【０１５６】図１７に例示した自然言語文書のように、
ＨＴＭＬ記述では、各分脈領域に対応する部分はタグに
よって区切られている。例えば、「<TABLE>」と「</TAB
LE>」で囲まれた領域は「表」の文脈領域（ＡＲ８）に
対応している。また、階層構造もタグの階層構造によっ
て表現されている。例えば、「<OL>」「</OL>」によっ
て囲まれた箇条書きの文脈領域（ＡＲ３）の中に、「<U
L>」「</UL>」で囲まれた箇条書きの文脈領域（ＡＲ
５，ＡＲ２１，ＡＲ２４）が階層的に存在する。したが
って、タグの種別およびタグの始めと終わりの指定に応
じて、文脈領域、該文脈領域の開始ポイントおよび終了
ポイント、並びに、下位文脈領域を特定するための文脈
領域の抽出知識を図２０に示すように持つことができ
る。ただし、箇条書き項目の開始ポイントを示す「<LI
>」等は、終了記号である「</LI>」を省略できたりする
ため、箇条書き項目の終了ポイントとして「<LI>」等も
候補としなければならない。

【０１５７】以上のように、文脈領域、開始ポイント、
終了ポイントおよび下位文脈領域等の対応関係を抽出知
識（図２０）として持っておくことによって、文脈階層
構造の解析を行うことができる。

【０１５８】図２１には、この文脈階層構造の解析処理
（ステップ１６０１）の処理手順を説明するフローチャ
ートを示す。まず、ステップ２１０１では、「文書」の
文脈領域を作成して、これをカレント文脈とする。次
に、ステップ２１０２では、入力となる自然言語文書の
先頭位置をポイントする。

【０１５９】次に、以下のステップ２１０３からステッ
プ２１０８までの処理は、繰り返し処理となる。まず、
ステップ２１０３では、自然言語文書の入力ポイントが
カレント文脈に対する下位文脈領域の開始ポイントに合
致しているかどうかをチェックする。例えば、カレント
文脈が「文書」であるならば下位文脈領域「段落」の開
始ポイントに合致しているか否かである。

【０１６０】合致していればステップ２１０４に進ん
で、下位文脈領域を作成して上位文脈領域に結合した
後、これをカレント文脈とする。なお、「文書」の始め
の場合は、この位置が「段落」の開始ポイントの条件に
合致しているため、「文書」の下位文脈領域として「段
落」を作成して結合し、カレント文脈を「段落」にする
ことになる。その後、ステップ２１０８において、自然
言語文書を読み進めて（入力ポイントを進めて）、再び
ステップ２１０３からの処理を繰り返すことになる。

【０１６１】またステップ２１０３において、下位文脈
領域の開始ポイントに合致していない場合には、ステッ
プ２１０５に進んで、自然言語文書の入力ポイントがカ
レント文脈の終了ポイントに合致しているかどうかをチ
ェックする。合致していない場合はステップ２１０８に
進んで、自然言語文書を読み進めて（入力ポイントを進
めて）、再びステップ２１０３からの処理を繰り返すこ
とになる。

【０１６２】またステップ２１０５において、カレント
文脈の終了ポイントに合致している場合はステップ２１
０６に進んで、カレント文脈が最上位の文脈領域（ここ
では「文書」）かどうかをチェックする。最上位の文脈
領域であった場合には文脈階層構造の解析処理全体を終
了する。

【０１６３】また、最上位の文脈領域でなかった場合に
はステップ２１０７に進んで、上位の文脈領域をカレン
ト文脈とし、さらにステップ２１０８において自然言語
文書を読み進めて（入力ポイントを進めて）、再びステ
ップ２１０３からの処理を繰り返すことになる。以上の
処理によって、文脈階層構造の解析処理（ステップ１６
０１）が可能となる。

【０１６４】（２）文脈情報抽出次に、図１６のフローチャートにおけるステップ１６０
２では、文脈情報抽出装置１５０２により文脈情報が抽
出される。文脈情報の表現方法および抽出方法について
もさまざまな手法が考えられるが、本実施形態において
は、基本的に「２．概念集合の表現」および「３−１．
意味解析を用いた概念情報の抽出」で述べた手法による
概念表現および概念抽出と同様な方法を用いる。これ
は、最終的に本実施形態の概念情報抽出装置が抽出すべ
き情報が概念情報であることから、文脈の抽出において
も概念情報と同等の情報を抽出することが必要十分条件
であると考えられるからである。ただし、文脈情報は概
念情報と以下のような点で異なる特徴を持っていると考
えられるため、抽出方法を工夫する必要がある。

【０１６５】第１の特徴として、文書構造を利用して表
現した自然言語文書では、文書構造によって意味が表現
されているため、完全な文章で記述されていないことが
多くなる点である。つまり、見出し語等のように、単語
・名詞句・動詞のない体言止の文などで意味が記述され
ている場合が多くなってくる。こういった場合、「３−
１．意味解析を用いた概念情報の抽出」で述べたような
通常の格解析で行う文章の解析では情報が十分抽出でき
ないことも考えられる。したがって、単語の意味クラス
だけから情報抽出するといった、より柔軟な情報抽出方
法を加味する必要がある。

【０１６６】第２の特徴として、概念情報はシステムが
抽出した知識として保存されるが、文脈情報は概念情報
を抽出するための一時的な知識であるという点である。
これは脳の働きにおける短期記憶的なものと考えること
ができ、一時的に文脈領域データとして蓄積されるが、
概念抽出が終了した段階では破棄されても良い。このた
め、概念とは別の領域に保存する必要がある。

【０１６７】まず、第１の特徴への対処を可能にするた
めに次の２つの方法を考える。第１番目の方法は、文脈
情報の抽出は全て意味素のみに基づいて行うという方法
である。この場合、格助詞や語順の情報が活用できなく
なるため、抽出精度は低下すると思われるが、事前に用
意しなければならない辞書が小さくなったり、処理が単
純化され高速化されるという利点もある。

【０１６８】この場合、文脈情報を抽出するための文脈
情報抽出知識は、図２２に示すように意味素のみを活用
した形で保持され、この知識の意味素の欄に記述された
意味素パターン（図１１に示したような意味素辞書６０
６に記述してある意味クラス）と合致した文字列が対応
カラムの欄に記述されたカラムに抽出されることとな
る。なお、図２２において対応カラムの欄にテーブル名
も記述してあるのは、複数テーブルの情報を同時に抽出
することも可能にするためである。

【０１６９】また、第２番目の方法としては、ある形態
素に対する意味素の情報と、その形態素が共起する他の
形態素の意味素、形態素に付随する後置詞、並びに、共
起要素の出現位置等の情報を文脈抽出知識として持ち、
そのうちで活用することができる（すなわち文章中に現
れた）情報のみを使用して、文脈情報を抽出するという
方法である。この方法を用いれば、文が単語のみ、名詞
句、体言止の文、通常の文などで記述されているといっ
た様々な場合を統括的に扱って解析することができ、精
度が高くなるという利点がある。

【０１７０】この文脈情報抽出知識は、図１０で示した
概念への対応関係を付加した動詞格フレームや図２２の
知識を一般化したものと考えられ、実際には、図２３お
よび図２４に示すような、抽出要素・共起要素の意味素
・言語マーカー・語順等を活用した文脈情報抽出知識と
なる。なお、図２３および図２４の「抽出カラム」の欄
には、抽出すべき概念のカラムが記述されており、テー
ブル名も記述してあるのは、複数テーブルの情報を同時
に抽出することも可能にするためである。

【０１７１】また、抽出カラムに対応する文字列のこと
を以下では「抽出要素」と呼ぶことにする。「抽出要素
の意味素」の欄で記述されているのは、この抽出要素が
満たすべき意味素の情報である。これは、図１１に示し
たような意味素辞書６０６で定義されている文字列のパ
ターンであり、抽出すべき文字列自体が満たすべき文字
列パターンとも考えられる。

【０１７２】また、「抽出要素の後置要素」の欄に記述
したのは、抽出要素に対する格助詞、助動詞等のいわゆ
る「付属語」に相当する要素である。この欄に具体的な
要素を記述してある知識は、抽出要素の直後に記述した
後置要素が現れる必要がある。また「共起要素」の欄に
は、抽出要素と共起する文字列や意味素が記述されてい
る。また「共起要素の後置要素」の欄には、共起要素の
直後に現れる必要のある付属語が記述されている。さら
に「共起要素の出現位置」の欄には、抽出要素と共起要
素の出現位置関係が規定できるようになっていて、自立
語の位置関係における前、直前、直後、後等や、文脈参
照可能かどうかも規定できる。

【０１７３】また、「確信度」の欄に記述してある数値
は、以上で記述された知識に抽出要素がマッチした場合
に、抽出カラムに抽出すべきである確信度を表してい
る。例えば、この確信度が”１．０”であれば、知識に
マッチした抽出要素は確実にその抽出カラムに対応する
だろうということを表している。なお、最後尾の欄に記
述した「知識ID」は便宜上番号付けした知識のＩＤであ
る。

【０１７４】したがって、上記第１番目の方法により文
脈情報を抽出する文脈情報抽出装置１５０２は、図１５
の説明（第１の構成）にあったように、意味素と対応す
る概念のカラムの情報を記述した図２２のような文脈情
報抽出知識を備えて、構築が容易な単純な知識で、単語
のみの文、名詞句のみの文または体言止めの文等からの
文脈情報の抽出を可能にし、文脈階層構造情報中に文脈
情報を保存するもので実現される。

【０１７５】これに対して、上記第２番目の方法により
文脈抽出する文脈情報抽出装置１５０２は、自然言語文
書中から形態素を抜き出す形態素解析装置と、各形態素
（着目要素）の意味素の条件と着目要素が共起する共起
要素の条件と着目要素・共起要素の付属要素の条件と共
起要素の出現位置の条件と対応する概念のカラム（対応
カラム）の情報を記述した図２３および図２４のような
文脈情報抽出知識と、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出する対応
カラム決定装置を備え、動詞述語文、形容詞述語文、名
詞述語文、単語のみの文、名詞句のみの文、体言止めの
文などからの高い精度での文脈情報の抽出を可能にし、
文脈階層構造情報中に文脈情報を保存するもの（第２の
構成）で実現されることになる。

【０１７６】次に、このような構成の文脈情報抽出装置
１５０２（第２番目の方法）により、図２３および図２
４のような文脈情報抽出知識を活用して、文脈情報を抽
出する処理（図１６のステップ１６０２）について、図
２５に示すフローチャートに基づいて説明する。

【０１７７】まず、ステップ２５０１においては、形態
素解析装置により解析対象となる自然言語文書２５０２
の形態素解析を行い、メモリ上に形態素２５０３を保持
する。なお、入力の自然言語文書をＨＴＭＬ文書等にす
る場合は、この段階でタグの情報等は不要なので削除す
る。

【０１７８】次に、ステップ２５０４では、抽出した形
態素２５０３を前から順に１つずつ着目し、これを抽出
要素と仮定する。例えば、図４に示した自然言語文書の
場合には、最初の抽出要素は「オムロン」になる。

【０１７９】次に、ステップ２５０８では、抽出要素の
存在する文脈領域を文脈情報保存領域としてポイントす
る。例えば、図４の自然言語文書の例（図１７および図
１８参照）では、段落ノードＮＤ２に対応する文脈領域
ＡＲ２に、抽出要素「オムロン」が存在するため、文脈
情報保存領域として段落ノードＮＤ２をポイントする。
文脈情報保存領域は、上述（文脈情報の第２の特徴）の
ように、文脈情報を保存するための一時記憶領域であ
り、形態素を読み進んで行くにつれて、箇条書きノード
ＮＤ３，箇条書き項目ノードＮＤ４，…と変化していく
ことになる。

【０１８０】次に、ステップ２５０６においては、抽出
カラム対応度テーブルを初期化する。ここで、抽出カラ
ム対応度テーブルは、図２７に示すように各抽出要素に
対して１つ作成され、初期化直後は何の情報も保持して
いない。

【０１８１】図２３および図２４の文脈情報抽出知識に
は、抽出要素が文脈情報となり得るかどうかを判別する
ための文脈情報判別知識２５０８が、「抽出カラム」以
外のカラムによって１レコードに１つの知識として記述
されている。ステップ２５０７では、１つの抽出要素に
対して、文脈情報抽出知識２５０８に記述されている文
脈情報判別知識を順に１つずつ取り出す。

【０１８２】また、文脈情報判別知識２５０８には、抽
出要素と共起要素が、意味素、後置詞および語順におい
て満たすべき条件が記述されている。ステップ２５０９
では、抽出要素が文脈情報判別知識２５０８に合致して
いるかどうかを調べ、合致している場合は、ステップ２
５１０において抽出カラムへの対応度を更新する。な
お、抽出カラム対応度テーブル（図２７参照）に、既に
その抽出カラムに対する対応度が保存されていた場合に
は、現在の対応度との演算によって対応度を再計算して
更新する。また、着目している抽出カラムに対する対応
度のデータが無かった場合には、新規に対応度を計算し
て保存する。

【０１８３】ここで、対応度の計算方法は様々なものが
考えられるが、本実施形態における手法としては、対応
度の初期値を”０”として、抽出要素が文脈情報判別知
識に合致する度に、文脈情報抽出知識２５０８中の「確
信度」の欄に保持されている確信度を対応度に加算して
いく方法を取る。この方法を取ることで、文脈情報判別
知識２５０８に重み付けを行うことができ、確信度の変
更による知識のチューニングが可能になる。ただし、対
応度の算出方法は他にも考えられ、例えば、対応度の初
期値を”０”として、文脈情報判別知識２５０８に合致
するたびに対応度を”１”ずつ加算していくなどの方法
も可能であり、この方法によれば、文脈情報抽出知識２
５０８中に「確信度」の情報を保持する必要がなくなる
ため、必要な記憶領域を減らすことができる。

【０１８４】具体例を示してステップ２５０９，２５１
０の動作を説明すると、例えば知識ＩＤ［ＲＡ１．
１］の文脈情報判別知識は、抽出要素の意味素が＜企業
＞であるという知識であり、該知識に合致した抽出要素
は、「製品テーブル．メーカー」への対応度が強くな
る。すなわち、図４の自然言語文書の場合、最初の抽出
要素である「オムロン」は文脈情報判別知識［ＲＡ１．
１］に合致するため、「製品テーブル．メーカー」への
対応度は、確信度”０．９”の値が対応度の初期値”
０”に加算され、対応度”０．９”に更新される。

【０１８５】また図２６には、知識間相関ルールの例を
示している。この知識間相関ルールは、ある知識に合致
したときに他の知識を活性化させたり、抑制化させたり
できるようにするためのルールである。図中、ノードの
枠内に記述されているのは知識ＩＤであり、リンク上に
記述された数値は活性化指数であり、活性化指数が１．
０以上の場合は活性化させるように働き、活性化指数が
１．０未満の場合は抑制化させるように働くことを示し
ている。

【０１８６】知識間相関ルールを活用する場合には、各
知識に対して活性度を持たせ、ステップ２５０４の時点
で、活性度の初期値を（例えば”１．０”に）初期化し
ておく。そして、知識に合致してステップ２５１０にお
いて抽出カラムへの対応度を更新する際には、対応度に
確信度を単純に加算するのではなく、その時の知識の活
性度度と確信度を掛け合わせた値を対応度に加算する。
またこのとき、同時に適合した知識からリンクされてい
る知識に対する活性度の更新も行う。活性度は、リンク
の活性化指数を元々の活性度に掛け合わせた値に更新さ
れる。例えば、初期状態（全ての活性度が”１．０”の
状態）で文脈情報判別知識［ＲＡ１．１］の知識に抽出
要素が合致すると、ＲＡ１．２からＲＡ１．６までの知
識の活性度は”１．５”に更新される。なお、活性度の
更新方法は他にも考えられるが、要は共起しやすい知識
は活性化させ、共起しにくい知識は抑制化させる更新方
法であればどんなものでも良い。こういったしくみを導
入すれば、同時には起こりにくい知識を同時に合致させ
てしまって、対応度がうまく求められないという現象を
回避することが可能となる。

【０１８７】このようにして、ステップ２５１１の判断
により、１つの抽出要素に対してＲＡ１．２，ＲＡ１．
２, …というように全ての文脈情報判別知識２５０８を
順にチェックするべく、ステップ２５０７からステップ
２５１０の処理を繰り返す。これにより、１つの抽出要
素に対して合致した全ての抽出カラムへの対応度が求め
られ、抽出カラム対応度テーブルに保存される。図４の
自然言語文書の場合は、文脈領域ＡＲ１のみに合致する
ため、「製品テーブル．メーカー」への対応度のみ”
０．９”として保存される。このときの抽出カラム対応
度テーブルの状態を図２７に示す。なお、対応度が保存
されていない抽出カラムについては対応度が”０”であ
るとも考えられる。

【０１８８】次に、ステップ２５１２では、抽出カラム
対応度テーブルにおいて、全ての抽出カラムへの対応度
が、予め設定しておいたしきい値以下であるかどうかを
チェックする。このしきい値は”０”でも良いし、それ
以上の値でも良い。ステップ２５１２でしきい値以上の
ものが１つ以上あった場合には、ステップ２５１３に進
んで、最も対応度の高い抽出カラムを対応カラムと決定
し、ステップ２５１４において、現在ポイントしている
文脈情報保存領域（図４の自然言語文書の例ではＡＲ
２，ＮＤ２）に、対応カラムと抽出要素をセットにし
て、文脈情報２５１５として保存する。図４の自然言語
文書の例では、この時点での文脈情報２５１５の状態は
図２８に示すようになる。

【０１８９】さらに、ステップ２５１６の判断により、
以上のステップ２５０４からステップ２５１４までの一
連の処理を全ての形態素について繰り返しおこなう。こ
れによって、最終的に図２９に示すように、文脈情報抽
出知識２５０８に合致した抽出要素が文脈領域と対応カ
ラムに分類されて、文脈情報として抽出される。抽出さ
れた文脈情報は、それぞれ対応する文脈領域のデータ構
造に保存されることになる。

【０１９０】なお、図２８の処理途中の文脈情報におけ
る対応度のデータは、図２９の最終的に抽出された文脈
情報２５１５では省略したが、最終的な文脈情報２５１
５においても対応度のデータを保存して、後の処理の曖
昧性解消等のために用いても良い。

【０１９１】なお、図２５のフローチャートにおけるス
テップ２５０７からステップ２５１１までの繰り返し処
理は、文脈情報抽出知識２５０８中に格納されている各
分脈情報判別知識について独立して行うことができるた
め、並列コンピュータ等を用いて並列に処理を行うこと
によって、高速に処理することが可能である。また、ス
テップ２５０４からステップ２５１６までの繰り返し処
理についても、抽出された各形態素２５０３について独
立して行うことができるため、同様に、並列に処理を行
うことによって、高速に処理することが可能である。

【０１９２】さらに、図２３および図２４の文脈情報抽
出知識は、図３０に示されるように正規表現等のパター
ンで記述することも可能である。図３０において、文脈
情報抽出知識は拡張された正規表現で記述されている。
特殊文字として使用されているのは以下の通りである。
「Ｘ」は現在着目している抽出要素を表す。「＜…＞」
は意味素を表す。「Ｘ::Ｙ」はＸがＹの意味素を満たし
ている条件を記述している。「.」は任意の一文字を表
す。「*」は直前の正規表現要素の０回以上の繰り返し
を示す。「?」は直前の正規表現要素が０回か１回現れ
ることを示す。「（…）」は複数の要素をまとめて１つ
の正規表現要素を作る。「|」は選言（すなわちｏｒ）
を表し、両側の要素が選択的に現れることを意味する。
上記以外の文字は通常の文字として扱う。

【０１９３】この場合、知識の記述法が特殊になるとい
う欠点はあるが、複数の共起要素を規定できたり、共起
要素の出現位置をより柔軟に記述できたりといった利点
もある。この場合、第２番目の方法を実現する文脈情報
抽出装置１５０２（第２の構成）は、各形態素（着目要
素）が満たすべき意味素や共起要素等の条件を正規表現
等のパターン記述知識として記述した図３０のような情
報抽出知識を備えることとなる。

【０１９４】（３）概念記述領域決定と概念情報抽出以上の処理により、文脈情報の抽出（図１６のステップ
１６０２）が行われたので、次に、ステップ１６０３で
は、概念記述領域決定型概念情報抽出装置１５０３によ
り、概念記述領域の決定を行いながら、概念情報の抽出
を行っていく。図３１には、本実施形態の概念記述領域
決定型概念情報抽出装置１５０３による概念記述領域決
定と概念情報抽出の処理手順を説明するフローチャート
を示す。

【０１９５】ここで、「概念記述領域」とは、ある概念
を表現する情報の１単位が過不足なく記述されている文
脈領域のことをいうものとする。図４の自然言語文の例
でいうと、１つの製品についての情報が記述されている
文脈領域のことであり、図１７におけるＡＲ６，ＡＲ
７，ＡＲ２２，ＡＲ２５のような文脈領域のことを指
す。これらの文脈領域を見つけ出して、そこから概念情
報を抽出する処理がステップ１６０３の処理である。こ
の概念記述領域決定と概念情報抽出の処理の詳細を図３
１を参照して説明する。

【０１９６】まず、ステップ３１０１では、図１６のス
テップ１６０１の文脈階層構造解析処理によって解析し
た文脈階層構造について、最上位の文脈領域を概念記述
領域の探索起点とし、ステップ３１０２において、該探
索起点から走査して最下位の文脈領域を見つける。すな
わち、どこからも参照されていない文脈領域を見つけ
る。図４の自然言語文書の場合には、図１８において、
文書ノードＮＤ１の文脈領域から走査し始め、段落ノー
ドＮＤ２，箇条書きノードＮＤ３，箇条書き項目ノード
ＮＤ４，箇条書きノードＮＤ５，箇条書き項目ノードＮ
Ｄ６と走査して、下位の文脈領域を持たない箇条書き項
目ノードＮＤ６を最下位の文脈領域として発見する。

【０１９７】次に、ステップ３１０２では、この最下位
の文脈領域を概念記述領域の候補領域と仮定して、ステ
ップ３１０３において、文脈情報３１０４からの概念情
報候補の抽出を試みる。この際、抽出すべき属性情報
は、文脈情報として候補領域外に押しやられている場合
もあるため、候補領域より上位の文脈領域に、図１６の
ステップ１６０２の文脈情報抽出処理で保存しておいた
文脈情報３１０４を、属性情報の候補として活用できる
ものとする。また、仮定した候補領域の下位の文脈領域
の文脈情報も活用できるものとする。すなわち、・現在
候補領域として仮定している概念記述領域に保存されて
いる文脈情報、・候補領域が持つ下位の文脈領域に保存
されている文脈情報、・下位の文脈領域が持つ更に下位
の文脈領域に保存されている文脈情報、・候補領域が参
照している上位の文脈領域に保存されている文脈情報、
・上位の文脈領域が参照している更に上位の文脈領域に
保存されている文脈情報、を全て活用して概念情報の抽
出を行うことになり、階層的な文脈を有効に活用した概
念情報抽出が可能になる。図４の自然言語文書の例にお
いて、ノードＮＤ６の場合だと、ノードＮＤ６自身と、
上位文脈領域であるノードＮＤ５，ＮＤ４，ＮＤ３，Ｎ
Ｄ２，ＮＤ１の全てを調べて、図３２に示すような概念
情報候補が抽出される。

【０１９８】次に、ステップ３１０５および３１０８で
は、概念情報の必要十分性のチェックを行う。ここで、
「概念情報の必要十分性が言える条件」としては、以下
の３つの条件を満たす必要がある。すなわち、第１の必
要十分条件として、抽出すべき概念を特徴づける必須属
性の情報が抽出されていること、第２の必要十分条件と
して、複数の概念単位（図４の自然言語文書の例では複
数の製品）を候補領域中に含まないこと、並びに、第３
の必要十分条件として、新規の情報を含んでいることで
ある。

【０１９９】まず、第１の必要十分条件の「抽出すべき
概念を特徴づける必須属性」とは、その概念の１単位
（図４の自然言語文書の例では１製品）を決定するユニ
ークキーとなる情報であり、概念キー知識３１０６とし
て予め設定されるものである。例えば、図３２に示す製
品テーブルの場合には、メーカー，製品および型式のカ
ラムのセットで１つの製品を表すとすることができるの
で、この場合の概念キー知識３１０６は、図３３に示す
ようになる。

【０２００】次に、第２の必要十分条件の複数の概念単
位を含んでいるかどうかのチェックは、上記概念キー知
識３１０６を活用して行う。すなわち、概念キー知識３
１０６に相当する属性が複数抽出されたかどうかをチェ
ックし、複数含む場合は、概念単位が複数であるとして
当該第２の必要十分条件を満たさないとする。例えば、
概念記述領域の候補領域として、ノードＮＤ５を仮定し
た場合、抽出される概念情報候補は図３４に示すように
なる。図３４では、メーカー，製品および型式の組み合
わせのデータが２つ抽出されているため、第２の必要十
分条件には合致しないとする。

【０２０１】次に、第３の必要十分条件の新規の情報を
含んでいるかどうかのチェックを行えるようにするため
に、既に抽出済みの概念情報が抽出済み概念情報３１０
７に保存されている必要がある。すなわち、この抽出済
み概念情報３１０７をチェックして、概念情報候補が包
含される抽出済み概念情報が存在すれば、第３の必要十
分条件は満たさないことになる。例えば、ノードＮＤ１
６のセルを候補領域とした場合に抽出される概念情報候
補は図３５に示す如くなり、この時、抽出済み概念情報
３１０７として、図３２に示した概念情報候補が保存さ
れていれば、図３５の概念情報候補は図３２の概念情報
に包含されるため、第３の必要十分条件は満たさないこ
とになる。別の例として、ノードＮＤ１６およびノード
ＮＤ１７のセルの上位文脈領域であるノードＮＤ１０の
行を候補領域として概念情報候補を抽出した場合には、
図３６に示すようになり、「医療用具承認番号」のカラ
ムの情報が図３２と比較して新規の情報なので、この場
合は逆に第３の必要十分条件を満たすことになる。

【０２０２】以上説明した第１から第３までの必要十分
条件のチェックにより、１つの概念情報候補に対する概
念情報の必要十分性がチェックできることとなる。な
お、上記説明の例では、抽出すべき概念のテーブルは
「製品テーブル」のみであるが、テーブルが複数ある場
合には、ステップ３１０８における概念情報の必要十分
性のチェックは、全てのテーブルに対して繰り返し行う
必要がある。

【０２０３】ステップ３１０８において、全ての概念抽
出対象となるテーブルについて概念情報の必要十分性が
言えないときには、ステップ３１０９に進んで、現在の
候補領域が最上位の文脈領域でない場合には、現在の候
補領域の上位の文脈領域を候補領域としてステップ３１
０３に戻る。すなわち、仮定したよりさらに上位の文脈
領域を概念記述領域の候補として仮定しなおして、上記
処理を繰り返す。ただし、上位の文脈領域が複数ある場
合には、複数の文脈領域について探索を繰り返すことに
なる。例えば、表の場合、セル単位で概念情報の必要十
分性が言えなかった場合、次の上位文脈は行単位か列単
位のいずれかであり、この両方をチェックしてみる必要
がある。また、より上位の文脈領域が存在しない場合、
すなわち現在の候補領域が最上位の文脈領域の場合に
は、ステップ３１１１において概念情報の重複解決処理
を行い、概念情報の抽出は終了する。

【０２０４】また、ステップ３１０８において、少なく
とも１つのテーブルについて概念情報の必要十分性が言
えた場合には、ステップ３１１２に進んで、抽出済み概
念情報として概念情報候補を保存し、ステップ３１１３
において、概念記述領域の候補領域を、現在の候補領域
と同レベルの次の領域、例えば現在の候補領域がノード
ＮＤ６の場合はノードＮＤ７を起点として最下位領域を
探索して発見し、文脈からの概念抽出処理を繰り返す。
同レベルに次の領域が存在しない場合には、上位の文脈
領域の次の領域、例えば現在の候補領域がノードＮＤ７
の場合はノードＮＤ８を候補領域探索の起点にする。ス
テップ３１１４において、さらに上位の文脈領域が存在
しない場合（現在が最上位の場合）には、ステップ３１
１１に進んで概念情報の重複解決処理を行い、概念情報
の抽出は終了する。

【０２０５】概念情報の重複解決処理（ステップ３１１
１）を行う前の段階では、抽出済み概念情報は図３７に
示すような状態になっている。これは最終的に目標とす
る図５の概念集合に非常に近い形にはなっているが、ノ
ードＮＤ６とＮＤ１０並びにノードＮＤ７とＮＤ１１で
抽出した概念が同一の製品に対する情報を記述してお
り、結果として概念情報の重複がおこっている。これを
解消するためにステップ３１１１では、概念キー知識３
１０６を再び用いて概念キーが同一の概念を探索し、も
し存在すれば重複情報を解消して１つの概念情報とする
ことで、最終的に図５に示したような概念情報が抽出さ
れることになる。

【０２０６】以上、この「３−２．文脈解析および構造
解析を用いた概念情報の抽出」で説明した文脈情報を用
いた概念抽出方式は、文書構造が存在しない自然言語文
書についての処理方式であった「３−１．意味解析を用
いた概念情報の抽出」の方式を包含したものとなってお
り、文書構造が存在しない図８や図１２のような自然言
語文書も、「３−１．意味解析を用いた概念情報の抽
出」と同等の精度で解析することが可能である。

【０２０７】ただし、自然言語文書の長文（文が多くて
１つの文書で複数の意図を伝えようとしているもの）を
含む場合には、自然言語文書のみで、文脈階層構造を形
成していると考えられるため、この「３−２．文脈解析
および構造解析を用いた概念情報の抽出」で説明したよ
うなタグによる文脈階層構造の解析のみではなく、主題
の推移や接続詞等に基づく文脈階層構造の解析を行う必
要がある。これを実現する手法は、例えば第４の文献
『吉田悦子, 横山晶一；” 主題・焦点を用いた文脈解
析の一手法”, 電子情報通信学会技術研究報告, Vol97,
No330, pp.1-8,(1997)』等に述べられている。

【０２０８】４．概念情報の登録以上のように、「３．概念情報の抽出」における概念情
報抽出処理によって、「２．概念集合の表現」で説明し
たような概念情報が抽出された。これは図２のフローチ
ャートにおけるステップ２０１の処理に相当する。ま
た、図４の自然言語文書の例では、図５の概念集合への
変換が終了したことになる。

【０２０９】このような概念集合においても、キーワー
ド集合と同様の重み付け処理を行って、概念と重みの数
値の組によって概念集合とすることも可能である。ここ
で求められた概念集合は、図１の概念登録装置１０２を
用いて、図２の文書ＩＤ２０５と共にステップ２０６に
おいてデータベース１０４に登録されることになる。こ
こで登録されるデータ構造は、従来例の転置インデック
ス（図５１参照）におけるキーワード部分を概念情報で
置き換えたものと考えられ、ここでは「概念情報転置イ
ンデックス」と呼ぶ。

【０２１０】図３８には、重み付け処理を行った場合の
概念情報転置インデックスの一例を示す。この重み付け
られた概念情報転置インデックスは、ある概念の各文書
に対する重みを求めることができるデータ構造を持って
おり、重み付け処理を行わない場合には、重み付け数値
の部分が、文書に含まれるまたは含まれないを表す２値
のフラグになる。

【０２１１】また、従来例のキーワードの転置インデッ
クス（図５１参照）と違って、索引の部分が複数の情報
の組み合わせでできているため、同一の概念の部分的情
報が、複数の文書から抽出されている可能性がある。す
なわち、価格は「文書１」、医療用具承認番号は「文書
３」に記述されていたというような場合である。これを
後で活用して、価格の情報が載っている文書を探したい
と思った場合に「文書１」を検索できるようにするため
に、対応する概念の属性の情報（以下では、対応属性情
報と呼ぶ）を保存しておくことも可能である。この対応
属性情報は、文書ＩＤとの組で保存される。この方式を
適用すれば、例えば、図３８の型式MC400という体温計
のレコードは、図３９に示すように各文書カラムに対応
属性情報を保持した形式となる。図３９に示した例で
は、キーとなるメーカー，製品および型式のカラムの情
報は、全ての文書に含まれるが、発売日、価格および医
療用具承認番号のカラムの情報は、それぞれ文書１、文
書２、文書３に別々に記載されていたことを表すことが
できる。

【０２１２】なお、複数の概念情報（例えば、製品と企
業など）を同時に抽出した場合には、図３８のような概
念情報転置インデックスが、概念情報の種類毎にでき
る。例えば、製品テーブルと企業テーブルを同時に概念
抽出した場合には、概念情報転置インデックスも、製品
概念情報転置インデックスと企業概念情報転置インデッ
クスの２つができることになる。

【０２１３】また、本実施形態では、文書の所在情報と
の組で概念情報を登録する方法を述べたが、実際には、
概念情報のみをデータベース１０４に登録するようにし
ても良い。この場合、図２のフローチャートにおいて、
ステップ２０４の文書ＩＤの取得および結果となる文書
ＩＤは省略され、ステップ２０６では概念情報のみがデ
ータベース１０４に登録されることになる。

【０２１４】５．概念情報の検索最後に、「１−３．情報検索処理」で概説した概念検索
の詳細について述べる。概念をレコードで表現した場
合、図３における検索概念集合３０６が表現すべきもの
は、以下の２点である。すなわち、第１に、どのテーブ
ルの情報或いはどのテーブルのどのカラムの情報が知り
たいのかであり、第２に、どのレコードの情報が知りた
いのかである。

【０２１５】第１の検索要求は、何らかの手段を用いて
テーブルやカラムを指定できるようにすることで可能に
なる。例えば、テーブルのカラムに「？」が記述されて
いる場合にそのカラムの情報を回答することにすると、
製品の発売日が知りたいという条件は、図４０に示すよ
うに表現できる。

【０２１６】また、第２の検索要求は、テーブルのカラ
ムに対して条件を記述できるようにすることで可能にな
る。例えば、価格が12,500円の製品を知りたいという条
件は、図４１に示すように表現できる。

【０２１７】図４０は、従来の情報抽出の結果と表現的
には同じものであるが、意味合い的に条件を表している
という点で異なる。しかし、表現が同じことで、情報登
録の際のアルゴリズムやデータ構造を情報検索にも流用
できるという利点がある。

【０２１８】また、図４０はテーブルのカラムを特定す
る実例であったが、テーブル全体について知りたいとい
う条件も考えられる。これを実現する手法としては、以
下の３つの方法が考えられる。第１の方法として、カラ
ムの条件が記述されており「？」が１つもないテーブル
はテーブル全体のことを知りたいものとする方法があ
り、第２の方法として、テーブルのすべてのカラムに
「？」をつける方法があり、第３の方法として、テーブ
ル全体のことを知りたいということを表現するための領
域を別に用意する方法がある。

【０２１９】第１の方法は、簡単に実現できるが、テー
ブル間の参照を用いて複数テーブルに条件が渡ってい
て、かつ、全てのテーブルについては知りたいと思って
いない場合に表現する方法が無いという欠点がある。ま
た、情報登録なのか情報検索なのかの判断を別の知識に
基づいて行わなければならないという欠点もある。また
第２の方法は、本当に各々のカラムについて知りたいの
か、全体について知りたいのかという意味の情報が抜け
落ちてしまう。

【０２２０】さらに第３の方法では、記憶領域が多くい
るが、最も情報欠落は少なく表現力が高いと考えられ
る。以下では、第３の方法を採用した具体例を述べる。

【０２２１】上記第３の方法に従えば、例えば、「オム
ロンの血圧計で価格が12,500円のものの発売日が知りた
い」という検索要求は、図４２に示すように表すことが
できる。図４２の表記例で述べていることは、基本的に
同一レコードに記述された条件は論理積の条件（すなわ
ちＡＮＤ条件）とみなすということである。また、論理
和の条件（すなわちＯＲ条件）を記述したい場合には、
テーブルにレコードを複数記述するか、テーブルのカラ
ムの中にＯＲ条件を記述できるようにするかのどちらか
で対処できる。

【０２２２】またさらに、テーブルのカラムが数値を表
している場合に、以上、以下等の不等号条件を記述した
い場合がある。この場合、条件として記述する数値の前
に比較演算子を記述することで表現する等と定めること
で単純な比較条件は記述できる。例えば、「オムロンの
15,000円以下の血圧計について知りたい」という検索要
求は、図４３に示すように表される。また同様に演算子
を拡張して、最小のものを求めたり、最大のものを求め
られるようにする方法も考えられる。

【０２２３】この他にも、文字列で表されるカラムにつ
いて前方一致条件や後方一致条件を記述できるようにし
て部分文字列マッチを可能にするように拡張する方法
や、文字列そのものの条件を記述する代わりに意味素を
記述できるようにして意味素に分類される文字列はすべ
てマッチするように拡張する等の方法も考えられる。

【０２２４】また、条件を記述したカラムの内容を知り
たい場合も想定し得る。文字列のExact Matchの場合
は、条件に書いた文字列そのものが答えになるため、あ
まり用途は思い浮かばないが、上記の数値の不等号条件
の場合や、文字列の部分文字列マッチや、意味素マッチ
の場合等には、条件で記述したものと実際に得られる文
字列は異なる可能性があるためである。これを表現可能
にするには、知りたいテーブルのカラムに「？」を記述
するという上記の方法では対処できなくなる。そのた
め、各カラムごとに「？」を記述するための回答要求欄
を設けることでこの問題を回避することができる。

【０２２５】例えば、図４４に示す具体例では、各カラ
ムごとに「？」を記述するための回答要求欄を設けてい
る。図４４では、「オムロンの血圧計で15,000円以下の
ものの型式と値段が知りたい」という検索要求を表して
いる。ここで、価格のカラムには、条件と「？」の両方
が記述されていることに注意する必要がある。

【０２２６】なお、これまでの議論は、主に図３のフロ
ーチャートの検索概念抽出処理（ステップ３０２）を
考えるための下準備であったが、検索文のパース（ステ
ップ３０４）において、概念検索文３０５から直接的に
検索概念集合３０６を作成する際にも応用できる。

【０２２７】まず、概念検索文３０５をＳＱＬと同等
（あるいはそのサブセット）のものにする場合を考え
る。この場合、上記の「？」に相当するのが、ＳＥＬＥ
ＣＴ文の「SELECT」の直後に記述するカラム名である。
また、上記の各カラムに記述する条件式は、ＳＥＬＥＣ
Ｔ文の「WHERE」の後に記述する条件式に相当する。こ
れによって、ＳＱＬのサブセットを上記の図４０から図
４４の表現に変換することは容易であり、この場合、検
索文のパース（ステップ３０４）はその変換処理に相当
する。これによって、例えば「SELECT 型式，価格 FROM
製品テーブル WHERE メーカー="オムロン" AND 製品="
血圧計" AND 価格<=15000;」というＳＱＬが図４４の表
現に変換される。また、テーブル全体を知るためのカラ
ムは、「SELECT *」と同等とみなすことができる。

【０２２８】また、概念検索文３０５をＳＱＬのような
ものにするのではなく、ＧＵＩで図４０〜図４４のよう
な表現そのものを実現することにより、ＳＱＬ等の記述
法に関する専門的知識がなくとも検索概念集合を作成で
きるＧＵＩ等を実現することも可能である。

【０２２９】以上のような検索概念集合３０６の表現方
法を用いて、以下では、ＷＷＷページ検索システムの情
報検索処理（図３）において自然言語検索文３０３を検
索概念集合３０６に変換する検索概念抽出処理（ステッ
プ３０２）の実現方法について述べる。ここでは、基
本的に「３−２．文脈解析および構造解析を用いた概念
情報の抽出」で説明した処理と同様の処理を行うものと
する。

【０２３０】今、図２３および図２４の文脈情報抽出知
識を拡張して、情報登録処理および情報検索処理の両方
に使用できる一般的な情報抽出知識とする方法を考え
る。図２３および図２４の知識は、現在着目している
「抽出要素」に対して適用され、適用できるようなら
「抽出カラム」への対応度が高まり、最終的に「抽出カ
ラム」に「抽出要素」そのものが概念情報として保存さ
れる。これを拡張して、図４０から図４４で述べたよう
な表現方法を適用できるようにするには、登録の意図へ
の対応度を高める知識と、検索の意図への対応度を高め
る知識を別々に集計して、最終的に検索の意図への対応
度が高かった場合には、対応する概念情報のカラムに
「？」を保存すれば良い。あとは意味的整合性のため
に、図２３および図２４の文脈情報抽出知識におけるカ
ラム名の幾つかを以下のように変更する。しかし、それ
ぞれに対するアルゴリズム上の扱いは同じである。

【０２３１】「抽出カラム」→「対象カラム」「抽出要素の意味素」→「着目要素」「抽出要素の後置要素」→「着目要素の後置要素」このような変更部分を反映した情報抽出知識を図４５，
図４６，図４７および図４８に示す。ここでは上記３つ
のカラム名の変更と、「意図」のカラムの追加が行われ
ており、意図のカラムに「登録」と記述してある知識に
マッチした場合は、着目要素そのものを概念情報に保存
し、「検索」と記述してある知識にマッチした場合は、
「？」を概念情報に保存するようにする。

【０２３２】図４５から図４８までの情報抽出知識を用
いて検索概念情報の抽出を行う場合、図２５の文脈情報
抽出処理のフローチャートにおける抽出カラム（対象カ
ラム）への対応度を更新する処理（ステップ２５１０）
の際に、対象カラムと意図の組毎に対応度を求めるよう
にする。すなわち、「製品テーブル.メーカー（登
録）」と「製品テーブル.メーカー（検索）」は別物と
考えるわけである。

【０２３３】そして、文脈情報抽出処理（図２５）の文
脈情報保存領域に対応カラムと抽出要素を保存する処理
（ステップ２５１４）において、対応カラムが登録意図
のものならば、抽出要素（着目要素）を文脈情報として
保存し、対応カラムが検索意図のものならば、「？」を
文脈情報として保存する。

【０２３４】後の処理は、「？」も他の情報と全く同等
に扱うことによって、検索概念情報の抽出が可能とな
る。ただし、図３１の概念記述領域決定と概念情報抽出
処理のフローチャートにおける概念情報としての必要十
分性のチェック（ステップ３１０５）の際には概念キー
知識３１０６を用いたチェックのみを行っていたが、上
記で説明した「テーブル全体について知りたい」という
条件が抽出されていた場合には、この条件一つで概念キ
ーに相当するとみなし、十分性は言えるものとする。

【０２３５】以上で、ＷＷＷページ検索システムの情報
検索処理（図３）において自然言語検索文３０３を検索
概念集合３０６に変換する検索概念抽出処理（ステップ
３０２）の説明を終わる。次に、データベース１０４
からの概念検索処理（ステップ３０７）について述べ
る。

【０２３６】上述のように、図４０から図４４の表現
は、ＳＱＬのＳＥＬＥＣＴ文のサブセットと考えること
ができ、相互変換は容易である。したがって、検索概念
集合３０６をＳＱＬに変換し、通常のリレーショナルデ
ータベースに保存された概念情報を検索することは、公
知技術の範囲内でおこなうことが可能である。

【０２３７】６．実施形態の効果以上説明したように、本実施形態の情報検索システム
（ＷＷＷページ検索システム）では、概念抽出装置１０
１により、自然言語文書２０２中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に情報を構造化した概念情
報を抽出し、該抽出した概念情報を概念登録装置１０２
によってデータベース１０４に登録し、概念検索装置１
０３により、ユーザの検索要求にしたがってデータベー
ス１０４に登録された概念情報から必要な概念情報を検
索する。このように、キーワード間の関係を表す構文
的、意味的、文脈的および構造的な各情報を含む概念情
報を抽出して登録し、キーワード間の関係情報を活用し
て概念単位または属性単位の情報を条件とした検索を行
うので、キーワード間の関係を表す情報の欠落を防ぐと
共に、該概念情報を有効に活用して精度の高い情報検索
が可能となる。

【０２３８】また、本実施形態の情報検索システム（Ｗ
ＷＷページ検索システム）では、概念抽出装置１０１に
より、自然言語文書２０２中から抽出したキーワード情
報および該キーワード間の関係を表す情報に基づいて、
概念単位または属性単位に情報を構造化した概念情報を
抽出し、該抽出した概念情報を概念登録装置１０２によ
ってデータベース１０４に登録し、概念検索文解析装置
１０５（概念検索装置）により、ユーザが与える自然言
語検索文中から抽出したキーワード情報および該キーワ
ード間の関係を表す情報に基づいて、概念単位または属
性単位に情報を構造化した検索概念情報を抽出し、該抽
出した検索概念情報にしたがってデータベースに登録さ
れた概念情報から必要な概念情報を検索する。これによ
り、キーワード間の関係を表す構文的、意味的、文脈的
および構造的な各情報を含む概念情報を抽出して登録
し、また自然言語検索文についても検索概念情報を抽出
して、キーワード間の関係情報を活用して概念単位また
は属性単位の情報を条件とした検索を行うので、キーワ
ード間の関係を表す情報の欠落を防ぐと共に、該概念情
報を有効に活用して精度の高い情報検索が可能となる。

【０２３９】従来例は、キーワード抽出を基本とした情
報登録装置および情報検索装置を備えた情報検索システ
ムであり、キーワードを含んだ検索文の問い合わせに対
して元の情報の所在位置を特定して出力する（或いは元
の情報そのものを出力する）ことを可能としていた。こ
れに対して本実施形態は、概念抽出を基本とした概念登
録装置および概念検索装置を備えた情報検索システムで
あり、抽出した概念情報中にも構造化された情報を保持
しているため、元の情報を表示しなくとも検索に回答す
ることも可能である。

【０２４０】例えば、図５に示すように抽出された概念
情報に対して、図４２に示す内容の情報検索を行った場
合、検索結果は「1996/11/01」になる。この場合、元の
情報の所在情報は必要ないかもしれない。しかし、「…
の製品についてできるだけたくさんの情報が欲しい」と
いう場合に、図３８に示すような概念情報転置インデッ
クスの形で、概念情報と文書所在情報が組み合わされて
いることにより検索精度は向上し、かつ、元の文書の情
報も表示することができ、正確で、かつ、情報量の多い
情報検索が可能になる。

【０２４１】すなわち、概念抽出を用いた概念登録装置
および概念検索装置を備えた情報検索システムは、キー
ワード抽出を基本とした従来の情報登録装置および情報
検索装置が持っていた検索機能の検索精度を一層向上さ
せ得るという効果と、概念情報という形で構造化された
情報を持つことで、元の文書を用いずに回答できるとい
う新しい検索機能をも実現可能であるという効果があ
る。

【０２４２】

【発明の効果】以上の説明から明らかなように、本発明
によれば、概念抽出装置（概念抽出ステップ）により、
自然言語文書中から抽出したキーワード情報および該キ
ーワード間の関係を表す情報に基づいて、概念単位また
は属性単位に情報を構造化した概念情報を抽出し、該抽
出した概念情報を概念登録装置（概念登録ステップ）に
よってデータベースに登録し、概念検索装置（概念検索
ステップ）により、ユーザの検索要求にしたがってデー
タベースに登録された概念情報から必要な概念情報を検
索することとし、キーワード間の関係を表す構文的、意
味的、文脈的および構造的な各情報を含む概念情報を抽
出して登録し、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。

【０２４３】また、本発明によれば、概念抽出装置（概
念抽出ステップ）により、自然言語文書中から抽出した
キーワード情報および該キーワード間の関係を表す情報
に基づいて、概念単位または属性単位に情報を構造化し
た概念情報を抽出し、該抽出した概念情報を概念登録装
置（概念登録ステップ）によってデータベースに登録
し、概念検索装置（概念検索ステップ）により、ユーザ
が与える自然言語検索文中から抽出したキーワード情報
および該キーワード間の関係を表す情報に基づいて、概
念単位または属性単位に情報を構造化した検索概念情報
を抽出し、該抽出した検索概念情報にしたがってデータ
ベースに登録された概念情報から必要な概念情報を検索
することとし、キーワード間の関係を表す構文的、意味
的、文脈的および構造的な各情報を含む概念情報を抽出
して登録し、また自然言語検索文についても検索概念情
報を抽出して、キーワード間の関係情報を活用して概念
単位または属性単位の情報を条件とした検索を行うこと
としたので、キーワード間の関係を表す情報の欠落を防
ぐと共に、該概念情報を有効に活用して精度の高い情報
検索が可能な情報検索システム、情報検索システムにお
ける情報処理方法および記録媒体を提供することができ
る。

【０２４４】また、本発明によれば、概念登録装置（概
念登録ステップ）において、抽出した概念情報を、自然
言語文書の文書所在情報との組による転置インデックス
形式で、或いは、文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、データベース
に登録することとし、概念情報を出力結果とするだけで
はなく元の文書の情報をも活用できるので、検索結果と
して出力し得る情報量を増やすことができ、また、概念
情報の一部である属性情報がどの文書に記述されていた
かを特定できるので、適切な文書のみを検索結果として
提示することが可能な情報検索システム、情報検索シス
テムにおける情報処理方法および記録媒体を提供するこ
とができる。

【０２４５】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、形態素解析装置（形態素解
析ステップ）により自然言語文書中から形態素を抜き出
し、動詞抽出装置（動詞抽出ステップ）により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
（格要素特定ステップ）により、動詞が依存する意味素
の情報を記述した動詞格フレーム辞書と意味素の表層的
定義を行う意味素辞書とを参照して、動詞に対応する格
要素を特定し、格要素からの概念作成装置（格要素から
の概念作成ステップ）により、格要素と概念との対応情
報に基づいて概念情報を作成することとし、動詞が依存
する意味素の情報を活用して、キーワード間の関係を表
す構文的および意味的な各情報を含む概念情報を抽出し
て登録し、キーワード間の関係情報を活用した検索を行
うこととしたので、キーワード間の関係を表す情報、特
に構文的・意味的情報の欠落を防ぐと共に、該概念情報
を有効に活用して精度の高い情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。

【０２４６】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、形態素解析装置（形態素解
析ステップ）により自然言語文書中から形態素を抜き出
し、動詞抽出装置（動詞抽出ステップ）により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
（格要素特定ステップ）により、動詞が依存する表層格
の情報を記述した動詞格フレーム辞書を参照して動詞に
対応する格要素を特定し、格要素からの概念作成装置
（格要素からの概念作成ステップ）により、格要素と概
念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する表層格要素の情報を活用して意味素
辞書を具備することなしに、キーワード間の関係を表す
構文的および意味的な各情報を含む概念情報を抽出して
登録し、キーワード間の関係情報を活用した検索を行う
こととしたので、キーワード間の関係を表す情報、特に
構文的・意味的情報の欠落を防ぐと共に、該概念情報を
有効に活用してより簡潔な構成で精度の高い情報検索が
可能な情報検索システム、情報検索システムにおける情
報処理方法および記録媒体を提供することができる。

【０２４７】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、形態素解析装置（形態素解
析ステップ）により自然言語文書中から形態素を抜き出
し、動詞抽出装置（動詞抽出ステップ）により抜き出さ
れた形態素中の動詞成分のみを抽出し、格要素特定装置
（格要素特定ステップ）により、動詞が依存する意味素
の情報と表層格の情報を記述した動詞格フレーム辞書と
意味素の表層的定義を行う意味素辞書とを参照して、動
詞に対応する格要素を特定し、格要素からの概念作成装
置（格要素からの概念作成ステップ）により、格要素と
概念との対応情報に基づいて概念情報を作成することと
し、動詞が依存する意味素の情報と表層格の情報を活用
して、キーワード間の関係を表す構文的および意味的な
各情報を含む概念情報を抽出して登録することとしたの
で、表層格を表す格助詞が省略された文の場合や、同一
の意味素が複数含まれる文の場合等にも格要素を特定す
ることが可能となり、またキーワード間の関係情報を活
用した検索を行うので、キーワード間の関係を表す情
報、特に構文的・意味的情報の欠落を防ぐと共に、該概
念情報を有効に活用して精度の高い情報検索が可能な情
報検索システム、情報検索システムにおける情報処理方
法および記録媒体を提供することができる。

【０２４８】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、形態素解析装置（形態素解
析ステップ）により自然言語文書中から形態素を抜き出
し、抜き出された各形態素（以下、着目要素という）の
意味素の条件と、着目要素が共起する共起要素の条件
と、着目要素および共起要素の付属要素の条件と、共起
要素の出現位置の条件と、対応する概念のカラム（以
下、対応カラムという）の情報を記述した情報抽出知識
を参照して、対応カラム決定装置（対応カラム決定ステ
ップ）により、各対応カラムへの対応度を算出して最も
対応度の高い対応カラムに形態素を抽出するので、動詞
述語文、形容詞述語文、名詞述語文、単語のみの文、名
詞句のみの文、体言止めの文等からの概念情報の抽出を
行うことができ、該概念情報を有効に活用して精度の高
い情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。

【０２４９】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置（文脈階層構造解析ステッ
プ）により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、意味素と対応する概
念のカラムの情報を記述した文脈情報抽出知識を参照し
て、文脈情報抽出装置（文脈情報抽出ステップ）によ
り、自然言語文書中の文から文脈情報を抽出して文脈階
層構造情報中に該文脈情報を保存し、概念記述領域決定
型概念情報抽出装置（概念記述領域決定型概念情報抽出
ステップ）では、前記文脈階層構造情報および該文脈階
層構造情報の下位の文脈領域から上位の文脈領域に或い
は上位の文脈領域から下位の文脈領域にそれぞれ保存さ
れた文脈情報を活用して、概念情報が記述されている領
域を決定しながら前記概念情報を抽出することとし、文
書構造の持つ階層性を解析して、キーワード間の関係を
表す構文的、意味的、文脈的および構造的な各情報を含
む概念情報を抽出して登録し、キーワード間の関係情報
を活用して概念単位または属性単位の情報を条件とした
検索を行うこととしたので、段落や箇条書きに関する文
脈情報、箇条書きに関する構造情報、表に関する文脈・
構造情報、並びに、構文的・意味的情報等々、キーワー
ド間の関係を表す情報の欠落を防ぐと共に、文脈情報お
よび概念情報を有効に活用してより精度の高い情報検索
が可能な情報検索システム、情報検索システムにおける
情報処理方法および記録媒体を提供することができる。

【０２５０】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、自然言語文書を階層化され
た文脈領域としてとらえ、各分脈領域についての開始ポ
イントの条件、終了ポイントの条件および下位となる文
脈領域の候補について記述した文脈領域抽出知識を参照
して、文脈階層構造解析装置（文脈階層構造解析ステッ
プ）により、自然言語文書の文書構造が持つ階層性を解
析して文脈階層構造情報を作成し、文脈情報抽出装置
（文脈情報抽出ステップ）においては、形態素解析装置
（形態素解析ステップ）により自然言語文書中から形態
素を抜き出し、抜き出された各形態素（以下、着目要素
という）の意味素の条件と、着目要素が共起する共起要
素の条件と、着目要素および共起要素の付属要素の条件
と、共起要素の出現位置の条件と、対応する概念のカラ
ム（以下、対応カラムという）の情報を記述した情報抽
出知識を参照して、対応カラム決定装置（対応カラム決
定ステップ）により、各対応カラムへの対応度を算出し
て最も対応度の高い対応カラムに形態素を抽出すること
により、自然言語文書中の文から文脈情報を抽出して文
脈階層構造情報中に文脈情報を保存し、概念記述領域決
定型概念情報抽出装置（概念記述領域決定型概念情報抽
出ステップ）では、文脈階層構造情報および該文脈階層
構造情報の下位の文脈領域から上位の文脈領域に或いは
上位の文脈領域から下位の文脈領域にそれぞれ保存され
た文脈情報を活用して、概念情報が記述されている領域
を決定しながら前記概念情報を抽出することとし、文書
構造の持つ階層性を解析して、キーワード間の関係を表
す構文的、意味的、文脈的および構造的な各情報を含む
概念情報を抽出して登録し、キーワード間の関係情報を
活用して概念単位または属性単位の情報を条件とした検
索を行うこととしたので、段落や箇条書きに関する文脈
情報、箇条書きに関する構造情報、表に関する文脈・構
造情報、並びに、構文的・意味的情報等々、キーワード
間の関係を表す情報の欠落を防ぐと共に、文脈情報およ
び概念情報を有効に活用してより精度の高い情報検索を
実現でき、特に、共起要素を複数規定できたり、共起要
素の出現位置をより柔軟に記述できることで、動詞述語
文、形容詞述語文、名詞述語文、単語のみの文、名詞句
のみの文、体言止めの文等からの高い精度での文脈情報
の抽出が可能な情報検索システム、情報検索システムに
おける情報処理方法および記録媒体を提供することがで
きる。

【０２５１】また、本発明によれば、情報抽出知識を、
着目要素の意味素の条件、共起要素の条件、付属要素の
条件および共起要素の出現位置の条件を、正規表現等の
パターン記述知識として記述して構築することとしたの
で、共起要素を複数規定できたり、共起要素の出現位置
をより柔軟に記述できることで、動詞述語文、形容詞述
語文、名詞述語文、単語のみの文、名詞句のみの文、体
言止めの文等からの概念情報または文脈情報の抽出をよ
り高い精度で行うことができ、該概念情報または文脈情
報を有効に活用して精度の高い情報検索が可能な情報検
索システム、情報検索システムにおける情報処理方法お
よび記録媒体を提供することができる。

【０２５２】また、本発明によれば、概念抽出装置（概
念抽出ステップ）において、情報抽出知識のある知識が
合致した場合に、該知識と共起しやすい知識を活性化さ
せ、共起しにくい知識は抑制化する知識間相関ルールを
参照するので、高い精度で対応カラムの決定が可能にな
り、結果として、高い精度の情報検索が可能な情報検索
システム、情報検索システムにおける情報処理方法およ
び記録媒体を提供することができる。

【０２５３】また、本発明によれば、対応カラム決定装
置（対応カラム決定ステップ）において、対応度の算出
を各情報抽出知識毎に並列に、または対応カラムの決定
を各形態素毎に並列に処理するので、高速処理が可能な
情報検索システム、情報検索システムにおける情報処理
方法および記録媒体を提供することができる。

【０２５４】また、本発明によれば、概念記述領域決定
型概念情報抽出装置（概念記述領域決定型概念情報抽出
ステップ）において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて、前記必須
属性の抽出、複数の概念単位を含まないことのチェッ
ク、並びに、新規の情報を含んでいることのチェックを
行って概念情報の必要十分性をチェックするので、概念
単位の情報抽出の精度が高められ、結果として高い精度
の情報検索が可能な情報検索システム、情報検索システ
ムにおける情報処理方法および記録媒体を提供すること
ができる。

【０２５５】また、本発明によれば、概念記述領域決定
型概念情報抽出装置（概念記述領域決定型概念情報抽出
ステップ）において、概念記述領域を決定しながら概念
情報を抽出する際に、抽出すべき概念を特徴づける概念
の必須属性を記述した概念キー知識を用いて抽出済みの
概念情報の重複を解消するので、概念単位の情報抽出の
精度が高められ、結果として高い精度の情報検索が可能
な情報検索システム、情報検索システムにおける情報処
理方法および記録媒体を提供することができる。

【０２５６】さらに、本発明によれば、概念抽出装置に
おいて、形態素解析装置により自然言語文書中から形態
素を抜き出し、構文解析装置により構文を解析し、構文
要素からの概念作成装置により、構文解析装置の結果か
らガ格・ヲ格、主語・述語、係り・受け等の構文要素の
うち予め設定された構文要素を抽出して概念情報を作成
するので、意味素辞書を具備することなしに、構文解析
結果のみからキーワード間の関係を表す構文的な情報を
含む概念情報を抽出して登録し、キーワード間の関係情
報を活用した検索を行うので、キーワード間の関係を表
す情報、特に構文的情報の欠落を防ぐと共に、該概念情
報を有効に活用してより簡潔な構成で精度の高い情報検
索が可能な情報検索システム、情報検索システムにおけ
る情報処理方法および記録媒体を提供することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る情報検索システムの
構成図である。

【図２】実施形態のＷＷＷページ検索システムにおける
情報登録処理の手順を説明するフローチャートである。

【図３】実施形態のＷＷＷページ検索システムにおける
情報検索処理の手順を説明するフローチャートである。

【図４】自然言語文書を例示する説明図である。

【図５】自然言語文書から抽出した概念集合（テーブ
ル）を例示する説明図である。

【図６】意味解析を用いた概念抽出装置のシステム構成
図である。

【図７】意味解析を用いた概念情報抽出処理を説明する
フローチャートである。

【図８】意味解析を用いた概念情報抽出処理における自
然言語文書（第１の具体例）を例示する説明図である。

【図９】図８の自然言語文書からの抽出結果である概念
情報（製品テーブル）を例示する説明図である。

【図１０】概念への対応情報を付加した動詞格フレーム
辞書を例示する説明図である。

【図１１】意味素辞書を例示する説明図である。

【図１２】意味解析を用いた概念情報抽出処理における
自然言語文書（第２の具体例）を例示する説明図であ
る。

【図１３】図８の自然言語文書からの抽出結果である概
念情報（製品テーブル）を例示する説明図である。

【図１４】意味素間の相関関係を例示する説明図であ
る。

【図１５】実施形態における文脈・構造解析を用いた概
念情報抽出装置のシステム構成図である。

【図１６】文脈・構造解析を用いた概念情報抽出処理を
説明するフローチャートである。

【図１７】図４の自然言語文書について文脈構造解析を
行った結果であり、自然言語文書と文脈領域との対応関
係を例示する説明図である。

【図１８】図４の自然言語文書について文脈構造解析を
行った結果であり、文脈階層構造を表す内部データ構造
を例示する説明図である。

【図１９】図４の自然言語文書をＨＴＭＬで記述したと
きの自然言語文書を例示する説明図である。

【図２０】文脈領域の抽出知識を例示する説明図であ
る。

【図２１】文脈階層構造の解析処理の手順を説明するフ
ローチャートである。

【図２２】意味素のみを活用した形式の文脈情報抽出知
識を例示する説明図である。

【図２３】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
（その１）である。

【図２４】抽出要素・共起要素の意味素・言語マーカー
・語順等を活用した文脈情報抽出知識を例示する説明図
（その２）である。

【図２５】文脈情報抽出知識を活用して文脈情報を抽出
する処理手順を説明するフローチャートである。

【図２６】知識間相関ルールを例示する説明図である。

【図２７】抽出カラム対応度テーブルを例示する説明図
である。

【図２８】処理途中の文脈情報の状態を例示する説明図
である。

【図２９】文脈情報抽出知識を活用して抽出された文脈
情報を例示する説明図である。

【図３０】拡張された正規表現で記述した文脈情報抽出
知識を例示する説明図である。

【図３１】概念記述領域決定と概念情報抽出の処理手順
を説明するフローチャートである。

【図３２】抽出された概念情報候補を例示する説明図で
ある。

【図３３】概念キー知識を例示する説明図である。

【図３４】概念記述領域の候補領域としてノードＮＤ５
を仮定した場合に抽出される概念情報候補を例示する説
明図である。

【図３５】ノードＮＤ１６のセルを候補領域とした場合
に抽出される概念情報候補を例示する説明図である。

【図３６】ノードＮＤ１０の行を候補領域とした場合に
抽出される概念情報候補を例示する説明図である。

【図３７】概念情報の重複解決処理前の段階での抽出済
み概念情報の状態を例示する説明図である。

【図３８】重み付け処理を行った場合の概念情報転置イ
ンデックスを例示する説明図である。

【図３９】対応属性情報を保持した形式の概念情報転置
インデックスを例示する説明図である。

【図４０】検索概念集合の一例（その１）を例示する説
明図である。

【図４１】検索概念集合の一例（その２）を例示する説
明図である。

【図４２】検索概念集合の一例（その３）を例示する説
明図である。

【図４３】検索概念集合の一例（その４）を例示する説
明図である。

【図４４】検索概念集合の一例（その５）を例示する説
明図である。

【図４５】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図（その１）である。

【図４６】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図（その２）である。

【図４７】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図（その３）である。

【図４８】保存要素の指定を可能にして一般化した情報
抽出知識を例示する説明図（その４）である。

【図４９】従来例のＷＷＷページ検索システムのシステ
ム構成を表す構成図である。

【図５０】従来例のＷＷＷページ検索システムにおける
情報登録処理の一般的手順を説明するフローチャートで
ある。

【図５１】キーワードへの重み付け処理を行った場合の
転置インデックスを例示する説明図である。

【図５２】図４の自然言語文書を情報登録した場合に抽
出されるキーワード集合を例示する説明図である。

【図５３】従来例のＷＷＷページ検索システムにおける
情報検索処理の一般的手順を説明するフローチャートで
ある。

【符号の説明】

１０１概念抽出装置１０２概念登録装置１０３概念検索装置１０４，４９０８データベース１０５概念検索文解析装置１０６，４９０９ＣＰＵ１０７，４９１０メインメモリ１０８，４９１１ディスプレイ１０９，４９１２キーボード１１０，４９１３自然言語文書群１１１，４９１４データバス１１２，４９１５インターネット２０２，３０３，７０２，２５０２自然言語文書２０３概念集合２０５，５００８文書ＩＤ３０５概念検索文３０６検索概念集合６０１形態素解析装置６０２動詞抽出装置６０３格要素特定装置６０４格要素からの概念作成装置６０５動詞格フレーム辞書６０６意味素辞書６０７格要素・概念対応情報７０３，２５０３形態素７１１，３１１５概念情報１５０１文脈階層構造解析装置１５０２文脈情報抽出装置１５０３概念記述領域決定型概念情報抽出装置ＡＲ１〜ＡＲ２５文脈領域ＮＤ１〜ＮＤ２５ノードＲＡ１．１〜ＲＡ６．２，ＲＢ１．１〜ＲＢ６．２
知識ＩＤ２５０８文脈情報抽出知識２５１５，３１０４文脈情報３１０６概念キー知識３１０７抽出済み概念情報ＲＣ１．１〜ＲＣ７．６知識ＩＤ４９０１キーワード抽出装置４９０２形態素解析装置４９０３ストップワード除去装置４９０４ステミング処理装置４９０５キーワードへの重み付け装置４９０６キーワード登録装置４９０７キーワード検索装置４９１６キーワード検索文解析装置５００２，５３０３自然言語文書５００６キーワード集合５３０６キーワード検索文５３０８検索キーワード集合

───────────────────────────────────────────────────── フロントページの続き (72)発明者加茂正充京都府京都市右京区花園土堂町10番地オムロン株式会社内

Claims

【特許請求の範囲】

【請求項１】自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
装置と、を具備し、前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。
【請求項２】自然言語文書中から抽出したキーワード
情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出装置と、前記概念抽出装置により抽出した概念情報をデータベー
スに登録する概念登録装置と、ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索装置と、を具備し、前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システム。
【請求項３】前記概念登録装置は、前記概念抽出装置
により抽出した概念情報を、前記自然言語文書の文書所
在情報との組による転置インデックス形式で、或いは、
前記文書所在情報および該文書中に前記概念情報のどの
属性が記述されていたかを表す対応属性情報との組によ
る転置インデックス形式で、前記データベースに登録す
ることを特徴とする請求項１または２に記載の情報検索
システム。
【請求項４】前記概念抽出装置は、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、前記意味素の表層的定義を行う意味素辞書と、前記動詞に対応する格要素を特定する格要素特定装置
と、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項１、２または３に記載の情
報検索システム。
【請求項５】前記概念抽出装置は、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、動詞が依存する表層格の情報を記述した動詞格フレーム
辞書と、前記動詞に対応する格要素を特定する格要素特定装置
と、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項１、２または３に記載
の情報検索システム。
【請求項６】前記概念抽出装置は、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出装置と、動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、前記意味素の表層的定義を行う意味素辞書と、前記動詞に対応する格要素を特定する格要素特定装置
と、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成装置と、を具備し、動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項１、２また
は３に記載の情報検索システム。
【請求項７】前記概念抽出装置は、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された各形態素（以下、着目要素という）の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム（以下、対応カラムという）の情報を記述した
情報抽出知識と、前記各対応カラムへの対応度を算出して最も対応度の高
い対応カラムに形態素を抽出する対応カラム決定装置
と、を具備することを特徴とする請求項１、２または３
に記載の情報検索システム。
【請求項８】前記概念抽出装置は、前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を備えて、前記自然言語文書中の文から文脈
情報を抽出して、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出装置と、前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項１、２ま
たは３に記載の情報検索システム。
【請求項９】前記概念抽出装置は、前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を備えて、前記自然言語文書
の文書構造が持つ階層性を解析して文脈階層構造情報を
作成する文脈階層構造解析装置と、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、前記抜き出された各形態素（以下、着目要素とい
う）の意味素の条件と、前記着目要素が共起する共起要
素の条件と、前記着目要素および前記共起要素の付属要
素の条件と、前記共起要素の出現位置の条件と、対応す
る概念のカラム（以下、対応カラムという）の情報を記
述した情報抽出知識と、前記各対応カラムへの対応度を
算出して最も対応度の高い対応カラムに形態素を抽出す
る対応カラム決定装置と、を備えて前記自然言語文書中
の文から文脈情報を抽出して、前記文脈階層構造情報中
に文脈情報を保存する文脈情報抽出装置と、前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出装置と、を具備することを特徴とする請求項１、２ま
たは３に記載の情報検索システム。
【請求項１０】前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項７または９に記載の情報検索システム。
【請求項１１】前記概念抽出装置は、前記情報抽出知
識のある知識が合致した場合に、該知識と共起しやすい
知識を活性化させ、共起しにくい知識は抑制化する知識
間相関ルールを具備することを特徴とする請求項７、９
または１０に記載の情報検索システム。
【請求項１２】前記対応カラム決定装置は、前記対応
度の算出を各情報抽出知識毎に並列に、または前記対応
カラムの決定を各形態素毎に並列に処理することを特徴
とする請求項７、９、１０または１１に記載の情報検索
システム。
【請求項１３】前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて、前記必須属性の抽出、複数の概念単
位を含まないことのチェック、並びに、新規の情報を含
んでいることのチェックを行って概念情報の必要十分性
をチェックすることを特徴とする請求項８、９、１０、
１１または１２に記載の情報検索システム。
【請求項１４】前記概念抽出装置は、抽出すべき概念
を特徴づける概念の必須属性を記述した概念知識キーを
具備し、前記概念記述領域決定型概念情報抽出装置は、概念記述
領域を決定しながら概念情報を抽出する際に、前記概念
キー知識を用いて抽出済みの概念情報の重複を解消する
ことを特徴とする請求項８、９、１０、１１、１２また
は１３に記載の情報検索システム。
【請求項１５】前記概念抽出装置は、前記自然言語文書中から形態素を抜き出す形態素解析装
置と、構文を解析する構文解析装置と、前記構文解析装置の結果からガ格・ヲ格、主語・述語、
係り・受け等の構文要素のうち予め設定された構文要素
を抽出して概念情報を作成する構文要素からの概念作成
装置と、を具備し、前記構文解析結果のみから概念情報を抽出することを特
徴とする請求項１、２または３に記載の情報検索システ
ム。
【請求項１６】自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、ユーザの検索要求にしたがって前記データベースに登録
された概念情報から必要な概念情報を検索する概念検索
ステップと、を具備し、前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。
【請求項１７】自然言語文書中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した概
念情報を抽出する概念抽出ステップと、前記概念抽出ステップにより抽出した概念情報をデータ
ベースに登録する概念登録ステップと、ユーザが与える自然言語検索文中から抽出したキーワー
ド情報および該キーワード間の関係を表す情報に基づい
て、概念単位または属性単位に前記情報を構造化した検
索概念情報を抽出し、該抽出した検索概念情報にしたが
って前記データベースに登録された概念情報から必要な
概念情報を検索する概念検索ステップと、を具備し、前記キーワード間の関係情報を活用して前記概念単位ま
たは前記属性単位の情報を条件とした検索を行うことを
特徴とする情報検索システムにおける情報処理方法。
【請求項１８】前記概念登録ステップは、前記概念抽
出ステップにより抽出した概念情報を、前記自然言語文
書の文書所在情報との組による転置インデックス形式
で、或いは、前記文書所在情報および該文書中に前記概
念情報のどの属性が記述されていたかを表す対応属性情
報との組による転置インデックス形式で、前記データベ
ースに登録することを特徴とする請求項１６または１７
に記載の情報検索システムにおける情報処理方法。
【請求項１９】前記概念抽出ステップは、前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、動詞が依存する意味素の情報を記述した動詞格フレーム
辞書と、前記意味素の表層的定義を行う意味素辞書とを
参照して、前記動詞に対応する格要素を特定する格要素
特定ステップと、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、動詞が依存する意味素の情報を活用して概念情報を抽出
することを特徴とする請求項１６、１７または１８に記
載の情報検索システムにおける情報処理方法。
【請求項２０】前記概念抽出ステップは、前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、動詞が依存する表層格の情報を記述した動詞格フレーム
辞書を参照して、前記動詞に対応する格要素を特定する
格要素特定ステップと、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、動詞が依存する表層格要素の情報を活用して概念情報を
抽出することを特徴とする請求項１６、１７または１８
に記載の情報検索システムにおける情報処理方法。
【請求項２１】前記概念抽出ステップは、前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された形態素中の動詞成分のみを抽出する動
詞抽出ステップと、動詞が依存する意味素の情報と表層格の情報を記述した
動詞格フレーム辞書と、前記意味素の表層的定義を行う
意味素辞書とを参照して、前記動詞に対応する格要素を
特定する格要素特定ステップと、前記格要素と概念との対応情報に基づいて概念情報を作
成する格要素からの概念作成ステップと、を具備し、動詞が依存する意味素の情報と表層格の情報を活用して
概念情報を抽出することを特徴とする請求項１６、１７
または１８に記載の情報検索システムにおける情報処理
方法。
【請求項２２】前記概念抽出ステップは、前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された各形態素（以下、着目要素という）の
意味素の条件と、前記着目要素が共起する共起要素の条
件と、前記着目要素および前記共起要素の付属要素の条
件と、前記共起要素の出現位置の条件と、対応する概念
のカラム（以下、対応カラムという）の情報を記述した
情報抽出知識を参照して、前記各対応カラムへの対応度
を算出して最も対応度の高い対応カラムに形態素を抽出
する対応カラム決定ステップと、を具備することを特徴
とする請求項１６、１７または１８に記載の情報検索シ
ステムにおける情報処理方法。
【請求項２３】前記概念抽出ステップは、前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、意味素と対応する概念のカラムの情報を記述した文脈情
報抽出知識を参照して、前記自然言語文書中の文から文
脈情報を抽出し、前記文脈階層構造情報中に文脈情報を
保存する文脈情報抽出ステップと、前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項１
６、１７または１８に記載の情報検索システムにおける
情報処理方法。
【請求項２４】前記概念抽出ステップは、前記自然言語文書を階層化された文脈領域としてとら
え、各分脈領域についての開始ポイントの条件、終了ポ
イントの条件および下位となる文脈領域の候補について
記述した文脈領域抽出知識を参照して、前記自然言語文
書の文書構造が持つ階層性を解析して文脈階層構造情報
を作成する文脈階層構造解析ステップと、前記自然言語文書中から形態素を抜き出す形態素解析ス
テップと、前記抜き出された各形態素（以下、着目要素
という）の意味素の条件と、前記着目要素が共起する共
起要素の条件と、前記着目要素および前記共起要素の付
属要素の条件と、前記共起要素の出現位置の条件と、対
応する概念のカラム（以下、対応カラムという）の情報
を記述した情報抽出知識を参照して、前記各対応カラム
への対応度を算出して最も対応度の高い対応カラムに形
態素を抽出する対応カラム決定ステップと、を備えて前
記自然言語文書中の文から文脈情報を抽出して、前記文
脈階層構造情報中に文脈情報を保存する文脈情報抽出ス
テップと、前記文脈階層構造情報および該文脈階層構造情報の下位
の文脈領域から上位の文脈領域に或いは上位の文脈領域
から下位の文脈領域にそれぞれ保存された文脈情報を活
用して、概念情報が記述されている領域を決定しながら
前記概念情報を抽出する概念記述領域決定型概念情報抽
出ステップと、を具備することを特徴とする請求項１
６、１７または１８に記載の情報検索システムにおける
情報処理方法。
【請求項２５】前記情報抽出知識は、前記着目要素の
意味素の条件、前記共起要素の条件、前記付属要素の条
件および前記共起要素の出現位置の条件を、正規表現等
のパターン記述知識として記述されることを特徴とする
請求項２２または２４に記載の情報検索システムにおけ
る情報処理方法。
【請求項２６】前記概念抽出ステップは、前記情報抽
出知識のある知識が合致した場合に、該知識と共起しや
すい知識を活性化させ、共起しにくい知識は抑制化する
知識間相関ルールを参照することを特徴とする請求項２
２、２４または２５に記載の情報検索システムにおける
情報処理方法。
【請求項２７】前記対応カラム決定ステップは、前記
対応度の算出を各情報抽出知識毎に並列に、または前記
対応カラムの決定を各形態素毎に並列に処理することを
特徴とする請求項２２、２４、２５または２６に記載の
情報検索システムにおける情報処理方法。
【請求項２８】前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて、前記必須属性の抽
出、複数の概念単位を含まないことのチェック、並び
に、新規の情報を含んでいることのチェックを行って概
念情報の必要十分性をチェックすることを特徴とする請
求項２３、２４、２５、２６または２７に記載の情報検
索システムにおける情報処理方法。
【請求項２９】前記概念記述領域決定型概念情報抽出
ステップは、概念記述領域を決定しながら概念情報を抽
出する際に、抽出すべき概念を特徴づける概念の必須属
性を記述した概念キー知識を用いて抽出済みの概念情報
の重複を解消することを特徴とする請求項２３、２４、
２５、２６、２７または２８に記載の情報検索システム
における情報処理方法。
【請求項３０】請求項１６、１７、１８、１９、２
０、２１、２２、２３、２４、２５、２６、２７、２８
または２９に記載の情報検索システムにおける情報処理
方法をコンピュータに実行させるためのプログラムとし
て記憶したコンピュータにより読み取り可能な記録媒
体。