JPH06103311A - テキストベース情報検索装置 - Google Patents

テキストベース情報検索装置

Info

Publication number
JPH06103311A
JPH06103311A JP4249672A JP24967292A JPH06103311A JP H06103311 A JPH06103311 A JP H06103311A JP 4249672 A JP4249672 A JP 4249672A JP 24967292 A JP24967292 A JP 24967292A JP H06103311 A JPH06103311 A JP H06103311A
Authority
JP
Japan
Prior art keywords
information
text
functional unit
index
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4249672A
Other languages
English (en)
Other versions
JP2752864B2 (ja
Inventor
Kenji Sato
研治 佐藤
Kazushi Muraki
一至 村木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4249672A priority Critical patent/JP2752864B2/ja
Publication of JPH06103311A publication Critical patent/JPH06103311A/ja
Application granted granted Critical
Publication of JP2752864B2 publication Critical patent/JP2752864B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 テキストデータ全体をプレーンテキストとし
て扱い、機能的条件により検索を行い対話的に情報収集
獲得を行う。 【構成】 入力手段と大規模テキストデータベースと情
報抽出手段と出力手段を備えた情報検索装置において、
前記大規模テキストデータベース中の各テキストの情報
を担う単位としての機能単位を抽出する機能関係抽出手
段と、前記機能関係抽出手段により抽出された機能単位
とそのテキスト内での位置をインデクスとして保持する
機能単位インデクスと、入力に合致した機能単位を前記
機能単位インデクス内で検索する機能単位検索手段と、
前記情報抽出手段より出力されるテキストが大量であっ
た場合に、その機能単位の一致により多数決をとり代表
的な情報を抽出する多数決評価手段を備えることを特徴
とする情報検索装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は情報検索装置に関し、特
に文献や章節といった単位に依らず、複数テキストに跨
る情報を検索する機能を有する情報検索装置に関する。
【0002】
【従来の技術】従来のテキストベースの情報検索方法
は、百科事典や辞書の例にみられるように、ある特定の
項目についての説明のテキストが、それらの項目をイン
デクスとして整理されている形態をもっており、検索の
際はこの項目名を探しその説明のテキストより情報を得
るという検索方法である。これを電子化した電子百科事
典では従来の引き方に加え、電子化のメリットを生かし
インデクスの文字列との部分的な一致等でも引くことが
可能となっている。しかし、この従来のテキストベース
情報検索方式は、百科事典や辞書のように情報が項目に
よって整理されていることが必須であり、この項目の整
理は人手に依ってしか行うことができないという欠点が
ある。また、人手で情報を整理する必要があるため、既
にテキスト中には大量に現れ、しばしば用いられる新た
な語彙が、誰かによって整理されるまではテキストベー
スからは検索できないという欠点がある。
【0003】これを解決するため特開平2−25337
1号にみられるように、自然言語のテキストの意味解析
を行い、文の正規パターンを作っておき、ユーザの入力
との一致をみることで類似文の検索を行う自然文意味解
析処理装置が提案されている。しかし、この装置は比較
的類似した入力が繰り返される場合の入力パターンの一
致をみるための装置で、百科事典のようなユーザの要求
する情報が多岐にわたるような場面では有効ではない。
【0004】
【発明が解決しようとする課題】上記の人手による情報
整理のコストを発生させない情報検索法として、単語検
索のみを全テキストに対して行うフルテキストサーチの
技術もある。しかし、この方法を用いて検索を行っても
以下のような問題がある。 (1)複数のテキストに必要な情報が跨っており単語だ
けでは検索できない (2)同種の情報が大量に検索されてしまい不必要な情
報が繰り返してしまう (3)大量の情報をユーザが処理できず目的の情報へ行
き着けない
【課題を解決するための手段】上述した問題点を解決す
るため、本発明の情報検索装置は、ユーザの情報検索要
求を受け付ける入力手段と、大量のテキストを保持する
大規模テキストデータベースと、前記大規模テキストデ
ータベースより入力に合致したインデクスを用いて必要
な情報を抽出する情報抽出手段と、抽出した情報をユー
ザに提示する出力手段を備えた情報検索装置において、
前記大規模テキストデータベース中の各テキストの情報
を担う単位としての機能単位を抽出する機能関係抽出手
段と、前記機能関係抽出手段により抽出された機能単位
とそのテキスト内での位置をインデクスとして保持する
機能単位インデクスと、入力に合致した機能単位を前記
機能単位インデクス内で検索する機能単位検索手段と、
前記情報抽出手段より出力されるテキストが大量であっ
た場合に、その機能単位の一致数により多数決をとり代
表的な情報を抽出する多数決評価手段を備えることを特
徴とする。
【0005】
【作用】本発明によるテキストベース情報検索装置で
は、情報検索の単位として情報を担う単位であるテキス
ト内の単語間の機能的関係を用いて、複数のテキストに
対し同時に検索を行い情報を提供する。このため、ユー
ザの必要とする極小の情報が、たとえ複数のテキストに
跨っていても検索可能となる。更に、同種の情報が大量
に検索された場合には、それらの情報を機能的関係が同
じものでまとめ、その量を情報の信頼性や重要性と考
え、多いものから順に提供するということを行う。この
多数決による情報選択で、同種の情報が大量に検索され
てしまい不必要な情報が繰り返すということがなくなっ
ている。更に、この極小の情報を提示する検索をインタ
ラクティブに用いることで、ユーザに処理しきれない情
報を一度に与えてしまう事なく目的の情報の検索を可能
としている。
【0006】
【実施例】次に、本発明について図面を参照して説明す
る。図1は本発明の一実施例を示すブロック図である。
図1を参照すると、本発明の実施例は、ユーザの情報検
索要求を受け付ける入力手段1と、大量のテキストを保
持する大規模テキストデータベース6と、前記大規模テ
キストデータベース6中の各テキストの情報を担う単位
としての機能単位を抽出する機能関係抽出手段4と、前
記機能関係抽出手段により抽出された機能単位とそのテ
キスト内での位置をインデクスとして保持する機能単位
インデクス3と、入力に合致した機能単位を前記機能単
位インデクス内で検索する機能単位検索手段2と、前記
大規模テキストデータベース6より入力に合致したイン
デクスを用いて必要な情報を抽出する情報抽出手段5
と、前記情報抽出手段5より出力されるテキストが大量
であった場合に、その機能単位の一致数により多数決を
とり代表的な情報を抽出する多数決評価手段7と、抽出
した情報をユーザに提示する出力手段8から構成され
る。
【0007】大規模テキストデータベース1に登録され
たテキストについて、機能関係抽出手段4は、そのテキ
ストを文書単位として見るのではなく、全体をプレーン
なテキストとして見て、その中から情報を担う単位とし
て機能単位を抽出し、機能単位インデクス3へ登録す
る。この機能関係抽出手段4が起動されるタイミングと
しては機能単位インデクス3がアクセスされた時でもよ
いが、実用的には大規模テキストデータベース6へテキ
ストが登録された際に起動されるのがよい。機能単位イ
ンデクス3内では同じ機能単位毎にインデクスがまとめ
られるため、同一機能単位について複数のテキストの別
々の箇所のインデクスが保持されることがしばしば発生
する。
【0008】機能単位としては、単語の対とその間の関
連の3項関係を用いる。この3項関係は、対となってい
る単語の機能的な意味を示す単位であると考える。最も
単純な機能単位としては、対となる単語を係り受け関係
を持つ2自立語とし、関連をそれらの単語の間の関係
(格助詞、接続助詞、接続詞、等)としたものがある。
これら自立語をA,Bで表し、その間の関係をRで表す
と、機能単位は、 A−B−C 例:湾岸戦争−に−参戦した 湾岸戦争−の−連合軍 宣戦した−そして−爆撃した と表される。また、もっと複雑な単語間の関連は、この
機能単位の連結により表すことができる。 A−R1−B−R2−C → A−R3−C(R3=
B) 例:湾岸戦争−参戦した−米国 この機能単位の連結は、単にBの単語が一致しているだ
けでは充分でなく、AとBの関連が述べられている文脈
がBとCの関連が述べられている文においてのみ連結を
行う。
【0009】次にユーザにより検索要求が入力された場
合の動作について説明する。入力手段1により得られた
ユーザの入力は、先ず機能単位検索手段2において、機
能単位を用いて、ユーザの必要とする機能的関係を抽出
する。この機能的関係に一致する機能単位のインデクス
により、情報抽出手段5で大規模テキストデータベース
6よりテキストが抽出される。この抽出されるテキスト
の文字列長は、そのテキストの全体ではなく、情報を担
う単位の文字列の長さが適当で、1文という単位を用い
ることが考えられる。例で説明すると、「湾岸戦争にど
こが参戦したのか」という検索要求に対しては「湾岸戦
争−参戦した−米国」という機能単位が検索され、その
インデクスを辿ることで機能単位の元となった文「湾岸
戦争に米国が参戦した」というテキストが表示される。
【0010】情報抽出手段5により抽出されたテキスト
の量が多すぎて、ユーザに提示するには不適当であると
思われる場合には、多数決評価手段7でそれらのテキス
トの機能単位での一致により多数決をとり、その代表的
な意見からユーザに提示する。もし、情報抽出手段5で
抽出されたテキストの量がそれほど多くない場合は、多
数決評価手段7はなにもしない。この多数決評価による
情報選択は、ユーザが一度に処理しきれない量の情報を
与えることを避け、最も普遍的な情報を提示することを
行っている。また大量のテキストを無制限に情報源とし
て追加していくと、その中には誤った記述や不必要なノ
イズ情報がどうしても存在することになるが、この厚み
による情報の選択はこれらの除去の役目も果たしてい
る。
【0011】次に図2を用いて本テキストベース検索装
置での検索の過程を説明する。図2は本装置による検索
過程を示す概念図である。まず、ユーザが湾岸戦争につ
いて情報検索を行いたいと考えたとする。ユーザが米国
が湾岸戦争に関与していたことを知っていたとして、
「湾岸戦争では米国はどうした」という入力を行う。こ
の入力で機能単位検索手段は、「湾岸戦争−米国−宣戦
した」という機能単位を機能単位インデクスより検索す
る。更にその機能単位が抽出された元のテキストとし
て、「湾岸戦争で米国がイラクに宣戦した」が情報抽出
手段により取り出されユーザに提示される。ユーザはこ
のテキストを見て、米国は連合国の中心だったような記
憶を思い出し、そのまま疑問として入力する。すると
「湾岸戦争で連合国は米国が中心であった」と検索され
る。このような過程を繰り返して、ユーザは「湾岸戦争
では電子兵器が初めて使われた」ことまで知ることが可
能となる。
【0012】
【発明の効果】以上説明したように、本発明によるテキ
ストベース情報検索装置では、テキストを文書単位とし
て見るのではなく、全体をプレーンなテキストとして見
て、テキストの位置まで特定するインデクスを用意する
ことで、ユーザの情報検索要求に対応するテキストを、
データベース全体に持っている情報の中から検索するこ
とが可能となっている。また、この機能単位のインデク
スは大規模テキストデータベースにテキストを登録する
際に、機能関係抽出手段によって自動的に作成されるた
め、インデクス作成のコストがかからないという特徴が
ある。また最新の情報が述べられたテキストを大規模テ
キストデータベースに登録するだけで、その情報を検索
・利用することが可能になるという特徴もある。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】本発明による検索過程を示す概念図。
【符号の説明】 1 入力手段 2 機能単位検索手段 3 機能単位インデクス 4 機能関係抽出手段 5 情報抽出手段 6 大規模テキストデータベース 7 多数決評価手段 8 出力手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの情報検索要求を受け付ける入力
    手段と、大量のテキストを保持する大規模テキストデー
    タベースと、前記大規模テキストデータベースより入力
    に合致したインデクスを用いて必要な情報を抽出する情
    報抽出手段と、抽出した情報をユ−ザに提示する出力手
    段を備えた情報検索装置において、前記大規模テキスト
    データベース中の各テキストの情報を担う単位としての
    機能単位を抽出する機能関係抽出手段と、前記機能関係
    抽出手段により抽出された機能単位とそのテキスト内で
    の位置をインデクスとして保持する機能単位インデクス
    と、入力に合致した機能単位を前記機能単位インデクス
    内で検索する機能単位検索手段と、前記情報抽出手段よ
    り出力されるテキストが大量であった場合に、その機能
    単位の一致数により多数決をとり代表的な情報を抽出す
    る多数決評価手段を備えることを特徴とする情報検索装
    置。
JP4249672A 1992-09-18 1992-09-18 テキストベース情報検索装置 Expired - Lifetime JP2752864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4249672A JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4249672A JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Publications (2)

Publication Number Publication Date
JPH06103311A true JPH06103311A (ja) 1994-04-15
JP2752864B2 JP2752864B2 (ja) 1998-05-18

Family

ID=17196492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4249672A Expired - Lifetime JP2752864B2 (ja) 1992-09-18 1992-09-18 テキストベース情報検索装置

Country Status (1)

Country Link
JP (1) JP2752864B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5773662A (en) * 1995-09-05 1998-06-30 Hitachi, Ltd. Automatic analyzing method using a plurality of reagents and apparatus therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5773662A (en) * 1995-09-05 1998-06-30 Hitachi, Ltd. Automatic analyzing method using a plurality of reagents and apparatus therefor

Also Published As

Publication number Publication date
JP2752864B2 (ja) 1998-05-18

Similar Documents

Publication Publication Date Title
CN100437573C (zh) 标识相关姓名的系统及方法
CN111309877A (zh) 一种基于知识图谱的智能问答方法及系统
US6363374B1 (en) Text proximity filtering in search systems using same sentence restrictions
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
CN120873210A (zh) 基于语义匹配与层级索引的结构化数据检索系统及方法
KR100515698B1 (ko) 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH05324719A (ja) 文書検索システム
JPH06103311A (ja) テキストベース情報検索装置
JPH03260869A (ja) データ検索装置及びデータ検索方法
KR100494113B1 (ko) 웹 브라우저를 이용한 정보 검색 시스템
JPH05250416A (ja) データベースの登録・検索装置
JP2732661B2 (ja) テキスト型データベース装置
JP2001022782A (ja) ガイドidを持たないメッセージの詳細説明の検索・表示方法
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP3505610B2 (ja) 文書検索システム
JP2003288366A (ja) 類似テキスト検索装置
JPH03268064A (ja) データ検索装置及びデータ検索方法
JPH07239861A (ja) 文書検索装置
JPH05128159A (ja) キーワード抽出方法及び装置
JPH0584937B2 (ja)
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
CN116644753A (zh) 一种基于大数据的歌曲命名实体识别方法及系统

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19950718