JP2000259675A - 検索装置 - Google Patents

検索装置

Info

Publication number
JP2000259675A
JP2000259675A JP2000005018A JP2000005018A JP2000259675A JP 2000259675 A JP2000259675 A JP 2000259675A JP 2000005018 A JP2000005018 A JP 2000005018A JP 2000005018 A JP2000005018 A JP 2000005018A JP 2000259675 A JP2000259675 A JP 2000259675A
Authority
JP
Japan
Prior art keywords
information
search
phrase
word
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000005018A
Other languages
English (en)
Inventor
Kazufumi Sugiura
和史 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUGIURA GIJUTSUSHI JIMUSHO KK
Original Assignee
SUGIURA GIJUTSUSHI JIMUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUGIURA GIJUTSUSHI JIMUSHO KK filed Critical SUGIURA GIJUTSUSHI JIMUSHO KK
Priority to JP2000005018A priority Critical patent/JP2000259675A/ja
Publication of JP2000259675A publication Critical patent/JP2000259675A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 自然な文章の検索文による検索を簡易な構成
で精度良く行う。 【解決手段】 自然な文章の検索文が検索文入力領域4
2に入力されると(S21)、特記語句テーブルの各エ
ントリの特記語句を順次に読み出して、この読み出した
特記語句で入力検索文を全文検索する(S22)。ヒッ
トした場合には、その特記語句を含む情報を検索結果と
して出力する(S23)。つぎに検索文から自動的に語
句を抽出する(S24)。自動的に抽出した語句を自動
抽出語句テーブルを用いて表引きし、ヒットしたエント
リに含まれる情報を検索結果として出力する(S2
5)。ヒットした情報のカテゴリ情報をヒット情報一覧
表示領域44に表示する(S26)。ユーザは一覧表示
領域44の表示を見て所望の情報を選び詳細情報を表示
する(S27)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、自然な文章から
なる検索文を用いて検索を行う検索装置に関し、とく
に、構文解析や意味解析等の複雑な処理を行うことな
く、簡易に、しかも精度良く検索を行えるようにしたも
のである。
【0002】
【従来の技術】1つまたは複数のキーワードについて検
索式を作成し検索を行うことが長らく行われてきた。し
かしながら、ユーザの使い勝手を考慮した場合、自然な
文章を検索文として入力してそのまま検索を行えるよう
にすることが望まれている。このような検索はファジー
検索とも呼ばれる。このような自然な文章を入力して検
索を行う場合、従来では、検索文を構文解析し、さらに
必要な場合には意味解析を行って適切なキーワードを抽
出し、検索式を作成する必要があり、コンピュータの負
荷が大きくなっていた。また、このような複雑な処理を
行っても十分に精度の高い検索を行えないというのが現
状であった。
【0003】なお、この発明と関連する技術としては、
特開昭61−11846号公報、特開昭63−2174
18号公報および特開昭64−28770号公報に開示
された技術がある。これら公報に開示された記述は、デ
ータベースにデータを登録する際に、そのデータまたは
そのデータの一部から文字種に基づいて登録するキーワ
ードを絞り込もうとするものである。ただし、これらの
技術は自然な文章を検索文として検索を行うものではな
い。
【0004】なお、ここでは、主語、述語等が完結した
もののみを自然な文章と呼ぶのではなく、一連の単語が
有意味に連結されたものをいい、名詞止めされた文章、
体言止めされた文章、主語のみのもの、述語のみのもの
等、種々の表現のものが自然な文章に含まれる。
【0005】
【発明が解決しようとする課題】この発明は、以上の事
情を考慮してなされたものであり、簡単な処理で精度高
く自然な文章の検索文による検索を行える検索装置を提
供することを目的としている。
【0006】
【課題を解決するための手段】この発明によれば、上述
の目的を達成するために、特許請求の範囲に記載のとお
りの構成を採用している。以下、この点について補充的
に説明を行なう。
【0007】この発明によれば、上述の目的を達成する
ために、検索装置に:自然な文章からなる検索文を入力
する手段と;入力された検索文から、文字種および同一
文字種の連続する長さに基づいて語句を抽出する手段
と;上記抽出した語句に基づいてデータベースを検索す
る手段とを設けるようにしている。
【0008】この構成においては、構文解析や、意味解
析を行うことなく、単に文字種および文字列の長さに基
づいて機械的に語句を抽出しているので、簡易に少ない
計算量で、自然な文章の検索文による検索を行える。し
かも、簡単な構成でありながら、高精度の検索を行え
た。
【0009】また、この構成においては、上記第1の語
句は2文字以上の漢字からなる文字列または3文字以上
のカタカナからなる文字列とすることができる。このよ
うな設定は、データベースが対象とする情報の特性に応
じて変化させることが好ましい。
【0010】また、検索装置に、さらに、検索結果の一
覧を表示する手段を設けてもよい。もちろん検索件数を
表示してもよい。
【0011】また、上記検索結果の一覧中の複数のエン
トリが選択されたときに上記検索対象情報をタイル上に
配置されたサブウィンドウにそれぞれ表示するようにし
てもよい。このようにすれば複数の情報を比較対照させ
ながら見ることができる。
【0012】また、上記検索装置に、さらに、1の検索
対象情報を他の検索対象情報に関連付ける手段を設け、
他の検索対象情報が検索されて表示されたときに上記1
の検索対象情報も連結して表示されるようにしてもよ
い。
【0013】このようにすると、本来1つのエンティテ
ィとして登録すべき情報を合体させるようにでき情報を
整理して扱えるとともに情報量を徐々に補強することが
できる。
【0014】また、上記他の検索対象情報と上記1の検
索対象情報とは上下に連結された領域に表示されるよう
にしてもよい。
【0015】また、上記関連付ける手段は検索対象情報
のカテゴリ情報に基づいて自動的に関連付けを行うよう
にしてもよい。もちろん、ユーザの指示により情報を合
致するようにしてもよい。なお、情報の合体は、ユーザ
に対して合体してみえればよく、合体した情報自体がデ
ータベース管理上は別個のエンティティであってもよ
い。もちろん、データベース管理上も1つのエンティテ
ィに合成してもよい。
【0016】また、この発明と関連する技術において
は、検索装置に:検索対象情報を管理するデータベース
手段と;上記データベース手段に検索対象情報を登録す
る手段と;新規に登録された検索対象情報をすでに登録
されている他の検索対象情報に関連付ける手段;上記デ
ータベース手段に登録されている検索対象情報を検索す
る手段と;検索が合致した1の検索対象情報に、関連付
けられた他の検索対象情報が存在するときに、上記1の
検索対象情報と上記関連付けられた他の検索対象情報と
を連結して表示する手段とを設けている。
【0017】
【発明の実施の態様】以下、この発明を画像情報検索シ
ステムに適用した実施例について説明する。この画像情
報検索システムは、商品パンフレット、商品広告、雑誌
記事、新聞記事等を画像情報として検索できるようにし
たものである。
【0018】図1は、この実施例が実現されるコンピュ
ータ処理環境を示しており、この図において、実施例の
情報検索システムは、LAN10に接続された検索サー
バ11、検索クライアント12、データベースシステム
13、アクセスサーバ14等を含んで構成されている。
検索クライアント12は、画像情報の登録、検索等を検
索サーバ11に要求するものであり、検索サーバ11
は、検索クライアント12の要求に基づいて画像情報の
登録や検索をデータベースシステム13のデータを操作
する。データベースシステム13は、画像情報に関連し
て生成されたテキスト情報等も保持する。これについて
は後述する。アクセスサーバ14は、LAN10が構成
するネットワークの外部からのアクセスを実現するもの
であり、このアクセスサーバ14により、営業担当者が
顧客先等から電話回線等を利用して検索サーバ11にア
クセスし、所望の画像情報を取得することができる。
【0019】この実施例の情報検索システムでは情報の
登録および検索を行う。以下では、情報の登録および検
索について順を追って説明する。なお、この実施例の情
報検索システムは、情報の登録時に自動的に語句を抽出
して語句登録を行う自動語句登録の手順と、ユーザ(登
録者)が特別に指示して手作業で登録する特記語句登録
の手順とを行うようになっている。さらに情報のカテゴ
リ情報(属性情報)をユーザが登録する。また情報検索
時には、自然な文章の検索文が入力される。そして、特
記語句の各々について、検索文を全文検索し、特記語句
が検出されると、対応する情報を検索結果としてまず選
ぶ(図8参照)。さらに検索文から自動的に語句を抽出
し、検索文中の自動抽出語句を、自らの自動抽出語句と
する情報を検索結果として選ぶようになっている(図9
参照)。
【0020】図2は、情報の登録の手順を示す。情報の
登録には例えば図3に示すようなユーザインタフェース
が用いられる。すなわち、画像表示領域21、テキスト
表示領域22、カテゴリ情報登録領域23および特記語
句登録領域24がユーザインタフェースとして表示され
る。なお、情報の登録・検索の双方を行えるユーザと、
情報の検索のみを行えるユーザとを分けるようにしても
よい。
【0021】図2において、登録したい紙の原稿をスキ
ャンし、所定のフォーマット(例えばJPEG)にした
後、画像データをストアする(S11、S12)。この
のち、OCR(光学的文字認識システム)を用いて原稿
に含まれているテキストを認識し、ストアする(S1
3、S14)。もちろん、電子的な原稿を当初から入手
できるときには電子的な原稿をそのまま利用してもよ
い。この状態でユーザには図3に示すユーザインタフェ
ースの画像表示領域21およびテキスト表示領域22に
画像およびテキストが表示される。ユーザはテキスト表
示領域22のテキストを見て、とくに語句登録したい語
句を特記語句として特記語句登録領域24に転記する
(S15)。また、ユーザは情報のカテゴリ情報をカテ
ゴリ情報登録領域23に入力する(S16)。このカテ
ゴリ情報は扱う情報の種類により異なるが、例えば、製
造メーカ名、シリーズ名、製品名等である。
【0022】また、テキストは文字種に基づいて自動的
に語句が抽出され、登録される(S17)。この例で
は、2文字以上の漢字、3文字以上のカタカナを自動的
に切り出して語句登録する。数字、単位文字、特殊文字
は、定性情報で低領地を検索したり常識的な値をもって
検索するときに用いることができ、これも保存される。
【0023】漢字1文字を含む語句は動詞であることが
多く、通常、一般的な情報のみを担う。したがって、漢
字2文字以上とすることにより、重要な情報のみを取出
すことができる。かりに、漢字1文字のみを含む語句
が、例外的に、重要な場合には、先の特記語句としても
れなく登録することもできる。
【0024】図4は、登録された情報の各要素の関連性
を示すものであり、この図において、情報エンティティ
30は画像情報31、テキスト情報32、カテゴリ情報
33、特記語句情報34、自動抽出語句情報35を含ん
で構成される。画像情報31は、紙の原稿をスキャンし
て得たものである。テキスト情報32は、画像情報をO
CR処理して得たものである。カテゴリ情報33は情報
の属性についてユーザが入力したものである。特記語句
情報34もユーザが入力したものである。自動抽出語句
情報35は自動的に抽出されたものである。画像情報3
1およびテキスト情報32はそれぞれ情報エンティティ
ごとに個別のファイルとして管理され、カテゴリ情報3
3、特記語句情報34、自動抽出語句情報35はそれぞ
れカテゴリ情報テーブル33a、特記語句テーブル34
aおよび自動抽出語句テーブル35aにそれぞれ管理さ
れる。
【0025】図5は、特記語句テーブル34aの構成例
を示しており、特記語句ごとにそれを含む情報エンティ
ティIDが列挙されている。たとえば、特記語句aを含
むものは情報A、Cである。図6は、自動抽出語句テー
ブル35aの構成例を示しており、自動抽出語句ごとに
それを含む情報が列挙されている。
【0026】図7は、情報の検索の手順を示しており、
図8は検索時のインタフェースを示している。検索時の
インタフェースはカテゴリ指定領域41、検索文入力領
域42、ヒット件数表示領域43、ヒット情報一覧領域
44を含んでいる。図7において、自然な文章の検索文
が検索文入力領域42に入力されると(S21)、特記
語句テーブルの各エントリの特記語句を順次に読み出し
てこの読み出した特記語句で入力検索文を全文検索する
(S22)。ヒットした場合には、その特記語句を含む
情報を検索結果として出力する(S23)。図9は、特
記語句による検索例を模式的に示している。この例で
は、特記語句としてa,b,c,e,g,rがあり、こ
れらについて順次に検索文を全文検索する。この例では
検索文に、b,e,aがこの順に含まれており、この結
果、情報A,B,Cがヒットする。
【0027】つぎに検索文から自動的に語句を抽出する
(図7、S24)。この例では、情報登録時と同じに2
文字以上の漢字、3文字以上のカタカナを自動的に抽出
する。そして自動的に抽出した語句を自動抽出語句テー
ブル(図6)を用いて表引きし、ヒットしたエントリに
含まれる情報を検索結果として出力する(S25)。図
10は、自動抽出語句による検索例を模式的に示してい
る。この例では、抽出規則に基づいて、語句a,b,
e,gが自動的に抽出される。そしてテーブルを参照し
て該当する情報を選ぶ。
【0028】なお、特記語句としてどのようなものを選
ぶかは登録者が任意に決定できる。極端な場合、自動抽
出規則に合致する語句を特記語句として選んでもよい。
この場合、特記語句を用いるメリットが少なくなってし
まう。特記語句としては、抽出規則では漏れてしまう語
句、例えば、ひらがなからなる語句、漢字1文字のみを
含む語句を選択する。また、語句と語句とを複合してな
る複合語句を1つの語句として登録してもよい。場合に
よっては、特記語句のみによる検索や、自動抽出語句の
みによる検索を行うようにしてもよい。
【0029】ステップS23およびステップS25で出
力した検索結果の論理和をとって、該当する情報のカテ
ゴリ情報をヒット情報一覧表示領域44に表示する(S
26)。例えば、ヒットしたエントリごとに、製造メー
カ、シリーズ名、製品名、販売開始時期、用途、価格等
を表示する。なお、ヒット件数表示領域43にはヒット
した情報の件数が表示される。ヒットした件数が多く
て、エントリすべてを一覧表示領域44に表示きれない
場合にはスクロールを行う。
【0030】ユーザは一覧表示領域44の表示を見て所
望の情報を選び表示する(S27)。情報の表示は、表
示態様を選択して複数の態様で表示可能である。例え
ば、画像情報のみを表示してもよいし、テキスト情報
や、カテゴリ情報を付加して表示してもよいし、また特
記語句等を付加して表示してもよい。
【0031】なお、この検索においては、カテゴリ指定
領域41を用いてカテゴリ情報を指定して検索対象範囲
を絞り込むようにすることができる。例えば、製造メー
カ、製品名、販売開始時期、用途、価格等で絞り込みを
行える。価格や販売開始時期問うは不等式等を用いた範
囲指定が可能である。
【0032】また、数字や特殊記号を用いて自動抽出語
句の検索を行うこともできるので、数字や特殊記号に合
致した奇抜な情報検索も可能となる。
【0033】つぎにこの実施例の付加的な特徴について
説明する。
【0034】図11は、関連事項辞書を示している。こ
の辞書は、シソーラス等に含まれる類義語や関連情報を
相互に変換するためのものである。この辞書は、検索文
が入力され、語句分割されたときに、表引きされ、オリ
ジナルの語句とともに変換結果も抽出語句として受け取
り入力検索文の揺らぎを吸収するものである。また、特
記語句についても同様に変換されオリジナルの特記語句
とともに、変換結果も検索文の全文検索の対象となる。
【0035】また、この実施例では、情報と情報とをマ
ージすることができる。あるいは所定の情報に他の情報
を追加することができる。図12は、カテゴリ情報に基
づいて自動的に情報を追加する手順を示すものである。
この例では、カテゴリが一致した場合、イメージ情報や
テキスト情報をマージする。実際には、追加先の情報に
追加情報を含むことを示すマークと追加情報の宛先とを
表示する。このようにすることにより、関連する情報
を、あたかも1つのエンティティとして扱うことができ
る。この場合、イメージは上下に連結するようにしてい
る。このようにすると、上下のスクロールにより多くの
イメージを見ることになる。ユーザは左右のスクロール
より上下のスクロールの方が扱いやすい。
【0036】カテゴリのどのレベルまで、あるいはどの
項目が一致したらマージするのかは情報の種類により異
なる。
【0037】また、カテゴリ情報の不一致の場合にも
に、情報を追加したいことともある。したがって、ユー
ザの指示により情報を追加するようにしてもよい。例え
ば、所定の情報を登録する際に予め追加先の情報を表示
しておき、追加の指示を行い、登録対象の情報を入力し
て追加を行ってもよいし、情報の登録中に、検索操作に
より情報を検索しヒットした情報を追加先として追加を
行ってもよい。追加には、テキストの追加と、画像の追
加とを個別に指定できるようにしてもよい。もちろん双
方を一緒に追加してもよい。このような指定は、自動的
に追加する場合にも予め設定しておくことができる。
【0038】情報の追加は1つのみでなく複数個順次追
加できる。すなわち、3つ以上の情報が連結されていて
もよい。
【0039】なお、この発明は上述の実施例に限定され
るものではなく、その趣旨を逸脱しない範囲で種々変更
が可能である。たとえば、上述実施例では、画像情報検
索に用いたが、テキストのみの検索に用いてもよい。こ
の場合、テキストの所定の部分のテキスト情報(要約、
先頭部分、終了部分等、情報を多く含む部分)のみから
自動語句抽出を行うようにしてもよい。また、音声や、
モーションピクチャーの検索に用いてもよい。また、上
述の実施例ではクライアント・サーバ環境において適用
したが、スタンドアローンの検索システムとしてもよ
い。また、文字種や同一文字種の文字列長の制限につい
ても、漢字2文字以上、3文字以上のカタカナに限定さ
れず、種々変更が可能である。
【0040】
【発明の効果】以上説明したように、この発明によれ
ば、簡単な構成でありながら、自然な文章の検索文を用
いた検索を精度高く行うことができる。
【図面の簡単な説明】
【図1】 この発明の実施例が実現されるコンピュータ
処理環境を示すシステムズである。
【図2】 上述実施例の情報登録の手順を説明するフロ
ーチャートである。
【図3】 上述実施例の情報登録のインタフェースを示
す図である。
【図4】 上述実施例の情報登録される要素を説明する
図である。
【図5】 上述実施例の特記語句テーブルを説明する図
である。
【図6】 上述実施例の自動抽出語句テーブルを説明す
る図である。
【図7】 上述実施例の情報検索の手順を説明するフロ
ーチャートである。
【図8】 上述実施例の情報登録のインタフェースを示
す図である。
【図9】 上述実施例の特記語句による検索例を説明す
る図である。
【図10】 上述実施例の自動抽出語句による検索例を
説明する図である。
【図11】 上述実施例の関連事項辞書を説明する図で
ある。
【図12】 上述実施例の情報追加を説明する図であ
る。
【符号の説明】
10 LAN 11 検索サーバ 12 検索クライアント 13 データベースシステム 14 アクセスサーバ 21 画像表示領域 22 テキスト表示領域 23 カテゴリ情報登録領域 24 特記語句登録領域 30 情報エンティティ 31 画像情報 32 テキスト情報 33 カテゴリ情報 33a カテゴリ情報テーブル 34 特記語句情報 34a 特記語句テーブル 35 自動抽出語句 35a 自動抽出語句テーブル35a 41 カテゴリ指定領域 42 検索文入力領域 43 ヒット件数表示領域 44 ヒット情報一覧表示領域

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 自然な文章からなる検索文を入力する手
    段と、 入力された検索文から、文字種および同一文字種の連続
    する長さに基づいて語句を抽出する手段と、 上記抽出した語句に基づいてデータベースを検索する手
    段とを有することを特徴とする検索装置。
  2. 【請求項2】 自然な文章からなる検索文を入力する手
    段と、 入力された検索文から、少なくとも文字種に基づいて語
    句を抽出する手段と、 上記抽出した語句に基づいてデータベースを検索する手
    段とを有することを特徴とする検索装置。
JP2000005018A 2000-01-01 2000-01-04 検索装置 Pending JP2000259675A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000005018A JP2000259675A (ja) 2000-01-01 2000-01-04 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000005018A JP2000259675A (ja) 2000-01-01 2000-01-04 検索装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11057829A Division JP3058275B1 (ja) 1999-03-05 1999-03-05 検索装置

Publications (1)

Publication Number Publication Date
JP2000259675A true JP2000259675A (ja) 2000-09-22

Family

ID=18533718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000005018A Pending JP2000259675A (ja) 2000-01-01 2000-01-04 検索装置

Country Status (1)

Country Link
JP (1) JP2000259675A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157277A (ja) * 2000-11-20 2002-05-31 Japan Research Institute Ltd 情報検索装置、情報検索方法、情報検索システムおよび記録媒体
JP2002175328A (ja) * 2000-12-06 2002-06-21 Canon Inc 情報検索方法及び装置並びに記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157277A (ja) * 2000-11-20 2002-05-31 Japan Research Institute Ltd 情報検索装置、情報検索方法、情報検索システムおよび記録媒体
JP2002175328A (ja) * 2000-12-06 2002-06-21 Canon Inc 情報検索方法及び装置並びに記憶媒体

Similar Documents

Publication Publication Date Title
US6957213B1 (en) Method of utilizing implicit references to answer a query
US7174290B2 (en) Multi-language document search and retrieval system
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP4467184B2 (ja) 知識創造可能性を有するドキュメントの意味論的分析及び選択
JPH03172966A (ja) 類似文書検索装置
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JPH09198395A (ja) 文書検索装置
WO2001088662A2 (en) Answering natural language queries
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP4499179B1 (ja) 端末装置
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2000259675A (ja) 検索装置
JP3058275B1 (ja) 検索装置
JP3780556B2 (ja) 自然言語事例検索装置及び自然言語事例検索方法
US7761286B1 (en) Natural language database searching using morphological query term expansion
JP4024906B2 (ja) タグ付文書検索システム
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP4390039B2 (ja) 検索システムおよびその方法