JPH07334512A - 文書データ検索装置 - Google Patents

文書データ検索装置

Info

Publication number
JPH07334512A
JPH07334512A JP6126286A JP12628694A JPH07334512A JP H07334512 A JPH07334512 A JP H07334512A JP 6126286 A JP6126286 A JP 6126286A JP 12628694 A JP12628694 A JP 12628694A JP H07334512 A JPH07334512 A JP H07334512A
Authority
JP
Japan
Prior art keywords
keyword
document data
search
similarity
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6126286A
Other languages
English (en)
Other versions
JP3162907B2 (ja
Inventor
Kenji Sakamoto
憲治 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP12628694A priority Critical patent/JP3162907B2/ja
Publication of JPH07334512A publication Critical patent/JPH07334512A/ja
Application granted granted Critical
Publication of JP3162907B2 publication Critical patent/JP3162907B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 所望の文書データを効率よく検索することが
できる文書データ検索装置を提供する。 【構成】 キーワード入力部11から検索キーワードが
入力されると、キーワード生成部19は、予め記憶され
ている類似度テーブル13を参照し、検索キーワードに
類似するキーワードを検索キーワードと共に検索用のキ
ーワードとして出力する。キーワードマッチング部は検
索用のキーワードを用いて文書データベース25から文
書データを検索して表示部27に表示出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、記憶手段に記憶されて
いる複数の文書データの中から所望の文書データを検索
するための文書データ検索装置に関する。
【0002】
【従来の技術】従来、複数の文書データを記憶したデー
タベース等の記憶手段を有し、その記憶している文書デ
ータの中から所望の文書データを検索して出力するため
の文書データ検索装置が用いられている。文書データ検
索装置の中には、たとえば、以下のように構成されたも
のがある。記憶手段に文書データを記憶させる際には、
文書データのそれぞれにキーワードを対応させて記憶さ
せる。そして、操作者は、ある文書データを検索させる
場合に、その文書データの内容を最もよく表わすキーワ
ードを決定し、そのキーワードを文書データ検索装置に
入力する。文書データ検索装置は、入力されたキーワー
ドと記憶手段に記憶されている文書データに対応づけら
れているキーワードとを比較する。文書データ検索装置
は、操作者から入力されたキーワードと文書データに対
応づけられているキーワードとが一致する文書データを
出力する。
【0003】
【発明が解決しようとする課題】前述したような従来の
文書データ検索装置を用いて所望の文書データを検索す
る場合には、操作者は、検索キーワードを正確に指定す
る必要がある。しかしながら、データベース等の記憶手
段に記憶されている複数の文書データのそれぞれの対応
キーワードを予め知ることは殆ど不可能である。また、
記憶手段において個々の文書データに対応づけられる対
応キーワードは、通常、その文書データの内容を表わす
単語が用いられる。ところが、単語の中には同義語が多
数存在するので、複数の文書データの内容が同様であっ
ても、必ずしもそれぞれの対応キーワードとして同一の
単語が用いられるとは限らない。したがって、従来の文
書データ検索装置では、入力キーワードの単語と対応キ
ーワードの単語とが異なることにより、検索漏れが発生
することがあった。
【0004】また、このような検索漏れの発生を防止す
るために、従来の文書データ検索装置の中には、操作者
から入力された検索キーワードを基本概念として、その
検索キーワードと意味が類似する複数の単語を新たに検
索キーワードとして加えて文書データを検索するように
構成されたものがある。しかしながら、この種の従来の
文書データ検索装置では、検索キーワードをどの程度生
成すればよいかを決定するための基準が確立されていな
いことが多い。したがって、入力された検索キーワード
と類似する単語として新たに加えられる検索キーワード
の数が必要以上に多くなることがある。検索キーワード
の数が多い場合には、検索漏れの発生は軽減できるが、
一方で、検索される文書データの中に不要な文書データ
が含まれたり、検索処理の速度が低下したりするという
不具合が発生することが多い。
【0005】本発明は、このような問題点を解決するた
めになされたものであり、その目的は、所望の文書デー
タを効率よく検索することができる文書データ検索装置
を提供することにある。
【0006】
【課題を解決するための手段】前述の目的を達成するた
めに、請求項1記載の発明は、文書データと対応キーワ
ードとを対応させて記憶する文書データ記憶手段と、キ
ーワード間の類似度を表わす類似度情報を記憶するため
の類似度情報記憶手段と、文書データを検索するための
検索キーワードを入力するための検索キーワード入力手
段と、前記類似度情報記憶手段を参照して前記検索キー
ワードとの類似度が所定の条件を満たす類似キーワード
を出力するための類似キーワード出力手段と、前記文書
データ記憶手段を参照して対応キーワードが前記類似キ
ーワード出力手段から出力された類似キーワードと同一
である文書データを出力する文書データ出力手段とを含
む。
【0007】請求項2記載の発明は、前記所定の条件
が、検索キーワードとの類似度が所定値以上であること
を特徴とする。
【0008】請求項3記載の発明は、前記所定値を変更
するための所定値変更手段をさらに含む。
【0009】請求項4記載の発明は、前記類似度情報
が、あるキーワードと他のキーワードとの文書データ中
における共起関係に基づいて定められることを特徴とす
る。
【0010】請求項5記載の発明は、前記類似度情報を
任意に変更するための類似度情報変更手段をさらに含
む。
【0011】請求項6記載の発明は、前記検索キーワー
ド入力手段から複数の検索キーワードが入力された場合
に、前記類似キーワード出力手段は、前記複数のキーワ
ードのそれぞれについての類似キーワードを出力し、前
記文書データ出力手段は、前記複数のキーワードの中の
あるキーワードと他のキーワードとの類似度の前記所定
値との大小関係に基づいて、あるキーワードの類似キー
ワードの中の少なくとも1つと他のキーワードの類似キ
ーワードの中の少なくとも1つとの両方を共に対応キー
ワードとする文書データか、または、あるキーワードの
類似キーワードと他のキーワードの類似キーワードとの
中の少なくとも1つの類似キーワードを対応キーワード
とする文書データかのいずれかを選択的に検索して出力
することを特徴とする。
【0012】
【作用】請求項1記載の構成によれば、文書データ記憶
手段が文書データと対応キーワードとを対応させて記憶
する。類似度情報記憶手段がキーワード間の類似度を表
わす類似度情報を記憶する。検索キーワード入力手段か
ら文書データを検索するための検索キーワードが入力さ
れると、類似キーワード出力手段が、類似度情報記憶手
段を参照して検索キーワードとの類似度が所定の条件を
満たす類似キーワードを出力する。文書データ出力手段
が、文書データ記憶手段を参照して、対応キーワードが
類似キーワード出力手段から出力された類似キーワード
と同一である文書データを出力する。
【0013】請求項2記載の構成によれば、類似キーワ
ード出力手段は、検索キーワード入力手段から入力され
た検索キーワードとの類似度が所定値以上である類似キ
ーワードを出力する。
【0014】請求項3記載の構成によれば、所定値変更
手段により、類似キーワード出力手段が類似度情報記憶
手段を参照して類似キーワードを出力するときの、検索
キーワードと類似キーワードとの類似度が満たすべき条
件に用いられる所定値を変更できる。
【0015】請求項4記載の構成によれば、キーワード
間の類似度を表わす類似度情報は、あるキーワードと他
のキーワードとの文書データ中における共起関係に基づ
いて定められる。
【0016】請求項5記載の構成によれば、類似度情報
変更手段は、類似度情報を任意に変更する。
【0017】請求項6記載の構成によれば、検索キーワ
ード入力手段から複数の検索キーワードが入力された場
合に、類似キーワード出力手段が複数のキーワードのそ
れぞれについての類似キーワードを出力する。文書デー
タ出力手段は、検索キーワード入力手段から入力された
複数の検索キーワードの中のあるキーワードと他のキー
ワードとの類似度に基づいて、あるキーワードの類似キ
ーワードの中の少なくとも1つと他のキーワードの類似
キーワードの中の少なくとも1つとの両方を共に対応キ
ーワードとする文書データか、または、あるキーワード
の類似キーワードと他のキーワードの類似キーワードと
の中の少なくとも1つの類似キーワードを対応キーワー
ドとする文書データかのいずれかを選択的に検索して出
力する。
【0018】
【実施例】以下に、本発明の文書データ検索装置の一実
施例について図面を参照して説明する。
【0019】図1は、本実施例に係る文書データ検索装
置(以下、「装置」という)1の機能ブロック図であ
る。装置1は、キーワード入力部11と、類似度テーブ
ル13と、類似度情報生成部15と、類似度情報入力部
17と、キーワード生成部19とを含む。さらに、装置
1は、基準類似度入力部21と、キーワードマッチング
部23と、文書データベース25と、表示部27とを含
む。
【0020】文書データベース25には、図2に示すよ
うに、複数の文書データが、それぞれに検索用のキーワ
ードが対応づけられて記憶されている。装置1は、操作
者が入力した検索キーワードに基づいて、操作者が所望
する文書データを文書データベース25から検索して表
示出力するための装置である。キーワード入力部11
は、操作者が検索キーワードを入力するための手段であ
る。類似度テーブル13は、キーワード間の類似度を表
わす情報(以下、「類似度情報」という)を格納してい
る。類似度情報生成部15は、類似度テーブル13が格
納する類似度情報を生成するための手段である。類似度
情報入力部17は、類似度テーブル13に格納されてい
る類似度情報を変更するための手段である。
【0021】キーワード生成部19は、類似度テーブル
13から類似キーワード(後述)を選び出すときの条件
となる基準類似度を記憶した基準類似度記憶部101を
含む。キーワード生成部19は、キーワード入力部11
から検索キーワードが入力されると、類似度テーブル1
3を参照し、関連キーワード(後述)の中から検索キー
ワードとの類似度が基準類似度記憶部101に記憶され
ている値以上のものを類似キーワードとして選び出し、
キーワードマッチング部23へ送る。基準類似度入力部
21は、基準類似度記憶部101に記憶させる数値デー
タを入力するための手段である。所定値を変更する場合
には、操作者は、基準類似度入力部21から再度、数値
を入力する。
【0022】キーワードマッチング部23は、キーワー
ド生成部19から送られてきた類似キーワードを検索キ
ーワードとする。キーワードマッチング部23は、文書
データベース25内に記憶されている文書データの中か
ら、検索キーワードを対応キーワードとする文書データ
を検索する。キーワードマッチング部23は、検索した
文書データを読出して表示部27へ送る。表示部27
は、送られてきた文書データを画面(後述)に表示す
る。
【0023】図2は、文書データベース25の内部の文
書データと対応キーワードとの格納状態を示す説明図で
ある。図示したように、文書データベース25は、文書
データ領域201とキーワード領域203とを含む。文
書データ領域201には、複数の文書データが記憶さ
れ、それぞれの文書データに対応する対応キーワードが
キーワード領域203に記憶される。
【0024】図において、文書データ領域201には、
4個の文書データ211〜214が記憶されている。各
文書データには、2個ずつの対応キーワード221a,
221b〜224a,224bが対応づけられてキーワ
ード領域203に記憶されている。なお、例では、1個
の文書データに対して2個ずつの対応キーワードが対応
づけられている状態を示すが、対応キーワードの数はこ
れに限られるものではなく、必要に応じて1個以上の任
意の数の対応キーワードを対応づけることが可能であ
る。
【0025】図3は、類似度テーブル13の構成を示す
模式図である。類似度テーブル13内では、入力キーワ
ードと関連キーワードとがマトリクス状に対応づけられ
ている。図において、縦軸は入力キーワードを表わし、
横軸は関連キーワードを表わす。各マスの中に記載され
ている数値は、それぞれの入力キーワードと関連キーワ
ードとの間の類似度である。入力キーワードは、操作者
によりキーワード入力部11から入力されるキーワード
である。関連キーワードはキーワードマッチング部23
が文書データベース25内の文書データを検索する際に
用いる検索キーワードの候補を予め選び出したものであ
る。
【0026】たとえば、入力キーワードの「検索」に対
する関連キーワードの個々の類似度は、「文書」が0.
75であり、「抽出」が0.85となっている。関連キ
ーワードにおける「検索」は、入力キーワードと同一の
単語なので、類似度が1.00となっている。
【0027】図4は、装置1に含まれる表示装置の画面
構成を示す図である。画面401は、文書リストウィン
ドウ403と、類似キーワード表示ウィンドウ405
と、キーワード入力ウィンドウ407と、類似度入力ウ
ィンドウ409とを含む。キーワード入力ウィンドウ4
07は、操作者が検索キーワードを入力するためのウィ
ンドウである。操作者は、キーボード(図示せず)等か
らなるキーワード入力部11からキーワードを入力す
る。操作者が入力したキーワードはキーワード入力ウィ
ンドウ407に表示される。
【0028】類似度入力ウィンドウ409は、操作者が
基準類似度記憶部101(図1参照)に記憶させる数値
データを入力するためのウィンドウである。画面401
が表示装置に表示された直後には、類似度入力ウィンド
ウ409にその時点で基準類似度記憶部101に記憶さ
れている値が表示される。操作者は、基準類似度を変更
する場合に、キーボード(図示せず)等からなる基準類
似度入力部21を用いて変更値を入力する。基準類似度
入力部21を用いて新たに入力された数値が類似度入力
ウィンドウ409に表示される。
【0029】類似キーワード表示ウィンドウ405は、
キーワード生成部19により、類似度テーブル13から
選び出された類似キーワードを表示するためのウィンド
ウである。図示した例では、入力キーワードの「検索」
との類似度が、類似度入力ウィンドウ409から入力さ
れた0.80以上である関連キーワードが類似キーワー
ドとして選び出されている。すなわち入力キーワードで
ある「検索」という語との類似度が1.00の「検索」
と、類似度が0.95の「検出」と、類似度が0.85
の「抽出」とが選び出されて表示されている。
【0030】文書リストウィンドウ403は、選び出さ
れた関連キーワード(類似キーワード)を検索キーワー
ドとして、キーワードマッチング部23が文書データベ
ース25から検索した文書データを表示するためのウィ
ンドウである。図示した例では、文書データベース25
に格納されている複数の文書データ211〜214(図
2参照)のうち、選び出された関連キーワード(類似キ
ーワード)の「検索」と「検出」と「抽出」とのうちの
少なくとも1つを対応キーワードとする文書データ21
1,212,214(図示における文書番号は、それぞ
れ1,2,4)が選び出されて表示されている。
【0031】文書リストウィンドウ403内には、文書
データを上下方向にスクロール表示させるためのスクロ
ールボタン411a,411bが設けられている。検索
出力された文書データの数が多く、文書リストウィンド
ウ403にすべての文書データを同時には表示できない
場合などには、操作者は、カーソル413またはキーボ
ード上の移動キーなどを用いてスクロールボタン411
a,411bを操作し、文書データをスクロールさせて
所望の文書データを表示させる。
【0032】図5は、装置1の動作手順を示すフローチ
ャートである。操作者は、装置1を用いて文書データを
検索する場合に、検索したい文書データの内容にふさわ
しいと思われるキーワードを決定し、そのキーワードを
検索キーワードとしてキーワード入力部11を用いて入
力する(S1)。キーワード入力部11を用いる入力と
は、キーボードを用いてキーワード入力ウィンドウ40
7(図4参照)にキーワードの文字列を入力することで
ある。この場合、入力される検索キーワード(入力キー
ワード)は、複数であってもよい。複数の検索キーワー
ドを入力することを可能にするためには、キーワードと
キーワードとの間がたとえば空白(スペース)で区切ら
れていれば、複数のキーワードが入力されたものと判断
するように装置1を構成する。キーワード入力部11を
用いて入力された検索キーワードは、キーワード生成部
19へ送られる。
【0033】キーワード生成部19は、入力された検索
キーワードに類似する類似キーワードを生成する(S
2)。S1にて入力された検索キーワードが複数である
場合には、それぞれの検索キーワードについての類似キ
ーワードが生成される。キーワード生成部19は、類似
キーワードを生成する場合に、類似度テーブル13を参
照する。キーワード生成部19は、キーワード入力部1
1から入力された検索キーワードに対応する類似度テー
ブル13の入力キーワードの欄を参照する(図3参
照)。キーワード生成部19は、基準類似度記憶部10
1に記憶されている数値を読出す。
【0034】キーワード生成部19は、キーワード入力
部11から入力された検索キーワードに対応する入力キ
ーワードの欄を参照し、その入力キーワードとの類似度
が所定値以上である関連キーワードを類似キーワードと
して選び出す。たとえば、図4に示したように、検索キ
ーワードとして「検索」が入力され、類似キーワードを
選び出す条件として、類似度が0.80以上であること
が指定されている場合を考える。キーワード生成部19
は、類似度テーブル13における入力キーワードの「検
索」の欄を参照し、関連キーワードの中から入力キーワ
ードの「検索」との類似度が0.80以上である「検
索」と「検出」と「抽出」とを選び出す。
【0035】キーワード生成部19は、類似度テーブル
13から選び出した関連キーワードを類似キーワードと
してキーワードマッチング部23へ送る。キーワードマ
ッチング部23は、キーワード生成部19から送られて
きた類似キーワードを対応キーワードとする文書データ
を検索する(S3)。たとえば、図4に示した例では、
類似キーワードである「検索」と「検出」と「抽出」と
のうちのいずれかを対応キーワードとする文書データ2
11,212,214が選び出される。キーワードマッ
チング部23は、選び出された文書データを表示部27
へ送る。表示部27は、送られてきた文書データを画面
201の文書リストウィンドウ403(図4参照)に表
示する(S4)。
【0036】操作者は、表示された文書データのリスト
を見て、検索された文書データの内容や数などの検索結
果が適当であるか否かを判断する。装置1における文書
データの検索処理においては、類似度テーブル13の関
連キーワードの中から類似キーワードを選び出す条件と
しての類似度の値によって、類似キーワードの個数が変
化し、それに伴って文書データベース25から検索され
る文書データの数も変化することが多い。したがって、
操作者は、検索結果が適当でないと判断すれば(S5に
てNO)、類似キーワードを選び出す条件となる基準類
似度の変更値を基準類似度入力部21を用いて入力する
(S6)。基準類似度の値が変更されると、装置1は、
変更値を用いてS2〜S4の処理を繰返す。
【0037】このように、検索された文書データの数が
多すぎる場合は類似度を下げ、検索された文書データの
数が少なすぎる場合は類似度を上げることにより、検索
される文書データの数を調整することができる。操作者
は、検索結果が適当であると判断すれば(S5にてYE
S)、検索処置を終了する。
【0038】次に、キーワード入力部11から複数の検
索キーワードが入力された場合のキーワードマッチング
部23の処理について説明する。前述の動作手順の説明
において示したキーワードマッチング部23の処理は、
キーワード入力部11から1個の検索キーワード「検
索」が入力された場合のものである。入力された検索キ
ーワードの「検索」との類似度が0.80以上である
「検索」と「検出」と「抽出」との3つの類似キーワー
ドが生成される。そして、キーワードマッチング部23
は、これら3つの類似キーワードのうちの少なくともい
ずれか1つを対応キーワードとする文書データを検索対
象とする。すなわち、キーワードマッチング部23が用
いる検索式は、(検索OR検出OR抽出)である。検索
式中のORは、少なくともいずれか一方のキーワードを
対応キーワードとする文書データを検索することを表わ
す。
【0039】ここで、S1にて検索キーワードとして、
「検索」と「文章」とが入力され、類似度として0.8
0が指定されている場合を考える。図5のS2に示した
処理により、キーワード生成部19は、入力キーワード
の「検索」の類似キーワードとして「検索」と「検出」
と「抽出」とを生成し、入力キーワードの「文章」の類
似キーワードとして「文章」と「文書」とを生成する。
【0040】キーワードマッチング部23は、キーワー
ド入力部11から複数の検索キーワードが入力された場
合は、それら複数の検索キーワード間の類似度が所定値
以上であるか否かにより文書データの検索式を使い分け
る。本実施例では、検索式を使い分けるときの条件とし
て、基準類似度を用いる。なお、検索式を決定するため
の別の基準を用いるようにしてもよい。キーワードマッ
チング部23は、ある入力キーワードと他の入力キーワ
ードとの類似度が基準類似度記憶部101に記憶されて
いる値以下であれば、ある入力キーワードの類似キーワ
ードと他の入力キーワードの類似キーワードとの両方を
対応キーワードとする文書データを検索する。
【0041】たとえば、図3の類似度テーブル13にお
いては、「検索」と「文章」との類似度が0.68であ
り、基準値である0.80以下であるので「検索」の類
似キーワードのうちのいずれか1つのキーワードと、
「文章」の類似キーワードのうちのいずれか1つのキー
ワードとの両方を対応キーワードとする文書データを検
索する。この場合、検索式は、(検索OR検出OR抽
出)AND(文章OR文書)となる。検索式中のAND
は両方のキーワードを対応キーワードとする文書データ
を検索することを表わす。この検索式を用いて図2に示
した文書データベース25を検索すると、対応キーワー
ドが「検索」と「文書」である文書データ212が選び
出されて出力される。
【0042】次に、類似度情報生成部15について説明
する。類似度情報生成部15は、類似度テーブル13内
に記憶させる類似度情報を生成するための手段である。
類似度情報は、あるキーワードと他のキーワードとの意
味間の距離を反映した値である。具体的には、キーワー
ドとして用いられる単語の共起関係に基づいて類似度情
報を決定する。「共起」とは、ある単語と他の単語とが
同一の文書データ中に含まれることである。そして、
「共起関係」とは、共起の頻度によって定められるある
キーワードと他のキーワードとの遠近の程度のことであ
る。
【0043】図6は、類似度情報生成部15の機能ブロ
ック図である。類似度情報生成部15は、文書記憶部1
21と、キーワード記憶部123と、文書解析部125
と、頻度加算部127と、頻度正規化部129とを含
む。文書記憶部121は、キーワード間の類似度を算出
するために用いられる複数の文書データを記憶する。文
書解析部125は、文書データを解析して単語を抽出す
る。頻度加算部127は、文書解析部125の解析結果
に基づいてキーワードが文書データに含まれる頻度を加
算する。頻度正規化部129は、各キーワードの頻度デ
ータの正規化を行なう。
【0044】図7は、類似度情報生成部15の動作手順
を示すフローチャートである。操作者は、文書記憶部1
21に、類似度算出用の文書データを記憶させる(S2
1)。操作者は、キーワード記憶部123に、文書デー
タベース25(図1参照)の文書データの検索処理に用
いるキーワードのリストを記憶させる(S22)。な
お、キーワードのリストは、文書記憶部121に記憶さ
れている文書データの中に含まれる単語の中から所定の
条件を満たす単語を選び出してキーワードとして出力す
るようなキーワード生成手段を用いて人手を介さずに生
成するようにしてもよい。
【0045】はじめに、頻度加算部127が、キーワー
ド記憶部123に記憶されているあるキーワードを類似
度テーブル13内の入力キーワードとし、他のキーワー
ドを類似度テーブル13内の関連キーワードとして定め
る(S23)。
【0046】文書解析部125は、文書記憶部121に
記憶されている文書データを順次読出し(S24)、各
文書データに含まれる単語を抽出する(S25)。頻度
加算部127は、文書解析部125の解析結果に基づい
て、入力キーワードの単語が含まれる文書データを選別
する(S26)。
【0047】頻度加算部127は、入力キーワードの単
語が含まれる文書データの中に関連キーワードの単語が
含まれていれば(S27にてYES)、その関連キーワ
ードの頻度に1を加算する(S28)。頻度加算部12
7は、S24〜S28の処理を文書記憶部121に記憶
されているすべての文書データについて行なう(S2
9)。頻度加算部127は、すべての文書データについ
て処理が終了すれば(S29にてYES)、算出した頻
度を頻度正規化部129へ送る。
【0048】頻度正規化部129は、関連キーワードの
頻度の最大値を求める(S30)。頻度正規化部129
は、各関連キーワードの頻度をS27で求めた最大値に
より除算する(S31)。これにより、関連キーワード
の頻度の正規化が行なわれる。頻度正規化部129は、
関連キーワードの正規化した頻度の値を類似度情報とし
て類似度テーブル13に記憶させる(S32)。
【0049】類似度情報生成部15は、S23〜S29
の処理をキーワード記憶部123に記憶されているすべ
てのキーワードについて行なう(S33)。以上の手順
により、キーワード間の類似度を入力キーワードと関連
キーワードとに対応させたマトリクス状に表わす類似度
テーブル13が生成される。
【0050】類似度テーブル13に記憶させる入力キー
ワードおよび関連キーワードの種類や数、または入力キ
ーワードと関連キーワードとの間の類似度の値は、キー
ワードマッチング部23が検索する文書データの内容に
応じて変更できることが望ましい。なぜなら、文書デー
タの内容により検索に用いるキーワードの種類や数、キ
ーワード間の類似度が異なることがあるからである。た
とえば、「検索」という単語と「抽出」という単語とに
ついて考える。「データを検索する」という文と「デー
タを抽出する」という文とにおいて用いられる場合に
は、両者の意味は近い関係にある。しかしながら、「珈
琲を抽出する」という文は表現が適当であるが、「珈琲
を検索する」という文は表現が適当であるとはいえな
い。この場合、「珈琲を抽出する」という文において用
いられる「抽出」という単語の意味は、前述の「データ
を抽出する」という文において用いられる場合の意味と
はかなり差異がある。「珈琲を抽出する」という文の
「抽出」は、「検索」と類似関係にあるとはいえない。
【0051】類似度テーブル13の記憶内容を変更する
場合には、操作者は、類似度情報入力部17から入力キ
ーワードや関連キーワードまたは入力キーワードと関連
キーワードとの間の類似度を入力して、類似度テーブル
13の記憶内容を書替えるか、または、類似度情報生成
部15の文書記憶部121に記憶させる文書データを異
ならせたり、キーワード記憶部123に記憶させるキー
ワードの種類や数を変更したりしてから、再度類似度テ
ーブル13を生成させるかする。
【0052】なお、本実施例に係る装置1においては、
キーワード入力部11から入力された検索キーワードの
類似キーワードを求める場合に、キーワード生成部19
が、予め記憶されている類似度テーブル13の段階とす
る入力キーワードの欄を参照し個々の関連キーワードと
の間の類似度情報を読出すように構成した。しかし、キ
ーワード間の類似度を判断するための構成は、これに限
られるものではなく、以下のような変形が可能である。
【0053】たとえば、個々のキーワードの意味的な特
徴を表わす手段として、特徴ベクトルを用いる。特徴ベ
クトルとは、本発明の出願人が先に出願した特願平5−
259809において提案されたものである。あるキー
ワードの特徴ベクトルとは、そのキーワードと他のキー
ワードとの共起関係を表わす値を各キーワードに対応す
る要素として含むベクトルである。要素の中には、ある
キーワード自身に対応する要素も含まれる。あるキーワ
ードの特徴ベクトルを求めるための具体的な手順は、以
下のとおりである。はじめに、特徴ベクトルを算出する
ための複数の文書データを用意する。これら複数の文書
データを順次解析し、含まれる単語を抽出する。文書デ
ータの中にあるキーワードが含まれていれば、その文書
データの中に特徴ベクトルの各要素に対応するキーワー
ドが含まれるか否かを調べる。特徴ベクトルの各要素の
うちあるキーワードと同一の文書データに含まれるキー
ワードに対応する要素の値を1ずつ加算する。これによ
り、特徴ベクトルの各要素に対応するキーワードが、あ
るキーワードと同一の文書データに含まれる頻度が、各
要素の値として算出される。文書データの長短による頻
度のばらつきをなくするなどのために、最終的に個々の
要素の値を、要素の値の最大値で除算して正規化する。
【0054】このようにして求めたキーワードの特徴ベ
クトルを予め記憶しておき、キーワード生成部19があ
るキーワードと他のキーワードとの類似度情報を必要と
した場合に、両者の特徴ベクトルの内積の値を求め、そ
れをキーワード間の類似度情報とする。この場合、キー
ワード生成部19の基準類似度記憶部101には、特徴
ベクトルの内積の値の大小を判断するための所定値を記
憶させておく。
【0055】次に、本発明の請求項記載の構成と、実施
例構成との対応について説明する。前記文書データベー
ス25により文書データ記憶手段が構成されている。前
記類似度テーブル13により類似度情報記憶手段が構成
されている。前記キーワード入力部11により検索キー
ワード入力手段が構成されている。前記キーワード生成
部19により類似キーワード出力手段が構成されてい
る。前記キーワードマッチング部23により文書データ
出力手段が構成されている。
【0056】また、前述のキーワード生成部19が類似
度テーブル13を参照して検索キーワードとの類似度が
基準類似度記憶部101に記憶されている所定値以上で
ある関連キーワードを類似キーワードとして選び出すこ
とが、所定の条件は、検索キーワードとの類似度が所定
値以上であることに対応する。前記基準類似度入力部2
1により所定値変更手段が構成されている。
【0057】前述の類似度情報生成部15により類似度
テーブル13の記憶内容が生成されることが、類似度情
報は、あるキーワードと他のキーワードとの文書データ
中における共起関係に基づいて定められることに対応す
る。
【0058】前記類似度情報入力部17により類似度情
報変更手段が構成されている。前述のキーワード入力部
11から複数の検索キーワードが入力された場合に、キ
ーワードマッチング部23において複数の検索キーワー
ドのうちのあるキーワードと他のキーワードとの類似度
の大きさにより文書データの検索式を使い分けること
が、検索キーワード入力手段から複数の検索キーワード
が入力された場合に、類似キーワード出力手段は、複数
のキーワードのそれぞれについての類似キーワードを出
力し、文書データ出力手段は、複数のキーワードの中の
あるキーワードと他のキーワードとの類似度に基づいて
あるキーワードの類似キーワードの少なくとも1つと他
のキーワードの類似キーワードの少なくとも1つとの両
方を共に対応キーワードとする文書データか、または、
あるキーワードの類似キーワードと他のキーワードの類
似キーワードとの中の少なくとも1つの類似キーワード
を対応キーワードとする文書データかのいずれかを選択
的に検索して出力することに対応する。
【0059】以上説明したように本実施例の文書データ
検索装置1においては、文書データを検索するために検
索キーワードが入力されると、検索キーワードに類似す
るキーワードを類似キーワードとして生成し、類似キー
ワードを検索用のキーワードとして用いて文書データを
検索する。したがって、検索キーワードに意味が近いキ
ーワードをも検索用に用いることができる。また、入力
された検索キーワードに類似するキーワードを選び出す
場合には、検索キーワードとの類似度が所定値以上であ
ることが条件とされる。したがって、不必要に多量の類
似キーワードが生成されて検索に用いられてしまうこと
が防止できる。不要な文書データが検索されたり、検索
処理の速度が低下してしまったりする不具合の発生を防
止できる。
【0060】しかも、検索キーワードとの類似度を判断
する基準となる所定値は、基準類似度入力部21を用い
て任意に変更することができる。したがって、文書デー
タの検索結果が適当でない場合には、所定値を変更し
て、生成される類似キーワードの数を調整して、極力所
望の状態に近い検索結果が得られるようにすることがで
きる。
【0061】類似度テーブル13の記憶内容は、類似度
情報生成部15により、あるキーワードと他のキーワー
ドとの文書データ中における共起関係に基づいて定めら
れる。したがって、既存の文書データに基づいて、適当
な類似度情報を効率的に生成することができる。さら
に、類似度テーブル13の記憶内容は、類似度情報入力
部17からの入力により任意に変更することができる。
したがって、検索したい文書データの分野などに応じ
て、類似度情報を適当な状態に変更することができる。
【0062】さらには、キーワード入力部11から複数
の検索キーワードが入力された場合に、キーワードマッ
チング部23において、複数の検索キーワードの中のあ
るキーワードと他のキーワードとの類似度に基づいて文
書データの検索式を使い分けるようにしている。したが
って、入力された複数の検索キーワードの中のキーワー
ド間の類似度にふさわしい検索式を用いて検索を行なう
ことが可能となる。
【0063】
【発明の効果】以上説明したように請求項1記載の発明
によれば、入力された検索キーワードとの類似度が所定
の条件を満たす類似キーワードを対応キーワードとする
文書データが検索される。したがって、検索キーワード
として入力されなかったキーワードであっても、検索キ
ーワードとの類似度が所定の条件を満たしていれば、文
書データの検索用のキーワードとして用いることが可能
となる。
【0064】請求項2記載の発明によれば、入力された
検索キーワードとの類似度が所定値以上である類似キー
ワードが出力されて、文書データの検索に用いられる。
したがって、不必要に多量の類似キーワードを出力する
ことが極力防止できる。
【0065】請求項3記載の発明によれば、類似キーワ
ードを選び出す場合の基準となる所定値を変更すること
ができる。したがって、文書データの検索結果が適当で
ない場合には、所定値を変更して極力適当な状態の検索
結果を得られるようにすることができる。
【0066】請求項4記載の発明によれば、キーワード
間の類似度を表わす情報は、あるキーワードと他のキー
ワードとの文書データ中における共起関係に基づいて定
められる。したがって、文書データの内容に応じた類似
度情報を極力省力的に定めることができる。
【0067】請求項5記載の発明によれば、類似度情報
を任意に変更することができる。したがって、検索した
い文書データの分野などに応じて類似度情報の内容を極
力適当な内容に変更することができる。
【0068】請求項6記載の発明によれば、複数の検索
キーワードが入力された場合に、それら複数のキーワー
ドの中のあるキーワードと他のキーワードとの類似度に
基づいて、あるキーワードと他のキーワードとの両方の
類似キーワードを対応キーワードとする文書データか、
あるキーワードと他のキーワードとのうちのいずれかの
類似キーワードを対応キーワードとする文書データかの
いずれかが選択的に検索されて出力される。したがっ
て、入力された複数のキーワードの中のキーワード間の
関係を極力ふさわしい手順で文書データを検索出力する
ことが可能となる。
【0069】以上の請求項1〜6の発明により、所望の
文書データを効率よく検索することができる文書データ
検索装置が提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文書データ検索装置の
機能ブロック図である。
【図2】文書データベースの記憶内容を示す模式図であ
る。
【図3】類似度テーブルの記憶内容を示す模式図であ
る。
【図4】表示画面の構成を示す模式図である。
【図5】文書データ検索装置の動作手順を示すフローチ
ャートである。
【図6】類似度情報生成部の機能ブロック図である。
【図7】類似度情報生成部の動作手順を示すフローチャ
ートである。
【図8】類似度情報生成部の動作手順を示すフローチャ
ートである。
【符号の説明】
1 文書データ検索装置 11 キーワード入力部 13 類似度テーブル 15 類似度情報生成部 17 類似度情報入力部 19 キーワード生成部 21 基準類似度入力部 23 キーワードマッチング部 25 文書データベース 27 表示部 121 文書記憶部 123 キーワード記憶部 125 文書解析部 127 頻度加算部 129 頻度正規化部 211,212,213,214 文書データ 221a,221b,222a,222b,223a,
223b,224a,224b 対応キーワード 401 表示画面 403 文書リストウィンドウ 405 類似キーワード表示ウィンドウ 407 キーワード入力ウィンドウ 409 類似度入力ウィンドウ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書データと対応キーワードとを対応さ
    せて記憶する文書データ記憶手段と、 キーワード間の類似度を表わす類似度情報を記憶するた
    めの類似度情報記憶手段と、 文書データを検索するための検索キーワードを入力する
    ための検索キーワード入力手段と、 前記類似度情報記憶手段を参照して前記検索キーワード
    との類似度が所定の条件を満たす類似キーワードを出力
    するための類似キーワード出力手段と、 前記文書データ記憶手段を参照して対応キーワードが前
    記類似キーワード出力手段から出力された類似キーワー
    ドと同一である文書データを出力する文書データ出力手
    段とを含む、文書データ検索装置。
  2. 【請求項2】 前記所定の条件は、検索キーワードとの
    類似度が所定値以上であることを特徴とする、請求項1
    記載の文書データ検索装置。
  3. 【請求項3】 前記所定値を変更するための所定値変更
    手段をさらに含む、請求項2記載の文書データ検索装
    置。
  4. 【請求項4】 前記類似度情報は、あるキーワードと他
    のキーワードとの文書データ中における共起関係に基づ
    いて定められることを特徴とする、請求項1、2または
    3記載の文書データ検索装置。
  5. 【請求項5】 前記類似度情報を任意に変更するための
    類似度情報変更手段をさらに含む、請求項1、2、3ま
    たは4記載の文書データ検索装置。
  6. 【請求項6】 前記検索キーワード入力手段から複数の
    検索キーワードが入力された場合に、 前記類似キーワード出力手段は、前記複数のキーワード
    のそれぞれについての類似キーワードを出力し、 前記文書データ出力手段は、前記複数のキーワードの中
    のあるキーワードと他のキーワードとの類似度に基づい
    て、あるキーワードの類似キーワードの中の少なくとも
    1つと他のキーワードの類似キーワードの中の少なくと
    も1つとの両方を共に対応キーワードとする文書データ
    か、または、あるキーワードの類似キーワードと他のキ
    ーワードの類似キーワードとの中の少なくとも1つの類
    似キーワードを対応キーワードとする文書データかのい
    ずれかを選択的に検索して出力することを特徴とする、
    請求項1、2、3、4または5記載の文書データ検索装
    置。
JP12628694A 1994-06-08 1994-06-08 文書データ検索装置 Expired - Fee Related JP3162907B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12628694A JP3162907B2 (ja) 1994-06-08 1994-06-08 文書データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12628694A JP3162907B2 (ja) 1994-06-08 1994-06-08 文書データ検索装置

Publications (2)

Publication Number Publication Date
JPH07334512A true JPH07334512A (ja) 1995-12-22
JP3162907B2 JP3162907B2 (ja) 2001-05-08

Family

ID=14931459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12628694A Expired - Fee Related JP3162907B2 (ja) 1994-06-08 1994-06-08 文書データ検索装置

Country Status (1)

Country Link
JP (1) JP3162907B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH10198689A (ja) * 1997-01-10 1998-07-31 Minolta Co Ltd 情報処理装置及び記録媒体
JP2001014330A (ja) * 1999-06-30 2001-01-19 Just Syst Corp ターム評価プログラムを記憶した記憶媒体
JP2009031955A (ja) * 2007-07-26 2009-02-12 Fuji Xerox Co Ltd 遠隔会議システム及び遠隔会議システム用プログラム
CN112541499A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体
CN117829140A (zh) * 2024-03-04 2024-04-05 证通股份有限公司 用于规章与法规的自动比对方法及其系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127272A (ja) * 1989-10-18 1992-04-28 Ricoh Co Ltd 文書検索装置におけるキーワードコネクション処理方法
JPH05324728A (ja) * 1992-05-18 1993-12-07 Hitachi Ltd 情報検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127272A (ja) * 1989-10-18 1992-04-28 Ricoh Co Ltd 文書検索装置におけるキーワードコネクション処理方法
JPH05324728A (ja) * 1992-05-18 1993-12-07 Hitachi Ltd 情報検索装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231237A (ja) * 1996-02-28 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH10198689A (ja) * 1997-01-10 1998-07-31 Minolta Co Ltd 情報処理装置及び記録媒体
JP2001014330A (ja) * 1999-06-30 2001-01-19 Just Syst Corp ターム評価プログラムを記憶した記憶媒体
JP2009031955A (ja) * 2007-07-26 2009-02-12 Fuji Xerox Co Ltd 遠隔会議システム及び遠隔会議システム用プログラム
CN112541499A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体
CN117829140A (zh) * 2024-03-04 2024-04-05 证通股份有限公司 用于规章与法规的自动比对方法及其系统
CN117829140B (zh) * 2024-03-04 2024-05-31 证通股份有限公司 用于规章与法规的自动比对方法及其系统

Also Published As

Publication number Publication date
JP3162907B2 (ja) 2001-05-08

Similar Documents

Publication Publication Date Title
US20090083230A1 (en) Apparatus and method for supporting information searches
CN101809575A (zh) 检索辞典数据的标题字的电子设备及其制造方法和程序产品
US20090313572A1 (en) Phrase builder
JP2004326216A (ja) 文書検索装置、方法、プログラム、及び記録媒体
JP2007510214A (ja) 検索結果の画面単位の表示
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JP3162907B2 (ja) 文書データ検索装置
JP3930168B2 (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JPH04281566A (ja) 文書検索装置
JPH0581326A (ja) データベース検索装置
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP3385913B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2007257369A (ja) 情報検索装置
JP5532936B2 (ja) 電子機器及び情報表示プログラム
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JP4344207B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP4049543B2 (ja) 文書検索装置、文書検索プログラム、記録媒体
JP3056810B2 (ja) 文書検索方法および装置
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000137730A (ja) 文書検索装置、文書検索方法及び文書検索プログラムを記録した媒体
JPH0535798A (ja) データベース検索装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010213

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080223

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090223

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees