JPH07192010A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH07192010A
JPH07192010A JP5330249A JP33024993A JPH07192010A JP H07192010 A JPH07192010 A JP H07192010A JP 5330249 A JP5330249 A JP 5330249A JP 33024993 A JP33024993 A JP 33024993A JP H07192010 A JPH07192010 A JP H07192010A
Authority
JP
Japan
Prior art keywords
search
document
unit
keyword
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5330249A
Other languages
English (en)
Inventor
Takanari Ueda
隆也 上田
Shiro Ito
史朗 伊藤
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP5330249A priority Critical patent/JPH07192010A/ja
Publication of JPH07192010A publication Critical patent/JPH07192010A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【構成】 ステップS304で、キーワード評価を行な
うことをユーザが指示した場合は、ステップS305で
キーワード評価処理を行い、その結果得られたキーワー
ドを、出現する文書が多い順に、その文書数とともにキ
ーワード表示部110に表示する。全てを表示すること
は難しいので、予め指定した数だけ上位のものから示す
ようにする。次にステップS306で、ユーザにそのキ
ーワード群の中からキーワードを選択させる。 【効果】 検索結果からキーワード群を抽出し、それら
を評価し、その評価値によってキーワードを整列させ、
その中から追加するキーワードをユーザが選択すること
によって、検索結果を絞り込むことができる。かくし
て、目的の文書を得るまでの時間を短縮することができ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書処理装置に関し、特
に全文を対象にして検索を行う全文検索装置に適用可能
な、文書処理装置に関する。
【0002】
【従来の技術】文書データベースの普及と、計算機処理
能力の向上により、大量の文書データベースから、指定
したキーワードを含む文書を検索する文書検索装置が用
いられるようになってきている。
【0003】特に最近では、検索の際の柔軟性を向上さ
せるために、予め文書につけられたキーワードを使って
検索するのでなく、全文を対象にて検索することによ
り、自由なキーワードを指定できるようにした全文検索
の方式が用いられるようになってきている。この方式に
は、どのようなキーワードを使わなければならないとい
う制約がないために、誰にでも検索することができると
いう特長がある。
【0004】全文検索の方式では一回のキーワード指定
で目的の検索結果が得られることは少なく、一般にはキ
ーワードを追加して検索を繰り返しながら、だんだんに
検索結果を絞り込んでいくという過程をとるのが普通で
ある。
【0005】
【発明が解決しようとする課題】
(1)しかしながら、従来は、ユーザがキーワードを追
加する際に、どのようなキーワードを与えてやれば検索
結果を効果的に絞り込んでいけるかがなかなかわからな
いという問題があった。このため、不適当なキーワード
を与えて、検索結果を絞り込みすぎたり、あるいは、検
索結果が全然絞り込めなかったりすることがしばしばあ
った。
【0006】よって本発明の第1の目的は、上述の欠点
を除去し、所望の文書検索を容易かつ迅速に行い得るよ
う構成した文書処理装置を提供することにある。
【0007】(2)また、ユーザが指定した検索条件を
満たす文書(以下、適合文書と称する)は、分野的な要
因によって、あるいは時期的な要因によってばらついて
いるのが普通である。例えば、新聞記事であれば、ある
「面」に集中していたり、ある「時期」に集中していた
りする。そのため、順次検索していった場合、適合文書
が得られる時間間隔にばらつきが生じる。すなわち、検
索処理の間、ある時点では一度に多くの適合文書が得ら
れるが、別の時点で全く適合文書が得られないというこ
とが起きる。これは、検索結果を随時見たい場合には不
都合である。
【0008】さらに、これまでに検索した文書の数とそ
のうちの適合文書の数から、最終的な適合文書の件数を
途中の段階で予測する場合にも、適合文書が得られる時
間間隔にばらつきがあると予測が不正確になるという問
題がある。
【0009】よって本発明の第2の目的は、上述の欠点
を時期し、適合文書が得られる時間間隔のばらつきをな
くして、利用しやすい文書検索を可能とした、文書処理
装置を提供することにある。
【0010】(3)既述のとおり、文書検索装置を用い
て文書検索を行う際には、検索条件が厳しすぎるために
検索結果が過少であること、あるいは検索条件が緩すぎ
るために検索結果が過多であることがよくあるため、一
度の検索で所望の文書を検索することは難しい。そこ
で、検索者は検索結果の量に応じて検索条件を厳しくす
る、あるいは、緩くして再び検索を行うことが通常であ
る。しかしながら従来のこの種の装置では、一度全ての
検索処理を行い、その検索結果の量から検索者が判断し
て、あるいは装置が判断して検索条件を変更していたた
め、厳しすぎるあるいは緩すぎる検索条件で検索処理を
行うことが、無駄になるという欠点があった。とりわ
け、全文検索装置のように検索処理に時間のかかる文書
処理装置では、検索全体にかかる時間を著しく増大させ
る原因となっていた。
【0011】よって本発明の第3の目的は、上述した従
来の欠点を解決し、検索条件が厳しすぎるあるいは緩す
ぎる場合であっても、無駄な検索処理を行わないように
して、検索全体にかかる時間を削減した文書処理装置を
提供することにある。
【0012】
【課題を解決するための手段】
(1)本発明の第1の目的を達成するために、複数の文
書を有する文書データベースと、文書を検索する条件を
入力する検索条件入力手段と、前記文書データベースか
ら前記検索条件を満たす文書を全文検索によって検索す
る検索手段と、前記検索手段により検索した結果得られ
た文書からキーワード群を抽出する第1の抽出手段と、
前記キーワード群を評価し、その評価値によってキーワ
ードを整列させる整列手段と、前記キーワード群の中か
ら特定のキーワードを選択する選択手段と、前記選択手
段により選択されたキーワードを含む文書を前記検索結
果から抽出する第2の抽出手段とを具備し、全文検索の
検索結果を絞り込むことのできるキーワードを提示し、
該提示によって検索結果を絞り込むものである。
【0013】(2)本発明の第2の目的を達成するため
に、文書を保存する文書保存手段と、文書を検索する条
件を入力する検索条件入力手段と、前記文書保持手段か
ら前記検索条件を満たす文書を検索する検索手段と、前
記検索手段において文書を検索する際の順序を制御する
制御手段とを具備し、文書を検索する順序に偏りがない
ようにしたものである。
【0014】(3)本発明の第3の目的を達成するため
に、検索対象となる文書を保持する検索対象文書保持手
段と、検索条件を保持する検索条件保持手段と、前記検
索対象文書保持手段に保持されている検索対象文書から
前記検索条件保持手段に保持されている検索条件を満足
する文書を検索する検索処理手段と、前記検索処理手段
によって検索された結果を保持する検索結果保持手段と
を有する文書処理装置であって、検索される結果の件数
が過少あるいは過多となることを処理中途において予想
することにより、検索処理の続行の可否を判定する検索
続行可否判定手段を具備した構成とする。ここで、更に
加えて、前記検索続行可否判定手段によって検索を続行
しないと判定されたときに検索条件変更の指示を作成す
る検索条件変更指示作成手段と、前記検索条件変更指示
作成手段によって作成された検索条件変更の指示を保持
する検索条件変更指示保持手段とを有するのが好適であ
る。
【0015】
【作用】
(1)本発明によれば、検索結果からキーワード群を抽
出し、それらを評価し、その評価値によってキーワード
を整列させ、その中から追加するキーワードをユーザが
選択することによって、検索結果を絞り込むことができ
る。かくして、目的の文書を得るまでの時間を短縮する
ことができる。
【0016】(2)また本発明によれば、文書を検索す
る順序を制御する手段を設け、文書を検索する順序が文
書の種類・時期などの面で偏らないようにしたので、適
合文書の得られる時間間隔にばらつきがなくなることが
期待できる。
【0017】(3)さらに本発明によれば、検索される
結果の件数が過少あるいは過多となることを処理中途に
おいて予想することにより、検索条件が厳しすぎるある
いは緩すぎる場合に検索処理を中断するので、無駄な検
索処理を行わずにすみ、検索全体にかかる時間を削減す
ることができる。
【0018】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。
【0019】実施例1 図1は、本発明の一実施例に係る装置の構成を示すブロ
ック図である。
【0020】図1において101は検索条件を入力する
検索条件入力部、102は検索条件を満たす文書を全文
検索によって検索する検索処理部、103は検索対象と
なる文書を有する文書データベース、104は検索処理
部102で得られた結果を保持する検索結果保持部、1
05は検索結果を出力する検索結果出力部、106は検
索結果からキーワードを抽出し評価するキーワード評価
部、107はキーワードを抽出する際の形態素解析を行
う形態素解析処理部、108はキーワードと各キーワー
ドが出現する文書の文書番号を保持するキーワード保持
部、109は各文書についてキーワードを保持する文書
キーワード保持部、110はキーワード評価部106で
抽出し評価されたキーワードを表示するキーワード表示
部、111はキーワード表示部に表示されたキーワード
から特定のキーワードを選択するためのキーワード選択
部である。
【0021】図2は、本実施例におけるシステム構成図
である。同図において、201は図3および図4に示す
制御手順を記憶する制御メモリである。これはROMで
あってもよいし、RAMであってもよい。202は制御
メモリ201に記憶されている制御手段にしたがって処
理を行なう中央処理装置である。203はメモリで、検
索結果を保持する検索結果保持部・キーワードを保持す
るキーワード保持部・文書ごとのキーワードを保持する
文書キーワード保持部を有する。204はキーボードで
あり、検索条件や選択したキーワードをユーザが入力す
るのに用いる。205はディスク装置であり、文書デー
タベースを有する。206はディスプレイで、CRTで
あってもよいし、液晶ディスプレイであってもよい。こ
れは検索結果やキーワードを表示するのに用いる。20
7はバスである。
【0022】図3は、図1に示した装置における動作の
処理手順を示すフローチャートである。本図を参照しな
がら、本発明の一実施例の動作を説明する。
【0023】まず、ステップS301では、ユーザが検
索条件入力部101から入力した検索条件を満たす文書
を文書データベース103から検索する検索処理を検索
処理部102で行う。ここでの検索処理は、一般に知ら
れている全文検索の手法によって行なえばよい。得られ
た検索結果の文書の文書番号は、ステップS302にお
いて検索結果保持部104に保持する。次にステップS
303において、検索結果保持部104に保持された検
索結果が複数かどうかを調べる。保持された検索結果が
ない、もしくは一つだけある場合はそのまま処理を終了
する。
【0024】ステップS303で検索結果が複数あった
場合は、ステップS304に移り、キーワード評価を行
うかどうかをユーザに問い合わせる。キーワード評価を
行なわないことをユーザが指示した場合は、処理を終了
する。
【0025】ステップS304で、キーワード評価を行
なうことをユーザが指示した場合は、ステップS305
でキーワード評価処理を行い、その結果得られたキーワ
ードを、出現する文書が多い順に、その文書数とともに
キーワード表示部110に表示する。全てを表示するこ
とは難しいので、予め指定した数だけ上位のものから示
すようにする。キーワード評価処理の手順については後
述する。
【0026】次にステップS306で、ユーザにそのキ
ーワード群の中からキーワードを選択させる。これはキ
ーワード選択部111から入力することによって行う。
ステップS307では、ユーザが選択したキーワードを
含む文書を抽出し、これを検索結果とする。そして、ス
テップS302に戻って処理を繰り返す。
【0027】図4は、図1に示した装置における動作の
処理手順のうちキーワード評価処理S305の処理手順
を詳細に示したものである。この図を参照しながらキー
ワード評価処理の手順を説明する。
【0028】まず、ステップS401では検索結果保持
部104から文書番号を一つ取り出し、ステップS40
2において、その文書が既にキーワードを登録されてい
るものかどうかを調べる。既にキーワードが登録されて
いる場合は、ステップS406に移る。
【0029】キーワードが登録されていない場合は文書
データベース103から文書を取り出し、ステップS4
03で、その文書について形態素解析処理を行う。形態
素解析の手法については、最長一致法・文節数最小法な
ど一般に知られているどのような手法を用いてもよい。
【0030】ステップS404では、形態素解析の結果
得られた全単語の中からキーワードとして抽出しない不
要語(助詞・助動詞など、予め定めておく)を除いてキ
ーワードを抽出し、さらに文書中で重複しているキーワ
ードは一つにまとめる。また、既にユーザが指定した検
索条件に存在するキーワードも除く。ステップS405
では、この文書について、文書中に現われるキーワード
を、文書キーワード保持部109に登録する。
【0031】次にステップS406に移り、キーワード
保持部108中のキーワードのうちこの文書に現われる
ものにこの文書の文書番号を登録する。キーワード保持
部108に存在しないキーワードがこの文書中にある場
合は、キーワードを登録してから、文書番号を登録す
る。
【0032】ステップS407では、未処理の文書が残
っているかどうかを調べ、残っている場合は、ステップ
S401に戻り、これまでの処理を繰り返す。全ての文
書を処理し終わった場合は、ステップS408に移る。
ステップS408では、キーワード保持部108中に存
在する全キーワードについて、登録されている文書の数
(すなわちそのキーワードが出現する文書の数)によっ
てキーワードをソートする。
【0033】次に、実例を示して、本実施例の更なる具
体的な説明を行う。
【0034】文書キーワード保持部109の内容は、例
えば図5に示すようになる。文書キーワード保持部では
文書ごとにその中に現われるキーワードを列挙する。こ
の例では、文書番号000101の文書にはキーワード
として、「出版,CD−ROM,パソコン,…」が存在
し、文書番号000168の文書にはキーワードとし
て、「パソコン,ワークステーション,OS,…」が存
在する。
【0035】また、キーワード保持部108の内容は、
例えば図6に示すようになる。キーワード保持部では、
キーワードごとにそれがあらわれる文書の文書番号を列
挙する。この例では、「パソコン」というキーワードが
文書番号000101,000168,000487,
…の文書に存在し、「ワープロ」というキーワードが文
書番号000254,000614,000713,…
の文書に存在する。
【0036】キーワード評価部106では、キーワード
保持部108に存在するキーワードについて、文書数が
多い順にソートし、文書数とともににキーワード表示部
110に表示する。この例を示したのが図7である。こ
の例では、最も多く存在するキーワードが「パソコン」
であり(文書数が243)、2番目に多く存在するキー
ワードが「出版」である(文書数が118)ことが示さ
れている。仮にユーザがキーワード「出版」を選択した
とすると、文書数が118に絞り込まれることになる。
同様の処理を繰り返すことによって、効率的に目的の文
書を得ることができる。
【0037】次に、上記実施例の変形例(異なった実施
の態様)を列挙する。
【0038】1.上記実施例では、キーワード抽出の際
に、形態素解析して得られた単語をそのままキーワード
としたが、これだとキーワードがばらつく可能性があ
る。これに対処するために、類義語辞書・異表記語辞書
を用意しておき、類義語・異表記語を一種類のキーワー
ドに写像することによってキーワード抽出をするように
してもよい。例えば、形態素解析の結果、「コンピュー
ター」「計算機」「電算機」「コンピュータ」というキ
ーワードが得られたときに、これらを「コンピュータ」
に写像する。このようにしても本発明は全く同様に実施
できる。
【0039】2.上記実施例では、出現する文書の数を
用いてキーワードを評価したが、これはほかの評価値で
あってもよい。例えば、単に出現する文書の数ではな
く、文書中に現われる回数によって重み付けした数値を
用いてもよい。
【0040】3.上記実施例では、キーワードを表示す
る際に文書数とともに表示したが、文書数ではなく、文
書数の絞り込みの割合を示してもよい。また、キーワー
ドと文書数を表の形で示すのでなく、グラフのような図
的な手段で表示してもよい。
【0041】4.上記実施例では、上位のものからある
数だけキーワードを表示したが、絞り込みの割合の適正
範囲を設定できるようにし、その範囲に納まっているも
のを示すようにしてもよい。
【0042】5.上記実施例では、形態素解析をしてキ
ーワードを抽出したが、単語インデクスが付与されてい
るような文書の場合は、形態素解析によるキーワード抽
出処理を除いて、その単語インデクスをキーワードとし
て利用してもよい。また、形態素解析でなく、文字種に
よるキーワード抽出を行ってもよい。
【0043】6.上記実施例では、入力手段がキーボー
ドであったが、マウスなど他の手段であってもよい。
【0044】実施例2 図8は、本発明の第2の実施例に係る装置の構成を示す
ブロック図である。
【0045】図8において801は検索条件を入力する
検索条件入力部、802は検索条件入力部801から入
力された検索条件を解析する検索条件解析部、803は
検索条件を満たす文書を検索する検索処理部、804は
検索処理部803で得られた結果を出力する検索結果出
力部、805は文書の書かれた時期や文書の種類などに
対する制約条件を保持する制約条件保持部、806は文
書を検索する順序を制御する検索順序制御部、807は
文書検索の順序を決めるために用いる乱数を発生する乱
数発生部、808は検索対象の文書の文書管理情報(文
書の書かれた時期や文書の種類などの情報)を保持する
選択情報保持部、809は検索対象となる文書を保持す
る文書データベース、810はそれぞれの文書につい
て、文書管理情報を保持する文書管理情報ファイルであ
る。
【0046】文書管理情報ファイル810の内容は、例
えば図9に示すようになっている。これは新聞記事に関
するものであり、面と記事の時期によって記事が分類さ
れている。それぞれの記事にはIDがふられており、さ
らに文書ファイル上のアドレスが与えられている。
【0047】図10は、図8に示した装置における動作
の処理手順を示すフローチャートである。本図を参照し
ながら本実施例の動作を説明する。
【0048】まず、ステップS501では検索条件入力
部801で検索条件の入力を行う。次に、ステップS5
02に移り、入力された検索条件を検索条件解析部80
2で解析する。
【0049】ステップS503では、検索条件のうち、
文書の書かれた時期や文書の種類などに対する制約を表
す制約条件があるかどうか調べる。制約条件がある場合
は、ステップS504で制約条件を制約条件保持部80
5に保持する。制約条件がない場合は、全文書が対象に
なるので、ステップS505で制約条件保持部805に
「全文書が対象」という制約条件を保持する。
【0050】次にステップS506において、制約条件
保持部805に保持された制約条件を満たす文書の管理
情報を選択情報保持部808に保持する。そして、ステ
ップS507で、乱数発生部807で発生させた乱数に
よって、選択情報保持部808に文書管理情報が保持さ
れている文書の中から文書を一つ選択する。選択された
文書の文書管理情報はステップS508で選択情報保持
部808から削除する。続いてステップS509で、選
択した文書を文書データベース809から読み込み、検
索条件を満たしているかどうかを調べる検索処理を行
う。
【0051】ステップS510では、選択情報保持部8
08にまだ文書管理情報が残っているかどうかを調べ、
残っている場合はステップS507に戻って処理を繰り
返す。残っていない場合は処理を終了する。
【0052】次に、新聞記事を検索する場合を例にと
り、本実施例の更なる具体的な説明を行う。検索条件と
して「1990年の記事で、コンピュータの販売に関す
るものは?」というものが与えられたとする。検索条件
解析によって、「1990年の記事」という制約条件が
得られる。文書管理情報ファイル810を参照して、1
990年の記事に対応する文書の文書管理情報を選択情
報保持部808に保持する。
【0053】この例の検索条件だと、適合文書は経済面
にかたまっていることが考えられる。従来の手法では、
経済面をまとめて検索していたために、適合文書が得ら
れる時間間隔にばらつきが生じる可能性があった。
【0054】本実施例では、検索順序制御部806で、
乱数発生部807が発生する乱数によって文書の検索順
序を制御する。この順序は例えば、「政治面1月 No.0
00623」→「社会面9月 No.000713」→「経
済面2月 No.000223」のようにランダムなものに
なる。これによって、適合文書が得られる時間間隔が均
等になることが期待できる。
【0055】次に、上記実施例の変形例(異なった実施
の態様)を列挙する。
【0056】1.上記実施例では一つひとつの文書を検
索順序を決める単位としたが、いくつかの文書のまとま
りを単位としてもよい。
【0057】2.上記実施例では検索順序を決める方法
として乱数を用いたが、偏りがないような順序が得られ
るのであれば乱数以外の方法によってもよい。
【0058】3.上記実施例では文書管理情報として、
文書の書かれた時期と文書の種類を用いたが、この他
に、文書を書いた著者などの別の要因を合わせて用いて
もよい。また、このうちの一部を用いてもよい。
【0059】4.上記実施例では一つひとつの文書につ
いて選択と検索処理を繰り返しているが、最初に検索順
序を全て決定してから、検索処理を行ってもよい。
【0060】実施例3 図11は、本発明の第3の実施例に係る装置の構成を示
すブロック図である。
【0061】図11において、1は検索対象となる文書
を保持する検索対象文書保持部、2は検索条件を保持す
る検索条件保持部、3は検索対象文書保持部1に保持さ
れている検索対象文書から検索条件保持部2に保持され
ている検索条件を満足する文書を検索する検索処理部、
4は検索処理部3によって検索された結果を保持する検
索結果保持部、5は検索処理部3によって検索される結
果の件数が過少あるいは過多となることを処理中途にお
いて予想することにより検索処理の続行の可否を判定す
る検索続行可否判定部、6は検索続行可否判定部5によ
って検索を続行しないと判定されたときに検索条件変更
の指示を作成する検索条件変更指示作成部、7は検索条
件変更指示作成部6によって作成された検索条件変更の
指示を保持する検索条件変更指示保持部である。
【0062】図12は、本実施例のシステム構成を示
す。ここで、21は制御メモリであり、図13はフロー
チャートに示すような制御手順に従った制御プログラム
を記憶する。22は制御メモリ21に保持されている制
御手順に従って判断・演算などを行う中央処理装置であ
る。23はメモリであり、検索条件保持部CB,検索結
果保持部RB,検索条件変更指示保持部IBを有してい
る。24はディスク装置であり、検索対象文書保持部T
Bを有している。25はバスである。
【0063】次に図13に示すフローチャートを参照し
て、本装置の動作を説明する。
【0064】まず、検索条件保持部2に検索条件が保持
されるまで、ステップS1が繰り返される。検索条件が
検索条件保持部2に保持されると、ステップS2に移
る。
【0065】ステップS2では、検索対象文書保持部1
に未処理の検索対象文書が残っているか否かを調べ、未
処理の検索対象文書が残っている場合はステップS3に
移る。未処理の検索対象文書が残っていない場合は全て
の処理を終了する。
【0066】ステップS3では、検索対象文書保持部1
に保持されている未処理の検索対象文書から一文書を検
索処理部3に取り出しステップS4に移る。
【0067】ステップS4では、ステップS3で取り出
された文書に対して、検索条件保持部2に保持されてい
る検索条件を満足するか否かを調べることにより検索を
行い、検索された場合は当該文書を同定できる情報を検
索結果として検索結果保持部4に保持する。そしてステ
ップS5に移る。
【0068】ステップS5では、検索処理部3によって
処理された文書の数である検索処理件数が、検索続行の
可否の判定を行うか否かの規定値に等しいか否かを調
べ、規定値に等しい場合はステップS6に移る。規定値
に等しくない場合はステップS2の先頭に帰る。
【0069】ステップS6では、検索処理部3によって
検索された文書の数である検索結果件数が、検索を続行
するか否かの規定範囲内にあるか否かを調べ、規定範囲
内にある場合はステップS2の先頭に帰る。規定範囲内
にない場合は、ステップS7に移る。
【0070】ステップS5とステップS6での処理のた
めに例えば、図14に示すような検索処理件数のカウン
タと検索結果件数のカウンタ並びに図15に示すような
検索処理件数の規定値と検索結果件数の規定範囲の上限
・下限を組み合わせて保持するテーブルを用いる。
【0071】ステップS5では、検索処理件数のカウン
タの値とテーブルの検索処理件数の規定値とを比較す
る。例えば図15に示すようなテーブルを用いていると
き、カウンタの値が図14のようなときには、ステップ
S2の先頭に帰る。
【0072】カウンタの値が図16や図17のようなと
きにはステップS6に移る。
【0073】ステップS6では、検索結果件数のカウン
タの値と、検索処理件数のカウンタと一致した検索処理
件数の規定値に対応する検索結果件数の規定範囲の上限
・下限とを比較する。前記例において、カウンタの値が
図16のようなときにはステップS2の先頭に帰る。カ
ウンタの値が図17のようなときにはステップS7に移
る。
【0074】ステップS7では、検索結果件数が規定範
囲を上回った場合は検索条件を厳しくするという意味の
検索条件変更の指示を、検索結果件数が規定範囲を下回
った場合は検索条件を緩くするという意味の検索条件変
更の指示を作成して、検索条件変更指示保持部7に保持
する。そして、全ての処理を終了する。
【0075】次に、上記実施例の変形(異なった実施の
態様)を列挙する。
【0076】1.上記実施例では、検索条件変更指示作
成部6と検索条件変更指示保持部7とを設けて文書処理
装置の実施例(請求項4に対応)としたが、検索条件変
更指示作成部6と検索条件変更指示保持部7を省き、図
12のメモリ23から検索条件変更指示保持部IBを省
き、図13のフローチャートからステップS7を省くこ
とも可能である(請求項3の文書処理装置となる)。
【0077】2.上記実施例では、規定の検索処理件数
における検索結果件数の規定範囲と実際の検索件数を比
較することにより検索結果が過多・過少となるか否かを
予想して検索続行の可否を判定する場合について説明し
たが、これに限定されるものでなく、常に一定の検索結
果件数の規定範囲と実際の検索結果件数を比較する、実
際の検索結果件数と検索処理件数の比率をその規定範囲
と比較するなど検索結果が過多・過少となるか否かを予
想する他の手法を用いて検索続行の可否を判定してもよ
いものである。
【0078】3.上記実施例では、検索処理件数が規定
値に等しい場合のみ検索続行可否判定部5で検索続行の
可否を判定する場合について説明したが、これに限定さ
れるものでなく、一定時間毎に判定する、検索対象文書
の一ブロックを処理する毎に判定する、一文書の検索処
理が終了する毎に判定するなど処理中途の任意の時点で
判定を行ってもよいものである。
【0079】4.上記実施例では、検索続行可否判定部
5において検索結果が減少となることと過多になること
を共に検索続行の可否を判定する条件とする場合につい
て説明したが、これに限定されるものでなく、過少ある
いは過多のどちらか一方だけを条件として判定を行って
もよいものである。
【0080】5.上記実施例では、検索処理部3で文書
を単位として処理を行う場合について説明したが、これ
に限定されるものでなく、ディスク装置のブロック単位
とするなど他の単位でもよいものである。
【0081】6.上記実施例では、検索対象文書保持部
1をディスク装置で実現し、検索条件保持部2と検索結
果保持部4と検索条件変更指示保持部7とをメモリで実
現した場合について説明したが、これらに限定されるも
のでなく、光磁気ディスク装置など他の記憶デバイスで
もよいものである。
【0082】
【発明の効果】
(1)以上説明したように本発明によれば、目的の文書
を得るまでの時間を短縮することができるので、利用し
やすい文書検索機能付きの文書処理装置が得られるとい
う効果がある。
【0083】(2)また本発明によれば、適合文書の得
られる時間間隔にばらつきがなくなることが期待できる
ので、利用しやすい文書検索機能付きの文書処理装置が
得られるという効果がある。
【0084】(3)さらに本発明によれば、検索される
結果の件数が過少あるいは過多となることを処理中途に
おいて予想することにより、検索条件が厳しすぎるある
いは緩すぎる場合に検索処理を中断することができるの
で、無駄な検索処理を行わずにすみ、検索全体にかかる
時間を削減できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施例に係る装置の構成を示す
ブロック図である。
【図2】第1の実施例に係るシステム構成を示すブロッ
ク図である。
【図3】第1の実施例に係る処理手順を示すフローチャ
ートである。
【図4】図3に示したフローチャートの一部の処理の処
理手順をさらに詳細に示すフローチャートである。
【図5】第1の実施例に係る文書キーワード保持部の内
容の例を示す図である。
【図6】第1の実施例に係るキーワード保持部の内容の
例を示す図である。
【図7】第1の実施例に係るキーワード表示部の表示の
例を示す図である。
【図8】本発明の第2の実施例に係る装置の構成を示す
ブロック図である。
【図9】第2の実施例に係る文書管理情報の例を示す図
である。
【図10】第2の実施例に係る処理手順を示すフローチ
ャートである。
【図11】本発明の第3の実施例に係る文書処理装置を
示す基本構成図である。
【図12】第3の実施例のシステム構成を示すブロック
図である。
【図13】第3の実施例の処理手順を示すフローチャー
トである。
【図14】第3の実施例における検索処理件数と検索結
果件数のカウンタを説明する図である。
【図15】第3の実施例における検索処理件数の規定値
と検索結果件数の規定範囲を保持するテーブルを説明す
る図である。
【図16】第3の実施例における検索処理件数と検索結
果件数のカウンタの図14と異なる状態を説明する図で
ある。
【図17】第3の実施例における検索処理件数と検索結
果件数のカウンタの図16と異なる状態を説明する図で
ある。
【符号の説明】
1 検索対象文書保持部 2 検索条件保持部 3 検索処理部 4 検索結果保持部 5 検索続行可否判定部 6 検索条件変更指示作成部 7 検索条件変更指示保持部 101 検索条件入力部 102 検索処理部 103 文書データベース 104 検索結果保持部 105 検索結果出力部 106 キーワード評価部 107 形態素解析処理部 108 キーワード保持部 109 文書キーワード保持部 110 キーワード表示部 111 キーワード選択部 201 制御メモリ 202 中央処理装置 203 メモリ 204 キーボード 205 ディスク装置 206 ディスプレイ 207 バス 801 検索条件入力部 802 検索条件解析部 803 検索処理部 804 検索結果出力部 805 制約条件保持部 806 検索順序制御部 807 乱数発生部 808 選択情報保持部 809 文書データベース 810 文書管理情報ファイル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を有する文書データベース
    と、 文書を検索する条件を入力する検索条件入力手段と、 前記文書データベースから前記検索条件を満たす文書を
    全文検索によって検索する検索手段と、 前記検索手段により検索した結果得られた文書からキー
    ワード群を抽出する第1の抽出手段と、 前記キーワード群を評価し、その評価値によってキーワ
    ードを整列させる整列手段と、 前記キーワード群の中から特定のキーワードを選択する
    選択手段と、 前記選択手段により選択されたキーワードを含む文書を
    前記検索結果から抽出する第2の抽出手段とを具備し、 全文検索の検索結果を絞り込むことのできるキーワード
    を提示し、該提示によって検索結果を絞り込むことを特
    徴とする文書処理装置。
  2. 【請求項2】 文書を保存する文書保存手段と、 文書を検索する条件を入力する検索条件入力手段と、 前記文書保持手段から前記検索条件を満たす文書を検索
    する検索手段と、 前記検索手段において文書を検索する際の順序を制御す
    る制御手段とを具備し、 文書を検索する順序に偏りがないようにしたことを特徴
    とする文書処理装置。
  3. 【請求項3】 検索対象となる文書を保持する検索対象
    文書保持手段と、 検索条件を保持する検索条件保持手段と、 前記検索対象文書保持手段に保持されている検索対象文
    書から前記検索条件保持手段に保持されている検索条件
    を満足する文書を検索する検索処理手段と、 前記検索処理手段によって検索された結果を保持する検
    索結果保持手段とを有する文書処理装置であって、 検索される結果の件数が過少あるいは過多となることを
    処理中途において予想することにより、検索処理の続行
    の可否を判定する検索続行可否判定手段を具備したこと
    を特徴とする文書処理装置。
  4. 【請求項4】 請求項3の文書処理装置において、更に
    加えて、前記検索続行可否判定手段によって検索を続行
    しないと判定されたときに検索条件変更の指示を作成す
    る検索条件変更指示作成手段と、 前記検索条件変更指示作成手段によって作成された検索
    条件変更の指示を保持する検索条件変更指示保持手段と
    を有することを特徴とする文書処理装置。
JP5330249A 1993-12-27 1993-12-27 文書処理装置 Pending JPH07192010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5330249A JPH07192010A (ja) 1993-12-27 1993-12-27 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5330249A JPH07192010A (ja) 1993-12-27 1993-12-27 文書処理装置

Publications (1)

Publication Number Publication Date
JPH07192010A true JPH07192010A (ja) 1995-07-28

Family

ID=18230529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5330249A Pending JPH07192010A (ja) 1993-12-27 1993-12-27 文書処理装置

Country Status (1)

Country Link
JP (1) JPH07192010A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP2008518345A (ja) 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP6253041B1 (ja) * 2017-04-14 2017-12-27 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム
WO2020170593A1 (ja) * 2019-02-18 2020-08-27 ソニー株式会社 情報処理装置及び情報処理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004054619A (ja) * 2002-07-19 2004-02-19 Nec Soft Ltd 文書検索システム、文書検索方法、および、文書検索プログラム
JP2008518345A (ja) 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP6253041B1 (ja) * 2017-04-14 2017-12-27 データ・サイエンティスト株式会社 ウェブページ解析装置、ウェブページ解析方法、及びプログラム
WO2020170593A1 (ja) * 2019-02-18 2020-08-27 ソニー株式会社 情報処理装置及び情報処理方法
US11928142B2 (en) 2019-02-18 2024-03-12 Sony Group Corporation Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
US6205443B1 (en) Overlapping subdocuments in a vector space search process
US5787421A (en) System and method for information retrieval by using keywords associated with a given set of data elements and the frequency of each keyword as determined by the number of data elements attached to each keyword
KR100295354B1 (ko) 문서 정보 검색 시스템
JP4583003B2 (ja) 検索処理方法及びプログラム
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US6446066B1 (en) Method and apparatus using run length encoding to evaluate a database
JPH0675265B2 (ja) 情報検索方法及びシステム
WO2002027532A1 (en) System and method for use in text analysis of documents and records
JP2004213675A (ja) 構造化ドキュメントの検索
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JPH07192010A (ja) 文書処理装置
JPH05101107A (ja) 適合率を用いた絞り込みデータ検索装置及び方法
US5978800A (en) Method of searching data for a given character string
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH0773197A (ja) 異表記語辞書作成支援装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JPH064584A (ja) 文章検索装置
JP3385913B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2005031950A (ja) 情報検索装置、情報検索方法およびプログラム
JP4010711B2 (ja) ターム評価プログラムを記憶した記憶媒体
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体