JP4344207B2 - 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体 - Google Patents

文書検索装置、文書検索方法、文書検索プログラム、および記録媒体 Download PDF

Info

Publication number
JP4344207B2
JP4344207B2 JP2003329205A JP2003329205A JP4344207B2 JP 4344207 B2 JP4344207 B2 JP 4344207B2 JP 2003329205 A JP2003329205 A JP 2003329205A JP 2003329205 A JP2003329205 A JP 2003329205A JP 4344207 B2 JP4344207 B2 JP 4344207B2
Authority
JP
Japan
Prior art keywords
document
search
similar
documents
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003329205A
Other languages
English (en)
Other versions
JP2005092824A (ja
Inventor
博子 真野
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003329205A priority Critical patent/JP4344207B2/ja
Publication of JP2005092824A publication Critical patent/JP2005092824A/ja
Application granted granted Critical
Publication of JP4344207B2 publication Critical patent/JP4344207B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、キーワードの入力を行わなくとも元文書から検索条件または再検索条件を自動的に生成して文書データベースを検索し一または複数の類似文書を選出して表示する文書検索装置、文書検索方法、文書検索プログラム、および記録媒体に関する。
文書を多数集積している文書データベースからユーザの必要とする文書を探し出すための文書検索装置が、近年、広く利用されている。文書検索装置には、任意の文書が指定されたとき、文書データベースからその文書に類似する類似文書を検索する機能(類似文書検索)を備えたものがある(たとえば特許文献1参照。)。
このような類似文書検索においては、一般に、検索の元になる元文書の全体が検索条件として用いられるため、元文書に異なる複数の内容が記述されている場合に、そのうちどれかの内容だけに着目して検索することは困難であった。
このため、たとえば検索キー文書および検索対象文書から項目の文書を切り出し、検索キー文書/検索対象文書間の類似度をベクトル空間法などを用いて項目の単位で類似文書の検索結果(たとえば文書ID)を判別して出力する類似文書検索装置が提案されている(たとえば特許文献2参照。)。また、自然言語で表現された文字列からなる複数の文書に対して検索条件から抽出された単語の表記と同一の文字列の出現集合を求め、これらの出現集合を基に単語ごとの出現充足度を求め、検索条件から抽出したすべての単語に対して求められた出現度を基に充足度を求め、充足度に応じて検索結果の文書を選択して出力する文書検索装置が提案されている(たとえば特許文献3参照。)。
特開平11−73415号公報 特開2000−331027号公報 特開2003−150636号公報
しかしながら、特許文献2に記載の従来例においては、元文書を項目単位に分割して項目ごとの検索結果を並べて出力するため、一度に、すべての項目について、各項目と検索対象文書との類似を比較することになるので、検索時間が長くなる問題がある。また、各項目ごとに分割するとしても、文書構造をもたない、あるいは文書構造が文書ごとに異なる場合には自動で文書を項目ごとに分割するのは困難である。また、適宜検索条件を変更したい場合、ユーザが検索条件の変更を簡便に指示するという手立てがなく対応し得ない問題があった。また、検索条件の設定変更を自動化して再検索を繰り返すという手立てもなく、検索結果が必ずしも満足するものとは限らないという問題があった。
特許文献3に記載の従来例においては、検索条件中の各単語と文書群中の各文書に対し文字列または単語の文書内での出現集合を求め、文字列または単語の出現度を求めて充足度を求め検索結果の文書を選択するというものであるため、精細な検索が可能ではあるが、検索条件の設定如何により検索内容が限られるという問題があった。また検索後に選択から外れた文書の中にもっともユーザが求める文書があるといった場合も否定し得ず、しかもたとえば検索結果が不満足である場合等に、再度検索条件を設定し直すとしても特許文献2の場合と同様にユーザが検索条件の変更を簡便に指示するという手立てはなく、したがって検索条件の設定を変更する都度、ユーザに面倒な処理を強いらざるを得ないという問題があった。すなわち特許文献3の場合も、検索条件の設定変更を自動化して再検索を繰り返し行えるという手立てはなく、検索結果が必ずしも満足するものとは限らないという問題が内在するものであった。
この発明は、上述した従来技術による問題点を解消するため、最初の検索条件の設定をも自動化することが可能であり、しかもたとえば検索結果が十分に満足できる内容ではない場合等にも、ユーザの簡便な指示で検索条件を自動的に随時変更して信頼度の高い文書検索を行うことができる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体を提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかる文書検索装置は、複数の文書を記憶する文書データベースと、検索対象となる文書を指定する文書指定部と、前記文書指定部の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で前記文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を選出する文書選出部と、前記選出された類似文書を検索結果として出力する類似文書出力部と、前記類似文書が検索結果として出力された後に、前記文書選出部に前記検索条件とは異なる検索条件で検索をすることを要求する文書切り替え指示部と、を備え、前記文書選出部は、前記文書切り替え指示部からの検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする。
また、前記文書切り替え指示部は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンからなり、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求する構成としてもよい。
また、前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示する類似文書画像表示部を備え、前記文書切り替え指示部は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示部に要求する構成としてもよい。
また、この発明の文書検索方法は、コンピュータにより文書検索する文書検索方法において、検索対象となる文書をユーザにより指定する文書指定工程と、前記文書指定工程の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を文書選出部により選出する文書選出工程と、前記選出された類似文書を類似文書出力部から検索結果として出力する類似文書出力工程と、前記類似文書が検索結果として出力された後に、前記検索条件とは異なる検索条件で検索をすることを文書切り替え支持部により要求する文書切り替え指示工程と、を含み、前記文書選出工程は、前記文書切り替え指示工程の検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする。
また、前記文書切り替え指示工程は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンのうち、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求する構成としてもよい。
また、前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示させる類似文書画像表示工程を含み、前記文書切り替え指示工程は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示工程に要求する構成としてもよい。
また、この発明の文書検索プログラムは、上記の方法をコンピュータに実行させることを特徴とする。
また、この発明の記録媒体は、上記の文書検索プログラムを記録したことを特徴とする。
本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体によれば、元文書を指定することのみで、元文書から所定の一部分として、たとえば所定の領域を特定して、該領域内の文書中のキーワードを抽出し検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで簡単に類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定および再設定に際しても複雑な処理や膨大な処理を必要とせず、このため検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、文書切替え指示手段を用いた簡便な指示で、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるため、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記憶媒体の好適な実施の形態を詳細に説明する。
(文書検索装置の概要)
図1は、この発明の実施の形態にかかる文書検索装置100の概略構成を示すブロック図である。文書検索装置100は、図1に示すように、CPU101と、ROM102と、RAM103と、HDD(ハードディスクドライブ)104と、HD(ハードディスク)105と、FDD(フレキシブルディスクドライブ)106と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)107と、ディスプレイ108と、通信I/F(インタフェイス)109と、キーボード110と、マウス111と、スキャナ112と、プリンタ113とを備えている。これら各構成部はバス114によってそれぞれ接続されている。
CPU101は、全体の制御を司る。ROM102は、ブートプログラムなどのプログラムが記憶されている。RAM103は、CPU101のワークエリアとして使用される。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御により書き込まれたデータを記憶する。
一方、詳しくは図3を参照して後述するが、本実施の形態においては、たとえば、元文書指定プログラムを含む元文書指定部301、文書選出プログラムを含む文書選出部302、類似文書出力プログラムを含む類似文書出力部304、文書切替え指示プログラムを含む文書切替え指示部305を備えるものである。それら元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、文書切替え指示プログラムを含む文書検索プログラムが、ROM102、あるいはHD105などに記憶されている。
FDD106は、CPU101の制御にしたがってFD107に対するリード/ライトを制御する。FD107は、FDD106で書き込まれたデータを記憶する。
着脱可能な記憶媒体として、FD107の他、CD−ROM(CD−R,CD−RW)、MO、DVD(Digital Versatile Disk)、メモリカードなどであってもよい。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラム等は、これらFD107、CD−ROM、MO、DVD、メモリカード等からROM102やHD105にインストールするという態様がある。
ディスプレイ108は、カーソル、アイコン、あるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ108には、たとえばCRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F109は、通信回線を通じてインターネットなどのネットワーク(図2参照)201に接続され、このネットワーク201を介して他の装置(たとえば端末装置、携帯端末装置等)に接続される。そして、I/F109は、ネットワーク201と内部のインタフェイスを司り、外部装置(たとえば端末装置、携帯端末装置等)からのデータの入出力を制御する。I/F109には、たとえばモデムやLANアダプタなどを採用することができる。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラムを含む文書検索プログラム等は、I/F109を介してネットワーク201上のたとえばサーバコンピュータ(図2参照)202等からダウンロードすることでROM102やHD105に記憶するという態様がある。
キーボード110は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス111は、カーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様の機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ112は、画像を光学的に読み取った画像データなどをたとえばRAM103やHD107などに取り込む。なお、スキャナ112には、OCR機能をもたせてもよい。プリンタ113は、画像データや文書データを印刷する。プリンタ113には、たとえばレーザプリンタやインクジェットプリンタを採用することができる。
(文書検索装置の使用形態の一例)
図2は、文書検索装置100の使用形態の一例を示す説明図である。ネットワーク201には、サーバコンピュータ202、および複数の端末装置203が接続されている。サーバコンピュータ202は、図1に示す構成を備えるものであるが、たとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303Aが構築されている。また、各端末装置203は、図1に示す構成を備えており、したがって各々文書検索装置100とみなすことができる。ただし、各端末装置203にもたとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303を構築することが可能である。なお、文書データベース303A,303に保存される各文書には、たとえば各分野ごとの書籍、雑誌や、特許文献などが好適であるが、ホームページなどを適用することも可能であり、その他任意の文書を適用してもよい。
(文書検索装置の主要部)
図3は、文書検索装置100の主要部の構成を示す機能ブロック図である。文書検索装置100は、基本的に、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを備えるものである。
元文書指定部301は、たとえば元文書指定プログラムの実行により元文書すなわちRAM103あるいはHD105などに記憶された検索元となる所定の文書を指定する。文書選出部302は、あらかじめ元文書指定部301が指定した元文書に類似する文書の検索条件を自動的に設定する。文書選出部302は、検索条件の設定後、文書検索装置100内のたとえばHD105により構成される文書データベース303を検索し一または複数の類似文書のデータを取得するか、もしくは、たとえばサーバコンピュータ(図2参照)202にネットワーク201を介してアクセスし、サーバコンピュータ202内のたとえばHDD104に、たとえば大容量化された複数のHD105を用いることで構成された文書データベース303Aを該検索条件に基づいて検索させ、検索結果である一または複数の類似文書のデータをネットワーク201を介して取得する。文書選出部302は、取得した一または複数の類似文書のデータをたとえばRAM103、あるいはHD105に記憶させる処理をCPU101に依頼する信号を出力する。
図4〜図6に元文書から選択される所定の領域の具体例を説明する説明図を示す。文書選出部302は、検索条件を設定する場合、元文書のたとえば所定に区切り得る所定の一部分を選択して、該所定の一部分内の文書中のキーワードを抽出するキーワード抽出動作を行うことで検索条件を自動的に設定する。文書選出部302は、元文書から所定の一部分を選択する場合、各章ごと、あるいは各項目ごとに選択してもよいが、たとえば図4に示すように、元文書のあるページ(最初は1ページ目でよいが、あるいは全ページでもよい)ごとのたとえば所定の行数分(もしくは所定の文字数、たとえば300文字など)の領域Taを指定する。文書選出部302は、該領域Ta内のたとえばすべてのキーワードを抽出することで検索条件を設定する。指定された領域Ta、および設定された検索条件のデータは、たとえばRAM103などに記憶されるとともに、設定後の検索条件のキーワードを含むデータは類似文書の検索に使用される。
また、文書選出部302は、文書切替え指示部305からの指定により新たな文書検索を行うべく検索条件の再設定が要求された場合は、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、たとえば図5に示すように、元文書から該領域Taに後続する所定の領域(たとえば同数の行数分、もしくは同数の文字数分)Tbを指定して、この領域Tbからたとえばすべてのキーワードを抽出し検索条件の再設定を自動的に行う。また、この新たな領域Tbに係るデータもRAM103などにデータとして記憶される。文書選出部302は、文書切替え指示部305からの再度の指定により更に検索条件の再設定が要求された場合は、上述と同様の処理を行なって、たとえば図6に示すように、更に後続する新たな領域(たとえば同数の行数分、もしくは同数の文字数分)Tcを指定して同じくすべてのキーワードを抽出し検索条件の再設定を自動的に行う。以下、文書選出部302はこれを元文書の最後まで繰り返すことが可能である。
類似文書出力部304は、たとえば類似文書出力プログラムの実行により文書選出部302が選出してRAM103あるいはHD105に記憶された類似文書をたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。類似文書出力部304は、文書選出部302が再設定の検索条件に基づいて検索した新たな類似文書をもたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。
図7に文書切替え指示部305の具体例を説明する説明図を示す。文書切替え指示部305はたとえばディスプレイ108に操作ウインドウ(以下指定インタフェイスと称する)700を表示させることで構成することが可能である。指定インタフェイス700には、「文書切替え」というタイトルが表記されており、ディスプレイ108に画像表示した類似文書がユーザが求める文書に近いことを示すための「近い」操作ボタン703と、ディスプレイ108に画像表示した類似文書がユーザが求める文書から遠いことを示すための「遠い」操作ボタン704とが設定されている。たとえばマウス111により「近い」操作ボタン703をクリックした場合は、検索結果である各類似文書がユーザが求めるものに近いものであることを示すため、RAM103あるいはHD105に記憶された次の類似文書の画像表示に切替えることを促す信号をたとえばCPU101を介し類似文書出力部304に出力する。たとえばマウス111により「遠い」操作ボタン704をクリックした場合は、検索結果である各類似文書がユーザが求めるものから遠いものであることを示すため、検索条件を再設定して新たな類似文書の検索を行うことを促す信号をたとえばCPU101を介し文書選出部302に出力する。
なお、ディスプレイ108には、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)をたとえばツールバーなどに表示することも可能である。特定インタフェイスには、たとえば肯定ボタンと否定ボタンが設定される。
一方、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを構成する場合、各々に上記専用のプログラムを用いることなく、たとえばロジックICやロジックカード等を用いて構成してもよいことは勿論である。
(文書検索プログラム)
図8は、本実施の形態にかかる文書検索プログラムの処理を示すフローチャートである。まずステップS801(元文書指定工程:元文書指定プログラム:元文書指定部301の起動)において、たとえばRAM103あるいはHD105などに記憶された検索元となる所定の文書(元文書)を特定する。ステップS802(文書選出工程:文書選出プログラム:文書選出部302の起動)において、元文書から所定の一部分として、たとえば300文字分の最初の領域(たとえば領域Ta、図4参照)を特定する。ステップS803(文書選出工程:文書選出プログラム:文書選出部302の起動)(類似文書再選出工程)において、特定した領域(たとえば領域Ta)を基に検索条件を生成(設定)して、たとえばサーバコンピュータ202にアクセスし該検索条件に基づいて文書データベース303Aから類似文書を検索させる。検索条件の設定に際しては、特定した文書中のキーワードを抽出することで行う。そして、検索結果である一または複数の類似文書のデータをサーバコンピュータ202から取得すると、類似文書のデータをRAM103あるいはHD105などに記憶する。続いてステップS804(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち最初の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示する。
しかる後、ステップS805において、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)の肯定ボタンあるいは否定ボタンがたとえばマウス111によりクリックされたか否かを判定する。特定インタフェイスの肯定ボタンがクリックされた場合(ステップS805:Yes)は、本フローを終了するが、否定ボタンがクリックされた場合(ステップS805:No)は、ステップS806(選択指定工程:文書切替え指示プログラム:文書切替え指示部305の起動)において、指定インタフェイス700の「近い」操作ボタン703がたとえばマウス111によりクリックされたか否かを判定する。
「近い」操作ボタン703がクリックされたことを判定した場合(ステップS806:Yes)は、ステップS807(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち次の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示した後、ステップS805に移行する。しかし、「近い」操作ボタン703がクリックされず、「遠い」操作ボタン704がクリックされたことを判定した場合(ステップS806:No)は、ステップS802(類似文書再選出工程)に移行する。ただし、この場合、ステップS802においては、元文書から新たな領域を特定すべく、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、元文書から該領域Taに後続する所定の領域(たとえば同数の300文字分:図5参照)Tbを再特定することになり、以下この処理に移行する場合は、順次後続の領域が再特定(類似文書再選出工程)されるものとなる。また、ステップS803(類似文書再選出工程)においても、再特定した領域(たとえば領域Tbなど)を基に検索条件を再生成(再設定)して、たとえばサーバコンピュータ202に再度アクセスし該検索条件の再設定に基づいて文書データベース303Aから新たな類似文書を検索させることになる。
本実施の形態においては、元文書を指定すると、元文書から所定の一部分として、たとえば300文字分の所定の領域を特定して、該領域内の文書中のキーワードを抽出することで検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定に際しても複雑な処理や膨大な処理を必要とせず、検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、指定インタフェイス700の「遠い」操作ボタン704をクリックするだけで、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるので、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。
なお、本実施の形態で説明した文書検索プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録されるが、特にフレキシブルディスク、CD−ROM、MO、DVD等の記録媒体に記録することで一般に配布することが可能であり、あるいはインターネットなどのネットワーク(伝送媒体)を介して一般に配布することも可能である。
以上のように、本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体は、膨大な数の文書検索に有用であり、特に各分野の書籍、雑誌、新聞や特許文献、あるいはホームページなどの検索に適している。
この発明の実施の形態にかかる文書検索装置の概略構成を示すブロック図である。 文書検索装置の使用形態の一例を示す説明図である。 文書検索装置の主要部の構成を示す機能ブロック図である。 元文書から選択される所定の領域の具体例を説明する説明図である。 元文書から選択される他の所定の領域の具体例を説明する説明図である。 元文書から選択される更に他の所定の領域の具体例を説明する説明図である。 文書切替え指示部の具体例を説明する説明図である。 本実施の形態にかかる文書検索プログラムの処理を示すフローチャートである。
符号の説明
100 文書検索装置
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 ディスプレイ
109 I/F
110 キーボード
111 マウス
112 スキャナ
113 プリンタ
114 バス
201 ネットワーク
202 サーバコンピュータ
203 端末装置
301 元文書指定部
302 文書選出部
303,303A 文書データベース
304 類似文書出力部
305 文書切替え指示部
Ta,Tb,Tc 領域
700 操作ウインドウ(指定インタフェイス)
703 「近い」操作ボタン
704 「遠い」操作ボタン

Claims (8)

  1. 複数の文書を記憶する文書データベースと、
    検索対象となる文書を指定する文書指定部と、
    前記文書指定部の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で前記文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を選出する文書選出部と、
    前記選出された類似文書を検索結果として出力する類似文書出力部と、
    前記類似文書が検索結果として出力された後に、前記文書選出部に前記検索条件とは異なる検索条件で検索をすることを要求する文書切り替え指示部と、を備え、
    前記文書選出部は、前記文書切り替え指示部からの検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする文書検索装置。
  2. 前記文書切り替え指示部は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンからなり、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求することを特徴とする請求項1に記載の文書検索装置。
  3. 前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示する類似文書画像表示部を備え、
    前記文書切り替え指示部は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示部に要求することを特徴とする請求項2に記載の文書検索装置。
  4. コンピュータにより文書検索する文書検索方法において、
    検索対象となる文書をユーザにより指定する文書指定工程と、
    前記文書指定工程の指定に応じて、前記指定された文書の予め決められた所定の行数もしくは文字数分を選出領域として特定し、該選出領域に含まれるキーワードに基づいて検索条件を生成し、該検索条件で文書データベースに記憶される複数の文書を検索し、類似すると判定された類似文書を文書選出部により選出する文書選出工程と、
    前記選出された類似文書を類似文書出力部から検索結果として出力する類似文書出力工程と、
    前記類似文書が検索結果として出力された後に、前記検索条件とは異なる検索条件で検索をすることを文書切り替え支持部により要求する文書切り替え指示工程と、を含み、
    前記文書選出工程は、前記文書切り替え指示工程の検索要求に応じて、前記選出領域に基づいて、該選出領域に後続する前記予め決められた所定の行数もしくは文字数分を前記指定された文書の新たな選出領域として再特定し、該新たな選出領域に基づいて検索条件を生成し、該検索条件で再検索し類似文書を選出し直すことを特徴とする文書検索方法。
  5. 前記文書切り替え指示工程は、検索結果がユーザが求める文書に対して「近い」あるいは「遠い」を入力操作する操作ボタンのうち、「遠い」操作入力時には、前記文書選出部に前記検索条件とは異なる検索条件での検索を要求することを特徴とする請求項4に記載の文書検索方法。
  6. 前記類似文書出力部によって出力された類似文書のうち所定の数の類似文書を画像表示させる類似文書画像表示工程を含み、
    前記文書切り替え指示工程は、前記「近い」操作入力時には、前記検索の要求は行わずに、画像表示されていない前記類似文書のうち所定の数の類似文書を画像表示することを前記文書画像表示工程に要求することを特徴とする請求項5に記載の文書検索方法。
  7. 請求項4〜6のいずれか一つに記載された方法をコンピュータに実行させることを特徴とする文書検索プログラム。
  8. 請求項7に記載の文書検索プログラムを記録したことを特徴とする記録媒体。
JP2003329205A 2003-09-19 2003-09-19 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体 Expired - Fee Related JP4344207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003329205A JP4344207B2 (ja) 2003-09-19 2003-09-19 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003329205A JP4344207B2 (ja) 2003-09-19 2003-09-19 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2005092824A JP2005092824A (ja) 2005-04-07
JP4344207B2 true JP4344207B2 (ja) 2009-10-14

Family

ID=34458511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003329205A Expired - Fee Related JP4344207B2 (ja) 2003-09-19 2003-09-19 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4344207B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4857448B2 (ja) * 2006-03-10 2012-01-18 独立行政法人情報通信研究機構 多義語による情報検索装置及びプログラム
JP5373439B2 (ja) * 2009-03-09 2013-12-18 株式会社野村総合研究所 著作物比較システム
WO2016147220A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JP2019053763A (ja) * 2018-11-28 2019-04-04 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、プログラム

Also Published As

Publication number Publication date
JP2005092824A (ja) 2005-04-07

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
JP2007286864A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP5284030B2 (ja) 検索条件指定装置、検索条件指定方法及びプログラム
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4344207B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JP4682030B2 (ja) 図形検索プログラム、該プログラムを記録した記録媒体、図形検索装置、および図形検索方法
JP2006285656A (ja) 文書検索システム、記録媒体、プログラム、および文書検索方法
JP5640700B2 (ja) 情報検索装置、検索入力方法、及び検索入力プログラム
JP3500893B2 (ja) 情報処理装置および情報処理方法
JPH1139338A (ja) 文書検索装置、文書検索方法及び文書検索のためのプログラムを記録した媒体
JP2000029901A (ja) 画像検索装置及び方法
JP6282051B2 (ja) データ処理装置、データ処理方法及びプログラム
JP2000322439A (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP2023019209A (ja) 情報処理装置及びプログラム
JP2007080109A (ja) データ表示装置、データ表示方法、およびその方法をコンピュータに実行させるプログラム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
CN114730319B (zh) 搜索有效度可视化系统、搜索有效度可视化方法及载体装置
Wei et al. Assisted human-in-the-loop adaptation of Web pages for mobile devices
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2001147922A (ja) 文書管理装置、文書管理方法および記憶媒体
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2006039938A (ja) 選択項目表示装置、選択項目表示方法、および選択項目表示プログラム
JP2006172029A (ja) 検索結果提示方法
JP5720511B2 (ja) 情報閲覧方法、情報閲覧システム、サーバ装置およびクライアント装置
JP2000132555A (ja) キーワード検索方法及び装置並びにキーワード検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090710

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130717

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees