JPH09305626A - 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 - Google Patents
検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法Info
- Publication number
- JPH09305626A JPH09305626A JP8124190A JP12419096A JPH09305626A JP H09305626 A JPH09305626 A JP H09305626A JP 8124190 A JP8124190 A JP 8124190A JP 12419096 A JP12419096 A JP 12419096A JP H09305626 A JPH09305626 A JP H09305626A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- document data
- keyword
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 本発明はユーザーの負担を軽減させつつ所望
する文書データの選択性を向上させた文書検索装置を提
供する。 【解決手段】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された外部記憶装置3から所
望の文書データを取り出すための文書検索装置であっ
て、複数のキーワードによる検索式を入力するユーザ入
力装置6と、入力された検索式に基づいて前記外部記憶
装置3を検索する手段と、この検索結果の各文書データ
中の前記キーワードの位置情報に基づいて各文書データ
の文書重要度を設定する制御装置2と、各文書データの
文書重要度に従って、検索結果を表示する表示装置4と
を備えたものである。
する文書データの選択性を向上させた文書検索装置を提
供する。 【解決手段】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された外部記憶装置3から所
望の文書データを取り出すための文書検索装置であっ
て、複数のキーワードによる検索式を入力するユーザ入
力装置6と、入力された検索式に基づいて前記外部記憶
装置3を検索する手段と、この検索結果の各文書データ
中の前記キーワードの位置情報に基づいて各文書データ
の文書重要度を設定する制御装置2と、各文書データの
文書重要度に従って、検索結果を表示する表示装置4と
を備えたものである。
Description
【0001】
【発明の属する技術分野】本発明は、検索文書作成装
置、文書記憶メディア、文書検索装置及び文書検索方法
に関する。
置、文書記憶メディア、文書検索装置及び文書検索方法
に関する。
【0002】
【従来の技術】従来の文書データを記憶している検索デ
ータベースにおいては、この検索データベースに対する
検索キーワードによる検索により得られた検索結果が大
量に存在する場合でも、その検索結果をランダムに表示
するか、予め格納するときに分類した項目に従って分類
表示していた。
ータベースにおいては、この検索データベースに対する
検索キーワードによる検索により得られた検索結果が大
量に存在する場合でも、その検索結果をランダムに表示
するか、予め格納するときに分類した項目に従って分類
表示していた。
【0003】
【発明が解決しようとする課題】しかしながら上記した
従来技術においては、検索結果を表示する方法が固定的
であり、ユーザの指定した基準で検索結果を表示するこ
とができず、ユーザが大量の検索結果の中から必要なも
のを選択する際の負担が大きいという課題があった。
従来技術においては、検索結果を表示する方法が固定的
であり、ユーザの指定した基準で検索結果を表示するこ
とができず、ユーザが大量の検索結果の中から必要なも
のを選択する際の負担が大きいという課題があった。
【0004】そこで、本発明は上記の課題を解決するた
めになされたものであり、文書データに含まれる単語を
その位置関係に対応付けて記憶させることができる検索
文書作成装置、文書データに含まれる単語の出現位置の
情報を検索用キーワードに対応付けて記憶する検索文書
記憶メディア及びユーザーの負担を軽減させつつ所望す
る文書データの検索時の選択性を向上させた文書検索装
置及び文書検索方法を提供することを目的とする。
めになされたものであり、文書データに含まれる単語を
その位置関係に対応付けて記憶させることができる検索
文書作成装置、文書データに含まれる単語の出現位置の
情報を検索用キーワードに対応付けて記憶する検索文書
記憶メディア及びユーザーの負担を軽減させつつ所望す
る文書データの検索時の選択性を向上させた文書検索装
置及び文書検索方法を提供することを目的とする。
【0005】
【課題を解決するための手段】請求項1記載の検索文書
作成装置は、文書データを入力する入力手段と、入力さ
れる文書データを記憶する手段と、入力される文書デー
タを解析して単語に切り分ける手段と、切り分けた単語
とその単語の位置関係とを対応付けて記憶する手段とを
有することを特徴とするものである。
作成装置は、文書データを入力する入力手段と、入力さ
れる文書データを記憶する手段と、入力される文書デー
タを解析して単語に切り分ける手段と、切り分けた単語
とその単語の位置関係とを対応付けて記憶する手段とを
有することを特徴とするものである。
【0006】請求項2記載の検索文書記憶メディアは、
複数の文書データの各文書データから取り出された複数
の単語を検索用キーワードとし、前記各文書データと対
応付けて記憶される文書記憶メディアであって、前記各
検索用キーワードの文書データ中の出現位置の情報を各
検索用キーワードに対応付けて記憶されることを特徴と
するものである。
複数の文書データの各文書データから取り出された複数
の単語を検索用キーワードとし、前記各文書データと対
応付けて記憶される文書記憶メディアであって、前記各
検索用キーワードの文書データ中の出現位置の情報を各
検索用キーワードに対応付けて記憶されることを特徴と
するものである。
【0007】請求項3記載の発明は、複数の文書データ
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出すた
めの文書検索装置であって、複数のキーワードによる検
索式を入力する手段と、入力された検索式に基づいて前
記文書記憶メディアを検索する手段と、この検索結果の
各文書データ中の前記キーワードの位置情報に基づいて
各文書データの文書重要度を設定する手段と、各文書デ
ータの文書重要度に従って、検索結果を表示する手段と
を備えたことを特徴とするものである。
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出すた
めの文書検索装置であって、複数のキーワードによる検
索式を入力する手段と、入力された検索式に基づいて前
記文書記憶メディアを検索する手段と、この検索結果の
各文書データ中の前記キーワードの位置情報に基づいて
各文書データの文書重要度を設定する手段と、各文書デ
ータの文書重要度に従って、検索結果を表示する手段と
を備えたことを特徴とするものである。
【0008】請求項4記載の発明は、文書データを記憶
する手段と、文書データを解析して単語に切り分ける手
段と、切り分けた単語とその単語の位置関係とを対応付
けて記憶する手段と、キーワードによる検索式を入力す
る手段と、入力された検索式に基づいて前記文書記憶メ
ディアをキーワード検索する手段と、この検索結果の各
文書データの位置関係に基づいて各文書データの文書重
要度を設定する手段と、各文書データの文書重要度に従
って、検索結果を表示する手段とを備えたことを特徴と
するものである。
する手段と、文書データを解析して単語に切り分ける手
段と、切り分けた単語とその単語の位置関係とを対応付
けて記憶する手段と、キーワードによる検索式を入力す
る手段と、入力された検索式に基づいて前記文書記憶メ
ディアをキーワード検索する手段と、この検索結果の各
文書データの位置関係に基づいて各文書データの文書重
要度を設定する手段と、各文書データの文書重要度に従
って、検索結果を表示する手段とを備えたことを特徴と
するものである。
【0009】請求項5記載の発明は、複数の文書データ
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出す文
書検索方法であって、複数のキーワードによる検索式を
入力し、この検索式に基づいて検策し得られた各文書デ
ータ中の前記各キーワードの位置情報を基に、各文書デ
ータの文書重要度を設定し、この文書重要度に従って、
各文書データの検索結果を表示することを特徴とするも
のである。
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出す文
書検索方法であって、複数のキーワードによる検索式を
入力し、この検索式に基づいて検策し得られた各文書デ
ータ中の前記各キーワードの位置情報を基に、各文書デ
ータの文書重要度を設定し、この文書重要度に従って、
各文書データの検索結果を表示することを特徴とするも
のである。
【0010】上述した請求項1記載の発明の検索文書作
成装置の構成によれば、文書データから切り分けた単語
とその単語の位置関係とを対応付けて記憶することがで
き、検索に便利な検索文書を作成することができる。
成装置の構成によれば、文書データから切り分けた単語
とその単語の位置関係とを対応付けて記憶することがで
き、検索に便利な検索文書を作成することができる。
【0011】請求項2記載の発明の検索文書記憶メディ
アの構成によれば、各検索用キーワートの文書データ中
の出現位置の情報を各検索用キーワードに対応付けて記
憶するので、検索用キーワードを用いた検索に便利な検
索文書記憶メディアを提供することができる。
アの構成によれば、各検索用キーワートの文書データ中
の出現位置の情報を各検索用キーワードに対応付けて記
憶するので、検索用キーワードを用いた検索に便利な検
索文書記憶メディアを提供することができる。
【0012】請求項3及び4記載の発明の構成によれ
ば、文書データに対する検索結果データが大量に得られ
たときに、検索結果データはランダムな順番で表示する
のではなく、検索用キーワードの位置関係に応じた文書
重要度に従って秩序だって表示される。これにより、ユ
ーザに複数の検索結果から選択する基準を与ることがで
き負担が軽減される。
ば、文書データに対する検索結果データが大量に得られ
たときに、検索結果データはランダムな順番で表示する
のではなく、検索用キーワードの位置関係に応じた文書
重要度に従って秩序だって表示される。これにより、ユ
ーザに複数の検索結果から選択する基準を与ることがで
き負担が軽減される。
【0013】請求項5記載の発明の構成によれば、複数
のキーワードによる検索式を入力することで、文書デー
タの検索結果が各キーワードの位置情報に応じた文書重
要度に従って秩序だって表示されるので、これにより、
ユーザに複数の検索結果から選択する基準を与ることが
でき負担が軽減される。
のキーワードによる検索式を入力することで、文書デー
タの検索結果が各キーワードの位置情報に応じた文書重
要度に従って秩序だって表示されるので、これにより、
ユーザに複数の検索結果から選択する基準を与ることが
でき負担が軽減される。
【0014】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳述する。
を参照して詳述する。
【0015】図1は、本発明の検索文書作成装置又は文
書検索装置を構成する装置の実施の形態を示したブロッ
ク図である。
書検索装置を構成する装置の実施の形態を示したブロッ
ク図である。
【0016】この装置は、キーボード及びマウス等から
なり、文書検索のための文書データ等を入力したり、情
報取得操作を行うための各種指示データ等を入力する入
力装置1と、文書データを解析したり、詳細は後述する
が検索結果データ中の単語の文書重要度を求めたり単語
の出現頻度を調べて文書データのソート等を行う等、装
置全体の制御を行う制御装置3と、検索データベース等
を記憶しておくハードディスク等からなる文書記憶メデ
ィアを構成する外部記憶装置3と、入力された文書デー
タの表示や情報取得操作のためのメニュー画面、及び検
索結果を表示するカラーCRT等からなる表示装置4
と、水晶発振器等からなり、一定時間毎に割り込み処理
を行い、現時刻をメモリ部11中の日時バッファ26に
格納する時計装置5と、ユーザが検索キーワード等を入
力するユーザ端末装置6と、このユーザ端末装置6と前
記制御装置3とを接続するユーザインターフェース7及
び本体インターフェース8とを有している。
なり、文書検索のための文書データ等を入力したり、情
報取得操作を行うための各種指示データ等を入力する入
力装置1と、文書データを解析したり、詳細は後述する
が検索結果データ中の単語の文書重要度を求めたり単語
の出現頻度を調べて文書データのソート等を行う等、装
置全体の制御を行う制御装置3と、検索データベース等
を記憶しておくハードディスク等からなる文書記憶メデ
ィアを構成する外部記憶装置3と、入力された文書デー
タの表示や情報取得操作のためのメニュー画面、及び検
索結果を表示するカラーCRT等からなる表示装置4
と、水晶発振器等からなり、一定時間毎に割り込み処理
を行い、現時刻をメモリ部11中の日時バッファ26に
格納する時計装置5と、ユーザが検索キーワード等を入
力するユーザ端末装置6と、このユーザ端末装置6と前
記制御装置3とを接続するユーザインターフェース7及
び本体インターフェース8とを有している。
【0017】尚、各装置は制御装置2とバスを介して接
続されており、制御装置2の制御を受け、相互にデータ
を授受することが可能となっている。
続されており、制御装置2の制御を受け、相互にデータ
を授受することが可能となっている。
【0018】図2は前記制御装置2の詳細な構成例を示
すブロック図である。
すブロック図である。
【0019】制御装置2は、制御部10と記憶手段を構
成するメモリ部11とからなっている。制御部10は、
各種制御や処理を実行する部分で、メイン処理部12、
データ入力部13、検索データベース作成部14、検索
キーワード入力部15、検索部16、検索結果解析部1
7、検索結果表示部18等から構成されている。
成するメモリ部11とからなっている。制御部10は、
各種制御や処理を実行する部分で、メイン処理部12、
データ入力部13、検索データベース作成部14、検索
キーワード入力部15、検索部16、検索結果解析部1
7、検索結果表示部18等から構成されている。
【0020】また、メモリ部11は、検索データベース
格納バッファ21、単語データベース格納バッファ2
2、頻出単語データベース格納バッファ23、文書重要
度格納バッファ24、検索処理の際に必要な検索キーワ
ードを格納する検索キーワードバッファ25、日時バッ
ファ26、制御部10が動作する上で必要なデータを一
旦格納するワーキングエリ27等から構成されている。
格納バッファ21、単語データベース格納バッファ2
2、頻出単語データベース格納バッファ23、文書重要
度格納バッファ24、検索処理の際に必要な検索キーワ
ードを格納する検索キーワードバッファ25、日時バッ
ファ26、制御部10が動作する上で必要なデータを一
旦格納するワーキングエリ27等から構成されている。
【0021】ここで、制御部10のメイン処理部13
は、装置全体の制御を司るもので、制御の流れの分岐、
データ入力部13以降の各モジュールの呼出等ととも
に、外部記憶装置3にテーブルを作成する処理を行う。
は、装置全体の制御を司るもので、制御の流れの分岐、
データ入力部13以降の各モジュールの呼出等ととも
に、外部記憶装置3にテーブルを作成する処理を行う。
【0022】検索部16は、外部記憶装置3に格納され
ている検索用文書データ(テキストデータ)を順に参照
し、ユーザが入力する検索キーワードに対応する文書デ
ータを探し出し、得られた図示しないデータ番号を図示
しないデータ番号格納バッファ中に格納するようになっ
ている。。
ている検索用文書データ(テキストデータ)を順に参照
し、ユーザが入力する検索キーワードに対応する文書デ
ータを探し出し、得られた図示しないデータ番号を図示
しないデータ番号格納バッファ中に格納するようになっ
ている。。
【0023】次に本実施の形態の装置の動作について図
3及び図4、図5に示すフローチャートを参照して説明
する。
3及び図4、図5に示すフローチャートを参照して説明
する。
【0024】本実施の形態の動作を概説すると、図4に
示すように、まず任意の文書データに基づく検索データ
ベースを作成しておき(ステップS1)、検索キーワー
ドを入力すると(ステップS2)、検索キーワードに従
って検索式を作成する(ステップS3)。複数の検索キ
ーワードを入力したときは、それらの検索キーワードを
アンドで結んだ検索式を作成する。そして、この検索式
で検索データベースを検索し(ステップS4)、検索結
果が解析され(ステップS5)、検索結果が表示装置4
に表示される(ステップS6)。
示すように、まず任意の文書データに基づく検索データ
ベースを作成しておき(ステップS1)、検索キーワー
ドを入力すると(ステップS2)、検索キーワードに従
って検索式を作成する(ステップS3)。複数の検索キ
ーワードを入力したときは、それらの検索キーワードを
アンドで結んだ検索式を作成する。そして、この検索式
で検索データベースを検索し(ステップS4)、検索結
果が解析され(ステップS5)、検索結果が表示装置4
に表示される(ステップS6)。
【0025】次に、本実施の形態の動作について以下に
詳述する。図5に示すように、前記入力装置1からデー
タ入力部13へ文書データが入力されると、検索データ
ベース作成部14は、入力された文書データを文書毎に
検索データベースとして検索データベース格納バッファ
21を介して前記外部記憶装置3に格納するとともに
(ステップS11)、入力された文書データを形態素解
析し(ステップS12)、その中に含まれる単語及びそ
の出現頻度を文書毎に調査して抽出し(ステップS1
3)、検索単語データベースを作成して(ステップS1
4)、単語データベース格納バッファ22を介して前記
外部記憶装置3に格納する。
詳述する。図5に示すように、前記入力装置1からデー
タ入力部13へ文書データが入力されると、検索データ
ベース作成部14は、入力された文書データを文書毎に
検索データベースとして検索データベース格納バッファ
21を介して前記外部記憶装置3に格納するとともに
(ステップS11)、入力された文書データを形態素解
析し(ステップS12)、その中に含まれる単語及びそ
の出現頻度を文書毎に調査して抽出し(ステップS1
3)、検索単語データベースを作成して(ステップS1
4)、単語データベース格納バッファ22を介して前記
外部記憶装置3に格納する。
【0026】この場合の格納例を図3に示す。図3に示
す例は、文書ID1で、文書題名が題名Aの検索データ
ベース文書について、単語が、新聞(出現頻度2)、椅
子(出現頻度1)、コンピュータ(出現頻度5)、ディ
スプレイ(出現頻度2)、目(出現頻度3)であり、文
書ID2で、文書題名が題名Bの検索データベース文書
について、単語が、健康(出現頻度3)、コンピュータ
(出現頻度お)、視力(出現頻度5)、体力(出現頻度
3)、年齢(出現頻度3)であり、文書ID3で、文書
題名が題名Cの検索データベース文書について、単語
が、光(出現頻度1)である場合を示している。
す例は、文書ID1で、文書題名が題名Aの検索データ
ベース文書について、単語が、新聞(出現頻度2)、椅
子(出現頻度1)、コンピュータ(出現頻度5)、ディ
スプレイ(出現頻度2)、目(出現頻度3)であり、文
書ID2で、文書題名が題名Bの検索データベース文書
について、単語が、健康(出現頻度3)、コンピュータ
(出現頻度お)、視力(出現頻度5)、体力(出現頻度
3)、年齢(出現頻度3)であり、文書ID3で、文書
題名が題名Cの検索データベース文書について、単語
が、光(出現頻度1)である場合を示している。
【0027】次に、本実施の形態の検索処理及び検索結
果表示処理について図6乃至図9参照して説明する。
果表示処理について図6乃至図9参照して説明する。
【0028】ユーザがユーザ端末装置6から検索キーワ
ード入力部15へ例えば複数の検索キーワードを入力す
ると、検索部16は前記検索キーワードに従って検索式
を作成する。
ード入力部15へ例えば複数の検索キーワードを入力す
ると、検索部16は前記検索キーワードに従って検索式
を作成する。
【0029】複数の検索キーワードが入力されたとき
は、それらの検索キーワードをアンドで結んだ検索式を
作成する。そして、その検索式を用いて、外部記憶装置
3に格納した文書データを検索する。このようにして検
索された検索結果データは、検索結果解析部17により
順次参照され(ステップS21)、解析される。即ち、
検索結果解析部17は、検索データベースにまだ参照す
る文書データが有るか否か判断し(ステップS22)、
参照する文書データがない場合には終了とし、参照する
文書データが有る場合にはさらに文書データを参照し、
さらに検索単語データベースをも参照して(ステップS
23)、検索の結果得られた複数の文書データ中に現れ
る単語の中で検索キーワードに対応する単語の有無を判
断し(ステップS24)、検索キーワードに対応する単
語の参照が終了した段階で文書重要度の算出を行い(ス
テップS28)、ステップS24に移行する。算出した
文書重要度は、文書重要度格納バッファ24に格納され
る。
は、それらの検索キーワードをアンドで結んだ検索式を
作成する。そして、その検索式を用いて、外部記憶装置
3に格納した文書データを検索する。このようにして検
索された検索結果データは、検索結果解析部17により
順次参照され(ステップS21)、解析される。即ち、
検索結果解析部17は、検索データベースにまだ参照す
る文書データが有るか否か判断し(ステップS22)、
参照する文書データがない場合には終了とし、参照する
文書データが有る場合にはさらに文書データを参照し、
さらに検索単語データベースをも参照して(ステップS
23)、検索の結果得られた複数の文書データ中に現れ
る単語の中で検索キーワードに対応する単語の有無を判
断し(ステップS24)、検索キーワードに対応する単
語の参照が終了した段階で文書重要度の算出を行い(ス
テップS28)、ステップS24に移行する。算出した
文書重要度は、文書重要度格納バッファ24に格納され
る。
【0030】また、検索キーワードに対応する単語が有
る場合には、さらに図8に示すような頻出単語データベ
ースを参照し(ステップS25)、この頻出単語データ
ベースに当該検索キーワードに対応する単語が有るか否
かをも参照して(ステップS26)、頻出単語データベ
ースに当該検索キーワードに対応する単語がない場合に
は、この頻出単語データベースに当該単語をその出現頻
度、文書ID、文書題名とともに新たに格納し(ステッ
プS27)、ステップS24に移行する。。また、頻出
単語データベースに当該検索キーワードに対応する単語
が有る場合には、当該単語の出現頻度を加算して頻出単
語データベースに格納し(ステップS26)、ステップ
S24に移行する。
る場合には、さらに図8に示すような頻出単語データベ
ースを参照し(ステップS25)、この頻出単語データ
ベースに当該検索キーワードに対応する単語が有るか否
かをも参照して(ステップS26)、頻出単語データベ
ースに当該検索キーワードに対応する単語がない場合に
は、この頻出単語データベースに当該単語をその出現頻
度、文書ID、文書題名とともに新たに格納し(ステッ
プS27)、ステップS24に移行する。。また、頻出
単語データベースに当該検索キーワードに対応する単語
が有る場合には、当該単語の出現頻度を加算して頻出単
語データベースに格納し(ステップS26)、ステップ
S24に移行する。
【0031】上述した頻出単語データベースの一例を図
8に示す。この頻出単語データベースは、例えば、検索
データベース作成部14により検索単語データベースを
一つずつ参照し、例えば、コンピュータ、ディスプレ
イ、視力、疲労等の単語について、その出現頻度、文書
ID、文書題名を関連づけて頻出単語データベース格納
バッファ23介して外部記憶装置3に格納したものであ
る。
8に示す。この頻出単語データベースは、例えば、検索
データベース作成部14により検索単語データベースを
一つずつ参照し、例えば、コンピュータ、ディスプレ
イ、視力、疲労等の単語について、その出現頻度、文書
ID、文書題名を関連づけて頻出単語データベース格納
バッファ23介して外部記憶装置3に格納したものであ
る。
【0032】次に、検索結果表示処理について説明す
る。図7に示すように、検索結果解析部17は、上述し
た頻出単語データベースを参照し(ステップS31)、
この頻出単語データベースに格納されている単語のうち
最も出現頻度の大きい単語を最頻出単語として決定する
(ステップS32)。さらに、検索結果解析部17は、
最頻出単語を含むか否かで検索した文書データを分類す
る(ステップS33)。
る。図7に示すように、検索結果解析部17は、上述し
た頻出単語データベースを参照し(ステップS31)、
この頻出単語データベースに格納されている単語のうち
最も出現頻度の大きい単語を最頻出単語として決定する
(ステップS32)。さらに、検索結果解析部17は、
最頻出単語を含むか否かで検索した文書データを分類す
る(ステップS33)。
【0033】検索結果表示部18は、検索キーワードに
対応した単語の文書重要度を参照して(ステップS3
4)、ステップS33で分類した文書データのうちで、
文書重要度の高い(大きい)順に表示する(ステップS
35)。
対応した単語の文書重要度を参照して(ステップS3
4)、ステップS33で分類した文書データのうちで、
文書重要度の高い(大きい)順に表示する(ステップS
35)。
【0034】文書検索結果の表示例を図9に示す。図9
は、上述した検索処理を全ての検索結果文書ダータにつ
いて繰り返し、頻出単語データベースにおける出現頻度
が最も大きい単語を最頻出単語(たとえば「単語コンピ
ュータ」)と設定し、それを含む検索結果文書データを
「単語コンピュータあり」項目に分類し、その単語を含
まない検索結果文書データを「単語コンピュータなし」
項目に分類して、各々文書重要度の大きい順に表示する
例を示すものである。
は、上述した検索処理を全ての検索結果文書ダータにつ
いて繰り返し、頻出単語データベースにおける出現頻度
が最も大きい単語を最頻出単語(たとえば「単語コンピ
ュータ」)と設定し、それを含む検索結果文書データを
「単語コンピュータあり」項目に分類し、その単語を含
まない検索結果文書データを「単語コンピュータなし」
項目に分類して、各々文書重要度の大きい順に表示する
例を示すものである。
【0035】この際、複数の検索結果文書データの題名
を表示する順番を以下の規則に従って決定する。
を表示する順番を以下の規則に従って決定する。
【0036】まず、検索キーワードを複数指定した場合
は、複数の検索キーワードが近い位置に存在する文書デ
ータほど文書重要度を高くし、先に表示する。具体的に
は、複数の検索キーワード間に存在する単語数を複数キ
ーワード間単語数とし、その数の逆数を文書重要度と定
義する。この文書重要度の値が大きいほど重要な文書デ
ータとみなすので、文書重要度の高い順に文書検索結果
を表示する。
は、複数の検索キーワードが近い位置に存在する文書デ
ータほど文書重要度を高くし、先に表示する。具体的に
は、複数の検索キーワード間に存在する単語数を複数キ
ーワード間単語数とし、その数の逆数を文書重要度と定
義する。この文書重要度の値が大きいほど重要な文書デ
ータとみなすので、文書重要度の高い順に文書検索結果
を表示する。
【0037】次に、前記文書重要度算出法について具体
例を挙げて以下に説明する。文書重要度、キーワード間
距離を算出するとき、0の逆数はとれないので、1とす
る。
例を挙げて以下に説明する。文書重要度、キーワード間
距離を算出するとき、0の逆数はとれないので、1とす
る。
【0038】いま、以下のように例文1があったとす
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。」
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。」
【0039】この場合、検索キーワードが、データベー
ス、音の2個指定されたとする。尚、例文1中の助詞は
キーワード間距離の算出の対象外とする。
ス、音の2個指定されたとする。尚、例文1中の助詞は
キーワード間距離の算出の対象外とする。
【0040】検索キーワードが「データベース」と
「音」であるとき、検索キーワードの「データベース」
「音」の間に、「曲名」「データ」「作曲者」「デー
タ」という4単語が存在しているので、この例文1の場
合の文書重要度は、1/4=0.25となる。
「音」であるとき、検索キーワードの「データベース」
「音」の間に、「曲名」「データ」「作曲者」「デー
タ」という4単語が存在しているので、この例文1の場
合の文書重要度は、1/4=0.25となる。
【0041】次に上述した文書重要度算出法の別の具体
例について説明する。以下のように例文2があったとす
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。音
とリズムは、楽曲を検索する際にはテキストデータに比
べ、非常に重要な要素である。」この例文2の各単語
と、出現位置との関係を、文頭から順に数字を付して表
したもの図10に示す。尚、例文2中の助詞は対象外と
する。また、検索キーワードが、「データベース」、
「音」、「リズム」の3個指定されたとする。
例について説明する。以下のように例文2があったとす
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。音
とリズムは、楽曲を検索する際にはテキストデータに比
べ、非常に重要な要素である。」この例文2の各単語
と、出現位置との関係を、文頭から順に数字を付して表
したもの図10に示す。尚、例文2中の助詞は対象外と
する。また、検索キーワードが、「データベース」、
「音」、「リズム」の3個指定されたとする。
【0042】この場合には、検索キーワードの組み合わ
せは以下の3通りである。(a)データベースと音、
(b)データベースとリズム、(c)音とリズム。
せは以下の3通りである。(a)データベースと音、
(b)データベースとリズム、(c)音とリズム。
【0043】上述した例文1と同様にして文書重要度を
算出すると、検索キーワードの「データベース」「音」
の間には、7−2=5及び14−2=12の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
5+1/12=0.283となる。
算出すると、検索キーワードの「データベース」「音」
の間には、7−2=5及び14−2=12の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
5+1/12=0.283となる。
【0044】同様にして、「データベース」「リズム」
の間には、9−2=7及び15−2=13の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
7+1/13=0.219となる。
の間には、9−2=7及び15−2=13の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
7+1/13=0.219となる。
【0045】同様にして、「音」「リズム」の間には、
9−7=2及び15−7=8と、9−14=−5(絶対
値で5とする)及び15−14=1の合計4個のキーワ
ード間距離が存在する。従って、文書重要度は、1/2
+1/8+1/5+1/1=1.825となる。
9−7=2及び15−7=8と、9−14=−5(絶対
値で5とする)及び15−14=1の合計4個のキーワ
ード間距離が存在する。従って、文書重要度は、1/2
+1/8+1/5+1/1=1.825となる。
【0046】次に別の文書重要度算出法について説明す
る。
る。
【0047】上述した検索キーワードの3つの組み合わ
せを全て均等に重要とみなすために、組み合わせ数(=
3)で各々の検索キーワード間距離を割り、全ての組み
合わせを加算し文書重要度を求める。検索キーワード間
距離は、複数キーワード間単語数の逆数を加算し、加算
した数で割って求めるものと定義する。
せを全て均等に重要とみなすために、組み合わせ数(=
3)で各々の検索キーワード間距離を割り、全ての組み
合わせを加算し文書重要度を求める。検索キーワード間
距離は、複数キーワード間単語数の逆数を加算し、加算
した数で割って求めるものと定義する。
【0048】例文2を文頭から順番に見ていくと、以下
のように複数キーワード間単語数がある。
のように複数キーワード間単語数がある。
【0049】 データベース 音 4、音 リズム 2、リズム 音 4、音 リズム 0 従って、データベース、音の検索キーワード間距離 1/4 データベース、リズムの検索キーワード間距離 0 音、リズムの検索キーワード間距離 (1/2+1/4+1)/3 そこで、文書重要度は、各検索キーワード間距離の和、
即ち、(1/4)/3+(1/2+1/4+1)/3/
3+0=0.472となる。
即ち、(1/4)/3+(1/2+1/4+1)/3/
3+0=0.472となる。
【0050】このようにして、秩序だって表示した文書
検索結果から、ユーザが望む文書データを選択すると、
その文書データの内容が表示装置4に表示されることに
なる。
検索結果から、ユーザが望む文書データを選択すると、
その文書データの内容が表示装置4に表示されることに
なる。
【0051】尚、本発明は上記の実施の形態に限定され
るものではない。上述した実施の形態では、最頻出単語
語の有無で分類し、その後で文書データの重要度により
順番を決定して検索結果を表示装置4に表示したが、特
に分類せずに、文書重要度により順番を決定して表示装
置4に表示してもよいし、文書データの属する分野に応
じて分類し、その後で文書重要度により順番を決定して
表示してもよい。
るものではない。上述した実施の形態では、最頻出単語
語の有無で分類し、その後で文書データの重要度により
順番を決定して検索結果を表示装置4に表示したが、特
に分類せずに、文書重要度により順番を決定して表示装
置4に表示してもよいし、文書データの属する分野に応
じて分類し、その後で文書重要度により順番を決定して
表示してもよい。
【0052】また、上述した実施の形態では、日本語文
書の場合について説明したが、英語文書その他の外国語
の文書の場合にも本発明は適用可能である。
書の場合について説明したが、英語文書その他の外国語
の文書の場合にも本発明は適用可能である。
【0053】本発明は、上述した検索文書作成装置、文
書検索装置の他、情報検索装置、インターネット情報検
索装置等に適用できる。
書検索装置の他、情報検索装置、インターネット情報検
索装置等に適用できる。
【0054】
【発明の効果】以上説明した請求項1記載の発明によれ
ば、文書データから切り分けた単語とその単語の位置関
係とを対応付けて記憶することができ、検索に便利な検
索文書を作成することができる検索文書作成装置を提供
することができる。
ば、文書データから切り分けた単語とその単語の位置関
係とを対応付けて記憶することができ、検索に便利な検
索文書を作成することができる検索文書作成装置を提供
することができる。
【0055】請求項2記載の発明によれば、検索用キー
ワードを用いた検索に便利な検索文書記憶メディアを提
供することができる。
ワードを用いた検索に便利な検索文書記憶メディアを提
供することができる。
【0056】請求項3及び4記載の発明によれば、ユー
ザに複数の検索結果から選択する基準を与ることができ
その負担が軽減される文書検索装置を提供することがで
きる。
ザに複数の検索結果から選択する基準を与ることができ
その負担が軽減される文書検索装置を提供することがで
きる。
【0057】請求項5記載の発明の発明によれば、ユー
ザが検索文書記憶メディアに対する複数のキーワードに
よる検索式を入力することで、文書データの検索結果が
各キーワードの位置情報に応じた文書重要度に従って秩
序だって表示されるので、これにより、ユーザに複数の
検索結果から選択する基準を与ることができその負担を
軽減することができる文書検索方法を提供することがで
きる。
ザが検索文書記憶メディアに対する複数のキーワードに
よる検索式を入力することで、文書データの検索結果が
各キーワードの位置情報に応じた文書重要度に従って秩
序だって表示されるので、これにより、ユーザに複数の
検索結果から選択する基準を与ることができその負担を
軽減することができる文書検索方法を提供することがで
きる。
【図1】本発明の文書検索装置の実施の形態を示すブロ
ック図である。
ック図である。
【図2】本実施の形態の制御装置の詳細を示すブロック
図である。
図である。
【図3】本実施の形態の検索単語データベースの格納例
を示す説明図である。
を示す説明図である。
【図4】本実施の形態の検索データベース作成部の処理
を示すフローチャートである。
を示すフローチャートである。
【図5】本実施の形態の検索データベース作成部の処理
を示すフローチャートである。
を示すフローチャートである。
【図6】本実施の形態の検索結果解析部の処理を示すフ
ローチャートである。
ローチャートである。
【図7】本実施の形態の検索結果表示処理を示すフロー
チャートである。
チャートである。
【図8】本実施の形態の頻出単語データベースの格納例
を示す説明図である。
を示す説明図である。
【図9】本実施の形態の検索結果表示例を示すフローチ
ャートである。
ャートである。
【図10】本実施の形態の単語と出現位置との関係を示
す説明図である。
す説明図である。
1 入力装置 2 制御装置 3 外部記憶装置 4 表示装置 5 時計装置 6 ユーザ入力装置 10 制御部 11 メモリ部 12 メイン処理部 13 データ入力部 14 検索データベース作成部 15 検索キーワード入力部 16 入力部 17 検索結果解析部 18 検索結果表示部
Claims (5)
- 【請求項1】 文書データを入力する入力手段と、入力
される文書データを記憶する手段と、入力される文書デ
ータを解析して単語に切り分ける手段と、切り分けた単
語とその単語の位置関係とを対応付けて記憶する手段と
を有することを特徴とする検索文書作成装置。 - 【請求項2】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶される文書記憶メディアで
あって、前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
ることを特徴とする検索文書記憶メディア。 - 【請求項3】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された文書記憶メディアから
所望の文書データを取り出すための文書検索装置であっ
て、 複数のキーワードによる検索式を入力する手段と、入力
された検索式に基づいて前記文書記憶メディアを検索す
る手段と、 この検索結果の各文書データ中の前記キーワードの位置
情報に基づいて各文書データの文書重要度を設定する手
段と、 各文書データの文書重要度に従って、検索結果を表示す
る手段とを備えたことを特徴とする文書検索装置。 - 【請求項4】 文書データを記憶する手段と、文書デー
タを解析して単語に切り分ける手段と、切り分けた単語
とその単語の位置関係とを対応付けて記憶する手段と、
キーワードによる検索式を入力する手段と、入力された
検索式に基づいて前記文書記憶メディアをキーワード検
索する手段と、この検索結果の各文書データの位置関係
に基づいて各文書データの文書重要度を設定する手段
と、各文書データの文書重要度に従って、検索結果を表
示する手段とを備えたことを特徴とする文書検索装置。 - 【請求項5】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された文書記憶メディアから
所望の文書データを取り出す文書検索方法であって、 複数のキーワードによる検索式を入力し、この検索式に
基づいて検策し得られた各文書データ中の前記各キーワ
ードの位置情報を基に、各文書データの文書重要度を設
定し、この文書重要度に従って、各文書データの検索結
果を表示することを特徴とする文書検索方怯。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8124190A JPH09305626A (ja) | 1996-05-20 | 1996-05-20 | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8124190A JPH09305626A (ja) | 1996-05-20 | 1996-05-20 | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH09305626A true JPH09305626A (ja) | 1997-11-28 |
Family
ID=14879222
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8124190A Pending JPH09305626A (ja) | 1996-05-20 | 1996-05-20 | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH09305626A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6321192B1 (en) * | 1998-10-22 | 2001-11-20 | International Business Machines Corporation | Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value |
| JP2007249322A (ja) * | 2006-03-14 | 2007-09-27 | Mitsubishi Electric Corp | 文書視覚化装置及び文書視覚化プログラム |
| JP2009037604A (ja) * | 2007-07-12 | 2009-02-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法およびプログラム |
| JP2013109635A (ja) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出装置とその方法とプログラム |
| JP2024001602A (ja) * | 2022-06-22 | 2024-01-10 | 日本電気株式会社 | 情報処理システム、情報処理方法およびプログラム |
-
1996
- 1996-05-20 JP JP8124190A patent/JPH09305626A/ja active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6321192B1 (en) * | 1998-10-22 | 2001-11-20 | International Business Machines Corporation | Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value |
| JP2007249322A (ja) * | 2006-03-14 | 2007-09-27 | Mitsubishi Electric Corp | 文書視覚化装置及び文書視覚化プログラム |
| JP2009037604A (ja) * | 2007-07-12 | 2009-02-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法およびプログラム |
| JP2013109635A (ja) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出装置とその方法とプログラム |
| JP2024001602A (ja) * | 2022-06-22 | 2024-01-10 | 日本電気株式会社 | 情報処理システム、情報処理方法およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7096218B2 (en) | Search refinement graphical user interface | |
| JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
| JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
| US5761666A (en) | Document retrieval system | |
| JPH11102374A (ja) | データベースの文書表示方法およびその装置 | |
| JPH08190564A (ja) | 情報検索方法及びシステム | |
| JPH0418673A (ja) | テキスト情報抽出方法および装置 | |
| JP2004326216A (ja) | 文書検索装置、方法、プログラム、及び記録媒体 | |
| JPH0581327A (ja) | 情報検索支援処理装置 | |
| JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
| JPH0844771A (ja) | 情報検索装置 | |
| JPH09305626A (ja) | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 | |
| JPH0944523A (ja) | 関連語提示装置 | |
| JPH08287086A (ja) | 適合度順画像強調表示方法及び装置 | |
| JP4569179B2 (ja) | ドキュメント検索装置 | |
| KR19990048712A (ko) | 인터넷 정보검색시 지도형 분류 검색방법 | |
| JP3385913B2 (ja) | 関連語提示装置及び関連語提示用プログラムを記録した媒体 | |
| JP3162907B2 (ja) | 文書データ検索装置 | |
| JPH0581326A (ja) | データベース検索装置 | |
| JP2939841B2 (ja) | データベース検索装置 | |
| JP3710463B2 (ja) | 翻訳支援辞書装置 | |
| JP2000200279A (ja) | 情報検索装置 | |
| JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
| JPH08137895A (ja) | 類似文書検索システム | |
| JPH10340271A (ja) | 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060413 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060502 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061219 |