JP2000331027A - 類似文書検索装置と類似文書検索方法 - Google Patents

類似文書検索装置と類似文書検索方法

Info

Publication number
JP2000331027A
JP2000331027A JP11142448A JP14244899A JP2000331027A JP 2000331027 A JP2000331027 A JP 2000331027A JP 11142448 A JP11142448 A JP 11142448A JP 14244899 A JP14244899 A JP 14244899A JP 2000331027 A JP2000331027 A JP 2000331027A
Authority
JP
Japan
Prior art keywords
document
search
item
key
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11142448A
Other languages
English (en)
Inventor
Shigemi Nakazato
茂美 中里
Yukio Nakamoto
幸夫 中本
Takeshi Matsukuma
剛 松隈
Takuya Nishina
卓哉 仁科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP11142448A priority Critical patent/JP2000331027A/ja
Publication of JP2000331027A publication Critical patent/JP2000331027A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索キー文書に異なる内容の項目が存在する
場合にその項目毎の内容に的を絞った類似文書検索を実
現する。 【解決手段】 検索キー文書および検索対象文書から項
目の単位の文書を切り出し、検索キー文書/検索対象文
書間の類似度をベクトル空間法などを用いて前記項目の
単位でそれぞれ算出し、この算出結果に基づいて類似文
書の検索結果(例えば、文書ID)を判別して出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、任意の文書を検索
のキーとして、このキー文書と類似したものを複数の検
索対象文書の中から自動検索する類似文書検索装置およ
び類似文書検索方法に関する。
【0002】
【従来の技術】近年、電子化された大量の文書データが
流通するようになり、これら大量の文書データを一定の
規則に従い分類して利用性を高めることが重要となって
きている。文書データを分類するために、ある一文書を
検索キーとし、その文書と内容が類似した文書を検索対
象文書データベースから抽出する類似文書検索装置があ
る。
【0003】この類似文書検索装置は、検索キーとする
文書(以降、検索キー文書と呼ぶ。)を構成する単語
と、検索対象文書データベース内の個々の文書(以降、
検索対象文書)を構成する単語とを比較し、この比較結
果を基に検索キー文書と各検索対象文書との類似度を算
出し、その類似度により複数の検索対象文書の中からの
類似文書の抽出を行っている。単語比較結果を基に類似
度を算出する方法としては、検索キー文書と各検索対象
文書との間に共通に出現する単語の種類、出現回数、出
現場所などからベクトル空間法により算出する方法があ
る。
【0004】
【発明が解決しようとする課題】上記従来の類似文書検
索方式では、文書間の類似度、つまり検索キー文書全体
と検索対象文書全体との類似度から類似文書を抽出して
いるため、異なる複数の内容が記述されている一文書を
検索キーとした場合は、その複数の内容を同時に含んだ
検索対象文書が類似文書として抽出される。このこと
は、検索キー文書に含まれる個々の内容毎に類似した文
書、言い換えると検索キー文書の一つの内容のみに類似
した文書を検索できないという制限があることを意味す
る。
【0005】本発明は、このような課題を解決するため
のもので、文書を構成する項目の単位で、検索キー文書
と類似した文書を複数の検索対象文書の中から検索する
ことのできる類似文書検索装置と類似文書検索方法の提
供を目的とする。
【0006】すなわち、本発明は、検索キー文書に異な
る内容の項目が存在する場合に、その項目毎の内容に的
を絞った類似文書検索を行うことのできる類似文書検索
装置と類似文書検索方法を提供することを目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の類似文書検索装置は、検索キー文書と類
似した文書を複数の検索対象文書の中から検索する類似
文書検索装置において、前記検索キー文書および前記検
索対象文書から項目の単位の文書を切り出す項目切り出
し手段と、前記検索キー文書と前記検索対象文書との類
似度を前記切り出された項目の単位で算出し、その算出
結果に基づいて類似文書検索結果を出力する計算手段と
を具備することを特徴とするものである。
【0008】この発明は、検索キー文書と検索対象文書
との類似度を各文書を構成する項目の単位で求めること
によって、検索キー文書に異なる内容の項目が存在する
場合に、その項目毎の内容に的を絞った類似文書検索を
行うことができる。
【0009】また、項目毎に優先度を設定する手段を付
加し、この設定された優先度を加味して検索キー文書と
検索対象文書との項目単位の類似度を算出するように構
成することによって、たとえば、検索対象文書毎に全項
目の類似度の総和を求めその結果を検索結果として出力
する場合に、文書の重要部分の類似度に重みを加えたよ
り最適な類似文書検索を実現することができる。
【0010】さらに、項目切り出し手段によって切り出
された検索キー文書または検索対象文書の各項目の文構
造を統一化させる手段をさらに付加し、このように文構
造を統一化された各項目について検索キー文書と検索対
象文書との類似度を項目単位で算出するように構成する
ことで、各項目の文構造の違いが類似度に影響する度合
を軽減することができ、より算出される類似度の妥当性
を高めることができる。
【0011】
【発明の実施の形態】以下、本発明の一実施形態を図面
を参照しながら説明する。
【0012】図1に、本実施形態に係る類似文書検索装
置のハードウェア構成を示す。同図に示すように、この
類似文書検索装置は、CPU、メモリから構成される制
御装置1、キーボードなどの入力装置2、類似検索結果
などの表示する表示装置3、検索データなどを格納する
外部記憶装置4といったコンピュータシステム環境にお
いて構築される。
【0013】図2に、類似文書検索装置の制御部の構成
を機能別にブロック化して示す。このように類似文書検
索装置の制御部は処理部11とメモリ部12とからな
る。
【0014】制御部11は各種の制御や処理のための演
算を実行する部分であり、メイン処理部200、初期化
部201、入力部202、出力部203、検索対象文書
読み出し部204、検索対象文書項目切り出し部20
5、検索対象文書項目生成部206、検索対象文書単語
抽出部207、検索対象単語出現頻度算出部208、検
索対象単語情報算出部209、検索キー文書入力部21
0、検索キー文書項目優先度入力部211、検索キー文
書項目切り出し部212、検索キー文書項目生成部21
3、検索キー単語抽出部214、検索キー単語出現頻度
算出部215、検索条件設定部216、共通単語抽出部
217、類似度算出部218、検索結果出力部219な
どからなる。
【0015】また、メモリ部12は、検索条件設定バッ
ファ部229、検索対象文書格納バッファ部230、検
索対象文書項目格納バッファ部231、検索対象文書項
目生成格納バッファ部232、検索対象単語情報格納バ
ッファ部233、検索キー文書項目優先度バッファ部2
34、検索キー文書格納バッファ部235、検索キー文
書項目格納バッファ部236、検索キー文書項目生成格
納バッファ部237、検索キー単語情報格納バッファ部
238、共通単語情報格納バッファ部239、類似度格
納バッファ部240、検索結果出力バッファ部241、
作業バッファ部242などからなる。
【0016】処理部11の各部の詳細について説明す
る。
【0017】初期化部201は、メモリ部12内の各バ
ッファ部229〜242の初期化を行う。
【0018】入力部202は、ユーザからの各種設定の
ための情報や検索キーとなる文書などの入力を処理す
る。
【0019】出力部203は、検索キー文書や類似検索
結果、さらには各種の設定情報などを表示装置3を通じ
てユーザに表示する処理を行う。
【0020】検索対象文書読み出し部204は、外部記
憶装置4に格納されてい検索対象文書をデータベース化
して検索対象文書格納バッファ部230に格納する。
【0021】検索対象文書項目切り出し部205は、検
索対象文書格納バッファ部230に格納されている検索
対象文書の文構造を解析し、その解析結果を基に検索対
象文書から定型の項目の文書を切り出して検索対象文書
項目格納バッファ部231に格納する。
【0022】検索対象文書項目生成部206は、必要に
応じて、検索対象文書項目格納バッファ部231に格納
された項目の文書の再生成を行い、再生成された項目の
文書を検索対象文書項目生成格納バッファ部232に格
納する。
【0023】検索対象文書単語抽出部207は、検索対
象文書格納バッファ部230あるいは検索対象文書項目
格納バッファ部231に格納されている文書から単語を
切り出し、切り出された単語群の中からその文書(ある
いは項目)の内容を表す上でキーとなる単語を抽出し、
抽出した単語を検索対象単語情報格納バッファ部233
に格納する。
【0024】検索対象単語出現頻度算出部208は、検
索対象文書単語抽出部207により抽出されたキー単語
の、検索対象文書項目格納部231あるいは検索対象文
書項目生成格納バッファ部232に格納されている検索
対象文書中での出現頻度を単語種毎に算出し、その結果
を検索対象単語情報格納バッファ部233に格納する。
【0025】検索対象単語情報算出部209は、検索対
象単語情報格納バッファ部233に格納されている検索
対象文書中の単語種毎の出現頻度を外部記憶装置4に格
納する。
【0026】検索キー文書入力部210は、入力部20
2を通じてユーザより入力された検索キーの文書を検索
キー文書格納バッファ部235に格納する。
【0027】検索キー文書項目優先度入力部211は、
検索キー文書の各項目の優先度をユーザからの入力によ
り検索キー文書項目優先度バッファ部234に設定す
る。
【0028】検索キー文書項目切り出し部212は、検
索キー文書格納バッファ部235に格納された検索キー
文書の文構造を解析し、その解析結果を基に検索キー文
書から定型の項目の文書を切り出して検索キー文書項目
格納バッファ部236に格納する。
【0029】検索キー文書項目生成部213は、必要に
応じて、検索キー文書項目格納バッファ部236に格納
されている項目の文書の再生成を行い、再生成された項
目の文書を検索キー文書項目生成格納バッファ部237
に格納する。
【0030】検索キー文書単語抽出部214は、検索キ
ー文書項目格納バッファ部236あるいは検索キー文書
項目生成格納バッファ部237に格納されている検索キ
ー文書から単語を切り出し、切り出された単語群の中か
らその検索キー文書(あるいは項目)の内容を表す上で
キーとなる単語を抽出し、抽出された単語を検索キー単
語情報格納バッファ部238に格納する。
【0031】検索キー単語出現頻度算出部215は、検
索キー単語抽出部214により抽出されたキー単語の、
検索キー文書格納バッファ部238に格納されている検
索キー文書中での出現頻度を単語種毎に算出し、その結
果を検索キー単語情報格納バッファ部238に格納す
る。
【0032】検索条件設定部216は、類似文書を算出
する際の検索条件をユーザからの入力により設定する。
検索条件としては、検索キー文書の項目の生成処理の有
無、検索対象文書の項目の切り出し処理の有無、検索対
象文書の項目の生成処理の有無などがある。これら検索
条件の設定内容は検索条件設定バッファ部229に格納
される。
【0033】共通単語抽出部217は、検索キー単語情
報格納バッファ部238に格納されている検索キー文書
と検索対象単語情報格納バッファ部233に格納されて
いる検索対象文書とに共通の単語を抽出し、この共通単
語の情報と該共通単語毎の頻度情報を共通単語情報格納
バッファ部239に格納する。
【0034】類似度算出部218は、検索キー単語情報
格納バッファ部238に格納されている検索キー文書中
の単語種毎の出現頻度、検索対象単語情報格納バッファ
部233に格納されている検索対象文書中の単語種毎の
出現頻度、そして共通単語情報格納バッファ部239に
格納されている共通単語種毎の出現頻度から、ベクトル
空間法等によって検索キー文書と個々の検索対象文書と
の類似度をそれぞれ算出し、その類似度値を類似度格納
バッファ部240に格納する。このとき検索キー文書項
目優先度バッファ部234に検索キー文書項目の優先度
が設定されている場合は、該当する項目の類似度値に優
先度に応じた重みを付与し、この重みが付与された類似
度値を類似度格納バッファ部240に再格納する。
【0035】検索結果出力部219は、類似度格納バッ
ファ部240に格納されている検索対象文書毎の類似度
値を基に検索結果を検索結果出力バッファ部241に格
納する。そして検索結果出力部219は、検索結果出力
バッファ部239の内容を表示装置3に出力する。
【0036】次に、本実施形態の類似文書検索装置の動
作を説明する。
【0037】図3および図4に、本実施形態の類似文書
検索処理の流れを示す。まず、初期化部201が起動さ
れメモリ部12のクリア等の初期化が行われる(ステッ
プ300)。
【0038】続いて検索条件設定部216が起動され
る。検索条件設定部216は類似文書を算出する際の検
索条件を入力装置2からの入力により設定し、その設定
データを検索条件設定バッファ部229に格納する(ス
テップ301)。図4に、検索モードの設定例を示す。
同図に示すように、検索モードの設定項目には 検索キー文書の項目生成=する/しない 検索対象文書の項目切り出し=する/しない 検索対象文書の項目生成=する/しない などがあり、これら設定項目毎にユーザは任意のモード
を選択することができる。この例では、 検索キー文書の項目生成=する 検索対象文書の項目切り出し=する 検索対象文書の項目生成=する がそれぞれ選択されたものとする。これらの検索モード
の設定情報は検索条件設定バッファ部229に格納され
る。図6に検索条件設定バッファ部229への検索モー
ド設定情報の格納形態を示す。
【0039】次に、検索キー文書の項目優先度を入力す
るかどうかを判断する(ステップ302)、項目優先度
を入力する場合は検索キー文書項目優先度入力部211
が起動される。検索キー文書項目優先度入力部211は
入力部202を通じてユーザより、検索キー文書中の項
目毎の優先度を入力し、その項目別優先度の情報を検索
キー文書項目優先度バッファ部234に格納する(ステ
ップ303)。
【0040】図7は検索キー文書中の定型5項目それぞ
れの重要度を設定するときの設定画面を示している。同
図では各項目の優先度(=重要度)を10段階に表すも
のとし、項目番号1の優先度を「10」、項目番号2の
優先度を「5」、項目番号3の優先度を「3」、項目番
号4,5の優先度を「1」に設定している。
【0041】この検索キー文書の項目優先度の設定後、
あるいはステップ304で検索キー文書の項目優先度を
入力しないこととした場合はステップ304に進む。
【0042】ステップ304では検索キー文書入力部2
10が起動される。ここでユーザより検索キーとなる文
書が入力されることで、検索キー文書入力部210はそ
の入力された検索キー文書を検索キー文書格納バッファ
部235に格納する(ステップ304)。図8に、その
入力された検索キー文書の例を示す。ここで、入力さ
【0043】れた検索キー文書は複数の定型項目(例え
【請求項 】で表記される項目)の文書からなるものと
する。
【0044】この後、検索キー文書項目切り出し部21
2が起動される。検索キー文書項目切り出し部212
は、検索キー文書格納バッファ部235に格納されてい
る検索キー文書の文構造を解析して、この解析結果を基
に当該検索キー文書から定型項目の文書部分をすべて切
り出し、切り出した項目単位の文書を検索キー文書項目
格納バッファ部236に格納する(ステップ305)。
図9に、検索キー文書から切り出された項目単位の文書
を示す。
【0045】次に、検索キー文書項目生成部213は、
検索条件設定バッファ部229を参照し、ここに「検索
キー文書の項目生成=する」が設定されているかどうか
を調べる(ステップ306)。「検索キー文書の項目生
成=する」が設定されていれば、検索キー文書項目生成
部213は、検索キー文書項目格納バッファ部236に
格納されている定型項目の文書の再生成を行う(ステッ
プ307)。再生成された定型項目の文書は検索キー文
書項目生成格納バッファ部237に格納される。
【0046】図10に、この定型項目の文書の再生成の
例を示す。定型項目の文書の再生成は所定の規則に則っ
て行われる。この定型項目の文書の再生成は項目文書間
の文構造や表記の違いを吸収する目的で行われる。例え
ば、図10に示すように、項目番号2以降の項目文書に
含まれる「請求項X」(ただしXは1以上の整数)とい
う記述部分は、項目番号Xの項目文書に置き換えれる。
【0047】このような定型項目の文書の再生成を行っ
た後、あるいはステップ306で「検索キー文書の項目
生成=しない」が設定されている場合は次にステップ3
08が実行される。
【0048】ステップ308では検索キー単語抽出部2
14が起動される。検索キー単語抽出部214は、検索
キー文書項目格納バッファ部236あるいは検索キー文
書項目生成格納バッファ部237に格納されている検索
キー文書から単語を切り出し、切り出した単語群からそ
の検索キー文書(あるいは項目)の内容を反映するキー
単語を抽出し、抽出した単語を検索キー単語情報格納バ
ッファ部238に格納する。ここで単語の切り出しは形
態素解析などにより行われ、そのキー単語は単語の品詞
に基づき決定することができる。例えば「名詞」や「サ
変名詞」の単語をキー単語として判別するようにする。
このようにして抽出された単語の情報は、図11に示す
ように、検索キー単語情報格納バッファ部238に格納
される。
【0049】続いて、検索キー単語出現頻度算出部21
5が起動される。検索キー単語出現頻度算出部215
は、検索キー単語情報格納バッファ部238に格納され
た単語種について、検索キー文書項目生成格納バッファ
部237または検索キー文書項目格納バッファ部236
に格納されている項目文書中の出現頻度を算出し、図1
7に示すように、その結果を検索キー単語情報格納バッ
ファ部238に格納する(ステップ309)。図12に
おいて、「文書データベース=1」は「文書データベー
ス」という単語が1回出現していることを示す。
【0050】次に、検索対象文書読み出し部204が起
動される。検索対象文書読み出し部204は、外部記憶
装置4にまだ処理を終えてない検索対象文書あるか否か
を判断し(ステップ310)、もし検索対象文書があれ
ば一つの検索対象文書を検索対象文書格納バッファ部2
30に格納する(ステップ311)。図13にその検索
対象文書の例を示す。
【0051】続いて、検索対象文書項目切り出し部20
5は、検索条件設定バッファ部229を参照し、検索対
象文書の項目抽出を行うかどうかを判断する(ステップ
312)。項目抽出を行う場合、検索対象文書項目切り
出し部205は、検索対象文書格納バッファ部230に
格納されている検索対象文書の文構造を解析し、この解
析結果を基に当該検索対象文書から定型項目の文書部分
をすべて切り出し、切り出した項目単位の文書を検索対
象文書項目格納バッファ部231に格納する(ステップ
313)。図14に検索対象文書から切り出された項目
単位の文書を示す。
【0052】次に、検索対象文書項目生成部206は、
検索条件設定バッファ部229を参照し、ここに「検索
対象文書の項目生成=する」が設定されているかどうか
を調べる(ステップ314)。「検索対象文書の項目生
成=する」が設定されていれば、検索対象文書項目生成
部206は、検索対象文書項目格納バッファ部231に
格納されている定型項目の文書の再生成を行う(ステッ
プ315)。
【0053】図15に、この定型項目の文書の再生成の
例を示す。この検索対象文書の項目再再生は前述した検
索キー文書の項目再生成と同様に行われる。再生成され
た定型項目の文書は検索対象文書項目生成格納バッファ
部232に格納される。
【0054】このような定型項目の文書の再生成を行っ
た後、あるいはステップ314で「検索対象文書の項目
生成=しない」が設定されている場合はステップ316
が実行される。
【0055】ステップ316では検索対象単語抽出部2
09が起動される。検索対象単語抽出部209は、検索
対象文書項目格納バッファ部231あるいは検索対象文
書項目生成格納バッファ部232に格納されている検索
対象文書から単語を切り出し、切り出した単語群からそ
の検索対象文書(あるいは項目)の内容を反映するキー
単語を抽出し、抽出した単語を検索対象単語情報格納バ
ッファ部233に格納する。この検索対象文書からのキ
ー単語の切り出しは前述した検索キー文書からのキー単
語の切り出しと同様に形態素解析などによって行われ
る。このようにして抽出された単語の情報は、図16に
示すように、検索対象単語情報格納バッファ部233に
格納される。
【0056】続いて、検索対象単語出現頻度算出部20
8が起動される。検索対象単語出現頻度算出部208
は、検索対象単語情報格納バッファ部233に格納され
ている単語について、検索対象文書項目格納バッファ部
231または検索対象文書項目生成格納バッファ部23
2に格納されている項目文書中の出現頻度を算出し、図
17に示すように、その結果を検索対象単語情報格納バ
ッファ部233に格納する(ステップ317)。
【0057】この後、共通単語抽出部217が起動され
る。共通単語抽出部217は、検索対象単語情報格納バ
ッファ部233および検索キー単語情報格納バッファ部
238の同一番号の項目毎に、共通に格納されている単
語を検索し、検索した項目毎の共通単語を共通単語情報
格納バッファ部239に格納する(ステップ318)。
図18にこの共通単語の検索結果の例を示す。
【0058】次に、類似度算出部218が起動される。
類似度算出部218は、検索対象単語情報格納バッファ
部233、検索キー単語情報格納バッファ部238およ
び共通単語情報格納バッファ部239の格納情報を基に
ベクトル空間法などを用いて検索キー文書/検索対象文
書間の項目別の類似度を算出し、その類似度値を類似度
格納バッファ部240に格納する。図19にその項目別
の類似度値の例を示す。
【0059】また、この類似度値の計算の際に類似度算
出部218は、検索キー文書項目優先度バッファ部23
4を参照する。図20に検索キー文書項目優先度バッフ
ァ部234に設定された優先度の例を示す。ここに優先
度が設定されていれば、その優先度が設定されている項
目についての類似度に優先度を加味する。例えば、「優
先度=10」であれば、その項目の類似度を2倍に、
「優先度=5」であればその項目の類似度を1.5倍に
するなどして項目別の類似度に優先度による重みを付与
し、この結果を類似度格納バッファ部240に再格納す
る(ステップ319)。図21に、優先度による重みが
付与された項目別の類似度を示す。
【0060】その後、ステップ310に戻る。ステップ
310で外部記憶装置4に処理を終えてない検索対象文
書がないことが判断されると検索結果出力部219が起
動される。検索結果出力部219は、図22に示すよう
に、検索キー単語の項目別に最も高い類似度を持つ検索
対象文書を判別し、その文書情報(例えば、文書ID)
を検索結果出力バッファ部240に格納する。そして、
検索結果出力バッファ部241の内容を表示装置3に出
力する(ステップ320)。図23に出力結果の例を示
す。
【0061】このように本実施形態によれば、検索キー
文書の個々の項目毎にこれに類似した項目を有する検索
対象文書を検索することができる。
【0062】また、図24に示すように、検索キー文書
の項目毎に、検索対象文書の各項目の類似度の総和を求
め、そして図25に示すように、その結果を検索結果出
力バッファ部240に格納して類似度の総和とともに出
力するようにしても構わない。このとき、類似度の総和
が高い順に検索対象文書のIDを並べて表示するように
してもよい。
【0063】さらに、図26に示すように、検索対象文
書毎に全項目の類似度の総和を求め、図27に示すよう
に、その結果を類似度の総和とともに出力するようにし
てもよく、この場合も、類似度の総和が高い順に検索対
象文書のIDを並べて表示することが好ましい。
【0064】以上、説明した類似文書検索の機能は、コ
ンピュータが読み取り可能なCD−ROMやその他の記
憶媒体にコンピュータ上で実行可能なプログラムとして
記憶して提供することが可能である。
【0065】
【発明の効果】以上説明したように本発明によれば、検
索キー文書と検索対象文書との類似度を各文書を構成す
る項目の単位で求めることによって、検索キー文書に異
なる内容の項目が存在する場合に、その項目毎の個別の
内容に的を絞った類似文書検索を行うことができる。
【0066】また、項目毎に優先度を設定する手段を付
加し、この設定された優先度を加味して検索キー文書と
検索対象文書との項目単位の類似度を算出するように構
成することによって、たとえば、検索対象文書毎に全項
目の類似度の総和を求めその結果を検索結果として出力
する場合に、文書の重要部分の類似度に重みを加えたよ
り最適な類似文書検索を実現することができる。
【0067】さらに、検索キー文書または検索対象文書
の各項目の文構造を統一化させる手段をさらに付加し、
このように文構造を統一化された各項目について検索キ
ー文書と検索対象文書との類似度を項目単位で算出する
ように構成することで、各項目の文構造の違いが類似度
に影響する度合を軽減することができ、より算出される
類似度の妥当性を高くすることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る類似文書検索装置の
ハードウェア構成を示す図。
【図2】図1の類似文書検索装置の制御部の構成を機能
別にブロック化して示す図。
【図3】図1の類似文書検索装置の処理の流れを示すフ
ローチャート。
【図4】同じく図1の類似文書検索装置の処理の流れを
示すフローチャート。
【図5】検索モードの設定画面を示す図。
【図6】検索モード設定情報の格納例を示す図。
【図7】検索キー文書中の各項目の重要度を設定する画
面を示す図。
【図8】検索キー文書の例を示す図。
【図9】図8の検索キー文書から切り出された項目単位
の文書を示す図。
【図10】図9の項目文書から再生成された文書の例を
示す図。
【図11】図10に示す各項目の文書から抽出された単
語の情報の例を示す図。
【図12】図10に示す各項目の文書から抽出された単
語の出現頻度の情報の例を示す図。
【図13】検索対象文書の例を示す図。
【図14】図13の検索対象文書から切り出された項目
単位の文書を示す図。
【図15】図14の項目文書から再生成された文書の例
を示す図。
【図16】図15に示す各項目の文書から抽出された単
語の情報の例を示す図。
【図17】図15に示す各項目の文書から抽出された単
語の出現頻度の情報の例を示す図。
【図18】共通単語の検索結果の例を示す図。
【図19】検索キー文書/検索対象文書間の項目別の類
似度の算出結果を示す図。
【図20】項目別に設定された優先度の例を示す図。
【図21】優先度による重みが付与された項目別の類似
度を示す図。
【図22】項目別の類似文書検索結果を示す図。
【図23】図22の項目別の類似文書検索結果の出力例
を示す図。
【図24】検索キー文書の項目別に検索対象文書の各項
目の類似度の総和を求めた類似文書検索結果を示す図。
【図25】図24の類似文書検索結果の出力例を示す
図。
【図26】検索対象文書毎に全項目の類似度の総和を求
めた類似文書検索結果を示す図。
【図27】図26の類似文書検索結果の出力例を示す
図。
【符号の説明】
1…制御装置 2…入力装置 3…表示装置 4…外部記憶装置 200…メイン処理部 201…初期化部 202…入力部 203…出力部 204…検索対象文書読み出し部 205…検索対象文書項目切り出し部 206…検索対象文書項目生成部 207…検索対象文書単語抽出部 208…検索対象単語出現頻度算出部 209…検索対象単語情報算出部 210…検索キー文書入力部 211…検索キー文書項目優先度入力部 212…検索キー文書項目切り出し部 213…検索キー文書項目生成部 214…検索キー単語抽出部 215…検索キー単語出現頻度算出部 216…検索条件設定部 217…共通単語抽出部 218…類似度算出部 219…検索結果出力部 229…検索条件設定バッファ部 230…検索対象文書格納バッファ部 231…検索対象文書項目格納バッファ部 232…検索対象文書項目生成格納バッファ部 233…検索対象単語情報格納バッファ部 234…検索キー文書項目優先度バッファ部 235…検索キー文書格納バッファ部 236…検索キー文書項目格納バッファ部 237…検索キー文書項目生成格納バッファ部 238…検索キー単語情報格納バッファ部 239…共通単語情報格納バッファ部 240…類似度格納バッファ部 241…検索結果出力バッファ部 242…作業バッファ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 Fターム(参考) 5B075 ND03 NK02 NK31 PP24 PQ36 PR04 PR08 QM08

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 検索キー文書と類似した文書を複数の検
    索対象文書の中から検索する類似文書検索装置におい
    て、 前記検索キー文書および前記検索対象文書から項目の単
    位の文書を切り出す項目切り出し手段と、 前記検索キー文書と前記検索対象文書との類似度を前記
    切り出された項目の単位で算出し、その算出結果に基づ
    いて類似文書検索結果を出力する計算手段とを具備する
    ことを特徴とする類似文書検索装置。
  2. 【請求項2】 前記項目毎に優先度を設定する手段をさ
    らに有し、 前記計算手段は、前記設定された優先度を加味して前記
    検索キー文書と前記検索対象文書との項目単位の類似度
    を算出することを特徴とする請求項1記載の類似文書検
    索装置。
  3. 【請求項3】 前記項目切り出し手段によって切り出さ
    れた前記検索キー文書または前記検索対象文書の各項目
    の文構造を統一化させる手段をさらに有し、 前記計算手段は、前記文構造を統一化された各項目につ
    いて、前記検索キー文書と前記検索対象文書との類似度
    を前記項目単位で算出することを特徴とする請求項1記
    載の類似文書検索装置。
  4. 【請求項4】 前記計算手段は、 前記検索キー文書より切り出された項目からキー単語を
    抽出し、抽出されたキー単語の項目毎の出現頻度を求め
    る手段と、 前記検索対象文書より切り出された項目からキー単語を
    抽出し、抽出されたキー単語の項目毎の出現頻度を求め
    る手段と、 前記検索キー文書と前記検索対象文書に共通のキー単語
    を検索する手段と、 前記検索キー文書および前記検索対象文書よりそれぞれ
    前記抽出されたキー単語と該キー単語の項目毎の出現頻
    度と前記検索された共通キー単語とから前記検索キー文
    書と前記検索対象文書との項目単位の類似度を算出する
    手段とを有することを特徴とする請求項1記載の類似文
    書検索装置。
  5. 【請求項5】 前記計算手段は、前記検索キー文書の項
    目別に、最も類似度の高い検索対象文書を検索結果とし
    て出力することを特徴とする請求項1記載の類似文書検
    索装置。
  6. 【請求項6】 前記計算手段は、前記検索キー文書の項
    目別に、検索対象文書の各項目の類似度の総和を求め、
    その結果を検索結果として出力することを特徴とする請
    求項1記載の類似文書検索装置。
  7. 【請求項7】 前記計算手段は、検索対象文書毎に全項
    目の類似度の総和を求め、その結果を検索結果として出
    力することを特徴とする請求項1または2記載の類似文
    書検索装置。
  8. 【請求項8】 検索キー文書と類似した文書を複数の検
    索対象文書の中から検索する類似文書検索方法におい
    て、 前記検索キー文書および前記検索対象文書から項目の単
    位の文書を切り出す段階と、 前記検索キー文書と前記検索対象文書との類似度を前記
    切り出された項目の単位で算出する段階と、 前記算出結果に基づいて類似文書検索結果を出力する段
    階とを有することを特徴とする類似文書検索方法。
JP11142448A 1999-05-21 1999-05-21 類似文書検索装置と類似文書検索方法 Withdrawn JP2000331027A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11142448A JP2000331027A (ja) 1999-05-21 1999-05-21 類似文書検索装置と類似文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11142448A JP2000331027A (ja) 1999-05-21 1999-05-21 類似文書検索装置と類似文書検索方法

Publications (1)

Publication Number Publication Date
JP2000331027A true JP2000331027A (ja) 2000-11-30

Family

ID=15315557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11142448A Withdrawn JP2000331027A (ja) 1999-05-21 1999-05-21 類似文書検索装置と類似文書検索方法

Country Status (1)

Country Link
JP (1) JP2000331027A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281186A (ja) * 2001-11-13 2003-10-03 Posco 類似性判断のための例題ベース検索方法及び検索システム
JP2009151746A (ja) * 2007-12-20 2009-07-09 Inst For Information Industry 情報資源の協同タギングシステム及び方法
JP2011008334A (ja) * 2009-06-23 2011-01-13 Nippon Hoso Kyokai <Nhk> 関連コンテンツ表示装置及びコンピュータプログラム
US8045228B2 (en) 2007-03-19 2011-10-25 Ricoh Company, Ltd. Image processing apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281186A (ja) * 2001-11-13 2003-10-03 Posco 類似性判断のための例題ベース検索方法及び検索システム
US8045228B2 (en) 2007-03-19 2011-10-25 Ricoh Company, Ltd. Image processing apparatus
JP2009151746A (ja) * 2007-12-20 2009-07-09 Inst For Information Industry 情報資源の協同タギングシステム及び方法
JP2011008334A (ja) * 2009-06-23 2011-01-13 Nippon Hoso Kyokai <Nhk> 関連コンテンツ表示装置及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JPH11259515A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2000331027A (ja) 類似文書検索装置と類似文書検索方法
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
JP3881638B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP3614765B2 (ja) 概念辞書拡張装置
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2001318947A (ja) 情報統合システムおよび情報統合方法、ならびにそのプログラムを記録した記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2001249921A (ja) 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2004062806A (ja) 類似文書検索装置及び類似文書検索方法
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP4682627B2 (ja) 文書検索装置および方法
JP2002304407A (ja) プログラム及び情報処理装置
JP2002215672A (ja) 検索式拡張方法、検索システム及び検索式拡張コンピュータプログラム
JP2004234175A (ja) コンテンツ検索装置およびそのプログラム
JP2003242446A (ja) 文字列予測装置及び方法並びに当該方法を具現化するコンピュータ実行可能なプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801