JPH11259487A - 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 - Google Patents
類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体Info
- Publication number
- JPH11259487A JPH11259487A JP10055560A JP5556098A JPH11259487A JP H11259487 A JPH11259487 A JP H11259487A JP 10055560 A JP10055560 A JP 10055560A JP 5556098 A JP5556098 A JP 5556098A JP H11259487 A JPH11259487 A JP H11259487A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- search
- words
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索キー文書と検索対象文書から複合語を抽
出して類似文書を検索する場合の検索精度の向上を図
る。 【解決手段】 検索キー文書或いは検索対象文書に例え
ば「筆文字宛名印刷機能」といった複合語が存在し、最
大結合数を3と指定したとき「筆文字宛名」「文字宛名
印刷」「宛名印刷機能」「筆文字」「文字宛名」などの
最大結合数以下の単語数からなる複合語を各文書からす
べて抽出し、これらの複合語の出現頻度を計算して、検
索キー文書と検索対象文書との類似度を算出する。特定
の内容の文書を特徴付ける異なる複合語を漏れなく抽出
することができるので、文書間のより妥当な類似度を計
算でき、ユーザの意図する精度の高い類似文書検索を行
うことができる。
出して類似文書を検索する場合の検索精度の向上を図
る。 【解決手段】 検索キー文書或いは検索対象文書に例え
ば「筆文字宛名印刷機能」といった複合語が存在し、最
大結合数を3と指定したとき「筆文字宛名」「文字宛名
印刷」「宛名印刷機能」「筆文字」「文字宛名」などの
最大結合数以下の単語数からなる複合語を各文書からす
べて抽出し、これらの複合語の出現頻度を計算して、検
索キー文書と検索対象文書との類似度を算出する。特定
の内容の文書を特徴付ける異なる複合語を漏れなく抽出
することができるので、文書間のより妥当な類似度を計
算でき、ユーザの意図する精度の高い類似文書検索を行
うことができる。
Description
【0001】
【発明の属する技術分野】本発明は、文書データベース
から、文書間の類似度に基づく文書データの検索を行う
類似文書検索装置、類似文書検索方法、および類似文書
検索のためのプログラムが記録された記録媒体に関す
る。
から、文書間の類似度に基づく文書データの検索を行う
類似文書検索装置、類似文書検索方法、および類似文書
検索のためのプログラムが記録された記録媒体に関す
る。
【0002】
【従来の技術】近年、大量の電子化された文書データが
流通するようになり、自動分類等を行う目的で、文書デ
ータベース中から指定された文書(以下、検索キー文書
と呼ぶ)に類似する文書の自動検索を行うシステムが実
用化されてきている。この文書検索システムでは、検索
キー文書に含まれている単語と検索対象となる文書(以
下、検索対象文書と呼ぶ)に含まれている単語とを比較
し、共通する単語の種類、出現場所、出現回数などから
空間ベクトル法により類似度を算出して、類似度の高い
検索対象文書を検索結果として出力する。
流通するようになり、自動分類等を行う目的で、文書デ
ータベース中から指定された文書(以下、検索キー文書
と呼ぶ)に類似する文書の自動検索を行うシステムが実
用化されてきている。この文書検索システムでは、検索
キー文書に含まれている単語と検索対象となる文書(以
下、検索対象文書と呼ぶ)に含まれている単語とを比較
し、共通する単語の種類、出現場所、出現回数などから
空間ベクトル法により類似度を算出して、類似度の高い
検索対象文書を検索結果として出力する。
【0003】このような類似文書検索では、検索キー文
書や検索対象文書から、その文書を特徴付ける単語を抽
出することが、精度の高い類似文書検索を行うために非
常に重要な鍵となる。これまで、文書から名詞やサ変名
詞などの単語を対象に単語の抽出を行っていたが、文書
から抽出された単一の単語が必ずしもその文書を特徴付
ける単語として使用されているとは限らない。
書や検索対象文書から、その文書を特徴付ける単語を抽
出することが、精度の高い類似文書検索を行うために非
常に重要な鍵となる。これまで、文書から名詞やサ変名
詞などの単語を対象に単語の抽出を行っていたが、文書
から抽出された単一の単語が必ずしもその文書を特徴付
ける単語として使用されているとは限らない。
【0004】そこで、文書を特徴付ける複数の単語の結
合からなる複合語を文書から抽出する方法が提案されて
いる。このように文書を特徴付ける複合語を抽出するこ
とで、単位の単語を抽出する方法に比べ、ユーザの意図
する検索結果をより高い精度で得ることができる。
合からなる複合語を文書から抽出する方法が提案されて
いる。このように文書を特徴付ける複合語を抽出するこ
とで、単位の単語を抽出する方法に比べ、ユーザの意図
する検索結果をより高い精度で得ることができる。
【0005】
【発明が解決しようとする課題】ところで、このように
複合語を抽出する方法では、複合語の語長(単語数)が
長くなればなるほど、その複合語がその文書を特徴付け
る度合も高くなるが、その反面、検索対象の文書から抽
出される単語の数が極端に減ってしまう傾向がある。こ
のため、本来類似文書として検索されるべき文書に対す
る類似度として妥当な値が得られず、やはりユーザの意
図する検索結果を高精度に得ることは困難であった。
複合語を抽出する方法では、複合語の語長(単語数)が
長くなればなるほど、その複合語がその文書を特徴付け
る度合も高くなるが、その反面、検索対象の文書から抽
出される単語の数が極端に減ってしまう傾向がある。こ
のため、本来類似文書として検索されるべき文書に対す
る類似度として妥当な値が得られず、やはりユーザの意
図する検索結果を高精度に得ることは困難であった。
【0006】本発明は、このような課題を解決するため
のもので、検索キー文書と検索対象文書から複合語を抽
出して類似文書を検索する場合の検索精度の向上を図る
ことのできる類似文書検索装置、類似文書検索方法、お
よび類似文書検索のためのプログラムが記録された記録
媒体の提供を目的とする。
のもので、検索キー文書と検索対象文書から複合語を抽
出して類似文書を検索する場合の検索精度の向上を図る
ことのできる類似文書検索装置、類似文書検索方法、お
よび類似文書検索のためのプログラムが記録された記録
媒体の提供を目的とする。
【0007】
【課題を解決するための手段】上記した目的を達成する
ために、本発明は、請求項1に記載されるように、ある
文書を検索キー文書としてこの検索キー文書と類似する
文書を複数の検索対象文書の中から検索する類似文書検
索装置において、前記検索キー文書および前記検索対象
文書を単語単位に分割する分割手段と、前記分割手段に
よって分割された単語の中から予め指定された条件を満
たす単語を抽出する単語抽出手段と、前記検索キー文書
および前記検索対象文書から抽出すべき複合語を構成す
る単語数の上限値を指定する指定手段と、前記単語抽出
手段によって抽出された単語の結合により構成される複
合語のうち前記指定手段により指定された上限値以下の
数の単語により構成されるすべての複合語を前記検索キ
ー文書および前記検索対象文書から抽出する複合語抽出
手段と、前記複合語抽出手段によって抽出された複合語
の前記検索キー文書および前記検索対象文書での出現頻
度をそれぞれ算出する手段とを具備することを特徴とす
る。
ために、本発明は、請求項1に記載されるように、ある
文書を検索キー文書としてこの検索キー文書と類似する
文書を複数の検索対象文書の中から検索する類似文書検
索装置において、前記検索キー文書および前記検索対象
文書を単語単位に分割する分割手段と、前記分割手段に
よって分割された単語の中から予め指定された条件を満
たす単語を抽出する単語抽出手段と、前記検索キー文書
および前記検索対象文書から抽出すべき複合語を構成す
る単語数の上限値を指定する指定手段と、前記単語抽出
手段によって抽出された単語の結合により構成される複
合語のうち前記指定手段により指定された上限値以下の
数の単語により構成されるすべての複合語を前記検索キ
ー文書および前記検索対象文書から抽出する複合語抽出
手段と、前記複合語抽出手段によって抽出された複合語
の前記検索キー文書および前記検索対象文書での出現頻
度をそれぞれ算出する手段とを具備することを特徴とす
る。
【0008】本発明の類似文書検索装置では、文書から
抽出された単語の結合により構成される複合語のうち、
指定された上限値以下の数の単語により構成されるすべ
ての複合語を検索キー文書および検索対象文書から抽出
することで、文書を特徴付ける複合語を漏れなく抽出す
ることができ、検索キー文書と検索対象文書との類似度
をより高精度に算出することができる。
抽出された単語の結合により構成される複合語のうち、
指定された上限値以下の数の単語により構成されるすべ
ての複合語を検索キー文書および検索対象文書から抽出
することで、文書を特徴付ける複合語を漏れなく抽出す
ることができ、検索キー文書と検索対象文書との類似度
をより高精度に算出することができる。
【0009】また、本発明は、請求項2に記載されるよ
うに、ある文書を検索キー文書としてこの検索キー文書
と類似する文書を複数の検索対象文書の中から検索する
類似文書検索装置において、前記検索キー文書および前
記検索対象文書を単語単位に分割する分割手段と、前記
分割手段によって分割された単語の中から予め指定され
た条件を満たす単語を抽出する単語抽出手段と、前記検
索キー文書および前記検索対象文書から抽出すべき複合
語を構成する単語の数の上限値を指定する指定手段と、
前記単語抽出手段によって抽出された単語の結合により
構成される複合語のうち前記指定手段により指定された
上限値以下の数の単語により構成されるすべての複合語
を前記検索キー文書および前記検索対象文書から抽出す
る複合語抽出手段と、任意の単語を不要語として選択す
る不要語選択手段と、前記複合語抽出手段によって抽出
された複合語のうち前記不要語選択手段によって選択さ
れた不要語を含む複合語を無効とする複合語無効化手段
と、前記複合語抽出手段によって抽出された有効な複合
語の前記検索キー文書および前記検索対象文書での出現
頻度をそれぞれ算出する手段とを具備することを特徴と
する。
うに、ある文書を検索キー文書としてこの検索キー文書
と類似する文書を複数の検索対象文書の中から検索する
類似文書検索装置において、前記検索キー文書および前
記検索対象文書を単語単位に分割する分割手段と、前記
分割手段によって分割された単語の中から予め指定され
た条件を満たす単語を抽出する単語抽出手段と、前記検
索キー文書および前記検索対象文書から抽出すべき複合
語を構成する単語の数の上限値を指定する指定手段と、
前記単語抽出手段によって抽出された単語の結合により
構成される複合語のうち前記指定手段により指定された
上限値以下の数の単語により構成されるすべての複合語
を前記検索キー文書および前記検索対象文書から抽出す
る複合語抽出手段と、任意の単語を不要語として選択す
る不要語選択手段と、前記複合語抽出手段によって抽出
された複合語のうち前記不要語選択手段によって選択さ
れた不要語を含む複合語を無効とする複合語無効化手段
と、前記複合語抽出手段によって抽出された有効な複合
語の前記検索キー文書および前記検索対象文書での出現
頻度をそれぞれ算出する手段とを具備することを特徴と
する。
【0010】本発明の類似文書検索装置では、文書を特
徴付ける複合語を漏れなく抽出することができ、検索キ
ー文書と検索対象文書との類似度をより高精度に算出す
ることができるとともに、予め指定された不要語の単語
を含む複合語を無効なものとすることで、ユーザの意図
をさらに反映したより一層高精度な類似文書検索を行う
ことが可能になる。
徴付ける複合語を漏れなく抽出することができ、検索キ
ー文書と検索対象文書との類似度をより高精度に算出す
ることができるとともに、予め指定された不要語の単語
を含む複合語を無効なものとすることで、ユーザの意図
をさらに反映したより一層高精度な類似文書検索を行う
ことが可能になる。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。
施形態を説明する。
【0012】図1は本発明の実施形態である類似文書検
索装置のハードウェア構成を示すブロック図である。
索装置のハードウェア構成を示すブロック図である。
【0013】同図に示すように、この類似文書検索装置
は、キーボードなどの入力装置1、CPUおよびメモリ
などから構成される制御装置2、類似文書の検索結果な
どを表示する表示装置3、および、文書データや類似文
書検索のための各文書の単語情報や品詞辞書、不要語辞
書などを格納する外部記億装置4などから構成されてい
る。外部記億装置4に格納された品詞辞書、不要語辞書
の構成を図6、図7にそれぞれ示す。
は、キーボードなどの入力装置1、CPUおよびメモリ
などから構成される制御装置2、類似文書の検索結果な
どを表示する表示装置3、および、文書データや類似文
書検索のための各文書の単語情報や品詞辞書、不要語辞
書などを格納する外部記億装置4などから構成されてい
る。外部記億装置4に格納された品詞辞書、不要語辞書
の構成を図6、図7にそれぞれ示す。
【0014】図2にこの類似文書検索装置における制御
装置1の構成を示す。制御装置1は、制御部100とメ
モリ部200から構成される。
装置1の構成を示す。制御装置1は、制御部100とメ
モリ部200から構成される。
【0015】制御部100は、初期化部101、入力部
102、出力部103、抽出対象品詞設定部104、最
大結合数設定部105、検索対象文書読み出し部10
6、検索対象単語切り出し部107、検索対象単語複合
語抽出部108、検索対象単語出現頻度算出部109、
検索対象単語情報書き込み部110、検索キー文書入力
部111、検索キー単語切り出し部112、検索キー単
語複合語抽出部113、検索キー単語出現頻度算出部1
14、検索対象単語情報読み出し部115、共通単語抽
出部116、類似度算出部117、検索結果出力部11
8などから構成される。メモリ部200は、品詞情報バ
ッファ部201、選択品詞情報バッファ部202、不要
語情報バッファ部203、最大結合数バッファ部20
4、検索対象文書格納バッファ部205、検索対象全文
分割単語格納バッファ部206、検索対象複合語候補格
納バッファ部207、検索対象抽出複合語格納バッファ
部208、検索対象単語情報格納バッファ部209、検
索キー文書格納バッファ部210、検索キー全文分割単
語格納バッファ部211、検索キー複合語候補格納バッ
ファ部212、検索キー抽出複合語格納バッファ部21
3、検索キー単語情報格納バッファ部214、共通単語
情報格納バッファ部215、算出類似度格納バッファ部
216、検索結果出力バッファ部217などから構成さ
れる。
102、出力部103、抽出対象品詞設定部104、最
大結合数設定部105、検索対象文書読み出し部10
6、検索対象単語切り出し部107、検索対象単語複合
語抽出部108、検索対象単語出現頻度算出部109、
検索対象単語情報書き込み部110、検索キー文書入力
部111、検索キー単語切り出し部112、検索キー単
語複合語抽出部113、検索キー単語出現頻度算出部1
14、検索対象単語情報読み出し部115、共通単語抽
出部116、類似度算出部117、検索結果出力部11
8などから構成される。メモリ部200は、品詞情報バ
ッファ部201、選択品詞情報バッファ部202、不要
語情報バッファ部203、最大結合数バッファ部20
4、検索対象文書格納バッファ部205、検索対象全文
分割単語格納バッファ部206、検索対象複合語候補格
納バッファ部207、検索対象抽出複合語格納バッファ
部208、検索対象単語情報格納バッファ部209、検
索キー文書格納バッファ部210、検索キー全文分割単
語格納バッファ部211、検索キー複合語候補格納バッ
ファ部212、検索キー抽出複合語格納バッファ部21
3、検索キー単語情報格納バッファ部214、共通単語
情報格納バッファ部215、算出類似度格納バッファ部
216、検索結果出力バッファ部217などから構成さ
れる。
【0016】初期化部101は、上記各バッファ部の初
期化を行い、更に、外部記憶装置4における辞書(品詞
辞書、不要語辞書など)の内容をメモリ部に読み込む。
期化を行い、更に、外部記憶装置4における辞書(品詞
辞書、不要語辞書など)の内容をメモリ部に読み込む。
【0017】入力部102は、ユーザによる入力装置1
からの検索キー文書や単語抽出条件の設定など各種設定
の入力を行う。
からの検索キー文書や単語抽出条件の設定など各種設定
の入力を行う。
【0018】出力部103は、入力部102により入力
された検索キー文書などの各種設定内容を表示装置3に
出力する。
された検索キー文書などの各種設定内容を表示装置3に
出力する。
【0019】抽出対象品詞設定部104は、ユーザが品
詞情報バッファ部201から選択した抽出対象単語の品
詞を選択品詞情報バッファ部202に格納する。
詞情報バッファ部201から選択した抽出対象単語の品
詞を選択品詞情報バッファ部202に格納する。
【0020】最大結合数設定部104は、ユーザが指定
した複合語の最大結合数を最大結合数バッファ部204
に格納する。
した複合語の最大結合数を最大結合数バッファ部204
に格納する。
【0021】検索対象文書読み出し部106は、外部記
億装置4に格納されている検索対象文書に関する情報を
文書データベース化するために、文書データベース化す
べき文書情報を外部記億装置4から読み込み、検索対象
文書格納バッファ部205に格納する。
億装置4に格納されている検索対象文書に関する情報を
文書データベース化するために、文書データベース化す
べき文書情報を外部記億装置4から読み込み、検索対象
文書格納バッファ部205に格納する。
【0022】検索対象単語切り出し部107は、検索対
象文書格納バッファ部205に格納されている検索対象
文書からの単語切り出しを行う。そして、その検索対象
文書から抽出される全ての単語とその品詞を検索対象文
書全文分割単語格納バッファ部206に格納する。単語
の切り出しは形態素解析などにより行い、その文書から
抽出される単語の品詞情報を「名詞」、 「サ変名詞」、
「形容詞」などで表現する。
象文書格納バッファ部205に格納されている検索対象
文書からの単語切り出しを行う。そして、その検索対象
文書から抽出される全ての単語とその品詞を検索対象文
書全文分割単語格納バッファ部206に格納する。単語
の切り出しは形態素解析などにより行い、その文書から
抽出される単語の品詞情報を「名詞」、 「サ変名詞」、
「形容詞」などで表現する。
【0023】検索対象単語複合語抽出部108は、検索
対象全文分割単語格納バッファ部206に格納されてい
る全ての単語とその品詞情報の中から、選択品詞情報バ
ッファ部202に格納されている品詞情報を参照して、
該当する単語群(1つ、または複数の単語)を順次抽出
し、検索対象複合語候補格納バッファ部207に格納す
る。さらに、検索対象複合語候補バッファ部207に格
納されている単語群から最大結合数バッファ部204に
格納されている結合数以下の複合語を抽出し、検索対象
抽出複合語格納バッファ部208に格納する。
対象全文分割単語格納バッファ部206に格納されてい
る全ての単語とその品詞情報の中から、選択品詞情報バ
ッファ部202に格納されている品詞情報を参照して、
該当する単語群(1つ、または複数の単語)を順次抽出
し、検索対象複合語候補格納バッファ部207に格納す
る。さらに、検索対象複合語候補バッファ部207に格
納されている単語群から最大結合数バッファ部204に
格納されている結合数以下の複合語を抽出し、検索対象
抽出複合語格納バッファ部208に格納する。
【0024】検索対象単語出現頻度算出部109は、検
索対象単語複合語抽出部208により抽出された個々の
単語や複合語について、検索対象文書中での出現頻度を
算出し、これを検索対象文書の単語情報として検索対象
単語情報格納バッファ部209に格納する。
索対象単語複合語抽出部208により抽出された個々の
単語や複合語について、検索対象文書中での出現頻度を
算出し、これを検索対象文書の単語情報として検索対象
単語情報格納バッファ部209に格納する。
【0025】検索対象単語情報書き込み部110は、検
索対象単語情報格納バッファ部209に格納されている
検索対象文書の単語情報を外部記憶装置4に格納する。
索対象単語情報格納バッファ部209に格納されている
検索対象文書の単語情報を外部記憶装置4に格納する。
【0026】検索キー文書入力部111は、入力装置1
から入力された検索キー文書の情報を検索キー文書格納
バッファ部210に格納する。
から入力された検索キー文書の情報を検索キー文書格納
バッファ部210に格納する。
【0027】検索キー単語切り出し部112は、検索キ
ー文書格納バッファ部210に格納されている検索キー
文書からの単語切り出しを行う。そして、その検索キー
文書から抽出される全ての単語とその品詞を検索キー文
書全文分割単語格納バッファ部211に格納する。単語
の切り出しは形態素解析などにより行、その文書から抽
出される単語の品詞情報を「名詞」、「サ変名詞」、「形
容詞」などで表現する。 検索キー単語複合語抽出部1
13は、検索キー全文分割単語格納バッファ部211に
格納されている全ての単語とその品詞情報の中から、選
択品詞情報バッファ部202に格納されている品詞情報
を参照して、該当する単語群(1つ、または複数の単
語)を順次抽出し、検索キー複合語候補格納バッファ部
212に格納する。さらに、検索キー複合語候補格納バ
ッファ部212に格納されている単語群から最大結合数
バッファ部に格納されている結合数以下の複合語を抽出
し、検索キー抽出複合語格納バッファ部213に格納す
る。
ー文書格納バッファ部210に格納されている検索キー
文書からの単語切り出しを行う。そして、その検索キー
文書から抽出される全ての単語とその品詞を検索キー文
書全文分割単語格納バッファ部211に格納する。単語
の切り出しは形態素解析などにより行、その文書から抽
出される単語の品詞情報を「名詞」、「サ変名詞」、「形
容詞」などで表現する。 検索キー単語複合語抽出部1
13は、検索キー全文分割単語格納バッファ部211に
格納されている全ての単語とその品詞情報の中から、選
択品詞情報バッファ部202に格納されている品詞情報
を参照して、該当する単語群(1つ、または複数の単
語)を順次抽出し、検索キー複合語候補格納バッファ部
212に格納する。さらに、検索キー複合語候補格納バ
ッファ部212に格納されている単語群から最大結合数
バッファ部に格納されている結合数以下の複合語を抽出
し、検索キー抽出複合語格納バッファ部213に格納す
る。
【0028】検索キー単語出現頻度算出部114は、検
索キー単語複合語抽出部113により抽出された個々の
単語や複合語について、検索キー文書中での出現頻度を
算出し、これを検索キー文書の単語情報として検索対象
単語情報格納バッファ部214に格納する。
索キー単語複合語抽出部113により抽出された個々の
単語や複合語について、検索キー文書中での出現頻度を
算出し、これを検索キー文書の単語情報として検索対象
単語情報格納バッファ部214に格納する。
【0029】検索対象単語情報読み出し部115は、外
部記憶装置4に格納されている各検索対象文書の単語情
報(単語の出現頻度情報)を1文書毎に呼び出し、検索
対象単語情報格納バッファ部209に格納する。
部記憶装置4に格納されている各検索対象文書の単語情
報(単語の出現頻度情報)を1文書毎に呼び出し、検索
対象単語情報格納バッファ部209に格納する。
【0030】共通単語抽出部116は、検索キー単語情
報格納バッファ部214に格納されている検索キー文書
の単語情報と検索対象単語情報格納バッファ部209に
格納されている検索対象文書の単語情報とを比較して、
一致する単語の種類と出現頻度情報を共通単語情報格納
バッファ部215に格納する。
報格納バッファ部214に格納されている検索キー文書
の単語情報と検索対象単語情報格納バッファ部209に
格納されている検索対象文書の単語情報とを比較して、
一致する単語の種類と出現頻度情報を共通単語情報格納
バッファ部215に格納する。
【0031】類似度算出部117は、共通単語情報格納
バッファ部215に格納されている情報に基づき、検索
キー文書と検索対象文書との類似度を算出し、その類似
度を算出類似度格納バッファ部216に格納する。
バッファ部215に格納されている情報に基づき、検索
キー文書と検索対象文書との類似度を算出し、その類似
度を算出類似度格納バッファ部216に格納する。
【0032】検索結果出力部118は、算出類似度格納
バッファ部216に格納されている各検索対象文書の類
似度値を適宜並べ替えて、検索結果出力バッファ部21
7に格納し、さらに検索結果出力バッファ部217の内
容を表示装置3に出力する。次に、本実施形態の類似文
書検索装置の動作を説明する。
バッファ部216に格納されている各検索対象文書の類
似度値を適宜並べ替えて、検索結果出力バッファ部21
7に格納し、さらに検索結果出力バッファ部217の内
容を表示装置3に出力する。次に、本実施形態の類似文
書検索装置の動作を説明する。
【0033】最初に検索対象文書データベースの作成手
順を図3のフローチャートにより説明する。
順を図3のフローチャートにより説明する。
【0034】まず、初期化部101により全メモリ部の
初期化を行い、外部記憶装置4の品詞辞書と不要語辞書
の情報をそれぞれ品詞情報バッファ部201、不要語情
報バッファ部203に格納する(ステップ301)。品
詞情報バッファ部201の構成を図9に、不要語情報バ
ッファ部203の構成を図11にそれぞれ示す。
初期化を行い、外部記憶装置4の品詞辞書と不要語辞書
の情報をそれぞれ品詞情報バッファ部201、不要語情
報バッファ部203に格納する(ステップ301)。品
詞情報バッファ部201の構成を図9に、不要語情報バ
ッファ部203の構成を図11にそれぞれ示す。
【0035】続いて抽出対象品詞設定部104が起動さ
れ、入力装置1を通じてユーザより抽出する単語の品詞
選択の入力を受け付けて、図10に示すように、抽出対
象品詞を選択品詞情報バッファ部202に格納する。ま
た、同様に最大結合数設定部105が起動され、入力装
置1を通じてユーザより抽出する複合語の最大結合数値
の入力を受け付けて、図12に示すように、最大結合数
バッファ部204に格納する(ステップ302)。
れ、入力装置1を通じてユーザより抽出する単語の品詞
選択の入力を受け付けて、図10に示すように、抽出対
象品詞を選択品詞情報バッファ部202に格納する。ま
た、同様に最大結合数設定部105が起動され、入力装
置1を通じてユーザより抽出する複合語の最大結合数値
の入力を受け付けて、図12に示すように、最大結合数
バッファ部204に格納する(ステップ302)。
【0036】これらの設定が完了すると、検索対象文書
読み出し部106が外部記憶装置4から複数のテキスト
文書を読み出し、検索対象文書格納バッファ205に検
索対象文書として格納する(ステップ303)。具体例
として、例えば、図13に示すような内容のテキスト文
書を検索対象文書として格納されたとする。
読み出し部106が外部記憶装置4から複数のテキスト
文書を読み出し、検索対象文書格納バッファ205に検
索対象文書として格納する(ステップ303)。具体例
として、例えば、図13に示すような内容のテキスト文
書を検索対象文書として格納されたとする。
【0037】次に、検索対象単語切り出し部107が、
検索対象文書格納バッファ部205に格納されている検
索対象文書について、形態素解析などによって単語の切
り出しを行い、切り出した単語とその品詞情報を、図1
4に示すように、検索対象全文分割単語格納バッファ部
206に格納する(ステップ304)。
検索対象文書格納バッファ部205に格納されている検
索対象文書について、形態素解析などによって単語の切
り出しを行い、切り出した単語とその品詞情報を、図1
4に示すように、検索対象全文分割単語格納バッファ部
206に格納する(ステップ304)。
【0038】続いて検索対象単語複合語抽出部108が
起動される。検索対象単語複合語抽出部108は、検索
対象全文分割単語格納バッファ部206に格納されてい
る当該検索対象文書の全単語とその品詞情報、選択品詞
情報バッファ202を参照し、該当する単語(1個以
上)を、図15に示すように、検索対象複合語候補格納
バッファ部207に格納する。
起動される。検索対象単語複合語抽出部108は、検索
対象全文分割単語格納バッファ部206に格納されてい
る当該検索対象文書の全単語とその品詞情報、選択品詞
情報バッファ202を参照し、該当する単語(1個以
上)を、図15に示すように、検索対象複合語候補格納
バッファ部207に格納する。
【0039】さらに、検索対象単語複合語抽出部108
は、検索対象複合語候補格納バッファ部207に格納さ
れている1個、または複数の単語群、不要語情報バッフ
ァ部203の不要語情報、そして最大結合数バッファ部
204の最大結合数値を参照し、1以上かつ最大結合数
以下の単語の結合からなる複合語を検索対象文書の中か
ら抽出し、図16に示すように、検索対象抽出複合語格
納バッファ部208に全て格納する(ステップ30
5)。なお、ここで抽出される複合語には、単独の単
語、つまり結合数1の単語も含むものとする。
は、検索対象複合語候補格納バッファ部207に格納さ
れている1個、または複数の単語群、不要語情報バッフ
ァ部203の不要語情報、そして最大結合数バッファ部
204の最大結合数値を参照し、1以上かつ最大結合数
以下の単語の結合からなる複合語を検索対象文書の中か
ら抽出し、図16に示すように、検索対象抽出複合語格
納バッファ部208に全て格納する(ステップ30
5)。なお、ここで抽出される複合語には、単独の単
語、つまり結合数1の単語も含むものとする。
【0040】ここで、検索対象単語複合語抽出部108
により、単語、複合語が少なくとも1個以上抽出された
場合(ステップ306)、検索対象単語出現頻度算出部
109が起動される。検索対象単語出現頻度算出部10
9は、検索対象抽出複合語格納バッファ部208に格納
されている複合語について、当該検索対象文書中での出
現頻度を複合語別に累積し、図17に示すように、検索
対象単語情報格納バッファ部209に順次格納する(ス
テップ307)。検索対象語情報格納バッファ部209
において、複合語(単語も含む)と頻度とは対応して登
録されており、例えば、単語「住所録」は当該文書中に
4回出現していることを表す。
により、単語、複合語が少なくとも1個以上抽出された
場合(ステップ306)、検索対象単語出現頻度算出部
109が起動される。検索対象単語出現頻度算出部10
9は、検索対象抽出複合語格納バッファ部208に格納
されている複合語について、当該検索対象文書中での出
現頻度を複合語別に累積し、図17に示すように、検索
対象単語情報格納バッファ部209に順次格納する(ス
テップ307)。検索対象語情報格納バッファ部209
において、複合語(単語も含む)と頻度とは対応して登
録されており、例えば、単語「住所録」は当該文書中に
4回出現していることを表す。
【0041】以上の複合語抽出処理と抽出単語出現頻度
算出処理は当該文書の文末まで行われる(ステップ30
8)。
算出処理は当該文書の文末まで行われる(ステップ30
8)。
【0042】当該文書の複合語抽出処理と抽出単語出現
頻度算出処理が終了すると、図17に示す検索対象単語
情報格納バッファ部209に格納された情報は、検索対
象文書のデータベースとして外部記憶装置4に蓄積され
る(テップ309)。
頻度算出処理が終了すると、図17に示す検索対象単語
情報格納バッファ部209に格納された情報は、検索対
象文書のデータベースとして外部記憶装置4に蓄積され
る(テップ309)。
【0043】これで1検索対象文書のデータベースへの
蓄積が終了するが、検索対象文書格納バッファ部205
にまだ検索対象文書が残っている場合、ステップ304
にもどって、前記同様の文書データベース生成が行われ
る。検索対象文書が残っていない場合、データベースの
生成は終了する。
蓄積が終了するが、検索対象文書格納バッファ部205
にまだ検索対象文書が残っている場合、ステップ304
にもどって、前記同様の文書データベース生成が行われ
る。検索対象文書が残っていない場合、データベースの
生成は終了する。
【0044】ここで、検索対象単語複合語抽出部108
による単語複合語抽出(ステップ305)の手順を図
5、図6、図14〜図16を使って詳しく説明する。
による単語複合語抽出(ステップ305)の手順を図
5、図6、図14〜図16を使って詳しく説明する。
【0045】まず、初期化として現結合数に0を代入す
る(ステップ510)。複合語候補となる結合単語を抽
出するため、図14に示す検索対象全文分割単語格納バ
ッファ206に記憶されている単語に対応する品詞情報
と、図10に示す選択品詞情報バッファ部202にある
品詞情報とを比較し(ステップ502)、検索対象全文
分割単語格納バッファ206に記憶されている単語が対
象品詞の単語であった場合、図15に示すように、当該
単語を検索対象複合語候補格納バッファ部207に格納
し(ステップ503)、現結合数に1を加える(ステッ
プ504)。対象品詞の単語をすべて抽出したらステッ
プ505に移る。
る(ステップ510)。複合語候補となる結合単語を抽
出するため、図14に示す検索対象全文分割単語格納バ
ッファ206に記憶されている単語に対応する品詞情報
と、図10に示す選択品詞情報バッファ部202にある
品詞情報とを比較し(ステップ502)、検索対象全文
分割単語格納バッファ206に記憶されている単語が対
象品詞の単語であった場合、図15に示すように、当該
単語を検索対象複合語候補格納バッファ部207に格納
し(ステップ503)、現結合数に1を加える(ステッ
プ504)。対象品詞の単語をすべて抽出したらステッ
プ505に移る。
【0046】ステップ505では現結合数を調べ、現結
合数が0より大きかった場合は処理を続行し、0であっ
た場合は複合語抽出処理を終了する。
合数が0より大きかった場合は処理を続行し、0であっ
た場合は複合語抽出処理を終了する。
【0047】現結合数が0より大きい場合は、続いて、
複合語抽出のための先頭カウンタと結合数カウンタにそ
れぞれ1をセットして初期化を行う(ステップ50
6)。
複合語抽出のための先頭カウンタと結合数カウンタにそ
れぞれ1をセットして初期化を行う(ステップ50
6)。
【0048】ここから、複合語の抽出が、結合数カウン
タが最大結合数バッファ部204が示す値になるまで以
下のように行われる(ステップ507)。
タが最大結合数バッファ部204が示す値になるまで以
下のように行われる(ステップ507)。
【0049】先頭カウンタが示す検索対象複合語候補格
納バッファ部207の単語から結合数カウンタの示す単
語数の複合語を抽出できる場合(ステップ508)、ス
テップ509からステップ512にかけて不要語チェッ
クを行う。不要語チェックは、当該複合語を構成する単
語と図11に示す不要語情報バッファ部203の単語と
を全て比較し、不要語に該当するものがあった場合、そ
の不要語を含む複合語を抽出の対象としない処理を行う
(ステップ513)。
納バッファ部207の単語から結合数カウンタの示す単
語数の複合語を抽出できる場合(ステップ508)、ス
テップ509からステップ512にかけて不要語チェッ
クを行う。不要語チェックは、当該複合語を構成する単
語と図11に示す不要語情報バッファ部203の単語と
を全て比較し、不要語に該当するものがあった場合、そ
の不要語を含む複合語を抽出の対象としない処理を行う
(ステップ513)。
【0050】なお、ここでは複合語の一要素となる単語
が不要語であった場合、複合語抽出の対象としない処理
を行ったが、そうした不要語が複合語の頭に接頭する、
あるいは、末尾に接尾する場合にだけ、複合語抽出の対
象としない処理を行うようにしてもよい。
が不要語であった場合、複合語抽出の対象としない処理
を行ったが、そうした不要語が複合語の頭に接頭する、
あるいは、末尾に接尾する場合にだけ、複合語抽出の対
象としない処理を行うようにしてもよい。
【0051】不要語にあたる単語が、抽出された複合語
に含まれない場合は、その複合語を検索対象抽出複合語
格納バッファ部208に格納する(ステップ514)。
に含まれない場合は、その複合語を検索対象抽出複合語
格納バッファ部208に格納する(ステップ514)。
【0052】このときの結合数カウンタが示す単語数の
複合語を図15に示す検索対象複合語候補格納バッファ
207からすべて抽出する(ステップ514)。すべて
抽出したら、結合数カウンタに1を加え(ステップ51
5)、先頭から新たな結合数カウンタが示す結合数の複
合語の抽出を行う(ステップ516)。
複合語を図15に示す検索対象複合語候補格納バッファ
207からすべて抽出する(ステップ514)。すべて
抽出したら、結合数カウンタに1を加え(ステップ51
5)、先頭から新たな結合数カウンタが示す結合数の複
合語の抽出を行う(ステップ516)。
【0053】そして結合数カウンタが最大結合数バッフ
ァ部204が示す値を超えた場合、複合語抽出を終了す
る(ステップ507)。
ァ部204が示す値を超えた場合、複合語抽出を終了す
る(ステップ507)。
【0054】次に、類似文書の検索手順を、図4のフロ
ーチャートにより説明する。
ーチャートにより説明する。
【0055】まず、初期化部101により全メモリ部を
初期化し、外部記億装置4の品詞辞書と不要語辞書の情
報をそれぞれ品詞情報バッファ部201、不要語情報バ
ッファ部203に格納する。(ステップ401)。続い
て抽出対象品詞設定部104が起動され、入力装置1を
通じてユーザより抽出する単語の品詞選択の入力を受け
付けて抽出対象品詞を選択品詞情報バッファ部202に
格納する。また、同様に最大結合数設定部105が起動
され、入力装置1を通じてユーザより抽出する複合語の
最大結合数値の入力を受け付けて最大結合数バッファ部
204に格納する(ステップ402)。
初期化し、外部記億装置4の品詞辞書と不要語辞書の情
報をそれぞれ品詞情報バッファ部201、不要語情報バ
ッファ部203に格納する。(ステップ401)。続い
て抽出対象品詞設定部104が起動され、入力装置1を
通じてユーザより抽出する単語の品詞選択の入力を受け
付けて抽出対象品詞を選択品詞情報バッファ部202に
格納する。また、同様に最大結合数設定部105が起動
され、入力装置1を通じてユーザより抽出する複合語の
最大結合数値の入力を受け付けて最大結合数バッファ部
204に格納する(ステップ402)。
【0056】続いて、検索キー文書入力部111が起動
され、入力装置1を通じてユーザより検索キーとなる文
書の入力を受け付けて検索キー文書格納バッファ部21
0に格納する(ステップ403)。具体例として、例え
ば、図18に示すような内容のテキスト文書を検索キー
文書として格納したとする。
され、入力装置1を通じてユーザより検索キーとなる文
書の入力を受け付けて検索キー文書格納バッファ部21
0に格納する(ステップ403)。具体例として、例え
ば、図18に示すような内容のテキスト文書を検索キー
文書として格納したとする。
【0057】次に、検索キー単語切り出し部112が、
検索キー文書格納バッファ部210に格納されている検
索キー文書について、形態素解析などによって単語の切
り出しを行い、切り出した単語とその品詞情報を検索キ
ー全文分割単語格納バッファ部211に格納する(ステ
ップ404)。
検索キー文書格納バッファ部210に格納されている検
索キー文書について、形態素解析などによって単語の切
り出しを行い、切り出した単語とその品詞情報を検索キ
ー全文分割単語格納バッファ部211に格納する(ステ
ップ404)。
【0058】そして、検索キー単語複合語抽出部113
が起動される。検索キー単語複合語抽出部113は、検
索キー全文分割単語格納バッファ部211に格納されて
いる当該検索キー文書の全単語とその品詞情報、選択品
詞情報バッファ201,202を参照し、該当する単語
(1個以上)を検索キー複合語候補格納バッファ部21
2に格納する。さらに、検索キー単語複合語抽出部11
3は、検索キー複合語候補格納バッファ部212に格納
されている1個、または複数の単語群、不要語情報バッ
ファ部203の不要語情報、そして最大結合数バッファ
204の最大結合数値を参照し、1以上かつ最大結合数
以下の単語が結合した複合語を検索キー文書の中から抽
出し、これらを検索キー抽出複合語格納バッファ部21
3に全て格納する(ステップ405)。
が起動される。検索キー単語複合語抽出部113は、検
索キー全文分割単語格納バッファ部211に格納されて
いる当該検索キー文書の全単語とその品詞情報、選択品
詞情報バッファ201,202を参照し、該当する単語
(1個以上)を検索キー複合語候補格納バッファ部21
2に格納する。さらに、検索キー単語複合語抽出部11
3は、検索キー複合語候補格納バッファ部212に格納
されている1個、または複数の単語群、不要語情報バッ
ファ部203の不要語情報、そして最大結合数バッファ
204の最大結合数値を参照し、1以上かつ最大結合数
以下の単語が結合した複合語を検索キー文書の中から抽
出し、これらを検索キー抽出複合語格納バッファ部21
3に全て格納する(ステップ405)。
【0059】なお、ここで抽出される複合語には、単独
の単語、つまり結合数1の単語も含むものとする。
の単語、つまり結合数1の単語も含むものとする。
【0060】ここで、検索キー単語複合語抽出部113
により、単語、複合語が少なくとも1個以上抽出された
場合(ステップ406)、検索キー単語出現頻度算出部
114が起動される。検索キー単語出現頻度算出部11
4は、検索キー抽出複合語格納バッファ部213に格納
されている複合語について、当該検索キー文書中での出
現頻度を複合語別に累積し、検索キー単語情報格納バッ
ファ部214に順次格納する(ステップ407)。図2
2に検索キー単語情報格納バッファ部214の格納例を
示す。この検索キー単語情報格納バッファ部214にお
いて、複合語(単語も含む)と頻度は対応しており、例
えば、単語「筆文字」は当該文書中に3回出現している
ことを表す。
により、単語、複合語が少なくとも1個以上抽出された
場合(ステップ406)、検索キー単語出現頻度算出部
114が起動される。検索キー単語出現頻度算出部11
4は、検索キー抽出複合語格納バッファ部213に格納
されている複合語について、当該検索キー文書中での出
現頻度を複合語別に累積し、検索キー単語情報格納バッ
ファ部214に順次格納する(ステップ407)。図2
2に検索キー単語情報格納バッファ部214の格納例を
示す。この検索キー単語情報格納バッファ部214にお
いて、複合語(単語も含む)と頻度は対応しており、例
えば、単語「筆文字」は当該文書中に3回出現している
ことを表す。
【0061】この複合語抽出処理と抽出単語出現頻度算
出処理を当該文書の文末まで行う(ステップ408)。
これで検索キー文書の単語情報の生成が終了する。
出処理を当該文書の文末まで行う(ステップ408)。
これで検索キー文書の単語情報の生成が終了する。
【0062】次に、検索対象単語情報読み出し部115
が、外部記憶装置4に格納されている各検索対象文書の
単語情報を1文書毎に読み込み、検索対象単語情報格納
バッファ209に格納する(ステップ409)。
が、外部記憶装置4に格納されている各検索対象文書の
単語情報を1文書毎に読み込み、検索対象単語情報格納
バッファ209に格納する(ステップ409)。
【0063】続いて、共通単語抽出部116が起動さ
れ、検索対象単語情報格納バッファ部206と検索キー
単語情報格納バッファ部214とに共通して格納されて
いる単語、複合語を共通単語情報格納バッファ部215
に格納する。具体例を図23に示す。図17の検索対象
単語情報格納バッファ部209と図22の検索キー単語
情報格納バッファ部214に共通する単語(複合語)と
して、「宛名印刷」が抽出され、この「宛名印刷」とそ
の頻度が検索キー側、検索対象側それぞれ1、2という
ように対応づけて格納する(ステップ410)。
れ、検索対象単語情報格納バッファ部206と検索キー
単語情報格納バッファ部214とに共通して格納されて
いる単語、複合語を共通単語情報格納バッファ部215
に格納する。具体例を図23に示す。図17の検索対象
単語情報格納バッファ部209と図22の検索キー単語
情報格納バッファ部214に共通する単語(複合語)と
して、「宛名印刷」が抽出され、この「宛名印刷」とそ
の頻度が検索キー側、検索対象側それぞれ1、2という
ように対応づけて格納する(ステップ410)。
【0064】次に、類似度算出部117が、共通単語情
報格納バッファ部215に格納されている頻度情報に基
づき検索キーと検索対象文書との類似度を空間ベクトル
法などにより算出し、その類似度値を算出類似度格納バ
ッファ部216に格納する(ステップ411)。例え
ば、図24に示すように、各検索対象文書ごとの類似度
が算出類似度格納バッファ部216に格納される。
報格納バッファ部215に格納されている頻度情報に基
づき検索キーと検索対象文書との類似度を空間ベクトル
法などにより算出し、その類似度値を算出類似度格納バ
ッファ部216に格納する(ステップ411)。例え
ば、図24に示すように、各検索対象文書ごとの類似度
が算出類似度格納バッファ部216に格納される。
【0065】全ての検索対象文書について類似度計算が
終了すると(ステップ412)、検索結果出力部118
は、算出類似度格納バッファ部216に格納されている
各検索対象文書ごとの類似度を類似度が高い順に並べ替
えて検索結果出力バッファ部217に格納し、そのバッ
ファの内容を表示装置3に出力する。出力結果は、例え
ば、図26が示すような形で出力される(ステップ41
3)。なお、図26では類似度値に閾値を設けて表示し
ているが、類似度値に一定の閾値を設けて、検索結果と
して表示する検索対象文書の量を制限できるようにして
もよい。
終了すると(ステップ412)、検索結果出力部118
は、算出類似度格納バッファ部216に格納されている
各検索対象文書ごとの類似度を類似度が高い順に並べ替
えて検索結果出力バッファ部217に格納し、そのバッ
ファの内容を表示装置3に出力する。出力結果は、例え
ば、図26が示すような形で出力される(ステップ41
3)。なお、図26では類似度値に閾値を設けて表示し
ているが、類似度値に一定の閾値を設けて、検索結果と
して表示する検索対象文書の量を制限できるようにして
もよい。
【0066】これで1検索キー文書の類似文書検索は終
了するが、新たに検索キー文書がある場合、ステップ4
02に戻って、同様な処理を行う。検索キー文書がなけ
れば検索処理はこれで終了する(ステップ414)。
了するが、新たに検索キー文書がある場合、ステップ4
02に戻って、同様な処理を行う。検索キー文書がなけ
れば検索処理はこれで終了する(ステップ414)。
【0067】なお、この類似文書検索処理における単語
複合語抽出の手順は、検索対象文書データベース作成に
おける処理と対象となる文書による処理部、バッファ部
の違いはあるが全く同様の処理である。
複合語抽出の手順は、検索対象文書データベース作成に
おける処理と対象となる文書による処理部、バッファ部
の違いはあるが全く同様の処理である。
【0068】以上のように、本実施形態の類似文書検索
装置では、検索キー文書あるいは検索対象文書に、例え
ば「筆文字宛名印刷機能」といった複合語が存在するな
らば、最大結合数を3としたとき「筆文字宛名」「文字
宛名印刷」「宛名印刷機能」「筆文字」「文字宛名」
「宛名印刷」「印刷機能」などの各所において部分的に
連続した複合語が抽出される。このように、特定の内容
の文書を特徴付ける異なる複合語を漏れなく抽出するこ
とができるので、文書間のより妥当な類似度を計算で
き、ユーザの意図する精度の高い類似文書検索を行うこ
とができる。また、検索対象となる文書全体から抽出さ
れる単語種の総数が少なくなり、データベースの規模を
縮小することができる。
装置では、検索キー文書あるいは検索対象文書に、例え
ば「筆文字宛名印刷機能」といった複合語が存在するな
らば、最大結合数を3としたとき「筆文字宛名」「文字
宛名印刷」「宛名印刷機能」「筆文字」「文字宛名」
「宛名印刷」「印刷機能」などの各所において部分的に
連続した複合語が抽出される。このように、特定の内容
の文書を特徴付ける異なる複合語を漏れなく抽出するこ
とができるので、文書間のより妥当な類似度を計算で
き、ユーザの意図する精度の高い類似文書検索を行うこ
とができる。また、検索対象となる文書全体から抽出さ
れる単語種の総数が少なくなり、データベースの規模を
縮小することができる。
【0069】さらに、本実施形態の類似文書検索装置で
は、文書中から複合語を抽出するとき、ユーザにより指
定された不要語の単語を含む複合語を無効なものとする
ことで、ユーザの意図する類似文書検索をさらに高精度
に行うことが可能になる。
は、文書中から複合語を抽出するとき、ユーザにより指
定された不要語の単語を含む複合語を無効なものとする
ことで、ユーザの意図する類似文書検索をさらに高精度
に行うことが可能になる。
【0070】なお、以上説明した類似文書検索装置は,
例えば、汎用的なハードウェア環境に、フロッピーディ
スク、CD−ROMなどの記録媒体に記録されたアプリ
ケーションプログラムを追加することによっても提供す
ることが可能である。
例えば、汎用的なハードウェア環境に、フロッピーディ
スク、CD−ROMなどの記録媒体に記録されたアプリ
ケーションプログラムを追加することによっても提供す
ることが可能である。
【0071】
【発明の効果】以上説明したように、本発明によれば、
文書から抽出された単語の結合により構成される複合語
のうち、指定された上限値以下の数の単語により構成さ
れるすべての複合語を検索キー文書および検索対象文書
から抽出することで、文書を特徴付ける複合語を漏れな
く抽出することができ、検索キー文書と検索対象文書と
の類似度をより高精度に算出することができる。また、
予め指定された不要語の単語を含む複合語を無効なもの
とすることで、ユーザの意図をさらに反映したより一層
高精度な類似文書検索を行うことが可能になる。
文書から抽出された単語の結合により構成される複合語
のうち、指定された上限値以下の数の単語により構成さ
れるすべての複合語を検索キー文書および検索対象文書
から抽出することで、文書を特徴付ける複合語を漏れな
く抽出することができ、検索キー文書と検索対象文書と
の類似度をより高精度に算出することができる。また、
予め指定された不要語の単語を含む複合語を無効なもの
とすることで、ユーザの意図をさらに反映したより一層
高精度な類似文書検索を行うことが可能になる。
【図1】本発明の実施形態である類似文書検索装置のハ
ードウェア構成を示すブロック図
ードウェア構成を示すブロック図
【図2】図1の制御装置の内部構成を示すブロック図
【図3】本実施形態の類似文書検索装置の検索対象文書
データベース生成の動作手順を示すフローチャート
データベース生成の動作手順を示すフローチャート
【図4】本実施形態の類似文書検索装置の類似文書検索
の動作手順を示すフローチャート
の動作手順を示すフローチャート
【図5】複合語抽出処理の詳細な動作手順を示すフロー
チャート
チャート
【図6】図5と同じく複合語抽出処理の詳細な動作手順
を示すフローチャート
を示すフローチャート
【図7】品詞辞書の内容を示す図
【図8】不要語辞書の内容を示す図
【図9】品詞情報バッファの内容を示す図
【図10】選択品詞情報バッファの内容を示す図
【図11】不要語情報バッファの内容を示す図
【図12】最大結合数バッファの内容を示す図
【図13】検索対象文書格納バッファの内容を示す図
【図14】検索対象全文分割単語格納バッファの内容を
示す図
示す図
【図15】検索対象複合語候補格納バッファの内容を示
す図
す図
【図16】検索対象抽出複合語格納バッファの内容を示
す図
す図
【図17】検索対象単語情報格納バッファの内容を示す
図
図
【図18】検索キー文書格納バッファの内容を示す図
【図19】検索キー全文分割単語格納バッファの内容を
示す図
示す図
【図20】検索キー複合語候補格納バッファの内容を示
す図
す図
【図21】検索キー抽出複合語格納バッファの内容を示
す図
す図
【図22】検索キー単語情報格納バッファの内容を示す
図
図
【図23】共通単語情報格納バッファの内容を示す図
【図24】算出類似度格納バッファの内容を示す図
【図25】検索結果出力バッファの内容を示す図
【図26】類似文書検索結果の出力例を示す図
100 制御部 101 初期化部 102 入力部 103 出力部 104 抽出対象品詞設定部 105 最大結合数設定部 106 検索対象文書読み出し部 107 検索対象単語切り出し部 108 検索対象単語複合語抽出部 109 検索対象単語出現頻度算出部 110 検索対象単語情報書き込み部 111 検索キー文書入力部 112 検索キー単語切り出し部 113 検索キー単語複合語抽出部 114 検索キー単語出現頻度算出部 115 検索対象単語情報読み出し部 116 共通単語抽出部 117 類似度算出部 118 検索結果出力部 200 メモリ部 201 品詞情報バッファ部 202 選択品詞情報バッファ部 203 不要語情報バッファ部 204 最大結合数バッファ部 205 検索対象文書格納バッファ部 206 検索対象全文分割単語格納バッファ部 207 検索対象複合語候補格納バッファ部 208 検索対象抽出複合語格納バッファ部 209 検索対象単語情報格納バッファ部 210 検索キー文書格納バッファ部 211 検索キー全文分割単語格納バッファ部 212 検索キー複合語候補格納バッファ部 213 検索キー抽出複合語格納バッファ部 214 検索キー単語情報格納バッファ部 215 共通単語情報格納バッファ部 216 算出類似度格納バッファ部 217 検索結果出力バッファ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 仁科 卓哉 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 久保田 直秀 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内
Claims (5)
- 【請求項1】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を単語単位に
分割する分割手段と、 前記分割手段によって分割された単語の中から予め指定
された条件を満たす単語を抽出する単語抽出手段と、 前記検索キー文書および前記検索対象文書から抽出すべ
き複合語を構成する単語数の上限値を指定する指定手段
と、 前記単語抽出手段によって抽出された単語の結合により
構成される複合語のうち前記指定手段により指定された
上限値以下の数の単語により構成されるすべての複合語
を前記検索キー文書および前記検索対象文書から抽出す
る複合語抽出手段と、 前記複合語抽出手段によって抽出された複合語の前記検
索キー文書および前記検索対象文書での出現頻度をそれ
ぞれ算出する手段とを具備することを特徴とする類似文
書検索装置。 - 【請求項2】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を単語単位に
分割する分割手段と、 前記分割手段によって分割された単語の中から予め指定
された条件を満たす単語を抽出する単語抽出手段と、 前記検索キー文書および前記検索対象文書から抽出すべ
き複合語を構成する単語の数の上限値を指定する指定手
段と、 前記単語抽出手段によって抽出された単語の結合により
構成される複合語のうち前記指定手段により指定された
上限値以下の数の単語により構成されるすべての複合語
を前記検索キー文書および前記検索対象文書から抽出す
る複合語抽出手段と、 任意の単語を不要語として選択する不要語選択手段と、 前記複合語抽出手段によって抽出された複合語のうち前
記不要語選択手段によって選択された不要語を含む複合
語を無効とする複合語無効化手段と、 前記複合語抽出手段によって抽出された有効な複合語の
前記検索キー文書および前記検索対象文書での出現頻度
をそれぞれ算出する手段とを具備することを特徴とする
類似文書検索装置。 - 【請求項3】 請求項1または2記載の類似文書検索装
置において、 前記単語抽出手段による単語の抽出条件として単語の品
詞を指定する手段を有することを特徴とする類似文書検
索装置。 - 【請求項4】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索方法において、 前記検索キー文書および前記検索対象文書を単語単位に
分割し、 前記分割された単語の中から予め指定された条件を満た
す単語を抽出し、 前記抽出された単語の結合により構成される複合語のう
ち予め指定された数以下の単語で構成されるすべての複
合語を前記検索キー文書および前記検索対象文書から抽
出し、 前記抽出された複合語の前記検索キー文書および前記検
索対象文書での出現頻度を算出することを特徴とする類
似文書検索方法。 - 【請求項5】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索するためのプログラムが記録された記録媒体であっ
て、 前記検索キー文書および前記検索対象文書を単語単位に
分割する分割手段と、 前記分割手段によって分割された単語の中から予め指定
された条件を満たす単語を抽出する単語抽出手段と、 前記検索キー文書および前記検索対象文書から抽出すべ
き複合語を構成する単語数の上限値を指定する指定手段
と、 前記単語抽出手段によって抽出された単語の結合により
構成される複合語のうち前記指定手段により指定された
上限値以下の単語数で構成されるすべての複合語を前記
検索キー文書および前記検索対象文書から抽出する複合
語抽出手段と、 前記複合語抽出手段によって抽出された複合語の前記検
索キー文書および前記検索対象文書での出現頻度をそれ
ぞれ算出する手段とを具備するプログラムが記録されて
いることを特徴とする記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10055560A JPH11259487A (ja) | 1998-03-06 | 1998-03-06 | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10055560A JPH11259487A (ja) | 1998-03-06 | 1998-03-06 | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11259487A true JPH11259487A (ja) | 1999-09-24 |
Family
ID=13002095
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10055560A Withdrawn JPH11259487A (ja) | 1998-03-06 | 1998-03-06 | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11259487A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002189754A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
| US7200587B2 (en) | 2001-04-26 | 2007-04-03 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
| KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
-
1998
- 1998-03-06 JP JP10055560A patent/JPH11259487A/ja not_active Withdrawn
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002189754A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
| US7200587B2 (en) | 2001-04-26 | 2007-04-03 | Hitachi, Ltd. | Method of searching similar document, system for performing the same and program for processing the same |
| KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4467791B2 (ja) | 情報管理及び検索 | |
| JP3270783B2 (ja) | 複数の文書検索方法 | |
| US5940624A (en) | Text management system | |
| JPH08305730A (ja) | 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 | |
| KR20010015368A (ko) | 정보 검색 방법과 정보 검색 장치 | |
| JPH11120203A (ja) | データベースを合併する方法およびデータベースからドキュメントを検索する装置 | |
| JP2001084255A (ja) | 文書検索装置および方法 | |
| JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
| JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
| JPH08227426A (ja) | データ検索装置 | |
| JPH11259515A (ja) | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 | |
| JPH08314966A (ja) | 文書検索装置のインデックス作成方法及び文書検索装置 | |
| JP4009937B2 (ja) | 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体 | |
| JPH11272680A (ja) | 文書データ提供装置およびそのプログラム記録媒体 | |
| JPH1173415A (ja) | 類似文書検索装置及び類似文書検索方法 | |
| JPH11259487A (ja) | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 | |
| JPH0785080A (ja) | 全文書検索システム | |
| JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
| JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
| JP2000112990A (ja) | テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体 | |
| CN115917527A (zh) | 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法 | |
| JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
| JP2004318699A (ja) | 名義解析方法、装置、およびプログラム | |
| EP0592402B1 (en) | A text management system | |
| JPH09212523A (ja) | 全文検索方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050510 |