JP2004334441A

JP2004334441A - 類似文書検索方法

Info

Publication number: JP2004334441A
Application number: JP2003128297A
Authority: JP
Inventors: Yoichi Nakatani; 洋一中谷; Satoru Sudo; 了須藤
Original assignee: NTT Data Technology Corp
Current assignee: NTT Data Technology Corp
Priority date: 2003-05-06
Filing date: 2003-05-06
Publication date: 2004-11-25

Abstract

【課題】類似文書検索方法において、種文書の意味内容を左右する重要な用語が存在しなくても、高いレベルにランキングされることがあるという欠点に鑑み、種文書中の意味内容において重要な役割を果たしている用語を有する文書が上位にランキング表示できるようにすることを課題とする。
【解決手段】文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するようにした類似文書検索方法において、ランキング表示される文書群より、表示順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみを排除するようにする。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
この発明は類似文書検索方法に関するものである。
【０００２】
【従来の技術】
現在情報検索の分野において、ブーリアン検索方式が多く用いられている。ブーリアン検索方式は、用語をＡＮＤ、ＯＲ、ＮＯＴ等のブール演算子により組み合わせた論理式を質問式として用い、質問式に一致する用語の組み合わせを有する文書を検索する方式である。ブーリアン検索方式は質問式の用語の論理的組み合わせに厳密に一致する用語群を含む文書のみを検索する点で優れているが、検索質問式や文書中の用語はすべて同じ重みを有しており、用語の重要度を扱えないと言う欠点を有している。
【０００３】
そのため、検索質問式、文書中に出現する用語の重要度を反映し、検索結果に順序付けを行うことができないため、利用者は全検索結果を精査して所望の文書を探し出す作業をしなければならなかった。
【０００４】
この問題点を解決する手法として、類似文書検索が提案されている。類似文書検索は、検索質問として種文書を用い、この種文書とデータベース中の文書の類似度を算出して、類似度順に順序付けして、検索結果を提示する手法である。
【０００５】
類似度算出には、用語の重要度を算出することが不可欠であり、通常、用語の重要度の算出にはＴＦ−ＩＤＦ法という手法が用いられる。この方法には次の二つの値が基礎となっている。
【０００６】
第一の値は、文書Ｄ_ｉにおいて、ある用語Ｔ_ｊが何回出現したかを表わす値であって、語頻度と呼ばれており、
ＴＦ_ｊ ^ｉ＝語頻度＝文書Ｄ_ｉにおける用語Ｔ_ｊの出現回数
のように示される。
【０００７】
第二の値は、ある用語Ｔ_ｊが、データベースの中でいくつぐらいの文書に現れるかと言うことを表わす値であって、文書頻度と呼ばれ、
ＤＦ_ｊ＝文書頻度＝用語Ｔ_ｊを含む文書数
のように示される。
【０００８】
ＴＦ−ＩＤＦ法は上述の二つの値を以下のように組み合わせることにより、文書Ｄ_ｉにおける用語Ｔ_ｊの重要度Ｗが、
Ｗ_ｊ ^ｉ＝ＴＦ_ｊ ^ｉ×ＬｏｇＮ／ＤＦ_ｊ
によって算出される。ここでＮはデータベースの全文書数を表わす。
【０００９】
以上の式から判るように、ある用語Ｔ_ｊの重要度は、文書Ｄ_ｉに多く出現すればするほど、また、データベースにおいて、ある用語Ｔ_ｊが出現する文書数が少なければ少ないほど大きくなることを表している。
【００１０】
類似文書検索における類似度算出に際しては、データベース中の全ての用語（索引語となる全ての用語Ｔ_ｊ）について文書頻度ＤＦ_ｊ及び全文書数（Ｎ）を基にＬｏｇＮ／ＤＦ_ｊ（以下重みと言う）が算出され、合わせて、データベース中の文書Ｄ_ｉ毎に、当該文書中に出現する全ての用語の重要度Ｗ_ｊ ^ｉ＝ＴＦ_ｊ ^ｉ×ＬｏｇＮ／ＤＦ_ｊが算出される。また、種文書Ｑ_Ｓについても、上述のＬｏｇＮ／ＤＦ_ｊ（重み）と種文書中の各用語Ｔ_ｊの出現頻度即ち語頻度ＴＦ_ｊ ^ｓを基に種文書中に出現する全ての用語の重要度Ｗ_ｊ ^ｓ＝ＴＦ_ｊ ^ｓ×ＬｏｇＮ／ＤＦ_ｊの算出が行われる。
【００１１】
種文書と各文書間の類似度の算出は、一般的にはベクトル空間法により行われる。ベクトル空間法では、夫々の用語Ｔ_ｊにベクトルを対応付けて考えられる。即ち、いまｔ個の用語があり、全ての用語に夫々のベクトルが対応付けられた場合、これ等のベクトルが線形独立であれば、ｔ次元のベクトル空間が定義されることになり、この空間における全てのベクトルは、ｔ個の用語に対応するｔ個のベクトルＶ_ｉの線形結合として表現できる。このようなベクトル空間において文書Ｄ_ｉは、
Ｄ_ｉ＝Σ^ｔ _ｊ＝１Ｗ_ｊ ^ｉＶ_ｊ
のように表すことができる。
【００１２】
検索質問文即ち種文書Ｑ_Ｓもまた同様に、
Ｑ_ｓ＝Σ^ｔ _ｊ＝１Ｗ_ｊ ^ｓＶ_ｊ
のように表わすことができる。
【００１３】
ベクトル空間において、ベクトルの類似度は、
Ｘ・Ｙ＝｜Ｘ｜×｜Ｙ｜ＣＯＳθ
のようにベクトルの内積により算出することができる。なお、ここで、θは二つのベクトルＸ、Ｙのなす角度を表す。
【００１４】
通常、用語をベクトルに対応付ける場合には、同義語を除いて言語は個々に異なった意味を有するものと仮定できるので、ｔ個のベクトルはぞれぞれ直交していると看做すことができる。
【００１５】
したがって、文書Ｄ_ｉと種文書Ｑ_Ｓとの類似度ｓｉｍ（Ｄ_{ｉ、}Ｑ_Ｓ）は、
ｓｉｍ（Ｄ_{ｉ、}Ｑ_Ｓ）＝Σ^ｔ _ｊ＝_１Ｗ_ｊ ^ｉ×Ｗ_ｊ ^ｓ・・・（１）
のようになる（非特許文献１、２参照）。
【００１６】
図１乃至図５は、種文書と文書間の類似度算出を単純化した例によって具体的に数字を当てはめることにより上記処理の概要を示したものである。ここで、図１は種文書中の用語重要度を表にしたもの、図２は種文書ベクトルを表にしたもの、図３は文書ベクトルの表、図４は文書−種文書ベクトル類似度計算値の表、及び図５はランキング表示の表である。
【００１７】
１．種文書中の用語重要度（重み×語頻度）には、種文書中に「炊飯」、「制御」、「検出」および「保温」なる用語が用いられており、「炊飯」にはベクトルＶ１が対応付けられており、種文書中の出現頻度は２回であり、また、データベース中において「炊飯」が出現する文書頻度より導き出される重みが２であることを表わしている。また同様に「制御」、「検出」、「保温」には夫々ベクトルＶ２、Ｖ３、Ｖ４が対応付けられており、出現頻度が夫々２回、３回、３回であり、重みが１、１、３であることをそれぞれ表わしている。なお、重みの算出は上述の式に基づいて算出される。
【００１８】
２．種文書ベクトルは種文書をベクトル表現したもので各ベクトルに対応する用語の重要度を付して示されている。
【００１９】
３．文書ベクトルは、種文書ベクトルと同様に表現したもので、Ｄ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５及びＤ６の６件の文書についてベクトル表現されている。なお、Ｄ１、Ｄ４及びＤ６のベクトルＶ１に０が付されている、これは文書中にＶ１即ち「炊飯」なる語が存在しないことを意味している。
【００２０】
４．文書―種文書の類似度計算値は、式（１）を基に類似度を算出したもので、具体的な数字から見られるように、種文書、文書中に同一の用語が存在し、かつ、種文書、文書中において一致する用語の重要度が共に高い場合、その用語に対応するベクトルの内積は高くなり、一致する用語がない場合、その用語に対応するベクトルの内積は０となる。以上を総合すると種文書と文書に重要度の高い同一の用語が多く存在すればするほど種文書と文書の類似度が高くなることが判る。
【００２１】
５．類似度計算の結果を基にランキング表示され、図５のようになる。
【００２２】
以上のように、類似文書検索では、種文書と文書に重要度の高い同一の用語が多く存在すれば種文書と文書の類似度が高くなる仕組みとなっているので、仮令、種文書の意味内容を左右する重要な用語が存在しなくても、文書によっては高いレベルにランキングされることがある。
【００２３】
このような例は、図４の表に見ることができる。すなわち、文書Ｄ４及びＤ６には種文書中の比較的重要度の高い「炊飯」（図１中でのＶ１で示されている）が存在しないにもかかわらず、図５のように上位にランキング表示されている。また、存在したとしても出現頻度が少ないけれども「重要」なる意味概念を有する用語などで強調しているような場合、結果として、類似検索における重要度は低く計算され、文書Ｄ４及びＤ６より低くランクされるようになる。つまり、類似文書検索において用語の重要度は用語の出現頻度に基づいて算出されるので、意味的に重要とされる用語と必ずしも重要性の点で一致しないケースがある。そのため、種文書中の必須とされる用語が含まれており、本来ならば類似しているものとして、上位にランクされるべき文書であっても、当該用語の文書中における出現頻度が少なければ、当該文書が上位にランク付けされないケースもある。逆に言えば、種文書中の必須とされる用語が含まれていなくても、種文書中の必須とされない用語と一致する用語が多く含まれているために上位にランクされる文書もある。
【００２４】
【非特許文献１】
長尾真外４名著「言語情報処理」岩波講座言語の科学９ｐ６５〜６７
【非特許文献２】
徳永健伸著「情報検索と言語処理」財団法人東京大学出版会言語と計算５
ｐ１１〜ｐ４３
【００２５】
【発明が解決しようとする課題】
この発明の類似文書検索方法は、上述のような従来の類似文書検索システムが有している欠点、すなわち、種文書の意味内容を左右する重要な用語が存在しなくても、高いレベルにランキングされることがあるという欠点、に鑑みなされたものであり、類似文書検索において、種文書中の意味内容において重要な役割を果たしている用語、言い換えれば種文書中の必須の構成要件事項に相当する用語を有する文書が上位にランキング表示できるようにした類似文書検索方法を提供することを課題とする。
【００２６】
【課題を解決するための手段】
上記課題は、以下の手段により解決される。すなわち、第１番目の発明の解決手段は、文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するようにした類似文書検索方法において、類似度順にランキング付けされた文書群から、その順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみを排除するようにしたことを特徴とする類似文書検索方法である。
【００２７】
第２番目の発明の解決手段は、第１番目の発明の類似文書検索方法において、上記文書集合が予め分類検索等の検索手段により検索されたものであることを特徴とする類似文書検索方法である。
【００２８】
第３番目の発明の解決手段は、第１番目の発明の類似文書検索方法において、上記質問文が用語単位にマークを付けた形態で表示されることを特徴とする類似文書検索方法である。
【００２９】
第４番目の発明の解決手段は、文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するようにした類似文書検索システムにおいて、上記類似度比較に基づいてランキングされる文書群から、順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみを排除するようにするフィルタ手段を設け、フィルタ手段を通した文書群をランキング表示するようにしたことを特徴とする類似文書検索システムである。
【００３０】
第５番目の発明の解決手段は、第４番目の発明の類似文書検索システムにおいて、上記文書集合を作成するための分類検索等の検索手段が設けられていることを特徴とする類似文書検索方法である。
【００３１】
第６番目の発明の解決手段は、第４番目の発明の類似文書検索システムにおいて、用語単位にマークを付けた形態で上記質問文が表示されるようになっている質問文表示手段が設けられていることを特徴とする類似文書検索システムである。
【００３２】
【発明の実施の形態】
図６は本発明に従った処理の概念の説明図である。この図において、上の図の左側の３項目は図５と同じであり、右側４項目は、各文書中において、用語「炊飯」、「制御」、「検出」及び「保温」の存在／不存在を示している。
【００３３】
今仮に、種文書即ち質問文中の「炊飯」なる用語が重要な意味内容を有しており、意図する検索目標として不可欠の要件、つまり必須の構成要件であると仮定する。その場合、本発明では、図５のランキング表示の表示順位を入れ替えることなく、「炊飯」なる用語を含んでいない文書、つまり文書Ｄ４、Ｄ６及びＤ１、が排除される。
【００３４】
この結果が、図６下の表に示される。用語「炊飯」は、検索の目的からしてなくてはならない用語（そのように前提をおいた）であるから、ランキング表示に続くスクリーニングではその用語を含まない文書は結局は不要な文書である。このような不要な文書がランキング表示から排除され、しかも残る文書の表示順序はランキングのままでありながら、スクリーニング対象となる文書数が減少する。つまり、文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するにあたり、類似度順にランキング付けされた文書群から、その順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみが排除される。このためスクリーニング対象となる文書数が減少し、効率的に目的とする文書にたどり着くことができる。
【００３５】
図７はこの方法発明を実施するシステムの概要図である。図７中１は第一検索質問入力部であり、第一検索質問入力部１に入力された分類記号よりなる質問式は第一検索部３において分類索引部２のデータと照合され、質問式と一致するデータを有する文書が第一検索集合記憶部４に記憶される。つまり、文書集合は予め分類検索等の検索手段により検索されることになる。
【００３６】
第一検索ＤＢ５には文書の記事データが蓄積されており第一検索ＤＢ５より取り出された記事データは形態素解析部６により用語単位に切り出され、索引用語・頻度情報蓄積部７に索引用語とその出現頻度が文書単位に蓄積される。第一索引生成部８は、第一検索集合記憶部４に記憶されている文書集合に対応する文書の索引用語及びその頻度を索引用語・頻度情報蓄積部７より文書毎に抽出し記憶する。
【００３７】
種文書入力部９より質問文が入力されると、前述の記事データから用語を切り出した形態素解析部６により質問用語が切り出され、質問用語及びその出現頻度が質問用語・頻度情報生成部１０に登録される。類似度算出部１１において、質問用語及びその出現頻度と第一索引生成部８において蓄積されている各文書の索引用語及びその出現頻度情報を基に類似度が計算され、類似度順に整理されてランキング表示部１７にランキング表示される。
【００３８】
一方、必須用語入力部１４には種文書が切り出された用語単位にマークを付けた形態で表示されている。種文書中に検索目的を達成する上で、必要不可欠な用語がある場合、用語を指定入力すると、第二索引生成部１２に第一検索集合記憶部４に蓄積されている検索集合に対応する文書の、索引用語が文書毎に抽出され記憶される。
【００３９】
続いて、第二検索部１３において必須用語入力部１４に入力された用語と索引用語が比較され、一致する用語を含む文書が第二検索集合記憶部１５に蓄積されフィルタ部１６に送られる。フィルタ部１６は類似度算出部１１において類似度順に整理された類似文書検索結果の順位を入れ替えることなく上述の一致する用語を含む文書だけを通過させて、ランキング表示部１７に表示するようになっている。
【００４０】
なお、この発明のシステムの概要において、第一検索部は分類検索によるものとして説明したが、分類以外の言語による全文検索、キーワード検索又は分類とこれ等の組み合わせ検索を用いることもできる。また、種文書中に検索目的を達成する上で、必要不可欠な用語は一語に限るものではなく、何語でも入力できるようにする。
【００４１】
更に、この発明の本質と関係がないため上の説明において、敢えて説明を省略したが、第一、第二索引生成部において、同義語辞書等を用いて、索引語の異表記同義語を統制して検索モレを少なくすればなお効果的である。なお、この発明のシステムの概要説明において、第一検索質問入力部１、種文書入力部９及び必須用語入力部１４は夫々別のものとして説明したが、実際にはコンピュータ端末のディスプレイ装置に夫々の用途に応じて、呼び出される画面を指しており、ハードウエアーとしては同一である。
【００４２】
【発明の効果】
この発明によれば、類似文書検索法によって文書調査するとき、意図する検索目標を達成する上で必要不可欠な用語がある場合、質問文においてその用語を指定入力することにより、その用語を含まない文書が排除されてランキング表示されるので、上位から順次精査していくことにより、効率的に検索目標に合致する文書に到達することができるという効果を奏する。
【００４３】
特に、特許文献の先行技術調査などにおいて、発明の目的、請求の範囲などの発明を構成する必須の要件などの中に、特許性の可否に影響を与える技術的事項が有る場合が想定できる。そのような場合、本発明ではその技術的事項を示す用語を入力すれば、その用語を確実に含む文献が、しかも審査案件と類似度の高い順にランキング表示されることになるので、事後の審査判断をイメージしながら、効率的に目的とする文書にたどりつくことが出来ることになる。
【００４４】
また、本発明によれば、必須用語入力部において、種文書が切り出された用語単位にマークを付けた形態で表示されているので、類似文書検索における索引用語切り出しルールと全く同じルールにより切り出された用語を指定入力して検索できるので、用語の入力ミスが防止できるという効果を奏する。
【図面の簡単な説明】
【図１】種文書中の用語重要度を表にした表図である。
【図２】種文書ベクトルを表にした表図である。
【図３】文書ベクトルの表図である。
【図４】文書−種文書ベクトル類似度計算値の表図である。
【図５】ランキング表示の表図である。
【図６】本発明に従った処理の概念を示した説明図である。
【図７】本方法発明を実施するシステムの概要図である。
【符号の説明】
１第一検索質問入力部
２分類索引部
３第一検索部
４第一検索集合記憶部
５第一検索ＤＢ
６形態素解析部
７索引用語・頻度情報蓄積部
８第一索引生成部
９種文書入力部
１０質問用語・頻度情報生成部
１１類似度算出部
１２第二索引生成部
１３第二検索部
１４必須用語入力部
１５第二検索集合記憶部
１６フィルタ部
１７ランキング表示部

Claims

文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するようにした類似文書検索方法において、
類似度順にランキング付けされた文書群から、その順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみを排除するようにしたこと
を特徴とする類似文書検索方法。
請求項１に記載された類似文書検索方法において、
上記文書集合は予め分類検索等の検索手段により検索されたものであることを特徴とする類似文書検索方法。
請求項１に記載された類似文書検索方法において、
上記質問文は用語単位にマークを付けた形態で表示されること
を特徴とする類似文書検索方法。
文書集合中の文書と質問文を類似度比較し、類似度順にランキング表示するようにした類似文書検索システムにおいて、
上記類似度比較に基づいてランキングされる文書群から、順位を入れ替えないで、質問文中に含まれる特定の用語を含まない文書のみを排除するようにするフィルタ手段を設け、フィルタ手段を通した文書群をランキング表示するようにしたこと
を特徴とする類似文書検索システム。
請求項４に記載された類似文書検索システムにおいて、
上記文書集合を作成するための分類検索等の検索手段を設けたこと
を特徴とする類似文書検索方法。
請求項４に記載された類似文書検索システムにおいて、
用語単位にマークを付けた形態で上記質問文が表示されるようになっている質問文表示手段を設けたこと
を特徴とする類似文書検索システム。