JPH1031677A

JPH1031677A - 文書検索装置

Info

Publication number: JPH1031677A
Application number: JP8185018A
Authority: JP
Inventors: Hiroshi Tanano; 裕氏棚野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-07-15
Filing date: 1996-07-15
Publication date: 1998-02-03

Abstract

(57)【要約】【課題】それぞれが異なる言語で記述された複数の文
書データから所定言語で記述された検索要求に意味的に
近似の文書データを検索できる文書検索装置を提供す
る。【解決手段】それぞれが異なる言語で記述された複数
の文書データと、複数文書データのそれぞれに対応して
意味的特徴を示す文書特徴ベクトルとを格納した蓄積文
書データベース２と、所定言語で記述された検索要求を
入力するための検索要求入力部３と、入力された検索要
求の意味的特徴を示す検索要求特徴ベクトルを生成する
検索要求特徴ベクトル生成部４と、検索部５とを備え、
検索部５は生成された検索要求特徴ベクトルと各文書特
徴ベクトルとの内積値に基づいて、入力された検索要求
に対して意味的に近似する文書データを蓄積文書データ
ベース２中の複数文書データから検索し出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は自然言語により記
述された文書データの検索を行なう文書検索装置に関
し、特に、異種言語で記述された複数の文書データが混
在する中から検索要求を満たす文書データの情報を獲得
するのに有効な文書検索装置に関する。

【０００２】

【従来の技術】文書データを検索する場合に、キーワー
ド検索のような表記の一致を前提とした硬直な検索方式
を補う方法として、単語の特徴ベクトルを用いて文書デ
ータを検索する方式が既に提案されている。

【０００３】この提案された文書検索方式においては、
いくつかの特徴単語（通常、数十から数百）によって特
徴空間を定義し、各単語に関して特徴単語との関係づけ
を数値化した特徴ベクトルを作成し、文書データに含ま
れる単語の特徴ベクトルの和をもって該文書データの特
徴ベクトルとする。そして、操作者からの検索要求に対
しても同様に特徴ベクトルが計算されて、これより文書
データと検索要求の双方における互いに正規化された
（ベクトル長を等しくした）特徴ベクトル間の近似度
（内積値）が計算され、この近似度が大きいほど検索要
求に近い文書データであると判断される。

【０００４】この文書検索方式による場合、実用上高い
検索精度を実現するためには相当数の単語に対して特徴
ベクトルを作成する必要があり、このことは文書検索装
置の構築者にとっては多大な負担となるが、この負担を
軽減させるための単語の特徴ベクトルの自動付与に関す
る技術が特開平６−１９５３８８号公報において開示さ
れている。

【０００５】

【発明が解決しようとする課題】ネットワーク技術の発
達により、必要な情報を入手するにあたって国境の存在
を意識する必要は皆無に等しく、海外に溢れている膨大
な情報を入手し利用したいという要求が高まってきてい
るが、依然として言語の違いという壁が存在する。従来
の特徴ベクトルを用いた文書検索方式は、特徴ベクトル
を付与している単語辞書が、ある言語Ａに関するもので
あれば言語Ａで記述されている文書データのみが検索対
象となり、自ずと検索対象とする情報の範囲が限定され
てしまい、実用性に優れないという問題があった。

【０００６】それゆえにこの発明の目的は、それぞれが
異なる言語で記述された複数の文書データから所定の言
語で記述された検索要求に意味的に近似の文書データを
検索できる文書検索装置を提供することである。

【０００７】この発明の他の目的は、それぞれが異なる
言語で記述された複数の文書データから所定の言語で記
述された検索要求に意味的に近似の文書データを検索す
る場合に、検索の対象となる文書データを容易に追加で
きる文書検索装置を提供することである。

【０００８】この発明のさらなる他の目的は、それぞれ
が異なる言語で記述された複数の文書データから所定の
言語で記述された検索要求に意味的に近似の文書データ
を検索する場合に、検索して得られた意味的に近似の文
書データを検索要求の記述言語で翻訳して提示できる文
書検索装置を提供することである。

【０００９】

【課題を解決するための手段】請求項１に記載の文書検
索装置は、それぞれが異なる言語で記述された複数の文
書データと、複数文書データのそれぞれに対応してその
意味的特徴を示す文書特徴データとが格納された文書デ
ータ蓄積部と、所定の言語で記述された検索要求を入力
するための要求入力部と、要求入力部により入力された
検索要求の意味的特徴を示す要求特徴データを検出する
要求特徴データ検出部と、文書データ蓄積部の複数文書
データから、要求特徴データ検出部により検出された要
求特徴データに基づいて、要求入力部により入力された
検索要求に対して意味的に近似する意味的近似文書デー
タを検索し出力する検索部とを備えて構成される。

【００１０】請求項１に係る文書検索装置によれば、入
力された検索要求の記述言語と検索対象となる蓄積文書
データの記述言語が一致しなくとも、意味的に近似した
文書データを検索し出力できる。したがって、文書デー
タ蓄積部中の複数文書データのそれぞれの記述言語にか
かわらず、操作者は要求する文書データを得ることがで
きるので、操作者に対して言語の壁を超えて検索対象と
なる情報源の範囲が広く設定されて実用性が向上する。

【００１１】請求項２に記載の文書検索装置は、請求項
１に記載の装置がさらに、異なる言語のそれぞれについ
ての複数の単語と、各単語に対応してその意味的特徴を
示す単語特徴ベクトルデータとを格納した単語辞書部を
備え、文書特徴データおよび要求特徴データのそれぞれ
は、文書データおよび検索要求のそれぞれを構成する各
単語に対応の単語辞書部中の単語特徴ベクトルデータの
総和を正規化した単位ベクトルデータであり、意味的近
似文書データは、文書データ蓄積部の複数文書データの
うち、対応する単位ベクトルデータと検索要求に対応の
単位ベクトルデータとの内積値が大きい文書データであ
るよう構成される。

【００１２】請求項２に係る文書検索装置によれば、蓄
積文書データ中の複数の文書データ中から入力された検
索要求に意味的に近似する文書データをベクトルデータ
の内積値計算処理により求めることができるので、容易
に、かつ速やかに操作者が要求する文書データを検索
（特定）することができる。

【００１３】請求項３に記載の文書検索装置は、請求項
２の文書検索装置の単語辞書部が、異なる言語間の同義
である単語のすべては、同一の単語特徴ベクトルデータ
に対応づけられるよう構成される。

【００１４】請求項３に係る文書検索装置によれば、単
語辞書部は異なる言語間の同義の単語は全て１つの単語
特徴ベクトルデータに対応づけられるように構成される
ので、該検索装置において単語辞書部に関する消費記憶
容量は抑制されて、該検索装置のメモリ有効利用が図ら
れる。

【００１５】また、いずれの言語の単語であっても同義
語であれば一意に単語特徴ベクトルデータが得られるの
で、記述言語にかかわらず検索要求に意味的に近似した
文書データを精度よく検索し出力することができる。

【００１６】請求項４に記載の文書検索装置は、請求項
１ないし３のいずれかに記載の文書検索装置がさらに、
新規の文書データを入力するための文書データ入力部
と、文書データ入力部により入力された文書データの文
書特徴データを生成する文書特徴データ生成部とを備
え、文書データ入力部により入力された文書データは文
書特徴データ生成部により生成された文書特徴データと
対応づけられて文書データ蓄積部に格納されるよう構成
される。

【００１７】請求項４に係る文書検索装置によれば、入
力された新規文書データの記述言語にかかわらず、検索
のために必要な文書特徴データを生成して、検索対象で
ある文書データをその文書特徴データとともに文書デー
タ蓄積部に追加格納できる。したがって、検索対象とな
る文書データのための文書データ蓄積部の構築が容易に
可能となる。

【００１８】請求項５に記載の文書検索装置は、請求項
１ないし４のいずれかに記載の文書検索装置がさらに、
異なる言語間の翻訳に必要なデータを保持する翻訳辞書
部と、検索部による検索出力時、意味的近似文書データ
の記述言語が検索要求を記述する所定言語に一致しない
場合に、翻訳辞書部の内容を参照して意味的近似文書デ
ータを所定言語に翻訳する翻訳処理部とを備えて構成さ
れる。

【００１９】請求項５に係る文書検索装置によれば、操
作者が入力した検索要求の記述言語と検索対象となる文
書データの記述言語が一致しない場合でも、検索して得
られた文書データの持つ情報を検索要求の記述言語、す
なわち操作者が要求する言語表記に翻訳して提示するこ
とができる。したがって、操作者は要求する文書データ
のもつ情報が読解不可能な言語で記述されている場合で
も、言語の壁なく要求情報を獲得することができる。

【００２０】

【発明の実施の形態】以下、この発明の実施の形態１〜
３について図面を参照し説明する。

【００２１】図１は、この発明の実施の形態１〜３に適
用される文書検索装置のブロック構成図である。図にお
いて文書検索装置は単語辞書データベース１、蓄積文書
データベース２、所望の自然言語で記述された検索要求
を入力するために、たとえばキーボードなどからなる検
索要求入力部３、検索要求入力部３から入力された検索
要求の特徴ベクトルを生成するための検索要求特徴ベク
トル生成部４、検索部５、処理結果などのデータを表示
する表示部６、キー入力部などからなり、外部から該装
置に新規の（未登録の）文書データを入力するための新
規文書入力部７、与えられるデータの記述言語を判定す
る言語判定部８、文書特徴ベクトル生成部９、翻訳辞書
データベース１０および翻訳処理部１１を含む。

【００２２】図２は図１の単語辞書データベース１の構
成例を示す図である。図２において単語辞書データベー
ス１は複数の異なる自然言語Ａ、Ｂ、Ｃ、Ｄ、…のそれ
ぞれについての単語辞書ＤＡ、ＤＢ、ＤＣ、ＤＤ、…お
よび複数の単語特徴ベクトルＶｉからなり、各単語辞書
は複数の単語データＷｉ（ｉ＝１、２、３、…）を含
み、各単語データＷｉはその意味的特徴を示す単語特徴
ベクトルＶｉが対応づけられる。

【００２３】図３は、図１の蓄積文書データベース２の
構成例を示す図である。図３において蓄積文書データベ
ース２は該装置に登録されてそれぞれが異なる自然言語
で記述された複数の文書データＳＤｉと、各文書データ
ＳＤｉに対応して文書特徴ベクトルＶＤｉとを含む。な
お、文書データＳＤｉの文書特徴ベクトルＶＤｉは文書
特徴ベクトル生成部９により求めることができるが、そ
の詳細は後述する。

【００２４】翻訳辞書データベース１０はある自然言語
で記述された文書データＳＤｉを他の自然言語に翻訳す
る際に、翻訳処理部１１により参照されるデータベース
であり、たとえばある自然言語から他の自然言語への翻
訳における条件付けが定義されたものである。

【００２５】（実施の形態１）図４は、この発明の実施
の形態１の文書データ検索処理動作に必要な図１の文書
検索装置の部分構成図であり、図５はこの発明の実施の
形態１の文書データ検索処理動作のフローチャートであ
る。

【００２６】図６はこの発明の実施の形態１の文書デー
タ検索処理動作において検索要求から検索要求特徴ベク
トルを得る手順を説明する図である。図７はこの発明の
実施の形態１の文書データ検索処理動作における検索要
求に近似の文書データを得る手順を説明する図である。

【００２７】次に、この発明の実施の形態１として、図
１の文書検索装置において、蓄積文書データベース２か
ら検索要求に意味的に近似の文書データＳＤｉを検索し
て出力する処理動作について図５のフローチャートに従
い説明する。

【００２８】まず、検索要求入力部３において入力され
た検索要求は、検索要求特徴ベクトル生成部４へ送られ
る（Ｓ３０１）。次に、検索要求特徴ベクトル生成部４
は、単語辞書データベース１を参照しながら入力された
検索要求を形態素解析して、検索要求に含まれる各単語
の単語特徴ベクトルを抽出し、これらの単語特徴ベクト
ルの総和を正規化した単位ベクトルを検索要求特徴ベク
トルとして検索部５へ送る（Ｓ３０２）。

【００２９】検索要求特徴ベクトル生成部４による検索
要求から検索要求特徴ベクトルが得られるまでの詳細手
順は図６に示される。図６では「パソコン通信の将来」
という検索要求ＳＲが入力された例を示しているが、検
索要求ＳＲは「パソコン」のように単語であっても構わ
ないし、複数の単語からなる文であってもよいし、複数
の文よりなる文書であってもよい。図６において検索要
求特徴ベクトル生成部４は「パソコン通信の将来」とい
う検索要求ＳＲが入力されると、これを形態素（単語）
解析して「パソコン」「通信（の）」「将来」に分解
し、各形態素（単語データＷｉ）に対応する単語特徴ベ
クトルＶｉを該検索要求の記述言語に対応の単語辞書デ
ータベース１から抽出して、それぞれベクトル長を揃え
た（たとえば長さ１）ものをＶ１、Ｖ２、Ｖ３とする。
この例では、各単語特徴ベクトルＶｉの大きさはすべて
同じになるようにしたが、状況によって単語ごとにベク
トル長を変えて重み付けをしてもよい。たとえば、専門
的分野に関する検索要求ＳＲなので、検索要求ＳＲ中の
専門用語については重み付けを変更して検索効率を上げ
ることができる。

【００３０】最後に、Ｖ１、Ｖ２、Ｖ３の総和を正規化
して検索要求特徴ベクトルＶＳとする。

【００３１】ここで、単語辞書データベース１は図２に
示されるように、複数の自然言語対応にしておくことに
より、その範囲内においては任意の自然言語による検索
要求ＳＲを受付けることができる。すなわち図２におい
て、自然言語Ａ、Ｂ、Ｃ、Ｄ、…間の同義語の単語デー
タＷｉ群と１つの単語特徴ベクトルＶｉを関係づけてお
くことにより、いずれの自然言語の単語データＷｉから
も全く同様に単語特徴ベクトルＶｉが得られるので、検
索要求ＳＲの意味的特徴を示す検索要求特徴ベクトルＶ
Ｓを容易に得ることができる。たとえば、図２の例で
は、検索要求ＳＲが言語Ａによる「家」であっても、言
語Ｂによる「ｈｏｕｓｅ」であっても、同じ単語特徴ベ
クトルＶ１が抽出できることが示されている。

【００３２】図５に戻って、検索部５は図７に示される
ように、蓄積文書データベース２に保持されている各文
書データＳＤｉに対する各文書の意味的特徴を示す文書
特徴ベクトルＶＤｉと検索要求特徴ベクトルＶＳの内積
ＶＳ・ＶＤｉを計算し、この内積値を検索要求ＳＲと文
書データＳＤｉとの意味的近似度Ａｉと定義する。そこ
で、意味的近似度Ａｉが大きくなる文書データＳＤｉ、
すなわち検索要求ＳＲに対して意味的に近いと考えられ
る文書データＳＤｉから順に表示部６に送られる（Ｓ３
０３）。この際、意味的に最も近いもの１件だけを送っ
てもよいし、上位ｎ件を送ってもよいし、一定のしきい
値を満たす意味的近似度Ａｉを有するものを送ってもよ
い。最後に、表示部６は送られてきた文書データＳＤｉ
を表示して（Ｓ３０４）、一連の処理が終了する。

【００３３】この文書データの検索方法によれば、検索
要求と各文書データ間の意味的近似度は互いの記述言語
に全く依存しない形で計算されるので、検索要求と異な
る言語で記述された文書データも検索対象として検索範
囲を容易に拡張することができる。

【００３４】（実施の形態２）図８は、この発明の実施
の形態２の文書データ登録処理動作に必要な図１の文書
検索装置の部分構成図であり、図９はこの発明の実施の
形態２の文書データ登録処理動作のフローチャートであ
る。

【００３５】図１０はこの発明の実施の形態２の文書デ
ータ登録処理動作において言語判定部で作成されるデー
タの説明図である。図１１はこの発明の実施の形態２の
文書データ登録処理動作において新規文書データを文書
特徴ベクトルを付与して蓄積文書データベースに格納す
る動作の説明図である。

【００３６】次にこの発明の実施の形態２として、図１
の文書検索装置において蓄積文書データベース２に新規
の文書データを登録する処理動作について図９のフロー
チャートに従い説明する。

【００３７】まず、新規文書入力部７から新規の文書デ
ータを入力し、言語判定部８へ送る（Ｓ４０１）。言語
判定部８では、図１０に示されるように、入力された新
規の文書データを構成する文字の特徴や構文特徴を利用
して該文書データの記述言語を判定し、図１０に示され
るように入力された新規の文書データに記述言語の判定
結果を添えたデータを文書特徴ベクトル生成部９へ送る
（Ｓ４０２）。

【００３８】言語判定部８による言語判定の方法は、単
純に文字だけで判断する方法でもよいし、言語Ａ、Ｂ、
Ｃ、Ｄ、…について単語辞書データベース１を用いた解
析処理を入力された新規文書データに対して行ない、そ
の解析可能性の度合いによって判断する方法であっても
よいし、各言語で記述された文書データにおいて最も頻
繁に出現する特徴的ないくつかの単語を該入力文書デー
タにおいて検索して判断する方法であってもよい。

【００３９】図９に戻って、文書特徴ベクトル生成部９
は、図１１に示されるように単語辞書データベース１に
保持する単語データＷｉのうち、該入力文書データＳＤ
の記述言語に相当する単語データＷｉを参照しながら、
該入力文書データＳＤを形態素解析して、該入力文書デ
ータＳＤに含まれる各単語Ｗｉの単語特徴ベクトルＶｉ
を抽出し、これらの単語特徴ベクトルＶｉの総和を正規
化した単位ベクトルを該入力文書データＳＤの特徴ベク
トルＶＤとして該文書データＳＤと対応づけ（Ｓ４０
３）、蓄積文書データベース２に格納し（Ｓ４０４）、
一連の処理を終了する。

【００４０】上述した文書データの登録方法によれば、
記述言語の異なる文書データを手動で分類する必要もな
く、蓄積文書データベース２に蓄積文書データとして一
元的に登録し保存することができる。また、文書データ
に対して自動的に文書特徴ベクトルが計算できることか
ら、文書データ入力と上述した検索処理の実行を連続し
て行なうことも可能であり、検索の対象を予め蓄積され
ていなかった文書データにまで拡大することが容易に可
能となる。

【００４１】（実施の形態３）図１２はこの発明の実施
の形態３の検索して得られた文書データの翻訳処理動作
に必要な図１の文書検索装置の部分構成図であり、図１
３はこの発明の実施の形態３の検索して得られた文書デ
ータの翻訳処理動作のフローチャートである。

【００４２】次に、この発明の実施の形態３として図１
の文書検索装置において検索して得られた文書データを
翻訳して提示する処理動作を図１３のフローチャートに
従い説明する。

【００４３】まず、図１３のステップＳ５０１からＳ５
０３までの手順は、上述した実施の形態１における図５
のステップＳ３０１からＳ３０３までの手順に準ずるの
で、詳細説明を省略する。なお、図５のステップＳ３０
３においては、検索して得られた文書データは直接表示
部６に送られたが、図１３においては一旦、言語判定部
８に送られる。

【００４４】言語判定部８では、上述した実施の形態２
の図９のステップＳ４０２で説明したのと全く同様の方
法により、検索部５から送られてきた文書データを構成
する文字の特徴や構文特徴を利用して文書データの記述
言語を判定し、該文書データとともに判定結果を翻訳処
理部１１に送る（Ｓ５０４）。このとき、翻訳処理部１
１に送られるデータの形式は、図１０に示されている新
規文書データとその記述言語が併記されているデータの
それと同じである。

【００４５】翻訳処理部１１では、検索要求ＳＲが形態
素解析されて言語Ａで記述されていることがわかってい
る場合、まず文書データの記述言語を確認し、文書デー
タが言語Ａ以外の言語で記述されていれば、言語Ａの翻
訳処理が必要と判断し（Ｓ５０５）、翻訳辞書データベ
ース１０を参照しながら翻訳処理を行ない（Ｓ５０
６）、翻訳結果を表示部６に送って表示し（Ｓ５０
７）、一連の処理を終了する。

【００４６】一方、文書データが検索要求ＳＲの記述言
語Ａで記述されていれば翻訳処理は不要と判断され（Ｓ
５０５）、言語判定部８から送られてきた文書データを
そのまま表示部６に送って表示し（Ｓ５０８）、一連の
処理を終了する。

【００４７】上述した文書データの翻訳処理の方法によ
れば、必要な情報を含む文書データがいかなる言語で記
述されていても、操作者は理解できる単一の言語、すな
わち検索要求ＳＲの記述言語による表現によって必要な
情報を入手することができる。

【図面の簡単な説明】

【図１】この発明の実施の形態１〜３に適用される文書
検索装置のブロック構成図である。

【図２】図１の単語辞書データベース１の構成例を示す
図である。

【図３】図１の蓄積文書データベース２の構成例を示す
図である。

【図４】この発明の実施の形態１の文書データ検索処理
動作に必要な図１の文書検索装置の部分構成図である。

【図５】この発明の実施の形態１の文書データ検索処理
動作のフローチャートである。

【図６】この発明の実施の形態１の文書データ検索処理
動作において検索要求から検索要求特徴ベクトルを得る
手順を説明する図である。

【図７】この発明の実施の形態１の文書データ検索処理
動作における検索要求に近似の文書データを得る手順を
説明する図である。

【図８】この発明の実施の形態２の文書データ登録処理
動作に必要な図１の文書検索装置の部分構成図である。

【図９】この発明の実施の形態２の文書データ登録処理
動作のフローチャートである。

【図１０】この発明の実施の形態２の文書データ登録処
理動作において言語判定部で作成されるデータの説明図
である。

【図１１】この発明の実施の形態２の文書データ登録処
理動作において新規文書データを文書特徴ベクトルを付
与して蓄積文書データベースに格納する動作の説明図で
ある。

【図１２】この発明の実施の形態３の検索して得られた
文書データの翻訳処理動作に必要な図１の文書検索装置
の部分構成図である。

【図１３】この発明の実施の形態３の検索して得られた
文書データの翻訳処理動作のフローチャートである。

【符号の説明】

１単語辞書データベース２蓄積文書データベース３検索要求入力部４検索要求特徴ベクトル生成部５検索部７新規文書入力部８言語判定部９文書特徴ベクトル生成部１０翻訳辞書データベース１１翻訳処理部Ｖｉ単語特徴ベクトルＷｉ単語データＳＤｉ文書データＶＤｉ文書特徴ベクトルＳＲ検索要求ＶＳ検索要求特徴ベクトルＡｉ検索要求ＳＲと文書データＳＤｉとの間の意味的
近似度ただし、ｉ＝１、２、３、… なお、各図中同一符号は同一または相当部分を示す。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｆ 15/403 ３３０Ｃ

Claims

【特許請求の範囲】

【請求項１】それぞれが異なる言語で記述された複数
の文書データと、前記複数文書データのそれぞれに対応
してその意味的特徴を示す文書特徴データとが格納され
た文書データ蓄積部と、所定の言語で記述された検索要求を入力するための要求
入力部と、前記要求入力部により入力された前記検索要求の意味的
特徴を示す要求特徴データを検出する要求特徴データ検
出部と、前記要求特徴データ検出部により検出された前記要求特
徴データに基づいて、前記文書データ蓄積部の前記複数文書データから前記要
求入力部により入力された前記検出要求に対して意味的
に近似する意味的近似文書データを検索し出力する検索
部とを備えた、文書検索装置。
【請求項２】異なる言語のそれぞれについての複数の
単語と、各単語に対応してその意味的特徴を示す単語特
徴ベクトルデータとを格納した単語辞書部をさらに備
え、前記文書特徴データおよび前記要求特徴データのそれぞ
れは、前記文書データおよび前記検索要求のそれぞれを
構成する各単語に対応の前記単語辞書部中の前記単語特
徴ベクトルデータの総和を正規化した単位ベクトルデー
タであり、前記意味的近似文書データは、前記文書データ蓄積部の複数文書データのうち、対応す
る前記単位ベクトルデータと前記検索要求に対応の前記
単位ベクトルデータとの内積値が大きい文書データであ
ることを特徴とする、請求項１に記載の文書検索装置。
【請求項３】前記単語辞書部では、異なる言語間の同
義である単語のすべては、同一の前記単語特徴ベクトル
データに対応づけられることを特徴とする、請求項２に
記載の文書検索装置。
【請求項４】新規の文書データを入力するための文書
データ入力部と、前記文書データ入力部により入力された前記文書データ
の前記文書特徴データを生成する文書特徴データ生成部
とをさらに備え、前記文書データ入力部により入力された前記文書データ
は前記文書特徴データ生成部により生成された前記文書
特徴データと対応づけられて前記文書データ蓄積部に格
納されることを特徴とする、請求項１ないし３のいずれ
かに記載の文書検索装置。
【請求項５】異なる言語間の翻訳に必要なデータを保
持する翻訳辞書部と、前記検索部による検索出力時、前記意味的近似文書デー
タの記述言語が前記検索要求を記述する所定言語に一致
しない場合に、前記翻訳辞書部の内容を参照して前記意
味的近似文書データを前記所定言語に翻訳する翻訳処理
部とをさらに備えた、請求項１ないし４のいずれかに記
載の文書検索装置。