JPH1031677A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH1031677A
JPH1031677A JP8185018A JP18501896A JPH1031677A JP H1031677 A JPH1031677 A JP H1031677A JP 8185018 A JP8185018 A JP 8185018A JP 18501896 A JP18501896 A JP 18501896A JP H1031677 A JPH1031677 A JP H1031677A
Authority
JP
Japan
Prior art keywords
document
data
document data
unit
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8185018A
Other languages
English (en)
Inventor
Hiroshi Tanano
裕氏 棚野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP8185018A priority Critical patent/JPH1031677A/ja
Publication of JPH1031677A publication Critical patent/JPH1031677A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 それぞれが異なる言語で記述された複数の文
書データから所定言語で記述された検索要求に意味的に
近似の文書データを検索できる文書検索装置を提供す
る。 【解決手段】 それぞれが異なる言語で記述された複数
の文書データと、複数文書データのそれぞれに対応して
意味的特徴を示す文書特徴ベクトルとを格納した蓄積文
書データベース2と、所定言語で記述された検索要求を
入力するための検索要求入力部3と、入力された検索要
求の意味的特徴を示す検索要求特徴ベクトルを生成する
検索要求特徴ベクトル生成部4と、検索部5とを備え、
検索部5は生成された検索要求特徴ベクトルと各文書特
徴ベクトルとの内積値に基づいて、入力された検索要求
に対して意味的に近似する文書データを蓄積文書データ
ベース2中の複数文書データから検索し出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は自然言語により記
述された文書データの検索を行なう文書検索装置に関
し、特に、異種言語で記述された複数の文書データが混
在する中から検索要求を満たす文書データの情報を獲得
するのに有効な文書検索装置に関する。
【0002】
【従来の技術】文書データを検索する場合に、キーワー
ド検索のような表記の一致を前提とした硬直な検索方式
を補う方法として、単語の特徴ベクトルを用いて文書デ
ータを検索する方式が既に提案されている。
【0003】この提案された文書検索方式においては、
いくつかの特徴単語(通常、数十から数百)によって特
徴空間を定義し、各単語に関して特徴単語との関係づけ
を数値化した特徴ベクトルを作成し、文書データに含ま
れる単語の特徴ベクトルの和をもって該文書データの特
徴ベクトルとする。そして、操作者からの検索要求に対
しても同様に特徴ベクトルが計算されて、これより文書
データと検索要求の双方における互いに正規化された
(ベクトル長を等しくした)特徴ベクトル間の近似度
(内積値)が計算され、この近似度が大きいほど検索要
求に近い文書データであると判断される。
【0004】この文書検索方式による場合、実用上高い
検索精度を実現するためには相当数の単語に対して特徴
ベクトルを作成する必要があり、このことは文書検索装
置の構築者にとっては多大な負担となるが、この負担を
軽減させるための単語の特徴ベクトルの自動付与に関す
る技術が特開平6−195388号公報において開示さ
れている。
【0005】
【発明が解決しようとする課題】ネットワーク技術の発
達により、必要な情報を入手するにあたって国境の存在
を意識する必要は皆無に等しく、海外に溢れている膨大
な情報を入手し利用したいという要求が高まってきてい
るが、依然として言語の違いという壁が存在する。従来
の特徴ベクトルを用いた文書検索方式は、特徴ベクトル
を付与している単語辞書が、ある言語Aに関するもので
あれば言語Aで記述されている文書データのみが検索対
象となり、自ずと検索対象とする情報の範囲が限定され
てしまい、実用性に優れないという問題があった。
【0006】それゆえにこの発明の目的は、それぞれが
異なる言語で記述された複数の文書データから所定の言
語で記述された検索要求に意味的に近似の文書データを
検索できる文書検索装置を提供することである。
【0007】この発明の他の目的は、それぞれが異なる
言語で記述された複数の文書データから所定の言語で記
述された検索要求に意味的に近似の文書データを検索す
る場合に、検索の対象となる文書データを容易に追加で
きる文書検索装置を提供することである。
【0008】この発明のさらなる他の目的は、それぞれ
が異なる言語で記述された複数の文書データから所定の
言語で記述された検索要求に意味的に近似の文書データ
を検索する場合に、検索して得られた意味的に近似の文
書データを検索要求の記述言語で翻訳して提示できる文
書検索装置を提供することである。
【0009】
【課題を解決するための手段】請求項1に記載の文書検
索装置は、それぞれが異なる言語で記述された複数の文
書データと、複数文書データのそれぞれに対応してその
意味的特徴を示す文書特徴データとが格納された文書デ
ータ蓄積部と、所定の言語で記述された検索要求を入力
するための要求入力部と、要求入力部により入力された
検索要求の意味的特徴を示す要求特徴データを検出する
要求特徴データ検出部と、文書データ蓄積部の複数文書
データから、要求特徴データ検出部により検出された要
求特徴データに基づいて、要求入力部により入力された
検索要求に対して意味的に近似する意味的近似文書デー
タを検索し出力する検索部とを備えて構成される。
【0010】請求項1に係る文書検索装置によれば、入
力された検索要求の記述言語と検索対象となる蓄積文書
データの記述言語が一致しなくとも、意味的に近似した
文書データを検索し出力できる。したがって、文書デー
タ蓄積部中の複数文書データのそれぞれの記述言語にか
かわらず、操作者は要求する文書データを得ることがで
きるので、操作者に対して言語の壁を超えて検索対象と
なる情報源の範囲が広く設定されて実用性が向上する。
【0011】請求項2に記載の文書検索装置は、請求項
1に記載の装置がさらに、異なる言語のそれぞれについ
ての複数の単語と、各単語に対応してその意味的特徴を
示す単語特徴ベクトルデータとを格納した単語辞書部を
備え、文書特徴データおよび要求特徴データのそれぞれ
は、文書データおよび検索要求のそれぞれを構成する各
単語に対応の単語辞書部中の単語特徴ベクトルデータの
総和を正規化した単位ベクトルデータであり、意味的近
似文書データは、文書データ蓄積部の複数文書データの
うち、対応する単位ベクトルデータと検索要求に対応の
単位ベクトルデータとの内積値が大きい文書データであ
るよう構成される。
【0012】請求項2に係る文書検索装置によれば、蓄
積文書データ中の複数の文書データ中から入力された検
索要求に意味的に近似する文書データをベクトルデータ
の内積値計算処理により求めることができるので、容易
に、かつ速やかに操作者が要求する文書データを検索
(特定)することができる。
【0013】請求項3に記載の文書検索装置は、請求項
2の文書検索装置の単語辞書部が、異なる言語間の同義
である単語のすべては、同一の単語特徴ベクトルデータ
に対応づけられるよう構成される。
【0014】請求項3に係る文書検索装置によれば、単
語辞書部は異なる言語間の同義の単語は全て1つの単語
特徴ベクトルデータに対応づけられるように構成される
ので、該検索装置において単語辞書部に関する消費記憶
容量は抑制されて、該検索装置のメモリ有効利用が図ら
れる。
【0015】また、いずれの言語の単語であっても同義
語であれば一意に単語特徴ベクトルデータが得られるの
で、記述言語にかかわらず検索要求に意味的に近似した
文書データを精度よく検索し出力することができる。
【0016】請求項4に記載の文書検索装置は、請求項
1ないし3のいずれかに記載の文書検索装置がさらに、
新規の文書データを入力するための文書データ入力部
と、文書データ入力部により入力された文書データの文
書特徴データを生成する文書特徴データ生成部とを備
え、文書データ入力部により入力された文書データは文
書特徴データ生成部により生成された文書特徴データと
対応づけられて文書データ蓄積部に格納されるよう構成
される。
【0017】請求項4に係る文書検索装置によれば、入
力された新規文書データの記述言語にかかわらず、検索
のために必要な文書特徴データを生成して、検索対象で
ある文書データをその文書特徴データとともに文書デー
タ蓄積部に追加格納できる。したがって、検索対象とな
る文書データのための文書データ蓄積部の構築が容易に
可能となる。
【0018】請求項5に記載の文書検索装置は、請求項
1ないし4のいずれかに記載の文書検索装置がさらに、
異なる言語間の翻訳に必要なデータを保持する翻訳辞書
部と、検索部による検索出力時、意味的近似文書データ
の記述言語が検索要求を記述する所定言語に一致しない
場合に、翻訳辞書部の内容を参照して意味的近似文書デ
ータを所定言語に翻訳する翻訳処理部とを備えて構成さ
れる。
【0019】請求項5に係る文書検索装置によれば、操
作者が入力した検索要求の記述言語と検索対象となる文
書データの記述言語が一致しない場合でも、検索して得
られた文書データの持つ情報を検索要求の記述言語、す
なわち操作者が要求する言語表記に翻訳して提示するこ
とができる。したがって、操作者は要求する文書データ
のもつ情報が読解不可能な言語で記述されている場合で
も、言語の壁なく要求情報を獲得することができる。
【0020】
【発明の実施の形態】以下、この発明の実施の形態1〜
3について図面を参照し説明する。
【0021】図1は、この発明の実施の形態1〜3に適
用される文書検索装置のブロック構成図である。図にお
いて文書検索装置は単語辞書データベース1、蓄積文書
データベース2、所望の自然言語で記述された検索要求
を入力するために、たとえばキーボードなどからなる検
索要求入力部3、検索要求入力部3から入力された検索
要求の特徴ベクトルを生成するための検索要求特徴ベク
トル生成部4、検索部5、処理結果などのデータを表示
する表示部6、キー入力部などからなり、外部から該装
置に新規の(未登録の)文書データを入力するための新
規文書入力部7、与えられるデータの記述言語を判定す
る言語判定部8、文書特徴ベクトル生成部9、翻訳辞書
データベース10および翻訳処理部11を含む。
【0022】図2は図1の単語辞書データベース1の構
成例を示す図である。図2において単語辞書データベー
ス1は複数の異なる自然言語A、B、C、D、…のそれ
ぞれについての単語辞書DA、DB、DC、DD、…お
よび複数の単語特徴ベクトルViからなり、各単語辞書
は複数の単語データWi(i=1、2、3、…)を含
み、各単語データWiはその意味的特徴を示す単語特徴
ベクトルViが対応づけられる。
【0023】図3は、図1の蓄積文書データベース2の
構成例を示す図である。図3において蓄積文書データベ
ース2は該装置に登録されてそれぞれが異なる自然言語
で記述された複数の文書データSDiと、各文書データ
SDiに対応して文書特徴ベクトルVDiとを含む。な
お、文書データSDiの文書特徴ベクトルVDiは文書
特徴ベクトル生成部9により求めることができるが、そ
の詳細は後述する。
【0024】翻訳辞書データベース10はある自然言語
で記述された文書データSDiを他の自然言語に翻訳す
る際に、翻訳処理部11により参照されるデータベース
であり、たとえばある自然言語から他の自然言語への翻
訳における条件付けが定義されたものである。
【0025】(実施の形態1)図4は、この発明の実施
の形態1の文書データ検索処理動作に必要な図1の文書
検索装置の部分構成図であり、図5はこの発明の実施の
形態1の文書データ検索処理動作のフローチャートであ
る。
【0026】図6はこの発明の実施の形態1の文書デー
タ検索処理動作において検索要求から検索要求特徴ベク
トルを得る手順を説明する図である。図7はこの発明の
実施の形態1の文書データ検索処理動作における検索要
求に近似の文書データを得る手順を説明する図である。
【0027】次に、この発明の実施の形態1として、図
1の文書検索装置において、蓄積文書データベース2か
ら検索要求に意味的に近似の文書データSDiを検索し
て出力する処理動作について図5のフローチャートに従
い説明する。
【0028】まず、検索要求入力部3において入力され
た検索要求は、検索要求特徴ベクトル生成部4へ送られ
る(S301)。次に、検索要求特徴ベクトル生成部4
は、単語辞書データベース1を参照しながら入力された
検索要求を形態素解析して、検索要求に含まれる各単語
の単語特徴ベクトルを抽出し、これらの単語特徴ベクト
ルの総和を正規化した単位ベクトルを検索要求特徴ベク
トルとして検索部5へ送る(S302)。
【0029】検索要求特徴ベクトル生成部4による検索
要求から検索要求特徴ベクトルが得られるまでの詳細手
順は図6に示される。図6では「パソコン通信の将来」
という検索要求SRが入力された例を示しているが、検
索要求SRは「パソコン」のように単語であっても構わ
ないし、複数の単語からなる文であってもよいし、複数
の文よりなる文書であってもよい。図6において検索要
求特徴ベクトル生成部4は「パソコン通信の将来」とい
う検索要求SRが入力されると、これを形態素(単語)
解析して「パソコン」「通信(の)」「将来」に分解
し、各形態素(単語データWi)に対応する単語特徴ベ
クトルViを該検索要求の記述言語に対応の単語辞書デ
ータベース1から抽出して、それぞれベクトル長を揃え
た(たとえば長さ1)ものをV1、V2、V3とする。
この例では、各単語特徴ベクトルViの大きさはすべて
同じになるようにしたが、状況によって単語ごとにベク
トル長を変えて重み付けをしてもよい。たとえば、専門
的分野に関する検索要求SRなので、検索要求SR中の
専門用語については重み付けを変更して検索効率を上げ
ることができる。
【0030】最後に、V1、V2、V3の総和を正規化
して検索要求特徴ベクトルVSとする。
【0031】ここで、単語辞書データベース1は図2に
示されるように、複数の自然言語対応にしておくことに
より、その範囲内においては任意の自然言語による検索
要求SRを受付けることができる。すなわち図2におい
て、自然言語A、B、C、D、…間の同義語の単語デー
タWi群と1つの単語特徴ベクトルViを関係づけてお
くことにより、いずれの自然言語の単語データWiから
も全く同様に単語特徴ベクトルViが得られるので、検
索要求SRの意味的特徴を示す検索要求特徴ベクトルV
Sを容易に得ることができる。たとえば、図2の例で
は、検索要求SRが言語Aによる「家」であっても、言
語Bによる「house」であっても、同じ単語特徴ベ
クトルV1が抽出できることが示されている。
【0032】図5に戻って、検索部5は図7に示される
ように、蓄積文書データベース2に保持されている各文
書データSDiに対する各文書の意味的特徴を示す文書
特徴ベクトルVDiと検索要求特徴ベクトルVSの内積
VS・VDiを計算し、この内積値を検索要求SRと文
書データSDiとの意味的近似度Aiと定義する。そこ
で、意味的近似度Aiが大きくなる文書データSDi、
すなわち検索要求SRに対して意味的に近いと考えられ
る文書データSDiから順に表示部6に送られる(S3
03)。この際、意味的に最も近いもの1件だけを送っ
てもよいし、上位n件を送ってもよいし、一定のしきい
値を満たす意味的近似度Aiを有するものを送ってもよ
い。最後に、表示部6は送られてきた文書データSDi
を表示して(S304)、一連の処理が終了する。
【0033】この文書データの検索方法によれば、検索
要求と各文書データ間の意味的近似度は互いの記述言語
に全く依存しない形で計算されるので、検索要求と異な
る言語で記述された文書データも検索対象として検索範
囲を容易に拡張することができる。
【0034】(実施の形態2)図8は、この発明の実施
の形態2の文書データ登録処理動作に必要な図1の文書
検索装置の部分構成図であり、図9はこの発明の実施の
形態2の文書データ登録処理動作のフローチャートであ
る。
【0035】図10はこの発明の実施の形態2の文書デ
ータ登録処理動作において言語判定部で作成されるデー
タの説明図である。図11はこの発明の実施の形態2の
文書データ登録処理動作において新規文書データを文書
特徴ベクトルを付与して蓄積文書データベースに格納す
る動作の説明図である。
【0036】次にこの発明の実施の形態2として、図1
の文書検索装置において蓄積文書データベース2に新規
の文書データを登録する処理動作について図9のフロー
チャートに従い説明する。
【0037】まず、新規文書入力部7から新規の文書デ
ータを入力し、言語判定部8へ送る(S401)。言語
判定部8では、図10に示されるように、入力された新
規の文書データを構成する文字の特徴や構文特徴を利用
して該文書データの記述言語を判定し、図10に示され
るように入力された新規の文書データに記述言語の判定
結果を添えたデータを文書特徴ベクトル生成部9へ送る
(S402)。
【0038】言語判定部8による言語判定の方法は、単
純に文字だけで判断する方法でもよいし、言語A、B、
C、D、…について単語辞書データベース1を用いた解
析処理を入力された新規文書データに対して行ない、そ
の解析可能性の度合いによって判断する方法であっても
よいし、各言語で記述された文書データにおいて最も頻
繁に出現する特徴的ないくつかの単語を該入力文書デー
タにおいて検索して判断する方法であってもよい。
【0039】図9に戻って、文書特徴ベクトル生成部9
は、図11に示されるように単語辞書データベース1に
保持する単語データWiのうち、該入力文書データSD
の記述言語に相当する単語データWiを参照しながら、
該入力文書データSDを形態素解析して、該入力文書デ
ータSDに含まれる各単語Wiの単語特徴ベクトルVi
を抽出し、これらの単語特徴ベクトルViの総和を正規
化した単位ベクトルを該入力文書データSDの特徴ベク
トルVDとして該文書データSDと対応づけ(S40
3)、蓄積文書データベース2に格納し(S404)、
一連の処理を終了する。
【0040】上述した文書データの登録方法によれば、
記述言語の異なる文書データを手動で分類する必要もな
く、蓄積文書データベース2に蓄積文書データとして一
元的に登録し保存することができる。また、文書データ
に対して自動的に文書特徴ベクトルが計算できることか
ら、文書データ入力と上述した検索処理の実行を連続し
て行なうことも可能であり、検索の対象を予め蓄積され
ていなかった文書データにまで拡大することが容易に可
能となる。
【0041】(実施の形態3)図12はこの発明の実施
の形態3の検索して得られた文書データの翻訳処理動作
に必要な図1の文書検索装置の部分構成図であり、図1
3はこの発明の実施の形態3の検索して得られた文書デ
ータの翻訳処理動作のフローチャートである。
【0042】次に、この発明の実施の形態3として図1
の文書検索装置において検索して得られた文書データを
翻訳して提示する処理動作を図13のフローチャートに
従い説明する。
【0043】まず、図13のステップS501からS5
03までの手順は、上述した実施の形態1における図5
のステップS301からS303までの手順に準ずるの
で、詳細説明を省略する。なお、図5のステップS30
3においては、検索して得られた文書データは直接表示
部6に送られたが、図13においては一旦、言語判定部
8に送られる。
【0044】言語判定部8では、上述した実施の形態2
の図9のステップS402で説明したのと全く同様の方
法により、検索部5から送られてきた文書データを構成
する文字の特徴や構文特徴を利用して文書データの記述
言語を判定し、該文書データとともに判定結果を翻訳処
理部11に送る(S504)。このとき、翻訳処理部1
1に送られるデータの形式は、図10に示されている新
規文書データとその記述言語が併記されているデータの
それと同じである。
【0045】翻訳処理部11では、検索要求SRが形態
素解析されて言語Aで記述されていることがわかってい
る場合、まず文書データの記述言語を確認し、文書デー
タが言語A以外の言語で記述されていれば、言語Aの翻
訳処理が必要と判断し(S505)、翻訳辞書データベ
ース10を参照しながら翻訳処理を行ない(S50
6)、翻訳結果を表示部6に送って表示し(S50
7)、一連の処理を終了する。
【0046】一方、文書データが検索要求SRの記述言
語Aで記述されていれば翻訳処理は不要と判断され(S
505)、言語判定部8から送られてきた文書データを
そのまま表示部6に送って表示し(S508)、一連の
処理を終了する。
【0047】上述した文書データの翻訳処理の方法によ
れば、必要な情報を含む文書データがいかなる言語で記
述されていても、操作者は理解できる単一の言語、すな
わち検索要求SRの記述言語による表現によって必要な
情報を入手することができる。
【図面の簡単な説明】
【図1】この発明の実施の形態1〜3に適用される文書
検索装置のブロック構成図である。
【図2】図1の単語辞書データベース1の構成例を示す
図である。
【図3】図1の蓄積文書データベース2の構成例を示す
図である。
【図4】この発明の実施の形態1の文書データ検索処理
動作に必要な図1の文書検索装置の部分構成図である。
【図5】この発明の実施の形態1の文書データ検索処理
動作のフローチャートである。
【図6】この発明の実施の形態1の文書データ検索処理
動作において検索要求から検索要求特徴ベクトルを得る
手順を説明する図である。
【図7】この発明の実施の形態1の文書データ検索処理
動作における検索要求に近似の文書データを得る手順を
説明する図である。
【図8】この発明の実施の形態2の文書データ登録処理
動作に必要な図1の文書検索装置の部分構成図である。
【図9】この発明の実施の形態2の文書データ登録処理
動作のフローチャートである。
【図10】この発明の実施の形態2の文書データ登録処
理動作において言語判定部で作成されるデータの説明図
である。
【図11】この発明の実施の形態2の文書データ登録処
理動作において新規文書データを文書特徴ベクトルを付
与して蓄積文書データベースに格納する動作の説明図で
ある。
【図12】この発明の実施の形態3の検索して得られた
文書データの翻訳処理動作に必要な図1の文書検索装置
の部分構成図である。
【図13】この発明の実施の形態3の検索して得られた
文書データの翻訳処理動作のフローチャートである。
【符号の説明】
1 単語辞書データベース 2 蓄積文書データベース 3 検索要求入力部 4 検索要求特徴ベクトル生成部 5 検索部 7 新規文書入力部 8 言語判定部 9 文書特徴ベクトル生成部 10 翻訳辞書データベース 11 翻訳処理部 Vi 単語特徴ベクトル Wi 単語データ SDi 文書データ VDi 文書特徴ベクトル SR 検索要求 VS 検索要求特徴ベクトル Ai 検索要求SRと文書データSDiとの間の意味的
近似度 ただし、i=1、2、3、… なお、各図中同一符号は同一または相当部分を示す。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/403 330C

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 それぞれが異なる言語で記述された複数
    の文書データと、前記複数文書データのそれぞれに対応
    してその意味的特徴を示す文書特徴データとが格納され
    た文書データ蓄積部と、 所定の言語で記述された検索要求を入力するための要求
    入力部と、 前記要求入力部により入力された前記検索要求の意味的
    特徴を示す要求特徴データを検出する要求特徴データ検
    出部と、 前記要求特徴データ検出部により検出された前記要求特
    徴データに基づいて、 前記文書データ蓄積部の前記複数文書データから前記要
    求入力部により入力された前記検出要求に対して意味的
    に近似する意味的近似文書データを検索し出力する検索
    部とを備えた、文書検索装置。
  2. 【請求項2】 異なる言語のそれぞれについての複数の
    単語と、各単語に対応してその意味的特徴を示す単語特
    徴ベクトルデータとを格納した単語辞書部をさらに備
    え、 前記文書特徴データおよび前記要求特徴データのそれぞ
    れは、前記文書データおよび前記検索要求のそれぞれを
    構成する各単語に対応の前記単語辞書部中の前記単語特
    徴ベクトルデータの総和を正規化した単位ベクトルデー
    タであり、 前記意味的近似文書データは、 前記文書データ蓄積部の複数文書データのうち、対応す
    る前記単位ベクトルデータと前記検索要求に対応の前記
    単位ベクトルデータとの内積値が大きい文書データであ
    ることを特徴とする、請求項1に記載の文書検索装置。
  3. 【請求項3】 前記単語辞書部では、異なる言語間の同
    義である単語のすべては、同一の前記単語特徴ベクトル
    データに対応づけられることを特徴とする、請求項2に
    記載の文書検索装置。
  4. 【請求項4】 新規の文書データを入力するための文書
    データ入力部と、 前記文書データ入力部により入力された前記文書データ
    の前記文書特徴データを生成する文書特徴データ生成部
    とをさらに備え、 前記文書データ入力部により入力された前記文書データ
    は前記文書特徴データ生成部により生成された前記文書
    特徴データと対応づけられて前記文書データ蓄積部に格
    納されることを特徴とする、請求項1ないし3のいずれ
    かに記載の文書検索装置。
  5. 【請求項5】 異なる言語間の翻訳に必要なデータを保
    持する翻訳辞書部と、 前記検索部による検索出力時、前記意味的近似文書デー
    タの記述言語が前記検索要求を記述する所定言語に一致
    しない場合に、前記翻訳辞書部の内容を参照して前記意
    味的近似文書データを前記所定言語に翻訳する翻訳処理
    部とをさらに備えた、請求項1ないし4のいずれかに記
    載の文書検索装置。
JP8185018A 1996-07-15 1996-07-15 文書検索装置 Withdrawn JPH1031677A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8185018A JPH1031677A (ja) 1996-07-15 1996-07-15 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8185018A JPH1031677A (ja) 1996-07-15 1996-07-15 文書検索装置

Publications (1)

Publication Number Publication Date
JPH1031677A true JPH1031677A (ja) 1998-02-03

Family

ID=16163338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8185018A Withdrawn JPH1031677A (ja) 1996-07-15 1996-07-15 文書検索装置

Country Status (1)

Country Link
JP (1) JPH1031677A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100532585B1 (ko) * 2000-12-30 2005-12-02 한국전자통신연구원 인터넷 질의/응답을 위한 지식베이스 구축방법
KR100903599B1 (ko) 2007-11-22 2009-06-18 한국전자통신연구원 내적을 이용한 암호화된 데이터 검색 방법 및 이를 위한단말 장치와 서버
KR101442719B1 (ko) * 2013-04-16 2014-09-19 한양대학교 에리카산학협력단 논문 추천 장치 및 논문 추천 방법
JP2018010482A (ja) * 2016-07-13 2018-01-18 日本電信電話株式会社 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
CN111339261A (zh) * 2020-03-17 2020-06-26 北京香侬慧语科技有限责任公司 一种基于预训练模型的文档抽取方法及系统
JP2021157363A (ja) * 2020-03-26 2021-10-07 株式会社野村総合研究所 ニーズマッチング装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100532585B1 (ko) * 2000-12-30 2005-12-02 한국전자통신연구원 인터넷 질의/응답을 위한 지식베이스 구축방법
KR100903599B1 (ko) 2007-11-22 2009-06-18 한국전자통신연구원 내적을 이용한 암호화된 데이터 검색 방법 및 이를 위한단말 장치와 서버
KR101442719B1 (ko) * 2013-04-16 2014-09-19 한양대학교 에리카산학협력단 논문 추천 장치 및 논문 추천 방법
JP2018010482A (ja) * 2016-07-13 2018-01-18 日本電信電話株式会社 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
CN111339261A (zh) * 2020-03-17 2020-06-26 北京香侬慧语科技有限责任公司 一种基于预训练模型的文档抽取方法及系统
JP2021157363A (ja) * 2020-03-26 2021-10-07 株式会社野村総合研究所 ニーズマッチング装置およびプログラム

Similar Documents

Publication Publication Date Title
US8185372B2 (en) Apparatus, method and computer program product for translating speech input using example
JP2002278964A (ja) 翻訳支援装置、方法及び翻訳支援プログラム
JP2021144348A (ja) 情報処理装置及び情報処理方法
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JPH1031677A (ja) 文書検索装置
US11842165B2 (en) Context-based image tag translation
JP2002342361A (ja) 情報検索装置
JPH05324719A (ja) 文書検索システム
CN119621944A (zh) 数据检索方法、装置、电子设备及介质
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP3315221B2 (ja) 会話文翻訳装置
JP4024137B2 (ja) 数量表現検索装置
JP4007630B2 (ja) 対訳例文登録装置
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH0950435A (ja) 翻訳装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法
US20240265202A1 (en) Auto-suggestion with rich objects
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
KR20110044697A (ko) 음역 방법 및 장치
JP2004280467A (ja) 翻訳装置、翻訳方法、及びそのプログラム
JP4054353B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH05165889A (ja) 文書検索装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031007