JPH1185773A - 情報検索方法及び装置、情報検索システム、記録媒体 - Google Patents

情報検索方法及び装置、情報検索システム、記録媒体

Info

Publication number
JPH1185773A
JPH1185773A JP9236311A JP23631197A JPH1185773A JP H1185773 A JPH1185773 A JP H1185773A JP 9236311 A JP9236311 A JP 9236311A JP 23631197 A JP23631197 A JP 23631197A JP H1185773 A JPH1185773 A JP H1185773A
Authority
JP
Japan
Prior art keywords
keyword
search
information
pattern
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9236311A
Other languages
English (en)
Inventor
Hiroaki Yoshitake
宏昭 吉武
Hiroshi Idemoto
浩 出本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA KK
NTT Data Group Corp
Original Assignee
N T T DATA KK
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA KK, NTT Data Corp filed Critical N T T DATA KK
Priority to JP9236311A priority Critical patent/JPH1185773A/ja
Publication of JPH1185773A publication Critical patent/JPH1185773A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ニューラルネットワークを応用して検索キー
ワードの同義語展開を行う情報検索装置を提供する。 【解決手段】 全DB15A〜15Nから形態素解析に
よって抽出した複数のキーワード、個々のキーワードD
B中の重要度、及び所定の出力パターンをリスト化した
キーワードリスト13と、キーワード学習部12と、デ
ータベース管理部14とを含んで情報検索装置1を構成
する。キーワード学習部12は、入力された検索キーワ
ードがキーワードリスト13中に含まれなければ、自己
組織化ネットワークを用いて出力パターンを取得し、そ
れに近似する出力パターンのキーワードをキーワードリ
スト13から選択する。データベース管理部14は、選
択したキーワードを用いて対象DBに対する情報検索処
理を実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばニューラル
ネットワークを応用した自己組織化ネットワークを用い
て、電子化情報中のキーワードを学習させて効率的な検
索処理を行う情報検索手法に関する。
【0002】
【従来の技術】電子化情報の検索システムを構築する場
合、予め、電子化情報の種類毎に分類して複数のデータ
ベースを構築しておき、このデータベース群に対して以
下に示す形態で情報検索処理を行っているのが一般的で
ある。 (1−1)すべてのデータベースを対象として検索処理
を実行し、検索結果を統合して利用者に提示する。 (1−2)予め特定のデータベース中の内容に関連する
キーワード(検索語、以下同じ)を複数抽出してリスト
化しておき、このキーワードリスト中に検索処理の対象
となるキーワードが含まれるか否かによって、検索対象
となるデータベースを絞り込み、絞り込んだデータベー
スに対して検索処理を実行する。 (1−3)上記キーワードリストに含まれないキーワー
ドのうち、特定のキーワードに関連する電子化情報も取
得可能なようにするため、シソーラス辞書等からなる同
義語展開辞書をも検索処理の実行に使用する。
【0003】
【発明が解決しようとする課題】しかし、従来の検索シ
ステムには、以下のような問題があった。 (2−1)すべてのデータベースを検索対象とし、検索
結果を統合していく手法は、データベースの数やデータ
量が膨大になるにつれて検索や統合の際の処理負荷が増
大し、現実的とはいえない。 (2−2)キーワードリストを使用してデータベースを
絞り込んでいく手法は、そのキーワードリストに含まれ
ていないキーワードに対する柔軟性に欠ける。つまり、
このようなキーワードに対しては検索結果が取得でき
ず、検索適合率が低下する。 (2−3)同義語展開辞書を用いた検索処理では、その
同義語展開辞書の作成、設定、及びメンテナンスを人手
により行う必要があるため、保守が煩雑となる。
【0004】本発明は、かかる従来の問題を解消し得
る、改良された情報検索方法を提供することを課題とす
る。本発明の他の課題は、上記情報検索方法の実施に適
した情報検索装置、情報検索システム、及び上記情報検
索方法を汎用のコンピュータ装置上で実現するためのプ
ログラムを記録した記録媒体を提供することにある。
【0005】
【課題を解決するための手段】上記課題を解決する本発
明の情報検索方法は、コンピュータにおいて、少なくと
も下記のステップを実行することを特徴とする。 (1)検索対象となるすべての電子化情報からキーワー
ドを抽出し、抽出した個々のキーワードについて複数の
情報格納領域での出現頻度に基づく重要度とそのキーワ
ードを構成する文字コードのパターン特徴とを算出して
リスト化するステップ。 (2)指定された検索キーワードを構成する文字コード
のパターン特徴を抽出するステップ。このパターン特徴
は、例えば、所定のニューラルネットワーク・モデルに
おいて文字コードの配列パターンを情報エントロピーが
最大となるように学習することにより抽出する。 (3)抽出されたパターン特徴との類似度が所定値以上
となるパターン特徴をもつキーワード及び重要度を前記
リスト中から特定するステップ。 (4)特定したキーワードをその重要度順に検索キーワ
ードとして前記情報格納領域に対する検索処理を実行す
るステップ。
【0006】上記他の課題を解決する本発明の情報検索
装置は、電子化情報を格納した複数の情報格納領域に対
して検索キーワードに基づく検索処理を実行する装置で
あって、前記複数の情報格納領域の各々から出現頻度が
所定数を越えるキーワードを抽出するキーワード抽出手
段と、抽出したキーワードの出現頻度に基づく情報格納
領域毎の重要度を算出する重要度算出手段と、抽出した
キーワードを構成する文字コードのパターン特徴を抽出
する特徴抽出手段と、前記算出した重要度及び抽出した
パターン特徴をキーワード毎に対応付けたキーワードリ
ストを作成するキーワードリスト作成手段とを備え、作
成されたキーワードリストに基づいて前記検索キーワー
ド及び検索対象となる情報格納領域を決定するように構
成されているものである。
【0007】本発明の他の情報検索装置は、電子化情報
から抽出された複数のキーワードについてそれぞれの情
報格納領域での出現頻度に基づく重要度及び個々のキー
ワードを構成する文字コードのパターン特徴をリスト化
したキーワードリストと、指定された検索キーワードを
構成する文字コードのパターン特徴を抽出する特徴抽出
手段と、抽出したパターン特徴と前記キーワードリスト
中のパターン特徴とを照合して1または複数のキーワー
ドを特定するキーワード特定手段と、前記特定したキー
ワードを前記検索キーワードとして前記重要度がより高
い情報格納領域に対して情報検索処理を実行する検索手
段と、を備えてなる。
【0008】前記特徴抽出手段は、入力層に入力された
文字コード群に対応して出力層における出力パターンの
情報エントロピーが最大となるように内部ニューロンの
構成を学習させるニューラルネットワーク・モデルを含
んで構成される。
【0009】上記他の課題を解決する本発明の情報検索
システムは、電子化情報が格納されたデータベースを具
備した第1装置と、検索キーワードを含む検索要求を前
記第1装置に送出するとともに当該検索要求に対応する
検索結果を取得する第2装置とが各々双方向通信可能に
接続されて構成される。第1装置及び第2装置は、前記
複数の情報格納領域の各々から出現頻度が所定数を越え
るキーワードを抽出するキーワード抽出手段と、抽出し
たキーワードの出現頻度に基づく情報格納領域毎の重要
度を算出する重要度算出手段と、抽出したキーワードま
たは前記検索要求に含まれる検索キーワードを構成する
文字コードのパターン特徴を抽出する特徴抽出手段と、
前記算出した重要度及び抽出したパターン特徴を前記抽
出したキーワード毎に対応付けてキーワードリストを作
成するキーワードリスト作成手段と、指定された検索キ
ーワードを構成する文字コードのパターン特徴を抽出す
るとともに、抽出したパターン特徴と前記キーワードリ
スト中のパターン特徴とを照合して1または複数のキー
ワードを特定するキーワード特定手段と、前記特定した
キーワードを前記検索キーワードとして前記重要度がよ
り高い情報格納領域に対して情報検索処理を実行する検
索手段と、のいずれかを具備し、協働して上記情報検索
を行うことを特徴とする。
【0010】上記他の課題を解決する本発明の記録媒体
は、下記の処理をコンピュータ装置に実行させるプログ
ラムが前記コンピュータ装置が読み取り可能な形態で記
録された記録媒体である。 (1)複数の情報格納領域に格納されたすべての電子化
情報からキーワードを抽出する処理、 (2)抽出した個々のキーワードについて、各情報格納
領域での出現頻度に基づく重要度とそのキーワードを構
成する文字コードのパターン特徴とを算出してリスト化
する処理、 (3)指定された検索キーワードを構成する文字コード
のパターン特徴を抽出する処理、 (4)抽出されたパターン特徴との類似度が所定値以上
となるパターン特徴をもつキーワード及び重要度を前記
リスト中から特定する処理、 (5) 特定したキーワードを重要度順に検索キーワー
ドとして前記情報格納領域に対する検索処理を実行する
処理。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。 (第1実施形態)図1は、本発明を適用した情報検索装
置の一実施例を表す機能ブロック図である。この情報検
索装置1は、汎用のコンピュータ装置の内部あるいは外
部記憶装置に構築されるN個のデータベース(DB)1
5A,15B,・・・15N(以下、統一的に説明する
場合は、サフィックスを省略してDB15と表現する)
と、上記コンピュータ装置が所定のプログラムを読み込
んで実行することにより形成される、入力処理部11、
キーワード学習部12、キーワードリスト13、データ
ベース管理部14、検索結果出力部16、を備えて構成
される。
【0012】なお、上記プログラムは、通常、コンピュ
ータ装置の内部記憶装置あるいは外部記憶装置に格納さ
れ、随時読み取られて実行されるようになっているが、
コンピュータ装置とは分離可能な記録媒体、例えばCD
−ROMやFD等に、コンピュータ可読の形態で格納さ
れ、使用時に上記内部記憶装置または外部記憶装置にイ
ンストールされて随時実行に供されるものであってもよ
い。
【0013】DB15は、各々、検索対象となる複数の
電子化情報が、所定の分類基準に基づいて分類して格納
されたものである。この例では、分類された電子化情報
の種類毎にN個のDB(DB−A、DB−B、DB−
C、…DB−N)15を並列接続して構成している。こ
の場合の分類基準は、例えば、電子化情報の情報ソース
名、年度別、電子化情報に係る種類等に基づくものであ
る。
【0014】入力処理部11は、図示しない入力手段を
介して利用者から入力される検索要求の入力を行うもの
である。この検索要求には、1または複数の検索キーワ
ードが含まれており、この検索キーワードは、キーワー
ド学習部12に入力される。
【0015】キーワード学習部12は、キーワードを構
成する文字コードのパターン特徴を抽出するとともに、
入力処理部11から入力された検索キーワードのパター
ン特徴とキーワードリスト13中のパターン特徴との比
較を行う。キーワードリスト13は、DB15に格納さ
れたすべての電子化情報中のキーワード、及び個々のキ
ーワードの出現頻度に基づく重要度が保持されているも
のである。
【0016】データベース管理部14は、キーワード学
習部12から入力される比較結果に基づいて、検索処理
となるDBをDB15中から特定し、特定したDBに対
して情報検索処理を実行するものである。検索結果は、
検索結果出力部16に入力される。検索結果出力部16
は、データベース管理部14における検索処理の結果
を、図示しない出力装置、例えばディスプレイ装置や印
刷装置等に出力するものである。
【0017】本実施形態のキーワードリスト13は、以
下のようにして作成する。 (1)まず、DB15に各々格納されている電子化情報
に対して公知の形態素解析を施し、電子化情報中のキー
ワードを抽出する。抽出数は、各DB中において出現頻
度の高いキーワードから順に所定個数とする。この出現
頻度は、例えば個々のDBの電子化情報に当該キーワー
ドが出現する回数のカウント値等によって特定すること
ができる。
【0018】(2)各DB15内のキーワードの集合
を、各々Ka、Kb、…Knとすると、これらのキーワ
ードの集合は、N個毎の要素を有することになる。そこ
で、これらのキーワード集合Ka、Kb、…Knからす
べての要素をまとめた集合U{=KU1,KU2,KU
3,…}を求める。この場合の要素数は、個々のDBの
要素数をDNとすると、「DN×N」個となる。この集
合Uは、要素間の重複がないことが好ましい(重複があ
る場合の要素数は、「≦DN×N」個となる)。
【0019】(3)キーワード抽出後は、各キーワード
の出現頻度に基づく重要度を定義する。出現頻度の低い
ものは重要度が高く、頻繁に出現するものは重要度が低
いとする。本例では、キーワードの出現頻度を、例えば
DB−Aであれば、そのDBにおけるキーワード“x”
の重要度Wa(x)、DB−Bであれば、そのDBにお
けるキーワード“x”の重要度Wb(x)、として定義
する。他のDBについても同様とする。このとき、各D
B15から抽出されたキーワードに、DB毎の分類基準
に基づく優先度等のバイアス値が設定されている場合
は、上記出現頻度に当該バイアス値を加味して重要度W
a(x)、Wb(x)…、を定義する。
【0020】(4)さらに、キーワード“x”(=KU
1,KU2,KU3,…)を入力した際の出力パターン
を「S(x)」とし、図2に示すようなテーブルから成
るキーワードリスト13の構築を行う。この出力パター
ンは、後述するキーワード学習部12における自己組織
化ネットワークの出力であるベクトルパターンである。
キーワードリスト13は、すべてのキーワードについ
て、キーワード学習部12において予め作成され、保持
される(キーワード作成手段)。
【0021】次に、図3及び図4を参照してキーワード
学習部12の内容をより詳細に説明する。まず、図3を
参照して、キーワード学習部12の構成例を説明する。
本実施形態では、キーワード学習部12を、ニューラル
ネットワーク・モデルを応用した自己組織化ネットワー
クを含んで構成する。自己組織化ネットワークとは、外
部からの入力によって適切な動作をするように内部構造
を変化させるニューラルネットワーク・モデルであり、
概念的には図3に示すものである。
【0022】図3に円形で図示されるシンボル群はニュ
ーロン(素子)であり、ユニットまたはノードとも呼ば
れる。以下の説明ではニューロンをユニットと記述す
る。ユニット群Uiは、自己組織化ネットワークの入力
層として位置付けられる。入力層Uiにおけるユニット
数は、入力される文字パターンに依存して最大数が決定
されるものである。
【0023】この自己組織化ネットワークは「隠れユニ
ット層」とも呼ばれ、入力層Uiに入力された文字コー
ド群に対応して、出力層Uoにおける出力パターンの情
報エントロピーが最大となるように、組織化アルゴリズ
ムに従ってその内部にユニット群を構成させ、当該ユニ
ット数を最小に抑えるように学習させるものである。上
記出力パターンの情報エントロピーを最大にするという
ことは、具体的には、入力される文字パターンに対す
る、定量化された「不確実さの程度」を最小にすること
である。換言すれば、入力情報に対する「確実な」出力
情報を取得するということである。このことから、この
場合の学習条件では、入力層Uiの文字コード群に対す
る出力層Uoの出力パターンが一意に決定され、他の文
字コード群に対して出力パターンが重複しないように設
定されるものである。出力層Uoにおける出力パターン
は、「1」または「0」による2値パターンからなるベ
クトル値として出力される。
【0024】上記自己組織化ネットワークにおける組織
化アルゴリズムについては、多種のものが提案されてい
るが、本実施形態では、一例として、公知のボルツマン
マシン(Boltzmann Machine)神経モデルにおけるシミュ
レーテッドアニーリング(Simulated Annealing)法に基
づくものを用いる。この組織化アルゴリズムは、下記の
内容のものである。
【0025】まず、上述の集合Uにおいて、キーワード
の重複も含まれる全要素数をN個とすると、キーワード
KU1に対する出力パターンは、出力関数を“S”とす
れば、「S(KU1)」で表される。ここで、集合U中
で要素の重複を排除した場合の数列「S’=(S’1
S’2,S’3,S’4,…S’i)」に着目する。この場
合、数列S’の全要素数をN’個とすれば、キーワード
KUiに対する出力パターンS(KUi)の発生確率は、
各々、「1/N」で求められる。
【0026】また、数列S’の要素S’kが、出力パタ
ーン「S(KUk1)」と「S(KUk 2)」との重複であ
ると仮定すれば、当該発生確率Pは、以下のように表す
ことができる。
【0027】
【数1】P(S’k)=P(KUk1)+P(KUk2)=
1/N+1/N
【0028】ここで、例えば、以下に示すようなエネル
ギー関数Eを定義する。
【0029】
【数2】 E= ΣP(S’i)log2P(S’i)…(1)
【0030】但し、Σは(i=1〜i=N’の総和を表
す。このエネルギー関数Eは、一般に、神経モデルにお
いて、ユニットの状態や接続係数等で決定するエネルギ
ーが、対象となる問題が要求する望ましい出力で最小に
なるように定めた関数(または誤差関数ということもあ
る)のことであり、この最小値を実現するように所定の
最急降下法でパラメータ等を変更するものである。この
ことから、エネルギー関数Eの値が最小値をとるよう
に、自己組織化ネットワーク内のユニット群を構成させ
れば、最適な出力パターンが得られることになる。一般
に、エネルギー関数Eは多谷関数であり、このままでは
多くの極小値に収束してしまって最小値に収束すること
が困難なために、シュミレーテッドアニーリング法で
は、エネルギー関数Eの値を最小値に収束させるよう
に、確率的な動作(ゆらぎ)が導入されているものであ
る。以下に、エネルギー関数Eを最小値に収束させ易く
するように設定したエネルギー関数E’を示す。
【0031】
【数3】E’= E+ε/(Emax−E) …(2)
【0032】この場合の係数εは、エネルギー関数Eに
比べて十分小さい値に選ばれるものであり、例えば、所
定の確率exp(−△E/T)等が使用される。なお、
この“T”は、シミュレーテッドアニーリング法におけ
る温度と呼ばれるパラメータである。この式(2)のエネ
ルギー関数E’を、式(1)のエネルギー関数Eに補完的
に使用することにより、算出値は最小値に収束するよう
になるとともに、対象となる文字パターンに対応した出
力パターンが一意に決定されるようになる。
【0033】次に、上記構成のキーワード学習部12の
処理手順を図4を参照して説明する。ここでは、入力処
理部11に文字パターン“WEB”が入力され、文字
“W”、文字“E”、文字“B”毎に、数値化された文
字コードに変換されて自己組織化ネットワークに入力さ
れたものとする(ステップS101,S102)。
【0034】キーワード学習部12は、各文字コードを
入力層Uiのユニット群で所定の入力パターンに変換し
て自己組織化ネットワークに入力する(ステップS10
3,S104)。自己組織化ネットワーク内では上記組
織化アルゴリズムに基づいて内部にユニット群を構成し
(ステップS105)、出力層Uoのユニット群に対し
て出力パターンを出力する(ステップS106)。この
場合の出力パターンは、「1」または「0」の2値パタ
ーンから成るベクトルパターンである。
【0035】キーワード学習部12は、さらに、上述の
エネルギー関数Eを算出し(ステップS107)、算出
した値が予め設定された閾値以下かどうかを判定する。
算出した値が閾値を越える場合は(ステップS108:
No)、ステップS105に戻り、自己組織化ネットワー
ク内のユニット群を再構成して処理を繰り返す。一方、
算出した値が閾値以下ならば(ステップS108:Ye
s)、当該出力パターンを、入力された文字列に対応す
る出力ベクトル値として決定する(ステップS10
9)。なお、この例では、エネルギー関数Eの算出値を
予め設定した閾値と比較しているが、これは一例であっ
て、当該算出値の最小値となる場合が判定できるように
すれば、他の構成も可能である。
【0036】次に、本実施形態の情報検索装置1の動作
を図5を参照して説明する。なお、キーワード学習部1
2における自己組織化ネットワークは学習済みであり、
また、キーワードリスト13も生成済みであるものとし
て説明する。
【0037】利用者からJISコード等の検索キーワー
ドが情報検索装置1の入力段、すなわち入力処理部11
は入力されると(ステップS201)、入力処理部11
は、当該検索キーワードとキーワードリスト13中のキ
ーワード群とを比較する(ステップS202)。キーワ
ードリスト13中に検索キーワードと一致するキーワー
ドがある場合は(ステップS202:Yes)、当該検索
キーワードをデータベース管理部14に入力させる。こ
の場合の検索キーワードは複数であっても良く、その数
は、任意に設定できる。一方、キーワードリスト13中
に当該検索キーワードと一致するキーワードがない場合
(ステップS202:No)、入力処理部11は、当該検
索キーワードをキーワード学習部12に転送する(ステ
ップS203)。
【0038】キーワード学習部12は、自己組織化ネッ
トワークを用いて当該検索キーワードから「1」か
「0」かの出力パターンを決定し(ステップS20
4)、さらに、その特徴量が当該出力パターンの特徴量
に最も近いキーワード(以下、近似キーワード)を、キ
ーワードリスト13中から選択し、これをデータベース
管理部14に入力させる(ステップS205)。この場
合の近似キーワードの選択は、必ずしも単数に限定され
るものではなく、例えば、最も近似するものから順に、
選択される近似キーワード数を複数個予め設定するよう
にしてもよい。このようにして、出力パターンに近似す
るキーワードを選択する処理は、同義語展開処理と等価
となる。
【0039】データベース管理部14では、入力された
検索キーワードまたは選択された近似キーワードに対し
てより高い重要度をもつDBを選択する。具体的には、
キーワードリスト13中において、検索キーワード等に
対応する各データベースの重要度を比較し、重要度が最
大となるものから順にDB15を選択していく(ステッ
プS206)。この場合のDB選択では、選択すべきD
B数を予め設定しておくようにする。データベース管理
部14は、選択されたDBに対して順次情報検索処理を
実行し、検索結果を検索結果出力部16を通じて利用者
に提示する(ステップS207,S208)。
【0040】このように、本実施形態の情報検索装置1
では、改良されたキーワードリスト13を使用して対象
DBの特定及び絞り込みを行い、この絞り込んだDBに
対して情報検索処理を行うようにしたので、すべてのD
B15に対して情報検索処理を行う場合に比べて検索時
の負荷が減少し、処理時間が短縮化される。
【0041】また、上記キーワードリスト13に含まれ
ない検索キーワードが入力されても、キーワード学習部
12の自己組織化ネットワークによって、意味が近似と
判定されるキーワードを抽出して対応できることから、
検索適合率が従来手法よりも格段に向上する。しかも同
義語展開辞書の作成等を人手によって行う必要がないた
め、保守も簡略化される。
【0042】なお、本実施形態では、上記キーワード学
習部12における自己組織化ネットワークを、キーワー
ドリスト13生成時の学習及び検索キーワードに係る近
似キーワードの検出に適合させているが、情報検索処理
関連以外にも、例えば、ワードプロセッシング等の他の
アプリケーションに対しても同様に適合可能である。
【0043】(第2実施形態)本発明は、スタンドアロ
ン型のコンピュータ装置のほか、公衆網Lを介して双方
向通信可能に接続された複数のコンピュータ装置、例え
ば、情報検索装置であるところの情報検索サーバ、情報
取得装置であるところのクライアント、を配備した情報
検索システムとして実施することも可能である。この場
合の情報検索サーバは、例えば、ネットワーク環境上に
おける複数の大規模なDBに対するサーチエンジンとし
て位置付ければ良く、その構成例としては、コンピュー
タ装置の内部あるいは外部記憶装置に上記DB15と同
一のDBを構築し、公衆網Lを介してクライアントと通
信を行う通信制御部を具備するとともに、上記情報検索
装置1と同様の入力処理部11、キーワード学習部1
2、キーワードリスト13、データベース管理部14、
検索結果出力部15、を具備して構成する。
【0044】この情報検索サーバが上記情報検索装置1
と相違する点は、通信制御を行う通信制御部を具備する
点であり、上記情報検索装置1の入力処理部11を、通
信制御部を介して公衆網L上のクライアントからの検索
要求を受け付けて行うように構成させる。一方、検索結
果出力部15からの検索結果も同様に、通信制御部を介
してクライアントに対して送信を行うように構成させる
ことで代替が可能となり、上記情報検索装置1と同等の
効果を得ることが可能となる。
【0045】
【発明の効果】以上の説明から明らかなように、本発明
によれば、ニューラルネットワークを応用してキーワー
ドに対する学習機能の構築を行い、キーワードリストを
生成することにより、当該リストに含まれていない検索
語に対しても検索処理が可能となり、検索処理に係る柔
軟性が確保される効果がある。また、キーワードリスト
13の生成及び同義語展開処理を、自動的に構築するこ
とにより、人手によるメンテナンスが不要となることか
ら、システムの実用性及び信頼性が格段に高まる効果が
ある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報検索装置の機能
ブロック図。
【図2】キーワードリスト13の内容例を示す説明図。
【図3】キーワード学習部12における処理の概念図。
【図4】キーワード学習部12における学習アルゴリズ
ムを示す処理手順図。
【図5】情報検索装置1における処理手順図。
【符号の説明】
1 情報検索装置 11 入力処理部 12 キーワード学習部 13 キーワードリスト 14 データベース管理部 15 データベース 15A、15B、15C、…15N 検索対象となるD
B 16 検索結果出力部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 検索対象となるすべての電子化情報から
    キーワードを抽出し、抽出した個々のキーワードについ
    て複数の情報格納領域での出現頻度に基づく重要度とそ
    のキーワードを構成する文字コードのパターン特徴とを
    算出してリスト化するステップと、 指定された検索キーワードを構成する文字コードのパタ
    ーン特徴を抽出するステップと、 抽出されたパターン特徴との類似度が所定値以上となる
    パターン特徴をもつキーワード及び重要度を前記リスト
    中から特定するステップと、 特定したキーワードを重要度順に検索キーワードとして
    前記情報格納領域に対する検索処理を実行するステップ
    と、 を含むコンピュータによる情報検索方法。
  2. 【請求項2】 前記パターン特徴は、所定のニューラル
    ネットワーク・モデルにおいて文字コードの配列パター
    ンを出力時の情報エントロピーが最大となるように学習
    することにより抽出することを特徴とする請求項1記載
    の情報検索方法。
  3. 【請求項3】 電子化情報を格納した複数の情報格納領
    域に対して検索キーワードに基づく検索処理を実行する
    装置であって、 前記複数の情報格納領域の各々から出現頻度が所定数を
    越えるキーワードを抽出するキーワード抽出手段と、 抽出したキーワードの出現頻度に基づく情報格納領域毎
    の重要度を算出する重要度算出手段と、 抽出したキーワードを構成する文字コードのパターン特
    徴を抽出する特徴抽出手段と、 前記算出した重要度及び抽出したパターン特徴をキーワ
    ード毎に対応付けたキーワードリストを作成するキーワ
    ードリスト作成手段とを備え、 作成されたキーワードリストに基づいて前記検索キーワ
    ード及び検索対象となる情報格納領域を決定するように
    構成されたことを特徴とする情報検索装置。
  4. 【請求項4】 電子化情報を格納した複数の情報格納領
    域に対して検索キーワードに基づく検索処理を実行する
    装置であって、 前記電子化情報から抽出された複数のキーワードについ
    てそれぞれの情報格納領域での出現頻度に基づく重要度
    及び個々のキーワードを構成する文字コードのパターン
    特徴をリスト化したキーワードリストと、 指定された検索キーワードを構成する文字コードのパタ
    ーン特徴を抽出する特徴抽出手段と、 抽出したパターン特徴と前記キーワードリスト中のパタ
    ーン特徴とを照合して1または複数のキーワード及び重
    要度を特定するキーワード特定手段と、 前記特定したキーワードを前記検索キーワードとして前
    記重要度がより高い情報格納領域に対して情報検索処理
    を実行する検索手段と、 を備えてなる情報検索装置。
  5. 【請求項5】 前記特徴抽出手段は、入力層に入力され
    た文字コード群に対応して出力層における出力パターン
    の情報エントロピーが最大となるように内部ニューロン
    の構成を学習させるニューラルネットワーク・モデルを
    含んでなることを特徴とする請求項3または4記載の情
    報検索装置。
  6. 【請求項6】 ニューラルネットワーク・モデルは、対
    象となるキーワードに対応した所定の0または1の2値
    パターンから成る出力パターンを、対象となるキーワー
    ドに対応して一意に決定するものであることを特徴とす
    る請求項5記載の情報検索装置。
  7. 【請求項7】 電子化情報が格納されたデータベースを
    具備した第1装置と、検索キーワードを含む検索要求を
    前記第1装置に送出するとともに当該検索要求に対応す
    る検索結果を取得する第2装置とが各々双方向通信可能
    に接続され、 前記第1装置及び第2装置は、さらに、 前記複数の情報格納領域の各々から出現頻度が所定数を
    越えるキーワードを抽出するキーワード抽出手段と、 抽出したキーワードの出現頻度に基づく情報格納領域毎
    の重要度を算出する重要度算出手段と、 抽出したキーワードまたは前記検索要求に含まれる検索
    キーワードを構成する文字コードのパターン特徴を抽出
    する特徴抽出手段と、 前記算出した重要度及び抽出したパターン特徴を前記抽
    出したキーワード毎に対応付けてキーワードリストを作
    成するキーワードリスト作成手段と、 指定された検索キーワードを構成する文字コードのパタ
    ーン特徴を抽出するとともに、抽出したパターン特徴と
    前記キーワードリスト中のパターン特徴とを照合して1
    または複数のキーワードを特定するキーワード特定手段
    と、 前記特定したキーワードを前記検索キーワードとして前
    記重要度がより高い情報格納領域に対して情報検索処理
    を実行する検索手段と、 のいずれかを具備することを特徴とする情報検索システ
    ム。
  8. 【請求項8】 複数の情報格納領域に格納されたすべて
    の電子化情報からキーワードを抽出する処理、 抽出した個々のキーワードについて、各情報格納領域で
    の出現頻度に基づく重要度とそのキーワードを構成する
    文字コードのパターン特徴とを算出してリスト化する処
    理、 指定された検索キーワードを構成する文字コードのパタ
    ーン特徴を抽出する処理、 抽出されたパターン特徴との類似度が所定値以上となる
    パターン特徴をもつキーワード及び重要度を前記リスト
    中から特定する処理、 特定したキーワードを重要度順に検索キーワードとして
    前記情報格納領域に対する検索処理を実行する処理、を
    コンピュータ装置に実行させるプログラムを前記コンピ
    ュータ装置が読み取り可能な形態で記録してなる記録媒
    体。
JP9236311A 1997-09-01 1997-09-01 情報検索方法及び装置、情報検索システム、記録媒体 Pending JPH1185773A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9236311A JPH1185773A (ja) 1997-09-01 1997-09-01 情報検索方法及び装置、情報検索システム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9236311A JPH1185773A (ja) 1997-09-01 1997-09-01 情報検索方法及び装置、情報検索システム、記録媒体

Publications (1)

Publication Number Publication Date
JPH1185773A true JPH1185773A (ja) 1999-03-30

Family

ID=16998927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9236311A Pending JPH1185773A (ja) 1997-09-01 1997-09-01 情報検索方法及び装置、情報検索システム、記録媒体

Country Status (1)

Country Link
JP (1) JPH1185773A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015515674A (ja) * 2012-03-15 2015-05-28 セプト システムズ ゲゼルシャフト ミット ベシュレンクテル ハフツングCEPT Systems GmbH テキストの意味的処理のための方法、装置および製品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015515674A (ja) * 2012-03-15 2015-05-28 セプト システムズ ゲゼルシャフト ミット ベシュレンクテル ハフツングCEPT Systems GmbH テキストの意味的処理のための方法、装置および製品

Similar Documents

Publication Publication Date Title
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
Nasraoui et al. Tecno-streams: Tracking evolving clusters in noisy data streams with a scalable immune system learning model
EP0947937B1 (en) Image search apparatus and method
Ghosh et al. A tutorial review on Text Mining Algorithms
CN101438296B (zh) 用于在非-计量相似性空间中群集模板的方法和设施
US20040220963A1 (en) Object clustering using inter-layer links
CN111143838B (zh) 数据库用户异常行为检测方法
Gupta et al. Generalized analytic rule extraction for feedforward neural networks
US7773800B2 (en) Attrasoft image retrieval
US20230071102A1 (en) Machine Learned Chart Recommendation System
Xie et al. Feature selection algorithm based on association rules mining method
CN117651066A (zh) 基于双向序列特征和主题语义模型的制造服务推荐方法
Kolahkaj et al. A recommender system by using classification based on frequent pattern mining and J48 algorithm
CN114090797B (zh) 一种基于智能推荐的组件检索方法及装置
JPH0944518A (ja) 画像データベースの構築方法と、画像データベースの検索方法及び検索装置
Chou et al. Text mining technique for chinese written judgment of criminal case
JPH1185773A (ja) 情報検索方法及び装置、情報検索システム、記録媒体
JP3497713B2 (ja) 情報分類方法、装置及びシステム
CN117349512B (zh) 一种基于大数据的用户标签分类方法及系统
KR20180137387A (ko) 중첩 커뮤니티 검출 장치 및 방법
Brandes et al. Visual ranking of link structures
Merschmann et al. A lazy data mining approach for protein classification
Appavu alias Balamurugan et al. An efficient feature selection and classification using optimal radial basis function neural network
Mangalampalli et al. Fuzzy Logic-based Preprocessing for Fuzzy Association Rule Mining
Chen et al. Taxonomic class incremental learning