JPH1185773A

JPH1185773A - 情報検索方法及び装置、情報検索システム、記録媒体

Info

Publication number: JPH1185773A
Application number: JP9236311A
Authority: JP
Inventors: Hiroaki Yoshitake; 宏昭吉武; Hiroshi Idemoto; 浩出本
Original assignee: N T T DATA KK; NTT Data Corp
Current assignee: N T T DATA KK; NTT Data Group Corp
Priority date: 1997-09-01
Filing date: 1997-09-01
Publication date: 1999-03-30

Abstract

(57)【要約】【課題】ニューラルネットワークを応用して検索キー
ワードの同義語展開を行う情報検索装置を提供する。【解決手段】全ＤＢ１５Ａ〜１５Ｎから形態素解析に
よって抽出した複数のキーワード、個々のキーワードＤ
Ｂ中の重要度、及び所定の出力パターンをリスト化した
キーワードリスト１３と、キーワード学習部１２と、デ
ータベース管理部１４とを含んで情報検索装置１を構成
する。キーワード学習部１２は、入力された検索キーワ
ードがキーワードリスト１３中に含まれなければ、自己
組織化ネットワークを用いて出力パターンを取得し、そ
れに近似する出力パターンのキーワードをキーワードリ
スト１３から選択する。データベース管理部１４は、選
択したキーワードを用いて対象ＤＢに対する情報検索処
理を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばニューラル
ネットワークを応用した自己組織化ネットワークを用い
て、電子化情報中のキーワードを学習させて効率的な検
索処理を行う情報検索手法に関する。

【０００２】

【従来の技術】電子化情報の検索システムを構築する場
合、予め、電子化情報の種類毎に分類して複数のデータ
ベースを構築しておき、このデータベース群に対して以
下に示す形態で情報検索処理を行っているのが一般的で
ある。（１−１）すべてのデータベースを対象として検索処理
を実行し、検索結果を統合して利用者に提示する。（１−２）予め特定のデータベース中の内容に関連する
キーワード（検索語、以下同じ）を複数抽出してリスト
化しておき、このキーワードリスト中に検索処理の対象
となるキーワードが含まれるか否かによって、検索対象
となるデータベースを絞り込み、絞り込んだデータベー
スに対して検索処理を実行する。（１−３）上記キーワードリストに含まれないキーワー
ドのうち、特定のキーワードに関連する電子化情報も取
得可能なようにするため、シソーラス辞書等からなる同
義語展開辞書をも検索処理の実行に使用する。

【０００３】

【発明が解決しようとする課題】しかし、従来の検索シ
ステムには、以下のような問題があった。（２−１）すべてのデータベースを検索対象とし、検索
結果を統合していく手法は、データベースの数やデータ
量が膨大になるにつれて検索や統合の際の処理負荷が増
大し、現実的とはいえない。（２−２）キーワードリストを使用してデータベースを
絞り込んでいく手法は、そのキーワードリストに含まれ
ていないキーワードに対する柔軟性に欠ける。つまり、
このようなキーワードに対しては検索結果が取得でき
ず、検索適合率が低下する。（２−３）同義語展開辞書を用いた検索処理では、その
同義語展開辞書の作成、設定、及びメンテナンスを人手
により行う必要があるため、保守が煩雑となる。

【０００４】本発明は、かかる従来の問題を解消し得
る、改良された情報検索方法を提供することを課題とす
る。本発明の他の課題は、上記情報検索方法の実施に適
した情報検索装置、情報検索システム、及び上記情報検
索方法を汎用のコンピュータ装置上で実現するためのプ
ログラムを記録した記録媒体を提供することにある。

【０００５】

【課題を解決するための手段】上記課題を解決する本発
明の情報検索方法は、コンピュータにおいて、少なくと
も下記のステップを実行することを特徴とする。（１）検索対象となるすべての電子化情報からキーワー
ドを抽出し、抽出した個々のキーワードについて複数の
情報格納領域での出現頻度に基づく重要度とそのキーワ
ードを構成する文字コードのパターン特徴とを算出して
リスト化するステップ。（２）指定された検索キーワードを構成する文字コード
のパターン特徴を抽出するステップ。このパターン特徴
は、例えば、所定のニューラルネットワーク・モデルに
おいて文字コードの配列パターンを情報エントロピーが
最大となるように学習することにより抽出する。（３）抽出されたパターン特徴との類似度が所定値以上
となるパターン特徴をもつキーワード及び重要度を前記
リスト中から特定するステップ。（４）特定したキーワードをその重要度順に検索キーワ
ードとして前記情報格納領域に対する検索処理を実行す
るステップ。

【０００６】上記他の課題を解決する本発明の情報検索
装置は、電子化情報を格納した複数の情報格納領域に対
して検索キーワードに基づく検索処理を実行する装置で
あって、前記複数の情報格納領域の各々から出現頻度が
所定数を越えるキーワードを抽出するキーワード抽出手
段と、抽出したキーワードの出現頻度に基づく情報格納
領域毎の重要度を算出する重要度算出手段と、抽出した
キーワードを構成する文字コードのパターン特徴を抽出
する特徴抽出手段と、前記算出した重要度及び抽出した
パターン特徴をキーワード毎に対応付けたキーワードリ
ストを作成するキーワードリスト作成手段とを備え、作
成されたキーワードリストに基づいて前記検索キーワー
ド及び検索対象となる情報格納領域を決定するように構
成されているものである。

【０００７】本発明の他の情報検索装置は、電子化情報
から抽出された複数のキーワードについてそれぞれの情
報格納領域での出現頻度に基づく重要度及び個々のキー
ワードを構成する文字コードのパターン特徴をリスト化
したキーワードリストと、指定された検索キーワードを
構成する文字コードのパターン特徴を抽出する特徴抽出
手段と、抽出したパターン特徴と前記キーワードリスト
中のパターン特徴とを照合して１または複数のキーワー
ドを特定するキーワード特定手段と、前記特定したキー
ワードを前記検索キーワードとして前記重要度がより高
い情報格納領域に対して情報検索処理を実行する検索手
段と、を備えてなる。

【０００８】前記特徴抽出手段は、入力層に入力された
文字コード群に対応して出力層における出力パターンの
情報エントロピーが最大となるように内部ニューロンの
構成を学習させるニューラルネットワーク・モデルを含
んで構成される。

【０００９】上記他の課題を解決する本発明の情報検索
システムは、電子化情報が格納されたデータベースを具
備した第１装置と、検索キーワードを含む検索要求を前
記第１装置に送出するとともに当該検索要求に対応する
検索結果を取得する第２装置とが各々双方向通信可能に
接続されて構成される。第１装置及び第２装置は、前記
複数の情報格納領域の各々から出現頻度が所定数を越え
るキーワードを抽出するキーワード抽出手段と、抽出し
たキーワードの出現頻度に基づく情報格納領域毎の重要
度を算出する重要度算出手段と、抽出したキーワードま
たは前記検索要求に含まれる検索キーワードを構成する
文字コードのパターン特徴を抽出する特徴抽出手段と、
前記算出した重要度及び抽出したパターン特徴を前記抽
出したキーワード毎に対応付けてキーワードリストを作
成するキーワードリスト作成手段と、指定された検索キ
ーワードを構成する文字コードのパターン特徴を抽出す
るとともに、抽出したパターン特徴と前記キーワードリ
スト中のパターン特徴とを照合して１または複数のキー
ワードを特定するキーワード特定手段と、前記特定した
キーワードを前記検索キーワードとして前記重要度がよ
り高い情報格納領域に対して情報検索処理を実行する検
索手段と、のいずれかを具備し、協働して上記情報検索
を行うことを特徴とする。

【００１０】上記他の課題を解決する本発明の記録媒体
は、下記の処理をコンピュータ装置に実行させるプログ
ラムが前記コンピュータ装置が読み取り可能な形態で記
録された記録媒体である。（１）複数の情報格納領域に格納されたすべての電子化
情報からキーワードを抽出する処理、（２）抽出した個々のキーワードについて、各情報格納
領域での出現頻度に基づく重要度とそのキーワードを構
成する文字コードのパターン特徴とを算出してリスト化
する処理、（３）指定された検索キーワードを構成する文字コード
のパターン特徴を抽出する処理、（４）抽出されたパターン特徴との類似度が所定値以上
となるパターン特徴をもつキーワード及び重要度を前記
リスト中から特定する処理、（５）特定したキーワードを重要度順に検索キーワー
ドとして前記情報格納領域に対する検索処理を実行する
処理。

【００１１】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。（第１実施形態）図１は、本発明を適用した情報検索装
置の一実施例を表す機能ブロック図である。この情報検
索装置１は、汎用のコンピュータ装置の内部あるいは外
部記憶装置に構築されるＮ個のデータベース（ＤＢ）１
５Ａ，１５Ｂ，・・・１５Ｎ（以下、統一的に説明する
場合は、サフィックスを省略してＤＢ１５と表現する）
と、上記コンピュータ装置が所定のプログラムを読み込
んで実行することにより形成される、入力処理部１１、
キーワード学習部１２、キーワードリスト１３、データ
ベース管理部１４、検索結果出力部１６、を備えて構成
される。

【００１２】なお、上記プログラムは、通常、コンピュ
ータ装置の内部記憶装置あるいは外部記憶装置に格納さ
れ、随時読み取られて実行されるようになっているが、
コンピュータ装置とは分離可能な記録媒体、例えばＣＤ
−ＲＯＭやＦＤ等に、コンピュータ可読の形態で格納さ
れ、使用時に上記内部記憶装置または外部記憶装置にイ
ンストールされて随時実行に供されるものであってもよ
い。

【００１３】ＤＢ１５は、各々、検索対象となる複数の
電子化情報が、所定の分類基準に基づいて分類して格納
されたものである。この例では、分類された電子化情報
の種類毎にＮ個のＤＢ（ＤＢ−Ａ、ＤＢ−Ｂ、ＤＢ−
Ｃ、…ＤＢ−Ｎ）１５を並列接続して構成している。こ
の場合の分類基準は、例えば、電子化情報の情報ソース
名、年度別、電子化情報に係る種類等に基づくものであ
る。

【００１４】入力処理部１１は、図示しない入力手段を
介して利用者から入力される検索要求の入力を行うもの
である。この検索要求には、１または複数の検索キーワ
ードが含まれており、この検索キーワードは、キーワー
ド学習部１２に入力される。

【００１５】キーワード学習部１２は、キーワードを構
成する文字コードのパターン特徴を抽出するとともに、
入力処理部１１から入力された検索キーワードのパター
ン特徴とキーワードリスト１３中のパターン特徴との比
較を行う。キーワードリスト１３は、ＤＢ１５に格納さ
れたすべての電子化情報中のキーワード、及び個々のキ
ーワードの出現頻度に基づく重要度が保持されているも
のである。

【００１６】データベース管理部１４は、キーワード学
習部１２から入力される比較結果に基づいて、検索処理
となるＤＢをＤＢ１５中から特定し、特定したＤＢに対
して情報検索処理を実行するものである。検索結果は、
検索結果出力部１６に入力される。検索結果出力部１６
は、データベース管理部１４における検索処理の結果
を、図示しない出力装置、例えばディスプレイ装置や印
刷装置等に出力するものである。

【００１７】本実施形態のキーワードリスト１３は、以
下のようにして作成する。（１）まず、ＤＢ１５に各々格納されている電子化情報
に対して公知の形態素解析を施し、電子化情報中のキー
ワードを抽出する。抽出数は、各ＤＢ中において出現頻
度の高いキーワードから順に所定個数とする。この出現
頻度は、例えば個々のＤＢの電子化情報に当該キーワー
ドが出現する回数のカウント値等によって特定すること
ができる。

【００１８】（２）各ＤＢ１５内のキーワードの集合
を、各々Ｋａ、Ｋｂ、…Ｋｎとすると、これらのキーワ
ードの集合は、Ｎ個毎の要素を有することになる。そこ
で、これらのキーワード集合Ｋａ、Ｋｂ、…Ｋｎからす
べての要素をまとめた集合Ｕ｛＝ＫＵ１，ＫＵ２，ＫＵ
３，…｝を求める。この場合の要素数は、個々のＤＢの
要素数をＤＮとすると、「ＤＮ×Ｎ」個となる。この集
合Ｕは、要素間の重複がないことが好ましい（重複があ
る場合の要素数は、「≦ＤＮ×Ｎ」個となる）。

【００１９】（３）キーワード抽出後は、各キーワード
の出現頻度に基づく重要度を定義する。出現頻度の低い
ものは重要度が高く、頻繁に出現するものは重要度が低
いとする。本例では、キーワードの出現頻度を、例えば
ＤＢ−Ａであれば、そのＤＢにおけるキーワード“ｘ”
の重要度Ｗａ（ｘ）、ＤＢ−Ｂであれば、そのＤＢにお
けるキーワード“ｘ”の重要度Ｗｂ（ｘ）、として定義
する。他のＤＢについても同様とする。このとき、各Ｄ
Ｂ１５から抽出されたキーワードに、ＤＢ毎の分類基準
に基づく優先度等のバイアス値が設定されている場合
は、上記出現頻度に当該バイアス値を加味して重要度Ｗ
ａ（ｘ）、Ｗｂ（ｘ）…、を定義する。

【００２０】（４）さらに、キーワード“ｘ”（＝ＫＵ
１，ＫＵ２，ＫＵ３，…）を入力した際の出力パターン
を「Ｓ（ｘ）」とし、図２に示すようなテーブルから成
るキーワードリスト１３の構築を行う。この出力パター
ンは、後述するキーワード学習部１２における自己組織
化ネットワークの出力であるベクトルパターンである。
キーワードリスト１３は、すべてのキーワードについ
て、キーワード学習部１２において予め作成され、保持
される（キーワード作成手段）。

【００２１】次に、図３及び図４を参照してキーワード
学習部１２の内容をより詳細に説明する。まず、図３を
参照して、キーワード学習部１２の構成例を説明する。
本実施形態では、キーワード学習部１２を、ニューラル
ネットワーク・モデルを応用した自己組織化ネットワー
クを含んで構成する。自己組織化ネットワークとは、外
部からの入力によって適切な動作をするように内部構造
を変化させるニューラルネットワーク・モデルであり、
概念的には図３に示すものである。

【００２２】図３に円形で図示されるシンボル群はニュ
ーロン（素子）であり、ユニットまたはノードとも呼ば
れる。以下の説明ではニューロンをユニットと記述す
る。ユニット群Ｕｉは、自己組織化ネットワークの入力
層として位置付けられる。入力層Ｕｉにおけるユニット
数は、入力される文字パターンに依存して最大数が決定
されるものである。

【００２３】この自己組織化ネットワークは「隠れユニ
ット層」とも呼ばれ、入力層Ｕｉに入力された文字コー
ド群に対応して、出力層Ｕｏにおける出力パターンの情
報エントロピーが最大となるように、組織化アルゴリズ
ムに従ってその内部にユニット群を構成させ、当該ユニ
ット数を最小に抑えるように学習させるものである。上
記出力パターンの情報エントロピーを最大にするという
ことは、具体的には、入力される文字パターンに対す
る、定量化された「不確実さの程度」を最小にすること
である。換言すれば、入力情報に対する「確実な」出力
情報を取得するということである。このことから、この
場合の学習条件では、入力層Ｕｉの文字コード群に対す
る出力層Ｕｏの出力パターンが一意に決定され、他の文
字コード群に対して出力パターンが重複しないように設
定されるものである。出力層Ｕｏにおける出力パターン
は、「１」または「０」による２値パターンからなるベ
クトル値として出力される。

【００２４】上記自己組織化ネットワークにおける組織
化アルゴリズムについては、多種のものが提案されてい
るが、本実施形態では、一例として、公知のボルツマン
マシン（Boltzmann Machine)神経モデルにおけるシミュ
レーテッドアニーリング(Simulated Annealing)法に基
づくものを用いる。この組織化アルゴリズムは、下記の
内容のものである。

【００２５】まず、上述の集合Ｕにおいて、キーワード
の重複も含まれる全要素数をＮ個とすると、キーワード
ＫＵ₁に対する出力パターンは、出力関数を“Ｓ”とす
れば、「Ｓ（ＫＵ₁）」で表される。ここで、集合Ｕ中
で要素の重複を排除した場合の数列「Ｓ’＝（Ｓ’₁，
Ｓ’₂，Ｓ’₃，Ｓ’₄，…Ｓ’_i）」に着目する。この場
合、数列Ｓ’の全要素数をＮ’個とすれば、キーワード
ＫＵ_iに対する出力パターンＳ（ＫＵ_i）の発生確率は、
各々、「１／Ｎ」で求められる。

【００２６】また、数列Ｓ’の要素Ｓ’_kが、出力パタ
ーン「Ｓ（ＫＵ_k1）」と「Ｓ（ＫＵ_k ₂）」との重複であ
ると仮定すれば、当該発生確率Ｐは、以下のように表す
ことができる。

【００２７】

【数１】Ｐ（Ｓ’_k）＝Ｐ（ＫＵ_k1）＋Ｐ（ＫＵ_k2）＝
１／Ｎ＋１／Ｎ

【００２８】ここで、例えば、以下に示すようなエネル
ギー関数Ｅを定義する。

【００２９】

【数２】Ｅ＝ ΣＰ（Ｓ’_i）ｌｏｇ₂Ｐ（Ｓ’_i）…(1)

【００３０】但し、Σは（ｉ＝１〜ｉ＝Ｎ’の総和を表
す。このエネルギー関数Ｅは、一般に、神経モデルにお
いて、ユニットの状態や接続係数等で決定するエネルギ
ーが、対象となる問題が要求する望ましい出力で最小に
なるように定めた関数（または誤差関数ということもあ
る）のことであり、この最小値を実現するように所定の
最急降下法でパラメータ等を変更するものである。この
ことから、エネルギー関数Ｅの値が最小値をとるよう
に、自己組織化ネットワーク内のユニット群を構成させ
れば、最適な出力パターンが得られることになる。一般
に、エネルギー関数Ｅは多谷関数であり、このままでは
多くの極小値に収束してしまって最小値に収束すること
が困難なために、シュミレーテッドアニーリング法で
は、エネルギー関数Ｅの値を最小値に収束させるよう
に、確率的な動作（ゆらぎ）が導入されているものであ
る。以下に、エネルギー関数Ｅを最小値に収束させ易く
するように設定したエネルギー関数Ｅ’を示す。

【００３１】

【数３】Ｅ’＝Ｅ＋ε／（Ｅmax−Ｅ） …(2)

【００３２】この場合の係数εは、エネルギー関数Ｅに
比べて十分小さい値に選ばれるものであり、例えば、所
定の確率ｅｘｐ（−△Ｅ／Ｔ）等が使用される。なお、
この“Ｔ”は、シミュレーテッドアニーリング法におけ
る温度と呼ばれるパラメータである。この式(2)のエネ
ルギー関数Ｅ’を、式(1)のエネルギー関数Ｅに補完的
に使用することにより、算出値は最小値に収束するよう
になるとともに、対象となる文字パターンに対応した出
力パターンが一意に決定されるようになる。

【００３３】次に、上記構成のキーワード学習部１２の
処理手順を図４を参照して説明する。ここでは、入力処
理部１１に文字パターン“ＷＥＢ”が入力され、文字
“Ｗ”、文字“Ｅ”、文字“Ｂ”毎に、数値化された文
字コードに変換されて自己組織化ネットワークに入力さ
れたものとする（ステップＳ１０１，Ｓ１０２）。

【００３４】キーワード学習部１２は、各文字コードを
入力層Ｕｉのユニット群で所定の入力パターンに変換し
て自己組織化ネットワークに入力する（ステップＳ１０
３，Ｓ１０４）。自己組織化ネットワーク内では上記組
織化アルゴリズムに基づいて内部にユニット群を構成し
（ステップＳ１０５）、出力層Ｕｏのユニット群に対し
て出力パターンを出力する（ステップＳ１０６）。この
場合の出力パターンは、「１」または「０」の２値パタ
ーンから成るベクトルパターンである。

【００３５】キーワード学習部１２は、さらに、上述の
エネルギー関数Ｅを算出し（ステップＳ１０７）、算出
した値が予め設定された閾値以下かどうかを判定する。
算出した値が閾値を越える場合は（ステップＳ１０８：
No）、ステップＳ１０５に戻り、自己組織化ネットワー
ク内のユニット群を再構成して処理を繰り返す。一方、
算出した値が閾値以下ならば（ステップＳ１０８：Ye
s）、当該出力パターンを、入力された文字列に対応す
る出力ベクトル値として決定する（ステップＳ１０
９）。なお、この例では、エネルギー関数Ｅの算出値を
予め設定した閾値と比較しているが、これは一例であっ
て、当該算出値の最小値となる場合が判定できるように
すれば、他の構成も可能である。

【００３６】次に、本実施形態の情報検索装置１の動作
を図５を参照して説明する。なお、キーワード学習部１
２における自己組織化ネットワークは学習済みであり、
また、キーワードリスト１３も生成済みであるものとし
て説明する。

【００３７】利用者からＪＩＳコード等の検索キーワー
ドが情報検索装置１の入力段、すなわち入力処理部１１
は入力されると（ステップＳ２０１）、入力処理部１１
は、当該検索キーワードとキーワードリスト１３中のキ
ーワード群とを比較する（ステップＳ２０２）。キーワ
ードリスト１３中に検索キーワードと一致するキーワー
ドがある場合は（ステップＳ２０２：Yes）、当該検索
キーワードをデータベース管理部１４に入力させる。こ
の場合の検索キーワードは複数であっても良く、その数
は、任意に設定できる。一方、キーワードリスト１３中
に当該検索キーワードと一致するキーワードがない場合
（ステップＳ２０２：No）、入力処理部１１は、当該検
索キーワードをキーワード学習部１２に転送する（ステ
ップＳ２０３）。

【００３８】キーワード学習部１２は、自己組織化ネッ
トワークを用いて当該検索キーワードから「１」か
「０」かの出力パターンを決定し（ステップＳ２０
４）、さらに、その特徴量が当該出力パターンの特徴量
に最も近いキーワード（以下、近似キーワード）を、キ
ーワードリスト１３中から選択し、これをデータベース
管理部１４に入力させる（ステップＳ２０５）。この場
合の近似キーワードの選択は、必ずしも単数に限定され
るものではなく、例えば、最も近似するものから順に、
選択される近似キーワード数を複数個予め設定するよう
にしてもよい。このようにして、出力パターンに近似す
るキーワードを選択する処理は、同義語展開処理と等価
となる。

【００３９】データベース管理部１４では、入力された
検索キーワードまたは選択された近似キーワードに対し
てより高い重要度をもつＤＢを選択する。具体的には、
キーワードリスト１３中において、検索キーワード等に
対応する各データベースの重要度を比較し、重要度が最
大となるものから順にＤＢ１５を選択していく（ステッ
プＳ２０６）。この場合のＤＢ選択では、選択すべきＤ
Ｂ数を予め設定しておくようにする。データベース管理
部１４は、選択されたＤＢに対して順次情報検索処理を
実行し、検索結果を検索結果出力部１６を通じて利用者
に提示する（ステップＳ２０７，Ｓ２０８）。

【００４０】このように、本実施形態の情報検索装置１
では、改良されたキーワードリスト１３を使用して対象
ＤＢの特定及び絞り込みを行い、この絞り込んだＤＢに
対して情報検索処理を行うようにしたので、すべてのＤ
Ｂ１５に対して情報検索処理を行う場合に比べて検索時
の負荷が減少し、処理時間が短縮化される。

【００４１】また、上記キーワードリスト１３に含まれ
ない検索キーワードが入力されても、キーワード学習部
１２の自己組織化ネットワークによって、意味が近似と
判定されるキーワードを抽出して対応できることから、
検索適合率が従来手法よりも格段に向上する。しかも同
義語展開辞書の作成等を人手によって行う必要がないた
め、保守も簡略化される。

【００４２】なお、本実施形態では、上記キーワード学
習部１２における自己組織化ネットワークを、キーワー
ドリスト１３生成時の学習及び検索キーワードに係る近
似キーワードの検出に適合させているが、情報検索処理
関連以外にも、例えば、ワードプロセッシング等の他の
アプリケーションに対しても同様に適合可能である。

【００４３】（第２実施形態）本発明は、スタンドアロ
ン型のコンピュータ装置のほか、公衆網Ｌを介して双方
向通信可能に接続された複数のコンピュータ装置、例え
ば、情報検索装置であるところの情報検索サーバ、情報
取得装置であるところのクライアント、を配備した情報
検索システムとして実施することも可能である。この場
合の情報検索サーバは、例えば、ネットワーク環境上に
おける複数の大規模なＤＢに対するサーチエンジンとし
て位置付ければ良く、その構成例としては、コンピュー
タ装置の内部あるいは外部記憶装置に上記ＤＢ１５と同
一のＤＢを構築し、公衆網Ｌを介してクライアントと通
信を行う通信制御部を具備するとともに、上記情報検索
装置１と同様の入力処理部１１、キーワード学習部１
２、キーワードリスト１３、データベース管理部１４、
検索結果出力部１５、を具備して構成する。

【００４４】この情報検索サーバが上記情報検索装置１
と相違する点は、通信制御を行う通信制御部を具備する
点であり、上記情報検索装置１の入力処理部１１を、通
信制御部を介して公衆網Ｌ上のクライアントからの検索
要求を受け付けて行うように構成させる。一方、検索結
果出力部１５からの検索結果も同様に、通信制御部を介
してクライアントに対して送信を行うように構成させる
ことで代替が可能となり、上記情報検索装置１と同等の
効果を得ることが可能となる。

【００４５】

【発明の効果】以上の説明から明らかなように、本発明
によれば、ニューラルネットワークを応用してキーワー
ドに対する学習機能の構築を行い、キーワードリストを
生成することにより、当該リストに含まれていない検索
語に対しても検索処理が可能となり、検索処理に係る柔
軟性が確保される効果がある。また、キーワードリスト
１３の生成及び同義語展開処理を、自動的に構築するこ
とにより、人手によるメンテナンスが不要となることか
ら、システムの実用性及び信頼性が格段に高まる効果が
ある。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る情報検索装置の機能
ブロック図。

【図２】キーワードリスト１３の内容例を示す説明図。

【図３】キーワード学習部１２における処理の概念図。

【図４】キーワード学習部１２における学習アルゴリズ
ムを示す処理手順図。

【図５】情報検索装置１における処理手順図。

【符号の説明】

１情報検索装置１１入力処理部１２キーワード学習部１３キーワードリスト１４データベース管理部１５データベース１５Ａ、１５Ｂ、１５Ｃ、…１５Ｎ検索対象となるＤ
Ｂ１６検索結果出力部

Claims

【特許請求の範囲】

【請求項１】検索対象となるすべての電子化情報から
キーワードを抽出し、抽出した個々のキーワードについ
て複数の情報格納領域での出現頻度に基づく重要度とそ
のキーワードを構成する文字コードのパターン特徴とを
算出してリスト化するステップと、指定された検索キーワードを構成する文字コードのパタ
ーン特徴を抽出するステップと、抽出されたパターン特徴との類似度が所定値以上となる
パターン特徴をもつキーワード及び重要度を前記リスト
中から特定するステップと、特定したキーワードを重要度順に検索キーワードとして
前記情報格納領域に対する検索処理を実行するステップ
と、を含むコンピュータによる情報検索方法。
【請求項２】前記パターン特徴は、所定のニューラル
ネットワーク・モデルにおいて文字コードの配列パター
ンを出力時の情報エントロピーが最大となるように学習
することにより抽出することを特徴とする請求項１記載
の情報検索方法。
【請求項３】電子化情報を格納した複数の情報格納領
域に対して検索キーワードに基づく検索処理を実行する
装置であって、前記複数の情報格納領域の各々から出現頻度が所定数を
越えるキーワードを抽出するキーワード抽出手段と、抽出したキーワードの出現頻度に基づく情報格納領域毎
の重要度を算出する重要度算出手段と、抽出したキーワードを構成する文字コードのパターン特
徴を抽出する特徴抽出手段と、前記算出した重要度及び抽出したパターン特徴をキーワ
ード毎に対応付けたキーワードリストを作成するキーワ
ードリスト作成手段とを備え、作成されたキーワードリストに基づいて前記検索キーワ
ード及び検索対象となる情報格納領域を決定するように
構成されたことを特徴とする情報検索装置。
【請求項４】電子化情報を格納した複数の情報格納領
域に対して検索キーワードに基づく検索処理を実行する
装置であって、前記電子化情報から抽出された複数のキーワードについ
てそれぞれの情報格納領域での出現頻度に基づく重要度
及び個々のキーワードを構成する文字コードのパターン
特徴をリスト化したキーワードリストと、指定された検索キーワードを構成する文字コードのパタ
ーン特徴を抽出する特徴抽出手段と、抽出したパターン特徴と前記キーワードリスト中のパタ
ーン特徴とを照合して１または複数のキーワード及び重
要度を特定するキーワード特定手段と、前記特定したキーワードを前記検索キーワードとして前
記重要度がより高い情報格納領域に対して情報検索処理
を実行する検索手段と、を備えてなる情報検索装置。
【請求項５】前記特徴抽出手段は、入力層に入力され
た文字コード群に対応して出力層における出力パターン
の情報エントロピーが最大となるように内部ニューロン
の構成を学習させるニューラルネットワーク・モデルを
含んでなることを特徴とする請求項３または４記載の情
報検索装置。
【請求項６】ニューラルネットワーク・モデルは、対
象となるキーワードに対応した所定の０または１の２値
パターンから成る出力パターンを、対象となるキーワー
ドに対応して一意に決定するものであることを特徴とす
る請求項５記載の情報検索装置。
【請求項７】電子化情報が格納されたデータベースを
具備した第１装置と、検索キーワードを含む検索要求を
前記第１装置に送出するとともに当該検索要求に対応す
る検索結果を取得する第２装置とが各々双方向通信可能
に接続され、前記第１装置及び第２装置は、さらに、前記複数の情報格納領域の各々から出現頻度が所定数を
越えるキーワードを抽出するキーワード抽出手段と、抽出したキーワードの出現頻度に基づく情報格納領域毎
の重要度を算出する重要度算出手段と、抽出したキーワードまたは前記検索要求に含まれる検索
キーワードを構成する文字コードのパターン特徴を抽出
する特徴抽出手段と、前記算出した重要度及び抽出したパターン特徴を前記抽
出したキーワード毎に対応付けてキーワードリストを作
成するキーワードリスト作成手段と、指定された検索キーワードを構成する文字コードのパタ
ーン特徴を抽出するとともに、抽出したパターン特徴と
前記キーワードリスト中のパターン特徴とを照合して１
または複数のキーワードを特定するキーワード特定手段
と、前記特定したキーワードを前記検索キーワードとして前
記重要度がより高い情報格納領域に対して情報検索処理
を実行する検索手段と、のいずれかを具備することを特徴とする情報検索システ
ム。
【請求項８】複数の情報格納領域に格納されたすべて
の電子化情報からキーワードを抽出する処理、抽出した個々のキーワードについて、各情報格納領域で
の出現頻度に基づく重要度とそのキーワードを構成する
文字コードのパターン特徴とを算出してリスト化する処
理、指定された検索キーワードを構成する文字コードのパタ
ーン特徴を抽出する処理、抽出されたパターン特徴との類似度が所定値以上となる
パターン特徴をもつキーワード及び重要度を前記リスト
中から特定する処理、特定したキーワードを重要度順に検索キーワードとして
前記情報格納領域に対する検索処理を実行する処理、を
コンピュータ装置に実行させるプログラムを前記コンピ
ュータ装置が読み取り可能な形態で記録してなる記録媒
体。