WO2007126088A1

WO2007126088A1 - バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム

Info

Publication number: WO2007126088A1
Application number: PCT/JP2007/059268
Authority: WO
Inventors: Tetsuro Toyoda; Norio Kobayashi; Yoshiki Mochizuki
Original assignee: RIKEN
Current assignee: RIKEN
Priority date: 2006-04-28
Filing date: 2007-04-27
Publication date: 2007-11-08
Anticipated expiration: 2008-10-28
Also published as: EP2015208A4; US20090112850A1; JP5180822B2; JPWO2007126088A1; EP2015208A1; US7921105B2

Abstract

　バイオアイテム毎に、バイオアイテム文献セットを記憶し、各バイオアイテム文献セットにおいて、キーワードを該バイオアイテム文献セットの中から検索し、該バイオアイテム文献セットのうちキーワードを含む文献数Ｎｈを、バイオアイテム毎に取得し、文献数Ｎｈが１以上であるバイオアイテムを候補バイオアイテムとして選出し、候補バイオアイテム毎に、ａ）文献数Ｎｈ、および／または、ｂ）キーワードを含まず且つバイオアイテム名を含む文献数、から構成される文献数テーブルを作成し、候補バイオアイテム毎に、文献数テーブルを用いて統計計算に基づいて、バイオアイテムとキーワードとの相関スコアを算出し、算出された相関スコアに基づいて、候補バイオアイテムを出力する。

Description

明細書

ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム

技術分野

[0001] 本発明は、生物学 (遺伝学、疫学、システムバイオロジーを含む）、化学等を含む、情報検索を必要とする情報処理分野において、遺伝子、遺伝子多型、疾患、薬品、ノ^オリソース、蛋白質、人物、集団、組織、化合物、専門用語、文献フォルダなどの "バイオアイテム"およびバイオアイテムに関する情報に対して優先順位を付けて検索するバイオアイテム検索装置に関するものである。

背景技術

[0002] 利用者により指定されたキーワードに対して文献セットの検索を行い、その結果からキーワードに関連するバイオアイテム（以下、一例として遺伝子で説明する）の取得を行う既存のソフトウェアシステムにおいては、各文献についてキーワードとの相関スコァを計算し、文献のランキングを行った後、各文献に記述されている遺伝子関連語句を表示する手法が用いられて、る。

[0003] ここで、キーワードに関連の深い有望な遺伝子を見つける方法として、特許文献 1 は、遺伝子相互関係を各遺伝子の発現のタイミング力も推定する方法である。また、特許文献 2は、端点キーと端点キーを結ぶオブジェクトを検索する連結検索を行って優先付けし、多数の遺伝子の中からより有望なものを取り込み検索して、優先度をつけて提示する装置である。

[0004] また、キーワードの選定を容易にするために、キーワードをグループィ匕して関連するキーワードを検索する方法としては、以下の特許文献 3から 5に記載のものがある。すなわち、特許文献 3は、キーワードと、キーワードに関連したキーワードとを同時に検索するものであり、互いに関連するキーワードをグループ分けする装置である。また、特許文献 4には、キーワードをグループィ匕することが開示されている。また、特許文献 5は、複数の設計データ力実績のある設計データを抽出する装置であり、統計処理により設計データを評価する装置である。 [0005] また、非特許文献 1 (2001年度成果報告論文）に記載の汎用連想計算エンジン（ GETA： Generic Engine for Transposabie Associationパま、文書検索におけ頻度付きインデックスデータ（どの文書にどの単語が何回出現するというデータ）を典型とする大規模かつ粗な行列を対象として、行と行あるいは列と列 (具体的には文書間および単語間）の類似度を内積型メジャーで高速計算するツールである。

[0006] 特許文献 1 :特開 2003— 141123号公報

特許文献 2：特開 2001— 290822号公報

特許文献 3：特開平 8 - 30629号公報

特許文献 4 :特開 2006— 72671号公報

特許文献 5 :特開平 10— 149376号公報

非特許文献 1：高野明彦ほか、 "汎用連想計算エンジンの開発と大規模文書分析への応用"、 [online], 2002年、高野明彦、 [平成 19年 3月 23日検索]、インターネット < URL： http://geta.ex.nii.ac.jp/pdf/itx2002.pdf>

発明の開示

発明が解決しょうとする課題

[0007] し力しながら、キーワードから文献セットを検索し、ヒットした文献に含まれる遺伝子を抽出する従来の方法においては、必ずしもキーワードに関連の深い有望な遺伝子を上位に抽出することができないという問題がある。また従来の方法では、キーワードの選定が難しぐ利用者の熟達を要するという問題がある。

[0008] 特に、特許文献 1の方法は、関連する遺伝子を遺伝子発現のタイミングから遺伝子制御の関連を調べることを目的とするものであり、関連を調べるためには、 DNAマイクロアレイなどを用いてのタイミングデータの取得を要するという問題がある。

[0009] また、特許文献 2の方法では、両端点キーの選定は、利用者の試行錯誤を伴うものであり、依然として適切なキーワードを選定することが困難であるという問題がある。

[0010] また、特許文献 3から 5のいずれか一つに記載の装置または方法では、いずれもグループ化するために予めキーワードの設定を必要し、目的とする遺伝子に到達するためのキーワードの選定が難しぐまた手作業でのグループィ匕の設定は煩わしいという問題がある。 [0011] また、特許文献 1から 5のいずれの装置または方法においても、ポジショナルクローニングの問題解決において、遺伝子のゲノム範囲上を考慮して検索結果を絞り込むことができない、という問題点があった。

[0012] 総じて、利用者が入力したキーワードと遺伝子との関連性の強さを統計学的な有意性確率で評価することができない問題があった。そして、文献セットからキーワードを検索しヒットした文献に含まれる遺伝子を抽出する従来の方法における、必ずしもキ一ワードに関連の深、有望な遺伝子を上位に抽出することができな、と、う課題は、上述した方法 ·装置を用 V、ても解決できな、と、う問題があった。

[0013] また、非特許文献 1に記載の GETAを用いて、キーワードと各バイオアイテム名との類似度を計算する場合には、該キーワードを列とし各文献の文書を行とする行列と、該バイオアイテム名を列とし各文献の文書を行とする行列との間で、行列どうしの演算処理が必要となる。これを文献数が 1千万件以上ある場合に適用しょうとすると、該文献数と同じ行数の行列どうしの演算処理を検索実行のたびにバイオアイテム名の個数と同じ回数繰り返す必要があり、計算処理に膨大な時間が力かってしまうという問題があった。

[0014] また、非特許文献 1に記載の GETAにお!/、ては、ポジショナルクローニングの問題解決において、検索結果であるバイオアイテムおよび関連するバイオアイテムを、それらのゲノム位置で絞り込むことができな力つた。また、 GETAで計算される類似度は関連性の強さを有意性確率で表すものではないため統計学的な解釈ができず、他の有意性確率と合成して総合的な評価をすることができな力つた。また、 GETAでは、キーワードと類似するバイオアイテム、および、キーワードと類似するノィオアィテムに関連する関連バイオアイテムを統計学的な有意性確率に基づいて高速に順位付けすることができな力つた。さらに、 GETAが扱う行列では列が各単語に対応しており、バイオアイテム名やブール論理式でキーワードを組み合わせた条件式のような複数の単語の組合せを 1つの列とする行列で準備できないため、計算処理に余計な時間が力かってしまう問題があった。このため、検索時に文献数と同じ行数の行列どうしの演算処理をすることなぐ相関スコアを高速に計算できる方法が必要とされていた。また、統計学的に解釈可能な有意性確率を相関スコアとして計算できる方法が必要とされていた。

[0015] また上述した方法'装置を用いても、利用者が入力したキーワードと、任意のバイオアイテム 1と、任意のバイオアイテム 2と、力なる 3者の組合せに対して、上記キーヮードを含むか含まないか、上記バイオアイテム 1を含む力含まないか、上記バイオアィテム 2を含むか含まないか、の 8通りの分類項目に分類される上記文献の文献数からなるテーブル（3次元の文献数テーブル)を高速に生成することはできなカゝつた。

[0016] 本発明が解決しょうとする課題には上述した問題が一例として挙げられる。

[0017] 本発明は、上記に鑑みてなされたものであって、優先付け又は関連付けのためのグループィ匕の設定を必要としないで、文献セット全体に対してキーワードに関連する文献数を調べることにより、キーワードとバイオアイテムとの相関スコアを統計処理により求め、ランキング表示 ·関連アイテムの発見を可能とするバイオアイテム検索装置、ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラムを提供することを目的とするものである。また、ポジショナルクローニングの問題解決において、大規模な文献セットを用いてキーワードに関連する遺伝子を検索し、目的とする遺伝子をより上位に結果表示させる、ノィォアイテム検索装置、バイオアイテム検索方法、および、プログラムを提供することを目的とする。

[0018] また、計算処理に膨大な時間がかかる、キーワードを含む文献の数と同じ行数の行列どうしの演算処理をすることなぐ検索時に余計な計算処理時間を力けずに済む、ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラムを提供することを目的とする。また、統計学的な有意性確率で評価することができ、他の有意性確率と合成して総合的な評価をすることができ、高速に順位付けすることができる、バイオアイテム検索装置、バイオアイテム検索方法、および、プログラムを提供することを目的とする。

課題を解決するための手段

[0019] このような目的を達成するため、請求項 1に記載のバイオアイテム検索装置は、利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段、を備え、上記制御装置は、上記各バイオアイテム文献セットにおいて、上記キーワードを該バイォアイテム文献セットの中力検索し、該バイオアイテム文献セットのうち上記キーヮードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得手段と、上記文献数取得手段によって取得された上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出手段と、上記候補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作成するテーブル作成手段と、上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づ!/、て、該バイオアイテムと上記キーワードとの相関スコアを算出する相関スコァ算出手段と、上記相関スコア算出手段によって算出された上記相関スコアに基づいて、上記候補バイオアイテムを上記出力装置に出力する出力手段と、を備えたことを特徴とする。

[0020] また、請求項 2に記載のバイオアイテム検索装置は、請求項 1に記載のバイオアイテム検索装置において、上記記憶装置は、上記各バイオアイテム文献セットに含まれる全ての上記文献を有する全文献セットを記憶する全文献セット記憶手段、を更に備え、上記文献数取得手段は、更に、上記キーワードを上記全文献セットの中から検索し、上記キーワードを含む文献数 Nkを取得し、上記テーブル作成手段は、上記候補バイオアイテム毎に、上記 a)上記文献数 Nh、上記 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、 c)上記キーワードを含み且つ上記ノィォアイテム名を含まない文献数 (Nk— Nh)、および、 d)上記キーワードを含まず且つ上記バイオアイテム名を含まな、文献数 (上記全文献セットの総文献数—上記ノィォアイテム文献セットの文献数 Nk + Nh)、のうち少なくとも一つカゝら構成される上記文献数テーブルを作成すること、を特徴とする。

[0021] また、請求項 3に記載のバイオアイテム検索装置は、請求項 1または 2に記載のバイォアイテム検索装置において、上記記憶装置は、任意の 2つの上記バイオアイテムと、該 2つの上記バイオアイテムの共起相関スコアと、を対応付けて記憶するバイオアィテム関係データベース、を更に備え、上記制御装置は、上記バイオアイテム関係データベースに記憶された上記共起相関スコアに基づ、て、上記候補バイオアイテムと相関関係を有する上記バイオアイテムを関連バイオアイテムとして抽出する関連バィォアイテム抽出手段と、

上記関連ノィォアイテムと上記キーワードとの合成相関スコアを、該候補バイオアイテムの上記相関スコアと上記共起相関スコアとを合成することによって求める合成相関スコア算出手段と、を更に備え、上記出力手段は、上記合成相関スコア算出手段によって算出された上記合成相関スコアに基づいて、上記関連バイオアイテムを上記出力装置に出力すること、を特徴とする。

[0022] また、請求項 4に記載のバイオアイテム検索装置は、請求項 3に記載のバイオアイテム検索装置において、上記制御装置は、上記任意の上記 2つの上記バイオアイテムのうち、一方の上記バイオアイテム文献セットの中から、他方の上記バイオアイテム名を検索することにより得られた、 i)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含む文献数、 j)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム名を含む文献数、 k)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含まな！/、文献数、および、 m)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テーブルを用いて、上記統計計算に基づいて、上記共起相関スコアを算出する共起相関スコア算出手段と、上記共起相関スコア算出手段によって算出された上記共起相関スコアを、上記 2つの上記バイオアイテムに対応付けて、上記バイオアイテム関係データベースに格納するバイオアイテム関係データベース化手段と、を備えたことを特徴とする。

[0023] また、請求項 5に記載のバイオアイテム検索装置は、請求項 3または 4に記載のバイォアイテム検索装置において、上記合成相関スコア算出手段は、上記合成相関スコァを、下記の数式 1、または、該数式 1の近似式に基づいて、合成すること、を特徴とする。 P= l—（1 PI) (1 Ρ2) · · · (数式 1)

(ここで、 Ρは、上記合成相関スコアであり、 P1は、上記候補バイオアイテムの上記相関スコアであり、 Ρ2は、上記共起相関スコアである。 )

[0024] また、請求項 6に記載のバイオアイテム検索装置は、請求項 1乃至 5のいずれか一つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテムに対応するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶する位置情報データベースと、上記利用者により入力された、上記目的とする上記バイオアイテムに対応する上記ゲノム染色体上の位置を含む、ゲノム領域を示すゲノム領域情報を記憶する領域情報記憶手段と、を更に備え、上記制御装置は、上記候補バイオアイテムまたは上記関連バイオアイテムについて、上記位置情報データベースに記憶された、該バイオアイテムに対応する上記ゲノム位置情報に基づく位置が、上記ゲノム領域情報の上記ゲノム領域に含まれるか否かを判断し、上記ゲノム領域に含まれると判断された場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御するゲノム領域判定手段、を更に備えたことを特徴とする。

[0025] また、請求項 7に記載のバイオアイテム検索装置は、請求項 1乃至 6のいずれか一つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテムに対応する識別子を示す識別子情報を関連付けて記憶する識別子情報データベースと、上記利用者により入力された、上記目的とする上記バィォアイテムに対応する、一つ又は複数の上記識別子情報を記憶する目的バイオアィテム識別子記憶手段と、を更に備え、上記制御装置は、上記候補バイオアイテムまたは上記関連バイオアイテムにつ、て、上記識別子情報データベースに記憶された、該ノィォアイテムの上記識別子情報に基づく上記識別子が、上記目的バイオアイテム識別子記憶手段に記憶された上記識別子情報の上記一つまたは複数の上記識別子に含まれるか否かを判断し、該識別子に含まれると判断された場合に、該候補ノィォアイテムまたは該関連バイオアイテムを出力するよう制御する識別子判定手段、を更に備えたことを特徴とする。

[0026] また、請求項 8に記載のバイオアイテム検索装置は、請求項 1乃至 7のいずれか一つに記載のバイオアイテム検索装置において、上記文献数取得手段は、任意の 2つの上記候補バイオアイテムのうち、一方の上記候補バイオアイテムの上記バイオアイテム文献セットの中から、他方の上記バイオアイテム名を含み且つ上記キーワードを含む文献数 Nsを検索により取得し、上記テーブル作成手段は、上記文献数 Ns、上記 2つの上記候補バイオアイテムに係る上記文献数テーブル、および、上記 2つの上記候補バイオアイテムに係る上記共起文献数テーブルに基づ、て、 3次元の上記文献数テーブルを作成し、上記相関スコア算出手段は、上記 3次元の上記文献数テーブルを用いて、上記統計計算に基づいて、上記 2つの上記候補バイオアイテムと上記キーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算出手段、を備え、上記出力手段は、上記共起キーワード相関スコア算出手段によつて算出された上記共起キーワード相関スコアを、上記 2つの上記候補バイオアイテムと対応付けて、上記出力装置に出力すること、を特徴とする。

[0027] また、請求項 9に記載のバイオアイテム検索装置は、請求項 8に記載のバイオアイテム検索装置において、上記共起キーワード相関スコア算出手段は、上記 3次元の上記文献数テーブルを用いて、上記キーワードを含む場合の上記 2つの候補バイオアイテムの相関スコアをキーワードあり相関スコアとして算出し、上記キーワードを含まない場合の上記 2つの候補バイオアイテムの相関スコアをキーワードなし相関スコァとして算出し、該キーワードあり相関スコアと該キーワードなし相関スコアとの、両方および Zまたは比較結果を、上記共起キーワード相関スコアとして算出すること、を特徴とする。

[0028] また、請求項 10に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、上記統計計算は、検定に基づいて上記相関スコアを算出すること、を特徴とする。

[0029] また、請求項 11に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、上記統計計算は、フィッシャーの正確確率検定 (Fisher's Exact Test),カイ二乗検定、または、ベイズ条件付確率を用いること、を特徴とする。

[0030] また、請求項 12に記載のバイオアイテム検索装置は、請求項 1乃至 11のいずれか一つに記載のバイオアイテム検索装置において、上記出力手段は、上記候補バイオアイテムまたは上記関連バイオアイテムを、対応する上記相関スコア、上記共起キーワード相関スコア、または、上記合成相関スコアに基づいて、順位付けして出力装置に出力する検索結果順序出力手段、を備えたことを特徴とする。

[0031] また、請求項 13に記載のバイオアイテム検索装置は、請求項 1乃至 12のいずれか一つに記載のバイオアイテム検索装置において、上記バイオアイテム名は、概念語を含むこと、を特徴とする。

[0032] また、請求項 14に記載のバイオアイテム検索端末装置は、請求項 1乃至 13に記載のバイオアイテム検索装置に接続された、少なくとも制御部と入力部と出力部を備えたバイオアイテム検索端末装置であって、上記制御部は、上記利用者に、上記入力部を介して上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を入力させるよう制御する入力制御手段と、上記入力制御手段によって入力された、上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を、上記バィォアイテム検索装置に送信する送信手段と、上記送信手段によって送信された、少なくとも上記キーワードに基づいて上記バイオアイテム検索装置から出力された、上記候補バイオアイテム、上記関連バイオアイテム、または、上記共起キーワード相関スコアを受信し、上記出力部に出力する受信出力手段と、を備えたことを特徴とする。

[0033] また、請求項 15に記載のバイオアイテム検索方法は、利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたノィォアイテム検索装置において実行されるバイオアイテム検索方法であって、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオアイテム文献セットを記憶するバイオアイテム文献セット記憶手段、を備えており、上記制御装置において実行される、上記各バイオアイテム文献セットにおいて、上記キーワードを該バイオアイテム文献セットの中力検索し、該バィォアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得ステップと、上記文献数取得ステップにお、て取得された上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ステップと、上記候補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作成するテーブル作成ステップと、上記候補バイオアィテム毎に、上記文献数テーブルを用いて統計計算に基づいて、該バイオアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステップと、上記相関スコァ算出ステップにお、て算出された上記相関スコアに基づ、て、上記候補バイオアィテムを上記出力装置に出力する出力ステップと、を含むことを特徴とする。

また、請求項 16に記載のプログラムは、利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置に実行させるプログラムであって、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオアイテム文献セットを記憶するノィォアイテム文献セット記憶手段、を備えており、上記制御装置において実行される、上記各バイオアイテム文献セットにおいて、上記キーワードを該バイオアイテム文献セットの中力も検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記ノィォアイテム毎に取得する文献数取得ステップと、上記文献数取得ステップにお、て取得された上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ステツプと、上記候補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該ノィォアイテムの上記バイオアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作成するテーブル作成ステップと、上記候補バイオアイテム毎に、上記文献数テーブルを用、て統計計算に基づ、て、該バイオアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステップと、上記相関スコア算出ステップにお、て算出された上記相関スコアに基づいて、上記候補バイオアイテムを上記出力装置に出力する出力ステップと、を含む方法をバイオアイテム検索装置に実行させることを特徴とする発明の効果 [0035] 本発明によれば、バイオアイテムを検索するためのキーワードにつ、ては、従来手法ではバイオアイテム名（例えば、遺伝子名や疾患名や蛋白質名や薬品名等)などのバイオアイテムを特定する語句に限られていた力本手法においては、表現形 (フエノタイプ） t ヽつた自然言語での記述で使われる単語やフレーズやその論理式 (AN Dや ORや NOT等）、さらにはワイルドカード (任意の文字列を表す〃 * "や任意の一文字を表す"？〃等)等力もなる任意のキーワードを用いることができる。

[0036] また、本発明によれば、疾患関連遺伝子多型の探索研究における各患者の表現型と遺伝子型を記述した文書を各文献とし、各遺伝子型を各バイオアイテムとすれば、表現型に関する語句をキーワードとして用いることで、該表現型に最も相関する遺伝子型を統計学的な有意性確率の順位で高速に検索することができる。

[0037] また、本発明によれば、キーワード、キーワードとバイオアイテム（一例として、遺伝子等）に関連する文献数に基づいた統計処理を行うことにより、有望なバイオアイテム（一例として、遺伝子）をより上位にランキングさせることが可能となる。

[0038] また、本発明によれば、相関スコアに基づ、て、各バイオアイテム間でランキングを行い、出力（例えば、表示、印刷、記録媒体への格納等)することにより、利用者が目的とするバイオアイテムの発見精度をより高める効果が期待できる。

[0039] また、本発明によれば、キーワードに関連するノィォアイテムがゲノム領域 (以下「ィンターバル」と呼ぶ）に存在しない場合など直接検索の検索結果 (直接検索による解 )がない場合であっても、そのバイオアイテムに関連しインターバルに存在する関連ノィォアイテムを推論することができる。このようにバイオアイテム間の推論を実行し、推論検索による解を求めることにより、キーワードと間接的に関係のあるバイオアイテムをも検索することができる。

[0040] また、本発明によれば、間接検索 (バイオアイテムの推論）によって、目的とするバイォアイテムに到達するためのキーワードをより柔軟に選択することが可能となる。

[0041] また、本発明によれば、利用者は、目的とするバイオアイテムのゲノム領域 (インタ一バル)情報を入力することによってゲノム配列上の位置を指定し、このインターバルに存在するノィォアイテム（一例として、遺伝子など）の抽出において、キーワードに関連するバイオアイテム力 Sインターバルに存在して、な、場合であっても、この遺伝子と文献上で共起し当該インターバルに存在する遺伝子を取得することができるという効果を奏する。

[0042] また、本発明によれば、バイオアイテム名は、概念語を含むことにより、より正確な検索精度の向上を図ることができる。

[0043] また、本発明によれば、利用者が入力したキーワードを含む文献の数を文献セットから検索して取得し、かつ、利用者が入力したキーワードを含む文献の数をバイオアィテム文献セットから検索して取得し、これらスカラー量力相関スコアを計算することにより、文献数と同じ行数の行列どうしの演算処理をすることなぐ相関スコアを計算することを可能にすることができ、バイオアイテム検索に力かる処理時間をより短縮できる。

[0044] また、本発明によれば、バイオアイテム名が複数の単語の組合せカゝら構成される場合でも、事前にバイオアイテムを含む文献のみをバイオアイテム文献セットとして抽出しておくことにより、検索時には余計な計算処理時間をかけないで済むという効果を奏する。

[0045] また、本発明によれば、利用者が入力したキーワードとバイオアイテム（一例として、遺伝子など)との関連性の強さを統計学的な有意性確率で評価することができ、他の有意性確率と合成して総合的な評価をすることができるため、利用者が目的とするバィォアイテムを選ぶ際の判断基準の信頼性をより高めることができる。

[0046] また、本発明によれば、キーワードと類似するバイオアイテム、および、キーワードと類似するバイオアイテムに関連する関連バイオアイテムを、統計学的な有意性確率に基づいて高速に順位付けすることができるため、利用者が目的とするバイオアイテムを選ぶ際の判断基準の信頼性をより高めることができる。

[0047] また、本発明によれば、キーワードに関連するバイオアイテムが、利用者により入力された識別子情報により指定されたノィォアイテム群 (以下「グループ」と呼ぶ）に存在しない場合など直接検索の検索結果 (解)がない場合であっても、そのバイオアイテムに関連しグループに存在する関連ノィォアイテムを推論するこができる。

[0048] また、本発明によれば、利用者により入力されたキーワードと、任意の一方のバイオアイテムと、任意の他方のバイオアイテムと、の 3者力成る組合せに対して、キーヮードを含むか含まないか、一方のバイオアイテムを含む力含まないか、他方のバイオアイテムを含む力含まないか、の 8通りの分類項目に分類される文献数力もなる 3次元の文献テーブル (文献数 3次元テーブル)を高速に生成し、文献数 3次元テーブルを用いて共起キーワード相関スコアを算出して出力するので、一方のバイオアイテムと他方のバイオアイテムの共起関係の強さ力キーワードの有無でどのように違うかを利用者に提示することができる。

図面の簡単な説明

[図 1]図 1は、本発明の基本原理を示す原理構成図である。

[図 2]図 2は、文献数テーブルの一例を示す図である。

[図 3]図 3は、相関スコア計算用の文献数テーブルの一例を示す図である。

[図 4]図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すブロック図である。

[図 5]図 5は、本実施形態における本システムの直接検索処理の一例を示すフローチヤートである。

[図 6]図 6は、本実施形態における本システムの間接検索処理の一例を示すフローチヤートである。

[図 7]図 7は、キーワードとバイオアイテム間の関係を模式的に示した図である。

[図 8]図 8は、 3次元の文献数テーブルを作成する方法を模式的に示した図である。

[図 9]図 9は、「キーワードあり相関スコア」と「キーワードなし相関スコア」を算出するための文献テーブルの一例を示す図である。

[図 10]図 10は、シングルインターバルモードでバイオアイテムを検索する際のデータの流れを示した図である。

[図 11]図 11は、バイオアイテム全文検索器 120の概要を示す図である。

[図 12]図 12は、シングルインターバルモードにおける動作をフローチャートで表した図である。

[図 13]図 13は、カタログセットに対し、シングルインターバルモードでバイオアイテムを検索する際のデータの流れを示した図である。

[図 14]図 14は、カタログセットに対し、シングルインターバルモードでバイオアイテムを検索する際の動作をフローチャートとして表した図である。

[図 15]図 15は、マルチプルインターバルモード検索のデータの流れを示す概念図である。

[図 16]図 16は、マルチプルインターバルモード検索の動作を表すフローチャートである。

[図 17]図 17は、ドキュメント検索用システムアーキテクチャの一例を示す図である。

[図 18]図 18は、文献数取得サーバのアーキテクチャの一例を示す図である。

[図 19]図 19は、分散文献検索サーバのアーキテクチャの一例を示す図である。

[図 20]図 20は、カタログ検索用システムのアーキテクチャの一例を示す図である。

[図 21]図 21は、シングルインターバルモードにおけるカタログ検索結果表示画面の一例を示す図である。

[図 22]図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画面の一例を示す図である。

[図 23]図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示画面の一例を示す図である。

[図 24]図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示画面の一例を示す図である。

[図 25]図 25は、シングルインターバルモード (インターバルを指定しない場合）における複数の文献セット種を用いた直接検索結果表示画面の一例を示す図である。

[図 26]図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例を示す図である。

[図 27]図 27は、シングルインターバルモードにおける複数の文献セット種を用いた直接検索結果と間接検索結果の表示画面の一例を示す図である。

[図 28]図 28は、シングルインターバルモードにおける識別子の列を指定して複数の文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例を示す図である。

[図 29]図 29は、マルチプルインターバルモードにおける複数の文献セット種を用いた検索結果表示画面の一例を示す図である。 [図 30]図 30は、キーワード diabetesとマウス遺伝子 Rradとの関連文献の詳細を表示した例を示す図である。

[図 31]図 31は、マウス遺伝子 Insrとマウス遺伝子 Irslの間の関連文献の詳細を表示した例を示した図である。

[図 32]図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を示す図である。

[図 33]図 33は、ユーザクライアント 500である Webブラウザ上で上記（5)、（6)における合成文献数テーブルの作成の方法を利用者が指定する例を示した図である。

[図 34]図 34は、バイオアイテム検索端末装置 600の構成の一例を示すブロック図である。

[図 35]図 35は、バイオアイテム検索端末装置 600の処理の一例を示すフローチヤ一トである。

符号の説明

100 バイオアイテム検索装置

102 制御部

102a 文献数取得部

102b 候補バイオアイテム選出部

102c テーブル作成部

102d 相関スコア算出部

102e 共起相関スコア算出部

102f バイオアイテム関係データベース化部

102g 関連バイオアイテム抽出部

102h 合成相関スコア算出部

1021 出力部

10¾ ゲノム領域判定部

102k 識別子判定部

102m 共起キーワード相関スコア算出部

102η 検索結果順序出力部 104 通信制御インターフェース部 106 記憶部

106a 全文献セットファイル

106b バイオアイテム文献セットファイル 106c バイオアイテム関係データベース 106d 位置情報データベース

106e 識別子情報データベース 108 入出力制御インターフェース部 110 全文検索器

112 入力装置

114 出力装置

120 バイオアイテム全文検索器

200 バックエンド

201 バックエンド管理サーバ

202 文献数取得サーバ

203 インターフェース

204 文献全文検索器

206d 位置情報データベース

206c バイオアイテム関係データベース

210 分散文献検索サーバ

211 インターフェース

212 文献全文検索器

2121 アイテム領域判定器

212d 相関スコア計算器

212e バイオアイテム推論器

212f バイオアイテム名テーブル

250 外部システム

300 ネットワーク 400 システム管理サーバ

500 ユーザクライアント

600 バイオアイテム検索端末装置

602 制御部

602a 入力制御部

602b 送信部

602c 受信出力部

604 通信制御インターフェース部

606 記憶部

608 入出力制御インターフェース部

612 入力部

614 出力部

発明を実施するための最良の形態

[0051] 以下に、本発明に力かるバイオアイテム検索装置、ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

[0052] [本発明の概要]

以下、本発明の概要について図 1〜図 3を参照して説明し、その後、本発明の構成および処理等について詳細に説明する。図 1は、本発明の基本原理を示す原理構成図である。本発明は、概略的に、以下の基本的特徴を有する。

[0053] 一例として図 1に示すように、本バイオアイテム検索装置は、利用者により入力されたキーワードから目的のバイオアイテム (例えば、遺伝子、遺伝子多型、疾患、薬品、バイオリソース、文献フォルダ、蛋白質、人物、集団、組織、化合物、専門用語等)を検索するバイオアイテム検索装置である。ノィォアイテム検索装置は、少なくとも制御装置と記憶装置と出力装置とを備えている。ここで、「文献フォルダ」とは、 1以上の文献力なる集合を規定するものであり、コンピュータ上で文書データのファイルを格納させることができるフォルダを例として挙げることができる。この場合、文献フォルダのバイオアイテム名として、該文献フォルダのフォルダ名または該文献フォルダのパス名（絶対パス、相対パス、インターネット上における Universal Resource Locator) を好適に用いることができ、該フォルダに含まれる文献または該文献フォルダ以下に含まれるすべての文献を有する文献セットを該バイオアイテムのバイオアイテム文献セットとすることができる。

[0054] そして、本バイオアイテム検索装置は、バイオアイテム毎に、該バイオアイテムのバィォアイテム名が記載された文献を有するバイオアイテム文献セットを記憶する（図 1 の「バイオアイテム文献セットファイル 106b」）。ここで、本バイオアイテム検索装置は、これらバイオアイテム文献セットファイル 106bに記憶された、バイオアイテム l〜nのノィォアイテム文献セットに含まれる全ての文献を有する全文献セットを記憶してもよい（図 1の「全文献セットファイル 106a」 )。

[0055] ここで、「文献」とは、記憶装置に記録できるひとまとまりの文書データを!、、、フアイル名又は識別子で特定可能な文書データも文献の一形態である。具体的には、文献の一例として、 MEDLINE (Medical Literature Analysis and Retrieval System

On— Line)データベースや OMIM (Online Mendelian Inheritance in Man)データベースの各レコードを挙げることができる。さらに、文書データをファイルとして扱う場合は、該文書データおよび該文書データのファイルパス名をあわせてひとつの文献とすることもできる。また、「文献セット」とは 1つ以上の文献に基づいて生成されたデータであり、任意のキーワードに対して、そのキーワードが記載されている文献数を算出できるように構成されたデータである。好ましい実施の形態としては、文献セットは、任意のキーワードに対して、該文献数を高速に算出できるように、インデックス情報を含むデータである力本発明がこれに限定されるものではない。また、「バイオアイテム名」は、バイオアイテムの名称である。ここで、バイオアイテム名は、複数の単語の組合せ力構成されてもよぐ概念語を含んで、てもよ!/、。

[0056] 図 1に示すように、まず、本発明の本バイオアイテム検索装置は、利用者によりキーワードが入力されると（SA— 1)、バイオアイテム文献セットファイル 106bに記憶された各バイオアイテム文献セットの中力もキーワードを検索し、ノィォアイテム文献セットのうちキーワードを含む文献の数 Nhを、バイオアイテム l〜n毎に取得する（SA— 2 ) oここで、本バイオアイテム検索装置は、全文献セットファイル 106aに記憶された全文献セットの中力もキーワードを検索し、全文献セットのうちキーワードを含む文献の数 Nkを取得してもよい。

[0057] つぎに、本バイオアイテム検索装置は、取得された文献数 Nhが 1以上であるバイオアイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する（SA—3)

[0058] そして、本バイオアイテム検索装置は、候補バイオアイテム毎に、 a)文献数 Nh、および Zまたは、 b)キーワードを含まず且つバイオアイテム名を含む文献の数 (該バイォアイテムのノィォアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作成する（SA— 4)。ここで、本バイオアイテム検索装置は、上記 a)、上記 b)、並びに、 c)キーワードを含み且つバイオアイテム名を含まな!/、文献数 (Nk— Nh)、および、 d)キーワードを含まず且つノィォアイテム名を含まな、文献数 (全文献セットの総文献数バイオアイテム文献セットの文献数 Nk+Nh)、のうち少なくとも一つから構成される文献数テーブルを作成してもよい。ここで、「文献数テーブル」について、図 2および図 3を用いて説明する。図 2は、文献数テーブルの一例を示す図である。

[0059] 図 2に示すように、文献数テーブルは、 a)キーワードを含み且つバイオアイテム名を含む文献の数、 b)キーワードを含まず且つ候補バイオアイテム名を含む文献の数、 c )キーワードを含み且つバイオアイテム名を含まない文献の数、および、 d)キーワードを含まず且つ候補バイオアイテム名を含まな、文献の数、の 4つの項目 a)〜d)のうち少なくとも一つカゝら構成される。次に、この文献数テーブルに文献数を格納し、文献数テーブルを作成する方法の一例を、図 3を参照して説明する。図 3は、相関スコァ計算用の文献数テーブルの一例を示す図である。

[0060] 図 3に示すように、図 2の説明で用いた記号に対応付けて説明すると、本バイオアイテム検索装置は、項目 a)に文献数 Nhを、項目 b)に (Ng— Nh)を、項目 c)に (Nk— Nh)を、および、項目 d)に（Nail— Nk+Nh— Ng)を設定し、 4つの項目 a)〜d)のうち少なくとも一つから構成される文献数テーブルを作成する。ここで、 Ngは、対応するバイオアイテムのバイオアイテム文献セットの文献数であり、 Nailは、全文献セットフアイル 106aに記憶された全文献セットの総文献数である。ここで、本発明の文献テーブノレは、上記の 1次元または 2次元の文献テーブルに限られず、 3次元の文献テーブルであってもよい。なお、 3次元の文献テーブルの実施の形態は、後に詳しく説明する。

[0061] つづいて、図 1に戻り、本バイオアイテム検索装置は、候補バイオアイテム毎に、作成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテムとキーワードとの相関スコアをそれぞれ算出する（SA— 5)。ここで、統計計算は、検定を用いてもよぐフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。これにより、各候補バイオアイテムとキーワードとの相関スコアに検定での有意性確率を反映させ、統計学的に解釈可能な相関スコアを算出することができる。また、相関スコアとして検定の有意性確率を用いる場合は、相関が強いほど当該相関スコアの値が小さくなる力逆に、相関が強いほど値が大きくなるように、相関スコアを定義して用いてもよい。このほか、相関スコアの定義として、文献数テープルの項目 a)が大きいほど相関が強くなる傾向に定義した相関スコアを用いてもよぐまた、文献数テーブルの項目 b)が大きいほど相関が弱くなる傾向に定義した相関スコアを用いてもよい。また、文献数テーブルの項目 c)が大きいほど相関が弱くなる傾向に定義した相関スコアを用いてもよぐまた、上記傾向を満たすように、文献数テーブルの項目 a)のみから定義した相関スコアを用いてもよぐまた、上記傾向を満たすように文献数テーブルの項目 a)および項目 b)のみ力定義した相関スコア用いてもよぐまた、上記傾向を満たすように文献数テーブルの項目 a)および項目 c)のみから定義した相関スコアを用いてもよぐまた、上記傾向を満たすように文献数テーブルの項目 a)、項目 b)および、項目 c)のみ力定義した相関スコアを用いてもよぐまた、上記傾向を満たすように文献数テーブルの項目 a)、項目 b)、項目 c)および項目 d) 力も定義した相関スコアを用いてもよい。また、上記相関スコアの定義力文献数テ一ブルの項目 a)、項目 b)、項目 c)、および、項目 d)のすベての値に基づかな!/、場合は、該相関スコアの定義に基づ力ない項目を算出しなくてもよい。この他、 2種類以上の上記相関スコアに基づいて定義された 1つの相関スコアを上記相関スコアとして用いてもよい。

[0062] 最後に、本バイオアイテム検索装置は、算出された相関スコアに基づいて、候補バィォアイテムを出力装置に出力する（SA— 6)。ここで、本バイオアイテム検索装置は、候補バイオアイテムを順位付けして出力装置に出力してもよい。

[0063] 次に、本発明の別態様について説明を行う。

[0064] 本発明の別態様における本バイオアイテム検索装置は、任意の 2つのバイオアイテムと、 2つのバイオアイテムの共起相関スコアと、を対応付けて記憶するバイオアイテム関係データベース 106cを備えて構成される。

[0065] ここで、共起相関スコアの算出の一例として、本バイオアイテム検索装置は、上記 2 つのバイオアイテムのうち、一方のバイオアイテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を検索することにより得られた、 i)一方のバイオアイテム名を含み且つ他方のバイオアイテム名を含む文献数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のノィォアイテム名を含み且つ他方のバイオアイテム名を含まない文献数、および、 m)—方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含まな!/ヽ文献数、のうち少なくとも一つ力も構成される共起文献数テーブルを用いて、統計計算に基づいて、共起相関スコァを算出する (SA— 7)。そして、本バイオアイテム検索装置は、算出された共起相関スコアを、上記 2つのバイオアイテムに対応付けて、バイオアイテム関係データべース 106cに格納しておく（SA— 8)。

[0066] まず、本発明の別態様における本バイオアイテム検索装置は、バイオアイテム関係データベース 106cに記憶された共起相関スコアに基づいて、選出された候補バイオアイテムと相関関係を有するバイオアイテムを、関連バイオアイテムとして抽出する（S A— 9)。

[0067] つぎに、本バイオアイテム検索装置は、関連バイオアイテムとキーワードとの合成相関スコアを、元となった候補バイオアイテムの相関スコアと共起相関スコアとを合成することによって求める（SA— 10)。

[0068] ここで、合成相関スコアは、下記の数式 1に基づいて、算出してもよい。

P= l—（1 PI) (1 Ρ2) · · · (数式 1)

(ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムの相関スコアであり

、 P2は、共起相関スコアである。 ) [0069] また、ここで、上記数式 1の近似式として、 P1や P2が 1より十分小さいという仮定のもとに、これら P1や P2同士の積を 0とみなす下記の近似式 (数式 1 1)を適用してもよい。

P = P1 + P2 · · · (数式 1— 1)

また、数式 1を対数のままで計算したい場合には、数式 1を対数で計算できるように近似した下記の近似式 (数式 1 2)を適用してもよ!/ヽ。

Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)

(ここで、 Max{A, B}は A, Bのうち小さくない方を選ぶ関数である）

[0070] 最後に、本バイオアイテム検索装置は、算出された合成相関スコアに基づいて、関連バイオアイテムを出力装置に出力する（SA— 11)。以上が、本発明の別態様の説明である。

[0071] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶してもよい（図 1 の「位置情報データベース 106d」 )。

[0072] この場合、利用者により目的とするバイオアイテムに対応するゲノム染色体上の位置を含むゲノム領域情報の入力があると (SA— 1)、本バイオアイテム検索装置は、候補バイオアイテムまたは関連バイオアイテムにつ、て、位置情報データベース 106 dに記憶された、該バイオアイテムに対応するゲノム上の位置力利用者により入力されたゲノム領域に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する（SA— 12)。

[0073] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応する識別子を示す識別子情報を関連付けて記憶してもよヽ (図 1の「識別子情報データベース 106e」）。

[0074] この場合、利用者により目的とするノィォアイテムに対応する一つ又は複数の識別子情報の入力があると (SA—1)、本バイオアイテム検索装置は、候補バイオアイテムまたは関連バイオアイテムについて、識別子情報データベース 106eに記憶された、該バイオアイテムに対応する識別子情報に基づく識別子が、利用者により入力された一つ又は複数の識別子に含まれるカゝ否かを判断し、含まれると判断した場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する（SA— 1 3)。

[0075] また、利用者がコンピュータを操作して入力したキーワードを、該コンピュータから上記バイオアイテム検索装置の上記制御装置に、ネットワーク経由で送信するためのプログラムを該コンピュータに実行させてもよい。好適には該コンピュータのウェブブラウザが解釈可能な HTML (ノヽィパーテキストマークアップランゲージ）のファイルを上記プログラムとして用いることができる。

[0076] ここで、上記コンピュータとしてバイオアイテム検索端末装置を用いてもよ!、。バイオアイテム検索端末装置は、ネットワークを介して、本バイオアイテム検索装置と相互に接続され、少なくとも制御部と入力部と出力部を備えて構成される。ノィォアイテム検索端末装置は、利用者に、入力部を介してキーワードやゲノム領域情報や識別子情報を入力させるよう制御し、当該キーワード等をバイオアイテム検索装置 100に送信し、ノィォアイテム検索端末装置 600から出力された検索結果 (候補バイオアイテム、関連バイオアイテム、または、共起キーワード相関スコア）を受信し、出力部に出力するよう構成してちょい。

[0077] 以上で、本発明の概要の説明を終える。

[0078] [バイオアイテム検索装置の構成]

まず、本バイオアイテム検索装置の論理構成について、図 4を参照しながら説明する。図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すプロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。

[0079] 図 4においてバイオアイテム検索装置 100は、概略的に、バイオアイテム検索装置 100の全体を統括的に制御する CPU等の制御部 102、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部 104、入力装置 112や出力装置 114に接続される入出力制御インターフェース部 108、および、各種のデータベースやテーブルなどを格納する記憶部 106を備えて構成されており、これら各部は任意の通信路を介してネットワーク 300に通信可能に接続される。

[0080] 記憶部 106に格納される各種のデータベースやテーブル（全文献セットファイル 10 6a〜識別子情報データベース 106e)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースゃゥェブページ等を格納する。

[0081] これら記憶部 106の各構成要素のうち、バイオアイテム文献セットファイル 106bは、バイオアイテム毎に、ノィォアイテムのバイオアイテム名が記載された文献を有するノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段である。図 4 に示すように、バイオアイテム文献セットファイル 106bは、バイオアイテム l〜n毎に、バイオアイテム名を含む文献の集合であるバイオアイテム文献セットを記憶して、る。

[0082] また、全文献セットファイル 106aは、これらバイオアイテム l〜nのバイオアイテム文献セットに含まれる全ての文献を有する全文献セットを記憶する文献セット記憶手段である。

[0083] また、バイオアイテム関係データベース 106cは、任意の 2つのバイオアイテムと、対応する 2つのノィォアイテムの相関スコアを共起相関スコアとして記憶するバイオアイテム関係蓄積手段である。ここで、好ましい実施の形態として、バイオアイテム関係データベース 106cは、共起相関スコアが優位水準を下回っており、有意な相関関係があると判断された互いに関連する 2つのバイオアイテムを記憶してもよい。

[0084] また、位置情報データベース 106dは、バイオアイテム毎に、対応するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶する位置情報蓄積手段である。

[0085] また、識別子情報データベース 106eは、ノィォアイテム毎に、対応する識別子を示す識別子情報を関連付けて記憶する識別子情報蓄積手段である。

[0086] また、図 4において、通信制御インターフェース部 104は、バイオアイテム検索装置 100とネットワーク 300 (またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部 104は、他の端末と通信回線を介してデータを通信する機能を有する。

[0087] また、図 4において、入出力制御インターフェース部 108は、入力装置 112や出力装置 114の制御を行う。ここで、出力装置 114としては、モニタの他、スピーカを用いることができる。また、入力装置 112としては、キーボード、マウス、およびマイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現することができる。なお、本実施の形態においては、利用者は、キーボードなどの入力装置 112を介して、キーワードやインターバルや識別子を入力し、モニタなどの出力装置 114を介して、出力された検索結果を閲覧できる構成となって！/、る。

[0088] また、図 4において、制御部 102は、 OS (Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部 102は、機能概念的に、文献数取得部 102a、候補バイオアイテム選出部 102b、テーブル作成部 102c、相関スコア算出部 102d、共起相関スコア算出部 102e、バイオアイテム関係データベース化部 102f、関連バイオアイテム抽出部 1 02g、合成相関スコア算出部 102h、出力部 102i、ゲノム領域判定部 10¾、識別子判定部 102kを備えて構成されている。

[0089] このうち、文献数取得部 102aは、バイオアイテム文献セットファイル 106bに記憶された、各バイオアイテム l〜nのバイオアイテム文献セットの中力キーワードを検索し、各ノィォアイテム文献セットのうちキーワードを含む文献の数 Nhをバイオアイテム 1 〜n毎に取得する文献数取得手段である。ここで、文献数取得部 102aは、全文献セットファイル 106aに記憶された全文献セットの中カゝらキーワードを検索し、全文献セットのうちキーワードを含む文献の数 Nkを取得してもよい。また、文献数取得部 102a は、任意の 2つの候補バイオアイテムのうち、一方の候補バイオアイテムのノィォアイテム文献セットの中から、他方のバイオアイテム名を含み且つキーワードを含む文献数 Nsを検索により取得してもよい。

[0090] また、候補バイオアイテム選出部 102bは、文献数取得部 102aにより取得された文献数 Nhが 1以上であるバイオアイテム文献セットのバイオアイテムを、候補バイオアィテムとして選出する候補バイオアイテム選出手段である。

[0091] また、テーブル作成部 102cは、候補バイオアイテム選出部 102bにより選出された候補バイオアイテム毎に、 a)文献数 Nh、 b)キーワードを含まず且つバイオアイテム名を含む文献の数 (該バイオアイテムのノィォアイテム文献セットの文献数 Nh)、 c )キーワードを含み且つバイオアイテム名を含まない文献数 (Nk— Nh)、および、 d) キーワードを含まず且つバイオアイテム名を含まな、文献数 (全文献セットの総文献数バイオアイテム文献セットの文献数 Nk+Nh)、の 4つの項目 a)〜d)うち少なくとも一つカゝら構成される文献数テーブルを作成するテーブル作成手段である（図 2 および図 3を参照。なお、 Nkと Nhの値は、文献数取得部 102aにより取得される。；)。ここで、テーブル作成部 102cは、文献数取得手段 102aにより取得された文献数 Ns 、 2つの候補バイオアイテムに係る文献数テーブル、および、 2つの候補バイオアイテムに係る共起文献数テーブルに基づヽて、 3次元の文献テーブルを作成してもよヽ

[0092] また、相関スコア算出部 102dは、候補バイオアイテム毎に、テーブル作成部 102c により作成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテムとキーワードとの相関スコアを算出する相関スコア算出手段である。ここで、相関スコア算出部 102dは、統計計算として、検定を用いてもよぐフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。ここで、 102dは、図 4に示すように、共起キーワード相関スコア算出部 102mを備えて構成されて、る。共起キーワード相関スコア算出部 102mは、テーブル作成部 102cにより作成された 3次元の文献数テーブルを用いて、統計計算に基づいて、 2つの候補バイオアイテムとキーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算出手段である。ここで、共起キーワード相関スコア算出部 102mは、キーワードを含む場合の 2つの候補バイオアイテムの相関スコアをキーワードあり相関スコアとして算出し、キーワードを含まない場合の 2つの候補バイオアイテムの相関スコアをキーワードなし相関スコアとして算出し、キーワードあり相関スコアとキーワードなし相関スコアとの、両方および Zまたは比較結果を、共起キーワード相関スコアとしてもよい。

[0093] また、共起相関スコア算出部 102eは、任意の 2つのバイオアイテムのうち、一方のバイオアイテム文献セットの中から、他方のバイオアイテム名を検索することにより得られた、 i)一方のノィォアイテム名を含み且つ他方のバイオアイテム名を含む文献数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のバイオアイテム名を含み且つ他方のバイオアイテム名を含まな!/、文献数、および、 m)—方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含まな V、文献数、の 4つの項目 i)〜m)うち少なくとも一つから構成される共起文献数テープルを用いて、統計計算に基づいて、共起相関スコアを算出する共起相関スコア算出手段である。ここで、共起相関スコア算出部 102eは、全文献セットファイル 106aに記憶された全文献セットの中力一方のバイオアイテム名および Zまたは他方のバイオアイテム名を検索することにより、項目 i)〜！ n)の値を得てもよい。ここで、共起相関スコア算出部 102eは、統計計算として、検定を用いてもよぐフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。

[0094] また、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 102e によって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイオアィテム関係データベース 106cに格納するバイオアイテム関係データベース化手段である。

[0095] また、関連バイオアイテム抽出部 102gは、ノィォアイテム関係データベース 106c に記憶された共起相関スコアに基づいて、候補バイオアイテム選出部 102bにより選出された候補バイオアイテムと相関関係を有するバイオアイテムを、関連バイオアイテムとして抽出する関連ノィォアイテム抽出手段である。

[0096] また、合成相関スコア算出部 102hは、関連バイオアイテムとキーワードとの合成相関スコアを、関連ノィォアイテム抽出部 102gによる抽出の元となった候補バイオアイテムのキーワードとの相関スコアと、バイオアイテム関係データベース化部 102fに記憶された共起相関スコアとを合成することによって求める合成相関スコア算出手段である。ここで、合成相関スコア算出部 102hは、合成相関スコアを、下記の数式 1、または、数式 1の近似式（下記の数式 1 1および 1 2)に基づいて、算出してもよい。ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムのキーワードとの相関スコアであり、 P2は、候補バイオアイテムと関連バイオアイテムとの共起相関スコアである。

P= l—（1 PI) (1 Ρ2) · · · (数式 1)

P = P1 + P2 · · · (数式 1— 1)

Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)

[0097] ここで、合成相関スコア算出部 102hは、ゲノム領域 (インターバル)を 2つ入力するマルチプルインターバルモードの際、 2つの候補バイオアイテム（バイオアイテム 1、バイオアイテム 2)のキーワードとの総合相関スコア (総合 P)を求める場合、以下に掲げる、ずれかの数式を用いて合成するよう構成してもよ!/、。

総合 P= l—（1 PI) (1— P2) (1— P3)…（数式 2)

総合 P = Min{ l—（1一 PI) (1一 P2) , 1一（1一 PI) (1一 P3) } · · · (数式 3) (ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイテム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコァ、 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である（図 7参照））。

[0098] また、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに基づいて、候補バイオアイテムを出力装置 114に出力する出力手段である。ここで、出力部 102iは、合成相関スコア算出部 102hによって算出された合成相関スコアに基づいて、関連バイオアイテムを出力装置 114に出力してもよい。また、出力部 102iは、共起キーワード相関スコア算出部 102mによって算出された共起キーワード相関スコアを、 2つの候補バイオアイテムと対応付けて、出力装置 114に出力してもよい。ここで、出力部 102iは、相関スコアまたは合成相関スコアが所定の優位水準に満たな V、場合は、対応する候補バイオアイテム又は関連バイオアイテムを出力しな、構成としてもよい。ここで、出力部 102iは、図 4に示すように、検索結果順序出力部 102ηを備えて構成されている。検索結果順序出力部 102ηは、相関スコア、共起キーワード相関スコア、または、合成相関スコアに基づいて、対応する候補バイオアイテムまたは上記関連バイオアイテムを、順位付けして出力装置 114に出力する検索結果順序出力手段である。一例として、検索結果順序出力部 102ηは、候補バイオアイテムまたは関連バイオアイテムを、対応する相関スコアまたは合成相関スコアの小さなもの力も出力してもよい。

[0099] また、ゲノム領域判定部 10¾は、候補バイオアイテムまたは関連バイオアイテムについて、位置情報データベース 106dに記憶された、対応するゲノム位置情報に基づく位置が、利用者により入力されたゲノム領域情報に基づくゲノム領域 (インターバル）に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に、対応する候補バイオアイテムまたは関連バイオアイテムを出力するよう制御するゲノム領域判定手段である。ここで、本実施の形態において、ゲノム領域判定部 10¾は、候補バイォアイテム選出部 102bによって選出された候補バイオアイテムのゲノム上の位置が、利用者により入力されたゲノム領域 (インターバル）に含まれないと判断した場合に、関連ノィォアイテム抽出部 102gに対して、当該候補バイオアイテムに関連する関連バイオアイテムを抽出するよう命令を出す構成としてもよ!、。

[0100] また、識別子判定部 102kは、候補バイオアイテムまたは関連バイオアイテムについて、識別子情報データベース 106eに記憶された、対応する識別子情報に基づく識別子が、利用者により入力された識別子情報に基づく一つまたは複数の識別子に含まれるか否かを判断し、含まれると判断した場合に、対応する候補バイオアイテムまたは関連バイオアイテムを出力するよう制御する識別子判定手段である。

[0101] 以上が、バイオアイテム検索装置 100内部の論理構成である。ここで、バイオアイテム検索装置 100は、図 4に示すように、文献情報に関する外部データベースやバイォアイテム検索プログラム等の外部プログラム等を提供する外部システム 250、および、ノィォアイテム検索端末装置 600に、ネットワーク 300を介して通信可能に接続して構成されていてもよい。ここで、図 4において、ネットワーク 300は、バイオアイテム検索装置 100と外部システム 250とバイオアイテム検索端末装置 600とを相互に接続する機能を有し、例えば、インターネット、 LAN,公衆電話回線網等である。

[0102] 図 4において、外部システム 250は、ネットワーク 300を介して、バイオアイテム検索装置 100と相互に接続され、利用者に対して文献情報等に関する外部データベースやバイオアイテム検索プログラム等の外部プログラム等を実行するウェブサイトを提供する機能を有する。ここで、外部システム 250は、 WEBサーバや ASPサーバ等として構成していてもよぐそのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成していてもよい。また、外部システム 250の各機能は、外部システム 250のハードウェア構成中の CPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。

[0103] また、図 4にお、て、バイオアイテム検索端末装置 600は、ネットワーク 300を介して、ノィォアイテム検索装置 100と相互に接続され、少なくとも制御部と入力部と出力部を備えて構成される。バイオアイテム検索端末装置 600は、利用者に、入力部を介してキーワードやゲノム領域情報や識別子情報を入力させるよう制御し、当該キーヮ一ド等をバイオアイテム検索装置 100に送信し、バイオアイテム検索端末装置 600から出力された、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相関スコアを受信し、出力部に出力するよう構成される。

[0104] 以上で、本バイオアイテム検索装置および本バイオアイテム検索システムの構成の説明を終える。

[0105] [本バイオアイテム検索装置の処理]

次に、このように構成された本実施の形態における本バイオアイテム検索装置 100 の処理の一例について、以下に図 5および図 6を参照して詳細に説明する。

[0106] ここで「直接検索」とは、キーワードと直接関係するバイオアイテムを検索することをいい、候補バイオアイテムが検索結果 (直接検索の解)として出力される検索のことである。一方、「間接検索」とは、バイオアイテム間の推論を行い、キーワードと間接的に関係するバイオアイテムを検索することを、、関連バイオアイテムが検索結果 (バイォアイテム推論の解）として出力される検索のことである。

[0107] [直接検索処理]

直接検索処理の詳細について図 5を参照して説明する。図 5は、本実施形態における本システムの直接検索処理の一例を示すフローチャートである。

[0108] 図 5に示すように、バイオアイテム検索装置 100の制御部 102は、入力装置 112を介して利用者にキーワードを入力させ、キーワードを受信すると（SB— 1)、文献数取得部 102aは、バイオアイテム文献セットファイル 106bに記憶された各バイオアイテム文献セットの中力もキーワードを検索し、バイオアイテム文献セットのうちキーワードを含む文献の数 Nhを、バイオアイテム l〜n毎に取得する（SB— 2)。ここで、文献数取得部 102aは、全文献セットファイル 106aに記憶された全文献セットの中力キーヮードを検索し、全文献セットのうちキーワードを含む文献の数 Nkを取得してもよ、。

[0109] つぎに、候補バイオアイテム選出部 102bは、取得された文献数 Nhが 1以上であるバイオアイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する（S B— 3)。 [0110] つづいて、テーブル作成部 102cは、候補バイオアイテム毎に、 a)文献数 Nh、 b)キ一ワードを含まず且つバイオアイテム名を含む文献の数 (該バイオアイテムのバイオアイテム文献セットの文献数 Nh)、 c)キーワードを含み且つバイオアイテム名を含まない文献数 (Nk— Nh)、および、 d)キーワードを含まず且つバイオアイテム名を含まな、文献数 (全文献セットの総文献数 -ノィォアイテム文献セットの文献数 - Nk + Nh)、の 4つの項目のうち少なくとも一つから構成される文献数テーブルを作成し記憶装置に格納する（SB— 4)。

[0111] つぎに、相関スコア算出部 102dは、テーブル作成部 102cの処理により作成された文献数テーブルを用いて、フィッシャーの正確確率検定に基づ、て候補バイオアイテム群を構成する候補バイオアイテムとキーワードとの相関スコアをそれぞれ算出する（SB— 5)。

[0112] そして、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに基づいて候補バイオアイテム群を出力装置に出力する（SB— 6)。

[0113] これにて、直接検索の処理が終了する。

[0114] [間接検索処理 (バイオアイテムの推論) ]

つぎに、間接検索処理について、図 6を参照して説明する。図 6は、本実施形態における本システムの間接検索処理の一例を示すフローチャートである。

[0115] まず、バイオアイテムの推論に用いるバイオアイテム関係データベースの作成処理について説明する。共起相関スコア算出部 102eは、 2つのバイオアイテムのうち、一方のバイオアイテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を検索することにより得られた、 i)一方のバイオアイテム名を含み且つ他方のバイオアィテム名を含む文献数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のノィォアイテム名を含み且つ他方のバイオアイテム名を含まない文献数、および、 m)—方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テーブルを用いて、フィッシャーの正確確率検定に基づいて、 2つのバイオアイテム間の共起相関スコアを算出する（SC— 1)。

[0116] つぎに、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 10 2eによって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイォアイテム関係データベース 106cに格納する（SC— 2)。以上が、バイオアイテム関係データベース 106cの作成処理である。なお、この作成処理は、直接検索または間接検索を行う前に予め実行されている。

[0117] つづいて、ノィォアイテム検索装置 100は、入力装置 112を介して利用者にキーヮードを入力させ、直接検索を実行する（SC— 3〜7)。ここで、 SC— 3〜7は、直接検索の SB— 1〜5に対応するので説明を省略する。

[0118] ここで、直接検索から間接検索の移行処理については、図 6に示すように直線的な処理の構成とする他、 SC— 5で選出された候補バイオアイテム力ゲノム領域判定部 10¾の処理により、利用者により入力されたインターバルに含まれないと判断する場合に、 SC— 8に進み、関連バイオアイテム抽出部 102gに対して、当該インターバルに含まれないと判断された候補バイオアイテムと相関関係のある関連バイオアイテムの抽出を命令する構成としてもょ、。

[0119] つぎに、関連バイオアイテム抽出部 102gは、候補バイオアイテム選出部 102bによつて選出された候補バイオアイテムに対応する、バイオアイテム関係データベース 10 6cに記憶された共起相関スコアに基づ、て、相関関係のある関連ノィォアイテムを抽出する（SC— 8)。

[0120] そして、合成相関スコア算出部 102hは、関連バイオアイテム抽出部 102gにより抽出された関連ノィォアイテムとキーワードとの合成相関スコア Pを、相関スコア算出部 102dによって算出された相関スコア（P1)と、バイオアイテム関係データベース 106c 力も得られる、候補バイオアイテム選出部 102bで得られた候補バイオアイテムと関連ノィォアイテム抽出部 102gにより抽出された該関連バイオアイテムとの（共起)相関スコア（P2)と、を下記の数式 1を用いて合成することによって求める（SC— 9)。

合成1³= 1— （1ー？1) (1ー？2) ' ' ' (数式1)

[0121] そして、出力部 102iは、関連バイオアイテム抽出部 102gによって抽出された関連ノィォアイテムを、合成相関スコア算出部 102hによって算出された合成相関スコアに基づいて出力装置に出力する（SC— 10)。

[0122] これにて関接検索の処理が終了する。 [0123] [ゲノム領域判定処理]

ここで、ゲノム領域判定部 10¾によるゲノム領域判定処理にっ、て詳細に説明する。

[0124] 入力装置 112において、利用者はキーワードのほ力「インターバル」と呼ぶゲノム配列上の範囲 (ゲノム領域）に関する情報 (ゲノム領域情報)を指定することができる。このゲノム領域判定機能により、バイオアイテム検索装置 100の利用者は、例えばポジショナルクローニングの問題解決にお、て、バイオアイテムのゲノム配列上の位置を考慮して検索結果を絞り込むことが可能となる。

[0125] すなわち、ゲノム領域判定部 10¾は、候補バイオアイテム選出部 102bによって選出された候補バイオアイテム、または、関連バイオアイテム抽出部 102gによって抽出された関連バイオアイテムについて、位置情報データベース 106dに基づいて対応するゲノム位置情報を取り出す。

[0126] つぎに、ゲノム領域判定部 10¾は、取得したゲノム位置情報に基づくゲノム上の位置が、利用者によって入力されたゲノム領域 (インターバル）に含まれるか否かを判断する。

[0127] そして、ゲノム領域判定部 10¾は、候補バイオアイテム力インターバルに存在すると判断した場合は、検索結果 (解)として適切として、このバイオアイテムを出力するよう出力部 102iに指示する。一方、インターバルに含まれないと判断した場合は、検索結果 (解）として不適としてバイオアイテムを棄却する。このとき、このバイオアイテムに関連するバイオアイテムを抽出するよう、関連バイオアイテム抽出部 102gに指示する構成としてもよい。ここで、「インターノレ」は、インターバルあるいは識別子の列、あるいはインターバルの識別子の列の両方が指定されて、る場合も含んでもょ、。この場合、すなわち、利用者によりインターバルあるいは識別子の列、あるいはインターバルの識別子の列の両方が入力された場合、ゲノム領域判定部 10¾は、入力されたそれぞれにつ、て上記のゲノム領域判定処理を実行してもよ!/、。

[0128] [テーブル作成処理'相関スコア算出処理]

ここで、キーワードとバイオアイテム (候補バイオアイテム、関連バイオアイテム）の関係性を定量的に評価する手法として、テーブル作成部 102cの処理によるテーブル作成処理、および、相関スコア算出部 102d、共起相関スコア算出部 102e、および、合成相関スコア算出部 102hの処理による相関スコア算出処理について、図 7を用いて詳細に説明する。図 7は、キーワードとバイオアイテムの間の関係を模式的に示した図である。

[0129] すなわち、図 7に示すように、直接検索の場合には、ノィォアイテム 1が候補バイオアイテムに相当し、相関スコア算出部 102dは、バイオアイテム 1とキーワードとの文献数テーブルを用いて、候補バイオアイテムとキーワードとの相関スコアを算出する。

[0130] また、間接検索の場合には、バイオアイテム 1がキーワードに関係する候補バイオアイテムに相当し、ノィォアイテム 2が推論により得られる関連バイオアイテムに相当する。

[0131] また、マルチプルインターバルモード (利用者によりゲノム領域が 2つ入力された場合)では、バイオアイテム 1は、一方のゲノム領域に属するノィォアイテムに相当し、バイオアイテム 2は、他方のゲノム領域に属するバイオアイテムに相当する。ここで、図 7におけるバイオアイテム 1が、インターバル 1に属するバイオアイテムとなり、バイォアイテム 2が、インターバル 2に属するバイオアイテムとなる。すなわち、マルチプルインターバルモードでは、バイオアイテム 1はインターバル 1に属しキーワードに関係するバイオアイテム、バイオアイテム 2はインターバル 2に属しキーワードに関係するバイオアイテムである。

[0132] ここで、マルチプルインターバルモードについて説明する。相関スコア算出部 102d は、バイオアイテム 1とキーワードとの文献数テーブルを用いて、候補バイオアイテムとキーワードとの相関スコアを算出し、共起相関スコア算出部 l〇2eは、バイオアイテム 1とバイオアイテム 2との文献テーブルを用いて、共起相関スコアを算出する。このとき、バイオアイテム 2とキーワードとの相関スコアは、バイオアイテム 2とキーワードとの文献数テーブルを用、て直接求めることができな、ので、合成相関スコア算出部 1 02hは、相関スコア算出部 102dにより算出された相関スコアと、共起相関スコア算出部 102eにより算出された共起相関スコアを合成することにより、合成相関スコアを算出する。

[0133] すなわち、文献数取得部 102a、候補バイオアイテム選出部 102b、および、ゲノム領域判定部 10¾の処理により、各インターバル 1 · 2について直接検索が行われ、検索の結果としてそれぞれバイオアイテムの集合 (候補バイオアイテム群 1、候補バイオアイテム群 2)が得られる。つぎに、共起キーワード相関スコア算出部 102mの処理により、各集合力もそれぞれ 1つずつバイオアイテムを取り出し、構成される全てのノィォアイテムペアを作成し、各ノィォアイテムペアが上で述べた 1文献上で共起してヽる 2バイオアイテムに該当する力否かを、調べる。

[0134] そして、該当する場合には、当該 2バイオアイテムそれぞれについてのバイオアイテムとキーワードとの相関スコア (相関スコア 1、相関スコア 2)、 2バイオアイテムの共起相関スコアの 3つの相関スコアを合成して新たな相関スコア（「合成相関スコア」）を計算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキングを行い、表示する。このようにマルチプルインターバルモードにぉ、ても統計処理によるランキング機能により、目的とするノィォアイテムの発見精度をより高めることができるという効果を奏する。

[0135] ここで、キーワードとバイオアイテム 1の間の関係に着目する。この関係性を定量的に評価するため、図 2に示したような文献数を集計した文献数テーブルを作成してもよい。

[0136] いま、バイオアイテムの名前（バイオアイテム名） ml, m2, · · 'mpが与えられたとき、これらの名前のうち少なくとも一つ含む文献を取得するクエリを Q=ml OR m2 OR- · -OR mpと表し、「バイオアイテムクエリ」と呼ぶ。また、 Qの否定、すなわちこれらの名前が一つも含まれない文献を取得するクエリを， Qと表す。バイオアイテム 1 につ、てのバイオアイテムクエリを Q 1と表す。

[0137] 図 2の文献数テーブルにおいて、

aは、 Q1を満たし、かつキーワードを含む文献数

bは、 Q1を満たし、かつキーワードを含まない文献数

cは、，Q1を満たし、かつキーワードを含む文献数

dは、，Q1を満たし、かつキーワードも含まれない文献数

である。

[0138] このテーブルに、一例として、フィッシャーの正確確率検定の手法等を適用して P値 ("ΡΊま、国際標準ではイタリック体で表記される。）を算出する。 Ρ値が 0に近いほどバィォアイテムとキーワードとの関係が強いことを示し、この値を用いてヒットしたバイオアイテムのランキングを行う。

[0139] 同様に、バイオアイテム 1とバイオアイテム 2の間の関係（一例として、候補バイオアィテムと関連バイオアイテムの共起相関関係）においても文献数テーブルが生成され、テーブルの各値 a)、 b)、 c)、 d)は以下に示す文献数である。いま、バイオアイテム 1についてのバイオアイテムクエリを Q、バイオアイテム 2についてのバイオアイテムク

1

エリを Q

2とする。

[0140] このとき、図 2の文献数テーブルにおいて、

a)は、 Q1を満たし、かつ Q2を満たす文献数

b)は、 Q1を満たし、かつ， Q2を満たす文献数

c)は、，Q1を満たし、かつ Q2を満たす文献数

d)は、，Q1を満たし、かつ， Q2を満たす文献数

である。

[0141] 上記作成した文献数テーブルを用いて、統計計算に基づいて、共起相関スコアを算出する。統計計算としては、例えば、フィッシャーの正確確率検定やカイ二乗検定等の検定、または、ベイズ条件付確率等を適用して P値を算出する。

[0142] これにて、テーブル作成処理と相関スコア算出処理の説明を終える。

[0143] [合成相関関数スコア算出処理]

合成相関関数スコア算出処理の一例について以下に説明する。直接検索によって

、相関関係が十分にある候補バイオアイテムが得られても、候補バイオアイテムのゲノム上の位置力利用者により入力されたインターバルに含まれていなければ、解として不適であるため棄却される。しかし、候補バイオアイテム力バイオアイテム関係データベースを用いて、関連バイオアイテムを導き出したときに、新たな相関スコアを求める必要がある。

[0144] この場合、直接、関連バイオアイテムとキーワードの相関スコアを求めたのでは、不適切である。何故なら、関連バイオアイテムは、候補バイオアイテムを介して間接検索によって、はじめて得られた検索結果であり、直接検索の結果である検索数（ほぼ oに等しい）を代入しても、 p値は、 1に近い値となり、候補バイオアイテム群は、検索結果の上位に出力されることはないため、従来技術の課題を解決することにはならないからである。

[0145] そこで、直接、関連バイオアイテムとキーワードの相関スコアを求めるのではなぐ候補バイオアイテムと関連バイオアイテムとの相関スコア（共起相関スコア）と、キーヮードと候補バイオアイテムとの相関スコアとを合成することによって、間接的に関連バイォアイテムとキーワードの相関スコア P (「合成相関スコア」）を求める。具体的には、下記の数式 1を使って計算する。

[0146] P= l—（1 PI) (1— Ρ2) · · · (数式 1)

ここで、 P1は、関連バイオアイテムと候補バイオアイテムとの共起相関スコアであり、 P2は、候補バイオアイテムとキーワードとの相関スコアである。

[0147] また、マルチプルインターバルモードでは、まず、各インターバルについて直接検索が行われ、検索の結果としてそれぞれバイオアイテムの集合が得られ、つぎに、各集合力もそれぞれ 1つずっノィォアイテムを取り出し、構成される全てのバイオアイテムペアを作成し、各バイオアイテムペアが上で述べた 1文献上で共起して、る 2バイォアイテムに該当するか否かを調べる。

[0148] そして、該当する場合には、当該の 2バイオアイテムそれぞれについてのバイオアイテムとキーワードとの相関スコア、 2バイオアイテムの相関スコアを合成して新たな相関スコアを計算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキングを行い、表示する。この際の、総合相関関数を求める式は、例えば、次の数式 2 あるいは数式 3で表される。

[0149] 総合 P= l—（1 PI) (1 -P2) (1 P3) · · · (数式 2)

総合 P = Min{ l—（1 PI) (1 P2) , 1 1 PI) (1 P3) } · · · (数式 3) ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイテム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコァである。 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である（図 7参照）

[0150] [共起キーワード相関スコア算出処理:文献数 3次元テーブル]

3次元の文献数テーブルを用いた共起キーワード相関スコア算出処理について、以下に図 8および図 9を参照しながら説明する。

[0151] まず、文献数取得部 102aは、任意の 2つのバイオアイテムのうち、一方のバイオアィテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を含み且つキ一ワードを含む文献の数 Nsを検索により取得する。

[0152] つぎに、テーブル作成部 102cは、文献数 Ns、 2つのバイオアイテムに係る文献数テーブル、および、 2つのバイオアイテムに係る共起文献数テーブルに基づいて、 3 次元の文献数テーブルを作成する。ここで、 3次元の文献テーブルの作成方法を、図 8を参照しながら説明する。図 8は、 3次元の文献数テーブルを作成する方法を模式的に示した図である。

[0153] 図 8に示すように、テーブル作成部 102cは、 8つの項目 s)、 t)、 u)、 v)、 w)、 x)、 y )、および、 z)すなわち、キーワードを含む力含まないか、ノィォアイテム 1を含むか含まないか、バイオアイテム 2を含む力含まないか、の 8通りの分類項目に分類される文献の文献数からなるテーブル（3次元の文献数テーブル)を生成する。

[0154] ここで、 3次元の文献テーブルを高速に作成するために、テーブル作成部 102cは、共起相関スコア算出部 102eの処理により作成された、任意の 2つのバイオアイテムの組合せについての、 i)、 j)、 k)、および、 m)の 4つの項目からなる共起文献数テーブルをデータベース化しておく。

[0155] そして、利用者によりキーワードが入力された場合に、文献数取得部 102a〜テーブル作成部 102cは、それぞれのバイオアイテムとキーワードとの間で文献数テープルを作成する。なお、ここで作成される文献数テーブルは、一方のバイオアイテムにおける a)、 b)、 c)、および、 d)および他方のバイオアイテムにおける e)、 f)、 g)、および、 h)カゝら成る文献数テーブルに対応する。

[0156] そして、テーブル作成部 102cは、任意の候補バイオアイテム 1, 2の組み合わせに対し、文献数取得部 102aの処理により、ノィォアイテム 1に対応するバイオアイテム文献セットを用いて、キーワードおよびバイオアイテム名 2を含む文献を検索し、該文献数 Nsを取得して、 s)とする。

[0157] そして、テーブル作成部 102cは、

a = s + w b = t + x

c = u + y

d = v + z

e = s + u

f = t + v

g = w + y

h = x + z

i = s + t

j = u + v

k = w + x

m = y + z

の関係式が成立していることを利用して、 w = a— s、 u=e— s、 t = i— sを計算し、さらに、 v=f— 1、 x=k— w、 y=c— u、 z = d— vを計算する。さらに、 z = d— vを計算することで、 s)〜z)の 8つの項目力も成る 3次元の文献数テーブルを生成する。以上により、 s)〜z)の 8つの項目をそれぞれ検索により取得する場合に比べて、 3次元の文献テーブルを高速に作成することができる。

[0158] つづいて、相関スコア算出処理の説明に移る。すなわち、相関スコア算出部 102d は、共起キーワード相関スコア算出部 102mの処理により、 3次元の文献数テーブルを用いて、統計計算に基づいて、 2つの候補バイオアイテムとキーワードとの共起キ一ワード相関スコアを算出する。

[0159] ここで、共起キーワード相関スコア算出部 102mは、 3次元の文献数テーブルを用いて、キーワードを含む場合の 2つの候補バイオアイテムの相関スコアを「キーワードあり相関スコア」として算出し、キーワードを含まない場合の 2つの候補バイオアイテムの相関スコアを「キーワードなし相関スコア」として算出してもよい。この場合、共起キ一ワード相関スコア算出部 102mは、「キーワードあり相関スコア」と「キーワードなし相関スコア」との、両方および Zまたは比較結果を、共起キーワード相関スコアとして算出する。すなわち、これにより、バイオアイテム 1とバイオアイテム 2の共起相関の強弱がキーワードの有無でどのように変化しているかを反映する「共起キーワード相関スコア」を算出することができる。

[0160] 以下に、共起キーワード相関スコアの算出方法の一例を、図 9を用いて示す。なお

、本発明はこの例に限定されるものではない。図 9は、「キーワードあり相関スコア」と「キーワードなし相関スコア」を算出するための文献テーブルの一例を示す図である。

[0161] 図 9に示すように、共起キーワード相関スコア算出部 102mは、 3次元の文献数テ一ブルから 2つの 2次元文献テーブルに分けて、利用者により入力されたキーワードを含む文献群と含まない文献群のそれぞれについて、バイオアイテム 1とバイオアイテム 2との相関スコアを算出する。すなわち、前者が「キーワードあり相関スコア」であり、後者が「キーワードなし相関スコア」である。

[0162] 次に、共起キーワード相関スコア算出部 102mは、「キーワードあり相関スコア」と、「キーワードなし相関スコア」とを比較する。ここで、もし、前者の方が強い相関であるならば、キーワードで指定されるジャンルにおいてバイオアイテム 1とバイオアイテム 2の関連性は重要性が高いと判定でき、その情報を共起キーワード相関スコアとして利用者に提示することができる。また、後者の方が強い相関であるならば、バイオアイテム 1とバイオアイテム 2の関連性はキーワードで指定されるジャンル以外にぉ、て強いと判定でき、その情報を共起キーワード相関スコアとして利用者に提示することができる。

[0163] [概念語クエリ追加処理]

これまで述べたようなバイオアイテムと文献との対応付けにバイオアイテムの名前のみを用いる方法では、正しく文献に対応させることはできない場合が発生する。その理由は、同じ語が異なる意味で使われることがあるからである。例えば、マウス遺伝子 fozzyは、一般用語として「柔軟性がある」などの意味で文献中に出現する。このように、ノィォアイテム名が、文献検索上混同が生じる名称であった場合、正しい検索結果が出力されないという問題がある。

[0164] このような問題を解決するため、関係付け精度を上げる手法として、バイオアイテム毎に概念語クエリを追加する処理を以下に示す。

[0165] ここで「概念語」とは、特定の論題、分野を示す語句である。いま、概念語 nl, η2, · •·ηρが与えられたとき、概念語クエリ R=nl OR n2 OR - - ·ΟΚ npが定義される。ここで概念語クエリは、概念語のうち少なくとも一つを含む文献を取得するクエリである。ノィォアイテムクエリを Q、その概念語クエリを Rとすると、例えば、概念語を追カ卩したノィォアイテムクエリを Q AND Rで定義し、これは Qかつ Rを満たす文献を取得するクエリである。文献数テーブルの生成にあたっては、バイオアイテムクエリの代わりに概念語を追加したバイオアイテムクエリが用いられる。

[0166] 例えば、バイオアイテムの名前が GRB2- related adaptor protein 2, Grap2, Gad s, GRID, Grb2— related adaptor downstream of Sch, Mona, Grf40, GRB2L, GrbX, GRAP-2, GrpLのとき、バイオアイテムクエリ Q〃grb2— related adaptor protei n 2" OR grap2" OR "gads" OR "grid" OR "grb2- related adaptor downstr earn of sch" OR "mona" OR 〃grf40〃 OR 〃grb21〃 OR 〃grbx〃 OR 〃grap¥— 2 " OR 〃grp こ対して、概念語 Rを追加したバイオアイテムクエリ r_grb2-related ada ptor protein 2 OR grap2" OR gads OR grb2— related adaptor downstre am of sch" OR "mona" OR "grf40" OR "grb21" OR "grbx" OR "grap¥— 2" OR 〃grpl〃) AND ("adaptor protein OR "adaptor proteins" OR monocytic " OR "monocyte")

を設定する処理を行う。 AND以下の部分が概念語クエリである。

[0167] また他の例として、バイオアイテムの名前が X- ray repair complementing defectiv e repair in Chinese hamster cells o, Xrcc6, Ku p70, Ku70, Xrcco, u22pl のとき、ノィオアィァムクエリ Q x¥— ray repair complementing defective repair in Chinese hamster cells o OR xrcc6〃 OR "ku p70〃 OR 〃ku70〃 OR xrcc6 " OR 〃g22pl"に対して、概念語 Rを追加したバイオアイテムクエリ ("x¥-ray repair complementing derective repair in Chinese hamster cells 6 OR xrcco OR "ku p70" OR "ku70" OR "xrcc6" OR "g22pD AND ("x ray" OR "dna repair OR "hamsters" OR hamster" OR "thyroid" OR autoantigen" OR "dna¥- binding proteins" OR 〃dna¥- pkcs" OR "bax¥- binding")を設定する処理を行う。ここで AND以下の部分が概念語クエリである。

[0168] 以上で、概念語追加処理の詳細についての説明を終える。

[0169] [実施例] 本発明の本実施の形態における実施例について以下に図 10〜図 33を参照しながら説明する。本実施例におけるバイオアイテム検索システムでは、利用者により入力された「インターバル」と呼ばれるゲノム領域 (ゲノム配列上の範囲）とキーワードを受信し、キーワードと関係のあるバイオアイテムであって、インターバルに存在するものを取得する。また、本バイオアイテム検索システムは、インターノレを 1つ指定するシングルインターバルモードによるバイオアイテム検索と、インターバルを 2つ指定するマルチプルインターバルモードによるバイオアイテム検索の 2種類の検索法を備えている。ここで、インターバルの指定については、インターバルの代わりにバイオォブジェタトの識別子の列を指定することも、ある、はインターバルとバイオオブジェクトの識別子の列の両方を指定することもできる。以下、インターノレの代わりにあるいはインターバルともにバイオオブジェクトの識別子の列を指定する場合であっても、検索結果が該識別子の列に含まれていることもインターバルに存在すると言う。なお、以下に、本バイオアイテム検索システムの説明で示すように、本発明は、同一筐体 (例えば、上述のバイオアイテム検索装置 100)または異なる複数の筐体で実施されることを妨げない。すなわち、本実施例においては、説明上簡便のため、バイオアイテム検索装置 100の制御部 102の各構成（102a〜102k)を用いて説明することがあるが、これら各構成は、本バイオアイテム検索システムにおいて必ずしも同一筐体で機能するわけではない。

本実施例における本バイオアイテム検索システムは、以下の特徴を有する。すなわち、 1)キーワードに関連する遺伝子等のバイオアイテム力 Sインターノレに存在しなくとも、あら力じめ文献力抽出された 2遺伝子間の関係あるいは実験などで得られた 2 遺伝子間の関係を該バイオアイテムに適用することにより、インターバルに存在する別のバイオアイテムを推論して得ることができる。

2)薬品や細胞などインターバルが存在しな、バイオアイテムにつ、ても、キーワードに関連するバイオアイテムの検索と、推論検索を行うことができる。

3)本バイオアイテム検索システムでは、複数の文献セット種 l〜mを扱うことができる。具体的な文献セット種の一例として、 MedLineデータベース、 OMIMデータべ一スによる文献セットなどが挙げられる。 4)統計処理によるキーワードとバイオアイテムとの関連スコアの算出を可能にし、この値に基づき、検索結果オブジェクトに順位付けを行うことができる。

5)バイオアイテムの検索を数秒で実行することができる。ここで、本実施例が取り扱う文献セットを、 1)バイオアイテムと文献が多対多の関係にある文献セット（「ドキュメントセット」）、 2)バイオアイテムと文献が 1対 1の関係にある文献セット（「カタログセット」 )に分類してもよい。

[0171] 以下に、それぞれ文献セットに、ドキュメントセット Zカタログセットを用いた例を、シングルインターバルモード/マルチプルインターバルモードの 2種類の検索法について実施した例を詳細に説明する。

[0172] [a.ドキュメントセットに対するシングルインターバルモード検索]

ドキュメントセットに対するシングルインターバルモード検索について、図 10〜図 12 、図 23および図 24を参照しながら説明する。図 10は、シングルインターバルモードでノィォアイテムを検索する際のデータの流れを示した図である。図 11は、バイオアィテム全文検索器 120の概要を示す図である。また、図 12は、シングルインターバルモードにおける動作をフローチャートで表した図である。なお、図 10と図 12、または、図 11と図 12においては、一部ステップの順序 ·数に違いがある力これは本実施例力図 12におけるフローの順序'ステップ数に限られないことを示している。

[0173] ここで、本実施例においては、図 10に示すように、ノィォアイテム全文検索器 120 は、上述した、文献数取得手段や、候補バイオアイテム選出手段や、テーブル作成手段や、相関スコア算出手段等として機能する。また、図 10におけるバイオアイテム全文検索器 120以外のバイオアイテム検索システムの制御装置は、主に、ゲノム領域判定手段や、関連バイオアイテム抽出手段や、合成相関スコア算出手段や、出力手段等として機能する。

[0174] また、図 11に示すように、バイオアイテム全文検索器 120における全文検索器 110 の記憶装置は、 2種類の文献データ D1と D2を記憶する文献セットファイルを備えている。すなわち、文献データ D1は、各文献セット種 l〜mについて、少なくとも 1つのノィォアイテムに関連付けられて、る文献を収集したデータで、キーワードに関連する或いは関連しな、文献数を取得するために用いられる（全文献セットに相当する)。一方、文献データ D2は、バイオアイテム l〜r毎に関連付けられた文献の集合を生成し、その文献集合をすベてのバイオアイテム l〜rについて集めたデータである。 D 2は、各バイオアイテムについての、文献の集合 (文献セット）に対しキーワードによる全文検索が行われ、キーワードに関連しかつ該バイオアイテムに関連する文献数を取得するために用いられる (バイオアイテム文献セットに相当する）。

[0175] 図 10〜図 12に示すように、バイオアイテム全文検索器 120は、キーワードとインタ一バルを受信すると（SD— 1)、バイオアイテム l〜r毎に、文献セット種 l〜m毎の 2 種類 (Dl、 D2)の文献セットに対してキーワードによる全文検索を実行し、 D1についてキーワードに関連する文献数 Nkと、 D2につ、てキーワードに関連する文献数 Nh を取得する（SD— 2〜3)。

[0176] そして、バイオアイテム全文検索器 120は、バイオアイテム l〜r毎に、文献テープルを用いて、統計計算により、文献セット種 l〜m毎の相関スコアを計算する（SD— 4

) o

[0177] そして、バイオアイテム全文検索器 120は、各バイオアイテム l〜rについて、文献セット種 l〜m毎の相関スコアのうち最小のものを、当該バイオアイテムの相関スコアとする。ここで、バイオアイテム全文検索器 120は、最小の相関スコアが所定の閾値以上のバイオアイテムを、直接検索の解から除くよう制御してもよ!/、。

[0178] ここで、以上の SD— 3〜5の処理について、図 11に示すように、具体例として、バイォアイテム 1についての検索処理について説明する。すなわち、図 11に示すように、バイオアイテム全文検索器 120は、全文検索器 110の処理により、バイオアイテム 1 の文献セット種 l〜m毎に、キーワードを検索し、キーワードを含む文献の数（D1において Nk、 D2において Nh)を文献セット種 l〜m毎に取得する（SD— 3)。そして、ノィォアイテム全文検索器 120は、文献数 Nhおよび Zまたは文献数 Nkを用いて文献数テーブルを作成し、統計計算に基づいて、バイオアイテム 1とキーワードとの相関スコアを文献セット種 l〜m毎に算出する（SD— 4)。そして、ノィォアイテム全文検索器 120は、文献セット種 l〜mについて算出された、バイオアイテム 1とキーヮードとの相関スコアのうち、最小の相関スコアを、当該バイオアイテム 1のキーワードに対する相関スコアとする（SD— 5)。ここで、バイオアイテム全文検索器 120は、最小の相関スコアが閾値以上のバイオアイテムを、解から除外してもよ、（SD— 5)。

[0179] そして、図 11および図 12に示すように、ノィォアイテム全文検索器 120は、以上の SD— 3〜5の処理を、アイテム 2〜rについても実行し、解を収集する（SD— 3〜5)。ここで、相関スコアとは、具体例として、帰無仮説について、フィッシャーの正確確率検定に基づいて計算される P値 (0≤P値≤ 1)を指す。本発明の本実施例における帰無仮説には、「文献セットにおいてキーワードとバイオアイテムの出現には関連がない」という仮説が設定されている。すなわち、 P値が十分小さければ帰無仮説が棄却されるので、相関スコアが小さいことは、そのバイオアイテムがキーワードと相関が強いということを意味する。そして、最小の相関スコアが閾値以下であるノィォアイテム i (候補バイオアイテム)を抽出することは、キーワードと相関が有意に強いバイオアイテムを選出することとなる。

[0180] さらには、以上の SD—3〜5の処理において、各バイオアイテム l〜rについて、各文献セット種 l〜mの、ずれかあるいは全ての文献数テーブルを合成して新たな文献数テーブルを生成し、この文献数テーブルを用いて、統計計算に基づいてバイオアイテムとキーワードとの相関スコアを算出してもよい。すなわち、各バイオアイテム 1 〜rについて、文献セット種 l〜m毎に図 2に示す文献数テーブルが作成されるが、各文献セット種 l〜mの文献数テーブルの項 aを全て足し合わせた値 A、項 bを全て足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し合わせた値 Dから構成される新たな文献数テーブル（図 2において aに値 A、 bに値 B、 cに値 C、 dに値 D を代入したテーブル)を生成してもよ!/ヽ。このようにして構成される文献数テーブルを、以下、合成文献数テーブルと呼ぶ。

[0181] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜m の中から任意に 1つ以上選び出し、合成文献数テーブルを生成し、これを用いてバィォアイテムとキーワードとの相関スコアを算出し、さらに合成文献数テーブル作成の対象とならな、各文献セット種のそれぞれにつ、て、文献数テーブルからバイオアイテムとキーワードとの相関スコアを算出し、これらの相関スコアの中力も最小の相関スコアを該バイオアイテムの相関スコアとしてもよい。なお、ここでは、合成文献数テーブルを生成し相関スコアを計算する方法を記したが、本発明は、このような相関スコァの計算方法に限定されるものではない。

[0182] ノィォアイテム全文検索器 120により解としてバイオアイテム iが抽出されると、図 10 および図 12に示すように、バイオアイテム検索システムは、解として選出された各バィォアイテム iにつ!/、て、位置情報データベース 106dまたは識別子情報データべ一ス 106eを参照して、各バイオアイテム iのゲノム上の位置力利用者により入力されたインターバル (識別子の列などを含む）に存在している力否かを判断する（SD— 6)。そして、バイオアイテムがインターバルに存在していると判断した場合には（SD— 6、 Yes)、バイオアイテム検索システムは、 SD— 9以降のステップに処理を移し、該ノィォアイテムを相関スコアに基づいて出力装置に出力する。すなわち、ここで出力される解は、直接検索による解となる。ここで、直接検索の結果表示画面の一例を、図 24 を参照して説明する。図 24は、直接検索の結果表示画面の一例を示す図である。

[0183] 図 24に示すように、利用者は、キーワード入力欄（MD— 1)に「diabetes」を入力し、インターバル入力欄 (MD— 2)には第「1」番染色体を指定している。この例では、直接検索の結果の最上位には「Ptprn」が候補バイオアイテムとして挙げられており、その相関スコア（P- value)は、相関スコア表示欄（MD— 3)に、「6.87E- 245」と出力されている。そして候補バイオアイテムは、相関スコアの小さいもの順に、つまり、相関関係が高、もの順に並べられて、る (6.87E-245< 7.29E-217< 2.50E-103)。

[0184] 再び SD— 6の説明に戻り、図 10および図 12に示すように、解とされたバイオアイテムのゲノム上の位置力、インターバルに存在していないと判断した場合には（SD— 6 、 No)、バイオアイテム関係データベース 106cを参照して、当該バイオアイテムに関連する関連バイオアイテムを抽出する（SD— 7)。

[0185] そして、バイオアイテム検索システムは、抽出された関連ノィォアイテムのうち、関連バイオアイテムのゲノム上の位置力利用者により入力されたインターノレに存在している力否力判断し、インターノレに存在する関連ノィォアイテムについて（SD— 8、 Yes)、 SD— 9以降のステップに処理を移す。すなわち、ノィォアイテムの推論による解を求めることにより、利用者は、直接検索の結果力 Sインターバルを満たさない場合でも、インターバルを満たす間接検索の解を得ることができる。

[0186] そして、バイオアイテム検索システムは、合成相関スコア算出部 102hの処理により、当該ノィォアイテムと関連バイオアイテム間の相関スコア（共起相関スコア）と、キーワードとバイオアイテムとの相関スコアとを合成し、新たな相関スコア (合成相関スコア

)を計算する（SD— 9)。ここで、バイオアイテム検索システムは、合成相関スコア算出部 102hの処理による計算の結果、合成相関スコアが既定の水準を満たしていると判断した場合 (所定の閾値以下）に、帰無仮説を否定し、該関連バイオアイテムを解として出力するよう制御してもよい。

[0187] そして、バイオアイテム検索システムは、得られたバイオアイテム (候補バイオアイテム、関連バイオアイテム)群を、出力部 102iの処理により、相関スコアまたは合成相関スコアに基づいて整列させ（SD— 10)、利用者に検索結果を表示した HTML文書を出力する（SD— 11)。ここで、図 23は、シングルインターバルモードにおける間接検索結果表示画面の一例である。

[0188] 図 23の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示している。図 23の例では、利用者は、キーワード入力欄（MC— 1)に「"diabetes mouse" 」と「insulin」を入力し、インターバル入力欄のうち、染色体番号入力欄 (MC— 2)に、「11」を入力し、ポジション入力欄（MC— 3)に、「1」から「10000000」 (bps)を設定している。

[0189] 図 23の検索結果によると、関連バイオアイテム群は、キーワードとバイオアイテムの合成相関スコア (P値)に従って並べ替え出力されており、最上位のバイオアイテム表示欄 (MC— 4)には、候補バイオアイテム「Hypism」に関係する関係バイオアイテム「I gl pl」が表示され、合成相関スコア表示欄（MC— 5)には、「8.06E-8」と表示されている。

[0190] 以上が、シングルインターバルモード検索の説明である。ここでバイオアイテム関係について説明を行う。ノィォアイテム関係とは、以下に掲げるいずれかである。

[0191] 1)一文献上で共起して!/、る 2バイオアイテムを!、1/、、 2バイオアイテム間の 2次元文献数テーブル (「共起文献数テーブル」 )と相関スコア（「共起相関スコア」 )があらかじめ計算される。ここで、共起文献数テーブルとは、 2バイオアイテムをそれぞれバイオアイテム 1、バイオアイテム 2とすると、 A：バイオアイテム 1の名前とバイオアイテム 2の名前を両方含む文献数、 B：バイオアイテム 1の名前を含みバイオアイテム 2の名前を含まな、文献数、 C：バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む文献数、 D：バイオアイテム 1の名前もバイオアイテム 2の名前も含まな、文献数の A 、 B、 C、および、 Dの 4項目の値力構成される 2次元テーブルをいう。この共起文献テーブルを、フィッシャーの正確確率検定等の検定など統計計算を行い、共起相関スコアとして P値を計算する。このとき、バイオアイテム関係の向きについては、 Bが 0 かつ Cが 0でな!/、ときバイオアイテム 1→バイオアイテム 2の関係のみを、 Bが 0でなくかつ Cが 0のときノィォアイテム 2→バイオアイテム 1の関係のみを、それ以外の場合はバイオアイテムバイオアイテム 2の両方向の関係を与える。

[0192] 2)実験などから関係性が見いだされた 2バイオアイテムをいう。このとき相関スコアを P値として与える。バイオアイテム関係には向きがあっても向きがなくてもよい。すなわち 2バイオアイテム ilと i2について il→i2あるいは il^i2の片方向の関連性のみがある場合でも、 il i2の両方向の関連性があってもよい。ただし、シングルインターバルモードのバイオアイテムの推論においては、推論元のノィォアイテム io、推論先のバィォアイテム idとするとき、バイオアイテム関係 io→idのみが適用される。

[0193] [b.カタログセットに対するシングルインターバルモード検索]

カタログセットに対するシングルインターバルモード検索処理の例を、図 13、図 14、および、図 21を用いて説明する。文献セットがカタログセットの場合、バイオアイテムと文献は 1対 1の関係で格納される。図 13はカタログセットに対し、シングルインターバルモードでバイオアイテムを検索する際のデータの流れを示した図である。また図 14はその動作をフローチャートとして表したものである。

[0194] 文献セットがカタログセットの場合、全文検索器 110は、全カタログ文献を有する全文献セットを記憶する全文献セットファイル 106aを備える。全文献セットファイル 106 aには、複数のカタログセット種毎に全文献セットファイルを備えても、全てのカタログセット種の全文献セットを集めた一つの全文献セットファイルを備えてもょ、。全文検索器 110は、キーワードとインターノレを受信すると（SE—1)、全てのカタログセット（全文献セットに相当する）に対して検索を実行し、キーワードに関連する文献を取得する（SE— 2)。次に、全文検索器 110は、検索の結果、各文献に関連付けられているバイオアイテムを取得する（SE— 3)。 [0195] 文献セットがカタログセットである場合、全文検索器 110は、バイオアイテム文献セットを記憶していないので、制御装置は、相関スコア算出のための文献数は取得せず、この際のキーワードとバイオアイテムとの相関スコアは、便宜的に 0と定義され、常に「0」を算出する。

[0196] その後、バイオアイテム検索システムの制御装置は、ゲノム領域判定部 10¾の処理により、ヒットしたノィォアイテムがインターバルに存在しているか否かを判断する（ SE-4) ₀

[0197] 制御装置は、ゲノム領域判定部 10¾の処理により、バイオアイテム力インターバルに存在していると判断した場合、出力部 102iの処理により、存在していると判断されたバイオアイテムを解として出力する（SE— 5)。ここで、図 21は、カタログセットに対するシングルインターバルモード検索の結果表示画面の一例を示す図である。

[0198] 図 21の例は、カタログセット種マウスバイオリソースカタログを用いてミュータントマウスを検索する例を示している。図 21に示す結果表示画面では、利用者は、キーヮード入力欄（MA— 1)に「diabetes」を入力しており（この例ではインターバルは指定していない）、カタログ検索の結果における相関スコア（P-value)表示欄（MA— 2)は、 0. 00E0と出力される。

[0199] [c.マルチプルインターバルモード検索]

マルチプルインターバルモードの検索について図 15、図 16、および、図 22を参照しながら説明する。なお、マルチプルインターバルモードの検索では、カタログセットに対してはバイオアイテムの検索は行えず、ドキュメントセットに対してのみバイオアイテムの検索が行われる。ここで、利用者によりバイオアイテム検索システムに入力される 2つのインターバルをそれぞれ「インターバル 1」、「インターバル 2」と呼ぶ。図 15は、マルチプルインターバルモード検索のデータの流れを示す概念図であり、図 16は、その動作を表すフローチャートである。

[0200] 図 15および図 16に示すように、まず、キーワードとインターバル 1およびインターバル 2を受信すると（SF—1)、バイオアイテム検索システムは、インターバル 1、インターバル 2それぞれについて、ドキュメントセットに対しキーワードの直接検索を行う（SF —2、 3)。すなわち、インターバル 1を満たす直接検索の解の集合をバイオアイテム群 1として取得し、インターバル 2を満たす直接検索の解の集合をバイオアイテム群 2 として取得する。ここで、直接検索の処理内容については、上述したので説明を省略する。

[0201] つぎに、バイオアイテム検索システムは、ノィォアイテム群 1に属するバイオアイテムと、バイオアイテム群 2に属するノィォアイテムとのそれぞれから構成される全てのバイオアイテムの組み合わせをバイオアイテムペアとして生成する（SF— 4)。

[0202] そして、バイオアイテム検索システムは、バイオアイテム関係データベース 106cを参照して、一定のバイオアイテム関係 (例えば、共起相関スコアが閾値以下等)を有するバイオアイテムペアを抽出する（SF— 5)。ここで、バイオアイテム関係は、バイオアイテムペアを il、 i2とすると、 il→i2か il i2かあるいは il i2である力 ilと i2の間の関係の向きは問わな、。

[0203] そして、バイオアイテム検索システムは、抽出されたノィォアイテムペアについて、当該 2バイオアイテムそれぞれについて算出されたキーワードとの相関スコアと、バイォアイテム間の共起相関スコアとを、数式 2あるいは数式 3などに基づいて合成し、新たな相関スコア（共起キーワード相関スコア）を算出する（SF— 6)。ここで、バイオアィテム検索システムは、共起キーワード相関スコア算出部 102mの処理による計算の結果、共起キーワード相関スコアが既定の水準を満たすと判断した場合は、帰無仮説は否定され、該バイオアイテムペアを解として出力するよう制御してもよ、。

[0204] そして、バイオアイテム検索システムは、解として得られたバイオアイテムペア群を、出力部 102iの処理により、総合相関スコア（共起キーワード相関スコア）に基づき整列し (SF— 7)、利用者に提示（出力）する（SF— 8)。ここで、マルチプルインターバルモードにおける検索の結果表示画面の例を、図 22を参照して説明する。図 22は、マルチプルインターバル検索の結果表示例を表す図である。

[0205] 図 22の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示している。図 22に示す例では、モード設定欄（MB— 2)はマルチプルインターバルモード ( Tmultiple intervals )に設定されており、利用者は、キーワード入力欄（MB— 1)に「"breast cancer"」を入力し、インターバル 1入力欄（MB— 3)に染色体第「9」番の領域（「63214874」〜「111011533」 )を、インターバル 2入力欄（MB— 4)に染色体第「 15」番の領域（「25275696」〜「92307904」 )を入力して、る。

[0206] このように利用者による入力があった場合、図 22に示すように最上位の検索結果は、ノィォアイテム 1結果表示欄（MB— 5)に「Cdc25a」、バイオアイテム 2結果表示欄（ MB— 6)に「Myc」が検索結果として表示されている。また、両バイオアイテムを含む（ Co-cited)文献数 (Documents)表示欄（MB— 7)には、「46」件と表示されており、両バイオアイテムの合成された相関スコア（総合 P値)表示欄（MB— 8)は、「1.43E- 131 」と表示されている。このようにマルチプルインターバルモードでは、利用者は、ゲノム領域を考慮した、総合的に相関関係の高いバイオアイテムペアを得ることができる。

[0207] 以上で、マルチプルインターバルモードとシングルインターバルモードの 2種類の検索法について用いて実施した例の説明を終える。

[0208] [バイオアイテム検索システムの実装例]

本発明の本実施の形態を実用的な分散型アーキテクチャに適用したバイオアイテム検索システムの実装例を、図 17を参照しながら説明する。本実施の形態における本実施例においては検索機能を分散配置された複数のコンピュータ上で稼動させる構成としたので、これらが並列に処理を進める結果、処理時間の短縮を図ることができ、一連の検索動作が数秒から 1秒程度で完了する。ここで、図 17は、バイオアイテム検索システムのシステムアーキテクチャの一例を示す図である。

[0209] 図 17に示すように、本バイオアイテム検索システムは、大きく 3つのソフトウェアコンポーネントから構成される。すなわち、本バイオアイテム検索システムは、図 17に示すように、ユーザクライアント 500、システム管理サーバ 400、バックエンド 200から構成される。さらに、バックエンド 200は、バックエンド管理サーバ 201と、文献数取得サーバ 202と、分散配置される分散文献検索サーバ 210a〜xから構成される。また、システム管理サーノ 00は、バイオアイテム種 l〜n (マウス遺伝子、ヒト遺伝子、薬品、代謝物、ノィオリソース、疾患等）毎に構築された複数のノックエンド 200— l〜nと接続され、必要に応じてバックエンド間で分散並列処理が実行される。図 17においては、マウス用バックエンド 200— 1と薬品用バックエンド 200— nが例示されている。ゲノム配列を持たな、バイオアイテム、例えば薬品などはゲノム配列上の位置を持たない仮想の遺伝子として取り扱われる。以下、本バイオアイテム検索システムの動作手順について説明する。

[0210] (1)ユーザリクエストの送信

まず、ユーザクライアント（Webブラウザ） 500は、利用者にキーワード、インターバル、識別子の列等を入力させる。ここで、利用者はインターバル、あるいは識別子の列、あるいはインターバルと識別子の列の両方を入力することができる力以下単に「インターバル」と記述する場合であっても、インターバル、あるいは識別子の列、あるいはインターバルと識別子の列の両方のいずれかを表す。そして、ユーザクライアント 500は、利用者により入力されたこれらのリクエストデータを、システム管理サーバ 4 00に送る _Q

[0211] (2)バックエンドへの処理の依頼処理の発動と結果の取得

リクエストデータを受信したシステム管理サーノ 00は、リクエストを解析し、処理を依頼すべきバックエンド 200を選択し、選択したバックエンド 200のバックエンド管理サーバ 201にリクエストを送信する。

[0212] (3)キーワードに関連する文献数の取得処理の発動と結果の取得

そして、リクエストを受信したバックエンド管理サーバ 201は、文献数取得サーバ 20 2にキーワードを送信する。キーワードを受信した文献数取得サーバ 202は、文献数取得用文献セット (全文献セット)群を用いて、文献セット種 1〜m毎にキーワードに関連する文献数 (Nk)とキーワードに関連しな、文献数 (，Nk)の組を取得し、ノッタエンド管理サーバ 201に返す。

[0213] (4)分散並列処理による文献検索処理の発動と結果の取得

そして、バックエンド管理サーバ 201は、（2)で受信したリクエストと、（3)で得た文献数の組とを、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処理を依頼する。

[0214] [1種類のドキュメントセットにおける分散文献サーバの動作]

ここで、文献セット種が 1種類で、かつその文献セット種がドキュメントセットである場合のバックエンドの動作について図 17および図 19を参照しながら説明する。すなわち、各分散文献検索サーバ 210の動作は次の通りである。ここで、図 17は、バイオアィテム検索システムのシステムアーキテクチャの一例を示す図である。図 19は、分散文献検索サーバ 210のアーキテクチャの一例を示す図である。

[0215] (1)バックエンド管理サーバ 201は、インターフェース 211を介して、バックエンド管理サーバ 201からリクエスト（キーワード、インターバル、識別子の列等）と、文献数取得サーバ 202から得たキーワードに関連する文献数 Nkと、キーワードに関連しない文献数， Nkの組を受信し、文献全文検索器 212に送信する。

[0216] (2)文献全文検索器 212は、バイオアイテム 1の関連文献セット (文献数を N1とする )に対し、キーワードによる全文検索を行い、ノィォアイテム 1に関係する文献数 Nhを取得する。この文献数 Nhが 1以上のとき、アイテム領域判定器 212iは、バイオアイテム 1がインターバルに存在するかを調べる。

[0217] (0アイテム領域判定器 212iは、インターノレに含まれていると判断したとき、バイオアイテム 1を検索結果として採用し、（3)を実行する。すなわち、アイテム領域判定器 212iは、バイオアイテム 1の識別子と（ 3)で得られた相関スコァ計算器 212dの処理による、バイオアイテム 1とキーワードとの P値の組を文献全文検索器 212に送信する

[0218] GOアイテム領域判定器 212iは、バイオアイテム 1がインターバルに含まれていないと判断したとき、文献全文検索器 212は、ノィォアイテム推論器 212eを用いてバイォアイテム 1に関連するバイオアイテム Xを抽出し、バイオアイテム 1とバイオアイテム X 間の相関スコア P (共起相関スコア）を取得する。そして、バイオアイテム Xがインタ一バルに存在すると判断したとき、制御装置は、バイオアイテム Xを検索結果として採用し、相関スコア算出部 102dの処理により、バイオアイテム Xとキーワードとの相関スコアを求め、この相関スコアと共起相関スコア力も合成 P値を合成により求める。この合成 P値が既定の水準を下回っているとき、バイオアイテム推論器 212eは、バイオアィテム Xの識別子と合成 P値の組を文献全文検索器 212に送信する。

[0219] ここで、バイオアイテム 1がインターバルに存在するか否かの判定において、当該バィォアイテムの生物種と利用者により指定された領域 (インターバル)のゲノム配列の生物種と異なる場合であっても、ホモロジ一関係が存在する場合にはこの関係を適用してちょい。

[0220] (3)分散文献全文検索器 212は、 Nh、 Nl、 Nk、および、，Nk ( = Nall— Nk)を相関スコア計算器 212dに送信する。相関スコア計算器 212dは、図 3に示した文献数テーブルを作成し、このテーブル力もフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率等の統計計算により P値を求める。

[0221] (4)文献全文検索器 212は、（2)と（3)をその他のバイオアイテム、すなわちバイオアイテム 2からバイオアイテム rまでについて実行する。

[0222] (5)文献全文検索器 212は、検索結果として得られたバイオアイテムと P値の組のリストを、インターフェース 211を介してバックエンド管理サーバ 201に返す。

[0223] ここで、マルチプルインターバルモードでの分散文献検索サーバ 210の動作について、説明する。

[0224] まず、インターバル 1に存在するバイオアイテムを検索するため、上記シングルインターバルモードでの動作（1)、（2) (i)、（3)、（4)、（5)の順で実行する。

[0225] 次にインターバル 2に存在するバイオアイテムを検索し結果を得るため、以下に掲げる動作を行う。

[0226] (6)インターフェース 211は、バックエンド管理サーバ 201からリクエスト、すなわちキーワード、インターバル、（5)で得られたリスト、文献数取得サーバから得たキーヮードに関連する文献数 Nkとキーワードに関連しない文献数， Nkの組を受信し、文献全文検索器 212に送信する。

[0227] (7)文献検索器 212は、バイオアイテム 1、インターバル 2について（2) (0を実行する。

[0228] (8)文献検索器 212は、（5)で得られたバイオアイテム群と当該バイオアイテムとのすべてのペアを作成する。各バイオアイテムペアにつ、て以下を実行する。

[0229] (i)V、まペアを構成するバイオアイテムをそれぞれ g、 gとする。このペアをバイオア

1

ィテム推論器 212eに送る。

[数 1] (ii)バイオアイテム推論器 2 1 2 eは受け取ったペアについて、このバイオアイテムペアを構成する 2バイオアイテムに関係があるかを、例えば共起相関スコアに基づレ、て調べる。関係がある場合には、バイオアイテム推論器 2 1 2 eは、 2バイオアイテム間の 2次元文ブル Γ と相関スコアを取得する。そして、バイオアイテム推論器 2 1 2

[0230] [数 2]

( 9 ) 文献全文検索器 2 1 2は、まずバイオアイテムについて（3 ) を実行しキーヮードとの相関スコアを計算する。次に（8 ) で受け取った組について、上述した数式 2または数式 3を用いて、総合相関スコア _to/を計算する。この総合相関スコアが既定の水準を下回っているときノくィォアイテム Xノくィォアイテム 1、相関スコア ,。,、、一、

( 8 ) で受け取った組の 6つ組を解の一つとしてバックェンド管理サーバ 2 0 1に送信する。

[0231] (10)文献全文検索器 212は、（7)、（8)、（9)をその他のバイオアイテムについて実行する。

[0232] 以上で、分散文献検索サーバ 210の動作の実施例の説明を終える。

[0233] [1種類のカタログセットにおける分散文献サーバの動作]

文献セット種が 1種類で、かつその文献セット種がカタログセットである場合のバックエンドの動作について、図 20を参照して説明を行う。図 20は、カタログ検索用システムのアーキテクチャの一例を示す図である。

[0234] カタログセット用検索システムとドキュメント用検索システムとの違いは、ノックエンド 200の構成である。上記ドキュメント用検索システムで説明した手順「（1)ユーザリクェストの送信」、「（2)バックエンドへの処理の依頼処理の発動と結果の取得」、「（5) 結果 HTMLドキュメント送信による検索結果の表示」、についてはドキュメント検索用検索システムの手順と同様である。

[0235] (3)キーワードに関連する文献の取得処理の発動と結果の取得

文献検索サーバ 210は、キーワードに関連する文献の取得のため、キーワードに関連する文献の取得を行う。すなわち、文献検索サーバ 210は、全てのカタログ文献を有する全文献セットを記憶し、この文献セットに対してキーワードによる全文検索を行い、キーワードに関連する文献を取得する。

[0236] (4)バイオアイテムの取得 (解バイオアイテムの選択）

ノックエンド管理サーバ 201は、候補バイオアイテムの選択のために、（3)で得られた各文献に該当するバイオアイテムを、バイオアイテム関係データベース 206cを用いて取得する。さらに、ノックエンド管理サーバ 201は、各バイオアイテムのために、位置情報データベース 206dを用いて当該バイオアイテムがインターバルに存在して V、るかを調べる。ここでインターバルに存在して、るバイオアイテムが解となる。

[0237] これにて、カタログセット検索システムのアーキテクチャの説明を終える。

[0238] [ドキュメントセット、カタログセットに対する同時検索機能]

ドキュメントセット用検索システムとカタログセット用検索システムシステムへ同時にリタエストを発動し、これらの結果をまとめることで、ドキュメントセットとカタログセット双方の検索システムを用いてバイオアイテム検索を行ってもよい。このとき、カタログドキュメント検索結果の相関スコアは常に 0であるから、利用者に表示される結果表示べージにお、てはカタログの結果が常に上位にランキングされる。

[0239] [複数種類の文献セット種における分散文献サーバの動作]

文献セット種が複数種類である場合のバックエンドの動作にっ、て説明する。この場合、上で示したように複数のドキュメントセット検索システムと複数のカタログセット用検索システムへ同時にリクエストを発動し、これらの結果をまとめることも可能である力以下に掲げる方法を用いてもよい。

[0240] ここでシングルインターバルモードでの動作を以下に説明する。リクエストと文献数の組を受理した各分散検索サーバ 210では、該分散文献検索サーバ 210が担当するバイオアイテム群 1〜r毎に、文献セット種 1〜m毎にキーワードに関連する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以上のバイオアイテムについて、以下に掲げる手続き (i)〜 (ii)を実行する。

[0241] (0分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、位置情報データベースを参照し、文献数 Nhが 1以上であるバイオアイテム (候補バイオアイテム）のゲノム上の位置力インターバル (ゲノム上の領域）に存在すると判断したとき、 (3) で得た文献数の組および Zまたは取得した文献数 Nhに基づ、て、統計計算により相関スコアを計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準を下回る（所定の閾値以下）と判断すると、帰無仮説は否定され、当該バイオアイテムを解としてバックエンド管理サーバ 201に返す。

[0242] GO分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、文献数 Nh 力 Si以上であるバイオアイテム (候補バイオアイテム）が、利用者指定のインターバルに存在しな、と判断したとき、あら力じめ文献から取得されたバイオアイテム-バイオアイテム関係（一例として、共起相関スコアに基づくもの）を適用して、当該バイオアイテムに関連するバイオアイテム（関連バイオアイテム）を取得する。

[0243] つぎに、分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、この関連する各バイオアイテム（各関連ノィォアイテム）がインターバルに存在するか調査する。分散文献検索サーバ 210は、インターバルに存在していると判断した場合には、（3)で得た文献数の組に基づいて、統計計算により元の候補バイオアイテムの相関スコアを求める。そして、分散文献検索サーバ 210は、更にこの相関スコアの値と該バイオアイテムバイオアイテム関係の相関スコア（共起相関スコア）とを合成して総合相関スコア (合成相関スコア）を算出し、当該関連バイオアイテムを解としてバックエンド管理サーバ 201に返す。

[0244] ノックエンド管理サーバ 201は、（0、 GOの処理による、すべての分散文献検索サーバ 210a〜xから検索結果 (解)を受け取り、システム管理サーノ 00に結果を返す。

[0245] 次に、マルチプルインターバルモードでの動作 (i)〜(v)を以下に説明する。 2つのィンターバルをそれぞれインターバル 1、インターバル 2とする。

[0246] (0バックエンド管理サーバ 201からリクエストと文献数の組を受理した文献検索サーバ 210は、担当するバイオアイテム l〜r毎に、文献セット種 l〜m毎にキーワードに関係する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以上のバイオアイテム (候補バイオアイテム）について、以下に掲げる手続きを実行する

[0247] GO分散文献検索サーバ 210は、当該ノィォアイテム (候補バイオアイテム）がインタ一バル 1に存在すると判断したとき、 (3)で得た文献数の組および Zまたは取得した文献数 Nhに基づいて、統計計算によりキーワードと該バイオアイテムとの相関スコアを計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準 (所定の閾値)を下回ると判断したときは、帰無仮説は否定され、当該バイオアイテム (候補バイオアィテム）をインターバル 1に存在するバイオアイテムとしてバックエンド管理サーバ 201に返す。

[0248] そして、バックエンド管理サーバ 201は、すべての分散文献検索サーバ 210a〜x 力も検索結果 (解)を受け取り、（2)で受信したリクエスト、（3)で得た文献数の 3つ組を、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処理を依頼する。各文献検索サーバ 210a〜xは以下に掲げる手続き (iii)〜(v)を実行する。

[0249] (iii)各文献検索サーバ 210は、担当するバイオアイテム l〜r毎に、文献セット種 1〜 m毎にキーワードに関係する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以上の各バイオアイテム (各候補バイオアイテム）について、以下に掲げる手続きを実行する。

[0250] (iv)各文献検索サーバ 210は、当該バイオアイテム (候補バイオアイテム）がインタ一バル 2に存在すると判断したとき、（3)で得た文献数の組に基づいて、統計計算によりキーワードと該バイオアイテムとの相関スコアを計算する。この相関スコアが既定の有意水準 (所定の閾値)を下回るとき、 (V)を実行する。

[0251] (V)各文献検索サーバ 210は、インターノレ 1に存在するノィォアイテムと当該バイォアイテムとのすべてのペアを生成する。このうち、あらかじめ文献から取得した (バイォアイテム関係データベースに記憶された)バイオアイテムーノィォアイテム関係を持つペアを、共起関係に基づいて選抜する。さらに、選抜された各バイオアイテムぺァについて相関スコアを、（iv)で求めた相関スコアと、バイオアイテムバイオアイテム関係の相関スコア（共起相関スコア）と、を合成して算出する。この相関スコアが既定の有意水準 (所定の閾値)を下回るバイオアイテムペアをバックエンド管理サーバ 2 01に返す。

[0252] ノックエンド管理サーバ 201は、（i)〜(v)の処理による、すべての分散文献検索サーバ 210a〜xから検索結果を受け取った後、これらの検索結果をシステム管理サーバ 400に返す。

[0253] (5)結果 HTMLドキュメント送信による検索結果の表示以上の（4)を実行後、システム管理サーノ 00は、選択したすべてのバックエンド管理サーバ 201から検索結果を受け取り、検索結果を解バイオアイテム毎にまとめ上げる。このとき、検索結果である各解バイオアイテム (候補バイオアイテムまたは関連バイオアイテム）について、一般には複数の解が得られる（キーワードから解バイオアイテムに達するまでに経由する候補バイオアイテムが複数得られる）。このうち最も総合相関スコアの小さい解を該バイオアイテムの解とする。次に、システム管理サーノ 00は、得られた解リストを相関スコアの小さい順にソートし、さらにこの結果を HT MLドキュメントに変換してユーザクライアント 500に返す。

[0254] ここで、本実施例につ!、ての本システムは Webサービスとして実装されて!、てもよい。すなわち、システム管理サーノ 00は Webサーバとして実装され、インターネットを介してユーザクライアント 500である Webブラウザからリクエストを受理し、結果を H TMLドキュメント形式で送信するように構成してもよい。また、ここで、上述した本実施例における Webサーバからクライアント 500に対して送信された処理結果の Web ブラウザにおける表示例を要約する。

[0255] 以下、図 21〜図 29に示す例は、いずれも Intel (登録商標)社製 Xeon (商品名） 3 . 6GHzの CPUと 2GBのメモリとを備えた分散型ワークステーションを、 20台用いて実行させたものである。

[0256] ここでの実施例にお!、て用いた検索対象バイオアイテムは、マウス遺伝子、ヒト遺伝子、代謝物、薬品、疾患名、マウスミュータントである。各バイオアイテム数は、マウス遺伝子 58,237件、ヒト遺伝子 22,707件、代謝物 9,350件、薬品 1,015件、疾患名 1,884 件、マウスミュータント 12,280件である。

[0257] さらに、ここで用いた文献セット種は、 MEDLINE、 PPI、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログである。本バイオアイテム検索装置の入力として用いた各文献セット種の文献数は、それぞれ MEDLINE 16,335,424件、 PPI 22,476件、ミュータントマウスカタログ 12,28(H 、 OMIM 17,974件、マウス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350件、薬品カタログ 1,015件、疾患名カタログ 1,884件である。 [0258] また、この実施例において用いた各文献セット種の文献数については、文献全文検索器 212に格納されている文献の総数 (各バイオアイテム毎にまとめられた文献セットに含まれる文献数の合計）は、文献セット種毎にそれぞれ MEDLINE 16,112,25 6件、 PPI 87,288件、ミュータントマウスカタログ 27,035件、 OMIM 23,023件、マウス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350 件、薬品カタログ 1,015件、疾患名カタログ 1,884件である。また、文献全文検索器 204に格納されている各文献セット種の文献数は、それぞれ MEDLINE 6,940,248 件、 PPI 22,476件、ミュータントマウスカタログ 12,280件、 OMIM 14,451件、マウス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350件、薬品カタログ 1,015件、疾患名カタログ 1,884件である。

[0259] すなわち、図 21はシングルインターバルモードにおけるカタログ検索結果表示画面の一例で、文献セット種ミュータントマウスカタログを用いてミュータントマウスを検索する例を示している。この例では、 52個の解が得られ、検索に要した時間は 0.109秒であった。

[0260] また、図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示している。この例では、 13個の解が得られ、検索に要した時間は 2.045秒であった。

[0261] また、図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示している。この例では、 5個の解が得られ、検索に要した時間は 0.858秒であった。

[0262] また、図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示している。この例では、 9個の解が得られ、検索に要した時間は 0.858秒であった。

[0263] また、図 25は、シングルインターバルモード（ただしインターバルを指定しな!、）における複数の文献セット種を用いた直接検索結果表示画面の一例で、文献セット種 MEDLINE, PPI、ミュータントマウスカタログ、 OMIM,マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子、ヒト遺伝子、代謝物、薬品、ミュータントマウス、疾患を検索する例を示す図である。この例では、 8,371個の解が得られ、検索に要した時間は 3.41秒であった。

[0264] また、図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例を示す図である。この例では、 5,438個の解が得られ、検索に要した時間は 1.902秒である。

[0265] また、図 27は、シングルインターバルモードにおける複数の文献セット種を用いた直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例でキーワードとしてヒト遺伝子の識別子力も構成されるブール論理式を用いた例を示す図である。図 27に示すように、ヒト遺伝子の識別子として「HGNC:2744」と「HGNC:28 040」が入力されている。この例では、 15個の解が得られ、検索に要した時間は 1.468 秒であった。

[0266] また、図 28は、シングルインターバルモードにおける識別子の列を指定して複数の文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例を示す図である。図 28に示すように、識別子の列として「MGI:99 454,MGI:96575」が利用者により入力されている。この例では、 2個の解が得られ、検索に要した時間は 0.736秒であった。

[0267] また、図 29は、マルチプルインターバルモードにおける複数の文献セット種を用いた検索結果表示画面の一例で、文献セット種 MEDLINE、 PPI、ミュータントマウス力タログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、疾患名カタログを用いてマウス遺伝子を検索する例を示す図である。この例では、 17個の解が得られ、検索に要した時間は 1.928秒であった。

[0268] [文献数取得サーバ] 文献数取得サーバ 202のアーキテクチャについて、図 18を用いて説明する。図 18 は、文献数取得サーバのアーキテクチャの一例を示す図である。

[0269] 図 18に示すように、文献数取得サーバ 202は、インターフェース 203と文献全文検索器 204を備える。文献全文検索器 204は、文献セット種 l〜m毎にバイオアイテム文献セットに関連する全ての文献を収集した文献セット (全文献セット:少なくとも 1つのバイオアイテムに関連付けられて!/、る全ての文献の集合)群を記憶する全文献セットファイルを備える。この全文献セットに対してキーワードによる全文検索を行うことにより、文献セット種 l〜m毎に、キーワードに関連する文献数 Nkと関連しない文献数，Nkとを取得する。ここで、全文献セットファイルの形式については、好適には Apac he Lucene (商標）のインデックス形式が望まし!/、が、本発明はこのファイル形式を制限するものではない。

[0270] [分散文献検索サーバ]

次に分散文献検索サーバ 210のアーキテクチャについて、図 19を参照して説明する。図 19は、分散文献検索サーバ 210のアーキテクチャの一例を示す図である。

[0271] 分散文献検索サーバ 210は、 5つのコンポーネント、すなわちインターフェース 211 、文献全文検索器 212、アイテム領域判定器 212i、相関スコア計算器 212d、および、ノィォアイテム推論器 212e、ノィォアイテム名テーブル 212fから構成される。

[0272] そして、分散文献検索サーバ 210は、当該バイオアイテム文献セットを分散文献検索サーバ 210a〜xの数で均等分割された各バイオアイテム文献セット群を記憶するノィォアイテム文献セットファイルを備える。すなわち、文献全文検索器 212には、割り当てられたバイオアイテム文献セットのバイオアイテム l〜r毎に、関連文献のセット (バイオアイテム文献セット)群が配置されている。このとき、関連する文献群は、図 19 に示されているように文献セット種毎にまとめられて配置される。ここで、バイオアイテム文献セットファイルの形式については、好適には Apache Lucene (商標）のインデッタス形式が望ましいが、本発明はこのファイル形式を制限するものではない。

[0273] また、バイオアイテム推論器 212eには、 2バイオアイテム間の関係データが格納されたデータベース（バイオアイテム関係データベース）テーブルが備わって、る。 2バィォアイテム間の関係には、以下の 2種類 A)と B)が存在する。 [0274] A)文献上の共起関係から抽出される関係

2つのバイオアイテムの名前が一文献上に共存していることを、文献上で 2バイオアィテムが共起して、ると、う。このような共起関係力も抽出された 2バイオアイテムについて、 2次元文献数テーブルと相関スコア（共起関係相関スコア）がそれぞれ文献セット種 l〜m毎にあら力じめ計算され、データベース化される。ここで、 2次元文献数テ一ブルとは、該 2バイオアイテムをそれぞれバイオアイテム 1、バイオアイテム 2とすると、 a :バイオアイテム 1の名前とバイオアイテム 2の名前を両方含む文献数、 b :バイオアイテム 1の名前を含みバイオアイテム 2の名前を含まな、文献数、 c：バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む文献数、 d：バイオアイテム 1の名前もバイオアイテム 2の名前も含まない文献数の a、 b、 c、および、 dの値から構成される 2次元文献数テーブルをいう。また、共起関係相関スコアは、 2次元文献数テーブルをフィッシャーの正確確率検定により検定を行うことにより算出される P値である。

[0275] B)実験など文献共起以外の方法で抽出される関係

2つのバイオアイテムの関係に相関スコア（共起関係相関スコア）として P値を与えてデータベース化する。このとき 2次元文献数テーブルは定義されな、。

[0276] ここで、シングルインターバルモードでの動作の場合、各分散文献検索サーバ 210 の動作は次の通りである。

[0277] ·シングルインターバルモードでの動作

[数 3]

( 1 ) ィンターフェ一ス 2 1 1は、パックェンド管理サーバ 2 0 1からリクエスト（キ一ワード、インターバル等）と、文書数取得サーバ 2 0 2から得た各種文献セット（1≤ i ≤m)のキーヮードに関連する文献数 ( 1≤ i ≤m)とキーヮードに関連しない文献数

，n_k ^d' ( l≤ i n との組〈，→^'〉を受信し、文献全文検索器 2 1 2に送信する。

[0278] (2)文献全文検索器 212は、例えばバイオアイテム 1 (g.と表す。 )について、次の（

3)、（4)、（5)の動作を行う。

[0279] [数 4] (3) まず、文献全文検索器 2 1 2は、文献セット種 l (d ,と表す。；)のバイオアイテム 1関連文献（バイオアイテム 1のバイオアイテム文献セット）群 (文献数を？^'とする）に対し、キーワードによる全文検索を行い、ヒットする文献数を取得する。この文献数が

1以上のとき、 6つ組〈" ，，" ，，" 〉を相関スコア計算器 2 1 2 dに送信し、（8) を実行して 2次元文献数テーブル： T」_Siと相関スコア ^ _g|を求め、 3っ組く：？^，/^^を生成する。

[0280] (4)文献全文検索器 212は、（3)を他の文献セット種、すなわち文献セット種 2から文献セット種 mにつ、て実行する。

[0281] [数 5]

(5) 文献全文検索器 2 1 2は、（3)、（4) で得られた各種文献セット 1〜mについての相関スコア尸 ,--,P ^m の最小値を計算し、これをキーワードとバイオアイテム 1との相関スコア/^ ^とする。 P_k—_g が既定の水準（所定の閾値）を下回っているとき、バイオアィテム領域判定器 2 1 2iを用いてバイオアイテム 1がインターバルに含まれているかを調ベ、以下の（i) · (ii) を実行する。

(L直接検索）インターバルに含まれているとき、バイオアイテム 1を検索結果として採用し、バイオアイテム 1、相関スコア _ff 、 ( 3 ) と（ 4 ) で得られた 3つ組 ≤ i ≤m)のリストから構成される組を解の

一^ 3として記憶装置（メモリ）上に保持する。

(ii.推論検索）インターバルに含まれていないとき、バイオアイテム推論 2 1 2 eを用いてバイオアイテム 1に関連するバイオアイテム群 X ·· Xq (これらをそれぞれ •• ' gf と表す。）を得る。各バイオアイテム x,(l≤ i ≤ q)について、バイオアイテム領域判定器 2 1 2iを用いてインタ一バルに含まれているバイオアイテムを選出する。選出された各バィォアイテム xiについて（6)、 (7) を実行する。ここで、バイオアイテムがインターバルに存在するか否かの判定において、該バイォアイテムが薬品など位置を持たな、バイオアイテムセットに属して、る場合には、常にインターバルに存在するものとして処理される。また、該バイオアイテムの生物種と利用者により指定された領域 (インターバル)のゲノム配列の生物種とが異なる場合でも、ホモロジ一関係が存在する場合にはこのホモロジ一関係を適用する。さらには

、利用者の指示により、バイオアイテム 1がインターバルに含まれているときであっても (ii)を実行させることもできる。

[数 6] また、利用者の指示により、キーワードとバイオアイテム 1との相関スコア ^ _S|を、各文献セット種 1〜！ nの文献数テーブル 7 > - - - _k ^dm のいずれかあるいは全ての文献数テーブルを合成して新たな文献数テーブルを生成し、この文献数テーブルを用いて、統計計算に基づいてバイオアイテムとキーワードとの相! ¾スコアを算出してもよい。すなわち、上記（3 )、（4 ) により文献セット種 l〜m毎に図 2に示す文献数テーブル ,- - - , Tt^m 力'；作成されるが、各文献セット種 l〜mの文献数テーブル Γ , · · · ,Τ^ά"' の項 aを全て足し合わせた値 A、項 bを全て足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し合わせた値 Dから構成される新たな文献数テーブル（図 2において aに値 A、 bに値 B、 c に値 C、 dに値 Dを代入したテーブル）を生成してもよレ、。このようにして構成される文献数テーブルを、以下、合成文献数テーブルと呼ぶ。

あるいは、合成文献数テーブル作成の対象となる文献セット種を l〜m の中から任意に 1 つ以上選び出し、合成文献数テーブルを生成し、これを用いてバイオアイテムとキーヮードとの相関スコアを算出し、さらに合成文献数テーブル作成の対象とならない各文献セット種のそれぞれについて、文献数テーブルからバイオアイテムとキーヮ一ドとの相関スコァを算出し、これらの相関スコアの中から最小の相関スコアを該バイオアイテムの相関スコア P_k_„ としてもよい。 [数 7]

(( 66 )) ババイイオオアアイイテテムム 11にに関関連連すするるババイイオオアアイイテテムムののううちちのの一一つつババイイオオアアイイテテムム X, ((ここれれををとと表表すす））ににつついいてて、、ババイイオオアアイイテテムム推推論論器器 22 11 22 eeをを用用いいてて以以下下にに記記すす方方法法にに従従レレ、、、、ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム間間のの相相関関ススココアアとと 22次次元元文文献献数数テテーーブブルルをを取取得得すするる,, ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム ^^ととのの関関連連がが文文献献上上のの共共起起にによよりり得得らられれてていいるる場場合合ににはは、、すすべべててのの該該文文献献セセッットト (( 11≤≤ ii ≤≤mm)) のの 22次次元元文文献献数数テテーーブブルル 77^^ とと相相関関ススココァァ PP ;;___gg をを取取得得しし 33つつ組組をを生生成成しし、、そそううででなないい場場合合ににはは相相関関ススココアア//^^しし

( 1≤ j ≤ s , sは文献上の共起ではなく実験などから見出されたバイオアイテム関係 e .. の数）を取得し、 3つ組〈， ^を生成する。ここでは空の文献数テーブルを表す。このようにして得たすべての相関スコア/^し _g ( 1≤ i ≤m) , P_g ^e;__g ( l≤ j ≤ _s ) の最小値を計算し、この値をバイオアイテム 1とバイオアイテム X,間の相関スコア _ρ „ とする。 8]

また、利用者の指示により、相関スコア/^ _ の算出において、バイオアイテム 1とバィォアイテム；との相関スコア/¹ を、各文献セット種 l〜mの文献数テーブル τ ' ,···,τ^ά· のいずれかあるいは全ての文献数テーブルを合成して新たな文献数テ一ブルを生成し、この文献数テーブルを用いて、統計計算に基づいてバイオアイテムとキーヮードとの相関スコアを算出してもよい。すなわち、文献セット種 l〜m毎に下記の図 3 1に示す文献数テーブル ' ,--- ^d" が作成されるが、各文献セット種 l〜mの文献数テ一ブル/—' ,· · ''Τ. " の項 aを全て足し合わせた値 Α、項 bを全て足し合わせた値 Β、項 c を全て足し合わせた値 C、項 dを全て足し合わせた値 Dから構成される新たな合成文献数テーブル（図 3 1において aに値 A、 bに値 B、 cに値 C、 dに値 Dを代入したテーブル）を生成してもよい。この合成文献数テーブルから算出された相関スコアと、文献上の共起ではなく実験などから見出されたバイオアイテム関係の相関スコア/^ , ( 1≤ j ≤ s ) の最小値を計算し、この値をバイオアイテム 1とバイオアイテム間の相関スコア/^ _ とする。

[数 9] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜mの中から任意に 1 つ以上選び出し、合成文献数テーブルを生成し、これを用いてバイオアイテムとキ一ワードとの相関スコアを算出し、さらに合成文献数テーブル作成の対象とならない各文献セット種のそれぞれについて、文献数テーブルからバイオアイテムとキーワードとの相関スコアを算出し、これらの相関スコアと文献上の共起ではなく実験などから見出されたバイオアイテム関係の相関スコア i ^ ( 1≤ j≤ s ) の最小値を計算し、この値をバイオアイテム 1とバイオアイテム間の相関スコアとしてもよい。ここで、図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を示す図である。図 32に示すように、文献数テーブルは、 a)バイオアイテム 1を含み且つバイオアイテム 2名を含む文献の数、 b)バイオアイテム 1を含まず且つバイオアイテム 2名を含む文献の数、 c)バイオアイテム 1を含み且つバイオアイテム 2名を含まない文献の数、および、 d)バイオアイテム 1を含まず且つバイオアイテム 2名を含まない文献の数、の 4つの項目 a)〜d)のうち少なくとも一つ力も構成される。ここで、図 33は、ユーザクライアント 500である Webブラウザ上で上記（5)、（6)における合成文献数テーブルの作成の方法を利用者が指定する例を示した図である。

[0285] 図 33右図に示すように、（5)でキーワードとマウス遺伝子の関連付けに用いる文献セット種の選択タブ（MEDLINE選択タブ MK— 3、 PPI選択タブ MK— 4、 mouse m utant選択タブ MK— 5、 mouse gene record選択タブ MK— 6)が表示される。すなわち、（5)における合成文献数テーブルの作成方法については、各文献セット種について、 weak, strong, none (図には表示されていない)の 3種類の方法から選択できる。ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次元文献数テーブルから合成文献数テーブルが作成される。また、 strongが設定された文献セット種については、該文献セット種の（3)で得られるキーワードにヒットする文献数 n力^以上であるとき、該文献セット種のキーワードとバイオアイテムとの相関 h

スコアが 0に設定される。このように、 strongに設定された文献セット種に対しては、力タログセットに対する文献サーバの動作と同様の効果を奏し、ドキュメントセットとカタログセットとを同時に検索する機能が実現される。また、 noneが設定された文献セット種については、検索対象の文献セット種から除外される。

[0286] また、図 33左図に示すように、（6)で用いるマウス遺伝子—マウス遺伝子間関係を指定する例が示されている。すなわち、図 33左図に示すように、文献上の共起関係力も抽出されたマウス遺伝子—マウス遺伝子間の関係について、該文献セット種の選択タブ（PPI選択タブ MK— 1、 MEDLINE選択タブ MK— 2)が表示される。すなわち、（6)における合成文献数テーブルの作成方法については、文献セット種について、 weak、 strong, none (図には表示されていない)の 3種類の方法から選択できる。ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次元文献数テーブルから合成文献数テーブルが作成される。また、 strongが設定された文献セット種については、共起する文献が 1つ以上存在するとき、該文献セット種の該 2 バイオアイテム間の相関スコアが 0に設定される。また、 noneが設定された文献セット種については、検索対象の文献セット種から除外される。このように、利用者が各文献セット種の各種選択を行うことにより、図 30や図 31で示すような検索表示結果を得ることができる。ここで、図 30は、図 33の条件でヒットした、キーワード diabetesとマウス遺伝子 Rradとの関連文献の詳細を表示した例を示し、図 31はマウス遺伝子 Insrとマウス遺伝子 Irslの間の関連文献の詳細を表示した例を示した図である。

[0287] [数 10]

(7) 相関スコア/^と P_g,__g とを相関スコア計算器 2 1 2 dに送信し（9) を実行し、総合相関スコア/;。, _a/を得る。ここで得られた総合相関スコア ,。,が既定の水準を下回っているとき、バイオアイテム xi、バイオアイテム 1、相関スコア ,。,、 P_k—_g、、尸 — 、 (6) で得られたすべての 3つ組のリストから構成される 6つ組を解の一つとして記憶装置（メモリ）上に保持する。

[0288] [数 11]

(8) 相関スコア計算器 2 1 2 dは、文献全文検索器 2 1 2から 4つ組^ ^Λ' '，クを受信する。そして、相関スコア計算器 2 1 2 dは、下記の表 1に示す 2次元文献数テ一ブルを作成し、この表 1からフィッシャーの正確確率検定を適用し P値を求める。求められた P値と 2次元文献数テーブルの組を文献全文検索器 2 1 2に返す。

[表 1]

相関スコア計算用 2次元文献数テーブル

[0289] [数 12]

(9)相関スコア計算器 2 1 2 dは、文献全文検索器 2 1 2から相関スコア/^ _e と P_{e e} を受信し、相関スコア計算器 2 1 2は総合相関スコア , =1— (1— Α^χΐ -尸を計算し、この値を文献全文検索器 2 1 2に返す。

[0290] そして、（6)、（7)、（8)をバイオアイテム 1に関連するその他のバイオアイテムについて実行する。 [0291] (10)分散文献検索サーバ 210は、（2)をその他のバイオアイテム、すなわちバイオアイテム 2からバイオアイテム rにつ、て実行する。

[0292] (11)分散文献検索サーバ 210は、記憶装置 (メモリ）上に保持されたすベての解を、インターフェース 211を介してバックエンド管理サーバ 201に返す。

[0293] ここで、マルチプルインターバルモードでの動作の場合、各分散文献検索サーバ 2 10の動作は次の通りである。

[0294] ·マルチプルインターバルモードでの動作

まず、分散文献検索サーバ 210は、インターノレ 1に存在するノィォアイテムを検索するため、上記シングルインターバルモードでの動作（1)、（2)、（3)、（4)、 (5) (i) の順に実行し、得られた解を、インターフェース 211を介してバックエンド管理サーバ 201に返す。次に、ノックエンド管理サーバ 201は、すべての分散文献検索サーバ 2 10a〜xから返された解をまとめ上げ、解リスト Lを生成する。

[0295] つぎに、バックエンド管理サーバ 201は、インターバル 2に存在するバイオアイテムを検索し結果を得るため、各分散文献検索サーバ 210a〜xに解リスト Lを含むリクェストを送信する。文献全文検索器 212は以下に掲げる動作を行う。

[0296] [数 13]

( 1 2 ) まず、ィンターフェース 2 1 1は、バックェンド管理サーバ 2 0 1からリクェスト、すなわちキーワード、インターバル、識別子の列、文書数取得サーバ 2 0 2から得た各文献セット種 d , ( 1≤ i ≤m)のキーヮードに関連する文献数 ' ( 1≤ i ≤m)とキーワードに関連しない文献数" ^"' ( 1≤ i ≤m)との組を受信し、文献全文検索器 2 1 2に送信する。

[0297] (13)文献全文検索器 212は、ノィォアイテム 1、インターノレ 2について、（3)、（4 )、および (5) (0を実行する。バイオアイテム 1が解であるとき、（14)を実行する。

[0298] (14)文献全文検索器 212は、解リスト Lの各解バイオアイテムとバイオアイテム 1から構成できる全てのノィォアイテムペアを作成する。各バイオアイテムペアにつ!、て以下の (a)および (b)を実行する。

(a) いま、バイオアイテムペアの一つについて、このバイオアイテムペアを構成するバィォアイテムをそれぞれ g、 gとする。このノィォアイテムペアをバイオアイテム推論

1

器 212eに送り、 g、 gに関係があるかを調べる。

1

(b) (a)の結果、 g、 gの間に関係があった場合には、（15)を実行する。

1

(c) (a)を他のノィォアイテムペアについても実行する。

[0299] [数 14]

( 1 5 )文献全文検索器 2 1 2は、バイオアイテム 1 ( と表す）とバイオアイテム X ( g_x と表す）について（6 ) を実行し、これらの間の相関スコア P_{g g},を得る。いま、キ―ヮ一ドとバイオアイテム 1の相関スコアを „ 、キーワードとバイオアイテム Xの相関スコアを P_k—_g とする。 3つ組〈g,，^， — _gt〉を相関スコア計算機 2 1 2 dに送信し、（1 6 ) を実行して総合相関スコア ^^を得る。この総合相関スコア^^が既定の水準を下冋つているとき、バイオアイテム 1、バイオアイテム、相関スコア。,、 P_k—_g P 、 P_{g g}, ( 6 ) で得られたすべての 3つ組のリストから構成される 7つ組を解の一つとして記憶装置（メモリ）上に保持する。

[0300] [数 15]

( 1 6 ) 相関スコア計算器 2 1 2 dは、文献全文検索器 2 1 2から 3つ組〈， ,/ ^一 ) を受信する。相関スコア計算器 2 1 2 dは総合相関スコア

P,_ala, = Min(l— (1 P_k__gi )(1― P_g> __gx )，1— (1 P_k—_g' )(1― — ))を計算し、文献全文検索器 2 1 2に返す。ここで Min(a，b)は a、 bのうち大きくない方の値を返す関数である。

[0301] ( 17)分散文献検索サーバ 210は、（13)をその他のバイオアイテム、すなわちバイォアイテム 2からバイオアイテム rにつ、て実行する。

[0302] ( 18)分散文献検索サーバ 210は、記憶装置 (メモリ）上に保持されたすベての解を

、インターフェース 21 1を介してバックエンド管理サーバ 201に返す。

[0303] [ヒットした文献数のより詳細な解析]

ヒットした文献数のより詳細な解析について、先に示した図 8を用いて説明を行う。シングルインターバルモードの推論検索の解、マルチプルインターバルモードの解については、 2つのバイオアイテムにそれらの間の関係が与えられ、これら 2バイオアイテムと 2バイオアイテム間の関係の三者それぞれについて（3)、（4)、（6)で得られる文献セット、相関スコア、 2次元文献数テーブル力も構成される 3つ組のリストが存在する。いま、文献セット d (l≤i≤m)について、三者すベての 2次元文献数テーブルが存在するとき、図 8に掲げる 3次元文献数テーブルが構成できる。

[0304] 分散文献検索サーバ 210にはこの 3次元文献数テーブルを実現するための機能が備わっている。以下詳細な動作を記す。なお、以下使用する変数 a、 b、 c、 d、 e、 f、 g 、 h、 i、 j、 k、 m、 s、 t、 u、 v、 w、 x、 y、および、 ζίま、図 8の各変数【こ対応して!/ヽる。

[0305] (1)インターフェース 211はバックエンド管理サーバ 201から解の一つとキーワードを受信し、文献全文検索器 212に送信する。

[0306] (2)文献全文検索器 212は、バイオアイテム名テーブル 212fからバイオアイテム 2 の名前を取得する。

[0307] (3)文献全文検索器 212は、解を構成するバイオアイテム 1、ノィォアイテム 2、バィォアイテム間の関係の三者について、文献セット、相関スコア、 2次元文献数テーブル力も構成される 3つ組のリストを取得する。このとき、三者すベての 3つ組に 2次元文献数テーブルが存在するようなすべての文献セットを取得する。取得した各文献セット dにつ、て (4)を実行する。

[0308] (4)文献全文検索器 212は、文献セット dのバイオアイテム 1関連文献セット (バイオアイテム 1のノィォアイテム文献セット）群に対し、キーワードかつバイオアイテム 2の名前を含む文献を検索し、該文献数を得て sとする。さら〖こ、文献セット dのそれぞれキーワードとバイオアイテム 1の 2次元文献数テーブルを a)、 b)、 c)、および、 d)、キ一ワードとバイオアイテム 2の 2次元文献数テーブルを e)、 f)、 g)、および、 h)、バイォアイテム 1とバイオアイテム 2の 2次元文献数テーブルを i)、 j)、 k)、および、 m)とするとさ、 w=a— s、 u = e— s、 t = i— s、 v=f— 、 x = k— w、 y = c— u、 ζ = α— v それぞれ計算し、図 8に示す 3次元の文献数テーブルを生成する。

[0309] (5)文献全文検索器 212は、（1)で受け取った解と、（4)で受け取った 3次元文献数テーブル群との組を生成し、インターフェース 211を介して、バックエンド管理サーノ 201に返す。以上で、ヒットした文献数のより詳細な解析の説明を終える。 [0310] [概念語導入の効果]

また、バイオアイテム名のみ力構成されるバイオアイテムクエリで P値を計算した場合、ヒットしたバイオアイテムのランキングが不正確であつたが、概念語を導入したバィォアイテムクエリで P値を計算してもよぐこの場合、ランキング結果の精度が大幅に改善される。

[0311] [他の実施の形態]

さて、これまで本発明の実施の形態について説明した力本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。

[0312] また、本発明を文献フォルダの検索に用いる場合を説明する。例えば、文献フオルダのパス名として、

/home/ document/ diabetes/

があり、その文献フォルダ内に 3つの文献がそれぞれ下記のファイルパス名でフアイルとして存在する場合、これらの文献のファイルパス名はすべて該文献フォルダのパス名を含むため、該文献フォルダのパス名をバイオアイテム名にして本発明の方法を適用させることで、これら文献を有する文献セットを、該文献フォルダのバイオアイテム文献セットとして作成することができる。

/home/ document/ diabetes/ patient 1

/home/ document/ diabetes/ patient2

/home/ document/ diabetes/ patient3

[0313] また、上述の実施の形態では、バイオアイテム検索装置 100が主にスタンドアローンの形態で処理を行う場合を一例に説明した力実施例で示したようにバイオアイテム検索装置 100とは別筐体で構成される他の端末装置からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。図 34は、バイオアイテム検索端末装置 600の構成の一例を示すブロック図である。

[0314] すなわち、図 34に示すように、バイオアイテム検索端末装置 600は、ネットワーク 30 0を介して、バイオアイテム検索装置 100と相互に接続され、少なくとも制御部 602と入力部 612と出力部 614を備えて構成される。 [0315] ノィォアイテム検索端末装置 600は、入力制御部 602aの処理により、利用者に、入力部 612を介してキーワードやゲノム領域情報や識別子情報を入力させるよう制御し、送信部 602bの処理により、当該キーワード等をバイオアイテム検索装置 100 に送信し、受信出力部 602cの処理により、バイオアイテム検索装置 100から出力された、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相関スコアを受信し、出力部 612に出力するよう構成される。ここで、図 35は、バイオアイテム検索端末装置 600の処理の一例を示すフローチャートである。

[0316] 図 35に示すように、まず、バイオアイテム検索端末装置 600は、入力制御部 602a の処理により、入出力インターフェース部 608を制御して、入力部 612を介して、利用者にキーワードやゲノム領域情報や識別子情報等の利用者入力情報を入力させるよう制御する（SG— 1)。

[0317] そして、バイオアイテム検索端末装置 600は、送信部 602bの処理により、通信制御インターフェース部 604を制御して、キーワード等の利用者入力情報をバイオアイテム検索装置 100に送信する（SG— 2)。

[0318] そして、バイオアイテム検索端末装置 600は、受信出力部 602cの処理により、通信制御インターフェース部 604を制御して、バイオアイテム検索装置 100から出力された、候補バイオアイテム、関連ノィォアイテム、または、共起キーワード相関スコア等を受信する（SG— 3)。

[0319] そして、バイオアイテム検索端末装置 600は、候補バイオアイテムまたは関連ノィォアイテムを、対応する相関スコア等に基づいて、出力部 612に出力するよう入出力制御インターフェース部 608を制御する（SG— 4)。以上が、本発明をクライアント端末 (バイオアイテム検索端末装置 600)に適用した場合の他の実施の形態である。

[0320] また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

[0321] このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成につ、ては、特記する場合を除、て任意に変更することができる。

[0322] また、バイオアイテム検索装置 100に関して、図示の各構成要素は機能概略的なものであり、必ずしも物理的に図示の如く構成されて、ることを要しな、。

[0323] 例えば、バイオアイテム検索装置 100の各装置が備える処理機能、特に制御部 10 2にて行われる各処理機能については、その全部または任意の一部を、 CPU (Cent ral Processing Unit)および当該 CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。尚、プログラムは、後述する記録媒体に記録されており、必要に応じてバイォアイテム検索装置 100に機械的に読み取られる。すなわち、 ROMまたは HDなどの記憶部 106などは、 OS (Operating System)として協働して CPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、 RAMにロードされることによって実行され、 CPUと協働して制御部を構成する。

[0324] また、このコンピュータプログラムは、バイオアイテム検索装置 100に対して任意のネットワーク 300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよぐ必要に応じてその全部または一部をダウンロードすることも可能である。

[0325] また、本発明に係る方法をコンピュータに実行させるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、 ROM, EPROMゝ EEPROM、 CD-ROM, MO 、 DVD等の任意の「可搬用の物理媒体」、あるいは、 LAN, WAN,インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。

[0326] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、 OS (Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

[0327] 記憶部 106に格納される各種のデータベース等（全文献セットファイル 106a〜識別子情報データベース 106e)は、 RAM, ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースゃゥェブページ用ファイル等を格納する。

[0328] また、バイオアイテム検索装置 100は、既知のパーソナルコンピュータ、ワークステーシヨン等の情報処理装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよ!/、。

[0329] 更に、装置の分散，統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じた任意の単位で、機能的または物理的に分散，統合して構成することができる。

産業上の利用可能性

[0330] 以上詳述に説明したように、本発明によれば、検索時に余計な計算処理時間をかけずに済む、ランキング表示や関連アイテムの発見を可能とする、バイオアイテム検索装置、ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラムを提供することができるので、生物学 (遺伝学、疫学、システムバイオロジーを含む）や化学等を含む、情報検索を必要とする情報処理分野において利用可能である。

Claims

請求の範囲

[1] 利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において、上記記憶装置は、

上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオアィテム文献セットを記憶するバイオアイテム文献セット記憶手段、

を備え、

上記制御装置は、

上記各ノィォアイテム文献セットにぉ、て、上記キーワードを該バイオアイテム文献セットの中から検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得手段と、

上記文献数取得手段によって取得された上記文献数 Nhが 1以上である上記バイォアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出手段と、上記候補バイオアイテム毎に、

a)上記文献数 Nh、および Zまたは、

b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、

から構成される文献数テーブルを作成するテーブル作成手段と、

上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づヽて、該ノィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出手段と上記相関スコア算出手段によって算出された上記相関スコアに基づ、て、上記候補バイオアイテムを上記出力装置に出力する出力手段と、

を備えたことを特徴とするバイオアイテム検索装置。

[2] 請求項 1に記載のバイオアイテム検索装置にぉ、て、

上記記憶装置は、

上記各ノィォアイテム文献セットに含まれる全ての上記文献を有する全文献セットを記憶する全文献セット記憶手段、を更に備え、

上記文献数取得手段は、更に、

上記キーワードを上記全文献セットの中から検索し、上記キーワードを含む文献数 Nkを取得し、

上記テーブル作成手段は、

上記候補バイオアイテム毎に、

上記 a)上記文献数 Nh、

上記 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイォアイテムの上記ノィォアイテム文献セットの文献数 Nh)、

c)上記キーワードを含み且つ上記バイオアイテム名を含まな!/、文献数 (Nk-Nh) ゝおよび、

d)上記キーワードを含まず且つ上記バイオアイテム名を含まな!/、文献数 (上記全文献セットの総文献数上記ノィォアイテム文献セットの文献数 Nk + Nh)、のうち少なくとも一つから構成される上記文献数テーブルを作成すること、を特徴とするバイオアイテム検索装置。

請求項 1または 2に記載のノィォアイテム検索装置において、

上記記憶装置は、

任意の 2つの上記ノィォアイテムと、該 2つの上記バイオアイテムの共起相関スコアと、を対応付けて記憶するバイオアイテム関係データベース、

を更に備え、

上記制御装置は、

上記バイオアイテム関係データベースに記憶された上記共起相関スコアに基づいて、上記候補バイオアイテムと相関関係を有する上記バイオアイテムを関連バイオアィテムとして抽出する関連バイオアイテム抽出手段と、

上記関連ノィォアイテムと上記キーワードとの合成相関スコアを、該候補バイオアイテムの上記相関スコアと上記共起相関スコアとを合成することによって求める合成相関スコア算出手段と、

を更に備え、上記出力手段は、

上記合成相関スコア算出手段によって算出された上記合成相関スコアに基づ、て、上記関連バイオアイテムを上記出力装置に出力すること、

を特徴とするバイオアイテム検索装置。

[4] 請求項 3に記載のバイオアイテム検索装置において、

上記制御装置は、

上記任意の上記 2つの上記バイオアイテムのうち、一方の上記バイオアイテム文献セットの中から、他方の上記バイオアイテム名を検索することにより得られた、 i)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含む文献数、

j)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム名を含む文献数、

k)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含まない文献数、および、

m)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム名を含まない文献数、

のうち少なくとも一つから構成される共起文献数テーブルを用いて、上記統計計算に基づいて、上記共起相関スコアを算出する共起相関スコア算出手段と、

上記共起相関スコア算出手段によって算出された上記共起相関スコアを、上記 2つの上記バイオアイテムに対応付けて、上記バイオアイテム関係データベースに格納するバイオアイテム関係データベース化手段と、

を備えたことを特徴とするバイオアイテム検索装置。

[5] 請求項 3または 4に記載のバイオアイテム検索装置にぉ、て、

上記合成相関スコア算出手段は、

上記合成相関スコアを、下記の数式 1、または、該数式 1の近似式に基づいて、合成すること、

P= l—（1 PI) (1 Ρ2) · · · (数式 1)

(ここで、 Pは、上記合成相関スコアであり、 P1は、上記候補バイオアイテムの上記相関スコアであり、 P2は、上記共起相関スコアである。 )

を特徴とするバイオアイテム検索装置。

[6] 請求項 1乃至 5のいずれか一つに記載のバイオアイテム検索装置において、上記記憶装置は、

上記ノィォアイテム毎に、該バイオアイテムに対応するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶する位置情報データベースと、

上記利用者により入力された、上記目的とする上記ノィォアイテムに対応する上記ゲノム染色体上の位置を含む、ゲノム領域を示すゲノム領域情報を記憶する領域情報記憶手段と、

を更に備え、

上記制御装置は、

上記候補バイオアイテムまたは上記関連バイオアイテムにつ、て、上記位置情報データベースに記憶された、該バイオアイテムに対応する上記ゲノム位置情報に基づく位置が、上記ゲノム領域情報の上記ゲノム領域に含まれる力否かを判断し、上記ゲノム領域に含まれると判断した場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御するゲノム領域判定手段、

を更に備えたことを特徴とするバイオアイテム検索装置。

[7] 請求項 1乃至 6のいずれか一つに記載のバイオアイテム検索装置において、上記記憶装置は、

上記ノィォアイテム毎に、該バイオアイテムに対応する識別子を示す識別子情報を関連付けて記憶する識別子情報データベースと、

上記利用者により入力された、上記目的とする上記ノィォアイテムに対応する、一つ又は複数の上記識別子情報を記憶する目的バイオアイテム識別子記憶手段と、を更に備え、

上記制御装置は、

上記候補バイオアイテムまたは上記関連バイオアイテムにつ、て、上記識別子情報データベースに記憶された、該バイオアイテムの上記識別子情報に基づく上記識別子が、上記目的バイオアイテム識別子記憶手段に記憶された上記識別子情報の上記一つまたは複数の上記識別子に含まれるか否かを判断し、該識別子に含まれると判断した場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する識別子判定手段、

を更に備えたことを特徴とするバイオアイテム検索装置。

[8] 請求項 1乃至 7のいずれか一つに記載のバイオアイテム検索装置において、

上記文献数取得手段は、

任意の 2つの上記候補バイオアイテムのうち、一方の上記候補バイオアイテムの上記バイオアイテム文献セットの中から、他方の上記バイオアイテム名を含み且つ上記キーワードを含む文献数 Nsを検索により取得し、

上記テーブル作成手段は、

上記文献数 Ns、上記 2つの上記候補バイオアイテムに係る上記文献数テーブル、および、上記 2つの上記候補バイオアイテムに係る上記共起文献数テーブルに基づいて、 3次元の上記文献数テーブルを作成し、

上記相関スコア算出手段は、

上記 3次元の上記文献数テーブルを用いて、上記統計計算に基づいて、上記 2つの上記候補バイオアイテムと上記キーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算出手段、

を備え、

上記出力手段は、

上記共起キーワード相関スコア算出手段によって算出された上記共起キーワード相関スコアを、上記 2つの上記候補バイオアイテムと対応付けて、上記出力装置に出力すること、

を特徴とするバイオアイテム検索装置。

[9] 請求項 8に記載のバイオアイテム検索装置において、

上記共起キーワード相関スコア算出手段は、

上記 3次元の上記文献数テーブルを用いて、

上記キーワードを含む場合の上記 2つの候補バイオアイテムの相関スコアをキーヮードあり相関スコアとして算出し、上記キーワードを含まない場合の上記 2つの候補バイオアイテムの相関スコアをキーワードなし相関スコアとして算出し、該キーワードあり相関スコアと該キーワードなし相関スコアとの、両方および Zまたは比較結果を、上記共起キーワード相関スコアとして算出すること、

を特徴とするバイオアイテム検索装置。

[10] 請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、上記統計計算は、

検定に基づいて上記相関スコアを算出すること、

を特徴とするバイオアイテム検索装置。

[11] 請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、上記統計計算は、

フィッシャーの正確確率検定 (Fisher's Exact Test),カイ二乗検定、または、ベイズ条件付確率を用いること、

を特徴とするバイオアイテム検索装置。

[12] 請求項 1乃至 11の、ずれか一つに記載のバイオアイテム検索装置にぉ、て、上記出力手段は、

上記候補バイオアイテムまたは上記関連バイオアイテムを、対応する上記相関スコァ、上記共起キーワード相関スコア、または、上記合成相関スコアに基づいて、順位付けして出力装置に出力する検索結果順序出力手段、

を備えたことを特徴とするバイオアイテム検索装置。

[13] 請求項 1乃至 12のいずれか一つに記載のバイオアイテム検索装置において、上記バイオアイテム名は、概念語を含むこと、

を特徴とするバイオアイテム検索装置。

[14] 請求項 1乃至 13に記載のバイオアイテム検索装置に接続された、少なくとも制御部と入力部と出力部を備えたバイオアイテム検索端末装置であって、

上記制御部は、

上記利用者に、上記入力部を介して上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を入力させるよう制御する入力制御手段と、

上記入力制御手段によって入力された、上記キーワード、上記ゲノム領域情報、および zまたは、上記識別子情報を、上記バイオアイテム検索装置に送信する送信手段と、

上記送信手段によって送信された、少なくとも上記キーワードに基づいて上記バイォアイテム検索装置から出力された、上記候補バイオアイテム、上記関連バイオアイテム、または、上記共起キーワード相関スコアを受信し、上記出力部に出力する受信出力手段と、

を備えたことを特徴とするバイオアイテム検索端末装置。

利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において実行されるバイオアイテム検索方法であって、

上記記憶装置は、

を備えており、

上記制御装置におヽて実行される、

上記各ノィォアイテム文献セットにぉ、て、上記キーワードを該バイオアイテム文献セットの中から検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得ステップと、

上記文献数取得ステップにおいて取得された上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ステツプと、

上記候補バイオアイテム毎に、

a)上記文献数 Nh、および Zまたは、

から構成される文献数テーブルを作成するテーブル作成ステップと、

上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づヽて、該ノィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステツプと、

上記相関スコア算出ステップにお、て算出された上記相関スコアに基づ、て、上記候補バイオアイテムを上記出力装置に出力する出力ステップと、

を含むことを特徴とするバイオアイテム検索方法。

利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置に実行させるプログラムであって、

上記記憶装置は、

を備えており、

上記制御装置におヽて実行される、

上記候補バイオアイテム毎に、

a)上記文献数 Nh、および Zまたは、

上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づヽて

、該ノィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステツプと、

上記相関スコア算出ステップにお、て算出された上記相関スコアに基づ、て、上記候補バイオアイテムを上記出力装置に出力する出力ステップと、を含む方法をバイオアイテム検索装置に実行させることを特徴とするプログラム。