明 細 書
ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム 検索方法、および、プログラム
技術分野
[0001] 本発明は、生物学 (遺伝学、疫学、システムバイオロジーを含む)、化学等を含む、 情報検索を必要とする情報処理分野において、遺伝子、遺伝子多型、疾患、薬品、 ノ^オリソース、蛋白質、人物、集団、組織、化合物、専門用語、文献フォルダなどの "バイオアイテム"およびバイオアイテムに関する情報に対して優先順位を付けて検 索するバイオアイテム検索装置に関するものである。
背景技術
[0002] 利用者により指定されたキーワードに対して文献セットの検索を行い、その結果から キーワードに関連するバイオアイテム(以下、一例として遺伝子で説明する)の取得を 行う既存のソフトウェアシステムにおいては、各文献についてキーワードとの相関スコ ァを計算し、文献のランキングを行った後、各文献に記述されている遺伝子関連語 句を表示する手法が用いられて 、る。
[0003] ここで、キーワードに関連の深い有望な遺伝子を見つける方法として、特許文献 1 は、遺伝子相互関係を各遺伝子の発現のタイミング力も推定する方法である。また、 特許文献 2は、端点キーと端点キーを結ぶオブジェクトを検索する連結検索を行って 優先付けし、多数の遺伝子の中からより有望なものを取り込み検索して、優先度をつ けて提示する装置である。
[0004] また、キーワードの選定を容易にするために、キーワードをグループィ匕して関連す るキーワードを検索する方法としては、以下の特許文献 3から 5に記載のものがある。 すなわち、特許文献 3は、キーワードと、キーワードに関連したキーワードとを同時に 検索するものであり、互いに関連するキーワードをグループ分けする装置である。ま た、特許文献 4には、キーワードをグループィ匕することが開示されている。また、特許 文献 5は、複数の設計データ力 実績のある設計データを抽出する装置であり、統計 処理により設計データを評価する装置である。
[0005] また、非特許文献 1 (2001年度 成果報告論文)に記載の汎用連想計算エンジン( GETA: Generic Engine for Transposabie Associationパま、文書検索におけ 頻 度付きインデックスデータ(どの文書にどの単語が何回出現するというデータ)を典型 とする大規模かつ粗な行列を対象として、行と行あるいは列と列 (具体的には文書間 および単語間)の類似度を内積型メジャーで高速計算するツールである。
[0006] 特許文献 1 :特開 2003— 141123号公報
特許文献 2:特開 2001— 290822号公報
特許文献 3:特開平 8 - 30629号公報
特許文献 4 :特開 2006— 72671号公報
特許文献 5 :特開平 10— 149376号公報
非特許文献 1:高野明彦ほか、 "汎用連想計算エンジンの開発と大規模文書分析へ の応用"、 [online], 2002年、高野明彦、 [平成 19年 3月 23日検索]、インターネット < URL: http://geta.ex.nii.ac.jp/pdf/itx2002.pdf>
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、キーワードから文献セットを検索し、ヒットした文献に含まれる遺伝子 を抽出する従来の方法においては、必ずしもキーワードに関連の深い有望な遺伝子 を上位に抽出することができないという問題がある。また従来の方法では、キーワード の選定が難しぐ利用者の熟達を要するという問題がある。
[0008] 特に、特許文献 1の方法は、関連する遺伝子を遺伝子発現のタイミングから遺伝子 制御の関連を調べることを目的とするものであり、関連を調べるためには、 DNAマイ クロアレイなどを用いてのタイミングデータの取得を要するという問題がある。
[0009] また、特許文献 2の方法では、両端点キーの選定は、利用者の試行錯誤を伴うもの であり、依然として適切なキーワードを選定することが困難であるという問題がある。
[0010] また、特許文献 3から 5のいずれか一つに記載の装置または方法では、いずれもグ ループ化するために予めキーワードの設定を必要し、目的とする遺伝子に到達する ためのキーワードの選定が難しぐまた手作業でのグループィ匕の設定は煩わしいとい う問題がある。
[0011] また、特許文献 1から 5のいずれの装置または方法においても、ポジショナルクロー ニングの問題解決において、遺伝子のゲノム範囲上を考慮して検索結果を絞り込む ことができない、という問題点があった。
[0012] 総じて、利用者が入力したキーワードと遺伝子との関連性の強さを統計学的な有意 性確率で評価することができない問題があった。そして、文献セットからキーワードを 検索しヒットした文献に含まれる遺伝子を抽出する従来の方法における、必ずしもキ 一ワードに関連の深 、有望な遺伝子を上位に抽出することができな 、と 、う課題は、 上述した方法 ·装置を用 V、ても解決できな 、と 、う問題があった。
[0013] また、非特許文献 1に記載の GETAを用いて、キーワードと各バイオアイテム名との 類似度を計算する場合には、該キーワードを列とし各文献の文書を行とする行列と、 該バイオアイテム名を列とし各文献の文書を行とする行列との間で、行列どうしの演 算処理が必要となる。これを文献数が 1千万件以上ある場合に適用しょうとすると、該 文献数と同じ行数の行列どうしの演算処理を検索実行のたびにバイオアイテム名の 個数と同じ回数繰り返す必要があり、計算処理に膨大な時間が力かってしまうという 問題があった。
[0014] また、非特許文献 1に記載の GETAにお!/、ては、ポジショナルクローニングの問題 解決において、検索結果であるバイオアイテムおよび関連するバイオアイテムを、そ れらのゲノム位置で絞り込むことができな力つた。また、 GETAで計算される類似度 は関連性の強さを有意性確率で表すものではないため統計学的な解釈ができず、 他の有意性確率と合成して総合的な評価をすることができな力つた。また、 GETAで は、キーワードと類似するバイオアイテム、および、キーワードと類似するノ ィオアィテ ムに関連する関連バイオアイテムを統計学的な有意性確率に基づいて高速に順位 付けすることができな力つた。さらに、 GETAが扱う行列では列が各単語に対応して おり、バイオアイテム名やブール論理式でキーワードを組み合わせた条件式のような 複数の単語の組合せを 1つの列とする行列で準備できないため、計算処理に余計な 時間が力かってしまう問題があった。このため、検索時に文献数と同じ行数の行列ど うしの演算処理をすることなぐ相関スコアを高速に計算できる方法が必要とされてい た。また、統計学的に解釈可能な有意性確率を相関スコアとして計算できる方法が
必要とされていた。
[0015] また上述した方法'装置を用いても、利用者が入力したキーワードと、任意のバイオ アイテム 1と、任意のバイオアイテム 2と、力 なる 3者の組合せに対して、上記キーヮ ードを含むか含まないか、上記バイオアイテム 1を含む力含まないか、上記バイオア ィテム 2を含むか含まないか、の 8通りの分類項目に分類される上記文献の文献数か らなるテーブル(3次元の文献数テーブル)を高速に生成することはできなカゝつた。
[0016] 本発明が解決しょうとする課題には上述した問題が一例として挙げられる。
[0017] 本発明は、上記に鑑みてなされたものであって、優先付け又は関連付けのための グループィ匕の設定を必要としないで、文献セット全体に対してキーワードに関連する 文献数を調べることにより、キーワードとバイオアイテムとの相関スコアを統計処理に より求め、ランキング表示 ·関連アイテムの発見を可能とするバイオアイテム検索装置 、 ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラムを提供 することを目的とするものである。また、ポジショナルクローニングの問題解決におい て、大規模な文献セットを用いてキーワードに関連する遺伝子を検索し、目的とする 遺伝子をより上位に結果表示させる、ノィォアイテム検索装置、バイオアイテム検索 方法、および、プログラムを提供することを目的とする。
[0018] また、計算処理に膨大な時間がかかる、キーワードを含む文献の数と同じ行数の行 列どうしの演算処理をすることなぐ検索時に余計な計算処理時間を力けずに済む、 ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、 および、プログラムを提供することを目的とする。また、統計学的な有意性確率で評 価することができ、他の有意性確率と合成して総合的な評価をすることができ、高速 に順位付けすることができる、バイオアイテム検索装置、バイオアイテム検索方法、お よび、プログラムを提供することを目的とする。
課題を解決するための手段
[0019] このような目的を達成するため、請求項 1に記載のバイオアイテム検索装置は、利 用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制 御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において、上記記 憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有する
ノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段、を備え、上 記制御装置は、上記各バイオアイテム文献セットにおいて、上記キーワードを該バイ ォアイテム文献セットの中力 検索し、該バイオアイテム文献セットのうち上記キーヮ ードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得手段と、上記 文献数取得手段によって取得された上記文献数 Nhが 1以上である上記バイオアイ テムを、候補バイオアイテムとして選出する候補バイオアイテム選出手段と、上記候 補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上記キーワードを含 まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテ ム文献セットの文献数 Nh)、から構成される文献数テーブルを作成するテーブル 作成手段と、上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算 に基づ!/、て、該バイオアイテムと上記キーワードとの相関スコアを算出する相関スコ ァ算出手段と、上記相関スコア算出手段によって算出された上記相関スコアに基づ いて、上記候補バイオアイテムを上記出力装置に出力する出力手段と、を備えたこと を特徴とする。
[0020] また、請求項 2に記載のバイオアイテム検索装置は、請求項 1に記載のバイオアイ テム検索装置において、上記記憶装置は、上記各バイオアイテム文献セットに含ま れる全ての上記文献を有する全文献セットを記憶する全文献セット記憶手段、を更に 備え、上記文献数取得手段は、更に、上記キーワードを上記全文献セットの中から 検索し、上記キーワードを含む文献数 Nkを取得し、上記テーブル作成手段は、上記 候補バイオアイテム毎に、上記 a)上記文献数 Nh、上記 b)上記キーワードを含まず 且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文 献セットの文献数 Nh)、 c)上記キーワードを含み且つ上記ノィォアイテム名を含ま ない文献数 (Nk— Nh)、および、 d)上記キーワードを含まず且つ上記バイオアイテ ム名を含まな 、文献数 (上記全文献セットの総文献数—上記ノィォアイテム文献セッ トの文献数 Nk + Nh)、のうち少なくとも一つカゝら構成される上記文献数テーブルを 作成すること、を特徴とする。
[0021] また、請求項 3に記載のバイオアイテム検索装置は、請求項 1または 2に記載のバイ ォアイテム検索装置において、上記記憶装置は、任意の 2つの上記バイオアイテムと
、該 2つの上記バイオアイテムの共起相関スコアと、を対応付けて記憶するバイオア ィテム関係データベース、を更に備え、上記制御装置は、上記バイオアイテム関係デ ータベースに記憶された上記共起相関スコアに基づ 、て、上記候補バイオアイテム と相関関係を有する上記バイオアイテムを関連バイオアイテムとして抽出する関連バ ィォアイテム抽出手段と、
上記関連ノィォアイテムと上記キーワードとの合成相関スコアを、該候補バイオアイ テムの上記相関スコアと上記共起相関スコアとを合成することによって求める合成相 関スコア算出手段と、を更に備え、上記出力手段は、上記合成相関スコア算出手段 によって算出された上記合成相関スコアに基づいて、上記関連バイオアイテムを上 記出力装置に出力すること、を特徴とする。
[0022] また、請求項 4に記載のバイオアイテム検索装置は、請求項 3に記載のバイオアイ テム検索装置において、上記制御装置は、上記任意の上記 2つの上記バイオアイテ ムのうち、一方の上記バイオアイテム文献セットの中から、他方の上記バイオアイテム 名を検索することにより得られた、 i)上記一方の上記バイオアイテム名を含み且つ上 記他方の上記バイオアイテム名を含む文献数、 j)上記一方の上記バイオアイテム名 を含まず且つ上記他方の上記バイオアイテム名を含む文献数、 k)上記一方の上記 バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含まな!/、文献数、 および、 m)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオ アイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テー ブルを用いて、上記統計計算に基づいて、上記共起相関スコアを算出する共起相関 スコア算出手段と、上記共起相関スコア算出手段によって算出された上記共起相関 スコアを、上記 2つの上記バイオアイテムに対応付けて、上記バイオアイテム関係デ ータベースに格納するバイオアイテム関係データベース化手段と、を備えたことを特 徴とする。
[0023] また、請求項 5に記載のバイオアイテム検索装置は、請求項 3または 4に記載のバイ ォアイテム検索装置において、上記合成相関スコア算出手段は、上記合成相関スコ ァを、下記の数式 1、または、該数式 1の近似式に基づいて、合成すること、を特徴と する。
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
(ここで、 Ρは、上記合成相関スコアであり、 P1は、上記候補バイオアイテムの上記相 関スコアであり、 Ρ2は、上記共起相関スコアである。 )
[0024] また、請求項 6に記載のバイオアイテム検索装置は、請求項 1乃至 5のいずれか一 つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテ ム毎に、該バイオアイテムに対応するゲノム染色体上の位置を示すゲノム位置情報 を関連付けて記憶する位置情報データベースと、上記利用者により入力された、上 記目的とする上記バイオアイテムに対応する上記ゲノム染色体上の位置を含む、ゲノ ム領域を示すゲノム領域情報を記憶する領域情報記憶手段と、を更に備え、上記制 御装置は、上記候補バイオアイテムまたは上記関連バイオアイテムについて、上記 位置情報データベースに記憶された、該バイオアイテムに対応する上記ゲノム位置 情報に基づく位置が、上記ゲノム領域情報の上記ゲノム領域に含まれるか否かを判 断し、上記ゲノム領域に含まれると判断された場合に、該候補バイオアイテムまたは 該関連バイオアイテムを出力するよう制御するゲノム領域判定手段、を更に備えたこ とを特徴とする。
[0025] また、請求項 7に記載のバイオアイテム検索装置は、請求項 1乃至 6のいずれか一 つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテ ム毎に、該バイオアイテムに対応する識別子を示す識別子情報を関連付けて記憶す る識別子情報データベースと、上記利用者により入力された、上記目的とする上記バ ィォアイテムに対応する、一つ又は複数の上記識別子情報を記憶する目的バイオア ィテム識別子記憶手段と、を更に備え、上記制御装置は、上記候補バイオアイテムま たは上記関連バイオアイテムにつ 、て、上記識別子情報データベースに記憶された 、該ノィォアイテムの上記識別子情報に基づく上記識別子が、上記目的バイオアイ テム識別子記憶手段に記憶された上記識別子情報の上記一つまたは複数の上記識 別子に含まれるか否かを判断し、該識別子に含まれると判断された場合に、該候補 ノィォアイテムまたは該関連バイオアイテムを出力するよう制御する識別子判定手段 、を更に備えたことを特徴とする。
[0026] また、請求項 8に記載のバイオアイテム検索装置は、請求項 1乃至 7のいずれか一
つに記載のバイオアイテム検索装置において、上記文献数取得手段は、任意の 2つ の上記候補バイオアイテムのうち、一方の上記候補バイオアイテムの上記バイオアイ テム文献セットの中から、他方の上記バイオアイテム名を含み且つ上記キーワードを 含む文献数 Nsを検索により取得し、上記テーブル作成手段は、上記文献数 Ns、上 記 2つの上記候補バイオアイテムに係る上記文献数テーブル、および、上記 2つの上 記候補バイオアイテムに係る上記共起文献数テーブルに基づ 、て、 3次元の上記文 献数テーブルを作成し、上記相関スコア算出手段は、上記 3次元の上記文献数テー ブルを用いて、上記統計計算に基づいて、上記 2つの上記候補バイオアイテムと上 記キーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算 出手段、を備え、上記出力手段は、上記共起キーワード相関スコア算出手段によつ て算出された上記共起キーワード相関スコアを、上記 2つの上記候補バイオアイテム と対応付けて、上記出力装置に出力すること、を特徴とする。
[0027] また、請求項 9に記載のバイオアイテム検索装置は、請求項 8に記載のバイオアイ テム検索装置において、上記共起キーワード相関スコア算出手段は、上記 3次元の 上記文献数テーブルを用いて、上記キーワードを含む場合の上記 2つの候補バイオ アイテムの相関スコアをキーワードあり相関スコアとして算出し、上記キーワードを含 まない場合の上記 2つの候補バイオアイテムの相関スコアをキーワードなし相関スコ ァとして算出し、該キーワードあり相関スコアと該キーワードなし相関スコアとの、両方 および Zまたは比較結果を、上記共起キーワード相関スコアとして算出すること、を 特徴とする。
[0028] また、請求項 10に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか 一つに記載のバイオアイテム検索装置において、上記統計計算は、検定に基づいて 上記相関スコアを算出すること、を特徴とする。
[0029] また、請求項 11に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか 一つに記載のバイオアイテム検索装置において、上記統計計算は、フィッシャーの 正確確率検定 (Fisher's Exact Test),カイ二乗検定、または、ベイズ条件付確率を 用いること、を特徴とする。
[0030] また、請求項 12に記載のバイオアイテム検索装置は、請求項 1乃至 11のいずれか
一つに記載のバイオアイテム検索装置において、上記出力手段は、上記候補バイオ アイテムまたは上記関連バイオアイテムを、対応する上記相関スコア、上記共起キー ワード相関スコア、または、上記合成相関スコアに基づいて、順位付けして出力装置 に出力する検索結果順序出力手段、を備えたことを特徴とする。
[0031] また、請求項 13に記載のバイオアイテム検索装置は、請求項 1乃至 12のいずれか 一つに記載のバイオアイテム検索装置において、上記バイオアイテム名は、概念語 を含むこと、を特徴とする。
[0032] また、請求項 14に記載のバイオアイテム検索端末装置は、請求項 1乃至 13に記載 のバイオアイテム検索装置に接続された、少なくとも制御部と入力部と出力部を備え たバイオアイテム検索端末装置であって、上記制御部は、上記利用者に、上記入力 部を介して上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報 を入力させるよう制御する入力制御手段と、上記入力制御手段によって入力された、 上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を、上記バ ィォアイテム検索装置に送信する送信手段と、上記送信手段によって送信された、 少なくとも上記キーワードに基づいて上記バイオアイテム検索装置から出力された、 上記候補バイオアイテム、上記関連バイオアイテム、または、上記共起キーワード相 関スコアを受信し、上記出力部に出力する受信出力手段と、を備えたことを特徴とす る。
[0033] また、請求項 15に記載のバイオアイテム検索方法は、利用者により入力されたキー ワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力 装置とを備えたノィォアイテム検索装置において実行されるバイオアイテム検索方法 であって、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載さ れた文献を有するバイオアイテム文献セットを記憶するバイオアイテム文献セット記憶 手段、を備えており、上記制御装置において実行される、上記各バイオアイテム文献 セットにおいて、上記キーワードを該バイオアイテム文献セットの中力 検索し、該バ ィォアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記バイオアイテ ム毎に取得する文献数取得ステップと、上記文献数取得ステップにお 、て取得され た上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選
出する候補バイオアイテム選出ステップと、上記候補バイオアイテム毎に、 a)上記文 献数 Nh、および Zまたは、 b)上記キーワードを含まず且つ上記バイオアイテム名を 含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、か ら構成される文献数テーブルを作成するテーブル作成ステップと、上記候補バイオア ィテム毎に、上記文献数テーブルを用いて統計計算に基づいて、該バイオアイテム と上記キーワードとの相関スコアを算出する相関スコア算出ステップと、上記相関スコ ァ算出ステップにお 、て算出された上記相関スコアに基づ 、て、上記候補バイオア ィテムを上記出力装置に出力する出力ステップと、を含むことを特徴とする。
また、請求項 16に記載のプログラムは、利用者により入力されたキーワードから目 的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備え たバイオアイテム検索装置に実行させるプログラムであって、上記記憶装置は、上記 バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオアイテム 文献セットを記憶するノィォアイテム文献セット記憶手段、を備えており、上記制御装 置において実行される、上記各バイオアイテム文献セットにおいて、上記キーワード を該バイオアイテム文献セットの中力も検索し、該バイオアイテム文献セットのうち上 記キーワードを含む文献数 Nhを、上記ノィォアイテム毎に取得する文献数取得ステ ップと、上記文献数取得ステップにお 、て取得された上記文献数 Nhが 1以上である 上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ス テツプと、上記候補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上 記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該ノィォアイテムの 上記バイオアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作 成するテーブル作成ステップと、上記候補バイオアイテム毎に、上記文献数テーブル を用 、て統計計算に基づ 、て、該バイオアイテムと上記キーワードとの相関スコアを 算出する相関スコア算出ステップと、上記相関スコア算出ステップにお 、て算出され た上記相関スコアに基づいて、上記候補バイオアイテムを上記出力装置に出力する 出力ステップと、を含む方法をバイオアイテム検索装置に実行させることを特徴とする 発明の効果
[0035] 本発明によれば、バイオアイテムを検索するためのキーワードにつ 、ては、従来手 法ではバイオアイテム名(例えば、遺伝子名や疾患名や蛋白質名や薬品名等)など のバイオアイテムを特定する語句に限られていた力 本手法においては、表現形 (フ エノタイプ) t ヽつた自然言語での記述で使われる単語やフレーズやその論理式 (AN Dや ORや NOT等)、さらにはワイルドカード (任意の文字列を表す〃 * "や任意の一文 字を表す"?〃等)等力もなる任意のキーワードを用いることができる。
[0036] また、本発明によれば、疾患関連遺伝子多型の探索研究における各患者の表現 型と遺伝子型を記述した文書を各文献とし、各遺伝子型を各バイオアイテムとすれば 、表現型に関する語句をキーワードとして用いることで、該表現型に最も相関する遺 伝子型を統計学的な有意性確率の順位で高速に検索することができる。
[0037] また、本発明によれば、キーワード、キーワードとバイオアイテム(一例として、遺伝 子等)に関連する文献数に基づいた統計処理を行うことにより、有望なバイオアイテ ム(一例として、遺伝子)をより上位にランキングさせることが可能となる。
[0038] また、本発明によれば、相関スコアに基づ 、て、各バイオアイテム間でランキングを 行い、出力(例えば、表示、印刷、記録媒体への格納等)することにより、利用者が目 的とするバイオアイテムの発見精度をより高める効果が期待できる。
[0039] また、本発明によれば、キーワードに関連するノィォアイテムがゲノム領域 (以下「ィ ンターバル」と呼ぶ)に存在しない場合など直接検索の検索結果 (直接検索による解 )がない場合であっても、そのバイオアイテムに関連しインターバルに存在する関連 ノィォアイテムを推論することができる。このようにバイオアイテム間の推論を実行し、 推論検索による解を求めることにより、キーワードと間接的に関係のあるバイオアイテ ムをも検索することができる。
[0040] また、本発明によれば、間接検索 (バイオアイテムの推論)によって、目的とするバイ ォアイテムに到達するためのキーワードをより柔軟に選択することが可能となる。
[0041] また、本発明によれば、利用者は、目的とするバイオアイテムのゲノム領域 (インタ 一バル)情報を入力することによってゲノム配列上の位置を指定し、このインターバル に存在するノィォアイテム(一例として、遺伝子など)の抽出において、キーワードに 関連するバイオアイテム力 Sインターバルに存在して 、な 、場合であっても、この遺伝
子と文献上で共起し当該インターバルに存在する遺伝子を取得することができるとい う効果を奏する。
[0042] また、本発明によれば、バイオアイテム名は、概念語を含むことにより、より正確な検 索精度の向上を図ることができる。
[0043] また、本発明によれば、利用者が入力したキーワードを含む文献の数を文献セット から検索して取得し、かつ、利用者が入力したキーワードを含む文献の数をバイオア ィテム文献セットから検索して取得し、これらスカラー量力 相関スコアを計算すること により、文献数と同じ行数の行列どうしの演算処理をすることなぐ相関スコアを計算 することを可能にすることができ、バイオアイテム検索に力かる処理時間をより短縮で きる。
[0044] また、本発明によれば、バイオアイテム名が複数の単語の組合せカゝら構成される場 合でも、事前にバイオアイテムを含む文献のみをバイオアイテム文献セットとして抽出 しておくことにより、検索時には余計な計算処理時間をかけないで済むという効果を 奏する。
[0045] また、本発明によれば、利用者が入力したキーワードとバイオアイテム(一例として、 遺伝子など)との関連性の強さを統計学的な有意性確率で評価することができ、他の 有意性確率と合成して総合的な評価をすることができるため、利用者が目的とするバ ィォアイテムを選ぶ際の判断基準の信頼性をより高めることができる。
[0046] また、本発明によれば、キーワードと類似するバイオアイテム、および、キーワードと 類似するバイオアイテムに関連する関連バイオアイテムを、統計学的な有意性確率 に基づいて高速に順位付けすることができるため、利用者が目的とするバイオアイテ ムを選ぶ際の判断基準の信頼性をより高めることができる。
[0047] また、本発明によれば、キーワードに関連するバイオアイテムが、利用者により入力 された識別子情報により指定されたノィォアイテム群 (以下「グループ」と呼ぶ)に存 在しない場合など直接検索の検索結果 (解)がない場合であっても、そのバイオアイ テムに関連しグループに存在する関連ノィォアイテムを推論するこができる。
[0048] また、本発明によれば、利用者により入力されたキーワードと、任意の一方のバイオ アイテムと、任意の他方のバイオアイテムと、の 3者力 成る組合せに対して、キーヮ
ードを含むか含まないか、一方のバイオアイテムを含む力含まないか、他方のバイオ アイテムを含む力含まないか、の 8通りの分類項目に分類される文献数力もなる 3次 元の文献テーブル (文献数 3次元テーブル)を高速に生成し、文献数 3次元テーブル を用いて共起キーワード相関スコアを算出して出力するので、一方のバイオアイテム と他方のバイオアイテムの共起関係の強さ力 キーワードの有無でどのように違うかを 利用者に提示することができる。
図面の簡単な説明
[図 1]図 1は、本発明の基本原理を示す原理構成図である。
[図 2]図 2は、文献数テーブルの一例を示す図である。
[図 3]図 3は、相関スコア計算用の文献数テーブルの一例を示す図である。
[図 4]図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すブ ロック図である。
[図 5]図 5は、本実施形態における本システムの直接検索処理の一例を示すフローチ ヤートである。
[図 6]図 6は、本実施形態における本システムの間接検索処理の一例を示すフローチ ヤートである。
[図 7]図 7は、キーワードとバイオアイテム間の関係を模式的に示した図である。
[図 8]図 8は、 3次元の文献数テーブルを作成する方法を模式的に示した図である。
[図 9]図 9は、「キーワードあり相関スコア」と「キーワードなし相関スコア」を算出するた めの文献テーブルの一例を示す図である。
[図 10]図 10は、シングルインターバルモードでバイオアイテムを検索する際のデータ の流れを示した図である。
[図 11]図 11は、バイオアイテム全文検索器 120の概要を示す図である。
[図 12]図 12は、シングルインターバルモードにおける動作をフローチャートで表した 図である。
[図 13]図 13は、カタログセットに対し、シングルインターバルモードでバイオアイテム を検索する際のデータの流れを示した図である。
[図 14]図 14は、カタログセットに対し、シングルインターバルモードでバイオアイテム
を検索する際の動作をフローチャートとして表した図である。
[図 15]図 15は、マルチプルインターバルモード検索のデータの流れを示す概念図で ある。
[図 16]図 16は、マルチプルインターバルモード検索の動作を表すフローチャートで ある。
[図 17]図 17は、ドキュメント検索用システムアーキテクチャの一例を示す図である。
[図 18]図 18は、文献数取得サーバのアーキテクチャの一例を示す図である。
[図 19]図 19は、分散文献検索サーバのアーキテクチャの一例を示す図である。
[図 20]図 20は、カタログ検索用システムのアーキテクチャの一例を示す図である。
[図 21]図 21は、シングルインターバルモードにおけるカタログ検索結果表示画面の 一例を示す図である。
[図 22]図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画 面の一例を示す図である。
[図 23]図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示 画面の一例を示す図である。
[図 24]図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示 画面の一例を示す図である。
[図 25]図 25は、シングルインターバルモード (インターバルを指定しない場合)におけ る複数の文献セット種を用いた直接検索結果表示画面の一例を示す図である。
[図 26]図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、 直接検索結果と間接検索結果の表示画面の一例を示す図である。
[図 27]図 27は、シングルインターバルモードにおける複数の文献セット種を用いた直 接検索結果と間接検索結果の表示画面の一例を示す図である。
[図 28]図 28は、シングルインターバルモードにおける識別子の列を指定して複数の 文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例を示す図 である。
[図 29]図 29は、マルチプルインターバルモードにおける複数の文献セット種を用いた 検索結果表示画面の一例を示す図である。
[図 30]図 30は、キーワード diabetesとマウス遺伝子 Rradとの関連文献の詳細を表示し た例を示す図である。
[図 31]図 31は、マウス遺伝子 Insrとマウス遺伝子 Irslの間の関連文献の詳細を表示 した例を示した図である。
[図 32]図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を示 す図である。
[図 33]図 33は、ユーザクライアント 500である Webブラウザ上で上記(5)、 (6)におけ る合成文献数テーブルの作成の方法を利用者が指定する例を示した図である。
[図 34]図 34は、バイオアイテム検索端末装置 600の構成の一例を示すブロック図で ある。
[図 35]図 35は、バイオアイテム検索端末装置 600の処理の一例を示すフローチヤ一 トである。
符号の説明
100 バイオアイテム検索装置
102 制御部
102a 文献数取得部
102b 候補バイオアイテム選出部
102c テーブル作成部
102d 相関スコア算出部
102e 共起相関スコア算出部
102f バイオアイテム関係データベース化部
102g 関連バイオアイテム抽出部
102h 合成相関スコア算出部
1021 出力部
10¾ ゲノム領域判定部
102k 識別子判定部
102m 共起キーワード相関スコア算出部
102η 検索結果順序出力部
104 通信制御インターフェース部 106 記憶部
106a 全文献セットファイル
106b バイオアイテム文献セットファイル 106c バイオアイテム関係データベース 106d 位置情報データベース
106e 識別子情報データベース 108 入出力制御インターフェース部 110 全文検索器
112 入力装置
114 出力装置
120 バイオアイテム全文検索器
200 バックエンド
201 バックエンド管理サーバ
202 文献数取得サーバ
203 インターフェース
204 文献全文検索器
206d 位置情報データベース
206c バイオアイテム関係データベース
210 分散文献検索サーバ
211 インターフェース
212 文献全文検索器
2121 アイテム領域判定器
212d 相関スコア計算器
212e バイオアイテム推論器
212f バイオアイテム名テーブル
250 外部システム
300 ネットワーク
400 システム管理サーバ
500 ユーザクライアント
600 バイオアイテム検索端末装置
602 制御部
602a 入力制御部
602b 送信部
602c 受信出力部
604 通信制御インターフェース部
606 記憶部
608 入出力制御インターフェース部
612 入力部
614 出力部
発明を実施するための最良の形態
[0051] 以下に、本発明に力かるバイオアイテム検索装置、ノィォアイテム検索端末装置、 バイオアイテム検索方法、および、プログラムの実施の形態を図面に基づいて詳細 に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[0052] [本発明の概要]
以下、本発明の概要について図 1〜図 3を参照して説明し、その後、本発明の構成 および処理等について詳細に説明する。図 1は、本発明の基本原理を示す原理構 成図である。本発明は、概略的に、以下の基本的特徴を有する。
[0053] 一例として図 1に示すように、本バイオアイテム検索装置は、利用者により入力され たキーワードから目的のバイオアイテム (例えば、遺伝子、遺伝子多型、疾患、薬品、 バイオリソース、文献フォルダ、蛋白質、人物、集団、組織、化合物、専門用語等)を 検索するバイオアイテム検索装置である。ノィォアイテム検索装置は、少なくとも制 御装置と記憶装置と出力装置とを備えている。ここで、「文献フォルダ」とは、 1以上の 文献力 なる集合を規定するものであり、コンピュータ上で文書データのファイルを格 納させることができるフォルダを例として挙げることができる。この場合、文献フォルダ のバイオアイテム名として、該文献フォルダのフォルダ名または該文献フォルダのパ
ス名(絶対パス、相対パス、インターネット上における Universal Resource Locator) を好適に用いることができ、該フォルダに含まれる文献または該文献フォルダ以下に 含まれるすべての文献を有する文献セットを該バイオアイテムのバイオアイテム文献 セットとすることができる。
[0054] そして、本バイオアイテム検索装置は、バイオアイテム毎に、該バイオアイテムのバ ィォアイテム名が記載された文献を有するバイオアイテム文献セットを記憶する(図 1 の「バイオアイテム文献セットファイル 106b」)。ここで、本バイオアイテム検索装置は 、これらバイオアイテム文献セットファイル 106bに記憶された、バイオアイテム l〜nの ノィォアイテム文献セットに含まれる全ての文献を有する全文献セットを記憶してもよ い(図 1の「全文献セットファイル 106a」 )。
[0055] ここで、「文献」とは、記憶装置に記録できるひとまとまりの文書データを!、 、、フアイ ル名又は識別子で特定可能な文書データも文献の一形態である。具体的には、文 献の一例として、 MEDLINE (Medical Literature Analysis and Retrieval System
On— Line)データベースや OMIM (Online Mendelian Inheritance in Man)デー タベースの各レコードを挙げることができる。さらに、文書データをファイルとして扱う 場合は、該文書データおよび該文書データのファイルパス名をあわせてひとつの文 献とすることもできる。また、「文献セット」とは 1つ以上の文献に基づいて生成された データであり、任意のキーワードに対して、そのキーワードが記載されている文献数 を算出できるように構成されたデータである。好ましい実施の形態としては、文献セッ トは、任意のキーワードに対して、該文献数を高速に算出できるように、インデックス 情報を含むデータである力 本発明がこれに限定されるものではない。また、「バイオ アイテム名」は、バイオアイテムの名称である。ここで、バイオアイテム名は、複数の単 語の組合せ力 構成されてもよぐ概念語を含んで 、てもよ!/、。
[0056] 図 1に示すように、まず、本発明の本バイオアイテム検索装置は、利用者によりキー ワードが入力されると(SA— 1)、バイオアイテム文献セットファイル 106bに記憶され た各バイオアイテム文献セットの中力もキーワードを検索し、ノィォアイテム文献セッ トのうちキーワードを含む文献の数 Nhを、バイオアイテム l〜n毎に取得する(SA— 2 ) oここで、本バイオアイテム検索装置は、全文献セットファイル 106aに記憶された全
文献セットの中力もキーワードを検索し、全文献セットのうちキーワードを含む文献の 数 Nkを取得してもよい。
[0057] つぎに、本バイオアイテム検索装置は、取得された文献数 Nhが 1以上であるバイオ アイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する(SA—3)
[0058] そして、本バイオアイテム検索装置は、候補バイオアイテム毎に、 a)文献数 Nh、お よび Zまたは、 b)キーワードを含まず且つバイオアイテム名を含む文献の数 (該バイ ォアイテムのノィォアイテム文献セットの文献数 Nh)、から構成される文献数テー ブルを作成する(SA— 4)。ここで、本バイオアイテム検索装置は、上記 a)、上記 b)、 並びに、 c)キーワードを含み且つバイオアイテム名を含まな!/、文献数 (Nk— Nh)、 および、 d)キーワードを含まず且つノィォアイテム名を含まな 、文献数 (全文献セッ トの総文献数 バイオアイテム文献セットの文献数 Nk+Nh)、のうち少なくとも一 つから構成される文献数テーブルを作成してもよい。ここで、「文献数テーブル」につ いて、図 2および図 3を用いて説明する。図 2は、文献数テーブルの一例を示す図で ある。
[0059] 図 2に示すように、文献数テーブルは、 a)キーワードを含み且つバイオアイテム名を 含む文献の数、 b)キーワードを含まず且つ候補バイオアイテム名を含む文献の数、 c )キーワードを含み且つバイオアイテム名を含まない文献の数、および、 d)キーワード を含まず且つ候補バイオアイテム名を含まな 、文献の数、の 4つの項目 a)〜d)のう ち少なくとも一つカゝら構成される。次に、この文献数テーブルに文献数を格納し、文 献数テーブルを作成する方法の一例を、図 3を参照して説明する。図 3は、相関スコ ァ計算用の文献数テーブルの一例を示す図である。
[0060] 図 3に示すように、図 2の説明で用いた記号に対応付けて説明すると、本バイオアイ テム検索装置は、項目 a)に文献数 Nhを、項目 b)に (Ng— Nh)を、項目 c)に (Nk— Nh)を、および、項目 d)に(Nail— Nk+Nh— Ng)を設定し、 4つの項目 a)〜d)のう ち少なくとも一つから構成される文献数テーブルを作成する。ここで、 Ngは、対応す るバイオアイテムのバイオアイテム文献セットの文献数であり、 Nailは、全文献セットフ アイル 106aに記憶された全文献セットの総文献数である。ここで、本発明の文献テー
ブノレは、上記の 1次元または 2次元の文献テーブルに限られず、 3次元の文献テー ブルであってもよい。なお、 3次元の文献テーブルの実施の形態は、後に詳しく説明 する。
[0061] つづいて、図 1に戻り、本バイオアイテム検索装置は、候補バイオアイテム毎に、作 成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテムとキー ワードとの相関スコアをそれぞれ算出する(SA— 5)。ここで、統計計算は、検定を用 いてもよぐフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率 を用いてもよい。これにより、各候補バイオアイテムとキーワードとの相関スコアに検 定での有意性確率を反映させ、統計学的に解釈可能な相関スコアを算出することが できる。また、相関スコアとして検定の有意性確率を用いる場合は、相関が強いほど 当該相関スコアの値が小さくなる力 逆に、相関が強いほど値が大きくなるように、相 関スコアを定義して用いてもよい。このほか、相関スコアの定義として、文献数テープ ルの項目 a)が大きいほど相関が強くなる傾向に定義した相関スコアを用いてもよぐ また、文献数テーブルの項目 b)が大きいほど相関が弱くなる傾向に定義した相関ス コアを用いてもよい。また、文献数テーブルの項目 c)が大きいほど相関が弱くなる傾 向に定義した相関スコアを用いてもよぐまた、上記傾向を満たすように、文献数テー ブルの項目 a)のみから定義した相関スコアを用いてもよぐまた、上記傾向を満たす ように文献数テーブルの項目 a)および項目 b)のみ力 定義した相関スコア用いても よぐまた、上記傾向を満たすように文献数テーブルの項目 a)および項目 c)のみから 定義した相関スコアを用いてもよぐまた、上記傾向を満たすように文献数テーブル の項目 a)、項目 b)および、項目 c)のみ力 定義した相関スコアを用いてもよぐまた 、上記傾向を満たすように文献数テーブルの項目 a)、項目 b)、項目 c)および項目 d) 力も定義した相関スコアを用いてもよい。また、上記相関スコアの定義力 文献数テ 一ブルの項目 a)、項目 b)、項目 c)、および、項目 d)のすベての値に基づかな!/、場 合は、該相関スコアの定義に基づ力ない項目を算出しなくてもよい。この他、 2種類 以上の上記相関スコアに基づいて定義された 1つの相関スコアを上記相関スコアとし て用いてもよい。
[0062] 最後に、本バイオアイテム検索装置は、算出された相関スコアに基づいて、候補バ
ィォアイテムを出力装置に出力する(SA— 6)。ここで、本バイオアイテム検索装置は 、候補バイオアイテムを順位付けして出力装置に出力してもよい。
[0063] 次に、本発明の別態様について説明を行う。
[0064] 本発明の別態様における本バイオアイテム検索装置は、任意の 2つのバイオアイテ ムと、 2つのバイオアイテムの共起相関スコアと、を対応付けて記憶するバイオアイテ ム関係データベース 106cを備えて構成される。
[0065] ここで、共起相関スコアの算出の一例として、本バイオアイテム検索装置は、上記 2 つのバイオアイテムのうち、一方のバイオアイテムのバイオアイテム文献セットの中か ら、他方のバイオアイテム名を検索することにより得られた、 i)一方のバイオアイテム 名を含み且つ他方のバイオアイテム名を含む文献数、 j)一方のバイオアイテム名を 含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のノィォアイテム名を含 み且つ他方のバイオアイテム名を含まない文献数、および、 m)—方のバイオアイテ ム名を含まず且つ他方のバイオアイテム名を含まな!/ヽ文献数、のうち少なくとも一つ 力も構成される共起文献数テーブルを用いて、統計計算に基づいて、共起相関スコ ァを算出する (SA— 7)。そして、本バイオアイテム検索装置は、算出された共起相 関スコアを、上記 2つのバイオアイテムに対応付けて、バイオアイテム関係データべ ース 106cに格納しておく(SA— 8)。
[0066] まず、本発明の別態様における本バイオアイテム検索装置は、バイオアイテム関係 データベース 106cに記憶された共起相関スコアに基づいて、選出された候補バイオ アイテムと相関関係を有するバイオアイテムを、関連バイオアイテムとして抽出する(S A— 9)。
[0067] つぎに、本バイオアイテム検索装置は、関連バイオアイテムとキーワードとの合成相 関スコアを、元となった候補バイオアイテムの相関スコアと共起相関スコアとを合成す ることによって求める(SA— 10)。
[0068] ここで、合成相関スコアは、下記の数式 1に基づいて、算出してもよい。
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
(ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムの相関スコアであり
、 P2は、共起相関スコアである。 )
[0069] また、ここで、上記数式 1の近似式として、 P1や P2が 1より十分小さいという仮定の もとに、これら P1や P2同士の積を 0とみなす下記の近似式 (数式 1 1)を適用しても よい。
P = P1 + P2 · · · (数式 1— 1)
また、数式 1を対数のままで計算したい場合には、数式 1を対数で計算できるように 近似した下記の近似式 (数式 1 2)を適用してもよ!/ヽ。
Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)
(ここで、 Max{A, B}は A, Bのうち小さくない方を選ぶ関数である)
[0070] 最後に、本バイオアイテム検索装置は、算出された合成相関スコアに基づいて、関 連バイオアイテムを出力装置に出力する(SA— 11)。以上が、本発明の別態様の説 明である。
[0071] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応 するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶してもよい(図 1 の「位置情報データベース 106d」 )。
[0072] この場合、利用者により目的とするバイオアイテムに対応するゲノム染色体上の位 置を含むゲノム領域情報の入力があると (SA— 1)、本バイオアイテム検索装置は、 候補バイオアイテムまたは関連バイオアイテムにつ 、て、位置情報データベース 106 dに記憶された、該バイオアイテムに対応するゲノム上の位置力 利用者により入力さ れたゲノム領域に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に 、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する(SA— 12)。
[0073] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応 する識別子を示す識別子情報を関連付けて記憶してもよ ヽ (図 1の「識別子情報デ ータベース 106e」)。
[0074] この場合、利用者により目的とするノィォアイテムに対応する一つ又は複数の識別 子情報の入力があると (SA—1)、本バイオアイテム検索装置は、候補バイオアイテム または関連バイオアイテムについて、識別子情報データベース 106eに記憶された、 該バイオアイテムに対応する識別子情報に基づく識別子が、利用者により入力され
た一つ又は複数の識別子に含まれるカゝ否かを判断し、含まれると判断した場合に、 該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する(SA— 1 3)。
[0075] また、利用者がコンピュータを操作して入力したキーワードを、該コンピュータから 上記バイオアイテム検索装置の上記制御装置に、ネットワーク経由で送信するため のプログラムを該コンピュータに実行させてもよい。好適には該コンピュータのウェブ ブラウザが解釈可能な HTML (ノヽィパーテキストマークアップランゲージ)のファイル を上記プログラムとして用いることができる。
[0076] ここで、上記コンピュータとしてバイオアイテム検索端末装置を用いてもよ!、。バイオ アイテム検索端末装置は、ネットワークを介して、本バイオアイテム検索装置と相互に 接続され、少なくとも制御部と入力部と出力部を備えて構成される。ノィォアイテム検 索端末装置は、利用者に、入力部を介してキーワードやゲノム領域情報や識別子情 報を入力させるよう制御し、当該キーワード等をバイオアイテム検索装置 100に送信 し、ノィォアイテム検索端末装置 600から出力された検索結果 (候補バイオアイテム 、関連バイオアイテム、または、共起キーワード相関スコア)を受信し、出力部に出力 するよう構成してちょい。
[0077] 以上で、本発明の概要の説明を終える。
[0078] [バイオアイテム検索装置の構成]
まず、本バイオアイテム検索装置の論理構成について、図 4を参照しながら説明す る。図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すプロ ック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
[0079] 図 4においてバイオアイテム検索装置 100は、概略的に、バイオアイテム検索装置 100の全体を統括的に制御する CPU等の制御部 102、通信回線等に接続されるル ータ等の通信装置(図示せず)に接続される通信制御インターフェース部 104、入力 装置 112や出力装置 114に接続される入出力制御インターフェース部 108、および 、各種のデータベースやテーブルなどを格納する記憶部 106を備えて構成されてお り、これら各部は任意の通信路を介してネットワーク 300に通信可能に接続される。
[0080] 記憶部 106に格納される各種のデータベースやテーブル(全文献セットファイル 10
6a〜識別子情報データベース 106e)は、固定ディスク装置等のストレージ手段であ り、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースゃゥェ ブページ等を格納する。
[0081] これら記憶部 106の各構成要素のうち、バイオアイテム文献セットファイル 106bは、 バイオアイテム毎に、ノィォアイテムのバイオアイテム名が記載された文献を有する ノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段である。図 4 に示すように、バイオアイテム文献セットファイル 106bは、バイオアイテム l〜n毎に、 バイオアイテム名を含む文献の集合であるバイオアイテム文献セットを記憶して 、る。
[0082] また、全文献セットファイル 106aは、これらバイオアイテム l〜nのバイオアイテム文 献セットに含まれる全ての文献を有する全文献セットを記憶する文献セット記憶手段 である。
[0083] また、バイオアイテム関係データベース 106cは、任意の 2つのバイオアイテムと、対 応する 2つのノィォアイテムの相関スコアを共起相関スコアとして記憶するバイオアイ テム関係蓄積手段である。ここで、好ましい実施の形態として、バイオアイテム関係デ ータベース 106cは、共起相関スコアが優位水準を下回っており、有意な相関関係が あると判断された互いに関連する 2つのバイオアイテムを記憶してもよい。
[0084] また、位置情報データベース 106dは、バイオアイテム毎に、対応するゲノム染色体 上の位置を示すゲノム位置情報を関連付けて記憶する位置情報蓄積手段である。
[0085] また、識別子情報データベース 106eは、ノィォアイテム毎に、対応する識別子を 示す識別子情報を関連付けて記憶する識別子情報蓄積手段である。
[0086] また、図 4において、通信制御インターフェース部 104は、バイオアイテム検索装置 100とネットワーク 300 (またはルータ等の通信装置)との間における通信制御を行う 。すなわち、通信制御インターフェース部 104は、他の端末と通信回線を介してデー タを通信する機能を有する。
[0087] また、図 4において、入出力制御インターフェース部 108は、入力装置 112や出力 装置 114の制御を行う。ここで、出力装置 114としては、モニタの他、スピーカを用い ることができる。また、入力装置 112としては、キーボード、マウス、およびマイク等を 用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を
実現することができる。なお、本実施の形態においては、利用者は、キーボードなど の入力装置 112を介して、キーワードやインターバルや識別子を入力し、モニタなど の出力装置 114を介して、出力された検索結果を閲覧できる構成となって!/、る。
[0088] また、図 4において、制御部 102は、 OS (Operating System)等の制御プログラ ム、各種の処理手順等を規定したプログラム、および所要データを格納するための内 部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理 を行う。制御部 102は、機能概念的に、文献数取得部 102a、候補バイオアイテム選 出部 102b、テーブル作成部 102c、相関スコア算出部 102d、共起相関スコア算出 部 102e、バイオアイテム関係データベース化部 102f、関連バイオアイテム抽出部 1 02g、合成相関スコア算出部 102h、出力部 102i、ゲノム領域判定部 10¾、識別子 判定部 102kを備えて構成されている。
[0089] このうち、文献数取得部 102aは、バイオアイテム文献セットファイル 106bに記憶さ れた、各バイオアイテム l〜nのバイオアイテム文献セットの中力 キーワードを検索し 、各ノィォアイテム文献セットのうちキーワードを含む文献の数 Nhをバイオアイテム 1 〜n毎に取得する文献数取得手段である。ここで、文献数取得部 102aは、全文献セ ットファイル 106aに記憶された全文献セットの中カゝらキーワードを検索し、全文献セッ トのうちキーワードを含む文献の数 Nkを取得してもよい。また、文献数取得部 102a は、任意の 2つの候補バイオアイテムのうち、一方の候補バイオアイテムのノィォアイ テム文献セットの中から、他方のバイオアイテム名を含み且つキーワードを含む文献 数 Nsを検索により取得してもよい。
[0090] また、候補バイオアイテム選出部 102bは、文献数取得部 102aにより取得された文 献数 Nhが 1以上であるバイオアイテム文献セットのバイオアイテムを、候補バイオア ィテムとして選出する候補バイオアイテム選出手段である。
[0091] また、テーブル作成部 102cは、候補バイオアイテム選出部 102bにより選出された 候補バイオアイテム毎に、 a)文献数 Nh、 b)キーワードを含まず且つバイオアイテム 名を含む文献の数 (該バイオアイテムのノィォアイテム文献セットの文献数 Nh)、 c )キーワードを含み且つバイオアイテム名を含まない文献数 (Nk— Nh)、および、 d) キーワードを含まず且つバイオアイテム名を含まな 、文献数 (全文献セットの総文献
数 バイオアイテム文献セットの文献数 Nk+Nh)、の 4つの項目 a)〜d)うち少な くとも一つカゝら構成される文献数テーブルを作成するテーブル作成手段である(図 2 および図 3を参照。なお、 Nkと Nhの値は、文献数取得部 102aにより取得される。;)。 ここで、テーブル作成部 102cは、文献数取得手段 102aにより取得された文献数 Ns 、 2つの候補バイオアイテムに係る文献数テーブル、および、 2つの候補バイオアイテ ムに係る共起文献数テーブルに基づ ヽて、 3次元の文献テーブルを作成してもよ ヽ
[0092] また、相関スコア算出部 102dは、候補バイオアイテム毎に、テーブル作成部 102c により作成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテ ムとキーワードとの相関スコアを算出する相関スコア算出手段である。ここで、相関ス コア算出部 102dは、統計計算として、検定を用いてもよぐフィッシャーの正確確率 検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。ここで、 102dは、 図 4に示すように、共起キーワード相関スコア算出部 102mを備えて構成されて 、る。 共起キーワード相関スコア算出部 102mは、テーブル作成部 102cにより作成された 3次元の文献数テーブルを用いて、統計計算に基づいて、 2つの候補バイオアイテム とキーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算 出手段である。ここで、共起キーワード相関スコア算出部 102mは、キーワードを含む 場合の 2つの候補バイオアイテムの相関スコアをキーワードあり相関スコアとして算出 し、キーワードを含まない場合の 2つの候補バイオアイテムの相関スコアをキーワード なし相関スコアとして算出し、キーワードあり相関スコアとキーワードなし相関スコアと の、両方および Zまたは比較結果を、共起キーワード相関スコアとしてもよい。
[0093] また、共起相関スコア算出部 102eは、任意の 2つのバイオアイテムのうち、一方の バイオアイテム文献セットの中から、他方のバイオアイテム名を検索することにより得 られた、 i)一方のノィォアイテム名を含み且つ他方のバイオアイテム名を含む文献 数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のバイオアイテム名を含み且つ他方のバイオアイテム名を含まな!/、文献数、 および、 m)—方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含まな V、文献数、の 4つの項目 i)〜m)うち少なくとも一つから構成される共起文献数テープ
ルを用いて、統計計算に基づいて、共起相関スコアを算出する共起相関スコア算出 手段である。ここで、共起相関スコア算出部 102eは、全文献セットファイル 106aに記 憶された全文献セットの中力 一方のバイオアイテム名および Zまたは他方のバイオ アイテム名を検索することにより、項目 i)〜! n)の値を得てもよい。ここで、共起相関ス コア算出部 102eは、統計計算として、検定を用いてもよぐフィッシャーの正確確率 検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。
[0094] また、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 102e によって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイオア ィテム関係データベース 106cに格納するバイオアイテム関係データベース化手段で ある。
[0095] また、関連バイオアイテム抽出部 102gは、ノィォアイテム関係データベース 106c に記憶された共起相関スコアに基づいて、候補バイオアイテム選出部 102bにより選 出された候補バイオアイテムと相関関係を有するバイオアイテムを、関連バイオアイ テムとして抽出する関連ノィォアイテム抽出手段である。
[0096] また、合成相関スコア算出部 102hは、関連バイオアイテムとキーワードとの合成相 関スコアを、関連ノィォアイテム抽出部 102gによる抽出の元となった候補バイオアイ テムのキーワードとの相関スコアと、バイオアイテム関係データベース化部 102fに記 憶された共起相関スコアとを合成することによって求める合成相関スコア算出手段で ある。ここで、合成相関スコア算出部 102hは、合成相関スコアを、下記の数式 1、ま たは、数式 1の近似式(下記の数式 1 1および 1 2)に基づいて、算出してもよい。 ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムのキーワードとの相 関スコアであり、 P2は、候補バイオアイテムと関連バイオアイテムとの共起相関スコア である。
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
P = P1 + P2 · · · (数式 1— 1)
Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)
(ここで、 Max{A, B}は A, Bのうち小さくない方を選ぶ関数である)
[0097] ここで、合成相関スコア算出部 102hは、ゲノム領域 (インターバル)を 2つ入力する
マルチプルインターバルモードの際、 2つの候補バイオアイテム(バイオアイテム 1、 バイオアイテム 2)のキーワードとの総合相関スコア (総合 P)を求める場合、以下に掲 げる 、ずれかの数式を用いて合成するよう構成してもよ!/、。
総合 P= l—(1 PI) (1— P2) (1— P3)…(数式 2)
総合 P = Min{ l—(1一 PI) (1一 P2) , 1一 (1一 PI) (1一 P3) } · · · (数式 3) (ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイ テム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコ ァ、 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である(図 7参照))。
[0098] また、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに基 づいて、候補バイオアイテムを出力装置 114に出力する出力手段である。ここで、出 力部 102iは、合成相関スコア算出部 102hによって算出された合成相関スコアに基 づいて、関連バイオアイテムを出力装置 114に出力してもよい。また、出力部 102iは 、共起キーワード相関スコア算出部 102mによって算出された共起キーワード相関ス コアを、 2つの候補バイオアイテムと対応付けて、出力装置 114に出力してもよい。こ こで、出力部 102iは、相関スコアまたは合成相関スコアが所定の優位水準に満たな V、場合は、対応する候補バイオアイテム又は関連バイオアイテムを出力しな 、構成と してもよい。ここで、出力部 102iは、図 4に示すように、検索結果順序出力部 102ηを 備えて構成されている。検索結果順序出力部 102ηは、相関スコア、共起キーワード 相関スコア、または、合成相関スコアに基づいて、対応する候補バイオアイテムまた は上記関連バイオアイテムを、順位付けして出力装置 114に出力する検索結果順序 出力手段である。一例として、検索結果順序出力部 102ηは、候補バイオアイテムま たは関連バイオアイテムを、対応する相関スコアまたは合成相関スコアの小さなもの 力も出力してもよい。
[0099] また、ゲノム領域判定部 10¾は、候補バイオアイテムまたは関連バイオアイテムに ついて、位置情報データベース 106dに記憶された、対応するゲノム位置情報に基 づく位置が、利用者により入力されたゲノム領域情報に基づくゲノム領域 (インターバ ル)に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に、対応する 候補バイオアイテムまたは関連バイオアイテムを出力するよう制御するゲノム領域判
定手段である。ここで、本実施の形態において、ゲノム領域判定部 10¾は、候補バイ ォアイテム選出部 102bによって選出された候補バイオアイテムのゲノム上の位置が 、利用者により入力されたゲノム領域 (インターバル)に含まれないと判断した場合に 、関連ノィォアイテム抽出部 102gに対して、当該候補バイオアイテムに関連する関 連バイオアイテムを抽出するよう命令を出す構成としてもよ!、。
[0100] また、識別子判定部 102kは、候補バイオアイテムまたは関連バイオアイテムにつ いて、識別子情報データベース 106eに記憶された、対応する識別子情報に基づく 識別子が、利用者により入力された識別子情報に基づく一つまたは複数の識別子に 含まれるか否かを判断し、含まれると判断した場合に、対応する候補バイオアイテム または関連バイオアイテムを出力するよう制御する識別子判定手段である。
[0101] 以上が、バイオアイテム検索装置 100内部の論理構成である。ここで、バイオアイテ ム検索装置 100は、図 4に示すように、文献情報に関する外部データベースやバイ ォアイテム検索プログラム等の外部プログラム等を提供する外部システム 250、およ び、ノィォアイテム検索端末装置 600に、ネットワーク 300を介して通信可能に接続 して構成されていてもよい。ここで、図 4において、ネットワーク 300は、バイオアイテム 検索装置 100と外部システム 250とバイオアイテム検索端末装置 600とを相互に接 続する機能を有し、例えば、インターネット、 LAN,公衆電話回線網等である。
[0102] 図 4において、外部システム 250は、ネットワーク 300を介して、バイオアイテム検索 装置 100と相互に接続され、利用者に対して文献情報等に関する外部データベース やバイオアイテム検索プログラム等の外部プログラム等を実行するウェブサイトを提供 する機能を有する。ここで、外部システム 250は、 WEBサーバや ASPサーバ等とし て構成していてもよぐそのハードウェア構成は、一般に市販されるワークステーショ ン、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してい てもよい。また、外部システム 250の各機能は、外部システム 250のハードウェア構成 中の CPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等および それらを制御するプログラム等により実現される。
[0103] また、図 4にお 、て、バイオアイテム検索端末装置 600は、ネットワーク 300を介して 、 ノ ィォアイテム検索装置 100と相互に接続され、少なくとも制御部と入力部と出力
部を備えて構成される。バイオアイテム検索端末装置 600は、利用者に、入力部を介 してキーワードやゲノム領域情報や識別子情報を入力させるよう制御し、当該キーヮ 一ド等をバイオアイテム検索装置 100に送信し、バイオアイテム検索端末装置 600か ら出力された、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相 関スコアを受信し、出力部に出力するよう構成される。
[0104] 以上で、本バイオアイテム検索装置および本バイオアイテム検索システムの構成の 説明を終える。
[0105] [本バイオアイテム検索装置の処理]
次に、このように構成された本実施の形態における本バイオアイテム検索装置 100 の処理の一例について、以下に図 5および図 6を参照して詳細に説明する。
[0106] ここで「直接検索」とは、キーワードと直接関係するバイオアイテムを検索することを いい、候補バイオアイテムが検索結果 (直接検索の解)として出力される検索のことで ある。一方、「間接検索」とは、バイオアイテム間の推論を行い、キーワードと間接的に 関係するバイオアイテムを検索することを 、、関連バイオアイテムが検索結果 (バイ ォアイテム推論の解)として出力される検索のことである。
[0107] [直接検索処理]
直接検索処理の詳細について図 5を参照して説明する。図 5は、本実施形態にお ける本システムの直接検索処理の一例を示すフローチャートである。
[0108] 図 5に示すように、バイオアイテム検索装置 100の制御部 102は、入力装置 112を 介して利用者にキーワードを入力させ、キーワードを受信すると(SB— 1)、文献数取 得部 102aは、バイオアイテム文献セットファイル 106bに記憶された各バイオアイテム 文献セットの中力もキーワードを検索し、バイオアイテム文献セットのうちキーワードを 含む文献の数 Nhを、バイオアイテム l〜n毎に取得する(SB— 2)。ここで、文献数取 得部 102aは、全文献セットファイル 106aに記憶された全文献セットの中力 キーヮ ードを検索し、全文献セットのうちキーワードを含む文献の数 Nkを取得してもよ 、。
[0109] つぎに、候補バイオアイテム選出部 102bは、取得された文献数 Nhが 1以上である バイオアイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する(S B— 3)。
[0110] つづいて、テーブル作成部 102cは、候補バイオアイテム毎に、 a)文献数 Nh、 b)キ 一ワードを含まず且つバイオアイテム名を含む文献の数 (該バイオアイテムのバイオ アイテム文献セットの文献数 Nh)、 c)キーワードを含み且つバイオアイテム名を含 まない文献数 (Nk— Nh)、および、 d)キーワードを含まず且つバイオアイテム名を含 まな 、文献数 (全文献セットの総文献数 -ノィォアイテム文献セットの文献数 - Nk + Nh)、の 4つの項目のうち少なくとも一つから構成される文献数テーブルを作成し 記憶装置に格納する(SB— 4)。
[0111] つぎに、相関スコア算出部 102dは、テーブル作成部 102cの処理により作成された 文献数テーブルを用いて、フィッシャーの正確確率検定に基づ 、て候補バイオアイ テム群を構成する候補バイオアイテムとキーワードとの相関スコアをそれぞれ算出す る(SB— 5)。
[0112] そして、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに 基づいて候補バイオアイテム群を出力装置に出力する(SB— 6)。
[0113] これにて、直接検索の処理が終了する。
[0114] [間接検索処理 (バイオアイテムの推論) ]
つぎに、間接検索処理について、図 6を参照して説明する。図 6は、本実施形態に おける本システムの間接検索処理の一例を示すフローチャートである。
[0115] まず、バイオアイテムの推論に用いるバイオアイテム関係データベースの作成処理 について説明する。共起相関スコア算出部 102eは、 2つのバイオアイテムのうち、一 方のバイオアイテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を 検索することにより得られた、 i)一方のバイオアイテム名を含み且つ他方のバイオア ィテム名を含む文献数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテ ム名を含む文献数、 k)一方のノィォアイテム名を含み且つ他方のバイオアイテム名 を含まない文献数、および、 m)—方のバイオアイテム名を含まず且つ他方のバイオ アイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テー ブルを用いて、フィッシャーの正確確率検定に基づいて、 2つのバイオアイテム間の 共起相関スコアを算出する(SC— 1)。
[0116] つぎに、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 10
2eによって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイ ォアイテム関係データベース 106cに格納する(SC— 2)。以上が、バイオアイテム関 係データベース 106cの作成処理である。なお、この作成処理は、直接検索または間 接検索を行う前に予め実行されている。
[0117] つづいて、ノィォアイテム検索装置 100は、入力装置 112を介して利用者にキーヮ ードを入力させ、直接検索を実行する(SC— 3〜7)。ここで、 SC— 3〜7は、直接検 索の SB— 1〜5に対応するので説明を省略する。
[0118] ここで、直接検索から間接検索の移行処理については、図 6に示すように直線的な 処理の構成とする他、 SC— 5で選出された候補バイオアイテム力 ゲノム領域判定 部 10¾の処理により、利用者により入力されたインターバルに含まれないと判断する 場合に、 SC— 8に進み、関連バイオアイテム抽出部 102gに対して、当該インターバ ルに含まれないと判断された候補バイオアイテムと相関関係のある関連バイオアイテ ムの抽出を命令する構成としてもょ 、。
[0119] つぎに、関連バイオアイテム抽出部 102gは、候補バイオアイテム選出部 102bによ つて選出された候補バイオアイテムに対応する、バイオアイテム関係データベース 10 6cに記憶された共起相関スコアに基づ 、て、相関関係のある関連ノィォアイテムを 抽出する(SC— 8)。
[0120] そして、合成相関スコア算出部 102hは、関連バイオアイテム抽出部 102gにより抽 出された関連ノィォアイテムとキーワードとの合成相関スコア Pを、相関スコア算出部 102dによって算出された相関スコア(P1)と、バイオアイテム関係データベース 106c 力も得られる、候補バイオアイテム選出部 102bで得られた候補バイオアイテムと関連 ノィォアイテム抽出部 102gにより抽出された該関連バイオアイテムとの(共起)相関 スコア(P2)と、を下記の数式 1を用いて合成することによって求める(SC— 9)。
合成13= 1— (1ー?1) (1ー?2) ' ' ' (数式1)
[0121] そして、出力部 102iは、関連バイオアイテム抽出部 102gによって抽出された関連 ノィォアイテムを、合成相関スコア算出部 102hによって算出された合成相関スコア に基づいて出力装置に出力する(SC— 10)。
[0122] これにて関接検索の処理が終了する。
[0123] [ゲノム領域判定処理]
ここで、ゲノム領域判定部 10¾によるゲノム領域判定処理にっ 、て詳細に説明す る。
[0124] 入力装置 112において、利用者はキーワードのほ力 「インターバル」と呼ぶゲノム 配列上の範囲 (ゲノム領域)に関する情報 (ゲノム領域情報)を指定することができる。 このゲノム領域判定機能により、バイオアイテム検索装置 100の利用者は、例えばポ ジショナルクローニングの問題解決にお 、て、バイオアイテムのゲノム配列上の位置 を考慮して検索結果を絞り込むことが可能となる。
[0125] すなわち、ゲノム領域判定部 10¾は、候補バイオアイテム選出部 102bによって選 出された候補バイオアイテム、または、関連バイオアイテム抽出部 102gによって抽出 された関連バイオアイテムについて、位置情報データベース 106dに基づいて対応 するゲノム位置情報を取り出す。
[0126] つぎに、ゲノム領域判定部 10¾は、取得したゲノム位置情報に基づくゲノム上の位 置が、利用者によって入力されたゲノム領域 (インターバル)に含まれるか否かを判断 する。
[0127] そして、ゲノム領域判定部 10¾は、候補バイオアイテム力インターバルに存在する と判断した場合は、検索結果 (解)として適切として、このバイオアイテムを出力するよ う出力部 102iに指示する。一方、インターバルに含まれないと判断した場合は、検索 結果 (解)として不適としてバイオアイテムを棄却する。このとき、このバイオアイテムに 関連するバイオアイテムを抽出するよう、関連バイオアイテム抽出部 102gに指示する 構成としてもよい。ここで、「インターノ レ」は、インターバルあるいは識別子の列、ある いはインターバルの識別子の列の両方が指定されて 、る場合も含んでもょ 、。この 場合、すなわち、利用者によりインターバルあるいは識別子の列、あるいはインター バルの識別子の列の両方が入力された場合、ゲノム領域判定部 10¾は、入力され たそれぞれにつ 、て上記のゲノム領域判定処理を実行してもよ!/、。
[0128] [テーブル作成処理'相関スコア算出処理]
ここで、キーワードとバイオアイテム (候補バイオアイテム、関連バイオアイテム)の関 係性を定量的に評価する手法として、テーブル作成部 102cの処理によるテーブル
作成処理、および、相関スコア算出部 102d、共起相関スコア算出部 102e、および、 合成相関スコア算出部 102hの処理による相関スコア算出処理について、図 7を用い て詳細に説明する。図 7は、キーワードとバイオアイテムの間の関係を模式的に示し た図である。
[0129] すなわち、図 7に示すように、直接検索の場合には、ノィォアイテム 1が候補バイオ アイテムに相当し、相関スコア算出部 102dは、バイオアイテム 1とキーワードとの文献 数テーブルを用いて、候補バイオアイテムとキーワードとの相関スコアを算出する。
[0130] また、間接検索の場合には、バイオアイテム 1がキーワードに関係する候補バイオ アイテムに相当し、ノィォアイテム 2が推論により得られる関連バイオアイテムに相当 する。
[0131] また、マルチプルインターバルモード (利用者によりゲノム領域が 2つ入力された場 合)では、バイオアイテム 1は、一方のゲノム領域に属するノィォアイテムに相当し、 バイオアイテム 2は、他方のゲノム領域に属するバイオアイテムに相当する。ここで、 図 7におけるバイオアイテム 1が、インターバル 1に属するバイオアイテムとなり、バイ ォアイテム 2が、インターバル 2に属するバイオアイテムとなる。すなわち、マルチプル インターバルモードでは、バイオアイテム 1はインターバル 1に属しキーワードに関係 するバイオアイテム、バイオアイテム 2はインターバル 2に属しキーワードに関係する バイオアイテムである。
[0132] ここで、マルチプルインターバルモードについて説明する。相関スコア算出部 102d は、バイオアイテム 1とキーワードとの文献数テーブルを用いて、候補バイオアイテム とキーワードとの相関スコアを算出し、共起相関スコア算出部 l〇2eは、バイオアイテ ム 1とバイオアイテム 2との文献テーブルを用いて、共起相関スコアを算出する。この とき、バイオアイテム 2とキーワードとの相関スコアは、バイオアイテム 2とキーワードと の文献数テーブルを用 、て直接求めることができな 、ので、合成相関スコア算出部 1 02hは、相関スコア算出部 102dにより算出された相関スコアと、共起相関スコア算出 部 102eにより算出された共起相関スコアを合成することにより、合成相関スコアを算 出する。
[0133] すなわち、文献数取得部 102a、候補バイオアイテム選出部 102b、および、ゲノム
領域判定部 10¾の処理により、各インターバル 1 · 2について直接検索が行われ、検 索の結果としてそれぞれバイオアイテムの集合 (候補バイオアイテム群 1、候補バイオ アイテム群 2)が得られる。つぎに、共起キーワード相関スコア算出部 102mの処理に より、各集合力もそれぞれ 1つずつバイオアイテムを取り出し、構成される全てのノ ィ ォアイテムペアを作成し、各ノィォアイテムペアが上で述べた 1文献上で共起して ヽ る 2バイオアイテムに該当する力否かを、調べる。
[0134] そして、該当する場合には、当該 2バイオアイテムそれぞれについてのバイオアイテ ムとキーワードとの相関スコア (相関スコア 1、相関スコア 2)、 2バイオアイテムの共起 相関スコアの 3つの相関スコアを合成して新たな相関スコア(「合成相関スコア」)を計 算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキングを行い、 表示する。このようにマルチプルインターバルモードにぉ 、ても統計処理によるランキ ング機能により、 目的とするノィォアイテムの発見精度をより高めることができるという 効果を奏する。
[0135] ここで、キーワードとバイオアイテム 1の間の関係に着目する。この関係性を定量的 に評価するため、図 2に示したような文献数を集計した文献数テーブルを作成しても よい。
[0136] いま、バイオアイテムの名前(バイオアイテム名) ml, m2, · · 'mpが与えられたとき 、これらの名前のうち少なくとも一つ含む文献を取得するクエリを Q=ml OR m2 OR- · -OR mpと表し、「バイオアイテムクエリ」と呼ぶ。また、 Qの否定、すなわちこ れらの名前が一つも含まれない文献を取得するクエリを, Qと表す。バイオアイテム 1 につ 、てのバイオアイテムクエリを Q 1と表す。
[0137] 図 2の文献数テーブルにおいて、
aは、 Q1を満たし、かつキーワードを含む文献数
bは、 Q1を満たし、かつキーワードを含まない文献数
cは、,Q1を満たし、かつキーワードを含む文献数
dは、,Q1を満たし、かつキーワードも含まれない文献数
である。
[0138] このテーブルに、一例として、フィッシャーの正確確率検定の手法等を適用して P値
("ΡΊま、国際標準ではイタリック体で表記される。)を算出する。 Ρ値が 0に近いほどバ ィォアイテムとキーワードとの関係が強いことを示し、この値を用いてヒットしたバイオ アイテムのランキングを行う。
[0139] 同様に、バイオアイテム 1とバイオアイテム 2の間の関係(一例として、候補バイオア ィテムと関連バイオアイテムの共起相関関係)においても文献数テーブルが生成され 、テーブルの各値 a)、 b)、 c)、 d)は以下に示す文献数である。いま、バイオアイテム 1についてのバイオアイテムクエリを Q、バイオアイテム 2についてのバイオアイテムク
1
エリを Q
2とする。
[0140] このとき、図 2の文献数テーブルにおいて、
a)は、 Q1を満たし、かつ Q2を満たす文献数
b)は、 Q1を満たし、かつ, Q2を満たす文献数
c)は、,Q1を満たし、かつ Q2を満たす文献数
d)は、,Q1を満たし、かつ, Q2を満たす文献数
である。
[0141] 上記作成した文献数テーブルを用いて、統計計算に基づいて、共起相関スコアを 算出する。統計計算としては、例えば、フィッシャーの正確確率検定やカイ二乗検定 等の検定、または、ベイズ条件付確率等を適用して P値を算出する。
[0142] これにて、テーブル作成処理と相関スコア算出処理の説明を終える。
[0143] [合成相関関数スコア算出処理]
合成相関関数スコア算出処理の一例について以下に説明する。直接検索によって
、相関関係が十分にある候補バイオアイテムが得られても、候補バイオアイテムのゲ ノム上の位置力 利用者により入力されたインターバルに含まれていなければ、解と して不適であるため棄却される。しかし、候補バイオアイテム力 バイオアイテム関係 データベースを用いて、関連バイオアイテムを導き出したときに、新たな相関スコアを 求める必要がある。
[0144] この場合、直接、関連バイオアイテムとキーワードの相関スコアを求めたのでは、不 適切である。何故なら、関連バイオアイテムは、候補バイオアイテムを介して間接検 索によって、はじめて得られた検索結果であり、直接検索の結果である検索数(ほぼ
oに等しい)を代入しても、 p値は、 1に近い値となり、候補バイオアイテム群は、検索 結果の上位に出力されることはないため、従来技術の課題を解決することにはならな いからである。
[0145] そこで、直接、関連バイオアイテムとキーワードの相関スコアを求めるのではなぐ候 補バイオアイテムと関連バイオアイテムとの相関スコア(共起相関スコア)と、キーヮー ドと候補バイオアイテムとの相関スコアとを合成することによって、間接的に関連バイ ォアイテムとキーワードの相関スコア P (「合成相関スコア」)を求める。具体的には、下 記の数式 1を使って計算する。
[0146] P= l—(1 PI) (1— Ρ2) · · · (数式 1)
ここで、 P1は、関連バイオアイテムと候補バイオアイテムとの共起相関スコアであり、 P2は、候補バイオアイテムとキーワードとの相関スコアである。
[0147] また、マルチプルインターバルモードでは、まず、各インターバルについて直接検 索が行われ、検索の結果としてそれぞれバイオアイテムの集合が得られ、つぎに、各 集合力もそれぞれ 1つずっノィォアイテムを取り出し、構成される全てのバイオアイテ ムペアを作成し、各バイオアイテムペアが上で述べた 1文献上で共起して 、る 2バイ ォアイテムに該当するか否かを調べる。
[0148] そして、該当する場合には、当該の 2バイオアイテムそれぞれについてのバイオアイ テムとキーワードとの相関スコア、 2バイオアイテムの相関スコアを合成して新たな相 関スコアを計算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキ ングを行い、表示する。この際の、総合相関関数を求める式は、例えば、次の数式 2 あるいは数式 3で表される。
[0149] 総合 P= l—(1 PI) (1 -P2) (1 P3) · · · (数式 2)
総合 P = Min{ l—(1 PI) (1 P2) , 1 1 PI) (1 P3) } · · · (数式 3) ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイ テム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコ ァである。 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である(図 7参照)
[0150] [共起キーワード相関スコア算出処理:文献数 3次元テーブル]
3次元の文献数テーブルを用いた共起キーワード相関スコア算出処理について、
以下に図 8および図 9を参照しながら説明する。
[0151] まず、文献数取得部 102aは、任意の 2つのバイオアイテムのうち、一方のバイオア ィテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を含み且つキ 一ワードを含む文献の数 Nsを検索により取得する。
[0152] つぎに、テーブル作成部 102cは、文献数 Ns、 2つのバイオアイテムに係る文献数 テーブル、および、 2つのバイオアイテムに係る共起文献数テーブルに基づいて、 3 次元の文献数テーブルを作成する。ここで、 3次元の文献テーブルの作成方法を、 図 8を参照しながら説明する。図 8は、 3次元の文献数テーブルを作成する方法を模 式的に示した図である。
[0153] 図 8に示すように、テーブル作成部 102cは、 8つの項目 s)、 t)、 u)、 v)、 w)、 x)、 y )、および、 z)すなわち、キーワードを含む力含まないか、ノィォアイテム 1を含むか 含まないか、バイオアイテム 2を含む力含まないか、の 8通りの分類項目に分類される 文献の文献数からなるテーブル(3次元の文献数テーブル)を生成する。
[0154] ここで、 3次元の文献テーブルを高速に作成するために、テーブル作成部 102cは 、共起相関スコア算出部 102eの処理により作成された、任意の 2つのバイオアイテム の組合せについての、 i)、 j)、 k)、および、 m)の 4つの項目からなる共起文献数テー ブルをデータベース化しておく。
[0155] そして、利用者によりキーワードが入力された場合に、文献数取得部 102a〜テー ブル作成部 102cは、それぞれのバイオアイテムとキーワードとの間で文献数テープ ルを作成する。なお、ここで作成される文献数テーブルは、一方のバイオアイテムに おける a)、 b)、 c)、および、 d)および他方のバイオアイテムにおける e)、 f)、 g)、およ び、 h)カゝら成る文献数テーブルに対応する。
[0156] そして、テーブル作成部 102cは、任意の候補バイオアイテム 1, 2の組み合わせに 対し、文献数取得部 102aの処理により、ノィォアイテム 1に対応するバイオアイテム 文献セットを用いて、キーワードおよびバイオアイテム名 2を含む文献を検索し、該文 献数 Nsを取得して、 s)とする。
[0157] そして、テーブル作成部 102cは、
a = s + w
b = t + x
c = u + y
d = v + z
e = s + u
f = t + v
g = w + y
h = x + z
i = s + t
j = u + v
k = w + x
m = y + z
の関係式が成立していることを利用して、 w = a— s、 u=e— s、 t = i— sを計算し、さら に、 v=f— 1、 x=k— w、 y=c— u、 z = d— vを計算する。さらに、 z = d— vを計算する ことで、 s)〜z)の 8つの項目力も成る 3次元の文献数テーブルを生成する。以上によ り、 s)〜z)の 8つの項目をそれぞれ検索により取得する場合に比べて、 3次元の文献 テーブルを高速に作成することができる。
[0158] つづいて、相関スコア算出処理の説明に移る。すなわち、相関スコア算出部 102d は、共起キーワード相関スコア算出部 102mの処理により、 3次元の文献数テーブル を用いて、統計計算に基づいて、 2つの候補バイオアイテムとキーワードとの共起キ 一ワード相関スコアを算出する。
[0159] ここで、共起キーワード相関スコア算出部 102mは、 3次元の文献数テーブルを用 いて、キーワードを含む場合の 2つの候補バイオアイテムの相関スコアを「キーワード あり相関スコア」として算出し、キーワードを含まない場合の 2つの候補バイオアイテム の相関スコアを「キーワードなし相関スコア」として算出してもよい。この場合、共起キ 一ワード相関スコア算出部 102mは、「キーワードあり相関スコア」と「キーワードなし 相関スコア」との、両方および Zまたは比較結果を、共起キーワード相関スコアとして 算出する。すなわち、これにより、バイオアイテム 1とバイオアイテム 2の共起相関の強 弱がキーワードの有無でどのように変化しているかを反映する「共起キーワード相関
スコア」を算出することができる。
[0160] 以下に、共起キーワード相関スコアの算出方法の一例を、図 9を用いて示す。なお
、本発明はこの例に限定されるものではない。図 9は、「キーワードあり相関スコア」と「 キーワードなし相関スコア」を算出するための文献テーブルの一例を示す図である。
[0161] 図 9に示すように、共起キーワード相関スコア算出部 102mは、 3次元の文献数テ 一ブルから 2つの 2次元文献テーブルに分けて、利用者により入力されたキーワード を含む文献群と含まない文献群のそれぞれについて、バイオアイテム 1とバイオアイ テム 2との相関スコアを算出する。すなわち、前者が「キーワードあり相関スコア」であ り、後者が「キーワードなし相関スコア」である。
[0162] 次に、共起キーワード相関スコア算出部 102mは、「キーワードあり相関スコア」と、「 キーワードなし相関スコア」とを比較する。ここで、もし、前者の方が強い相関であるな らば、キーワードで指定されるジャンルにおいてバイオアイテム 1とバイオアイテム 2の 関連性は重要性が高いと判定でき、その情報を共起キーワード相関スコアとして利 用者に提示することができる。また、後者の方が強い相関であるならば、バイオアイテ ム 1とバイオアイテム 2の関連性はキーワードで指定されるジャンル以外にぉ 、て強 いと判定でき、その情報を共起キーワード相関スコアとして利用者に提示することが できる。
[0163] [概念語クエリ追加処理]
これまで述べたようなバイオアイテムと文献との対応付けにバイオアイテムの名前の みを用いる方法では、正しく文献に対応させることはできない場合が発生する。その 理由は、同じ語が異なる意味で使われることがあるからである。例えば、マウス遺伝子 fozzyは、一般用語として「柔軟性がある」などの意味で文献中に出現する。このように 、ノ ィォアイテム名が、文献検索上混同が生じる名称であった場合、正しい検索結果 が出力されないという問題がある。
[0164] このような問題を解決するため、関係付け精度を上げる手法として、バイオアイテム 毎に概念語クエリを追加する処理を以下に示す。
[0165] ここで「概念語」とは、特定の論題、分野を示す語句である。いま、概念語 nl, η2, · •·ηρが与えられたとき、概念語クエリ R=nl OR n2 OR - - ·ΟΚ npが定義され
る。ここで概念語クエリは、概念語のうち少なくとも一つを含む文献を取得するクエリ である。ノィォアイテムクエリを Q、その概念語クエリを Rとすると、例えば、概念語を 追カ卩したノィォアイテムクエリを Q AND Rで定義し、これは Qかつ Rを満たす文献 を取得するクエリである。文献数テーブルの生成にあたっては、バイオアイテムクエリ の代わりに概念語を追加したバイオアイテムクエリが用いられる。
[0166] 例えば、バイオアイテムの名前が GRB2- related adaptor protein 2, Grap2, Gad s, GRID, Grb2— related adaptor downstream of Sch, Mona, Grf40, GRB2L, GrbX, GRAP-2, GrpLのとき、バイオアイテムクエリ Q〃grb2— related adaptor protei n 2" OR grap2" OR "gads" OR "grid" OR "grb2- related adaptor downstr earn of sch" OR "mona" OR 〃grf40〃 OR 〃grb21〃 OR 〃grbx〃 OR 〃grap¥— 2 " OR 〃grp こ対して、概念語 Rを追加したバイオアイテムクエリ rgrb2-related ada ptor protein 2 OR grap2" OR gads OR grb2— related adaptor downstre am of sch" OR "mona" OR "grf40" OR "grb21" OR "grbx" OR "grap¥— 2" OR 〃grpl〃) AND ("adaptor protein OR "adaptor proteins" OR monocytic " OR "monocyte")
を設定する処理を行う。 AND以下の部分が概念語クエリである。
[0167] また他の例として、バイオアイテムの名前が X- ray repair complementing defectiv e repair in Chinese hamster cells o, Xrcc6, Ku p70, Ku70, Xrcco, u22pl のとき、ノ ィオアィァムクエリ Q x¥— ray repair complementing defective repair in Chinese hamster cells o OR xrcc6〃 OR "ku p70〃 OR 〃ku70〃 OR xrcc6 " OR 〃g22pl"に対して、概念語 Rを追加したバイオアイテムクエリ ("x¥-ray repair complementing derective repair in Chinese hamster cells 6 OR xrcco OR "ku p70" OR "ku70" OR "xrcc6" OR "g22pD AND ("x ray" OR "dna repair OR "hamsters" OR hamster" OR "thyroid" OR autoantigen" OR "dna¥- binding proteins" OR 〃dna¥- pkcs" OR "bax¥- binding")を設定する処理 を行う。ここで AND以下の部分が概念語クエリである。
[0168] 以上で、概念語追加処理の詳細についての説明を終える。
[0169] [実施例]
本発明の本実施の形態における実施例について以下に図 10〜図 33を参照しなが ら説明する。本実施例におけるバイオアイテム検索システムでは、利用者により入力 された「インターバル」と呼ばれるゲノム領域 (ゲノム配列上の範囲)とキーワードを受 信し、キーワードと関係のあるバイオアイテムであって、インターバルに存在するもの を取得する。また、本バイオアイテム検索システムは、インターノ レを 1つ指定するシ ングルインターバルモードによるバイオアイテム検索と、インターバルを 2つ指定する マルチプルインターバルモードによるバイオアイテム検索の 2種類の検索法を備えて いる。ここで、インターバルの指定については、インターバルの代わりにバイオォブジ ェタトの識別子の列を指定することも、ある 、はインターバルとバイオオブジェクトの識 別子の列の両方を指定することもできる。以下、インターノ レの代わりにあるいはイン ターバルともにバイオオブジェクトの識別子の列を指定する場合であっても、検索結 果が該識別子の列に含まれていることもインターバルに存在すると言う。なお、以下 に、本バイオアイテム検索システムの説明で示すように、本発明は、同一筐体 (例え ば、上述のバイオアイテム検索装置 100)または異なる複数の筐体で実施されること を妨げない。すなわち、本実施例においては、説明上簡便のため、バイオアイテム検 索装置 100の制御部 102の各構成(102a〜102k)を用いて説明することがあるが、 これら各構成は、本バイオアイテム検索システムにおいて必ずしも同一筐体で機能 するわけではない。
本実施例における本バイオアイテム検索システムは、以下の特徴を有する。すなわ ち、 1)キーワードに関連する遺伝子等のバイオアイテム力 Sインターノ レに存在しなく とも、あら力じめ文献力 抽出された 2遺伝子間の関係あるいは実験などで得られた 2 遺伝子間の関係を該バイオアイテムに適用することにより、インターバルに存在する 別のバイオアイテムを推論して得ることができる。
2)薬品や細胞などインターバルが存在しな 、バイオアイテムにつ 、ても、キーワード に関連するバイオアイテムの検索と、推論検索を行うことができる。
3)本バイオアイテム検索システムでは、複数の文献セット種 l〜mを扱うことができる 。具体的な文献セット種の一例として、 MedLineデータベース、 OMIMデータべ一 スによる文献セットなどが挙げられる。
4)統計処理によるキーワードとバイオアイテムとの関連スコアの算出を可能にし、この 値に基づき、検索結果オブジェクトに順位付けを行うことができる。
5)バイオアイテムの検索を数秒で実行することができる。ここで、本実施例が取り扱う 文献セットを、 1)バイオアイテムと文献が多対多の関係にある文献セット(「ドキュメン トセット」)、 2)バイオアイテムと文献が 1対 1の関係にある文献セット(「カタログセット」 )に分類してもよい。
[0171] 以下に、それぞれ文献セットに、ドキュメントセット Zカタログセットを用いた例を、シ ングルインターバルモード/マルチプルインターバルモードの 2種類の検索法につ いて実施した例を詳細に説明する。
[0172] [a.ドキュメントセットに対するシングルインターバルモード検索]
ドキュメントセットに対するシングルインターバルモード検索について、図 10〜図 12 、図 23および図 24を参照しながら説明する。図 10は、シングルインターバルモード でノィォアイテムを検索する際のデータの流れを示した図である。図 11は、バイオア ィテム全文検索器 120の概要を示す図である。また、図 12は、シングルインターバル モードにおける動作をフローチャートで表した図である。なお、図 10と図 12、または、 図 11と図 12においては、一部ステップの順序 ·数に違いがある力 これは本実施例 力 図 12におけるフローの順序'ステップ数に限られないことを示している。
[0173] ここで、本実施例においては、図 10に示すように、ノィォアイテム全文検索器 120 は、上述した、文献数取得手段や、候補バイオアイテム選出手段や、テーブル作成 手段や、相関スコア算出手段等として機能する。また、図 10におけるバイオアイテム 全文検索器 120以外のバイオアイテム検索システムの制御装置は、主に、ゲノム領 域判定手段や、関連バイオアイテム抽出手段や、合成相関スコア算出手段や、出力 手段等として機能する。
[0174] また、図 11に示すように、バイオアイテム全文検索器 120における全文検索器 110 の記憶装置は、 2種類の文献データ D1と D2を記憶する文献セットファイルを備えて いる。すなわち、文献データ D1は、各文献セット種 l〜mについて、少なくとも 1つの ノィォアイテムに関連付けられて 、る文献を収集したデータで、キーワードに関連す る或いは関連しな 、文献数を取得するために用いられる(全文献セットに相当する)。
一方、文献データ D2は、バイオアイテム l〜r毎に関連付けられた文献の集合を生 成し、その文献集合をすベてのバイオアイテム l〜rについて集めたデータである。 D 2は、各バイオアイテムについての、文献の集合 (文献セット)に対しキーワードによる 全文検索が行われ、キーワードに関連しかつ該バイオアイテムに関連する文献数を 取得するために用いられる (バイオアイテム文献セットに相当する)。
[0175] 図 10〜図 12に示すように、バイオアイテム全文検索器 120は、キーワードとインタ 一バルを受信すると(SD— 1)、バイオアイテム l〜r毎に、文献セット種 l〜m毎の 2 種類 (Dl、 D2)の文献セットに対してキーワードによる全文検索を実行し、 D1につい てキーワードに関連する文献数 Nkと、 D2につ 、てキーワードに関連する文献数 Nh を取得する(SD— 2〜3)。
[0176] そして、バイオアイテム全文検索器 120は、バイオアイテム l〜r毎に、文献テープ ルを用いて、統計計算により、文献セット種 l〜m毎の相関スコアを計算する(SD— 4
) o
[0177] そして、バイオアイテム全文検索器 120は、各バイオアイテム l〜rについて、文献 セット種 l〜m毎の相関スコアのうち最小のものを、当該バイオアイテムの相関スコア とする。ここで、バイオアイテム全文検索器 120は、最小の相関スコアが所定の閾値 以上のバイオアイテムを、直接検索の解から除くよう制御してもよ!/、。
[0178] ここで、以上の SD— 3〜5の処理について、図 11に示すように、具体例として、バイ ォアイテム 1についての検索処理について説明する。すなわち、図 11に示すように、 バイオアイテム全文検索器 120は、全文検索器 110の処理により、バイオアイテム 1 の文献セット種 l〜m毎に、キーワードを検索し、キーワードを含む文献の数(D1に おいて Nk、 D2において Nh)を文献セット種 l〜m毎に取得する(SD— 3)。そして、 ノィォアイテム全文検索器 120は、文献数 Nhおよび Zまたは文献数 Nkを用いて文 献数テーブルを作成し、統計計算に基づいて、バイオアイテム 1とキーワードとの相 関スコアを文献セット種 l〜m毎に算出する(SD— 4)。そして、ノィォアイテム全文 検索器 120は、文献セット種 l〜mについて算出された、バイオアイテム 1とキーヮー ドとの相関スコアのうち、最小の相関スコアを、当該バイオアイテム 1のキーワードに 対する相関スコアとする(SD— 5)。ここで、バイオアイテム全文検索器 120は、最小
の相関スコアが閾値以上のバイオアイテムを、解から除外してもよ 、(SD— 5)。
[0179] そして、図 11および図 12に示すように、ノィォアイテム全文検索器 120は、以上の SD— 3〜5の処理を、アイテム 2〜rについても実行し、解を収集する(SD— 3〜5)。 ここで、相関スコアとは、具体例として、帰無仮説について、フィッシャーの正確確率 検定に基づいて計算される P値 (0≤P値≤ 1)を指す。本発明の本実施例における帰 無仮説には、「文献セットにおいてキーワードとバイオアイテムの出現には関連がな い」という仮説が設定されている。すなわち、 P値が十分小さければ帰無仮説が棄却 されるので、相関スコアが小さいことは、そのバイオアイテムがキーワードと相関が強 いということを意味する。そして、最小の相関スコアが閾値以下であるノィォアイテム i (候補バイオアイテム)を抽出することは、キーワードと相関が有意に強いバイオアイ テムを選出することとなる。
[0180] さらには、以上の SD—3〜5の処理において、各バイオアイテム l〜rについて、各 文献セット種 l〜mの 、ずれかあるいは全ての文献数テーブルを合成して新たな文 献数テーブルを生成し、この文献数テーブルを用いて、統計計算に基づいてバイオ アイテムとキーワードとの相関スコアを算出してもよい。すなわち、各バイオアイテム 1 〜rについて、文献セット種 l〜m毎に図 2に示す文献数テーブルが作成されるが、 各文献セット種 l〜mの文献数テーブルの項 aを全て足し合わせた値 A、項 bを全て 足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し合わせた値 Dから構 成される新たな文献数テーブル(図 2において aに値 A、 bに値 B、 cに値 C、 dに値 D を代入したテーブル)を生成してもよ!/ヽ。このようにして構成される文献数テーブルを 、以下、合成文献数テーブルと呼ぶ。
[0181] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜m の中から任意に 1つ以上選び出し、合成文献数テーブルを生成し、これを用いてバ ィォアイテムとキーワードとの相関スコアを算出し、さらに合成文献数テーブル作成の 対象とならな 、各文献セット種のそれぞれにつ 、て、文献数テーブルからバイオアイ テムとキーワードとの相関スコアを算出し、これらの相関スコアの中力も最小の相関ス コアを該バイオアイテムの相関スコアとしてもよい。なお、ここでは、合成文献数テー ブルを生成し相関スコアを計算する方法を記したが、本発明は、このような相関スコ
ァの計算方法に限定されるものではない。
[0182] ノィォアイテム全文検索器 120により解としてバイオアイテム iが抽出されると、図 10 および図 12に示すように、バイオアイテム検索システムは、解として選出された各バ ィォアイテム iにつ!/、て、位置情報データベース 106dまたは識別子情報データべ一 ス 106eを参照して、各バイオアイテム iのゲノム上の位置力 利用者により入力された インターバル (識別子の列などを含む)に存在している力否かを判断する(SD— 6)。 そして、バイオアイテムがインターバルに存在していると判断した場合には(SD— 6、 Yes)、バイオアイテム検索システムは、 SD— 9以降のステップに処理を移し、該ノ ィ ォアイテムを相関スコアに基づいて出力装置に出力する。すなわち、ここで出力され る解は、直接検索による解となる。ここで、直接検索の結果表示画面の一例を、図 24 を参照して説明する。図 24は、直接検索の結果表示画面の一例を示す図である。
[0183] 図 24に示すように、利用者は、キーワード入力欄(MD— 1)に「diabetes」を入力し 、インターバル入力欄 (MD— 2)には第「1」番染色体を指定している。この例では、 直接検索の結果の最上位には「Ptprn」が候補バイオアイテムとして挙げられており、 その相関スコア(P- value)は、相関スコア表示欄(MD— 3)に、「6.87E- 245」と出力さ れている。そして候補バイオアイテムは、相関スコアの小さいもの順に、つまり、相関 関係が高 、もの順に並べられて 、る (6.87E-245< 7.29E-217< 2.50E-103)。
[0184] 再び SD— 6の説明に戻り、図 10および図 12に示すように、解とされたバイオアイテ ムのゲノム上の位置力、インターバルに存在していないと判断した場合には(SD— 6 、 No)、バイオアイテム関係データベース 106cを参照して、当該バイオアイテムに関 連する関連バイオアイテムを抽出する(SD— 7)。
[0185] そして、バイオアイテム検索システムは、抽出された関連ノィォアイテムのうち、関 連バイオアイテムのゲノム上の位置力 利用者により入力されたインターノ レに存在 している力否力判断し、インターノ レに存在する関連ノィォアイテムについて(SD— 8、 Yes)、 SD— 9以降のステップに処理を移す。すなわち、ノィォアイテムの推論に よる解を求めることにより、利用者は、直接検索の結果力 Sインターバルを満たさない場 合でも、インターバルを満たす間接検索の解を得ることができる。
[0186] そして、バイオアイテム検索システムは、合成相関スコア算出部 102hの処理により
、当該ノィォアイテムと関連バイオアイテム間の相関スコア(共起相関スコア)と、キー ワードとバイオアイテムとの相関スコアとを合成し、新たな相関スコア (合成相関スコア
)を計算する(SD— 9)。ここで、バイオアイテム検索システムは、合成相関スコア算出 部 102hの処理による計算の結果、合成相関スコアが既定の水準を満たしていると判 断した場合 (所定の閾値以下)に、帰無仮説を否定し、該関連バイオアイテムを解と して出力するよう制御してもよい。
[0187] そして、バイオアイテム検索システムは、得られたバイオアイテム (候補バイオアイテ ム、関連バイオアイテム)群を、出力部 102iの処理により、相関スコアまたは合成相 関スコアに基づいて整列させ(SD— 10)、利用者に検索結果を表示した HTML文 書を出力する(SD— 11)。ここで、図 23は、シングルインターバルモードにおける間 接検索結果表示画面の一例である。
[0188] 図 23の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。図 23の例では、利用者は、キーワード入力欄(MC— 1)に「"diabetes mouse" 」と「insulin」を入力し、インターバル入力欄のうち、染色体番号入力欄 (MC— 2)に、 「11」を入力し、ポジション入力欄(MC— 3)に、「1」から「10000000」 (bps)を設定して いる。
[0189] 図 23の検索結果によると、関連バイオアイテム群は、キーワードとバイオアイテムの 合成相関スコア (P値)に従って並べ替え出力されており、最上位のバイオアイテム表 示欄 (MC— 4)には、候補バイオアイテム「Hypism」に関係する関係バイオアイテム「I gl pl」が表示され、合成相関スコア表示欄(MC— 5)には、「8.06E-8」と表示されて いる。
[0190] 以上が、シングルインターバルモード検索の説明である。ここでバイオアイテム関係 について説明を行う。ノィォアイテム関係とは、以下に掲げるいずれかである。
[0191] 1)一文献上で共起して!/、る 2バイオアイテムを!、1/、、 2バイオアイテム間の 2次元文 献数テーブル (「共起文献数テーブル」 )と相関スコア(「共起相関スコア」 )があらかじ め計算される。ここで、共起文献数テーブルとは、 2バイオアイテムをそれぞれバイオ アイテム 1、バイオアイテム 2とすると、 A:バイオアイテム 1の名前とバイオアイテム 2の 名前を両方含む文献数、 B:バイオアイテム 1の名前を含みバイオアイテム 2の名前を
含まな 、文献数、 C:バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む 文献数、 D:バイオアイテム 1の名前もバイオアイテム 2の名前も含まな 、文献数の A 、 B、 C、および、 Dの 4項目の値力 構成される 2次元テーブルをいう。この共起文献 テーブルを、フィッシャーの正確確率検定等の検定など統計計算を行い、共起相関 スコアとして P値を計算する。このとき、バイオアイテム関係の向きについては、 Bが 0 かつ Cが 0でな!/、ときバイオアイテム 1→バイオアイテム 2の関係のみを、 Bが 0でなく かつ Cが 0のときノィォアイテム 2→バイオアイテム 1の関係のみを、それ以外の場合 はバイオアイテム バイオアイテム 2の両方向の関係を与える。
[0192] 2)実験などから関係性が見いだされた 2バイオアイテムをいう。このとき相関スコアを P値として与える。バイオアイテム関係には向きがあっても向きがなくてもよい。すなわ ち 2バイオアイテム ilと i2について il→i2あるいは il^i2の片方向の関連性のみがあ る場合でも、 il i2の両方向の関連性があってもよい。ただし、シングルインターバル モードのバイオアイテムの推論においては、推論元のノィォアイテム io、推論先のバ ィォアイテム idとするとき、バイオアイテム関係 io→idのみが適用される。
[0193] [b.カタログセットに対するシングルインターバルモード検索]
カタログセットに対するシングルインターバルモード検索処理の例を、図 13、図 14、 および、図 21を用いて説明する。文献セットがカタログセットの場合、バイオアイテム と文献は 1対 1の関係で格納される。図 13はカタログセットに対し、シングルインター バルモードでバイオアイテムを検索する際のデータの流れを示した図である。また図 14はその動作をフローチャートとして表したものである。
[0194] 文献セットがカタログセットの場合、全文検索器 110は、全カタログ文献を有する全 文献セットを記憶する全文献セットファイル 106aを備える。全文献セットファイル 106 aには、複数のカタログセット種毎に全文献セットファイルを備えても、全てのカタログ セット種の全文献セットを集めた一つの全文献セットファイルを備えてもょ 、。全文検 索器 110は、キーワードとインターノ レを受信すると(SE—1)、全てのカタログセット( 全文献セットに相当する)に対して検索を実行し、キーワードに関連する文献を取得 する(SE— 2)。次に、全文検索器 110は、検索の結果、各文献に関連付けられてい るバイオアイテムを取得する(SE— 3)。
[0195] 文献セットがカタログセットである場合、全文検索器 110は、バイオアイテム文献セ ットを記憶していないので、制御装置は、相関スコア算出のための文献数は取得せ ず、この際のキーワードとバイオアイテムとの相関スコアは、便宜的に 0と定義され、 常に「0」を算出する。
[0196] その後、バイオアイテム検索システムの制御装置は、ゲノム領域判定部 10¾の処 理により、ヒットしたノィォアイテムがインターバルに存在しているか否かを判断する( SE-4) 0
[0197] 制御装置は、ゲノム領域判定部 10¾の処理により、バイオアイテム力 インターバ ルに存在していると判断した場合、出力部 102iの処理により、存在していると判断さ れたバイオアイテムを解として出力する(SE— 5)。ここで、図 21は、カタログセットに 対するシングルインターバルモード検索の結果表示画面の一例を示す図である。
[0198] 図 21の例は、カタログセット種マウスバイオリソースカタログを用いてミュータントマウ スを検索する例を示している。図 21に示す結果表示画面では、利用者は、キーヮー ド入力欄(MA— 1)に「diabetes」を入力しており(この例ではインターバルは指定して いない)、カタログ検索の結果における相関スコア(P-value)表示欄(MA— 2)は、 0. 00E0と出力される。
[0199] [c.マルチプルインターバルモード検索]
マルチプルインターバルモードの検索について図 15、図 16、および、図 22を参照 しながら説明する。なお、マルチプルインターバルモードの検索では、カタログセット に対してはバイオアイテムの検索は行えず、ドキュメントセットに対してのみバイオアイ テムの検索が行われる。ここで、利用者によりバイオアイテム検索システムに入力され る 2つのインターバルをそれぞれ「インターバル 1」、「インターバル 2」と呼ぶ。図 15は 、マルチプルインターバルモード検索のデータの流れを示す概念図であり、図 16は 、その動作を表すフローチャートである。
[0200] 図 15および図 16に示すように、まず、キーワードとインターバル 1およびインターバ ル 2を受信すると(SF—1)、バイオアイテム検索システムは、インターバル 1、インター バル 2それぞれについて、ドキュメントセットに対しキーワードの直接検索を行う(SF —2、 3)。すなわち、インターバル 1を満たす直接検索の解の集合をバイオアイテム
群 1として取得し、インターバル 2を満たす直接検索の解の集合をバイオアイテム群 2 として取得する。ここで、直接検索の処理内容については、上述したので説明を省略 する。
[0201] つぎに、バイオアイテム検索システムは、ノィォアイテム群 1に属するバイオアイテ ムと、バイオアイテム群 2に属するノィォアイテムとのそれぞれから構成される全ての バイオアイテムの組み合わせをバイオアイテムペアとして生成する(SF— 4)。
[0202] そして、バイオアイテム検索システムは、バイオアイテム関係データベース 106cを 参照して、一定のバイオアイテム関係 (例えば、共起相関スコアが閾値以下等)を有 するバイオアイテムペアを抽出する(SF— 5)。ここで、バイオアイテム関係は、バイオ アイテムペアを il、 i2とすると、 il→i2か il i2かあるいは il i2である力 ilと i2の 間の関係の向きは問わな 、。
[0203] そして、バイオアイテム検索システムは、抽出されたノィォアイテムペアについて、 当該 2バイオアイテムそれぞれについて算出されたキーワードとの相関スコアと、バイ ォアイテム間の共起相関スコアとを、数式 2あるいは数式 3などに基づいて合成し、新 たな相関スコア(共起キーワード相関スコア)を算出する(SF— 6)。ここで、バイオア ィテム検索システムは、共起キーワード相関スコア算出部 102mの処理による計算の 結果、共起キーワード相関スコアが既定の水準を満たすと判断した場合は、帰無仮 説は否定され、該バイオアイテムペアを解として出力するよう制御してもよ 、。
[0204] そして、バイオアイテム検索システムは、解として得られたバイオアイテムペア群を、 出力部 102iの処理により、総合相関スコア(共起キーワード相関スコア)に基づき整 列し (SF— 7)、利用者に提示(出力)する(SF— 8)。ここで、マルチプルインターバ ルモードにおける検索の結果表示画面の例を、図 22を参照して説明する。図 22は、 マルチプルインターバル検索の結果表示例を表す図である。
[0205] 図 22の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。図 22に示す例では、モード設定欄(MB— 2)はマルチプルインターバルモード ( Tmultiple intervals )に設定されており、利用者は、キーワード入力欄(MB— 1)に 「"breast cancer"」を入力し、インターバル 1入力欄(MB— 3)に染色体第「9」番の 領域(「63214874」〜「111011533」 )を、インターバル 2入力欄(MB— 4)に染色体第「
15」番の領域(「25275696」〜「92307904」 )を入力して 、る。
[0206] このように利用者による入力があった場合、図 22に示すように最上位の検索結果は 、 ノィォアイテム 1結果表示欄(MB— 5)に「Cdc25a」、バイオアイテム 2結果表示欄( MB— 6)に「Myc」が検索結果として表示されている。また、両バイオアイテムを含む( Co-cited)文献数 (Documents)表示欄(MB— 7)には、「46」件と表示されており、両 バイオアイテムの合成された相関スコア(総合 P値)表示欄(MB— 8)は、「1.43E- 131 」と表示されている。このようにマルチプルインターバルモードでは、利用者は、ゲノム 領域を考慮した、総合的に相関関係の高いバイオアイテムペアを得ることができる。
[0207] 以上で、マルチプルインターバルモードとシングルインターバルモードの 2種類の 検索法について用いて実施した例の説明を終える。
[0208] [バイオアイテム検索システムの実装例]
本発明の本実施の形態を実用的な分散型アーキテクチャに適用したバイオアイテ ム検索システムの実装例を、図 17を参照しながら説明する。本実施の形態における 本実施例においては検索機能を分散配置された複数のコンピュータ上で稼動させる 構成としたので、これらが並列に処理を進める結果、処理時間の短縮を図ることがで き、一連の検索動作が数秒から 1秒程度で完了する。ここで、図 17は、バイオアイテ ム検索システムのシステムアーキテクチャの一例を示す図である。
[0209] 図 17に示すように、本バイオアイテム検索システムは、大きく 3つのソフトウェアコン ポーネントから構成される。すなわち、本バイオアイテム検索システムは、図 17に示 すように、ユーザクライアント 500、システム管理サーバ 400、バックエンド 200から構 成される。さらに、バックエンド 200は、バックエンド管理サーバ 201と、文献数取得サ ーバ 202と、分散配置される分散文献検索サーバ 210a〜xから構成される。また、シ ステム管理サーノ 00は、バイオアイテム種 l〜n (マウス遺伝子、ヒト遺伝子、薬品、 代謝物、ノ ィオリソース、疾患等)毎に構築された複数のノックエンド 200— l〜nと 接続され、必要に応じてバックエンド間で分散並列処理が実行される。図 17におい ては、マウス用バックエンド 200— 1と薬品用バックエンド 200— nが例示されている。 ゲノム配列を持たな 、バイオアイテム、例えば薬品などはゲノム配列上の位置を持た ない仮想の遺伝子として取り扱われる。以下、本バイオアイテム検索システムの動作
手順について説明する。
[0210] (1)ユーザリクエストの送信
まず、ユーザクライアント(Webブラウザ) 500は、利用者にキーワード、インターバ ル、識別子の列等を入力させる。ここで、利用者はインターバル、あるいは識別子の 列、あるいはインターバルと識別子の列の両方を入力することができる力 以下単に「 インターバル」と記述する場合であっても、インターバル、あるいは識別子の列、ある いはインターバルと識別子の列の両方のいずれかを表す。そして、ユーザクライアン ト 500は、利用者により入力されたこれらのリクエストデータを、システム管理サーバ 4 00に送る Q
[0211] (2)バックエンドへの処理の依頼処理の発動と結果の取得
リクエストデータを受信したシステム管理サーノ 00は、リクエストを解析し、処理を 依頼すべきバックエンド 200を選択し、選択したバックエンド 200のバックエンド管理 サーバ 201にリクエストを送信する。
[0212] (3)キーワードに関連する文献数の取得処理の発動と結果の取得
そして、リクエストを受信したバックエンド管理サーバ 201は、文献数取得サーバ 20 2にキーワードを送信する。キーワードを受信した文献数取得サーバ 202は、文献数 取得用文献セット (全文献セット)群を用いて、文献セット種 1〜m毎にキーワードに関 連する文献数 (Nk)とキーワードに関連しな 、文献数 (,Nk)の組を取得し、ノ ッタエ ンド管理サーバ 201に返す。
[0213] (4)分散並列処理による文献検索処理の発動と結果の取得
そして、バックエンド管理サーバ 201は、(2)で受信したリクエストと、(3)で得た文 献数の組とを、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処 理を依頼する。
[0214] [1種類のドキュメントセットにおける分散文献サーバの動作]
ここで、文献セット種が 1種類で、かつその文献セット種がドキュメントセットである場 合のバックエンドの動作について図 17および図 19を参照しながら説明する。すなわ ち、各分散文献検索サーバ 210の動作は次の通りである。ここで、図 17は、バイオア ィテム検索システムのシステムアーキテクチャの一例を示す図である。図 19は、分散
文献検索サーバ 210のアーキテクチャの一例を示す図である。
[0215] (1)バックエンド管理サーバ 201は、インターフェース 211を介して、バックエンド管 理サーバ 201からリクエスト(キーワード、インターバル、識別子の列等)と、文献数取 得サーバ 202から得たキーワードに関連する文献数 Nkと、キーワードに関連しない 文献数, Nkの組を受信し、文献全文検索器 212に送信する。
[0216] (2)文献全文検索器 212は、バイオアイテム 1の関連文献セット (文献数を N1とする )に対し、キーワードによる全文検索を行い、ノィォアイテム 1に関係する文献数 Nhを 取得する。この文献数 Nhが 1以上のとき、アイテム領域判定器 212iは、バイオアイテ ム 1がインターバルに存在するかを調べる。
[0217] (0アイテム領域判定器 212iは、インターノ レに含まれていると判断したとき、バイオ アイテム 1を検索結果として採用し、(3)を実行する。すなわち、アイテム領域判定器 212iは、バイオアイテム 1の識別子と( 3)で得られた相関スコァ計算器 212dの処理 による、バイオアイテム 1とキーワードとの P値の組を文献全文検索器 212に送信する
[0218] GOアイテム領域判定器 212iは、バイオアイテム 1がインターバルに含まれていない と判断したとき、文献全文検索器 212は、ノィォアイテム推論器 212eを用いてバイ ォアイテム 1に関連するバイオアイテム Xを抽出し、バイオアイテム 1とバイオアイテム X 間の相関スコア P (共起相関スコア)を取得する。そして、バイオアイテム Xがインタ 一バルに存在すると判断したとき、制御装置は、バイオアイテム Xを検索結果として採 用し、相関スコア算出部 102dの処理により、バイオアイテム Xとキーワードとの相関ス コアを求め、この相関スコアと共起相関スコア力も合成 P値を合成により求める。この 合成 P値が既定の水準を下回っているとき、バイオアイテム推論器 212eは、バイオア ィテム Xの識別子と合成 P値の組を文献全文検索器 212に送信する。
[0219] ここで、バイオアイテム 1がインターバルに存在するか否かの判定において、当該バ ィォアイテムの生物種と利用者により指定された領域 (インターバル)のゲノム配列の 生物種と異なる場合であっても、ホモロジ一関係が存在する場合にはこの関係を適 用してちょい。
[0220] (3)分散文献全文検索器 212は、 Nh、 Nl、 Nk、および、,Nk ( = Nall— Nk)を
相関スコア計算器 212dに送信する。相関スコア計算器 212dは、図 3に示した文献 数テーブルを作成し、このテーブル力もフィッシャーの正確確率検定、カイ二乗検定 、または、ベイズ条件付確率等の統計計算により P値を求める。
[0221] (4)文献全文検索器 212は、(2)と(3)をその他のバイオアイテム、すなわちバイオ アイテム 2からバイオアイテム rまでについて実行する。
[0222] (5)文献全文検索器 212は、検索結果として得られたバイオアイテムと P値の組のリ ストを、インターフェース 211を介してバックエンド管理サーバ 201に返す。
[0223] ここで、マルチプルインターバルモードでの分散文献検索サーバ 210の動作につ いて、説明する。
[0224] まず、インターバル 1に存在するバイオアイテムを検索するため、上記シングルイン ターバルモードでの動作(1)、(2) (i)、(3)、(4)、(5)の順で実行する。
[0225] 次にインターバル 2に存在するバイオアイテムを検索し結果を得るため、以下に掲 げる動作を行う。
[0226] (6)インターフェース 211は、バックエンド管理サーバ 201からリクエスト、すなわち キーワード、インターバル、(5)で得られたリスト、文献数取得サーバから得たキーヮ ードに関連する文献数 Nkとキーワードに関連しない文献数, Nkの組を受信し、文 献全文検索器 212に送信する。
[0227] (7)文献検索器 212は、バイオアイテム 1、インターバル 2について(2) (0を実行す る。
[0228] (8)文献検索器 212は、(5)で得られたバイオアイテム群と当該バイオアイテムとの すべてのペアを作成する。各バイオアイテムペアにつ 、て以下を実行する。
[0229] (i)V、まペアを構成するバイオアイテムをそれぞれ g、 gとする。このペアをバイオア
1
ィテム推論器 212eに送る。
[数 1]
(ii)バイオアイテム推論器 2 1 2 eは受け取ったペアについて、 このバイオアイテムペア を構成する 2バイオアイテムに関係があるかを、 例えば共起相関スコアに基づレ、て調べる。 関係がある場合には、 バイオアイテム推論器 2 1 2 eは、 2バイオアイテム間の 2次元文 ブル Γ と相関スコア を取得する。 そして、 バイオアイテム推論器 2 1 2
[0230] [数 2]
( 9 ) 文献全文検索器 2 1 2は、 まずバイオアイテムについて (3 ) を実行しキーヮー ドとの相関スコアを計算する。 次に (8 ) で受け取った組について、 上述した数式 2また は数式 3を用いて、 総合相関スコア to/を計算する。 この総合相関スコア が既定の水 準を下回っているときノくィォアイテム Xノくィォアイテム 1、相関スコア ,。,、 、 一、
( 8 ) で受け取った組の 6つ組を解の一つとしてバックェンド管理サーバ 2 0 1に送信す る。
[0231] (10)文献全文検索器 212は、(7)、(8)、(9)をその他のバイオアイテムについて 実行する。
[0232] 以上で、分散文献検索サーバ 210の動作の実施例の説明を終える。
[0233] [1種類のカタログセットにおける分散文献サーバの動作]
文献セット種が 1種類で、かつその文献セット種がカタログセットである場合のバック エンドの動作について、図 20を参照して説明を行う。図 20は、カタログ検索用システ ムのアーキテクチャの一例を示す図である。
[0234] カタログセット用検索システムとドキュメント用検索システムとの違いは、ノックエンド 200の構成である。上記ドキュメント用検索システムで説明した手順「(1)ユーザリク ェストの送信」、「(2)バックエンドへの処理の依頼処理の発動と結果の取得」、「(5) 結果 HTMLドキュメント送信による検索結果の表示」、についてはドキュメント検索用 検索システムの手順と同様である。
[0235] (3)キーワードに関連する文献の取得処理の発動と結果の取得
文献検索サーバ 210は、キーワードに関連する文献の取得のため、キーワードに 関連する文献の取得を行う。すなわち、文献検索サーバ 210は、全てのカタログ文献 を有する全文献セットを記憶し、この文献セットに対してキーワードによる全文検索を
行い、キーワードに関連する文献を取得する。
[0236] (4)バイオアイテムの取得 (解バイオアイテムの選択)
ノックエンド管理サーバ 201は、候補バイオアイテムの選択のために、(3)で得られ た各文献に該当するバイオアイテムを、バイオアイテム関係データベース 206cを用 いて取得する。さらに、ノ ックエンド管理サーバ 201は、各バイオアイテムのために、 位置情報データベース 206dを用いて当該バイオアイテムがインターバルに存在して V、るかを調べる。ここでインターバルに存在して 、るバイオアイテムが解となる。
[0237] これにて、カタログセット検索システムのアーキテクチャの説明を終える。
[0238] [ドキュメントセット、カタログセットに対する同時検索機能]
ドキュメントセット用検索システムとカタログセット用検索システムシステムへ同時にリ タエストを発動し、これらの結果をまとめることで、ドキュメントセットとカタログセット双 方の検索システムを用いてバイオアイテム検索を行ってもよい。このとき、カタログドキ ュメント検索結果の相関スコアは常に 0であるから、利用者に表示される結果表示べ ージにお 、てはカタログの結果が常に上位にランキングされる。
[0239] [複数種類の文献セット種における分散文献サーバの動作]
文献セット種が複数種類である場合のバックエンドの動作にっ 、て説明する。この 場合、上で示したように複数のドキュメントセット検索システムと複数のカタログセット 用検索システムへ同時にリクエストを発動し、これらの結果をまとめることも可能である 力 以下に掲げる方法を用いてもよい。
[0240] ここでシングルインターバルモードでの動作を以下に説明する。リクエストと文献数 の組を受理した各分散検索サーバ 210では、該分散文献検索サーバ 210が担当す るバイオアイテム群 1〜r毎に、文献セット種 1〜m毎にキーワードに関連する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以上のバイオアイテ ムについて、以下に掲げる手続き (i)〜 (ii)を実行する。
[0241] (0分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、位置情報デ ータベースを参照し、文献数 Nhが 1以上であるバイオアイテム (候補バイオアイテム) のゲノム上の位置力 インターバル (ゲノム上の領域)に存在すると判断したとき、 (3) で得た文献数の組および Zまたは取得した文献数 Nhに基づ 、て、統計計算により
相関スコアを計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準 を下回る(所定の閾値以下)と判断すると、帰無仮説は否定され、当該バイオアイテム を解としてバックエンド管理サーバ 201に返す。
[0242] GO分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、文献数 Nh 力 Si以上であるバイオアイテム (候補バイオアイテム)が、利用者指定のインターバル に存在しな 、と判断したとき、あら力じめ文献から取得されたバイオアイテム-バイオ アイテム関係(一例として、共起相関スコアに基づくもの)を適用して、当該バイオアイ テムに関連するバイオアイテム(関連バイオアイテム)を取得する。
[0243] つぎに、分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、この関 連する各バイオアイテム(各関連ノィォアイテム)がインターバルに存在するか調査 する。分散文献検索サーバ 210は、インターバルに存在していると判断した場合には 、(3)で得た文献数の組に基づいて、統計計算により元の候補バイオアイテムの相関 スコアを求める。そして、分散文献検索サーバ 210は、更にこの相関スコアの値と該 バイオアイテム バイオアイテム関係の相関スコア(共起相関スコア)とを合成して総 合相関スコア (合成相関スコア)を算出し、当該関連バイオアイテムを解としてバック エンド管理サーバ 201に返す。
[0244] ノックエンド管理サーバ 201は、(0、 GOの処理による、すべての分散文献検索サー バ 210a〜xから検索結果 (解)を受け取り、システム管理サーノ 00に結果を返す。
[0245] 次に、マルチプルインターバルモードでの動作 (i)〜(v)を以下に説明する。 2つのィ ンターバルをそれぞれインターバル 1、インターバル 2とする。
[0246] (0バックエンド管理サーバ 201からリクエストと文献数の組を受理した文献検索サー バ 210は、担当するバイオアイテム l〜r毎に、文献セット種 l〜m毎にキーワードに 関係する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以 上のバイオアイテム (候補バイオアイテム)について、以下に掲げる手続きを実行する
[0247] GO分散文献検索サーバ 210は、当該ノィォアイテム (候補バイオアイテム)がインタ 一バル 1に存在すると判断したとき、 (3)で得た文献数の組および Zまたは取得した 文献数 Nhに基づいて、統計計算によりキーワードと該バイオアイテムとの相関スコア
を計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準 (所定の閾 値)を下回ると判断したときは、帰無仮説は否定され、当該バイオアイテム (候補バイ オアィテム)をインターバル 1に存在するバイオアイテムとしてバックエンド管理サーバ 201に返す。
[0248] そして、バックエンド管理サーバ 201は、すべての分散文献検索サーバ 210a〜x 力も検索結果 (解)を受け取り、(2)で受信したリクエスト、 (3)で得た文献数の 3つ組 を、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処理を依頼す る。各文献検索サーバ 210a〜xは以下に掲げる手続き (iii)〜(v)を実行する。
[0249] (iii)各文献検索サーバ 210は、担当するバイオアイテム l〜r毎に、文献セット種 1〜 m毎にキーワードに関係する文献数 Nhを取得する。文献セット種 l〜mのいずれか の文献数 Nhが 1以上の各バイオアイテム (各候補バイオアイテム)について、以下に 掲げる手続きを実行する。
[0250] (iv)各文献検索サーバ 210は、当該バイオアイテム (候補バイオアイテム)がインタ 一バル 2に存在すると判断したとき、(3)で得た文献数の組に基づいて、統計計算に よりキーワードと該バイオアイテムとの相関スコアを計算する。この相関スコアが既定 の有意水準 (所定の閾値)を下回るとき、 (V)を実行する。
[0251] (V)各文献検索サーバ 210は、インターノ レ 1に存在するノィォアイテムと当該バイ ォアイテムとのすべてのペアを生成する。このうち、あらかじめ文献から取得した (バイ ォアイテム関係データベースに記憶された)バイオアイテムーノィォアイテム関係を 持つペアを、共起関係に基づいて選抜する。さらに、選抜された各バイオアイテムぺ ァについて相関スコアを、(iv)で求めた相関スコアと、バイオアイテム バイオアイテ ム関係の相関スコア(共起相関スコア)と、を合成して算出する。この相関スコアが既 定の有意水準 (所定の閾値)を下回るバイオアイテムペアをバックエンド管理サーバ 2 01に返す。
[0252] ノックエンド管理サーバ 201は、(i)〜(v)の処理による、すべての分散文献検索サー バ 210a〜xから検索結果を受け取った後、これらの検索結果をシステム管理サーバ 400に返す。
[0253] (5)結果 HTMLドキュメント送信による検索結果の表示
以上の(4)を実行後、システム管理サーノ 00は、選択したすべてのバックエンド 管理サーバ 201から検索結果を受け取り、検索結果を解バイオアイテム毎にまとめ 上げる。このとき、検索結果である各解バイオアイテム (候補バイオアイテムまたは関 連バイオアイテム)について、一般には複数の解が得られる(キーワードから解バイオ アイテムに達するまでに経由する候補バイオアイテムが複数得られる)。このうち最も 総合相関スコアの小さい解を該バイオアイテムの解とする。次に、システム管理サー ノ 00は、得られた解リストを相関スコアの小さい順にソートし、さらにこの結果を HT MLドキュメントに変換してユーザクライアント 500に返す。
[0254] ここで、本実施例につ!、ての本システムは Webサービスとして実装されて!、てもよ い。すなわち、システム管理サーノ 00は Webサーバとして実装され、インターネット を介してユーザクライアント 500である Webブラウザからリクエストを受理し、結果を H TMLドキュメント形式で送信するように構成してもよい。また、ここで、上述した本実 施例における Webサーバからクライアント 500に対して送信された処理結果の Web ブラウザにおける表示例を要約する。
[0255] 以下、図 21〜図 29に示す例は、いずれも Intel (登録商標)社製 Xeon (商品名) 3 . 6GHzの CPUと 2GBのメモリとを備えた分散型ワークステーションを、 20台用いて 実行させたものである。
[0256] ここでの実施例にお!、て用いた検索対象バイオアイテムは、マウス遺伝子、ヒト遺伝 子、代謝物、薬品、疾患名、マウスミュータントである。各バイオアイテム数は、マウス 遺伝子 58,237件、ヒト遺伝子 22,707件、代謝物 9,350件、薬品 1,015件、疾患名 1,884 件、マウスミュータント 12,280件である。
[0257] さらに、ここで用いた文献セット種は、 MEDLINE、 PPI、ミュータントマウスカタログ 、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ 、疾患名カタログである。本バイオアイテム検索装置の入力として用いた各文献セット 種の文献数は、それぞれ MEDLINE 16,335,424件、 PPI 22,476件、ミュータントマ ウスカタログ 12,28(H 、 OMIM 17,974件、マウス遺伝子カタログ 58,237件、ヒト遺 伝子カタログ 22,707件、代謝物カタログ 9,350件、薬品カタログ 1,015件、疾患名 カタログ 1,884件である。
[0258] また、この実施例において用いた各文献セット種の文献数については、文献全文 検索器 212に格納されている文献の総数 (各バイオアイテム毎にまとめられた文献セ ットに含まれる文献数の合計)は、文献セット種毎にそれぞれ MEDLINE 16,112,25 6件、 PPI 87,288件、ミュータントマウスカタログ 27,035件、 OMIM 23,023件、マウ ス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350 件、薬品カタログ 1,015件、疾患名カタログ 1,884件である。また、文献全文検索器 204に格納されている各文献セット種の文献数は、それぞれ MEDLINE 6,940,248 件、 PPI 22,476件、ミュータントマウスカタログ 12,280件、 OMIM 14,451件、マウ ス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350件 、薬品カタログ 1,015件、疾患名カタログ 1,884件である。
[0259] すなわち、図 21はシングルインターバルモードにおけるカタログ検索結果表示画面 の一例で、文献セット種ミュータントマウスカタログを用いてミュータントマウスを検索 する例を示している。この例では、 52個の解が得られ、検索に要した時間は 0.109秒 であった。
[0260] また、図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画 面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。この例では、 13個の解が得られ、検索に要した時間は 2.045秒であった。
[0261] また、図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示 画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示し ている。この例では、 5個の解が得られ、検索に要した時間は 0.858秒であった。
[0262] また、図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示 画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示し ている。この例では、 9個の解が得られ、検索に要した時間は 0.858秒であった。
[0263] また、図 25は、シングルインターバルモード(ただしインターバルを指定しな!、)に おける複数の文献セット種を用いた直接検索結果表示画面の一例で、文献セット種 MEDLINE, PPI、ミュータントマウスカタログ、 OMIM,マウス遺伝子カタログ、ヒト 遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝 子、ヒト遺伝子、代謝物、薬品、ミュータントマウス、疾患を検索する例を示す図である
。この例では、 8,371個の解が得られ、検索に要した時間は 3.41秒であった。
[0264] また、図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、 直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代 謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例を 示す図である。この例では、 5,438個の解が得られ、検索に要した時間は 1.902秒であ る。
[0265] また、図 27は、シングルインターバルモードにおける複数の文献セット種を用いた 直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代 謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例で キーワードとしてヒト遺伝子の識別子力も構成されるブール論理式を用いた例を示す 図である。図 27に示すように、ヒト遺伝子の識別子として「HGNC:2744」と「HGNC:28 040」が入力されている。この例では、 15個の解が得られ、検索に要した時間は 1.468 秒であった。
[0266] また、図 28は、シングルインターバルモードにおける識別子の列を指定して複数の 文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例で、文献セ ット種 MEDLINE、 PPI、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ 、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス 遺伝子を検索する例を示す図である。図 28に示すように、識別子の列として「MGI:99 454,MGI:96575」が利用者により入力されている。この例では、 2個の解が得られ、検 索に要した時間は 0.736秒であった。
[0267] また、図 29は、マルチプルインターバルモードにおける複数の文献セット種を用い た検索結果表示画面の一例で、文献セット種 MEDLINE、 PPI、ミュータントマウス力 タログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、疾患名カタログを用いて マウス遺伝子を検索する例を示す図である。この例では、 17個の解が得られ、検索 に要した時間は 1.928秒であった。
[0268] [文献数取得サーバ]
文献数取得サーバ 202のアーキテクチャについて、図 18を用いて説明する。図 18 は、文献数取得サーバのアーキテクチャの一例を示す図である。
[0269] 図 18に示すように、文献数取得サーバ 202は、インターフェース 203と文献全文検 索器 204を備える。文献全文検索器 204は、文献セット種 l〜m毎にバイオアイテム 文献セットに関連する全ての文献を収集した文献セット (全文献セット:少なくとも 1つ のバイオアイテムに関連付けられて!/、る全ての文献の集合)群を記憶する全文献セッ トファイルを備える。この全文献セットに対してキーワードによる全文検索を行うことに より、文献セット種 l〜m毎に、キーワードに関連する文献数 Nkと関連しない文献数 ,Nkとを取得する。ここで、全文献セットファイルの形式については、好適には Apac he Lucene (商標)のインデックス形式が望まし!/、が、本発明はこのファイル形式を制 限するものではない。
[0270] [分散文献検索サーバ]
次に分散文献検索サーバ 210のアーキテクチャについて、図 19を参照して説明す る。図 19は、分散文献検索サーバ 210のアーキテクチャの一例を示す図である。
[0271] 分散文献検索サーバ 210は、 5つのコンポーネント、すなわちインターフェース 211 、文献全文検索器 212、アイテム領域判定器 212i、相関スコア計算器 212d、および 、 ノィォアイテム推論器 212e、 ノィォアイテム名テーブル 212fから構成される。
[0272] そして、分散文献検索サーバ 210は、当該バイオアイテム文献セットを分散文献検 索サーバ 210a〜xの数で均等分割された各バイオアイテム文献セット群を記憶する ノィォアイテム文献セットファイルを備える。すなわち、文献全文検索器 212には、割 り当てられたバイオアイテム文献セットのバイオアイテム l〜r毎に、関連文献のセット (バイオアイテム文献セット)群が配置されている。このとき、関連する文献群は、図 19 に示されているように文献セット種毎にまとめられて配置される。ここで、バイオアイテ ム文献セットファイルの形式については、好適には Apache Lucene (商標)のインデッ タス形式が望ましいが、本発明はこのファイル形式を制限するものではない。
[0273] また、バイオアイテム推論器 212eには、 2バイオアイテム間の関係データが格納さ れたデータベース(バイオアイテム関係データベース)テーブルが備わって 、る。 2バ ィォアイテム間の関係には、以下の 2種類 A)と B)が存在する。
[0274] A)文献上の共起関係から抽出される関係
2つのバイオアイテムの名前が一文献上に共存していることを、文献上で 2バイオア ィテムが共起して 、ると 、う。このような共起関係力も抽出された 2バイオアイテムにつ いて、 2次元文献数テーブルと相関スコア(共起関係相関スコア)がそれぞれ文献セ ット種 l〜m毎にあら力じめ計算され、データベース化される。ここで、 2次元文献数テ 一ブルとは、該 2バイオアイテムをそれぞれバイオアイテム 1、バイオアイテム 2とする と、 a :バイオアイテム 1の名前とバイオアイテム 2の名前を両方含む文献数、 b :バイオ アイテム 1の名前を含みバイオアイテム 2の名前を含まな 、文献数、 c:バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む文献数、 d:バイオアイテム 1の名前 もバイオアイテム 2の名前も含まない文献数の a、 b、 c、および、 dの値から構成される 2次元文献数テーブルをいう。また、共起関係相関スコアは、 2次元文献数テーブル をフィッシャーの正確確率検定により検定を行うことにより算出される P値である。
[0275] B)実験など文献共起以外の方法で抽出される関係
2つのバイオアイテムの関係に相関スコア(共起関係相関スコア)として P値を与え てデータベース化する。このとき 2次元文献数テーブルは定義されな 、。
[0276] ここで、シングルインターバルモードでの動作の場合、各分散文献検索サーバ 210 の動作は次の通りである。
[0277] ·シングルインターバルモードでの動作
[数 3]
( 1 ) ィンターフェ一ス 2 1 1は、 パックェンド管理サーバ 2 0 1からリクエス ト (キ 一ワード、 インターバル等) と、 文書数取得サーバ 2 0 2から得た各種文献セット (1≤ i ≤m)のキーヮードに関連する文献数 ( 1≤ i ≤m)とキーヮードに関連しない文献数
,nk d' ( l≤ i n との組〈 ,→^'〉を受信し、 文献全文検索器 2 1 2に送信する。
[0278] (2)文献全文検索器 212は、例えばバイオアイテム 1 (g.と表す。 )について、次の(
3)、(4)、(5)の動作を行う。
[0279] [数 4]
(3) まず、 文献全文検索器 2 1 2は、 文献セッ ト種 l (d ,と表す。 ;)のバイオアイテム 1関連文献 (バイオアイテム 1のバイオアイテム文献セット) 群 (文献数を?^'とする)に対 し、キーワードによる全文検索を行い、 ヒットする文献数 を取得する。 この文献数 が
1以上のとき、 6つ組〈" , ," ,," 〉を相関スコア計算器 2 1 2 dに送信し、 (8) を実 行して 2次元文献数テーブル: T」Siと相関スコア ^ g|を求め、 3っ組く :?^,/^^を生成 する。
[0280] (4)文献全文検索器 212は、(3)を他の文献セット種、すなわち文献セット種 2から 文献セット種 mにつ 、て実行する。
[0281] [数 5]
(5) 文献全文検索器 2 1 2は、 (3)、 (4) で得られた各種文献セット 1〜mについて の相関スコア尸 ,--,P m の最小値を計算し、これをキーワードとバイオアイテム 1との 相関スコア/^ ^とする。 Pk—g が既定の水準 (所定の閾値) を下回っているとき、 バイオア ィテム領域判定器 2 1 2iを用いてバイオアイテム 1がインターバルに含まれているかを調 ベ、 以下の (i) · (ii) を実行する。
(L直接検索) インターバルに含まれているとき、 バイオアイテム 1を検索結果として採 用し、 バイオアイテム 1、 相関スコア ff 、 ( 3 ) と ( 4 ) で得られた 3つ組 ≤ i ≤m)のリストから構成される組を解の
一^ 3として記憶装置 (メモ リ) 上に保持する。
(ii.推論検索) インターバルに含まれていないとき、 バイオアイテム推論 2 1 2 eを用 いてバイオアイテム 1に関連するバイオアイテム群 X ·· Xq (これらをそれぞれ •• ' gf と表す。 )を得る。 各バイオアイテム x,(l≤ i ≤ q)について、 バイオアイテム領域判定器 2 1 2iを用いてインタ一バルに含まれているバイオアイテムを選出する。 選出された各バ ィォアイテム xiについて (6)、 (7) を実行する。 ここで、バイオアイテムがインターバルに存在するか否かの判定において、該バイ ォアイテムが薬品など位置を持たな 、バイオアイテムセットに属して 、る場合には、 常にインターバルに存在するものとして処理される。また、該バイオアイテムの生物種
と利用者により指定された領域 (インターバル)のゲノム配列の生物種とが異なる場合 でも、ホモロジ一関係が存在する場合にはこのホモロジ一関係を適用する。さらには
、利用者の指示により、バイオアイテム 1がインターバルに含まれているときであって も (ii)を実行させることもできる。
[数 6] また、 利用者の指示により、 キーワードとバイオアイテム 1との相関スコア ^ S|を、 各 文献セット種 1〜! nの文献数テーブル 7 > - - - k dm のいずれかあるいは全ての文献数テー ブルを合成して新たな文献数テーブルを生成し、 この文献数テーブルを用いて、 統計計算 に基づいてバイオアイテムとキーワードとの相! ¾スコアを算出してもよい。 すなわち、 上 記 (3 )、 (4 ) により文献セット種 l〜m毎に図 2に示す文献数テーブル ,- - - , Ttm 力'; 作成されるが、 各文献セット種 l〜mの文献数テーブル Γ , · · · ,Τά"' の項 aを全て足し合 わせた値 A、 項 bを全て足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し 合わせた値 Dから構成される新たな文献数テーブル (図 2において aに値 A、 bに値 B、 c に値 C、 dに値 Dを代入したテーブル) を生成してもよレ、。 このようにして構成される文 献数テーブルを、 以下、 合成文献数テーブルと呼ぶ。
あるいは、 合成文献数テーブル作成の対象となる文献セット種を l〜m の中から任意に 1 つ以上選び出し、 合成文献数テーブルを生成し、 これを用いてバイオアイテムとキーヮー ドとの相関スコアを算出し、 さらに合成文献数テーブル作成の対象とならない各文献セッ ト種のそれぞれについて、 文献数テーブルからバイオアイテムとキーヮ一ドとの相関スコ ァを算出し、 これらの相関スコアの中から最小の相関スコアを該バイオアイテムの相関ス コア Pk_„ としてもよい。 [数 7]
(( 66 )) ババイイオオアアイイテテムム 11にに関関連連すするるババイイオオアアイイテテムムののううちちのの一一つつババイイオオアアイイテテムム X, ((ここ れれをを とと表表すす))ににつついいてて、、ババイイオオアアイイテテムム推推論論器器 22 11 22 eeをを用用いいてて以以下下にに記記すす方方法法にに従従レレ、、、、 ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム 間間のの相相関関ススココアアとと 22次次元元文文献献数数テテーーブブルルをを取取得得すするる,, ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム ^^ととのの関関連連がが文文献献上上のの共共起起にによよりり得得らられれてていいるる場場合合にに はは、、 すすべべててのの該該文文献献セセッットト (( 11≤≤ ii ≤≤mm)) のの 22次次元元文文献献数数テテーーブブルル 77^^ とと相相関関ススココァァ PP ;;__
gg をを取取得得しし 33つつ組組 をを生生成成しし、、 そそううででなないい場場合合ににはは相相関関ススココアア//^^しし
( 1≤ j ≤ s , sは文献上の共起ではなく実験などから見出されたバイオアイテム関係 e .. の数)を取得し、 3つ組〈 , ^を生成する。 ここで は空の文献数テーブルを表す。 このようにして得たすべての相関スコア/^し g ( 1≤ i ≤m) , Pg e;_g ( l≤ j ≤ s ) の最 小値を計算し、 この値をバイオアイテム 1とバイオアイテム X,間の相関スコア ρ „ とす る。 8]
また、 利用者の指示により、 相関スコア/^ _ の算出において、 バイオアイテム 1とバ ィォアイテム; との相関スコア/1 を、 各文献セッ ト種 l〜mの文献数テーブル τ ' ,···,τά· のいずれかあるいは全ての文献数テーブルを合成して新たな文献数テ 一ブルを生成し、 この文献数テーブルを用いて、 統計計算に基づいてバイオアイテムとキ ーヮードとの相関スコアを算出してもよい。すなわち、文献セット種 l〜m毎に下記の図 3 1に示す文献数テーブル ' ,--- d" が作成されるが、各文献セット種 l〜mの文献数テ 一ブル/—' ,· · ''Τ. " の項 aを全て足し合わせた値 Α、 項 bを全て足し合わせた値 Β、 項 c を全て足し合わせた値 C、 項 dを全て足し合わせた値 Dから構成される新たな合成文献数 テーブル (図 3 1において aに値 A、 bに値 B、 cに値 C、 dに値 Dを代入したテーブル) を生成してもよい。 この合成文献数テーブルから算出された相関スコアと、 文献上の共起 ではなく実験などから見出されたバイオアイテム関係の相関スコア/^ , ( 1≤ j ≤ s ) の最小値を計算し、 この値をバイオアイテム 1とバイオアイテム 間の相関スコア/^ _ とする。
[数 9] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜mの中 から任意に 1 つ以上選び出し、 合成文献数テーブルを生成し、 これを用いてバイオアイテ ムとキ一ワードとの相関スコアを算出し、 さらに合成文献数テーブル作成の対象とならな い各文献セット種のそれぞれについて、 文献数テーブルからバイオアイテムとキーワード との相関スコアを算出し、 これらの相関スコアと文献上の共起ではなく実験などから見出 されたバイオアイテム関係の相関スコア i ^ ( 1≤ j≤ s ) の最小値を計算し、 この値 をバイオアイテム 1とバイオアイテム 間の相関スコア としてもよい。 ここで、図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を 示す図である。図 32に示すように、文献数テーブルは、 a)バイオアイテム 1を含み且 つバイオアイテム 2名を含む文献の数、 b)バイオアイテム 1を含まず且つバイオアイ テム 2名を含む文献の数、 c)バイオアイテム 1を含み且つバイオアイテム 2名を含まな い文献の数、および、 d)バイオアイテム 1を含まず且つバイオアイテム 2名を含まない
文献の数、の 4つの項目 a)〜d)のうち少なくとも一つ力も構成される。ここで、図 33は 、ユーザクライアント 500である Webブラウザ上で上記(5)、 (6)における合成文献数 テーブルの作成の方法を利用者が指定する例を示した図である。
[0285] 図 33右図に示すように、(5)でキーワードとマウス遺伝子の関連付けに用いる文献 セット種の選択タブ(MEDLINE選択タブ MK— 3、 PPI選択タブ MK— 4、 mouse m utant選択タブ MK— 5、 mouse gene record選択タブ MK— 6)が表示される。すな わち、(5)における合成文献数テーブルの作成方法については、各文献セット種に ついて、 weak, strong, none (図には表示されていない)の 3種類の方法から選択でき る。ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次 元文献数テーブルから合成文献数テーブルが作成される。また、 strongが設定され た文献セット種については、該文献セット種の(3)で得られるキーワードにヒットする 文献数 n力^以上であるとき、該文献セット種のキーワードとバイオアイテムとの相関 h
スコアが 0に設定される。このように、 strongに設定された文献セット種に対しては、力 タログセットに対する文献サーバの動作と同様の効果を奏し、ドキュメントセットとカタ ログセットとを同時に検索する機能が実現される。また、 noneが設定された文献セット 種については、検索対象の文献セット種から除外される。
[0286] また、図 33左図に示すように、(6)で用いるマウス遺伝子—マウス遺伝子間関係を 指定する例が示されている。すなわち、図 33左図に示すように、文献上の共起関係 力も抽出されたマウス遺伝子—マウス遺伝子間の関係について、該文献セット種の 選択タブ(PPI選択タブ MK— 1、 MEDLINE選択タブ MK— 2)が表示される。すな わち、(6)における合成文献数テーブルの作成方法については、文献セット種につ いて、 weak、 strong, none (図には表示されていない)の 3種類の方法から選択できる。 ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次元文 献数テーブルから合成文献数テーブルが作成される。また、 strongが設定された文 献セット種については、共起する文献が 1つ以上存在するとき、該文献セット種の該 2 バイオアイテム間の相関スコアが 0に設定される。また、 noneが設定された文献セット 種については、検索対象の文献セット種から除外される。このように、利用者が各文 献セット種の各種選択を行うことにより、図 30や図 31で示すような検索表示結果を得
ることができる。ここで、図 30は、図 33の条件でヒットした、キーワード diabetesとマウス 遺伝子 Rradとの関連文献の詳細を表示した例を示し、図 31はマウス遺伝子 Insrとマ ウス遺伝子 Irslの間の関連文献の詳細を表示した例を示した図である。
[0287] [数 10]
(7) 相関スコア/^と Pg,_g とを相関スコア計算器 2 1 2 dに送信し (9) を実行し、 総合相関スコア/;。, a/を得る。 ここで得られた総合相関スコア ,。,が既定の水準を下回って いるとき、 バイオアイテム xi、 バイオアイテム 1、 相関スコア ,。,、 Pk—g、 、 尸 — 、 (6) で得られたすべての 3つ組のリストから構成される 6つ組を解の一つとして記憶装置 (メ モリ) 上に保持する。
[0288] [数 11]
(8) 相関スコア計算器 2 1 2 dは、 文献全文検索器 2 1 2から 4つ組^ Λ' ', ク を受信する。 そして、 相関スコア計算器 2 1 2 dは、 下記の表 1に示す 2次元文献数テ一 ブルを作成し、 この表 1からフィッシャーの正確確率検定を適用し P値を求める。 求めら れた P値と 2次元文献数テーブルの組を文献全文検索器 2 1 2に返す。
[表 1]
相関スコア計算用 2次元文献数テーブル
[0289] [数 12]
(9)相関スコア計算器 2 1 2 dは、文献全文検索器 2 1 2から相関スコア/^ e と Pe e を受信し、 相関スコア計算器 2 1 2は総合相関スコア , =1— (1— Α^χΐ -尸 を計 算し、 この値を文献全文検索器 2 1 2に返す。
[0290] そして、(6)、(7)、(8)をバイオアイテム 1に関連するその他のバイオアイテムにつ いて実行する。
[0291] (10)分散文献検索サーバ 210は、(2)をその他のバイオアイテム、すなわちバイオ アイテム 2からバイオアイテム rにつ 、て実行する。
[0292] (11)分散文献検索サーバ 210は、記憶装置 (メモリ)上に保持されたすベての解を 、インターフェース 211を介してバックエンド管理サーバ 201に返す。
[0293] ここで、マルチプルインターバルモードでの動作の場合、各分散文献検索サーバ 2 10の動作は次の通りである。
[0294] ·マルチプルインターバルモードでの動作
まず、分散文献検索サーバ 210は、インターノ レ 1に存在するノィォアイテムを検 索するため、上記シングルインターバルモードでの動作(1)、 (2)、 (3)、 (4)、 (5) (i) の順に実行し、得られた解を、インターフェース 211を介してバックエンド管理サーバ 201に返す。次に、ノ ックエンド管理サーバ 201は、すべての分散文献検索サーバ 2 10a〜xから返された解をまとめ上げ、解リスト Lを生成する。
[0295] つぎに、バックエンド管理サーバ 201は、インターバル 2に存在するバイオアイテム を検索し結果を得るため、各分散文献検索サーバ 210a〜xに解リスト Lを含むリクェ ストを送信する。文献全文検索器 212は以下に掲げる動作を行う。
[0296] [数 13]
( 1 2 ) まず、 ィンターフェース 2 1 1は、 バックェンド管理サーバ 2 0 1からリクェ ス ト、 すなわちキーワード、 インターバル、 識別子の列、 文書数取得サーバ 2 0 2から得 た各文献セット種 d , ( 1≤ i ≤m)のキーヮードに関連する文献数 ' ( 1≤ i ≤m)とキー ワードに関連しない文献数" ^"' ( 1≤ i ≤m)との組を受信し、 文献全文検索器 2 1 2に送 信する。
[0297] (13)文献全文検索器 212は、ノィォアイテム 1、インターノ レ 2について、(3)、 (4 )、および (5) (0を実行する。バイオアイテム 1が解であるとき、(14)を実行する。
[0298] (14)文献全文検索器 212は、解リスト Lの各解バイオアイテムとバイオアイテム 1か ら構成できる全てのノィォアイテムペアを作成する。各バイオアイテムペアにつ!、て 以下の (a)および (b)を実行する。
(a) いま、バイオアイテムペアの一つについて、このバイオアイテムペアを構成するバ
ィォアイテムをそれぞれ g、 gとする。このノィォアイテムペアをバイオアイテム推論
1
器 212eに送り、 g、 gに関係があるかを調べる。
1
(b) (a)の結果、 g、 gの間に関係があった場合には、(15)を実行する。
1
(c) (a)を他のノィォアイテムペアについても実行する。
[0299] [数 14]
( 1 5 )文献全文検索器 2 1 2は、バイオアイテム 1 ( と表す)とバイオアイテム X ( gx と表す) について (6 ) を実行し、 これらの間の相関スコア Pg g,を得る。 いま、 キ―ヮ一 ドとバイオアイテム 1の相関スコアを „ 、 キーワードとバイオアイテム Xの相関スコア を Pk—g とする。 3つ組〈g,,^, — gt〉を相関スコア計算機 2 1 2 dに送信し、 (1 6 ) を実 行して総合相関スコア ^^を得る。 この総合相関スコア^^が既定の水準を下冋つている とき、バイオアイテム 1、バイオアイテム 、相関スコア 。,、 Pk—g P 、 Pg g, ( 6 ) で得られたすべての 3つ組のリストから構成される 7つ組を解の一つとして記憶装置 (メ モリ) 上に保持する。
[0300] [数 15]
( 1 6 ) 相関スコア計算器 2 1 2 dは、 文献全文検索器 2 1 2から 3つ組〈 , ,/ ^一 ) を受信する。 相関スコア計算器 2 1 2 dは総合相関スコア
P,ala, = Min(l— (1 Pk_gi )(1― Pg> _gx ),1— (1 Pk—g' )(1― — ))を計算し、文献全文検索器 2 1 2に返す。 ここで Min(a,b)は a、 bのうち大きくない方の値を返す関数である。
[0301] ( 17)分散文献検索サーバ 210は、(13)をその他のバイオアイテム、すなわちバイ ォアイテム 2からバイオアイテム rにつ 、て実行する。
[0302] ( 18)分散文献検索サーバ 210は、記憶装置 (メモリ)上に保持されたすベての解を
、インターフェース 21 1を介してバックエンド管理サーバ 201に返す。
[0303] [ヒットした文献数のより詳細な解析]
ヒットした文献数のより詳細な解析について、先に示した図 8を用いて説明を行う。 シングルインターバルモードの推論検索の解、マルチプルインターバルモードの解に
ついては、 2つのバイオアイテムにそれらの間の関係が与えられ、これら 2バイオアイ テムと 2バイオアイテム間の関係の三者それぞれについて(3)、(4)、(6)で得られる 文献セット、相関スコア、 2次元文献数テーブル力も構成される 3つ組のリストが存在 する。いま、文献セット d (l≤i≤m)について、三者すベての 2次元文献数テーブルが 存在するとき、図 8に掲げる 3次元文献数テーブルが構成できる。
[0304] 分散文献検索サーバ 210にはこの 3次元文献数テーブルを実現するための機能が 備わっている。以下詳細な動作を記す。なお、以下使用する変数 a、 b、 c、 d、 e、 f、 g 、 h、 i、 j、 k、 m、 s、 t、 u、 v、 w、 x、 y、および、 ζίま、図 8の各変数【こ対応して!/ヽる。
[0305] (1)インターフェース 211はバックエンド管理サーバ 201から解の一つとキーワード を受信し、文献全文検索器 212に送信する。
[0306] (2)文献全文検索器 212は、バイオアイテム名テーブル 212fからバイオアイテム 2 の名前を取得する。
[0307] (3)文献全文検索器 212は、解を構成するバイオアイテム 1、ノィォアイテム 2、バ ィォアイテム間の関係の三者について、文献セット、相関スコア、 2次元文献数テー ブル力も構成される 3つ組のリストを取得する。このとき、三者すベての 3つ組に 2次 元文献数テーブルが存在するようなすべての文献セットを取得する。取得した各文 献セット dにつ 、て (4)を実行する。
[0308] (4)文献全文検索器 212は、文献セット dのバイオアイテム 1関連文献セット (バイオ アイテム 1のノィォアイテム文献セット)群に対し、キーワードかつバイオアイテム 2の 名前を含む文献を検索し、該文献数を得て sとする。さら〖こ、文献セット dのそれぞれ キーワードとバイオアイテム 1の 2次元文献数テーブルを a)、 b)、 c)、および、 d)、キ 一ワードとバイオアイテム 2の 2次元文献数テーブルを e)、 f)、 g)、および、 h)、バイ ォアイテム 1とバイオアイテム 2の 2次元文献数テーブルを i)、 j)、 k)、および、 m)とす るとさ、 w=a— s、 u = e— s、 t = i— s、 v=f— 、 x = k— w、 y = c— u、 ζ = α— v それ ぞれ計算し、図 8に示す 3次元の文献数テーブルを生成する。
[0309] (5)文献全文検索器 212は、(1)で受け取った解と、(4)で受け取った 3次元文献 数テーブル群との組を生成し、インターフェース 211を介して、バックエンド管理サー ノ 201に返す。以上で、ヒットした文献数のより詳細な解析の説明を終える。
[0310] [概念語導入の効果]
また、バイオアイテム名のみ力 構成されるバイオアイテムクエリで P値を計算した場 合、ヒットしたバイオアイテムのランキングが不正確であつたが、概念語を導入したバ ィォアイテムクエリで P値を計算してもよぐこの場合、ランキング結果の精度が大幅に 改善される。
[0311] [他の実施の形態]
さて、これまで本発明の実施の形態について説明した力 本発明は、上述した実施 の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種 々の異なる実施の形態にて実施されてよいものである。
[0312] また、本発明を文献フォルダの検索に用いる場合を説明する。例えば、文献フオル ダのパス名として、
/home/ document/ diabetes/
があり、その文献フォルダ内に 3つの文献がそれぞれ下記のファイルパス名でフアイ ルとして存在する場合、これらの文献のファイルパス名はすべて該文献フォルダのパ ス名を含むため、該文献フォルダのパス名をバイオアイテム名にして本発明の方法を 適用させることで、これら文献を有する文献セットを、該文献フォルダのバイオアイテ ム文献セットとして作成することができる。
/home/ document/ diabetes/ patient 1
/home/ document/ diabetes/ patient2
/home/ document/ diabetes/ patient3
[0313] また、上述の実施の形態では、バイオアイテム検索装置 100が主にスタンドアロー ンの形態で処理を行う場合を一例に説明した力 実施例で示したようにバイオアイテ ム検索装置 100とは別筐体で構成される他の端末装置からの要求に応じて処理を行 い、その処理結果を当該クライアント端末に返却するように構成してもよい。図 34は、 バイオアイテム検索端末装置 600の構成の一例を示すブロック図である。
[0314] すなわち、図 34に示すように、バイオアイテム検索端末装置 600は、ネットワーク 30 0を介して、バイオアイテム検索装置 100と相互に接続され、少なくとも制御部 602と 入力部 612と出力部 614を備えて構成される。
[0315] ノィォアイテム検索端末装置 600は、入力制御部 602aの処理により、利用者に、 入力部 612を介してキーワードやゲノム領域情報や識別子情報を入力させるよう制 御し、送信部 602bの処理により、当該キーワード等をバイオアイテム検索装置 100 に送信し、受信出力部 602cの処理により、バイオアイテム検索装置 100から出力さ れた、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相関スコア を受信し、出力部 612に出力するよう構成される。ここで、図 35は、バイオアイテム検 索端末装置 600の処理の一例を示すフローチャートである。
[0316] 図 35に示すように、まず、バイオアイテム検索端末装置 600は、入力制御部 602a の処理により、入出力インターフェース部 608を制御して、入力部 612を介して、利 用者にキーワードやゲノム領域情報や識別子情報等の利用者入力情報を入力させ るよう制御する(SG— 1)。
[0317] そして、バイオアイテム検索端末装置 600は、送信部 602bの処理により、通信制 御インターフェース部 604を制御して、キーワード等の利用者入力情報をバイオアイ テム検索装置 100に送信する(SG— 2)。
[0318] そして、バイオアイテム検索端末装置 600は、受信出力部 602cの処理により、通信 制御インターフェース部 604を制御して、バイオアイテム検索装置 100から出力され た、候補バイオアイテム、関連ノィォアイテム、または、共起キーワード相関スコア等 を受信する(SG— 3)。
[0319] そして、バイオアイテム検索端末装置 600は、候補バイオアイテムまたは関連ノ ィ ォアイテムを、対応する相関スコア等に基づいて、出力部 612に出力するよう入出力 制御インターフェース部 608を制御する(SG— 4)。以上が、本発明をクライアント端 末 (バイオアイテム検索端末装置 600)に適用した場合の他の実施の形態である。
[0320] また、実施の形態において説明した各処理のうち、自動的に行われるものとして説 明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われ るものとして説明した処理の全部または一部を公知の方法で自動的に行うこともでき る。
[0321] このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処 理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成
につ 、ては、特記する場合を除 、て任意に変更することができる。
[0322] また、バイオアイテム検索装置 100に関して、図示の各構成要素は機能概略的なも のであり、必ずしも物理的に図示の如く構成されて 、ることを要しな 、。
[0323] 例えば、バイオアイテム検索装置 100の各装置が備える処理機能、特に制御部 10 2にて行われる各処理機能については、その全部または任意の一部を、 CPU (Cent ral Processing Unit)および当該 CPUにて解釈実行されるプログラムにて実現す ることができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可 能である。尚、プログラムは、後述する記録媒体に記録されており、必要に応じてバイ ォアイテム検索装置 100に機械的に読み取られる。すなわち、 ROMまたは HDなど の記憶部 106などは、 OS (Operating System)として協働して CPUに命令を与え 、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータ プログラムは、 RAMにロードされることによって実行され、 CPUと協働して制御部を 構成する。
[0324] また、このコンピュータプログラムは、バイオアイテム検索装置 100に対して任意の ネットワーク 300を介して接続されたアプリケーションプログラムサーバに記憶されて いてもよぐ必要に応じてその全部または一部をダウンロードすることも可能である。
[0325] また、本発明に係る方法をコンピュータに実行させるプログラムを、コンピュータ読 み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキ シブルディスク、光磁気ディスク、 ROM, EPROMゝ EEPROM、 CD-ROM, MO 、 DVD等の任意の「可搬用の物理媒体」、あるいは、 LAN, WAN,インターネットに 代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のよ うに、短期にプログラムを保持する「通信媒体」を含むものとする。
[0326] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法で あり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずし も単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構 成されるものや、 OS (Operating System)に代表される別個のプログラムと協働し てその機能を達成するものをも含む。なお、実施の形態に示した各装置において記 録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のイン
ストール手順等については、周知の構成や手順を用いることができる。
[0327] 記憶部 106に格納される各種のデータベース等(全文献セットファイル 106a〜識 別子情報データベース 106e)は、 RAM, ROM等のメモリ装置、ハードディスク等の 固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種 処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースゃゥェ ブページ用ファイル等を格納する。
[0328] また、バイオアイテム検索装置 100は、既知のパーソナルコンピュータ、ワークステ ーシヨン等の情報処理装置を接続し、該情報処理装置に本発明の方法を実現させる ソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよ!/、。
[0329] 更に、装置の分散,統合の具体的形態は図示するものに限られず、その全部また は一部を、各種の付加等に応じた任意の単位で、機能的または物理的に分散,統合 して構成することができる。
産業上の利用可能性
[0330] 以上詳述に説明したように、本発明によれば、検索時に余計な計算処理時間をか けずに済む、ランキング表示や関連アイテムの発見を可能とする、バイオアイテム検 索装置、ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラム を提供することができるので、生物学 (遺伝学、疫学、システムバイオロジーを含む) や化学等を含む、情報検索を必要とする情報処理分野において利用可能である。