JP2007102709A

JP2007102709A - 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム

Info

Publication number: JP2007102709A
Application number: JP2005295333A
Authority: JP
Inventors: Yoshiko Hiraoka; 佳子平岡; Kazunori Miyazaki; 和典宮崎; Satoshi Ito; 聡伊藤; Michie Hashimoto; みちえ橋本; Toshiharu Mishiro; 俊治三代
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-07
Filing date: 2005-10-07
Publication date: 2007-04-19
Also published as: US20070082353A1; KR100806436B1; KR20070038925A

Abstract

【課題】条件の異なる検体集団のデータに基づいてマーカーを探索する際に、各条件下に特有の傾向を失うことなく、且つ効率よくマーカーを選定する手段を提供することを目的とする。また、優れた診断精度を有し汎用性が高い実用的な診断システムを提供することを目的とする。
【解決手段】遺伝子診断に用いるためのマーカーを選定するマーカー選定プログラムを提供する。該プログラムでは、複数の検体が属する二以上の集団がそれぞれに保有する検体データベースを用いて解析を行う。全検体データを統合せずに解析することによって、少数集団の情報であっても遺伝子探索に確実に反映させることができる。各集団の特徴を反映させることが可能であるため、精度の高い診断式を得ることができ、実用的な診断システムを提供することが可能である。
【選択図】図１

Description

本発明は、遺伝子診断に用いるのに適したマーカーを選定するプログラム、該プログラムを実行するための装置及びシステム、並びに、選定されたマーカーを用いて遺伝子診断を行う遺伝子診断システムに関する。

現在、遺伝子診断はテーラーメイド医療をはじめとして様々な分野で広く利用されており、患者の遺伝子データや臨床データを基に、薬剤投与等の治療法の有効性を予測するシステムが考案されている（例えば、特許文献１）。このような遺伝子診断システムの構築における最大の問題点のひとつは、診断事項に関連するマーカーをどのようにして探し出すかである。一般的に行われている方法は、例えば患者と健常人や、治療が有効だった患者と無効だった患者について全遺伝子を比較し、両集団で出現頻度が異なる遺伝子多型を探す方法である。さらに、遺伝子多型を単独ではなく組合せてマーカーとする方法も行われている。

マーカーの探索は、患者の遺伝子データや臨床データを統合し一つの母集団として行うのが一般的である。しかしながら、例えば地域による生活習慣、気候、食習慣の差のような把握できない環境要因により、疾病への罹りやすさを支配する遺伝子が相違することも想定される。また、同じ疾病に罹患している患者であっても、治療法の相違や合併症の有無などによって治験条件が異なれば、治療において重要な役割を果たす遺伝子が異なることも容易に想定される。

このような場合、ある条件下では候補となり得る遺伝子であっても、それが少数であると、データが総合された後には殆ど認知されずにその情報が失われてしまい、重要な情報が何も得られない場合がある。

また、遺伝子診断に用いる遺伝子探索は、数十から数百人分の治験結果からなる母集団に対して行う場合が多い。この結果に基づいて遺伝子診断が実用化され、多くの医療機関で利用されるようになると、実際の診断精度が当初の予想より低い場合がしばしばある。この様な場合、各医療機関や合併症ごとに、遺伝子診断に利用する遺伝子を改めて探索しなおしたり、診断式を作り直したりする必要が生じ、遺伝子診断の適用範囲が狭まったり、実用化の妨げになったりしていた。しかも、患者の血清が保存されていない場合は、追加で血液採取をする必要があり患者への負担となっていた。また、何らかの理由により、追加採血が不可能な場合には、別の検体で治験をやり直す必要があり、大変な費用と莫大な時間が必要になるという問題点があった。
特開２００４−１１３６６１号公報

上記の問題に鑑み、本発明は、条件の異なる検体集団のデータに基づいてマーカーを探索する際に、各条件下に特有の傾向を失うことなく、且つ効率よくマーカーを選定する手段を提供することを目的とする。また、優れた診断精度を有し汎用性が高い実用的な診断システムを提供することを目的とする。

上記目的を達成するため、本発明に従って、遺伝子診断に用いるためのマーカーを選定するためにコンピュータを、
予め既知の遺伝子多型の同定情報を記録しておく遺伝子多型データ記録手段、
予め前記遺伝子多型データ中の任意の二以上の遺伝子多型を組合せた、遺伝子多型組合せリストを記録しておく遺伝子多型組合せリスト記録手段、
予め前記遺伝子多型組合せリストに記載された各遺伝子多型組合せに関する対立遺伝子型組合せリストを記録しておく、対立遺伝子型組合せリスト記録手段、
複数の検体が属する二以上の集団について、前記既知の遺伝子多型における各検体の遺伝子型、並びに診断事項に対する傾向を記録しておく、集団毎の検体データ記録手段、
前記遺伝子多型組合せリストに記載された各遺伝子多型組合せについて、該各組合せに関する対立遺伝子型組合せリストを読み出し、該リストに記載された対立遺伝子型組合せが、前記診断事項との間に相関を有するかどうかを、前記検体データベースに保存されたデータに基づいて判定する関連性演算手段、
前記関連性演算手段によって相関を有すると判定された遺伝子多型組合せ及びその対立遺伝子型組合せを、前記集団毎に関連性一覧表に記録しておく関連性一覧表記録手段、
前記集団毎の関連性一覧表を比較し、全ての関連性一覧表に共通して存在する遺伝子多型組合せ及びその対立遺伝子型組合せを、第２の関連性一覧表に記録する集団比較手段、
前記第２の関連性一覧表の中から、全ての集団において診断事項に対する傾向が同じである遺伝子多型組合せ及びその対立遺伝子型組合せを選択し、マーカー候補として第３の関連性一覧表に記載する傾向判定手段、
前記手段によって得られたマーカー候補を出力する出力手段、
として機能させるためのマーカー選定プログラムが提供される。

前記関連性演算手段は、
前記遺伝子多型組合せリスト中の遺伝子多型組合せ毎に、前記対立遺伝子型組合せリストを読み出し、
該リスト中の各対立遺伝子型組合せについて、前記検体データベースに基づき、該組合せを有する検体をＡ群に分類し、それ以外の検体をＢ群に分類し、
該Ａ群及びＢ群のそれぞれにおいて、診断事項に対する傾向によって、検体を有効群と無効群とに分類し、
該Ａ群及びＢ群における、有効群と無効群との割合に差があるかどうかを検定し、
該検定において有意の差があった遺伝子多型及び対立遺伝子型を、関連性ありと判定する手段であることが好ましい。

さらに、上記プログラムは、前記傾向判定手段に続いて、前記第３の関連性一覧表に記載されたマーカー候補から、遺伝子診断用に最適なマーカー候補を選択する候補選択手段として機能させることを含むことが好ましい。

前記第３の関連性一覧表から最適なマーカー候補を選択する手段は、
各集団の相関係数を平均し、該平均値が最大である遺伝子多型組合せ及びその対立遺伝子型組合せを選択する手段であることが好ましい。

また、本発明の他の側面に従って、
遺伝子診断式を作成するために、コンピュータを、
請求項１又は２における前記第３の関連性一覧表のマーカー候補について、集団毎に、前記Ａ群に属する検体をＸ＝−１とし、前記Ｂ群に属する検体をＸ＝＋１とするか、Ａ群に属する検体をＸ=＋１、Ｂ群に属する検体をＸ＝−１とするか、或いはＡ群に属する検体をＸ＝α、Ｂ群に属する検体をＸ＝βとし（ただし、αとβは互いに異なる任意の数である）、また、前記治療の有効性及び／又は病気のかかり易さによって、各検体をｙ=1、又はｙ=0とし、
各集団に対する診断式Ｙ＝ａＸ＋ｔ（ここで、ａ及びｔは定数である）を作成する診断式作成手段、
作成された診断式を出力する出力手段、
として機能させるための診断式作成プログラムが提供される。

さらに、上記プログラムは、前記診断式作成手段に続いて、前記作成された診断式から、最適な診断式を選択するために、コンピュータを、
前記各マーカー候補の各集団に対する診断式の、それぞれの集団に対する寄与率Ｋを演算する手段、
該寄与率Ｋの平均値が最大であるマーカー候補の診断式を選択する選択手段、
選択された診断式を出力する出力手段、
として機能させるための診断式作成プログラムであることが好ましい。

また、本発明の他の側面に従って、上記のように選定されたマーカーを用いて、診断対象検体を遺伝子診断するためのシステムが提供される。該システムは、
上記のように選定されたマーカーを読み込む手段、
予め測定された診断対象検体の遺伝子配列を入力する手段、
前記選定されたマーカーと同様の遺伝子多型組合せ及びその対立遺伝子型組合せが、該検体中に存在するか否かを判定する手段、
該判定に基づき、該検体を診断する手段、
該診断結果を出力する手段、
とを具備してなることを特徴とする。

また、本発明の他の側面に従って、上記のように作成された診断式を用いて、診断対象検体を遺伝子診断するためのシステムが提供される。該システムは、
上記のように作成された診断式を読み込む手段、
予め測定された診断対象検体の遺伝子配列を入力する手段、
前記診断式に、該検体のデータを適用し、予想率を得る手段、
得られた予想率を出力する手段、
とを具備してなることを特徴とする。

上記プログラムに係る発明は、そのプログラムを実行するためのコンピュータにより構成される装置及びシステム、そのプログラムによりコンピュータで実行される手順からなる方法、そのプログラムを記録した記録媒体の発明としても成立する。

本発明によれば、条件の異なる検体集団においても共通して用いることができるマーカーを効率よく選定することができる。また、優れた診断精度を有し汎用性が高い実用的な診断システムを提供することができる。

本発明において遺伝子診断とは、ある検体における疾病の治療の有効性を、該検体の遺伝子配列に基づいて診断することをいう。ここで治療には、薬剤などによる化学的治療や、放射線治療などによる物理的治療、及びその他の治療が含まれる。また、遺伝子診断には、ある疾病へのかかりやすさや、罹患した場合の疾病の進行度の予測も含まれる。

本発明において、遺伝子診断によって診断する上記のような内容を診断事項と称する。診断事項は必要に応じて選択してよい。ここで、診断事項に対する傾向とは、例えば診断事項が治療の有効性である場合、治療が有効であるか無効であるかを表す。診断事項が疾病へのかかりやすさである場合は、疾患にかかりやすいか又はかかり難いかを表す。

遺伝子診断に用いる遺伝子配列をマーカーと称する。マーカーには、遺伝子多型を有する遺伝子が好適に用いられる。遺伝子多型には、一塩基多型（以下、「ＳＮＰ」と称す。）、置換、欠失、挿入等が含まれるが、ＳＮＰを用いることが好ましい。

本発明による遺伝子診断では、遺伝子多型を単独ではなく組合せてマーカーとする。これは、単独ではマーカーと成り得ない遺伝子多型であっても、複数の遺伝子多型を組合せることによって、診断事項との間に関連性が発見されることがあるためである。本発明では、二以上の任意の多型の組合せをマーカーとして用いる。本明細書では、簡便のため、二つの多型の組合せを例に説明するが、三つ以上の多型の組合せでも同様に行うことができる。

本発明におけるマーカーの選定は、二以上の集団における検体データベースに基づいて行う。ここで、集団とは、環境要因や治療方法、人種等の条件が異なる検体集団を指し、例えば病院Ａと病院Ｂなどのように、複数の医療機関をそれぞれの集団としてもよい。また例えば、人種や国別、性別等による他の分類も可能である。なお、集団は医療機関に限定されず、また、二以上であれば何れの数であってもよい。検体データベースは、それぞれの集団において作成されて保存される。

ここで、検体データとは、個々の検体の遺伝子配列や、該検体の疾病に関する履歴、即ち、治療の有効性や疾病へのかかりやすさなどの臨床データを含めたデータを意味する。ここで、データに記録される検体の遺伝子配列は、ゲノム配列であってもよいが、現在ヒトに存在することが知られている遺伝子多型における遺伝子配列のみであってもよい。

以下、図面を参照しながら本発明を詳細に説明する。
（第１実施形態）
第１の実施形態として、マーカーを選定するためのプログラム、並びに該プログラムを実行するための装置及びシステムが提供される。図１は、本発明のマーカー選定プログラムを実現するための装置及びシステムの全体像を示す図である。

図１に示すように、マーカー選定システム１００は、コンピュータ１０と、該コンピュータ１０と通信ネットワーク１１を介して接続された集団１の検体データベース１２及び集団２の検体データベース１３から構成される。

コンピュータ１０は、処理装置２と、該処理装置２に接続されたメインメモリ５、入力装置１、出力装置４、及び、ファイル装置３から構成される。

コンピュータ１０は、例えばパーソナルコンピュータにより実現される。コンピュータ１０は、通信インタフェース（図示せず）を介して通信ネットワーク１１との間でデータを送受信することができる。

処理装置２は、ＣＰＵのような、一般的なコンピュータの演算処理を実現するハードウェアにより実現される。処理装置２は、関連性演算手段２１、集団比較手段２２、及び傾向判定手段２３を具備する。

メインメモリ５には、任意の記憶媒体に記録された、マーカー選定プログラム９が具備される。該プログラム９により、コンピュータ１０が制御される。

入力装置１は、処理装置２における処理に必要な各種データや指示を入力するための装置である。これは例えばキーボードやマウスなどにより実現される。出力装置４は、処理装置２で処理された結果や診断結果を出力するための装置である。これは例えばディスプレイやプリンタなどにより実現される。

ファイル装置３には、遺伝子多型データファイル６、遺伝子多型組合せリストファイル７、対立遺伝子型組合せリストファイル８が具備される。

遺伝子多型データファイル６には、ヒトゲノム中に存在することが知られている遺伝子多型の同定情報が保存されている。ここで同定情報とは、その多型が存在する遺伝子配列上の位置、及び、該多型が取り得る塩基の種類などに関する情報である。本明細書では、この同定情報を遺伝子多型データと称する。

この遺伝子多型データに記録された遺伝子多型に基づき、二以上の遺伝子多型から成る全ての組合せを作成する。作成された組合せは全て遺伝子多型組合せリストに記載される。この遺伝子多型組合せリストは、遺伝子多型組合せリストファイル７に保存される。

例として、二つのＳＮＰから成る組合せについて説明する。例えば、遺伝子多型データファイルに１０個のＳＮＰ：a、b、c、・・・、jが記録されているとする。これら１０個のＳＮＰから作成した遺伝子多型組合せリストを図２に示す。図２に示したように、１０個のＳＮＰからは、（10×９）／２＝４５個のＳＮＰ組合せが作成される。遺伝子多型組合せリストファイル７には、図２のような遺伝子多型組合せリストが保存されている。

なお、上記の例では二つの遺伝子多型から成る組合せについて説明したが、三つ以上の遺伝子多型からなる組合せについても同様に作成することができる。

次に、遺伝子多型の対立遺伝子型を考慮する。例えば、第１のＳＮＰが塩基ＸまたはＹを取り得る場合、Ｘ／Ｘ、Ｘ／Ｙ、Ｙ／Ｙの３種類の対立遺伝子型が存在する。また、第２のＳＮＰが塩基Ｕ又はＶを取り得る場合、Ｕ／Ｕ、Ｕ／Ｖ、Ｖ／Ｖの３種類の対立遺伝子型が存在する。従って、これらのＳＮＰの組合せは、図３（ａ）に示すような１６種類の対立遺伝子型の組合せを取り得る。

図３における１番目の組合せは、第１のＳＮＰがＸ／Ｘであって、第２のＳＮＰがＵ／Ｕである場合を意味する。５番目の組合せは、第１のＳＮＰがＸ／Ｘ又はＸ／Ｙであって、第２のＳＮＰがＵ／Ｕである場合を意味する。

また、一方のＳＮＰが、ＹＡ又はＸＢという２種類の対立遺伝子型を有する場合がある。この時、ＳＮＰの組合せは、図３（ｂ）に示すような８種類の対立遺伝子型の組合せを取り得る。

図３に示したような対立遺伝子型組合せリストが、各遺伝子多型組合せについて作成される。その具体例を図４に示した。図４（ａ）は、図２の遺伝子多型組合せリストにおける１番目の組合せについての、対立遺伝子型組合せリストの具体例である。ここで、第１のＳＮＰはＡとＴをとり、第２のＳＮＰはＧとＴをとる。図４（ｂ）は、図２における２番目の組合せについての、対立遺伝子型組合せリストの具体例である。ここで、第１のＳＮＰはＡとＴをとり、第２のＳＮＰはＧとＣをとる。

遺伝子多型が全て一塩基置換型のＳＮＰである場合、図２に示した４５種類の遺伝子多型組合せのそれぞれに対して、図３で示した１６種類の対立遺伝子型組合せが存在する。従って、総計で45×16＝720種類の対立遺伝子型組合せが作成されることになる。

このように作成された対立遺伝子型組合せリストは、対立遺伝子型組合せリストファイル８に記録される。

図４のリストに示したように、それぞれの対立遺伝子型組合せは、組合せ番号によって識別されることが好ましい。組合せ番号は、遺伝子多型組合せの識別番号と、対立遺伝子型組合せの識別番号から作成され、例えば（１−１）〜（４５−１６）のように表すことができる。なお、組合せ番号の表記はこれに限定されず、遺伝子多型組合せと対立遺伝子型組合せが確定されるものであれば、どのようなものでもよい。

以上説明した対立遺伝子型組合せリストが、全ての遺伝子多型組合せについて作成され、対立遺伝子型組合せリストファイル８に保存される。

なお、これらの遺伝子多型組合せリスト、及び、対立遺伝子型組合せリストは、処理装置２によって作成されてもよく、或いは予め作成されていたデータファイルを外部から入力して保存してもよい。新たな遺伝子多型が発見された場合は、リストを更新することが好ましい。

次に、検体データベース１２及び１３について説明する。検体データベース１２及び１３は、集団１及び集団２のそれぞれにおいて作成されたデータベースである。検体データベース１２及び１３には、個々の検体の遺伝子配列や、治療の有効性、及び疾病へのかかり易さなどの臨床データが保存されている。データベースは、磁気ディスク、光学式ディスクなどにより実現される。

検体データベース１２及び１３は、コンピュータ１０の内部に保存されてもよいが、集団自体が保有するコンピュータなどに保存されることが好ましい。この場合、コンピュータ１０は通信ネットワーク１１を介して検体データベース１２及び１３と接続され、必要なデータを取得することができる。

なお、個人情報を保護する観点から、コンピュータ１０が検体データベースから取得可能なデータは、必要なデータのみに限定されることが好ましい。

以上に記載したコンピュータ及びシステムの構成は、これらに限定されるものではない。本発明のプログラムが実現可能であれば、適宜変更又は改良されることができる。

次に、図１のシステムを用いたマーカーの選定方法を、図５のフローチャートを参照して説明する。例として、ある疾病に対する治療の有効性を予測するためのマーカーを選定する方法を説明する。

まず、集団１及び集団２の検体データベースから検体データを取得する（Ｓ５１）。また、遺伝子多型組合せリストを取得する（Ｓ５２）。なお、これらの順序は逆でもよい。

次に、取得したリスト中の任意の遺伝子多型組合せについて、その対立遺伝子型組合せリストを取得する（Ｓ５３）。次いで、取得したリスト中の全ての対立遺伝子型組合せについて、診断事項との間に有意の関連性があるかどうかを演算する（Ｓ５４）。有意の関連性があると判定された対立遺伝子型組合せは、それが属する遺伝子多型組合せが識別可能なように、上記した組合せ番号によって関連性一覧表に記載される（Ｓ５５）。この手順Ｓ５３〜Ｓ５５は、全ての遺伝子多型組合せについて実行される（Ｓ５６）。

手順Ｓ５４の演算の具体的な方法を説明する。まず対立遺伝子型組合せリスト中の一つの組合せを読み出す。次いで、検体データベースを検索し、該組合せを有する検体群（Ａ群）と、その他の検体群（Ｂ群）とに分類する。さらに、各群の検体を、治療が有効であった著効群（ＳＲ）と治療が無効であった無効群（ＮＲ）とに分類し、それぞれの群に属する検体数を計数する。

次に、Ａ群とＢ群とで、有効率、即ち、無効群に対する著効群の割合に、差があるかどうかを検定する。検定は任意の方法を用いてよい。一般には２群間のカイ二乗検定が用いられる。

例えば、集団１の検体数が100例で、ＳＲ(A)が45例、ＮＲ(A)が15例、ＳＲ(B)が20例、ＮＲ(B)が20例とする。この場合、Ａ群の有効率は75％、Ｂ群の有効率は50％であり、Ａ群の方が、有効性が高いと判定される。このときのカイ二乗検定の結果はP=0.010である。ここで、P＜0.05の場合を有意と判定することにすると、その対立遺伝子型組合せは診断事項との間に有意の関連性があると判定される。

また或いは、他の検定方法を用いてもよい。例えば、治療の有効性Resを０又は１で表現する。即ち、無効だった検体をRes＝０、有効だった検体をRes＝１とする。また、遺伝子多型組合せ要因Ｓを１か０に数値化する。具体的には、Ａ群に分類された検体をＳ＝１とし、Ｂ群に分類された検体をＳ＝０に数値化する。このようにして、ResとＳの相関係数と信頼性指標Ｐ値を計算する。上記の例に適用すると、相関係数は0.257、P値は0.010であった。

有意の関連性があるかどうかの判定には、Ｐ値或いは相関係数の絶対値を用いて行うことができる。例えば、Ｐ＜0.05の場合に有意の関連性があると判定できる。また、相関係数の絶対値が0.3以上の場合に有意の関連性があると判定できる。但し、判定基準となるこれらの数値は、適宜設定することができる。

以上に述べた、手順Ｓ５１〜Ｓ５６は、図１の関連性演算手段２１によって行なわれる。演算及び関連性一覧表の作成は、各集団について個別に実行される。なお、検定方法は上記に限らず、任意の方法によって行ってよい。また、関連性一覧表を作成するまでの手順は、上記の例に限らず、適切に行われて良い。

手順Ｓ５５によって作成された関連性一覧表には、１行のデータとして、組合せ番号、診断事項との関連の傾向あるいは相関係数等を記載することが好ましい。関連性を判定したＰ値等の指標や、検体数等の情報も同時に保存しておくことが望ましい。図６に、関連性一覧表の具体例を示した。関連性一覧表には、識別のための通し番号、組合せ番号、関連性における傾向、Ａ群Ｂ群のそれぞれにおける著効群と無効群の検体数が記載されている。

ここで、関連性における傾向とは、もし、図６に示すように２群間の独立性検定（カイ二乗検定）を用いた場合には、Ａ群の有効性がＢ群より高い場合を＋、低い場合を−とする。関連性がないと判定された場合は×を記入してもよい。より詳しく説明すると、図６の病院１における組合せ番号１−２では、ＳＲ（Ａ）＝４５，ＮＲ（Ａ）＝１５である。よって、Ａ群の有効率は７５％、Ｂ群の有効率は５０％となり、Ａ群の有効性の方が高い。これには＋の符号を記入する。もし、治療法の有効性Ｒｅｓを０か１で表現して、相関係数を求めて検定を行って、関連性一覧表を作成した場合には、傾向の代わりに相関係数の値を記載する場合が多い。このとき、相関係数の符号のみを抜き出して、傾向の欄に記入してもかまわない。

次に、集団比較手段２２によって、集団１の関連性一覧表と集団２の関連性一覧表を比較する（Ｓ５７）。同一の組合せ番号（即ち、遺伝子多型組合せ及びその対立遺伝子型組合せ）が全ての関連性一覧表に存在した場合、その組合せについての１行分のデータを第２の関連性一覧表にコピーする（Ｓ５８）。その際、集団１から選び出したデータには、集団１由来であることを示す記載を、集団２から選び出したデータには集団２由来であることを示す記載を加える必要がある。

第２の関連性一覧表の具体例を図７に示す。ここで、傾向の欄には、Ａ群のほうが薬剤の有効性が高い傾向にある場合は＋を、反対にＡ群の方が薬剤の有効性が低い傾向にある場合は−を記入してある。図７の例では、集団間で共通する組合せを連続して記載しているが、これに限らず任意の順番で保存してよい。ただし、図７のような順番のほうが、以降の工程で利用しやすい。

次に、傾向判定手段２３によって、第２の関連性一覧表に記載された各組合せについて、全ての集団において傾向が同じであるか否かを判定する（Ｓ５９）。具体的には、第２の関連性一覧表において、全ての集団の傾向欄に同じ記号が記入されている場合に、治療の有効性に対するその組合せの傾向が同じであると判定する。もし、治療の有効性を０か１で定義して相関係数を求めて検定を行った場合には、相関係数の符号が同じ場合に傾向が同じであると判定する。

次いで、手順Ｓ５９によって傾向が同じであると判定された組合せ番号を、第３の関連性一覧表に記載する（Ｓ６０）。第３の関連性一覧表の例を図８に示した。この第３の関連性一覧表に記載された組合せ番号によって表される遺伝子多型組合せ並びにその対立遺伝子型組合せが、遺伝子診断用マーカーとして使用可能なマーカー候補である。これは、処理装置２に接続された出力装置４によって出力される（Ｓ６１）。

以上に記載した関連性一覧表、第２の関連性一覧表、第３の関連性一覧表は、処理装置内のメモリに記録されてもよいが、専用の記憶手段を備えて記憶させてもよい。

上記第３の関連性一覧表に記載されたマーカー候補が複数存在する場合、それら全てに適当な重み付けをして用いることができる。或いは、最適なマーカー候補を一つ又は２つ選択して用いることもできる。このとき、マーカー候補の選択は、目的とする遺伝子診断に適した基準によって行えばよい。例えば、集団１と集団２で得られた相関係数の絶対値の平均が最大の組合せを選ぶことができる。この基準によれば、図８では組合せ番号（３５−６）が最適なマーカー候補となる。

図９は、第３の関連性一覧表から最適なマーカー候補を選択する候補選択手段２４を備えたマーカー選定システム１００の概要図である。候補選択手段２４は、処理装置２内に備えられる。

図９のマーカー選定システム１００では、該候補選択手段２４によって選択された最適なマーカー候補のみを出力装置４によって出力してもよい。或いは、第３の関連性一覧表に、マーカー候補の適性を付記して出力してもよい。

次に、第２の実施形態として、遺伝子診断式作成プログラム、並びに、該プログラムを実行するための装置及びシステムが提供される。

図１０は、遺伝子診断式を作成するプログラムを実行するための診断式作成システム２００の概要図である。診断式作成システム２００は、コンピュータ１０と、該コンピュータ１０と通信ネットワーク１１を介して接続された集団１の検体データベース１２及び集団２の検体データベース１３から構成される。

コンピュータ１０は、処理装置２と、該処理装置２に接続されたメインメモリ５、入力装置１、出力装置４、及び、ファイル装置３から構成される。本実施形態において、処理装置２は、関連性演算手段２１、集団比較手段２２、傾向判定手段２３に加え、診断式作成手段２５を具備する。本実施形態において、コンピュータ１０の構成は、処理装置２を除いて上記第１の実施形態と同様の構成であってよい。

第２の実施形態では、上記第１の実施形態と同様に第３の関連性一覧表が作成される。続いて、第３の関連性一覧表に記載されたマーカー候補を用いて、診断式作成手段２５によって診断式が作成される。この診断式は、各集団のために個別に作成される。

具体的には、前記第３の関連性一覧表の各マーカー候補について、前記Ａ群に属する検体をＸ＝−１とし、前記Ｂ群に属する検体をＸ＝＋１とし、また、診断事項に対する傾向によって、各検体をｙ=1、又はｙ=0に分類する。例えば、有効群をｙ=1、無効群をｙ=0とする。

このようにして統計学的に回帰直線を求めることにより、各集団のための診断式Ｙ＝ａＸ＋ｔ（ここで、ａ及びｔは定数である）が算出される。この診断式により、診断事項に対する予想率が算出される。例えば、ある検体において治療が有効である確率が算出される。

この診断式は、第３の関連性一覧表に記載された全てのマーカー候補について作成されてよい。ここで、作成された診断式は、すべて出力されてもよいが、さらに最も診断に適した診断式を選択することもできる。

この診断式の選択は、図１０の処理装置２内にさらに診断式選択手段２６を備えることによって実行可能である。以下に、診断式選択手段２６によって実行される最適な診断式を選択する方法を説明する。

まず、上記診断式作成手段２５によって作成された診断式の寄与率Ｋを算出する。寄与率Ｋとは、診断式の精度を評価するパラメータであり、

で表される。ただし、

は残差平方和であり、

はｙの全変動である。

上述の通り、診断式は集団毎に作成される。またそれぞれの診断式は、各集団に対する寄与率Ｋを有する。例えば、前述した組合せ番号（３５−６）のマーカー候補を例に説明する。このマーカー候補は、集団１に対する診断式Ｙ₁と、集団２に対する診断式Ｙ₂を有する。ここで、集団１に対する診断式Ｙ₁は、集団１に対する寄与率Ｋ１₁と、集団２に対する寄与率Ｋ１₂を有する。同様に、集団２に対する診断式Ｙ₂は、集団１に対する寄与率Ｋ２₁と、集団２に対する寄与率Ｋ２₂を有する。従って、一つのマーカー候補に対して、集団数の２乗個の寄与率Ｋが算出されることが理解されよう（実施例１及び図１７参照）。

この寄与率Ｋは、各集団に対する診断式の精度を表すため、４つの寄与率、Ｋ１₁、Ｋ１₂、Ｋ２₁、Ｋ２₂の平均値が最大であるようなマーカー候補が最もよいマーカーであるといえる。

従って、診断式選択手段２６は、各診断式について４個（集団が３個以上の場合には集団数の２乗）の寄与率Ｋの平均値を算出し、該平均値が最大であるようなマーカー候補をマーカーとして選択する。

次に、２個の診断式、Ｙ₁とＹ₂のうちのどちらを用いるかであるが、診断式Ｙ₁の集団１に対する寄与率Ｋ１₁と集団２に対する寄与率Ｋ１₂の平均と、診断式Ｙ₂の集団１に対する寄与率Ｋ２₁と集団２に対する寄与率Ｋ２₂の平均を比較し、平均寄与率が高い方の診断式を採用することが望ましい。ただし、平均値の差がそれほど大きくない場合は、どちらの診断式を用いてもかまわない。また、集団１と集団２について同一の診断式を用いるのが原則であるが、例えば、Ｋ１₁のほうがＫ２₁より著しく大きく、かつＫ２₂の方がＫ１₂よりも著しく大きいような場合には、集団１に対してはＹ₁式を採用し、集団２に対してはＹ₂式を採用することも可能である。

なお、本実施形態では、第３の一覧表のマーカー候補の全てについて診断式を作成したが、他のより適した選択基準に従って最適なマーカー候補を選択した後に、該候補についてのみ診断式を作成してもよい。

第３の実施形態として、マーカー又は遺伝子診断式により、新規の診断対象検体を遺伝子診断するためのプログラム、並びに、該プログラムを実行するための装置及びシステムが提供される。

図１１は、遺伝子診断プログラムを実行するための遺伝子診断システム３００の概要図である。遺伝子診断システム３００は、コンピュータ３０と、該コンピュータ３０と通信ネットワーク１１を介して接続された集団１の検体データベース１２及び集団２の検体データベース１３から構成される。

コンピュータ３０は、処理装置３２と、該処理装置３２に接続されたメインメモリ３５、入力装置３１、出力装置３４、及び、ファイル装置３３から構成される。本実施形態において、処理装置３２は、関連性演算手段４１、集団比較手段４２、傾向判定手段４３、組合せ選択手段４４、診断式作成手段４５、診断式選択手段４６に加え、さらに診断手段４７を具備する。本実施形態において、コンピュータ１０の構成は、処理装置２を除いて上記第１及び第２の実施形態と同様の構成であってよい。

本実施形態では、上記第２の実施形態と同様に診断式を作成する。作成された診断式のうち、診断に最適なものを診断式選択手段４６によって選択する。これにより選択された診断式を用いて、診断対象検体の診断を行う。

まず、入力装置によって、診断の対象検体の遺伝子配列を入力する。また、診断事項についての指示を入力する。該対象検体の遺伝子配列は、診断に用いられる遺伝子多型についての配列のみであってもよいが、測定した全ての遺伝子多型に関する情報であることが望ましい。

診断手段４７は、診断式選択手段４６によって選択された診断式を読み込む。次いで、入力された対象検体の遺伝子配列を該診断式に適用する。これによって、該検体の診断事項に対する予想率が算出される。算出された予想率は、出力装置３４によって出力される。この場合、出力装置３４から出力された予想率の値を、医師が解釈をして、治療を行うか行わないかを判断することになる。従って、判断を行う医師には、本治療法と有効率を的確に判断できるだけの専門性が必要である。そこで、より簡便な方法として、例えば、算出された有効性予想率が０．７以上の場合は、治療法は「有効」、０．３以下では「無効」、０．３以上０．７以下では「要検討」と出力することも可能である。この場合、医師は、特に専門知識が無くても、「有効」の場合は治療を行い、「無効」の場合は治療を行わない、「要検討」の場合は、患者の希望により判断する等、診断を標準ルーチン化することが可能である。

上記例では、回帰直線を求めることにより、診断式を作成したが、判別分析により判別式を導きだし、これを診断式として利用することも可能である。判別式Ｚ＝ｂＸ＋u（ここで、ｂ及びuは定数である）は、検体の遺伝子配列を測定して得られたＸを代入した際、Ｚ＞０であれば、治療法は有効、Ｚ＜０であれば治療法は無効と判別されるような統計学的な式である。診断式として判別式を用い、Ｚ＞０の場合は「○」、Ｚ＜０の場合は「×」を出力するようにシステムを作成すれば、医師はより簡単に診断を下すことが出来る。

以上のように、対象検体を診断することができる。なお、診断事項は治療の有効性に限らず、病気のかかり易さなどであってもよい。適切なマーカーから導かれた診断式を用いることにより、所望の診断をすることが可能である。

また、診断式を用いずに、マーカーによりＡ群に分類されるかＢ群に分類されるかのみによって簡便に診断することも可能である。この場合、診断手段４７は、まず傾向判定手段４３によって作成された第３の一覧表から、マーカーを読み出す。また、対象検体の遺伝子配列を検索し、マーカーと同様の遺伝子多型組合せ及びその対立遺伝子型組合せが存在するか否かを判定する。この判定に基づき、用いたマーカーの診断事項に対する傾向に基づいて診断する。診断された結果は、出力装置３４によって出力される。

なお、遺伝子診断した対象検体の治療が終了し、治療結果が判明した後に、新たな治験結果を検体データベースに追加することが可能である。この場合、この新しい検体データを加えた検体データベースに基づいて、関連性一覧表以下の一覧表を更新することにより、さらに診断システムの精度を向上させることができる。

以上述べた本願発明によれば、新たな測定を行うことなく、すでに測定済みの遺伝子型のデータを最大限活用して、コンピュータ処理のみで遺伝子診断に利用するマーカーを探索することができる。よって、大幅な時間と経費を節約することができる。

さらに、本発明によれば以下のような利点が得られる。

例えば、集団１が遺伝子診断のための治験を行った集団であるとする。また集団２が実際に遺伝子診断システムを利用し、その診断結果に基づいて治療を行っている医療機関であるとする。この場合、遺伝子診断開始初期の段階では、集団２の検体数は、集団１の検体数に比べて少ない。よって、集団１と集団２を合わせて１つの母集団として扱い、診断式のアップデートを行うと、集団２の結果は反映され難いことになる。

もし、何らかの理由により、集団１と集団２において重要な遺伝子に差がある場合、実際の診断治療を行っている集団２の結果をより強く反映させる必要がある。しかしながら、母集団を１つにした場合は、集団２の結果は反映され難い。

また、母集団を１つにするためには、それぞれの集団のデータを全て保存しておく必要があり、データ管理の負担が増大する。さらに、母集団の全件数が大きくなるので、演算に時間がかかり、アップデートに手間がかかることになる。

しかしながら本発明のように、全検体データを統合せずに解析することによって、集団２のような少数集団の情報であっても確実に反映させることができる。また、集団１に関しては治験データを全て保存する必要が無く、関連性一覧表のみを保存しておけばよいので、個人情報保護の観点からも好都合である。

即ち、本発明に拠れば、各集団の特徴を消失することなく、適切なマーカー及び診断式を選定することができ、精度の高い実用的な遺伝子診断システムを提供することができる。また、集団毎に検体データベースが別れているため、新しい検体のデータを追加する場合でも、全集団のデータベースについて演算し直す必要がなく、簡便且つ効率的である。

なお、本発明に従って作成された遺伝子診断のための診断式は、コンピュータ読み取り可能な記録媒体に記録されて提供されることも可能である。

またさらに、第４の実施形態として、上記第２の関連性一覧表を、疾病や治療のメカニズムに関わる遺伝子の探索に用いることができる。

具体的には、上記の第２の関連性一覧表に記載された遺伝子多型組合せを構成する遺伝子を、結びつけるシグナル伝達経路を探索する。これにより、従来知られていなかったシグナル経路を明らかにすることも可能である。また、そのシグナル経路上に存在する遺伝子を、文献調査等によって明らかにすることも可能である。

このような遺伝子に存在する多型を探索することにより、新たな有力候補を発見することも可能である。これにより、従来の研究者の勘に頼る方法よりも、はるかに効率良く新規遺伝子の探索が可能である。

また、上記第２の関連性一覧表に記載された組合せは、その傾向が同一であるか相違しているかによらずに使用することができる。なぜならば、遺伝子探索においては、たとえ傾向や相関係数の符号が反対であっても、２つの遺伝子を結びつけるようなシグナル伝達経路探索は可能であるからである。

以下に、本発明の具体的な実施例を記載するが、本発明はこれらに限定されるものではない。以下の実施例では、Ｃ型関連ウイルスに感染した検体に対する、インターフェロンによる治療の有効性を診断するために用いるマーカーを選定した。

［実施例１］
図１２は、Ｃ型肝炎のインターフェロン治療に関するＴ病院の検体データベースの内容である。該データベースには、Ｔ病院で過去に行った治験結果が記録されている。図１２のデータベースの内容を説明する。治験を行った患者に識別番号を振り、検体番号欄に記入する。なお、個人情報保護のため、検体番号とカルテ番号は相違する。カルテ番号と検体番号の対応表は、本発明によるシステムとは別のシステムで管理されている。

治療結果の欄には、インターフェロン治療が成功したか否かを示している。ＳＲはインターフェロン治療によりＣ型肝炎ウイルスが完全に排除された（一般には著効例と呼ぶ）ことを示す。ＮＲはそれ以外（非著効）である。

３列目以降には、測定した遺伝子型を記入している。ＭｘＡ-123はＭｘＡタンパク遺伝子のプロモーター領域の−１２３位置にあるＳＮＰであり、塩基はCかAをとる。対立遺伝子型としては、C/C、C/A、A/Aの３種類が存在する。データベースの対応する欄には、検体が有する対立遺伝子型が記載されている。

ＭｘＡ-88は、ＭｘＡタンパク遺伝子プロモーター領域の-８８位置に存在するＳＮＰであり、塩基はGかTをとる。対立遺伝子型はG/G、G/T、又はT/Tである。

５列目のＭＢＬ遺伝子のＳＮＰにおける対立遺伝子型は、ＹＡ又はＸＢの２種類である。この場合、ＭＢＬのＳＮＰと他のＳＮＰとの組合せの対立遺伝子型組合せリストは、図１３（２）のようになる。

ＬＭＰ７のＳＮＰの対立遺伝子型は、Ｃ／Ｃ、Ｃ／Ａ、又はＡ／Ａである。ＩＲＦ−１のＳＮＰの対立遺伝子型は、Ｃ／Ｃ、Ｃ／Ｔ、又はＴ／Ｔである。８列目と９列目にはＯＰＮ遺伝子の遺伝子型が記載されている。ＯＰＮ遺伝子には、数箇所のＳＮＰが存在することが知られている。プロモーター領域の-443位置にあるＳＮＰは、塩基Ｃ又はＴをとる。その対立遺伝子型は、Ｃ／Ｃ、Ｃ／Ｔ、又はＴ／Ｔである。

ＯＰＮ遺伝子のプロモーター領域の-155位置にある多型は、塩基Ｇが１個ある場合と、塩基Ｇが２個ある場合がある。それぞれを、ＧあるいはＧＧと書くことにする。Ｇである場合と、ＧＧである場合では、遺伝子の長さが異なる。対立遺伝子型は、Ｇ／Ｇ、Ｇ／ＧＧ、ＧＧ／ＧＧの３種類である。

同様に、１０列目以降にも遺伝子型が記入されているが、図１２では省略する。図１２はＴ病院における治験結果であるが、Ｓ病院についても全く同様のデータベースが作成保存されている。

Ｔ病院の検体データデータベース、並びに、図８に例示した対立遺伝子型組合せリストに基づいて、関連性演算部で治療の有効性との関連性を演算した。その結果、有意の関連があった組合せから、図１４に示す一覧表が作成された。この図１４は、Ｔ病院の関連性一覧表の一部である。

第１の遺伝子と第２の遺伝子の欄には組合せた２つのＳＮＰが位置する遺伝子名が記載される。多型組合せ欄には、片方の遺伝子がＭＢＬの場合は図１３−（２）、その他は図１３−（１）に示したように、対立遺伝子型をどのように組み合わせたかを示す番号が記載してある。対立遺伝子型組合せリストを参照して番号で記載しても良く、或いは対立遺伝子型を表記してもよい。

ＳＲ（Ａ）はＡ群に分類され、且つ著効だった検体数である。具体的には、図１４のNo.1の例では、第１の遺伝子MxA-88と第２の遺伝子IRF-1が対立遺伝子組合せ４を満足する検体をＡ群に分類し、それ以外をＢ群に分類した。今の場合、具体的な塩基は、MxA-88についてはX=G,Y=T、IRF-1では、U=C,V=Tである。ＮＲ（Ａ）はＡ群に分類され且つ非著効だった検体数である。ＳＲ（Ｂ）はＢ群に分類され、且つ著効だった検体数である。ＮＲ（Ｂ）はＢ群に分類され、且つ非著効だった検体数である。

傾向欄には、Ａ群の方が著効率が高い場合を＋、反対の場合を−で示してある。chi2欄にはカイ２乗値を記載した。P値欄にはカイ２乗検定によるP値を記載した。次列のchi2yは、Ｙaｔｅｓの補正を加えたカイ２乗値を記載した。Py値欄には、Ｙaｔｅｓの補正を加えたP値を記載した。本実施例では、Py値＜0.05であれば有意の関連性があると判定した。第２の母集団であるS病院についても同様にS病院関連性一覧表を作成した。

図１５は、第２の関連性一覧表の具体的内容である。No.１とNo.２は、ＭｘＡ-123とＯＰＮ-443を組合せた場合であり、且つ、図１３−（１）における識別番号５の対立遺伝子型組合せである。ここで、本遺伝子組合せにおいては、X=C、U=C、V=Tである。従って、MxA-123がC/Cであり、かつ、OPN-443がC/CあるいはC/Tの組合せを持つ検体をＡ群とし、その他のＳＮＰ組合せを持つ場合をＢ群に分類すると、Ａ群とＢ群では治療効果に有意の差があったことを示している。その傾向は、No.1に示すT病院でもNo.2にしめすS病院でも−であった。即ち、Ａ群の方がインターフェロンが効きにくいことが示された。このようにＴ病院とＳ病院で傾向が同じ組合わせが、次の図１６に示す第３の関連性一覧表に記載される。

ところで、図１５のNo.7とNo.8に着目する。これはＭＢＬ遺伝子とＳＴＡＴ-249とよばれるＳＮＰの組合せである。No.7のT病院では傾向は＋であるのに対し、No.8のS病院では傾向は反対で−である。即ち、ＭＢＬとＳＴＡＴ-249が識別番号４の対立遺伝子組合せを有する検体と、それ以外の対立遺伝子組合せを有する検体は、T病院でもS病院でもインターフェロン有効性と有意の相関があるが、T病院ではＡ群のほうがインターフェロンが効きやすい傾向にあり、反対に、S病院ではＢ群のほうがインターフェロンが効きやすい傾向にあることが示されている。つまり、医療機関によって傾向が全く反対である。このような場合、その組合せを直接遺伝子診断に利用することは出来ない。よって、図１６に示す第３の関連性一覧表からは除外される。

ただし、この結果は、医学的にはＭＢＬとＳＴＡＴを繋ぐようなシグナル伝達経路が存在する可能性を示している。また、その経路の伝達の仕方は、医療機関に敏感に依存するような特徴を持っていることを示唆している。従って、実施例１で測定した２７箇所の遺伝子型以外に重要な遺伝子が、ＭＢＬとＳＴＡＴをつなぐシグナル伝達経路上に存在する可能性があることを示唆している。この情報は、新規マーカー探索に重要である。

さて、本発明による遺伝子診断システムでは、図１６に示す第３の関連性一覧表に記載された組合せをマーカーとして用いる。図１６には、１から５に示す５種類の組合せがあるが、本実施例では以下に述べる方法で、最良の組合せを選択した。

図１７に示すｔ１式は、図１６のNo.1の遺伝子多型組合せ（ＭｘＡ-88とOPN-443）が、図１３−（１）の識別番号５の対立遺伝子型組合せかそれ以外かを比較した場合の式である。具体的には、ＭｘＡ-88がG/Gであり、かつＯＰＮ-443がＣ／ＣあるいはＣ／Ｔの場合とそれ以外を比較した場合である。

検体が、この対立遺伝子型組合せを有する場合に、Ｘ=−1と数値化し、それ以外を＋１に数値化する。また、インターフェロン治療結果が著効だった検体をｙ=1、非著効だった検体をｙ=0と数値化し、Ｘをｙに関連つけるように決定した回帰直線を示したものである。ｔ１の具体的な回帰直線はY=0.261Ｘ＋0.511であった。この式Ｙが、予想著効率を与える診断式である。

診断式の精度を評価するパラメータとして、寄与率Kを次式で定義した。寄与率とは、導いた診断式が治療法の有効性をどの程度説明するかを示すものである。その選択に当たって計算した判定基準が図１７にまとめてある。

ただし、

は残差平方和、

はｙの全変動である。

ここで、全てのデータyiが診断式Ｙで完全に説明される場合にK=1であり、寄与率は１になる。診断式Ｙが回帰直線の場合は、Ｋは相関係数の二乗に等しい。

図１７のｔ１式は、T病院検体にフィッティングした回帰直線であるが、T病院に対する寄与率は25%であった。ｔ１式を用いて、異なる母集団であるS病院検体をどの程度説明するかを調べると、寄与率は32%であった。図１７のs1式は、ＭｘＡ-88とＯＰＮ-443の組合せを用いて、S病院検体にフィッティングした回帰直線である。この回帰式を診断式として用いると、S病院検体に対する寄与率は44%であり、T病院検体に対する寄与率は15%であることが分かった。

図１６の第３の関連性一覧表に記載されている他の遺伝子組合せに関しても同様の計算を行った結果が、図１７のｔ２〜ｔ５とｓ２〜ｓ５である。本実施例では、計算した４種類の寄与率の平均値が最大になるような遺伝子組合せを新たなマーカーとして選定した。

具体的には、図１６から分かるように、ＭｘＡ-88とＯＰＮ-443の組合せは、４種類の寄与率がそれぞれ、25, 32, 44, 15%である。その平均値は29%であり、５個の候補の中で最大であった。よって、この組合せを遺伝子診断のマーカーとして選定した。

本実施例では、最終的に利用するマーカーとして、遺伝子組合せを１個のみ選定した。しかし、第３の関連性一覧表に記載されている全ての組合せに対して、適当な重み付けを行った線形関数を診断式として作成してもよい。また、任意の複数個の組合せを用いて診断式を作成してもよい。

また、遺伝子多型組合せによる診断式に加えて、単独の遺伝子多型をあわせてマーカーとして用いてもよい。この方法は、例えば、T病院とS病院に共通して重要である遺伝子がいくつか存在しているが、それらの寄与率が低い場合に有効である。他のマーカーを加えることによって、診断式の精度を上昇させることができる。

［実施例２］
次に、集団が３つ存在する場合を例に説明する。本実施例でも、Ｃ型関連ウイルスに感染した検体に対する、インターフェロンによる治療の有効性を診断するために用いるマーカーを選定した。しかしながら、第一の実施例と異なり、最近開発された新しいタイプのインターフェロンと抗ウイルス剤の併用療法による治験結果を利用した。本新手法は、当初日本では導入されていなかったため、米国での治験結果を用いて解析を行った。

米国での治験結果を日本に適用する際の最大の問題点のひとつは、人種の違いである。しかも、米国にはいろいろな人種が混在している。そこで、もし、人種により治療効果に差がある場合には、全てのデータを統合して１つの母集団として解析すると、特定の人種、特にデータ数が少ない人種の情報が埋没して失われる可能性が高い。

今回用いた治験結果は、全部で１５０検体であり、その中には、白人、黒人、ネイティブアメリカンの３種類の人種が含まれていた。内訳は、白人６０検体、黒人が７０検体、ネイティブアメリカンが２０検体であった。日本人は、ネイティブアメリカンに最も近い人種と考えられるので、ネイティブアメリカンに関する情報を重要視するべきであると考えられる。

しかし、ネイティブアメリカンの検体数は白人や黒人の検体数に比べて少ないため、これら全１５０検体を１つの母集団として解析した場合、ネイティブアメリカンのみに強く見られる傾向は、隠れてしまう可能性がある。しかしながら、本発明による手法を用いることにより、米国での治験結果を日本人に対する新治療方法有効性予測に効率的に利用することが可能である。

具体的には、検体データを人種毎に分類し、白人、黒人、ネイティブアメリカンの３つの集団とした。白人検体データベースには、白人６０検体について、新治療法と関連がありそうなＳＮＰを８箇所測定した結果と、各検体で新治療法が有効だったか無効だったかの治療結果が保存されている。

同様に、黒人検体データベースには、黒人７０検体について、８箇所のＳＮＰと治療結果が保存されている。ネイティブアメリカン検体データベースには、ネイティブアメリカン２０検体分のＳＮＰデータと治療結果が保存されている。

なお、今回測定した８箇所のＳＮＰを、a〜hと呼ぶことにする。これら８箇所のＳＮＰのうち、任意の２つを組み合わせ、（８×７）／２＝２８種類のＳＮＰ組合せを一覧にした遺伝子多型組合せリストを作成した。さらに、該リストの各遺伝子多型組合せに対応する対立遺伝子型の組合せリストを作成した。

まず、ネイティブアメリカン検体データベース中のデータを用いて、遺伝子型の組合せと治療の有効性の関連性を演算した。本解析では、カイ２乗検定を行い、P値が0.05以下の場合に有意の関連があるとした。その結果を図１８に示す。図１８の関連性一覧表は、「ネイティブアメリカン関連性一覧表」である。

No.は通し番号であり、第１の遺伝子と第２の遺伝子の欄には組み合わせた２つの遺伝子多型が位置する遺伝子名が記載されている。多型組合せ欄には、対立遺伝子型の組合せを示す番号が記載されている。その具体的内容は、対立遺伝子型の組合せリストが参照される。本実施例では図１３−(1)のリストを用いることができる。第一の実施例と同様に、指定した多型組合せを持つ検体をＡ群に分類し、それ以外の検体をＢ群に分類している。ＳＲ（Ａ）、ＮＲ（Ａ）、ＳＲ（Ｂ）、ＮＲ（Ｂ）は、第一の実施例と同様に、Ａ群に分類され著効だった検体数、Ａ群に分類され非著効だった検体数、Ｂ群に分類され著効だった検体数、Ｂ群に分類され非著効だった検体数をそれぞれ示している。

傾向の欄には、Ａ群の方がＢ群に比べて著効率が高い場合を＋と定義し、Ｂ群の方がＡ群に比べて著効率が高い場合を−と定義している。

Ｐ値は、２群間の独立性検定によるＰ値を意味している。上で述べたように、本実施例では、Ｐ値が０．０５以下の場合に有意の関連があるとみなして、関連性一覧表に記載している。しかしこれに限らず、第一の実施例のようにＹaｔｅｓの補正を加えたＰ値を用いて判定してもよいし、他の基準を用いても良い。

同様の手順で、白人検体データデータベースを用いて白人関連性一覧表を作成する。同様に、黒人検体データデータベースを用いて黒人関連性一覧表を作成する。次に、集団比較手段によって、異なる集団間に共通して有意の関連が見られたＳＮＰ組合せを抜き出して、第２の関連性一覧表を作成する。本実施例によるその具体的内容を図１９に示す。

第一の実施例では集団が２個だったので、２個の集団に共通して有意の関連があると判断されたＳＮＰ組合せを第２の関連性一覧表に記載した。しかし、第２の実施例では、集団が３個存在する。そこで、３個の集団全てに共通して有意の関連があると判断されたＳＮＰ組合せのみを第２の関連性一覧表に載せることができる。しかしながら、本実施例では、第２の関連性一覧表に記載するＳＮＰの選定に以下のような基準を用いた。

というのは、上で述べたように、本解析の目的は、将来、日本人のＣ型肝炎患者治療に利用することである。治療効果は人種によりかなり異なると予想される。例えば、本実施例において、白人の著効例と非著効例はそれぞれ３８と２２で著効率は６３％なのに対し、黒人ではそれぞれ２０と５０で著効率は２９％である。白人と黒人では著効率が有意に（Ｐ＝０．００００７）異なった集団であることが分かる。

そして、ネイティブアメリカンでは著効例１１、非著効例９で著効率は５５％であり、ネイティブアメリカンと黒人の間では著効率に有意（Ｐ＝０．０２８）の差が見られる。従って、新治療法の有効性は人種によって異なる可能性が高いと考えるのが自然である。

さて、日本人は、人種としてはネイティブアメリカンに最も近いと一般に考えられている。従って、ネイティブアメリカンにおいて有意の関連が見られたＳＮＰ組合せを重要視したい。そこで、集団比較手段によって、ネイティブアメリカンと少なくとも他の１集団において、共通して有意の関連が見られたような組合せを選出するようにプログラムを設定した。

従って、ネイティブアメリカンと白人に共通して重要な組合せ、あるいは、ネイティブアメリカンと黒人に共通して重要な組合せ、あるいは、ネイティブアメリカンと黒人と白人の３つの集団に共通して有意の関連があるような組合せが、図１９に示す第２の関連性一覧表にリストアップされている。

図１９において、No.1及びNo.2は遺伝子多型（ＳＮＰ）aとbの組合せである。この対立遺伝子型の組合せは、図１３の識別番号９の組合せである。No.1のネイティブアメリカンの集団とNo.2に示す黒人の集団で、新治療法の有効性とＳＮＰ組合せの間に有意の関連が見られた。この関連は、ネイティブアメリカンでも黒人でもＢ群の方がＡ群より著効率が高かった。両集団で関連の傾向が一致しているので、No.1とNo.2は第３の関連性一覧表にも記載される。

なお、このＳＮＰ組合せに関しては、白人の集団では有意の関連が見られなかった。参考のためにNo.8として示した。白人集団ではＰ値が0.0638であり、0.05よりも大きいため、関連は無しと判断された。

No.３及びNo.４は、ネイティブアメリカンと白人の集団において、遺伝子aと遺伝子ｇの組合せであり、且つ対立遺伝子型の組合せが識別番号１６の組合せである。この組合せは、新治療法の有効性と有意の関連が見られたことを示している。ただし、傾向は、ネイティブアメリカンが−であり、反対に白人は＋であった。従って、この組合せは第３の関連性一覧表には記載されない。

No.5〜７は、ネイティブアメリカン、白人、黒人の３つの集団すべてにおいて、新治療法有効性と有意の関連が見られた組合せである。また、傾向も３集団全てにおいて＋であるので、これらは第３の関連性一覧表にも記載される。

本発明による遺伝子診断システムでは、第３の関連性一覧表に記載された遺伝子多型組合せをマーカーとして用いる。従って、マーカーとして用いるのは遺伝子aと遺伝子bの組合せで対立遺伝子型組合せが識別番号９の場合、及び、遺伝子fと遺伝子gの組合せで、対立遺伝子型組合せが識別番号４の場合の２種類の組み合わせである。以降、前者を組合せＵ、後者を組合せＶと称する。

次に候補選択手段によって、何れの組合せが最も好適の使用できるかを選択する。しかしながら、本実施例では候補となる組合せが２個しか見つからなかったため、この２個を変数として用い、診断式作成手段によって診断式を作成した。

まず、i番目の検体の遺伝子組合せＵがＡ群に分類される場合、u(i)＝１と数値化した。またＢ群に分類される場合は、u(i)＝−１と数値化した。同様に、i番目の検体の遺伝子組合せＶが、Ａ群に分類される場合は、v(i)＝１と数値化した。また、Ｂ群に分類される場合はv(i)＝−１と数値化した。さらに、各検体の治療結果をy(i)とし、新治療法が有効だったケースはy(i)=1、無効だったケースはy(i)=０とした。

以上のように数値化して、u(i)とv(i)からy(i)を予測するような重回帰直線Y＝au＋ｂｖを決定し、診断式Ｙとした。このようにして決定した診断式Yは、あるＵとＶの場合における予想著効率を与える。

実際の診断システムでは、未知の検体の遺伝子組合せＵとＶを測定し、診断式Y=au + bvに代入する。その結果、Yが0.3未満の場合には新治療法は無効、0.3以上且つ０．７未満の場合は不明、０．７以上の場合は有効という遺伝子診断結果を出力するように設定した。

実際にこのシステムを日本国内の医療機関で使用した結果、診断式の寄与率は60%で、非常に良好な結果であった。よって、本発明の方法に拠れば、このように精度の高い診断式が得られることが示された。ここで、本発明の方法に従うことにより、高い精度の診断式が得られる理由を説明する。

一般に、統計処理を行う際は、データ数が多いほど精度の高い統計処理ができる。しかし、遺伝子診断のような新分野では、ヒト遺伝子の全てが解明されているわけではない。また、疾病発病率や治療法の有効性は、遺伝子のみで決まるわけではなく、食生活、運動習慣、既往歴、合併症等のさまざまな環境要因にも依存する。

したがって、検体全てを同一の母集団として考えるのは必ずしも適切ではない。診断したい問題ごとに、影響しそうな環境要因を考慮して、母集団を分けたほうが、有効な情報が得られる場合がある。

本実施例では、米国での治験データにはさまざまな人種が含まれていることに着目して、白人、黒人、ネイティブアメリカンの３個の母集団を分割した。ここで、図１９に示した第２の関連性一覧表中のNo.1、No.2、及び、No.8に着目する。No.1とNo.2は、aとbの組み合わせで対立遺伝子型組合せが9の場合である。この場合は、ネイティブアメリカンと黒人の母集団ではそれぞれ治療法有効性と有意の関連が見られた。しかし、No.8の白人では、P=0.0638であり、有意の関連は見られなかった。

本実施例では、母集団を人種別に３個に分けた。さらに、ネイティブアメリカンは日本人に近いと考えられることから、ネイティブアメリカンを重要視して、ネイティブアメリカンと他の１集団に共通する組合せを採用した。

しかし、もし、検体数が多い方がよいという原則に基づいて解析を行ったとしよう。この場合、１５０検体のデータは全てが１個の母集団に含まれる。その場合は、No.1とNo.2に示した組合せは、ＳＲ(A)＝38、ＮＲ(A)=53、ＳＲ(B)=31、ＮＲ(B)=28であった。そして、Ａ群の著効率は４２％であり、Ｂ群の著効率は５３％であり、両者にあまり差が見られない。実際にカイ二乗検定を行うと、P=0.195となり、このＳＮＰ組合せと新治療法有効性との間には関連がないという結論になった。即ち、ＵのＳＮＰ組合せは、従来の手法では見出されなかったことを意味している。

ここで、No.1とNo.2のケースの組合せＵが存在しなかったと仮定し、No.5、No.6、No.7の組合せＶのみをマーカー候補として診断式を作成した。この診断式を用いて、日本の医療機関での治療結果を解析した。すると、寄与率は３０％弱であった。

以上のように、本発明を用いることにより、従来方法では認識されないマーカー候補を選定することが可能であり、精度の良い診断式、並びに診断方法及びシステムを提供することが可能になった。

［実施例３］
本発明の第３の実施形態に係る実施例を説明する。具体的には、第１の実施例においてインターフェロン有効性に関わるマーカー候補を選定した後（第３の関連性一覧表）、生物学的な知識に基づいて更なる絞込みを行う方法を説明する。

ここでは、生物学的知識に基づいてインターフェロン有効性に関わるマーカー候補を絞り込む方法として、文献情報を活用したシステムバイオロジー的手法用いた。

インターフェロンが細胞に作用した場合、細胞内ではインターフェロンシグナル伝達経路と呼ばれる一連の反応が惹起されることが知られている。インターフェロンを用いた治療の際にも、このシグナル伝達経路が主に作用していると考えられる。

このことから、インターフェロン治療の有効性に関わる遺伝子、或いはその産物であるタンパク質は、インターフェロンシグナル伝達経路を含む細胞内の制御システム（以下、「インターフェロンシグナル伝達系システム」と称す。）に関わっていることが推測される。

従って、本実施例では、第３の関連性一覧表に記載されたマーカー候補に関して、インターフェロンシグナル伝達系システムとの関連性の有無を指標にし、更なる絞り込みを行った。そのフロー図を図２０に示した。

まず、インターフェロンシグナル伝達系システムに関する生物学的知識を収集する（S01〜S04）。本実施例では、医学・生物学関連の最大の文献データベースであるPubMed（http://www.ncbi.nlm.nih.gov/）のキーワード検索を行った。

工程S01では、インターフェロンシグナル伝達系に関連する遺伝子名、タンパク質名、更に統計学的手法により絞り込んだマーカー候補の遺伝子名等をキーワードとし、これらを適宜組み合わせて検索式を作成した。

工程S02において、検索式をPubMedに送信し、該当する文献を収集した。工程S03において、収集した文献からインターフェロンシグナル伝達系システムと、第３の関連性一覧表のマーカー候補との関連性に関する内容を抽出した。

この抽出方法としては、専門家が抽出する方法と、自然言語処理技術を活用した計算機による抽出方法等がある。前者の方法では、抽出した情報の正確さが期待できる。後者の方法では、多量の文献を短時間で処理することが可能である。抽出した内容は、計算機が処理できる形式で保存する。

工程04〜07では、工程03で抽出したインターフェロンシグナル伝達系システムとマーカー候補の遺伝子との関連性に関する情報に基づき、全マーカーとインターフェロンシグナル伝達系システムの相関関係を整理する。マーカー候補の各遺伝子が、インターフェロンシグナル伝達系システムと関連性を有しているかを判定する。

本実施例により得られたインターフェロンシグナル伝達系システムとマーカーとの相関関係に関する概要図を図２１に示す。

図２１から、本実施例を行った時点では、ＭＢＬを除く全てのマーカー候補についてインターフェロンシグナル伝達系システムと相関関係を有することが見出された。

特に、ＯＰＮはインターフェロン有効性が見出されたものの、これまでインターフェロンシグナル伝達系システムとの関連が明確ではないものであった。しかしながら本実施例により、インターフェロンシグナル伝達系システムとの関連を有することが示された。これは、本方法の有効性を示すものである。

一方、ＭＢＬについては、今回の解析ではインターフェロンシグナル伝達系システムとの相関が見出されなかったことから、候補から除外した。しかし、本実施例の実行時点ではＭＢＬ遺伝子の転写制御機構がまだ解明されていないことが影響している可能性がある。今後、ＭＢＬの転写制御機構に関する生物学的知識が蓄積されてくると、本実施例の方法を用いて再度解析を行うことにより、インターフェロンシグナル伝達系システムとの相関が見られる可能性はある。

このように、本実施例による方法を用いれば、統計学的手法により絞り込まれたマーカー候補から、更に生物学的知識によっても裏付けられたマーカーを絞り込むことが可能である。よって、インターフェロン有効性遺伝子をより精度良くスクリーニングすることが可能である。

［実施例４］
さらに、本発明の第４の実施形態に係る実施例を説明する。具体的には、第１の実施例においてインターフェロン有効性に関わるマーカー候補を選定した後（第３の関連性一覧表）、生物学的な知識に基づいて更なる絞込みを行う方法を説明する。

ここでは、遺伝子の転写制御機構に関する生物学的知識を活用して、インターフェロン有効性に関わる遺伝子多型の絞り込みを行った。

インターフェロン有効性に遺伝子多型が関与している場合、その作用機序としては主に2種類のものが考えられる。1つは、遺伝子の転写制御機構に作用して遺伝子の発現量に変化を起こすものである。もう1つは、遺伝子がコードしているタンパク質のアミノ酸配列に変化を起こし、かつ、アミノ酸配列の変化によりタンパク質の機能に変化を起こすものである。最近では、前者のような遺伝子多型による作用が薬剤の有効性や副作用に対する個体差に関与している場合があることが注目されている。本実施例でも特に前者の場合に特化したシステムを提案する。

遺伝子の転写制御機構では、転写因子と呼ばれるタンパク質を介した制御が良く知られている。転写因子は、ゲノム上の特定のDNA配列を認識して結合するタンパク質である。転写因子は、各遺伝子の転写制御に関わる領域に結合することによって、特定の遺伝子の転写を促進したり、抑制したりする。

もし、遺伝子多型が転写因子の結合する領域中に存在し、且つ、その多型での取り得る塩基（アリルと呼ぶ）によって、（１）転写因子の結合能が変化する、或いは、（２）結合する転写因子が異なる転写因子に変化する場合、アリルによって転写制御が異なる結果になる可能性がある。このような場合、遺伝子多型が遺伝子の転写制御機構に作用していると捉えることができる。

統計学的に絞り込んだ遺伝子多型、即ち第３の関連性一覧表のマーカー候補の遺伝子多型中に、このような転写制御機構に作用している可能性のあるものがあれば、その多型がインターフェロン有効性に関わる主要な要因となる可能性が高いと考えられる。

本実施例ではこの点に着目し、インターフェロン有効性に関わる遺伝子多型としてピックアップする方法を提示している。具体的には、第３の一覧表のマーカー候補について、その遺伝子多型が転写因子の結合候補領域に含まれ、かつ、その多型のアリルによって、その多型を含む領域に結合することが予測される転写因子が変化する場合、その遺伝子多型がインターフェロン有効性に関わる主要な要因である可能性が高いとする。このような本実施例のフロー図を図２２に示した。

本実施例では、まず、統計学的に絞り込まれたマーカー候補の遺伝子多型のゲノム配列を公共データベースから入手した（工程S11）。本実施例では、公共ゲノムデータベースとしてEnsembl（http://www.ensembl.org/）を用いた。

具体的には、Ensemblでマーカー候補の各遺伝子名をキーワードとして検索を行い、各遺伝子に関してEnsemblに保存されているデータを入手した。そのデータから、各遺伝子およびその近傍の多型を含む領域のDNA配列を入手した。

入手した各遺伝子のDNA配列に基づいて、各遺伝子の各対立遺伝子型に対応するDNA配列も作成した（工程S12）。

続く工程S13では、これらのDNA配列中に含まれる転写因子結合候補部位の予測を行った。DNA配列中に含まれる転写因子結合候補部位の予測に関しては既に幾つか方法が開発されている。本実施例では、ConSite（http://mordor.cgb.ki.se/cgi-bin/CONSITE/consite/）を用いた。このサイトは、Web上で転写因子結合候補部位予測を実行するサービスを行っている。ConSiteのサイトに工程S12で作成したDNA配列を送信し、この配列に含まれる転写因子結合候補部位の予測を実行し、その結果をローカルに保存した。

次に、予測された転写因子結合候補部位のそれぞれについて、各遺伝子の多型が含まれているかどうかを調べた（工程S15）。多型が含まれていた場合には、更に、多型の各アリルによって、結合することが予測される転写因子が変化するかを調べた（工程S16）。予測される転写因子が変化した場合には、その遺伝子の多型をインターフェロン有効性に関わる遺伝子多型としてピックアップした。

図２３は、本実施例でピックアップされた多型の1つ、ＯＰＮ-155である。この多型では、グアニンが欠落している対立遺伝子型と、グアニンを含んでいる対立遺伝子型が存在する。この対立遺伝子型の違いによって、結合することが予測される転写因子が異なる場合があった。図23では、一方の対立遺伝子型のみに結合することが予測された4種類の転写因子名およびその認識する配列を示した。この内の1つＡＭＬ-1については、実際に、ウエットの実験からＯＰＮの転写制御に関与していることが示されており、本実施例の有効性を示している。

マーカー選定システムの概要図。遺伝子多型組合せの概要図。対立遺伝子型組合せの概要図。対立遺伝子型組合せの具体例を示す図。マーカー選定方法の手順を示すフローチャート。関連性一覧表の概要図。第２の関連性一覧表の概要図。第３の関連性一覧表の概要図。マーカー選定システムの他の実施形態の概要図。診断式作成システムの概要図。遺伝子診断システムの概要図。実施例１における検体データベースの一部を示す図。実施例１における、対立遺伝子型組合せリストの概要図。実施例１における関連性一覧表の一部を示す図。実施例１における第２の関連性一覧表の一部を示す図。実施例１における第３の関連性一覧表の一部を示す図。実施例１における診断式を示す図。実施例２における関連性一覧表の一部を示す図。実施例２における第２の関連性一覧表の一部を示す図。実施例３における絞り込み検索のフロー図。インターフェロンシグナル伝達系システムとマーカー候補の遺伝子との関連を示す概要図。実施例４におけるフロー図。ＯＰＮ遺伝子の配列と結合が予測された４種類の転写因子の配列。

符号の説明

１…入力装置、２…処理装置、３…ファイル装置、４…出力装置、５…メインメモリ、６…遺伝子多型データファイル、７…遺伝子多型組合せリストファイル、８…対立遺伝子型組合せリストファイル、９…制御プログラム、１０…コンピュータ、１１…通信ネットワーク、１２,１３…検体データベース、２１…関連性演算手段、２２…集団比較手段、２３…傾向判定手段、２４…候補選択手段、２５…診断式作成手段、２６…診断式選択手段、１００…マーカー選定システム、２００…診断式作成システム、３００…遺伝子診断システム。

Claims

遺伝子診断に用いるためのマーカーを選定するためにコンピュータを、
予め既知の遺伝子多型の同定情報を記録しておく遺伝子多型データ記録手段、
予め前記遺伝子多型データ中の任意の二以上の遺伝子多型を組合せた、遺伝子多型組合せリストを記録しておく遺伝子多型組合せリスト記録手段、
予め前記遺伝子多型組合せリストに記載された各遺伝子多型組合せに関する対立遺伝子型組合せリストを記録しておく、対立遺伝子型組合せリスト記録手段、
複数の検体が属する二以上の集団について、前記既知の遺伝子多型における各検体の遺伝子型、並びに診断事項に対する傾向を記録しておく、集団毎の検体データ記録手段、
前記遺伝子多型組合せリストに記載された各遺伝子多型組合せについて、該各組合せに関する対立遺伝子型組合せリストを読み出し、該リストに記載された対立遺伝子型組合せが、前記診断事項との間に相関を有するかどうかを、前記検体データベースに保存されたデータに基づいて判定する関連性演算手段、
前記関連性演算手段によって相関を有すると判定された遺伝子多型組合せ及びその対立遺伝子型組合せを、前記集団毎に関連性一覧表に記録しておく関連性一覧表記録手段、
前記集団毎の関連性一覧表を比較し、少なくとも二以上の関連性一覧表に共通して存在する遺伝子多型組合せ及びその対立遺伝子型組合せを、第２の関連性一覧表に記録する集団比較手段、
前記第２の関連性一覧表の中から、少なくとも二以上の集団において診断事項に対する傾向が同じである遺伝子多型組合せ及びその対立遺伝子型組合せを選択し、マーカー候補として第３の関連性一覧表に記載する傾向判定手段、
前記手段によって得られたマーカー候補を出力する出力手段、
として機能させるためのマーカー選定プログラム。
前記関連性演算手段は、
前記遺伝子多型組合せリスト中の遺伝子多型組合せ毎に、前記対立遺伝子型組合せリストを読み出し、
該リスト中の各対立遺伝子型組合せについて、前記検体データベースに基づき、該組合せを有する検体をＡ群に分類し、それ以外の検体をＢ群に分類し、
該Ａ群及びＢ群のそれぞれにおいて、診断事項に対する傾向によって、検体を有効群と無効群とに分類し、
該Ａ群及びＢ群における、有効群と無効群との割合に差があるかどうかを検定し、
該検定において有意の差があった遺伝子多型及び対立遺伝子型を、関連性ありと判定する、請求項１に記載のマーカー選定プログラム。
コンピュータを、前記傾向判定手段に続いて、前記第３の関連性一覧表に記載されたマーカー候補から、遺伝子診断用に最適なマーカー候補を選択する候補選択手段として機能させることをさらに含む、請求項１又は２に記載のマーカー選定プログラム。
前記第３の関連性一覧表から最適なマーカー候補を選択する手段は、
各集団の相関係数を平均し、該平均値が最大である遺伝子多型組合せ及びその対立遺伝子型組合せを選択する手段である、請求項３に記載のマーカー選定プログラム。
遺伝子診断式を作成するために、コンピュータを、
請求項１又は２における前記第３の関連性一覧表のマーカー候補について、集団毎に、前記Ａ群に属する検体をＸ＝−１とし、前記Ｂ群に属する検体をＸ＝＋１とするか、Ａ群に属する検体をＸ=＋１、Ｂ群に属する検体をＸ＝−１とするか、或いはＡ群に属する検体をＸ＝α、Ｂ群に属する検体をＸ＝βとし（ただし、αとβは互いに異なる任意の数である）、また、前記治療の有効性及び／又は病気のかかり易さによって、各検体をｙ=1、又はｙ=0とし、
各集団に対する診断式Ｙ＝ａＸ＋ｔ（ここで、ａ及びｔは定数である）を作成する診断式作成手段、
作成された診断式を出力する出力手段、
として機能させるための診断式作成プログラム。
前記診断式作成手段に続いて、前記作成された診断式から、最適な診断式を選択するために、コンピュータを、
前記各マーカー候補の各集団に対する診断式の、それぞれの集団に対する寄与率Ｋを演算する手段、
該寄与率Ｋの平均値が最大であるマーカー候補の診断式を選択する選択手段、
選択された診断式を出力する出力手段、
として機能させるための、請求項５に記載の診断式作成プログラム；
ここにおいて、
寄与率Ｋは診断式の精度を評価するパラメータであり、

で表され、
ただし、

は残差平方和であり、

はｙの全変動である。
請求項１〜４の何れかにおいて選定されたマーカーを用いて、診断対象検体を遺伝子診断するためのシステムであって、
請求項１〜４の何れかにおいて選定されたマーカーを読み込む手段、
予め測定された診断対象検体の遺伝子配列を入力する手段、
前記選定されたマーカーと同様の遺伝子多型組合せ及びその対立遺伝子型組合せが、該検体中に存在するか否かを判定する手段、
該判定に基づき、該検体を診断する手段、
該診断結果を出力する手段、
とを具備してなることを特徴とする遺伝子診断システム。
請求項５又は６において作成された診断式を用いて、診断対象検体を遺伝子診断するためのシステムであって、
請求項５又は６の何れかにおいて作成された診断式を読み込む手段、
予め測定された診断対象検体の遺伝子配列を入力する手段、
前記診断式に、該検体のデータを適用し、予想率を得る手段、
得られた予想率を出力する手段、
とを具備してなることを特徴とする遺伝子診断システム。
遺伝子診断に用いるためのマーカーを選定するための装置であって、
予め既知の遺伝子多型の同定情報を記録しておく遺伝子多型データ記録手段、
予め前記遺伝子多型データ中の任意の二以上の遺伝子多型を組合せた、遺伝子多型組合せリストを記録しておく遺伝子多型組合せリスト記録手段、
予め前記遺伝子多型組合せリストに記載された各遺伝子多型組合せに関する対立遺伝子型組合せリストを記録しておく、対立遺伝子型組合せリスト記録手段、
複数の検体が属する二以上の集団について、前記既知の遺伝子多型における各検体の遺伝子型、並びに診断事項に対する傾向を記録しておく、集団毎の検体データ記録手段、
前記遺伝子多型組合せリストに記載された各遺伝子多型組合せについて、該各組合せに関する対立遺伝子型組合せリストを読み出し、該リストに記載された対立遺伝子型組合せが、前記診断事項との間に相関を有するかどうかを、前記検体データベースに保存されたデータに基づいて判定する関連性演算手段、
前記関連性演算手段によって相関を有すると判定された遺伝子多型組合せ及びその対立遺伝子型組合せを、前記集団毎に関連性一覧表に記録しておく関連性一覧表記録手段、
前記集団毎の関連性一覧表を比較し、全ての関連性一覧表に共通して存在する遺伝子多型組合せ及びその対立遺伝子型組合せを、第２の関連性一覧表に記録する集団比較手段、
前記第２の関連性一覧表の中から、全ての集団において診断事項に対する傾向が同じである遺伝子多型組合せ及びその対立遺伝子型組合せを選択し、マーカー候補として第３の関連性一覧表に記載する傾向判定手段、
前記手段によって得られたマーカー候補を出力する出力手段、
を具備する、遺伝子診断用のマーカー選定装置。
前記関連性演算手段は、
前記遺伝子多型組合せリスト中の遺伝子多型組合せ毎に、前記対立遺伝子型組合せリストを読み出し、
該リスト中の各対立遺伝子型組合せについて、前記検体データベースに基づき、該組合せを有する検体をＡ群に分類し、それ以外の検体をＢ群に分類し、
該Ａ群及びＢ群のそれぞれにおいて、診断事項に対する傾向によって、検体を有効群と無効群とに分類し、
該Ａ群及びＢ群における、有効群と無効群との割合に差があるかどうかを検定し、
該検定において有意の差があった遺伝子多型及び対立遺伝子型を、関連性ありと判定する、請求項９に記載のマーカー選定装置。
前記第３の関連性一覧表に記載されたマーカー候補から、遺伝子診断用に最適なマーカー候補を選択する候補選択手段をさらに含む、請求項９又は１０に記載のマーカー選定装置。
前記第３の関連性一覧表から最適なマーカー候補を選択する手段は、
各集団の相関係数を平均し、該平均値が最大である遺伝子多型組合せ及びその対立遺伝子型組合せを選択する手段である、請求項１１に記載のマーカー選定装置。
遺伝子診断式を作成するための装置であって
請求項９又は１０における前記第３の関連性一覧表のマーカー候補について、集団毎に、前記Ａ群に属する検体をＸ＝−１とし、前記Ｂ群に属する検体をＸ＝＋１とするか、Ａ群に属する検体をＸ=＋１、Ｂ群に属する検体をＸ＝−１とするか、或いはＡ群に属する検体をＸ＝α、Ｂ群に属する検体をＸ＝βとし（ただし、αとβは互いに異なる任意の数である）、また、前記治療の有効性及び／又は病気のかかり易さによって、各検体をｙ=1、又はｙ=0とし、
各集団に対する診断式Ｙ＝ａＸ＋ｔ（ここで、ａ及びｔは定数である）を作成する診断式作成手段、
作成された診断式を出力する出力手段、
を具備する、遺伝子診断式作成装置。
前記各マーカー候補の各集団に対する診断式の、それぞれの集団に対する寄与率Ｋを演算する手段、
該寄与率Ｋの平均値が最大であるマーカー候補の診断式を選択する選択手段、
選択された診断式を出力する出力手段、
を具備する、請求項１３に記載の遺伝子診断式作成装置：
ここにおいて、
寄与率Ｋは診断式の精度を評価するパラメータであり、

で表され、
ただし、

は残差平方和であり、

はｙの全変動である。
請求項５又は６において作成された遺伝子診断のための診断式が記録されたコンピュータ読み取り可能な記録媒体。