この出願は、米国法 35 U.S.C. §119(e) に基づく優先権の利益を主張する。2016 年 6 月 16 日に出願された第 62/351,056 号の内容全体が参照により本明細書に組み込まれる。
本発明は、エピゲノム解析のための革新的な計算方法に基づいている。エピジェネティクスは、細胞分裂を通じて遺伝性のあるDNA配列に依らない情報を運ぶゲノム修飾として定義される。1940年、ワディントン(Waddington)は多能性と分化に対する比喩として「エピジェネティック・ランドスケープ(epigenetic landscape)」という用語を作り出したが、エピジェネティック・ポテンシャル・エネルギー・ランドスケープ(epigenetic potential energy landscapes)はまだ厳密には定義されていなかった。本明細書は、十分に根拠のある生物学的な仮定並びに統計物理学及び情報理論の原理を使用して、全ゲノム・バイサルファイト・シークエンシング・データ(whole genome bisulfite sequencing data)、又はメチル化状態に関する他のデータ・ソースから、ポテンシャル・エネルギー・ランドスケープを導出することを記載する。そして、それによって、シャノンのエントロピー(Shannon’s entropy)とジェンセン‐シャノン距離(Jensen-Shannon distance)を使った、ゲノム‐ワイドなメチル化確率(methylation stochasticity)及びエピジェネティックの差異を定量化することが可能となる。本明細書は更に、これ以前の平均に基づくメチル化解析では隠れていた重要な発生遺伝子を発見すること、及びエントロピーとクロマチン構造との間の関係を探究することについて論じる。メチル化メンテナンス(methylation maintenance)をコミュニケーション・システムと見ることにより、メチル化チャネル(methylation channels)を解析方法に導入し、メチル化メンテナンスの情報的特性から高次クロマチン構造(higher-order chromatin organization)を予測できることを示す。本明細書における結果によって、エピゲノムの情報‐理論的な性質の基本的な理解、並びに疾患及び加齢におけるエピゲノムの役割を研究するための強力な方法論が提供される。
本組成物及び方法が記載される前に、本発明は記載された特定の方法及び実験条件に限定されず、そのような組成物、方法、及び条件は変動し得ることを理解すべきである。本発明の範囲は添付の特許請求の範囲でのみ限定されるため、本明細書で使用される用語は特定の実施形態を説明することのみを目的としており、限定することを意図するものではない。
この明細書及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」、及び「the」は、複数を言及することを含む(文脈が明らかにそうでないことを指示しない限り)。したがって、例えば、「本方法(the method)」と言及することは、この明細書等を読めば当業者には明らかとなるであろう、本明細書に記載のタイプの 1 つ以上の方法及び/又は工程を含む。
他に定義されない限り、本明細書で使用される全ての技術的及び科学的用語は、本発明が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載のものと類似する又は均等であるいかなる方法及び材料も、本発明の実施又は試験に使用することができるが、好ましい方法及び材料をここに記載する。
確率(stochasticity)を数学的枠組みに有機的に組み入れるために統計物理学及び情報理論の原理を使用すること、並びにその統計物理学及び情報理論の原理を一次全ゲノム・バイサルファイト・シークエンシング(whole genome bisulfite sequencing(WGBS))データセットに適用することを、エピジェネティック情報の性質を理解することに向けた基本的アプローチとしてとった。その結果により、エピジェネティックな生物学の「固定された(hard-wired)」力学的原理を統計物理学のイジング・モデル(Ising model)に組み合わせることが可能となり、比喩的な「ワディントニアン(Waddingtonian)」ランドスケープとは対照的に、ゲノム‐ワイドに計算できるエピジェネティック・ポテンシャル・エネルギー・ランドスケープを厳密に導き出すことが可能となる。これらのランドスケープは、これまで普通であった単なるメチル化の平均ではない、メチル化のより高次で統計的な挙動を生物学的に関連する方法で包含するものである。
メチル化の不確実性(methylation uncertainty)を、シャノンのエントロピー(Shannon’s entropy)を使ってゲノム‐ワイドに定量化する。更に、幹細胞、組織系統及びがんに関連した、サンプル特異的なポテンシャル・エネルギー・ランドスケープ間のジェンセン‐シャノン距離(Jensen-Shannon distance)を使った、エピゲノムを区別するための強力な情報‐理論的方法論を提供する。これらを、2 つのゲノム間のメチル化状態において、より高次の統計的な差を示すが、これ以前の平均に基づくメチル化解析では隠れていた重要な発生遺伝子を発見するために使用する。エントロピーとトポロジカル関連ドメイン(topologically associating domains(TADs))との間の関係も確立し、その関係によって個々の WGBS サンプルから、それらの 境界を効率的に予測することが可能となる。
メチル化チャネル(methylation channels)を、DNA のメチル化メンテナンス(methylation maintenance)のモデルとして導入し、機械学習を使用して、それらの情報的特性をより高次なクロマチン構造(higher-order chromatin organization)を予測するために有効に使用できること、を示す。最後に、感受性指数(sensitivity index)を導入して、環境の又は外的な撹乱(perturbations)がゲノムのメチル化の不確実性(methylation uncertainty)に影響を与える割合を定量化し、高感受性と関連するゲノム遺伝子座は、そのような撹乱(perturbations)によって最も影響を受ける遺伝子座であるということを提唱する。
エピジェネティック生物学、統計物理学及び情報理論がこのように融合することによって、正常な発生及び疾患における、エピゲノムの情報‐理論的特性と核の構成との間の関係に対する多くの基本的洞察がもたらされ、そして、個々の WGBS サンプルの情報的特性とクロマチン構造、並びに組織系統、加齢、及びがんの間のそれらの差を本発明者らが正確に同定できることが、実証される。
<計算方法>
本発明は、確率(stochasticity)と不確実性(uncertainty)の役割を考慮したエピジェネティック解析の方法を提供する。
ポテンシャル・エネルギー・ランドスケープ(potential energy landscape)
ある実施形態では、本発明は、1 つ以上のゲノム・サンプル内のゲノム領域のエピジェネティック・ポテンシャル・エネルギー・ランドスケープ(potential energy landscape(PEL))、又は対応する同時確率分布(joint probability distribution)を計算することを含むエピジェネティック解析を実施するための方法を提供する。前記 PEL を計算することは以下を含む:a)ゲノムを別々のゲノム領域に分節すること;b)パラメトリック統計モデル(以下、ザ・モデル(The Model)と呼ぶ)を、個々のメチル化部位におけるメチル化状態間の依存性を考慮しているメチル化データに、ザ・モデルのパラメータの数をゲノム領域内のメチル化部位の数内で幾何学級数的よりも穏やかに増やしながら、合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)前記ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内の PEL 又は対応する同時確率分布を計算及び解析し、それによってエピジェネティック解析を実行すること。
確率的な変動が DNA のメチロームの基本的性質であると知られているにもかかわらず、メチル化状態のゲノム‐ワイドなモデリング及び解析は、個々の CpG ジヌクレオチドばかりにずっと注目したままでいて、これらの部位間の統計的依存性を無視している。しかしながら、 DNA のメチル化は、DNMT 酵素による処理能力のために、少なくとも短い距離にわたっては、相関している。従って、そのような相関を考慮に入れない方法ではメチル化を適切に解析することはできない。この目的のために、そして確率的なエピジェネティックのゆらぎ(stochastic epigenetic fluctuation)と表現型のばらつき(phenotypic variability)との間の関係をよりよく理解するために、統計物理学のイジング・モデル(Ising model)に基づく情報‐理論的なアプローチを開発することを、ここでは、メチル化モデリング及び解析への一般的な道筋として採用する。このアプローチは、ポテンシャル・エネルギー・ランドスケープを厳密に定義し、各メチル化状態をその状態の情報量を定量化するポテンシャルと関連付ける。イジング・モデルは、観測された平均及びペアワイズ相関(pairwise correlations)と一致し、統計的に依存する 2 値化したメチル化データをモデル化する自然な方法を提供する。
ここでは、 DNA のメチル化を、内因性及び外因性の確率的な生化学的ゆらぎに対して堅牢な方法で、細胞からその子孫に、2 値化した(0-1)データの線形文字列(linear strings)を信頼性をもって転送する過程と見なす。まず、N 個の CpG 部位を含む所与のゲノム領域内のメチル化状態を、それぞれ、n 番目の CpG 部位が非メチル化状態にあるかメチル化状態にあるかによって、n 番目の要素 X
n が値 0 又は 1 をとるN 次元 2 値ランダム・ベクトル X によってモデル化する。次に、メチル化のポテンシャル・エネルギー・ランドスケープ(PEL)を、次のように定義する、
V
X(x)=φ
0-logP
X(x) (1)
こで、φ
0 はある定数で、P
X(x)は前記ゲノム領域内のメチル化状態 x の同時確率である。結果として、P
X(x)は統計物理学のボルツマン‐ギブス分布となり、
で与えられる。V
X(x)は状態エネルギーであり、分配関数
である。
ポテンシャル V
X(x)-φ
0は、メチル化状態 x に関連する情報量を定量化し、-logP
X(x)によって与えられる。
周知の最大エントロピー原理を使用することによって、メチル化の平均及びペアワイズ相関(pairwise correlations)と一致するボルツマン‐ギブス分布を具体的に選択することについての不確実性(uncertainty)を最大にする PEL は、
によって与えられると決まる。ここで、{a
1,…,a
N}と{c
1,…,c
N}はあるパラメータである。これにより、一次元の最近傍イジング・モデルによってモデル化されるメチル化確率 P
X(x) が導かれる。パラメータ a
n は、非協同的因子によりメチル化される n 番目の CpG 部位の傾向に影響を与え、正の a
n はメチル化を促進し、負の a
n はメチル化を阻害する。一方、パラメータc
n は、協同的因子による 2 つの連続した CpG 部位 n 及び n-1 のメチル化状態間の相関に影響を与え、正の c
n は正の相関を促進し、負の c
n は負の相関(反相関)を促進する。
前記 PEL を計算することは、メチル化データからパラメータ{a
1,…,a
N}及び{c
1,…,c
N}値を推定することを必要とする。多数 N 個の CpG 部位を含む所与の染色体については、2N-1 個のパラメータを推定しなければならず、このために、低から中程度のカバレッジ(coverage)のシークエンシング・データにおいて信頼できる推定をすることは不可能である。この問題に取り組むために、染色体を、それぞれ 3000 塩基対の長さである(長さは推定と計算のパフォーマンスとのバランスをとることで決める)、比較的小さく等しいサイズの重ならない領域(以下、ゲノム領域(genomic regions)と呼ぶ)に分節する。
更に、前記パラメータ a
n及び c
n を、
を満たすようにする。
ここで、
は、CpG 部位
n を中心とした対称的な 1000 ヌクレオチドの近傍内の CpG 密度であり、
によって与えられ、d
nは、CpG 部位
n とその「最近傍(nearest-neighbor)」CpG 部位
n-1 の距離であり、
によって与えられる。
パラメータαは、ゲノム領域にわたって CpG のメチル化に一様に影響を及ぼす内因性因子を表し、一方、パラメータβは、CpG 密度がメチル化に与える影響を調節する。DNMT 酵素が DNA に沿ってより長く移動しなければならないほど、次の CpG 部位に到達する前に DNA から解離する確率がより高くなるから、2 つの連続した CpG 部位のメチル化の間の相関は、これらの 2 つの部位間の距離が増加するにつれて減少する、という期待値を、c
nに関する先の表現は表している。この場合、ゲノム領域内の PEL は、
によって与えられることを示すことができる。ここで、N はゲノム領域内の CpG 部位の数であり、パラメータα'及びα''は、染色体全体と関連する PEL を、染色体の中のゲノム領域と関連する個々の PEL に制限するときに生じる境界効果(boundary effects)を表す。
前記 PEL は、ゲノム領域内のメチル化が 2 つの異なる要因に依存するという見方を包含する:即ち、DNA 配列自体から容易に決定できる値であり、式 (6) によって定義される CpG 密度pn及び式 (7) によって与えられる距離dnによって定量される、その位置におけるゲノムの根本的な CpG 構造、並びに利用可能なメチル化データから推定しなければならない値であり、イジング・モデルのパラメータによって定量化される、メチル化機構によって提供される核内の現在の生化学的な環境、である。
ゲノム領域内の PEL を計算することは、ゲノム領域内のメチル化データから僅か 5 つのパラメータθ=[α'αα''βγ]に関する値を推定することを必要とする。この推定は、最尤アプローチ(maximum-likelihood approach)によって実施され、それはその値を計算して平均対数尤度関数
を最大にする θの値を計算する。ここで、x
1,x
2,・・・,x
Mは、ゲノム領域内のメチル化状態の M 個の独立した観察である。現在の実験方法によって測定されるのは、一部の観察可能なメチル化状態であるということを考慮するために、メチル化確率P
X(x
m|θ)を、メチル化情報が測定されるそれらの部位のみにわたる同時確率分布によって置き換える。更に、統計的な過剰適合を避けるために、10 個未満しか CpG 部位が存在しない領域はモデル化しない。そして、同じことを、メチル化状態が測定されるのが CpG 部位の 2/3 未満である、又はカバレッジの平均の深さ(average depth of coverage)が CpG 部位当たり 2.5 未満の観察である、ことによってデータが十分ではない領域に対しても、適用する。加えて、尤度最大化を、多目的協同検索(multilevel coordinated search(MCS))、汎用グローバル非凸(a general-purpose global non-convex)及び微分のない最適化アルゴリズム(derivative-free optimization algorithm)によって実行する。
メチル化状態 x の同時確率を評価するには、ボルツマン‐ギブス分布の分配関数 Z を計算することが必要であるが、これは、式 (3) から直接計算することはできない。なぜなら、Z は、ゲノム領域内の CpG 部位の数 N 内で、幾何学級数的に(2
N)増える、多数の別個の状態にわたる合計として表されるからである。しかし、それは
Z=Z
1(0)+Z
1(1) (9)
と示すことができる。
ここで、Z
1は次の漸化式を使用して計算される:
並びに
を使用する、任意のメチル化状態の確率の評価が可能となる。
イジング・モデルは CpG 密度と距離に依存するため、その統計的特性はゲノム領域内で異なる可能性があり、高分解能のメチル化解析には、前記ゲノムのより小さな領域を使用する必要があることを示唆している。ヌクレオソーム内の DNA の長さと一致して、各ゲノム領域を更に、それぞれ 150 塩基対の小さい、そして等しいサイズの重ならない領域(以下、ゲノム・サブ領域と呼ぶ)に分節し、メチル化解析を 1 ゲノム・サブ領域の分解能で行う。
ゲノム・サブ領域内では、エピジェネティックの調節は、ゲノム・サブ領域内のメチル化の特定の構成によってではなく、メチル化された部位の数によって制御されている可能性が最も高い。この理由のため、ゲノム・サブ領域内のメチル化は、次式によって与えられるメチル化レベル L(ゲノム・サブ領域内のメチル化 CpG 部位の割合)によって定量化される。
ここで、N はゲノム・サブ領域内の CpG 部位の数であり、Xn はゲノム・サブ領域の n 番目の CpG 部位が、メチル化されていないかメチル化されているかによるかどうかに、応じて それぞれ 0 又は 1 の値をとる、2 値化された確率変数である。
N 個の CpG 部位を有するゲノム・サブ領域内のメチル化レベルは、確率分布
によって統計的に特徴付けられるが、これはゲノム・サブ領域内のメチル化状態の確率分布 Pr[X=x]から、次式
によって計算される。ここで、S(Nl)は、ちょうどN×l個の CpG 部位がメチル化されているゲノム・サブ領域内のメチル化状態の数であり、前記メチル化確率 Pr[X=x] は、イジング・モデルを周辺化(marginalizing)することによって 計算される。
イジング確率分布P
X(x
1,・・・,x
N)の周辺化された形式P
X(x
r,・・・,x
r+s ), 1≦r≦r+s≦N を計算することは、
によって、計算において効率的な方法で行う。ここで、Z 及び Z
n(x
n)は式 (9) 及び (10) を使用して計算し、φ
n(x
n,x
n+1)は式 (11) を使用して計算し、Q
r(x
r)は次の漸化式によって計算する:
平均メチル化レベル(mean methylation level)
別の実施形態では、本発明は、ゲノムの平均メチル化状態の計算及び解析を含むエピジェネティック解析を実施するための方法を提供する。前記方法は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;c)ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内の平均メチル化状態を定量化し、それによってエピジェネティック解析を実施すること。
ゲノム・サブ領域内の平均メチル化状態は、メチル化レベルの平均値によって定量化され、これは以下によって与えられる平均メチル化レベル(mean methylation level(MML))と呼ばれる。
ここで、N はゲノム・サブ領域内の CpG 部位の数であり、そして P
n(1)は、ゲノム・サブ領域内の n 番目の CpG 部位がメチル化されている確率である。確率P
n(1)は、周辺化(marginalization)により、ゲノム・サブ領域内のメチル化状態の確率分布P
X(x)から計算される。
前記 MML は、イジング・モデルを使用して、低カバレッジなメチル化データ(low coverage methylation data)からゲノム‐ワイドに信頼性をもって計算することができるメチル化状態の有効な尺度である。更に、MML 値の分布は、選択したゲノムの特徴(例えば、CpG アイランド、アイランド・ショア(island shores)、シェルフ(shelves)、オープン・シー(open sea)、エクソン、イントロン、遺伝子プロモーター等)にわたって計算することができ、従って、第 2 ゲノムと比較して、第 1 ゲノムの前記ゲノムの特徴内で、メチル化がより低い又はより高いレベルであることを示す、メチル化の不確実性(methylation uncertainty)についてのゲノム‐ワイドな解析結果を提供する。
エピジェネティックの不確実性(epigenetic uncertainty)
更に別の実施形態では、本発明は、ゲノムのエピジェネティックの不確実性(epigenetic uncertainty)の計算及び解析を含むエピジェネティック解析を実施するための方法を提供する。前記解析は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び c)前記ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内のメチル化の不確実性(methylation uncertainty)を定量化し、それによってエピジェネティック解析を実施すること。
一次の周辺性質(first-order marginal nature) のために、平均と分散はメチル化とその不確実性(uncertainty)についての狭い見方を提供する。以前のメチル化解析の方法では、エピポリモルフィズム(epipolymorphism)及びコンビナトリアル(ボルツマン)エントロピーの概念を使用することによって、より包括的な見解を提供することが試みられた。しかしながら、これらの方法は、特定のメチル化パターン(エピアレル(epialleles))の確率を実験的に推定することに依存している。本明細書で採用している、モデルに基づいて同時確率及びシャノン・エントロピーを推定することとは対照的に、エピアレルの確率(epiallelic probabilities)、エピポリモルフィズム(epipolymorphisms)及び組合せエントロピー(combinatorial entropies)を実験的に推定することは、WGBS データからルーチンに入手可能なものよりはるかに高いカバレッジを必要とする。又、以前の研究に関して、実験的に推定されたエピポリモルフィズムの 95 %信頼区間が真の値を含まず、潜在的に大きな誤差をもたらすであろうということが、しばしば見出されてきた。
N 個の CpG 部位を含むゲノム・サブ領域内のメチル化の不確実性(methylation uncertainty)は、標準化メチル化エントロピー(normalized methylation entropy(NME))
は、任意のゲノム・サブ領域によって伝達されるエピジェネティック情報の量の平均評価を提供する、ゲノム・サブ領域内のメチル化レベルの情報(シャノン)(Informational(Shannon))エントロピーである。全てのメチル化レベルが同等に可能性がある場合(完全な無秩序状態)、ゲノム・サブ領域内の CpG 部位の数に関係なく、前記 NME はその最大値の 1 を取り、一方で、単一のメチル化レベルが観察される場合(完全な秩序状態)に限り、NME はその最小値の 0 となる。
前記 NME は、イジング・モデルを使用して、低カバレッジなメチル化データ(low coverage methylation data)からゲノム‐ワイドに信頼性をもって計算することができる、メチル化の不確実性(methylation uncertainty)に関する有効な尺度である。更に、NME 値の分布を、選択したゲノムの特徴(例えば、CpG アイランド、アイランド・ショア(island shores)、シェルフ(shelves)、オープン・シー(open sea)、エクソン、イントロン、遺伝子プロモーター等)にわたって計算することができ、それによって、第 2 ゲノムと比較して、第 1 ゲノムの前記ゲノムの特徴内で、メチル化の不確実性(methylation uncertainty)がより低い又はより高いレベルであることを示す、メチル化の不確実性(methylation uncertainty)についてのゲノム‐ワイドな解析結果を提供する。
エピジェネティック距離
別の実施形態において、本発明は、第 1 ゲノムと第 2 ゲノムとの間のエピジェネティックの不一致(epigenetic discordance)を解析すること(1 人以上の患者から入手したゲノムであり、正常状態と、がん等の疾患状態との間のエピジェネティックの不一致(epigenetic discordance)を解析することを含むがこれに限定されない)を含むエピジェネティック解析を実施するための方法を提供する。前記解析は以下を含む:a)第 1 及び第 2 ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルを各ゲノムのメチル化データに合わせることによって、第 1 及び第 2 ゲノムのゲノム領域内のメチル化状態を解析すること;及びc)第 1 と第 2 ゲノムとの間のゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域について、前記確率分布間及び/又はそこから導出される量間の差及び/又は距離を定量化すること;を含み、それによってエピジェネティック解析を行う。
エピジェネティック情報と表現型のばらつきとの間の関係を理解するために、ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))を使用して、ゲノム・サンプルのペア間のエピジェネティックの不一致(epigenetic discordance)を正確に定量することが可能であるが、これは、2 つのゲノム・サンプルにわたって、ゲノム・サブ領域内のメチル化レベルの確率分布間の非類似性を測定するものである。この距離は、正常組織由来のゲノム・サンプルと腫瘍由来のゲノム・サンプルとを区別するために使用され、そしてより一般的には、多様な組織タイプ由来のゲノム・サンプル間を区別するために使用される。
前記 JSD は、以下によって与えられる
は、相対エントロピー又はカルバック‐ライブラー・ダイバージェンス(Kullback-Leibler divergence)である。前記 JSD は、0 と 1 の間の値をとる標準化距離メトリック(normalized distance metric)であり、一方、平方 JSD は、2 つの確率分布 P 又は Q の一方から導き出されるメチル化レベルの値が分布の同一性について提供する平均の情報である。前記 JSD は、2 つの分布が同一である場合にのみ 0 に等しく、2 つの分布が重ならず、従って単一のゲノム・サンプルと完全に区別できる場合には、前記 JSD は、その最大値である 1 になる。
2 つのゲノム・サンプル間のエピジェネティック距離を定量化するために、全ての対応するゲノム・サブ領域ペア間の JSD 値をゲノム‐ワイドに計算し、その値を昇順に並べ、そのリストの中での最小値を、その最小値以下に前記距離の 90 %がなるように、決定する(90 パーセンタイル(90-th percentile))。
ゲノム・サンプル間のエピジェネティックの類似性又は非類似性を視覚化するために、ゲノム・サンプルのペア間のエピジェネティック距離を計算し、その距離を非類似性行列を構築するために使用する。そして二次元表現を、クラスカルのノン‐パラメトリックな方法(Kruskal’s non-metric method)に基づいた多次元スケーリング(multidimensional scaling(MDS))を使用して、適用する。これによって、点間距離がゲノム・サンプル間のエピジェネティックの相違点に対応する、二次元構成の点(two-dimensional configuration of points)を見つける。
メチル化状態の分類
更に別の実施形態では、本発明は、メチル化レベルの確率分布の歪度及び/又は二峰性(bimodality)を検出すること、並びにゲノム領域の平均メチル化状態を、双安定性を含む別々のクラスに分類すること、を含むエピジェネティック解析を実施するための方法を提供する。検出及び分類は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)前記メチル化レベルの確率分布の歪度及び/又は二峰性(bimodality)を検出し、ゲノム領域の平均メチル化状態を、双安定性を含む別々のクラスに分類し、それによってエピジェネティック解析を実施すること。
ゲノムのメチル化状態を分類することは、メチル化解析の重要な部分である。ゲノム・サブ領域内のメチル化状態は、ゲノム・サブ領域を 7 つの別々のクラス:即ち、高度に非メチル化、部分的に非メチル化、部分的にメチル化、高度にメチル化、混合、高度に混合、及び双安定性、のうちの1つに分類することによって、有効に要約される。分類は、ゲノム・サブ領域内のメチル化レベルの確率分布を計算すること、及びこの分布の形状を解析し、その歪度及び/又は二峰性(bimodality)を検出することによってゲノム・サブ領域を 7 つのクラスのうちの 1 つに分類すること、に基づく。解析は確率
を使用してゲノム・サブ領域を分類すること、を含む。少数のゲノム・サブ領域がこのスキームによって分類されないことが分かり、そしてこれらのゲノム・サブ領域をメチル化状態の分類に関する限り無視する。
メチル化の不確実性(methylation uncertainty)の分類
更に別の実施形態では、本発明は、ゲノム領域内のメチル化の不確実性(methylation uncertainty)を別々のクラスに分類することを含むエピジェネティック解析を実施するための方法を提供する。分類は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)ゲノム領域のメチル化の不確実性(methylation uncertainty)を別々のクラスに分類し、それによってエピジェネティック解析を実施すること。
ゲノム中のメチル化の不確実性(methylation uncertainty)を分類することは、メチル化解析のもう一つの重要な部分である。ゲノム・サブ領域内のメチル化の不確実性(methylation uncertainty)は、ゲノム・サブ領域を 5 つの別々のクラス:即ち、高秩序、中秩序、弱秩序/無秩序 、中無秩序、高無秩序、のうちの 1 つに分類することによって有効に要約される。この分類は、ゲノム・サブ領域内の NME h を計算すること及びゲノム・サブ領域を分類することに基づき、以下のスキームを使用する:
・高秩序: 0≦h≦0.28の場合
・中秩序:0.28<h≦0.44の場合
・弱秩序/無秩序:0.44<h<0.92の場合
・中無秩序: 0.92 ≦h<0.99 の場合
・高無秩序 0.99 ≦h≦1の場合。
メチル化領域とメチル化ブロック
別の実施形態において、本発明は、メチル化領域及びメチル化ブロックの計算を含むエピジェネティック解析を実施するための方法を提供する。計算は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)ゲノム全体にわたって、ゲノム領域のメチル化状態を分類すること;d)前記分類結果をメチル化領域及びメチル化ブロックにグループ化し、それによってエピジェネティック解析を実施すること。
ゲノム単位のレベルでのメチル化解析に加えて、遺伝子プロモーター、エンハンサー等のようなゲノムの特徴のレベル、並びにラミナ関連ドメイン(lamina associated domains(LADs))、ラージ・オーガナイズド・クロマチン K9‐修飾(large organized chromatin K9-modifications(LOCKs))等のようなクロマチン構造のレベル、でのゲノムのメチル化状態を解析することは非常に興味深い。これは、ゲノム・サブ領域のレベルよりも粗くメチル化状態を分類することによって達成される。
ゲノムの特徴のレベルで解析するために、5 つのゲノム・サブ領域(5 × 150 = 750 塩基対の長さ)のウィンドウをゲノムに沿ってスライドさせる。各位置において、前記ウィンドウと交差するゲノム・サブ領域の少なくとも 75 %がそれぞれ部分的/高度にメチル化されていると分類される場合、前記ウィンドウをメチル化されているとラベルする。一方、前記ウィンドウと交差する ゲノム・サブ領域の少なくとも 75 %がそれぞれ部分的/高度に非メチル化にあると分類される場合、前記ウィンドウを非メチル化であるとラベルする。次に、全てのメチル化ウィンドウを、和集合の演算を使用してまとめてグループ化し、続いて、非メチル化ウィンドウと重なる領域を削除する。同じ処理を全ての非メチル化ウィンドウに対して行う。この過程によって、全ゲノムに沿って、メチル化又は非メチル化として分類されるメチル化領域(methylation regions(MRs))を生成する。
クロマチン構造のレベルで解析するために、500 個のゲノム・サブ領域(500 × 150 = 75,000塩基対の長さ)のウィンドウをゲノムに沿ってスライドさせる。各位置において、前記ウィンドウと交差するゲノム・サブ領域の少なくとも 75 %がそれぞれ部分的/高度にメチル化されていると分類される場合、前記ウィンドウをメチル化されているとラベルする。一方、前記ウィンドウと交差する ゲノム・サブ領域の少なくとも 75 % がそれぞれ部分的/高度に非メチル化にあると分類される場合、前記ウィンドウを非メチル化であるとラベルする。次に、全てのメチル化ウィンドウを、和集合の演算を使用してまとめてグループ化し、続いて、非メチル化ウィンドウと重なる領域を削除する。同じ処理を全ての非メチル化ウィンドウに対して行う。この過程によって、全ゲノムに沿って、メチル化又は非メチル化として分類されるメチル化ブロック(methylation blocks(MBs))を生成する。
エントロピー領域とエントロピー・ブロック
更に別の実施形態では、本発明は、エントロピー領域及びエントロピー・ブロックの計算を含むエピジェネティック解析を実施するための方法を提供する。計算は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;c)ゲノム全体にわたって、ゲノム領域のメチル化の不確実性(methylation uncertainty)を分類すること;及び、d)前記分類結果をエントロピー領域及びエントロピー・ブロックにグループ化し、それによってエピジェネティック解析を実施すること。
ゲノム単位のレベルでのメチル化解析に加えて、遺伝子プロモーター、エンハンサーなどのゲノムの特徴のレベル、並びにラミナ関連ドメイン(lamina associated domains(LADs))、ラージ・オーガナイズド・クロマチン K9‐修飾(large organized chromatin K9-modifications(LOCKs))等のようなクロマチン構造のレベルでのゲノムのメチル化の不確実性(methylation uncertainty)を解析することは非常に興味深い。これは、ゲノム・サブ領域のレベルよりも粗くメチル化の不確実性(methylation uncertainty)を分類することによって達成される。
ゲノムの特徴のレベルで解析するために、5 つのゲノム・サブ領域(5 × 150 = 750 塩基対の長さ)のウィンドウをゲノムに沿ってスライドさせる。各位置において、前記ウィンドウと交差するゲノム・サブ領域の少なくとも 75 %がそれぞれ中/高秩序であると分類される場合、前記ウィンドウを秩序があるとラベルする。一方、前記ウィンドウと交差する ゲノム・サブ領域の少なくとも 75 %がそれぞれ中/高無秩序であると分類される場合、前記ウィンドウを無秩序であるとラベルする。次に、全ての秩序ウィンドウを、和集合の演算を使用してまとめてグループ化し、続いて、無秩序ウィンドウと重なる領域を削除する。同じ処理を全ての無秩序ウィンドウに対して行う。この過程によって、全ゲノムに沿って、秩序又は無秩序として分類されるエントロピー領域(entropy regions(ERs))を生成する。
ゲノムの特徴のレベルで解析するために、500 個のゲノム・サブ領域(500 × 150 = 75,000塩基対の長さ)のウィンドウをゲノムに沿ってスライドさせる。各位置において、前記ウィンドウと交差するゲノム・サブ領域の少なくとも 75 %がそれぞれ中/高秩序であると分類される場合、前記ウィンドウを秩序があるとラベルする。一方、前記ウィンドウと交差する ゲノム・サブ領域の少なくとも 75 %がそれぞれ中/高無秩序であると分類される場合、前記ウィンドウを無秩序であるとラベルする。次に、全ての秩序ウィンドウを、和集合の演算を使用してまとめてグループ化し、続いて、無秩序ウィンドウと重なる領域を削除する。同じ処理を全ての無秩序ウィンドウに対して行う。この過程によって、全ゲノムに沿って、秩序又は無秩序として分類されるエントロピー・ブロック(entropy blocks(EBs))を生成する。
エピジェネティック・メンテナンス(epigenetic maintenance)の情報的特性
別の実施形態では、本発明は、メチル化チャネル(methylation channels)を介したエピジェネティック・メンテナンスの情報的特性を計算することを含むエピジェネティック解析を実施するための方法を提供する。前記解析は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内のエピジェネティック・メンテナンスの情報的特性(メチル化チャネル(methylation channels)の容量及び相対散逸エネルギーを含むがこれらに限定されない)を定量化し、それによってエピジェネティック解析を実施すること。
DNA のメチル化状態を安定的な保存することは、エピジェネティックのメモリー・メンテナンス(memory maintenance)に不可欠である。この過程を定量化するために、ノイズのある 2 値コミュニケーション・チャネル(binary communication channel)をモデルとして採用する。これによって CpG 部位におけるメチル化状態が動的に更新され、メチル化メンテナンスの信頼性、エネルギー利用可能性、及びメチル化の不確実性(methylation uncertainty)の間の関係を基本的に理解することを可能にする、情報‐理論的な見方が導かれる。
ゲノムの n 番目の CpG 部位でのメチル化情報の伝達を、マルコフ連鎖X
n(0)→X
n(1)→・・・→X
n(k-1)→X
n(k)→・・・、によってモデル化する。ここで、X
n(0)は、メンテナンス工程前の初期メチル化状態で、X
n(k)は、k回のメンテナンス工程後のメチル化状態である。この場合、
であり、ここで、μ
n(k)は、k 回目のメンテナンス工程中の n 番目の CpG 部位に関連する脱メチル化の確率であり、ν
n(k)は、デ・ノボ(de novo)なメチル化の確率であり、1-μ
n(k)は、メチル化が維持される確率であり、そして 1-ν
n(k) は、デ・ノボ(de novo)なメチル化がない確率である。前記 MC は、脱メチル化及びデ・ノボ(de novo)なメチル化の確率{μ
n(k), ν
n(k)}によって特定することができる。これらの確率は、メンテナンス及びデ・ノボ(de novo)なメチルトランスフェラーゼ(DNMT1、DNMT3A、及び DNMT3B)によって、能動型(TET)及び受動型の脱メチル化過程によって、並びに他の潜在的メカニズムによって、調整されるものと考えられ、メチル化メンテナンスに利用できる自由エネルギーによって制約を受けると予想される。
メチル化データから MC を特徴付けるには、確率 {μ
n(k), ν
n(k)} に関しての適切な値を指定する必要がある。メンテナンス中においてメチル化情報を伝達することは一般に動的な過程であり、メンテナンス中に、これらの確率は変化することがある。この問題に対処するために、比較的不変の条件に従うと、メチル化伝達の生化学的な特性は、連続するメンテナンス工程の間にゆっくりと変化し、その結果、イジング・モデルのパラメータの値、及び確率 {μ
n(k), ν
n(k)}はそれほど変化しないと仮定する。結果として、式 (23) は次のようになる
ここで、P
n(0)は、n 番目の CpG 部位がメチル化されていない確率で、P
n(1)は、その部位がメチル化されている確率である。これは、メチル化情報は、メンテナンスを通じて、安定した方法で伝達され、そしてこの過程を、平衡に近いところで動く定常確率過程によってモデル化することができる、という仮定に基づいている。それから、式 (24) から次のこと
がわかる。デ・ノボ(de novo)なメチル化の確率と脱メチル化の確率との間の比λn=ν
n/μ
nを、代謝回転率(turnover ratio)と呼ぶ。この比は、周辺化(marginalization)を使用してイジング・モデルから計算される n 番目の CpG 部位がメチル化されている確率P
n(1) により、式 (25) を使用して、メチル化データから直接に計算される。
特定の CpG 部位 n における MC の入力又は出力に関連するメチル化の不確実性(methylation uncertainty)の量は、前記 CG エントロピー(CGE)
によって与えられる。
ここで、P
n(1)は CpG 部位がメチル化されている確率である。前記 CGE は、周辺化(marginalization)を使用してイジング・モデルから計算される n 番目の CpG 部位がメチル化されている確率P
n(1) により、式 (26) を使用して、メチル化データから直接に計算される。
ある量のメチル化情報のみがゲノムの CpG 部位 n において、MC によって伝達されうる。その最大の可能量は、前記 MC の情報容量(IC)によって与えられ、以下によって与えられる。
ここで、I
n(X’;X)は MC の入力と出力 X’の間の相互情報であり、P
n(1)は CpG 部位がメチル化されている確率である。C
n について正確な式を導き出すことができるが、その式を実行することは、脱メチル化及びデ・ノボ(de novo)なメチル化の確率{μ
n, ν
n}が、ゲノムの各 CpG 部位で知られているか又は推定されることを必要とし、これは現在利用可能な技術を使用しては不可能である。しかし、MC の IC は次の式:
である。前記 IC は、メチル化データから直接に代謝回転率(turnover ratio)λ
nを計算することによって、及び (28) を使用することによって、計算される。
MC による、そして実際のところ、あらゆる生物学的システムによる情報処理は、自由エネルギーの消費を必要とする。メンテナンス中にメチル化状態を正しく伝達するためには多くの作業が必要であり、これは熱の形で周囲に放散されるエネルギーを消費する。根底にある生化学における確率的なゆらぎのために、メチル化システムは、情報が不完全に伝達される方向に常に押し流されていて、エラーに関して無視できない確率によって特徴付けられる。
一般的な工学原理と一致して、本発明では、ゲノムの n 番目の CpG 部位でのメチル化状態のメンテナンスの間に散逸される(最小)エネルギー E
nは、次式
による伝達誤差の確率におよそ関連すると仮定される。ここで、k
Bはボルツマン定数で、T
n は CpG 部位の絶対温度である。比例係数はこの関係では知られていないので、相対散逸エネルギー(relative dissipated energy(RDE))
は、最小限のエネルギー散逸である。これは、より高い信頼性(より低い誤りの確率)は、メチル化メンテナンスに利用可能な自由エネルギーの量を増やすことによってのみ達成することができるが、一方で、自由エネルギーを減少させることは、より低い信頼性(より高い誤り率)をもたらし得ること、を意味する。特に、MC がメチル化状態を正確に伝達(誤りの確率が 0)することは、物理的に不可能である。なぜなら、これ(MC がメチル化状態を正確に伝達すること)は無限量の利用可能な自由エネルギーを必要とするからである。
ε
nについて正確な式を導き出すことができるが、この式を実行することは、脱メチル化及びデ・ノボ(de novo)なメチル化の確率{μ
n,ν
n}が、ゲノムの各 CpG 部位で知られているか又は推定されることを必要とし、これは現在利用可能な技術を使用しては不可能である。しかし、MC の RDE を次の式:
によって概算できることがわかる。ここで、λ
nは、n 番目のメチル化部位での代謝回転率(turnover ratio)である。前記 RDE を、メチル化データから直接に代謝回転率(turnover ratio)λ
nを計算し、式 (31) を使用することによって、計算する。
ICs、RDEs、及び CGEs は、イジング・モデルを使用して、低カバレッジなメチル化データ(low coverage methylation data)からゲノム‐ワイドに信頼性をもって計算することができる、エピジェネティックのメンテナンスの情報的な挙動に関する有効な尺度である。更に、IC、RDE、及び CGE の値の分布を、選択したゲノムの特徴(例えば、CpG アイランド、アイランド・ショア(island shores)、シェルフ(shelves)、オープン・シー(open sea)、エクソン、イントロン、遺伝子プロモーター等)にわたって計算することができ、それによって、第 2 ゲノムと比較して、第 1 ゲノムの前記ゲノムの特徴内で、エピジェネティックのメンテナンスの情報的特性の異なる態様を示す、メチル化の不確実性(methylation uncertainty)についてのゲノム‐ワイドな解析結果を提供する。
エピジェネティック感受性
更に別の実施形態では、本発明は、ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内のメチル化システムの情報的/統計的特性(エントロピーを含むがこれに限定されない)の撹乱(perturbations)に対する感受性を計算することを含むエピジェネティック解析を実施するための方法を提供する。前記解析は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)ゲノム領域及び/若しくはそのサブ領域並びに/又は併合した超領域内のメチル化システムの情報的/統計的特性(エントロピーを含むがこれに限定されない)の撹乱(perturbations)に対する感受性を定量化し、それによってエピジェネティック解析を実施すること。
本発明で使用されるイジング・モデルによって定量化されるように、メチル化の確率は、各ゲノム・サブ領域内のパラメータの値θ=[α'αα''βγ]によって影響を受ける。環境的及び生化学的な条件は、これらの値に影響を及ぼし、それ故に、例えばメチル化のエントロピーが増加する又は減少することによって、メチル化の確率のレベルが調節されることがある。メチル化解析の重要な態様は、メチル化パラメータの撹乱(perturbations)に対するメチル化システムの情報的/統計的特性の感受性を決定することである。
本発明では、ある尺度を使用して、ゲノムのゲノム・サブ領域内の NME に対するパラメータ θの変動の影響を定量化する。ゲノム・サブ領域内では、イジング・パラメータは、それらの推定値の θ周りでランダムな量 G×θだけゆらぐと仮定される。ここで、Gは、標準σが小さいゼロ平均ガウス分布(zero-mean Gaussian distribution)に従う確率変数である。この場合、ゲノム・サブ領域内の NME の標準偏差 σ
hは、σ
h = η× σによって、イジング・パラメータの標準偏差 σと凡その関係性を持つことが示され得る。ここで、
であり、イジング・パラメータの値が(1+g)×θによって与えられるとき、h(g)はゲノム・サブ領域内の NME である。明らかに、小さい値のηは、パラメータ値の小さい変動が NME の小さい変動をもたらすことを意味し、一方で、大きい値のηは、パラメータ値の小さい変動が NME の大きい変動をもたらすことを意味する。この理由のために、ηは、撹乱(perturbations)に対するゲノム・サブ領域内の NME の感受性を定量化するために使用される。この尺度をエントロピー感受性指数(entropic sensitivity index(ESI))と呼ぶ。
ESI を計算するには、式 (32) の導関数を近似する必要がある。これは有限差分の導関数近似を使用することによってなされ、その場合、ηは次のように近似される
ここで、w は小さい数で、0.01 に設定することができる。式 (33) は、メチル化データからの推定によって得られた、パラメータ値θを有するゲノム・サブ領域内の NME h(0)、並びに撹乱された(perturbed)されたパラメータ値(1+w)×θを有するゲノム・サブ領域内の NME h(・)を計算することによって実行される。
平均のメチル化解析では隠れている重要なゲノムの特徴を発見する
別の実施形態では、本発明は、第 1 ゲノムと第 2 ゲノムとの間のメチル化状態において、より高次の統計的な差異(エントロピー又は情報距離を含むがこれらに限定されない)を示す一方で、平均に基づく解析には隠れている、潜在的に重要な生物学的機能(正常状態に対してがん等の疾患状態の調節を含むがこれらに限定されない)を有するゲノムの特徴(遺伝子プロモーターを含むがこれらに限定されない)を同定するエピジェネティック解析を実施するための方法を提供する。同定は以下を含む:a)第 1 及び第 2 ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルを各ゲノムのメチル化データに合わせることによって、第 1 ゲノム及び第 2 ゲノムについてゲノム領域内のメチル化状態を解析すること;及び、c)第 1 ゲノムと第 2 ゲノムとの間のより高次の統計量(エントロピー又は情報距離を含むがこれらに限定されない)において、比較的低い平均差であるが、比較的高いエピジェネティックの差異を有するゲノムの特徴(遺伝子プロモーターを含むがこれに限定されない)を同定し、それによってエピジェネティック解析を実施すること。
メチル化を解析するための現在の方法は、平均のメチル化の違いが第 1 及び第 2 ゲノムとの間で観察されるゲノムの特徴を同定することに基づいている。しかし、第 1 及び第 2 ゲノムとの間のメチル化におけるより高次の統計的な差異を同定することによれば、平均に基づくメチル化解析を使用して以前には見出されていない、潜在的に重要な機能を有するゲノムの特徴の発見をもたらすことができる。
この目的のために、ゲノムの特徴のマスター・ランク・リスト(master ranked list)を構築し、マスター・ランク・リスト中で、より高位に位置しているゲノムの特徴を、第 1 及び第 2 ゲノム間で、メチル化における比較的低い平均に基づく差異ではあるが、比較的高いエピジェネティックの差異に、関連させる。そのマスターのリストを形成するために、各ゲノムの特徴について平均に基づくスコアを計算し、次いでこのスコアを使用して、ゲノムの特徴に関する第 1 ランク・リストを形成し、より大きい平均に基づくスコアに関連するゲノムの特徴が第 1 ランク・リストでより高く位置付けられるようにする。続いて、JSD に基づくより高次の統計スコアを各ゲノムの特徴について計算し、次いでこのスコアを、ゲノムの特徴に関する第 2 ランク・リストを形成するために使用し、より大きな JSD に基づくスコアに関連するゲノムの特徴が第 2 ランク・リストでより高く位置づけられるようにする。
ゲノムの特徴を平均メチル化に関してスコア化するために、第 1 及び第 2 ゲノムについて観察される MML 間の絶対差を、ゲノムの特徴と交差する各ゲノム・サブ領域について計算し、スコアを、そのような絶対差全てを平均することによって形成する。ここで、欠けているデータを、MML 値を 0 に設定することで考慮する。ゲノムの特徴を JSD を使用してスコア化するために、ゲノムの特徴と交差する各ゲノム・サブ領域について JSD を計算し、スコアを、そのような絶対差全てを平均することによって形成する。ここで、欠けているデータを、JSD 値を 0 に設定することで考慮する。
第 1 及び第 2 ランク・リストを使用して、第 1 ランク・リストにおけるそのランキングに対する第 2 ランク・リストにおけるそのランキングの比率を使用して、各ゲノムの特徴を更にスコア化する。次いで、これらのスコアを使用して、より高いスコアに関連するゲノムの特徴を、マスター・ランク・リストの中でより低い位置付けにしたマスター・ランク・リストを形成する。マスター・ランク・リストの最上部近くに位置するゲノムの特徴は、高い JSD 値を特徴とするが、平均メチル化レベルにおける差はほとんどなく、これらのゲノムの特徴内のメチル化レベルの確率分布は、第 1 ゲノムと第 2 ゲノムとの間で、分布の平均は同じようではあるが、異なる分布である。
双安定性及び生物学的機能
更に別の実施形態では、本発明は、メチル化における双安定性と潜在的に重要な生物学的機能を有するゲノムの特徴(遺伝子プロモーターを含むがこれに限定されない)との間の関係を同定するエピジェネティック解析を実施するための方法を提供する。前記解析は以下を含む:a)1 つ以上のゲノム・サンプル中のゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)1 つ以上のゲノム・サンプル中のメチル化状態における高い双安定性に関連するゲノムの特徴(遺伝子プロモーターを含むがこれに限定されない)を同定し、それらを潜在的に重要な生物学的機能に関連付け、それによってエピジェネティック解析を実施すること。
一次元イジング・モデルの磁化(magnetization)及び共分散(covariance)をその基礎となるパラメータと関連付ける統計物理学の既知の結果から直接に導かれるように、ゲノムの任意の所与のゲノム・サブ領域内のメチル化は、ある形態の相転移であると仮定した。この目的のために、DNA のメチル化は、2 つの異なるエピジェネティック相:即ち、完全にメチル化されている相と完全に非メチル化にある相、の共存として現れる双安定性的な挙動である可能性を見出した。これは、ゲノム・サブ領域内のメチル化レベルの PEL V
L(l)の基底状態(最低のポテンシャルの状態)が再割り当てされることによるもので、
によって与えられ、生化学的に誘発されたそのトポグラフィックな表面(topographic surface)の変形(deformation)によって引き起こされる。その結果、完全にメチル化された状態と完全に非メチル化にある状態とにわたるメチル化レベルについての二峰性(bimodality)の確率分布となる。
メチル化における双安定性が重要な生物学的機能と関連している可能性があるかどうかを調べるために、選択したゲノムの特徴(例えば、CpG アイランド、アイランド・ショア(island shores)、シェルフ(shelves)、オープン・シー(open sea)、エクソン、イントロン、遺伝子プロモーター等)において、双安定性が富化(enrichment)していそうかどうかについて調べる。特定のゲノムの特徴において、双安定性が富化(enrichment)していることを評価するために、2 つの 2 値(0 と 1)確率変数 R 及び B をゲノムの各ゲノム・サブ領域に対して定義し、サブ領域がゲノムの特徴と重なる場合は R = 1、ゲノム・サブ領域が双安定の場合は B = 1 であるとする。次いで、R 及び B についての 2×2 分割表(contingency table)にχ2‐検定を適用することによって、R 及び B が統計的に独立しているという帰無仮説に対して検定し、富化(enrichment)の尺度としてオッズ比(odds ratio(OR))を計算する。
双安定性と特定の生物学的現象に関連するゲノムの特徴との間に関連性がありそうかどうかを評価するために、ゲノムの特徴の参照セット(例えば、ゲノム中の全ての遺伝子プロモーター)を考え、1 つ以上のゲノム・サンプルを使用する。各ゲノム・サンプルについて、ゲノムのメチル化状態を分類するために使用する方法によってゲノム・サンプル中の双安定性として分類されるゲノム・サブ領域内にある、ゲノムの特徴内の塩基対の割合を計算することによって、参照セット中のゲノムの特徴についてのスコアを計算する。次に、参照セット中の各ゲノムの特徴について、1 つ以上のゲノム・サンプルを使用して、ゲノムの特徴について得られた全てのスコアを平均することによって、双安定性スコアを計算する。次いで、前記双安定性スコアを使用して、双安定性が減少する順に、参照セット中のゲノムの特徴のランク・リストを形成する。続いて、特定の生物学的現象に関連するゲノムの特徴の試験セット(test set)を考え、次いで前記試験セット(test set)が全く偶然に参照セットの双安定性ランク・リストの中でより高くランク付けされる p‐値を計算する。
そうするために、前記ゲノムの特徴が双安定性ランク・リスト中のランダムな位置に現れるという帰無仮説に対して検定することによって、試験セット(test set)中の各ゲノムの特徴が全く偶然に参照セットの双安定性ランク・リストの中でより高くランク付けされる p‐値をまず最初に計算する。ゲノムの特徴のランクは、前記帰無仮説の下で、一様分布に従う検定統計量として使用する。このことは、双安定性ランク・リスト中のゲノムの特徴のランキングを前記リスト中のゲノムの特徴の総数で割ることによって、前記試験セット(test set)中のゲノムの特徴の p‐値が計算されうることを意味する。前記試験セット(test set)が全く偶然に参照セットの双安定性ランク・リストの中でより高くランク付けされる場合の p‐値は、フィッシャーのメタ解析(Fisher’s meta-analysis)の方法を使用して、試験セット(test set)中のゲノムの特徴に関連する個々の p‐値を組み合わせることによって、最終的に計算される。
TAD 境界の検出
別の実施形態において、本発明は、クロマチン実験を行わずに、ゲノムのトポロジカル関連ドメイン(topologically associating domains(TAD))の境界を検出する、エピジェネティック解析を実施するための方法を提供する。検出は以下を含む:a)1 つ以上のゲノム・サンプル中のゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、各ゲノムのゲノム領域内のメチル化状態を解析すること;及び、c)TAD 境界を位置決めし、それによってエピジェネティック解析を実施すること。
トポロジカル関連ドメイン(topologically associating domains(TAD))は、組織のタイプ及び種にわたって高度に保存されているクロマチンの構造的な特徴である。それらの重要性は、これらのドメイン内の遺伝子座が互いに頻繁に相互作用する傾向があり、隣接ドメイン内の遺伝子座間では、はるかに少ない頻度の相互作用が観察されるという事実に由来する。TAD 境界をゲノム‐ワイドに検出することは、重要ではあるが、実験的には困難な作業である。
前記 NME を、1 つ以上のゲノム・サンプルから TAD 境界を計算的に位置決めするために有効に使用することができる。
ゲノム・サンプルについて、エントロピー領域及びブロックを計算するための方法を使用することによって、WGBS データから秩序及び無秩序エントロピー・ブロック(EB)をゲノム‐ワイドに計算する。TAD 境界の位置と予測されるゲノムの領域は、連続した秩序ある EB と無秩序な EB との間、又は連続した無秩序な EB と秩序ある EB との間、にある分類されていないゲノム空間を検出することによって同定される。例えば、chr1:1-1000 の秩序ある EB の後に chr1:1501-2500 の無秩序な EB が続く場合、chr1:1001-1500 は「予測領域(predictive region)」と見なされる。予測領域を誤って同定してしまうことを減らすために、同じタイプの連続する EB は考慮しない。なぜならば、2 つのそのような EB 間のゲノム空間は、欠けているデータ又は他の予測不可能な要因に起因しているかもしれないからである。TAD 境界の位置決めをする分解能を制御するために、50,000 塩基対よりも小さい分類されていないゲノム空間のみを考慮する。これにより、平均 TAD サイズ(約 900 kb)よりも 1 桁小さい分解能が得られる。
続いて、2 つ以上のゲノム・サンプルのメチル化解析から得られた「予測領域(predictive regions)」を組み合わせる。各塩基対の「予測カバレッジ(predictive coverage)」は、その塩基対を含む「予測領域(predictive regions)」の数を数えることにより計算される。次に、「予測領域(predictive regions)」を、予測カバレッジが少なくとも 4 である連続した塩基対をグループ化することによって、結合する。
ユークロマチン及びヘテロクロマチン・ドメインの予測
更に別の実施形態では、本発明は、メチル化データからユークロマチン/ヘテロクロマチン・ドメイン(ゲノムの 3 次元構造の区画 A 及び区画 B を含むがこれらに限定されない)を予測するエピジェネティック解析を実施するための方法を提供する。予測は以下を含む:a)前記ゲノムを別々のゲノム領域に分節すること;b)ザ・モデルをメチル化データに合わせることによって、ゲノム領域内のメチル化状態を解析すること;及び、c)ユークロマチン/ヘテロクロマチン・ドメインの情報を以前に測定した、又は推定したデータに基づいてトレーニングした回帰モデル又は分類モデルを使用してユークロマチン/ヘテロクロマチン・ドメイン(A/B 区画の構成を含むがこれに限定されない)を推定するために、複数の領域からの結果を組み合わせ、それによってエピジェネティック解析を実施すること。
ゲノムの 3 次元空間的な構造により、互いに直線的に遠く離れて位置する領域が近接して、同じ制御環境内に存在することが可能になる。この構造を理解しようとする最近の研究によって、それぞれ、遺伝子に富み、転写が活性化しているオープン・クロマチン、及び遺伝子に乏しく、転写が不活性なクローズド・クロマチンに関連することが知られている、細胞タイプに特異的な区画 A 及び B が存在することが示された。
区画 A/B を同定することが、所与のゲノム・サンプルのエピゲノムを完全に特徴付けることに関するますます重要な態様になりつつある、という事実にもかかわらず、そのようなデータを利用できる可能性は、コスト、技術的困難さ、及び Hi-C のようなコンフォメーション・キャプチャー・テクノロジー(conformation capture technologies)に必要な、損傷を受けていない核のかなりの量のインプット材料を必要とすること、によって制限されている。更に、コンフォメーション・キャプチャー測定(conformation capture measurements)は凍結組織又は DNA では不可能である。しかし、これは本発明で論じられる方法を制限するものではない。なぜなら、メチル化データは、当技術分野で公知の方法を使用して凍結試料から容易に得ることができるからだ。
よりルーチンな実験方法によって得られたデータを使用した計算予測法は、この問題に取り組むことにおいて、有望である。WGBSデータから構築されたモデルに直接適用するランダム・フォレスト回帰モデル(random forest regression model)に基づいた機械学習のアプローチによって、メチロームの局所的な情報‐理論的特性を有効に使用し、任意の所与のゲノム・サンプルのゲノムにおける区画 A/B を計算的に予測することができる。
そうするために、ゲノム全体を(トレーニング・データとマッチさせるために)、それぞれ 100,000 塩基対の別々のゲノム・ビン(genomic bin)に分節し、WGBS データから、各ゲノム・ビン(genomic bin)内で、メチル化メンテナンスの 8 つの情報‐理論的特性を計算するが、これは IC、RDE、NME 及び MML の中央値及び四分位範囲を含む。
1000 本のツリー(tree)を有するランダム・フォレスト・モデルを、1 つ以上のゲノム・サンプルについて、出力である、Hi-C などの染色体コンフォメーショナル・キャプチャー・データ(chromosome conformational capture data)、及び/又は測定若しくは推定した区画 A/B データ、にマッチした入力 WGBS データ(input WGBS data)からなるデータに基づいてトレーニングする。回帰/分類特徴ベクトル(regression/classification feature vector)の値を、入力 WGBS データから計算し、次に、全ての特徴/出力ペア(feature/output pairs)を使用して、入力特徴ベクトル値を既知の出力区画 A/B 分類にマップする 2 値判別関数(binary discriminant function)を学習する。
トレーニングしたランダム・フォレスト・モデルを、続いてゲノム・サンプルに適用する。そのゲノム・サンプルは、最初に別々のゲノム・ビン(genomic bins)に分節する。次いで、特徴ベクトルの値を各ゲノム・ビン(genomic bin)について WGBS データから計算し、そしてそのゲノム・ビン(genomic bin)を、トレーニングしている間に学習された 2 値判別関数(binary discriminant function)を使用することによって、区画 A 又は区画 B 内にあるとして分類する。回帰は100,000 塩基対のビン内の情報のみを考慮に入れるので、予測された A/B 値を、3‐ビン平滑化ウィンドウ(three-bin smoothing window)を使用して平均化し、そしてゲノム‐ワイドの中央値を全体の A/B シグナルから差し引く。
前記方法の精度はトレーニング工程に依存する。より多くの染色体コンフォメーショナル・キャプチャー(chromosome conformational capture)及び高い品質を持って測定又は推定された区画 A/B データが利用可能であることは、より良いトレーニングをもたらし、従って分類のパフォーマンスを向上させると期待される。
<サンプル>
様々な実施形態において、ゲノムは、被験体から採取された生物学的サンプル中に存在する。前記生物学的サンプルは、実質的に任意の生物学的サンプル、特に被験体由来の DNA を含むサンプルであっても良い。前記生物学的サンプルは、生殖細胞系、幹細胞、リプログラム化した細胞、培養細胞、又は 1000 から約 10,000,000 個の細胞を含む組織サンプルであっても良い。しかしながら、PCR などの増幅プロトコルを利用する実施形態では、より少数の細胞(もっと言えば 1 個の細胞)を含むサンプルを得ることが可能である。前記サンプルは、ゲノムの 1 つ以上の領域内のメチル化状態を評価するのに十分な生物学的材料(例えば、DNA)を含む限り、損傷を受けていない細胞を含む必要はまったくない。前記サンプルはまた、ATAC-seq 又は同様の方法によって、ユークロマチン及びヘテロクロマチンを解析するためのクロマチンを含むことがある。
ある実施形態では、生物学的サンプル又は組織サンプルを、DNA と供に細胞を含む任意の組織から採取することがある。生物学的サンプル又は組織サンプルを、外科手術、生検、スワブ(swab)、大便、又は他の収集方法によって得ても良い。ある実施形態では、サンプルは、血液、血漿、血清、リンパ液、神経細胞含有組織、脳脊髄液、生検材料、腫瘍組織、骨髄、神経組織、皮膚、毛髪、涙、胎児材料、羊水穿刺材料、子宮組織、唾液、糞、又は精子に由来する。全血から PBLs を単離するための方法は当該技術分野において周知である。
上記に開示したように、生物学的サンプルは血液サンプルであることがある。血液サンプルは、指を針で刺す(finger prick)又は静脈切開術などの当該技術分野で公知の方法を使用して得ることがある。好適には、前記血液サンプルは約 0.1 から 20 ml、又は約 1 から 15 ml であり、約 10 ml の血液量である。より少量の血液、並びに血液中を循環している遊離 DNA、を使用することもある。DNA を含有する体液の微量サンプリング(microsampling)、及び針生検、カテーテル、排泄又は産生によるサンプリングもまた、潜在的な生物学的サンプル源である。
本発明において、被検体は典型的にはヒトであるが、例えばイヌ、ネコ、ウサギ、ウシ、トリ、ラット、ウマ、ブタ、又はサルなど、そのゲノム上にメチル化のマークを有する任意の種、であっても良く、これに限定されない。
<メチル化状態>
本発明はメチル化解析のための WGBS の使用を例示しているが、実際には、例えば、核酸増幅、ポリメラーゼ連鎖反応(PCR)、バイサルファイト・パイロシークエンシング(bisulfite pyrosequencing)、ナノポア・シークエンシング(nanopore sequencing)、454 シークエンシング、インサーション・タグド・シークエンシング(insertion tagged sequencing)等を含む、核酸シークエンシング又はメチル化状態若しくはクロマチン状態を解析するための多くの他の方法を使用しても良い。実施形態において、本発明の方法論は、イルミナ社(Illumina, Inc,)(HiSeq(登録商標)X10、HiSeq(登録商標)1000、HiSeq(登録商標)2000、HiSeq(登録商標)2500、Genome Analyzers(登録商標)、MiSeq(登録商標)システム)、アプライド・バイオシステムズ・ライフ・テクノロジー社(Applied Biosystems Life Technologies)(ABI PRISM(登録商標)シークエンス検出システム、SOLiD(登録商標)システム、Ion PGM(登録商標)シークエンサー、ion Proton(登録商標)シークエンサー)によって提供されるようなシステムを利用する。核酸解析はまた、オックスフォード・ナノポア・テクノロジー社(Oxford Nanopore Technologies)(GridiON(登録商標)、MiniON(登録商標))又はパシフィック・バイオサイエンス社(Pacific Biosciences)(Pacbio(登録商標)RS II)によって提供されるシステムによっても実施することができる。シークエンシングはまた、標準的なサンガー・ジデオキシ・ターミネーター・シークエンシング(Sanger dideoxy terminator sequencing)方法及び装置によって、又は他のシークエンシング機器上で、更に、例えば、米国特許及び特許出願 U.S. Pat. Nos. 5,888,737、6,175,002、5,695,934、6,140,489、5,863,722、2007/007991、2009/0247414、2010/01 11768 及び PCT 出願WO2007/123744 に記載の方法及び装置によっても実施することができ、これらはそれぞれ、その全体が参照により本明細書に組み込まれる。とりわけ重要なことに、実施形態では、バイサルファイト変換有り又は無しで、本明細書に記載の方法の何れかを使用してシークエンシングを行うことがある。
クロマチンを、ATAC シークエンシングに類似した解析方法論及び関連した方法を使用して、解析することがある。本明細書の実施例で例示するように、メチル化の解析をバイサルファイト・ゲノム・シークエンシング(bisulfite genomic sequencing)によって実施することがある。バイサルファイト処理は、メチル化されていないシトシン(メチル化されているシトシンではない)をウラシルに変換して、DNA を修飾する。バイサルファイト処理を、METHYLEASY(登録商標)バイサルファイト修飾キット(ヒューマン・ジェネティック・シグナチャー社(Human Genetic Signatures))を使用して実施することがある。
ある実施形態では、バイサルファイト・パイロシークエンシング(これは、複数の連続した CpG 部位を個々に高い精度及び再現性で定量的に測定する、シークエンシングに基づく DNA のメチル化の解析である)を使用することがある。これを、全ゲノム・バイサルファイト・シークエンシングによって、又はそのような解析のためのプライマーを使用する MiSeq(登録商標)によって、行うことがある。
バイサルファイト・シークエンシングでは、1 %の非メチル化 Lambda DNA(プロメガ社、カタログ番号 D1521(Promega, cat # D1521))を添加して、バイサルファイト変換効率をモニターすることがある。Covaris S2 ソニケーター(ウーバン、マサチューセッツ州(Woburn、MA))を使用してゲノム DNA を平均サイズ 350 bp にフラグメント化した。バイサルファイト・シークエンシング・ライブラリは、製造者の指示に従って、イルミナ TruSeq(登録商標) DNA ライブラリ調製キット(Illumina TruSeq(登録商標)DNA Library Preparation kit)プロトコール(プライマーを含む)又は NEBNext(登録商標)Ultra(NEBNext(登録商標)Multiplex Oligos for Illumina モジュール、ニュー・イングランド・バイオラボ社、カタログ番号 E7535L(New England BioLabs, cat # E7535L))を使用して構築することがある。両プロトコルとも、Kapa HiFi Uracil + PCR システム(カパ・バイオシステムズ社、カタログ番号 KK2801(Kapa Biosystems, cat # KK2801))を使用する。
イルミナ TruSeq(登録商標) DNA ライブラリ(Illumina TruSeq(登録商標)DNA libraries)の場合では、ゲルに基づくサイズ選択を行い、300‐400 bp の範囲のフラグメントを富化することがある。NEBNext(登録商標)ライブラリの場合では、サイズ選択をまた、0.4x と 0.2x の修正 AMPure XP(登録商標)ビーズ比を使用して、300‐400 bp のインサート・サイズも意図しながら、行うことがある。サイズ選択後、前記サンプルをバイサルファイト変換し、EZ DNA(登録商標)メチル化ゴールドキット(Methylation Gold Kit)(ザイモ・リサーチ社、カタログ番号 D5005(Zymo Research, cat # D5005))を使用して精製することがある。PCR で富化した生成物(PCR-enriched products)は、0.9X AMPure XP(登録商標)ビーズ(ベックマン・コールター社、カタログ番号 A63881(Beckman Coulter, cat # A63881))を使用してクリーン・アップすることがある。
最終的なライブラリを、品質管理目的のために、高感度 DNA アッセイを使用する 2100 Bioanalyzer(登録商標)(アジレント社、サンタ・クレア、カリフォルニア州、米国(Agilent, Santa Clare, CA, USA))で流すことがある。ライブラリを、イルミナ・シークエンシング・プラットフォーム用のライブラリ定量キット(Library Quantification Kit for Illumina sequencing platforms)(カタログ番号 KK4824、カパ・バイオシステムズ社、ボストン、米国(cat # KK4824, KAPA Biosystems, Boston, USA))を使用して、7900HT リアル・タイム PCR システム(7900HT Real Time PCR System)(登録商標)(アプライド・バイオシステムズ社(Applied Biosystems))を使用して、qPCR により定量することがあり、イルミナ(Illumina)HiSeq2000(2 x 100 bp 読み取り長、製造元のプロトコルに従い、10 x PhiX をスパイク‐インした v3 ケミストリー)、及び HiSeq2500(登録商標)(2 x 125 bp の読み取り長、製造元のプロトコルに従い、10 x PhiX をスパイク‐インした v4 ケミストリー)で、シークエンシングをすることがある。
メチル化の変化は、メチル化における検出可能な差異を同定することによって測定することができる。例えば、低メチル化は、バイサルファイト処理後にウラシル又はシトシンが特定の位置に存在するかどうかを同定することによって測定することができる。バイサルファイト処理後にウラシルが存在する場合、その残基はメチル化されていない。メチル化が減少していることが測定されれば、低メチル化が存在する。
WGBS では、リード(reads)のシングル‐パスのアダプター‐及び品質‐トリミングを実行するために Trim Galore! v0.3.6(バブラハム研究所(Babraham Institute))を使用して、並びにシークエンシング・データの一般的な品質チェックのために FastQC v0.11.2 を実行して、処理された FASTQ ファイルを使用して、メチル化の判定(methylation calling)を行うことがある。その後、Bismark v0.12.3 及び Bowtie2 v2.1.0、又はそれに匹敵する及び/若しくは更新されたソフトウェアを使用して、リード(reads)を hg19/GRCh37 又は他のヒト若しくは他の種の構築物に並べ合わせる(aligned )ことがある。リード 1(read 1)とリード 2(read 2)の別々の mbias プロットを、“mbias_only”フラグ(flag)を使用する Bismark メチル化抽出子(methylation extractor)を動かすことによって生成することがある。これらのプロットを、リード(reads)の 5 ' 末端から除去する塩基数を決定するために使用することがある。続いて、BAM ファイルを、ソート、マージ、重複削除、及びインデックス作成、並びにメチル化した塩基の判定(methylation base calling)のために、Samtools v0.1.19 を使って、処理することがある。
別の実施形態において、メチル化状態を解析するための方法は、オリゴヌクレオチド捕捉後の増幅、MiSeq(登録商標)シークエンシング、又はMinION(登録商標)ロング・リード・シークエンシング(long read sequencing)を、バイサルファイト変換無しで、含むことがある。
<診断>
本明細書に記載した方法は、がんなどの疾患を予測、診断及び/又はモニターするための様々な方法で使用することがある。更に、前記方法を、様々な細胞タイプを互いに区別するために、並びに細胞年齢を測定するために利用することがある。これらの態様は、試験ゲノム(test genome)についてそれぞれのエピジェネティック解析の方法を実行し、そして得られたエピジェネティック尺度を、参照ゲノムについての対応する既知の尺度(即ち、既知の細胞タイプ又は疾患に対する尺度)と比較することによって、行うことがある。
<コンピュータ・システム>
本発明は、機能的構成要素及び様々な処理工程に関して部分的に説明されている。そのような機能構成要素及び処理工程は、指定した機能を実行し、様々な結果を達成するように設計した任意の数の構成要素、動作、及び技法によって実現することがある。例えば、本発明は、様々な生物学的サンプル、バイオマーカー、要素、材料、コンピュータ、データ・ソース、保存システム及びメディア、情報収集技術及び処理、データ処理基準、統計解析、回帰分析などを使用することがあり、これらは様々な機能を実施することがある。更に、本発明は医療診断の文脈で説明されているが、本発明を任意の数の用途、環境及びデータ解析と併せて実施することがある;即ち、本明細書に記載のシステムは、前記発明の単なる例示的な用途である。
本発明の様々な態様によるエピジェネティック解析のための方法は、例えばコンピュータ・システム上で動作するコンピュータ・プログラムを使用して、任意の適切な方法で実施することがある。本発明の様々な態様による例示的なエピジェネティック解析システムを、リモート‐アクセス可能なアプリケーション・サーバ、ネットワーク・サーバ、パーソナル・コンピュータ又はワークステーションなどのコンピュータ・システム、例えばプロセッサとランダム・アクセス・メモリを含む従来のコンピュータ・システム、と併せて実施することがある。前記コンピュータ・システムはまた、大容量保存システムなどの追加のメモリ装置又は情報保存システム、及び例えば従来のモニタ、キーボード及びトラッキング・デバイス等のユーザ・インターフェースを好適に含む。しかしながら、前記コンピュータ・システムは、任意の好適なコンピュータ・システム及び関連機器を含むことがあり、そして任意の適切な方法で設計されることがある。ある実施形態では、前記コンピュータ・システムはスタンド‐アロン・システムを含む。別の実施形態では、前記コンピュータ・システムは、例えばサーバとデータベース等を含むコンピュータのネットワークの一部である。
バイオマーカー情報を受け取り、処理し、そして解析するために必要とされるソフトウェアは、単一の装置において実施されてもよく、又は複数の装置において実施されてもよい。前記ソフトウェアを、情報の保存及び処理が、ユーザに対して遠隔的に行われるように、ネットワークを介してアクセス可能としても良い。本発明の様々な態様によるエピジェネティック解析システム及びその様々な要素は、データ収集、処理、解析、報告及び/又は診断等のバイオマーカー解析を容易にするための機能及び操作を提供する。
本エピジェネティック解析システムは、メチル化及びサンプルに関する情報を保持し、解析及び/又は診断を容易にする。例えば、本実施形態では、前記コンピュータ・システムは、コンピュータプログラムを実行し、エピゲノムに関連する情報を受け取る、保存する、検索する、解析する、及び報告をすることがある。前記コンピュータ・プログラムは、生データを処理して補助データを生成するための処理モジュール、並びに疾患状態モデル及び/又は診断情報を生成するために生データ及び補助データを解析するための解析モジュールなど、様々な機能又は動作を実行する複数のモジュールを含むことがある。
エピジェネティック解析システムによって実行される手続きは、エピジェネティック解析及び/又は疾患診断を容易にするための任意の好適なプロセスを含むことがある。ある実施形態では、前記エピジェネティック解析システムは、疾患状態モデルを確立し、及び/又は患者の疾患状態を診断するように設計される。疾患状態を診断又は同定することは、診断を実施すること、診断に有用な情報を提供すること、疾患の病期又は進行を評価すること、疾患への感受性を示し、更なる検査を推奨することができるかどうかを同定できる条件を同定すること、1 つ以上の治療プログラムの有効性を予測する及び/又は評価すること、或いは疾患状態、疾患の可能性、又は患者の他の健康面を評価すること、等の、疾患に関連した患者の症状に関するあらゆる有用な情報を生成することを含む。
前記エピジェネティック解析システムはまた、様々な追加のモジュール及び/又は個々の機能を提供することがある。例えば、前記エピジェネティック解析システムはまた、例えば、処理機能及び解析機能に関する情報を提供するための報告機を含むこともある。前記エピジェネティック解析システムはまた、アクセス制御及び他の管理機能の実行等の、様々な管理及びマネジメント機能を提供することもある。
エピジェネティック解析システムは、生のバイオマーカー・データ及び/又は被験体に関する更なる被験体データに基づいて、疾患状態モデルを好適に生成し、及び/又は患者に診断を提供する。前記エピジェネティック・データは、任意の好適な生物学的サンプルから取得することができる。
以下の実施例は、本発明の利点及び特徴を更に説明するために提供されるが、本発明の範囲を限定することを意図するものではない。この例は、使用され得るものの典型であるが、他の手順、方法論、又は当業者に知られている技術を代わりに使用することもある。
<エピゲノムの情報‐理論的な性質を明らかにするための、ポテンシャル・エネルギー・ランドスケープを使用したエピゲノム解析>
この例では、十分に根拠のある生物学的仮定と統計物理学及び情報‐理論の原則を使用して、シャノンのエントロピー(Shannon’s entropy)とジェンセン‐シャノン距離(Jensen-Shannon distance)を使用して、ゲノム‐ワイドなメチル化の確率及びエピジェネティックの差異の定量化を可能にする、全ゲノム・バイサルファイト・シークエンシング・データから、ポテンシャル・エネルギー・ランドスケープ(potential energy landscapes)を導く。本実施例では、生殖細胞系列の「発生ホイール(developmental wheel)」の発見、並びに差分平均メチル化(differential mean methylation)は僅かだがエピジェネティックの差異は大きいことによって特徴づけられる、発生学的に重要な遺伝子を同定すること、メチル化レベルにおける双安定性とインプリンティングとの間の関係、エントロピー及びメチル化チャネル(methylation channels)の情報‐理論的な性質とクロマチン構造との間の関係、及びエピジェネティックの確率に与える環境の影響をエントロピー感受性解析を使用して定量化することの重要性、について詳述する。前記実施例は、本発明の主な可能性を説明し、健康及び疾患におけるエピジェネティック情報の解析及び分類のための強力な計算方法論及び計算システムを提供することによって、エピゲノムの情報‐理論的な性質を基本的に理解できるように使用される。
<実験材料及び方法>
全ゲノム・バイサルファイト・シークエンシング・サンプル
10 種類のゲノム・サンプルに相当する、以前に公表された WGBS データを使用したが、それは、H1 ヒト胚性幹細胞、結腸由来の正常及び対応するがん細胞、肝臓由来の正常及び対応するがん細胞 、若年及び高齢者由来の日焼け防止をした部位の皮膚生検由来のケラチノサイト、及び EBV で不死化したリンパ芽球を含む(下記の補足表1)。肝臓及び肺由来の正常及び対応したがん細胞、前頭前野皮質、5 種の継代数の培養 HNF 線維芽細胞、並びに若年及び高齢者から選別した CD4+ T‐細胞を含む、25 種類のゲノム・サンプルに相当する追加のWGBSデータも生成したが、全て IRB の承認を得た(下記の補足表1)。前頭前野皮質サンプルは、メリーランド大学脳・組織バンク(University of Maryland Brain and Tissue Bank)から入手したが、これは NIH NeuroBioBank の脳・組織レジストリー(Brain and Tissue Repository)である。末梢血単核細胞(PBMCs)を健康な被検体から採取した末梢血から単離し、そしてフィコール密度勾配分離法(シグマ‐アルドリッチ社(Sigma-Aldrich))を使用することによって分離した。続いて、CD4+ T‐細胞を、MACS 磁気ビーズ技術(ミルテニ社(Miltenyi))を使用したポジティブ・セレクションにより PBMCs から単離した。分離後のフロー・サイトメトリーによれば CD4+ T‐細胞の純度は 97 %であると評価された。初代新生児皮膚線維芽細胞をロンザ社(Lonza)から入手し、15 % FBS(ジェミニ・バイオプロダクツ社(Gemini BioProducts))を添加したギブコ(Gibco)の DMEM 中で培養した。
DNA の単離
ゲノム DNA は、Masterpure(登録商標)DNA Purification Kit(エピセンタ社(Epicentre))を使用してサンプルから抽出した。高分子量の抽出された DNA を、1 %アガロース・ゲルに流し、そしてNanodrop でサンプルの 260/280 及び 260/230 比を評価することによって確認した。濃度は、Qubit 2.0 Fluorometer(登録商標)(インビトロジェン社(Invitrogen))を使用して定量した。
WGBS ライブラリの作成
全てのサンプルについて、1 %非メチル化 Lamda DNA(プロメガ社、カタログ番号 D1521(Promega, cat # D1521))をバイサルファイト変換効率をモニターするために添加した。Covaris S2(登録商標)ソニケーター(ウーバン、マサチューセッツ州(Woburn、MA))を使用してゲノム DNA を平均サイズ 350 塩基対にフラグメント化した。製造者の指示に従って、イルミナ TruSeq(登録商標) DNA ライブラリ調製キット(Illumina TruSeq(登録商標)DNA Library Preparation kit)のプロトコル(プライマーを含む)又はNEBNext Ultra(登録商標)(NEBNext Multiplex Oligos for Illumina モジュール、ニュー・イングランド・バイオラボ社、カタログ番号 E7535L(NEBNext Multiplex Oligos for Illumina module, New England BioLabs, cat # E7535L))を使用して、バイサルファイト・シークエンシング・ライブラリを構築した。両プロトコルとも、Kapa HiFi Uracil+ PCR システム(カパ・バイオシステムズ社、カタログ番号 KK2801(Kapa Biosystems, cat # KK2801))を使用している。
イルミナ TruSeq(登録商標) DNA ライブラリ(Illumina TruSeq(登録商標)DNA libraries)の場合では、ゲル・ベースによるサイズ選択を行い、300‐400塩基対範囲のフラグメントを富化した。NEBNext(登録商標)ライブラリの場合では、サイズ選択をまた、0.4×及び0.2×の修正 AMPure XP(登録商標)ビーズ比を使用して、300‐400塩基対のインサート・サイズも意図しながら、行った。サイズ選択後、前記サンプルをバイサルファイト変換をし、EZ DNA(登録商標)メチル化ゴールド・キット(Methylation Gold Kit)(ザイモ・リサーチ社、カタログ番号 D5005(Zymo Research, cat # D5005))を使用して精製した。PCR で富化した生成物(PCR-enriched products)は、0.9×AMPure XP(登録商標)ビーズ(ベックマン・コールター社、カタログ番号 A63881(Beckman Coulter, cat # A63881))を使用して、クリーン・アップした。
最終的なライブラリを、品質管理目的のために、高感度 DNA アッセイを使用する 2100 Bioanalyzer(登録商標)(アジレント社、サンタ・クレア、カリフォルニア州、米国(Agilent, Santa Clare, CA, USA))で流した。次いで、ライブラリをイルミナ・シークエンシング・プラットフォーム用のライブラリ定量キット(登録商標)(Library Quantification Kit(登録商標)for Illumina sequencing platforms)(カタログ番号 KK4824、カパ・バイオシステムズ社、ボストン、米国(cat # KK4824, KAPA Biosystems, Boston, USA))を使用して、7900HT リアル・タイム PCR システム(7900HT Real Time PCR System)(登録商標)(アプライド・バイオシステムズ社(Applied Biosystems))を使用して、qPCR により定量し、イルミナ(Illumina)HiSeq2000(登録商標)(2 x 100 bp 読み取り長、製造元のプロトコルに従い、10 x PhiX をスパイク‐インした v3 ケミストリー)、及び HiSeq2500(登録商標)(2 x 125 bp の読み取り長、製造元のプロトコルに従い、10 x PhiX をスパイク‐インした v4 ケミストリー)で、シークエンシングをする。
品質管理とアライメント(alignment)
リード(reads)のシングル‐パスのアダプター‐及び品質‐トリミングを実行するために Trim Galore!(登録商標)v0.3.6(バブラハム研究所(Babraham Institute))を使用して、並びにシークエンシング・データの一般的な品質チェックのために FastQC(登録商標)v0.11.2 を実行して、FASTQ ファイルを処理した。次に、Bismark(登録商標)v0.12.3 及び Bowtie2(登録商標)v2.1.0 を使用して、リード(reads)を hg19/GRCh37 に並べ合わせた(aligned)。リード 1(read 1)とリード 2(read 2)の別々の mbias プロットを、“mbias_only”フラグ(flag)を使用する Bismark メチル化エクストラクター(methylation extractor)を動かすことによって生成する。これらのプロットを、リード(reads)の 5 ' 末端から除去する塩基数を決定するために使用した。5 ' 末端のトリミング量は 4 から 25 塩基対の範囲であり、最も一般的な値は約 10 塩基対であった。続いて、BAM ファイルを、ソート、マージ、重複削除、及びインデックス作成のために、Samtools(登録商標)v0.1.19 を使って、処理した。
EBV サンプルに関連する FASTQ ファイルを、自研究室内のサンプルについて説明したのと同じパイプラインを使用して処理した。[Ziller, M. J. et al. Nature 500, 477-481 (2013)] から得られる一部の結腸及び肝臓の正常サンプルに関連した BAM ファイルは、これらのサンプルで使用されているオリジナルのアライメント・ツール(MAQ)と適合していないため、Bismark(登録商標)メチル化エクストラクター(methylation extractor)を使用して評価することができない。それ故に、Ziller らの助言に従い、それらのファイル内の全てのリード(reads)から 4 塩基対を削除した。
ゲノムの特徴及びアノテーション(annotations)
ファイルとトラックは、hg19 のゲノム座標を持っている。CpG アイランド(CpG islands(CGIs))は [Wu, H. et al. Biostatistics 11, 499-514 (2010)] から得た。CGI ショア(CGI shores)をアイランド両側の 2000 塩基対の隣接する配列として、シェルフ(shelves)をショア(shores)両側の 2000 塩基対の隣接する配列として、そしてオープン・シー(open seas)をその他の全てとして定義した。R Bioconductor(登録商標)パッケージ「TxDb.Hsapiens.UCSC.hg19.knownGene」をエクソン、イントロン及び転写開始部位(TSSs)を定義するために使用した。プロモーター領域を TSSs の両側の 2000 塩基対の隣接する配列として定義した。少なくとも 3 つの独立したトランスジェニック胚において再現性のある発現を示す全てのヒト(hg19)ポジティブ・エンハンサーをダウンロードすることにより、VISTA(登録商標)エンハンサー・ブラウザ(VISTA(登録商標)Enhancer Browser(http://enhancer.lbl.gov))からキュレートした(curated)エンハンサーのリストを得た。低メチル化ブロック(結腸及び肺がん)は [Timp, W. et al. Genome Med. 6, 61 (2014)] から得た。H1 幹細胞 LOCKs 及びヒト肺線維芽細胞(HPF)LOCKs は [Wen, B. et al. BMC Genomics 13, 566 (2012)] から得た。胚性肺線維芽細胞由来の Tig3 細胞に関連する LAD トラックは [Guelen, L. et al. Nature 453, 948-951 (2008)] から得た。遺伝子の内部(gene bodies)は UCSC ゲノム・ブラウザから得た。H1 及び IMR90 のTAD 境界は http://chromosome.sdsc.edu/mouse/hi-c/download.html から得た。区画 A と区画 B の中へ処理された Hi-C データ用の BED ファイルは Fortin と Hansen(https://github.com/Jfortin1/HiC_AB_Compartments)によって提供された。CTCF 及び EZH2/SUZ12 結合データは UCSC ゲノム・ブラウザ [Transcription Factor ChIP-seq track (161 factors) from ENCODE] から得た。
データ・アクセス
生ファイルを、アクセッション番号 SRP072078, SRP072071, SRP072075, 及び SRP072141 として NCBI’s Sequencing Read Archive (SRA) に登録したが、これらは、その全体が参照により本明細書に取り込まれる。
<結果>
確率的エピジェネティック変異及びポテンシャル・エネルギー・ランドスケープ(Stochastic Epigenetic Variation and Potential Energy Landscapes)
メチル化 PEL VX(x) を、例えば、幹細胞、結腸、肝臓、肺、及び脳組織由来の正常細胞、これら組織のうちの 3 つの組織由来のマッチした(matched)がん、5 種の継代数の培養線維芽細胞、若年者及び高齢者由来の CD4+ リンパ球及び皮膚ケラチノサイト、並びに EBV‐不死化リンパ芽球等を含む 35 ゲノム・サンプルに対応する WGBS データから推定した(下記の補足表1)。この目的のために、前記ゲノムをそれぞれ 3000 塩基対の長さの連続した重なりの無いゲノム領域に分節し、そして先に導入した最尤推定法(maximum-likelihood estimation)を使用して、各ゲノム領域内の PEL パラメータを推定した。この戦略は、各個々の CpG 部位における周辺確率を推定する慣習的なアプローチとは対照的に、複数のメチル化リードで利用可能な全情報、特に CpG 部位におけるメチル化間の相関、を適切に組み合わせることを利用する(図1A)。
少数のパラメータに依存しているため、低カバレッジな WGBS データ(この実施例で使用されているデータでは 7×程度)から、メチル化の同時確率分布を推定することができる。言い換えると、これによって、個々の CpG 部位における周辺確率の信頼できる計算、PELs の計算、相関の評価、及び以前には考慮されていなかった多くの新しいメチル化尺度の計算、が可能になる。
N 個の CpG 部位を有するゲノム領域内のメチル化状態‐空間のサイズは、N に関して幾何学級数的に(2N)増えるので、PEL の可視化を、12 個の CpG 部位を含む遺伝子のプロモーター付近のCpG アイランド(CpG island(CGI))の領域内で行うように選択する。PEL をプロットするために、212 個の計算された値を、2 次元バージョンのグレイ・コード(Gray’s code)を使用する 64×64の正方格子に分布させ、その結果、東/西及び北/南方向にお互いに隣接するメチル化状態は 1 ビットだけ異なることになる。
計算された PEL によれば、正常な結腸における、重要なシグナル伝達遺伝子である、WNT1 の CGIに関連する多くのメチル化状態は高いポテンシャルであり(図1B、三次元及びバイオリン・プロット(violin plots))、最低ポテンシャルの状態(基底状態)である完全な非メチル化状態を離れるには、かなりのエネルギーが必要であることを意味している、ことを示す。この状態から逸脱すると、急速に「1 点に向かって戻される(funneled)」ことになり、メチル化の不確実性(methylation uncertainty)は低くなる。注目すべきことに、結腸がんにおける WNT1 のメチル化状態は低いポテンシャルであり(図1B、三次元及びバイオリン・プロット(violin plots))、これは、完全な非メチル化にある基底状態を離れるためには、比較的ほとんどエネルギーを必要としないことを意味する。この場合、この状態から逸脱していることは頻繁かつ長期に持続するものとなり、メチル化の不確実性(methylation uncertainty)につながる。
同様に、主要な発生遺伝子である、EPHA4 の CGI に関連するメチル化状態は、幹細胞において低いポテンシャルであり(図1B、三次元及びバイオリン・プロット(violin plots))、完全な非メチル化にある基底状態を離れるためには、低いエネルギーが必要であることを示唆し、それ故に、メチル化における不確実性(uncertainty)につながる。これとは対照的に、EPHA4 は脳内では高いポテンシャルであり(図1B、三次元及びバイオリン・プロット(violin plots))、これは、完全な非メチル化にある基底状態を離れるためには、かなりのエネルギーが必要であることを意味し、それ故に、メチル化における低い不確実性(uncertainty)につながる。
PEL パラメータ an 及びcn の全体分布(図1C)は、イジング・モデルを使用する動機に十分な根拠があることを示している。具体的には、ゲノムに沿った cn パラメータの 75 %以上が正であり、メチル化における広範な協同性を示している(図1C)。興味深いことに、cn パラメータの値が全体的に増加することは、がんにおいて一貫して観察され、これは腫瘍において、メチル化の協同性が全体的に増加していることを意味している。加えて、多くのゲノム・サンプルの中央値 an は正であり、メチル化は非メチル化よりも一般的であることを示しているが、これは、全体的に極端な低メチル化を受けた 2 つの肝臓がんサンプルを除く。しかし、そのような場合であっても、cnは腫瘍で増加している。
エピジェネティック・エントロピーは、生物学的な状態におけるメチル化の不確実性(methylation uncertainty)を定量化する
前記 NME は、ゲノム・サブ領域内の個々の CpG 部位のメチル化平均の平均である、平均メチル化レベル(mean methylation level(MML))と供に、イジング・モデルを使用して低カバレッジ(low covelage)な WGBS データからゲノム‐ワイドに信頼性をもって計算することができる、メチル化の不確実性(methylation uncertainty)の有効な尺度である。MML 及び NME 値のゲノム‐ワイドな分布を計算し、ゲノム・サンプル間で比較する。以前の報告と一致して、幹細胞及び脳組織における MML は、正常結腸、肝臓、及び肺におけるよりも全体的に高く、そして同じことが CD4+ リンパ球及び皮膚ケラチノサイトについても当てはまった(図2A)。更に、前記 MML は、解析した 7 種のがん全てにおいて、それらのマッチした正常組織と比較して減少し(図2A、B)、そして培養線維芽細胞においても継代に従って失われた(図2A)。低 NME は幹細胞及び脳細胞、並びに若年の被験者に関連する CD4+ リンパ球及び皮膚ケラチノサイト、において観察され、肝臓がん以外の多くのがんにおいて NME の全体的な増加も観察され、肝臓がんはより少ないエントロピーのメチル化状態をもたらす著しい低メチル化を示した(図2及び3)。がんにおける NME の変化はしばしば MML の変化と関連していたが(図3A)、これはしばしばそうでないこともあった(図3B、C、D)。これは確率の変化が必ずしも平均メチル化の変化に関連しないことを示し、生物学的サンプルを調査する際には両方を評価することが必要である。
MML 及び NME の分布を、選択したゲノムの特徴についても計算した。ショア(shores)、エクソン、イントロンなどの他のゲノムの特徴と比較して、CGIs 及び TSSs 内ではメチル化レベル及びエントロピー値がより低く、より変動しやすいことを示すゲノム‐ワイドな解析結果が提供された(図4A、B)。
高齢者由来の 3 つ全ての CD4+ リンパ球サンプルでは若年者由来の 3 つと比較して、並びに両方の皮膚ケラチノサイト・サンプルでは若年サンプルと比較して、全体的な低メチル化とエントロピーの増加が、エントロピーにおけるパーセンテージ変化がより顕著に、見られた(図2A、C)。例えば、ゲノム‐ワイドに NME の中央値が平均 23 %増加すること(11 %-38 %の範囲)が、若年者及び高齢者の CD4 サンプル間の比較で見られたが、MML の中央値は平均 5.6 %減少した(3.2 %-8.5 %の範囲)のみであった。
3 つの若年者の CD4 サンプルを使用して、生物学的及び統計的な変動性を説明するために、絶対 NME 差(absolute NME differences(dNMEs))を、 3 つ全てのペアワイズ比較に関連させて、各ゲノム・サブ領域でまず最初に計算した。そして、これらの値をプールすることによって、実験的ヌル分布(empirical null distribution)を構築し、若年者のサンプルにおける差分エントロピーの生物学的及び統計的な変動を説明した。続いて、若年者‐高齢者のペア(CD4-Y3、CD4-O1)に対応する絶対 dNME 値 を計算し、観察された NME の差が生物学的又は統計的な変動によるものであるという帰無仮説を棄却するために多重仮説検定を行った。Bioconductor(登録商標)の「qvalue」パッケージをデフォルトのパラメータと供にに使用することにより、偽陽性率(false discovery rate(FDR))の解析を行い、ランダムに選択されたゲノム・サブ領域で帰無仮説が棄却される確率を推定した。これにより、若年者のサンプル間で生物学的又は統計的な変動以外の理由によりエントロピーが異なると判明したゲノム・サブ領域の割合を概算で算出した。
34 %に上るゲノム・サブ領域でエントロピーが異なることが統計的に推定され、エントロピーの著しい変化が高齢者個人にあることを実証した。特に、真の加齢と培養線維芽細胞との間に著しい違いが観察された。線維芽細胞における継代数も進行性の全体的な低メチル化と関連していたが、前記エントロピー分布は比較的安定していた(図2A及び5A)。例えば、年齢と共にダウンレギュレーションされることが知られている 2 つの遺伝子である CYO2E1 及び FLNB のプロモーターは、高齢者の CD4+ リンパ球においてメチル化レベル及びエントロピーが顕著に増加した。これは、培養線維芽細胞において、CYP2E1 は継代により変化しないこと、及び FLNB はエントロピーが顕著に減少すること(図5B、C)、とは著しく対照的であった。従って、複数の組織における年齢と関連する PEL を、線維芽細胞の継代数の増加によっては十分に説明できず、加齢はエントロピーの増加と関連しているように見える。
情報距離は系統を明確にし、発生学的に重要な遺伝子を同定する
エピジェネティックの情報と表現型のばらつきとの関係を理解するために、ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))を使用して、ゲノム・サンプルのペア間のエピジェネティックの不一致(epigenetic discordance)を正確に定量化することを試みた。そして、この距離を、結腸、肺、及び肝臓を互いに、並びにマッチしたがん並びに幹細胞、脳、及び CD4+ リンパ球から区別するために使用できるかどうかを検討した。計算可能性のために、前記研究を 17 種の代表的な細胞及び組織サンプルに限定し、全 136 ペアのエピジェネティック距離をゲノム‐ワイドに計算した。その結果を多次元尺度法(multidimensional scaling)を実行することによって視覚化した。サンプルは、発生胚層(図6)に基づく明確なカテゴリーに分類され、外胚葉(脳)、中胚葉(CD4)、及び内胚葉(正常結腸、肺、及び肝臓)由来組織が幹細胞からほぼ等距離に位置した。一方、がん性組織は、それらの正常のマッチした組織、並びに幹細胞とは程遠いものであった(図6)。
幹細胞サンプルと 3 種の胚葉との間の興味深い関係を前提に、異なる組織と比較して幹細胞において、差分メチル化レベル(dMML)及び/又は JSD がかなり大きい遺伝子を調べた。この目的のために、遺伝子のプロモーター内の dMML の絶対値並びに JSD に基づいて、その遺伝子をランク付けした(以下に記載し及び添付する補足データ1)。驚くべきことに、発生及び分化に関与することが知られている多くの遺伝子が、比較的小さい dMML の変化ではあるが、非常に高い JSD を示し、平均メチル化レベルにほとんど差がないにも関わらず、それらのプロモーター内のメチル化レベルの確率分布はかなり異なっていることを示すこと、を見出した。
これを更に調べるために、より小さな dMML ではなく、より高い JSD の遺伝子により高いスコアを割り当てる、相対的な JSD に基づくランキング・スキーム(RJSD)を使用することによって、平均に基づく解析に対して以前には隠れていたサンプル群間の遺伝子を、平均に関連しないメチル化の差異が同定できるかどうかを調べた。IGF2BP1、FOXD3、NKX6-2、SALL1、EPHA4、及び OTX1 など、たくさんの重要な遺伝子が RJSD リストの高位に見出され、RJSD に基づく GO アノテーション・ランキング解析により、幹細胞のメンテナンスと脳細胞の発生に関連する重要なカテゴリーが明らかになった(以下に記載及び添付した補足データ1と2)。注目すべきことに、幹細胞を正常な肺と比較した場合にも同様の結果が得られ、RJSD に基づく GO アノテーション解析により、中胚葉及び幹細胞の両方のカテゴリーにおける重要な発生カテゴリー、及び遺伝子が明らかになった(以下に記載及び添付した補足データ1と2)。幹細胞を CD4+ リンパ球と比較すると、dMML によって左右される免疫関連機能、並びに RJSD によって左右される多くの発生及び形態形成のカテゴリーが富化されていることが示された(以下に記載及び添付した補足データ2)。対照的に、分化組織を比較した場合、dMML に基づく GO アノテーション解析は、RJSD に基づく解析よりも有意なカテゴリーの数が多く、これらは、脳及び CD4 の場合における免疫調節及び神経シグナリングのような分化した機能に密接に関連していた(以下に記載及び添付した補足データ2)。興味深いことに、正常な肺をがんと比較した場合、RJSD に基づく GO アノテーション解析は dMML に基づく解析よりも多数の有意なカテゴリーを生み出し、これらも発生の形態形成カテゴリーに関連していた。
これら前の結果は、PEL 計算が発生学的に重要な遺伝子に関連する DNA のメチル化の確率分布における大きな変化を明らかにし、そしてそれら自体の平均よりも寧ろこれらの分布の形が、しばしば、発生とがんにおける多能性及び運命的な系統決定に密接に関連し得ることを示す。
次に、JSD によって反映される確率状態の変化と PEL パラメータan 及び cn の値との関連性を調べた。例えば、EPH4A のプロモーター付近の CGI は、幹細胞を脳と比較したときに高いJSD を示した(図7A)。この領域は同程度の平均メチル化レベルを示したが、CGI 全体にわたって、特にそのショア(shores)にわたって高い JSD を示した。注目すべきことに、前記 JSD はメチル化の傾向に左右されない。なぜならば、PEL パラメータanは幹細胞と脳の両方において強く負であるからであり、その場合、完全な非メチル化にある状態は PEL の基底状態であり(図1B、下のパネル)、CGI 内の低メチル化レベルをもたらす。しかしながら、前記 JSD は脳内の CGI ショア(shores)ではメチル化の協同性によって左右される。なぜならば、PEL を平らにし(図1B、下のパネル)、脳の中よりも高いエントロピーとなる(図7A)、幹細胞内での低いメチル化の協同性(ほぼゼロ cn’s)と比較して、PEL パラメータ cn は強く正であるからである。興味深いことに、この領域は、ヘテロクロマチン形成を調節する、ポリコーム抑制複合体 2(polycomb repressive complex 2(PRC2))の機能的な酵素成分である、EZH2 及び SUZ12 の結合を示す。
同様に、神経発生の主な調節因子である SIM2は、同様の EZH2/SUZ12 結合を有する高い JSD 領域と関連しており、その領域は、そのプロモーターの近くに位置するいくつかの CGIs にわたる(図7B)。この場合、エントロピーの増加が脳内で観察され、これはメチル化傾向の減少(an の減少による)とメチル化協同性の増加(cn の増加による)が同時に起こることに相当する。ASCL2、SALL1 及び FOXD3 などの他の発生遺伝子についても同様のことが言える(図7C、D、E)。
EZH2 及び SUZ12 結合部位が存在することは、高い JSD の領域において繰り返し観察され、それらが平均メチル化の変化を最小限に抑えながらエントロピーの増加を生じさせるのに重要な役割を果たすことを示唆している。この関連性が有意であるかどうかを判断するために、フィッシャーの正確確率検定(Fisher’s exact test)を使用し、高い dMML を持つプロモーターとエンハンサーを低い dMML を持つプロモーターとエンハンサーと比較し、並びに、高い JSD を持つプロモーターとエンハンサーを低い JSD を持つプロモーターとエンハンサーと比較した。高い JSD を有するプロモーター及びエンハンサーにおいて、低い JSD に対して、EZH2 及び SUZ12 結合部位の両方が数倍高く冨化していることが観察され、それは JSD が重要であることの更なる証拠となった(下記の補足表2)。それから、プロモーター及びエンハンサーでの JSD スコアに対して、EZH2/SUZ12 結合データの二項ロジスティック回帰を行ったところ、有意な正の相関性(EZH2:プロモーターについてのスコア = 5.6、エンハンサーについてのスコア = 18.1、p‐値<2.2×10-16;SUZ12:プロモーターについてのスコア = 6.2、エンハンサーについてスコア = 23、p‐値<2.2×10-16;下記の補足表2を参照)が見出された。
前の結果は、EZH2 及び SUZ12とゲノムの高いJSD領域におけるプロモーター及びエンハンサーとの有意な関連を示し、メチル化 PEL を調節することによって、選択されたゲノム遺伝子座での DNA のメチル化における確率的な変動性を、PRC2 複合体が制御するという興味深い可能性を示唆する。
メチル化 PEL はインプリンティングに関連した双安定な挙動を明らかにする
メチル化における双安定性が重要な生物学的機能と関連しているかどうかを調べるために、その可能性のある富化(enrichment)をいくつかのゲノムの特徴の中で調べた。
所与の WGBS サンプル中において、双安定なゲノム・サブ領域を同定するために、二峰性(bimodality)をゲノム・サブ領域内のメチル化レベルの確率分布PL(l) において検出した。特定のゲノムの特徴において、双安定性が富化(enrichment)していることを評価するために、2 つの 2 値(0-1)確率変数 R 及び B を各ゲノム・サブ領域について定義し、ゲノム・サブ領域がゲノムの特徴と重なる場合は R=1、ゲノム・サブ領域が双安定性の場合 は B=1 となるようにした。次いで、R 及び B についての2×2分割表(contingency table)にχ2‐検定を適用することによって、R 及び B が統計的に独立しているという帰無仮説に対して検定し、富化(enrichment)の尺度としてオッズ比(odds ratio(OR))を計算した。
双安定性の富化(enrichment)を、CGIs、ショア(shores)、プロモーター、及び遺伝子の内部(gene bodies)で評価した。双安定なゲノム・サブ領域は、一般に、 CpG アイランド・ショア(29/34 表現型において ORs > 1、 p‐値<2.2×10-16)及びプロモーター(26/34 表現型において ORs > 1、 p‐値 ≦1.68×10-9)内で富化しているが、CGIs 内(26/34 表現型において ORs < 1、 p‐値<2.2×10-16)及び遺伝子の内部(gene bodies)(29/34 表現型において ORs < 1、 p‐値≦3.06×10-14)では乏しいことが、判明した(下記の補足表3)。更に、双安定なゲノム・サブ領域は、残りのゲノムよりかなり高い NME と関連していることが注目された[図8;双安定な領域(黄色)を残りのゲノム(紫)と比較する]。
メチル化の双安定性が特定の遺伝子と関連しているかどうかを調べるために、17 種の正常ゲノム・サンプルにおける遺伝子のプロモーター内のメチル化の双安定性の平均頻度として計算された、双安定性スコアを使用して、各遺伝子をゲノム内で順位付けした。驚くべきことに、インプリンティングされることが知られている遺伝子がかなりの数で高くランク付けされた(下記及び添付の補足データ3)。これは一方の染色体での完全なメチル化及び他方の完全な非メチル化が双安定なメチル化をもたらすという事実に起因する。実際に、片親起源効果のカタログ(Catalogue of Parent of Origin Effect(CPOE))に由来する 82 種のキュレートされた(curated)インプリンティングされた遺伝子は、偶然によって期待されるよりはるかに高くランク付けされ(p‐値2.89×10-16)、リストの上部の近くにおいて、インプリンティングされた遺伝子が顕著に過剰に存在する。興味深いことに、CPOE 内のインプリンティングされた遺伝子の8 %以上が、上位 25 種の双安定性遺伝子(SNRPN、SNURF、MEST、MESTIT1、ZIM2、PEG3、MIMT1)の中に現れ、これらの遺伝子のインプリンティングが、それらのプロモーターの近くの選択的な遺伝子座の対立遺伝子特異的なメチル化と関連している可能性がある。
単一対立遺伝子性発現(monoallelic expression(MAE))の支配下にある遺伝子が双安定性と関連している可能性も調べた。最近作成された 4227 個の MAE 遺伝子のデータセットを使用することによって、これらの遺伝子において双安定性がわずかに富化(enrichment)していることが検出された。これは、恐らく MAE が2 つの対立遺伝子のうちの 1 つからの発現が無くなることの結果ではないからである。しかしながら、CPOE 内のインプリンティングされているとして分類されていない 10 種の MAE 遺伝子は、メチル化の双安定性(スコア > 0.1)を示し、これらの遺伝子がインプリンティングされている可能性をもたらした。これらのうちの 1 種である C11ORF21 は、ベックウィズ‐ヴィーデマン症候群(Beckwith-Wiedemann syndrome(BWS))ドメイン内にあることが知られているが、インプリンティングされていることは知られていない。
ベックウィズ‐ヴィーデマン症候群(Beckwith-Wiedemann syndrome(BWS))に関連する 11p15.5 染色体領域内のインプリンティングされた遺伝子及びがんにおけるインプリンティングの減少を同定するためにかなりの労力が以前に費やされた。したがって、このよく研究されたインプリンティングされた遺伝子座における双安定性マークの位置を評価したところ、H19 のすぐ上流、並びに KCNQ1OT1 のプロモーター付近の既知のインプリンティング制御領域(imprinting control regions(ICRs))及び CTCF 結合部位との対応が明らかになった(図9A、B)。双安定性マークはまた、SNURF/SNRPN プロモーター近傍でも見出され、既知のICR の位置とマッチした(図9C)。PEG3/ZIM2 及び MEST/MESTIT1 プロモーター領域の近傍(9D、E)でも同様であった。
エントロピー・ブロックが TAD 境界を予測する
また、TAD 境界を計算的に位置決めするために、前記 NME を有効に使用できるかどうかも調べた。
多くのゲノム・サンプルにおいて、既知の TAD 境界のアノテーションはエントロピー・ブロック(entropy blocks(EBs))、即ち、一貫して低い又は高い NME 値のゲノム・ブロック、の境界に見た目に近いことが観察された(図10)。これは、TAD 境界が連続した EBs を分離するゲノム領域内に位置しているかもしれないことを示唆した。
これが正しいかどうかを判断するために、幹細胞の WGBS データ(WGBS stem data)内で EB を計算し、TAD 境界の位置を予測するために 404 個の領域を生成した。そして、ゲノム‐ワイドなデータと所与のゲノムの特徴との相関を評価するための統計パッケージ「GenometriCorr」を使用することによって、H1 幹細胞中の 5862 個のアノテーション付き TAD 境界がこれらの予測領域内にあること、又は統計的に有意に近いことがわかった。これらの EB に基づく予測領域は、計算された予測領域の 90 %に由来するアノテーション付き TAD 境界の 6 %を正しく同定した(5862 のうち 362)。
続いて、H1 幹細胞に対する TAD 境界のアノテーションを IMR90 肺線維芽細胞に対する利用可能なアノテーション(合計 10,276 アノテーション)と組み合わせることによって前記解析を拡張した。TAD は主に細胞タイプ不変であると考えられているので、追加の表現型に由来する EBs からの情報を組み合わせることによって、より多くの TAD 境界の位置を予測することが可能であることが分かった(図11)。従って、17 種の異なる細胞タイプ(幹(stem)、結腸正常( colonnormal)、結腸がん(coloncancer)、肝臓正常‐1(livernormal-1)、肝臓がん‐1(livercancer-1)、肝臓正常‐2(livernormal-2)、肝臓がん‐2(livercancer-2)、肝臓正常‐3(livernormal-3)、肝臓がん‐3(livercancer-3)、肺正常‐1(lungnormal-1)、肺がん‐1(lungcancer-1)、肺正常‐2(lungnormal-2)、肺がん‐2(lungcancer-2)、肺正常‐3(lungnormal-3)、肺がん‐3(lungcancer-3)、脳‐1(brain-1)、脳‐2(brain-2))からの WGBS データを使用し、対応する EBs を計算し、各細胞タイプについての予測領域を決定し、これらの領域を適切に組み合わせて、全ゲノム・サンプルからの情報(6632 個の予測領域)を網羅する単一のリストを形成した。「GenometriCorr」を使用した解析は、幹細胞の場合に得られた結果と同様の結果をもたらし、TAD 境界が同定された予測領域内に入ることは、偶然として期待されるよりもかなり頻繁に起こることが示され、計算された予測領域の 97 %に由来するアノテーション付き TAD 境界の 62 % が正確に同定された(10,276 のうち6408)。このパフォーマンスは、追加の表現型を考慮することによって更に改善することができる。
TAD 境界予測を更に評価するために、事前情報がない場合には、関連する予測領域の中心に TAD 境界を位置決めすることが自然であることに留意した。カーネル密度エスティメーター(kernel density estimator)を使用して、位置決め誤差及び TAD サイズの確率密度及び対応する累積確率分布を推定することによって示されるように、TAD 境界の位置決めをすることの誤差は、TAD サイズと比較した場合小さかった(図12)。計算された累積確率分布は、どの N についても、位置決め誤差が N 塩基対よりも小さい確率が、TAD サイズが N よりも小さい確率よりも大きいことを意味した。したがって、位置決め誤差は、明確に定義された統計的意味(確率的順序付け)において、TAD サイズよりも小さいと結論付けられた。位置決め誤差の中央値は TAD サイズの中央値よりも一桁小さいことも観察された(94,000 塩基対 vs. 760,000 塩基対)。最終的に、予測領域の中心からの「真の」TAD 境界の距離が「真の」TAD 幅分布の第 1 の四分位数より小さければ、境界予測は「正しい」と見なした(図12挿入‐緑色)。
まとめると、これまでの観察結果は、EBs と TADs の間には根本的な関係があり、この関係を WGBS データから TAD 境界を有効に予測するために容易に利用できるという、強力な統計的根拠を提供する。
メチル化チャネル(methylation channels)の情報‐理論的な特性
メチル化チャネル(methylations channels(MCs))の情報容量(information capacities(ICs))、相対散逸エネルギー(relative dissipated energies(RDEs))、及びCpG エントロピー(CpG entropies(CGEs))を個々のゲノム・サンプルで計算し、比較研究をゲノム‐ワイドに行った(図13)。結腸がん及び肺がんでは、IC 及び RDE が減少する全体的な傾向が観察され、CGE が全体的に増加することを伴ったが、これは肝臓がんには当てはまらなかった。更に、幹細胞は狭い範囲の比較的高い IC 及び RDE値を示し、一方、脳細胞、CD4+ リンパ球及び皮膚ケラチノサイトは高レベルの IC 及び RDE を示し、高齢者では顕著に減少していた。注目すべきことに、CpG アイランド(CpG islands(CGIs))及び転写開始部位(transcription start sites(TSSs))内のメチル化状態は、ショア(shores)、シェルフ(shelves)、オープン・シー(open seas)、エクソン、イントロン及び遺伝子間領域内(intergenic regions)よりも全体的にかなり高い容量の MCs によって維持されていて、これは有意により高いエネルギー消費によって成されている(図14A、B)。
これらの結果によって、ゲノム構造の情報‐理論的な見解が明らかになる。それによると、ゲノムのある領域内のメチル化は、高いエネルギー消費という犠牲を払ってメチル化状態における低い不確実性(uncertainty)をもたらす高容量の MCs によって信頼性をもって伝達される。一方、ゲノムの他の領域のメチル化は、より少ないエネルギーを消費するがメチル化状態における高い不確実性(uncertainty)をもたらす低容量の MCs によって伝達される。
クロマチン変化の情報‐理論的な予測
WGBS データからメチル化チャネル(methylation channels(MCs))を計算し、結果を Hi-C 実験から得られた EBV 細胞の利用可能な A/B 区画トラック(A/B compartment tracks)と比較すると、区画 B 内に低 IC、高 NME、及び低 RDE が富化(enrichment)していることが明らかになり、それと反対のことが区画 A について全体的に観察された(図15A、B)。これらの結果から、メチル化メンテナンスの情報‐理論的な特性を区画 A 及び B の位置を予測するのに有効に使用できるという仮説、が導びかれた。この予測を試すために、ランダム・フォレスト回帰モデルを使用して、利用可能な「グラウンド・トゥルース(ground-truth)」データから区画 A/B の情報構造を学習した。それは、少ない利用可能な Hi-C データを含み、そのデータは EBV 及び IMR90 サンプルと関連し、[Dixon, J. R. et al. Nature 518, 331-336, (2015)] から得られ、並びに、結腸がん、肝臓がん及び肺がんサンプルに関連するプールされた 450k のアレイ・データから計算された長距離相関に基づいて、フォーティン(Fortin)及びハンセン(Hansen (FH))によって開発された方法[Fortin, J. P. & Hansen, K. D. Genome Biol. 16, 180, (2015)] を使用して、A/B トラックが生み出すものである。現在入手可能な Hi-C データが不足しているため、トレーニング・サンプル数を増やし、パフォーマンス評価の精度を向上させるために FH データを含めた。
まず、Hi-C 及び FH のデータを、WGBS EBV、fibro-P10、及び結腸がんのサンプル、並びに WGBS 肝がん(livercancer-1, livercancer-2, livercancer-3)及び肺がん(lungcancer-1, luncancer-2, lungcancer-3)をプールして得られたサンプルのデータと対にした。続いて、全ゲノムを(利用可能な Hi-C 及び FH データとマッチさせるために)100,000 塩基対のビン(bins)に分節し、各ビン内でメチル化メンテナンスの 8 つの情報‐理論的な特徴を計算した(IC、RDE、NME 及び MML の中央値及び四分位範囲)。全ての特徴/出力ペアを使用することによって、ランダム・フォレスト・モデルを、ツリー(tree)の数を 1,000 に増やしたこと以外はデフォルトの設定で、R パッケージ「randomForest」を使用して、トレーニングした。次に、トレーニングしたランダム・フォレスト・モデルを各 WGBS サンプルに適用し、サンプルに関連するA/B 区画をほぼ同定する A/B トラックを作成した。回帰は 100-kb のビン内の情報のみを考慮に入れるので、フォーティン(Fortin)及びハンセン(Hansen)によって提唱されるように[Fortin, J. P. & Hansen, K. D. Genome Biol. 16, 180, (2015)]、予測された A/B 値を 3‐ビン平滑化ウィンドウ(three-bin smoothing window)を使用して平均化し、ゲノム‐ワイドの中央値を全体の A/B シグナルから除いた。
得られた予測の精度をテストするために、5 分割交差検定(5-fold cross validation)を採用した。これは、5 つ全ての組み合わせについて、4 つのサンプル・ペアを使用したトレーニングと、残りのペアでのテストを含む。100-kb ビン内の予測された A/B 信号と各「グラウンド・トゥルース(ground-truth)」A/B 信号の平均相関、並びに平均一致率(average percentage agreement)を計算することによってパフォーマンスを評価した。予測された A/B 信号と各「グラウンド・トゥルース(ground-truth)」A/B 信号の絶対値は両方ともコーリング・マージン(calling margin)よりも大きかった。信頼性の低い予測を削除するには、ゼロ以外のコーリング・マージン(calling margin)を使用することがある。最終的に、100-kb ビン内の予測された A/B 値と「グラウンド・トゥルース(ground-truth)」A/B 値が同じ符号を持っているかどうかをテストすることで一致度を計算した。
ランダム・フォレスト回帰は、単一の WGBS サンプルから A/B 区画を信頼性をもって予測することができ(例については図15Cを参照)、コーリング・マージン(calling margin)を 0 に設定した場合、予測された A/B 信号と真の A/B 信号との間で、交差検定の平均相関は 0.74、及び平均一致率は 81 %となった。コーリング・マージン(calling margin)を 0.2 に設定すると、0.82 及び 91 %に増加した。
これらの結果は、メチル化メンテナンスの少数の局所的な情報‐理論的特性により、区画 A や区画 B のようなクロマチンの高次構造(large-scale chromatin organization)を高度に予測できることを示唆している。一旦適切にトレーニングされれば、ランダム・フォレスト A/B 予測子(predictor)を任意の WGBS サンプルに堅牢に適用することができる。
区画 A 及び区画 B は細胞タイプ特異的であるということと一致して、及び発生の初期段階で大きな A/B 区画の再構成が起こることを示した以前の研究の結果と一致して、予測された区画 A/B 間には多くの違いが観察された(例については図16を参照)。区画 A 及び区画 B において観察された差を包括的に定量化するために、全てのサンプル・ペアにおいて、A から B へ、及び B から A へのスイッチング(switching)のパーセンテージを計算した(下記及び添付の補足データ4)。
WGBS サンプルの各ペアについて、A 区画から B 区画へのスイッチング(switching)の割合は、第 1 サンプルで A と予測され、第 2 サンプルで B と予測された 100-kb ビン(bin)ペアの数を、両方のサンプルで A/B 予測が利用可能であるビン(bin)の合計数で割ることで計算した。B から A へのスイッチング(switching)の場合も同様であった。
幹細胞と大部分の残りのゲノム・サンプルとの間で高レベル(≧ 20 %)の A から B 及び B から A への区画のスイッチング(switching)が観察された。脳と大部分の残りのサンプルとの間では、少なくとも 10 %スイッチング(switching)、多くの正常結腸、肝臓及び肺のサンプルの間では、低レベル(< 10 %)のスイッチング(switching)が観察された。又、結腸、肝臓及び肺の正常サンプルと多くのがんサンプルとの間では、少なくとも 10 %の区画 B から A へのスイッチング(switching)が認められた。
続いて、A/B 区画のスイッチング(switching)の正味の割合は 2 つのゲノム・サンプル間の非類似性の尺度として採用されることがあり、この尺度を使用してサンプルをクラスター化することができることが認められた(図17)。これらのパーセンテージを合計し、その合計を使用して非類似性の尺度の行列を作成した。そして、その行列を、メソッド変数(method variable)を ward.D2 に設定することで、R パッケージ「hclust」を使用して実行する Ward 誤差二乗和の階層クラスター化スキーム(Ward error sum of squares hierarchical clustering scheme)への入力として使用した。クラスター化の結果は、幹細胞の分化が高レベルのクロマチン再構成と関連しているという根拠を提供した。特に、分化した系統とがんは一緒にクラスター化されたが、それらは互いに区別された。一方で、脳は幹細胞に最も近くクラスター化された。これは最近の生化学的研究で示唆されている通りであった。注目すべきことに、若年者の CD4 サンプルは 1 つのクラスターを形成したのに対し、高齢者の CD4 サンプルは別のクラスターを形成し、同じことが皮膚にも当てはまった。
興味深いことに、正常結腸が結腸がんと異なるように、正常肺は肺がんとは著しく異なるクロマチン構造を示した(図17)。このため、これらの変化を既知のクロマチン又はメチル化構造と関連づけることを試みた。
以前の研究によって、がんの中には、腫瘍の種類にわたって非常に一致している大きな低メチル化ブロックが存在することが実証されている。これらのブロックは、ラミン関連ドメイン(lamin-associated domains(LADs))やラージ・オーガナイズド・クロマチン K9‐修飾(large organized chromatin K9-modifications(LOCKs))等、クロマチン構造の大規模な領域に密接に対応することが示されている。区画 B の及び発がんの情報‐理論的特性に関する観察と一致して(図13及び15A、B)、低メチル化ブロックが主として区画 B と関連しているかどうかを検討した。
この仮説を検証するために、利用可能な低メチル化ブロック、LOCKs、及び LADs を、これらと最もよく関連している、肺正常-1、肺正常-2 及び肺正常-3 のサンプルに由来する、ランダム・フォレスト予測の区画 B のデータとマッチさせた。区画 B 内に低メチル化ブロック(並びにLADs 及び LOCKs についても同様)が富化(enrichment)しているかどうかを評価するために、2 つの 2 値(0-1)確率変数 R 及び B を各ゲノム・サブ領域について定義し、ゲノム・サブ領域がブロックと重なる場合は R=1、ゲノム・サブ領域が区画 B と重なる場合 は B=1 となるようにした。次いで、R 及び B についての 2×2 分割表(contingency table)にχ2‐検定を適用することによって、R 及び B が統計的に独立しているという帰無仮説に対して検定し、富化(enrichment)の尺度としてオッズ比(odds ratio(OR))を計算した。
正常な肺における区画 B との有意な重なり(図18)が低メチル化ブロックで見られ(OR2≒3.3、p‐値<2.2×10-16)、LADs(OR≒ 4、p‐値<2.2×10-16)及び LOCKs(OR≒ 5.3、p‐値<2.2×10-16)についても同様であった。
興味深いことに、正常組織の区画 B は、正常とがんとの間の JSD 値が大きい領域を示している可能性があり(図18A)、発がんの際にかなりのエピジェネティックの変化がこの区画内で発生することを示唆する。この観察は、正常における区画 A 及び B 内に、正常とがんとの間の JSD 値のゲノム‐ワイドな分布において差異が観察されたことによって更に支持された(図18B)。
結腸がんにおける区画 B から A へのスイッチング(switching)は、HOXA 及び HOXD 遺伝子クラスターを含んでいたた。しかし、肺癌においては、HOXD 遺伝子クラスターを含んでいたが、HOXA は含んでいなかった(図19A、B)。それはまた、結腸がんでは SOX9 を、結腸がんと肺がんの両方ではチロシン・キナーゼ SYK を含んでいた(図19C)。がんにおける LAD 及び LOCKs の変化の方向性と一致して、がんにおいて区画 A から B へのスイッチング(switching)を示した領域はほとんどなかった。興味深いことに、これは結腸においては MGMT(結腸直腸がんにおいてメチル化され、及び発現が無くなることが知られているアルキル化 DNA 損傷の修復に関与する遺伝子)を含んでいたが肺においては含んでおらず、並びにミスマッチ修復遺伝子 MSH4 を含んでいた(図19D)。
正常/がんサンプル間の有意な区画 B から A へのスイッチング(switching)が前に観察されたことと併せると、これらの結果は、区画 B が発がんの間にメチル化情報が低下しやすいゲノム領域を画定することを示唆する。
エントロピー感受性はエピジェネティックの確率に与える環境の影響を定量化する
DNA のメチル化の変化やクロマチンの翻訳後修飾等のエピジェネティックの変化は、外部及び内部の環境シグナルを遺伝的変異と統合して表現型を調節する。これに関して、メチル化エントロピーに与える環境変動の影響を定量化できるようにする感受性解析のアプローチに従うことにより、メチル化の確率に与える環境曝露の影響を調査することを試みた。この目的のために、環境変動を、メチル化 PEL パラメータに直接影響を及ぼすプロセスと見なし、パラメータ変動に対する NME の相対的尺度としてエントロピー感受性指数(entropic sensitivity index(ESI))の使用を可能にする確率的アプローチを開発した。単一の WGBS データからゲノム‐ワイドに ESI 値を計算することにより、個々のゲノム・サンプル並びに比較研究において、エピジェネティックの不確実性(epigenetic uncertainty)に与える環境的なゆらぎの影響を定量化することが可能になった(図20、21及び22)。例えば、結腸正常では、WNT1 に関連する CGI 内にかなりのエントロピー感受性が観察されたが、結腸がんでは、その CGI の一部でエントロピーが増加し及び感受性が減少した(図20A)。
全体的に、組織間で ESI の差が観察され(図20B、C)、幹細胞及び脳細胞は、他のゲノム・サンプルよりも高いレベルのエントロピー感受性を示した。脳細胞が高度にメチル化されているという事実(図2A)と併せると、高レベルのエントロピー感受性によって、環境刺激に応答して脳が高率で脱メチル化を示すことが、予測されるであろう。これは、DNA 脱メチル化酵素 Tet3 が、能動的な脱メチル化により神経可塑性をエピジェネティックに調節するシナプス活動のセンサーとしての役割を果たし、幹細胞と CD4+ リンパ球にも同様の観察が当てはまる可能性がある、という最近のデータと一致する。結腸がん及び肺がんは、エントロピー感受性の全体的な減少を示したが、肝臓がんでは増加が認められた。更に、CD4+ リンパ球及び皮膚ケラチノサイトは、高齢の個体においてエントロピー感受性の全体的な減少を示した(図20C)。一方、培養線維芽細胞は、継代数に伴って減少する傾向は無かったが著しく低い ESI を示した。
ショア(shores)、エクソン、及びイントロンなどの他のゲノムの特徴と比較して、CGIs 内及び TSS で、より高く且つより変動しやすい ESI 値が観察された(図21)。しかしながら、ある非メチル化の CGIs は低いエントロピー感受性を示し(図22A)、CGIs 内のエントロピー感受性の増加又は減少が、正常とがんとの間(図22B、C)、並びに高齢者において観察された(図22D、E)。注目すべきことに、ESI における差異は、単にエントロピーだけによるものではない。なぜなら、多くの低エントロピー領域は小さい ESI 値を示したが(図22A、B、C)、一方で、他のそのような領域は顕著な ESI 値を示した(図22B、D、E)からである。従って、ESI の違いは、環境の撹乱(perturbations)に対する実質的な感受性を示している。
より高次のクロマチン構造に対するエントロピー感受性の関係も調べた。区画 A 内のエントロピー感受性は、幹細胞を除く全てのゲノム・サンプルにおいて区画 B よりもかなり高いことがわかった(図23)。これは、転写的に活性である区画 A が刺激に対してより敏感であるという考えと一致する。更に、正常組織間及び正常とがんとの間に観察された差異は、主として区画 B に限定されていた(図23)。より高齢者の CD4+ リンパ球及び皮膚ケラチノサイトでは、区画 B におけるエントロピー感受性はかなり減るが、区画 A ではそうではないことが気付かれる。これは、区画 B において感受性の増加を示した細胞培養とは対照的である(図23)。
組織間のエントロピー感受性の変化を更に調べるために、結腸正常と結腸がんとの間で、プロモーター内の差分 ESI(dESI)に従って、遺伝子をランク付けした(下記及び添付の補足データ5)。結腸がんでは、LIMD2(4 番目にランク付けされる)等の、細胞の運動性及び腫瘍の進行を調節する環境シグナルを伝達するいくつかの LIM-ドメイン・タンパク質、並びに神経膠腫において MYB との融合のパートナーであることが最近発見され、自己調節フィードバック・ループへと導く、結腸上皮分化の調節因子及び結腸がんのサプレッサーである QKI(1 番目にランク付けされる)、がんにおいて調節不全になっているカノニカル再構成ホメオボックス遺伝子(canonical rearranged homeobox gene)である HOXA9(8 番目にランク付けされる)、及び過剰発現をして、結腸直腸がんの腫瘍形成性を増強する FOXQ1(9 番目にランク付けされる)等の結腸及び他のタイプのがんに関与している遺伝子、が示された。
まとめると、前の結果は、環境暴露が細胞内のエピジェネティックの不確実性(epigenetic uncertainty)に、細胞タイプ特異的な方法で、ゲノムに沿って及び区画間で異なる感受性レベルで、影響を及ぼすことがあることを示唆している。そして、疾患、環境暴露及び加齢が、細胞増殖及び機能を調節する環境的な合い図(environmental cues)を統合することを損なうことがあるエントロピー感受性の実質的な減少又は増加に関連する、という魅力的な可能性を提示する。
<考察>
この明細書では、統計物理学のイジング・モデルを使用して、全ゲノム・バイサルファイト・シークエンシングから、固有のエピジェネティックの確率(epigenetic stochasticity)を表すエピジェネティック・ポテンシャル・エネルギー・ランドスケープ(epigenetic potential energy landscapes(PELs))を導き出した。外部「ノイズ(noise)」という項を含むエピジェネティック・ランドスケープではなく、メチル化の処理能力、距離依存的な協同性、及び CpG 密度という生物学的に正しい原則を使用して、DNA のメチル化ランドスケープのモデリングに対する厳密なアプローチを構築した。このアプローチにより、低カバレッジ(low covelage)データから DNA のメチル化における確率をモデル化することができただけでなく、高解像度でシャノン(Shannon)のエントロピーをゲノム‐ワイドに解析することも可能となった。情報理論の基本原理をメチル化チャネル(methylation channels)のフレームワークに組み込むことによって、Hi-C 実験を行うこと無しに、単一の WGBS サンプルから高次クロマチン構造(high-order chromatin organization)を詳細に予測することも可能となった。
この解析からいくつかの重要な洞察が得られた。シャノン・エントロピー(Shannon entropy)は、組織間で、ゲノム全体にわたって、そしてゲノムの特徴にわたって、著しく異なることが見出された。継代に伴って、メチル化レベルは大きく減少し、エントロピー分布は比較的安定していた培養細胞とは対照的に、高齢者由来の細胞においてはメチル化は減少し、及びエントロピーは増加していることが一貫して観察された。エントロピー増加に関連する遺伝子は、加齢に非常に関連しているように思われたが、この観察が完全に意味することは、さらなる調査を必要とする。ある例では、高いエントロピーは、完全にメチル化された状態と完全に非メチル化された状態との共存に起因することが観察され、それを双安定と呼ぶ。メチル化レベルの双安定性は、おそらく対立遺伝子特異的なメチル化のために、多くの既知のインプリンティングされた領域と関連していることがわかった。
周辺統計(marginal statistics)を使用して、比較するゲノム・サンプル中のメチル化可変領域(differentially methylated regions(DMRs))を同定するのではなく、情報‐理論的なエピジェネティックの差異をゲノム‐ワイドに計算するためのジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))を使用した。このアプローチによって、マッチする正常組織と比較したそのゲノム・サンプルに特有の、特異的なエピジェネティックの差異を同定するという潜在的な臨床上の利点を持って、個々のゲノム・サンプル間のエピジェネティックの差異を決定することが可能になる。多様な起源の組織のパネルを解析することによって、幹細胞ハブの周りに、3 つの生殖細胞系列の「発生ホイール(developmental wheel)」が明らかになった。一貫して、がんは極めて多様であり、そして最も重要なことに、がんは、幹細胞と正常組織との間で、メチル化特性において中間ではない。
前記 JSD が、過去に精力的に特徴付けられてきた平均差を単に具体化するかどうか、それとも、平均とは独立した新しい洞察を明らかにするかどうかを検討した。この問題に取り組むために、サンプル・ペア間の JSD は高いが平均差が小さいゲノム領域を同定した。この領域は、平均差がある領域で見られるよりも幹細胞メンテナンス又は系統発生に関する多くのカテゴリーがより富化していて、発生における確率(stochasticity)の重要な役割が示唆された。言い換えると、このタイプの確率(stochasticity)は、協同性の高い局所領域によって左右されるように思われ、これは平均メチル化の変化をほとんど伴わずに PEL を平らにする傾向がある。高い JSD 及び低い平均メチル化差を有する領域は、ポリコーム抑制複合体(Polycomb repressive complex(PRC2))結合部位に富化していることが見出された。これは、発生過程の確率的なスイッチング(stochastic switching)において PRC2 が役割を果たしている可能性を示唆している。興味深いことに、PRC2 成分は、エピジェネティクスの場の初期の領域における確率的エピジェネティック・サイレンシング(stochastic epigenetic silencing)、即ち確率(stochasticity)も含む斑入り位置効果(position effect variegation)にとって重要である。PRC2は遺伝子サイレンシングだけでなくエピジェネティック確率(epigenetic stochasticity)の調節にも一般に重要であることが示唆されている。
TAD 境界とエントロピー・ブロックの間の関係を発見することによって、新しい洞察が得られた。TAD 境界は、1 つ以上のゲノム・サンプル中の高エントロピーと低エントロピーとの間の遷移ドメイン(transition domains)内に位置することがあると示された。これは、細胞タイプにわたって比較的不変であり、CTCF 結合部位に関連する TAD 境界が、高エントロピー・ブロック及び低エントロピー・ブロックをゲノム内において画定することがある潜在的な遷移点である、というモデルを示唆する。そして、高エントロピーと低エントロピーとの間で遷移する TAD 境界の特定の組み合わせは、大部分において、組織タイプを区別する A/B 区画を規定する。
エピジェネティクスへの情報‐理論的アプローチはまた、メチル化チャネル(methylation channels)によっても導入され、これによって、メチル化状態を信頼性をもって維持するためのメチル化機構の情報容量を推定することが可能となる。情報容量、CG エントロピー、及び相対散逸エネルギーの間、並びに高い情報容量の部位局在化及び付随する高いエネルギー消費の間(例えば、CpG アイランド・ショア(CpG island shores)及び区画 A 内)に密接な関係が見出された。メチル化チャネル(methylation channels)の情報的特性は A/B 区画を予測するために使用することができ、そして、個々の組織及び細胞培養物に由来する広く利用可能な WGBS サンプルについてそのような予測を行うように、機械学習アルゴリズムを設計した。このアルゴリズムを、個々のゲノム・サンプルの DNA のメチル化データからクロマチンの高次構造(large-scale chromatin organization)を予測するために使用できる。正常及びがんの単一対の WGBS データ・セットを使用して、A/B 区画遷移を予測した。結腸がん及び肺がんの両方では、際立った区画のスイッチング(compartment switching)が示され、最も頻繁には B から A へのスイッチング(switching)であり、LADs 及び LOCKs に密接に対応した B から A へのスイッチング(switching)の領域を伴った。B から A へ及び A から B へのスイッチング(switching)のドメインは、がんにおいては活性化される又は発現が無くなる多くの遺伝子を含み、これは区画のスイッチング(switching)ががんに寄与し得ることを示唆している。
最後に、メチル化 PEL パラメータに直接影響を与えるプロセスとして環境変動を見ることにより、エントロピー感受性の概念を導入し、外的要因がメチル化 PEL に影響を与える可能性があるゲノム遺伝子座を同定した。本発明者らはエントロピー感受性のエピジェネティックな意味合いを探求し始めたばかりであるが、加齢及びあるがんはエントロピー感受性の全体的な減少と関連していて、それ故に PEL は反応性がより低くなるようである。この観察が更なる研究においても真実であれば、それは加齢のよく知られている減少した生理学的可塑性、並びに腫瘍細胞の自律的な性質に関連している可能性がある。
この研究は、核内の情報保管の効率を最大化することができる、エピジェネティックの情報、エントロピー及びエネルギーの間の潜在的な関係を示している。多能性幹細胞は、メチル化チャネル(methylation channels)を維持するために高度のエネルギーを必要とし、ワディントン(Waddington)によって比喩的に示唆されるように、分化分岐点に相当する高度に変形可能な PELs を含むゲノムのある領域を含み、これは今や同定することができ、可塑性を担うパラメータをマップすることができる。分化細胞では、ゲノムの大部分(区画 B、LADs、LOCKs)は、高い情報容量及び付随する高いエネルギー消費を維持する必要がなく、それらが相対的に隔離されていることによって効率が向上する。しかし、区画 B 内のドメインが区画 A にスイッチする場合、以前に蓄積されたエピジェネティック・エラーが有害になり、エントロピー感受性の低下と相まって、ホメオスタティックな訂正の機会を減少させることがある。
最後に、本明細書で実証された DNA のメチル化の確率的性質及びメチル化エントロピー、チャネル容量、散逸エネルギー及びクロマチン構造の間の密接な関係は、所与の組織における DNA のメチル化が、現状及び確率的なスイッチング(stochastic switching)の可能性の両方に関する情報を運ぶことができるという興味深い可能性を提起する。この情報は、クロマチンの翻訳後修飾自体が細胞分裂中に失われる可能性がある、より高次なクロマチン構造(higher order chromatin organization)であっても、DNA 複製の多くのサイクルにわたって、メチル化チャネル(methylation channels)を介して部分的に伝播されることがある。これは、エピジェネティックの情報が、全体として細胞の集団によって運ばれること、そしてこの情報が分化状態を維持するのに役立つだけでなく、生物の一生を通して発生学的な可塑性を仲介するのにも役立つことを意味する。
<図の説明>
図1は、ポテンシャル・エネルギー・ランドスケープ(potential energy landscapes)に関するものである。1A:ゲノム遺伝子座内のメチル化状態の複数の WGBS リード(reads)を使用して、成分が各 CpG 部位のメチル化状態を表すメチル化行列を形成する(1:メチル化、0:非メチル化、ND:データなし)。メチル化解析のための多くの方法は、CpG 部位に関連する各列内のみのメチル化情報を使用することにより、個々の CpG 部位における周辺メチル化確率及び平均を推定するものである。本発明において提示される統計物理学アプローチは、メチル化行列の各行の尤度を決定し、行にわたるこの情報を平均尤度に組み合わせ、そしてこの尤度を PEL パラメータに関して最大化することによって、最も可能性の高い PEL を計算する。1B:結腸正常及び結腸がんにおける WNT1、並びに幹及び脳における EPHA4 の CpG アイランドに関連する PELs。点 (m, n) はメチル化状態を示し、(0, 0) は完全な非メチル化状態を示し、これは両方の例において基底状態(すなわち最低ポテンシャルの状態)でもある。1C:この研究で使用した全てのゲノム・サンプルについてのイジング PEL パラメータ分布の箱ひげ図。前記箱には25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×四分位間範囲 である。
図2は、平均メチル化レベル(mean methylation level(MML))及び標準化メチル化エントロピー(normalized methylation entropy(NME))に関する。2A:この研究で使用した全てのゲノム・サンプルについての MML 及び NME 分布の箱ひげ図。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×四分位間範囲 である。2B:2 つの正常/がん・サンプルに関連するゲノム‐ワイドな MML 及び NME 密度によれば、結腸がん及び肺がんにおいて、MML が全体的に減少し、エントロピーは増加する。2C:若年者/高齢者の CD4+ リンパ球及び皮膚ケラチノサイトに関連するゲノム‐ワイドな MML 及び NME 密度によれば、高齢者において、MML が全体的に減少し、エントロピーは増加する。
図3は、がんにおける平均メチル化レベル及びメチル化エントロピーの変化に関する。3A:結腸及び肺がんにおける平均メチル化レベル(mean methylation level(dMML))の有意な減少を示し、メチル化エントロピー(methylation entropy(dNME))の増加を伴うゲノム・ブラウザ・イメージ(genome browser image)。肝臓がんは、著しい低メチル化のためにゲノムの広い領域内でメチル化エントロピーの減少を示す。3B:腫瘍抑制遺伝子である、CDH1 のプロモーター付近の CGI は結腸がんにおいてエントロピー減少を示す。3C:NEU1 のプロモーター付近の CGI は、肺がんにおいてメチル化エントロピーの増加を示す。NEU1 シアリダーゼは正常な肺の発生及び機能に必要であるが、一方でその発現は腫瘍形成及び転移能に関与しているとされている。3D:肝がんで低メチル化であることが知られている遺伝子である、ENSA のプロモーター付近の CGI のショア(shores)で、肝がんでメチル化エントロピーの顕著な減少が観察される。
図4は、様々なゲノム・サンプルにおけるゲノム全体にわたるゲノムの特徴内の平均メチル化レベル(mean methylation level(MML))及び標準化メチル化エントロピー(normalized methylation entropy(NME))の解析結果に関する。CGIs、ショア(shores)、シェルフ(shelves)、オープン・シー(open seas)、TSSs、エクソン、イントロン、及び遺伝子間領域内(intergenic regions)で、この研究で使用された全てのゲノム・サンプルのメチル化尺度のゲノム‐ワイドな分布の箱ひげ図。4A:平均メチル化レベル(mean methylation level(MML))。4B:標準化メチル化エントロピー(normalized methylation entropy(NME))。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは 1.5×四分位間範囲 である。
図5は、培養線維芽細胞が、加齢をモデル化するのには適切ではない可能性があることを示す。5A:非メチル化ブロック(MB-グリーン)が、HNF 線維芽細胞中、継代に伴い漸進的に形成され、そしてこのプロセスは、肝細胞における発がんの過程で観察されたものと類似している。しかし、エントロピー・ブロック(EB-赤)は比較的安定である。5B:加齢のモデルとしての HNF 線維芽細胞が、誤解を招く可能性のある性質の例は、CYP2E1(年齢と共にダウンレギュレートすることが分かっている遺伝子)である。差分平均メチル化レベル(differential mean methylation level(dMML))トラックは、この遺伝子のプロモーター近くで、高齢者の CD4+ リンパ球において、メチル化の増加を示すが、HNF 線維芽細胞において、継代と共にはメチル化レベルの明らかな変化は観察されない。同様に、CYP2E1 プロモーターは、高齢者の CD4+ リンパ球において大きなエントロピー差分(entropy differential(dNME))を示すが、HNF 線維芽細胞においては、継代と共にはエントロピーの変化は事実上無い。5C:メチル化エントロピーの顕著な増加はまた、高齢者の CD4+ リンパ球において FLNB(年齢と共にダウンレギュレートされることが分かっている遺伝子)のプロモーターの近くに観察される。しかしながら、FLNB プロモーターは、線維芽細胞においては、継代に伴ってエントロピーの減少を示す。
図6は、エピジェネティック距離によって系統が描出されることを示す。17 種類の細胞と組織のサンプル間のゲノムの非類似性(ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))を使用して評価した)を多次元尺度法(Multidimensional scaling(MDS))により可視化することによって、ゲノム・サンプルが、系統に基づいた明確なカテゴリへグループ化されることが明らかになる。
図7は、ある遺伝子のプロモーターの近くの、ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))は高いが差分平均メチル化レベル(differential mean methylation level(dMML))は低いゲノム領域内では、調節が異なることを示す。7A:EPHA4 のプロモーターは、ヒストン・メチルトランスフェラーゼ RPC2 の重要な構成要素である EZH2 及び SUZ12 が結合することを示し、幹細胞と脳との間では、差分メチル化は無視できるほどであるが JSD は高く、PEL パラメータによって左右され、脳においてはエントロピーの増加がもたらされる。7B:神経発生のマスター・レギュレーション(master regulation)である SIM2 のプロモーターは、幹細胞と脳との間では dMML は低レベルだが JSD は高く、エピジェネティック距離は大きい。PEL パラメータの調節によって、幹及び脳の両方においてメチル化レベルが低くなることになるが、脳においてはエントロピーが増加することになる。この領域はまた EZH 2 及び SUZ 12 が結合することを示す。7C:多能性に関連する転写因子である FOXD3 を含む 14,000 塩基対領域内で同様の挙動が観察される。7D:重要な発生遺伝子である SALL1 のプロモーターは、SIM2 によって示されるものと類似している、幹と脳との間の異なる挙動を示す。7E:末梢神経系及び中枢神経系におけるニューロン前駆体の決定に関与する発生遺伝子である ASCL2 のプロモーターは、SIM2 及び SALL1 のプロモーターと同様の挙動を示すが、脳においてはエントロピーが減少する。
図8は、メチル化の双安定性及びエントロピーに関する。双安定なゲノム・サブ領域(黄色)内と残りのゲノム(紫)とを比較した、NME 分布の箱ひげ図。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×位間範囲 である。
図9は、メチル化レベル及びインプリンティングにおける双安定性に関する。9A:H19 と関連する 11p15.5 染色体領域の一部を表示するゲノム・ブラウザ・イメージ(genome browser image)。9B:KCNQ1OT1 と関連する 11p15.5 染色体領域の一部。9C:SNURF プロモーター付近の 15q11.2 染色体領域。9D:PEG3/ZIM2 プロモーター周辺の 19q13.43 染色体領域の一部を表示するゲノム・ブラウザ・イメージ(genome browser image)。多くの正常組織で見られるように、双安定メチル化のマークは、CTCF 結合を示す PEG3/ZIM2 の ICR の位置と一致する。ICR はインプリンティングされた遺伝子 MIMT1 の転写開始部位も含むことに留意されたい。9E:MEST / MESTIT1 プロモーターの周囲の 7q32.2 染色体領域の一部を表示するゲノム・ブラウザ・イメージ(genome browser image)。多くの正常組織について示されているように、双安定メチル化のマークは、CTCF 結合部位に富む領域と一致する。
図10はエントロピー・ブロック及び TAD 境界に関する。10A:正常/がんパネルにおいて、H1 幹細胞における既知の TAD 境界アノテーションのサブセットはエントロピー・ブロックの境界と関連しているように見え(緑:秩序、赤:無秩序)、TADs が自分の中で一定レベルのメチル化エントロピーを維持できることを示唆する。10B:TAD 境界の位置が秩序(緑色)又は無秩序(赤色)のブロックの境界と関連することがあることを示す別の例。
図11はエントロピー・ブロック及び TAD 境界に関する。エントロピー遷移 の領域を、ある TAD 境界(黒い四角)の位置を同定するために有効に使用することができる。TADs は細胞タイプに依らず不変であるので、より多くの TAD 境界の位置を、異なる表現型に対応する追加の WGBS データを使用することによって同定することができる。
図12はエントロピー・ブロック及び TAD 境界に関する。TAD 境界位置誤差と TAD サイズの確率密度と累積確率分布(挿入)。
図13は、メチル化チャネル(methylation channels(MCs))の情報‐理論的特性に関する。個々の CpG サイトにおけるゲノム‐ワイドな ICs、RDEs、及び CGEs の箱ひげ図は、ゲノム・サンプル間で全体的な違いを示す。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは 1.5×四分位間範囲 である。
図14は、様々なゲノム・サンプル中のゲノム全体にわたるゲノムの特徴内のメチル化チャネル(methylation channels(MCs))の情報‐理論的な特性の解析結果に関する。CGIs、ショア(shores)、シェルフ(shelves)、オープン・シー(open seas)、TSSs、エクソン、イントロン、及び遺伝子間領域内(intergenic regions)での、この研究で使用された全てのゲノム・サンプルの MCs の情報‐理論的な特性の箱ひげ図。14A:情報容量(Information capacity(IC))。14B:相対散逸エネルギー(Relative dissipated energy(RDE))。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×四分位間範囲 である。
図15は、メチル化チャネル(methylation channels(MCs))の情報‐理論的な特性を、クロマチンの高次構造(large-scale chromatin organization)を予測するために使用することができることを示す。15A:Hi-C 及び WGBS データの解析により、EBV 細胞における区画 B(青色)内のメチル化状態のメンテナンスは、主に、低い情報容量(information capacity(IC))の MCs によって行われ、低いエネルギー量(RDE)を放散して区画 A(茶色)よりも比較的無秩序(NME)及び低いメチル化(MML)状態となることが、明らかになる。15B:IC、RDE、NME 及び MML のゲノム‐ワイドな分布の箱ひげ図は、単一のゲノム・サンプルに由来する WGBS データを使用して区画 A/B を予測するための特徴としてのそれらの魅力を示す。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは 1.5×四分位間範囲 である。15C:メチル化メンテナンスの情報‐理論的特性を使用して、EBV 細胞における A/B 区画(AB)をランダム・フォレストに基づいて予測することの例。
図16は、A/B 区画のスイッチング(switching)に関する。がんで観察された予測された区画 A(茶色)と B(青色)間のスイッチング(switching)の例。B から A へのスイッチング(switching)は、A から B へのスイッチング(switching)よりも頻繁である。
図17は、ゲノム・サンプルの A/B 区画のスイッチング(switching)及びクラスター化に関する。A/B 区画のスイッチング(switching)の正味パーセンテージを、階層的凝集クラスター化(hierarchical agglomerative clustering)における非類似性尺度として使用した。所与の高さで、クラスターは、ゲノム・サンプルの別のグループ化よりも低い全体的な区画のスイッチング(switching)を特徴とする。
図18は、低メチル化ブロック、LADs、及び LOCKs と重なる区画 B、並びに区画 B で高いエピジェネティック距離が富化(enrichment)していることに関する。18A:2 つの染色体領域のゲノム・ブラウザ・イメージ(genome browser image)は、正常肺(青色)の区画 B が、低メチル化ブロック、LADs、及び LOCKs と有意に重なることを示す。発がんの過程で、正常な肺の区画 B(青)内で、JSD の増加が観察される。18B:正常結腸、肝臓及び肺の区画 A(茶色)及び区画 B(青色)内のゲノム‐ワイドな JSD 分布の箱ひげ図は、がんの区画 B 内で JSD が増加することを示す。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×四分位間範囲 である。
図19は、がんにおける区画 A 及び区画 B の再配置に関する。19A:発生遺伝子の HOXA クラスターは正常結腸、肝臓及び肺では区画 B 内にある。しかしながら、それは結腸がん及び肝臓がんでは区画 A に再配置となるが、肺がんでは再配置とならない。HOXA 遺伝子の区画再構成は、選択した遺伝子座内の顕著な低メチル化及びエントロピー減少を伴い、腫瘍内での変化した HOXA 遺伝子発現におけるクロマチン再構成の役割を意味する。19B:HOXD 遺伝子は正常結腸、肝臓及び肺の区画 B 内にあり、3 つのがん全てにおいて区画 A に再配置となる。19C:SOX9 は、結腸及び肺の正常において区画 B 内にあり、結腸がんにおいてのみ区画 B に再配置となる。これは顕著な低メチル化及びエントロピー減少を伴う。SYK は、結腸及び肺の正常において区画 B 内にあり、結腸がん及び肺がんの両方において区画 B に再配置となる。19D:MGMT 及び MSH4 は、結腸及び肺の正常において区画 A 内にあり、それらは結腸がんにおいてのみ区画 B に移動する。区画の再編成は、低メチル化とエントロピーの著しい増加を主に伴う。
図20は、エントロピー感受性の計算及び比較に関する。20A:エントロピーの増加及びエントロピー感受性指数(entropic sensitivity index(ESI))の減少が、WNT1 に関連する CGI の一部内に観察される。20B:正常とがん組織との間で、大きなエントロピー感受性における差(differences in entropic sensitivity(dESI))がゲノム‐ワイドに観察され(ここでは 1 番染色体の大きな部分について視覚化されている)、低感受性と高感受性の交互のバンドを示す。20C:この研究で使用したゲノム・サンプルに対応するゲノム‐ワイドな ESI 分布の箱ひげ図は、ゲノム・サンプルにわたるエントロピー感受性における全体的な差を明らかにする。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは1.5×四分位間範囲 である。
図21は、様々なゲノム・サンプル中のゲノム全体にわたる様々なゲノムの特徴内のエントロピー感受性の解析結果に関する。GIs、ショア(shores)、シェルフ(shelves)、オープン・シー(open seas)、TSSs、エクソン、イントロン、及び遺伝子間領域内(intergenic regions)での、この研究で使用した全てのゲノム・サンプルのエントロピー感受性指数(entropic sensitivity index(ESI))のゲノム‐ワイドな分布の箱ひげ図。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは 1.5×四分位間範囲 である。
図22は、ゲノムにおけるエントロピー感受性の広い挙動を示す。22A:結腸正常組織における ESI 値の一例は、ゲノムに沿って広範に拡がるエントロピー感受性を示す。しかしながら、非メチル化 CGI は低いエントロピー感受性を示すことがある。KLHL21 は、効率的な染色体アラインメントと細胞質分裂に必要な BCR(BTB-CUL3-RBX1)E3 ユビキチン‐タンパク質リガーゼ複合体の基質特異的なアダプターである。PHF13 はクロマチン構造を調節する。THAP3 は悪性腫瘍及び疾患において役割を果たすことがある RPM1 の調節に必要とされる。22B:肝臓正常細胞において、かなりのエントロピー感受性が、ポリコーム標的遺伝子 ENSA のプロモーター付近の CGI 内に観察され、これは肝臓がんにおいて有意に減少する。ENSA は肝臓がんでは低メチル化であることが知られている。22C:肺正常細胞において、NEU1 のプロモーター付近の CGI は、エントロピー感受性が低く、これは肺がんにおいては有意に増加する。NEU1 シアリダーゼは正常な肺の発生及び機能に必要であるが、その発現は腫瘍形成及び転移能に関与しているとされてきている。22D:若年者の CD4+ リンパ球において、かなりのエントロピー感受性が、CYP2E1 のプロモーター付近の CGI 内に観察されるが、これは高齢者では失われる。CYP2E1 は年齢と共にダウンレギュレートされることが知られている。22E:FLNB のプロモーター付近の CGI は、高齢者の CD4+ リンパ球においてエントロピー感受性が増加する。FLNB は年齢と共にダウンレギュレートされることが知られている。
図23は、様々なゲノム・サンプルにおける区画 A 及び区画 B 内のエントロピー感受性の解析結果に関する。区画 A(茶色)及び区画 B(青色
)内のゲノム‐ワイドな ESI 分布の箱ひげ図は、区画 B 内よりも区画 A 内のエントロピー感受性が高いことを示す。前記箱には 25 %分位点、中央値、75 %分位点が表示されているが、各ひげの長さは 1.5×四分位間範囲 である。
<参考文献>
(1)Bandopadhayay, P. et al. MYB-QKI rearrangements in angiocentric glioma drive tumorigenicity through a tripartite mechanism. Nat. Genet. 48, 273-282, doi:10.1038/ng.3500 (2016).
(2)Baxter, R. J. Exactly Solved Models in Statistical Mechanics. Academic Press, doi: 10.1142/9789814415255_0002 (1982).
(3)Bennet, C. H. The thermodynamics of computation - a review. Int. J. Theor. Phys. 21, 905-940, doi:10.1007/BF02084158 (1982).
(4)Bergman, Y. & Cedar, H. DNA methylation dynamics in health and disease. Nat. Struct. Mol. Biol. 20, 274-281, doi:10.1038/nsmb.2518 (2013).
(5)Berman, B. P. et al. Regions of focal DNA hypermethylation and long-range hypomethylation in colorectal cancer coincide with nuclear lamina-associated domains. Nat. Genet. 44, 40-46, doi:10.1038/ng.969 (2012).
(6)Bickel, P. J. & Doksum, K. A. Mathematical Statistics: Basic Ideas and Selected Topics, Volume I. Prentice-Hall, doi: 10.2307/2286373 (2007).
(7)Boyes, J. & Bird, A. Repression of genes by DNA methylation depends on CpG density and promoter strength: evidence for involvement of a methyl-CpG binding protein. EMBO J. 11, 327-333 (1992).
(8)Cover, T. M. & Thomas, J.A. Elements of Information Theory. John Wiley & Sons, 10.1002/047174882X (2006).
(9)de la Cruz, C. C. et al. The polycomb group protein SUZ12 regulates histone H3 lysine 9 methylation and HP1 alpha distribution. Chromosome Res. 15, 299-314, doi:10.1007/s10577-007-1126-1 (2007).
(10)DeBaun, M. R. et al. Epigenetic alterations of H19 and LIT1 distinguish patients with Beckwith-Wiedemann syndrome with cancer and birth defects. Am. J. Hum. Genet. 70, 604-611, doi:10.1086/338934 (2002).
(11)Dekker, J., Marti-Renom, M. A. & Mirny, L. A. Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data. Nat. Rev. Genet. 14, 390-403, doi:10.1038/nrg3454 (2013).
(12)Dixon, J. R. et al. Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature 485, 376-380, doi:10.1038/nature11082 (2012).
(13)Dixon, J. R. et al. Chromatin architecture reorganization during stem cell differentiation. Nature 518, 331-336, doi:10.1038/nature14222 (2015).
(14)Eden, E. et al. GOrilla: a tool for discovery and visualization of enriched GO terms in ranked gene lists. BMC Bioinformatics 10, 48, doi:10.1186/1471-2105-10-48 (2009).
(15)Feng, F. et al. Genomic landscape of human allele-specific DNA methylation. Proc. Natl. Acad. Sci. USA, 109, 7332-7337 (2012).
(16)Fashami, M. S., Atulasimha, J. & Bandyopadhyay, S. Energy dissipation and error probability in fault-tolerant binary switching. Sci. Rep. 3, 3204, doi:10.1038/srep03204 (2013).
(17)Favorov, A. et al. Exploring massive, genome scale datasets with the GenometriCorr package. PLoS Comput. Biol. 8, e1002529, doi:10.1371/journal.pcbi.1002529 (2012).
(18)Fortin, J. P. & Hansen, K. D. Reconstructing A/B compartments as revealed by Hi-C using long-range correlations in epigenetic data. Genome Biol. 16, 180, doi:10.1186/s13059-015-0741-y (2015).
(19)Friel, N. & Rue, H. Recursive computing and simulation-free inference for general factorizable models. Biometrika, 94, 661-672, doi: 10.1093/biomet/asm052 (2007).
(20)Fu, A. Q. et al. Statistical inference of transmission fidelity of DNA methylation patterns over somatic cell divisions in mammals. Ann. Appl. Stat. 4, 871-892, doi: 10.1214/09-AOAS297 (2010).
(21)Fu, A. Q. et al. Statistical inference of in vivo properties of human DNA methyltransferases from double-stranded methylation patterns, PLoS One, 7, e32225, doi:10.1371/journal.pone.0032225 (2012).
(22)Genereux, D. P. et al. A population-epigenetic model to infer site-specific methylation rates from double-stranded DNA methylation patterns, P. Natl. Acad. Sci. USA, 102, 16, 5802-5807, 10.1073/pnas.0502036102 (2005).
(23)Gibcus, J. H. & Dekker, J. The hierarchy of the 3D genome. Mol. Cell 49, 773-782, doi:10.1016/j.molcel.2013.02.011 (2013).
(24)Guelen, L. et al. Domain organization of human chromosomes revealed by mapping of nuclear lamina interactions. Nature 453, 948-951, doi:10.1038/nature06947 (2008).
(25)Hansen, K. D. et al. Increased methylation variation in epigenetic domains across cancer types. Nat. Genet. 43, 768-775, doi:10.1038/ng.865 (2011).
(26)Hansen, K. D. et al. Large-scale hypomethylated blocks associated with Epstein-Barr virus-induced B-cell immortalization. Genome Res. 24, 177-184, doi:10.1101/gr.157743.113 (2014).
(27)Huang, J., Marco, E., Pinello, L. & Yuan, G. C. Predicting chromatin organization using histone marks. Genome Biol. 16, 162, doi:10.1186/s13059-015-0740-z (2015).
(28)Huyer, W. & Neumaier, A. Global optimization by multilevel coordinate search. J. Global Optim. 14, 331-355 (1999).
(29)Illingworth, R. S. & Bird, A. P. CpG islands - ‘A rough guide’, FEBS Lett., 583, 1713-1720, doi 10.1016/j.febslet.2009.04.012 (2009).
(30)Kaneda, H. et al. FOXQ1 is overexpressed in colorectal cancer and enhances tumorigenicity and tumor growth. Cancer Res. 70, 2053-2063, doi:10.1158/0008-5472.CAN-09-2161 (2010).
(31)Kohli, R. M. & Zhang, Y. TET enzymes, TDG and the dynamics of DNA demethylation, Nature, 502, 472-479, doi:10.1038/nature12750 (2013).
(32)Lacey, M. R. & Ehrlich, M. Modeling dependence in methylation patterns with application to ovarian carcinomas, Stat. Appl. Genet. M. B. 8, 40, doi:10.2202/1544-6115.1489 (2009).
(33)Landan, G. et al. Epigenetic polymorphism and the stochastic formation of differentially methylated regions in normal and cancerous tissues. Nat. Genet. 44, 1207-1214, doi:10.1038/ng.2442 (2012).
(34)Landauer, R. Uncertainty principle and minimal energy dissipation in the computer. Int. J. Theor. Phys. 21, 283-297, doi:10.1007/BF01857731 (1982).
(35)Lewis, A. & Murrell, A. Genomic imprinting: CTCF protects the boundaries. Curr. Biol. 14, R284-286, doi:10.1016/j.cub.2004.03.026 (2004).
(36)Li, S. et al. Dynamic evolution of clonal epialleles revealed by methclone. Genome Biol. 15, 472, doi:10.1186/s13059-014-0472-5 (2014).
(37)Lin, J. Divergence measures based on the Shannon entropy. IEEE Trans. Inform. Theory 37, 145-151, doi: 10.1109/18.61115 (1991).
(38)Mannens, M. et al. Positional cloning of genes involved in the Beckwith-Wiedemann syndrome, hemihypertrophy, and associated childhood tumors. Med. Pediatr. Oncol. 27, 490-494, doi:10.1002/(SICI)1096-911X(199611)27:5<490::AID-MPO17>3.0.CO;2-E (1996).
(39)Margueron, R. & Reinberg, D. The Polycomb complex PRC2 and its mark in life. Nature 469, 343-349, doi:10.1038/nature09784 (2011).
(40)Marvan, M. The energy dissipation, the error probability and the time of duration of a logical operation. Kybernetika, 18, 345-355, doi: 10.1038/srep03204 (1982).
(41)Murtagh, F. & Legendre, P. Ward’s hierarchical agglomerative clustering method: Which algorithms implement Ward's criterion? J. Classif. 31, 274-295, doi: 10.1007/s00357-014-9161-z (2014).
(42)Nakamura, T. et al. Fusion of the nucleoporin gene NUP98 to HOXA9 by the chromosome translocation t(7;11)(p15;p15) in human myeloid leukaemia. Nat. Genet. 12, 154-158, doi:10.1038/ng0296-154 (1996).
(43)Nora, E. P. et al. Spatial partitioning of the regulatory landscape of the X-inactivation centre. Nature 485, 381-385, doi:10.1038/nature11049 (2012).
(44)Ogawa, O. et al. Relaxation of insulin-like growth factor II gene imprinting implicated in Wilms' tumour. Nature 362, 749-751, doi:10.1038/362749a0 (1993).
(45)Peng, H. et al. LIMD2 is a small LIM-only protein overexpressed in metastatic lesions that regulates cell motility and tumor progression by directly binding to and activating the integrin-linked kinase. Cancer Res. 74, 1390-1403, doi:10.1158/0008-5472.CAN-13-1275 (2014).
(46)Peters, M. J. et al. The transcriptional landscape of age in human peripheral blood. Nat Commun 6, 8570, doi:10.1038/ncomms9570 (2015).
(47)Pfeifer, G. P. et al. Polymerase chain reaction-aided genomic sequencing of an X chromosome-linked CpG island: methylation patterns suggest clonal inheritance, CpG site autonomy, and an explanation of activity state stability, Proc. Natl. Acad. Sci. USA, 87, 8252-8256 (1990).
(48)Press, W. H., Teukolsky, S.A., Vetterling, W.T. & Flannery, B.P. Numerical Recipes. The Art of Scientific Computing. Cambridge University Press, doi: 10.1145/1874391.187410 (2007).
(49)Pujadas, E. & Feinberg, A. P. Regulated noise in the epigenetic landscape of development and disease. Cell 148, 1123-1131, doi:10.1016/j.cell.2012.02.045 (2012).
(50)Rao, S. S. et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell 159, 1665-1680, doi:10.1016/j.cell.2014.11.021 (2014).
(51)Reeves, R. & Pettit, A. N. Efficient recursions for general factorisable models. Biometrika, 91, 751-757, doi:10.1093/biomet/91.3.751 (2004).
(52)Schlaeger, T. M. et al. A comparison of non-integrating reprogramming methods. Nat. Biotechnol. 33, 58-63, doi:10.1038/nbt.3070 (2015).
(53)Shipony, Z. et al. Dynamic and static maintenance of epigenetic memory in pluripotent and somatic cells. Nature 513, 115-119, doi:10.1038/nature13458 (2014).
(54)Sontag, L. B., Lorincz, M. C. & Luebeck, E. G. Dynamics, stability and inheritance of somatic DNA methylation imprints, J. Theor. Biol. 242, 890-899, doi:10.1016/j.jtbi.2006.05.012 (2006).
(55)Stoger, R. et al. Epigenetic variation illustrated by DNA methylation patterns of the fragile-X gene FMR1, Hum. Mol. Genet., 6, 1791-1801, doi:10.1093/hmg/6.11.1791 (1997).
(56)Storey, J. D. & Tibshirani, R. Statistical significance for genomewide studies. Proc. Natl. Acad. Sci. U. S. A. 100, 9440-9445, doi:10.1073/pnas.1530509100 (2003).
(57)Timp, W. & Feinberg, A. P. Cancer as a dysregulated epigenome allowing cellular growth advantage at the expense of the host. Nat. Rev. Cancer 13, 497-510, doi:10.1038/nrc3486 (2013).
(58)Timp, W. et al. Large hypomethylated blocks as a universal defining epigenetic alteration in human solid tumors. Genome Med. 6, 61, doi:10.1186/s13073-014-0061-y (2014).
(59)Vandiver, A. R. et al. Age and sun exposure-related widespread genomic blocks of hypomethylation in nonmalignant skin. Genome Biol. 16, 80, doi:10.1186/s13059-015-0644-y (2015).
(60)Visel, A., Minovitsky, S., Dubchak, I. & Pennacchio, L. A. VISTA Enhancer Browser - a database of tissue-specific human enhancers. Nucleic Acids Res. 35, D88-92, doi:10.1093/nar/gkl822 (2007).
(61)Waddington, C. H. The strategy of genes. Allen and Unwin (1957).
(62)Wen, B. et al. Large histone H3 lysine 9 dimethylated chromatin blocks distinguish differentiated from embryonic stem cells. Nat. Genet. 41, 246-250, doi:10.1038/ng.297 (2009).
(63)Wen, B. et al. Euchromatin islands in large heterochromatin domains are enriched for CTCF binding and differentially DNA-methylated regions. BMC Genomics 13, 566, doi:10.1186/1471-2164-13-566 (2012).
(64)Wu, H. et al. Redefining CpG islands using hidden Markov models. Biostatistics 11, 499-514, doi:10.1093/biostatistics/kxq005 (2010).
(65)Yamamoto, K. et al. Polycomb group suppressor of zeste 12 links heterochromatin protein 1alpha and enhancer of zeste 2. J. Biol. Chem. 279, 401-406, doi:10.1074/jbc.M307344200 (2004).
(66)Yang, G. et al. RNA-binding protein quaking, a critical regulator of colon epithelial differentiation and a suppressor of colon cancer. Gastroenterology 138, 231-240 e231-235, doi:10.1053/j.gastro.2009.08.001 (2010).
(67)Yu, H. et al. Tet3 regulates synaptic transmission and homeostatic plasticity via DNA oxidation and repair. Nat. Neurosci. 18, 836-843, doi:10.1038/nn.4008 (2015).
(68)Ziller, M. J. et al. Charting a dynamic DNA methylation landscape of the human genome. Nature 500, 477-481, doi:10.1038/nature12433 (2013).
<補足表>
<補足表1>
補足表1は、本明細書において使用される全ての WGBS ゲノム・サンプルのリストを提供する。
<補足表2>
補足表2は、高いジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))を特徴とするゲノム遺伝子座でのプロモーター及びエンハンサーと EZH2/SUZ12 結合タンパク質の相互作用についての統計解析の結果を提供する。
<補足表3>
補足表3は、CGIs、ショア(shores)、プロモーター、及び遺伝子の内部(gene bodies)において、双安定性が富化(enrichment)していることのオッズ比(OR)解析の結果を提供する。
<補足データ>
<補足データ1>
補足データ1は、差分メチル化レベル(differential methylation level(dMML))、ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))、及び相対ジェンセン‐シャノン距離(relative Jensen-Shannon distance(RJSD))の大きさに基づいた、いくつかのゲノム・サンプル・ペアの遺伝子ランキングを提供する。本明細書に添付した補足データ1は、代表的なサンプルとしての集合データ・セットの一部を含み、その全体が参照により本明細書に組み込まれる。
<補足データ2>
補足データ2は、差分メチル化レベル(differential methylation level(dMML))、ジェンセン‐シャノン距離(Jensen-Shannon distance(JSD))、及び相対ジェンセン‐シャノン距離(relative Jensen-Shannon distance(RJSD))の大きさに基づく遺伝子ランキングを使用した、いくつかのゲノム・サンプル・ペアについてのジーン・オントロジー(Gene Ontology(GO))アノテーションの結果を提供する。本明細書に 添付した補足データ2は、代表的なサンプルとしての集合データ・セットの一部を含み、その全体が参照により本明細書に組み込まれる。
<補足データ3>
補足データ3は、双安定性スコアに基づいてランク付けされた遺伝子のリスト、及びインプリンティングされた遺伝子のリスト(CPOE)並びに単一対立遺伝子性発現を示す遺伝子のリスト(monoallelic expression(MAE))との、その関連性を提供する。本明細書に添付した補足データ3は、代表的なサンプルとしての集合データ・セットの一部を含み、その全体が参照により本明細書に組み込まれる。
<補足データ4>
補足データ4は、34 種類のゲノム・サンプルの間の A/B 区画のスイッチング頻度(switching frequencies)の行列を示す。本明細書に 添付した補足データ4は、代表的なサンプルとしての集合データ・セットの一部を含み、その全体が参照により本明細書に組み込まれる。
<補足データ5>
補足データ5は、結腸正常を結腸がんと比較した場合の減少する差分エントロピー感受性指数(differential entropic sensitivity index(dESI))に基づいた遺伝子ランキングのリストを提供する。本明細書に 添付した補足データ5は、代表的なサンプルとしての集合データ・セットの一部を含み、その全体が参照により本明細書に組み込まれる。
本発明を上記の実施例を参照して説明してきたが、変更及び変形が本発明の精神及び範囲内に包含されることが理解されるであろう。本発明を説明する実例は、全体が参照により本明細書に組み入れられる補足データ1-5として本明細書に添付されている。従って、本発明は以下の特許請求の範囲によってのみ限定される。
本発明を上記の実施例を参照して説明してきたが、変更及び変形が本発明の精神及び範囲内に包含されることが理解されるであろう。従って、本発明は以下の特許請求の範囲によってのみ限定される。