パーソナライズドゲノムシークエンシングおよび癌ゲノムシークエンシング技術の近年の進歩により、個々の患者から取得された1つまたは複数の生体サンプルから癌細胞(たとえば、腫瘍細胞)および癌微小環境に関する患者特有の情報を取得することが可能になった。本発明者らは、この情報は、患者が有している癌の種類を特徴付け、潜在的には、患者に対する1つまたは複数の有効な療法を選択するために使用され得ることを理解した。この情報は、患者が時間の経過とともに治療に対してどのように反応しているかを決定し、必要ならば、患者に対する新しい1つまたは複数の療法を必要に応じて選択するためにも使用され得る。この情報は、患者が治験の参加に含められるべきか、除外されるべきかを決定するためにも使用され得る。
本発明者らは、患者に対する配列データを取得するために使用されるワークフローが、患者の癌について引き出せる推論に強く影響することを認識している。そのような推論は、限定はしないが、患者が特定の1つまたは複数の療法に反応するかどうか、患者が特定の1つまたは複数の療法への拒否反応を有するかどうか、患者が治験に登録する候補者であるかどうか、患者が1つまたは複数の特定のバイオマーカー(たとえば、療法に対する潜在的な反応を示すバイオマーカー、生存率を示すバイオマーカーなど)を有するかどうか、患者の病勢進展があるどうか(たとえば、早期癌から後期癌へ、寛解からの再発など)、異なる1つまたは複数の療法が患者に対して選択されるべきかどうか、ならびに/または他の好適な予後、診断、および/もしくは臨床推論を決定することを含む。
配列データを取得するために使用されるワークフローがエラー、次善最適処理、データ中のバイアス発生源、および同様のものを含んでいる場合、被験者の癌に関する推論を所望のもしくは必要な信頼性を保ちつつ行うことが可能でないか、またはそのような推論を行うことすら全く可能でないことが多い。さらに悪いことに、配列データを生成するためのワークフローにエラーがあると、患者に関する推論が正しく行われず、不適切な治療またはより良い治療の機会を逃す可能性がある。さらに、ワークフローのエラーは、検査室での資源の浪費(たとえば、サンプルを再処理しなければならない)、およびコンピューティングリソースの浪費(たとえば、何メガバイト、何ギガバイトもの配列データに対して費用のかかる計算処理を実行すること、プロセッサおよびネットワーキングのリソースを占有するが、結局後で結果を捨ててしまい、および/または処理を繰り返さなければならなくなること)につながる。
患者に対する配列データを取得するために使用される従来のワークフローは、患者から生体サンプルを取得すること(たとえば、生検を実行すること、血液サンプル、唾液サンプル、または患者から他の任意の好適な生体サンプルを取得することによって)、シークエンシングプラットフォーム(たとえば、次世代シークエンシング(NGS)プラットフォーム)を使用してシークエンシングのために生体サンプルを調製すること、およびシークエンシングプラットフォームによって出力された生データを取得することを含む複数のステップを含む。次いで、様々な従来のバイオインフォマティクス処理パイプラインおよび他のアルゴリズムが、上述の推論のうちの1つまたは複数を行う試みにおいてシークエンシングプラットフォームによって出力された生データを使用し得る。
しかしながら、シークエンシングデータを取得するためのそのような従来のワークフローは、すべての段階でエラーを生じがちである。たとえば、検査室において、複数の患者に対するサンプルを扱う際にエラーが生じることがある。実際、検査室が、ある患者からのものであると主張された生体サンプルを、そのサンプルが別の患者からのものであるにもかかわらず、受け取ることは珍しいことではない。別の例として、生体サンプルが検査室で適切に処理されず、その後の分析に必要な核酸の濃度および/または品質を有しないことがある。さらに別の例として、シークエンシングプラットフォームそれ自体および/またはその後の後処理ステップ(たとえば、アライメントおよびバリアントコーリング)によってエラーが持ち込まれる可能性がある。さらに別の例として、シークエンシングプラットフォームによって生成された生のシークエンシングデータは、アーティファクトおよび望ましくない配列および/または転写産物を含む可能性がある。様々なエラーの他の例は、本明細書において説明されている。
いくつかの実施形態において、配列データまたはシークエンシングデータは、生のDNAもしくはRNA配列データ、DNAエクソーム配列データ(たとえば、全エクソームシークエンシング(WES)からのもの)、DNAゲノム配列データ(たとえば、全ゲノムシークエンシング(WGS)からのもの)、RNA発現データ、遺伝子発現データ、バイアス補正された遺伝子発現データ、またはシークエンシングプラットフォームから取得されたデータを含む、および/もしくはシークエンシングプラットフォームから取得されたデータに由来するデータを含む、他の任意の好適な種類の配列データを含み得る。
患者に対するシークエンシングデータを取得するための従来のワークフローの欠点に対処するために、本発明者らは、シークエンシングデータ中に存在している可能性のある様々なエラーの発生源に対処する技術を開発した。本発明者らによって開発されたこれらの技術は、(1)1つまたは複数のシークエンシングプラットフォームを使用してシークエンシングのために生体サンプルを調製するための新規性のあるサンプル調製技術、(2)無関係なデータおよびバイアスの発生源(たとえば、配列データ中にバイアスを持ち込む非コード領域の転写産物および遺伝子に関連する発現データ)を除去するためにシークエンシングプラットフォームによって出力される生データを後処理する新規性のある技術、および(3)配列データ内にあるエラーの検出および修正を円滑にする新規性のある品質管理技術を含む。いくつかの実施形態において、これら3つのカテゴリーの各々からの技術は、患者に対する配列データを取得するためのワークフローで利用され得るが、これは本明細書において説明されている技術の制限ではなく、いくつかの実施形態において、これらの技術のうちの任意の1つまたは複数(必ずしもすべてではない)がワークフローにおいて使用され得ることは理解されるべきである。
一例として、いくつかの実施形態において、新規性のあるサンプル調製技術および後処理技術は、シークエンシングデータを取得することと、シークエンシングデータからバイアスの発生源を除去することを、(1)第1の腫瘍の第1の生体サンプルを取得することであって、第1の生体サンプルは癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から以前に取得された、第1の生体サンプルを取得することと、(2)第1の腫瘍の第1の生体サンプルからRNAを抽出して抽出RNAを取得することと、(3)コードRNAに対して抽出RNAを濃縮して濃縮RNAを取得することと、(4)少なくとも1つのシークエンシングプラットフォームを使用して、濃縮RNAのシークエンシングを行い、少なくとも5キロベース(kb)を含むRNA発現データを取得することと、(5)少なくとも1つのハードウェアプロセッサを使用して、(a)少なくとも1つのシークエンシングプラットフォームを使用してRNA発現データを取得することと、(b)RNA発現データを遺伝子発現データに変換することと、(c)バイアス補正された遺伝子発現データを遺伝子発現データから、少なくとも一部は遺伝子発現データから遺伝子発現データ内にバイアスを持ち込む少なくとも1つの遺伝子に対する発現データを取り除くことによって、決定することと、(d)バイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することとを実行することとによって行うこととを含む。
この方法で遺伝子発現データからバイアスを取り除くことは、多くの理由からシークエンシング技術に改善をもたらす。第1に、これはシークエンシングデータからアーティファクトおよびバイアスの発生源を取り除き、その結果、任意の下流の処理におけるエラーが少なくなり、より忠実度の高い出力をもたらす。第2に、本発明者らは、この方法でバイアスの発生源を取り除くことは、患者の分子機能特性を(たとえば、本明細書において説明されている分子機能発現シグネチャを介して)より正確に忠実に表すことを可能にすることを認識している。本発明者らは、バイアス補正済み遺伝子発現データが、患者に対するより有効な療法を識別し、1つもしくは複数の癌療法が患者に施された場合に有効であるかどうかを決定する能力を改善し、被験者が参加し得る治験を識別する能力を改善し、ならびに/または他の多くの予後、診断、および臨床応用への改善を識別するために使用され得ることを認識している。
別の例として、いくつかの実施形態において、新規性のある品質管理技術は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、(a)核酸データを取得することであって、前記核酸データは(i)疾病を有する、疾病を有する疑いのある、または疾病を有するリスクのある被験者の以前に取得された生体サンプルからのDNAおよび/またはRNAの少なくとも5キロベース(kb)のヌクレオチド配列を示す配列データと、(ii)配列データの主張されたソースおよび/または主張された完全性を示す主張された情報とを含む、核酸データを取得することと、(b)核酸データを、(i)配列データを処理して、配列データの決定されたソースおよび/または決定された完全性を示す決定された情報を取得することと、(ii)決定された情報が主張された情報と一致するかどうかを決定することとによって、検証することとを、実行することを含む。様々なそのような検証技術の例は、本明細書において説明されており、本発明者らによって開発され、本明細書において説明されている品質管理技術の重要な例である。
そのような品質管理技術を採用することは、シークエンシング技術およびコンピュータ技術への改善ももたらす。第1に、1つまたは複数の品質管理チェックに合格しないシークエンシングデータは、下流アプリケーション(たとえば、バイオマーカー、腫瘍微小環境タイプ、患者に対する可能な療法などの識別)におけるエラーを低減するか、または排除する下流処理の一部または全部に使用されない。多くの場合、このような下流処理は、大規模なデータセットの費用のかかる(クラウドベースであることが多い)計算処理を実行することを必要とする(たとえば、シークエンシングデータは数千万のリードを含み、これらは他の多くの方法でアライメント、アノテーション、および処理がなされなければならない)。品質管理を利用して計算費用の高いプロセスが実行されることを防ぐことにより、コンピューティングリソースの無駄な使用を削減または排除し、処理能力、メモリ、およびネットワーキングリソースを節約する(これは、シークエンシング技術の改善であることに加えて、コンピューティング技術の改善でもある)。また、エラーを識別することで、初期の品質管理チェックに合格した生体サンプルを処理するために機器を解放することによって、複数のサンプルを処理する検査室における資源の無駄を削減することもできる。それに加えて、様々な品質管理チェックに合格した下流処理に対して配列データを使用することで、患者に対するより有効な療法を識別し、1つもしくは複数の癌療法が患者に施された場合に有効であるかどうかを決定する能力を改善し、被験者が参加し得る治験を識別する能力を改善し、ならびに/または他の多くの予後、診断、および臨床応用への改善を識別し得る。
図1Aおよび図1Bは、本明細書において説明されているようなサンプル調製および品質管理のためのプロセスパイプラインの例を示している。図1のプロセスパイプラインは、本開示において提供される方法およびシステムの実施形態を例示するものであり、いかなる形でもその範囲を限定するものとして解釈されるべきではない。本開示は、プロセスパイプラインが、図1に例示されているプロセスステップのすべて、またはプロセスステップの順序を含む必要がないことを定めている。1つまたは複数のプロセスは、応用に応じて省かれるか、繰り返されるか、または異なる順序で実行され得る。
図1Aは、1つまたは複数の品質管理評価を含む非限定的なプロセスパイプライン100を示す。活動101において、生体サンプル(たとえば、腫瘍生検)が、被験者(たとえば、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者)に対して取得される。いくつかの実施形態において、サンプルは、医師、病院、診療所、または他の医療サービス提供者から取得される。品質管理活動102における1つまたは複数の試料品質管理評価が、生体サンプルに対して実行され得る。いくつかの実施形態において、生体サンプル(たとえば、生検材料)に対する品質管理評価は、サンプルが適切な形態(たとえば、新鮮な冷凍もしくはFFPE)であるかどうか、ならびに/またはサンプルの性質および供給源を識別するために十分な情報を伴っているかどうかを決定することを含む。その後、核酸(たとえば、DNAおよび/またはRNA)がサンプル品質管理活動102の条件を満たす生体サンプルから抽出され得る。次いで、活動103において1つまたは複数の核酸品質管理評価が実行され、それにより、たとえば、抽出された核酸、抽出された核酸から調製された核酸ライブラリ、および/またはプールされた核酸もしくはライブラリの1つまたは複数の物理的属性を評価することができる。その後、核酸品質管理活動103の条件を満たす核酸(たとえば、DNAおよび/またはRNA)は、処理され(たとえば、ポリA RNAについて濃縮し)および/またはシークエンシングされ、生のDNAおよび/またはRNA配列データ(たとえば、RNA発現データ)を取得することができる。いくつかの実施形態において、RNA発現データが処理され、それにより、遺伝子発現データを取得し、任意選択で、遺伝子発現データのその後の分析に干渉する(たとえば、バイアスする)可能性のある1つまたは複数の種類の遺伝子に対するデータを除去することができる。いくつかの実施形態において、遺伝子発現データは、(たとえば、1つまたは複数の干渉する遺伝子に対するデータを除去した後に)正規化される。いくつかの実施形態において、1つまたは複数の配列品質管理評価が、バイオインフォマティクス品質管理活動104のために、DNAおよび/またはRNA配列データに対して(たとえば、処理された、たとえば正規化された、遺伝子発現データに対して)実行され得る。いくつかの実施形態において、1つまたは複数のバイオインフォマティクス品質管理評価は、配列データが予想される供給源(たとえば、患者、組織、腫瘍など)からのものであるかどうか、および/またはさらなる分析のために十分な完全性を有するかどうかを決定するために実行される。いくつかの実施形態において、バイオインフォマティクス品質管理活動104の条件を満たす配列データは、たとえば、被験者に対する診断、予後、および/もしくは療法を決定するために、被験者を評価し、および/もしくは監視するために、ならびに/または1つもしくは複数の臨床応用のために(たとえば、療法を評価するために)、さらに処理される。
いくつかの実施形態において、配列データは、生のDNAもしくはRNA配列データ、DNAエクソーム配列データ(たとえば、全エクソームシークエンシング(WES)からのもの)、DNAゲノム配列データ(たとえば、全ゲノムシークエンシング(WGS)からのもの)、RNA発現データ、遺伝子発現データ、バイアス補正された遺伝子発現データ、またはシークエンシングプラットフォームから取得されたデータを含む、および/もしくは限定はしないが、たとえば本明細書において説明されているそのようなデータを含むシークエンシングプラットフォームから取得されたデータに由来するデータを含む、他の任意の好適な種類の配列データを含み得る。図1Bは、生体サンプル(たとえば、腫瘍生検)から核酸を調製し、その後の分析のために(たとえば、診断、予後、治療、および/または他の臨床応用のために)核酸配列データを取得し、処理するための非限定的なプロセスパイプライン110を例示している。プロセスパイプライン110は、活動111において癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から生体サンプル(たとえば、腫瘍サンプル)を取得することによって実行される。核酸(たとえば、DNAおよび/またはRNA)は、活動112においてサンプルから取得される(たとえば、抽出される)。活動113において、核酸の1つまたは複数の品質管理評価が実行される。1つまたは複数の核酸ライブラリが、活動114において、たとえば活動113の少なくとも1つの品質管理評価の条件を満たす核酸を使用して調製される。核酸ライブラリは、シークエンシング活動115において少なくとも1つのシークエンシングプラットフォームを使用してシークエンシングされる(たとえば、RNAに対するRNA発現データを取得するため)。いくつかの実施形態において、RNA発現データは、活動116において遺伝子発現データに変換され、遺伝子発現データは、任意選択で、少なくとも一部は、遺伝子発現データ中にバイアスを持ち込む少なくとも1つの遺伝子に対する発現データを取り除くことによってバイアス補正される。1つまたは複数のバイオインフォマティクス品質管理評価が、バイオインフォマティクス品質管理活動117において活動115からのDNA配列データもしくはRNA配列データおよび/またはRNA配列データ(たとえば、活動116からのバイアス補正された遺伝子発現データ)に対して実行される。いくつかの実施形態において、核酸データ(たとえば、活動117の少なくとも1つのバイオインフォマティクス品質管理評価の条件を満たす)は、活動118でさらに処理され(たとえば、遺伝子発現データから疾病の1つまたは複数のしるしを決定する)、活動119で被験者の診断、予後、治療、および/または他の臨床的評価を実行する(たとえば、被験者に対する治療、たとえば、癌治療を識別する)。いくつかの実施形態において、治療(たとえば、癌治療)が被験者に施される。
いくつかの実施形態において、活動111は、被験者または患者のバルク生検組織を取得することを含む。いくつかの実施形態において、活動111は、被験者または患者の血液サンプルを取得することを含む。いくつかの実施形態において、活動111は、単細胞懸濁液を取得することを含む。いくつかの実施形態では、活動111は、その後のシークエンシング分析のために核酸を調製するのに適している任意の種類のサンプルを取得することを含む。いくつかの実施形態において、活動111は、複数の種類のサンプルを取得することを含む。
いくつかの実施形態において、バルク生検組織が取得されたときに、組織は処理され(たとえば、TriZolの存在下で均質化され)、活動112でDNAまたはRNAなどの核酸を抽出する。いくつかの実施形態において、単細胞懸濁液が取得されたときに、その懸濁液は、活動112でDNAまたはRNAなどの核酸を抽出するために処理される。いくつかの実施形態において、活動112で生殖細胞系全エクソームシークエンシング(WES)に適している核酸が抽出され得る。いくつかの実施形態において、活動112で腫瘍全エクソームシークエンシング(WES)に適している核酸が抽出され得る。いくつかの実施形態において、活動112で腫瘍RNAシークエンシングに適している核酸が抽出され得る。いくつかの実施形態において、活動112でCYTOF(マスサイトメトリー)に適している核酸が抽出され得る。いくつかの実施形態において、活動112で当技術分野で知られている任意の種類のシークエンシングに適している核酸が抽出され得る。
活動113において、1つまたは複数の品質管理評価が実行され得る。許容可能な閾値および/または目標閾値が決定され、参照として使用され得る。いくつかの実施形態において、抽出されたDNAまたはRNAの総量が品質管理評価に使用され得る。いくつかの実施形態において、分光光度計、たとえば、小容量フルスペクトル紫外線可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanoDrop分光光度計、www.thermofisher.com)が、DNAまたはRNAの品質管理評価に使用できる。いくつかの実施形態において、たとえばDNAまたはRNAの定量化のための、蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が、DNAまたはRNAの品質管理評価のために使用され得る。いくつかの実施形態において、自動化電気泳動システム(たとえば、TAPESTATION)が、DNAまたはRNAの品質管理評価に使用され得る。いくつかの実施形態において、リアルタイムPCRシステム(たとえば、LIGHTCYCLER(登録商標))が、DNAまたはRNAの品質管理評価に使用され得る。
いくつかの実施形態において、活動114は、活動113で少なくとも1つの品質管理閾値の条件を満たした抽出された核酸に対するライブラリを準備することを含む。いくつかの実施形態において、活動114は、例2において説明されている1つまたは複数の方法を含む。
いくつかの実施形態において、活動115は、少なくとも1つの核酸シークエンシングプラットフォーム(たとえば、次世代核酸シークエンシングプラットフォーム)を使用して、核酸(たとえば、活動114のDNA、RNA、または関連ライブラリ)をシークエンシングして、DNA配列データおよび/またはRNA配列データ(たとえば、RNA発現データ)を取得することを含む。活動115で取得された配列データは、任意の好適な形式(たとえば、1つまたは複数のFASTQファイルの形態)で記憶され得る。
いくつかの実施形態において、RNA発現データは、活動116で遺伝子発現データに変換される。いくつかの実施形態において、RNA発現データは、データベース内の知られている遺伝子、たとえば、知られているアセンブルゲノム(たとえば、ヒトゲノム)またはデータベース内のトランスクリプトームにアライメントされる。いくつかの実施形態において、たとえばバルクおよび単細胞RNA-Seqデータから、ハイスループットシークエンシングリードを使用して転写産物を定量化するためのプログラム(たとえば、Github、www.github.comから入手可能なKallisto(hg38)、たとえばNicolas L Bray、Harold Pimentel、Pall MelstedおよびLior Pachter、「Near-optimal probabilistic RNA-seq quantification」、Nature Biotechnology 34、525~527頁(2016年)、doi:10.1038/nbt.3519において説明されているようなもの)、および/またはGencode(たとえば、Gencode V23)が、配列アライメント、および/またはアノテーションに使用される。いくつかの実施形態では、活動116は、遺伝子集約を含む。いくつかの実施形態において、活動116は、遺伝子発現データから1つまたは複数の非コード転写産物に対する発現データを除去することを含む。いくつかの実施形態において、活動116は、遺伝子発現データにバイアスをかけることができる1つまたは複数の遺伝子に対する発現データを除去することを含む。いくつかの実施形態において、活動116は、ヒストンコード遺伝子および/またはミトコンドリアコード遺伝子に対する発現データを除去することを含む。いくつかの実施形態において、活動116は、遺伝子発現データから非コードおよび/またはバイアス関連遺伝子に対する発現データを除去した後に、正規化(たとえば、TPM正規化)を行うことを含む。この正規化は、本明細書では「再正規化」と称され得る。
活動117では、1つまたは複数のバイオインフォマティクス品質管理評価が、核酸配列データ、たとえば、DNA配列データおよび/またはRNA配列データ(たとえば、バイアス補正された、および/または正規化された、遺伝子発現データ)に対して実行される。いくつかの実施形態において、1つまたは複数のバイオインフォマティクス品質管理評価が、核酸配列データのソースおよび/または完全性を評価するために実行され得る。いくつかの実施形態において、本出願で説明されている1つまたは複数のバイオインフォマティクス品質管理評価が実行される。
いくつかの実施形態において、方法は、図1に例示されているすべてのプロセスを含む。しかしながら、いくつかの実施形態において、プロセスのサブセットが実行され、それらのプロセスの任意の1つまたは複数が省かれる、重複し、および/または図1に例示されているのとは異なる順序で実行され得る。いくつかの実施形態において、方法は、生体サンプルから核酸を調製するための、任意選択で1つまたは複数の品質管理ステップを含むプロセスを含み、核酸は少なくとも1つのシークエンシングプラットフォーム上でシークエンシングされる。いくつかの実施形態において、方法は、シークエンシングプラットフォームから取得された(たとえば、受信された)核酸情報を処理して、その後の分析のためにDNAまたはRNA配列データを生成する(たとえば、その後の分析のためにバイアス補正された、任意選択で正規化された遺伝子発現データを生成する)ことを含む。いくつかの実施形態において、図1の1つまたは複数のプロセスは、コンピュータ上に実装される。いくつかの実施形態において、方法は、被験者(たとえば、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者)の治療(たとえば、癌治療)を識別することを含む。いくつかの実施形態において、方法は、治療を被験者に施すことを含む。
生体サンプル
方法、システム、または他の請求項に記載の要素はどれも、被験者からの生体サンプルを使用するか、またはそれを分析するために使用され得る。いくつかの実施形態において、生体サンプルは、癌を有する、または癌を有する疑いがある被験者から取得される。被験者からの1つまたは複数の生体サンプルは、被験者の癌に関する情報を取得するために本明細書において説明されているように分析され得る。生体サンプルは、たとえば、体液(たとえば、血液、尿、もしくは脳脊髄液)、1つもしくは複数の細胞(たとえば、口腔粘膜検体採取もしくは気管ブラッシングなどの、擦過もしくはブラッシングから)、組織片(頬組織、筋肉組織、肺組織、心臓組織、脳組織、もしくは皮膚組織)、もしくは臓器(脳、肺、肝臓、膀胱、腎臓、膵臓、腸、または筋肉など)の一部もしくは全部を含む任意の種類の生体サンプル、または他の種類の生体サンプル(たとえば、糞もしくは毛髪)であってよい。
いくつかの実施形態において、生体サンプルは、被験者からの腫瘍のサンプルである。いくつかの実施形態において、生体サンプルは、被験者からの血液のサンプルである。いくつかの実施形態において、生体サンプルは、被験者からの組織のサンプルである。
腫瘍のサンプルは、いくつかの実施形態では、腫瘍からの細胞を含むサンプルを指す。いくつかの実施形態において、腫瘍のサンプルは、良性腫瘍からの細胞、たとえば、非癌性細胞を含む。腫瘍のサンプルは、前悪性腫瘍、たとえば、前癌性細胞からの細胞を含む。いくつかの実施形態において、腫瘍のサンプルは、悪性腫瘍、たとえば、癌性細胞からの細胞を含む。
腫瘍の例は、限定はしないが、腺腫、線維腫、血管腫、脂肪腫、子宮頸部形成異常、肺の化生、白板症、癌腫、肉腫、胚細胞腫瘍、および芽細胞腫を含む。
血液のサンプルは、いくつかの実施形態では、細胞を含むサンプル、たとえば、血液サンプルからの細胞を指す。いくつかの実施形態において、血液のサンプルは、非癌性細胞を含む。いくつかの実施形態において、血液のサンプルは、前癌性細胞を含む。いくつかの実施形態において、血液のサンプルは、癌細胞を含む。いくつかの実施形態において、血液のサンプルは、血液細胞を含む。いくつかの実施形態において、血液のサンプルは、赤血球を含む。いくつかの実施形態において、血液のサンプルは、白血球を含む。いくつかの実施形態において、血液のサンプルは、血小板を含む。癌性血液細胞の例は、限定はしないが、白血病、リンパ腫、および骨髄腫を含む。いくつかの実施形態において、血液中の無細胞核酸(たとえば、無細胞DNA)を取得するために、血液のサンプルが採取される。
血液のサンプルは、全血のサンプルまたは分画血液のサンプルであってもよい。いくつかの実施形態において、血液のサンプルは、全血を含む。いくつかの実施形態において、血液のサンプルは、分画血液を含む。いくつかの実施形態において、血液のサンプルは、軟膜を含む。いくつかの実施形態において、血液のサンプルは、血清を含む。いくつかの実施形態において、血液のサンプルは、血漿を含む。いくつかの実施形態において、血液のサンプルは、血餅を含む。
組織のサンプルは、いくつかの実施形態では、組織からの細胞を含むサンプルを指す。いくつかの実施形態において、腫瘍のサンプルは、組織からの非癌性細胞を含む。いくつかの実施形態において、腫瘍のサンプルは、組織からの前癌性細胞を含む。いくつかの実施形態において、腫瘍のサンプルは、組織からの前癌性細胞を含む。
本開示の方法は、限定はしないが、筋肉組織、脳組織、肺組織、肝臓組織、上皮組織、結合組織、および神経組織を含む、臓器組織または非臓器組織を含む様々な組織を包含する。いくつかの実施形態において、組織は、正常組織であるか、または罹患組織であるか、または罹患の疑いがある組織であってもよい。いくつかの実施形態において、組織は、組織切片または完全な無傷の組織であってもよい。いくつかの実施形態において、組織は、動物組織またはヒト組織であってもよい。動物組織には、限定はしないが、齧歯類(たとえば、ラットまたはマウス)、霊長類(たとえば、サル)、イヌ、ネコ、および家畜から取得された組織を含む。
生体サンプルは、限定はしないが、任意の体液[血液(たとえば、全血、血清、もしくは血漿)、唾液、涙、滑液、脳脊髄液、胸膜液、心嚢液、腹水、および/もしくは尿など]、毛髪、皮膚(表皮、真皮、および/または下皮の一部を含む)、中咽頭、咽喉頭、食道、胃、気管支、唾液腺、舌、口腔、鼻腔、膣腔、肛門腔、骨、骨髄、脳、胸腺、脾臓、小腸、虫垂、結腸、直腸、肛門、肝臓、胆道、膵臓、腎臓、尿管、膀胱、尿道、子宮、膣、外陰部、卵巣、頸部、陰嚢、陰茎、前立腺、睾丸、精嚢、および/または任意の種類の組織(たとえば、筋組織、上皮組織、結合組織、もしくは神経組織)を含む、被験者の体内の任意の供給源からのものであってよい。
本明細書において説明されている生体サンプルはどれも、任意の知られている技術を使用して被験者から取得され得る。たとえば、生体サンプルの採取、処理、および貯蔵に関しては、各々全体が本明細書に組み込まれている、刊行物、Vaughtらの「Biospecimens and biorepositories: from afterthought to science」(Cancer Epidemiol Biomarkers Prev. 2012年2月、21(2):253~5)、およびVaughtおよびHendersonによる「Biological sample collection, processing, storage and information management」(IARC Sci Publ.2011年、(163):23~42頁)を参照されたい。
いくつかの実施形態において、生体サンプルは、外科手術(たとえば、腹腔鏡手術、顕微鏡制御手術、または内視鏡手術)、骨髄生検、パンチ生検、内視鏡生検、または針生検(たとえば、細針吸引、コア針生検、真空支援生検、または画像誘導生検)から取得され得る。いくつかの実施形態において、生体サンプルは、剖検から取得され得る。
いくつかの実施形態において、1つまたは複数の細胞(すなわち、細胞生体サンプル)は、擦過またはブラシ法を使用して被験者から取得され得る。細胞生体サンプルは、たとえば、頸部、食道、胃、気管支、または口腔のうちの1つまたは複数の領域を含む、被験者の体内のまたは体内からの任意の領域から取得され得る。いくつかの実施形態において、被験者からの1つまたは複数の組織片(たとえば、組織生検)が、使用され得る。いくつかの実施形態において、組織生検は、癌性細胞を有することが知られているか、または癌性細胞を有することが疑われている1つもしくは複数の腫瘍または組織からの1つもしくは複数(たとえば、2、3、4、5、6、7、8、9、10、もしくは10以上)の生体サンプルを含み得る。
本明細書において説明されている被験者からの生体サンプルはどれも、生体サンプルの安定性を維持する任意の方法を使用して貯蔵され得る。いくつかの実施形態において、生体サンプルの安定性を維持するとは、生体サンプルの成分(たとえば、DNA、RNA、タンパク質、または組織の構造もしくは形態)を、測定されたときに測定値が被験者からサンプルを取得したときのサンプルの状態を表すように、測定されるまで劣化するのを阻止することを意味する。いくつかの実施形態において、生体サンプルは、それに浸透し、生体サンプルの成分(たとえば、DNA、RNA、タンパク質、または組織の構造もしくは形態)が劣化しないように保護することができる組成物中に保存される。本明細書において使用されているように、劣化は、最初の形態が劣化前と同じレベルで検出されなくなるように一方の成分から別の成分への成分の変換である。
いくつかの実施形態において、生体サンプルは、凍結保存を使用して貯蔵される。凍結保存の非限定的な例は、限定はしないが、ステップダウン冷凍、急速冷凍、直接プランジ冷凍、スナップ冷凍、プログラマブルフリーザーを使用する緩慢冷凍、およびガラス化を含む。いくつかの実施形態において、生体サンプルは、凍結乾燥を使用して貯蔵される。いくつかの実施形態において、生体サンプルは、被験者から生体サンプルを採取した後に、保存剤(たとえば、RNAを保存するためのRNALater)をすでに収容する容器に入れられ、次いで(たとえば、スナップ冷凍によって)冷凍される。いくつかの実施形態において、冷凍状態でのそのような貯蔵は、生体サンプルの採取後すぐに行われる。いくつかの実施形態において、生体サンプルは、冷凍される前に、保存剤中で、または保存剤を含まない緩衝液中で、しばらくの間(たとえば、最大1時間、最大8時間、または最大1日、または数日間)室温または4℃のいずれかに保たれるものとしてよい。
保存剤の非限定的な例は、ホルマリン溶液、ホルムアルデヒド溶液、RNALaterまたは他の同等の溶液、TriZolまたは他の同等の溶液、DNA/RNA Shieldまたは同等の溶液、EDTA(たとえば、Buffer AE(10mM Tris-Cl、0.5mM EDTA、pH9.0))および他の凝固剤、ならびにAcids Citrate Dextronse(たとえば、血液検体用)を含む。
いくつかの実施形態において、生体サンプルを採取し、および/または貯蔵するために、特殊容器が使用され得る。たとえば、血液を貯蔵するためにバキュテイナが使用され得る。いくつかの実施形態において、バキュテイナは、保存剤(たとえば、凝固剤、または抗凝固剤)を含んでもよい。いくつかの実施形態では、生体サンプルが保存される容器は、より良い保存を目的として、または汚染を回避することを目的として、二次容器に収容されてもよい。
本明細書において説明されている被験者からの生体サンプルはどれも、生体サンプルの安定性を保持する任意の条件の下で貯蔵され得る。いくつかの実施形態において、生体サンプルは、生体サンプルの安定性を保持する温度で貯蔵される。いくつかの実施形態において、サンプルは、室温(たとえば、25℃)で貯蔵される。いくつかの実施形態において、サンプルは、冷蔵下(たとえば、4℃)で貯蔵される。いくつかの実施形態において、サンプルは、冷凍条件下(たとえば、-20℃)で貯蔵される。いくつかの実施形態では、サンプルは、超低温条件下(たとえば、-50℃~-800℃)で貯蔵される。いくつかの実施形態において、サンプルは、液体窒素下(たとえば、-1700℃)で貯蔵される。いくつかの実施形態において、生体サンプルは、-60℃~-8℃(たとえば、-70℃)で最大5年(たとえば、最大1カ月、最大2カ月、最大3カ月、最大4カ月、最大5カ月、最大6カ月、最大7カ月、最大8カ月、最大9カ月、最大10カ月、最大11カ月、最大1年、最大2年、最大3年、最大4年、または最大5年)まで貯蔵される。いくつかの実施形態において、生体サンプルは、本明細書で説明されている方法のいずれかによって説明されているように、最大20年(たとえば、最大5年、最大10年、最大15年、または最大20年)まで貯蔵される。
本開示の方法は、分析のために被験者から1つまたは複数の生体サンプルを取得することを包含する。いくつかの実施形態において、分析のために被験者から1つの生体サンプルが採取される。いくつかの実施形態において、複数(たとえば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上)の生体サンプルが、分析のために被験者から採取される。いくつかの実施形態において、被験者から1つの生体サンプルが分析される。いくつかの実施形態において、複数(たとえば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上)の生体サンプルが、分析される。被験者からの複数の生体サンプルが分析される場合、生体サンプルは同時に調達され得る(たとえば、同じ手技で複数の生体サンプルが採取され得る)か、または生体サンプルは、異なる時点で(たとえば、最初の手技から1、2、3、4、5、6、7、8、9、10日後の手技、1、2、3、4、5、6、7、8、9、10週間後の手技、1、2、3、4、5、6、7、8、9、10カ月後の手技、1、2、3、4、5、6、7、8、9、10年後の手技、または10、20、30、40、50、60、70、80、90、100年後の手技を含む異なる手技において)採取され得る。
第2のまたはその後の生体サンプルは、同じ領域から(たとえば、同じ腫瘍もしくは組織の領域から)または異なる領域(たとえば、異なる腫瘍を含む)から採取されるか、または取得され得る。第2の、またはその後の生体サンプルは、1つもしくは複数の治療後に被験者から採取されるか、または取得されてもよく、同じ領域もしくは異なる領域から採取されてもよい。非限定的な例として、第2の、またはその後の生体サンプルは、各生体サンプル中の癌が異なる特性を有するかどうか(たとえば、患者体内の2つの物理的に別個の腫瘍から採取された生体サンプルの場合)、または癌が1つまたは複数の治療に反応したかどうか(たとえば、治療の前および後に同じ腫瘍もしくは異なる腫瘍から採取された2つまたはそれ以上の生体サンプルの場合)を決定する際に有用であり得る。いくつかの実施形態において、少なくとも1つの生体サンプルの各々は、体液サンプル、細胞サンプル、または組織生検サンプルである。
いくつかの実施形態において、1つまたは複数の生体検体は、さらなる処理の前に組み合わされる(たとえば、保存のために同じ容器に入れられる)。たとえば、被験者から取得された第1の腫瘍の第1のサンプルが、被験者から取得された第2の腫瘍の第2のサンプルと組み合わされてよく、第1および第2の腫瘍は同じ腫瘍であってもなくてもよい。いくつかの実施形態において、第1の腫瘍および第2の腫瘍は、類似しているが、同じではない(たとえば、被験者の脳内の2つの腫瘍)。いくつかの実施形態において、被験者の第1の生体サンプルおよび第2の生体サンプルは、異なる種類の腫瘍のサンプルである(たとえば、筋肉組織内の腫瘍および脳組織内の腫瘍)。
いくつかの実施形態において、RNAおよび/またはDNAが抽出されるサンプル(たとえば、腫瘍のサンプル、または血液サンプル)は、そこから少なくとも2μg(たとえば、少なくとも2μg、少なくとも2.5μg、少なくとも3μg、少なくとも3.5μgまたはそれ以上)のRNAが抽出され得るような十分な大きさである。いくつかの実施形態において、RNAおよび/またはDNAが抽出されるサンプルは、末梢血単核細胞(PBMC)であってよい。いくつかの実施形態において、RNAおよび/またはDNAが抽出されるサンプルは、任意の種類の細胞懸濁液であってよい。いくつかの実施形態において、RNAおよび/またはDNAが抽出されるサンプル(たとえば、腫瘍のサンプル、または血液サンプル)は、そこから少なくとも1.8μgのRNAが抽出され得るような十分な大きさである。いくつかの実施形態において、少なくとも50mg(たとえば、少なくとも1mg、少なくとも2mg、少なくとも3mg、少なくとも4mg、少なくとも5mg、少なくとも10mg、少なくとも12mg、少なくとも15mg、少なくとも18mg、少なくとも20mg、少なくとも22mg、少なくとも25mg、少なくとも30mg、少なくとも35mg、少なくとも40mg、少なくとも45mg、または少なくとも50mg)の組織サンプルが採取され、そこからRNAおよび/またはDNAが抽出される。いくつかの実施形態において、少なくとも20mgの組織サンプルが採取され、そこからRNAおよび/またはDNAが抽出される。いくつかの実施形態において、少なくとも30mgの組織サンプルが採取される。いくつかの実施形態において、少なくとも10~50mg(たとえば、10~50mg、10~15mg、10~30mg、10~40mg、20~30mg、20~40mg、20~50mg、または30~50mg)の組織サンプルが採取され、そこからRNAおよび/またはDNAが抽出される。いくつかの実施形態において、少なくとも30mgの組織サンプルが採取される。いくつかの実施形態において、少なくとも20~30 mgの組織サンプルが採取され、そこからRNAおよび/またはDNAが抽出される。いくつかの実施形態において、RNAおよび/またはDNAが抽出されるサンプル(たとえば、腫瘍のサンプル、または血液サンプル)は、少なくとも0.2μg(たとえば、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、または少なくとも2μg)のRNAがそこから抽出され得るような十分な大きさである。いくつかの実施形態では、RNAおよび/またはDNAが抽出されるサンプル(たとえば、腫瘍のサンプル、または血液サンプル)は、少なくとも0.1μg(たとえば、少なくとも100ng、少なくとも200ng、少なくとも300ng、少なくとも400ng、少なくとも500ng、少なくとも600ng、少なくとも700ng、少なくとも800ng、少なくとも900ng、少なくとも1μg、少なくとも1.1μg、少なくとも1.2μg、少なくとも1.3μg、少なくとも1.4μg、少なくとも1.5μg、少なくとも1.6μg、少なくとも1.7μg、少なくとも1.8μg、少なくとも1.9μg、または少なくとも2μg)のRNAが抽出され得るような十分な大きさである。
被験者
本開示の態様は、被験者から取得された生体サンプルに関係する。いくつかの実施形態において、被験者は、哺乳類(たとえば、ヒト、マウス、ネコ、イヌ、ウマ、ハムスター、ウシ、ブタ、または他の家畜)である。いくつかの実施形態において、被験者は、ヒトである。いくつかの実施形態において、被験者は、成人(たとえば、18歳以上)である。いくつかの実施形態において、被験者は、子供(たとえば、18歳未満)である。いくつかの実施形態において、ヒト被験者は、少なくとも1つの形態の癌を有する、または少なくとも1つの形態の癌を有すると診断されている人である。いくつかの実施形態において、被験者が罹患している癌は、癌腫、肉腫、骨髄腫、白血病、リンパ腫、または癌腫、肉腫、骨髄腫、白血病、およびリンパ腫のうちの複数を含む混合型の癌である。癌腫とは、上皮性起源の悪性新生物または身体の内膜または外膜の癌を指す。肉腫は、骨、腱、軟骨、筋肉、および脂肪などの支持組織および結合組織に由来する癌を指す。骨髄腫は、骨髄の形質細胞に由来する癌である。白血病(「液状癌」または「血液癌」)は、骨髄(血球産生の部位)の癌である。リンパ腫は、体液を浄化し、感染と闘う白血球、またはリンパ球を産生する血管、結節、臓器(特に脾臓、扁桃腺、胸腺)の網状組織である、リンパ系の腺または結節で発生する。混合型の癌の非限定的な例は、腺扁平上皮癌、混合中胚葉性腫瘍、癌肉腫、および奇形癌を含む。いくつかの実施形態において、被験者は、腫瘍を有する。腫瘍は、良性または悪性であり得る。いくつかの実施形態において、癌は、皮膚癌、肺癌、乳癌、前立腺癌、結腸癌、直腸癌、子宮頸癌、および子宮癌のうちのいずれか1つである。いくつかの実施形態では、被験者は、たとえば、被験者が1つまたは複数の遺伝的危険因子を有するか、または1つまたは複数の発癌物質(たとえば、タバコの煙、または噛みタバコ)に曝されたことがあるか、もしくは曝されているという理由から、癌を発症する危険性がある。
単細胞懸濁液
いくつかの実施形態において、被験者が有するか、または有することが疑われる癌を特徴付けるための方法(たとえば、RNAシークエンシング、DNAシークエンシング、または多重化フローサイトメトリー)は、単一の腫瘍もしくは癌組織、または複数の腫瘍もしくは癌組織の不均質性を捉えるために、単細胞レベルで実行される。すなわち、腫瘍サンプル中の単細胞の測定および評価は、バルクサンプルの遺伝子型または表現型の不均質性に惑わされない情報を提供する。いくつかの実施形態において、単細胞懸濁液が、単細胞RNAもしくはDNAシークエンシング、またはマスサイトメトリーなどの方法で使用するために被験者から取得された1つまたは複数の生体サンプルから調製される。
したがって、本明細書において説明されている方法のいずれか1つのいくつかの実施形態は、腫瘍のサンプル(たとえば、腫瘍の第1のサンプル)から細胞の単細胞懸濁液を形成することを含む。いくつかの実施形態において、腫瘍のサンプルから細胞の単細胞懸濁液を形成することは、腫瘍サンプルを解剖して腫瘍サンプル断片を取得することを含む。腫瘍組織サンプルを解剖するために、湾曲したハサミが使用され得る。いくつかの実施形態において、腫瘍サンプル断片は、0.5~3mm3(たとえば、1~2mm3)である。いくつかの実施形態において、腫瘍組織サンプルまたはその断片は、解剖中に湿った状態に保たれる。
腫瘍サンプルから単細胞懸濁液を調製する方法は、細かく刻むステップ、酵素および/または非酵素消化のステップ、激しいピペッティングのステップ、セルストレーナーに通すステップ、洗浄するステップ、およびカウントするステップのうちの任意の1つまたは複数のステップを任意の順序で含み得る。いくつかの実施形態において、これらのステップのうちの1つまたは複数が繰り返される(たとえば、1回、2回、3回、4回、または5回もしくはそれ以上)。
いくつかの実施形態において、腫瘍サンプルまたは腫瘍サンプル断片が、酵素カクテルでインキュベートされる。酵素は任意の数、また任意の組み合わせで使用することができ、たとえば、全体が参照により本明細書に組み込まれているBioFiles: For Life Science Research、Issue 2、2006年、www.sigmaaldrich.com/content/dam/sigma-aldrich/docs/Sigma/General_Information/2/biofiles_issue2.pdfを参照されたい。これは特にそこに記載されている酵素または他の成分(たとえば、媒体)のいずれかを本明細書に組み込む。
Quatromoniら「An optimized disaggregation method for human lung tumors that preserves the phenotype and function of the immune cell」J Leukoc Biol.2015 Jan、97(1):201~209頁では、異なる酵素カクテルの比較を提供しており、全体が参照により本明細書に組み込まれている。いくつかの実施形態において、酵素カクテルは、構成要素として、培地(たとえば、L-15培地)、抗菌剤(たとえば、ペニシリンおよび/またはストレプトマイシン)、抗真菌剤(たとえば、アムホテリシン)、コラゲナーゼ(たとえば、コラゲナーゼI、コラゲナーゼII、コラゲナーゼIV)、DNAse(たとえば、DNAseI)、エラスターゼ、ヒアルロニダーゼ、プロテアーゼ(たとえば、プロテアーゼXIV、トリプシン、パパイン、テルモリシン)のうちの1つまたは複数を含む。Coll Iは、コラゲナーゼ活性、カゼイナーゼ活性、クロストリパイン活性、およびトリプシン活性の本来のバランスを有し、Coll IIは、より高い相対レベルのプロテアーゼ活性、特にクロストリパインを含み、Coll IVは、トリプティック活性が特に低くなるように設計されている(Quatromoniら、J Leukoc Biol.2015 Jan、97(1):201~209頁)。いくつかの実施形態において、コラゲナーゼI、コラゲナーゼII、またはコラゲナーゼIVのみが使用される。いくつかの実施形態において、2つのコラゲナーゼの混合物が使用される(たとえば、コラゲナーゼIとコラゲナーゼII、コラゲナーゼIとコラゲナーゼIV、またはコラゲナーゼIIとコラゲナーゼIV)。いくつかの実施形態において、2つよりも多いコラゲナーゼが使用される(たとえば、コラゲナーゼI、コラゲナーゼII、およびコラゲナーゼIV)。
いくつかの実施形態において、酵素カクテルは、構成要素として、培地(たとえば、完全培地)、ペニシリン、ストレプトマイシン、コラゲナーゼ(たとえば、コラゲナーゼIまたはコラゲナーゼIV)のうちの1つまたは複数を含む。カクテル中の酵素の濃度は調整可能である。酵素カクテルの非限定的な例は、コラゲナーゼI(0.2mg/ml)、コラゲナーゼIV(1mg/ml)、完全培地、ペニシリン(0.001%)、およびDNAseである。
いくつかの実施形態において、腫瘍組織0.5gmあたり、少なくとも25ml(たとえば、少なくとも25ml、少なくとも26ml、少なくとも27ml、少なくとも28ml、少なくとも29ml、または少なくとも30ml)の酵素カクテルが添加される。いくつかの実施形態において、腫瘍またはその断片のサンプルが、サンプルが振盪されるかまたは撹拌されている(たとえば、85RPMで回転され、および/または激しいピペッティングを行っている)間に、酵素カクテル中でインキュベートされる。いくつかの実施形態において、腫瘍またはその断片のサンプルは、20~50℃の間の温度(たとえば、20~50℃、20~25℃、25~30℃、25~35℃、30~40℃、35~45℃、40~50℃、または30~50℃)により酵素カクテル中でインキュベートされる。いくつかの実施形態において、単細胞懸濁液を調製する方法は、酵素カクテルを、たとえば、セルストレーナー(たとえば、50μm、70μm、または100μm)に通して濾過することを含む。いくつかの実施形態において、フィルタが細かすぎると、高濃度の線維芽細胞を有する細胞組成物が生じ得る。いくつかの実施形態において、フィルタが粗すぎると、細胞塊が生じ得る。いくつかの実施形態において、細胞塊は、機械力(たとえば、激しいピペッティング、シリンジを使用した圧力の印加)を使用してバラバラにされる。
いくつかの実施形態において、濾過された細胞は、赤血球を溶解するためにRBC溶解緩衝液を使用して溶解される。RBC溶解緩衝液は、市販されている(たとえば、www.abcam.com/red-blood-cell-rbc-lysis-buffer-ab204733.htmlを参照)。
いくつかの実施形態において、単細胞懸濁液を調製する方法は、酵素的および機械的解離を含む。組織から細胞を解離させる方法の例は、刊行物、Quatromoniら、「An optimized disaggregation method for human lung tumors that preserves the phenotype and function of the immune cell」J Leukoc Biol.2015年1月、97(1):201~209頁、Pennartzら、「Generation of Single-Cell Suspensions from Mouse Neural Tissue」JOVE Issue 29、doi:10.3791/1267、Published:7/07/2009、およびwww.youtube.com/watch?v=N0jftyYqM38に記載がある。
いくつかの実施形態において、酵素を含まない細胞解離緩衝液が使用される。たとえば、ThermoFisher Scientific社のカタログ番号13151014および13150016、またはMillipore Sigma Aldrich社のカタログ番号S-014-Bを参照されたい。Hengら、Biol Proced Online. 2009年、11:161~169頁では、細胞を解離させる酵素的手段と非酵素的手段との比較を提示しており、その全体が参照により本明細書に組み込まれている。
いくつかの実施形態において、単細胞懸濁液中の細胞の数はカウントされ、その生死判別試験が行われる。以下の例は、腫瘍組織のサンプルから単細胞懸濁液を形成する全体的プロセスの一例を提示している。
いくつかの実施形態において、方法は、腫瘍のサンプルから細胞の単細胞懸濁液を形成し、少なくとも第1および第2の部分に分割することを含む。単細胞懸濁液の第1および第2の部分は、等しいサイズまたは異なるサイズであり得る(たとえば、異なる数の細胞を含む)。いくつかの実施形態において、単細胞懸濁液の部分すべて(たとえば、第1の部分、第2の部分など)が、別々の容器に貯蔵され、同じまたは類似の条件の下で(たとえば、液体窒素中、または-80℃)で貯蔵される。いくつかの実施形態において、単細胞懸濁液の異なる部分は、任意のさらなる処理(たとえば、タンパク質発現研究のための抗体による標識)の前または後に、異なる条件の下で貯蔵される。いくつかの実施形態において、生体サンプルから単離された細胞は、培養され、増殖された後、貯蔵される。いくつかの実施形態において、生体サンプルから単離された細胞は、培養され、貯蔵後に増殖される。
いくつかの実施形態において、本明細書で説明されている方法のいずれか1つは、単細胞懸濁液の少なくとも一部(たとえば、第1または第2の部分)から溶解物を形成することをさらに含む。いくつかの実施形態において、単細胞懸濁液の異なる部分は、異なる種類の細胞を含む。いくつかの実施形態において、溶解物が形成される単細胞懸濁液の一部は、少なくとも1×106個の細胞(たとえば、少なくとも1×106個の細胞、少なくとも2×106個の細胞、少なくとも3×106個の細胞、少なくとも4×106個の細胞、または少なくとも5×106個の細胞)を含む。いくつかの実施形態において、溶解物が形成される単細胞懸濁液の一部は、少なくとも2×106個の細胞を含む。溶解物は、DNAおよび/またはRNA(たとえば、RNALater)の分解を防止する貯蔵培地に貯蔵され得る。いくつかの実施形態において、方法は、単細胞懸濁液または単細胞懸濁液の各部からの溶解物からRNAを抽出し、抽出されたRNAに対してRNAシークエンシングを実行してRNA発現データを取得することを含む。これらのRNA発現データは、腫瘍の不均質性を決定するために使用することができる。
単細胞RNAシークエンシングの概要は、hemberg-lab.github.io/scRNA.seq.course/introduction-to-single-cell-rna-seq.htmlに記載されており、その図2.1は参照により本明細書に組み込まれている。いくつかの実施形態において、単細胞懸濁液のRNAシークエンシングを実行する方法は、単細胞RNAの単離、逆転写cDNAの前増幅、cDNAライブラリの調製(たとえば、Fluidigm C1プロトコルを使用)、およびIllumina HiSeq 2500などのプラットフォームを使用したシークエンシングされたもののシークエンシングを含む。
単細胞RNAシークエンシングを実行する方法は、各々全体が参照により本明細書に組み込まれている、Bagnoliら「Studying Cancer Heterogeneity by Single-Cell RNA Sequencing」、Methods Mol Biol. 2019年、1956:305~319頁、Sunら「Single-cell RNA sequencing reveals gene expression signatures of breast cancer-associated endothelial cells」、Oncotarget. 2018年2月16日、9(13): 10945~10961頁、Kulkarniら「Beyond bulk: a review of single cell transcriptomics methodologies and applications」、Curr Opin Biotechnol. 2019年4月9日、58:129~136頁、Huangら「High Throughput Single Cell RNA Sequencing, Bioinformatics Analysis and Applications」、Adv Exp Med Biol. 2018年、1068:33~43頁、Zilionisら「Single-Cell Transcriptomics of Human and Mouse Lung Cancers Reveals Conserved Myeloid Populations across Individuals and Species」、Immunity. 2019年4月5日、pii:S1074-7613(19)30126~8頁)、Kashimaら「An Informative Approach to Single-Cell Sequencing Analysis」、Adv Exp Med Biol. 2019年、1129:81~96頁、doi:10.1007/978-981-13-6037-4_6、Sekiら「An Informative Approach to Single-Cell Sequencing Analysis」、Adv Exp Med Biol. 2019年、1129
:81~96頁、「Single-Cell DNA-Seq and RNA-Seq in Cancer Using the C1 System」、Adv Exp Med Biol. 2019年、1129:27~50頁、doi:10.1007/978-981-13-6037-4_3)、Seeら「A Single-Cell Sequencing Guide for Immunologists」、Front Immunol. 2018年、9:2425頁で説明されている。
Ganら「Identification of cancer subtypes from single-cell RNA-seq data using a consensus clustering method」、BMC Med Genomics. 2018年、11(Suppl 6):117頁)では、単細胞RNAシークエンシングデータのクラスタリング手法を説明しており、これは参照により全体が本明細書に組み込まれる。
いくつかの実施形態において、単細胞RNAシークエンシング法として、Fluidigm C1システム(SMART-seq)、Fluidigm C1システム(mRNA Seq HT)、SMART-seq2、10X Genomics Chromiumシステム、およびMARS-seqのうちのいずれか1つが使用されている。Seeら、Front Immunol.2018年、9:2425頁、では、これらの方法の比較を提供しており、参照により全体が本明細書に組み込まれている。
いくつかの実施形態において、本明細書で説明されている方法のいずれか1つは、単細胞懸濁液の測定を実行することをさらに含む。いくつかの実施形態において、同じ細胞に対して異なる測定が並行して実行される。Macaulayら、Trends Genet. 2017年2月、33(2):155~168頁では、単細胞から複数の測定を行う方法を説明しており、その全体が参照により本明細書に組み込まれている。
いくつかの実施形態において、本明細書で説明されている方法のいずれか1つは、単細胞懸濁液の少なくとも第1の部分に対してマスサイトメトリーを実行することをさらに含む。マスサイトメトリーは、細胞の特性を決定するために使用される誘導結合プラズマ質量分析法および飛行時間型質量分析法に基づく質量分析技術である。いくつかの実施形態において、マスサイトメトリーは、抗体を同位体的に純粋な元素と結合し、次いでそれを使用して細胞分子(たとえば、タンパク質)を標識することを含む。いくつかの実施形態において、細胞が霧状にされ、アルゴンプラズマに通され、金属抗体を電離する。次いで、金属シグナルは、飛行時間型質量分析計によって分析されて、細胞内の細胞分子を識別し、定量化する。いくつかの実施形態において、マスサイトメトリーが実行される単細胞懸濁液またはその一部は、少なくとも1×106個の細胞(たとえば、少なくとも1×106個の細胞、少なくとも2×106個の細胞、少なくとも3×106個の細胞、少なくとも4×106個の細胞、少なくとも5×106個の細胞、少なくとも6×106個の細胞、少なくとも7×106個の細胞、少なくとも8×106個の細胞、少なくとも9×106個の細胞、または少なくとも10×106個の細胞)を含む。いくつかの実施形態において、マスサイトメトリーが実行される単細胞懸濁液またはその一部は、少なくとも5×106個の細胞を含む。
マスサイトメトリーを実行する方法は、各々全体が参照により本明細書に組み込まれている、Galliら「The end of omics? High dimensional single cell analysis in precision medicine」、Eur J Immunol. 2019年2月、49(2):212~220頁、Brodin、「The biology of the cell - insights from mass cytometry」、FEBS J. 2018年11月3日、doi:10.1111/febs.14693、Olsenら「The anatomy of single cell mass cytometry data」、Cytometry A. 2019年2月、95(2):156~172頁、Behbehani「Applications of Mass Cytometry in Clinical Medicine: The Promise and Perils of Clinical CyTOF」、Clin Lab Med. 2017年12月、37(4):945~964頁、Gondhalekarら「Alternatives to current flow cytometry data analysis for clinical and research studies」、Methods. 2018年2月1日、134-135:113-129、およびSoaresら「Go with the flow: advances and trends in magnetic flow cytometry」、Anal Bioanal Chem. 2019年3月、411(9):1839~1862頁、doi: 10.1007/s00216-019-01593-9. Epub 2019年2月19日で説明されている。
他のアッセイ
本明細書において説明されている生体サンプルのいずれも、従来のアッセイまたは本明細書において説明されているのものを使用して発現データを得るために使用することができる。発現データは、いくつかの実施形態では、遺伝子発現レベルを含む。遺伝子発現レベルは、mRNAおよび/またはタンパク質などの遺伝子発現の産物を検出することによって検出され得る。
いくつかの実施形態において、遺伝子発現レベルは、サンプル中のタンパク質のレベルを検出することによって、および/またはサンプル中のタンパク質の活性レベルを検出することによって決定される。本明細書において使用されているように「決定する」または「検出する」という言い回しは、サンプル内の物質の存在、不存在、数量および/または量(有効量であり得る)を評価することであって、そのような物質の定性的または定量的な濃度レベルの導出を含む、評価すること、またはそうでなければ、被験者からのサンプル内のそのような物質の値および/または分類を評価することを含み得る。
タンパク質のレベルは、イムノアッセイを使用して測定され得る。イムノアッセイの例は、任意の知られているアッセイ(限定しない)を含み、免疫ブロット分析法(たとえば、ウエスタンブロット法)、免疫組織化学分析法、フローサイトメトリーアッセイ、免疫蛍光分析法(IF)、酵素結合免疫吸着分析法(ELISA)(たとえば、サンドイッチELISA)、ラジオイムノアッセイ、電気化学発光ベースの検出アッセイ、磁気イムノアッセイ、側方流アッセイ、および関係する技術のいずれかを含み得る。本明細書で提供されるタンパク質のレベルを検出するための追加の好適なイムノアッセイは、当業者には明らかであろう。
そのようなイムノアッセイは、標的タンパク質に特異的な薬剤(たとえば、抗体)の使用を伴い得る。標的タンパク質に「特異的に結合する」抗体などの薬剤という言い回しは、当技術分野でよく理解されており、そのような特異的結合を決定する方法も当技術分野でよく知られている。抗体は、特定の標的タンパク質に対して、代替的タンパク質と比較して、より頻繁に、より急速に、より長い時間にわたり、および/またはより高い親和性で反応するか、または結合する場合に、「特異的結合」を示すと言われる。また、この定義を読むことによって、たとえば、第1の標的ペプチドに特異的に結合する抗体は、第2の標的ペプチドに特異的にまたは選択的に結合することもあれば、そうでないこともある得ることも理解される。そのようなものとして、「特異的結合」または「選択的結合」は、必ずしも排他的結合を必要としない(ただし、排他的結合を含むこともある)。一般的に、ただし必ずというわけではないが、結合への言及は、選択的結合を意味する。いくつかの例では、標的ペプチドまたはそのエピトープに「特異的に結合」する抗体は、同じ抗原中の他のペプチドまたは他のエピトープに結合しないことがある。いくつかの実施形態において、サンプルは、異なるタンパク質を結合する複数の結合剤と、同時にまたは順次的に、接触させられ得る(たとえば、多重分析)。
本明細書において使用されているように、「抗体」という用語は、少なくとも1つの免疫グロブリン可変ドメインまたは免疫グロブリン可変ドメイン配列を含むタンパク質を指す。たとえば、抗体は、重(H)鎖可変領域(本明細書ではVHと略記)、および軽(L)鎖可変領域(本明細書ではVLと略記)を含むことができる。別の例では、抗体は、2つの重(H)鎖可変領域および2つの軽(L)鎖可変領域を含む。「抗体」という用語は、抗体の抗原結合フラグメント(たとえば、一本鎖抗体、FabおよびsFabフラグメント、F(ab')2、Fdフラグメント、Fvフラグメント、scFv、およびドメイン抗体(dAb)フラグメント(de Wildtら、Eur J Immunol. 1996年、26(3):629~39頁)、さらには完全抗体も包含する。抗体は、IgA、IgG、IgE、IgD、IgM(さらにはそのサブタイプ)の構造的特徴を有することができる。抗体は、限定はしないが、霊長類(ヒトおよびヒト以外の霊長類)ならびに霊長類化(ヒト化など)抗体を含む任意の供給源からのものであってよい。
いくつかの実施形態において、本明細書で説明されているような抗体は、検出可能な標識に結合させることができ、検出可能な標識から放出されるシグナルの強度に基づき注目するペプチドに対する検出試薬の結合が決定され得る。代替的に、検出試薬に特異的な二次抗体が使用され得る。1つまたは複数の抗体が検出可能な標識に結合され得る。当技術分野で知られている任意の好適な標識が、本明細書において説明されているアッセイ方法に使用することができる。いくつかの実施形態において、検出可能な標識は、発蛍光団を含む。本明細書において使用されているように、「発蛍光団」(「蛍光標識」または「蛍光染料」とも呼ばれる)という用語は、定義されている励起波長で光エネルギーを吸収し、異なる波長で光エネルギーを放出する部分を指す。いくつかの実施形態において、検出部分は、酵素であるか、または酵素を含む。いくつかの実施形態において、酵素は、無色の基質から着色された生成物を産生するもの(たとえば、β-ガラクトシダーゼ)である。
当業者であれば、本開示がイムノアッセイに限定されないことは明らかであろう。質量分析など、抗体に基づかない検出アッセイも、本明細書において提供されるタンパク質および/またはタンパク質のレベルの検出および/または定量化に有用である。発色性基質に依存するアッセイも、本明細書において提供されるようなタンパク質および/またはタンパク質のレベルの検出および/または定量化に有用である。
代替的に、サンプル中の遺伝子をコードする核酸のレベルは、従来の方法を介して測定され得る。いくつかの実施形態において、遺伝子をコードする核酸の発現レベルを測定することは、mRNAを測定することを含む。いくつかの実施形態において、遺伝子をコードするmRNAの発現レベルは、リアルタイム逆転写酵素(RT)Q-PCRまたは核酸マイクロアレイを使用して測定され得る。核酸配列を検出するための方法は、限定はしないが、ポリメラーゼ連鎖反応(PCR)、逆転写酵素PCR(RT-PCR)、in situ PCR、定量的PCR(Q-PCR)、リアルタイム定量的PCR(RT Q-PCR)、in situハイブリダイゼーション、サザンブロット、ノーザンブロット、配列分析、マイクロアレイ解析、レポーター遺伝子の検出、または他のDNA/RNAハイブリダイゼーションプラットフォームを含む。
いくつかの実施形態において、サンプル中の遺伝子をコードする核酸のレベルは、ハイブリダイゼーションアッセイを介して測定され得る。いくつかの実施形態において、ハイブリダイゼーションアッセイは、少なくとも1つの結合パートナーを含む。いくつかの実施形態において、ハイブリダイゼーションアッセイは、少なくとも1つのオリゴヌクレオチド結合パートナーを含む。いくつかの実施形態において、ハイブリダイゼーションアッセイは、少なくとも1つの標識されたオリゴヌクレオチド結合パートナーを含む。いくつかの実施形態において、ハイブリダイゼーションアッセイは、オリゴヌクレオチド結合パートナーの少なくとも1つの対を含む。いくつかの実施形態において、ハイブリダイゼーションアッセイは、標識されたオリゴヌクレオチド結合パートナーの少なくとも1つの対を含む。
所望の核酸またはタンパク質に特異的に結合する任意の結合剤が、サンプル中の発現レベルを測定するために本明細書において説明されている方法およびキットで使用され得る。いくつかの実施形態において、結合剤は、所望のタンパク質に特異的に結合する抗体またはアプタマーである。他の実施形態では、結合剤は、核酸またはその一部に相補的な1つまたは複数のオリゴヌクレオチドであってよい。いくつかの実施形態において、サンプルは、異なるタンパク質または異なる核酸を結合する複数の結合剤と、同時にまたは順次的に、接触させられ得る(たとえば、多重分析)。
タンパク質または核酸の発現レベルを測定するために、サンプルが、好適なな条件下で結合剤と接触しているものとしてよい。一般に、「接触」という用語は、結合剤とサンプル中のもしあれば標的タンパク質または標的核酸との間で複合体が形成されるのに十分な適切な期間においてサンプルまたはそこから採取した細胞に結合剤を曝すことを指す。いくつかの実施形態において、接触することは、サンプルが支持膜の表面を横切って移動される毛細管現象によって実行される。
いくつかの実施形態において、アッセイは、シングルアッセイフォーマットを含む、ロースループットプラットフォームで実行され得る。いくつかの実施形態において、アッセイは、ハイスループットプラットフォームで実行され得る。そのようなハイスループットアッセイは、固体支持体(たとえば、1つまたは複数のチップ)に固定化された結合剤を使用することを含み得る。結合剤を固定化するための方法は、結合剤の性質および固体支持体の材料などの要因に依存し、特定の緩衝剤を必要とすることがある。そのような方法は、当業者には明らかであろう。
DNAおよび/またはRNAの抽出
本明細書において説明されている方法のいずれか1つの実施形態では、RNAが分解されるのを防ぐため、および/または下流の処理、たとえば、DNA(すなわち、RNAからのcDNAライブラリ)の調製における酵素の阻害を防ぐように、生体サンプルからRNAが抽出される。本明細書において説明されている方法のいずれか1つの実施形態では、DNAが分解されるのを防ぐため、および/または下流の処理、たとえば、DNAの調製における酵素の阻害を防ぐように、生体サンプルからDNAが抽出される。いくつかの実施形態において、生体サンプルからDNAまたはRNAを取得するという文脈での「抽出」という用語は、「単離」という用語と交換可能に使用される。
本明細書において説明されている方法は、生体サンプル(たとえば、腫瘍サンプルまたは血液サンプル)からのRNAおよび/またはDNAの抽出を伴う。上で説明されているように、生体サンプルは、1つまたは複数の組織(たとえば、1つまたは複数の異なる腫瘍)からの複数のサンプルから構成され得る。いくつかの実施形態において、組み合わされたサンプルからRNAおよび/またはDNAが抽出される。いくつかの実施形態において、RNAおよび/またはDNAは、被験者からの複数の生体サンプルから抽出され、次いで、さらなる処理(たとえば、貯蔵、またはDNAライブラリ調製)の前に組み合わされる。いくつかの実施形態において、抽出されたRNAおよび/またはDNAの複数のサンプルは、貯蔵場所から取り出された後、互いに組み合わされる。いくつかの実施形態において、少なくとも腫瘍DNAは、1つまたは複数の腫瘍組織から抽出される。いくつかの実施形態において、少なくとも腫瘍RNAは、1つまたは複数の腫瘍組織から抽出される。いくつかの実施形態において、少なくとも正常なDNAは1つまたは複数の正常な組織から抽出され、対照として使用される。いくつかの実施形態において、少なくとも正常なRNAは1つまたは複数の正常な組織から抽出され、対照として使用される。DNA/RNA抽出のプロトコルは、少なくとも例2に記載されている。
生体サンプルからDNAおよび/またはRNAを抽出するための方法は、当技術分野で知られており、そのための試薬およびキットは市販されている。Gomez-Akataら「Methods for extracting 'omes from microbialites」、J Microbiol Methods. 2019年3月12日、160:1~10頁では、微生物からのDNAおよびRNAの抽出に適用される抽出のための方法を説明しており、またその利点および欠点も説明しており、その全体が参照により本明細書に組み込まれている。Gomez-Akataらにおいて説明されている方法は、組織から抽出されたRNAおよび/またはDNAに一般的に適用可能である。Moore、Curr Protoc Immunol.2001年5月、Chapter 10:Unit 10.1では、水溶液からのDNAの精製および濃縮を説明しており、その全体が参照により本明細書にも組み込まれている。
いくつかの実施形態において、DNAおよび/またはRNAを抽出することは、生体サンプルの細胞を溶解することと、DNAおよび/またはRNAを他の細胞成分から単離することとを含む。細胞を溶解するための方法の例は、限定はしないが、機械的溶解、液体ホモジナイゼーション、超音波処理、凍結融解、化学的溶解、アルカリ溶解、および手動粉砕を含む。
DNAおよび/またはRNAを抽出するための方法は、限定はしないが、溶液相抽出法および固相抽出法を含む。いくつかの実施形態において、溶液相抽出法は、有機抽出法、たとえば、フェノールクロロホルム抽出法を含む。いくつかの実施形態において、溶液相抽出法は、高塩濃度抽出法、たとえば、チオシアン酸グアニジニウム(GuTC)または塩化グアニジニウム(GuCl)抽出法を含む。いくつかの実施形態において、溶液相抽出法は、エタノール沈殿法を含む。いくつかの実施形態において、溶液相抽出法は、イソプロパノール沈殿法を含む。いくつかの実施形態において、溶液相抽出法は、臭化エチジウム(EtBr)-塩化セシウム(CsCl)勾配遠心分離法を含む。いくつかの実施形態において、DNAおよび/またはRNAを抽出することは、非イオン系洗剤抽出法、たとえば、臭化セチルトリメチルアンモニウム(CTAB)抽出法を含む。
いくつかの実施形態において、DNAおよび/またはRNAを抽出することは、固相抽出法を含む。DNAおよび/またはRNAに結合する任意の固相は、本明細書において説明されている方法およびシステムでDNAおよび/またはRNAを抽出するために使用され得る。DNAおよび/またはRNAに結合する固相の例は、限定はしないが、シリカマトリクス、イオン交換マトリクス、ガラス粒子、磁化可能セルロースビーズ、ポリアミドマトリクス、およびニトロセルロース膜を含む。
いくつかの実施形態において、固相抽出法は、スピンカラムベースの抽出法を含む。いくつかの実施形態において、固相抽出法は、ビーズベースの抽出法を含む。いくつかの実施形態において、固相抽出法は、陽イオン交換樹脂、たとえば、スチレンジビニルベンゼン共重合体樹脂を含む。
本明細書において説明されているシステムおよび方法は、単一の生体サンプルまたは複数の生体サンプルからDNAおよび/またはRNAを抽出することを包含する。いくつかの実施形態において、DNAを抽出することは、単一のサンプルからDNAを抽出することを含む。いくつかの実施形態において、DNAを抽出することは、複数のサンプルからDNAを抽出することを含む。いくつかの実施形態において、DNAを抽出することは、第1のサンプルおよび第2のサンプルからDNAを抽出することを含む。いくつかの実施形態において、DNAを抽出することは、1個もしくは複数、2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、または10個以上のサンプルからDNAを抽出することを含む。
いくつかの実施形態において、RNAを抽出することは、単一のサンプルからRNAを抽出することを含む。いくつかの実施形態において、RNAを抽出することは、複数のサンプルからRNAを抽出することを含む。いくつかの実施形態において、RNAを抽出することは、第1のサンプルおよび第2のサンプルからRNAを抽出することを含む。いくつかの実施形態において、RNAを抽出することは、1個もしくは複数、2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、または10個以上のサンプルからRNAを抽出することを含む。
生体サンプルから抽出されたDNAおよび/またはRNAは、別の生体サンプルからの抽出されたDNAおよび/またはRNAと組み合わされ得る。これは、1つまたは複数の生体サンプルを組み合わせて核酸を抽出することによって、または1つまたは複数の生体サンプルからの抽出された核酸を組み合わせることによって達成され得る。いくつかの実施形態において、第1の生体サンプルは、第2の生体サンプルと組み合わされて、組み合わされたサンプルを形成し、組み合わされたサンプルからDNAおよび/またはRNAを抽出する。いくつかの実施形態において、第1の生体サンプルから抽出されたDNAおよび/またはRNAは、第2の生体サンプルからの抽出されたDNAおよび/またはRNAと組み合わされ得る。
本明細書において説明されているシステムおよび方法は、生体サンプルから任意の種類のDNAおよび/またはRNAを抽出することを包含する。いくつかの実施形態において、DNAを抽出することは、ゲノムDNA(gDNA)を抽出することを含む。いくつかの実施形態において、DNAを抽出することは、ミトコンドリアDNA(gDNA)を抽出することを含む。いくつかの実施形態において、RNAを抽出することは、メッセンジャーRNA(mRNA)を抽出することを含む。いくつかの実施形態において、RNAを抽出することは、前駆体mRNA(pre-mRNA)を抽出することを含む。いくつかの実施形態において、RNAを抽出することは、リボソームRNA(rRNA)を抽出することを含む。いくつかの実施形態では、RNAを抽出することは、転移RNA(tRNA)を抽出することを含む。
いくつかの実施形態において、同じサンプルからDNAおよびRNAを精製するために単一のキットが使用される。そうするためのキットの非限定的な例は、Qiagen AllPrep DNA/RNAキットである。いくつかの実施形態において、DNAおよび/またはRNAの抽出を行うためにロボットが採用される。
いくつかの実施形態において、抽出されたRNAのサンプルが十分な収率および/または品質を有しない場合、以下の結果のいずれかが生じる可能性がある。第1に、RNAシークエンシングデータにおいて共通転写産物の過剰表現があり得、また低含量転写産物の過小表現があり得る。第2に、RNAの品質が低いと、リード長が不十分になり(すなわち、リードが短くなる)、および/またはリードの品質が不適切だと、RNAの誤認識が生じ得る。
全エクソームシークエンシングについては、DNAの量および質が低いと、塩基対の誤認識が起こり、バリアントの誤発見(たとえば、偽陽性)またはバリアントが識別されない場合の誤発生(たとえば、偽陰性)が生じ得る。DNAの量および品質が低いことに起因し得る別の問題は、エクソームのカバレッジが不十分になる(たとえば、配列の欠落)ことである。
いくつかの実施形態において、抽出されたRNAおよび/またはDNAが、RNAシークエンシングまたは全エクソームシークエンシング(WES)のためにさらに処理される前に、RNAまたはDNAの品質および/または量がチェックされる。いくつかの実施形態において、抽出されたRNAのサンプルは、全質量が少なくとも1000~6000ngである。いくつかの実施形態において、抽出されたRNAのサンプルは、全質量が少なくとも100~60000ng(たとえば、100~60000ng、500~30000ng、800~20000ng、1000~15000ng、1000~10000ng、1000~8000ng、1000~6000ng、10000~20000ng、20000~60000ng)である。いくつかの実施形態において、さらなるシークエンシングのための許容可能なトータルRNA量は、少なくとも100~1,000ng(たとえば、100~1,000ng、500~1,000ng、または300~900ng)である。いくつかの実施形態において、さらなるシークエンシングのための目標トータルRNA量は、200~1,000ng(たとえば、200~1,000ng、500~1,000ng、または300~1,000ng)よりも多い。いくつかの実施形態では、抽出されたRNAのサンプルの純度は、少なくとも1(たとえば、少なくとも1、少なくとも1.2、少なくとも1.4、少なくとも1.6、少なくとも1.8、または少なくとも2)の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。いくつかの実施形態において、抽出されたRNAのサンプルの純度は、少なくとも2の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。260nmでの吸光度と280nmでの吸光度との比は、DNAおよびRNAの純度を評価するために使用される。~1.8の比は、一般的にDNAに対して「純粋」として受け入れられ、~2.0の比は、一般的にRNAに対して「純粋」として受け入れられる。いずれの場合もこの比が著しく低い場合、タンパク質、フェノール、または280nm付近で強く吸収する他の汚染物質が存在することを示している可能性がある。吸光度は、分光光度計を使用して測定され得る。
いくつかの実施形態において、本明細書において説明されている方法のいずれか1つによる抽出されたRNAまたはDNA(たとえば、DNAフラグメントライブラリ)の純度または完全性は、少なくとも4(たとえば、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、または少なくとも9)のRNA完全性番号(RIN)に対応するような値である。いくつかの実施形態において、本明細書において説明されている方法のいずれか1つによる抽出された核酸(たとえば、RNAまたはDNA)の純度は、少なくとも7のRNA完全性番号(RIN)に対応するような値である。RINは、他のRNA完全性計算アルゴリズムと比較した研究において、ロバスト性と再現性を有することを実証されており、分析対象のRNAの品質を決定する好ましい方法としての地位を固めている(Imbeaudら、「Towards standardization of RNA quality assessment using user-independent classifiers of microcapillary electrophoresis traces」、Nucleic Acids Research. 33 (6):e56)。
いくつかの実施形態において、抽出されたDNAのサンプルは、全質量が少なくとも100~20000ng(たとえば、100~20000ng、500~15000ng、800~10000ng、1000~15000ng、1000~10000ng、1000~8000ng、1000~6000ng、または1000~2000ng)である。いくつかの実施形態において、抽出されたDNAのサンプルは、全質量が少なくとも1000~2000ngである。いくつかの実施形態において、さらなるシークエンシングのための許容可能な全DNA量は、少なくとも20~200ng(たとえば、20~200ng、30~200ng、または50~150ng)である。いくつかの実施形態において、さらなるシークエンシングのための目標全DNA量は、30~200ng(たとえば、30~200ng、50~200ng、または100~200ng)より多い。いくつかの実施形態において、抽出されたDNAのサンプルの目標純度は、少なくとも1.8~2(たとえば、少なくとも1.8~2、少なくとも1.8~1.9)の260nmでの吸光度と280nmでの吸光度との比の範囲に対応するような値である。いくつかの実施形態では、抽出されたDNAのサンプルの純度は、少なくとも1(たとえば、少なくとも1、少なくとも1.2、少なくとも1.4、少なくとも1.6、少なくとも1.8、または少なくとも2)の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。いくつかの実施形態において、抽出されたDNAのサンプルの許容可能な純度は、少なくとも1.5(たとえば、少なくとも1.5、少なくとも1.7、少なくとも2)の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。いくつかの実施形態において、抽出されたDNAのサンプルの目標純度は、少なくとも2~2.2(たとえば、少なくとも2~2.2、少なくとも2~2.1)の260nmでの吸光度と230nmでの吸光度との比の範囲に対応するような値である。いくつかの実施形態において、抽出されたDNAのサンプルの許容可能な純度は、少なくとも1.5(たとえば、少なくとも1.5、少なくとも1.7、少なくとも2)の260nmでの吸光度と230nmでの吸光度との比に対応するような値である。いくつかの実施形態において
、本明細書において説明されているような抽出されたDNAのサンプルの純度は、分光光度計、たとえば小容量フルスペクトル紫外線可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanoDrop分光光度計、www.thermofisher.com)によって分析される。
いくつかの実施形態において、抽出されたDNAのサンプルは、少なくとも4.5ng/μl(たとえば、4.5ng/μl、5.5ng/μl、6.5ng/μl)の目標濃度を有する。いくつかの実施形態において、抽出されたDNAのサンプルは、少なくとも3ng/μl(たとえば、3ng/μl、5ng/μl、10ng/μl)の許容濃度を有する。いくつかの実施形態において、抽出されたDNAの濃度決定は、たとえば、DNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)によって実行される。
いくつかの実施形態において、抽出されたDNAのサンプルは、少なくとも4ng/μl(たとえば、4ng/μl、6ng/μl、8ng/μl)の目標濃度を有する。いくつかの実施形態において、抽出されたDNAのサンプルは、少なくとも2.5ng/μl(たとえば、2.5ng/μl、4.5ng/μl、5.5ng/μl)の許容濃度を有する。いくつかの実施形態において、抽出されたDNAの濃度決定は、Tapestationによって実行される。
いくつかの実施形態において、抽出されたRNAのサンプルは、少なくとも2ng/μl(たとえば、2ng/μl、4ng/μl、6ng/μl)の目標濃度を有する。いくつかの実施形態において、抽出されたRNAのサンプルは、少なくとも4ng/μl(たとえば、4ng/μl、6ng/μl、10ng/μl)の許容濃度を有する。いくつかの実施形態において、抽出されたDNAの濃度決定は、たとえば、DNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)によって実行される。
いくつかの実施形態において、抽出されたRNAのサンプルは、少なくとも4ng/μl(たとえば、4ng/μl、6ng/μl、8ng/μl)の目標濃度を有する。いくつかの実施形態において、抽出されたRNAのサンプルは、少なくとも1.5ng/μl(たとえば、1.5ng/μl、3.5ng/μl、5.5ng/μl)の許容濃度を有する。いくつかの実施形態において、抽出されたRNAの濃度決定は、Tapestationによって実行される。いくつかの実施形態において、許容可能なRNA完全性番号(RIN)は、少なくとも5(たとえば、5、6、7)である。いくつかの実施形態において、目標RNA完全性番号(RIN)は、少なくとも8(たとえば、8、9、10)である。いくつかの実施形態において、RINはTapestationによって実行される。
いくつかの実施形態において、抽出されたRNAのサンプルの目標純度は、少なくとも1.8~2(たとえば、少なくとも1.8~2、少なくとも1.8~1.9)の260nmでの吸光度と280nmでの吸光度との比の範囲に対応するような値である。いくつかの実施形態において、抽出されたRNAのサンプルの純度は、少なくとも1.8の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。いくつかの実施形態において、抽出されたRNAのサンプルの許容可能な純度は、少なくとも1.5(たとえば、少なくとも1.5、少なくとも1.7、少なくとも2)の260nmでの吸光度と280nmでの吸光度との比に対応するような値である。いくつかの実施形態において、抽出されたRNAのサンプルの目標純度は、少なくとも2~2.2(たとえば、少なくとも2~2.2、少なくとも2~2.1)の260nmでの吸光度と230nmでの吸光度との比の範囲に対応するような値である。いくつかの実施形態において、抽出されたRNAのサンプルの許容可能な純度は、少なくとも1.5(たとえば、少なくとも1.5、少なくとも1.7、少なくとも2)の260nmでの吸光度と230nmでの吸光度との比に対応するような値である。いくつかの実施形態において、本明細書において説明されているような抽出されたRNAのサンプルの純度は、分光光度計、たとえば小容量フルスペクトル紫外線可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanoDrop分光光度計、www.thermofisher.com)によって分析される。いくつかの実施形態では、抽出されたDNAの濃度は、少なくとも10~2000ng/μl(たとえば、10~2000ng/μl、10~1000ng/μl、10~200ng/μl、1~200ng/μl、0.5~400ng/μl、0.5~200ng/μl、100~200ng/μl、100~400ng/μl、100~500ng/μl、50~500ng/μl、または50~250ng/μl)である。
抽出されたRNAまたはDNAのサンプルの品質管理のためのプロトコルは、少なくとも例6に記載されている。いくつかの実施形態において、本明細書で説明されているような抽出されたDNAおよび/またはRNAのサンプルの純度は、他の任意の好適な技術またはツールによって分析され得る。いくつかの実施形態において、抽出されたRNAまたはDNAのサンプルは、上述のような特定の量または純度の基準を満たさない場合、さらに処理されることはない。いくつかの実施形態において、抽出されたRNAまたはDNAのサンプルが特定の量または純度の基準を満たさない場合、そのサンプルは別のサンプルと組み合わせられる。
RNAシークエンシングのためのライブラリ調製
RNAのサンプルからcDNAライブラリを調製する方法は、当技術分野で知られている。たとえば、www.illumina.com/content/dam/illumina-marketing/documents/applications/ngs-library-prep/for-all-you-seq-rna.pdfでは、RNAシークエンシングのためにcDNAライブラリを調製する異なる方法の図解を提供している。cDNAライブラリの調製の非限定的な例は、ClickSeq、3Seq、およびcP-RNA-Seqを含む。いくつかの実施形態において、RNAからcDNAライブラリを調製することは、RNAのサンプルからmRNAを精製すること(RNA濃縮)を含む。いくつかの実施形態において、濃縮されたRNAは断片化される。いくつかの実施形態において、適切なRNA画分の選択が完了した後、分子は、使用されているシークエンシングプラットフォームに応じて、50~1000bp(たとえば、50~100bp、100~800bp、100~500bp、または200~500bp)の間のサイズのより小さな片に断片化される。この断片化は、二本鎖(ds)cDNAを断片化すること、またはRNAを断片化することのいずれかによって達成され得る。方法は両方とも結果として、各フラグメントにアダプターが付いた二本鎖cDNAライブラリの同じ最終生成物をもたらす。
いくつかの実施形態において、ライブラリ調製方法は、機能要素(たとえば、サンプルインデックス、分子バーコードまたはフローセルオリゴ結合部位)を追加し、シークエンシングコンピテントDNAフラグメントを濃縮し、および/または下流処理のために十分な量のライブラリDNAを生成するための1つまたは複数の増幅ステップを含む。いくつかの実施形態において、濃縮されたRNA(たとえば、断片化され濃縮されたRNA)は、ランダムプライマー(たとえば、ランダムヘキサマー)を使用して増幅される。いくつかの実施形態において、濃縮されたRNA(たとえば、断片化され濃縮されたRNA)は、オリゴdTsを使用して増幅される。いくつかの実施形態では、RNAはその後、形成されたcDNAから取り除かれる。いくつかの実施形態において、cDNAは、シークエンシングアダプタおよびインデックス(すなわち、複数のインデックス)を含むように増幅される。アダプタは、シークエンシングのためにフローセルに結合することができる10~100bp(たとえば、10~20、10~100、20~80、30~70、40~60、20~100、40~100、40~80、30~60、または45~65bp)のDNA配列である。また、アダプタは、アダプタライゲーションDNAフラグメントのPCR濃縮を可能にする。アダプタは、複数のcDNAライブラリが1つのシークエンシングサンプル(またはレーン)に一緒に混合され得るようにサンプルのインデックス付けまたはバーコード付けを可能にすることができる、すなわち、多重化を可能にする。いくつかの実施形態において、インデックスまたはバーコードは、長さが4~20bp(たとえば、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、4~20、5~15、6~12、または4~12bp)である。tucf-genomics.tufts.edu/documents/protocols/TUCF_Understanding_Illumina_TruSeq_Adapters.pdfでは、アダプタおよびインデックス付けを使用してcDNAライブラリを調製するための例示的なプロトコルを提供し、これは全体が参照により本明細書に組み込まれる。DNAまたはRNAライブラリを構築するためのプロトコルは、少なくとも例3および例5に記載されている。
RNA濃縮
cDNAライブラリ調製中にmRNAを濃縮するためのRNA濃縮の方法(本明細書では「RNA濃縮」とも記述する)は、当技術分野で知られている。RNA濃縮は、標的化されたものでも、非標的化されたものでもよい。RNA濃縮の標的化された方法は、配列特異的な捕捉プローブの使用を含む。標的化されたmRNA濃縮の非限定的な例は、CaptureSeq(sapac.illumina.com/science/sequencing-method-explorer/kits-and-arrays/aptureseq.html)を含み、これは、注目する配列に特異的な捕捉プローブを利用する。また、標的化されたmRNA濃縮に適した他のプラットフォームやツールも使用できる。
非標的化されたmRNAの濃縮方法の例は、オリゴdT(たとえば、ビーズにコンジュゲートされたもの)を用いたポリAの捕捉、およびrRNAの枯渇を含む。Petrovaら、Scientific Reports volume 7、Article number:41114(2017年)では、様々なrRNA枯渇法の比較を提供しており、その全体が参照により本明細書に組み込まれる。いくつかの実施形態において、rRNA枯渇は、酵素的アプローチを用いて(たとえば、mRNAを処理しないエクソヌクレアーゼを使用して)実行され得る。いくつかの実施形態において、rRNA枯渇法は、サブトラクティブハイブリダイゼーションを含み、それにより、配列特異的プローブを用いてrRNAが捕捉される(たとえば、www.sciencedirect.com/topics/immunology-and-microbiology/subtractive-hybridization 参照)。
いくつかの実施形態において、ポリA捕捉は、ポリA特異的捕捉プローブ(オリゴdT)を使用してポリAテールを有するmRNAを捕捉することを含む。いくつかの実施形態において、捕捉プローブは、精製を容易にするために固定化される。いくつかの実施形態において、捕捉プローブは、ビーズ(たとえば、磁気ビーズ)上に固定化される。いくつかの実施形態において、RNAサンプルからDNAライブラリを調製するために市販のキットが使用される。いくつかの実施形態において、Illumina TruSeq RNA Library Prepキットが使用される。
mRNA濃縮の選択は、シークエンシングされた転写産物の選択に大きな影響を及ぼし得る。たとえば、いくつかの実施形態において、rRNA枯渇法と比較して、ポリA濃縮を用いて調製されたcDNAライブラリは、結果として、非コード転写産物(たとえば、rRNA、miRNA、およびIncRNA)と比較したときにタンパク質コード転写産物のより高い画分(たとえば、80%超、90%超、95%超、96%超、97%超、98%超、99%超、または99.9%超)を含むライブラリをもたらす。
いくつかの実施形態において、調製されたcDNAライブラリは、品質について検査される。いくつかの実施形態において、シークエンシングで使用するためのライブラリの定量化は、一般的に、多重化されたアプリケーションにおいてインデックス付けされたライブラリの等しい表現を確実にするためにライブラリが標的濃縮または増幅のためにプールされる前に実行される。いくつかの実施形態において、定量化は、シークエンシングの前に個々のライブラリまたはライブラリプールが最適に希釈されていることを確認するためにも使用される。アダプタライゲーションライブラリ分子の正確で再現性のある定量化は、一貫した再現性のある結果を取得することに、またシークエンシングの収率を最大化することについて寄与する。ロードするDNAが推奨される量よりも多いと、フローセルが飽和するか、またはクラスター密度が高くなる可能性があり、ロードするDNAが少なすぎると、クラスター密度が低くなり、カバレッジおよび深度が低下する可能性がある。
DNAライブラリを定量化する方法は、電気泳動法、蛍光光度法、分光光度法、デジタルPCR、ドロップレットデジタルPCR、およびqPCRを含む。DNAライブラリの量および/または品質を測定するための様々な機器が存在し、たとえば、Agilent High Sensitivity D1000 ScreenTape Systemが挙げられる。
本開示の態様は、シークエンシング分析対象の核酸の品質管理を提供する。 本開示の態様は、シークエンシング分析対象のDNAの品質管理を提供する。本開示の態様は、シークエンシング分析対象のRNAの品質管理を提供する。いくつかの実施形態において、核酸は、任意の好適な種類のDNAまたはRNAを含むことができる。いくつかの実施形態において、核酸の品質管理は、生検の条件およびドキュメントの確認を含む。いくつかの実施形態において、生検の条件およびドキュメントの確認は、限定はしないが、核酸材料の目録および登録を含むことができる。いくつかの実施形態において、生検の条件およびドキュメントの確認は、核酸材料の受け入れを含む。例を挙げると、医療サービス提供者から受け取った患者サンプルは、患者組織が新鮮凍結状態またはホルマリン固定パラフィン包埋状態であるかどうかを確認する。検査室担当者は、登録された実体の生検の準拠性を検証する。検査室担当者は、輸送中の生検サンプルの適切な貯蔵を検証する。検査室担当者は、生検サンプルの物理的状態を検証する。検査室担当者が生検サンプルに関する何らかのエラーを識別した場合に、生検サンプルの供給元(たとえば、医療サービス提供者)は、通知され得る。いくつかの実施形態において、受け取った生検サンプルが患者組織細胞株である場合、サンプルは抽出のために調製される。いくつかの実施形態において、受け取った生検サンプルが抽出されたDNAまたはRNAである場合、サンプルは、さらなるシークエンシングのために-80℃で貯蔵される。いくつかの実施形態において、抽出されたDNAは、参照gDNAであり得る。いくつかの実施形態において、抽出されたRNAは、参照RNAであり得る。
いくつかの実施形態において、品質管理手順は、目標範囲を規定する。目標範囲は、所与のステップ(たとえば、抽出)の最も理想的な品質を表すものとしてよい。いくつかの実施形態において、品質管理手順は、許容範囲を規定する。許容範囲は、所与のステップの理想的な品質または許容可能な品質を表し得る。いくつかの実施形態において、核酸の品質管理は、DNAライブラリを構築するプロセスにおける品質を確保することを含む。いくつかの実施形態において、核酸の品質管理は、RNAライブラリを構築するプロセスにおける品質を確保することを含む。図7および例6に示されているように、DNAまたはRNAライブラリの調製は、患者組織サンプルからDNAまたはRNAを抽出することを含む。いくつかの実施形態において、分光光度計、たとえば、小容量フルスペクトル紫外線可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanoDrop分光光度計、www.thermofisher.com)が、DNAまたはRNA抽出の品質を決定するために使用され得る。例として、>100 ng/μlの抽出されたDNAは、抽出されたDNAが品質管理試験に合格していることを示している。>500ng/μlの抽出されたRNAは、抽出されたRNAが品質管理試験に合格していることを示している。別の例では、抽出されたDNAの260nmと280nmの吸光度の比(260/280)が1.8~2.0であることは、抽出されたDNAが品質管理試験に合格していることを示している。抽出されたRNAの260nmと280nmの吸光度の比(260/280)が2.0であることは、抽出されたRNAが品質管理試験に合格していることを示している。別の例では、抽出されたDNAの260nmと230nmの吸光度の比(260/230)が2.0~2.2であることは、抽出されたDNAが品質管理試験に合格していることを示している。抽出されたRNAの260nmと230nmの吸光度の比(260/230)が2.0~2.2であることは、抽出されたRNAが品質管理試験に合格していることを示している。いくつかの実施形態において、たとえばDNAまたはRNAの定量化のための、蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が、DNAまたはRNA抽出の品質を決定するために使用され得る。いくつかの実施形態において、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が、DNAまたはRNA抽出の品質を決定するために使用され得る。いくつかの実施形態において、任意の好適な技術またはツールが、DNAまたはRNA抽出の品質を決定するために使用され得る。
いくつかの実施形態において、さらなるDNAライブラリ構築のための許容可能な全DNA量は、少なくとも200~1,000ng(たとえば、200~1,000ng、300~1,000ng、または300~1,000ng)である。いくつかの実施形態において、さらなるシークエンシングのための目標全DNA量は、500~1,000ng(たとえば、500~1,000ng、600~1,000ng、または800~1,000ng)より多い。いくつかの実施形態において、さらなるRNAライブラリ構築のための許容可能なトータルRNA量は、少なくとも0.5~4nmol/l(たとえば、200~1,000ng、300~1,000ng、または300~1,000ng)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための目標トータルRNA量は、少なくとも0.5~4nmol/l(たとえば、500~1,000ng、600~1,000ng、または800~1,000ng)である。
いくつかの実施形態において、さらなるDNAライブラリ構築のための許容DNA濃度は、少なくとも17ng/μl(たとえば、17ng/μl、25ng/μl、35ng/μl)である。いくつかの実施形態において、さらなるDNAライブラリ構築のための目標DNA濃度は、少なくとも42ng/μl(たとえば、42ng/μl、50ng/μl、80ng/μl)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための許容RNA濃度は、少なくとも0.1ng/μl(たとえば、0.1ng/μl、1ng/μl、3ng/μl)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための目標RNA濃度は、少なくとも0.1ng/μl(たとえば、0.1ng/μl、1ng/μl、3ng/μl)である。いくつかの実施形態において、DNAおよびRNA濃度は、たとえば、DNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)によって検出される。
いくつかの実施形態において、さらなるDNAライブラリ構築のための許容DNA濃度は、少なくとも15ng/μl(たとえば、15ng/μl、25ng/μl、35ng/μl)である。いくつかの実施形態において、さらなるDNAライブラリ構築のための目標DNA濃度は、少なくとも402ng/μl(たとえば、40ng/μl、50ng/μl、80ng/μl)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための許容RNA濃度は、少なくとも0.1ng/μl(たとえば、0.1ng/μl、1ng/μl、3ng/μl)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための目標RNA濃度は、少なくとも0.1ng/μl(たとえば、0.1ng/μl、1ng/μl、3ng/μl)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための許容RNA濃度は、少なくとも0.5nmol/l(たとえば、0.5nmol/l、1nmol/l、5nmol/l)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための目標RNA濃度は、少なくとも0.5nmol/l(たとえば、0.5nmol/l、1nmol/l、5nmol/l)である。いくつかの実施形態において、DNAおよびRNA濃度は、Tapestationによって検出される。
いくつかの実施形態において、さらなるRNAライブラリ構築のための許容RNA濃度は、少なくとも0.5nmol/l(たとえば、0.5nmol/l、1nmol/l、5nmol/l)である。いくつかの実施形態において、さらなるRNAライブラリ構築のための目標RNA濃度は、少なくとも0.5nmol/l(たとえば、0.5nmol/l、1nmol/l、5nmol/l)である。いくつかの実施形態において、DNAおよびRNA濃度は、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument、www.lifescience.roche.com)によって検出される。いくつかの実施形態において、DNAおよびRNA濃度は、任意の好適な技術またはツールによって検出することができる。
いくつかの実施形態において、RNAが抽出された場合、逆転写が実行され得る。いくつかの実施形態において、逆転写が実行された後に、RNAライブラリが構築され得る。いくつかの実施形態において、たとえばDNAまたはRNAの定量化のための、蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が、DNAまたはRNAライブラリの品質を決定するために使用され得る。いくつかの実施形態において、任意の好適な方法が、DNAまたはRNAライブラリの品質を決定するために使用され得る。いくつかの実施形態において、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が、DNAまたはRNAライブラリの品質を決定するために使用され得る。いくつかの実施形態において、たとえばDNAまたはRNAの定量化のための、蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が、DNAまたはRNA抽出の品質を決定するために使用され得る。いくつかの実施形態において、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument、www.lifescience.roche.com)は、RNAライブラリの品質を決定するために使用され得る。いくつかの実施形態において、1つまたは複数のRNAライブラリがプールされ得る。いくつかの実施形態において、DNAが抽出された場合、抽出されたDNAは、DNAライブラリ構築に使用することができる。いくつかの実施形態において、構築されたDNAライブラリ内のDNAフラグメントは、ハイブリダイズされ、および/または捕捉され得る。いくつかの実施形態において、たとえばDNAまたはRNAの定量化のための、蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が、DNAハイブリダイゼーションおよび捕捉ステップの品質を
決定するために使用され得る。いくつかの実施形態において、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が、DNAハイブリダイゼーションおよび捕捉ステップの品質を決定するために使用され得る。いくつかの実施形態において、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument、www.lifescience.roche.com)は、DNAハイブリダイゼーションおよび捕捉ステップの品質を決定するために使用され得る。いくつかの実施形態において、任意の好適な方法が、DNAハイブリダイゼーションおよび捕捉ステップの品質を決定するために使用され得る。いくつかの実施形態において、1つまたは複数のDNAライブラリがプールされ得る。いくつかの実施形態において、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が、DNAまたはRNAライブラリプーリングの品質を決定するために使用され得る。いくつかの実施形態において、任意の好適な方法が、DNAまたはRNAライブラリプーリングの品質を決定するために使用され得る。
いくつかの実施形態において、プーリングのための許容可能なおよび/または標的最終DNA濃度範囲は、少なくとも0.5~4nmol/l(たとえば、0.5~4nmol/l、0.5~3nmol/l、2~4nmol/l)である。いくつかの実施形態において、プーリングのための許容DNA濃度は、たとえばDNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が使用されるときに少なくとも0.1ng/μl(たとえば、0.1ng/μl、0.8ng/μl、4ng/μl)である。いくつかの実施形態において、プーリングのための目標DNA濃度は、たとえばDNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientific社から入手可能なQubit蛍光光度計、www.thermofisher.com)が使用されるときに少なくとも0.1ng/μl(たとえば、0.1ng/μl、0.8ng/μl、4ng/μl)である。
いくつかの実施形態において、プーリングのための許容DNA濃度は、電気泳動デバイス、たとえば自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が使用されるときに少なくとも0.1ng/μl(たとえば、0.1ng/μl、0.8ng/μl、4ng/μl)である。 いくつかの実施形態において、プーリングのための目標DNA濃度は、電気泳動デバイス、たとえば自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が使用されるときに少なくとも0.1ng/μl(たとえば、0.1ng/μl、0.8ng/μl、4ng/μl)である。いくつかの実施形態において、プーリングのための許容DNA濃度は、電気泳動デバイス、たとえば自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が使用されるときに少なくとも0.5nmol/l(たとえば、0.5nmol/l、0.8nmol/l、3nmol/l)である。いくつかの実施形態において、プーリングのための目標DNA濃度は、電気泳動デバイス、たとえば自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が使用されるときに少なくとも0.5nmol/l(たとえば、0.5nmol/l、0.8nmol/l、3nmol/l)である。いくつかの実施形態において、DNAの許容濃度および/または濃度は、電気泳動デバイス、たとえば自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)が使用されるときに380~440ng(たとえば、380~440ng、400~440ng、420~440ng)の範囲内にある。いくつかの実施形態において、プーリングのための許容DNA濃度は、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Rocheから入手可能なLightCycler Instrument、www.lifescience.roche.com)が使用されるときに少なくとも0.5nmol/l(たとえば、0.5nmol/l、0.8nmol/l、3nmol/l)である。いくつかの実施形態において、プーリングのための目標DNA濃度は、LightCyclerが使用されるときに少なくとも0.5nmol/l(たとえば、0.5nmol/l、0.8nmol/l、3nmol/l)である。
いくつかの実施形態において、核酸の品質管理は、シークエンシングプロセス中などにおいてDNAまたはRNAライブラリ構築後の品質を確保することを含む。いくつかの実施形態において、クラスター密度は、サンプルランの品質管理のためのパラメータであってよい(例6)。クラスター密度は、シークエンシングのデータ品質および収率を最適化する際の重要な因子である。任意の理論に拘束されることを望むものではないが、最適なクラスター密度は、少なくともDNAまたはRNAライブラリがバランスしていることを示している。いくつかの実施形態において、品質スコアおよび信号対雑音比は、サンプルランの品質管理のためのパラメータであってよい。
いくつかの実施形態において、核酸の品質管理は、シークエンシングの品質を確保することを含む。いくつかの実施形態において、シークエンシングの品質管理は、バイオインフォマティクスの品質管理を含む。いくつかの実施形態において、シークエンシングは、DNAシークエンシングであり得る。いくつかの実施形態において、シークエンシングは、RNAシークエンシングであり得る。いくつかの実施形態において、シークエンシングは、所与の生体サンプルのDNAまたはRNAの発現プロファイルを決定するための当技術分野で知られている任意の種類のシークエンシング技術であってよい。例として、シークエンシングは、全エクソームシークエンシングであってよい。シークエンシングは、トランスクリプトームシークエンシングであってよい。シークエンシングは、サンガーシークエンシングであってよい。
いくつかの実施形態において、最大2μl(たとえば、最大0.1、最大0.2、最大0.3、最大0.4、最大0.5、最大0.6、最大0.7、最大0.8、最大0.9、または最大1ng)までの溶液のライブラリの最大1ng(たとえば、最大0, 最大0.1μl、最大0.5μl、最大0.8μl、最大0.9μl、最大1μl、最大1.2μl、最大1.4μl、最大1.5μl、最大1.8μl、または最大2μl)が、品質管理試験に使用される。いくつかの実施形態において、検査されるパラメータは、DNA分子のサイズおよびサイズ分布、ならびに純度を含む。
いくつかの実施形態において、RNAからcDNA断片のライブラリを調製する標準的な方法は、転写およびその後のmRNA転写産物の合成時にどのDNA鎖が元のテンプレートであったかに関連する情報を保存することができない。アンチセンス転写産物は、タンパク質コード相補体とは明らかに異なる調節的な役割を有する可能性が高いので、鎖の情報のこのような喪失は、結果として、トランスクリプトームの不完全な理解をもたらす。鎖特異的RNA-Seqが、この鎖性を保持するために実行され得る。鎖性を保存し、そのためのcDNAフラグメントライブラリを調製する方法は、当該技術分野で知られている(たとえば、Millsら、「Strand-Specific RNA-Seq Provides Greater Resolution of Transcriptome Profiling」、Curr Genomics. 2013年5月、14(3):173~181頁)。いくつかの実施形態において、鎖RNA-seqのためのライブラリ調製は、知られている配向の鎖特異的アダプタを利用する。いくつかの実施形態において、鎖は、その起源を覚えておくように化学的に修飾される。
いくつかの実施形態において、アダプタを使用する方法は、鎖特異的3'末端RNA-seqを含む。いくつかの実施形態において、鎖特異的3'末端RNA-Seqは、アンカーオリゴ(dT)プライマーを含み、これらはmRNAを選択するために最初に使用され、その結果、二本鎖のcDNA分子を産生する。次いで、ペアエンドシークエンシングのためのアダプタがcDNA分子の両端にライゲーションされる。その後、フラグメントはシークエンシングされ、参照ゲノムにアライメントされたペアエンドリードを生成する。転写産物の末端にアデニンのストレッチを含むアライメントされたリードは、DNAアンチセンス鎖に由来する転写産物でなければならず、一方、前部にチミンのストレッチとアライメントする任意のリードは、DNAセンス鎖からの転写産物でなければならない。
いくつかの実施形態において、アダプタを使用する方法は、一本鎖(ss)cDNAおよびイルミナアダプタおよび3'と5'のアダプタをssDNAに連結することを可能にする4つのDNAリガーゼを利用する。第2の鎖は決して合成されず、シークエンシングにも進まないので、鎖情報は保持される。
いくつかの実施形態において、鎖性を保存するために、任意の好適な技術またはツールが使用されてよい。たとえば、フローセル逆転写シークエンシング(FRT-Seq)は、鎖性を保存するために使用され得る。いくつかの実施形態において、FRT-Seqまたは同等の技術は、断片化され精製されたポリアデニル化mRNAのいずれかの末端にアダプタをライゲーションすることを含む。いくつかの実施形態において、各アダプタは、2つの領域、すなわち、シークエンシングプライマーがアニールする領域と、フローセル上に存在するオリゴヌクレオチドに相補的な領域とを含む。相補的な領域は、mRNAフラグメントがフローセルにハイブリダイズすることを可能にする。次いで、mRNAフラグメントはフローセル表面上で逆転写される。
鎖性を保存する他の非限定的なアダプタベースの方法は、直接鎖特異的シークエンシング(DSSS)および方向性のあるアダプタの添加を通じて鎖特異性を保存するSOLiDR Total RNA-Seq Kit(tools.thermofisher.com/content/sfs/manuals/cms_078610.pdf)を含む。
いくつかの実施形態において、その起源を覚えておくための鎖の化学的修飾は、亜硫酸水素塩処理を使用して元のRNAテンプレートをマーキングすることを含む。いくつかの実施形態において、dUTPが逆転写反応に組み込まれ、その結果、元の鎖がデオキシチミジン残基を有し、相補鎖がデオキシウリジン残基を有するds cDNAが得られる。次いで、ウラシル-DNA-グリコシラーゼ(UDG)処理が、相補鎖を分解するために使用され得る。
WESのライブラリ調製
「エクソーム」は、エクソンからなるゲノム内のすべての領域の総和である。エクソンは、タンパク質をスプライシングすることによって取り除かれるイントロンとは反対に、メッセンジャーRNAに転写されるDNA領域である。エクソームシークエンシングは、タンパク質機能に影響を及ぼす遺伝子のコード領域に存在するバリアントを識別するために開発された捕捉ベースの方法である。ゲノムのコード部分は、ゲノム全体の1~2%しか含んでいないので、このアプローチは、全ゲノムシークエンシングと比較して、タンパク質機能を変化させ得るDNA改変を検出するための費用効果の高い戦略を代表する。いくつかの実施形態において、全エクソームシークエンシング(WES)は、DNAのサンプルからシークエンシングのためのDNAフラグメントのライブラリを調製することを含む。いくつかの実施形態において、DNAは、最初に、適切なサイズに断片化され(使用されるシークエンシングプラットフォームに応じて)、次いで、シークエンシングプラットフォーム特異的アダプタが加えられる。いくつかの実施形態において、ライブラリは、プロセスの次のステップ(標的濃縮またはシークエンシング)の前に増幅される。
ライブラリの調製のためのキットが市販されており、その非限定的な例は、KAPA HyperPrep Kits、Agilent HaloPlex、Agilent SureSelect QXT、IDT xGEN Exome、Illumina Nextera Rapid Capture Exome、Roche Nimblegen SeqCap、およびMYcroarray MYbaitsを含む。いくつかの実施形態において、WES用のDNAライブラリを調製することができる任意のキットが使用され得る。たとえば、Agilent Human All Exon V6 Capture Kit(www.agilent.com/cs/library/datasheets/public/SureSelect%20V6%20DataSheet%205991-5572EN.pdf)が、WES用のDNAライブラリを調製するために使用される。いくつかの実施形態において、Clinical Research Exome kit(www.agilent.com/en/promotions/clinical-research-exome-v2)が使用される。必要なDNAの量は、ライブラリを調製するために使用される特定の試薬に依存する。たとえば、Agilent SureSelect XT2 V6 Exomeに対してはゲノムDNA 100ngで十分であるが、IDT xGEN Exome Panelに対してはゲノムDNA 500ngが必要である。様々な捕捉キットの比較は、www.genohub.com/exome-sequencing-library-preparation/において提供されている。
いくつかの実施形態において、ライブラリ調製方法は、機能要素(たとえば、サンプルインデックス、分子バーコードまたはフローセルオリゴ結合部位)を追加し、シークエンシングコンピテントDNAフラグメントを濃縮し、および/または下流処理のために十分な量のライブラリDNAを生成するための1つまたは複数の増幅ステップを含む。例として、ライブラリ調製方法が、例3および例5に示されている。
いくつかの実施形態において、調製されたDNAライブラリは、品質について検査される。いくつかの実施形態において、シークエンシングで使用するためのライブラリの定量化は、一般的に、多重化されたアプリケーションにおいてインデックス付けされたライブラリの等しい表現を確実にするためにライブラリが標的濃縮または増幅のためにプールされる前に実行される。いくつかの実施形態において、定量化は、シークエンシングの前に個々のライブラリまたはライブラリプールが最適に希釈されていることを確認するためにも使用される。アダプタライゲーションライブラリ分子の正確で再現性のある定量化は、一貫した再現性のある結果を取得することに、またシークエンシングの収率を最大化することについて寄与する。ロードするDNAが推奨される量よりも多いと、フローセルが飽和するか、またはクラスター密度が高くなる可能性があり、ロードするDNAが少なすぎると、クラスター密度が低くなり、カバレッジおよび深度が低下する可能性がある。
DNAライブラリを定量化する方法は、電気泳動法、蛍光光度法、分光光度法、デジタルPCR、ドロップレットデジタルPCR、およびqPCRを含む。DNAライブラリの量および/または品質を測定するための様々な機器が存在し、たとえば、Agilent High Sensitivity D1000 ScreenTape Systemが挙げられる。
いくつかの実施形態において、調製されたDNAライブラリは、品質について検査される。 いくつかの実施形態において、最大2μl(たとえば、最大0.1、最大0.2、最大0.3、最大0.4、最大0.5、最大0.6、最大0.7、最大0.8、最大0.9、または最大1ng)までの溶液のライブラリの最大1ng(たとえば、最大0, 最大0.1μl、最大0.5μl、最大0.8μl、最大0.9μl、最大1μl、最大1.2μl、最大1.4μl、最大1.5μl、最大1.8μl、または最大2μl)が、品質管理試験に使用される。いくつかの実施形態において、検査されるパラメータは、DNA分子のサイズおよびサイズ分布、ならびに純度を含む。
RNAシークエンシング
RNAシークエンシングは、トランスクリプトームを測定するためのツールである。トランスクリプトームは、mRNA、rRNA、tRNA、およびその他の非コードRNA(microRNA、lncRNAなど)を含む、RNA分子の異なる集団からなる。いくつかの実施形態において、RNAシークエンシングは、トランスクリプトーム(たとえば、コード領域および/または非コード領域)のプロファイリングを行うために使用される。いくつかの実施形態において、これは、異なる生体サンプル(たとえば、細胞、組織、または体液)中に異なる形で発現する遺伝子を識別するために使用される。いくつかの実施形態において、RNAシークエンシングは、スプライシングイベントの遺伝的影響を決定し、新規転写産物を識別し、構造的変異を検出し(たとえば、遺伝子融合およびアイソフォーム)、および/または単一ヌクレオチドバリアントを検出するために使用される。
いくつかの実施形態において、「RNAシークエンシング」という用語は、トランスクリプトームをインテロゲートする任意の技術、ツール、またはプラットフォームを指す当技術分野で知られている「RNA seq」、「RNA-seq」、またはそれらの変更形態と交換可能に使用することができる。本開示において「RNAシークエンシング」、「RNA seq」、「RNA-seq」、またはそれらの変更形態が参照されるときに、本明細書において説明されているようなプロセスまたはシステムを実証するための非限定的な例を用いてそうでないことが示されていない限り、特定のプラットフォームまたは会社に関連する特定の技術またはツールを参照しないことに留意されたい。いくつかの実施形態において、RNAシークエンシングは、任意の好適なシークエンシングプラットフォームおよび/またはシークエンシング方法を使用することによって実施され得る。ハイスループットシークエンシングプラットフォームの非限定的な例は、mRNA-seq、トータルRNA-seq、標的RNA-seq、単細胞RNA-seq、RNAエクソーム捕捉プラットフォーム、または小RNA-seq(たとえば、Illumina、www.illumina.com)、SMRT(単一分子、リアルタイム)シークエンシング(たとえば、Pacific Biosciences、https://www.pacb.com)、およびRNAシークエンシング(たとえば、ThermoFisher、https://www.thermofisher.com)を含む。
上で説明されているように、RNAシークエンシングは、標的とされるか、または非標的とされ得る。標的アプローチは、トランスクリプトームの1つまたは複数の特定領域をシークエンシングするために配列特異的プローブまたはオリゴヌクレオチドを使用することを含む。いくつかの実施形態において、標的RNAシークエンシングは、mRNA濃縮(たとえば、ポリA濃縮またはrRNA枯渇による)などの方法を含む。
いくつかの実施形態において、RNAシークエンシングは、全トランスクリプトームシークエンシングである。全トランスクリプトームシークエンシングは、サンプル中の転写産物の完全補体を測定することを含む。いくつかの実施形態において、全トランスクリプトームシークエンシングは、各転写産物(たとえば、コードおよび非コードの両方)のグローバル発現レベルを決定し、エクソン、イントロンおよび/またはそれらの接合部を識別するために使用される。
いくつかの実施形態において、RNAは、RNAのサンプルからcDNAを調製することなく、直接シークエンシングされる。いくつかの実施形態において、直接RNAシークエンシングは、単一分子RNAシークエンシング(DRSTM)を含む。
いくつかの実施形態において、RNAシークエンシングは、mRNAシークエンシングである。いくつかの実施形態において、mRNAシークエンシングは、非コード領域を除外することを目標とするコード転写産物のみのシークエンシングである。いくつかの実施形態において、mRNAシークエンシングは、ポリA濃縮から独立している。いくつかの実施形態において、mRNAシークエンシングは、ポリA濃縮に依存している。
いくつかの実施形態において、RNAが生体サンプルから抽出され、mRNAが抽出されたRNAから濃縮され、cDNAライブラリが濃縮されたmRNAから構築される。いくつかの実施形態において、cDNAライブラリからのcDNAの単片が固体マトリクスに付着される。いくつかの実施形態において、cDNAライブラリからのcDNAの単片が、限定的な希釈によって固体マトリクスに付着される。次いで、いくつかの実施形態において、マトリクスに付着したcDNA片は、シークエンシングされる(たとえば、PacbioまたはPacifbio技術を使用して)。いくつかの実施形態において、マトリクスに付着したcDNA片は、増幅され、シークエンシングされる(たとえば、SOLiD、454 Pyrosequencing、Ion Torrent、または架橋反応(Illumina)プラットフォームに基づくコネクタにおける専用エマルジョンPCR(emPCR)を使用して)。
いくつかの実施形態において、cDNA転写産物は、蛍光ヌクレオチド(たとえば、Illumina)、蛍光短リンカー(たとえば、SOLiD)の組み込みを測定すること、正常ヌクレオチド(454)の組み込みに由来する副産物の放出、蛍光放射を測定すること、またはpH変化を測定すること(たとえば、Ion Torrent)のいずれかによって並行してシークエンシングされ得る。いくつかの実施形態において、cDNA転写産物は、任意の知られているシークエンシングプラットフォームを使用してシークエンシングされ得る。Jazayeriら、「RNA-seq:a glance at technologies and methodologies」、Acta biol. Colomb.vol.20 no.2 Bogota May/Aug.2015では、異なるRNA-seqプラットフォームの比較を提供しており、表3および表4を含め、その全体が参照により本明細書に組み込まれる。Mestanら、「Genomic sequencing in clinical trials」、Journal of Translational Medicine 2011年、9:222では、治験におけるシークエンシングについて同様の分析を行っている。
いくつかの実施形態において、RNAシークエンシングは、鎖または鎖特異的である。RNAからのcDNA合成は、結果として鎖性の喪失をもたらす。いくつかの実施形態において、鎖性は、上で説明されているように、逆転写またはアンチセンス転写によって形成されるRNA鎖およびcDNA鎖のいずれかまたは両方を化学的に標識することによって、またはアダプタベースの技術を使用して元のRNA鎖を相補DNA鎖と区別することによって、保存される。
いくつかの実施形態において、非鎖RNAシークエンシングが実行される。いくつかの実施形態において、鎖RNA-seqは、臨床サンプルに対して回避されるべきである。いくつかの実施形態において、非鎖RNA-seqは、生体サンプルから取得されたデータを、確立されたデータセット(たとえば、The Cancer Genome Atlas(TCGA)およびInternational Cancer Genome Consortium(ICGC))のRNAシークエンシングデータと比較するために使用される。
いくつかの実施形態において、RNAシークエンシングによりペアエンドリードが得られる。ペアエンドリードは、同じ核酸フラグメントのリードであり、フラグメントのどちらかの端から始まるリードである。いくつかの実施形態において、RNAシークエンシングは、少なくとも2×25(2×25、2×50、2×75、2×100、2×125、2×150、2×175、2×200、2×225、2×250、2×275、2×300、2×325、または2×350)のペアエンドリードで実行される。いくつかの実施形態において、RNAシークエンシングは、少なくとも2×75ペアエンドリードのペアエンドリードで実行される。2×75ペアエンドリードによるRNAシークエンシングは、平均して、ペアエンドである各リードが75塩基対を読み取ることを意味する。いくつかの実施形態において、RNAシークエンシングは、合計で少なくとも2000万(たとえば、少なくとも2000万、少なくとも3000万、少なくとも4000万、少なくとも5000万、少なくとも6000万、少なくとも7000万、少なくとも8000万、少なくとも9000万、少なくとも1億、少なくとも1億2000万、少なくとも1億4000万、少なくとも1億5000万、少なくとも1億6000万、少なくとも1億8000万、少なくとも2億、少なくとも2億5000万、少なくとも3億、少なくとも3億5000万、または少なくとも4億)のペアエンドリードにより実行される。いくつかの実施形態において、RNAシークエンシングは、合計で少なくとも5000万のペアエンドリードにより実行される。いくつかの実施形態において、RNAシークエンシングは、合計で少なくとも1億のペアエンドリードにより実行される。
いくつかの実施形態において、品質管理が、RNAシークエンシングについて実行される。いくつかの実施形態において、クラスター密度またはクラスターPF%は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、クラスター密度またはクラスターPF%の目標範囲は、少なくとも170~220(たとえば、170~220、190~220、210~220)である。いくつかの実施形態において、クラスター密度またはクラスターPF%の許容範囲は、少なくとも280(たとえば、280、300、450)である。
いくつかの実施形態において、%≧Q30は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、目標%≧Q30は、少なくとも85%(たとえば、85%、90%、95%)である。いくつかの実施形態において、許容%≧Q30は、少なくとも75%(たとえば、75%、85%、95%)である。
いくつかの実施形態において、エラー率%は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、目標エラー率%は、少なくとも0.7%(たとえば、0.6%、0.5%、0.4%)未満である。いくつかの実施形態において、許容エラー率%は、少なくとも1%(たとえば、0.9%、0.8%、0.7%)未満である。
全エクソームシークエンシング(WES)
全エクソームシークエンシング(WES)は、ゲノム内の遺伝子のタンパク質コード領域のすべてをシークエンシングするためのゲノム技術である。いくつかの実施形態において、WESは、タンパク質配列を改変する遺伝的変異を識別するために実行される。いくつかの実施形態において、WESは、全ゲノムシークエンシングのコストよりも低いコストで、タンパク質配列を改変する遺伝的変異を識別するために実行される。
いくつかの実施形態において、全エクソームシークエンシング(WES)は、生体サンプルから抽出されているDNAのサンプル上で実行される。いくつかの実施形態において、DNAフラグメントのライブラリが抽出されたDNAのサンプルから調製される。いくつかの実施形態において、本明細書で説明されている方法のいずれか1つは、DNAフラグメントのライブラリに全エクソームシークエンシング(WES)を実行することを含む。WESのためのDNAのサンプルからのDNAライブラリの調製は、上で説明されているとおりである。
いくつかの実施形態において、DNAのライブラリは、シークエンシング(たとえば、次世代シークエンシング(NGS)を使用する)の前に定量化される。いくつかの実施形態において、DNAライブラリは、シークエンシングの前にプールされる。いくつかの実施形態において、DNAライブラリは、シークエンシングの前に増幅される。いくつかの実施形態において、DNAライブラリは、DNAフラグメントの起源を追跡するためにシークエンシングの前にインデックス付けされる。
いくつかの実施形態において、WESは、シークエンシングの前に注目するゲノム領域の選択的捕捉を可能にする標的濃縮を含む。いくつかの実施形態において、アレイベース捕捉が使用される(たとえば、マイクロアレイを使用する)。いくつかの実施形態において、溶液中捕捉が使用される。
任意のハイスループットDNAシークエンシングプラットフォームおよび/または方法が、本明細書において説明されている方法のいずれか1つで使用され得る。いくつかの実施形態において、DNAシークエンシングは、任意の好適なプラットフォームおよび/または方法を使用することによって実施され得る。ハイスループットシークエンシング方法の非限定的な例は、単一分子リアルタイムシークエンシング、イオン半導体(Ion Torrentシークエンシング)、パイロシークエンシング(すなわち、454)、合成によるシークエンシング(Illumina)、Illumina(Solexa)シークエンシング、コンビナトリアルプローブアンカー合成(cPAS- BGI/MGI)、ライゲーションによるシークエンシング(SOLiDシークエンシング)、ナノポアシークエンシング(たとえば、Oxford Nanopore Technologies社の機器を使用する)、連鎖停止(サンガーシークエンシング)、超並列シグネチャシークエンシング(MPSS)ポロニーシークエンシング、Heliscope単一分子シークエンシング、および単一分子リアルタイム(SMRT)シークエンシング(たとえば、Pacific Biosciences社の機器を使用する)を含む。ハイスループットシークエンシング技術の他の非限定的な例は、トンネル電流DNAシークエンシング、ハイブリダイゼーションによるシークエンシング、質量分析を用いるシークエンシング、マイクロ流体サンガーシークエンシング、およびRNAPシークエンシングを含む。
いくつかの実施形態において、DNAシークエンシングによりペアエンドリードが得られる。ペアエンドリードは、同じ核酸フラグメントのリードであり、フラグメントのどちらかの端から始まるリードである。いくつかの実施形態において、DNAシークエンシングは、少なくとも2×25(2×25、2×50、2×75、2×100、2×125、2×150、2×175、2×200、2×225、2×250、2×275、2×300、2×325、または2×350)のペアエンドリードで実行される。いくつかの実施形態において、DNAシークエンシングは、少なくとも2×75ペアエンドリードのペアエンドリードで実行される。2×75ペアエンドリードによるDNAシークエンシングは、平均して、ペアエンドである各リードが75塩基対を読み取ることを意味する。いくつかの実施形態において、DNAシークエンシングは、合計で少なくとも2000万(たとえば、少なくとも2000万、少なくとも3000万、少なくとも4000万、少なくとも5000万、少なくとも6000万、少なくとも7000万、少なくとも8000万、少なくとも9000万、少なくとも1億、少なくとも1億2000万、少なくとも1億4000万、少なくとも1億5000万、少なくとも1億6000万、少なくとも1億8000万、少なくとも2億、少なくとも2億5000万、少なくとも3億、少なくとも3億5000万、または少なくとも4億)のペアエンドリードにより実行される。いくつかの実施形態において、DNAシークエンシングは、合計で少なくとも5000万のペアエンドリードにより実行される。いくつかの実施形態において、DNAシークエンシングは、合計で少なくとも1億のペアエンドリードにより実行される。いくつかの実施形態において、DNAシークエンシングは、少なくとも20倍(たとえば。少なくとも20倍、少なくとも30倍、少なくとも40倍、少なくとも50倍、少なくとも60倍、少なくとも70倍、少なくとも80倍、少なくとも90倍、少なくとも1000倍、少なくとも120倍、少なくとも125倍、少なくとも150倍、少なくとも175倍、少なくとも200倍、少なくとも250倍、少なくとも300倍、または少なくとも400倍)のカバレッジが得られるように実行される。深度とも呼ばれるカバレッジは、核酸のサンプル中の単一塩基対が平均して読み取られるか、またはシークエンシングされる回数である。いくつかの実施形態において、捕捉およびシークエンシングの標的となるゲノムの部分は、少なくとも10Mb(たとえば、少なくとも10Mb、少なくとも20Mb、少なくとも30Mb、少なくとも40Mb、少なくとも50Mb、少なくとも60Mb、少なくとも70Mb、少なくとも80Mb、少なくとも90Mb、少なくとも100Mb、少なくとも120Mb、少なくとも150Mb、少なくとも200Mb、少なくとも250Mb、少なくとも300Mb、または少なくとも350Mb)である。いくつかの実施形態において、捕捉およびシークエンシングの標的となるゲノムの部分は、少なくとも48Mbである(たとえば、Agilent Human All Exon V6 Captureシステムを使用した後)。いくつかの実施形態において、捕捉およびシークエンシングの標的となるゲノムの部分は、少なくとも54Mbである(たとえば、Clinical Research Exome捕捉システム(Agilent)を使用した後)。
いくつかの実施形態において、品質管理が、全エクソームシークエンシングについて実行される。いくつかの実施形態において、クラスター密度またはクラスターPF%は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、クラスター密度またはクラスターPF%の目標範囲は、少なくとも170~220(たとえば、170~220、190~220、210~220)である。いくつかの実施形態において、クラスター密度またはクラスターPF%の許容範囲は、少なくとも280(たとえば、280、300、450)である。
いくつかの実施形態において、実際の収率は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、目標の実際の収率は少なくとも15Gbp(たとえば、15Gbp、20Gbp、30Gpb)である。
いくつかの実施形態において、%≧Q30は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、目標%≧Q30は、少なくとも85%(たとえば、85%、90%、95%)である。いくつかの実施形態において、許容%≧Q30は、少なくとも75%(たとえば、75%、85%、95%)である。
いくつかの実施形態において、エラー率%は、サンプルランの品質を決定するためのパラメータである。いくつかの実施形態において、目標エラー率%は、少なくとも0.7%(たとえば、0.6%、0.5%、0.4%)未満である。いくつかの実施形態において、許容エラー率%は、少なくとも1%(たとえば、0.9%、0.8%、0.7%)未満である。
試薬およびキット
本明細書において企図されるのは、本明細書において説明されている方法のいずれか1つを実行するための試薬および試薬を備えるキットである。いくつかの実施形態において、本明細書で提供されるようなキットは、被験者から取得された生体サンプルを貯蔵するための試薬(たとえば、緩衝剤、保存剤、阻害剤、または酵素)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、バキュテイナなどの貯蔵容器、または解剖用具)を含む。
いくつかの実施形態において、本明細書で提供されるようなキットは、生体サンプルまたは生体サンプルに由来するサンプル(たとえば、単細胞溶液)からRNAおよび/またはDNAを抽出するための試薬(たとえば、緩衝剤、保存剤、阻害剤もしくは酵素)および/または実験器具(たとえば、ピペット、フィルタ、もしくはチューブ)を備える。いくつかの実施形態において、本明細書で提供されるようなキットは、生体サンプルから抽出されたRNAおよび/またはDNAの質および量を測定するための試薬(たとえば、緩衝剤、保存剤、阻害剤、酵素もしくは色素)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、貯蔵容器、もしくは電気泳動紙)を備える。いくつかの実施形態において、本明細書で提供されるようなキットは、シークエンシング(たとえば、RNA-seqまたはWES)のためのDNAライブラリの質および量を測定するための試薬(たとえば、緩衝剤、保存剤、阻害剤、酵素もしくは染料)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、貯蔵容器、もしくは電気泳動紙)を備える。
いくつかの実施形態において、本明細書で提供されるようなキットは、生体サンプルから単細胞溶液を調製するための試薬(たとえば、緩衝剤、保存剤、阻害剤もしくは酵素)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、バキュテイナなどの貯蔵容器、もしくは解剖用具)を備える。
いくつかの実施形態において、本明細書で提供されるようなキットは、シークエンシングのためのDNAライブラリを調製するための試薬(たとえば、緩衝剤、阻害剤、もしくは逆転写酵素などの酵素)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、貯蔵容器)を備える。
いくつかの実施形態において、本明細書で提供されるようなキットは、生体サンプルを貯蔵すること、生体サンプルからRNAおよび/またはDNAを抽出すること、抽出されたRNAおよび/またはDNAサンプルおよび/またはそこから調製されたDNAライブラリの品質および量を検査すること、生体サンプルから単細胞溶液を調製すること、ならびに抽出されたRNAおよび/またはDNAからDNAライブラリを調製すること、のうちの2つまたはそれ以上の操作の任意の組合せのための試薬(たとえば、緩衝剤、保存剤、阻害剤、または酵素)および/または実験器具(たとえば、ピペット、フィルタ、チューブ、バキュテイナなどの貯蔵容器、または解剖用具)を備える。
いくつかの実施形態において、本明細書で説明されているのキットのいずれか1つは、細胞解離カクテルを作るためのコンポーネントを備える。細胞解離カクテルは、酵素的または非酵素的であってもよい。いくつかの実施形態において、キットは、1つまたは複数の酵素カクテルを備える。いくつかの実施形態において、キットは、構成要素として、培地(たとえば、L-15培地)、抗菌剤(たとえば、ペニシリンおよび/またはストレプトマイシン)、抗真菌剤(たとえば、アムホテリシン)、コラゲナーゼ(たとえば、コラゲナーゼI、コラゲナーゼII、コラゲナーゼIV)、DNAse(たとえば、DNAseI)、エラスターゼ、ヒアルロニダーゼ、プロテアーゼ(たとえば、プロテアーゼXIV、トリプシン、パパイン、テルモリシン)のうちの1つまたは複数を含む。いくつかの実施形態において、本明細書で説明されているキットのいずれか1つは、酵素として、コラゲナーゼIおよびコラゲナーゼIVのうちの1つまたは複数を備える。いくつかの実施形態において、これらの酵素は、別々の容器に収められている。いくつかの実施形態において、これらの酵素は、単一の容器に収められている。
いくつかの実施形態において、キットは、分光光度計などのより小型の機器を備える。いくつかの実施形態において、キットは、生体サンプルを貯蔵すること、生体サンプルからRNAおよび/またはDNAを抽出すること、抽出されたRNAおよび/またはDNAサンプルおよび/またはそこから調製されたDNAライブラリの品質および量を検査すること、生体サンプルから単細胞溶液を調製すること、ならびに抽出されたRNAおよび/またはDNAからDNAライブラリを調製することのうちのいずれか1つ、またはいずれか2つもしくはそれ以上の組合せを実行するための指示書を備える。いくつかの実施形態において、キットは、本明細書において説明されている方法のいずれか1つを実行するための指示書を備える。いくつかの実施形態において、キットは、特定の組織タイプ、たとえば、充実性腫瘍の生検、液体生検、血液サンプル、または尿に合わせて作られるか、または手直しされている。
データ処理
本開示の態様は、RNAシークエンシングから取得されたデータを処理することに関係する。いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、アノテーションされたRNA発現データから非コード転写産物を取り除くことと、アノテーションされたRNA発現データをtranscripts per kilobase million(TPM)形式の遺伝子発現データに変換することと、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから少なくとも1つの遺伝子を取り除いてバイアス補正された遺伝子発現データを取得することとを含む。いくつかの実施形態において、RNA発現データを処理するための方法は、癌を有するか、または癌を有する疑いがある被験者のRNA発現データを取得することを含む。
いくつかの実施形態において、非コード転写産物は、偽遺伝子、多型偽遺伝子、プロセス型偽遺伝子、転写されプロセス型偽遺伝子、ユニタリー偽遺伝子、非プロセス型偽遺伝子、転写されたユニタリー偽遺伝子、定常鎖免疫グロブリン(IG C)偽遺伝子、結合鎖免疫グロブリン(IG J)偽遺伝子、可変鎖免疫グロブリン(IG V)遺伝子、転写された非プロセス型遺伝子、翻訳された非プロセス型遺伝子、結合鎖T細胞受容体(TR J)遺伝子、可変鎖T細胞受容体(TR V)遺伝子、核内低分子RNA(snRNA)、核小体低分子RNA(snoRNA)、マイクロRNA(miRNA)、リボザイム、リボソームRNA(rRNA)、ミトコンドリアtRNA(Mt tRNA)、ミトコンドリアrRNA(Mt rRNA)、カハール小体特異的RNA(scaRNA)、残留イントロン、センスイントロンRNA、センス重複RNA、ナンセンス変異依存分解RNA、ノンストップ分解RNA、アンチセンスRNA、長介在性非コードRNA(lincRNA)、マクロ長非コードRNA(マクロlncRNA)、プロセス型転写産物、3'重複非コードRNA(3'重複ncrna)、小RNA(sRNA)、その他のRNA(miscRNA)、ボールトRNA(vaultRNA)、およびTEC RNAからなるリストから選択された群に属す遺伝子を含む。
いくつかの実施形態において、これらの種類の転写産物のうちの1つまたは複数に対する1つまたは複数の転写産物に対する情報(たとえば、配列情報)は、核酸データベース(たとえば、Gencodeデータベース、たとえばGencode V23、Genbankデータベース、EMBLデータベース、または他のデータベース)において取得され得る。
いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療(本明細書では抗癌療法とも称する)を識別することを含む。いくつかの実施形態において、RNA発現データを処理する方法のいずれか1つが、1つまたは複数の抗癌療法または癌治療を被験者に施すこととさらに組み合わされる。いくつかの実施形態において、RNA発現データを処理する方法のいずれか1つが、1つまたは複数の抗癌療法または癌治療を被験者に施すことを指示するか、または推奨することとさらに組み合わされる。
RNA発現データの取得
いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、被験者(たとえば、癌に有しているか、または癌を有していると診断された被験者)のRNA発現データを取得することを含む。いくつかの実施形態において、RNA発現データを取得することは、生体サンプルを取得し、それを処理して本明細書において説明されているRNAシークエンシング方法のいずれか1つを使用してRNAシークエンシングを実行することを含む。いくつかの実施形態において、RNA発現データは、RNA発現データを得るための実験を実行した検査室またはセンター(たとえば、RNA-seqを実行した検査室またはセンター)から取得される。いくつかの実施形態において、検査室またはセンターは、臨床検査室またはセンターである。
いくつかの実施形態において、RNA発現データは、データが存在するコンピュータ記憶媒体(たとえば、データ記憶ドライブ)を取得することによって取得される。いくつかの実施形態において、RNA発現データは、セキュリティで保護されたサーバー(たとえば、SFTPサーバー、またはIllumina BaseSpace)を介して取得される。いくつかの実施形態において、データは、テキストベースのファイル(たとえば、FASTQファイル)形式で取得される。いくつかの実施形態において、シークエンシングデータが保存されているファイルは、シークエンシングデータの品質スコアも含む。いくつかの実施形態において、シークエンシングデータが保存されているファイルは、配列識別子情報も含む。
アライメントおよびアノテーション
いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することを含む。
いくつかの実施形態において、RNA発現データのアライメントは、データを、被験者の特定の種に対する知られているアセンブルされたゲノム(たとえば、ヒトのゲノム)、またはトランスクリプトームデータベースにアライメントすることを含む。様々な配列アライメントソフトウェアが利用可能であり、データをアセンブルされたゲノムまたはトランスクリプトームデータベースにアライメントするために使用することができる。アライメントソフトウェアの非限定的な例は、短い(スプライスされていない)アライナー(たとえば、BLAT、BFAST、Bowtie、Burrows-Wheeler Aligner、Short Oligonucleotide Analysis package、またはMosaik)、スプライスされたアライナー、知られているスプライスジャンクションに基づくアライナー(たとえば、Errange、IsoformEx、またはSplice Seq)、またはデノボスプライスアライナー(たとえば、ABMapper、BBMap、CRAC、またはHiSAT)を含む。いくつかの実施形態において、任意の好適なツールが、データのアライメントおよびアノテーションに使用することができる。たとえば、Kallisto(github.com/pachterlab/kallisto)がデータのアライメントおよびアノテーションに使用される。いくつかの実施形態において、知られているゲノムは、参照ゲノムと称される。参照ゲノム(参照アセンブリとも呼ばれる)は、遺伝子の種セットの代表例としてアセンブルされた、デジタル核酸配列データベースである。いくつかの実施形態において、本明細書で説明されている方法のいずれか1つで使用されるヒトおよびマウスの参照ゲノムは、Genome Reference Consortium(GRC)によって維持され改良されている。ヒト参照リリースの非限定的な例は、GRCh38、GRCh37、NCBI Build 36.1、NCBI Build 35、およびNCBI Build 34である。トランスクリプトームデータベースの非限定的な例は、トランスクリプトームショットガンアセンブリ(TSA)を含む。
いくつかの実施形態において、RNA発現データをアノテーションすることは、アセンブルされたゲノムまたはトランスクリプトームデータベースと比較することによって、処理されるべきデータにおける遺伝子および/またはコード領域の配置を識別することを含む。アノテーションのためのデータソースの非限定的な例は、GENCODE(www.gencodegenes.org)、RefSeq(たとえば、www.ncbi.nlm.nih.gov/refseq/ 参照)、およびEnsemblを含む。いくつかの実施形態において、RNA発現データにおいて遺伝子をアノテーションすることは、GENCODEデータベース(たとえば、GENCODE V23アノテーション、www.gencodegenes.org)に基づく。
Conseaら、「A survey of best practices for RNA-seq data analysis」、Genome Biology201617:13では、本明細書において説明されている方法のいずれか1つに適用可能である、RNA-seqデータを分析するためのベストプラクティスを提供しており、その全体が参照により本明細書に組み込まれる。また、PereiraおよびRueda、bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day2/rnaSeq_align.pdfでは、RNAシークエンシングデータを分析するための方法を説明しており、これは、本明細書において説明されている方法のいずれか1つに適用可能であり、その全体が参照により本明細書に組み込まれている。
非コード転写産物の除去
いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、アノテーションされたRNA発現データから非コード転写産物を取り除くことを含む。RNA発現データをアライメントし、アノテーションすることは、コードリードおよび非コードリードの識別を可能にする。いくつかの実施形態において、転写産物に対する非コードリードは、タンパク質(たとえば、癌の病理に関与している可能性があるもの)の発現に分析努力を集中させるために取り除かれる。いくつかの実施形態において、データから非コード転写産物に対するリードを取り除くことで、たとえば、同じまたは類似するサンプル(たとえば、同じ細胞または細胞型からの核酸)の複製におけるデータの分散を低減する。いくつかの実施形態において、取り除かれる発現データの非限定的な例は、偽遺伝子、多型偽遺伝子、プロセス型偽遺伝子、転写されたプロセス型偽遺伝子、ユニタリー偽遺伝子、非プロセス型偽遺伝子、転写されたユニタリー偽遺伝子、定常鎖免疫グロブリン(IG C)偽遺伝子、結合鎖免疫グロブリン(IG J)偽遺伝子、可変鎖免疫グロブリン(IG V)遺伝子、転写された非プロセス型遺伝子、翻訳された非プロセス型遺伝子、結合鎖T細胞受容体(TR J)遺伝子、可変鎖T細胞受容体(TR V)遺伝子、核内低分子RNA(snRNA)、核小体低分子RNA(snoRNA)、マイクロRNA(miRNA)、リボザイム、リボソームRNA(rRNA)、ミトコンドリアtRNA(Mt tRNA)、ミトコンドリアrRNA(Mt rRNA)、カハール小体特異的RNA(scaRNA)、残留イントロン、センスイントロンRNA、センス重複RNA、ナンセンス変異依存分解RNA、ノンストップ分解RNA、アンチセンスRNA、長介在性非コードRNA(lincRNA)、マクロ長非コードRNA(マクロlncRNA)、プロセス型転写産物、3'重複非コードRNA(3'重複ncrna)、小RNA(sRNA)、その他のRNA(miscRNA)、ボールトRNA(vaultRNA)、およびTEC RNAからなるリストから選択された群に属す1つまたは複数の非コード転写産物(たとえば、10~50、50~100、100~1,000、1,000~2,500、2,500~5,000またはそれ以上の非コード転写産物)を含む。
いくつかの実施形態において、これらの種類の転写産物のうちの1つまたは複数に対する1つまたは複数の転写産物に対する情報(たとえば、配列情報)は、核酸データベース(たとえば、Gencodeデータベース、たとえばGencode V23、Genbankデータベース、EMBLデータベース、または他のデータベース)において取得され得る。いくつかの実施形態において、本明細書に記載の非コード転写産物、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、および/またはT細胞受容体コード遺伝子の一部(たとえば、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、98%、99%、または99.5%以上)が、アライメントされアノテーションされたRNA発現データから取り除かれる。
TPMへの変換および遺伝子集約
いくつかの実施形態において、RNA発現データを処理するための方法(たとえば、RNAシークエンシングから取得されたデータ(本明細書ではRNA-seqデータとも呼ばれる))は、読み込まれた転写産物の長さに関して(たとえば、transcripts per kilobase million(TPM)形式に)RNA発現データを正規化することを含む。いくつかの実施形態において、転写産物の長さに関して正規化されているRNA発現データは、最初にアライメントされ、アノテーションされる。TPMへのデータの変換は、発現をカウントではなく濃度の形で表すことを可能にし、延いては、リードカウント合計および/またはリードの長さが異なるサンプルの比較を可能にする。
いくつかの実施形態において、転写産物のリードの長さに関して正規化されたRNA発現データが分析され、遺伝子発現データ(遺伝子に関する発現データ)を取得する。これは、遺伝子集約とも呼ばれる。遺伝子集約は、ある遺伝子の全てのアイソフォームの転写産物に対するリードにおける発現データを組み合わせて、その遺伝子に対する発現データを取得することを含む。いくつかの実施形態において、遺伝子発現データを取得するための遺伝子集約は、TPM正規化の後であるが、バイアスを持ち込む遺伝子を識別する前に実行される。いくつかの実施形態において、遺伝子集約は、データをTPMに変換する前に実行される。
Wagnerら、Theory Biosci. (2012年) 131:281~285頁では、TPMがどのように計算され得るかの説明を提供しており、その全体が参照により本明細書に組み込まれる。いくつかの実施形態において、TPMを計算するために、式
が使用される。
バイアスの除去
TPM形式で発現を取得するためのRNA発現データの変換は、所与の転写産物のリード数を転写産物のリードの長さで除算することを必要とするので、様々な理由から(以下で説明されるように)データにバイアスが持ち込まれ得る。したがって、本明細書において説明されている方法のいずれか1つのいくつかの実施形態は、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することを含む。本明細書において説明されている方法のいずれか1つのいくつかの実施形態は、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから少なくとも1つの遺伝子に対する発現データを取り除いてバイアス補正された遺伝子発現データを取得することとを含む。
いくつかの実施形態において、データセットからデータを取り除くことは、データセットからデータを削除すること、データに、データセットの一部または全部のその後の処理で使用されないようにマーキングすること、および/またはデータセットの一部または全部の後続の処理でデータが使用されないように任意の他の好適な処理を行うことを伴い得る。たとえば、遺伝子発現データから特定の発現データ(たとえば、バイアスを持ち込む少なくとも1つの遺伝子に対する発現データ)を取り除くことは、遺伝子発現データから特定の発現データを削除すること、特定の発現データにマーキングすること、および/または、特定の発現データが遺伝子発現データの一部または全部のその後の処理で使用されないように任意の他の好適な処理を行うことを伴い得る。別の例として、RNA発現データから非コード転写産物を除去すること(上で説明されているように)は、非コード転写産物を削除すること、非コード転写産物にマーキングすること、および/または非コード転写産物がRNA発現データの一部または全部のその後の処理で使用されないように任意の他の好適なその後の処理を行うことを伴い得る。さらに別の例として、本明細書において説明されている品質管理技術の実行中に1つまたは複数の品質管理チェックに合格しないと決定された、配列データを取り除くことは、配列データを削除すること、配列データにマーキングすること、および/または品質管理チェックに合格しなかった配列データが一部または全部のその後の処理で使用されないように任意の他の好適な処理を行うことを伴い得る。
いくつかの実施形態において、TPM形式に変換された発現データ内のバイアスは、発現データセット全体で読み取られたような転写産物の平均長よりも高いまたは低い少なくとも閾値量である平均長の転写産物に起因している。たとえば、1つまたは複数のアイソフォームの1つまたは複数の転写産物が、発現データセット全体における転写産物長の平均値または中央値からより低い閾値(たとえば、少なくとも1標準偏差、2標準偏差、3標準偏差、4標準偏差、5標準偏差、6標準偏差、7標準偏差、8標準偏差、9標準偏差、10標準偏差、11標準偏差、12標準偏差、13標準偏差、13標準偏差、または15標準偏差もしくはそれ以上)である長さを有する遺伝子では、TPM形式の遺伝子の発現は人為的に高くなるように見える。逆に、1つまたは複数のアイソフォームの1つまたは複数のリードが、発現データセット全体におけるリード長の平均値または中央値より高い閾値(たとえば、少なくとも1標準偏差、2標準偏差、3標準偏差、4標準偏差、5標準偏差、6標準偏差、7標準偏差、8標準偏差、9標準偏差、10標準偏差、11標準偏差、12標準偏差、13標準偏差、13標準偏差、または15標準偏差もしくはそれ以上)である長さを有する遺伝子の場合、TPM形式の遺伝子の発現は人為的に低くなるように見える。いくつかの実施形態において、閾値は標準偏差(たとえば、少なくとも1標準偏差、2標準偏差、3標準偏差、4標準偏差、5標準偏差、6標準偏差、7標準偏差、8標準偏差、9標準偏差、10標準偏差、11標準偏差、12標準偏差、13標準偏差、13標準偏差、または15標準偏差もしくはそれ以上)に関して設定される。いくつかの実施形態において、閾値は、転写産物の長さおよび/またはリードの長さに基づいて設定され、たとえば、5bp未満、10bp未満、15bp未満、20bp未満、25bp未満、50bp未満、75bp未満、100bp未満、もしくは150bp未満またはそれより大きいである。
いくつかの実施形態において、バイアスは、転写産物上のポリAテールの長さに起因する。いくつかの実施形態において、サンプル中のRNA転写産物に対するポリAテールの平均長よりも平均して小さいかまたは高いポリAテールを有するRNA転写産物は、サンプル中のすべてのRNA転写産物の平均濃縮度よりも高いかまたは低い濃縮度を有する。したがって、遺伝子は、RNA発現データが取得されたサンプルからの遺伝子のポリAテールの平均長と比較して少なくとも閾値量だけ小さい長さを有するポリAテールに関連付けられ得る。いくつかの実施形態において、そのような遺伝子に対するそのような発現データも遺伝子発現データから取り除かれ、それによりバイアス補正された遺伝子発現データを取得する。バイアスを低減するためにデータセットから1つまたは複数の遺伝子に関連付けられている発現データを取り除くことは、データのフィルタリングの一種であると考えてよい。いくつかの実施形態において、「濾過」は、人為的に高いかまたは低いように見える(たとえば、転写産物の長さ、または転写産物に関連付けられているポリAテールの長さのせいで)遺伝子に対する発現データを取り除くこと、およびデータから非コードRNAの発現データを取り除くことのいずれか1つまたは複数を指すものとしてよい。
いくつかの実施形態において、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することは、分析されているデータセット内の転写産物の長さを分析することを含む。いくつかの実施形態において、遺伝子発現データから、バイアスを持ち込む少なくとも1つの遺伝子の発現データを取り除くことで、ばらつきが減少し、その後の遺伝子発現ベースの分析の全体的な精度が改善する。
いくつかの実施形態において、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することは、問題になっている発現データセットの外側のデータを分析することから得られた知識の使用、たとえば、参照データセットを使用することを含む。本発明者らは、RNA発現データセットにおけるポリAテールの平均範囲外にあるポリAテール長を有する遺伝子の(発現データ)を取り除くことで、遺伝子発現データ内のバイアスおよび/または外れ値を効果的に取り除くことを認識した。たとえば、特定の遺伝子ファミリーがバイアスを持ち込むという知識は、RNA発現データを処理することに対して先験的に(以前に実行された実験またはデータの以前に実行された処理から)持つことができ、遺伝子のそのファミリーに対するデータをフィルタ処理するために使用され得る。
いくつかの実施形態において、発現データセットにバイアスを持ち込む遺伝子は、RNA発現データが取得されたサンプル(または別の参照サンプル)からの遺伝子のポリAテールの平均長と比較して平均すると小さいかまたは高いポリAテールを有する遺伝子のファミリーに属し得る。いくつかの実施形態において、「小さいかまたは高い」は、1つまたは複数の遺伝子の知られている平均閾値に関して小さいかまたは高い数値を指すものとしてよい。
いくつかの実施形態において、発現データセットにバイアスを持ち込む遺伝子は、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、B細胞受容体コード遺伝子、およびT細胞受容体コード遺伝子からなる群から選択された遺伝子ファミリーに属する。いくつかの実施形態において、発現データセットにバイアスを持ち込む遺伝子は、RNA発現データが取得されたサンプル(または別の参照サンプル)からの遺伝子のポリAテールの平均長と比較して平均すると小さいかまたは高いポリAテールを有する任意の他の遺伝子であってもよい。
いくつかの実施形態において、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、B細胞受容体コード遺伝子、および/またはT細胞受容体コード遺伝子は、RNA発現データが取得されたサンプルからの遺伝子のポリAテールの平均長と比較して平均すると小さいかまたは高いポリAテールを含むヒトサンプル中の遺伝子である。たとえば、ヒストンコード遺伝子は、RNA発現データが取得されたサンプルからの遺伝子のポリAテールの平均長に対して平均すると小さいポリAテールを含む。いくつかの実施形態において、ヒストンコード遺伝子は、ポリAテールを含んでいない。いくつかの実施形態において、ポリAテールは、ヒストンコード遺伝子において最小限度検出されるか、または検出されない。
いくつかの実施形態において、1つもしくは複数の遺伝子またはタンパク質の略語もしくは頭字語が本出願において使用され、それらの認識されている学名を使用して遺伝子(またはタンパク質をコードする遺伝子)を参照する。遺伝子および/またはコードされたタンパク質に関する追加情報は、1つまたは複数の遺伝子配列データベース、たとえばNIH遺伝子配列データベース(GenBank、www.ncbi.nlm.nih.gov)、EMBLデータベース(the European Molecular Biology Laboratoryヌクレオチド配列データベース、www.ebi.ac.uk/embl/index.html)、EMBL European Bioinformatics Instituteデータベース(EMBL-EBI European Nucleotide Archive、www.ebi.ac.uk/ena)、GENCODEデータベース(www.gencodegenes.org)、または他の好適なデータベースに記載されており、その内容は本明細書において参照されている異なる種類の遺伝子および遺伝子の名前について本明細書で参照することにより組み込まれる。いくつかの実施形態において、遺伝子またはタンパク質の略語または頭字語は、ヒト遺伝子(またはタンパク質をコードするヒト遺伝子)を参照している。
いくつかの実施形態において、ヒストンコード遺伝子は、HIST1H1A、HIST1H1B、HIST1H1C、HIST1H1D、HIST1H1E、HIST1H1T、HIST1H2AA、HIST1H2AB、HIST1H2AC、HIST1H2AD、HIST1H2AE、HIST1H2AG、HIST1H2AH、HIST1H2AI、HIST1H2AJ、HIST1H2AK、HIST1H2AL、HIST1H2AM、HIST1H2BA、HIST1H2BB、HIST1H2BC、HIST1H2BD、HIST1H2BE、HIST1H2BF、HIST1H2BG、HIST1H2BH、HIST1H2BI、HIST1H2BJ、HIST1H2BK、HIST1H2BL、HIST1H2BM、HIST1H2BN、HIST1H2BO、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3F、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST1H4A、HIST1H4B、HIST1H4C、HIST1H4D、HIST1H4E、HIST1H4F、HIST1H4G、HIST1H4H、HIST1H4I、HIST1H4J、HIST1H4K、HIST1H4L、HIST2H2AA3、HIST2H2AA4、HIST2H2AB、HIST2H2AC、HIST2H2BE、HIST2H2BF、HIST2H3A、HIST2H3C、HIST2H3D、HIST2H3PS2、HIST2H4A、HIST2H4B、HIST3H2A、HIST3H2BB、HIST3H3、またはHIST4H4である。いくつかの実施形態において、ミトコンドリア遺伝子は、MT-ATP6、MT-ATP8、MT-CO1、MT-CO2、MT-CO3、MT-CYB、MT-ND1、MT-ND2、MT-ND3、MT-ND4、MT-ND4L、MT-ND5、MT-ND6、MT-RNR1、MT-RNR2、MT-TA、MT-TC、MT-TD、MT-TE、MT-TF、MT-TG、MT-TH、MT-TI、MT-TK、MT-TL1、MT-TL2、MT-TM、MT-TN、MT-TP、MT-TQ、MT-TR、MT-TS1、MT-TS2、MT-TT、MT-TV、MT-TW、MT-TY、MTRNR2L1、MTRNR2L10、M
TRNR2L11、MTRNR2L12、MTRNR2L13、MTRNR2L3、MTRNR2L4、MTRNR2L5、MTRNR2L6、MTRNR2L7、またはMTRNR2L8である。
いくつかの実施形態において、遺伝子発現データ内にバイアスを持ち込む少なくとも1つの遺伝子に対する発現データを取り除くことは、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、B細胞受容体コード遺伝子、およびT細胞受容体コード遺伝子を含む1つまたは複数(2個、3個、4個、5個、またはすべて)の遺伝子ファミリーの各々の中の1つまたは複数(たとえば、少なくとも2個、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも150個、少なくとも200個、少なくとも250個、少なくとも300個、少なくとも350個、少なくとも400個、少なくとも450個、少なくとも500個、2個から1000個の間の個数、または遺伝子のこれらの範囲内の任意の好適な個数)の遺伝子に対する発現データを取り除くことを含む。いくつかの実施形態において、遺伝子発現データ内にバイアスを持ち込む少なくとも1つの遺伝子に対する発現データを取り除くことは、RNA発現データが取得されたサンプル(または参照サンプル)からの遺伝子のポリAテールの平均長と比較して平均すると小さいかまたは高いポリAテールを有する1つまたは複数の遺伝子のいずれかに対する発現データを取り除くことを含む。
いくつかの実施形態において、バイアスを持ち込む少なくとも1つの遺伝子に対する発現データが遺伝子発現データから取り除かれた後、残りの遺伝子発現データは、正規化された発現値が取り除かれたバイアス遺伝子の発現データによってバイアスされないように、再び正規化(「再正規化」)され得る(たとえば、TPMまたはReads Per Kilobase Million(RPKM)またはFragments Per Kilobase Million(FPKM)などの任意の他の好適な単位に合わせて)。いくつかの実施形態において、残りの遺伝子の発現データは、少なくとも1000個の遺伝子、少なくとも5000個の遺伝子、少なくとも10000個の遺伝子、500個から5000個の間の遺伝子、1000個から10000個の間の遺伝子、5000個から15000個の間の遺伝子、またはこれらの範囲内の任意の好適な個数の遺伝子に対する発現データを有し得る。
シークエンシング後の核酸データ品質管理
本開示おいて提示されているように、品質管理は、サンプル調製プロセスにおいて定期的に実行される。たとえば、抽出された核酸の純度、またはDNAライブラリのサイズ分布が検出される。品質管理問題の1つまたは複数が発生し、検査室で是正できない場合、その後のステップに進む前に、生体サンプルの提供者(たとえば、医療サービス提供者)が通知を受ける。品質に関する問題が解決された後、サンプル調製のプロセスが完了し、バイオインフォマティクス解析(たとえば、シークエンシング後処理)が実行される。
本明細書において説明されている方法およびシステムの態様は、その後の発現分析(たとえば、患者もしくは被験者の診断、予後、および/または治療を決定するため)ならびにその結果としての推奨の精度および信頼性を改善するために遺伝子発現データ上で実行されるべき品質管理を提供する。
いくつかの実施形態において、配列データのバイオインフォマティクス品質管理は、スタンドアロンプロセスとして(たとえば、医療サービス提供者から受け取った核酸データに基づき)、または事前のサンプル調製プロセスと関連して(たとえば、核酸配列データとは反対に医療サービス提供者によって患者サンプルが提供される場合に)実施され得る。図7に例示されているように、活動301から活動310は、本開示において説明されているような非限定的なサンプル調製プロセスを例示しており、一方、活動311から活動315は、本開示において説明されているような非限定的な品質管理プロセスを例示している。いくつかの実施形態において、活動301から活動310のうちの1つまたは複数は、独立して(たとえば、活動311から活動315のうちの1つまたは複数を伴わずに)実行され得る。いくつかの場合において、活動301から活動310のうちの1つまたは複数がスキップされるか、または遅延されてよい。活動311から活動315は、独立して(たとえば、活動301から活動310を伴わずに)実行されてもよい。いくつかの場合において、活動311から活動315のうちの1つまたは複数がスキップされるか、または遅延されてよい。いくつかの場合において、1つまたは複数のサンプル調製(活動301から活動310)および品質管理(活動311から活動315)のプロセスが両方とも実行され得る。いくつかの場合において、サンプル調製プロセスの1つまたは複数および品質管理プロセスの1つまたは複数が実行されてよい。
いくつかの実施形態において、プロセスパイプライン300は、活動301で癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から第1の腫瘍サンプルを取得することと、活動302で第1の腫瘍の第1のサンプルからRNAを抽出することと、活動303でコードRNAに対して抽出RNAを濃縮して濃縮RNAを取得することと、活動304で非鎖RNAシークエンシングのために濃縮RNAからcDNAフラグメントの第1のライブラリを調製することと、活動305で癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対するRNA発現データを取得することと、活動306でRNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、活動307でアノテーションされたRNA発現データから非コード転写産物を取り除くことと、活動308でアノテーションされたRNA発現データをTranscripts Per Kilobase Million(TPM)形式の遺伝子発現データに変換することと、活動309で遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、活動310で遺伝子発現データから少なくとも1つの遺伝子を取り除いてバイアス補正された遺伝子発現データを取得することと、活動311で配列情報および主張された情報を取得することと、活動312で配列情報から1つまたは複数の特徴を決定することと、活動313で1つまたは複数の特徴が主張された情報と一致するかどうかを決定することと、活動314で特徴の少なくとも1つの追加の決定を行うことと、活動315でバイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することと、によって実行される。
いくつかの実施形態において、活動305は、シークエンシングプラットフォームを使用することによって、または医療サービス提供者もしくは検査室から受け取ることによって、RNA発現データを取得することを含み得る。いくつかの実施形態において、活動306は、RNA発現データを遺伝子発現データに変換することを含み得る。本明細書において説明されているように、「ヒトゲノムの知られている配列」は、参照を指すものとしてよい。いくつかの実施形態において、活動307は、RNA発現データを遺伝子発現データに変換することを含み得る。いくつかの実施形態において、活動307は、フィルタ処理されたRNA発現データを取得することを含み得る。いくつかの実施形態において、活動308は、フィルタ処理されたRNA発現データを正規化して、Transcripts Per Kilobase Million(TPM)を単位とする遺伝子発現データを取得することを含み得る。いくつかの実施形態において、活動311の主張された情報は、主張されたソースおよび/または配列データの主張された完全性を示し得る。いくつかの実施形態において、活動312は、1つまたは複数の疾病特徴を決定することを含み得る。いくつかの実施形態において、活動312は、配列情報またはデータを処理して、配列情報またはデータの決定されたソースおよび/または決定された完全性を示す決定された情報を取得することを含み得る。いくつかの実施形態において、活動313は、決定された情報が主張された情報と一致するかどうかを決定することを含み得る。いくつかの実施形態において、プロセス314における特徴の少なくとも1つの追加の決定は、疾病特徴、または疾病に直接的には関係しない特徴を決定することを含み得る。
本明細書において説明されている方法およびシステムの態様は、核酸配列データの妥当性を確認することを、配列データおよび配列データの1つまたは複数の特徴(たとえば、ソース、核酸の種類、予想される完全性など)に関係する主張された情報の両方を取得することと、配列データから1つまたは複数の特徴を決定することと、配列データから決定された1つまたは複数の特徴が、それらの特徴に関する主張された情報と一致することを検証することとによって、行うためのアプローチを提供する。いくつかの実施形態において、主張された情報は、患者、組織の種類、腫瘍の種類、核酸の種類(RNA、DNA、WES、ポリAなど)、使用されたシークエンシングプロトコルなど、またはそれらの組合せに関する情報であり得る。いくつかの実施形態において、主張された情報は、たとえば、GC含有量、汚染、カバレッジ(たとえば、ゲノム、エクソーム、エクソン、タンパク質コーディング、または他のカバレッジ)、または完全性の他の尺度の予想されるおよび/または許容可能なレベルを含む、配列情報の予想される、および/または許容可能な(たとえば、配列データのその後の分析のために許容可能な)完全性閾値であってよい。
核酸シークエンシング、特に次世代シークエンシング(NGS)は、所与の核酸(DNA、RNA、ゲノム、エクソーム、トランスクリプトームなど)に対する大量の情報の生成を可能にする。しかしながら、利用可能な異なるシークエンシングプラットフォームが多数あり、使用されるサンプル調製およびシークエンシングプロトコルおよび技術が多種多様であり、プラットフォームとプロトコルとの間にばらつきおよび不整合があるので、結果として得られる核酸シークエンシング情報の内容およびカバレッジには実質的なばらつきがある。さらに、いくつかのシークエンシングランからの配列情報、または複数のシークエンシングラン(たとえば、1人または複数の患者に対する異なる医療訪問からの履歴データを含む)からのもしくは異なる研究(たとえば、予後もしくは診断評価を作成するための研究、または疾病の進行に対する薬剤または治療の効果を評価するための研究など)からの配列情報の大きなセットを評価するときに、異なるソースからの配列情報を組み合わせることは困難な場合がある。それに加えて、異なるソースから大量の情報が組み合わされているときに誤って認識された配列データを検出することも困難であり得る。
現在、たとえば診断、予後、および/または臨床応用のために、さらなる使用(たとえば、最初のシークエンシングステップを超える分析に使用されるている)の対象となり得る配列情報のソースおよび/または完全性(たとえば、本明細書において品質とも称され得る)の妥当性を確認する(たとえば、信頼性を高める、不確実性を低減する、低品質の配列情報を補正するか、もしくは省く、疑わしい配列情報または外れ値を検証するかもしくは再検査するための信号を提供する、など)ためのロバストな方法は存在しない。
本開示では、科学界の様々な分野で次世代シークエンシング技術およびプラットフォームの普及を認識している。本開示では、採用されている異なる技術およびプラットフォームに関連する様々なプロトコルや方法論も認識している。プラットフォーム、および様々なプラットフォームを使用するためのプロトコルにばらつきがあると、その使用から実現されるデータおよび配列情報にもばらつきが生じ、これは、配列情報を実質的な分析に使用する際の著しいハードルとなり、特に、そのような配列情報が、サンプルの最初の使用者によって(たとえば、調達し最初のシークエンシングを実行した使用者を超える二次使用者、シークエンシングに対する第三者などによって)実行された最初のデータを超える分析に使用する場合にそうである。
したがって、本開示は、配列情報の品質を評価し(たとえば、配列情報の正しい識別、サンプルの識別、被験者の識別などのために)、さらには配列情報の完全性を評価する(たとえば、様々な完全性問題、たとえば、汚染もしくは劣化のスクリーニングを行うためのチェックポイントを作成する)ための様々な方法およびプロセスを提示する。たとえば、いくつかの実施形態において、本明細書において説明されているのは、被験者のサンプルの核酸から配列情報を取得し、主張された情報を取得し、配列情報の特徴(たとえば、ソース、同一性、ステータス、特性)を決定し、主張された情報を決定された情報と比較することによって、配列情報を評価するための方法である。配列情報は、任意のソースから、または当技術分野で知られている任意の手段を通じて取得(たとえば、獲得)され得る。したがって、配列情報は、任意の好適なシークエンシング技術を使用して生成され得る。代替的に、配列情報は、その配列情報を生成した第三者から電子的に取得されてもよい。いくつかの実施形態において、配列情報(たとえば、参照配列情報)は、配列の既存のデータバンクから取得される。いくつかの実施形態において、配列情報は、企業、非営利団体、学術機関、または医療機関から取得される。
いくつかの実施形態において、サンプルは、被験者から取得された(たとえば、調達された、採取された、受け取られた)任意の検体、生検、または生物学的構成要素であってよい。たとえば、いくつかの実施形態において、サンプルは、血液サンプル、毛髪サンプル、組織サンプル、体液サンプル、細胞サンプル、血液成分サンプル、またはシークエンシングのために核酸が取得され得る任意の他の細胞もしくは組織サンプルであってよい。
いくつかの実施形態において、被験者は、本開示の方法またはシステムを使用する治療もしくは診断を必要とする任意の生命体であってよい。たとえば、限定しないが、被験者は、哺乳類および非哺乳類を含み得る。本明細書において使用されているように、「哺乳類」は、哺乳綱を構成する任意の動物(たとえば、ヒト、マウス、ラット、ネコ、イヌ、ヒツジ、ウサギ、ウマ、ウシ、ヤギ、ブタ、モルモット、ハムスター、ニワトリ、七面鳥、または非ヒト霊長類(たとえば、マーモセット、マカク))を指す。いくつかの実施形態において、哺乳類は、ヒトである。いくつかの実施形態において、被験者は、哺乳類である。いくつかの実施形態において、被験者は、ヒトである。
いくつかの実施形態において、サンプルは、被験者から、たとえば、患者から取得された生体サンプルであってよい。いくつかの実施形態において、サンプルは、血液、血清、痰、尿、または組織生検(たとえば、限定はしないが、心臓、肝臓、膵臓、CNS、胃腸管、口、大腸、腎臓、および皮膚を含む任意の組織からのもの)であってよい。いくつかの実施形態において、サンプルは、疾病サンプル(たとえば、癌サンプル)であることが疑われることがある。いくつかの実施形態において、サンプルは、健常サンプル(たとえば、参照として使用される)であってよい。
いくつかの実施形態において、配列情報は、次世代シークエンシングプラットフォーム(たとえば、Illumina(商標)、Roche(商標)、Ion Torrent(商標)など)、または任意のハイスループットもしくは超並列シークエンシングプラットフォームから得られる。いくつかの実施形態において、これらの方法は自動化されてもよく、いくつかの実施形態において、手動介入があってもよい。いくつかの実施形態において、配列情報は、非次世代シークエンシング(たとえば、サンガーシークエンシング)の結果であってもよい。いくつかの実施形態において、サンプル調製は、製造者のプロトコルに従うものとしてよい。いくつかの実施形態において、サンプル調製は、カスタムメイドのプロトコル、または研究、診断、予後、および/または臨床を目的とする他のプロトコルであってもよい。いくつかの実施形態において、プロトコルは実験的であってよい。いくつかの実施形態において、配列情報の起源または調製方法が不明である場合もある。
いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも5キロベース(kb)を含む。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも10kbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも100kbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも500kbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも1メガベース(Mb)である。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも10Mbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも100Mbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも500Mbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも1ギガベース(Gb)である。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも10Gbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも100Gbである。いくつかの実施形態において、取得されたRNAおよび/またはDNA配列データのサイズは、少なくとも500Gbである。
いくつかの実施形態において、配列情報は、被験者からのサンプルの核酸を使用して生成され得る。いくつかの実施形態において、配列情報は、疾病を有する、疾病を有する疑いがある、または疾病を有するリスクがある被験者の以前に取得された生体サンプルからのDNAおよび/またはRNAのヌクレオチド配列を示す配列データであってよい。いくつかの実施形態において、核酸は、デオキシリボ核酸(DNA)である。いくつかの実施形態において、核酸は、全ゲノムが核酸中に存在しているように調製される。いくつかの実施形態において、核酸は、ゲノムのタンパク質コード領域のみが残るように処理される(たとえば、エクソーム)。エクソームのみがシークエンシングされるように核酸が調製されたときに、これは全エクソームシークエンシング(WES)と呼ばれる。シークエンシングのためにエクソームを分離する様々な、または当技術分野で知られている方法、たとえば、溶液ベースの分離では、標識プローブが標的領域(たとえば、エクソーム)をハイブリダイズするために使用され、これは次いで他の領域(たとえば、非結合オリゴヌクレオチド)からさらに分離され得る。これらの標識フラグメントは、次いで、調製され、シークエンシングされ得る。
いくつかの実施形態において、核酸は、リボ核酸(RNA)である。いくつかの実施形態において、シークエンシングされたRNAは、サンプル中に見出されるコード転写RNAおよび非コード転写RNAの両方を含む。そのようなRNAがシークエンシングに使用されるときに、シークエンシングは「トータルRNA」から生成されると言われ、また全トランスクリプトームシークエンシングと呼ばれることもある。代替的に、核酸は、コードRNA(たとえば、mRNA)が単離され、シークエンシングに使用されるように調製され得る。これは、当技術分野で知られている任意の手段を通じて行うことができ、たとえば、ポリアデニル化された配列に対してRNAを単離するか、またはスクリーニングすることによって行うことができる。これは、ときにはmRNA-Seqと呼ばれる。
配列情報は、核酸シークエンシングプロトコルによって生成された配列データ(たとえば、次世代シークエンシング、サンガーシークエンシングなどによって識別された核酸分子中の一連のヌクレオチド)、さらにはその中に含まれる情報(たとえば、ソース、組織型などを示す情報)を含むことができ、これはまた、配列データから推論されるか、または決定され得る、考慮された情報でもあってもよい。たとえば、いくつかの実施形態において、RNA配列情報は、核酸が主にポリアデニル化されたかどうかを決定するために分析され得る。
主張された情報は、配列データ、ひいては、配列データが取得された核酸、サンプル、および/または被験者に関する情報を指すものとしてよい。いくつかの実施形態において、主張された情報は、配列データとともに提供され、本明細書において説明されているように配列データを分析することによって検証され得る。主張された情報は、核酸、サンプル、または被験者の特徴に関連するものとしてよく、核酸の品質(たとえば、核酸のソースまたは完全性)を評価するために使用することができる。主張された情報は、配列データまたは情報の主張されたソースおよび/または主張された完全性を指すことができる。
いくつかの実施形態において、第三者が、配列データ、さらには関係する主張された情報も提供し得る。いくつかの実施形態において、主張された情報は、シークエンシングデータが取得されたのと同じ実体から取得される。いくつかの実施形態において、主張された情報およびシークエンシングデータは、異なる当事者から取得される。いくつかの実施形態において、主張された情報は、データベースから取得される。いくつかの実施形態において、主張された情報は、参照値またはプロパティである。いくつかの実施形態において、主張された情報は、配列情報の同一性、配列情報の核酸の同一性、配列情報が生成されたサンプルの同一性、サンプルが取得された被験者の同一性を断言し得る。いくつかの実施形態において、主張された情報は、配列データをポリアデニル化RNAから取得されたものとして、全トランスクリプトームシークエンシングに由来するものとして、またはWESからのものであると識別し得る。いくつかの実施形態において、主張された情報は、核酸が取得されたサンプルに対する細胞または組織型を識別し得る。いくつかの実施形態において、主張された情報は、核酸が取得されたサンプルに対する腫瘍型を断言し得る。いくつかの実施形態において、主張された情報は、サンプルが取得された被験者に対するMHCプロファイル(たとえば、核酸が取得された被験者のMHCの対立遺伝子の配列)を識別し得る。いくつかの実施形態において、主張された情報は、サンプルに対する予想されるタンパク質サブユニット比を識別し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想される複雑度値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想される汚染値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想されるカバレッジ値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想されるエクソンカバレッジ値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想されるリード組成値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想されるPhredスコアを提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対する予想される一塩基多型(SNP)値を提供し得る。いくつかの実施形態において、主張された情報は、配列情報に対するGC含有量値に関係するものとしてよい。いくつかの実施形態において、主張された情報は、追加の情報を含んでもよい。いくつかの実施形態において、主張された情報は、配列情報の多数のまたは1つより多い特徴に関係する情報を含んでもよい。いくつかの実施形態において、主張された情報は、前述の特徴(たとえば、決定された値、プロパティ、特性など)の任意の組合せである。
本明細書において使用されているように、「特徴」は、配列情報のヌクレオチドの配列を超えて、配列情報、その情報が取り出されたサンプル、および/またはサンプルが採取された被験者に関する情報を使用者に提供する、配列情報の分析から決定される、プロパティまたは特性であってもよい。配列情報は、医療サービス提供者または検査室から取得された遺伝子発現データと関連していてもよい。たとえば、特徴は、ソース(たとえば、患者、被験者、核酸の種類)、患者もしくは被験者の同一性、組織型、腫瘍型、ポリアデニル化ステータス、MHC配列、タンパク質サブユニット、複雑度、汚染、カバレッジ(たとえば、全配列、エクソンなど)、リード組成、品質および/もしくはPhredスコア、一塩基多型(SNP)の位置、ならびに/またはGC含有量を示すものとしてよい。配列情報の特徴は、その配列情報が、医療サービス提供者または検査室からの主張された情報と潜在的に一致するか、不一致であるかを示すことができる。
同一性またはソースを考えたときに、この用語は、特定の被験者または患者を特定の個人として識別することを指すだけでなく、あるサンプルに対する配列情報の1つまたは複数の特徴が、別のサンプルから取得された配列情報の1つまたは複数の特徴と同じであると識別できることを認識することが重要である。たとえば、配列情報Aは、同じ核酸、被験者もしくは患者、組織、または腫瘍からのものであると提示され、主張されている配列情報Bと比較され得る。同一性は、被験者の実際の同一性を知ることなく本明細書の方法によって裏付けられるか、または疑われ得るが、同一性が別の所与の配列情報と一貫しているという知見を支持することができる。いくつかの実施形態において、配列情報の同一性は、所与のサンプル、被験者、組織、または腫瘍に対する主張された情報と比較するために使用される。いくつかの実施形態において、配列情報の同一性は、別の核酸または参照値に対する主張された情報と比較するために使用される。
次いで、いくつかの実施形態において、配列情報のこれらの決定された特徴は、主張された情報と突き合わせて評価される(たとえば、決定される、照合される、アライメントされる、測定される、評価される)。この評価は、配列情報が特定の起源(たとえば、ソース)のものである、正しく識別されている、または特定もしくは特異的な特徴を有している(たとえば、ポリアデニル化核酸からのものである)との確信を高めるために行うことができる。この点に関して、これらの方法は、潜在的問題(たとえば、一致しない値(たとえば、決定された特徴および主張された情報に対して)、または受け入れられたまたは確立された範囲を外れている決定された値)を強調するためのチェックポイントおよび手段を提供するために使用され得る。そのような問題は、配列データの完全性(たとえば、劣化している、汚染されている)またはソース(たとえば、誤認されている、誤って標識されたなど)の問題のあることを示すか、または示唆し得る。本明細書の方法およびプロセスを使用し、決定された特徴を、所与の配列情報に対する主張された情報と照合することによって、不正なまたは質の低い配列データが分析に使用される可能性を低減し、配列データが診断、予後、および/または臨床分析に使用されるのに十分な品質を有するという確信を高める。
いくつかの実施形態において、決定された情報が主張された情報と一致するかどうかを評価することは、決定された情報が主張された情報と正確に一致するかどうか、指定された閾値の範囲内にあるかどうかを決定することを伴う。より一般的には、いくつかの実施形態において、2つの値が「一致する」かどうかを評価することは、2つの値が正確に一致するか、または指定された閾値の範囲内にあるかどうかを決定することを伴い得る。その閾値は0であってもよく、これはいくつかの実施形態において完全一致を要求するものである。その閾値は、数値が比較されているときに、それらの値が互いに閾値内にある場合(たとえば、数値の絶対差が閾値以下であるとき)に数値が「一致する」と言われるように、0より大きくてもよい。いくつかの実施形態において、閾値は、標準偏差(またはその倍数)、分位数、百分位数、また任意の他の好適な統計量の関数として設定されてもよい。いくつかの実施形態において、2つの値が「一致」しているかどうかを評価することは、2つの値の間に差があるときに、その差が統計的に有意であるかどうかを決定することを伴い得る。そのような決定は、本明細書において説明されている技術の態様がこの点に関して限定されていないので、統計的仮説検定、閾値、または任意の他の好適な統計的または数学的技法を使用して実行されてもよい。
いくつかの実施形態において、バイオインフォマティクスデータに対して1つまたは複数の品質管理パラメータがチェックされる。いくつかの実施形態において、腫瘍純度がチェックされ得る。腫瘍純度は、本明細書において説明されているように、混和剤中の癌細胞の割合を指すものとしてよい。いくつかの実施形態において、WESに対する目標腫瘍純度は≧20%(たとえば、20%、40%、60%)である。いくつかの実施形態において、RNA-seqに対する目標腫瘍純度は≧20%(たとえば、20%、40%、60%)である。
いくつかの実施形態において、カバレッジの深度がチェックされ得る。いくつかの実施形態において、WESに対するカバレッジの深度は、腫瘍サンプルの≧150倍の平均カバレッジ(たとえば、150倍、180倍、200倍)である。いくつかの実施形態において、RNA-seqに対するカバレッジの目標深さは≧100倍(たとえば100倍、150倍、200倍)である。
いくつかの実施形態において、アライメント率がチェックされ得る。いくつかの実施形態において、WESに対する目標アライメント率は90%超(たとえば、91%、95%、99%)である。いくつかの実施形態において、RNA-seqに対する目標アライメント率は90%超(たとえば、91%、95%、99%)である。
いくつかの実施形態において、Phredスコアなどの塩基コール品質スコアがチェックされ得る。いくつかの実施形態において、WESに対する目標Phredスコアは30超(たとえば、35、40、50)である。いくつかの実施形態において、RNA-seqに対する目標Phredスコアは30超(たとえば、35、40、50)である。
いくつかの実施形態において、カバレッジの均一性がチェックされ得る。いくつかの実施形態において、WESに対するカバレッジの目標均一性は、腫瘍組織に対して≧20倍でカバーされている標的領域における85%の塩基対である(たとえば、85%、95%、99%)。いくつかの実施形態において、WESに対するカバレッジの目標均一性は、正常組織に対して≧20倍でカバーされている標的領域における85%の塩基対である(たとえば、85%、95%、99%)。いくつかの実施形態において、カバレッジの均一性を決定するための標的領域は、CCDS(コンセンサスコード配列)遺伝子からのコード領域を使用したExonV7標的領域であってもよい。
いくつかの実施形態において、GCバイアスがチェックされ得る。いくつかの実施形態において、WESに対する目標GCバイアスは少なくとも50(たとえば、50、60、70)である。いくつかの実施形態において、WESに対するGCバイアスの許容範囲は、少なくとも45~65(たとえば、45~65、50~65、55~65)である。いくつかの実施形態において、RNA-seqに対する目標GCバイアスは少なくとも50(たとえば、50、60、70)である。いくつかの実施形態において、RAN-seqに対するGCバイアスの許容範囲は、少なくとも45~65(たとえば、45~65、50~65、55~65)である。
いくつかの実施形態において、マッピング品質がチェックされ得る。いくつかの実施形態において、WESに対するマッピング品質は≧10(たとえば、10、20、30)である。
いくつかの実施形態において、重複率がチェックされ得る。いくつかの実施形態において、WESに対する重複率は30%未満(たとえば、29.9%、25%、15%)である。いくつかの実施形態において、RAN-seqに対する重複率は85%未満(たとえば、84.99%、80%、70%)である。
いくつかの実施形態において、挿入サイズがチェックされ得る。いくつかの実施形態において、WESに対する腫瘍組織の許容可能な中央値挿入サイズは約150(たとえば、150、280、250)である。いくつかの実施形態において、WESに対する腫瘍組織の目標中央値挿入サイズは約200(たとえば、200、250、350)である。いくつかの実施形態において、WESに対する正常組織の許容可能な中央値挿入サイズは約150(たとえば、150、280、250)である。いくつかの実施形態において、WESに対する正常組織の目標中央値挿入サイズは約200(たとえば、200、250、350)である。いくつかの実施形態において、RNA-seqに対する腫瘍組織の許容可能な中央値挿入サイズは約150(たとえば、150、280、250)である。いくつかの実施形態において、RNA-seqに対する腫瘍組織の目標中央値挿入サイズは約200(たとえば、200、250、350)である。
いくつかの実施形態において、汚染がチェックされ得る。いくつかの実施形態において、WESに対して許容可能な汚染は、0.05%未満(たとえば、0.04%、0.03%、0.01%)である。いくつかの実施形態において、RNA-seqに対して許容可能な汚染は、0.05%未満(たとえば、0.04%、0.03%、0.01%)である。
いくつかの実施形態において、同じ患者からの腫瘍対正常サンプルの対のSNP一致がチェックされ得る。いくつかの実施形態において、WESに対する目標SNP一致は90%超(たとえば、91%、95%、98%)である。いくつかの実施形態において、WESに対する許容可能なSNP一致は85%超(たとえば、86%、90%、98%)である。いくつかの実施形態において、RNA-seqに対する目標SNP一致は90%超(たとえば、91%、95%、98%)である。いくつかの実施形態において、RNA-seqに対する許容可能なSNP一致は85%超(たとえば、86%、90%、98%)である。
いくつかの実施形態において、同じ患者からの腫瘍対正常サンプルの対のHLA対立遺伝子一致がチェックされ得る。いくつかの実施形態において、WESに対する正常組織対腫瘍組織の閾値は5未満(たとえば、4.5、3、2.5)である。いくつかの実施形態において、RNA-seqに対する腫瘍RNA-seq腫瘍対正常WES組織の閾値は5未満(たとえば、4.5、3、2.5)である。
いくつかの実施形態において、配列情報は、ゲノム汚染(たとえば、非ヒトゲノム汚染)について評価され得る。いくつかの実施形態において、サンプルまたは配列情報は、マウス、ゼブラフィッシュ、ショウジョウバエ、カエノラブディティス・エレガンス(celegans)、サッカロミセス、シロイヌナズナ、マイクロバイオーム、マイコプラズマ、アダプタ、UniVec、およびphiX rRNAなどの他の種または参照ゲノムからの配列を含むかどうかを決定することによって、汚染されているかどうかを決定するために評価される。いくつかの実施形態において、WESに対するADAゲノム汚染の目標閾値は60超(たとえば、65、70、80)である。いくつかの実施形態において、WESに対するADAゲノム汚染の許容閾値は40超(たとえば、45、60、80)である。いくつかの実施形態において、RNA-seqに対するADAゲノム汚染の目標閾値は40超(たとえば、50、60、80)である。いくつかの実施形態において、RNA-seqに対するADAゲノム汚染の許容閾値は20超(たとえば、30、50、70)である。
いくつかの実施形態において、1つの特徴のみが、主張された情報と突き合わせて評価される。いくつかの実施形態において、複数の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも2つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも3つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも4つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも5つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも6つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも7つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも8つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも9つまたはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも10個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも11個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも12個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも13個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも14個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。いくつかの実施形態において、少なくとも15個またはそれ以上の特徴が、主張された情報と突き合わせて評価される。
いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、追加のステップが実行される。いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、配列情報は拒否される(たとえば、その後の分析に使用されない)。いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、配列情報は再検査される、すなわち、特徴または決定の任意の評価は、少なくとももう1回、または2回目もしくはそれ以降(たとえば、3回目、4回目、5回目、6回目など)に実行される。いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、もう1つの、または第2、またはそれ以降(たとえば、第3、第4、第5、第6など)の配列情報が取得され、次いで検査される、すなわち、特徴または決定の任意の評価は、第1の配列情報に対して行われた最初の決定および評価に関係なく、少なくとも1回、または2回目もしくはそれ以降(たとえば、3回目、4回目、5回目、6回目など)に実行される。いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、配列情報はそのようなものとして使用者に報告される。いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合に、これらのステップの任意の組み合わせが実行され得る。
いくつかの実施形態において、特徴または決定された値が主張された情報に適合しないか、または一致しないことが判明した場合、配列情報は依然として疾病(たとえば、癌)に関係する特性について評価され得るが、品質に関する情報(たとえば、主張された情報と一致しない決定された配列情報の1つまたは複数の特徴の程度および性質)は、使用者(たとえば、医師または他の医療従事者)に提供され得る。いくつかの実施形態において、特性は、癌の種類、その環境、そのステージ、その配置、その原発組織、様々な治療もしくは療法に反応するその統計的な可能性、または被験者を治療する際に施術者を助け得る他のプロパティに関係する。
いくつかの実施形態において、特徴または決定された値が主張された情報に適合するか、または一致する(たとえば、参照値もしくは閾値と一致する、超える、または他の何らかの形で条件を満たす)ことが判明した場合、追加のステップが実行され得る。いくつかの実施形態において、特徴または決定された値が主張された情報に適合するか、または一致する(たとえば、参照もしくは閾値と一致する、超える、または他の何らかの形で条件を満たす)ことが判明した場合、追加のステップが実行されてよい。いくつかの実施形態において、特徴または決定された値が主張された情報に適合するか、または一致する(たとえば、参照もしくは閾値と一致する、超える、または他の何らかの形で条件を満たす)ことが判明した場合、配列情報は、癌に関係する特性について評価される。いくつかの実施形態において、特性は、癌の種類、その環境、そのステージ、その配置、その原発組織、様々な治療もしくは療法に反応するその統計的な可能性、または被験者を治療する際に施術者を助け得る他のプロパティに関係する。
いくつかの実施形態において、1つまたは複数の品質管理ステップが実行された後、使用者のために、実行された品質管理ステップの結果をとともにレポートが生成される。
したがって、一態様において、本開示は、少なくとも1つの核酸の配列情報を評価して、それの少なくとも1つの特徴を決定する方法に関係する。少なくとも1つの特徴は、配列情報の品質もしくは完全性を評価するために、配列情報のソースをインテロゲートするために、または同じシークエンシングプラットフォームから、もしくは同じもしくは異なるサンプル調製プロトコルからのものであってもなくてもよい、他の配列情報の分析を可能にするために使用され得る。さらに少なくとも1つの特徴は、閾値品質および低品質配列情報のその後の分析が省かれることを確実にするための品質管理方策として使用されてもよい。
したがって、一態様において、本開示は、配列情報を評価することを、(a)配列情報であって、(1)第1のリボ核酸(RNA)からの配列データ、または(2)第1の全エクソーム配列(WES)からの配列データを含む配列情報を取得することと、(b)配列データの1つまたは複数の特徴を決定することであって、配列データは(i)核酸が取得された被験者の同一性、(ii)核酸が取得された原発組織、(iii)核酸が取得された腫瘍型、(iv)第1のRNA配列データの品質尺度、(v)RNA配列データがポリアデニル化(ポリA)RNAまたはトータルRNAから取得されたかどうか、(vi)第1の配列データセットが第1のWES配列データかどうか、(vii)第1の配列データセットを生成するために使用されたシークエンシングプラットフォーム、および(viii)第1の配列データセットの品質尺度からなる群から選択される、決定することとによって行う方法に関係する。
いくつかの実施形態において、この方法は、配列情報の1つまたは複数の特徴が、さらなる分析に適した品質管理閾値を下回る場合に、追加の配列情報を取得することをさらに含む。
いくつかの実施形態において、評価される特徴は、被験者の同一性である。いくつかの実施形態において、被験者の同一性は、主要組織適合性複合体評価およびSNP一致評価を含む群からの評価の1つまたは複数を実行することによって決定され、評価の結果は、被験者または被験者からの第2の配列データセットに対する主張された値と比較される。
いくつかの実施形態において、評価される特徴は、原発組織である。いくつかの実施形態において、原発組織は、タンパク質発現およびバイオマーカー分析を含む群からの評価の1つまたは複数を実行することによって決定される。別の態様では、本開示は、配列情報を生成したサンプルの原発組織を割り当てることを含む特徴を評価する方法に関係する。いくつかの実施形態において、この方法は、配列情報をもたらした組織型を示すマーカーまたは遺伝子発現について配列情報を評価することを含む。いくつかの実施形態において、この方法は、異なる組織型に対して同じであるデータベースと突き合わせてマーカーまたは遺伝子発現を評価することを含む。被験者全身の異なる組織は、そのような組織のプロファイルを作製する異なるタンパク質を発現する。したがって、タンパク質の発現プロファイルを評価し、それを組織型と照合することで、サンプル、ひいては配列情報が取得された組織を特定することが可能である。これは、当技術分野で知られている様々な方法を通して行うことができる。たとえば、所与のメッセンジャーRNA(mRNA)転写産物の数を評価すること(たとえば、タンパク質発現を評価することの代わりとして使用する)は、知られている組織マーカー(たとえば、タンパク質発現プロファイル)のデータベースと突き合わせて評価され得、被験者に対するマーカーの提供されたセットと突き合わせて評価され得るか、または被験者から取得された第2の配列情報もしくは組織マーカーのセットと突き合わせて評価され得る。いくつかの実施形態において、マーカー(たとえば、タンパク質発現)について配列情報を評価し、そのマーカーを組織のデータベースと照合することによって原発組織が決定される。いくつかの実施形態において、マーカー(たとえば、タンパク質発現)の配列情報を評価し、そのマーカーを被験者の組織からのマーカーのセットと照合することによって、原発組織が決定される。いくつかの実施形態において、マーカー(たとえば、タンパク質発現)の配列情報を評価し、マーカーを、原発組織が知られている被験者から取得された第2の配列情報と照合することによって、原発組織が決定される。
いくつかの実施形態において、評価される特徴は、配列情報の完全性の尺度である。いくつかの実施形態において、第1のRNA配列データの完全性尺度は、RNA配列データ内の1つまたは複数の遺伝子のカバレッジを決定すること、RNA配列データ内の少なくとも1つの遺伝子に対する2つまたはそれ以上のエクソンの相対的カバレッジを決定すること、RNA配列データから2つの知られている参照遺伝子の発現比を決定すること、または他の特徴もしくはそれらの2つまたはそれ以上のものの組合せを含む群からの評価の1つまたは複数を実行することによって決定される。いくつかの実施形態において、DNA配列データの完全性尺度は、DNA配列データの全カバレッジおよび/または染色体カバレッジ、または他の特徴もしくはこれらの2つもしくはそれ以上のものの組合せを含む群からの評価の1つまたは複数を実行することによって決定される。
いくつかの実施形態において、RNA配列データは、それがポリA RNAから取得されたのかまたはトータルRNAから取得されたのかを決定するために分析される。いくつかの実施形態において、RNA配列データは、RNA配列データからの1つもしくは複数のミトコンドリア遺伝子もしくはヒストン遺伝子の発現レベル、および/またはポリAもしくはトータルRNAに典型的な他の特徴を評価することによって分析される。
いくつかの実施形態において、評価される特徴は、配列を生成するために使用されたシークエンシングプラットフォームである。いくつかの実施形態において、WES配列データを生成するために使用されたシークエンシングプラットフォームは、WES配列データ内の1つまたは複数の参照遺伝子の%分散を決定すること、または配列データを生成するために使用されたシークエンシングプラットフォームに典型的なシークエンシングデータの他のプロパティを含む群からの評価のうち1つまたは複数を実行することによって決定される。
いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも1つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも2つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも3つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも4つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも5つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも6つを評価することを含む。いくつかの実施形態において、方法は、本明細書において説明されている特徴のうちの少なくとも7つを評価することを含む。
いくつかの実施形態において、1つまたは複数の核酸サンプル(たとえば、少なくとも2つの核酸サンプル)からの配列情報の品質(たとえば、ソースまたは完全性)は、(a)2つまたはそれ以上(たとえば、2、3、4、5、6またはそれ以上)の主要組織適合性複合体(MHC)の配列を決定することと、(b)1つまたは複数のサンプルからのMHCが一致するかどうかを決定することとによって評価される。いくつかの実施形態において、MHCが一致しない場合(たとえば、計算された一致値が統計的に有意な閾値よりも小さい場合)、核酸の各々からの配列情報は、品質が不十分である、異なるソースからの可能性が高いとみなされ、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、WES正常/腫瘍/RNAseq間の計算された一致値(x)が、0<x≦2(たとえば、1、1.5、2)である場合、これは許容可能と「警告」を表している。警告は、計算された一致値が、許容可能であるとみなされる範囲内にあるが、許容可能でないに近いと考えられることを意味する。いくつかの実施形態において、WES正常/腫瘍/RNAseq間の計算された一致値(x)が>5である場合、これは許容可能でないまたは粗悪品質であることを表す。いくつかの実施形態において、WES正常/腫瘍/RNAseq間の計算された一致値(x)が0である場合、これは良質を表す。いくつかの実施形態において、MHCが一致する場合(たとえば、一致値が統計的に有意な閾値以上である場合)、核酸サンプルの各々からの配列情報は、十分な品質を有する、同じソースからの可能性が十分に高いとみなされ、さらなる分析のために保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報内の一塩基多型(SNP)に対する一致値を決定することによって評価される。いくつかの実施形態において、この方法は、一致値を評価することをさらに含む。いくつかの実施形態において、一致値が85%未満、80%未満、または75%未満である場合、核酸サンプルの各々からの配列情報は、品質が不十分である、異なるソースからの可能性が高いとみなされ、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、一致値が75%未満である場合、配列情報は許容可能でないとみなされる。いくつかの実施形態において、一致値が80%超で、95%未満である場合、配列情報は、許容可能でないに近い範囲内にあるあるとみなされる。いくつかの実施形態において、一致値が95%超である場合、配列情報は許容可能であるとみなされる。いくつかの実施形態において、一致値が少なくとも75%、少なくとも80%、または少なくとも85%である場合、核酸サンプルの各々からの配列情報は、品質が十分である、同じソースからの可能性が高いとみなされて、保持され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、少なくとも5,000個のSNPが一致値について評価され得る。いくつかの実施形態において、少なくとも6,000個のSNPが一致値について評価され得る。いくつかの実施形態において、少なくとも7,000個のSNPが一致値について評価され得る。いくつかの実施形態において、少なくとも8,000個のSNPが一致値について評価され得る。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報に対する汚染値を決定することによって評価される。いくつかの実施形態において、汚染値が統計的に有意な閾値を超えている場合、配列情報は取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、汚染値が0.05%超(たとえば、0.06%、1%、2%)である場合、配列情報は、許容可能でないに近いとみなされる(たとえば、警告)。いくつかの実施形態において、汚染値が0.1%超(たとえば、0.1%、0.5%、1%)である場合、配列情報は、血液サンプルおよび新鮮な凍結組織について許容可能でないとみなされる。いくつかの実施形態において、汚染値が閾値未満である場合、配列情報は保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、1つまたは複数の核酸サンプルからの配列情報を腫瘍型のセットと突き合わせて分析することと、配列情報から予測される腫瘍型を決定することと、予測される腫瘍型が1つまたは複数の核酸サンプルに対して提供された(たとえば、主張された)腫瘍型と一致するかどうかを決定することとによって評価される。いくつかの実施形態において、品質管理ステップとして予測される腫瘍型を決定することは、本明細書において説明されているようなコンピュータ化されたシステムまたはプロセスを使用して実行され得る。いくつかの実施形態において、品質管理ステップとして予測される腫瘍型を決定することは、本明細書および全体が参照により本明細書に組み込まれている2019年12月5日に出願した米国仮特許出願第62/943,976号、名称「Machine Learning Techniques for Gene Expression Analysis」において説明されているように、機械学習技術を使用して配列データから癌グレードを決定することによって実行され得る。いくつかの実施形態において、配列評価から取得された腫瘍型(たとえば、癌グレード)と主張された情報との間に不一致がある場合、その配列情報は、疑わしいか、または品質が不十分である、と識別され、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、1つまたは複数の核酸サンプルについて予測された腫瘍型と予想された腫瘍型との間に一致がある場合、配列情報は、十分な品質を有するとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、予測される腫瘍型と提供された腫瘍型とを照合することは、正常な健常サンプルに関して、特定の腫瘍型においてアップレギュレートまたはダウンレギュレートされる複数のシグネチャ遺伝子を含むトレーニングデータセットからの参照遺伝子のセットを使用することを含む。たとえば、予測される腫瘍型が前立腺癌である場合(たとえば、主張された情報)、サンプルは、前立腺癌の知られている参照遺伝子と突き合わせてチェックされる。いくつかの実施形態において、予測される腫瘍型は、その腫瘍グレードと突き合わせて評価され、これは、癌の異なるステージで主張された癌グレードのシグネチャ遺伝子を決定するのに役立ち得る。
上で説明されているように、いくつかの実施形態において、品質管理ステップとしての予測される腫瘍型を決定することは、トレーニングデータを使用してトレーニングされた統計モデルを採用する機械学習アプローチを使用することによって配列情報から癌グレードを決定することによって実行され得る。
たとえば、いくつかの実施形態において、統計モデルは、シークエンシングプラットフォームに対して、それぞれの発現レベルに基づきランク付けされた、遺伝子の入力ランキングに基づき、遺伝子発現データを使用して、生体サンプルの特性を予測するために使用され得る。発現レベルに対する特定の値の代わりに、入力ランキングを使用すると、発現レベルが取得された特定の方法に関係なく(たとえば、シークエンシングプラットフォーム、シークエンシング条件、サンプル調製、発現レベルを取得するためのデータ処理などに関係なく)、異なる発現データ間で同じまたは類似のデータ処理パイプラインが使用されることが可能である。いくつかの実施形態において、統計モデルは、生体サンプルの癌グレードを予測するために使用され得る。いくつかの実施形態において、統計モデルは、生体サンプルの原発組織を予測するために使用されてよく、これはまた、本明細書において説明されているような品質管理を実行するために使用されてもよい。
たとえば、いくつかの実施形態において、シークエンシングプラットフォームによって決定されるような(生体サンプル中の)遺伝子発現レベルに基づく遺伝子のランク付けは、生体サンプルに対して原発組織を予測するようにトレーニングされた統計モデルへの入力として提供され得る。予測される原発組織は、本明細書において説明されている品質管理技術の一部として主張された原発組織と突き合わせて比較され得る。別の例として、いくつかの実施形態において、シークエンシングプラットフォームによって決定されるような(生体サンプル中の)遺伝子発現レベルに基づく遺伝子のランク付けは、生体サンプルに対して癌グレードを予測するようにトレーニングされた統計モデルへの入力として提供され得る。予測される癌グレードは、本明細書において説明されている品質管理技術の一部として主張された癌グレードと突き合わせて比較され得る。
いくつかの実施形態において、ランク付けされている遺伝子のセットは、注目している特定の生物学的特性に依存する。たとえば、遺伝子の一方のセットは、原発組織を決定するために使用され、遺伝子の他方のセットは、癌グレードを決定するために使用され得る。
いくつかの実施形態において、発現データは、生体サンプル中の細胞について取得されるものとしてよく、被験者は、癌を有するか、癌を有する疑いがあるか、または癌を有するリスクがある。原発組織が決定されている特性である文脈では、原発組織は、生体サンプル中の細胞に対するものである。原発組織は、肺、膵臓、胃、大腸、肝臓、膀胱、腎臓、甲状腺、リンパ節、副腎、皮膚、乳房、卵巣、前立腺など、細胞が起源とする特定の組織型を指すものとしてよい。
たとえば、いくつかの実施形態において、胚中心B細胞(GCB)および活性型B細胞(ABC)などの、びまん性大細胞型B細胞リンパ腫(DLBCL)について、起源細胞を含み得る、原発組織を予測するために遺伝子セットを使用することを伴う。遺伝子セット内の遺伝子は、ITPKB、MYBL1、LMO2、BATF、IRF4、LRMP、CCND2、SLA、SP140、PIM1、CSTB、BCL2、TCF4、P2RX5、SPINK2、VCL、PTPN1、REL、FUT8、RPL21、PRKCB1、CSNK1E、GPR18、IGHM、ACP1、SPIB、HLA-DQA1、KRT8、FAM3C、およびHLA-DMBからなる群から選択され得る。
癌グレードが決定されている特性である文脈では、癌グレードは、生体サンプル中の細胞に対するものである。癌グレードは、生体サンプル中の細胞の増殖および分化特性を指すものとしてよく、グレード1、グレード2、グレード3、およびグレード4など、一般的に、顕微鏡を使用する細胞の目視観察によって決定される数値グレードを指す。
たとえば、いくつかの実施形態では、乳癌グレードを予測するために遺伝子セットを使用することを伴う。遺伝子セット内の遺伝子は、UBE2C、MYBL2、PRAME、LMNB1、CXCL9、KPNA2、TPX2、PLCH1、CCL18、CDK1、MELK、CCNB2、RRM2、CCNB1、NUSAP1、SLC7A5、TYMS、GZMK、SQLE、C1orf106、CDC25B、ATAD2、QPRT、CCNA2、NEK2、IDO1、NDC80、ZWINT、ABCA12、TOP2A、TDO2、S100A8、LAMP3、MMP1、GZMB、BIRC5、TRIP13、RACGAP1、ASPM、ESRP1、MAD2L1、CENPF、CDC20、MCM4、MKI67、PBK、CKS2、KIF2C、MRPL13、TTK、BUB1、TK1、FOXM1、CEP55、EZH2、ECT2、PRC1、CENPU、CCNE2、AURKA、HMGB3、APOBEC3B、LAGE3、CDKN3、DTL、ATP6V1C1、KIAA0101、CD2、KIF11、KIF20A、CDCA8、NCAPG、CENPN、MTFR1、MCM2、DSCC1、WDR19、SEMA3G、KCND3、SETBP1、KIF13B、NR4A2、NAV3、PDZRN3、MAGI2、CACNA1D、STC2、CHAD、PDGFD、ARMCX2、FRY、AGTR1、MARCH8、ANG、ABAT、THBD、RAI2、HSPA2、ERBB4、ECHDC2、FST、EPHX2、FOSB、STARD13、ID4、FAM129A、FCGBP、LAMA2、FGFR2、PTGER3、NME5、LRRC17、OSBPL1A、ADRA2A、LRP2、C1orf115、COL4A5、DIXDC1、KIAA1324、HPN、KLF4、SCUBE2、FMO5、SORBS2、CARD10、CITED2、MUC1、BCL2、RGS5、CYBRD1、OMD、IGFBP4、LAMB2、DUSP4、PDLIM5、IRS2、およびCX3CR1からなる群から選択され得る。
別の例として、いくつかの実施形態では、腎明細胞癌グレードを予測するために遺伝子セットを使用することを伴う。遺伝子セット内の遺伝子は、PLTP、C1S、LY96、TSKU、TPST2、SERPINF1、SRPX2、SAA1、CTHRC1、GFPT2、CKAP4、SERPINA3、CFH、PLAU、BASP1、PTTG1、MOCOS、LEF1、SLPI、PRAME、STEAP3、LGALS2、CD44、FLNC、UBE2C、CTSK、SULF2、TMEM45A、FCGR1A、PLOD2、C19orf80、PDGFRL、IGF2BP3、SLC7A5、PRRX1、RARRES1、LHFPL2、KDELR3、TRIB3、IL20RB、FBLN1、KMO、C1R、CYP1B1、KIF2A、PLAUR、CKS2、CDCP1、SFRP4、HAMP、MMP9、SLC3A1、NAT8、FRMD3、NPR3、NAT8B、BBOX1、SLC5A1、GBA3、EMCN、SLC47A1、AQP1、PCK1、UGT2A3、BHMT、FMO1、ACAA2、SLC5A8、SLC16A9、TSPAN18、SLC17A3、STK32B、MAP7、MYLIP、SLC22A12、LRP2、CD34、PODXL、ZBTB42、TEK、FBP1、およびBCL2からなる群から選択され得る。
原発組織、癌グレード、および/または生体サンプルの他の特性を予測するために統計モデルを使用する態様は、全体が参照により本明細書に組み込まれている2019年12月5日に出願した米国仮特許出願第62/943,976号、名称「Machine Learning Techniques for Gene Expression Analysis」において説明されている。
配列情報の品質を評価する態様に戻ると、いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報がポリA RNAから取得されたかどうかを予測するために、ポリアデニル化RNA遺伝子の有無を決定することによって評価される。いくつかの実施形態において、1つまたは複数のサンプルの予測されたポリAステータスと予想された(たとえば、主張された)ポリAステータスとの間に不一致がある場合、それらのサンプルに対する配列情報は、不十分な品質の、疑わしいものとしてみなされ、取り除かれ、廃棄され、再検査、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、1つまたは複数の核酸サンプルに対する予測されたポリAステータスと予想されたポリAステータスとの間に一致がある場合、配列情報は、十分な品質を有するとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報の複雑度値を決定することによって評価される。いくつかの実施形態において、複雑度値を決定することは、重複の個数を決定することを含む。いくつかの実施形態において、%重複率は、DNAまたはRNAライブラリについて決定され得る。いくつかの実施形態において、ライブラリの大きな割合が重複している場合、DNAもしくはcDNAフラグメントの低複雑度または過剰増幅のライブラリのいずれかが示される。いくつかの場合において、複雑度または増幅におけるライブラリ間の差異は、データ内のいくつかのバイアスが持ち込まれることを示す(たとえば、異なる%GC含有量)。いくつかの実施形態において、複雑度値が75%未満、または80%未満である場合、配列情報は、品質が不十分である、疑わしいものであるとみなされ、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、複雑度値が少なくとも80%未満、または少なくとも85%である場合、配列情報は、さらなる分析のために品質が十分であるとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、核酸に対する組織ソースを予測することによって評価される。いくつかの実施形態において、核酸に対する予測された組織ソースと主張された組織ソースとの間に一致がある場合、配列情報は、品質が不十分である、疑わしいものであるとみなされ、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして報告される。いくつかの実施形態において、予測された組織ソースと主張された組織ソースとの間に一致がある場合、配列情報は、さらなる分析のために十分な品質を有するとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、(a)知られているタンパク質の2つの異なるサブユニットに対する遺伝子発現レベルを決定することと、(b)2つの異なるサブユニットに対する発現比を決定することとによって評価される。いくつかの実施形態において、決定された発現比が、タンパク質サブユニットに対する予想された発現比と一致しない場合、配列情報は、品質が不十分である、疑わしいものであると識別され、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、決定された発現比が、タンパク質サブユニットに対する予想された発現比と一致する場合、配列情報は、さらなる分析のために十分な品質を有するとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報に対するPhredスコアを決定することによって評価される。いくつかの実施形態において、Phredスコアが27未満である場合、配列情報は、品質が不十分である、疑わしいものであるとみなされ、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、Phredスコアが20未満である場合、配列情報は取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、Phredスコアが20より大きく、27より小さい場合、配列情報は、取り除かれ、廃棄され、再検査され、および/またはそのようなものとして使用者に報告されるべきであることに近いとみなされる。いくつかの実施形態において、Phredスコアが少なくとも27である場合、配列情報は、さらなる分析のために品質が十分であるとみなされ、保持され、および/またはそのようなものとして使用者に報告される。
いくつかの実施形態において、1つまたは複数(たとえば、少なくとも2つ)の核酸サンプルからの配列情報の品質は、配列情報に対するGC含有量を決定することによって評価される。いくつかの実施形態において、GC含有量が少なくとも30%で、55%以下である場合、配列情報は、さらなる分析のために十分な情報であるとみなされ、保持され、および/またはそのようなものとして使用者に報告される。いくつかの実施形態において、GC含有量が45~65%の範囲内にある場合、配列情報は、さらなる分析のために十分な情報であるとみなされ、保持され、および/またはそのようなものとして使用者に報告される(すなわち、許容可能)。いくつかの実施形態において、少なくとも50%(たとえば、50%、51%、60%)のGC含有量は、少なくともヒトサンプルに対して、目標値である。
いくつかの実施形態において、配列情報の品質(たとえば、ソースおよび/または完全性)を評価するための少なくとも2つ(たとえば、3、4、5、6、7、8、9、10、またはそれ以上)の異なる方法が実行される。
いくつかの実施形態において、本明細書で実行される方法は、哺乳類からの配列情報を評価する。いくつかの実施形態において、哺乳類は、ヒトである。
いくつかの実施形態において、配列情報を生成したサンプルが疾患を有するか、疾患を有する疑いがあるか、または疾患を有するリスクがある被験者である。いくつかの実施形態において、疾患は、癌である。
いくつかの実施形態において、本明細書において説明されている方法の1つもしくは複数の特徴または結果を含むレポートが生成される。いくつかの実施形態において、レポートは、本明細書において説明されている方法の結果の分析をさらに含む。
いくつかの実施形態において、本開示の方法またはプロセスは、システムまたはコンピュータプロセッサ(たとえば、ラップトップ、デスクトップ、サーバ、または他のコンピュータ化された機械)上で実行され得る。システムのコンポーネントは、離れた場所に存在し、ローカルエリアネットワークもしくはワイドエリアネットワークなどのネットワーク上で、またはインターネットプロトコルによって通信し得る。システムは、ウェブ対応ブラウザおよびグラフィカルユーザインターフェース(GUI)を介したインターフェースでユーザとやり取りし得る。いくつかの実施形態において、システムは、1つの場所でユーザの制御下にある。いくつかの実施形態において、システムは、1つの場所にないコンポーネントから構成され、ユーザの直接的制御下にない場合がある。いくつかの実施形態において、システムの情報はローカルに記憶される。
本明細書において説明されているように、コンピュータ化されたプロセスまたはその中のフローチャートで使用される「プロセス」、「活動」、「ステップ」という用語またはその変形は、別段の指示がない限り、交換可能に使用することができる。
本明細書において説明されているように、「患者」、「被験者」、「ヒト被験者」という用語またはその変形は、別段の指示がない限り、交換可能に使用することができる。
図6Aは、コードRNA濃縮で非鎖RNAシークエンシングを実行するための例示的なコンピュータ化されたプロセス200を示すフローチャートである。プロセス200は活動201から始まり、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から第1の腫瘍の第1のサンプルが取得される。癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から第1の腫瘍の第1のサンプルを取得することに関係するさらなる態様が、「生体サンプル」の項目で提示されている。
次にプロセス200は活動202に進み、第1の腫瘍の第1のサンプルからのRNAが抽出される。第1の腫瘍の第1のサンプルからRNAを抽出することに関係する態様は、「DNAおよび/またはRNAの抽出」という項目で説明されている。
次にプロセス200は活動203に進み、抽出RNAはコードRNAについて濃縮され、濃縮RNAを取得する。コードRNAについて抽出RNAを濃縮して濃縮RNAを取得することに関係する態様は、「RNA濃縮」という項目で説明されている。
次にプロセス200は活動204に進み、非鎖RNAシークエンシングのために濃縮RNAからcDNAフラグメントの第1のライブラリが調製される。非鎖RNAシークエンシングのために濃縮RNAからDNAフラグメントの第1のライブラリを調製することに関係する態様は、「RNAシークエンシングのためのライブラリ調製」という項目で説明されている。
次にプロセス200は活動205に進み、非鎖RNAシークエンシングが、濃縮RNAから調製されたcDNAフラグメントの第1のライブラリ上で実行される。濃縮RNAから調製されたDNAフラグメントの第1のライブラリ上で非鎖NDAシークエンシングを実行することに関係する態様は、「RNAシークエンシング」という項目で説明されている。プロセス200の1つまたは複数の活動は任意選択であってよいことは理解されるべきである。
図6Bは、バイアス補正された遺伝子発現データを取得することによって癌治療を識別するためのコンピュータ化されたプロセス210を示すフローチャートである。プロセス210は活動211から始まり、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対するRNA発現データが取得される。RNA発現データを取得することに関係する態様は、「RNA発現データの取得」という項目で説明されている。
次にプロセス210は活動212に進み、RNA発現データ内の遺伝子が参照に対してアライメントされ、RNA発現データがアノテーションされる。RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することに関係する態様は、「アライメントおよびアノテーション」という項目で説明されている。
次にプロセス210は活動213に進み、アノテーションされたRNA発現データからの非コード転写産物が取り除かれて、フィルタ処理されたRNA発現データを取得する。アノテーションされたRNA発現データから非コード転写産物を取り除くことに関係する態様は、「非コード転写産物の除去」という項目で説明されている。
次にプロセス210は活動214に進み、フィルタ処理されたRNA発現データは正規化され、それにより遺伝子発現データを取得する。遺伝子発現データは、Transcripts Per Kilobase Million(TPM)形式のデータであってもい。フィルタ処理されたRNA発現データを、Transcripts Per Kilobase Million(TPM)形式の遺伝子発現データに正規化する態様は、「TPMへの変換および遺伝子集約」という項目で説明されている。
次にプロセス210は活動215に進み、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子が識別される。遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別する態様は、「バイアスの除去」という項目で説明されている。
次にプロセス210は活動216に進み、バイアスを持ち込む少なくとも1つの遺伝子に関連付けられている発現データが遺伝子発現データから取り除かれて、バイアス補正された遺伝子発現データを取得する。バイアスを遺伝子発現データ内に持ち込む少なくとも1つの遺伝子に関連付けられている、発現データを遺伝子発現データから取り除いて、バイアス補正された遺伝子発現データを取得する態様は、「バイアスの除去」という項目で説明されている。
次にプロセス210は活動217に進み、バイアス補正された遺伝子発現データを使用する被験者に対する癌治療が識別される。バイアス補正された遺伝子発現データを使用する被験者に対する癌治療を識別することに関係する態様は、「癌治療の識別」という項目で説明されている。
図6Cは、バイアス補正された遺伝子発現データを使用して、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者のための癌治療を識別するためのコンピュータ化されたプロセス220を示すフローチャートである。プロセス220は活動221から始まり、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者からの第1の腫瘍サンプルから抽出RNAのサンプル中のコードRNAに対するRNAが濃縮される。抽出RNAのサンプル中のコードRNAについてRNAを濃縮することに関係する態様は、「DNAおよび/またはRNAの抽出」という項目で説明されている。
次にプロセス220は活動222に進み、RNA発現データを取得するために濃縮RNAから調製されたcDNAフラグメントの第1のライブラリ上で非鎖RNAシークエンシングが実行される。RNA発現データを取得するために濃縮RNAから調製されたcDNAフラグメントの第1のライブラリ上で非鎖NDAシークエンシングを実行することに関係する態様は、「RNAシークエンシング」という項目で説明されている。
次にプロセス220は活動223に進み、RNA発現データは、遺伝子発現データに変換される。次にプロセス220は活動224に進み、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子が識別される。次にプロセス220は活動225に進み、バイアスを持ち込む少なくとも1つの遺伝子に関連付けられている発現データが遺伝子発現データから取り除かれて、バイアス補正された遺伝子発現データを取得する。活動223、224、および225に関係する態様は、「バイアスの除去」という項目で説明されている。
次にプロセス220は活動226に進み、バイアス補正された遺伝子発現データを使用する被験者に対する癌治療が識別される。バイアス補正された遺伝子発現データを使用する被験者に対する癌治療を識別することに関係する態様は、「癌治療の識別」という項目で説明されている。
図7は、シークエンシング分析のために患者サンプルを調製し、バイオインフォマティクス品質管理を実行するためのコンピュータ化されたプロセス300を示す例示的なフローチャートであり、これにより、シークエンシング分析のために核酸が抽出された患者または被験者に適した癌治療が取得され得る。
例示されている実施形態において、プロセス300は、活動301で癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から第1の腫瘍の第1のサンプルを取得することと、活動302で第1の腫瘍の第1のサンプルからRNAを抽出することと、活動303でコードRNAに対してRNAを濃縮して濃縮RNAを取得することと、活動304で非鎖RNAシークエンシングのために濃縮RNAからcDNAフラグメントの第1のライブラリを調製することと、活動305で被験者に対するRNA発現データを取得することと、活動306でRNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、活動307でアノテーションされたRNA発現データから非コード転写産物を取り除くことと、活動308でアノテーションされたRNA発現データを(たとえば、Transcripts Per Kilobase Million(TPM)形式の)遺伝子発現データに変換することと、活動309で遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、活動310で、遺伝子発現データからバイアスを持ち込む少なくとも1つの遺伝子に対する発現データを取り除いてバイアス補正された遺伝子発現データを取得することと、活動311で配列情報および主張された情報を取得することと、活動312で配列情報から1つまたは複数の特徴を決定することと、活動313で1つまたは複数の特徴が主張された情報と一致するかどうかを決定することと、活動314で特徴の少なくとも1つの追加の決定を行うことと、活動315でバイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することと、を含む。
プロセス300の1つまたは複数の活動は任意選択であってよいことは理解されるべきである。たとえば、いくつかの実施形態において、活動301および303が実行されてもよく、活動303は任意選択である。いくつかの実施形態において、活動301、302、および303はすべて実行される。いくつかの実施形態において、活動301、302、および303はすべて省かれるが、残りの活動は実行される。これは、患者サンプルからの抽出された濃縮RNAが、プロセス300の開始前に既に利用可能であるときに有用である。いくつかの実施形態において、活動312における1つまたは複数の特徴は、ソース、患者、組織型、腫瘍型、ポリAステータス、MHC配列、タンパク質サブユニット比、複雑度、汚染、カバレッジ、エクソンカバレッジ、リード組成、Phredスコア、SNP一致、およびGC含有量のうちの1つまたは複数の特徴を含む。いくつかの実施形態において、活動312における1つまたは複数の特徴は、RNA配列分析の鎖性をさらに含む。いくつかの実施形態において、活動312における特徴のいずれか1つまたは複数が決定され得る。いくつかの実施形態において、活動314における特徴の追加の決定は、限定はしないが、SNPの一致値、汚染値、ポリAステータス、複雑度値、Phredスコア、およびGC含有量を含むことができる。いくつかの実施形態において、特徴のうちの任意の1つまたは複数の追加の決定は、活動314で実行され得る。いくつかの実施形態において、活動303、プロセス307、およびプロセス314のうちのいずれか1つまたは複数が省かれ得る。いくつかの実施形態において、コンピュータ化プロセス300のすべての活動が実行されてもよい。
図8は、非限定的なプロセスパイプライン800を例示している。図8は、その後の分析のために(たとえば、診断、予後、療法、および/または他の臨床応用のために)、配列データおよび配列データに関連付けられている主張された情報を処理し、妥当性を確認するための非限定的なプロセスパイプライン800を例示している。活動801は、配列データと、配列データに対する主張されたソースを示す主張された情報とを含む核酸データを取得することによって実行される。いくつかの実施形態において、核酸データは、以前に処理された生体サンプルから取得される。いくつかの実施形態において、生体サンプルは、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から以前に取得された。いくつかの実施形態において、活動801は、配列データの主張された完全性を含む核酸データを取得することによって実行される。いくつかの実施形態において、活動801は、配列データと、配列データの主張されたソースおよび主張された完全性を示す主張された情報とを含む核酸データを取得することによって実行される。いくつかの実施形態において、主張された情報は、配列データの主張された完全性を示す。いくつかの実施形態において、主張された情報は、核酸が取得された被験者を示す。たとえば、いくつかの実施形態において、主張された情報は、被験者の1つまたは複数の遺伝子座に対するMHC対立遺伝子情報および/またはSNP情報を含む。活動801の後、プロセス800は活動802および803に進み、活動801で取得された核酸データの妥当性が確認される。妥当性確認は、活動802で配列データを処理して、決定された完全性および/または決定されたソースを取得することと、活動803で、決定された完全性および/または決定されたソースが、それぞれ、主張された完全性および/または主張されたソースと一致するかどうかを決定することとを含む。配列データは、活動802で処理されて、活動802aで配列データの決定されたソースを示す決定された情報、および/または活動802bで配列データの決定された完全性を示す決定された情報を取得する。いくつかの実施形態において、活動802aは、被験者のMHC遺伝子型、核酸データがRNAデータであるかDNAデータであるか、生体サンプルの組織型、生体サンプルの腫瘍型、配列データを生成するために使用されたシークエンシングプラットフォーム、SNP一致(たとえば、配列データ中の1つまたは複数のSNPが参照配列中の1つまたは複数のSNPと一致するかどうかを決定すること)、および/またはRNAサンプルがポリA濃縮されているかどうかのうちの少なくとも1つ、2つ、3つを示す情報を決定することを含み得る。いくつかの実施形態において、活動802bは、多量体タンパク質の第1のサブユニットをコードする第1の核酸の第1のレベルを決定することと、多量体タンパク質の第2のサブユニットをコードする第2の核酸の第2のレベルを決定することと、第1のレベルと第2のレベルとの間の比が予想される比と一致するかどうかを決定することとを含み得る。いくつかの実施形態において、第1のサブユニットおよび第2のサブユニットは、第1および第2のCD3サブユニット、第1および第2のCD8サブユニット、または第1および第2のCD79サブユニットである。いくつかの実施形態において、決定された完全性を示す決定された情報は、トータル配列カバレッジ、エクソンカバレッジ、染色体カバレッジ、多量体タンパク質のうちの2つもしくはそれ以上のサブユニットをコードする核酸の比、種の汚染、複雑度、および/または配列データのグアニン(G)およびシトシン(C)のパーセンテージ(%)のうちの、少なくとも1つ、2つ、3つを示す。いくつかの実施形態において、活動803は、配列データから1つまたは複数のMHC対立遺伝子配列を決定することと、1つまたは複数のMHC対立遺伝子配列が被験者に対する主張されたMHC対立遺伝子情報と一致するかどうかを決定することとを含む。いくつかの実施形態において、MHC対立遺伝子を決定することは、配列データから6つのMHC遺伝子座に対する配列を決定することを含む。
活動803において、決定された完全性および/またはソースは、配列データの決定されたソースが配列データの主張されたソースと一致するかどうか、および/または配列データの決定された完全性が配列データの主張された完全性と一致するかどうかを決定することによって評価される。
活動803において主張された情報と決定された情報が一致する場合(すなわち、yesの場合)、プロセス800は活動804に進み、配列データは、さらに評価されて、配列データが診断、予後、療法、または他の臨床転帰を示しているかどうかを決定する。たとえば、いくつかの実施形態において、配列データは、活動804でさらに処理されて、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対する癌治療の推奨を提供する。いくつかの実施形態において、活動804は、被験者に対する療法を決定することによって実行され、その療法は、その後、被験者に施される。
いくつかの実施形態において、プロセスは、療法を被験者に施すことをさらに含み得る。いくつかの実施形態において、療法は、癌療法である。
いくつかの実施形態において、被験者に対する療法を決定することは、一組の遺伝子群における各遺伝子群に対する遺伝子群発現レベルを含む複数の遺伝子群発現レベルを決定することを含み得る。いくつかの実施形態において、一組の遺伝子群は、癌の悪性度に関連する少なくとも1つの遺伝子群と、癌の微小環境に関連する少なくとも1つの遺伝子群とを含む。被験者に対する療法は、決定された遺伝子群発現レベルを使用することによって識別される。
活動803において主張された情報と決定された情報が一致しない場合(すなわち、noの場合)、プロセス800は805に進み、1つまたは複数の是正措置が実行される。いくつかの実施形態において、是正措置は、決定された情報が主張された情報と一致しないという指示を生成し、その後の分析において配列データを処理しないという指示を生成し、ならびに/または追加の配列データおよび/もしくは生体サンプルおよび/もしくは被験者に関する他の情報を取得するという指示を生成することを含む。
いくつかの実施形態において、方法は、図8に例示されているすべての活動を含む。しかしながら、いくつかの実施形態において、これらの活動のサブセットが実行され、それらの活動の任意の1つまたは複数が省かれ、重複し、および/または図8に例示されているのとは異なる順序で実行され得る。たとえば、活動802aまたは活動802bのいずれかが活動802で実行される。たとえば、活動803は、決定を確認するために2回実行され得る。たとえば、プロセス800における1つまたは複数の活動は、活動805における1つまたは複数の是正措置の後に実行され得る。いくつかの実施形態において、図8の1つまたは複数の活動は、コンピュータ上に実装される。
いくつかの実施形態において、サンプル中の1つまたは複数の遺伝子の発現レベルが、サンプルの起源および/または品質を評価するために分析される。たとえば、特定の細胞、組織、または腫瘍型で発現することが知られている1つまたは複数の遺伝子の発現が評価され、それにより、分析されている予想される細胞、組織、または腫瘍に基づき予想される発現レベルであるかどうかを決定する。同様に、特定の細胞、組織、または腫瘍型で発現しない(または高度に発現しない)ことが知られている1つまたは複数の遺伝子の発現が評価され、それにより、分析されている予想される細胞、組織、または腫瘍に基づき予想される発現レベルであるかどうかを決定する。
いくつかの実施形態において、1つまたは複数の遺伝子の発現レベルが、複数のサンプル(たとえば、2、3、4、5、4~10、1~50、50~500、またはそれ以上のサンプル)の各々について分析される。1つまたは複数の遺伝子の発現が予想よりも低いかまたは高い場合、これは、分析されるデータの品質および/またはソース/起源が予想されたものではないことを示している可能性がある。いくつかの実施形態において、1つまたは複数の遺伝子に対する発現の予想外のレベル(たとえば、予想よりも低いまたは高いレベル)を有するサンプルからのデータは、さらなる分析から除外される。いくつかの実施形態において、新たな配列情報が、たとえば、最初のデータが正しいかどうかを確認するために、1つまたは複数の遺伝子に対する発現の予想外のレベルを有するサンプルについて取得される。いくつかの実施形態において、1つまたは複数の遺伝子に対する発現の予想外のレベルを有するサンプルが、たとえばサンプルが最初に示されたものとは異なるソースからのものであったかどうかを決定するために、さらに分析され得る。
いくつかの実施形態において、1つまたは複数の遺伝子に対する発現レベルが分析され(たとえば、tSNE、PCA、または他の技術を使用して)、それにより遺伝子発現または遺伝子発現のパターンが別個のサンプルにおいて類似しているか、または異なっているかを決定した。いくつかの実施形態において、同じ細胞型または同じ組織型を含むデータセットがグループ内でクラスタにならなかった場合、または1つまたは複数のデータセットが同じ細胞または組織を含む他のデータセットから統計的に異なると識別された場合、異なると識別されたデータセットは除外され、さらに分析されるか、または潜在的に疑わしいことを示すフラグを立てられ得る。いくつかの実施形態において、追加の配列データが、潜在的に疑わしいと識別されたサンプルについて取得され得る。
本明細書において説明されている技術の実施形態のいずれかに関連して使用され得るコンピュータシステム500の例示的な一実施形態が図9に示されている。コンピュータシステム500は、1つまたは複数のプロセッサ510と、非一時的コンピュータ可読記憶媒体(たとえば、メモリ520および1つまたは複数の不揮発性記憶媒体530)を備える1つまたは複数の製造品とを具備する。プロセッサ510は、任意の好適な方法でメモリ520および不揮発性記憶デバイス530に対するデータの書き込みおよびデータの読み出しを制御するものとしてよく、本明細書において説明されている技術の態様はこの点において限定されていない。本明細書において説明されている機能のいずれかを実行するために、プロセッサ510は、プロセッサ510による実行のためのプロセッサ実行命令を記憶する非一時的コンピュータ可読記憶媒体として働き得る、1つまたは複数の非一時的コンピュータ可読記憶媒体(たとえば、メモリ520)に記憶されている1つまたは複数のプロセッサ実行可能命令を実行し得る。
コンピューティングデバイス500は、また、コンピューティングデバイスと他のコンピューティングデバイスとの(たとえば、ネットワーク上での)通信に利用され得るネットワーク入力/出力(I/O)インターフェース540を備え、またコンピューティングデバイスがユーザに出力を提供し、ユーザから入力を受け取る際に利用され得る1つまたは複数のユーザI/Oインターフェース550を備え得る。ユーザI/Oインターフェースは、キーボード、マウス、マイク、ディスプレイデバイス(たとえば、モニターまたはタッチスクリーン)、スピーカー、カメラ、および/または他の様々なタイプのI/Oデバイスなどのデバイスを含み得る。
上で説明されている実施形態は、いく通りもの仕方で実装され得る。たとえば、これらの実施形態は、ハードウェア、ソフトウェア、またはこれらの組合せを使用して実装され得る。ソフトウェアで実装されるときに、ソフトウェアコードは、単一のコンピューティングデバイスで提供されようと複数のコンピューティングデバイスに分散されようと、任意の好適なプロセッサ(たとえば、マイクロプロセッサ)またはプロセッサの集合体上で実行され得る。上で説明されている機能を実行する任意のコンポーネントまたはコンポーネントの集合体は、一般的に、上で説明されている機能を制御する1つまたは複数のコントローラとみなされ得ることが理解されるべきである。1つまたは複数のコントローラは、専用ハードウェア、または上述の機能を実行するためにマイクロコードまたはソフトウェアを使用してプログラムされた汎用ハードウェア(1つまたは複数のプロセッサなど)など、様々な方法で実装され得る。
この点で、本明細書において説明されている実施形態の一実装形態は、1つまたは複数のプロセッサ上で実行されたときに1つまたは複数の実施形態の上述の機能を実行するコンピュータプログラム(すなわち、複数の実行可能命令)がコードされている少なくとも1つのコンピュータ可読記憶媒体(たとえば、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または他の有形の、非一時的コンピュータ可読記憶媒体)を含む。コンピュータ可読媒体は、そこに記憶されているプログラムが、本明細書において説明されている技術の態様を実装するために任意のコンピューティングデバイス上にロードされ得るように可搬性を有するものとしてよい。それに加えて、実行されたときに上述の機能のいずれかを実行するコンピュータプログラムへの言及は、ホストコンピュータ上で実行されるアプリケーションプログラムに制限されないことは理解されるべきである。むしろ、コンピュータプログラムおよびソフトウェアという用語は、本明細書では、本明細書において説明されている技術の態様を実装するために1つまたは複数のプロセッサをプログラムすることを目的として採用され得る任意のタイプのコンピュータコード(たとえば、アプリケーションソフトウェア、ファームウェア、マイクロコード、またはコンピュータ命令の他の形態)に言及するために一般的な意味で使用されている。
本明細書において説明されている技術の態様は、被験者(たとえば、癌患者)または疾患(たとえば、癌)を有する、有する疑いがある、または有するリスクがある者の(たとえば、癌グレード、原発組織)の配列情報の生物学的特性を評価し、生成し、可視化し、および/または分類するためのコンピュータ実装方法を提供する。
いくつかの実施形態において、ソフトウェアプログラムは、被験者(たとえば、患者)の特性および/または被験者(たとえば、患者)の癌に関係する他の情報の視覚的表現を、対話型グラフィカルユーザインターフェース(GUI)を使用して、ユーザに提供し得る。そのようなソフトウェアプログラムは、限定はしないが、クラウドコンピューティング環境、ユーザの場所と同一の場所にあるデバイス(たとえば、ユーザのラップトップ、デスクトップ、スマートフォンなど)、ユーザから離れている1つまたは複数のデバイス(たとえば、1つまたは複数のサーバ)などを含む、任意の好適なコンピューティング環境で実行し得る。
たとえば、いくつかの実施形態において、本明細書において説明されている技術は、図10に示されている例示的な環境600において実装され得る。図10に示されているように、例示的な環境600内では、被験者680の1つまたは複数の生体サンプルが、検査室670に提供され得る。検査室670は、生体サンプルを処理して、発現データ(たとえば、DNA、RNA、および/もしくはタンパク質発現データ)ならびに/または配列情報を取得し、それを、ネットワーク610を介して、被験者(たとえば、患者)680に関する情報を記憶する少なくとも1つのデータベース660に提供し得る。
ネットワーク610は、ワイドエリアネットワーク(たとえば、インターネット)、ローカルエリアネットワーク(たとえば、企業イントラネット)、および/または任意の他の好適なタイプのネットワークであってもよい。図10に示されているデバイスはどれも、1つまたは複数の有線リンク、1つまたは複数のワイヤレスリンク、および/またはそれらの任意の好適な組合せを使用して、ネットワーク610に接続し得る。
図10の例示されている実施形態では、少なくとも1つのデータベース620は、被験者(たとえば、患者)に対する発現データおよび/もしくは配列情報、被験者(たとえば、患者)の病歴データ、被験者(たとえば、患者)の検査結果データ、および/または被験者680に関する任意の他の好適な情報を記憶し得る。被験者(たとえば、患者)に対する記憶されている検査結果データの例は、生検検査結果、画像検査結果(たとえば、MRI結果)、および血液検査結果を含む。少なくとも1つのデータベース620に記憶されている情報は、任意の適切な形式でおよび/または任意の好適なデータ構造を使用して記憶されよく、本明細書において説明されている技術の態様はこの点において限定されない。少なくとも1つのデータベース620は、任意の好適な方法で(たとえば、1つまたは複数のデータベース、1つまたは複数のファイル内に)データを記憶し得る。少なくとも1つのデータベース620は、単一のデータベースまたは複数のデータベースであるものとしてよい。
図10に示されているように、例示的な環境600は、1つまたは複数の外部データベース620を含み、これらのデータベースは、患者680以外の患者の情報を記憶し得る。たとえば、外部データベース660は、1人もしくは複数の患者に対する発現データおよび/もしくは配列情報(任意の好適なタイプのもの)、1人もしくは複数の患者の病歴データ、1人もしくは複数の患者の検査結果データ(たとえば、画像結果、生検結果、血液検査結果)、1人もしくは複数の患者の人口統計学的情報および/もしくは個人情報、ならびに/または任意の他の好適なタイプの情報を記憶してもよい。いくつかの実施形態において、外部データベース660は、TCGA(The Cancer Genome Atlas)などの1つもしくは複数の公開アクセス可能データベース、治験情報の1つもしくは複数のデータベース、および/または商業シークエンシングサプライヤーによって維持されている1つもしくは複数のデータベースで利用可能な情報を記憶し得る。外部データベース660は、任意の好適なハードウェアを使用して任意の好適な方法でそのような情報を記憶してよく、本明細書において説明されている技術の態様はこの点において限定されない。
いくつかの実施形態において、少なくとも1つのデータベース620および外部データベース660は、同じデータベースであり得るか、同じデータベースシステムの一部であり得るか、または物理的に同じ場所にあってよく、本明細書において説明されている技術の態様がこの点において限定されない。
たとえば、いくつかの実施形態において、サーバ640は、データベース620および/または660に記憶されている情報にアクセスし、この情報を使用して、生体サンプルのおよび/または配列情報の1つまたは複数の特性を決定するために、図10を参照しつつ説明されている本明細書において説明されているプロセスを実行し得る。
いくつかの実施形態において、サーバ640は、1つまたは複数のコンピューティングデバイスを備え得る。サーバ640が複数のコンピューティングデバイスを備えているときに、デバイスは、物理的に同じ場所にあるか(たとえば、単一の部屋に)、または複数の物理的な配置に分散されてもよい。いくつかの実施形態において、サーバ640は、クラウドコンピューティングインフラストラクチャの一部であってもよい。いくつかの実施形態において、1つまたは複数のサーバ640が、医師650が所属する団体(たとえば、病院、研究機関)が運営する、同じ場所である、施設内にあってもよい。そのような実施形態では、患者880のプライベート医療データにサーバ640がアクセスすることを可能にすることはより容易であり得る。
図10に示されているように、いくつかの実施形態において、サーバ640によって実行される分析の結果は、コンピューティングデバイス630(ラップトップまたはスマートフォンなどの携帯型コンピューティングデバイスであるか、またはデスクトップコンピュータなどの固定されたコンピューティングデバイスであってもよい)を介して医師650に提供され得る。結果は、書面によるレポート、電子メール、グラフィカルユーザインターフェース、および/または他の好適な手段で提供され得る。図10の実施形態では、結果は医師650に提供されているけれども、他の実施形態では、分析結果は、患者680または患者680の介護者、看護師などの医療サービス提供者、または治験に関わる人に提供されてもよいことは理解されるべきである。
いくつかの実施形態において、結果は、コンピューティングデバイス630を介して医師650に提示されるグラフィカルユーザインターフェース(GUI)の一部であってもよい。いくつかの実施形態において、GUIは、コンピューティングデバイス630上で実行されるウェブブラウザによって表示されるウェブページの一部としてユーザに提示されてもよい。いくつかの実施形態において、GUIは、コンピューティングデバイス630上で実行される(ウェブブラウザとは異なる)アプリケーションプログラムを用いてユーザに提示されてもよい。たとえば、いくつかの実施形態において、コンピューティングデバイス630は、モバイルデバイス(たとえば、スマートフォン)であってもよく、GUIは、モバイルデバイス上で実行されるアプリケーションプログラム(たとえば、「アプリ」)を介してユーザに提示されてもよい。
コンピューティングデバイス630に提示されたGUIは、患者と患者の癌の両方に関係する広範囲の腫瘍学的データを、コンパクトで情報量の多い新しい方法で提供し得る。以前には、腫瘍学的データは、データの複数のソースから、何回かに分けて取得されており、そのような情報を取得するプロセスは、時間的および金銭的な観点の両方からコスト高になっていた。本明細書において例示されている技術およびグラフィカルユーザインターフェースを使用することで、ユーザは、同じ量の情報を一度にアクセスすることができ、ユーザへの要求が少なくなり、そのような情報を提供するのに必要なコンピューティングリソースへの要求も少なくなる。ユーザへの要求が少ないことは、情報の様々なソースの検索に関連する臨床医のミスを減らすのに役立つ。コンピューティングリソースへの要求度が低いことは、広範な腫瘍学的データを提供するために必要なプロセッサ能力、ネットワーク帯域幅、およびメモリを低減するのに役立ち、コンピューティング技術を改善する。いくつかの実施形態において、本開示のレポートは、システムによって、またはGUIを用いて、ユーザに提示される。
したがって、一態様において、本開示は、少なくとも1つの特徴を決定するために、配列情報を評価する方法に関係する。この評価は、プログラム可能命令を実行することができるコンピュータもしくは他の自動化機械上で行うか、または評価者によって手動で実行され得る。特徴は、配列情報の少なくとも1つの特徴を評価者に知らせるためのレポートを生成するために使用され得る。いくつかの実施形態において、特徴は、配列情報のMHC対立遺伝子の配列である。
主要組織適合性複合体(MHC)(ヒトではヒト白血球抗原(HLA)と呼ばれる)は、免疫系が自己の細胞と非自己の細胞とを区別することができるメカニズムである。ほとんどすべての体細胞の原形質膜上に存在する糖タンパク質(炭水化物を含むタンパク質)の集合体である。(MHC)は、生物有機体の免疫系において重要である高度に多形性の遺伝子であり、20個の遺伝子に由来し、個人間では1つの遺伝子につき50個を超える変異があり、対立遺伝子間の共優性も許容する。これらの糖タンパク質は、免疫系が原形質膜上に提示されるMHCの異常によって自己細胞と非自己細胞とを識別することを可能にする経路の一部である。
これらのプロパティ、たとえば、MHCが高度に多型であること、共優性であること、また、所与の種に存在し得る多数の対立遺伝子があることにより、被験者のMHCプロファイルは高度に特異的で固有のものとなる。したがって、一卵性双生児を除く2人の人間が、MHC分子の同じセットを持つ細胞を保有することは全くありそうにない。したがって、配列情報のMHCプロファイルの配列を評価することによって、これは、配列情報、主張された情報、他の配列情報、またはこれらの組合せの間で情報を識別することを裏付けるか、または不適格とみなすために使用され得る。
いくつかの実施形態において、1つのMHC対立遺伝子が評価に使用される。いくつかの実施形態において、少なくとも2つのMHC対立遺伝子が評価のために使用される。いくつかの実施形態において、少なくとも3つのMHC対立遺伝子が評価のために使用される。いくつかの実施形態において、少なくとも4つのMHC対立遺伝子が評価のために使用される。いくつかの実施形態において、少なくとも5つのMHC対立遺伝子が評価のために使用される。いくつかの実施形態において、少なくとも6つのMHC対立遺伝子が評価のために使用される。
いくつかの実施形態において、評価される特徴は、一塩基多型(SNP)の一致値である。「SNP」または「一塩基多型」は、本明細書で使用されているように、1つの種の被験者の間で、または対合染色体上で個々の被験者内で共有される単一ヌクレオチド(たとえば、アデニン(A)、チミン(T)、シトシン(C)、および/またはグアニン(G))における核酸配列(たとえば、ゲノム、配列データセット)の差異を指す。SNPは、置換と呼ばれる変化したヌクレオチド(たとえば、Tに変化したA、Aに変化したGなど)、欠失と呼ばれる、ヌクレオチドが配列から完全になくなる、除去されたヌクレオチド、または付加的ヌクレオチドが配列に追加される、追加されたヌクレオチドであるか、表すものとしてよい。SNPは、コードされたタンパク質に変化を引き起こすか(たとえば、非同義SNP)、または引き起こし得ない(たとえば、同義)。さらに、SNPが非同義であるときに、コードされたアミノ酸に変化を引き起こすか(たとえば、ミスセンス)、または未成熟終止コドンを引き起こし得る(たとえば、ナンセンス)。同義SNPは、スプライス部位、転写因子結合、および/またはメッセンジャーRNA(mRNA)結合に影響を及ぼすか、または変化させることによって、核酸配列のメッセージを改変することもできる。これらの突然変異(たとえば、配列のタンパク質コード能力への変化)は、表現型さらには様々な疾病種類の差異を含む多くの効果を引き起こし得る。さらに、SNPは被験者のゲノム内に多数出現し、典型的なゲノムが参照ヒトゲノムと400万から500万の部位で異なっており、そのうち99.9%を超えるものがSNPであると推定されている。
SNPは、ゲノムの一部である核酸にコードされているので、親から子孫へ(療法の被験者、および核酸が複製されるときには被験者体内で)受け継がれる。したがって、この継承が安定しているので、また多数であるので、SNPは、被験者の関連性の遺伝子マーカーとして、また同じ被験者に由来するものとしての2つの核酸配列の同一性の尺度として使用され得る。いくつかの実施形態において、SNP一致値は、配列情報と参照配列との間で決定される。いくつかの実施形態において、SNP一致値は、配列情報と主張された値との間で決定される。いくつかの実施形態において、SNP一致値は、さらなる分析に使用するために許容可能であるべき(たとえば、十分な品質および完全性を有するとみなされる)閾値に等しいか、または閾値よりも大きくなければならない。いくつかの実施形態において、閾値は、80%である。いくつかの実施形態において、SNP一致値は、配列データセットと被験者との間で決定され、SNP一致値が少なくとも70%(たとえば、少なくとも71%、少なくとも72%、少なくとも73%、少なくとも74%、少なくとも75%、少なくとも76%、少なくとも77%、少なくとも78%、少なくとも79%、少なくとも80%、少なくとも81%、少なくとも82%、少なくとも83%、少なくとも84%、少なくとも85%、少なくとも86%、少なくとも87%、少なくとも88%、少なくとも89%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも95. 5%、少なくとも96%、少なくとも96.5%、少なくとも97%、少なくとも97.5%、少なくとも98%、少なくとも98.5%、少なくとも99%、少なくとも99.5%、少なくとも99.6%、少なくとも99.7%、少なくとも99.8%、少なくとも99.9%、少なくとも99.95%、少なくとも99.99%、少なくとも99.999%、またはそれ以上)である場合に、被験者からのものである可能性が十分に高いとみなされ、被験者からのものであると識別される。本明細書において説明されているように、いくつかの実施形態において、一致値の決定は、本開示において説明されている通りである。SNP一致の検出は、利用可能な、または当技術分野で知られている任意の手段によって実行することができ、たとえば、SNP一致の検出は、Conpair(github.com/nygenome/Conpair)またはGATK GenotypeConcordance(software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_variantutils_GenotypeConcordance.php)などの様々なオンラインツールによって実行されるか、または手動で計算され得る。他の例では、SNP一致の検出は、公開利用可能なウェブサイト(genome.sph.umich.edu/wiki/VerifyBamIDまたはsoftware.broadinstitute.org/cancer/cga/contest)において説明されているようなツールによって実行され得る。
いくつかの実施形態において、評価される特徴は、たとえばPhredスコアなどの品質スコアである。本明細書で使用されるような「Phredスコア」(本明細書では「Phred品質スコア」とも知られるか、または呼ばれることがある)は、核酸シークエンシングシステムまたはプラットフォーム(たとえば、NGS)によってシークエンシングされたヌクレオチドの識別のための品質の尺度を指す。Phredスコアは当技術分野で知られており、多くの場合、いくつかのパラメータ(たとえば、ピーク形状、分解能など)に基づきシークエンシングプラットフォームから生成され、スコア(Q)が、各ヌクレオチド塩基コールに割り当てられる(計算の詳細なレビューについては、Ewing B、Hillier L、Wendl MC、Green P.「Base-calling of automated sequencer traces using phred. I. Accuracy assessment.」、Genome Res. 1998年3月、8(3):175-85およびEwing B、Green P.「Base-calling of automated sequencer traces using phred. II. Error probabilities」、Genome Res. 1998年3月、8(3):186-94.を参照)。各塩基のPhredスコアは、ヌクレオチド塩基コールが不正である可能性(塩基コールエラー確率(P))を指し、式Q=-10log10Pによって決定される。したがって、スコア(たとえば、Q)は、塩基コール精度を示し、たとえば、10のPhredスコアは注目している塩基に対して90%のコール精度を示し、40のPhredスコアは同じ塩基に対して99.99%のコール精度を示す。いくつかの実施形態において、配列情報のPhredスコアは、決定されて、参照値と比較される。いくつかの実施形態において、参照値は、少なくとも27、少なくとも28、少なくとも29、少なくとも30、または30より大きい。いくつかの実施形態において、Phredスコアは、決定されて、他の配列情報のPhredスコアと比較される。いくつかの実施形態において、Phredスコアは、決定され、主張されたスコアと比較される。いくつかの実施形態において、Phredスコアは品質の塩基レベル決定として使用される。いくつかの実施形態において、配列を主張された情報と比較して同一性を比較するために使用されるが、それは、Phredスコアが異なる場合に、それらが同一の配列情報である、または同じサンプルもしくは被験者からのものであることはありそうもないからである。
いくつかの実施形態において、評価される特徴は、腫瘍型である。
いくつかの実施形態において、評価される特徴は、組織型である。
いくつかの実施形態において、評価される特徴は、配列情報のポリアデニル化ステータスである。本明細書で使用されるような「ポリアデニル化」または「ポリA」は、メッセンジャーRNA(mRNA)の3'末端に付着した一連の複数のアデノシン一リン酸ヌクレオチドを指し、これは、転写および転写産物の3'末端を開裂してヒドロキシルを遊離させた後に生じる。「ポリAテール」は、しばしば参照されているが、完全に処理されたmRNAに特徴的なものであり、様々な細胞過程を助ける。たとえば、ポリAテールはタンパク質(ポリA結合タンパク質)に対する結合部位であり、翻訳が行われるように細胞の核からの輸送を促進し、さらにはmRNAの翻訳および安定性に影響する。タンパク質コードmRNAの転写産物のみが存在する場合、配列情報を生成したサンプルがmRNA-Seqを使用して生成された可能性が高い(たとえば、示す)。いくつかの実施形態において、ポリAステータスは、mRNA-Seqが使用されなかった(たとえば、全トランスクリプトームが使用された)ことを示す。いくつかの実施形態において、ポリAステータスは、主張された情報と突き合わせて評価される。いくつかの実施形態において、ポリAステータスは、参照配列と突き合わせて評価される。いくつかの実施形態において、mRNA-Seqまたは全トランスクリプトームのいずれかを使用して配列情報が生成される確率は、閾値より高くなければならない。いくつかの実施形態において、閾値は、参照値である。いくつかの実施形態において、閾値レベルは、90%である。いくつかの実施形態において、閾値は、主張された情報である。いくつかの実施形態において、配列情報は、主にポリアデニル化核酸を含んだサンプルからのものである。いくつかの実施形態において、配列情報は、ポリアデニル化核酸と非ポリアデニル化核酸の両方を含んだサンプルからのものである。
いくつかの実施形態において、評価される特徴は、配列情報のGC含有量である。「G/C含有量」または「グアニン(G)-シトシン(C)含有量」は、本明細書で使用されているように、GまたはCのいずれかである核酸サンプル中のヌクレオチドのパーセンテージを指す。これは、所与の配列情報のGおよびCリードのすべてを総和し、シークエンシングされたヌクレオチドの総数で除算することによって計算され得る。いくつかの実施形態において、配列情報は、評価され、GC含有量は、結果として配列情報内にGまたはC(たとえば、G+C)をもたらす塩基コールの数を総和し、配列情報内の塩基コールの総数(たとえば、配列データセット内のヌクレオチドの数)で除算することによって計算される、すなわち(G+C)/(配列データセット内のヌクレオチドの数)である。
GC含有量は、配列情報の品質尺度としても使用され得る。多くの知られているゲノムが、それぞれのエクソーム、トランスクリプトーム、およびその様々な他の部分とともにシークエンシングされている(たとえば、特定のRNA成分の尺度)。さらに、これらの配列の多くは、何回もシークエンシングされており、その様々な成分に対する平均値および範囲が、たとえば、ヒトゲノムのGC含有量について、生成されている。ヒトゲノムのGC含有量は、約35%から60%の範囲で変化することが知られており、約41%の平均値(たとえば、平均値)を有する。したがって、品質尺度として、ヒトゲノムと識別された配列情報が75%のGC含量を有すると評価されるべきであった場合、配列情報(またはその配列情報の由来となったサンプル)の品質に問題があることになる。その結果、評価されたGC含有量は、配列情報について予想されるGC含有量の知られている範囲、配列情報提供者から提供された値、そのような値のデータベースからの値、追加の配列情報、または所与のタイプの配列情報に対する参照範囲と比較され、それにより、それらが一貫しているかどうか、またはGC含有量が問題を示しているかどうかを確認することができ、これは、劣化、残留プライマー、汚染、または配列情報との他の混乱に起因するものであり得る。
したがって、いくつかの実施形態において、GC含有量特徴は、評価されている各配列データセットに対するGC含有量を決定することによって配列情報の完全性を評価するための方法において使用され、GC含有量が、(i)30%未満、または55%以上の場合に、核酸サンプルは、品質が不十分である可能性が高いとみなされ、取り除かれるか、廃棄されるか、再検査されるか、または品質が不十分であると報告され、GC含有量が、少なくとも30%で、55%以下の場合、核酸サンプルは、品質が十分であるとみなされ、保持される。それに加えて、いくつかの実施形態において、GC含有量は、計算されて、主張された情報と比較され得る。GC含有量は、いくつかの実施形態において、主張された情報と照合し、それにより、配列情報を、主張された同じ配列情報である、所与のサンプル、被験者、または特定のサンプルもしくは被験者からのものであることを裏付けるか、または疑問視するために使用され得る。
いくつかの実施形態において、評価された特徴は、タンパク質サブユニットの発現の比(たとえば、タンパク質の異なるサブユニットをコードする核酸の発現比)である。タンパク質発現は、当技術分野で知られている任意の手段によって測定され、たとえば、発現は、トランスクリプトーム内の各遺伝子座にマッピングされたリードの数をカウントすることによって決定され得る(たとえば、定量化され得る)。タンパク質サブユニット(たとえば、異なるコード領域によって発現する複数のサブユニットを有するタンパク質)の発現を評価し、次いで、その比を計算することによって、その比を知られている値、参照値、閾値、他の配列情報、または主張された情報と比較することが可能である。いくつかの実施形態において、評価されるタンパク質サブユニットは、ある種の癌の有無に関係なく、ヒトサンプル中に存在するタンパク質からのものである。任意の理論に拘束されることを望むものではないが、そのようなタンパク質は、ハウスキーピング遺伝子(たとえば、ヒトサンプルの陽性対照または陰性対照)によってコードされる。いくつかの実施形態において、知られている値、参照値、または閾値は、固定された比である。たとえば、知られているタンパク質のサブユニットAおよびサブユニットBは、1:1または2:1の比を有する。いくつかの実施形態において、評価されたタンパク質のサブユニットは、ある種の癌を有する、または有することが疑われるヒトサンプル中に存在するタンパク質からのものである。
いくつかの実施形態において、この比は、知られている値と比較される。いくつかの実施形態において、これは、主張された情報と比較される。いくつかの実施形態において、これは、他の配列情報と比較される。いくつかの実施形態において、タンパク質、およびそのサブユニットは、そのプロパティに起因して分析のために選択される。たとえば、それらはすぐに分解され、したがって、配列情報が生成されたサンプルの安定性および/または品質の代わりとして働く。いくつかの実施形態において、これらは、被験者またはサンプル間の変動性について選択され、それによって配列情報の同一性を裏付けるか、または不適格とするための比較を可能にする。
いくつかの実施形態において、評価される特徴は、カバレッジ値である。「カバレッジ」は、本明細書で使用されているように、再構築された配列における所与のヌクレオチドのユニークリードの数を指す。核酸がシークエンシングされるときに、これは1つのリード全体(たとえば、最初から最後まで1つのパスで)でシークエンシングされるのではなく、むしろ平均長(L)を有する核酸(たとえば、RNA、エクソーム、ゲノム)の部分またはセグメントの複数のリードの結果であり、核酸全体が、再構成されたときに(G)の全長を有する。核酸のリード数が増加すると(N)、カバレッジも増加する。カバレッジは、N×L/Gとして計算され得る。いくつかの実施形態において、カバレッジ値は、主張された情報と比較される。いくつかの実施形態において、カバレッジ値は、閾値または参照値と比較される。いくつかの実施形態において、閾値または参照値は統計的に有意な値である。いくつかの実施形態において、カバレッジ値は、他の配列情報と比較される。いくつかの実施形態において、腫瘍に対するカバレッジの目標値は、150倍を超える(たとえば、170倍、190倍)。いくつかの実施形態において、正常組織に対するカバレッジの目標値は、100倍を超える(たとえば、110倍、120倍、130倍)。公開利用可能ツールが、カバレッジ値を決定するために使用することができる(github.com/brentp/mosdepthおよびbiodatageeks.org/sequila/)。
本明細書において説明されている特徴および評価は、個別に、さらには互いに連動して評価され、使用され得る。いくつかの実施形態において、少なくとも1つの特徴が評価される(たとえば、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、またはそれ以上)。いくつかの実施形態において、少なくとも2つの特徴が評価される(たとえば、少なくとも3つ、少なくとも4つ、またはそれ以上)。いくつかの実施形態において、少なくとも4つの特徴が評価される(たとえば、少なくとも4つ、またはそれ以上)。いくつかの実施形態において、少なくとも5つの特徴が評価される(たとえば、少なくとも5つ、またはそれ以上)。いくつかの実施形態において、少なくとも6つの特徴が評価される(たとえば、少なくとも6つ、またはそれ以上)。いくつかの実施形態において、少なくとも7つの特徴が評価される(たとえば、少なくとも7つ、またはそれ以上)。いくつかの実施形態において、少なくとも8つの特徴が評価される(たとえば、少なくとも8つ、またはそれ以上)。いくつかの実施形態において、少なくとも9つの特徴が評価される(たとえば、少なくとも9つ、またはそれ以上)。いくつかの実施形態において、少なくとも10個の特徴が評価される(たとえば、少なくとも10個、またはそれ以上)。いくつかの実施形態において、少なくとも11個の特徴が評価される(たとえば、少なくとも11個、またはそれ以上)。いくつかの実施形態において、少なくとも12個の特徴が評価される(たとえば、少なくとも12個、またはそれ以上)。いくつかの実施形態において、少なくとも13個の特徴が評価される(たとえば、少なくとも13個、またはそれ以上)。いくつかの実施形態において、少なくとも14個の特徴が評価される(たとえば、少なくとも14個、またはそれ以上)。いくつかの実施形態において、少なくとも15個の特徴が評価される(たとえば、少なくとも15個、またはそれ以上)。
本明細書において説明されている特徴は、逐次的に、同時に、並列的に、またはそれらの組合せで評価され得る。企図され得るように、いくつかの特徴を評価するために必要な評価は、追加または他の特徴を評価する際に有用であり得る。したがって、そのような情報または評価結果が他の決定に有用である場合、複数の特徴の評価を一度に(たとえば、同時に)実行すること、またはその情報を後続の評価(たとえば、逐次的な)に使用することが可能である。それに加えて、異なる特徴の複数の評価を同時に(たとえば、並列に)実行することも企図され得る。いくつかの実施形態において、特徴は逐次的に評価される。いくつかの実施形態において、特徴は同時に評価される。いくつかの実施形態において、特徴は並列に評価される。いくつかの実施形態において、特徴は、方法の組合せで(たとえば、同時に、さらに逐次的に)評価される。
癌治療の識別
本明細書において説明されている方法のいずれか1つを使用して取得された被験者のシークエンシングデータは、限定はしないが、被験者体内の癌の進行を監視すること、癌に対する治療の有効性を評価すること、特定の治療に適している被験者を識別すること、治験に参加する患者の適合性を評価すること、および/または被験者における再発を予測することを含む、様々な臨床目的に使用され得る。したがって、本明細書において説明されているのは、本明細書において説明されている方法を使用して取得されたシークエンシングデータに基づく癌治療のための診断および予後の方法である。いくつかの実施形態において、本明細書において説明されているRNA発現データを処理するための方法は、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療(本明細書では抗癌治療とも称される)を識別することを含む。
分子機能発現シグネチャ
いくつかの実施形態において、被験者に対する癌治療を特定することは、バイアス補正された遺伝子発現データを使用して被験者体内の癌または腫瘍を特徴付けることを含む。いくつかの実施形態において、被験者体内の癌は、分子機能発現シグネチャを決定することによって特徴付けられ、これは、腫瘍遺伝的特徴、腫瘍促進微小環境因子、および抗腫瘍免疫反応因子を含む腫瘍の分子特性に関係する情報を含みおよび/または反映し得る。
「分子機能発現シグネチャ(MFES)」は、本明細書において説明されているように、腫瘍内および/または腫瘍周辺に存在する分子および細胞組成物、ならびに生物過程に関係する情報を指す。いくつかの実施形態において、患者のMFESは、遺伝子の1つまたは複数の群(「遺伝子群」)の各々に対する遺伝子発現レベルを含む。いくつかの実施形態において、MFESにおける情報は、正常組織および/または腫瘍組織をシークエンシングすることによって取得された遺伝子群の遺伝子発現データ(たとえば、バイアス補正された遺伝子発現データ)を使用して生成され得る。他のタイプの遺伝子発現データがMFESを生成するために使用され得るけれども、本発明者らは、バイアス補正された遺伝子発現データを使用して分子機能発現シグネチャを生成することが、被験者の腫瘍の分子機能特性を結果として得られるMFESがより正確かつ忠実に表すことを可能にすることを認識していることは理解されるべきである。次いで、バイアス補正された遺伝子発現データから決定されたMFESを、被験者に対する癌療法を識別することに適用することは、より効果的な療法、被験者に施された場合に1つまたは複数の癌療法が効果的であるかどうかを決定する能力の改善、被験者が参加し得る治験を識別する能力の改善、ならびに/または他の多くの予後、診断、および臨床用途への改善を可能にする。
遺伝子群
「遺伝子群」は、腫瘍内および/または腫瘍周辺に存在する分子過程に関連する遺伝子の群を指す。遺伝子群の例および遺伝子群発現レベルを決定するための技術は、2018年12月20日に公開された、国際PCT公開第WO2018/231771号、名称「Systems and Methods for Generating, Visualizing and Classifying Molecular Functional Profiles」(2018年6月12日に出願したPCT出願第PCT/US20/037017号の公開である)において説明されており、その内容全体が参照により本明細書に組み込まれている。「遺伝子群」は、本明細書では、「モジュール」と称され得る。
例示的なモジュールは、限定はしないが、主要組織適合性複合体I(MHC I)モジュール、主要組織適合性複合体II(MHC II)モジュール、同時活性化分子モジュール、エフェクター細胞モジュール、エフェクターT細胞モジュール、ナチュラルキラー細胞(NK細胞)モジュール、T細胞トラフィックモジュール、T細胞モジュール、B細胞モジュール、B細胞トラフィックモジュール、良性B細胞モジュール、悪性B細胞マーカーモジュール、M1シグネチャモジュール、Th1シグネチャモジュール、抗腫瘍サイトカインモジュール、チェックポイント阻害(またはチェックポイント分子)モジュール、濾胞樹状細胞モジュール、濾胞性BヘルパーT細胞モジュール、腫瘍促進サイトカインモジュール、制御性T細胞(Treg)モジュール、Tregトラフィックモジュール、骨髄由来抑制細胞(MDSC)モジュール、MDSCおよびTAMトラフィックモジュール、顆粒球モジュール、顆粒球トラフィックモジュール、好酸球シグネチャモデル、好中球シグネチャモデル、マスト細胞シグネチャモジュール、M2シグネチャモジュール、Th2シグネチャモジュール、Th17シグネチャモジュール、腫瘍促進サイトカインモジュール、補体阻害モジュール、線維芽細網細胞モジュール、癌関連線維芽細胞(CAF)モジュール、マトリクス形成(またはマトリクス)モジュール、血管形成モジュール、内皮モジュール、低酸素因子モジュール、血液凝固モジュール、血液内皮モジュール,リンパ管内皮モジュール、増殖率(または腫瘍増殖率)モジュール、癌遺伝子モジュール、PI3K/AKT/mTORシグナルモジュール、RAS/RAF/MEKシグナルモジュール、受容体チロシンキナーゼ発現モジュール、成長因子モジュール、腫瘍抑制因子モジュール、転移シグネチャモジュール、抗転移因子モジュール、および突然変異状態モジュールを含み得る。
いくつかの実施形態において、MFESにおける1つまたは複数の遺伝子群の各々は、少なくとも2つの遺伝子を含むものとしてよく(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子)、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない。
いくつかの実施形態において、分子機能発現シグネチャにおけるモジュールは、主要組織適合性複合体I(MHC I)モジュール、主要組織適合性複合体II(MHC II)モジュール、同時活性化分子モジュール、エフェクター細胞(またはエフェクターT細胞)モジュール、ナチュラルキラー細胞(NK細胞)モジュール、T細胞モジュール、B細胞モジュール、M1シグネチャモジュール、Th1シグネチャモジュール、抗腫瘍サイトカインモジュール、チェックポイント阻害(またはチェックポイント分子)モジュール、制御性T細胞(Treg)モジュール、骨髄由来抑制細胞(MDSCs)モジュール、好中球シグネチャモデル、M2シグネチャモジュール、Th2シグネチャモジュール、腫瘍促進サイトカインモジュール、補体阻害モジュール、癌関連線維芽細胞(CAFs)モジュール、血管形成モジュール、内皮モジュール、増殖率(または腫瘍増殖率)モジュール、PI3K/AKT/mTORシグナルモジュール、RAS/RAF/MEKシグナルモジュール、受容体チロシンキナーゼ発現モジュール、成長因子モジュール、腫瘍抑制因子モジュール、転移シグネチャモジュール、および抗転移因子モジュールを含むか、またはこれらからなるものとしてよい。モジュールは、これらに加えて、T細胞トラフィックモジュール、抗腫瘍サイトカインモジュール、Tregトラフィックモジュール、MDSCおよびTAMトラフィックモジュール、顆粒球または顆粒球トラフィックモジュール、好酸球シグネチャモデル、マスト細胞シグネチャモジュール、Th17シグネチャモジュール、マトリクス形成(またはマトリクス)モジュール、および低酸素因子モジュールを含み得る。このようなMFESは、固形癌(たとえば、黒色腫)を有する被験者について決定され、たとえば、固形癌を治療するための療法を識別するために使用され得る。
いくつかの実施形態において、分子機能発現シグネチャにおけるモジュールは、エフェクター細胞(またはエフェクターT細胞)モジュール、ナチュラルキラー細胞(NK細胞)モジュール、T細胞モジュール、悪性B細胞マーカーモジュール、M1シグネチャモジュール、Th1シグネチャモジュール、チェックポイント阻害(またはチェックポイント分子)モジュール、濾胞樹状細胞モジュール、濾胞性BヘルパーT細胞モジュール、腫瘍促進サイトカインモジュール、制御性T細胞(Treg)モジュール、好中球シグネチャモデル、M2シグネチャモジュール、Th2シグネチャモジュール、補体阻害モジュール、線維芽細網細胞モジュール、血管形成モジュール、血液内皮モジュール、増殖率(または腫瘍増殖率)モジュール、癌遺伝子モジュール、および腫瘍抑制因子モジュールを含むか、またはこれらからなるものとしてよい。モジュールは、これらに加えて、主要組織適合性複合体I(MHC I)モジュール、主要組織適合性複合体II(MHC II)モジュール、同時活性化分子モジュール、B細胞トラフィックモジュール、良性B細胞モジュール、抗腫瘍サイトカインモジュール、Tregトラフィックモジュール、マスト細胞シグネチャモジュール、Th17シグネチャモジュール、マトリクス形成(またはマトリクス)モジュール、低酸素因子モジュール、血液凝固モジュール、およびリンパ管内皮モジュールを含み得る。このようなMFESは、濾胞性リンパ腫を有する被験者について決定され、たとえば、濾胞性リンパ腫を治療するための療法を識別するために使用され得る。
いくつかの実施形態において、MFESにおける遺伝子群は、少なくとも2つの遺伝子を含むものとしてよい(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない)。主要組織適合性複合体I(MHC I)モジュール:HLA-A、HLA-B、HLA-C、B2M、TAP1、およびTAP2、主要組織適合性複合体II(MHC II)モジュール:HLA-DRA、HLA-DRB1、HLA-DOB、HLA-DPB2、HLA-DMA、HLA-DOA、HLA-DPA1、HLA-DPB1、HLA-DMB、HLA-DQB1、HLA-DQA1、HLA-DRB5、HLA-DQA2、HLA-DQB2、およびHLA-DRB6、同時活性化分子モジュール:CD80、CD86、CD40、CD83、TNFRSF4、ICOSLG、CD28、エフェクター細胞モジュール:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、およびCD8B、エフェクターT細胞モジュール:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、およびCD8B、ナチュラルキラー細胞(NK細胞)モジュール:NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GZMH、GNLY、IFNG、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、KIR2DS5、EOMES、CLIC3、FGFBP2、KLRF1、およびSH2D1B、T細胞トラフィックモジュール:CXCL9、CXCL10、CXCR3、CX3CL1、CCR7、CXCL11、CCL21、CCL2、CCL3、CCL4、およびCCL5、T細胞モジュール:EOMES、TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、TRAT1、CD5、およびCD28、B細胞モジュール:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、BLK、FCRL5、PAX5、およびSTAP1、B細胞トラフィックモジュール:CXCL13およびCXCR5、良性B細胞モジュール:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、およびBLK、悪性B細胞マーカーモジュール:MME、CD70、CD20、CD22、およびPAX5、M1シグネチャモジュール:NOS2、IL12A、IL12B、IL23A、TNF、IL1B、およびSOCS3、Th1シグネチャモジュール:IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、およびIL21、抗腫瘍サイトカインモジュール:HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、およびFASLG、チェックポイント阻害(またはチェックポイント分子)モジュール:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、HAVCR2、およびVSIR、濾胞樹状細胞モジュール:CR1、FCGR2A、FCGR2B、FCGR2C、CR2、FCER2、CXCL13、MADCAM1、ICAM1、VCAM1、BST1、LTBR、およびTNFRSF1A、濾胞性BヘルパーT細胞モジュール:CXCR5、B3GAT1、ICOS、CD40LG、CD84、IL21、BCL6、MAF、およびSAP、腫瘍促進サイトカインモジュール:IL10、TGFB1、TGFB2、TGFB3、IL22、MIF、TNFSF13B、IL6、およびIL7、制御性T細胞(Treg)モジュール:TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、TNFRSF18、TNFR2、およびTNFRSF1B、Tregトラフィックモジュール:CCL17、CXCL12、CXCR4、CCR4、CCL22、CCL1、CCL2、CCL5、CXCL13、およびCCL28、骨髄由来抑制細胞(MDSCs)モジュール:IDO1、ARG1、IL4R、IL10、TGFB1、TGFB2、TGFB3、NOS2、CYBB、CXCR4、およびCD33、MDSCおよびTAMトラフィックモジュール:CXCL1、CXCL5、CCL2、CCL4、CCL8、CCR2、CCL3、CCL5、CSF1、およびCXCL8、顆粒球モジュール:CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、CCL26、PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、PRG3、MPO、ELANE、PRTN3、CTSG、FCGR3B、CXCR1、CXCR2、CD177、PI3、FFAR2、PGLYRP1、CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、およびSIGLEC8、顆粒球トラフィックモジュール:CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、およびCCL26、好酸球シグネチャモデル:PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、およびPRG3、好中球シグネチャモデル:MPO、ELANE、PRTN3、CTSG、FCGR3B、CXCR1、CXCR2、CD177、PI3、FFAR2、およびPGLYRP1、マスト細胞シグネチャモジュール:CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、およびSIGLEC8、M2シグネチャモジュール:IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、およびCSF1R、Th2シグネチャモジュール:IL4、IL5、IL13、IL10、IL25、およびGATA3、Th17シグネチャモジュール:IL17A、IL22、IL26、IL17F、IL21、およびRORC、腫瘍促進サイトカインモジュール:IL10、TGFB1、TGFB2、TGFB3、IL22、およびMIF、補体阻害モジュール:CFD、CFI、CD55、CD46、CR1、およびCD59、線維芽細網細胞モジュール:DES、VIM、PDGFRA、PDPN、NT5E、THY1、ENG、ACTA2、LTBR、TNFRSF1A、VCAM1、ICAM1、およびBST1、癌関連線維芽細胞(CAFs)モジュール:COL1A1、COL1A2、COL4A1、COL5A1、TGFB1、TGFB2、TGFB3、ACTA2、FGF2、FAP、LRP1、CD248、COL6A1、COL6A2、COL6A3、FBLN1、LUM、MFAP5、LGALS1、およびPRELP、マトリクス形成(またはマトリクス)モジュール:MMP9、FN1、COL1A1、COL1A2、COL3A1、COL4A1、CA9、VTN、LGALS7、TIMP1、MMP2、MMP1、MMP3、MMP12、LGALS9、MMP7、およびCOL5A1、血管形成モジュール:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、CDH5、NOS3、VCAM1、MMRN1、LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3、内皮モジュール:VEGFA、NOS3、KDR、FLT1、VCAM1、VWF、CDH5、MMRN1、CLEC14A、MMRN2、およびECSCR、低酸素因子モジュール:LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3、血液凝固モジュール:HPSE、SERPINE1、SERPINB2、F3、およびANXA2、血液内皮モジュール:VEGFA、NOS3、KDR、FLT1、VCAM1、VWF、CDH5、およびMMRN1、リンパ管内皮モジュール:CCL21およびCXCL12、増殖率(または腫瘍増殖率)モジュール:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、E2F1、MYBL2、BUB1、PLK1、PRC1、CCNB1、MCM2、MCM6、CDK4、およびCDK6、癌遺伝子モジュール:MDM2、MYC、AKT1、BCL2、MME、およびSYK、PI3K/AKT/mTORシグナルモジュール:PIK3CA、PIK3CB、PIK3CG、PIK3CD、AKT1、MTOR、PTEN、PRKCA、AKT2、およびAKT3、RAS/RAF/MEKシグナルモジュール:BRAF、FNTA、FNTB、MAP2K1、MAP2K2、MKNK1、およびMKNK2、受容体チロシンキナーゼ発現モジュール:ALK、AXL、KIT、EGFR、ERBB2、FLT3、MET、NTRK1、FGFR1、FGFR2、FGFR3、ERBB4、ERBB3、BCR-ABL、PDGFRA、PDGFRB、およびABL1、成長因子モジュール:NGF、CSF3、CSF2、FGF7、IGF1、IGF2、IL7、およびFGF2、腫瘍抑制因子モジュール:TP53、MLL2、CREBBP、EP300、ARID1A、HIST1H1、EBF1、IRF4、IKZF3、KLHL6、PRDM1、CDKN2A、RB1、EPHA7、TNFAIP3、TNFRSF14、FAS、SHP1、SOCS1、SIK1、PTEN、DCN、MTAP、AIM2、およびMITF、転移シグネチャモジュール:ESRP1、HOXA1、SMARCA4、TWIST1、NEDD9、PAPPA、CTSL、SNAI2、およびHPSE、抗転移因子モジュール:NCAM1、CDH1、KISS1、BRMS1、ADGRG1、TCF21、PCDH10、およびMITF、ならびに突然変異状態モジュール:APC、ARID1A、ATM、ATRX、BAP1、BRAF、BRCA2、CDH1、CDKN2A、CTCF、CTNNB1、DNMT3A、EGFR、FBXW7、FLT3、GATA3、HRAS、IDH1、KRAS、MAP3K1、MTOR、NAV3、NCOR1、NF1、NOTCH1、NPM1、NRAS、PBRM1、PIK3CA、PIK3R1、PTEN、RB1、RUNX1、SETD2、STAG2、TAF1、TP53、およびVHL。いくつかの実施形態において、リストされているモジュールの任意の組み合わせからの2つまたはそれ以上の遺伝子が、被験者に対する分子機能発現シグネチャ(またはその可視化、本明細書では「MF PORTRAIT」と称される)を生成するために使用され得る。
いくつかの実施形態において、MFESにおける遺伝子群は、少なくとも2つの遺伝子を含むものとしてよい(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない)。主要組織適合性複合体I(MHC I)モジュール:HLA-A、HLA-B、HLA-C、B2M、TAP1、およびTAP2、主要組織適合性複合体II(MHC II)モジュール:HLA-DRA、HLA-DRB1、HLA-DOB、HLA-DPB2、HLA-DMA、HLA-DOA、HLA-DPA1、HLA-DPB1、HLA-DMB、HLA-DQB1、HLA-DQA1、HLA-DRB5、HLA-DQA2、HLA-DQB2、およびHLA-DRB6、同時活性化分子モジュール:CD80、CD86、CD40、CD83、TNFRSF4、ICOSLG、CD28、エフェクター細胞(またはエフェクターT細胞)モジュール:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、およびCD8B、ナチュラルキラー細胞(NK細胞)モジュール:NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GNLY、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、KIR2DS5、EOMES、CLIC3、FGFBP2、KLRF1、およびSH2D1B、T細胞モジュール:TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、TRAT1、CD5、およびCD28、B細胞モジュール:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、BLK、FCRL5、PAX5、およびSTAP1、M1シグネチャモジュール:NOS2、IL12A、IL12B、IL23A、TNF、IL1B、およびSOCS3、Th1シグネチャモジュール:IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、およびIL21、チェックポイント阻害(またはチェックポイント分子)モジュール:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、HAVCR2、およびVSIR、制御性T細胞(Treg)モジュール:TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、およびTNFRSF1B、骨髄由来抑制細胞(MDSCs)モジュール:IDO1、ARG1、IL4R、IL10、TGFB1、TGFB2、TGFB3、NOS2、CYBB、CXCR4、およびCD33、好中球シグネチャモデル:MPO、ELANE、PRTN3、CTSG、FCGR3B、CXCR1、CXCR2、CD177、PI3、FFAR2、およびPGLYRP1、M2シグネチャモジュール:IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、およびCSF1R、Th2シグネチャモジュール:IL4、IL5、IL13、IL10、IL25、およびGATA3、腫瘍促進サイトカインモジュール:IL10、TGFB1、TGFB2、TGFB3、IL22、およびMIF、補体阻害モジュール:CFD、CFI、CD55、CD46、およびCR1、癌関連線維芽細胞(CAFs)モジュール:COL1A1、COL1A2、COL4A1、COL5A1、TGFB1、TGFB2、TGFB3、ACTA2、FGF2、FAP、LRP1、CD248、COL6A1、COL6A2、COL6A3、FBLN1、LUM、MFAP5、およびPRELP、血管形成モジュール:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、CDH5、NOS3、VCAM1、およびMMRN1、内皮モジュール:VEGFA、NOS3、KDR、FLT1、VCAM1、VWF、CDH5、MMRN1、CLEC14A、MMRN2、およびECSCR、増殖率(または腫瘍増殖率)モジュール:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、E2F1、MYBL2、BUB1、PLK1、CCNB1、MCM2、MCM6、CDK4、およびCDK6、PI3K/AKT/mTORシグナルモジュール:PIK3CA、PIK3CB、PIK3CG、PIK3CD、AKT1、MTOR、PTEN、PRKCA、AKT2、およびAKT3、RAS/RAF/MEKシグナルモジュール:BRAF、FNTA、FNTB、MAP2K1、MAP2K2、MKNK1、およびMKNK2、受容体チロシンキナーゼ発現モジュール:ALK、AXL、KIT、EGFR、ERBB2、FLT3、MET、NTRK1、FGFR1、FGFR2、FGFR3、ERBB4、ERBB3、BCR-ABL、PDGFRA、PDGFRB、およびABL1、成長因子モジュール:NGF、CSF3、CSF2、FGF7、IGF1、IGF2、IL7、およびFGF2、腫瘍抑制因子モジュール:TP53、SIK1、PTEN、DCN、MTAP、AIM2、RB1、およびMITF、転移シグネチャモジュール:ESRP1、HOXA1、SMARCA4、TWIST1、NEDD9、PAPPA、およびHPSE、ならびに抗転移因子モジュール:NCAM1、CDH1、KISS1、およびBRMS1。いくつかの実施形態において、遺伝子群は、少なくとも2つの遺伝子をさらに含むものとしてよい(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない)。T細胞トラフィックモジュール:CXCL9、CXCL10、CXCR3、CX3CL1、CCR7、CXCL11、CCL21、CCL2、CCL3、CCL4、およびCCL5、抗腫瘍サイトカインモジュール:HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、およびFASLG、Tregトラフィックモジュール:CCL17、CXCL12、CXCR4、CCR4、CCL22、CCL1、CCL2、CCL5、CXCL13、およびCCL28、MDSCおよびTAMトラフィックモジュール:CXCL1、CXCL5、CCL2、CCL4、CCL8、CCR2、CCL3、CCL5、CSF1、およびCXCL8、顆粒球トラフィックモジュール:CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、およびCCL26、好酸球シグネチャモデル:PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、およびPRG3、マスト細胞シグネチャモジュール:CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、およびSIGLEC8、Th17シグネチャモジュール:IL17A、IL22、IL26、IL17F、IL21、およびRORC、マトリクス形成(またはマトリクス)モジュール:FN1、CA9、MMP1、MMP3、MMP12、LGALS9、MMP7、MMP9、COL1A1、COL1A2、COL4A1、およびCOL5A1、ならびに低酸素因子モジュール:LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3。いくつかの実施形態において、リストされているモジュールからの2つまたはそれ以上の遺伝子が含まれる。モジュールの前述のセットのいずれかが使用され、それにより、固形癌(たとえば、黒色腫)を有する被験者に対するMFES(またはその可視化)を生成し得る。
いくつかの実施形態において、遺伝子群は、少なくとも2つの遺伝子を含むものとしてよい(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない)。エフェクターT細胞モジュール:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、およびCD8B、ナチュラルキラー細胞(NK細胞)モジュール:NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GZMH、GNLY、IFNG、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、およびKIR2DS5、T細胞モジュール:EOMES、TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、およびTRAT1、良性B細胞モジュール:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、およびBLK、悪性B細胞マーカーモジュール:MME、CD70、CD20、CD22、およびPAX5、M1シグネチャモジュール:NOS2、IL12A、IL12B、IL23A、TNF、IL1B、およびSOCS3、Th1シグネチャモジュール:IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、およびIL21、チェックポイント阻害(またはチェックポイント分子)モジュール:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、およびHAVCR2、濾胞樹状細胞モジュール:CR1、FCGR2A、FCGR2B、FCGR2C、CR2、FCER2、CXCL13、MADCAM1、ICAM1、VCAM1、BST1、LTBR、およびTNFRSF1A、濾胞性BヘルパーT細胞モジュール:CXCR5、B3GAT1、ICOS、CD40LG、CD84、IL21、BCL6、MAF、およびSAP、腫瘍促進サイトカインモジュール:IL10、TGFB1、TGFB2、TGFB3、IL22、MIF、TNFSF13B、IL6、およびIL7、制御性T細胞(Treg)モジュール:TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、TNFRSF18、およびTNFR2、好中球シグネチャモデル:MPO、ELANE、PRTN3、およびCTSG、M2シグネチャモジュール:IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、およびCSF1R、Th2シグネチャモジュール:IL4、IL5、IL13、IL10、IL25、およびGATA3、補体阻害モジュール:CFD、CFI、CD55、CD46、CR1、およびCD59、線維芽細網細胞モジュール:DES、VIM、PDGFRA、PDPN、NT5E、THY1、ENG、ACTA2、LTBR、TNFRSF1A、VCAM1、ICAM1、およびBST1、血管形成モジュール:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、およびCDH5、血液内皮モジュール:VEGFA、NOS3、KDR、FLT1、VCAM1、VWF、CDH5、およびMMRN1、増殖率(または腫瘍増殖率)モジュール:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、E2F1、MYBL2、BUB1、PLK1、CCNB1、MCM2、およびMCM6、癌遺伝子モジュール:MDM2、MYC、AKT1、BCL2、MME、およびSYK、ならびに腫瘍抑制因子モジュール:TP53、MLL2、CREBBP、EP300、ARID1A、HIST1H1、EBF1、IRF4、IKZF3、KLHL6、PRDM1、CDKN2A、RB1、EPHA7、TNFAIP3、TNFRSF14、FAS、SHP1、およびSOCS1。いくつかの実施形態において、モジュールの遺伝子群は、少なくとも2つの遺伝子をさらに含むものとしてよい(たとえば、以下のリストに示されるように、少なくとも2つの遺伝子、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択され、いくつかの実施形態において、選択された各群の遺伝子の数は同じではない)。同時活性化分子モジュール:TNFRSF4およびCD28、B細胞トラフィックモジュール:CXCL13およびCXCR5、抗腫瘍サイトカインモジュール:HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、FASLG、Tregトラフィックモジュール:CCL17、CCR4、CCL22、およびCXCL13、好酸球シグネチャモデル:PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、およびPRG3、マスト細胞シグネチャモジュール:CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、およびSIGLEC8、Th17シグネチャモジュール:IL17A、IL22、IL26、IL17F、IL21、およびRORC、マトリクス形成(またはマトリクス)モジュール:MMP9、FN1、COL1A1、COL1A2、COL3A1、COL4A1、CA9、VTN、LGALS7、TIMP1、およびMMP2、低酸素因子モジュール:LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3、血液凝固モジュール:HPSE、SERPINE1、SERPINB2、F3、およびANXA2、ならびにリンパ管内皮モジュール:CCL21およびCXCL12。いくつかの実施形態において、リストされているモジュールからの2つまたはそれ以上の遺伝子が含まれる。モジュールの前述のセットのいずれかが使用され、それにより、濾胞性リンパ腫を有する被験者に対するMFES(またはその可視化)を生成し得る。
いくつかの実施形態において、MFESは、癌の悪性度に関連する1つまたは複数の遺伝子群と、癌の微小環境に関連する1つまたは複数の遺伝子群とを含み得る。いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、腫瘍プロパティ遺伝子群を含む。いくつかの実施形態において、癌微小環境と関連する遺伝子群は、腫瘍促進免疫微小環境遺伝子群、抗腫瘍免疫微小環境遺伝子群、遺伝子血管形成群、および遺伝子線維芽細胞群を含む。
いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、次の群からの少なくとも3つの遺伝子をさらに含むものとしてよい(たとえば、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子が各群から選択され、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択される)。腫瘍プロパティ群:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、CDK4、CDK6、PRC1、E2F1、MYBL2、BUB1、PLK1、CCNB1、MCM2、MCM6、PIK3CA、PIK3CB、PIK3CG、PIK3CD、AKT1、MTOR、PTEN、PRKCA、AKT2、AKT3、BRAF、FNTA、FNTB、MAP2K1、MAP2K2、MKNK1、MKNK2、ALK、AXL、KIT、EGFR、ERBB2、FLT3、MET、NTRK1、FGFR1、FGFR2、FGFR3、ERBB4、ERBB3、BCR-ABL、PDGFRA、PDGFRB、NGF、CSF3、CSF2、FGF7、IGF1、IGF2、IL7、FGF2、TP53、SIK1、PTEN、DCN、MTAP、AIM2、RB1、ESRP1、CTSL、HOXA1、SMARCA4、SNAI2、TWIST1、NEDD9、PAPPA、HPSE、KISS1、ADGRG1、BRMS1、TCF21、CDH1、PCDH10、NCAM1、MITF、APC、ARID1A、ATM、ATRX、BAP1、BRAF、BRCA2、CDH1、CDKN2A、CTCF、CTNNB1、DNMT3A、EGFR、FBXW7、FLT3、GATA3、HRAS、IDH1、KRAS、MAP3K1、MTOR、NAV3、NCOR1、NF1、NOTCH1、NPM1、NRAS、PBRM1、PIK3CA、PIK3R1、PTEN、RB1、RUNX1、SETD2、STAG2、TAF1、TP53、およびVHL。
いくつかの実施形態において、癌の微小環境に関連する遺伝子群は、次の群の各々からの少なくとも3つの遺伝子を含む(たとえば、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子が各群から選択され、いくつかの実施形態において、リストされた遺伝子のすべてが各群から選択される)。抗腫瘍免疫微小環境群:HLA-A、HLA-B、HLA-C、B2M、TAP1、TAP2、HLA-DRA、HLA-DRB1、HLA-DOB、HLA-DPB2、HLA-DMA、HLA-DOA、HLA-DPA1、HLA-DPB1、HLA-DMB、HLA-DQB1、HLA-DQA1、HLA-DRB5、HLA-DQA2、HLA-DQB2、HLA-DRB6、CD80、CD86、CD40、CD83、TNFRSF4、ICOSLG、CD28、IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、CD8B、NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GZMH、GNLY、IFNG、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、KIR2DS5、CXCL9、CXCL10、CXCR3、CX3CL1、CCR7、CXCL11、CCL21、CCL2、CCL3、CCL4、CCL5、EOMES、TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、TRAT1、CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、BLK、NOS2、IL12A、IL12B、IL23A、TNF、IL1B、SOCS3、IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、IL21、HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、およびFASLG、腫瘍促進免疫微小環境群:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、HAVCR2、VSIR、CXCL12、TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、TNFRSF1B、CCL17、CXCR4、CCR4、CCL22、CCL1、CCL2、CCL5、CXCL13、CCL28、IDO1、ARG1、IL4R、IL10、TGFB1、TGFB2、TGFB3、NOS2、CYBB、CXCR4、CD33、CXCL1、CXCL5、CCL2、CCL4、CCL8、CCR2、CCL3、CCL5、CSF1、CXCL8、CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、CCL26、PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、PRG3、CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、SIGLEC8、MPO、ELANE、PRTN3、CTSG、IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、CSF1R、IL4、IL5、IL13、IL10、IL25、GATA3、IL10、TGFB1、TGFB2、TGFB3、IL22、MIF、CFD、CFI、CD55、CD46、およびCR1、線維芽細胞群:LGALS1、COL1A1、COL1A2、COL4A1、COL5A1、TGFB1、TGFB2、TGFB3、ACTA2、FGF2、FAP、LRP1、CD248、COL6A1、COL6A2、およびCOL6A3、ならびに血管形成群:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、CDH5、NOS3、KDR、VCAM1、MMRN1、LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3。いくつかの実施形態において、等しくない個数の遺伝子が、使用のためにリストされた群の各々から選択され得る。特定の実施形態では、リストされた遺伝子のすべてまたはほとんどすべてが使用される。
いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、増殖率群、PI3K/AKT/mTORシグナル伝達群、RAS/RAF/MEKシグナル伝達群、受容体チロシンキナーゼ発現群、腫瘍抑制因子群、転移シグネチャ群、抗転移因子群、ならびに突然変異状態群である。いくつかの実施形態において、癌の微小環境に関連する遺伝子群は、癌関連線維芽細胞群、血管形成群、抗原提示群、細胞傷害性T細胞およびNK細胞群、B細胞群、抗腫瘍微小環境群:チェックポイント阻害群、Treg群、MDSC群、顆粒球群、および腫瘍促進性免疫群である。
いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、次の群の各々からの少なくとも3つの遺伝子を含む(たとえば、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子が各群から選択される)。増殖率群:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、CDK4、CDK6、PRC1、E2F1、MYBL2、BUB1、PLK1、CCNB1、MCM2、およびMCM6、PI3K/AKT/mTORシグナル伝達群:PIK3CA、PIK3CB、PIK3CG、PIK3CD、AKT1、MTOR、PTEN、PRKCA、AKT2、およびAKT3、RAS/RAF/MEKシグナル伝達群:BRAF、FNTA、FNTB、MAP2K1、MAP2K2、MKNK1、およびMKNK2、受容体チロシンキナーゼ発現群:ALK、AXL、KIT、EGFR、ERBB2、FLT3、MET、NTRK1、FGFR1、FGFR2、FGFR3、ERBB4、ERBB3、BCR-ABL、PDGFRA、およびPDGFRB、腫瘍抑制因子群:TP53、SIK1、PTEN、DCN、MTAP、AIM2、およびRB1、転移シグネチャ群:ESRP1、CTSL、HOXA1、SMARCA4、SNAI2、TWIST1、NEDD9、PAPPA、およびHPSE、抗転移因子群:KISS1、ADGRG1、BRMS1、TCF21、CDH1、PCDH10、NCAM1、およびMITF、ならびに突然変異状態群:APC、ARID1A、ATM、ATRX、BAP1、BRAF、BRCA2、CDH1、CDKN2A、CTCF、CTNB1、DNMT3A、EGFR、FBXW7、FLT3、GATA3、HRAS、IDH1、KRAS、MAP3K1、MTOR、NAV3、NCOR1、NF1、NOTCH1、NPM1、NRAS、PBRM1、PIK3CA、PIK3R1、PTEN、RB1、RUNX1、SETD2、STAG2、TAF1、TP53、およびVHL。
いくつかの実施形態において、癌の微小環境に関連する遺伝子群は、次の群の各々からの少なくとも3つの遺伝子を含む(たとえば、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子が各群から選択される)。癌関連線維芽細胞群:LGALS1、COL1A1、COL1A2、COL4A1、COL5A1、TGFB1、TGFB2、TGFB3、ACTA2、FGF2、FAP、LRP1、CD248、COL6A1、COL6A2、およびCOL6A3、血管形成群:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、CDH5、NOS3、KDR、VCAM1、MMRN1、LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3、抗原提示群:HLA-A、HLA-B、HLA-C、B2M、TAP1、TAP2、HLA-DRA、HLA-DRB1、HLA-DOB、HLA-DPB2、HLA-DMA、HLA-DOA、HLA-DPA1、HLA-DPB1、HLA-DMB、HLA-DQB1、HLA-DQA1、HLA-DRB5、HLA-DQA2、HLA-DQB2、HLA-DRB6、CD80、CD86、CD40、CD83、TNFRSF4、ICOSLG、およびCD28、細胞傷害性T細胞およびNK細胞群:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、CD8B、NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GZMH、GNLY、IFNG、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、KIR2DS5、CXCL9、CXCL10、CXCR3、CX3CL1、CCR7、CXCL11、CCL21、CCL2、CCL3、CCL4、CCL5、EOMES、TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、およびTRAT1、B細胞群:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、およびBLK、抗腫瘍微小環境群:NOS2、IL12A、IL12B、IL23A、TNF、IL1B、SOCS3、IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、IL21、HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、およびFASLG、チェックポイント阻害群:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、HAVCR2、およびVSIR、Treg群:CXCL12、TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、TNFRSF1B、CCL17、CXCR4、CCR4、CCL22、CCL1、CCL2、CCL5、CXCL13、およびCCL28、MDSC群:IDO1、ARG1、IL4R、IL10、TGFB1、TGFB2、TGFB3、NOS2、CYBB、CXCR4、CD33、CXCL1、CXCL5、CCL2、CCL4、CCL8、CCR2、CCL3、CCL5、CSF1、およびCXCL8、顆粒球群:CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、CCL26、PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、PRG3、CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、SIGLEC8、MPO、ELANE、PRTN3、およびCTSG、腫瘍促進免疫群:IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、CSF1R、IL4、IL5、IL13、IL10、IL25、GATA3、IL10、TGFB1、TGFB2、TGFB3、IL22、MIF、CFD、CFI、CD55、CD46、およびCR1。いくつかの実施形態において、等しくない個数の遺伝子が、使用のためにリストされた群の各々から選択され得る。特定の実施形態では、リストされた遺伝子のすべてまたはほとんどすべてが使用される。
いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、増殖率群、PI3K/AKT/mTORシグナル伝達群、RAS/RAF/MEKシグナル伝達群、受容体チロシンキナーゼ発現群、成長因子群、腫瘍抑制因子群、転移シグネチャ群、抗転移因子群、および突然変異状態群である。いくつかの実施形態において、癌の微小環境に関連する複数の遺伝子群は、癌関連線維芽細胞群、血管形成群、MHCI群、MHCII群、同時活性化分子群、エフェクター細胞群、NK細胞群、T細胞トラフィック群、T細胞群、B細胞群、M1シグネチャ群、Th1シグネチャ群、抗腫瘍サイトカイン群、チェックポイント阻害群、Treg群、MDSC群、顆粒球群、M2シグネチャ群、Th2シグネチャ群、腫瘍促進サイトカイン群、および補体阻害群である。
いくつかの実施形態において、癌の悪性度に関連する遺伝子群は、次の群の各々からの少なくとも3つの遺伝子を含む(たとえば、少なくとも3つの遺伝子、少なくとも4つの遺伝子、少なくとも5つの遺伝子、少なくとも6つの遺伝子、少なくとも7つの遺伝子、少なくとも8つの遺伝子、少なくとも9つの遺伝子、少なくとも10個の遺伝子、または10個より多い遺伝子が各群から選択される)。増殖率群:MKI67、ESCO2、CETN3、CDK2、CCND1、CCNE1、AURKA、AURKB、CDK4、CDK6、PRC1、E2F1、MYBL2、BUB1、PLK1、CCNB1、MCM2、およびMCM6、PI3K/AKT/mTORシグナル伝達群:PIK3CA、PIK3CB、PIK3CG、PIK3CD、AKT1、MTOR、PTEN、PRKCA、AKT2、およびAKT3、RAS/RAF/MEKシグナル伝達群:BRAF、FNTA、FNTB、MAP2K1、MAP2K2、MKNK1、およびMKNK2、受容体チロシンキナーゼ発現群:ALK、AXL、KIT、EGFR、ERBB2、FLT3、MET、NTRK1、FGFR1、FGFR2、FGFR3、ERBB4、ERBB3、BCR-ABL、PDGFRA、およびPDGFRB、成長因子群:NGF、CSF3、CSF2、FGF7、IGF1、IGF2、IL7、およびFGF2、腫瘍抑制因子群:TP53、SIK1、PTEN、DCN、MTAP、AIM2、およびRB1、転移シグネチャ群:ESRP1、CTSL、HOXA1、SMARCA4、SNAI2、TWIST1、NEDD9、PAPPA、およびHPSE、抗転移因子群:KISS1、ADGRG1、BRMS1、TCF21、CDH1、PCDH10、NCAM1、およびMITF、ならびに突然変異状態群:APC、ARID1A、ATM、ATRX、BAP1、BRAF、BRCA2、CDH1、CDKN2A、CTCF、CTNNB1、DNMT3A、EGFR、FBXW7、FLT3、GATA3、HRAS、IDH1、KRAS、MAP3K1、MTOR、NAV3、NCOR1、NF1、NOTCH1、NPM1、NRAS、PBRM1、PIK3CA、PIK3R1、PTEN、RB1、RUNX1、SETD2、STAG2、TAF1、TP53、およびVHL。いくつかの実施形態において、癌の微小環境に関連する複数の遺伝子群は、次の群の各々からの少なくとも3つの遺伝子を含む。癌関連線維芽細胞群:LGALS1、COL1A1、COL1A2、COL4A1、COL5A1、TGFB1、TGFB2、TGFB3、ACTA2、FGF2、FAP、LRP1、CD248、COL6A1、COL6A2、およびCOL6A3、血管形成群:VEGFA、VEGFB、VEGFC、PDGFC、CXCL8、CXCR2、FLT1、PIGF、CXCL5、KDR、ANGPT1、ANGPT2、TEK、VWF、CDH5、NOS3、KDR、VCAM1、MMRN1、LDHA、HIF1A、EPAS1、CA9、SPP1、LOX、SLC2A1、およびLAMP3、MHCI群:HLA-A、HLA-B、HLA-C、B2M、TAP1、およびTAP2、MHCII群:HLA-DRA、HLA-DRB1、HLA-DOB、HLA-DPB2、HLA-DMA、HLA-DOA、HLA-DPA1、HLA-DPB1、HLA-DMB、HLA-DQB1、HLA-DQA1、HLA-DRB5、HLA-DQA2、HLA-DQB2、およびHLA-DRB6、同時活性化分子群:CD80、CD86、CD40、CD83、TNFRSF4、ICOSLG、およびCD28、エフェクター細胞群:IFNG、GZMA、GZMB、PRF1、LCK、GZMK、ZAP70、GNLY、FASLG、TBX21、EOMES、CD8A、およびCD8B、NK細胞群:NKG7、CD160、CD244、NCR1、KLRC2、KLRK1、CD226、GZMH、GNLY、IFNG、KIR2DL4、KIR2DS1、KIR2DS2、KIR2DS3、KIR2DS4、およびKIR2DS5、T細胞トラフィック群:CXCL9、CXCL10、CXCR3、CX3CL1、CCR7、CXCL11、CCL21、CCL2、CCL3、CCL4、およびCCL5、T細胞群:EOMES、TBX21、ITK、CD3D、CD3E、CD3G、TRAC、TRBC1、TRBC2、LCK、UBASH3A、およびTRAT1、B細胞群:CD19、MS4A1、TNFRSF13C、CD27、CD24、CR2、TNFRSF17、TNFRSF13B、CD22、CD79A、CD79B、およびBLK、M1シグネチャ群:NOS2、IL12A、IL12B、IL23A、TNF、IL1B、およびSOCS3、Th1シグネチャ群:IFNG、IL2、CD40LG、IL15、CD27、TBX21、LTA、およびIL21、抗腫瘍サイトカイン群:HMGB1、TNF、IFNB1、IFNA2、CCL3、TNFSF10、およびFASLG、チェックポイント阻害群:PDCD1、CD274、CTLA4、LAG3、PDCD1LG2、BTLA、HAVCR2、およびVSIR、Treg群:CXCL12、TGFB1、TGFB2、TGFB3、FOXP3、CTLA4、IL10、TNFRSF1B、CCL17、CXCR4、CCR4、CCL22、CCL1、CCL2、CCL5、CXCL13、およびCCL28、MDSC群:IDO1、ARG1、IL4R、IL10、TGFB1、TGFB2、TGFB3、NOS2、CYBB、CXCR4、CD33、CXCL1、CXCL5、CCL2、CCL4、CCL8、CCR2、CCL3、CCL5、CSF1、およびCXCL8、顆粒球群:CXCL8、CXCL2、CXCL1、CCL11、CCL24、KITLG、CCL5、CXCL5、CCR3、CCL26、PRG2、EPX、RNASE2、RNASE3、IL5RA、GATA1、SIGLEC8、PRG3、CMA1、TPSAB1、MS4A2、CPA3、IL4、IL5、IL13、SIGLEC8、MPO、ELANE、PRTN3、およびCTSG、M2シグネチャ群:IL10、VEGFA、TGFB1、IDO1、PTGES、MRC1、CSF1、LRP1、ARG1、PTGS1、MSR1、CD163、およびCSF1R、Th2シグネチャ群:IL4、IL5、IL13、IL10、IL25、およびGATA3、腫瘍促進サイトカイン群:IL10、TGFB1、TGFB2、TGFB3、IL22、およびMIF、ならびに補体阻害群:CFD、CFI、CD55、CD46、およびCR1。いくつかの実施形態において、等しくない個数の遺伝子が、使用のためにリストされた群の各々から選択され得る。特定の実施形態では、リストされた遺伝子のすべてまたはほとんどすべてが使用される。
分子機能発現シグネチャは、任意の好適な数の遺伝子群を含み得る。いくつかの実施形態において、MFESは、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、少なくとも20個、少なくとも21個、少なくとも22個、少なくとも23個、少なくとも24個、少なくとも25個、少なくとも26個、少なくとも27個、または少なくとも28個のモジュールを含む。いくつかの実施形態において、MFESは、最大2個、最大3個、最大4個、最大5個、最大6個、最大7個、最大8個、最大9個、最大10個、最大11個、最大12個、最大13個、最大14個、最大15個、最大16個、最大17個、最大18個、最大19個、最大20個、最大21個、最大22個、最大23個、最大24個、最大25個、最大26個、最大27個、または最大28個までの遺伝子群を含む。
腫瘍の微小環境の種類
本発明者らは、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対する分子機能発現シグネチャが、被験者の癌の微小環境に関する貴重な情報を提供し得ることを認識している。本発明者らは、被験者のMFESが、被験者の微小環境を複数のタイプのうちの1つとして分類するために使用され得ることを認識している。たとえば、いくつかの実施形態において、MFESは、被験者の微小環境が4つの異なるタイプの微小環境(たとえば、「第1のMFプロファイル」または「タイプA」の微小環境、「第2のMFプロファイル」または「タイプB」の微小環境、「第3のMFプロファイル」または「タイプC」の微小環境、「第4のMFプロファイル」または「タイプD」の微小環境であり、これらは、参照により全体が本明細書に組み込まれている国際PCT公開第WO2018/231771号で説明されている)の1つであると分類するために使用され得る。ひいては、識別された微小環境のタイプは、癌療法を識別するために、および/または1つまたは複数の癌治療法に対する有効性(またはその欠如)を決定するために使用される。癌微小環境のタイプ(たとえば、分子機能発現シグネチャまたは分子機能プロファイルの一部である遺伝子群発現データから決定される)に基づき癌療法を識別する例は、国際PCT公開第WO2018/231771号に記載されている。
第1のMFプロファイルの癌は、「炎症/血管新生」および/または「炎症/線維芽細胞富化」とも記述され、第2のMFプロファイルの癌は、「炎症/非血管新生」および/または「炎症/非線維芽細胞富化」とも記述され、第3のMFプロファイルの癌は、「非炎症/血管新生」および/または「非炎症/線維芽細胞富化」とも記述され、第4のMFプロファイルの癌は、「非炎症/非血管新生」および/または「非炎症/非線維芽細胞富化」および/または「免疫砂漠」とも記述され得る。
いくつかの実施形態において、「炎症」は、癌(たとえば、腫瘍)における炎症に関連する組成物およびプロセスのレベルを指す。いくつかの実施形態において、炎症を起こした癌(たとえば、腫瘍)は、免疫細胞によって高度に浸潤されており、抗原提示およびT細胞活性化に関して高度に活発である。いくつかの実施形態において、「血管新生」は、癌(たとえば、腫瘍)における血管の形成を指す。いくつかの実施形態において、血管新生癌(たとえば、腫瘍)は、血管形成に関係する高レベルの細胞組成物およびプロセスを含む。いくつかの実施形態において、「線維芽細胞富化」は、癌(たとえば、腫瘍)における線維芽細胞のレベルまたは量を指す。いくつかの実施形態において、線維芽細胞富化腫瘍は、高レベルの線維芽細胞を含んでいる。
治療反応の予測
いくつかの実施形態において、本明細書で説明されているシステムおよび方法を用いて取得されたシークエンシングデータ(たとえば、バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を用いて処理されたデータなど)は、内容全体が参照により本明細書に組み込まれている2018年12月20日に公開された国際PCT公開第WO2018/231771号、名称「Systems and Methods for Generating, Visualizing and Classifying Molecular Functional Profiles」(2018年6月12日に出願したPCT出願第PCT/US2018/037017号の公開である)において説明されているように、特定の治療に適した被験者を識別し、および/または特定の治療に対する患者の反応またはその欠如の可能性を予測し、および/または患者が特定の療法に対して1つまたは複数の有害反応を有し得るか否かを予測するために使用され得る。
いくつかの実施形態において、本明細書で説明されているように取得されたシークエンシングデータ(たとえば、バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を使用して処理されたデータなど)は、特定の治療に適した被験者を識別するのに有用である。いくつかの実施形態において、本明細書で説明されているように取得されたシークエンシングデータ(たとえば、バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を使用して処理されたデータなど)は、特定の治療への患者の反応またはその欠如の可能性を予測するのに有用である。いくつかの実施形態において、本明細書で説明されているように取得されたシークエンシングデータ(たとえば、バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を使用して処理されたデータなど)は、患者が特定の療法に対して1つまたは複数の有害反応を有し得るか否かを予測するのに有用である。
いくつかの実施形態において、免疫チェックポイント阻害療法の予測される有効性は、内容全体が参照により本明細書に組み込まれている2018年12月20日に公開された国際PCT公開第WO2018/231772号、名称「Systems and Methods for Identifying Responders and Non-Responders to Immune Checkpoint Blockade Therapy」(2018年6月12日に出願した国際特許出願第PCT/US2018/037018号の公開である)において説明されているように、本明細書における説明に従って取得されたシークエンシングデータ(たとえば。バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を使用して処理されたデータなど)を使用して決定され得る。
いくつかの実施形態において、本明細書で説明されているように取得されたシークエンシングデータ(たとえば、バイアス補正された遺伝子発現データ、本明細書において説明されている品質管理技術を使用して処理されたデータなど)は、内容全体が参照により本明細書に組み込まれている2018年12月20日に公開された国際PCT公開第WO2018/231762号、名称「Systems and Methods for Identifying Cancer Treatments from Normalized Biomarker Scores」(2018年6月12日に出願した国際特許出願第PCT/US2018/037008号の公開である)において説明されているように、バイオマーカー、バイオマーカースコア、正規化バイオマーカースコア、療法スコア、および/またはインパクトスコアを決定するのに有用である。
治療方法
本明細書において説明されているいくつかの方法では、本明細書において説明されている抗癌剤治療の有効量が、適切な経路(たとえば、静脈内投与)を介して、治療を必要とする被験者(たとえば、ヒト)に投与されるか、または投与を推奨され得る。
本明細書において説明されている方法によって治療されるべき被験者は、癌を有する、癌を有する疑いがある、または癌のリスクがあるヒト患者であってよい。癌の例は、限定はしないが、黒色腫、肺癌、脳腫瘍、乳癌、大腸癌、膵臓癌、肝臓癌、前立腺癌、皮膚癌、腎臓癌、膀胱癌、または前立腺癌を含む。本明細書において説明されている方法によって治療されるべき被験者は、哺乳類であってよい(たとえば、ヒトであってよい)。哺乳類は、限定はしないが、農場動物(たとえば、家畜)、スポーツ動物、実験動物、ペット、霊長類、ウマ、イヌ、ネコ、マウス、およびラットを含む。
癌を有する被験者は、定期検診、たとえば、検査室での検査、生検、PETスキャン、CTスキャン、超音波検査によって識別され得る。癌を有する疑いがある被験者は、原因不明の体重減少、発熱、疲労、咳、痛み、皮膚の変化、異常な出血もしくは排出、および/または体の一部の肥厚もしくはしこりの1つまたは複数の疾患の兆候を示すことがある。癌のリスクがある被験者は、その疾患に対する危険因子の1つまたは複数を有する被験者であり得る。たとえば、癌に関連する危険因子は、限定はしないが、(a)ウイルス感染(たとえば、ヘルペスウイルス感染)、(b)年齢、(c)家族歴、(d)大量のアルコール摂取、(e)肥満、(f)遺伝、および(g)化学物質または毒素への曝露、ならびに(h)喫煙を含む。
本明細書で使用されているような「有効量」は、単独で、または1つもしくは複数の他の活性剤と組み合わせて、被験者に治療効果を与えるために必要な各活性剤の量を指す。有効量は、当業者が認識しているように、治療される特定の状態、状態の重症度、年齢、身体的状態、体格、性別、体重を含む個別患者パラメータ、治療期間、同時療法の性質(もしあれば)、特定の投与経路、ならびに医療従事者の知識および専門知識技術の範囲内の要因によって変化する。これらの要因は、当業者にはよく知られており、定期検診程度で対処できる。一般的には、個々の成分またはそれらの組合せの最大用量が使用されることが好ましい、すなわち、正しい医学的判断による最高の安全用量である。しかしながら、当業者であれば、医療上の理由、心理的な理由、またはその事実上任意の他の理由で、患者がより低い用量または耐容容量を強く要求することがあることを理解するであろう。
投与量の決定には、治療用化合物の半減期などの経験的な考慮事項が一般的に寄与する。たとえば、ヒト化抗体または完全ヒト抗体など、ヒト免疫系に適合した抗体が、抗体の半減期を延ばし、抗体が宿主の免疫系に攻撃されるのを防ぐために使用され得る。投与の頻度は、治療の過程で決定され、調整されてもよく、一般的に(必ずしもそうではないが)、癌の治療、および/または抑制、および/または寛解、および/または遅延に基づく。代替的に、抗癌治療薬の持続的な徐放性製剤が適切な場合もある。徐放性を達成するための様々な製剤およびデバイスが当技術分野で知られている。
いくつかの実施形態において、本明細書で説明されている抗癌治療薬の投与量は、抗癌治療薬の1回または以上の回数の投与を受けたことのある個体において経験的に決定されてよい。抗癌治療薬の増量分を個人に投与してもよい。投与された抗癌治療薬の有効性を評価するために、癌の1つまたは複数の態様(たとえば、腫瘍形成、腫瘍成長、腫瘍型、MF発現シグネチャ)が分析され得る。
一般的に、本明細書において説明されている抗癌抗体のうちのどれかを投与するために、初期候補投与量は約2mg/kgであってよい。本開示の目的のために、典型的な1日投与量は、上述の要因に応じて、0.1μg/kgから3μg/kgから30μg/kgから300μg/kgから3mg/kgから30mg/kgから100mg/kgまたはそれ以上のおおよそいずれかの範囲であり得る。症状に応じて数日またはそれ以上にわたって繰り返し投与する場合、症状の所望の抑制もしくは改善が起こるまで、または癌、もしくはその1つもしくは複数の症状を緩和するために十分な治療レベルが達成されるまで、治療が持続される。例示的な投薬処方は、約2mg/kgの初期用量を投与し、次いで約1mg/kgの抗体の維持用量を毎週投与するか、または約1mg/kgの維持用量を隔週で投与することを含む。しかしながら、施術者(たとえば、医師)が達成したい薬物動態学的減衰のパターンに応じて、他の投与計画も有用であり得る。たとえば、1週間に1から4回の投薬が企図される。いくつかの実施形態において、約3μg/mgから約2mg/kg(たとえば、約3μg/mg、約10μg/mg、約30μg/mg、約100μg/mg、約300μg/mg、約1mg/kg、および約2mg/kg)の範囲の投薬が使用され得る。いくつかの実施形態において、投与頻度は、1週間に1回、2週間に1回、4週間に1回、5週間に1回、6週間に1回、7週間に1回、8週間に1回、9週間に1回、もしくは10週間に1回、または1カ月に1回、2カ月に1回、もしくは3カ月に1回、またはそれ以上である。この療法の進行状況は、従来の技術およびアッセイによって、および/または本明細書において説明されているように癌のタイプA~Dを監視することによって、監視され得る。投薬処方(使用される治療薬を含む)は、時間とともに変化し得る。
抗癌治療薬が抗体ではないときに、患者の体重の約0.1から300mg/kgを1から3回に分ける率で投与され得るか、または本明細書において説明されているように投与されてもよい。いくつかの実施形態において、正常体重の成人患者について、約0.3から5.00mg/kgの範囲の用量が投与されてもよい。特定の投与計画、たとえば、投薬、タイミング、および/または反復は、特定の被験者およびその個人の病歴、さらには個別の薬剤のプロパティ(薬剤の半減期、および当技術分野でよく知られている他の考慮事項など)に依存するであろう。
本開示の目的について、抗癌治療薬の適切な投与量は、採用される特定の抗癌治療薬(またはその組成物)、癌の型および重症度、抗癌治療薬が予防目的で投与されるか治療目的で投与されるか、以前の療法、患者の臨床歴および抗癌治療薬に対する反応、および主治医の裁量に依存する。通常、臨床医は、所望の結果を達成する投与量に達するまで、抗体などの抗癌治療薬を投与する。
抗癌治療薬の投与は、たとえば、被投与者の生理的状態、投与の目的が治療であるか予防であるか、および当業者に知られている他の要因に応じて、連続的または間欠的に行うことができる。抗癌治療薬(たとえば、抗癌抗体)の投与は、予め選択された期間にわたって本質的に連続的であり得るか、または、たとえば、癌を発症する前、発症している間、または発症後のいずれかにおいて、一連の間隔をあけた投薬であってもよい。
本明細書で使用されているように、「治療する」という言い回しは、1つまたは複数の活性剤を含む組成物を、癌、癌の症状、または癌になりやすい傾向を有する被験者に、癌、癌の1つまたは複数の症状、または癌になりやすい傾向を治すか、癒すか、緩和するか、和らげるか、変えるか、救済するか、改善するか、好転させるか、または影響を与えることを目的として、塗布するかまたは投与することを指す。
癌を緩和することは、疾病の発症もしくは進行を遅らせること、または疾病重症度を低減することを含む。疾病を緩和することは、必ずしも治癒結果を必要としない。本明細書で使用されているように、疾病(たとえば、癌)の発症を「遅らせること」は、疾病の進行を遅らせる、妨げる、遅くする、遅延させる、安定させる、および/または延期することを指す。この遅延の時間は、疾病の履歴および/または治療されている個人に応じて、様々の長さであり得る。疾病の発症を「遅らせる」もしくは緩和するか、または疾病の出現を遅らせる方法は、その方法を使用しない場合と比較したときに、所与の時間枠内で疾病の1つまたは複数の症状を発症する確率を低減し、および/または所与の時間枠内で症状の程度を低減する方法である。このような比較は、典型的には、統計的に有意な結果を与えるのに十分な数の被験者を使用する、臨床研究に基づく。
疾病の「発症」または「進行」は、疾病の最初の症状および/またはその後の進行を意味する。疾病の発症は、当技術分野で知られている臨床技術を使用して検出され、評価され得る。当技術分野で知られている臨床技術の代わりに、またはそれに加えて、疾病の発症は、本明細書において説明されている癌型に基づき検出可能であり評価され得る。しかしながら、発症は、検出不可能であり得る進行も指す。本開示の目的に関して、発症または進行は、症状の生物学的な経過を指す。「発症」は、発生、再発、および出現を含む。本明細書で使用されているように、癌の「出現」または「発生」は、最初の出現および/または再発を含む。
いくつかの実施形態において、本明細書において説明されている抗癌治療薬(たとえば、抗体)は、癌(たとえば、腫瘍)の増殖を少なくとも10%(たとえば、20%、30%、40%、50%、60%、70%、80%、90%またはそれ以上)減少させるのに十分な量で、治療を必要とする被験者に投与される。いくつかの実施形態において、本明細書において説明されている抗癌治療薬(たとえば、抗体)は、癌細胞数または腫瘍サイズを少なくとも10%(たとえば、20%、30%、40%、50%、60%、70%、80%、90%またはそれ以上)減少させるのに十分な量で、治療を必要とする被験者に投与される。他の実施形態では、抗癌治療薬は、癌型を変化させるのに有効な量だけ投与される。代替的に、抗癌治療薬は、腫瘍形成または転移を低減させるのに有効な量だけ投与される。
医学分野の当業者に知られている従来の方法は、治療されるべき疾病の種類または疾病の部位に応じて、被験者に抗癌治療薬を投与するために使用され得る。抗癌治療薬は、また、他の従来の経路を介して投与され得る、たとえば、経口投与、非経口投与、吸入スプレーによる投与、局所投与、直腸投与、鼻腔投与、頬投与、膣投与、埋め込み型リザーバーによる投与で投与され得る。本明細書で使用されているような「非経口」という言い回しは、皮下、皮内、静脈内、筋肉内、関節内、動脈内、骨膜内、胸骨内、髄腔内、病変内、頭蓋内の注射または注入技術を含む。それに加えて、抗癌治療薬は、1カ月、3カ月、または6カ月のデポ型注射可能または生分解可能材料および方法を使用するなど、注射可能なデポ型投与経路を介して被験者に投与され得る。
注射可能組成物は、植物油、ジメチルラクタミド、ジメチルホルムアミド、乳酸エチル、炭酸エチル、ミリスチン酸イソプロピル、エタノール、およびポリオール(たとえば、グリセロール、プロピレングリコール、液状ポリエチレングリコール、および同様のもの)などの様々な担体を含み得る。静脈注射では、水溶性抗癌治療薬が、抗体と生理的許容可能賦形剤を含有する医薬製剤が注入される点滴法で投与され得る。生理的許容可能賦形剤は、たとえば、5%のブドウ糖、0.9%の生理食塩水、リンゲル液、および/または他の好適な賦形剤を含み得る。筋肉内製剤、たとえば、抗癌治療薬の好適な可溶性塩形態の無菌製剤は、注射用蒸留水、0.9%の生理食塩水、および/または5%のブドウ糖溶液などの医薬賦形剤に溶解されて投与され得る。
一実施形態において、抗癌治療薬は、部位特異的または標的局所送達技術を介して投与される。部位特異的または標的局所送達技術の例は、薬剤の様々な植え込み可能なデポソース、または注入カテーテル、留置カテーテル、もしくは針カテーテルなどの局所送達カテーテル、合成グラフト、外膜ラップ、シャントおよびステントもしくは他の植え込み可能なデバイス、部位特異的担体、直接注入、または直接塗布を含む。たとえば、各内容がこの目的のために参照により本明細書に組み込まれている国際PCT公開第WO00/53211号および米国特許第5,981,568号を参照されたい。
アンチセンスポリヌクレオチド、発現ベクター、またはサブゲノムポリヌクレオチドを含む治療薬組成物の標的送達も使用できる。受容体媒介DNA送達技術は、たとえば、Findeisら、Trends Biotechnol. (1993年)11:202、Chiouら、「Gene Therapeutics: Methods And Applications Of Direct Gene Transfer」(J. A. Wolff, ed.)(1994年)、Wuら、J. Biol. Chem.(1988年)263:621、Wuら、J. Biol. Chem.(1994年) 269:542、Zenkeら、Proc. Natl. Acad. Sci. USA (1990年)87:3655、Wuら、J. Biol. Chem.(1991年)266:338において説明されている。前述の各々の内容は、この目的に関して参照により本明細書に組み込まれている。
ポリヌクレオチドを含む治療薬組成物は、遺伝子治療プロトコルにおける局所投与のために、DNAの約100ngから約200mgの範囲内で投与されてよい。いくつかの実施形態において、DNAの約500ngから約50mg、約1μgから約2mg、約5μgから約500μg、および約20μgから約100μgまたはそれ以上の濃度範囲も、遺伝子療法プロトコルにおいて使用され得る。
治療ポリヌクレオチドおよびポリペプチドは、遺伝子送達賦形剤を使用して送達され得る。遺伝子送達賦形剤は、ウイルスまたは非ウイルス起源のものであってよい(たとえば、Jolly、Cancer Gene Therapy(1994年)1:51、Kimura、Human Gene Therapy(1994年)5:845、Connelly、Human Gene Therapy(1995年)1:185、およびKaplitt、Nature Genetics(1994年)6:148)。前述の各々の内容は、この目的に関して参照により本明細書に組み込まれている。そのようなコード配列の発現は、内因性哺乳類もしくは異種プロモーターおよび/またはエンハンサーを使用して誘導され得る。コード配列の発現は、構成的であるか、または調節され得る。
所望のポリヌクレオチドの送達および所望の細胞内の発現のためのウイルスベースのベクターは、当技術分野でよく知られている。例示的なウイルスベース賦形剤は、限定はしないが、組換えレトロウイルス(たとえば、国際PCT公開第WO90/07936号、国際PCT公開第WO94/03622号、国際PCT公開第WO93/25698号、国際PCT公開第WO93/25234号、国際PCT公開第WO93/11230号、国際PCT公開第WO93/10218号、国際PCT公開第WO91/02805号、米国特許第5,219,740号、米国特許第4,777,127号、イギリス特許第2,200,651号、および欧州特許第0 345 242号参照)、アルファウイルスベースのベクター(たとえば。シンドビスウイルスベクター、セムリキ森林熱ウイルス(ATCC VR-67、ATCC VR-1247)、ロスリバーウイルス(ATCC VR-373、ATCC VR-1246)およびベネズエラウマ脳炎ウイルス(ATCC VR-923、ATCC VR-1250、ATCC VR 1249、ATCC VR-532))、およびアデノ随伴ウイルス(AAV)ベクター(たとえば、国際PCT公開第WO94/12649号、国際PCT公開第WO93/03769号、国際PCT公開第WO93/19191号、国際PCT公開第WO94/28938号、国際PCT公開第WO95/11984号、国際PCT公開第WO95/00655号参照)。Curiel、Hum. Gene Ther. (1992年)3:147において説明されているような死滅アデノウイルスに連結されたDNAの投与が採用され得る。前述の各々の内容は、この目的に関して参照により本明細書に組み込まれている。
非ウイルス送達賦形剤および方法も採用することができ、これは、限定はしないが、死滅アデノウイルスに単独で連結されるか、または連結されていないポリカチオン凝縮DNA(たとえば、Curiel, Hum. Gene Ther. (1992年) 3:147を参照)、リガンド連結DNA(たとえば、Wu、J. Biol. Chem. (1989) 264:16985を参照)、真核細胞送達賦形剤細胞(たとえば、米国特許第5,814,482号、国際PCT公開第WO95/07994号、国際PCT公開第WO96/17072号、国際PCT公開第WO95/30763号、および国際PCT公開第WO97/42338号を参照)、および核電荷の中和または細胞膜との融合を含む。裸のDNAも採用され得る。例示的な裸のDNAの導入方法は、国際PCT公開第WO90/11092号および米国特許第5,580,859号において説明されている。遺伝子送達賦形剤として働き得るリポソームは、米国特許第5,422,120号、国際PCT公開第WO95/13796号、国際PCT公開第WO94/23697号、国際PCT公開第WO91/14445号、および欧州特許第0524968号において説明されている。追加のアプローチは、Philip、Mol. Cell. Biol. (1994年)14:2411、およびWoffendin、Proc. Natl. Acad. Sci. (1994年)91:1581において説明されている。前述の各々の内容は、この目的に関して参照により本明細書に組み込まれている。
また、発現ベクターは、タンパク質ベースの抗癌治療薬(たとえば、抗癌抗体)のいずれかの発現を指令するために使用され得ることも明らかである。たとえば、癌を引き起こす生物学的活性を遮断(部分的な遮断から完全な遮断まで)することができるペプチド阻害剤は、当技術分野で知られている。
いくつかの実施形態において、抗体および低分子阻害性化合物などの、複数の抗癌治療薬が、治療を必要とする被験者に投与され得る。薬剤は、同じ種類のものであっても、互いに異なる種類のものであってもよい。少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、または少なくとも5つの異なる薬剤が同時投与されてもよい。一般的に、投与のための抗癌剤は、お互いに悪影響を及ぼさない相補的な活性を有する。また、抗癌治療薬は、薬剤の効果を増強し、および/または補完する役割を果たす他の薬剤と併用してもよい。
治療効果は、当技術分野でよく知られている方法、たとえば、治療を受けた患者における腫瘍増殖または形成を監視することによって評価され得る。代替的に、またはそれに加えて、治療効果は、治療の過程(たとえば、治療前、治療中、および治療後)で腫瘍型を監視することによって、評価され得る。
併用療法
単剤療法と比較して、治療アプローチの組合せは、多くの研究において高い有効性を示しているが、組み合わされるべき治療手段の選択および併用療法の処方計画の設計は、まだ推測の域を出ていない。現在、可能な組み合わせの数が非常に多くなっていることを考えると、特定の患者に関する客観的情報に基づき薬剤および治療手段の組合せを選択するのに役立つツールが非常に必要である。特定の併用療法を設計するか、または選択するために患者特異的な情報(たとえば、患者のシークエンシングデータ)を使用することで、調製の最適な組合せを選択するための科学的根拠を確立する。
また、本明細書において提供されているのは、抗癌治療薬の任意の組合せ、または1つもしくは複数の抗癌治療薬および1つもしくは複数の付加療法(たとえば、手術および/または放射線療法)を使用して癌を治療するか、または癌を治療することを推奨する方法である。併用療法という用語は、本明細書で使用されているように、逐次的に複数の治療(たとえば、抗体および低分子、または抗体および放射線療法)を施す、すなわち各治療薬を異なる時刻に投与すること、さらには実質的に同時に、これらの治療薬、または薬剤もしくは療法のうちの少なくとも2つを施すことを包含する。
各薬剤または療法を逐次的にまたは実質的な同時に施すことは、限定はしないが、経口経路、静脈内経路、筋肉内経路、皮下経路、および粘膜組織を通しての直接吸収を含む任意の適切な経路の影響を受け得る。薬剤または療法は、同じ経路で、または異なる経路で施され得る。たとえば、第1の薬剤(たとえば、低分子)が経口投与され、第2の薬剤(たとえば、抗体)が静脈内投与され得る。
本明細書で使用されているように、「逐次」という用語は、他に特に規定がなければ、規則的な順序または順番によって特徴付けられることを意味し、たとえば、投与計画が抗体および低分子の投与を含む場合、逐次投与計画は、低分子の投与の前、投与と同時に、投与と実質的に同時に、または投与後に、抗体を投与することを含むことも可能であるが、両方の薬剤は規則的な順序または順番で投与される。「分離」は、他に特に規定がなければ、一方を他方から離しておくことを意味する。「同時に」とは、他に特に規定がなければ、同時に起こる、または行われることを意味する、すなわち、本発明の薬剤が同時に投与されることを意味する。「実質的に同時に」という言い回しは、薬剤が互いの数分以内(たとえば、互いの10分以内)に投与されることを意味し、ジョイント投与さらには連続投与を包含することを意図しているが、投与が連続する場合、短い期間だけ時間的に分離される(たとえば、医療従事者が2つの薬剤を別々に投与するのにかかる時間)。本明細書で使用されているように、併用投与および実質的同時投与は交換可能に使用される。逐次投与は、本明細書において説明されている薬剤また療法を時間的に分離して施すことを指す。
併用療法は、抗癌治療薬(たとえば、抗体)を他の生物学的活性成分(たとえば、ビタミン)および非薬物療法(たとえば、手術または放射線療法)とさらに組み合わせて投与することも包含することができる。
抗癌治療薬の任意の組合せが、癌を治療するために任意の順序で使用され得ることは理解されるべきである。本明細書において説明されている組合せは、多くの要因に基づいて選択され、これらの要因は、限定はしないが、識別された腫瘍型を変化させることの有効性、腫瘍形成または腫瘍増殖を減少させることの有効性、および/または癌に関連する少なくとも1つの症状を緩和することの有効性、または組合せの別の薬剤の副作用を緩和することに対する有効性を含む。たとえば、本明細書において説明されている併用療法は、組合せの各個別メンバーに関連する副作用、たとえば、投与される抗癌剤に関連する副作用のどれかを低減し得る。
いくつかの実施形態において、抗癌治療薬は、抗体、免疫療法、放射線療法、外科療法、および/または化学療法である。
抗体抗癌剤の例は、限定はしないが、アレムツズマブ(Campath)、トラスツズマブ(Herceptin)、イブリツモマブ・チウキセタン(Zevalin)、ブレンツキシマブ・ベドチン(Adcetris)、アド・トラスツズマブ・エムタンシン(Kadcyla)、ブリナツモマブ(Blincyto)、ベバシズマブ(Avastin)、セツキシマブ(Erbitux)、イピリムマブ(Yervoy)、ニボルマブ(Opdivo)、ペムブロリズマブ(Keytruda)、アテゾリズマブ(Tecentriq)、アベルマブ(Bavencio)、デュルバルマブ(Imfinzi)、パニツムマブ(Vectibix)を含む。
免疫療法の例は、限定はしないが、PD-1阻害剤、PD-L1阻害剤、CTLA-4阻害剤、養子免疫細胞療法、治療癌ワクチン、ウイルス療法、T細胞療法、および免疫チェックポイント阻害剤を含む。いくつかの実施形態において、免疫療法は、キメラ抗原受容体(CAR)T細胞療法を含み得る。CARは、T細胞用に設計され、T細胞受容体(TcR)複合体のシグナル伝達ドメインおよび抗原認識ドメイン(たとえば、抗体の一本鎖フラグメント(scFv))とのキメラである(Enbladら、Human Gene Therapy. 2015年、26(8):498~505頁)。2015; 26(8):498-505)。いくつかの実施形態において、抗原結合受容体は、キメラ抗原受容体(CAR)である。CARを発現したT細胞は、「CAR T細胞」と称される。CAR T細胞受容体は、いくつかの実施形態において、T細胞受容体(TcR)複合体のシグナル伝達ドメインと、抗原認識ドメイン(たとえば、抗体の一本鎖フラグメント(scFv))とを含む(Enbladら、Human Gene Therapy. 2015年、26(8):498~505頁)。
放射線療法の例は、限定はしないが、電離放射線、ガンマ線、中性子ビーム放射線療法、電子ビーム放射線療法、陽子線療法、ブラキテラピー、全身放射性同位元素、および放射線増感剤を含む。
外科療法の例は、限定はしないが、根治目的の手術(たとえば、腫瘍除去手術)、予防手術、腹腔鏡手術、およびレーザー手術を含む。
化学療法薬の例は、限定はしないが、カルボプラチンまたはシスプラチン、ドセタキセル、ゲムシタビン、ナブパクリタキセル、パクリタキセル、ペメトレキセド、およびビノレルビンを含む。
化学療法の追加の例は、限定はしないが、カルボプラチン、オキサリプラチン、シスプラチン、ネダプラチン、サトラプラチン、ロバプラチン、トリプラチン、テトラニトレート、ピコプラチン、プロリンダック、アロプラチン、および他の誘導体などの、白金製剤、カンプトテシン、トポテカン、イリノテカン/SN38、ルビテカン、ベロテカン、および他の誘導体などの、トポイソメラーゼI阻害剤、エトポシド(VP-16)、ダウノルビシン、ドキソルビシン剤などの、トポイソメラーゼII阻害剤(たとえば、ドキソルビシン、ドキソルビシン塩酸塩、ドキソルビシン類似体、またはリポソーム中のドキソルビシンおよびその塩もしくは類似体)、ミトキサントロン、アクラルビシン、エピルビシン、イダルビシン、アムルビシン、アムサクライン、ピラルビシン、バルルビシン、ゾルビシン、テニポシド、および他の誘導体、葉酸ファミリーなどの代謝拮抗物質(メトトレキサート、ペメトレキセド、ラルチトレキセド、アミノプテリン、およびその近縁または誘導体)、プリン系アンタゴニスト(チオグアニン、フルダラビン、クラドリビン、6-メルカプトプリン、ペントスタチン、クロファラビン、およびそれらの近縁または誘導体)、ピリミジン系アンタゴニスト(シタラビン、フロクスリジン、アザシチジン、テガフール、カルモフール、キャパシタビン、ジェムシタビン、ヒドロキシウレア、5-フルオロウラシル(5FU)、およびそれらの近縁または誘導体)、ナイトロジェンマスタードなどのアルキル化剤(たとえば、シクロホスファミド、メルファラン、クロラムブシル、メクロレタミン、イホスファミド、メクロレタミン、トロホスファミド、プレドニムスチン、ベンダムスチン、ウラムスチン、エストラムスチン、およびそれらの近縁または誘導体)、ニトロソウレア(たとえば、カルムスチン、ロムスチン、セムスチン、ホテムスチン、ニムスチン、ラニムスチン、ストレプトゾシン、およびそれらの近縁または誘導体)、トリアゼン(たとえば、ダカルバジン、アルトレタミン、テモゾロミド、およびそれらの近縁または誘導体)、アルキルスルホン酸塩(たとえば、ブスルファン、マンノスルファン、トレオスルファン、およびそれらの近縁または誘導体)、プロカルバジン、ミトブロニトール、およびアジリジン(たとえば、カルボコン、トリアジコン、ThioTEPA、トリエチレンメラミン、およびそれらの近縁または誘導体)、ヒドロキシウレアなどの抗生物質、アントラサイクリン系薬剤(たとえば ドキソルビシン剤、ダウノルビシン、エピルビシンおよびその近縁または誘導体)、アントラセンジオン(Anthracenediones)(たとえば、ミトキサントロンおよびその近縁または誘導体)、ストレプトミセス属(Streptomyces family)の抗生物質(たとえば、ブレオマイシン、ミトマイシンC、アクチノマイシン、およびプリカマイシン)、ならびに紫外線を含む。
(実施例)
本明細書において説明されている発明がより完全に理解されるようにするために、次の実施例が提示されている。本出願において説明されている実施例は、本明細書で提供される方法、組成物、およびシステムを例示するために提供されるものであり、いかなる形でもそれらの範囲を限定するものとして解釈されるべきではない。
(実施例1)
WESおよびRNAシークエンシングに対するワークフロー
以下に提供されるのは、癌を有するか、または癌を有する疑いがある被験者からの検体採取、そこからのDNAおよび/またはRNAの抽出、DNAライブラリの調製(RNAからのライブラリ調製の場合はcDNA)、およびデータ処理の例である。
検体採取
癌を有するか、または癌を有する疑いがある被験者から生体サンプルを採取する前に、十分な量の滅菌済み器具、消耗品、および試薬(たとえば、消化緩衝液)が検証された。
腫瘍組織(バルク)については、被験者から30mgの腫瘍組織が採取され、RNA-laterとともに2mlの極低温チューブに入れられ、次いで、内容物が急速凍結された。検体は必要に応じてドライアイスで輸送された。
血液サンプル(「正常組織」(または非癌組織)とみなされる)については、0.5~1mLの全血が、少なくともサンプルIDおよび採取日時が記載されたEDTAバキュテイナ採血管(プラスチック製が好ましい)に採取された。次いで、バキュテイナ管が、吸収材とともに封止バイオハザードバッグに入れられた。EDTA内の全血が必要に応じてドライアイス上で凍結され、必要に応じて他の検体と一緒に検査室に送られた。図1Bは、サンプル採取プロセスを含むプロセスの一実施形態を例示している。
CYTOFおよびRNA-seqのための単細胞懸濁液の作製(SCS、任意選択、妥当性確認)
以下の手順が、50mLの冷えたL-15培地(1x)で採取された腫瘍サンプルから単細胞懸濁液(SCS)を作製するために使用された。
1)腫瘍サンプルを入れた容器を、氷上で手術室から解剖用の生物学的安全フードに移すが、外科的切除からベンチまで約60~90分を要する。
2)腫瘍サンプルを新鮮なL-15培地が入っている100×15mmのシャーレに移す。湾曲したハサミを使用して、L-15を入れた滅菌シャーレ上で腫瘍を1~2mm3の断片に切り分け、組織の湿気を保つ。25mLの酵素カクテルを収容する50mLの円錐管に、0.5gmの腫瘍組織を加える。
3)管を370℃の温度で45分間、85rpmの速度のシェーカーに置く。
4)45分後、10mLピペットを使用して内容物を激しくピペッティングする。同じ条件でさらに45分間インキュベートする。
5)インキュベーション後、サンプルを70μmセルストレーナーに通して濾過し、新しい50mL円錐管に移す。3mLシリンジの背を使用して、セルストレーナーを軽く押し、残っている組織をバラバラにする。
6)10% FBSを含む暖かい(37℃の)L-15培地25mLをセルストレーナーに通し、50mL円錐管内に入れる。
7)室温で300gの遠心分離を5分間行う。上清を別の容器に静かに移す。
8)暖かい(37℃の)1X eBioscience多種RBC溶解緩衝液10mLを加える。暗室内で室温により5分間インキュベートする。
9)インキュベーション後、40mLの冷たい1X PBSを管に加える。5分間、40℃で300gの遠心分離を行う。上清を別の容器に静かに移す。10% FBSとともに冷たいDMEM 10mLを加え、ペレットを静かに再懸濁する。
10)5分間、40℃で300gの遠心分離を行う。上清を別の容器に静かに移す。10% FBSとともに冷たい1mLのL-15中で細胞を再懸濁する。
11)サンプルを70μmセルストレーナーに通して濾過し、新しい50mL円錐管に移す。
12)トリパンブルーを使用して細胞をカウントする。また、MoxiFlowを使用して生存能力を評価する(4μLの細胞+196μlのMoxiFlow Viability Reagent、検査には75μLを使用する)。
2,000,000個の細胞が等分されて15mL円錐管内に入れられた。細胞がペレット化された後(2*106超)、各溶解物は、1.5mLの微小遠心管内の500~750μlのRNAlater/RNA Protect中で再懸濁された。この1.5ml管は、ティッシュペーパー/ペーパータオルを上に置いて1.5mL管を固定して、50mL円錐管内に入れられた。次いで、50mL管は、腫瘍検体とともにドライアイスで輸送され得る。
バルク生検からのDNAおよびRNAの抽出
正常なDNAおよびRNAの抽出。生検検体からのDNAは、DSP DNA Midi Kit(QiagenR)を使用し、QIAsymphony(www.qiagen.com/us/shop/automated-solutions/sample-preparation/qiasymphony-spas-instruments/)上で自動化プロセスを使用して抽出された。
各DNAサンプルについて、少なくとも10μlの体積の全DNA質量1000~2000ng(たとえば、最小10μlで100~200ng/μl)が採取された。さらに、抽出されたDNA溶液は、~1.8の260/280比を有していた。
トータルRNA質量の最低でも1000~6000ngが採取された。Agilent社のBioAnalyzerまたはTape Stationで取得されたRNA Integrity Number(RIN)スコアは少なくとも7であった。
腫瘍DNAおよび腫瘍RNAの抽出。Qiagen(登録商標)社のAllPrep DNA/RNA Mini Kitを使用して30mgの組織からDNAおよびRNAが抽出された(製造業者が記載しているマニュアルプロセスを使用)。
SCSに対するDNA/RNA抽出およびCYTOF
抽出:Qiagen(登録商標)社のRNeasy Micro Plus Kitが使用された(マニュアルプロセス)が使用された。抽出には最低2,000,000個の細胞が使用された。以下のTable 1(表1)は、合計200万個未満の細胞からRNAが抽出される場合に、RNA濃度、収量、および品質が実質的に低下することを示している。200万個の細胞は少なくとも1.8μgのRNAをもたらすこと判明しており、これは、良質なRNAseqデータ(すなわち、ノイズが少なく、同じタンパク質コードRNAの異なるアイソフォーム内のRNA発現の間の相関性がよい)には十分な量である。より良い品質のためには、1μgを超えるRNAを有することが推奨される。
CyTOF:RNAseqに使用されることにならない細胞(最低500万個)を冷細胞染色緩衝液(CSB)中に懸濁し、氷上に置いて抗体標識の準備をする。
ライブラリ調製、RNAシークエンシング、およびWES
Illuminaライブラリが、調製され、品質管理(たとえば、Tapestation D1000 High Sensitivity DNAスクリーンテープを使用して)に通され、それによりその完全性とピークサイズを評価した。分析では、2μLで最大1ngまでのライブラリを消費した。
DNAサンプル(腫瘍組織および生殖細胞系列血液)の全エクソームシークエンシング(WES)は、Agilent Human All Exon V6 Capture(48.2 Mb)またはClinical Research Exome(54.6 Mb)を使用して実行された。WES Illuminaディープシークエンシングは、標準的なNextSeq RNA-seq構成、Paired-End 100bp Readsを用いて、推定カバレッジ>100倍で実行された。
RNAサンプル(腫瘍組織およびSCS)上のRNAシークエンシングは、捕捉されたDNA(ポリA mRNA-seq)のIlumina TruSeq RNA Library Prep PCR濃縮、非鎖(データをThe Cancer Genome Atlas(TCGA)のデータと比較するため)ペアエンド100bp Reads(75+75)を使用して、推定カバレッジ>5,000万ペアエンドリードで、実行された。
ポリA濃縮
異なるRNA濃縮方法は、RNA転写産物の様々な濃縮をもたらす。リボRNA枯渇法では、ライブラリ内に10~50%の非コード転写産物(rRNA、miRNA、長非コードRNA(LncRNA)など)を保持する。したがって、タンパク質コードリードのパーセンテージは、RNA濃縮の方法によって大きく異なる。臨床現場では、タンパク質コード転写産物の発現に焦点が当てられていた。ポリA濃縮は、rRNA枯渇と比較して、より安定した制御可能な割合のタンパク質コード転写産物をもたらした(図2)。
さらに、ポリA濃縮が使用されており、タンパク質コードRNAが濃縮されたことが知られていたので、非鎖RNAに対してRNAシークエンシングが実行された。図2Bは、鎖RNAまたは非鎖RNAのいずれかがシークエンシングに使用されたときに見られる、IL24、ICAM4、およびGAPDH RNAのRNA発現レベルの違いを示している。
FASTQファイルの処理、およびRNA発現評価
NextSeq BCLファイル形式の生データは、標準的なIllumina FASTQ形式に変換された。本明細書において説明されているように、さらなる分析に適した任意のタイプの形式が使用され得る。この例では、FASTQデータは、標準的な品質管理アルゴリズム(たとえば、FastQ Screen(www.bioinformatics.babraham.ac.uk/projects/fastqc/)、RSeQC(rseqc.sourceforge.net/))を使用する品質管理を受け、サンプル間のバッチ効果がないか、または最低限であるTPM内の遺伝子毎の発現量を得るために処理された。FASTQファイルの形式のデータは、安全なSFTPサーバーまたはIllumina BaseSpaceを介して配信された。
FASTQファイルの品質を確実にする品質管理ステップ
次は、FASTQファイル内のデータの品質管理を確実にすることに関わるステップである。
(1)低品質リードの削除。これは、任意の適切なソフトウェアまたはツールを使用して、位置情報に基づくなどで低品質とみなされるリードを評価しおよび/または除去することによって実行することができる。いくつかの実施形態において、低品質リードは、FILTERBYTILE(たとえば、www.filterbytile.sh(from BBmap))を使用して除去することができる。いくつかの実施形態において、低品質リード(たとえば、不良タイル)は、配列ファイル(たとえば、FASTQファイル)から除去される。いくつかの実施形態において、リードの品質が低すぎて、十分な信頼度でさらなる分析を行うことができない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、不良タイルがサンプルの閾値より大きいパーセンテージ(たとえば、50%)を表す場合、分析パイプラインは終了する。
(2)様々なパラメータに基づき品質管理を確実にする。これは、品質管理の信頼性を評価するために、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、品質管理は、FastQC(たとえば、www.bioinformatics.babraham.ac.uk/projects/fastqc/)を使用することによって確実にされ得る。いくつかの実施形態において、品質管理は、ライブラリの複雑度の尺度としてリードカウントを検討することによって確実にされ得る。いくつかの実施形態において、品質管理は、塩基毎のPhred品質スコアをプラットフォームのシークエンシング品質の尺度として検討することによって確実にされ得る。いくつかの実施形態において、品質管理は、タイル毎の品質スコアを検討することによって確実にされ得る。いくつかの実施形態において、品質管理は、配列毎のGC含有量を検討して汚染を識別することによって確実にされ得る。いくつかの実施形態において、品質管理は、塩基毎のシークエンシング含有量を検討してアダプタおよび他の汚染を識別することによって確実にされ得る。いくつかの実施形態において、品質管理は、配列重複レベルをRNA/DNA選択およびPCRの品質の尺度として検討することによって確実にされ得る。いくつかの実施形態において、品質管理は、アダプタ含有量を検討することによって確実にされ得る。
いくつかの実施形態において、品質管理が十分な信頼度でさらなる分析を行う上で確実にされ得ない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、リードカウントが閾値より大きい値(たとえば、>20mln)を表すか、またはPhredが閾値より大きいパーセンテージ(たとえば、>50%の緑色ゾーン)を表す場合、分析パイプラインは終了する。
(3)異異種間汚染を決定する。これは、異種間汚染を評価するために、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、異種間汚染は、Fastq Screen(たとえば、www.bioinformatics.babraham.ac.uk/projects/fastq_screen/_build/html/index.html)を使用することによって決定され得る。いくつかの実施形態において、種間汚染は、マウス、ゼブラフィッシュ、ショウジョウバエ(drosophila)、セノラブディティス・エレガンス(C. elegans)、サッカロミセス属(Saccharomyces)、シロイヌナズナ、マイクロバイオーム、アダプタ、ベクター、およびphiXなどの様々な種からの汚染を含むことができる。いくつかの実施形態において、異種間汚染が深刻すぎて、十分な信頼度でさらなる分析を行うことができない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、汚染が閾値より大きいパーセンテージ(たとえば、>20%)を表す場合、分析パイプラインは終了する。
(4)様々なパラメータに基づきデータの品質を確実にする。これは、品質を評価するために、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、品質管理は、Mosdepth(たとえば、github.com/brentp/mosdepth)を使用することによって確実にされ得る。いくつかの実施形態において、品質は、(性別予測アルゴリズムとして)染色体毎のカバレッジ分布を決定することによって確実にされ得る。いくつかの実施形態において、品質は、o特定領域カバレッジ分布(たとえば、Collaborative Consensus Coding Sequence(CCDS)、エクソンなど)を決定することによって確実にされ得る。いくつかの実施形態において、データの品質が低すぎて、十分な信頼度でさらなる分析を行うことができない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、臨床的に重要なゲノム領域のカバレッジの確認が失敗した場合、分析パイプラインは終了する。
(5)データの特定の特性の存在および品質を確実にする。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、データの特定の特性の存在または品質は、Picard(broadinstitute.github.io/picard/)を使用することによって確実にされ得る。いくつかの実施形態において、特定の特性は、二重のパーセンテージ数とすることができる。いくつかの実施形態において、特定の特性は、マッピングされた領域であってよい。いくつかの実施形態において、特定の特性は、適切にペアリングされた領域であってよい。
(6)様々なパラメータに基づき品質管理を確実にする。これは、品質管理の信頼性を評価するために、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、品質管理は、RseQC(たとえば、rseqc.sourceforge.net/)を使用することによって確実にされ得る。いくつかの実施形態において、品質管理は、鎖性分析を検討して鎖または非鎖RNA-seqプロトコルを証明することによって確実にされ得る。いくつかの実施形態において、品質管理は、遺伝子本体のカバレッジを検討し抽出プロトコル(ポリA/トータルRNA-seq)およびRINに起因するカバレッジバイアスを検出することによって確実にされ得る。いくつかの実施形態において、品質管理は、エクソン、イントロン、転写終結部位(TES)、および転写開始部位(TSS)のリード分布を検討することによって確実にされ得る。いくつかの実施形態において、品質管理が十分な信頼度でさらなる分析を行う上で確実にされ得ない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、重複がRNAに対して閾値より大きいパーセンテージ(たとえば、<60%)を表すか、またはアダプタ汚染に対して閾値より小さいパーセンテージ(たとえば、<20%)を表す場合、分析パイプラインは終了する。
(7)サンプルの対(たとえば、同じ患者からの腫瘍/正常)の一致を決定することによって個体間汚染をチェックする。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、個体間汚染は、Conpair(たとえば、github.com/nygenome/Conpair)を使用することによって決定され得る。いくつかの実施形態において、個体間汚染が深刻すぎて、十分な信頼度でさらなる分析を行うことができない場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、正常DNAが腫瘍DNAと一致しない場合、分析パイプラインは終了する。いくつかの実施形態において、大きな個体間汚染が検出された場合、分析パイプラインは終了する。
(8)腫瘍型分類器を実行する。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、遺伝子発現ベースの分類器が使用され得る。たとえば、異なる組織型の以前にシークエンシングされた腫瘍のRNAseqで訓練された遺伝子発現ベースの分類器が、腫瘍型を分類するために使用され得る。そのような分類器の例は、本明細書において、また全体が参照により本明細書に組み込まれている2019年12月5日に出願した米国仮特許出願第62/943,976号、名称「Machine Learning Techniques for Gene Expression Analysis」において説明されている。いくつかの実施形態において、これは、遺伝子発現データに基づきRNA-seqデータから腫瘍型を予測することを可能にする。いくつかの実施形態において、腫瘍型が十分な信頼度でさらなる分析を行う上でミスマッチである場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、臨床医からの主張された腫瘍型が決定された腫瘍型と一致しない場合、分析パイプラインは終了する。
(9)ライブラリタイプを予測する。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、RNA-seq型分類器が使用され得る。いくつかの実施形態において、RNA-seq型分類器は、XGboost(たとえば、xgboost.readthedocs.io/en/latest/)の訓練済みモデル上の遺伝子発現ベースの分類器であり得る。いくつかの実施形態において、ライブラリタイプの予測は、RNA-seqデータからの特定の遺伝子の発現に基づく。いくつかの実施形態において、ライブラリタイプが十分な信頼度でさらなる分析を行う上でミスマッチである場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、主張されたライブラリタイプが決定されたライブラリタイプ(たとえば、トータルRNA-seq、またはポリA-RNA-seq)と一致しない場合、分析パイプラインは終了する。
(10)HLA対立遺伝子の一致をチェックする。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、MHC対立遺伝子の組成が決定され得る。いくつかの実施形態において、HLA対立遺伝子が十分な信頼度でさらなる分析を行う上でミスマッチである場合に、データ分析パイプラインは停止され得る。たとえば、いくつかの実施形態において、サンプルからのHLA対立遺伝子がサンプルのソースを確認しない場合、分析パイプラインは終了する。
(11)異なる転写産物型に対する発現の分布分析を実行する。これは、任意の好適なソフトウェアまたはツールを使用して実行され得る。いくつかの実施形態において、転写産物型は、Mt rRNA、Mt tRNA、lincRNA、miRNA、misc RNA、タンパク質コーディング、rRNA、snRNA、snoRNA、リボザイム、Ig、処理済み、NMD、または保持されたイントロンであってよい。いくつかの実施形態において、1つまたは複数の転写産物型が決定され得る。いくつかの実施形態において、データ分析パイプラインは、転写産物型が、十分な信頼度でさらなる分析を行うのに適していない場合に停止され得る。たとえば、いくつかの実施形態において、転写産物がより大きい閾値パーセンテージを表す場合(たとえば、>70%の転写産物がタンパク質コード転写産物である場合)、分析パイプラインは終了する。
アライメント
アライメントは、任意の好適なソフトウェアまたはツールを使用して実行され得る。たとえば、ハイスループットシークエンシングリードを使用して、たとえばバルクおよび単細胞RNA-Seqデータから、転写産物を定量化するためのプログラム(たとえば、Githubから入手可能なKalliso、www.github.com、たとえばNicolas L Bray、Harold Pimentel、Pall MelstedおよびLior Pachter、「Near-optimal probabilistic RNA-seq quantification」、Nature Biotechnology 34、525~527頁(2016年)、doi:10.1038/nbt.3519に記載されているような)が、入力FASTQファイルとともに実行された。Kalistoインデックス作成が以下に基づき実行された。
a. PAR遺伝子座からのオーバーラップ遺伝子が取り除かれたGRCh38ゲノムアセンブリ(alt分析なし)。
b. GENCODE V23網羅的アノテーション(領域ALL)(www.gencodegenes.org)に基づく遺伝子アノテーション。
その後、転写産物発現がTPM(Transcripts Per Kilobase Million)で表されるファイルが取得された。
データに対する非コード転写産物の除去および他のバイアス
Transcripts Per Million (TPM)単位の発現は、遺伝子の発現を濃度(転写産物100万個中の)の形式で提示することを可能にする。これは、カバレッジおよびRNAシークエンシングの深さが異なるサンプルの比較を可能にする。
TPMでは、各遺伝子の塩基長によるリードカウントの補正を使用しており、したがっていくつかの非コード転写産物(miRNA、snRNA、snoRNA)は非常に小さい転写産物長を有するのでTPM計算後に非コード転写産物の分布が不均一なサンプル中に大きなバイアスを生じる可能性がある。図3は、TPM計算後に生じるバイアスを示している。
RNAライブラリ内の非コード転写産物の不均一な分布に基づくバッチを取り除くために、非コード転写産物は、さらなるRNA発現定量化の前にデータから取り除かれた。
除外したタイプは以下の通である。
{pseudogene, polymorphic_pseudogene, processed_pseudogene, transcribed_processed_pseudogene, unitary_pseudogene, unprocessed_pseudogene, transcribed_unitary_pseudogene, IG_C_pseudogene, IG_J_pseudogene, IG_V_pseudogene, transcribed_unprocessed_pseudogene, translated_unprocessed_pseudogene TR_J_pseudogene, TR_V_pseudogene
snRNA, snoRNA, miRNA
Ribozyme, rRNA, Mt_tRNA, Mt_rRNA, scaRNA
retained_intron, sense_intronic, sense_overlapping
nonsense_mediated_decay, non_stop_decay
Antisense, lincRNA, macro_lncRNA
processed_transcript, 3prime_overlapping_ncrna
sRNA, misc_RNA, vaultRNA, TEC}
保持されたタイプ:
{protein_coding,
Ig (IG_C_gene, IG_D_gene, IG_J_gene, IG_V_gene)
TCR (TR_C_gene, TR_D_gene, TR_J_gene, TR_V_gene)}
非コード転写産物を取り除くことに加えて、ポリA RNAシークエンシングとトータルRNAシークエンシングとの間に最も高い分散を有することが判明した遺伝子も取り除かれた。そのような遺伝子は、(1)ヒストンコード遺伝子、および(2)ミトコンドリア関連遺伝子を含み、非常に長いかまたは非常に短いポリAテールを有し、その結果、転写産物の濃縮が不均一になった。
図4Aは、異なるヒストンコード遺伝子に対するポリAテールの長さのばらつきを示している。図4Bは、ポリA濃縮またはリボ-RNA枯渇のいずれかによってRNAが濃縮されたサンプル(トータルRNA)内のヒストンコード遺伝子およびミトコンドリア遺伝子の発現の比較を示している。除外される遺伝子は、本開示において説明されている(たとえば、タンパク質非コード領域からの転写産物、ヒストンコード遺伝子、およびミトコンドリア関連遺伝子)。
遺伝子集約およびTPM正規化
遺伝子毎の発現は、遺伝子に対する転写産物の発現の総和として計算された。遺伝子発現データは、転写産物の総数(百万単位)で正規化された。この手順は、ライブラリ調製に関連する主要なバッチ効果の補正、サンプル間の不均一なRNA転写産物分布、およびRNA濃縮法の補正を可能にする(図5)。
(実施例2)
末梢血単核細胞(PBMC)または細胞懸濁液からのDNAおよびRNAの抽出
下流のシークエンシング分析のための核酸材料を準備するために、DNAおよび/またはRNAが、単一PBMC細胞ペレットまたは好適な細胞懸濁液から抽出された。手短に言うと、AllPrep DNA/RNAアッセイキット(Qiagen(登録商標))が、単一生体サンプルからゲノムDNAおよびトータルRNAを同時に精製するために使用された。生体サンプルは、最初に、高度に変性するグアニジン-イソチオシアネート含有緩衝液中で溶解され均質化され、DNaseおよびRNaseを直ちに不活性化して、無傷のDNAおよびRNAの分離を確実にした。次いで、溶解物は、AllPrep DNAスピンカラムに通された。このカラムは、高塩緩衝液と組み合わせて、ゲノムDNAの選択的および効率的結合を可能にした。カラムは洗浄され、次いでDNAが溶離された。代替的に、AllPrep DNAスピンカラムに通された溶解物は、RNeasyスピンカラムを通りRNAを選択的に分離した。
いくつかの状況において、出発RNAの品質をさらに改善するために、AllPrep DNAスピンカラムからのフロースルーにエタノールが加えられ、RNAに対して適切な結合条件をもたらした。次いで、サンプルがRNeasyスピンカラムに施され、そこで、トータルRNAが膜に結合され、汚染物質が洗い流された。次いで、高品質RNAが水で溶離された。これらのステップのいくつかおよび/または手順全体は、検査室職員によって管理され、実施され得る。品質管理関係問題が生じた場合、検査室職員が、細胞または組織(たとえば、PMBCまたは細胞懸濁液)の提供者(たとえば、医療サービス提供者)に通知する。
試薬の調製
サンプルからDNAおよび/またはRNAを抽出するための試薬は、内容が参照により本明細書に組み込まれているAllPrep DNA/RNA MiniハンドブックおよびAllPrep DNA/RNA Microハンドブックを含む、製造者の指示に従って調製された。プロセスのいくつかは、所与のシークエンシングプラットフォームの核酸の要件に基づきカスタマイズされ得る。一般に、Β-メルカプトエタノール(β-ME)が使用前に緩衝液RLT Plusに加えられた。1mLの緩衝液RLT Plusに対して10μLのβ-MEが加えられた。試薬の調製を実施した検査室職員は、適切な個人用保護具(PPE)を着用し、試薬はドラフト内で分注された。緩衝液RLT Plusは、一般的に、β-ME添加後1カ月間は室温で概ね安定していた。ボトルには、β-MEの添加日と1カ月の有効期限が記載された。
緩衝液RPE、緩衝液AW1、緩衝液AW2は、各々濃縮液として製造業者から供給された。初回に使用する前に、ボトルに記載されている通り、適量の100%エタノールが添加され、作業希釈標準溶液を得た。溶液は、本明細書において説明されている「溶液および試薬ラベル付け標準作業手順書(SOP)」に従って適切にラベル付けされた。緩衝液RLT Plusは、貯蔵時に沈殿物を形成することがある。必要な場合に、緩衝液RLT Plus中に形成された沈殿物は、37℃の水浴中で沈殿物が溶解するまで温めて溶解させた。次いで、沈殿物のない緩衝液RLT Plusが室温に置かれた。水浴中での長時間インキュベーションは、推奨されなかった。緩衝液RLT Plus、緩衝液RW1、緩衝液AW1は、グアニジン塩を含んでいることに留意されたい。
抽出のための材料の準備
抽出を開始する前に、管およびカラムは、処理される各サンプルについて検体IDをラベル付けされた。凍結細胞ペレットは、管を軽くはじくと外れる程度に少し解凍した。細胞溶解物は、37℃の水浴中で完全に解凍するまでインキュベートされた。長時間インキュベーションは、RNA完全性を損なう可能性があるので、奨励されなかった。ペレット化された細胞については、管を軽くはじくことによって細胞ペレットが完全にほぐされた。細胞ペレットのほぐし方が不完全だと、溶解効率が悪くなり、核酸の収量が減少する可能性があるので、これは核酸材料を適切に準備するための重要なステップである。適量の緩衝液RLT Plusを加え、その後、ボルテックスするか、またはピペッティングして混合させた。一般に、<5×105個の細胞については、350μLの緩衝液RLT Plusが加えられた。5×105~1×107個の細胞については、600μLの緩衝液RLT Plusが加えられた。
溶解物は、QIAshredderを使用することによって均質化された。手短に言うと、溶解物は、2mL捕集管に入れたQIAshredderスピンカラム内に直接ピペッティングされた。次いで、溶解物は、ピペッティングされ、最大速度(18,565×g)で2分間遠心分離した。均質化された溶解物は、2mL捕集管に入れたAllPrep DNAスピンカラムに移された。蓋は静かに閉じられ、スピンカラムは、≧8000×gで30秒間遠心分離された。遠心分離後、カラム膜に残っている液体がチェックされ、取り除かれた。必要ならば、すべての液体が膜を通過するまで、遠心分離ステップが繰り返された。AllPrep DNAスピンカラムは、新しい2ml捕集管に入れられ、後でDNAを精製するために室温または4℃で保存した(冷凍庫には入れない)。RNA精製にフロースルーが使用された。
トータルRNAの精製
RNAを精製するために、600 μLの70%エタノールが前のステップからのフロースルーに加えられ、ピペッティングでよく混合された。最大700μLまでのサンプルが、目に見えることもあり得る形成された沈殿物も含めて、2ml捕集管に入れたRNeasyスピンカラムに直ちに移された。捕集管の蓋が静かに閉じられ、≧8000×gで15秒間遠心分離された。フロースルーは廃棄された。サンプル量が700μLを超えた場合は、連続アリコートが同じRNeasyスピンカラム内で遠心分離された。フロースルーは、遠心分離毎に廃棄された。捕集管は、次のステップで再利用された。
700μLの緩衝液RW1がRNeasyスピンカラムに加えられた。蓋は静かに閉じられ、≧8000×gで15秒間遠心分離されて、スピンカラム膜を洗浄した。フロースルーは廃棄された。捕集管は、次のステップで再利用された。500μLの緩衝液RPEがRNeasyスピンカラムに加えられた。蓋は静かに閉じられ、≧8000×gで15秒間遠心分離されて、スピンカラム膜を洗浄した。フロースルーは廃棄された。
一般に、<5×105個の細胞が処理される場合、500μLの80%エタノールがRNeasy MinEluteスピンカラムに加えられた。蓋は静かに閉じられ、スピンカラムは、≧8000×gで2分間遠心分離されて、スピンカラムの膜を洗浄した。フロースルーの入った捕集管は廃棄された。RNeasy MinEluteスピンカラムは、新しい2mL捕集管に入れられた。スピンカラムの蓋が開かれ、全速力(18,565×g)で5分間遠心分離された。フロースルーの入った捕集管は廃棄された。RNeasy MinEluteスピンカラムは、新しい1.5mL捕集管に入れられた。14μLの無RNase水がスピンカラム膜の中央に直接加えられた。蓋は静かに閉じられ、全速力(18,565×g)で1分間遠心分離されて、RNAを溶離した。スピンカラムは廃棄され、1.5mLの管は、さらなる処理を行うまで-80℃で抽出されたRNAとともに貯蔵された。
>5×105個の細胞が処理される場合、500μLの緩衝液RPEがRNeasyスピンカラムに加えられた。蓋は静かに閉じられ、≧8000×gで2分間遠心分離されて、スピンカラム膜を洗浄した。RNeasyスピンカラムは、新しい2mL捕集管に入れられた。フロースルーの入った古い捕集管は廃棄された。次いで、捕集管は、全速力(18,565×g)で1分間遠心分離された。RNeasyスピンカラムは、新しい1.5mL捕集管に入れられた。30~50μLの無RNase水がスピンカラム膜に直接加えられた。蓋は静かに閉じられ、≧8000×gで1分間遠心分離されて、RNAを溶離した。
ゲノムDNAの精製
500μLの緩衝液AW1がAllPrep DNAスピンカラムに加えられた(以前に新しい2ml捕集管に入れられ、室温または4℃で貯蔵されていた)。蓋は静かに閉じられ、スピンカラムは、≧8000×gで15秒間遠心分離された。フロースルーは廃棄された。スピンカラムは、次のステップで再利用された。500μLの緩衝液AW2がAllPrep DNAスピンカラムに加えられた。蓋は静かに閉じられ、全速力(18,565×g)で2分間遠心分離されて、スピンカラム膜を洗浄した。遠心分離後、AllPrep DNAスピンカラムは捕集管から慎重に取り出された。カラムがフロースルーに接触した場合、捕集管は空にされ、スピンカラムは、全速力で1分間再遠心分離された。
<5×105個の細胞が処理される場合、AllPrep DNAスピンカラムは、新しい1.5mL捕集管に入れられた。50μLの緩衝液EBがスピンカラム膜に直接加えられ(70℃に予熱され)、蓋が閉じられ、室温で2分間インキュベートされた。スピンカラムは、≧8000×gで1分間遠心分離され、DNAを溶離した。緩衝液EBの繰り返し添加が行われ、遠心分離されて、さらなるDNAを溶離した。新しい1.5mL捕集管が使用され、それにより2回目のDNA溶出液を回収し、次いで、1回目の溶出液と組み合わされた。スピンカラムは廃棄され、1.5mL管に、さらなる処理を行うまで4℃で抽出されたRNAとともに貯蔵された。
>5×105個の細胞が処理される場合、AllPrep DNAスピンカラムは、新しい1.5mL捕集管に入れられた。50μLの緩衝液EBがスピンカラム膜に直接加えられ、蓋が閉じられた。スピンカラムは、室温で1分間インキュベートされ、その後、≧8000×gで1分間遠心分離されて、DNAを溶離した。緩衝液EBの繰り返し添加が行われ、遠心分離されて、さらなるDNAを溶離した。新しい1.5mL捕集管が使用され、それにより2回目のDNA溶出液を回収し、次いで、1回目の溶出液と組み合わされた。スピンカラムは廃棄され、1.5mL管に、さらなる処理を行うまで4℃で抽出されたRNAとともに貯蔵された。
トラブルシューティングプロセスは、限定はしないが、Table 3(表2)に示されているものを含んでいた。
(実施例3)
シークエンシングのためのDNAライブラリの構築
下流のシークエンシングを行う前に、DNAライブラリが調製された。手短に言うと、ライブラリ構築(LC)は、抽出されたゲノムDNAを所定のサイズ(たとえば、200塩基対)に剪断することからなり、次いでHybrid Capture用のライブラリを調製した。断片化されたDNAが修復され、各DNAサンプルに固有の分子バーコードが付加され、これにより、シークエンシング時に各DNAサンプルが識別できた。DNAサンプルが、バーコード付きライブラリをポリメラーゼ連鎖反応(PCR)で増幅する前に精製された。次いで、DNAサンプルは、再度精製されてから、製造業者の説明書に従って説明されている品質管理(QC)ステップを使用して各ライブラリの量および品質が評価された。
一般に、ライブラリ構築は4つの主要ステップから成り立っていた。最初に、ゲノムDNAが、SureSelect XT HS Enzymatic Fragmentation Kitを使用して、約200塩基対まで剪断された。この剪断の結果、平滑末端修復を受けることを必要とするDNAフラグメントが得られた。第2のステップは、DNA末端の修復およびdAテーリングであった。このステップは、「A」塩基を平滑リン酸化DNAフラグメントの3'末端に付加した。この処理で、次のステップであるDNAサンプル調製のための適合するオーバーハングを形成した。第3のステップでは、特定の分子バーコードアダプタが、最後のステップで作成された「A」塩基オーバーハングを使用して各サンプルにライゲーションされた。アダプタは、シーケンサによるフラグメント認識のためのプラットフォーム固有の配列であり、たとえば、P5およびP7配列は、ライブラリフラグメントがIlluminaプラットフォームのフローセルに結合することを可能にした。分子バーコードは、実行される各サンプルに固有のものであり、複数のサンプルがその後混合されることを可能にし、シークエンシングの際に各サンプルを識別するためにバーコードが使用された。その後、AMPure XPビーズを使用してサンプルが精製された。最終ステップで、アダプタライゲーションライブラリがPCRにより増幅され、次いで、AMPure XPビーズを使用して2回目に精製された。これらの手順のいくつかまたはすべては、検査室職員によって管理され、実施された。品質管理関係問題が生じた場合、検査室職員は、生検サンプルまたは抽出されたDNAの提供者(医療サービス提供者など)に通知する。
ライブラリ構築のためのサンプルの正規化
サンプルは、低濃度のTEを使用して、7μL中10~200ngに正規化された。利用可能な最大量のDNAが、規定された範囲内で、各サンプルに使用された。次いで、検査室職員は、共有GoogleドライブのClinical Lab Documentsフォルダにある正規化スプレッドシートにナビゲートされた。「LC Normalization」と表示されているタブが選択された。サンプルIDが列A内に入力された。測定された濃度が列B内に入力された。スプレッドシートは、列Gおよび列H内の正規化に必要なサンプル量および低TE量を自動的に計算した。サンプルの濃度が低い側にあった場合、スプレッドシートは、>7μLのサンプルの体積および<0μLの低TEの体積を計算した。これが発生した場合、7μLのサンプルのみが使用され、希釈されなかった。スプレッドシートで計算された体積は、96ウェルのセミスカート型PCRプレートへの適切な体積の正規化に使用された。
酵素DNA剪断
いくつかの実施形態において、DNAは、エンドヌクレアーゼを使用して断片化される(たとえば、SureSelect社のEnzymatic Fragmentation Kitを使用する)。いくつかの実施形態において、SureSelectのFragmentation BufferおよびEnzymeが氷上で解凍された。使用前にFragmentation Bufferがボルテックスされ、スピンダウンされた。各サンプルに対する3μLのFragmentationマスターミックスが、1μLのSureSelect Fragmentation Enzymeと混合された2μLの5x SureSelect Fragmentation Bufferを使用して調製された。いくつかの実施形態において、複数の反応に対してより大きな体積が調製され得る(たとえば、過剰分を含む8つの反応に対して、9μLのSureSelect Fragmentation Enzymeと混合された18μLの5x SureSelect Fragmentation Buffer)。
3μLのフラグメンテーションマスターミックスが各サンプルウェルに加えられ、上下に20回ピペッティングして混合された。プレートは、直ちにEnzymatic Fragmentationプログラム上でサーマルサイクラーに置かれた(ステップ1:37℃で15分間、ステップ2:65℃で5分間、ステップ3:4℃でホールド)。
断片化されたDNA末端の修復およびdAテール
いくつかの実施形態において、断片化されたDNAは、たとえばSureSelectのキットを使用して、修復され、dAテール化された。いくつかの実施形態において、まず、試薬が氷上で解凍され(たとえば、-20℃貯蔵から)、Agencourt AMPure XPビーズが少なくとも30分間、室温まで平衡化された。End Repair A-Tailing Buffer、Ligation Buffer、End Repair A-Tailing Enzyme Mix、T4 DNA Ligase、およびAdaptor Oligo Mix(すべてSureSelect XT HS Library Preparation Kit for ILMから)をボルテックスすることによって混合された。
いくつかの実施形態において、ライゲーションマスターミックスが調製された。Ligation Bufferの解凍済みバイアルは、高速で15秒間ボルテックスされ、均質性を確実にした。このステップで使用されたLigation Bufferは粘性があり、使用のためアリコートを取り出す前に高速で15秒間ボルテックスすることによって徹底的に混合された。他の試薬と組み合わされたときに、Ligation Bufferは、混合物体積の少なくとも80%に設定したピペットを使用して上下に15~20回ピペッティングするか、高速で10~20秒間ボルテックスすることによって十分混合された。プロトコール全体を通してストリップチューブまたはプレートをボルテックスするときに、フラットトップボルテックスミキサーが使用された。ボルテックスすることによって試薬が混合されたときに、十分な混合が行われていることを目視で確認した。
いくつかの実施形態において、次のように試薬を組み合わせることによって適切な量のLigationマスターミックスが調製された。23μLのLigation Bufferおよび2μLのT4 DNA Ligaseを含む1回の反応に対する25μLの反応体積、207μLのLigation Bufferおよび18μLのT4 DNA Ligaseを含む8回の反応(過剰分を含む)に対する225μLの反応体積、575μLのLigation Bufferおよび50μLのT4 DNA Ligaseを含む24回の反応(過剰分を含む)に対する625μLの反応体積。
Ligation Bufferは、1.5 mLのエッペンチューブ内にゆっくりとピペッティングされ、全体積が分注されることを確実にした。T4 DNA Ligaseは、ゆっくり添加され、添加後の酵素チップを緩衝溶液で洗い流し、ゆっくりと15~20回上下にピペッティングしてよく混合されるか、管を封止して高速で10~20秒ボルテックスされた。液体は短時間回転されてから、その液体を回収し、使用前に最低でも30分、ただし45分を超えることなく室温に保たれた。
End Repair-A Tailing Bufferの解凍済みバイアルは、高速で15秒間ボルテックスされ、均質性を確実にした。溶液は目視で検査された。固形物が観察された場合、すべての固形物が溶解するまでボルテックスが続けられた。次の試薬を組み合わせることによって、適切な量のEnd Repair/DA-Tailingマスターミックスが調製された。16μLのEnd Repair A-Tailing Bufferおよび4μLのEnd Repair A-Tailing Enzyme Mixを含む1回の反応に対する20μLの反応体積、144μLのEnd Repair A-Tailing Bufferおよび36μLのEnd Repair A-Tailing Enzyme Mixを含む8回の反応(過剰分を含む)に対する180μLの反応体積、400μLのEnd Repair A-Tailing Bufferおよび100μLのEnd Repair A-Tailing Enzyme Mixを含む24回の反応(過剰分を含む)に対する500μLの反応体積。
End Repair-A Tailing Bufferは、1.5 mLのエッペンチューブ内にゆっくりとピペッティングされ、全体積が分注されることを確実にした。End Repair-A Tailing Enzyme Mixは、ゆっくり添加され、添加後の酵素チップを緩衝溶液で洗い流し、ゆっくりと15~20回上下にピペッティングしてよく混合されるか、または管を封止して高速で5~10秒ボルテックスされた。液体は、短時間回転して回収され、氷上に保存された。20μLのEnd Repair/DA-Tailingマスターミックスが、約50μLの断片化DNAを含む各サンプルウェルに加えられ、60μLに設定されたピペットを使用して上下に15~20回ピペッティングしてよく混合されるか、またはウェルにキャップをして高速で5~10秒間ボルテックスされた。サンプルは、短時間回転され、次いでプレートまたはストリップチューブは直ちにサーマルサイクラーに入れられ、End Repair/DA-Tailingプログラムを開始した(ステップ1:20℃で15分間、ステップ2:72℃で15分間、ステップ3:4℃でホールド)。
分子バーコードアダプタをライゲートする
サーマルサイクラーが4℃ホールドステップに達した後、サンプルは、このステップを設定しながら氷に移された。各末端修復/dAテールDNAサンプル(約70μL)に、以前に調製された25μLのLigationマスターミックスが加えられ、室温に保たれ、85μLに設定したピペットを使用して上下に少なくとも10回ピペッティングすることによって混合されるか、またはウェルにキャップをして高速で5~10秒間ボルテックスされた。サンプルは、短時間回転された。5μLのAdaptor Oligo Mix(白色キャップ付き管)が各サンプルに加えられ、85μLに設定したピペットを使用して上下に15~20回ピペッティングすることによって混合されるか、またはウェルにキャップをして高速で5~10秒間ボルテックスされた。LigationマスターミックスおよびAdaptor Oligo Mixが、上記のステップで指示されているように別々の添加ステップでサンプルに加えられ、添加毎に混合された。サンプルは、短時間回転され、次いでプレートまたはストリップチューブは直ちにサーマルサイクラーに入れられ、Ligationプログラムを開始した(ステップ1:20℃で30分間、ステップ2:4℃でホールド)。サンプルウェルは、封止され、次のステップを続けない場合、4℃または-20℃のいずれかで一晩貯蔵された。
AMPure XPビーズを使用してサンプルを精製する
AMPure XPビーズは検証され、使用前に少なくとも30分間、室温に保持された。ビーズはいかなる時も凍結しなかった。次のステップで使用するために、400μLの70%エタノールがサンプル毎に調製され、さらに余剰分も調製された。新しく調製された70%エタノールは、同日に行う次の精製ステップに使用され得る。完全なライブラリ調製プロトコルは、1サンプルあたり0.8mlの新鮮な70%エタノールを必要とした。AMPure XPビーズ懸濁液は、目で見て試薬が均質で一貫性のある色を有するようによく混合された。80μLの均質なAMPure XPビーズがPCRプレートまたはストリップチューブ内の各DNAサンプル(約100μL)に加えられ、ピペッティングで15~20回上下に動かすか、またはウェルにキャップをして高速で5~10秒間ボルテックスして混合された。サンプルは、室温で5分間インキュベートされた。プレートまたはストリップチューブは、磁気選別デバイス(DynaMag -96 Side Magnet)に入れられ、溶液が透明になるのを待った(約5~10分)。プレートまたはストリップチューブは、マグネットスタンド内に置かれた。各ウェルの透明溶液は、慎重に取り出され、廃棄された。溶液を除去する間、ビーズには触れなかった。プレートまたはストリップチューブは、引き続きマグネットスタンド内に保たれ、各サンプルウェル内に200μLの新しく調製された70%エタノールが分注された。乱れているビーズは1分後に落ち着かせられ、エタノールが除去された。プレートまたはストリップチューブは、各サンプルウェル内にさらに200μLの新しく調製された70%エタノールを分注しながらマグネットスタンド内に置かれた。乱れているビーズは1分後に落ち着かせられ、エタノールが除去された。ウェルはストリップキャップで封止され、次いで、サンプルは短時間回転され、残留エタノールを回収した。プレートまたはストリップチューブは、30秒間マグネットスタンドに戻された。残留エタノールは、P20ピペットで取り除かれた。サンプルは、5分間空気乾燥させられた。ビーズペレットは、ペレットがプロトコルのビーズ乾燥ステップのどれにおいてもひび割れたように見えるまで乾燥させなかった。ビーズペレットを過度に乾燥させると、溶離効率が著しく低下した。35μLの無核酸水が各サンプルウェルに加えられた。ウェルは、ストリップキャップで封止され、次いで、ボルテックスミキサーでよく混合され、プレートまたはストリップチューブは、短時間回転され、液体を回収し、室温で2分間インキュベートされた。プレートまたはストリップチューブはマグネットスタンドに置かれ、溶液が透明になるまで約5分間放置された。透明になった上清(約34.5μL)が、新しいPCRプレートまたはストリップチューブのサンプルウェルに取り出され、氷上で保存された。この時に、ビーズは廃棄されてもよい。このステップでは、34.5μLの上清全体を回収することが可能でない場合のあることが留意された。さらなる処理のために、可能な限り最大量の上清が移された。回収量を最大にするために、17.25μLに設定したP20ピペットを使用して、2回のピペッティングで透明上清が新しいウェルに移された。
アダプタライゲーションライブラリの増幅
SureSelect XT HS Library Preparation Kit for ILM (PrePCR)からの次のPCR試薬が解凍され、混合され、氷上に保たれた。Herculase II Fusion DNA Polymeraseが、上下に15~20回ピペッティングすることによって混合された。5x Herculase II Reaction Bufferがボルテックスすることによって混合された。100Mm dNTP Mixがボルテックスすることによって混合された。Forward PrimerおよびSureSelect XT HS Index Primers A01~H04が、別々にボルテックスすることによって混合された。各サンプルに対する適切なインデックス割り当てが決定された。SureSelect XT HS Index Primersは、使い捨てアリコートで提供された。ライブラリの交差汚染を回避するために、各バイアルは、1回のライブラリ調製反応で使用した後、廃棄された。残留体積は、その後の実験に再使用されることまたは保持されることはなかった。
適切な体積の捕捉前PCR反応ミックスが氷上で以下のように調製され、ボルテックスミキサーでよく混合された。たとえば、1回の反応に対する13.5μLの反応体積は、10μLの5x Herculase II Reaction Buffer、0.5μLの100mM dNTP Mix、2μLのForward Primer、および1μLの5x Herculase II Fusion DNAを含んでおり、8回の反応(過剰分を含む)に対する121μLの反応体積は、90μLの5x Herculase II Reaction Buffer、4.5μLの100mM dNTP Mix、18μLのForward Primer、および9μLの5x Herculase II Fusion DNAを含んでおり、または24回の反応(過剰分を含む)に対する337μLの反応体積は、250μLの5x Herculase II Reaction Buffer、12.5μLの100mM dNTP Mix、50μLのForward Primer、および25μLの5x Herculase II Fusion DNAを含んでいた。
13.5μLのPCR反応混合物が、PCRプレートウェル内の各精製DNAライブラリサンプル(34.5μL)に加えられた。2μLの適切なSureSelect XT HS Index Primerが各反応に加えられた。ウェルは、キャップされ、次いで高速で5秒間ボルテックスされた。プレートまたはストリップチューブは、短時間回転されて、液体を回収し、気泡が放出させられた。サンプルをサーマルサイクラーに加える前に、以下の条件に従ってPre-Capture PCRプログラムが開始され、サーマルブロックの温度を98℃にした。サーマルサイクラーの温度が98℃に達した後、サンプルプレートまたはストリップチューブは、即座にサーマルブロックに入れられ、次の温度サイクルプロトコルが実行された。
AMPure XPビーズによる増幅ライブラリの精製
AMPure XPビーズは検証され、使用前に少なくとも30分間、室温に保持された。1サンプルあたり400μLの70%エタノールが用意され、さらに過剰分も用意された。AMPure XPビーズ懸濁液は、目で見て試薬が均一で一貫性のある色を有するようによく混合された。50μLの均一なAMPure XPビーズが、PCRプレートまたはストリップチューブの各増幅反応に加えられ、15~20回上下にピペッティングして混合された。サンプルは、室温で5分間インキュベートされた。プレートは、磁気選別デバイス(DynaMag -96 Side Magnet)内に出され、溶液が透明になるのを最大5分間待った。プレートまたはストリップチューブは、マグネットスタンド上に置かれ、各ウェルからの透明溶液が慎重に取り除かれて廃棄された。溶液を除去する間、ビーズに触れていた。プレートまたはストリップチューブは、引き続きマグネットスタンド内に保たれ、各サンプルウェル内に200μLの新しく調製された70%エタノールを分注した。乱れているビーズは1分間待った後に落ち着かせられ、エタノールが除去された。エタノール洗浄は、1回繰り返された。ウェルはストリップキャップで封止され、次いで、サンプルは短時間回転され、残留エタノールを回収した。プレートまたはストリップチューブは、30秒間マグネットスタンドに戻された。残留エタノールは、P20ピペットで取り除かれた。サンプルは、残留エタノールが蒸発してしまうまで封を切ったプレートまたはストリップチューブを室温で最大5分間保つことによって乾燥させた。15μLの無核酸水が各サンプルウェルに加えられた。ウェルは、ストリップキャップで封止され、次いで、ボルテックスミキサーでよく混合され、プレートまたはストリップチューブは、短時間回転され、液体を回収し、室温で2分間インキュベートされた。プレートまたはストリップチューブはマグネットスタンドに置かれ、溶液が透明になるまで3分間放置された。15μLの透明になった上清が、新しいPCRプレートまたはストリップチューブのサンプルウェルに取り出され、氷上で保存された。ライブラリを含む新しいPCRプレートは封止された。ビーズは廃棄された。サンプルライブラリの品質は、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilentから入手可能なTapeStation System、www.agilent.com)および分光光度計、たとえば、小容量フルスペクトル紫外可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanodrop分光光度計、www.thermofisher.com)を使用してチェックされるか、またはプレートは、-20℃で保管された。
Agilent SureSelect XT HS Target Enrichment System for Illumina Paired-End Multiplexed Sequencing LibraryプロトコルおよびAgilent SureSelect XT HS and XT Low Input Enzymatic Fragmentation Kitプロトコルを含む、製造業者のリソースは、参照により本明細書に組み込まれている。
(実施例4)
DNAライブラリのHybridization-Captureおよび標的濃縮
実施例3で説明されているライブラリ構築の後、Hybridization-Captureベースの標的濃縮が直接使用された。このプロトコルでは、調製されたgDNAライブラリを標的特異的な捕捉プローブとハイブリダイズさせるステップを記述した。標的濃縮は、標的特異的なビオチン化プローブをDNAライブラリと混合することによって行われた。プローブは、標的に結合され、これは次いでストレプトアビジン塗布磁気ビーズプルダウンによって分離され、未捕捉DNA(必要としないゲノム領域)を残す。調製されたDNAライブラリを標的特異的な捕捉ライブラリとハイブリダイズさせるステップが提供された。ライブラリ調製後、ライブラリは、変性され、標的領域に特異的なビオチン標識プローブをハイブリダイゼーションに使用された。プールは、ビオチン化プローブに結合されたストレプトアビジン塗布ビーズを加えることによって、注目する領域について濃縮された。ビオチン化プローブを介してストレプトアビジン塗布ビーズに結合されたDNAフラグメントは、溶液から磁気的に引き下ろされた。次いで、濃縮されたフラグメントがビーズから溶離された。各DNAライブラリサンプルは、個別にハイブリダイズされ、捕捉されなければならない。これらの手順のいくつかまたはすべては、検査室職員によって管理され、実施された。品質管理関係問題が生じた場合、検査室職員は、生検サンプルまたは抽出されたDNAの提供者(医療サービス提供者など)に通知する。一般的な作業手順として、手順を開始する前に、作業面とピペットは10%の漂白剤でしっかり拭いた後、70%のエタノールで拭くことによって徹底的に消毒された。作業手順の完了後に同じ洗浄プロセスに従った。
Hybrid Captureのためのサンプルの正規化
12μLの無核酸水が使用され、それにより、サンプルを500~1000ngに正規化した。利用可能な最大量のDNAが、規定された範囲内で、各サンプルに使用された。次いで、検査室職員は、共有GoogleドライブのClinical Lab Documentsフォルダにある正規化スプレッドシートにナビゲートされた。「HC Normalization」と表示されているタブが選択された。サンプルIDは、列Aに入力され、測定された濃度は、列Bに入力された。スプレッドシートは、列Gおよび列H内の正規化に必要なサンプル量および低TE量を自動的に計算した。サンプルの濃度が低い側にあった場合、スプレッドシートは、>12μLのサンプルの体積および<0μLの無核酸水の体積を計算した。これが発生した場合、12μLのサンプルのみが使用され、サンプルは希釈されなかった。スプレッドシートで計算された体積を使用して、適切な体積が、96ウェルのセミスカート型PCRプレートに正規化された。
DNAサンプルをCapture Libraryにハイブリダイズする
いくつかの実施形態において、SureSelectキットを使用したハイブリダイゼーションのための成分試薬は、以下に説明する解凍条件に従って解凍された。各試薬は、ボルテックスされて混合され、次いで、管は、短時間回転され、液体を回収した。
各DNAライブラリサンプルのウェルに、5μlのSureSelect XT HSおよびXT Low Input Blocker Mix(以前に氷上で解凍されている)が加えられた。ウェルは、キャップされ、次いで高速で5秒間ボルテックスされた。プレートは、短時間回転されて、液体を回収し、気泡が放出させられた。封止されたサンプルプレートは、サーマルサイクラーに移され、Hybridizationプログラムが起動された。次の項で説明されているように、サーマルサイクラーは、HybridizationプログラムのSegment 3の間に一時停止するようにプログラムされ、それによりHybridizationウェルに追加試薬が加えられることを可能にした。温度サイクリングプログラムのSegment 1および2の間に、次の項で説明されているように追加の試薬が調製された。必要であれば、これらのステップは、Segment 3でサーマルサイクラープログラムが一時停止した後に終了することも可能である。SureSelect RNase Blockの25%溶液(たとえば、以前に氷上で解凍された)が調製され、ボルテックスすることによってよく混合され、混合物は、短時間に遠心分離され、次いで氷上に保持された。
さらに、1つまたは複数の反応のために、次のようにCapture Library Hybridization Mixが調製された。たとえば、1回の反応に対する13μLの反応体積は、2μLの25% RNase Block溶液、5μLのCapture Library≧3Mb(たとえば、以前に氷上で解凍された)、および6μLのSureSelect Fast Hybridization Buffer(たとえば、以前に室温で解凍され保持されていた)を含み、8回の反応(過剰分を含む)に対する117μLの反応体積は、18μLの25% RNase Block solution 、45μLのCapture Library≧3Mb、および54μLのSureSelect Fast Hybridization Buffer を含むか、または24回の反応(過剰分を含む)に対する325μLの反応体積は、50μLの25% RNase Block溶液、125μLのCapture Library≧3Mb、150μLのSureSelect Fast Hybridization Bufferを含んでいた。
リストに挙げられている試薬は、室温で組み合わされ、高速で5秒間ボルテックスすることによってよく混合され、次いで、短時間でスピンダウンされた。この混合物は、Segment 3でサーマルサイクラーを一時停止する前に調製されたばかりのものであった。混合物は、サイクラー上のDNAサンプルに混合物が加えられるまで室温に短時間保持された。Capture Libraryを含む溶液は、長期間にわたって室温に保持されなかった。
サーマルサイクラーは、HybridizationプログラムのSegmlent 3で一時停止した(65℃で1分)。サイクラーが一時停止された状態で、DNA+Blockerサンプルをサイクラーに入れて保ったまま、13μlの室温のCapture Library Hybridization Mix が各サンプルウェルに移され、ゆっくりと10回上下にピペッティングすることによってよく混合された。ウェルは、新しいドーム型ストリップキャップで封止され、すべてのウェルが確実に完全に封止された。ハイブリダイゼーション中の蒸発を防ぐために、プレートに圧縮パッドを置いた。Playボタンが押されて、温度サイクリングプログラムを再開し、調製DNAサンプルをCapture Libraryにハイブリダイゼーションすることを可能にした。ウェルは、結果が悪影響を受けないように十分に封止され、蒸発を最小限に抑えた。
ストレプトアビジン塗布磁気ビーズの準備
いくつかの実施形態において、ハイブリダイゼーションを開始してから約1時間後にビーズ調製が開始した。SureSelect XT HS Target Enrichment Kit ILM Hyb Moeduleから捕捉するための試薬は、SureSelect Binding Buffer、SureSelect Wash Buffers 1および2(たとえば、すべて室温で保管)、およびDynabead MyOne Streptavidin T1(たとえば、2℃から8℃で貯蔵)を含んでいた。Dynabeads MyOne Streptavidin T1電磁ビーズが、少なくとも30分間、室温に戻された。Dynabeads MyOne Streptavidin T1電磁ビーズは、ボルテックスミキサーで勢いよく再懸濁された。貯蔵時に電磁ビーズが沈降した。各ハイブリダイゼーションサンプルについて、50μlの再懸濁ビーズが新しいPCRプレートのウェルに加えられた。ビーズは、200μlのSureSelect Binding Bufferを加え、上下に20回ピペッティングすることによって混合するか、またはウェルにキャップをして高速で5~10秒間ボルテックスすることで洗浄された。プレートは、磁気選別機デバイスに入れられ、溶液が透明になるのを約5分間待った。上清は取り除かれ、廃棄された。この洗浄ステップは、さらに2回繰り返され、合計で3回洗浄した。ビーズは、200μlのSureSelect Binding Buffer中で再懸濁された。
ストレプトアビジン塗布ビーズを使用したハイブリダイズされたDNAの捕捉
サーマルサイクラーでハイブリダイゼーションステップが完了した後、サンプルは、室温に戻された。各ハイブリダイゼーション混合液の体積全体(約30μl)は、マルチチャンネルピペットを使用して、200μlの洗浄済みストレプトアビジンビーズを収容しているウェルに直ちに移された。混合液は、上下に5~8回ピペッティングして混合され、次いで、ウェルは、新しいキャップで封止された。捕捉プレートは、96ウェルプレートミキサー上でインキュベートされ、1500rpmで30分間、室温により混合された。サンプルは、ウェルの中で適切に混合された。捕捉のための30分間のインキュベーションの間、SureSelect Wash Buffer 2は、新しい96ウェルプレートのウェルに200μLアリコートのWash Buffer 2を入れて、70℃のサーマルサイクラー内で予熱され、実行時の各DNAサンプルに対して6ウェル分の緩衝液をアリコートした。
ウェルは、キャップされ、次いで、サーマルサイクラー内でインキュベートされ、加熱された蓋はONであり、使用時間まで70℃に保持された。30分間のサンプルのインキュベーション期間が完了したときに、サンプルは、短時間回転され、液体を回収した。プレートは、磁気選別機に入れられ、ビーズを回収し、液が透明になるまで待ち、次いで、上清が取り出され、廃棄された。ビーズは、200μlのSureSelect Wash Buffer 1内で再懸濁され、ビーズが完全に再懸濁するまで15~20回上下にピペッティングすることによって混合された。プレートは、磁気選別機に入れられ、液が透明になるのを待ち(約1分間)、次いで、上清が取り出され、廃棄された。プレートは、磁気選別機から取り出されて、室温に戻された。ビーズは、Wash Buffer 2で、以下の手順を使用して洗浄された。1)ビーズを200μlの70℃に予熱したWash Buffer 2中で再懸濁する。2)ビーズが完全に再懸濁されるまで、15~20回上下にピペッティングする。3)サンプルを、加熱された蓋をした状態でサーマルサイクラー上で70℃で5分間インキュベートする。4)5分間のインキュベーション後、プレートを室温で磁気選別機に入れた。5)溶液が透明になるのを待ち(約1分)、上清を除去して廃棄した。6)洗浄ステップをさらに5回繰り返し、合計で6回洗浄した。
すべての洗浄緩衝液が取り除かれたことを検証した後、25μlの無核酸水が各サンプルウェルに加えられ、次いで8回上下にピペッティングしてビーズを再懸濁させた。プレートは封止され、サンプルは後で使用するまで氷上に保持された。捕捉DNAは、捕捉後増幅ステップにおいてストレプトアビジンビーズ上に保持された。
捕捉ライブラリの増幅
いくつかの実施形態において、捕捉後PCR増幅用の試薬が、解凍され、氷上に保持されたが、これはHerculase II Fusion DNA Polymerase(上下にピペッティングして混合される)、5x Herculase II Reaction Buffer、100mM dNTP Mix、およびSureSelect Post-Capture Primer Mix(たとえば、すべてボルテックスして混合される)を含んでいた。
Post-Capture PCRサーマルサイクラープログラムが起動され、サイクラーを予熱した。適切な体積のPCR反応ミックスが氷上で調製され、ボルテックスミキサーでよく混合された。たとえば、1回の反応に対する25μLの反応体積は、12.5μLの無核酸水、10μLの5x Herculase II Reaction Buffer、1μLのHerculase II Fusion DNA Polymerase、0.5μLの100mM dNTP Mix、および1μLのSureSelect Post-Capture Primer Mixを含んでいた。
各反応について、25μlのPCR反応ミックスが、ビーズ結合標的濃縮DNAを含む各サンプルウェルに加えられた。PCR反応物は、ビーズ懸濁液が均質になるまで上下にピペッティングすることによってよく混合された。サンプルをウェルの壁に跳ね散らかすことが回避され、このステップではサンプルは回転されなかった。プレートはきちんと封止された。プレートは、サーマルサイクラー内に置かれ、蒸発を防ぐために圧縮パッドがプレート上に置かれた。Playボタンが押され、Post-Capture PCRサーマルサイクラープログラムが再開した。PCR増幅プログラムが完了したときに、プレートは、短時間回転された。ストレプトアビジン塗布ビーズは、プレートを室温でマグネットスタンド上に置くことによって取り除かれた。溶液は、透明になるのを待ち(約2分間)、各上清(約50μl)が、新しいプレートのウェルに移された。この時に、ビーズは廃棄されてもよい。
AMPure XPビーズを使用してAmplified Capture Librariesを精製する
手短に言うと、AMPure XPビーズが、少なくとも30分間、室温にされた。ビーズはいかなる時も凍結しなかった。本明細書において説明されているステップにおいて後から使用するために1サンプルあたり400μlの新しい70%エタノールが調製された。AMPure XPビーズ懸濁液は、目で見て懸濁液が均一で一貫性のある色を有するようによく混合された。50μlの均質なAMPure XPビーズ懸濁液が、PCRプレート内の各増幅DNAサンプル(約50μl)に加えられ、上下に15~20回ピペッティングすることによってよく混合されたか、またはウェルはキャップされ、高速で5~10秒間ボルテックスされた。ビーズは、確実にサンプルウェル内で均質な懸濁液となっていた。各ウェルは、ビーズの層も透明な液体も存在しない一様な色を有していた。次いで、サンプルは、室温で5分間インキュベートされた。プレートは、室温でマグネットスタンドに置かれ、溶液が透明になるのを待った(約3~5分)。プレートをマグネットスタンド上に保持している間に、各ウェルからの透明溶液が慎重に取り除かれて廃棄された。溶液を除去する間、ビーズは乱されなかった。プレートは、各サンプルウェルに新しく調製した70%エタノールを200μlずつ分注しながら引き続きマグネットスタンドに置かれて、1分間待って乱れたビーズを落ち着かせた後にエタノールが除去された。
エタノール洗浄が1回繰り返され、合計2回の洗浄を行った。各洗浄ステップでのエタノールはすべて慎重に取り除かれた。次いで、ウェルは、ストリップキャップで封止され、次いで、短時間回転され、残留エタノールを回収した。プレートは、30秒間マグネットスタンドに戻された戻された。残留エタノールは、P20ピペットで取り除かれた。次に、サンプルは、ウェルが乾くまで室温に保持することによって乾燥させられた(約5~10分)。ビーズペレットが割れ始めていないことを確認したが、ひび割れは乾燥しすぎの兆候である。次いで、25μLの無核酸水が各サンプルウェルに加えられた。サンプルウェルは、封止され、ボルテックスミキサーでよく混合され、次いで、短時間回転され、ビーズをペレット化することなく液体を回収した。ウェルは、室温で2分間インキュベートされた。プレートは、マグネットスタンド上に置かれ、溶液が透明になるまで放置された。新しいPCRプレーに、Run IDのラベルを貼った。透明な上清(約25μl)が、新しいプレートに移された。この時に、ビーズは廃棄されてもよい。次いで、捕捉されたライブラリの品質は、Roche LightCycler SOPを使用することによってqPCR法によりチェックされるか、または-20℃で貯蔵された。
(実施例5)
シークエンシングのためのRNAライブラリの構築
下流のシークエンシングを行う前に、RNAライブラリが調製された。手短に言うと、このプロトコルは、トータルRNAサンプル中のmRNAから合成されたcDNAを、シークエンシングの前にハイブリダイゼーション捕捉のためにDNAライブラリにどのように変換するかを説明した。Illumina TruSeq Stranded mRNAライブラリ調製ワークフローで提供されている試薬が使用された。
このプロセスは、1つのアデニンヌクレオチドを追加することによって、平滑末端フラグメントの3'末端をアデニル化することを伴った。これは、アダプタライゲーション反応の際に、それらの互いへのライゲーションを妨げた。アダプタの3'末端上の1つの対応するチミンヌクレオチドは、アダプタをフラグメントにライゲーションするための相補的なオーバーハングをもたらした。この戦略は、キメラ(連結したテンプレート)形成の低率を確実にした。次のステップでは、複数のインデックス付けアダプタがds cDNAフラグメントの末端にライゲーションされ、フローセル上でのハイブリダイゼーションの準備を行った。アダプタのないフラグメントは、フローセル上の表面結合プライマーにハイブリダイズされなかった。片方の端にアダプタを持つフラグメントは、表面結合プライマーにハイブリダイズすることができるが、クラスタを形成しなかった。DNAフラグメント濃縮プロセスでは、PCRを使用して、両末端にアダプタ分子を有するDNAフラグメントを選択的に濃縮し、ライブラリ内のDNAの量を増幅した。PCRは、アダプタの末端にアニールしたPCR Primer Cocktailを用いて実行された。RNA Library Constructionは、本明細書において説明されている3つのステップから構成された。上記の導入に続いて、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、Roche Life Science社のリアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument 480、www.lifescience.roche.com)を使用するプロトコルに従って、ライブラリのクリーンアップおよびqPCRによるライブラリの定量化が行われた。qPCRによって達成された正確な定量化は、フローセルの4つのレーンすべてにわたって最適なクラスタ密度をもたらすことを可能にした。
これらの手順のいくつかまたはすべては、検査室職員によって管理され、実施された。品質管理関係問題が生じた場合、検査室職員は、生検サンプルまたは抽出されたRNAの提供者(医療サービス提供者など)に通知する。
アデニル酸塩3'末端
試薬は、以下の条件に従って調製された。手短に言うと、2.5μLのResuspension Bufferが、サンプルを含む各ウェルに加えられた(Resuspension Bufferは典型的には-25℃から-15℃で貯蔵され、30分放置して使用前に室温に戻す)。12.5μLのA-Tailing Mixが各ウェルに加えられ、次いで、上下に10回ピペッティングすることによって徹底的に混合された(A-Tailing Mixは典型的には-25℃~-15℃で貯蔵され、室温で解凍される)。プレートは、封止され、280×gで1分間遠心分離された。プレートは、サーマルサイクラーのATAIL70プログラムでインキュベートされた。ATAIL70プログラムは以下のステップのとおりであった。1)蓋を予熱する:100℃のホールド時間、2)ステップ1:30分間37℃、3)ステップ2:5分間70℃、および4)ステップ3:4℃のホールド時間。プレートは、次いで、280×gで1分間遠心分離された。
アダプタのライゲーション
試薬は、以下の条件に従って調製された。手短に言うと、RNA Adapter管は、600×gで5秒間遠心分離された。Ligation Mixが、-25℃から-15℃の貯蔵から取り出された。次の試薬が、リストされている順序で各ウェルに加えられた。1)2.5μLのResuspension Buffer、2)2.5μLのLigation Mix、3)2.5μLのRNA Adapter Indexes。次いで、混合された試薬は、上下に10回ピペッティングすることによって徹底的に混合され、280×gで1分間遠心分離された。プレートは、サーマルサイクラー上に置かれ、LIGプログラムが実行された。LIGプログラムは以下のとおりであった。1)蓋を予熱する:100℃のホールド時間、2)ステップ1:10分間30℃、および3)ステップ2:4℃のホールド時間。Stop Ligation Bufferは、600×gで5秒間遠心分離された。LIG プログラムが停止した後、プレートは、サーマルサイクラーから取り出され、5μLのStop Ligation Bufferが各ウェルに加えられ、上下にピペッティングすることによって徹底的に混合された。プレートは、次いで、280×gで1分間遠心分離された。貯蔵からのLigation Mixは、手順書でそうするように指示があるまで取り出されなかった。RNA Adapter Indexesは、典型的には、-25℃から-15℃で貯蔵され、使用前に10分間かけて室温で解凍される。Resuspension BufferおよびAMPure XP Beadsは、典型的には、2℃から8℃で貯蔵され、使用前に30分間放置し室温に戻す。Stop Ligation Bufferは、典型的には、-25℃から-15℃で貯蔵され、使用前に室温で解凍される。
ライゲーションされたフラグメントのクリーンアップ
手短に言うと、42μLのAMPure XPビーズが、各ウェルに加えられ、上下にピペッティングすることによって徹底的に混合された後、15分間室温でインキュベートされた。インキュベートされた後、混合物は、280×gで1分間遠心分離された。次いで、ウェルは、マグネットスタンド上に置かれ、液体が透明になるまで待った(約2~5分)。液体が透明になるのを待っている間に、上記の2回の洗浄ステップで使用するために新しい80% EtOHが作られた。液体が透明になった後、すべての上清が取り除かれ、各ウェルから廃棄され、次のように2回洗浄された。1)各ウェルに200μLの新しい80% EtOHを加え、2)マグネットスタンド上で30秒間インキュベートし、3)各ウェルからすべての上清を取り除いて廃棄した。各ウェルから残留EtOHを取り除くために、20μLのピペットが使用された。
マグネットスタンドは、5分間空気乾燥させられた。ビーズペレットが割れ始めなかったが、ひび割れは乾燥しすぎの兆候である。次いで、マグネットスタンドは取り外された。52.5μLのResuspension緩衝液が、各ウェルに加えられ、上下にピペッティングすることによって徹底的に混合された後、2分間室温でインキュベートした。混合された緩衝液は、280×gで1分間遠心分離された。マグネットスタンドが置かれ、液体が透明になるまで待った(約2~5分)。50μLの上清が、新たにラベルを付けたPCRプレートの対応するウェルに移された。50μLのAMPure XPビーズが、プレートに加えられ、上下にピペッティングすることによって徹底的に混合された後、15分間室温でインキュベートした。プレートは、280×gで1分間遠心分離された。マグネットスタンドが置かれ、液体が透明になるまで待った(2~5分)。すべての上清が取り除かれ、各ウェルから廃棄された。ウェルは次のように2回洗浄された。1)各ウェルに200μLの新しい80% EtOHを加え、2)マグネットスタンド上で30秒間インキュベートし、3)各ウェルからすべての上清を取り除いて廃棄した。
その後、各ウェルから残留EtOHを取り除くために、20μLのピペットが使用された。マグネットスタンドは、5分間空気乾燥させられた。ビーズペレットが割れ始めていないことを確認したが、ひび割れは乾燥しすぎの兆候であろう。次いで、ビーズペレットは、マグネットスタンドから取り出された。22.5μLのResuspension Bufferが、各ウェルに加えられ、上下にピペッティングすることによって徹底的に混合された後、2分間室温でインキュベートした。ウェルは、次いで、280×gで1分間遠心分離された。マグネットスタンドが置かれ、液体が透明になるまで待った(2~5分)。20μLの上清が、新たにラベルを付けたPCRプレートの対応するウェルに移された。このプロセスの間、ビーズは乱されなかった。代替的に、このステップは安全な停止点であった。プレートは、封止され、-25℃から-15℃で最長7日間まで貯蔵できた。
DNAフラグメントの濃縮
試薬は、以下の条件に従って調製された。手短に言うと、PCRプレートは、氷上に置かれ、5μLのPCRプライマーカクテルが各ウェルに加えられた。25μLのPCR Master Mixが、各ウェルに加えられ、上下に10回ピペッティングすることによって徹底的に混合された。サンプルウェルは、封止され、280×gで1分間遠心分離された。サンプルウェルは、サーマルサイクラー上に置かれ、mRNA PCRプログラムが実行された。mRNA PCRプログラムは以下のとおりであった。1)蓋を予熱する:100℃のホールド時間、2)ステップ1:30秒間98℃、3)ステップ2(15サイクル):10秒間98℃、30秒間60℃、および30秒間72℃、4)ステップ3:5分間72℃、ならびにステップ4)4℃のホールド時間。
プログラムが完了した後、プレートは、280×gで1分間遠心分離された。AMPure XPビーズが、徹底的なボルテックスによって混合され、50μLが各ウェルに加えられ、上下に10回ピペッティングすることによって徹底的に混合された後、15分間室温でインキュベートした。サンプルウェルは、280×gで1分間遠心分離された。マグネットスタンドが置かれ、液体が透明になるまで待った(2~5分)。すべての上清が取り除かれ、各ウェルから廃棄された。ウェルは次のように2回洗浄された。1)各ウェルに200μLの新しい80% EtOHを加え、2)マグネットスタンド上で30秒間インキュベートし、3)各ウェルからすべての上清を取り除いて廃棄した。各ウェルから残留EtOHを取り除くために、20μLのピペットが使用された。マグネットスタンドは、5分間空気乾燥させられた。ビーズペレットが割れ始めていないことを確認したが、ひび割れは乾燥しすぎの兆候である。マグネットスタンドは、次に、取り外された。32.5μLのResuspension緩衝液が、各ウェルに加えられ、上下に10回ピペッティングすることによって徹底的に混合された後、2分間室温でインキュベートした。ウェルは、280×gで1分間遠心分離された。マグネットスタンドが置かれ、液体が透明になるまで待った(2~5分)。30μLの上清が、新たにラベルを付けたPCRプレートの対応するウェルへ懸濁された。次いで、検査室職員は、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument 480、www.lifescience.roche.com)を使用してライブラリQCを進めるか、またはプレートは、封止され、-20℃で最長7日間まで貯蔵された。PCR Primer Cocktailは、典型的には、-25℃から-15℃で貯蔵され、使用前に室温で解凍される。PCR Master Mixは、典型的には、-25℃から-15℃で貯蔵され、使用前に氷上で解凍される。Resuspension BufferおよびAMPure XP Beadsは、典型的には、2℃から8℃で貯蔵され、使用前に30分間放置し室温に戻す。
TruSeq Stranded mRNA Reference Guideを含む、製造業者からのリソースは、参照により本明細書に組み込まれている。
(実施例6)
新鮮な冷凍組織ライブラリのシークエンシングからのDNAおよびRNAに基づくDNA/RNAライブラリ調製プロセスに関する品質管理
ライブラリ調製のために、AllPrep DNA/RNA Mini Kitを使用することによって、組織からのDNAおよびRNAの抽出物が取得された。当技術分野で知られている任意の好適な抽出キットも使用可能である。精製されたDNAからのライブラリ構築は、Agilent SureSelect XT HSおよびAgilent SureSelect Human All Exon V7エクソームキットを用いて実施された。精製されたRNAからのライブラリ構築は、Illumina TruSeq mRNA stranded kitを用いて実施された。品質管理(QC)メトリクスは、ライブラリ調製の各段階の後に実施された。すべてのQCメトリクスは、分光光度計、たとえば、小容量フルスペクトル紫外可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanodrop分光光度計、www.thermofisher.com)、蛍光光度計、たとえば、DNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientificから入手可能なQubit Flex蛍光光度計、www.thermofisher.com)、核酸増幅デバイス(たとえば、PCRシステム)、たとえば、リアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument 480 II、www.lifescience.roche.com)、および電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilent社から入手可能なAgilent TapeStation System 4150、www.agilent.com)を用いて作製された。すべての測定内容は、DNA/RNAフラグメントの純度、濃度、サイズを伝えた。
次世代シークエンシング実験におけるQCメトリクスは、データセットの全体的な品質を評価する個々のパラメータのセットであった。評価された指標は、クラスタ密度、インデックスに割り当てられたフィルタを通過したクラスタのパーセンテージ、30の品質スコア(Q30)、およびエラー率であった。次の段階は、バイオインフォマティクスパイプラインで使用される品質メトリクスを推定することであった(Bioinformatics QC)。これは、WES(DNAシークエンシング)とRNAシークエンシング(RNA-seq)の2つのプロセスに分割された。メトリクスとして、腫瘍の純度、カバレッジの深さ、アライメント率、塩基コール品質スコアまたはPhredスコア、カバレッジの均一性、GC含有量、マッピング品質、重複率、インサートサイズ、汚染、SNP一致、HLA対立遺伝子一致、ADAゲノム汚染が考慮された。
一般に、本実施例において説明されているプロトコルは、ライブラリ調製段階および全エクソームシークエンシング(WES)およびRNA-seq分析のバイオインフォマティクスパイプラインで使用されるQC法のメトリクスを提供するものである。バイオインフォマティクスパイプラインは、シークエンシングプラットフォームからのQCと、バイオインフォマティクスQCの2つのコンポーネントに分けられる。シーケンサープラットフォームとバイオインフォマティクスQCでは、WESおよびRNA-seqデータの推定メトリクスを含むテーブルが提供された。最も目立つ値および許容範囲である、目標範囲内のメトリクスについては、サンプルデータが使用されることも可能であった。取得されたメトリクスの値が許容範囲を外れた場合、対応するサンプルは品質が悪いとみなされた。
任意の所与の実験またはプロジェクトにおいて、品質管理プロセスの1つまたは複数が使用され得る。いくつかの実験またはプロジェクトにおいて、品質管理プロセスのすべてが使用され得る。これらの手順のいくつかまたはすべては、検査室職員によって管理され、実施された。品質管理関係問題が生じた場合、検査室職員は、生検サンプルまたは抽出されたDNA/RNAの提供者(医療サービス提供者など)に通知する。
DNAおよびRNAライブラリ調製のプロセスにおける品質管理ステップ
Table 4(表4)~Table 6(表6)では、抽出、ライブラリ構築、ならびにハイブリダイゼーションおよび捕捉の各フェーズにおける1つまたは複数の品質管理ステップを含むDNAおよびRNAライブラリ調製の実施形態を記述している。抽出物、一次ライブラリ、ならびにハイブリダイゼーションおよび捕捉後のライブラリの濃度を測定することで、サンプルからの生成物の品質が識別された。検査されたサンプル中のDNAまたはRNAの品質の決定に基づき、次のステップに進むか、またはプロセスを繰り返すかの決定が下された。分光光度計、たとえば、小容量フルスペクトル紫外可視分光光度計(たとえば、ThermoFisher Scientificから入手可能なNanodrop spectrophotometer、 www.thermofisher.com)、蛍光光度計、たとえば、DNAまたはRNAの定量化のための蛍光光度計(たとえば、ThermoFisher Scientificから入手可能なQubit fluorometer、www.thermofisher.com)、電気泳動デバイス、たとえば、自動化電気泳動デバイス(たとえば、Agilent社から入手可能なTapeStation System、www.agilent.com)、核酸増幅デバイス(たとえば、PCRシステム)、たとえばリアルタイムPCRシステム(たとえば、Roche社から入手可能なLightCycler Instrument、www.lifescience.roche.com)が、DNA/RNAフラグメントの純度、濃度、およびサイズを測定するために使用された。各フェーズに対するそれぞれのデバイスのDNAおよびRNAの許容範囲および目標範囲が以下の表に示されている。品質管理の結果は、電気泳動を実行することによって確認できる。品質管理の結果は、核酸のサイズ分布を決定することによって確認することができる。
本実施例では、トラブルシューティングのプロトコルを提供する。たとえば、LCまたはHCステージのTapeStationからのエレクトロフェログラムにおいて150bpの追加ピークが観察された場合。AMPureビーズ(ライブラリとビーズの体積比1:0.8)で洗浄する追加のステップが行われた。
DNAおよびRNAライブラリ調製後の品質管理ステップ
シークエンシングプロセスに対する主品質管理メトリクスは、Illumina NextSeqR 500/550シーケンサで行われた。Table 7(表7)は、全ゲノムシークエンシング(WES)およびRNAシークエンシングのサンプルランのQCパラメータを示している。
バイオインフォマティクスQC
シークエンシング(たとえば、RNA seq)の実行後、バイオインフォマティクスパイプラインに対する品質管理が実行され得る。手短に言うと、ソフトウェアは、測定のためのパラメータ、すなわち、単一ヌクレオチドバリアント(SNVs、体細胞+生殖細胞バリアント)、小さいインデル、コピー数変化(CNA)(それにプラスして、ヘテロ接合性喪失(LOH))、フォーカル増幅/欠失、遺伝子融合再編成(mRNA発現)、融合タンパク質発現、RNA発現(バイオマーカータンパク質用)、腫瘍遺伝子変異量(TMB)によって作成され、生成された。
任意の所与の実験またはプロジェクトにおいて、1つまたは複数のパラメータが品質管理に使用され得る。たとえば、SNVの検出のみが、特定のバイオインフォマティクス分析に対して実行された。挿入/欠失検出のみが、特定のバイオインフォマティクス分析に対して実行された。CNA検出のみが、特定のバイオインフォマティクス分析に対して実行された。融合検出のみが、特定のバイオインフォマティクス分析に対して実行された。RNA発現測定検出のみが、特定のバイオインフォマティクス分析に対して実行された。TMB測定検出のみが、特定のバイオインフォマティクス分析に対して実行された。他の実施例では、SNV検出およびCAN検出は、特定のバイオインフォマティクス分析に対して実行され得る。
Table 8(表8)は、バイオインフォマティクス分析に対する品質管理パラメータのリストを提示している。
本実施例では、トラブルシューティングのプロトコルを提供する。たとえば、腫瘍/正常の対のHLA対立遺伝子一致の品質管理が失敗した場合、これは異なる患者からの組織が混ざっている潜在的可能性があることを示す指標であった。検査室職員は、混入の潜在的可能性を確認し、潜在的な混入の理由を調査すべきである。検査室職員は、混入が検査室内の内部エラーによるものでない場合に医師に連絡すべきである。
(実施例7)
主要組織適合性複合体(MHC)の配列を決定することは、配列データの同一性および/または完全性を評価するために使用され得る。
MHC遺伝子は多型性が高く、MHCの各クラス(たとえば、クラスI、II、III)の遺伝子には多数の対立遺伝子が存在する(たとえば、ヒトのヒト白血球抗原(HLA))。集団内の潜在的な対立遺伝子の数と各個人の遺伝子の数との組合せは、結果として、多数のユニークなMHCプロファイルをもたらす。これらは、配列データが所定のソースまたは被験者からのものである可能性(または、複数のサンプルからの配列データが同じ被験者からのものである場合)を評価するために使用することができる。1つまたは複数のMHC遺伝子座に対応する配列が、特定の核酸サンプルに対するMHC対立遺伝子の組み合わせを決定するために使用され得る。
1つまたは複数のMHC遺伝子座のシークエンシングの結果は、配列データと一貫していると予想される主張された情報(たとえば、主張されたHLA対立遺伝子の組合せ)と突き合わせて評価され得る。決定されたMHCの組合せが主張された情報と一致する場合、配列データは一貫している。決定されたMHCの組合せが主張された情報と一致しない場合、配列データは一貫性がなく、これは、サンプルおよび/または配列データに問題のあることを示し得る。たとえば、サンプルおよび/または配列データは、汚染されている、誤認されている、劣化している、または他の何らかの形で破損している可能性がある。これは、不一致の原因の調査を促し得る。このような調査は、MHC遺伝子座における配列データの配列を少なくとも1回追加で決定すること、サンプルから第2の配列データを取得し、MHC遺伝子座における配列データの配列を少なくとも1回追加で決定すること、配列データに一貫性がないと報告すること、および/またはこれらの組合せを必然的に伴い得る。図11は、MHCデータ妥当性確認の一例を示している。図11では、2人の被験者(たとえば、103および105)からの3つの配列データセット(RNA-Seqデータ、WES腫瘍データ、およびWES正常データ)の各々から、6つのHLA対立遺伝子が決定される。図11を見るとわかるように、被験者105については、3つのサンプルすべてが6つの対立遺伝子すべてを共有しており、これらが一貫しており、同じ被験者からのものである可能性が高いことを示している。しかしながら、被験者103の場合、2つの配列データセット(腫瘍サンプルからの全エクソーム配列データ(WES Tumor)と正常サンプルからの全エクソーム配列データ(WES Normal)との間)については一貫性があるが、第3の配列データセット(同じ被験者103からと疑われているRNA配列データ)については不一致がある。
いくつかの実施形態において、少なくとも1つのMHC遺伝子座の配列が決定され、参照配列データセット(たとえば、同じ被験者からのものと主張されるサンプルからのもの)からの同じ遺伝子座の少なくとも1つのMHC配列と突き合わせて検証される。いくつかの実施形態において、2つまたはそれ以上のMHC対立遺伝子座がシークエンシングされる(たとえば、少なくとも3つ、4つ、または5つのMHC遺伝子座がシークエンシングされる)。いくつかの実施形態において、6つのMHC遺伝子座がシークエンシングされる。いくつかの実施形態において、6つよりも多いMHC遺伝子座がシークエンシングされる。
いくつかの実施形態において、配列データは、ヒト被験者からのものである。いくつかの実施形態において、MHCは、ヒト白血球抗原(HLA)である。したがって、いくつかの実施形態において、2つまたはそれ以上のHLA遺伝子座(たとえば、3つ、4つ、5つ、またはそれ以上のHLA遺伝子座)がシークエンシングされる。いくつかの実施形態において、6つのHLA遺伝子座がシークエンシングされる。いくつかの実施形態において、6つよりも多いHLA遺伝子座がシークエンシングされる。
いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例8)
予測される腫瘍型は、配列データの同一性および/または完全性を評価するために使用され得る
核酸配列データに基づき、サンプルが採取された腫瘍の型(たとえば、乳房、結腸、前立腺、膀胱、腎臓、直腸、肺、リンパ腫、黒色腫、口腔、口腔咽頭、膵臓、甲状腺、子宮、眼、胃腸など)を予測するために、様々な技術が使用され得る。多くの既存のツールは、評価されたバイオマーカーを用いる知られているサンプルの大規模データセットに依存しており、それにより、配列データセットからのバイオマーカーを既存の知られているデータセットと比較して評価することを可能にする。他の予測方法では、ニューラルネットワークおよびディープラーニングシステムを利用してデータセットを分析し、データ分析を実行する。配列データを既存のネットワークまたはデータセットと突き合わせて学習させて、配列データが得られた腫瘍の型を予測することができる。
次いで、腫瘍型予測の結果(たとえば、決定された情報)は、配列データと一貫していると信じられる主張された情報(たとえば、腫瘍型)と突き合わせて評価され得る。決定された情報が主張された情報と一致する場合、配列データは一貫しており、正しく識別されていると信じられる。決定された情報が主張された情報と一致する場合、配列データは処理され、それにより配列データが1つまたは複数の疾病特徴を示すかどうかを決定することができる。決定された情報が主張された情報と一致しない場合、配列データは一貫性がなく、サンプルおよび/または配列データに問題のあることを示し得る。たとえば、サンプルおよび/または配列データは、汚染されている、誤認されている、劣化している、または他の何らかの形で破損している可能性がある。これは、不一致の原因の調査を促し得る。このような調査は、少なくとも1回追加で配列データから腫瘍型を予測すること、サンプルから第2の配列データセットを取得して少なくとも1回追加で予測を実行すること、配列データに不一致があると報告すること、および/またはこれらの組合せを必然的に伴い得る。
図12を見るとわかるように、腫瘍型が予測され(たとえば、BRCA関連乳癌)、主張された腫瘍型の文脈において、または少なくとも1つの追加の配列データセット(たとえば、参照配列データ、または同じ被験者および/もしくは同じ腫瘍サンプルからの配列データ)の文脈において評価され得る。主張された情報が決定された情報と一致する場合、データは一貫している。一致しない場合、不一致の可能性があることを示しており、これは評価され、および/または使用者に報告され得る。さらに、決定された値が追加の配列データの文脈において評価される場合、その配列データが同じ被験者もしくはソースからのものであるか、または異なるソースからのものであるかを評価するために使用することができる。
したがって、いくつかの実施形態において、予測された腫瘍型が配列情報から決定され、主張された腫瘍型と突き合わせて評価される。いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例9)
タンパク質サブユニットの比は、配列データの同一性および/または完全性を評価するために使用され得る
核酸によってコードされるマルチサブユニットタンパク質は、配列データを評価するために使用され得る。タンパク質の異なるサブユニットの発現レベルは、各サブユニットの発現を決定し(たとえば、各サブユニットをコードするDNAまたはRNAレベルを決定することによって)、サブユニットの比を決定することによって(たとえば、核酸サンプル中の異なるタンパク質サブユニットをコードするDNAまたはRNAレベルの比を決定することによって)評価され得る。次いで、この比(決定された情報)は、主張された情報(たとえば、予想される比)または追加の配列データのいずれかと突き合わせて妥当性確認され得る。この比が予想される比(たとえば、被験者から取得された他の配列データに基づき正確であると信じられる比、またはタンパク質およびその構成サブユニットについての知られている比)と一致する場合、配列情報は妥当性確認され得る。決定された比が予想された比と一致しない場合、配列データは一貫性がなく、サンプルおよび/または配列データに問題のあることを示し得る。たとえば、サンプルおよび/または配列データは、汚染されている、誤認されている、劣化している、または他の何らかの形で破損している可能性がある。これは、不一致の原因の調査を促し得る。このような調査は、少なくとも1回追加で配列データから新しい比を決定すること、サンプルから第2の配列データセットを取得して少なくとも1回追加で比を決定すること、配列データに一貫性がないと報告すること、および/またはこれらの組合せを必然的に伴い得る。
図13Aは、評価対象のサブユニットに対する予測値または知られている値と一致するか、またはそのような比に対する許容可能な閾値または決定された閾値の範囲内にあるサブユニットの発現レベルを表すグラフである。図13Bは、評価対象のサブユニットに対する予測値または知られている値と一致しないか、またはそのような比に対する許容可能な閾値または決定された閾値の範囲外にあるサブユニットの発現レベルを表すグラフである。
図13Aを見るとわかるように、タンパク質サブユニットをコードする核酸は、知られている比(たとえば、既存の測定値、または当技術分野で知られている配列に基づく理論値)と突き合わせて評価され得るか、または知られているサンプルからの測定データと突き合わせて評価され得る(たとえば、図示されているように直線に当てはめる)。その比が、ばらつきおよび偏差に対して受け入れられた、または確立された閾値内に収まるときに、これは一貫していると識別される。図13Bを見るとわかるように、タンパク質サブユニットをコードする核酸は、知られている比(たとえば、既存の測定値、または当技術分野で知られている配列に基づく理論値)と突き合わせて評価され得るか、または知られているサンプルからの測定データと突き合わせて評価され得る(たとえば、図示されているように直線に当てはめる)。その比が、ばらつきおよび偏差に対して受け入れられた、または確立された閾値の範囲外にあるときに、これは、一貫性がないと識別される。
いくつかの実施形態において、少なくとも1つの比が決定される。いくつかの実施形態において、第2のタンパク質および/またはそのサブユニットをコードする核酸が評価され、第2の比を決定する。いくつかの実施形態において、第3のタンパク質および/またはそのサブユニットをコードする核酸が評価され、第3の比を決定する。いくつかの実施形態において、第4のタンパク質および/またはそのサブユニットをコードする核酸が評価され、第4の比を決定する。いくつかの実施形態において、少なくとも1つの追加のタンパク質および/またはそのサブユニットをコードする核酸が、少なくとも1つの追加の比を決定するために使用される。
いくつかの実施形態において、比を決定するために使用されるサブユニットは、CD3サブユニットCD3DおよびCD3Gである。いくつかの実施形態において、比を決定するために使用されるサブユニットは、CD3サブユニットCD3EおよびCD3Dである。 いくつかの実施形態において、比を決定するために使用されるサブユニットは、CD3サブユニットCD3GおよびCD3Eである。いくつかの実施形態において、比を決定するために使用されるサブユニットは、CD8サブユニットCD8BおよびCD8Aである。いくつかの実施形態において、比を決定するために使用されるサブユニットは、CD79サブユニットCD79AおよびCD79Bである。
いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例10)
ポリアデニル化ステータスは、配列データの同一性および/または完全性を評価するために使用され得る
ポリAステータスは、配列データを評価するために使用され得る。配列データは、ポリアデニル化された異なる遺伝子が存在するかどうかを決定するために評価され得る(たとえば、ヒストン遺伝子、ミトコンドリア遺伝子)。この分析は、主張されたサンプル調製プロトコルが正しいかどうかを評価し、および/またはその可能性を評価するために使用され得る(たとえば、RNAサンプルがポリAまたはトータルRNAサンプルであるかどうかを妥当性確認する)。決定されたポリAステータスが主張されたポリAステータスと一致する場合、配列データは一貫性があるものとして妥当性確認される。決定されたポリAステータスが主張されたポリAステータスと一致しない場合、配列データは一貫性がないと識別され、サンプルおよび/または配列データに問題のあることを示し得る。それに加えて、ポリAステータスについて曖昧な結果が返された場合(たとえば、ポリアデニル化された遺伝子が見つかったが、他の遺伝子は見つからない場合、または予想外の発現が見つかった場合、または予想を下回る発現が見つかった場合(たとえば、部分的な発現))、サンプル調製の問題、配列データが調製されたサンプルの劣化、または他の品質問題を示している可能性がある。たとえば、サンプルおよび/または配列データは、汚染されている、誤認されている、劣化している、または他の何らかの形で破損している可能性がある。これは、不一致の原因の調査を促し得る。このような調査は、少なくとも1回追加で配列データからポリAステータスを決定すること、サンプルから第2の配列データセットを取得して少なくとも1回追加でポリAステータスを決定すること、配列データに一貫性がないと報告すること、および/またはこれらの組合せを必然的に伴い得る。
図14A~図14Bは、ポリアデニル化されたRNAのみを含むサンプル、またはトータルまたは全RNAを含むサンプル(トータルRNA)から配列情報が得られた確率を表す棒グラフの例である。図14Aは、2つの異なる配列の分析から得られた肯定的な結果(一様に見える配列を示す)を示している。棒の左のセット(棒1~20、左から右に読む)は、主にポリアデニル化されたRNAを含むサンプルからのものである可能性が高い配列からの結果を示している。棒の右のセット(棒21~40、左から右に読む)は、主にトータルRNAを含むサンプルからのものである可能性が高い配列からの結果を示している。図14Bは、2つの異なる配列の分析から得られた好ましくない結果(たとえば、汚染または劣化の可能性を示す)を示している。「Bad」とタグ付けされた輪郭付きボックスは、ポリアデニル化されたRNAからの配列である確率が約50%であることを示しており、配列が一様であるかどうかは不確定であることを示している。
図14Aを見るとわかるように、いくつかの実施形態において、配列データが評価され、ポリAステータスは、ポリアデニル化されたRNAまたはトータルRNAのいずれかとして決定され得る。図14Bは、決定がポリアデニル化されたRNAまたはトータルRNAのいずれかの閾値を下回る例を示している(たとえば、50%のポリA、50%のトータルRNA)。この場合、配列データは、一貫性がない、および/または品質が悪いと識別され、核酸サンプルに問題のあることを示し得る。
したがって、いくつかの実施形態において、配列データはポリアデニル化配列データとして識別される。いくつかの実施形態において、配列データはトータルRNA配列データとして識別される。
いくつかの実施形態において、サンプルをポリAと識別するための閾値は、サンプル中のポリA RNAの割合が50%より高いときである。いくつかの実施形態において、閾値は、60%である。いくつかの実施形態において、閾値は、70%である。いくつかの実施形態において、閾値は、80%である。いくつかの実施形態において、閾値は、90%である。いくつかの実施形態において、閾値は、95%である。いくつかの実施形態において、閾値は、96%である。いくつかの実施形態において、閾値は、97%である。いくつかの実施形態において、閾値は、98%である。いくつかの実施形態において、閾値は、99%である。
いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例11)
エクソンカバレッジは、配列データの同一性および/または完全性を評価するために使用され得る
データの一貫性を評価するため、および/またはデータポイントをグループ化して分析するために、様々な技術が使用され得る(たとえば、いくつかの実施形態において、主成分分析(PCA)が使用され得る)。このような技術は、配列データを同一性および/または完全性について評価する際に有用であり得る。たとえば、エクソンカバレッジは、配列情報から決定され、他の配列情報または主張された(たとえば、予想された)カバレッジレベルと比較したときに一貫したレベルのカバレッジがあるかどうかを決定するために評価され得る。カバレッジの一貫性がないこと(たとえば、予想よりも高いカバレッジまたは低いカバレッジ)は、配列データが予想された(たとえば、主張された)のとは異なるソースからのものであること、または配列データもしくはそれが取得されたサンプルに問題があることを示すこともあり得る。
エクソンカバレッジは、所与の被験者からの配列データリードの異なるバッチについて決定され、他の被験者からの配列データと突き合わせてプロットされ得る。
いくつかの実施形態において、評価の結果は、レポート(たとえば、GUIを介して)で使用者に提示される。
(実施例12)
RNAseqリード分布および組成は、配列データの同一性および/または完全性を評価するために使用され得る
いくつかの実施形態において、リード組成は、配列データの所与の構成要素(たとえば、タンパク質コード配列)のリードの数の文脈において、その構成要素に対するリードの総数に関して、および/またはリードの総数と突き合わせて計算されたその構成要素の相対的パーセンテージとして評価され得る。これらは、各パラメータ(たとえば、リードの総数、および/またはリードの総数に関する構成要素のリード)について確定された閾値と突き合わせて比較され得る。
いくつかの実施形態において、閾値は、タンパク質コード領域あたりの2000万総リードである。いくつかの実施形態において、サンプル中の総リード数と比較したタンパク質コード領域の相対的リード数に対する閾値は、50%以上である。いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例13)
バイオマーカーは、配列の同一性および/または完全性を評価するために使用され得る
バイオマーカーは、また、配列データの品質および/または同一性を評価するために評価され得る。図15に示されているように、PCAが実行され、これによりバイオマーカーの発現を評価することができる。結果は、類似のコホートの既存のデータセットと突き合わせて比較されるか、または訓練され得る。評価は、主張された情報および/または1つまたは複数の追加の配列データセットの妥当性を確認するのを助けるために使用され得る。いくつかの実施形態において、これは、配列情報が所与のソースまたは被験者からのものであることを高い確率で決定するのに有用である。対照的に、一貫性がないこと(たとえば、評価が主張された情報および/または1つまたは複数の追加の配列データセットと一致しない場合)は、一貫性がない原因を識別するためにさらに調査されるべきデータに関係する潜在的な品質問題があること(および/または、データがさらなる分析に使用されるべきでないこと)を示し得る。
いくつかの実施形態において、バイオマーカーは濾胞性リンパ腫についてのものである。いくつかの実施形態において、結果は、レポートの形で使用者に表示される(たとえば、GUIを介して)。
(実施例14)
配列データの同一性および/または完全性を評価するための品質管理メトリクスの非限定的な例
いくつかの実施形態において、本開示は、追加の特徴である(1)平均品質スコア、(2)汚染値、(3)GC含有量、(4)重複レベル、(5)遺伝子本体カバレッジ、および(6)染色体毎のカバレッジ、のうちの少なくとも1つが決定される方法に関する。
これらの決定のうちの1つまたは複数は、参照との比較、または少なくとも1つの追加の配列データセットとの比較によって、配列データのソースまたは完全性をさらに評価するために使用され得る。
いくつかの実施形態において、少なくとも1つの追加の特徴が決定される。いくつかの実施形態において、少なくとも2つの追加の特徴が決定される。いくつかの実施形態において、少なくとも3つの追加の特徴が決定される。いくつかの実施形態において、少なくとも4つの追加の特徴が決定される。いくつかの実施形態において、少なくとも5つの追加の特徴が決定される。いくつかの実施形態において、少なくとも6つの追加の特徴が決定される。
いくつかの実施形態において、評価される特徴は、一塩基多型(SNP)の一致値の評価は、(a)配列データから一塩基多型(SNP)の一致値を決定することと、(b)配列データの一致値が参照一致値に一致するか、またはそれを超えるかを決定することとを含む。いくつかの実施形態において、参照一致値は、80%である。
いくつかの実施形態において、汚染値の評価は、(a)配列データの汚染値を決定することと、(b)その汚染値が参照汚染値より小さいかどうかを決定することとを含む。いくつかの実施形態において、参照汚染値は、10%である。
いくつかの実施形態において、複雑度値の評価は、(a)配列データの複雑度値を決定することと、(b)その複雑度値が参照複雑度値と一致するどうかを決定することとを含む。
いくつかの実施形態において、Phred Scoreの評価は、(a)配列データのPhred Scoreを決定することと、(b)そのPhred Scoreが参照Phred Scoreと一致するか、または超えるかを決定することとを含む。
いくつかの実施形態において、GC含有量の評価は、(a)配列データのGC含有量を決定することと、(b)そのGC含有量が参照GC含有量と一致するどうかを決定することとを含む。
いくつかの実施形態において、方法は、少なくとも1つの追加の決定の結果を使用者に(たとえば、GUIを介して)表示するレポートを生成することをさらに含む。
(実施例15)
シークエンシングデータ品質管理を評価するための非限定的なプロトコル
いくつかの実施形態において、配列データ(たとえば、WESおよび/またはRNAseqデータ)に対する品質プロトコルは、次のステップの1つ以上を含む。
i)いくつかの実施形態において、低品質リード(たとえば、位置情報に基づく)が取り除かれる。いくつかの実施形態において、低品質配列(たとえば、シークエンシングフローセルの低品質領域からのリード)が、配列データ(たとえば、FASTQファイルから)から取り除かれる。いくつかの実施形態において、配列リードの著しい画分が低品質である場合(たとえば、不良タイルが配列データファイルの30%を超える、40%を超える、または50%を超える場合)。
ii)いくつかの実施形態において、配列データの品質管理ツール(たとえば、一例としてFastQC)が、ライブラリの複雑さ(たとえば、リードカウント)、配列プラットフォームの品質(たとえば、塩基毎のPhred品質スコアに基づく)、タイル毎の品質スコア、配列毎のGC含有量(たとえば、予想外のGC含有量に基づく汚染を検出するため)、塩基毎のシークエンシング含有量(たとえば、アダプタもしくは他の汚染を検出するため)、配列重複レベル(たとえば、RNA/DNA選択および/もしくはPCR増幅の品質を評価するため)、ならびに/またはアダプタ含有量を評価するために使用される。いくつかの実施形態において、さらなる分析のための品質閾値は、1,000万リードカウント超(たとえば、2,000万リードカウント超)、および/またはリードの30%超(たとえば、リードの50%または50%超)で25超(たとえば、28または28超)のPhredスコアを含む。いくつかの実施形態において、品質閾値が満たされない場合、品質管理パイプラインが停止される。
iii)いくつかの実施形態において、配列データは、たとえば、異種間汚染(たとえば、マウス、ゼブラフィッシュ、ショウジョウバエ、カエノラブディティス・エレガンス、サッカロミセス、シロイヌナズナ、マイクロバイオーム、アダプタ、ベクター、phiX、または他のソースからの)を検出するために、配列のライブラリ(たとえば、Babraham Bioinformatics社のFastQ Screenを使用する)と突き合わせてスクリーニングされる。いくつかの実施形態において、異種間汚染に基づくさらなる分析のための品質管理閾値は、約10%、約20%、約30%、またはそれ以上に設定される。たとえば、いくつかの実施形態において、配列データが30%または30%超の汚染(たとえば、細菌配列を伴う)を含む場合、品質管理パイプラインが停止される。
iv)いくつかの実施形態において、染色体毎のカバレッジ分布および/またはカバレッジ分布は、分析ツール(たとえば、Mosdepth)を使用して1つまたは複数の特定の領域(たとえば、1つまたは複数のCCDSタンパク質コード領域、エクソンなど)について決定される。いくつかの実施形態において、さらなる分析のための品質管理閾値は、配列データが臨床的に重要なゲノム領域をカバーしていることを確認することを伴う。いくつかの実施形態において、配列カバレッジが1つまたは複数の注目する標的ゲノム領域を含まない場合、品質管理パイプラインが停止される。
v)いくつかの実施形態において、分析ツール(たとえば、Picard)が、インサートサイズ、重複、マッピング、ペアリング、または他のパラメータなどの1つまたは複数の配列データパラメータを評価するために使用される。
vi)いくつかの実施形態において、RNA配列データを評価するための分析ツール(たとえば、一例としてRseQC)が、たとえば、インサートサイズ(たとえば、ペアリングされたRNAリード間の内側距離)、鎖性(たとえば、鎖または非鎖RNA配列プロトコルが使用されたかどうかを決定するか、または確認するため)、および/または遺伝子本体カバレッジ(たとえば、RNA抽出プロトコルに関連するカバレッジバイアスを決定するため、たとえば、ポリA対トータルRNA配列データを区別するため)を決定するために使用される。
vii)いくつかの実施形態において、RNA分析の品質閾値は、重複および/またはアダプタ汚染のパーセンテージを決定し、70%未満(たとえば60%未満、もしくは50%未満)の重複および/または25%未満(たとえば20%未満、15%未満、もしくは10%未満)のアダプタ汚染を有するRNA配列データについて、さらなる解析を進めることを含む。したがって、分析プロトコルは、いくつかの実施形態において、50%超(たとえば、60%もしくは60%超、もしくは70%超)の重複および/または10%超(たとえば、15%超、20%もしくは20%超、または30%超)のアダプタ汚染を有するRNA配列データのときに終了する。
viii) いくつかの実施形態において、異種間汚染は、たとえば、同じ患者から取得された一対のサンプル(たとえば、腫瘍と正常)の一致を決定するために(たとえば、Conpairなどの一致および/または汚染推定器を使用して)評価される。いくつかの実施形態において、正常サンプルおよび腫瘍サンプル(たとえば、正常DNAおよび腫瘍DNA)が同じ被験者からのものであると識別された場合にさらなる分析が実行される。
ix)いくつかの実施形態において、腫瘍型分類器が、サンプルの遺伝子発現データから腫瘍型を予測するために使用され、予測された腫瘍型は、主張された腫瘍型(たとえば、核酸データとともに提供される腫瘍型)と比較される。いくつかの実施形態において、予測された腫瘍型および主張された腫瘍型が一致する場合、さらなる分析が実行される。
x)いくつかの実施形態において、RNA配列型分類器は、RNA配列データからライブラリ型を予測する(たとえば、特定の遺伝子発現レベルまたはパターンに基づき)ために使用される。いくつかの実施形態において、予測されたライブラリ型が、分析されているサンプルについて主張されたライブラリ型と一致する場合、さらなる分析が実行される。
xi)いくつかの実施形態において、同じ被験者からの2つまたはそれ以上のサンプル(たとえば、腫瘍および/または正常組織から)について、MHC対立遺伝子組成が決定される。いくつかの実施形態において、2つまたは複数のサンプルに対するMHC対立遺伝子組成が一致する場合、さらなる分析が実行される。
いくつかの実施形態において、上述のステップの1つまたは複数が実行される。配列データ(たとえば、RNAおよび/またはDNA配列データ)がこれらの品質管理ステップの1つまたは複数を満たすことに失敗した場合、配列データはさらなる分析から除外され得る。いくつかの実施形態において、追加の配列データが、配列データの初期セットが1つまたは複数の品質管理基準を満たさなかった被験者について取得され得る。
例示的な実施形態
いくつかの実施形態は、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者から第1の腫瘍の第1のサンプルを取得することと、第1の腫瘍の第1のサンプルからRNAを抽出することと、コードRNAに対してRNAを濃縮して濃縮RNAを取得することと、非鎖RNAシークエンシングのために濃縮RNAからDNAフラグメントの第1のライブラリを調製することと、非鎖RNAシークエンシングを、濃縮RNAから調製されたDNAフラグメントの第1のライブラリ上で実行することとを含む方法を提供する。
いくつかの実施形態において、方法は、腫瘍の第1のサンプルからDNAを抽出することと、抽出されたDNAからDNAフラグメントの第2のライブラリを調製することと、DNAフラグメントの第2のライブラリ上で全エクソームシークエンシング(WES)を実行することとをさらに含む。
いくつかの実施形態において、方法は、被験者から血液の第1のサンプルを採取することと、血液の第1のサンプルからDNAを抽出することと、血液の第1のサンプルから抽出されたDNAからDNAフラグメントの第3のライブラリを調製することと、DNAの第3のライブラリ上で全エクソームシークエンシング(WES)を実行することとをさらに含む。
いくつかの実施形態において、方法は、被験者から第2の腫瘍の第2のサンプルを採取することをさらに含む。いくつかの実施形態において、第1の腫瘍および第2の腫瘍は、同じ腫瘍である。いくつかの実施形態において、第1および第2の腫瘍は異なる腫瘍である。
いくつかの実施形態において、この方法は、第1の腫瘍サンプルと第2の腫瘍サンプルとを組み合わせて組み合わせ腫瘍サンプルを形成することをさらに含み、RNAを抽出することは、組み合わせ腫瘍サンプルからRNAを抽出することを含む。
いくつかの実施形態において、方法は、RNAを第2のサンプルから抽出することと、第2のサンプルから抽出されたRNAを第1のサンプルから抽出されたRNAと組み合わせて組み合わされた抽出済みRNAを形成することとをさらに含み、コードRNAに対するRNAを濃縮することは、コードRNAに対する組み合わされた抽出済みRNAを濃縮することを含む。いくつかの実施形態において、方法は、DNAを第2の腫瘍サンプルから抽出することと、第2の腫瘍サンプルから抽出されたDNAを第1の腫瘍サンプルから抽出されたDNAと組み合わせて組み合わされた抽出済みDNAを形成することとをさらに含み、抽出されたDNAからDNAフラグメントの第2のライブラリを調製することは、組み合わされた抽出済みDNAからDNAフラグメントのライブラリを調製することを含む。
いくつかの実施形態において、方法は、第1のサンプルを第1の極低温チューブ内に入れることをさらに含み、第1の極低温チューブはサンプルに浸透し、その中のDNAおよび/またはRNAを劣化から防ぐことができる組成物を収容する。いくつかの実施形態において、方法は、第1の極低温チューブの内容物をスナップ冷凍することをさらに含む。
いくつかの実施形態において、方法は、血液の第1のサンプルを、抗血液凝固剤を収容するバキュテイナ内に入れることをさらに含む。いくつかの実施形態において、方法は、バキュテイナの内容物をスナップ冷凍することをさらに含む。いくつかの実施形態において、極低温チューブおよび/またはバキュテイナのスナップ冷凍された内容物は、-65℃から-80℃の温度で最大7カ月間貯蔵される。
いくつかの実施形態において、第1の腫瘍サンプルは、重量が少なくとも20mgであり、少なくとも2×106個の細胞からなるか、またはRNA抽出後に少なくとも1μgのRNAを提供する。
いくつかの実施形態において、方法は、腫瘍の第1のサンプルから細胞の単細胞懸濁液を形成することと、単細胞懸濁液の少なくとも第1の部分に対してマスサイトメトリーを実行することであって、単細胞懸濁液の少なくとも第1の部分は少なくとも5×106個の細胞を含む、実行することとをさらに含む。
いくつかの実施形態において、方法は、単細胞懸濁液の少なくとも第2の部分から溶解物を形成することであって、単細胞懸濁液の少なくとも第2の部分は少なくとも2×106個の細胞を含む、形成すること、溶解物からRNAを抽出すること、抽出されたRNAに対してRNAシークエンシングを実行して、RNA発現データを取得すること、および/またはRNA発現データに基づき第1の腫瘍が異質であるかどうかを決定することをさらに含む。
いくつかの実施形態において、細胞の単細胞懸濁液を形成することは、第1の腫瘍サンプルを解剖して腫瘍サンプル断片を取得することと、腫瘍サンプル断片を酵素カクテル中でインキュベートすることであって、酵素カクテルはペニシリンおよび/またはストレプトマイシン、コラゲナーゼI、およびコラゲナーゼIVを含む、インキュベートすることと、酵素カクテルを70μmのセルストレーナーに通して濾過することとを含む。
いくつかの実施形態において、血液の第1のサンプルは、体積が少なくとも0.5~1.0mlである。
いくつかの実施形態において、第1のサンプルまたは第2のサンプルのいずれかから抽出されたRNAは、全質量が少なくとも1000~6000ngであり、少なくとも2.0である260nmでの吸光度と280nmでの吸光度との比に対応する純度を有する。
いくつかの実施形態において、第1のサンプルから抽出されたDNAは、100~200ng/μlの濃度の、少なくとも10μlの溶液中で、少なくとも1000~2000ngの全質量を有し、少なくとも1.8の260nmでの吸光度と280nmでの吸光度との比に対応する純度を有する。
いくつかの実施形態において、コードRNAに対してRNAを濃縮することは、ポリA濃縮を実行することを含む。
いくつかの実施形態において、DNAフラグメントの第2のライブラリに対して実行されたWES、およびDNAフラグメントの第3のライブラリに対して実行されたWESは、少なくとも100bpのペアエンドリードを有し、少なくとも100倍の推定カバレッジを有する。
いくつかの実施形態において、WESは、少なくとも150倍の推定カバレッジを有する。
いくつかの実施形態において、DNAフラグメントの第1のライブラリに対するRNAシークエンシングは、少なくとも100bpのペアエンドリードを有し、少なくとも5000万ペアエンドリードの推定総数のリードを有する。
いくつかの実施形態において、DNAフラグメントの第1のライブラリに対するRNAシークエンシングは、少なくとも100bpのペアエンドリードを有し、少なくとも1億ペアエンドリードの推定総数のリードを有する。
いくつかの実施形態において、方法は、DNAフラグメントの調製されたライブラリのいずれか1つのサンプルに対して、その完全性および/またはピークサイズを評価するための品質管理試験を実施することをさらに含み、調製されたライブラリの各サンプルは、最大1ngのライブラリを含む。
いくつかの実施形態において、被験者は、人間である。
いくつかの実施形態はキットを提供し、キットは組織に浸透し、その中のDNAおよび/またはRNAを劣化から防ぐことができる組成物と、腫瘍のサンプルを解剖し、そこから単細胞懸濁液を調製するための少なくとも1つのツールと、生体サンプルをスナップ冷凍するための少なくとも1つの試薬と、抗血液凝固剤と、少なくとも1つのバキュテイナと、組織サンプルおよび血液からDNAおよびRNAを抽出するための少なくとも1つの試薬とDNAおよび/またはRNAサンプルからDNAライブラリを調製するための少なくとも1つの試薬とを備える。
いくつかの実施形態は、先行する例のいずれかによる方法で使用するためのキットを提供する。
いくつかの実施形態は、少なくとも1つのコンピュータハードウェアプロセッサと、少なくとも1つのコンピュータハードウェアプロセッサによって実行されたときに少なくとも1つのコンピュータハードウェアプロセッサにRNA発現データを処理するための方法を実行させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体とを備えるシステムを提供する。この方法は、少なくとも1つのハードウェアプロセッサを使用して、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対するRNA発現データを取得することと、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、アノテーションされたRNA発現データから非コード転写産物を取り除くことと、アノテーションされたRNA発現データをTranscripts Per Kilobase Million(TPM)の遺伝子発現データに変換することと、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから少なくとも1つの遺伝子を取り除いてバイアス補正された遺伝子発現データを取得することと、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することとを実行することを含む。
いくつかの実施形態は、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、命令は少なくとも1つのコンピュータハードウェアプロセッサによって実行されたときに少なくとも1つのコンピュータハードウェアプロセッサにRNA発現データを処理するための方法を実行させる、少なくとも1つの非一時的コンピュータ可読記憶媒体を提供する。この方法は、少なくとも1つのハードウェアプロセッサを使用して、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対するRNA発現データを取得することと、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、アノテーションされたRNA発現データから非コード転写産物を取り除くことと、アノテーションされたRNA発現データをTranscripts Per Kilobase Million(TPM)の遺伝子発現データに変換することと、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから少なくとも1つの遺伝子を取り除いてバイアス補正された遺伝子発現データを取得することと、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することとを実行することを含む。
いくつかの実施形態は、RNA発現データを処理するための方法を提供し、方法は少なくとも1つのハードウェアプロセッサを使用して、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者に対するRNA発現データを取得することと、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得することと、アノテーションされたRNA発現データから非コード転写産物を取り除くことと、アノテーションされたRNA発現データをTranscripts Per Kilobase Million(TPM)の遺伝子発現データに変換することと、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから少なくとも1つの遺伝子を取り除いてバイアス補正された遺伝子発現データを取得することと、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することとを実行することを含む。
いくつかの実施形態において、遺伝子発現データから少なくとも1つの遺伝子を識別することは、遺伝子発現データ内の転写産物の平均長よりも少なくとも1つの閾値量だけ長いか、または短い平均転写産物長を有する少なくとも1つの遺伝子を識別することを含む。
いくつかの実施形態において、遺伝子発現データから少なくとも1つの遺伝子を識別することは、参照サンプル内の転写産物発現レベルに基づき平均転写産物発現レベルに少なくとも1つの閾値変動を有する少なくとも1つの遺伝子を識別することを含む。
いくつかの実施形態において、遺伝子発現データから少なくとも1つの遺伝子を識別することは、RNA発現データが取得されたサンプルからの遺伝子のポリAテールの平均長と比較して少なくとも閾値量だけ小さい長さを有するポリAテールを有する1つまたは複数の遺伝子を識別することを含む。
いくつかの実施形態において、少なくとも1つの遺伝子は、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、B細胞受容体コード遺伝子、およびT細胞受容体コード遺伝子からなる群から選択される遺伝子のファミリーに属す。
いくつかの実施形態において、少なくとも1つの遺伝子は、HIST1H1A、HIST1H1B、HIST1H1C、HIST1H1D、HIST1H1E、HIST1H1T、HIST1H2AA、HIST1H2AB、HIST1H2AC、HIST1H2AD、HIST1H2AE、HIST1H2AG、HIST1H2AH、HIST1H2AI、HIST1H2AJ、HIST1H2AK、HIST1H2AL、HIST1H2AM、HIST1H2BA、HIST1H2BB、HIST1H2BC、HIST1H2BD、HIST1H2BE、HIST1H2BF、HIST1H2BG、HIST1H2BH、HIST1H2BI、HIST1H2BJ、HIST1H2BK、HIST1H2BL、HIST1H2BM、HIST1H2BN、HIST1H2BO、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3F、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST1H4A、HIST1H4B、HIST1H4C、HIST1H4D、HIST1H4E、HIST1H4F、HIST1H4G、HIST1H4H、HIST1H4I、HIST1H4J、HIST1H4K、HIST1H4L、HIST2H2AA3、HIST2H2AA4、HIST2H2AB、HIST2H2AC、HIST2H2BE、HIST2H2BF、HIST2H3A、HIST2H3C、HIST2H3D、HIST2H3PS2、HIST2H4A、HIST2H4B、HIST3H2A、HIST3H2BB、HIST3H3、およびHIST4H4からなる群から選択される少なくとも1つのヒストンコード遺伝子を含む。
いくつかの実施形態において、少なくとも1つの遺伝子は、MT-ATP6、MT-ATP8、MT-CO1、MT-CO2、MT-CO3、MT-CYB、MT-ND1、MT-ND2、MT-ND3、MT-ND4、MT-ND4L、MT-ND5、MT-ND6、MT-RNR1、MT-RNR2、MT-TA、MT-TC、MT-TD、MT-TE、MT-TF、MT-TG、MT-TH、MT-TI、MT-TK、MT-TL1、MT-TL2、MT-TM、MT-TN、MT-TP、MT-TQ、MT-TR、MT-TS1、MT-TS2、MT-TT、MT-TV、MT-TW、MT-TY、MTRNR2L1、MTRNR2L10、MTRNR2L11、MTRNR2L12、MTRNR2L13、MTRNR2L3、MTRNR2L4、MTRNR2L5、MTRNR2L6、MTRNR2L7、およびMTRNR2L8からなる群から選択される少なくとも1つのミトコンドリア遺伝子を含む。
いくつかの実施形態において、RNA発現データは、少なくとも100bpのペアエンドリードおよび少なくとも5000万ペアエンドリードの推定カバレッジを特徴とする。
いくつかの実施形態において、RNA発現データは、少なくとも100bpのペアエンドリード、および少なくとも1億ペアエンドリードの推定総リード数を特徴とする。
いくつかの実施形態において、RNA発現データの遺伝子をアライメントすることは、GRCh38ゲノムアセンブリを使用して実行される。
いくつかの実施形態において、RNA発現データ中の遺伝子をアノテーションすることは、GENCODE V23網羅的アノテーション(www.gencodegenes.org)に基づく。
いくつかの実施形態において、取り除かれた非コード転写産物は、偽遺伝子、多型偽遺伝子、プロセス型偽遺伝子、転写されたプロセス型偽遺伝子、ユニタリー偽遺伝子、非プロセス型偽遺伝子、転写されたユニタリー偽遺伝子、定常鎖免疫グロブリン(IG C)偽遺伝子、結合鎖免疫グロブリン(IG J)偽遺伝子、可変鎖免疫グロブリン(IG V)遺伝子、転写された非プロセス型遺伝子、翻訳された非プロセス型遺伝子、結合鎖T細胞受容体(TR J)遺伝子、可変鎖T細胞受容体(TR V)遺伝子、核内低分子RNA(snRNA)、核小体低分子RNA(snoRNA)、マイクロRNA(miRNA)、リボザイム、リボソームRNA(rRNA)、ミトコンドリアtRNA(Mt tRNA)、ミトコンドリアrRNA(Mt rRNA)、カハール小体特異的RNA(scaRNA)、残留イントロン、センスイントロンRNA、センス重複RNA、ナンセンス変異依存分解RNA、ノンストップ分解RNA、アンチセンスRNA、長介在性非コードRNA(lincRNA)、マクロ長非コードRNA(マクロlncRNA)、プロセス型転写産物、3'重複非コードRNA(3'重複ncrna)、小RNA(sRNA)、その他のRNA(miscRNA)、ボールトRNA(vaultRNA)、およびTEC RNAからなるリストから選択された群に属す。
いくつかの実施形態において、RNA発現データは、被験者の腫瘍の1つまたは複数のサンプル上でRNAシークエンシングを実行することによって取得されている。
いくつかの実施形態において、バイアス補正された遺伝子発現データを使用して被験者に対する癌治療を識別することは、バイアス補正された遺伝子発現データを使用して、遺伝子群のセットにおける各遺伝子群に対する遺伝子群発現レベルを決定することであって、遺伝子群のセットは、癌の悪性度に関連する少なくとも1つの遺伝子群と、癌の微小環境に関連する少なくとも1つの遺伝子群とを含む、決定することと、決定された遺伝子群発現レベルを使用して癌治療を識別することとを含む。いくつかの実施形態において、方法は、被験者に癌治療を施すことをさらに含む。
いくつかの実施形態は、癌を有する、癌を有する疑いがある、または癌を有するリスクがある被験者からの第1の腫瘍サンプルから抽出RNAのサンプル中のコードRNAに対するRNAを濃縮することと、RNA発現データを取得するために濃縮RNAから調製されたcDNAフラグメントの第1のライブラリ上で非鎖RNAシークエンシングを実行することと、RNA発現データをTranscripts Per Kilobase Million(TPM)の遺伝子発現データに変換することと、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することと、遺伝子発現データから、少なくとも1つの遺伝子に関連する発現データを取り除いてバイアス補正された遺伝子発現データを取得することと、バイアス補正された遺伝子発現データを使用して被験者に対する療法を識別することとを含む方法を提供する。いくつかの実施形態において、この方法は、被験者に識別された療法を施すことをさらに含む。
いくつかの実施形態において、バイアス補正された遺伝子発現データを使用して被験者に対する療法を識別することは、バイアス補正された遺伝子発現データを使用して、遺伝子群のセットにおける各遺伝子群に対する遺伝子群発現レベルを含む複数の遺伝子群発現レベルを決定することであって、一組の遺伝子群は、癌の悪性度に関連する少なくとも1つの遺伝子群と、癌の微小環境に関連する少なくとも1つの遺伝子群とを含む、決定することと、決定された複数の遺伝子群発現レベルを使用して療法を識別することとを含む。
いくつかの実施形態において、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することは、遺伝子発現データにおける転写産物の平均長よりも少なくとも1つの閾値量だけ長いか、または短い平均転写産物長を有する少なくとも1つの遺伝子を識別することを含む。
いくつかの実施形態において、遺伝子発現データにバイアスを持ち込む少なくとも1つの遺伝子を識別することは、参照サンプル内の転写産物発現レベルに基づき平均転写産物発現レベルに少なくとも1つの閾値変動を有する少なくとも1つの遺伝子を識別することを含む。
いくつかの実施形態において、少なくとも1つの遺伝子を識別することは、RNA発現データが取得されたサンプルからの遺伝子のポリAテールの平均長と比較して少なくとも閾値量だけ小さい長さを有するポリAテールを有する1つまたは複数の遺伝子を識別することを含む。
いくつかの実施形態において、少なくとも1つの遺伝子は、ヒストンコード遺伝子、ミトコンドリア遺伝子、インターロイキンコード遺伝子、コラーゲンコード遺伝子、B細胞受容体コード遺伝子、およびT細胞受容体コード遺伝子からなる群から選択される遺伝子のファミリーに属す。
いくつかの実施形態において、少なくとも1つの遺伝子は、HIST1H1A、HIST1H1B、HIST1H1C、HIST1H1D、HIST1H1E、HIST1H1T、HIST1H2AA、HIST1H2AB、HIST1H2AC、HIST1H2AD、HIST1H2AE、HIST1H2AG、HIST1H2AH、HIST1H2AI、HIST1H2AJ、HIST1H2AK、HIST1H2AL、HIST1H2AM、HIST1H2BA、HIST1H2BB、HIST1H2BC、HIST1H2BD、HIST1H2BE、HIST1H2BF、HIST1H2BG、HIST1H2BH、HIST1H2BI、HIST1H2BJ、HIST1H2BK、HIST1H2BL、HIST1H2BM、HIST1H2BN、HIST1H2BO、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3F、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST1H4A、HIST1H4B、HIST1H4C、HIST1H4D、HIST1H4E、HIST1H4F、HIST1H4G、HIST1H4H、HIST1H4I、HIST1H4J、HIST1H4K、HIST1H4L、HIST2H2AA3、HIST2H2AA4、HIST2H2AB、HIST2H2AC、HIST2H2BE、HIST2H2BF、HIST2H3A、HIST2H3C、HIST2H3D、HIST2H3PS2、HIST2H4A、HIST2H4B、HIST3H2A、HIST3H2BB、HIST3H3、およびHIST4H4からなる群から選択される少なくとも1つのヒストンコード遺伝子を含む。
いくつかの実施形態において、少なくとも1つの遺伝子は、MT-ATP6、MT-ATP8、MT-CO1、MT-CO2、MT-CO3、MT-CYB、MT-ND1、MT-ND2、MT-ND3、MT-ND4、MT-ND4L、MT-ND5、MT-ND6、MT-RNR1、MT-RNR2、MT-TA、MT-TC、MT-TD、MT-TE、MT-TF、MT-TG、MT-TH、MT-TI、MT-TK、MT-TL1、MT-TL2、MT-TM、MT-TN、MT-TP、MT-TQ、MT-TR、MT-TS1、MT-TS2、MT-TT、MT-TV、MT-TW、MT-TY、MTRNR2L1、MTRNR2L10、MTRNR2L11、MTRNR2L12、MTRNR2L13、MTRNR2L3、MTRNR2L4、MTRNR2L5、MTRNR2L6、MTRNR2L7、およびMTRNR2L8からなる群から選択される少なくとも1つのミトコンドリア遺伝子を含む。
いくつかの実施形態において、RNA発現データは、少なくとも100bpのペアエンドリードおよび少なくとも5000万ペアエンドリードの推定リード深さを特徴とする。
いくつかの実施形態において、方法は、RNA発現データ内の遺伝子を、ヒトゲノムの知られている配列とアライメントし、アノテーションして、アノテーションされたRNA発現データを取得してから遺伝子発現データ内にバイアスを持ち込む少なくとも1つの遺伝子を識別することをさらに含み、RNA発現データの遺伝子をアライメントすることは、GRCh38ゲノムアセンブリを使用して実行され、RNA発現データにおける遺伝子をアノテーションすることは、GENCODE V23網羅的アノテーション(www.gencodegenes.org)を使用して実行される。
いくつかの実施形態において、方法は、RNA発現データから非コード転写産物を取り除くことをさらに含み、取り除かれた非コード転写産物は、偽遺伝子、多型偽遺伝子、プロセス型偽遺伝子、転写されたプロセス型偽遺伝子、ユニタリー偽遺伝子、非プロセス型偽遺伝子、転写されたユニタリー偽遺伝子、定常鎖免疫グロブリン(IG C)偽遺伝子、結合鎖免疫グロブリン(IG J)偽遺伝子、可変鎖免疫グロブリン(IG V)遺伝子、転写された非プロセス型遺伝子、翻訳された非プロセス型遺伝子、結合鎖T細胞受容体(TR J)遺伝子、可変鎖T細胞受容体(TR V)遺伝子、核内低分子RNA(snRNA)、核小体低分子RNA(snoRNA)、マイクロRNA(miRNA)、リボザイム、リボソームRNA(rRNA)、ミトコンドリアtRNA(Mt tRNA)、ミトコンドリアrRNA(Mt rRNA)、カハール小体特異的RNA(scaRNA)、残留イントロン、センスイントロンRNA、センス重複RNA、ナンセンス変異依存分解RNA、ノンストップ分解RNA、アンチセンスRNA、長介在性非コードRNA(lincRNA)、マクロ長非コードRNA(マクロlncRNA)、プロセス型転写産物、3'重複非コードRNA(3'重複ncrna)、小RNA(sRNA)、その他のRNA(miscRNA)、ボールトRNA(vaultRNA)、およびTEC RNAからなるリストから選択された群に属す。
いくつかの実施形態において、方法は、癌を有するか、または癌を有する疑いがある被験者から第1の腫瘍の第1のサンプルを取得することと、第1の腫瘍の第1のサンプルからRNAを抽出して抽出済みRNAのサンプルを取得することと、その後、コードRNAに対してRNAを濃縮することとをさらに含む。いくつかの実施形態において、この方法は、第2の腫瘍の第2のサンプルを被験者から取得することをさらに含む。
いくつかの実施形態において、方法は、第1の腫瘍サンプルと第2の腫瘍サンプルとを組み合わせて組み合わせ腫瘍サンプルを形成することをさらに含み、RNAを抽出することは、組み合わせ腫瘍サンプルからRNAを抽出することを含む。
いくつかの実施形態において、方法は、RNAを第2のサンプルから抽出することと、第2のサンプルから抽出されたRNAを第1のサンプルから抽出されたRNAと組み合わせて組み合わされた抽出済みRNAを形成することとをさらに含み、コードRNAに対するRNAを濃縮することは、コードRNAに対する組み合わされた抽出済みRNAを濃縮することを含む。
いくつかの実施形態において、抽出されたRNAのサンプルは、RNA抽出後に少なくとも1μgのRNAを含む。
いくつかの実施形態において、抽出されたRNAは、全質量が少なくとも1000~6000ngであり、少なくとも2.0である260nmでの吸光度と280nmでの吸光度との比に対応する純度を有する。
いくつかの実施形態において、コードRNAに対してRNAを濃縮することは、ポリA濃縮を実行することを含む。
いくつかの実施形態は、少なくとも1つのコンピュータハードウェアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、プロセッサ実行可能命令は少なくとも1つのコンピュータハードウェアプロセッサによって実行されたときに、少なくとも1つのコンピュータハードウェアプロセッサに、方法であって、(a)核酸データを取得することであって、核酸データは(i)DNAおよび/またはRNAの少なくとも5キロベース(kb)を含み、疾病を有する、疾病を有する疑いがある、または疾病を有するリスクがある被験者の生体サンプルをシークエンシングすることによって取得された、配列データと、(ii)配列データの主張されたソースおよび/または主張された完全性を示す主張された情報とを含む、核酸データを取得することと、(b)核酸データを、(i)配列データを処理して、配列データの決定されたソースおよび/または決定された完全性を示す決定された情報を取得することと、(ii)決定された情報が主張された情報と一致するかどうかを決定することとによって、妥当性確認することとを含む方法を実行させる、少なくとも1つの非一時的コンピュータ可読記憶媒体とを備えるシステムを提供する。
いくつかの実施形態は、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、プロセッサ実行可能命令は少なくとも1つのコンピュータハードウェアプロセッサによって実行されたときに、少なくとも1つのコンピュータハードウェアプロセッサに、方法であって、(a)核酸データを取得することであって、核酸データは(i)DNAおよび/またはRNAの少なくとも5キロベース(kb)を含み、疾病を有する、疾病を有する疑いがある、または疾病を有するリスクがある被験者の生体サンプルをシークエンシングすることによって取得された、配列データと、(ii)配列データの主張されたソースおよび/または主張された完全性を示す主張された情報とを含む、核酸データを取得することと、(b)核酸データを、(i)配列データを処理して、配列データの決定されたソースおよび/または決定された完全性を示す決定された情報を取得することと、(ii)決定された情報が主張された情報と一致するかどうかを決定することとによって、妥当性確認することとを含む方法を実行させる、少なくとも1つの非一時的コンピュータ可読記憶媒体を提供する。
いくつかの実施形態は、(a)核酸データを取得することであって、核酸データは(i)DNAおよび/またはRNAの少なくとも5キロベース(kb)を含み、疾病を有する、疾病を有する疑いがある、または疾病を有するリスクがある被験者の生体サンプルをシークエンシングすることによって取得された、配列データと、(ii)配列データの主張されたソースおよび/または主張された完全性を示す主張された情報とを含む、核酸データを取得することと、(b)核酸データを、
(i)配列データを処理して、配列データの決定されたソースおよび/または決定された完全性を示す決定された情報を取得することと、(ii)決定された情報が主張された情報と一致するかどうかを決定することとによって、妥当性確認することとを含む方法を提供する。
いくつかの実施形態において、主張された情報が決定された情報と一致すると決定されたときに、(i)疾病特徴のデータベースにアクセスし、(ii)配列データを処理してそれが1つまたは複数の疾病の特徴を示しているかどうかを決定し、
(d)主張された情報が決定された情報と一致していないと決定されたときに、(i)決定された情報と主張された情報とが一致していないことを使用者に指示し、(ii)さらなる分析から配列データを除外し、ならびに/または(iii)追加の配列データおよび/もしくは生体サンプルおよび/もしくは被験者に関する他の情報を取得する。
いくつかの実施形態において、配列データの主張された情報は、MHC対立遺伝子配列情報、核酸型、被験者の同一性、サンプルの同一性、サンプルが取得された組織型、サンプルが取得された腫瘍型、配列データを生成するために使用されるシークエンシングプラットフォーム、配列完全性、RNAサンプルのポリAステータス(たとえば、RNAサンプルがポリA濃縮されたかどうかを示す)、トータル配列カバレッジ、エクソンカバレッジ、染色体カバレッジ、同じタンパク質の2つまたはそれ以上のサブユニットをコードする核酸の発現レベルの比、汚染、一塩基多型(SNP)、複雑度、ならびに/またはグアニン(G)およびシトシン(C)のパーセンテージ(%)からなる群から選択された(1つ、少なくとも2つ、少なくとも3つ、2から10個、5から10個の)情報に基づく。
いくつかの実施形態において、配列データの決定された情報は、MHC対立遺伝子配列情報、核酸型、被験者の同一性、サンプルの同一性、サンプルが取得された組織型、サンプルが取得された腫瘍型、配列データを生成するために使用されるシークエンシングプラットフォーム、配列完全性、RNAサンプルのポリAステータス(たとえば、RNAサンプルがポリA濃縮されたかどうかを示す)、トータル配列カバレッジ、エクソンカバレッジ、染色体カバレッジ、同じタンパク質の2つまたはそれ以上のサブユニットをコードする核酸の発現レベルの比、汚染、一塩基多型(SNP)、複雑度、ならびに/またはグアニン(G)およびシトシン(C)のパーセンテージ(%)からなる群から選択された(1つ、少なくとも2つ、少なくとも3つ、2から10個、5から10個の)情報に基づく。
いくつかの実施形態において、疾病は、癌である。いくつかの実施形態において、被験者は、人間である。
いくつかの実施形態において、配列データのソースは、被験者、組織型、腫瘍型、RNA配列型、またはDNA配列型である。
いくつかの実施形態において、配列データが取得された被験者は、1つまたは複数のMHC配列を決定することによって、たとえば、6つのMHC遺伝子座に対するMHC配列を決定することによって評価される。
いくつかの実施形態において、1つまたは複数の核酸配列データセットのソースは、核酸配列データセットのSNP一致を決定することによって評価される。
いくつかの実施形態において、配列データの完全性は、配列データのエクソンカバレッジ、タンパク質サブユニットコード核酸の1つまたは複数の比、および/または遺伝子カバレッジを決定することによって評価される。
いくつかの実施形態において、RNA配列データの完全性は、RNA配列データにおける1つまたは複数の遺伝子のカバレッジを決定することによって評価される。
いくつかの実施形態において、RNA配列データの完全性は、RNA配列データにおける少なくとも1つの遺伝子に対する2つまたはそれ以上のエクソンの相対的カバレッジを決定することによって評価される。
いくつかの実施形態において、RNA配列データの完全性は、RNA配列データにおける2つの知られている参照遺伝子の発現比を決定することによって評価される。
いくつかの実施形態において、方法は、核酸の劣化、汚染、および/またはGC含有量のレベルを決定することをさらに含む。
いくつかの実施形態において、RNA配列データがポリA RNA配列データであるか、またはトータルRNA配列データであるかを決定することは、RNA配列データにおける1つまたは複数のミトコンドリア遺伝子および/またはヒストン遺伝子の発現レベルを決定することを含む。
いくつかの実施形態において、WES配列データを生成するために使用された配列決定プラットフォームは、WES配列データにおける1つまたは複数の参照遺伝子のパーセント(%)分散を決定することによって識別される。
いくつかの実施形態において、方法は、配列データから決定される1つまたは複数の特徴と、主張された情報における1つまたは複数の対応する主張された特徴との間の一致の程度を示すレポートを生成することをさらに含む。
同等物および範囲
本明細書において説明されているすべての特徴は、任意の組合せで組み合わせることができる。また、本明細書において説明されている各特徴は、同じ目的、同等の目的、または類似の目的を果たす代替的特徴で置き換えられ得る。したがって、別段に明示されていない限り、説明されている各機能は、一般的な一連の同等または類似の機能の一例に過ぎない。
本明細書において説明されているすべての特徴は、任意の組合せで組み合わせることができる。また、本明細書において説明されている各特徴は、同じ目的、同等の目的、または類似の目的を果たす代替的特徴で置き換えられ得る。したがって、別段に明示されていない限り、説明されている各機能は、一般的な一連の同等または類似の機能の一例に過ぎない。
上記の説明から、当業者であれば、本開示の本質的な特徴を容易に把握することができ、その精神および範囲から逸脱することなく、本開示を様々な用途および条件に適合させるために、本開示の様々な変更および修正を行うことができる。したがって、他の実施形態も請求項の範囲内にある。
「プログラム」または「ソフトウェア」という用語は、本明細書において一般的な意味で、上で説明されているような実施形態の様々な態様を実装するようにコンピュータまたは他のプロセッサ(物理的または仮想的)をプログラムするために使用され得る任意のタイプのコンピュータコードまたは任意の一組のプロセッサ実行可能命令を指すために使用される。それに加えて、一態様により、実行されたときに本明細書で説明されている技術の方法を実行する1つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に常駐する必要はないが、本明細書において説明されている技術の様々な態様を実装するために異なるコンピュータまたはプロセッサ間にモジュール形式で分散されてよい。
プロセッサ実行可能命令は、1つまたは複数のコンピュータまたは他のデバイスによって実行される、プログラムモジュールなどの任意の形態をとり得る。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。典型的には、プログラムモジュールの機能は、組み合わされるか、または分散され得る。
また、データ構造体は、任意の好適な形式で1つまたは複数の非一時的コンピュータ可読記憶媒体内に記憶され得る。図解を簡単にするために、データ構造体は、データ構造体内の配置を通じて関係するフィールドを有するように示され得る。そのような関係は、同様に、フィールド間の関係を伝える非一時的コンピュータ可読媒体内の配置をフィールドに対する記憶域に割り当てることによって達成され得る。しかしながら、任意の好適なメカニズムが、ポインタ、タグ、またはデータ要素間の関係を確立する他のメカニズムの使用を通じてなど、データ構造体のフィールド内の情報間の関係を確立するために使用され得る。
様々な発明の概念は、1つまたは複数のプロセスとして具現化されてもよく、その例が提供されている。各プロセスの一部として実行される活動は、好適な仕方で順序付けされてよい。したがって、例示されているのと異なる順序で活動が実行される実施形態が構成されてもよく、これは例示的な実施形態において順次的活動として示されているとしても、いくつかの活動を同時に実行することを含み得る。
本明細書および請求項で使用されているように、1つまたは複数の要素のリストへの参照における「少なくとも1つ」というフレーズは、要素のリスト内の要素のうちの1つまたは複数から選択された少なくとも1つの要素を意味し、必ずしも、要素のリスト内に特にリストされているあらゆる要素のうちの少なくとも1つを含まず、また要素のリスト内の要素の任意の組合せを除外しない、と理解されるべきである。この定義は、また、要素が、任意選択で、「少なくとも1つ」というフレーズが指している要素のリスト内で特に識別される要素以外に、特に識別されている要素に関係していようと無関係であろうと、存在していてもよいことを許している。したがって、たとえば、「AおよびBのうちの少なくとも1つ」(または同等であるが、「AまたはBのうちの少なくとも1つ」、または同等であるが、「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、任意選択で複数を含む、少なくとも1つのAがあり、Bが存在していない(および任意選択で、B以外の要素を含む)こと、別の実施形態では、任意選択で複数を含む、少なくとも1つのBがあり、Aが存在していない(および任意選択で、A以外の要素を含む)こと、さらに別の実施形態では、任意選択で複数を含む、少なくとも1つのAおよび任意選択で複数を含む、少なくとも1つのBがある(および任意選択で、他の要素を含む)こと、などを指するものとしてよい。
本明細書および請求項において使用されているような「および/または」というフレーズは、要素の「いずれかまたは両方」がそのように結合されている、すなわち、要素はある場合には接続的に存在し、他の場合には離接的に存在していることを意味すると理解されるべきである。「および/または」でリストされている複数の要素は同じ様式で、すなわち、そのように結合されている要素の「1つまたは複数」と解釈されるべきである。他の要素は、任意選択で、「および/または」節によって特に識別される要素以外に、特に識別されている要素に関係していようと無関係であろうと、存在していてもよい。したがって、一例として、「Aおよび/またはB」への参照は、「含む」などの非限定的な言い回しと併せて使用されるときに、一実施形態では、Aのみを指し(任意選択でB以外の要素を含む)、別の実施形態では、Bのみを指し(任意選択でA以外の要素を含む)、さらに別の実施形態では、AとBの両方を指し(任意選択で他の要素を含む)、などとしてよい。
請求項において、「1つ(訳す場合)」および「その(訳す場合)」(英語原文中の「a」、「an」、および「the」)は、反対のことが示されているか、または文脈からそうでないことが明らかでない限り、1つまたは複数を意味するものとしてよい。グループの1つまたは複数のメンバーの間に「または」を含む請求項または記述は、反対のことが示されているか、または文脈からそうでないことが明らかでない限り、グループメンバーの1つ、複数、またはすべてが所与の製品またはプロセスに存在するか、それらにおいて採用されるか、または他の何らかの形で関連する場合に満たされていると考えられる。本開示は、グループの正確に1つのメンバーが、所与の製品またはプロセスに存在するか、採用されるか、または他の何らかの形で関連する実施形態を含む。本開示は、グループメンバーのうちの複数、またはすべてが、所与の製品またはプロセスに存在するか、採用されるか、または他の何らかの形で関連する実施形態を含む。
さらに、説明されている方法およびシステムは、リストされている請求項の1つまたは複数からの1つまたは複数の制限、要素、条項、および記述用語が別の請求項に導入されるすべての変形、組合せ、および順列を包含する。たとえば、他の請求項に従属する請求項は、同じ基本請求項に従属する任意の他の先行する請求項に見られる1つまたは複数の制限を含むように修正され得る。要素がリストとして提示される場合、たとえば、マーカッシュ群形式では、要素の各サブグループも記述され、任意の要素がグループから取り除かれ得る。一般に、本明細書において説明されているシステムおよび方法(またはその態様)が特定の要素および/または特徴を含むと言及されている場合、システムおよび方法のいくつかの実施形態またはその態様は、そのような要素および/または特徴からなるか、またはそれらから本質的になることは理解されるべきである。簡単にするために、それらの実施形態は本明細書ではこれらの言葉で特には述べられていない。
また、「含む」、「備える」、「有する」、「収容する」、「関わり」という語は、開かれていることを意図しており、追加の要素またはステップを含めることが可能であることに留意されたい。範囲が与えられている場合は、端点も含まれる。さらに、文脈および当業者の理解からそうでないことが示されているか、またはそうでないことが明らかでない限り、範囲として表現されている値は、文脈から明らかにそうでないことが指示されない限り、説明されているシステムおよび方法の異なる実施形態において、範囲の下限の単位の10分の1まで、記載されている範囲内の任意の特定の値または部分範囲を想定することができる。
請求項の範囲において、請求項要素を修正するために「第1」、「第2」、「第3」などの序数を使用しても、それ自体、ある請求項要素の他の請求項要素に対する優先順位、先行順位、もしくは順番または方法の活動が実行される時間的順序を意味するものではない。このような用語は、特定の名前を持つ1つの請求項要素を同じ名前を持つ別の要素と区別するためのラベルとして使用されているだけである(ただし、序数の使用を除く)。
それに加えて、本明細書で使用されているように、「患者」および「被験者」という用語は入れ換えて使用されてよい。そのような用語は、限定はしないが、ヒト被験者または患者を含み得る。そのような用語は、ヒト以外の霊長類または他の動物も含み得る。
「約」、「実質的に」、および「およそ」という語は、いくつかの実施形態では目標値の±20%以内、いくつかの実施形態では目標値の±10%以内、いくつかの実施形態では目標値の±5%以内、いくつかの実施形態では目標値の±2%以内を意味するために使用され得る。「約」および「おおよそ」という語は、目標値を含み得る。
本出願は、様々な発行された特許、公開された特許出願、雑誌記事、および他の刊行物を参照しており、これらはすべて参照により本明細書に組み込まれている。組み込まれた参考文献と本明細書との間に矛盾がある場合、本明細書が優先するものとする。それに加えて、先行技術の範囲内に収まる本開示の特定の実施形態は、請求項のいずれか1つまたは複数から明示的に除外されてもよい。そのような実施形態は、当業者に知られているとみなされるので、本明細書において除外が明示的に述べられていなくても、除外され得る。本明細書において説明されているシステムおよび方法の任意の特定の実施形態は、先行技術の存在に関係するか否かにかかわらず、任意の理由で、任意の請求項から除外することができる。
当業者であれば、単なる決まり切った実験を用いて、本明細書で説明されている特定の実施形態と同等の多数の実施形態を認識するか、または確認することができるであろう。本明細書において説明されている本実施形態の範囲は、上記の概要に限定されることを意図しておらず、むしろ付属の請求項に述べられている通りである。当業者であれば、次の請求項において定義されているように、本開示の精神または範囲から逸脱することなく、この説明に対する様々な変更および修正が行われ得ることを理解するであろう。