TW201928065A

TW201928065A - 利用核酸長度範圍於非侵入性產前檢測及癌症偵測

Info

Publication number: TW201928065A
Application number: TW107139084A
Authority: TW
Inventors: 煜明盧; 慧君趙; 君賜陳; 江培勇
Original assignee: 香港中文大學; 美商格瑞爾公司
Priority date: 2017-11-02
Filing date: 2018-11-02
Publication date: 2019-07-16
Also published as: TWI828637B; CA3081538A1; KR20200080272A; AU2018359944A1; EP3704264A1; WO2019085988A1; CN111712582B; IL274097A; EP3704264A4; EP4254417B1; US20190130065A1; TWI874039B; CN117079713A; CN111712582A; JP2023139321A; US11168356B2; EP3704264B1; DK3704264T3; US20220064714A1; TW202428883A

Abstract

分子長度區帶分析(Size-band analysis)係用於判定染色體區域是否展現複本數畸變或表觀遺傳變異。可分析多個分子長度範圍，而非聚焦於特定長度。藉由使用多個分子長度範圍而非特定長度，此方法可分析更多序列讀數且即使在臨床上相關DNA可能佔生物樣本之低比例時，亦能夠判定染色體區域是否展現拷貝數畸變。使用多個範圍可允許使用來自基因組區域之全部序列讀數，而非該基因組區域中之所選讀數子集。分析之準確性會隨著相似或較高特異性下之較高靈敏度而提高。分析可包括較少測序讀數即達成相同準確性，從而得到更高效方法。

Description

利用核酸長度範圍於非侵入性產前檢測及癌症偵測

證實孕婦血漿及血清中存在有源於胎兒之循環游離DNA (cfDNA)(Lo等人, Lancet 1997; 350:485-487)的發展已經完全轉變了通過非侵入性產前檢測(noninvasive prenatal testing；NIPT)產前檢查的之實務。NIPT在避免與諸如經由羊水穿刺術及絨毛膜取樣(CVS)之侵入性組織取樣相關之風險上具有優勢。迄今為止，NIPT已用於胎兒RhD血型基因分型(Finning等人BMJ 2008; 336:816-818；Lo等人N Engl J Med 1998; 339:1734-1738)、針對性聯病症之胎兒性別判定(Costa等人N. Engl. J. Med. 2002; 346:1502)、染色體非整倍性偵測(Chiu等人Proc Natl Acad Sci U S A 2008; 105:20458-20463；Fan等人Nature 2012; 487:320-324；Chiu等人BMJ 2011; 342:c7401；Bianchi等人N. Engl. J. Med. 2014; 370:799-808；Yu等人Proc. Natl. Acad. Sci. U. S. A. 2014; 111:8583-8；Norton等人N. Engl. J. Med. 2015; 372:1589-1597)及單基因病症之診斷(Lam等人Clin. Chem. 2012; 58:1467-75；Lo等人Sci. Transl. Med. 2010; 2:61ra91-61ra91；Ma等人Gene 2014；544:252-258; New等人J. Clin. Endocrinol. Metab. 2014; 99:E1022-E1030)。詳言之，使用母體血漿DNA之大規模平行測序，用於常見染色體非整倍性之NIPT已迅速在幾十個國家被用於臨床服務且每年供數百萬孕婦使用(Allyse等人Int. J. Womens. Health 2015; 7:113-26；Chandrasekharan等人Sci Transl Med 2014; 6:231fs15)。

在早期驗證研究中(Chiu等人BMJ 2011; 342:c7401；Sparks等人Am. J. Obstet. Gynecol. 2012; 206:319.e1-9)，NIPT係在處於非整倍性高風險之患者上執行，且陽性預測值(PPV)已高達92%至100%。特定母體樣本中胎兒DNA之相對濃度(通常被稱作胎兒DNA含量)係NIPT準確性之重要決定因素(Chiu等人BMJ 2011; 342:c7401；Jiang等人Bioinformatics 2012; 28:2883-2890,npj Genomic Med. 2016; 1:16013)。第21對染色體三體症偵測之靈敏度會隨著胎兒DNA部份之減少而顯著降低(Chiu等人BMJ 2011; 342:c7401；Canick等人Prenat. Diagn. 2013; 33:667-674)。因此，在具有低胎兒DNA含量之妊娠中，可能出現三體偵測之偽陰性結果。舉例而言，Canick等人報導，在212個具有唐氏症候群之病例中，存在4個偽陰性，其皆具有介於4%與7%之間的胎兒DNA含量(Canick等人Prenat. Diagn. 2013; 33:667-674)。

值得注意的是，在執行NIPT之數個實驗室中，有一部分分析中觀測到測試失敗或非預測結果(no-call result)。在一些研究中，總實驗室失敗率高達8.8%(Porreco等人Am. J. Obstet. Gynecol. 2014; 211:365.e1-365.e12)。未能獲得NIPT結果之主要原因之一在於一些樣本中母體血漿DNA中之低胎兒DNA含量，通常為＜4% (Gil等人Fetal Diagn. Ther. 2014; 35:156-73)。已證實，在具有4%以下之胎兒DNA含量之患者中，非整倍性之發生率據報導為4.7%，其顯著高於整個同屬性群中之發生率0.4%(Norton等人N. Engl. J. Med. 2015; 372:1589-1597)。因此，此類測試失敗最終有害地影響NIPT之總體效能。舉例而言，已說明較高測試失敗率會引起較低實際PPVs (YaronPrenat. Diagn. 2016; 36:391-6)。在理論估計中(YaronPrenat. Diagn. 2016; 36:391-6)，實驗室中之失敗率0.1%得到67%之實際PPV，然而根據來自美國婦產科醫師學會(American Congress of Obstetricians and Gynecologists；ACOG)之建議，假設據報導與非整倍性之風險增加相關的測試失敗的全部患者將經歷侵入性測試以確認胎兒實際上是否為非整倍體，失敗率1%將導致16.7%之實際PPV (YaronPrenat. Diagn. 2016; 36:391-6)。

已顯示，大約2%之妊娠具有低於4%之胎兒DNA部份(Wang等人Prenat. Diagn. 2013; 33:662-666)。第一血液樣本顯示低胎兒DNA含量之患者的再抽取血液不大可能會保證足夠的胎兒DNA含量，因為10與21週之間的胎兒DNA之增加十分細微(胎兒DNA含量大約平均每週增加0.1%)(Wang等人Prenat. Diagn. 2013; 33:662-666)。另外，此類低胎兒DNA含量優先出現於具有較高母體重量之女性中。在一些研究中，因為小於4%之胎兒DNA含量而致使無法出具報告結果可高達5.9% (Hall等人PLoS One 2014; 9:e96677)。

因此，將適於研發一種改良NIPT用於母體血漿中胎兒DNA含量較低(例如，低於4%)之孕婦之效能的方法，此類改良對於NIPT用於常見染色體非整倍性(例如，第21對染色體三體症、第18對染色體三體症、第13對染色體三體症及性染色體非整倍性)以及用於亞染色體畸變(例如，微缺失及微重複)之效能而言將是有價值的。另外，改良測試用於複本數畸變及癌症之準確性及效率可藉由相似方法解決。該等及其他需求如下解決。

分子長度區帶分析(size-band analysis)係用以判定染色體區域是否展現拷貝數畸變或用以偵測癌症。可分析多個長度範圍，而非聚焦於特定長度。藉由使用多個長度範圍而非特定長度，此方法即使在臨床上相關DNA可能佔生物樣本之低比例時，亦能夠判定染色體區域是否展現拷貝數畸變。使用多個範圍可允許使用來自基因組區域之全部序列讀數，而非該基因組區域中之所選讀數子集。分析之準確性可隨著相似或較高特異性下之較高靈敏度而增大。分析可包括較少測序讀數以達成相同準確性，從而得到更高效方法。由於可針對較低比例之臨床上相關DNA完成分析，因此可在妊娠或癌症之較早階段完成分析。

可參考以下詳細描述及隨附圖式來獲得對本發明實施例之性質及優勢的較佳理解。

相關申請案之交叉參考

本申請案主張2017年11月2日申請之標題為「USING NUCLEIC ACID SIZE RANGE FOR NONINVASIVE PRENATAL TESTING AND CANCER DETECTION」之美國臨時申請案第62/580,906號之優先權，該申請案之全部內容以引用之方式併入本文中以用於所有目的。
[術語]

術語「樣本」、「生物樣本」或「患者樣本」意欲包括來源於活受試者或死受試者之任何組織或物質。生物樣本可為無細胞樣本，其可包括來自受試者之核酸分子及來自病原體(例如病毒)之潛在核酸分子之混合物。生物樣本一般包含核酸(例如，DNA或RNA)或其片段。術語「核酸」一般係指去氧核糖核酸(DNA)、核糖核酸(RNA)或其任何雜交體或片段。樣本中之核酸可為游離核酸。樣本可為液體樣本或固體樣本(例如細胞或組織樣本)。生物樣本可為體液，諸如血液、血漿、血清、尿液、陰道液、來自水囊腫(例如睪丸)之液體、陰道沖洗液、胸膜液、腹水、腦脊髓液、唾液、汗液、淚液、痰、支氣管肺泡灌洗液、乳頭溢液、來自身體不同部分(例如甲狀腺、乳房)之抽吸液等。亦可使用糞便樣本。在各種實施例中，已富集游離DNA之生物樣本(例如，經由離心方案所獲得之血漿樣本)中之大部分DNA為游離的(例如，大於50%、60%、70%、80%、90%、95%或99%之DNA可為游離的)。離心方案可包括例如3,000 g×10分鐘，獲得液體部分，及在例如30,000 g下再離心另外10分鐘以移除殘餘細胞。

如本文所用，術語「基因座(locus )」或其複數形式「基因座(loci )」為具有跨基因組之變化的任何長度之核苷酸(或鹼基對)的位置或位址。術語「序列讀數 」係指自核酸分子之全部或部分(例如DNA片段)獲得之序列。在一個實施例中，僅片段之一端經測序。或者，片段之兩端(例如，各端約30 bp)可經測序以產生兩個序列讀數。成對序列讀數隨後可與可提供一定長度之片段的參考基因組比對。在又一實施例中，可藉由例如接合的方式來環化線性DNA片段，且可對跨越接合位點之部分進行測序。

如本文所用，術語「片段」(例如，DNA片段)係指包含至少3個連續核苷酸的聚核苷酸或多肽序列之一部分。核酸片段可保留親本多肽之生物活性及/或一些特徵。核酸片段可為雙鏈或單鏈的、甲基化或未甲基化的、完整或帶切口的、與其他大分子(例如脂質粒子、蛋白質)複合或未複合的。腫瘤來源之核酸係指自腫瘤細胞釋放之任何核酸，包括來自腫瘤細胞中之病原體的病原體核酸。

術語「分析法」一般係指用於判定核酸特性之技術。分析法(例如第一分析法或第二分析法)一般係指用於判定樣本中核酸之量、樣本中核酸之基因組一致性、樣本中核酸之拷貝數變異、樣本中核酸之甲基化狀態、樣本中核酸之片段長度分佈、樣本中核酸之突變狀態或樣本中核酸之片段化模式的技術。一般熟習此項技術者已知的任何分析法均可用於偵測本文提及之核酸的任何特性。核酸之特性包括序列、數量、基因組一致性、拷貝數、一或多個核苷酸位置處之甲基化狀態、核酸之長度、核酸在一或多個核苷酸位置處之突變及核酸之片段化之模式(例如，核酸片段之核苷酸位置)。術語「分析法」可與術語「方法」互換使用。分析法或方法可具有特定的靈敏度及/或特異性，且其作為診斷工具之相對效用可使用ROC-AUC統計學來量測。

如本文所用，術語「隨機測序」一般係指在測序程序之前尚未具體鑑別或預先判定所測序之核酸片段的測序。不需要靶向特異性基因座之序列特異性引物。在一些實施例中，將銜接子添加至片段之末端中，且將用於測序之引物連接至銜接子。因此，任何片段皆可使用連接至同一通用銜接子之同一引物測序，且因此測序可為隨機的。可使用隨機測序進行大規模平行測序。

「核酸」係指去氧核糖核苷酸或核糖核苷酸及其呈單鏈或雙鏈形式之聚合物。該術語可涵蓋含有已知核苷酸類似物或經修飾主鏈殘基或鍵之核酸，其為合成的、天然產生的及非天然產生的，具有與參考核酸類似之結合性質，且以類似於參考核苷酸之方式代謝。此類類似物之實例可包括(但不限於)硫代磷酸酯、胺基磷酸酯、膦酸甲酯、對掌性膦酸甲酯、2-O-甲基核糖核苷酸、肽核酸(PNAs)。

除非另有指示，否則特定核酸序列亦隱含地涵蓋其經保守性修飾之變異體(例如簡併密碼子取代)及互補序列，以及明確指示之序列。特定而言，簡併密碼子取代可藉由產生一或多個(或所有)所選密碼子之第三位置經混合鹼基及/或去氧肌苷殘基取代之序列來達成(Batzer等人,Nucleic Acid Res . 19:5081 (1991)；Ohtsuka等人,J. Biol. Chem. 260:2605-2608 (1985)；Rossolini等人,Mol. Cell. Probes 8:91-98 (1994))。術語核酸可與基因、cDNA、mRNA、寡核苷酸及聚核苷酸互換使用。

除非上下文另外清楚地指示，否則術語「核苷酸 」除指代天然產生之核糖核苷酸或去氧核糖核苷酸單體之外，應理解為亦係指其關於核苷酸正使用之特定情形(例如，與互補鹼基雜交)在功能上等效的相關結構變異體，包括衍生物及類似物。

「序列讀數 」係指自核酸分子之任何部分或整個核酸分子測序的一串核苷酸。舉例而言，序列讀數可為存在於生物樣本中之整個核酸片段。亦作為一實例，序列讀數可為自核酸片段自之短核苷酸串(例如20-150個鹼基)、在核酸片段之一端或兩端之短核苷酸串或存在於生物樣本中之整個核酸片段的測序。可以多種方式獲得序列讀數，例如使用測序技術或使用探針，例如在雜交陣列或捕捉探針中，或擴增技術，諸如聚合酶鏈反應(PCR)或使用單一引物之線性擴增或等溫擴增，或基於生物物理學量測，諸如質譜。序列讀數可自單分子測序獲得。「單分子測序 」係指對單模板DNA分子進行測序以獲得序列讀數，而不需要解譯來自模板DNA分子之克隆複本之鹼基序列資訊。單分子測序可對整個分子或DNA分子之僅一部分進行測序。DNA分子之大部分可經測序，例如大於50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。

術語「通用測序 」係指將銜接子添加至片段之末端且用於測序之引物連接至銜接子的測序。因此，任何片段皆可用同一引物測序，且因此測序可為隨機的。

「臨床上相關」DNA之實例包括母體血漿中之胎兒DNA及患者血漿中之腫瘤DNA。另一實例包括移植患者血漿中之移植相關DNA之量的量測。又一實例包括受試者血漿中之造血及非造血DNA之相對量的量測。此後一實施例可用於偵測或監測或預測涉及造血及/或非造血組織之病理進展或損傷。

術語「癌症之等級 」(或更一般地，「疾病之等級 」或「病況之等級 」)係指是否存在癌症(亦即，存在或不存在)、癌症之分期、腫瘤之大小、是否存在轉移、身體之總腫瘤負荷、癌症對治療之反應及/或癌症之嚴重度之另一量度(例如，癌症之復發)。癌症之等級可為數字(例如，機率)或其他記號，諸如符號、字母及色彩。等級可為零。癌症等級亦可包括惡化前或癌前期病況(病狀)。癌症等級可以被用于各種方式。舉例而言，篩查可檢查先前未知患癌之某人是否存在癌症。評定可調查已經診斷患有癌症之某人以隨時間推移監測癌症之進展，研究療法有效性或判定預後。在一個實施例中，預後可用患者死於癌症之機率或特定期限或時間之後癌症進展之機率或癌症轉移之機率表示。偵測可意謂『篩查』或可意謂檢查暗示有癌症特徵(例如症狀或其他陽性測試)的某人是否患有癌症。「病理等級」係指與病原體相關之病理等級，其中等級可如上文關於癌症所描述。疾病/病況之等級亦可如上文關於癌症所描述。當癌症與病原體相關時，癌症等級可為一種類型的病理等級。

如本文所用之術語「染色體非整倍性 」意謂染色體之定量與二倍體基因組之定量的差異。該差異可為增加或丟失。其可涉及整個一條染色體或染色體之某個區域。

如本文所用之術語「序列不平衡 」或「畸變」意謂臨床相關染色體區域之數量與參考數量的如藉由至少一個閾值所限定的任何顯著偏差。序列不平衡可包括染色體量不平衡、等位基因不平衡、突變量不平衡、拷貝數不平衡、單倍型量不平衡及其他類似不平衡。作為一實例，等位基因不平衡可在腫瘤基因組中之兩個對偶基因中的一個對偶基因之基因缺失或一個等位基因之基因擴增或差異擴增，從而引起樣本中之特定基因座不平衡時出現。作為另一實例，患者可能具有腫瘤抑制基因的遺傳性突變。患者隨後可繼續發展出腫瘤，其中腫瘤抑制基因之非突變等位基因缺失。因此，在腫瘤內，存在突變量不平衡。當腫瘤之DNA釋放至患者血漿中時，腫瘤DNA將與患者之組成性DNA(來自正常細胞)在血漿中混合。經由使用本文所描述之方法，可偵測到血漿中之此DNA混合物之突變量不平衡。畸變可包括染色體區域缺失或擴增。

哺乳動物基因組中之「DNA 甲基化 」通常係指添加甲基至CpG二核苷酸中之胞嘧啶殘基的5'碳(亦即，5-甲基胞嘧啶)。DNA甲基化可在例如CHG和CHH之其他情況下發生於胞嘧啶中，其中H為腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可呈5-羥甲基胞嘧啶形式。亦報導非胞嘧啶甲基化，諸如N6-甲基腺嘌呤。

「分類」係指與樣本之特定特性相關的任何數字或其他字元。舉例而言，「+」符號(或詞語「陽性」)可表示樣本分類為具有缺失或擴增。分類可為二元的(例如，陽性或陰性)或具有更多分類等級(例如，1至10或0至1之標度)。

術語「閾值」及「臨限值 」係指用於操作之預定數字。臨限值或參考值可為在高於或低於其時適用特定分類之值，例如病況之分類，諸如受試者是否患有病況或病況之嚴重度。閾值可參考或不參考樣本或受試者之特徵預定。舉例而言，可基於所測試受試者之年齡或性別選擇閾值。可在測試資料輸出後及基於測試資料輸出來選擇閾值。舉例而言，當樣本之測序達到某一深度時可使用某些閾值。作為另一實例，具有已知分類之一或多個病況及所量測特徵值(例如，甲基化程度、統計長度值或計數)之參考受試者可用於判定參考等級以區分不同病況及/或病況分類(例如，受試者是否患有病況)。此等術語中之任一者可用於此等情形中之任一者中。如熟習此項技術者將識別，閾值可經選擇以達成所需靈敏度及特異性。

「位點」(亦稱作「基因組位點 」)對應於單一位點，其可為單一鹼基位置或相關鹼基位置群，例如CpG位點或相關鹼基位置之較大群。「基因座」可對應於包括多個位點之區域。基因座可僅包括一個位點，此將使得基因座在該情形下等效於一個位點。

各基因組位點(例如CpG位點)之「甲基化指數 」係指在該位點顯示甲基化之DNA片段(例如如自序列讀數或探針所判定)相對於覆蓋該位點之讀數總數之比例。「讀數」可對應於獲自DNA片段之資訊(例如位點處之甲基化狀態)。讀數可使用優先雜交至特定甲基化狀態之DNA片段之試劑(例如引物或探針)獲得。通常，此類試劑在用視DNA分子之甲基化狀態(例如亞硫酸氫鹽轉化，或甲基化敏感限制酶，或甲基化結合蛋白，或抗甲基胞嘧啶抗體)而差異修飾或差異識別之方法處理後施用。在另一實施例中，識別甲基胞嘧啶及羥甲基胞嘧啶之單分子測序技術可用於闡明甲基化狀態及用於判定甲基化指數。

區域之「甲基化密度 」係指顯示甲基化之區域內之位點處之讀數數目除以覆蓋區域中之位點之讀數總數。位點可具有特異性特徵，例如為CpG位點。因此，區域之「CpG甲基化密度」係指顯示CpG甲基化之讀數數目除以覆蓋區域中之CpG位點(例如特定CpG位點、CpG島或較大區域內之CpG位點)之讀數總數。舉例而言，人類基因組中每100 kb面元(bin)之甲基化密度可自亞硫酸氫鹽處理之後於CpG位點處未轉化之胞嘧啶(其對應於甲基化胞嘧啶)的總數判定為安置至100 kb區域之序列讀數所覆蓋之所有CpG位點的比例。此分析亦可對於其他面元長度，例如500 bp、5 kb、10 kb、50 kb或1 Mb等執行。區域可為整個基因組或染色體或染色體之一部分(例如染色體臂)。當區域僅包括CpG位點時，CpG位點之甲基化指數與區域之甲基化密度相同。「甲基化胞嘧啶之比例」係指相比於所分析之胞嘧啶殘基總數顯示為甲基化(例如在亞硫酸氫鹽轉化之後未經轉化)之胞嘧啶位點「C」之數目，亦即包括區域中除CpG情形之外的胞嘧啶。甲基化指數、甲基化密度及甲基化胞嘧啶之比例為「甲基化程度 」之實例，其可包括其他涉及位點處甲基化讀數之計數之比值。除亞硫酸氫鹽轉化之外，熟習此項技術者已知之其他方法可用於查詢DNA分子之甲基化狀態，包括(但不限於)對甲基化狀態敏感之酶(例如甲基化敏感限制酶)、甲基化結合蛋白、使用對甲基化狀態敏感之平台之單分子測序(例如奈米孔測序(Schreiber等人 Proc Natl Acad Sci 2013; 110: 18910-18915)及藉由Pacific Biosciences單分子實時分析(Flusberg等人 Nat Methods 2010; 7: 461-465))。

「甲基化識別測序 」係指允許吾人在測序過程期間確定DNA分子之甲基化狀態的任何測序方法，包括(但不限於)亞硫酸氫鹽測序、或前面為甲基化敏感限制酶消化之測序、使用抗甲基胞嘧啶抗體或甲基化結合蛋白之免疫沈澱或允許闡明甲基化狀態之單分子測序。"甲基化識別分析法 "或"甲基化敏感性分析法 "可包括基於測序及非測序之方法，諸如MSP、基於探針之查詢、雜交、限制酶消化繼之以密度量測、抗甲基胞嘧啶免疫分析法、甲基化胞嘧啶或羥甲基胞嘧啶之比例之質譜查詢、未繼之以測序之免疫沈澱等。

"分離值 "(或相對豐度)對應於涉及兩個值(例如DNA分子之兩個量、兩個分數比重或兩種甲基化程度，諸如樣本(混合物)甲基化程度及參考甲基化程度)之差值或比值。分離值可為簡單的差值或比值。作為實例，直接比值x/y以及x/(x+y)為分離值。分離值可包括其他因子，例如乘法因子。作為其他實例，可使用該等值之函數的差值或比值，例如兩個值之自然對數(ln)的差值或比值。分離值可包括差值及/或比值。甲基化程度為相對豐度之實例，例如在甲基化DNA分子(例如在特定位點處)與其他DNA分子(例如特定位點處之所有其他DNA分子或僅未甲基化之DNA分子)之間。其他DNA分子之量可充當正規化因子。作為另一實例，可判定相對於所有或未甲基化之DNA分子之強度的甲基化DNA分子之強度(例如螢光或電強度)。相對豐度亦可包括每體積之強度。

術語「對照」、「對照樣本」、「參考」、「參考樣本」、「正常」及「正常樣本」可互換使用，以大體上描述不具有特定病況或在其他方面健康的樣本。在一實例中，可對患有腫瘤之受試者執行如本文中所揭示之方法，其中參考樣本為取自於受試者之健康組織的樣本。在另一實例中，參考樣本為取自於患有疾病(例如癌症或癌症之特定分期)之受試者的樣本。參考樣本可獲自受試者或資料庫。參考物一般係指用於定位對來自受試者之樣本進行測序所獲得之序列讀數的參考基因組。參考基因組一般係指可比對及比較來自生物樣本及組成性樣本之序列讀數的單倍體或二倍體基因組。對於單倍體基因組，各基因座僅存在一個核苷酸。對於二倍體基因組，可鑑別出異型接合基因座，此類基因座具有兩個等位基因，其中任一等位基因可允許匹配以與基因座比對。參考基因組可對應於病毒，例如藉由包括一或多個病毒基因組。

如本文所用，片語「健康」一般係指受試者具有良好的健康狀況。此類受試者證實不存在任何惡性或非惡性疾病。「健康個體」可能患有與所分析之病況無關的其他疾病或病況，通常可能不視為「健康的」。

術語「癌症」或「腫瘤」可互換使用，且一般係指組織之異常腫塊，其中腫塊生長超越正常組織生長且與正常組織生長不協調。癌症或腫瘤可定義為「良性」或「惡性」，其視以下特徵而定：細胞分化程度(包括形態及功能)、生長速率、局部侵襲及轉移。「良性」腫瘤一般分化良好，生長典型地比惡性腫瘤更慢，且保持侷限於原發部位。另外，良性腫瘤不具有浸潤、侵襲或轉移至遠端部位之能力。「惡性」腫瘤一般分化不良(退行發育)，典型地快速生長伴隨著進展性浸潤、侵襲及破壞周圍組織。此外，惡性腫瘤具有轉移至遠端部位之能力。「分期」可用於描述惡性腫瘤發展的程度。與晚期惡性病相比，早期癌症或惡性病與體內腫瘤負荷較少相關聯，一般症狀較輕，預後較佳且治療結果較佳。晚期或後期癌症或惡性病通常與遠端轉移及/或淋巴擴散相關。

術語「假陽性」(FP)係指受試者沒有病況。假陽性一般係指受試者沒有腫瘤、癌症、癌前期病況(例如癌前期病變)、局部或轉移癌症、非惡性疾病，或在其他方面健康。術語假陽性一般係指受試者沒有病況，但藉由本發明之分析法或方法鑑別為患有病況。

術語「靈敏度」或「真陽性率」(TPR)係指真陽性之數目除以真陽性及偽陰性之數目的總和。靈敏度可表徵分析法或方法正確鑑別真正患有病況之群體之比例的能力。舉例而言，靈敏度可表徵方法正確鑑別患有癌症之群體內之受試者數目的能力。在另一個實例中，靈敏度可表徵方法正確鑑別指示癌症之一或多個標記的能力。

術語「特異性」或「真陰性率」(TNR)係指真陰性之數目除以真陰性及假陽性之數目的總和。特異性可表徵分析法或方法正確鑑別真正未患有病況之群體之比例的能力。舉例而言，特異性可表徵方法正確鑑別未患有癌症之群體內之受試者數目的能力。在另一個實例中，特異性可表徵方法正確鑑別指示癌症之一或多個標記的能力。

術語「ROC」或「ROC曲線」係指接受者操作特徵曲線。ROC曲線可為二元分類器系統效能之圖形表示。對於任何給定方法，ROC曲線可藉由在各種臨限值設定下將靈敏度對特異性繪圖來產生。用於偵測受試者存在腫瘤之方法的靈敏度及特異性可在腫瘤來源之核酸於受試者之血漿樣本中的各種濃度下判定。此外，提供三個參數(例如靈敏度、特異性及臨限值設定)中之至少一者，ROC曲線可判定任何未知參數之值或期望值。未知參數可使用擬合於ROC曲線之曲線來判定。術語「AUC」或「ROC-AUC」一般係指接受者操作特徵曲線下的面積。此度量可提供方法之診斷效用的量度，同時考慮方法之靈敏度及特異性。一般而言，ROC-AUC範圍介於0.5至1.0，其中更接近0.5之值指示該方法具有有限的診斷效用(例如較低靈敏度及/或特異性)且更接近1.0之值指示該方法具有較大的診斷效用(例如較高靈敏度及/或特異性)。參見例如Pepe等人, 「Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic, Prognostic, or Screening Marker,」 Am. J. Epidemiol 2004, 159 (9): 882-890，其以全文引用之方式併入本文中。使用似然函數、優勢比、資訊理論、預測值、校準(包括擬合優度)及重新分類量測來表徵診斷效用之額外方法根據Cook, 「Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction,」 Circulation 2007, 115: 928-935加以彙總，其以全文引用之方式併入本文中。

術語「約」或「大約」可意謂在如一般熟習此項技術者所判定的特定值之可接受誤差範圍內，其將部分視量測或判定該值之方式(亦即測量系統之侷限性)而定。舉例而言，根據此項技術中之實踐，「約」可意謂在1或大於1個標準偏差內。或者，「約」可意謂既定值之至多20%、至多10%、至多5%或至多1%之範圍。或者，尤其關於生物系統或方法，術語「約」或「大約」可意謂在值之一定數量級內、在5倍內或更佳在2倍內。若特定值描述於本申請案及申請專利範圍中，除非另有說明，否則應假設術語「約」意謂在特定值之可接受誤差範圍內。術語「約」可具有如一般熟習此項技術者通常所理解之含義。術語「約」係指±10%。術語「約」係指±5%。

本文所用之術語僅用於描述特定情況之目的且並不意欲為限制性的。如本文所用，除非上下文另外清楚地指示，否則單數形式「一」及「該」意欲亦包含複數形式。除非有相反的特定指示，否則「或」之使用意指「包括性的或」，而非「互斥性的或」。術語「基於」意指「至少部分地基於」。此外，就實施方式及/或申請專利範圍中使用術語「包括(including)」、「包括(includes)」、「具有(having)」、「具有(has)」、「具有(with)」或其變化形式之程度而言，此類術語意欲以類似於術語「包含」之方式為包括性的。
詳細敘述

對游離DNA之基於長度之分析已用於針對染色體非整倍性及癌症分析生物樣本。然而，對於先前基於長度之技術，當生物樣本具有低百分比之臨床上相關DNA時，可能難以獲得統計顯著結果。當臨床上相關DNA之比例較低時，先前基於長度之分析可用以確認另一類型之分析之結果而非作為單一分析技術被依賴。本發明之實施例涉及使用分子長度區帶，其可允許更多游離DNA用於分析中且可允許分析長度模式。因此，即使臨床上相關DNA之比例較低，基於長度之分析亦可準確地執行。

在此研究中，吾人旨在應用游離DNA之長度分析來降低進行NIPT所需之胎兒DNA含量之極限。吾人旨在不有害地影響特異性之情況下改良NIPT之靈敏度。類似技術可應用於癌症分析。發現使用多個長度範圍而非特定長度即使在臨床上相關DNA之比例較低時亦允許生物樣本之分析。實施例可包括使用分子長度區帶以判定染色體區域是否展現拷貝數畸變(CNA)。CNA可與非整倍性或癌症相關。實施例亦可包括使用分子長度區帶判定癌症之等級。
I. 基於長度之分析

已證實母體血漿中胎兒來源之分子比母體DNA分子短(Chan等人Clin Chem 2004; 50:88-92；Lo等人Sci. Transl. Med. 2010; 2:61ra91-61ra91)。研究人員已使用此長度差異在母體血漿樣本中富集胎兒DNA以用於NIPT (Li等人Clin Chem 2004; 50:1002-1011,JAMA 2005; 293:843-9；Lun等人Proc. Natl. Acad. Sci. U. S. A. 2008; 105:19920-5)。Yu等人已說明胎兒染色體非整倍性可藉由判定成對端測序資料中來自非整倍體染色體之短片段之異常比例來偵測(Yu等人Proc. Natl. Acad. Sci. U. S. A. 2014; 111:8583-8)。此方法相較於計數母體血漿中之DNA分子可達成優良NIPT效能(Yu等人Proc. Natl. Acad. Sci. U. S. A. 2014; 111:8583-8)。

為改良具有低胎兒DNA含量(例如，＜4%)之孕婦的胎兒染色體異常之非侵入性偵測準確性，先前已探索之一個可能的方法為經由電子長度選擇或物理長度選擇選擇性地分析短DNA分子(例如，2008年7月23日申請之WO 2009/013496，其以引用之方式併入本文中以用於所有目的)。在此等方法中，來自短血漿DNA分子之資料或分子形成統計分析、疾病分類及病例解譯之基礎。由於胎兒來源之DNA分子具有相較於母體來源之DNA分子更短的長度分佈，故選擇性分析短DNA片段可優先富集胎兒來源之DNA分子，得到較高胎兒DNA含量。

由於胎兒DNA含量為控管NIPT效能之關鍵因素，此可潛在地改良NIPT之準確性。然而，據報導電腦模選擇長度＜150 bp之經測序讀數可增大有效胎兒DNA含量，但由於胎兒DNA含量與所計數分子之數目之間的權衡，其不一定會提高藉由單分子計數進行非整倍性偵測之靈敏度(Fan等人Clin. Chem. 2010; 56:1279-1286)。換言之，如表1中所示，由於所計數之血漿DNA片段之數目的明顯降低，選擇短DNA之先前方法而不增大測序深度可能不會改良靈敏度測序。所分析之血漿DNA片段之長度減小降低了所分析之DNA片段之數目。舉例而言，若僅分析小於100 bp之長度，則DNA片段經歷48.5倍之減少。同時，藉由聚焦於較小血漿DNA片段，胎兒DNA含量富集。舉例而言，對於小於100 bp之長度，胎兒DNA含量具有1.78倍富集。然而，相較於所分析之血漿DNA分子之48.5倍降低而言，1.78倍富集較小。
表1

另一方面，吾人先前已研發出藉由利用某一臨限值(例如長度為150 bp)以下之DNA分子來改良診斷特異性的另一基於血漿DNA長度之方法(美國專利8,620,593)。在此方法中，將來源於潛在非整倍性染色體之血漿DNA分子之平均長度與來源於其他染色體之血漿DNA分子之平均長度進行比較。已顯示此方法改良了染色體非整倍性之非侵襲性偵測之特異性，因為胎兒染色體非整倍性將會縮短來自過度呈現染色體(例如，三體染色體)之血漿DNA分子之平均長度或加長低度呈現染色體(例如，單體染色體)之血漿DNA分子之平均長度。然而，無法預期此方法會增強靈敏度，因為所計算之血漿DNA分子之數目已減少。

過去曾有人努力嘗試使用電腦選擇特定短DNA分子來定量非整倍體染色體之拷貝數變化(Fan等人Clin. Chem. 2010; 56:1279-1286)。然而，此特定長度選擇將會降低要促成最終臨床分類之DNA分子數目，因此增加隨機變異。在分析上，此等隨機變異增加可能出現變異係數(CV)或標準偏差(SD)增加。根據帕松分佈(Poisson distribution)，所分析之分子數目每降低4倍，CV將增加2倍。另一方面，循環胎兒DNA含量濃度每增大2倍，為了達成胎兒染色體非整倍性之正確診斷所需要計算的分子數目將減少4倍。若採用針對150 bp以下分子之分子長度選擇法，則胎兒DNA含量將增加約2倍，但血漿DNA分子之數目將減少4.7倍。因此，透過簡單的分子長度選擇法富集胎兒DNA含量，仍無法有效抵消血漿DNA分子減少之不利效應，此點可能成為藉由簡單的電腦選擇分子長度仍無法在NIPT之改良上達成一致性的重要原因(Fan等人Clin. Chem . 2010; 56:1279-1286)。
II．分子長度模式

在此研究中，吾等研發出藉由利用跨一系列不同長度範圍之分子計數的詳細變化模式來併用血漿DNA長度資訊的新穎方式，根據經驗數據，其已出人意料地改良測試靈敏度。此點有悖常理，因為當將血漿DNA分子分段至更多分子長度區帶中時，每一條分子長度區帶將存在少得多的經測序DNA分子，且每一個單獨區帶內之血漿DNA分子仍無法改良靈敏度。吾等之新穎方法不使用單獨的一個特定區帶，而改用不同區帶之間的關係來改良效能。

吾人推論非整倍體染色體之基因組表示(GR)之變化將根據存在於不同長度之血漿DNA分子中的所量測胎兒DNA含量而不同。吾人假設受影響染色體之GR變化之間的關係將以非隨機方式與不同長度範圍(分子長度區帶)有關，因為游離胎兒及母體DNA長度反映兩個相異片段化模式(Lo等人Sci. Transl. Med. 2010; 2:61ra91-61ra91)。因此，吾人研發出分析不同分子長度區帶之中來源於異常染色體之GR值之詳細變化形狀的新穎方法。在圖1中說明此方法之示意性原理。

圖 1 展示血漿DNA分子長度區帶分析之原理的示意性說明100。母體血漿包含分別來源於胎兒及母體細胞之胎兒DNA分子(部分104中之紅色波浪線及分子106)及母體DNA分子(部分108中之黑色波浪線及分子110)之混合物。胎兒DNA分子一般比母體DNA分子短，如藉由胎兒DNA長度特徵曲線相對於母體DNA分子之特徵曲線向左移位所證明。因此，所量測胎兒DNA含量將根據不同分子長度區帶而改變，一般在較短長度範圍中富集。因此，對於懷有三體胎兒之女性，預期所量測基因組表示(GR) (可藉由z評分量測其與參考組之偏差)將根據不同分子長度區帶而變化，但相比之下，整倍體胎兒之妊娠中將不會出現特定變化。

圖1展示呈離散帶形式及呈滑動窗形式之分子長度區帶。在頻率對比長度之曲線圖中，不同著色條柱(例如，條柱112)展示對應於離散長度範圍之分子長度區帶。在z評分(chr21)對比長度之曲線圖116及118中，著色條柱(例如，條柱122及條柱124)展示不同分子長度區帶之z評分。z評分對比長度之曲線圖中之線條126及128展示呈滑動窗形式之分子長度區帶的結果。非整倍體胎兒之妊娠中，線條128指示以特定長度為中心之分子長度區帶的z評分。舉例而言，線條128上具有給定x座標及y座標之資料點具有以由x座標指示之長度為中心的長度範圍的由y座標指示之z評分。每一z評分為針對整個分子長度區帶所計算之合併z評分。因此，在整倍體胎兒之妊娠之曲線圖116中，線條126展示呈滑動窗形式之分子長度區帶之結果。在非整倍體胎兒之妊娠之曲線圖118中，線條128展示呈滑動窗形式之分子長度區帶之結果。

無論分子長度區帶是否係基於離散或滑動窗，分子長度區帶之z評分之形狀或模式在整倍體胎兒之妊娠與非整倍體胎兒之妊娠之間明顯不同。舉例而言，如曲線圖116及曲線圖118所示，非整倍體胎兒之妊娠顯示雙峰模式，相比之下，整倍體胎兒之妊娠顯示更隨機之模式。

跨不同分子長度區帶之計數模式可與胎兒DNA含量、腫瘤DNA含量或其他臨床上相關DNA含量相關。因此，相較於僅使用DNA分子之特定長度的方法，同時量化跨不同分子長度區帶之一系列分子計數及基於不同分子長度區帶之讀數之間的關係的此新方法在整合血漿DNA長度特性時不會丟失血漿DNA分子。相較於僅使用某一長度閾值以下之單一讀數，此類同時定量將提高準確性。可經由使用(但不限於)諸如人工神經網路、k最近相鄰演算法、支援向量機及混合高斯模型等之機器學習方法識別血漿中之拷貝數變化之分子長度區帶模式。
A. 驗證長度模式資料分析

長度模式(亦即，與特定分子長度區帶處游離DNA之量相關的比例或參數之形狀)可取決於游離DNA之特徵。舉例而言，長度模式可取決於生物樣本是否包括來自非整倍體胎兒之游離DNA，如同圖1中之曲線圖116及118中一般。首先，分析不同長度之DNA的胎兒DNA含量以顯示胎兒DNA中的某些長度之游離DNA相較於母體DNA富集。其次，使用分子長度區帶對照來自懷有整倍體胎兒之懷孕女性之資料分析來自懷有非整倍體胎兒之懷孕女性的資料。該等分析確認可分析長度模式以區分CNA之差異，包括當CNA為非整倍體胎兒之結果時。
1. 所量測胎兒DNA含量根據不同分子長度區帶而變化

為驗證胎兒DNA含量變化將以非隨機方式根據片段長度而變化的假設，吾人重新分析了吾人之先前研究中所描述之資料(Chan等人Proc. Natl. Acad. Sci. 2016; 113:E8159-E8168)。

圖2A展示針對血漿DNA片段之長度的非整倍體染色體之所量測胎兒DNA含量，範圍為50至400 bp。x軸為DNA分子之長度，且y軸為彼長度之為胎兒DNA之DNA分子的比例。舉例而言，在120 bp之長度下，胎兒DNA含量為70.5%，此意謂70.5%具有120 bp之長度的DNA分子來自胎兒且29.5%來自懷孕女性。該胎兒DNA含量係由來自懷有男性胎兒之懷孕女性的樣本之Y染色體百分比加以判定。發現胎兒DNA含量分別在120 bp及280 bp之長度下富集。在120 bp之長度下發現最大胎兒DNA含量70.5%，其比200 bp長度下之最低胎兒DNA含量17.4%高4倍。
2. 血漿DNA之CNA針對不同分子長度區帶而變化

展現不均勻模式之胎兒DNA含量之變化將影響來源於非整倍體染色體之分子計數之呈現。非整倍體染色體具有異常數目之染色體。胎兒中之異常數目之染色體將影響胎兒DNA相較於母體DNA之量。舉例而言，第21對染色體三體症具有三個染色體21而非僅兩個。若胎兒具有第21對染色體三體症，則相比正常整倍體胎兒，胎兒DNA具有更高之比例。由於胎兒DNA通常比母體DNA短，相較於懷有整倍體胎兒之女性之母體樣本，懷有患第21對染色體三體症之胎兒的女性之母體樣本將很可能具有較高濃度之來自染色體21之短DNA。

圖 2B 針對第21對染色體三體症胎兒之妊娠及整倍體胎兒之妊娠使用分子長度區帶滑動窗展示z評分結果。分子長度區帶滑動窗之區帶寬度為50 bp。第21對染色體三體症胎兒之妊娠具有4%之胎兒DNA含量。如圖2B中所見，第21對染色體三體症胎兒之120 bp位置具有所分析之全部樣本中最高之z評分且因此對應於所量測拷貝數畸變之最高程度。不同分子長度區帶將影響120 bp及其他長度之z評分之量值。在下文描述受影響染色體之z評分之計算。

假設具有50 bp區帶寬度之分子長度區帶之中間點位於長度i 處(例如，分子長度區帶之中間點位於75 bp之i 處且帶之範圍將為50至100 bp)，則定位至靶向染色體(例如，染色體21)之測序讀數之百分比可使用所關注特定長度範圍(例如，50至100 bp)內之此等片段(表示為基因組表示i (亦即，GR _i ))來計算。長度i 之 z評分如下計算：

其中M _i 及SD _i 表示以長度i 為中心之分子長度區帶的靶向染色體之基因組表示之平均值及標準偏差，在此研究中，其係自懷有整倍體胎兒之50個孕婦推斷。長度之完整範圍將藉由動態地改變分子長度區帶之中間點在長度特徵曲線中之位置來查詢，範圍為50至400 bp。

在圖2B中，吾人可觀測到針對第21對染色體三體症胎兒之妊娠的基於分子長度區帶之z評分曲線202中之規則波浪狀模式。此觀測結果暗示不同分子長度區帶中之胎兒DNA含量之變化。然而，整倍體胎兒之對照組中未顯示此等模式。特定分子長度區帶中之此類變化之量值看起來不同於胎兒DNA含量之變化。例如，120 bp處之z評分比280 bp處之z評分高得多(圖2B)，但胎兒DNA含量在此等兩種長度之間相當(圖2A)。變化性可為分子計數在長於166 bp之長度處比在短於166 bp之長度處更快速地降低的結果，使得長分子中存在高取樣差異。

圖2B亦展示全部長度之z評分，示出為對應於x軸上標記為「全部」之值的圓圈。最高之圓圈，紅色圓圈204對應於第21對染色體三體症。紅色圓圈204具有3以下之z評分。因此，若吾人將使用全部片段且採用z評分3作為閾值，則此病例將錯誤地被分類為整倍體胎兒，得到偽陰性結果。相比之下，若吾人將使用相對不同分子長度區帶改變的z評分變化之不同形狀，則相較於對照組，該病例可正確地鑑別為第21對染色體三體症病例。
B. 應用長度模式分析

懷有整倍體胎兒或非整倍體胎兒之女性會引起不同的長度變化模式。隨後藉由不同技術分析資料，包括使用機器學習模型，以判定長度模式是否可用於區分整倍體胎兒之妊娠與非整倍體胎兒之妊娠。
1. 血漿中之CNA之分子長度區帶形狀使用低胎兒含量指示染色體非整倍體

為評估此類基於分子長度區帶之z評分模式是否可一般化至具有低胎兒DNA含量之其他樣本，吾人分析了各自具有男性胎兒之額外111個母體血漿DNA樣本，包括48個具有第21對染色體三體症胎兒之病例及63個具有整倍體胎兒之病例。使用來源於男性胎兒之Y染色體序列估計胎兒DNA含量(Hudecova等人PLoS One 2014; 9:e88484；Chiu等人.BMJ 2011; 342:c7401)。為具有足夠的具有4%或更低之低胎兒DNA含量的病例，針對48個三體胎兒之妊娠的每一成對端測序資料集與經由電腦來自具有整倍體胎兒之病例的測序資料集混合以達成4%胎兒DNA含量或低於4%之水準。

圖 3 展示胎兒DNA含量為4%之來自不同個別妊娠的非整倍體染色體之所量測基因組表示(GR)的基於分子長度區帶之變化模式。Y軸指示z評分值，表明懷有非整倍體胎兒之女性相較於懷有整倍體胎兒之女性的所量測GR之偏差程度。X軸指示不同分子長度區帶。紅色線條(亦為較深線條)表示三體胎兒之妊娠；灰色線條表示整倍體胎兒之妊娠。

圖3展示幾乎所有具有三體胎兒之病例相較於具有整倍體胎兒之病例不斷地顯示所量測拷貝數畸變之不同的基於分子長度區帶之模式。在各種情況下，用於第21對染色體三體症病例之長度模式的線條明顯地不同於用於整倍體病例之模式，其可允許比使用針對全部長度片段之z評分(如圖2B中所示)更容易地判定第21對染色體三體症。

吾人進一步使用熱圖及t-SNE (t分佈隨機鄰域嵌入)方法來觀察懷有三體及整倍體病例之妊娠之間的資料結構。圖 4A 展示整倍體及第21對染色體三體症胎兒之妊娠之間的基於分子長度區帶之變化模式的熱圖繪圖。藍色(例如，區域402)用於指示整倍體之分子長度區帶之特徵，而綠色(例如，區域404)用於指示第21對染色體三體症之分子長度區帶之特徵。圖4A中的幾乎所有病例(46/48，96%)涉及將第21對染色體三體症胎兒病例聚集在一起。類似地，圖4A中的涉及整倍體胎兒之幾乎所有病例(62/63，98%)聚集在一起。

圖 4B 展示整倍體及第21對染色體三體症胎兒之妊娠之間的基於分子長度區帶之變化模式的t-SNE繪圖。t-SNE繪圖係基於自機器學習判定之兩個特徵。t-SNE繪圖產生第21對染色體三體症病例之妊娠可容易地與整倍體病例之妊娠進行區分的一致結果(圖4B)，表明血漿DNA中之所量測拷貝數畸變的基於分子長度區帶之形狀係指具有諸如4%之低胎兒DNA含量的病例之染色體非整倍體。

圖 4C 在整倍體及第21對染色體三體症胎兒之妊娠之間使用習知z評分方法展示z評分分佈。虛線指示z評分臨限值3。使用z評分閾值3，第21對染色體三體症之偵測率將為僅48%。換言之，52%之第21對染色體三體症將引起偽陰性。另外，圖4C展示一個整倍體妊娠將引起第21對染色體三體症之假陽性。相較於圖4B中的不會產生任何錯誤陽性或偽陰性之t-SNE方法，習知z評分方法將引起較低靈敏度及特異性。
2. 用於偵測具有低胎兒DNA含量之病例的機器學習模式識別。

吾人利用神經網路模型進一步展現用於偵測胎兒拷貝數畸變的基於分子長度區帶之方法的使用。吾人將樣本劃分為訓練及測試資料集。訓練資料集包括33個第21對染色體三體症胎兒之妊娠及63個具有整倍體胎兒之病例，且測試資料集包含15個第21對染色體三體症胎兒及50個整倍體胎兒。經建構具有各有20個神經元之一個層的神經網路用於學習捕捉隱藏於分子長度區帶中之模式的模型。然後，吾人將此模型應用於測試資料集。

圖 5 展示用於神經網路模型之訓練資料集及測試資料集。結果是在第21對染色體三體症之機率的閾值為0.7的情況下，吾人能夠分別針對1%、2%、3%及4%之胎兒DNA含量在98%之特異性下達成40%、80%、100%及100%之靈敏度。即使在1%之低胎兒DNA含量下，神經網路模型顯示鑑別第21對染色體三體症之真實陽性的能力。

除神經網路模型外的機器學習模型可用於判定可判定受試者之胎兒非整倍體或癌症之機率的模式及特徵。此等機器學習模型之訓練可使用包括來自受病症或臨床上相關特徵影響之彼等及未受影響之彼等的樣本的資料集。可考慮用於訓練之參數包括分子長度區帶之區帶寬度、分子長度區帶之中心點、DNA分子之量、DNA分子之位置、表觀基因組信號(例如，甲基化)及其他變數。
3. 用於偵測拷貝數畸變之實例方法

圖 6 展示在來自受試者之生物樣本中判定染色體區域是否展現拷貝數畸變的方法600。生物樣本可包括包含臨床上相關DNA分子及其他DNA分子之游離DNA分子之混合物。臨床上相關DNA分子可包括胎兒DNA或母體DNA。若臨床上相關DNA分子包括胎兒DNA，則其他DNA可包括母體DNA。若臨床上相關DNA分子包括母體DNA，則其他DNA可包括胎兒DNA。臨床上相關DNA可包括腫瘤DNA，其他DNA分子包括非腫瘤DNA。

在區塊602處，方法600可包括針對複數個長度範圍中之每一長度範圍量測來自生物樣本的對應於該長度範圍之游離DNA分子之第一量。游離DNA分子可來自特定基因組區域，該基因組區域可為染色體或染色體之一部分。舉例而言，基因組區域可為染色體臂。基因組區域可為來自基因組之任何區域。在一些實施例中，游離DNA分子可來自多個不相交或連續基因組區域。長度範圍可為本文所描述之分子長度區帶。

待使用之特定長度範圍可藉由機器學習模型判定。機器學習模型可基於資料集加以訓練，且該等模型可改變使用之範圍(例如，長度範圍之中心點位置及/或區帶寬度)以便最佳化偵測拷貝數畸變或臨床病況之靈敏度及特異性。資料集可包括複數個參考長度模式。機器學習模型可判定長度範圍之某一區帶寬度為有利的。另外，機器學習模型可判定對於預測結果而言，某些長度範圍可能比其他範圍更重要。舉例而言，長度範圍可經判定為以100 bp至150 bp之任何長度為中心的滑動長度範圍。在其他實施例中，機器學習模型可判定離散、不重疊長度範圍可提供優於滑動長度範圍之改良結果。與靈敏度及/或特異性或其他準確性相關的基於訓練集之成本函數可用於更新機器學習模型之參數及特徵選擇(例如，待使用之長度範圍及特定分子長度比值)。驗證資料集亦可用於確認該模型之準確性。

在區塊604處，方法600可包括針對複數個長度範圍中之每一長度範圍藉由電腦系統使用對應於該長度範圍之游離DNA分子之第一量及第二個長度範圍中之DNA分子之第二量計算分子長度比值，該第二個長度範圍包括不在該長度範圍中之長度。分子長度比值可為游離DNA分子之z評分或正規化量(例如，含量、百分比或相對豐度)。舉例而言，分子長度比值可為基因組表示(GR)。在其他實施例中，分子長度比值可為用GR計算之z評分(例如，圖2B中的曲線202上之一點處的z評分值)。

每一長度範圍可具有區帶寬度，其描述該長度範圍中之長度的範圍數值。舉例而言，區帶寬度可在50 bp至100 bp、100 bp至200 bp、200 bp至300 bp或300 bp至400 bp之範圍內。以100 bp處為中心的具有50 bp之區帶寬度的長度範圍將跨越75 bp至125 bp。每一長度範圍可不與複數個長度範圍中之任何其他長度範圍重疊(例如，諸如圖1中之條柱122及條柱124的離散分子長度區帶)。在其他實施例中，每一長度範圍可與複數個長度範圍中之至少一個其他長度範圍重疊。以此方式，長度範圍可視為滑動窗。滑動窗則產生在許多長度上方連續之分子長度比率值(ratios values)(例如，圖1中之線條126或線條128)。

第二個長度範圍可大於複數個長度範圍中之每一長度範圍。第二個長度範圍可包括游離DNA分子之全部長度或可包括所量測游離DNA分子之基因組區域中之游離DNA分子之全部長度。第二個長度範圍可包括來自與區塊602中之所量測游離DNA分子相同之基因組區域(例如，相同染色體或染色體臂)的游離DNA分子。第二個長度範圍亦可包括來自除區塊602中用於所量測游離DNA分子之基因組區域外的基因組區域之游離DNA分子。舉例而言，對於第21對染色體三體症，在區塊602處量測之游離分子可來自染色體21。在此情況下，第二個長度範圍可包括來自其他染色體之游離DNA分子(例如，充當參考或跨整個基因組之不同染色體)。方法600隨後亦可包括量測第二個長度範圍中之游離DNA分子之量。

在區塊606處，方法600可包括針對複數個長度範圍獲得包括複數個參考分子長度比值之參考長度模式。參考長度模式可由來自在染色體區域中具有拷貝數畸變之受試者或來自無拷貝數畸變之受試者的複數個參考樣本加以判定。舉例而言，若所測試之拷貝數畸變與胎兒非整倍體有關，則參考樣本可來自已知具有整倍體胎兒之受試者。在其他實施例中，參考樣本可來自已知具有胎兒非整倍體之受試者。複數個長度範圍之每一參考分子長度比值可以與區塊604中所計算之分子長度比值相同的方式加以判定，不同之處在於使用參考樣本而非生物樣本。舉例而言，在圖2B中，參考樣本之長度模式可為圖2B中除曲線202以外的曲線中之任何一者。參考長度模式可為參考樣本之全部長度模式之統計表示。舉例而言，參考長度模式可為全部長度模式之平均(平均值、中值或模態)。舉例而言，此平均參考長度模式可為圖1中之線條126。

在區塊608處，方法600可包括將複數個分子長度比值與參考長度模式進行比較。將複數個分子長度比值與參考長度模式進行比較可包括將複數個分子長度比值中之每一分子長度比值與在對應長度範圍處之參考分子長度比值進行比較。舉例而言，複數個分子長度比值可為構成圖1中之線條128的點。在一些情況下，複數個分子長度比值可僅構成線條128之一部分。假設參考長度模式為圖1中之線條126，將複數個分子長度比值與參考長度模式進行比較可包括線條128之點與線條126之參考點之間的統計比較。

每一長度範圍之每一分子長度比值可經判定在統計學上類似於在對應長度範圍處之參考分子長度比值。統計類似性可使用臨限值加以判定。臨限值係指分子長度比值需要接近於參考分子長度比值之程度。臨限值可為與參考分子長度比值之某一數目個標準偏差(例如，1、2或3)。在一些實施例中，並非每一分子長度比值皆需要在統計學上類似於參考分子長度比值。替代地，最小數目之分子長度比值可在統計學上類似。舉例而言，80%、85%、90%或95%之分子長度比值可在統計學上類似於對應參考分子長度比值。

將複數個分子長度比值與參考長度模式進行比較可包括將複數個分子長度比值與自複數個參考樣本判定之複數個臨限值進行比較。舉例而言，每一長度範圍可具有不同臨限值，其可基於參考樣本之標準偏差。單一長度範圍亦可具有不同臨限值，每一臨限值與分子長度比值不同於參考樣本之不同確定程度相關聯。比較可包括對超出之臨限值數目計數及判定數目是否超過量或分數(例如，0.5、0.6、0.7、0.8或0.9)。若數目超過該量，則可判定染色體區域展現拷貝數畸變。

在一些實施例中，將複數個分子長度比值與參考長度模式進行比較可包括針對複數個長度範圍判定包括複數個分子長度比值之長度模式。該長度模式可為使分子長度比值與長度範圍相關的曲線圖。舉例而言，長度模式可為圖1中之線條128、圖2B中之曲線202或圖3中之第21對染色體三體症線條中之任一者。該長度模式可經判定具有與參考長度模式類似之形狀。判定類似形狀可包括判定長度模式之斜率(例如，第一導數)及/或拐折點(例如，第二導數)類似於參考長度模式中之彼等。斜率或拐折點之類似性可使用臨限值來判定，該臨限值係指統計顯著性(例如，某一數目個標準偏差)。

在一些實施例中，將複數個分子長度比值與參考長度模式進行比較可包括使用包括神經網路之機器學習之比較。機器學習模型可用於判定計算分子長度比值之方式、將分子長度比值與參考長度模式進行比較之方式及/或判定長度模式是否類似於參考長度模式之方式。計算分子長度比值之方式可包括判定長度範圍之區帶寬度及第二個長度範圍之長度及區帶寬度。將分子長度比值與參考長度模式進行比較之方式可包括判定不同長度範圍之加權及使用長度模式之第零、第一抑或第二導數。判定長度模式是否類似於參考模式之方式可包括判定臨限值之類似性。

獲得參考長度模式及將複數個分子長度比值與參考長度模式進行比較可包括將複數個分子長度比值輸入至機器學習模型。機器學習模型可使用來自複數個參考樣本之複數個訓練長度模式加以訓練。經訓練機器學習模型(例如，神經網路)可輸出樣本在染色體區域中具有畸變之機率。

在區塊610處，方法600可包括基於該比較判定染色體區域是否展現拷貝數畸變。拷貝數畸變可為非整倍體，包括第21對染色體三體症、第18對染色體三體症、第13對染色體三體症、及性染色體非整倍體。拷貝數畸變可為癌症之指示。方法600亦可包括針對癌症治療受試者或針對非整倍體制定計劃。

若參考長度模式係由來自具有拷貝數畸變之受試者的複數個參考樣本加以判定且比較顯示分子長度比值或長度模式類似於參考長度模式，則可判定染色體區域展現拷貝數畸變。而且，若比較顯示分子長度比值或長度模式與參考長度模式之間的差異，則可判定染色體區域未展現拷貝數畸變。在一些實施例中，可判定展現拷貝數畸變之機率。該機率可與分子長度比值或長度模式與參考長度模式之類似或相異程度相關。該機率可使用包括神經網路或本文所描述之任何模型的機器學習模型加以判定。

或者，若參考長度模式係由來自無拷貝數畸變之受試者的複數個參考樣本加以判定且比較顯示分子長度比值或長度模式類似於參考長度模式，則可判定染色體區域未展現拷貝數畸變。而且，若比較顯示分子長度比值或長度模式與參考長度模式之間的差異，則可判定染色體區域展現拷貝數畸變。
C. 低胎兒含量下之改良準確性

為了藉由利用血漿DNA中之所量測拷貝數畸變的基於分子長度區帶之模式而將方法之效能作為衡量標準，吾人亦使用傳統z評分(Chiu等人Proc Natl Acad Sci U S A 2008; 105:20458-20463)及長度選擇方法計算了跨諸如4%、3%、2%及1%之不同胎兒DNA部份之特異性及靈敏度。由於胎兒DNA在120 bp處產生母體血漿DNA中存在之最大所量測胎兒DNA含量(圖2A)，吾人假設相比使用全部DNA片段，120 bp周圍之分子長度區帶將得到較佳效能。為此目的，吾人選擇了105至155 bp之分子長度區帶且計算了對應z評分。

表2展示基於分子長度區帶之模式識別相較於存在及不存在長度選擇的習知基於計數之方法的效能。使用血漿DNA中之所量測拷貝數畸變的基於分子長度區帶之模式相較於傳統的z評分及長度選擇方法產生優良效能。舉例而言，在吾人之研究中，在3%之胎兒DNA含量下，所量測拷貝數畸變的基於分子長度區帶之模式的識別產生100%靈敏度及98%之特異性。相比之下，習知基於計數之方法僅產生10%之靈敏度及98%之特異性。使用150 bp以下之片段之分子長度選擇法，靈敏度改良至43%。然而，選擇達120 bp之更短長度之片段，靈敏度降低至20%。此指示本發明中提出之方法提供遠優於現有的使用長度選擇之方法的較佳分析性效能。
表2

除增大準確性以外，本發明之實施例可允許降低測序之量。長度模式方法可能不會涉及捨棄某些長度之序列讀數，且因此，給定測序深度下之更多序列讀數用於分析。長度模式方法則可能不需要額外測序以在某一長度範圍中提供更多讀數。此外，即使在某些低水準之胎兒含量下具有較高測序深度，不使用分子長度區帶或長度模式之方法仍可能無法準確地判定第21對染色體三體症。若未分析分子長度區帶或長度模式，則低胎兒含量可能不會引起第21對染色體三體症及整倍體病例之間的統計顯著長度差異。此外，雖然無分子長度區帶或長度模式的使用長度選擇的現有方法可用以補充其他技術，但使用分子長度區帶或長度模式之實施例可獨立地用於判定第21對染色體三體症或拷貝數畸變。

在此研究中，吾人研發出一種允許針對具有低胎兒DNA含量(例如擴及2%)之懷孕女性執行NIPT的新穎方法。使用用以訓練神經網路模型或其他機器學習模型之更多樣本，吾人將期望進一步降低偵測極限。吾人利用以下事實：母體血漿DNA中之拷貝數變化之程度將關於三體及整倍體胎兒之妊娠之間的不同分子長度區帶展現相異模式。此為藉由降低擴及2%以下之胎兒DNA含量的胎兒染色體非整倍體之非侵襲性偵測極限來達成較寬群體覆蓋度的重要步驟。使用習知方法，涉及4%以下之胎兒DNA含量的妊娠不適合於NIPT且一般將被發佈非可報導結果或測試失敗。

吾人之新穎方法不僅可能由於較低偵測極限而降低偽陰性率，而且由於顯示胎兒DNA含量低於4%之彼等妊娠中攜帶非整倍體之風險將增加的數個報告(Norton等人N. Engl. J. Med. 2015; 372:1589-1597)而改良實際PPV。此前，一些工作者提出具有低胎兒DNA含量之妊娠由於非整倍體風險增大而應接受遺傳諮詢且經提供全面超音波評估及診斷測試(YaronPrenat. Diagn. 2016; 36:391-396)。由於胎兒DNA含量一般與母體重量負相關(Wang等人Prenat. Diagn. 2013; 33:662-666；Hudecova等人PLoS One 2014; 9:e88484)，具有高身體質量指數之妊娠將尤其得益於此基於size帶之方法靈敏地處理具有低胎兒DNA含量之情形的能力。吾人之新穎方法之另一用途將為當胎兒DNA含量一般較低時允許之妊娠早期(例如，妊娠期之10週之前)執行NIPT。
D. 腫瘤學中之甲基化程度分析

許多種癌症亦存在拷貝數畸變(CNA)。因此，CNA可用以判定受試者之癌症等級。另外，癌症患者通常在某些基因組區域中顯示較高程度之甲基化。甲基化標記因此亦可與分子長度區帶分析組合用於判定癌症等級。
1. 使用甲基化之長度模式分析

吾人推論，諸如甲基化之其他類型之癌症相關畸變將亦能夠用於建構可與非癌症受試者進行區分的基於分子長度區帶之特異性模式。因此，吾人亦進一步分析來自如上文所提及之HCC患者的4個血漿DNA樣本。吾人使用(但不限於)靶向亞硫酸氫鹽測序來定量經推測在健康受試者之器官中未甲基化但在癌症患者中甲基化機率高得多的彼等區域之甲基化程度。吾人應用本文所描述之基於分子長度區帶之方法來根據相較於健康受試者之甲基化基因組畸變探究分子長度區帶相關模式。甲基化進一步描述於2013年3月15日申請之美國申請案第13/842,209號(於2017年8月15日以美國專利第9,732,390號發佈)及2015年7月20日申請之美國申請案第14/803,692號中，該等申請案之內容皆以引用之方式併入本文中以用於所有目的。

圖 7 展示肝細胞癌(HCC)患者之血漿DNA中之所量測甲基化的基於分子長度區帶之變化模式。藉由計算來自已知未患HCC之健康受試者之參考樣本的平均甲基化程度及計算與平均甲基化程度相關聯之標準偏差來計算z評分。每一分子長度區帶處之z評分經計算為彼分子長度區帶處之甲基化程度與平均甲基化程度之間的差值，且用該差值除以標準偏差。圖7中的虛線指示+3或-3之z評分，其可用於顯示自平均甲基化程度之統計顯著性。

紅色或較深線條702、704、706及708表示早期HCC (eHCC)，且灰色線條表示無HCC之慢性B型肝炎病毒(HBV)攜帶者。在圖7中，吾人可確認與HCC患者(線條702、704、706及708)相關聯之甲基化基因組異常之相異分子長度區帶模式，其允許在HCC01、HCC02及HCC03中自HBV攜帶者(灰色線條)鑑別癌症患者。線條702、704及706展示具有至少兩個看起來顯著高於用於HBV樣本之灰色線條的峰值的模式。線條708更接近灰色線條但仍具有兩個高於用於HBV樣本之灰色線條的峰值。每一曲線圖中之標記為「全部」的最右側資料為無關於分子長度區帶之全部資料之合併z評分。對於HCC04，結果顯示基於分子長度區帶之非隨機彎曲模式比使用全部片段之異常甲基化之總體程度(由圓圈710表示)更具資訊性。不同基因組區域用於不同曲線圖中。染色體臂1q用於HCC01及HCC04，染色體臂10p用於HCC02，且染色體臂19q用於HCC03。在其他實施例中，例如(但不限於)低甲基化、點突變、羥甲基化、片段化末端等之基於分子長度區帶之變化模式亦可用於偵測癌症。
2. 用於判定癌症等級之實例方法

圖 8 展示在來自受試者之生物樣本中判定癌症等級之方法800。生物樣本可包括游離DNA分子之混合物。游離DNA分子可包括腫瘤DNA分子及非腫瘤DNA分子。

在區塊802處，方法800可包括針對複數個長度範圍中之每一長度範圍量測來自生物樣本的對應於長度範圍的甲基化游離DNA分子之第一量。甲基化游離DNA分子可來自染色體臂。量測對應於長度範圍之甲基化游離DNA分子之量可如方法600或本文所描述之任何其他方法中所描述而執行，但游離DNA分子經甲基化除外。第一量之甲基化游離DNA分子可來自一或多個基因組區域。基因組區域可為染色體臂，例如1p、1q、8p、8q、13q或14p。可使用基因組區域之各種組合。待使用之特定區域可藉由分析區域之各種組合的準確性來判定，該等區域用於基於具有已知癌症等級之樣本的訓練集來判定癌症等級。

在區塊804處，方法800可包括針對每一長度範圍藉由電腦系統使用對應於該長度範圍之甲基化游離DNA分子之第一量及第二個長度範圍中之DNA分子之第二量計算甲基化程度，該第二個長度範圍包括不在該長度範圍中之長度。第二量可具有甲基化游離DNA分子。在此等或其他實施例中，第二量可包括非甲基化游離DNA分子。

甲基化程度可為在一或多個位點處經甲基化或未經甲基化之DNA分子的DNA分子z評分或正規化量(例如，分數、百分比或相對豐度)。舉例而言，甲基化程度可為第一量與第二量之比值。在其他實施例中，甲基化程度可為z評分。z評分可使用對應於長度範圍之游離DNA分子之量與第二量之比值來計算。隨後將所計算比值與平均比值之間的差值除以標準偏差以判定z評分。平均比值可為對照組(例如，非癌症患者、參考樣本或不與癌症相關之基因組區域)之平均甲基化程度。若甲基化程度為z評分，則長度範圍之甲基化程度可為圖7中的線條702、704、706及708上之任何點。

在區塊806處，方法800可包括針對複數個長度範圍獲得包括複數個參考甲基化程度之參考長度模式。複數個長度範圍可藉由機器學習演算法判定且可以與關於方法600所描述相同之方式判定。參考長度模式可由來自患有癌症之受試者或來自未患癌症之受試者的複數個參考樣本加以判定。舉例而言，參考樣本可來自已知未患HCC或任何類型之癌症的患者。參考長度模式可基於來自未患HCC之慢性HBV攜帶者的資料。舉例而言，參考長度模式可為圖7中的用於HBV之灰色線條中之任一者。在一些實施例中，參考長度模式可為參考樣本之全部長度模式之統計表示，如關於方法600所闡述。

在區塊808處，方法800可包括將複數個甲基化程度與參考長度模式進行比較。方法800可包括將複數個分子長度比值之每一甲基化程度與在對應長度範圍處之參考甲基化程度進行比較。將甲基化程度與參考長度模式進行比較之方式可以依方法600中由分子長度比值與參考長度模式進行比較之方式執行，但其中改用甲基化程度代替分子長度。方法800可包括判定每一甲基化程度在統計學上類似於在對應長度範圍處之參考甲基化程度。在一些實施例中，方法800可包括判定每一甲基化程度或一些甲基化程度在統計學上不同於在對應長度範圍處之參考甲基化程度。

在一些實施例中，複數個甲基化程度與參考長度模式之比較可包括針對複數個長度範圍判定包括複數個甲基化程度之長度模式。該長度模式可與參考長度模式進行比較。該長度模式可經判定具有與參考長度模式類似之形狀。方法800中與參考長度模式之比較可類似於方法600中與參考長度模式之比較。

若第一量之甲基化游離DNA分子來自超過一個基因組區域，則可依據其在基因組中之位置來分析甲基化程度。複數個甲基化程度可包括多維向量。多維向量可為N×M，其中N為分子長度範圍之數目且M為基因組區域之數目。基因組區域可為染色體、染色體臂或染色體臂之一部分。參考長度模式可類似地為多維向量(例如，長度N×M)。複數個甲基化程度可使用機器學習模型或其他技術，與參考長度模式進行比較。下文中說明多維向量及甲基化程度之使用(例如，圖13、圖14A、圖14B及圖14C)。

在區塊810處，方法800可包括依據比較，來判定癌症等級。癌症等級可包括受試者患有癌症抑或未患癌症、癌症之可能性或腫瘤大小。

若由來自患有癌症之受試者的複數個參考樣本判定參考長度模式，且其比較包括判定為類似甲基化程度或類似形狀，則可判定受試者患有癌症。使用此參考長度模式，若其比較包括判定為不同甲基化程度或不同形狀，則可判定受試者未患癌症。若由來自無癌症之複數個參考樣本判定參考長度模式，且其比較包括判定為不同甲基化程度或形狀，則可判定受試者患有癌症。而且，若由來自無癌症之複數個參考樣本判定參考長度模式，且其比較包括判定為類似甲基化程度或形狀，則可判定受試者未患癌症。
E. 使用分子長度區帶化矩陣之模式分析

對於各種癌症，包括染色體臂之某些基因組區域更可能具有拷貝數畸變。藉由染色體臂針對可能拷貝數畸變對長度範圍進行分析隨後可用以幫助判定癌症之機率或偵測癌症。機器學習模型可用於基於不同染色體區域(例如，臂)處之長度特徵模式判定癌症分類器。
1. 長度模式分析

由於癌症患者之血漿中的腫瘤來源之DNA之長度特徵曲線已顯示與非腫瘤來源之DNA分子之不同，使用一般包含更短DNA分子之形成劑(Jiang等人Proc. Natl. Acad. Sci. 2015; 112:E1317-E1325)，吾人推論描述於本發明中之基於分子長度區帶之方法將適用於偵測癌症相關畸變，諸如拷貝數畸變(CNA)及甲基化基因組畸變。作為一實例，吾人將基於分子長度區帶之模式識別應用於4個血漿DNA早期肝細胞癌(HCC)患者樣本及67個無HCC癌症之慢性B型肝炎(HBV)攜帶者(HBV攜帶者)。使用健康對照之三十個血漿DNA樣本建立拷貝數變化之正常參考範圍，其用於預測HCC患者及HBV攜帶者之CNA及甲基化基因組畸變。

圖 9 展示肝細胞癌(HCC)患者之血漿DNA中之所量測拷貝數畸變的基於分子長度區帶之變化模式。紅色線條表示早期HCC (eHCC)，且灰色線條表示無HCC之慢性B型肝炎病毒(HBV)攜帶者。吾人觀測到患有HCC癌症之患者的所量測CNA之分子長度區帶模式之曲線(紅色或較深線條902、904、906及908)與為HBV攜帶者之患者的彼等曲線(灰色線條)相異。舉例而言，HCC01及HCC03病例分別於13q及1p染色體臂上具有複本增加。

在HCC01及HCC03中，吾人可不斷地偵測基於分子長度區帶之非隨機波浪狀模式，其中在210 bp處具有中間點之分子長度區帶趨向於相對於其左側及右側之顯示拷貝數變化的拐點，且120 bp周圍之分子長度區帶模式顯示「鐘形曲線」之傾向。對於經受14q缺失之HCC02病例，呈現反向「鐘形曲線」。對於HCC04病例，若吾人針對全部片段使用z評分，則吾人不可偵測癌症，如具有3以下之z評分之圓圈910及針對非癌症患者之z評分範圍內之孔所示。然而，若吾人利用基於分子長度區帶之方法，則吾人可區分HCC04與顯示基於分子長度區帶之隨機模式的非癌症患者(灰色線條)。相比之下，對照組中不存在此類基於分子長度區帶之非隨機相異模式。不同染色體臂顯示不同長度模式。長度模式可需要參考對某個特定染色體臂的長度模式。
2. 使用分子長度區帶化GR矩陣之癌症分類器

癌細胞一般帶有將出現於任何染色體臂中之拷貝數畸變，其將在腫瘤細胞將DNA散佈至癌症患者之血液循環中時反映於血漿中。由於腫瘤來源之游離DNA分子顯示與背景正常游離DNA相異之長度特性(例如，腫瘤游離DNA分子比來源於正常細胞之背景游離DNA短)，故跨不同長度範圍之相關腫瘤DNA部份將改變。因此，存在於癌症患者之血漿中的跨不同長度範圍之拷貝數畸變之所量測程度將取決於跨不同長度範圍之相關腫瘤DNA部份。

吾人提出，跨不同長度範圍捕捉所量測拷貝數畸變之詳細模式將改良區分癌症患者及非癌症患者之效能。模式可亦包括多個區域。

圖 10 說明根據本發明之實施例的用於癌症偵測之分子長度區帶化基因組表示(GR)方法的工作流程。在階段1010處，吾人將經測序游離DNA片段定位至參考基因組。在階段1020處，將經測序片段定位至不同染色體臂。

在階段1030處，經測序片段進一步經分類至不同長度範圍(分子長度區帶)。舉例而言，長度範圍可包括(但不限於)35-75 bp、40-80 bp、45-85 bp、50-90 bp、55-95 bp、60-100 bp、65-105 bp、70-110 bp、75-115 bp、80-120 bp、85-125 bp、90-130 bp、95-135 bp、100-140 bp、105-145 bp、110-150 bp、115-155 bp、120-160 bp、125-165 bp、130-170 bp、135-175 bp、140-180 bp、145-185 bp、150-190 bp、155-195 bp、160-200 bp、165-205 bp、170-210 bp、175-215 bp、180-220 bp、185-225 bp、190-230 bp、195-235 bp、200-240 bp、205-245 bp、210-250 bp、215-255 bp、220-260 bp、225-265 bp、230-270 bp、235-275 bp、240-280 bp、245-285 bp、250-290 bp、255-295 bp、260-300 bp、265-305 bp、270-310 bp、275-315 bp、280-320 bp、285-325 bp、290-330 bp、295-335 bp、300-340 bp、305-345 bp、310-350 bp、315-355 bp、320-360 bp、325-365 bp、330-370 bp、335-375 bp、340-380 bp、345-385 bp、350-390 bp、355-395 bp、360-400 bp、365-405 bp、370-410 bp、375-415 bp、380-420 bp及385-425 bp。此類長度範圍亦可用於全部其他實施例。

針對特定長度範圍內之分子之群，將計算定位至每一染色體臂之經測序片段的比例，在本文中被稱作基因組表示(GR)。GR為對應於該長度範圍內之特定區域(或整個基因組)的全部DNA片段之比例。階段1030展示不同長度範圍、不同染色體臂、已知患有癌症之樣本及已知未患癌症之樣本的GR。

作為一實例，若每一染色體臂包括71個長度範圍且體染色體具有總共39個染色體臂，則該長度範圍及該等染色體臂產生2,769維向量。階段1040展示顯示可能之多維向量的表格(「分子長度區帶化GR矩陣」)。第一行1042對應於癌症樣本1且展示71×N維向量，其中N為染色體臂之數目。表格展示癌症之M個樣本及非癌症之P個樣本。

在階段1050處，多維向量及自多維向量形成之分子長度區帶化GR矩陣可用於訓練癌症分類模型。機器學習演算法或深度學習演算法可用於訓練癌症分類器，包括(但不限於)支援向量機(SVM)、決策樹、單純貝氏分類器、邏輯回歸、叢集演算法、主成分分析(PCA)、奇異值分解(SVD)、t分佈隨機鄰域嵌入(tSNE)、人工神經網路以及建構分類器集合且隨後藉由進行其預測之加權表決而對新資料點進行分類的集體方法。一旦癌症分類器經訓練，即可預測新患者之癌症機率。

訓練資料可包括癌症受試者及非癌症受試者。模型化游離DNA量測(分子長度區帶化GR、甲基化等等)之機器學習演算法可用於建構提供癌症受試者與非癌症受試者之間的最佳分離的分類邊界(例如，使用組織於線性或非線性公式，諸如邏輯回歸公式中之訓練權重及係數之集合)。包括游離DNA量測的新樣本之輸入向量自最佳分類邊界朝向癌症相關資料點之偏離將指示為癌症之可能性。此偏離可經正規化或轉譯成0至1之標度內的癌症機率。機率越高，為癌症之可能性越高。高於某一臨限值之癌症機率(例如，＞0.6)可被視為癌症之陽性測試。

對於肝細胞癌，據報導，1p、1q、8p及8q在拷貝數方面通常係異常的(Proc Natl Acad Sci USA. 2015年3月17日;112(11):E1317-25)。因此，為說明分子長度區帶化癌症偵測之效能，吾人使用大規模平行測序平台對數個健康對照(CTR)、HBV攜帶者(HBV)、肝硬化受試者(肝硬化)、早期HCC (eHCC)、中期HCC (iHCC)及晚期HCC (aHCC)進行測序。針對訓練資料集，吾人對有限數目之晚期HCC患者進行測序，且隨後人工地混合晚期HCC患者之測序結果與非HCC受試者之測序結果，以形成含有足夠的HCC陽性患者(具有腫瘤DNA部份之較寬覆蓋度，其範圍為0.01%至50%)及非HCC受試者之訓練資料集。為此目的，經由改變正使用之測序讀數之比例藉由反覆隨機地混合34個HBV受試者、10個CTR受試者及9個aHCC受試者來產生401個HCC患者，且藉由反覆隨機地混合34個HBV受試者、15個肝硬化受試者及10個CTR受試者來產生175個非HCC患者。SVM演算法用以使用此等401個HCC患者及175個非HCC患者訓練癌症分類器。

在階段1060處，經訓練癌症分類模型可用於預測新樣本患有癌症抑或未患癌症。癌症機率可藉由該模型判定，其中高於臨限值之機率被視為癌症之陽性測試。

將用於偵測癌症之分子長度區帶化方法及習知z評分方法應用於包括30個CTR受試者、19個HBV受試者、14個肝硬化受試者、36個eHCC受試者及11個iHCC受試者之測試資料集。

圖 11A 展示用於偵測癌症之分子長度區帶化方法之結果。SVM用於訓練癌症分類器。eHCC受試者及iHCC受試者皆具有高於癌症機率0.60的中間值，iHCC具有高於eHCC之機率。CTR、HBV及肝硬化受試者顯示0.20以下之中間機率。用於偵測癌症之分子長度區帶化方法在95%之特異性下具有64%靈敏度。紅色虛線對應於95%特異性。

圖 11B 展示用於偵測癌症之習知z評分方法之結果。紅色虛線對應於95%特異性，其處於4.2左右之z評分。將染色體臂1p、1q、8p及8q用作實例。計算測試樣本之每一臂之GR。亦計算對應平均值及標準偏差。每一臂之z評分將以(GR-平均值)/標準偏差之形式加以計算。絕對z評分等於對應於四個染色體臂之四個絕對z評分之總和。iHCC受試者具有明顯高於CTR受試者、HBV受試者、肝硬化受試者及eHCC受試者的癌症之絕對z評分中值。雖然iHCC之絕對z評分中值高於其他受試者之絕對z評分，但若干iHCC受試者之z評分與其他受試者極其類似。然而，eHCC之絕對z評分中值僅稍高於CTR受試者、HBV受試者及肝硬化受試者之彼等且約等於z評分臨限水準3。習知z評分方法在95%之特異性下具有51%靈敏度。因此，分子長度區帶化方法顯示優於習知z評分方法之優良靈敏度。

圖 11C 使用接受者操作特徵曲線(ROC)分析展示分子長度區帶化方法相對於習知z評分方法之優越性(0.84比0.82)。
3. 使用分子長度區帶化基因組表示(GR)矩陣之實例方法

圖 12 展示在來自受試者之生物樣本中判定癌症分類之實例方法1200。生物樣本可包括包含腫瘤DNA分子及非腫瘤DNA分子之游離DNA分子之混合物。

在區塊1202處，可量測來自生物樣本之游離DNA分子之第一量。第一量之游離DNA分子可對應於M個範圍中之每一長度範圍及N個基因組區域中之每一基因組區域。可如關於方法600或方法800所描述判定複數個長度範圍。每一基因組區域可為染色體臂。

在區塊1204處，可使用游離DNA分子之第一量及包括不在該長度範圍中之長度的第二個長度範圍中之游離DNA分子之第二量計算分子長度比值。可如同方法600中一般計算分子長度比值，但分子長度比值可係針對特定基因組區域(例如，染色體臂)的。作為一實例，分子長度比值可為圖10中之行1004中的基因組表示GR1、GR2、GR3 ... GR 71中之任一者。計算分子長度比值可產生N×M個分子長度比值之量測向量。N可為大於等於1之整數。N及M可為大於1，包括大於2、3、4、5或6之整數。

在區塊1206處，可獲得參考長度模式。參考長度模式可包括N個基因組區域及M個長度範圍之參考分子長度比值之參考向量。參考長度模式可由來自患有癌症之受試者或來自未患癌症之受試者的複數個參考樣本加以判定。參考長度模式可使用機器學習模型判定。

機器學習模型可使用包括來自患有癌症之個體之複數個基因組區域中的每一者處之分子長度比值的分子長度比值訓練集來加以判定。癌症分類器可使用機器學習演算法或深度學習演算法加以判定。機器學習模型或深度學習演算法可包括支援向量機(SVM)、決策樹、單純貝氏分類器、邏輯回歸、叢集演算法、主成分分析(PCA)、奇異值分解(SVD)、t分佈隨機鄰域嵌入(tSNE)、人工神經網路或本文所描述之任何演算法。訓練集可包括經判定患有癌症之個體及經判定未患癌症之個體的不同基因組區域處的分子長度比值。機器學習模型可為圖10中的癌症分類器。

在區塊1208處，可將量測向量與參考向量進行比較。該比較可使用機器學習模型進行比較。該比較可基於量測向量與參考向量之類似性產生一值。

將量測向量與參考向量進行比較可包括將N×M個分子長度比值與自複數個參考樣本判定之複數個臨限值進行比較。舉例而言，每一長度範圍可具有不同臨限值，其可基於參考樣本之標準偏差。因此，可能存在N×M個臨限值。單一長度範圍亦可具有不同臨限值，每一臨限值與分子長度比值不同於參考樣本之不同確定程度相關聯。比較可包括對超出之臨限值之數目計數及基於該比較判定癌症等級。超出臨限值之較高水準係指量測向量與參考向量之間的較大差異。

在區塊1210處，可基於該比較判定癌症等級。癌症可包括肝細胞癌。癌症可包括結腸直腸癌、肺癌、鼻咽癌、卵巢癌、胃癌及血癌。方法1200可允許區分癌症受試者與非癌症受試者。受試者可基於量測向量與參考向量之類似性基於該值經分類為患有癌症或患癌之高可能性。可將基於類似性之值與閾值進行比較。遠遠超過閾值的基於類似性之值係指癌症之較高可能性或嚴重度。方法可其進一步包含在受試者經分類為患有癌症或具有患癌之高可能性時治療癌症。

方法1200可適用於判定除癌症之外自體免疫病症之等級。自體免疫病症可包括全身性紅斑狼瘡(SLE)。已發現長度DNA片段與SLE相關，如2014年9月19日申請之美國專利公開案第2015/0087529 A1號中所描述，該公開案之內容以引用之方式併入本文中以用於所有目的。自體免疫病症之等級可藉由將量測向量與參考向量進行比較來判定。參考向量可來自參考長度模式。參考長度模式可由來自健康受試者或患有已知等級之自體免疫病症之受試者的樣本判定。方法1200可允許區分患有與未患自體免疫性病症之受試者。
4. 使用分子長度區帶狀甲基化密度(MD)矩陣之癌症分類器

癌細胞一般帶有將出現於任何基因組區域中之特異性甲基化模式。舉例而言，在癌細胞中，Alu重複區域可相較於非惡性細胞優先地較少甲基化，且CpG島區域可相較於非惡性細胞優先地較多甲基化。此類癌症相關異常甲基化信號可在腫瘤細胞將DNA散佈至血液循環中時反映於癌症患者之血漿中。如上文所闡述，跨不同長度範圍之相關腫瘤DNA部份變化。因此，存在於癌症患者之血漿中的跨不同長度範圍之癌症相關甲基化之所量測程度將取決於跨不同長度範圍之相關腫瘤DNA含量。

吾人提出，跨不同長度範圍捕捉所量測甲基化畸變之詳細模式將改良區分癌症患者及非癌症患者之效能。

圖 13 說明根據本發明之實施例的用於癌症偵測之分子長度區帶化甲基化密度(MD)方法之工作流程。在階段1310處，吾人使用Methy-Pipe (Jiang等人 PLoS One. 2014;9(6):e100360)或其他甲基化識別比對器將經測序亞硫酸氫鹽轉換游離DNA片段定位至參考基因組。在階段1320處，定位安置至不同差異甲基化區域之經測序片段。

在階段1330處，經測序片段進一步經分類至不同長度範圍(分子長度區帶)。舉例而言，長度範圍可包括本文所描述之任何長度範圍，包括描述於圖10之階段1030中之彼等長度範圍。

針對特定長度範圍內之分子之群，將計算所關注區域上之經測序CpG(例如，Alu重複或CpG島)的比例，從而得到反應甲基化程度之甲基化密度(MD)。區域可顯示肝癌細胞與其他正常細胞之間的不同甲基化程度，該等正常細胞包括造血細胞(例如，T細胞、B細胞、嗜中性白血球、巨噬細胞、紅血球母細胞等等)、肝細胞及結腸細胞。階段1330展示不同長度範圍、不同基因組區域以及已知患有癌症之樣本及已知未患癌症之樣本的MD。

作為一實例，若每一區域包括71個長度範圍且存在總共32,450個顯示肝癌細胞與其他正常細胞之間的差異甲基化的區域，則該長度範圍及該等基因組區域產生2,303,950維向量。階段1340展示顯示可能之多維向量的表格(「分子長度區帶化MD矩陣」)。表格之第一行1342對應於癌症樣本1，展示71×N維向量，其中N為基因組區域之數目。表格展示癌症之M個樣本及非癌症之P個樣本。

在階段1350處，多維向量及自多維向量形成之分子長度區帶化MD矩陣可用於訓練癌症分類模型。訓練可藉由例如如本文所描述執行分類(包括圖10之階段1050)的任何適合機器學習模型進行。一旦癌症分類器經訓練，即可為新患者預測樣本指示癌症之機率。高於某一臨限值之癌症機率(例如，＞0.6)可被視為癌症之陽性測試。

為說明使用分子長度區帶化甲基化程度進行癌症偵測之效能，吾人使用大規模平行測序平台對數個健康對照(CTR)、HBV攜帶者(HBV)、肝硬化受試者(肝硬化)、早期HCC (eHCC)、中期HCC (iHCC)及晚期HCC (aHCC)進行測序。針對訓練資料集，吾人對有限數目之晚期HCC患者進行測序，且隨後人工地混合晚期HCC患者之測序結果與非HCC受試者之測序結果，以形成含有足夠的HCC陽性患者(具有腫瘤DNA部份之較寬覆蓋度，其範圍為0.01%至50%)及非HCC受試者之訓練資料集。為此目的，經由改變正使用之測序讀數之比例藉由反覆隨機地混合27個HBV受試者及7個aHCC受試者來產生140個HCC患者，且藉由反覆隨機地混合7個HBV受試者及20個CTR受試者來產生140個非HCC患者。SVM演算法用以使用此等140個HCC患者及140個非HCC患者訓練癌症分類器。

在階段1360處，經訓練癌症分類模型可用於預測新樣本患有癌症抑或未患癌症。癌症機率可藉由該模型判定，其中高於臨限值之機率被視為癌症之陽性測試。

圖 14A 、圖 14B 及圖 14C 展示根據本發明之實施例的分子長度區帶化MD與習知z評分方法之間的比較。圖14A展示分子長度區帶化MD方法之結果。圖14B展示習知z評分方法之結果。

圖 14A 及圖 14B 展示，在包括27個HBV受試者、36個eHCC受試者及11個iHCC受試者之測試資料集中，用於偵測癌症之分子長度區帶化甲基化方法優於習知z評分方法。習知z評分方法按以下方式進行：(1)計算來源於所有所關注區域之全部片段之合併甲基化程度(由「X」表示)；(2)計算非癌症組之合併甲基化程度之平均值(M)及合併甲基化程度之標準偏差(SD)；(3)隨後藉由以下定義習知甲基化z評分：z評分=(X-M)/SD。SVM用於訓練癌症分類器。圖14A中的分子長度區帶化甲基化方法在92.5%之特異性下具有74.5%靈敏度。相比之下，圖14B中的習知z評分方法在92.5%之特異性下具有較低靈敏度，65.9%之靈敏度。增加之靈敏度可產生重要益處。早期癌症之提早偵測一般與較佳治療結果相關聯。eHCC組及iHCC組兩者皆被視為可治療階段。因此，可治療病例之靈敏度之任何增加具有臨床影響且可轉變成患者之完全不同的存活期特徵曲線。

圖 14C 使用接受者操作特徵曲線(ROC)分析展示分子長度區帶化甲基化方法之優越性(SVM：0.89 AUC對比z評分：0.87 AUC)。

因此，多維向量與基因組表示(GR)之使用(例如，圖10至圖12)可適用於使用甲基化密度代替GR進行分析。
F. 額外長度模式應用

基於分子長度區帶之模式將指示血漿DNA中發現之彼等畸變的來源。作為一實例，在妊娠情況下，若拷貝數畸變來源於母體，則分子長度區帶模式將相較於來源於胎兒之彼等以反向方向存在，此係由於母體DNA片段長於胎兒DNA(Yu等人Clin. Chem. 2017; 63:495-502)。基於分子長度區帶之分子診斷學亦可應用於諸如癌症之其他臨床病況中之游離DNA之分析(Jiang等人Proc. Natl. Acad. Sci. 2015; 112:E1317-E1325)，包括加強點突變、亞染色體畸變及表觀遺傳異常之偵測。臨床病況可包括判定存在對移植組織或器官之免疫反應。

此外，亦將允許吾人區分存在於血漿DNA中之血漿DNA混雜畸變，諸如全身性紅斑狼瘡(SLE)，因為存在於SLE患者之血漿DNA中之表觀拷貝數變化(Chan等人Proc. Natl. Acad. Sci. 2014; 111:E5302-E5311)將很可能因抗DNA抗體與特定DNA序列之優先結合而非特定細胞中之真實拷貝數變化所致。因此，預期基於分子長度區帶之分析將發現關於存在於SLE患者之血漿中之所量測拷貝數畸變的不同分子長度區帶的隨機形狀變化。

實施例可包括在判定患者之疾病或病況之等級或機率之後對患者之疾病或病況進行治療。治療可包括任何適合療法、藥物或手術，包括描述於本文中提及之參考文獻中的任何治療。參考文獻中關於治療之資訊以引用之方式併入本文中。
III. 材料及方法
樣本收集及處理

針對此回溯性研究分析的匿名化資料係自中國香港大學之大學病理學服務(University Pathology Service；UPS)中之現有患者資料獲得。由161個樣本組成之患者資料係作為UPS實驗室研發測試之結果而產生。由香港威爾斯親王醫院之外科部(Department of Surgery of the Prince Wales Hospital) 招募的承認患有HCC并有腫瘤割除之匿名化患者。在手術之前收集全部血液。自香港威爾斯親王醫院之內科及藥物治療部(Department of Medicine and Therapeutics)招募匿名化HBV攜帶者及肝硬化受試者。藉由使血液離心以獲得血漿從而獲得樣本。簡言之，將末梢血液樣本收集至含EDTA管中，隨後以1,600 g於4℃下離心10 min。使血漿部分以16,000 g在4℃下再離心10 min以獲得游離血漿，直至進一步分析之前儲存於-80℃下。使用QIAamp DSP DNA血液微型套組(Qiagen)自4-10 mL血漿提取DNA。使用SpeedVac濃縮器(Savant DNA120；Thermo Scientific)將血漿DNA濃縮成每樣本75 µL之最終體積。
測序文庫製備及 DNA 測序

使用提取之血漿DNA，用成對端測序樣本製備套組根據製造商之說明書建構索引化DNA文庫。在此步驟中，血漿雙鏈DNA分子將經末端修補以形成平端且同時經添加額外A鹼基。可輔助PCR擴增、黏接至流槽及促進測序之銜接子經接合至A標記雙股血漿DNA分子以形成測序文庫。可如先前所描述(Yu等人Proc. Natl. Acad. Sci. U. S. A. 2014; 111:8583-8)針對各端使用36或50或75個循環以成對端模式對文庫進行測序。
序列比對

如先前所描述(Yu等人Proc. Natl. Acad. Sci. U. S. A. 2014; 111:8583-8)使用短寡核苷酸比對程式2 (SOAP2) (Li等人Bioinformatics 2009; 25:1966-1967)將來自每一樣本之序列與人類參考基因組(hg19)進行比對。通常，每一樣本獲得1千2百萬個唯一定位之成對端讀數(範圍：1千萬至1千5百萬)。
甲基化程度

可如本文中所描述獲得序列讀數之位點之甲基化狀態。舉例而言，可使用DNA分子之序列讀數分析DNA分子，其中測序為甲基化識別的。舉例而言，甲基化識別測序可包括(但不限於)亞硫酸氫鹽測序或前面為甲基化敏感限制酶消化之測序、使用抗甲基胞嘧啶抗體或甲基化結合蛋白之免疫沈澱或允許闡明甲基化狀態之單分子測序。亦可使用其他甲基化識別分析法。

序列讀數可各自包括來自生物樣本之游離DNA分子之甲基化狀態。甲基化狀態可包括特定胞嘧啶殘基為5-甲基胞嘧啶抑或5-羥甲基胞嘧啶。序列讀數可以各種方式獲得，諸如各種測序技術、PCR技術(例如，即時或數字的)、陣列及用於鑑別片段之序列的其他適合技術。即時PCR為共同分析DNA組之實例，例如與位點處甲基化之DNA數目成比例之強度信號。取決於兩個位點之彼此接近性及序列讀數之長度，序列讀數可覆蓋超過一個位點。

可藉由自甲基化識別測序接收序列讀數來執行分析，且因此可僅對先前自DNA獲得之資料執行分析。在其他實施例中，分析可包括實際測序或其他用於執行DNA分子特性之量測之有效步驟。可以多種方式執行測序，例如使用大規模平行測序或下一代測序，使用單分子測序，及/或使用雙鏈或單鏈DNA測序文庫製備方案，及本文中所描述之其他技術。作為測序之一部分，有可能一些序列讀數可對應於細胞核酸。

測序可為靶向測序，例如本文中所描述。舉例而言，生物樣本可富集來自病毒之核酸分子。生物樣本富集來自病毒之核酸分子可包括使用結合病毒之一部分或整個基因組的捕捉探針。其他實施例可使用對病毒之特定基因座具有特異性之引物。生物樣本可富集來自人類基因組之一部分(例如體染色體區域)的核酸分子。圖1提供此類捕捉探針之實例。在其他實施例中，測序可包括隨機測序。

在藉由測序裝置測序之後，可藉由電腦系統接收序列讀數，該電腦系統可通信地與執行測序之測序裝置耦接，例如經由有線或無線通信或經由可拆卸記憶體裝置。在一些實施例中，可接收包括核酸片段之兩個末端的一或多個序列讀數。DNA分子之位置可藉由將DNA分子之一或多個序列讀數定位至(比對於)人類基因組之各別部分(例如特異性區域，諸如差異甲基化區域(DMR))而判定。在一個實施中，若讀數未定位至所關注區域，則可忽略該讀數。在其他實施例中，特定探針(例如在PCR或其他擴增之後)可指示位置，諸如經由特定螢光色。鑑別可為對應於一或多個位點之集合中之一者的游離DNA分子，亦即特定位點可能不為已知的，因為一或多個位點處甲基化之DNA之量為必需之全部。

在測序及比對之後，由此可在CpG情況下於胞嘧啶殘基處甲基化序列讀數之計數「M」(甲基化)及未甲基化序列讀數之計數「U」(未甲基化)推斷個別CpG位點之甲基化。使用亞硫酸氫鹽測序資料，建構母體血液、胎盤及母體血漿之整體甲基化基因組。可使用以下方程式計算母體血漿中之特定基因座之平均甲基化CpG密度(亦被稱作甲基化密度MD )：

其中M 為遺傳基因座內CpG位點處甲基化讀數之計數且U為未甲基化讀數之計數。若基因座內存在超過一個CpG位點，則M及U對應於所有位點之計數。

作為替代方案，可根據Infinium HD甲基化分析方案對亞硫酸氫鹽轉化基因組DNA執行甲基化分析法。可於Illumina iScan儀器上掃描雜交微珠晶片(beadchip)。藉由具有至內部對照之正規化及背景減除的GenomeStudio (v2011.1)甲基化模組(v1.9.0)軟體分析DNA甲基化資料。個別CpG位點之甲基化指數可由β值(β)表示，其可使用甲基化與未甲基化等位基因之間的螢光強度比計算：

胎兒 DNA 含量之計算

在懷有男性胎兒之妊娠中，母體血漿樣本中之胎兒DNA部份(f)可自與Y染色體比對之讀數的比例(%chrY)來判定。在先前研究中，顯示懷有女性胎兒之孕婦之血漿中的少數序列錯誤地與Y染色體比對(Chiu等人Proc Natl Acad Sci U S A 2008; 105:20458-20463)。因此，懷有男性胎兒之孕婦之血漿中之%chrY為來源於男性胎兒之Y染色體讀數與未與Y染色體比對之母體讀數的混合物(Chiu等人BMJ 2011; 342:c7401)。可使用以下方程式表現懷有男性胎兒之妊娠中之%chrY與f 之間的關係：
%chrY = %chrY_male ×f - %chrY_female × (1-f )，
其中%chrY_male 為含100%男性DNA之血漿樣本中的與Y染色體比對之讀數的比例，且%chrY_female 為含100%女性DNA之血漿樣本中的與Y染色體比對的讀數之比例。

可在不偏離本發明之實施例的精神及範疇的情況下以任何適合之方式組合特定實施例之特定細節。然而，本發明之其他實施例可針對與各個別態樣或此等個別態樣之特定組合相關的特定實施例。
IV. 實例系統

圖 15 說明根據本發明之實施例之系統1500。如所示，系統包括樣本1505，諸如樣本架1510內之游離DNA分子，其中樣本1505可與分析法1508接觸以提供物理特徵1515之信號。樣本架之實例可為包括分析法之探針及/或引物的流槽或液滴藉以移動之管(在微滴包括分析法之情況下)。樣本之物理特徵1515 (諸如螢光強度值)係藉由偵測器1520偵測。偵測器可按時間間隔(例如，週期性時間間隔)進行量測，以獲得構成資料信號之資料點。在一個實施例中，類比至數位轉換器複數次將來自偵測器之類比信號轉換成數位形式。樣本架1510及偵測器1520可形成分析裝置，例如根據本文所描述之實施例執行測序之測序裝置。資料信號1525係自偵測器1520發送至邏輯系統1530。資料信號1525可儲存於本端記憶體1535、外部記憶體1540或儲存裝置1545中。

邏輯系統1530可為或可包括電腦系統、ASIC、微處理器等。其亦可包括顯示器(例如，監測器、LED顯示器等)及使用者輸入裝置(例如，滑鼠、鍵盤、按鈕等)或與該等組件耦接。邏輯系統1530及其他組件可為獨立的或網路連接之電腦系統的一部分，或其可直接連接至或併入包括偵測器1520及/或樣本架1510之裝置(例如測序裝置)中。邏輯系統1530亦可包括在處理器1550中執行的軟體。邏輯系統1530可包括電腦可讀媒體，其儲存用於控制系統1500執行本文所描述之方法中之任一者的指令。舉例而言，邏輯系統1530可向包括樣本架1510之系統提供命令，使得測序或其他物理操作得以執行。此類物理操作可以特定次序執行，例如以特定次序添加及移除試劑。此類物理操作可由可用以獲得樣本及執行分析法的例如包括機器人臂之機器人系統執行。

本文中提及之任何電腦系統可利用任何適合數目個子系統。此類子系統之實例在圖 16 中展示於1600中。在一些實施例中，電腦系統包括單一電腦設備，其中子系統可為電腦設備之組件。在其他實施例中，電腦系統可包括具有內部組件之多個電腦設備，其各自為子系統。

圖16中所示之子系統經由系統匯流排1675互連。展示額外子系統，諸如印表機1674、鍵盤1678、固定磁碟1679、與顯示器配接器1682耦接之監視器1676等。耦接至I/O控制器1671之周邊裝置及輸入/輸出(I/O)裝置可藉由此項技術中已知的任何數目之構件(諸如串聯埠1677)連接至電腦系統。舉例而言，串聯埠1677或外部介面1681 (例如乙太網路、Wi-Fi等)可用於將電腦設備1600連接至廣域網路(諸如網際網路)、滑鼠輸入裝置或掃描儀。經由系統匯流排1675之互連允許中央處理器1673與每一子系統通信及控制來自系統記憶體1672或固定磁碟1679之指令之執行以及在子系統之間交換資訊。系統記憶體1672及/或固定磁碟1679可實施為電腦可讀媒體。本文所提及之值中之任一者可自一個組件向另一個組件輸出且可向使用者輸出。

電腦系統可包括例如藉由外部介面1681或藉由內部介面連接在一起的複數個相同組件或子系統。在一些實施例中，電腦系統、子系統或設備可經網路通信。在此等情況下，可將一台電腦視為用戶端且另一台電腦視為伺服器，其中每一者可為同一電腦系統之一部分。用戶端及伺服器各自可包括多個系統、子系統或組件。

應理解，本發明之實施例中之任一者可使用硬體(例如，特殊應用積體電路或現場可編程門陣列)以控制邏輯之形式及/或使用具有一般可程式化處理器之電腦軟體以模組化或一體化方式實施。基於本發明及本文所提供之教示，一般熟習此項技術者將知道及識別使用硬體及硬體與軟體之組合來實施本發明之實施例的其他方式及/或方法。

本申請案所描述之軟體組件或功能中之任一者可實施為由處理器使用諸如Java、C++、Python或Perl之任何適合電腦語言使用例如習知或面向對象之技術執行的軟體程式碼。軟體程式碼可儲存為用於儲存及/或傳輸之電腦可讀取媒體上的一系列指令或命令，適合之媒體包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟機或軟性磁碟)或光學媒體(諸如光碟(CD)或DVD (數位化通用光碟))、快閃記憶體及其類似物。電腦可讀媒體可為該等儲存或傳輸裝置之任何組合。

此類程式亦可使用適用於經由符合多種協定之有線、光學及/或無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因而，根據本發明之實施例的電腦可讀媒體可使用以該等程式編碼之資料信號產生。以程式碼編碼之電腦可讀取媒體可與相容裝置一起封裝或與其他裝置分開提供(例如經由網際網路下載)。任何此等電腦可讀媒體可駐存在單一電腦程式產品(例如硬碟機、CD或整個電腦系統)上或內，且可存在於系統或網路內之不同電腦程式產品上或內。電腦系統可包括用於向使用者提供本文所提及之任何結果的監測器、印表機或其他適合之顯示器。

本文所描述之方法中之任一者可完全或部分地使用電腦系統來執行，該電腦系統包括一或多個處理器，該等處理器可經組態以執行該等步驟。因此，實施例可針對經組態以執行本文所描述之方法中之任一者之步驟的電腦系統，潛在地使用不同組件執行各別步驟或各別步驟組。儘管本文中方法之步驟以經編號步驟呈現，但其可同時或以不同次序執行。另外，此等步驟之一部分可與其他方法之其他步驟之一部分一起使用。又，所有或部分步驟可為視情況選用的。另外，任何方法之任何步驟皆可使用執行此等步驟之模組、電路或其他構件來執行。

已出於說明及描述之目的呈現本發明之實例實施例的上述描述。其並不意欲為窮盡性的或將本發明限制於所描述之精確形式，且根據以上教示，諸多修改及變化為可能的。

在先前描述中，出於解釋之目的，已闡述多個細節以便提供對本發明技術之各種實施例之理解。然而，熟習此項技術者將清楚，某些實施例可在無此等細節中之一些的情況下或在其他細節下實踐。

在描述若干實施例之後，熟習此項技術者將認識到，在不背離本發明之精神的情況下，可使用各種修改、替代構造及等效物。另外，為避免不必要地混淆本發明，尚未描述多個熟知方法及元件。另外，任何特定實施例之細節可能不會一直存在於實施例之變體中或可添加至其他實施例中。

在提供值之範圍的情況下，應理解除非上下文另外明確規定，否則亦特別揭示在該範圍上限與下限之間的各插入值，精確至下限單位之十分位。涵蓋在所述範圍內任何陳述值或插入值之間的各更小範圍及所述範圍內之任何其他陳述或插入值。此等更小範圍之上限及下限可獨立地包括或排除在該範圍內，且任一限制、無限制或兩個限制包括於更小範圍中之各範圍亦涵蓋於本發明內，經受所述範圍中任何特別排除之限制。在所述範圍包括限制中之一或兩者之情況下，亦包括排除彼等所包括之限制之任一者或兩者的範圍。

除非上下文另外明確指示，否則如在本文及所附申請專利範圍中所使用，單數形式「一(a/an)」及「該(the)」包括複數個指示物。因此，舉例而言，「方法」之提及包括複數個此類方法且「粒子」之提及包括熟習此項技術者已知之一或多個粒子及其等效物之提及，等等。現已出於清楚及理解之目的詳細地描述本發明。然而，應識別某些變化及修改可在隨附申請專利範圍之範疇內實踐。

本文中所引用之所有公開案、專利及專利申請案均以全文引用的方式併入本文中以用於所有目的。不承認任一者為先前技術。

100‧‧‧示意性說明

104‧‧‧部分

106‧‧‧分子

108‧‧‧部分

110‧‧‧分子

112‧‧‧條柱

116‧‧‧曲線圖

118‧‧‧曲線圖

122‧‧‧條柱

124‧‧‧條柱

126‧‧‧線條

128‧‧‧線條

202‧‧‧z評分曲線

204‧‧‧紅色圓圈

402‧‧‧區域

404‧‧‧區域

600‧‧‧方法

602‧‧‧區塊

604‧‧‧區塊

606‧‧‧區塊

608‧‧‧區塊

610‧‧‧區塊

702‧‧‧線條

704‧‧‧線條

706‧‧‧線條

708‧‧‧線條

710‧‧‧圓圈

800‧‧‧方法

802‧‧‧區塊

804‧‧‧區塊

806‧‧‧區塊

808‧‧‧區塊

810‧‧‧區塊

902‧‧‧線條

904‧‧‧線條

906‧‧‧線條

908‧‧‧線條

910‧‧‧圓圈

1004‧‧‧行

1010‧‧‧階段

1020‧‧‧階段

1030‧‧‧階段

1040‧‧‧階段

1042‧‧‧第一行

1050‧‧‧階段

1060‧‧‧階段

1200‧‧‧實例方法

1200‧‧‧方法

1202‧‧‧區塊

1204‧‧‧區塊

1206‧‧‧區塊

1208‧‧‧區塊

1210‧‧‧區塊

1310‧‧‧階段

1320‧‧‧階段

1330‧‧‧階段

1340‧‧‧階段

1342‧‧‧第一行

1350‧‧‧階段

1360‧‧‧階段

1500‧‧‧系統

1505‧‧‧樣本

1508‧‧‧分析法

1510‧‧‧樣本架

1515‧‧‧物理特徵

1520‧‧‧偵測器

1525‧‧‧資料信號

1530‧‧‧邏輯系統

1535‧‧‧本端記憶體

1540‧‧‧外部記憶體

1545‧‧‧儲存裝置

1550‧‧‧處理器

1600‧‧‧電腦設備

1671‧‧‧I/O控制器

1672‧‧‧系統記憶體

1673‧‧‧中央處理器

1674‧‧‧印表機

1675‧‧‧系統匯流排

1676‧‧‧監視器

1677‧‧‧串聯埠

1678‧‧‧鍵盤

1679‧‧‧固定磁碟

1681‧‧‧外部介面

1682‧‧‧顯示器配接器

圖1展示根據本發明之實施例之血漿DNA分子長度區帶分析之原理的示意性說明。

圖2A展示根據本發明之實施例的針對血漿DNA片段之長度的非整倍體染色體之經量測胎兒DNA含量。

圖2B展示根據本發明之實施例的包括來自整倍體及第21對染色體三體症胎兒之DNA的樣本的分子長度區帶的z評分。

圖3展示根據本發明之實施例的胎兒DNA含量為4%的不同個別妊娠中非整倍體染色體之經量測基因組表征(genomic representation；GR)之基於分子長度區帶之變化模式。

圖4A展示根據本發明之實施例的整倍體及第21對染色體三體症胎兒之妊娠之間的基於分子長度區帶之變化模式之熱圖繪圖。

圖4B展示根據本發明之實施例的整倍體及第21對染色體三體症胎兒之妊娠之間的基於分子長度區帶之變化模式之t-SNE (t-distributed stochastic neighbor embedding；t分佈隨機鄰域嵌入)繪圖。

圖4C展示根據本發明之實施例的整倍體及第21對染色體三體症胎兒之妊娠之間的使用習知z評分方法的z評分分佈。

圖5A及圖5B展示根據本發明之實施例的藉由學習不同分子長度區帶之中的z評分模式進行的基於神經網路模型之效能評估。

圖6展示根據本發明之實施例的在來自受試者之生物樣本中判定染色體區域是否展現拷貝數畸變的方法。

圖7展示根據本發明之實施例的肝細胞癌(HCC)患者之血漿DNA中之經量測甲基化的基於分子長度區帶之變化模式。

圖8展示根據本發明之實施例的在來自受試者之生物樣本中判定癌症分類的方法。

圖9展示根據本發明之實施例的肝細胞癌(HCC)患者之血漿DNA中之經量測拷貝數畸變的基於分子長度區帶之變化模式。

圖10說明根據本發明之實施例的用於癌症偵測之分子長度區帶化基因組呈現(size-banded genomic representation)(GR)方法的工作流程。

圖11A、圖11B及圖11C展示根據本發明之實施例的分子長度區帶化GR與習知z評分方法之間的比較。

圖12展示根據本發明之實施例的判定癌症分類之方法。

圖13說明根據本發明之實施例的用於癌症偵測之分子長度區帶化甲基化密度(MD)方法之工作流程。

圖14A、圖14B及圖14C展示根據本發明之實施例的分子長度區帶化MD與習知z評分方法之間的比較。

圖15說明根據本發明之實施例的系統。

圖16展示根據本發明之實施例的電腦系統。

Claims

一種判定來自受試者生物樣本中之染色體區域是否展現拷貝數畸變的方法，其中該生物樣本包括包含臨床上相關DNA分子及其他DNA分子的游離DNA分子之混合物，該方法包含：針對複數個長度範圍中之每一長度範圍：量測來自該生物樣本之對應於該長度範圍的游離DNA分子之第一量，及藉由電腦系統使用對應於該長度範圍的游離DNA分子之該第一量及第二個長度範圍中之DNA分子之第二量計算分子長度比值，該第二個長度範圍包括不在該長度範圍中之長度；取得包括該複數個長度範圍之複數個參考分子長度比值的參考長度模式，其中該參考長度模式係由來自在染色體區域中有拷貝數畸變之受試者或來自在染色體區域中無拷貝數畸變之受試者之複數個參考樣本判定；將複數個該等分子長度比值與該參考長度模式進行比較；基於該比較，判定該染色體區域是否展現拷貝數畸變。
如請求項1之方法，其中該等臨床上相關DNA分子包含胎兒DNA或母體DNA。
如請求項1之方法，其中該等臨床上相關DNA分子包含腫瘤DNA，而其他DNA分子包含非腫瘤DNA。
如請求項2之方法，其中該拷貝數畸變為非整倍性。
如請求項3之方法，其中該拷貝數畸變為癌症之徵兆。
如請求項1之方法，其中該複數個長度範圍中之每一長度範圍用區帶寬度表征。
如請求項6之方法，其中該區帶寬度係為50 bp至200 bp之範圍內。
如請求項1之方法，其中每一長度範圍不與該複數個長度範圍中之任何其他長度範圍重疊。
如請求項1之方法，其中每一長度範圍與該複數個長度範圍中之至少一個其他長度範圍重疊。
如請求項1之方法，其中該分子長度比值包括z評分。
如請求項1之方法，其中該第二個長度範圍為大於該複數個長度範圍中之每一長度範圍的範圍。
如請求項1之方法，其中該第二個長度範圍包含該生物樣本中之游離DNA分子之全部長度或該染色體區域中之游離DNA分子之全部長度。
如請求項1之方法，其中該游離DNA分子來自基因組區域。
如請求項13之方法，其中該基因組區域為染色體。
如請求項13之方法，其中該基因組區域為染色體臂。
如請求項1之方法，其中：將該等複數個分子長度比值與該參考長度模式進行比較，包括：在該對應長度範圍處將該複數個分子長度比值中之每一分子長度比值與該參考分子長度比值進行比較，在該對應長度範圍處判定每一分子長度比值在統計學上類似於該參考分子長度比值。
如請求項1之方法，其中：將該等複數個分子長度比值與該參考長度模式進行比較，包括：判定包括該複數個長度範圍之該複數個分子長度比值的長度模式；將該長度模式與該參考長度模式進行比較，判定該長度模式具有與該參考長度模式類似之形狀。
如請求項16之方法，其中：由來自有拷貝數畸變之受試者的該複數個參考樣本判定該參考長度模式，該方法進一步包括：依據該比較，判定該染色體區域展現拷貝數畸變。
如請求項1之方法，其中：取得該參考長度模式，及將該複數個分子長度比值與參考長度模式進行比較，其包括將該複數個分子長度比值輸入至機器學習模型中，及該機器學習模型係使用來自該複數個參考樣本之複數個訓練長度模式加以訓練。
如請求項1之方法，其中將該複數個分子長度比值與該參考長度模式進行比較，其包括將該複數個分子長度比值與由該複數個參考樣本判定之複數個臨限值進行比較。
一種判定來自受試者生物樣本中癌症分類的方法，其中該生物樣本包括包含腫瘤DNA分子及非腫瘤DNA分子的游離DNA分子之混合物，該方法包括：針對複數個長度範圍中之每一長度範圍：量測來自該生物樣本的對應於該長度範圍之甲基化游離DNA分子之第一量，及藉由電腦系統，使用對應於該長度範圍的甲基化游離DNA分子之該第一量及第二個長度範圍中之DNA分子之第二量計算甲基化程度，該第二個長度範圍包括不在該長度範圍中之長度；取得包括針對該複數個長度範圍之複數個參考甲基化程度的參考長度模式，其中該參考長度模式係由來自患有癌症之受試者或來自未患癌症之受試者的複數個參考樣本判定；將複數個該甲基化程度與該參考長度模式進行比較；及依據該比較，判定癌症之等級。
如請求項21之方法，其中該第二量為甲基化游離DNA分子之量。
如請求項21之方法，其中該甲基化游離DNA分子來自染色體臂。
如請求項21之方法，其中：將該複數個甲基化程度與該參考長度模式進行比較，包括：在該對應長度範圍處，將該複數個長度範圍之每一甲基化程度與該參考甲基化程度進行比較，在該對應長度範圍處，判定每一甲基化程度在統計學上類似於該參考甲基化程度。
如請求項21之方法，其中：將該複數個甲基化程度與該參考長度模式進行比較，包括：判定包括該複數個長度範圍之該複數個甲基化程度的長度模式；將該長度模式與該參考長度模式進行比較，判定該長度模式具有與該參考長度模式類似之形狀。
如請求項24所述之方法，其中：由來自患有癌症之受試者的該複數個參考樣本判定該參考長度模式，該方法進一步包括：判定該受試者患有癌症。
如請求項21之方法，其中該第一量之甲基化游離DNA分子來自基因組區域。
如請求項27所述之方法，其中該基因組區域為染色體臂，該染色體臂係選自由1p、1q、8p、8q、13q及14q組成之群。
如請求項21之方法，其中將該複數個甲基化程度與該參考長度模式進行比較，包括將該複數個甲基化程度與由該複數個參考樣本判定之複數個臨限值進行比較。
如請求項21之方法，其中：該複數個長度範圍包含M個長度範圍，量測甲基化游離DNA分子之該第一量，包括量測對應於該長度範圍及對應於N個基因組區域之每一基因組區域的甲基化游離DNA分子之該第一量，使用對應於該長度範圍且對應於該基因組區域的甲基化游離DNA之該第一量及該第二量計算該甲基化程度，產生N×M個甲基化程度之量測向量，其中N為大於或等於1之整數，且M為大於1之整數，該參考長度模式包括該N個基因組區域及該M個長度範圍之參考甲基化程度之參考向量，其中該參考長度模式係由來自患有癌症之受試者或來自未患癌症之受試者的複數個參考樣本判定，及將該複數個甲基化程度與該參考長度模式進行比較，包括將該量測向量與該參考向量進行比較。
一種判定來自受試者生物樣本中癌症分類的方法，其中該生物樣本包括包含腫瘤DNA分子及非腫瘤DNA分子的游離DNA分子之混合物，該方法包含：針對N個基因組區域中之每一基因組區域：針對M個長度範圍中之每一長度範圍：量測來自該生物樣本的對應於該長度範圍且對應於該基因組區域之游離DNA分子之第一量，及藉由電腦系統，使用對應於該長度範圍且對應於該基因組區域之游離DNA分子之該第一量及第二個長度範圍中之DNA分子之第二量來計算分子長度比值，藉此產生N×M個分子長度比值之量測向量，該第二個長度範圍包括不在該長度範圍中之長度，其中N為大於或等於1之整數，且M為大於1之整數；取得包括針對該N個基因組區域及該M個長度範圍之參考分子長度比值之參考向量的參考長度模式，其中該參考長度模式係由來自患有癌症之受試者或來自未患癌症之受試者的複數個參考樣本判定；將該量測向量與該參考向量進行比較；及依據該比較，判定癌症之等級。
如請求項31之方法，其中每一基因組區域為染色體臂。
如請求項31之方法，其中：該參考長度模式係使用機器學習模型判定，其中該機器學習模型包含至少一個選自由以下組成之群：支援向量機、決策樹、單純貝氏分類器(naive Bayes classification)、邏輯回歸、叢集演算法、主成分分析、奇異值分解、t分佈隨機鄰域嵌入(t-distributed stochastic neighbor embedding)及人工神經網路。
如請求項31之方法，其中將該量測向量與該參考向量進行比較，包括使用藉由包含經判定患有癌症之個體及經判定未患癌症之個體的不同基因組區域之分子長度比值的訓練向量之訓練集加以訓練的機器學習模型。
如請求項31之方法，其中該癌症包含肝細胞癌。
如請求項31之方法，其中該癌症之等級包含癌症之機率。
如請求項31之方法，其中：該參考長度模式之取得及該量測向量與該參考向量之比較包括使用機器學習模型，該機器學習模型係使用複數個參考長度模式加以訓練，將該量測向量與該參考向量進行比較，包括判定特徵在於該量測向量與該參考向量之類似性的閾值，及使用該閾值判定該癌症等級。
如請求項31之方法，其中將該量測向量與該參考向量進行比較，包括將該N×M個分子長度比值與自該複數個參考樣本判定之複數個臨限值進行比較。
一種電腦產品，其包含非暫時性電腦可讀媒體，該非暫時性電腦可讀媒體儲存複數個用於控制電腦系統執行如請求項1之操作的指令。
一種系統，其包含：如請求項之39該電腦產品；及一或多個處理器，其用於執行儲存於該非暫時性電腦可讀媒體上的指令。
一種系統，其包含用於執行上述任一方法之構件。
一種系統，其經組態以執行上述任一方法。
一種系統，其包含分別執行上述任一方法之步驟的模組。