WO2013097062A1

WO2013097062A1 - 一种遗传变异检测方法

Info

Publication number: WO2013097062A1
Application number: PCT/CN2011/002244
Authority: WO
Inventors: 陈盛培; 张春雷; 陈芳; 谢伟伟; 潘小瑜; 汪建; 王俊; 杨焕明; 张秀清
Original assignee: BGI HEALTH SERVICE Co Ltd
Current assignee: BGI HEALTH SERVICE Co Ltd
Priority date: 2011-12-31
Filing date: 2011-12-31
Publication date: 2013-07-04
Anticipated expiration: 2014-06-30
Also published as: HUE047193T2; EP2772549B8; CN104204220A; PL2772549T3; EP2772549A1; US20140370504A1; DK2772549T3; ES2741966T3; EP2772549B1; JP5993029B2; JP2015502749A; CN104204220B; EP2772549A4

Abstract

本发明公开了一种遗传变异检测方法，包括如下步骤：从测试样本获得测序序列；将所述测序序列与参考基因组序列进行比对；将所述参考基因组序列划分窗口，统计比对至各窗口的测序序列数目，基于所述测序序列数目得到各窗口的统计量；对于一段参考基因组序列，基于其上所有窗口的统计量在该段参考基因组序列上的变化，获得遗传变异位点。

Description

一种遗传变异检测方法技术领域

本发明涉 s t传变异检测领域，特别是拷贝数变异，例如微缺^ /微重复及非性的检测。背景技术

拷贝数变异 ( Copy number variation, CNV )是指 DNA片段范围从 kb到 Mb的亚微观突变，表现为拷贝数增加或减少。拷贝数变异和疾病之间关系的研究已经有很长的历史。对于一些胚系突变拷贝数变异（即父母均没有，胎儿由于自身变异而产生的拷贝数变异），有观点认为，片大，越容易发生先天异常，例如染色体非整倍性 ( aneuploidy )疾病（如 T21、 T18等）和染色缺失 /微重复综合征都是公认的胚系突变拷贝数变异相关疾病。

人类染色 ^1缺^/微重复综合征 (microdeletion/microduplication

syndromes)是由人类染色体上出现微小片段缺失或重复，即 DNA片段拷贝数变异，引起表型复杂多变的疾病类型，在围产儿和新生儿中发病率较高，可导致严重的疾病和异常，如先天性心脏病或心脏畸形、严重的生长发育迟緩、外貌或肢体畸形等。另外，微缺失综合征也是除唐氏综合征与 X染色体易损综合征外引起智力发育的主要原因之一 [Knight SJL (ed): Genetics of Mental Retardation. Monogr Hum Genet. Basel, Karger, 2010, vol 18， pp 101-113 (DOI: 10.1159/000287600)】。近年来，在出生缺陷发病率统计中排在首位的先天性心脏病以 L遗传咨询诊断门诊中排在前列的智力低下、脑瘫和先天性耳聋都与微缺失综合征有关。常见的微缺失综合征包括 22qll微缺失综合征、猫叫综合征、 Angelman综合征、 AZF缺失等。

尽管每种微缺失综合征发病率艮低，其中较常见的 22qll微缺失综合征、猫叫综合征、 Angelman综合征、 MiHer-Dieker综合征等发生率分别为 1:4000 (活产婴儿）、 1:50000、 1:10000、 1:12000, 但由于临床检测技术的限制，大量的微缺失综合征患者在产前筛查和产前诊断中无法检出，甚至在婴儿出生数月甚至数年后出现典型的临征后，回溯性的寻找原因时，也因检测技术的限制无法对病因进行确诊（https：〃 decipher.sanger.ac.uk/syndromes )。由于部分类型的微缺失综合征无法根治，在出生后数月或数年内去世，给社会和家庭带来沉重的精神和经济负担。据不完全统计，全球"快乐木偶综合征，，（Angdman 综合征）患者已达 1.5万名，其他类型的染色体微缺失综合征患者数量也在逐年增加。因此，孕前对临床疑似患者和有相关不良孕产史的父母进行染色体微缺失 /微重复检测，有利于提供遗传咨询和提供临床决策依据；在孕期进行早期产前诊断可有效防止患儿出生或为患供出生后的治疗方法提供依据

【Bretelle F, et al.Prenatal and postnatal diagnosis of 22qll.2 deletion

syndrome. Eur J Med Genet. 2010 Nov-Dec;53(6):367-70】。

然而，由于这类疾病的染色体变异水平微小而无法用常规的临床方法，例如染色 ¾型分析方法等（其^ ^率为 10M以上），检出 [Malcolm

S.Microdeletion and microduplication syndromes. Prenat Diagn. 1996

Dec;16(13):1213-9】。目前，针对微缺失 /微重复综合征的产前诊断主要采用有创胎儿羊水或者其他组织的方法进行分子诊断。目前，有创的分子诊断方法主要有高分辨率染色体核型分析、 FISH (荧光原位杂交）、 Array CGH (比较基因组杂交）、 MLPA (多重连接探针扩增技术）和 PCR的方法等。其中，遗传学诊断以 FISH检查为黄金标准，可以有 ^AM^r测出大部分染色体片段缺失。然而，由于有创取样需要一定的手术或者细胞培养，从时间效率和资源消耗的角度而言，适合充当诊断指标，而不适为一种普适临床筛查的方法。

在微缺失 /微重复综合征的无创筛查方法方面，也有一些尝试。例如，在 2011年 11月发表的一项无创胎儿微缺失综合症检测研究中，研究者对母亲孕期血浆进行了高深度测序，产生了大约 243百万条测序短序列（short reads )，检测出胎儿从 12pll.22到 12pl2.1的一个 4Mb左右的微缺^ iDavid Peters, et al.Noninvasive Prenatal Diagnosis of a Fetal Microdeletion Syndrome .N Engl J Med 2011; 365:1847-1848】。但是，产生如此大的数据量，无论从资源消耗，还是时间效率而言，都是不适合临床使用。

结合上述内容可知，目前对于染色缺微重复综合征的产前检查方法中，还没有可行的普适筛查方法。本领域中需要一种新的可信的胎儿拷贝数变异筛查方法，以对已知的位点进行鉴定，并对未知的位点进行发现性探索。发明内容

随着高通量测序技术的不断发展与测序成本的不断降低，测序技术在产前筛查方面的研究使得通过高通量测序进行染色体拷贝数变异和非整倍性等遗传变异，特别是胎儿非整倍性染色体变异歸查，分析得到了越来越广泛的应用。为了进行遗传变异检测，本发明设计了一种基于高通量测序技术进行遗传变异筛查的方法，该方法可使用拷贝数变异及非整倍性等遗传变异的检测，具有通量高、特异性高、定位准确的特点。本发明的方法包括获取测试样品并提取

DNA、进行高通量测序对获得的数据进行分析，得出检测结果。

本发明提供了一种遗传变异检测方法，其包括以下步骤：

1 )从测试样本获得测序序列，例如，所述测序序列片段长度可以为 25-100nt, 所述测序序列片段数目可以为至少 1百万条。

2 )将所述测序序列与参考基因组序列进行比对；

3 )将所述参考基因组序列划分窗口，统计比对至各窗口的测序序列数目，基于所述测序序列数目得到各窗口的统计量；

4 )对于一段参考基因组序列，基于其上所有窗口的统计量在该段参考基因组序列上的变化，获得两侧窗口的统计量发生显著性变化的位置，这些位置即为测试样本遗传变异位点在参考基因组序列上的位置。

在一个实施方案中，本发明方法中的所述遗传变异位点是所述统计量由递增变成递减的拐点与下一个同样的拐点之间的中位点，且两个遗传变异位点之间包括至少 50, 至少 70，至少 100，优选 100个窗口长度；上述位点、拐点、中位点是指统计量所对应的窗口所对应的染色体位置，可以用窗口的起点、中点、终点等任意位置来代表。

在具体一个实施方案中，本发明方法还进一步包括步骤：

5 )对遗传变异位点进行筛选，得到筛选后的遗传变异位点，

例如，上述步骤 5 )为：

对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列，统计所述两段序列包含的窗口的统计量组成的两个数值群体的差异，去除其差异显著性值最大且大于预设阈值的遗传变异位点；重复上述过程，直至所有遗传变异点的差异显著性值都小于预设阈值，

其中，所述差异显著性例如可以通过游程检验进行，去除游程检验显著性值最大且大于预设阈值的遗传变异位点；重复上述过程，直至所有遗传变异点的游程检验显著性值都小于预设阈值。

在一个实施方案中，上述步骤 5 ) 中使用的预设阈值可以通过以下步骤获得 ··

a )用对照样本代替测试样本，根据本发明的方法得到遗传变异位点； b )对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列，统计它们包含的窗口的统计量组成的两个数值群体的差异，去除所述差异最不显著的遗传变异位点；

C)重复上述步骤 b)，直至剩余候选突攻数等于预期值^， N_C = L T , 因组序列的长度，理论极 fW度 r是理论上能检测到的片段大小，当窗口大小均值为 W, 窗口滑动长度为 S，游程检验的每个群体窗口数为 N时，理论极限精 T=W+S*N，在所有剩余候选突破点的显著性值中，最小值为所述显著性阈值。

本发明还提供了一种遗传变异检测方法，包括步骤：

1 )根本发明的方法得到一段参考基因组序列上的遗传变异位点；

2 )将所 iiit传变异位点之间的片段进行置信选择的步骤。

在本发明的一个实施方案中，

上述步骤 2 )置信选择的步骤为：

i )通过窗口的统计量的分布模式，计算统计量的分布概率，并设定阈值； ii )将筛 it^的遗传变异位点之间的片段中窗口的统计量均值与所述阈值进行比较，通过比较结果确定遗传位点之间的片否异常。

在本发明的另一实施方案中，上述步骤 2 )置信选择的步猓为：

i )通过窗口的统计量的分布模式，计算统计量的分布概率， i殳定第一阈值和第二阈值；

ϋ )将筛选后的遗传变异位点之间的片段中窗口的统计量均值与所述第一阈值和第二阈值进行比较，

如果片段中窗口的统计量小于第一阈值，则该片段为片段缺失，如果大于第二阈值，则该片段为片段重复，

其中，所述第一阈值为统计量出现的累计概率在小于或等于 0.1处，优选在小于或等于 0.01处，最优选在 0.05处的统计量的值，并且 /或者所述第二阈值可以为统计量出现的累计概率为在大于或等于 0.9处，优^大于或等于 0.99 处，最优选在 0.95处的统计量的值。

本发明还提供了一种计算机可读介质，承栽一系列可其可执行本发明的遗传检测方法。

本发明还提供了一种胎儿遗传变异的检测方法，其包括一下步骤：获取含胎儿核酸的母 ^本；

对所述母^^¾行测序；

使用权利要求 1-16任一项所述方法检测遗传变异的步骤。

在本发明的一个实施方案中，所述母本为母体外周血。与目前的遗传变异检测的方法对比，本发明的优越性主要有一下几点：

( 1 )临床可行性：我们只使用 5M左右的测序数据，可检测出 5Mb左右的 CNV片段。而已报道方法则使用了接近 243M,我们的方法大大的减少了数据产生的成本和时间。

( 2 )可扩展性：除了通过增加测序量^卜，我们可以通过大对照组数量来增大精度，以减轻对起始 DNA量的压力。

( 3 )更稳定，更加全面：已报 if L章中，并无明确指出自身的操作细节，而本发明设计数据 W¾正，片段化奈件优选等的各个方面。附图说明

图 1为本发明一个实施例对染色体进行遗传变异分析的简要流程图。

图 2A为 S67的染色 «t字核型图。

图 2B为 S10的染色^字核型图。

图 2C为 S14的染色^字核型图。

图 2D为 S18的染色^字核型图。

图 2E为 S49的染色字核型图。

图 2F为 S55的染色字核型图。

图 2G为 S82的染色字核型图。

图 2H为 S103的染色«字核型图。具体实施方式实施例中表的说明：

表 1为实施例各样本 CNV结果列表；

表 2为实施例各样品的 aCGH与核型检测结果；

表 3为实施例的检测结果与标准核型检测结果。根据本发明的实施例，测试样本为含有核酸样本，核酸的类型并不受特别限制，可以是脱氧核糖核酸（DNA )，也可以是核糖核酸（R A )，优选 DNA。本领域技术人员可以理解，对于 RNA, 可以通过常规手段将其转换为具有相应序列的 DNA, 进行后续检测和分析。另外，测试样本的属性也不受特别限制。根据本发明的一些实施例，可以采用基因组 DNA样本，也可以釆用由基因组 DNA的一部分作为测本。根据本发明的实施例，测 ·¾ 本的来源并不受特别限制。根据本发明的示例，可以采用孕妇样本作为测试样本，从而可以从其中提取含有胎儿遗传信息的核酸样本，进而可以对胎儿的遗传信息和生理状态进行检测和分析。根据本发明的实施例，可以使用的孕妇样本的例子包括但不限于孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎11^核红细胞。发明人发现，通过对上述孕妇样本进行提取核酸样本，能够有效地对胎儿基因组中的遗传变异进行分析，实现对胎儿无损的产前诊断或检测。虽然本发明可以进行无创胎儿遗传变异检测是一种优势，例如所述样本是孕妇的外周血，但是本发明的方法也适用于有创检测，例如所述样本可以来自胎儿的脐带血；所述的组织可以是胎盘组织或绒毛膜组织；所述的细胞可以是未培养或培养过的羊水细胞、绒毛组细胞。在本发明中，待测受试者和正常受试者是同一物种。同时，本发明的变异检测并不一定用于疾病诊断或相关的目的，因为多态性的存在，一些相对参考基因组的变异存在并不代束着患病风险或健康状况，可以纯粹是遗传多态性科学研究的用途。

在本发明中，对照样本是相对测试样本而言的。例如在与疾病检测相关的方法中，对照样本是指正常样本。例如，在本发明的一个实施方案中，测试样本为母体外周血，相应的对照样本则为怀有正常胎儿的正常母亲的外周血。

根据本发明的实施例，从测试样本提取核酸样本的方法和设备，也不受特别限制，可以采用商品化的核酸提取试剂盒进行。

在本发明的方法中，所述窗口具有相同的参考唯一比对序列（reference unique reads )数目。参考唯一比对序列是指具有唯一序列的染色体片段，这种片段可以确定地定位于单一染色体位置，染色体的参考唯一比对序列可基于公开的染色体参考基因组序列例如 h_g18或 h_g19进行构建。获得参考唯一比对序列的过程，一般包括，将参考基因组切割为任意固定长度的序列，将这些序列比对回参考基因组，选择唯一比对到参考基因组的序列为参考唯一比对序列。所述固定长度依测序仪的测序结果序列长度而定，具体可参考平均长度。不同测序仪得到的测序结果长度是不同的，具体每一次测序，测序结果的长度也可能不同，该长度的选取存在一定主经验因素。

本发明的一个实施例中，参考唯一比对序列长度选择是根据测序结果的实际序列长度进行，例如 25-100bp，对于 illumina/Solexa系统，例如可选 50bp，则每个窗口含有的参考唯一比对序列数目控制在 80万 -90万。在本发明的方法中，所述窗口之间可以有重叠或无重叠。本发明的一个实施例中，相邻窗口之间距离 lkb-100kb, 优选 5kb-20kb，更优选 10kb。这一距离可根据样本中胎儿 DNA的丰度进行调整。调整的原理是每一个窗口对应一个统计量及一个染色体位置，也就意味着窗口的距离决定了检测的精度。精;^高，母体来源的背景也越高，越不容易区分遗传变异的来源。

在本发明的方法中，所述统计量可以是测序序列数目本身，但优选经过误差校正 (例如 GC校正 )和 /或数据标准化的统计量，目的是统计量满足统计学的常见分布，例如正态或标准正态分布。便于对统计量进行后续的统计分析。在本发明的一个实施例中，是相对所有窗口的平均测序序列数目进行标准化处理。在本发明的一个实施例中，标准化包括下文求 Z值的过程。在一个实施方案中，所计量是对比对至窗口的测序序列数目进行标准化处理得到的近似符合正态分布的统计量。在一个实施方案中，所述标准化是基于比对至所有窗口的平均测序序列数目。在一个实施方案中，所述统计量是近似符合标准正态分布的统计量。

在本发明中，测序序列是指测序仪输出的序列片段，即 reads, 优选约 25-100nt。

在本发明中，所述 DNA分子的获取可以采用盐析法、柱层析法、法、 SDS法等常规 DNA提取方法，优选采用磁珠法。所谓的磁珠法，是指血液、组织或细胞经过细胞裂解液和蛋白酶 K的作用后得到棵露的 DNA分子，利用特异性的磁¾^ DNA分子进行可逆性的亲和吸附，经漂洗液清洗除去蛋白质、脂质等杂质后，用纯化液将 DNA分子 υ¾珠上来。是本领域中公知的，可市购获得，例如从 Tiangen.

在本发明中，一般情况下，对于获自样品的 DNA 直接进行测序和后续步棟已经可以实现本发明的目的，提取的 DNA可以不需经过处理即用于后续步骤。在一些优选实施方案中，可以仅对电泳主带集中在 50-700 bp, 优选 100- 500bp, 更优选 150"300bp，特别是约 200bp大小的片段进行研究。本发明一些更优选实施方案中，可以将 DNA分子打断为电泳主带集中在一定大小的片段，例如 50-700 bp，优选 100- 500bp, 更优选 150~300bp，特别是 200bp 附近，然后进行后续步骤。所述 DNA分子的随机打断处理可以釆用酶切、雾化、超声、或者 HydroShear法。优选地，采用超声法，例如 Covaris公司的 S-series (基于 AFA技术，当由传感器 ^的声能通过 DNA样品时，溶解气体形成气泡。当能量移除后，气泡破裂并产生断裂 DNA分子的能力。通过设置一定的能量强度和时间间隔等条件，可将 DNA分子打断至一定范围的大小。例如，具体原理和方法可以参见 Covaris公司的 S-series说明书）。在本发明中，所述的突破点或候选突破点 ( breakpoint )，是潜在或存在的遗传变异位点，按照惯例，该位点表现为参考基因组上的位置。本发明中，遗传变异位点与突破点两个概念之间在特定情况下是可相互转换的，仅仅是表述上的不同，在不同的阶段都可能用以表示潜在在或确定存在的遗传变异在参考基因组上位置坐标。

本发明中，从测试样本获得测序序列可以采用测序的方法进行，所述测序可通过任何测序方法进行，包括但不限于双脱氧链终止法；优选高通量的测序方法，包括但不限于第二代测序技术或者是单分子测序技术。

所述第二代测序平台 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet.2010 Jan;ll(l):31-46 )包括但不限于 Illumina-Solexa ( GATM，HiSeq2000TM等）、 ABI-Solid和 Roche-454 (焦磷酸测序）测序平台；单^ "测序平台（技术）包括但不限于 Helicos公司的真实单测序技术 ( TVue Single Molecule DNA sequencing )， Pacific Biosciences公司单^ 实时测序（ single molecule real-time (SMRTTM) )，以及 Oxford Nanopore Technologies公司的纳米孔测序技术等 ( Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446 (4 ).

测序类型可以为 single-end (单向）测序和 Pair-end (双向）测序，测序长度可以为 50bp、 90bp、或 100bp。在本发明的一个实施方案中，所述的测序平台为 Illumina/Solexa, 测序类型为 Pair-end测序，得到具有双向位置关系的 100bp大小的 DNA序列分子。

本发明的一个实施方案中，测序的测序深度可以依据检测的胎儿染色体变异片段大小确定，测序深^^高，检测的灵^ Ml高，即可检出的缺失和重复的片■ ^小。测序深度可以是卜 30 X，即总数据量为人类基因组长度的 30 倍，例如在本发明的一个实施方案中，测序深度为 0. 1 X，即 2倍（ 2. 5 X 10⁸bp )。

当待测的 DNA分子来自多个受试样本时，每个样本可以被加上不同的标签序列，以用于在测序过程中进行样品的区分 (Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers

forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008， March, Vol.5 No.3)，从而实现同时对多个样品进行测序。标签序列为了区分不同序列，但不影响添加标签序列的 DM分子的其他功能。标签序列长度可以是 4-12bp。本发明的一个实施例中，所述的人类基因组参考序列是 NCBI数据库中的人类基因组参考序列。在本发明的一个实施方案中，所 ¾ 类基因组序列是 NCBI数据库中 ( hgl8; NCBI Build 36 )的人类基因组参考序列。

在本发明中，所述比对可以是不容错比对，也可以是错配 1个碱基的比对。序列比对可以通过 —种序列比对程序，例如本领域技术人员可获得的短寡核苷酸分析包（ Short Oligonucleotide Analysis Package， SOAP )和 BWA比对 ( Burrows-Wheeler Aligner )进行，将测序序列与参考基因组序列比对，得到测序序列在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行，或者由本领域技术人员根据需要对#^¾：进行选择。在本发明的一个实施方案中，所采用的比对软件是 SOAPaligner/soap2。

本发明中，所述软件算法是一种由深圳华^因研究院开发针对胎儿拷贝数变异检测的一系列程序，统称为 FCAPS。它能够通过新一代测序技术产生的数据，将受¾ 本和对照集合进行数据校正、标准化和片段化，估算出胎儿拷贝数变异的程度和大小。

在本发明的方法的一些具体实施方案中，对于步骤 1 )从测试样本获得测序序列：根据 Tiangen DP327-02 Kit操作手册从测试样本和对照样本提取血浆 DNA后，按照修改过的 Illumina/Solexa标准建库流程进行建库。关于构建全基因组测序的细节，可以参见测序仪器的厂商例如 Illumina公司所提供的规程，例如参见 Illumina 公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part#1005063; Feb 2010 )，通过参照将其并入本文。在这个过程中，本身集中于 200bp的 DNA 分子两端被加上测序所用接头，每个样本被加上不同的标签序列，从而在一次测序得到的数据中可以使多个样本得数据区分开，利用第二代测序方法 IUumina/Solexa测序（用其它测序方法如 ABI/SOLiD能达到相同或相近的效果)，每个样^ 到一定大小片段的测序序列。

在本发明的方法的一些具体实施方案中，对于步骤 2 )比对：将本发明方法步骤 1 )测序序列与 NCBI数据库中的标准人类基因组参考序列进行 SOAP2 比对，得到所测序 DNA序列在基因组上的位置信息。为避免重复序列对 C V 分析的干扰，只选取与人类基因组参考序列唯一比对的测序序列（reads )，进行后续分析。

在本发明的方法的一些具体实施方案中，对于步骤 3 )划分窗口并获得窗口的统计量包括步骤： a )对于测试样本和对照样本，在基因组参考序列上开长度为 w的窗口，计算每个窗口的 GC含量并计算落在每个窗口上的相对测序序列片段数； b ) 数进行 ¾i并标准化。

在在本发明的方法的一些具体实施方案中，对测试样本基于对照样本集进行 GC校正：因为测序批次间 /内存在一定的 GC偏向性， ^fit^因组中高 GC 或低 GC区域出现拷贝数偏差，对测序数据基于对照样本集进行 GC ¾Jt得到每个窗口中校正后的相对测序序列数，可以去除此偏向性，提高拷贝数变异检测的精度。对每个窗口中校正后的相对测序序列数进行标准化：用怀孕母亲血浆检测胎儿的拷贝数变异，由于母亲 DNA背景的影响，胎儿的变异较难凸显出来，所以要通过标准化，来降低母亲 DNA背景噪音，放大胎儿中拷贝数变异信号。在本发明的一个实施方案中，所述 GC校正包括步骤： a )用对照样本代替测试样本，依照本发明的方法得到比对至各窗口的测序序列并计算各窗口的相对测序序列数目； b )得到比对至各窗口的测序序列的 GC含量与所述窗口的相对测序序列数目的函数关系； c )对于每个窗口，利用测试样本比对到该窗口内的测序序列的 GC >^*和上述函数关系，对测试样本的该窗口的相对测序序列数目进行校正，得到该窗口的校正的相对测序序列数目。

在本发明的方法的一些具体实施方案中，对于步骤 3 )划分窗口并获得窗口的统计量包括步骤：

a ) 计算测试样本和对照样本的相对测序序列数：对于测¾ 本和对照样本，在人类基因组参考序列上开长度为 w的窗口，统计本发明方法步骤 2 ) 中落在每个窗口上的测序序列数，其中下标/和_/ 分别代表窗口编号和样本编号，并计算每个窗口的 GC含量 σ ，计算相对测序序列数 i?,，_; = i₀g₂f^^，其中平均测序序列数 F; =丄；，

n b )数据^ £和标准化： ①在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中，将对照样本的和 GC 线性拟合，得斜率《,和截距 6,， ②对于测试样本的每个窗口，计算校正的相对测序序列数

R , = a x GC , +b, ,

③对于测试样本的每个窗口，计算统计量^：

Z_t = R ― ― mearij )/SD_j , 其中 meartj =丄 ^( ― )，

在本发明的方法的一些具体实施方案中，对于对于步骤 4 ) 中得到测试样本遗传变异位点在参考基因组序列上的位置通过以下步驟进行：

①初始化：针对每个窗口的端点，如果在该点前后窗口的统计量 Ζ变化趋势发生改变，且该点与上一个前后窗口的统计量 Ζ变化趋势发生改变的点之间距离至少 η个窗口（η为整数 10-500, 优选 50-300，例如 100 ) ，则该点为候选突破点 ( Breakpoint )，比如前后窗口的统计量 Z由递增变成递减的那个拐点与下一个同样的拐点之间的中点为候选突破点，或者前后窗口的统计量 Z由递减变成递增的那个拐点与下一个同样的拐点之间的中点为候选突破点 b_k (k=l,2, .....，s， s为 X)的整数)；

②最优迭代：为了研究一列的拷贝数变异或非性，将该段基因^ ^列的所有排的候选突破点记为 = {W..，W，每个候选突破点都存在左右面两个片段，所述片段即上一个突破点到该突攻、的区域以及该突破点到下一个突攻、的区域，将这两个片段中所有窗口的 ^进行检验（例如，进行游程检验种非参数检验，利用两个群体元素混合后的分布均匀状态此两个群体的差异显著性）所得的 p值（ )，视作作为突、的显著性"，将/ ^最大的候选突破点剔除，反复此步骤，直到所有 p值都小于该基因组序列的终止值 _Pf'„_al )；

③终止 p值的获得: 在测试过程中，将以另一对照样本作为测试样本进行上述步驟 a)至 c)①，对于一因^列，将该因列的所有排的候选突破点记为 B_c = {b_x , b₂ , ..., b_s } , 每个候选突破点都存在左右面两个窗口，将这两个窗口中所有 Ζ, ,进行游程检验所得的？值 ( p_k ) , 视作作为突破点的显著性"，将; ^最大的候选突破点剔除，合并其左右两个窗口，直到候选突破点数等于预期值 N_r ( N_c = LJT，因列 c的长度， T (理论极 PMt 度）是理论上能检测到的片段大小，当窗口大小为 W, 窗口滑动长度为 S，游验的每个 ^个数为 N时，理论极 iW

)，在该候选突攻、集合中，最小 p值为该基因组序列的终止值 )。

在本发明的方法的一些具体实施方案中，将所述遗传变异位点之间的片段进行置信选择的步骤为：对于在参考基因^^列上遗传变异位点之间的片段，计算该片段中 z ^l、J的平均值，记为 Z，如果片段的 Z小于 -1.28, 则该片段为片段缺失，如果大于 1.28，则该片段为片段重复。

在本发明中，游^ r验是一种非参数检验，根据两个 >¾ ^后，两个群体中元素的分布均匀情况得到评价这两个^^的显著性 P值。可参考：

http://support.sas.com/kb/33/092.htmlo

在本发明中，以对照样本作为测试样本进行试验时，由于实际中测序或实验会引起全基因中不同片 ·¾_ίι比对至的测序片段数存在差异，所以进^^验过程中，这些差异就会被区分出来，只是突破点两端的片段还达不到变异水平而已。因为在检验开始时，候选突破点并不能将这些差异較著的区分开，所以要定义一个 N值，保证当突破点数为 N值是，实验可以较好的区分这些差异，那么在用此得到的阈值去检测测试样本时就可以更精确。

在本发明中，对于 Z值阈值的确定：将对照样本按照步骤 a )和 b )统计，则每个窗口中 Z值符合正态分布， -1.28和 1.28分别是该正态分布中累计概率 0.05和 0.95的分位点。虽然，本领域技术人员»需要，也可以选取 Z值为绝对值更大和更小的值，分别对应正态分布中累计概率更大和更小；但是， -1.28 和 1.28是发明人针对本发明通过大量实验确立的最优选的阈值，在该两个值之外绝对值更大的阈值会增加检测结果中的假阴 /假阳性率。

本发明方法的一种应用中，例如对适用人群进行无创胎儿 CNV筛查，有利于提供遗传咨询和提供临床决策依据；进行产前诊断可有效防止患儿出生。本发明适用可以是所有孕妇，适用人群举例仅用于说明本发明，而不应为限定本发明的范围。下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。

实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。以下括号内为各个试剂或试剂盒的厂家货号。所使用的测序用的接头和标签序列来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit：。

实施例一、对 1例孕妇血浆进行胎儿大片段拷贝数变异检测，和对 9例孕妇血浆进行胎儿非^ ^性变异检测

1. DNA提取：

按照 TiangenDP327-02Kit操作流程提取上述 8例血浆样品（样品编号见表 1 )的 DNA, 所提取 DNA按照修改后的 Illumina/Solexa标准建库流程进行建库，在主带集中于 200bp的 DNA分子两端被加上测序所用接头，每个样本被加上不同的标签序列，然后与 flowcell表面互补接头杂交。通过 flowed 1表面连接有一层单链引物， DNA片段变成单通过与芯片表面的引物5½互补被一端 "固定"在芯片上；另外一端（5，或 3， )随 ^附近的另外一个引物互补， ^ "固定"住，形成 "桥 (bridge) " , 反复 30轮扩增，每个单分子得到了约 1000倍扩增，成为单克隆 DM簇。然后在

IlluminaHiseq2000上通过双末端测序，得到长度为约 50bp的 DNA片列。

具体而言，将获自上述血浆样品的约 10ng的 DNA，进行修改后的

Illumina/Solexa标准流程建库，具体流程参照产品说明书

( http：〃 www.illumina.com/提供的 Illumina/Solexa标准建库说明书）。经 2100Bioanalyzer (Agilent)确定 DNA文库大小及插入片段为约 200bp, QPCR 精确定量后可上机测序。

2.测序：本实施例中，对于获自上述 10 例血浆的 DNA 样本按照 Illumina/Solexa官方公布的 ClusterStation和 Hiseq2000 ( PEsequencin )说明书进行操作，使每个样品得到约 0.36G数据量进行上机测序，每个样本根据所述标签序列区分。利用比对软件 SOAP2 (获自 soap.genomics.org.cn ) , 将测序所得 DNA序列与 NCBI数据库中 ^ 36 ( hgl8; NCBIBuild36 )的人类基因组参考序列进行不容错比对，得到所测序 DNA序列在所述基因组上的定位。

3.数据分析

a )对测试样本计算相对测序序列数：参考唯一比对序列长度选 50bp，统计参考唯一比对序列的数目，将人类基因组参考序列上划分为具有相同参考唯一比对序列数目（84万）的窗口，所有窗口大小均值为 1Mb，相邻窗口距离为 S=10kb。统计上述步糠 2中落在每个窗口上的实际测序序列数，其中下标和分别代表窗口编号和样本编号，并计算每个窗口的 GC含量 GC ，计算相对测序序列数 = ¾/",,；

b )数据校正和标准化：

①在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中，将对照样本的 _GC, 线性拟合，得斜率《,和截距 6, ,

②对于测试样本的每个窗口，计算校正的相对测序序列数

R, , =a, xGC, , +h，

③对于测试样本的每个窗口，计算标准化的相对测序序列数 z, ：

Z_t j _y ~ Rj j - j -Λ_ζ·

j， \Ι;^ — iί i=i - -画" ,

c)合并窗口

①初始化:将参考基因组序列上每个窗口的起点位置记录为统计量 Z的位置。则对应参考基因组上的染色体位置， Z值有一个变化趋势。找到 Z值拐点 (即 Z值从增加趋势转化为减少趋势，或者从减少趋势变化为增加趋势的临界点）所对应的位置。对于任一染色体，从第一个窗口的起点开始，再依次选取选:^巨离至少为 100个窗口的位置，这些位置记为为候选突破点 b_k(k=l»2， .....，s, s为 X)的整数） ( Breakpoint )；

②最优迭代：为了研究基因组任意一条染色体的拷贝数变异分析或非整倍性（本实施例仅研究 1-22号人染色体），将每条染色体的所有排过序的候选突破点记为 = 每个候选突破点都存在左右面两个片段，所述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域，将这两个片段中所有 z,进行游验，所得的 p值（_Pt )，视作作为突破点的显著性"，将^最大的候选突破点剔除，反复此步骤，直到所有 P值都小于该染色体的终止值（ p )；

③终止 p值的获得：在测试过程中，将以对照样本作为测试样本进行上述步骤 a)至 c)①，对于染色体 c，将第 c条染色体的所有排过序的候选突破点记为 = ..，W，每个候选突^ 都存在左右面两个窗口，将这两个窗口中所有 ^进行游程检验所得的 ;值（ _Α )，视作" 作为突破点的显著性"，将最不显著的候选突、剔除，直到候选突破点数等于预期值^ ( N_C = L T , 是染色体长度，理论极限精度 r=2Mb )，在该候选突破点集合中，最小 p值为该染色体的终止 p值（ p_rmal )，见下表；

实施例中使用的相关数值

d )合并窗口后的片段过滤：为了进一步对合并窗口后获得的片段进行过滤，计算该片段中的平均值，记为 Ζ，如果片段的 Ζ小于 -1.28或者大于 1.28, 则该片段为拷贝数变异。结果 J½ l。 4 )结果可视化，见图 2。表 1. 实施例^ 品0\¥结果列表

以下将本发明 CNV分析结果与 CGH芯片结果比较，比较结果如下表 2所示。 CGH 芯片结果使用 Human Genome CGH Microarray Kit, ( Agilent Technologies Inc. )

依照提供商的方案获得，步骤简述如下：

釆用与待测标 ^目同性别的^ DNA或男，女^ ^i¾^ DNA作为参照 DNA利用 Cy3， Cy5荧光素分别对参照 DNA和待测 DNA进行标记，然后与探针进行杂交，如果待测 DNA与参照 DNA荧光强度之比为 1，则可以理解为待测 DNA与参照 DNA量相等，如果比率不等于 1，则表明待测 DNA有缺失或扩增。各种不同类型 Array CGH的分辨率取决于微阵列上探针的间距和长度。流程：收集 G显带染色体检查后剩余的细胞培养液，提取待测标本和对照标本的基因组 DNA。纯化对待测样本和参照样行不同的荧光标记，然后将标本与阻断非特异杂交的 Cot-IDNA混合，变性，预退火，与微阵列杂交，最列^ 上的两种信号的荧光强度比值，反映待测标本基因组 DNA与参照标本基因组 DNA在相应序列或基因上的拷贝数变化。

表 2. 本发明实施例的检测结果与 CGH芯片结果的比较

以下将本发明 CNV分析结果与标准核型分析结果比较，比较结果如下表 3所示。标准核型分析步猓如下：

(1)将穿刺所得羊水离心 5分钟（转速 800~1000转 /分），而后在接种罩内进行接种。先吸出上清液留送其查，剩 0.5ml羊水及沉淀的羊水细胞于离心管内，打匀沉淀的胎儿脱落细羊膜细胞成为细胞悬液，接种入三个盛有培养液的培养瓶内。

( 2 )将培养 « ^二氧培养箱。

(3)接种 5~7A^，羊水内有活力的细胞就贴附在，并开始生长，可用倒装显微镜（inverted microscope)观察细胞生长情况。如已经贴壁，可更换培养液，加入 3 ~ 5ml新鲜培养液，以后每 2 ~3天换液一次。贴壁的细胞有上皮样细胞，成纤维样细胞及羊水细胞，这是一种形态界于上皮样细胞和成纤维细胞之间的细胞，上述三种细胞都形成克隆，如果生长状态良好，接种 11 ~ 14天后，瓶底可有十多个大片克隆，肉眼也可看出瓶底上呈絮片状的克隆，细 ^^大而圓。此时可准备制片或称 ( harvest)。》J^^—天，应更换新鲜培养液，以增加核分裂。

(4)收获：平均在培养后 14 ~ 20天收获，在培养瓶内加入秋水仙素

(Colchicine )0.04毫微克 /毫升，使细胞停止在分目中期，培养 5 ~ 15小时，在倒置显微镜下可艮多分裂相细胞核，细胞圆而大，明亮如一片明珠，相互联接。加秋水仙素的量，各实验室可不同。

(5)消化（trypsinize)将培养瓶内的培养液倒入离心管内，在培养 « i^0.02%EDTA胰晦消化液 0.5ml或 0.15%蛋白醉 (Pronase) 0.5ml, 用玻璃长弯吸管轻轻吹打瓶底之细胞克隆，倒装显微镜下见克隆细胞已经飘浮，吸入离心管，再用 Hank氏液 0.5 ~ lml冲洗并用长吸管继续吹打尚未飘浮之细胞，使其完全脱落后，倒入离心管内。离心 5^ ， ^800~1000转/分，吸去清液，细胞备用。

(6)低渗：上述离心管及细胞内轻^ p入 37'C的 0.075MKC1液 4ml，用手指轻弹管底或用尖吸管轻轻开沉淀之细胞，置 37'C水浴内 16 ^ (各实验室可根据自己经验高速低渗时间），离心 5分钟，吸去上清液，沿管壁轻轻滴入新鲜置之固定液（曱醇：冰醋酸 =3: 1) ，轻轻有指头拍管底，使细胞均匀分开，固定 15分钟后离心，更换固定液，第二次固定 30分钟后过液。

(7)吹片：离心吸去上清液，留 0.5ml制成细胞悬液，或吸净上清液，加入 0.5ml新配的固定液，用细璃管小心吹拍后吸出一滴，滴在水中取出来的玻璃片上，轻轻吹开，玻片置空气中干燥后，在显微镜下看染色体分散情况，再继续吹片。干燥的玻片可直接用 Giemsa染色。

(8)分带：如果染色体形态良好可做 Giemsa带简称 G带。先将玻片在 65。C下烤 1小时，或在 37°C下烤 24小时，在室温下将玻片放入 0.25%胰酵液 20 ~ 25秒，过两理盐水，；¾^ 2%Giemsa液内 5 ~ 10 ^t⁷, 取出用流水冲洗，空气干，即可在显微镜下看染色体，作核型分析。表 3. 本实施例的检测结果与标准核型检测结果比较

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

权利要求书

1、一种遗传变异检测方法，其包括以下步骤：

1 )从测试样本获得测序序列；

2 )将所述测序序列与参考基因组序列进行比对；

2、权利要求 1的方法，进一步包括步骤：

5 )对遗传变异位点进行筛选，得到筛选后的遗传变异位点。

3、权利要求 1或 2的方法，其中所述测序序列片段长度为 25-100nt, 优选 35-100nt。

4、权利要求 1或 2的方法，其中所述测序序列片段数目为至少 1百万条。

5、权利要求 1或 2的方法，所述窗口具有相同的参考唯一比对序列数目 ( reference unique reads )。

6、权利要求 1或 2的方法，所述窗口之间有重叠或无重叠。

7、权利要求 1或 2的方法，所述统计量是对比对至窗口的测序序列数目进行标准化处理得到的近似符合正态分布的统计量。

8、权利要求 7的方法，所述标准化是基于比对至所有窗口的平均测序序列数目。

9、权利要求 1或 2的方法，所述遗传变异位点是所述统计量由递增变成递减的拐点与下一个同样的拐点之间的中位点，且两个遗传变异位点之间包括至少 50, 至少 70, 至少 100，优选 100个窗口长度。

10、权利要求 2的方法，所述步骤 5 )为：

对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列，统计所述两段序列包含的窗口的统计量组成的两个数值群体的差异，去除其差异显著性值最大且大于预设阁值的遗传变异位点；重复上述过程，直至所有遗传变异点的差异显著性值都小于预设阈值。

11、权利要求 10的方法，所述差异显著性通过游程检验进行，去除游程检验显著性值最大且大于预设阈值的遗传变异位点；重复上述过程，直至所有遗传变异点的游程检验显著性值都小于预设阈值。

12、权利要求 10或 11的方法，通过以下步驟获得所述预设阈值：

a )用对照样本代替测试样本，根据权利要求 1的方法得到遗传变异位点， b )对于每个遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列，统计它们包含的窗口的统计量组成的两个数值群体的差异，去除所述差异最不显著的遗传变异位点；

C)重复上述步骤 b)，直至剩余候选突破点数等于预期值^ , N_C = L T , 因组序列的长度，理论极 1¾#度是理论上能检测到的片段大小，当窗口大小均值为 W, 窗口滑动长度为 S, 游程检验的每个群体窗口数为 N时，理论极限精 > T=W+S*N，在所有剩余候选突破点的显著性值中，最小值为所述显著性阈值。

13、一种遗传变异检测方法，包括步骤：

1 )根据权利要求 1-10任一项的方法得到一段参考基因组序列上的遗传变异位点；

2 )将所^ f传变异位点之间的片段进行置信选择的步驟。

14、权利要求 13的方法，所述步骤 2 )是：

i )通过窗口的统计量的分布模式，计算统计量的分布概率，并设定阈值； ii )将筛的遗传变异位点之间的片段中窗口的统计量均值与所述阈值进行比较，通过比较结果确定遗传位点之间的片否异常。

15、权利要求 14的方法，所述步骤 2 )是：

i )通过窗口的统计量的分布模式，计算统计量的分布概率， ^殳定第一阈值和第二阁值；

ii )将筛^的遗传变异位点之间的片段中窗口的统计量均值与所述第一阈值和第二阈值进行比较，

如果片段中窗口的统计量小于第一阈值，则该片段为片段缺失，如果大于第二阈值，则该片段为片段重复。

16、权利要求 15的方法，所述第一阈值为累计概率为 0.05处的统计量的值，并 JL/或者所述第二阈值为累计概率为 0.95处的统计量的值。

17 —种计算机可读介质，承载一系列可执行代码，其可执行如权利要求 1-16任一项所述的方法。

18、一种胎儿遗传变异的检测方法，其包括：获取含胎儿核酸的母本；

对所述母 ^¾行测序；

使用权利要求 1-16任一项所述方法检测遗传变异的步骤。

19、权利要求 18的方法，所述母体样本为母体外周血。