WO2021026828A1

WO2021026828A1 - 确定孕妇血液中胎儿核酸浓度的方法及设备

Info

Publication number: WO2021026828A1
Application number: PCT/CN2019/100629
Authority: WO
Inventors: 陈若言; 金鑫; 鞠佳; 刘斯洋
Original assignee: BGI Genomics Co Ltd
Current assignee: BGI Genomics Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2021-02-18
Anticipated expiration: 2022-02-14
Also published as: ES2942363T3; SA521431156B1; MY205773A; PL3916105T3; EP3916105A1; EP3916105A4; DK3916105T3; EP3916105B1; CN113874523A; CN113874523B; IL289007A; HUE061561T2

Abstract

一种确定孕妇血液中胎儿核酸浓度的方法及设备。该方法包括：(1)基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，该测序数据来自于该孕妇血液的核酸样本；(2)利用连锁不平衡关系，基于参考数据，对该第一基因型信息进行校正，以便获得第二基因型信息；以及(3)基于该第一基因型信息和该第二基因型信息的差异，确定该胎儿核酸浓度。

Description

确定孕妇血液中胎儿核酸浓度的方法及设备

技术领域

本发明涉及基因检测领域，具体涉及一种确定孕妇血液中胎儿核酸浓度的方法及设备。

背景技术

自1997年发现孕妇血浆中存在胎儿游离DNA以来，通过提取孕妇血浆游离DNA以(cfDNA)获取胎儿DNA信息的无创产前诊断技术(noninvasive prenatal testing，NIPT)便取得长足的发展。孕妇血浆cfDNA中的胎儿cfDNA浓度不仅被证实随着采血孕周的增加而提高，且在不同孕妇体内也存在差异性。对孕妇血浆cfDNA中胎儿浓度的准确估算不仅有助于提高NIPT技术的准确性，同时也有助于研究其对多种孕期并发症和孕妇表型的影响。

多个机构都曾相继提出通过不同数据和不同方法来推算胎儿浓度的方法。这些方法可以归纳为六类：1)Y染色体深度计算法，其基于血浆中来源于孕妇的cfDNA测序reads无法比对上人类参考基因组的Y染色体非同源区，因此可以唯一比对上Y染色体非同源区的reads均来自于男性胎儿的cfDNA，由此原理计算胎儿的核酸浓度；2)捕获测序数据辅助的单核苷酸多态位点(SNP)计算法，其利用基因组中父亲和母亲分别为不同碱基型的纯合位点结合孕妇血浆的reads深度信息，计算胎儿的核酸浓度；3)测序reads深度分布计算法，该方法将基因组切分为例如50kb的窗口，计算每个窗口内孕妇血浆cfDNA的reads总数以及短片段reads比例，并将计算所得结果作为输入数据建立回归模型，以Y染色体深度计算所得胎儿浓度作为真集，利用超大样本量数据进行模型拟合，然后使用此模型完成胎儿浓度的检测；4)甲基化数据辅助计算法，该方法基于不同个体及同一个体的不同组织来源DNA的甲基化情况存在差异进行计算；5)cfDNA片段长度计算法，该方法基于已知孕妇血浆中胎儿游离DNA片段长度平均在147～167bp左右，而孕妇游离DNA长度分布一般在167～187bp左右，通过计算孕妇体内段片段cfDNA的比例碱基估算出胎儿cfDNA的浓度；6)核小体排列计算法，该方法基于降解程度不同，孕妇和胎儿cfDNA的片段长度分布有所差异，利用这种差异大小估算胎儿cfDNA的浓度。这六类方法中，只有1)，3)和6)仅依靠NIPT数据即可计算胎儿浓度，而这其中1)只限于男性胎儿的计算，3)和6)则仅可用于较高深度的NIPT数据的计算。

目前尚无任何一种方法可以基于超低深度的NIPT数据来无差别计算男性及女性胎儿的cfDNA浓度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种确定孕妇血液中胎儿核酸浓度的方法及设备。

发明人在长期的研究过程中发现：

已有的胎儿核酸浓度的计算方法，在测定孕妇血液中胎儿核酸浓度时，除了孕妇血浆NIPT数据之外，多数需要其他类型数据进行辅助。其中，1)捕获测序数据辅助的单核苷酸多态位点(SNP)计算法需要利用父母捕获测序数据或高深度cfDNA测序数据作为辅助，在额外获取父亲及母亲(或至少母亲)的准确基因型的基础上才可以完成胎儿浓度的计算；2)甲基化数据辅助计算法则需要额外获取父亲及母亲的甲基化数据才能实现胎儿浓度的计算。这些方法对不同类型辅助数据的需求，一方面增加了取样的难度(如需要另外获取父亲的血样)，另一方面也增加了分析所需的成本。

而仅需要孕妇血浆NIPT数据的方法则均对NIPT数据类型及测序深度有额外的需求。其中，1)cfDNA 片段长度计算法因为需要准确估算cfDNA片段长度，因而只能使用双端测序法(paired-end，PE)；2)核小体排列计算法因需要利用核小体单元内reads的深度差异，因而对NIPT测序深度有一定要求，无法仅使用现在NIPT检测中较常见的约0.1x深度的数据。

其余两个不需要额外使用其他类型数据作为辅助、同时对NIPT数据没有特殊要求的方法则均有其应用的局限性，无法覆盖所有NIPT样本。其中，1)Y染色体深度计算法只能计算男性胎儿的胎儿浓度，无法计算女性胎儿；2)测序reads深度分布计算法仅能用于估算胎儿浓度较高的样本，无法应用于胎儿浓度在5％以内的样本中。

由此，如何借助于低深度的NIPT数据无差别地计算男性及女性胎儿的cfDNA浓度，还需要进一步改进。为此，本申请提供了一种确定孕妇血液中胎儿核酸浓度的方法和设备，该方法或者设备能够仅使用孕妇血浆NIPT数据而无需其他数据辅助，即实现胎儿核酸浓度的测定。而且可应用于超低深度(例如在0.1x左右)测序数据中，且对测序类型无要求，无论是双端测序或单端测序均可应用；对样本类型也无特殊要求，男胎和女胎都可适用。

具体而言，本申请提供了如下技术方案：

根据本申请的第一方面，本申请提供了一种确定孕妇血液中胎儿核酸浓度的方法，包括：(1)基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；(2)利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及(3)基于所述第一基因型信息和所述第二基因型信息的差异，确定所述胎儿核酸浓度。

本申请提供了一种确定孕妇血液中胎儿核酸浓度的方法，该方法通过将测序数据与参考基因组进行比对，获得第一基因型信息；这些测序数据是通过对孕妇血液的核酸样本进行测序所获得的，这些测序数据中含有母本的核酸信息，胎儿的核酸信息，其中由于胎儿的核酸信息中有部分来自于父本，所以这些测序数据也间接含有父本的核酸信息。然后利用连锁不平衡关系，对所获得的第一基因型信息进行校正，即测序数据中由于混有来自于父本的那部分核酸信息，这部分信息与母本信息来自不同个体，因而会一定程度上被校正，获得经过校正后的第二基因型信息。然后通过对比第一基因型信息和第二基因型信息的差异，确定被校正的那部分基因型信息，而且这部分被校正的基因型信息越多，说明孕妇血浆中胎儿cfDNA浓度越高，可以基于被校正的基因型比例与孕妇血浆中胎儿cfDNA浓度的关系，确定胎儿的核酸浓度。

本申请所提供的确定孕妇血液中胎儿核酸浓度的方法，具有多种优点，表现为：1)在整个方法中，仅需要使用孕妇血浆NIPT数据而无需其他数据辅助；2)由于应用了连锁不平衡关系对基因组基因型变化情况进行估计，所以即便是测序深度较低，只要存在孕妇和胎儿两种来源数据的混合情况，就可以通过基因组基因型变化情况反应胎儿的核酸浓度，因此可应用于超低深度(例如在0.1x左右)测序数据中；3)对测序类型无要求，无论是双端测序或单端测序均可应用；4)对样本类型无特殊要求(男胎和女胎均可应用，且对胎儿浓度无要求)。

本申请所提供的方法首次突破了对估算数据的测序深度，数据类型，及胎儿性别的限制，具有普适性且无需额外采样及测序成本，在NIPT领域有极高的应用价值。

根据本申请的实施例，以上所述确定孕妇血液中胎儿核酸浓度的方法可以进一步包括如下技术特征：

在本申请的一些实施例中，所述测序数据是通过对所述孕妇血液的核酸样本进行测序获得的，所述测序的深度可以为10X，可以为5X，可以为1X，可以为0.5X，可以为0.2X，也可以为0.1X。孕妇血液的核酸样本包括胎儿的核酸信息，母本的核酸信息，其中胎儿的核酸信息又有部分来自于父本，所以通过对孕妇血液的核酸样本进行测序，即便是低测序深度测序数据，例如不超过10X，不超过5X，不超过1X，甚至是0.1X测序数据，通过本申请提供的方法进行分析，即可以实现胎儿核酸浓度的确定。

在本申请的一些实施例中，所述测序数据是通过二代测序技术或三代测序技术获得的。二代测序技术又称为高通量测序技术，其一次能够同时测很多序列，例如可以通过物理或是化学的方式将核酸随机打断成无数的小片段，可以为250～300bp左右的小片段，然后通过建库富集这些小分子片段，然后在测序仪中进行测序，测序仪中有着可以让这些片段附着的区域，每一个片段都有独立的附着区域，这样就可以一次检测所有附着的DNA序列的信息。二代测序技术可以一次测大量的序列，但是片段被限制在了例如250～300bp左右，成本较高。常用的二代测序技术可以为Roche/454公司的焦磷酸测序法进行测序，或者Illumina公司的荧光测序检测，ABI/Solid公司的荧光测序检测或华大智造(MGI)的DNB测序法检测等。三代测序技术可以使得测序长度达到10KB左右，而且不依赖于PCR扩增，例如可以采用PacBio公司的SMRT或者Oxford Nanopore Technologies纳米孔单分子测序技术。无论是二代测序技术或者是三代测序技术，无论是单端测序还是双端测序，所获得的孕妇血液的核酸样本的测序数据都可以拿来，按照本申请提供的方法分析确定胎儿核酸的浓度。

在本申请的一些实施例中，所述参考基因组包含人类基因组中的至少一个强连锁区域。“强连锁区域”依据所研究群体大小及结构有所不同，一般定义为在该区域内任意一对变异位点之间存在重组情况(historical recombination)的概率小于5％。参考基因组中可以包含一个强连锁区域，两个强连锁区域，三个强连锁区域，甚至更多。通常来说在不考虑成本的情况下，作为参考基因组所包含的强连锁区域越多，经过比对和计算，最终确定出来的孕妇血液中胎儿核酸浓度越精确。

在选择强连锁区域时，可以依据所研究群体大小及结构的不同，找到该群体在基因组上的全部或者部分强连锁区域，然后根据这些强连锁区域的范围选择适当大小的强连锁区域作为参考基因组。通常来说所选择的强连锁区域中覆盖了孕妇DNA和覆盖了胎儿DNA的变异位点的数量以及比例越多，利用包含该强连锁区域的参考基因组，所计算出来的孕妇血液中胎儿核酸浓度越精确。在本申请的一些实施例中，所述强连锁区域的长度为5～10mb，例如可以为10mb，可以为9mb，可以为8mb，可以为7mb，可以为6mb，可以为5mb。在示出的这些强连锁区域的长度的基础上，关于强连锁区域的长度可以再上下浮动10％～20％，例如强连锁区域的长度可以为10mb，可以是11mb或者12mb，9mb或者8mb等。由此可以实现来自父本测序数据的信息的精确校正。

在本申请的一些实施例中，所述第一基因型信息是基于测序读段支持数进行确定的。在获得第一基因型信息时，该第一基因型信息是基于测序读段的支持数来确定的，例如若某位点支持碱基A的测序读段有100个，支持碱基G的测序读段有8个，支持碱基T的测序读段有20个，则确定该位点的碱基为A。通过这种方式，可以获得各位点的基因型的信息，同时通过与参考基因组的至少一部分进行比对，确定所需要的第一基因型信息。

在本申请的一些实施例中，所述第一基因型信息包括SNP，Indel的至少之一。第一基因型信息中包含单位点突变(SNP)信息和/或小片段插入缺失(Indel)信息，通过这些信息校正，可以反映父本的核酸信息，从而实现胎儿核酸浓度的准确测定。

在本申请的一些实施例中，所述参考数据包括多个变异位点信息和变异频率信息。以包含有多个变异位点信息和多个变异频率信息的数据作为参考数据，基于连锁不平衡的关系，可以对第一基因型信息校正，使得一些来自于父本的测序信息被校正，根据被校正信息与胎儿核酸浓度的关联性，确定胎儿的核酸浓度。

在本申请的一些实施例中，所述校正是通过IMPUTE2进行的。IMPUTE2作为一种算法，其实针对数据缺失或者准确性较低位点进行的一种基因型补全和校正的算法。当然除了IMPUTE2之外，还可以尝试使用其他的imputation方法利用LD信息进行位点的校正，例如BNEAGLE，PHASE等软件。

在本申请的一些实施例中，步骤(3)进一步包括：(3-1)确定所述第一基因型信息和所述第二基因型信息的差异比例；(3-2)基于步骤(3-1)中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。鉴于多个已知的胎儿核酸浓度和第一基因型信息和第二基因型信息的差异比例的关系，利用不同的公式或者模型进行拟合，例如可以借助于线性回归模型，也可以借助于其他有效的整合所有信息的模型，例如随机森林模型或者其他深度学习模型等等，从而可以将胎儿核酸浓度与差异比例进行关联。当确定了来自与某孕妇血液的核酸样本的第一基因型信息和第二基因型信息的差异比例后，就可以借助于预先确定的拟合公式，确定该孕妇血液中胎儿的核酸浓度。即前期可以通过部分已知胎儿浓度的样本作为训练集，借助于本发明所提供的方法，利用不同的公式或者模型拟合，确定拟合公式；后续在应用时，可以针对一个或者多个样本进行胎儿cfDNA浓度的预测，不再需要额外的已知胎儿浓度的样本。

在本发明的一些实施例中，所述多个为至少为100个，例如可以为100个，可以为500个，可以为1000个，可以为5000个或者更多个。当采用公式或者模型进行拟合时，参考样本数越多，拟合公式越准确，利用该公式所测得的孕妇血液中胎儿的核酸浓度也就越准确。当然过多的样本数可以也会增加计算成本和来自于样本数本身的成本。在使得成本和拟合精确性均较佳时，这些参考样本数可以为5000个～10000个，例如可以是5000个，可以是6000个，可以是7000个，可以是8000个，可以是9000个，或者为10000个，这里不对样本数做任何限制。

根据本申请的第二方面，本申请提供了一种确定孕妇血液中胎儿核酸浓度的设备，利用该设备能够确定孕妇血液中胎儿的核酸浓度，其仅需要使用孕妇血浆NIPT数据而不需其他数据辅助；而且可以应用于超低深度的测序数据中；且对样本类型无特殊要求，无论是男胎还是女胎均可应用。该设备包括：比对单元，所述比对单元基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；校正单元，所述校正单元与所述比对单元相连，所述校正单元利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及计算单元，所述计算单元分别与所述比对单元和所述校正单元相连，所述计算单元基于所述第一基因型和所述第二基因型信息的差异，确定所述胎儿核酸浓度。

根据本申请的实施例，以上所述确定孕妇血液中胎儿核酸浓度的设备可以进一步包括如下技术特征，这些技术特征在上述确定孕妇血液中胎儿核酸浓度的方法时均有提到或者涉及，各技术特征所行使的功能均与上述确定孕妇血液中胎儿核酸浓度的方法时相似，在此就不做详细的赘述。

在本申请的一些实施例中，所述设备中，所述测序数据是通过对所述孕妇血液的核酸样本进行测序获得的，所述测序的深度可以为10X，可以为5X，可以为1X，可以为0.5X，可以为0.2X，或者0.1X。即通过本申请所提供的设备不仅可以应用高深度或者较高测序数据来确定孕妇血液中胎儿的核酸浓度，也可以应用低深度测序或者超低深度测序数据来确定孕妇血液中胎儿的核酸浓度。

在本申请的一些实施例中，所述设备中，所述测序数据是通过二代测序技术或者三代测序技术获得的。

在本申请的一些实施例中，所述设备中，所述参考基因组包含人类基因组中的至少一个强连锁区域。

在本申请的一些实施例中，所述设备中，所述强连锁区域的长度为5mb～10mb，例如可以为10mb，可以为9mb，可以为8mb，可以为7mb，可以为6mb，可以为5mb，这里不对强连锁区域的长度做任何限制。

在本申请的一些实施例中，所述设备中，所述第一基因型信息是基于测序读段支持数进行确定的。

在本申请的一些实施例中，所述设备中，所述第一基因型信息包括SNP，Indel的至少之一。

在本申请的一些实施例中，所述设备中，所述参考数据包括多个变异位点信息和变异频率信息。

在本申请的一些实施例中，所述设备中，所述校正是通过IMPUTE2进行的。

在本申请的一些实施例中，所述计算单元进一步包括：差异比例计算单元，确定所述第一基因型和所述第二基因型信息的差异比例；胎儿核酸浓度计算单元，所述胎儿核酸浓度计算单元与所述差异比例计算单元相连，所述胎儿核酸浓度计算单元基于在所述差异比例计算单元中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。

在本申请的一些实施例中，所述多个为可以为5000个～10000个，例如可以为5000个，6000个，7000个，8000个，9000个，或者10000个，这里不对样本数做任何限制。

根据本发明的第三方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本发明第一方面任一实施例所述的方法。由此仅需要使用孕妇血浆NIPT数据，借助于连锁不平衡关系，即可以快速测定胎儿核酸的浓度，而且可以应用于低深度测序数据中，且对胎儿浓度和样本类型无要求。

根据本发明的第四方面，本发明提供了一种计算机刻度存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面任一实施例所述的方法。由此仅需要使用孕妇血浆NIPT数据，借助于连锁不平衡关系，即可以快速测定胎儿核酸的浓度，而且可以应用于低深度测序数据中，且对胎儿浓度和样本类型无要求。

附图说明

图1是根据本发明的实施例提供的确定孕妇血液中胎儿核酸浓度的设备的结构示意图。

图2是根据本发明的实施例提供的确定孕妇血液中胎儿核酸浓度的设备中的计算单元的结构示意图。

图3是根据本发明的实施例提供的通过模型预测确定胎儿核酸浓度的方法示意图。

图4是根据本发明的实施例提供的以10000例样本作为训练集所得模型进行一个1000例样本测试数据集的胎儿浓度预测结果图。

图5是根据本发明的实施例提供的以10000例样本作为训练集所得模型进行一个1000例样本测试数据集的胎儿浓度预测结果图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

同时，为了方便本领域技术人员的理解，对本发明的某些术语进行解释和说明，需要说明的是，这些解释和说明，仅用来帮助对于本发明技术方案的理解，而不应当看做是对本发明保护范围的限制。

本文中，术语“第一基因型信息”、“第二基因型信息”是指包含有各位点基因型的信息。在本文中，分别指从测序数据中得到的原始基因型，以及利用连锁不平衡信息完成矫正后的基因型。

术语“连锁(linkage)”用来描述两个位点之间的关系，如果两个或者两个以上位点间距离比较近，那么在减数分裂过程中发生交叉并且同一条染色体两个位点上的等位基因被分离的概率就比较小，也就是说这两个位点的等位基因传递给下一代时是不独立的(例如，它们上面的等位基因倾向于一起传递)，通常将这一生物现象称为连锁。“强连锁区域”依据所研究群体大小及结构有所不同，一般定义为在该区域内任意一对变异位点之间存在重组情况(historical recombination)的概率小于5％。

连锁不平衡是指两个变异位点的某种特定基因型组合同时遗传下去的概率大于随机概率的情况。即，只要两个位点的某种基因型组合不是完全独立遗传的，就表示这两个位点存在连锁不平衡的情况。

根据本申请的一个方面，本申请提供了一种确定孕妇血液中胎儿核酸浓度的方法，包括：(1)基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；(2)利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及(3)基于所述第一基因型信息和所述第二基因型信息的差异，确定所述胎儿核酸浓度。利用本申请提供的方法可以实现孕妇血液中胎儿DNA浓度的检测和测定。

在利用连锁不平衡关系进行校正时，可以基于已有的方法或者软件进行。例如可以借助于Imputation进行矫正或者校正。Imputation是针对数据缺失或准确性较低位点进行的一种基因型补全和矫正的方法。具体来说，利用被分析位点与其附近较高准确性位点的连锁不平衡(Linkage disequilibrium，LD)关系，寻找出与被分析位点最匹配的单倍型(利用参考群体中的单倍型信息，或利用被分析群体自身不同个体间单倍型信息)，从而对被分析位点缺失基因型进行推断或对低准确性基因型进行矫正。

Imputation方法主要应用于全基因组关联分析(Genome wide association study，GWAS)或群体遗传性分析中，通过LD信息来扩增芯片数据位点数量从而最大程度挖掘出与特定表型相关的基因型信息，或者针对低深度群体测序数据，利用参考群体或被分析群体自身单倍型信息将由于深度过低导致的错误检测的基因型位点进行矫正，从而提高分析准确性。

本发明将imputation中利用单倍型信息对被分析样本中低深度位点进行矫正的原理应用于孕妇血浆数据，利用LD信息来综合推算全基因组(或染色体层面)胎儿浓度。由于IMPUTE2等基因型推断算法针对单个样本进行imputation时都会加入同一个前提，即所分析样本为二倍体，因而当某些位点中存在与此假设相矛盾的基因型存在(即多于两条单倍型存在)时，这些位点会被视为错误位点被矫正。而由于孕妇血浆中实际包含三种单倍型信息，即两种孕妇单倍型和一种遗传自父亲的胎儿单倍型，因而在imputation过程中，父源胎儿单倍型存在一定概率会被视为错误位点被矫正，这一被矫正概率进一步与孕妇血浆种胎儿cfDNA浓度存在相关性。

利用孕妇单倍型及基因组中连锁不平衡信息，借助imputation中对单倍型信息的应用，通过比较imputation前后被矫正位点的比例，可以完成无创产前基因检测中胎儿浓度的计算。

在将测序数据与参考基因组的至少一部分的比对时，可以通过筛选信号较为显著的基因区域作为比对区域。所提到的信号较为显著的基因区域可以表现为：覆盖度(测序数据在基因组上覆盖情况)较好，群体碱基频率(Minor allele frequency)较高(说明该位点在该群体存在变异的概率较高)，变异位点比例较高的区域，来达到进一步提取特征信息，减少背景噪音干扰的目的，从而使胎儿浓度估算准确性提高。

在选择强连锁区域时，可以通过改变计算窗口大小，如将5mb窗口改为10mb或整条染色体等，确定强连锁区域，从而通过增加每个窗口内有效位点数的方法提高准确性。

在本申请的一些实施方式中，步骤(3)进一步包括：(3-1)确定所述第一基因型信息和所述第二基因型信息的差异比例；(3-2)基于步骤(3-1)中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。鉴于多个已知的胎儿核酸浓度和第一基因型信息和第二基因型信息的差异比例的关系，利用不同的公式或者模型进行拟合，例如可以借助于线性回归模型，也可以借助于其他有效的整合所有信息的模型，例如随机森林模型或者其他深度学习模型等等，从而可以将胎儿核酸浓度与差异比例进行关联。当确定了来自与某孕妇血液的核酸样本的第一基因型信息和第二基因型信息的差异比例后，就可以借助于预先确定的拟合公式，确定该孕妇血液中胎儿的核酸浓度。

当然在选择或者确定模型时，可以通过在预测模型中加入更多更完善的孕妇表型信息作为协变量，从而优化预测模型，提高估算准确性。

根据本申请的另一个方面，本申请提供了一种确定孕妇血液中胎儿核酸浓度的设备，利用该设备能够确定孕妇血液中胎儿的核酸浓度，其仅需要使用孕妇血浆NIPT数据而不需其他数据辅助；而且可以应用于超低深度的测序数据中；且对样本类型无特殊要求，无论是男胎还是女胎均可应用。如图1所示该设备包括：比对单元，所述比对单元基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；校正单元，所述校正单元与所述比对单元相连，所述校正单元利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及计算单元，所述计算单元分别与所述比对单元和所述校正单元相连，所述计算单元基于所述第一基因型和所述第二基因型信息的差异，确定所述胎儿核酸浓度。

在至少一些实施方式中，所述计算单元如图2所示，进一步包括：差异比例计算单元，确定所述第一基因型和所述第二基因型信息的差异比例；胎儿核酸浓度计算单元，所述胎儿核酸浓度计算单元与所述差异比例计算单元相连，所述胎儿核酸浓度计算单元基于在所述差异比例计算单元中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

实施例1提供了以孕妇血浆cfDNA测序数据为输入数据，计算孕妇血浆中胎儿核酸浓度的方法，具体步骤如下：

(1)前期数据处理。

所有用于模型训练及预测的样本的原始下机数据(fq格式)完成质控后使用BWA中samse模式比对至人类参考染色体hg38上；使用Picard去除比对结果中的重复reads并计算重复率，使用GATK等变异检测算法中碱基质量值纠正BQSR功能完成比对结果的局部矫正，使用GATK等变异检测算法中覆盖深度Depth of Coverage功能计算每个样本深度分布；使用GATK等变异检测算法中群体变异检测模式完成单位点(SNP)及小片段插入缺失(Indel)的检测。

(2)原始基因型信息提取。

以(1)中BWA比对及Picard去重后的结果(bam格式)为输入，通过samtools中mpileup功能输出以原始reads深度为基础的基因型结果(vcf格式)。即利用samtools软件中的pileup功能推测基因型。

(3)计算imputation矫正位点比例。

将全基因组划分为5mb的窗口，每个窗口内针对每个分析样本，以变异位点信息及频率信息作为群体参考数据，这些变异位点信息及频率信息可以来自于已有数据库(如千人数据库，Hapmap数据库等人类群体参考基因组数据库)，也可以通过使用输入数据本身的群体信息计算获得(即直接计算所要分析的样本内部的每个位点的基因型及其对应的频率)。使用IMPUTE2或其他基因型推断算法完成基因型的补全和矫正(imputation)，最终得到每个样本的基因型结果(vcf格式)，将所得基因型与(2)中通过原始reads深度信息推测所得基因型情况，计算两套数据中基因型不一致位点所占比例，即为imputation矫正位点比例。可以参照文献Porcu,E.；Sanna,S.；Fuchsberger,C.；Fritsche,L.G.Genotype imputation in genome-wide association studies.Curr Protoc Hum Genet.2013,Chapter 1,Unit 1.25.中所记载的Imputation原理进行矫正。

Imputation是针对数据缺失或准确性较低位点进行的一种基因型补全和矫正的方法。具体来说，利用被分析位点与其附近较高准确性位点的连锁不平衡(Linkage disequilibrium，LD)关系，寻找出与被分析位点最匹配的单倍型(利用参考群体中的单倍型信息，或利用被分析群体自身不同个体间单倍型信息)，从而对被分析位点缺失基因型进行推断或对低准确性基因型进行矫正。

(4)建立胎儿浓度预测模型。

针对测序数据的imputation过程是利用不同位点间连锁不平衡信息，借助高准确性位点对其附近连锁的低准确性或缺失位点进行基因型的矫正和补全的过程。目前利用IMPUTE2或其他的基因型推断算法对孕妇血浆cfDNA数据进行imputation的前提为假设测序数据全部来源于同一个体，即仅两条单倍型(haplotypes)。因此在imputation过程中，孕妇血浆中胎儿父源cfDNA所组成的第三条haplotype将被视为错误位点被矫正。当测序深度相当时(或进行测序深度矫正后)，当胎儿浓度提高时，可能提取到与孕妇不同的父源cfDNA的概率增加，因而矫正位点的比例也随之增加(如图3所示)。

如图3所示，当不同胎儿浓度对应的父源cfDNA的比例增加时，原始基因型(即第一基因型)由父源cfDNA所推测出的概率增加，进而经过imputation将这些父源基因型矫正回孕妇基因型的概率也随之增加，也即前文中提到的第一基因型及第二基因型不相同的比例提高，因此通过计算第一基因型和第二基因型比例的变化，可以反向推回胎儿游离DNA浓度。图3中所示出的不同胎儿浓度下imputation矫正位点比例也不不同，说明间接推出胎儿cfDNA浓度与基因型改变比例的这种相关性的过程。

基于上述理论，以大样本量(建议1万例以上)男胎孕妇血浆cfDNA数据为训练集，以Y染色体深度计算所得胎儿浓度为真集(Y值)，以(3)中计算所得矫正位点比例为协变量(X值)，同时加入样本平均测序深度，高质量测序深度，重复率作为协变量，构建线性回归模型，用于胎儿浓度预测。

具体线性回归模型公式如下：

其中，y _i为样本i对应的Y染色体深度推算所得男性胎儿浓度，{x _i1...x _in}为样本i中全部n个窗口对应的每个窗口内imputation矫正的位点比例，

为样本i对应的平均测序深度，

为样本i对应的较高质量比对reads所得测序深度，

为样本i对应的重复率，p为训练集中样本总数。

(5)胎儿浓度预测。

针对所有孕妇血浆cfDNA样本，以每个样本的imputation矫正位点比例，平均测序深度，高质量测序深度，重复率为协变量，利用(4)所得预测模型对胎儿浓度进行预测。

本方法已在NIPT超低深度(～0.1x)SE测序数据中完成初步测试，以10000例男胎数据作为训练集，以Y染色体深度估计所得胎儿浓度作为真集，用于线性回归模型的拟合，同时将每个样本的平均测序深度、高质量测序深度及重复率三个变量作为模型的协变量，完成预测模型的构建。之后利用此预测模型独立完成两次1000例胎儿浓度的估算，得到估算所得胎儿浓度与实际胎儿浓度(Y染色体深度计算所得胎儿浓度)的相关性如下：

图4是以10000例样本作为训练集所得模型独立进行一个1000例样本测试数据集(测试数据集1)的胎儿浓度预测结果。在该测试数据集1中，基于Y染色体深度计算所得胎儿浓度(横坐标)与本发明方法计算所得胎儿浓度(纵坐标)相关性(R ²)为0.7318(95％置信区间：0.7016～0.7593)。

图5是以10000例样本作为训练集所得模型独立进行一个1000例样本测试数据集(测试数据集2)的胎儿浓度预测结果。在该测试数据集2中，基于Y染色体深度计算所得胎儿浓度(横坐标)与本发明方法计算所得胎儿浓度(纵坐标)相关性(R ²)为0.7423(95％置信区间：0.7131～0.7689)。

两个测试数据集所估算胎儿浓度与Y染色体所得胎儿浓度Pearson检测结果均达到显著性相关(p值小于2.2x10 ^-16)。

其中一万例训练集样本所得线性回归相关结果见附录。其中附录表中各项数值均为R中线性回归模型的标准输出结果，其中估计值(coefficient)是每个输入的协变量(covariant)对应系数的计算值，即训练集所得模型的参数，此参数直接带入线性模型中，即可用于新的样本的胎儿cfDNA浓度的预测；标准偏差为估计值对应的误差情况；T值和p值为对应协变量的显著性检测结果；最后一列显著性为根据p值所划分的显著程度；在实际应用中，可仅挑选较为显著(如p小于0.05)的协变量用于预测。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

附录.

一万例孕妇样本(男胎)训练所得线性模型结果：

Claims

一种确定孕妇血液中胎儿核酸浓度的方法，其特征在于，包括：

(1)基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；

(2)利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及

(3)基于所述第一基因型信息和所述第二基因型信息的差异，确定所述胎儿核酸浓度。
根据权利要求1所述的方法，其特征在于，所述测序数据是通过对所述孕妇血液的核酸样本进行测序获得。
根据权利要求1所述的方法，其特征在于，所述参考基因组包含人类基因组中的至少一个强连锁区域。
根据权利要求1所述的方法，其特征在于，所述强连锁区域的长度为5mb～10mb。
根据权利要求1所述的方法，其特征在于，所述第一基因型信息是基于测序读段支持数进行确定的。
根据权利要求1所述的方法，其特征在于，所述第一基因型信息包括SNP，Indel的至少之一。
根据权利要求1所述的方法，其特征在于，所述参考数据包括多个变异位点信息和变异频率信息。
根据权利要求1所述的方法，其特征在于，所述校正是通过IMPUTE2进行的。
根据权利要求1所述的方法，其特征在于，步骤(3)进一步包括：

(3-1)确定所述第一基因型和所述第二基因型信息的差异比例；

(3-2)基于步骤(3-1)中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，

所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。
一种确定孕妇血液中胎儿核酸浓度的设备，其特征在于，包括：

比对单元，所述比对单元基于测序数据与参考基因组的至少一部分的比对，确定第一基因型信息，所述测序数据来自于所述孕妇血液的核酸样本；

校正单元，所述校正单元与所述比对单元相连，所述校正单元利用连锁不平衡关系，基于参考数据，对所述第一基因型信息进行校正，以便获得第二基因型信息；以及

计算单元，所述计算单元分别与所述比对单元和所述校正单元相连，所述计算单元基于所述第一基因型和所述第二基因型信息的差异，确定所述胎儿核酸浓度。
根据权利要求10所述的设备，其特征在于，所述测序数据是通过对所述孕妇血液的核酸样本进行测序获得的。
根据权利要求10所述的设备，其特征在于，所述参考基因组包含人类基因组中的至少一个强连锁区域。
根据权利要求10所述的设备，其特征在于，所述强连锁区域的长度为5mb～10mb。
根据权利要求10所述的设备，其特征在于，所述第一基因型信息是基于测序读段支持数进行确定的。
根据权利要求10所述的设备，其特征在于，所述第一基因型信息包括SNP，Indel的至少之一。
根据权利要求10所述的设备，其特征在于，所述参考数据包括多个变异位点信息和变异频率信息。
根据权利要求10所述的设备，其特征在于，所述校正是通过IMPUTE2进行的。
根据权利要求10所述的设备，其特征在于，所述计算单元进一步包括：

差异比例计算单元，确定所述第一基因型和所述第二基因型信息的差异比例；

胎儿核酸浓度计算单元，所述胎儿核酸浓度计算单元与所述差异比例计算单元相连，所述胎儿核酸浓度计算单元基于在所述差异比例计算单元中所获得的所述差异比例和预先确定的拟合公式，确定所述胎儿核酸浓度，所述拟合公式是基于多个已知胎儿核酸浓度的参考样本确定的。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1～9中任一项所述的方法。
一种计算机刻度存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～9中任一项所述的方法。