CN115995265A

CN115995265A - 病变差异位点识别方法、装置、设备和存储介质

Info

Publication number: CN115995265A
Application number: CN202211713209.3A
Authority: CN
Inventors: 纪永坤; 卢国华; 陈澍宜
Original assignee: Taizhou Zhushi Medical Laboratory Co ltd
Current assignee: Taizhou Zhushi Medical Laboratory Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-21
Anticipated expiration: 2042-12-28
Also published as: CN115995265B

Abstract

本申请公开了病变差异位点识别方法、装置、设备和存储介质，方法包括将多个待测DNA分词序列提供给注意力网络模型；通过实施被配置为通过对序列中分词编码并进行自注意力处理以得到分词对应注意力分数和特征向量的注意力网络模型来获得各分词对应注意力分数和分词序列的特征向量；将分词序列的特征向量提供给分类识别网络模型；通过实施被配置为基于特征向量执行病变DNA和非病变DNA识别的分类识别网络模型来获得分类识别结果；根据待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。本申请充分利用了DNA序列信息来寻找病变差异位点，并利用了注意力机制和神经网络分类结果，使识别能力提升。

Description

病变差异位点识别方法、装置、设备和存储介质

技术领域

本申请涉及生物信息技术和神经网络应用技术领域，尤其涉及病变差异位点识别方法、装置、设备和存储介质。

背景技术

目前，DNA序列上的病变修饰(如CpG位点的甲基化修饰的改变)位点的识别主要是通过一些统计学的方法，比如分别计算肿瘤与非肿瘤组织中DNA上的每一个CpG位点的甲基化频率，通过统计学的方法计算肿瘤与非肿瘤组织中DNA甲基化频率是否存在显著性的差异，进而识别出甲基化差异位点(DifferentiallyMethylated CpG，DMC)。研究发现CpG位点的甲基化状态还受周围DNA序列的调控，但是现有统计学方法只考虑CpG位点的甲基化差异，并没有考虑CpG位点周围的DNA序列，因此识别能力有待提高。

因此，有必要提出了一种结合DNA序列信息来寻找病变修饰差异位点的深度学习方法。

发明内容

本申请旨在针对现有病变差异位点识别方法未考虑到病变位点周围的DNA序列而导致识别能力较差的问题，提供病变差异位点识别方法、装置、设备和存储介质。

第一方面，本申请实施例提供一种病变差异位点识别方法，包括：

将多个待测DNA分词序列提供给注意力网络模型；通过实施被配置为通过对所述分词序列中分词编码并进行自注意力处理以得到分词对应注意力分数和特征向量的注意力网络模型来获得各分词对应注意力分数和待测DNA分词序列的特征向量；

将所述待测DNA分词序列的特征向量提供给分类识别网络模型；通过实施被配置为基于特征向量执行病变DNA和非病变DNA识别的分类识别网络模型来获得分类识别结果；

根据所有待测DNA序列各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。

在本申请的一个实施例中，注意力网络模型获得各分词对应注意力分数和待测DNA分词序列的特征向量，包括：

对所述待测DNA分词序列中各分词进行嵌入编码处理，得到各分词对应的多维度编码向量；

对待测DNA分词序列中所有分词对应的多维度编码向量进行自注意力处理得到待测DNA分词序列的特征向量；

将所述各分词对应的多维度编码向量分别与三个权重矩阵线性相乘得到K、Q、V三个向量；

基于所述K、Q、V三个向量，通过注意力计算函数，得到各分词对应的注意力分数；其中所述注意力计算函数表示如下：

其中，d_k为向量Q或K的列数；softmax表示归一化函数；K^T是K的转置。

在本申请的一个实施例中，所述注意力网络模型获得各分词对应注意力分数之后，还根据待测DNA分词序列的长度对注意力分数进行纠正。

在本申请的一个实施例中，所述根据待测DNA分词序列的长度对注意力分数进行纠正包括：将确定的注意力分数与纠正系数的乘积作为修正后的注意力分数，其中纠正系数根据所述待测DNA分词序列的长度确定。

在本申请的一个实施例中，所述纠正系数的表达式如下：

其中BP为纠正系数，lc是DNA分词序列的长度，lr是所有DNA分词序列的平均长度。

在本申请的一个实施例中，所述方法还包括：按照如下方式对所述注意力网络模型和分类识别网络模型进行训练：

收集已标注为病变DNA分词序列和非病变DNA分词序列，按照预设比例分为训练集和测试集，并利用所述训练集和测试集对所述注意力网络模型和分类识别网络模型进行训练和测试；

基于测试结果调整所述注意力网络模型和分类识别网络模型的参数，直至达到预设的精度要求，以得到所述已训练的注意力网络模型和分类识别网络模型。

在本申请的一个实施例中，收集已标注为病变DNA分词序列和非病变DNA分词序列包括：

获取已标注为病变DNA序列和非病变DNA序列，所述病变DNA序列和非病变DNA序列为已公开的全基因组DNA序列；

将DNA序列中带有病变位点替换成区别于DNA序列中各碱基的转换位，获得替换后的DNA序列；

对替换后的DNA序列进行预处理后得到DNA分词序列；

从DNA分词序列中选取预设比例的分词作为预选分词集合；

选取预选分词集合中的分词进行遮蔽，获得遮蔽处理后的DNA分词序列。

在本申请的一个实施例中，选取预选分词集合中的分词进行遮蔽包括：

针对预选分词集合，将其分为含有转换位的分词集合和不含转换位的分词集合；分别按照预设比例从含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行遮蔽。

在本申请的一个实施例中，分别按照预设比例从含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行遮蔽包括：

按照第一比例从含有转换位的分词集合中选择分词，利用MASK进行遮蔽；按照第二比例从含有转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后含有转换位的分词集合中其余的分词不进行替换；

和/或，按照第三比例从不含转换位的分词集合中选择分词，利用MASK进行遮蔽；按照第四比例从不含转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后不含转换位的分词集合中其余的分词不进行替换。

在本申请的一个实施例中，根据所有待测DNA分词序列中各分词对应注意力分数以及所述分类识别结果进行比对，确定病变差异位点，包括：

针对病变DNA分词序列和非病变DNA分词序列，基于各分词的注意力分数确定各碱基对应的注意力分数，根据所述各碱基对应的注意力分数从高到低选取预设比例的碱基构成重要位点区；

统计在病变DNA分词序列的重要位点区和非病变DNA分词序列的重要位点区都出现的位点，若这些位点在病变DNA序列和非病变DNA序列上存在病变差异，即为病变差异位点。

第二方面，本申请还提供病变差异位点识别装置，包括：

注意力网络模型，用于对多个待测DNA分词序列中各分词编码并进行自注意力处理以得到分词对应注意力分数和待测DNA分词序列的特征向量；

分类识别网络模型，用于基于所述待测DNA分词序列的特征向量执行病变DNA和非病变DNA识别获得分类识别结果；

处理模块，用于根据所有待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。

在本申请的一个实施例中，所述装置还包括训练模块，所述训练模块用于：

在本申请的一个实施例中，所述训练模块还用于获取已标注为病变DNA序列和非病变DNA序列，所述病变DNA序列和非病变DNA序列为已公开的全基因组DNA序列；

将DNA序列中带有病变的位点替换成区别于DNA序列中各碱基的转换位，获得替换后的DNA序列；

对替换后的DNA序列进行预处理后得到DNA分词序列；

从DNA分词序列中选取预设比例的分词作为预选分词集合；

第三方面，本申请还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面任一种所述的病变差异位点识别方法。

第四方面，本申请还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一种所述的病变差异位点识别方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本申请基于分词处理后的DNA分词序列，充分利用了DNA序列信息来寻找病变异位点，并利用了注意力机制和神经网络分类结果，使识别能力提升；

本申请在训练注意力网络模型和分类识别网络模型过程中，对病变位点进行遮蔽，结合注意力处理机制，使得网络更多关注病变位点并对其进行学习，进一步提高了病变差异位点识别能力。

本申请中计算注意力分数的过程中，根据DNA分词序列的长度对注意力分数进行了修正，消除了DNA长度对注意力分数的影响，能够全面地反应每个分词的重要性，有利于提高识别效果。

附图说明

在此描述的附图仅用于解释目的，而不意图以任何方式来限制本申请公开的范围。另外，图中的各部件的形状和比例尺寸等仅为示意性的，用于帮助对本申请的理解，并不是具体限定本申请各部件的形状和比例尺寸。本领域的技术人员在本申请的教导下，可以根据具体情况选择各种可能的形状和比例尺寸来实施本申请。在附图中：

图1为本申请实施例提供的病变差异位点识别方法的流程示意图；

图2为本申请实施例提供的病变差异位点识别装置的结构示意图；

图3为现有技术采用的遮蔽流程；

图4为本申请实施例提供的病变差异位点识别方法中采用的遮蔽流程；

图5为本申请实施例提供的病变差异位点识别方法中替换DNA序列示意图；

图6为本申请实施例提供的病变差异位点识别方法中遮蔽示意图；

图7为本申请实施例提供的病变差异位点识别方法中获得的分词的注意力分数示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都应当属于本申请保护的范围。

为了方便理解本申请，以下是背景技术介绍。

人类的全基因组DNA序列数据，约含有30亿个碱基对，可以通过一代或二代测序方法获得。DNA序列可以包括腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)。不同的碱基可以有不同的修饰(如胞嘧啶的甲基化修饰，可以人为的用其它未使用过的字母表示)。例如，某个DNA序列为：ATCGGCTTCATTGGCG。

将DNA序列进行预处理的步骤包括：将序列中含有未知碱基N的片段删除，并将删除未知碱基N后得到的DNA序列按照预设长度随机切分成多种长短不一的DNA序列。如果所测得的DNA序列在预设长度范围内，则不需要切分DNA。

需要说明的是，本申请中所指病变如：甲基化(-CH3)，还有甲酰基化(-CHO)，羧基化(-COOH)等。其中甲基化带有病变的位点主要在CG位点上，其它病变在对应的位点上。

CpG位点(英语：CpGsites，或称为CG位点)是指DNA的某个区域，其上的碱基序列以胞嘧啶接着鸟嘌呤出现。“CpG”是“—C—磷酸—G—”的缩写，指磷酸二酯键连接了胞嘧啶和鸟嘌呤，其中C位于5'端而G位于3'端。在CpG位点中的不带甲基的胞嘧啶可以被病变为5-甲基胞嘧啶，也可以由本身带有的5-甲基胞嘧啶病变为不带甲基的胞嘧啶。

现有技术通过统计学的方法(比如t-test)计算肿瘤与非肿瘤组织中DNA病变频率是否存在显著性的差异，进而识别出病变差异位点(DifferentiallyMethylatedRegion，DMC)。t-test，即T检验，亦称studentt检验(Student'st-test)，主要用于总体标准差σ未知的正态分布资料。

研究发现病变位点的病变状态还受周围DNA序列的调控，但是现有统计学方法只考虑病变位点的病变差异，并没有考虑病变位点周围的DNA序列，因此识别能力有待提高。

本申请为解决该问题，提供了病变差异位点识别方法、装置、设备和存储介质。本申请采用注意力网络模型，根据输入的DNA分词序列计算各分词的注意力分数，并将注意力分数输入到分类识别网络模型中进行分类识别，获得该DNA分词序列是病变DNA还是非病变DNA；基于各分词的注意力分数和分类识别结果识别出病变差异位点，本申请能够获得较好的识别效果。

下面结合图1～图4对本申请进行详细说明。

图1是本申请实施例提供的病变差异位点识别方法流程图，方法包括：

步骤101：收集多个待测DNA序列，并对DNA序列进行分词获得分词序列；

步骤102：将多个待测DNA分词序列提供给注意力网络模型；通过实施被配置为通过对待测DNA分词序列中各分词编码并进行自注意力处理以得到分词对应注意力分数和特征向量的注意力网络模型来获得各分词对应注意力分数和待测DNA分词序列的特征向量；

步骤103：将待测DNA分词序列的特征向量提供给分类识别网络模型；通过实施被配置为基于特征向量执行病变DNA和非病变DNA识别的分类识别网络模型来获得分类识别结果；

步骤104：根据所有待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。

需要说明的是，步骤101不是必须步骤，在一些实施方式中，可以直接获取已经进行分词处理后的DNA分词序列。

示例性地，获得的DNA分词序列，例如：“CLS A T C G G C T T C A T T GG CGSEP”，CLS表示一个DNA序列片段的开始符号，SEP表示一个DNA序列片段的结束符号，一个碱基一个词，得到16个词。每个词用768维的向量表示，如A词用[0.001,0.123,0.234,…]向量表示，向量里面含5有768个浮点数字组成。需要说明的是，多少个碱基一个词，是可以任意设置，比如设置两个碱基一个词、三个碱基一个词、5个碱基一个词(token)。

示例性地，步骤102中注意力网络模型获得各分词对应注意力分数和待测DNA分词序列的特征向量，包括：

对待测DNA分词序列中各分词进行嵌入编码处理，得到各分词对应的多维度编码向量；

将各分词对应的多维度编码向量分别与三个权重矩阵线性相乘得到K、Q、V三个向量；

基于K、Q、V三个向量，通过注意力计算函数，得到各分词对应的注意力分数。

需要说明的是，可采用现有技术获得各分词对应的多维度编码向量，可选地，多维度编码向量为合并的编码向量，其中合并的编码向量包含该DNA分词序列中分词的内容编码信息、该DNA分词序列中分词的位置编码信息和中分词的分段编码信息中的一种或多种。

可选地，在具体实施例中，对多个编码向量进行合并的方法可采用向量相加等方式实现，对此不作限定。

通过该步骤，可以得到整个DNA分词序列中各个分词对应的编码向量。

本申请一实施方式提供病变差异位点识别方法，注意力网络模型共12层，最后一层中提取分词序列中每个分词的注意力分数，该注意力分数的高低可以反应每个分词的重要性。一条DNA分词序列的所有分词的注意力分数之和为1。

需要说明的是，利用神经网络模型对待测DNA分词序列中所有分词对应的多维度编码向量进行自注意力处理得到待测DNA分词序列的特征向量为现有技术，可选地包括对编码向量通过归一化以及残差处理得到特征向量。

示例性地，可采用放缩点积注意力机制进行自注意力处理，包括对输入的Q向量(Query向量)和K向量(即Key向量)进行点积、放缩、屏蔽(可选操作)、归一化操作，以及将归一化操作的结果与V向量(即Value向量)进行点积。

示例性地，注意力计算函数(用于计算注意力分数)由下式表示：

其中，Q，K，V均为向量，d_k表示为Q或K矩阵的列数，即向量维度，d_k作为调节因子；softmax表示归一化函数；T表示转置。其中Q，K，V的输入值为分词对应的多维度编码向量。

基于上述注意力计算函数，对同一条DNA分词序列经过嵌入编码处理后获得的多维度编码向量进行线性变换得到Query向量，Key向量，Value向量，之后计算注意力分数(注意力分数为上述函数的Attention(Q,K,V))。

具体操作是每个分词对应的多维度编码向量都要分别与三个权重矩阵Wq，Wk，Wv线性相乘(权重矩阵为神经网络参数，也称为线性变换矩阵)，生成每个词(在一个碱基对应一个词的实施方式中即每个碱基)对应的Query(Q)，Key(K)，Value(V)三个向量。下面的Embedding是指编码向量。

例如：Query(Q)＝Embedding*Wq；Key(K)＝Embedding*Wq；

Value(V)＝Embedding*Wq。

分词序列中每个分词对应的多维度编码向量表征词之间的关系以及每个一词与DNA序列的关系，每一个词由预设个碱基构成。

示例性地，注意力网络模型为BERT模型，分类识别网络模型为长短期记忆网络模型(LongShort-TermMemory，简称LSTM)。LSTM是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。其中，BERT模型的全称为BidirectionalEncoderRepresentationsfromTransformers。BERT模型为12层网络结构，其隐藏层为768维，采用12头模式。BERT模型具有以下优点：第一、能够采用MLM(MaskedLanguageModel)对双向的Transformers(其是一个Seq2Seq模型，由编码器和解码器两部分组成)进行预训练，以生成深层的双向语言表征。第二、经预训练后BERT模型，只需要添加一个额外的输出层进行微调(fine-tuning)，就可以在各种各样的下游任务中取得更好的表现，在这过程中并不需要对BERT模型进行任务特定的结构修改。

由于序列越长，每个词的平均注意力分数就越小，为了消除DNA长度对注意力分数的影响，实施例中对注意力分数使用以上方法进行纠正，基于纠正后的注意力分数进行病变差异位点识别，识别的效果更好。

示例性地，步骤102中注意力网络模型获得各分词对应注意力分数之后，还根据待测DNA分词序列的长度对注意力分数进行纠正。

可选地，根据待测DNA分词序列的长度对注意力分数进行纠正包括：将确定的注意力分数与纠正系数的乘积作为修正后的注意力分数，其中纠正系数根据待测DNA分词序列的长度确定。

本申请一实施方式提供病变差异位点识别方法，根据待测DNA分词序列的长度对注意力分数进行纠正包括：将确定的注意力分数与纠正系数的乘积作为修正后的注意力分数。

纠正系数的表达式如下：

本申请减少序列长度对每个词注意力分数的影响，根据长度对注意力分数进行校正，提升病变差异位点识别效果。

本申请一实施方式提供病变差异位点识别方法中，步骤104：根据待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点，包括：

针对病变DNA分词序列和非病变DNA分词序列，基于各分词的注意力分数确定各碱基对应的注意力分数，根据各碱基对应的注意力分数从高到低选取预设比例的碱基构成重要位点区；

本申请通过注意力分数的高低就可以确定神经网络是通过DNA分词序列上的哪些重要位点区分病变DNA和非病变DNA，通过统计在所有病变DNA分词序列和非病变的DNA分词序列的重要位点区中，统一出现的重要位点，这些位点中若在病变和非病变DNA序列上存在病变差异，则确定为重要的病变差异位点。而现有统计学方法需比对病变DNA和非病变DNA中所有的病变数据,来找到一批病变组织特异性高病变位点，其效率较低且没有用到病变位点周围的DNA序列信息，可能无法关注到真正重要的位点，本申请方法能提高病变差异位点的识别效率和识别效果。

本申请一实施方式提供病变差异位点识别方法，还包括：按照如下方式对注意力网络模型和分类识别网络模型进行训练：

收集已标注为病变DNA分词序列和非病变DNA分词序列，按照预设比例分为训练集和测试集，并利用训练集和测试集对注意力网络模型和分类识别网络模型进行训练和测试；

基于测试结果调整注意力网络模型和分类识别网络模型的参数，直至达到预设的精度要求，以得到已训练的注意力网络模型和分类识别网络模型。

图3示出了，目前方法常用的随机遮蔽流程。如图所示，目前的学习方法中对原始地DNA序列进行分词获得DNA分词序列，选取一定比例的分词作为预选分词集合，按照第一设定概率(如80％)从预选分词集合选取分词进行MASK(掩饰)遮蔽，按照第二设定概率(如10％)从预选分词集合剩下的分词中选取分词替换为随机的分词，对预选分词集合中最后剩下的分词不做替换。

如果BERT直接用随机遮蔽流程，因为病变位点在基因组的比例较少，被遮蔽的病变位点就比较少，这样模型无法学习到病变位点和周围序列的关系，因为模型是通过被遮蔽位点周围的序列来预测遮蔽位点的。为了让模型更多的关注病变位点，本申请一实施方式中改进了模型的随机遮蔽流程。

在一些实施方式中，收集已标注为病变DNA分词序列和非病变DNA分词序列包括：

获取已标注为病变DNA序列和非病变DNA序列，病变DNA序列和非病变DNA序列为已公开的全基因组DNA序列；

将DNA序列中带有病变的CG位点(本实施方式针对甲基化，在其它病变中换为对应病变位点)替换成区别于DNA序列中各碱基的转换位，获得替换后的DNA序列；对替换后的DNA序列进行预处理后得到DNA分词序列(如图5所示)；

从DNA分词序列中选取预设比例的分词作为预选分词集合；

需要说明的是，转换位可以人为利用其它未使用过的字母表示，其需区别于DNA序列中各碱基的表示字母，如腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)、以及未知碱基(N)。在申请一实施方式中，转换位采用ML。

如图4、图5、图6所示，选取预选分词集合中的分词进行遮蔽包括：

针对预选分词集合，将其分为含有转换位的分词集合和不含转换位的分词集合；分别按照预设比例从含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行MASK遮蔽(如图6所示)。

如图4所示，在一些实施方式中，分别按照预设比例(图4示例中采用15％，其它实施方式中可根据情况设置)从含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行遮蔽包括：

按照第一比例(如80％)从含有转换位(图4示例中转换位采用ML)的分词集合中选择分词，利用MASK进行遮蔽；按照第二比例(如10％)从含有转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后含有转换位的分词集合中其余的分词不进行替换；

和/或，按照第三比例(如80％)从不含转换位的分词集合中选择分词，利用MASK进行遮蔽；按照第四比例(如10％)从不含转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后不含转换位的分词集合中其余的分词不进行替换。

需要说明的是，在具体的实施例中，本领域技术人员可根据实际需要选择选取比例，对此不作限定。

本申请中基于替换后的DNA序列进行遮蔽，能够遮蔽了更多的病变位点，这样模型可以学习到更多的关于病变的信息，进一步提高病变差异位点识别效果。

图7示出的为三个碱基一个词的实施方式中，获得的各个分词的注意力分数。获得了注意力分数后可选择性地采用上述的修正方式对注意力分数进行修正。在获得注意力分数之后，根据各分词的注意力分数确定各碱基对应的注意力分数，例如，若计算第三个碱基M的平均注意力分数＝(0.01+0.1+0.001)/3。

下面对本申请提供的病变差异位点识别装置进行描述，下文描述的病变差异位点识别方法与上文描述的病变差异位点识别方法可相互对应参照。

图2是本申请提供的病变差异位点识别装置的结构示意图，包括：注意力网络模型1，用于对多个待测DNA分词序列编码并进行自注意力处理以得到分词对应注意力分数和待测DNA分词序列的特征向量；

分类识别网络模型2，用于基于待测DNA分词序列的特征向量执行病变DNA和非病变DNA识别获得分类识别结果；

处理模块3，用于根据待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。

示例性地，装置还包括训练模块，训练模块用于：

示例性地，训练模块收集已标注为病变DNA分词序列和非病变DNA分词序列，包括：

对替换后的DNA序列进行预处理后得到DNA分词序列；

从DNA分词序列中选取预设比例的分词作为预选分词集合；

在一些实施方式中，示例了一种电子设备，可以包括处理器、通信模块、存储器和通信总线，处理器/计算机、通信模块、存储器通过通信总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行病变差异位点识别方法，该方法包括：

将多个待测DNA分词序列提供给注意力网络模型；通过实施被配置为通过对分词序列中分词编码并进行自注意力处理以得到分词对应注意力分数和特征向量的注意力网络模型来获得各分词对应注意力分数和待测DNA分词序列的特征向量；

将待测DNA分词序列的特征向量提供给分类识别网络模型；通过实施被配置为根据特征向量执行病变DNA和非病变DNA识别的分类识别网络模型来获得分类识别结果；

根据所有待测DNA分词序列中各分词对应注意力分数以及分类识别结果进行比对，确定病变差异位点。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的病变差异位点识别方法。

仅作为示例，处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或者被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)以及在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简明起见，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述，但是在其它示例中，多个处理器或计算机可被使用，或者一个处理器或一个计算机可包括多个处理元件或多种类型的处理元件或者两者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器或者一个处理器和一个控制器来实现，并且一个或多个其它硬件组件可通过一个或多个其它处理器或者另一处理器和另一控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，其示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

通过计算硬件(例如，通过被实现为如上面描述地执行指令或软件以执行本申请中描述的由方法执行的操作的一个或多个处理器或者计算机)来执行以上所示的执行本申请中描述的操作的处理和方法。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，并且一个或多个其它操作可通过一个或多个其它处理器或者另一处理器和另一控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机实现硬件组件并且执行如上方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或者配置处理器或计算机作为用于执行由硬件组件执行的操作和如上方法的机器或专用计算机进行操作。在一个示例中，指令或软件包括由处理器或者计算机直接执行的机器代码(诸如，由编译器生成的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书中的相应描述使用任意编程语言来编写指令或软件，其中，附图中所示的框图和流程图以及说明书中的相应描述公开了用于执行由硬件组件执行的操作和如上方法的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上方法的指令或软件以及任何关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、诸如微型多媒体卡或卡(例如，安全数字(SD)或极速卡(XD))的卡型存储器、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置，其中，任何其它装置被配置为：以非暂时性方式存储指令或软件以及任何关联的数据、数据文件和数据结构，并将指令或软件以及任何关联的数据、数据文件和数据结构提供给一个或多个处理器或者计算机，使得一个或多个处理器或者计算机可执行指令。在一个示例中，指令或软件以及任何关联的数据、数据文件以及数据结构分布于联网的计算机系统上，使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述的描述，在所提供的示例之外的许多实施例和许多应用对本领域技术人员来说都将是显而易见的。因此，本教导的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。出于全面之目的，所有文章和参考包括专利申请和公告的公开都通过参考结合在本文中。在前述权利要求中省略这里公开的主题的任何方面并不是为了放弃该主体内容，也不应该认为申请人没有将该主题考虑为所公开的申请主题的一部分。

Claims

1.病变差异位点识别方法，其特征在于，包括：

将多个待测DNA分词序列提供给注意力网络模型；通过实施被配置为通过对所述分词序列中分词编码并进行自注意力处理以得到分词对应注意力分数和特征向量的所述注意力网络模型来获得各分词对应注意力分数和待测DNA分词序列的特征向量；

将所述待测DNA分词序列的特征向量提供给分类识别网络模型；通过实施被配置为根据特征向量执行病变DNA和非病变DNA识别的所述分类识别网络模型来获得分类识别结果；

根据所有待测DNA分词序列中各分词对应注意力分数以及所述分类识别结果进行比对，确定病变差异位点。

2.如权利要求1所述的病变差异位点识别方法，其特征在于，所述获得各分词对应注意力分数和待测DNA分词序列的特征向量，包括：

3.如权利要求1所述的病变差异位点识别方法，其特征在于，所述注意力网络模型获得各分词对应注意力分数之后，还根据待测DNA分词序列的长度对注意力分数进行纠正。

4.如权利要求3所述的病变差异位点识别方法，其特征在于，所述对注意力分数进行纠正包括：将所述各分词对应注意力分数与纠正系数的乘积作为修正后的注意力分数，其中所述纠正系数根据所述待测DNA分词序列的长度确定。

5.如权利要求4所述的病变差异位点识别方法，其特征在于，所述纠正系数的表达式如下：

6.如权利要求1所述的病变差异位点识别方法，其特征在于，所述方法还包括：按照如下方式对所述注意力网络模型和所述分类识别网络模型进行训练：

基于测试结果调整所述注意力网络模型和分类识别网络模型的参数，直至达到预设的精度要求，以得到已训练的所述注意力网络模型和分类识别网络模型。

7.如权利要求6所述的病变差异位点识别方法，其特征在于，所述方法还包括：收集已标注为病变DNA分词序列和非病变DNA分词序列包括：

获取已标注为病变DNA序列和非病变DNA序列，所述病变DNA序列和非病变为已公开的全基因组DNA序列；

将所述DNA序列中带有病变的位点替换成区别于所述DNA序列中各碱基的转换位，获得替换后的DNA序列；

对所述替换后的DNA序列进行预处理后得到DNA分词序列；

从所述DNA分词序列中选取预设比例的分词作为预选分词集合；

选取所述预选分词集合中的分词进行遮蔽处理，获得遮蔽处理后的DNA分词序列。

8.如权利要求7所述的病变差异位点识别方法，其特征在于，选取所述预选分词集合中的分词进行遮蔽处理包括：

针对所述预选分词集合，将其分为含有转换位的分词集合和不含转换位的分词集合；分别按照预设比例从所述含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行遮蔽。

9.如权利要求8所述的病变差异位点识别方法，其特征在于，分别按照预设比例从所述含有转换位的分词集合和/或不含转换位的分词集合中选取分词进行遮蔽包括：

按照第一比例从所述含有转换位的分词集合中选择分词，利用MASK进行遮蔽；按照第二比例从所述含有转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后所述含有转换位的分词集合中其余的分词不进行替换；

和/或，按照第三比例从所述不含转换位的分词集合中选择分词，利用MASK进行遮蔽；按照第四比例从所述不含转换位的分词集合剩下部分选择分词，将分词替换为随机的分词；最后所述不含转换位的分词集合中其余的分词不进行替换。

10.如权利要求1所述的病变差异位点识别方法，其特征在于，根据所有待测DNA分词序列中各分词对应注意力分数以及所述分类识别结果进行比对，确定病变差异位点，包括：

11.病变差异位点识别装置，其特征在于，包括：

注意力网络模型，用于对多个待测DNA分词序列中各分词编码并进行自注意力处理以得到待测DNA分词序列中各分词对应注意力分数和待测DNA分词序列的特征向量；

分类识别网络模型，用于基于待测DNA分词序列的特征向量执行病变DNA和非病变DNA识别获得分类识别结果；

处理模块，用于根据所有待测DNA分词序列各分词对应注意力分数以及所述分类识别结果进行比对，确定病变差异位点。

12.如权利要求11所述的病变差异位点识别装置，其特征在于，

所述装置还包括训练模块，所述训练模块用于：

收集已标注为病变DNA分词序列和非病变DNA分词序列，按照预设比例分为训练集和测试集，并利用所述训练集和测试集对所述注意力网络模型和所述分类识别网络模型进行训练和测试；

基于测试结果调整所述注意力网络模型和分类识别网络模型的参数，直至达到预设的精度要求，以得到已训练的注意力网络模型和分类识别网络模型。

13.如权利要求12所述的病变差异位点识别装置，其特征在于，所述训练模块收集已标注为病变DNA分词序列和非病变DNA分词序列，包括：

将所述DNA序列中带有病变的位点替换成区别于DNA序列中各碱基的转换位，获得替换后的DNA序列；

对所述替换后的DNA序列进行预处理后得到DNA分词序列；

选取所述预选分词集合中的分词进行遮蔽，获得遮蔽处理后的DNA分词序列。

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10中任一项所述的病变差异位点识别方法。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的病变差异位点识别方法。