CN121237196A - 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用 - Google Patents

基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用

Info

Publication number
CN121237196A
CN121237196A CN202511335015.8A CN202511335015A CN121237196A CN 121237196 A CN121237196 A CN 121237196A CN 202511335015 A CN202511335015 A CN 202511335015A CN 121237196 A CN121237196 A CN 121237196A
Authority
CN
China
Prior art keywords
species
gene
target
target sequence
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202511335015.8A
Other languages
English (en)
Inventor
辛天怡
宋经元
史志杰
甘雨桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medicinal Plant Development of CAMS and PUMC
Original Assignee
Institute of Medicinal Plant Development of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medicinal Plant Development of CAMS and PUMC filed Critical Institute of Medicinal Plant Development of CAMS and PUMC
Priority to CN202511335015.8A priority Critical patent/CN121237196A/zh
Publication of CN121237196A publication Critical patent/CN121237196A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供一种基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用。具体地,首先,利用靶标序列识别模型对来自目标物种的全基因组数据的多个第一基因片段进行预测并输出预测概率;接着,基于所述预测概率和预设第一筛条件对多个所述第一基因片段进行筛选得到第二基因片段;然后,基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段;最后将经过靶标引物验证的第三基因片段确定为靶标序列。采用这样的技术方案,靶标序列识别模型可以对多个第一基因片段进行预测并输出预测概率,大幅提高靶标序列的筛选效率和准确性。

Description

基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及 应用
技术领域
本公开涉及生物技术领域,尤其涉及一种基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用。
背景技术
物种经典鉴定方法在实际应用中面临诸多问题,如形态相似导致误判,依赖鉴定专家经验及主观判断,耗时且成本高,难以应对大规模样本等。新兴的分子生物学技术,如DNA条形码等只关注基因组中几个特定区域,虽然能够在一定范围内实现物种鉴定目的,但是仍有部分物种因具有相同的DNA条形码序列而不能实现准确鉴定。
基于深度学习的人工智能(Artificial Intelligence,AI)识别模型主要依赖图像识别,由于该类模型训练的数据集通常涉及物种的各类表观形态特征,但是,随着物种数量以及数据规模的增加,现有AI模型的识别能力会遭遇明显的瓶颈,例如,在实际应用中,AI识别模型通常只能在属等级上达到较好的鉴定效果,而种及种下等级的鉴定则难以解决。近年来,AI技术通过神经网络、自然语言处理等算法,在基因序列分析、变异位点注释等领域展现出显著优势。然而,目前尚未有研究报道如何利用AI技术挖掘物种全基因组数据中的鉴别特征,用于生物物种鉴定。
发明内容
有鉴于此,本公开的目的在于提出一种基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用。
基于上述目的,本公开提供了一种基于人工智能的物种鉴定的靶标序列筛选方法,包括:
获取并基于目标物种的全基因组数据,确定多个第一基因片段;
利用靶标序列识别模型,对所述多个第一基因片段进行靶标序列概率预测并输出各所述第一基因片段的预测概率;
根据所述预测概率和预设第一筛选条件,对多个所述第一基因片段进行筛选得到多个第二基因片段;
基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段;
根据所述第三基因片段设计靶标引物,利用所述靶标引物、所述目标物种的第一基因组和非目标物种的第二基因组,验证所述第三基因片段的特异性;并且将通过验证的所述第三基因片段确定为靶标序列;
其中,所述靶标序列识别模型基于数据集对初始模型进行训练得到;
其中,所述数据集包括靶标序列样本以及所述靶标序列样本对应的物种的全基因组样本。
在一些实施例中,所述获取并基于目标物种的全基因组数据,确定多个第一基因片段,具体包括;
获取所述目标物种的多个个体的全基因组数据,切分各所述全基因组数据得到多个第四基因片段;
基于多个所述第四基因片段和各所述个体建立倒排索引,统计每一所述第四基因片段在不同的所述个体中出现的次数;
基于预设第二筛选条件和所述次数,对多个所述第四基因片段进行筛选得到所述第一基因片段。
在一些实施例中,所述预设第一筛选条件包括第一排序范围;
所述根据所述预测概率和预设第一筛选条件,对多个所述第一基因片段进行筛选得到多个第二基因片段,具体包括:
基于所述预测概率对所述多个第一基因片段进行排序;
响应于确定所述第一基因片段属于所述第一排序范围,则所述第一基因片段被确定为所述第二基因片段。
在一些实施例中,所述基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段,具体包括:
将每一所述第二基因片段和所述核酸数据库中的核酸序列进行比对;
响应于确定任一所述第二基因片段和所述核酸数据库中除所述目标物种之外,任意物种中与所述第二基因片段等长度的核酸序列均存在至少N个碱基差异,则所述第二基因片段被确定为所述第三基因片段;
其中,N≥3。
在一些实施例中,所述靶标序列样本满足多个过滤规则;其中,所述过滤规则基于多个所述靶标序列样本统计得到;
所述数据集还包括第一类序列样本和第二类序列样本中的至少一者;
其中,所述第一类序列样本满足所述多个过滤规则且不属于所述靶标序列;所述第二类序列样本为随机序列或者满足所述多个过滤规则中的部分规则。
在一些实施例中,所述靶标序列样本、所述第一类序列样本和所述第二类序列样本的数量比例为1:0.8~1.0:0.05~0.2。
在一些实施例中,所述初始模型包括特征提取模块和分类模块;其中,所述特征提取模块为基于Transformer架构的预训练模型。
基于同一发明构思,本公开实施例还提供了一种物种鉴定的试剂盒,所述试剂盒包括引物序列;所述引物序列针对靶标序列设计;所述靶标序列选自5’-TTTCAGATTCTAAGCCTACCCTACT-3’,SEQ ID NO:1和5’-TTTCCTGACGAATGGACATGTTGCG-3’,SEQID NO:4中的至少一者。
基于同一发明构思,本公开实施例还提供了一种靶标序列在物种鉴定中的应用,所述靶标序列选自5’-TTTCAGATTCTAAGCCTACCCTACT-3’,SEQ ID NO:1和5’-TTTCCTGACGAATGGACATGTTGCG-3’,SEQ ID NO:4中的至少一者。需要说明的是,本公开实施例提供的应用可以鉴定所有能够获得靶标序列的样品,包括但不限于中药材、饮片、中成药、膳食补充剂等。
在一些实施例中,所述SEQ ID NO:1用于鉴定刺盘孢属真菌果生刺盘孢;所述SEQID NO:4用于鉴定刺盘孢属真菌暹罗刺盘孢。
从上面所述可以看出,本公开提供的一种基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用,首先,利用靶标序列识别模型对来自目标物种的全基因组数据的多个第一基因片段进行预测并输出预测概率;接着,基于所述预测概率和预设第一筛条件对多个所述第一基因片段进行筛选得到第二基因片段;然后,基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段;最后将经过靶标引物验证的第三基因片段确定为靶标序列。采用这样的技术方案,靶标序列识别模型可以对多个第一基因片段进行预测并输出预测概率,大幅提高靶标序列的筛选效率和准确性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A示出本公开实施例提供的一种基于人工智能的物种鉴定的靶标序列筛选方法的流程示意图;
图1B示出本公开实施例提供的又一种基于人工智能的物种鉴定的靶标序列筛选方法的部分流程示意图;
图2A示出本公开实施例2中果生刺盘孢的物种特异性靶标序列GenBank比对结果;
图2B示出本公开实施例2中暹罗刺盘孢的物种特异性靶标序列GenBank比对结果;
图2C示出本公开实施例2中果生刺盘孢的物种特异性靶标序列的Sanger测序结果;
图2D示出本公开实施例2中暹罗刺盘孢的物种特异性靶标序列的Sanger测序结果;
图3A示出本公开实施例3中果生刺盘孢与其他Colletotruichum属近缘物种的酶标仪检测结果;
图3B示出本公开实施例3中暹罗刺盘孢物种与其他Colletotruichum属近缘物种的酶标仪检测结果;
图4A示出本公开实施例3中果生刺盘孢与其他Colletotruichum属近缘物种的可视荧光检测结果;
图4B示出本公开实施例3中暹罗刺盘孢物种与其他Colletotruichum属近缘物种的可视荧光检测结果。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
本公开实施例所用的缩写具有它们的在化学和生物领域内的常规含义。根据化学领域中已知的标准化合价规则构建本文阐述的化学结构和化学式。除非特殊说明,本文中的“μM”指的是“μmol/L”,“mM”指的是“mmol/L”。
如背景技术部分所述,相关技术尚未利用AI技术挖掘物种全基因组数据中的鉴别特征,用于生物物种鉴定。
有鉴于此,本公开实施例提供了一种一种基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用。其中,所述筛选方法包括:首先,利用靶标序列识别模型对来自目标物种的全基因组数据的多个第一基因片段进行预测并输出预测概率;接着,基于所述预测概率和预设第一筛条件对多个所述第一基因片段进行筛选得到第二基因片段;然后,基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段;最后将经过靶标引物验证的第三基因片段确定为靶标序列。采用这样的技术方案,靶标序列识别模型可以对多个第一基因片段进行预测并输出预测概率,大幅提高靶标序列的筛选效率和准确性。
图1A示出本公开实施例提供的一种基于人工智能的物种鉴定的靶标序列筛选方法的流程示意图;图1B示出本公开实施例提供的又一种基于人工智能的物种鉴定的靶标序列筛选方法的部分流程示意图。
在一些实施例中,首先构建初始模型。
可选地,初始模型可以包括特征提取模块和分类模块;其中,特征提取模块为基于Transformer架构的预训练模型,例如DNABERT模型;分类模块可以是线性层或其他实现分类的网络。需要说明的是,特征提取模块可以将CLS位置的特征作为序列特征输出给分类模块。
可选地,初始模型也可以是带有分类头的DNABERT模型,例如序列级分类模型、Token级分类模型等,本公开对此不做限定。
需要说明的是,初始模型还可以是文本分类大模型,本公开对此不做限定。
接着,参考图1B,在已知特异性物种的数据上构建数据集201A。需要说明的是,数据集可以包括训练集和测试集。
示例性地,数据集可以包括基于前期研究鉴定出的链格孢属31个物种的靶标序列样本及其对应物种的145个个体的全基因组样本。需要说明的是,靶标序列样本可以是正样本(Positive Samples)。
为了提升模型区分细微差异的能力,本公开的发明人还在数据集中增加难负样本(Hard Negative Samples)。
在一些实施例中,难负样本(Hard Negative Samples)可以采用如下方法确定:对正样本(对应靶标序列样本)进行统计分析,得到过滤规则。示例性地,统计序列整体的GC含量,5’端和3’端3-kmer、6-kmer分别的GC含量,连续重复的单碱基、双碱基、三碱基的重复数与个数(如AAA重复数是3、AAAA重复数是4、序列包含多少个该序列即为个数),构建起各个指标的含量范围,即为过滤规则。
通过过滤规则对全基因组序列进行过滤,对于满足全部过滤规则并且不属于正样本的基因片段,可以确定为难负样本。
由此可见,难负样本和正样本具有高度序列相似性但不属于正样本,这些样本是模型学习的难点,有助于提升模型区分细微差异的能力。
为了增强模型对非靶标通用背景的判别力,本公开部分实施例还在数据集中增加了负样本(Negative Samples)。
在一些实施例中,负样本可以采用两种随机抽取序列片段的方式进行构建。例如,采用随机序列构建负样本。又如,选择满足多个过滤规则中的部分规则(例如一个或两个条件)的基因片段作为负样本。满足多个过滤规则中的部分规则的基因片段在整体序列特征上与正样本保持相似,但序列内容显著不同,可以增强模型的判别力。
然后,利用数据集对初始模型进行有监督的迁移学习训练。需要说明的是,在训练过程中,可以采用参数部分冻结的策略,避免噪声对参数造成大范围破坏,减少过拟合。同时可以应用标签平滑策略,避免对噪声数据进行过渡拟合。
在一些实施例中,正样本:难负样本:负样本的比例可以是1:0.8~1.0:0.05~0.2,这样的比例可以增强模型对难负样本的学习的同时确保对正样本、负样本的学习,提升分类的精度。若提高难负样本的比例,则模型对正样本的学习不足,若降低难负样本的比例,则模型无法对难负样本进行充分的学习。
可选地,正样本:难负样本:负样本的比例可以是1:0.9:0.1。
通过针对性的数据集构建和训练策略优化,训练得到的靶标序列识别模型能够精准适应物种的靶标序列特征,最终实现了对物种靶标序列的高精度识别与区分,显著提升了模型在物种特异性靶标序列上的识别性能。
继续参考图1B,构建本地核酸数据库202A。在一些实施例中,本地核酸数据库可以基于GenBank数据库、国家基因组科学数据中心(National Genomics Data Center,NGDC)或其他公开数据库中的DNA序列数据构建。
需要说明的是,GenBank数据库为美国国立生物技术信息中心(National Centerfor Biotechnology information,NCBI)建立的DNA序列数据库,该数据库的网址地址为:https://www.ncbi.nlm.nih.gov/genbank/。国家基因组科学数据中心为中国科学院北京基因组研究所作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设的生命与健康大数据中心,该数据库的网址地址为:https://ngdc.cncb.ac.cn/。
示例性地,若待检测的物种是真核生物,则本地核酸数据库可以主要使用GenBank数据库中的Core nucleotide database及全部真核生物基因组数据。
基于上述训练得到的靶标序列识别模型和本地核酸数据库,可以对物种鉴定的靶标序列进行筛选。下面结合附图对靶标序列的筛选方法进行详细说明。
如图1A和图1B所示,所述筛选方法100包括:
S101:获取并基于目标物种的全基因组数据,确定多个第一基因片段。
这里,如图1B所示,用户可以输入目标物种名称及其全基因组数据存储路径203A,基于存储路径,可以获取全基因组数据。
在一些实施例中,步骤S101可以包括:
获取目标物种的多个个体的全基因组数据,切分各所述全基因组数据得到多个第四基因片段;这里,第四基因片段的长度可以是预设的,例如20~800bp中任一者,例如20bp~100bp,20bp~80bp,25bp,50bp等,本公开对此不做限定。
可选地,切分各所述全基因组数据得到多个第四基因片段,可以采用如下方式:例如第四基因片段的长度是K,全基因组的长度是L,则可以将全基因组切分为L-K+1个第四基因片段。
参考图1B的204B,基于多个所述第四基因片段和各所述个体建立倒排索引,统计每一所述第四基因片段在不同的所述个体中出现的次数。
基于预设第二筛选条件和所述次数,对多个所述第四基因片段进行筛选得到所述第一基因片段。
示例性地,第二筛选条件可以是出现的次数排序前80%的第四基因片段。
在个体中出现次数少的第四基因片段可能是个体特有的片段,而非物种特有的片段,采用预设第二筛选条件,可以对排除在个体中出现次数少的第四基因片段,减少个体特有的第四基因片段输入靶标序列识别模型。
需要说明的是,上述的倒排索引仅是示例,本领域技术人员也可以采用其他方式统计第四基因片段在不同的所述个体中出现的次数,本公开对此不做限定。
S103:参考图1B的205B,利用靶标序列识别模型,对所述多个第一基因片段进行靶标序列概率预测并输出各所述第一基因片段的预测概率。
S105:根据所述预测概率和预设第一筛选条件,对多个所述第一基因片段进行筛选得到多个第二基因片段;
在一些实施例中,所述预设第一筛选条件包括第一排序范围,例如预测排序前20000个;S105具体包括:
基于所述预测概率对所述多个第一基因片段进行排序;
响应于确定所述第一基因片段属于所述第一排序范围,则所述第一基因片段被确定为所述第二基因片段。
在一些可替换的实施例中,预设第一筛选条件包括第一排序范围(例如预测排序前500个)、第二排序范围(预测排序前501~1000个)、第三排序范围(预测排序前1001~1500个)等。基于此,步骤S105~S109可以循环执行,例如在S109中各所述第三基因片段均未为确定为靶标序列时,则可以将第二排序范围的第一基因片段确定为第二基因片段,继续执行S107和S109。依次类推,直至S109中至少一第三基因片段确定为靶标序列。
S107:基于预先构建的核酸数据库(202A),对所述多个第二基因片段进行筛选得到第三基因片段;
在一些实施例中,S107具体包括:
参考图1B的206B:将每一所述第二基因片段和所述核酸数据库中的核酸序列进行比对;
这里,基于第二基因片段可以构建Query库;基于Query库和核酸数据库,可以进行BLAST(Basic Local Alignment Search Tool,BLAST)比对,并输出比对结果。
参考图1B的207B:响应于确定任一所述第二基因片段和所述核酸数据库中除所述目标物种之外,任意物种中与所述第二基因片段等长度的核酸序列均存在至少N个碱基差异,则所述第二基因片段被确定为所述第三基因片段;其中,N≥3。需要说明的是,N取正整数。
通过S107,可以过滤与核酸数据库中的比对差异较小的第二基因片段,提高第三基因片段的特异性。
S109:根据所述第三基因片段设计靶标引物,利用所述靶标引物、所述目标物种的第一基因组和非目标物种的第二基因组,验证所述第三基因片段的特异性;并且将通过验证的所述第三基因片段确定为靶标序列;这里,非目标物种可以是与目标物种同属的物种,其数量可以是多个,本公开对此不做限定;
需要说明的是,目标物种的第一基因组和非目标物种的第二基因组可以分别通过DNA提取技术获得,例如,获取目标物种的生物体,利用DNA提取技术可以得到第一基因组,获取非目标物种的生物体,利用DNA提取技术可以得到第二基因组。
继续参考图1B的207B,这里,根据所述第三基因片段设计靶标引物可以是在第三基因片段所在位置的上下游500bp范围(对应上下文匹配)内的碱基序列设计靶标引物(例如SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:6)。
在一些实施例中,所述利用所述靶标引物、所述目标物种的第一基因组和非目标物种的第二基因组,验证所述第三基因片段的特异性,具体包括:
利用所述靶标引物,扩增所述第一基因组得到第一扩增产物,扩增所述第二基因组得到第二扩增产物;
基于所述第一扩增产物和所述第二扩增产物,得到凝胶电泳图和测序数据(例如Sanger测序);
基于所述凝胶电泳图和所述测序数据,确定所述第三基因片段的特异性。
需要说明的是,靶标引物仅在第一基因组扩增出目标条带,在第二基因组未扩增出目标条带,并且测序数据仅在第一基因组序列完全匹配,第二基因组之外均存在至少N个碱基差异,则特异性成立。
在一些实施例中,所述靶标序列样本满足多个过滤规则;其中,所述过滤规则基于多个所述靶标序列样本统计得到;
所述数据集还包括第一类序列样本(对应难负样本)和第二类序列样本(对应负样本)中的至少一者;
其中,所述第一类序列样本满足所述多个过滤规则且不属于所述靶标序列;所述第二类序列样本为随机序列或者满足所述多个过滤规则中的部分规则。
在一些实施例中,所述靶标序列样本、所述第一类序列样本和所述第二类序列样本的数量比例为1:0.8~1.0:0.05~0.2。
需要说明的是,本公开实施例的筛选方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了使得本公开的技术方案更加清楚、易于理解,下面结合附图和具体实施例,对本公开提供的基于人工智能的物种鉴定的靶标序列筛选方法进行详细说明。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
1.材料
自GenBank下载刺盘孢属真菌果生刺盘孢(Colletotrichum fructicola)已发表的全基因组数据17条和暹罗刺盘孢(Colletotrichum siamense)已发表的全基因组数据24条。
表1GenBank下载基因组数据信息表
2.基于人工智能的物种鉴定的靶标序列预测
1)将上述基因组数据切分成25kmer的片段并建立倒排索引,标记各25kmer片段在该物种内不同个体基因组中出现的次数;
2)将步骤1)所得25kmer片段,截取在物种内不同个体间出现频次前80%的片段,提交给前述训练得到的靶标序列识别模型,由该模型预测各25kmer片段是否为物种特异性靶标序列,并输出预测概率;
3)选择步骤2)所得物种特异性靶标序列预测概率得分的Top 20,000条序列,构建Query库;与本地核酸数据库进行BLAST比对,输出比对结果;图2A示出本公开实施例2中果生刺盘孢的物种特异性靶标序列GenBank比对结果;图2B示出本公开实施例2中暹罗刺盘孢的物种特异性靶标序列GenBank比对结果;
4)根据步骤3)中的比对结果,筛选除该物种本身之外,与其他任意物种存在3个以上碱基差异的25kmer作为该物种的物种特异性候选靶标序列;其中,果生刺盘孢获得14条物种特异性候选靶标序列,暹罗刺盘孢获得5条物种特异性候选靶标序列。
实施例2
为了确定按照实施例1筛选出来的特异性候选靶标序列实际仅存在于该目标物种中,确保在实际应用中能够准确得反映其理论特性。接下来基于果生刺盘孢与暹罗刺盘孢的物种特异性候选靶标序列设计特异性引物对,并分别对其自身物种与其他近缘物种进行PCR扩增与Sanger测序验证。
1.材料
刺盘孢属真菌菌株,购买自中国普通微生物菌种保藏管理中心和商城北纳创联生物科技有限公司。具体物种信息如下:
表2刺盘孢属真菌样品信息表
2.实验步骤
2.1DNA提取
采用试剂盒法提取待检刺盘孢属样品基因组DNA。
2.2PCR扩增
依据实施例1筛选出来的特异性候选靶标序列,将该序列上下游延展100bp作为扩展序列用于设计引物,使用上述设计出来引物对分别对所有待检测样本做PCR扩增进行特异性检验,PCR体系为:12.5μL 2×Taq PCR Master Mix,各1μL上下游引物(浓度为10μmol/L),2μL DNA模板(约20ng),8.5μLddH2O,共25μL。PCR反应程序为95℃3min;95℃30s,56℃30s,72℃30s,30cycles;72℃10min。
2.3琼脂糖凝胶电泳
通过1.5%琼脂糖凝胶电泳(120V,50min)结合DL1000分子量标准评估扩增产物特异性及片段长度分布。
2.4Sanger测序
对琼脂糖凝胶成像图呈现的特异性目标条带及所有可见扩增条带实施Sanger双向测序,若测序结果仅与目标物种特异性候选靶标序列完全匹配,在其他非目标物种中无扩增条带或可见扩增条带测序数据与特异性候选靶标序列存在3个及以上碱基差异,则该特异性候选靶标序列实际成立,可以作为靶标序列用于物种鉴定。
针对果生刺盘孢最终筛选出1条特异性靶标序列及其引物对信息如下:
Cfr_Target:5’-TTTCAGATTCTAAGCCTACCCTACT-3’,SEQ ID NO:1;
Cfr_F:5’-GAACAAGGAAATCCAGGCCCTACTC-3’,SEQ ID NO:2;
Cfr_R:5’-ATAATCAGGCTTTGCGTGGCTGTAG-3’,SEQ ID NO:3;
针对暹罗刺盘孢最终筛选的1条特异性靶标序列及其引物对信息如下:
Csi_Target:5’-TTTCCTGACGAATGGACATGTTGCG-3’,SEQ ID NO:4;
Csi_F:5’-TTTCCAGTCCGGCTCAGTGTATTGG-3’,SEQ ID NO:5;
Csi_R:5’-TGAAAGTCCGTCGAAGTTCAATGGC-3’,SEQ ID NO:6;
图2C示出本公开实施例2中果生刺盘孢的物种特异性靶标序列的Sanger测序结果;图2D示出本公开实施例2中暹罗刺盘孢的物种特异性靶标序列的Sanger测序结果。
需要说明的是,考虑到后续采用CRISPR-Cas12a检测技术为果生刺盘孢与暹罗刺盘孢实现准确鉴定和快速检测需求提供技术支持,上述针对果生刺盘孢和暹罗刺盘孢的特异性靶标序列与其他非目标物种除了原型间隔区邻近基序(Protospacer AdjacentMotif,PAM)之外存在3个及以上碱基差异。
应当理解的是,当采用其他鉴定和快速检测技术,例如测序、微滴式数字PCR(droplet digital PCR,ddPCR)、实时荧光定量PCR(quantitative real-time PCR,qPCR)等,则无需考虑PAM。
由上述结果可知,本公开实施例提供的基于人工智能的物种鉴定的靶标序列筛选方法得到的靶标序列能够用于刺盘孢属物种鉴定,具有良好的可行性。
实施例3
本实施例中,采用CRISPR-Cas12a检测技术为果生刺盘孢与暹罗刺盘孢实现准确鉴定和快速检测需求提供技术支持。
1.材料
同实施例2。
2.实验步骤
2.1DNA提取
同实施例2。
2.2PCR扩增
同实施例2。
2.3基于CRISPR/Cas12a基因编辑体系检验果生刺盘孢与暹罗刺盘孢物种特异性靶标序列
针对果生刺盘孢设计crRNA,Cfr_crRNA:5’-UAAUUUCUACUAAGUGUAGAUAGAUUCUAAGCCUACCCUACU-3’,SEQ ID NO:7;针对暹罗刺盘孢设计crRNA,Csi_crRNA:5’-UAAUUUCUACUAAGUGUAGAUCUGACGAAUGGACAUGUUGCG-3’,SEQ ID NO:8。取步骤2.2所得的PCR产物10μL,加入1.65μL crRNA(300nM),5μL 10×NEBuffer 2.1,1μL EnGen Lba Cas12a Cpf1(20nM),30.35μL ddH2O混匀,随后置于37℃孵育10min,取出后加入2μL Poly_C_FQ(5’6-FAM/CCCCCCCCCC/3’BHQ-1,SEQ ID NO:9),可通过酶标仪在37℃孵育并于0、5、10、15、20min为时间间隔在λex 483nm/λem 535nm波长下分别检测荧光值数据,或使用蓝光透射仪直接观察荧光现象。
本实施例中选用果生刺盘孢和暹罗刺盘孢作为目标物种,其余待测样品作为近缘物种进行实验研究。
图3A示出本公开实施例3中果生刺盘孢与其他Colletotruichum属近缘物种的酶标仪检测结果;图3B示出本公开实施例3中暹罗刺盘孢物种与其他Colletotruichum属近缘物种的酶标仪检测结果。如图3A和图3B所示,目标物种的荧光值在统计学上显著高于其他物种及对照组(CK)(P<0.01)。
图4A示出本公开实施例3中果生刺盘孢与其他Colletotruichum属近缘物种的可视荧光检测结果;图4B示出本公开实施例3中暹罗刺盘孢物种与其他Colletotruichum属近缘物种的可视荧光检测结果。在肉眼可见的情况下仅目标物种显示出较强的荧光信号。
根据以上实验结果可见,本公开所阐述的技术体系通过酶标仪检测、可视荧光检测两种检测手段得到了同一性证据,有力地证明了该技术体系能够实现目标物种的准确鉴定与快速检测需求。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.基于人工智能的物种鉴定的靶标序列筛选方法,其特征在于,包括:
获取并基于目标物种的全基因组数据,确定多个第一基因片段;
利用靶标序列识别模型,对所述多个第一基因片段进行靶标序列概率预测并输出各所述第一基因片段的预测概率;
根据所述预测概率和预设第一筛选条件,对多个所述第一基因片段进行筛选得到多个第二基因片段;
基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段;
根据所述第三基因片段设计靶标引物,利用所述靶标引物、所述目标物种的第一基因组和非目标物种的第二基因组,验证所述第三基因片段的特异性;并且将通过验证的所述第三基因片段确定为靶标序列;
其中,所述靶标序列识别模型基于数据集对初始模型进行训练得到;
其中,所述数据集包括靶标序列样本以及所述靶标序列样本对应的物种的全基因组样本。
2.根据权利要求1所述的靶标序列筛选方法,其特征在于,所述获取并基于目标物种的全基因组数据,确定多个第一基因片段,具体包括;
获取所述目标物种的多个个体的全基因组数据,切分各所述全基因组数据得到多个第四基因片段;
基于多个所述第四基因片段和各所述个体建立倒排索引,统计每一所述第四基因片段在不同的所述个体中出现的次数;
基于预设第二筛选条件和所述次数,对多个所述第四基因片段进行筛选得到所述第一基因片段。
3.根据权利要求1所述的靶标序列筛选方法,其特征在于,所述预设第一筛选条件包括第一排序范围;
所述根据所述预测概率和预设第一筛选条件,对多个所述第一基因片段进行筛选得到多个第二基因片段,具体包括:
基于所述预测概率对所述多个第一基因片段进行排序;
响应于确定所述第一基因片段属于所述第一排序范围,则所述第一基因片段被确定为所述第二基因片段。
4.根据权利要求1所述的靶标序列筛选方法,其特征在于,所述基于预先构建的核酸数据库,对所述多个第二基因片段进行筛选得到第三基因片段,具体包括:
将每一所述第二基因片段和所述核酸数据库中的核酸序列进行比对;
响应于确定任一所述第二基因片段和所述核酸数据库中除所述目标物种之外,任意物种中与所述第二基因片段等长度的核酸序列均存在至少N个碱基差异,则所述第二基因片段被确定为所述第三基因片段;
其中,N≥3。
5.根据权利要求1所述的靶标序列筛选方法,其特征在于,所述靶标序列样本满足多个过滤规则;其中,所述过滤规则基于多个所述靶标序列样本统计得到;
所述数据集还包括第一类序列样本和第二类序列样本中的至少一者;
其中,所述第一类序列样本满足所述多个过滤规则且不属于所述靶标序列;所述第二类序列样本为随机序列或者满足所述多个过滤规则中的部分规则。
6.根据权利要求5所述的靶标序列筛选方法,其特征在于,所述靶标序列样本、所述第一类序列样本和所述第二类序列样本的数量比例为1:0.8~1.0:0.05~0.2。
7.根据权利要求1所述的靶标序列筛选方法,其特征在于,所述初始模型包括特征提取模块和分类模块;其中,所述特征提取模块为基于Transformer架构的预训练模型。
8.一种物种鉴定的试剂盒,其特征在于,所述试剂盒包括引物序列;所述引物序列针对靶标序列设计;所述靶标序列选自5’-TTTCAGATTCTAAGCCTACCCTACT-3’,SEQ ID NO:1和5’-TTTCCTGACGAATGGACATGTTGCG-3’,SEQ ID NO:4中的至少一者。
9.一种靶标序列在物种鉴定中的应用,其特征在于,所述靶标序列选自5’-TTTCAGATTCTAAGCCTACCCTACT-3’,SEQ ID NO:1和5’-TTTCCTGACGAATGGACATGTTGCG-3’,SEQID NO:4中的至少一者。
10.权利要求8所述的试剂盒或权利要求9所述的应用,其特征在于,所述SEQ ID NO:1用于鉴定果生刺盘孢;所述SEQ ID NO:4用于鉴定暹罗刺盘孢。
CN202511335015.8A 2025-09-18 2025-09-18 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用 Pending CN121237196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202511335015.8A CN121237196A (zh) 2025-09-18 2025-09-18 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202511335015.8A CN121237196A (zh) 2025-09-18 2025-09-18 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用

Publications (1)

Publication Number Publication Date
CN121237196A true CN121237196A (zh) 2025-12-30

Family

ID=98143785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202511335015.8A Pending CN121237196A (zh) 2025-09-18 2025-09-18 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用

Country Status (1)

Country Link
CN (1) CN121237196A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN112331268A (zh) * 2020-10-19 2021-02-05 成都基因坊科技有限公司 目标物种特有序列的获取方法及目标物种检测方法
CN114317792A (zh) * 2022-01-11 2022-04-12 湖南大学 一种细菌种的16S rRNA基因特异性检测靶标片段的筛选方法及其应用
CN115087750A (zh) * 2022-03-30 2022-09-20 中国医学科学院药用植物研究所 基于全基因组分析的真核生物物种鉴定方法及应用
CN116030881A (zh) * 2022-12-13 2023-04-28 北京邮电大学 基于人工智能的基因及基因簇功能预测方法及装置
CN116083602A (zh) * 2023-01-10 2023-05-09 中国医学科学院药用植物研究所 基于时珍法鉴定鹿科动物的物种特异性靶标序列、试剂盒及应用
CN116665777A (zh) * 2023-05-15 2023-08-29 予果生物科技(北京)有限公司 基于引物模板结合能力的引物设计方法、系统及存储介质
CN120041596A (zh) * 2024-12-26 2025-05-27 中国医学科学院药用植物研究所 基于时珍法鉴定链格孢属物种的特异靶标序列、引物对、检测方法及试剂盒

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN112331268A (zh) * 2020-10-19 2021-02-05 成都基因坊科技有限公司 目标物种特有序列的获取方法及目标物种检测方法
CN114317792A (zh) * 2022-01-11 2022-04-12 湖南大学 一种细菌种的16S rRNA基因特异性检测靶标片段的筛选方法及其应用
CN115087750A (zh) * 2022-03-30 2022-09-20 中国医学科学院药用植物研究所 基于全基因组分析的真核生物物种鉴定方法及应用
CN116030881A (zh) * 2022-12-13 2023-04-28 北京邮电大学 基于人工智能的基因及基因簇功能预测方法及装置
CN116083602A (zh) * 2023-01-10 2023-05-09 中国医学科学院药用植物研究所 基于时珍法鉴定鹿科动物的物种特异性靶标序列、试剂盒及应用
CN116665777A (zh) * 2023-05-15 2023-08-29 予果生物科技(北京)有限公司 基于引物模板结合能力的引物设计方法、系统及存储介质
CN120041596A (zh) * 2024-12-26 2025-05-27 中国医学科学院药用植物研究所 基于时珍法鉴定链格孢属物种的特异靶标序列、引物对、检测方法及试剂盒

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHOU ZH等: "DNABERT-S: pioneering species differentiation with species-aware DNA embeddings", BIOINFORMATICS, 20 July 2025 (2025-07-20), pages 4 *

Similar Documents

Publication Publication Date Title
AU2023282274B2 (en) Variant classifier based on deep neural networks
Saeed et al. Unsupervised discovery of microbial population structure within metagenomes using nucleotide base composition
WO2019200338A1 (en) Variant classifier based on deep neural networks
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
CN113838528B (zh) 基于单细胞免疫组库数据的单细胞水平耦合可视化方法
Yu et al. SANPolyA: a deep learning method for identifying poly (A) signals
CN118248210A (zh) 基于全基因组重测序snp大数据和深度学习的谱系溯源方法
Hickl et al. Binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets
CN119479773B (zh) 基于引物解聚合算法的超高灵敏度多重采样的评估与优化方法
Wicker et al. Density of points clustering, application to transcriptomic data analysis
Belliardo et al. Improvement of eukaryotic protein predictions from soil metagenomes
CN103348350B (zh) 核酸信息处理装置及其处理方法
CN119252334B (zh) 一种合成生物益生菌的筛选方法及系统
Chen et al. Identifying DNA methylation types and methylated base positions from bacteria using nanopore sequencing with multi-scale neural network
CN121237196A (zh) 基于人工智能的物种鉴定的靶标序列筛选方法、试剂盒及应用
US20140019062A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
CN115905898B (zh) 基于少量基因的表达谱的药效预测方法、装置和试剂盒
CN118497379A (zh) 一种用于唾液样本bmi预测的微生物标志物组合和筛选方法
Grant et al. KSGP 3.1: improved taxonomic annotation of Archaea communities using LotuS2, the genome taxonomy database and RNAseq data
WO2024018467A1 (en) System and method for tcr sequence identification and/or classification
Dawood et al. Human verification system based on DNA biometrics
Hu et al. Accurate estimation of intrinsic biases for improved analysis of bulk and single-cell chromatin accessibility sequencing data using SELMA
CN117116351B (zh) 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统
Weir et al. Sample barcoding-associated technical variation in probe-based single-cell RNA sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination