CN106202995A - 小麦BSR‑Seq基因定位的方法 - Google Patents
小麦BSR‑Seq基因定位的方法 Download PDFInfo
- Publication number
- CN106202995A CN106202995A CN201610551811.XA CN201610551811A CN106202995A CN 106202995 A CN106202995 A CN 106202995A CN 201610551811 A CN201610551811 A CN 201610551811A CN 106202995 A CN106202995 A CN 106202995A
- Authority
- CN
- China
- Prior art keywords
- transcript
- pond
- value
- gene
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 104
- 210000000582 semen Anatomy 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013507 mapping Methods 0.000 title claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 14
- 239000003147 molecular marker Substances 0.000 claims abstract description 11
- 238000011161 development Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 11
- 239000003550 marker Substances 0.000 claims description 11
- 108700028369 Alleles Proteins 0.000 claims description 10
- 238000002156 mixing Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 5
- 238000002864 sequence alignment Methods 0.000 claims description 5
- 108020004999 messenger RNA Proteins 0.000 claims description 4
- 238000012797 qualification Methods 0.000 claims description 4
- 241000209140 Triticum Species 0.000 abstract description 26
- 235000021307 Triticum Nutrition 0.000 abstract description 26
- 238000005516 engineering process Methods 0.000 abstract description 18
- 230000004907 flux Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 2
- 210000000349 chromosome Anatomy 0.000 description 20
- 241000209202 Bromus secalinus Species 0.000 description 8
- 241000221785 Erysiphales Species 0.000 description 8
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000009395 breeding Methods 0.000 description 6
- 230000001488 breeding effect Effects 0.000 description 6
- 240000007594 Oryza sativa Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 238000010367 cloning Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 241000209504 Poaceae Species 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000003039 volatile agent Substances 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241000209094 Oryza Species 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 230000009418 agronomic effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007894 restriction fragment length polymorphism technique Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种小麦BSR‑Seq基因定位的方法,包括混池的构建和测序、质量变异挖掘、与目的基因紧密连锁的转录本的筛选、分子标记开发和定位等步骤。将下一代转录组测序技术(转录组测序,RNA‑Seq)和混池技术(Bulked Segregant Analysis,BSA)相结合,首先利用小麦测序草图序列作为参考序列;其次采用下一代测序技术高通量挖掘转录本上的大量的高质量SNP遗传变异,再结合混池技术精确计算等位基因频率来快速的筛选出可能与目的性状紧密连锁的转录本,并通过Fish精确检验控制假阳性。不依赖于参考基因组序列、低成本、快速、精度高,提升了小麦基因定位的效率和精度并降低了小麦多态性分子标记开发的成本,使小麦基因的精细定位工作时长从数年降低到数月、定位精度从数cM降低到零点几或0cM以及精细定位成本从数万降低到数千。
Description
技术领域
本发明涉及一种遗传育种技术,尤其涉及一种小麦BSR-Seq(Bulked SegregantRNA-Seq,混池转录组测序)基因定位的方法。
背景技术
小麦是人类主要口粮作物之一,在耕地减少、需求量不断上升的背景下,其产量丰欠攸关粮食安全。培育高产优质抗逆小麦品种和遗传改良小麦重要农艺性状是小麦稳产增产的重要方法。提高小麦传统育种方法的效率、不断地创新和应用新的育种技术是必经之路。当前分子标记技术、标记辅助选择育种和基因组选择愈发得到关注,利用紧密连锁的分子标记鉴定和筛选与表型相关的染色体区段或基因对于基因精细定位和克隆、标记辅助选择育种、基因聚合育种、分子设计育种具有重要意义和应用价值。然而,与小麦重要农艺性状紧密连锁的分子标记的开发面临诸多挑战,主要由于小麦缺乏基因组序列信息且基因组复杂,让基于PCR的分子标记开发较为困难,来源于基因的PCR标记和RFLP标记常扩增或杂交到小麦的部分同源染色体上,因此常被定位到部分同源染色体上。当前有多种方法用于解决部分问题。
第一种方法是利用小麦染色体片段缺失系和缺体-四体系。四百多套中国春染色体片段缺失系得到开发(Endo等,1996),每个系都有一个染色体片段被删除,有大量EST序列锚定在了特定删除区段内(Qi等,2004),这可以通过细胞遗传学的方法进行检测。另外,一系列染色体缺体-四体系也得到开发,每个系的一对染色体被其部分同源的染色体替换。理想的染色体缺体-四体系只在含有目的基因的染色体被替换,由此构建的作图群体使多态性标记定位到期望的染色体上,避免了定位到部分同源染色体上。如Fairs等用染色体片段缺失系和缺体-四体系成功克隆了驯化基因Q,定位中用只在5A染色体Q位点有差异的亲本构建了462个F2个体就将该基因成功克隆(Faris等,2003)。但这种方法所开发的分子标记的数量有限,定位精度较差,因此应用有限。
第二种方法是基于比较基因组学的方法。虽然禾本科物种在基因组大小上差异很大,但基因在染色体上的顺序保持着广泛的保守性,即近缘物种间保守的基因共线性关系,这反映了禾本科物种在五千万年前从同一个祖先种分化而来的事实(Paterson等,2004)。这同时为利用共线性开发分子标记提供了基础。模式禾本科物种水稻和短柄草拥有小的基因组且和小麦保持着良好的共线性关系,他们的参考基因组序列已经完成,为小麦基因的图位克隆提供了理想的参照,故被广泛运用于小麦分子标记的开发当中(Kellogg 2015),如抗条锈病基因Lr67的图位克隆中利用与水稻和短柄草的保守共线性关系快速的找到了目的基因所在的BAC(Moore等,2015),其他很多基因如Sr33、Sr35等都利用了比较基因组学开发分子标记(Periyannan等,2013;Saintenac等,2013)。当定位区间对应的水稻或短柄草基因组区段得到确定后,即可利用共线性区域内的短柄草或水稻基因开发小麦的探针甚至筛选BAC,这提高了基因图位克隆的效率,当前的大量数据分析表明65%左右的短柄草或水稻基因和小麦保持着良好的共线性关系(Brutnell等,2015;Kellogg 2015)。但比较基因组学也有一定的局限性,在一些小麦基因组区段发生了重组破坏了和水稻或短柄草的共线性关系,小麦基因组的扩增增加了很多非共线性的基因(Glover等,2015;InternationalWheat Genome Sequencing Consortium 2014;Wicker等,2010;Wicker等,2011)。如快速进化的抗病基因常分布在重组率较高的基因组区域,此类区域因重组频繁发生共线性容易遭到了破坏,一些基因组区段甚至找不到对应的水稻或短柄草共线性区间(Leister 2004)。因此禾本科物种间保守的共线性关系为小麦基因的定位提供了参考,但在小麦基因的精细定位、候选基因鉴定中作用有限,特别是在基因组复杂的区段内。
第三种方法是基于芯片技术的方法。基于芯片杂交的分型方法通量高、成本低,在当前挖掘多态性和关联分析中应用广泛。当前有小麦9k(Cavanagh等,2013)、90k(Wang等,2014)和820k(Wilkinson等,2012)芯片,标记密度逐渐增高。然而芯片中的标记是依据特定品种开发而来,对于其他品种的分型效率不高,小麦基因的多拷贝特征使有大量的SNP无信号或并不能分型,同时SNP密度在染色体上分布不均一,大量SNP聚集在少量位点上,另外,其SNP数量固定且定位精度不高,如要对每个个体进行分型则成本较高。因此当前芯片技术虽然可以挖掘大量的变异,但其成本较高且定位精度有限,特别是在小麦重要基因的精细定位和克隆中应用有限。
第四种方法是基于下一代测序技术的方法。下一代测序技术主要以高通量低成本著称,这些特点大大拓展了可研究的范围,比如除了得到DNA序列信息之外,我们可以用这些基于测序的方法来研究基因的表达,高效且准确的获得基因的表达量、稀有转录本、选择性剪切事件、非编码转录本、非编码区、结构变异和单核苷酸多态性等各种信息,这是基因芯片等技术无法比拟的,实际上基于测序的方法正在取代基因芯片成为研究基因表达最有力的工具(Farnham 2009;Licatalosi等,2010;Wang等,2009)。然而,小麦缺乏参考基因组序列,这大大限制了下一代测序技术在小麦重要基因挖掘和定位中的应用。当前可用的方法是利用GBS(Genotyping By Sequencing)技术,其不依赖于参考基因组序列,利用序列的相似性进行聚类和分型,在小麦中有少量应用报道(Edae等,2015;Mascher等,2013)。但该技术获得高质量SNP标记有限,且小麦基因的高拷贝特征容易带来误差,其需要对每个个体进行测序成本较高,因而应用有限。
发明内容
本发明的目的是提供一种不依赖于参考基因组序列、低成本、快速、精度高的小麦BSR-Seq基因定位的方法。
本发明的目的是通过以下技术方案实现的:
本发明的小麦BSR-Seq基因定位的方法,包括步骤:
A、混池的构建和测序:
根据重组自交系作图群体、加倍双单倍体(DH)群体、回交渗入系群体、F2或F2:3分离群体表型鉴定结果,分别用15-30个以上纯合极端高值个体和15-30以上个纯合极端低值个体分别组建高值混合池和低值混合池,在表型未表现出差异,或表现出差异后分别取等量叶片组织混合而成高值池和低值池,并提取高值池和低值池的mRNA后进行转录组测序,从而得到两个混池的转录组测序数据。
B、高质量变异挖掘:
首先,对转录组测序原始数据进行过滤得到高质量数据,过滤标准是去除两端测序质量值小于20的碱基,小于25bp的测序读长将被丢弃,过滤采用自写Perl程序执行;
其次,用STAR软件将高质量转录组测序序列数据比对到参考序列上并进行过滤,保留只有唯一比对位置且错配数小于2%的序列比对结果,比对结果使用Samtools软件挖掘可能的变异位点,再用自写Perl程序仅保留比对质量大于phred值15、变异质量大于phred值30、只有2种基因型、总深度大于6小于100000、参考序列基因型深度大于3、变异基因型深度大于3、参考序列基因型深度比例大于5%和变异基因型深度比例大于5%的比对结果;
C、与目的基因紧密连锁的转录本的筛选:
混池筛选和目的基因紧密连锁转录本的原理是:和目的基因越近的转录本在两混池间的等位基因频率差异越大,从而通过计算转录本SNP等位基因频率差异大小可以判断其与目的基因的远近;
用自写Perl脚本从比对结果中得到SNP位点不同基因型在混池中的表达深度,以此计算等位基因频率;
另外用自写Perl脚本计算各转录本各SNP位点最可能的两基因型在高值池和低值池的等位基因频率并计算其差值,同时用Fish精确检验计算两基因型在两混池中的表达量列联表差异p-value,排除两混池间等位基因频率差值小于0.6和Fish精确检验p-value值大于1e-8的SNP位点,然后排除含有两混池间等位基因频率差值小于0.6或Fish精确检验p-value值大于1e-8的SNP位点的转录本,最后剩下的转录本我们认为是和目的基因紧密连锁的转录本;
D、分子标记开发和定位:
首先,依据得到的SNP位点设计CAPS或dCAPS标记,并依据与IWGSC数据库比对的结果找出转录本中在A/B/D同源基因间存在差异的特定位置,根据该位置设计EST标记,此外依据转录本序列和比对上的IWGSC序列设计SSR标记;
其次,在作图群体中对分子标记进行多态性检验和分型;
最后,依据表型和各标记基因型数据进行遗传定位。
由上述本发明提供的技术方案可以看出,本发明实施例提供的小麦BSR-Seq基因定位的方法,不依赖于参考基因组序列、低成本、快速、精度高。
附图说明
图1为本发明实施例中小麦抗白粉病基因PmTm4混池转录组测序高质量变异分布;
图2为本发明实施例中小麦抗白粉病基因PmTm4混池转录组测序候选SNP组成饼图;
图3为本发明实施例中小麦抗白粉病基因PmTm4的遗传图谱。
图3中染色体左边数字显示遗传图谱上标记的相对位置,染色体右边表示标记名称,和PmTm4最近的非共分离标记只存在有一个交换,Xwggc开头的标记为混池转录组测序数据分析而来的分子标记。
具体实施方式
下面将对本发明实施例作进一步地详细描述。
本发明的小麦BSR-Seq基因定位的方法,其较佳的具体实施方式是:
包括步骤:
A、混池的构建和测序:
根据重组自交系作图群体、加倍双单倍体(DH)群体、回交渗入系群体、F2或F2:3分离群体表型鉴定结果,分别用15-30个以上纯合极端高值个体和15-30以上个纯合极端低值个体分别组建高值混合池和低值混合池,在表型未表现出差异,或表现出差异后分别取等量叶片组织混合而成高值池和低值池,并提取高值池和低值池的mRNA后进行转录组测序,从而得到两个混池的转录组测序数据。
B、高质量变异挖掘:
首先,对转录组测序原始数据进行过滤得到高质量数据,过滤标准是去除两端测序质量值小于20的碱基,小于25bp的测序读长将被丢弃,过滤采用自写Perl程序执行;
其次,用STAR软件将高质量转录组测序序列数据比对到参考序列上并进行过滤,保留只有唯一比对位置且错配数小于2%的序列比对结果,比对结果使用Samtools软件挖掘可能的变异位点,再用自写Perl程序仅保留比对质量大于phred值15、变异质量大于phred值30、只有2种基因型、总深度大于6小于100000、参考序列基因型深度大于3、变异基因型深度大于3、参考序列基因型深度比例大于5%和变异基因型深度比例大于5%的比对结果;
C、与目的基因紧密连锁的转录本的筛选:
混池筛选和目的基因紧密连锁转录本的原理是:和目的基因越近的转录本在两混池间的等位基因频率差异越大,从而通过计算转录本SNP等位基因频率差异大小可以判断其与目的基因的远近;
用自写Perl脚本从比对结果中得到SNP位点不同基因型在混池中的表达深度,以此计算等位基因频率;
另外用自写Perl脚本计算各转录本各SNP位点最可能的两基因型在高值池和低值池的等位基因频率并计算其差值,同时用Fish精确检验计算两基因型在两混池中的表达量列联表差异p-value,排除两混池间等位基因频率差值小于0.6和Fish精确检验p-value值大于1e-8的SNP位点,然后排除含有两混池间等位基因频率差值小于0.6或Fish精确检验p-value值大于1e-8的SNP位点的转录本,最后剩下的转录本我们认为是和目的基因紧密连锁的转录本;
D、分子标记开发和定位:
首先,依据得到的SNP位点设计CAPS或dCAPS标记,并依据与IWGSC数据库比对的结果找出转录本中在A/B/D同源基因间存在差异的特定位置,根据该位置设计EST标记,此外依据转录本序列和比对上的IWGSC序列设计SSR标记;
其次,在作图群体中对分子标记进行多态性检验和分型;
最后,依据表型和各标记基因型数据进行遗传定位。
本发明的小麦BSR-Seq基因定位的方法,不依赖于参考基因组序列、低成本、快速、精度高。
本发明将下一代转录组测序技术(转录组测序,RNA-Seq)和混池技术(BulkedSegregant Analysis,BSA)相结合解决相关问题。首先,利用小麦测序草图序列(International Wheat Genome Sequencing Consortium 2014)作为参考序列,虽然其基因组覆盖度约60%但其基因覆盖度可达到90%,解决了小麦无完整参考转录本序列可用问题。其次,采用下一代测序技术高通量挖掘转录本上的大量的高质量SNP遗传变异,再结合混池技术精确计算等位基因频率来快速的筛选出可能与目的性状紧密连锁的转录本,并通过Fish精确检验控制假阳性。这极大的提升了小麦基因定位的效率和精度并极大的降低了小麦多态性分子标记开发的成本,使小麦基因的精细定位工作时长从数年降低到数月、定位精度从数cM降低到零点几或0cM以及精细定位成本从数万降低到数千。本发明对不同小麦性状相关基因的精细定位和克隆具有重要意义。
具体步骤:
第一,根据重组自交系作图群体、加倍双单倍体(DH)群体、回交渗入系群体、F2或F2:3分离群体表型鉴定结果,分别用15-30个以上纯合极端高值个体和15-30以上个纯合极端低值个体分别组建高值混合池和低值混合池,在表型未表现出差异,或表现出差异后分别取等量叶片组织混合而成高值池和低值池,并提取高值池和低值池的mRNA后进行转录组测序,从而得到两个混池的转录组测序数据。
第二,高质量变异挖掘。为了挖掘高质量变异,首先对转录组测序原始数据进行过滤得到高质量数据,过滤标准是去除两端测序质量值小于20的碱基,小于25bp的测序读长将被丢弃,过滤采用自写Perl程序执行;其次,用软件STAR(Dobin等,2013)将高质量转录组测序序列数据比对到参考序列上并进行过滤,保留只有唯一比对位置且错配数小于2%的序列比对结果。比对结果使用软件Samtools(Li等,2009)挖掘可能的变异位点,再用自写Perl程序仅保留比对质量大于phred值15、变异质量大于phred值30、只有2种基因型、总深度大于6小于100000、参考序列基因型深度大于3、变异基因型深度大于3、参考序列基因型深度比例大于5%和变异基因型深度比例大于5%的比对结果。
第三,与目的基因紧密连锁的转录本的筛选。混池筛选和目的基因紧密连锁转录本的原理是,和目的基因越近的转录本在两混池间的等位基因频率差异越大,从而通过计算转录本SNP等位基因频率差异大小可以判断其与目的基因的远近。用自写Perl脚本从比对结果中得到SNP位点不同基因型在混池中的表达深度,以此计算等位基因频率。另外用自写Perl脚本计算各转录本各SNP位点最可能的两基因型在高值池和低值池的等位基因频率并计算其差值,同时用Fish精确检验计算两基因型在两混池中的表达量列联表差异p-value,排除两混池间等位基因频率差值小于0.6和Fish精确检验p-value值大于1e-8的SNP位点,然后排除含有两混池间等位基因频率差值小于0.6或Fish精确检验p-value值大于1e-8的SNP位点的转录本,最后剩下的转录本我们认为是和目的基因紧密连锁的转录本。
第四,分子标记开发和定位。首先依据得到的SNP位点设计CAPS或dCAPS标记,并依据与IWGSC数据库比对的结果找出转录本中在A/B/D同源基因间存在差异的特定位置,根据该位置设计EST标记,此外依据转录本序列和比对上的IWGSC序列设计SSR标记。其次在作图群体中对分子标记进行多态性检验和分型。最后依据表型和各标记基因型数据进行遗传定位。
通过这些步骤,我们成功利用小麦测序草图作为参考转录本序列,并采用严格过滤步骤一定程度解决了小麦基因多拷贝带来的变异挖掘假阳性问题,得到了高质量变异;再利用混池原理,通过等位基因频率差异来判断连锁的转录本或变异,并结合Fish精确检验有效排除连锁假阳性的转录本。从而得到了有效的、低成本、快速和高定位精度的小麦混池转录组测序基因定位技术。
附表:
表1小麦抗白粉病基因PmTm4混池转录组测序数据的质量控制结果统计
表2小麦抗白粉病基因PmTm4混池转录组测序高质量数据比对结果统计
具体实施例:
实施例一:小麦抗白粉病基因PmTm4的混池转录组测序数据分析和精细定位
具体方法为:
(1)混池的构建和测序。为了对小麦抗白粉病基因PmTm4进行精细定,以抗病亲本唐麦4号和感病亲本农大015为亲本组合构建了包含1,504个个体的F2分离群体,并获得其F2:3家系,表型鉴定后60个纯合抗病F2:3家系和60个纯合感病F2:3家系在侵染白粉菌后3叶期对每个家系进行取样,每个家系中的一个个体的第3片叶顶端5厘米(cm)的叶片组织被采集后进行混合,抗病家系混合成抗病混池,感病家系混合成感病混池,并对混池进行RNA提取和转录组双末端测序。抗病混池的数据量为100bp长的73,229,327对Read,感病混池的数据量为100bp长的90,218,629对Read。
(2)高质量变异挖掘。通过质量控制,抗病池和感病池转录组测序数据两条双末端Read都保留下来的比例超过99%,显示测序数据质量很高,每个样本过滤后的数据总量在15Gb左右(表1)。序列比对和过滤后发现,能比对到参考序列上的Read对数大于90%,这说明参考转录本序列的完整性较高;比对到唯一位置的可信比对Read对数占比近70%,比对到多个位置的Read对数占比在23%左右,因序列差异较大无法比对到参考序列上的Read对数占比0.39%,这显示测序数据和参考序列较为相似,且小麦基因组中存在大量高度相似的基因并在过滤中被排除。另外,SNP和Indel发生的概率小于0.15%和0.02%,进一步说明了编码区测序数据和参考基因组序列的相似性;发现超过2千6百万个剪切位点,表明小麦基因组基因数可能超过预期,特别是蛋白编码基因,也说明小麦基因的剪切变体非常丰富(表2)。在抗感池转录组数据间找到SNP 256,247个,高质量SNP 106,487个,高质量SNP在各染色体上的数量和各染色体大小成正比(图1)。
(3)与目的基因紧密连锁的转录本的筛选。计算等位基因频率差异(AFD)和Fish精确检验后,发现关联的SNP位点主要位于7BL染色体臂上,这和以前的定位结果一致(Hu等,2008)。经过筛选(AFD>0.8,P-value<1e-10),寻找到195个候选SNP,其中176(90)个位于7BL上(图2),这些SNP集中在对应于短柄草1Mb区域内,这表示筛选效果很好且PmTm4很可能位于该区域内。
(4)分子标记开发和定位。选取15个候选SNP进行分子标记开发,其中11个具有预期的多态性,显示挖掘出的变异质量较高。对193个F2:3家系的重组个体进行分型,最终PmTm4基因被定为在一个0.51cM的区间内,对应1.9Mb的区间,最近的上下游非共分离标记都只存在一个交换,极大的改善了该基因的定位精度(图3)。这些结果表明通过对混池转录组数据进行分析寻找到的候选SNP和目的基因紧密连锁。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (1)
1.一种小麦BSR-Seq基因定位的方法,其特征在于,包括步骤:
A、混池的构建和测序:
根据重组自交系作图群体、加倍双单倍体群体、回交渗入系群体、F2或F2:3分离群体表型鉴定结果,分别用15-30个以上纯合极端高值个体和15-30以上个纯合极端低值个体分别组建高值混合池和低值混合池,在表型未表现出差异,或表现出差异后分别取等量叶片组织混合而成高值池和低值池,并提取高值池和低值池的mRNA后进行转录组测序,从而得到两个混池的转录组测序数据;
B、高质量变异挖掘:
首先,对转录组测序原始数据进行过滤得到高质量数据,过滤标准是去除两端测序质量值小于20的碱基,小于25bp的测序读长将被丢弃,过滤采用自写Perl程序执行;
其次,用STAR软件将高质量转录组测序序列数据比对到参考序列上并进行过滤,保留只有唯一比对位置且错配数小于2%的序列比对结果,比对结果使用Samtools软件挖掘可能的变异位点,再用自写Perl程序仅保留比对质量大于phred值15、变异质量大于phred值30、只有2种基因型、总深度大于6小于100000、参考序列基因型深度大于3、变异基因型深度大于3、参考序列基因型深度比例大于5%和变异基因型深度比例大于5%的比对结果;
C、与目的基因紧密连锁的转录本的筛选:
混池筛选和目的基因紧密连锁转录本的原理是:和目的基因越近的转录本在两混池间的等位基因频率差异越大,从而通过计算转录本SNP等位基因频率差异大小可以判断其与目的基因的远近;
用自写Perl脚本从比对结果中得到SNP位点不同基因型在混池中的表达深度,以此计算等位基因频率;
另外用自写Perl脚本计算各转录本各SNP位点最可能的两基因型在高值池和低值池的等位基因频率并计算其差值,同时用Fish精确检验计算两基因型在两混池中的表达量列联表差异p-value,排除两混池间等位基因频率差值小于0.6和Fish精确检验p-value值大于1e-8的SNP位点,然后排除含有两混池间等位基因频率差值小于0.6或Fish精确检验p-value值大于1e-8的SNP位点的转录本,最后剩下的转录本我们认为是和目的基因紧密连锁的转录本;
D、分子标记开发和定位:
首先,依据得到的SNP位点设计CAPS或dCAPS标记,并依据与IWGSC数据库比对的结果找出转录本中在A/B/D同源基因间存在差异的特定位置,根据该位置设计EST标记,此外依据转录本序列和比对上的IWGSC序列设计SSR标记;
其次,在作图群体中对分子标记进行多态性检验和分型;
最后依据表型和各标记基因型数据进行遗传定位。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610551811.XA CN106202995B (zh) | 2016-07-13 | 2016-07-13 | 小麦BSR-Seq基因定位的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610551811.XA CN106202995B (zh) | 2016-07-13 | 2016-07-13 | 小麦BSR-Seq基因定位的方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN106202995A true CN106202995A (zh) | 2016-12-07 |
| CN106202995B CN106202995B (zh) | 2019-01-22 |
Family
ID=57477805
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610551811.XA Active CN106202995B (zh) | 2016-07-13 | 2016-07-13 | 小麦BSR-Seq基因定位的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106202995B (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107354232A (zh) * | 2017-09-18 | 2017-11-17 | 江苏省农业科学院 | 一种开发与小麦特定染色体区段连锁分子标记的方法 |
| CN109360606A (zh) * | 2018-11-19 | 2019-02-19 | 广西壮族自治区农业科学院水稻研究所 | 一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法 |
| CN110060737A (zh) * | 2019-04-30 | 2019-07-26 | 上海诚明融鑫科技有限公司 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
| CN110419401A (zh) * | 2019-09-04 | 2019-11-08 | 山西省农业科学院农作物品种资源研究所 | 一种易脱壳苦荞种质的创制方法 |
| CN110499387A (zh) * | 2019-09-27 | 2019-11-26 | 四川农业大学 | 一种小麦旗叶长qtl连锁的分子标记及其应用 |
| CN111798922A (zh) * | 2020-07-29 | 2020-10-20 | 中国农业大学 | 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法 |
| CN111916147A (zh) * | 2019-05-10 | 2020-11-10 | 武汉未来组生物科技有限公司 | 一种转录本的分类方法 |
| CN112837746A (zh) * | 2019-11-22 | 2021-05-25 | 成都天成未来科技有限公司 | 用于小麦外显子测序基因定位的探针设计方法及定位方法 |
| CN114708910A (zh) * | 2022-02-24 | 2022-07-05 | 上海市第一人民医院 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6197518B1 (en) * | 1999-06-17 | 2001-03-06 | Her Majesty The Queen In Right Of Canada, As Represented By The Department Of Agriculture | Markers for fusarium head blight (FHB) disease resistance |
| US6720137B2 (en) * | 1995-06-28 | 2004-04-13 | Institut Fur Pflanzengenetik Und Kulturpflanzenforschung | Microsatellite markers for plants of the species Triticum aestivum and Tribe triticeae and the use of said markers |
| CN101566599A (zh) * | 2009-05-27 | 2009-10-28 | 首都师范大学 | 一种鉴定小麦低分子量谷蛋白亚基等位变异的质谱方法 |
| CN101736076A (zh) * | 2008-11-19 | 2010-06-16 | 朱玉丽 | 小麦抗白粉病基因的分子标记定位研究进展 |
| CN101760458A (zh) * | 2008-12-19 | 2010-06-30 | 李祥 | 小麦抗白粉病基因的抗性遗传、来源及染色体定位 |
| CN101775439A (zh) * | 2010-01-12 | 2010-07-14 | 中国农业科学院作物科学研究所 | 一种辅助筛选不同千粒重小麦的方法及其专用标记 |
-
2016
- 2016-07-13 CN CN201610551811.XA patent/CN106202995B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6720137B2 (en) * | 1995-06-28 | 2004-04-13 | Institut Fur Pflanzengenetik Und Kulturpflanzenforschung | Microsatellite markers for plants of the species Triticum aestivum and Tribe triticeae and the use of said markers |
| US6197518B1 (en) * | 1999-06-17 | 2001-03-06 | Her Majesty The Queen In Right Of Canada, As Represented By The Department Of Agriculture | Markers for fusarium head blight (FHB) disease resistance |
| CN101736076A (zh) * | 2008-11-19 | 2010-06-16 | 朱玉丽 | 小麦抗白粉病基因的分子标记定位研究进展 |
| CN101760458A (zh) * | 2008-12-19 | 2010-06-30 | 李祥 | 小麦抗白粉病基因的抗性遗传、来源及染色体定位 |
| CN101566599A (zh) * | 2009-05-27 | 2009-10-28 | 首都师范大学 | 一种鉴定小麦低分子量谷蛋白亚基等位变异的质谱方法 |
| CN101775439A (zh) * | 2010-01-12 | 2010-07-14 | 中国农业科学院作物科学研究所 | 一种辅助筛选不同千粒重小麦的方法及其专用标记 |
Non-Patent Citations (4)
| Title |
|---|
| RUCARDI H.RANUREZ-GONZALEZ,ET AL.: "《RNA-Seq bulked segregant analysis enables the identification of high-resolution genetic markers for breeding in hexaploid wheat》", 《PLANT BIOTECHNOLOGY JOURNAL》 * |
| SANZHEN LIU,ET AL.: "《Gene Mapping via Bulked Segregant RNA-Seq(BSR-Seq)》", 《PLOS》 * |
| 李玉荣: "《BSR-Seq方法定位玉米黄化突变基因》", 《中国优秀硕士学位论文全文数据库 农业科技辑》 * |
| 牟颖熙: "《一个玉米干旱敏感突变体的鉴定与基因定位》", 《中国优秀硕士学位论文全文数据库 农业科技辑》 * |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107354232A (zh) * | 2017-09-18 | 2017-11-17 | 江苏省农业科学院 | 一种开发与小麦特定染色体区段连锁分子标记的方法 |
| CN109360606A (zh) * | 2018-11-19 | 2019-02-19 | 广西壮族自治区农业科学院水稻研究所 | 一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法 |
| CN110060737A (zh) * | 2019-04-30 | 2019-07-26 | 上海诚明融鑫科技有限公司 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
| CN110060737B (zh) * | 2019-04-30 | 2023-04-18 | 上海诚明融鑫科技有限公司 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
| CN111916147B (zh) * | 2019-05-10 | 2022-07-26 | 武汉希望组生物科技有限公司 | 一种转录本的分类方法 |
| CN111916147A (zh) * | 2019-05-10 | 2020-11-10 | 武汉未来组生物科技有限公司 | 一种转录本的分类方法 |
| CN110419401A (zh) * | 2019-09-04 | 2019-11-08 | 山西省农业科学院农作物品种资源研究所 | 一种易脱壳苦荞种质的创制方法 |
| CN110419401B (zh) * | 2019-09-04 | 2023-09-22 | 山西省农业科学院农作物品种资源研究所 | 一种易脱壳苦荞种质的创制方法 |
| CN110499387A (zh) * | 2019-09-27 | 2019-11-26 | 四川农业大学 | 一种小麦旗叶长qtl连锁的分子标记及其应用 |
| CN110499387B (zh) * | 2019-09-27 | 2021-12-03 | 四川农业大学 | 一种小麦旗叶长qtl连锁的分子标记及其应用 |
| CN112837746B (zh) * | 2019-11-22 | 2022-11-15 | 成都天成未来科技有限公司 | 用于小麦外显子测序基因定位的探针设计方法及定位方法 |
| CN112837746A (zh) * | 2019-11-22 | 2021-05-25 | 成都天成未来科技有限公司 | 用于小麦外显子测序基因定位的探针设计方法及定位方法 |
| CN111798922A (zh) * | 2020-07-29 | 2020-10-20 | 中国农业大学 | 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法 |
| CN111798922B (zh) * | 2020-07-29 | 2024-04-02 | 中国农业大学 | 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法 |
| CN114708910A (zh) * | 2022-02-24 | 2022-07-05 | 上海市第一人民医院 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
| CN114708910B (zh) * | 2022-02-24 | 2024-05-14 | 上海市第一人民医院 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN106202995B (zh) | 2019-01-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106202995B (zh) | 小麦BSR-Seq基因定位的方法 | |
| CN112575116B (zh) | 一种大豆全基因组snp位点组合、基因芯片及应用 | |
| CN113795597B (zh) | 一种大豆snp分型检测芯片及其在分子育种与基础研究中的应用 | |
| Poczai et al. | Advances in plant gene-targeted and functional markers: a review | |
| CN117144037B (zh) | 一种洋葱核心snp的分子标记集及应用 | |
| CN117095746A (zh) | 一种用于水牛的gbs全基因组关联分析方法 | |
| CN106148526B (zh) | 一种与西瓜果肉硬度相关的分子标记Hf1-Indel及其应用 | |
| CN111926100A (zh) | 一种水稻抗白叶枯病基因xa5的分子标记及其应用 | |
| CN104293895A (zh) | 利用微卫星dna分子标记技术构建杨树核心种质的方法及试剂盒 | |
| CN112514790B (zh) | 水稻分子导航育种方法及应用 | |
| Fiedler et al. | High‐Density Single Nucleotide Polymorphism Linkage Maps of Lowland Switchgrass using Genotyping‐by‐Sequencing | |
| CN115948591B (zh) | 一种鉴定玉米苗期耐旱性相关的单体型ZmC10.HapDR及其应用 | |
| CN104789648B (zh) | 鉴定水稻CMS恢复基因Rf‑1区段单倍型的分子标记及其应用 | |
| Jang et al. | Major QTLs, qARO1 and qARO9, additively regulate adaxial leaf rolling in rice | |
| CN108707612A (zh) | 一种与萝卜晚抽薹性状相关的基因及其应用 | |
| CN111549172A (zh) | 西瓜叶片后绿基因连锁位点及caps标记 | |
| WO2017083091A1 (en) | Methods and systems for trait introgression | |
| Weber et al. | Genomic prediction in Brassica napus: evaluating the benefit of imputed whole-genome sequencing data | |
| CN106011284A (zh) | 一种与西瓜果肉硬度相关的分子标记Hf2-Indel及其应用 | |
| CN109880931A (zh) | 一种丝瓜抗黄瓜花叶病毒cmv主效qtl的slaf-snp分子标记方法及应用 | |
| CN108588242A (zh) | 一种长牡蛎ahr基因的snp位点 | |
| CN119979753B (zh) | 马尾松snp分子标记组合及其应用 | |
| CN110055346A (zh) | 一种丝瓜抗黄瓜花叶病毒病主效qtl的kasp分子标记方法及其应用 | |
| CN119410834B (zh) | 选育或辅助选育茎瘤田菁的InDel分子标记及其应用 | |
| CN116949200B (zh) | 与小麦实心茎抑制基因紧密连锁的kasp引物及其应用 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |