CN112204155A - 引物提取和克隆性检测的系统和方法 - Google Patents

引物提取和克隆性检测的系统和方法 Download PDF

Info

Publication number
CN112204155A
CN112204155A CN201880079114.6A CN201880079114A CN112204155A CN 112204155 A CN112204155 A CN 112204155A CN 201880079114 A CN201880079114 A CN 201880079114A CN 112204155 A CN112204155 A CN 112204155A
Authority
CN
China
Prior art keywords
sequence
cells
computer server
adaptor
gene segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880079114.6A
Other languages
English (en)
Inventor
A·泽希尔
M·赛义德
M·阿西拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Memorial Sloan Kettering Cancer Center
Original Assignee
Memorial Sloan Kettering Cancer Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Memorial Sloan Kettering Cancer Center filed Critical Memorial Sloan Kettering Cancer Center
Publication of CN112204155A publication Critical patent/CN112204155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Cell Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

基因组数据处理系统可以被配置为处理下一代测序信息。在一个实施方案中,所述基因组数据处理系统可以从由下一代测序仪提供的序列读段确定正向和反向引物。通过确定正向和反向引物,可以改善克隆性检测的准确性。在另一个实施方案中,基因组数据处理系统可以被配置为检测遗传数据中的克隆性。

Description

引物提取和克隆性检测的系统和方法
相关申请的交叉引用
本申请要求2017年10月10日提交的美国临时专利申请号62/570,549以及还有2018年7月19日提交的美国临时专利申请号62/700,794的权益和优先权,将所述专利申请中每一个的整体内容通过引用并入本文。
技术领域
本公开文本总体上涉及处理数据以从基因组数据中确定引物和检测克隆性。
背景技术
基因组数据处理可以包括使用从下一代测序仪接收的序列读段(sequence read)来检测克隆性。用于产生序列读段的引物可能不容易获得,从而使其难以确定序列读段的准确性。在一些情形中,所使用的引物可能会影响下一代测序仪检测克隆的准确性。
发明内容
在一方面,本公开文本包括计算机实施的方法,所述方法用以鉴定在样品的下一代测序中使用的测定的至少一种引物。所述方法包括:通过包括一个或多个处理器的计算机服务器从接收自所述下一代测序设备的基因组数据生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理。所述方法还包括通过所述计算机服务器通过对基因组数据库中所述多个序列读段中的每个序列读段进行查找来生成多个V-J基因区段。所述方法还包括通过所述计算机服务器比较所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据,以便为所述对应V-J基因区段鉴定位于所述对应V-J基因区段上游的第一数量的核苷酸、以及位于所述对应V-J基因区段下游的第二数量的核苷酸。所述方法还包括通过所述计算机服务器将所述多个V-J基因区段分组为多个组,每个组包括具有相同V-J身份的V-J基因区段。所述方法还包括,对于所述多个组中的每个组,针对所述组内的V-J基因区段,通过所述计算机服务器比对位于所述V-J基因区段下游的相应第二数量的核苷酸。所述方法还包括,对于所述多个组中的每个组,针对所述组内的V-J基因区段,通过所述计算机服务器比对位于所述V-J基因区段上游的相应第一数量的核苷酸。所述方法还包括,对于多个组中的每个组,针对位于V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置通过计算机服务器确定与生成正向引物共有序列的共有策略对应的核苷酸身份,并且针对位于V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置通过计算机服务器确定与生成反向引物共有序列的共有策略对应的核苷酸身份。所述方法还包括通过所述计算机服务器鉴定多个正向引物共有序列作为所述下一代测序测定的正向引物,并且鉴定多个反向引物共有序列作为所述下一代测序测定的反向引物。
在一些实施方案中,多个V-J基因区段中的至少一个或多个还包含多样性(D)区。在一些实施方案中,生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
在一些实施方案中,在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。在一些实施方案中,所述反向引物的长度在20-30个碱基对之间。在一些实施方案中,所述正向引物的长度在20-30个碱基对之间。在一些实施方案中,所述反向引物和正向引物还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。在一些实施方案中,所述反向引物包含与所述正向引物不同的衔接子序列。在一些实施方案中,将多个V-J基因区段中的每个V-J基因区段与接收自下一代测序设备的基因组数据进行比较包括通过计算机服务器将多个V-J基因区段中的每个V-J基因区段与源自生物样品的多个序列读段进行比较。
在一些实施方案中,所述方法还包括通过所述计算机服务器经通信信道访问所述基因组数据库,以进行对所述基因组数据库中所述多个序列读段中的每个序列读段的查找。在一些实施方案中,所述方法还包括通过计算机服务器在存储器中的第一阵列数据结构中储存位于V-J基因区段上游的第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成正向引物共有序列。
在一些实施方案中,所述方法还包括通过计算机服务器在存储器中的第二阵列数据结构中储存位于V-J基因区段下游的第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第二阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成反向引物共有序列。
在一方面,本公开文本包括一种系统,所述系统包括一个或多个处理器、以及与所述一个或多个处理器偶联的存储器,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器从接收自下一代测序设备的基因组数据中生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理。所述指令导致所述一个或多个处理器通过对基因组数据库中的多个序列读段中的每个序列读段进行查找来进一步生成多个V-J基因区段,并且将多个V-J基因区段中的每个V-J基因区段与接收自下一代测序设备的基因组数据进行比较,以便为对应V-J基因区段鉴定位于对应V-J基因区段上游的第一数量的核苷酸和位于对应V-J基因区段下游的第二数量的核苷酸。所述指令导致所述一个或多个处理器将所述多个V-J基因区段进一步分组为多个组,每个组包括具有相同V-J身份的V-J基因区段,并且对于所述多个组中的每个组:针对所述组内的V-J基因区段比对位于V-J基因区段下游的相应第二数量的核苷酸,对于所述组内的V-J基因区段比对位于所述V-J基因区段上游的相应第一数量的核苷酸,针对位于V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置确定与生成正向引物共有序列的共有策略对应的核苷酸身份,针对位于V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置确定与生成反向引物共有序列的共有策略对应的核苷酸身份,并且鉴定多个正向引物共有序列作为下一代测序测定的正向引物并鉴定多个反向引物共有序列作为下一代测序测定的反向引物。
在一些实施方案中,多个V-J基因区段中的至少一个或多个还包含多样性(D)区。在一些实施方案中,生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。在一些实施方案中,在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。
在一些实施方案中,所述反向引物的长度在20-30个碱基对之间。在一些实施方案中,所述正向引物的长度在20-30个碱基对之间。在一些实施方案中,所述反向引物和正向引物还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。在一些实施方案中,所述反向引物包含与所述正向引物不同的衔接子序列。在一些实施方案中,将多个V-J基因区段中的每个V-J基因区段与接收自下一代测序设备的基因组数据进行比较包括通过计算机服务器将多个V-J基因区段中的每个V-J基因区段与源自生物样品的多个序列读段进行比较。
在一些实施方案中,所述存储器储存计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时导致所述一个或多个处理器:通过计算机服务器经通信信道访问基因组数据库,以进行对基因组数据库中的多个序列读段中的每个序列读段的查找。在一些实施方案中,所述存储器储存计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时导致所述一个或多个处理器:通过计算机服务器在存储器中的第一阵列数据结构中储存位于V-J基因区段上游的第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成正向引物共有序列。
在一些实施方案中,所述存储器储存计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时导致所述一个或多个处理器:通过计算机服务器在存储器中的第二阵列数据结构中储存位于V-J基因区段下游的第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第二阵列数据结构的所述一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成反向引物共有序列。
在一方面,本公开文本包括一种计算机可读存储介质,所述计算机可读存储介质储存处理器可执行指令,所述处理器可执行指令在被至少一个处理器执行时导致所述至少一个处理器从接收自下一代测序设备的基因组数据生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理。所述指令导致所述一个或多个处理器通过对基因组数据库中的多个序列读段中的每个序列读段进行查找来生成多个V-J基因区段,并且将多个V-J基因区段中的每个V-J基因区段与接收自下一代测序设备的基因组数据进行比较,以便为对应V-J基因区段鉴定位于对应V-J基因区段上游的第一数量的核苷酸和位于对应V-J基因区段下游的第二数量的核苷酸。所述指令导致所述一个或多个处理器将所述多个V-J基因区段分组为多个组,每个组包括具有相同V-J身份的V-J基因区段,对于所述多个组中的每个组:针对所述组内的V-J基因区段比对位于V-J基因区段下游的相应第二数量的核苷酸,对于所述组内的V-J基因区段比对位于所述V-J基因区段上游的相应第一数量的核苷酸,针对位于V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置确定与生成正向引物共有序列的共有策略对应的核苷酸身份,针对位于V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置确定与生成反向引物共有序列的共有策略对应的核苷酸身份,并且鉴定多个正向引物共有序列作为下一代测序测定的正向引物并鉴定多个反向引物共有序列作为下一代测序测定的反向引物。
在一些实施方案中,多个V-J基因区段中的至少一个或多个还包含多样性(D)区。在一些实施方案中,生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。在一些实施方案中,在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。
在一些实施方案中,所述反向引物的长度在20-30个碱基对之间。在一些实施方案中,所述正向引物的长度在20-30个碱基对之间。在一些实施方案中,所述反向引物和正向引物还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。在一些实施方案中,所述反向引物包含与所述正向引物不同的衔接子序列。在一些实施方案中,将多个V-J基因区段中的每个V-J基因区段与接收自下一代测序设备的基因组数据进行比较包括通过计算机服务器将多个V-J基因区段中的每个V-J基因区段与源自生物样品的多个序列读段进行比较。在一些实施方案中,所述指令导致所述一个或多个处理器:通过计算机服务器经通信信道访问基因组数据库,以进行对基因组数据库中的多个序列读段中的每个序列读段的查找。
在一些实施方案中,所述指令导致所述一个或多个处理器通过计算机服务器在存储器中的第一阵列数据结构中储存位于V-J基因区段上游的第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成正向引物共有序列。
在一些实施方案中,所述指令导致所述一个或多个处理器:通过计算机服务器在存储器中的第二阵列数据结构中储存位于V-J基因区段下游的第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;通过计算机服务器在沿着第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且基于针对沿着所述第二阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过计算机服务器生成反向引物共有序列。
在一方面,本公开文本包括计算机实施的方法,所述方法用于在获自受试者的样品中检测至少一个克隆V-J基因区段。所述方法包括通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者。所述方法还包括通过计算机服务器为多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段。所述方法还包括通过计算机服务器从由多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段。所述方法还包括通过计算机服务器从多个组中的每个组中选择一个修整序列读段,以形成选定的修整序列读段的集合。所述方法还包括通过计算机服务器经由将修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所选定的修整序列读段的集合中的每个修整序列读段确定V-J身份。另外地,所述方法包括:针对与多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量通过计算机服务器确定V-J身份的相应频率。所述方法还包括基于与多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略通过计算机服务器来鉴定所述V-J身份的至少一个克隆。
在一些实施方案中,所述至少一个克隆V-J基因区段还包含多样性(D)区。在一些实施方案中,所述生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。在一些实施方案中,每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
在一方面,本公开文本包括具有一个或多个处理器的一种系统。所述系统还包括与所述一个或多个处理器偶联的存储器,所述存储器储存计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时导致所述一个或多个处理器通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者。所述指令导致所述一个或多个处理器通过所述计算机服务器为所述多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段,并且通过所述计算机服务器从由所述多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段。所述指令导致所述一个或多个处理器通过所述计算机服务器从所述多个组中的每个组中选择一个修整序列读段以形成选定的修整序列读段的集合,通过计算机服务器经由将所述修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所述选定的修整序列读段的集合中的每个修整序列读段确定V-J身份。所述指令导致所述一个或多个处理器通过所述计算机服务器,针对与所述多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量确定所述V-J身份的相应频率,并且通过计算机服务器,基于与所述多个组的修整序列读段的第一个组对应的所述V-J身份的相应频率,基于克隆检测策略来鉴定所述V-J身份的至少一个克隆。
在一些实施方案中,所述至少一个克隆V-J基因区段还包含多样性(D)区。在一些实施方案中,所述生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。在一些实施方案中,每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion Xpress条形码衔接子。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
在一方面,本公开文本包括一种计算机可读存储介质,所述计算机可读存储介质储存处理器可执行指令,所述处理器可执行指令在被所述至少一个处理器执行时导致所述至少一个处理器通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者。所述指令导致所述至少一个处理器通过所述计算机服务器为多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段,并且通过所述计算机服务器从由多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段。所述指令导致所述至少一个处理器通过所述计算机服务器从所述多个组中的每个组中选择一个修整序列读段以形成选定的修整序列读段的集合,并且通过所述计算机服务器经由将修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所述选定的修整序列读段的集合中的每个修整序列读段确定V-J身份。所述指令导致所述至少一个处理器通过所述计算机服务器,针对与所述多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量确定所述V-J身份的相应频率,并且通过所述计算机服务器,基于与所述多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略来鉴定所述V-J身份的至少一个克隆。
在一些实施方案中,所述至少一个克隆V-J基因区段还包含多样性(D)区。在一些实施方案中,所述生物样品包含选自DNA和RNA的核酸。在一些实施方案中,所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。在一些实施方案中,所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。在一些实施方案中,所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
在一些实施方案中,所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。在一些实施方案中,每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。在一些实施方案中,所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。在一些实施方案中,每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
附图说明
通过结合附图参考以下描述,本公开文本的前述和其他目的、方面、特征和优点将变得更加清楚和更好理解,其中:
图1A是描绘包含与服务器设备通信的客户端设备的网络环境的实施方案的框图。
图1B是描绘包含与云服务提供商通信的客户端设备的云计算环境的框图。
图1C和1D是描绘可用于结合本文所述的方法和系统的计算设备的实施方案的框图。
图2展示了基因组数据处理系统。
图3展示了引物提取过程的流程图。
图4展示了从由示例性下一代测序仪提供的基因组数据生成示例性序列读段的屏幕截图。
图5示出了鉴定分别位于每个V-J基因区段的上游和下游的第一数量和第二数量的核苷酸的一个例子。
图6展示了与组内的V-J基因区段相关的第一数量的核苷酸的比对。
图7展示了另一种基因组数据处理系统。
图8展示了克隆检测过程的流程图。
图9示出了用于多个序列读段的正向和反向引物的示例性代表。
图10示出了鉴定多个组的修整序列读段的示例性代表。
图11示出了由克隆检测引擎生成的示例性输出。
图12展示了一组克隆检测策略。
图13展示了与克隆跟踪过程有关的跟踪数据。
图14展示了用于显示克隆跟踪过程之后与患者相关的克隆的用户界面。
图15A-15E示出了在使用常规的
Figure BDA0002524224530000121
数据分析工具和如图8所示的克隆检测过程所获得的克隆检测结果之间的比较。
图16示出了在源自正常对照患者的样品中观察到的各种V-J基因重排(例如,>200个独特的克隆)的多克隆分布以及代表克隆样品中特定长度和序列的V-J基因重排的单一群体的主峰。不同的V-J基因重排以不同的颜色表示。
具体实施方式
为了阅读下面不同实施方案的描述,本说明书各部分的以下描述及其各自的内容可能会有所帮助:
第A部分描述了可用于实践本文所述的实施方案的网络环境和计算环境。
第B部分描述了用于从基因组数据中鉴定正向和反向引物的系统和方法的实施方案。
第C部分描述了用于检测基因组数据中的克隆性的系统和方法的实施方案。
A.计算和网络环境
在讨论本解决方案的特定实施方案之前,结合本文所述的方法和系统来描述操作环境的各方面以及相关的系统部件(例如,硬件元件)可能是有帮助的。参考图1A,描绘了网络环境的实施方案。简要概述,网络环境包括经由一个或多个网络104与一个或多个服务器106a-106n(通常也称为一个或多个服务器106、节点106、或一个或多个远程机器106)通信的一个或多个客户端102a-102n(通常也称为一个或多个本地机器102、一个或多个客户端102、一个或多个客户端节点102、一个或多个客户端机器102、一个或多个客户端计算机102、一个或多个客户端设备102、一个或多个端点102、或一个或多个端点节点102)。在一些实施方案中,客户端102具有充当寻求对由服务器提供的资源的访问的客户端节点以及充当为其他客户端102a-102n提供对主机资源(hosted resource)的访问的服务器的能力。
虽然图1A示出了客户端102与服务器106之间的网络104,但是客户端102和服务器106可以在同一网络104上。在一些实施方案中,在客户端102与服务器106之间存在多个网络104。在这些实施方案之一中,网络104’(未示出)可以是专用网络,并且网络104可以是公共网络。在这些实施方案中的另一个中,网络104可以是专用网络,并且网络104’可以是公共网络。在这些实施方案中的再另一个中,网络104和104’都可以是专用网络。
网络104可以经由有线链路或无线链路进行连接。有线链路可以包括数字用户线路(DSL)、同轴电缆线路或光纤线路。无线链路可以包括蓝牙(BLUETOOTH)、Wi-Fi、微波访问全球互通性(WiMAX)、红外频道或卫星频段。无线链路还可以包括用于在移动设备之间通信的任何蜂窝网络标准,包括取得1G、2G、3G或4G资格的标准。通过满足一个规格或多个标准(例如由国际电信联盟(International Telecommunication Union)维护的规格),网络标准可以取得一代或多代移动电信标准的资格。例如,3G标准可以对应于国际移动电信-2000(IMT-2000)规格,并且4G标准可以对应于国际移动电信高级(IMT-高级)规格。蜂窝网络标准的例子包括AMPS、GSM、GPRS、UMTS、LTE、高级LTE、移动WiMAX、和高级WiMAX。蜂窝网络标准可以使用各种信道访问方法,例如FDMA、TDMA、CDMA或SDMA。在一些实施方案中,可以经由不同的链路和标准来传输不同类型的数据。在其他实施方案中,可以经由不同的链路和标准来传输相同类型的数据。
网络104可以是任何类型和/或形式的网络。网络104的地理范围可以广泛地变化,并且网络104可以是人体区域网络(BAN)、个人局域网(PAN)、局域网(LAN)(例如内联网)、城域网(MAN)、广域网(WAN)或互联网(Internet)。网络104的拓扑学可以是任何形式的,并且可以包括例如以下任何一种:点对点、总线、星形、环形、网状或树形。网络104可以是重叠网络,所述重叠网络是虚拟的并且位于一层或多层其他网络104’之上。网络104可以具有本领域普通技术人员已知的能够支持本文所述的操作的任何这样的网络拓扑学。网络104可以利用不同的技术以及协议层或协议栈,所述协议包括例如以太网协议、互联网协议组(TCP/IP)、ATM(异步传输模式)技术、SONET(同步光学网络)协议、或SDH(同步数字体系)协议。TCP/IP互联网协议组可以包括应用层、传输层、互联网层(包括例如IPv6)或链路层。网络104可以是广播网络、电信网络、数据通信网络或计算机网络的类型。
在一些实施方案中,所述系统可以包括多个逻辑分组的服务器106。在这些实施方案之一中,服务器的逻辑组可以被称为服务器场38或机器场38。在这些实施方案中的另一个中,服务器106可以在地理上被分散。在其他实施方案中,机器场38可以作为单一实体被管理。在再其他实施方案中,机器场38包括多个机器场38。每个机器场38内的服务器106可以是异质的–一个或多个服务器106或机器106可以根据一种类型的操作系统平台(例如,由华盛顿州雷德蒙德的微软公司(Microsoft Corp.of Redmond,Washington)制造的WINDOWSNT)进行操作,而一个或多个其他服务器106可以根据另一种类型的操作系统平台(例如,Unix、Linux或Mac OS X)进行操作。
在一个实施方案中,机器场38中的服务器106可以与相关的存储系统一起储存在高密度机架系统中,并且位于企业数据中心。在此实施方案中,通过将服务器106和高性能存储系统定位于本地化高性能网络上,以这种方式巩固服务器106可以改善系统可管理性、数据安全性、系统的物理安全性和系统性能。将服务器106和存储系统集中化并将它们与高级系统管理工具偶联允许服务器资源的更有效使用。
每个机器场38的服务器106不需要在物理上邻近在同一机器场38中的另一个服务器106。因此,在逻辑上被分组为机器场38的服务器106的组可以使用广域网(WAN)连接或城域网(MAN)连接进行互连。例如,机器场38可以包括在物理上位于不同的洲、或者洲、国家、州、城市、校园或房间的不同区域中的服务器106。如果使用局域网(LAN)连接或一些形式的直接连接来连接服务器106,则可以增加机器场38中的服务器106之间的数据传输速度。另外地,异质机器场38可以包括根据操作系统的类型来运行的一个或多个服务器106,而一个或多个其他服务器106执行一种或多种类型的管理程序(hypervisor)而不是操作系统。在这些实施方案中,管理程序可以用于仿真虚拟硬件、对物理硬件进行分区、将物理硬件虚拟化、以及执行提供对计算环境的访问的虚拟机器,从而允许多个操作系统在主机上同时运行。本地管理程序可以直接在主机上运行。管理程序可以包括由加利福尼亚州帕洛阿尔托的VMWare公司(VMWare公司,帕洛阿尔托,加利福尼亚州)制造的VMware ESX/ESXi;开发由Citrix Systems公司监测的一种开源产品Xen管理程序;由微软(Microsoft)或其他公司提供的HYPER-V管理程序。主机管理程序可以在操作系统内在第二软件级别上运行。主机管理程序的例子可以包括VMware Workstation和VIRTUALBOX。
机器场38的管理可以被去集中化。例如,一个或多个服务器106可以包含部件、子系统和模块,以支持针对机器场38的一个或多个管理服务。在这些实施方案之一中,一个或多个服务器106提供用于动态数据管理的功能,包括用于处理故障转移、数据复制和增加机器场38的稳健性的技术。每个服务器106可以与持久性存储器通信,并且在一些实施方案中,可以与动态存储器通信。
服务器106可以是文件服务器、应用服务器、网络服务器、代理服务器、电器、网络家电、网关、网关服务器、虚拟化服务器、部署服务器、SSL VPN服务器、或防火墙。在一个实施方案中,服务器106可以被称为远程机器或节点。在另一个实施方案中,多个节点290可以在任何两个通信服务器之间的路径中。
参考图1B,描绘了云计算环境。云计算环境可以向客户端102提供由网络环境提供的一个或多个资源。云计算环境可以包括经一个或多个网络104与云108通信的一个或多个客户端102a-102n。客户端102可以包括例如胖客户端、瘦客户端和零客户端。即使当与云108或服务器106断开连接时,胖客户端也可以提供至少一些功能。瘦客户端或零客户端可能依赖于与云108或服务器106的连接以提供功能。零客户端可能依赖于云108或其他网络104或服务器106来检索用于客户端设备的操作系统数据。云108可以包括后端平台,例如服务器106、存储器、服务器场或数据中心。
云108可以是公共的、专用的或混合的。公共云可以包括由客户端102的第三方或客户端的所有者维护的公共服务器106。如上文所公开或在其他方面,服务器106可以位于远程地理位置的非现场。公共云可以经公共网络与服务器106连接。专用云可以包括由客户端102或客户端的所有者在物理上维护的专用服务器106。专用云可以经专用网络104与服务器106连接。混合云108可以包括专用和公共网络104二者以及服务器106。
云108还可以包括基于云的交付,例如,软件即服务(SaaS)110、平台即服务(PaaS)112、和基础设施即服务(IaaS)114。IaaS可以指代用户租用在指定时间段期间所需的基础设施资源的使用。IaaS提供商可以从大型池中提供存储、网络化、服务器或虚拟化资源,从而允许用户通过根据需要访问更多资源来快速扩展。IaaS的例子可以包括由加拿大魁北克省蒙特利尔(Montreal,Quebec,Canada)的OVH HOSTING提供的基础设施和服务(例如EG-32)、由华盛顿州西雅图(Seattle,Washington)的亚马逊公司(Amazon.com,Inc.)提供的亚马逊网络服务(AMAZON WEB SERVICES)、由得克萨斯州圣安东尼奥(San Antonio,Texas)的Rackspace US公司提供的RACKSPACE CLOUD、由加利福尼亚州山景城(Mountain View,California)的谷歌公司(Google Inc.)提供的谷歌计算引擎(Google Compute Engine)、或由加利福尼亚州圣巴巴拉(Santa Barbara,California)的RightScale公司提供的RIGHTSCALE。PaaS提供商可以提供由IaaS所提供的功能,包括例如存储、网络化、服务器或虚拟化、以及另外的资源(如操作系统、中间件或运行时资源)。PaaS的例子包括由华盛顿州雷德蒙德(Redmond,Washington)的微软公司(Microsoft Corporation)提供的WINDOWSAZURE、由谷歌公司(Google Inc.)提供的谷歌应用引擎(Google App Engine)、和由加利福尼亚州旧金山(San Francisco,California)的Heroku公司提供的HEROKU。SaaS提供商可以提供PaaS提供的资源,包括存储、网络化、服务器、虚拟化、操作系统、中间件或运行时资源。在一些实施方案中,SaaS提供商可以提供另外的资源,包括例如数据和应用资源。SaaS的例子包括由谷歌公司提供的谷歌应用(GOOGLE APPS)、由加利福尼亚州旧金山的Salesforce.com公司提供的SALESFORCE、或由微软公司提供的OFFICE 365。SaaS的例子还可以包括数据存储提供商,例如由加利福尼亚州旧金山的Dropbox公司提供的DROPBOX、由微软公司提供的Microsoft SKYDRIVE,由谷歌公司提供的Google Drive、或由加利福尼亚州库比蒂诺(Cupertino,California)的苹果公司(Apple Inc.)提供的Apple ICLOUD。
客户端102可以用一种或多种IaaS标准来访问IaaS资源,所述一种或多种IaaS标准包括例如亚马逊(Amazon)弹性计算云(EC2)、开放云计算接口(OCCI)、云基础设施管理接口(CIMI)或OpenStack标准。一些IaaS标准可以允许客户端经HTTP访问资源,并且可以使用代表性状态传输(REST)协议或简单对象访问协议(SOAP)。客户端102可以用不同的PaaS接口访问PaaS资源。一些PaaS接口使用HTTP包、标准Java API、JavaMail API、Java数据对象(JDO)、Java持久性API(JPA)、Python API、用于不同编程语言的网络集成API(包括例如用于Ruby的Rack,用于Python的WSGI,或用于Perl的PSGI,或可能基于REST、HTTP、XML或其他协议构建的其他API)。客户端102可以通过使用由网络浏览器(例如,GOOGLE CHROME、微软INTERNET EXPLORER、或由加利福尼亚州山景城的Mozilla基金会提供的Mozilla Firefox)提供的基于网络的用户界面来访问SaaS资源。客户端102还可以通过智能手机或平板电脑应用程序(包括例如Salesforce Sales Cloud或Google Drive应用程序)访问SaaS资源。客户端102还可以通过客户端操作系统(包括例如用于DROPBOX的Windows文件系统)访问SaaS资源。
在一些实施方案中,可以认证对IaaS、PaaS或SaaS资源的访问。例如,服务器或认证服务器可以经由安全证书、HTTPS或API密钥来认证用户。API密钥可以包括各种加密标准,例如高级加密标准(AES)。数据资源可以经传输层安全性(TLS)或安全套接层(SSL)发送。
客户端102和服务器106可以被部署为任何类型和形式的计算设备和/或在任何类型和形式的计算设备上执行,所述计算设备例如为能够在任何类型和形式的网络上通信并执行本文所述的操作的计算机、网络设备或电器。图1C和1D描绘了可用于实践客户端102或服务器106的实施方案的计算设备100的框图。如图1C和1D所示,每个计算设备100包括中央处理单元121和主存储单元122。如图1C所示,计算设备100可以包括存储设备128、安装设备116、网络接口118、I/O控制器123、显示设备124a-124n、键盘126和定点设备127(例如鼠标)。存储设备128可以包括但不限于操作系统、软件和基因组数据处理系统120的软件。如图1D所示,每个计算设备100还可以包括另外的可选元件,例如存储器端口103、桥接器170、一个或多个输入/输出设备130a-130n(通常使用附图标记130指代)以及与中央处理单元121通信的高速缓冲存储器140。
中央处理单元121是响应于并处理从主存储单元122获取的指令的任何逻辑电路。在许多实施方案中,中央处理单元121由微处理器单元提供,所述微处理器单元例如为:由加利福尼亚州山景城的英特尔公司(Intel Corporation)制造的那些;由伊利诺伊州绍姆堡(Schaumburg,Illinois)的摩托罗拉公司(Motorola Corporation)制造的那些;由加利福尼亚州圣克拉拉(Santa Clara,California)的英伟达(Nvidia)制造的芯片(SoC)上的ARM处理器和TEGRA系统;由纽约州怀特普莱恩斯(White Plains,New York)的国际商业机器公司(International Business Machines)制造的那些POWER7处理器;或由加利福尼亚州桑尼维尔(Sunnyvale,California)的Advanced Micro Devices公司制造的那些。计算设备100可以是基于这些处理器中的任何一种、或者能够如本文所述进行操作的任何其他处理器。中央处理单元121可以利用指令级并行、线程级并行、不同级别的高速缓存、和多核处理器。多核处理器可以包括在单个计算部件上的两个或更多个处理单元。多核处理器的例子包括AMD PHENOM IIX2、INTEL CORE i5和INTEL CORE i7。
主存储单元122可以包括能够储存数据并允许任何存储位置被微处理器121直接访问的一个或多个存储器芯片。主存储器单元122可以是易失性的并且比存储128存储器更快。主存储器单元122可以是动态随机存取存储器(DRAM)或任何变体,包括静态随机存取存储器(SRAM)、突发SRAM或同步突发SRAM(BSRAM)、快速页面模式DRAM(FPM DRAM)、增强型DRAM(EDRAM)、扩展数据输出RAM(EDO RAM)、扩展数据输出DRAM(EDO DRAM)、突发扩展数据输出DRAM(BEDO DRAM)、单数据速率同步DRAM(SDR SDRAM)、双数据速率SDRAM(DDR SDRAM)、直接Rambus DRAM(DRDRAM)或极限数据速率DRAM(XDR DRAM)。在一些实施方案中,主存储器122或存储128可以是非易失性的;例如,非易失性读访问存储器(NVRAM)、闪速存储器非易失性静态RAM(nvSRAM)、铁电RAM(FeRAM)、磁阻RAM(MRAM)、相变存储器(PRAM)、导电桥接RAM(CBRAM)、硅-氧化物-氮化物-氧化物-硅(SONOS)、电阻式RAM(RRAM)、Racetrack、纳米RAM(NRAM)或千足虫存储器。主存储器122可以是基于任何上述存储器芯片、或者能够如本文所述进行操作的任何其他可用的存储器芯片。在图1C所示的实施方案中,处理器121经由系统总线150(在下面更详细地描述)与主存储器122通信。图1D描绘了其中处理器经由存储器端口103直接与主存储器122通信的计算设备100的实施方案。例如,在图1D中,主存储器122可以是DRDRAM。
图1D描绘了其中主处理器121经由二级总线(有时称为背面总线)直接与高速缓冲存储器140通信的实施方案。在其他实施方案中,主处理器121使用系统总线150与高速缓冲存储器140通信。高速缓冲存储器140通常具有比主存储器122更快的响应时间,并且通常由SRAM、BSRAM或EDRAM提供。在图1D所示的实施方案中,处理器121经由本地系统总线150与各种I/O设备130通信。各种总线可以用于将中央处理单元121与任何I/O设备130连接,包括PCI总线、PCI-X总线、或PCI-Express总线、或NuBus。对于其中I/O设备是视频显示器124的实施方案,处理器121可以使用高级图形端口(AGP)来与显示器124或显示器124的I/O控制器123进行通信。图1D描绘了计算机100的实施方案,其中主处理器121经由HYPERTRANSPORT、RAPIDIO、或INFINIBAND通信技术直接与I/O设备130b或其他处理器121’通信。图1D还描绘了其中混合了本地总线和直接通信的实施方案:处理器121使用本地互连总线与I/O设备130a通信,同时直接与I/O设备130b通信。
在计算设备100中可以存在各种各样的I/O设备130a-130n。输入设备可以包括键盘、鼠标、触控板、轨迹球、触摸板、触摸鼠标、多点触摸板和触摸鼠标、麦克风、多阵列麦克风、绘图板、相机、单镜头反光相机(SLR)、数字SLR(DSLR)、CMOS传感器、加速计、红外光学传感器、压力传感器、磁力计传感器、角速率传感器、深度传感器、接近传感器、环境光传感器、陀螺仪传感器或其他传感器。输出设备可以包括视频显示器、图形显示器、扬声器、耳机、喷墨打印机、激光打印机和3D打印机。
设备130a-130n可以包括多个输入或输出设备的组合,所述输入或输出设备包括例如微软KINECT、用于WII的Nintendo Wiimote、Nintendo WII U GAMEPAD、或苹果IPHONE。一些设备130a-130n通过组合一些输入和输出来允许手势识别输入。一些设备130a-130n提供了面部识别,所述面部识别可以被用作用于不同目的(包括认证和其他命令)的输入。一些设备130a-130n提供语音识别和输入,包括例如微软KINECT、由苹果公司(Apple)用于IPHONE的SIRI、Google Now或谷歌语音搜索(Google Voice Search)。
另外的设备130a-130n具有输入和输出两种能力,包括例如触觉反馈设备、触摸屏显示器或多点触摸显示器。触摸屏、多点触摸显示器、触摸板、触摸鼠标或其他触摸传感设备可以使用不同的技术来传感触摸,包括例如电容式、表面电容式、投射电容式触摸(PCT);单元内电容式、电阻式、红外、波导、色散信号触摸(DST);单元内光学、表面声波(SAW)、弯曲波触摸(BWT)或基于力的传感技术。一些多点触摸设备可以允许与表面的两个或更多个接触点,从而允许高级功能,包括例如收缩、展开、旋转、滚动或其他手势。一些触摸屏设备(包括例如微软PIXELSENSE或多点触控协作墙(Multi-Touch Collaboration Wall))可能具有较大的表面,例如在桌面或在墙壁上,并且还可以与其他电子设备进行交互。一些I/O设备130a-130n(显示设备124a-124n)或设备组可以是增强现实设备。如图1C所示,可以通过I/O控制器123来控制I/O设备。I/O控制器可以控制一个或多个I/O设备,例如键盘126和定点设备127(例如鼠标或光学笔)。此外,I/O设备还可以为计算设备100提供存储和/或安装介质116。在再其他实施方案中,计算设备100可以提供USB连接(未示出)以接收手持式USB存储设备。在另外的实施方案中,I/O设备130可以是系统总线150与外部通信总线(例如,USB总线、SCSI总线、FireWire总线、以太网总线、千兆位以太网总线、光纤通道总线或雷电(Thunderbolt)总线)之间的桥接器。
在一些实施方案中,显示设备124a-124n可以连接到I/O控制器123。显示设备可以包括例如液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、蓝相LCD、电子纸(电子墨水)显示器、柔性显示器、发光二极管显示器(LED)、数字光处理(DLP)显示器、硅基液晶(LCOS)显示器、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管(AMOLED)显示器、液晶激光显示器、时序复用光学快门(TMOS)显示器、或3D显示器。3D显示器的例子可以使用例如立体视觉(stereoscopy)、偏振滤光器、主动式快门或自动立体视觉(autostereoscopy)。显示设备124a-124n也可以是头戴式显示器(HMD)。在一些实施方案中,显示设备124a-124n或对应的I/O控制器123可以通过OPENGL或DIRECTX API或其他图形库而被控制或具有其硬件支持。
在一些实施方案中,计算设备100可以包括或连接到多个显示设备124a-124n,每个显示设备可以属于相同或不同的类型和/或形式。因此,任何I/O设备130a-130n和/或I/O控制器123可以包括任何类型和/或形式的合适硬件、软件、或硬件和软件的组合,以支持、启用或提供计算设备100连接和使用多个显示设备124a-124n。例如,计算设备100可以包括任何类型和/或形式的视频适配器、视频卡、驱动器和/或库,从而以接口相接、通信、连接或以其他方式使用显示设备124a-124n。在一个实施方案中,视频适配器可以包括多个连接器来与多个显示设备124a-124n以接口相接。在其他实施方案中,计算设备100可以包括多个视频适配器,每个视频适配器与一个或多个显示设备124a-124n连接。在一些实施方案中,计算设备100的操作系统的任何部分可以被配置为使用多个显示器124a-124n。在其他实施方案中,显示设备124a-124n中的一个或多个可以由经由网络104与计算设备100连接的一个或多个其他计算设备100a或100b提供。在一些实施方案中,可以将软件设计和构造为使用另一台计算机的显示设备作为计算设备100的第二显示设备124a。例如,在一个实施方案中,苹果iPad可以连接到计算设备100,并且将设备100的显示器用作可以用作扩展桌面的附加显示屏。本领域普通技术人员将认识和理解计算设备100可以被配置为具有多个显示设备124a-124n的各种方式和实施方案。
再次参考图1C,计算设备100可以包含存储设备128(例如,一个或多个硬盘驱动器或独立磁盘的冗余阵列),用于储存操作系统或其他相关软件,并且用于储存应用软件程序(例如与用于基因组数据处理系统120的软件有关的任何程序)。存储设备128的例子包括例如硬盘驱动器(HDD);光驱,包括CD驱动器、DVD驱动器、或BLU-RAY驱动器;固态驱动器(SSD);USB闪盘驱动器;或适合于储存数据的任何其他设备。一些存储设备可以包括多个易失性和非易失性存储器,包括例如将硬盘与固态高速缓存组合的固态混合驱动器。一些存储设备128可以是非易失性的、可变的或只读的。一些存储设备128可以是内部的并且经由总线150连接到计算设备100。一些存储设备128可以是外部的,并且经由提供外部总线的I/O设备130连接到计算设备100。一些存储设备128可以经网络104经由网络接口118连接到计算设备100,包括例如由苹果公司用于MACBOOK AIR的远程磁盘。一些客户端设备100可能不需要非易失性存储设备128,并且可以是瘦客户端或零客户端102。一些存储设备128也可以用作安装设备116,并且可以适合于安装软件和程序。另外地,操作系统和软件可以从可启动介质运行,所述可启动介质例如为可启动CD,例如可从knoppix.net作为GNU/Linux发行版获得的KNOPPIX(一种用于GNU/Linux的可启动CD)。
客户端设备100还可以从应用发布平台安装软件或应用。应用发布平台的例子包括:由苹果公司提供的用于iOS的应用商店(App Store)、由苹果公司提供的Mac应用商店(Mac App Store)、由谷歌公司提供的用于安卓操作系统(Android OS)的GOOGLE PLAY、由谷歌公司提供的用于CHROME OS的Chrome Webstore、以及由亚马逊公司(Amazon.com,Inc.)提供的用于安卓操作系统和KINDLE FIRE的亚马逊应用商店(Amazon Appstore)。应用发布平台可以促进在客户端设备102上安装软件。应用发布平台可以包括在服务器106或云108上的应用库,客户端102a-102n可以经网络104访问所述应用库。应用发布平台可以包括由各种开发者开发和提供的应用。客户端设备102的用户可以经由应用发布平台来选择、购买和/或下载应用。
此外,计算设备100可以包括网络接口118以通过多种连接与网络104以接口相接,所述连接包括但不限于标准电话线LAN或WAN链路(例如,802.11、T1、T3、千兆位以太网、无限宽带)、宽带连接(例如,ISDN、帧中继、ATM、千兆位以太网、经SONET的以太网、ADSL、VDSL、BPON、GPON、光纤(包括FiOS))、无线连接、或上述任何或全部的一些组合。可以使用多种通信协议(例如,TCP/IP、以太网、ARCNET、SONET、SDH、光纤分布式数据接口(FDDI)、IEEE802.11a/b/g/n/ac CDMA、GSM、WiMax和直接异步连接)建立连接。在一个实施方案中,计算设备100经由任何类型和/或形式的网关或隧道协议(例如安全套接层(SSL)或传输层安全性(TLS))或由佛罗里达州劳德代尔堡(Ft.Lauderdale,Florida)的Citrix Systems公司制造的Citrix网关协议与其他计算设备100’通信。网络接口118可以包含内置网络适配器、网络接口卡、PCMCIA网卡、EXPRESSCARD网卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器或适合于将计算设备100与能够通信并执行本文所述的操作的任何类型网络以接口相接的任何其他设备。
图1B和1C所描绘的那种计算设备100可以在操作系统的控制下操作,所述操作系统控制任务的调度和对系统资源的访问。计算设备100可以运行任何操作系统,例如任何版本的微软WINDOWS操作系统、不同版本的Unix和Linux操作系统、任何版本的用于Macintosh计算机的MAC OS、任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何专有操作系统、用于移动计算设备的任何操作系统、或能够在计算设备上运行并执行本文所述的操作的任何其他操作系统。典型的操作系统包括但不限于:WINDOWS 2000、WINDOWSServer 2022、WINDOWS CE、WINDOWS Phone、WINDOWS XP、WINDOWS VISTA、和WINDOWS 7、WINDOWS RT、和WINDOWS 8,它们全部都是由华盛顿州雷德蒙德(Redmond,Washington)的微软公司制造;由加利福尼亚州库比蒂诺的苹果公司制造的MAC OS和iOS;以及Linux(一种免费可用的操作系统,例如Linux Mint发行版(“发行版(distro)”))或由英国伦敦的Canonical公司(Canonical Ltd.)发布的Ubuntu;或Unix或其他类似Unix的衍生操作系统;以及由加利福尼亚州山景城的谷歌公司设计的安卓(Android)等。一些操作系统(包括例如由谷歌公司提供的CHROME OS)可以在零客户端或瘦客户端(包括例如CHROMEBOOKS)上使用。
计算机系统100可以是任何工作站、电话、台式计算机、膝上型计算机或笔记本计算机、上网本、超极本(ULTRABOOK)、平板电脑、服务器、手持计算机、移动电话、智能手机或其他便携式电信设备、媒体播放设备、游戏系统、移动计算设备、或能够通信的任何其他类型和/或形式的计算、电信或媒体设备。计算机系统100具有足够的处理器能力和存储器容量以执行本文所述的操作。在一些实施方案中,计算设备100可以具有不同的处理器、操作系统以及符合所述设备的输入设备。例如,三星(Samsung)GALAXY智能手机在由谷歌公司开发的安卓操作系统的控制下运行。GALAXY智能手机经由触摸界面接收输入。
在一些实施方案中,计算设备100是游戏系统。例如,计算机系统100可以包含由日本东京(Tokyo,Japan)的索尼公司(Sony Corporation)制造的PLAYSTATION 3或PERSONALPLAYSTATION PORTABLE(PSP)、或PLAYSTATION VITA设备;由日本京都(Kyoto,Japan)的任天堂有限公司(Nintendo Co.,Ltd.)制造的NINTENDO DS、NINTENDO 3DS、NINTENDO WII、或NINTENDO WII U设备;由华盛顿州雷德蒙德的微软公司制造的XBOX 360设备。
在一些实施方案中,计算设备100是数字音频播放器,例如由加利福尼亚州库比蒂诺的苹果计算机公司(Apple Computer)制造的苹果IPOD、IPOD Touch和IPOD NANO系列的设备。一些数字音频播放器可能具有其他功能(包括例如游戏系统)或可由应用从数字应用发布平台获得的任何功能。例如,IPOD Touch可以访问苹果应用商店。在一些实施方案中,计算设备100是支持如下文件格式的便携式媒体播放器或数字音频播放器,所述文件格式包括但不限于MP3、WAV、M4A/AAC、受WMA保护的AAC、AIFF、可听的有声读物、苹果无损音频文件格式以及.mov、.m4v、和.mp4 MPEG-4(H.264/MPEG-4AVC)视频文件格式。
在一些实施方案中,计算设备100是平板电脑,例如由苹果公司制造的IPAD系列设备;由三星公司(Samsung)制造的设备的GALAXY TAB系列;或由华盛顿州西雅图(Seattle,Washington)的亚马逊公司制造的KINDLE FIRE。在其他实施方案中,计算设备100是电子书阅读器,例如由亚马逊公司制造的KINDLE系列的设备、或由纽约州纽约市的巴诺公司(Barnes&Noble,Inc.)制造的NOOK系列的设备。
在一些实施方案中,通信设备102包括设备的组合,例如与数字音频播放器或便携式媒体播放器组合的智能手机。例如,这些实施方案之一是智能手机,例如由苹果公司制造的IPHONE系列的智能手机;由三星公司制造的三星GALAXY系列的智能手机;或摩托罗拉DROID系列的智能手机。在又另一个实施方案中,通信设备102是配备有网络浏览器以及麦克风和扬声器系统(例如电话耳机)的膝上型计算机或台式计算机。在这些实施方案中,通信设备102是网络启用的,并且可以接收和发起电话呼叫。在一些实施方案中,膝上型计算机或台式计算机还配备有实现视频聊天和视频通话的网络摄像头或其他视频拍摄设备。
在一些实施方案中,通常作为网络管理的一部分监视网络104中的一个或多个机器102、106的状态。在这些实施方案之一中,机器的状态可以包括负载信息(例如,机器上的进程数量、CPU和内存利用率)、端口信息(例如,可用通信端口的数量和端口地址)、或会话状态(例如,进程的持续时间和类型、以及进程是处于活动状态还是空闲状态)的鉴别。在这些实施方案的另一个中,此信息可以通过多个度量来鉴定,并且所述多个度量可以至少部分地应用于负载分配、网络流量管理和网络故障恢复以及本文所述的本解决方案的操作的任何方面中的决策。在本文所公开的系统和方法的上下文中,上述操作环境和部件的方面将变得清楚。
B.从基因组数据鉴定正向和反向引物的计算机实施的方法
图2展示了与图1C所示的基因组数据处理系统120相似的基因组数据处理系统200。特别地,基因组数据处理系统200处理基因组数据,以确定用于生成基因组数据的正向和反向引物。选择适当的引物非常重要,因为缺乏适当程度的序列互补性的引物可导致产生无法代表相关V-J区段的序列读段,并且因此可降低各种参数(例如针对特定的V-J克隆的序列读段频率)的计算准确性。由于用于生成从一些下一代测序仪接收的V-J序列读段的引物是未知的,因此处理所接收到的序列读段可导致准确性降低。通过从序列读段中鉴定引物,可以选择适当的引物供进一步分析以改善准确性。此外,通过了解用于处理样品的引物的身份,可以如本文所述对样品的克隆性进行更准确的分析。
基因组数据处理系统200包括引物提取引擎202和数据存储218。数据存储218可以包括共有策略数据204、正向和反向引物数据206以及人类参考基因组列表208。基因组数据处理系统200可以偶联到计算机网络214,所述计算机网络可以包括一个或多个有线或无线网络,例如以太网、互联网、WiFi网络、蓝牙网络等。基因组数据处理系统200可以使用上文关于图1A-1D所讨论的计算系统来实施。
基因组数据处理系统200可以从下一代基因组测序仪(“NG测序仪”)216(例如Illumina测序仪、Lymphotrac测序仪、离子激流测序仪和454焦磷酸测序仪(pyro-sequencer))接收数据。NG测序仪216可以提供详细的染色体分析,并且可以采用诸如阵列比较基因组杂交(CGH)、微阵列、寡核苷酸阵列、单核苷酸多态性(SNP)阵列、全基因组阵列(WGA)等技术。NG测序仪216可以将原始基因组数据提供给基因组数据转换系统200。特别地,NG测序仪216可以提供源自在下一代测序测定中已经用正向引物和反向引物处理过的生物样品的基因组数据。
在发育期间,淋巴样细胞中的抗原受体基因经历了体细胞基因重排。例如,在B细胞发育期间,编码IGH分子的基因是从经历重排和选择的多个基因区段组装而成的。V、D和J的这些基因重排为每个细胞生成独特长度和序列的V-D-J组合。例如,染色体14上的免疫球蛋白重链(IGH)基因位点(14q32.3)包括46-52个功能性和30个非功能性可变(V)基因区段、27个功能性多样性(D)基因区段、以及6个功能性连接(J)基因区段(遍布于1250千碱基)。
由于白血病和淋巴瘤起源于单独淋巴样细胞的恶性转化,因此所有白血病和淋巴瘤通常共享一种或多种细胞特异性或“克隆性”抗原受体基因重排。检测IGH克隆性重排的测试可以用于B细胞恶性肿瘤的研究中。
基于PCR的测定基于其使用凝胶电泳分离后扩增的V-D-J(或不完整的D-J产物)基因重排的过度表现来鉴定克隆性。尽管对于测试少量DNA而言是灵敏且适合的,但这些测定不能容易地在可能位于单一尺寸峰之下的克隆群体与多种重排之间作出区分,并且不是设计来鉴定跟踪后续分析所需的特定V-J DNA序列。
PCR测定通常用于鉴定克隆性B细胞和T细胞群体。这些测定在靶向抗原受体基因的V区保守框架与保守J区的引物之间扩增DNA。这些保守区域在引物靶向的情况下位于所有B和T淋巴细胞成熟期间发生程序性遗传重排的区域的任一侧。这些基因重排的结果是产生不同的B和T淋巴细胞群体。
经历重排的抗原受体基因是B细胞中的免疫球蛋白重链(IGH)和轻链基因座(IGK和IGL)、以及T细胞中的T细胞受体基因位点(TRA、TRB、TRG和TRD)。每个B和T细胞都具有在长度和序列方面均独特的一个或两个生产性V-J重排。因此,当使用位于V-J区域侧翼的DNA引物扩增来自正常或多克隆群体的DNA时,生成反映异质群体的、在序列和长度方面均独特的扩增子。参见图16。对于含有克隆群体的样品,产出是在以较低频率扩增的减少的多克隆背景内,以显著的发生频率被检测到的一种或两种具有相同长度和序列的突出扩增产物。参见图16。
图3展示了引物提取过程300的流程图。过程300包括生成多个序列读段(框302)。可以例如由图2所示的引物提取引擎202执行过程300。引物提取引擎202可以从NG测序仪216接收基因组数据。如上所提及,基因组数据可以包括源自在下一代测序测定中已经用正向引物和反向引物处理过的生物样品的基因组数据。特别地,基因组数据可以包括由于使用正向引物和反向引物而产生的许多序列读段。所述序列可以包括已经修整掉与用于生成序列读段的正向引物和反向引物有关的任何信息的核苷酸序列。
图4展示了从由示例性下一代测序仪提供的基因组数据生成示例性序列读段的屏幕截图400。特别地,屏幕截图400展示了
Figure BDA0002524224530000261
数据分析工具的输出,所述数据分析工具是用于检测在来自LymphoTrack测定的下一代测序(NGS)输出内的V-J克隆序列的一种生物信息学数据分析工具。输出包括一列序列读段402,其已被修整以排除任何正向和反向引物信息。输出还包括每个检测到的V-J克隆序列的原始计数、长度和频率(总读段%)。引物提取引擎202从NG测序仪216接收这些序列读段402(和其他输出数据)供进一步处理。在一些实施方式中,引物提取引擎202可以为每个序列读段402生成序列读段数据结构,并将所述序列读段数据结构储存在存储器中。数据结构可以包括所述序列读段以及由NG测序仪216提供的另外的输出数据。
再次参考图3,过程300包括生成多个V-J基因区段(框304)。引物提取引擎202可以在人类参考基因组列表208中查找从NG测序仪212接收的每个序列读段,以确定对应的V-J区段。人类参考基因组列表可以包括人类参考基因组数据或各种构建,如hg16、hg17、hg18、hg19和hg38。
过程300包括鉴定分别位于每个V-J基因区段的上游和下游的第一数量和第二数量的核苷酸(框306)。特别地,引物提取引擎202可以将每个V-J基因区段与从NG测序仪212接收的基因组数据进行比较,以便为对应V-J区段鉴定位于对应V-J基因区段上游的第一数量的核苷酸和位于对应基因区段下游的第二数量的核苷酸。
图5示出了鉴定分别位于每个V-J基因区段的上游和下游的第一数量和第二数量的核苷酸的一个例子。特别地,图5示出了引物提取引擎202,其将从Lymphotrac基因组数据生成的V-J基因区段与从NG测序仪212接收的基因组数据(标记为“Run4-TCR-349-25082”)进行比较以提取V-J基因区段上游的30个碱基对和下游的30个碱基对。在一些实施方式中,上游和下游的碱基对的数量可以不同于图5所示的30个。例如,引物提取引擎202可以替代地提取V-J基因区段上游和下游的约20个至约35个或约25个碱基对。
在本文所公开的方法的一些实施方案中,位于对应V-J基因区段上游的第一数量的核苷酸的长度可以在20-30个碱基对之间,并且可以还包含下一代测序(NGS)相容的衔接子序列。另外地或可替代地,在本文所公开的方法的一些实施方案中,位于对应V-J基因区段下游的第二数量的核苷酸的长度可以在20-30个碱基对之间,并且可以还包含NGS相容的衔接子序列和/或患者特异性条形码序列(也称为索引标签或复用身份符(MID))。NGS相容的衔接子序列的例子包括P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion Xpress(TM)条形码衔接子。其他衔接子序列是本领域已知的。一些制造商建议将特定的衔接子序列用于其所提供的特定测序技术和机器。在一些实施方式中,第一数量可以是20个碱基对的长度。在一些实施方式中,第一数量可以是30个碱基对的长度。在一些实施方式中,第一数量可以是在5-100、10-90、10-80、10-70、10-60、10-50、10-40或10-30个碱基对之间的长度。在一些实施方式中,第一数量可以是大于100个碱基对的长度。在一些实施方式中,第二数量可以是20个碱基对的长度。在一些实施方式中,第二数量可以是30个碱基对的长度。在一些实施方式中,第二数量可以是在5-100、10-90、10-80、10-70、10-60、10-50、10-40或10-30个碱基对之间的长度。在一些实施方式中,第二数量可以是大于100个碱基对的长度。
在一些实施方案中,位于每个组内的V-J基因区段上游的第一数量的核苷酸含有相同的衔接子序列。另外地或可替代地,在一些实施方案中,位于每个组内的V-J基因区段下游的第二数量的核苷酸含有相同的衔接子序列。
在一些实施方案中,位于对应V-J基因区段下游的第二数量的核苷酸包含衔接子序列,所述衔接子序列不同于在位于对应V-J基因区段上游的第一数量的核苷酸中存在的衔接子序列。
在本文所公开的方法的一些实施方案中,位于对应V-J基因区段下游的第二数量的核苷酸和/或位于对应V-J基因区段上游的第一数量的核苷酸含有衔接子序列,所述衔接子序列还包含指示从其获得样品的患者的相同索引序列或条形码序列。例如,获自单个患者的所有样品的条形码序列可以与获自不同患者的样品的条形码序列不同。因此,条形码序列的使用允许每次测序运行合并来自不同患者的多个样品,并且随后基于索引序列确定样品来源。在一些实施方案中,在测序之前合并源自多达48名独立患者的样品。
再次参考图3,过程300包括将多个V-J基因区段分组为多个组,每个组包括V-J基因区段(框308)。特别地,引物提取引擎202可以将多个V-J基因区段分组为多个组。多个组中的每个组可以包括具有相同V-J身份的V-J基因区段。
过程300包括引物提取引擎202,所述引物提取引擎针对来自多个组的每个组的V-J基因区段执行在以下框310-318中的动作。具体地,引物提取引擎202可以针对组中的所有V-J区段,比对位于V-J基因区段上游的第一数量的核苷酸(框310),并且针对组中的所有V-J区段,比对位于V-J基因区段下游的第二数量的核苷酸(框312)。
图6展示了与组内的V-J基因区段相关的第一数量的核苷酸602的比对。例如,引物提取引擎202可以在阵列数据结构中储存组内的每个V-J基因区段的第一数量的核苷酸,其中阵列的一个维度上的每个位置对应于核苷酸的位置。尽管在图6中仅示出了五个第一数量的核苷酸,但这仅是为了易于说明的例子,并且引物提取引擎202可以将与组中的V-J区段一样多的第一数量的核苷酸进行比对。引物提取引擎202可以类似地比对与组内的V-J基因区段相关的第二数量的核苷酸。
过程300包括针对所比对的第一数量的核苷酸在每个核苷酸位置基于共有策略确定核苷酸身份,以生成正向引物共有序列(框314)。特别地,引物提取引擎202可以针对与组内的V-J基因区段相关的第一数量的核苷酸的每个位置,确定核苷酸身份的一致水平。图6示出了通过引物提取引擎202基于第一数量的核苷酸502和共有策略数据204(图2)确定的正向引物共有序列606。如图6所示,除位置604以外的所有位置的核苷酸身份都是相同的。在一个例子中,共有策略可以指示,如果在一个位置上的核苷酸身份不匹配,那么可以选择在该位置处具有所有核苷酸的超过50%比例的核苷酸作为共有核苷酸身份。引物提取引擎202可以确定在位置604处核苷酸身份不匹配,因为第二和第三核苷酸是“A”和“T”,而其他核苷酸是“C”。然后,引物提取引擎202可以确定在位置604处每个身份的比例。因此,引物提取引擎202可以确定身份“C”出现三次,而身份“A”和“T”各自出现一次。身份“C”的比例为60%,而身份“A”和“T”各自的比例为20%。引物提取引擎202基于共有策略,然后可以选择身份“C”作为位置604的共有身份。也可以使用其他共有策略。例如,共有身份是在位置604处出现最多的身份,或者是发生大于预定阈值的身份,等等。在一些实施方式中,上文讨论的百分比比例可以在从约20%至约80%或约30%至约70%、或约40%至约60%或至少50%的范围内。在一些实施方式中,在不存在满足共有策略的任何身份的情况下,引物提取引擎202可以在该位置处包括“通配符身份”。在一些其他实施方式中,引物提取引擎202可以修改共有策略,使得可以确定共有身份。例如,提取引擎202可以改变阈值%,直到可以为该位置确定单个身份为止。
过程300包括针对所比对的第二数量的核苷酸在每个核苷酸位置基于共有策略确定核苷酸身份,以生成反向引物共有序列(框316)。引物提取引擎202可以按与上文关于确定正向引物共有序列所述讨论的相似的方式确定反向引物共有序列。
过程300可以包括鉴定正向引物共有序列和反向引物共有序列分别作为正向引物和反向引物(框318)。引物提取引擎202可以存储每个组的正向和反向引物共有序列作为正向和反向引物序列数据206。引物提取引擎202可以鉴定所确定的正向和反向共有引物序列作为NG测序仪212用来生成序列读段的正向和反向引物序列。
过程300还可以包括引物提取引擎202从另外的生物样品中生成另外的正向和反向引物,并将检测到的正向和反向引物储存在正向和反向引物数据206中。因此,引物提取引擎202可以构建可以用于生成序列读段的正向和反向引物的库,所述库进而可以被用于以更高的准确性检测克隆性。
C.用于检测基因组数据中的克隆性的计算机实施的方法
图7展示了与图1C所示的基因组数据处理系统120相似的基因组数据处理系统700。特别地,基因组数据处理系统700处理基因组数据以检测基因组数据中的克隆V-J区段。基因组数据处理系统700包括克隆检测引擎702和数据存储718。数据存储718可以包括克隆检测策略数据704、正向和反向引物数据206以及人类参考基因组列表208。正向和反向引物数据206可以包括使用上文关于图2-6所讨论的过程300提取的正向和反向引物。基因组数据处理系统700可以偶联到计算机网络214,所述计算机网络可以包括一个或多个有线或无线网络,例如以太网、互联网、WiFi网络、蓝牙网络等。基因组数据处理系统700可以使用上文关于图1A-1D所讨论的计算系统来实施。
基因组数据处理系统700可以从NG测序仪216(例如Illumina测序仪、Lymphotrac测序仪、离子激流测序仪和454焦磷酸测序仪)接收数据。NG测序仪216可以提供详细的染色体分析,并且可以采用诸如阵列比较基因组杂交(CGH)、微阵列、寡核苷酸阵列、单核苷酸多态性(SNP)阵列、全基因组阵列(WGA)等技术。NG测序仪216可以将原始基因组数据提供给基因组数据转换系统200。特别地,NG测序仪216可以提供源自在下一代测序测定中已经用正向引物和反向引物处理过的生物样品的基因组数据。在一些实施方案中,生物样品源自同一患者。在其他实施方案中,生物样品源自不同的患者。在一些实施方式中,基因组数据处理系统700可以向NG测序仪216提供在正向和反向引物数据206中包括的正向和反向引物,并且从NG测序仪216接收基因组数据,所述基因组数据源自已经使用相同的正向和反向引物进行处理的生物样品。
图8展示了克隆检测过程800的流程图。过程800包括从下一代测序仪接收多个序列读段(框802)。特别地,克隆检测引擎702可以从NG测序仪216接收与获自受试者的样品相关的多个序列读段。多个序列读段中的每一个可以代表编码基因区段和非编码基因区段中的至少一者。可以基于正向和反向引物数据206确定通过克隆检测引擎702接收的序列读段。即,序列读段可以是基于使用上文关于图2-6所讨论的过程300确定的引物。
过程800可以包括针对每个序列读段去除相应的正向和反向引物序列以生成修整序列读段(框804)。特别地,克隆检测引擎702可以针对多个序列读段中的每个序列读段去除相应的正向引物序列和相应的反向引物序列,以生成对应的修整序列读段。
图9示出了用于多个序列读段的正向和反向引物的示例性代表。特别地,图9示出了IGH基因的V-D-J区。箭头表示正向引物在V基因区段的FR1、FR2和FR3区内结合以及反向引物与J基因区段的JH区结合的示例性位点。然后,可以从序列读段中去除上文所鉴定的正向和反向引物,以生成对应的修整序列读段。
再次参考图8,过程800可以包括从修整序列读段中鉴定出多个组,每个组包括具有相同序列身份的修整序列读段(框806)。特别地,克隆检测引擎702可以从由多个序列读段生成的修整序列读段中鉴定出多个组的修整序列读段,其中每个组包括具有相同序列身份的修整序列读段。在一些实施方式中,通过将修整序列读段彼此进行比较并确定在比较过的修整序列读段中共有的核苷酸序列,可以确定相同的序列身份。通过将修整序列读段彼此重复进行比较,可以确定修整序列读段的组,其中组中的每个修整序列读段包括相同的序列身份或共同的核苷酸序列。
图10示出了鉴定多个组的修整序列读段的示例性代表。克隆检测引擎702比较了两个不同的修整序列读段。两个修整序列读段可以彼此完全或不完全(部分或交错)重叠或根本不重叠。重叠的(完全、部分或交错)修整序列读段指示两个修整序列读段包括相同的序列身份,并且应将它们分组在同一组中。在一些实施方案中,非重叠的修整序列读段可能不被一起分组在同一个组中。
再次参考图8,过程800可以包括从多个组中的每个组中选择一个修整序列读段以形成选定的修整序列读段的集合(框808)。特别地,克隆检测引擎702可以从同一个组中的多个修整序列读段中选择代表性的修整序列读段。克隆检测引擎可以类似地从所有组中选择代表性的修整序列读段。克隆检测引擎702可以形成选定的修整序列读段的集合,所述修整序列读段包括所有选定的代表性修整序列读段。
过程800可以包括通过与人类基因组数据库进行比较来为选定的集合中的每个修整序列读段确定V-J身份(框810)。特别地,克隆检测引擎702可以将选定的修整序列读段的集合中的每个修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类参考基因组列表208(图7)进行比较,以确定对应的V-J身份。
过程800可以包括针对与组对应的每个V-J身份确定V-J身份的相应频率(框812)。特别地,克隆检测引擎202可以针对与多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量,确定V-J身份的相应频率。克隆检测引擎702可以维持每个组内的修整序列读段的数量的计数,并且将此数量鉴定为与所述组相关的V-J身份的频率。
图11示出了通过克隆检测引擎702生成的示例性输出1100。特别地,克隆检测引擎702可以生成示出了V-J身份的频率(相对于其他V-J身份)的输出1100。“组合”列包括V-J身份,并且“百分比”列指示身份频率作为所有V-J身份的频率之和的比例。
过程800可以包括基于V-J身份的相应频率,基于克隆检测策略来鉴定V-J身份的至少一个克隆(框814)。特别地,克隆检测引擎702可以基于与多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略来鉴定V-J身份的至少一个克隆。
图12展示了克隆检测策略1200的集合。检测策略可以储存在基因组数据处理系统700的克隆检测策略数据704(图7)中。克隆检测策略可以包括三个类别的规则:类别1:最佳类别;类别2:合格结果;和类别3:失败。每个类别可以包括子类别或规则以及对应的评估。各种评估可以包括“证明检测到的克隆性”、“未证明检测到的克隆性”、“寡克隆的或克隆的”、以及“不可评估”。评估可以还包括使用其他研究或数据解释数据的建议。
图13展示了与克隆跟踪过程有关的跟踪数据1300。在一些实施方式中,基因组数据处理系统700可以用于在例如特定治疗之后的不同时间生成同一患者的V-J身份。可以将跟踪数据中确定的V-J身份和对应的频率储存在存储器中,并与过去针对同一患者生成的V-J身份和频率进行比较。在一些实施方式中,将在特定患者样品中鉴定的克隆序列储存在存储器中。在对同一患者样品进行跟踪NGS测定之后,将检索先前鉴定的患者样品克隆序列,并在来自所述患者的新的跟踪样品内进行查询。将结果总结并保存在数据库中,然后可以通过用户界面使所述数据库可用。例如,如图13所示,可以将V-J身份1302储存在存储器中,并与已经储存在存储器中的V-J身份进行比较。
图14展示了用于显示克隆跟踪过程之后与患者相关的克隆的用户界面。特别地,图14示出了通过查询患者样品或特定的V-J克隆如何可以容易地访问来自同一样品的跟踪测定的结果。图13所示的V-J克隆1302在跟踪过程中被指示为未找到(NF)。
图15A-15E示出了在使用常规的
Figure BDA0002524224530000331
数据分析工具与本技术的克隆检测方法所获得的克隆检测结果之间的比较。图15A证明了本文所公开的克隆检测方法可成功鉴定患者样品中占优势的V-J克隆(V1-3-J3)的存在,所述占优势的V-J克隆当使用常规的
Figure BDA0002524224530000332
数据分析工具来分析同一患者样品时未被检测到。将患者样品进行IGHFR1测定。图15B证明了本文所公开的克隆检测方法可成功鉴定患者样品中占优势的V-J克隆(V1-45-J3)的存在,所述占优势的V-J克隆当使用常规的
Figure BDA0002524224530000333
数据分析工具来分析同一患者样品时未被检测到。将患者样品进行IGH FR1测定。图15C证明了本文所公开的克隆检测方法可用于在跟踪NGS测定期间检测患者样品中先前鉴定的V-J克隆(V1-18-J3)的丢失。当在跟踪NGS测定期间使用常规的
Figure BDA0002524224530000334
数据分析工具来分析同一患者样品时,未检测到V-J克隆(V1-18-J3)的这种明显丢失。将患者样品进行IGH FR1测定。图15D证明了本文所公开的克隆检测方法可成功鉴定患者样品中占优势的V-J克隆(V4-59-J6)的存在,所述占优势的V-J克隆当使用常规的
Figure BDA0002524224530000335
数据分析工具来分析同一患者样品时未被检测到。将患者样品进行IGH FR1测定。图15E示出了当对图15D中所述的患者样品进行IGHV前导体细胞高频突变测定时,常规的
Figure BDA0002524224530000336
数据分析工具和本文所公开的克隆检测方法都鉴定出相同的占优势的V-J克隆。
图15A证明了本技术的克隆检测方法能够检测患者样品中的克隆事件,所述克隆事件当使用常规的
Figure BDA0002524224530000337
数据分析工具来分析同一患者样品时是不可检测的。本文所公开的方法的优越性能至少部分地归因于引物修整步骤(如由本文所述的共有策略确定,以生成用于各个V-J区段的反向引物共有序列和正向引物共有序列)和图11所述的合并读取步骤。如图15A和15D所示,将两个患者样品都进行IGH FR1测定,并且然后使用常规的
Figure BDA0002524224530000341
数据分析工具以及上文关于图8所讨论的克隆检测过程进行处理。
图15A证明了常规的
Figure BDA0002524224530000342
数据分析工具无法检测到患者样品中占优势的V-J克隆(V1-3-J3)的存在。相反,本技术的克隆检测方法成功地检测到同一患者样品中占优势的V1-3-J3克隆的存在。这些结果的准确性独立地使用二级测定(如毛细管电泳和IGHV前导体细胞高频突变测定)确认,所述二级测定确认了患者样品中占优势的V1-3克隆的存在。这些结果之所以有意义是因为由于常规的
Figure BDA0002524224530000343
数据分析工具无法检测到患者样品中占优势的V1-3-J3克隆而所述患者样品将被错误地表征为“非克隆的”。
同样,图15D证明了常规的
Figure BDA0002524224530000344
数据分析工具无法检测到患者样品中占优势的V-J克隆(V4-59-J6)的存在。相反,本技术的克隆检测方法成功地检测到同一患者样品中占优势的V4-59-J6的存在。这些结果之所以有意义是因为如果人们仅依靠使用常规的
Figure BDA0002524224530000345
数据分析工具生成的IGH FR1测定结果,所述患者样品将被错误地表征为“非克隆的”。相反,图15E示出了对同一患者样品进行IGHV前导体细胞高频突变测定的结果,确认了所述患者样品实际上是克隆样品(使用常规的
Figure BDA0002524224530000346
数据分析工具演示和本文所述的克隆检测方法鉴定为克隆的)。
类似地,图15B证明了本文所公开的克隆检测方法可成功鉴定患者样品中占优势的V1-45-J3克隆的存在,所述占优势的V1-45-J3克隆当使用常规的
Figure BDA0002524224530000347
数据分析工具来分析同一患者样品时未被检测到。
图15B示出了最初使用常规的
Figure BDA0002524224530000348
数据分析工具或本文所述的克隆检测方法在患者样品中检测到占优势的V1-18-J3克隆。然而,如图15C所示,本文所公开的克隆检测方法能够在跟踪NGS测定期间检测到同一患者样品中V1-18-J3克隆的丢失。当在跟踪NGS测定期间使用常规的
Figure BDA0002524224530000349
数据分析工具来分析同一患者样品时,未观察到V1-18-J3克隆的这种明显丢失。使用二级形态学测定如免疫组织化学(IHC)独立地确认了V1-18-J3克隆的频率降低。
另外地或可替代地,在一些实施方案中,样品中的至少一个克隆V-J基因区段还包含多样性(D)区。样品可以是DNA或RNA样品,并且可以任选地源自T淋巴细胞或B淋巴细胞。T淋巴细胞的例子包括CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。B淋巴细胞的例子包括浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
另外地或可替代地,在一些实施方案中,样品从以下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。淋巴增生性障碍的例子包括白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症(Waldenstrom'smacroglobulinemia)、威斯科特-奥德里奇综合征(Wiskott-Aldrich syndrome)、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
修整序列读段不包含NGS相容的衔接子序列。克隆V-J区段可以包含人类基因组中存在的46-52个功能性或30个非功能性可变(V)基因区段中的任何一个。另外地或可替代地,克隆V-J区段可以包含人类基因组中存在的6个功能性连接(J)基因区段中的任何一个。另外地或可替代地,克隆V-J区段还可以包含人类基因组中存在的27个功能性多样性(D)基因区段中的任何一个。
术语“衔接子”是指化学合成的短核酸序列,其可以用于连接核酸序列的末端以促进与另一个分子的附接。衔接子可以是单链的或双链的。衔接子可以并有用于PCR扩增或测序的短(典型地少于50个碱基对)序列。
如本文所用的关于多核苷酸(即核苷酸序列,如寡核苷酸或靶核酸)的术语“互补的”或“互补性”是指碱基配对原则。本文所用的核酸序列的补体是指当与核酸序列比对使得一个序列的5'端与另一个序列的3'端配对时,处于“反平行缔合”的寡核苷酸。例如,序列“5'-A-G-T-3'”与序列“3'-T-C-A-5'”互补。互补性无需完美;稳定双链体可以含有错配碱基对、变性或不匹配的碱基。核酸技术领域的技术人员可在考虑多个变量后凭经验确定双链体稳定性,所述变量包括例如寡核苷酸的长度、寡核苷酸的碱基组成和序列、离子强度以及错配碱基对的发生率。
如本文所用的“新一代测序或NGS”是指以高通量平行方式(例如,大于103、104、105个或更多个分子同时测序)确定各个核酸分子(例如,在单分子测序中)或克隆扩增的各个核酸分子代用物的核苷酸序列的任何测序方法。在一个实施方案中,库中这些核酸物质的相对丰度可以通过对由测序实验生成的数据中其同源序列的相对出现次数进行计数来估计。下一代测序方法在本领域中是已知的。下一代测序技术的例子包括但不限于焦磷酸测序、可逆染料终止子测序、SOLiD测序、离子半导体测序、通过合成测序(SBS)、Helioscope单分子测序等。可以使用来自诸如Life Technologies/Ion Torrent PGM或Proton、Illumina HiSEQ或MiSEQ、以及Roche/454下一代测序系统等公司的可商购获得的试剂盒和仪器进行下一代测序方法。
如本文所用,“寡核苷酸”是指在主要以指定间隔包含相同单体单元的主链上具有核酸碱基序列的分子。碱基在主链上的排列方式使得其可与具有与所述寡核苷酸的碱基互补的碱基序列的核酸结合。最常见的寡核苷酸具有磷酸糖单元的主链。可区分2'位不具有羟基的寡脱氧核糖核苷酸与2'位具有羟基的寡核糖核苷酸。所述方法的用作引物或探针的寡核苷酸通常长至少约10-15个核苷酸,更优选地长至少约15至35个核苷酸,尽管在所述方法中可以使用更短或更长的寡核苷酸。准确的大小将取决于许多因素,而这些因素又取决于寡核苷酸的最终功能或用途。
如本文所用的术语“引物”是指寡核苷酸,其在置于诱导与靶核酸链互补的引物延长产物合成的条件下时能用作核酸序列合成的起始点,该条件即在适当缓冲液(“缓冲液”包括pH、离子强度、辅因子等)中的不同核苷酸三磷酸和聚合酶存在下以及适宜温度下。引物中的一个或多个核苷酸可例如通过添加甲基、生物素或地高辛配基(digoxigenin)部分、荧光标签或通过使用放射性核苷酸来修饰。引物序列无需反映模板的准确序列。例如,非互补核苷酸片段可附接至引物的5'端,引物序列的其余部分与所述链基本上互补。如本文所用术语“正向引物”意指退火到dsDNA的反义链的引物。“反向引物”退火到dsDNA的正义链。
如本文所用,“引物对”是指可一起用于扩增目的核酸的给定区域的正向和反向引物对(即左侧和右侧引物对)。
如本文所用,“样品”是指接受测定以检测V-J克隆的存在的物质。用以释放核酸或以其他方式使其可用以进行检测的加工方法是本领域熟知的,并且可包括核酸操纵的步骤。生物样品可以是体液或组织样品。在一些情况下,生物样品可以由以下组成或包含:血液、血浆、血清、尿液、粪便、表皮样品、阴道样品、皮肤样品、面颊拭子、精子、羊水、培养的细胞、骨髓样品、肿瘤活检、抽吸物和/或绒毛膜绒毛、培养的细胞等。还可以使用新鲜的、固定的或冷冻的组织。

Claims (87)

1.一种计算机实施的方法,所述方法用以鉴定在样品的下一代测序中使用的测定的至少一种引物,所述方法包括:
通过包括一个或多个处理器的计算机服务器从接收自所述下一代测序设备的基因组数据生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理;
通过所述计算机服务器经由对基因组数据库中所述多个序列读段中的每个序列读段进行查找来生成多个V-J基因区段;
通过所述计算机服务器比较所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据,以便为所述对应V-J基因区段鉴定位于所述对应V-J基因区段上游的第一数量的核苷酸、以及位于所述对应V-J基因区段下游的第二数量的核苷酸;
通过所述计算机服务器将所述多个V-J基因区段分组为多个组,每个组包括具有相同V-J身份的V-J基因区段;
对于所述多个组中的每个组:
针对所述组内的V-J基因区段,通过所述计算机服务器比对位于所述V-J基因区段下游的相应第二数量的核苷酸;针对所述组内的V-J基因区段,通过所述计算机服务器比对位于所述V-J基因区段上游的相应第一数量的核苷酸;
针对位于所述V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置通过所述计算机服务器确定与生成正向引物共有序列的共有策略对应的核苷酸身份;
针对位于所述V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置通过所述计算机服务器确定与生成反向引物共有序列的共有策略对应的核苷酸身份;并且
通过所述计算机服务器鉴定多个正向引物共有序列作为所述下一代测序测定的正向引物,并且鉴定多个反向引物共有序列作为所述下一代测序测定的反向引物。
2.根据权利要求1所述的方法,其中所述多个V-J基因区段中的至少一个或多个还包含多样性(D)区。
3.根据权利要求1或2所述的方法,其中所述生物样品包含选自DNA和RNA的核酸。
4.根据权利要求3所述的方法,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
5.根据权利要求3所述的方法,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
6.根据权利要求1-5中任一项所述的方法,其中所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。
7.根据权利要求6所述的方法,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
8.根据权利要求1-7中任一项所述的方法,其中在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。
9.根据权利要求1-8中任一项所述的方法,其中所述反向引物的长度在20-30个碱基对之间。
10.根据权利要求1-9中任一项所述的方法,其中所述正向引物的长度在20-30个碱基对之间。
11.根据权利要求1-10中任一项所述的方法,其中所述反向引物和所述正向引物还包含NGS相容的衔接子序列。
12.根据权利要求11所述的方法,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
13.根据权利要求11或12所述的方法,其中所述反向引物包含与所述正向引物不同的衔接子序列。
14.根据权利要求1所述的方法,其中将所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据进行比较包括:通过所述计算机服务器将所述多个V-J基因区段中的每个V-J基因区段与源自生物样品的所述多个序列读段进行比较。
15.根据权利要求1-14所述的方法,所述方法包括:
通过所述计算机服务器经通信信道访问所述基因组数据库,以进行对所述基因组数据库中所述多个序列读段中的每个序列读段的查找。
16.根据权利要求1-15所述的方法,所述方法包括:
通过所述计算机服务器在存储器中的第一阵列数据结构中储存位于所述V-J基因区段上游的所述第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述正向引物共有序列。
17.根据权利要求1-15所述的方法,所述方法包括:
通过所述计算机服务器在存储器中的第二阵列数据结构中储存位于所述V-J基因区段下游的所述第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第二阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述反向引物共有序列。
18.一种系统,其包含:
一个或多个处理器;
与所述一个或多个处理器偶联的存储器,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器:
从接收自所述下一代测序设备的基因组数据生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理;
通过对基因组数据库中所述多个序列读段中的每个序列读段进行查找来生成多个V-J基因区段;
比较所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据,以便为所述对应V-J基因区段鉴定位于所述对应V-J基因区段上游的第一数量的核苷酸、以及位于所述对应V-J基因区段下游的第二数量的核苷酸;
将所述多个V-J基因区段分组为多个组,每个组包括具有相同V-J身份的V-J基因区段;
对于所述多个组中的每个组:
针对所述组内的V-J基因区段,比对位于所述V-J基因区段下游的相应第二数量的核苷酸;
针对所述组内的V-J基因区段,比对位于所述V-J基因区段上游的相应第一数量的核苷酸;
针对位于所述V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置确定与生成正向引物共有序列的共有策略对应的核苷酸身份;
针对位于所述V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置确定与生成反向引物共有序列的共有策略对应的核苷酸身份;并且
鉴定多个正向引物共有序列作为所述下一代测序测定的正向引物,并且鉴定多个反向引物共有序列作为所述下一代测序测定的反向引物。
19.根据权利要求18所述的系统,其中所述多个V-J基因区段中的至少一个或多个还包含多样性(D)区。
20.根据权利要求1或19所述的系统,其中所述生物样品包含选自DNA和RNA的核酸。
21.根据权利要求20所述的系统,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
22.根据权利要求20所述的系统,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
23.根据权利要求18-22中任一项所述的系统,其中所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。
24.根据权利要求23所述的系统,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
25.根据权利要求18-24中任一项所述的系统,其中在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。
26.根据权利要求18-25中任一项所述的系统,其中所述反向引物的长度在20-30个碱基对之间。
27.根据权利要求18-26中任一项所述的系统,其中所述正向引物的长度在20-30个碱基对之间。
28.根据权利要求18-27中任一项所述的系统,其中所述反向引物和所述正向引物还包含NGS相容的衔接子序列。
29.根据权利要求28所述的系统,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
30.根据权利要求28或29所述的系统,其中所述反向引物包含与所述正向引物不同的衔接子序列。
31.根据权利要求18所述的系统,其中将所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据进行比较包括:通过所述计算机服务器将所述多个V-J基因区段中的每个V-J基因区段与源自生物样品的所述多个序列读段进行比较。
32.根据权利要求18-31所述的系统,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器:
通过所述计算机服务器经通信信道访问所述基因组数据库,以进行对所述基因组数据库中所述多个序列读段中的每个序列读段的查找。
33.根据权利要求18-32所述的系统,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器:
通过所述计算机服务器在存储器中的第一阵列数据结构中储存位于所述V-J基因区段上游的所述第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述正向引物共有序列。
34.根据权利要求18-32所述的系统,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器:
通过所述计算机服务器在存储器中的第二阵列数据结构中储存位于所述V-J基因区段下游的所述第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第二阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述反向引物共有序列。
35.一种储存处理器可执行指令的计算机可读存储介质,所述处理器可执行指令在被至少一个处理器执行时导致所述至少一个处理器:
从接收自所述下一代测序设备的基因组数据生成源自生物样品的多个序列读段,已经对所述生物样品用下一代测序测定的正向引物和反向引物进行处理;
通过对基因组数据库中所述多个序列读段中的每个序列读段进行查找来生成多个V-J基因区段;
比较所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据,以便为所述对应V-J基因区段鉴定位于所述对应V-J基因区段上游的第一数量的核苷酸、以及位于所述对应V-J基因区段下游的第二数量的核苷酸;
将所述多个V-J基因区段分组为多个组,每个组包括具有相同V-J身份的V-J基因区段;
对于所述多个组中的每个组:
针对所述组内的V-J基因区段,比对位于所述V-J基因区段下游的相应第二数量的核苷酸;
针对所述组内的V-J基因区段,比对位于所述V-J基因区段上游的相应第一数量的核苷酸;
针对位于所述V-J基因区段上游的所比对的相应第一数量的核苷酸,在每个核苷酸位置确定与生成正向引物共有序列的共有策略对应的核苷酸身份;
针对位于所述V-J基因区段下游的所比对的相应第二数量的核苷酸,在每个核苷酸位置确定与生成反向引物共有序列的共有策略对应的核苷酸身份;并且
鉴定多个正向引物共有序列作为所述下一代测序测定的正向引物,并且鉴定多个反向引物共有序列作为所述下一代测序测定的反向引物。
36.根据权利要求35所述的计算机可读存储介质,其中所述多个V-J基因区段中的至少一个或多个还包含多样性(D)区。
37.根据权利要求35或36所述的计算机可读存储介质,其中所述生物样品包含选自DNA和RNA的核酸。
38.根据权利要求37所述的计算机可读存储介质,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
39.根据权利要求37所述的计算机可读存储介质,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
40.根据权利要求35-38中任一项所述的计算机可读存储介质,其中所述生物样品从如下患者获得,所述患者被诊断患有、被怀疑患有淋巴增生性障碍、或处于淋巴增生性障碍的风险中。
41.根据权利要求39所述的计算机可读存储介质,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
42.根据权利要求35-40中任一项所述的计算机可读存储介质,其中在所述样品的所述下一代测序中使用的测定选自IGH FR1测定、IGH FR2测定、IGH FR3测定、IGHV前导体细胞高频突变测定、TRG测定和IGK测定。
43.根据权利要求35-41中任一项所述的计算机可读存储介质,其中所述反向引物的长度在20-30个碱基对之间。
44.根据权利要求35-42中任一项所述的计算机可读存储介质,其中所述正向引物的长度在20-30个碱基对之间。
45.根据权利要求35-43中任一项所述的计算机可读存储介质,其中所述反向引物和所述正向引物还包含NGS相容的衔接子序列。
46.根据权利要求44所述的计算机可读存储介质,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
47.根据权利要求44或45所述的计算机可读存储介质,其中所述反向引物包含与所述正向引物不同的衔接子序列。
48.根据权利要求35所述的计算机可读存储介质,其中将所述多个V-J基因区段中的每个V-J基因区段与接收自所述下一代测序设备的基因组数据进行比较包括:通过所述计算机服务器将所述多个V-J基因区段中的每个V-J基因区段与源自生物样品的所述多个序列读段进行比较。
49.根据权利要求35-47所述的计算机可读存储介质,所述指令导致所述一个或多个处理器:
通过所述计算机服务器经通信信道访问所述基因组数据库,以进行对所述基因组数据库中所述多个序列读段中的每个序列读段的查找。
50.根据权利要求35-48所述的计算机可读存储介质,所述指令导致所述一个或多个处理器:
通过所述计算机服务器在存储器中的第一阵列数据结构中储存位于所述V-J基因区段上游的所述第一数量的核苷酸,所述第一阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第一阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第一阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述正向引物共有序列。
51.根据权利要求35-48所述的计算机可读存储介质,所述指令导致所述一个或多个处理器:
通过所述计算机服务器在存储器中的第二阵列数据结构中储存位于所述V-J基因区段下游的所述第二数量的核苷酸,所述第二阵列数据结构的一个维度被索引到核苷酸的位置;
通过所述计算机服务器在沿着所述第二阵列数据结构的一个维度上的每个位置确定与所述共有策略对应的核苷酸身份;并且
基于针对沿着所述第二阵列数据结构的一个维度上的至少两个位置确定的核苷酸身份,通过所述计算机服务器生成所述反向引物共有序列。
52.一种计算机实施的方法,所述方法用于在获自受试者的生物样品中检测至少一个克隆V-J基因区段,所述方法包括:
通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者;
通过所述计算机服务器为所述多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段;
通过所述计算机服务器从由所述多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段;
通过所述计算机服务器从所述多个组中的每个组中选择一个修整序列读段,以形成选定的修整序列读段的集合;
通过所述计算机服务器经由将所述修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所述选定的修整序列读段的集合中的每个修整序列读段确定V-J身份;
针对与所述多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量通过所述计算机服务器确定所述V-J身份的相应频率;
基于与所述多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略通过所述计算机服务器来鉴定所述V-J身份的至少一个克隆。
53.根据权利要求51所述的方法,其中所述至少一个克隆V-J基因区段还包含多样性(D)区。
54.根据权利要求51或52所述的方法,其中所述生物样品包含选自DNA和RNA的核酸。
55.根据权利要求53所述的方法,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
56.根据权利要求53所述的方法,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
57.根据权利要求51-55中任一项所述的方法,其中所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
58.根据权利要求56所述的方法,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
59.根据权利要求51-57中任一项所述的方法,其中每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。
60.根据权利要求51-58中任一项所述的方法,其中每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。
61.根据权利要求51-59中任一项所述的方法,其中每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。
62.根据权利要求60所述的方法,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
63.根据权利要求61所述的方法,其中每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
64.一种系统,其包含:
一个或多个处理器;
与所述一个或多个处理器偶联的存储器,所述存储器储存计算机可执行指令,所述计算机可执行指令在被所述一个或多个处理器执行时导致所述一个或多个处理器:
通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者;
通过所述计算机服务器为所述多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段;
通过所述计算机服务器从由所述多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段;
通过所述计算机服务器从所述多个组中的每个组中选择一个修整序列读段,以形成选定的修整序列读段的集合;
通过所述计算机服务器经由将所述修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所述选定的修整序列读段的集合中的每个修整序列读段确定V-J身份;
针对与所述多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量通过所述计算机服务器确定所述V-J身份的相应频率;
基于与所述多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略通过所述计算机服务器来鉴定所述V-J身份的至少一个克隆。
65.根据权利要求63所述的系统,其中所述至少一个克隆V-J基因区段还包含多样性(D)区。
66.根据权利要求63或64所述的系统,其中所述生物样品包含选自DNA和RNA的核酸。
67.根据权利要求65所述的系统,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
68.根据权利要求65所述的系统,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
69.根据权利要求63-67中任一项所述的系统,其中所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
70.根据权利要求68所述的系统,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
71.根据权利要求63-69中任一项所述的系统,其中每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。
72.根据权利要求63-70中任一项所述的系统,其中每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。
73.根据权利要求63-71中任一项所述的系统,其中每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。
74.根据权利要求72所述的系统,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
75.根据权利要求73所述的系统,其中每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
76.一种储存处理器可执行指令的计算机可读存储介质,所述处理器可执行指令在被至少一个处理器执行时导致所述至少一个处理器:
通过包括一个或多个处理器的计算机服务器从下一代测序设备接收与获自受试者的样品相关的多个序列读段,每个序列读段代表编码基因区段或非编码基因区段中的至少一者;
通过所述计算机服务器为所述多个序列读段中的每个序列读段去除相应正向引物序列和相应反向引物序列以生成对应的修整序列读段;
通过所述计算机服务器从由所述多个序列读段生成的修整序列读段中鉴定多个组的修整序列读段,每个组包括具有相同序列身份的修整序列读段;
通过所述计算机服务器从所述多个组中的每个组中选择一个修整序列读段,以形成选定的修整序列读段的集合;
通过所述计算机服务器经由将所述修整序列读段与包括核苷酸序列与V-J身份之间的关联的人类基因组数据库进行比较来为所述选定的修整序列读段的集合中的每个修整序列读段确定V-J身份;
针对与所述多个组的修整序列读段中的一个组对应的每个V-J身份,基于在所述组中包括的修整序列读段的数量通过所述计算机服务器确定所述V-J身份的相应频率;
基于与所述多个组的修整序列读段的第一个组对应的V-J身份的相应频率,基于克隆检测策略通过所述计算机服务器来鉴定所述V-J身份的至少一个克隆。
77.根据权利要求75所述的计算机可读存储介质,其中所述至少一个克隆V-J基因区段还包含多样性(D)区。
78.根据权利要求75或76所述的计算机可读存储介质,其中所述生物样品包含选自DNA和RNA的核酸。
79.根据权利要求77所述的计算机可读存储介质,其中所述核酸源自一种或多种T淋巴细胞,所述一种或多种T淋巴细胞选自CD4+辅助T细胞、CD8+细胞毒性T细胞、记忆T细胞、γ-δT细胞和调节性T细胞。
80.根据权利要求77所述的计算机可读存储介质,其中所述核酸源自一种或多种B淋巴细胞,所述一种或多种B淋巴细胞选自浆细胞、记忆B细胞、滤泡B细胞、边缘区B细胞和调节性B细胞。
81.根据权利要求75-79中任一项所述的计算机可读存储介质,其中所述受试者被诊断患有、被怀疑患有淋巴增生性障碍或处于淋巴增生性障碍的风险中。
82.根据权利要求80所述的计算机可读存储介质,其中所述淋巴增生性障碍是白血病、滤泡性淋巴瘤、慢性淋巴细胞性白血病、急性成淋巴细胞性白血病、毛细胞白血病、B细胞淋巴瘤、T细胞淋巴瘤、多发性骨髓瘤、华氏巨球蛋白血症、威斯科特-奥德里奇综合征、淋巴细胞变异型嗜酸粒细胞增多症、移植后淋巴增生性障碍、自身免疫性淋巴增生性综合征(ALPS)或淋巴样间质性肺炎。
83.根据权利要求75-81中任一项所述的计算机可读存储介质,其中每个序列读段的相应反向引物序列的长度在20-30个碱基对之间。
84.根据权利要求75-82中任一项所述的计算机可读存储介质,其中每个序列读段的相应正向引物序列的长度在20-30个碱基对之间。
85.根据权利要求75-83中任一项所述的计算机可读存储介质,其中每个序列读段的相应正向引物序列和相应反向引物序列还包含NGS相容的衔接子序列。
86.根据权利要求84所述的计算机可读存储介质,其中所述NGS相容的衔接子序列是P5衔接子、P7衔接子、P1衔接子、A衔接子或Ion XpressTM条形码衔接子。
87.根据权利要求85所述的计算机可读存储介质,其中每个序列读段的相应正向引物序列和相应反向引物序列包含不同的NGS相容的衔接子序列。
CN201880079114.6A 2017-10-10 2018-10-09 引物提取和克隆性检测的系统和方法 Pending CN112204155A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762570549P 2017-10-10 2017-10-10
US62/570,549 2017-10-10
US201862700794P 2018-07-19 2018-07-19
US62/700,794 2018-07-19
PCT/US2018/055083 WO2019074972A1 (en) 2017-10-10 2018-10-09 SYSTEM AND METHODS FOR PRIMER EXTRACTION AND CLONALITY DETECTION

Publications (1)

Publication Number Publication Date
CN112204155A true CN112204155A (zh) 2021-01-08

Family

ID=66101058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880079114.6A Pending CN112204155A (zh) 2017-10-10 2018-10-09 引物提取和克隆性检测的系统和方法

Country Status (6)

Country Link
US (1) US20200385806A1 (zh)
EP (1) EP3695010A4 (zh)
JP (1) JP2021502802A (zh)
CN (1) CN112204155A (zh)
CA (1) CA3078729A1 (zh)
WO (1) WO2019074972A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128204A1 (en) * 2012-03-02 2013-09-06 The Babraham Institute Method of identifying vdj recombination products
US20140235461A1 (en) * 2011-09-26 2014-08-21 Gen-Probe Incorporated Algorithms for sequence determinations
WO2016033305A1 (en) * 2014-08-27 2016-03-03 Emory University Methods, systems and computer readable storage media for generating accurate nucleotide sequences
US20160110498A1 (en) * 2013-03-13 2016-04-21 Illumina, Inc. Methods and systems for aligning repetitive dna elements
US20160232291A1 (en) * 2015-02-09 2016-08-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
CN106021986A (zh) * 2016-05-24 2016-10-12 人和未来生物科技(长沙)有限公司 超低频突变分子一致性序列简并算法
CN106103711A (zh) * 2013-11-21 2016-11-09 组库创世纪株式会社 T细胞受体和b细胞受体库分析系统及其在治疗和诊断中的应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2418287B1 (en) * 2002-10-11 2013-09-18 Erasmus Universiteit Rotterdam Nucleic acid amplification primers for PCR-based clonality studies of the TCR-beta gene
WO2016081919A1 (en) * 2014-11-20 2016-05-26 Icahn School Of Medicine At Mount Sinai Methods for determining recombination diversity at a genomic locus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140235461A1 (en) * 2011-09-26 2014-08-21 Gen-Probe Incorporated Algorithms for sequence determinations
WO2013128204A1 (en) * 2012-03-02 2013-09-06 The Babraham Institute Method of identifying vdj recombination products
US20160110498A1 (en) * 2013-03-13 2016-04-21 Illumina, Inc. Methods and systems for aligning repetitive dna elements
CN106103711A (zh) * 2013-11-21 2016-11-09 组库创世纪株式会社 T细胞受体和b细胞受体库分析系统及其在治疗和诊断中的应用
WO2016033305A1 (en) * 2014-08-27 2016-03-03 Emory University Methods, systems and computer readable storage media for generating accurate nucleotide sequences
US20160232291A1 (en) * 2015-02-09 2016-08-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
CN106021986A (zh) * 2016-05-24 2016-10-12 人和未来生物科技(长沙)有限公司 超低频突变分子一致性序列简并算法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANDREY KECHIN ET AL.: "CutPrimers: A New Tool for Accurate Cutting of Primers from Reads of Targeted Next Generation Sequencing", 《J COMPUT BIOL》, vol. 24, no. 11, pages 1138 - 1143, XP055571242, DOI: 10.1089/cmb.2017.0096 *
CHUN HANG AU ET AL.: "BAMClipper: removing primers from alignments to minimize false-negative mutations in amplicon next-generation sequencing", 《SCI REP》, vol. 7, no. 1, pages 5 - 6 *
GIULIA PACIELLO ET AL.: "VDJSeq-Solver: in silico V(D)J recombination detection tool", 《PLOS ONE》, vol. 10, no. 3, pages 1 - 26 *
J J M VAN DONGEN ET AL.: "Design and standardization of PCR primersand protocols for detection of clonal immunoglobulin and T- cellreceptor gene recombinations in suspect lymphoproliferations: Report of the BIOMED-2 Concerted Action BMH4-CT98-3936", 《LEUKEMIA》, vol. 17, no. 12, pages 2257 - 2317 *
JASON A VANDER HEIDEN ET AL.: "pRESTO: a toolkit for processing high-throughput sequencing raw reads of lymphocyte receptor repertoires", 《BIOINFORMATICS》, vol. 30, no. 13, pages 1930 - 1932 *
JIAN YE ET AL.: "IQBLAST: an immunoglobulin variable domain sequence analysis tool", 《NUCLEIC ACIDS RES》, vol. 41, pages 34 - 40 *
YING HUANG ET AL.: "Somatic Hypermutation and V-J GeneUsage for CLL Prognosis: Evaluating Data from Miseq NGS VsPCR-Sanger Sequencing Approaches", 《BLOOD》, vol. 124, pages 3317 *
朱智东 等: "下一代测序技术数据分析进展", 《生物产业技术》, no. 01, pages 60 - 66 *

Also Published As

Publication number Publication date
US20200385806A1 (en) 2020-12-10
EP3695010A1 (en) 2020-08-19
JP2021502802A (ja) 2021-02-04
EP3695010A4 (en) 2021-11-17
CA3078729A1 (en) 2019-04-18
WO2019074972A1 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
Sessegolo et al. Transcriptome profiling of mouse samples using nanopore sequencing of cDNA and RNA molecules
Edge et al. Longshot enables accurate variant calling in diploid genomes from single-molecule long read sequencing
US20210155992A1 (en) SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
Iqbal et al. De novo assembly and genotyping of variants using colored de Bruijn graphs
Steinhauser et al. A comprehensive comparison of tools for differential ChIP-seq analysis
Rossing et al. Whole genome sequencing of breast cancer
Cornelis et al. Forensic SNP genotyping using nanopore MinION sequencing
Desai et al. Next‐generation sequencing: ready for the clinics?
Lee et al. Genomic dark matter: the reliability of short read mapping illustrated by the genome mappability score
JP2024116173A (ja) 選択的スプライシングの解析のためのシステムおよび方法
Su et al. Comprehensive assessment of mRNA isoform detection methods for long-read sequencing data
US20240321396A1 (en) Detection of somatic mutational signatures from whole genome sequencing of cell-free dna
EP3482325A1 (en) Computational analysis for predicting binding targets of chemicals
Cai et al. The first draft reference genome of the American mink (Neovison vison)
CN110178184A (zh) 致癌剪接变体确定
McPherson et al. Comrad: detection of expressed rearrangements by integrated analysis of RNA-Seq and low coverage genome sequence data
Puurand et al. AluMine: alignment-free method for the discovery of polymorphic Alu element insertions
Wang et al. LOcating non-unique matched tags (LONUT) to improve the detection of the enriched regions for ChIP-seq data
CN112204155A (zh) 引物提取和克隆性检测的系统和方法
Bayer et al. Exome capture for variant discovery and analysis in barley
Kumar et al. CADBURE: A generic tool to evaluate the performance of spliced aligners on RNA-Seq data
JP7074861B2 (ja) 生ゲノムデータに基づく構成可能テキスト文字列の生成
Ruark et al. The ICR142 NGS validation series: a resource for orthogonal assessment of NGS analysis
Gong et al. Ultra-deep multi-oncopanel sequencing of benchmarking samples with a wide range of variant allele frequencies
US20240412808A1 (en) Detection of cystic fibrosis transmembrane conductance regulator polytg/polyt variations by an ngs-based method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210108

WD01 Invention patent application deemed withdrawn after publication