CN108138363A - 稳定的蛋白质和其设计方法 - Google Patents
稳定的蛋白质和其设计方法 Download PDFInfo
- Publication number
- CN108138363A CN108138363A CN201680056251.9A CN201680056251A CN108138363A CN 108138363 A CN108138363 A CN 108138363A CN 201680056251 A CN201680056251 A CN 201680056251A CN 108138363 A CN108138363 A CN 108138363A
- Authority
- CN
- China
- Prior art keywords
- protein
- amino acid
- polypeptide chain
- substitutions
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional [2D] or three-dimensional [3D] molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional [2D] or three-dimensional [3D] molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Library & Information Science (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Peptides Or Proteins (AREA)
Abstract
本文提供用于设计和选择与相应的野生型蛋白质相比具有稳定化的结构的蛋白质的方法,和为了改善的热稳定性、改善的比活和/或改善的表达水平而设计的相对于相应的野生型蛋白质具有至少6个氨基酸置换的蛋白质。
Description
相关申请
本申请要求于2015年7月28日提交的美国临时申请序列号62/197,598(代理人申请案号63079)和于2016年5月18日提交的美国临时申请序列号62/337,992的优先权,其每一的完整公开内容通过引用以其整体结合到本文中。
发明领域和背景
本发明,在其一些实施方案中,涉及计算化学和计算蛋白质设计和,更具体地,但不排他地,涉及为了稳定性设计的蛋白质以及计算设计和选择具有期需性质的氨基酸序列的方法。
进化过程已经显示产生无数蛋白质家族,其成员在氨基酸序列同一性方面超过40%不同,然而享有共同的折叠和有时相似的功能活性。尽管其简单性和多样性很吸引人,但在为了改变其功能而改变蛋白质序列所需要的突变数目和类型方面这样的进化过程不被认为是有效的或最佳的。甚至,当在实验室尝试时,人理论以及最好的计算和实验工具和方法学一般不能改善蛋白质的功能,甚至是用相对小数目的定点突变,更不必提及在单一序列中超过10个突变;这样的尝试很少导致可正确表达或折叠的蛋白质。
多数蛋白质需要独立地折叠成其天然构象以进行其分子功能,自然选择已经发挥作用以稳定这样的蛋白质直至其各自的环境中所需要的必需水平。然而,为了在研究、生物技术和药理学严格的情况下可用,蛋白质需要在非天然条件下生产和发挥功能,包括非天然和异源表达系统、提高的温度、非生理pH和存在蛋白酶,其所有均可导致无效的产生和活性或减少的蛋白质半衰期。
尽管蛋白质具有很大的潜能广泛用于研究、工业和药剂学,其使用常常受不稳定性、低变性温度(Tm)、低表达水平、低溶解性、错误折叠、聚集、脂质包裹和短半衰期阻碍。用于蛋白质稳定化的计算和实验技术已经使用数十年,但可预测性低;通常其以约20%的概率将单点有害突变错误分类为稳定化。另外,稳定化突变仍可减少或甚至消除功能,这是因为在一些情况下稳定性和功能权衡。
由于蛋白质稳定性的重要性,在过去的数十年已经有大量的研究努力尝试贡献于此领域。现有技术策略涉及基于序列统计学的策略,例如回复至共有序列/祖先的和其它计算算法[Steipe,B.等人,J MolBiol.,1994,15;240(3):188-92;Lehmann M.等人,BiochimBiophys Acta,2000,29;1543(2):408-415;Lehmann M.等人,Curr Opin Biotechnol,2001,12(4):371-5;Knappik,A.等人,J Mol Biol,2000,296(1):57-86;Binz,H.K.等人,JMol Biol,2003,332(2):489-503;Sullivan,B.J.等人,J Mol Biol,2011,413(1):195-208;Sullivan,B.J.等人,J MolBiol.2012,420(4-5):384-99;Iwabata,H等人,FEMSMicrobiol Lett,2005,243(2):393-8;and Watanabe,K等人,J Mol Biol,2006,355(4):664-74]。然而,无现有方法能够预测大量的组合突变,而不包含有害突变,有害突变扰乱蛋白质结构而非改善任何其功能[Rees,D.C等人,Protein Sci,2001,10(6):1187-1194]。
计算算法通常使用能量函数预测当引入突变时ΔΔG的变化。大多数当前可用的计算算法旨在预测仅单点突变,和提供一系列不一定彼此相容的突变[Schymkowitz,J.等人,Nucleic Acids Res,2005,33:W382-8;Capriotti,E.等人,Nucleic Acids Res,2005,33:W306-10;Benedix,A等人,Nat Methods,2009,6(1):3-4;和Pokala,N.等人,J MolBiol,2005,347(1):203-27]。
一般而言,目前已知的计算结构稳定化方法学遭受小于60%的差预测准确度[Potapov,V.等人,Protein Eng Des Sel2009,22(9):553-60;和Kellogg,D.B.E.等人,Proteins,2011,79(3):830-8],需要高通量实验程序以取得显著更稳定的蛋白质变体。另外,对于大的和高度挑战性的蛋白质这些方法无效。
RosettaVIP(空隙鉴定和堆积)已被开发用于改善堆积差的蛋白质的核心堆积[Borgo,B.等人,Proc Natl Acad Sci USA,2012,109(5):1494-9]。该方案识别蛋白质核心内的空隙然后鉴定减少空隙体积的小突变集。该方法学成功稳定化来自大肠杆菌(E.coli)的甲硫氨酸氨基肽酶。另一个途径建议用于组合设计的方法,其基于序列重新设计和骨架最小化之间的迭代,在Rosetta套件中执行[Korkegian,A.等人,Science,2005,308(5723):857-60]。该方法学成功稳定化酵母半胱氨酸脱氨酶。应指出所提及的两种方法学已经用于一般稳定的具有野生型Tm 50℃以上的相对小的蛋白质。另外,这两种研究检查了每一个体结果并手动选择突变子集用于体外实验。在两种方法中一次引入小于10个突变。
额外的背景技术包括美国专利号4,908,773和7,037,894以及美国专利申请号20120171693和20130281314,其通过引用结合到本文中。
发明概述
本发明,根据其一些实施方案,涉及设计的蛋白质,其至少在一定程度上和至少在其一个多肽链中具有非天然存在的人造的氨基酸序列,与其野生型对应物相比更稳定并且显示几个改变的性质。这些性质为改善的结构稳定性的不同表现,例如增加的热变性温度、增加的溶解性、重组表达期间较低程度的错误折叠和较小的聚集蛋白质部分、增加的半衰期、增加的比活、增加的重组表达水平,如与相应的野生型(原始)蛋白质相比的。
本发明,根据其一些实施方案,还涉及用于提供前述设计蛋白质的非天然存在的氨基酸序列的计算方法。该方法基于结构和祖先的数据,并且可通过在其中引入至少6个氨基酸置换(突变)提供相对大的蛋白质(超过100个氨基酸)相对于相应的野生型蛋白质的修饰的氨基酸序列。根据一些实施方案,所述方法能够发现蛋白质核心内(距其表面至少)的稳定化突变和进一步能够引入可彼此相互作用(其侧链中的官能团可形成键)的两个或多个突变。
根据本发明一些实施方案的方面,提供非天然存在的设计蛋白质,其包含至少一个相对于原始多肽链具有至少6个氨基酸置换的修饰的多肽链,其中所述置换相对于相应的野生型蛋白质修饰设计蛋白质,如通过下列至少一个确定的:
设计蛋白质的热变性温度等于或高于野生型蛋白质的热变性温度;
设计蛋白质的溶解性等于或高于野生型蛋白质的溶解性;
设计蛋白质的错误折叠程度等于或低于野生型蛋白质的错误折叠程度;
设计蛋白质的半衰期等于或长于野生型蛋白质的半衰期;
设计蛋白质的比活等于或高于野生型蛋白质的比活;和
设计蛋白质的重组表达水平等于或高于野生型蛋白质的重组表达水平。
根据本发明的一些实施方案,所述原始多肽链包含至少100个氨基酸。
根据本发明的一些实施方案,至少一个氨基酸置换的Cα距设计蛋白质的水可接近的表面的最短距离为至少
根据一些实施方案,每一氨基酸置换的位置特异性稳定得分等于或小于0。
根据一些实施方案,每一氨基酸置换的位置特异性评分矩阵(PSSM)值为至少0。
根据本发明的一些实施方案,至少两个氨基酸置换彼此相互作用以致该相互作用稳定化修饰的蛋白质,如与原始蛋白质相比修饰蛋白质较低的自由能项所确定的。
根据本发明一些实施方案的方面,提供从原始多肽链开始计算设计修饰的多肽链的方法,所述方法包括:
步骤I-确定原始多肽链的氨基酸序列中不可置换的位置和可置换的位置;
步骤II-对于每一可置换的位置确定至少一个位置特异性氨基酸替代,和对于每一氨基酸替代确定位置特异性稳定性得分;
步骤III-组合产生多个设计序列,每一设计序列对应于修饰的多肽链并且包含至少一个氨基酸置换为所述至少一个位置特异性氨基酸替代之一,将每一设计序列穿引(threading)在原始多肽链的模板结构上,从而产生多个设计结构;
步骤IV-按照最小化的能量得分分选多个设计结构,所述最小化的能量得分通过使每一设计结构经受能量最小化确定;和
步骤V-基于所述最小化的能量得分选择至少一个所述多个设计结构,对应于修饰的多肽链;
从而获得修饰的多肽链。
根据本发明的一些实施方案,修饰的多肽链相对于原始多肽链包含至少6个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含至少100个氨基酸。
根据本发明的一些实施方案,选择的修饰的多肽链对应于具有最小的最小化能量得分值的设计结构。
根据本发明的一些实施方案,能量最小化(步骤IV中)为全局能量最小化。
根据本发明的一些实施方案,设计序列在接受阈值下基于稳定性得分组合产生。
根据本发明的一些实施方案,确定不可置换的位置和可置换的位置基于与原始多肽链同源的多个氨基酸序列的序列比对。
根据本发明的一些实施方案,对于环区域,序列比对包括具有序列长度等于原始多肽链中的相应环的氨基酸序列。
根据本发明的一些实施方案,至少一个不可置换的位置基于序列比对确定。
根据本发明的一些实施方案,序列比对基于序列的非冗余数据库。
根据本发明的一些实施方案,至少一个不可置换的位置选自高度保守的位置、活性位点位置、金属结合位置、配体结合位置、底物结合位置、DNA/RNA结合位置、结构稳定化位置和抗原决定簇位置。
根据本发明的一些实施方案,确定位置特异性氨基酸替代由规则决定。
根据本发明的一些实施方案,所述规则包括位置特异性评分矩阵。
根据本发明的一些实施方案,位置特异性稳定性得分基于能量最小化确定。
根据本发明的一些实施方案,位置特异性稳定性得分基于局部能量最小化确定。
根据本发明的一些实施方案,局部能量最小化对于壳内的所有氨基酸残基,即对于具有至少一个原子距位置特异性氨基酸替代的至少一个原子小于约 的修饰的多肽链的氨基酸残基生效。
根据本发明的一些实施方案,模板结构在穿引之前经受全局能量最小化。
根据本发明的一些实施方案,模板结构为实验确定的结构。
根据本发明的一些实施方案,模板结构基于原始多肽链的天然存在的同源物的实验确定的结构计算确定。
根据本发明的一些实施方案,能量最小化包括选自所修饰多肽链的键长优化、键角优化、骨架二面角优化、氨基酸侧链堆积优化和刚体优化的至少一个操作。
根据本发明一些实施方案的方面,提供修饰的多肽链,其通过本文所呈现的从原始多肽链开始计算设计修饰的多肽链的方法获得。
根据本发明的一些实施方案,通过本文所呈现的方法获得的多肽链相对于原始多肽链包含至少6个氨基酸置换。
根据本发明的一些实施方案,通过本文所呈现的方法获得的原始多肽链包含至少100个氨基酸。
根据本发明的一些实施方案的方面,提供产生本文所呈现的设计蛋白质的方法,其通过以下实现:
使用本文所呈现的从原始多肽链开始计算设计修饰的多肽链的方法获得修饰的多肽链的氨基酸序列;和
在表达系统中表达设计蛋白质;
从而产生设计蛋白质。
根据本发明的一些实施方案,表达系统为重组表达系统。
根据本发明的一些实施方案,所述表达系统包括选自原核细胞、真核细胞、细菌细胞、真菌细胞、酵母细胞、藻类细胞、植物细胞、寄生虫细胞、昆虫细胞、动物细胞、卵巢细胞、鱼细胞、鸟细胞和哺乳动物细胞的活细胞。
根据本发明的一些实施方案,原始多肽链包含至少100个氨基酸。
根据本发明的一些实施方案,至少一个氨基酸置换的Cα距设计蛋白质的水可接近的表面的最短距离为至少
根据本发明的一些实施方案,至少两个氨基酸置换彼此相互作用,以致该相互作用稳定化修饰的蛋白质,如与原始蛋白相比修饰的蛋白质较低的自由能项所确定的。
根据本发明的一些实施方案的方面,提供一种蛋白质,其具有选自对来自人的AChE作为原始蛋白质提供的并且在下文呈现的表2中列出的,或对来自缺陷假单胞菌(Pseudomonas diminuta)的PTE作为原始蛋白质提供的并且在下文呈现的表4中列出的序列空间的至少6个氨基酸置换的任何组合的序列。
根据本发明的一些实施方案,所述蛋白质为杂合蛋白质,其中取自表2或表4的氨基酸置换的组合分别在不同于相应原始蛋白质,来自人的AChE或来自缺陷假单胞菌的PTE的蛋白质上执行。
根据本发明的一些实施方案,所述蛋白质具有选自RhAChE_m0p9(SEQ ID No.2)、RhAChE_m0p45(SEQ ID No.3)、RhAChE_m0p7(SEQ ID No.4)、RhAChE_m1p2(SEQ ID No.5)、RhAChE_m2p0(SEQ ID No.6)、dPTE_m0p45(SEQ ID No.8)、dPTE_m1p0(SEQ ID No.9)和dPTE_m2p0(SEQ ID No.10)的序列。
如本文所使用的“约”指±10%。
术语“包括(comprises,comprising)”、“包含(includes,including)”、“具有”及其同源词意指“包括但不限于”。
术语“由……组成”意指“包括并限于”。
术语“基本由……组成”意指组合物、方法或结构可包括额外的成分、步骤和/或部分,但仅当额外的成分、步骤和/或部分不实质上更改所要求保护的组合物、方法或结构的基本和新特征时。
如本文所使用的,单数形式“一个”、“一种”和“所述”包括复数提及,除非上下文另有清楚指示。例如,术语“一个支架”或“至少一个支架”可包括多个支架,包括其混合。
在该申请全文中,该发明的不同实施方案可以以范围形式呈现。应理解的是范围形式的描述仅为了方便和简短并且不应解释为对发明范围的不可改变的限制。因此,范围的描述应认为具有具体公开的所有可能的子范围以及范围内的个体数值。例如,范围的描述例如1-6应认为具有具体公开的子范围例如1-3、1-4、1-5、2-4、2-6、3-6等,以及范围内的个体值,例如,1、2、3、4、5和6。这无论范围宽度均适用。
无论何时在本文中标明数字范围,其意指包括所标明范围内任何引用的数字(分数或整数)。短语“范围在第一个标明的数字和第二个标明的数字之间”和“范围从第一个标明的数字至第二个标明的数字”在本文中可互换地使用并且意在包括第一个和第二个标明的数字以及期间的所有分数和整数数字。
如本文所使用的术语“方法”指用于完成给定任务的方式、手段、技术和程序,包括,但不限于,化学、药理学、生物学、生物化学和医疗领域的从业者所已知的或从已知的方式、手段、技术和程序容易地开发的那些方式、手段、技术和程序。
如本文所使用的,术语“治疗”包括消除、大体上抑制、减缓或逆转病况进展、大体上改善病况的临床或美学症状或者大体上防止病况的临床或美学症状出现。
当参考具体的序列列表时,这样的参考理解为也包括大体上对应于其互补序列的序列,包括较少的序列变更,由例如,测序错误、克隆错误或者导致碱基置换、碱基缺失或碱基插入的其它变更导致,只要这样的变更的频率小于50个核苷酸中1个,或者,小于100个核苷酸中1个,或者,小于200个核苷酸中1个,或者,小于500个核苷酸中1个,或者,小于1,000个核苷酸中1个,或者,小于5,000个核苷酸中1个,或者,小于10,000个核苷酸中1个。
除非另有定义,本文所使用的所有技术和/或科学术语具有本发明所属领域普通技术人员所通常理解的相同含义。尽管与本文所描述的那些相似或相当的方法和材料可用于实践或检验本发明的实施方案,示例性的方法和/或材料在下文描述。如有矛盾,以本专利说明书,包括定义,为准。另外,材料、方法和实施例仅为说明性的并且不意在必须地限制。
附图简述
本发明一些实施方案在本文中仅通过实例的方式参考附图描述。详细具体参考绘图时,强调所显示的细节为经由举例并且用于说明性讨论本发明的实施方案的目的。在此方面,说明书伴随绘图使得本发明的实施方案如何实践对本领域技术人员显而易见。
在附图中:
图1为根据本发明的一些实施方案,用于执行从原始多肽链开始计算设计修饰的多肽链的方法的示例性算法的原理流程图说明;
图2A-D为根据本发明的一些实施方案,本文所提供方法的单一位置扫描步骤的输出和迭代组合设计步骤的输入的简化说明,其中图2A显示原始多肽链(顶行)的不同位置,包括关键残基(参见后文定义;通过菱形标记)、不可置换的位置(甚至不具有单个具有PSSM分数等于或大于0的非-WT氨基酸替代;通过环形标记)和可置换的位置(其具有至少一个具有PSSM分数等于或大于0的非-WT氨基酸替代;通过方形标记),并且,其中一些可置换位置具有在其下堆叠的具有位置特异性稳定性得分在示例性的许可接受阈值-0.45r.e.u以下的氨基酸替代,并且其中多个替代按照其位置特异性稳定性得分从最许可的阈值开始通过不同的形状标记,并且其中图2B-D显示根据本发明的一些实施方案,较小的被变更(permuted)氨基酸替代的集合,因为具有位置特异性稳定性得分低于每一更严格的接受阈值的替代的数目减少;
图3为使用本文所呈现的方法提供的预测(y-轴)和在2012研究中获得的实验测量的Tm值(x-轴)之间的比较的图示,其中x轴代表Tm的变化(ΔTm),y轴代表通过本文呈现的方法以Rosetta能量单位提供的预测;
图4呈现条形图,显示5个示例性的AChE稳定化变体的活性水平,对WT hAChE的活性归一化,如在衍生自250mL烧瓶(“中等规模”)或在96-孔板中生长的0.5mL大肠杆菌培养物(“小规模”)的粗细菌裂解物中所测量的,并且显示在所有示例设计的变体中更高的活性水平,其反映与野生型相比更高的可溶性、功能酶水平;和
图5呈现对于WT Dnmt3a(表示为“3aWT”并通过菱形标记)、根据本发明的一些实施方案使用本文所呈现的方法设计的Dnmt3a变体(表示为“3a Stab”并通过方形标记)和设计的-Dnmt3a-WT-Dnmt3L复合体(表示为“3a31Stab”并用三角形表示)的纯化部分所进行的DNA甲基化活性测定的结果。
本发明的具体实施方案的描述
本发明,在其一些实施方案中,涉及计算化学和计算蛋白质设计,并且更具体地,但不排他地,涉及为了稳定性设计的蛋白质以及计算设计和选择具有期需性质的氨基酸序列的方法。
本发明的实施方案的原理和操作可参考实施例和所附说明书更好地理解。
详细解释本发明的至少一个实施方案之前,应理解本发明不一定将其申请限制于下列说明书中所阐述的或通过实例所例示的细节。本发明能够有其它实施方案或者以不同的方式实践或进行。
最稳定的突变称为在ΔΔG方面对蛋白质稳定性贡献小于-0.5kcal/mol或约-0.25kcal/mol。因此,达到对蛋白质稳定性的显著作用需要组合许多突变。任何给定蛋白质的热耐受程度为其氨基酸序列的固有性质。如上文所讨论的,先前的研究已经建立了每残基的蛋白质自由能的变化(ΔΔG/残基)和蛋白质Tm变化之间的关联[Rees,D.C等人,Protein Sci,2001,10(6):1187-1194;and Ku,T.等人,Comput Biol Chem,2009,33(6):445-50]。该关联表明显著作用所必要的突变数目随蛋白质尺寸而增加。鉴于此,为确定用于稳定化的可靠蛋白质突变的问题提供解决方案的计算工具具有很大的潜能使得能够和促进蛋白质在研究、工业和治疗中的应用。然而,数十个突变同时引入蛋白质序列中而不有害影响其功能需要无一突变是有害的,即具有导致大量非折叠、错误折叠、聚集和/或沉淀或无生产表达水平的显著失稳作用的突变。如果突变有害的概率为约20%,这意味着具有6个突变的蛋白质不包含有害突变的概率为约26%(0.86),对于10个突变不包含有害突变的概率小于11%(0.810),对于具有40个突变的蛋白质不具有甚至单个有害突变的概率降至0.013%(0.840)。本文所呈现的方法将进化保守分析与组合的蛋白序列设计结合,使预测的假阳性氨基酸置换的数目最小化。
在构想本发明的同时,本发明人还假设对于大的和结构上敏感的蛋白质,对于取得可测量的稳定化效果许多点突变是必需的。本发明人开发了一种蛋白质稳定化方法,其提供完全自动化的组合的解决方案,每变体有许多突变(例如,在超过100个氨基酸的蛋白质中超过6个)。当将本发明变为实践时,已经证明该方法是有效的和通用的,并且导致使用低通量实验进行实验验证,这可在大多数设施中容易地提供。
当进一步将本发明变为实践和比较其对为了热稳定性设计蛋白质的问题的解决方案与其它方法所提供的解决方案时,观察到当前提供的用于设计稳定化的蛋白质的方法通常导致相对于原始(野生型)多肽链具有超过6个氨基酸置换的修饰的多肽链,其中所述置换相对于野生型具有不同的生理化学性质,包括,单独或以不同的组合,更极性的表面、环上、边缘β折叠或在螺旋氨基端的脯氨酸、改善的堆积(例如,用Ile或Phe置换Val),以及结构内更多的氢键、改善的二级结构倾向。当前已知的方法无一提供显示所有上述的变体。
对于检验情况,所述方法已经用于提供以其增高的结构敏感性而为人所知的三种蛋白质——人乙酰胆碱酯酶(hAChE)、来自缺陷假单胞菌的磷酸三酯酶(PTE)和哺乳动物DNA甲基转移酶3(Dnmt3)的稳定化变体。检验了5个从新设计的hAChE变体,每一具有17-67个点突变,发现所有均具有相对于野生型(WT)蛋白质显著更高的重组表达水平,这清楚表明了改善的稳定性。最成功的设计蛋白质显示与WT蛋白质相比约1800倍高的细菌表达水平。检验了3个PTE设计(其与野生型PTE相比具有9、19和28个氨基酸置换)并与已知的改善的PTE变体,PTE-S5(SEQ ID No.7)[Roodveldt,C.等人,Protein Engineering,Design&Selection,2005,18(1),pp.51-58]进行了比较。两个变体设计显示高10℃的对热灭活的耐受和增加的Zn2+离子亲和性,并且与PTE-S5(SEQ ID No.7)相比具有略微较高的重组表达水平,PTE-S5是野生型PTE的约20倍高。用于人DNA甲基转移酶家族3(Dnmt3a)的催化结构域的方法示范基于确定得较差的实验结构,仍提供了一个显示与WT Dnmt3a相比约7倍高的活性的设计变体,如在下面的实施例部分所呈现的。
本文所呈现的方法有效用于从原始多肽链(例如相应的野生型蛋白质中所存在的)开始提供修饰的多肽链,其中将原始多肽链中的几个氨基酸残基置换以致经表达具有修饰的多肽链的蛋白质(变体蛋白质)显示与野生型蛋白质相比改善的结构稳定性。如本文所使用的术语“变体”指通过使用本文所呈现的方法获得的设计蛋白质。此处以及全文中,术语“氨基酸序列”和/或“多肽链”还用作对具有该氨基酸序列和/或该多肽链的蛋白质的提及;因此术语“原始氨基酸序列”和/或“原始多肽链”等于或相关于术语“原始蛋白质”和“野生型蛋白质”,并且术语“修饰的氨基酸序列”和/或“修饰的多肽链”等于或相关于术语“设计的蛋白质”和“变体”。
在一些实施方案中,原始多肽链,或原始蛋白质,为天然存在的(野生型;WT)或人工的(人造的非天然存在的)。
在本发明一些实施方案的情况中,术语“设计的”或其任何语法变化,指非天然存在的序列或蛋白质。
在本发明的一些实施方案的情况中,当提及具有特定序列的特定蛋白质时,术语“序列”与术语“蛋白质”可交换地使用。
根据本发明的一些实施方案的方面,提供从原始多肽链开始计算设计修饰的多肽链的方法。
图1为根据本发明的一些实施方案,用于执行从原始多肽链开始计算设计修饰的多肽链的方法的示例性算法的原理流程图说明。
方法需求和输入准备:
用于执行用于为了更高的稳定性而设计修饰的多肽链的方法的基本需求包括:
以下信息的可用性:属于原始多肽链的结构信息,例如获自实验确定的原始多肽链的晶体结构或具有至少40-60%氨基酸序列同一性的其亲近的同源物的晶体结构;或基于其亲近的同源物的实验确定的结构计算得到的结构信息(图1中的框1);和
从至少20-30个具有资格的同源蛋白质的得到的序列数据的可用性,而对于具有资格的同源序列的标准在下文描述(图1中框2)。
在本发明的实施方案的情况中,如在本领域中,术语“%氨基酸序列同一性”或简写“%同一性”在本文中用于描述在比对中两个氨基酸序列在相同位置具有相同残基的程度。应指出的是术语“%同一性”也用在核苷酸序列的情况中。
结构数据准备
根据本发明的一些实施方案,结构信息为原始多肽链的原子坐标的集合。该原子坐标集合在本文中称作“模板结构”,其在下文所讨论的方法中使用。在一些实施方案中,模板结构为原始多肽链的晶体结构,并且在一些实施方案中模板结构为基于原始多肽链的亲近的同源物(超过40-60%同一性)的晶体结构计算产生的结构,其中原始多肽链的氨基酸序列已经穿引在其上并经受加权拟合以提供其能量最小化,如下文所讨论的这些。
在其中目的蛋白质为寡聚体(具有几个多肽链)的情况下,目的链或待修饰的原始多肽链在模板结构中定义。在杂寡聚体的情况下,需要选择将会经历序列设计程序的链。为了设计一个以上的链,所述方法对于每一原始多肽链单独地使用。对于同寡聚体,选择具有更多或更好质量的结构数据的原始多肽链是有利的。例如,在一些同寡聚体中,结合离子可能在一些链中结晶学上可辨认,但在其它中不足以此。另外,定义与功能和活性相关的关键残基是有利的,如下文中所讨论的。
结构精修:
根据一些实施方案,在用于本文所呈现的方法之前,模板结构经受全局能量最小化,由其加权拟合提供,如下文所讨论的。
根据本发明的一些实施方案,模板结构任选在使用其坐标之前通过能量最小化精修,同时固定关键残基的构象,如后文所定义的(图1中框9)。结构精修为计算化学中的常规程序,通常涉及基于自由能最小化的加权拟合,经受规则,例如谐波抑制(harmonicrestraint)。
术语“加权拟合”,根据本发明的任何实施方案的一些实施方案,指一个或多个计算结构精修程序或操作,旨在通过基于属于,例如,精修结构的序列同源性分数、骨架二面角和/或原子位置(变量)的预定的权重、抑制和约束(常量)通过最小化多项式函数优化几何学、空间和/或能量标准。根据一些实施方案,加权拟合程序包括一个或多个调整键长和键角、骨架二面(Ramachandran)角、氨基酸侧链堆积(旋转异构体)和氨基酸的迭代置换,而术语“调整键长和键角”、“调整骨架二面角”、“氨基酸侧链堆积”和“改变氨基酸序列”在本文中也用于指,尤其,广泛用在计算化学和生物学领域的熟知的优化程序和操作。根据本发明的一些实施方案,示例性的能量最小化程序为循环坐标下降(CCD),其可以用用于大分子建模的RosettaTM软件套装中的缺省的所有原子能量函数执行。对于一般优化方法的综述,参见例如,ChristodoulosA.Floudas和Panos M.Pardalos所著“Encyclopedia ofOptimization”,Springer Pub.,2008。
根据本发明的一些实施方案,用于执行本文所呈现的方法的合适的计算平台为RosettaTM软件套装平台,从美国华盛顿大学Baker实验室的“Rosetta@home”公开可用。简言之,RosettaTM为用于理解蛋白质结构、蛋白质设计、蛋白质对接、蛋白质-DNA和蛋白质-蛋白质相互作用的分子建模软件包。Rosetta软件包含多个功能模块,包括RosettaAbinitio、RosettaDesign、RosettaDock、RosettaAntibody、RosettaFragments、RosettaNMR、RosettaDNA、RosettaRNA、RosettaLigand、RosettaSymmetry等。
根据一些实施方案,加权拟合在一组抑制、约束和权重(称为规则)下生效。例如,当精修具有第一个构象的任何给定的多肽段的骨架原子位置和二面角时,为了向不同的第二个构象驱动同时试图尽可能保存第二个构象中观察到的二面角,计算程序将会使用偏倚,例如,Cα位置的谐波抑制和偏倚自由背离第二个构象中观察到那些的骨架二面角的谐波抑制,因此允许每一结构决定簇发生最小构象变化同时驱动整体骨架变为第二个构象。
在一些实施方案中,全局能量最小化是有利的,这是因为用于确定和精修模板结构源的能量函数和本文呈现的方法所使用的能量函数之间的差异。通过在骨架构象和在旋转异构体构象中通过最小化引入微小变化,全局能量最小化解除小的错配和小的立体冲突,从而使一些模板结构的总自由能降低显著的量。
在一些实施方案中,能量最小化可包括迭代旋转异构体取样(重新堆积)接着侧链和骨架最小化。示例性的精修方案在Korkegian,A.等人,Science,2005中提供。
如本文所使用的,术语“旋转异构体取样”和“重新堆积”指特定的加权拟合程序,其中将有利的侧链二面角取样,如Rosetta软件包中所定义的。重新堆积通常将较大的结构变化引入加权拟合的结构中(与标准二面角最小化相比),因为后者取样小的残基构象变化,而重新堆积可使侧链绕二面角旋转,以致其在蛋白质结构中占据完全不同的空间。
在一些实施方案中,其中模板结构为同源蛋白质的,首先使用完善建立的计算程序将查询序列穿引在蛋白质的模板结构上(图1中的框7)。例如,当使用Rosetta软件包时,根据本发明的一些实施方案,前两次迭代以“软”能量函数进行,其中原子半径定义得较小。较小半径值的使用减少强排斥力,导致较平稳的能量景观并允许跨越能量障碍。下一次迭代用标准Rosetta能量函数进行。“坐标约束”项可加至标准能量函数以“处罚”与原始Cα坐标的大偏差。坐标约束项协调表现(Hooke法则),具有权重约0.05-0.4r.e.u(Rosetta能量单位),取决于查询序列与模板结构的序列之间的同一性程度。精修期间,关键残基仅经受小范围最小化但不经受旋转异构体取样。
坐标约束权重可强加在精修程序上。如下文所呈现的,发现值0.4是可用的坐标约束权重,如在基准研究中所确定的(参见下文实施例1)。
序列数据准备:
一旦原始多肽链已经鉴定,并且相应的模板结构已经提供,所述方法需要组装与原始多肽链的氨基酸序列相关的具有资格的同源氨基酸序列的数据库。原始多肽链的氨基酸序列可以,例如,从FASTA文件提取,该文件对于蛋白质通常从蛋白质数据库(PDB)可得或另外提供。根据本发明的一些实施方案,对具有资格的同源序列的搜索在非冗余(nr)蛋白质数据库使用原始多肽链的序列作为搜索查询进行。这样的nr-数据库通常包含手动和自动地注释的序列,因此远大于仅包含手动注释的序列的数据库。
蛋白质序列数据库的非限制性实例包括INSDC EMBL-Bank/DDBJ/GenBank核苷酸序列数据库、Ensembl、FlyBase(对于昆虫家族果蝇科)、H-Invitational数据库(H-Inv)、国际蛋白质索引(International Protein Index)(IPI)、蛋白质信息资源(ProteinInformation Resource)(PIR-PSD)、蛋白质数据库(Protein Data Bank)(PDB)、蛋白质研究基金会(Protein Research Foundation)(PRF)、RefSeq、酵母基因组数据库(Saccharomyces Genome Database)(SGD)、拟南芥信息资源(The ArabidopsisInformation Resource)(TAIR)、TROME、UniProtKB/Swiss-Prot、UniProtKB/Swiss-Prot蛋白质同种型、UniProtKB/TrEMBL、脊椎动物和基因组注释数据库(Vertebrate and GenomeAnnotation Database)(VEGA)、WormBase、欧洲专利局(EPO)、日本专利局(JPO)和美国专利局(USPTO)。
在nr-数据库中搜索产生可变的结果,取决于搜索查询(原始多肽链的氨基酸序列)。对于缺乏序列数据的蛋白质,结果可包括小于10个命中。对于所有生命界所共有的蛋白质,结果可包括数千个命中。对于大多数蛋白质,当在nt-数据库中查询时数百至数千个命中是预期的。在所有数据库中,包括nr-数据库,并且不论其名字为何,可能存在一些程度的冗余,并且命中可能以同一序列的组存在。冗余问题在序列数据编辑期间解决,如下文所描述的。
在本发明的一些实施方案中,将所获得的序列数据任选如下过滤和编辑(图1中的框3):
(a)将冗余序列群集(cluster)为单一的代表性序列。群集用阈值0.97进行,意指将其自身之中共享至少97%同一性的所有序列群集为单一代表性序列,该序列为贡献于集群的所有序列的平均;
(b)将比对长度小于搜索查询长度的60%的序列排除;和
(c)将关于搜索查询显示低于约28%-34%同一性截断的序列排除,按照例如别处提供的指南[Rost,B.,Protein Eng,1999,12(2):85-94]。
最小的同一性参数的准确选择取决于序列数据的丰度。因此,根据本发明的一些实施方案,如果在严格的阈值下提供的序列命中的数目为约50或更少,可使用不太严格的阈值(较低的%同一性)。同一性参数的阈值调谐(tuning)的作用在设计来自缺陷假单胞菌的磷酸三酯酶中得到证明,其中将阈值从30%降至28%,使有资格的同源序列的数目从45增加至95(参见,下文实施例部分)。
在本发明的一些实施方案中,用于选择用于多序列比对的有资格的同源序列的截断为相对于原始多肽链大于20%、25%、30%、35%、40%,或大于50%同一性。
应指出的是所述方法不限于任何特定的序列数据库、搜索方法、同一性确定算法和用于使同源序列有资格的任何标准集。然而,通过使用所述方法获得的结果的质量一定程度上取决于输入序列数据的质量。
一旦获得有资格的同源序列的集合,产生多序列比对(MSA)(图1中的框4),这通常通过使用指定的对序列比对算法,例如MUSCLE中执行的[Edgar,R.C.,Nucleic Acids Res,2004,32(5):1792-1797]。或者,Basic Local Alignment Search Tool(BLAST)可用于产生MSA文件。
可变的环区域:
BLAST算法可提供包括具有不同长度的序列的结果。差别通常源于环区域的不同长度,并且不同长度的环可反映不同的生物化学背景。因此,代表环位置的MSA栏可包含来自不同长度的环的比对的残基,因此可能使具有来自不同生物化学背景的信息的数据降级(degrade),可能与目的蛋白质的生物化学背景不相关。BLAST命中因此在一些位置可包含相关信息,同时在其它位置包含不相关的信息。为了最小化对于每一环的不相关序列信息的水平,鉴定原始蛋白质的二级结构并且对于每一环区域创建背景特异性子MSA文件,子MSA仅包含具有相同长度的环序列。
二级结构鉴定通过鉴定结构中的氢键模式进行,这称为“蛋白质二级结构词典”(DSSP)。存在几个提供这种分析的可用的软件包,例如,用于环识别的RosettaTM模块。
二级结构鉴定程序的输出通常为与模板结构具有相同长度的字符串(即,输出字符串),其中每一字符代表二级结构元素中的一个残基,其可为H、E或L,表示形成α-螺旋、β-折叠或环的一部分的氨基酸。
根据本发明的一些实施方案,原始蛋白质的结构中环区域的氨基酸序列如下处理:
(a)模板结构中的环通过自动或手动检查结构模型,和/或通过任何二级结构分析算法鉴定。
(b)确定输出的字符串上代表每一环的位置,包括环茎(在环的每一末端处两个额外的氨基酸)。为了导致茎,向每一环的末端添加两个位置,除非环位于主链末端之一。根据本发明的一些实施方案,在环定义中包括茎是有利的,这是因为锚定不同环的茎可潜在地显示不同的构象并在其自身之间或与环残基形成不同的接触,并且有利的是用作所呈现方法的输入的序列数据将会代表它。
例如,如果二级结构输出字符串为:
LLLHHHHHHHLLLLLHHHHHLLLEEEE
那么环区域定义在位置1-5、9-17和19-25(粗体字符)。
(c)在MSA中在查询序列中鉴定代表每一环的位置。MSA中的环位置可能与来自之前步骤的原始字符串中的环位置不同,因为MSA中查询与其它序列比对,因此可包含氨基酸字符和代表缺口的连字符二者。
(d)在MSA中的查询序列中确定环位置后,对每一环定义字符模式。例如,模式可包含“X”字符以代表氨基酸以及“-”(连字符)代表缺口。
(e)最后,对于每一环生成背景特异性的子MSA文件,排除对于该环不共享相同字符模式的所有序列,即背景特异性子MSA包含其中环具有相同长度的序列,包括缺口。
例如,在假定的原始蛋白质中位置4-10被识别为环,具有假定序列“APTESVV”,包括茎。将该环在MSA文件中的查询蛋白质上鉴定,发现其模式为“A--PTESVV”。背景特异性子MSA文件(其将会用MSA文件中的所有序列针对该环生成)将会包括模式“X--XXXXX”。
因此,根据本发明的一些实施方案,对于环区域,序列比对包括具有序列长度等于原始多肽链中的相应环的氨基酸序列。相应地,在环区域的背景中相关的序列比对在本文中称为“背景特异性子MSA”(图1中的框5)。
置换规则:
在本发明的一些实施方案中,一组抑制、约束和权重用作支配一些计算程序的规则。在本发明一些实施方案的情况中,这些规则应用于本文所呈现的方法以确定原始多肽链中的哪些位置将会被允许变换(被置换),以及变换为哪些氨基酸替代。这些规则也可用于保存,至少一些程度上,原始多肽链的序列中的一些位置。
氨基酸序列变更中利用的规则之一源于特定位置处高度保守的序列模式,其通常在结构上相似的蛋白质的家族中显示。根据本发明的一些实施方案,序列设计程序期间指定氨基酸置换的规则包括位置特异性评分矩阵值,或PSSM(图1中的框6)。
“位置特异性评分矩阵”(PSSM),在本领域中也称为位置权重矩阵(PWM),或位置特异性权重矩阵(PSWM),是普遍使用的生物序列中复现模式的代表,其基于在沿着序列的给定位置处字符(单体、氨基酸、核酸等)出现的频率。因此PSSM代表在每一位置处所观察的突变相对20种氨基酸的任一的对数似然。PSSM常常来源自认为结构上和功能上相关的一组比对序列,并且已经广泛用在用于计算基序发现的许多软件工具中。在氨基酸序列的情况中,PSSM为用于蛋白质BLAST搜索的一种类型的评分矩阵,其中对于蛋白质多序列比对中的每一位置单独给出氨基酸置换分数。因此,比对的位置A处的Tyr-Trp置换可得到与位置B处同一置换非常不相同的分数,受制于两个位置处不同的氨基酸保守水平。这与位置独立性矩阵例如PAM和BLOSUM矩阵不同,其中Tyr-Trp置换得到相同的分数,无论其在何位置发生。PSSM分数一般显示为正或负的整数。正分数表明给定的氨基酸置换在比对中比偶然预计的更频繁地发生,而负分数表明该置换不如预计频繁地发生。大的正分数常常指示关键的功能残基,其可为活性位点残基或其它分子间或分子内相互作用所需的残基。PSSM可使用位置特异性迭代基础局部比对搜索工具(Position-Specific Iterative Basic LocalAlignment Search Tool)(PSI-BLAST)[Schaffer,A.A.等人,Nucl.Acids Res.,2001,29(14),pp.2994-3005]创建,其发现与查询序列相似的蛋白质序列,然后从所得的比对构建PSSM。或者,PSSM可从国家生物技术信息中心保守结构域数据库(the National Centerfor Biotechnology Information Conserved Domains Database)(NCBI CDD)数据库检索(retrieve),因为每一保守的结构域在种子比对中由编码观察到的置换的PSSM代表。这些CD记录可通过在Entrez Conserved Domians中文本搜索或通过使用反向位置特异性BLAST(Reverse Position-Specific BLAST)(RPS-BLAST)(也称为CD-搜索)找到,以确定这些结构域在输入蛋白质序列上的位置。
在本发明的一些实施方案的情况中,PSSM数据文件可为整数的表格形式,各自表明在设计蛋白质的序列中的任何可能的位置处20种氨基酸的任一如何进化上保守。如上文所表明的,正整数表明氨基酸在给定的位置比其将会在随机蛋白质中的随机位置更可能,负整数表明氨基酸在给定的位置不如其将会在随机蛋白质中可能。一般而言,PSSM分数根据输入MSA中的信息和关于氨基酸置换本质上的一般信息的组合确定,如例如,通过BLOSUM62矩阵所引入的[Eddy,S.R.,Nat Biotechnol,2004,22(8):1035-6]。
一般而言,本文所呈现的方法可使用PSI-BLAST软件包的PSSM输出来获得原始MSA和所有子MSA文件的PSSM。根据本发明的一些实施方案,最终的PSSM输入文件包括来自每一PSSM文件的相关行。对于代表二级结构的序列位置,相关行从源自原始全MSA的PSSM拷贝。对于每一环,相关行从源自代表该环的子MSA文件的PSSM拷贝。因此,根据本发明的一些实施方案,最终的PSSM输入文件为序列数据的定量代表,其并入结构计算中,如下文所讨论的。
根据本发明的一些实施方案,基于MSA和PSSM的规则确定原始多肽链中的氨基酸序列中的不可置换的位置和可置换的位置,并且进一步确定哪些氨基酸替代将会用作所述方法的单一位置扫描步骤中的候选替代,如下文所讨论的。
关键残基:
根据本发明的一些实施方案,所述方法允许并入关于原始多肽链和/或野生型蛋白质的信息。该信息可由不同的源提供,其作为设计程序期间支配氨基酸置换的规则的部分并入方法中。虽然任选,但这种信息的加入是有利的,因为其减少所述方法提供包括折叠-和/或功能-消除置换的结果的可能性。在下面的实施例部分所呈现的实施例中,关于活性的有价值的信息已经被成功用作部分规则。
为了降低序列设计过程期间导致错误折叠的序列的概率,已知牵涉结构稳定化的残基,例如,影响正确折叠(例如,参与二硫桥的半胱氨酸)、必需的构象变化和与功能位点变构通信的残基,以及牵涉翻译后修饰的残基可鉴定为“关键残基”(图1中的框8)。
为了进一步降低序列设计过程期间减少或消除功能的概率,已知牵涉任何期需功能或影响期需属性的残基可鉴定为关键残基。关键残基占据的位置视为不可置换的位置,并且固定为原始多肽链中出现的氨基酸。
术语“关键残基”指在规则中定义为至少某种程度上固定的(不可变的)的设计序列中的位置。关键残基占据的序列位置构成不可置换的位置的一部分。
关于关键残基的信息可,例如,从原始多肽链的结构(或模板结构),或者当可用时从其它高度相似的结构提取。可帮助鉴定关键残基和支持推理在任何给定位置固定一种氨基酸类型或同一性的示例性标准,包括:
对于在活性位点催化底物分子的反应的酶,关键残基可在底物结合位点周围约半径内选择,如可从包含底物、底物类似物、抑制剂等的复合晶体结构推断的。
对于金属结合蛋白质,关键残基可在金属原子周围约内选择。
关键残基可在距寡聚体中涉及目的链的任何蛋白质界面约内选择,因为相互作用链时常涉及二聚化界面、结合配体或蛋白质-底物相互作用。
关键残基可在距与目的蛋白质相互作用的DNA/RNA链约内选择。
对于涉及免疫原性的蛋白质,关键残基可在距表位区域约内选择。
应指出选择关键残基的空间的形状和尺寸不限于半径的球;该空间可为对应于原始蛋白质的序列、功能和结构的任何尺寸和形状。
进一步指出的是具体的关键残基可由任何外部信息源(例如,研究者)提供。
当提供模板结构、PSSM文件(基于全MSA和任何任选的背景特异性子MSA)以及关键残基、不可置换的位置和可置换的位置的鉴定时,本文所呈现的方法可使用这些数据从原始多肽链开始提供修饰的多肽链。
主要的方法步骤:
根据本发明的一些实施方案,本文所呈现的方法包括步骤确定原始多肽链的氨基酸序列中的哪些位置将会经受氨基酸置换以及哪些氨基酸替代将会被评估(本文称为可置换的位置),和原始多肽链的氨基酸序列中哪些位置的氨基酸将不会经受氨基酸置换(本文中称为不可置换的位置)。
在第二个步骤,(即单一位置扫描步骤),向每一可置换的位置处的每一允许的氨基酸替代给予位置特异性稳定性分数(参见上文中可置换位置的定义)。具有位置特异性稳定性分数在-0.45r.e.u以下的(即,经预测为稳定化的)氨基酸替代的综合列表在本文中称为“序列空间”。该列表用作另一个设计方法步骤的输入,该步骤包括使用所有或一些位置特异性氨基酸替代组合生成所有或一些可能的序列(设计序列)。
应指出的是本文所呈现方法的详细描述使用RosettaTM软件包所公用或独特的一些项、单元和程序,然而,应理解所述方法能够使用其它软件模块和包执行,并且其它项、单元和程序因此考虑在本发明的范围内。
根据本发明的一些实施方案,本文所呈现的方法的优势还源于下列因素:
(a)所述方法提供组合产生修饰的多肽链(蛋白质变体),其包含数十个氨基酸置换(突变)。在一个示例性的情况下,所述方法提供具有67个突变的变体(参见hAChE结果),而无一目前已知的方法甚至尝试提供这样宽的组合解决方案。
(b)在准备组合步骤中用来确定可置换位置和氨基酸替代的程序确保每一突变独立地预测为稳定化的。严格的接受阈值可用于减少假阳性突变的概率。低假阳性率是允许显著的和可靠的组合设计所必要的,并且该低比率通过单一位置扫描步骤部分达到,如下文所讨论的。
(c)对组合两个正交信息源-基于结构的能量计算和序列数据计算的信赖。组合两种计算使得其能够补偿每一信息源所共有的偏倚。这两种信息源的加权组合改善本文所呈现的方法的准确度。另外,序列数据包含关于关键残基的信息,因此有助于避免折叠-和功能-消除置换。
初步的结果表明,根据本发明的一些实施方案,所述方法捕获其它方法针对例如在环区域中突变为脯氨酸、增压(supercharging)(增加带电残基的数目)、促进提供盐桥、氢键和更紧密堆积的突变特别搜索的最佳序列。这样的置换通过使用总能量计算而不旨在特定类型的突变由本文所呈现的方法单独提出。
单一位置扫描
根据本发明的一些实施方案,确定可置换原始多肽链的氨基酸序列中每一可置换位置处的氨基酸的氨基酸替代的步骤在本文中称为“单一氨基酸序列位置扫描”或“单一位置扫描”(图1中的框10)。根据本文所呈现的本发明的一些实施方案,方法的该步骤通过使用如上所描述的PSSM分数单独扫描原始多肽链中每一可置换位置的每一预先定义的氨基酸替代进行。进行单一位置扫描步骤以便通过确定当将每一氨基酸替代放置在扫描的位置时的自由能变化(例如,以Rosetta能量单位,或r.e.u)确定在每一扫描的可置换位置哪些氨基酸替代是有利的。将自由能变化的比率与稳定性分数关联,这在本文中称为“位置特异性稳定性得分”。
可置换位置通过以下界定:
i.不是关键残基;和
ii具有至少一个PSSM分数等于或大于0(零)的氨基酸替代。
在每一可置换位置仅具有非负PSSM分数(即等于或大于0)的氨基酸经受单一位置扫描步骤。该基于序列的限制,连同源自关键残基(功能性的)的限制,通常将扫描空间从序列中的所有位置减少至较少的位置,并将每一这些位置处的扫描空间从20个氨基酸替代减少至约1-10个替代。该单一位置扫描步骤在多肽链位置上迭代,同时跳过关键残基和不可置换的位置,并且对于每一可置换的位置其仅在具有PSSM分数等于或大于0的氨基酸替代上迭代,以确定其位置特异性稳定性分数。
例如,在一些位置,原始氨基酸保守,以致所有其它氨基酸替代得到负PSSM分数,导致取样空间为1;结果,该位置将不再认为是可置换的。在其它位置序列比对显示较大可变性,意味着该位置不保守;然而,甚至对于这样的位置可能的氨基酸的可变性为约1-10,如PSSM分数所指示的,而不是所有20种氨基酸替代。
一旦一组可置换位置及其相应的氨基酸替代已经确定,对于每一替代确定位置特异性稳定性得分。在一些实施方案中,对于每一替代,包括该位置处的原始氨基酸,位置特异性稳定性得分通过使模板结构的单一置换的变体(SSVTS)(与初始模板结构差别之处在于具有替代的氨基酸代替原始氨基酸)经受全局能量小化确定,如该术语在本文中所定义的,并且将关于(精修的)模板结构的总自由能差别(ΔG)记录为对于该氨基酸替代的位置特异性稳定性分数。
在一些实施方案中,位置特异性稳定性得分通过使SSVTS经受局部能量最小化确定。在这样的实施方案中,从计算成本意义上是有利的,对于每一氨基酸替代,包括该位置处的原始氨基酸,位置特异性稳定性得分通过定义其中所有残基经受局部能量最小化的围绕该位置的加权拟合壳(加权拟合壳内加权拟合)以确定对于壳内的每一氨基酸最低的能量排列来确定。在壳内的位置被关键残基占据的情况下,关键残基不经受氨基酸置换精修,仅经受小范围能量最小化而不重新堆积。在一些实施方案中,加权拟合壳具有半径约然而,加权拟合壳的其它尺寸和形状也考虑在本文所呈现方法的范围内。
根据本发明的一些实施方案,局部能量最小化对于具有至少一个原子距位置特异性氨基酸替代的至少一个原子小于约的修饰的多肽链的氨基酸残基生效,从而定义加权拟合壳。根据一些实施方案,加权拟合壳定义为壳、壳、壳、壳或壳,同时更大的壳考虑在本发明一些实施方案的范围内。
对于在本发明的实施方案的情况中执行的任何形式的能量最小化程序,序列数据作为能量计算的一部分并入。能量函数包括标准物理-化学能量项,例如RosettaDesign软件套件中使用的,和两个额外的项:一个是也在模板结构精修时使用的坐标约束(参见上文),第二个为PSSM相关项,其为PSSM分数(值)乘以权重因素。PSSM相关权重因素可,例如,在基准研究中确定。如下文实施例1中所呈现的基准研究中所证明的,确定为值-0.4,并在下文实施例2中所呈现的另一个基准研究中进一步确认。
根据本发明的一些实施方案,每一氨基酸替代(或氨基酸置换)的PSSM分数(值)为至少0。
当使用RosettaTM套件时,每一氨基酸替代的位置特异性稳定性得分通过计算SSVTS关于模板结构的总自由能确定,并且位置特异性稳定性得分以r.e.u.表示。
根据本发明的一些实施方案,每一氨基酸替代(或氨基酸置换)的位置特异性稳定性得分等于或小于0。应指出负ΔΔG值意味着所检验实体的总自由能低于参考实体的总自由能,因此所检验实体认为是“在能量上更松弛的(more relaxed energetically)”,或在能量上更稳定的(more stable energetically)。在本发明的实施方案的情况中,将负位置特异性得分与较低的折叠ΔG关联,其通常指示更高的结构稳定化;然而,为了减少在最终设计的序列中掺入有害突变的概率,强加最小(最负)接受阈值;因此仅具有ΔΔG值低于该接受阈值的氨基酸替代允许进入方法的下一个步骤(图1中的框11)。
如本文所使用的,术语“接受阈值”指自由能差别ΔΔG值,其用于确定具有给定位置特异性稳定性得分(也以ΔΔG单位表述)的给定的氨基酸替代是否将会用在本文所呈现方法的组合设计步骤中。
通常,最小的并且因此最许可的(最负ΔΔG值)接受阈值可在基准研究中确定,例如下文实施例部分中所呈现的那些。在所呈现的研究中,发现最小接受阈值-0.45r.e.u足以许可提供具有足够氨基酸替代的足够可置换位置而基本上不引入假阳性置换。此处应指出的是,根据本发明的一些实施方案,所述方法不限于任何具体的最小接受阈值,并且其它值考虑在本发明的范围内。
所述方法中的单一位置扫描步骤(图1中的框10)产生可能的氨基酸置换的有限的列表,本文中称作“序列空间”,如该术语在下文定义的。对于每一接受阈值输出列表包括具有ΔΔG值(即位置特异性稳定性分数)比接受阈值更负的所有氨基酸替代(来自更严格的阈值的列表为来自更许可的阈值的列表的子集;参见,图2A-D)。该列表用作方法的下一个和最终的组合步骤的输入,并且每一列表构成一个“序列空间”,如该术语在下文中定义的。简言之,序列空间为置换的子集,每一经预测具有改善的结构稳定性,其与在任何给定位置处所有可能置换的理论空间(其为20n,其中20为天然存在的氨基酸的数目,n为多肽链中位置的数目)相比尺寸大大减小。
组合设计
根据本发明的实施方案,本文所呈现方法的下一个步骤为组合设计修饰的多肽链的整个氨基酸序列,其中将许多氨基酸置换同时引入原始多肽链的序列中。组合设计步骤对于在前面的单一位置扫描步骤中定义的每一接受阈值独立进行。如在下面的实施例部分所证明的,对于每一接受阈值,该组合设计步骤通常会聚。
组合步骤期间,仅通过给定的接受阈值的氨基酸替代允许在相应的可置换位置处变更。换言之,对于每一这样的位置仅具有位置特异性稳定性得分比给定的接受阈值更负的氨基酸替代被组合取样。所有其它残基仅经受重新堆积和构象自由能最小化。组合步骤产生具有所有彼此相容的突变的组合的最终变体。
在每一接受阈值的单个组合设计迭代中(图1中框12),所述方法会聚以产生单个修饰的多肽链。该修饰的多肽链包括许多氨基酸置换(通常为多肽链的2%-15%),并且代表从序列空间选择的置换的特定组合。
根据一些实施方案,单独的组合设计迭代对一系列的接受阈值的每一生效,其中对于每一迭代,仅通过系列中下一个接受阈值的氨基酸替代允许在相应的置换位置处变更(图1中的框13)。
图2A-D为根据本发明的一些实施方案,本文所提供方法的单一位置扫描步骤的输出和迭代组合设计步骤的输入的简化说明,其中图2A显示基于示例性接受阈值-0.45r.e.u用于组合步骤迭代的输入,其中原始多肽链(顶行)的不同位置包括不具有甚至单个具有位置特异性稳定性分数在示例的接受阈值-0.45r.e.u以下的非-WT氨基酸替代的位置,因此在组合设计步骤期间定义为不可置换的位置(通过菱形、环形和方形标记,如果后者不具有任何其它形状堆叠在其下),和组合步骤期间可置换的位置(对于其至少一个氨基酸替代通过单一位置扫描步骤;通过方形和堆叠于其下的其它形状标记,其代表通过示例性的接受阈值的氨基酸替代)。图2B-D代表根据本发明的一些实施方案,基于更严格的阈值用于组合步骤迭代的输入,因此显示较小的组合地变更的氨基酸替代的集合,因为对于每一更严格的接受阈值输入减少。例如,根据本发明的一些实施方案,标记为三角形的氨基酸替代是以下氨基酸替代:具有位置特异性稳定性得分在示例性的许可接受阈值-0.45r.e.u以下但在下一个更严格的接受阈值-075r.e.u以上。
其后,将在每一组合设计迭代处获得的每一组合产生的设计序列穿引在模板结构上,从而产生多个设计结构。与SSVTS单一置换同时,每一设计结构具有多个置换,因此本文中称为模板结构的多置换变体(MSVTS)。
其后,基于上文呈现的规则,每一设计的结构经受全局能量最小化,并确定每一设计结构相对于模板结构的总自由能的最小化能量得分。根据本发明的一些实施方案,将设计结构根据最小化能量得分分选。
根据一些实施方案,组合设计步骤处的全局能量最小化与模板结构精修程序在加权拟合常规和规则方面相似(使用相同的坐标约束和相同的PSSM相关能量项重新堆积和骨架最小化)。
当将本发明变为实践时,发现接受阈值-0.45r.e.u在提供具有高概率包含最佳的稳定化序列的序列空间同时将假阳性风险在最小化至几乎0方面是足够许可的。当将本发明进一步变为实践时,发现大多数单一氨基酸置换独立地使总自由能减少至多-2r.e.u。因此,使用比-2r.e.u更严格的接受阈值(更低;更负)可能不提供足够宽的在随后的组合步骤中用作输入的序列空间以允许产生具有显著稳定性优势的最佳变体。在-0.45r.e.u和-2r.e.u之间的范围内,任意7个接受阈值的集合代表有效的取样集合,因为以小于约0.2-0.25r.e.u.的增量取样接受阈值范围几乎无价值。至多7个设计的变体的实验合成和确认一般认为是时间和费用可承受的。
根据本发明的一些实施方案,组合设计步骤使用几个不同的接受阈值重复(反复),例如,以最许可的值-0.45r.e.u开始并使用更严格(更低)的值继续之后的迭代。例如,每一迭代中使用的接受阈值可为-0.45、-0.75、-1.0、-1.25、-1.5、-1.8、-2.0r.e.u。
组合设计方法是有利的,因为其大体上避免了其中由于几个原因通过单一位置扫描的置换可能仍然彼此不相容的事故。例如:
(a)如果来自单一位置步骤的输出列表中的两个置换在蛋白质链中彼此接近,氨基酸替代可能立体上冲突。
(b)如果一组从中性/正氨基酸到负氨基酸替代的置换一次引入,其可能中断所修饰的多肽链的某一区域的电荷/极性平衡,导致错误折叠和减少的可溶性。
(c)关于原始序列在其位置处并非得分最高置换的置换在与另一个置换同时引入时可能变得比得分最高的置换更有利。
例如,在假定的单一位置扫描中,发现原始位置A101可用V和T替代二者置换。V具有位置特异性稳定性得分-1.5r.e.u而T具有位置特异性稳定性得分-0.67r.e.u。独立考虑,A101V置换似乎为更有利的置换。然而,原始位置K108与原始位置A101结构上相近,并且发现K108可用N替代置换。根据本发明的一些实施方案,发现置换A101T和K108N的组合可能在组合步骤中更有利,因为这两个置换能够形成氢键(涉及T羟基),而与同一108位置中的N替代相比,由于构象约束,位置101中的T替代将不能与原始K108形成氢键。因此,尽管在原始多肽链情况中不太有利,但在组合步骤期间与K108N置换一起引入时A101T置换变得更有利。
对于每一组合设计迭代,最终的输出为单一MSVTS,其预期比原始多肽链显著更稳定。此处应指出单一位置扫描之后的组合设计步骤高度会聚,即,如果使用相同的序列空间重复几次,该步骤提供同一的最终序列或非常相似(简并)的序列,因此,根据本发明的一些实施方案,每一接受阈值进行一个组合设计步骤轨迹。置换的数目通常在蛋白质全长的2-12%。由于本文所呈现的方法使用多个组合设计迭代,每一用于基于单一位置扫描的不同接受阈值,因此所述方法提供几个不同的MSVTS集合,每一用于每个接受阈值。使用最严格的阈值(例如,-2.0r.e.u)获得的MSVTS将会包含最小数目的置换,使用最许可的阈值(例如,-0.45r.e.u)获得的MSVTS将会包含最大数目的突变。尽管组合步骤提供经预测显示一个或多个期需性质显著改善的MSVTS,取自前面步骤中定义的序列空间的一些其它的置换组合可导致甚至更佳的MSVTS。
根据本发明的一些实施方案,所述方法对于包含超过100个氨基酸(aa)的原始多肽链有效执行。在一些实施方案中,原始多肽链包含超过110aa、超过120aa、超过130aa、超过140aa、超过150aa、超过160aa、超过170aa、超过180aa、超过190aa、超过200aa、超过210aa、超过220aa、超过230aa、超过240aa、超过250aa、超过260aa、超过270aa、超过280aa、超过290aa、超过300aa、超过350aa、超过400aa、超过450aa、超过500aa、超过550aa或超过600个氨基酸。
根据本发明的一些实施方案,本文所呈现的方法提供与开始的原始多肽链相比具有超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换、超过20个置换、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换的修饰的多肽链(MSVTS)。
序列空间:
根据本发明的一些实施方案,过滤关键残基和强加自由能接受阈值之后,给定序列中可置换位置的数目大大减少,从而提供宽但可管理的组合序列空间,设计序列可从其中选择,而非理论上不可管理的空间20n。因此,术语“序列空间”指一组可置换的位置,其每一具有相对于给定位置处的WT氨基酸的至少一个可选置换。
序列空间因此为某一接受阈值的结果;每一接受阈值产生一个不同的序列空间,其中较严格的接受阈值所定义的序列空间包含在更许可的接受阈值所定义的更大的序列空间内。如上文所讨论的,为了避免假阳性,接受阈值可为小的并且应为负的,其中-2r.e.u认为是高度限制的(严格的),-0.45r.e.u为高度许可的。使用接受阈值-0.45r.e.u获得的序列空间将必然会比使用接受阈值-2.00r.e.u(严格的)获得的序列空间更大(许可)。实验使用本文所呈现的方法以产生实际蛋白质显示中间的接受阈值产生最佳的序列空间。实际上,序列空间为PSSM规则所定义的更宽空间的亚空间。
呈现序列空间的示例性和一般的方法为基于野生型序列编号的序列位置的列表,P1,P2,P3,...,Pn,其中每一位置被指定为关键残基,即WT中存在的氨基酸,AAWT;或可基于PSSM和能量最小化分析采用来自包含至少一个替代氨基酸的有限列表的任何一个氨基酸的位置,AAm,其中m为表示一个天然存在的氨基酸的数字,例如,A=1,R=2,N=3,D=4,C=5,Q=6,E=7,G=8,H=9,L=10,I=11,K=12,M=13,F=14,P=15,S=16,T=17,W=18,Y=19和V=20(aa编号为任意的,并且在本文中用于示范序列空间的一般代表)。
例如,序列空间可呈现为:
P1:AAWT,AA5,AA8和AA12;
P2:AAWT;
P3:AAWT和AA16;
P4:AAWT,AA1,AA3,AA6,AA10和AA14;
P5:AAWT,AA4,AA8和AA11;
…
Pn:AAWT,AAm,AAm,AAm,AAm和AAm,
其中在该一般性的实例中,P1具有4个替代氨基酸,P2为关键残基,等。
根据本发明的一些实施方案,序列空间可进一步通过强加更严格的接受阈值限制,或通过强加更许可的接受阈值扩展。一般而言,发现值-0.45r.e.u为足够许可的;然而基于接受阈值大于-0.45r.e.u(例如,-0.2r.e.u)或基于接受阈值小于-2.00r.e.u(例如,-2.1r.e.u)的序列空间也考虑在内。
在本发明的实施方案的情况中,如本文所定义的与原始蛋白质同源的(例如至少20%或至少30%序列同一性)的并且具有选自如本文所定义的序列空间的相对于野生型序列任何6个或更多个置换的选择的任何非天然存在的设计蛋白质为本文所呈现的方法的产物,因此考虑在本发明的范围内。
在随后的实施例部分,对于已经证明所述方法的一些示例性蛋白质,呈现了基于接受阈值-0.45r.e.u的序列空间。具有选自所呈现的序列空间的相对于野生型序列的任何6个或更多个置换的选择并且显示下列至少一个的任何设计序列考虑在本发明的范围内:
热变性温度等于或高于野生型蛋白质的热变性温度;
溶解性等于或高于野生型蛋白质的溶解性;
错误折叠程度等于或低于野生型蛋白质的错误折叠程度;
半衰期等于或长于野生型蛋白质的半衰期;
比活等于或高于野生型蛋白质的比活;和/或
重组表达水平等于或高于野生型蛋白质的重组表达水平。
此处指出本发明的实施方案包括由本文所呈现的方法所提供的任何给定的序列空间中的氨基酸替代的任何和所有可能组合(源自如本文所定义的序列空间的所有可能的变体)。
进一步指出在本发明的一些实施方案中,由在原始蛋白质上执行本文所呈递的方法而产生的序列空间可应用于与原始蛋白质不同的另一个蛋白质,只要其它蛋白质显示至少30%、至少40%或至少50%序列同一性以及更高。例如,取自通过在人蛋白质上执行本文所呈现的方法所提供的序列空间的一组氨基酸替代可用于通过产生在序列相当位置具有氨基酸置换的非人蛋白质的变体来修饰非人蛋白质。所得的非人蛋白质的变体,本文中称为“杂合变体”,然后将会在与人蛋白质中的相应位置比对的位置具有“人氨基酸置换”(选自为人蛋白质而提供的序列空间)。在本发明的一些实施方案中,具有匹配本文所呈现的方法所提供的任何给定序列空间中的氨基酸替代的至少6个置换的任何这样的杂合变体(源自本文所定义的序列空间的所有可能的变体),考虑并包括在本发明的范围内。
用于实验检验的变体的选择:
根据本发明的一些实施方案,本文所呈现的方法提供用于获得具有其它改善的功能特征的稳定化的蛋白质的低通量/低成本解决方案。因此,所述方法配置为集中在相对小数目的修饰的多肽链(MSVTS),取决于组合设计步骤中使用的接受阈值迭代的数目(上文讨论)。
如上文所讨论的,选择至少一个多个设计结构(MSVTS,每一对应于一个修饰的多肽链)基于对于该MSVTS计算的最小化能量得分。根据本发明的一些实施方案,选择修饰的多肽链基于为相应的设计结构计算的最小化能量得分的最小值(图1中的框14)。
例如,当使用7个接受阈值时,选择1-5个修饰的多肽链。根据本发明的一些实施方案,MSVTS的选择可按照几个标准,例如:
1)可选择基于-0.45r.e.u接受阈值的修饰的多肽链,因为在氨基酸置换的数目方面其为最许可的,因此持有潜能取得对期需性质最引人注目的作用。在其中这样的修饰的多肽链中的置换数目高于多肽链全长的10%的罕见情况下,可替代选择基于-0.75r.e.u接受阈值的修饰的多肽链。
2)其它1-4个变体可根据使所选择的变体之间的差异最大化的接受阈值选择。在许多情况下两个连续的接受阈值提供相似的变体;因此,从不连续的接受阈值选择变体提供更多样的变体集合。
3)观察到在某一接受阈值时突变数目显著下降。该行为为非线性的并且在不同的蛋白质情况下不同;因此,选择其中突变数目小于蛋白质长度的2%的变体是不太期需的。
4)在一些情况下,特别是对于短的多肽链或约束较严格(许多关键残基)的多肽链,基于最许可的接受阈值的MSVTS输出可能已经包含小于蛋白质长度的5%的突变数目。在这样的情况下可能仅选择1-2个修饰的多肽链用于进一步的研究。对于其它情况,其中多肽链大和/或约束为中等的,可选择3-5个修饰的多肽链用于进一步研究,取决于用户的偏好和实验能力。
应指出蛋白质性质(例如,稳定性)的引人注目的变化不一定是期需的,适度的变化可能已经足够。另外,由于任何原因(例如,免疫学考虑等)可能存在需求保持序列尽可能与原始多肽链亲近;因此具有不同数目和类型的置换的几个变体通常选择用于进一步的研究。
所述方法的额外特征:
根据本发明的一些实施方案,本文所呈现方法的使用还考虑用于多链蛋白质。在这样的情况下,并非将链-链界面处的残基定义为关键残基(固定的残基),所述方法通过使用对称考虑(对于同寡聚体)或标准刚体取样(对接)计算(对于杂寡聚体中的每一链)执行。
本文所呈现方法的使用还考虑用于执行伴随附近位置对的单一位置扫描步骤。该特征加宽突变空间并允许引入稳定化氨基酸置换的对或更高阶集合(如在上位突变中),其中个体置换将会失稳,并且预期在蛋白质核心引入更多稳定化的置换。
非天然存在的设计蛋白质:
如上文所讨论的并且在之后的实施例部分所证明的,本文所呈现的方法为一般性的并且有效提供多肽链的氨基酸序列,所述多肽链如此修饰以致于与包含修饰的多肽所对应的原始多肽链的野生型蛋白质相比,包含这样的修饰的多肽链的蛋白质更稳定。
根据本发明的一些实施方案的方面,提供非天然存在的设计蛋白质,其包含至少一个修饰的多肽链,其中相对于相应的野生型蛋白质,置换修饰了设计蛋白质,如通过下列至少一个所确定的:
设计蛋白质的热变性温度等于或高于野生型蛋白质的热变性温度;
设计蛋白质的溶解性等于或高于野生型蛋白质的溶解性;
设计蛋白质的错误折叠程度等于或低于野生型蛋白质的错误折叠程度;
设计蛋白质的半衰期等于或长于野生型蛋白质的半衰期;
设计蛋白质的比活等于或高于野生型蛋白质的比活;和
设计蛋白质的重组表达水平等于或高于野生型蛋白质的重组表达水平。
根据本发明的一些实施方案,设计蛋白质中的修饰的多肽链相对于相应野生型蛋白质中的原始多肽链具有至少6个氨基酸置换。在一些实施方案中,相对于原始多肽链,修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20个氨基酸置换、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个置换。
根据本发明的一些实施方案,原始多肽链包含超过100个氨基酸(aa)。在一些实施方案中,原始多肽链包含超过110aa、超过120aa、超过130aa、超过140aa、超过150aa、超过160aa、超过170aa、超过180aa、超过190aa、超过200aa、超过210aa、超过220aa、超过230aa、超过240aa、超过250aa、超过260aa、超过270aa、超过280aa、超过290aa或超过300个氨基酸、超过350aa、超过400aa、超过450aa、超过500aa、超过550aa或超过600个氨基酸
根据本发明的一些实施方案,原始多肽链包含100个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含120个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含140个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含160个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含180个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含200个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换或超过20、超过25个置换、超过30个置换、超过35个置换、超过40个置换、超过45个置换、超过50个置换、超过60个置换、超过70个置换、超过80个置换或超过90个氨基酸置换。
根据本发明的一些实施方案,原始多肽链包含500个氨基酸(aa)并且相对于原始多肽链,相应的修饰的多肽链包含超过5个氨基酸置换(突变)、超过6个置换、超过7个置换、超过8个置换、超过9个置换、超过10个置换、超过11个置换、超过12个置换、超过13个置换、超过14个置换、超过15个置换、超过16个置换、超过17个置换、超过18个置换、超过19个置换、超过20个置换、超过30个置换、超过40个置换、超过50个置换、超过60个置换、超过70个置换或超过80个氨基酸置换。
根据本文所呈现的发明的一些实施方案,从原始多肽链开始计算设计修饰的多肽链的方法的独特性、稳健性和一般性可以在该方法可产生的修饰的多肽的性质中鉴定(例如,方法的指纹)。例如,根据本文所呈现的方法的一些实施方案提供的设计蛋白质通过蛋白质核心中的氨基酸置换表征,其通常更难以设计并且当通过当前已知的计算蛋白质修饰方法设计时多半导致有害突变。根据本发明的一些实施方案,设计蛋白质中至少一个氨基酸置换的Cα距其水可接近的表面的最短距离为至少如本文所定义的,氨基酸置换的深度可大于而水可接近的表面如本领域所知的计算确定[Connolly,M.L.,Science,1983,221∶709-713;和Lins,L.等人,Protein Sci,2003,12(7):1406-1417]。
通过本文所提供的方法产生的设计蛋白质的另一个特征表现在累积或协同作用稳定所设计蛋白质的置换对。根据本发明的一些实施方案,设计蛋白质中置换氨基酸中的至少两个氨基酸彼此相互作用以致该相互作用稳定化修饰的蛋白质,如与原始蛋白质相比修饰蛋白质的较低的自由能项所确定的,然而,这些相互作用氨基酸置换的组合仅在通过本方法所提供的一些变体中见到,如上文所讨论的(参见,相容的氨基酸置换对和相容的氨基酸置换组)。对蛋白质稳定性的联合贡献源自导致键形成的基于所置换氨基酸中一些原子的接近和定向的化学和/或物理相互作用。根据本发明的一些实施方案,键定义为任何一种共价键(对于二硫键约250kJ/mol)、静电(离子)键(约10-50kJ/mol)、范德华相互作用(约0.4-4.0kJ/mol)、氢键(约12-30kJ/mol)、疏水相互作用(约40kJ/mol)或芳香堆积相互作用(约8-12kJ/mol或2-3kcal/mol)等,如本领域所已知的这些。根据本发明的一些实施方案,键可以以与键能成比例的程度促成蛋白质的稳定性。
应指出所述方法不需要置换相互作用以稳定化设计蛋白质。因此,根据本发明的一些实施方案,相容的氨基酸置换对或相容的氨基酸置换组不彼此相互作用。
非天然存在的设计蛋白质的表征:
设计蛋白质可通过几个功能和结构属性表征,例如Tm、比活、在给定表达系统中的表达水平和与其功能和结构稳定性关联的任何其它属性。这些属性可与相应的野生型(WT)蛋白质的那些比较以评估修饰的多肽链是否为原始多肽链的改善的变体(图1中的框15)。
可确定与野生型蛋白质相比设计蛋白质是否具有改善的性质的实验蛋白质表征检验可包括,例如,指示稳定性变化的测定。例如,如果所述方法用于提供对低表达水平问题的解决方案,测定应指示WT蛋白质对比设计蛋白质的相同大小的样品中蛋白质的相对量。或者以及另外,测定可比较WT蛋白质对比设计蛋白质的比活。
根据本发明的一些实施方案,设计蛋白质的改善的稳定性可通过用于确定蛋白质稳定性的任何方法学检验,例如改善的热稳定性表现为较高的热变性温度(Tm)、改善的表达水平、改善的溶解性、降低的错误折叠水平、较低的聚集水平、增加的半衰期等。
根据本发明的一些实施方案,设计蛋白质相对于相应的野生型蛋白质的修饰通过热漂移测定确定,其中设计蛋白质的热变性温度高于野生型蛋白质的热变性温度或至少与其相等。
根据本发明的一些实施方案,蛋白质的稳定性可,例如,通过热漂移测定评估和确定。热漂移测定通常通过技术,例如,温度熔解测定、热灭活测定、胍盐熔解测定、差示扫描量热法(DSC)、圆二色性(CD)、荧光光谱学、小角X-射线散射(SAXS)和差示扫描荧光分析(DSF)实现,如本领域所已知和使用的这些。
指示设计蛋白质的改善的一个性质为其溶解性,这指示正确的折叠和其表面上平衡分布的带电残基。
根据本发明的一些实施方案,设计蛋白质相对于相应的野生型蛋白质的修饰通过正确折叠的与错误折叠的蛋白质分子之比确定,其中设计蛋白质的错误折叠程度低于野生型蛋白质的错误折叠程度或至少与其相等。
如本领域所已知的,错误折叠的蛋白质倾向于形成聚集体,这是因为其减少的溶解性,因此任何类型的蛋白质溶解性测定,如本领域任何普通技术人员所已知的,将会很好地用来比较设计蛋白质的错误折叠程度相对于野生型的错误折叠程度。
根据本发明的一些实施方案,设计蛋白质相对于相应野生型蛋白质的修饰通过溶解性测定确定,其中设计蛋白质的溶解性高于野生型蛋白质的溶解性或至少与其相等。
可用于比较设计蛋白质与相应的野生型的错误折叠程度的额外的技术包括用于调查蛋白质错误折叠和聚集的单分子测定[Hoffmann,A.等人,Phys Chem Chem Phys,2013,15(21):7934-48],例如单分子荧光光谱学、单分子力谱和纳米孔分析。简言之,单分子荧光光谱学基于测量个体的分子的时间依赖荧光,通常在共焦或全内反射显微镜的情况中。单分子力谱使用力探针应用张力作为目的分子的变性剂,其中响应力的结构变化,例如解折叠,通过测量分子的末端至末端伸展变化监测。通常将力施加在由力探针,包括原子力显微镜(AFM)、光学镊子和磁性镊子粘附所定义的蛋白质上的两个特定点之间。纳米孔分子涉及将纳米孔引入脂质膜(通常使用形成孔的蛋白质例如α溶血素)或固态膜(通常使用硅纳米制造);跨膜应用的电压箝驱动离子电流通过纳米孔;随着蛋白质分子与孔相关或移动通过其,电流水平减少;由于不同的结构可以以不同的方式调整电流,可获得关于样品中蛋白质的构象分布的信息。
蛋白质的比活可用作正确折叠和稳定的蛋白质的相对比例的量度。根据本发明的一些实施方案,设计蛋白质相对于相应野生型蛋白质的修饰通过比活确定,其中设计蛋白质的比活高于野生型蛋白质的比活或至少与其相等。
例如,酶的比活可通过酶活性测定确定,结合蛋白质的比活可通过结合测定确定。简言之,蛋白质的比活通常表述为每毫克总蛋白质(以μmol min-1mg-1表示)。比活给予错误折叠的和其它蛋白质的混合物中稳定蛋白质的活性部分的量度。其为每毫克总蛋白质中在给定条件下在给定量的时间由蛋白质所形成的产物的量。比活等于反应速率乘以反应体积除以总蛋白质的质量。SI单位为katal kg-1,但更实用的单位为umol mg-1min-1。在酶的情况下,比活为在特定(通常饱和)的底物浓度下酶持续合成能力的量度,并且对于纯酶通常为常量。对于培养批次和/或错误折叠的酶等引起的误差的消除,需要进行活性位点滴定。此为活性酶的量度,通过例如,滴定利用不可逆的抑制剂呈现的活性位点的量计算。比活应然后表述为μmol min-1mg-1活性酶。如果酶的分子量已知,转换数,或μmol产物sec-1μmol-1活性酶可从比活计算。转换数可以可视化为每秒内每一酶分子进行其催化循环的次数。
在重组表达系统的情况中,蛋白质的稳定性可表述为在任何给定的表达系统中,总表达蛋白质中正确折叠的和活性蛋白质部分的量。根据本发明的一些实施方案,设计蛋白质相对于相应的野生型蛋白质的修饰通过重组表达水平确定,其中设计蛋白质的重组表达水平高于野生型蛋白质的重组表达水平或至少与其相等,如可通过在活性测定中在归一化的裂解物中比较设计与WT和/或通过其上清液部分的SDS-凝胶和/或通过聚集的蛋白质部分的尺寸以及用于评估可溶性的、正确折叠的和活性的重组蛋白质表达的量的其它手段测定的。
仍在重组表达系统的情况中,蛋白质的稳定性可以以蛋白质的半衰期表述。根据本发明的一些实施方案,设计蛋白质相对于相应的野生型蛋白质的修饰通过半衰期测定确定,其中设计蛋白质的半衰期高于野生型蛋白质的半衰期或至少与其相等。
不同蛋白质以不同的速率降解。异常和错误折叠的蛋白质迅速降解,而正常蛋白质的降解速率可广泛不同,取决于其功能。处于重要的代谢控制点的酶可能比在所有生理条件下活性几乎不变的酶降解得更快。N端法则陈述蛋白质的N端氨基酸决定其半衰期(被降解的可能性)。该法则适用于真核和原核生物二者,但以不同的强度。然而,仅粗略估算蛋白质半衰期可从该“法则”推演,因为N端氨基酸修饰可导致可变性和异常,而氨基酸影响也可在生物与生物之间不同。其它降解信号,称为降解决定子,也可存在于序列中。N端法则可部分决定蛋白质的半衰期,具有富含脯氨酸、谷氨酸、丝氨酸和苏氨酸(所谓的PEST蛋白质)的片段的蛋白质具有短半衰期。疑似影响降解速率的其它因素包括谷氨酰胺和天冬酰胺的脱氨以及半胱氨酸、组氨酸和甲硫氨酸的氧化速率、稳定化配体的缺失、连接的碳水化合物或磷酸基团的存在情况、游离α-氨基的存在情况、蛋白质的负电荷以及蛋白质的柔性和稳定性。蛋白质的半衰期可通过多种技术测定,例如脉冲追踪分析和放线菌酮阻断[Zhou,P,Methods Mol Biol,Clifton,N.J.Publisher,2004,284:67-77]。
根据本发明的一些实施方案,设计蛋白质的表达和/或活性水平可使用本领域已知的方法确定,其一些实例在下文呈现。
酶联免疫吸附测定(ELISA)方法涉及将包含蛋白质底物的样品(例如,固定的细胞或蛋白质溶液)固定到表面例如微孔板的孔。施加与酶偶联的底物特异性抗体并让其结合底物。然后利用偶联到抗体的酶通过颜色反应检测和定量抗体的存在情况。该方法中通常利用的酶包括辣根过氧化物酶和碱性磷酸酶。如果校准良好并在反应的线性范围内,样品中存在的底物的量与所产生的颜色的量成比例。底物标准品一般用以改善定量准确度。
蛋白质印记方法涉及通过丙烯酰胺凝胶的手段分离底物与其它蛋白质接着将底物转移至膜(例如,尼龙或PVDF)。底物的存在情况然后通过底物特异的抗体检测,其继而通过抗体结合试剂检测。抗体结合试剂可为,例如,蛋白质A或其它抗体。抗体结合试剂可为放射标记的或如上文所述酶联的。检测可通过放射自显影、比色反应或化学发光。该方法允许定量底物的量和通过膜上的相对位置(指示电泳期间在丙烯酰胺凝胶中的迁移距离)确定其同一性二者。
放射免疫测定(RIA)方法涉及用特异性抗体和固定在可沉淀的载体例如琼脂糖小球上的放射标记的抗体结合蛋白质(例如,用I125标记的蛋白质A)沉淀目的蛋白质(即,设计蛋白质)。沉淀出的小球的计数与目的蛋白质的量成比例。在替代的RIA版本中,利用标记的目的蛋白质和未标记的抗体结合蛋白质。包含未知量的目的蛋白质的样品以不同的量加入。沉淀出的标记的目的蛋白质计数的减少与加入样品中底物的量成比例。
荧光激活细胞分选(FACS)方法涉及通过特异性抗体在细胞中原位检测目的蛋白质。底物特异性抗体与荧光团连接。检测通过细胞分选机器的手段,该机器读取穿过光束时从每一细胞发射的光的波长。该方法可同时利用两种或更多种抗体。
免疫组织化学分析涉及通过特异性抗体在固定的细胞中原位检测目的蛋白质。特异性抗体可为酶联的或与荧光团连接。检测通过显微镜检查并主观或自动评估。如果利用酶联抗体,可能需要比色反应。将会理解的是,免疫组织化学常常接着使用例如苏木精或吉姆萨染料复染细胞核。
原位活性测定涉及使用生色底物,其应用在包含活性酶的细胞上,该酶催化其中底物分解以产生通过光或荧光显微镜可见的生色产物的反应。
体外活性测定测量从细胞提取的蛋白质混合物中特定酶的活性。活性可在分光光度计孔中使用比色法测量或可在非变性丙烯酰胺凝胶(即,活性凝胶)中测量。电泳之后将凝胶浸泡在包含底物和比色试剂的溶液中。所得的染色的条带对应于目的蛋白质的酶活性。如果校准良好并在反应的线性范围内,样品中存在的酶的量与所产生的颜色的量成比例。酶标准品一般用以改善定量准确度。
非天然存在的设计蛋白质的产生:
使用任何蛋白质合成仪或生物学重组表达系统,所选择的修饰的多肽链的氨基酸序列可用于产生相应的蛋白质。因此,根据本发明一些实施方案的另一个方面,提供产生设计蛋白质的方法,如上文定义和呈现的,其通过以下进行:
根据本发明任何实施方案的一些,使用从原始多肽链开始计算设计修饰的多肽链的方法获得修饰的多肽链的氨基酸序列;和
在任何可用的蛋白质表达系统中表达设计蛋白质,从而产生设计蛋白质。
根据本发明的一些实施方案,本文所呈现的方法的产物为一组氨基酸序列,选择其进行表达和进一步表征,并任选通过定向进化使用体外和/或体内实验程序进一步优化。
最一般地设计蛋白质或蛋白质的修饰的多肽链可反向翻译和反向转录为编码该蛋白质或片段的DNA段,本文称为基因模板。该基因模板然后可使用公开和市售可得的已建立的方法学合成。允许限制-连接反应或同源重组入通常使用的pET或其它蛋白质表达质粒的5’和3’片段通过标准PCR延伸加至基因模板。基因模板然后可使用相容的限制酶限制入表达质粒或通过同源重组并入表达质粒中。将标准表达生物(细菌、酵母、噬菌体、昆虫、植物或哺乳动物细胞)用相容的基因编码质粒转化并诱导表达。
根据本发明的一些实施方案,鉴于设计蛋白质的尺寸和复杂性,化学合成通常不是用于表达本文所呈现方法提供的氨基酸序列的可行选择。替代地,活细胞及其细胞机器可用作生物学表达系统以基于相应的基因模板建立和构建设计蛋白质。
不像蛋白质,使用充分建立的重组DNA技术合成地或体外构建目的设计蛋白质的基因模板(DNA)相对简单。因此,可构建本文所呈现方法提供的特定氨基酸序列的DNA模板,具有或不具另外添加的报告分子或亲和标签序列,作为用于设计的重组蛋白质表达的模板。
用于重组蛋白质表达的策略为本领域所熟知,通常涉及用包含目的基因模板的DNA载体转染细胞,然后培养细胞以致其转录和翻译设计蛋白质。通常,然后将细胞裂解以提取表达的蛋白质用于后续纯化。原核和真核体内蛋白质表达系统二者均广泛使用。系统的选择取决于蛋白质的类型、功能活性的需求和期需的产量。
细菌表达系统最广泛用于产生蛋白质,因为细菌易于培养、生长迅速和产生高产量的设计的重组蛋白质。然而,在细菌中表达的多结构域真核蛋白质常常为非功能的,因为细胞未装备为完成需要的翻译后修饰或分子折叠。
根据本发明的一些实施方案,本文所呈现的方法适于提供变体蛋白质序列,其特征为在重组细菌表达系统中增加的表达。如本领域所已知的,重组细菌表达系统对于蛋白质生产为最期需的,因为其高产量和低成本。
哺乳动物体内表达系统通常产生有功能的蛋白,伴随一些值得注意的限制。无细胞蛋白质表达为使用翻译-相容的全细胞提取物体外合成蛋白质。原则上,全细胞提取物包含转录、翻译甚至翻译后修饰所需的所有大分子元件。这些元件包括RNA聚合酶、调节蛋白质因子、转录因子、核糖体和tRNA。当添加辅因子、核苷酸和特定基因模板时,这些提取物可相对轻松地合成目的蛋白质。
尽管通常不足以支撑大规模生产,但无细胞蛋白质表达系统具有几个超越传统体内系统的优点。无细胞系统使得能够用修饰的氨基酸标记蛋白质,以及表达被胞内蛋白酶迅速蛋白质水解降解的设计蛋白质。同样,用无细胞方法,同时表达许多不同的蛋白质(例如,通过从许多不同的重组DNA模板小规模表达来检验设计蛋白质)更简单。
在本发明的一些实施方案中,设计蛋白质的结构折叠为抗体的结构折叠。产生多克隆和单克隆抗体及其片段的方法为本领域所熟知(参见例如,Harlow和Lane,Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory,New York,1988,通过引用结合到本文中).
在本发明的一些实施方案中,设计蛋白质的共同结构折叠为抗体的片段的结构折叠。根据本发明的一些实施方案,抗体片段可通过抗体的蛋白质水解分解或通过在大肠杆菌或哺乳动物细胞(例如,中国仓鼠卵巢细胞培养物或其它蛋白表达系统)中表达编码片段的DNA制备。抗体片段可通过常规方法使用蛋白质水解酶,例如胃蛋白酶或木瓜蛋白酶消化整个抗体通获得。例如,抗体片段可通过用胃蛋白酶酶切抗体以提供5S片段(表示为F(ab′)2)产生。该片段可使用硫醇还原剂和任选用于由于切割二硫键产生的巯基的封闭基团(blocking group)进一步切割,以产生3.5S Fab′单价片段。或者,使用胃蛋白酶酶切直接产生两个单价Fab′片段和一个Fc片段。这些方法在,例如Goldenberg的美国专利号4,036,945和4,331,647以及其中包含的参考中描述,所述专利通过引用以其整体结合到本文中。还参见Porter,R.R.[Biochem.J.73:119-126(1959)]。切割抗体的其它方法,例如分离重链以形成单价轻-重链抗体片段、进一步切割片段或者其它酶、化学或基因技术也可使用,只要片段结合完整抗体所识别的抗原。
根据本发明的一些实施方案,设计蛋白质相应的核酸构建体可用于转化哺乳动物细胞。
如上文所描述的,根据本发明的一些实施方案,本发明一些实施方案的多核苷酸可被用于,优选被克隆入本发明一些实施方案的核酸构建体中,用于在本发明一些实施方案的转化的宿主细胞中遗传上指导设计蛋白质的产生。
本发明一些实施方案的多核苷酸可通过许多本领域已知的方法中的任一引入细胞中。这样的方法在Sambrook等人,[Molecular Cloning:A Laboratory Manual(分子克隆:实验室手册),Cold Springs Harbor Laboratory,New York(1989,1992)];Ausubel等人,[Current Protocols in Molecular Biology(分子生物学实验室指南),John Wiley和Sons,Baltimore,Maryland(1989)];Chang等人,[Somatic Gene Therapy(体基因疗法),CRC Press,Ann Arbor,MI(1995)];Vega等人,[Gene Targeting(基因打靶),CRC Press,Ann Arbor MI(1995)];Vectors[A Survey of Molecular Cloning Vectors and TheirUses(分子克隆载体及其用途的考察),Butterworths,Boston MA(1988)]和Gilboa等人[Biotechniques 4(6):504-512(1986)]中一般性描述,并且包括,例如,稳定或瞬时转染、脂转染、电穿孔和用重组病毒载体感染。例如,对于涉及中枢神经系统的载体,参见美国专利4,866,042,以及对于用于诱导同源重组的正-负选择方法,参见美国专利5,464,764和5,487,992。
用于将本发明一些实施方案的多核苷酸引入细胞中的一个有利方法为通过使用病毒载体。病毒载体提供几个优点,包括较高的转化效率以及靶向和传播入特定的细胞类型。病毒载体也可用特定受体或配体修饰以通过特定的细胞受体例如神经元细胞受体改变靶特异性(例如,参考Kaspar BK等人,2002.Mol Ther.5:50-6)。
逆转录病毒载体代表适合用在本发明一些实施方案中的一类载体。缺陷的逆转录病毒常规用于将基因转移入哺乳动物细胞[综述参见Miller,A.D.,Blood 76:271(1990)]。根据本发明的一些实施方案,包含编码设计蛋白质的多核苷酸的重组逆转录病毒可使用熟知的分子技术构建。可将逆转录病毒基因组一些部分去除以致使逆转录病毒复制缺陷,复制缺陷的逆转录病毒可然后包装入病毒体中,其可用于通过使用辅助病毒同时利用标准技术感染靶细胞。用于产生重组逆转录病毒和用于用这样的病毒体外或体内感染细胞的方案可存在于,例如,Ausubel等人,[eds,Current Protocols in Molecular Biology(分子生物学实验室指南),Greene Publishing Associates,(1989)]。逆转录病毒已经用于将各种基因引入许多不同的细胞类型中,包括神经元细胞、上皮细胞、内皮细胞、淋巴细胞、肌细胞、肝细胞和骨髓细胞。
另一种合适的表达载体可为腺病毒载体。腺病毒为广泛研究和常规使用的基因转移载体。腺病毒载体的关键优势包括相对高的转导分裂和静止细胞的效率、对宽范围的上皮组织的天然向性和容易高滴度产生[Russel,W.C.[J.Gen.Virol.81:57-63(2000)]。腺病毒DNA转运至细胞核,但不整合入其中。因此用腺病毒载体诱变的风险最小,同时短期表达特别适合于处理癌细胞。用于实验癌症治疗的腺病毒载体由Seth等人[Adenoviralvectors for cancer gene therapy(用于癌症治疗的腺病毒载体).In:P.Seth(ed.)Adenoviruses:Basic biology to Gene Therapy(腺病毒:基础生物学至基因疗法),Landes,Austin,TX,(1999)pp.103-120]描述。
合适的病毒表达载体也可为嵌合的腺病毒/逆转录病毒载体,其组合逆转录病毒和腺病毒组分。这样的载体对于转导肿瘤细胞可能比传统表达载体更有效[Pan等人,Cancer Letters 184:179-188(2002)]。
合适的用于在个体中引入和表达本发明一些实施方案的多核苷酸序列的病毒载体的具体实例为腺病毒衍生的载体Ad-TK。该载体表达用于正或负选择的疱疹病毒胸苷激酶(TK)基因,并且包含用于期需重组序列的表达盒。该载体可用于感染具有腺病毒受体的细胞,包括上皮细胞源的多数癌症(Sandmair等人,2000.Hum Gene Ther.11:2197-2205)。
将表达限制于特定细胞类型的特征也可包含在内。这样的特征包括,例如,期需细胞类型所特异的启动子和调节元件。分泌信号一般包含短序列(7-20残基)的疏水氨基酸。分泌信号广泛可用并且为本领域所熟知,参考,例如von Heijne[J.Mol.Biol.184:99-105(1985)]和Lej等人,[J.Bacteriol.169:4379(1987)]。
重组载体可以以几种方式给予。如果使用病毒载体,程序可利用其靶特异性,因此,这种载体没有必要局部给予。然而,局部给予可提供更迅速和更有效的治疗。给予病毒载体也可通过,例如,静脉内或皮下注射入受试者中进行。注射之后,病毒载体将会循环直至其识别具有适当靶特异性的宿主细胞感染。
根据本发明的一些实施方案,设计蛋白质相应的核酸构建体可用于转化植物细胞。如本文所使用的术语“植物”包括整株植物、嫁接的植物、植物的祖先和后代以及植物部分,包括种子、秧、茎、根(包括块茎)、砧木、接穗以及植物细胞、组织和器官。植物可为任何形式,包括悬浮培养物、胚、分生组织区域、愈伤组织、叶、配子体、孢子、花粉和小孢子。在本发明的方法中特别有用的植物包括属于绿色植物(Viridiplantee)超家族的所有植物,特别是单子叶和双子叶植物,包括选自以下的饲用或饲料豆科植物、观赏植物、食物作物、树,或灌木:金合欢属(Acacia)物种、槭树属(Acer)物种、猕猴桃属(Actinidia)物种、七叶树属(Aesculus)物种、新西兰贝壳衫(Agathis australis)、Albizia amara、三色桫椤(Alsophila tricolor)、须芒草属(Andropogon)物种、落花生属(Arachis)物种、槟榔(Areca catechu)、Astelia fragrans、鹰嘴紫云英(Astragalus cicer)、多小叶红苏木(Baikiaea plurijuga)、桦木属(Betula)物种、芸薹属(Brassica)物种、木榄(Bruguieragymnorrhiza)、Burkea africana、紫铆(Butea frondosa)、Cadabafarinosa、朱缨花属(Calliandra)物种、山茶(Camellia sinensis)、美人蕉(Canna indica)、辣椒属(Capsicum)物种、决明属(Cassia)物种、距瓣豆(Centroema pubescens)、木瓜属(Chacoomeles)物种、肉桂(Cinnamomum cassia)、小果咖啡(Coffea arabica)、可乐豆(Colophospermum mopane)、变异小冠花(Coronillia varia)、栒子(Cotoneasterserotina)、山楂属(Crataegus)物种、香瓜属(Cucumis)物种、柏木属(Cupressus)物种、银蕨(Cyathea dealbata)、榅桲(Cydonia oblonga)、日本柳杉(Cryptomeria japonica)、香茅属(Cymbopogon)物种、Cynthea dealbata、榅桲(Cydonia oblonga)、Dalbergiamonetaria、大叶骨碎补(Davallia divaricate)、山蚂蝗属(Desmodium)物种、粗糙蚌壳蕨(Dicksonia squarosa)、Dibeteropogon amplectens、迪奥豆属(Dioclea)物种、镰扁豆属(Dolichos)物种、Dorycnium rectum、锥穗稗(Echinochloa pyramidalis)、Ehraffia物种、穇子(E1eusine coracana)、画眉草属(Eragrestis)物种、刺桐属(Erythrina)物种、桉属(Eucalypfus)物种、Euclea schimperi、金茅(Eulalia villosa)、荞麦属(Fagopyrum)物种、费约果(Feijoa sellowlana)、草莓属(Fragaria)物种、千斤拔属(Flemingia)物种、Freycinetia banksli、东亚老鹳草(Geranium thunbergii)、银杏(Ginkgo biloba)、野大豆(Glycine iavanica)、墨西哥丁香属(Gliricidia)物种、陆地棉(Gossypium hirsutum)、银桦属(Grevillea)物种、鞘籽古夷布提木(Guibourtia coleosperma)、岩黄芪属(Hedysarum)物种、牛鞭草(Hemaffhia altissima)、黄茅(Heteropogon contoffus)、大麦(Hordeum vulgare)、红苞茅(Hyparrhenia rufa)、小连翘(Hypericum erectum)、Hypeffhelia dissolute、异花木蓝(Indigo incamata)、鸢尾属(Iris)物种、Leptarrhenapyrolifolia、胡枝子属(Lespediza)物种、莴苣属(Lettuca)物种、银合欢(Leucaenaleucocephala)、Loudetia simplex、Lotonus bainesli、百脉根属(Lotus)物种、Macrotyloma axillare、苹果属(Malus)物种、木薯(Manihot esculenta)、紫苜蓿(Medicago saliva)、水杉(Metasequoia glyptostroboides)、香蕉(Musa sapientum)、烟草属(Nicotianum)物种、驴食豆属(Onobrychis)物种、鸟足豆属(Ornithopus)物种、稻属(Oryza)物种、非洲双翼豆(Peltophorum africanum)、狼尾草属(Pennisetum)物种、Perseagratissima、碧冬茄属(Petunia)物种、菜豆属(Phaseolus)物种、槟榔竹(Phoenixcanariensis)、新西兰剑麻(Phormium cookianum)、石楠属(Photinia)物种、白云杉(Piceaglauca)、松属(Pinus)物种、豌豆(Pisum sativam)、新西兰罗汉松(Podocarpus totara)、Pogonarthria fleckii、Pogonaffhria squarrosa、杨属(Populus)物种、瓜叶牧豆(Prosopis cineraria)、花旗松(Pseudotsuga menziesii)、Pterolobium stellatum、西洋梨(Pyrus communis)、栎属(Quercus)物种、厚叶石斑木(Rhaphiolepsis umbellate)、美味棒花棕(Rhopalostylis sapida)、Rhus natalensis、欧洲醋栗(Ribes grossularia)、茶藨子属(Ribes)物种、刺槐(Robinia pseudoacacia)、蔷薇属(Rosa)物种、悬钩子属(Rubus)物种、柳属(Salix)物种、红裂稃草(Schyzachyrium sanguineum)、金松(Sciadopitysvefficillata)、北美红杉(Sequoia sempervirens)、巨杉(Sequoiadendron giganteum)、两色高粱(Sorghum bicolor)、菠菜属(Spinacia)物种、Sporobolus fimbriatus、Stiburusalopecuroides、矮柱花草(Stylosanthos humilis)、葫芦茶属(Tadehagi)物种、落羽杉(Taxodium distichum)、阿拉伯黄背草(Themeda triandra)、三叶草属(Trifolium)物种、小麦属(Triticum)物种、异叶铁杉(Tsuga heterophylla)、越桔属(Vaccinium)物种、蚕豆属(Vicia)物种、葡萄(Vitis vinifera)、沃森花菜(Watsonia pyramidata)、马蹄莲(Zantedeschia aethiopica)、玉米(Zea mays)、苋属植物,朝鲜蓟,芦笋,西兰花,抱子甘蓝、甘蓝、芸苔、胡萝卜、花椰菜、芹菜、羽衣甘蓝、亚麻、无头甘蓝、小扁豆、油菜、秋葵、洋葱、马铃薯、水稻、大豆、稻草、甜菜、甘蔗、向日葵、番茄、南瓜茶、树。备选的藻类和其它非绿色植物可用于本发明的一些实施方案的方法。
根据本发明的一些实施方案,可用于在植物中产生设计蛋白质的方法的构建体可使用本领域技术人员所熟知的重组DNA技术构建。基因构建体可插入适合转化入植物并且适合在转化的细胞中表达目的基因的载体中,所述载体可为市售可得的。基因构建体可为表达载体,其中所述核酸序列与允许在植物细胞中表达的一个或多个调节序列操作性相连。
在本发明一些实施方案的具体实施方案中,调节序列为植物可表达的启动子。
如本文所使用的短语“植物可表达的”指启动子序列,包括附加于其上或其中包含的任何额外的调节元件,其至少能够在植物细胞、组织或器官,优选地单子叶或双子叶植物细胞、组织或器官中诱导、赋予、激活或增强表达。
根据本发明的一些实施方案,修饰的多肽链的核酸序列可对于任何表达系统优化,包括植物表达。这样的序列修饰的实例包括,但不限于,改变的G/C含量至更密切靠近目的植物物种中通常存在的含量,和移除植物物种中非典型存在的密码子(称为密码子优化)。
短语“密码子优化”指选择适当的DNA核苷酸用在结构基因或其片段中,其接近目的植物中的密码子使用。因此,优化的基因或核酸序列指其中天然或天然存在基因的核苷酸序列已经经修饰以便利用植物内统计上优选的或统计上有利的密码子的基因。核苷酸序列通常在DNA水平检查,并且对于在植物物种中表达优化的编码区域使用任何合适的程序确定,例如如Sardana等人(1996,Plant Cell Reports 15:677-681)所描述的。在该方法中,密码子使用的标准偏差,密码子使用偏倚的量度,可通过首先找出天然基因的每一密码子的使用相对于高度表达的植物基因的平方比例偏差,接着计算平均平方偏差计算。使用的公式为:1SDCU=n=1N[(Xn-Yn)/Yn]2/N,其中Xn指密码子n在高度表达的植物基因中的使用频率,其中Yn指密码子n在目的基因中的使用频率,N指目的基因中的密码子总数。来自双子叶植物的高度表达的基因的密码子使用表使用Murray等人(1989,Nuc Acids Res.17:477-498)的数据编译。
按照特定植物细胞类型的优选的密码子使用优化核酸序列的一个方法基于直接使用密码子优化表而不进行任何额外的统计计算,例如在密码子使用数据库(the CodonUsage Database)通过NIAS(National Institute of Agrobiological Sciences)、日本DNA数据库(www.kazusa.or.jp/codon/)在线提供的那些。密码子使用数据库包含许多不同物种的密码子使用表,每一密码子使用表基于Genbank呈现的数据统计确定。
植物细胞可用本发明一些实施方案的核酸构建体稳定或瞬时转化。在稳定转化中,本发明一些实施方案的核酸分子整合入植物基因组中,如此其代表稳定和遗传性状。在瞬时转化中,核酸分子由转化的细胞表达,但其不整合入基因组中,如此其代表瞬时性状。
存在多种不同的将外源基因引入双子叶和单子叶植物二者中的方法(Potrykus,I.,Annu.Rev.Plant.Physiol.,Plant.Mol.Biol.(1991)42:205-225;Shimamoto等人,Nature(1989)338:274-276)。
引起外源DNA稳定整合入植物基因组DNA的原理方法包括两种主要的途径:
(i)土壤杆菌属介导的基因转移:Klee等人(1987)Annu.Rev.Plant Physiol.38:467-486;Klee和Rogers in Cell Culture and Somatic Cell Genetics of Plants(植物细胞培养和体细胞遗传学),第6期,Molecular Biology ofPlant Nuclear Genes(植物核基因分子声学),eds.Schell,J.和Vasil,L.K.,Academic Publishers,San Diego,Calif.(1989)p.2-25;Gatenby,in Plant Biotechnology,eds.Kung,S.和Arntzen,C.J.,Butterworth Publishers,Boston,Mass.(1989)p.93-112.
(ii)直接DNA摄入:Paszkowski等人,in Cell Culture and Somatic CellGenetics of Plants(植物细胞培养和体细胞遗传学),第6期,Molecular Biology ofPlant Nuclear Genes(植物核基因分子生物学)eds.Schell,J.,and Vasil,L.K.,Academic Publishers,San Diego,Calif.(1989)p.52-68;包括用于将DNA直接摄入原生质体的方法,Toriyama,K.等人(1988)Bio/Technology 6:1072-1074。通过植物细胞的简短电击摄入DNA:Zhang等人Plant Cell Rep.(1988)7:379-384.Fromm等人Nature(1986)319:791-793.通过粒子轰击将DNA注射入植物细胞或组织,Klein等人Bio/Technology(1988)6:559-563;McCabe等人Bio/Technology (1988)6:923-926;Sanford,Physiol.Plant.(1990)79:206-209;通过使用微量吸管系统:Neuhaus等人,Theor.Appl.Genet.(1987)75:30-36;Neuhaus和Spangenberg,Physiol.Plant.(1990)79:213-217;玻璃纤维或碳化硅髯转化细胞培养物、胚胎或愈伤组织,美国专利号5,464,765,或通过用萌发的花粉直接孵育DNA,DeWet等人in Experimental Manipulation of Ovule Tissue(胚珠组织的实验操作),eds.Chapman,G.P.和Mantell,S.H.和Daniels,W.Longman,London,(1985)p.197-209;以及Ohta,Proc.Natl.Acad.Sci.USA(1986)83:715-719.
土壤杆菌属系统包括使用包含整合入植物基因组DNA的定义的DNA段的质粒载体。接种植物组织的方法根据植物物种和土壤杆菌属递送系统而不同。广泛使用的方法为叶盘程序,其可用为开始全植物分化提供良好的源的任何组织外植体进行。Horsch等人inPlant Molecular Biology Manual A5,Kluwer Academic Publishers,Dordrecht(1988)p.1-9.补充的方法利用土壤杆菌属递送系统组合真空渗入。土壤杆菌属系统在创建转基因双子叶植物中尤其可行。
存在多种直接将DNA转移入植物细胞的方法。在电穿孔中,将原生质体短暂暴露于强电场。在显微注射中,使用非常小的微量吸管将DNA直接机械注射入细胞中。在微粒轰击中,DNA吸附在微粒例如硫酸镁晶体或钨颗粒上,并且微粒物理加速入细胞或植物组织中。
稳定转化之后执行植物繁殖。最常用的植物繁殖方法为通过种子。然而,通过种子繁殖再生具有不足,由于杂合性在作物中缺乏一致性,因为按照遗传方差由植物产生的种子受孟德尔法则支配。基本上,每一种子为遗传上不同的并且每一将会以其自身的特定性状生长。因此,优选产生转化的植物以致再生的植物具有同一的性状和亲本转基因植物的特征。因此,优选转化的植物通过微体繁殖再生,其提供迅速的一致的转化植物生殖。
微体繁殖为从选择的亲本植物或品种切离的单片组织生长新一代植物的过程。该过程允许大量生殖具有优选的表达融合蛋白质的组织的植物。产生的新一代植物与原始植物遗传上同一并且具有其所有特征。微体繁殖允许在短时期内大量产生优质植物材料和在保持原始转基因或转化植物的特征下提供所选择品种的迅速增殖。克隆植物的优点为植物增殖的速度和所产生植物的质量及均一性。
微体繁殖为多阶段程序,阶段之间需要改变培养基或生长条件。因此,微体繁殖过程涉及4个基本阶段:阶段一,初始组织培养;阶段二,组织培养增殖;阶段三,分化和植物形成;和阶段四,温室培养和硬化。阶段一初始组织培养期间,建立组织培养物并证实无污染物。阶段二期间,初始组织培养物增殖,直至产生足够数量的组织样品以满足生产目标。阶段三期间,将阶段二中生长的组织样品分开并生长为个体小植株。在阶段四,将转化的小植株转移入温室用于硬化,其中植物对光的耐受逐渐增加以致其可在天然环境中生长。
尽管稳定转化目前为优选的,瞬时转化叶细胞、分生细胞或整个植物也是本发明一些实施方案所设想的。
瞬时转化可通过任何上述直接DNA转移方法或通过病毒感染使用修饰的植物病毒实现。
已经显示可用于转化植物宿主的病毒包括CaMV、TMV和BV。使用植物病毒转化植物在美国专利号4,855,237(BGV)、EP-A 67,553(TMV)、日本出版的申请号63-14693(TMV)、EPA194,809(BV)、EPA 278,667(BV)以及Gluzman,Y.等人,Communications in MolecularBiology:Viral Vectors(分子生物学通讯:病毒载体),Cold Spring Harbor Laboratory,New York,pp.172-189(1988)中描述。用于在许多宿主,包括植物中表达外源DNA的假病毒颗粒在WO 87/06261中描述。
构建用于在植物中引入和表达非病毒外源核酸序列的植物RNA病毒由上述参考以及Dawson,W.O.等人,Virology(1989)172∶285-292;Takamatsu等人EMBO J.(1987)6:307-311;French等人Science(1986)231:1294-1297和Takamatsu等人FEBS Letters(1990)269:73-76例证。
当病毒为DNA病毒时,可对病毒本身进行适当的修饰。或者,病毒可首先克隆入细菌质粒以便于构建具有外源DNA的期需病毒载体。病毒然后可从质粒切离。如果病毒为DNA病毒,细菌复制源可连接至病毒DNA,其然后由细菌复制。该DNA的转录和翻译将会产生外壳蛋白,其将会用壳体包裹病毒DNA。如果病毒为RNA病毒,病毒一般克隆为cDNA并插入质粒中。质粒然后用于制造所有的构建体。RNA病毒然后通过转录质粒的病毒序列和翻译病毒基因以产生用壳体包裹病毒RNA的外壳蛋白产生。
构建用于在植物中引入和表达非病毒外源核酸序列例如本发明一些实施方案的构建体中包含的那些的植物RNA病毒由上述参考以及美国专利号5,316,931中例证。
病毒载体由重组植物病毒核酸编码的外壳蛋白包裹以产生重组植物病毒。重组植物病毒核酸或重组植物病毒用于感染适当的宿主植物。重组植物病毒核酸能够在宿主中复制、在宿主中全身传播和在宿主中转录或表达外源基因(分离的核酸)以产生期需的蛋白质。
除了上述之外,本发明一些实施方案的核酸分子也可引入叶绿体基因组,从而使叶绿体能够表达。
用于将外源核酸序列引入叶绿体的基因组中的技术为已知的。该技术涉及下列程序。首先,将植物细胞化学处理以便将每一细胞的叶绿体数目减少至约1个。然后,将外源核酸经由粒子轰击引入细胞中,旨在将至少一个外源核酸分子引入叶绿体中。选择外源核酸以致其可经由同源重组整合入叶绿体的基因组中,这通过叶绿体固有的酶容易地实现。为了这个目的,除目的基因以外,外源核酸包含源自叶绿体基因组的至少一个核酸伸展。另外,外源核酸包含可选择的标志,其被顺序的选择程序用于确定这样的选择之后所有或大体上所有的叶绿体基因组拷贝将会包含外源核酸。关于该技术的进一步的细节存在于美国专利号4,945,050和5,693,507中,所述专利通过引用结合到本文中。多肽因此可由叶绿体的蛋白质表达系统产生并且整合入叶绿体的内膜中。
设计蛋白质的用途:
根据本发明的一些实施方案,通过本文所呈现的方法产生的设计蛋白质可用于,但不限于:
增加蛋白质在任何重组蛋白质表达系统中的产量;
使得不同的重组蛋白质异源表达系统能够产生设计蛋白质,否则其将不会表达相应的野生型蛋白质或表达差;
提供具有改善的工业和研究相关的性质的蛋白质,例如热稳定的酶和结合蛋白质等;
使得能够表达研究或工业中通常仅可在具有可溶性标签,例如MBP标签时表达的蛋白质;
改善抗体、结合蛋白质、酶和用于体内诊断、治疗和其它目的的其它蛋白质的血清半衰期;
增加适当折叠的活性抗体、结合蛋白质、酶和其它蛋白质的产量,从而减少在体内诊断、治疗和其它目的中给予的蛋白质的量;和
改善靶蛋白质对其底物的亲和性或活性。
预期在从该申请成熟的专利的有效期内,将会发展许多有关的用于基于天然存在的蛋白质中存在的序列和结构信息从新设计稳定化的蛋白质的方法,并且短语“从原始多肽链开始计算设计修饰的多肽链的方法”意在包括所有这种新技术的推演。
应理解,本发明的某些特征为清楚起见在单独的实施方案的情况中描述,其也可在单个实施方案中组合提供。相反,本发明的不同特征为简洁起见在单个实施方案的情况中描述,其也可单独或以任何合适的亚组合或以本发明任何其它描述的实施方案中所适当的提供。在不同实施方案的情况中描述的某些特征不认为是那些实施方案的基本特征,除非无那些元素实施方案无效。
如上文中描绘的和如下列权利要求部分所要求保护的本发明的各个实施方案和方面在下列实施例中得到实验支持。
实施例
现在参考下列实施例,其与上述说明书一起以非限制的方式说明本发明的一些实施方案。
实施例1
基准1-方法参数化
检验本文所呈现的方法对实验验证数据的预测;准确度,并参数化几个计算表达式,包括最小接受阈值、PSSM能量项的权重和坐标约束权重。
为了该目的,基于最近出版的研究[Sullivan,B.J.等人,J Mol Biol,2012,420(4-5):384-99,在本文中称作“2012研究”并且通过引用结合到本文中],检验了来自酿酒酵母(Saccharomyces cerevisae)的丙糖磷酸异构酶(TIM)中的23个“回复至共有区”突变的数据集。在2012研究中TIM家族中存在240个比对的位置,其中43%的位置在酿酒酵母TIM和共有序列之间偏差。在2012研究中,在这103个位置中,选择溶剂暴露、二级结构、保守和进化置换频率不同的23个个体共有区突变用于表达以进一步理解共有区突变现象及其在稳定化中的作用。
将2012研究的23个突变分为三组,存在11个稳定化突变(7个使蛋白质Tm增加超过1℃),5个为中性的或轻度失稳突变(Tm变化小于±0.5℃)以及7个非常失稳(其中4个为有害的并且导致无效表达)。
为了将其预测能力与2012研究的实验结果比较,根据本发明的一些实施方案,将本文所呈现的方法执行除组合设计步骤之外的所有步骤,并且结果将单一位置能量值(位置特异性稳定性得分)与2012研究中存在的实验测量Tm比较。
图3为通过本文所呈现的方法所获得的位置特异性稳定性得分(y轴)和在2012研究中获得的实验测量的Tm值(x轴)之间的比较的图示,其中Tm的增加(ΔTm)反映引入稳定化突变,负能量(ΔE)值反映预测为稳定化的方法鉴定的置换。
如图3中可见的,4个突变导致不可检测的表达(有害突变),因此其ΔTm不可测量(列在图3的左上象限上,并通过黑色菱形标记以反映该方法将所有四个突变正确预测为极其失稳的这一事实)。左下象限代表假阳性预测。应注意左下象限基本上无任何显著的失稳突变。D180Q为唯一的错误预测为稳定化的失稳突变并且其仅轻微失稳,ATm-0.4℃。2个突变(T219E和I83L)落在ΔTm值-0.3℃+0.3℃之间,认为是实验误差(“噪声”)。
如可图3中进一步看到的,该方法正确预测所有7个非常失稳的突变,这意味着在该基准中方法实际上显示零假阳性。11个稳定化突变中,8个为正确预测的。这意味着低假阳性率并非源自方法优选WT同一性的固有倾向,而是其准确反映实验结果。最不准确的是具有值在零附近的突变的预测,反映中性或接近中性的突变。
这些倾向对于在不同坐标约束权重和PSSM权重下的方法使用相似,然而,最好的关联在坐标约束权重0.4和PSSM能量项权重0.4时达到,并且选择其用于该方法对其它蛋白质的一般性使用。应注意在Rosetta软件套件中对于生物分子建模和设计标定的这些权重为非限制性实例,另外确定的其它项考虑在本发明的范围内。
实施例2
基准2-方法验证
参数化上文所呈现的方法之后,将方法的预测能力在实验数据可用的另一个案例上检验。进行该基准检验以进一步评估预测可靠性和参数适当性,以确保未疏忽地引入过拟合(overfitting)。
为了该目的,将真菌内切葡聚糖酶5(PDB ID 3QR3)中实验检验的突变的数据集[Trudeau,D.L.等人,Biotechnol Bioeng,2014,111(12),pp.2390-7;通过引用结合到本文中并且在本文中称作“2014研究”]用作基准,其与上文讨论的2012研究不相关。在2014研究中仅讨论具有16个突变的最终变体。对于该基准使用2014研究的原始数据,包括所有实验检验的突变。2014研究使用多个基于序列和建模的稳定化方法以预测将会改善稳定性和蛋白质产量的突变。这些突变之间为通过“回复至共有区”分析预测的突变子集、通过FoldX[Schymkowitz,J.等人,Nucleic Acids Res,2005,33:W382-8]预测的子集、至脯氨酸的突变子集等。
2014研究按照下列步骤实验检验每一突变:
a)将突变体在分泌载体中克隆入酵母中;
b)在初始筛选中酶水解活性在上清液中在73℃检验;
c)将显示活性低于WT的突变体抛弃,而将显示WT水平活性或更高的突变体在细菌系统中表达和纯化;和
d)将后一类突变体使用失活测定检验热稳定性:将样品在一系列温度下孵育10分钟,然后冷却至60℃(该酶和所使用底物的最佳温度),然后检验活性2小时。对于每一这些突变体,2014研究报告了代表与WT酶相比50%残余活性的温度的差异的温度值(ΔT50)。
2014研究的275个预测的突变中,发现仅34个为实验上稳定化的(如果其导致ΔT50超过0.3℃,该突变定义为稳定化的)。发现231个突变为实验上失稳的(该范畴下为所有导致ΔT50低于-0.3℃的突变和未通过初始筛选的突变)。后一组可能包括失稳突变以及破坏酶功能的突变。10个突变定义为接近中性(测量的ΔT50值在-0.3℃和0.3℃之间)并从进一步的分析排除。
本文所呈现的方法使用前述权重和步骤对于真菌内切葡聚糖酶5(PDB ID 3QR3)执行,将从单一位置扫描步骤所得的位置特异性稳定性得分(以r.e.u表述)与实验数据比较并在下表1中呈现。计算的位置特异性稳定性得分用于预测每一突变对自由能的作用(ΔΔGcalc)。如果其显示ΔΔGcalc<-0.45r.e.u,氨基酸置换预测为稳定化的,否则失稳。
表1
如可从表1中看到的,本文所呈现的方法正确分类几乎所有失稳的氨基酸置换(99.6%)和35%的稳定化突变,根据双尾Fischer精确检验p-值小于10-4。
在该基准实验中方法使用最小接受阈值-0.45r.e.u执行;然而,如果使用过度许可的接受阈值零,该方法将会具有正确预测的4个额外的稳定化突变(总体来说47%真阳性),并且将会还预测8个额外的假阳性(即,总体来说96%真阴性)。
这些结果证明使用零之下的最小接受阈值的优点,尽管损失一些稳定化置换(假阴性)。应指出通过方法对于该蛋白质所预测的序列空间和最终组合变体,包含2014研究中未预测的突变,并且这些突变强化对于蛋白质稳定化存在一个以上解决方案这一假设。
实施例3
用于hAChE稳定化的设计
作为本文所呈现的用于稳定化蛋白质的方法的强度和通用性的例证,选择结构敏感的和高度研究的酶,人乙酰胆碱酯酶(hAChE)形式的富有挑战的检验案例。
乙酰胆碱酯酶(AChE)水解神经递质乙酰胆碱以终止突触传递。其活性对于神经和肌肉组织的适当功能是必要的。该酶为不可逆地抑制其酶活性的神经剂的靶。该酶因其在原核细胞中异源表达时差稳定性而声名狼藉。常见的表达系统是HEK-293细胞系和昆虫细胞系。尝试在细菌系统中表达该蛋白质得到极其小的可溶性部分,阻碍该蛋白质在研究和治疗学中的使用[Fischer,M.等人,Cell Mol Neurobiol,1993,13(1):25-38]。
本文所呈现的方法在人AChE(hAChE;PDB ID 4EY7)上不制备子MSA执行,以稳定化酶。PSSM分数获自具有165个AChE同源序列的MSA。围绕活性位点的残基(参见下文)和二聚化界面内的残基鉴定为关键残基,关键残基如上文所述确定和处理。
AChE的活性位点位于穿透入酶内一半的深谷的底部,并且沿谷的突变显示使ACh水解速率减小高达1,000倍。为了增加hAChE的稳定性和表达水平而不改变其活性,在新设计的hAChE的允许的序列空间上强加限制:在所有Rosetta建模模拟中,使用hAChE伴随可逆抑制剂E2020结合在活性位点谷中的复合结构,并且跨越全长活性位点谷的E2020内的氨基酸侧链构象必须保持如同天然hAChE结构中一样,即鉴定为关键残基。单一位置扫描步骤(包括上述强加的关键残基)导致大大减小的序列空间(本文称为基于最小接受阈值-0.45r.e.u的序列空间)对于设计可用。减小的序列空间导致对于任何给定的接受阈值(ΔΔGcalc截断,以r.e.u计)组合序列优化会聚于同一的或几乎同一的序列;该会聚在计算设计中不常见,其为再现性和非专家使用的先决条件。
表2呈现氨基酸置换的序列空间,其源自单一位置扫描步骤,其强加接受阈值-0.45r.e.u,使用上述获得的PSSM和强加上述活性位点约束。序列空间呈现81个氨基酸置换位置,每一具有在给定位点处相对于WT氨基酸的至少一个可选置换。
表2
hAChE的序列空间
如可从表2计算的,该方法产生广泛但可控的氨基酸置换序列空间,从其可选择大量设计序列以产生稳定化的hAChE蛋白质变体。方法的5个最终组合步骤,每一基于一个不同的接受阈值(参见下文),导致5个变体,每一基于一个不同的接受阈值。接受阈值从最许可到最严格为-0.45r.e.u、-0.7r.e.u、-0.9r.e.u、-1.2r.e.u和-2.0r.e.u。这些接受阈值下的组合设计分别产生具有67、51、43、30和17个氨基酸置换的设计变体。
此处应注意本发明的实施方案包括表2中呈现的氨基酸替代的任何和所有可能的组合(源自本文呈现的序列空间的所有可能的变体)。
设计的AChE突变分散在整个酶中,并且显示稳定化的氨基酸置换的典型特征,包括改善的核心堆积、更高的骨架刚性、增加的表面极性、更多氢键和盐桥以及改善的二级结构倾向。所有5个示例性设计的AChE变体,RhAChE_m0p9(SEQ ID No.2)、RhAChE_m0p45(SEQID No.3)、RhAChE_m0p7(SEQ ID No.4)、RhAChE m1p2(SEQ ID No.5)和RhAChE_m2p0(SEQID No.6),显示改善的结构稳定性,体现在显著更高的细菌表达水平和更高的热稳定性。在接受阈值-0.7r.e.u下获得的设计蛋白质在本文中称为“RhAChE_m0p7”(SEQ ID No.4),其显示与WT hAChE(SEQ ID No.1)相比最高的细菌表达水平。RhAChE_m0p7(SEQ ID No.4)显示与WT hAChE(SEQ ID No.1)的可比较的细菌表达相比在中等规模1800倍高的细菌表达水平和在小规模400倍高的细菌表达水平。
将WT hAChE(SEQ ID No.1)、RhAChE_m0p9(SEQ ID No.2)、RhAChE_m0p45(SEQ IDNo.3)、RhAChE_m0p7(SEQ ID No.4)、RhAChE_m1p2(SEQ ID No.5)和RhAChE_m2p0(SEQ IDNo.6)在大肠杆菌SHuffle T7表达细胞中作为在其N端的Trx-AChE融合蛋白表达。大肠杆菌SHume T7表达细胞增强适当形成折叠结构所必需的二硫键的形成。检验澄清的细胞裂解物水解乙酰硫代胆碱至乙酸盐和硫代胆碱的活性。硫代胆碱切割5,5′-二硫代二-(2-硝基苯甲酸)(Ellman试剂或DTNB)产生2-硝基-5-硫代苯甲酸(TNB),其在中性和碱性pH时在水中离子化至黄色TNB2-二价阴离子,允许通过在412nm测量溶液吸光度简单定量水解活性(即,Ellman测定)。对于灭活温度确定,将样品在增加的温度孵育30分钟,然后在4℃冷却10分钟,然后在室温测定活性(AChE水解)。
表3概述WT hAChE(SEQ ID No.1)与5个AChE稳定化的示例性变体之间的实验比较。表3的第3列呈现了活性水平,如在来自250mL大肠杆菌培养物的表达稳定化的AChE变体的细胞的粗裂解物中测量的,对在相同细菌细胞中表达的WT hAChE(SEQ ID No.1)的活性水平归一化。由于AChE为扩散-限制的酶,稳定化的变体的增加的活性直接与可溶性细菌表达水平的增加成比例。结果基于每一蛋白质的乙酰硫代胆碱水解的平均初始速率(V0),而较高的活性与可溶和良好折叠的蛋白质部分的等量增加相关,其推断稳定性。
表3的第4和第5列呈现WT hAChE(SEQ ID No.1)和5个稳定化的AChE变体的热稳定性,如表现在热灭活测定中的,其中表3的第4列呈现在粗裂解物中测量的值,表3的第5列呈现对于纯化的部分测量的值。将酶样品在不同的温度孵育,冷却,并检验AChE活性,灭活温度为50%的活性保留/损失时的温度。应指出WT hAChE(SEO ID No.1)极其难以从细菌裂解物纯化,因为其非常低的表达水平,因此,对于纯化的WT hAChE(SEQ ID No.1)所报告的值基于在哺乳动物HEK293细胞中表达。
表3的第6列呈现神经毒剂VX的灭活速率常数,其在WT hAChE(SEQ ID No.1)和稳定化变体之间几乎相同,表3的第7-9列呈现WT hAChE(SEQ ID No.1)以及稳定化变体的ACh水解速率。
表3
如可从表3中见到的,与WT hAChE(SEQ ID No.1)的表达水平相比,所有5个示例性的稳定化AChE变体显示更高的细菌表达水平,约100倍至约1800倍更高的水平。如可进一步从表3中看到的,所有5个示例性的稳定化的AChE变体显示显著更高的热稳定性,即,50%的蛋白质活性保留/损失的温度,与野生型相比在裂解物和纯化的样品二者中高约16℃-19℃的热灭活温度。如可从表3中看到的,所有的示例性变体以相对于WT hAChE(SEQ ID No.1)2倍幅度以内的速率水解Ach,除了RhAChE_m1p2(SEQ IDNo.5),由于技术原因其速率未测定(ND),表明AChE稳定化变体的催化谷与WT hAChE(SEQ ID No.1)实际上同一,如所期需的,尽管向其中引入多个突变(17-67个突变)。
图4为表3的第3列中报告的值的条形图表示,显示5个示例性的AChE稳定化变体的活性水平,对于WT hAChE(SEQ ID No.1)的活性归一化,如在粗细菌裂解物中测量的。粗裂解物源自250mL烧瓶(图4中的“中等规模”)或在96孔板中生长的0.5mL大肠杆菌培养物(图4中的“小规模”)。与WT hAChE(SEQ ID No.1)相比所有的设计变体RhAChE_m2p0(SEQ IDNo.6)、RhAChE_m1p2(SEQ ID No.5)RhAChE_m0p9(SEQ ID No.2)、RhAChE_m0p7(SEQ IDNo.4)、RhAChE_m0p45(SEQ ID No.3)中更高的活性水平反映更高的可溶性、功能酶水平。
如可从图4中见到的,变体RhAChE_m0p7(SEQ ID No.4)显示WT hAChE (SEQ IDNo.1)表达细胞约1800倍更高的活性。
可从该实验做出的另一个结论为发现与在更严格和更许可的接受阈值下获得变体相比,在中等水平接受阈值下获得的变体具有更稳定的特征。
所有的AchE变体以相对于WT hAChE(SEQ ID No.1)2倍幅度以内的速率水解ACh,并且显示与WT hAChE(SEQ ID No.1)几乎相同的经由神经毒剂VX的灭活速率常数,对于RhAChE_m0p9(SEQ ID No.2)观察到最大偏差,其显示低25倍的灭活速率。设计的和野生型AChE几乎相同的活性概况的这些观察提示设计酶的活性位点与WT hAChE(SEQ ID No.1)基本上相同。为了验证此,使用RhAChE_mop7(SEQ ID No.4),显示最高的细菌表达产量的变体进行结晶试验。大晶体在试验开始的几天内并且更可复现地形成,RhAChE_m0p7(SEQ IDNo.4)的结构以分辨率解释,因此产生在原核生物中表达的AChE的第一个结构(数据未示出)。RhAChE_m0p7(SEQ ID No.4)的结构与WT hAChE(SEQ ID No.1)非常相似,对于450个比对的位置(528个位置中)Cα均方根差(rmsd)0.37活性位点残基比对得特别好,所有原子rmsd仅因此,尽管相对于野生型51个突变、细菌表达水平约2000倍增长和高20℃的热耐受,但RhAChE_m0p7(SEQ ID No.4)在其活性位点与hAChE实际上不能辨别,并且因此可用在将来的靶向AChE活性位点的抑制剂的结构研究中。
实施例4
用于稳定化磷酸三酯酶(PTE)的设计
作为本文所呈现的用于稳定化蛋白质的方法的力量和一般性的另一个例证,选择另一个富有挑战的检验案例,其为结构上敏感的和高度研究的酶,来自缺陷假单胞菌的磷酸三酯酶(PTE)的形式。
PTE在19世纪80年代在从受对硫磷(第一个广泛使用的有机磷酸盐杀虫剂)污染的地点分离的细菌中首次鉴定。尽管这些化合仅在19世纪50年代引入环境中,但酶的催化速率接近扩散极限,引起关于其从天然酶迅速进化至对硫磷降解酶的途径的有趣问题。该酶吸引了大量关注,因为其还显示催化解毒化学神经剂例如沙林和VX。然而,WT PTE的临界稳定性阻碍了其研究,直至更稳定的变体,PTE-S5(SEQ ID No.7),其三个突变通过定向进化产生[Roodveldt,C.等人,Protein Eng DesSel,2005,18(1):51-8]。PTE为金属酶,具有两个活性位点Zn+2离子与蛋白质结构缔合,其对于维持酶的功能构象很重要。尽管PTE-S5(SEQID No.7)的重组表达水平与WT的重组表达水平相比增加,所得的蛋白质显示金属亲和性显著下降——在其中不能补充Zn+2的条件下应用的主要的实践缺点。此外,功能-变更突变的引入使酶失稳,对于实验室进化的酶常常如此[Tokuriki,N.等人,.PLoS Comput.Biol.,2008,4,35-37],阻碍蛋白质的进一步工程改造。
在该实施例中,野生型PTE(PDB ID 1HZY)经受本文所呈现的方法。使用最小序列同一性截断34%针对非冗余蛋白质数据库的BLAST分析产生相对小和冗余的MSA。对于最近进化的仅具有少数相似同源蛋白质的酶这是预期的结果。因此,为了丰富序列数据,将同一性截断减小至28%,这显著改善多样性,产生从彼此多样性不同的具有资格的95个同源序列获得的MSA。
围绕催化活性位点口袋距结合配体至多的残基、距Zn+2离子内的残基以及同二聚体界面内的残基(距链)鉴定为关键残基,因此不允许变更或重新堆积,但允许在不同的方法步骤(精修、单一位置扫描和组合设计)期间最小化。
表4呈现从单一位置扫描步骤所得的氨基酸置换的序列空间,其使用获得的PSSM,强加上述关键残基并强加接受阈值-0.45r.e.u。该序列空间具有40个氨基酸置换位置,每一具有在给定位置相对于WT氨基酸的至少一个可选置换。
表4
PTE的序列空间
使用方法从上述序列空间选择3个设计序列(稳定化的PTE变体)。该方法的3个最终组合步骤,每一基于一个不同的接受阈值(参见下文),导致3个示例性的变体,每一基于一个不同的接受阈值。接受阈值从最许可到最严格为-0.45r.e.u、-1.0r.e.u和-2.0r.e.u。这些接受阈值下的组合设计分别产生具有28、19和9个氨基酸置换的设计变体。3个设计名字编码为dPTE_m0p45(SEQ ID No.8)、dPTE_m1p0(SEQ ID No.9)和dPTE_m2p0(SEQ IDNo.10)。将3个示例性的PTE变体如前所述克隆、融合至麦芽糖结合蛋白质标签、在GG48大肠杆菌细胞中表达以维持高内在锌浓度和纯化[Chemy,I.等人,ACS Chem Biol,2013,8(11):2394-403]。由于WT PTE不稳定并且具有低细菌重组表达水平,表达的变体的性能替代地与稳定变体PTE-S5(SEQ ID No.7)的那些比较,后者与野生型PTE相比显示约20倍高的表达水平。
此处应注意本发明的实施方案包括表4中呈现的氨基酸替代的任何和所有可能的组合(源自本文呈现的序列空间的所有可能的变体)。
表5呈现PTE变体的稳定性和动力学参数,其中归一化的活性为以PTE-S5(SEQ IDNo.7)活性的倍数计的粗大肠杆菌裂解物中活性的增加。“T1/2螯合剂”指使用50μM 1,10菲咯啉金属螯合之后残余活性的半衰期,KM和kcat指关于有机磷酸盐剂对氧磷的转换数的动力学参数。T1/2螯合剂和动力学参数仅对于dPTE_m1p0获得,其为显示热灭活温度的最高增加(测定定义和细节与上文所呈现的实施例3相同)的稳定化变体。
表5
如可从表5见到的,与参考蛋白质PTE-S5(SEQ ID No.7)相比,PTE变体显示增加的可溶的功能酶的水平,即使参考蛋白质已经显示与WT PTE相比20倍增加的表达水平。三个变体中的两个显示相对于PTE-S5(SEQ ID No.7)约10℃高的对热灭活的耐受,对PTE的底物对氧磷的活性无显著变化。稳定化设计的另一个值得注意的结果为增加的金属亲和性——尽管为了更高的表达定向进化野生型PTE,即PTE-S5(SEQ ID No.7),导致金属亲和性的显著降低,这是在其中不能补充Zn+2的条件下应用的主要的实际缺点,但设计的变体dPTE_m1p0(SEQ ID No.9)包含19个突变并且显示最高的热灭活耐受,也显示金属亲和性的显著增加,将其恢复至接近野生型PTE的值。上文描述的显示更高稳定性的dPTE_m1p0(SEQ IDNo.9)目前为用于进一步工程改造PTE以催化降解神经毒剂的有希望的候选。
PTE-S5(SEQ ID No.7)与通过方法产生的变体中的突变之间的比较显示,PTE-S5(SEQ ID No.7)的3个突变中,1个突变,(K185R),通过本文所提供的方法独立地预测为稳定化的。K185R出现在基于最小接受阈值-0.45r.e.u的序列空间中(参见表4,第20条)和所有可选的设计中。PTE-S5(SEQ ID No.7)中的其它两个突变,即D208G和R319S,不出现在序列空间中,因此不出现在任何可选的设计(稳定化的变体)中。对此的一个解释可为PTE-S5(SEQ ID No.7)通过定向进化实验作为三个突变的组合发展。每一单独的突变的作用未测量,可能大部分稳定化作用来自K185R而非来自其它两个突变,其可能为中性或无关紧要的。然而,假定D208G和R319S二者为稳定化突变,它们通过上文所呈现的方法给出的正位置特异性稳定性分数(即ΔΔGcalc>0)可通过方法强加的各种限制例如对于引入根据PSSM不太有利的氨基酸的能量处罚、相对强的坐标约束等解释。
实施例5
用于稳定化DNA甲基转移酶3的设计
哺乳动物DNA甲基转移酶3(Dnmt3)家族包含三个成员,Dnmt3a和Dnmt3b为活性甲基转移酶,Dnmt3L为Dnmt3a的调节因子。Dnmt3a对胚胎发育必不可少;因此,Dnmt3a敲除动物矮小并且在出生后不久死亡。Dnmt3L敲除小鼠可存活;然而,雄性为不育的。Dnmt3a-L复合体涉及基因组印记。该酶具有非常低的体外活性,假设多数蛋白质为错误折叠的,导致非常低水平的活性蛋白质。
本实施例企图通过降低ΔG折叠的-错误折叠的增加DNA结合构象,即,活性构象,相对于竞争构象的部分占据。
根据其一些实施方案,不使用背景特异性子MSA下执行本文所呈现的方法以稳定化催化性Dnmt3a结构域(具有PDB ID 2QRV的原始蛋白质,链A)。
PSSM分数获自包含83个Dnmt3a的具有资格的同源序列的MSA。围绕配体和DNA链的残基,以及同源二聚体和异源二聚体(a-L)界面中的残基鉴定为关键残基并固定。
强加最小接受阈值,27个位置中的四十三(43)个氨基酸置换通过单一位置扫描步骤。检查每一能量项对总能量的贡献显示一些趋势。所有氨基酸置换的百分之四十(40%)从ω角和Ramachandran角(多肽链的两个扭转角)的Rosetta能量项具有格外高的贡献。在一些情况下这些项的变化为与标准值相比高两个数量级。假设该趋势源自格外低质量的输入结构。
PDB结构具有相对低的分辨率2.89和大量的差离群值(参见,蛋白质数据库(Protein Data Bank)上对PDB ID 2QRV的全部wwPDB X-射线结构确认报告)。因为根据本发明的一些实施方案,用于结构精修程序的RosettaDesign软件在扭转的空间而不是在Cartesian空间工作,其不改变键长和键角。如果这些许多为离群值,精修过程将不会减轻这些离群值并且Rosetta可能通过改变二面ω或Ramachandran角解决这些压力,产生人工突变。因此,建议将具有显著的ω和Ramachandran项贡献(-1r.e.u以下)的所有置换移除。
14个位置的十七(17)个置换从设计序列移除,将组合步骤的输入设置为18个位置的26个置换。从该出发点,最终的组合步骤产生具有15个置换的设计序列;4个置换处于蛋白质环上的邻近位置,提示该环为稳定性弱点。
比较纯化的WT Dnmt3a、设计的Dnmt3a_Stab (SEQ ID No.11)变体以及Dnmt3a_Stab-(WT)Dnmt3L构建体(接头连接两个结构域)的活性,结果在图5中呈现。DNA甲基化活性测定基于DNA底物用放射性甲基的甲基化。
图5呈现对WT Dnmt3a(表示为“3aWT”并通过菱形标记)、根据本发明的一些实施方案使用本文所呈现的方法设计的Dnmt3a变体(表示为“3a Stab”并通过方形标记)和Dnmt3a_Stab-(WT)Dnmt3L复合体(表示为“3a31Stab”并通过三角标记)的纯化部分进行的DNA甲基化活性测定结果。
如可从图5中见到的,设计变体的活性为WT Dnmt3a的约7倍高,表明折叠的活性状态部分约7倍的增加。与此一致的为与其调节单元Dnmt3L复合的Dnmt3a的活性,显示与单独的Dnmt3a相比更高的活性。Dnmt3a_Stab-WT-Dnmt3L复合体的活性最高;然而,未与(WT)Dnmt3a-(WT)Dnmt3L复合体比较。
这些结果指示正确折叠的和活性的酶的部分增加,意味着本文所提供的方法通过提供为了更高的稳定性设计的变体序列有效优化活性构象,并且实际上降低能量项ΔG折叠的-错误折叠的。
尽管本发明已经连同其具体实施方案描述,但很明显许多替代、修饰和变更将会对本领域技术人员显而易见。因此,意在包括落入所附权利要求的精神和范围内的所有这些替代、修饰和变更。
该说明书中提及的所有出版、专利和专利申请通过引用结合在说明书中,至如同每一个体出版、专利或专利申请具体和各个地标明通过引用结合在本文中相同的程度。另外,该申请中对任何参考的引用或标识不应解释为承认这样的参考作为本发明的现有技术可得。就使用节标题来说,其不应解释为必然的限制。
Claims (34)
1.非天然存在的设计蛋白质,其包含至少一个相对于原始多肽链具有至少6个氨基酸置换的修饰的多肽链,其中所述置换相对于相应的野生型蛋白质修饰设计蛋白质,如通过下列至少一个所确定的:
设计蛋白质的热变性温度等于或高于野生型蛋白质的热变性温度;
设计蛋白质的溶解性等于或高于野生型蛋白质的溶解性;
设计蛋白质的错误折叠程度等于或低于野生型蛋白质的错误折叠程度;
设计蛋白质的半衰期等于或长于野生型蛋白质的半衰期;
设计蛋白质的比活等于或高于野生型蛋白质的比活;和
设计蛋白质的重组表达水平等于或高于野生型蛋白质的重组表达水平。
2.权利要求1的蛋白质,其中所述原始多肽链包含至少100个氨基酸。
3.权利要求1的蛋白质,其中至少一个所述氨基酸置换的Cα距设计蛋白质的水可接近的表面的最短距离为至少6 Å。
4.权利要求1的蛋白质,其中每一所述氨基酸置换的位置特异性稳定得分等于或小于0。
5.权利要求1的蛋白质,其中每一所述氨基酸置换的位置特异性评分矩阵(PSSM)值等于或大于0。
6.从原始多肽链开始计算设计修饰的多肽链的方法,所述方法包括:
(i) 确定原始多肽链的氨基酸序列中不可置换的位置和可置换的位置;
(ii)对于每一所述可置换的位置确定至少一个位置特异性氨基酸替代,和对于每一所述氨基酸替代确定位置特异性稳定性得分;
(iii) 组合产生多个设计序列,每一所述设计序列对应于修饰的多肽链并且包含至少一个氨基酸置换为所述至少一个位置特异性氨基酸替代之一,和将每一所述设计序列穿引在原始多肽链的模板结构上,从而产生多个设计结构;
(iv) 按照最小化的能量得分分选所述多个设计结构,所述最小化的能量得分通过使每一所述设计结构经受能量最小化确定;和
(v) 基于所述最小化的能量得分选择至少一个所述多个设计结构,对应于修饰的多肽链;
从而获得修饰的多肽链。
7.权利要求6的方法,其中修饰的多肽链相对于原始多肽链包含至少6个氨基酸置换。
8.权利要求6-7中任一项的方法,其中所述原始多肽链包含至少100个氨基酸。
9.权利要求6-8中任一项的方法,其中选择的修饰的多肽链对应于具有所述最小化的能量得分的最小值的设计结构。
10.权利要求9的方法,其中所述能量最小化为全局能量最小化。
11.权利要求6-10中任一项的方法,其中所述多个设计序列在接受阈值下基于所述稳定性得分组合产生。
12.权利要求6-11中任一项的方法,其中确定所述不可置换的位置和所述可置换的位置基于与原始多肽链同源的多个氨基酸序列的序列比对。
13.权利要求12的方法,其中,对于环区域,所述序列比对包括具有序列长度等于原始多肽链中的相应环的氨基酸序列。
14.权利要求12-13中任一项的方法,至少一个所述不可置换的位置基于所述序列比对确定。
15.权利要求12-14中任一项的方法,其中所述序列比对基于序列的非冗余数据库。
16.权利要求6-15中任一项的方法,其中至少一个所述不可置换的位置选自高度保守的位置、活性位点位置、金属结合位置、配体结合位置、底物结合位置、DNA/RNA结合位置、结构稳定化位置和抗原决定簇位置。
17.权利要求6-16中任一项的方法,其中确定所述位置特异性氨基酸替代由规则决定。
18.权利要求17的方法,其中所述规则包括位置特异性评分矩阵(PSSM)。
19.权利要求6-18中任一项的方法,其中所述位置特异性稳定性得分基于能量最小化确定。
20.权利要求19的方法,其中所述能量最小化为局部能量最小化。
21.权利要求20的方法,其中所述局部能量最小化对于具有至少一个原子距所述位置特异性氨基酸替代的至少一个原子小于约5 Å的修饰的多肽链的氨基酸残基生效。
22.权利要求6-21中任一项的方法,其中所述模板结构在所述穿引之前经受全局能量最小化。
23.权利要求22的方法,其中所述模板结构为实验确定的结构。
24.权利要求22的方法,其中所述模板结构基于原始多肽链的天然存在的同源物的实验确定的结构计算确定。
25.权利要求6-24中任一项的方法,其中所述能量最小化包括选自所修饰多肽链的键长优化、键角优化、骨架二面角优化、氨基酸侧链堆积优化和刚体优化的至少一个操作。
26.修饰的多肽链,通过权利要求6-25中任一项的方法获得。
27.权利要求26的多肽链,相对于所述原始多肽链具有至少6个氨基酸置换。
28.权利要求26-27中任一项的多肽链,所述原始多肽链包含至少100个氨基酸。
29.产生权利要求1-4中任一项的设计蛋白质的方法,包括:
使用权利要求6-25中任一项的方法获得所述修饰的多肽链的氨基酸序列;和
在表达系统中表达设计蛋白质;
从而产生设计蛋白质。
30.权利要求29的方法,其中所述原始多肽链包含至少100个氨基酸。
31.权利要求29-30中任一项的方法,其中至少一个所述氨基酸置换的Cα距设计蛋白质的水可接近的表面的最短距离为至少6 Å。
32.蛋白质,其具有选自对来自人的AChE作为原始蛋白质提供的并且在表2中列出的,或对来自缺陷假单胞菌(Pseudomonas diminuta)的PTE作为原始蛋白质提供的并且在表4中列出的序列空间的至少6个氨基酸置换的任何组合的序列。
33.权利要求32的蛋白质,其为杂合蛋白质,其中所述氨基酸置换的所述组合在不同于所述原始蛋白质的蛋白质上执行。
34.权利要求32的方法,具有选自RhAChE_m0p9 (SEQ ID No. 2)、RhAChE_m0p45 (SEQID No. 3)、RhAChE_m0p7 (SEQ ID No. 4)、RhAChE_m1p2 (SEQ ID No. 5)、RhAChE_m2p0(SEQ ID No. 6)、dPTE_m0p45 (SEQ ID No. 8)、dPTE_m1p0 (SEQ ID No. 9)和dPTE_m2p0(SEQ ID No. 10)的序列。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201562197598P | 2015-07-28 | 2015-07-28 | |
| US62/197598 | 2015-07-28 | ||
| US201662337992P | 2016-05-18 | 2016-05-18 | |
| US62/337992 | 2016-05-18 | ||
| PCT/IL2016/050812 WO2017017673A2 (en) | 2015-07-28 | 2016-07-25 | Stable proteins and methods for designing same |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN108138363A true CN108138363A (zh) | 2018-06-08 |
Family
ID=57884169
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201680056251.9A Pending CN108138363A (zh) | 2015-07-28 | 2016-07-25 | 稳定的蛋白质和其设计方法 |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP3329037B1 (zh) |
| CN (1) | CN108138363A (zh) |
| CA (1) | CA2993760A1 (zh) |
| IL (1) | IL257170B (zh) |
| WO (1) | WO2017017673A2 (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109448785A (zh) * | 2018-08-29 | 2019-03-08 | 浙江工业大学 | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 |
| CN113077840A (zh) * | 2021-04-21 | 2021-07-06 | 四川大学 | 基于药效团与alpha-碳特征的金属酶活性位点对比方法 |
| CN113166751A (zh) * | 2018-08-14 | 2021-07-23 | 耶达研究及发展有限公司 | 设计的、有效的和广泛特异性的有机磷酸酯水解酶 |
| CN116783657A (zh) * | 2020-12-25 | 2023-09-19 | 富士胶片株式会社 | 信息处理装置、信息处理方法及信息处理程序 |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10468119B2 (en) | 2015-07-28 | 2019-11-05 | Yeda Research And Development Co. Ltd. | Stable proteins and methods for designing same |
| WO2018165046A1 (en) | 2017-03-07 | 2018-09-13 | Igc Bio, Inc. | A computational pipeline for antibody modeling and design |
| IL261156A (en) | 2018-08-14 | 2020-02-27 | Fass Deborah | Chimeric quiescin sulfhydryl oxidase (qsox1) antibodies and uses of same |
| US12098272B2 (en) * | 2020-08-12 | 2024-09-24 | United States Of America As Represented By The Secretary Of The Army | Hydrogel-enzyme systems and methods |
| US20240096443A1 (en) * | 2020-12-01 | 2024-03-21 | Ibio, Inc. | Generalized Scaffolds for Polypeptide Display and Uses Thereof |
| CN115353552B (zh) * | 2022-08-19 | 2023-07-18 | 山东大学 | 一种降低蛋白质变性温度的方法及其突变体与应用 |
| WO2025122552A1 (en) * | 2023-12-04 | 2025-06-12 | The Trustees Of The University Of Pennsylvania | In silico prediction tool for meganuclease off-target sites |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020048772A1 (en) * | 2000-02-10 | 2002-04-25 | Dahiyat Bassil I. | Protein design automation for protein libraries |
| US20020110868A1 (en) * | 2000-03-02 | 2002-08-15 | Dahiyat Bassil I. | Design and discovery of protein based TNF-alpha variants for the treatment of TNF-alpha related disorders |
| US20050064507A1 (en) * | 2003-09-11 | 2005-03-24 | James Stephen Shaw | Determining kinase specificity |
| US20050181358A1 (en) * | 2001-06-22 | 2005-08-18 | Christian Scholz | Soluble complex comprising a retroviral surface glycoprotein |
| US20150110836A1 (en) * | 2012-05-21 | 2015-04-23 | Distributed Bio, Inc. | Epitope focusing by variable effective antigen surface concentration |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030144472A1 (en) * | 2002-01-31 | 2003-07-31 | Nec Research Institute, Inc. | Method of identifying designable protein backbone configurations |
| US7603239B2 (en) * | 2004-05-05 | 2009-10-13 | Massachusetts Institute Of Technology | Methods and systems for generating peptides |
| JP5036725B2 (ja) * | 2005-12-02 | 2012-09-26 | ザ スクリプス リサーチ インスティチュート | 血管新生作用を有するチロシルtRNAシンテターゼ組成物及び方法 |
| WO2009049045A1 (en) * | 2007-10-09 | 2009-04-16 | Athenix Corporation | Computational methods for synthetic gene design |
| US20120265513A1 (en) * | 2011-04-08 | 2012-10-18 | Jianwen Fang | Methods and systems for designing stable proteins |
-
2016
- 2016-07-25 CN CN201680056251.9A patent/CN108138363A/zh active Pending
- 2016-07-25 WO PCT/IL2016/050812 patent/WO2017017673A2/en not_active Ceased
- 2016-07-25 CA CA2993760A patent/CA2993760A1/en not_active Abandoned
- 2016-07-25 EP EP16829955.0A patent/EP3329037B1/en active Active
-
2018
- 2018-01-28 IL IL257170A patent/IL257170B/en active IP Right Grant
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020048772A1 (en) * | 2000-02-10 | 2002-04-25 | Dahiyat Bassil I. | Protein design automation for protein libraries |
| US20020110868A1 (en) * | 2000-03-02 | 2002-08-15 | Dahiyat Bassil I. | Design and discovery of protein based TNF-alpha variants for the treatment of TNF-alpha related disorders |
| US20050181358A1 (en) * | 2001-06-22 | 2005-08-18 | Christian Scholz | Soluble complex comprising a retroviral surface glycoprotein |
| US20050064507A1 (en) * | 2003-09-11 | 2005-03-24 | James Stephen Shaw | Determining kinase specificity |
| US20150110836A1 (en) * | 2012-05-21 | 2015-04-23 | Distributed Bio, Inc. | Epitope focusing by variable effective antigen surface concentration |
Non-Patent Citations (1)
| Title |
|---|
| CHEUNG, J.等: "Chain A, Acetylcholinesterase", 《NCBI GENBANK DATABASE》 * |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113166751A (zh) * | 2018-08-14 | 2021-07-23 | 耶达研究及发展有限公司 | 设计的、有效的和广泛特异性的有机磷酸酯水解酶 |
| CN109448785A (zh) * | 2018-08-29 | 2019-03-08 | 浙江工业大学 | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 |
| CN116783657A (zh) * | 2020-12-25 | 2023-09-19 | 富士胶片株式会社 | 信息处理装置、信息处理方法及信息处理程序 |
| CN113077840A (zh) * | 2021-04-21 | 2021-07-06 | 四川大学 | 基于药效团与alpha-碳特征的金属酶活性位点对比方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2017017673A2 (en) | 2017-02-02 |
| EP3329037A2 (en) | 2018-06-06 |
| WO2017017673A9 (en) | 2017-12-14 |
| WO2017017673A3 (en) | 2017-06-15 |
| IL257170B (en) | 2020-01-30 |
| CA2993760A1 (en) | 2017-02-02 |
| EP3329037A4 (en) | 2019-04-03 |
| IL257170A (en) | 2018-03-29 |
| EP3329037B1 (en) | 2023-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3329037B1 (en) | Stable proteins and methods for designing same | |
| US20200058367A1 (en) | Stable proteins and methods for designing same | |
| Bai et al. | A gene optimization strategy that enhances production of fully functional P-glycoprotein in Pichia pastoris | |
| US20250122251A1 (en) | Expression in mammalian cells with signal peptide | |
| KR101883803B1 (ko) | 식물 및 식물 세포에서 알파-갈락토시다제의 발현용 핵산 작제물 | |
| Li et al. | Identification of the core pollen-specific regulation in the rice OsSUT3 promoter | |
| Montandon et al. | In vivo trapping of proteins interacting with the chloroplast CLPC1 chaperone: potential substrates and adaptors | |
| ZHANG et al. | YGL9, encoding the putative chloroplast signal recognition particle 43 kDa protein in rice, is involved in chloroplast development | |
| US20130011909A1 (en) | Methods and composition to enhance production of fully functional p-glycoprotein in pichia pastoris | |
| Ni et al. | The ATP synthase γ subunit ATPC1 regulates RNA editing in chloroplasts | |
| Thagun et al. | Identification of a highly efficient chloroplast-targeting peptide for plastid engineering | |
| AU2019245479A1 (en) | Systems, methods and composition of using RNase III mutants to produce sRNA to control host pathogen infection | |
| Endow et al. | Polyglycine acts as a rejection signal for protein transport at the chloroplast envelope | |
| RU2384621C2 (ru) | Растения с повышенной урожайностью и способ их получения | |
| CN101040050A (zh) | 具有改良生长特性的植物及其制备方法 | |
| Kang et al. | Constitutive photomorphogenic 1 enhances ER stress tolerance in Arabidopsis | |
| CN1748033B (zh) | 改变植物生长特性的方法 | |
| Li et al. | CAF proteins help SOT1 regulate the stability of chloroplast ndhA transcripts | |
| US20180148732A1 (en) | Methods of modifying oil content in plants and plants produced thereby | |
| ES2348244T3 (es) | Plantas que tienen un mayor rendimiento de semillas y método para lograrlo. | |
| US7825293B2 (en) | Plants having improved growth characteristics and a method for making the same | |
| Zhang et al. | Chloroplast-Localized Protein, OsAL7, with Two Elongation Factor Thermostable Domains Is Essential for Normal Chloroplast Development and Seedling Longevity in Oryza sativa | |
| Khramov et al. | Molecular Cloning, In Silico Analysis and Expression of plasma membrane-associated NAR2 Protein, SaNAR2. 2, from Euhalophyte Suaeda altissima | |
| WO2007137810A1 (en) | Cytokinin receptor variants and their use | |
| Han et al. | Ectopic Over-Expression of BjuAGL9-2 Promotes Flowering and Pale-Yellow Phenotype in Arabidopsis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180608 |