WO2019020054A1

WO2019020054A1 - 一种基于免疫算法的密码子优化方法

Info

Publication number: WO2019020054A1
Application number: PCT/CN2018/097040
Authority: WO
Inventors: 樊隆; 孙岩; 吴东明; 黄小罗; 张丽华; 柳振宇
Original assignee: Nanjing Jinsirui Science and Technology Biology Corp
Current assignee: Nanjing Jinsirui Science and Technology Biology Corp
Priority date: 2017-07-25
Filing date: 2018-07-25
Publication date: 2019-01-31
Anticipated expiration: 2020-01-25
Also published as: KR20200038263A; EP3660852A4; CN110070913B; KR102730745B1; US20210027858A1; EP3660852B1; CN110070913A; JP2020534794A; EP3660852A1

Abstract

一种基于免疫算法的密码子优化方法, 其特征在于先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化，再用穷举法对序列进行微调优化，从而最大限度的搜索到最优表达序列。本发明既保留了遗传算法随机全局并行搜索的特点，又在相当大程度上避免未成熟收敛，确保快速收敛于全局最优解。本发明第一次结合利用免疫算法与遗传算法的准确度和效率的优势，通过分步流程(依次分别是局部优化、全局优化、微调优化)进行密码子优化，并通过实例测试证明该算法进行密码子优化的高效性。

Description

一种基于免疫算法的密码子优化方法

技术领域

本发明涉及一种蛋白工程技术，尤其是一种蛋白工程中的密码子优化方法，具体地说是一种基于免疫算法的密码子优化方法。

背景技术

密码子简并性是指在蛋白翻译过程中，一个氨基酸可以由多个不同密码子编码的现象，编码相同氨基酸的不同密码子称为同义密码子，一个长度为200个氨基酸组成的蛋白一般可以由超过10 ²⁰个不同DNA序列编码。在不同物种中，同义密码子出现的频率并不相同，这种现象称之为密码子的偏好性。密码子优化主要根据宿主表达系统的密码子偏好性等因素，在不改变蛋白氨基酸序列的前提下利用计算机算法从大量DNA编码序列中筛选出能在宿主表达系统中最高效表达蛋白的那条DNA序列。

目前密码子优化过程中常被考虑的影响蛋白表达的主要因素包括宿主细胞密码子偏好性(其常用表征参数有密码子适应度指数[CAI]、宿主细胞二联密码子偏好性[Codon Context]、CBI[Codon Bias Index]、ENC[Effective Number of Codon]、FOP[Frequency of Optimal Codons]、CPP[Codon Preference Parameter]、tAI[tRNA adaptation index])、Hidden Stop Codon数量、GC含量、稀有密码子含量、mRNA抑制性调控模序(motif)数量、mRNA二级结构(主要包括发夹结构和折叠自由能)、关键密码子和机器学习中数学模型打分、microRNA结合位点、G4含量以及蛋白二级结构密码子偏好性(Joshua B.Plotkin&Grzegorz Kudla,Nature Reviews Genetics,2011)。目前可用于密码子优化的软件和算法包括DNAWorks、Jcat、Synthetic gene designer、GeneDesign 2.0、OPTIMIZER、Eugene、mRNA Optimizer、COOL、D-Tailor、UpGene、GASCO、Codon Harmonization、QPSO、GeMS和ATGME(Evelina Angov,Biotechnology Journal,2011；Nathan Gould et al.,Frontiers in Bioengineering and Biotechnology,2014)。

相较于密码子优化算法中已经被使用的启发式算法(比如粒子群和遗传算法)，免疫算法具有其独特优势。免疫算法是基于生物免疫机制提出的一种改进的遗传算法，它将实际求解问题的目标函数对应为抗原，而问题的解对应为抗体。由生物免疫原理可知，生物免疫系统对入侵生命体的抗原通过细胞的分裂和分化作用，自动产生相应的抗体来抵御，这一过程被称为免疫应答。在免疫应答过程中，部分抗体作为记忆细胞保存下来，当同类抗原再次侵入时，记忆细胞被激活并迅速产生大量抗体，使再次应答比初次应答更快更强烈，体现了免疫系统的记忆功能.抗体与抗原结合后，会通过一系列的反应而破坏抗原.同时，抗体与抗体之间也相互促进和抑制，以维持抗体的多样性及免疫平衡，这种平衡是根据浓度机制进行的，即抗体的浓度越高，则越受抑制；浓度越低，则越受促进，体现了免疫系统的自我调节功能。

发明内容

本发明的目的是针对现有的密码子优化方法存在周期过长，表达准确性较差的问题，发明一种能在有限的时间内有效的完成对密码子优化空间的大规模搜索，即从蛋白编码序列集中筛选出最高效表达的DNA序列的基于免疫算法的密码子优化方法。

本发明的技术方案是：

一种基于免疫算法的密码子优化方法,先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化，再用穷举法对序列进行微调优化，从而最大限度的搜索到最优表达序列。

具体而言，本发明的方法包括以下三个步骤：；第一步是局部优化，即将蛋白质序列切割成无重叠的序列片段A ₁、A ₂……A _n，然后利用免疫算法，对每个序列片段完成密码子优化，生成近似最优DNA序列集B ₁、B ₂……B _n；第二步是全局优化，即利用遗传算法，基于B ₁、B ₂……B _n初始化蛋白质全长的DNA编码序列，筛选出蛋白质序列最优DNA序列C ₁；第三步是微调优化，包括对编码蛋白质N端区域所对应的DNA序列5’端进行穷举法优化，生成DNA序列C ₂，并消除表达抑制性模序，最终生成最优表达序列D。

所述的蛋白质是指由二十个以上的氨基酸组成化合物。在定位上包括分泌蛋白、膜蛋白、胞质蛋白、细胞核内蛋白等；在功能上包含抗体蛋白、调节蛋白、结构蛋白等；在来源上包含同源表达蛋白和异源表达蛋白；在序列上包含天然蛋白和人工改造后的蛋白，完整的蛋白/抗体和截断的部分蛋白/抗体，以及2个或2个以上蛋白之间、蛋白与肽链之间形成的融合蛋白。本发明中所定义的抗体包括但不限于完整的抗体和Fab、ScFV、SdAb、嵌合抗体(Chimeric antibody)、双特异性抗体(bispecific antibody)、Fc融合蛋白等等。

所述的免疫遗传算法采用多目标优化方法对蛋白质片段进行局部优化，群体的初始化基于高表达蛋白编码序列的二联密码子表，直接采用同义密码子对每个基因进行编码；优化过程中通过计算免疫遗传算法的抗体信息熵、抗体群体相似度、抗体浓度和聚合适应度以及更新记忆单元来保证抗体多样性并防止群体退化现象，从而增加算法的全局搜索能力。

所述的遗传算法采用多目标优化方法用来对蛋白质全序进行全局优化，初始化群体基于局部优化的优化后片段随机生成，直接采用每个蛋白质片段的优化序列集对每个基因进行编码。

所述的微调优化利用穷举法对DNA序列5’端的折叠自由能MFE、Codon Context和CAI进行计算和排序，并根据排序结果选择最佳的蛋白序列N端编码序列。

所述的密码子优化方法至少适用于以下的宿主表达系统：1)哺乳动物表达系统；2)昆虫表达系统；3)酵母表达系统；4)大肠杆菌表达系统；5)枯草芽孢杆菌表达系统；6)植物表达系统和7)无细胞表达系统。

所述的密码子优化方法至少适用于以下表达载体:瞬时表达载体和稳定表达载体、病毒表达载体和非病毒表达载体、诱导和非诱导表达载体。

本发明的有益效果是：

免疫算法是一种遗传算法的改进型算法，鉴于免疫算法在优化中防止过早局部收敛的优势，本发明第一次引入免疫算法进行密码子优化进行局部优化，并通过随后的遗传算法进行全局优化，以及最后的微调优化，开发了一种全新的结合了不同算法优势的三步杂合优化算法；更通过下文的实例测试证明该算法进行密码子优化的高效性。

本发明的免疫算法与遗传算法相比，具有如下特点：首先它具有免疫记忆功能，该功能可以加快搜索速度，提高遗传算法的总体搜索能力；其次它具有抗体的多样性保持功能，利用该功能可以提高遗传算法的局部搜索能力；最后它具有自我调节功能，这种功能可用于提高遗传算法的全局搜索能力，避免陷入局部解。所以免疫遗传算法既保留了遗传算法随机全局并行搜索的特点，又在相当大程度上避免未成熟收敛，确保快速收敛于全局最优解。本第一次结合利用免疫算法与遗传算法的准确度和效率的优势，通过分步流程(依次分别是局部优化、全局优化、微调优化)进行密码子优化，并通过实例测试证明该算法进行密码子优化的高效性。

本发明具有速度快，效率高的优点。

附图说明

图1是本发明的优化算法流程示意图。

图2是本发明的免疫算法流程示意图(即局部优化流程)。

图3是本发明的遗传算法流程(即全局优化流程)。

图4是本发明的DNA序列5’端优化流程。

图5是本发明的测试蛋白基因序列设计示意图。

图6是本发明的pTT表达载体图谱。

图7是本发明的Western Blotting结果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1-7所示。

一种基于免疫算法的密码子优化方法,它先后使用免疫算法和遗传算法分别对蛋白质编码序列(SEQ ID NO.3和SEQ ID NO.4)进行局部多目标优化和全局多目标优化，再用穷举法对序列进行微调优化，从而最大限度的搜索到最优表达序列(SEQ ID NO.5和SEQ ID NO.6)，如图1所示。其中：

一、免疫算法(即局部优化，流程见图2)。

该步骤的优化变量个数L为2，即对每个片段优化Codon Context和CAI这两个特征(具体描述见下文)，属于多目标优化。假设免疫系统由N个抗体组成(即群体规模为N)，每个抗体基因长度为M(等同于蛋白质序列的氨基酸个数M)，直接采用同义密码子对每个基因进行编码。

(1)根据不同宿主表达系统的基础数据集(即高表达蛋白的编码序列)计算密码子频率表和二联密码子频率表，供生成序列和计算codon context和CAI使用。

(2)初次应答时，初始抗体根据二联密码子频率产生。具体以蛋白质序列a ₁a ₂…a _m为例，假设a ₁的同义密码子是c ₁₁和c ₁₂，a ₂的同义密码子是c ₂₁、c ₂₂和c ₂₃。首个氨基酸a ₁的密码子根据密码子频率表中c ₁₁和c ₁₂的频率选取。二联氨基酸a ₁a ₂对应的二联密码子为c ₁₁c ₂₁、c ₁₁c ₂₂、c ₁₁c ₂₃、c ₁₂c ₂₁、c ₁₂c ₂₂和c ₁₂c ₂₃，其中二联同义密码子有两组，包括[c ₁₁c ₂₁、c ₁₁c ₂₂、c ₁₁c ₂₃]和[c ₁₂c ₂₁、c ₁₂c ₂₂、c ₁₂c ₂₃]。假设a ₁选取的密码子为C ₁₁，则氨基酸a ₂的密码子根据c ₁₁c ₂₁、c ₁₁c ₂₂和c ₁₁c ₂₃的频率从c ₂₁、c ₂₂和c ₂₃中选择一个。如果a ₁选取的密码子是C ₁₂，则根据c ₁₂c ₂₁、c ₁₂c ₂₂和c ₁₂c ₂₃的频率选择氨基酸a ₂的密码子c ₂₁、c ₂₂和c ₂₃中的一个。简言之，除第一个氨基酸直接根据密码子频率表选取密码子以外，其他氨基酸的密码子的选取都与它的上一个氨基酸的密码子的选取有关，并由它们的二联同义密码子的频率决定。

(3)非初次应答时，群体由父代个体和记忆单元中存储的K个抗体组成，记忆单元抗体记录有优化历史中出现过的K个最佳抗体，其中适应度低的抗体在优化过程中逐步被更高适应度的个体替代。

(4)计算抗体的适应度F(包括F _[codon _Context]和F _[CAI])，根据多目标优化选择N个子代个体并对新群体完成交叉和变异操作。这里的变异是随机突变密码子。

(5)计算抗体群体相似度S

本发明利用Shannon的平均信息熵H(N)来度量群体相似度S。

首先P _ij为同义密码子i出现在氨基酸j上的概率，即：

其中N _ij为群体所有个体的第j个氨基酸位置上其同义密码子i出现的总个数。则Hj(N)为第j个基因(即蛋白序列的第j个氨基酸)的信息熵，定义为：

整个群体的平均信息熵为：

群体相似度S的定义为：

(6)随着优化的进行，群体中抗体的相似度不断提高，为了避免抗体的同质性，提高抗体的多样度，从而提高全局搜索能力，防止未成熟收敛，当群体相似度S大于阈值S ₀时，模仿免疫系统细胞的新陈代谢功能，产生P个新抗体，生成过程同上述(2)，使抗体总数达到P+N。如果群体相似度S小于阈值S ₀则群体继续直接进入下一代进化，并更新记忆单元。

(7)当S>S ₀时，对抗体群体P+N计算抗体浓度和聚合适应度。其中抗体浓度是指每个抗体在群体中与其相似抗体所占的百分比，即：

其中Ai指与抗体i相似度大于相似度常数λ的抗体个数。λ指两个个体比较时在M个密码子中相同的密码子的个数。

聚合适应度F’是依据抗体浓度对抗体适应度F进行修正后的值,即：

根据聚合适应度选取子代群体，更新记忆单元，并进入下一轮优化，由于我们同时考虑了codon context和CAI两个序列特征，所以F’ _[codon _context]基于F _[codon _context]计算，F’ _[CAI]基于F _[CAI]计算。如果达到终止代数则停止进化，并输出单个蛋白片段的优化序列集。

二、遗传算法(即全局优化，流程见图3)。

基于免疫算法优化生成的所有蛋白片段的优化序列集，随机生成初始化群体N，根据遗传算法的流程，完成适应度计算、子代群体的选取、交叉、变异和记忆体更新，到达终止代数则停止进化，并输出蛋白全序的最优DNA编码序列，整个流程属于多目标优化。优化过程中我们直接采用每个蛋白质片段的优化序列集对每个基因进行编码。

三、微调优化。

微调优化包括两步，首先是对DNA 5’端进行优化，然后消除表达抑制性模序。其中DNA 5’端的优化过程如图四，使用穷举法列举出蛋白N端氨基酸序列(8-15个氨基酸)所有可能的DNA编码序列，并计算它们的codon context和CAI，然后将蛋白序列起始密码子上游的载体序列50bp(默认值为50bp，长度可选范围0～50bp)与其依序连接，并利用mfold软件计算连接后的序列的折叠自由能(minimum free energy，MFE)。根据折叠自由能(值越大越好)、codon context(值越大越好)和CAI(值越大越好)对信号肽的编码序列进行排序，选择出最佳5’端序列。

四、上述流程相关细节

(1)基础数据集及二联密码子表生成

基础数据集是指不同宿主表达系统中高表达蛋白及其所对应的DNA编码序列。二联密码子表是指基础数据集的所有二联密码子相对适应度(计算方法见下文)。

(2)codon context和CAI的计算流程

a)密码子相对适应度w _ij：

其中x _ij表示基础数据集中第i种氨基酸的第j个同义密码子的出现个数，x _imax表示基础数据集中第i种氨基酸使用频率最高的同义密码子出现的个数。

b)目标序列的密码子适应指数(Codon Adaptation Index，CAI)：

其中L指目标序列(即蛋白质序列或片段)的氨基酸个数，w _k为每个氨基酸密码子使用的密码子对应的基础数据集的密码子相对适应度。CAI的值介于0到1之间。优化过程中我们尽量提高编码DNA的CAI的值。

c)二联密码子相对适应度p _k：

其中二联密码子有3721种(61×61＝3721，不考虑终止密码子)，

表示第k种二联密码子在蛋白序列基础数据集或目标序列(即蛋白质序列或片段)中出现的个数，

表示表示该二联密码子对应的二联氨基酸出现的个数。

d)目标序列的二联密码子适应指数(Codon Context，CC)：

其中

表示目标序列的第k种二联密码子的相对适应度，

表示基础数据集的第k种二联密码子的相对适应度。CC的值介于0到1之间。优化过程中我们尽量提高编码DNA的CC的值。

(3)免疫算法和遗传算法的多目标优化过程中子代群体选择可使用NSGA2和SPEA2算法(默认使用NSGA2)，交叉使用两点交叉。

以下通过一个实例进一步说明本发明的优点：

测试例使用的宿主表达系统是CHO细胞系，一共优化测序了两个蛋白质(相关信息见表一)。JNK3蛋白序列如SEQ ID NO.1所示,GFP蛋白序列如SEQ ID NO.2所示；优化前JNK3蛋白和GFP蛋白编码序列分别如SEQ ID NO.3和SEQ ID NO.4所示,优化后JNK3蛋白和GFP蛋白编码序列分别如SEQ ID NO.5和SEQ ID NO.6所示。

表一：优化测试蛋白序列信息

按照图5所示，合成编码测试蛋白的基因片段，并通过EcoR I和Hind III酶切位点将其分别克隆到pTT5表达载体(购买自NRC，质粒图谱如图6所示)。

CHO 3E7细胞瞬转表达步骤：

1、将处于对数生长期的CHO 3E7悬浮细胞用新鲜的FreeStyle CHO培养基稀释到5X10 ⁵个细胞/mL，每个125mL三角摇瓶中接种30mL细胞悬液。

2、将细胞在37℃ 5％CO ₂条件下进行悬浮培养。

3、当细胞密度达到1-1.2X10 ⁶个/mL时，通过PEI转染试剂将克隆有目的基因的质粒载体按照1ug/ml的用量分别转染CHO 3E7细胞。

4、转染48小时后，将培养基经1500转/min离心，收获细胞。样品可于-80℃冰箱内保存。

Western Blot实验步骤：

利用抗Flag tag抗体，通过Western Blotting检测细胞裂解液中目标蛋白的表达量，beta-actin蛋白作为内参，每个质粒的表达实验重复三次，Western Blotting结果见图7。

详细步骤如下。

1、使用细胞裂解液裂解CHO细胞，对蛋白浓度进行测定。

2、向蛋白溶液中加入5X SDS-PAGE蛋白上样缓冲液，沸水浴加热10分钟。

3、用微量移液器将蛋白样品加入SDS-PAGE胶加样孔内，每孔上样20ul。

4、使用140V恒压电泳60分钟，溴酚蓝到达胶的底端处附近即可停止电泳。

5、转膜电压为100V，低温转膜时间为60分钟。

6、转膜完毕后把蛋白膜放置到预先准备好的洗涤液中，漂洗1-2分钟洗去膜上的转膜液。

7、摇床上缓慢摇动室温封闭45分钟。

8、加入稀释好的一抗,室温缓慢摇动孵育一小时。

9、加入洗涤液,在摇床上缓慢摇动洗涤5分钟，共洗涤3次。

10、加入稀释好的二抗,室温缓慢摇动孵育一小时。

11、加入洗涤液,在摇床上缓慢摇动洗涤5分钟，共洗涤3次。

12、化学发光检测。

13、使用Image J软件对Western Blotting结果图片进行定量分析。

表二：优化前后蛋白相对表达量(经Western Blotting检测)

*相对表达量：蛋白表达量除以野生型序列三次重复实验中表达量的最小值

由表二可见，JNK3和GFP蛋白经过本专利的三步杂合密码子优化后，表达量分别较野生型序列提升7.42±0.58倍和18.37±2.90倍，充分证明新算法的高效性。在公司的实际生产中，我们也比较测试了该算法与其他算法对多个蛋白的优化效果，同样证明该算法更加稳定高效。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

一种基于免疫算法的密码子优化方法,其特征在于先后使用免疫算法和遗传算法分别对蛋白质编码序列进行局部多目标优化和全局多目标优化，再用穷举法对序列进行微调优化，从而最大限度的搜索到最优表达序列。
根据权利要求1所述的优化方法，其特征是它包括以下三个步骤：；第一步是局部优化，即将蛋白质序列切割成无重叠的序列片段A ₁、A ₂……A _n，然后利用免疫算法，对每个序列片段完成密码子优化，生成近似最优DNA序列集B ₁、B ₂……B _n；第二步是全局优化，即利用遗传算法，基于B ₁、B ₂……B _n初始化蛋白质全长的DNA编码序列，筛选出蛋白质序列最优DNA序列C ₁；第三步是微调优化，包括对编码蛋白质N端区域所对应的DNA序列5’端进行穷举法优化，生成DNA序列C ₂，并消除表达抑制性模序，最终生成最优表达序列D。
根据权利要求1或2所述的优化方法，其特征是所述的蛋白质是指由二十个以上的氨基酸组成化合物。在定位上包括分泌蛋白、膜蛋白、胞质蛋白、细胞核内蛋白等；在功能上包含抗体蛋白、调节蛋白、结构蛋白等；在来源上包含同源表达蛋白和异源表达蛋白；在序列上包含天然蛋白和人工改造后的蛋白，完整的蛋白/抗体和截断的部分蛋白/抗体，以及2个或2个以上蛋白之间、蛋白与肽链之间形成的融合蛋白。本发明中所定义的抗体包括但不限于完整的抗体和Fab、ScFV、SdAb、嵌合抗体、双特异性抗体、Fc融合蛋白等等。
根据权利要求1或2所述的优化方法，其特征是所述的免疫遗传算法采用多目标优化方法对蛋白质片段进行局部优化，群体的初始化基于高表达蛋白编码序列的二联密码子表，直接采用同义密码子对每个基因进行编码；优化过程中通过计算免疫遗传算法的抗体信息熵、抗体群体相似度、抗体浓度和聚合适应度以及更新记忆单元来保证抗体多样性并防止群体退化现象，从而增加算法的全局搜索能力。
根据权利要求1或2所述的优化方法，其特征是所述的遗传算法采用多目标优化方法用来对蛋白质全序进行全局优化，初始化群体基于局部优化的优化后片段随机生成，直接采用每个蛋白质片段的优化序列集对每个基因进行编码。
根据权利要求1或2所述的优化方法，其特征是所述的微调优化利用穷举法对DNA序列5’端的折叠自由能MFE、Codon Context和CAI进行计算和排序，并根据排序结果选择最佳的蛋白序列N端编码序列。
根据权利要求1或2所述的优化方法，其特征是所述的密码子优化方法至少适用于以下的宿主表达系统：1)哺乳动物表达系统；2)昆虫表达系统；3)酵母表达系统；4)大肠杆菌表达系统；5)枯草芽孢杆菌表达系统；6)植物表达系统和7)无细胞表达系统。
根据权利要求1或2所述的优化方法，其特征是所述的密码子优化方法至少适用于以下表达载体:瞬时表达载体和稳定表达载体、病毒表达载体和非病毒表达载体、诱导和非诱导表达载体。