CellRes|王升启/舒文杰/张军/朱世强团队合作开发零样本突...

小赵的备忘录 2024-07-14 08:08:51

引言

蛋白质序列上的氨基酸突变可导致蛋白质功能发生变化,并与酶失活、遗传疾病和病毒免疫逃逸等生物过程密切相关。精确预测氨基酸突变效应对指导蛋白质设计改造等下游应用具有显著意义。通过探索蛋白质适应度景观并识别潜在有利突变,突变效应预测方法能够解决定向进化和理性设计策略面临的诸多挑战,并可缩短时间周期、降低人力成本、避免对拟改造蛋白结构与功能的先验知识依赖等。然而,由于庞大的突变体空间、复杂的氨基酸相互作用和突变上位效应,突变效应预测和涉及数十点突变的蛋白质设计改造仍然困难重重。2024年7月5日,军事医学研究院生物信息中心王升启、舒文杰研究员团队联合南京医科大学生殖医学与子代健康全国重点实验室张军研究员团队和之江实验室朱世强教授团队在Cell Research杂志在线发表了题为Zero-shot prediction of mutation effects with multimodal deep representation learning guides protein engineering的研究。该研究首次同时以亿级蛋白质序列和结构数据为学习对象,构建了一个多模态蛋白质深度表征学习模型,系统挖掘了蛋白质序列分布知识和空间折叠规律。在此基础上,研究团队开发了一种不依赖多序列比对(MSA-free)和现有实验数据(零样本)的突变效应预测方法,ProMEP (Protein Mutational Effect Predictor),同时利用蛋白质序列和结构上下文精确预测氨基酸突变效应,预测速度比现有最优方法AlphaMissense快2-3个数量级,并在实际指导蛋白质设计改造方面展现了巨大的应用潜力!相比于氨基酸序列,蛋白质三维结构在进化上更为保守,且包含长范围的空间接触信息,对深入理解蛋白质功能尤为关键。为了同时利用蛋白质序列上下文和结构上下文破译氨基酸突变效应,研究团队构建了一个参数量约6.95亿的多模态蛋白质深度表征学习模型。该模型以AlphaFold蛋白质结构数据库中约1.6亿蛋白质为学习对象,系统学习蛋白质序列分布知识和空间折叠规律。此外,为了捕捉原子精度的蛋白质结构信息,研究团队还提出了蛋白质点云作为蛋白质结构的表示方法,并使用旋转平移等变的结构嵌入模块挖掘蛋白质结构的旋转平移不变性特征。在GO注释、EC注释、蛋白质相互作用预测等15个下游功能测试数据集的系统性评估表明,研究团队所开发模型在所有15个数据集上性能均达到最高水准。在多模态深度表征学习模型基础上,研究团队进一步开发了ProMEP突变效应预测模型。ProMEP以野生型蛋白质为输入,同时提取蛋白质序列和蛋白质结构上下文,通过预训练的多模态表征模块计算氨基酸序列每个位置下,20种常见氨基酸的出现概率,并将突变型氨基酸和野生型氨基酸概率差作为突变适应度打分。获取突变适应度打分后,ProMEP可绘制目标蛋白质的适应度景观,并给出适应度打分高的突变体作为候选改造对象。(Credit: Cell Research)为了验证ProMEP的零样本突变效应预测能力,研究团队使用ProteinGym测试基准中涵盖人类、其他真核生物和原核生物共53个蛋白的160万突变体及功能数据进行测试。现有的其他突变效应预测方法作为对比基准,包括MSA依赖的方法(如AlphaMissense和EVE),MSA-free的方法(如ESM2_3B,ESM2_650M, ESM1v 和Tranception)。测试结果表明,ProMEP性能与AlphaMissense相当,并显著优于其他方法。由于ProMEP的MSA-free特性,对长度1000aa的蛋白进行推理速度分析发现,ProMEP仅需0.3秒即可完成预测,是AlphaMissense的~296倍。在长度100aa的蛋白质上,这一速度优势甚至扩大至上千倍。

最后,研究团队以TnpB核酸酶和TadA脱氨酶为改造对象,实际验证ProMEP能否准确识别潜在有利突变,并以此指导蛋白质设计改造。实验结果表明:

(1)针对所验证的Top 10的有利突变和不利突变,ProMEP有利突变预测准确率达50%-70%,不利突变预测准确率100%。

(2)以ProMEP设计的TnpB 五点突变体构建的ABE/CBE碱基编辑器,相比野生型TnpB构建的ABE/CBE编辑器分别实现1.91-26.9、2.17-16.54倍编辑效率提升。

(3)以ProMEP设计的TadA十五点突变体构建的ABE碱基编辑器在A5/A6位置上的A-to-G编辑效率和旁编辑效应与经典的ABE9相当,且脱靶率优于ABE8e。综上所述,该工作创新性的开发了一种基于多模态大模型的突变效应预测方法(ProMEP)。该方法在模型架构、训练数据类型及规模、模型性能和下游应用上均有突破,为破译蛋白质结构与功能密码、探索庞大蛋白质突变空间、预测突变效应并指导蛋白质设计改造提供了全新策略。随着各类蛋白质多样化改造需求不断增加,ProMEP零样本且MSA-free的特性尤为重要,有望显著降低蛋白质设计改造难度和实验成本,为生物学家快速研制高性能酶分子提供有利手段。

参考文献

https://www.nature.com/articles/s41422-024-00989-2

责编|探索君

排版|探索君

文章来源|“BioArt”

End

往期精选

围观

一文读透细胞死亡(Cell Death) | 24年Cell重磅综述(长文收藏版)

热文

Cell | 是什么决定了细胞的大小?

热文

Nature | 2024年值得关注的七项技术

热文

Nature | 自身免疫性疾病能被治愈吗?科学家们终于看到了希望

热文

CRISPR技术进化史 | 24年Cell综述
0 阅读:0