01
并非口出狂言
“如果用AI制药可行,那么人类将在未来10-20年内治愈大部分疾病。”这是今年诺贝尔化学奖得主,同时也是Google旗下DeepMind的创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)的大胆预测。本来还觉得这太过理想化,但了解他的事业之后笔者就明白了,没有人比他更适合说这句话。
哈萨比斯(左)和同事约翰·江珀(右)
哈萨比斯和同事约翰·江珀(John Jumper)今年共同获得了一半的诺奖化学奖,他们之前最广为人知的成就,是研发出AlphaGo这个横扫围棋界的AI天才。而在DeepMind团队庆祝AlphaGo获胜之时,哈萨比斯决定开始推进把AI用于现实世界挑战,比如解决类似蛋白质结构预测这样的科学难题。之后将会掀起生物学革命的“AlphaFold”应运而生。
“Fold”其实就是折叠的意思,指的是人体内的蛋白质。一个人的细胞中含有上百万种的不同蛋白质,它们具有无数的重要功能:例如以酵素(酶)的型式存在的化学反应催化剂、以荷尔蒙的型式存在的讯息传导物质,在免疫的防御上扮演重要角色以及负责细胞的型态和结构等等。
蛋白质最初在细胞内生成时,是一条有多个氨基酸分子串成的长链,也称为“蛋白质序列”或“蛋白质一级结构”;之后会在极短时间像揉皱的卫生纸般卷曲折叠,成为特定的立体形状。
而AlphaFold就是要用AI深度学习的技术,来预测任何一个蛋白质序列折叠起来会成什么样的三维立体构造。
一级结构会决定蛋白质的立体结构
现在最新版本的AlphaFold 3不仅可以预测蛋白质的立体结构,还能预测各种生物分子,如DNA、RNA和其他化学分子的结构,以及它们怎样和蛋白质相结合,新药物研发的重点这不就来了。
这里要讲一下蛋白质一级结构和三维结构的关系,先说结论:蛋白质的一级结构决定其立体结构。
20世纪中期,克里斯蒂安·安芬森(Christian Anfinsen)通过改变蛋白质所在的环境,让蛋白质的立体结构摊开成一级结构,他发现这些一级结构在环境回到原本状态时,会立刻折叠成原本的立体结构,经反覆实验,发现同一个简单结构只会折叠成一种立体结构。
他的发现意味着,只要有一条简单的氨基酸序列,就能够预测最终蛋白质的立体结构,并得知该蛋白质具有的功能。但这个过程难就难在,没人知道简单的一级结构是怎么折叠成立体三维结构的,这个机制至今都还是个谜。
AlphaFold也没解释或者说去费劲理解这个折叠机制,它的做法是从已知的17万种蛋白质三维结构中去学习哪些氨基酸和哪些分子基团会靠在一起,以及用什么角度、什么距离靠在一起。其实这就像把大量的棋谱丢给机器,从而训练出会下围棋的AI——这刚好是DeepMind擅长的工作。
DeepMind还做了件好事,就是将其成果的源代码和数据库免费向全球科学家开放,这一点也帮助了同行的快速进步。根据CASP(蛋白质结构预测技术的关键测试)大赛上的表现,AlphaFold 2根据输入的一维序列数据就能预测出蛋白质的三维结构,其准确率已经高于九成,这和人类用冷冻电镜测出的蛋白质结构准确度仅差几个分子。现在这个蛋白质数据库中有大概2亿种蛋白质数据,都是AlphaFold预测的,可信度能有94%。
02
谁是“村里最好的厨子”
新药研发领域的新工具不止DeepMind所推出的AlphaFold,和上述两位获奖者平分诺贝尔化学奖的美国科学家大卫·贝克尔(David Baker)干的事还要厉害些:ALphaFold能计算一维蛋白质序列到三维构造的“正向/顺向预测”,而贝克尔开发的工具可以说是“逆向预测”。
什么叫“逆向预测”?如前所述,每个蛋白质都有自己的功能,那如果我想要一个具备某个特定功能的蛋白质,能直接逆推出它的氨基酸分子序列吗?贝克尔设计的RF diffusion(射频扩散)模型不仅能逆推出它的氨基酸分子序列,还能继续设计出一段DNA(相当于我们的细胞说明书)或mRNA,进而量产出这种具有特定功能的蛋白质。
打个比方,这就像一位非常厉害、有经验的主厨,你只要跟它描述一下某道菜的味道,它就知道这道菜是什么,然后再把食谱巨细无遗地写出来给你,方便你自己回去做着吃。
想做新药也是一个道理。想研发出治疗癌症的药物,就要设计出精准锁定相应癌细胞的抗体,也就是专一杀死细菌和病毒的蛋白质药品,贝克尔这种逆向工具就可以派上用场,用它来设计一个自然界原来不存在的蛋白质是最合适不过的,且会让新药研发的时间大大缩短。
贝克尔最开始就是学生物的,在2000年左右跨界到了计算机领域。在AlphaFold出现以前,他和团队推出的“Rosetta”可是学术界用AI预测蛋白质的主流算法模型,同时也是CASP竞赛的“常胜将军”。
蛋白质的结构变化机制始终是个谜,图中亮度标识即为蛋白质立体结构
简单介绍Rosetta的运作原理。这款算法是从生物能量的观点出发,也就是分子内部原子间的拒斥力、吸引力、静电力等物理量,模拟出它们的复杂相互作用,从而实现不需模板、从零开始的蛋白质结构预测,并构建出它们的3D构型。
读者只需要记住,如果它的能量很高,也就是某种力很强,那蛋白质的结构一定不稳定,会自发改变构型,直到成为能量相对低的稳定结构。
当然不能硬算,光是一个有100个氨基酸的蛋白质,就算是一台1秒钟可以计算1兆种可能结构的计算机,要想计算出所有折叠结构的能量都需要天文数字般的时间。为了突破这一工作量瓶颈,贝克尔团队引入多序列比对(multiple sequence alignment, MSA),也就是“凑答案”的方法。
先将氨基酸链跟其他已知的蛋白质序列互相比对,找出全部或局部相似到一定程度的蛋白质,并且标记出每个蛋白质的氨基酸之间彼此的对应关系。这就是所谓的MSA。
这个Rosetta虽然一直在改进,但也是直到AlphaFold横空出世,Rosetta才有了质的飞跃,进化出RoseTTAFold以及之后的RF diffusion版本。
RoseTTAFold这个模型已经镜鉴AlphaFold的部分演算法,并打造出自己独有的“三轨神经网络”。“三轨”即MSA、氨基酸彼此间的距离以及原子间的相对空间坐标位置,三管齐下一起训练AI。
这两年赶上AI应用大爆发,涌现出DALL-E、Midjourney等一批AI生图工具,贝克尔团队又得到启发,直接把RoseTTAFold串联上强大的扩散模型“diffusion model”,短时间内就能生成大量原子坐标,涵盖多种可能的三维构造。
最重要的是,RF diffusion已经能通过关键字来命令AI,从想要什么功能的蛋白质一路逆推回该合成什么氨基酸序列。至此,读者也能发现走到这一步有多么不容易了,那这么厉害的技术用到原研药行业了吗?
03
被看到的潜力
如果要问AI到底有没有设计出新药并且上市的,那很明显还没有,但人造抗体早已诞生。
早在2003年,贝克尔团队就已经设计出一款由93个氨基酸组成的小型蛋白质,被命名为“Top7”,虽然没什么实际生物功能,但至少证明了人造蛋白质是可行的。
Top7示意图
AI现在当然能设计出多种人造抗体,RF diffusion就有几千种抗体,针对感冒也针对引起肠炎的病毒,乃至癌症病毒。但这些人造抗体能不能有效地和目标结构结合在一起?结果是只有百分之一的成功率。
在业内看来,这就是一个里程碑意义的突破。第三方机构预测,AI参与的抗体疗法在未来五年内的价值能达到4450亿美元,如果在加上人造蛋白质的工业用途,那市场规模只会更大。如今,设计具有特定功能的蛋白质的团队是多点开花,迭代进步的速度或许比我们对AI的想象还要惊人。