一个人工智能模型创造了一种新的蛋白质,研究人员表示,如果大自然能够产生这样的东西,那么这种蛋白质在自然界中需要 5 亿年才能进化出来。

艺术家对 esmGFP(由 ESM3 产生的新型荧光蛋白)的描绘。 (图片来源:EvolutionaryScale)
根据一项新的研究,人工智能 (AI) 模型模拟了五亿年的分子进化,为以前未知的蛋白质创建了密码。研究人员说,这种发光的蛋白质类似于在水母和珊瑚中发现的蛋白质,可能有助于开发新药。
蛋白质是生命的组成部分之一,在体内执行各种功能,例如锻炼肌肉和对抗疾病。名为 esmGFP 的模拟蛋白质仅以计算机代码形式存在,但包含一种以前未知的绿色荧光蛋白的蓝图。在自然界中,绿色荧光蛋白使荧光水母和珊瑚焕发光彩。
拼写出制造 esmGFP 指令的字母序列与已知最接近的荧光蛋白只有 58% 的相似性,后者是在泡泡尖海葵 (Entacmaea quadricolor) 中发现的一种蛋白质的人类修饰版本——一种五颜六色的海洋生物,看起来像是触手末端有气泡。序列的其余部分是独一无二的,总共需要 96 种不同的基因突变才能进化。根据这项研究,这些变化需要 5 亿多年才能自然进化。
去年,一家名为 EvolutionaryScale 的公司的研究人员在一项预印本研究中公布了 esmGFP 和用于创建它的 AI 模型 ESM3。独立科学家现在已经对这些发现进行了同行评审,这些发现于 1 月 16 日发表在《科学》杂志上。
ESM3 不会在通常的进化限制下设计蛋白质。相反,它是一个问题解决者,填补了研究人员提供的不完整蛋白质代码的空白,并在此过程中根据进化可能采取的所有潜在途径设计了可能存在的东西。
这项新研究建立在 Rives 和他的同事在 2024 年启动 EvolutionaryScale 之前在 Facebook 和 Instagram 的母公司 Meta 开始的研究之上。ESM3 是他们最新版本的生成语言模型,类似于运行 ChatGPT 的 OpenAI 的 GPT-4,但它基于生物学。
蛋白质由称为氨基酸的分子链组成,其序列由基因提供。不同的蛋白质具有不同的氨基酸序列。据 Nature Education 称,它们在结构上也有所不同,每个折叠成独特的形状,使它们能够发挥其功能。为了让 ESM3 理解蛋白质,研究人员将蛋白质主要特性(氨基酸序列、结构和功能)的模型数据以一系列字母的形式提供。
该团队利用自然界中发现的 27.8 亿种蛋白质的数据训练 ESM3。然后,研究人员随机隐藏了蛋白质蓝图的一部分,并让 ESM3 填补空白,以根据它所学到的内容完成代码。
“就像一个人可以填入独白中'to _ or not to _, that's the _”的空白一样,我们可以训练一个语言模型来填补蛋白质中的空白,“Rives 说。“我们的研究表明,通过解决这个简单的任务,有关蛋白质生物学深层结构的信息就会出现在网络中。”
科学家们已经为各种目的修改了天然蛋白质并设计了新的蛋白质。例如,绿色荧光蛋白在研究实验室中被广泛使用。它们的遗传密码通常被添加到其他 DNA 序列的末端,以将它们编码的蛋白质变成绿色。这使科学家能够轻松追踪蛋白质和细胞过程。Rives 指出,ESM3 的功能可以加速蛋白质工程的广泛应用,包括帮助设计新药。
未参与这项研究的英国巴斯大学进化生物学家蒂芙尼·泰勒 (Tiffany Taylor) 于 2024 年为 Live Science 报告了该研究的预印本版本。泰勒在她的分析中写道,像 ESM3 这样的 AI 模型将实现进化无法实现的蛋白质工程创新。然而,她也指出,研究人员声称模拟 5 亿年的进化只集中在单个蛋白质上,并没有解释最终创造生命的自然选择的许多阶段。
泰勒说:“人工智能驱动的蛋白质工程很有趣,但我不禁觉得,我们可能过于自信地假设我们可以智取数百万年自然选择磨练的复杂过程。