人工智能的飞速发展为生物学研究带来了深远影响,其中,AlphaFold2在蛋白质结构预测领域引发了革命性的突破。本文评估了AlphaFold2对GPCR结构预测的可靠性,发现其虽能准确捕捉GPCR整体骨架的主要特征,但在胞外域与跨膜域的组装、配体结合口袋的形状以及信号传导界面的构象等方面,与实验解析的高分辨率结构存在显著差异。这些差异限制了其在GPCR功能研究和基于结构的药物设计中的应用能力。因此,AI结构预测尚不能完全取代实验结构生物学,需要联合使用以辅助药理学研究和药物设计。
01AlphaFold与结构生物学近年来,人工智能(artificial intelligence,AI)以惊人的速度发展,改变了我们生活和科学研究的许多方面。2024年诺贝尔物理学奖和化学奖双双花落“AI”领域,物理学奖突出“科学如何应用于AI,改变AI”,而化学奖突出“AI如何改变科学和人们的认知”。本文将探讨获得2024年诺贝尔化学奖的蛋白质结构预测工具AlphaFold和传统的结构生物学方法的对比。
AlphaFold是由DeepMind开发的AI模型,能够根据蛋白质的氨基酸序列预测其三维结构。蛋白质就像是生命体内的小机器,它们的结构决定了功能。了解蛋白质的结构对于药物研发和理解生命过程非常重要。AlphaFold的出现,让人们看到了快速预测蛋白质结构的可能性。
截至目前,AlphaFold的3个主要版本分别是AlphaFold1、AlphaFold2和AlphaFold3,各自代表了从基础探索,到高精度预测和复合体建模的逐步演进(表1)。
表1 3代AlphaFold的核心差异对比
传统上,结构生物学使用实验手段来解析蛋白质的三维结构,主要的方法有以下几种:
X射线晶体学:是最早且最常用的方法。研究者需要首先让蛋白质形成晶体,然后用X射线照射这些晶体,得到衍射图样。通过解析这些图样计算出蛋白质的三维结构。但这一过程非常复杂,需要大量的时间和精力,尤其是培养出合适的蛋白质晶体并不容易,并且某些蛋白质无法在任何条件下结晶,这限制了晶体学对蛋白结构的研究。
核磁共振(NMR):这种方法利用了原子核在磁场中的特性。研究者将蛋白质溶解在溶液中,放入强大的磁场中,然后测量原子核的信号。通过这些信号,可以推断出蛋白质的结构和动态信息。但NMR适用于研究小型蛋白质,对于分子量较大的蛋白复合体并不适用。
冷冻电子显微学(Cryo-EM):这是近年来迅速发展的技术,将蛋白质快速冷冻保持天然状态,在电子显微镜下观察。总体上精度不如晶体学研究,仅部分结构达到近原子分辨率。适合研究大型蛋白质复合物,不过设备昂贵,操作要求高。
这些传统方法虽精确可靠,但过程繁琐、耗时耗力,需要丰富经验和技术支持。AlphaFold出现后,有人思考传统实验方法是否还有必要。实际上,AlphaFold存在局限性,如对蛋白质动态变化预测能力有限,预测复合物结构仍面临挑战,其预测结果常需实验确认。
笔者对比了AlphaFold预测的G蛋白偶联受体(GPCR)结构与实验解析结果,发现AI预测虽有一定准确性,但关键细节存在差异,会影响药物设计和功能研究。AlphaFold是重要工具,但不能完全取代传统结构生物学方法,实验验证依旧是理解生命奥秘的关键。
02GPCR的奥秘与AlphaFold2GPCR,是一种通过G蛋白传导信号的受体,广泛表达于细胞膜表面,负责将胞外信号传递到细胞内部。人类能看到东西、闻到味道,甚至感受到情绪波动,如开心和难过,GPCR都在其中扮演着关键角色。正因如此,它成为了现代药物设计中最重要的靶点之一,食品药品监督管理局(FDA)批准药物中约有三分之一都作用于GPCR,其年销售额甚至超过1万亿美元。
尽管GPCR的重要性不言而喻,但由于其高度复杂的结构和在激活时产生的显著动态变化(图1),解析GPCR的高分辨率结构一直是生物学上的重大挑战。传统的X射线晶体学技术和近年来兴起的Cryo-EM技术虽然取得了一些突破,但获得高分辨率的GPCR结构仍然是一个耗时且成本高昂的过程。这一技术瓶颈限制了我们对GPCR功能的深入理解,也在新药开发中形成了障碍。
图1 GPCR的激活机制,红圈表示激活过程中发生主要变化的跨膜螺旋6
AlphaFold2为GPCR结构预测带来突破,在蛋白质结构预测竞赛中表现出色,预测效果接近实验精度,为GPCR相关研究提供了有力工具。但它在取代传统结构生物学方法方面仍存在局限。本文选取了AlphaFold2发表后的29个GPCR结构,使用AlphaFold2折叠了它们的预测模型,并进行了和实验结构的比较和评测。由于这些蛋白不在训练集中,这排除了AlphaFold2预测时参考训练集数据的可能。
03整体结构区别:AlpahFold2是个好导航,但可以更好在细胞生物学的世界里,蛋白质就像一台复杂的机器,GPCR则像传递外界信号的特工,AlphaFold2则是高科技的导航系统,能够预测这些特工的“路线”。GPCR由7段跨膜螺旋组成,AlphaFold2在捕捉其整体布局上表现不错,评测的蛋白整体均方根偏差(RMSD)为1.64Å,体现出较高精确度。
不过,当GPCR带上大型细胞外结构(ECD)时,AlphaFold2的预测误差通常会增大。因为ECD和跨膜区域(TMD)之间的相对位置预测不够准确,如结合了semaglutide的胰高血糖素样肽-1受体(GLP1R),整体误差达3.92Å。在甲状旁腺激素2受体(PTH2R)和激活态的黄体生成素/绒毛膜促性腺激素受体(LHCGR)中,也出现整体RMSD大于分开计算的RMSD的情况。对于在训练集中不常见的失活态LHCGR,整体RMSD竟然达到了6.08Å,差异极大(见图2)。
图2 具有大型胞外结构域的预测模型和实际结构对比,提供了分开对齐和整体对齐的RMSD
04关键药物作用位点:AlphaFold2无法指引重要路口的方向GPCR类似繁忙的城市中心,小分子药物像寻找关键交汇点(正构位点)的游客。准确了解正构位点结构对基于结构的药物设计和功能研究至关重要。
本文评估的29个GPCR结构中有4个是与小分子配体结合的受体。结果显示,AlphaFold2预测的GPCR主链结构与实验数据相似(平均主链RMSD仅为0.89Å),但关键残基侧链差异显著,侧链RMSD高达1.90Å,整体原子RMSD为1.52Å。使用基于AlphaFold2预测结构的分子对接评估发现,大部分对接不能重现结果(见图3)。
图3 AlphaFold2预测模型和电镜结构在小分子配体口袋上的对比
例如在5-羟色胺1F受体(5HT1FR)案例中,AlphaFold2预测的侧链排列出现偏差,阻碍了三氟苯环与H176ECL2的相互作用,导致分子对接生成的小分子结合姿态与实验结构差异大,RMSD达到7.15Å。在褪黑素受体1A(MT1R)案例中,F1965.47侧链向外“偏航”,导致对接后的小分子朝着TM螺旋束中心移动,RMSD为4.79Å。在LHCGR案例中,F515ECL2侧链改变了顶部“交叉口”环境,小分子配体无法成功被对接。虽然在2型辅助T细胞上表达的趋化受体同源分子(CRTH2)案例中,预测模型与实验结构在正构位点高度一致,对接结果也几乎完全吻合,但这种理想情况并非普遍存在。
05TM6-TM7:复杂多变的导航路线,AlphaFold2往往难以把握在GPCR的世界中,TM6和TM7这2段跨膜螺旋就像是细胞信号传递中的关键“交通枢纽”,会根据需要进行动态调整,为重要的下游信号分子(如G蛋白等)提供畅通的“通行路径”。然而,实验结构和预测模型在这些关键“路段”上往往存在显著差异,AlphaFold2在预测这些变化时也确实面临挑战,相关结果在图4中展示。
图4 AlphaFold2预测模型和电镜结构在胞外关键激活螺旋上的对比
研究发现,有些GPCR在预测模型中的TM6-TM7构象与实验结果有较大出入,误差超过了2Å。例如,在ghrelin受体和抗利尿激素受体(V2R)的“地图”中,这些关键“路段”的偏差分别达到了3.08Å和2.83Å。在GLP1R和PTH2R的模型中,TM6和TM7被预测为“向上抬升”,影响小分子无法正确“到达”结合位点。
同样地,细胞内区域的情况也值得关注(图5)。通过测量TM6的开启程度,我们可以了解这些GPCR在细胞内侧为蛋白结合伙伴预留的“通行空间”有多大。有趣的是,不同类型的GPCR在预测模型中预留的“空间”差异明显。对于没有结合G蛋白的A类GPCR,预测结构中预留的“空间”比实验结构更多。而对于已经结合了G蛋白的A类GPCR,预测结构中预留的“空间”却更少。B1类GPCR的预测模型与实验结构几乎一致,可能是训练数据中激活态B类GPCR结构较多。此外,某些A类GPCR的胞内环区3(ICL3)在预测模型中与实验结构差异大,如5HT1FR和胆囊收缩素受体1(CCKAR)。
图5 AlphaFold2预测模型和电镜结构在胞内关键激活螺旋(TM6)上的对比
06蛋白结构预测的误差:为什么AlphaFold2有时会“迷路”?AlphaFold2预测GPCR结构时,在某些关键区域会出现误差。如在GLP1R案例中,预测的ECD-TMD结构阻碍了肽的结合,可能是训练过程中缺乏配体信息,无法准确重现有利于肽结合的特定ECD-TMD构象。
预测与小分子结合的GPCR结构时,虽主链预测准确度约1Å左右,但预测与配体相互作用的“结合口袋”结构时仍面临挑战。更糟糕的是,在LHCGR案例中,预测模型甚至未形成适合小分子对接的“停靠点”。
对于TM6螺旋的预测,AlphaFold2似乎倾向于产生一种介于激活态和非激活态之间的“平均”构象。此外,ICL3区域的预测也常常出现过长的螺旋结构,而在实验结构中,这些区域通常是灵活多变的。这可能是因为AlphaFold2从包含骨限制性干扰素诱导跨膜蛋白样(BRIL)融合蛋白的非天然GPCR结构中学习,导致了偏差。
07结论通过这些例子,我们认识了AlphaFold2在GPCR结构预测中的局限性,作为从提出到获得诺贝尔奖的最快例子之一,AlphaFold2为研究领域带来了革命性的变化,但仍不能忽视其潜在的问题。在未来的研究中,科学家们需要谨慎地使用这些预测模型,结合实验结构生物学的方法,进行配体结合位点和激活机制的相关验证,以为真实的药物设计提供参考。AlphaFold2为我们提供了探索蛋白质结构奥秘的工具,但同时也提醒我们,在拥抱新技术的同时,仍需脚踏实地,通过实验发现真实蛋白构象,共同绘制出更精确的蛋白质“路线图”。
本文作者:何欣恒,李俊睿,徐华强作者简介:何欣恒,中国科学院上海药物研究所,博士研究生,研究方向为计算生物学和结构生物学;徐华强(通信作者),中国科学院上海药物研究所,研究员,研究方向为核激素受体、肝脏生长因子(HGF)及其受体Met酪氨酸激酶、GPCR和植物激素等的结构和药物研发。
论文全文发表于《科技导报》2025年第2期,本文有删减