引言
蛋白质是生命活动的基石,其功能不仅取决于自身的结构,还深受与其他蛋白质之间相互作用的影响。理解蛋白质相互作用(Protein-Protein Interaction, PPI)对于揭示细胞内的生物过程和疾病的发生机制至关重要。为了更好地阐明蛋白质相互作用网络,研究人员开发了多种实验技术,其中交联质谱(Cross-Linking Mass Spectrometry, XL-MS)因其可以提供高分辨率的结构信息,在蛋白质相互作用研究中发挥了重要作用(10月31日 Nature Methods “Proteome-scale recombinant standards and a robust high-speed search engine to advance cross-linking MS-based interactomics”)。
该研究通过开发一种大规模、复杂的XL-MS标准,解决了以往蛋白质组水平XL-MS分析中缺乏可靠基准的问题。Scout作为新一代XL-MS数据分析工具,充分利用人工神经网络的优势,在灵敏度、特异性和处理速度上均表现出色。这种突破性的进展不仅为蛋白质相互作用的研究提供了强有力的工具,也为XL-MS技术在更广泛的生命科学研究中的应用奠定了坚实的基础。
交联质谱的原理与挑战XL-MS是一种基于共价交联的强大工具,能够通过检测蛋白质之间或蛋白质内部的残基对,解析蛋白质的三维结构及其相互作用。在该技术中,交联剂(Cross-Linker)用于将近距离的氨基酸残基共价连接,这些交联信息通过质谱检测后,可以揭示蛋白质复合体的空间结构。近年来,随着交联剂的不断改进,尤其是MS-可裂解交联剂(MS-cleavable Cross-Linkers)的出现,XL-MS的应用从单个蛋白质和简单复合物扩展至更加复杂的(亚)蛋白质组(Sub-proteome)水平。
交联剂的设计和应用是XL-MS技术中的关键环节。MS-可裂解交联剂的引入极大地提升了数据分析的效率,因为它们能够在质谱过程中被裂解,生成带有特征碎片模式的线性肽段,这些特征模式使得质谱数据的解析更为简单和直观。此外,交联质谱通过减少分析空间的复杂度,使得与全蛋白质组相关的搜索任务能够以线性而非指数级增长的方式处理,从而显著提高了全蛋白质组分析的效率。这些进步使得XL-MS技术在解析复杂生物体系方面具备了更大的潜力,能够从简单的蛋白质复合物扩展到包括整个蛋白质组在内的广泛应用。
然而,XL-MS在复杂样本中的应用面临巨大的数据分析挑战。传统的XL-MS数据分析往往依赖于已知的三维蛋白质结构,这种方法容易低估蛋白质组水平的假发现率(False Discovery Rate, FDR)。同时,现有的XL-MS基准标准大多基于较小规模的合成肽库,难以模拟真实蛋白质组实验的复杂性。因此,开发更复杂且具有代表性的标准成为验证和开发新数据分析工具的关键。为了准确地评估XL-MS数据分析工具的性能,需要一种在复杂性上与真实生物样本相当的基准数据集,以确保工具的开发能够适用于实际生物样本中的大规模蛋白质相互作用研究。
构建XL-MS标准的流程(Credit: Nature Methods)
首先,蛋白质被分配到32个相互作用组,每组包含8个蛋白质。在每个组内,蛋白质两两交联,以所有可能的组合方式配对,总共形成28种蛋白质相互作用(PPIs),因此32个组共形成896种相互作用。所有的交联样品在消化之前合并,以简化后续处理。这一流程旨在创建一个复杂且标准化的数据集,用于开发和验证XL-MS技术中的新型数据分析工具。通过严格的交联和合并步骤,确保数据集具有较高的真实性和可重复性,为进一步的质谱分析奠定了基础。
大规模重组蛋白质标准的开发为了解决这些问题,研究人员开发了一种新型的大规模XL-MS标准。该标准包含数百种重组蛋白质,这些蛋白质被系统地混合并交联,从而生成复杂的标准数据集。具体而言,这些蛋白质被分为32个相互作用组,每组包含8种蛋白质,并在组内进行两两混合及交联,最终在每个组内形成28种独特的蛋白质相互作用,总计896种蛋白质相互作用(PPIs)。所有交联样品随后被合并、消化,并进行质谱分析,以生成可用于评估和开发新型XL-MS搜索工具的数据集。
这一新型XL-MS标准的优势在于其复杂性与真实性。通过在大肠杆菌中表达并纯化人源蛋白质片段,研究人员确保这些蛋白质具有接近真实生物样本的复杂性。此外,每组蛋白质的随机分配和交联使得所有组内的相互作用是可控的,从而为FDR的精确计算提供了可靠的基准。
从具体数据来看,该标准由23,895个经过胰蛋白酶消化的肽段组成(考虑到最多三个未切割位点,最小肽段长度为6个氨基酸,肽段质量范围为500-6,000 Da)。其中,397个肽段(约占1.66%)被两个蛋白质共享,有两个肽段被三个蛋白质共享。通过热诱导的蛋白质相互作用,形成了广泛的蛋白质构象和结合界面,增加了交联剂与赖氨酸(Lys-Lys)接触的机会,从而提高了交联搜索引擎识别真实阳性结果的概率。
为了增强该标准的可靠性,研究人员采用了四个批次的标准数据集,这些批次的设计不仅考虑了蛋白质的多样性,还引入了多种蛋白质的不同交联方式,从而确保在不同条件下生成的数据具有一致性和可重复性。具体来说,批次1用于指导人工神经网络(Artificial Neural Network, ANN)模型的开发,批次2用于内部测试以优化液相色谱-质谱(LC-MS)方法,而批次3和4则用于Scout与其他XL-MS搜索引擎的基准测试。每个批次包含多个独立的数据点,这些数据点有助于评估分析工具在不同条件下的稳定性和准确性。
Scout搜索引擎的开发与应用利用该新型XL-MS标准,研究团队开发了Scout,一种基于人工神经网络的XL-MS数据分析搜索引擎。Scout在处理MS-可裂解交联剂生成的数据时表现出了高效和精确。Scout通过多层次的FDR过滤,在交联谱匹配(CSMs)、独特残基对(ResPairs)及蛋白质相互作用(PPIs)各个层面均保持了高灵敏度和低假发现率。
Scout的开发依赖于大量的实验数据,研究人员使用了1,409,900个MS2谱,这与全蛋白质组水平的XL-MS研究相当,例如HEK293T细胞中包含的1,150,447个MS2谱。如此大规模的数据集使得Scout能够在复杂生物样本中展现出卓越的性能。此外,Scout采用的人工神经网络模型经过精心设计,能够从复杂的谱数据中提取高维特征,进而对交联肽段进行准确的识别和归类。多层次的FDR过滤机制使得Scout能够有效控制假阳性,确保分析结果的可靠性和准确性,从而提高了数据处理的质量和可信度。
为了验证Scout的性能,研究团队将数据集分为四个批次进行测试和优化:批次1用于开发ANN模型,批次2用于内部测试以优化LC-MS方法,批次3和4用于Scout与其他XL-MS搜索引擎的基准测试。批次1包含1,409,900个MS2谱,这使得Scout能够模拟复杂的蛋白质组水平XL-MS实验。这些测试显示出,Scout在复杂的蛋白质组数据处理中表现出优异的准确性和敏感性,证明了它在处理真实生物样本中的应用潜力。
与现有XL-MS工具的比较与优势为了评估Scout的性能,研究人员将其与其他多种主流XL-MS搜索引擎(如MaxLynx、MSAnnika、XlinkX PD和MeroX等)进行了比较。结果显示,Scout在速度、灵敏度以及FDR控制方面均表现出色。例如,在处理批次3和批次4的数据时,Scout在CSM和ResPair层面均显示出较高的真阳性识别率,并且在PPI层面显著降低了假发现率。
具体来说,在一个包含4,000个蛋白质的大规模数据库中,Scout在保持1% FDR的前提下,识别出了195个PPIs,覆盖率达到43.5%。相比之下,MSAnnika尽管识别出了更多PPIs,但其假发现率高达12-15%,这表明Scout在高特异性与高灵敏度之间取得了更好的平衡。此外,研究人员还进行了更多的实验验证,包括采用不同的数据库大小和搜索参数,结果显示,Scout在不同条件下均表现出显著的稳定性和准确性。
在处理速度方面,Scout的表现也明显优于其他工具。在一个配置了512 GB内存、双Intel Xeon Gold 6136 CPU的计算机上,Scout处理小型和大型数据库时的速度均比其他工具快200倍以上。这意味着Scout不仅适用于大型服务器,还可以在普通台式机上高效运行,从而提高了其实际应用中的可操作性和灵活性。这一优势使得Scout在生物医学研究中的应用更加广泛,尤其适用于需要快速、高通量数据分析的研究场景。
XL-MS技术在蛋白质相互作用研究中的前景XL-MS技术的进步为蛋白质组学研究提供了新的机遇。通过提供亚纳米级的分辨率,XL-MS使得研究人员能够解析更为精细的蛋白质相互作用网络。Scout的开发更是推动了XL-MS技术在复杂样本中的应用。Scout不仅在数据处理速度上显著超过其他工具,而且通过结合人工神经网络,实现了复杂生物样本中蛋白质相互作用的精确分析。
此外,研究人员还利用XL-MS标准数据集对Scout在生物样本中的表现进行了评估。例如,在对人类线粒体的XL-MS数据进行分析时,Scout能够识别出更多的交联谱匹配和残基对,并在PPI识别中保持严格的FDR控制。这些评估结果表明,Scout在需要高可信度的相互作用网络场景中具有巨大潜力。在具体应用中,XL-MS技术与Scout的结合使得研究人员能够在更高的空间和时间分辨率上,探究蛋白质之间的动态相互作用,这对于理解细胞信号传导、代谢调控以及疾病的病理机制具有重要意义。
扩展应用与未来发展方向除了传统的蛋白质相互作用研究外,XL-MS技术还可以应用于许多其他生物医学领域。例如,XL-MS可以用于研究药物与蛋白质之间的相互作用,通过分析药物在细胞或组织中的靶点,帮助开发更高效的药物。此外,XL-MS还可以用于解析跨膜蛋白的结构,这些蛋白质在细胞信号传导和物质运输中起着至关重要的作用。由于跨膜蛋白的疏水性和复杂性,传统的结构解析方法常常难以应用,而XL-MS结合Scout的高灵敏度和高分辨率,使得跨膜蛋白的研究变得更加可行。
未来,随着质谱仪器和交联试剂的不断发展,XL-MS技术有望在更加复杂的生物系统中得到应用。例如,通过将XL-MS与其他蛋白质组学技术(如冷冻电子显微镜和核磁共振)结合,研究人员可以更全面地解析蛋白质相互作用的结构基础。此外,人工智能和机器学习算法在XL-MS数据分析中的应用也将不断提高数据处理的速度和准确性。Scout作为一个基于人工神经网络的工具,其未来的迭代版本可能会引入更为先进的深度学习模型,从而进一步提升其在复杂样本中的应用潜力。
参考文献
Clasen MA, Ruwolt M, Wang C, Ruta J, Bogdanow B, Kurt LU, Zhang Z, Wang S, Gozzo FC, Chen T, Carvalho PC, Lima DB, Liu F. Proteome-scale recombinant standards and a robust high-speed search engine to advance cross-linking MS-based interactomics. Nat Methods. 2024 Oct 31. doi: 10.1038/s41592-024-02478-1. Epub ahead of print. PMID: 39482464.责编|探索君
排版|探索君
转载请注明来源于【生物探索】
End