GenomeBiol|丁俊/吴昊合作开发深度生成模型,用于统一单...

小赵的备忘录 2024-08-18 11:12:38

引言

单细胞测序技术的引入标志着生物研究的新时代,使科学家能够以前所未有的细节分析细胞异质性。这一突破揭示了复杂的细胞动态,并在癌症生物学、神经生物学和药物发现等领域产生了深远的影响。然而,这些技术产生的数据通常极为复杂和多样化,导致许多现有计算工具仅能处理有限的分析任务。

有效集成单细胞多组学数据仍然是该领域的一项重大挑战。许多现有方法依赖于匹配的多组学数据集,而这些数据集通常难以获取,从而限制了分析的范围。这些限制导致了未匹配数据的集成不足,并在处理噪声和信息丢失上面临困难。即使是旨在处理多数据模态的方法,也面临提取跨模态共同特征和管理非线性转换等持续挑战。不同组学数据类型的可用性不平衡进一步加剧了这一问题,例如,单细胞表观基因组学数据的获取难度远高于转录组学数据。这种稀缺性不仅阻碍了多组学分析,也限制了发现全面生物学见解的潜力。这些挑战突显了对更强大和灵活的集成与生成方法的迫切需求,以克服现有的不足和限制。

近日,麦吉尔大学丁俊和山东大学吴昊合作(第一作者为杨秀辉)在Genome Biology上发表了文章scCross: a deep generative model for unifying single-cell multi-omics with seamless integration, cross-modal generation, and in silico exploration。该论文介绍了scCross,一种深度生成模型,旨在集成单细胞多组学数据,并提供无缝的跨模态生成和探索功能。scCross能够高效生成跨模态数据,模拟多组学数据,并处理不同模态之间的计算扰动。借助其强大的跨模态生成和扰动能力,scCross有望突破当前生物技术中某些组学(相对于单细胞转录组)的获取难度限制。该框架通过无缝集成和跨模态生成,大大提升了单细胞多组学数据的实用性和探索潜力,为获取全面且详细的生物学见解提供了全新的机会。

为了解决上述挑战,研究人员提出了scCross。这一方法在集成单细胞多组学数据方面表现出色,并因其独特的跨模态数据生成能力而别具一格。这种能力弥合了丰富与稀缺的数据模态,从而更全面地描绘细胞状态。scCross的另一个关键特性是其对单细胞多组学数据的高保真模拟以及对计算扰动的支持,使得基于数据集成的模拟细胞干预实验成为可能,从而探索潜在的基因干预策略。通过深入了解跨模态细胞动态,scCross不仅提升了单细胞多组学研究的实用性,还推动了该领域的创新和发展。利用深度生成框架集成多组学scCross模型用于集成和生成单细胞多组学数据,结合了变分自编码器(VAEs)和生成对抗网络(GANs)以构建深度生成框架。该框架实现了单细胞多组学数据的无缝集成、跨模态数据生成、多组学数据模拟以及计算扰动。具体而言,首先通过训练VAEs来捕获低维细胞嵌入,并利用基因集向量来丰富信息的深度。这些嵌入随后被整合到一个共同的潜在空间中,并通过应用Jensen-Shannon(JS)散度损失来最小化不同组学间的数据分布差异。接着,GANs被用于在这一共同潜在空间中融合不同模态的数据。为了进一步优化集成过程,scCross使用了互为最近邻(MNN)细胞对作为锚点,以指导对齐过程。这一方法确保了在共同潜在空间中,相同或相似的细胞的嵌入在不同模态中保持接近,从而实现了模态数据的协调集成和分布,确保了多组学数据集成的稳健性和准确性。使用双向对齐进行跨模态生成除了单细胞多组学数据的集成,scCross模型还支持跨模态单细胞数据的生成和扰动。在这一过程中,双向对齐器发挥了关键作用,它能够将共享的潜在嵌入解码为不同的模态。一旦训练完成,模型可以通过将一种模态的数据编码到潜在空间中,然后解码生成另一种模态的数据,从而实现跨模态单细胞数据的生成。此外,scCross能够模拟多组学数据的生成,并处理模态内外的计算扰动,揭示细胞状态中的潜在调节变化。通过将单细胞多组学数据整合到一个统一的潜在空间,并支持跨模态集成,scCross为一系列单细胞多组学应用提供了坚实的基础,尤其是在某些组学数据有限或不可用的情况下。图1. scCross方法概览。scCross使用特定模态的变分自编码器来捕捉每种组学的细胞潜在嵌入。在单细胞数据整合过程中,该方法通过将基因集矩阵等作为附加特征来融入生物学先验。同时,该方法利用进一步的变分自编码器和双向对齐器,将这些信息丰富的嵌入整合为共享嵌入z。双向对齐器在跨模态生成中发挥了关键作用,棕色箭头表示从scRNA-seq到scATAC-seq的过渡。互近邻先验确保了对齐过程的精确性。判别器则负责维护不同组学的整合,同时确保生成数据的完整性和一致性。scCross提供了一个强大的工具箱,用于单细胞数据整合,支持跨模态数据生成、单细胞数据增强、单细胞多组学模拟以及计算模拟扰动,使其在解决多种单细胞多组学挑战时具有极大的灵活性。(Credit: Genome Biology)研究人员在多样化的数据集上验证了scCross,所有样本都有多种单细胞组学数据。结果表明,scCross在这些数据集上有着良好的单细胞多组学数据集成,跨模态生成,多模态模拟与计算扰动性能,这可以通过多种指标与下游分析进行验证。这种优越的性能为科学界提供了全面掌握单细胞多组学视野与跨模态细胞动力学的可能性。这同时证明了scCross用于大规模研究的可靠性和稳定性。scCross 方法为单细胞研究界展现了巨大的潜力。其独特的功能和可靠的性能使其成为单细胞多组学分析领域研究人员的潜在有价值的工具。scCross 促进不同模态的集成,支持全面的数据生成,并实现详细的模拟和扰动。这些能力可以极大地促进复杂生物系统的研究。

参考文献

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03338-z

责编|探索君

排版|探索君

文章来源|“BioArt”

End

往期精选

围观

一文读透细胞死亡(Cell Death) | 24年Cell重磅综述(长文收藏版)

热文

Cell | 是什么决定了细胞的大小?

热文

Nature | 2024年值得关注的七项技术

热文

Nature | 自身免疫性疾病能被治愈吗?科学家们终于看到了希望

热文

CRISPR技术进化史 | 24年Cell综述
0 阅读:0