从蛋白质到全模态,基础大模型能力再升级。
本文为IPO早知道原创
作者|Stone Jin
据IPO早知道消息,BioMap 百图生科日前正式发布了全新一代生命科学基础大模型——xTrimo V3。
xTrimo V3 在 V2 大模型突破千亿参数、理解蛋白质语言的基础上,进一步扩展到 2100 亿参数,覆盖蛋白质、DNA、RNA 等七大生命科学主流模态,能够建模更加广泛的基因组学、细胞、系统等问题,为基因编辑、靶点发现、细胞调控、菌株改造、生命科学图像分析等场景带来新的能力。
作为全球最早专注于生命科学基础大模型的平台公司,自 2020 年成立以来,百图生科始终致力于在这一高难度技术平台上取得突破。生命科学基础大模型,并非自然语言大模型 + 生物学文本的垂直应用、垂直“大模型”,而是围绕生命科学的氨基酸、碱基等高复杂序列数据,开发一套与自然语言基础大模型理念相近,但技术完全不同的基础大模型底层技术,从 Transformer 到训练框架,再到更关键的数据集与验证闭环,都与自然语言大模型截然不同、更加挑战、更加前沿。与生命科学多样化具体任务结合,理解和对齐复杂的生命科学组学数据,理解生命科学规律并建立基础图谱,建立生命科学行业原有数据规模百倍以上的超大规模数据集 —— 这些都是过去四年间,生命科学基础大模型先行者们所面对的挑战。
2022 年和 2023 年,百图生科先后发布 xTrimo V1、V2,实现了世界首个千亿参数的生命科学基础大模型——利用海量蛋白质序列数据训练的千亿参数蛋白大模型,参数量较第二名高 8 倍以上,在数十个任务上超越行业达到 SOTA 水平,特别是支撑蛋白质结构预测等关键问题达到前所未有的准确度和性能,实现了大量的商业和技术突破;利用海量单细胞组学数据实现的单细胞大模型,初步验证了多维度、跨模态的技术,为跨模态建模复杂生命体打下了坚实的基础,并支撑十余个靶点发现、细胞分类等任务取得 SOTA 成绩。相关工作多次登上 Nature 子刊封面和学术顶会。
xTrimo 基础大模型平台上,目前已有 200 余个任务模型取得评测 SOTA 水平,在药物研发中涉及通用蛋白、多种构型的抗体、细胞疗法、基因疗法等多个领域,以及靶点发现、工艺优化、合成生物学、生物制造、生命科学工具等多样的方向。基础大模型的贡献,并不在于能以单一技术、一己之力解决前沿问题,而是在面对多样化、缺乏数据的前沿问题、缺乏泛化能力的现有模型时,能够利用千亿参数和万亿数据中蕴含的知识,进行 embedding 赋能,为难解之题带来一些来源于十亿年生物进化树上的高维信息。
百图生科打造的 200 余个 AI 模型,已先后助力开发了 20 余种前沿抗体和酶、实现了 10 余个创新靶点的挖掘,并都经过了实验验证,推动进入临床前研发等后续阶段。AI 模型驱动的高通量自动化流程,覆盖从分子生成、实验验证、闭环迭代的完整链路,大幅提高合作客户的研发效率,缩短研发周期。
截止目前,百图生科服务全球 300 余家用户,其中包括跨国药企、大型 CRO、明星创业公司、国内外研究机构,签署了超过 20 亿美元的总潜在订单,共同在生命科学领域实现了一系列突破。
此次发布的基础大模型 xTrimo V3,覆盖 DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学七个主流模态,并在各个原有模态上依靠新的数据、新的架构,做了显著的增强。“这一版本一举实现了全模态的覆盖,从而能支撑快速发展的生命科学新领域新问题探索需求。”百图生科技术副总裁张晓明介绍,“与 V2 平台相比,V3 不仅巩固了之前在蛋白质领域的基础和继续了在细胞领域的发展,还拓展至基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,支持从分子早期研发到生产放大再到后期实验分析的全流程 AI 建模需求。”
xTrimo V3 参数量突破 2100 亿,继续保持全球规模最大的全模态生命科学大模型的领先地位。特别是在蛋白质大模型领域,成为全球首个引入先进专家混合(MOE)架构的生命科学大模型,参数量达到千亿级规模;DNA 大模型序列长度跃升至 128K,实现超长序列解码生命,这些升级充分体现了百图生科在生命科学基础大模型领域的持续创新。
同时,百图生科在内部应用大模型平台实现高效建模后,一直在探索更强的工具链和产品化能力。2023 年 3 月,百图生科发布了基于 xTrimo 驱动的 AIGP(AI Generated Protein) 平台。这个被业界誉为“能生成蛋白质的ChatGPT”,为生命科学领域的研究者提供了一个便捷的交互窗口,即使是不具备编程能力的科研人员也可利用大模型和数十个蛋白质相关任务模型、配套软硬件系统,开展创新蛋白设计研究。
此次,xTrimo V3 平台还发布了专为生命科学AI模型设计的模型工具链— 包含面向多种数据场景和用户需求的 Model Builder 模块,支持模型管理和组装的 Model Hub 模块,以及加速模型调用和物理计算的 Model Booster 模块等。
“基于 xTrimo 平台构建专属任务模型,让大模型能力与企业的私有数据、特定需求相结合,快速为企业打造专属的 AI 工具,是 V3 平台的重要特征之一。” 张晓明介绍,“我们还结合已有模型与模型定制能力,在不同行业提出了药物研发解决方案、生物制造解决方案和 AI4LS 平台解决方案,通过AI模型和配套的服务,帮助企业加速创新,提升研发效率、优化流程,让企业能够更快地从实验室走向市场,直观感受到大模型作为直接生产力的巨大效能,推动行业的全面智能化发展。”