智源研究院发布全球首个原生多模态世界模型“悟界・Emu3”

2025-06-06 11:37:59 IT之家未分类

IT之家6月6日消息，北京智源人工智能研究院今日发布“悟界”系列大模型，包括全球首个原生多模态世界模型“悟界・Emu3”、全球首个脑科学多模态通用基础模型“悟界・见微Brainμ”。

智源研究院还发布了悟界・具身智能大模型，包括全球首个支持MCP的跨本体大小脑协作框架悟界・RoboOS2.0、具身大脑大模型悟界・RoboBrain2.0和全原子微观生命模型悟界・OpenComplex2也一并发布。

去年10月，智源研究院发布了原生多模态世界模型Emu3。据IT之家此前报道，该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。Emu3支持多模态输入、多模态输出的端到端映射，验证了自回归框架在多模态领域的普适性与先进性，为跨模态交互提供了强大的技术基座。

见微Brainμ基于Emu3底层架构，将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化，利用预训练模型多模态对齐的优势，可以实现多模态脑信号与文本、图像等模态的多向映射，并实现跨任务、跨模态、跨个体的统一通用建模，以单一模型完成多种神经科学的下游任务。