此前在去年2月,OpenAI方面为了狙击谷歌的旗舰模型Gemini 1.5 Pro,突然端出了还处于“PPT状态”的文生视频模型Sora。被OpenAI称为“世界模拟器”的Sora之所以能够吸引大量的关注,不仅仅是因为能生成一分钟的连贯高清视频,更有“world simulator”(世界模型)的缘故。
理解物理规律、模拟物理世界无疑是Sora最大的爆点,只可惜由于当时OpenAI并未向所有用户开放,所以关于世界模型的讨论也只是昙花一现。虽然大众很快就遗忘了世界模型,但整个AI业界一直都很上心。日前有消息显示,谷歌DeepMind正计划组建一支由前OpenAI Sora项目联合负责人Tim Brooks领衔的专业团队,全力打造可以模拟物理世界的人工智能模型。
无独有偶,在CES2025展前发布会上,英伟达创始人黄仁勋在宣布推出RTX 50系列显卡之外,也带来了该公司首个生成式世界基础模型Cosmos,致力于构建物理世界的通用模拟器,连接数字空间与现实世界。
不仅仅是英伟达、谷歌、OpenAI等巨头,“AI教母”李飞飞的World Labs,以及Odyssey、Decart等AI初创企业,如今也在追逐世界模型。那么世界模型到底是什么,以至于让这一众AI厂商趋之若鹜呢?
事实上,世界模型是对物理世界的数字化再现,旨在模拟现实世界中的物理现象、物体运动和交互行为。为了确保模拟的准确性和可信度,世界模型就必须遵循物理规律,比如牛顿三定律、能量守恒定律。
世界模型是用于模拟和预测智能体所处环境动态的概念框架,从而让AI能够有效理解以及与周围的环境互动,同时也是AI从虚拟空间走向物理世界的前提条件。要知道,目前的ChatGPT、豆包、文小言、Kimi等AI大模型,对于世界的认知与人类是截然不同的,这一差异就导致了AI暂时只能“耍嘴皮子”、而无法改变世界。
按照AI从业者的话来说,大语言模型的基础是通过文本序列对世界进行一维表达,具备图像理解和视频理解能力的多模态语言模型不过是将其它模态的数据Token化,然后硬塞进文本这个一维的序列表示中。多模态模型目前以大语言模型(LLM)为主的现实导致外界也产生了疑惑,毕竟AI按理说应该更擅长理工,可为什么先冲击了文艺领域?
对于这个问题,目前业界的主流声音,是由于理工领域建立在理性和严谨的基础上,稍有错误就会造成严重的后果,而文科则是非标准化的,大概过得去就行。比如早期的AI绘画工具往往会展现出违和感,就是因为Midjourney、Stable Diffusion的认知只是基于预训练时“看”的无数张图片、所抽象出来的“合理性”,因此它们就会生成有两个左手的人类或是两截身子的猫。
为了解决这个问题,世界模型的概念被提出,它的出现就是为了让AI能够像人类一样对真实世界有一个全面、而准确的认知。世界模型源自于对人类思维模型的模仿,比如人类是通过感官收集信息,利用记忆塑造的经验来预测未来,通过规划和决策来选择行动方式,并通过学习机制来不断适应和进化。
一个典型的世界模型,包括用以处理环境数据的感知模型、基于观察模拟未来状态的预测模型、用预测选择实现目标方式的规划决策模型、根据新信息或结果更新模型的学习系统,以及提供行动结果反馈的奖励系统。相比大语言模型,能感知并理解真实世界的世界模型才是AGI的前置科技。
然而世界模型的前景固然很诱人,但要实现它的难度也极高。以英伟达的世界基础模型Cosmos为例,它的参数规模仅14B,与动辄数百B的大语言模型要小得多,可它的数据质量却极高,英伟达方面收集了2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。
为什么世界模型如此重要?因为其对于游戏、影视、具身机器人、自动驾驶等赛道具有重大意义。谷歌DeepMind在去年8月推出的首个完全由AI驱动的实时游戏引擎GameNGen,以及中国科学技术大学推出的开放世界游戏视频设计模型GameGen-X,就都可以被视为丐版的世界模型。
GameNGen、GameGen-X的卖点是实时生成游戏画面,完全不需要开发者通过虚幻、Untiy等引擎手工编辑在GPU上运行的显式渲染代码,直接用一句话就可以生成一段游戏画面。这种堪比魔法的能力,又怎能不让游戏厂商心驰神往。
同理,世界模型也是实现更高阶自动驾驶的必要条件。目前自动驾驶技术陷入瓶颈的一个关键因素,就是道路环境的变数实在太大,造成了训练数据的需求量极大,从而导致相关厂商的训练成本突破天际。可一旦有了世界模型,只需结合少量现实中的司机驾驶数据,就能生成几何倍数于真实数据的虚拟驾驶数据。
一旦世界模型得到验证,即便不说改变世界,最起码也会有相当一部分行业的规则会被重塑,如此一来商机自然也就有了。
我的混元模型全宇宙第一[得瑟][得瑟]