一张图，生成一个世界！李飞飞首个空间智能项目发布

“AI教母”李飞飞的初创公司World Labs，用3个月时间，打磨出了第一个“空间智能”项目：

用一张图片生成3D世界，可探索，可交互。

只需要一张图片，甚至是一句prompt，就能生成一个非常精细的3D世界。

让我没想到的是，这个3D世界还允许以第一人称视角探索、转身。

有些小伙伴可能有印象，在11月初，一家公司Decart发布过一个项目Oasis：由AI实时生成游戏Minecraft（《我的世界》）的物理世界。它也能探索、转身。

我还试玩过一段时间，不得不说，Oasis还需要打磨打磨。

其中最让我诟病的是，内容生成的稳定性太差了。本来面前是一片村庄，一转身，就变成新的场景了。

World Labs的“空间智能”模型就很好地解决了这个问题。此前的生成模型大部分是预测像素，而空间智能模型直接预测整个3D场景，所以，场景一旦生成，就会一直稳定存在。

即使你移开视线再回头看，场景也不会在你背后改变。3D场景，怎么转，都有面。

生成3D场景后，还能实时进行探索，在官网贴的demo中也能体验到。

即使在官方demo中，用的都是一些比较梦幻感很强的例子，但与AI生成的视频相比，3D场景中的各种元素，的确要真实得多。

甚至，它还可以模拟相机效果，精准控制摄像头，模拟景深或滑动变焦。

这些成果，还只是World Labs生成3D世界的第一个早期预览。

AI理解3维物理世界，突破空间智能界限

当下，2D的图片/视频生成模型比比皆是，国外的Midjourney，Stable Diffusion、国产的可灵、Vidu、清影等等。

而视频生成模型始终有一个痛点挥之不去：AI视频的稳定性、一致性得不到控制。

而3D模型生成的视频可控性和一致性，成为了新的着眼点。于是从2023年开始，许多厂商开始专攻3D生成模型或升维（2D转3D）模型。

但就现状来说，直到现在，效果好一点/满足需求的3D生成模型实在是屈指可数。

而李飞飞团队的World Labs公司，为我们打了个样。

早在李飞飞在斯坦福大学的实验室的时候，她就已经开始试图教会计算机“如何在3D 世界中行动”了。例如，通过使用LLM让机械臂执行诸如打开门、制作三明治等任务。

后来，她在今年4月开始计划创业，并于9月正式创立World Labs，探索“空间智能”。

关于公司的愿景，李飞飞在温哥华的一次TED会议的演讲中提到：

训练一个，能够理解复杂物理世界，及其内部物体相互关系的AI系统。

至于什么是“空间智能”，她说：

视觉化为洞察，看见成为理解，理解导致行动。

在李飞飞眼里，人类智能可以分为两项：语言智能和空间智能。

一直以来，我们都在LLM等语言智能的路上飞奔前行，而空间智能方面还留有大片空白。

今天，World Labs公布的第一个项目，成为了我们探索空间智能的一块重要拼图，而且还是SOTA级的。

就连英伟达高级计算机科学家Jim Fan也来贺喜：

GenAI正在创建越来越高维度的人类体验快照。SD是2D快照。Sora是一个2D+的快照。现在，World Labs是一个完全身临其境的3D快照。

到现在，我们已经揭开了空间智能的一角。

马上也要到2025年了，我很期待，在新的一年里，还能看到GenAI的最新革命。

玩酷网