一张图,生成一个世界!李飞飞首个空间智能项目发布

科技有夕小瑶 2024-12-04 13:12:42

“AI教母”李飞飞的初创公司World Labs,用3个月时间,打磨出了第一个“空间智能”项目:

用一张图片生成3D世界,可探索,可交互。

只需要一张图片,甚至是一句prompt,就能生成一个非常精细的3D世界。

让我没想到的是,这个3D世界还允许以第一人称视角探索、转身。

有些小伙伴可能有印象,在11月初,一家公司Decart发布过一个项目Oasis:由AI实时生成游戏Minecraft(《我的世界》)的物理世界。它也能探索、转身。

我还试玩过一段时间,不得不说,Oasis还需要打磨打磨。

其中最让我诟病的是,内容生成的稳定性太差了。本来面前是一片村庄,一转身,就变成新的场景了。

World Labs的“空间智能”模型就很好地解决了这个问题。此前的生成模型大部分是预测像素,而空间智能模型直接预测整个3D场景,所以,场景一旦生成,就会一直稳定存在。

即使你移开视线再回头看,场景也不会在你背后改变。3D场景,怎么转,都有面。

生成3D场景后,还能实时进行探索,在官网贴的demo中也能体验到。

即使在官方demo中,用的都是一些比较梦幻感很强的例子,但与AI生成的视频相比,3D场景中的各种元素,的确要真实得多。

甚至,它还可以模拟相机效果,精准控制摄像头,模拟景深或滑动变焦。

这些成果,还只是World Labs生成3D世界的第一个早期预览。

AI理解3维物理世界,突破空间智能界限

当下,2D的图片/视频生成模型比比皆是,国外的Midjourney,Stable Diffusion、国产的可灵、Vidu、清影等等。

而视频生成模型始终有一个痛点挥之不去:AI视频的稳定性、一致性得不到控制。

而3D模型生成的视频可控性和一致性,成为了新的着眼点。于是从2023年开始,许多厂商开始专攻3D生成模型或升维(2D转3D)模型。

但就现状来说,直到现在,效果好一点/满足需求的3D生成模型实在是屈指可数。

而李飞飞团队的World Labs公司,为我们打了个样。

早在李飞飞在斯坦福大学的实验室的时候,她就已经开始试图教会计算机“如何在3D 世界中行动”了。例如,通过使用LLM让机械臂执行诸如打开门、制作三明治等任务。

后来,她在今年4月开始计划创业,并于9月正式创立World Labs,探索“空间智能”。

关于公司的愿景,李飞飞在温哥华的一次TED会议的演讲中提到:

训练一个,能够理解复杂物理世界,及其内部物体相互关系的AI系统。

至于什么是“空间智能”,她说:

视觉化为洞察,看见成为理解,理解导致行动。

在李飞飞眼里,人类智能可以分为两项:语言智能和空间智能。

一直以来,我们都在LLM等语言智能的路上飞奔前行,而空间智能方面还留有大片空白。

今天,World Labs公布的第一个项目,成为了我们探索空间智能的一块重要拼图,而且还是SOTA级的。

就连英伟达高级计算机科学家Jim Fan也来贺喜:

GenAI正在创建越来越高维度的人类体验快照。SD是2D快照。Sora是一个2D+的快照。现在,World Labs是一个完全身临其境的3D快照。

到现在,我们已经揭开了空间智能的一角。

马上也要到2025年了,我很期待,在新的一年里,还能看到GenAI的最新革命。

0 阅读:5

科技有夕小瑶

简介:感谢大家的关注