文丨Congerry
在Sora发布之前,文生视频某种意义上已经被跑通。
去年,《瞬息全宇宙》凭借Runway的技术支持,在奥斯卡颁奖礼上一举斩获七项大奖,成为最大赢家。
2023年末,Pika的出现也让大家眼前一亮。
But,当OpenAI祭出Sora时,已有的文生视频工具都瞬间变得黯然失色。
这不只是说说。
近期,很多人把Sora与“前辈们”进行了对比。
业界大佬Gabor Cselle对Sora模型进行了测试,并将其与Pika、RunwayML和Stable Video进行了对比。
他发现,其他主流工具生成的视频都大约只有5秒钟,而Sora可以在一段长达17秒的视频场景中,保持动作和画面一致性。
,时长00:17
SORA vs Pika vs RunwayML vs Stable Video.
如果这些场景看得还不够清晰,还有一些其他案例。
,时长00:08
从上面视频可以看到,Sora的生成效果已经明显接近实拍,无论是色彩,画面细节,清晰度都已经完胜Gen 2。
相较于小幅度的变化,Sora生成的狗狗和白雪都更加自然生动。
,时长00:11
猫咪同样如此。
,时长00:10
这样超强的视频生成能力,不止局限于此。
,时长00:20
提示词:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一名男子进入大教堂,向坐在王座上的巨型猫王鞠躬。”
,时长00:17
马斯克在X平台上的评价是“gg humans(人类)。
Sora看起来像是文本和视频到视频生成的巨大飞跃,但 OpenAI 表示,Sora的潜力要大得多,它可以成为一个世界模拟器。
这个模型基于类似于语言模型的变换器架构,并结合了图像生成器中的扩散技术。在训练过程中,Sora会摄入视频和图像,并将它们分解成更简单的形式和更小的部分,然后从这些部分生成新的视觉效果。
与以往专注于特定类别视觉数据、短视频或固定大小视频的许多作品不同,Sora可以生成不同长度、宽高比和分辨率的视频和图像。
但Sora的能力不止于此,它还能够生成交互式的3D世界。
OpenAI没有评论它使用的训练数据,但从目前展示的场景来看,OpenAI似乎使用了非常高质量的合成训练数据,这些数据是由游戏引擎生成的逼真场景,而不是或除了真实影像。这将允许公司避免或减轻文本和图像生成器所知的潜在版权问题。
有人推测,Sora可能是使用Unreal Engine 5生成的合成数据进行训练的。
合成数据训练的另一个迹象是 Sora 可以生成具有动态摄像机运动和三维连贯性的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一起移动。
,时长00:15
视频模型可以作为世界模型,因为它们比纯文本和图像模型更好地代表日常生活的复杂多样性,这种想法并不是什么新鲜事。
视频人工智能初创公司RunwayML 最近公布了其世界模型研究,初创公司Wayve 正在使用视频模型来模拟自动驾驶汽车的交通。
Meta 多年来一直在收集数千小时的第一人称视频,以训练应对日常情况的人工智能辅助系统,在 Sora 揭幕当天,它展示了V-JEPA,这是一种用于预测和理解视频中复杂交互的新架构。
然而,OpenAI 的 Sora 超越了我们所知道的所有先前的方法和模型。
虽然OpenAI在官网披露了技术报告,但是对于诸多核心技术的细节并没有提及。
纽约大学助理教授谢赛宁认为,Sora的实现技术基于他们的扩散Transformer模型(DiT),这是一个带有transform主干的扩散模型。
他推测Sora可能使用了谷歌的NaViT技术,以使DiT能够适应可变的分辨率/持续时间/长宽比。他还推算出Sora的参数量约为30亿。
杨立昆转发了这条推文。
不过OpenAI这种“close”的习惯,还是让“诋毁组”马斯克找到了机会。
看到OpenAI的新作,周鸿祎在社交媒体表示,Sora的诞生意味着AGI(通用人工智能)的实现可能从10年缩短至一两年。
“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”