Sora爆火，文生视频迎来“GPT时刻”

文丨Congerry

在Sora发布之前，文生视频某种意义上已经被跑通。

去年，《瞬息全宇宙》凭借Runway的技术支持，在奥斯卡颁奖礼上一举斩获七项大奖，成为最大赢家。

2023年末，Pika的出现也让大家眼前一亮。

But，当OpenAI祭出Sora时，已有的文生视频工具都瞬间变得黯然失色。

这不只是说说。

近期，很多人把Sora与“前辈们”进行了对比。

业界大佬Gabor Cselle对Sora模型进行了测试，并将其与Pika、RunwayML和Stable Video进行了对比。

他发现，其他主流工具生成的视频都大约只有5秒钟，而Sora可以在一段长达17秒的视频场景中，保持动作和画面一致性。

，时长00:17

SORA vs Pika vs RunwayML vs Stable Video.

如果这些场景看得还不够清晰，还有一些其他案例。

，时长00:08

从上面视频可以看到，Sora的生成效果已经明显接近实拍，无论是色彩，画面细节，清晰度都已经完胜Gen 2。

相较于小幅度的变化，Sora生成的狗狗和白雪都更加自然生动。

，时长00:11

猫咪同样如此。

，时长00:10

这样超强的视频生成能力，不止局限于此。

，时长00:20

提示词：“一座巨大的大教堂里全是猫。放眼望去，到处都是猫。一名男子进入大教堂，向坐在王座上的巨型猫王鞠躬。”

，时长00:17

马斯克在X平台上的评价是“gg humans（人类）。

Sora看起来像是文本和视频到视频生成的巨大飞跃，但 OpenAI 表示，Sora的潜力要大得多，它可以成为一个世界模拟器。

这个模型基于类似于语言模型的变换器架构，并结合了图像生成器中的扩散技术。在训练过程中，Sora会摄入视频和图像，并将它们分解成更简单的形式和更小的部分，然后从这些部分生成新的视觉效果。

与以往专注于特定类别视觉数据、短视频或固定大小视频的许多作品不同，Sora可以生成不同长度、宽高比和分辨率的视频和图像。

但Sora的能力不止于此，它还能够生成交互式的3D世界。

OpenAI没有评论它使用的训练数据，但从目前展示的场景来看，OpenAI似乎使用了非常高质量的合成训练数据，这些数据是由游戏引擎生成的逼真场景，而不是或除了真实影像。这将允许公司避免或减轻文本和图像生成器所知的潜在版权问题。

有人推测，Sora可能是使用Unreal Engine 5生成的合成数据进行训练的。

合成数据训练的另一个迹象是 Sora 可以生成具有动态摄像机运动和三维连贯性的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中一起移动。

，时长00:15

视频模型可以作为世界模型，因为它们比纯文本和图像模型更好地代表日常生活的复杂多样性，这种想法并不是什么新鲜事。

视频人工智能初创公司RunwayML 最近公布了其世界模型研究，初创公司Wayve 正在使用视频模型来模拟自动驾驶汽车的交通。

Meta 多年来一直在收集数千小时的第一人称视频，以训练应对日常情况的人工智能辅助系统，在 Sora 揭幕当天，它展示了V-JEPA，这是一种用于预测和理解视频中复杂交互的新架构。

然而，OpenAI 的 Sora 超越了我们所知道的所有先前的方法和模型。

虽然OpenAI在官网披露了技术报告，但是对于诸多核心技术的细节并没有提及。

纽约大学助理教授谢赛宁认为，Sora的实现技术基于他们的扩散Transformer模型（DiT），这是一个带有transform主干的扩散模型。

他推测Sora可能使用了谷歌的NaViT技术，以使DiT能够适应可变的分辨率/持续时间/长宽比。他还推算出Sora的参数量约为30亿。

杨立昆转发了这条推文。

不过OpenAI这种“close”的习惯，还是让“诋毁组”马斯克找到了机会。

看到OpenAI的新作，周鸿祎在社交媒体表示，Sora的诞生意味着AGI(通用人工智能)的实现可能从10年缩短至一两年。

“Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。”

玩酷网