Sora爆火,文生视频迎来“GPT时刻”

趣唠科技不打烊 2024-02-22 08:45:51

文丨Congerry

在Sora发布之前,文生视频某种意义上已经被跑通。

去年,《瞬息全宇宙》凭借Runway的技术支持,在奥斯卡颁奖礼上一举斩获七项大奖,成为最大赢家。

2023年末,Pika的出现也让大家眼前一亮。

But,当OpenAI祭出Sora时,已有的文生视频工具都瞬间变得黯然失色。

这不只是说说。

近期,很多人把Sora与“前辈们”进行了对比。

业界大佬Gabor Cselle对Sora模型进行了测试,并将其与Pika、RunwayML和Stable Video进行了对比。

他发现,其他主流工具生成的视频都大约只有5秒钟,而Sora可以在一段长达17秒的视频场景中,保持动作和画面一致性。

,时长00:17

SORA vs Pika vs RunwayML vs Stable Video.

如果这些场景看得还不够清晰,还有一些其他案例。

,时长00:08

从上面视频可以看到,Sora的生成效果已经明显接近实拍,无论是色彩,画面细节,清晰度都已经完胜Gen 2。

相较于小幅度的变化,Sora生成的狗狗和白雪都更加自然生动。

,时长00:11

猫咪同样如此。

,时长00:10

这样超强的视频生成能力,不止局限于此。

,时长00:20

提示词:“一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一名男子进入大教堂,向坐在王座上的巨型猫王鞠躬。”

,时长00:17

马斯克在X平台上的评价是“gg humans(人类)。

Sora看起来像是文本和视频到视频生成的巨大飞跃,但 OpenAI 表示,Sora的潜力要大得多,它可以成为一个世界模拟器。

这个模型基于类似于语言模型的变换器架构,并结合了图像生成器中的扩散技术。在训练过程中,Sora会摄入视频和图像,并将它们分解成更简单的形式和更小的部分,然后从这些部分生成新的视觉效果。

与以往专注于特定类别视觉数据、短视频或固定大小视频的许多作品不同,Sora可以生成不同长度、宽高比和分辨率的视频和图像。

但Sora的能力不止于此,它还能够生成交互式的3D世界。

OpenAI没有评论它使用的训练数据,但从目前展示的场景来看,OpenAI似乎使用了非常高质量的合成训练数据,这些数据是由游戏引擎生成的逼真场景,而不是或除了真实影像。这将允许公司避免或减轻文本和图像生成器所知的潜在版权问题。

有人推测,Sora可能是使用Unreal Engine 5生成的合成数据进行训练的。

合成数据训练的另一个迹象是 Sora 可以生成具有动态摄像机运动和三维连贯性的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一起移动。

,时长00:15

视频模型可以作为世界模型,因为它们比纯文本和图像模型更好地代表日常生活的复杂多样性,这种想法并不是什么新鲜事。

视频人工智能初创公司RunwayML 最近公布了其世界模型研究,初创公司Wayve 正在使用视频模型来模拟自动驾驶汽车的交通。

Meta 多年来一直在收集数千小时的第一人称视频,以训练应对日常情况的人工智能辅助系统,在 Sora 揭幕当天,它展示了V-JEPA,这是一种用于预测和理解视频中复杂交互的新架构。

然而,OpenAI 的 Sora 超越了我们所知道的所有先前的方法和模型。

虽然OpenAI在官网披露了技术报告,但是对于诸多核心技术的细节并没有提及。

纽约大学助理教授谢赛宁认为,Sora的实现技术基于他们的扩散Transformer模型(DiT),这是一个带有transform主干的扩散模型。

他推测Sora可能使用了谷歌的NaViT技术,以使DiT能够适应可变的分辨率/持续时间/长宽比。他还推算出Sora的参数量约为30亿。

杨立昆转发了这条推文。

不过OpenAI这种“close”的习惯,还是让“诋毁组”马斯克找到了机会。

看到OpenAI的新作,周鸿祎在社交媒体表示,Sora的诞生意味着AGI(通用人工智能)的实现可能从10年缩短至一两年。

“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注