全面对标OpenAISora!清华团队推出视频生成模型“Vidu”

趣唠科技不打烊 2024-05-01 10:07:22

文丨Congerry

Sora自2月推出以来,掀起了全球视频生成模型的热潮,各家公司和科研团队也纷纷加入了对标Sora的竞逐。

近日,一支震撼视频在国内外引发关注。

,时长01:26

这是生数科技联合清华大学在2024年中关村论坛年会上最新发布的视频大模型“Vidu”生成的视频作品。

这款模型被视为国内首个达到Sora级别的视频模型。

令人惊艳的是,“Vidu”在生成长达16秒、分辨率高达1080p的高清视频时,画面效果不仅接近OpenAI的Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面,表现同样卓越。

Vidu全面对标Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾说:“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。

结果不到两个月的时间,Vidu就发布了。从Vidu生成的视频中,我们也可以看到Vidu的综合效果已经可以媲美Sora此前的视频效果。Vidu生成的视频不再是单一平面镜头,而是具备了电影般的镜头语言和叙事感。

比如在某段"海边小屋"场景中,我们可以看到远景、近景、中景、特写等多种镜头的切换,犹如亲临现场一般,浸入式体验十足。

,时长00:15

"Vidu"生成的视频在较长时间内,能够保持人物和场景表情、造型、光影等元素的一致性,连贯流畅,避免了常见的画面突变和逻辑混乱。

"Vidu"还能模拟现实世界中物体运动和相互作用时遵循的物理规律,比如汽车行驶时车轮扬起路面尘埃、车身投射的动态阴影等,极为贴近真实体验。

我们也可以对比一下Sora生成的视频效果。

,时长00:20

“Vidu”不仅能生成真实世界场景,还能虚构出诸如“画室中的海浪”、“鱼缸中的女孩”等超现实画面。

与Sora不同,“Vidu”还能生成具有中国本土文化特色的视觉元素,如熊猫、龙、宫殿等,这一点对于本土内容创作而言颇有优势。

,时长00:16

两个月"从0到1"有何秘诀

能在两个月内实现上述突破,“Vidu”团队的深厚技术积累功不可没。

“Vidu”所采用的U-ViT架构就是该团队早在2022年就首次提出的,比Sora的DiT架构更早。

生数科技首席科学家朱军教授此前接受媒体专访时表示,这个模型的主要思想是用Vision Transformer去替代U-Net,和Sora DiT核心的想法是一样的,就是用Transformer去增强扩散模型,并通过特殊的设计如长连接,来提高模型在视觉数据生成任务中的效率和性能。

此外,团队去年3月就在开源数据集上训练了参数量达10亿的多模态大模型UniDiffuser,首次验证了融合架构在大规模训练任务中的可扩展性,为视频模型研发提供了坚实支撑。

除了深厚的技术沉淀,跨模态统一建模、大规模训练加速等自研技术在“Vidu”的诞生中也发挥了关键作用。团队在国际顶级会议上发表了近30篇相关论文,并取得了多项突破性成果。

清华系大佬云集成就非凡之作

“Vidu”背后的生数科技可谓清华系大佬云集之作。

生数科技成立于2023年3月,核心团队成员来自清华大学人工智能研究院,在视觉生成和多模态AI领域已有20多年研究基础。

公司首席科学家由清华人工智能研究院副院长朱军担任;CEO唐家渝出身于清华大学计算机系;CTO鲍凡既是朱军教授的学生,也是提出U-ViT架构的主要负责人。

此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。

生数科技自成立以来,就备受业内重视,已获得蚂蚁集团、启明创投、字节基金等多家知名机构的数亿元融资支持。

“Vidu”的问世标志着生数科技迈出了关键一步,未来它还将拓展更加通用的多模态能力。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注