全面对标OpenAISora！清华团队推出视频生成模型“Vidu”

文丨Congerry

Sora自2月推出以来，掀起了全球视频生成模型的热潮，各家公司和科研团队也纷纷加入了对标Sora的竞逐。

近日，一支震撼视频在国内外引发关注。

，时长01:26

这是生数科技联合清华大学在2024年中关村论坛年会上最新发布的视频大模型“Vidu”生成的视频作品。

这款模型被视为国内首个达到Sora级别的视频模型。

令人惊艳的是，“Vidu”在生成长达16秒、分辨率高达1080p的高清视频时，画面效果不仅接近OpenAI的Sora，在多镜头语言、时间和空间一致性、遵循物理规律等方面，表现同样卓越。

Vidu全面对标Sora

在今年3月12日的一次交流中，生数科技联合创始人兼CEO唐家渝曾说：“今年内一定能达到Sora目前版本的效果，但很难说是三个月还是半年”。

结果不到两个月的时间，Vidu就发布了。从Vidu生成的视频中，我们也可以看到Vidu的综合效果已经可以媲美Sora此前的视频效果。Vidu生成的视频不再是单一平面镜头，而是具备了电影般的镜头语言和叙事感。

比如在某段"海边小屋"场景中，我们可以看到远景、近景、中景、特写等多种镜头的切换，犹如亲临现场一般，浸入式体验十足。

，时长00:15

"Vidu"生成的视频在较长时间内，能够保持人物和场景表情、造型、光影等元素的一致性，连贯流畅，避免了常见的画面突变和逻辑混乱。

"Vidu"还能模拟现实世界中物体运动和相互作用时遵循的物理规律，比如汽车行驶时车轮扬起路面尘埃、车身投射的动态阴影等，极为贴近真实体验。

我们也可以对比一下Sora生成的视频效果。

，时长00:20

“Vidu”不仅能生成真实世界场景，还能虚构出诸如“画室中的海浪”、“鱼缸中的女孩”等超现实画面。

与Sora不同，“Vidu”还能生成具有中国本土文化特色的视觉元素，如熊猫、龙、宫殿等，这一点对于本土内容创作而言颇有优势。

，时长00:16

两个月"从0到1"有何秘诀

能在两个月内实现上述突破，“Vidu”团队的深厚技术积累功不可没。

“Vidu”所采用的U-ViT架构就是该团队早在2022年就首次提出的，比Sora的DiT架构更早。

生数科技首席科学家朱军教授此前接受媒体专访时表示，这个模型的主要思想是用Vision Transformer去替代U-Net，和Sora DiT核心的想法是一样的，就是用Transformer去增强扩散模型，并通过特殊的设计如长连接，来提高模型在视觉数据生成任务中的效率和性能。

此外，团队去年3月就在开源数据集上训练了参数量达10亿的多模态大模型UniDiffuser，首次验证了融合架构在大规模训练任务中的可扩展性，为视频模型研发提供了坚实支撑。

除了深厚的技术沉淀，跨模态统一建模、大规模训练加速等自研技术在“Vidu”的诞生中也发挥了关键作用。团队在国际顶级会议上发表了近30篇相关论文，并取得了多项突破性成果。

清华系大佬云集成就非凡之作

“Vidu”背后的生数科技可谓清华系大佬云集之作。

生数科技成立于2023年3月，核心团队成员来自清华大学人工智能研究院，在视觉生成和多模态AI领域已有20多年研究基础。

公司首席科学家由清华人工智能研究院副院长朱军担任；CEO唐家渝出身于清华大学计算机系；CTO鲍凡既是朱军教授的学生，也是提出U-ViT架构的主要负责人。

此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才，是全球范围内领先的深度生成式算法研究团队，拥有扩散概率模型底层创新研发能力。

生数科技自成立以来，就备受业内重视，已获得蚂蚁集团、启明创投、字节基金等多家知名机构的数亿元融资支持。

“Vidu”的问世标志着生数科技迈出了关键一步，未来它还将拓展更加通用的多模态能力。

玩酷网