中国首个Sora级视频大模型发布

程序员一点 2024-04-27 16:04:28

中国首个Sora级别的视频大模型——Vidu,由生数科技联合清华大学在中关村论坛未来人工智能先锋论坛上正式发布。Vidu模型的发布标志着中国在视频大模型领域的重大进展,其技术特点和创新之处引起了业界的广泛关注。

Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。该模型不仅能够模拟真实物理世界,还拥有丰富的想象力,具备多镜头生成、时空一致性高等特点。Vidu在设计上能够理解并生成中国元素,如熊猫、龙等特有的文化符号,显示了对本土文化的高度理解能力。

Vidu的快速突破得益于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,是全球首个Diffusion与Transformer融合的架构,早于Sora采用的DiT架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,完成了U-ViT架构的大规模可扩展性验证。

Vidu的发布,不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。生数科技表示,大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合,并推出了“Vidu大模型合作伙伴计划”,旨在构建合作生态,推动产业链上下游企业、研究机构共同参与。

Vidu的问世,展示了中国在AI领域的自主研发能力,其性能全面对标国际顶尖水平,并在加速迭代提升中,预示着中国在全球AI视频大模型竞赛中占据了重要地位。

0 阅读:132

程序员一点

简介:分享编程的知识,欢迎大家关注