中国首个视频大模型Vidu颠覆而来，性能全面对标Sora！

《中国AIGC应用全景报告》指出，今年中国AIGC（生成式人工智能）应用市场规模将达200亿元，到2030年将达万亿规模，2024年到2028年的年平均复合增长率将超30%。在这个炙手可热的赛道上，新模型与新应用正持续涌现，不断颠覆着内容生产模式。

4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。这是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平。

与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频，且分辨率高达1080P。

生数科技方面介绍，Vidu采用的核心技术U-ViT架构，由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion（扩散概率模型）与Transformer融合的架构，完全由团队自主研发。

当前，Vidu主要有以下特点与优势：

一是模拟真实物理世界，可以生成复杂、细节丰富的场景，光影效果与人物表情都能够符合真实的物理规律。

二是富有想象力，可以虚构场景以及想象超现实主义的画面。

三是具有多镜头语言，不再局限于固定镜头，能够在遵循主体一致性的情况下实现远景、近景、中景、特写等不同镜头的动态切换，还可以实现长镜头、追焦等效果。

四是有出色的视频时长，能支持16秒长度的视频生成，保持镜头和主体的连贯一致。

五是能理解中国元素，可以更好地理解生成熊猫、龙等富有中国文化特色的形象。

在生数科技发布的Vidu模型生成视频样片中，视频的整体质感可与Sora相媲美，并能创造出具有深度和复杂性的超现实主义内容，比如“画室里的一艘船正在海浪中驶向镜头”。

Vidu背后的生数科技成立于2023年3月，公司创始团队来自清华大学人工智能研究院，是全球范围内最早从事扩散概率模型研究的团队之一。截至目前，生数科技已完成数亿元融资，投资方包括启明创投、蚂蚁集团、BV百度风投、达泰资本、锦秋基金、卓源亚洲等知名机构。

目前全世界有3.05亿视频创作者，每天有200亿次以上的视频播放量，视频需求非常大。在“视频为王”的时代，文生视频大模型Vidu的问世，有望推动视频创作者生产力革命，大幅降低生产成本与创作门槛！

玩酷网