头图来源:即梦AI
过去一个月,随着 Sora 正式面向用户开放,视频模型赛道进入了新一轮疯狂内卷。不仅谷歌推出号称最强视频模型 Veo 2,国内的可灵、Minimax 也相继更新。视频模型的热闹,一时间甚至盖过了近期大热的推理模型和3D生成模型。
有意思的是,被认为行业标杆的 Sora——这个去年春节期间发布的惊艳了全行业的期货,却在正式发布后遭到了极客们和不少业内人士的吐槽,认为其表现没有想象中惊艳,尤其对比过去一年陆续发布的国内外视频模型,Sora 看起来已经没有优势甚至还要落后于这些“后辈”。
国内视频模型已经吊打 Sora?出于好奇,笔者选取了下面 7 款国产视频模型,加上 Sora,做了一个技术视角上未必严谨,但更代表用户直观体验的评测。
腾讯元宝 字节即梦AI 快手可灵AI 生数科技 Vidu 1.5 Pixverse 海螺AI (MiniMax) 智谱清影 笔者选取了创意短片、高校、幻想、二次元、网红视频五个内容领域,分别用 ChatGPT 生成了五段提示词,来看看这八个模型,在这五个领域的生成表现到底如何。 最后先叠个甲:今天视频大模型实际使用的时候还很难一步到位,往往需要多次生成数十条甚至更多的视频,才能有几个可用的结果。由于时间有限,我们在测试时每个 Prompt 只生成了几段视频,从中挑选了结果比较好的一个,由于测试数量有限,这里不能作为严谨的能力测试,只让大家对今天国产模型的能力有一个整体印象。 1. 创意短片 首先测试的是创意短片,这其实也是今天视频模型最重要的商业化应用场景——今天一部分广告营销公司正在探索如何利用视频大模型制作商业宣传广告。过去在这个领域,制作一条高质量创意广告的价格可能高达数万乃至数百万没有。 而生成创意短片,其实考验大模型两方面的能力:第一是基于能否把一些抽象的概念,变成可以看得见、摸得着的故事,也就是创意能力;第二是把创意变成视频画面,也就是创作视频的能力。 ChatGPT 生成的提示词如下 用五个关键词:科技、爱情、未来、机器人、失落,生成一个科幻爱情短片,展现未来世界中人工智能与人类情感的碰撞。 我们用每一个视频模型都生成了数个视频片段,从中选取了比较的好一个,具体结果及观感如下所示: 腾讯元宝AI 元宝生成的这段视频效果比较一般,像是一个背景上贴了两张视觉中国的机器人和人类抠图。 字节即梦AI 即梦的这段视频的画面感觉稍微好一点,有点像2000年前后的星战电影,不过说是爱情,这两位看起来却像是同行,颇有点彩虹之风,这个精神状态可以说很超前了。 快手可灵AI 可灵的这段视频,机器人和人类的质感和着装更有未来科技感,五秒钟的视频像是演绎了《魂断蓝桥》里爱人重逢的经典画面,很有故事感,画面还用了一些电影运镜的手法。不过有点微妙的是,机器人看起来有点偏中性甚至女性,也有点彩虹风。 生数科技 Vidu 1.5: Vidu 的这段和前几段视频走了一个完全不同的风格,很有赛博漫画的感觉,是几个大模型里主题风格最独特的一个。 Pixverse: 跟可灵 AI 的感觉有点像,而且也有点彩虹风。 海螺AI (MiniMax): 海螺 AI 的这条画面和运镜处理的都不错,不过故事的诠释有点不像爱情,像「战友情」。 智谱清影: 智谱的这个确实有点抽象,人物建模有点像 3D 游戏,还跳了一段舞,另外 5 秒左右的时候男主的眼睛有点诡异。 OpenAI Sora 最后是 Sora,这个确实有点难评价:机器人比真人大很多,而且全程无表情,像是机械神灵即将审判眼前的信徒。 综合来看,在创意短片的这八条视频里,七个国产大模型的表现都明显好于 Sora。其中几个模型的表现可圈可点:可灵和海螺的视频表现最自然,即梦比较真实,Vidu 比较则有特点。 2. 搞笑短片 第二组我们测试了搞笑短片,这其实是视频模型另一个非常有潜力的应用场景——越来越多的短视频创作者和内容公司正在尝试通过视频大模型来制作更生动、更贴近受众需求的娱乐内容。 生成搞笑短片,主要考验大模型在两个维度上的能力:其一是反应能力,即对恰当的幽默点的捕捉,其二是画面呈现能力,也就是能否通过将搞笑点准确传递,同时保持画面流畅。 ChatGPT 生成的提示词如下 生成一个视频,展示一只猫试图跳上沙发,结果一头栽进沙发的缝隙里,表现出惊讶和尴尬的表情。 我们用每一个视频模型都生成了数个视频片段,从中选取了比较的好一个,具体结果及观感如下所示: 腾讯元宝 除了「试图跳上沙发」表现成「爬上沙发」,元宝生成的这段视频对提示词的还原还是比较贴切的。 字节即梦AI 漏掉了「试图跳上沙发」的环节,只呈现了当一个人/猫尴尬的时候会让自己看起来很忙碌的即视感。 快手可灵AI 在完整表现提示词的前提下,连「尴尬」的表情都有。 生数科技 Vidu 完成了试图跳上沙发无果的部分,但是没栽进沙发的缝隙里,而是掉到了地上。 Pixverse 怎么变成两只猫……掉下来那只脸上不是「惊讶」而是「惊恐」。 海螺AI (MiniMax) 没有掉进缝隙里,但能看出猫咪脸上若隐若现的尴尬。 智谱清影 跳上沙发没表现出来,中间猫猫还有点变形了,不过最后的「恼羞成怒」还是有点贴切的。 OpenAI Sora 「栽进沙发的缝隙里」表现成猫咪的身体和沙发融为一体,瞬间变微型惊悚片。 综合来看,在搞笑短片的这八条视频里,元宝、即梦AI、可灵AI基本完整连贯地表现了提示词里的内容,其他模型的表现则有点多少缺失。 3. 幻想短片 第三组测试的是幻想短片。这同样是视频模型的一个重要探索方向——越来越多的内容创作者和公司开始尝试利用视频大模型打造具有高度沉浸感的奇幻世界。 生成幻想短片,其实考验大模型两方面的能力:第一是创意能力,能否从字面设定中,构建出一个充满想象力的世界,将未知的场景转化为具体可视的画面;第二是细节呈现能力,能否呈现出丰富的光影效果和动态的环境设计。 ChatGPT 生成的提示词如下 一个人在梦中穿越不同的奇异世界,包括浮空岛屿、巨型植物、以及巨大的未知生物。 具体结果及观感如下所示: 腾讯元宝 有点古风即视感,主打一个绿色调。 字节即梦AI 这个就更绿了,还很像游戏画面。「一个人在梦中穿越不同的奇异世界」这一点是一点也没体现。 快手可灵AI 这个「穿越」很快速,但除了植物没有其他生物了。 生数科技 Vidu 1.5 这个给人感觉很像「梦」,是那种五彩斑斓的梦,尤其开头生动体现了噩梦中的「惊吓感」。 Pixverse 虽然人物最后一秒变形了,不过解读出了除了大型植物意外以外的存在。 海螺AI (MiniMax) 人物变形得很明显。不过这个梦的色彩还是蛮斑斓的。 智谱清影 主打一个粉色梦幻。 OpenAI Sora 游戏操控弹跳视角。 综合来看,在幻想短片的这八条视频里,可灵AI和Vidu的表现最贴切,尤其Vidu跟其他大模型生成的内容似乎不在一个次元。即梦AI和Sora都太像游戏视角与画面了。 4. 二次元 第四组的关键词是二次元。风格化内容是视频模型主推的方向之一,二次元这一风格受众广泛,市场需求强烈。这类短片的创作对大模型在画风设定、角色设计和场景构建上要求较高,同时需要叙事和动态表现的深度融合。 ChatGPT 生成的提示词如下 制作一个二次元风格视频,讲述一位年轻少女在异世界冒险。她在一个被魔法和奇幻生物充斥的世界中,结识了各种伙伴,并面临来自黑暗势力的挑战。 具体结果及观感如下所示: 腾讯元宝 这完全是可以哄小孩的动画短片了,小女孩最后眉飞色舞的。 字节即梦AI 跟上一part的测试一样,又很像游戏画面。 快手可灵AI 这个也很像哄小孩的动画片,只是有点看不出「冒险」,一派其乐融融的景象。 生数科技 Vidu 1.5 这个动画的色彩有点过度饱和了。 Pixverse 这个短片有比较明显的皮克斯动画风格。 海螺AI (MiniMax) 开头的年轻少女会有点让人想起葫芦娃,倒是号召来几个伙伴,就是最左边的伙伴变形了。 智谱清影 很日漫。 OpenAI Sora 除了没有伙伴,对提示词的表现是相对最贴切的,不过就没有很二次元了。 这一组里智谱清影生成的内容最贴合二次元,但在画面上,Sora终于表现不错了,可灵AI产出的内容也很精美,pixverse的皮克斯风格也很到位。 5. 网红视频 最后一组测试的是网红视频,网红经济已经成为全球范围内的一大趋势,从内容创作者到品牌营销方,都在探索如何利用短视频来吸引流量和提升影响力,看看大模型在这方面的表现如何。 ChatGPT 生成的提示词如下 抖音网红在自拍时用创意特效改变背景,从普通街头一瞬间变成梦幻彩虹世界,最后加上她的微笑和俏皮手势。 具体结果及观感如下所示: 腾讯元宝 看来没识别出提示词中的「她」。 字节即梦AI 没有体现「变」的过程,直接背了个彩虹圆盘在身上。 快手可灵AI 这个生成效果真的很梦幻。 生数科技 Vidu 1.5 画风似乎有点古早,像是少儿节目预告片开头主持人亮相,然后也没体现街头这个背景。 Pixverse 最后的画面定格有点吓人,左边两位女士的面部发生了畸变。 海螺AI (MiniMax) 这个就很贴切了。画面里的「人」很像人,画风也自然舒服。 智谱清影 开头画面的主角嘴歪了。6秒的视频都有点诡异。 8.OpenAI Sora 第四秒出现的手,是两只右手,而且上方的那一只手,看起来怪怪的。但主角的笑容很灿烂,主角也非常接近真人,抛开旁边作为画面辅助的那两只手,足以以假乱真了。 这一组里海螺AI和可灵AI胜出明显,无论对提示词的理解还是画面的审美、真实感都胜出一筹。 结语 在这五个场景测试里,国产视频模型在中文交互条件下,面对非专业用户群体,整体表现是优于Sora的。尤其是在创意短片、搞笑短片和幻想短片的创作中,可灵AI、海螺AI、即梦AI和Vidu都展现了出色的创意和视觉效果,能够捕捉幽默点、打造奇幻世界以及呈现独特风格。 在二次元和网红视频的表现上,智谱清影看起来是最贴合二次元风格的画风,而海螺AI则在网红视频中特效运用和场景切换上表现了不错的创意能力和视觉效果。 但这毕竟是个有限次数下的不严谨测试,并不能代表各个模型在不同场景中的实际表现,毕竟文生视频模型接下来的重点在于对场景的应用。 智源研究院副院长林咏华最近在采访中提到「经过今年的发展,无论是开源模型,还是闭源模型,2025年都会出现基于文生图、尤其是文生视频的应用。」 这也就意味着,2025 年视觉模型将从「基础能力的提升」转向「生产场景的比拼」未来的竞争不仅仅是在画质、速度等基础指标上进行比拼,更将在具体应用场景中的表现上展开较量,特别是在广告、娱乐等行业场景里。 随着技术的不断进步,视频生成的成本和速度将逐步降低,市场的门槛也会随之降低,未来,AI 视频生成将更多融入到更加复杂和多元的应用场景中,开启全新的产业竞争。 随着大模型的逐步成熟和应用场景的多样化,如何在具体生产场景中发挥最大效能,将成为未来的关键竞争点。 真正的挑战就要来了。