2024年末决战,AI视频「卷麻了」

极客公园 2024-12-27 13:36:19

AI 视频又卷起来了。

12月中旬 Sora 正式发布,几天后谷歌推出了号称最强的 Veo 2 模型,紧接着国内 AI 视频的“卷王”可灵 AI 也宣布再次升级,更新到了 1.6 版本。

今年 6 月推出以来,可灵 AI 在过去半年里已经完成了好几轮基础模型能力和产品功能的迭代,而今年 9 月推出的可灵 1.5,已经是国内乃至全球性能最出色的视频生成模型之一。

在智源研究院的横向测评中,可灵 1.5 版本以其出色的表现排名第一;而在谷歌的横向测评里,在拿谷歌自己的 Veo 2 与包括可灵在内的四个市面上主流视频模型的生成效果对比中,可灵 1.5 模型也是除 Veo 2 外表现最好的一个。

谷歌基于外部数据集,测试 Veo2 与其他四个视频模型的表现对比

而相较于此前的 1.5 版本,新发布的可灵 1.6 在文本响应度、动态质量以及画面质量等多个核心指标上都做出了显著提升。

可以说作为「赛道卷王」,可灵再次拉高了视频模型竞赛的天花板。

从武侠招式到漫威皮卡丘,可灵 1.6 让想象力无缝衔接现实

综合测试结果,可灵 1.6 能够更加精准地理解复杂的文字描述,特别是在运动、时序动作和镜头运作方面的反应更为灵敏,生成的视频不仅在运动表现上更加合理,人物表情也更具自然感,视觉效果则在色彩、光影、细节处理上做到了进一步优化。

此外,可灵 1.6 还在图生视频的能力上进一步优化。据极客公园了解,可灵团队内部评测 1.6 的图生视频效果比 1.5 模型整体效果提升 195%,带来了更加出色的创作体验和视觉效果。

更新一出,不少 AIGC 创作者马上用可灵 1.6 尝试创作,其中有不少惊艳的作品。

AIGC 创作者 @Jadewu 的作品|视频来源:可灵AI

首先是这个表现武侠小说的经典招式——「万剑归宗」的短片。这个最早出自经典武侠漫画《风云》的招式,由于招式设定复杂,即使在火遍国内的电视剧版《风云》中,由专业的演员配合后期特效制作,也并不容易在电视剧中完美还原漫画中对这一绝招的描述。

可以看到,在可灵 1.6 创作的短片里,不仅很好地理解了「万剑归宗」这个复杂的招式,呈现效果、人物动作和兵器的特效也非常惊艳,整个场景充满真实感与震撼力。即使是在快速移动的镜头下,画面依旧保持清晰,每一个动作都生动流畅,毫无卡顿或割裂感。

创作者北邦发表在爱智岛上的作品|视频来源:可灵AI

创作者北邦则从「尚舞国风」这一风格化测试的角度对可灵1.6进行了测评。风格化测试通常涉及到模型对风格化指令的理解和执行能力,以及生成视频的视觉质量。

该创作者使用了SD Flux @ Liblib Webui 进行文生图,再用可灵1.6图生视频以及Flux LoRA混合生成,「目前可灵1.6已经对复杂的画面风格有了更多的理解和动态塑造能力,这个主要得益于1.6升级了对提示词语义理解和动态表现力。」

丝滑的舞蹈动作、浮世绘的色彩,以及精细的背景渲染,都是可灵1.6在风格化测试中展现出的亮眼表现。相比于以往的版本,1.6在对复杂画面风格的理解上有了显著的进步,能够精准捕捉并再现用户设定的艺术风格。不仅如此,模型在动态表现上的提升,也使得画面中的动作更加流畅自然,仿佛真正的舞者在其中翩翩起舞,令人惊艳不已。

AIGC创作者温维斯的作品 |视频来源:可灵AI

AIGC创作者温维斯则用可灵1.6生成了9个「漫威皮卡丘」,从生成效果来看,酷炫的漫威「外壳」跟可爱的皮卡丘融合得毫无违和感。

整体来看,动态场景流畅,动作生动自然,画面质量也很高,无论是皮卡丘的动作,还是漫威角色皮肤的细节,1.6都流畅、逼真地呈现了出来,不知道的还以为漫威真和皮卡丘梦幻联动了。

细节与动态的较量:可灵 1.6 对比 Sora

AIGC创作者归藏的作品|视频来源:可灵AI

在可灵推出1.6版本前些天,OpenAI也终于将铺垫了长达10个月的Sora正式推出,也因此,AIGC创作者归藏在对比可灵1.6、1.5版本的同时,对Sora也进行了对比。

首先来看看模型在理解文本描述并生成相应视频内容的不同能力。特别是在涉及复杂动态场景和时序动作时,模型是否能够准确地将文字转化为画面。

从文本响应度上来看,Sora对文本的理解似乎不太到位,比如在第一组里,Sora的「猛兽」并没有站起来,更没有抬头咆哮,更没有雨水落下,而可灵1.5里,「猛兽」做到了咆哮,随后天空也开始落下雨滴,但还是缺失了「抬头」这一下,1.6里则将「抬头咆哮」这一点完整地实现了。

在视频生成过程中,动态场景的流畅性和运动的自然度至关重要。这一点在第二组的小兔子吃月饼体现的比较明显。这一组里的Sora,兔子只是捧着月饼塞在嘴边,并没有「吃」这个动作,月亮的移动也是「倏」地一下,而可灵1.5则生动体现了「吃」这个动作,不过月亮的移动还是算不上「缓慢」,但1.6版本则在「吃」的基础上,将月亮的移动也变得「缓慢」了。

AIGC创作者归藏的作品|视频来源:可灵AI

画面的质量直接影响观看体验。这组关于柿子树的测试,可以比较明显地看出模型在色彩还原、光影效果和细节处理方面的不同表现。

在这组对照里,Sora呈现出的柿子树首先就看着有点「假」,柿子的颜色亮的实在有点突兀了,在镜头的推移上基本没有变化,而可灵1.5里「柿子」的形态首先就看着跟真的差不多,镜头由近拉远的同时,冬雾也在空中腾起,可灵1.6则更进一步,不仅柿子在树上的分布有所变化,还有阳光从远处的群山处折射过来,并且雪花在空中飞舞,画面的丰富度与质感都明显优于前两者。

从“中国的Sora”到“世界的可灵”

在过去的一年里,视频生成模型迎来了持续的更新迭代。从Sora的首发引发业界轰动,再到各大国内外厂商相继推出新版本,AI视频生成领域无疑进入了一个加速发展的阶段。

可灵 AI 刚问世时曾被外界称为中国版 Sora,备受业界内外期待,推出后一度位列全球访问量最高的AI视频产品,时至今日,从前述可灵1.6的升级以及对照中超越Sora的表现可以看出,可灵 AI 已成为国产 AI 的代表,在国际上证明了自己的实力,成为全球视频生成领域的标杆之一。

在这场竞速中,可灵 AI 无疑扮演着“赛道卷王”的角色,正在以一系列创新和技术突破不断刷新行业天花板。

6月,可灵 AI 初次亮相,就以全球首个真实影像级视频生成大模型的姿态惊艳全场,随后,其技术能力迅速进化,快速推出了图生视频、视频续写、运动笔刷等创新功能,不仅显著提升了画面质量、动态表现和指令响应能力,还将文生视频的生成时长扩展至10秒,为创作者提供了更加自由的发挥空间。

到了9月,升级版可灵 1.5发布,进一步增强了画质、动态质量、运动合理性、语义理解等方面的表现,展现了可灵 AI 在细节和创意上的强大潜力,全球用户在社交平台上创作了大量创意视频,充分展示了这一技术在艺术创作和内容生产中的无限可能。

自推出6个月来,大大小小迭代10余次的可灵 AI ,不仅此前每一次的更新都超越了以往的局限,不断推动生成效果达到新高度,赋予了模型更强的适应性和创造力,此次从1.5到1.6的升级,则更是体现了对细节的极致打磨。

(可灵1.6模型概念宣传片)

无论是文本响应、动态效果,还是画面质量的提升,可灵 AI 在技术上实现精细化调整的同时,也在无形中推动了整个行业天花板的提升。这一版本的发布不仅展现了国产技术的强大实力,更加速了全球AI视频生成领域的技术进步,可以说是「卷王之王」。

如今的AI视频生成不仅仅是技术层面的比拼,更是各大厂商在算法优化、细节呈现、生成质量上的全面较量。在这场竞争中,可灵 AI 凭借其不断升级的技术和强大的创造力,已位列行业前沿。数据显示,可灵 AI 发布半年来,已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。

在这一轮竞争中,可灵 1.6 的亮相,不仅进一步拉高了行业天花板,也意味着,随着技术的不断突破和创作空间的扩展,AI视频生成的未来将不仅仅停留在技术层面的革新,而将开启全新的视觉创作时代。

头图来源:可灵AI

0 阅读:4