真想用上好用的文生视频,等Sora还是用国产?
引言:
Sora或已至面世前夕,国产AI视频软件准备好了吗?
11月9日,Runway首席执行官Cristóbal Valenzuela在X平台发布消息称,OpenAI或将于两周后正式发布Sora。
其实,早在今年3月,OpenAI首席技术官Mira Murati在接受采访时就表示,Sora将在年内推出,但Sora作为一个可以生成非常逼真视频的软件,很容易在美国大选中被用来进行虚假信息的捏造和传播,所以会谨慎选择发布Sora的时间。
而现在美国大选已经尘埃落定,2024年也只剩下一个月的时间,Sora将于近期同所有人见面也几乎成为了板上钉钉的事情。
但也就是在Sora从亮相到即将发布这几个月里,国内的“Sora”们也在奋起直追,那么,在Sora亮相之前半年多的“空窗期”里,国内各家的文生视频、图生视频进化到了什么水平?
我们选取了快手的可灵、MiniMax的海螺、智谱的智谱清影、字节的即梦、阿里云的通义万相还有生数科技的Vidu用作测评,从主流的文生视频与图生视频入手,文生视频从纯靠想象的场景与输入复杂文本时视频的匹配度两方面、图生视频从动物拟人化场景进行展现,为保证可对照,给出的提示词与初始图相同,相关内容一次生成。
第一部分:文生视频,优质数据最多的即梦表现不错
在文生视频的第一个测试中,将会给这些文生视频应用“自由”的想象空间,给出一个并非现实存在的、纯靠想象的Prompt——“远古时期,恐龙与巨大的魔法生物在火山脚下激战”,一起来看看这几个大模型生成的视频如何吧。
在快手可灵的文生视频相关设置中,有一个在“创意想象力”与“创意相关性之间”进行平衡的滑动选项,通过这个选项,创作者能够在一定程度上对最终的生成结果进行选择,决定其希望的最终作品是更贴合输入的Prompt,还是更具想象力。
不过,如果将想象力拉满,可灵也会提示有小概率出现图片和描述内容冲突导致的画面错误,但在我们之后的多次“挖坑”之后发现,其大多只会在那些本就难以描述或想象的情况下,才会出现同描述内容不太相干甚至有些光怪陆离的情况。
在其生成的视频中,则其实是由一群恐龙和会发光的恐龙上镜,至于提示词中“巨大的魔法生物”则没有出现(也可能在可灵的认知中发光的恐龙就是),但背景的“火山”和“激战”还是比较好地体现了出来,虽然显得有些差强人意,但一些纹理与细节在这个纯靠想象的Prompt要求下还算勉强。
接下来MiniMax的海螺视频的文生视频中,则显得比较“简陋”了,并没有像可灵那样可选择生成市场、比例、数量和运镜方法,也没有让用户填写不希望呈现的内容,只是有一个更改Prompt的功能,以提升视频最终的生成质量。
在生成参数设置为0外,最终生成视频的质量也只能称得上一般,提示词中“恐龙”、“火山脚下”均有体现,但“巨大的魔法生物”与“激战”这个主体之一与动作则丝毫没有出现,可以说离Prompt的距离还有很远,想象力也同样没有体现。
不过,海螺的生成结果中的纹理更加清晰,恐龙的皮肤这样的细节处理则显得不错。
而第三位测试的智谱清影,在参数方面则主要可选择视频风格、情感氛围与运镜方式,其中运镜方式包括水平、垂直、推近、拉远四类,算是给了用户一些选择,此外,充值玩家还可以生成质量更佳的视频,并添加很有限的BGM。
在生成结果方面,智谱清影的背景“火山”与动作“激战”表现得都很不错,尤其是激战起码有了打斗的场面,但就是这个恐龙和巨大的魔法生物好像出现了纠缠状况,说他们是魔法恐龙或许更加贴切一些。
此外,这个帧率也的确不敢恭维,虽然在参数选择中可以生成质量更佳的视频,但就算充值VIP后再次生成,也一直显示采用的是速度更快的生成模式,到后面甚至变成了一张图片从上向下地浏览视频,着实难以称得上好用。
接下来登场的是字节的即梦了,不吹不黑实事求是地说,生成质量可以说是“吊打”友商?
背后的火山、脚下的土地、头上的天空与云朵、恐龙的皮肤纹理与动作,即梦生成视频的质量真的远超其他文生视频产品,但就是和Prompt想要的相差不少,既没有“巨大的魔法生物”,也没有“激战”,虽然视频的质量很高,但没有按要求完成任务是个大问题。
不过,不着调的不止即梦一个,通义万相生成的视频也同样抽象。
恐龙是有了,但火山、魔法生物、激战却没有出现,而且这个画风实在是有点太过卡通和动画了,通义万相的恐龙和即梦的恐龙一比简直是天上地下,想要用作其他正式一点的途径,还是早点洗洗睡吧。
而最后一位生数科技的Vidu的表现,也和上面大伙们差不了多少。
提示词中提到背景、主体、动作都有体现,但“巨大的魔法生物”却没有出现,打着“让想象发生”slogan的Vidu,还是没有让想象发生啊,而且从生成效果上来说,也算不得特别优秀。
在体验完考验各家文生视频大模型“无中生有”的想象力后,可以说是各有问题、“全军覆没”,效果最好的即梦还出现了“读题错误”的情况,那么在一点都不依靠想象力、提示词无比完善的情况下,表现又如何呢?这次我们给出的提示词是“在秋天的一个下午,两个女孩坐在布满红色枫树树叶的公园的长椅上,其中一个女孩面带微笑,轻轻地抚摸着一条雪纳瑞犬的背部”。
其中,可灵或许存在Prompt合规的需求,只能将Prompt更改为“在秋天的一个下午,两个小朋友坐在布满红色枫树树叶的公园的长椅上,其中一个小朋友面带微笑,轻轻地抚摸着一条雪纳瑞犬的背部”,结果如下。
Prompt中的红色枫叶、长椅、两个小朋友、面带微笑、雪纳瑞、轻轻抚摸这些背景、主体、动作都有着很好的呈现,并且在创意想象力拉至0时,只要不苛求一些细节也确实称得上相对真实,但在雪纳瑞犬的尾部却与左面小朋友衣服的花纹出现了很严重的模糊,并且开始帧和结束帧小狗的位置也完全不同,再加上时而出现时而消失的手掌和第三只手的出现,确实有点小恐怖了。
相比之下,海螺的视频相对好一些,Prompt中的要求全部出现,而且细节处理也还算不错,就是和其他文生视频大模型同样会出现问题的、忽而五根忽而六根的手指有点让人出戏,还有地上每一片都很规整、明显就不真实的红色枫叶也有些过分了。
智谱生成的结果则比较讨巧,虚化了红色枫叶的背景、选取了看不到脸的角度,但除了长椅之外几乎都能看到Prompt中提到的要素,除了某几帧凭空出现的手指之外还算不错,不过,但从这个视频来看没有一点真实感,也是最大的问题。
相比于前面三位,即梦延续了刚刚的表现,可以说是最好的一个,除了长椅没有体现出来之外,主人公衣服的细节、表情的拿捏、雪纳瑞的模样都可以说得上是十分优质,而且从中也能看出字节对于国内数据的存储与训练远超竞品,也无愧是当前数据NO.1企业的大模型了。
而有了前面即梦的“高调”,通义万相的作品就相形见绌了。
这个枫叶、这个长椅和长椅下面的水泥墩子,真实地让人出戏,而且或许是由于阿里对于“狗”这一数据的缺乏与缺失,相对冷门雪纳瑞也被替换做了最火的犬种金毛,而且手部细节处理也不太理想,只能说还需努力了。
而最后的Vidu,也出现了上面提到的一些问题,譬如枫叶形状太过统一、长椅高度不符合现实情况、手指与阴影处生成质量不佳、对某些“冷门”犬种的数据量不足导致生成错误。
总的看下来,在文生视频这里表现最好的还是字节的即梦,也是最接近Sora半年多之前扔出来的宣传片的那个,但距离Sora、距离现实的差距还是很远,就算不说同现实相同,现在来做一些广告类型的视频,也还需要不少的调教。
第二部分:图生视频,快手可灵在测试中作品最佳
在文生视频之外,图生视频也是这些大模型需要“攻克”的另一座高山,虽然后续生成逻辑相似,但图生视频模型首先要对输入的图像进行深入分析,包括图像的内容(物体、人物、场景)、结构(布局、构图)、色彩(色调、对比度)等,属于更加“进阶”的功能。
而我们也上传了一张小狗的图片,给出“让它坐着,对镜头微笑”的提示词,这样的要求可以说已经是十分苛刻了(其他更加困难的拟人化要求在测试中几乎都无法生成正常的视频),既是现实场景又有动作要求,一起看看各自的表现怎么样吧?
原图
最先生成视频的可灵可以说是十分OK了,无论是视频背景对外部的扩展、视频主体的拟人化行为与动作,都非常贴近现实,如果没有仔细看,真的会以为是实拍视频。
不过,在我以为其他友商会给我更多惊喜的时候,却发现这居然是它们几个里面最优秀的一个了,海螺、智谱清影、即梦和通义万相生成的视频,都让人一眼难尽。
其中海螺生成的视频,且不用说是否完成了提示词中的要求,就连主体和背景都出现了极为严重的畸变,看着都让人有一种头晕目眩的感觉。
在海螺外,智谱、即梦、通义万相生成的视频也质量很差,背景、主体畸变、不符合提示词要求几乎每个都存在,这样的图生视频想要用作任何途径,看着都有点困难吧。
而最后的Vidu,虽然也有一些细节的问题,譬如狗的品种出现了梗犬内部的错觉、没有将背景很好地延伸,但起码没有出现让人两眼一黑的情况,也顺利完成了要求。
可以说,在图生视频下真实照片的生成,快手的可灵表现是最好的,此外,我们也进行了二次元图片的图生视频,都各有风格,但更多的还是让人眼前一黑的效果,可以说,起码在真实图片图生视频这里,除了快手的可灵外,大家距离可用还真的很远。
写在最后:
在大量体验这些被称作国内Sora的软件后,再去看看Sora放出的视频,给我的感受只有一个,那就是国内的视频生成大模型还有很长很久的路要走,至于想要做到真正商用的水平,还需要技术的进步和更加精细的调教,或是等待OpenAI这些“天兵”普降甘霖吧。
而在收费方面,除了通义万相和可灵的积分“相对”充足一些,其他各家如果不充值几乎没办法进行使用,尤其是现在这种需要多次微调的水平,不过,生成视频大模型的成本也的确不低,只能希望国内的大小厂们继续努力了。
作者:杨启隆
编辑:丁力