谷歌与openAI干上了?特地出了一个测试报告,展示其视频生成模型比Sora Turbo更先进。不过,在所有测试结果当中,我们国内的视频模型表现却很优秀,成了谷歌最强劲的竞争对手。
这事还得从Sora Turbo说起,一经发布引发了广泛的关注。然而,谷歌却半路杀出个Veo 2视频生成模型来,同时,还发布了Imagen 3图像生成模型,以及实验性的图像生成工具Whisk,用以展示其公司在生成式AI领域里,有着更大的进展。
除了展示自身AI创新能力,谷歌还搞了一个测试,在Meta发布的MovieGenBench基准数据集上,对1003个提示词及其对应的视频进行了人类评估。用显示的结果,直接回应了竞争对手如OpenAI的表现不足之处。
对比结果如下:
谷歌对比的模型为:Sora Turbo,Movie Gen,kling(可灵)以及海螺。在整体体偏好(Overall Preference)整体的能力方面,对比如下图。其中绿色部分代表Veo模型被用户偏好,红色部分代表其他模型 被用户偏好。白色部分代表结果相互打平手。
在准确遵循提示词(Prompt Adherence)的能力方面,对比如下图。绿色仍代表Veo模型的表现,红色代表其他模型表现更好,白色代表平局。
从测试中不难看出,与Veo 2相比,国内的可灵(Kling V1.5)表现最好,是唯一一个让Veo 2无法超过50%的大模型,就连谷歌都认证:可灵是他们最大的竞争对手。
然而,让人意外的是,Sora Turbo居然是主流的视频生成模型里,表现最弱的一个,Veo 2与之相比,均超过58%。要知道,Sora Turbo出来的时候,有多少人为之欢呼雀跃,认为是最强的视频模型。但谷歌的测试结果,完全颠覆了不少人此前的认知。
不可否认,谷歌作为竞争对手,也有可能“避重就轻”了。既然,这不是第三方出具的报告,那么,对一些参数数值,我们可以作为一种参考来比较。实际还得靠用户来评价,到底哪个用起来更顺手,结果更好。
不过值得注意的是,Veo 2优势确实明显。
比如,能够在4K分辨率下创建长达两分钟的高质量视频,Sora Turbo暂时就比不了;再比如从其生成的视频来看,AI幻觉就会比Sora Turbo少不少,出现多余“虚构”细节的频率较低。
同时,Veo 2特别擅长模拟真实世界的物理规律、流体力学和光线特性,使得它能够产生非常逼真的运动效果、镜头转换及电影级的画面质感。
此外,Veo 2对人类表情的理解也达到了前所未有的细致程度,可以捕捉到细微的表情变化,这对于创造更加生动的人物形象至关重要。
所以这么看的话,Veo 2确实有自己的“能力”,比Sora Turbo在某些方面更优秀。当然了,目前这些都是短时间内的比较,毕竟AI技术的更新换代太快了,未来说不定谁超谁呢。但有一点可以确定,我们国内的大模型技术,确实不赖,正在努力赶超中。