谷歌与openAI干上了？发布视频模型测试报告：Sora表现最差？

谷歌与openAI干上了？特地出了一个测试报告，展示其视频生成模型比Sora Turbo更先进。不过，在所有测试结果当中，我们国内的视频模型表现却很优秀，成了谷歌最强劲的竞争对手。

这事还得从Sora Turbo说起，一经发布引发了广泛的关注。然而，谷歌却半路杀出个Veo 2视频生成模型来，同时，还发布了Imagen 3图像生成模型，以及实验性的图像生成工具Whisk，用以展示其公司在生成式AI领域里，有着更大的进展。

除了展示自身AI创新能力，谷歌还搞了一个测试，在Meta发布的MovieGenBench基准数据集上，对1003个提示词及其对应的视频进行了人类评估。用显示的结果，直接回应了竞争对手如OpenAI的表现不足之处。

对比结果如下：

谷歌对比的模型为：Sora Turbo，Movie Gen，kling（可灵）以及海螺。在整体体偏好（Overall Preference）整体的能力方面，对比如下图。其中绿色部分代表Veo模型被用户偏好，红色部分代表其他模型被用户偏好。白色部分代表结果相互打平手。

在准确遵循提示词（Prompt Adherence）的能力方面，对比如下图。绿色仍代表Veo模型的表现，红色代表其他模型表现更好，白色代表平局。

从测试中不难看出，与Veo 2相比，国内的可灵（Kling V1.5）表现最好，是唯一一个让Veo 2无法超过50%的大模型，就连谷歌都认证：可灵是他们最大的竞争对手。

然而，让人意外的是，Sora Turbo居然是主流的视频生成模型里，表现最弱的一个，Veo 2与之相比，均超过58%。要知道，Sora Turbo出来的时候，有多少人为之欢呼雀跃，认为是最强的视频模型。但谷歌的测试结果，完全颠覆了不少人此前的认知。

不可否认，谷歌作为竞争对手，也有可能“避重就轻”了。既然，这不是第三方出具的报告，那么，对一些参数数值，我们可以作为一种参考来比较。实际还得靠用户来评价，到底哪个用起来更顺手，结果更好。

不过值得注意的是，Veo 2优势确实明显。

比如，能够在4K分辨率下创建长达两分钟的高质量视频，Sora Turbo暂时就比不了；再比如从其生成的视频来看，AI幻觉就会比Sora Turbo少不少，出现多余“虚构”细节的频率较低。

同时，Veo 2特别擅长模拟真实世界的物理规律、流体力学和光线特性，使得它能够产生非常逼真的运动效果、镜头转换及电影级的画面质感。

此外，Veo 2对人类表情的理解也达到了前所未有的细致程度，可以捕捉到细微的表情变化，这对于创造更加生动的人物形象至关重要。

所以这么看的话，Veo 2确实有自己的“能力”，比Sora Turbo在某些方面更优秀。当然了，目前这些都是短时间内的比较，毕竟AI技术的更新换代太快了，未来说不定谁超谁呢。但有一点可以确定，我们国内的大模型技术，确实不赖，正在努力赶超中。

玩酷网