近期,一项涵盖700多组测试的AI视频生成模型评测项目引发广泛关注。该项目对比了包括Runway Gen3、可灵、Luma、minimax海螺、智谱清影等13款主流AI视频生成模型的表现,涉及文生视频、图生视频和视频生视频三大类别。这份堪称"天花板级"的评测报告,为我们提供了一个全面了解当前AI视频生成技术水平的窗口。
本文将从以下几个方面对这项评测进行深入解析:
一、评测模型概览
本次评测涵盖了以下模型:
1. Runway Gen3
2. 可灵1.0和1.5版本
3. 清华大学的VIDU
4. Luma 1.0和1.6版本
5. minimax的海螺AI
6. 智谱AI的清影
7. 阿里的通义万相
8. 开源模型CogVideoX-5B
9. 开源模型EasyAnimate-v4
10. 开源模型OpenSora 1.2
二、文生视频测试亮点
1. 静态场景与物理效果还原
以"玻璃球在光滑桌面上移动"为例,测试重点包括:
- 静态摄像机效果
- 玻璃球滚动的物理真实性
- 玻璃球的光影和反射效果
结果显示,可灵1.5在综合表现上最为出色,海螺AI次之。
2. 照明效果测试
通过改变提示词中的照明描述(如"soft lighting"、"bright lighting"、"dim lighting"),观察各模型对光线变化的理解和呈现能力。结果表明,不同模型对同一提示词的理解存在差异,生成效果也各不相同。
3. 动态场景生成
以"猎豹奔跑"场景为例,测试重点包括:
- 长提示词的理解与还原能力
- 快速运动物体的生成稳定性
- 细节表现(如扬起的灰尘、背景模糊等)
可灵1.5、Runway Gen3、海螺AI和通义万相在此类测试中表现较为出色。
三、图生视频测试亮点
1. 流体效果
在咖啡和可乐倒入杯中的测试中,Runway Gen3和清影在流体效果还原上表现最佳。
2. 二次元动画
在动画人物生成测试中,各模型普遍存在一定程度的崩坏现象,尤其是在大幅度动作场景下。VIDU在保持画面稳定性方面略胜一筹。
3. 真实场景
在汽车行驶场景测试中,Luma 1.6、通义万相和VIDU表现较好。值得一提的是,清影模型在细节处理上表现惊艳,如准确呈现了车辆刹车灯的亮起顺序。
四、人物面部测试
1. 表情一致性
在夸张表情测试中,各模型普遍难以保持面部一致性。但在小幅度表情变化场景下,大多数模型表现尚可。
2. 二次元人物
各模型在生成二次元人物面部动作时,均存在不同程度的崩坏现象。
五、总结与展望
1. 商业闭源模型整体表现优于开源模型。
2. Runway、可灵、Luma、海螺AI四家模型各有特色,整体效果差距不大。
3. 国内模型如VIDU、清影、通义万相等也展现出较强实力,未来发展潜力巨大。
4. AI视频生成技术发展迅速,各家模型更新频繁,行业格局可能随时发生变化。
本次评测为AI视频生成领域提供了宝贵的参考数据,但仍难以涵盖所有场景和模型。未来,随着技术的不断进步,我们有理由期待AI视频生成效果的进一步提升和应用场景的不断拓展。