AI视频生成大比拼:13款主流模型谁最强?

啤酒罐数字游民笔记 2024-10-18 18:51:20

近期,一项涵盖700多组测试的AI视频生成模型评测项目引发广泛关注。该项目对比了包括Runway Gen3、可灵、Luma、minimax海螺、智谱清影等13款主流AI视频生成模型的表现,涉及文生视频、图生视频和视频生视频三大类别。这份堪称"天花板级"的评测报告,为我们提供了一个全面了解当前AI视频生成技术水平的窗口。

本文将从以下几个方面对这项评测进行深入解析:

一、评测模型概览

本次评测涵盖了以下模型:

1. Runway Gen3

2. 可灵1.0和1.5版本

3. 清华大学的VIDU

4. Luma 1.0和1.6版本

5. minimax的海螺AI

6. 智谱AI的清影

7. 阿里的通义万相

8. 开源模型CogVideoX-5B

9. 开源模型EasyAnimate-v4

10. 开源模型OpenSora 1.2

二、文生视频测试亮点

1. 静态场景与物理效果还原

以"玻璃球在光滑桌面上移动"为例,测试重点包括:

- 静态摄像机效果

- 玻璃球滚动的物理真实性

- 玻璃球的光影和反射效果

结果显示,可灵1.5在综合表现上最为出色,海螺AI次之。

2. 照明效果测试

通过改变提示词中的照明描述(如"soft lighting"、"bright lighting"、"dim lighting"),观察各模型对光线变化的理解和呈现能力。结果表明,不同模型对同一提示词的理解存在差异,生成效果也各不相同。

3. 动态场景生成

以"猎豹奔跑"场景为例,测试重点包括:

- 长提示词的理解与还原能力

- 快速运动物体的生成稳定性

- 细节表现(如扬起的灰尘、背景模糊等)

可灵1.5、Runway Gen3、海螺AI和通义万相在此类测试中表现较为出色。

三、图生视频测试亮点

1. 流体效果

在咖啡和可乐倒入杯中的测试中,Runway Gen3和清影在流体效果还原上表现最佳。

2. 二次元动画

在动画人物生成测试中,各模型普遍存在一定程度的崩坏现象,尤其是在大幅度动作场景下。VIDU在保持画面稳定性方面略胜一筹。

3. 真实场景

在汽车行驶场景测试中,Luma 1.6、通义万相和VIDU表现较好。值得一提的是,清影模型在细节处理上表现惊艳,如准确呈现了车辆刹车灯的亮起顺序。

四、人物面部测试

1. 表情一致性

在夸张表情测试中,各模型普遍难以保持面部一致性。但在小幅度表情变化场景下,大多数模型表现尚可。

2. 二次元人物

各模型在生成二次元人物面部动作时,均存在不同程度的崩坏现象。

五、总结与展望

1. 商业闭源模型整体表现优于开源模型。

2. Runway、可灵、Luma、海螺AI四家模型各有特色,整体效果差距不大。

3. 国内模型如VIDU、清影、通义万相等也展现出较强实力,未来发展潜力巨大。

4. AI视频生成技术发展迅速,各家模型更新频繁,行业格局可能随时发生变化。

本次评测为AI视频生成领域提供了宝贵的参考数据,但仍难以涵盖所有场景和模型。未来,随着技术的不断进步,我们有理由期待AI视频生成效果的进一步提升和应用场景的不断拓展。

0 阅读:5

啤酒罐数字游民笔记

简介:通过AI提高效率,使得1人公司也可以发展壮大