AI大战:谁能挑战Sora的霸主地位?

啤酒罐数字游民笔记 2024-06-14 12:08:56

## 自从OpenAI发布了Sora模型

自从OpenAI发布了他们的文生视频模型Sora,立刻对传统的文生视频造成了降维打击。我们来看看同一主题下,Sora与其他模型的效果对比,简直不在同一个技术维度上。接下来全球的AI领域都摩拳擦掌,憋着要当Sora杀手。最近最火的当属Google的Veo和生数的Vidu。那么实际效果如何呢?我们来看一下。

## Google Veo的生成效果

这是Google的Veo发布的一些例子视频。然而,鉴于Google在发布Gemini模型时的造假行为,我们对它的Veo生成视频模型也要打一个问号。我们来看这个牛仔骑马的视频,马的运动非常自然,非常真实。因为人物和动物的运动一直是AI生成视频的一个难点,传统的AI生成视频很难生成真实的人物运动画面。然而,Google Veo的效果相当不错,几乎难以分辨其真实性。

还有这个花朵开放的视频,每一个花瓣绽开的动态变化和延时摄影几乎没有差别。

再来看这个大象走路的视频,大象的四肢非常真实,象鼻子的摆动也非常自然。这就是Google的Veo。

## 生数Vidu的技术领先

我们再来看一下Vidu。Vidu是中国的生数公司开发的,它发布的几个例子视频看上去也是技术非常领先。我们来看这个汽车在森林小路上行驶的视频,整个汽车向前行驶,周围的树木向后移,符合物理规律。地面上扬起的尘土、树木的光影、汽车的光影都非常精确。

再来看这个猫的视频,这只猫缓缓从左到右移动,在转动过程中完全没有变形。这个就是我们介绍的生数。

## Sora的震撼效果

Sora生成的每一个视频都非常震撼。它在2月份发布时,相对于当时的技术,几乎是更高一代的技术。大家最熟悉的应该是那个时尚女孩走在东京街道上的视频,几乎和真实的摄影一样,完全没有变形,没有任何不符合物理规律的不合理瑕疵。她的步伐和背后的背景人物都非常真实。

Sora一经发布之后,打击了所有其他AI生成视频的模型,几乎不是同一代的技术水平。我们来看这个视频,这个人从开始步行一直到视频结束,没有一点瑕疵或者不合理的地方。最后我们再来看一下OpenAI的官网,本页所有视频均由Sora直接生成,未经修改,这显然是针对Google的Gemini造假事件。

## Kling模型的崛起

最近,Kling大模型让我们看到了它真正能够成为Sora竞争对手的希望。一经发布立刻全网刷屏,最值得一提的是这个模型已经可以试用了。虽然目前有几万人还在排队等内测名额,但至少已经有人用上了。我们来看一下Kling发布的视频,以及一些已经拿到内测名额的网友试用生成的视频。

首先来看这个视频:一只手将牛奶从铜制的奶壶倒入桌上一杯咖啡中,背景为模糊的厨房。手和壶的运动轨迹稍有晃动,牛奶倾斜的角度,倒入咖啡杯中的泡沫渐渐变厚并向上升,非常真实,难以想象这是AI生成的。所以这个模型一经发布,立刻被称为Sora killer。

再来看这个视频:一个小男孩在花园里骑自行车,经历春夏秋冬四季变换。自行车的移动、男孩的腿交替踩踏板、背景慢慢向后移动,整个画面慢慢拉近,非常真实。还有这个小男孩吃汉堡的视频,他嘴咬下去,面包留下的咬痕,咬下去时眼睛闭上,眼部肌肉收缩,极其真实。

## Kling模型的优势

更重要的是,Kling模型已经在快影APP上发布,获得内测名额的网友已经开始试用了。我在网上找到几段据说是网友生成的视频。虽然质量与Sora相比略显逊色,但Kling的优势在于它生成速度更快,而且在算力方面也更具优势。Kling大模型通过采用传输路径更短的flow模型作为扩散模型基座,以提高运算效率,而非采用当前行业主流的DDPM方案。这意味着它可能在相对较少的计算资源下实现高效运算。Kling生成的视频分辨率高达1080P,时长最高可达2分钟。

这表明,尽管需要一定的算力支持,但Kling模型能够在相对较短的时间内生成高质量的视频。所以在算力方面,与Sora相比,Kling模型可能更具优势。

0 阅读:26

啤酒罐数字游民笔记

简介:通过AI提高效率,使得1人公司也可以发展壮大