玩酷网

Runway和Luma又打起来！YannLeCun：再牛，也不是「世界模型」

智能机器能不能 2024-07-03 19:02:58

机器之能报道

编辑：杨文

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。

因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。

我们也欢迎读者投稿亲自实践的创新型用例。

AI 视频界又「打」起来了！

6 月 29 日，著名生成式 AI 平台 Runway 宣布，其最新模型 Gen-3 Alpha 向部分用户开启测试。

同一天，Luma 推出关键帧新功能，并向所有用户免费开放使用。

可谓是「你有张良计，我有过墙梯」，二者斗得不亦乐乎。

这可把网友们高兴坏了，「6 月，多么美好的一个月！」

「疯狂的 5 月、疯狂的 6 月，疯狂到根本停不下来！」

-1-

Runway超绝镜头，干掉好莱坞

两周前，AI 视频「王者」Runway 祭出全新视频生成模型 Gen-3 Alpha 时，就预告 ——

将在「几天内」首先向付费用户提供，免费版本也将在未来某个时间点向所有用户开放。

6 月 29 日，Runway 兑现承诺，宣布其最新推出的 Gen-3 Alpha 向部分用户开启测试。

Gen-3 Alpha 之所以备受追捧，是因为它与上一代相比，无论在光影、质量、构图，还是文本语义还原、物理模拟、动作一致性等方面，均实现大幅度提升，就连宣传语都是「For artists，by artists（为艺术家而生，由艺术家而生）」。

Gen-3 Alpha 效果究竟咋样？向来整花活的网友最有发言权。接下来请欣赏——

一个可怕的怪物从伦敦泰晤士河升起的电影镜头：

一只悲伤的泰迪熊在哭泣，哭到伤心处还拿纸巾擤鼻涕：

身穿华丽礼服的英国女郎，行走在古堡耸立的大街上，旁边有疾驰的车辆、缓行的马匹：

一个巨大的蜥蜴，全身镶嵌着华丽的珠宝、珍珠，穿过茂密的植被。蜥蜴在光线下闪闪发光，画面逼真程度堪比纪录片。

还有一只满身红蓝宝石的镶钻蛤蟆：

夜晚的城市街道，雨水泛起霓虹灯的倒影。

镜头从水坑中反射的灯光开始，缓缓升起，展现出那发光的霓虹广告牌，随后继续向后拉远，呈现出整条被雨水浸湿的街道。

镜头的移动：一开始对准水坑中的倒影，接着一气呵成向上提起，向后拉开，以展现这雨夜的都市风光。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

培养皿中生长的黄色霉菌，在暗淡而神秘的灯光下，呈现出冷色调，动态感十足。

秋天的森林中，地面被各种橙色、黄色和红色的落叶覆盖。

轻风拂过，镜头紧贴地面向前推进，一阵旋风开始形成，将落叶卷起，形成一道螺旋。镜头随着落叶升起，绕着旋转的落叶柱旋转。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

从满是涂鸦的隧道的低视角开始，镜头平稳地沿着道路推进，穿过一段短而暗的隧道，镜头在另一侧出现后迅速升高，展现出一大片五彩缤纷的野花田，周围是雪山环绕。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

一个弹钢琴的特写镜头，手指在琴键上跳跃，没有手部畸变，动作流畅，唯一的不足是，无名指上没有戒指，但影子「无中生有」。

网友们的整活还炸出了 Runway 联合创始人 Cristóbal Valenzuela，他为自创的蜜蜂相机生成了一段视频。

把相机安在蜜蜂背上，拍出来的景儿是这样的：

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

安在蜜蜂脸上是酱紫的：

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

那么，这个袖珍相机长啥样呢？

AI 再这样进化下去，好莱坞的演员们又要闹罢工了。

-2-

Luma的关键帧新功能，画面过渡丝滑

6 月 29 日，Luma AI 推出了关键帧功能，而且大手一挥，直接向所有用户免费开放使用。

用户只需上传起始和结束图片，并添加文字描述，Luma 就能生成具有好莱坞级别的特效视频。

例如，X 网友 @hungrydonke 上传了两张关键帧照片：

然后输入提示词是：A bunch of black confetti suddenly falls（突然，一堆黑色纸屑纷纷扬扬地落下来）效果如下 ——

网友 @JonathanSolder3 先用 midjourney 生成两张图片：

接着使用 Luma 关键帧功能生成一段超级赛亚人变身的动画。据作者介绍，Luma 不需要增强提示，只输入「超级赛亚人」即可。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

还有网友使用该功能完成每一个镜头过渡，从而将经典童话进行混搭生成一段名为《The Wolf, The Warrior, and The Wardrobe》动画。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

魔鬼变天使：

橘子变小鸡：

星巴克 logo 变身：

还有网友将 20 个梗图利用 Luma 进行无缝衔接：

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

AI 视频界战况如此焦灼，天晓得 Sora 怎么这么沉得住气，到现在都不露面。

-3-

Yann LeCun「炮轰」：它们压根不懂物理

早在年初 Sora 发布时，「世界模型」一下子成了火热的概念。

后来，谷歌的 Genie 也打出「世界模型」的旗号，这次 Runway 推出 Gen-3 Alpha 时，官方称「朝着构建通用世界模型迈出了重要一步」。

到底啥是世界模型呢？

其实这并没有一个标准的定义，但 AI 科学家们认为，人和动物会潜移默化地掌握世界的运作规律，从而可以「预知」接下来发生的事情并采取行动。世界模型的研究就是让 AI 学习这种能力。

很多人认为，Sora、Luma、Runway 等应用生成的视频相当逼真，还能按照时间顺序往后生成新的视频内容，它们似乎学会了「预知」事物发展的能力。这与世界模型研究追求的目标不谋而合。

不过，图灵奖得主 Yann LeCun 一直「泼冷水」。

他认为，「根据提示产生看起来最真实的影片并不代表系统理解物理世界，生成与世界模型的因果预测有很大不同。」

7 月 1 日，Yann LeCun 连发 6 条帖子炮轰视频生成模型。

他转发了一个 AI 生成体操的视频。视频中的人物要么脑袋凭空消失，要么惊现 4 条腿，各种奇葩画面满天飞。

视频链接：https://mp.weixin.qq.com/s/8WsQ07ufAe9qfWwb-FW0Ww

Yann LeCun 称，视频生成模型并不理解基本的物理原理，更不用说人体结构了。

「Sora 和其他视频生成模型都有类似的问题。毫无疑问，视频生成技术会随着时间的推移而变得更加先进，但是，真正理解物理的优秀世界模型不会是生成式的。所有的鸟类和哺乳动物都比任何视频生成模型更懂物理，然而它们中没有一种能生成详细的视频。」Yann LeCun 说。

有网友质疑：人类不正是根据对物理的理解，在脑海中不断生成详细的「视频」吗？

Yann LeCun 线上答疑，「我们构想的是可能发生的抽象情景，而不是生成像素图像。这就是我想表达的观点。」

还有网友认为，鸟类和哺乳动物的大脑时刻在生成详细的「视频」，只是它们无法将其外化展现出来。

Yann LeCun 反驳道：不，它们不会。它们只是生成可能发生的抽象情景，这和生成详细的视频有很大的区别。

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家进群交流。

0 阅读：0

智能机器能不能

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章