玩酷网

清华团队做出来的国产Sora，实测还真有点东西

知危 2024-07-31 11:22:42

最近，国内的视频 AI 们，全都扎堆上线了。

智谱的清影 AI 上线还没几天，国内另外一个视频 AI 界的大神Vidu也跳出来了，不用排队，免费就能用。

Vidu 背靠的是清华系团队，他们早在 Sora 之前，就抢先发了一篇把扩散模型和 Transformer 模型融合在一起（ Sora 用的也是这个思路）的论文。

而且因为清华小分队早发了两个月，当年的计算机视觉顶会 CVPR 2023 还以“ 缺乏创新 ”的由头，拒了 Sora 的 DiT 论文。

虽说最后， Vidu 的宣传视频出来得晚了些，但效果在彼时的一堆视频 AI 里，还是很扎眼的存在，各种视角、各种场景，好像都能应对自如。

所以这次它宣布开放使用后，知危第一时间就上手了一波。

到底有没有宣传视频里那么厉害，跟咱看看就知道了。

先来试试 Vidu 文字生成视频的效果，这一回合我们拉来了体感还不错的可灵 AI 来做对比。

第一招，我们来测测它们各自对提示词的理解程度，看能不能把所有要素都展示出来。

提示词：

写实风格，镜头慢慢推进，在一个雨天，一对情侣坐在餐厅靠窗的位置吃饭。

Vidu 这边在生成的时候，会贴心给一些影视方面的小百科，而且速度也挺麻溜。

这颇有电影感的画面，雨天、情侣等要素也挺齐全，唯一的缺点没 get 到提示词里的 “ 吃饭 ”

轮到老将可灵 AI 这边，没想到一上来就有点翻车了，照理说它应该挺擅长吃东西的画面，但这次不知道咋了，两个人嘴巴全都变形了，不过要素倒还挺全。

紧接着，我们又同时给可灵和 Vidu 喂了一组超现实的提示词，考验下视频 AI 厂商们都爱宣传的“ 电影感 ”。

让它们生成一组 “ 末日时，一名战士破土而出 ” 的画面。

Vidu 生成的效果是这样的，只能说中规中矩，画面的质感一般般，而且也没给战士一个露脸的机会。

反观可灵 AI 这边，对场景的处理则更加细腻一些，不仅画面的质感、清晰度上去了，连走路会扬起灰尘这种细节，它都能捕捉到。

除了常规风格外， Vidu 这次还整出来一个专门的“ 动画风格 ”，据说效果还不错。那接下来，我们就用这个风格来给它和可灵搭个擂台。

提示词：

动漫电影风格，从侧面拍摄，镜头聚焦在面部，夜晚，一个长发女人坐在公交车靠窗的位置，眼睛望向窗外不断变化的街景，忽明忽暗的光线打在她的脸上，画面弥漫着孤独感。

Vidu 这边确实也没让咱失望，这女主角真有点日漫那味了，而且咱也能透过窗户，看到外面一闪而过的景象。

这波可灵 AI 又开始掉链子了，提示词里面的 “ 动漫电影风格 ” ，它直接给忽略掉了，而且公交车虽然在往前走，但外面的街景的变化有点不太明显。。。

既然是动漫风格，那肯定少不了测试想象力的环节，考考它们各自是如何处理现实不存在的场景的，比如 “ 小男孩突然化身大橘猫 ” 。

提示词：

宫崎骏画风，一个可爱的小男孩正在跑步，跑着跑着突然变身成一只可爱的大橘猫

有一说一， Vidu 的效果确实还不错，抛开画质这个老毛病，整段视频基本看不出什么太大破绽，变身的过程也无比丝滑。

至于可灵 AI 嘛，可能类似的场景是真撞到它的枪口上了，看生成的视频，可能它连提示词本身都没太理解。

而且，我们在试的时候发现，这次的 Vidu 还有市面上能用的视频 AI 都有一个通病，那就是不能理解物理世界规律。

像是让 Vidu 和可灵生成一段 “ 两只猫咪打乒乓球 ” 的视频，那球可以说是满天乱飞，而且看球也都不像是乒乓球的样子。。。

有意思的是，我们还用 Vidu 官方演示里的提示词，原封不动地喂给了它，结果出来的视频，看得人觉得有些诡异和不舒服，不如官方演示的效果好。

不过整体来看， Vidu 的效果还算是可圈可点，最起码在动漫，还有一些涉及到想象力的画面中，表现得还算不错。

除了能文生视频外， Vidu 这波也还新增了图生视频的功能，我们发现，这简直就是恶搞人士的福音。

随便上传一个表情包上去， Vidu 能立马让它动起来，看着效果也都还不错。

而且我们还可以自己选，是让上传的图片作为第一帧，还是只参考就行了。

就比如我们上传一张扎克伯格的图片给 Vidu 参考，再补充点提示词，就可以假装小扎已经站在拳击台上，准备迎战马斯克了。

只不过这人脸有脸参考不到位，就只有上半张脸像小扎。。。

上传一张马斯克的照片，也能提前帮他实现太空梦。。。

总之， Vidu 就跟市面上一众能用的视频 AI 差不多，可以生成效果好的视频，有的视频不仔细看，几乎就看不出 AI 的痕迹。

但它的缺点也很明显，不够稳定，视频做不长，这也是这一类 AI 面临的通病了。像是 Vidu 免费用户只能体验到 4s 的视频，就算氪了每月 8 刀的金，最长也只有 8s 。

不过这也算是视频类AI 的商业化初尝试了，毕竟训练和推理的成本就摆在那里，像是 Adobe 之前，买了 100 个用来训练的视频片段，平均一分钟得花两美元。

而收钱，多少也能帮前期优化、提升模型，分担一点经济上的压力。。。

当然 Vidu 背后的公司生数科技，也不只把所有砝码都压在了视频 AI 上。他们旗下还有专门面向 B 端的各种多模态模型，涵盖了文字、图片和 3D 模型等，游戏制作、影视后期等都是未来的商业化场景。

之前他们就靠着图片和 3D 模型，攒了好几亿的家底，而且就在上个月月初，生数科技又完成了数亿元的 Pre-A 轮融资，百度也参与领投了。

总的来说，视频 AI 领域是越来越热闹，甚至已经有点当初百模大战的意味了。可以预见的是，未来这些厂商们还会在 AI 视频长度、质量上不断加码。

对了，当初挑起这场 “ 战争 ” 的 Sora ，好像好久都没新消息了。。。

0 阅读：35

知危

简介：提供敏锐、独到的商业信息与参考

作者最新文章

财经TOP

财经最新文章