阿里云在海外爆火的视频生成论文,现在终于有应用了

知危雨评 2024-02-04 03:43:23

现在的大模型应用,越来越卷了。

前一阵,阿里云的通义千问 App 上线了个视频生成的新功能,只需要一张照片,就能生成自定义的舞蹈视频。

根据官方的介绍,这个功能不仅能生成视频,而且面部表情、衣着打扮以及背景等等,也保留了照片原来的特征。

最主要的是,没什么门槛,在手机上下个 App 就能玩。

所以功能上线不久,就在网上掀起了一大波试用风潮,堪称整活大赏。

从兵马俑跳科目三,到科目三席卷三国,还有不少粉丝用自家爱豆的照片 “ 恶搞 ”,短短几天时间各种鬼畜视频层出不穷。

甚至,#兵马俑跳科目三# 的词条,在微博上已经有了千万级别的热度。

“ 科目三火到考古圈 ”、“ 还没学会科目三的不用卷了,下一个通义千问 App 就行 ”、“ 这个世界越来越疯狂了,AI好牛 ”,网络上诸如此类的评论不绝于耳。

趁着热度,知危编辑部也在第一时间下载了最新版的通义千问 App,上手试了试这个新功能。

打开通义千问 App,视频生成功能的入口并没有直接出现在首页的功能模块里,而是需要在对话框里输入 “ 全民舞王 ” 或者 “ 通义舞王 ” 等关键词,再跳转到体验页面。

该功能里面有包括科目三、DJ 慢摇、鬼步舞还有秧歌在内的 12 种舞蹈模板,随机选择舞种再上传一张全身照就行。

当然,如果自己不想上传照片,官方也有默认图片模板可供选择,整个流程操作起来没什么难度。

只不过需要注意的是,在上传照片的时候,照片的分辨率要大于 500 × 500,而且需要正面站立的全身照,不能有遮挡,如果侧身站或者背景过于复杂,可能会影响最后生成的效果。

我们先是拿最近火爆全网的科目三来试了试。

上传一张马斯克的全身照,再等待十分钟左右,一个马斯克跳科目三的视频就新鲜出炉了。

舞蹈动作流畅,包括西装、鞋子在内,也跟原来的照片没什么两样,甚至动起来的老马连眨眼睛都很自然。

虽然跳舞过程中手部有些小瑕疵,但并不影响整体的视觉效果。

随后,我们又用扎克伯格试了划桨舞。

原图

可以看看照片和视频之间的对比,虽然原照片小扎并没有双臂垂直站立,但视频里手臂部分的还原度很高,就连衣服上的褶皱变化都能模拟出来。

之前老马和小扎一直 “ 约架 ” 不成,这次斗舞就当是看个乐呵了。

而除了能让真人跳舞以外,我们发现动漫人物同样也可以整活。

比如,让迪迦奥特曼扭东北秧歌。

还有鸣人跳爱心表白舞。

章鱼哥摆着臭脸,跳兔子舞。

甚至于,雕像也动起来。

就比如,唐代仕女俑再加上 DJ 慢摇的组合。

还有手办鬼步舞。

体验下来,我们觉得这个让照片跳舞的新功能可玩性还是挺高的,而且生成效果同样可圈可点。

但不可否认的是,最后生成的视频并非没有瑕疵,包括背景、脸部和手部,会出现不同程度的抖动或者轻微变形。

不过,这也是视频生成的通病了。

一直以来,视频生成都存在着生成困难、生成时间长还有生成效果不一致的情况,特别是如何保持人物形象一致和动作流畅,更是学界和业界都在攻克的难题。

如果从体验的整体效果来看,这次通义千问上线的视频生成功能已经有了非常大的突破。

而这背后,多亏了阿里研究团队自研的 Animate Anyone 视频生成模型。

正如前文的体验,这个模型可以只通过一张图像,就无缝生成动画视频。

通常,视频生成需要具备一致性、可控性和连续性三要素,也就是视频高度还原图片的细节、姿势动作需要精准可控,还有动作和动作之间连贯不卡壳。

在一致性上,Animate Anyone 引入了 ReferenceNet,这是一种特征提取网络。

简单来理解,用这个就可以提取图像里的一些外观特征,从而使视频高度还原人物形象、面部表情还有服装上的细节。

与此同时,从评测结果来看,Animate Anyone 的性能也要优于国内外的同类模型。

所以,这次全民舞王应用在国内能火起来,也算是在情理之中。

不过,更早些时候,这个模型其实就已率先在海外火起来了。

一个月前,阿里通义实验室团队在 arXiv 上发了一篇关于 Animate Anyone 模型的论文。

很快,这篇论文就在推特和 YouTube 等海外社交媒体平台上,引起了巨大反响。

光是推特上的一篇帖子,就有五千多万的浏览量。

YouTube 上,Animate Anyone 的相关视频播放量轻松破十万。

在 GitHub 上,短短几天时间内也收获了上万颗星。

只不过,当时的 Animate Anyone 对外还只是停留在论文阶段,不少网友都表示要蹲一蹲体验入口。

所以,阿里的团队也趁热打铁在通义千问 App 上推出了这个功能,让国内的用户先体验了一把。

从结果来看,确实也激起了不小的水花。

事实上,从去年下半年开始,在视频生成领域的各种大模型应用可以用百花齐放来形容。

比如,Runway 用画笔涂一涂,图片就能变视频;Pika1.0 免费开放试用;Stability AI 顺势入局图生视频领域,推出 Stable Video Diffusion。

国内方面,在阿里的 Animate Anyone 推出后不久,字节也推了个 Magic Animate,不少评测博主还专门对两个模型进行了对比。

不难看出来,多模态大模型的应用潜力已经被激发,整个行业其实都在往视频生成的方向卷。

从文本生成到图像生成,再到如今爆火的视频生成,过去一年,大模型的发展速度远远超过了人们的预期。《 福布斯 》近期发布的报告也已经明确提出了 2024 年多模态生成将有巨大的潜力。

接下来,视频生成能否诞生一个全新的爆款?

问题的答案需要时间来验证,但 2024 年伊始,阿里这波让照片跳舞的应用成功破圈,算是给行业加了把火。

0 阅读:5

知危雨评

简介:感谢大家的关注