每次科技圈里有“新东西”出现,总能引起各种讨论。
这不,前几天阿里巴巴一举发布了它们的Sora开源版。
先别管具体是什么玩意儿,一听说可以用4070显卡来跑而且还免费商用,全网都炸锅了。
有人说,可能阿里这次要重新定义AI了。
说到这个新模型Wan 2.1,它可真不是一般的大叔。
阿里巴巴这次下足了功夫,14B的参数量让人不得不服。
这个参数量级在AI模型里算是有点“发福”的,别人家同类的也就是刚刚过十亿。
这玩意儿可了不起,不仅屠榜了VBench,也让其他竞品Sora和Gen-3在一旁默默小声BB。
在实际效果上,有段时间文字和动态细节生成是大家的共同难题,但Wan 2.1可没在怕的。
看看官方Demo,一群小伙子跳Hip-Hop,那动作同步绝对到位,五人群舞都不带乱的。
要生成文字?
也是在行,例如在静态图像生成中,这些文字识别得非常到位,有图有真相啊。
个人显卡也能带动:4090和4070显卡的需求对比有人说,14B的模型是不是要配NASA专用的服务器来跑?
这个concern可是错了。
虽然14B确实比较大,但也有“瘦身版”1.3B的版本出来,专门给普通人用。
在更亲民的4090显卡上,占用8个多GB显存,时间也不过是4分来钟。
关键是4070也能跑,这就给很多家庭玩家带来了希望。
不到几千块的4070显卡,就能体验高端的AI生成体验,这个真的让人非常心动。
动手能力强的朋友也不少,他们可以参考官方教程,通过HuggingFace或者魔搭社区自主搞定。
有人甚至用Wan 2.1生成了一段《我的世界》风格的故事,小伙伴们看得是目瞪口呆。
一幅幅脑洞大开的故事情景,让人不得不惊叹AI的无穷潜力。
体验途径多样:从平台到本地部署其实想要体验Wan 2.1并不难。
阿里巴巴自家的平台“通义万相”就有现成的版本,分别叫极速版和专业版。
用的是“灵感值”这种虚拟货币,新用户还有50点的初始值。
当然,热度实在太高,偶尔等待时间也会稍微久一点,有时候人多得“过于火爆”也是好事。
其实不仅仅在官方平台上可以玩,像魔搭社区、HuggingFace都已经跟上了这个潮流。
你甚至可以把它玩在自己的电脑上,有教程教你一步步搞定。
看到这些细节效果,别说普通人,就连业界人士有时也会赞叹不已。
技术细节揭秘:创新3D变分自动编码器那么,这种又好又省的AI生成模型到底是什么黑科技呢?
别着急,阿里的研发团队在这里真的是下了功夫。
他们采用了DiT(Diffusion Transformer)架构,以及创新的3D变分自动编码器。
这些名字复杂,但道理特别简单,就是这模型特别会“画画儿”和“写字儿”,细节上做得非常牛,什么动作、物体、文字都能合理处理,并且按照物理规则去变化。
具体来说,模型在处理视频时,会先搞定视频的时间轴和空间压缩问题,确保每帧的细节都是到位的。
这也让它在显存的使用上大大减少,个人显卡也能运行。
同时,在训练上用了上下文并行性和混合策略,让模型速度倍增。
结尾呢,咱们还得提个点,就是模型免费商用的意义。
你想想,以前动辄成千上万的费用,现在用4070显卡就能玩,而且是免费商用。
这对开发者,小团队和个人创作者来说,都是个天大的福音。
这不只是技术上的突破,更重要的是观念上的转变,带来了整个行业的进步。
所以说,阿里的Wan 2.1和Sora,不仅展示了阿里强大的技术实力,更是对大家的一次公开邀请。
这场技术革命大餐,几乎每个人都能参与,而且还能吃得好。
因此,让我们拭目以待,看看这些新技术会如何改变我们的生活。
你是不是也有点期待了呢?