在一次开发者论坛上,一位老牌AI开发者忽然兴奋地站起身来,打破了会议室的平静。“你们知道吗?
阿里云刚发布的万相大模型,不仅开源了,还在多项性能上超过了Sora!”一时间,会场内的气氛变得热烈起来,大家纷纷围绕这个话题展开讨论。
而此时,更多人还在等着了解,这款万相大模型到底带来了什么黑科技,为何如此引人注目。
万相2.1开源详情没错,阿里云旗下的视觉生成基座模型万相2.1(Wan),就这样毫无征兆地突然开源了。
而且,这次开源还采用了最宽松的Apache2.0协议,开发者再也不用担心版权问题了。
无论你是在做学术研究还是进行二次开发,14B和1.3B两个参数规格的推理代码和权重,统统对外开放。
你可以在Github、HuggingFace以及魔搭社区自由下载和使用,这种开放姿态,的确让人感到阿里云在推动技术普及上满满的诚意。
VBench榜单中的表现万相2.1可不是空有其名,它的实力可是实打实的。
根据权威评测集VBench的数据显示,万相2.1在指令遵循、复杂运动生成、物理建模、以及文字视频生成等方面表现突出,总分86.22%,大幅超越了包括Sora在内的多款国内外模型,稳居榜单首位。
不仅如此,1.3B版本的万相在测试中同样表现出色,不但超过了更大尺寸的开源模型,甚至在某些方面接近部分闭源模型。
最令人惊喜的是,它竟然能在消费级显卡上运行,生成高质量视频,只需8.2GB显存,这对于很多开发者而言,简直是一大福利。
万相之所以如此强大,源于它背后的精妙算法设计。
它基于主流的DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE和可扩展的预训练策略。
听上去可能有点学术,但实际上,这些技术让万相在很多实例中表现得更加灵活和高效。
比如,万相在3D VAE的因果卷积模块中实现了特征缓存机制,这意味着它可以替代直接对长视频进行编解码,实现无限长1080P视频的高效处理。
再简单一点说,就是万相可以处理超长视频,同时保持超高质量,而不像以往需要巨大的内存和计算资源。
万相还通过提前进行空间降采样压缩,在不损失性能的情况下,进一步减少了29%的推理时内存占用。
这些创新,使得万相应对复杂视频生成任务游刃有余,也让开发者在实际应用中受益匪浅。
事实上,阿里云早就坚定了大模型开源的路线。
自2023年以来,衍生于阿里云的千问(Qwen)模型数量已超过10万个,形成了全球最大的AI模型家族。
万相2.1的开源,可谓是阿里云进一步实现全模态、全尺寸大模型开源蓝图的重要一步。
这背后不仅是一家技术公司的战略选择,更是一种推动技术进步和普惠开发者的理念体现。
从一个又一个优异的开源项目,到如今万相的成功开源,阿里云用实际行动诠释了什么叫技术惠普,而这无疑会进一步激发全球开发者的创造力和合作热情。
结尾回到那个开发者论坛,热烈的讨论仍在继续。
万相2.1的故事或许只是一个开始,但它带来的不仅是技术上的突破,还有一种无所畏惧的创新精神和开放态度。
在这个不断变化和迭代的技术世界,阿里云的每一次开源和突破,都是对未来的一次深情告白。
我们或许无法预测每一个模型的进步方向,但可以肯定的是,每一次技术的开放,都是一次不可估量的推动力。
万相的今天,或许就是我们未来的一个缩影。
在这个复杂而又充满机遇的领域,我们期待更多像万相一样的“明日之星”,为我们带来更多惊喜和憧憬。