字节跳动新架构让AI推理成本砍83%!

七彩蘑菇汤 2025-02-13 21:13:21

字节跳动这次直接把MoE架构送进了历史垃圾桶。UltraMem稀疏架构横空出世,推理速度干到MoE的2-6倍不说,成本还砍掉83%——相当于给AI公司省下每年108量级的服务器电费。

这波操作本质是场内存访问的精准爆破。传统MoE架构就像个强迫症患者,每次推理都得把所有专家(expert)的门敲一遍,结果内存访问堵成春运火车站。UltraMem直接给每个专家装了人脸识别门禁,只放行真正需要的参数,内存访问量断崖式暴跌。

实验数据把同行看得头皮发麻。2000万value规模的训练下,UltraMem用同等算力跑出了碾压级表现,推理速度直接对标Dense模型。更狠的是架构扩展性——数十亿value规模的模型现在能塞进iPhone 17 Pro Max里流畅运行,库克看了都想连夜改PPT。

资本市场用涨停板投票说明一切。消息放出当天,汉得信息、润欣科技等概念股集体狂飙,创业板某公司股价直接冲了16%的涨停。这哪是技术突破?分明是给AI行业开了台印钞机,还是零碳排的那种。

现在压力全给到OpenAI和谷歌。UltraMem论文刚被ICLR 2025收录,明年顶会怕是又要被中国团队屠榜。当硅谷还在纠结千亿参数时,字节已经用稀疏架构把推理成本干到每笔10−3美元——AI全民白嫖的时代,可能比所有人预想的来得更残暴。

0 阅读:1

七彩蘑菇汤

简介:关注前沿科技,享受科技生活