尺寸差了一个量级,如何较量?DeepSeekR1与阿里QwQ-32B

智能亲爱的你 2025-03-10 09:46:08

原创:亲爱的数据

2025年3月6日,

阿里通义千问团队推出推理模型

QwQ-32B大语言模型。

看似普通的一则新闻,

发布了一个模型这么件事。

阿里尚未发布详细的技术报告来解释 QwQ是如何开发的,甚至新闻官网只有742个字。

《QwQ-32B:拥抱强化学习的力量》

该怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又称密集)推理模型。

虽然只有一句话,但是信息量很大。

想读懂的话,要很多“知识储备”,

什么是MoE(混合专家模型)?

什么是稠密模型?

什么是推理模型?

模型参数规模怎么对比?

背后隐藏的不少问题都可展开聊,

不如,聊聊有哪些结论?

第一点,QWQ模型有一个系列,

阿里在上一版的基础上,

用了R1也同样用了的强化学习技术。

好消息是出效果了,不出效果不会放出来。

毕竟这个是开源模型,

只有闭源模型才愿意买广告胡吹,

开源模型则不需要。

反观很多大模型友商,

还停留在花钱买彩虹屁的石器时代。

在开源打得如此激烈的当下,显得尤为又自嗨。

抛开“强不强”不聊,

要知道大模型技术人员的知识体系泾渭分明,

你是做视觉的,就是视觉;

你是自然语言处理的就是自然语言处理,

而强化学习是另外一套知识体系。

强化学习这条道路,

大模型团队里没有点技术储备都发不了力。

阿里毕竟是阿里,

看到强化学习的天花板还能往上推,

就毫不犹豫地往上推。

恭喜阿里出效果,恭喜团队奋战有成绩。

无独有偶,一天之前,

2024 年的图灵奖颁给了一对著名的师徒:

Richard Sutton 有“强化学习之父”的美名。

Andrew Barto是 Sutton的博导。

自 1980 年代起,

两位均对强化学习持续做出奠基性贡献。

一边是企业界的前沿技术突破,

另一边则是对强化学习理论基础的权威认可。

这两者实际上是相辅相成的,

正是几十年前奠定的坚实理论基础,

才使得今天我们能够在工业界实现如此惊人的技术突破。向强化学习开创者的致敬,向DeepSeek R1团队,向阿里千问团队,用强化学习推动模型技术进步的工程师致敬。

第二点,在推理模型大火之后,

大家都只做推理模型这一种类型了吗?

当然不是。

这里就不得不把Claude 3.7 Sonnet这个模型拉出来对比一下。

这也是一个刚刚(2月25日)放出来的新模型,

是Claude 3.5 Sonnet 的升级版。

不得不感慨一句,版本号增长得如此之快,

可见软件版本迭代得多快,

可见其背后的技术进展有多快。

AI的竞争有多激烈。

我特别强调,Claude 3.7 Sonnet模型的技术路线,

和QwQ-32B模型大不一样,完全不同。

QwQ-32B模型强调推理性能,

是一个独立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude团队把快慢思考集成在一个模型里了,

你想用哪个就选哪个。

特别注意的是,

选择按钮的背后是一个“二合一”的模型,

而不是一个“选项”一个模型,

技术博客上的表述是,人类使用同一个大脑,

既能静心思考,又有快速反应。

阿里是否也在做和Claude 团队类似的事情,

不得而知。

但是你用推理模型去快问快答简单问题,

肯定不合适,

比如,你问推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面这种肯定不行,

日后定会想办法解决。

第三点,为什么QWQ-32B可达到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一个量级的情况下。

在MoE模型出道之后,

模型参数规模不再是名字上挂的那个数字,

比如,DeepSeek R1拥有6710亿的巨大的参数量,但由于创新性地使用了MoE架构,以及MLA(多头潜在注意力机制)的方法,每次推理仅激活370亿参数(占比总量6%)。这使得DeepSeek R1虽然整体参数量很大,但干活时只需要动用极小的一部分力量。

MoE模型是稀疏模型,

也就是说,并不是每个计算步骤都会用到全部的模型参数,而是通过选取一些专家来参与计算。就好比,有一个专家库,但是每次干活不是专家库里的专家全体出动。

DeepSeek R1的惊人之处在于,

1个共享专家和256个专家,

实际上,历史上,哪个MoE模型也从来没有过达到如此庞大的专家数量。专家多了一时爽,那就问负载均衡怎么办?

当然DeepSeek处理得很好,

但是这篇文章不聊这个,按下不表。

DeepSeek每次通过路由专家,只选8个模型,

也就是说只有8个专家干活了,其他闲着。

那么问题来了,你统计工作量的时候,

是不是只算这8个(仅激活370亿参数)就够了。

于是,真正用来比较的,

是千问QWQ-32B和DeepSeek R1模型的37B。

“闲置专家”不在考虑范围内。

比模型整个的参数规模更难理解的是真正“参与工作”的参数,这个问题确实是伴随着MoE模型而出现的,从激活量来看,32B(320亿参数)比37B(370亿参数)少不了多少,这是一种进步。

激活量少了,随之而来的是,成本降低,性价比提高。另有一个关键点,阿里通义千问团队的这个模型是每个专家每次都在干活,而DeepSeek R1模型是每次干活是不同的专家。因为MoE的大参数量可不是吃白饭的,

MoE的全量大参数对模型能力极有加成,对于每个token激活的是不同的37B(370亿参数)这个时候,我想说,QWQ-32B的专家还挺能打的,毕竟DeepSeek R1模型的整体专家数量在这里摆着,长期干活的专家要会更多知识才能和擅长不同的更细分的领域的“当值专家”一较高下。

看到这里,我挺激动的,再次为千问团队高兴。

而我更高兴的是,DeepSeek最大的价值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

这个问题的答案得问DeepSeek,

他们将MoE技术拉到一个新高度,

又在分布式计算,通信库等底层基础设施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利润率545%,

每秒输出吞吐量约1.5万tokens。

(官宣数据14.8k tokens/s)。

我最近聊天的口头禅就是:

“人家DeepSeek每秒输出吞吐一万五,

友商吞吐原地杵。”

一万五是一次综合实力的大检阅。

数字这么好看,这真是一件好事,

整个系统的吞吐量越大越好,

问题在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

问题在于怎么榨干。

一个模型在某种型号的芯片上跑起来,

这个系统的总吞吐量的理论峰值,

是由芯片性能决定的。

芯片性能是上限,

也是工程团队竭尽全力接近的目标。

做出极高的总吞吐量,梦寐以求。

也就是说,有N个厂商,

每个都跑同样的DeepSeek R1模型,

每个厂商都用同样数量的芯片,

谁做到的总吞吐量最高,谁就最赚钱。

这门生意本质就是这点了。

对比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于为何是10倍,得拿另外一篇文章来讲。

有兴趣的读者,请在文末留言扣数字1。

阿里千问团队也有MoE模型的经验。

或者这么说,DeepSeek的基础设施是为MOE设计的,效率非常之高,给谁一时都很难超越,不如在自己擅长的技术路线上发展。那天,我和武汉人工智能研究院王金桥院长一起吃拉面,他还给我科普:“MoE(稀疏)模型适合大型To C业务量,Dense(稠密)适合To B业务量。”

阿里选择稠密模型的理由非常充分,

云计算厂商就是服务To B业务的。

一周之后,DeepSeek就搞了开源周,

不得不说,慷慨开源很多MoE底层技术,

商业机密肯定还有很多。

我所知道的是,

稀疏和稠密是两种完全不同的技术路线,

榨干芯片性能的方法完全不一样,

把稠密技术路线调为MoE稀疏技术路线谈何容易。

当DeepSeek横空出世,不只是模型,

而是模型带着它的榨干芯片性能的全套方案一起横空出世,这可是MoE专属方案。

这时,有一个选择题摆在大模型厂商面前,

在致敬和学习之后,也要做MoE模型吗?

这个问题我特别想问千问团队的人,

无奈周靖人把团队看得太严了。

此时,我想,他们已经给我答案了。

我们回忆一下,在DeepSeek爆火之前,

通义千问72B横扫企业级市场,

无论中国,还是美国,头部科技大厂内部都在悄悄用通义千问72B。阿里千问团队和美国Meta公司(Llama)选择同一种开源市场策略。

面对令人尊敬的挑战者,

阿里交出了自己的答卷。

竞争还在继续。

(完)

2 阅读:281

智能亲爱的你

简介:感谢大家的关注