阿里QwQ-32B或超越DeepSeek满血版

今天，我们发布了 QwQ-32B，这是我们全新的推理模型，虽然只有 320 亿个参数，但它能跟顶尖的推理模型，比如 DeepSeek-R1，拼一拼实力。

博客：https://qwenlm.github.io/blog/qwq-32bHF：https://huggingface.co/Qwen/QwQ-32BModelScope：https://modelscope.cn/models/Qwen/QwQ-32B演示：https://huggingface.co/spaces/Qwen/QwQ-32B-DemoQwen 聊天：https://chat.qwen.ai

这次，我们研究了如何放大 RL（强化学习）的配方，并且基于我们的 Qwen2.5-32B 取得了一些很牛的结果。

我们发现，RL 训练能一直提升模型的表现，尤其是在数学和编程方面特别明显。而且我们还注意到，持续加大 RL 的规模，能让一个中等大小的模型在性能上跟那些超大的 MoE 模型一较高下。

欢迎大家来试试我们的新模型!

网友：1、如果它在基准测试之外表现良好，那么就是真的。那将是巨大的

2、小型模型就是装不下那么多知识，而知识在任何实际工作中都是最关键的。这个模型没啥特别的地方，但这个发现基本上对所有小型模型都适用。期待它能有别的表现基本上是扯淡。

不过话说回来，你可以在本地把它跟 RAG（检索增强生成）搭配起来，用这个办法补上知识的缺口，而对于 R1 来说，这是做不到的。

3、我更相信 RAG，而不是大型模型所包含的任何“知识”

4、刚刚测试了拍手鸟示例，结果很糟糕。（Q6 MLX 使用 mlx_lm.convert 自我量化）

5、仅比较一下 QWQ-Preview 与 QWQ：

Benchmark QWQ-Preview QWQAIME 50 79.5LiveCodeBench 50 63.4LIveBench 40.25 73.1IFEval 40.35 83.9BFCL 17.59 66.4

这些数字与 o3-mini-medium 相当，仅次于grok3和 o3。难以置信。

6、自我报告的基准测试往往会受到选择、测试过度拟合和其他偏见的影响，并描绘出更乐观的前景。我个人预测它不会在大多数应用程序中取代 R1。然而，它只有32B，所以即使它达不到完整的 R1 617B MoE，仅仅“足够接近”也是一个巨大的胜利。与 R1 不同，量化 QwQ 应该可以在消费级 GPU 上运行良好。

7、 Qwen 和其他中国模型在过去一年半中屡屡被西方研究人员和媒体发表的比较结果所忽视。希望 DeepSeek R1 的巨大突破能让这些冷落成为过去。

8、我被震惊了。我把它插入 VSCode中的 Cline 并要求它复制 ChatGPT。它做得很出色，页面加载成功，没有任何错误。

9、32B 型号不可能拥有 R1 所拥有的完整互联网复制内存，但我仍然希望改进能够达到基准（与其他几款型号不同）。一个超级智能的小型模型，能够可靠地访问大量信息，而不会产生大量幻觉，总有一天会成为王者。

10，一天前，字节跳动推出：字节跳动发布SuperGPQA：评估大型语言模型的新基准：字节跳动豆包大模型团队与 MAP 开源社区合作，宣布发布 SuperGPQA，这是一项综合基准，旨在评估 285 个研究生学科的大型语言模型 (LLM) 的知识和推理能力。该数据集包含 26,529 道多项选择题，可对 LLM 的表现进行严格评估HuggingFace 论文[url=https://supergpqa.github.io/]排行榜[/url]

11、到目前为止，这个模型在处理24K长度的文本时表现得很好，尤其是在使用Q8_0量化方法的情况下。在3090和4090显卡上运行速度也还不错。虽然我不确定它能不能只用32B的参数就打败671B的Deepseek-R1模型，但它应该能轻松打败其他32B的模型，甚至是一些70/72B的模型。希望即使它被简化了，也能保持这样的表现。从我的测试来看，它确实已经打败了“Deepseek-R1”-32B。

不过我发现一个问题，就是它总是想得太多……想得太多！这让它的反应速度比我期望的要慢一些。虽然它生成内容的速度很快，但因为想得太多，整体响应就比较慢。希望通过给它一个合适的系统提示，告诉它不要想太多，能解决这个问题。另外，我也不是完全不能做其他事情——如果多思考能让它表现得更好，我想我也可以接受。

我给它一些提示，测试了其他模型，目前它的表现还不错。我还给它设计了一些测试程序（不算太难，毕竟我能写出来——虽然花了不少心思！）来测试它会不会遵守系统提示，不要过度思考……目前它还在思考中……

12、顺便说一句，可以在这里访问：https://www.neuroengine.ai/Neuroengine-Reason使用 FP8，可能会有点慢，因为我正在测试它，到目前为止，效果非常好。

13、这太令人震惊了，等不及美国市场价值下跌了

原文：

玩酷网

阿里QwQ-32B或超越DeepSeek满血版

科技有极道