前天,阿里 Qwen(千问)团队推出并开源了一款名为 QwQ-32B 的推理模型。这款模型之所以备受关注,主要是因为其相对较小的规模——拥有 320 亿参数(32B),但性能却可与许多大型模型媲美,例如满血版 DeepSeek-R1。
32B 的参数量是相对较小的,这意味着该模型可以在消费级显卡上运行,例如英伟达的 RTX 3090 和 RTX 4090。具体来说,具备 24 GB 显存的 GPU 就能以全精度运行 QwQ-32B 的完整模型。
对于比较,DeepSeek-R1 的满血版具有 671B(6710亿)参数,约是 QwQ-32B 参数量的 20 倍。在同样的硬件配置下,只能运行 DeepSeek-R1 的 32B 蒸馏小模型。
若需了解更详细的硬件配置要求,请参考下面的表格进行自查。

根据 Qwen 团队发布的 QwQ-32B 模型的基准测试结果,在数学和代码处理能力方面,其表现与满血版的 DeepSeek-R1 不相上下。从下图可以看到,红色柱代表 QwQ-32B 的得分,而蓝色柱则显示满血版 DeepSeek-R1 的得分。

值得注意的是,尽管 QwQ-32B 的表现相当出色,但要真正与满血版 DeepSeek-R1 在各方面较量,它是无法匹敌的。Qwen 官方也使用“媲美”这个词,足以说明二者在实力上的差距。
之前有教程,详细介绍了如何在本地部署 DeepSeek-R1,通过简单的三个步骤即可完成。这期教程中展示了如何在个人电脑上部署各个小参数的蒸馏版 DeepSeek-R1。绝了!k3s (k8s) 安装 ollama 运行 deepseek 全流程揭秘,yaml全公开 和 安装 DeepSeek R1 (DeepSeek LLM 7B)
现在,QwQ-32B 的出现使得这些蒸馏模型可以彻底退役,因为它不仅参数小,而且性能出色,使用起来更加方便。
部署方法与之前类似,最近 Ollama 也已增加对 QwQ-32B 的支持。

你可以选择通过官网或命令行进行安装。需要注意的是,如果之前已经安装过,可以跳过这一步骤。
https://ollama.com/

安装完成后,打开终端并输入以下命令。正常情况下,系统会显示 Ollama 的版本号,例如“ollama version is 0.5.12”。
# 验证安装ollama --version第2步:下载 QwQ-32B 模型QwQ-32B 模型的参数大约为 32.8 亿,采用 Q4_K_M 量化版本,其模型文件大小约为 20GB,并基于 Apache 2.0 开源许可证发布。
# 下载 QwQ-32Bollama pull qwq
下载完成后,您可以使用以下命令来验证模型的安装。这条命令将显示您通过 Ollama 安装的模型。如果一切正常,输出列表中应该会包含 qwq。
# 验证模型ollama list第3步:运行 QwQ-32B 模型如果您是通过客户端安装 Ollama,完成模型安装后,它会自动进入交互式会话模式,这样您就可以开始和模型进行对话了!
如果未能进入会话模式,可以使用以下命令启动模型。
# 运行模型ollama run qwq您还可以选择在第三方客户端中使用该本地模型,例如 Chatbox。有关具体操作,您可以参考之前发布的本地部署教程。
https://chatboxai.app/zh

如果您只是想简单地使用这个模型,可以在 Qwen Chat 或者 Hugging Face 上找到现成的 QwQ-32B 模型供您使用。
Qwen Chat(通义千问海外版) :https://chat.qwen.ai
Hugging Face Demo :https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Hugging Face QwQ-32B 模型首页 :https://huggingface.co/Qwen/QwQ-32B
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。