赶超DeepSeekV3，阿里Qwen2.5-Max成非推理类中国大模型冠军

在农历除夕夜，阿里通义千问团队悄然上线大模型Qwen2.5-Max，让国内外网友再次看到了中国模型的非凡“模力”。

在2月4日凌晨，Chatbot Arena公布了最新的大模型盲测榜单，Qwen2.5-Max轻松办超越了行业翘楚DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模型，以1332分位列全球第七名，也是非推理类的中国大模型冠军。

同时，Qwen2.5-Max在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。这一成就不仅标志着中国大模型在国际舞台上的崛起，也展现了阿里云在人工智能领域的强大实力。

一、Qwen2.5-Max性能表现惊艳！

由于使用了大规模MoE架构以及超过20万亿token的预训练数据，可以说Qwen2.5-Max在技术上真正做到了精雕细琢，也让Qwen2.5-Max基准在测试中表现极为惊艳！

我们都知道，Chatbot Arena LLM Leaderboard是业界公认的最公正、最权威榜单之一，它已经成为全球顶级大模型的重要竞技场，其拥有一套独特且先进的评测体系，确保每一个参与的大模型都能得到公正、科学的评估，让全球用户都能清晰了解各模型的实力与特点。

在此次榜单更新中，Qwen2.5-Max的表现尤为突出。它不仅在综合排名上位列全球第七，还在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。

在实际评测中，Qwen2.5-Max多个基准测试中超越当红炸子鸡DeepSeek V3，展现出极强的综合性能，如在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

更令人惊叹的是，Qwen2.5-Max在多模态能力上也非常惊艳，例如在联网搜索功能中，它每一句输出都有清晰的来源标注，轻松畅快。用户可以仅用一句话，就能通过Qwen2.5-Max完成旋转球体等各种可视化创作。不仅如此，这款模型甚至能帮用户迅速开发出小游戏，比如丢掉手动操作，秒速玩转扫雷游戏。

另外，相比早期版本，Qwen2.5-Max的理解能力提升了46%，数学能力提升了75%，代码能力提升了102%，指令遵循能力提升了105%。Chatbot Arena官方更是评价称：“阿里巴巴的Qwen2.5-Max在多个领域表现强劲，特别是专业技术向的（编程、数学、硬提示等）。”这一评价也充分证明了Qwen2.5-Max在技术领域的卓越性能。

二、高性能低成本技术路线上的重大突破

除了基准测试中的出色表现，Qwen2.5-Max的核心竞争力在于“低成本高性能”。

在春节前，国内大模型公司靠低成本出圈。此次发布Qwen2.5-Max不仅带来了高性能，在低成本路线上也是更进一步。与DeepSeek V3等模型相比，Qwen2.5-Max的成本优势显著。

阿里云在博客文章中表示，Qwen 2.5-Max 是一个大规模混合专家 LLM 模型，该架构使公司能够以更小的资源消耗构建模型，这使得模型部署时能够使用更少的资源，并以更高的效率运行。

这将大大降低了AI应用的门槛，为中国AI产业带来新的活力。

想象一下，未来将有更多的中小企业和初创公司轻松拥抱AI技术？这或许将改变许多行业的游戏规则，大大提升国内各行业的全球竞争力。

三、国内外受到用户认可

目前，企业可以在阿里云百炼调用Qwen2.5-Max模型的API，开发者也可以在Qwen Chat平台中免费体验Qwen2.5-Max。

不少用户也开始纷纷在社交平台上分享自己的使用体验，有网友在对比DeepSeek-V3 和 Qwen 2.5后，高度赞扬了Qwen2.5-Max的出色表现

Chatbot Arena官方发推文称，以Qwen2.5-Max为代表的中国大模型正在迎头赶上。许多从业者惊叹于新模型的强大性能，甚至表示：“我们可以告别ChatGPT了！”这表明Qwen2.5-Max不仅在技术上取得了突破，也在行业认知中占据了重要地位。

也有网友打趣地为OpenAI的首席执行官Sam Altman担忧：又一个中国模型来了！

网友们也纷纷表示：中国新模型的迭代速度和质量令人惊艳。

四、阿里引领中国模型崛起

目前，Qwen2.5-Max采用了国际开源趋势，允许开发者广泛使用和创新。这种开放的态度不仅有助于推动技术的普及和应用，也为开发者提供了更多的创新机会。

而且阿里云并不是单打独斗，阿里云将Qwen2.5-Max部署在其百炼平台上，开发者可以通过API直接调用模型，从而实现快速开发和部署。此外，阿里云还通过这一策略吸引了大量开发者加入其生态系统，进一步巩固了其在AI领域的市场地位。

这与北美三大云服务商的模式相比，更具系统性和完整性。“超算集群+开源生态+云原生”三位一体架构，不仅保证了Qwen2.5-Max的性能发挥，也方便了它的市场推广。这种强有力的生态系统支持，让Qwen2.5-Max的应用落地成为可能，并推动中国AI产业整体向前发展。

未来，随着技术的不断进步和应用场景的拓展，Qwen2.5-Max有望在更多领域发挥重要作用，为中国乃至全球的人工智能发展贡献更多力量。

阿里云Qwen2.5-Max的成功是中国大模型崛起的一个重要标志。它不仅在技术上取得了突破，更在国际舞台上展现了中国人工智能的实力。我们期待Qwen2.5-Max在未来能够带来更多惊喜，推动人工智能技术的进一步发展。

END

玩酷网

赶超DeepSeekV3，阿里Qwen2.5-Max成非推理类中国大模型冠军

了不起的云计算