Qwen2.5-Max发布，性能超越DeepSeekV3

近日，超大规模的 MoE 模型（混合专家模型）通义千问 Qwen2.5-Max 正式上线，通义千问团队使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

通义千问团队表示，“今天，我们很高兴能给大家分享 Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接体验，或是通过阿里云百炼平台调用 API 服务。”

同时，通义千问还将 Qwen2.5-Max 与业界领先的模型（无论是闭源还是开源）在一系列广受关注的基准测试上进行了对比评估。这些基准测试包括测试大学水平知识的 MMLU-Pro、评估编程能力的 LiveCodeBench，全面评估综合能力的 LiveBench，以及近似人类偏好的 Arena-Hard。评估结果涵盖了基座模型和指令模型的性能得分。

首先，通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型（包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet）的性能结果进行了对比。

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中，由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型，通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B，以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示：

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。“我们相信，随着后训练技术的不断进步，下一个版本的 Qwen2.5-Max 将会达到更高的水平。”

通义千问表示，将持续提升数据规模和模型参数规模能够有效提升模型的智能水平。“接下来，我们将持续探索，除了在预训练的 scaling 继续探索外，将大力投入强化学习的 scaling，希望能实现超越人类的智能，驱动 AI 探索未知之境。”

编辑：芯智讯-浪客剑

教授 7

2025-02-01 08:55

内斗最可耻，有本事对外宣称

Toy World Ltd 回复:

咋了？这就不说国人造的东西了？

02-01 12:04
此账号已注销 3

2025-01-31 22:40

[点赞][点赞][点赞]
金戋 3

2025-02-01 08:29

一个无与伦比的效率优势才开跑未来可期；一个砸钱千亿，业内前辈，暂时领先。这么个比法。。。大公司掉头也难啊。
plkjyuio 3

2025-02-01 20:57

这里面不是一回事
星苑 2

2025-02-01 13:23

要点脸不，别人出名了出来蹭流量，早干嘛去了😪
A自在人 2

2025-01-31 18:54

[赞][赞][赞]
金戋 2

2025-02-01 08:23

未到终点谁都不能轻言胜出，ds无与伦比的效率优势下，通义千问在这时候发布是稳定军心还是善后布局，耐人寻味。

你没剃胡子回复:

令狐冲出名，马不群不高兴！

02-01 23:03

你没剃胡子回复: 你没剃胡子

02-01 23:10
你没剃胡子 2

2025-02-01 23:02

孙悟空正在斗妖，六耳跑出来说我比他行！嘿嘿，毕竟犹太劳德诺！

玩酷网

Qwen2.5-Max发布，性能超越DeepSeekV3

芯智讯