DeepSeek开源周才第二天，有些公司已经坐不住了

清晨的阳光还未透过窗帘，手机却已经叮咚响个不停。

是的，我的朋友张强，一个痴迷于AI技术的小公司创始人，已经发了好几条信息，内容大致是："天啊，DeepSeek才开源两天，就已经让各大公司都坐不住了！

你关注了吗？"

DeepSeek开源周的精彩表现

原来，DeepSeek在他们的开源周活动里仅仅刚过去了第二天，两天的时间里，整个AI圈子已经变得格外热闹。

开源第一天，DeepSeek发布了一个名为FlashMLA的代码库，专门针对英伟达的Hoppers GPU进行优化。

这种优化能够把GPU的每一滴性能都有效发挥，使得研究者们可以更高效地进行计算任务。

而第二天，他们又震撼地抛出了DeepEP通信库，这是一个为专家混合（MoE）和专家并行（EP）设计的通信库。

这次开源，不仅吸引了无数开发者的关注，也让一些手握Hoppers GPU的公司纷纷行动。

因此，不少人预测，接下来的几天，DeepSeek还会有更多惊喜。

阿里通义千问展示QwQ-Max-Preview

除了DeepSeek的热闹，我们还不得不提到阿里的动向。

阿里通义千问的QwQ-Max-Preview在这几天也引起了广泛关注。

QwQ-Max-Preview是一个推理模型，基于Qwen2.5-Max强大的数学理解和编码能力。

虽然目前只是预览版，但功能已经相当强大。

有一次，我和我的团队在QwQ-Max-Preview上测试了一道数学竞赛题，让我印象深刻。

尽管模型的思考时间稍长，大约两分钟，但最后还是给出了正确答案。

与之相比，DeepSeek R1的速度稍快一些，但结果却没那么令人满意。

Anthropic深夜推出Claude 3.7 Sonnet

不仅仅是中国的科技巨头在忙碌，深夜的另一个AI圈子也不平静。

那天凌晨两点，当大多数人还在梦乡时，美国的Anthropic悄然发布了Claude 3.7 Sonnet。

这是一个混合模型，兼具标准模式和扩展模式。

标准模式下，它可以快速计算出结果，而在扩展模式下，它可以展示大模型的推理步骤和思考过程。

Anthropic的聪明之举在于，他们的模型能同时处理推理和传统任务，在代码能力方面表现尤为出色。

曾经有一个外网的测试案例，同样的提示词让Claude 3.7 Sonnet和Grok 3进行对比，结果显示Claude 3.7 Sonnet遥遥领先。

这让不少开发者更青睐这个多才多艺的模型。

AI模型推理大战：哪个更胜一筹？

随着AI技术的发展，这场推理模型之争变得愈加激烈。

DeepSeek的开源举措让闭源模式的OpenAI感受到压力，甚至有评论认为，OpenAI的闭源策略在历史上站错了边。

Llama家族这种具有里程碑意义的模型，对于推动开源社区的重要性不言而喻。

这几年，国内外科技公司企业的争相开源，尤其是像DeepSeek和Meta的积极参与，使得推理模型的竞争环境更加激烈。

而曾经盛行的大模型，逐渐从强调长文本能力进入到对多模态的卷文生图、视频以及语音交互的竞争，再到推理速度上直接进行比拼。

推理模型的比拼不仅仅是速度和准确性的较量，更是模型生态和应用范围的一场战役。

开源和闭源模式的争论持续上演，未来，哪种模式将最终占据上风，还将呈现出更为复杂和多变的局面。

无论未来如何发展，人工智能开源的趋势已经不可阻挡。

像DeepSeek这样的开源先锋打出的每一步棋，都在推动整个行业的前进。

而对我们这些普通消费者来说，开源所带来的技术进步和应用普及，终将在生活的方方面面中体现。

说不准哪天，闭源模式突然开源，甚至是革命性的AGI出现，都会成为可能。

至此，当我们聊起这些AI的新闻，不再觉得遥远和陌生，而是切实感受到科技进步带来的变化。

正如张强所说，"与其被动等待，不如积极参与，时代的洪流不会因为任何人的停滞而放慢前行的步伐。

"这话不假，每一次创新，每一段奋斗，都是向未来迈进的脚步。

玩酷网