DeepSeek开源周才第二天,有些公司已经坐不住了

科技智慧囊 2025-03-05 15:02:31

清晨的阳光还未透过窗帘,手机却已经叮咚响个不停。

是的,我的朋友张强,一个痴迷于AI技术的小公司创始人,已经发了好几条信息,内容大致是:"天啊,DeepSeek才开源两天,就已经让各大公司都坐不住了!

你关注了吗?"

DeepSeek开源周的精彩表现

原来,DeepSeek在他们的开源周活动里仅仅刚过去了第二天,两天的时间里,整个AI圈子已经变得格外热闹。

开源第一天,DeepSeek发布了一个名为FlashMLA的代码库,专门针对英伟达的Hoppers GPU进行优化。

这种优化能够把GPU的每一滴性能都有效发挥,使得研究者们可以更高效地进行计算任务。

而第二天,他们又震撼地抛出了DeepEP通信库,这是一个为专家混合(MoE)和专家并行(EP)设计的通信库。

这次开源,不仅吸引了无数开发者的关注,也让一些手握Hoppers GPU的公司纷纷行动。

因此,不少人预测,接下来的几天,DeepSeek还会有更多惊喜。

阿里通义千问展示QwQ-Max-Preview

除了DeepSeek的热闹,我们还不得不提到阿里的动向。

阿里通义千问的QwQ-Max-Preview在这几天也引起了广泛关注。

QwQ-Max-Preview是一个推理模型,基于Qwen2.5-Max强大的数学理解和编码能力。

虽然目前只是预览版,但功能已经相当强大。

有一次,我和我的团队在QwQ-Max-Preview上测试了一道数学竞赛题,让我印象深刻。

尽管模型的思考时间稍长,大约两分钟,但最后还是给出了正确答案。

与之相比,DeepSeek R1的速度稍快一些,但结果却没那么令人满意。

Anthropic深夜推出Claude 3.7 Sonnet

不仅仅是中国的科技巨头在忙碌,深夜的另一个AI圈子也不平静。

那天凌晨两点,当大多数人还在梦乡时,美国的Anthropic悄然发布了Claude 3.7 Sonnet。

这是一个混合模型,兼具标准模式和扩展模式。

标准模式下,它可以快速计算出结果,而在扩展模式下,它可以展示大模型的推理步骤和思考过程。

Anthropic的聪明之举在于,他们的模型能同时处理推理和传统任务,在代码能力方面表现尤为出色。

曾经有一个外网的测试案例,同样的提示词让Claude 3.7 Sonnet和Grok 3进行对比,结果显示Claude 3.7 Sonnet遥遥领先。

这让不少开发者更青睐这个多才多艺的模型。

AI模型推理大战:哪个更胜一筹?

随着AI技术的发展,这场推理模型之争变得愈加激烈。

DeepSeek的开源举措让闭源模式的OpenAI感受到压力,甚至有评论认为,OpenAI的闭源策略在历史上站错了边。

Llama家族这种具有里程碑意义的模型,对于推动开源社区的重要性不言而喻。

这几年,国内外科技公司企业的争相开源,尤其是像DeepSeek和Meta的积极参与,使得推理模型的竞争环境更加激烈。

而曾经盛行的大模型,逐渐从强调长文本能力进入到对多模态的卷文生图、视频以及语音交互的竞争,再到推理速度上直接进行比拼。

推理模型的比拼不仅仅是速度和准确性的较量,更是模型生态和应用范围的一场战役。

开源和闭源模式的争论持续上演,未来,哪种模式将最终占据上风,还将呈现出更为复杂和多变的局面。

无论未来如何发展,人工智能开源的趋势已经不可阻挡。

像DeepSeek这样的开源先锋打出的每一步棋,都在推动整个行业的前进。

而对我们这些普通消费者来说,开源所带来的技术进步和应用普及,终将在生活的方方面面中体现。

说不准哪天,闭源模式突然开源,甚至是革命性的AGI出现,都会成为可能。

至此,当我们聊起这些AI的新闻,不再觉得遥远和陌生,而是切实感受到科技进步带来的变化。

正如张强所说,"与其被动等待,不如积极参与,时代的洪流不会因为任何人的停滞而放慢前行的步伐。

"这话不假,每一次创新,每一段奋斗,都是向未来迈进的脚步。

0 阅读:0

科技智慧囊

简介:提供科技思路,做智囊团