玩酷网

成本不到50！美国华裔女院士成功复刻Deepseek，性能媲美顶级模型

紫蓝谈社会趣事 2025-02-08 11:39:04

2025年伊始，中国AI界传来捷报，DeepSeek应用强势登顶美国手机应用商店，下载量力压ChatGPT，

其创始人梁文锋一时风头无两，被海外誉为“来自东方的神秘力量”。

这款来自广东湛江的AI应用，在短短两年内便搅动了全球市场，成为业界瞩目的焦点。

甚至连Meta这样的巨头也开始对其进行研究，试图从中汲取经验。

DeepSeek-V3版本的问世更是锦上添花，其通过巧妙的优化策略，例如选择性激活模型部分、降低计算精度但不影响结果等，大幅降低了训练成本，并凭借其优秀的性能，例如能根据用户祖母的原型创作故事并给予温暖安慰，赢得了用户的广泛赞誉。

然而，就在DeepSeek享受成功的喜悦之时，一个新的挑战者悄然出现，它以低廉的成本和不俗的性能，给DeepSeek的光环蒙上了一层阴影。

这场风暴的中心，是一位华裔女院士——斯坦福大学计算机科学系的李飞飞教授。

她带领的团队以令人难以置信的低成本——不到50美元，成功复刻了一款AI推理模型，名为s1。

消息一出，便在AI领域引发了巨大的震动。

50美元，或许只够一顿普通的晚餐，却足以打造一个性能堪比业界顶尖水平的AI模型，这在以往是难以想象的。

那么这到底是一种颠覆性的创新，还是昙花一现的巧合呢？

要解答这些疑问，我们首先需要了解s1模型背后的技术细节。

与传统的“砸钱”式AI模型开发不同，s1模型的成功并非依赖于庞大的算力和海量的数据，而是依靠巧妙的算法设计和策略优化。

具体来说，s1模型基于开源的Qwen2.5-32B-Instruct模型，并利用一种被称为“蒸馏”的技术进行训练。

这项技术就好比是从一坛陈年佳酿中提取精华，将其浓缩成一小瓶精粹。

s1团队首先构建了一个名为s1K的小型数据集，其中仅包含1000个精心挑选的问题和答案，并附带了模型的推理过程，类似于解题步骤。

这些问题涵盖了数学竞赛、博士级别科学问题、奥林匹克竞赛问题等高难度领域，保证了数据集的质量和多样性。

然后，团队利用谷歌的Gemini Flash Thinking模型为这些问题生成推理轨迹和答案，以此来训练s1模型。

整个训练过程仅使用了16台英伟达H100GPU，耗时26分钟，成本低廉得令人咋舌。

除了“蒸馏”技术和s1K数据集外，s1团队还采用了一种名为“预算强制”的策略来进一步优化模型性能。

这项策略就好比是给模型设定了一个“思考时间限制”，如果模型在规定的时间内没有完成推理，则强制终止并给出答案；

如果模型需要更长的思考时间，则通过添加“等待”指令来延长推理过程。

这种策略可以有效控制模型的计算量，并在保证性能的前提下降低成本。

于是乎，s1模型以其低成本和高性能迅速吸引了业界的关注，不少人将其视为Open AI o1和DeepSeek R1等顶级模型的强劲竞争对手。

然而，事实真相真是如此吗？

要评估s1模型的性能，我们需要将其与其他顶尖模型进行比较。

s1团队在AIME 24和MATH 500等数学竞赛数据集上对s1模型进行了测试，并将结果与Open AI o1、Open AI o1-preview和Deep Seek R1等模型进行了对比。

结果显示，s1模型在特定数据集上的表现可以媲美甚至超越o1-preview，尤其是在团队精心挑选的数据集上，s1展现出了强大的竞争力。

然而，s1模型与o1正式版和Deep SeekR1的差距仍然较为明显，特别是在更广泛的测试集上。

这种结果引发了一些争议。

一部分人认为，s1模型的成功并非完全依赖于其自身的技术创新，而是受益于对测试数据的精心挑选和对测试时间的巧妙控制。

例如，s1团队采用的“预算强制”策略，通过强制延长模型的思考时间，使其有机会进行更深入的推理，从而提高了在特定任务上的表现。

这就好比在考试中，给一些学生额外的时间来思考和检查，他们的成绩自然会更好。

因此，s1模型的优异表现并不能完全代表其在实际应用中的真实能力。

此外，s1模型的“蒸馏”方法也受到了质疑。

一部分人认为，这种方法本质上是利用Gemini模型生成数据，然后用这些数据对Qwen模型进行微调，并不能称之为真正的“蒸馏”。

真正的“蒸馏”应该是将大模型的知识迁移到小模型，而不是简单地使用大模型生成的数据进行训练。

因此，s1模型的成功在一定程度上依赖于Gemini模型，而并非完全依靠自身的创新。

另一个值得关注的模型是LIMO。

LIMO同样基于Qwen2.5-32B模型，并通过极少数数据示例来激发模型的数学推理能力。

在AIME和MATH基准测试中，LIMO仅使用了817个训练样本，就取得了令人瞩目的成绩，准确率分别达到了57.1%和94.8%。

LIMO的成功表明，通过精心设计的数据集和训练策略，即使是小规模的数据也能取得显著的成果。

尽管s1模型的性能与顶级模型仍有差距，但其低成本的特性和在特定任务上的出色表现仍然具有重要的意义。

s1模型的出现挑战了传统的AI模型开发范式，即依靠堆叠算力和数据来提升性能。

它证明了，通过巧妙的算法设计和策略优化，即使是小规模的算力和数据也能取得令人瞩目的成果。

这就好比在武术中，以“巧劲”胜过“蛮力”。

s1模型的出现引发了媒体的广泛关注，但一些报道也存在夸大和误读的现象。

例如，一些媒体将s1模型描述为“OpenAIo1和DeepSeekR1的竞争对手”，甚至将其称为“颠覆者”。

然而，s1模型的实际性能与这些顶级模型仍有差距，称其为“竞争对手”或许略显夸张，“颠覆者”更是言过其实。

另一个被媒体放大的点是“50美元”的成本。

一些媒体将“50美元”解读为训练s1模型的总成本，这实际上是一种误读。

50美元仅仅是指最终微调s1模型所需的GPU算力成本，并不包括前期数据收集、模型选择、算法设计等环节的成本。

此外，s1模型是基于开源的Qwen2.5-32B-Instruct模型进行微调的，Qwen模型本身的训练成本远高于50美元。

因此，将“50美元”等同于s1模型的总成本，显然是不准确的。

不过事到如今，咱们也别着急下定论，从长远来看，这个s1模型充其量只能说是“还在路上”。

就像我们常说的，别人老是跟着学，但就是赶不上。

中华儿女的智慧从来就不是那些外国人能望其项背的。

接下来就是让时间来见证，谁才是真正的王者!

大家觉得呢？

信息来源：

DeepSeek登顶中美苹果应用商店免费应用排行榜

澎湃新闻2025-01-27

DeepSeek：很多惊叹，更多惊喜（望海楼）

海外网2025-02-06 06:39

全球最新排名：DeepSeek-V3夺开源模型第一！是“新瓶装旧酒”还是实质性突破？业内人士详解

每日经济新闻2025-01-06

1 阅读：472

评论列表

致远 4

2025-02-10 07:47

真的假的？

紫蓝谈社会趣事

简介：感谢大家的关注

作者最新文章

社会TOP

社会最新文章