世界已经不断被人工智能风暴席卷,这次是来自中国新的开源推理模型DeepSeeR1。甚至首次被认为中国公司在人工智能方面可能会威胁到西方科技巨头的收入前景和美国长期以来的人工智能霸权。

直到上周,很少有人会听说这家公司。然而,由中国人工智能初创公司DeepSeek开发的这个模型几天之内就在科技界掀起了冲击波。
DeepSeek声称,R1模型的性能与OpenAI的ChatGPT-4和Anthropic的Claude-3.5-Sonnet相当,甚至超过了后者。这些模型被广泛认为是业内最具创新性的模型之一,但R1似乎在某些人工智能基准上击败了它。根据DeepSeek的数据,R1在MATH-500、AIME和SWE测试台验证中击败了这些模型。
令人震惊的是,DeepSeek声称R1的训练成本仅为560万美元。这一数额与美国领先科技公司为开发其模型所花费的数亿美元形成了鲜明对比。据报道,成本降低了50倍,这表明需要重新思考所有主要基础模型制造商(如Meta Llama、Anthropic Claude、IBM Granite、Microsoft Phi、Mistral AI、Nvidia Nemotron和OpenAI GPT-4等)使用的“投入更多数据中心”的方法。DeepSeek可能已经开发了一种人工智能机制,可以快速处理用于基础模型的原始数据。
尽管这些说法在人工智能界存在争议,但R1的消息足以让投资者重新思考他们对人工智能投资的巨大回报。这也可能促使科技公司重新审视其在人工智能上的巨额支出的预算分配,因为投资者对回报的要求越来越高。
DeepSeek上周发布了一篇研究论文,概述了其两个主要型号DeepSeek R1 Zero和DeepSeek R1s的开发过程,引起了科技界的关注。本文强调了R1在编码、常识和开放式生成任务方面的出色表现。
DeepSeek R1的一个主要吸引力在于其完全开放的权重框架,该框架使用户能够针对特定目的对模型进行微调和定制。它也足够小,可以在移动设备上运行或与其他型号结合使用。这种受欢迎程度的激增使DeepSeek R1一跃成为苹果应用商店生产力排行榜的榜首。
无论有没有跨张或炒作,DeepSeek R1造成的“破坏”影响导致美国主要科技股大幅下跌。半导体设备厂家ASML、NVIDIA、Meta、Alphabet和微软上周一的股价均大幅下跌。股价下跌抹去了数千亿美元的市值,标准普尔500指数下跌超过2%,以科技股为主的纳斯达克指数下跌3.5%。
R1的出现在科技界引起了复杂的反应。虽然一些人称赞这一杰出的创新是开源人工智能开发的一大进步,但其他人则对地缘政治影响表示担忧。
LeCun在X上写道:“对于那些看到DeepSeek的表现并认为‘中国在人工智能方面正在超越美国’的人来说,这是错误的。”“正确的解读是:‘开源(开放权重)模型正在超越专有模型。’”LeCun称赞DeepSeek使用PyTorch和LlaMA(均为开放权重)等工具构建模型。
根据英伟达发言人的一份声明,“DeepSeek是一项出色的人工智能进步,也是测试时间缩放的完美例子。DeepSeek的工作说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口控制的计算。推理需要大量的英伟达GPU和高性能网络。我们现在有三个缩放定律:训练前和训练后,以及新的测试时间缩放。”
伯恩斯坦公司(Bernstein)分析师对DeepSeek的说法仍持怀疑态度。该公司负责美国半导体业务的高级分析师Stacy Rasgon质疑DeepSeek是否真的是以不到600万美元的价格构建的,或者它是否更像是一个专家系统的混合体,该系统是在其他大型基础模型的基础上,通过多种优化和巧妙技术构建的。Rasgon表示,这可以解释为什么R1对GPU的要求如此之低。然而,Rasgon承认DeepSeek的定价击败了竞争对手。

Marcus on AI的Gary Marcus表示,据报道,DeepSeek始于LLMs对Meta的Llama模型的再训练。如果是这样的话,那么部分成本降低可能是由于微调而不是完全训练一个独立的模型。
Marcus进一步指出,“GPT-5尚未到来”,这表明仅靠硬件和数据扩展可能不是AGI(或改进的基于GPT的系统)持续进步的答案。像OpenAI o1这样的新推理模型与GPT4o这样的通用模型的引入可能表明能力的扩展,而不是构建。
OpenAI首席执行官Sam Altman迄今为止对此事保持沉默。
Third Seven Capital的市场策略师Michael Block表示:“时间会证明DeepSeek的威胁是否真实——关于什么技术有效以及西方大型企业将如何应对和发展的竞赛正在进行中。”。“在特朗普2.0时代开始时,市场过于自满,可能一直在寻找退缩的借口——他们在这里找到了一个很好的借口。”
风险投资家Marc Andreessen称R1 AI的“Sputnik Moment”((指的是苏联在20世纪50年代末发射卫星标志着太空竞赛的开始)揭开序幕。许多行业分析师和金融专家正在等待事态的发展,以及DeepSeek的说法是否符合预期。
Pictet资产管理公司的高级投资组合经理Jon Withaar表示:“我们仍然不知道细节,任何事情都没有得到100%的证实,但如果训练模型的成本真的从1亿美元以上突破到据称的600万美元,这对生产力和人工智能终端用户来说实际上是非常积极的,因为成本显然要低得多,这意味着访问和使用成本更低。”
DeepSeek R1问世之际,特朗普政府承诺加快美国人工智能芯片的生产。在上任的第一天,特朗普总统宣布私营公司将对人工智能基础设施投资5000亿美元,并签署了一项行政命令,以“消除”人工智能发展的障碍。

目前,我们知道DeepSeek已经接受了挑战,震动了行业,并为新一轮的竞争奠定了基础。看看这种新的动态是如何发展的,这将是一件有意义的事情。