英伟达(NVIDIA)长达两年的神奇增长是否即将结束?
本来,市场对英伟达的GPU需求一直是供不应求。而且随着AI人工智能竞赛的升温,无论是大型科技公司还是橱窗公司,都竟相购买或租用尽可能多的英伟达高性能GPU,以打造更优秀的人工智能模型。
但在春节期间,人工智能初创公司DeepSeek发布了其R1模型,震惊了科技界,R1是一个“推理”模型,其性能与OpenAI在去年12月份初发布o1推理模型相当,甚至在某些方面超越了OpenAI,而成本却只是其一小部分。
紧接着,一篇名为《The Short Case for Nvidia Stock》的博客文章在深夜发布,24小时内阅读量迅速突破50万。报告发布后的第一个工作日,英伟达跌没了6个英特尔,打破了由自己去年9月创下的美股单日市值蒸发记录(2790亿美元)。 同时,在英伟达身上栽过跟头的投资机构迅速团结起来,共同酝酿了一场价值5890亿美元的“1·27惨案”。
在很多人看来:如果能够在有限的计算资源下生成领先的大型语言模型(LLM),那么人工智能公司未来可能不需要购买或租用那么多高成本的计算资源。
这对英伟达来说可能是毁灭性的打击。但事实是否真的这样呢?今天我们就详细聊聊这个事情。
▌DeepSeek的核心优势
DeepSeek是从一家名为High-Flyer的量化对冲基金中孵化出来的人工智能实验室。High-Flyer的CEO梁文峰在2015年创立了这家公司,并在ChatGPT震撼登场后的2023年开始了DeepSeek项目。
DeepSeek一直在构建人工智能模型,据报道,它在英伟达A100被限制出口之前购买了10,000块A100芯片,这些芯片比当前的Blackwell芯片早了两代。
DeepSeek还拥有一个由英伟达H800芯片组成的集群,这是为中国市场设计的、性能受限的英伟达H100芯片的版本。值得注意的是,H100是Blackwell推出之前英伟达GPU的最新一代产品。
DeepSeek的出现,让市场对英伟达的未来产生了前所未有的担忧。DeepSeek的核心优势在于其开源性和低成本,这使得下游厂商可以针对性地开发模型,降低了开发难度和成本。
▌R1为什么会震惊世界?
1月20日,DeepSeek发布了R1,这是其基于V3 LLM的第一个“推理”模型。
推理模型相对较新,它采用了一种称为强化学习的技术,本质上是推动LLM沿着一条思路前进,如果遇到“墙”就后退,然后探索各种替代方法,直到得出最终答案。因此,推理模型能够以比简单的问答模型更高的精确度回答复杂问题。
令人难以置信的是,R1在多个基准测试中达到了与OpenAI的o1相当甚至更高的水平,而训练成本却只是后者的一小部分。
我们所说的“便宜”到底是什么意思?
R1的论文声称,该模型的训练成本仅为600万美元的租用GPU小时数,这与OpenAI和其他美国领先企业所花费的数亿美元相比只是九牛一毛。
DeepSeek的运行成本也仅为OpenAI的o1的三十分之一,而梁文峰表示,DeepSeek只是在成本之上收取“微薄的利润”。
专家估计,Meta Platforms(META)的Llama 3.1 405B模型的运行成本约为6000万美元的租用GPU小时数,相比之下,V3的运行成本约为600万美元,而V3在多种基准测试中超越了Llama的最新模型。
▌DeepSeek是如何做到的?
根据凯文·徐(Kevin Xu)一篇信息丰富的博客文章,DeepSeek凭借三个独特优势实现了这一“小奇迹”。
首先,梁文峰将DeepSeek打造成一个理想主义的人工智能研究实验室,没有明确的商业模式。目前,DeepSeek对其他希望在其基础上构建产品的公司收取少量费用,但除此之外,它将其开源模型免费提供给所有人。
梁文峰还招募了大量刚从学校毕业或在中国顶尖大学攻读博士学位的年轻人。这种文化鼓励自由实验和试错,没有太高的期望,这也让DeepSeek区别于其它中国的科技巨头。
其次,DeepSeek使用自己的数据中心,这使其能够为其自身目的优化硬件机架。
最后,DeepSeek通过多种方式优化其学习算法,从而最大化其有限硬件的性能。
例如,DeepSeek从头开始构建了自己的并行处理算法,称为HAI-LLM框架,优化了其有限芯片上的计算工作负载。DeepSeek还使用F8(8位)数据输入框架,这是一个比F32精度更低的框架。尽管F8“精度较低”,但它在内存利用方面节省了大量成本,而R1的其他流程能够通过更多的高效计算来弥补精度不足。DeepSeek还优化了其负载平衡网络内核,最大化每个H800集群的工作量,确保没有硬件因等待数据而闲置。
这些只是DeepSeek“少花钱多办事”的一些创新。但将所有这些“技巧”结合起来,带来了显著的性能提升。
这对英伟达的负面含义是,通过像DeepSeek这样在软件层面进行创新,人工智能公司可能会减少对硬件的依赖,这可能会影响英伟达的销售增长和利润率。
▌对“NVIDIA末日论调”的反驳
尽管R1对英伟达来说可能看起来很糟糕,但我也有几个反驳英伟达“注定完蛋”的论点。
首先,有些人怀疑DeepSeek在成本估算方面是否完全诚实。根据机器学习研究员内森·兰伯特(Nathan Lampbert)的说法,600万美元的租用GPU小时数可能没有考虑到许多额外成本。这些额外成本包括在训练大型模型之前的重要预训练小时数、购买GPU和建设数据中心的资本支出(如果DeepSeek真的自己建设了数据中心而不是从云端租用),以及高昂的能源成本。还有DeepSeek工程师的工资问题,因为R1有139名技术作者。由于DeepSeek是开源的,这些作者并非都在公司工作,但许多人可能确实如此,并且获得了可观的薪水。
兰伯特估计,DeepSeek的年度运营成本可能接近5亿到10亿美元。这仍然远低于其美国竞争对手的成本,但显然比R1论文中提到的600万美元要多得多。
也有人简单地怀疑DeepSeek是否真的拥有芯片。在最近的一次采访中,Scale AI的CEO亚历山大·王(Alexandr Wang)告诉CNBC,他认为DeepSeek拥有一个未公开的50,000个H100芯片集群,因为这些芯片自2022年出口限制以来在中国是非法的。
然而,鉴于DeepSeek已经公开发布了R1模型的技术,研究人员应该能够用有限的资源复制其成功。到目前为止,R1的效率突破看起来更像是真实的。
但即使是真的,英伟达也不一定完蛋。
尽管DeepSeek无疑令人印象深刻,但前OpenAI高管迈尔斯·布兰德(Miles Brundage)也警告不要过度解读R1的发布。布兰德指出,OpenAI已经推出了o3模型,并且很快将推出o5模型。尽管DeepSeek通过新奇的技术手段成功开发了R1,但其有限的计算能力可能会减缓其从第一个推理模型扩展和发展的速度。
布兰德还指出,有限的计算资源将影响这些模型在现实世界中同时运行的能力:
即使这是最小的可能版本,同时保持其智能——已经经过蒸馏的版本——你仍然希望在多个现实世界的应用程序中同时使用它。你不会希望在提升网络安全能力、帮助做作业或解决癌症之间做出选择。
你希望同时做所有这些事情。这需要并行运行许多副本,在选择最佳解决方案之前生成数百或数千次尝试解决难题的机会……从人类与人工智能的类比来看,假设爱因斯坦或冯·诺伊曼是人类大脑中可能存在的最聪明的人。你仍然希望有更多的他们。
你希望有更多的副本,这基本上就是推理计算或测试时间计算——复制聪明的东西。拥有爱因斯坦一小时的时间总比一分钟好,人工智能也会如此。
▌“杰文斯悖论”或让NVIDIA需求猛增
而且,投资者还应记住杰文斯悖论(Jevons Paradox)。这一术语由英国经济学家威廉·斯坦利·杰文斯(William Stanley Jevons)在1865年针对煤炭使用提出,指的是当一种技术过程变得更高效时发生的现象。
根据杰文斯悖论,如果一种资源的使用效率更高,那么这种资源的使用量不会减少,反而会呈指数级增长。增加的需求通常会完全抵消效率的提升,从而导致对该资源的总体需求增加。
对于人工智能来说,如果训练高级模型的成本降低,那么人工智能将在我们的日常生活中得到越来越广泛的应用。
根据这一悖论,这实际上会增加对计算能力的需求——尽管可能更多用于推理而非训练。这反而可能会对英伟达产生积极影响。
另一方面,人们认为人工智能推理可能比训练对英伟达更具竞争力,因此这可能是一个负面因素。但这种负面因素将来自竞争加剧,而非计算需求减少。
总之,未来多年对人工智能计算的需求将继续大幅增长。毕竟,在1月24日,Meta Platforms的CEO马克·扎克伯格(Mark Zuckerberg)宣布,Meta将建造一个几乎和曼哈顿一样大的人工智能数据中心,并将其今年的资本支出增加到600亿到650亿美元的范围,而2024年的范围为380亿到400亿美元。
这一宣布是在DeepSeek发布后的第四天,因此扎克伯格不可能不知道这件事。然而,他仍然认为大幅增加人工智能基础设施支出是合理的。
毫无疑问,DeepSeek的出现将对人工智能竞赛产生影响。但与其说是英伟达和其他“巨头”公司的“游戏结束”,现实将更加复杂。
随着人工智能竞赛的推进,投资者将不得不评估哪些公司真正拥有人工智能“护城河”,因为人工智能商业模式正在以惊人的速度和令人惊讶的方式演变,正如DeepSeek的R1刚刚展示的那样。
从投资市场来看,这场冲击并没有改变英伟达的市场地位。相反,它让英伟达更加清楚地认识到自身的不足,并加速了自身的优化和创新。只要英伟达能够继续发挥其技术优势,优化产品性能,降低成本,它依然能够在AI芯片市场中保持领先地位。
END➤ 往期精彩回顾