新年期间,科技圈最火爆的莫过于杭州的人工智能企业DeepSeek,其凭借新颖的理念开发的推理型大模型用不足600万美元的成本实现甚至部分超越了行业巨头Open AI的o1模型的测试指标。

由于DeepSeek的R1模型的优秀能力和廉价的开发成本,导致走传统的尺度定律(Scaling Law)原理的AI企业被市场给予巨大的质疑,这包括Open AI以及各类基于尺度定律(Scaling Law)的上下游企业诸如英伟达等等。尺度定律最初由OpenAI在2020年提出,并在其论文《Scaling Laws for Neural Language Models》中详细阐述。该定律的核心发现是神经语言模型性能与模型大小、数据集大小和计算量之间存在幂律关系,且在一定范围内趋势稳定。近几年来最为火爆的GPT系列大模型以及其它厂商开发的诸如Claude等大型预训练模型的开发逻辑都是基于此。完整版本的GPT4有1.76万亿参数,这造就了其巨大的开发和运营成本,而Deep Seek的R1模型仅有6710亿个参数,同时,其采用的混合型大模型构架,在单次推理时仅激活部分专家网络(约37B参数),这使得其运营成本比传统的模型大大减少。

R1模型的诞生让人们不禁开始怀疑尺度定律(Scaling Law)是否是通向AGI的唯一道路,而在市场反应上则是基于尺度定律(Scaling Law)的各类企业的股票市值暴跌,其中英伟达作为尺度定律(Scaling Law)的最大受益者,其股票跌价也是最猛的,最高在1月27日单日股价下跌近 17%。其它芯片厂商也遭到了不同程度的影响,内存厂商美光科技和芯片IP厂商Arm Holdings分别下跌超过 11% 和 10%。芯片制造商博通和AMD分别下跌超过17%和6%。这次波动甚至影响到了更为上游的芯片制造设备提供商的股价,荷兰芯片制造设备厂商ASML和ASM International在欧洲的股价同样受到冲击。

虽然英伟达的股价受到了剧烈的冲击,但是其并没有盲目抨击deep seek的技术,其反而公开赞扬其带来的技术突破,其发言人表示:“DeepSeek 是出色的 AI 进步,也是测试时间扩展的完美范例。DeepSeek 说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制的计算。推理需要大量 NVIDIA GPU 和高性能网络。我们现在有三个扩展法则:预训练和后训练,它们将继续,以及新的测试时间扩展。”当然可以看出,英伟达仍然在强调即使在新的开发思路下,英伟达的GPU仍然是不可或缺的。
DeepSeek的崛起DeepSeek-AI 由梁文峰于 2023 年 5 月创立,实际上是幻方量化( High-Flyer) 的衍生公司,幻方量化是国内知名的量化投资基金,创始人梁文峰本硕毕业于浙江大学信息电子工程专业,在2008年就开始探索机器学习技术应用于量化交易市场,并在2016年创立了幻方量化投资基金。幻方量化在国内作为知名量化投资企业,取得巨大的成果,据悉其管理的资产在2021年后超过千亿元,是国内四大量化投资机构之一。

在投资市场上取得显著成就之后,梁文峰开始涉足人工智能大模型的研究。2023年5月,梁文峰宣布进军通用人工智能(AGI)领域。紧接着在7月,幻方量化宣布成立大模型公司DeepSeek,即杭州深度求索人工智能基础技术研究有限公司,标志着正式进入通用人工智能的竞技场。
进军通用人工智能行业后,其进度很快,在2024年5月,DeepSeek推出其新一代产品DeepSeek-V2。DeepSeek-V2的API定价策略为每百万tokens输入1元、输出2元,其价格仅为GPT-4 Turbo的百分之一。到了同年12月27日,DeepSeek再次突破技术壁垒,发布了DeepSeek-V3,并公开了详尽的53页训练和技术细节报告。

在2025年1月20日, DeepSeek正式发布DeepSeek-R1模型,该模型作为推理型大模型引起了业内巨大的轰动。 这背后来自于Deep Seek的快速技术积累和迭代,2024 年 8 月,DeepSeek发表了一篇论文,描述了它创建的一种新型负载均衡器,用于将其混合专家 (MoE) 基础模型的元素相互链接。2024年12月,该公司发布了其 DeepSeek-V3 基础模型的架构细节,该模型涵盖 6710 亿个参数(对于生成的任何给定tokens,仅激活 370 亿个参数)。这种模式使得其具备更低的运营成本和不输于成本更高的大模型的指标表现。之后R1推理型大模型的公布更是引起了业内的巨大震动,创始人梁文峰更是成为总理主持的座谈会的嘉宾。

面对外界,尤其是西方媒体的各种震惊,梁文峰曾经回复“中国AI不可能永远跟随。”希望深度求索可以带来越来越多的优秀AI技术,中国AI界也可以做大做强,为中国经济和民生添砖加瓦!