这两天全网都在谈幻方DeepSeek,来自中国的AI大模型震惊了硅谷,给中国人长了脸。所以幻方老板梁文峰马上就被邀请参加了总理座谈会。
其他搞AI大模型的人都是互联网行业出来的,梁文峰则是搞金融发家的,2015年成立幻方量化,基金规模从零开始几年时间就跨上百亿、千亿门槛。
但梁文峰赚了钱,却把钱砸到了AI上。之前媒体报道幻方数据中心有上万张英伟达显卡,人们还奇怪一家金融行业投资公司要这么多显卡干什么,在股市割韭菜不用这么夸张吧。谁能想到幻方在AI时代,把国内互联网大厂们按在地上摩擦。
DeepSeek的成功,意义在于在有限算力的条件下挖掘算法潜力。美国有条件所以大力出奇迹,大厂们疯狂建AI数据中心,都搞出来5000亿美元的星际之门计划,中国买不到最先进的英伟达芯片只能在算法、推理上下功夫。

幻方DeepSeek的成功惊醒了整个AI行业,任何时候算法、推理都是基础,算法模型好事半功倍。但是DeepSeek是开源模型,美国人马上又会把DeepSeek成功的算法吸收过去,继续砸算力。用军迷的话来说,中美一贯都是富则火力覆盖,穷则战术穿插。
据说DeepSeek现在已经实现盈利,而且没有进行过对外融资。不知道会不会借势开启融资,毕竟幻方再赚钱,也不可能靠自身实力支持DeepSeek和美国硅谷巨头们竞争。美国那边头部AI公司动不动融资几十亿、上百亿美元的,没有芯片算力、没有顶尖人才根本没法在这场竞赛中卷下去。甲骨文老板埃里森说未来4到5年内,任何想参与这场大模型竞赛的企业,前沿模型门槛将高达1000亿美金,而且这场算力军备竞赛将永远进行下去。
DeepSeek的成功可能把这个门槛拉下来不少,但长远来说,大模型竞赛还是一项巨额投资的领域。这两天也有消息称,字节跳动2025年资本支出将高达1500亿,主要就在AI领域,虽然字节予以否认,但投资肯定在千亿级别。
最近网上有杭州科技六小龙的说法,连杭州市长、浙江发改委主任都在媒体面前公开做了回应。这六家公司是游戏科学、深度求索(DeepSeek)、宇树科技、云深处科技、强脑科技和群核科技。它们都是“互联网之都”杭州近年来崛起的处于新技术领域前沿、在业内具有影响力的“科技新贵”。在阿里巴巴光芒略微黯淡后,杭州的新生力量成功补位。
深度求索的创始人是80后年轻人梁文峰,他拥有浙江大学信息与电子工程学系本科和硕士学位。2008年起,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,2019年,幻方资金管理规模就突破百亿元。

2021年,幻方量化成为国内首家突破千亿规模的量化私募公司。不过由于近几年国内股市的低迷,和监管部门对量化的限制,幻方量化逐渐降低其资金管理规模,目前资金管理规模在数百亿。
由于公司创始人都是计算机相关专业,而不是金融专业出身。他们对投资并不是那么执着,目前公司重心已经转向AI。早在2016年10月21日,幻方量化就推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行,使用GPU进行计算。2017年,幻方量化宣称实现投资策略全面AI化。幻方量化也在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。
2021年,幻方投入10亿建设“萤火二号”,“配备了1万张A100GPU芯片”,在性能上接近DGX-A100但成本降低了一半,同时能耗减少了40%。当时国内拥有上万枚GPU的企业,除了幻方量化外,其他4家都是互联网大厂。

2023年7月,幻方量化成立大模型公司DeepSeek,正式进军通用人工智能领域。DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。相比之下,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。
2024年5月,DeepSeek发布了DeepSeek V2。DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。
DeepSeek-V2采用了注意力机制方面的MLA和前馈网络方面的DeepSeekMoE架构等,实现了更高经济性的训练效果和更高效的推理。因为大幅降低了API价格,DeepSeek也被称为“AI界的拼多多”,引发了国内字节、阿里、百度等大厂的大模型价格战。
2024年12月27日,DeepSeek V3更是横空出世,火爆全球。V3评测成绩不仅超越了阿里巴巴的Qwen2.5-72B和脸书的Llama 3.1-405B等顶级开源模型,甚至能和GPT-4o、Claude 3.5-Sonnet等顶级闭源模型一较高下。
更令人震惊的是,DeepSeek V3整个训练仅花费了557.6万美元,在2048块英伟达H800 GPU集群上运行55天完成,只是OpenAI GPT-4o模型训练成本的不到十分之一。
而2025年1月20日, DeepSeek又发布了DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
幻方的成功代表的是开源相对闭源的一次胜利。早期OpenAI也是开源的,但大规模融资后逐渐选择了闭源,这也是马斯克和openAI的闹翻的原因。现在主流的开源模型是Meta的Llama,幻方DeepSeek成功后,大模型的开源力量将进一步增强。
幻方对推理成本的消减,比训练更加震撼。DeepSeek架构厉害的地方在于,和标准的transformer架构相比,并没有引入特殊的算子,理论上对GPU的要求会降低很多。
推理成本的降低,必将带来应用的繁荣,丰富当前大模型领域的生态。DeepSeek支持私有部署和自主微调,为下游应用提供了远大于闭源模型的发展空间。
有人说DeepSeek的成功,会利空英伟达。因为不用那么多GPU、不用最先进的GPU也能实现性能一流的大模型。甚至还有人说这会刺破美股当前由AI革命过分吹大的泡沫。这其实有点夸大了。
DeepSeek使用的也是英伟达的芯片,Scale AI创始人Alexandr Wang称DeepSeek目前拥有约5万台英伟达H100显卡。而且2024年国内字节和腾讯分别都订购了23万颗英伟达芯片,购买量位列全球第二和第三,仅次于微软。
网上也都说虽然美国政府有所限制,但国内企业还是可以通过各种渠道购买到英伟达的芯片。所以国内大模型年底对美国AI巨头们的这一波追赶,有可能促使美国进一步加强对英伟达芯片出口的限制。长期来说,中国AI企业需要逐步适应英伟达芯片的短缺,或者用华为等其他性能较低的AI芯片来进行替代。
由于在算力上中国和美国的差距,短期内只会继续加大。中美两国在通用人工智能(AGI)的进化方向上也会逐渐分野,中国企业重算法、推理,美国企业重算力。
DeepSeek的成功,更重要的是打破了国内AI行业对美国巨头的神话,打破了美国的算力霸权,让中国企业更有信心参与AI竞争。