
2024年冬天,在杭州,当西方还在热闹过圣诞节的时候,一个中国程序员站在落地窗前,看着外面的京杭大运河。几分钟后,他做了件让硅谷都震惊的事。
美国CNBC电视台报道说,这件事让整个硅谷都“嗡嗡作响”。12月26日,杭州一家叫“深度求索”的中国初创公司,发布了一个新的大模型——DeepSeek-V3。这个模型在很多测试里,性能都超过了其他开源模型,甚至能和顶尖的闭源大模型GPT-4o打个平手,尤其是在数学推理上,DeepSeek-V3更是厉害得一骑绝尘。更让人惊讶的是,研发这个模型只花了558万美元,训练成本不到GPT-4o的二十分之一。

这下,美国人坐不住了。以前,谷歌和OpenAI花了几年时间、烧了几十亿甚至上百亿美元,用了几万块最先进的GPU,才搞出类似的东西。这么一对比,美国人开始怀疑:大模型和算力,到底还值不值得投?
很多硅谷大佬一边点赞,一边心里有点不是滋味。他们发现,当美国人休息的时候,中国人正在拼命追赶,甚至已经超越了他们。
有意思的是,这件事和中国空军六代机现身的时间差不多。不少美国人觉得,这比当年苏联抢先发射第一颗人造卫星的“斯普特尼克时刻”还震撼。
不过,真正让硅谷震惊的,还不是DeepSeek-V3的高性能和低成本,而是中国人展现出来的首创精神。以前,大家都觉得中国AI公司就是照搬硅谷的模式,好像美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。DeepSeek-V3打破了这种偏见,它用了MLA、DeepSeekMoE这些新技术,让模型性能和训练效率大幅提升。美国人这才发现,原来中国公司也能自己搞创新,还能自己定游戏规则,这在过去可是很少见的。
DeepSeek在硅谷被称作来自东方的神秘力量。最让人意外的是,支持它的不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。幻方量化是国内少数拥有上万块GPU的企业之一。它在2023年成立了子公司“深度求索”,开始研发DeepSeek大模型。整个团队只有139人,比OpenAI的1200人少多了。这个团队的领头人是个80后,叫梁文峰,也是幻方量化的创始人。
梁文峰和幻方的故事得从2008年说起。那年,他从浙大毕业,学的是软件工程。他没像别人一样去大厂打工,而是跑到成都,在出租屋里琢磨怎么用计算机赚钱。折腾来折腾去,他决定做量化投资。当时量化在国内还是新鲜玩意儿,很多人觉得这东西根本赚不到钱。但梁文峰一直记得量化投资之父西蒙斯说的那句话:“一定有办法对价格建模。”靠着这个信念,他熬了两年。2010年,沪深300股指期货上线,量化投资迎来了好时机。梁文峰抓住机会,大赚了一笔,资金一下子涨到5亿多。
那段时间,人工智能也迎来了大爆发。梁文峰早年在浙大就研究过人工智能,这下又燃起了斗志。2015年,他和浙大的老同学一起创立了幻方量化,想用数学和人工智能打造一个像文艺复兴那样的顶级量化对冲基金。才过了一年,他们就上线了第一笔AI驱动的实盘交易,后来干脆把所有交易策略都用AI搞定。新技术让幻方量化基金的回报率远远超过了沪深300指数,基金规模也一路飙升。到2021年,规模一度突破1000亿元,成了国内量化投资的“四大天王”之一。

不过,基金规模越大,问题也越多。AI交易策略需要算力支持,尤其是模型参数越来越多,对GPU算力的需求也越来越大。梁文峰的解决办法就是:堆算力!
从2019年开始,幻方量化就开始大规模搞AI算力。当年就花了2亿元,建成了“萤火一号”算力集群,装了1100块GPU算卡。那时候,特斯拉才刚提出Dojo超算的概念。几个月后,英伟达发布最新的A100芯片,梁文峰又抢先一步,成了亚太地区第一批拿到的人。2021年,他又花了10亿元,建成了“萤火二号”,装了1万块A100算卡,算力相当于76万台个人电脑,占地面积比10个篮球场还大。
在大模型还没火起来的时候,梁文峰的举动让很多人觉得他疯了。一家私募基金囤这么多算力,到底想干啥?甚至还有媒体说,幻方量化把A股散户都吓坏了。那时候,大家还觉得幻方量化只是在资本市场上搞事情,却没意识到,梁文峰的目光早就瞄准了更远的地方。
2017年,谷歌的研究团队搞了个大新闻,他们弄出了一个叫Transformer的架构。这个东西特别厉害,完全靠注意力机制,把以前的老算法都给颠覆了。
后来,一家美国的初创公司OpenAI,就用这个新架构开始训练自己的大模型。到了2022年,他们搞出了ChatGPT,一下子就把AI大模型时代给引爆了。
从那以后,全球的互联网巨头们都跟着OpenAI的路子往前冲,基本没人质疑。
但有这么一群年轻人,他们特别大胆,居然想改进Transformer架构。带头的就是梁文峰。
其实从2023年他们创立深度求索开始,梁文峰和他的团队就一直在琢磨怎么改进算法框架。
当别人都忙着模仿OpenAI的时候,这群年轻人偏不走寻常路。他们敢冒失败的风险,搞了好多开创性的技术,像MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)之类的。
他们之前囤的那些算力芯片,也正好派上了用场,给他们的梦想插上了翅膀。
最后,他们真的创造了历史!DeepSeek-V3一出来,直接震惊了硅谷。
说到这儿,很多人会感叹:中国为啥出不了像乔布斯、马斯克、黄仁勋那样的大人物呢?
乔布斯活着就一个目标:改变世界。黄仁勋年轻的时候就立志要彻底改变计算。马斯克更是疯了似的喊着要殖民火星,给地球人找个第二家园。
相比之下,中国企业家好像更关注赚钱和生存,很少去想那些特别宏伟的目标,对创新也没那么重视。
过去30年,我们习惯了摩尔定律,觉得硬件和软件每隔18个月就会变好,所以基本没怎么参与真正的技术创新。
不过,这几年情况慢慢变了,中国新生代企业家开始搞突破性创新,在西方的规则之外另辟蹊径。
梁文峰就说:“中国也得慢慢变成创新贡献者,不能老是搭便车。”
他上大学的时候就坚信AI能改变世界。毕业后,他在量化投资里赚了不少钱,有了足够的资本去干自己喜欢的事,而不是老想着利弊得失。
DeepSeek一开始,就定了个特别大胆的目标:探索通用人工智能的本质。在中国AI圈里,敢这么干的企业可不多。
过去几年,别的大模型公司都在忙着抢用户、搞商业化,梁文峰却一头扎进了基础研究,虽然看起来不赚钱,但他觉得这才是创新的真谛。
他说:“创新不能光靠商业驱动,还得靠好奇心和创造力。”
在他看来,中国企业在过去被商业驱动的惯性给束缚住了,他希望DeepSeek能摆脱这种束缚。
这种经营理念在现在的中国企业界显得有点另类。
好多业内人士都说,梁文峰是中国AI圈里特别罕见的人。他学习能力超强,既懂工程又懂模型研究,还能搞定各种资源。
在公司员工眼里,他一点都不像老板,更像是个极客。到现在,他还是每天和研究员一起看论文、写代码、讨论问题,特别低调。
就连选人、用人的方式,他也和别人不一样。别的大模型公司都在海外挖人,他却坚持从国内招,还说:“世界前50的顶尖人才可能不在中国,但我们自己也能培养出这样的人。”
他喜欢招那些没经验的年轻人,因为这些孩子没那么多条条框框,更容易突破传统。
DeepSeek的员工,其实都是些刚毕业没几年的年轻人,甚至还有北大、清华等顶尖高校没毕业的博士生。这些孩子做的工作特别前沿,几乎没多少参考资料,但正是这种空白让他们敢于大胆创新。
比如DeepSeek-V3里最重要的MLA架构,就是某个年轻人突然灵光一闪想出来的。
DeepSeek内部也没有严格的上下级分工。大家有想法就可以拉人讨论,还能随时调用公司的训练集群,不需要审批,也没有上限。
这种看似松散的管理方式,反而把大家的好奇心和创造力都激发出来了,DeepSeek-V3才能这么厉害。
从梁文峰身上,我们好像看到了乔布斯、马斯克、黄仁勋的影子。
他说:“中国AI不可能永远跟着别人跑!”“真正的差距不是一年两年,而是原创和模仿的差别。”
这两句话,不仅是AI产业的事,也是中国企业这么多年一直跟着西方跑之后,必须面对的突破方向。
毕竟,容易摘的果子都被摘光了,只有敢于突破,才能找到新路。
不过,梁文峰并不孤单。现在,像大疆无人机的汪滔、宇树机器人的王兴兴这样的新生代企业家,正在把中国科技产业带向新的高度。