中国私募力量崛起，浙江大佬震惊硅谷！

2024年冬天，在杭州，当西方还在热闹过圣诞节的时候，一个中国程序员站在落地窗前，看着外面的京杭大运河。几分钟后，他做了件让硅谷都震惊的事。

美国CNBC电视台报道说，这件事让整个硅谷都“嗡嗡作响”。12月26日，杭州一家叫“深度求索”的中国初创公司，发布了一个新的大模型——DeepSeek-V3。这个模型在很多测试里，性能都超过了其他开源模型，甚至能和顶尖的闭源大模型GPT-4o打个平手，尤其是在数学推理上，DeepSeek-V3更是厉害得一骑绝尘。更让人惊讶的是，研发这个模型只花了558万美元，训练成本不到GPT-4o的二十分之一。

这下，美国人坐不住了。以前，谷歌和OpenAI花了几年时间、烧了几十亿甚至上百亿美元，用了几万块最先进的GPU，才搞出类似的东西。这么一对比，美国人开始怀疑：大模型和算力，到底还值不值得投？

很多硅谷大佬一边点赞，一边心里有点不是滋味。他们发现，当美国人休息的时候，中国人正在拼命追赶，甚至已经超越了他们。

有意思的是，这件事和中国空军六代机现身的时间差不多。不少美国人觉得，这比当年苏联抢先发射第一颗人造卫星的“斯普特尼克时刻”还震撼。

不过，真正让硅谷震惊的，还不是DeepSeek-V3的高性能和低成本，而是中国人展现出来的首创精神。以前，大家都觉得中国AI公司就是照搬硅谷的模式，好像美国擅长从0到1的技术突破，而中国只擅长从1到100的应用落地。DeepSeek-V3打破了这种偏见，它用了MLA、DeepSeekMoE这些新技术，让模型性能和训练效率大幅提升。美国人这才发现，原来中国公司也能自己搞创新，还能自己定游戏规则，这在过去可是很少见的。

DeepSeek在硅谷被称作来自东方的神秘力量。最让人意外的是，支持它的不是腾讯、阿里这样的互联网巨头，而是一家低调的私募基金——幻方量化。幻方量化是国内少数拥有上万块GPU的企业之一。它在2023年成立了子公司“深度求索”，开始研发DeepSeek大模型。整个团队只有139人，比OpenAI的1200人少多了。这个团队的领头人是个80后，叫梁文峰，也是幻方量化的创始人。

梁文峰和幻方的故事得从2008年说起。那年，他从浙大毕业，学的是软件工程。他没像别人一样去大厂打工，而是跑到成都，在出租屋里琢磨怎么用计算机赚钱。折腾来折腾去，他决定做量化投资。当时量化在国内还是新鲜玩意儿，很多人觉得这东西根本赚不到钱。但梁文峰一直记得量化投资之父西蒙斯说的那句话：“一定有办法对价格建模。”靠着这个信念，他熬了两年。2010年，沪深300股指期货上线，量化投资迎来了好时机。梁文峰抓住机会，大赚了一笔，资金一下子涨到5亿多。

那段时间，人工智能也迎来了大爆发。梁文峰早年在浙大就研究过人工智能，这下又燃起了斗志。2015年，他和浙大的老同学一起创立了幻方量化，想用数学和人工智能打造一个像文艺复兴那样的顶级量化对冲基金。才过了一年，他们就上线了第一笔AI驱动的实盘交易，后来干脆把所有交易策略都用AI搞定。新技术让幻方量化基金的回报率远远超过了沪深300指数，基金规模也一路飙升。到2021年，规模一度突破1000亿元，成了国内量化投资的“四大天王”之一。

不过，基金规模越大，问题也越多。AI交易策略需要算力支持，尤其是模型参数越来越多，对GPU算力的需求也越来越大。梁文峰的解决办法就是：堆算力！

从2019年开始，幻方量化就开始大规模搞AI算力。当年就花了2亿元，建成了“萤火一号”算力集群，装了1100块GPU算卡。那时候，特斯拉才刚提出Dojo超算的概念。几个月后，英伟达发布最新的A100芯片，梁文峰又抢先一步，成了亚太地区第一批拿到的人。2021年，他又花了10亿元，建成了“萤火二号”，装了1万块A100算卡，算力相当于76万台个人电脑，占地面积比10个篮球场还大。

在大模型还没火起来的时候，梁文峰的举动让很多人觉得他疯了。一家私募基金囤这么多算力，到底想干啥？甚至还有媒体说，幻方量化把A股散户都吓坏了。那时候，大家还觉得幻方量化只是在资本市场上搞事情，却没意识到，梁文峰的目光早就瞄准了更远的地方。

2017年，谷歌的研究团队搞了个大新闻，他们弄出了一个叫Transformer的架构。这个东西特别厉害，完全靠注意力机制，把以前的老算法都给颠覆了。

后来，一家美国的初创公司OpenAI，就用这个新架构开始训练自己的大模型。到了2022年，他们搞出了ChatGPT，一下子就把AI大模型时代给引爆了。

从那以后，全球的互联网巨头们都跟着OpenAI的路子往前冲，基本没人质疑。

但有这么一群年轻人，他们特别大胆，居然想改进Transformer架构。带头的就是梁文峰。

其实从2023年他们创立深度求索开始，梁文峰和他的团队就一直在琢磨怎么改进算法框架。

当别人都忙着模仿OpenAI的时候，这群年轻人偏不走寻常路。他们敢冒失败的风险，搞了好多开创性的技术，像MLA（多头潜在注意力机制）、DeepSeekMoE（混合专家模型）之类的。

他们之前囤的那些算力芯片，也正好派上了用场，给他们的梦想插上了翅膀。

最后，他们真的创造了历史！DeepSeek-V3一出来，直接震惊了硅谷。

说到这儿，很多人会感叹：中国为啥出不了像乔布斯、马斯克、黄仁勋那样的大人物呢？

乔布斯活着就一个目标：改变世界。黄仁勋年轻的时候就立志要彻底改变计算。马斯克更是疯了似的喊着要殖民火星，给地球人找个第二家园。

相比之下，中国企业家好像更关注赚钱和生存，很少去想那些特别宏伟的目标，对创新也没那么重视。

过去30年，我们习惯了摩尔定律，觉得硬件和软件每隔18个月就会变好，所以基本没怎么参与真正的技术创新。

不过，这几年情况慢慢变了，中国新生代企业家开始搞突破性创新，在西方的规则之外另辟蹊径。

梁文峰就说：“中国也得慢慢变成创新贡献者，不能老是搭便车。”

他上大学的时候就坚信AI能改变世界。毕业后，他在量化投资里赚了不少钱，有了足够的资本去干自己喜欢的事，而不是老想着利弊得失。

DeepSeek一开始，就定了个特别大胆的目标：探索通用人工智能的本质。在中国AI圈里，敢这么干的企业可不多。

过去几年，别的大模型公司都在忙着抢用户、搞商业化，梁文峰却一头扎进了基础研究，虽然看起来不赚钱，但他觉得这才是创新的真谛。

他说：“创新不能光靠商业驱动，还得靠好奇心和创造力。”

在他看来，中国企业在过去被商业驱动的惯性给束缚住了，他希望DeepSeek能摆脱这种束缚。

这种经营理念在现在的中国企业界显得有点另类。

好多业内人士都说，梁文峰是中国AI圈里特别罕见的人。他学习能力超强，既懂工程又懂模型研究，还能搞定各种资源。

在公司员工眼里，他一点都不像老板，更像是个极客。到现在，他还是每天和研究员一起看论文、写代码、讨论问题，特别低调。

就连选人、用人的方式，他也和别人不一样。别的大模型公司都在海外挖人，他却坚持从国内招，还说：“世界前50的顶尖人才可能不在中国，但我们自己也能培养出这样的人。”

他喜欢招那些没经验的年轻人，因为这些孩子没那么多条条框框，更容易突破传统。

DeepSeek的员工，其实都是些刚毕业没几年的年轻人，甚至还有北大、清华等顶尖高校没毕业的博士生。这些孩子做的工作特别前沿，几乎没多少参考资料，但正是这种空白让他们敢于大胆创新。

比如DeepSeek-V3里最重要的MLA架构，就是某个年轻人突然灵光一闪想出来的。

DeepSeek内部也没有严格的上下级分工。大家有想法就可以拉人讨论，还能随时调用公司的训练集群，不需要审批，也没有上限。

这种看似松散的管理方式，反而把大家的好奇心和创造力都激发出来了，DeepSeek-V3才能这么厉害。

从梁文峰身上，我们好像看到了乔布斯、马斯克、黄仁勋的影子。

他说：“中国AI不可能永远跟着别人跑！”“真正的差距不是一年两年，而是原创和模仿的差别。”

这两句话，不仅是AI产业的事，也是中国企业这么多年一直跟着西方跑之后，必须面对的突破方向。

毕竟，容易摘的果子都被摘光了，只有敢于突破，才能找到新路。

不过，梁文峰并不孤单。现在，像大疆无人机的汪滔、宇树机器人的王兴兴这样的新生代企业家，正在把中国科技产业带向新的高度。

玩酷网

中国私募力量崛起，浙江大佬震惊硅谷！

念容来看生活