95后AI“天才少女”刷屏！雷军千万年薪挖角！

如今这科技发展的速度，那可真是像坐火箭一样快，AI 领域更是火得一塌糊涂，每天都有让人眼前一亮的新东西冒出来。这不，最近有个叫 DeepSeek-V3 的大模型一下子就“出圈”了，在全球 AI 圈子里搅起了大风浪。与此同时，一位 95 后的“天才少女”罗福莉也跟着走进了大众的视线，再一瞧，背后还有小米在 AI 领域大展拳脚的雄心壮志呢。这一场科技大戏，那叫一个精彩，来来来，咱慢慢唠唠。

一，先讲讲这个 DeepSeek-V3，它可不是一般的模型，那出生就带着“光环”，是幻方量化旗下专门搞 AI 大模型研发的 DeepSeek 捣鼓出来的，人家背后的技术功底相当深厚。DeepSeek-V3 作为一款自家研发的 MoE 模型，刚一露面，就把大伙给震住了。瞅瞅它的那些参数，参数量足足有 671B，激活参数是 37B，预训练的 token 量更是高达 14.8 万亿，这就好比给一辆超跑装上了超强动力的发动机，跑起来那叫一个带劲。

更厉害的是它的实际表现，在好多评测里，它一路“过五关斩六将”，把阿里的 Qwen2.5 - 72B 和 MetadeLlama - 3.1 - 405B 这些开源模型都甩在了身后，就算和世界顶尖的闭源大模型 GPT - 4o 以及 Claude - 3.5 - Sonnet 正面刚，也一点不怵，实力那是杠杠的。

二，不过，这还不算最牛的，DeepSeek-V3 的训练成本低得让人惊掉下巴。据前 OpenAI 的联合创始人、有名的 AI 科学家 Andrej Karpathy 透露，它整个训练过程才花了不到 280 万 GPU 小时。这得和 Meta 旗下顶尖的开源模型 Llama - 3405B 比一比才知道多厉害，Llama - 3405B 训练时长高达 3080 万 GPU 小时，成本超过 6000 万美元，而 DeepSeek-V3 总成本连 600 万美元都不到，就人家的十分之一。这性价比，就跟在 AI 高端市场里突然杀出的一匹黑马似的，带着“颠覆性”的标签，一下子在海外爆火，引得 Meta 的 AI 研究科学家田渊栋都夸它“在钱不多的情况下，表现还贼强”，知名 AI 数据公司 ScaleAI 的创始人兼 CEO Alexandr Wang 也点赞说“训练要的计算量少了 10 倍”，瞬间成了行业焦点，大家都叫它“AI 界拼多多”，就凭这超高性价比，把一众大佬都给“收服”了。

DeepSeek 这家公司本身也特别有故事，2023 年才成立，虽说年轻，可背后靠着幻方量化这棵大树，算力资源那是相当充足，国内除了那些互联网大厂，就它手里攥着万张 A100 芯片，早早地就给技术研发铺好了路。而且，它还是国内大模型价格战的“点火人”，自从推出 DeepSeek-V2 后，靠着创新的架构，像注意力机制里的 MLA 和前馈网络的 DeepSeekMoE 架构，训练又快又好，还开源、能免费商用，API 价格还超低，把同行打得晕头转向，逼得字节、阿里、百度这些大厂都跟着降价。创始人梁文锋，是个毕业于浙江大学电子工程系的 80 后，这人特别低调务实，每天就干三件事：看论文、写代码、跟小组讨论，带着 200 人左右的小团队，也不找外面融资，硬生生闯出了一片天地。

三，再看看 DeepSeek-V3 大放异彩背后，“天才少女”罗福莉的故事也特别吸引人。罗福莉本科在北京师范大学读计算机专业，基础打得那叫一个牢，后来又跑到北京大学攻读计算语言学专业硕士学位，在学术的海洋里继续“乘风破浪”。2019 年，还在北大读研的她，就在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文，其中 2 篇还是第一作者，这成绩一亮出来，立马就上了知乎热搜。网友们惊叹不已，她倒挺谦虚，说“这次投 ACL 的论文，是我花了近一年才弄出来的，我确实下了苦功夫，当然，可能也有点运气成分”。

硕士毕业后，罗福莉的职场路更是顺风顺水。先是迈进阿里达摩院，投身人工智能研究，主导开发了多语言预训练模型 VECO，成了团队里的顶梁柱；2022 年，她转身加入幻方量化，研究深度学习相关的策略建模和算法，实战经验越来越多；没过多久又跳到 DeepSeek，参与研发 MoE 大模型 DeepSeek-V2，为这个模型的成功出了大力。今年 5 月，DeepSeek-V2 发布的时候，她在知乎上分享看法，直言“单论 DeepSeek-V2 模型的中文水平，那是稳稳处在国内外闭源模型的第一梯队”，“再看价格，1 元/百万输入 Tokens，才是 GPT4 价格的 1/100，就是性价比之王啊”，字里行间都是对自己参与成果的自豪。

四，到现在，她又被小米创始人雷军看中，拿着千万年薪把她招揽过来，让她挑起领导小米 AI 大模型团队的大梁。这背后啊，其实是小米在 AI 领域的一盘大棋。从 2023 年 4 月起，小米就铁了心要在 AI 大模型领域大干一场，迅速拉起了 AI 实验室大模型团队，到处招揽人才，挖掘各种能用得上 AI 的用户场景，就想发挥自家技术优势，多找点赚钱的门道。到了 11 月，更是成立了专门的 AI 平台部，让元老级技术大牛“铎神”张铎来当负责人，足见有多重视。不光如此，小米也知道算力对 AI 研发就像粮草对兵马一样重要，正紧锣密鼓地搭自己的 GPU 万卡集群，过去几个月一个劲地提升算力储备，就为给大模型研发提供源源不断的动力。雷军之前公开说过，小米做 AI 大模型不走寻常路，重点搞轻量化和本地部署，追求极致性价比。罗福莉在 DeepSeek-V2 研发过程中积累的经验，跟小米的战略思路简直是“天作之合”，她这一来，无疑给小米的 AI 征程打了一剂“强心针”。

DeepSeek-V3 的闪亮登场，让咱们看到了国产 AI 模型在技术和成本控制上的超强本领；“天才少女”罗福莉的成长轨迹，就是年轻一代科研力量崛起的鲜活例子；而小米在 AI 领域的布局，则展现了科技企业对未来趋势把握得多准、投入得多果断。这三方的故事缠在一块儿，构成了当下 AI 江湖中一段超精彩的传奇，也让咱们满心期待，未来 AI 会咋改变生活、给产业赋能。在科技这片星辰大海里，他们正扬帆起航，朝着充满希望的远方驶去，咱们作为旁观者，有幸见证这一路的波澜壮阔，就盼着他们创造更多辉煌啦。

玩酷网

95后AI“天才少女”刷屏！雷军千万年薪挖角！

樱落浅梦时光