95后AI“天才少女”刷屏!雷军千万年薪挖角!

樱落浅梦时光 2025-01-03 10:04:11

如今这科技发展的速度,那可真是像坐火箭一样快,AI 领域更是火得一塌糊涂,每天都有让人眼前一亮的新东西冒出来。这不,最近有个叫 DeepSeek-V3 的大模型一下子就“出圈”了,在全球 AI 圈子里搅起了大风浪。与此同时,一位 95 后的“天才少女”罗福莉也跟着走进了大众的视线,再一瞧,背后还有小米在 AI 领域大展拳脚的雄心壮志呢。这一场科技大戏,那叫一个精彩,来来来,咱慢慢唠唠。

一,先讲讲这个 DeepSeek-V3,它可不是一般的模型,那出生就带着“光环”,是幻方量化旗下专门搞 AI 大模型研发的 DeepSeek 捣鼓出来的,人家背后的技术功底相当深厚。DeepSeek-V3 作为一款自家研发的 MoE 模型,刚一露面,就把大伙给震住了。瞅瞅它的那些参数,参数量足足有 671B,激活参数是 37B,预训练的 token 量更是高达 14.8 万亿,这就好比给一辆超跑装上了超强动力的发动机,跑起来那叫一个带劲。

更厉害的是它的实际表现,在好多评测里,它一路“过五关斩六将”,把阿里的 Qwen2.5 - 72B 和 MetadeLlama - 3.1 - 405B 这些开源模型都甩在了身后,就算和世界顶尖的闭源大模型 GPT - 4o 以及 Claude - 3.5 - Sonnet 正面刚,也一点不怵,实力那是杠杠的。

二,不过,这还不算最牛的,DeepSeek-V3 的训练成本低得让人惊掉下巴。据前 OpenAI 的联合创始人、有名的 AI 科学家 Andrej Karpathy 透露,它整个训练过程才花了不到 280 万 GPU 小时。这得和 Meta 旗下顶尖的开源模型 Llama - 3405B 比一比才知道多厉害,Llama - 3405B 训练时长高达 3080 万 GPU 小时,成本超过 6000 万美元,而 DeepSeek-V3 总成本连 600 万美元都不到,就人家的十分之一。这性价比,就跟在 AI 高端市场里突然杀出的一匹黑马似的,带着“颠覆性”的标签,一下子在海外爆火,引得 Meta 的 AI 研究科学家田渊栋都夸它“在钱不多的情况下,表现还贼强”,知名 AI 数据公司 ScaleAI 的创始人兼 CEO Alexandr Wang 也点赞说“训练要的计算量少了 10 倍”,瞬间成了行业焦点,大家都叫它“AI 界拼多多”,就凭这超高性价比,把一众大佬都给“收服”了。

DeepSeek 这家公司本身也特别有故事,2023 年才成立,虽说年轻,可背后靠着幻方量化这棵大树,算力资源那是相当充足,国内除了那些互联网大厂,就它手里攥着万张 A100 芯片,早早地就给技术研发铺好了路。而且,它还是国内大模型价格战的“点火人”,自从推出 DeepSeek-V2 后,靠着创新的架构,像注意力机制里的 MLA 和前馈网络的 DeepSeekMoE 架构,训练又快又好,还开源、能免费商用,API 价格还超低,把同行打得晕头转向,逼得字节、阿里、百度这些大厂都跟着降价。创始人梁文锋,是个毕业于浙江大学电子工程系的 80 后,这人特别低调务实,每天就干三件事:看论文、写代码、跟小组讨论,带着 200 人左右的小团队,也不找外面融资,硬生生闯出了一片天地。

三,再看看 DeepSeek-V3 大放异彩背后,“天才少女”罗福莉的故事也特别吸引人。罗福莉本科在北京师范大学读计算机专业,基础打得那叫一个牢,后来又跑到北京大学攻读计算语言学专业硕士学位,在学术的海洋里继续“乘风破浪”。2019 年,还在北大读研的她,就在人工智能领域顶级国际会议 ACL 上发表了 8 篇论文,其中 2 篇还是第一作者,这成绩一亮出来,立马就上了知乎热搜。网友们惊叹不已,她倒挺谦虚,说“这次投 ACL 的论文,是我花了近一年才弄出来的,我确实下了苦功夫,当然,可能也有点运气成分”。

硕士毕业后,罗福莉的职场路更是顺风顺水。先是迈进阿里达摩院,投身人工智能研究,主导开发了多语言预训练模型 VECO,成了团队里的顶梁柱;2022 年,她转身加入幻方量化,研究深度学习相关的策略建模和算法,实战经验越来越多;没过多久又跳到 DeepSeek,参与研发 MoE 大模型 DeepSeek-V2,为这个模型的成功出了大力。今年 5 月,DeepSeek-V2 发布的时候,她在知乎上分享看法,直言“单论 DeepSeek-V2 模型的中文水平,那是稳稳处在国内外闭源模型的第一梯队”,“再看价格,1 元/百万输入 Tokens,才是 GPT4 价格的 1/100,就是性价比之王啊”,字里行间都是对自己参与成果的自豪。

四,到现在,她又被小米创始人雷军看中,拿着千万年薪把她招揽过来,让她挑起领导小米 AI 大模型团队的大梁。这背后啊,其实是小米在 AI 领域的一盘大棋。从 2023 年 4 月起,小米就铁了心要在 AI 大模型领域大干一场,迅速拉起了 AI 实验室大模型团队,到处招揽人才,挖掘各种能用得上 AI 的用户场景,就想发挥自家技术优势,多找点赚钱的门道。到了 11 月,更是成立了专门的 AI 平台部,让元老级技术大牛“铎神”张铎来当负责人,足见有多重视。不光如此,小米也知道算力对 AI 研发就像粮草对兵马一样重要,正紧锣密鼓地搭自己的 GPU 万卡集群,过去几个月一个劲地提升算力储备,就为给大模型研发提供源源不断的动力。雷军之前公开说过,小米做 AI 大模型不走寻常路,重点搞轻量化和本地部署,追求极致性价比。罗福莉在 DeepSeek-V2 研发过程中积累的经验,跟小米的战略思路简直是“天作之合”,她这一来,无疑给小米的 AI 征程打了一剂“强心针”。

DeepSeek-V3 的闪亮登场,让咱们看到了国产 AI 模型在技术和成本控制上的超强本领;“天才少女”罗福莉的成长轨迹,就是年轻一代科研力量崛起的鲜活例子;而小米在 AI 领域的布局,则展现了科技企业对未来趋势把握得多准、投入得多果断。这三方的故事缠在一块儿,构成了当下 AI 江湖中一段超精彩的传奇,也让咱们满心期待,未来 AI 会咋改变生活、给产业赋能。在科技这片星辰大海里,他们正扬帆起航,朝着充满希望的远方驶去,咱们作为旁观者,有幸见证这一路的波澜壮阔,就盼着他们创造更多辉煌啦。

0 阅读:5