
值得注意的是,路透这篇文章其实不止DeepSeek新一代R2模型的消息,还有很多的信息量。

1)2月25日,据路透社报道,在1月份推出R1推理模型之后,为了进一步巩固和扩大自身优势,AI初创公司DeepSeek(深度求索)正全力筹备,试图以更快的速度推出全新的R2模型,保持在行业内的领先势头。
据悉,DeepSeek最初规划在5月初推出R2模型,但熟悉该公司的内部人士透露,DeepSeek决策层希望大幅加快这一进程。不过,截至目前,相关人士并未透露DeepSeek的R2模型的具体发布日期,这也让业界对其充满了好奇与期待。
2)各大公司加快推进大模型进程,或倒逼DeepSeek加快步伐。马斯克推出Grok 3,埃隆·马斯克称之为“地球上最聪明的人工智能”,而且语音版也已经上线;
北京时间2月25日2:30,国外大模型巨头Anthropic推出了业界首个混合推理模型;据了解,Claude 3.7 Sonnet集普通大语言模型和推理模型为一体,简单来说,该大模型既可以按常规方式快速回答,又可以在深度思考之后给出答案。
2月20日消息,阿里巴巴集团CEO吴泳铭在财报会上表示,阿里将于近期发布基于千问Qwen2.5-MAX的深度推理模型。1月底,阿里发布了AI基础大模型千问旗舰版Qwen2.5-Max,在多项权威基准评测中,处于业界领先水平。
3)梁文锋乐于与年轻人一起工作。据透露,梁文锋在北京开设了办公室,步行即可到达中国最负盛名的两所教育机构清华大学和北京大学。据两名前员工说,他经常深入研究技术细节,并乐于与Z世代实习生和应届毕业生一起工作,他们构成了公司的大部分员工。他们还描述了通常在协作氛围中每天工作8小时。

4)据路透,去年暗涌报道,梁文锋故意避免在应用程序开发上投入大量资金,而是专注于改进AI模型的质量。
5)据三位熟悉DeepSeek薪酬做法的人士称,DeepSeek和幻方都以慷慨解囊而闻名。其中一位认识梁的竞争对手量化基金经理说,在幻方,高级数据科学家年薪150万元的情况并不少见,而竞争对手很少支付超过80万元。
对此,有私募量化人士对金石随笔表示,梁确实出手大方,但说竞争对少很少支付——这个说法不准确,同行薪资也不低。金石杂谈随便查了头部的九坤,AI算法工程师、量化实现工程师、量化风险开发等年薪均超百万,甚至高达150万。

6)据路透,成功源自幻方在研究和计算能力方面长达10年的投资。三位知情人士表示,DeepSeek在低成本AI模型方面的成功基于幻方在研究和计算能力方面长达十年的大量投资。一位高管在2020年表示,幻方将70%的收入再投资,主要用于人工智能研究,从而“全力以赴”人工智能。
幻方在2020年和2021年斥资12亿元建设了两个超级计算AI集群。第二个集群Fire-Flyer II由大约10000个Nvidia A100芯片组成,用于训练AI模型。
7)梁文锋被建议保持低调,不要和媒体接触。因为他们担心媒体的过多炒作会引起不必要的关注。2024年7月以来,梁文锋从未与任何媒体交谈过。
8)一定程度上改变了美国大模型公司策略。Bernstein经纪公司的分析师在2月初估计DeepSeek的定价比OpenAI对同等型号的收费便宜20到40倍。目前,西方和中国的科技巨头已经暗示计划继续大量投资人工智能,但DeepSeek在R1及其早期V3模型方面的成功促使一些人改变了策略。
OpenAI 本月降价,而谷歌的 Gemini 推出了打折的访问层。自R1推出以来,OpenAI还发布了一款依赖较少计算能力的O3-Mini模型。