DeepSeek那R2模型怎么又鸽了外媒说是因为国产芯片不行，耽误了研发进度

2025-08-16 00:18:24 恰谈史料历史

DeepSeek那R2模型怎么又鸽了外媒说是因为国产芯片不行，耽误了研发进度。问题没有这么简单，其实Deepseek是想干票大的：用国产芯片把训练到推理全流程打通关！本来五月就该发R2，结果现在毛都没见着。金融时报爆料：DeepSeek被上头“鼓励”用华为昇腾芯片搞训练，结果昇腾平台拉胯——稳定性稀碎、软件支持拉稀、芯片通信慢成龟，训练根本跑不动。华为急了，直接派工程师团队杀到DeepSeek办公室现场支援，结果咋样？训练还是崩！最后只能妥协：训练用英伟达H20芯片，推理才用昇腾。创始人梁文锋火大的一批，嫌进展太慢，亲自加码研发，还喷数据标注拖后腿。现在全网疯传“八月必发”，但内部人士直接打脸：假的！没这计划！。为啥非要死磕国产芯片？英伟达训练+昇腾推理，这组合DeepSeek早玩透了。V3和R1的API服务，后台全是昇腾推理在撑。但光推理国产化有个屁用？训练才是真吞金兽！老黄的H20芯片再香，那也是美国佬的。上头现在逼国内企业“交代清楚为啥买英伟达”，摆明要推华为昇腾、寒武纪这些国产货。现在有两条路：内卷还是掀桌？路径A：堆英伟达，刷榜装X 搞个几万亿参数的巨无霸模型，榜单上干翻GPT-4，结果呢？还是给老黄打工！芯片钱烧得飞起，生态锁死没商量。路径B：死磕国产，捅破天花板用昇腾从头训出个能打的模型，哪怕性能差10%，意义直接封神！这就好比—— 别人用进口超跑飙速度，你拿五菱宏光改发动机，愣是跑进F1决赛圈！动摇的是英伟达万亿市值的根基，抽的是美国技术霸权的脸！老外技术宅都懂 “中国要是能用次级工具造出顶尖模型，整个游戏规则就变了！” “短期阵痛？值！这是逼自己变强的唯一路子。” 那R2到底在憋啥？要么是算法级核弹，比如自研MoE架构干翻Transformer，要么是纯国产芯片训出的首个体面模型。随便发个“更大更强”的R2？梁文锋这种技术偏执狂绝对不同意！人家要的是掀桌，不是陪跑。 DeepSeek这波延期，不是拉胯，是狠活！用国产芯片打通全流程，比刷榜重要一万倍。成了，中国AI从此有根；不成，也得扒出昇腾到底差在哪。没有痛苦，哪来突破？咱就蹲个大的！ #deepseek##国产大模型##梁文锋#