DeepSeek那R2模型怎么又鸽了 外媒说是因为国产芯片不行,耽误了研发进度。问题没有这么简单,其实Deepseek是想干票大的:用国产芯片把训练到推理全流程打通关! 本来五月就该发R2,结果现在毛都没见着。金融时报爆料:DeepSeek被上头“鼓励”用华为昇腾芯片搞训练,结果昇腾平台拉胯——稳定性稀碎、软件支持拉稀、芯片通信慢成龟,训练根本跑不动。 华为急了,直接派工程师团队杀到DeepSeek办公室现场支援,结果咋样?训练还是崩! 最后只能妥协:训练用英伟达H20芯片,推理才用昇腾。 创始人梁文锋火大的一批,嫌进展太慢,亲自加码研发,还喷数据标注拖后腿。现在全网疯传“八月必发”,但内部人士直接打脸:假的!没这计划!。 为啥非要死磕国产芯片? 英伟达训练+昇腾推理,这组合DeepSeek早玩透了。V3和R1的API服务,后台全是昇腾推理在撑。但光推理国产化有个屁用?训练才是真吞金兽! 老黄的H20芯片再香,那也是美国佬的。上头现在逼国内企业“交代清楚为啥买英伟达”,摆明要推华为昇腾、寒武纪这些国产货。 现在有两条路:内卷还是掀桌? 路径A:堆英伟达,刷榜装X 搞个几万亿参数的巨无霸模型,榜单上干翻GPT-4,结果呢?还是给老黄打工!芯片钱烧得飞起,生态锁死没商量。 路径B:死磕国产,捅破天花板 用昇腾从头训出个能打的模型,哪怕性能差10%,意义直接封神! 这就好比—— 别人用进口超跑飙速度,你拿五菱宏光改发动机,愣是跑进F1决赛圈! 动摇的是英伟达万亿市值的根基,抽的是美国技术霸权的脸! 老外技术宅都懂 “中国要是能用次级工具造出顶尖模型,整个游戏规则就变了!” “短期阵痛?值!这是逼自己变强的唯一路子。” 那R2到底在憋啥? 要么是算法级核弹,比如自研MoE架构干翻Transformer,要么是纯国产芯片训出的首个体面模型。 随便发个“更大更强”的R2?梁文锋这种技术偏执狂绝对不同意! 人家要的是掀桌,不是陪跑。 DeepSeek这波延期,不是拉胯,是狠活!用国产芯片打通全流程,比刷榜重要一万倍。成了,中国AI从此有根;不成,也得扒出昇腾到底差在哪。 没有痛苦,哪来突破?咱就蹲个大的! #deepseek##国产大模型##梁文锋#
评论列表