美国对中国高科技产业的打压持续升级,其中针对高端显卡的出口限制更是直指人工智能领域,意图遏制中国AI发展。
但中国科技企业并未屈服,纷纷寻求突破之道,2025年开年便传来好消息,深度求索公司推出的DeepSeek-R1模型便给西方国家上了一课,即便是缺少先进的AI芯片也能做出顶级模型。

而DeepSeek之所以能够做出顶级模型,是因为DeepSeek深知,唯有掌握核心技术,才能摆脱受制于人的局面。
长期以来,高端显卡作为AI训练的算力基石,核心技术却被国外巨头垄断,美国的出口限制,无疑给中国AI产业带来了巨大挑战,为此DeepSeek投入大量资源,组建顶尖研发团队开发模型。
通过打破技术限制,DeepSeek做到了将训练成本降至极低水平,大模型仅使用2048块GPU训练了2个月,花费不到600万美元。
而做出性能比肩GPT-4o的大模型,DeepSeek的练成本却只有竞品的二十分之一,团队规模才139人,DeepSeek-R1大模型一经诞生,搞得美国科技圈为之震动。

当美国科技公司仍在为GPU万卡集群豪掷千亿资金时,一群中国年轻人竟然用事实证明,只需要美国公司高管一年的年薪,就能做出比肩GPT-4o的大模型。
就在DeepSeek-R1模型诞生半个月后,现在中国AI领域又传来了一个振奋人心的好消息,悄然上演了一场更具颠覆性的技术革命。
根据媒体报道,近日李飞飞团队便以不到50美元的云计算费用,训练出了一个名叫S1的AI推理模型,成本之低令人咋舌,关键是S1的各项表现竟不输GPT和DeepSeek等尖端模型。
但这还不是最炸裂的,更令美国科技圈担忧的是,李飞飞团队训练出的S1模型,其基座模型是阿里云旗下的通义千问模型。

也就是说,S1模型如此低成本的训练费用,是站在“巨人肩膀”上实现的,千问模型或许会成为未来低成本训练AI模型的新方向。
值得一提的是,李飞飞团队之所以能以不到50美元的成本训练出强大的推理模型,主要也是因为阿里云在近日悄悄升级了通义千问旗舰版模型Qwen2.5-Max。
据介绍,Qwen2.5-Max在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源模型,其中就包括当下火爆海内外的DeepSeek-V3模型。
李飞飞团队训练的S1模型,正是以千问模型为基座,通过“蒸馏”技术实现的,研究人员使用蒸馏技术,成功地从已有模型中提取出知识,并利用这些知识训练了一个新的模型。

不得不说,这样的低成本训练模式确实是一个新方向,因为无论是火爆全球的DeepSeek-V3模型,还是突然备受关注的千问模型,背后传递出了三个关键信号。
首先是中国技术团队正在通过技术创新方式,重新定义大模型的成本范式,戳破了美国企图在AI领域断层领先的泡沫。
其次是中国科技公司训练出的大模型,已经在2025年初捅破了窗户纸,杀进了决赛圈,未来有望形成国产底层操作系统。
最后是西方资本企图打造的万亿美元市场,在中国开源大模型的强烈冲击下直接搞成白菜价,戳破资本泡沫,让AI回归理性。

相信在一群中国人的努力之下,技术和算法还将得到进一步优化,到那时我们还有机会看到更多低成本、高性能的AI模型问世。对此你怎么看呢,欢迎评论、点赞、分享。