

"这帮小子非常牛啊!用1/100到1/1000的代价就做出一样的事情。"
在前不久刚刚举行的2025润杨集团工作动员会上,阿尔法公社创始合伙人许四清难掩激动,这种"降维打击"式的创新,正是许四清口中"把技术门槛砸在地板上"的技术革命。

阿尔法公社创始合伙人许四清
在他所带来的有关于当下人工智能行业的《探索人工智能产业爆发式增长的机会》主旨演讲中,这位见证过PC互联网、移动互联网浪潮的资深投资人,此刻正用最直白的语言解读着中国AI的"弯道超车"。


锦绣科学园国际会议中心演讲现场
强化学习:让AI学会"抄近道"
“从宝安机场到锦绣科学园导航要怎么走?以前没有导航的时候大家就自己看地图走,后来出现大语言模型之后它就能告诉你中间该怎么走,但是它每走一个路口都要修正。” 许四清用导航做比喻,“DeepSeek的做法是直接说:你就给我开到锦绣科学园。”等到了锦绣,对这个过程的算法就给肯定和加权。这种强化学习的颠覆性在于,它摒弃了传统大语言模型的预训练(最初这部分最大可占到99%的GPU计算量),建立了强化学习方式,直接用结果指导过程。

传统的AI预训练示意图
这种"偷懒"带来的效果堪称魔幻:将语言模型参数从671亿压缩到37亿,推理成本直降95%。DeepSeek用算法代替蛮力,建立了MoE(多专家系统)方式将256个细分领域的"专家模型"装进系统,像"专家会诊"般动态调用。

MoE(多专家系统)示意图
软硬件提升:8位计算的"效率革命"
在算力军备竞赛白热化的当下,DeepSeek却玩起了"极限压榨"。许四清透露关键细节:"他们用8位精度替代传统16位做大模型的训练和推理,就像用一本书代替一座图书馆。"这个看似倒退的决策,实则暗藏玄机——通过混合精度计算,将非核心环节大幅"缩水",既保效果又降能耗。


DeepSeek多专家系统(MoE)以及多头潜在注意力(MLA)示意图
DeepSeek不仅在软件上表现优异,还通过自主研发的编程框架,实现了对GPU的"硬件级操作",通讯效率获得数量级的提升。这种底层突破,让中国团队首次在AI基础架构领域撕开领先欧美的技术缺口。
开源新范式:全民可用的"技术普惠"
当美国OpenAI还在搞“闭关锁国”时,DeepSeek选择了完全不同的道路。他们将技术文献与技术论文公开发表,等同于除了源代码外大部分都分享了出来。这种"技术开源裸奔"的勇气,源自中国工程师特有的实用主义思维——与其守着一把绝世好剑,不如让天下武者都能铸剑。

这种开放所带来的连锁反应远超预期。许四清分享观察:
“2024年美国在AI方面投资额是中国的10倍,但DeepSeek用1%资源实现超越,在OpenAI为代表的堆砌算力的scaling law(规模法则)之外,建立了依赖算法突破获得巨大收益的scaling law。”
AI大模型产业链五层协同驱动产业爆发
当前AI大模型产业链已形成五层协同体系:硬件层聚焦芯片创新与能效突破;平台与存储层支撑千亿参数模型的训练与部署;AI模型层在基础模型与垂直领域实现双重突破;工具层通过数据标注平台、架构(MLA+MoE+FP8量化)等工具,降低开发门槛并提升效率;应用层则涌现出Sierra对话式客服(问题解决率74%),形成从底层硬件到行业落地的完整闭环。

这场始于人工智能演讲的动员会,最终落脚在更朴素的启示:当AI发展从"堆算力"转向"拼巧劲",或许我们都该学会用更聪明的方式解决问题——无论是在工作中用更精准的命令去训练AI模型,还是在生活中借助AI的优越性来经营美妙人生。而对润杨集团和润杨人而言,拥抱AI浪潮、探索智能未来的征程,才刚刚拉开序幕。
· The end ·
如需转载,请在后台回复“转载”
部分图源网络,如侵告删
文字为原创,版权归仓颉通文化所有
欢迎转发至朋友圈