反共识的DeepSeek打乱了什么:我们都在调整工作计划│1.5万字一线访谈

子希数字经济 2025-02-12 15:16:23

来源 | 零壹智库

2月5日,蛇年开工第一天,零壹智库邀请三位人工智能一线专家探讨DeepSeek及其影响:中国人工智能领军科学家、上海交大清源研究院研究员刘志毅,资深科技投资人、《AI改变世界》作者黄郑,中科金财副总裁彭祥喜。

三位嘉宾从科技创新、产业投资、对场景应用以及当下工作等多个角度,深入剖析了DeepSeek带来的直接冲击和深远影响。

精彩观点:

DeepSeek对整个社会经济和业界生态的影响,已经远远超出了AI和科技圈的范畴。Deepseek技术创新的三个方面:强化学习和混合专家结构的创新应用,训练效率的突破。Deepseek通过反共识机制,带来了整个AI生态级别的底层突围,极具战略意义。Deepseek最大的亮点在于,在展现出强大能力和效果后,选择了慷慨开源。这对业界和AI应用市场来说是极大的推动与利好。自去年以来,一些著名的AI公司,甚至已经停止了基础模型能力的研发,大家对AI发展有相对悲观的预期。但Deepseek的成功改变了这种预期。DeepSeek入局,无疑加剧了整个AI创业生态的迭代,整个AI产业的成熟度和发展曲线又到了一个新的拐点。DeepSeek推出新的低成本训练模式,对垂类模型的应用来说是个巨大挑战。DeepSeek通过工程创新,从软件层面突破硬件瓶颈,为相对后发的芯片公司带来了更多机会。现在大家更认可工程性的方法和人机协同,而不再认为单纯提升硅基生命的智能上限就能替代碳基生命,这种叙事不再被广泛接受。华为在替代英伟达芯片的过程中积累了很多技术训练和国内应用的经验。他们的适配进程会非常快。 DeepSeek并没有改变以国别为单位的中美竞争的宏观格局。不过,DeepSeek让我们更有信心。DeepSeek带来的普惠算力,能以更高效率、更低成本赋能百行千业,Agent接下来会迎来爆发式增长。资源约束不一定限制具身智能发展,关键在于架构创新和效率优化,这让我们再次相信软件的重要性。关于出海:我们如何完善从算力层到算法层再到应用层的生态,实现全方位的人工智能突围,这是我国AI创业者和从业者面临的重要课题。

最近我和很多从业者一样,都在深度思考如何调整AI业务和工作计划,以便在2025年让业务更好地发展和突破,可能要调高今年的业务目标了。

访谈嘉宾:

刘志毅

中国人工智能领军科学家,上海市人工智能社会治理协同创新中心研究员,上海交大清源研究院研究员,深入研究和实践AI领域十余年,包括智能计算、空间智能以及超级人工智能对齐方向。中国人工智能学会AI伦理工作委员会委员及具身智能专委会委员,上海交大计算法学与人工智能伦理研究中心执行主任,上海交大安泰AI与营销研究中心特聘研究员,上海开源技术信息协会AI伦理专委会主任,2024年入选福布斯中国“十大人工智能影响力人物”, 2024年评选为华为云最有价值专家(Huawei Cloud Developer Experts)。

国际电工委员会IEC生物数字融合系上海交大清源研究院兼职研究员,统评估组(IEC/SMB/SEG12)伦理专家,担任2024年第四届IEEE计算机通信与人工智能国际会议(CCAI 2024)技术委员会委员,国家人工智能标准总体组专家,AIIA联盟可信AI 专家委员会委员,上海人工智能技术协会专家委员,个人学术专著包括《智能经济》、《数字经济学》、《智能的启蒙:通用人工智能与意识机器》等,出版十几部中英文专著并翻译多部海外学者专著,作品入选施普林格.自然出版社“中国新发展奖”(2023年度)。

黄郑

资深科技投资人,科珹资本创始合伙人、可可资本管理合伙人;先后任职于世界银行IFC华盛顿总部、中金公司/CICC、新天域资本/New Horizon Capital。在科技行业与资本市场具有丰富经验与资源,投资赋能人工智能、机器人自动化、新能源科技等赛道多家公司,成功IPO或成为行业龙头、独角兽。曾获中国大学生“五四奖学金”,在人民大会堂被党和国家领导人接见。毕业于武汉大学、南京大学、约翰霍普金斯大学,获经济学硕士与国际金融硕士;获Doak Barnett Fellowship,发表中、英文学术论文多篇;曾为世界银行IMF华人职员协会董事,现为约翰霍普金斯大学中国校友会理事。

彭祥喜

北京中科金财科技股份有限公司副总裁,清华大学工商管理硕士。拥有超过15年的互联网及科技软件行业经验,曾任上市企业拜特科技CEO及京东金融、海航易生等知名企业高管,并在人工智能应用、金融科技、软件信息化等领域积累了丰富实践经验,并成功打造多个互联网及金融科技领域的创新项目。

主持人:

柏亮 零壹智库CEO

1.DeepSeek对整个社会经济和业界生态的影响,已经远远超出了AI和科技圈的范畴。

柏亮:DeepSeek成了春节期间最响的炮仗,各位自然也逃不过这个话题。我前天跟一位朋友交流,他春节前正计划招聘两个博士,春节后就决定不招了,因为他在用DeepSeek就能写出计划请博士写的方案,甚至超预期。无形之中,两个博士的岗位没有了。各位经历了什么与DeepSeek相关的事情?

刘志毅:人工智能技术的发展极大地改变了我们的个人体验。如今,人工智能的自动化水平越来越高,普通用户接触和使用人工智能应用的频率与场景也日益增多。

我今天在机场候机时吃东西,期间接了个讨论人工智能的电话。结束后,对面一位陌生人主动过来询问,他听到了我的通话内容,自己从事网络安全领域工作,想请教人工智能的普及以及deepseek对工作和职业选择有何影响。

AI技术的民主化是通过开源运动以及与普通民众更多的交互实现的。以往,一些公司采用闭源方式推广AI技术,成本高昂;而现在,开源方式以更合理的成本获得成果,受到了广泛关注。这就是我在这些事情中的一些个人感受。

黄郑:在过去的春节假期,我接触到的相关情况可以归纳为三类。

第一类是投资圈的反应。1月下旬左右,不管是线上微信交流,还是线下(我正好此前在加州硅谷出差一段时间),都有不少同行朋友与我热烈讨论。话题主要围绕是否做空英伟达,以及如何看待Deepseek对整个AI产业链的影响。

当时美股持续开市,港股随后几天开市,A股直到今天才正式开市,所以大家还讨论了如何调整投资组合。很明显,大家既焦虑又兴奋,都密切关注DeepSeek对投资收益的影响。

有位朋友从25号开始就一直和我讨论做空英伟达的可能性,后续英伟达市值当日大幅下跌近18%,创下华尔街单只股票市值蒸发纪录。整个AI产业链受DeepSeek的后续影响如何,存在哪些机会与挑战,我们之后可以详细探讨。

第二类是创业者的动态。作为关注AI赛道超十年的投资人,我与国内外许多科技圈创业者有长期合作与交流。“春江水暖鸭先知”,创业者们处于业界前沿。我在加州接触到的美国硅谷本土AI创业者,甚至远在大洋彼岸的两位犹太人科技创业者朋友,都在密切关注中国的DeepSeek,尤其是V3等模型的问世及其性能优势。

回国后,几位从事AI应用层创业的朋友与我交流,他们都坚定了信心,迅速调整现有商业模式,积极对接DeepSeek的优势。我认为,DeepSeek在算力普惠化、让AI赋能各行各业方面做出了很大贡献。不仅是华为、英伟达、Meta等巨头,众多初创公司也在积极拥抱DeepSeek带来的创新优势。

第三类是来自其他领域的关注。像我在体制内工作的老同学、在大学从事经济学金融学研究的老师,在春节假期也与我频繁沟通。这表明DeepSeek对整个社会经济和业界生态的影响,已经远远超出了AI和科技圈的范畴。

彭祥喜:2025年春节,对AI行业的人来说基本没休假,大家都在加班研究DeepSeek带来的影响。1月20号R1发布后迅速成为全球焦点,各大厂商和AI从业者都在研究其技术路线和行业影响。从1月20号之后的热搜和媒体新闻情况就能看出,大家对DeepSeek的关注度极高。

DeepSeek由幻方量化推出,所以大家对DeepSeek在金融行业的表现尤为关注,很多用户向DeepSeek提出金融相关问题,比如股票投资咨询、黄金投资建议,还有中国房市的变化与趋势,其推理过程也很有意思。

我个人也对DeepSeek在金融相关问题做了些体验,让DeepSeek分析了2025年A股走势。从它的思维链(COT)思考过程来看,其思考角度很完整,从经济政策、环境,到各行各业的基本面等方面,都给出了理性、客观的评价,还推荐了2025年科技自主可控、高端制造、消费复苏等板块的投资建议。我的使用感受是,DeepSeek的结构化分析能力很强,思维过程堪比专业分析师。再加上DeepSeek低成本创新的优势,我认为未来它可能会重塑AI的专业化决策。

DeepSeek向用户开放思维链,让我们能感受到分析过程及输出结果的合理性,从而认可输出结果。这让我感受到DeepSeek在推理思考环节的强大影响力,也让我对AI应用的未来充满信心。过去,我们一直追随国外transform的技术方案,而Deepseek的出现,让我们看到了重构AI能力的新路径,实现了从依赖算力堆砌到算法效率优先的转变,为AI应用市场和服务带来了巨大的发展空间。

柏亮:彭总,DeepSeek给您提供了很多投资建议,您敢照着这些建议做投资吗?

彭祥喜:对投资来说还是要谨慎,直接采用它的投资建议需要不太可行。我会先研究它的思考过程,再结合后期市场走势做参考,个人投资方面不会直接依据其结果做决策。另外春节期间,国内各大券商发布了60多篇关于Deepseek的调研报告,这表明Deepseek在行业内产生了巨大冲击,,说明Deepseek的输出结果有一定的认可度。

2.Deepseek技术创新的三个方面:强化学习和混合专家结构的创新应用,训练效率的突破。

柏亮:谢谢三位分享了许多真实体验,这些体验都反映出人工智能带来的巨大变化,对我们的生活、工作体验与决策,以及身边的朋友都产生了诸多冲击。在这些冲击背后,大家都在探讨Deepseek究竟改变了什么。目前从各种角度的讨论都有,比如算力效率、对芯片行业的影响等。那Deepseek在技术上到底有哪些变化,为何有人将其形容为“掀桌子”式的改变?

刘志毅:关于Deepseek的研究,主要依据它发布的R1论文报告。我们可以将这份报告与之前OpenAI的o1以及同期Kimi的K1.5论文报告进行对比。Deepseek的技术创新可概括为三个方面。

一是强化学习的创新应用。它直接采用纯强化学习,而非传统监督学习方式来提升推理能力。它开发了群体奖励优化策略,还在白皮书里提到了顿悟现象,这些都是通过纯强化学习培养和提升推理能力的体现。需要注意的是,它是先有V3基础模型,然后才有推理模型R1,基于前者的工作,后者才得以突破。

二是混合专家结构(MOE)的创新应用。之前也有其他模型使用MOE,包括Kimi和国内外一些公司。但Deepseek的独特之处在于引入了多头潜在注意力机制(MLA)。在推理过程中,通过MLA机制,可以利用低值进行联合压缩,降低计算需求,进而通过无辅助损失的负载平衡方法提高计算效率。

打个比方,原来的模型推理像一条流水线,在固定负载下工作;而通过MLA,可以对不同负载进行计算,实现多度协同并行计算。比如在A流程中,判断哪些计算合理可行;在B流程中,确定哪些负载可以操作,形成高密度并行计算,节省算力消耗,加强特定过程。所以叫多头潜在注意力机制,通过这种高效的混合专家结构,而非统一的基础模型进行推理,提高了计算效率,这也是它节省成本的原因。

三是训练效率的突破。DeepSeek通过计算重叠降低通信开销,提升训练效率。其中很重要的一点是采用FP8而非FP32的混合精度训练,降低内存使用。如果用全精度训练,计算过程会很复杂;而选择FP8,在某些过程中只计算到八位或更少位数,就能让结果被模型理解和认知。当然,在特定情况下和流程中,还是会进行高强度计算。总之就是能省则省,需要高精度计算时再进行,降低了整个计算开销。

3.Deepseek通过反共识机制,带来了整个AI生态级别的底层突围,极具战略意义。

黄郑:我补充一个核心点,在整个AIGC的发展历程中,反共识机制对创新至关重要。具体到Deepseek,它在反共识方面表现出色,改变了此前整个AI界对算力的高度依赖,打破了“大力出奇迹”的固有信念。

之前,大家普遍认为数据是燃料,模型是引擎,算力是加速器,在这种共识下,从硅谷到中国,各地做AIGC的企业都陷入了军备竞赛,不断囤积英伟达的算力卡,认为只有这样才能实现模型的优化和迭代。这背后有着深厚的产业背景,甚至在地缘政治层面也有诸多内涵。

而Deepseek的出现,以工程级的卓越创新打破了这种共识。它引领的生态级底层突围意义重大,让我们看到,即便没有大量算力投入,也能实现模型的优化和迭代。

此前,中国在AI底层系统或芯片层面存在短板,受到限制,很多人对国产信创芯片与英伟达芯片的差距感到担忧,对产业发展信心不足。但Deepseek以相当于Anthropic或OpenAI二十分之一乃至三十分之一的算力投入,就能在大模型产品层面取得与它们相近的性能,这具有多方面的现实意义。

所以,Deepseek通过反共识机制,打破了诸多此前的共识,形成工程层面的创新,带来了整个AI生态级别的底层突围,极具战略意义。稍后我们可以详细探讨,基于这种中国特色的创新,从AI的上游到下游,我们还能做哪些更多的事,形成哪些更有效的系统性创新。

4.Deepseek最大的亮点在于,在展现出强大能力和效果后,选择了慷慨开源。这对业界和AI应用市场来说是极大的推动与利好。

柏亮:接下来请彭总谈谈,从产业界、应用界的角度来看,Deepseek真正带来的、影响最大的改变是什么?

彭祥喜:从应用角度看,我认为Deepseek最大的亮点在于,在展现出强大推理能力和应用效果后,选择了慷慨开源。这对业界和AI应用市场来说是极大的推动与利好。大家可以看到短短20天内,Deepseek APP的日活数据显示已突破2000万(编者注:发稿时已经超过3000万)。其开源策略极大地刺激了应用市场,让更多用户和企业能够快速运用这些先进的低成本创新技术手段,突破应用阶段之前遇到的一些障碍。从产业界角度来看,我个人觉得开源可能是Deepseek一夜爆红的主要原因。

柏亮:它的模型开源后,有人基于其开源模型训练出更低成本的模型。对于大模型的产业应用,以及人工智能在各个行业,假期结束大家都开工了,行业里做应用的公司是不是都在拼命基于Deepseek开发自己的应用模型?

彭祥喜:是的,大家对Deepseek的关注度非常高。最近,华为和硅基流动上线了Deepseek应用平台,腾讯云等平台也上线了相关应用。从春节期间大家对Deepseek的反应积极,以及开工第一天大家就快速将Deepseek的能力进行生产力转化,希望第一时间应用到业务和工作中,就能看出Deepseek的优势有多明显。同时,借助国产算力腾讯云、华为云以及硅基流动等云服务厂商的算力,最大限度地支撑了Deepseek业务的快速增长,这也是其开源带来的显著效果。

5.自去年以来,一些著名的AI公司,甚至已经停止了基础模型能力的研发,大家对AI发展有相对悲观的预期。但Deepseek的成功改变了这种预期。

柏亮:现在Deepseek开源比较彻底,很多人都在使用,这对于目前正在做各种模型开发的厂商和科研机构而言,带来的最大改变或冲击是什么呢?比如说您的团队,上班后进行模型开发和科研工作时,会有很大转变吗?

刘志毅:我觉得冲击还是挺大的,主要体现在两方面。

一方面,即使在美国,Deepseek最大的突破之一在于,在完全没有获取OpenAI内部消息的情况下,以出色的方式将OpenAI以o1为代表的模型能力完全展现出来,这冲击很大。以往,美国或美国一些创新公司没有开源时,中国的大模型会落后一到两代甚至更长时间。

但现在,通过Deepseek的开源成果,我们看到不仅能做出相应成果,而且效率有极大提升,这坚定了一个基本认知:自2022年年底以来,大模型的创新核心实际上是工程性创新,而非技术思想本身的创新。OpenAI技术基础和思想来自其老师Jeffry Hinton的谷歌团队,很多基础论文都在那,后续很多成果也是如此。国内工程性人才众多,通过他们的努力,在这一轮创新中我们能够赶上。这就好比人类跑100米,只要有第一个人跑进一定成绩,后面的人就更容易突破。

另一方面,自去年以来,一些著名的AI公司,像所谓的“六小虎”等大型科技公司,甚至已经停止了基础模型能力的研发,这让大家对AI发展有相对悲观的预期。但Deepseek的成果改变了这种预期:

一方面在技术上,我们看到不需要那么大规模的投入就能实现很好的AI能力,这让我们对后续的智能体(agent)等技术更有信心;

另一方面,也是更重要的,我们在研究中认为这种工程性创新是可复制的,甚至在中国现有的工作模式下,能够有更好的表现。

这样一来,从经济角度就能算清账了。所以说商业模式创新最核心的,当技术创新体现为商业模式时,最终算的还是经济账。

对于我们自己的研发工作,一是更有信心,知道我们也能做到;二是经济账能算清楚,在提供相应服务和满足需求时,能推动项目最终形成闭环。大概就是这两方面情况。

柏亮:会不会导致很多大模型厂商的老板砍预算呢?原本计划花很多钱做这件事,现在发现花较少的钱就可以,预算降低,这会对行业产生这样的影响吗?

刘志毅:其实在这之前,就像刚才提到的,对AI能力上限的追逐已经让很多公司不堪重负,即便没有DeepSeek出现,就已经有砍预算的情况了。所以我反而认为,DeepSeek的出现能让一些公司回到这个赛道,以较低成本至少维持一定规模的AI团队,继续在创新的道路上前行,这是比之前更明显的变化。

6.DeepSeek入局,无疑加剧了整个AI创业生态的迭代,整个AI产业的成熟度和发展曲线又到了一个新的拐点。

柏亮:请黄总聊聊,现在DeepSeek出现后,你们在投资选择上,可选择的标的到底是更宽泛了,还是更少了?比如在此之前,大家发现中国大部分风险资本在大模型领域都投给了所谓的“六小虎”,其他大部分公司基本拿不到钱,大家觉得投资这些公司资金少了干不成事,投资多了又投不起,导致可投的公司很少,而且烧钱主要集中在那几家大平台公司。像你们这样的专业基金,现在可选择的空间是不是更大了呢?

黄郑:这是个很好的问题,与当下的创投环境密切相关。在整个创投界,不管是硅谷还是我国的创投圈,一直遵循二八原则,在如今的环境下,这个原则体现得更加极端。

DeepSeek对整个AI创投领域影响巨大。作为密切关注这个赛道的投资人,我们经历过多个产业周期。仅看最近十年,AI已经历了从AI1.0时代到现在的阶段。在AI1.0时代,很大程度上把AI作为局部工具来优化生产效率。那时,不管是在自然语言处理(NLP),还是计算机视觉(CV)领域,都曾涌现出风光一时的公司。

“六小虎”是从AI2.0大模型时代开始出现的说法。在“六小虎”之前,还有“AI四小龙”的说法,即以商汤、依图、旷视、云从为代表,它们是基于上一代非大模型的AI细分赛道中的创业佼佼者。

但要知道,二八原则在相当长的历史阶段都是成立的,甚至如今更加极端,能持续获得投资人,尤其是机构投资人支持,最终走向资本市场的,肯定只是金字塔尖的一小部分,实际比例可能低于20%。

DeepSeek入局,无疑加剧了整个AI创业生态的迭代。我们可以从机遇和挑战两方面来看待。坦率地说,对于同样做大模型,尤其是偏基础层大模型的公司而言,DeepSeek的出现,使原本就激烈的竞争生态更加严峻。

从AI1.0时代到AI2.0时代,从“AI四小龙”过渡到“六小虎”,再到如今DeepSeek的高速发展,对原先AIGC“六小虎”的格局又会带来新的冲击,因为这意味着整个AI产业的成熟度和发展曲线又到了一个新的拐点。就基础层大模型来说,简单总结就是挑战大于机遇,对其他竞争对手而言更是如此。

但对于更广泛的整个AI生态层面来讲,无疑机遇大于挑战。因为DeepSeek能大幅降低做模型的成本,同时在性能优化方面做得更好、更高效,让普惠化的算力变得更加现实。在整个AI尤其是偏应用层方面,不仅是那些科技龙头公司,像Meta、谷歌,从业务层面到资本运作、市值表现,大家都能清楚看到它们从中受益,华尔街在二级市场也短期内给予了非常积极的反馈,估值节节攀升。

从一级市场角度来讲,我们也有理由持有更加乐观、积极的态度。因为DeepSeek能让算力以更便宜、更高效的方式赋能各行各业,让更多创业者用上更具性价比的算力,我们认为这会产生很多积极的连锁反应。再加上前面大家认真讨论过的开源问题,DeepSeek目前业务布局在基础层、基础大模型,对于垂类模型,也就是我们常说的与行业密切对接的中模型或小模型,它并没有直接布局,这就留出了巨大空间,让众多拥有行业资源、行业认知的垂类模型创业公司迎来蓬勃发展的春天。

7.DeepSeek推出新的低成本训练模式,对垂类模型的应用来说是个巨大挑战。

柏亮:刚才黄总讲到另外一个观点,就是对于垂类模型会有很大的机会,所以这个问题我想请彭总来跟我们做一下分享。因为你们就是做应用的,在各行各业做应用,现在在垂类领域,我们应如何快速训练自己的模型呢?

彭祥喜:我回应一下您刚才提到的问题。在垂类模型领域,之前大家可能感觉到,有很多AI从业公司在训练医疗、金融等垂类模型。之前的训练模式采用的可能是大家比较熟悉的transformer技术,对语料、数据和算力的需求极大,每次训练成本投入可能在几千万以上。

这次DeepSeek推出新的低成本训练模式,对垂类模型的应用来说是个巨大利好。因为DeepSeek改变提升了过去的能力上限,其相较o1的能力,可能比目前国内一些细分行业公司开发的垂类应用能力又有了进一步提升。

另外,据说DeepSeek模型应用过程中数据标注环节,可能会大幅减少了数据标注的工作量。过去,有些依托大模型数据标注的公司发展非常快,但DeepSeek出现后,它们的业务可能会受到调整。

对于垂类应用而言,这也将会是一个重大突破,会促使垂类模型应用市场快速迭代或升级,对于金融交易、医疗等垂类场景,可能会有更好的优化提升模式。DeepSeek对垂类模型的应用有很大推动作用,会加速垂类模型的能力提升、优化迭代以及各方面发展。从产业商业化闭环角度看,有非常积极的推动发展空间。

柏亮:另外一个与我们直接应用相关的问题是,以前做应用时,在选择模型甚至自己开发模型时,会面临芯片问题。现在我看到很多国产芯片已在适配,在这种环境下,更多国产芯片既便宜又可用。

彭祥喜:对,之前一些训练大模型或从事大模型业务的公司,在过去模式下,经费投入在算力上可能会遇到障碍,导致其思路或产品无法快速迭代或持续推进。现在Deepseek创新出现后,加速解决了国产算力的兼容问题,包括海光、昇腾等芯片的快速融合兼容。这些影响可能会让大模型生态更加健康、完整。

8.通过DeepSeek的工程创新,从软件层面突破硬件瓶颈,为相对后发的芯片公司带来了更多机会。

柏亮:现在好像大家更多的认为这对芯片是一个利空,听说有的人原来囤了一些英伟达的芯片,现在淘宝上打折甩卖。英伟达的股价也应声下跌。但是也有另外一种解释,就是所谓的杰文斯悖论,就是虽然降低了芯片的门槛,或者说人们应用芯片应用算力的效率提高了,有更多的人可以去用芯片了,那是不是反而会增加对芯片的需求?这对芯片产业结构会有怎样改变?

黄郑:杰文斯悖论是产业经济学的一个概念,最初解释的是英国工业革命时期的现象,比如当时煤炭的应用、蒸汽机的出现以及蒸汽机效率提升之间的关系。从产业经济学的短期和长期视角来看,短期而言,效率提升确实对应成本下降,会减少对芯片算力的需求预期,所以我们看到英伟达股价大幅跳水,这对芯片产业是利空。

但从长期来讲,随着效率的提升,不仅不会抑制投入,反而会带动需求在更大层面持续提升。就像蒸汽机的例子,虽然短期抑制了对煤的使用,但长期提升了以煤为代表的化石能源的使用。这和我们之前讨论的投资问题本质类似,从相对中长期的视角来看,当算力变得更加普惠,对百行千业乃至普通算力消费者来说更加触手可及的时候,它对长期算力产业的发展是利好因素。

对于国产本土的芯片公司而言,机遇大于挑战。像沐曦等在国产AI芯片领域已经取得不错成绩的公司,此前它们的效率性能与英伟达相比仍有明显差距。但通过DeepSeek在工程层面的创新,从软件层面突破硬件瓶颈,为这些相对后发的芯片公司带来了更多机会。这比直接在正面战场与英伟达竞争更加现实有效。

9.现在大家更认可工程性的方法和人机协同,而不再认为单纯提升硅基生命的智能上限就能替代碳基生命,这种叙事不再被广泛接受。

柏亮:大量芯片投入,同时算力应用效率增加的情况下,整个世界的算力产出智能大幅提高。刘老师有一本书叫做《智能的启蒙》,阐述了智能的产生和发展。现在是不是意味着智能会经历新一轮的井喷?大家关注DeepSeek的一个现象就是所谓的阿哈时刻(顿悟时刻),它会在某些时刻进行自我反思。这通用人工智能(AGI)的进展,是不是就大大的加快了这个进程?

刘志毅:首先我们要明确,人类智能和AI智能到目前还是有区别的,在《智能的启蒙》这本书里也讨论过。我们仅针对AI智能的本质,或者说这一轮以深度学习为代表的智能发展,来探讨一些观点。

第一点,大家应该能达成共识,就是智能变得越来越便宜,而且在这个过程中,效率优先于规模。DeepSeek通过优化训练方法,而非增加算力实现突破,这让我们认识到智能的提升更依赖架构创新和算法优化,而不是简单的规模扩张定律(scaling law),这是一个很大的认知变化。

这也是为什么这一轮DeepSeek的出现对美国冲击很大,对股市影响也很大,因为它打破了美国追求智能极限过程中认为不可打破的法则,现在我们可以看到在一定规模下通过效率提升能实现更好的表现。

第二点,我们认识到仿生学习的局限性。DeepSeek采用强化学习,取代了单纯模仿人类的方式(RLHF,人类反馈强化学习)。通过试错实现推理的提升比直接模仿人类思维更有效。以前我们认为仿照人类智能的思考方式能让AI产生更好的智能,但现在看来,在现有技术条件下,仿生学的效果并没有那么理想。

第三点,AGI的观念或者关于AGI的讨论定位有变化。传统对AGI的夸大预期在降温,OpenAI已经把AGI的定义从提升人类调整为影响可能小于预期。现在大家更认可工程性的方法和人机协同,而不再认为单纯提升硅基生命的智能上限就能替代碳基生命,这种叙事不再被广泛接受。

在这些变化之下,整个产业的共识是更多资源倾向于数据和算法,而非单纯的算力。比如合成数据的应用显示,AI训练不必完全依赖互联网数据或真实存在的数据,可以通过合成来完成。同时,很多公司开始探索高效的数据利用方式。

国外有个反对DeepSeek的华裔创新者Alexandr Wang,他的公司是做数据相关业务的,他强烈反对,很大原因就是这种技术趋势影响到了他公司的业务。对国内公司来讲,更高效的合成数据、更精准的算法以及更落地的场景,就能推动AI往更应用的方向发展。

总结而言,OpenAI开启了类似移动梦网时代的AI能力,而从DeepSeek上我们看到一种可能性,就是在有限资源下,能够衍生出类似移动互联网app时代的Agent范式,在有限资源下开发出更广泛的应用。我们可以用更便宜的方式获得更好的智能,从而进入真正的AI泛应用时代,这是我们对未来的预期。

柏亮:很多人都在讲DeepSeek里面的顿悟时刻(阿哈时刻),在智能的进化里面会是一个特别关键的进步。

刘志毅:所谓阿哈时刻,在智能发展和复杂系统领域都有类似现象。以往AI大模型时代(2022-2024年),我们认为只有一种主流范式,就是通过transformer压缩智能,涌现出智能的时刻。

后来出现了强化学习范式,o1模型就是代表,但它没有把强化作为最核心的部分,而是有很多前置条件,包括基础模型、数据和思维链等。而现在以强化学习为核心的范式,同样能给出更高水平的智能时刻。

所以我们认为深度学习技术探索智能至少有两条路径,即压缩路径和强化路径。强化路径本质上是一种检索,通过对结果或过程进行学习、奖励,最终变成一种排序和优化,也能获得好的推理结果。

总之,是软件工程本身的迭代导致了智能水平的上升,而不是我们在讨论AGI时假想的那些偏技术乌托邦主义的概念。我们至少找到了通往这一轮AGI的两把钥匙。

10.华为在替代英伟达芯片的过程中积累了很多技术训练和国内应用的经验。他们的适配进程会非常快。

柏亮:现在美国,无论是产业界还是政策界对DeepSeek的反应都非常激烈。一方面有的人主张封禁,另一方面快速推出新模型来应对挑战。

刘志毅:我觉得可以从两方面来看。

一方面,在这场博弈中,美国采取的很多动作,无论是科技界的还是政策界的,都比较保守。他们试图通过封锁的方式,阻止软件工程技术和算力资源的溢出。

但从20世纪80年代至今,这种做法从未成功过。因为代码世界有其自身规律,这样做不仅会导致特定领域创新的缺失,而且代码本身会通过各种方式实现技术的普惠化和迁移,很难被阻挡。

对我们来说更重要的是,以前我们考虑在封锁情况下自建生态平台实现国产自主化,但现在发现,即使不完全依赖国产自主化,我们也能实现双循环,既能通过与国外交流获得技术比较优势,也能通过自身创新实现场景落地和能力提升。

这让我们对未来有一个基本判断,只要创新不是那种让我们无法理解的革命性创新,在现有框架下,我们更容易实现AI能力的实用化和普惠化。

另一方面,大家可能关注较少,我最近除了关注电子电路计算,还关注光子计算等领域。去年中科院和清华分别有一篇论文提到,将光子计算嵌套在现有的电子电路计算产业生态中,能够提升产业能力,还能绕过相应知识产权问题。这说明我们缺乏的并非算力本身(摩尔定理下的计算方式),而是更好的软件生态、更完善的市场,以及绕过电子电路计算的新技术。这些其实都在发展进程中。

所以,美国的这些对抗行为,本质上是保守主义对抗开放性技术浪潮。从美国自身经验来看,最终开源或开放性技术创新会取得胜利,我个人是这么认为的。

柏亮:讲到这个话题,有一位观众朋友提了个问题,就是DeepSeek对于国产芯片,比如说华为的显卡的适配到啥程度了?我看到一些信息说华为和DeepSeek在做相关适配工作,刘老师了解吗?

刘志毅:我没有参与这个项目,根据以往的经验,在DeepSeek出现之前,华为的国产芯片在直接使用英伟达芯片算力的替代方面,是国内厂商中做得最好的。所以从适配性来讲,华为肯定是国产化厂商当中最容易适配DeepSeek的,因为华为在替代英伟达芯片的过程中积累了很多技术训练和国内应用的经验。我认为他们的适配进程会非常快。

11.DeepSeek并没有改变以国别为单位的中美竞争的宏观格局。不过,DeepSeek让我们更有信心。

柏亮:刚才谈的话题也是最近DeepSeek引发的大讨论,它的发展让全世界的科技竞赛更加激烈,甚至出现了强烈对抗。这一现象引发了大家对未来科技发展、世界格局改变等方面的联想和追问。黄总在《AI改变世界》这本书里讲到过大分流与大收敛的问题,每次大的技术革命都会产生世界的大分流或大收敛。

上次采访黄总时,黄总整体上还是倾向于会产生大的分流,但是现在似乎大分流的格局也在改变。请教黄总两个问题:第一,大分流的判断有没有改变?第二,在未来技术大分流中,DeepSeek是不是一个标志,让我们在大趋势里占据更好的生态位和竞争力?

黄郑:这个问题很有趣,在《AI改变世界》这本书里,我们尝试通过分析科技历次革新的规律和当前人工智能发展的前沿动态来回答。我跟当时和您探讨这个问题时的观点基本一致,大分流和大收敛其实是同时存在的。这涉及到整个AI体系以及中美博弈下AI的竞合关系。

我们认为DeepSeek的横空出世,对中国本土AI产业的崛起绝对是个利好。但我们也要保持理智和清醒,DeepSeek在工程创新方面表现优秀,但在从零到一的原创性创新方面,我们还有很多工作要做。

如果从全球范围看,假设只有两个经济体最终能在AI领域取得成功,那大概率是美国和中国。虽然最近两周英伟达等公司受到明显冲击,但资本市场是比较理性的,众多机构投资者参与下,一到两周时间,总体指数已经慢慢恢复到两周前的状态,这说明大家对中美AI竞合关系的判断逐渐回归客观。

客观看来,DeepSeek到目前并没有改变以国别为单位的中美竞争的宏观格局,在综合AI体系里,我们还有很多领域需要继续努力。不过,DeepSeek让我们更有信心,因为我们有大量勤奋聪明的科研工作者、海量的数据和巨大的市场潜力,这些能让我们更好地发挥后发优势,在AI竞争中表现得更好。

今天这个问题更具现实意义,我们既要对未来充满信心,也要对面临的机遇和挑战有清醒客观的判断。

柏亮:DeepSeek给了我们很大的启发和信心,但它还不是一个分水岭时刻。

黄郑:从局部战场来看,分水岭时刻或许已经出现,但从宏观层面和大局观来看,我们还需要持续努力与更多耐心。

12.DeepSeek带来的普惠算力,能以更高效率、更低成本赋能百行千业,Agent接下来会迎来爆发式增长。资源约束不一定限制具身智能发展,关键在于架构创新和效率优化,这让我们再次相信软件的重要性。

柏亮:刚才讲到投资选择的问题,现在人工智能领域还有另外两个热门话题与之相关。一个是agent(智能体),去年在DeepSeek出现之前,它是人工智能领域最火的话题;第二个是具身智能,尤其是机器人领域,在过去一两年也是最前沿的话题。DeepSeek对大模型的应用推广有快速推进作用,那它对具身智能、Agent这些领域会有什么样的影响?你们在这些领域会看到更多投资机会吗?

黄郑:答案显然都是肯定的。无论是Agent还是具身智能领域,都将因DeepSeek受益。

DeepSeek带来的普惠算力,能以更高效率、更低成本赋能百行千业,这对agent的发展来说,是一个积极的催化剂,Agent接下来会迎来爆发式增长。

对于具身智能,包括机器人领域,DeepSeek从软件切入,最终会在硬件层面以及软硬结合方面引发更多积极进展,我们认为这里面存在很多投资机会。

柏亮:请彭总谈一谈,在Agent的应用上,现在结合Agent对于我们做应用来说有哪些影响?

彭祥喜:DeepSeek对Agent和具身智能的发展将起到加速推动作用。从DeepSeek的推理能力和多模态角度来看,它为Agent的自主性和场景适应性提供了强大支撑。比如DeepSeek的自主决策和强化学习能力,能大幅提升agent的自主判断和意图识别能力。同时,DeepSeek的混合专家模型(MOE)能力提升,增强了agent之间的协同性。

在算力方面,DeepSeek的算力需求下沉,结合AI硬件市场,为agent的应用开辟了广阔空间,像去年备受关注的AI眼镜、AI耳机、AI玩具等市场,都会因之得到极大推动。这也解决了传统大模型在终端硬件算力方面的短板问题。我觉得这会刺激Agent应用的发展,2025年Agent市场有望迎来爆发。

柏亮:刘老师除了《智能的启蒙》这本书,前不久还出版了《具身智能》,对具身智能的发展有深入研究。DeepSeek对具身智能和Agent的影响,刘老师能不能结合您的研究和实践,再跟我们谈谈现在正在发生的改变以及未来的变化趋势?

刘志毅:先说说具身智能,在我去年8月份出版的《具身智能》里有相关讨论。DeepSeek对具身智能领域的影响主要体现在三个方面:

第一是优化资源效率。具身智能系统面临计算密集性问题,DeepSeek利用创新优化资源利用,帮助机器人等具身智能系统在有限硬件上运行复杂AI,所以现在很多终端设备厂商开始涉足AI领域。

第二是实时推理。DeepSeek改进的推理能力和内存压缩技术,有助于具身智能系统实时决策,降低对边缘计算资源的需求。具身智能的核心能力是对外部环境实时推理并表现为物理实体的智能,这些技术对其发展很有帮助。

第三是专家系统整合。DeepSeek的混合专家技术为整合多种感知和控制系统提供新思路,能改进具身智能系统处理不同任务的效率。

所以,从这三个技术点可以看出,资源约束不一定限制具身智能发展,关键在于架构创新和效率优化,这让我们再次相信软件的重要性。

再说说智能体。去年我们对Agent进行了一些讨论和实践,包括设计范式等内容。今年上半年我还会出版一本关于智能体的书。DeepSeek对Agent技术的关键影响主要有以下几个方向:

第一是训练效率优化。通过混合专家技术创新应用,在现有智能体系中只激活特定任务相关的模型部分。比如一个几千亿参数的模型,可以只使用与任务相关的部分,减少内存需求,优化训练过程。

第二是提升推理能力。目前Agent大多采用压缩范式,通过强化学习可以改进链式思维,相比模仿人类,试错方式能提升智能体的推理能力。以往单智能体核心的工作在进行智能体分发和多智能体协作时容易出现偏差,强化学习本质是检索,能提高智能体任务的自动化程度。

第三是架构创新。DeepSeek开发了更精细的专家分类和更高效的通信方式,这表明agent的架构设计比计算资源更重要。我们可以把Agent类比为AI时代的app,目前其技术架构和产品表征方式还未形成共识,但现在的工作让我们看到了希望,一旦形成共识并完成架构开发,我们就能从移动梦网时代进入app时代。这也是2025年大家如此关注Agent的原因,这些技术的发展为其奠定了基础。这也是我今年想和大家深入讨论智能体相关思考和逻辑的原因。

13.关于出海:我们如何完善从算力层到算法层再到应用层的生态,实现全方位的人工智能突围,这是我国AI创业者和从业者面临的重要课题。

柏亮:有一位观众提问,我觉得也是大家目前关注的问题。DeepSeek让中国人工智能在全球的声誉、知名度和受重视度大幅提高,那它对中国大模型出海发展有什么样的影响?黄总,您最近刚从海外回来,对这个问题有什么感受?

黄郑:首先,对中国所有AI产业链公司出海而言,DeepSeek肯定起到了积极的促进作用。中国科研人员通过努力做出了如此优秀的低成本、高效率模型,短时间内就得到了以M7为代表的科技巨头,包括英伟达、Meta、谷歌等的认可,它们在业务层面全面对接DeepSeek相关系统,这是对我国自主创新AI实力的高度认可。

但从博弈论的角度动态来看,确实存在一些问题。英伟达CEO分析DeepSeek技术特点优势后,明确提出希望对中国的算力、芯片禁售禁运进一步加码。在当前地缘政治博弈、竞争甚至冲突不断加剧的背景下,科技也有了国界。

从动态博弈更深层次考虑,如果美国进一步反制,收紧对“阉割版芯片”算力的供应,我们如何完善从算力层到算法层再到应用层的生态,实现全方位的人工智能突围,这是我国AI创业者和从业者面临的重要课题。

彭祥喜:对于AI产业出海,DeepSeek带来的影响目前非常积极。从AI产品榜显示的DeepSeek APP的月活数据来看,国内用户占比30.7%左右,印度占13.59%,印尼占6.94%左右,美国和法国也分别占4%左右。我们已经看到海外有很多用户在使用DeepSeek。

从开源社区的评论也能发现,全球开发者都在用其开源代码和技术对自己的模型应用和商业化闭环进行迭代升级。

不过,就像黄总提到的,地缘政治因素下,美国肯定会进一步加码对中国AI的限制。毕竟美国在AI上投入巨大,不希望这些投入成为沉没成本。但总体而言,DeepSeek对中国AI出海利好,包括应用服务的出海,都是非常有帮助的,能起到很好的赋能作用。

14.最近我和很多从业者一样,都在深度思考如何调整AI业务和工作计划,以便在2025年让业务更好地发展和突破,可能要调高今年的业务目标了。

柏亮:今天是蛇年开工第一天,基于DeepSeek的爆发,从各自角度对2025年人工智能的发展做一个预测和展望。虽然去年没人能预测到DeepSeek的突破,但我们还是希望大家分享一下判断、期待和想法。

彭祥喜:说实话,这个问题大家可能都还在认真思考。对AI从业者来说,春节前后的变化非常大。春节前大家做了很多2025年的工作计划,1月20号DeepSeek的R1开源发布,这20天的爆发对大家触动很大。最近我和很多从业者一样,都在深度思考如何调整AI业务和工作计划,以便在2025年让业务更好地发展和突破。

从我的个人认知来看,2025年大模型的场景应用和agent领域会快速裂变,会催生出大量业务和商业化需求。我对今年的AI应用市场表现非常期待,相信会取得很好的成绩。DeepSeek的出现超出了我们大家预期,可能要调高今年的业务目标了,我非常看好2025年AI应用市场和业务的发展空间。

柏亮:谢谢彭总,第一件事就是改工作计划。黄总,您是不是第一件事要改投资计划?

黄郑:一定程度上是的。作为专业科技投资人,展望2025年,既是预测也是期许。

从二级市场来看,随着DeepSeek对AI产业链的积极影响不断深入和发酵,中国科技龙头公司在资本市场的表现会更值得期待。不仅是国内A股科创板的优秀AI和算力相关产业链公司,还有登陆港股市场的众多科技公司,过去几年它们有过低谷,我预计在DeepSeek带来的机遇下,今年它们在二级市场的表现会很不错。

从一级市场角度,随着DeepSeek让算力更加普惠,接近百行千业的算力使用者,国内AI科创和创业生态,尤其是应用层面,会进一步繁荣发展。这是我们的研究判断,也希望对今天看直播的朋友们在事业发展、业务拓展,甚至股票投资方面有所帮助。

柏亮:刘老师,您的科研计划会有很大改变吗?

刘志毅:其实还好,我反而很兴奋,有新的创新和可能性,科研就能更好地与实践结合。大家关注DeepSeek,是因为它有国家战略意义,实现了低成本、高性能、全开源的AI技术。总结今天的讨论,我觉得有这么几点:

第一,DeepSeek通过低成本、高效率的路径打破了美国主导的AI军备竞赛逻辑,让我们对未来更有信心。美国对中国高端芯片的封锁政策,在DeepSeek的创新面前,战略上显得有些迟滞和僵化。

第二,从AI发展角度,DeepSeek树立了非西方主导的创新标杆。它的核心人才来自本土,即便有部分人才曾在英伟达工作,但大量华人人才在AI创新中发挥了关键作用。DeepSeek彻底开源模型,代码和架构完全开放,技术透明性更高,展现出全新的创新姿态。

第三,DeepSeek契合国内对新技术和新质生产力发展的讨论,是AI经济新动能的标志性事件,降低了各行业进入AI领域的门槛。

基于这些,对2025年,除了DeepSeek相关影响,我还有以下判断:

一是多智能体会成为主流范式,通过优化资源和训练算法,实现复杂任务协作,真正的AI原生应用会出现。

二是具身智能与大模型结合,使机器人能力实现质变,不再只是简单与环境交互,而是形成硬件多智能体系统。

三是新型神经网络架构正在突破,“去transformer化”的架构会提升效率,强化学习更适合开发相关神经网络,软件和算法架构会有新突破,且很可能有华人团队参与。

小型高效模型将在特定资源环境下取代庞大通用模型,强化学习在实际场景的大规模部署会带领我们进入AI应用百花齐放的时代,这就是我对2025年的期待!

-End-

直播预告|Deepseek变革:金融人如何快速反应了?

0 阅读:0

子希数字经济

简介:感谢大家的关注