我认为DeepSeek有四个价值,引导新的AI范式、重申工程的重要性、缓解硬件焦虑、AI平权。
先说范式问题
从1956年达特茅斯会议以来,人工智能的发展都是多流派并存的,符号主义、连接主义、进化主义等。符合主义强调自上而下的逻辑,专家系统是其典型代表;连接主义强调对人脑的模仿,在庞大的神经元网络中分布式存储知识、分层识别模式,进而诞生智能;进化主义强调主体与外部环境之间的交互,通过“感知-行动-反馈”来探索世界,在试错和适应中演化。
如果我们细细琢磨,会发现,这些流派,本质上是大家对智能的源起有分歧。那么智能的源起是什么?不知道,至今并没有正确答案。
但从当前人工智能的繁荣来看,连接主义+进化主义拔得头筹,也就是深度学习+强化学习。
站在今天的视角,我们回顾历史,往往有一种“先知”似的错觉,认为一切技术的发展都是如此的理所当然,甚至会陷入技术进步的必然论。
其实不是的,在这一点上,我非常认同Elon Musk的观点,技术是与人绑定的,技术并不会自动进步,是依赖于个体的努力。
Geoffrey Hinton出生于1947年,2024年77岁时获得诺贝尔奖,但他的主要贡献中,玻尔兹曼机是1985年(38岁),反向传播是1986年(39岁),深度信念网络是2006年(59岁),但标志着神经网络真正崛起的AlexNet算法,是在2012年(65岁)。
这说明什么?
这说明Hinton在65岁之前,在神经网络少有人问津的情况下,始终苦苦坚持;甚至是在获得诺奖之后,多伦多大学才给了他一间独立办公室,Hinton吐槽说,学校一直认为他不值得一间办公室。
同时也说明,老兵不死,又有几个科学家能像Hinton一样始终走在创新和迭代的前言呢?人工智能令人激动,这些推动人工智能走到今天的人,更令人敬佩。
再说一下2012年到底发生了什么。
ImageNet + AlexNet + GPU,数据、算法、算力终于相遇了。Hinton团队的AlexNet算法的效果相比其他算法,要好起码10个百分点,这是碾压性的突破。基于ImageNet的挑战赛是李飞飞发起的,当李飞飞的博士获知AlexNet的效果时,给李飞飞打电话,大意是说,古老的神经网络算法获胜了。我读李飞飞的自传《我看到的世界》时,对这个场景印象深刻,对神经网络用“古老”来修饰也印象深刻。
有朋友开玩笑说,2012年之前的人工智能领域,是“黑暗的中世纪”,神经网络没有任何容身之地,研究这个方向的硕士、博士都会被老师主动劝退,写了论文也发表无望,很多学者不得不改换了门厅。这才是赤裸裸的现实。
2012年之后的故事,大家是熟悉的,2016年AlphaGo、2017年Transformer、2022年ChatGpt3.5,仿佛世界在加速,神经网络、深度学习成为当之无愧的主角,深度学习是新的范式。
到了2024年5月,OpenAI发布了4O,是一个非常强大的多模态模型,端到端的语音延迟平均为320ms,并且可以叠加情绪。
这时的产业界有种说法或者认知,貌似互联网的知识已经耗尽了,大模型都学完了,Scaling Law看到尽头了。
下一步的方向是什么?
2024年9月,Open AI发布了O1。O1其实也代表了一种范式转换,O1之前是训练侧的Scaling Law,更大的数据、更多的参数,在模型训练上是以SFT+RLHF为主。而O1出来之后,原来在推理侧也可以Scaling Law,并且推理能力的提升也会带动模型整体能力的提升,对于更多数据的依赖转向对COT数据的依赖。
谈一下O1怎么来的。
固然OpenAI仍然是AI的灯塔,尤其是对方向的牵引,但大家不要对OpenAI有误解,好像涉及大模型的创意,包括架构、算法等,都是他们自己想出来的,恰恰相反,他们在不断得吸收和借鉴,例如,transformer架构源就起于google。这一点梁文锋在某访谈中也提到,OpenAI,或者说硅谷,或者说美国,他们有丰富、有效、充分的技术生态、技术社区,例如像arXiv这样,未经同行评审就可以发布预印本,加速了科研成果的交流和传播。并且你再看看X(原twitter),除了政治人物拉选票之外,有很多教授和AI大牛常驻,没事就讨论和转发AI论文或八卦,我们是找不到对标的平台的。
在OpenAI之前2022年,就有两篇论文讨论COT。
一篇的意思是few-shot COT,就是,如果大模型不会做数学题(推理),就给他一些样本,告诉他应该如何一步步的推理,他就能学会;另一篇的意思是zero-shot COT,这篇相对上一篇更进一步,不用告诉大模型如何推理,只需要给他一个指令“let‘s think step by step”, 他就可以逐步学会推理,这篇论文的题目就是“Large Language Models are Zero-Shot Reasoners”(2022年)。我其实非常为这篇论文的作者可惜,他只是惊叹,原来大模型不用输入COT就可以自己推理,他如果再进一步思考,可能就是“大模型有内生的推理能力,我们只需要去挖掘”,可能意义就不一样了。
2024年1月,OpenAI提交了一篇论文“Let’s verify step by step”, 应该是首次强调强化学习在推理能力建设中的重要性,他的步骤是先喂COT数据,然后通过强化学习来优化推理过程,ORM(基于推理结果的奖励模型)和PRM(基于推理过程的奖励模型),并验证得出结论,PRM会优。
一切都很合理对不对?要监督推理过程。
然后在2024年的9月,OpenAI推出了O1模型,这是推理模型,于是业界aha,Scaling Law向推理侧倾斜。
与此同时,有趣的事情在中国发生,DeepSeek肯定也感叹于OpenAI O1的推理能力,思考着如何模仿。
再强调一下,OpenAI的范式可以理解为是SFT+RL(PRM),就是仍然以SFT为先导,引入了RL,但推崇PRM的奖励方式。
而DeepSeek在思考我上文提到的那个问题,“大模型有内生的推理能力,我们只需要去挖掘”,这句话意味着什么?意味着推理这件事,不需要人类来教,不需要人来来复杂构建各种COT,我们需要做的,就是引导,我们需要一种更简单直接、纯粹的引导方式。
这是新的aha时刻,相当于范式就是RL(ORM)。
我觉得进化派终于扬眉吐气,在没有SFT的情况下,RL主导了一切。
我不知道DeepSeek为什么给这么模型命名为Zero,但我觉得有向AlphaGo Zero致敬的意思。当2016年人机大战时,与李世石对战的模型叫AlphaGo Lee,这个模型虽然也是用了强化学习,但前期输入了大量人类棋谱知识,模型还是人类的学生。
但在这个模型后不久,DeepMind推出了另一个模型AlghaGo Zero,这个模型完全没有任何人类棋谱经验的输入,以强化学习式的左右互搏,打败了上一个模型AlphaGo Lee,同时还在Nature发了一篇论文,“Mastering the game of Go without human knowledge”。
在DeepSeek-R1-Zero之后,DeepSeek推出了R1模型,R1的范式可以理解为RL+SFT(ORM),就是先RL再叠加基于结果奖励的SFT。伴随R1也有一篇论文,论文题目也很通透,“Incentivizing reasoning capability in LLMs via reinforcement learning”。我贴了论文中的一张图片,其实这是一张非常震撼的图片,能够清晰得看到,随着训练steps的增加,模型的推理长度也在增加,说明模型理解了“推理”这件事,也学习到了推理的好处。
在DeepSeek-R1发布后的2025年2月,OpenAI补充了一篇硬撑门面的论文,“Competitive Programming with Large Reasoning Models”。这篇论文有句话,承认了DeepSeek-R1和Kimi K1.5的意义,当然这句话写得有点含糊,“Deep-R1和Kimi K1.5的工作独立得揭示了,关于思维链的学习如何促进大模型在数学和编程等挑战领域的性能提升”。
但OpenAI这篇论文也有意义,因为他拿国际信息学奥林匹克竞赛(编程)下手了,搞了两个模型,一个O1-ioi,一个O3,前者是专门for大赛定制的,不知道喂了多少的数据,做了多少的SFT,但结果显示,还是赶不上未经人类COT干预的O3,在严格规则下,基于IOI 2024拿到395.64分,达成金牌成就。
大家纷纷高呼,大模型替代的第一个职业竟然是程序员。
OpenAI的这篇论文,我觉得改个名字会更好,叫“RL is All You Need”,或许更应景。
重申工程的重要性、缓解硬件焦虑
这部分太硬了,无论是MLA多头潜在注意力、MTP多Token预测、FP8混合精度训练,还是PTX层编码、DualPile并行策略,都显示出DeepSeek在算法和工程上的极致探索,我们能切实感受到这种死磕精神的。
我在这块的技术上不懂,只能学习个大概。但从大模型火热以来,我们过于强调Scalling Law,万卡、十万卡,这绝对不是什么好事情。
一方面,从2017年transformer架构诞生以来,算法、算力和数据,与工程就始终密不可分。不知道大家是否还记得“Attention is All You Need”的作者之一,号称巫师的沙哥Noam Shazeer。在沙哥遛弯碰到其他七人之前,transformer的早期版本性能并没有超过传统的LSTM方案,是沙哥出手重构了代码和算法,才一举实现了性能的突破,打破了翻译领域BLEU测试的记录。
牛人之所以是牛人,就在于其他人只能仰望。
沙哥后来创办Characer.ai后,为了解决并发和效率为题,在工程上也是大刀阔斧,通过MQA来降低KV缓存,通过混合注意力(全局注意力、局部注意力与滑动窗口,看着是不是眼熟)来降低训练复杂度,甚至还采用了Int8精度训练模型。具体细节我虽然讲不出来,但这一顿操作,是否跟DeepSeek的工程优化方向有一些类似?
无论是沙哥,还是DeepSeek,并非上述架构、算法方向的初创者,但是他们能够将这些不同的工作创造性得应用到实践中,这就是工程的力量。
这让我想到了马斯克的第一性原理,“我只相信物理定律”,其他都可以试试看。所以,工程的本质就是追求物理的极限。
另一方面,狂堆算力,是无法推动大模型普及的,按现在的十万卡、乃至更多集群,全球也没有几家企业可以支撑,大模型的“小型化”以及在端侧的部署,才会有AI的普惠。1945年第一台计算机ANIAC诞生时,占地170平,重30吨,而现在,我们一个耳机、一个手表的计算能力就远超ANIAC了。
对人类而言,大模型的普及和平权非常关键。
AI平权
我用四个词来描述DeepSeek的价值,去魅、普惠、科普和觉醒。
什么是去魅?我们之前认为中美大模型差距怎么也得2年吧,OpenAI、硅谷是这一波潮流的灯塔,我们只能跟随,压根没有上桌的勇气。这也是为什么有些知名投资人,也不怎么看好国内的基础大模型。当然,其实包括我自己在内,也有崇洋媚外的不自信。我们能行吗?
我们对年轻人要有敬畏!这才是中国的未来。
DeepSeek在一定程度上倡导了新的范式,也重新唤醒业界对工程的重视。后续,我们再跟踪大模型最新进展,除了瞅瞅硅谷,也需要瞅瞅杭州,这就是上桌的价值。
普惠这一点,其实不好夸大,虽然号称V3的训练成本是GPT-4的1/10,但这个口径太严格,并且时间点也不一致,没有必在这一点上硬刚。并且,真要本地化部署一套大模型(例如DeepSeek-R1 671B),且有效并发到50-100,这也得200万起步了。
那么有没有普惠呢?有,Tokens调用费用全球都下调了。我们也敢在国产芯片上有信心地跑了。这跟股票的逻辑是一样的,是否乐观,要看对未来的预期,我们对未来的预期改变了,信心充足了,当下就没有必要较真。
其实我更在意科普和认知觉醒这件事。
从春节到现在3月份了,感觉人人都在聊DeepSeek。我看到一个段子,说春节回家,大爷大妈都不聊家长里短了,转而聊DeepSeek在哪儿下载。
什么叫一个时代的到来?谁能够完成对AI认知的科普?
人人都在尝试使用AI这件事,比什么都重要。这就是对新技术的拥抱,需要一个导火索。这就像2010年,乔布斯在旧金山Moscone West会展中心,举着一个小小的东西说,“We're introducing iPhone 4.”
中国的金融消费者从2010年至今,其实经历了4次觉醒。
第一次是2012年,快捷支付的出现。大家可以想象,没有快捷支付,就没有现在app上的一切繁荣。第二次是2013年,余额宝的出现,我把它成为理财意识的觉醒。因为在此之前,大部份的中国人(不要陷入城市视角)只知道活期和定期,不知道买基金,不知道如何有效的以财理财。第三次是微粒贷,是普惠金融,大量“白户”(在人行没有信用记录的人)也可以申请贷款了。第四次就是疫情期间,远程,一种新的生活或服务方式的改变。而第五次,就是智能。在去年底,我分享这个图片时,并不知道,哪个产品会担起智能的科普,来刷新大家对AI的认知。那么,现在我们知道了,是DeepSeek。
DeepSeek-R1出来前后,大家对大模型的态度的确是不一样的。
这里有很多不同,我不一一展开了。但我想强调的不同,是生态的变化。一种新技术的崛起和普及,生态,围绕它的上下游、伙伴非常重要。
在DeepSeek-R1之前,说实话玩家不多,金融机构也比较头疼到底选哪家的模型,选哪家的服务。
但DeepSeek-R1之后,这个事情变得极其简单。并且,DeepSeek-R1带来了大模型的平权,一下把门槛都降下来,最好的基础模型(起码在一定程度的认知中),大家都有,大家都是一样的,这时候就看对场景的拥抱到底处在什么程度。
原来围绕在金融机构周围,就有恨不得上千家ISV,反而对这些ISV是重大利好,商业逻辑又回到了他们熟悉的逻辑,依赖行业Knowhow,依赖对流程的嵌入,看看谁擅长驻场、擅长交付、擅长贴身服务。
从0到1训练一个大模型,这件事的门槛的确仍然很高,但是,怎么把大模型有效应用到场景,这个门槛,并没有那么高。包括SFT、RAG、蒸馏等,有个技术专家,有个行业专家,再带一群愿意死磕的工程师,这个事情大概率七七八八。
我就认识一家客户,原来用其他开源模型做rag,召回准确率只有70%多,换了DeepSeek-R1,迭代到95%了。当然,这里面有很多其他因素,并不具有普遍的代表性,但也能看到基础模型的能力增长助力明显。在大模型落地场景这件事上,模型能力大于优质数据,优质数据大于工程能力,工程能力大于其他一切。
金融行业的真正机遇
我认为,金融行业的真正机遇在于新一轮数字化转型的开启。
我画了一张40年的时间线,从这个时间线,我们可以看到技术的变迁,从电子化到网络化,到移动化,到数据化/云化(云化在银行领域并不太明显),再到智能化。我们可以发现,叫各领风骚三五年,每个时代都有新的机构、新的模式出现,有些借势而起,一直到今天,依然发展得很好,有些成为了基础设施,有些消失在茫茫人海。那么,智能化时代,谁会成为新的弄潮儿,又有哪些新的机构类型呢?
金融行业的挑战
大模型自身是有问题的,尤其是在实践中,我发现有两个。
一是,大模型知识提取的悖论。
⼤模型训练时,输⼊的是经过清洗的数据,但⼤模型并没有学会⼈类清洗数据的细节,导致训练后的⼤模型,想落地具体场景,在⾯对未经清洗的数据时,存在很多准确性问题,⽆法有效提取。而这些必须通过更多的工程化方式来解决。
二是,人机缺乏共享知识。
什么意思呢?⼈类交流有两个特点:基于共享知识、多轮对话锁定精确性。
当两个人聊天时,我们必然会有一些共享的知识,文化语境知识、情景知识等,例如,双⽅⾝份、⾓⾊、⽂化、宗教、地理等等。
举例而言,当有人问,今天天⽓怎样?表面看只是一句话,但大模型并不知道背后的时间、地点、以及具体天气情形。例如,明明是倾盆大雨,咱们两个都淋了个落汤鸡,我问你,“今天天气怎样”,你会回答“倾盆大雨”吗?你不会,你大概率会说“滚” 。
又比如,在办公场景中,老板问,今年咱们北区的业绩增长如何?这里面有极其复杂的统计口径,包括时间、主体、区域范围、业绩定义、增长定义、产品范畴等等。不同的公司对区域的定义是不一样的,乃至同一个公司,对区域的定义也是不一样的。
这些信息,大模型知道吗?它统统不知道。
但如果是切换成人类聊天,我们会觉得,表达得已经非常非常准确了。
但大模型就是一脸懵,这就是当前大模型在落地具体场景时的主要问题。
并不是大模型不聪明,而是,大模型还没办法与人类建立共享知识。当前想要大模型出效果,必须把这种知识共享建立起来。
拥抱大模型的策略
关于拥抱策略,我认为其实非常简单,有如下三个原则,供参考。
建议场景选择从通用到专业,从内部到外部。
现在任何一个场景的解决思路,基本上都是Agent,无非是简单些的,还是复杂些的,RAG,也可以看作是一种Agent。我们在实践中发现:
(1)大模型落地垂直场景的核心是:复刻业务专家的思维链(请把这句话重复三遍,仔细体会);
(2)要真正解决问题,必须是⼤模型与微调的较⼩模型结合,这样才能在有监督任务上获得更⾼的性能,同时可以带来更⾼的解释性。
什么意思呢?
高质量的数据依旧非常关键。市面上的通用大模型目前也就两类数据无法获取了,一类是企业内部数据,一类是专家头脑中的数据。而这两种数据,首先整理出来就非常困难,其次即使整理了也要标注。那么谁来标注呢?
人工智能其实是靠人工的,就拿自动驾驶举例子,今天我们看到的智驾,恨不得养活了百万级别的标注人员。标注的本意就是符合人类的预期,代表着倾向和选择。尤其是在金融领域,你得有倾向,有取舍,有选择,金融的本质是经营风险。
还是哪个问题,谁来标注呢?
其实在广大的金融机构,并没有那么多标注人员,外包吧,知识储备可能不够,找来找去,发现最佳的标注人员还是自己。但无论是科技条线从业还是业务条线从业,谁会特意抽出时间,又或者谁能抽出时间,专门搞标注呢?
所以最好的方式,就是把标注这件事,嵌入到业务流程中,让作业人员,不知不觉得把标注这件事就做了。
这种情况要有一个认知,就是模型不是一锤子买卖,上线了就万事大吉,而是不断迭代的过程,人和模型一起进步。人逐渐通过模型提高效率,改变作业方式;而模型逐渐学会人的一些认知、倾向和选择。
你应该看出来的,我对大模型的态度是人机协同,这是我更看好的未来。
同时这种人机协同的方式,或者作业即标注的方式,也响应了我上面的一个观点,就是人机如何共享知识。
拿NL2SQL举例,正是由于人机没有共享知识,我们几乎不可能直接从自然语言到有效的SQL,想啥呢,鸡同鸭讲。所以,比较合理的方式是:
自然语言——共享知识——大模型
共享知识这一层,有连接和翻译的作用,一方面建立人机之间的知识共享或者共识,另一方面,共享知识即要承接人类的输入,又要确保大模型能懂。
做过数据治理、数据分析的人更容易理解,共享知识这一层,其实就是数据资产层,把人类所知的知识,转化为数据,数据具有自己的特征或指标,让大模型get到这些特征或指标,也就get到了人类语言没有传递的“共享知识”。
我从2011年进入中行总行,到现在,做数字化转型这件事,也有14年了。我经常把自己描述为一个连接者,a connector ,连接金融和科技。
我最大的认知是什么?是技术不重要。
我说技术不重要,并非是说技术本身,而是说对于转型而言,技术从来都是最简单的事情。就像我拉了40年的金融行业技术变迁,从大核心,到瘦核心,从渠道兴起到移动优先,从直销银行到开放银行,从核心下移到全栈信创,从数据治理到数据资产,从决策模型到人工智能,我几乎亲历了每一步。
但每一步最大的障碍从来不是技术本身。
自从DeepSeek火了之后,大家纷纷研究梁文锋的履历,研究DeepSeek这家机构,也会发现,这并不是传统意义上的中国企业,既不是传统的行业企业,也不是已领风骚十余年的互联网企业,他的企业文化代表了一种新的范式,我们从游戏科学(黑神话悟空)、可可豆动画(魔童哪吒)这两家身上也看到了隐隐约约的影子,吾不知其名,强(三声)曰为:新范式。
而这个范式,也并非中国所特有的,你看OpenAI,以及由OpenAI离职人员开枝散叶的各种类型的企业,都有一些新范式的影子。Transformer诞生于谷歌,沙哥没有离职之前还专门给谷歌高层写信,也无人重视。
我们见证的是什么?
我觉得是一种商业范式或者价值范式的变迁,未来的产品、商品、企业,由什么驱动?
技术+好奇心。
更准确得说是:好奇心+技术,好奇心是在前面的。
移动互联网时代,我们发现,是场景驱动,流量驱动。
如果你拥有场景,你拥有流量,你是否会继续拥有一切?这值得深思。
这又回到,我经常分享数字化转型时的一个思考:
人类社会已经经历了多轮科技革命,是否存在一个人群,永远掌握着最先进的技术,这一轮新技术浪潮,某个人群抓住了,又来一轮新技术浪潮,某个人群又抓住了。
这么说吧,不可能!这是人性,也是人群性,更是社会性。
如果永远都是同样一群人掌握最新的技术,社会就不会有进步了。