「人均DeepSeek」之后,AI应用还能怎么做?

极客公园 2025-02-17 18:31:37

2025 年开年,迎来了「中国的 ChatGPT 时刻」。

由于 DeepSeek-R1 模型能力带来的震撼,从硅谷到中国、从老人到小孩、从 AI 创业者到各行各业的从业者、从小红书到抖音,都在「玩」DeepSeek。

DeepSeek 最新的「朋友圈」是百度和微信。前者即便面对传统搜索带来的丰厚商业回报,也接入 R1 主动变革;而从不激进的微信也罕见地积极了一把,接入 R1 升级了微信中的「AI 搜索」。

很难想象,在 ChatGPT 诞生两年后,所谓「大模型窗口期已过」的时间点上,杀出了这样一匹黑马,以所有人意想不到的方式,掀翻了大模型产业的桌子。当所有人都看到 DeepSeek 带来的机遇,当大厂也一反常态不再要求先做出自研的模型技术、而是现在就接入最好的 DeepSeek 模型做 AI 应用,2025AI 会如何发展?

2025 年 2 月 8 日,极客公园「今夜科技谈」直播间邀请极客公园创始人总裁张鹏,昆仑万维 董事长兼 CEO 方汉、秘塔科技 CEO 闵可锐和清华大学交叉信息院 助理教授 吴翼,一起探讨了 DeepSeek 带来的冲击波以及 2025AI 应用还能怎么做?

DeepSeek 文笔好、思考过程比人类都有逻辑,这会成为接下来做产品的标配动作吗?

有了 DeepSeek,蒸馏还能怎么做?为什么蒸馏是常规方法论,与价值观无关?

为什么说有了 R1,也并不意味着 AI 应用更好做了?更大的挑战才刚开始。

DeepSeek 之前,大模型领域默认「老大老二不开源,老三开源赚名声」法则,但反倒是从第一天就坚持开源引领技术生态的 DeepSeek 赢得了天下。开源到底意味着什么?现在,是不是应该问:还有谁没有加入开源队伍?

靠优化 AI Infra 实现「价格屠夫」背后,没有人比 DeepSeek 更懂英伟达 CUDA,未来,模型推理价格还可以香到什么程度?

达到全球第二的成绩后,DeepSeek,接下来会发什么?

看完这篇,你会对 2025 年接下来 AI 圈即将要发生的大事件,有更好的判断。

01 DeepSeek-R1:开源模型有史以来最好的成绩

张鹏:从你的角度,DeepSeek 这次爆火背后,最值得关注的创新点是什么?

吴翼:DeepSeek-R1 是第一个开源的,并且真正接近、达到 OpenAI o1 水平的模型,后者是一个新的推理类的范式。同时,DeepSeek 还把怎么得到 R1 这个模型的很多细节、大概的 recipe(配方)也告诉你了,在这一点上,它也是第一个。

带给我最大的冲击是两件事情。第一,没想到能这么快做出来,因为从 o1 面世(2024 年 9 月 13 日),到中国的团队开始尝试复现 o1 类似的模型,DeepSeek 真正做这件事满打满算也就半年。在这条技术线上,OpenAI 可能探索了一两年的时间才做出 o1。

第二是当这个模型拿出来的时候,没想到「哇,真的这么好」,R1 是开源、所有人都可以试。

两件事情加起来,一下子就没话说,非常有历史时刻的感觉,然后春节就没过好(哈哈)。

张鹏:所有人都在思考,怎么出来的,为什么不是我们(哈哈)。你们怎么看 DeepSeek 冲击波?

闵可锐:知道这家公司是在 2023 年他们刚成立的时候,当时可能为了招人等诉求,(DeepSeek 创始人梁文锋)稍微有一些对外的发声,看完会感受到这家公司身上很不一样的特质、非常回归本质的讨论问题的方法。所以 DeepSeek 能在一年多的时间做到像现在这样火热的程度,也许有一定的意外性,但是对于他能把这件事做好,并不意外。

方汉:最早知道 DeepSeek 是在 2022 年底、2023 年初去买卡的时候,意外得知幻方有万卡。后来注意到 DeepSeek-Coder 模型在代码类 Benchmark 上一度冲到全球第一。

再就是「推理价格屠夫」DeepSeek-V2 的推出,直接把模型推理价格打到了当时业内平均价格的 1/10。这里面有两项技术印象特别深刻,一个是 MLA(多头注意力的优化),第二个是 MTP(Multi-Token Prediction,多 token 预测)。

最近是 V3 和 R1 的推出。V3 是一个挺强的基模,但是它跟 Meta 的 Llama 405B、Qwen 等系列开源模型一样,前面还有两个天花板,OpenAI 的模型和 Anthropic 的 Claude。但是 DeepSeek-R1 这一次直接能够排到第二名的位置,开源模型有史以来最好的成绩,这是让我们最震惊的。

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。|来源:DeepSeek

张鹏:DeepSeek-R1 里的模型技术,有哪些创新让你们印象比较深刻?

方汉:技术角度,这次 R1 做了很多技术上的改进,像 DualPipe 算法,像用 PTX 去写通讯之类的,最印象深刻的肯定也是训 R1-Zero 用的 GRPO 这个技术,这是整个 R1 里最核心的东西。

因为 OpenAI 在做 o1 的时候,请了上百个数学博士天天解题,数据非常高质量,但他从来不对外界说怎么做数据。大家也知道很多公司会用 PPO,真正能把 PPO 用得特别好的还是 OpenAI 和 Anthropic。国内大家在 PPO 用不好的前提下,DeepSeek 用 GRPO 的方法非常巧妙,省掉了 Critic Model,后者做起来特别大、特别慢。

通过 GRPO 的方法,可以快速迭代出一批特别高质量的 CoT 数据,这一点特别令人震惊,等于说 OpenAI 自己辛辛苦苦找人花钱做出来的数据,被咣地一下给开源了,而且从结果上来看,它的质量特别好,不逊于 OpenAI 的内部数据。这一点是非常非常革命性的,我们一直认为合成数据比不上人的数据,但是R1 这一次有可能表明,合成数据不比人标的数据差。这给很多人带来了希望,像欧洲、印度、韩国都觉得自己也可以做了。

闵可锐:讨论最多的还是 R1-Zero 的技术创新。

过去大家认为,不管是做 SFT(有监督微调),还是做强化学习,都依赖大量人工标注的数据,人工在里面参与度非常重。比如之前传出 Meta 在数据标注上,是以亿美金级别的投入去换得质量相对较高的数据。但是 R1-Zero 表明其实可以大规模降低对于人工标注(数据)的依赖。

同时,R1-Zero 的突破带来了代码能力、数学能力、推理能力的提升。

但我觉得能火到全民皆知的程度,其实不是由于它的推理能力、代码能力,还是因为 DeepSeek 写东西(的水平)超出了 90% 的人,写作能力非常突出,这件事震撼到了大家。

02 DeepSeek 文笔好,是因为没有好好做产品?

张鹏:很多网友都说被 R1 的文笔惊艳到了,至少公众热情是这么被点燃的,不管是在中国还是海外。就连AI创业者也会感慨,以前用 o1 给人的感觉是多了一个理性的员工,今天用 R1 却感觉成为了他的人生导师,竟然能带来很多启发。所谓的模型文笔好,技术上是怎么实现的?

吴翼:简单说,文笔特别好(的原因)就是 DeepSeek 没有好好做产品(哈哈)。

如果用 ChatGPT 写,经常会讲文章 GPT 味特别重。为什么呢?因为 ChatGPT 在安全、对齐(alignment)上做得非常猛。这样就会导致,比如当人跟 AI 一起玩「狼人杀」时,你特别容易看出来哪个是 GPT。因为人类玩家会直接说,「这个人一定是个坏人」,但 GPT 会说,「我觉得这个人好像怎么样,我们应该怎么理性分析……」讲很多啰里八嗦的废话。这就是它「对齐」做得特别好的体现,它希望这个东西不要冒犯到人,希望产品化做得好。

但DeepSeek 显然没有好好做这件事情,所以大模型本来的这些天花乱坠的想法就被你看到了,而 OpenAI 为了做安全性,为了做所谓的「价值观对齐」,反而是把模型的很多能力收起来。

第二,如果仔细地去看 R1 的技术报告,它其实分了两步,先用强化学习做出了一版推理模型,但没有直接给你用这个推理模型,而是后面有一个合并模型的过程,最后是完整版的 R1 模型有一些泛化能力。

展开讲,因为在代码、数学这种特定任务上做强化学习训练出来的推理模型 R1-Zero,文字上肯定会差一些,所以 R1-Zero 又跟原来的基模 V3 用 SFT 这种类似于蒸馏或者合并模型的过程,最后合并出了带有泛化能力的模型 R1。这也说明 V3 这个模型确实非常好,如果 V3 比较差的,最后合并出来你也看不到那么多奇思妙想。换句话说,强化学习很重要,基模也很重要。

张鹏:这个视角蛮有意思,反而是过度对齐,会让它的脑洞、想象力或者一些 hallucination(幻觉)被压制了。

吴翼:对,创意其实是 hallucination。

作者卫夕向 DeepSeek 提问「玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?」,网友为 DeepSeek 输出的答案而感到惊叹。|截图来源:微博

张鹏:可锐,你怎么看它的文字表达很好?背后有什么原因和讲究?

闵可锐:我猜测可能有三个原因,一是刚才提到的 DeepSeek 没有试图把很多偏个性化的一些表达给阉割掉。你会发现很多 GPT 的回复是「端水型的」「安全型的」,但其实比较 boring 的回复。所以 DeepSeek 一定没有在安全性方面做激进的动作,模型输出的表达上相对比较自由。

第二个猜测,很多人觉得 R1 的强化学习本身增加了它的写作能力,但我对这件事是存疑。我听到的一个信息是,之所以有比较好的表达,背后是有比较资深的、类似于北大中文系的人在帮忙在写数据。人的自由表达和高质量的数据作为对模型回复的一个引导,来达到好的效果。我会觉得应该是 SFT 这个部分的数据做得非常好。

第三,R1 以及 V3 的模型如果和行业同类模型相比,它其实把规模差不多涨了 10 倍,差不多从一个几十 G 的规模涨到了几百 G。这个规模下它能够储存的信息容量差不多比上一代 Qwen 涨了十倍,这让它在很多比较细致的表达上能够有更好的还原。也就是说它的压缩率其实不用做得那么高,能够记住更多东西,包括像诗词、或者开放式的问题上。

总结来说,更大的脑容量、高人撰写的文学性数据作引导和对齐,并且降低了严格的安全对齐(标准),可能是这三点加起来得到了 DeepSeek 的优美深刻的表达。

张鹏:一些在硅谷的华人 AI 研究员也说,可能过去海外的大模型对于高质量中文数据没有特别较真过,但 DeepSeek 较真了。方汉你怎么看「大家说 DeepSeek 文笔好」?

方汉:虽然我学的是理科,但我高考作文是满分,所以对古文比较熟,我特别喜欢让大模型写古诗词。在这件事上,现在写的最好的模型实际上是 Claude,也就是说Claude 的文采比 ChatGPT 要好很多。我觉得还是数据的原因,大家公认 Anthropic 对数据的品位最高,数据做得最好,他们的数据团队规模在语文和写作方面非常强,我猜 DeepSeek 也是类似。

DeepSeek 内部可能有一套方法,可以从现有的数据里面生成质量非常高的语文数据,这是我的猜想。因为请大量顶尖团队比如北大中文系标数据,DeepSeek 未必竞争得过大厂,(靠人工标注数量和质量取胜)逻辑上讲不通。DeepSeek 在不要人干预的情况下,可以用 GRPO 可以生成数学和编程的 CoT 数据,那这些方法能不能用在语文上去生成高质量的语文数据,这是我更相信的一个推断。

另外,我们在做推理模型的时候有个叫 temperature(温度)的参数,如果把这个参数值设得高,模型就开始胡说八道、特别有创意,但也很容易崩。可能因为 R1 的推理能力很强,哪怕把 temperature 加得比一般模型高,也是比较活跃且不容易崩。

03「被 DeepSeek 的思考过程震撼到了」

张鹏:除了文笔好,很多用户也被 DeepSeek 思考过程的透明和清晰的逻辑打动,R1 是第一家展示思考过程的模型吗?

吴翼:完整思维链的透明展示,确实是 DeepSeek 第一个做出来的,但 R1 不是第一次,第一次真正公开所有思维链的模型是去年 11 月 20 日发布的 DeepSeek-R1-Lite。

后来 Gemini 跟进了,也公开了思维链,Gemini 的 Flash thinking 的思维链质量也不错。

其实去年 9 月 OpenAI 发布的 o1 也给了这样的中间步骤,只是它不给你看思维链的完整版,就给你一个总结版。从技术视角上,藏没藏思维链差挺多的。不过总结版的思维链虽然不完整,但也挺有价值的,很多人发现即使是「扒」总结版思维链数据,也能对模型有很多提升。

图片来源:视觉中国

张鹏:你觉得 OpenAI 为什么不给大家公开思维链?

吴翼:高质量思维链对于模型的能力提升、以及激发模型让它在第二阶段强化学习训练时能有很好的推理表现、继续用强化学习做 Scaling Law 是很重要的。所以 OpenAI 应该在这件事情上花了一些力气,他知道如果真的把思维链给你去 distill(蒸馏),你很快就能做出来,他就是不让你「抄」。

最近李飞飞老师团队做的、被炒得很热的 S1,50 美金能够让你看到 test-time-in-scaling 的效果,也说明了这个道理。它只输了 1000 条 Gemini 的长思维链数据,就能让模型有比较大的推理表现上的质变,当然它效果还比较一般,50 美金不可能真的把 R1 复现。所以高质量的长思维链数据是重要的,这也是 OpenAI 不愿意给你看的原因。

方汉:我觉得 OpenAI 就是想保守机密,OpenAI 一直认为思维链数据是它最值钱的数据,所以很早就出了一个 term sheet(条款),你要是敢 jail break(越狱)问他 CoT 的问题,他会封你的账号。R1 发布之后,OpenAI 也把 o3-mini 的思维链输出了,但这里是总结版的思维链,结果又被网友骂了,然后现在又正在把总结再去掉。

当然大家没有想到的是 DeepSeek 说,要不我试一下,我也不要中间这个步骤,直接给你强化学习行不行?很长时间大家都觉得中间需要搞一步 SFT,结果 DeepSeek 出来跟你说,我们试了一下,好像不需要也行。

张鹏:因为没有人做出来过,或者没有人按这个方式做出来过。

吴翼:就是对面有一家告诉你这个东西特重要,「此地无银三百两」,我家一定没有黄金,你千万别来。那大家都会往这上面花很多精力想,最后 DeepSeek 试出来说,你看你没这玩意也行,哈哈哈,或者说有比较便宜的方法能绕过去。

张鹏:秘塔科技也在第一时间与 DeepSeek-R1 合作做了相关的功能,思考过程的可视化。可锐,从用户的角度,你怎么看这件事带来的影响?展示透明的思维链本身,是不是一种用户价值交付?

闵可锐:我会觉得思维链,不管是总结版也好,还是像 R1 给到一个相对完整的思维链,最早的出发点可能是通过步骤和步骤之间的推导,提高结果的准确率。

但把它展示出来,我会认为最早是因为中间的等待时长实在太长了。如果让用户在这无休止地比如像看沙漏一样(等时间),用户体验是非常糟糕的。所以既然有一个中间的推导过程,索性把推导过程显示给用户,但是这似乎带来了一个非常意外的好处。

很多人反而专门去看思维链,「诶,这个模型怎么思考的?它怎么从不同角度去考虑我提的问题」,这对我来说是稍微有点意外的。我观察到很多人其实还挺喜欢看 R1 的思维链,因为模型把思维链写得像是一个内心独白一样。

就像有人问它说,「诶,我有一个朋友怎么怎么样」,然后这个思维链里说,「这个大概率是用户自己想问这个问题」,就是有一种竟然被 AI 看穿的体验。我觉得这可能也是出乎创造者意料的效果。

DeepSeek 推测,用户说是别人的提问,很可能是用户自己的提问。|截图来源:DeepSeek App

张鹏:方汉,你怎么评价这次 R1 展示的透明的思维链?

方汉:从纯技术的角度,看思维链可以改进你的 prompt。但对于绝大部分用户,不会这么用思维链。

对于用户来说最可怕的体验是,看到 R1 思维链这么严密的推理过程,有点像我们小时候看卡耐基成功学、有点像听一些特别牛的人把他思维方式给你讲一遍,你是会很震撼的。

现在,你目睹了 AI 用一个聪明人、成功学的方法给你推导一个问题,所有人心里都会心生感叹,「这个 AI 真聪明,接近人类智能呢」。我觉得这对产品的推广来说,是一个决定性的心理暗示。

张鹏:像这样一个让大家觉得很震撼的思维链,是怎么做出来的?

吴翼:首先思维链是涌现出来的,不是人标注出来的,人标不出这样的思维链。如果你仔细去看 DeepSeek 产生的思维链,很多也是错的,或者说没有任何道理,再比如之前 OpenAI 的思维链里还出现过中文。这些都说明,是由强化学习的 Scaling Law 让思维链涌现出来的。

所以判断一个模型是不是推理模型,只要看它敢不敢放出一个训练曲线——模型输出长度随着强化学习的训练时间在不断变长。如果能看到这个不断变长的曲线,基本上可以认为这个训练是成功的;如果看到它的长度变短了,那应该就失败了,即使它的正确率或者表现在提升,也是失败的。也就是说,这个长度是涌现的,最后推理模型呈现出来的极强的反思,是泛化的结果,是涌现的结果,而不是人标的。

DeepSeek-R1-Zero 的性能轨迹,整个强化学习过程中稳定且持续提升。|截图来源:DeekSeek-R1 技术报告

第二,需不需要一个东西去激发这个模型的思维链?基本上是需要的。OpenAI 在训练模型的时候应该还是用了一部分这样的数据去激发基座模型的思维链能力,然后再上强化学习的。

但是我觉得比较神奇的一件事情是,如果你仔细去看 DeepSeek 的技术报告,你会发现即使用比如 Qwen-32B、Qwen-70B,基座模型在没有任何强化学习训练的情况下,通过 prompt 的调整也可以看到它的一些反思过程。也就是说,基模从某种程度上已经有一些自激发能力。

所以这也是 DeepSeek 可以从基模直接进行强化学习的一个重要原因,基模在强化学习开始的时候就存在一定的反思、思维链能力,然后再通过强化学习 Scaling Law 的方式,把反思能力放大,涌现出来最后的 R1 模型。当然也说明 DeepSeek-V3 这个基座模型做得很好,导致它一开始就有了自我激发的能力。

如果这个基座模型,比如说在数学上有一些基座模型有一些反思能力,但在语文上,比如说真的完全没有「诶,等等,我说错了我再想想」这样的表现。再怎么强化学习?也不会涌现出反思能力,如果基座模型很差,没有准备好被激发的话,那也没用。

张鹏:如果没有「等等,我可能想得不对」类似的推理反思能力,再怎么上强化学习,也不会出现思维链的线性发展。

吴翼:对,强化学习跟预训练是乘法的关系:预训练的 scaling 是第一个系数,强化学习后训练是第二个系数,这两个是乘起来的关系。

如果一个维度是 0,怎么乘也没用。但这里哪怕是个 0.01 也没问题,后面帮你乘上去,所以这也说明 V3 的基模真的非常好,所以它能让你做出一些事情来。技术报告里也做了实验,比如说是 7B 的小模型,怎么强化学习也没用,还不如蒸馏。所以强化学习和基模有这样的一个关系。

张鹏:怎么理解强化学习在 R1 和 R1-Zero 体现出的效果?

方汉:打个不太恰当的比方来类比理解,让一个小孩学乒乓球,先让他看所有高手打乒乓球的视频,但他看完了之后仍然不会打。

这时候有两个方法,一是请国家队队员比如马龙来教他,但绝大多数家庭请不起国家队。怎么办呢?这时候请不起国家队的家庭就想了个办法,让人对着一个洞去打球,打不中就「电」你一下。奖惩机制下,终于这个小孩成了一个绝世高手,但是他这时候还不太懂乒乓球的规则,发球也不标准等等。这时候终于又请了一个教练,告诉小孩得按照什么样的规则打球,让他把规则学会,学会了就出去「大杀四方」,这个逻辑大概是这样。

这里其实有一个问题,刚才大家也聊到了,现在不知道 V3 这个基座模型看没看过高质量的 CoT 数据?但是它后来的激发做得非常成功。我觉得这给了所有「穷人」一个念想,我靠自己「电」自己,也能把自己「电」成高手。这样的话,很多欧洲、印度的公司也可以开始训练这种高质量模型了。

张鹏:技术圈对于 R1-Zero 的讨论是大于 R1 本身的。

闵可锐:R1-Zero 的这件事,更像是一个范式的变化。Zero 这个名字就会让大家容易联想到 2017 年谷歌 DeepMind 诞生的 AlphaZero 这个名字,如出一辙。

DeepMind 先让机器学习人类怎么下围棋,上升到完全不告诉机器人类下围棋的方法、只告诉它规则——下到什么局面你就取得了胜利、下到什么局面你失败,就能够把模型训练到超过人的水准。这件事打开了大家的想象力,让它自我博弈、自我学习,有可能出现超过人类最强棋手的能力。

一定程度上,R1-Zero 带来了这样一个类比和联想。当然两者不完全一样,AlphaZero 在下围棋上做强化学习的时候没有任何人类经验的参与。但 R1 可能还是受到了基模 V3 的激发,后者是一个学习了全互联网人类知识的基座模型,R1 涌现出来一些反思、自我纠错的能力,本质上还是因为全互联网数据里存在人类反思,类似「诶,这个地方等等,我好像做得不对,让我来改进一下」的一些基础数据,哪怕比较稀疏,但是仍然被 V3 给捕捉到了。在这个基础之上,用强化学习的能力把它进一步放大,达到一个更好的一个效果。

04「蒸馏」是业内常用的方法

张鹏:R1 出来之后,有很多讨论说未来是不是可以通过蒸馏,让端侧的模型能力也得到比较大的加强?有了更好的模型,再加上蒸馏这件事,对创业者做产品或者模型有什么好处?

吴翼:分三件事来讲,一个是蒸馏,第二件事情是端侧模型,第三是垂类应用。

蒸馏的过程是指,你问一个问题,让老师说答案,你把答案记下来,你问 100 万次,就差不多学会了。就像熟读唐诗三百首,不会做诗也会吟。

蒸馏确实是有用的,DeepSeek 在技术报告里也表明,如果你有一个小的模型比如 7B 以下的模型,不用去做强化学习或者其他,有一个好的、大的老师模型用,直接蒸馏思维链数据是最好的,比直接跑强化学习效果好,也最高效的。所以有一个模型完全公开、可以蒸馏,对很多做产品或者做个性化模型训练的公司来说,非常非常利好。

而且不光对小模型有用,对于大的公司来说,蒸馏也非常重要。比如 DeepSeek-R1 是 671B,很多厂商可能用不起来,或者很难高效地用起来。那么一个公司做模型的团队如果能把 671B 的模型,做到比如说 100B 的模型上、带来同样的效果,这会给成本以及应用带来更大的可能性,这里是需要蒸馏的,自己也可以蒸馏自己,不丢人。而且很多人认为 OpenAI 也做了蒸馏,所以 OpenAI 上线的模型都很小,成本可以控得很低,很大的吞吐量做得很高效。

第二件事,端侧模型。我们是不是需要一个完整的端侧模型?我其实觉得不一定。

我在端侧有一个比如 1B 的模型,云端还有一个 500B 的模型,这两个东西可以配合。我自己是做多智能体强化学习的,我觉得一个最有趣的多智能体系统的问题是:当你真的有两个能力不一样的模型,比如说 500B 的模型和 1B 的模型,它们之间应该怎么样发挥出一个 1B 的效率、同时 500B 的推理能力?

现在大家研究多智能体系统往往都是在端侧用不同的模型、不同的 prompt 通过显示出的不同偏好和行为模式来组合,这件事情其实没什么太大的意义,因为就像 OpenAI 的 Operator 模型或者 DeepSeek-R1 出来,你会发现一个足够强的推理模型,可以做到一个模型干所有的事情。

当真的有云端和端侧的模型可以配合的时候,多智能体系统就会很不一样。

第三件事情是垂类应用,我觉得这个时代对于做垂类的应用或者叫产品,要求要比互联网时代高很多。

因为技术迭代太快了,不光要洞察需求,你很怕那个需求,因为来了更好的模型之后,整个需求的模式变了。因为从 ChatGPT 和 DeepSeek 上你可以观察到,很多新的被满足的需求,并不是他们想到的,而是模型的智力提升之后,人的行为模式也发生了变化,模型的涌现带来了人类行为的变化、带来人的需求的变化。所以做产品也不能抓某个需求不放,而要在那个需求的周边一直打圈。

所以可能得去想,做垂类应用真正的壁垒是什么?比如数据、渠道肯定是一个壁垒,商业模式可能也是一个壁垒,但我觉得需求本身不构成壁垒。

同时做垂类应用,你还得对模型的技术有预判的能力,三个月后它会变成什么样?半年后怎么样?下一代模型可能会怎么样?因为如果在技术快速迭代的时候,花了太多的精力和太多的钱,但可能半年之后很多事情又都不一样了,所以得非常非常小心地去花钱。

Perplexity CEO Aravind Srinivas 第一时间官宣 Perplexity 接入了 R1 进行产品升级和进一步探索。|截图来源:X.com

张鹏:人对 AI 的需求会随着 AI 能力的成长,人也会改变行为。可锐,你觉得这个 AI 搜索算不算垂类?垂类产品要怎么演进、怎么构建自己的路线图?

闵可锐:我觉得在一个技术演进比较快、变化比较剧烈的时期,对于技术有相对比较深入的理解,一定是对你做产品、对未来的预判,有巨大的帮助。

虽然外界大多数人对秘塔的印象,好像是一个比较纯粹的产品公司,但是我们其实其实已经做过几百轮预训练了,在我们有限的几十张卡上,也观测到很多比较有意思的现象。

所以我们对于很多,比如哪一代模型可能能够做什么?哪一些现象背后代表什么?不是把模型当黑箱来对待的,在对模型技术有一定理解后,解决问题的产品视角也会不一样,比如很多人会觉得现在 R1 的推理成本已经非常低了。但我们注意到,其实在 DeepSeek 还没有开源的部分里,有一个是 serving 的模型。

serving 的这部分虽然最近有很多比如云厂商、算力中心的跟进,比如以和 DeepSeek 相同的价格,甚至更低的价格对外提供服务。但是我可以负责任地说,现在每一个小于等于 DeepSeek 价格提供服务的云厂商都是在亏钱。也许 DeepSeek 是没亏钱,但他们现在一定在亏钱,因为现在 serving 框架其实还没有在 MoE 架构上做好准备,因为原来大家做了很长时间是在稠密模型上做了很多积累。所以现在在谈的「成本已经降下来了」,其实是更像是一个理论值。产品经理自己去做部署,自己去做 serving,很有可能很快会发现这个成本和他的预期有巨大差异。

对,所以这里面其实有很多 knowledge,还是要在比较一线有足够的细致的了解,你能做出判断。它远远没有到说这个已经是一个标准化的一个工具,按绿色按钮就出来什么,按蓝色按钮能出来什么?所以我觉得现在做产品确实得同时理解用户和理解技术,才有比较好的竞争力。

张鹏:产品经理也还是得把 AI 这件事多摸清楚点,以产品的能力去学习一下模型的技术,有能让模型变白盒的理解和探索能力。

05 更好的模型,并不意味着 AI 应用更好做了

张鹏:DeepSeek 的这一波冲击波之后,从秘塔的视角,有哪些AI应用上值得探索的新方向?

闵可锐:坦白来讲,我觉得现在还没有到形成非常明确的方向、逻辑的时间节点。

但相比原来可能巨头玩家把更好的基模掌握在自己手上,DeepSeek 开源更好的基座模型,一定程度上弱化了基座模型给偏应用层带来的影响,在模型层面把大家拉到了同一个起跑线的水位,但这并不意味着竞争会变得更小,反而可能会变得更激烈的状态。

在一个更好的推理模型基础上,确实有机会做出更惊艳的一些产品。谁能够贴近用户,把用户原来有但是未被满足的需求做得更好,率先把这样的产品方向、产品能力实现、释放出来让更多的人用,也会有机会更高效率地拿到更多的用户。

1 月 20 号 R1 发布以来,我们在内部已经测试过几轮(集成 DeepSeek 模型的功能)了,有一些我们原来想要去实现、但是不太成功、不值得对外释放的一些功能,看起来已经可以 ready 到给大家提供可使用、且好用的产品功能。我们很快会有一些新的功能上线,不会让大家等太久的。

秘塔 AI 搜索,率先接入 DeepSeek-R1 模型升级产品能力。|截图来源:秘塔搜索

张鹏:为什么说有了更好的模型,并不意味着产品更好做了?

闵可锐:GPT-4 出来了以后,能做成应用的概率会显著更高吗?R1 出来以后比 GPT-4 更高吗?都不是。因为模型能力的提升,其实是拉高了所有人的基线。原来所有人只能做到 60 分的时候,你能做到 70 分,你的产品可能更受欢迎。但当所有人都被拉高到了 70 分的 baseline,你必须得做到 80 分。

所以这一代创业者做 AI 应用落地开发,要有一个心理预期,可能原来你做到的东西,现在能够直接被比如说 R1 的推理能力所覆盖掉,那你就要在这之上寻找新的可能性,才能成为被大家接受的产品。

从做应用的角度来讲,更好的模型是不是代表了应用更好做一些?我们过去有在做产品研发、落地、模型上,可能有小十年的经验,我一直的感受是,大家在这件事情上的判断过于乐观。

张鹏:方汉,你怎么看它对于 AI 产业站在全球视角比较确定接下来可能带来的影响、冲击和变化是什么?

方汉:大家都说大模型的下一场是 agent,但如果是多 agent 协作的情况,只要有一个 agent 拉胯,最后质量就很差。现在R1 保证了 agent 智能的下限比较高,很多以前完不成的、比较长、比较复杂的任务,有可能很快就会被解决。比如 AI 编程,原来只能写单个函数,甚至只能写一个文件,现在有了 R1 这样特别强的模型,是不是可以直接把整个工程生成出来,而且交叉地修改、debug?这样就真正成为一些可用的生产力。

对于具体的产品,我觉得所有跟 agent 相关的新的产品模式会快速涌现,而且由于模型是开源的、成本还特别低,很多产品也开始看到了盈利的曙光,因为推理成本下降了,而且能力还上升了。

另外,R1 在数学跟编程任务上表现最好,因为数学和编程是人类用符号来固化思维的两个最显著的领域。相应地,还有科学,比如说像 AlphaFold 做的是蛋白质折叠预测。我认为跟符号化形式相关的、数据比较强的领域,都会带来特别大的效率改善。

张鹏:昆仑万维的产品线会更丰富,这里有没有一些比较具象的思考?经过年初这一波冲击之后,在AI应用上有什么新的启发?

方汉:DeepSeek 不是第一个开源的,但它是开源的模型里面质量最好、最接近 OpenAI 的水平的,这是它出圈的根本原因,这给 AI 应用带来一系列影响。

首先他把一个很高质量的模型的推理成本打低之后,给商业模式带来了更多的可能性,免费类的 AI 应用会逐渐出现。

第二,降低 AI 应用的门槛是关键。全球能够写好 prompt 人数不会超过 1000 万,所以怎么降低 AI 应用的门槛非常关键。举个例子,最近谷歌 NotebookLM 会爆火,就是因为它极大地降低了应用门槛,不用写 prompt,把 PDF 拖进去,按一个按钮就给你生成播客了。

第三,云计算时代,有一个词叫云原生,是指一些在云计算出现之后才涌现出的云原生公司,这些公司完全是轻资产,所有服务都跑在云上。我觉得 AI 时代的应用也会有类似变化,现在 AI 原生的产品经理其实还不多,大部分人都还在用互联网和移动互联网的思路来做 AI 应用。这是一个痛点,大家都还在摸索。但接下来,产品经理当老大的 AI 公司会越来越多,AI 原生的产品设计也会越来越多。

最后,很多公司现在做了效率类的 AI 应用,但是从互联网跟移动互联网的经验来看,效率产品的增速一定比不过娱乐产品,人类都是喜欢娱乐至死,而娱乐产品其实并不一定需要特别强的 AGI,但是需要特别强的 AIGC,所以我认为娱乐产品的发展速度接下来会远远超过 ToB 的效率产品。

张鹏:效率型的工具可能是人类的一部分需求,人类无尽的需求是娱乐,你觉得在娱乐这件事上 2025 年有什么样的东西值得看?在娱乐方面会出现足够让人兴奋的 killer APP 吗?

方汉:人类最喜欢、成本最低、门槛最低的娱乐方式是视频,我们认为视频生成领域一定会涌现出最大的 killer APP,只是不知道是传统的渠道为王、还是新的视频制作平台为王。

大家都知道短视频席卷全球,短剧现在是第二波,也要开始席卷全球,现在就算短视频的成本很低,但是拍一部短剧也要 100 万人民币,所以现在中国每年只能产三四千部短剧。如果我们能够把单部短剧的成本达到 2000 块钱,那么全世界每年可能会有几百万部短剧的产出,这会对整个业界带来非常大的冲击。

打个比方,我没有学过音乐、也五音不全,现在用我们的音乐生成大模型,我可以做很多首歌。同时在成本上,举个例子,我们原来做游戏业务的时候,订购一首音乐平均 5 万块钱左右,现在音乐模型推理成本可能只有几分钱,这就是成本以及门槛的降低。

当一个东西的生产门槛以及成本显著降低,AI 内容就会像抖音的短视频作者那样,因为手机摄像头和 4G 的出现,生产出大量短视频内容。但我觉得 2025 年还可能还没有到时间点。现在的视频生成模型虽然已经非常强了,但是还没有到能够取代完整的影视产业链的地步。

去年底,昆仑万维在美国上线 AI 短剧平台 SkyReels,在全球 AI 娱乐市场做出进一步探索。|来源:昆仑万维

张鹏:今年的视频生成领域还会像 2024 年一样快速迭代吗?

方汉:对。2023 年春晚已经有 AIGC 的视频出现了,但那时候还比较原始,现在比如字节最新发的 OmniHuman 视频质量就非常好了,大家都在飞速演进。

而且大家也不要迷信 OpenAI,Sora 已经被第三方的、闭源的、开源的模型迅速追上,也就是说 OpenAI 在图像生成和视频生成领域起了个大早,赶了个晚集,现在无论开源还是闭源,都有跟 Sora 比起来有很强的竞争力的视频生成模型。而且开源生成模型有更好的生态,对长尾需求的满足也会更好,最终基于此的商业模式也会最多。

张鹏:你怎么看 chatbot(聊天机器人)这种类型的产品?娱乐陪伴型的 chatbot 是一种,ChatGPT 也是一种 chatbot,这种类型的产品未来还会是一个标准形态吗?还是一个过渡形态,接下来要探索新的东西?

方汉:我认为它只是一个原始形态。就像最早 QQ 刚出来的时候,大家都是用键盘打字输入到 QQ 对话框,但是到微信出来的时候,我妈妈从来不给我打字,都是直接发语音,甚至一言不合就开视频。所以我认为现在的 chatbot 只是一个很早期的形态,像 GPT-4o 把多模态像语音、视频引入 chatbot,是自然的过程、逐渐演进的。

就像早期的互联网有一个产品叫 MUD(Multi-User Dialogue,多用户对话),从文字 MUD(文字冒险游戏)又衍生出来了两个重量级的娱乐游戏产品,一个是叫大话西游,一个是叫魔兽世界。我认为现在的 chatbot 演化的终极形态有可能是一个类似于元宇宙的、虚拟多媒体的交互形态。

张鹏:可锐,你怎么看模型进展对 chatbot 这种形态的产品的影响?

闵可锐:不同生态位的公司,受到的影响可能不一样。

一年以前,整个大模型业内比较推崇的方式是模型和应用一起、产模一体结合起来把产品效果做好的思路,这样才能建立足够的壁垒。但 R1 其实对这种思路提出了很大的挑战。换句话说,后入局的玩家拿着可能同样好甚至更好的模型,是不是也能直接把起跑线追平,开始在上面做应用?

纯粹从应用层角度来讲,当下这个阶段是相对利好的状态,因为拿到了一个足够好的武器开始做同场竞技。

但不论现在大家是看空还是看多,可能两个月以后又会产生巨大的反转,所以我觉得子弹可能姑且得再飞一会儿才有结论。

张鹏:变化太快,现在对于轨迹的预测不能超过两个月。现在看,原来那种产模一体的模式未必是必须的,也存在另外的可能性。吴翼从蚂蚁集团技术研究院强化学习实验室的角度,你们接下来的主要目标和探索的东西是什么?

吴翼:蚂蚁集团其实一直在做自己的基座模型,也在做推理模型,只是后者启动稍微慢一些。我们也是去年 11、 12 月份开始,和一部分同学在蚂蚁研究院成立了强化学习实验室,开始想做自己的推理模型,中间也踩了很多坑。

基本上是研究院新设了这么一个强化学习实验室,也希望能够在里面做相对比较自由、比较开放的强化学习研究工作,做出开源开放的推理模型,所以 DeepSeek 也是给大家开了一个好头,鼓舞想去做开源开放的技术和模型团队。

06 开源能带来巨大收益,不是做公益

张鹏:自这次 DeepSeek-R1 开源震撼全球以后,全球很多公司在开源上做了重新思考和选择。甚至 Sam Altman 在答网友问时表示了 OpenAI 站在了历史错误的一边,会重新思考 open 这件事。你觉得 OpenAI 会重新回到开源模型吗?

吴翼:我觉得他不会。

张鹏:DeepSeek 的开源路线带来了哪些连锁反应?为什么会有这些影响?

吴翼:DeepSeek 开源产生的影响,对我感触特别大。我觉得最后最好的那个模型应该还是闭源,因为即使一个公司做出了最好的模型并开源,但在把它作为一个产品端去部署时,还可以做更适配、更极致的优化,成本可以更低,因为他知道这个模型是怎么做的,所以一定会有一个内部适配、更好的版本。

但是即使这个开源模型会比闭源版本稍微差一点,但 DeepSeek 也已经带来了巨大的冲击。

传统大家选择开源的逻辑是:如果我是行业第一,我不开源;行业第二我也不开源;行业第三我一定要开源,因为不开源我就死了,同时我要开源让你们前两名不好过(哈哈)。大模型最早的开源 credit(名誉)是 Meta 的 Llama,当时 Meta CEO 扎克伯格和首席 AI 科学家 Yann LeCun 讲,某种程度上,你们是站在我们的肩膀上。但是如果仔细去想 Meta 全家桶本来的巨大流量后,它其实没有做太多后续动作,它的所有目标好像在说「我不能让垄断发生」,我是老三,所以我一定要开源,让你们不好过,但他自己没有因为这件事带来太多受益,或者只是股价上升了。

但 DeepSeek 开源不一样。这件事带来的最大的冲击是,过去从来没有人觉得开源能带来特别好的商业模式,或者带来特别大的商业收益。现在大家在重新考虑这件事。

DeepSeek-R1 开源以来,首先 App 的 DAU 在十几天之内达到了几千万;同时,这件事情带来了巨大的品牌效益,你会觉得,原来做开源不是为爱发电,就是为了「搞死」前两名;开源原来能带来这么重大的收益。所以在 AI 领域,如果你真的开源了一个非常好的模型,最后是有收益的。我感觉历史上从来没有这么大范围的出现过这件事情。这件事情也会对整个社区、生态以及 AI 发展的速度带来好处,因为 AI 再次加速了。

这也是为什么我还看好英伟达的原因,为了速度。英伟达的芯片能让你拿到这个(开源)模型之后,可能一个月就会迭代一版模型;但如果用国内的卡,迭代会慢比如半个月。之前我做过一段时间国产卡的训练,发现如果用英伟达的卡可能只花一个月,但如果给我国产卡,同样的事情可能要花 3 个月的时间,或者说国产的算力我需要时间做适配。所以这是时间的差别,你愿不愿意在一个 AI 高速发展的时代里牺牲你的时间?如果 AI 还在高速发展,那我觉得英伟达就不可替代。但是如果一旦 AI 的速度放缓了,那就有问题。所以我觉得 DeepSeek 开源也带来了更高烈度的竞争,2025 年会是很刺激的一年,因为 AI 发展速度会更快。

张鹏:在 AI 领域,开源跟闭源可能会同时存在,尤其当下阶段,这件事是好事,站在人类视角看,DeepSeek 开源反而是对整个通向 AGI 的发展,AI 在加速。

把它定义为 Sputnik Moment(1957 年,苏联成功发射了人类第一颗人造卫星「斯普特尼克一号」,使得美国意识到自己在航天等关键技术领域的落后,并大力投入航天事业)其实是冷战思维,比较恰当的类比是 Mozilla Moment(1998 年,网景公司将其浏览器网景 Communicator 源码开源,激发了全球开发者的热情,推动了浏览器技术的快速发展),从而加速AI平权,激发了更多创新的力量。

07 DeepSeek 冲击波下,英伟达还好吗?

张鹏:R1,包括 V3 在保证模型效果的情况下,实现成本相对比较低。这是为什么?

吴翼:V3 披露的 560 万美金是指它单次模型训练的成本,不包括前面研发等成本。根据 V3 的成本,我们大概测算 R1 成本依然很低,比 V3 成本再低一些。

但就是如果你觉得,有 560 万美金就可以做 R1 了,那你最好先把这个数字前面乘个系数再来想这个事。

你要做 R1,你先得做 V3,之前还得做 R1-Lite,R1-Lite 之前得先做 V2,这些东西都花钱,不只是最后那一次成功了的成本。如果再考虑整个研发、实验可能会失败、调整等全部成本,你需要乘一个系数。

当然 DeepSeek 整体比较高效率,系数可能会小一点,如果是大公司这个乘的系数可能会大一些。核心是因为 DeepSeek 快。同样的训练量和同样的数据,如果放在一个基建比较普通的团队里,哪怕知道怎么做,可能也要再乘几倍的成本,因为训练得慢。DeepSeek 在过去很长一段时间里面做了非常非常多系统上的优化。不只是比如 MLA、MTP 就能解决的,而是可能有一系列很长时间的工程优化累积起来,每天减少 5%、减少 10% 的时间耗损,这里一个优化、那里一个优化,把一个可能本来要 2000 万美金的训练,压到了最后是 560 万美金的结果。

所以这件事情是一个常年累积、很重视基础设施的结果,有了这个基础,之后做实验、做新的模型也会更快,是一个非常相辅相成的过程。所以还得说 DeepSeek 是非常让人敬佩的团队,在基础设施上也做了很多很多工作。

方汉:由于美国的禁运,我们能够得到的算力资源是有限的。这样会倒逼所有中国团队在软件优化上倾注比美国同行更多的精力。像 DeepSeek 团队做的那样,比如实现了 FP8 混合精度的训练,压缩显存占用来让训练速度更快。在训练加速上,他们做出了卓越的努力,也获得了丰厚的回报,这不是只在 R1 里才有体现,之前训练 V2 也已经展现出这个实力。

张鹏:我再追问一下,DeepSeek-R1 出来之后,紧接着英伟达来了个近年来最大跌幅,有了更高效率训练出来的模型,大家对英伟达的预期怎么样?

DeepSeek-R1 发布后,美国科技股大跌。|图片来源:视觉中国

方汉:我的观点是,对英伟达来说,短期利空、中期利好、长期利空。

尽管 OpenAI 和软银的「星际之门」号称要投资 400 亿美金,买的都是英伟达的训练卡,但是 DeepSeek 现在把训练成本打下去之后,美国人也不能自己花 100 亿美金,来训练中国人只要花 10 亿美金的任务。之前一路高涨的股价,是因为所有投资者都是赌他的训练卡,所以我觉得短期利空英伟达。

中期利好是什么原因呢?如果仔细看 DeepSeek 的技术报告,他们的所有的推理优化都是基于英伟达的 CUDA 平台,比他们更懂英伟达 CUDA 平台的也没有几家。一旦 DeepSeek 把特别好的模型的推理成本打下来之后,模型就更容易商品化,之后整个市场规模会变大。所以英伟达的推理卡在中期一定会卖得非常好。

长期利空是当大模型开始固化下来,英伟达推理卡的壁垒就保不住了,第三方厂商的机会就开始来了。像美国有家叫 Groq 的公司,中国最近也有数十家芯片公司宣布支持 DeepSeek 模型部署。

张鹏:这件事是不是证明了,没那么多钱和卡也能创新?

闵可锐:大家好像总把 DeepSeek 和它几百万美金的训练成本去做关联,好像在定义,他们是钱和卡都很少的一个团队。但其实,尤其在中国的范围来讲,DeepSeek 难道不就是已经是最有钱、最有卡的第一梯队的 player?比起我们可能这段时间为了承接 R1 的用户量,到处去借了几百张卡来提供服务来讲,DeepSeek 其实已经比我们多了可能两个数量级以上的资源。

我觉得资源在基座模型及其产品上,仍然是非常重要的。哪怕事实上你的模型训练效率是 OpenAI 的 10 倍,但是你也没有它 1/ 10 的资源,体现不出来你 10 倍效率的提升。因为绝大多数用户都是根据产品体验用脚投票,不管你是用多少资源做出来的这个结果,我觉得好用就用,不好用就不用。

其次我觉得,基座模型层面的竞争是三个维度的综合竞争结果,除了计算资源,还有你的人才密度,以及第三个维度,可能也是比较容易被忽视的——1 号位在这件事上的能力和决心。DeepSeek 在与国内第一梯队玩家接近的资源下,有中国最好的人才密度和 1 号位对这件事的纯粹的决心。

08 关于 DeepSeek,What’s Next?

张鹏:如果你是梁文峰,你觉得 DeepSeek 接下来下一步的重心会是什么?

方汉:我觉得 DeepSeek 是一个非常轻商业化的公司,完全是靠技术力破圈,而不是靠推广破圈。很多人愿意跟着梁文峰总干的一个原因是因为他纯粹,到现在他还在手敲代码。我觉得一个公司的 CEO 还在手敲代码的时候,这个公司一定是一个非常技术向的公司。

他们的服务器扛不住这件事情,他肯定会花心思去解决,但是至于流量能不能接得住?我个人觉得不是他关心的重点。而且只要 DeepSeek 的技术继续迭代,还会有泼天的流量,这也不是个问题。

当务之急肯定还是怎么样招更好的、志同道合的人进到他的团队,继续快速迭代,因为从 V2 出的 MLA、MTP,再到 R1 的 GRPO 出的 Dualpipe,你可以看到里面别出心裁的技术革新层出不穷,说明他们是一支非常有战斗力的团队,人才密度很高。只要他继续保持人才密度,不盲目扩张,还会继续在 AGI 的道路上带来更多惊喜。

闵可锐:对,我觉得确实是看 DeepSeek 做这件事的初心。

做 AGI 首先可能得不差钱,其次是一个偏执狂,如果想靠 AGI 来挣钱,多半会既挣不了钱也做不好 AGI,因为这个路径其实并没有那么清晰,尤其是怎么靠 AGI 来挣钱这件事儿。

所以如果 DeepSeek 如果能守住初心,可能能够持续给大家带来惊喜。因为本质上,是两拨顶尖人才比如 OpenAI 团队和 DeepSeek 团队的 PK。这个时候,犯错的容忍程度可能很低,但凡分心去考虑比如我是不是要做一个最好的 APP?一定会占用你的决策时间和精力。

图片来源:视觉中国

张鹏:你觉得他接下来这个产品节奏怎么样?到底会用多快的速度发哪个版本的什么?

吴翼:如果站在这个时间点,当你有了一个 o1 的技术之后,其实是有一个特别大的分叉点,是先去做 o3 还是去做 agent?

这两件事情都挺重资源,但是从智能的角度看,是有 90 度夹角的。到底是沿着纯文字的推理走到极致,从 o1 追求到 o3?还是去做一个 agent,那它需要有视觉理解能力的闭环,做出一些 action 后,还要有新的视频输入,要去做一些 function call 写代码调接口的能力。

就像 OpenAI 最近发了一个 Operator 模型,是一个 agent 模型。agent 其实是强化学习 scaling world 的一个很重要的分支,有了这套强化学习体系之后,你可以用强化学习的方式去训练一个多模态的模型,让它可以操作软件,操作手机,做很多模态的控制,像一个真实的人一样做事,但从智能的角度上是没有提升的。智能还是得奔着 o3 去,再做 scale up。

两件事都很难,所以我会特别好奇,DeepSeek 会怎么选?当然也可以都要。如果让我选,我会先追求 o3 极致的智能,因为做了 o3 也可以再回头做 agent。

方汉:我认为 DeepSeek 接下来首先是泛化数据,现在的数据主要是编程跟数学,要把数据泛化到理科、文科,OpenAI 原来是雇数学博士,现在据说开始雇生物博士去构造数据。我觉得现在 DeepSeek 有了更好的资源也一定会在构造数据上做出更多的探索。

第二,它也会泛化训练方法到多模态以及不同的领域。今天看到香港中文大学的一篇论文,已经有人把 o1 的训练方法泛化到图像生成上了,所以我觉得这两个方向应该都有很大的空间可以挖。

张鹏:某种程度上很多人都看到所谓叫泼天的流量,但其实未必跟他站在同样的视角,他可能看到的是服务器压力很大,下一个模型还要再超越,更新的速度还要更快,开源的持续价值交付……在这个世界打开一扇门的时候,我要能够探索一个更大的天地,这里反而需要花更多的时间聚焦在技术上。怎么在不商业化的情况下把这事做好,反而是更难的挑战。

0 阅读:9