对话百度智能云:LLM两年,我们找到了做AI应用的正确范式

极客公园 2024-12-30 15:45:47

在刚过去的 2024 年百度世界大会上,百度 CEO 李彦宏公布了文心大模型截止 11 月初的的日均调用量——超过 15 亿次。一年前这个数据是 5000 万次。一年增长了 30 倍,李彦宏很感慨的说,「这条陡峭的增长曲线,代表着过去两年中国大模型应用的爆发」。

进入 2024 年后,大模型的能力迭代逐渐进入平稳期,大模型的技术趋势从大语言模型开始更多转向多模态,而模型的 api 价格也迎来了骤降。

更多模态的可能性给了开发者更多的想象空间,模型调用成本的解放则打开了开发者最重的一道桎梏。一切都在预示着,AI 应用爆发已经临近前夜。

AI 应用的开发者该如何适应这个时代,而站在开发者背后的大模型平台的角色又是什么,这变成了当下最需要想清楚的问题。

11 月 14 日,极客公园创始人总裁张鹏和百度副总裁阮瑜、百度副总裁谢广军围绕这些问题做了一场讨论。

在这场讨论中,阮瑜和谢广军输出了一些精彩观点:

(AI 时代)有了应用开发的想法以后,未来有一天代码全是机器写的,整个效率会大幅提升。开发范式虽然有变化,但是做产品的目标设定原则并没有变,反而要更加重视。 不管什么时候都要尊重专业,尤其要尊重行业经验。 不要对 AI 的能力有超过它当前发展阶段的妄念。 大模型的技术变化是非常快的,对于(AI 应用开发的)个人和组织而言,对于新事物的学习能力、AI 原生思维、跨行业知识的理解与融合是非常重要的 3 大能力。

01

大模型时代的应用开发,创意验证更容易了

张鹏:阮瑜总从移动互联网时代就在做产品、管产品,有没有观察到这种所谓的 AI 时代到来之后,应用开发范式的变化?更具体一点说就是,做产品的方法论和流程,有没有发生变化?

阮瑜:移动互联网时代的开发,其实流程就是从产品经理对用户的需求有一个抽象,有了个抽象以后我们开始整理用户需求的调研,最后出 MRD,然后开始开发,最后测试上线。传统的标准化的流程就是这么一个瀑布式的流程。

到了 AI 时代其实对流程影响比较大,因为大模型的能力带来了低代码甚至无代码的开发可能。实际上,通过千帆提供的 Agent 方式,PM 的一些想法在现有的工具链支持下,只需要输入一两句话,大模型就能跑出来一个简单并且闭环的,一个轻量化的 Agent,就可以直接在线上试了。这个其实是比较大的颠覆。

如果是企业级应用,涉及到比较复杂的场景,整体逻辑还是先选择一个小切口,然后用原来移动互联网的流程经验来开发。但过程中也引入了非常多现在这种新的开发模式。比如说我们推出的文心快码,就是相当于 AI 帮助研发能够快速去生成代码,代码的采纳率也比较高。这样的话,相当于你有了想法以后,未来有一天这个代码全是机器写的,整个效率会大幅提升。

这其实是我们在现在的产品开发范式中发现的和原来非常不一样的地方:一个是流程越来越简便,其次就是整个开发模式再往更高效的方式去走。

张鹏:听起来原来移动互联网时期能不能快速去尝试和验证一些东西,有人的因素也有技术上的因素。现在 AI 能力能够打破原来开发流程背后那套按部就班的技术框架,在这个过程中人的 idea 变得更重要了。

这一方面也想请广军分享一下。阮瑜总是千帆平台上一个重要的开发者,但你肯定看到了更多的开发者。今天到底这个开发范式是出现了什么变化,哪里变得更简单,哪里变得更难了,你会怎么看这件事的?

谢广军:从我们平台上很多开发者的体验上看,从应用创意的验证角度来说确实是更容易了。但是真正到了应用的生产阶段,可能还是需要经过一系列的构建过程。千帆平台最终还是希望在这整个过程中进一步降低大家的开发门槛。

总结来看,大模型驱动的应用落地过程,在我们平台上一般是经历这么几步:

了解各个模型的内在能力,选对模型。 构建应用架构。 根据场景需要来做模型的优化调优。 张鹏:要怎么解释这个「三步走」的流程? 谢广军:首先第一步,选模型里面就有很多的学问。选多大尺寸的模型,像文心大模型有 4.0,有 3.5,还有更小的像 ERNIE Speed、ERNIE Lite 这样的模型,还有一些专用模型;然后针对具体的应用需求,是选择语言模型,还是一些多模态的模型,甚至传统意义上的视觉模型等等。 第二步其实就是构建应用架构,今天大模型落地的应用架构已经相对比较统一了——刚才阮瑜介绍的智能体(agent)就是一个很通用的架构——然后除了智能体架构,用户可能也需要改造自己传统的应用范式、应用模式,去搭建一个端到端应用的更自动化的架构。 前两步其实我们还是致力于让大家能够快速验证想法。但是真正在企业中,尤其是在生产环境中落地时,还是会遇到创意是可以验证的,但是效果未必能满足的情况。这时候其实用户需要的是模型的优化调优。比如说知识库类的应用需要去结合自己的文档内容去做 RAG 上的调优,当然还包括各种性能相关的优化。 这里面千帆平台提供了非常多这样的机制和功能来支持模型的优化调优。 张鹏:听起来就像是,今天如果把模型应用当作做个硬件产品,比如全世界都知道,要搞硬件生意就得多跑深圳,那千帆就是那个「深圳」。那里有能把硬件做出来所需要的零件的一整套供应链。 谢广军:没错。 02 不管是+AI 还是 AI-Native, 做产品的目标设定原则没有变 张鹏:开发范式已经发生了巨大变化,但现在超级应用还没有出现,这说明现在 PMF 还是挺不容易找的,不只是把技术攒起来,除此之外有大量复杂的工作要做。看起来现在应用创业要真走 AI-Native 的路线,也挑战挺大。 广军这边接触过这么多开发者,肯定有成功的也有失败的。如果要做 AI-Native 应用的创业者,在做这个决定之前,要评估什么?从中有过什么总结吗? 谢广军:我把应用开发者分成了两类。 第一类是自上而下的业务驱动,本身已经有一个成型的业务模式和应用产品。今天大模型时代到来了,他希望通过大模型来降本增效,驱动整个业务有更好的用户体验。这样的开发者对大模型的诉求很明确,就是能带给自己什么样新的价值。 第二类是自下而上的,由技术驱动业务,这一类可能更像是咱们所说的 AI-Native。所谓的 AI-Native,实际上意味着一种思考角度的不同,即大模型这项技术能够催生出什么新的应用,从这个角度来考虑问题。 张鹏:这两类开发者在千帆平台上都有出现吗? 谢广军:都有非常成功的案例。我们平台上属于第一种业务驱动的开发者中,我们之前有个客户,专门做职教培训行,主要就是职业考试培训这一块。这家公司的 APP 叫「考试宝」,它的一个重要场景就是很多参加职业考试的人——比如考厨师证、医疗证的,会在上面刷题、模拟考试。除了提供题目,他们还得提供答案和答案解析,比如解释为什么这道题选 A。以前,这些解析都是人工标注的,成本大概是一到两块钱一道题。现在他们发现,用大模型做同样的事情,生成和人工标注效果差不多的解析,成本几乎可以忽略不计,几分钱就能生成一道题的解析。这个就是典型的降本增效的业务模式。 同样用教育赛道来举例,以前在英语教培行业,总是有英语对练的场景。以前学口语要找外教和中教连线对话,进行实训。现在,很多客户用大模型和数字人技术,创造一个虚拟人来进行英语陪练。虚拟人可以听出你的语气,纠正你的语法,指出问题。这个赛道现在发展得也很快。 张鹏:听起来这两者之间也有共性。 谢广军:其实现在不管是叫「+AI」还是「AI-Native」,最终在做之前都要定一个明确的目标。如果是个人开发者做小项目练手,探索一下当然没问题。但如果真的要做业务,还是要确定目标。这一点和以前其实很类似。所以,也不能说 AI 来了就一切都颠覆了。开发范式虽然有变化,但是做产品的目标设定原则并没有变,反而要更加重视。 张鹏:换个角度,以前自己写代码,用户用起来也不会产生直接的费用。但现在用户一用就会消耗 token,所以更需要想清楚。 03 不要对 AI 的能力有妄念 张鹏:虽然现在有很多新的机会,但肯定也有一些坑。所以我想听听阮瑜总的分享,从移动互联网产品开发到AI驱动的产品开发,其中有哪些实际遇到的坑,可以分享给大家,让大家少走弯路? 阮瑜:我觉得做 AI 应用,目前来看主要有两个比较大的坑。 第一个就是产品经理、客户和用户都不要对 AI 抱有过高的期望。大家对 AI(大模型)的理解,这一年多来也是一个逐渐发展的过程,从一开始觉得 AI 无所不能,到现在越来越理性务实。在做应用的时候,不管是移动互联网时代还是 AI 时代,本质上都是要找到客户和用户的场景,然后务实地去满足用户需求,这样才能真正把应用的价值和生命力展现出来。就像刚才广军说的,你得有个目标,这个目标就是满足用户的需求,在特定场景下为用户和客户创造价值,这才是真正的好应用。 张鹏:甚至要能拆解出来那个关键指标。但问题也在这儿,对客户来讲关键指标是什么? 阮瑜:比如在客服场景,客户最在乎的是你能帮他们解决多少客诉问题,能帮他们节省多少成本。在数字人场景,客户更关注的是在线上营销,大幅提效和降低获客成本,在线下有屏幕的地方,能更低成本地服务更多客户。所以,不同的场景,目标不同,解决的用户需求点也不同。 第二个坑,尤其是在 AI 原生应用中更容易踩到,就是大家认为可以忽略很多行业知识和理解,而往往在这方面会踩很多坑。不管什么时候都要尊重专业,尤其要尊重行业经验。在做 AI 的过程中,我们也需要花很多时间和客户沟通,去了解行业真实需求、汲取客户自身沉淀下来的知识经验。同时能否用好大模型应用,也需要客户要能厘清公司内部的知识结构和体系,做好数据治理。智能化是离不开数字化的,一定是先有数字化,有了知识体系,然后才能有智能化。这一点也是在和很多客户接触的过程中发现的。要想 AI 在一个场景中很好地解决问题,背后一定是做了大量深入的理解和整理工作,在这个 AI 应用之下做了非常多的知识体系的梳理工作。 所以这是两个比较大的坑,也希望新的创业者能够避开。 张鹏:不要每个人都趟一遍,对吧? 阮瑜:对,尽量少踩。 张鹏:你刚才说这点其实挺关键的,就是第一觉得不要对 AI 的能力有超过它当前发展阶段的妄念。 客户有幻觉,开发者有幻觉,那这个事大概率就没戏了,这中间至少要有一方是清醒的,对吧?所以,模型和人都有幻觉,现在模型的幻觉在依靠技术去消除,如果这就是它的特质的话,也许永远不会完全消失。但人要做的是要先约束自己的幻觉。 消除妄念之后,你就可以去代偿一些东西,就是要去理解具象的需求。像刚才讲的,同样的技术不同的客户谁能用好,其实跟企业自己的数字化程度有关,这也可以反过来理解,模型平台也可以去选择当前合适的领域、合适的客户,去把它一个个做好。 我觉得这个可能也是这一年我们观察到的变化之一,就是以前看 AI 能力的渗入可能是水银泻地的,但其实现在看还是要一步一个脚印,日拱一足的往前,还是从提供一些新的生产力变化开始。 说到AI产品开发的「坑」,这方面广军观察过很多的样本,应该会有更多的理解? 谢广军:从我们做平台的视角来看,平台上的开发者一般会有几个坑需要避免。 第一个是成本的坑。从去年下半年到今年,平台上有很多开发者来做各种应用验证。他们普遍遇到的一个问题是:如何从验证阶段过渡到实际应用上线并产生商业价值?每个企业都需要针对每个场景计算 ROI,计算业务收益。所以,第一个坑其实是,使用大模型是否真的能降低成本?或者说,成本的降低和业务收益是否成正比? 张鹏:感觉去年是大家不计成本的都想试一试,今年都明确要算账了。 谢广军:对。今年大家都知道,从模型调用成本来看各家平台都在持续降价,降价后应用的各项指标确实显著提升,这也证明了过去一段时间大家确实被成本卡住了。所以从技术的角度来说,我们也需要提供一系列机制和技术来帮助客户降低大模型应用的成本。比如如何用尺寸更小的模型达到相同的效果(这就需要做模型开发)、如何量化大模型,以及如何在应用中结合使用大模型和小模型。 这也关联到第二个坑。如果说第一个坎是成本的坎,第二个其实是效果的坎。很多开发者其实应用验证做完了,但是真正到生产场景中会发现自己无论怎么调优,大模型应用还是达不到理想的解决问题的能力。比如做智能客服,理想目标可能是 90% 的准确回复率就能满足用户需求,但如果卡在 88% 上就无法上线。这时候落地调优就非常重要。在千帆平台上,我们过去一年多致力于打造调优工具链,包括模型调优和应用策略调优,在让用户能够调出更好模型效果方面做了很多建设。 第三个在平台上看到的比较多的开发者遇到的坑,其实也是效果的坎,但这和前面第二个坎的区别是,哪怕已经激发出模型最极限的性能,开发者用了一段时间,比如两三个月后会发现,之前在线下测试或初期小流量测试时效果很好的应用,现在却无法满足客户或用户的需求了。 这主要是因为用户结构变了,用户的 query 变了,导致整体结构发生了变化。所以,目前做大模型落地,需要持续迭代、持续优化,不管是模型还是应用的能力,不会是一次调到最优后就足够的。我们现在也提倡用户在千帆平台上构建自己的数据闭环或数据飞轮,通过用户数据进一步调优模型,然后上线迭代,让模型和业务越来越聪明,越来越适应应用模式。 从平台的角度来说,这三个坑都非常典型。 张鹏:这三个坑描述的特别形象啊。封闭开发多少天,期待一代产品就解决战斗,这已经是上个时代的事了。现在 AI 应用开发是一场长期的跟着 AI 一起成长的战斗。如果这个意识不明确,很可能一开始就踩到刚才那几个坑里。 前面说的更多是 AI 如何能让客户的 idea 落地的更好,但这中间其实还有另一个问题,就是万一开发者做产品的决定是错的呢?是不是在做这个选择之前——不管是用 AI 产品还是做 AI 产品——其实都需要评估一下这个场景领域,包括自身有没有 AI Ready。这一点想问问广军,要做什么样的准备才算是真的能够去谈论大模型场景落地这件事。 谢广军:这与我们前面提到的两种模式比较相关。 第一种,将大模型的能力与现有应用结合,改变用户交互模式,提升用户体验;或者用大模型替代人工环节,提高效率。通过一些总结好的方法,可以判断大模型落地能否形成商业模式,是否可行。 第二种,利用大模型的能力象限,反过来创造新的应用场景。这会更难,但值得探索。探索的方法论,我认为还是需要将前前后后的整个商业模式想清楚。现在很多创业者可能只解决了第一步,将用户价值想清楚了。但用户价值本身会随着技术能力的变化而变化。如果没有真正跑通商业模式,业务很难发展。所以,在不断尝试新的业务场景的过程中,需要结合大模型的能力象限,把商业化模型和模式想得更透彻、更清楚。 这里分享一个观点,今天大模型确实是人类技术史上一个非常大的跃迁,但目前我们仍处于对大模型能力探索的早期或初级阶段。我们觉得未来几年大模型自身的能力会跃迁式地上升,每一次跃迁都可能拓展新的应用边界。所以还是建议开发者向前看,面向未来的去做产品。 张鹏:但另一方面,起点又不要预期太高,还是要很严谨的去做评估。我又想到刚才阮瑜总说的,不要对 AI 今天的能力有妄念。那可能另一个大模型落地重要的准备条件就是先消灭人的幻觉。创业者的幻觉,开发者的幻觉。 04 大模型可以把 行业最佳实践快速复用 张鹏:百度智能云已经在智能客服,在数字人这些领域里面有很多的大模型应用实践了。如果具体的去看,产品背后文心大模型的能力是怎么对齐到各个场景的? 阮瑜:这些应用背后,千帆提供了很多能力。千帆首先提供了底层的大模型能力,在这之上我们做了非常丰富的应用层,千帆平台本身基于自身的能力给应用开发流程提供了丰富的工具链,然后让客户可以通过简单的一些画布调整就能完成一个简单的开发流程。让平台上面能自然生长出面对不同场景的很多应用。 大模型出现之前,我们实际上是比较难靠一款产品、去普适满足不同用户的需求的。但有了大模型的能力,现在我们可以去解决客户更多个性化的问题,也就是能让产品真正去贴合实际场景。 张鹏:对于满足个性化的需求,大模型在里边起到了一个所谓的能力「泛化」的作用,而不用对每个个性化场景去重做一遍 AI。 阮瑜:对。 张鹏:那从最终的效果角度,到底大模型的加持如何提升了客户的指标,比如说付费的转化率,或者客服的服务满意度,你们有什么样的指标来监测这个预期效果的实现程度? 阮瑜:站在客户角度,其实更关心是大模型应用对于企业实际产生的效益。举我们头部的一个餐饮行业客户使用客悦的例子,这个客户每天要处理的客服量级大概在 7 万次左右,在使用客悦后客服转人工比例从 22% 降到了 10%。同时节省了每天约 2.5 万元的座席运营成本的支出,这是非常显著的一个大模型应用在一个具体的场景下帮客户创造出价值的例子。 张鹏:一个挺强烈的感觉是,去年的时候我们还会关注大模型一些所谓参数层面上的分值,现在我们看的是大模型在客户面前的那些具象数字的变化,也就是到底大模型能对这件事效果上提升多少,能实际多少解决问题。这是个挺大的变化。 阮瑜:对。 张鹏:想要追问的问题是,比如阮瑜总提到的数字人客服,它可以有一些标准和最佳实践,但是具体到每个客户面前,需求还是不一样的,本质上这样的产品是不是应该支持所谓个性化服务的需求,这里面有什么可以分享的经验? 阮瑜:以客悦为例子,首先大的层面是在满足客户的客服需求时候,仍然可以抽象出很多共性问题。例如,用户与系统交互的对话流程、工单如何流转等,这些都有很多标准化的流程。在标准化的流程中,接待客户的界面完全可以抽象成统一的。 不管哪个行业,面对客户的很多标准话术都是固定的。大模型的优势在于,用户进来后,可以根据用户的情绪、需求进行个性化回复。以前的 NLP 场景下,很多小模型只能使用规范的、固定的标准话术,所以很多客服就像机器人,非常机械。但是有了大模型之后,就可以实现个性化。你可以定义客服的人设形象,例如,想要一个轻松小姐姐的形象,就可以用轻松的语气和客户对话;如果希望客服的表达严谨客观,也可以进行相应的模拟。所以,大模型可以根据不同客服的风格喜好,快速生成对应的风格话术。 这背后是我们提供的基于千帆平台之上的一系列工具链和画布配置能力,包括客服的情感属性等,这些都可以共性化地通过产品配置就能实现。所以,这在很大程度上节省了开发成本,并且能够快速复用到其他行业。 张鹏:这要怎么复用,可以举个例子? 阮瑜:比如餐饮行业。餐饮行业客服的知识库可能包括退单、订单,甚至「你买几个炸鸡」这种问答。这些知识库的内容在餐饮行业已经是非常统一的,并且场景换到奶茶店也同样适用。大模型实际上解决了原来在做 ToB 场景里大规模定制化的问题。 这个观察也是从客悦这一段时间服务客户的经验里来的。我们客户有金融行业的,有做人力资源行业的,然后有餐饮行业的,非常多的类型。 张鹏:看起来,某个行业里有了最佳实践之后,很容易在这个行业里被更多人用起来,并且都能比较好地解决问题。所以一开始实现这样的一个实践过程是最关键的,第一步非常重要。 阮瑜:是的,相当于我们有一个公用的工具,一旦在某个场景中跑通了之后,就可以覆盖到不同的行业。像曦灵数字人的应用就更显著了。因为有了数字人的数字资产后,很容易复用。在实际场景中,我们现在可以通过一句话快速生成一个数字人。这个数字人可以用在线下大屏里做手语客服,也可以用在银行系统里做业务办理,可以出现在很多需要数字人出现的场景中,延展性非常强。 05 AI 时代的开发者, 最重要的有 3 个能力 张鹏:我再问个很务实的问题,就是这种开发范式的变化,对于创业,对于一个组织、一个产品团队的影响。阮瑜总因为自己在带一个非常 AI-Native 的团队。你觉得今天这样一个团队跟移动互联网时代的团队,人的构成、能力的分配会有什么变化呢,或者说你会更需要什么样的人? 阮瑜:我觉得描述一些特质更容易定义未来 AI 时代需要的人才。这样的人群如果是面向未来的 AI 时代的话,我觉得一个人或一个组织的学习能力的重要性是越来越凸显了,因为大模型的技术变化是非常快的。你对于新事物的理解,领军人物和整个核心团队的认知水平,可能决定了你对于这个产品本身和用户场景的理解。新的技术怎么用在场景里面产生比较大的价值,很大程度上是跟团队本身的学习能力相关。这种能力其实我觉得以前也重要,但是因为变化太快了,现在就显得越发重要了。 另外一点,对组织而言,很重要的是团队要具备 AI 原生的思维方式,是不是基于现在的技术和我们所掌握的这些能力本身来思考问题,是不是用一种全新的视角来重构原来的业务,找新的场景、新的机会,这个其实也是比较重要的。 第三个特质是要具备跨行业的知识。因为现在有很多新的机会涌现,对于一个面向客户的组织而言,不只是懂你所在的行业和技术就行了,还需要懂餐饮行业、教育行业……也就是你所面对的客户行业,需要不同行业知识的储备跟现有大模型的能力相结合,然后帮助各个产业去完成数智化的跃迁,这个其实也是非常重要。 张鹏:也就是对于公域领域的知识要学得快,然后最好还得有点私域的知识积累。那现在 AI 时代,对学科专业的出身有什么影响吗,比如今天在做科技产品的时候,是不是文科生和理科生的机会变得更平等了? 阮瑜:AI 面前人人平等。大家只要会用好 AI,实际上不管是什么学科出身,都会有属于自己的一个知识结构和知识库。甚至可能文科生掌握的知识更广袤,然后就可以根据公域知识和你自己的知识库,以自己的想法做一个自己的 RAG。就比如极客公园把历史上的采访文章和深度内容都放进去训模型,最后可能出来的内容和效果是更好的。AI 时代,每个人都有自己的优势。 张鹏:阮瑜总是什么专业? 阮瑜:历史学 张鹏:你学历史的,文科生,我学新闻的,文科生,只有广军在中间是理科生。看来确实啊,AI 面前人人平等。 那正好就问到「理科生」广军一个关键的问题。千帆在今天,形成了这样一个丰富的开发者生态,那再往前看,千帆做事的目标和边界到底是什么?换句话说,千帆怎么定位自己在这波浪潮里最终的那个位置。 谢广军:大模型的落地在今天来讲,如果从技术的角度来说,我觉得就是几个要素,算力、数据、模型能力以及应用。千帆平台本身也是致力于在这四个要素里去看我们本身的定位。现在来看,千帆的平台定位可以聚焦在三个属性上——数据、模型以及应用开发。 首先作为一个大模型平台,我们要时刻关注用户的需求,用户需要什么样的模型,今天从技术研发的角度来说,模型的边界到了,那么我们在整个预制模型层面应该做到哪? 第二个是我们在数据工具上需要下苦功夫。结合着大模型应用,企业需要什么样的数据能力。今天讲应用开发中需要去做模型的预训练,需要去做微调,构建应用的知识库,这些其实在企业落地的环节中都需要数据工具的加持,所以数据类的工具一定是千帆需要大力去做的事。 第三个就是模型类的工具,也就是刚才讲的,不是越大、越先进的模型越适合应用落地。这类工具其实就两个目标,一个是降低开发门槛,让用户开发构建应用的门槛越来越低,甚至我们提过,创意验证阶段能够一句话把你的意图说清楚,你就能构建出一个应用来;第二个就是构建真正的企业级应用,那就不光是降低门槛的事了,还涉及到各种调优的策略和实现。 谢广军:至于说我们现在不做什么,千帆平台不会去做应用。我们还是希望开发者来使用我们平台的能力,来更好的去构建他自己的应用,而且这个应用真的是可落地的。这里边其实有非常多的关于工具和数据的事,以及模型层面要不断的去迭代和提供支持,这是我们给自己设的边界。
0 阅读:1