OpenAI看好的方向，文心智能体技术抢先爆发！

编辑：编辑部 HYZ

【新智元导读】2024年世界互联网大会领先科技奖揭晓，文心智能体技术获奖！至此，百度大模型技术已连续两年获得该奖。

11月19日，2024年世界互联网大会领先科技奖揭晓了。

在来自24个国家和地区的270项科技成果中，共有20项成果入选领先科技奖。

作为AI领域的关键代表，获此殊荣的百度文心智能体技术尤为令人瞩目。

最近，Scaling Law撞墙论成为热门话题，大模型是新的科技泡沫吗？

横跨互联网几个时代的巨头百度告诉我们：所谓「AI应用难落地」，「商业化没途径」，还是因为看得不够远。

正如国家卓越工程师、百度首席技术官王海峰所言，智能体，就是最能激发大模型潜力的应用方向。

随着智能体技术的突破，更多的创新将得到激发。而智能体给社会经济发展带来的巨大价值，也将近在眼前了。

AI智能体，像人一样「慢思考」

百度的智能体，背后究竟是怎样的技术原理？这就要从人类的认知系统讲起了。

在心理学研究中，将人类的认知系统分为两种：系统1和系统2。

系统1代反应快，但容易出错；而系统2思考慢一些，但更准确、理性。

基于这一认知特点，百度开发出了突破性的慢思考机制——系统2，其核心就是「思考模型」。

「思考模型」包含了四个关键要素：理解、规划、反思和进化。

在这四个环节紧密配合之下，AI系统便能够可靠地执行任务、持续自我进化，并在一定程度上将思考过程白盒化。

为了实现真正的智能思考，百度在基础大模型之上开展了三个层面突破性的增强训练。

首先是，思考过程的有监督精调，让模型像人类一样进行任务拆解、自主规划。

假设你要计划一次苏州园林之旅，「思考模型」不仅能理解你的需求，还会像人类导游一样，考虑到景点分布、开放时间等因素，为你规划出最优路线。

其次是，行为决策的偏好学习，让模型学会运用工具和决策。

比如统计《师说》中，「师」字出现的频率，模型会主动调用搜索工具获取全文，再调用代码解释器，对其出现的次数进行精确的计算。

最后是结果反思的增强学习，让模型学会检查工具的结果，并动态调整行为。

这一过程就像人类对信息真实性会产生质疑一样，AI也学会了审视数据的准确性。

举个栗子，在统计国庆档电影票房排行数据时，出现了两个不同来源的差异数据：一个是2.15亿元，另一个是2.35亿元。

这时，模型会主动分析可能的原因（数据更新的不同时间、不同统计来源等等），然后进一步检索寻求验证，最终确保信息的可靠性。

那么，训练「思考模型」的数据从何而来？毕竟人类思考过程，往往只会发生在每个人脑海中，很难外显数字化，因此急难获取相应的数据。

对此，百度创造性构建了「数据合成」的虚拟环境。

在提示构建阶段，基于领域知识自动合成业务逻辑，通过工具模拟器灵活模拟业务所需的工具，通过用户模拟器生成用户可能的问题或指令，并与智能体交互。

然后，根据输入的提示，思考模型自动探索思考和行动的不同路径，并通过分步执行来模拟智能体的行动过程，最终生成高质量的合成数据。

更进一步地，基于这些合成数据，再利用RL对「思考模型」进行优化。

最终，让机器实现像人一样的思考和行动，自主完成复杂任务，同时在环境中持续学习、自主进化。

智能体的工作流

斯坦福计算机系客座教授曾指出，AI智能体工作流将会在今年取得巨大的进步，甚至还会超越下一代基础模型。

我们都有过这样的经历，询问ChatGPT/Claude等模型后，却得不到满意的输出。

但智能体的关键作用之一，便是提供反馈帮LLM去改进输出，最后获得更好的响应。

其实，一个基础的智能体架构，应该包含了记忆、规划、工具、行动四大方面。

前OpenAI研究员Lilian Weng——LLM Powered Autonomous Agents

而且，在具体工作流中，智能体又有四种不同的设计模式。

首先是反思（reflection），大模型能够自己检查工作，并提出改进方法。

其次是工具使用（tool use)，能够主动利用网络搜索、函数调用等任何功能，完成信息收集数据处理，或采取行动。

紧接着是规划（planning），提出一个多步计划并实现目标。

最后是多智能体协作（multi-agent collaboration），多个AI智能体一同协作，分配任务并讨论想法。

总结来说，AI智能体的出现并非让LLM直接生成最终输出，而且多次提示大模型，最终构建出更高质量的输出。

始于模型，但不止于模型

百度智能体背靠着的文心大模型技术，让它在落地应用上有了坚实的基础。

自去年3月16日发布文心一言以来，百度文心大模型不断升级，知识增强、检索增强以及智能体等技术也在不断进化。

今年9月以来，百度文心大模型的日均API调用量，已经暴增至15亿水平，短短半年增长7.5倍。

究其原因在于，它极大地改善了幻觉问题。

凭借搜索引擎的技术积累，百度引入了检索增强机制。通过搜索互联网上已有的知识，让大模型给出更准确的回答。

百度研发的「理解-检索-生成」协同优化的检索增强技术，极大提升了大模型技术及应用效果。

在文本生成领域，检索增强的应用已经成熟。下一步，就解决文生图的幻觉问题了。

为此，百度的研究团队将百度搜索的亿级图片资源，跟强大的基础模型能力结合了起来，开发出了基于检索增强的文生图技术iRAG，让图片生成的效果更加真实。

现在，iRAG既可以生成精确的图片，也可以进行泛化生图。

具体来说，大模型会首先对用户需求进行分析理解，自动规划精确或泛化方案，比如对哪些实体进行增强；接着在增强阶段，对需要增强的实体，检索并选择相应的参考图。

最后在生成阶段，自研的多模可控生图大模型，就通过局部注意力实现图像的高泛化生成，另外还能通过整体注意力计算，进行高精确的图像生成。

正如李彦宏所说——

过去24个月，AI行业的最大变化是什么？是大模型基本消除了幻觉。

从此，AI大模型可以快速走向智能体，迎接原生应用大爆发了。

智能体，开启AI应用新纪元

如今，凭借着门槛低、天花板高，既能让人人都上手，又能做出复杂强大应用的特点，智能体正在成为AI应用最主流的形态。

就连OpenAI的CEO Sam Altman也表示，「下一个关键突破，就是AI智能体」。

放眼全世界，各大科技巨头、独角兽在AI领域里掀起了一波智能体技术竞赛的高潮。

然而，鲜为人知的是，在这波智能体热潮之前，百度就已经完成了关键的布局。

百度，已然领先

互联网时代，百度搜索为核心的应用，实现了人类发展史上第一次知识普惠。

进入下一个周期——大模型时代，AI将让无数普通人都有望成为超级个体。这个赋能者，无疑就是智能体。

李彦宏表示，现在大模型战中所谓的「领先12个月」，「落后18个月」，其实都没那么重要。在这个完全竞争的市场环境中，无论选择什么方向，都会有很多竞争对手。

大模型热到了第三年，我们已经经历了大模型应用发展必经的几个阶段。

过去一年许多目光都聚焦在多模态，但其实，智能体才是目前最能激发大模型潜力的应用方向。

原因就在于，它的门槛确实很低。

大模型变成应用有很多不确定性，但智能体却是非常直接、高效、简单的方式。基础模型需要靠应用才能显现出价值，而智能体是一个几乎「放之四海而皆准」的大模型应用。

因为门槛足够低，甚至都不需要编程，只要用「人话」把工作流说清楚即可，比互联网时代制作一个网页还简单。

智能体正在爆发，只是现在基数还比较小，大家的体感没有那么强烈。让更多人进来、发挥聪明才智，指不定哪条路跑通了，就是一个Super APP。

打造全新智能体生态

如今，百度已经构建了一个强大的智能体生态系统。

百度的智能体技术充分释放了文心大模型的潜力，成为引领行业变革的新引擎。

IDC、沙利文、中国软件评测中心等多家权威评测显示，文心大模型超过国际领先大模型平均表现，位居中国第一、国际第一梯队。

来源：IDC《中国大模型市场主流产品评估，2024》

如今，在营销、客户服务、企业办公、代码编程等领域中，智能体正重塑各行各业升级的新范式。

另一方面，百度基于智能体技术构建的「文心智能体平台」，进一步降低了开发门槛，让AI赋能变得触手可及。

开发者们可以基于自身行业特点和应用场景需求，利用平台提供的多样化能力、工具，打造出大模型时代的AI原生应用。

基于易开发、能分发、有钱赚三大特点，让这个平台实现了价值闭环。

百度搜索AI问答

比如，38岁失业女性答主自创建了「情感咨询导师晓晓」智能体，不仅有了意外的收入，还获得了新的职业机会。

从小到9岁的学生，到50岁退休阿姨，任何人都能在开发应用中，找到一席之地。

目前，文心智能体平台已吸引超过80万开发者、15万家企业。

不写代码，就能实现任意想法了

目前，百度的智能体技术正在加速LLM深度融入社会各行业的各个环节，助力企业与社会服务智能化升级。

在政务领域，AI法律咨询助手能为劳动者提供及时准确的法律指导。

在农业领域，「农民院士智能体」让科技助农变得更加便捷高效。

在教育领域，它能为师生带来更智能化、个性化的教学新体验。

在辅助编程开发中，智能体降低了普通人开发应用门槛，也提升了专业程序员的编码效率。

这里，尤为值得一提的是百度在「多智能体协作」领域的最新成果——无代码开发工具「秒哒」。

用李彦宏的话说，它是「迄今为止人类历史最复杂的多智能体协作工具」。

多智能体协作，是基于文心大模型的思考和规划能力，实现了对不同智能体的调度和编排。

在策划、内容、开发等工作中，有小组长、策划、小编、程序员和质检员五个智能体相互协作，甚至还能自动识别bug，调用各种工具。

在演讲现场，李彦宏曾以萝卜快跑新技术发布会为例，直接搭建了一个活动报名系统。

用中文描述需求，补充带有大会时间地点主题的文档，就可以指挥秒哒中的多个智能体协作了。

其中，小组长智能体会进行规划调度，会将任务拆解并召唤各智能体来完成任务。

策划智能体负责将策划设计解决方案拆分成i核心需求、内容结构、开发需求、数据收集四个子任务。

小编智能体会编辑邀请函中的所有文字和媒体内容，包括发布展望、时间地点信息、封面图等。

程序员智能体通过写代码，制作和部署网页。

这个过程中，通过场景知识的增强，提升了复杂代码生成的质量与稳定性，能高效实现用户所需的功能。

最后，质检员智能体会检查代码bug，修复，进行代码测试。

一套流程下来，活动邀请函立马就生成了。

同时，百度的另一个多智能体应用——代码助手「文心快码」则升级到了3.0版本，全面进入智能体时代。

具体来说就是，在开发全流程中，会有多个智能体进行流水线协同，进而大幅提升程序员的工作质量和效率。

在推动传统产业转型升级的同时，百度智能体技术还催生了在智能家居、智能电商等新兴产业发展。

更重要的是，它还创造出智能体工程师、训练师等全新职业，推动人才培养模式创新，为产业结构升级提供源源不断人才支持。

站在新的历史节点上，百度文心智能体正重新定义AI的发展方向。

在全球科技巨头还在为智能体技术摩拳擦掌之时，他们已用扎实的技术积累，以及丰富的实践经验，验证了智能体技术的巨大潜力。

多次获奖，是全行业的肯定

仔细回看，其实不止在今年，此前百度就曾五次在世界互联网大会乌镇峰会上获此殊荣，得奖理由分别是百度大脑、小度助手、Apollo、飞桨、知识增强大语言模型技术。

今年的百度文心智能体，已经是第六次获奖。

不仅如此，百度大模型相关技术还曾获国家技术发明二等奖、中国专利金奖、吴文俊人工智能科技进步特等奖、中国电子学会科技进步一等奖等多个奖项。

从第一届世界互联网大会到现在的整整11年间，百度率先预判出下一步技术的突破方向，同时也不忘将技术与实践紧密结合，迅速抓住当下市场的痛点。

百度大脑、小度助手（DuerOS）、Apollo自动驾驶平台、飞桨开源深度学习平台等，都是百度在行业内先行一步的探索，全部取得了成功。

这些领域内的前沿技术，带动的不仅是百度的发展，也以引领者的姿态，推动了全行业的技术进步，让全行业的技术发展坐上了快车。

更关键的是，百度并非只局限于发展单一的技术，而是将格局放得更大，致力于建立一个包含硬件、软件、服务和平台的完整生态系统。

AI的未来究竟在何方？这个答案，或许就藏在百度智能体技术的一个个突破里。

从去年10月的前瞻布局，到如今智能体的蓬勃生长；从系统2思考模型创新，到智能体赋能万千企业的实践。

百度正用不断创新的技术力量，为每个领域带去智能化的蝶变。

玩酷网

OpenAI看好的方向，文心智能体技术抢先爆发！

之槐看科技