“生成式人工智能正在进入代理时代,“代理AI ”(Agentic AI)或“人工智能代理”(AI Agent)是现在最火的术语。我们今天看到的代理架构和早期案例仅代表了更广泛的变革的开始,这种变革有望重新定义人机动态,对企业应用程序和基础设施都会有深刻的影响。”
在当今的人工智能领域,生成式AI正展现出其广泛的应用潜力,尤其是在搜索、合成与生成这三大核心应用场景中,这些场景已经显现出了强大的市场适应性。以Menlo Ventures投资组合中的几家公司为例,如专注于企业搜索的Sana、担任法律研究助手的Eve,以及致力于内容生成的Typeface*,它们各自代表了这些领域的初步且富有突破性的探索,而这些探索的核心正是大型语言模型(LLM)的少样本推理能力。
然而,生成式AI的未来绝不仅限于这些首批核心应用。虽然能够读写的人工智能已经足够令人瞩目,但更加激动人心的是那些能够代表我们思考与行动的人工智能。在这方面,诸如Anterior、Sema4和Cognition等前沿应用开发者正在构建能够处理以往需大量人力参与的工作流程的解决方案。
通过引入多步逻辑、外部存储以及对第三方工具和API的访问等新型构建模块,新一代的AI代理正在不断拓展AI功能的边界,推动端到端流程的自动化。
当我们进一步探索AI代理这一领域时,将详细阐述Menlo Ventures对于新兴市场的看法。首先,我们将明确代理的定义以及促成其实现的关键因素。接着,我们将追溯现代AI堆栈的架构发展历程,从简单的提示输入,到检索增强生成(RAG)技术,再到成熟的代理系统。在后续的文章中,我们还将探讨这一范式转变对应用程序和基础设施层面所带来的深远影响。
人工智能代理的四个构建模块完全自主的代理由四个要素定义,这四个要素结合起来可实现完全的代理能力:推理、外部记忆、执行和规划。
推理
在基础层面,代理需具备对非结构化数据进行有效逻辑推理的能力。目前,诸如Anthropic*和OpenAI等前沿基础模型已展现出极高的效率,它们通过将部分世界模型融入大型语言模型(LLM)的预训练权重中,从而获取广泛的知识和基本的逻辑规则。
外部记忆
除了内置的一般性知识外,代理还需依赖外部信息存储来保存和调用特定领域的知识,以及处理特定问题时所需的上下文信息。这通常依赖于如Pinecone*等先进的矢量数据库技术。
执行
为了更有效地解决问题,代理需利用工具来执行任务。许多早期的代理平台提供了预设在代码中的工具集,供代理根据需要选择使用。然而,随着技术的不断发展,越来越多的通用代理工具涌现出来,包括网页浏览、代码解析、身份验证与授权服务,以及与企业系统(如CRM和ERP)的连接器,以在这些系统中执行用户界面操作。
规划
与简单地通过连续预测下一个标记来解决问题(如一次性完成整篇文章的撰写)不同,智能代理采用更类似于人类的思维方式,将复杂任务分解为更小的子任务和计划,不断反思进度,并根据实际情况进行必要的调整。这种策略规划能力使代理能够更高效地处理复杂问题,并灵活应对各种挑战。
从 RAG 到自主代理的 AI 示例需要指出的是,尽管未来的完全自主代理可能会集成所有四个核心构建模块,但当前的大型语言模型(LLM)应用程序和代理却尚未达到这一境界。
以流行的检索增强生成(RAG)架构为例,它并非代理性的,而是依赖于推理和外部记忆作为其基石。某些设计,如OpenAI的结构化输出功能,虽已支持工具的使用,但关键差异在于,这些应用仍将LLM视为语义搜索、合成或生成的“工具”,其逻辑流程仍由预设代码所决定。
相比之下,当LLM被置于应用程序的控制流核心,能够动态地决定执行哪些操作、选用哪些工具以及如何解析和响应输入时,代理便应运而生。在此情境下,部分代理甚至无需与外部工具交互或采取实际行动。
人工智能代理(Agent):企业自动化、智能化转型的新架构
在Menlo,我们划分了三种代理类型,它们在主要用例和控制应用程序流程的自由度上各具特色。
最为受限的是“决策代理”设计,它利用语言模型在预定义的决策树中导航。而“轨道代理”则通过为代理设定更高层次的目标,同时以标准操作程序(SOP)和预设的“工具”库来约束解决方案空间,从而提供了更高的自由度。最终,在光谱的另一端是“通用AI代理”,它几乎不受数据框架的限制,完全依赖于语言模型的推理能力来进行规划、反思和路径调整,类似于一个无拘无束的for循环。
接下来,我们将深入探讨每种代理类型的五种参考架构和AI代理实例。
检索增强生成 (RAG)人工智能代理(Agent):企业自动化、智能化转型的新架构
确立基准:在当今的人工智能应用领域,检索增强生成(RAG)架构已成为众多现代AI应用的标准配置。以Sana的企业搜索功能为例,我们可以深入了解其内部运作机制。
整个流程始于对非结构化文件(如PDF、幻灯片、文本文件等)的加载与转换,这些文件通常存储在企业数据孤岛中,如Google Drive和Notion。通过数据预处理引擎(例如Unstructured),这些文件被转换成大型语言模型(LLM)可查询的格式。在此过程中,文件被“分割”成更小的文本单元,以便进行更精确的检索。随后,这些文本单元被嵌入为向量,并存储在如Pinecone这样的数据库中。
当用户向AI应用提出查询(例如,“请总结我与X公司的所有会议笔记”)时,系统会检索与查询语义上最相关的文本单元,并将它们组合成一个“元提示”。这个元提示会利用检索到的信息进行扩展,然后提供给LLM。LLM根据这些上下文信息合成答案,并向用户返回一个精炼且要点明确的回应。
值得注意的是,上述流程仅展示了一个包含单个LLM调用的检索步骤。在实际应用中,AI应用的流程更为复杂,可能包含数十甚至数百个检索步骤。这些应用通常采用“提示链”的方式,其中一个检索步骤的输出会作为下一个检索步骤的输入,并且针对不同类型的任务,会有多个“提示链”并行执行。最终,这些结果会被综合起来,以生成最终的输出。
人工智能代理(Agent):企业自动化、智能化转型的新架构
例如,法律研究副驾驶Eve * 可能会将关于 Title VII 的研究查询分解为单独的提示链,重点关注预先确定的子主题,例如雇主背景、就业历史、Title VII、相关判例法和原告案件的支持证据。然后,法学硕士运行每个提示链,为每个提示链生成中间输出,并综合输出以编写最终备忘录。
工具使用人工智能代理(Agent):企业自动化、智能化转型的新架构
在人工智能领域,工具调用或函数执行标志着从检索增强生成(RAG)向代理行为迈进的重要一步,为现代AI架构增添了新的维度。
这些工具,本质上是预定义的代码模块,旨在执行特定的任务。诸如Web浏览(如Browserbase、Tiny Fish)、代码解析(例如E2B)以及授权与身份验证(如Anon)等常见功能已经涌现。它们赋予了大型语言模型(LLM)浏览网页、与外部系统(如CRM、ERP)交互以及执行自定义代码的能力。系统会将可用的工具展示给LLM,LLM则负责选择一个合适的工具,将必要的输入格式化为结构化的JSON数据,并通过API触发执行,以完成最终的操作。
Omni的Calculations AI功能便是这一方法的生动体现。它利用LLM将恰当的Excel函数直接嵌入到电子表格中,随后电子表格会自动执行计算,并为用户生成复杂的查询结果。
然而,尽管工具的使用功能强大,但它们本身并不足以构成“代理”。因为逻辑控制流仍然是由应用程序预先设定的。在接下来的内容中,我们将深入探讨真正的代理设计,这种设计允许LLM动态地编写部分或全部的逻辑控制流。
决策代理人工智能代理(Agent):企业自动化、智能化转型的新架构
接下来,我们要深入讨论的第一类代理是决策代理,它运用代理决策能力来引导复杂的多步骤推理过程,并据此作出业务决策。与RAG架构或工具使用方式不同,这种新型架构首次将部分控制逻辑交给了大型语言模型(LLM),而非将所有步骤都事先硬编码。然而,它仍处于代理自由度范围的较低层次,因为代理主要扮演着在决策树之间导航的“路由器”角色。
以Anterior(前身为Co:Helm)为例,这家专注于健康计划自动化的公司开发了一个临床决策引擎,用于自动审核索赔提交。传统上,护士们需要依据包含条件知识的付款人规则(类似于复杂的“选择你的冒险”游戏)手动完成这些审核。
Anterior简化了这一繁琐流程。他们首先利用基于规则的脚本和语言模型,将付款人规则转换成有向无环图(DAG)。随后,他们的代理开始遍历这棵决策树,在每个节点利用LLM根据特定规则评估相关临床文档。对于较为简单的节点,这可能仅涉及基本的检索增强生成(RAG)步骤。然而,Anterior经常面临需要子链的复杂任务,这时代理必须选择最佳路径才能继续前进到下一个节点。它会根据每个决策更新自身状态(在内存中管理这些中间结果),并在整个决策树中不断推进,直至作出最终决策。
Anterior并非孤例,还有其他公司也在采用这种方法。例如,Norm AI正在构建用于监管合规的AI代理,而Parcha则致力于构建用于客户身份验证(KYC)的代理。
Rails 上的代理人工智能代理(Agent):企业自动化、智能化转型的新架构
接下来,我们要探讨的代理类型是轨道代理,这类代理相较于决策代理,被设定了更为宽泛的目标(例如,“核对发票与总账”、“解决客户登录难题”、“代码重构”)以及更大的自由度,以选择达成这些目标的策略和工具。
尽管如此,轨道代理仍受到程序性知识的约束,即组织对代理行为方式的期望,这些期望通过“轨道”(以自然语言编写的规则集或操作指南)来体现。代理被赋予了一组预定义的工具,用于在外部软件系统中执行指定的操作,并受到护栏和其他审查机制的约束,以确保其输出的准确性和可靠性。
在运行过程中,轨道代理的行为模式可能如下:
代理首先评估应用程序相对于操作指南的当前状态(即确定其在决策有向图(DAG)中的位置),并检查当前节点可用的所有行动路径。
接着,代理会选择并执行最佳路径。每个路径可能包含以代码形式编写的预定义操作,甚至可能包含执行特定任务的附加代理,包括传统的检索增强生成(RAG)代理。
在采取行动之前,系统会进行审查和护栏检查,以确保代理的行为与组织期望保持一致,并避免产生误导性的结果。
代理根据操作指南评估新状态,并重复上述过程——从DAG中的新节点选择最佳路径并执行。
值得注意的是,这种架构相较于之前的设计增加了额外的复杂性,可能需要更强大的数据基础设施来支持,包括用于持久执行的数据存储、情景记忆、工作记忆和长期记忆的状态管理、多智能体协调以及护栏机制。
目前,领先的代理公司正将这种架构视为实现自主性和控制性之间平衡的关键。在客户服务与支持领域,涌现出了Sierra、Decagon、Maven AGI、DevRev和Gradient Labs等新兴的AI代理;在软件开发领域,有Factory AI和All Hands AI等;在财务后台领域,Sema4等代理也崭露头角;此外,在销售、安全运营和供应链等领域也有许多其他代理正在蓬勃发展。
通用人工智能代理在代理设计的探索之旅中,通用人工智能代理被视为尚未触及的终极目标,它构想了一种for循环架构,其中大型语言模型(LLM)的高级功能融入了之前设计的结构化“轨道”。这一设想中的代理将拥有动态推理、规划以及自定义代码生成的能力,从而能够在外部系统中执行任意操作,而非仅限于预定义的系统范围。
自2023年春季BabyAGI与AutoGPT的问世以来,这一理想目标的探索取得了显著进展。目前,最为复杂的设计当属语言代理树搜索(LATS),它将蒙特卡洛树搜索——这一AlphaGo背后基于模型的强化学习技术——应用于语言代理领域。LATS使代理能够探索多种实现目标函数的路径,并优先考虑那些潜在回报较高的路径,同时纳入反馈机制,并在必要时进行回溯调整。
在这一前沿领域的商业应用中,Reflection AI等新兴基础模型,以及Cognition、Nustom和OpenDevin/All Hands AI等编码代理正引领着潮流。这些应用展现了通用人工智能代理在实际场景中的潜力,预示着未来代理设计将更加智能化和自主化。