玩酷网

开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体

智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。

近期,普林斯顿大学AILab推出了Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的MCP工具。

论文标题:ALITA:GENERALISTAGENTENABLINGSCALABLEAGENTICREASONINGWITHMINIMALPREDEFINITIONANDMAXIMALSELF-EVOLUTION

论文链接:https://arxiv.org/abs/2505.20286

Twitter:https://x.com/JiahaoQiu99/status/1927376487285432790

GitHub:https://github.com/CharlesQ9/Alita

Alita目前已在GAIAvalidation基准测试中取得75.15%pass@1和87.27%pass@3的成绩,一举超越OpenAIDeepResearch和Manus等知名智能体,成为通用智能体新标杆。Alita在GAIAtest上也达到了72.43%pass@1的成绩。

极简架构设计,最大自我进化

「让智能体自主创造MCP工具而不靠人工预设」,是Alita的核心设计理念。

现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流,这种方法有三个关键缺陷:

覆盖范围有限:通用智能体面临的现实任务种类繁多,预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合GAIA,不具有泛化性。

创造力与灵活性受限:任务的难度可能超出了预定义工具或工作流的能力范围。复杂任务通常需要智能体创新性地使用新工具,或以新的方式组合和利用现有工具,而预定义的工具库和工作流会制约这种创造性和灵活性。

适配失配:不同工具的接口或环境未必与智能体兼容。例如,许多有用的工具并非用Python编写,这使得它们难以(尽管并非不可能)提前预接到主要以Python编写的主流智能体框架中。

这些挑战共同限制了现有通用智能体的创造力、可扩展性和泛化能力。

与当前日益复杂的趋势相反,Alita团队认为对于通用智能体而言,「simplicityistheultimatesophistication」。遵循这一原则,Alita实现了可扩展的动态能力、增强的创造力与灵活性,以及跨生态系统的兼容性。Alita团队由此提出了两大设计范式:

最小化预定义:仅为智能体配备最核心的基础能力,避免为特定任务或模态设计人工预定义的组件。

最大化自进化:赋予智能体按需自主创建、优化和复用MCP工具的能力,实现自我进化。

具体而言,Alita仅内置了管理智能体(ManagerAgent)和网页智能体(WebAgent)作为其核心内部组件,以及少量支持自主能力扩展的通用模块,而不依赖繁杂的预定义工具库和固定工作流程。Alita利用了ModelContextProtocols(MCP)这一开放协议,使智能体系统能根据任务需求动态生成、修改和复用MCP工具。相较于一般的工具创建,MCP创建还具有更好的可复用性与更简易的环境管理等优势。这种从人工设计工具和工作流到即时构建MCP工具的转变,为构建简约而通用的智能体开辟了新路径。

Alita的执行流程:简洁而高效

整体设计理念与系统架构

Alita基于「最小预定义+最大自主进化」的设计范式,其总体结构十分简单,仅由三个关键组件构成:

ManagerAgent:充当中央协调器的角色,分析任务需求,调度不同模块和工具,执行最终的聚合与回答生成。

WebAgent:负责搜索有用的外部信息,包括开源代码、文档等。

MCP创建组件:由MCPBrainstorming、ScriptGeneratingTool、CodeRunningTool三个模块组成,能够进行自我能力评估、脚本生成与代码执行,还能够动态生成MCP工具并实现自我进化。

在整个流程中,Alita通过不断创建、验证、优化新的工具,从而实现持续演化的智能闭环。

三大核心能力模块

MCPBrainstorming模块:分析任务,思考需要什么工具

Alita的第一步是调用MCPBrainstorming模块,对输入任务进行分析。该模块会评估当前智能体是否已经具备完成任务所需的能力和工具:若已具备能力,就快速调度相应的工具;若能力缺失,则生成「能力缺口描述」和「MCP工具构建建议」,以便后续创建新的MCP工具。

脚本生成模块:实时创建工具

检测到能力缺口后,Alita会启动脚本生成模块。该模块根据管理智能体提供的任务描述与工具构建建议,结合网页智能体检索到的开源资源,生成一套可执行的外部MCP工具代码。Alita生成的MCP工具代码有良好的封装性与通用性,可直接集成进任务流程并支持后续复用。

代码运行与验证模块:确保工具能用,并不断优化

新生成的工具首先会在虚拟环境中执行测试。系统会根据输出判断工具是否符合预期。如果工具运行成功,它将被正式注册为可复用的MCP服务,纳入任务调用体系;若运行失败,系统则会自动进入诊断与修复流程,尝试调整依赖版本、修改关键参数,甚至在必要时放弃当前工具,转向新的解决方案。此外,每次运行过程都会被详细记录,以支持后续模型学习与工具演化,真正实现「自我进化」。

自我工具创建:Alita的秘密武器

Alita能够自主创建并优化任务所需的工具,最后将新的工具打包为MCP,可以在未来进行复用,或是给其他智能体系统使用。

例如,用户的任务是询问「这份PPT中有多少页提到了甲壳类动物?」如果预定义的PPT处理工具仅将所有内容转换为文本,就可能无法提取页码信息并回答问题。但Alita会动态创建一个合适的PPT处理工具,并将其封装为足以解决该任务的MCP。

另一个场景是,用户的任务涉及YouTube视频理解。现有的某些通用智能体所预定义的视频分析工具仅是一个YouTube字幕抓取工具,然而部分视频理解任务需要更深入的分析,仅读取字幕无法彻底解决问题。Alita能创建逐帧读取视频的MCP来解决更复杂的视频理解任务——这种任务特定的MCP创建会根据任务难度动态调整。由于不是视频理解领域的专家,Alita团队无法预先构想此类工具如何实现,直到Alita自动给出这个解决方案。该视频理解组件后来还被复用至团队的另一项工作《迈向多模态历史推理:HistBench与HistAgent》(代码库已开源)。

Reference:OnPathtoMultimodalHistoricalReasoning:HistBenchandHistAgent

Link:https://arxiv.org/abs/2505.20246

性能突破:GAIA基准测试的新标杆

GAIA的终局已至,Alita正是最终的答案。

在GAIA基准测试中,Alita展现了卓越的性能表现。GAIA作为评估通用AI助手实际解决问题能力的标杆测试,共包含450个涵盖不同难度级别的测试题目。

Alita在GAIAValidation测试中取得了75.15%的pass@1和87.27%的pass@3准确率,暂时位居所有通用智能体的第一位,超越了OpenAIDeepResearch(67.36%的pass@1)和Manus。在数学推理测试Mathvista和医学图像识别PathVQA测试中,Alita也分别达到了74.00%和52.00%的pass@1准确率,优于许多装备复杂工具库的智能体系统。

这些结果也表明,简约架构并非性能限制,反而是激发智能体创造性行为的关键。通过强调最小化预编写工具和最大化自主进化的设计哲学,Alita成功实现了简洁与性能的统一。

有趣的是,在Alita团队发推特的第二天,GAIAvalidation榜单被移除,Alita团队提出,或许是时候迈向HLE、BrowseComp和xbench了。

MCP复用:智能体蒸馏新范式与自我进化

在Alita构建过程中,系统会动态生成一系列高质量的MCP,作为解决任务的中间产物。值得注意的是,这些MCP的价值远不止于完成一个任务这么简单,它们可以在后续任务中被Alita调用,显著提高性能和效率,也能被其他智能体复用。

具体来说,Alita生成的MCP工具箱具备双重优势:

其一,智能体蒸馏,自动生成MCP的复用可视为一种全新的智能体蒸馏机制,相比传统蒸馏方法,其成本更低且更高效。

强智能体指导弱智能体:这些MCP可由其他较弱智能体复用,由Alita(而非人类开发者)通过试错设计出适配特定任务的MCP集,能显著提升其性能。在不改变底层模型配置的情况下,仅通过引入Alita生成的MCP,OpenDeepResearch-smolagents在GAIA上的平均准确率从27.88%提升至33.94%,实现了在所有难度等级上的一致性能提升。

基于大模型的智能体指导基于小模型智能体:这些MCP同样可被小模型智能体复用并显著提升表现。即便使用算力更小、推理能力更弱的GPT-4o-mini模型,Alita所生成的MCP也能显著提升其性能:准确率从21.82%提升至29.09%,Level3的准确率更是提升了三倍(3.85%→11.54%)。

其二,自我进化,使Pass@1方法实现Pass@N效果:MCP工具箱与Alita连接后,可将单次尝试的通过率提升至近似多次尝试的水平。

结语:简约设计引领通用智能体未来发展范式

Alita的成功证明,在智能体设计中,简约性并非功能限制,而是系统演进的驱动力。当传统方案陷入「工具膨胀,性能停滞」的困境时,Alita通过动态协议机制实现了「架构简化,能力增强」的正向循环。我们也相信,随着大语言模型编写代码和推理能力的不断提升,Alita将会变得更加强大。未来通用AI助手的设计或大幅简化,无需任何预定义工具和直接解决问题的工作流。相反,开发者可能更专注于设计激发通用智能体创造力与进化潜能的模块。

随着人工智能技术向通用化方向发展,这种融合简约设计与自主进化特性的范式,必将成为构建下一代智能体的关键技术路径——既保持核心系统的优雅简洁,又能通过持续演化获得近乎无限的扩展能力。