最近,一款名为MANUS的AI软件引发了热议。媒体纷纷将其往AGI(通用人工智能)方向大肆宣扬,可大家都知道,我向来是个理智的“泼冷水博主”。MANUS到底是不是AGI呢?很显然,它不是。
严格来讲,MANUS应被称作Autonomous AI,即自治AI 。

MANUS的核心能力在于planning(规划),给它一个任务,它能够拆解任务,并依据任务的每一步自行执行,最终将整个流程串联起来。MANUS之所以能诞生,根本原因在于基础模型能力的提升。
这两年模型能力飞速发展,其实在2023年类似产品的概念雏形就已出现,当时火爆一时的AutoGPT,与MANUS的理念基本一致,都是面对任务时,能够自行拆解并分步骤执行,而任务拆解能力正是其中的关键 。

MANUS产品的Demo测试了一些案例,如简历筛选、市场分析等,这些案例相对简单。关键在于,它对任务分步骤拆解所形成的工作流是否合理。
这其实还是依托基础模型的能力,大语言模型本质上是端到端的,没有中间步骤,所谓的自治AI通过端到端的方式强行将任务拆解成不同步骤,这是“假拆”而非“真拆”。
重点在于,这种假拆出来的步骤,效果是否能与真拆相媲美。并且在执行每个步骤时,还需判断是使用大语言模型,还是调用其他各类软件。

MANUS
比如,一直以来大家纠结大模型无法判断9.8和9.11谁大,实际上,了解AI原理后就会明白,这根本不是关键问题。9.8和9.11谁大不应由大模型判断,而应交给计算器。AI要做的是,当被问及9.8和9.1谁大时,能知道该调用计算器,问题便迎刃而解。
所以MANUS能达到当前水平,根本原因是基础模型比以往进步,工作流拆解更靠谱,假拆效果接近真拆,同时能准确判断不同步骤是继续使用大模型,还是调用软件API,准确率有所提升 。

那为什么说MANUS还远非AGI呢?因为MANUS仅仅初步达到了AI发展的第三层,也就是自治AI。
如果像自动驾驶从L1到L5分级一样,给AI发展也划分五个层级,分别是conversational(对话)、reasoning(推理)、autonomous(自治)、innovation(创新)、organizational(组织)。

大语言模型诞生后,AI便具备了对话能力,这是第一层。
第二层是推理,虽说现在所有推理都是“假推理”,并非系统2的真推理,但只要效果够好,应对不太复杂的案例也可行。
第三层自治,即给AI一个任务,它能自行拆解并执行,且效果良好,MANUS做到了这一点。
第四层创新,在一些精专领域,如阿尔法折叠在蛋白质折叠领域已展现出创新能力,因为创新本质是旧元素的新组合,精专领域元素较少,容易组合出靠谱成果。但通用场景元素众多,组合出靠谱成果的概率较低,而AGI的创新应体现在通用场景。
第五层组织,AI能自行形成组织,自发定义问题、解决问题,不同的智能体(agent)能通力合作,将前四个阶段的AI完美组织起来,达到这一阶段,才基本算是达到AGI 。

MANUS的成功主要得益于基础模型能力的提升,它是一款自治AI,已具备一些AGI的影子,方向正确,但距离AGI仍有一定差距。

要达到AGI,毫无疑问,仍需依赖基础模型的持续进步,甚至像我之前一直强调的System 2,真正意义上的推理系统。在AI发展的道路上,MANUS只是一个重要的阶段性成果,未来还有很长的路要走。
本文来源@严伯钧