微软也逐渐地疏远openAI的chatGPT了,他们自己开发了大行动模型LAM(Large Action Model),那么这个LAM与GPT相比到底怎么样呢?我是陈谈,欢迎大家点赞和关注,接下来我们一起来看看这款大行动模型到底怎么样。
据悉,LAM旨在超越单纯生成文本的范畴,能够在Windows环境中实际执行任务。它被设计用来解析用户指令,创建逐步解决方案,并在诸如Microsoft Word、Excel和PowerPoint等应用程序中执行这些解决方案。
其主要目标是架起仅能产生文本的语言模型与能够直接与操作系统互动的模型之间的桥梁。该模型训练依赖于监督微调、模仿学习和强化学习等多种方法的结合,赋予了它在动态环境中规划和执行的能力。
为了训练数据,微软团队收集了大量材料,包括任务描述和真实操作序列。主题范围从简单的如改变字体或在Word中高亮文本,到更复杂的涉及用户自定义样式、表单填写和多步骤格式化任务。
此外,他们还采用了一种名为数据演变的方法,其中GPT-4通过引入额外条件或指令增加基本任务的复杂性,最终构建了超过76,000个任务计划。同时还创建了任务行动数据,即配对基于文本的计划与实际的点击或输入操作。
重要的是,他们的训练管道分为四个主要阶段,逐步提升AI能力的,具体如下:
第一阶段,教授一个基础模型Mistral 7B如何为不同任务编写连贯的计划,该模型成为LAM1,可以概述例如如何在Word中插入图片或选择字体,但尚不能处理点击或输入等实际交互。
第二阶段,使用2192个由GPT-4标记的成功示例,每个示例展示Word界面不同状态下的动作序列。通过模仿这些示例,模型进化为LAM2,现在可以生成动作步骤并复制用户或专家AI的行为,比如选择正确的菜单项或输入文本。
第三阶段,让LAM2尝试GPT-4未能成功完成的任务,找到新的解决方法,贡献了496个额外成功的动作序列。经过使用新数据重新训练后,得到了LAM3。
最后是第四阶段,引入了一个奖励模型,根据动作是否成功分配正负分值,并使用强化学习优化决策,最终产生了LAM4,系统地吸取了成功和失败尝试的经验教训。
从训练上来看,他们的训练似乎很科学合理,那么真实测试又是怎么样的?我们分两个部分来看。
第一,离线测试了LAM在约435个Word任务上的表现,涵盖了从打开空白文档到更高级格式化任务的一切内容,测量了成功率、逐步骤准确性及模型能否正确选择接口对象和操作。
结果显示每个阶段都有改进:LAM1达到了约35.6%的整体成功率;LAM2到了约76.8%;LAM3提升到了约79.3%;而带有强化学习的LAM4达到了约81.2%。相比之下,GPT-4在纯文本模式下约为67.2%,而较小的GPT-4 Mini模型约为62.3%。GPT-4带有视觉输入时接近LAM4,达到75.5%,但仍落后。
第二,在线评估,在Windows环境中进行的,让Word运行在专用虚拟机上。LAM在相同的435个任务中实现了约71.0%的成功率,平均每个任务耗时30至42秒。
GPT-4带文本输入的成功率为约63.0%,耗时约86至42秒;GPT-4带视觉输入的成功率为75.5%,但需要大约96至48秒,且每步延迟有时超过19秒。
LAM通常每个任务完成约5.62个步骤,每个步骤平均耗时5.41秒。GPT-4在文本模式下要慢得多,而虽然GPT-4 Mini比大型GPT更快,但仍落后于LAM。
他们的离线和在线评估表明,专门为一组任务训练的模型可以在特定领域胜过通用模型,通常专门训练和狭窄领域可以使行动模型更加准确和高效,因为它不需要产生完全开放式的响应。
对比后也不难发现,LAM可以将用户请求转化为实际行动,如操作软件、控制机器人等,标志着人工智能从只会说做事情到真正能做事情的转变。一个根据指令采取行动的AI新时代似乎要来了?
不过,一个可以在最小监督下运行应用程序的模型如果误解命令或偏离轨道,可能会带来安全问题,后果可能是严重的。对此大家怎么看呢?