MLLM作为检索器：具身智能体的交互学习多模态检索

摘要

这篇论文提出了一种新的方法，名为MLLM As ReTriever (MART)，它通过利用交互数据来微调多模态大语言模型（MLLM）检索器，从而增强具身智能体（embodied agents）的性能。这种方法基于偏好学习，使检索器能够充分考虑轨迹的有效性，并为未见任务优先考虑它们。此外，论文还介绍了一种轨迹抽象机制，利用MLLM的总结能力以更少的标记表示轨迹，同时保留关键信息，使智能体能够更好地理解轨迹中的关键点。实验结果表明，MART在各种环境中显著提高了任务成功率，与基线方法相比。

研究背景

具身智能体在复杂环境中交互时，需要理解当前上下文和任务特定领域知识以有效执行任务。尽管多模态大型语言模型（MLLM）在处理文本和视觉数据方面展现出潜力，但这些模型通常缺乏在智能体操作的具体环境中的有效基础，限制了它们在具身任务中的性能。

主要贡献提出了MART，这是第一个将交互学习与检索器结合的方法，使用交互反馈来微调MLLM检索器，以评估轨迹的有效性。引入了轨迹抽象机制，利用MLLM的能力显著压缩轨迹，同时保留关键信息，使智能体能够在新情境中有效使用这些压缩知识。通过在不同环境中的实验验证了MART的有效性，展示了在未见任务上的显著性能提升。研究方法

MART方法通过以下步骤实现：

使用专家轨迹作为MLLM智能体的提示，并让智能体与环境交互，收集不同参考轨迹的成功执行率。将交互反馈数据组织成偏好对，用于微调MLLM（在论文中使用的是LLaVA模型）。引入轨迹抽象机制，通过MLLM的总结能力来表示轨迹，减少了标记数量，同时保留了关键信息。

实验结果

在AI2-THOR和LEGENT环境中进行的实验表明，MART在未见场景中的任务成功率显著高于基线方法。在不同环境中，MART一致地超过了基线10%以上。

结论

MART通过交互学习增强了具身智能体的性能，通过提供与任务相关的轨迹数据，利用基于交互的反馈来识别最有效的轨迹，并构建偏好对。此外，MART还引入了轨迹抽象机制，利用MLLM的总结能力来抽象轨迹，减少了表示它们的标记数量，同时保留了关键信息，使智能体能够更好地理解相关轨迹中的信息。实验结果表明，MART显著提高了在未见任务中的任务成功率。

一句话总结

这篇论文介绍了MART，一种新的方法，通过交互学习和轨迹抽象来提高具身智能体在未见任务中的性能，显著提高了任务成功率。

论文链接https://arxiv.org/abs/2410.03450

玩酷网

MLLM作为检索器：具身智能体的交互学习多模态检索

热门分类