当你学习一项新技能时你会怎么做?
相信大多数人对于简单的技能只需看一段视频教程,或者读一篇图文指南,就能迅速掌握要领并尝试实践。
这种“一看就会”的能力在很大程度上得益于我们强大的认知能力和直觉判断,而这也正是机器人替代人类所需要迈过的重要门槛。
一般来说,传统机器人学习新技能需要经过任务定义、数据收集、模型设计、训练、模拟、实际测试、反馈迭代等多个环节。
但近年来,随着基础模型(Foundation Models),尤其是大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,模仿学习成为机器人快速学习技能的有效途径之一。
通过模仿学习,机器人可以通过观察动物或人类的运动来学习相应的技能。然而,现有的模仿学习方法往往存在数据需求量大、领域知识依赖性强、奖励函数设计复杂等问题。机器人学习新技能时,往往依赖于大量的手动标记、特定领域的知识和大量的训练数据,即使学习单一技能也极具挑战性。
因此,如何利用基础模型自动生成和优化奖励函数,从而实现高效的机器人技能学习,具有重要的理论和实际意义。
▍提出SDS方法,实现动物多样化敏捷运动技能复制
面对这一行业难题,来自伦敦大学学院计算机科学系机器人感知实验室的研究团队近日对此进行了深入研究,并针对复制动物多样化的敏捷运动技能这一机器人学中的挑战,提出一种创新的四足动物技能学习管道——SDS(See it, Do it, Sorted),实现了让机器人从单个演示视频中直观地学习四足动物的运动技能,减少了对手动奖励工程和大规模训练数据集的需求,提高了机器人技能学习的效率和灵活性。
SDS核心在于利用GPT-4o的视觉能力处理输入视频,并通过新的链式思维促进技术(SUS),自动生成可执行的奖励函数,以驱动机器人在模仿环境中学习相应的运动技能。
具体来说,SDS方法在设计层面主要依托了以下几大核心技术的应用:
视觉语言模型的应用:利用GPT-4o等先进的视觉语言模型,SDS方法能够将输入的演示视频转化为丰富的语义信息。这一过程不仅捕捉了视频中的视觉细节,更将其转化为机器可理解的格式,为后续奖励函数的生成奠定了坚实基础。
链式思维促进技术(SUS):为了应对复杂任务带来的挑战,SDS方法引入了SUS技术。这一技术通过分解任务为多个易于理解的子步骤,引导模型进行更为精确和连贯的问题解决。这种分而治之的策略显著提升了奖励函数的生成质量,使其更加贴合实际任务需求。
自动奖励函数生成与优化:SDS方法利用GPT-4o生成多个奖励函数样本,并在模拟环境中进行训练。通过实时监控和评估这些奖励函数的性能,SDS方法能够自动筛选出最优的奖励函数,进而实现任务适应度的最大化。
强化学习训练:在模拟环境中,SDS方法采用强化学习算法(如PPO)对四足机器人进行训练。通过不断试错和学习,机器人逐渐掌握了根据奖励函数执行相应运动技能的能力。
而从技术处理流程的角度来看,SDS方法的运作过程中主要包含以下几个关键步骤:
视频处理:首先,SDS方法对输入的演示视频进行网格化处理,以增强视觉信息的连贯性和可读性。同时,利用SUS技术将任务分解为多个子步骤,并生成详细的任务描述和提示。这些处理步骤为奖励函数的生成提供了丰富的信息和指导。
奖励函数生成:接下来,SDS方法将处理后的视频、任务描述和提示输入GPT-4o模型。模型根据这些信息生成多个奖励函数样本,这些奖励函数涵盖了不同的奖励组件(如脚步接触状态、关节角度和关节速度等),为四足机器人的运动提供了全面的指导。
强化学习训练:在NVIDIA IsaacGym模拟器中,SDS方法利用PPO算法对四足机器人进行训练。通过执行生成的奖励函数,机器人不断尝试和学习如何在模拟环境中执行相应的运动技能。这一过程不仅提升了机器人的运动能力,还增强了其对环境的适应能力。
自主评价与进化:在训练过程中,SDS方法持续监控奖励函数的各个组件,并评估其性能。通过将训练数据和适应度指标反馈回GPT-4o模型,SDS方法能够不断优化和进化奖励函数。这种迭代式的优化过程确保了最终生成的奖励函数具有最高的任务适应度。
技能验证与迁移:最后,SDS方法在模拟环境中验证学习到的运动技能,并将其迁移到真实世界的四足机器人上。通过实际测试,SDS方法能够评估其在真实环境中的表现,并验证其有效性和实用性。
▍四大演示测试,全面评估SDS方法有效性
为了验证SDS方法的有效性,并全面评估SDS方法的性能,研究团队使用了四个不同的演示视频,分别展示了四足机器人的小跑、跳跃、溜步和单足跳技能。通过SDS方法,机器人学会了这些技能,并在模拟和真实环境中进行了测试。
而后,研究团队通过动态时间规整(DTW)分析、接触序列复分析和机器人在连续运行一分钟内的重置次数和基高度波动情况分析就模仿的准确性、步态的相似性和稳定性进行了分析评估。
实验结果表明,SDS方法能够高效地生成奖励函数,并指导四足机器人在模拟环境中学习多种运动技能。在真实世界的测试中,机器人成功执行了小跑、跳跃、溜步和单足跳等技能,表现出高度的模仿准确性和稳定性。
具体而言,DTW分析结果显示,机器人执行技能时的视频帧序列与演示视频高度相似,距离度量值在e-6量级。接触序列分析表明,机器人的步态与演示视频中的步态一致,能够准确捕捉关键的运动特征。稳定性评估显示,机器人在执行技能时保持稳定,未出现重置情况,基高度波动较小。
与现有最先进的方法相比,SDS方法在任务适应性、减少领域知识依赖和提高训练效率方面表现出明显优势。例如,与Eureka方法相比,SDS方法无需手动构建任务适应度函数,通过视觉输入和自主评价实现了奖励函数的自动优化。与RoboCLIP方法相比,SDS方法利用更具通用性的GPT-4o模型,实现了更好的四足机器人运动性能。与SLoMo方法相比,SDS方法训练速度更快,无需依赖外部工作站进行轨迹优化和在线MPC计算。