作者丨刘洁
编辑丨岑峰
天上一天,人间一年——这居然已经不是神话了?Jim Fan 团队的最新成果实现了 10,000 倍的超级加速:机器人在虚拟“道场”里训练了整整一年,但现实里只用了 50 分钟!而且训练结果无需微调,就直接无缝衔接到现实世界使用。再发展下去,说不定未来人们就能在虚拟世界里用一天体验一万年的生活,神话还是太保守了。更不可思议的是,这种 1 万倍加速体验,只需要少少的 1.5M 参数。再对比看看其他家模型的参数量,谷歌的 Gato 11.8 亿参数,Meta 的 TACO 2.5 亿参数,OpenAI 的 CLIPort 4 亿参数。这差距真是让人汗流浃背了。一刻也没有为十几亿大参数的过时停留,立刻来到战场的是 Jim Fan 团队的超迷你模型。“不是每个基础模型都需要大参数。”Jim Fan 表示,模型小小,超级有效。这个小身材大能量的模型还干了一件大事,通用。在此之前,机器人要完成不同的任务必须依赖特定的控制策略。举个例子,如果我们希望人形机器人进行导航,那就要依赖于根速度或位置跟踪进行专门优化;要是想让机器人去完成端茶、擦桌子这样的桌面任务,就需要优先考虑上半身关节角度跟踪。每换一个方向就要更改策略重新训练一次。这样的训练方式导致人形机器人只能进行技能专精,很难往我们想要的全能方向发展。那么有没有一种通用的训练策略,能够在不用更换控制模式的情况下训练多种任务呢?Jim Fan 表示,现在有了。前面提到的新模型叫 HOVER,是一个多模式策略蒸馏框架,出自英伟达的 GEAR 团队的最新研究,由李飞飞教授的学生 Jim Fan 和朱玉可共同领导,其余作者大部分是来自各大高校的华人学生和研究员。Jim Fan 团队找到的通用办法,是把全身运动模仿作为所有这些任务的共同抽象,并为机器人学习多种全身控制模式提供通用的运动技能。通俗点说,他们把导航、桌面操作等任务的共通点提炼成全身运动模仿,让机器人通过学习通用的运动技能来训练全身控制模式。一通百通,全身运动会了,端个茶带个路也是轻而易举。这一办法的灵感源自于人类潜意识的处理方式。人类在日常活动中,比如步行、维持平衡或是调整肢体动作时,大脑会不自觉地进行一系列计算,帮助我们迅速作出反应。Jim Fan 团队通过模仿这种潜意识的运作机制,将类似的“内在”计算能力引入机器人技术,推出了 HOVER(仿人通用控制器)。HOVER 能够使机器人学习如何精确控制电机,从而协调人形机器人的运动和操作,将多种控制模式整合成统一的策略。更重要的是,HOVER 还能在保留各模式独特功能的同时,实现模式间的自然衔接,从而打造了一支步调一致的机器人军团。具体来说,我们能用 HOVER 通过“提示”输入头部姿势、手部姿势、全身运动、关节角度等各种类型的高级运动指令,也可以训练任何可以在 Isaac(英伟达 AI 机器人开发平台) 中模拟的人形机器人。因此,HOVER 的通用不止是单个机器人动作模块的通用,更是支持多种机器人共同训练的通用。以前的机器人训练都是各家训各自的,不互通也很难移植已有的成果。现在在英伟达的 Isaac 模拟平台上,HOVER 让各家“杂牌军”都能协同进化,一跃成为“正规军”,伟大无需多言。Jim Fan 的通用野心也早有显露,“2024 年将是属于机器人、游戏 AI 和模拟的一年。”在 GEAR 团队成立之初,他在推文里自信地写道,“我们团队有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟三个问题。GEAR 可能是世界上最有钱的具身智能实验室。”Jim Fan 还配了一张英伟达股票暴涨的图片。这么一看 HOVER 的强大实力背后都是烧钱的味道。有钱任性,真好。而 GEAR 团队选择聚焦具身智能的核心原因,并不是因为财力雄厚可以随便造。对此,黄仁勋表示,“下一波 AI 浪潮,将是物理性的 AI。届时,AI 将可以理解物理原则,并与人类一起工作。”具身智能——在物理世界中具备互动和适应能力的 AI,正是英伟达及其顶尖团队认为未来 AI 演化的关键。具身智能的核心不同于虚拟环境中高度抽象化的 AI,而是强调 AI 的“具身性”,即让 AI 拥有实体,无论是机器人还是虚拟代理,从而直接与环境发生交互,在真实世界的复杂性中提升自我。Jim Fan 关注的正是对整个具身智能领域来说都很关键的问题:Sim2Real(simulation to reality,从模拟到现实),即将在仿真环境中学习到的知识或技能成功地应用到实际环境中。1还有谁也在关注 Sim2Real?Jim Fan 的同门师兄、同样毕业于斯坦福的苏昊,也选择了具身智能领域开辟属于自己的 Sim2Real 道路。(苏昊)
苏昊早年就读斯坦福时跟随 Leonidas J. Guibas 攻读博士,并得到了李飞飞教授的指导。在研究所时,他便是 ImageNet 数据集的重要贡献者之一,这一数据集成为日后 AI 领域公认的基石之一。
苏昊与 Jim 一样受到李飞飞教授的影响,最终转向了具身智能的研究,但二人的技术理念却渐渐有所不同。Jim Fan 借助生成式 AI 构建了庞大的虚拟世界模型,打造了一种能够低成本、高效率完成自我训练的模拟环境。通过这种方式,他让 GEAR 团队在虚拟环境中训练游戏 AI 和机器人代理,帮助 AI 以更快速、更适应性强的方式在虚拟环境中成长。模拟世界的庞大数据流,让 GEAR 能够模拟成千上万种场景,提升机器人和游戏 AI 的适应性。苏昊则沿着另一条轨迹,在真实世界的训练中寻找具身智能的根本。自从 3D 感知与建模成为 AI 领域的热点时,他开始关注如何在物理环境中提升 AI 的实时应变能力和自适应性。在 MIT 的一次活动中,苏昊以踢球为例解释了他对具身智能的认知,“当我们踢球时,我们的感知引导行动,行动又带来反馈。这种反馈不断调整我们的感知,甚至重塑我们对环境的理解。”在他看来,智能不仅仅依赖于大脑,还与身体和环境的互动密不可分。感知、认知、行动这三个要素的紧密结合,才是智能进步的关键。然而,巧妇难为无米之炊。数据短缺成了最大的瓶颈——没有充足的 3D 数据,再好的构想也难以施展。他想重走之前在斯坦福做过的事情,像做 ImageNet 一样,做一个 3D 的数据集。2015 年,苏昊领导团队发布了 ShapeNet,一个高质量的 3D 形状数据集,为 AI 提供了 220,000 个 3D CAD 模型,总计覆盖 3,135 类对象,是 AI 视觉识别中的重要数据资源。2017 年,突破性的点云处理网络 PointNet 深度学习模型问世,被誉为 3D 数据处理领域的 CNN。很可惜,这些开创性工作虽有成效,但 ShapeNet 和 PointNet 却没能带来像 ImageNet 那样的变革。3D 多模态数据的采集依然复杂、成本高昂,导致 3D 数据数量的增长依旧缓慢。从中学接触到最小生成树算法开始,苏昊就认识到,“人类的智能或许并不是那么独特,而是可能被机器复制的。”既然人类的智能可以复制,真实世界的数据也能被复制。为了破解数据收集成本高、速度慢的难题,他决定采用生成式方法——即不再局限于收集物理世界中的数据,而是直接通过 AI 生成数据。在这种思路下,苏昊在实验室里做了大量尝试后创立了 Hillbot,希望能凭借自己的技术解决实际的社会问题。Hillbot 的核心在于利用 3D 生成式 AI 技术,通过文字提示生成3D对象,再将生成好的 3D 对象,放入自主开发的模拟器 SAPIEN 中。这种方法通过生成数据和模拟真实环境中的互动,提供了源源不断的数据流。SAPIEN 模拟器不仅是一个 3D 渲染平台,更是一种多模态数据收集的工具,能够实时采集数据并与 AI 的多模态传感器组合,允许机器人在虚拟的物理环境中直接进行交互,以培养其应对复杂情境的能力。简单来说,只要有文字提示,Hillbot 就能通过 3D 生成技术生成对应的 3D 物体,几乎不再受到真实数据来源的限制,想要多少数据就有多少数据。Hillbot 的目标很宏大也很明确,利用 Hillbot 在机器人、模拟和 3D 生成式 AI 方面的尖端解决方案套件,释放人工智能和机器人技术的力量。这份自信并不是空穴来风,Hillbot 有独特的模拟数创建方法,能够避开避开高昂的成本以及繁琐冗长的训练过程。他们使用的 SAPIEN 模拟器也是目前市面上少有的速度快、性能高的机器人模拟器,通过真实性高的模拟技术,Hillbot 的团队可将机器人的训练速度提高 5 倍,并将训练时间从 12 个月缩短至仅仅几个月。在具体训练方法上,Hillbot 的团队还模仿了人类的任务处理模式,将复杂的任务分解成多个小的简单任务,让机器人能够逐步提高推理能力,有效提升机器人对复杂任务的适应能力。目前,Hillbot 的业务主要集中在工业和家庭任务上,比如汽车制造、仓储零售等。Hillbot 还在寻找合适的合作伙伴,采用市场上已有的机器人硬件,合作开发更加强大的通用机器人。苏昊的另一位师弟,新加坡国立大学助理教授邵林也在关注 Sim2Real 的问题。不过邵林关注的是另一个不同的方向,Real2Sim2Real,从现实再到模拟再到现实,将仿真方法应用于现实后比较它们的性能,根据仿真与现实的差异更新仿真模型和方法。邵林的论文《TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach》,被收录在即将召开的 CoRL 2024(2024 年机器人学习大会)上。这篇论文介绍了一个TieBot 机器人系统,采用 Real-to-Sim-to-Real 的学习方法,能够通过视觉演示教会机器人打领带。2Sim2Real 是AI的未来吗?“Sim2Real”概念最早可以追溯到 20 世纪末,当时的研究主要集中在如何让机器人在实验室或仿真环境中学习基本技能,并测试其在现实任务中的应用可能性。随着深度学习和机器人技术的进步,这一领域在 2010 年代迎来更高的关注。OpenAI、Meta 和谷歌等科技公司陆续开展研究,试图缩小虚拟仿真与现实之间的差距。2018 年,谷歌发表了一篇 Sim2Real 的相关论文,想让机器人学着像人类一样观察世界。传统的机器人依赖于固定视角的镜头来获取视觉输入,这也导致机器人很难在活动的情况下精准地执行任务。而人类能够在不固定自身视点的情况下,灵巧地操控各种物体,利用丰富的感官信号和视觉作为反馈来自行纠错。学习人类的视觉特点或许能对机器人的控制精准度有所提升。为此,谷歌开发了基于深度循环神经网络的视觉系统,使机器人无需校准摄像头便能灵活控制机械臂,提升了任务完成的精准度。与此同时,Meta 和其他研究团队在 Sim2Real 的物理仿真上继续深入探索,以期实现更高的模拟精度。尽管取得了一定进展,但早期机器人模拟器的效果往往不够理想,学界普遍对 Sim2Real 的实用性存疑。不过,随着 GPU 算力和 AI 技术的发展,各大研究团队也在高仿真度方面取得了重大突破。因此,人们对模拟技术有了更高的认可度,Sim2Real 也逐渐被认为是实现具身智能的最高效路径。在 Sim2Real 的探索中,各研究团队的切入点各不相同。前面提到的 Jim Fan 的 HOVER 主要做的是优化模拟环境,而苏昊选择的是深耕合成数据。根据 Scaling Law,训练具身智能机器人需要大量涵盖各种场景的多样化数据,然而,获取这些真实数据的成本极高且耗时耗力。因此,苏昊团队选择合成数据,创造跨越昼夜、季节、室内外的多种场景数据。这样一来,机器人就能够在虚拟环境中进行大规模、多样化的操作学习,涵盖不同操作对象、环境变化、机器人构型和传感器状态等条件。选择数据作为突破点的还有联想的 DexVerse™ 引擎,它通过自动生成具身智能任务所需的合成数据包,与 AI 模型训练同步,不再依赖于传统的大规模数据存储,从而极大提升了数据生成与模型迭代的效率。尽管技术取得突破,Sim2Real 的实用性仍面临“现实鸿沟”(reality gap)的挑战。仿真与现实环境在细节上的差异,如摩擦力、物体形变和碰撞等,可能显著影响模型在现实环境中的表现。尽管许多机器人在模拟中能够达到 99% 的准确率,但这 1% 的偏差在现实制造中可能导致巨大的隐患。而相比之下,不少人类经过短期培训后就能能够达到 100% 的准确率。虽然 Jim Fan 和苏昊团队选择了不同的突破方向,但两者的研究目标却殊途同归:如何弥合真实与虚拟之间的差距,才是他们研究的核心。Jim Fan的 HOVER 模型特别强调无需微调,即可将模拟结果有效迁移到现实环境中;而苏昊则提出生成数据和模拟数据之间是互补关系,探索多源数据的协同应用或许是理想的解决方案。李飞飞团队近期提出的“数字表亲”(digital cousin)概念也为 Sim2Real 的研究提供了新的思路和解决方案。实验表明,通过这一方法,无需额外微调,即可将模拟中生成的策略直接应用于现实世界。这一创新不仅能够提供更广泛的数据分布,还能有效克服从模拟到真实环境的差距。面对这些共同的挑战,越来越多的研究者开始意识到,打破单一任务适应的局限,扩展到多任务和跨设备的全局泛化能力,建立一个灵活且可扩展的开发环境才是关键。苏昊团队提出了统一接口的构想,希望通过易于插拔的仿真器、渲染器等模块,形成集成开发环境(IDE)。英伟达的 Isaac 平台也采取了类似的策略,组合加速库、应用框架和 AI 模型,为自主移动机器人(AMR)、机械手、机械臂及人形机器人等 AI 机器人开发提供稳定支持。Meta 的研究团队则推出了 Habitat 3.0 平台,支持在多种家庭和复杂场景中进行 AI 训练,通过创建可复制现实条件的合成数据集,进一步拓宽了 Sim2Real 的应用范围。这些努力在本质上都是为了实现机器人技术的高效整合与应用,为 Sim2Real 领域的研究提供更可靠的开发基础。3One more thing在 AI 领域有一个提得比较多的概念是“世界模型”,指的是一种用于描述和预测环境的内部模型。它通过学习环境的动态特征,使得智能体能够在未见过的情境中进行决策和规划。世界模型的设计灵感源于人类的潜意识推理能力。人类在日常生活中通过经验和知识的积累形成对周围世界的理解,能够迅速、无意识地利用多种感官信息进行推理与决策。例如,当我们走路时,脑海中会自动生成关于环境的“地图”,帮助我们避免障碍、保持平衡并选择最佳路径。这种无意识的认知过程正是是世界模型希望复制的目标,使智能体在复杂环境中同样能够作出迅速且有效的反应。其实,世界模型的概念早在传统的机器人研究中就有提及,不过现在的具身智能研究则更多地希望利用类似世界模型的概念,通过强化机器人对环境的感知来解决 Sim2Real 的问题。Jim Fan 也在介绍 HOVER 时提到,人类需要大量的潜意识处理才能走路、保持平衡并将我们的手臂和腿操纵到所需的位置。HOVER 就是在变相地捕捉这种“潜意识”,学习如何协调人形机器人的电机以支持运动和操作。当前的具身智能研发的主流趋势是做通用机器人,在此基础上根据具体的应用任务进行特定方向的调整。无论是通用还是专用,机器人对环境的感知都是一个关键课题。举个例子,如果我们想让机器人完成拿起书本的动作,机器人必须能够识别书本的位置以及与其的交互方式。这一过程对所有类型的机器人来说都是通用的,因为环境感知是实现各种任务的前提。像 Hillbot 的文生 3D 和其他团队研究的图生 3D,都是以丰富数据的形式构建一个更真实的模拟环境,让机器人能够更好地感知世界。随着世界模型的不断发展,AI 的应用前景将更加广泛。从自动驾驶到智能家居,从医疗机器人到生产自动化,这些技术都将依赖于强大的世界模型。通过更好地理解和模拟人类的潜意识推理过程,未来的机器人将能够更有效地与环境互动,实现真正的自主智能。参考资料:https://hover-versatile-humanoid.github.io/https://x.com/DrJimFan/status/1851643431803830551https://www.hillbot.ai/about
雷峰网成立了机器人读者群,希望进群的读者请添加编辑微信 aitechreview、并备注姓名-单位-职位。