终极通用人形机器人，科技巨头掀起角逐

文丨海天

人形机器人是未来，在AI的加持下，未来似乎不再遥远。

在许多科幻电影中，我们看到过无所不能的机器人，比如《星球大战》中的C-3PO，它们游走于街道，成为人类的好帮手。可惜多年过去了，这样的机器人仍然遥遥无期。

斯坦福大学机器学习、机器人专家Alexander Khazatsky说：“下一代人有可能会看到科幻电影中的机器人变成现实。”

无论是谷歌DeepMind还是OpenAI，都在努力开发通用学习算法，它可以驱动聊天机器人，也可以驱动人形机器人。科学家的最终目标是让机器人具备常识，如此一来才能执行多种任务。许多人相信，机器人完全可以变得超好超快。

英伟达机器人营销经理Gerard Andrews说：“我们相信，机器人正处于跨越式发展的转折点。“

AI可以帮助机器人升级，机器人也可以诱导AI快速进化。”

如果能在AI训练时导入具身经验，也许能让AI真正变成AGI。

所谓具身经验就是指个体通过身体与环境的互动获得知识和经验。一旦实现AGI，AI将会拥有人类一样的认知能力。

Meta研究人员Akshara Rai说：“通往真实智能的最后一步必然是物理智能。”

虽然将AI注入机器人让人兴奋，我们也看到许多企业展示研究成果，但这些成果仍然有很大水分，仅仅是展示，是炒作。MIT机器人专家Rodney Brooks认为，从展示到真正部署还有很远的距离。

要想达成目标还有很多困难要克服，例如，研究人员首先要抽取海量正确数据，用正确数据训练机器人，还要考虑到硬件问题和安全问题。新加坡国立大学人机交互专家Harold Soh称，到底应该开发怎样的机器人基础模型，关于这一问题还需要继续探索，选择此路线能否真的演化出机器人革命，Harold Soh保持怀疑。

基础模型是机器人的根本

我们这里所说的“机器人”含义很广，包括多种类型的自动化设备，比如制造行业所用的机械臂、无人驾驶汽车、战场无人机、救援设备，这些设备一般用来执行特定任务，在特定环境工作，而且在一定程度上需要人类监督。

即使是波士顿动力开发的Atlas机器人，它展示了惊人的技能，但Atlas也需要绘制环境地图，然后才能执行一系列动作，这些动作也是预先训练过的，动作以模板的形式保存，机器人只是按照模板行动。

也就是说，Atlas并不是通用机器人，更没有达到AGI的水平。

研究人员想开发出更加自主的机器人，它可以适应多种任务环境。如何做？首先就是要开发出更强大的机械臂，在工厂内，它可以拿起任意物件并放下，接下来要演化出人形机器人，它可以服务企业，照顾老年人。

让机器人具备人体形态是很复杂的，而且在执行特定任务时人形并不一定是最优解，但人形特征可以很好匹配我们所处的世界，毕竟这个世界被人类改造过。人形机器人可以按照人的形式与世界互动。

问题在于，控制机器人相当困难，更何况是人形机器人。即使是超简单的任务，比如打开房门，对机器人来说也超级复杂，机器人首先要明白不同房门的运行机制，要知道施加多大的力道，还要知道如何保持平衡。真实世界远比打开房门复杂千万倍，而且真实世界在不断变化，机器人还无法应对。

AI行业已经开发出大量模型，它们是图片生成工具、聊天机器人的核心，研究人员想用这种模型控制机器人。这些模型有点像人脑神经网络，它可以从海量数据中学习知识。

和生成式AI模型一样，机器人基础模型也是用网络图片和文本训练的，然后再添加一些关于处理对象的自然属性信息及环境信息，还要提供一些机器人运行实例，让模型学习。例如，我们可以用机器人试错视频训练模型，也可以用人类远程操纵机器人的视频来训练。

训练后的机器人基础模型可以观察各种场景，学会之后就能推理预测，判断哪种行动会带来最好的结果。

企业是怎样做的

谷歌DeepMind已经开发出比较先进的机器人基础模型，也就是Robotic Transformer 2 (RT-2)，它可以控制Everyday Robots提供的机械臂。

RT-2模型是用互联网数据和机器人运行视频训练的。由于网络数据庞大多样，当人类下达超出常规的命令时，RT-2机器人即使遇到之前没有见过的动作也能执行。

例如，研究人员在训练时让RT-2学会多种动作，当中没有涉及马斯克，当研究人员要求RT-2将一杯饮料放在马斯克的照片上时，它仍然能做到。

换言之，AI从互联网信息中学习知识，然后将这种学习与机器人动作融合。

DeepMind机器人专家Keerthana Gopalakrishnan称：“大量互联网概念转移到动作。”要应对多种多样的场景，机器人本来需要大量物理数据，现在它所需要的的物理数据量大大减少。

当我们训练聊天机器人时，它会从无数互联网词汇中学习，但是关于机器人动作的数据远没有那么多，因为缺少数据，机器人进步缓慢。

为了解决此问题，DeepMind开发出DROID2数据集。

德国Franka Robotics公司推出过Panda 7DoF机械臂，DeepMind让全球18个实验室的研究人员远程操纵机械臂运动，拍摄长达350小时的视频数据，然后将视频信息收集在一起，变成DROID2，再用它训练机器人。

机器人身上的摄像头将各种环境下的视觉信息收集在一起，比如在浴室是怎样的，在厨房又是怎样的，当机器人能应付多样环境时，就能应对之前没有遇到过的场景。

还有十多个实验室也分享自己的机器人数据。

合作者们认为，如果有一具机器人身体能理解物理世界，那么让其它机器人学习时就会变得更容易。大语言模型如果能理解英语，就更容易理解中文，因为二者的底层逻辑基本是一样的。

2023年10月合作者们发布RT-X基础模型，它在真实世界的表现好于过往模型。

由此看来，要想让机器人变得通用、实用，必须具备应付多样化环境的能力。

Covariant公司的AI研究人员Peter Chen称：“我们相信，真正的机器人基础模型不应该局限于一种环境。”

目前Covariant正在努力收集机器人数据，从2018年开始它已经收集30种不同机械臂的运行数据。公司开发的Robotics Foundation Model 1 (RFM-1) 不只收集视频数据，还有传感器数据，比如举起了多重的东西，施加了多大的力度。有了这些数据的帮助，机器人才有可能处理粘糊糊的东西。

Covariant已经构建庞大的数据库，里面包含数以千亿计的Tokens，如此庞大的信息量和GPT-3训练数据的规模差不多。

Peter Chen称：“我们收集的真实世界数据比其它企业多，因为这是我们关注的重点。”

想获得更多动作数据还有一个好办法，专门开发人形机器人，因为它可以观看人类动作视频并学习。

英伟达开发的Project GR00T基础模型就是按这个路子走的。

虽然观看人类动作视频能学到不少东西，但机器人毕竟不是人，训练后的机器人无法做得像人一样完美。在机器人运动视频中包含环境、命令数据，而人类运动视频中没有这样的信息，前者方便机器人学习，后者却存在诸多障碍。

虚拟现实帮人类获取无限物理数据

如何获得无限的物理数据呢？通过模拟可以获得。

机器人专家们正在努力构建3D虚拟现实环境，它模拟现实世界的物理特征，然后用仿真环境训练机器人算法。模拟可以生成无限数据，人还可以与机器人在虚拟环境中互动。

英伟达高管Andrews称：“如果你非要买回一大堆各种类型的机械臂，不断训练，让它们个个达到很高的灵敏度，那会累死人的。”

如果能打造出模拟世界，那就容易多了。模拟世界有很好的物理特性，但这种物理特性并不完美。当然，要打造多样化的模拟环境并不容易，和收集多样化数据一样复杂。

Meta和英伟达已经投入巨资打造模拟世界，目的也是收集机器人数据。Meta开发了Habitat，英伟达开发了Isaac Lab。在模拟环境中，机器人只需要几小时就能学到相当于几年的知识，然后就可以将学到的知识应用于现实世界。

实际上，模拟是相当强大的工具，业界还是低估了它的能量。

很多专家认为，有了出色的基础模型，人类可以打造出真正的通用机器人，它可以取代人类劳力。有些企业展示过超智能机器人，比如Figure，但它们都没有告诉外界机器人的基础模型是如何训练的，我们也不知道机器人在不同场景中表现如何。

演示视频看起来都很好，但如果将产品放到复杂环境中，机器人可能又会变得弱智，就像无人驾驶汽车一样。

前方还有哪些障碍和挑战

AI研究团队将主要精力放在机器人大脑上，但一些人提醒称，机器人硬件同样面临挑战。机器人相当复杂，容易损坏。

Peter Chen称：“许多人看到机器人基础算法时充满希望，但他们却不知道将这样的算法应用于多种类型的机器人困难重重。”

还有一个问题，在物理训练过程中用到了大量视觉数据，到底机器人基础算法对视觉数据的利用程度如何呢？没有人知道。例如，机器人可能需要的是传感器数据，如触觉数据。现在我们看到的模型压根没有涉及到触觉数据。

Peter Chen说：“有很多类型的数据是缺失的，人形机器人如果想在现实世界高效工作，需要这类数据，必不可少。”

向现实世界发布基础模型也面临挑战，它可能存在安全隐患。即使是我们今天看到的大语言模型，它给出的答案也充满错误与谬误。AI甚至会教人如何制作炸弹。如果将有缺陷的AI植入机器人身体，它可能会威胁人类。

为了解决此问题，有人给机器人AI模型立规矩、划红线，让它们按规矩学习。在我们无法确保机器人绝对安全之前，强迫机器人在人的监督下行动，这也是一种好办法。

一些人认为，只有那些能与现实世界互动的人工智能才有可能成为真正的人工智能，只有与现实世界互动，AI才能超越原有学习模式，做出预测，才能真正理解世界，具备强大的推理能力。

对于未来，有人认为机器人会不断进化，不断找到新的应用场景，但我们不能过度乐观，让机器人替代人类劳动，这样的愿望很美好，但离现实仍然遥远。如果我们想开发出实用、安全的人形机器人，它可以做饭、叠衣服，那用不了多久也许就能实现，只是可能会很昂贵。

如果您有什么想说的，欢迎在评论区留言讨论！如果您有新鲜观点或者观察，也欢迎私信“投稿”，进行投稿。

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会！

欢迎扫描下方二维码，加头部科技创始人、AI头号玩家俱乐部主理人张晶晶微信！

参考链接：

1、https://www.nature.com/articles/d41586-024-01442-5

玩酷网

终极通用人形机器人，科技巨头掀起角逐

趣唠科技不打烊