谷歌推出机器人模型GeminiRobotics，附送一手小道消息

原创：亲爱的数据

确实有些一手消息，

可惜不是很多。

机器人领域，谷歌来好消息了，

谷歌DeepMind团队在把大模型的能力往机器人行动上用，用得很好，名字叫做Gemini Robotics。

一看名字就知道基础模型肯定是Gemini 模型了。

GeminiRobotics官网上客观地说，

当然也是冷冰冰地说：

“模型能使各种机器人执行，

比以往更广泛实际任务。”

理解这句话要兵分两路，

一路是以前在工厂参观，

看到流水线上机械臂就挺震撼了，

机械臂在固定工位上做规定动作，

稳定性和精确性符合工业级别的标准。

尽管各式各样的机器人均表现出在柔性上大幅超过机械臂，

当然也包括摔个狗吃屎，

站也站不稳等“柔性动作”。

但是，机器人让机械臂大量下岗的“换代时刻”没有到来，尽管机器人在抖音快手小视频上都挺能，

但是，现实中动作并非如此丝滑自如，

任何可以惊呼“牛”的机器人技术，

距离高产售卖，尚有距离。

当下的机器人似乎进入了这样一种叙事：

机器人能给完成简单任务，

尚未进入一大堆细节指标，精度，比拼的阶段，

还在描述，一件简单的事，机器人能不能干，

你家机器人能干，我家的也能干，

谷歌Gemini Robotics显然让能力又上了一个台阶。

不过，现在还不是机器人的本事非常之高，

高到甚至可以肉眼高精度竞赛的时候。

还是那句话，小步前进中，偶尔步子大。

前进都值得鼓励，太小就算了；

另一路是，在我看来，

技术浪潮往往是成对或者成三出现的，

比如上一波的移动互联网，超级APP，云计算，

不用证明哪种技术更好，

事实证明，不仅同样重要，而且互为榫卯。

这一波技术浪潮，

人工智能已然占据C位，

而在我看来，人工智能与机器人技术，

也应该是“成对出现”。

机器人可以视为大模型的“超级APP”，

短期看来，机器人技术比人工智能大模型技术发展，稍慢几拍。

放在历史的长河里，它们肯定是一个时期的产物。

就好比，谁也不会使用一个没有APP的智能手机。

毕竟，协同起来，有利双方。

你甚至可以简单地理解，

模型需要“身体”，机器人需要“脑子”。

不过真实物理世界充满了未知和惊喜，

征服难度可想而知，

这两路讲完，后面就好聊了。

大模型的道路上，

一直是语言模型强势，

多模态模型屈居，

为此我写了一篇讨论文章，帮多模态说了些好话：

AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态

说白了，有人就是认为大语言模型更有用，

发展大语言模型能让模型更聪明。

不过，当我们把语境放在机器人里面，

多模态大模型则更受欢迎，

因为大语言模型仅擅长输出文字，

“显得”能力不全，

好比说，就算你“手快”，

可惜你“眼疾”，这样也不行。

说白了，谁也不想要一个看也看不见，还哑巴，

又没有行动能力的“机器人”。

所以，多模态对与机器人领域更实用。

谷歌的Gemini模型坚定走多模态技术路线，

文本、图片都能输入给大模型，

于是，就有了视觉语言大模型

（VL模型，或者是图文模型），

2023年年为了观察图文大模型的发展，

猛写了20000字，

是这篇：2023年终盘点：图文大模型编年简史

看上去，我是在用写稿克服要被AI干掉的焦虑。

现在完全不焦虑了，

我只想少熬夜，身体健康，活得久些，

科技发展都这么加速了，要有机会享受到。

话说回来，

给机器人做底座模型的是多模态模型够吗？

也就是说，机器人看懂文字看懂图。

当然，这还不够。

机器人的特长是行动，也就是做出动作，

动作的英文就是Action，

无论是拿起，放下，站立还是蹲下，

你得做出动作，嘴上说的不算。

好消息是，现在的基础大模型都很聪明了，

让模型告诉机器人，下一个动作是啥。

模型有学习能力，机器人也有了学习能力，

于是，我们有了目标，就是给机器人一个“发令官”

这个发令官肯定得用视觉-语言-动作（VLA）模型来实现。理解了这点之后，你会发现Gemini Robotics就是一个VLA模型，这也是目前所有机器人技术公认的主流路线。

大家都认同的VLA模型的突破点在于：

用统一模型将视觉（环境），

语言与动作整合为单一模型，

直接建“观察-理解-行动”的端到端闭环。

比如，机器人看见障碍物就拐弯，

这和自动驾驶的原理一样，

不过机器人要求更灵活。

说白了，VLA模型就是一种眼观六路，

耳听八方的模型，

不过，将这种模型用在机器人身上，

各个技术团队就各有高妙了。

好消息是，既然有一个学习能力的脑子了，

再让机器人做动作，

它就可以在物理世界里找到一点自尊了。

让我们再回到谷歌官网上的原话：

“机器人必须展示具身推理的能力，

即理解我们周围世界并做出反应的人类能力，

并安全地采取行动来完成工作。”

原理是这样，谁实现出来就牛气了，

谷歌DeepMind团队送上惊喜，Gemini Robotics。

真怕哪天哪个机器人搞出点惊吓。

他们是如何搞出来的呢？

简单说，设计了两个大组件干这事。

先说，Gemini Robotics-ER是基础模型，

（以下有时简称ER）

也是一个专门针对机器人的VL模型，

即视觉语言模型。

不过ER没有自己上阵，

派出了ER模型的蒸馏版，

成为Gemini Robotics的两大组件之一。

细说就是，

把模型软件栈理解为垂直的，

越基础的在越下面，

Gemini 2.0是最基础最底座的模型。

在此之上，先发展出Gemini Robotics-ER，

这时候虽然ER还很基础，

但是有了多模态推理能力，

如3D空间理解、物体关系分析，

最终都归结为一种能力，推理能力。

怎么理解呢？

ER模型是为机器人推理能力建立的一个基础模型，我打个比方，ER模型能先把任务分解了，机器人先站起来，然后拿到桌子上的衣服，再把衣服叠了，相当于解题思路，或者“思维链”，但是ER就在这个阶段了，它可不管机器人的行动，而且是一点也不管。

就是说，ER模型本身不直接生成机器人动作。

要我说，ER模型工作性质属于“脑补”，

是一个脑补型工作者，

就是“我光想想这事该怎么做”，

最多再把想法告诉别人。

这个设计很特别，当然也很合理，

于是，这个机器人对物理世界，

有了一个大概的理解。

然而，既然想做机器人，光有理解力不够，

得执行，得行动。

于是，这时候，

增加了一个搞定机器人动作的重要组件：

action decoder。

它能将模型输出结果转化为机器人动作，

如机械臂轨迹、抓取力度。

目的是让模型有直接输出“行动”。

这两部分组件是怎么结合？

这真是一个好问题，

也是人家的“硬核技术含量”之所在。

我把这个问题放在文末。

继续讲Gemini Robotics和ER模型的关系。

Gemini Robotics是在ER模型（蒸馏）的基础之上，基于其输出，直接生成一串具体动作，学术说法就是，具体动作的时间序列，如机械臂的角度调整、手指的抓取力度，完成任务。

这里当然是用的Diffusion Policy。

我写了Diffusion Policy的解读文章，但是还没有写完，Gemini Robotics就出来了，

真的太卷了，科技博主的命也是命。

只能发了这篇再发Diffusion Policy。

再聊回来，

比如：ER提供“思路”，

Gemini Robotics控制机械臂以最优路径移动并执行抓取。

强调一下，Gemini Robotics的硬核能力就是，

可以做到端到端的动作生成，

比如，抓取葡萄、折叠纸、操作工具，

看得出来，它们支持好几个步骤才能完成的灵巧任务，如，折纸直到折出个小动物。

还有个有趣的，我们已知，

Gemini Robotics这个模型有两个部分，

一部分在云端（主干网络），

一部分在机器人身上的芯片上，

Action decoder。

这种设计，既符合模型设计思路，

也符合硬件芯片的条件。

因为在大型视觉语言模型（如Gemini Robotics-ER）中，推理速度通常较慢且需要专用硬件，很棘手，很现实。无法在机器人本体上运行推理，就可能无法满足实时控制需求。体现在硬件上就是，云上模型（主干网络）提供“智力”，解码器适配硬件特性。这也成为Gemini Robotics的特色之一。

技术报告里面也提到，

可以根据api生成代码的形式，

生成控制机器人运动策略。

另外，我们的故事既然从VLA开始，

那也在VLA结束，

有了Gemini Robotics，

机器人也终于有了自己的知名VLA模型。

有一位“亲爱的数据”读者，

和DeepMind的Gemini Robotics技术组成员，

聊了聊，

于是，我们有了一些一手信息，

这次的技术发布大概经历两年时间，

团队说有些资料还在撰写，后面会更新技术报告。

他还问到一个技术细节：

“云端和本地端之间的信息是怎么交互的？

是按照latent code的形式吗？”

得到的他们团队成员的答复是：

“VLM首先单独微调（finetune），

再冻结（freeze），

单独训练action decoder部分，

有计算方面的优化，

具体有些技术细节可能要稍后再发布。”

这个答复是非正式的，非官方的，

纯属技术交流，请勿滥用。

也就是说，他们提到的训练方法是，

先把其中的主干网络冻结（参数固定），

再训练第二个重要组件（action decoder），

另外，云端和本地端之间的信息是怎么交互的？

是按照latent code的形式吗？

这个问题就是前面提到的：

“这两部分组件是怎么结合？”

那位读者的理解是，

ER模型把所有的信息都压缩成一个latent code，

传递给action decoder，

然后action decoder根据这些信息，

再用diffusion去生成动作。

我也有一个想不明白的点，

向谷歌机器人团队举手示意，

如果你也有，欢迎补充在评论区：

我的问题是，这种专为机器人设计的VLA大模型，

推理过程是隐式，还是显式。

能不能做到显式的推理？

我还挺想知道。

（完）

玩酷网

谷歌推出机器人模型GeminiRobotics，附送一手小道消息

智能亲爱的你