谷歌推出机器人模型GeminiRobotics,附送一手小道消息

智能亲爱的你 2025-03-17 09:18:55

原创:亲爱的数据

确实有些一手消息,

可惜不是很多。

机器人领域,谷歌来好消息了,

谷歌DeepMind团队在把大模型的能力往机器人行动上用,用得很好,名字叫做Gemini Robotics。

一看名字就知道基础模型肯定是Gemini 模型了。

GeminiRobotics官网上客观地说,

当然也是冷冰冰地说:

“模型能使各种机器人执行,

比以往更广泛实际任务。”

理解这句话要兵分两路,

一路是以前在工厂参观,

看到流水线上机械臂就挺震撼了,

机械臂在固定工位上做规定动作,

稳定性和精确性符合工业级别的标准。

尽管各式各样的机器人均表现出在柔性上大幅超过机械臂,

当然也包括摔个狗吃屎,

站也站不稳等“柔性动作”。

但是,机器人让机械臂大量下岗的“换代时刻”没有到来,尽管机器人在抖音快手小视频上都挺能,

但是,现实中动作并非如此丝滑自如,

任何可以惊呼“牛”的机器人技术,

距离高产售卖,尚有距离。

当下的机器人似乎进入了这样一种叙事:

机器人能给完成简单任务,

尚未进入一大堆细节指标,精度,比拼的阶段,

还在描述,一件简单的事,机器人能不能干,

你家机器人能干,我家的也能干,

谷歌Gemini Robotics显然让能力又上了一个台阶。

不过,现在还不是机器人的本事非常之高,

高到甚至可以肉眼高精度竞赛的时候。

还是那句话,小步前进中,偶尔步子大。

前进都值得鼓励,太小就算了;

另一路是,在我看来,

技术浪潮往往是成对或者成三出现的,

比如上一波的移动互联网,超级APP,云计算,

不用证明哪种技术更好,

事实证明,不仅同样重要,而且互为榫卯。

这一波技术浪潮,

人工智能已然占据C位,

而在我看来,人工智能与机器人技术,

也应该是“成对出现”。

机器人可以视为大模型的“超级APP”,

短期看来,机器人技术比人工智能大模型技术发展,稍慢几拍。

放在历史的长河里,它们肯定是一个时期的产物。

就好比,谁也不会使用一个没有APP的智能手机。

毕竟,协同起来,有利双方。

你甚至可以简单地理解,

模型需要“身体”,机器人需要“脑子”。

不过真实物理世界充满了未知和惊喜,

征服难度可想而知,

这两路讲完,后面就好聊了。

大模型的道路上,

一直是语言模型强势,

多模态模型屈居,

为此我写了一篇讨论文章,帮多模态说了些好话:

AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

说白了,有人就是认为大语言模型更有用,

发展大语言模型能让模型更聪明。

不过,当我们把语境放在机器人里面,

多模态大模型则更受欢迎,

因为大语言模型仅擅长输出文字,

“显得”能力不全,

好比说,就算你“手快”,

可惜你“眼疾”,这样也不行。

说白了,谁也不想要一个看也看不见,还哑巴,

又没有行动能力的“机器人”。

所以,多模态对与机器人领域更实用。

谷歌的Gemini模型坚定走多模态技术路线,

文本、图片都能输入给大模型,

于是,就有了视觉语言大模型

(VL模型,或者是图文模型),

2023年年为了观察图文大模型的发展,

猛写了20000字,

是这篇:2023年终盘点:图文大模型编年简史

看上去,我是在用写稿克服要被AI干掉的焦虑。

现在完全不焦虑了,

我只想少熬夜,身体健康,活得久些,

科技发展都这么加速了,要有机会享受到。

话说回来,

给机器人做底座模型的是多模态模型够吗?

也就是说,机器人看懂文字看懂图。

当然,这还不够。

机器人的特长是行动,也就是做出动作,

动作的英文就是Action,

无论是拿起,放下,站立还是蹲下,

你得做出动作,嘴上说的不算。

好消息是,现在的基础大模型都很聪明了,

让模型告诉机器人,下一个动作是啥。

模型有学习能力,机器人也有了学习能力,

于是,我们有了目标,就是给机器人一个“发令官”

这个发令官肯定得用视觉-语言-动作(VLA)模型来实现。理解了这点之后,你会发现Gemini Robotics就是一个VLA模型,这也是目前所有机器人技术公认的主流路线。

大家都认同的VLA模型的突破点在于:

用统一模型将视觉(环境),

语言与动作整合为单一模型,

直接建“观察-理解-行动”的端到端闭环。

比如,机器人看见障碍物就拐弯,

这和自动驾驶的原理一样,

不过机器人要求更灵活。

说白了,VLA模型就是一种眼观六路,

耳听八方的模型,

不过,将这种模型用在机器人身上,

各个技术团队就各有高妙了。

好消息是,既然有一个学习能力的脑子了,

再让机器人做动作,

它就可以在物理世界里找到一点自尊了。

让我们再回到谷歌官网上的原话:

“机器人必须展示具身推理的能力,

即理解我们周围世界并做出反应的人类能力,

并安全地采取行动来完成工作。”

原理是这样,谁实现出来就牛气了,

谷歌DeepMind团队送上惊喜,Gemini Robotics。

真怕哪天哪个机器人搞出点惊吓。

他们是如何搞出来的呢?

简单说,设计了两个大组件干这事。

先说,Gemini Robotics-ER是基础模型,

(以下有时简称ER)

也是一个专门针对机器人的VL模型,

即视觉语言模型。

不过ER没有自己上阵,

派出了ER模型的蒸馏版,

成为Gemini Robotics的两大组件之一。

细说就是,

把模型软件栈理解为垂直的,

越基础的在越下面,

Gemini 2.0是最基础最底座的模型。

在此之上,先发展出Gemini Robotics-ER,

这时候虽然ER还很基础,

但是有了多模态推理能力,

如3D空间理解、物体关系分析,

最终都归结为一种能力,推理能力。

怎么理解呢?

ER模型是为机器人推理能力建立的一个基础模型,我打个比方,ER模型能先把任务分解了,机器人先站起来,然后拿到桌子上的衣服,再把衣服叠了,相当于解题思路,或者“思维链”,但是ER就在这个阶段了,它可不管机器人的行动,而且是一点也不管。

就是说,ER模型本身不直接生成机器人动作。

要我说,ER模型工作性质属于“脑补”,

是一个脑补型工作者,

就是“我光想想这事该怎么做”,

最多再把想法告诉别人。

这个设计很特别,当然也很合理,

于是,这个机器人对物理世界,

有了一个大概的理解。

然而,既然想做机器人,光有理解力不够,

得执行,得行动。

于是,这时候,

增加了一个搞定机器人动作的重要组件:

action decoder。

它能将模型输出结果转化为机器人动作,

如机械臂轨迹、抓取力度。

目的是让模型有直接输出“行动”。

这两部分组件是怎么结合?

这真是一个好问题,

也是人家的“硬核技术含量”之所在。

我把这个问题放在文末。

继续讲Gemini Robotics和ER模型的关系。

Gemini Robotics是在ER模型(蒸馏)的基础之上,基于其输出,直接生成一串具体动作,学术说法就是,具体动作的时间序列,如机械臂的角度调整、手指的抓取力度,完成任务。

这里当然是用的Diffusion Policy。

我写了Diffusion Policy的解读文章,但是还没有写完,Gemini Robotics就出来了,

真的太卷了,科技博主的命也是命。

只能发了这篇再发Diffusion Policy。

再聊回来,

比如:ER提供“思路”,

Gemini Robotics控制机械臂以最优路径移动并执行抓取。

强调一下,Gemini Robotics的硬核能力就是,

可以做到端到端的动作生成,

比如,抓取葡萄、折叠纸、操作工具,

看得出来,它们支持好几个步骤才能完成的灵巧任务,如,折纸直到折出个小动物。

还有个有趣的,我们已知,

Gemini Robotics这个模型有两个部分,

一部分在云端(主干网络),

一部分在机器人身上的芯片上,

Action decoder。

这种设计,既符合模型设计思路,

也符合硬件芯片的条件。

因为在大型视觉语言模型(如Gemini Robotics-ER)中,推理速度通常较慢且需要专用硬件,很棘手,很现实。无法在机器人本体上运行推理,就可能无法满足实时控制需求。体现在硬件上就是,云上模型(主干网络)提供“智力”,解码器适配硬件特性。这也成为Gemini Robotics的特色之一。

技术报告里面也提到,

可以根据api生成代码的形式,

生成控制机器人运动策略。

另外,我们的故事既然从VLA开始,

那也在VLA结束,

有了Gemini Robotics,

机器人也终于有了自己的知名VLA模型。

有一位“亲爱的数据”读者,

和DeepMind的Gemini Robotics技术组成员,

聊了聊,

于是,我们有了一些一手信息,

这次的技术发布大概经历两年时间,

团队说有些资料还在撰写,后面会更新技术报告。

他还问到一个技术细节:

“云端和本地端之间的信息是怎么交互的?

是按照latent code的形式吗?”

得到的他们团队成员的答复是:

“VLM首先单独微调(finetune),

再冻结(freeze) ,

单独训练action decoder部分,

有计算方面的优化,

具体有些技术细节可能要稍后再发布。”

这个答复是非正式的,非官方的,

纯属技术交流,请勿滥用。

也就是说,他们提到的训练方法是,

先把其中的主干网络冻结(参数固定),

再训练第二个重要组件(action decoder),

另外,云端和本地端之间的信息是怎么交互的?

是按照latent code的形式吗?

这个问题就是前面提到的:

“这两部分组件是怎么结合?”

那位读者的理解是,

ER模型把所有的信息都压缩成一个latent code,

传递给action decoder,

然后action decoder根据这些信息,

再用diffusion去生成动作。

我也有一个想不明白的点,

向谷歌机器人团队举手示意,

如果你也有,欢迎补充在评论区:

我的问题是,这种专为机器人设计的VLA大模型,

推理过程是隐式,还是显式。

能不能做到显式的推理?

我还挺想知道。

(完)

0 阅读:18

智能亲爱的你

简介:感谢大家的关注