
原创:亲爱的数据

确实有些一手消息,
可惜不是很多。
机器人领域,谷歌来好消息了,
谷歌DeepMind团队在把大模型的能力往机器人行动上用,用得很好,名字叫做Gemini Robotics。
一看名字就知道基础模型肯定是Gemini 模型了。
GeminiRobotics官网上客观地说,
当然也是冷冰冰地说:
“模型能使各种机器人执行,
比以往更广泛实际任务。”

理解这句话要兵分两路,
一路是以前在工厂参观,
看到流水线上机械臂就挺震撼了,
机械臂在固定工位上做规定动作,
稳定性和精确性符合工业级别的标准。
尽管各式各样的机器人均表现出在柔性上大幅超过机械臂,
当然也包括摔个狗吃屎,
站也站不稳等“柔性动作”。
但是,机器人让机械臂大量下岗的“换代时刻”没有到来,尽管机器人在抖音快手小视频上都挺能,
但是,现实中动作并非如此丝滑自如,
任何可以惊呼“牛”的机器人技术,
距离高产售卖,尚有距离。
当下的机器人似乎进入了这样一种叙事:
机器人能给完成简单任务,
尚未进入一大堆细节指标,精度,比拼的阶段,
还在描述,一件简单的事,机器人能不能干,
你家机器人能干,我家的也能干,
谷歌Gemini Robotics显然让能力又上了一个台阶。
不过,现在还不是机器人的本事非常之高,
高到甚至可以肉眼高精度竞赛的时候。
还是那句话,小步前进中,偶尔步子大。
前进都值得鼓励,太小就算了;
另一路是,在我看来,
技术浪潮往往是成对或者成三出现的,
比如上一波的移动互联网,超级APP,云计算,
不用证明哪种技术更好,
事实证明,不仅同样重要,而且互为榫卯。
这一波技术浪潮,
人工智能已然占据C位,
而在我看来,人工智能与机器人技术,
也应该是“成对出现”。
机器人可以视为大模型的“超级APP”,
短期看来,机器人技术比人工智能大模型技术发展,稍慢几拍。
放在历史的长河里,它们肯定是一个时期的产物。
就好比,谁也不会使用一个没有APP的智能手机。
毕竟,协同起来,有利双方。
你甚至可以简单地理解,
模型需要“身体”,机器人需要“脑子”。
不过真实物理世界充满了未知和惊喜,
征服难度可想而知,
这两路讲完,后面就好聊了。

大模型的道路上,
一直是语言模型强势,
多模态模型屈居,
为此我写了一篇讨论文章,帮多模态说了些好话:
AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态
说白了,有人就是认为大语言模型更有用,
发展大语言模型能让模型更聪明。
不过,当我们把语境放在机器人里面,
多模态大模型则更受欢迎,
因为大语言模型仅擅长输出文字,
“显得”能力不全,
好比说,就算你“手快”,
可惜你“眼疾”,这样也不行。
说白了,谁也不想要一个看也看不见,还哑巴,
又没有行动能力的“机器人”。
所以,多模态对与机器人领域更实用。
谷歌的Gemini模型坚定走多模态技术路线,
文本、图片都能输入给大模型,
于是,就有了视觉语言大模型
(VL模型,或者是图文模型),
2023年年为了观察图文大模型的发展,
猛写了20000字,
是这篇:2023年终盘点:图文大模型编年简史
看上去,我是在用写稿克服要被AI干掉的焦虑。
现在完全不焦虑了,
我只想少熬夜,身体健康,活得久些,
科技发展都这么加速了,要有机会享受到。
话说回来,
给机器人做底座模型的是多模态模型够吗?
也就是说,机器人看懂文字看懂图。
当然,这还不够。
机器人的特长是行动,也就是做出动作,
动作的英文就是Action,
无论是拿起,放下,站立还是蹲下,
你得做出动作,嘴上说的不算。
好消息是,现在的基础大模型都很聪明了,
让模型告诉机器人,下一个动作是啥。
模型有学习能力,机器人也有了学习能力,
于是,我们有了目标,就是给机器人一个“发令官”
这个发令官肯定得用视觉-语言-动作(VLA)模型来实现。理解了这点之后,你会发现Gemini Robotics就是一个VLA模型,这也是目前所有机器人技术公认的主流路线。
大家都认同的VLA模型的突破点在于:
用统一模型将视觉(环境),
语言与动作整合为单一模型,
直接建“观察-理解-行动”的端到端闭环。
比如,机器人看见障碍物就拐弯,
这和自动驾驶的原理一样,
不过机器人要求更灵活。
说白了,VLA模型就是一种眼观六路,
耳听八方的模型,
不过,将这种模型用在机器人身上,
各个技术团队就各有高妙了。
好消息是,既然有一个学习能力的脑子了,
再让机器人做动作,
它就可以在物理世界里找到一点自尊了。
让我们再回到谷歌官网上的原话:
“机器人必须展示具身推理的能力,
即理解我们周围世界并做出反应的人类能力,
并安全地采取行动来完成工作。”
原理是这样,谁实现出来就牛气了,
谷歌DeepMind团队送上惊喜,Gemini Robotics。
真怕哪天哪个机器人搞出点惊吓。
他们是如何搞出来的呢?
简单说,设计了两个大组件干这事。


先说,Gemini Robotics-ER是基础模型,
(以下有时简称ER)
也是一个专门针对机器人的VL模型,
即视觉语言模型。
不过ER没有自己上阵,
派出了ER模型的蒸馏版,
成为Gemini Robotics的两大组件之一。
细说就是,
把模型软件栈理解为垂直的,
越基础的在越下面,
Gemini 2.0是最基础最底座的模型。
在此之上,先发展出Gemini Robotics-ER,
这时候虽然ER还很基础,
但是有了多模态推理能力,
如3D空间理解、物体关系分析,
最终都归结为一种能力,推理能力。
怎么理解呢?
ER模型是为机器人推理能力建立的一个基础模型,我打个比方,ER模型能先把任务分解了,机器人先站起来,然后拿到桌子上的衣服,再把衣服叠了,相当于解题思路,或者“思维链”,但是ER就在这个阶段了,它可不管机器人的行动,而且是一点也不管。
就是说,ER模型本身不直接生成机器人动作。
要我说,ER模型工作性质属于“脑补”,
是一个脑补型工作者,
就是“我光想想这事该怎么做”,
最多再把想法告诉别人。

这个设计很特别,当然也很合理,
于是,这个机器人对物理世界,
有了一个大概的理解。
然而,既然想做机器人,光有理解力不够,
得执行,得行动。
于是,这时候,
增加了一个搞定机器人动作的重要组件:
action decoder。
它能将模型输出结果转化为机器人动作,
如机械臂轨迹、抓取力度。
目的是让模型有直接输出“行动”。
这两部分组件是怎么结合?
这真是一个好问题,
也是人家的“硬核技术含量”之所在。
我把这个问题放在文末。
继续讲Gemini Robotics和ER模型的关系。
Gemini Robotics是在ER模型(蒸馏)的基础之上,基于其输出,直接生成一串具体动作,学术说法就是,具体动作的时间序列,如机械臂的角度调整、手指的抓取力度,完成任务。
这里当然是用的Diffusion Policy。
我写了Diffusion Policy的解读文章,但是还没有写完,Gemini Robotics就出来了,
真的太卷了,科技博主的命也是命。
只能发了这篇再发Diffusion Policy。
再聊回来,
比如:ER提供“思路”,
Gemini Robotics控制机械臂以最优路径移动并执行抓取。
强调一下,Gemini Robotics的硬核能力就是,
可以做到端到端的动作生成,
比如,抓取葡萄、折叠纸、操作工具,
看得出来,它们支持好几个步骤才能完成的灵巧任务,如,折纸直到折出个小动物。
还有个有趣的,我们已知,
Gemini Robotics这个模型有两个部分,
一部分在云端(主干网络),
一部分在机器人身上的芯片上,
Action decoder。
这种设计,既符合模型设计思路,
也符合硬件芯片的条件。
因为在大型视觉语言模型(如Gemini Robotics-ER)中,推理速度通常较慢且需要专用硬件,很棘手,很现实。无法在机器人本体上运行推理,就可能无法满足实时控制需求。体现在硬件上就是,云上模型(主干网络)提供“智力”,解码器适配硬件特性。这也成为Gemini Robotics的特色之一。

技术报告里面也提到,
可以根据api生成代码的形式,
生成控制机器人运动策略。
另外,我们的故事既然从VLA开始,
那也在VLA结束,
有了Gemini Robotics,
机器人也终于有了自己的知名VLA模型。
有一位“亲爱的数据”读者,
和DeepMind的Gemini Robotics技术组成员,
聊了聊,
于是,我们有了一些一手信息,
这次的技术发布大概经历两年时间,
团队说有些资料还在撰写,后面会更新技术报告。
他还问到一个技术细节:
“云端和本地端之间的信息是怎么交互的?
是按照latent code的形式吗?”
得到的他们团队成员的答复是:
“VLM首先单独微调(finetune),
再冻结(freeze) ,
单独训练action decoder部分,
有计算方面的优化,
具体有些技术细节可能要稍后再发布。”
这个答复是非正式的,非官方的,
纯属技术交流,请勿滥用。
也就是说,他们提到的训练方法是,
先把其中的主干网络冻结(参数固定),
再训练第二个重要组件(action decoder),
另外,云端和本地端之间的信息是怎么交互的?
是按照latent code的形式吗?
这个问题就是前面提到的:
“这两部分组件是怎么结合?”
那位读者的理解是,
ER模型把所有的信息都压缩成一个latent code,
传递给action decoder,
然后action decoder根据这些信息,
再用diffusion去生成动作。
我也有一个想不明白的点,
向谷歌机器人团队举手示意,
如果你也有,欢迎补充在评论区:
我的问题是,这种专为机器人设计的VLA大模型,
推理过程是隐式,还是显式。
能不能做到显式的推理?
我还挺想知道。
(完)

