对话优必选焦继超：大模型加速人形机器人“进厂打工”

作者| 金旺

栏目| 机器人新纪元

2023年的人形机器人热潮，以迅雷不及掩耳之势席卷了全球。

这年8月，在WRC 2023上，优必选董事长兼CEO周剑在演讲中分析人形机器人未来趋势和优必选发展历路时，优必选新一代人形机器人也悄然出现在了未来规划中。

这款当时并未对外透露太多信息的人形机器人，正是这年年底与周剑一同在优必选上市现场完成敲锣仪式的Walker S。

这之后，我们看到，Walker S开始进入汽车工厂，在工业场景中进行实地测试，例如在汽车工厂流水线上与人类协作完成汽车装配、质检任务。

自着手研发人形机器人到真正让人形机器人进入到汽车工厂中，算上初代原型机，优必选研发团队先后研发了五代产品，技术攻关了近十二年。

近期，人工智能技术再次迎来范式突破，人形机器人也在大模型的加持下进入实际产业场景。

优必选科技副总裁、研究院执行院长焦继超告诉科技行者，“在大模型的加持下，人形机器人的能力得到了极大的提升，尤其是在实际使用和用户体验上都有了不小的进步。”

“这让人形机器人在实际场景中具备了更强的鲁棒性和适应性。”

01 落地前夜

2024年4月1日，优必选与百度官宣合作，优必选人形机器人Walker S接入百度文心大模型，在大模型的加持下，人形机器人学会了叠衣服、学会了分拣归类。

这次演示中，在现场工程师的配合下，Walker S也多了几分灵性。

优必选是国内最早做人形机器人的商业团队之一，早在2016年，优必选开始研发第一代人形机器人原型机，和大多数追求人形机器人技术自研的团队一样，优必选先从人形机器人下半身和运动控制算法做起。

在之后的几年里，优必选人形机器人以每1-2年进行一次大版本迭代的速度，学会了越来越多人类的技能，也变得越来越智能。

实际上，优必选研究院早在2016年就已经成立，焦继超告诉科技行者，“研究院很早就以人形机器人量产落地为目标，从软硬件两方面进行了技术拆解和全栈技术自研。”

例如，硬件方面，优必选重点自研了人形机器人的一体化关节，优必选Walker S上搭载的最新自研一体化关节，峰值扭矩已经达到了300N.m。

软件方面，优必选则是划分出了多模态感知、定位导航、运动控制、语音交互，以及现在与大模型相关的技术，不断进行着技术攻关。

以涉及目标检测、识别、语义分割等技术的定位导航和路径规划技术为例：

早年间，人形机器人定位导航和路径规划技术普遍基于预设路径方式，这一技术路径的好处是算法模型简单，但由于只能实现固定位置移动和操作，这一阶段的人形机器人更多被用于科研领域，难以在商用场景发挥太大作用。

区别于传统预设路径技术路线，人工智能技术的突破让自主决策和自主路径规划成为可能。

优必选最早是在导航系统中加入了自主规划能力。

“导航系统中的自主规划实现起来相对简单，主要解决的是计算从A点到B点的最短路径，以及一些避障问题，”焦继超告诉科技行者。

而将语义感知、手眼协同上的运动控制加入到优必选人形机器人的网络系统中，是2021年的事儿。

2021年7月7日，在WRC 2021开幕当天，优必选新一代人形机器人Walker X正式对外发布。

Walker X身高1.3米，体重63kg，最快行走速度能够达到3km/h，在步态规划、柔顺力控、视觉感知、语音交互等方面进行了一系列技术提升。在WRC 2021现场，优必选演示了Walker X上楼梯、下象棋、单腿平衡、手眼协同等能力。

据焦继超透露，“在这一代人形机器人上，我们已经在验证语义VSLAM这样的全自主规划技术。”

以手眼协调为例，当Walker X通过视觉系统识别到需要抓取的物体后，它会自己识别出抓取点的位置、规划出抓取该物体的路径，自主完成这一任务的执行过程。

这之后的两年里，优必选研究院继续对用于人形机器人的语义VSLAM算法进行优化，经过多次技术迭代后，如今，这套算法已经可以让Walker S进入汽车工厂，去到实际工业场景中真正做一些事。

02 中枢神经大模型

“现在Walker S上用的语义VSLAM系统和特斯拉Optimus的类似，都是通过对被识别物体进行特征提取，然后与空间位置信息进行关联，并通过端侧控制器实现完全自主的端到端路径规划和运动控制。”

谈及如今Walker S的自主定位导航能力，焦继超如是说。

实际上，从Walker X进化到Walker S，优必选研究院对人形机器人关键技术进行了全方位的升级，Walker S的身高按照平均男性身高重新设计成了170cm，关节扭矩做到了300N.m，控制器算力也升级到了200T。

更重要的是，这一年，优必选为Walker S接入了大模型。

焦继超告诉科技行者，“大模型解决的是人形机器人泛化性的问题。”

在此之前，人形机器人进入到实际应用场景中时，遇到最大的问题是“非标”问题，这是因为传统基于决策树或状态机构建的算法模型普遍遵循参数模型化思路，基于这一思路构建起的模型适应能力很差，一旦人形机器人的应用场景发生变化，模型就需要迭代，甚至重写。

这就造成了要将人形机器人部署到实际应用环境中，就需要针对不同应用场景中的问题逐个解决。

有了大模型后，人形机器人的算法模型的适应性和泛化能力得到了极大的提升，再让人形机器人进入新场景时，只需要让人形机器人进行简单适配，就能够在不同场景中进行应用。

这时，优必选需要花更多时间解决的问题已经转变为，当面对具体场景时，如何提高模型的鲁棒性，让人形机器人因大模型提升的适应性和部署效率能够在真实应用环境中得到切实落地。

焦继超和他的团队想到的办法是，将大模型轻量化，转换为“小模型”应用到人形机器人上，在人形机器人上形成端到端的AI能力。

接着再通过优必选这些年积累的数据、场景，将搭载这些AI模型的人形机器人快速推到客户的实际应用场景中进行测试，焦继超和他的团队再从中总结、抽取出共性任务和功能进行适配和解耦，优化端侧“小模型”。

焦继超以Walker S已经进入到的工业场景为例介绍称，“不同工厂环境中有80%的功能需求是通用的，我们只需要针对剩余20%的需求，根据用户需求和场景变化，通过现场采集数据进行算法模型迭代。”

这样就避免了以往针对每个新需求都要从头开发算法模型的困境。

不过，焦继超也指出，大模型虽然可以提升人形机器人的泛化能力，但就人形机器人的基础功能而言，并不是模型越大越好。

在优必选的人形机器人系统中，多模态感知、运动控制、定位导航等模块，优必选研发团队都会结合不同的深度学习小模型来实现，只有当涉及到抽象任务拆解和推理，大模型将会发挥类似中枢神经的重要作用。

这其中，大模型解决的最重要的是决策问题。

焦继超解释称，“在人形机器人几个功能模块中，决策是最抽象，也是最难做的一个模块，因为需要根据不同的感知信息来进行推理，它有更多的推理过程，而这是大模型擅长的。”

在前不久优必选官方发布的搭载百度文心一言大模型的Walker S进行智能分拣视频中，Walker S正是通过调用文心一言大模型进行的子任务拆解和推理，配合视觉语言模型保证检测精度和泛化抓取，这才有了当时的演示效果。

焦继超告诉科技行者，“如今的Walker S从感知到决策都已经接入了不同的AI模型，再辅以大模型的智能调度，Walker S实现了一定意义上的全AI能力。”

然而，大模型虽然带来了泛化能力，让人形机器人走到了真实场景中，但也带来了对海量数据的需求。

03 破壁数据瓶颈

大模型热潮背后，本质上是一次人工智能范式的升级。

上一代人工智能是以卷积神经网络为标准网络架构，如今的大模型背后，则是以Transformer为标准网络架构。

“数据和场景的不断积累，推动了人工智能在网络架构上的技术进步，”焦继超如是说。

与此同时，大模型相关技术的出现，在一定程度上又反过来解决了人工智能数据量不足的这一瓶颈问题。

在优必选内部，就用于人形机器人训练的数据的收集有这样一个“二八定律”：

用于人形机器人训练的20%的数据，由真实的机器人在实际场景中进行遥操作收集而来，80%的数据则是在仿真环境下生成而来。

就前者而言，焦继超告诉科技行者，“人形机器人区别于其他机器人的灵巧操作，例如工具使用、工厂中的零件分拣，这些需要通过收集真实环境中的现场数据获得，另一方面，诸如桌椅板凳、地面墙面、人类和环境等通用目标识别，则可以通过我们此前基于其他类型机器人积累的数据来直接训练人形机器人。”

就后者而言，如今业界普遍应用的方法是Sim2Real，也就是在仿真环境下生成数据，大模型的本质是生成式AI，生成人形机器人的训练数据，自然也成了其能力之一。

为此，优必选自己搭建了人形机器人智能仿真系统UNDERS2，通过这一系统，优必选可以低成本地为人形机器人模拟和生成多样化的场景。

当然，大模型的生成魔力在人形机器人领域应用仅仅一年有余，在进行具体人形机器人的模型训练过程中依然存在不少问题。

数据可信是焦继超看到的第一个问题。

以最近很火的Sora为例，当它基于真实世界中的数据生成新的场景数据时，可能会遵循物理规律，也能够像在真实世界中一样进行合理分布，但无法保证所生成的数据可信度。

数据冗余是焦继超看到的第二个问题。

基于已知数据生成的新数据，可能生成了10万张，甚至100万张图片，但最终真正有用的可能只有6万张或8万张，其余的新增数据都是没什么用的冗余数据。

在这个过程中，如何生成或甄别高可信数据，以及如何尽量避免生成大量冗余数据，就成了人形机器人大模型发展过程中的一个不可忽视的问题。

“数据确实是现在人形机器人发展的一大瓶颈”，焦继超如是说。

如何提升数据质量和可信度，在人形机器人训练阶段、测试验证阶段如何设定真实数据与生成数据的比例，每个人形机器人团队都有自己的经验。

而用于端到端大模型训练的数据集，也将是人形机器人接下来行业竞争的一大壁垒。

04 让人形机器人先进入工厂

2022年12月，谷歌RT-1模型发布。

这是一个机器人端到端模型，只要通过图像或文本输入一段任务描述，就可以控制机器人执行相应的动作。

凭借在指定环境中高达97%的任务执行成功率，谷歌的RT系列在全球范围内迅速获得了广泛的关注。然而，在这一项目中，依然存在一个不可忽视的短板，那就是场景泛化能力。

同样关注到这一项目的焦继超解释称，“谷歌RT系列用到的是强化学习算法，强化学习的优点是能够构建一个纯端到端的控制模型，但是它对动态环境的响应能力和适应性一直比较差。”

实际上，焦继超在做人形机器人时，也会遇到一些人称用强化学习已经能够让人形机器人实现怎样的能力，这时，焦继超通常会再问一个问题：这样的人形机器人在动态场景运行的怎么样？

“很多基于强化学习的人形机器人，往往在同一个场景中加一个动态目标，运动能力很可能就会‘失效’。”

焦继超告诉科技行者，泛化能力往往取决于两项指标，一是数据，二是技术路线。

优必选的技术路线是通过大模型做决策控制，通过结合深度学习的小模型构建功能模块，来构建拥有泛化能力的人形机器人。

优必选真正开始结合大模型技术做人形机器人研究，是在2023年，当深入其中后，焦继超发现依然有不少难题，诸如数据场景够不够，如何做模型与动作的匹配，端侧模型如何做轻量化。

要解决这些问题，需要大量的算法研发、优化和验证工作，焦继超和他的团队前前后后花了有一年多的时间，将定位精度做到了±3cm，定位频率做到了20帧/秒，这才让优必选的Walker S真正有了落地能力。

在这个过程中，国内一些汽车厂商开始找到优必选，希望能够与优必选合作，将人形机器人应用到汽车生产环节。

之所以汽车厂商想要将人形机器人应用到汽车生产工厂中，是因为伴随着老龄化加剧，这些工厂已经面临着招工难的问题。

一边是年轻人不再愿意进入工厂做这些枯燥的工作，工厂招工面临难题，另一面则是人工成本越来越高，导致最终产品是否依然能够在全球市场竞争中依然拥有足够的竞争力的问题。

这使得即便现在人形机器人还难以高效地在工厂中执行任务，汽车厂商依然愿意提前布局，为未来做技术储备。

而之所以人形机器人普遍会将汽车工厂作为第一个落地应用场景，焦继超称，“主要是因为工厂是一个通用性比较高，也是一个比较可控的场景。”

实际上，用于工厂场景的人形机器人，也将是首先进入批量生产的人形机器人。

焦继超告诉科技行者，量产是人形机器人区别于产品研发另一个重要阶段。

如果是产品研发，实验室有一两台人形机器人搭建成功就可以对外发布，而如果是量产，则对人形机器人的稳定性、可靠性，以及人形机器人的生产制造工艺有着很高的要求，即便是百分之一的误差，都会造成很大影响。

优必选针对工厂场景应用的人形机器人，如今也有了明确计划：

今年内进入新能源汽车产线实训，并在年底前完成交付，明年将进行小批量交付。

这一年，在大模型的加持下，人形机器人继续加速进化，在工业场景中开始寻找破壁的机会。

玩酷网

对话优必选焦继超：大模型加速人形机器人“进厂打工”

科技行者