具身智能在2024年成为科技领域的新热词。
人形机器人和具身智能公司,纷纷成立,一时风头无两。
不过,目前的人形机器人和具身智能,往往更多停留在概念和demo之中,何时能真正落地,仍然未知。包括特斯拉的Optimus在内的不少人形机器人企业,都将人形机器人落地的第一场景,设在工业场景当中。
然而,工厂场景中,实际早已存在不少工业机器人。这些更传统的工业机器人,未来会被人形机器人取代吗?或者,它们是否将在哪些方面结合新的具身智能技术,带来新的生产效率的突破?
近期,极客公园接触到了移动机器人解决方案提供商优艾智合。
优艾智合在2017年就已经成立,为工业企业提供物流机器人和巡检机器人,尤其深耕半导体行业,已经形成上游晶圆生产、芯片封测、模组封装到下游组装的生产环节全覆盖机器人解决方案,是半导体领域出货量最大的移动机器人企业。在2022年,优艾智合的机器人已经做到年出货量两千余台。
极客公园了解到,从2022年起,优艾智合也在部署具身智能相关的技术能力,并在11月20日,与西安交通大学共同宣布成立具身智能机器人研究院。
在具身智能火起来之后,人们常常畅想,一个通用的人形机器人,可能会替代很多原有的专用机器人的未来。作为一个已经有真实成熟的工业落地场景的公司,优艾智合如何看待具身智能呢?
带着这样的疑问,极客公园采访了优艾智合CTO边旭。采访记录有删节。
具身智能可以让机器人更聪明问:什么时候开始思考落地具身智能?
边旭:这应该是从 22 年 10 月份到2023年我们开始真正关注具身智能这个概念。
当时谷歌和Everyday Robotics合作,第一次将大型语言模型集成到机器人中,我们当时看了论文,下了一个判断是,多模态大模型,最终只是一个接口,真正机器人要发挥作用,光靠大模型是远远不够的,需要强化学习、模拟学习等很多技术产生突破。
这是我们思考的起点,我们也开始从2023年开始投入了一些预研的资源。
问:目前的具身智能技术进步,能够解决哪些你们面临的问题?
边旭:目前在进展中的,最快能解决的问题是视觉模型对环境的理解,能够让我们做出更安全、柔性的控制策略。
传统的机器人对物理环境的重建,基本都是基于激光雷达的这种直接测量的方法进行构建。激光测距这项技术是有极限的。
比如我们的地面是平的,但是其实传感器扫描出来的地面不是平的,是震荡的。它扫出来,可能是5cm厚的一个点云。其中上下2cm,都是它对地扫描的误差。但是这仍然导致有些情况下,地上出现一条电线,这条电线本身的凸起并不超过2cm,这时候对微小物体的识别,会被淹没在噪声中。
而通过视觉识别,则机器人能够直接认识到前方出现细小物体,从而进行避障。
我们运送晶圆的机器人,如果被绊一跤,一点点损伤都会带来很大的经济损失。在之前,我们只能通过工厂的安规管理,给机器人开辟出专门的运行区域来保证这样的事情不会发生。
优艾智合晶圆盒搬运机器人 | 图源:优艾智合
但是真正解决这个问题,要依靠具身智能中可自主学习的多模态感知——也就是机器人能够通过视觉识别,识别出物体,进行更智能的规避。
在这点上,我们的研发已经有了阶段性的成果,在我们的样机上,demo上效果已经能做到比较好了。
问:具身智能的下一步技术进步中,作为一个有落地场景的工业机器人公司,你们更关注于哪方面的技术进步?
边旭:我们也在关注端到端的运动控制,这件事本身是很难的,目前我们也只是在做前期的研究工作。
端到端的自动控制,类似于特斯拉在做的端到端的自动驾驶,也就是整个运动控制的指令都是模型生成的。而我们提供工业机器人,要到运动控制的指令都由机器人生成,实际上需要更精准,犯错率更低。
另外,达成端到端的运动控制,也依赖为我们提供机械臂本体的上下游生态伙伴,做相应的底层调整,共同进步。
问:端到端的运动控制可以帮你们解决什么样的问题?
边旭:比如我们为半导体行业提供工业物流机器人,机器人的形态是复合机器人,这样的机器人,每台对接一个工位,正常都需要经过一些参数化的配置和调试,这是行业通用的做法。
但实际上这个是非常耗时的。你要做一些标定,做一些过渡点的录制,这样的配置和调试过程其实是非常不柔性的,也无法被批量复制。
我们之前做出海,已经卖出了不少机器人解决方案,其实我们在全世界都有很大的需求,但是在近中国的日本和东南亚,开展地更顺利,原因之一就是出海的话,我们也需要很大的部署成本。
通过我们前面说的目标识别,融合视觉和3D的点云数据,保证目标识别的鲁棒性,再根据目标识别,做到通过少量学习和零次学习,可以让机器人完成手眼协同,自适应部署。
这样基于目标的端到端的运动控制模型,和通用代码大模型去自动化脚生成检测、生成部署脚本能够帮助我们大幅降低部署成本。
企业客户希望有更聪明的机器人,但最好没有成本增加问:在之前已经落地的场景中,其实通过安规管理等方式,可以部分解决机器人不够智能的问题,那么使用具身智能会不会使成本提升很高?
边旭:在人形机器人上要做具身智能,可能需要非常强大的GPU,上万块的成本,这确实在工业机器人里是不可接受的。
我们考虑要使用低算力的平台,实现高具身智能的效果。我们主要是使用NPU,6-7 TOPS的算力,来跑一些视觉模型。
即使是我们后面说的这种,运动控制方向的具身智能的部署,在我看来,未来也是成本可控的。因为我们机器人硬件中,本身已经有了视觉和雷达的部分,这部分的成本是本来就有的。只是需要再对数据进行算法层面的训练。
问:你觉得企业实际上能接受多少成本的上升?
边旭:我觉得对企业来说,其实最好是没有成本增加,甚至有运维成本的下降。
比如我们前面说的,通过管理的方式可以解决的问题,实际上本身还是依赖于人工,而人是工业生产中最不可控的变量,根本上如果机器人能智能化地解决这个问题,整体运维成本是下降的。
对于我们自身而言,也会降低很多和企业之间的沟通成本。
问:除了成本之外,企业还会比较关注哪些问题?
边旭:企业也会比较在意数据链路的绝对安全。
很多客户的要求是数据不出园区,那可能一些人形机器人使用公有云上的模型的这种操作模式就不适合我们。
优艾智合智能巡检操作机器人| 图源:优艾智合
此外,前面说过,工业场景对AI的犯错容忍度很低。客户对我们的要求就是零异常。一般的工业公司对推AI都比较谨慎。
所以我们认为纯靠AI算法解决所有问题的思路本身是错的。越智能就越容易不可控。泛化性的智能控制,还是需要结合一些条件策略,才能更好地让产品闭环。
问:在工业领域,具身智能还有什么独特的特点?
边旭:我们理解具身智能是两部分,第一个是单体智能,也就是一脑多态的这种智能控制系统,另一方面是,群体智能。
在这套解决方案里,机器人只是一环,机器人的智能化水平可以无限接近于人。但是工厂中要实现全厂的生产,它还需要其他的,比如说电梯、产线,和其他设备类的东西,都会参与到整个的过程中。我们现在传感器只是布置在机器人上,未来可能传感器是部署在全场的解决方案里面的。
这个全场的解决方案,里面涉及到的就是群体智能。这里面怎么去融合感知,来保证机器人的安全和效率,我觉得想象的空间比机器人本体更大。
人形机器人,能够横扫工业场景吗?问:过去一两年,有很多具身智能和人形机器人的公司成立。很多公司的愿景都是最后走向一个通用的人形机器人,它泛化性非常强,什么工厂都能进,什么工厂内的任务都能做。你怎么看待未来的通用人形机器人,它会成为传统工业机器人的终结者吗?
边旭:其实为什么工厂在很多场景下已经开始使用机器人了?就是因为其实人类在很多情况下已经不够适应工业所需的一些情况了。
比如在工业巡检领域,人只能看到可见光,看不到红外光,也看不到声波。我们只能依靠目视距离操作。
因此我们在巡检中,提出了超视距的多模态感知,首先传感器不局限于机器人在哪里,都能获得数据,其次能够通过AI的分析处理,获得隐藏在声纹等数据中的一些异常,得到自适应感知,这其实都是对人类能力的超越。
对于我们工业从业者来说,我们看问题比较实际。我认为我们的积累其实是一种壁垒。
一个机器人,你没有做过这个场景,怎么能讲它有泛化的能力,去解决这个场景的问题?
对于工业场景而言,首先,工业场景比较闭塞,很难通过互联网去学习到相关的知识,有很强的行业属性,机器人很难通过通用的数据进行泛化地学习。
其次,工业机器人的产品定义,本身就是工业机器人企业和工业企业一起推动的。客户需要机器人,但又不完全清晰的知道需求的细节。很多产品定义都是我们在这个场景中积累总结,和客户共创获得的。
问:传统工业场景下已经落地的机器人企业的主要优势在哪里?
边旭:主要还是在行业深耕后,获得的壁垒。
比如我们在最基本的SLAM能力上,我们有很多corner case的应对经验。比如环境对机器人定位的多种非线性扰动,对于机器人定位导航的干扰是非常大的,并且是很难量化。这对于你的定位导航的鲁棒性,和智能化要求很高。
人形机器人本身,如果能找到一个合适落地的场景,再有很强的技术基础,或许未来在工业场景中也会有一席之地。
但我认为在一个我们已经深耕过的行业里,我们再加入具身智能的技术,我们做这件事的路径可以是最短的。
问:工业场景,最终的形态会是人形机器人吗?
边旭:一个通用人形机器人,来适配所有的场景是很难的,你很难倒逼所有行业客户改去适配你的设备。
可能只有纯人工的场景,用人形做,客户改造成本就低一点。但也可能在那之前,全场景的移动机器人的方案已经覆盖了这个行业了。
我觉得工业,相对于对于服务场景等,最大的区别就是成本和效率。
越通用,代表着对于某个细分行业来讲,应用成本越高,它会有很多功能的冗余。
考虑到效率因素,其实不应该所有行业都用一样机器人。
特斯拉人形机器人Optimus | 图片来源:视觉中国
而为不同行业打造的话,模型也可以是更加针对这个场景的,可以就是以更小的数据去训练,然后运用的成本也更低,然后更针对这个场景,
问:对于只做大脑的具身智能企业而言,如果不是一个通用的人形机器人来承载其大脑的部分,而是有多种多样的终端形态,会对执行产生一些困难吗?
边旭:会有一些困难。
不同的上集成其实是一个新的模型。虽然从目标识别,视觉的角度来讲差别不大,但在执行和安全角度讲,不同的本体构型是有差异的。
在工业里边,其实在机电系统和机构学上不存在通用的。就是每一种构型其实都要满足它的一个特殊工艺的一个设计生产要求。
问:怎么看未来的人形机器人?
边旭:我觉得,现在的人形机器人,不论从技术成熟度、量产能力,还是商业模式的成熟度上,其实是和几年前工业移动机器人刚兴起的时候很像。
机器人本体是一部分, 但更重要的是智能系统端的进步。
在移动机器人行业,目前其实有很多做移动机器人本体的厂家,可以把产品做得很标准,成本很低,稳定性很强。而我们做解决方案的企业的优势,则在于需要长时间积累的智能系统。
我想未来,可能也会有很多做这种人形机型本体的厂家,将本体做的很好。而像我们这样的公司,可以在人形机器人上,构建我们的工业应用。
我们目前的技术布局,已经在具身控制器这块布局了未来兼容足式机器人的架构,我们目前看不到人形机器人在工业场景有太好的应用,但不代表未来没有,我们会持续关注提前布局。
比起机器人的形态,我们更关注具身智能技术在工业领域规模化落地的路径与节点。我们认为“一脑多态”是具身智能落地工业场景的最佳形态,再通过集群化的协同交互,可以实现工业企业生产效率和效率的提升。