王田苗对话四位AI领军人物：具身智能的机遇与挑战

作者｜金旺

从早稻田大学1972年研发的WABOT，到特斯拉2022年首秀的Optimus，人类科学家对人形机器人的研发走过了半个世纪。在这半个世纪里，人形机器人的发展已经从本田ASIMO、波士顿动力Atlas代表的技术验证期，过渡到了以特斯拉Optimus为代表的商业试水期，一个新的机器人时代正在开启。

为此，至顶科技特别策划推出《机器人新纪元》专题报道，旨在探寻全球机器人团队的技术变迁和创新故事。

本文收录于至顶科技《机器人新纪元》专题。

2022年11月30日，OpenAI对外公布了由GPT 3.5系列大语言模型训练而成的对话式AI——ChatGPT，自此ChatGPT成为通用人工智能的代名词，开启了逆袭之路。

ChatGPT的出现标志着人工智能发展进入到了一个新的阶段，这个阶段的标志性特性是“通用型”，而人们讨论最多的则是大模型，尤其在OpenAI在今年3月14日正式发布了GPT 4，也就是第四代生成式预训练模型后，通用人工智能大模型让各个行业再次兴奋起来。

与此同时，在人工智能与机器人结合方面，具身智能应运而生。

2023年7月6日，在中关村智友研究院主办的首届科技创变者大会上，王田苗（北航机器人研究所名誉所长、中关村智友研究院院长）、黄铁军（北京智源人工智能研究院院长、北大多媒体信息处理国家重点实验室主任）、邓志东（清华大学教授、博导、清华人工智能研究院视觉智能研究中心主任）、樊瑜波（北航医学科学与工程学院院长、生物与医学工程学院院长）、熊蓉（浙江大学求是特聘教授，迦智科技创始人）几位人工智能、机器人领域领军人物，就新一代人工智能为包括机器人产业在内带来的机遇与挑战进行了一场深度对话。

我们有幸在这个科技创变新周期，现场聆听了这场重磅对话。以下为本次论坛圆桌对话内容，科技行者进行了不改变原意的整理：

10年内，更聪明的机器人进入家庭

王田苗：科技创变者宏观尺度上来看，未来5-10年，会有哪些新赛道值得all in？

黄铁军：我觉得未来几年里，机器人和人工智能技术融合发展值得关注。

今天人工智能很热，已经占据了历史机遇窗口期，那么下一个历史新机遇是什么？

我认为人工智能下一个重大突破是通用感知模型，即面向自动驾驶、机器人等领域的具身智能模型，通用感知模型的快速发展会带来是一个巨大新机遇。

大语言模型的突破，为通用人工智能打了一个很好的基础，语言事关人对世界的认知和理解，在这方面，可以说大部分认知问题已经得到解决。如果感知能力得到进一步提升，类脑的通用智能模型将会逐渐形成。

以自动驾驶为例，目前我们通过机器视觉或激光雷达不断让自动驾驶汽车实实在在地感知这个世界，但其实它仍然缺少对世界的认知。例如汽车前方道路上有一个大塑料袋或一块大石头，现在的自动驾驶汽车遇到这样的场景，肯定会停下来，但是人类驾驶员看到汽车前方有一个被风吹得鼓鼓的塑料袋，能够直接判断出它不会对汽车行驶造成什么风险，可能就直接开过去了。

今天自动驾驶和人类驾驶员的区别就在于，人对物体的物理属性和潜在风险是有常识认知的，今天的机器视觉并没有的，无论是雷达还是摄像头。

所以大语言模型出现之后，再回过头来看，这样认知上的能力就有可能实现。下一个人工智能大模型的爆点，放在自动驾驶领域，有可能就是实现L4/L5级别的自动驾驶；放在机器人领域，有可能是有类人大脑的机器人。

原来总是认为很复杂的场景，例如玻璃制品是容易碎的，有水的地面容易滑倒，在实现认知智能后，这些一直以来无法靠传统不断补充Corner case来完成的，现在只需要一个通用人工智能模型，一个有认知、有感知，在现实世界中拥有常识的人工智能模型就能实现。

我对技术发展比较乐观，我认为，1-3年，L4/L5级别的自动驾驶就能够实现，5-10年，能够进入工厂、进入家庭的很聪明的机器人就能实现。

如何用技术应对人口老龄化难题？

王田苗：樊老师认为哪个赛道值得关注？

樊瑜波：现在我们社会的老龄化不断加剧，人类的平均寿命在不断延长，80岁以上的平均寿命已经到来，甚至很快还会有很多原来不经常出现的慢性病会相继出现，人的机能衰老和逐渐半失能、失能也会成为必然。

如何应对人口老龄化问题，为老年人提供生活辅助和支持就成了一个大赛道。但要支撑这方面的产业应用，需要融合各个学科中的知识和技术。

从科技角度来看，未来生物活性智能材料是一个非常重要的方向。

永远不要低估生命，生命所蕴含的东西我们还远远不能企及。

开一个玩笑来看的话，人每天吃一个馒头、喝一碗稀饭，大脑所进行的运算如果换用人工智能，需要大量服务器、消耗大量能量、占据相当大的数据资源才能实现。所以相对人工智能AI，我认为生物智能BI更博大精深。

所以生物科学里的多样性，例如情感对人类身体形成的奖赏机制、惩罚机制，我们还远远不能定量化描述。我认为生物活性智能材料，以及由此带来的新传感，或者新的一些干预手段，还有很大的机会。

王田苗：您走访了很多养老机构，您认为当下养老场景中陪护和护理两类机器人哪类更重要？

樊瑜波：这两类机器人都很重要。

我曾经去日本的养老院访问过，他们的养老院中有一种海豹机器人，卖得很贵，也经过了FDA的认证，但其实工作原理很简单，老人抚摸它时，它能发出一些模拟海豹发出的可爱的声音，再就没有更复杂的功能了，但在养老院里，老人很喜欢抱着它。所以情感交互是重要的。当然人的坐卧行等日常活动的辅助也是必不可少的。

大模型助推机器人产业落地

王田苗：您觉得特别值得科技创建者来推动联合这样一个赛道是什么？

邓志东：现在来看的话，我比较看好人工智能、人形机器人、自动驾驶三个方向。

2012年以来，人工智能热潮在全世界再次兴起，最初主要是以深度卷积神经网络为代表的弱人工智能，整个弱人工智能应该说全面赋能了自动驾驶，但是我们实际并没有看到真正有L4级自动驾驶技术在产业落地。

去年年底以ChatGPT为代表的通用人工智能出现之前，其实大家对人工智能产业是有怀疑的，尤其是看不到多少成功落地的案例。通用人工智能出现以后，这样的现状有所改变，如何去用大模型？如何用这样的通用AI能力去赋能自动驾驶与机器人？

机器人在弱人工智能时代，其实与人工智能之间的结合并不是很多，但现在与大模型结合有了新的机会。

大模型的能力，再加上思维链等提示词工程甚至可以实现零样本学习，这有可能更多地推动人工智能与自动驾驶、机器人的结合，在未来或有更多真正产业落地应用的机会。

王田苗：我有个个人观点，基于人工智能大模型进行创业的团队，现在更需要在大模型的基础上找出具体应用场景来创新？

邓志东：我同意这样的观点。

我觉得做大模型其实非常困难，我们更应该关注怎么去用好大模型，搞机器人、自动驾驶的，更应该关注怎么去使用，使用大模型的能力，这个是最重要的事情。

我有三个观点：

第一，我们应该更多关注大模型的应用，语言智能是我们人类和动物之间的根本区别，所以用语言智能就可以提供与人类一致的感知、预测、决策及规控能力，甚至可以用我们人类经验去对它进行反馈矫正；

第二，利用世界的知识模型、知识图谱去推动完成目标的理解，之前我们只能做到感知，做不到理解，现在从某种意义上说视觉理解可以通过世界知识模型的构建来实现；

第三，用大模型支撑自然人机交互，通过它可以进行完全自然的人机交互，从而进一步实现主动感知。

我觉得这三个方面是很重要的。最重要的是，对通用人工智能来说，同一个模型可以干很多事情，例如可以做感知，可以做决策，可以做规划，甚至可以做性能评估等，这与弱人工智能一个模型只能完成一个任务是完全不同的。

大模型+机器人，从封闭环境走向开放环境

王田苗：您认为人工智能为机器人产业带来了哪些机会？

熊蓉：人工智能技术与机器人结合能够不断提升机器人的智能移动能力、智能操作能力，以及智能交互能力。

第一，像现在大模型的诞生，直观来讲，我们会看到它对机器人和人的这种自然语言交互、以及视觉交互，能够有一个很好地提升。

我们在早几年也有看到市场上出现过一些家庭陪伴聊天机器人，但当时只是热了一阵子，因为它整体交互能力做得不够好，给人的感觉还是比较呆板、不够智能，现在语言大模型在这方面有了很好的提升。

第二，我们现在可以把语言和视觉的大模型与机器人的技能学习结合，例如与操作能力的学习结合起来。

我们之前也做过这样的尝试，通过预训练的语言大模型、视觉大模型和机器人抓取模型结合，我们可以看到：

一方面，我们可以给它灵活地下达指令；

另外一方面，我们可以实现一个有目标性的智能抓取，改变了前面我们必须模块化定义机器人的目标检测、定位、抓取决策，任何一个环节出错都有可能影响最后的成功率。

而机器人抓取模型的学习，例如2015年谷歌用16台机器人训练了6个月时间，实现的是无目标抓取，只是抓取，并不识别物体。

我们现在做的，是把二者进行结合，实现有目标的智能抓取。

因此，将感知智能和运动智能结合，实现感知运动智能，可以进一步提升机器人的智能性，从而更好地适应开放动态的环境。

这可以改变我们现在的机器人还是在一种受限受控的环境下运行的现状，从面向工业应用场景推广到更加开放动态的环境，带动服务机器人的发展。

王田苗：您认为什么场景中会出现单品出货量超过100万台的机器人物种？

熊蓉：人工智能从专用人工智能走向了通用人工智能，对机器人而言，也需要从专用型机器人向通用型机器人去发展，这也是为什么现在人工智能热潮中，人形机器人也形成了一个热潮的原因。

因为它代表的是未来一个通用型机器人，可以适应各种应用场景。

玩酷网

王田苗对话四位AI领军人物：具身智能的机遇与挑战

科技行者