对话刘志毅：为什么具身智能是通往AGI的必由之路

作者 | 柏亮

来源 | 零壹智库

对话嘉宾：刘志毅

中国人工智能领军科学家，上海市人工智能社会治理协同创新中心研究员，上海交大清源研究院研究员，深入研究和实践AI领域十余年，包括智能计算、空间智能以及超级人工智能对齐方向。中国人工智能学会AI伦理工作委员会委员及具身智能专委会委员，上海交大计算法学与人工智能伦理研究中心执行主任，上海交大安泰AI与营销研究中心特聘研究员，海开源技术信息协会AI伦理专委会主任，2024年入选福布斯中国“十大人工智能影响力人物”。

从创造像人一样思考的机器，到创造像人一样的机器，都是人工智能的梦想。像人一样的机器，人形机器人是当前人工智能最炫目的领域，它也是当前最被寄予厚望的“具身智能”的一部分。

在《智能的启蒙》中，刘志毅从新的视角去思考和理解“智能”，“结合我过去十几年在多个行业和学术研究机构从事研究的经历，来探讨和分享我对人工智能技术发展中最核心的问题的思考，即对‘智能的本质’这个问题的思考。”

而对于智能的未来，他认为，“基于形态计算的具身智能将成为通用人工智能未来发展的新形态。”

在最近出版的新书《具身智能》中，刘志毅系统论述了具身智能的理论框架，深入探讨了具身智能的技术思想，为理解下一代人工智能的发展方向提供了新的理论框架和产业发展前瞻。

在本次对话中，刘志毅阐述了在通往通用人工智能的道路上，我们将要创造什么样的“人”、“人”将创造出怎样的未来，以及这个过程中涌现出来的产业机遇。

“具身”：打破人工智能的局限

零壹财经：为什么说具身智能是通往AGI的必由之路？

刘志毅：具身智能之所以被视为通往AGI的必由之路，其核心在于它为人工智能系统提供了一个与真实世界进行多维度交互的关键机制。

这种机制不仅使AI能够获得丰富的多模态感知经验，还能促进抽象思维能力的发展和知识的迁移学习，从而为实现真正的通用人工智能奠定基础。

通过将AI嵌入物理实体，具身智能使机器能够像人类一样，通过持续的环境互动来学习和适应，这种学习方式更接近人类认知的本质，有望突破传统AI在通用性和适应性方面的限制。

零壹财经：很多文章和报告，把具身智能描述为与机器相结合的人工智能。您觉得是否准确，或者说具身智能还有更深广的范畴？

刘志毅：将具身智能仅描述为与机器相结合的人工智能，虽然直观但过于狭隘。

具身智能的范畴实际上更为广泛和深远，不仅涵盖了传统的机器人学，还包括虚拟现实、增强现实、智能传感器网络、脑机接口等领域。

更重要的是，具身智能还延伸到认知科学研究，探索人类智能的本质。它不仅是一种技术实现，更是一种理解和模拟智能的哲学思路和方法论，强调身体、环境和认知之间的密切关系。

零壹财经：《具身智能》具有很强的科技思想史和技术哲学的意味，能否简述“具身智能”的发展史（重要节点），以及它的主要思想框架（主要的思想来源）？

刘志毅：具身智能的发展史可追溯至20世纪初的现象学哲学思想，经历了控制论和早期AI的启蒙、认知科学革命的洗礼、行为主义AI的兴起，直至1990年代具身认知理论的正式形成。

其重要节点包括：Edmund Husserl和Maurice Merleau-Ponty强调身体经验在认知中的重要性；Norbert Wiener提出控制论；Rodney Brooks提出"以身体为基础"的机器人控制架构；Francisco Varela等人出版《The Embodied Mind》正式提出具身认知理论。

其主要思想框架源自多个学科，包括哲学、认知科学、神经科学和人工智能。

其核心理念包括：认知基于身体、环境作为认知的延伸、行动导向的认知、情境化的学习以及动态系统理论。这些思想不仅挑战了传统的智能观念，也为构建更接近人类智能的AI系统提供了新的理论基础和技术路径。

零壹财经：具身智能因为“身”的存在，与其他的人工智能，比如说语言大模型，有什么核心区别？“身”对于人工智能发展的意义是什么？

刘志毅：具身智能因“身”的存在，与语言大模型等传统AI系统的核心区别在于其直接与物理世界交互的能力。

这种交互不仅提供了丰富的多模态感知输入，还使AI系统能够通过实际行动验证和调整其认知模型。“身”对人工智能发展的意义在于它为AI提供了一个真实的学习环境，使其能够像人类一样通过体验和反馈来构建对世界的理解。

这种方法有望解决传统AI在泛化能力和常识推理方面的局限，为实现真正的通用人工智能开辟新的可能性。

大模型与具身智能：互补，而非单向决定

零壹财经：大模型的爆发推动了新一轮具身智能的涌现，比如 Figure 01、 Figure02 背后是 OpenAI 的大模型支持。大模型对具身智能的发展是否具有决定性的作用？

刘志毅：大模型的爆发确实推动了具身智能的新一轮发展，如Figure 01、 Figure02背后的OpenAI支持就是典型例证。

然而，认为大模型对具身智能发展具有决定性作用可能过于绝对。大模型为具身智能提供了强大的语言理解和任务规划能力，但具身智能的核心在于将这些能力与实际的物理交互相结合。

大模型和具身智能的结合代表了一种互补关系，而非单向决定。真正的突破可能来自于如何有效地将大模型的抽象推理能力与具身系统的实际操作能力相融合。

零壹财经：前段时间 OpenAI 推出open o1，业界都在惊叹于open o1的“慢思考”能力，它的实质性进步是什么？对于具身智能的发展，它有什么促进作用？

刘志毅：OpenAI推出的open o1引起业界关注的"慢思考"能力，其实质性进步在于展示了AI系统在复杂任务中的深度推理和规划能力。这种能力对具身智能的发展具有重要的促进作用。

首先，它为具身系统提供了更加精确和灵活的任务规划能力，使机器人等具身智能系统能够处理更加复杂和长期的任务。

其次，"慢思考"能力反映了AI系统在模拟人类认知过程方面的进步，这与具身智能强调的认知与身体交互的密切关系相呼应。

回顾早期的具身认知理论，如Varela等人在《The Embodied Mind》中提出的观点，我们可以看到"慢思考"能力与具身智能的深层联系。

具身认知理论强调认知过程是嵌入在身体和环境中的，而不仅仅是抽象的信息处理。open o1的“慢思考”能力，虽然是在语言模型中实现的，但它展示了AI系统在模拟人类深度思考和问题解决过程方面的潜力。

将这种能力与具身系统结合，有望创造出能够在复杂、动态环境中进行深度推理和灵活决策的智能体。

然而，我们也需要认识到，真正的具身智能不仅需要“慢思考“，还需要快速反应和实时适应的能力。正如Rodney Brooks在其行为主义机器人架构中强调的，智能行为往往源于与环境的直接互动，而不仅仅是内部的复杂计算。

因此，未来具身智能的发展方向可能在于如何平衡和整合“慢思考”与快速反应，以及如何将抽象推理与具体的身体经验有机结合。这种整合将为我们带来更接近人类智能的AI系统，能够在复杂的现实世界中灵活应对各种挑战。

空间智能与感知能力

零壹财经：《具身智能》深入剖析了李飞飞提出的“空间智能”，空间智能对于具身智能而言，其作用和价值是什么？

刘志毅：李飞飞提出的"空间智能"概念对具身智能的发展具有深远的意义。空间智能强调了智能体对三维空间的理解和操作能力，这与具身智能的核心理念高度契合。

对于具身智能而言，空间智能的价值在于它为智能体提供了一个更加全面和精确的环境感知框架，使其能够在复杂的三维世界中进行有效的导航、操作和交互。

这种能力不仅增强了具身智能系统的适应性和灵活性，还为实现更高级的认知功能，如空间推理和场景理解，奠定了基础。

零壹财经：李飞飞最近的文章认为，大模型并不具备感知能力。具身智能因为“具身”，是否有可能具备感知能力？现在的人形机器人，比如擎天柱，初步具备感知能力了吗？

刘志毅：关于大模型是否具备感知能力，李飞飞的观点引发了深入思考。具身智能因其"具身"特性，确实有可能具备更接近人类的感知能力。

与纯粹的语言模型不同，具身智能系统通过直接与物理世界交互，可以获得多模态的感知输入，包括视觉、听觉、触觉等。这种多维度的感知信息使具身智能有潜力发展出更全面、更精确的环境理解能力。

然而，目前的人形机器人，如擎天柱，虽然在某些方面展现出了初步的感知能力，但与人类的全面感知能力相比仍有较大差距。这些机器人的感知能力更多地体现在特定任务和环境中的数据处理和反应，而非真正意义上的理解和意识。

塑造新的“人”

零壹财经：脑机接口和人形机器人，似乎前者是用人工智能增强人，后者是用人工智能增强机器，两者都在塑造新的“人”，这两种“人”，未来是否会成为竞争者？

刘志毅：脑机接口和人形机器人代表了增强人类能力的两种不同路径。脑机接口旨在通过直接连接人脑与外部设备来增强人类的认知和控制能力，而人形机器人则是通过模仿人类形态和功能来创造独立的智能实体。

这两种技术路线确实都在塑造新的"人"的概念，但它们是否会成为未来的竞争者，这个问题值得深思。

从长远来看，这两种技术可能会走向融合而非对立。脑机接口技术可能被用来更有效地控制和交互与人形机器人，而人形机器人的发展也可能为脑机接口提供更先进的执行终端。

零壹财经：您在《具身智能》书中提及机器人的“主权”问题，如何理解具身智能机器人在未来社会中的角色、权力，或者说主体性？

刘志毅：具身智能机器人的“主权”问题涉及到一个深层次的哲学和伦理困境。随着具身智能的发展，我们可能需要重新审视智能体的法律地位和社会角色。这些机器人在未来社会中的主体性可能会介于工具和有自主权的个体之间，形成一种新的存在范畴。

正如法哲学家Lawrence Solum曾探讨的"人工人格"概念，我们可能需要为高度自主的具身智能体创造新的法律和伦理框架。这种主体性的认定不仅涉及机器人的权利，还包括其责任和社会义务。

然而，赋予机器人“主权”也可能带来一系列复杂的问题，如责任归属、道德决策和社会影响等。我们需要在技术发展和伦理考量之间找到平衡，以确保具身智能机器人能够以一种有益且负责任的方式融入社会。

人形机器人：不少投资人被唬住了

零壹财经：人形机器人是大家谈得比较多的具身智能。您怎么看人形机器人的发展方向？目前人形机器人公司和产品大量涌现，人形机器人到了大规模产业化、普及性应用的阶段了吗？

刘志毅：人形机器人的发展方向可能会遵循两条并行的路径：一是追求功能性和效率，二是追求与人类的自然交互。

从功能性角度来看，未来的人形机器人可能会更加模块化和可定制，以适应不同的应用场景。同时，随着材料科学和控制算法的进步，我们可能会看到更加灵活和高效的机器人身体结构。

从交互角度来看，未来的人形机器人可能会更加注重情感智能和社交能力的开发。这可能涉及到更复杂的面部表情系统、更自然的语音交互，以及更高级的上下文理解能力。

然而，我们也需要警惕"恐怖谷效应"带来的心理障碍，在追求拟人化的同时，保持机器人的独特性和功能性。

现在市面上确实看到特斯拉、Agility、Figure AI等大玩家在人形机器人领域动作频频,投资界和媒体也是一片火热。但说实话,要说人形机器人已经到了可以大规模生产、广泛应用的阶段,这个结论恐怕还为时过早。我们得从几个关键角度来看这个问题:

首先，不可否认在机器人的动作控制、基础抓取能力上,这些公司确实做出了让人眼前一亮的成果，不少投资人也都被唬住了。但实际上要真正推向市场，性价比、稳定性、实战适应能力这些硬骨头还得啃。特别是在需要复杂人机互动和精细操作的场景,还有不少坑要填。

再说投资市场吧，表面上看确实是一派繁荣，人形机器人公司如雨后春笋。但仔细观察就会发现，大多数还停留在“Demo”阶段，能真正落地商用的凤毛麟角。要建立起大规模生产的供应链体系，这投入可不是小数目。

从长远来看，人形机器人确实有望在制造业、医疗、家庭服务等领域带来革命性变化。但现实点说，如果纯从经济效益考虑，目前专用型机器人可能更划算，投资回报更明确。

展望未来，我觉得这个市场会按以下节奏逐步推进:

•近期1-3年:主要在一些可控环境下小规模试点，这是目前的国内具身智能公司的主要阶段。

•中期3-5年:个别细分市场会找到靠谱的商业模式，供应链也会逐步成熟，一定是结合场景来落地的。

•远期5-10年:如果成本和技术都到位了，可能就会迎来规模化普及的拐点，尤其是结合通用具身智能的技术发展。

这是目前对现在的技术和产业发展情况的一个基本判断。

未来五年最有价值的产业机会

零壹财经：除了人形机器人，就产业或产品而言，具身智能涵盖了哪些产业或产品形态？就未来五年而言，你认为其中哪些最有发展前景？

刘志毅：除了人形机器人，具身智能还涵盖了多种产业和产品形态。这包括但不限于：智能家居系统、医疗辅助机器人、工业自动化设备、教育互动设备、农业机器人、环境监测系统等。

说到具身智能，大家第一反应可能都是人形机器人，但实际上这个领域远比想象的要广。目前已经看到很多令人兴奋的发展方向:

1.四足机器人。这可能是目前最接近规模化商用的赛道。以国内的宇树科技为例,他们在工业巡检、应急救援等场景已经有不少落地案例。市场反馈显示,相比传统的轮式机器人，四足机器人在复杂地形的适应性确实强很多。不过说实话,成本和续航还是个老大难问题。

2.协作机械臂。这个赛道特别接地气。以新松、埃夫特、节卡机器人这些国产品牌为例,已经在3C电子、汽车装配等领域占据了不少市场份额。现在一个明显的趋势是，越来越多厂商在往“无需编程”的方向发力，通过视觉+AI来实现更灵活的任务适应。

3.智能移动机器人(AMR)。这绝对是当前最火的赛道之一。美团配送机器人、京东物流机器人可能大家都见过。但更有意思的是，现在很多工厂里的物料搬运也开始用上了AMR。菜鸟、快仓、极智嘉在这块做得都不错。关键是ROI比较清晰，客户也愿意买单。

4.智能假肢和外骨骼。这是个特别有社会价值的方向。国内的傅利叶智能等企业在这块耕耘多年。最近他们在运动控制算法上有了不少突破，加上5G远程康复训练的加持，服务半径扩大了不少。

在未来五年内，我认为最有发展前景的领域可能是医疗辅助机器人和智能制造系统。医疗辅助机器人不仅可以提高医疗效率，还能在人口老龄化背景下提供重要支持。智能制造系统则有望变革传统制造业，提高生产效率和灵活性。此外，随着环境问题日益突出，环境监测和治理相关的具身智能系统也可能迎来快速发展。

就具体场景而言，我特别看好以下几个方向:

1.垂直场景AMR。原因很简单 - 商业模式清晰,技术相对成熟,而且国内制造业转型升级的需求真实存在。特别是在劳动力成本持续上涨的背景下，一线工厂对智能化改造的意愿很强。

2.低成本协作机器人。现在市面上主流的协作机器人，动辄二三十万一台，很多中小企业望而却步。如果谁能把成本做到10万以下，同时保证足够的可靠性和易用性，市场空间肯定不小。

3.特种场景机器人。比如矿山、电力、石化这些高危领域的巡检、应急处置机器人。一方面安全需求刚性，另一方面这些行业的付费意愿也较强。已经看到华为、大疆这样的大厂开始布局这个赛道。

告别方向盘和驾照，为时尚早

零壹财经：百度推出的无人驾驶出租车萝卜快报引起了巨大的争议，最近特斯拉也推出了无人驾驶出租车，连方向盘都没有。您预计需要多长的时间，人类就将告别方向盘和驾照，彻底依赖无人驾驶？

刘志毅：关于无人驾驶技术，从百度的萝卜快报到特斯拉的无方向盘设计，都显示了这一领域的快速进展。然而，预测人类完全告别方向盘和驾照的时间点仍然具有挑战性。

考虑到技术、法律、基础设施和公众接受度等多方面因素，我预计在未来15-20年内，我们可能会看到大规模的无人驾驶应用。但这可能是一个渐进的过程，而非突然的转变。

首先，我们可能会看到特定区域或特定场景下的完全无人驾驶（如城市中心或高速公路）。

随后，这种应用会逐步扩大。然而，考虑到紧急情况处理、极端天气条件等因素，完全依赖无人驾驶可能需要更长的时间。此外，驾驶作为一种技能和文化，其完全消失可能需要更长的社会适应期。

玩酷网

对话刘志毅：为什么具身智能是通往AGI的必由之路

子希数字经济