具身智能是一种基于物理身体进行感知和行动的智能系统,1950 年在图灵的论文《Computing Machinery and Intelligence》中首次提出,其概念的诞生是为了解决智能体与真实物理世界交互的难题。
在符号主义的局限性暴露后,联接主义发展起来,但仍未真正解决智能体与真实物理世界交互的问题。于是,“具身智能” 概念应运而生。具身智能的思想萌芽于人工智能诞生之初,图灵在其论文结尾展望了人工智能可能的两条发展道路,其中一条便逐渐演变成了具身智能。在具身智能的发展道路上,人们思考和探讨人工智能系统是否需要拥有与人类相似的身体和感知能力,以及身体如何影响智能和认知。早期的具身智能研究主要集中在机器人学和仿生学领域,随着深度学习等技术的快速发展,具身智能研究进入了一个新的阶段。
例如,1986 年,布鲁克斯从控制论角度出发,强调智能是具身化和情境化的,制造基于行为的机器人是清除表征的方式。近年来,微软、谷歌、英伟达以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。斯坦福大学 AI 实验室主任李飞飞认为,任何能在空间中移动的有形智能机器都是人工智能的一种形式。2023 年,世界被人工智能浪潮席卷,人形机器人的逐步完善为具身智能的落地提供了方向。2024 年,具身智能产品和服务的市场需求持续增长,其应用场景也不断拓展。
二、具身智能的发展历程(一)早期早期具身智能研究主要集中在机器人学和仿生学领域。自 20 世纪中叶以来,机器人技术在工业、医疗和军事等领域取得显著进步,但早期机器人主要基于预设程序和指令执行任务,智能水平相对较低。为提高机器人智能水平,研究者将具身智能概念引入机器人领域,使其能自主学习和适应环境。同时,感觉和运动控制技术、人工智能技术、人机交互技术和脑机接口技术的发展也为具身智能奠定了基础。例如,通过改进传感器设计和信号处理方法,提高了机器人对环境的感知能力;引入知识表示和推理技术,使机器人能够从环境中学习知识和进行推理;引入自然语言处理和图像识别技术,使机器人能够更好地理解人类的意图和表达;通过改进信号采集和处理方法,提高了脑机接口的信噪比。
(二)当前热点2023 年以来,具身智能成为科技界热门话题。人形机器人的发展为具身智能的落地提供了明确方向。例如,2024 年 3 月,Figure 01 机器人亮相,引发市场高度关注。这款机器人可以与人类进行全面对话,所有行为都是学到的,并非远程操作。它集成了 OpenAI 所推出的多模态 AI 大模型,具备模仿人类行为、深度学习与思考以及与人类进行自然且高效率沟通等诸多强大能力。在 2024 世界人工智能大会暨人工智能全球治理高级别会议上,“具身智能” 成为热点之一。7 月 5 日,一家人工智能公司推出的 “具身智能本体” 跳舞机器人,吸引大批观众前来参观。此外,在 2024 世界机器人大会上,人形机器人的数量达到历年之最,从 “双臂”“手指” 灵活协同操作,到 “双脚” 在复杂地形行走,再到开发基于人工智能大模型的 “大脑”,形态各异。这些都表明具身智能在当前科技领域的热度持续攀升。
三、具身智能的特点(一)主要特点具身智能机器人作为具身智能的实体形态,确实展现出了诸多独特之处,有望成为 AI 的最终载体。其整体架构由感知层、交互层、运动层组成,为其实现各种复杂功能奠定了基础。
“具身智能” 最大的特质就是能够以主人公的视角去自主感知物理世界。这意味着它不再像传统机器人那样被动地等待数据投喂,而是主动地去探索和理解周围的环境。通过这种方式,它能够用拟人化的思维路径去学习,从而做出人类期待的行为反馈。例如,在家庭服务场景中,具身智能机器人可以像人类一样观察家庭成员的行为习惯和需求,主动提供帮助,如整理物品、提醒日程安排等。
具身智能机器人还具备理解力、交互力、规划能力等。在理解力方面,它能够理解人类的语言和指令,并根据具体情况进行合理的回应。比如,当主人要求它完成一项任务时,它可以分析任务的要求和环境条件,制定出最佳的执行方案。在交互力方面,它可以与人类进行自然而流畅的交流,不仅能够回答问题,还能主动发起对话,了解人类的需求和情感。规划能力则使其能够在复杂的环境中制定出合理的行动路线和策略,高效地完成任务。
与普通机器人相比,具身智能机器人具有更高的工作效率。这是因为它能够自主学习和适应环境,不断优化自己的行为和决策。同时,它的多层面架构和强大的功能使得它能够处理更加复杂的任务,为人类带来新一轮的科技变革。例如,在智能制造领域,具身智能机器人可以快速准确地完成各种生产任务,提高生产效率和质量;在医疗服务领域,它可以协助医生进行手术、康复治疗等工作,为患者提供更好的医疗服务。
人形机器人作为具身智能的重要应用场景,为实现更复杂行为语义提供了迭代的基础和试验场。人形机器人提供了各种基于人类行为的学习和反馈系统,使得具身智能能够更好地模拟人类的行为和思维方式。通过不断地与人类互动和学习,人形机器人可以不断优化自己的性能和功能,为具身智能的发展提供有力的支持。
(二)算法路径具身智能的算法路径主要分为两条,一是以 OpenAI 与 Figure 合作的 Figure01 为代表的分层决策模型。这种模型通常分为三层:策略控制系统(SLC)通过大模型整合任务、环境和本体感知信息,就像一个智能的指挥官,统筹全局,收集各种信息并进行分析和处理;环境交互的控制系统(ELC)通过具身模型实现环境感知和动作规划,它就像是一个敏锐的侦察兵,能够准确地感知周围的环境,并制定出合理的行动方案;行为控制系统(PLC)通过传统控制算法输出机器人控制的力矩实现最终动作,如同一个精准的执行者,将规划好的动作准确地执行出来。这种分层架构实现难度相对简单,但不同步骤间的融合和一致性是主要难点。如果各个层次之间的信息传递和协作出现问题,就会影响整个系统的性能和稳定性。
二是由 Google RT - 2 为代表的端到端模型,它首先在大规模互联网数据上预训练 VLMs,然后在机器人任务上微调。输入是任务和对象的组合,输出是一系列动作,利用一个神经网络完成从输入到感知、推理、决策和行为指令输出的全过程。端到端方案看起来更加完美,谷歌也表示在 RT - 2 模型中观察到了涌现能力,Scaling 是其继续迭代的一条稳定路径。端到端模型在当前存在一定问题:首先需要海量数据进行训练才能泛化,这就意味着需要大量的计算资源和时间成本;全程调用大模型,资源消耗巨大,机器人执行动作缓慢,可能无法满足一些实时性要求较高的任务场景。