从机器人系统开发,看具身智能

电子科技先知晓 2025-03-06 08:59:54

自从今年春节以来,DeepSeek和宇树机器人是两个最令人关注的产品,这两个产品都与AI大模型相关,特别是具身智能机器人。

最近一段时间内,国内对于具身智能的支持力度达到了空前的高度。2月27日,北京人民政府发布《北京具身智能科技创新与产业培育行动计划(2025-2027年)》,发力“具身智能+”;无独有偶,3月3日,深圳市科技创新局更是发布了《深圳市具身智能机器人技术创新与产业发展行动计划(2025-2027年)》,定好了接下来3年的行动路线,抢跑具身智能。

所以在如此大热之下,工程师非常有必要了解具身智能这项技术。那么,具身智能到底是什么?对于机器人来说,AI是如何应用起来的?大模型用于机器人计算,究竟颠覆和进步在哪?

看懂具身智能

具身智能(Embodied AI)是指通过物理实体与环境交互来实现智能增长的智能系统。简而言之,具身智能可以理解为“具身化的人工智能”。具身智能的形态并不局限于“人形”,其外观也不能作为判断是否属于具身智能的依据。

根据应用场景和用途的不同,具身智能可以呈现多种形态。例如,通用智能机器人、搭载AI系统的大型工业设备以及自动驾驶系统等,都属于具身智能的具体表现形式。其核心在于“智能”,而GPT-4、Sora等AI技术的突破,实现了对文本、视觉、语音等多模态信息的理解与转换。将这些AI技术嵌入到机器人等物理实体中,能够显著增强其对环境的感知、交互及任务执行能力。

具身智能体框架

目前,很多人对于具身智能有着一定的概念误区:第一,具身智能不等于“大模型+机器人”,而是“人工智能+机器人等物理实体”;第二,具身智能不等于智能体(Agent),二者各有交叉和侧重;第三,具身智能不等于人形机器人,而是可以搭载到任意形态的机器人身上,包括:

基座型机器人:如机械臂等固定基座型机器人,常用于实验室自动化、教育和工业领域,通常具有高精度和重复性,适合执行需要精确控制的任务;轮式机器人:因高机动性而广泛应用于物流、仓储和安全检查,能够在平坦的地面上快速移动,适合在室内或结构化环境中执行任务;履带机器人:具有强大的越野能力,适用于农业、建筑和灾难应对,能够在复杂的地形上行走,是野外作业和极端环境探索理想选择;四足机器人:以稳定性和适应性著称,适合复杂地形的探测和救援任务,能够模仿动物的行走方式,在不平坦的地形上保持平衡和稳定性;人形机器人:凭借灵巧的手部操作能力,在服务业、医疗保健、工业等领域展现出广阔前景,其旨在模仿人类外形和动作,使其能够更自然地与人类互动和在人类环境中工作;仿生机器人:通过模仿自然生物的运动方式,能够在复杂动态环境中执行特定任务。这类机器人的设计灵感来自于自然界中的生物,如蛇形机器人、鱼形机器人等,能够适应特殊的环境和任务需求。

人工智能与机器人技术的发展并非孤立,而是相互促进、共同演进。人工智能为机器人提供了“大脑”,使其具备感知、思考和决策能力;而机器人为人工智能提供了“身体”,使其能够与现实世界交互并获取经验与知识。

随着人工智能算法,尤其是多模态大模型技术的突破性进展,机器人产业的发展将显著加速。这些技术进步提升了机器人的智能水平,使其能够自主判断和识别,并执行复杂的多阶段语义推理任务。这不仅增强了机器人的泛化能力,也加速了人形机器人量产的进程。

不过,根据Gartner技术成熟度曲线来看,具身智能目前仍处于技术萌芽期。尽管大模型技术推动了其成为科技产业的热点,但初创公司在技术和商业化路径上仍未找到有效方案。在成本和技术层面,仍需克服诸多挑战,包括数据获取难题、弱解释性问题、模型能力待提升、技术路线不确定、缺乏验证方法、算力水平制约、伦理与安全问题。

给机器人系统接上“大脑”

目前,机器人的系统整体的组成如下:

硬件层传感器系统:包括摄像头(视觉)、激光雷达(LiDAR)、毫米波雷达、超声波、IMU(惯性测量单元)等,用于实时采集环境数据。计算单元:高性能嵌入式处理器(如NVIDIA Jetson、高通机器人平台)、FPGA或定制化ASIC芯片,用于处理传感器数据、运行算法。执行机构:电机、机械臂、轮式/足式底盘等,负责执行物理动作。通信模块:5G/Wi-Fi/蓝牙等无线通信,支持多机器人协作或云端交互。软件层操作系统:机器人专用OS(如ROS/ROS 2、Ubuntu Core)提供任务调度、硬件抽象和通信框架。算法模块:感知算法:SLAM(同步定位与建图)、目标检测(YOLO、PointNet)、语义分割等。决策规划:路径规划(A、RRT)、任务分配(强化学习、博弈论)、动态避障(DWA算法)。控制算法:PID控制、模型预测控制(MPC)、仿生运动控制(如波士顿动力Atlas的平衡算法)。人机接口:自然语言交互(NLP)、手势识别、AR/VR远程操控等。

具身智能大模型对于机器人软件栈上具备极强的颠覆性,它让机器人能够像人类一样灵活地执行各种任务。相当于给机器人装了一个”大脑“。

在大模型参与机器人控制和决策之前,绝大多数机器人的编程工作都由专业程序员利用机器人提供的API进行编程。比如说,协作机器人Universal Robots通常需要通过编写代码或在图形界面上设置机械臂的起点、终点、夹爪的开合角度、任务的重复次数等参数完成机械臂的工作。这种方式有着很明显的缺点:效率低、成本高、迭代慢。

大模型则具备对不同机器人和任务进行规划的能力。它可以进行交互式对话,也可以根据机器人的行为向ChaGPT提供反馈,并根据用户的反馈更新或调整代码。以此,将用户长序列的复杂任务拆解成多个子任务,以渐进方式解决问题,从而提高任务的成功率和鲁棒性。

对于算法设计者来说,机器人计算的软件栈发生了很大的变化,系统设计者目前有两种设计思路:

第一种是一步到位的端到端的设计思想:以谷歌的PaLM-E和RTXi列为代表,直接将大模型作为整个计算软件的主要模块。端到端无疑更具备潜力,其他子系统功能较为单一,设计更简单,但端到端计算系统实时性难以控制(一般控制指令频率至少达到50Hz),比如谷歌的PaLM-E的560B模型四张NVIDIA A100也很难实现,RT系列工作时也只有3Hz的控制频率;另一种是循序渐进的改进传统机器人系统的设计思想:以Come Robt、Figure01为代表,保留了传统机器人软件栈中大部分模块。这一派认为传统机器人软件栈的定位、路径规划、避障等模块已经很成熟,还有存在的必要。不过,传统机器人软件栈大多基于设计者经验,属于“rule-based”,因此诸如SLAM定位算法模块很难通过数据驱动。大模型接入后割裂感会更强,数据无法及时反馈导致大模型能力被削弱。

不过,大模型应用到机器人中,也是循序渐进的,目前来看,具身智能大模型主要研究成果包括:

ChatGPT发布几个月后,就有研究者将其应用到机器人(ChatGPT for Robotics),确定了大模型与机器人的关系,不过ChatGPT本身并非多模态,具有局限性。主要代表是三星RobotGPT框架,其利用ChatGPT问题解决能力,通过有效提示结构提高任务成功率,尽管存在挑战,但通过有效提示结构等提高任务成功率,任务执行成功率达到了91.5%,已在现实环境中运行;谷歌机器人小组很早就使用大模型参与机器人的决策与控制,并推出Robotic Transformer-1(RT-1)和Robotic Transformer-2(RT-2)模型,RT-2利用大量网络图文数据进行预训练,之后在机器人数据上机芯工微调,并将模型参数量大幅增加到550亿个。此外,其推出的PaLM-E模型参数量已达到5620亿。清华大学TSAIL团队RDT-1B模型:2024年10月推出的1.2B参数开源模型,采用扩散模型设计和大规模预训练策略,提升了双臂操控任务的性能,零样本泛化能力强;北京大学RoboMamba模型:2024年6月推出的多模态模型,集成视觉编码器与线性复杂度状态空间语言模型,通过高效微调策略,提升推理和操控能力,推理速度达到现有模型的三倍;大模型的关键在于“大”,不过后来大家发现一些小模型也很好用。比如字节跳动的RoboFlamingo模型,利用公开可访问的预训练VLM为机器人构建有效的操作策略;再比如,MIT与谷歌提出了一个新的方向UniPi,它创造性地利用text-to-video的能力,指明了一个新的方向。

具身智能的挑战在哪里?

对于目前的具身智能大模型,目前业界在思考两个问题:

一是模型设计问题。模型是否越大、越通用越好?事实上,PaLM-E这项工作使用的模型参数量已经达到了5620亿个,远远超越RT系列,功能也更泛化。但实际上,机器人领域任务非常多样,小的专用模型泛化性差,但是一些任务中表现出色;二是模态混合问题。传统机器人使用视觉、听觉、力、惯性、定位、点云等大量外界输入信息,当前机器人大模型通常只使用视觉和自然语言信息两个模态,增加模态对具身智能是否有益,增加后又该如何耦合进当前系统。

通过对国内外具身智能机器人创新体系的深入调查研究,行业当前面临的5个主要问题:

1.应用场景的不确定性:具身智能机器人的终极目标是演变成通用机器人,能够在多种复杂的应用场景中执行多样化的任务。任务的多样性和复杂性对机器人的算法设计提出了很高的要求,特别是在环境适应性、动态决策制定及精确控制等方面。要达到这样的技术水平,具身智能机器人的“大脑”(控制和决策中心)、“小脑”(协调和精细动作控制)、“肢体”(执行具体任务的部分)的研发必须达到高度协同和高效能的水平。

2.产业链成本高企:规模化是产业链成熟的标志,也是推动技术革新和成本降低的关键。机器人产业的高成本问题复杂而多元,作者倡议采取措施推动具身智能机器人技术的规模化应用,来实现成本的大幅降低和产业链的成熟发展。

3.系统集成难度大:源于缺乏具体应用场景和技术的不成熟,具身智能机器人在“大脑”、“小脑”和“肢体”的关键技术目前在开发上还是孤立的技术点,尚未形成有效的技术联动,拟通过对以下几项技术开展研发工作:①开发适用于具体应用场景的具身智能机器人“大脑”,采用基于人工智能的大模型,增强机器人的环境感知、行为控制和人机交互能力。②开发“小脑”模块,使机器人能够执行特定动作,建立运动控制算法库,并构建网络控制系统架构。③研发“机器肢体”的关键技术,包括仿人机械臂、灵巧手和腿足,以及轻量化骨骼、高强度本体结构和高精度传感技术等。通过对这些技术的综合发展和应用场景的实践,形成完整的解决方案,推动具身智能机器人技术的进步。

4.数据瓶颈:机器人的适应性和泛化能力依赖数据的多样性,获取大量、高质量和多样化的数据面临巨大挑战。避免“数据孤岛”,实现数据共享有助于提高研究效率和质量,才能更好地推动行业发展。

5.伦理规范:具身智能机器人的伦理挑战体现在自主性和交互性上,带来了一系列伦理问题。制定机器人安全伦理规范标准,确保技术发展既遵循科学规范,又符合伦理原则,该书作者提出了如下几点倡议:①尊重和保护人类的尊严和基本权利,包括保护个人的隐私、自由和安全。②用户有权了解机器人系统的工作原理和决策逻辑。③建立健全的责任和问责机制,确保规范得以遵守。

具身智能的应用现状

从算法开发者角度来看具身大模型,可以在医疗、工业、家庭两大领域带来很多想象力:

医疗领域:微创手术辅助机器人、自动化缝合机器人等;工业领域:2024年3月梅赛德斯-奔驰与Apptronik达成协议,引入Apollo人形机器人从事搬运、装配零部件等繁重的低技能劳动;优必选设计的工业版人形机器人Walker S已经在蔚来的汽车工厂进行实训;Agility Robotics的Digit 2024年6月已经在物流搬运领域应用;微亿智造“创TRON”助力打造离散制造智能化柔性适配生产线;配天在“AI+机器人”已经成功研发免示教焊接软件模块,基于绎零机器人运动控制引擎,通过视觉检测和感知技术实现对焊接任务的快速识别和自主调整,无需人工示教即可投入使用,适应工厂灵活的排产需求;家庭领域:2024年年初斯坦福团队开发了家用Mobile ALOHA机器人,它可以炒菜、浇花、洗衣服等;腾讯小五机器人采用四腿轮足复合设计,具备多种能力,在养老院场景表现良好。

目前,全球具身智能相关厂商主要包括:

全球人形机器人企业:Tesla、Google、英伟达、Figure、π、Skild、Agility、1X Technology、Deepmind、谷歌、软银、波士顿动力、Covariant、空间智能;国内人形机器人企业:华为、小米、小鹏、优必选、智元、宇树、傅利叶、乐聚、银河、浙江人形、逐际、星动纪元、星海图;工业具身智能企业:微亿智造、MECH MIND、遨博智能、配天机器人、中科光电、新松、ESTUN;科技大厂和AI企业:华为、腾讯、百度、字节跳动、阿里云、美团、科大讯飞;汽车企业和Tier 1:比亚迪、小鹏、小米、广汽集团、长安汽车、宁德时代、地平线;具身智能创新中心:国地共建具身智能机器人创新中心、浙江人形机器人创新中心、广东省机器人创新中心、人形机器人(上海)有限公司。

总之,具身智能是一个非常综合的领域,不仅需要在算法上进一步突破,也要在底层芯片算力支持上进行突破。目前,随着政策进一步支持,国内正在迈向新纪元。

喜欢我们的文章吗?欢迎在wx关注我们的订阅号:机器人开发圈(ID:RoboticsDevelopers),浏览更多机器人相关内容。

0 阅读:7

电子科技先知晓

简介:感谢大家的关注