回顾过去的2024年,具身智能技术的迭代迅猛,而围绕具身智能落地的形态也正在向着具象化衍进,人形机器人作为具身智能最佳载体,在今年获得了广泛的关注。值此开年之际,笔者将从具身智能概念、具体形态、落地政策、技术路线、商业化路径等板块为大家解读具身智能产业投资机会。
▍何为具身智能?具身智能底层逻辑是什么?
具身智能是指依靠物理实体通过与环境交互来实现智能增长的智能系统。此前,人工智能主要以数字形式存在,缺乏视觉、触觉、听觉等感官体验,难以有效应对现实世界的各种情况。而具身智能通过赋予AI“身体”,与现实产生交互,使 AI 从数字世界走向物理世界,被认为是迈向通用人工智能的重要一步。
具身智能最早概念(Embodied AI,EAI)由图灵于1950年提出,通过“具身图灵测试”验证智能体是否能处理物理世界的复杂性。具身智能体不同于仅在网络空间中运作的非实体人工智能,它们结合了多模态大模型(MLMs)和世界模型(WMs),具备强大的感知、交互和规划能力,能够在虚拟和物理环境中主动适应并执行任务。相比传统的预编程系统,具身智能体更依赖于构建世界模型和想象力,以实现复杂的推理和决策。
值得关注的是,具身智能概念虽然提出的很早,但大众层面获得广泛认知普遍在最近几年,尤其是AI技术的突破,以及2023年GTC大会上,英伟达黄仁勋再次强调人工智能的下一个浪潮是具身智能,同时发布支持机器人技术的硬件产品。时隔一年,中美两国,围绕具身智能的竞赛已经全面开启。
▍人形机器人是具身智能具象化的最优解
目前产业上并未对具身智能的本体进行界定,包括四足、轮式、履带式机器人,甚至是智能汽车驾驶系统等都可以被称之为具身智能。但在所有形态当中,人形机器人由于其特殊的构造,为具身智能打开了更大的想象空间。
这其中就有一个现实的考量因素,即目前人类社会的生产结构、生产设备普遍按照人类形态进行设计,具身智能设计成人类形态有望更好地适应人类社会的各种任务与场景,全面复用基础设施。
▍聚焦政策前沿领域 具身智能人形机器人已成下一个投资风口
目前,具身智能人形机器人研发高地集中在,中国、美国与日本三个国家,日美在人形机器人领域发展的最早,并持有多项人形机器人技术专利,美国近年来技术发展平稳,而中国正逐渐缩小与先发国家之间的差距。
人民网研究院数据统计,从专利累计受理量数据看,截至 2022 年末,中国已占据40%的份额,居于领先地位。伴随着中国工业能力和科研水平的全面进步,中国在机器人领域的竞争身位逐渐由“跟跑”向“陪跑”甚至“领跑”前进。
在全球范围内,多个国家和地区也纷纷出台政策聚焦具身智能领域。欧盟通过其《人工智能法案》,将具身智能作为人工智能发展的重要方向之一,强调智能体在真实物理环境中的交互能力,并推动相关技术的发展和应用。美国则在《人工智能国家战略》中明确了具身智能技术研发的重要性,通过联邦机构的投资和支持,推动具身智能在多个领域的应用和突破。
英国从产业战略、国家战略层面积极推动人工智能行业发展,其中具身智能作为关键领域之一,得到了政府的大力支持。英国政府成立了人工智能委员会和人工智能办公室,推动具身智能技术的研发和应用,并发布了《人工智能行业协议》等一系列政策文件,为具身智能产业的发展提供了有力保障。此外,其他国家如日本、韩国等也在积极推动具身智能领域的发展,通过制定相关政策、加大研发投入等方式,促进具身智能技术的创新和应用。
回到国内,中国短期的政策目标在于实现核心零部件的技术突破,而长期目标则集中在丰富产业应用和生态构建上,尤其是安全可控的软硬件生态系统。而欧美的技术发展特点则更聚焦于前沿技术的攻关以及重要场景的落地(如科研、服务等)。
近几年,国内政策的聚焦点已经逐步由“机器人”细化至“人形机器人”,并将其列作前瞻布局的重点未来产业之一。2023年10月工业和信息化部发布的《人形机器人创新发展指导意见》中就明确了到2025年人形机器人创新体系初步建立,关键技术取得突破,整机产品达到国际先进水平并实现批量生产,在特种、制造、民生服务等场景得到示范应用。到2027年人形机器人技术创新能力显著提升,形成安全可靠的产业链供应链体系,构建具有国际竞争力的产业生态,综合实力达到世界先进水平。
此外,国家层面还相继出台一系列政策,鼓励机器人创新技术的落地普及,如《“机器人+”应用行动实施方案》提出到2025年,制造业机器人密度较2020年实现翻番,聚焦十大应用重点领域,突破一百种以上创新应用技术及解决方案,推广二百个以上典型应用场景,打造一批标杆企业。同时,《新产业标准化领航工程实施方案(2023-2035年)》则着眼于制定和完善人形机器人相关标准,包括术语、通用本体、整机结构、社会伦理等方面的基础标准、标准预研及应用标准。
地方层面,各地积极响应中央号召,制定适合本地发展的实施政策。例如,深圳设立规模1000亿元的人工智能基金群,积极打造人工智能先导区,聚焦通用大模型、智能算力芯片、智能传感器、智能机器人等领域,开展通用型具身智能机器人的研发和应用。北京则计划到2025年培育100种高技术高附加值机器人产品,万人机器人拥有量达到世界领先水平,核心产业收入达到300亿元以上,打造国内领先、国际先进的机器人产业集群。
此外,上海发布的《上海市人形机器人治理导则》强调人工智能科技和产业的健康发展,确保人形机器人的设计、开发和应用合乎人类道德和伦理价值,保障人类使用人形机器人的权益和安全,带来更丰富的福祉和便利。
▍目前具身智能人形机器人存在差异化竞争路线
全球范围内,围绕具身智能人形机器人的算法方案目前可大体上分为两个派系,即以Figure AI为代表的分层决策模型以及GoogleRT-2为代表的端到端模型技术路线。值得特别说明的是,两种技术路线并无对错之分。其本质上都是以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。
Figure01代表了一种分层决策模型,该模型将任务分解为不同层级,并通过多个神经网络进行训练。随后,这些神经网络以流程管线的方式被巧妙地组合在一起。在Figure01的顶层,接入了OpenAI的多模态大模型,负责提供视觉推理和语言理解的能力。中间层则采用了神经网络策略,充当“小脑”的角色,进行运动控制并生成相应的动作指令。而底层则是机器人本体,它接受来自中间层神经网络策略的动作指令,并负责具体的控制执行。然而,这种分层决策模型也存在缺点,即需要解决不同步骤间的对齐和一致性问题。
该方案以「GoogleRT-2」为典型代表,实现了一个神经网络从任务目标输入到行为指令输出的全链条处理。首先,利用大规模互联网数据对视觉语言模型进行预训练,随后在机器人任务上进行微调,并结合机器人动作数据,成功推导出视觉语言动作模型。GoogleRT-2不仅承担最上层的感知与规划任务,还深入参与中下层的控制与执行,实现了端到端的全面贯通。然而,端到端模型也存在明显缺点:训练数据需求海量,资源消耗巨大,且机器人执行实时性欠佳。
基于具身智能训练方面,主流技术路线可分为模仿学习和强化学习。如广汽集团自主研发的第三代具身智能人形机器人GoMate,采用了模仿学习的方法。通过海量数据的输入和深度学习的优化,GoMate能够模仿人类进行倒茶、整理衣服、搬运物品等精细任务操作。而以强化学习为代表的典型企业则是星动纪元小星系列人形机器人(如小星和小星Max),该机器人基于星动纪元联合清华大学、上海期智研究院发布的人形机器人强化学习训练框架Humanoid-Gym进行训练的。
模仿学习的优势在于其训练效率高,能够通过专家演示快速学习决策策略,减少试错次数,特别适用于试错成本高或环境反馈不明确的任务。同时,模仿学习学到的知识具有较好的泛化能力,易于跨任务推广,能够在类似的任务或情境下快速适应和应用。此外,模仿学习能够充分利用专家提供的示范数据,提取关键特征和信息,数据利用效率高。
然而,模仿学习也存在劣势,如数据依赖性强,需要大量的高质量示范数据,且数据的获取和标注成本较高;缺乏创新能力,难以产生超越专家演示的创新行为;以及鲁棒性不足,学到的策略可能对示范数据的噪声和变化较为敏感。
相比之下,强化学习的优势在于其自主决策能力强,能够通过智能体与环境的交互,不断尝试和调整策略,以最大化长期累积奖励,使机器人学会在复杂环境中自主决策,提高适应性和灵活性。强化学习还能处理动态环境,不依赖于固定的示范数据,而是根据环境的变化动态调整策略。同时,强化学习具有创新能力,通过不断地试错和学习,有可能发现新的、更有效的解决方案。
值得注意的是,强化学习也存在训练时间长、样本效率低的问题,需要大量的计算资源和时间来训练模型,且在训练过程中需要大量的样本数据。此外,强化学习在训练过程中可能会产生不可预见的行为,导致安全隐患,特别是在实际应用中,机器人可能表现出不稳定或危险的行为。
目前国内具身智能的主要攻关方向集中在数据采集方面,该技术主要由基于仿真环境数据和基于真实世界数据两种技术路线构成。仿真环境数据代表企业为银河通用,该公司通过亿级仿真数据训练机器人,利用合成仿真技术合成“灵巧手”物体抓取的大量数据,每个物体合成200条视频,通过成规模注入数据,训练机器人的抓取能力。这种方法能够突破真实世界数据采集的局限,为机器人提供丰富多样的训练场景。
而基于真实世界数据采集的代表企业为智元机器人,该企业自建了大规模数据采集工厂与应用实验基地,涵盖了家居、餐饮、工业、商超和办公五大核心场景,采集了大量真实世界的数据。这些数据不仅用于机器人的训练,还用于开源百万真机数据集AgiBot World,以加快具身智能领域的技术开发。
主要特别说明的是,无论基于仿真环境数据还是基于真实世界数据进行训练,目前具身智能机器人企业均采用融合方式进行,不存在完全独立的某一种数据获取方式。真实世界数据可靠,但无法完成泛化性应用,而仿真环境数据则需要依靠真实世界数据的捕捉再进行仿真训练,两种数据获取方式存在强关联,即便是以数据合成+仿真环境数据技术路线为代表的银河通用,其真实世界数据都不低于20%。因此主流方式上,两种技术路线存在交错融合的发展态势。
▍具身智能商业化路径解析:
观点一:数据依然是具身智能技术的底层基石
在小模型时代,算法的数量和质量对于机器人的性能提升起着至关重要的作用。然而,随着大模型的兴起,其Scaling Law揭示了新的规律:即通过增加数据量、扩大模型规模以及延长训练时间,可以持续推动模型性能的提升。
值得注意的是,具身智能底层模型的训练不同于语言、图像或视频等二维模型。它需要在物理世界的绝对坐标系下进行精确测量,数据的获取难度、成本以及标注周期都远远超过了语言模型。
从产业发展的进程来看,我们可以类比自动驾驶领域的发展。特斯拉通过大规模采集数据,推动了其FSD(全自动驾驶)性能的显著提升。同样地,在具身智能产业中,数据也成为了发展的核心要素。
进入大模型时代,数据的重要性再次被凸显。在小模型时代,模型性能往往会随着训练次数的增加而趋于饱和,甚至出现过拟合的情况,导致性能不升反降。而通过对算法进行优化,能够找到最佳的模型配置。
观点二:通用机器人技术烧钱还将持续 落地尚处于早期阶段
具身智能的商业化落地是获取真实物理世界数据的关键。与大模型可从网络中获取数据进行训练不同,具身智能需依赖真实环境数据以提升泛化性和可靠性。此前1X AI 副总裁 Eric Jang 曾在个人社交媒体中表示,具身智能的商业化路径主要分为三类:通用场景软硬结合、软件路径、以及垂直领域软硬结合。
通用路线技术难度较高,其商业模式是向B端或C端销售具备智能能力的完整机器人。该路径的核心在于采用通用硬件和软件应对多变场景,需开发可重构硬件以适应不同任务,并设计适应各种硬件配置的通用软件,确保无缝运行。目前主流的人形机器人厂商,如1X NEO、Figure 02及特斯拉Optimus均采用此路径。
以Figure AI为例,其致力于设计适用于人类环境的通用型机器人,执行多样任务。2024年8月发布的Figure02,在大脑方面集成了OpenAI的GPT-4o多模态大模型,较01版本的GPT4在常识推理能力上有所提升,能更好地理解和响应复杂指令,机载计算和AI推理能力提升3倍。
该集成增强了机器人在多模态推理和任务执行方面的智能性和适应性,提升了视觉、听觉和语言交互能力,适用于工业制造、仓库物流等混合任务场景。
在小脑层面,Figure02延续使用RT-X机器人控制模型,通过模型预测控制器确定脚步位置和保持平衡,结合步态控制完成基本运动,全身控制策略确保执行动作时的安全性和平衡性,未来将持续优化动作执行能力。
目前来看聚焦通用具身智能人形机器人先行落地验证的企业均未能大规模部署,并且人形机器人成本居高不下,可以预见的是,通用人形机器人未来一段时间还将维持烧钱态势,商业化部署尚处早期阶段,而数据与成本两个因素则是具身智能人形机器人突破的关键。
观点三:具身智能软件公司即将迎来快速发展期
与传统的具身智能人形机器人本体公司不同,2024年以具身智能软件算法为主导的具身智能企业,今年获得了更多的资本关注。软件公司的路径的商业模式主要是通过向硬件厂商或综合型厂商提供API接口,来加速机器人的部署和迭代进程。
该路径的核心在于开发Cross-Embodiment Foundation Model(CEF),旨在打造一个跨硬件平台的无缝兼容环境。借助这一模型,机器人硬件厂商可以轻松地接入机器人的“大脑”,无需再为每个硬件平台独立开发软件,从而极大地提高了开发效率。
对于开发者来讲,该技术使得开发者能够编写一次代码,即可在多种硬件平台上部署和运行,无论是人形机器人、轮式机器人还是无人机,都能共享同一套软件架构。从而大幅减少独立开发成本,而相关机构预计,当机器人获得大规模部署,这种边际成本会进一步降低。
软件路径在机器人领域的应用应更加关注小脑层软硬解耦问题。传统机器人模型通常划分为“大脑”与“小脑”两部分,其中“大脑”负责任务理解、分解及规划,生成执行策略;“小脑”则负责核心运动控制,依据大脑策略执行动作并反馈。
值得注意的是,“大脑”层模型训练可脱离特定硬件形态,而“小脑”层则需与硬件端强耦合训练。为实现Cross-Embodiment Foundation Model(CEF),必须达成控制层的软硬解耦。此外,训练高效的具身智能模型还需获取充足且高质量的数据支撑。
为硬件厂商或综合型厂商提供API接口,或通过项目制形式与其展开合作,已成为行业常见做法。在国内厂商中,华为鸿蒙HarmonyOS作为面向万物互联的全场景分布式操作系统,广泛支持手机、平板、智能穿戴、智慧屏等多种终端设备,并提供了一站式应用开发、设备开发服务平台。
在2024年世界人工智能大会(WAIC2024)期间,国内首款搭载鸿蒙操作系统的全尺寸人形机器人——乐聚“Kvavo”惊艳亮相。该机器人采用了华为开源鸿蒙系统,不仅实现了全方位视觉感知功能,还具备了跳跃能力,能够在多种地形上灵活行走。
▍结语与未来:
从产业维度来看,具身智能正朝着更高级的跨模态交互能力方向迭代,通过整合多感官信息,具身智能得以实现更全面的环境感知与快速适应,以及与人类更自然的交互能力。这一能力的提升,得益于多模态感知系统、数据融合算法及上下文感知等技术的支撑,使具身智能能够形成统一、多维度的环境理解,并提供个性化响应。
在大模型的加持下,具身智能已具备一定的自适应学习能力,能够基于自身经验和环境反馈进行自我进化,不断优化行为策略,增强应对复杂任务的能力。
能够预期的是,未来具身智能将更加注重与人类的协作,通过深度学习、自然语言处理及情感智能等技术突破,更准确地理解和适应人类需求和行为模式。
笔者认为,2025年具身智能将成为技术迭代的关键一年,围绕具身智能软件算法构建的公司优势将更为明显,具身智能产业链软硬件生态结构将日趋完善,但并不会出现所谓的具身智能“奇点”时刻。