自去年以来,具身智能已成为继大模型之后,人工智能领域内讨论热度极高的议题,在投资圈更是备受追捧。 据市场监管大数据中心数据显示,截至2024年12月底,全国共有45.17万家智能机器人产业企业,企业数量较2020年底增长206.73%,较2023年底增长19.39%,这一数据直观体现出产业热度对相关企业数量增长的强劲带动。 资本市场也早早嗅到商机,今年上半年大量资金涌入赛道。如成立仅一年的北京银河通用机器人公司,先后斩获美团、商汤等知名企业的巨额投资;“稚晖君” 创立的智元机器人在过去一年完成七轮融资,估值飙升至70亿元。 在消费市场,相关产品同样火爆。2024年被称为 “具身智能元年”,这一年里,LLM技术的加持让具身智能产品备受瞩目。 蔚蓝科技的机器狗在抖音和小红书等平台爆卖,销量超过其他所有四足机器人总和,还在南京德基广场开设体验店,每次快闪都能引发整层楼的围观。不仅国内如此,全球范围内人形机器人项目热度居高不下,Figure 02、Atlas、1X、擎天柱等明星机器人频繁引发外界关注。 再看行业预测,QYResearch 报告显示,到 2030 年全球具身智能机器人仿真平台市场规模预计将达8亿美元,年复合增长率CAGR高达47.7%,德邦证券也预判其发展空间广阔。凡此种种,皆彰显出具身智能当下的火爆程度 。
什么是具身智能?那么,到底什么是具身智能?它和人形机器人之间是什么关系? 我们可以通过拆字来解读,“具身智能”中的“具”字表示“具有”“具备”,“具身”强调智能体具有身体或类似身体的实体结构,并且智能的产生和发展依赖于这个身体与环境的交互。 事实上,具身智能的思想可以追溯到20世纪80年代至90年代的人工智能和认知科学研究。认知科学家乔治·莱考夫(George Lakoff)和马克·约翰逊(Mark Johnson)在1980年出版的《我们赖以生存的隐喻》(Metaphors We Live By)中,强调了身体经验在认知和语言理解中的重要性,为具身认知的理论奠定了基础,这也与具身智能的理念紧密相关。 当前,具身智能以人形机器人为主要表现形式,当人形机器人通过它的身体在和环境交互的时候,它模仿人的动作,学会像人一样观察、发现、思考、语音、和环境交互。
图 | 安霸半导体技术(上海)有限公司研发副总裁孙鲁毅,来源:安霸
对此,安霸半导体技术(上海)有限公司研发副总裁孙鲁毅表示:“我们正在创造和不断改进一种新的事物,虽然它目前还是一种高级机器,但这有助于让人们重新发现人的价值,比如通过让机器人涉足诸如灾害救援现场、化工高危区域这类危险场景,或是半导体芯片制造、精密仪器组装等对精度要求极高的领域,以及从事物流仓储货物分拣、流水线零件装配等重复性劳动岗位,将人类从繁重、高危、高精度的工作中解放出来,从而改善人们的生活与工作环境。”
具身智能技术,已获长足进步技术是产业发展的核心驱动力,为产业创新升级提供支撑。在具身智能本体技术的关键领域和价值链条中,核心部件涉及减速器、伺服系统、控制器、智能芯片、传感器、电子皮肤等。其中,减速器、伺服系统和控制器在机器人整体成本中占比高达60%-70%。所以接下来,我们来看一下具身智能在技术领域的现状。 孙鲁毅向与非网透露,在技术方面,具身智能目前在以下几个方面已经有长足的进步: 运动控制出色的运动控制表现,比如宇树机器人,可以做出更灵巧的类似人的动作。
多种感知技术的增强摄像头、双目立体视觉、激光雷达、超声波雷达、多维力传感器、加速度传感器等正在使得具身智能拥有能够模拟甚至超过人的感知能力。
预测规划和思维能力传统的基于神经网络的预测和规划算法,加上多模态大语言模型的加持,使得具身智能可以做出类似于人的判断和思维,甚至分步深度思考问题。 值得一提的是,具身智能作为人工智能与机器人技术的融合体,其核心在于通过智能体与物理环境的实时交互,实现自主感知、决策和行动。在这一过程中,“眼睛”和“大脑”是具身智能的两大核心要素:“眼睛”代表感知系统,负责捕捉和理解环境信息;“大脑”代表决策与控制系统,负责处理信息并生成行动指令。在这其中,AI芯片扮演着重要的角色。
具身智能的眼睛:多模态感知融合是趋势对于具身智能机器人而言,精准的环境感知是实现智能交互的基础。当前,在具身智能所需的深度感知中,双目立体视觉、ToF、结构光方案是三种主要的技术路线,每种方案都有其独特的优势和适用场景。 双目立体视觉双目立体视觉类似人的双眼,有利于在得到高分辨率彩色图像信息的同时也得到深度信息,这种RGBD的感知,在机器人的图像感知里是主流。但它需要较高的计算能力来处理图像匹配和深度计算,同时两台相机需要精确校准,以确保深度计算的准确性。 从市场应用侧来看,优必选、傅利叶GR-1等机器人采用了双目立体视觉方案。而从处理器平台的供给侧来看,安霸最新推出的AI芯片,包括CV7系列和N1系列具备较强的市场竞争力。 对此,孙鲁毅解释道:“安霸在双目立体视觉上有独创的基于深度学习的算法,运行在安霸的CV7系列和N1系列的AI引擎上,能够做到在低反差场景,高光以及低光照场景等困难场景下的高精度深度感知,并且disparity密度和准确度明显高于市场竞品。”
ToF(飞行时间)ToF是一种主动传感器,靠发射激光,通过测量接收的时间差或者相位差来计算深度。ToF传感器的优势是在极高环境光亮度或者完全黑暗场景下,近距离下的深度感知。缺点是图像分辨率一般比双目立体视觉低,而且噪点比较大,高像素的ToF成本也相对高。 从市场应用侧来看,小米CyberOne采用了ToF+RGB方案,用于深度感知。而从处理器平台的供给侧来看,安霸的AI芯片也能覆盖该需求。
结构光方案结构光方案和双目立体视觉方案有相近之处,一般用于运动速度较低,分辨率比较高,但在强烈阳光下效果不佳,比较适合用于室内场景。 从市场应用侧来看,追觅机器人采用ToF+结构光相机,用于深度感知。不过在专业人士看来,结构光一般都可以被主动双目立体视觉替代。同样,从处理器平台的供给侧来看,安霸AI芯片也能覆盖该需求。 前面多次提到安霸的AI芯片,据悉除了以上三种传感器外,安霸的N1系列芯片在深度感知技术上,还可以支持激光雷达、4D毫米波雷达,并且对上述提到的深度感知技术,都有硬件加速,因此CPU和内存带宽占用很小。 此外,针对这些感知得到的深度信息或者点云,N1系列芯片还支持将其输入神经网络,从而做到感知和目标检测、分类、预测、规划决策的一体,也就是常说的“端到端”的能力,这是普通的前端深度感知器,比如双目或者ToF方案的DSP处理器不能比拟的。
具身智能的大脑:还没到主拼算力的时候如上所述,具身智能机器人需要实时处理大量来自传感器的信息,并快速做出精准决策,所以对算力平台提出了较高要求。 为此,市场上的主要玩家,如英伟达、高通、安霸,以及国内的地平线机器人等,都推出了相应的高算力平台。那么,这些国内外的竞品与安霸的N1系列芯片相比到底有哪些不同呢? 对此,孙鲁毅表示:“相比国际领先品牌的产品,N1以及后续的N1-655芯片具有功能和性能接近时,具有功耗明显更低的优势,并且图像处理和支持的传感器更为丰富。相比中国本土的竞品,N1系列芯片功耗明显更低,而且能够更好地支持Transformer和多模态大语言模型。” 提到低功耗,孙鲁毅补充道:“除了采用5nm工艺制程外,N1系列芯片的低功耗还来源于高效的芯片架构设计,所有的核心功能全由专用的硬件模块完成,并不是全靠单一的AI引擎,而且在运行相同的神经网络,不论是CNN还是Transformer的时候,内存带宽消耗显著地小于以上竞品(低一半以上)。” 在算法支持方面,N1芯片支持市面上流行的所有主流算法,CNN、Transformer类、BEV类。也支持各种大语言模型,比如常见的llama2、llama3、Qwen、Gemma、DeepSeek R1现在也已经在N1上得到支持。 可能有人要问,要支持这么多算法和大语言模型,是否AI芯片就意味着超级算力?那么多少算力才算达到标准水平? 对此,孙鲁毅认为并非如此。他告诉与非网:“如果按2025~2026年,我认为市场期待在合适的成本上做到足够的性能,并不是一定立刻去拼算力大小,这是因为具身智能是一个完整的系统,如果传感器、软件、基础硬件接口、协议、算法等不够完善的话,光是很大的算力,并不能发挥出效果。” “如果参照行业头部厂家的GPU芯片来讲,市场期待等效于其 100T~300T 左右的AI芯片,支持多种传感器、图像处理、激光雷达、Transformer和多模态大语言模型,并且功耗尽可能要低,因为具身智能上通常没办法用水冷,所以这个芯片的功耗最好是小于30W,采用风冷。” 孙鲁毅继续讲道。 所以从目前来看,安霸的N1-655是选择之一,常温下满负荷运行小于20W,等效算力大约250T 。安霸在具身智能领域的下一步2025年被视为人形机器人量产的关键节点。多家企业和研究机构预计,人形机器人将在这一年实现小规模量产,并在2026年迎来商业化应用的爆发。 面对该市场机遇,安霸方面表示将继续推出更强大的芯片,加强在大语言模型方面的性能。同时抱着开放的心态,希望与业界的算法软件设计公司、硬件设计公司、传感器供应厂合作,各显其能,收获共赢。