3月18日,NVIDIA 推出一系列全新技术助力人形机器人开发。英伟达创始人兼首席执行官黄仁勋表示:“通用机器人时代已经到来。借助英伟达Isaac GR00T N1以及新的数据生成和机器人学习框架,全球的机器人开发者将开启AI时代的下一个前沿领域。”
针对人形机器人,NVIDIA还发布全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1,涵盖了具身推理以及具身执行两个模块。受人类认知原理的启发,GR00T N1 基础模型采用了创新性的双系统架构。系统 1是一个快速思考的动作模型,系统 2是用于深度思考决策制定的推理模型。系统 1 的内核主要基于人类演示数据和 NVIDIA Omniverse™ 平台生成的海量合成数据进行训练。系统 2 由视觉语言模型提供支持,能对所处环境和接收到的指令进行推理,从而规划行动。系统 1 随后将这些规划转化为精确、连续的机器人运动。
现场英伟达与1X技术公司合作,NEO Gamma人形机器人使用基于GR00T N1模型构建的后训练策略执行自主整理任务的可能性,展示了该技术的落地价值。
大型、多样化且高质量的数据集对机器人开发至关重要,但捕获成本高昂。将生成视频用于训练人形机器人具身大模型是近年来备受关注的前沿方向,这一思路通过结合生成式A1(如扩散模型Q、神经辐射场等)与机器人学习,为解决真实世界数据稀缺、训练成本高等问题提供了新可能。
除此之外,GTC 还宣布推出了专为机器人开发而构建的开源物理引擎 Newton以及个人 AI 超级计算机 NVIDIA DGX Spark,帮助开发者加速将 GR00T N1 的功能扩展到新机器人、任务和环境,而无需进行大量自定义编程。
最后,根据英伟达最新发布的Isaac GR00T N1人形机器人开放基础模型白皮书,在GR00T N1人形机器人预训练数据集收集环节,其已经能通过远程操作合作企业傅利叶的人形机器人GR-1完成训练。
不仅仅是英伟达,2025年华为中国合作伙伴大会也于3月20日至21日在深圳举行,旨在聚合伙伴能力,加速千行万业数智化转型。国内外几乎同时举办的两场大会将同时聚焦AI软硬件产业发展,通过对基础硬件设施、大模型本体、AI智能体以及各行业应用的讨论,为我们展现未来1-3年AI领域的发展趋势。
从英伟达的动作来看,合成数据获取、算力、遥操作都是目前来看结合人形机器人概念具有颠覆性的方向。本文盘点了相关概念。
▍索辰科技
索辰科技成立于2006年,2023年4月上市,专注于CAE核心技术的研究与开发,经过多年的积累与创新,已在流体、结构、电磁、声学、光学、测控等多个学科方向形成了核心算法,并开发出多类型工程仿真软件,为客户提供多学科覆盖的工程仿真软件及仿真产品开发服务。
索辰科技的数据生成以“物理AI”为核心驱动力,基于生成式物理AI技术和实景渲染技术,能实现成千上万的设计样本智能衍生、验证与训练,通过生成式物理AI计算引擎结合自动3D实景渲染技术,能高效构建高保真的虚拟验证环境,精准复现和预测装备与环境之间的实时、多维互动,实现真实场景下的四维时空耦合多物理场设计、仿真、优化和训练,并能应用于工业装备的研制和部署,推动工业装备设计、研发和制造的智能化升级。目前,索辰科技在部分业务流程和技术研发环节,还正在探索利用人工智能大模型的相关技术,以提升效率和优化算法。
2024年索辰科技成立机器人事业部,该部门的使命在于开发针对机器人行业的专业软件和解决方案。公司的机器人设计软件将涵盖并联机器人(包括人形机器人)本体的完整研发过程,从功能设计、构型综合、性能分析到结构设计优化。
▍海天瑞生
北京海天瑞声科技股份有限公司成立于2005年,2021年登陆科创板,成为AI训练数据服务领域国内A股上市企业,是我国最早从事AI训练数据解决方案提供商之一,致力于为AI企业、研发机构提供AI数据集及服务。海天瑞声已与微软、亚马逊、三星等全球超1000家知名企业建立了深厚的合作关系。通过升级DOTS一体化数据处理平台,海天瑞声能够更好地支持全球化标注业务。2024年公司还成立了海外标注基地,全面提升全球服务能力。
海天瑞声可提供全场景大模型数据解决方案服务,包括数据采集、清洗、工程化、红蓝对抗、价值观对齐、RLHF;可以提供包括高质量图文对、视频文本对、全模态数据、垂直领域数据等丰富海量的AI数据解决方案。同时海天瑞声拥有大规模高质量成品训练数据集,能助力企业高效构建、训练和部署机器学习模型,利用高质量的多模态数据可以训练出更强性能的大模型,有望服务于人形机器人从仿真到部署的全流程。
▍科大讯飞
科大讯飞成立于1999年,2024年起就已经布局人形机器人赛道,目标是打造机器人的“大脑”,推动机器人行业“脑力”升级。此前科大讯飞已经亮相了大模型+具身智能的人形机器人最新进展,通过将多模态大模型与具身智能的结合,科大讯飞让人形机器在复杂任务拆解、开放场景物体识别、多模态感知与理解等维度显著提升,整体运动性能提升2倍,复杂任务拆解成功率超过95%,交互能力、运动性能进一步提升。
目前,讯飞机器人超脑平台已赋能超400家机器人企业,深度链接1.5万机器人开发者,与优必选、宇树科技、智元机器人、银河通用等人形机器人企业达成广泛合作,是国家地方共建具身智能机器人创新中心的合作伙伴,去年10月24日,科大讯飞还与华为联合发布了中国首个全国产算力平台“飞星一号”,讯飞星火成为中国基于全国产算力训练出的全民开放的大模型,保障了科大讯飞人形机器人及国内机器人大脑底座生态更加自主可控。
▍拓尔思
拓尔思自1993年2月成立以来,一直从事自然语言处理核心技术的研究,2011年上市,2022年年初已开启在人形机器人软件产业中的布局,训练了自有的预训练大模型,可以快速适配满足各类下游任务的训练需求,只需要通过少量标注样本+微调优化的快速迁移学习就可以满足各种任务,有效地降低了学习成本,大大加快了机器人学习成才的速度,拓尔思希望通过多年自主研发的自然语言处理、深度学习、知识图谱等技术,应用于人形机器人模型开发。
在机器人算法模型方面,拓尔思拥有自主研发的人工智能技术平台,包括海蜘大数据采集平台、海聚数据融合平台等,为机器人提供数据支持和算法优化。拓尔思还表示,目前正自主研发的TRS小思智能问答机器人系统综合运用自然语言处理、信息检索、知识表示与推理等技术,能为人形机器人提供自主学习和与人交互的能力基础。公司正在研发的拓天大模型Agent技术,也可应用于人形机器人,以提升其智能化水平和决策能力。此外,拓尔思也是华为鲲鹏展翅计划的伙伴,已通过华为认证测试,并成为华为认证解决方案伙伴,参与人形机器人领域的研发。同时,拓尔思还与北京一流科技有限公司等AI公司合作研究人形机器人软件技术以及推广应用。
▍云从科技
云从科技成立于2015年,一直致力于打造人机协同操作系统和行业解决方案。如今,云从科技的业务已经涵盖了智慧金融、智慧治理、智慧出行、智慧商业等多个领域。云从科技也与华为有着合作,双方聚焦于“AI软件技术+昇腾硬件底座”的深度融合,形成了覆盖机器人、大模型训推一体机、行业解决方案的完整生态链。
值得注意的是,云从的“从容大模型”实现了视觉-语言-动作跨模态对齐,能理解复杂指令,推出的机器人多模态理解SDK,适配主流运动控制接口。例如动态手势识别算法支持20种复杂手势交互(延迟<0.1秒),双足机器人步态规划算法可适配复杂地形行走。这些技术通过SDK适配主流机器人硬件,能为人形机器人等产品提供感知-决策闭环能力。
▍中科创达
中科创达是领先的智能操作系统及端侧智能产品和技术提供商,自2008年成立以来,一直以操作系统为核心不断进行技术积累与创新,在3D人体重建和行人识别算法技术上遥遥领先同行。业务领域也从最初的智能终端逐步拓展到智能汽车、智能物联网、智能制造、机器人等领域,并于2015年成功上市。
目前针对高端、中端和低端机器人产品,中科创达从基于基础类半导体模块,提供平台工具软件、平台层、算法和应用的集成, 提供基于跨平台的操作系统产品和技术,而操作系统作为中间层,能将底层芯片的创新赋能上层应用。中科创达通过构建边缘计算形成的计算平台, 正推动操作系统走向平台化,从而支撑算法的可扩展、可扩充和之后的可延展的维护,进而迭代开发工具和环境去支撑应用厂商更快产品和更低成本。基于Qualcomm® 404/626/845/865平台,中科创达还为人形机器人提供不同算力的核心模组(SOM),配套的操作系统、开发工具包和服务。
中科创达还是华为的合作伙伴。在鸿蒙系统领域,中科创达的子公司-北京奥思维科技有限公司,是OpenHarmony的重要合作伙伴,已经拥有自己的基于OpenHarmony的产品和方案,并且将不断深入参与OpenHarmony项目和生态建设。
▍埃夫特
埃夫特成立子公司启智,致力于构建智能机器人通用技术底座,破解传统机器人依赖海量数据与算力的智能化困局。启智设计了一套独特的生态解决方案。通过自主研发的Openmind OS操作系统、墨斗IDE开发平台及大衍数据平台,构建起兼容多型机器人的开放性技术框架。埃夫特启智还提出了一种“云-边-端三脑协同”架构,云上超脑基于预训练大模型,赋予机器人感知和理解周围环境的能力;边缘大脑负责动作序列的规划与生成,例如路径规划和执行策略;端侧小脑则实现高速高精度的运动控制,将任务意图转化为具体的关节运动。基于这种架构,将进一步提升机器人的自主性与适应性,让机器人可以理解自然语言指令,并根据环境变化自主调整任务。
此前,埃夫特还出席华为全球具身智能产业创新中心企业合作备忘录签署仪式,并与相关企业签署合作备忘录,建立了深度合作关系。合作内容包括技术研发合作、产业应用拓展以及推动人形机器人发展等方面。同时,启智机器人也与华为在具身智能领域开展技术研发合作,正形成常态化的产学研合作模式。
▍浪潮信息
浪潮信息作为国内算力基础设施的领军企业,其核心优势在于提供AI服务器集群,为模型训练提供强大支持。浪潮信息已经与NVIDIA合作,推出了元宇宙服务器MetaEngine和NVIDIA Omniverse Enterprise,这些工具提供了强大的算力和软件支持,用于创建虚拟人。MetaEngine服务器整合了浪潮信息的“源”大模型,该模型具备丰富的自然语言处理能力,如知识问答、多轮对话、中英翻译和写作古诗等。这些能力使得虚拟人不仅外观逼真,还能进行自然语言交互,为人形机器人提供了类似人类的交流能力。
此外,浪潮信息的解决方案还包括支持实时驱动和实时光线追踪渲染的虚拟人技术,以及AI算法驱动的虚拟数字人技术,如Audio2face和Machinima,这些技术可以实时驱动人脸表情和肢体动作,使得虚拟人动作更加自然和生动。随着DeepSeek大模型逐步投入实际应用,浪潮信息为AI训练提供的服务器集群,再次成为行业内的技术标杆。尤其是与NVIDIA和微链道的深度合作,使得浪潮信息在深度学习与人形机器人训练方面具备了独特优势。
▍利亚德
除了仿真数据合成,动作捕捉技术依然是人形机器人实现端到端的重要支撑。在人形机器人领域,动作捕捉技术则非常重要,包括运动控制、情感表达、人机交互等等内容,都需要高强度训练。而且随着动作复杂度提高,动作捕捉设备、系统需求量也大幅提升。
利亚德光电集团成立于1995年,2012年在深交所上市。公司旗下虚拟动点在动作捕捉领域实现了多项技术突破,其OptiTrack光学动作捕捉系统精度达亚毫米级,涵盖光学捕捉、惯性捕捉、无标记点捕捉三大核心技术。已与宇树科技、优必选等头部企业合作,能为机器人提供动作控制与学习能力支持。此前利亚德还与人形机器人公司松延动力达成战略合作协议,通过动作大模型Lydia赋能,人形机器人的“大脑”可以感知并理解空间位置、空间动作在内的“三维世界”,双方将充分发挥各自优势,在动作数据开发、机器人动作训练服务、机器人动作算法开发等方面进行深入合作。