来源:专知
摘要—神经场(Neural Fields)已成为计算机视觉和机器人领域中用于3D场景表示的变革性方法,能够从带姿态的2D数据中精准推理几何、3D语义和动态信息。通过可微分渲染(differentiable rendering),神经场包括连续隐式和显式神经表示,实现高保真3D重建、多模态传感器数据的整合,以及新视角的生成。本综述探讨了神经场在机器人领域的应用,强调其在提升感知、规划和控制方面的潜力。神经场的紧凑性、内存效率和可微性,加之与基础模型和生成模型的无缝集成,使其非常适合实时应用,有助于提升机器人的适应性和决策能力。本文对机器人中的神经场进行了全面回顾,涵盖200多篇论文中的应用,并对其优缺点进行评估。首先,我们介绍了四种关键的神经场框架:占用网络(Occupancy Networks)、符号距离场(Signed Distance Fields)、神经辐射场(Neural Radiance Fields)和高斯分布(Gaussian Splatting)。其次,我们详细描述了神经场在机器人五大主要领域中的应用:姿态估计、操控、导航、物理仿真和自动驾驶,重点介绍了关键工作并讨论了主要发现与开放挑战。最后,我们总结了神经场在机器人应用中的当前局限性,并提出了未来研究的有前景方向。项目页面:robonerf.github.io关键词—神经辐射场(Neural Radiance Field, NeRF)、神经场(Neural Fields)、符号距离场(Signed Distance Fields)、3D高斯分布(3D Gaussian Splatting)、占用网络(Occupancy Networks)、计算机视觉、新视角合成(Novel View Synthesis)、神经渲染(Neural Rendering)、体渲染(Volume Rendering)、姿态估计、机器人、操控、导航、自动驾驶。I. 引言机器人依赖对环境的精确且紧凑的表示来执行广泛的任务,从穿越繁忙的仓库到整理杂乱的家庭环境,甚至参与高风险的搜救任务。在典型的机器人系统中,感知与行动之间的协同作用是其核心。感知系统通过RGB相机、LiDAR和深度传感器等设备采集感官数据,并将其转化为一致的环境模型——例如,使机器人能够在动态且障碍密集的空间中导航的3D地图。这种表示的质量直接影响机器人的决策或策略,从而将所感知的环境转化为行动,使其能够避开移动的叉车、拾取散落的物体或在紧急情况下规划安全路径。传统上,机器人使用点云 [13–15]、体素网格 [16]、网格 [17–19]和截断符号距离函数(TSDF)[20]等数据结构来建模环境。尽管这些表示提升了机器人能力,但它们在捕捉复杂或动态环境中的精细几何细节方面仍存在局限,导致在适应性场景中的性能不佳。为了克服这些限制,神经场(Neural Fields, NFs)[21]作为一种有前途的替代方案出现,它提供了从空间坐标到物理量(如颜色或符号距离)的连续、可微映射。与传统的数据结构不同,神经场可以将3D环境建模为由神经网络或高斯分布参数化的连续函数,从而更加高效地表示复杂的几何结构和精细细节 [22, 23]。神经场可以使用基于梯度的方法与各种真实世界的传感器数据(包括图像和深度图)进行优化,从而生成高质量的3D重建。在机器人领域,神经场相比传统方法具有几大优势:高质量3D重建:神经场生成详细的3D环境表示,对于导航、操控和场景理解等任务至关重要 [24–28]。多传感器融合:神经场可以无缝整合来自多种传感器的数据,如LiDAR和RGB相机,从而提供更稳健且适应性强的环境感知 [29, 30]。连续且紧凑的表示:与体素网格或点云的离散性不同,神经场提供连续的表示,能够以更少的参数捕捉空间细节,提升计算效率 [22, 31]。泛化与适应性:训练完成后,神经场可以生成场景的新视角,即使是先前未见过的视角,这对探索或操控任务特别有价值。这一能力得益于通用的NeRF方法 [32–34]。与基础模型的集成:神经场可以与基础模型(如CLIP [35]或DINO [36])结合,使机器人能够理解并响应自然语言查询或其他语义输入 [37, 38]。
生成式AI的最新进展 [39]通过将合成数据作为监督信号进一步扩展了神经场的能力,从而减少了对真实世界观测数据的依赖。这一范式转变使得神经场可以在现实数据采集不可行或成本高昂的情况下进行优化。重要的是,它将神经场定位为生成式AI与机器人之间的关键桥梁。尽管2D数据生成先验具有强大的功能,但通常缺乏进行有效机器人决策所需的空间一致性。神经场将这些先验与稀疏的真实世界数据 [33]结合,能够在物理环境约束(如有限的传感器配置和遮挡)下建模传感与运动空间。鉴于这些优势,神经场在机器人领域的应用正迅速发展。图1和图2概述了神经场在机器人的应用,并展示了与神经场相关的机器人研究出版物的增长趋势。本文旨在梳理和分析其对该领域的影响。本文的结构如下:第II节介绍了神经场的基本公式,而第III节则从以下主题中概述其在不同领域中的优势:姿态估计:重点探讨神经场在相机姿态估计、物体姿态估计以及同时定位与地图构建(SLAM)中的应用(第III-A节)。操控:讨论神经场的精确3D重建如何协助机器人操控物体(第III-B节)。导航:探讨神经场如何通过提供对真实环境的精确和高效感知来增强机器人导航(第III-C节)。物理:研究神经场如何帮助机器人推理物理交互,以改进其对现实动态的理解(第III-D节)。自动驾驶:重点介绍神经场在构建真实世界的写实模拟器中的作用(第III-E节)。
我们在第IV节通过探讨若干研究方向和挑战进行总结。据我们所知,本综述是首批对机器人领域的神经场进行全面考察的研究之一。我们在最接近的并行综述 [40] 的基础上补充了对NeRF、3DGS、占用网络、符号距离场等多个领域的全面涵盖。通过结合多个维度的见解,本综述旨在提供对神经场在机器人应用中当前状态的整体理解,突显近期成就、未来挑战及未探索的研究领域。