玩酷网

[RO]《Manipulation as in Simulation: Enab

[RO]《Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots》M Liu, Z Zhu, X Han, P Hu... [ByteDance Seed] (2025)

机器人操控迈向3D感知新纪元:Camera Depth Models(CDMs)精准复原深度信息,弥合仿真与现实的几何差距。

• CDMs通过融合RGB图像与原始深度信号,输出去噪且准确的绝对度量深度,突破传统深度摄像头噪声和失真限制。

• 利用ByteCameraDepth数据集,涵盖7款主流深度摄像头及10种深度模式,结合神经数据引擎模拟相机特有噪声,实现高质量仿真数据合成。

• 结构设计基于双分支ViT编码器,深度与RGB信息多层交互融合,无需预处理如孔洞填充,提升深度预测精度与泛化能力。

• 在零样本仿真到现实任务中,CDMs支持训练于纯仿真深度数据的机器人策略无缝迁移,成功应对复杂长周期操控,含反光、细长及关节物体。

• 通过WBCMimicGen算法生成平滑高质量示范数据,结合差分渲染相机标定,确保仿真与现实场景有效对齐,进一步提升策略鲁棒性。

• CDMs在多个真实深度摄像头和任务场景下展现领先性能,显著优于现有基于提示的深度估计方法,且推理延迟低,适合实时部署。

心得:

1. 精确的几何感知比单纯依赖纹理信息更能增强机器人操控的泛化与稳定性,准确深度是关键。

2. 利用仿真数据训练并结合相机特定噪声模型,能够克服现实深度传感器固有局限,实现零调优的实地应用。

3. 简化深度处理流程(如跳过孔洞填充)不仅减少计算开销,也避免破坏原始几何信息,提升整体系统性能。

论文🔗 arxiv.org/abs/2509.02530

详情🔗 manipulation-as-in-simulation.github.io

机器人人工智能深度学习仿真技术计算机视觉机器人操控