从单目数据生成3D模型，Meta智能眼镜摄像头校正算法揭秘

众所周知，Meta下一个目标就是AR眼镜，尽管开发AR比VR面临更多复杂的难题，因此可能还要过一段时间才能看到Meta的AR眼镜。目前，该公司已推出了第一代Ray-Ban Stories智能眼镜，特点是搭载的双摄像头不仅可以拍照，更重要的意图在于捕捉具有双目视差的3D数据，进行第一视角的分析和利用，从而推动贴近日常生活的AI应用。

通过Stories，Meta可以了解到穿戴式设备在实际应用中会出现的问题，比如摄像头、传感器被遮挡，性能下降，捕捉到的3D数据不完整等等。

在最新的论文中，Meta进一步揭秘了Stories采用的3D深度传感方案，其中包含一种新颖的实时校正算法，一种单目和双目视差网格协同设计，以及从单目数据导出3D数据集的方式。同时，该方案结合配对手机的GPU来处理3D数据，比如图像预处理、立体校正和深度估计。

据了解，该方案的重点主要是优化3D深度传感的性能，同时为了确保准确性，系统还会识别校正数据的可靠程度，不可靠时会退回至单目深度预测模式。另一方面，Meta科研人员希望让这种3D视图生成管道适用于更广泛的设备，包括比较旧的手机型号。

Meta指出，即便使用6年前发布的Galaxy S8手机，CPU计算3D视图的时间也能低至1秒，而且模型泛化能力比较好。

技术挑战

科研人员指出，立体视差预测是计算机视觉的基本问题之一，这项技术在多种领域都有广泛应用，比如AR/VR、计算摄影、机器人和自动驾驶等等。

然而，在端到端深度传感系统中合成立体图像面临许多挑战，对于移动设备来讲，算力是最大的局限。因此，Meta根据手机上有限的算力，设计了这种比较实用的3D图像处理管道。这也意味着，管道中的步骤需要协同工作，在出现故障或数据不理想时更好的进行调整，校准因不可预见因素对性能的影响（比如高温、户外）。

Meta表示：我们希望智能眼镜足够通用，因此需要让更多类型的手机与之匹配，而不能依赖于特定的硬件或机器学习加速模型。而这项研究的主要目标，则是为3D计算摄影带来最佳的用户体验。

解决方案

为了确保3D捕捉的稳定性，Meta研发了一套实时的校正系统，其优势包括：

端到端3D数据处理系统，可动态调整数据处理模式；

包含快速、稳定的线上校正算法；

3D深度系统和单目深度系统输出格式相似；

在有限的算力下，依然能达到足够准确。

细节方面，该方案的运算流程如下：将智能眼镜输出的3D数据进行出厂校正、去畸变、降采样（降低两倍）、HDR包围曝光，然后在线上校正，校正质量达标后，会输入到立体CNN网络中，然后进入渲染管道，生成涂层、纹理修复、网格等等。如果校正质量未达标，则退回到单目模式，输入到单目CNN网络中处理，然后再进入渲染管道，生成新的视角。

当然，在线校准不一定保证可靠性，当一侧摄像头被遮挡时，或者摄像头捕捉的特征数据不足时，便只能退而求其次，通过单目深度网络来预测。不管是双目深度预测还是单目深度预测，都使用相同的下游处理管道，好处是可以输出准确性高的相对视差，可以很好的满足3D捕捉和建模的目的。

另外，在生成深度视差图后，系统会裁剪最大有效区域，并保持原始的纵横比，这样做可以进一步优化3D建模的整体质量。最后一步，则是结合右侧相机预测的视差，和相应的彩色图像，渲染出三维效果。

而在新颖视图合成部分，Meta使用了基于LDI（分层深度图像）的方案来创建立体训练数据集，以创建3D合成效果。参考：Meta

玩酷网

从单目数据生成3D模型，Meta智能眼镜摄像头校正算法揭秘

青亭AI