玩酷网

CTRL系统(全称"一经检测,永不丢失")的核心创新在于彻底改变了思考问题的方式

CTRL系统(全称"一经检测,永不丢失")的核心创新在于彻底改变了思考问题的方式。它不再把每一帧都看作独立的个体,而是像人类标注者一样,从整个物体轨迹的角度思考问题。这种转变听起来很简单,实际上却是一场思维革命。 CTRL系统的工作流程分为三个关键步骤。首先,它使用基础检测器(如FSD)获取初步的物体检测结果。这个检测器会处理多帧点云数据,不仅包括过去的帧,还包括未来的帧,这在离线处理场景下是可行的。实际实现中,系统不是连续处理所有帧,而是采用跳帧策略,比如从9帧中采样,覆盖t-8到t+8的时间范围。这样既能获取长时间的信息,又能减少计算负担。 系统的第二步是最具创新性的双向追踪模块。常规的追踪只能向前进行,也就是说,只有当一个物体被检测到后,才能在后续帧中追踪它。但CTRL打破了这个限制,引入了双向追踪的概念。它不仅向前追踪物体,填补可能的缺失帧,还能向后追溯,找到物体第一次出现的时刻。 举个例子,假设在t_i时刻,检测器首次识别出一辆车。传统系统只能从t_i开始追踪这辆车。但CTRL会问:"这辆车之前在哪里?"它会根据物体的运动模型,向后推算物体在t_i之前的位置,直到物体可能刚进入感知范围的时刻t_0。同时,它也会向前追踪,直到物体离开感知范围的时刻t_N。这样,一个本来可能只在少数几帧中被检测到的物体,变成了一个完整的从出现到消失的轨迹。 值得注意的是,虽然双向追踪能大幅减少漏检(在超过100万个车辆物体中,只有0.48%会被完全错过),但它生成的一些框可能位置不够精确,尤其是在物体点云非常稀疏的情况下。这就引出了系统的第三个核心组件:轨迹中心学习模块。 这个模块的独特之处在于它处理的基本单位不是单个物体,而是整个轨迹。它采用多入多出(MIMO)的方式,一次输入一条完整轨迹的所有点云和初步预测框,同时输出这条轨迹上所有时刻的精修预测结果。相比传统的多入单出(MISO)方式,MIMO不仅训练效率高(计算资源利用率提升30倍以上),还能更好地利用整个轨迹的全局信息。 在实际操作中,系统会先扩大轨迹中的每个预测框,确保包含完整的物体点云。然后将每一帧的点云转换到轨迹第一帧的坐标系下,并添加时间戳编码来区分不同时刻的点云。这样处理后的数据会被送入一个特殊设计的神经网络,进行特征提取和位置精修。 与传统方法不同,CTRL的标签分配也是基于轨迹的。它首先计算预测轨迹和真实轨迹之间的"轨迹IoU"(交并比),然后只有当这个值超过阈值时,才会将真实轨迹分配给预测轨迹。这种方法比单纯基于单帧IoU的分配更稳健,能更好地处理轨迹中的困难帧。