自动驾驶首次应用测试时计算,港大英伟达等新技术让AI边开边学

时光漫游者 2025-03-29 18:08:56

当开车遇到变道、加塞等场景时,驾驶员往往会下意识地激活自己的“安全驾驶思维”,从而做出激进的规避行为。与之类似,自动驾驶汽车在上述场景中,更会表现得像个谨小慎微的”新手司机”,这是因为模型的决策往往依赖于工程师预设的固定规则,进而导致“不求无功,但求无过”的驾驶风格,但过多的无故急刹、过度避让反而会引发额外的安全隐患。针对上述问题,来自香港大学、英伟达和德国图宾根大学的联合团队提出Centaur(Cluster Entropy for Test-time trAining using UnceRtainty)方法,能够动态地改善驾驶策略,通过在线的数据驱动,摆脱了对预设规则的依赖,大幅提高了自动驾驶汽车在不确定性场景中的适应性与安全性。

Centaur在测试推理过程中动态地调整模型权重,适应OOD场景,提升泛化能力。模型利用Cluster Entropy作为自监督信号,并首次将Test-Time Training(TTT)应用于端到端自动驾驶,避免手动规则和成本函数,实时减少不确定性并改进预测,借由在线数据驱动实现了轨迹预测的可扩展性。

论文已上传arXiv,代码、checkpoint等即将开源。驾驭不确定性通常来说,模型是如何衡量自己输出不确定性的?一种直观的方法是观察模型输出的分布状态,并基于“固定采样下,模型的输出方向越集中,越逼近模型的最高置信度”的假设,来计算模型输出的聚类程度,从而侧面衡量出模型输出的不确定性。Cluster Entropy 通过轨迹采样、聚类和熵计算来评估自动驾驶模型的不确定性。相比传统的方法,它结合了直行、轻微右转、剧烈右转、轻微左转和剧烈右转的行为聚类,使得不确定性估计更具可解释性。例如,当模型面对复杂的交叉路口时,Cluster Entropy 能直观反映不同驾驶决策的不确定性,从而帮助优化自动驾驶系统的安全性。边行驶边进化

TTT在推理过程中利用Cluster Entropy作为自监督目标,通过梯度优化让模型自适应地调整特征表征,从而提升对OOD场景的适应能力。具体而言,模型通过计算Cluster Entropy,判断当前环境的OOD级别。如果模型对当前环境的理解较差,则触发TTT训练过程,通过梯度下降对特征提取网络进行小幅度更新,使其更适应当前环境特征分布。这一方法使得Centaur能够在推理时自适应地优化自身,在OOD场景中保持稳定的感知和驾驶能力,而无需依赖固定规则或人工设计的成本函数。实测接近人类驾驶水平,安全性能全面提升在navtest基准测试中,Centaur的综合规划与驾驶指标得分(PDMS)取得了92.6%的成绩,远远超过了基于回退的方法,并接近人类驾驶水平。此外,Centaur在碰撞避免和碰撞时间等关键指标上亦表现出卓越的性能。

为了更好地评估自动驾驶系统在安全关键场景中的表现,我们提出了navsafe数据集,专门用于测试端到端驾驶方法的安全性和鲁棒性。它基于navtest,并结合了真实的事故数据,通过细粒度的评分机制,量化了自动驾驶模型的不同驾驶能力,而不像navtest 只提供整体分数。

此外,Cluster Entropy作为不确定性度量工具,实现了PDMS的显著提升,并在失败检测任务中, 取得了最佳结果。

0 阅读:0