华盛顿大学SAMURAI改进MetaSAM2分割一切模型,...

智能也得细细瞧 2024-12-04 17:28:49

继图像分割模型(SAM) 取得成功之后,,这是一个用于在图像和视频中实时对象分割的统一模型。SAM 2 可以分割任何视频或图像中的任何对象。即使对于以前从未见过的对象和视觉域也是如此,从而无需进行自定义调整即可实现多种对象的分割。

最新模型 SAM 2 是第一个用于实时图像和视频对象分割的统一模型,它使视频分割发生了重大变化,并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割精度方面超越了之前的功能,并且实现了比现有工作更好的视频分割性能,同时所需的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象,这意味着它可以应用于以前从未见过的视觉内容,而无需进行自定义调整。

Segment Anything Model 2 (SAM 2) 在对象分割任务中表现出了强大的性能,但在视觉对象跟踪方面存在一定的缺陷,特别是在具有快速移动或自遮挡对象的拥挤场景时。SAM 2无法进行有效的对象追踪。SAMURAI模型,它是 SAM 2 的增强版本,专为视觉对象跟踪任务而设计。

SAM 2 忽略了运动线索,在后续帧预测掩码时会导致不准确,特别是在拥挤的场景中。为了解决这些问题,SAMURAI 通过结合运动建模和优化的内存选择机制,可以有效地预测对象运动并改进掩码选择,从而实现稳健、准确的跟踪,而无需重新训练或微调。

SAM 2 根据过去帧中目标的来准备当前帧的条件视觉特征。 然而,这种方法无法处理较长时间的遮挡或变形,但是这种场景这在视觉对象跟踪任务中很常见。为了构建一个有效的对象线索内存库,SAMURAI 采用了一种基于三个分数的选择性方法来从先前的时间步骤中选择帧:掩码相似性分数、对象出现分数和运动分数。 只有当所有三个分数都满足其相应的阈值时,才会选择该帧作为内存的理想视频帧。 通过这种方式,SAMURAI 可以构建一个运动感知内存库,以提高跟踪性能。

SAMURAI通过整合时间运动线索和提出的运动感知记忆选择机制,有效预测目标运动并细化掩码选择,实现稳健、精确的实时跟踪,无需重新训练或微调。 实验结果表明,SAMURAI在多个基准数据集上取得了显著优于现有跟踪器的性能提升,并在复杂场景中展现出强大的泛化能力。 其核心创新在于运动建模和运动感知记忆选择机制的结合,显著提高了在拥挤场景和遮挡情况下的跟踪准确性。

SAMURAI 模型可以实时运行,在不同的基准数据集上展示了强大的零样本性能,同时也展现出了其无需微调的泛化能力。在评估中,SAMURAI 模型比现有对象跟踪模型在成功率和精度方面取得了显著提高。(包括 LaSOT、LaSOText、GOT-10k、TrackingNet、NFS 和 OTB100)都取得了最先进的性能。 与零样本方法和监督方法相比,SAMURAI 在所有三个指标上都显示出显著的改进。

与 LaSOT 上的完全监督方法相比,SAMURAI 模型取得了有竞争力的结果,强调了其在复杂跟踪场景中的鲁棒性及其在动态环境中实际应用的潜力。SAMURAI 是一个建立在SAM 2模型之上的视觉对象跟踪框架,它引入了基于运动的评分以更好地进行掩码预测和内存选择,从而在拥挤场景中处理自遮挡和突然运动的场景。 所提出的模块在所有 SAM 模型变体中,在所有指标的多个 VOT 基准测试中都有较大的改进。 该方法不需要重新训练或微调,同时在多个 VOT 基准测试中表现出稳健的性能,并具有实时在线推理的能力。

https://github.com/yangchris11/samuraihttps://yangchris11.github.io/samurai/SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
0 阅读:0

智能也得细细瞧

简介:感谢大家的关注