玩酷网

ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B

该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。

在视觉语言模型(Vision-LanguageModels,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准24帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉token,这已远超主流大语言模型4K-128K的上下文处理极限。当面对影视级的长视频内容时,传统解决方案的不足愈加凸显:粗放式的帧采样策略往往造成关键帧信息遗漏,而特征融合方法虽能降低数据维度,却不可避免地导致语义完整性受损。

近日,蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型ViLAMP(Video-LanguageModelwithMixedPrecision),实现了对超长视频的高效处理。这个方法的核心在于其独特的“混合精度”策略:对视频中的关键内容保持高精度分析,而对次要内容进行强力压缩,就像人类在观看视频时会重点关注关键场景,而对过渡时空信息只做快速扫描一样。

论文标题:ScalingVideo-LanguageModelsto10KFramesviaHierarchicalDifferentialDistillation

论文地址:https://arxiv.org/abs/2504.02438

Github:https://github.com/steven-ccq/ViLAMP

实验结果令人振奋:ViLAMP在Video-MME等五个主流视频理解基准上全面超越现有方案,特别是在处理长视频时展现出显著优势。更重要的是,它可以在单张A100GPU上连续处理长达1万帧(按每秒1帧计算约3小时)的视频内容,同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率,更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被ICML2025接收。

横轴:处理的视频帧数(从0到10,000帧),纵轴:GPU内存使用量(MB)。测试在单块NVIDIAA100GPU上进行。

VideoNIAH(视频版本大海捞针任务)测试结果。横轴:视频总长度(2K-10K帧);纵轴:表示目标视频在完整视频中的相对位置(0%表示在开头,100%表示在结尾)。

视频信息在时空维度均呈现稀疏性与冗余性

为解决长视频处理的效率问题,研究团队首先对主流视觉语言模型(包括LLaVA-OneVision、LLaVA-Video、Qwen2-VL和LongVA)进行了系统性分析,发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性:

帧间注意力分析:在现有模型中,用户Query对相应视频的注意力高度集中——90%的注意力仅分布在不到5%的视频帧上(称为关键帧)。更重要的是,这5%的关键帧之间往往存在很强的视觉相似度。

帧内注意力分析:在每一帧的内部,模型的注意力也展现出相似的稀疏性质——50%的patch(帧划分的最小单位)就承载了80%的模型注意力,但这些受关注的patch与关键帧中的对应patch具有远超随机基线水平的相似度。

这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上,处理长视频不需要对每一帧、每个patch都投入同样的计算量。基于此,研究团队提出“差分蒸馏原则”(DifferentialDistillPrinciple):识别并保留重要的视频信息,同时压缩那些虽然相关但高度冗余的信息。其中,重要信息应该同时满足两个条件:(1)高查询相关性:与当前用户Query高度相关;(2)低信息冗余性:包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。

ViLAMP:基于差分蒸馏的双层混合精度架构

前文的注意力分析揭示了一个关键问题:现有视觉语言模型对视频中所有帧和patch都采用相同的处理方式,导致大量计算资源的浪费。基于这一认识,研究团队提出了专门面向长视频处理的高效架构ViLAMP,它能够根据信息的重要程度自适应地分配计算资源。

ViLAMP通过层次化的压缩框架实现这一策略:在帧级别,对重要的关键帧保留完整的视觉token表示,以捕获关键信息;而对于非关键帧,则采用强力压缩策略;在patch级别,通过差分机制增大重要patch的权重。

模型具体包含两个核心机制:

1.差分关键帧选择(DifferentialKeyframeSelection,DKS)

为实现关键帧的高效识别,ViLAMP采用了基于贪心策略的选择算法。该算法在最大化与用户Query的相关性的同时,通过差分机制降低帧间冗余,确保选中的关键帧既重要又多样化。

2.差分特征合并(DifferentialFeatureMerging,DFM)

针对非关键帧的处理,ViLAMP创新性地通过差分加权池化,将每个非关键帧压缩为单个信息量最大化的token。在压缩过程中,模型赋予那些与用户Query相关且具有独特性的patch较高的权重,同时降低与相邻的关键帧有显著重复的patch的权重,从而在大幅降低计算量的同时保留关键信息。

这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息,又显著降低了计算开销。

突破性性能:全面超越现有方案

在五个主流视频理解基准上的实验表明:

1.ViLAMP以7B参数量达到或超越了部分70B量级模型的表现,特别是在Video-MME长视频子集上比现有最优模型提升4.8%。

2.针对当前视频理解基准中视频长度不足的问题,本文提出了面向视频理解场景的“大海捞针”任务——VideoNIAH。该任务将一段目标短视频(1分钟以内)插入到小时级别的长视频中,要求模型在不依赖先验信息的情况下,从超长视频上下文中定位并理解该片段,进而回答相关问题。与传统基于文本的NIAH任务不同,VideoNIAH中的答案无法直接从视频对应的文本描述中提取。因此,该任务本质上更具挑战性,难以达到语言模型在文本NIAH任务中所表现出的近乎完美的准确率(例如99%)。VideoNIAH任务的性能上限受限于模型对目标短视频原始QA的理解水平,进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上,ViLAMP在处理包含10K帧(约3小时)的视频时仍能保持58.15%的准确率(原始QA数据集准确率78.9%),超越VideoChat-Flash基线模型12.82%,展现出较强的长视频建模能力。

3.计算效率显著提升:内存消耗相比LLaMA-VID基线降低约50%,在8,192帧情况下计算量减少80%以上。

4.深入的消融实验表明:与已有的关键帧选择方案相比,DKS在长视频场景下表现出明显优势;与Q-former和平均池化等特征融合方案相比,DFM在所有数据集上都展现出3个百分点以上的性能优势。

模型表现

Video-MME排行榜

计算效率对比

结语

ViLAMP通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈,不仅在性能上实现了飞跃,更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。