Video-R1：第一个多模态视频Reasoning方法+模型，7B小模型逆袭！

论文：Video-R1: Reinforcing Video Reasoning in MLLMs链接：https://arxiv.org/pdf/2503.21776

背景与挑战：AI如何看懂视频？

视频理解是AI领域的“高阶技能”——不仅要识别画面中的物体，还要分析动作的前后逻辑（比如“为什么球会滚到这里？”）。然而，现有的多模态大模型（MLLMs）在视频推理上有两大难题：

时间建模不足：很多模型只会“看单张截图”，忽略视频的时间顺序，导致推理错误（比如误判车祸中的能量损耗）。高质量数据稀缺：现有的视频数据集大多只教AI“认东西”，缺乏需要复杂推理的问题（比如物理题或逻辑题）。

核心创新：新算法+混合数据，双管齐下

为了解决问题，Video-R1团队祭出两大“杀手锏”：

算法升级：T-GRPO

核心思想：让AI对比“正常顺序视频”和“打乱顺序视频”的表现，只有前者正确率更高时才给奖励。效果：逼着AI学会“看剧情发展”，而不是单帧“蒙答案”。就像老师通过对比学生看正常电影和乱序片段的表现，来奖励真正理解故事的学生。

数据策略：图像+视频混合训练

图像数据（如数学题、图表题）：教AI基础的逻辑推理能力。视频数据（如物理实验、日常场景）：训练时间推理能力。数据集：团队构建了26万条混合数据（Video-R1-260k），涵盖数理、空间、常识等多种题型。实验成果：7B小模型吊打GPT-4o？

团队在6大视频推理基准测试中验证效果，结果惊人：

VSI-Bench（空间推理）：Video-R1-7B准确率35.8%，超过GPT-4o的34%。VideoMMMU（知识推理）：52.3%准确率，远超同类模型。通用视频理解（如MVBench）：性能全面提升。

关键结论：

强化学习（RL）是灵魂：仅用1000步RL训练，模型就从“死记硬背”进化到“灵活推理”。帧数越多越好：输入视频帧从16帧增加到32帧后，性能显著提升，说明“看全片”很重要！

有趣发现：“顿悟时刻”

在训练中，模型偶尔会表现出类似人类的“自我反思”行为：

例子：先给出一个答案，中途发现矛盾，重新分析视频帧，最终修正结论。意义：这说明AI并非机械执行，而是在“动脑子”——像学生做题时反复检查步骤！未来展望：视频理解的下一步？

虽然成果亮眼，但仍有改进空间：

处理长视频：当前模型最多看32帧，未来需支持更长的“追剧模式”。动态控制回答长度：避免AI“啰嗦”或“过于简略”。更大规模训练：目前RL训练仅1千步，潜力还未完全释放！

玩酷网