EVA: Efficient Reinforcement Learning for End-to-End Video Agent

📄 arXiv: 2603.22918v1 📥 PDF

作者: Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-24

备注: CVPR2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出EVA:基于强化学习的高效端到端视频Agent,用于解决长视频理解难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 强化学习 多模态学习 视频Agent 长视频处理 自适应推理 端到端学习

📋 核心要点

  1. 现有MLLM视频理解方法效率低,缺乏自适应推理,且依赖手动设计流程。
  2. EVA框架通过强化学习,使Agent能够自主规划观看策略,实现高效视频理解。
  3. EVA在多个视频理解基准上取得了显著提升,超越了现有MLLM和自适应Agent方法。

📝 摘要(中文)

由于视频包含大量的时间依赖性和冗余帧,使用多模态大型语言模型(MLLM)进行视频理解仍然具有挑战性。现有方法通常将MLLM视为被动识别器,处理整个视频或均匀采样的帧,缺乏自适应推理。最近基于Agent的方法引入了外部工具,但仍然依赖于手动设计的工作流程和感知优先策略,导致长视频处理效率低下。我们提出了EVA,一个用于端到端视频Agent的高效强化学习框架,通过迭代的总结-计划-行动-反思推理实现感知前的规划,自主决定观看什么、何时观看以及如何观看,从而实现查询驱动和高效的视频理解。为了训练这样的Agent,我们设计了一个简单而有效的三阶段学习流程——包括监督微调(SFT)、Kahneman-Tversky优化(KTO)和广义奖励策略优化(GRPO)——将监督模仿学习和强化学习联系起来。我们进一步构建了每个阶段的高质量数据集,支持稳定和可复现的训练。我们在六个视频理解基准上评估了EVA,证明了其全面的能力。与现有基线相比,EVA在通用MLLM基线上实现了6-12%的显著改进,并且比之前的自适应Agent方法进一步提高了1-3%。我们的代码和模型可在https://github.com/wangruohui/EfficientVideoAgent 获得。

🔬 方法详解

问题定义:现有基于MLLM的视频理解方法,尤其是处理长视频时,效率低下。它们通常是被动地处理所有帧或均匀采样的帧,忽略了视频中的时间依赖性和冗余信息。此外,基于Agent的方法虽然引入了外部工具,但仍然依赖于手动设计的工作流程和“感知优先”的策略,限制了其效率和泛化能力。

核心思路:EVA的核心思路是让Agent具备“规划-感知”的能力,即在观看视频之前先进行规划,决定需要关注哪些帧以及如何关注。通过迭代的“总结-计划-行动-反思”过程,Agent能够自主地学习高效的视频理解策略,从而避免了对所有帧的盲目处理。

技术框架:EVA的整体框架包含三个主要阶段:监督微调(SFT)、Kahneman-Tversky优化(KTO)和广义奖励策略优化(GRPO)。SFT阶段使用人工标注的数据进行模仿学习,使Agent初步具备视频理解能力。KTO阶段通过优化Agent的行为策略,使其更符合人类的决策偏好。GRPO阶段则利用强化学习,根据环境奖励进一步优化Agent的策略,使其能够在各种视频理解任务中表现出色。

关键创新:EVA的关键创新在于其端到端的强化学习框架,该框架允许Agent自主地学习高效的视频理解策略,而无需人工干预。此外,EVA提出的三阶段学习流程有效地结合了监督学习和强化学习的优点,使得Agent能够稳定地学习并取得良好的性能。

关键设计:EVA的关键设计包括:1) 使用Transformer作为Agent的骨干网络,以捕捉视频中的时间依赖性;2) 设计了专门的奖励函数,以鼓励Agent选择信息量大的帧;3) 采用了KTO和GRPO等先进的强化学习算法,以提高Agent的学习效率和稳定性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EVA在六个视频理解基准上取得了显著的性能提升。与通用的MLLM基线相比,EVA的性能提升了6-12%。与之前的自适应Agent方法相比,EVA的性能进一步提高了1-3%。这些结果表明,EVA框架能够有效地提高视频理解的效率和准确性。

🎯 应用场景

EVA框架具有广泛的应用前景,例如智能监控、视频搜索、自动驾驶、视频摘要等领域。它可以帮助人们更高效地理解和利用视频数据,提高工作效率和生活质量。未来,EVA还可以应用于更复杂的视频理解任务,例如视频生成、视频编辑等。

📄 摘要(原文)

Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.