VideoCuRL: Video Curriculum Reinforcement Learning with Orthogonal Difficulty Decomposition

📄 arXiv: 2601.00887v1 📥 PDF

作者: Hongbo Jin, Kuanwei Lin, Wenhao Zhang, Yichen Jin, Ge Li

分类: cs.CV

发布日期: 2025-12-31


💡 一句话要点

VideoCuRL:提出正交难度分解的视频课程强化学习,提升视频理解能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频理解 强化学习 课程学习 难度分解 视频LLM 时空推理 视觉感知 认知推理

📋 核心要点

  1. 现有视频理解强化学习方法依赖标量难度指标,无法有效区分视觉感知和认知推理的挑战。
  2. VideoCuRL通过光流、关键帧熵和校准的惊讶度,将视频难度分解为视觉复杂度和认知复杂度两个正交维度。
  3. 实验表明,VideoCuRL在视频推理和感知任务上显著优于现有强化学习基线,且推理开销低。

📝 摘要(中文)

强化学习(RL)对于增强VideoLLM的复杂时空推理能力至关重要。然而,当前的RL范式主要依赖于随机数据洗牌或基于标量难度指标的简单课程策略。我们认为标量指标无法解耦视频理解中的两个正交挑战:视觉时间感知负载和认知推理深度。为了解决这个问题,我们提出了VideoCuRL,这是一个新颖的框架,将难度分解为这两个轴。我们采用高效的、免训练的代理,光流和关键帧熵用于视觉复杂度,校准的惊讶度用于认知复杂度,以将数据映射到2D课程网格上。然后,一种能力感知的对角波前策略安排从基础对齐到复杂推理的训练。此外,我们引入了动态稀疏KL和结构化重访,以稳定训练,防止奖励崩溃和灾难性遗忘。大量的实验表明,VideoCuRL在推理(在VSI-Bench上+2.5)和感知(在VideoMME上+2.9)任务上超过了强大的RL基线。值得注意的是,VideoCuRL消除了基于生成的课程的禁止性推理开销,为鲁棒的视频后训练提供了一个可扩展的解决方案。

🔬 方法详解

问题定义:现有基于强化学习的视频理解方法,在构建训练课程时,通常使用单一标量指标来衡量视频的难度。这种方法无法区分视频理解中两个重要的正交维度:视觉时间感知的复杂度和认知推理的深度。例如,一个视频可能视觉上非常复杂,但只需要简单的推理,反之亦然。这种混淆导致训练效率低下,模型难以学习到鲁棒的视频理解能力。

核心思路:VideoCuRL的核心思路是将视频的难度分解为两个正交的维度:视觉时间感知负载和认知推理深度。通过分别衡量这两个维度,可以更精确地评估视频的难度,并构建更有效的训练课程。该方法利用免训练的代理指标来估计这两个维度,避免了额外的计算开销。

技术框架:VideoCuRL框架主要包含以下几个模块:1) 难度分解:使用光流和关键帧熵来衡量视觉复杂度,使用校准的惊讶度来衡量认知复杂度。2) 课程网格构建:将视频数据映射到基于视觉复杂度和认知复杂度的2D课程网格上。3) 课程调度:采用能力感知的对角波前策略,从简单到复杂地安排训练数据。4) 训练稳定:引入动态稀疏KL散度和结构化重访机制,防止训练过程中的奖励崩溃和灾难性遗忘。

关键创新:VideoCuRL的关键创新在于提出了正交难度分解的思想,并设计了相应的实现方法。与传统的标量难度指标相比,正交难度分解能够更准确地描述视频的难度,从而构建更有效的训练课程。此外,该方法采用免训练的代理指标,降低了计算成本,使其更具实用性。动态稀疏KL散度和结构化重访机制进一步提升了训练的稳定性。

关键设计:在难度分解方面,光流用于捕捉视频中的运动信息,关键帧熵用于衡量视频内容的丰富程度。校准的惊讶度用于衡量模型对视频内容的预测难度。在课程调度方面,对角波前策略从低视觉复杂度和低认知复杂度的视频开始训练,逐步增加难度。动态稀疏KL散度用于约束策略更新的幅度,防止策略突变。结构化重访机制用于定期回顾之前学习过的知识,防止灾难性遗忘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VideoCuRL在VSI-Bench和VideoMME数据集上分别取得了+2.5和+2.9的性能提升,显著优于现有的强化学习基线。这些结果验证了正交难度分解的有效性,以及VideoCuRL在提升视频理解能力方面的优势。此外,VideoCuRL消除了生成式课程的推理开销,使其更具可扩展性。

🎯 应用场景

VideoCuRL可应用于各种需要视频理解能力的场景,例如视频问答、视频摘要、视频编辑和机器人导航等。通过提升VideoLLM的视频理解能力,可以实现更智能、更高效的视频处理和应用。该方法尤其适用于需要处理大量视频数据的场景,例如在线教育、智能监控和自动驾驶等。

📄 摘要(原文)

Reinforcement Learning (RL) is crucial for empowering VideoLLMs with complex spatiotemporal reasoning. However, current RL paradigms predominantly rely on random data shuffling or naive curriculum strategies based on scalar difficulty metrics. We argue that scalar metrics fail to disentangle two orthogonal challenges in video understanding: Visual Temporal Perception Load and Cognitive Reasoning Depth. To address this, we propose VideoCuRL, a novel framework that decomposes difficulty into these two axes. We employ efficient, training-free proxies, optical flow and keyframe entropy for visual complexity, Calibrated Surprisal for cognitive complexity, to map data onto a 2D curriculum grid. A competence aware Diagonal Wavefront strategy then schedules training from base alignment to complex reasoning. Furthermore, we introduce Dynamic Sparse KL and Structured Revisiting to stabilize training against reward collapse and catastrophic forgetting. Extensive experiments show that VideoCuRL surpasses strong RL baselines on reasoning (+2.5 on VSI-Bench) and perception (+2.9 on VideoMME) tasks. Notably, VideoCuRL eliminates the prohibitive inference overhead of generation-based curricula, offering a scalable solution for robust video post-training.