Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

📄 arXiv: 2507.06485v2 📥 PDF

作者: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-07-09 (更新: 2025-10-24)

备注: EMNLP 2025. The first two authors contributed equally. Project page: https://sites.google.com/cs.unc.edu/videorts2025/


💡 一句话要点

Video-RTS:结合数据高效强化学习与自适应测试时缩放,提升视频推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频推理 强化学习 数据高效 测试时缩放 大型语言模型

📋 核心要点

  1. 现有基于强化学习的视频推理方法依赖大规模标注数据进行微调,成本高昂且难以扩展。
  2. Video-RTS结合数据高效强化学习和自适应测试时缩放,无需大规模标注即可提升视频推理能力。
  3. 实验表明,Video-RTS仅使用少量训练样本,在多个视频推理基准上超越现有模型,尤其在Video-Holmes上提升显著。

📝 摘要(中文)

本文提出Video-RTS,一种新的视频推理方法,旨在通过结合数据高效的强化学习(RL)和视频自适应的测试时缩放(TTS)策略,显著提高视频推理能力并提升数据效率。现有基于强化学习和大型语言模型(LLM)的视频推理方法依赖于大规模监督微调(SFT),需要大量的视频数据和长链式思考(CoT)标注,成本高昂且难以扩展。Video-RTS跳过资源密集型的SFT步骤,采用基于输出奖励的纯强化学习训练,无需额外标注或大量微调。此外,引入了一种稀疏到稠密的视频TTS策略,通过迭代添加帧来提高推理的一致性,从而更有效地利用计算资源。在多个视频推理基准测试中,Video-RTS仅使用3.6%的训练样本,就超越了现有的视频推理模型2.4%的准确率。尤其是在具有挑战性的Video-Holmes基准测试中,Video-RTS实现了4.2%的改进。纯强化学习训练和自适应视频TTS提供了互补的优势,共同实现了Video-RTS强大的推理性能。

🔬 方法详解

问题定义:现有基于强化学习的视频推理方法,例如使用大型语言模型(LLM)进行视频理解,通常需要大规模的监督微调(SFT),这需要大量的视频数据和详细的链式思考(CoT)标注。这种方法不仅成本高昂,而且难以扩展到新的视频数据集或任务。因此,如何降低数据标注成本,提高数据利用效率,是当前视频推理领域面临的重要挑战。

核心思路:Video-RTS的核心思路是结合数据高效的强化学习和视频自适应的测试时缩放策略,从而在不依赖大规模标注数据的情况下,提升视频推理能力。通过纯强化学习训练,模型可以直接从输出结果中学习,而无需依赖中间步骤的标注。同时,自适应测试时缩放策略可以根据视频内容动态调整推理过程,从而更有效地利用计算资源。

技术框架:Video-RTS的整体框架包含两个主要部分:数据高效的强化学习训练和视频自适应的测试时缩放。首先,模型通过纯强化学习进行训练,使用基于输出的奖励函数,无需额外的标注数据。然后,在推理阶段,模型采用稀疏到稠密的视频TTS策略,迭代地添加视频帧,并根据输出的一致性来决定是否继续添加帧。这种策略可以在保证推理准确率的同时,减少计算资源的消耗。

关键创新:Video-RTS的关键创新在于其数据高效的强化学习训练和视频自适应的测试时缩放策略的结合。与传统的需要大规模标注数据的监督学习方法不同,Video-RTS采用纯强化学习训练,可以直接从输出结果中学习。此外,视频自适应的测试时缩放策略可以根据视频内容动态调整推理过程,从而更有效地利用计算资源。

关键设计:在强化学习训练中,Video-RTS使用基于输出的奖励函数,例如,如果模型的输出与正确答案一致,则给予正向奖励,否则给予负向奖励。在视频自适应的测试时缩放策略中,模型首先使用少量视频帧进行推理,然后根据输出的一致性来决定是否添加更多的帧。一致性的评估可以通过比较不同帧的输出结果来实现,例如,可以使用交叉熵损失函数来衡量输出结果的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Video-RTS在多个视频推理基准测试中取得了显著的性能提升。尤其是在具有挑战性的Video-Holmes基准测试中,Video-RTS实现了4.2%的准确率提升。更重要的是,Video-RTS仅使用3.6%的训练样本,就超越了现有的视频推理模型2.4%的准确率,证明了其数据高效性。

🎯 应用场景

Video-RTS具有广泛的应用前景,例如智能监控、自动驾驶、视频内容分析和机器人导航等领域。通过提高视频推理的效率和准确性,Video-RTS可以帮助机器更好地理解和利用视频信息,从而实现更智能化的应用。未来,该方法可以进一步扩展到其他多模态任务,例如结合语音和文本信息的视频理解。

📄 摘要(原文)

Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and fine-tuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Building on observations about the data scaling, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by 2.4% in accuracy using only 3.6% training samples. Specifically, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.