Scaling RL to Long Videos
作者: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-07-10 (更新: 2025-09-30)
备注: Accepted by NeurIPS 2025. Code at https://github.com/NVlabs/Long-RL and model at https://huggingface.co/Efficient-Large-Model/LongVILA-R1-7B
💡 一句话要点
提出LongVILA框架,通过强化学习提升视觉语言模型在长视频推理上的能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 视觉语言模型 强化学习 思维链 多模态学习
📋 核心要点
- 现有视觉语言模型在处理长视频推理任务时面临挑战,难以有效捕捉视频中的长期依赖关系。
- 论文提出LongVILA框架,通过大规模数据集、两阶段训练和高效训练基础设施,提升模型在长视频上的推理能力。
- 实验结果表明,LongVILA-R1-7B在多个视频基准测试中取得了显著的性能提升,并支持处理更长的视频序列。
📝 摘要(中文)
本文提出了一个完整的框架,利用强化学习将视觉语言模型(VLMs)的推理能力扩展到长视频。该框架通过整合三个关键组件来应对长视频推理的独特挑战:(1)一个大规模数据集LongVideo-Reason,包含104K个长视频问答对,具有高质量的推理标注,涵盖体育、游戏和视频博客等不同领域;(2)一个两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs;(3)一个用于长视频RL的训练基础设施,名为多模态强化序列并行(MR-SP),它结合了序列并行和基于vLLM的引擎,专为长视频设计,使用缓存的视频嵌入以实现高效的rollout和预填充。实验表明,LongVILA-R1-7B在视频基准测试中表现出色,在有无字幕的VideoMME上分别达到65.1%和71.1%的准确率,并且在多个基准测试中始终优于LongVILA-7B。此外,LongVILA-R1-7B支持处理每个视频最多8,192帧,并支持可配置的FPS设置。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了高达2.1倍的加速。此外,我们公开发布了我们的训练系统,该系统支持对各种模态(视频、文本和音频)、各种模型(VILA和Qwen系列)甚至图像和视频生成模型进行RL训练。在单个A100节点(8个GPU)上,它支持对长达一小时的视频(例如,3,600帧)进行RL训练。
🔬 方法详解
问题定义:现有视觉语言模型在处理长视频时,由于计算资源和模型容量的限制,难以有效地捕捉视频中的长期依赖关系,导致推理性能下降。现有的方法通常无法处理超长视频,或者在长视频上表现不佳,缺乏针对长视频推理的优化。
核心思路:论文的核心思路是利用强化学习来优化视觉语言模型在长视频上的推理策略。通过奖励模型在长视频问答任务中的正确答案,引导模型学习更有效的推理路径。同时,通过思维链微调,提升模型生成连贯推理步骤的能力。此外,设计高效的训练基础设施,解决长视频训练的计算瓶颈。
技术框架:LongVILA框架包含三个主要组成部分:(1) LongVideo-Reason数据集,用于训练和评估模型;(2) 两阶段训练流程,包括思维链监督微调(CoT-SFT)和强化学习(RL);(3) 多模态强化序列并行(MR-SP)训练基础设施,用于加速长视频RL训练。CoT-SFT阶段使用监督学习训练模型生成推理链,RL阶段使用奖励模型指导模型优化推理策略。MR-SP利用序列并行和vLLM引擎,通过缓存视频嵌入来提高训练效率。
关键创新:论文的关键创新在于将强化学习应用于长视频视觉语言模型的训练,并设计了高效的训练基础设施MR-SP。通过强化学习,模型可以学习更有效的推理策略,从而提高在长视频问答任务中的性能。MR-SP通过序列并行和缓存机制,显著加速了长视频RL训练过程。
关键设计:LongVideo-Reason数据集包含104K个长视频问答对,涵盖多种领域。CoT-SFT阶段使用交叉熵损失函数,RL阶段使用PPO算法。MR-SP使用序列并行将视频帧序列分割到多个GPU上进行并行处理,并使用vLLM引擎进行高效的rollout和预填充。视频嵌入被缓存以减少重复计算。
📊 实验亮点
LongVILA-R1-7B在VideoMME基准测试中取得了显著的性能提升,在有无字幕的情况下分别达到65.1%和71.1%的准确率,优于LongVILA-7B。此外,MR-SP系统在长视频RL训练中实现了高达2.1倍的加速,显著提高了训练效率。该模型支持处理每个视频最多8,192帧,并支持可配置的FPS设置。
🎯 应用场景
该研究成果可应用于智能视频分析、视频内容理解、智能客服、教育视频问答等领域。例如,可以用于分析体育赛事视频,回答用户关于比赛细节的问题;也可以用于理解教学视频,帮助学生更好地掌握知识。未来,该技术有望应用于更广泛的视频内容理解和生成任务。
📄 摘要(原文)
We introduce a full-stack framework that scales up reasoning in vision-language models (VLMs) to long videos, leveraging reinforcement learning. We address the unique challenges of long video reasoning by integrating three critical components: (1) a large-scale dataset, LongVideo-Reason, comprising 104K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling. In our experiments, LongVILA-R1-7B achieves strong performance on video benchmarks, reaching 65.1% and 71.1% accuracy on VideoMME without and with subtitles, respectively, and consistently outperforming LongVILA-7B across multiple benchmarks. Moreover, LongVILA-R1-7B supports processing up to 8,192 video frames per video, and configurable FPS settings. Notably, our MR-SP system achieves up to 2.1x speedup on long video RL training. In addition, we release our training system for public availability that supports RL training on various modalities (video, text, and audio), various models (VILA and Qwen series), and even image and video generation models. On a single A100 node (8 GPUs), it supports RL training on hour-long videos (e.g., 3,600 frames).