VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning
作者: Qi Wang, Yanrui Yu, Ye Yuan, Rui Mao, Tianfei Zhou
分类: cs.CV
发布日期: 2025-05-18 (更新: 2025-10-14)
备注: Accepted by NeurIPS 2025. Code: https://github.com/QiWang98/VideoRFT
💡 一句话要点
提出VideoRFT,通过强化微调提升MLLM在视频推理方面的能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 多模态学习 强化微调 思维链 视觉语言模型
📋 核心要点
- 现有MLLM在视频推理方面存在不足,难以处理视频中复杂的逻辑、时间和因果关系。
- VideoRFT通过多专家驱动的CoT生成流程,构建大规模高质量的视频推理数据集,并引入语义一致性奖励。
- 实验结果表明,VideoRFT在多个视频推理基准测试中取得了SOTA性能,显著提升了MLLM的视频推理能力。
📝 摘要(中文)
强化微调(RFT)已在提升大型语言模型(LLM)的人类水平推理能力方面展现出巨大潜力,并已扩展到多模态LLM(MLLM)。然而,由于视频数据中固有的复杂逻辑、时间及因果结构,对视频进行推理仍然是一个挑战。为了填补这一空白,我们提出VideoRFT,一种将RFT范式扩展到培养MLLM类人视频推理能力的新方法。VideoRFT遵循RFT中的标准两阶段方案:使用思维链(CoT)标注进行监督微调(SFT),然后进行强化学习(RL)以提高泛化能力。在视频领域实现这一目标的一个核心挑战在于缺乏大规模、高质量的视频CoT数据集。我们通过构建一个多专家驱动、认知启发的CoT生成流程来解决这个问题。首先,我们设计了一种认知启发的提示策略,以引导推理LLM仅基于视频内容的丰富、结构化和字面表示来生成初步的CoT。随后,这些CoT由一个以实际视频为条件的MLLM进行修订,确保视觉一致性并减少视觉幻觉。该流程产生了两个新的数据集,即用于SFT的VideoRFT-CoT-102K和用于RL的VideoRFT-RL-310K。为了进一步加强RL阶段,我们引入了一种新的语义一致性奖励,明确地促进文本推理和视觉证据之间的一致性。该奖励鼓励模型产生连贯的、上下文感知的、基于视觉输入的推理输出。大量实验表明,VideoRFT在六个视频推理基准测试中取得了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在视频推理能力上的不足。现有方法难以有效处理视频中复杂的时间、因果和逻辑关系,缺乏大规模高质量的视频推理数据集,导致模型难以进行有效的训练和泛化。
核心思路:论文的核心思路是扩展强化微调(RFT)范式到视频领域,通过构建高质量的视频CoT数据集和引入语义一致性奖励,来提升MLLM的视频推理能力。通过模仿人类的认知过程,生成更符合逻辑和视觉证据的推理过程。
技术框架:VideoRFT包含两个主要阶段:监督微调(SFT)和强化学习(RL)。SFT阶段使用VideoRFT-CoT-102K数据集,该数据集通过多专家驱动的CoT生成流程构建。RL阶段使用VideoRFT-RL-310K数据集,并引入语义一致性奖励来优化模型。整体流程为:首先利用LLM生成初步的CoT,然后使用MLLM进行视觉一致性修正,最后通过RL进行优化。
关键创新:论文的关键创新在于:1) 提出了一个多专家驱动、认知启发的CoT生成流程,有效解决了视频CoT数据集稀缺的问题。该流程结合了LLM的推理能力和MLLM的视觉感知能力,生成高质量的CoT标注。2) 引入了一种新的语义一致性奖励,显式地促进文本推理和视觉证据之间的一致性,鼓励模型产生连贯的、上下文感知的推理输出。
关键设计:在CoT生成流程中,采用了认知启发的prompting策略,引导LLM生成基于视频内容的结构化表示的初步CoT。在RL阶段,语义一致性奖励的设计考虑了文本推理和视觉证据之间的对齐,具体实现方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VideoRFT在六个视频推理基准测试中取得了SOTA性能。具体性能数据和对比基线未知,但论文强调了VideoRFT在提升视频推理能力方面的显著效果。语义一致性奖励的引入也带来了明显的性能提升。
🎯 应用场景
VideoRFT的潜在应用领域包括智能监控、自动驾驶、视频内容理解和生成、以及人机交互等。该研究可以提升机器对视频内容的理解和推理能力,使其能够更好地服务于人类,例如在自动驾驶中进行更准确的场景理解和决策,在智能监控中进行更有效的异常行为检测。
📄 摘要(原文)
Reinforcement fine-tuning (RFT) has shown great promise in achieving humanlevel reasoning capabilities of Large Language Models (LLMs), and has recently been extended to MLLMs. Nevertheless, reasoning about videos, which is a fundamental aspect of human intelligence, remains a persistent challenge due to the complex logic, temporal and causal structures inherent in video data. To fill this gap, we propose VideoRFT, a novel approach that extends the RFT paradigm to cultivate human-like video reasoning capabilities in MLLMs. VideoRFT follows the standard two-stage scheme in RFT: supervised fine-tuning (SFT) with chain-of-thought (CoT) annotations, followed by reinforcement learning (RL) to improve generalization. A central challenge to achieve this in the video domain lies in the scarcity of large-scale, high-quality video CoT datasets. We address this by building a multi-expert-driven, cognition-inspired CoT curation pipeline. First, we devise a cognition-inspired prompting strategy to elicit a reasoning LLM to generate preliminary CoTs based solely on rich, structured, and literal representations of video content. Subsequently, these CoTs are revised by a MLLM conditioned on the actual video, ensuring visual consistency and reducing visual hallucinations. This pipeline results in two new datasets, i.e.VideoRFT-CoT-102K for SFT and VideoRFT-RL-310K for RL. To further strengthen the RL phase, we introduce a novel semantic-consistency reward that explicitly promotes the alignment between textual reasoning and visual evidence. This reward encourages the model to produce coherent, context-aware reasoning outputs grounded in visual input. Extensive experiments show that VideoRFT achieves state-of-the-art performance on six video reasoning benchmarks.