VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

作者: Qi Wang, Yanrui Yu, Ye Yuan, Rui Mao, Tianfei Zhou

分类: cs.CV

发布日期: 2025-05-18 (更新: 2025-10-14)

备注: Accepted by NeurIPS 2025. Code: https://github.com/QiWang98/VideoRFT

💡 一句话要点

提出VideoRFT，通过强化微调提升MLLM在视频推理方面的能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频推理 多模态学习 强化微调 思维链 视觉语言模型

📋 核心要点

现有MLLM在视频推理方面存在不足，难以处理视频中复杂的逻辑、时间和因果关系。
VideoRFT通过多专家驱动的CoT生成流程，构建大规模高质量的视频推理数据集，并引入语义一致性奖励。
实验结果表明，VideoRFT在多个视频推理基准测试中取得了SOTA性能，显著提升了MLLM的视频推理能力。

📝 摘要（中文）

强化微调(RFT)已在提升大型语言模型(LLM)的人类水平推理能力方面展现出巨大潜力，并已扩展到多模态LLM(MLLM)。然而，由于视频数据中固有的复杂逻辑、时间及因果结构，对视频进行推理仍然是一个挑战。为了填补这一空白，我们提出VideoRFT，一种将RFT范式扩展到培养MLLM类人视频推理能力的新方法。VideoRFT遵循RFT中的标准两阶段方案：使用思维链(CoT)标注进行监督微调(SFT)，然后进行强化学习(RL)以提高泛化能力。在视频领域实现这一目标的一个核心挑战在于缺乏大规模、高质量的视频CoT数据集。我们通过构建一个多专家驱动、认知启发的CoT生成流程来解决这个问题。首先，我们设计了一种认知启发的提示策略，以引导推理LLM仅基于视频内容的丰富、结构化和字面表示来生成初步的CoT。随后，这些CoT由一个以实际视频为条件的MLLM进行修订，确保视觉一致性并减少视觉幻觉。该流程产生了两个新的数据集，即用于SFT的VideoRFT-CoT-102K和用于RL的VideoRFT-RL-310K。为了进一步加强RL阶段，我们引入了一种新的语义一致性奖励，明确地促进文本推理和视觉证据之间的一致性。该奖励鼓励模型产生连贯的、上下文感知的、基于视觉输入的推理输出。大量实验表明，VideoRFT在六个视频推理基准测试中取得了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在视频推理能力上的不足。现有方法难以有效处理视频中复杂的时间、因果和逻辑关系，缺乏大规模高质量的视频推理数据集，导致模型难以进行有效的训练和泛化。

核心思路：论文的核心思路是扩展强化微调（RFT）范式到视频领域，通过构建高质量的视频CoT数据集和引入语义一致性奖励，来提升MLLM的视频推理能力。通过模仿人类的认知过程，生成更符合逻辑和视觉证据的推理过程。

技术框架：VideoRFT包含两个主要阶段：监督微调（SFT）和强化学习（RL）。SFT阶段使用VideoRFT-CoT-102K数据集，该数据集通过多专家驱动的CoT生成流程构建。RL阶段使用VideoRFT-RL-310K数据集，并引入语义一致性奖励来优化模型。整体流程为：首先利用LLM生成初步的CoT，然后使用MLLM进行视觉一致性修正，最后通过RL进行优化。

关键创新：论文的关键创新在于：1) 提出了一个多专家驱动、认知启发的CoT生成流程，有效解决了视频CoT数据集稀缺的问题。该流程结合了LLM的推理能力和MLLM的视觉感知能力，生成高质量的CoT标注。2) 引入了一种新的语义一致性奖励，显式地促进文本推理和视觉证据之间的一致性，鼓励模型产生连贯的、上下文感知的推理输出。

关键设计：在CoT生成流程中，采用了认知启发的prompting策略，引导LLM生成基于视频内容的结构化表示的初步CoT。在RL阶段，语义一致性奖励的设计考虑了文本推理和视觉证据之间的对齐，具体实现方式未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VideoRFT在六个视频推理基准测试中取得了SOTA性能。具体性能数据和对比基线未知，但论文强调了VideoRFT在提升视频推理能力方面的显著效果。语义一致性奖励的引入也带来了明显的性能提升。

🎯 应用场景

VideoRFT的潜在应用领域包括智能监控、自动驾驶、视频内容理解和生成、以及人机交互等。该研究可以提升机器对视频内容的理解和推理能力，使其能够更好地服务于人类，例如在自动驾驶中进行更准确的场景理解和决策，在智能监控中进行更有效的异常行为检测。

📄 摘要（原文）

Reinforcement fine-tuning (RFT) has shown great promise in achieving humanlevel reasoning capabilities of Large Language Models (LLMs), and has recently been extended to MLLMs. Nevertheless, reasoning about videos, which is a fundamental aspect of human intelligence, remains a persistent challenge due to the complex logic, temporal and causal structures inherent in video data. To fill this gap, we propose VideoRFT, a novel approach that extends the RFT paradigm to cultivate human-like video reasoning capabilities in MLLMs. VideoRFT follows the standard two-stage scheme in RFT: supervised fine-tuning (SFT) with chain-of-thought (CoT) annotations, followed by reinforcement learning (RL) to improve generalization. A central challenge to achieve this in the video domain lies in the scarcity of large-scale, high-quality video CoT datasets. We address this by building a multi-expert-driven, cognition-inspired CoT curation pipeline. First, we devise a cognition-inspired prompting strategy to elicit a reasoning LLM to generate preliminary CoTs based solely on rich, structured, and literal representations of video content. Subsequently, these CoTs are revised by a MLLM conditioned on the actual video, ensuring visual consistency and reducing visual hallucinations. This pipeline results in two new datasets, i.e.VideoRFT-CoT-102K for SFT and VideoRFT-RL-310K for RL. To further strengthen the RL phase, we introduce a novel semantic-consistency reward that explicitly promotes the alignment between textual reasoning and visual evidence. This reward encourages the model to produce coherent, context-aware reasoning outputs grounded in visual input. Extensive experiments show that VideoRFT achieves state-of-the-art performance on six video reasoning benchmarks.

VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理