FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning

📄 arXiv: 2509.24008v3 📥 PDF

作者: Haonan Ge, Yiwei Wang, Kai-Wei Chang, Hang Wu, Yujun Cai

分类: cs.CV, cs.AI

发布日期: 2025-09-28 (更新: 2025-10-05)

备注: Underreview


💡 一句话要点

提出FrameMind,通过强化学习实现视频推理过程中动态帧采样,提升视频理解性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 强化学习 动态帧采样 视频推理 多模态学习

📋 核心要点

  1. 现有视频理解模型依赖固定的帧采样策略,无法根据问题自适应地收集视觉证据,限制了性能。
  2. FrameMind通过强化学习训练模型,使其在推理过程中动态请求视觉信息,实现自适应的帧采样。
  3. 在MLVU和VideoMME等基准测试中,FrameMind显著优于现有模型,提升了视频理解的性能。

📝 摘要(中文)

本文提出FrameMind,一个端到端框架,通过强化学习使模型在推理过程中动态地请求视觉信息,实现帧间交错的视频推理(FiCOT)。与传统方法不同,FrameMind通过多轮交互,在文本推理和主动视觉感知之间交替,利用工具提取目标帧或视频片段,以弥补知识缺口。为了训练有效的动态采样策略,提出了动态分辨率帧采样(DRFS),使模型在学习过程中接触到不同的时空权衡。同时,提出了DRFS-GRPO,一种基于群体相对策略优化的算法,从基于结果的奖励中学习,无需帧级别的标注。在MLVU和VideoMME等具有挑战性的基准测试中,大量实验表明,该方法显著优于现有模型,提高了灵活高效的视频理解水平。

🔬 方法详解

问题定义:现有视频理解模型通常采用固定的帧采样策略,即预先设定要处理的视觉输入,而忽略了不同问题对视觉信息的需求差异。这种静态方法的痛点在于,无法根据具体问题的推理需求,自适应地选择合适的帧或视频片段,导致在需要广泛时间覆盖或精细空间细节的任务中表现不佳。

核心思路:FrameMind的核心思路是让模型具备动态感知的能力,使其能够在推理过程中主动地请求视觉信息。通过强化学习训练一个策略,该策略决定在每个推理步骤中应该提取哪些帧或视频片段。这种动态采样的方式允许模型根据当前推理状态和知识缺口,自适应地选择最相关的视觉证据,从而提高视频理解的效率和准确性。

技术框架:FrameMind采用Frame-Interleaved Chain-of-Thought (FiCOT)框架,整体流程如下:模型首先进行文本推理,分析当前问题和已有的知识,然后根据分析结果,利用工具(即采样策略)提取相关的帧或视频片段。提取到的视觉信息被用于更新模型的知识,然后模型再次进行文本推理,如此循环往复,直到得出最终答案。整个过程是一个多轮交互的过程,模型在文本推理和主动视觉感知之间交替进行。

关键创新:FrameMind的关键创新在于动态帧采样策略的学习方式。传统的强化学习方法通常需要大量的标注数据,而FrameMind通过Dynamic Resolution Frame Sampling (DRFS)和DRFS-GRPO算法,实现了在没有帧级别标注的情况下,从基于结果的奖励中学习。DRFS通过暴露模型于不同的时空权衡,增强了模型的泛化能力。DRFS-GRPO则通过群体相对策略优化,提高了学习的效率和稳定性。

关键设计:DRFS的设计允许模型在训练过程中体验不同的时间分辨率和空间分辨率的帧采样。DRFS-GRPO算法的关键在于使用群体中其他策略的表现作为基准,来评估当前策略的优劣,从而实现更有效的策略优化。具体的损失函数设计和网络结构细节在论文中有详细描述,但摘要中未明确提及具体参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FrameMind在MLVU和VideoMME等具有挑战性的基准测试中取得了显著的性能提升。具体来说,FrameMind在这些基准测试中超越了现有的最佳模型,证明了其在灵活高效的视频理解方面的优势。具体的性能数据和提升幅度需要在论文中查找,摘要中未提供详细数据。

🎯 应用场景

FrameMind的动态帧采样方法可以应用于各种视频理解任务,例如视频问答、视频摘要、视频目标检测等。该方法能够提高视频理解的效率和准确性,尤其是在资源受限的场景下,例如移动设备或边缘计算平台。未来,该方法可以进一步扩展到更复杂的视频推理任务,例如视频生成和视频编辑。

📄 摘要(原文)

Current video understanding models rely on fixed frame sampling strategies, processing predetermined visual inputs regardless of the specific reasoning requirements of each question. This static approach limits their ability to adaptively gather visual evidence, leading to suboptimal performance on tasks that require either broad temporal coverage or fine-grained spatial detail. In this paper, we introduce FrameMind, an end-to-end framework trained with reinforcement learning that enables models to dynamically request visual information during reasoning through Frame-Interleaved Chain-of-Thought (FiCOT). Unlike traditional approaches, FrameMind operates in multiple turns where the model alternates between textual reasoning and active visual perception, using tools to extract targeted frames or video clips based on identified knowledge gaps. To train effective dynamic sampling policies, we propose Dynamic Resolution Frame Sampling (DRFS), which exposes models to diverse temporal-spatial trade-offs during learning, and DRFS-GRPO, a group-relative policy optimization algorithm that learns from outcome-based rewards without requiring frame-level annotations. Extensive experiments on challenging benchmarks like MLVU and VideoMME demonstrate that our method significantly outperforms existing models, advancing the state of the art in flexible and efficient video understanding.