Reinforcing Video Reasoning with Focused Thinking
作者: Jisheng Dang, Jingze Wu, Teng Wang, Xuanhui Lin, Nannan Zhu, Hongbo Chen, Wei-Shi Zheng, Meng Wang, Tat-Seng Chua
分类: cs.CV
发布日期: 2025-05-30 (更新: 2025-06-08)
🔗 代码/项目: GITHUB
💡 一句话要点
提出TW-GRPO框架,通过聚焦推理和精细化奖励提升视频推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 强化学习 多模态学习 聚焦推理 软奖励 数据增强 GRPO
📋 核心要点
- 现有基于GRPO的视频推理模型生成冗余推理链,且二元奖励机制导致学习效率低下。
- TW-GRPO通过token权重机制聚焦关键信息,并采用多选题软奖励机制进行精细化学习。
- 实验表明,TW-GRPO在CLEVRER和MMVU等基准测试中取得了显著的性能提升。
📝 摘要(中文)
本文提出了一种名为TW-GRPO的新框架,旨在通过聚焦推理和精细化奖励来增强视觉推理能力。现有方法,特别是基于GRPO的强化学习方法,在复杂推理任务中存在两个主要局限:一是生成冗长且不聚焦的推理链,掩盖了重要的时空线索;二是二元奖励无法区分部分正确答案,导致奖励方差过高和学习效率低下。TW-GRPO采用token权重机制,优先考虑信息密度高的token(通过组内信息熵估计),抑制冗余token。此外,通过将单选题QA任务转化为多选题QA任务,并使用软奖励,实现更细粒度的梯度估计,从而区分部分正确性。同时,提出问题-答案反转的数据增强策略,从现有基准生成多样化的多选题样本。实验结果表明,TW-GRPO在多个视频推理和通用理解基准上取得了最先进的性能。例如,在CLEVRER上实现了50.4%的准确率(比Video-R1提高了18.8%),在MMVU上实现了65.8%的准确率。
🔬 方法详解
问题定义:现有基于强化学习的视频推理方法,特别是基于GRPO的方法,在生成推理链时往往不够聚焦,产生大量冗余信息,使得模型难以捕捉关键的时空线索。此外,传统的二元奖励机制(正确/错误)无法区分部分正确的答案,导致奖励信号稀疏,训练过程中的方差较高,学习效率低下。
核心思路:TW-GRPO的核心思路是通过引入token权重机制来聚焦推理过程,抑制冗余信息,突出关键线索。同时,将传统的单选题任务转化为多选题任务,并采用软奖励机制,使得模型能够区分不同程度的正确性,从而获得更精细的梯度估计,提高学习效率。
技术框架:TW-GRPO框架主要包含以下几个模块:1) Token权重模块:利用组内信息熵估计token的信息密度,并赋予token相应的权重。2) 多选题生成模块:通过问题-答案反转的数据增强策略,从现有的单选题数据集中生成多选题样本。3) 强化学习训练模块:使用改进的GRPO算法,结合token权重和软奖励进行训练。整体流程为:输入视频和问题,模型生成推理链,根据答案计算软奖励,并利用GRPO算法更新模型参数。
关键创新:TW-GRPO的关键创新在于:1) 提出了token权重机制,能够有效抑制冗余信息,聚焦关键线索。2) 将单选题任务转化为多选题任务,并采用软奖励机制,使得模型能够区分不同程度的正确性,从而获得更精细的梯度估计。3) 提出了问题-答案反转的数据增强策略,能够有效扩充训练数据集,提高模型的泛化能力。
关键设计:Token权重模块中,组内信息熵的计算方式是关键。多选题生成模块中,问题-答案反转的具体实现方式,例如如何选择负样本,也是重要的设计细节。强化学习训练模块中,软奖励的具体计算方式,以及GRPO算法的参数设置,都会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
TW-GRPO在CLEVRER数据集上取得了50.4%的准确率,相比于Video-R1提升了18.8%。在MMVU数据集上,TW-GRPO取得了65.8%的准确率。这些结果表明,TW-GRPO在视频推理和通用理解任务上具有显著的优势,能够有效提升模型的性能。
🎯 应用场景
TW-GRPO框架可应用于视频监控、智能交通、机器人导航等领域,提升机器对复杂场景的理解和推理能力。例如,在视频监控中,可以帮助识别异常行为;在智能交通中,可以辅助自动驾驶系统进行决策;在机器人导航中,可以帮助机器人理解周围环境,规划行动路径。该研究有助于推动人工智能在实际场景中的应用。
📄 摘要(原文)
Recent advancements in reinforcement learning, particularly through Group Relative Policy Optimization (GRPO), have significantly improved multimodal large language models for complex reasoning tasks. However, two critical limitations persist: 1) they often produce unfocused, verbose reasoning chains that obscure salient spatiotemporal cues and 2) binary rewarding fails to account for partially correct answers, resulting in high reward variance and inefficient learning. In this paper, we propose TW-GRPO, a novel framework that enhances visual reasoning with focused thinking and dense reward granularity. Specifically, we employs a token weighting mechanism that prioritizes tokens with high informational density (estimated by intra-group information entropy), suppressing redundant tokens like generic reasoning prefixes. Furthermore, we reformulate RL training by shifting from single-choice to multi-choice QA tasks, where soft rewards enable finer-grained gradient estimation by distinguishing partial correctness. Additionally, we propose question-answer inversion, a data augmentation strategy to generate diverse multi-choice samples from existing benchmarks. Experiments demonstrate state-of-the-art performance on several video reasoning and general understanding benchmarks. Notably, TW-GRPO achieves 50.4\% accuracy on CLEVRER (18.8\% improvement over Video-R1) and 65.8\% on MMVU. Our codes are available at \href{https://github.com/longmalongma/TW-GRPO}.