Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning
作者: Songyuan Yang, Weijiang Yu, Jilin Ma, Ziyu Liu, Guijian Tang, Wenjing Yang, Huibin Tan, Nong Xiao
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出RLER双重范式,通过强化学习生成证据并进行选举推理,提升视频推理的可靠性与可解释性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 强化学习 证据生成 证据选举 多模态学习 可解释性 视频问答
📋 核心要点
- 现有大型多模态模型在视频推理中缺乏证据对齐,推理过程通常是单次传递,无法验证答案的可靠性。
- RLER双重范式解耦了生成证据的学习和获得可靠答案的过程,通过强化学习生成证据,再通过证据选举进行推理。
- 实验结果表明,RLER在多个视频推理基准测试中取得了最先进的性能,平均比基线模型提高了6.3%。
📝 摘要(中文)
本文提出了一种名为“强化学习生成,选举推理”(RLER)的双重范式,旨在解决大型多模态模型(LMMs)在视频推理中缺乏证据对齐的问题。RLER将生成证据的学习与获得可靠答案的过程解耦。在RLER-训练阶段,利用组相对强化学习(RL)和三个新的任务驱动奖励来优化策略:帧敏感奖励将推理建立在显式关键帧上,思维透明奖励塑造可读和可解析的推理轨迹,反重复奖励提高信息密度。这些信号引导模型生成结构化的、机器可检查的证据,并增强推理能力。在RLER-推理阶段,应用一个免训练的协调器,生成少量多样化的候选答案,解析它们的答案和引用的帧,通过证据一致性、置信度、透明度和非冗余性对它们进行评分,然后执行鲁棒的证据加权选举。这闭合了生成和使用证据之间的循环,提高了可靠性和可解释性,而无需扩大模型。在8个代表性基准上,RLER优于各种开源和基于RL的LMM,平均比基线模型提高了6.3%,且每个问题平均使用3.1个候选答案,实现了计算量和质量之间的良好平衡。结果表明,在学习过程中显式地生成证据,并在推理过程中通过证据进行选举,是实现可信视频推理的有效途径。
🔬 方法详解
问题定义:现有大型多模态模型在视频推理任务中,通常采用单次推理过程,缺乏对推理过程的证据支持和验证,导致结果的可靠性和可解释性不足。模型难以确定哪些帧是推理的关键依据,也难以生成清晰可理解的推理过程,容易产生幻觉或重复信息。
核心思路:RLER的核心思路是将视频推理过程分解为两个阶段:证据生成和证据选举。通过强化学习训练模型生成与推理相关的证据(关键帧和推理轨迹),然后利用这些证据对候选答案进行评估和选择,从而提高推理的可靠性和可解释性。这种解耦的设计使得模型可以专注于生成高质量的证据,并利用这些证据进行更鲁棒的推理。
技术框架:RLER包含两个主要阶段:RLER-Training和RLER-Inference。在RLER-Training阶段,使用强化学习训练模型生成证据,包括关键帧和推理轨迹。在RLER-Inference阶段,首先生成多个候选答案,然后解析这些答案及其对应的证据,并根据证据的一致性、置信度、透明度和非冗余性对候选答案进行评分,最后通过证据加权选举选择最佳答案。
关键创新:RLER的关键创新在于其双重范式,将证据生成和证据选举解耦,并通过强化学习和任务驱动的奖励函数来优化证据生成过程。此外,RLER还提出了一个免训练的协调器,用于评估和选择候选答案,无需额外的训练成本。
关键设计:RLER-Training阶段使用了三个关键的任务驱动奖励:帧敏感奖励(Frame-sensitive reward)鼓励模型关注关键帧,Think-transparency reward鼓励模型生成可读和可解析的推理轨迹,Anti-repetition reward鼓励模型生成信息密度高的推理过程。RLER-Inference阶段,通过证据一致性、置信度、透明度和非冗余性对候选答案进行评分,并使用证据加权选举选择最佳答案。
🖼️ 关键图片
📊 实验亮点
RLER在8个视频推理基准测试中取得了最先进的性能,包括MSVD-QA、MSRVTT-QA、TGIF-QA等。实验结果表明,RLER平均比基线模型提高了6.3%,并且在计算效率方面也表现出色,每个问题平均使用3.1个候选答案。这些结果验证了RLER双重范式的有效性,证明了显式证据生成和证据选举是实现可信视频推理的有效途径。
🎯 应用场景
RLER方法具有广泛的应用前景,可以应用于视频问答、视频摘要、视频监控等领域。通过提供可信的证据和可解释的推理过程,RLER可以提高人工智能系统的可靠性和用户信任度,尤其是在安全敏感的应用场景中具有重要价值。未来,该方法可以进一步扩展到其他多模态推理任务中。
📄 摘要(原文)
Video reasoning has advanced with large multimodal models (LMMs), yet their inference is often a single pass that returns an answer without verifying whether the reasoning is evidence-aligned. We introduce Reinforce to Learn, Elect to Reason (RLER), a dual paradigm that decouples learning to produce evidence from obtaining a reliable answer. In RLER-Training, we optimize the policy with group-relative reinforcement learning (RL) and 3 novel task-driven rewards: Frame-sensitive reward grounds reasoning on explicit key frames, Think-transparency reward shapes readable and parsable reasoning traces, and Anti-repetition reward boosts information density. These signals teach the model to emit structured, machine-checkable evidence and potentiate reasoning capabilities. In RLER-Inference, we apply a train-free orchestrator that generates a small set of diverse candidates, parses their answers and cited frames, scores them by evidence consistency, confidence, transparency, and non-redundancy, and then performs a robust evidence-weighted election. This closes the loop between producing and using evidence, improving reliability and interpretability without enlarging the model. We comprehensively evaluate RLER against various open-source and RL-based LMMs on 8 representative benchmarks. RLER achieves state of the art across all benchmarks and delivers an average improvement of 6.3\% over base models, while using on average 3.1 candidates per question, indicating a favorable balance between compute and quality. The results support a simple thesis: making evidence explicit during learning and electing by evidence during inference is a robust path to trustworthy video reasoning.