Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning

作者: Songyuan Yang, Weijiang Yu, Jilin Ma, Ziyu Liu, Guijian Tang, Wenjing Yang, Huibin Tan, Nong Xiao

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

提出RLER双重范式，通过强化学习生成证据并进行选举推理，提升视频推理的可靠性与可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频推理 强化学习 证据生成 证据选举 多模态学习 可解释性 视频问答

📋 核心要点

现有大型多模态模型在视频推理中缺乏证据对齐，推理过程通常是单次传递，无法验证答案的可靠性。
RLER双重范式解耦了生成证据的学习和获得可靠答案的过程，通过强化学习生成证据，再通过证据选举进行推理。
实验结果表明，RLER在多个视频推理基准测试中取得了最先进的性能，平均比基线模型提高了6.3%。

📝 摘要（中文）

本文提出了一种名为“强化学习生成，选举推理”（RLER）的双重范式，旨在解决大型多模态模型（LMMs）在视频推理中缺乏证据对齐的问题。RLER将生成证据的学习与获得可靠答案的过程解耦。在RLER-训练阶段，利用组相对强化学习（RL）和三个新的任务驱动奖励来优化策略：帧敏感奖励将推理建立在显式关键帧上，思维透明奖励塑造可读和可解析的推理轨迹，反重复奖励提高信息密度。这些信号引导模型生成结构化的、机器可检查的证据，并增强推理能力。在RLER-推理阶段，应用一个免训练的协调器，生成少量多样化的候选答案，解析它们的答案和引用的帧，通过证据一致性、置信度、透明度和非冗余性对它们进行评分，然后执行鲁棒的证据加权选举。这闭合了生成和使用证据之间的循环，提高了可靠性和可解释性，而无需扩大模型。在8个代表性基准上，RLER优于各种开源和基于RL的LMM，平均比基线模型提高了6.3%，且每个问题平均使用3.1个候选答案，实现了计算量和质量之间的良好平衡。结果表明，在学习过程中显式地生成证据，并在推理过程中通过证据进行选举，是实现可信视频推理的有效途径。

🔬 方法详解

问题定义：现有大型多模态模型在视频推理任务中，通常采用单次推理过程，缺乏对推理过程的证据支持和验证，导致结果的可靠性和可解释性不足。模型难以确定哪些帧是推理的关键依据，也难以生成清晰可理解的推理过程，容易产生幻觉或重复信息。

核心思路：RLER的核心思路是将视频推理过程分解为两个阶段：证据生成和证据选举。通过强化学习训练模型生成与推理相关的证据（关键帧和推理轨迹），然后利用这些证据对候选答案进行评估和选择，从而提高推理的可靠性和可解释性。这种解耦的设计使得模型可以专注于生成高质量的证据，并利用这些证据进行更鲁棒的推理。

技术框架：RLER包含两个主要阶段：RLER-Training和RLER-Inference。在RLER-Training阶段，使用强化学习训练模型生成证据，包括关键帧和推理轨迹。在RLER-Inference阶段，首先生成多个候选答案，然后解析这些答案及其对应的证据，并根据证据的一致性、置信度、透明度和非冗余性对候选答案进行评分，最后通过证据加权选举选择最佳答案。

关键创新：RLER的关键创新在于其双重范式，将证据生成和证据选举解耦，并通过强化学习和任务驱动的奖励函数来优化证据生成过程。此外，RLER还提出了一个免训练的协调器，用于评估和选择候选答案，无需额外的训练成本。

关键设计：RLER-Training阶段使用了三个关键的任务驱动奖励：帧敏感奖励（Frame-sensitive reward）鼓励模型关注关键帧，Think-transparency reward鼓励模型生成可读和可解析的推理轨迹，Anti-repetition reward鼓励模型生成信息密度高的推理过程。RLER-Inference阶段，通过证据一致性、置信度、透明度和非冗余性对候选答案进行评分，并使用证据加权选举选择最佳答案。

🖼️ 关键图片

📊 实验亮点

RLER在8个视频推理基准测试中取得了最先进的性能，包括MSVD-QA、MSRVTT-QA、TGIF-QA等。实验结果表明，RLER平均比基线模型提高了6.3%，并且在计算效率方面也表现出色，每个问题平均使用3.1个候选答案。这些结果验证了RLER双重范式的有效性，证明了显式证据生成和证据选举是实现可信视频推理的有效途径。

🎯 应用场景

RLER方法具有广泛的应用前景，可以应用于视频问答、视频摘要、视频监控等领域。通过提供可信的证据和可解释的推理过程，RLER可以提高人工智能系统的可靠性和用户信任度，尤其是在安全敏感的应用场景中具有重要价值。未来，该方法可以进一步扩展到其他多模态推理任务中。

📄 摘要（原文）

Video reasoning has advanced with large multimodal models (LMMs), yet their inference is often a single pass that returns an answer without verifying whether the reasoning is evidence-aligned. We introduce Reinforce to Learn, Elect to Reason (RLER), a dual paradigm that decouples learning to produce evidence from obtaining a reliable answer. In RLER-Training, we optimize the policy with group-relative reinforcement learning (RL) and 3 novel task-driven rewards: Frame-sensitive reward grounds reasoning on explicit key frames, Think-transparency reward shapes readable and parsable reasoning traces, and Anti-repetition reward boosts information density. These signals teach the model to emit structured, machine-checkable evidence and potentiate reasoning capabilities. In RLER-Inference, we apply a train-free orchestrator that generates a small set of diverse candidates, parses their answers and cited frames, scores them by evidence consistency, confidence, transparency, and non-redundancy, and then performs a robust evidence-weighted election. This closes the loop between producing and using evidence, improving reliability and interpretability without enlarging the model. We comprehensively evaluate RLER against various open-source and RL-based LMMs on 8 representative benchmarks. RLER achieves state of the art across all benchmarks and delivers an average improvement of 6.3\% over base models, while using on average 3.1 candidates per question, indicating a favorable balance between compute and quality. The results support a simple thesis: making evidence explicit during learning and electing by evidence during inference is a robust path to trustworthy video reasoning.

Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理