Reinforcement Learning with Robust Rubric Rewards
作者: Ya-Qi Yu, Hao Wang, Fangyu Hong, Xiangyang Qu, Gaojie Wu, Qiaoyu Luo, Nuo Xu, Huixin Wang, Wuheng Xu, Yongxin Liao, Zihao Chen, Haonan Li, Ziming Li, Dezhi Peng, Minghui Liao, Jihao Wu, Haoyu Ren, Dandan Tu
分类: cs.CV, cs.AI
发布日期: 2026-05-28
💡 一句话要点
提出 RLR³,通过鲁棒的准则奖励强化学习,提升视觉-语言任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 视觉-语言任务 准则奖励 LLM 鲁棒性 多标准监督 最小暴露策略 分层聚合
📋 核心要点
- 现有RLVR方法在处理视觉-语言任务时,缺乏对多标准细粒度监督的有效支持,限制了其应用。
- RLR³通过准则级别的验证,结合LLM提取器和判断器,并引入最小暴露策略,实现鲁棒的奖励机制。
- 实验结果表明,RLR³在多个视觉-语言基准上显著优于RLVR,并有效减少了假阳性。
- RLR³通过分层聚合来优先考虑重要准则,并缓解rollout组内的分数饱和。
📝 摘要(中文)
本文提出了一种名为“具有鲁棒准则奖励的强化学习”(RLR³)的方法,旨在扩展RLVR(具有可验证奖励的强化学习)从任务级别的验证到准则级别的验证。针对视觉-语言任务中部分可验证、需要多标准监督(如感知细节、推理步骤和约束)的问题,RLR³通过两种执行路径来处理实例特定的准则:一种是LLM作为提取器并结合确定性验证器,另一种是LLM作为判断器来处理不可验证的准则。为了确保评分的可靠性,RLR³引入了最小暴露策略,屏蔽提取器的真实标签和判断器的图像。此外,RLR³采用分层聚合来优先考虑重要准则,并缓解rollout组内的分数饱和。在Qwen3-VL-30B-A3B上对15个基准进行评估,RLR³始终优于RLVR,相比基础模型提升了4.7个点,并超过了官方的instruct-to-thinking模型差距。受控审计证实了我们的确定性验证和最小暴露策略显著减少了可利用的假阳性。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)方法,在处理需要多标准监督的视觉-语言任务时存在局限性。这些任务通常需要考虑感知细节、推理步骤和约束等多个方面,而RLVR主要关注任务级别的验证,无法提供细粒度的指导,导致学习效率低下和性能瓶颈。现有方法容易受到LLM的幻觉影响,产生不准确的奖励信号,从而影响强化学习的训练效果。
核心思路:RLR³的核心思路是将任务级别的验证扩展到准则级别,利用准则(Rubrics)提供细粒度的监督信号。通过将LLM作为提取器或判断器,结合确定性验证器,对每个准则进行评估并生成奖励。为了保证评分的可靠性,引入最小暴露策略,避免LLM直接接触到真实标签或图像,从而减少幻觉和偏差。此外,采用分层聚合来优先考虑重要准则,并缓解rollout组内的分数饱和。
技术框架:RLR³的整体框架包含以下几个主要模块:1) 准则路由:根据准则的可验证性,将其分配给不同的执行路径。2) LLM提取器:对于可验证的准则,使用LLM作为信息提取器,提取相关信息。3) 确定性验证器:对提取的信息进行确定性验证,生成奖励。4) LLM判断器:对于不可验证的准则,使用LLM作为判断器,直接评估并生成奖励。5) 最小暴露策略:屏蔽提取器的真实标签和判断器的图像,减少偏差。6) 分层聚合:对各个准则的奖励进行分层聚合,优先考虑重要准则。
关键创新:RLR³的关键创新在于将RLVR扩展到准则级别,并引入了最小暴露策略。与传统的RLVR方法相比,RLR³能够提供更细粒度的监督信号,从而更有效地指导强化学习。最小暴露策略能够显著减少LLM的幻觉和偏差,提高奖励的可靠性。分层聚合策略能够更好地平衡不同准则的重要性,避免次要准则对学习过程产生干扰。
关键设计:RLR³的关键设计包括:1) 准则路由策略:根据准则的性质,选择合适的执行路径。2) 最小暴露策略的具体实现:例如,对于提取器,屏蔽真实标签;对于判断器,屏蔽图像。3) 分层聚合的具体方法:例如,使用加权平均或注意力机制,对不同准则的奖励进行加权。4) 损失函数的设计:综合考虑各个准则的奖励,以及强化学习的目标函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RLR³在15个视觉-语言基准上始终优于RLVR,相比基础模型提升了4.7个点,并超过了官方的instruct-to-thinking模型差距。受控审计证实了RLR³的确定性验证和最小暴露策略显著减少了可利用的假阳性。这些结果表明,RLR³能够有效地提高视觉-语言任务的性能,并具有良好的鲁棒性。
🎯 应用场景
RLR³具有广泛的应用前景,可应用于各种需要多标准评估的视觉-语言任务,例如图像描述生成、视觉问答、机器人导航等。该方法能够提高智能体的决策能力和泛化能力,使其更好地适应复杂环境。未来,RLR³可以进一步扩展到其他领域,例如自然语言处理、语音识别等,为人工智能的发展做出贡献。
📄 摘要(原文)
While Reinforcement Learning with Verifiable Rewards (RLVR) is effective for deterministically checkable tasks, many vision-language tasks are partially verifiable, demanding multi-criteria supervision (e.g., perceptual details, reasoning steps, and constraints). Rubrics provide a natural interface for this fine-grained supervision, but their effectiveness depends on the execution accuracy during online RL. We propose Reinforcement Learning with Robust Rubric Rewards ($\text{RLR}^3$), extending RLVR from task-level verification to criterion-level verification. $\text{RLR}^3$ routes instance-specific rubrics through two execution paths: an LLM-as-an-extractor paired with a deterministic verifier, or an LLM-as-a-Judge for non-verifiable criteria. To ensure faithful scoring, $\text{RLR}^3$ introduce a minimal exposure strategy that masks ground truths from extractors and images from judges. Furthermore, $\text{RLR}^3$ employs hierarchical aggregation to prioritize essential criteria over additional criteria, and mitigates score saturation within rollout groups. Evaluated on Qwen3-VL-30B-A3B across 15 benchmarks, $\text{RLR}^3$ consistently outperforms RLVR, yielding a 4.7-point improvement over the base model and exceeding the official instruct-to-thinking model gap. Controlled audits confirm our deterministic verification and minimal exposure significantly reduce exploitable false positives.