Mitigating False Credit Propagation: Probabilistic Graphical Reward Aggregation for Rubric-Based Reinforcement Learning

📄 arXiv: 2606.03361v1 📥 PDF

作者: Can Lv, Mingju Chen, Heng Chang, Shiji Zhou

分类: cs.LG

发布日期: 2026-06-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出图形事件聚合方法以解决虚假信用传播问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 基于评分标准的奖励 虚假信用传播 概率图模型 强化学习 奖励聚合 依赖关系感知 开放式语言模型

📋 核心要点

  1. 现有的基于评分标准的奖励聚合方法存在结构性奖励聚合失败的问题,导致虚假信用传播现象。
  2. 本文提出了图形事件聚合(GEAR),通过建模标准结果为潜在伯努利事件,解决了奖励聚合中的依赖关系问题。
  3. 在HealthBench、WritingBench和PLawBench的实验中,GEAR相较于平面聚合方法提升了最多15.5%的性能,并显著减少了96.5%的泄漏。

📝 摘要(中文)

基于评分标准的奖励在开放式语言模型后训练中越来越多地被使用,但现有方法将标准级别的分数作为独立的效用进行聚合,忽视了标准之间的先决条件和激活关系。这种结构性奖励聚合失败被称为虚假信用传播(FCP)。为了解决这一限制,本文提出了图形事件聚合(GEAR),这是一个依赖关系感知的概率图形框架。GEAR将每个标准结果建模为一个潜在的伯努利事件,通过在类型化评分图中从不支持的父事件向其子事件传播软抑制,并将结果事件概率聚合为标准化的期望有符号效用。实验表明,GEAR在多个基准测试中相较于平面聚合和确定性门控方法均有显著提升。

🔬 方法详解

问题定义:本文旨在解决基于评分标准的奖励聚合中存在的虚假信用传播(FCP)问题。现有方法将标准级别的分数独立聚合,忽视了标准之间的依赖关系,导致奖励或惩罚在条件缺失时仍被计算。

核心思路:论文提出的GEAR方法通过构建一个类型化的评分图,将每个标准结果视为潜在的伯努利事件,利用概率图模型来感知标准之间的依赖关系,从而实现更合理的奖励聚合。

技术框架:GEAR的整体架构包括三个主要模块:首先是标准结果的建模,将其视为潜在事件;其次是从不支持的父事件向子事件的软抑制传播;最后是将事件概率聚合为标准化的期望有符号效用。

关键创新:GEAR的核心创新在于其依赖关系感知的聚合机制,通过概率图模型有效减少了虚假信用传播现象,与传统的平面聚合方法有本质区别。

关键设计:在设计上,GEAR采用了潜在伯努利事件的建模方式,结合了软抑制机制,确保了奖励计算的线性时间复杂度,并且可以无缝集成到现有的基于评分标准的强化学习管道中。具体的参数设置和损失函数设计在实验中进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GEAR在HealthBench、WritingBench和PLawBench基准测试中,相较于平面聚合方法,性能提升最高可达15.5%。此外,GEAR在FCP诊断中相较于平面聚合减少了96.5%的泄漏,同时保留了更多的有效下游效用,表现优于确定性门控方法。

🎯 应用场景

该研究的潜在应用领域包括开放式语言模型的后训练、教育评估系统以及任何需要基于评分标准进行决策的场景。通过更准确的奖励聚合,GEAR能够提升模型的学习效率和效果,具有重要的实际价值和未来影响。

📄 摘要(原文)

Rubric-based rewards are increasingly used for open-ended language model post-training, but criterion-level scores are often aggregated as independent utilities. This flat scalarization ignores rubric-specified prerequisite and activation relations among criteria, allowing reward or penalty to be counted even when the condition that licenses it is absent. We call this structural reward-aggregation failure \textbf{False Credit Propagation} (FCP). To address this limitation, we propose \ourname (\textbf{G}raphical \textbf{E}vent \textbf{A}ggregation for \textbf{R}ubric rewards), a probabilistic graphical framework for dependency-aware rubric aggregation. \ourname models each criterion outcome as a latent Bernoulli event in a typed rubric graph, propagates soft suppression from unsupported parent events to their children, and aggregates the resulting event probabilities into a normalized expected signed utility. This yields a linear-time reward computation that can be plugged into standard rubric-based RL pipelines without changing the outer optimization algorithm. Experiments on HealthBench, WritingBench, and PLawBench with two policy backbones show that \ourname consistently improves over flat aggregation and deterministic gating, achieving relative gains of up to 15.5\% over flat aggregation. FCP diagnostics further show that \ourname reduces leakage by 96.5\% relative to flat aggregation while preserving more licensed downstream utility than deterministic gating. Our code is publicly available at https://github.com/LvCan926/GEAR.