AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning
作者: Peilin Wu, Xinlu Zhang, Kun Wan, Wentian Zhao, Gang Wu, Xinya Du, Zhiyu Chen
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-18
备注: Preprint. Under review
💡 一句话要点
AMARIS:一种基于记忆增强的评分规则改进系统,用于基于评分规则的强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 奖励塑造 评分规则 记忆增强 长期记忆
📋 核心要点
- 现有基于评分规则的强化学习方法缺乏对历史评估信息的长期积累和重用,导致评估效率低下。
- AMARIS 通过引入持久评估记忆,存储和检索历史训练数据,从而指导评分规则的改进。
- 实验结果表明,AMARIS 在多个领域优于基线方法,且异步执行带来的额外开销很小。
📝 摘要(中文)
基于评分规则的奖励塑造是利用强化学习微调大型语言模型的一种有效方法,其中结构化的评分规则将标准结果奖励分解为多个维度,以提供更丰富的奖励信号。最近的研究使评分规则能够基于局部信号进行自适应调整,例如来自当前步骤的 rollout 或成对比较。然而,这些方法在使用后立即丢弃评估过程中产生的诊断信息,阻碍了评估知识的长期积累和战略性重用。这迫使系统从头开始重新推导评估原则,限制了其检测重复出现次优行为的能力,并放弃了持久训练历史自然支持的类似课程的学习过程。为了解决这些局限性,我们引入了 AMARIS,它将评分规则的修改建立在长期训练历史的基础上。在每个训练步骤中,AMARIS 分析单个 rollout,将发现结果聚合为步骤级别的摘要,通过静态(最近步骤)和动态(语义匹配)检索从持久评估记忆中检索相关的历史上下文,并基于这些累积的分析更新评分规则。此过程与正常的强化学习循环异步运行,开销极小。在封闭和开放领域的实验表明,AMARIS 始终优于基线。消融研究表明,静态和动态记忆检索有助于性能提升,并且它们的组合提供了最强的结果,适度的检索预算足以提供大部分增益,并且整个流程通过异步执行仅增加约 5% 的时间开销。这些结果表明,持久评估记忆可以将基于评分规则的奖励塑造从无状态的、每步启发式方法转变为用于强化学习训练的证据驱动循环。
🔬 方法详解
问题定义:现有基于评分规则的强化学习方法,在每次迭代中独立地进行评估和规则调整,忽略了历史评估信息。这导致系统无法学习到长期有效的评估策略,并且难以发现和纠正重复出现的次优行为。现有方法缺乏一种有效的机制来积累和重用评估知识,限制了其性能和效率。
核心思路:AMARIS 的核心思路是引入一个持久的评估记忆,用于存储和检索历史训练数据。通过分析当前 rollout,并结合从记忆中检索到的相关历史上下文,AMARIS 能够更全面地理解模型的行为,并据此改进评分规则。这种基于长期记忆的评估方式,使得系统能够学习到更稳定和有效的评估策略。
技术框架:AMARIS 的整体框架包含以下几个主要模块:1) Rollout 分析模块:分析当前 rollout,提取关键信息并生成步骤级别的摘要。2) 记忆检索模块:从持久评估记忆中检索相关的历史上下文,包括静态检索(最近的步骤)和动态检索(语义匹配)。3) 评分规则更新模块:基于当前 rollout 的分析结果和检索到的历史上下文,更新评分规则。4) 持久评估记忆:存储历史训练数据,包括 rollout、摘要和评分规则。整个流程与正常的强化学习循环异步运行,以减少对训练过程的干扰。
关键创新:AMARIS 最重要的技术创新点在于引入了持久评估记忆,并结合静态和动态检索策略,实现了对历史评估信息的有效利用。与现有方法相比,AMARIS 能够学习到更稳定和有效的评估策略,并且能够更好地发现和纠正重复出现的次优行为。这种基于长期记忆的评估方式,为基于评分规则的强化学习提供了一种新的思路。
关键设计:AMARIS 的关键设计包括:1) 静态检索:检索最近的 N 个步骤,以捕捉短期内的训练趋势。2) 动态检索:使用语义匹配算法,检索与当前 rollout 相似的历史 rollout。3) 评分规则更新:使用基于梯度的方法,根据当前 rollout 的分析结果和检索到的历史上下文,调整评分规则的权重。4) 异步执行:将 AMARIS 的流程与正常的强化学习循环异步运行,以减少对训练过程的干扰。论文中提到异步执行引入了约5%的时间开销。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AMARIS 在封闭和开放领域的任务中均优于基线方法。消融研究表明,静态和动态记忆检索均有助于性能提升,并且它们的组合效果最佳。此外,实验还表明,适度的检索预算足以提供大部分性能增益,并且整个流程通过异步执行仅增加约 5% 的时间开销。这些结果验证了 AMARIS 的有效性和效率。
🎯 应用场景
AMARIS 可应用于各种需要基于评分规则进行奖励塑造的强化学习任务,例如自然语言生成、代码生成和机器人控制。通过利用历史评估信息,AMARIS 能够提高模型的训练效率和性能,并使其能够更好地适应复杂和动态的环境。该研究的成果对于推动强化学习在实际应用中的发展具有重要意义。
📄 摘要(原文)
Rubric-based reward shaping is an effective method for fine-tuning LLMs via RL, where structured rubrics decompose standard outcome rewards into multiple dimensions to provide richer reward signals. Recent works make the rubrics adaptive based on local signals such as the rollouts from the current step or pairwise comparisons. However, these methods discard the diagnostics produced during evaluation after immediate use and prevent the long-term accumulation and strategic reuse of evaluation knowledge. This forces the system to re-derive evaluation principles from scratch, limits its ability to detect recurring suboptimal behaviors, and forfeits the curriculum-like progression that a persistent training history would naturally support. To address these limitations, we introduce AMARIS, which grounds rubric modifications in long-term training history. At each training step, AMARIS analyzes individual rollouts, aggregates findings into step-level summaries, retrieves relevant historical context from a persistent evaluation memory through both static (recent steps) and dynamic (semantically matched) retrieval, and updates rubrics based on these accumulated analyses. This procedure runs asynchronously alongside the normal RL loop with minimal overhead. Experiments across both closed and open-ended domains show that AMARIS consistently outperforms the baselines. Ablation studies show that static and dynamic memory retrieval contributes to the performance gain and their combination provides the strongest results with moderate retrieval budgets sufficient to provide most of the gain, and that the entire pipeline adds only ~5\% time overhead through asynchronous execution. These results show that persistent evaluation memory can transform rubric-based reward shaping from a stateless, per-step heuristic into an evidence-driven loop for RL training.