The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
作者: Yang Liu, Enxi Wang, Yufei Gao, Weixin Zhang, Bo Wang, Zhiyuan Zeng, Yikai Zhang, Yining Zheng, Xipeng Qiu
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-13
💡 一句话要点
提出MEDS框架,通过记忆增强动态奖励塑造提升LLM采样多样性,减少重复错误。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大语言模型 奖励塑造 采样多样性 行为记忆 错误模式识别 密度聚类
📋 核心要点
- 现有强化学习方法在LLM中存在采样多样性不足的问题,导致模型重复犯相同错误。
- MEDS框架通过记忆历史行为,识别并惩罚频繁出现的错误模式,从而鼓励更广泛的探索。
- 实验表明,MEDS在多个数据集和模型上均优于现有基线,显著提升了性能和行为多样性。
📝 摘要(中文)
尽管强化学习在大语言模型中取得了成功,但一个常见的失败模式是采样多样性降低,策略反复生成类似的错误行为。传统的熵正则化鼓励当前策略下的随机性,但没有明确抑制跨rollout的重复失败模式。我们提出了MEDS,一个记忆增强的动态奖励塑造框架,它将历史行为信号纳入奖励设计中。通过存储和利用中间模型表示,我们捕获过去rollout的特征,并使用基于密度的聚类来识别频繁出现的错误模式。分配给更普遍的错误集群的rollout会受到更严厉的惩罚,从而鼓励更广泛的探索,同时减少重复的错误。在五个数据集和三个基础模型上,MEDS始终优于现有的基线,实现了高达4.13 pass@1点和4.37 pass@128点的增益。使用基于LLM的注释和定量多样性指标的额外分析表明,MEDS增加了采样期间的行为多样性。
🔬 方法详解
问题定义:论文旨在解决大语言模型强化学习中采样多样性不足的问题。现有方法,如熵正则化,仅关注当前策略的随机性,无法有效抑制模型在不同 rollout 中重复出现的错误模式。这种重复犯错降低了学习效率,限制了模型性能的进一步提升。
核心思路:MEDS的核心思路是利用历史行为信息,动态调整奖励函数,从而引导模型探索更广泛的行为空间,避免陷入重复的错误模式。通过记忆过去 rollout 的中间模型表示,识别频繁出现的错误模式,并对属于这些模式的 rollout 施加更大的惩罚,从而鼓励模型尝试不同的策略。
技术框架:MEDS框架主要包含以下几个模块:1) 行为记忆模块:存储过去 rollout 的中间模型表示,用于捕获行为特征。2) 错误模式识别模块:使用基于密度的聚类算法,对记忆中的行为特征进行聚类,识别频繁出现的错误模式。3) 动态奖励塑造模块:根据 rollout 所属的错误模式,动态调整奖励函数,对属于更普遍错误模式的 rollout 施加更大的惩罚。4) 强化学习训练模块:使用调整后的奖励函数训练大语言模型。
关键创新:MEDS的关键创新在于将历史行为信息融入到奖励设计中,从而实现了对重复错误模式的有效抑制。与传统的熵正则化方法相比,MEDS能够更精确地识别和惩罚不良行为,从而引导模型进行更有效的探索。此外,使用中间模型表示作为行为特征,能够更全面地捕捉 rollout 的行为信息。
关键设计:在错误模式识别模块中,论文采用了基于密度的聚类算法,如 DBSCAN 或 HDBSCAN,以自动识别错误模式的数量和形状。奖励塑造函数的设计需要平衡探索和利用,避免过度惩罚导致模型难以学习。具体参数设置,如聚类算法的参数和奖励函数的权重,需要根据具体任务进行调整。
📊 实验亮点
MEDS在五个数据集和三个基础模型上进行了实验,结果表明MEDS始终优于现有基线,实现了高达4.13 pass@1点和4.37 pass@128点的增益。此外,通过LLM-based annotations和定量多样性指标的分析,证明MEDS能够有效增加采样期间的行为多样性,减少重复错误。
🎯 应用场景
MEDS框架可应用于各种需要大语言模型进行策略探索和优化的场景,例如代码生成、文本摘要、对话生成等。通过提升采样多样性,MEDS能够帮助模型生成更具创造性和鲁棒性的结果,从而提高任务完成质量和用户体验。该研究对于提升大语言模型在实际应用中的性能具有重要意义。
📄 摘要(原文)
Despite the success of reinforcement learning for large language models, a common failure mode is reduced sampling diversity, where the policy repeatedly generates similar erroneous behaviors. Classical entropy regularization encourages randomness under the current policy, but does not explicitly discourage recurrent failure patterns across rollouts. We propose MEDS, a Memory-Enhanced Dynamic reward Shaping framework that incorporates historical behavioral signals into reward design. By storing and leveraging intermediate model representations, we capture features of past rollouts and use density-based clustering to identify frequently recurring error patterns. Rollouts assigned to more prevalent error clusters are penalized more heavily, encouraging broader exploration while reducing repeated mistakes. Across five datasets and three base models, MEDS consistently improves average performance over existing baselines, achieving gains of up to 4.13 pass@1 points and 4.37 pass@128 points. Additional analyses using both LLM-based annotations and quantitative diversity metrics show that MEDS increases behavioral diversity during sampling.