AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

📄 arXiv: 2605.00425v1 📥 PDF

作者: Haotian Zhao, Yuxin Zhang, Songlin Zhou, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu

分类: cs.AI

发布日期: 2026-05-01

备注: 27 pages


💡 一句话要点

提出AEM自适应熵调制方法,解决多轮Agent强化学习中的信用分配难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多轮交互 信用分配 熵调制 自适应学习

📋 核心要点

  1. 多轮Agent强化学习面临稀疏奖励下的信用分配难题,现有方法依赖密集监督,泛化性差且调参复杂。
  2. AEM通过自适应调节熵动态,在无监督条件下实现探索-利用的平衡,从而解决信用分配问题。
  3. 实验表明,AEM在多个基准测试中表现出色,在SWE-bench-Verified上集成到SOTA基线后提升了1.4%。

📝 摘要(中文)

强化学习显著提升了大型语言模型智能体与环境交互和解决多轮任务的能力。然而,有效的训练仍然具有挑战性,因为稀疏的、仅基于结果的奖励使得难以将功劳分配给智能体行动轨迹中的各个步骤。常见的补救方法是引入密集的中间监督,例如过程奖励模型或辅助自监督信号,但这增加了监督和调整的复杂性,并且通常在任务和领域之间泛化性较差。本文提出了AEM,一种无监督的信用分配方法,它在强化学习训练期间自适应地调节熵动态,以实现更有效的探索-利用权衡。理论上,我们将熵分析从token级别提升到response级别,以减少token采样方差,并表明自然梯度下的熵漂移本质上受优势函数和相对response surprisal的乘积控制。具体来说,我们推导出一个实用的代理来重塑训练动态,从而实现从探索到利用的自然过渡。在各种基准和参数范围从1.5B到32B的模型上进行的大量实验证明了AEM的有效性,包括在极具挑战性的SWE-bench-Verified基准上集成到最先进的基线中时,获得了显著的1.4%的增益。

🔬 方法详解

问题定义:多轮Agent强化学习中,智能体与环境交互产生一系列动作,最终获得稀疏奖励。如何将最终奖励合理地分配给每个动作,即信用分配问题,是训练的关键挑战。现有方法通常依赖于人工设计的中间奖励或辅助监督信号,但这增加了训练的复杂性,且难以泛化到不同的任务和环境。

核心思路:AEM的核心思想是通过自适应地调节策略的熵,来控制智能体的探索行为。在训练初期,鼓励智能体进行充分的探索,提高策略的熵;随着训练的进行,逐渐降低熵,使智能体专注于利用已学习到的知识。这种动态调整探索-利用平衡的方式,可以更有效地进行信用分配。

技术框架:AEM方法主要包含以下几个阶段:1) 智能体与环境交互,收集轨迹数据;2) 计算每个response的优势函数和相对surprisal;3) 基于优势函数和相对surprisal,计算熵调制系数;4) 使用熵调制系数调整策略的熵,并更新策略网络。整个过程无需额外的监督信号,是一个完全无监督的方法。

关键创新:AEM的关键创新在于将熵分析从token级别提升到response级别,降低了token采样方差,使得熵的估计更加准确。此外,AEM还推导出了熵漂移与优势函数和相对surprisal之间的关系,并基于此设计了熵调制系数,实现了自适应的探索-利用平衡。

关键设计:AEM的关键设计包括:1) 使用优势函数来衡量每个response的价值;2) 使用相对surprisal来衡量每个response的意外程度;3) 将优势函数和相对surprisal的乘积作为熵调制系数,用于调整策略的熵。具体而言,AEM通过调整策略梯度中的熵正则化项的系数来实现熵的调制。没有涉及特定的网络结构或损失函数修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AEM在多个基准测试中取得了显著的性能提升。特别是在极具挑战性的SWE-bench-Verified基准上,AEM集成到最先进的基线中时,获得了1.4%的绝对性能提升。实验结果表明,AEM能够有效地解决多轮Agent强化学习中的信用分配问题,并提高智能体的学习效率。

🎯 应用场景

AEM方法可应用于各种需要多轮交互的Agent强化学习任务,例如对话系统、游戏AI、机器人控制等。该方法无需人工设计奖励函数,降低了开发成本,并提高了智能体的泛化能力。未来,AEM有望推动Agent强化学习在更广泛的实际场景中的应用。

📄 摘要(原文)

Reinforcement learning (RL) has significantly advanced the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. Yet effective training remains challenging, as sparse, outcome-only rewards make it difficult to assign credit to individual steps in an agent's action trajectory. A common remedy is to introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, but this increases supervision and tuning complexity and often generalizes poorly across tasks and domains. This paper presents AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to achieve a more effective exploration-exploitation trade-off. Theoretically, we elevate entropy analysis from the token level to the response level to reduce token sampling variance and show that entropy drift under natural gradients is intrinsically governed by the product of the advantage and the relative response surprisal. Specifically, we derive a practical proxy to reshape training dynamics, enabling a natural transition from exploration to exploitation. Extensive experiments across various benchmarks and models ranging from 1.5B to 32B parameters demonstrate the effectiveness of AEM, including a notable 1.4 percent gain when integrated into a state-of-the-art baseline on the highly challenging SWE-bench-Verified benchmark.