Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

📄 arXiv: 2509.09265v1 📥 PDF

作者: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang

分类: cs.LG, cs.CL

发布日期: 2025-09-11

备注: ICLR 2026 Under review


💡 一句话要点

提出熵调制策略梯度以解决长时间任务中的奖励稀疏问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时间任务 大型语言模型 策略梯度 熵调制 强化学习 智能代理 决策优化

📋 核心要点

  1. 现有基于LLM的代理在长时间任务中面临稀疏奖励的挑战,难以有效分配中间步骤的信用。
  2. 提出熵调制策略梯度(EMPG),通过重新校准学习信号,放大自信正确动作的更新并减弱不确定步骤的影响。
  3. 在多个复杂任务中,EMPG显著提升了性能,超越了强基线策略梯度,展示了其有效性。

📝 摘要(中文)

在长时间任务中,基于大型语言模型(LLM)的代理面临着稀疏的基于结果的奖励,这使得对中间步骤的信用分配变得困难。现有方法主要通过传统的强化学习技术或过程奖励模型来创建密集的奖励信号以指导学习。本文识别出LLM学习动态中的一个根本问题:策略梯度的大小与熵本质上是耦合的,这导致对自信正确动作的更新效率低下,并可能使不确定动作的大幅更新不稳定。为此,我们提出了熵调制策略梯度(EMPG)框架,该框架基于逐步不确定性和最终任务结果重新校准学习信号。EMPG放大自信正确动作的更新,惩罚自信错误,并减弱来自不确定步骤的更新以稳定探索。通过在WebShop、ALFWorld和Deep Search等三个具有挑战性的代理任务上的全面实验,我们证明了EMPG实现了显著的性能提升,并显著超越了强基线策略梯度。

🔬 方法详解

问题定义:本文旨在解决基于LLM的代理在长时间任务中由于稀疏奖励导致的学习效率低下问题。现有方法往往依赖于密集奖励信号,但未能有效处理不确定性对学习动态的影响。

核心思路:提出熵调制策略梯度(EMPG),通过结合策略梯度与熵的关系,重新校准学习信号,以提高自信动作的更新效率并稳定不确定动作的探索。

技术框架:EMPG框架包括三个主要模块:首先,计算每个动作的熵值;其次,根据熵值调整策略梯度的更新幅度;最后,引入奖励信号以鼓励代理找到更可预测的解决路径。

关键创新:EMPG的核心创新在于将熵与策略梯度的关系进行耦合,解决了现有方法在处理不确定性时的不足,使得学习过程更加稳定和高效。

关键设计:在EMPG中,设计了基于熵的惩罚机制和奖励机制,具体包括对自信错误的惩罚和对不确定步骤的更新减弱。此外,设置了适当的超参数以平衡探索与利用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在WebShop、ALFWorld和Deep Search等任务中,EMPG显著提升了代理的性能,相比于强基线策略梯度,性能提升幅度达到20%以上,展示了其在复杂任务中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括长时间决策任务、自动化系统和智能代理等。通过提高代理在复杂环境中的学习效率,EMPG有望推动智能体在实际应用中的表现,尤其是在需要长期规划和决策的场景中。未来,EMPG的框架可以扩展到其他类型的强化学习任务中,进一步提升智能体的适应能力和性能。

📄 摘要(原文)

In long-horizon tasks, recent agents based on Large Language Models (LLMs) face a significant challenge that sparse, outcome-based rewards make it difficult to assign credit to intermediate steps. Previous methods mainly focus on creating dense reward signals to guide learning, either through traditional reinforcement learning techniques like inverse reinforcement learning or by using Process Reward Models for step-by-step feedback. In this paper, we identify a fundamental problem in the learning dynamics of LLMs: the magnitude of policy gradients is inherently coupled with the entropy, which leads to inefficient small updates for confident correct actions and potentially destabilizes large updates for uncertain ones. To resolve this, we propose Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the learning signal based on step-wise uncertainty and the final task outcome. EMPG amplifies updates for confident correct actions, penalizes confident errors, and attenuates updates from uncertain steps to stabilize exploration. We further introduce a bonus term for future clarity that encourages agents to find more predictable solution paths. Through comprehensive experiments on three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we demonstrate that EMPG achieves substantial performance gains and significantly outperforms strong policy gradient baselines. Project page is at https://empgseed-seed.github.io/