EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

作者: Wujiang Xu, Wentian Zhao, Zhenting Wang, Yu-Jhe Li, Can Jin, Mingyu Jin, Kai Mei, Kun Wan, Dimitris N. Metaxas

分类: cs.LG, cs.CL

发布日期: 2025-09-26

💡 一句话要点

提出EPO算法，解决LLM Agent在多轮稀疏奖励强化学习中的探索-利用级联失效问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: LLM Agent 强化学习 熵正则化 多轮交互 稀疏奖励

📋 核心要点

多轮交互、稀疏奖励环境下，LLM Agent易出现探索-利用级联失效，导致策略过早收敛和后期崩溃。
提出熵正则化策略优化（EPO）框架，通过熵正则化、熵平滑和自适应权重平衡探索与利用。
实验表明，EPO在ScienceWorld和ALFWorld等任务上显著提升了LLM Agent的性能。

📝 摘要（中文）

本文针对LLM Agent在多轮交互、稀疏奖励环境下的强化学习训练难题，指出了一种独特的失效模式：探索-利用级联失效。该失效始于早期策略的过早收敛，由于稀疏反馈导致Agent陷入有缺陷的低熵策略。随后，Agent进入晚期策略崩溃，此时传统的熵正则化反而适得其反，促进了混乱的探索，破坏了训练的稳定性。为此，本文提出了熵正则化策略优化（EPO）框架，通过三个协同机制打破这一失效循环：(1) 在多轮设置中采用熵正则化以增强探索；(2) 熵平滑正则化器，将策略熵限制在历史平均值范围内，以防止突变；(3) 自适应的基于阶段的权重，平衡训练过程中的探索和利用。分析表明，EPO保证了熵方差的单调递减，同时保持了收敛性。EPO在ScienceWorld上实现了高达152%的性能提升，在ALFWorld上实现了高达19.8%的性能提升。这项工作表明，多轮稀疏奖励设置需要与传统强化学习根本不同的熵控制方法，对LLM Agent训练具有广泛的影响。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在多轮交互、稀疏奖励环境下的强化学习训练问题。现有方法在应对这种环境时，容易出现“探索-利用级联失效”现象，即早期策略过早收敛到次优解，后期熵正则化失效导致策略崩溃。这种现象是传统强化学习中较少遇到的，对LLM Agent的训练提出了新的挑战。

核心思路：论文的核心思路是通过更精细的熵控制来解决探索-利用级联失效问题。具体来说，就是在强化探索的同时，避免策略熵的剧烈波动，并在训练的不同阶段自适应地调整探索和利用的权重。这样设计的目的是为了防止Agent过早陷入局部最优，并在后期保持训练的稳定性。

技术框架：EPO框架包含三个主要组成部分：1) 熵正则化：在策略优化过程中引入熵正则化项，鼓励Agent探索更多不同的行为。2) 熵平滑正则化器：通过限制策略熵在历史平均值附近波动，防止策略熵的剧烈变化，保证训练的稳定性。3) 自适应阶段权重：根据训练的阶段，动态调整探索和利用的权重，在早期侧重探索，后期侧重利用。

关键创新：EPO的关键创新在于其对熵的精细控制。传统的熵正则化方法在多轮稀疏奖励环境中容易失效，而EPO通过引入熵平滑正则化器和自适应阶段权重，实现了对熵的更有效管理。这种精细的熵控制是解决探索-利用级联失效的关键。

关键设计：EPO的关键设计包括：1) 熵平滑正则化器的具体形式，例如可以使用KL散度来衡量当前策略熵与历史平均熵之间的差异。2) 自适应阶段权重的调整策略，例如可以根据训练的轮数或奖励的变化来动态调整权重。3) 损失函数的设计，需要综合考虑奖励、熵正则化项和熵平滑正则化项，并合理设置各项的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EPO算法在ScienceWorld和ALFWorld等任务上取得了显著的性能提升。具体来说，EPO在ScienceWorld上实现了高达152%的性能提升，在ALFWorld上实现了高达19.8%的性能提升。这些结果表明，EPO算法能够有效解决LLM Agent在多轮稀疏奖励环境下的训练难题。

🎯 应用场景

该研究成果可应用于各种需要LLM Agent进行多轮交互决策的场景，例如游戏AI、智能助手、机器人控制等。通过提高LLM Agent在复杂环境下的学习效率和性能，可以实现更智能、更可靠的自动化系统，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理