EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
作者: Wujiang Xu, Wentian Zhao, Zhenting Wang, Yu-Jhe Li, Can Jin, Mingyu Jin, Kai Mei, Kun Wan, Dimitris N. Metaxas
分类: cs.LG, cs.CL
发布日期: 2025-09-26
💡 一句话要点
提出EPO算法,解决LLM Agent在多轮稀疏奖励强化学习中的探索-利用级联失效问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: LLM Agent 强化学习 熵正则化 多轮交互 稀疏奖励
📋 核心要点
- 多轮交互、稀疏奖励环境下,LLM Agent易出现探索-利用级联失效,导致策略过早收敛和后期崩溃。
- 提出熵正则化策略优化(EPO)框架,通过熵正则化、熵平滑和自适应权重平衡探索与利用。
- 实验表明,EPO在ScienceWorld和ALFWorld等任务上显著提升了LLM Agent的性能。
📝 摘要(中文)
本文针对LLM Agent在多轮交互、稀疏奖励环境下的强化学习训练难题,指出了一种独特的失效模式:探索-利用级联失效。该失效始于早期策略的过早收敛,由于稀疏反馈导致Agent陷入有缺陷的低熵策略。随后,Agent进入晚期策略崩溃,此时传统的熵正则化反而适得其反,促进了混乱的探索,破坏了训练的稳定性。为此,本文提出了熵正则化策略优化(EPO)框架,通过三个协同机制打破这一失效循环:(1) 在多轮设置中采用熵正则化以增强探索;(2) 熵平滑正则化器,将策略熵限制在历史平均值范围内,以防止突变;(3) 自适应的基于阶段的权重,平衡训练过程中的探索和利用。分析表明,EPO保证了熵方差的单调递减,同时保持了收敛性。EPO在ScienceWorld上实现了高达152%的性能提升,在ALFWorld上实现了高达19.8%的性能提升。这项工作表明,多轮稀疏奖励设置需要与传统强化学习根本不同的熵控制方法,对LLM Agent训练具有广泛的影响。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在多轮交互、稀疏奖励环境下的强化学习训练问题。现有方法在应对这种环境时,容易出现“探索-利用级联失效”现象,即早期策略过早收敛到次优解,后期熵正则化失效导致策略崩溃。这种现象是传统强化学习中较少遇到的,对LLM Agent的训练提出了新的挑战。
核心思路:论文的核心思路是通过更精细的熵控制来解决探索-利用级联失效问题。具体来说,就是在强化探索的同时,避免策略熵的剧烈波动,并在训练的不同阶段自适应地调整探索和利用的权重。这样设计的目的是为了防止Agent过早陷入局部最优,并在后期保持训练的稳定性。
技术框架:EPO框架包含三个主要组成部分:1) 熵正则化:在策略优化过程中引入熵正则化项,鼓励Agent探索更多不同的行为。2) 熵平滑正则化器:通过限制策略熵在历史平均值附近波动,防止策略熵的剧烈变化,保证训练的稳定性。3) 自适应阶段权重:根据训练的阶段,动态调整探索和利用的权重,在早期侧重探索,后期侧重利用。
关键创新:EPO的关键创新在于其对熵的精细控制。传统的熵正则化方法在多轮稀疏奖励环境中容易失效,而EPO通过引入熵平滑正则化器和自适应阶段权重,实现了对熵的更有效管理。这种精细的熵控制是解决探索-利用级联失效的关键。
关键设计:EPO的关键设计包括:1) 熵平滑正则化器的具体形式,例如可以使用KL散度来衡量当前策略熵与历史平均熵之间的差异。2) 自适应阶段权重的调整策略,例如可以根据训练的轮数或奖励的变化来动态调整权重。3) 损失函数的设计,需要综合考虑奖励、熵正则化项和熵平滑正则化项,并合理设置各项的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EPO算法在ScienceWorld和ALFWorld等任务上取得了显著的性能提升。具体来说,EPO在ScienceWorld上实现了高达152%的性能提升,在ALFWorld上实现了高达19.8%的性能提升。这些结果表明,EPO算法能够有效解决LLM Agent在多轮稀疏奖励环境下的训练难题。
🎯 应用场景
该研究成果可应用于各种需要LLM Agent进行多轮交互决策的场景,例如游戏AI、智能助手、机器人控制等。通过提高LLM Agent在复杂环境下的学习效率和性能,可以实现更智能、更可靠的自动化系统,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Training LLM agents in multi-turn environments with sparse rewards, where completing a single task requires 30+ turns of interaction within an episode, presents a fundamental challenge for reinforcement learning. We identify a critical failure mode unique to this setting: the exploration-exploitation cascade failure. This cascade begins with early-stage policy premature convergence, where sparse feedback causes agents to commit to flawed, low-entropy strategies. Subsequently, agents enter late-stage policy collapse, where conventional entropy regularization becomes counterproductive, promoting chaotic exploration that destabilizes training. We propose Entropy-regularized Policy Optimization (EPO), a general framework that breaks this failure cycle through three synergistic mechanisms: (1) adopting entropy regularization in multi-turn settings to enhance exploration, (2) an entropy smoothing regularizer that bounds policy entropy within historical averages to prevent abrupt fluctuations, and (3) adaptive phase-based weighting that balances exploration and exploitation across training. Our analysis justifies that EPO guarantees monotonically decreasing entropy variance while maintaining convergence. EPO achieves up to 152% performance improvement on ScienceWorld and up to 19.8% on ALFWorld. Our work demonstrates that multi-turn sparse-reward settings require fundamentally different entropy control than traditional RL, with broad implications for LLM agent training.