T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
作者: Haixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun
分类: cs.AI
发布日期: 2026-05-04
备注: 25 pages, 7 figures, 8 tables. Accepted to ICML 2026 as a Spotlight Paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出T$^2$PO,通过不确定性引导探索控制,提升多轮Agent强化学习的稳定性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多轮强化学习 不确定性引导 探索控制 训练稳定性 Agent交互
📋 核心要点
- 多轮强化学习训练不稳定,源于策略探索效率低,产生大量无信息动作。
- T$^2$PO通过token和turn级别的不确定性监控,精细化控制探索过程,提升探索效率。
- 实验表明,T$^2$PO在多个任务中显著提升了训练稳定性和性能,并提高了探索效率。
📝 摘要(中文)
多轮强化学习(RL)的最新进展显著提升了推理LLM在复杂交互任务中的性能。尽管在细粒度信用分配和轨迹过滤等稳定技术方面取得了进展,但训练不稳定仍然普遍存在,并经常导致训练崩溃。我们认为这种不稳定性源于多轮环境中的低效探索,策略持续生成既不能减少不确定性也不能推进任务进展的低信息量动作。为了解决这个问题,我们提出了Token- and Turn-level Policy Optimization (T$^2$PO),这是一个不确定性感知框架,可以在细粒度级别显式地控制探索。在token级别,T$^2$PO监控不确定性动态,并在边际不确定性变化低于阈值时触发思考干预。在turn级别,T$^2$PO识别探索进展可以忽略不计的交互,并动态地重新采样这些turn,以避免浪费rollout。我们在WebShop、ALFWorld和Search QA等多种环境中评估了T$^2$PO,证明了在训练稳定性和性能改进方面都有显著提升,并具有更好的探索效率。
🔬 方法详解
问题定义:论文旨在解决多轮Agent强化学习中训练不稳定的问题。现有方法,如细粒度信用分配和轨迹过滤,虽然有所改进,但仍然无法有效解决由于低效探索导致的训练崩溃。Agent在交互过程中产生大量低信息量的动作,既不能减少不确定性,也无法推进任务进展,导致训练效率低下和稳定性差。
核心思路:T$^2$PO的核心思路是通过不确定性引导探索,在token和turn两个层级上进行精细化控制。具体来说,就是监控Agent在生成token和完成turn时的不确定性变化,如果变化低于阈值,则采取干预措施,避免无效探索。这样可以促使Agent更多地尝试有价值的动作,提高探索效率和训练稳定性。
技术框架:T$^2$PO框架包含两个主要模块:Token-level Policy Optimization和Turn-level Policy Optimization。在Token-level,系统会监控每个token生成后的不确定性变化,当变化低于阈值时,会触发一个“思考”步骤,促使Agent重新考虑其策略。在Turn-level,系统会评估每个turn的探索进展,如果进展很小,则会重新采样该turn,以避免浪费计算资源。这两个模块协同工作,共同提升探索效率和训练稳定性。
关键创新:T$^2$PO的关键创新在于其不确定性感知的探索控制机制。与传统的探索方法不同,T$^2$PO不是盲目地进行探索,而是根据Agent自身的不确定性来指导探索方向。这种方法可以更有效地发现有价值的动作,并避免无效的探索。此外,在token和turn两个层级上进行控制,使得探索更加精细化。
关键设计:在Token-level,不确定性的度量方式是一个关键设计。论文中可能使用了例如熵、方差等指标来衡量不确定性。阈值的设定也至关重要,需要根据具体任务进行调整。在Turn-level,如何评估探索进展也是一个关键问题,可能使用了例如信息增益、奖励变化等指标。重新采样的策略也需要仔细设计,以避免引入偏差。
🖼️ 关键图片
📊 实验亮点
论文在WebShop、ALFWorld和Search QA等多个benchmark上验证了T$^2$PO的有效性。实验结果表明,T$^2$PO能够显著提升训练的稳定性,并带来性能上的提升。具体的数据提升幅度需要在论文中查找,但摘要中明确说明了“substantial gains in training stability and performance improvements with better exploration efficiency”。
🎯 应用场景
T$^2$PO可应用于各种需要多轮交互的Agent强化学习任务,例如对话系统、游戏AI、机器人导航、任务导向型对话等。该方法能够提升Agent在复杂环境中的学习效率和稳定性,使其能够更好地完成任务,具有广泛的应用前景和实际价值。
📄 摘要(原文)
Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse. We argue that this instability stems from inefficient exploration in multi-turn settings, where policies continue to generate low-information actions that neither reduce uncertainty nor advance task progress. To address this issue, we propose Token- and Turn-level Policy Optimization (T$^2$PO), an uncertainty-aware framework that explicitly controls exploration at fine-grained levels. At the token level, T$^2$PO monitors uncertainty dynamics and triggers a thinking intervention once the marginal uncertainty change falls below a threshold. At the turn level, T$^2$PO identifies interactions with negligible exploration progress and dynamically resamples such turns to avoid wasted rollouts. We evaluate T$^2$PO in diverse environments, including WebShop, ALFWorld, and Search QA, demonstrating substantial gains in training stability and performance improvements with better exploration efficiency. Code is available at: https://github.com/WillDreamer/T2PO.