CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning

作者: Tianshi Xu, Yuteng Chen, Meng Li

分类: cs.LG

发布日期: 2026-01-21

💡 一句话要点

CLEANER：自净化轨迹提升Agentic强化学习性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic强化学习 大型语言模型 轨迹净化 自纠错 相似性学习

📋 核心要点

Agentic RL中，小模型常因执行失败产生噪声轨迹，导致信用分配错误，影响策略优化。
CLEANER利用模型自纠错能力，通过相似性感知自适应回滚(SAAR)机制，构建自净化轨迹。
实验表明，CLEANER在多个基准测试中显著提升性能，并能以更少的训练步骤达到SOTA水平。

📝 摘要（中文）

Agentic强化学习(RL)使大型语言模型(LLMs)能够利用Python解释器等工具解决复杂问题。然而，对于参数受限的模型（例如4B-7B），探索阶段经常受到频繁执行失败的困扰，产生噪声轨迹，阻碍策略优化。在标准基于结果的奖励设置下，这种噪声导致了关键的信用分配问题，即错误的动作与成功的结果一起被无意中加强。现有的缓解措施面临两难：密集的奖励通常会触发奖励利用，而过采样会产生过高的计算成本。为了解决这些挑战，我们提出了CLEANER。与外部过滤方法不同，CLEANER利用模型固有的自我纠正能力，在数据收集期间直接消除受错误污染的上下文。其核心是相似性感知自适应回滚(SAAR)机制，通过回顾性地用成功的自我纠正替换失败，自主构建干净的、净化的轨迹。基于语义相似性，SAAR自适应地调节替换粒度，从浅层执行修复到深层推理替换。通过在这些自净化路径上进行训练，模型内化了正确的推理模式，而不是错误恢复循环。在AIME24/25、GPQA和LiveCodeBench上的经验结果表明，平均准确率比基线提高了6%、3%和5%。值得注意的是，CLEANER仅使用三分之一的训练步骤即可达到最先进的性能，突出了轨迹净化作为高效agentic RL的可扩展解决方案。

🔬 方法详解

问题定义：Agentic RL任务中，尤其是对于参数量较小的LLM，在探索过程中容易出现执行错误，产生大量噪声轨迹。这些噪声轨迹会干扰策略学习，导致模型学习到错误的推理模式，或者陷入错误恢复的循环中。现有的方法，如密集奖励容易导致reward hacking，而过采样则计算成本过高。

核心思路：CLEANER的核心思路是利用模型自身的纠错能力，在数据收集阶段主动净化轨迹。通过回顾历史轨迹，识别并替换掉执行失败的部分，从而构建高质量的训练数据。这种方法避免了外部过滤带来的信息损失，也降低了对额外奖励信号的依赖。

技术框架：CLEANER主要包含以下几个阶段：1) 模型执行任务并生成轨迹；2) SAAR机制分析轨迹，识别执行失败的部分；3) SAAR利用模型的自纠错能力，尝试修复失败的部分；4) 如果修复成功，则用修复后的轨迹替换原始轨迹，形成净化后的轨迹；5) 使用净化后的轨迹训练模型。

关键创新：CLEANER的关键创新在于Similarity-Aware Adaptive Rollback (SAAR)机制。SAAR能够根据语义相似性，自适应地调整回滚的粒度。对于简单的执行错误，SAAR可能只需要进行浅层的修复；而对于深层的推理错误，SAAR则需要进行更深层次的替换。这种自适应性使得CLEANER能够更有效地净化轨迹，避免过度干预或修复不足。

关键设计：SAAR机制中的语义相似度计算是关键。论文中使用了预训练的语言模型来计算轨迹片段之间的语义相似度。此外，回滚的粒度也需要仔细调整，以避免破坏轨迹的连贯性。具体的参数设置（如相似度阈值、回滚深度等）需要根据具体的任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLEANER在AIME24/25、GPQA和LiveCodeBench等基准测试中，相比基线方法平均准确率分别提升了6%、3%和5%。更重要的是，CLEANER仅使用三分之一的训练步骤就能够达到与现有SOTA方法相当的性能，显著提高了训练效率，验证了轨迹净化策略的有效性。

🎯 应用场景

CLEANER可应用于各种Agentic RL任务，尤其是在资源受限的环境下，例如移动设备上的智能助手、低功耗机器人等。通过提高训练效率和模型性能，CLEANER能够帮助这些设备更好地完成复杂任务，提升用户体验。此外，该方法也有潜力应用于其他需要高质量训练数据的机器学习任务。

📄 摘要（原文）

Agentic Reinforcement Learning (RL) has empowered Large Language Models (LLMs) to utilize tools like Python interpreters for complex problem-solving. However, for parameter-constrained models (e.g., 4B--7B), the exploration phase is often plagued by frequent execution failures, creating noisy trajectories that hinder policy optimization. Under standard outcome-based reward settings, this noise leads to a critical credit assignment issue, where erroneous actions are inadvertently reinforced alongside successful outcomes. Existing mitigations face a dilemma: dense rewards often trigger reward hacking, while supersampling incurs prohibitive computational costs. To address these challenges, we propose CLEANER. Distinct from external filtering methods, CLEANER exploits the model's intrinsic self-correction capabilities to eliminate error-contaminated context directly during data collection. At its core, the Similarity-Aware Adaptive Rollback (SAAR) mechanism autonomously constructs clean, purified trajectories by retrospectively replacing failures with successful self-corrections. Based on semantic similarity, SAAR adaptively regulates replacement granularity from shallow execution repairs to deep reasoning substitutions. By training on these self-purified paths, the model internalizes correct reasoning patterns rather than error-recovery loops. Empirical results on AIME24/25, GPQA, and LiveCodeBench show average accuracy gains of 6%, 3%, and 5% over baselines. Notably, CLEANER matches state-of-the-art performance using only one-third of the training steps, highlighting trajectory purification as a scalable solution for efficient agentic RL. Our models and code are available at GitHub

CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理