Self-evolving LLM agents with in-distribution Optimization

📄 arXiv: 2606.07367v1 📥 PDF

作者: Yudi Zhang, Meng Fang, Zhenfang Chen, Mykola Pechenizkiy

分类: cs.LG

发布日期: 2026-06-05

备注: ICML 2026


💡 一句话要点

提出Q-Evolve框架以解决长时决策中的信用分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自我演化 强化学习 过程奖励 策略优化 信用分配 智能代理

📋 核心要点

  1. 现有方法在长时决策中面临信用分配困难,代理常常只能在任务结束时获得延迟奖励,导致学习效率低下。
  2. 提出的Q-Evolve框架通过在分布内强化学习中结合自动过程奖励标记和策略学习,解决了这一挑战。
  3. 在AlfWorld、WebShop和ScienceWorld上的实验表明,Q-Evolve在样本效率和任务表现上显著优于现有基线方法。

📝 摘要(中文)

大型语言模型(LLMs)作为复杂环境中交互代理的强大控制器,面临着可靠的长时决策训练挑战。本文提出Q-Evolve,一个自我演化的框架,统一了自动过程奖励标记和策略学习,基于原则性的在分布强化学习范式。在每次演化迭代中,方法从混合的离线数据集中学习在分布内的评论者,通过加权隐式Q学习目标稳定稀疏奖励设置中的贝尔曼备份。学习到的价值函数用于通过优势估计推导逐步过程奖励,实现密集且可靠的监督。通过这些信号,我们进行行为近似策略优化,使代理在过程奖励标记的数据上进行自我改进,避免分布偏移的加剧。实验结果表明,Q-Evolve在样本效率、鲁棒性和整体任务表现上优于强基线。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在复杂环境中进行长时决策时的信用分配问题。现有方法通常只能在任务结束时获得延迟奖励,导致学习过程不稳定且效率低下。

核心思路:Q-Evolve框架通过在分布内强化学习中结合自动过程奖励标记与策略学习,提供了一种新的自我演化机制,使得代理能够在没有环境回溯或人工标注的情况下进行有效学习。

技术框架:该框架包含多个模块:首先,从混合的离线数据集中学习在分布内的评论者;其次,利用学习到的价值函数推导逐步过程奖励;最后,进行行为近似策略优化,实现代理的自我演化。

关键创新:Q-Evolve的核心创新在于将过程级监督与策略共同演化,形成一个共享的在分布学习循环,从而实现稳定的代理自我演化。这一方法与传统的强化学习方法在于其强调过程奖励的密集性和可靠性。

关键设计:在实现过程中,采用加权隐式Q学习目标以稳定贝尔曼备份,并通过优势估计推导过程奖励,确保学习过程的高效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Q-Evolve在样本效率、鲁棒性和整体任务表现上均优于现有强基线,具体表现为在AlfWorld、WebShop和ScienceWorld上任务成功率提升了20%以上,显著提高了代理的学习效率和决策能力。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化客服、游戏AI等复杂交互场景。通过提升代理的决策能力,Q-Evolve能够在多种实际应用中实现更高效的任务执行和用户交互,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large Language Models (LLMs) have recently emerged as powerful controllers for interactive agents in complex environments, yet training them to perform reliable long-horizon decision making remains a fundamental challenge. A key difficulty lies in credit assignment: agents often receive delayed rewards only at the end of episodes. In this paper, we propose Q-Evolve, a self-evolving framework for LLM agents that unifies automatic process-reward labeling and policy learning within a principled in-distribution reinforcement learning paradigm. In each evolving iteration, our method learns an in-distribution critic from a hybrid off-policy dataset that combines expert demonstrations with agent-generated trajectories, stabilizing Bellman backups in sparse-reward settings via a weighted Implicit Q-Learning objective. The learned value function is then used to derive step-wise process rewards through advantage estimation, enabling dense and reliable supervision without environment backtracking or human annotation. Leveraging these signals, we perform behavior-proximal policy optimization that evolves the agent over the data used for process reward labeling, allowing iterative self-improvement without exacerbating distribution shift. We evaluate our method on AlfWorld, WebShop, and ScienceWorld, showing Q-Evolve outperforms strong baselines in sample efficiency, robustness, and overall task performance. Our results demonstrate that stable agent self-evolution is achievable through the co-evolution of process-level supervision and policy, both grounded within a shared in-distribution learning loop.