Internalizing Agency from Reflective Experience
作者: Rui Ge, Yichao Fu, Yuyang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang
分类: cs.AI
发布日期: 2026-03-17
备注: 17 pages, 5 figures; Submitted to ICML 2026
💡 一句话要点
LEAFE:通过反思经验内化行动能力,提升LLM智能体长程任务问题解决能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 智能体 反思学习 环境反馈 长程任务
📋 核心要点
- 现有基于结果的后训练方法未能充分利用环境反馈,导致智能体策略分布锐化,缺乏泛化能力。
- LEAFE框架通过反思经验,将环境反馈提炼为可操作的经验,指导智能体探索替代行动分支。
- 实验表明,LEAFE在交互式编码和智能体任务中,显著提升了Pass@k指标,优于现有基线方法。
📝 摘要(中文)
大型语言模型越来越多地被部署为自主智能体,它们必须通过与环境的长期交互来规划、行动并从错误中恢复。然而,目前流行的以结果为导向的后训练方法(例如,具有可验证奖励的强化学习)主要优化最终的成功信号,而未能充分利用丰富的环境反馈。因此,它们通常导致分布锐化:策略更擅长重现一小部分已经成功的行为,而未能提高解决问题能力所需的、基于反馈的行动能力(例如,Pass@k)。为了解决这个问题,我们提出了LEAFE(Learning Feedback-Grounded Agency from Reflective Experience),这是一个从反思经验中内化恢复行动能力的框架。具体来说,在探索过程中,智能体将环境反馈总结为可操作的经验,回溯到早期的决策点,并探索具有修改后的行动的替代分支。然后,我们通过监督微调将这些经验指导的修正提炼到模型中,使策略能够在未来的交互中更有效地恢复。在固定交互预算下,LEAFE在一组不同的交互式编码和智能体任务中,始终优于基础模型的Pass@1,并且实现了比以结果为导向的基线(GRPO)和基于经验的方法(如Early Experience)更高的Pass@k,Pass@128的增益高达14%。
🔬 方法详解
问题定义:现有的大型语言模型智能体在长程任务中,难以有效利用环境反馈进行自我纠正和策略改进。它们过度依赖已成功的行为模式,缺乏探索和适应新情况的能力,导致解决问题能力受限。
核心思路:LEAFE的核心在于让智能体从自身的反思经验中学习,特别是从失败的经验中提取有价值的信息。通过将环境反馈转化为可操作的指导,智能体可以回溯到之前的决策点,并尝试不同的行动,从而提高其恢复能力和泛化能力。
技术框架:LEAFE框架包含以下几个主要阶段:1) 探索阶段:智能体与环境交互,收集经验并记录环境反馈。2) 反思阶段:智能体分析环境反馈,总结出可操作的经验,例如哪些行动导致了失败,以及应该如何改进。3) 回溯与探索阶段:智能体回溯到之前的决策点,并根据反思阶段得到的经验,尝试不同的行动。4) 提炼阶段:通过监督微调,将这些经验指导的修正提炼到模型中,使策略能够在未来的交互中更有效地恢复。
关键创新:LEAFE的关键创新在于其反思学习机制,它允许智能体从自身的经验中学习,并将其转化为可操作的指导。这与传统的强化学习方法不同,后者主要依赖于奖励信号来指导学习,而忽略了丰富的环境反馈。
关键设计:LEAFE使用监督微调来将反思经验提炼到模型中。具体的损失函数和网络结构细节在论文中可能没有详细说明,属于未知信息。关键在于如何有效地将环境反馈编码为可操作的经验,并将其融入到模型的学习过程中。
🖼️ 关键图片
📊 实验亮点
LEAFE在交互式编码和智能体任务中取得了显著的性能提升。在Pass@1指标上,LEAFE优于基础模型。更重要的是,LEAFE在Pass@k(k=128)指标上,比以结果为导向的基线方法GRPO和基于经验的方法Early Experience提高了高达14%。这些结果表明,LEAFE能够有效地提高智能体的解决问题能力和泛化能力。
🎯 应用场景
LEAFE框架具有广泛的应用前景,可以应用于各种需要智能体与环境进行长期交互的任务,例如机器人控制、游戏AI、自动驾驶、代码生成等。通过提高智能体的自我纠正和适应能力,LEAFE可以帮助智能体更好地完成复杂任务,并提高其在现实世界中的实用性。
📄 摘要(原文)
Large language models are increasingly deployed as autonomous agents that must plan, act, and recover from mistakes through long-horizon interaction with environments that provide rich feedback. However, prevailing outcome-driven post-training methods (e.g., RL with verifiable rewards) primarily optimize final success signals, leaving rich environment feedback underutilized. Consequently, they often lead to distribution sharpening: the policy becomes better at reproducing a narrow set of already-successful behaviors, while failing to improve the feedback-grounded agency needed to expand problem-solving capacity (e.g., Pass@k) in long-horizon settings. To address this, we propose LEAFE (Learning Feedback-Grounded Agency from Reflective Experience), a framework that internalizes recovery agency from reflective experience. Specifically, during exploration, the agent summarizes environment feedback into actionable experience, backtracks to earlier decision points, and explores alternative branches with revised actions. We then distill these experience-guided corrections into the model through supervised fine-tuning, enabling the policy to recover more effectively in future interactions. Across a diverse set of interactive coding and agentic tasks under fixed interaction budgets, LEAFE consistently improves Pass@1 over the base model and achieves higher Pass@k than outcome-driven baselines (GRPO) and experience-based methods such as Early Experience, with gains of up to 14% on Pass@128.