RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback
作者: Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao
分类: cs.AI
发布日期: 2026-03-09
备注: 45 pages
💡 一句话要点
RetroAgent:通过回顾式双重内在反馈,实现LLM智能体从问题解决到持续进化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 智能体 内在动机 经验回放
📋 核心要点
- 现有基于LLM的智能体训练方法侧重于静态问题解决,缺乏持续适应能力,易收敛到次优策略。
- RetroAgent通过回顾式自反思机制,产生数值型和语言型双重内在反馈,促进智能体的探索和经验学习。
- 实验表明,RetroAgent在多个任务上显著优于现有方法,并在分布外场景中表现出良好的泛化能力。
📝 摘要(中文)
本文提出了一种名为RetroAgent的在线强化学习框架,旨在使智能体不仅能解决复杂交互环境中的问题,还能不断进化。RetroAgent的核心是回顾式自反思机制,该机制产生双重内在反馈:一是数值型内在反馈,用于跟踪相对于先前尝试的子任务完成增量,奖励有希望的探索;二是语言型内在反馈,将可重用的经验提炼到记忆缓冲区中,并通过提出的相似性与效用感知上置信界限(SimUtil-UCB)策略进行检索,该策略平衡了相关性、效用和探索,从而有效地利用过去的经验。在四个具有挑战性的智能体任务上,对两个模型家族进行了广泛的实验,结果表明RetroAgent显著优于现有方法,取得了最先进的结果,例如,在ALFWorld上超过GRPO训练的智能体+18.3%,在WebShop上+15.4%,在Sokoban上+27.1%,在MineSweeper上+8.9%,同时表现出强大的测试时适应性和对分布外场景的泛化能力。
🔬 方法详解
问题定义:现有基于大型语言模型(LLM)的智能体在复杂交互任务中表现出潜力,但标准的强化学习范式更倾向于静态问题解决,而非持续适应。智能体常常由于探索不足而收敛到次优策略,并且学习到的知识仍然隐式地存在于参数中,而不是显式地可检索,这限制了有效的经验学习。因此,需要一种方法使智能体不仅能解决问题,还能不断进化,从过去的经验中学习和改进。
核心思路:RetroAgent的核心思路是通过回顾式自反思机制,让智能体从过去的经验中学习。具体来说,它生成双重内在反馈:数值型反馈奖励有希望的探索,语言型反馈将可重用的经验提炼到记忆缓冲区中。通过结合这两种反馈,智能体可以更好地探索环境,并有效地利用过去的经验。
技术框架:RetroAgent是一个在线强化学习框架,其主要流程如下:1. 智能体与环境交互,执行动作并获得奖励。2. 回顾式自反思机制根据智能体的历史经验生成双重内在反馈(数值型和语言型)。3. 智能体利用内在和外在奖励更新策略。4. 语言型反馈被存储到记忆缓冲区中,并通过SimUtil-UCB策略进行检索。SimUtil-UCB策略平衡了相关性、效用和探索,以有效地利用过去的经验。
关键创新:RetroAgent的关键创新在于回顾式双重内在反馈机制。数值型内在反馈鼓励智能体探索新的状态和动作,语言型内在反馈则将有用的经验提炼成可重用的知识。SimUtil-UCB策略则是一种新颖的记忆检索方法,它综合考虑了经验的相关性、效用和探索价值,从而更有效地利用过去的经验。与现有方法相比,RetroAgent不仅关注解决当前问题,更关注智能体的持续进化和学习能力。
关键设计:数值型内在反馈基于子任务完成的增量进行计算,奖励那些能够更快完成子任务的探索。语言型内在反馈通过自反思模块生成,该模块使用LLM将智能体的经验总结成自然语言描述。SimUtil-UCB策略使用余弦相似度来衡量经验的相关性,使用经验的平均奖励来衡量效用,并使用UCB算法来平衡探索和利用。具体的参数设置(例如,记忆缓冲区的大小、UCB算法的探索系数等)需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
RetroAgent在ALFWorld、WebShop、Sokoban和MineSweeper四个具有挑战性的智能体任务上取得了显著的性能提升。例如,在ALFWorld上,RetroAgent超过GRPO训练的智能体18.3%;在WebShop上,超过15.4%;在Sokoban上,超过27.1%;在MineSweeper上,超过8.9%。这些结果表明,RetroAgent能够有效地提高智能体的学习效率和泛化能力。
🎯 应用场景
RetroAgent具有广泛的应用前景,可用于训练智能体在各种复杂交互环境中执行任务,例如机器人导航、游戏AI、自动化客服等。该研究的实际价值在于提高了智能体的学习效率和泛化能力,使其能够更好地适应新的环境和任务。未来,RetroAgent可以进一步扩展到多智能体协作、人机协作等领域。
📄 摘要(原文)
Large language model (LLM)-based agents trained with reinforcement learning (RL) have shown strong potential on complex interactive tasks. However, standard RL paradigms favor static problem-solving over continuous adaptation: agents often converge to suboptimal strategies due to insufficient exploration, while learned knowledge remains implicit within parameters rather than explicitly retrievable, limiting effective experiential learning. To address these limitations, we introduce RetroAgent, an online RL framework that empowers agents to master complex interactive environments not just by solving, but by evolving. Concretely, RetroAgent features a hindsight self-reflection mechanism that produces dual intrinsic feedback: (1) intrinsic numerical feedback that that tracks incremental subtask completion relative to prior attempts, rewarding promising explorations, and (2) intrinsic language feedback that distills reusable lessons into a memory buffer, retrieved via our proposed Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB) strategy balancing relevance, utility, and exploration to effectively leverage past experiences. Extensive experiments on two model families across four challenging agentic tasks demonstrate that RetroAgent significantly outperforms existing methods, achieving state-of-the-art results -- e.g., surpassing Group Relative Policy Optimization (GRPO)-trained agents by +18.3% on ALFWorld, +15.4% on WebShop, +27.1% on Sokoban, and +8.9% on MineSweeper -- while exhibiting strong test-time adaptation and generalization to out-of-distribution scenarios.