Skill Reuse as Compression in Agentic RL
作者: Zhikun Xu, Yu Feng, Jacob Dineen, Taiwei Shi, Jieyu Zhao, Ben Zhou
分类: cs.LG, cs.AI
发布日期: 2026-05-29
备注: Work in progress
💡 一句话要点
提出ReuseRL,通过技能复用压缩提升Agentic RL的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 技能复用 泛化能力 最小描述长度 Agentic RL
📋 核心要点
- 现有Agentic RL智能体易学到特定任务捷径,泛化能力差。
- ReuseRL通过技能复用压缩轨迹,鼓励智能体学习可复用的抽象模式。
- 实验表明,ReuseRL在多个任务中,提升了分布内和分布外的成功率。
📝 摘要(中文)
本文提出了一种名为ReuseRL的方法,旨在解决强化学习训练的大型语言模型智能体容易学习到脆弱的、特定于任务的捷径的问题。作者假设,当智能体的成功轨迹能够被结构化压缩,分解为少量可复用的抽象模式时,智能体能够更好地泛化。ReuseRL基于最小描述长度(MDL)原则,从成功轨迹中提取共享的技能字典,并通过分割代价增强强化学习目标,显式惩罚编码不良的特殊行为。作者证明了这种压缩惩罚的PAC-Bayes泛化界限。在ALFWorld、TextWorld-Cooking和Countdown-Stepwise等任务上的实验表明,ReuseRL在分布内和分布外成功率方面均优于vanilla GRPO和强大的回合长度基线。
🔬 方法详解
问题定义:现有的基于强化学习训练的大型语言模型智能体,通常会学习到一些脆弱的、特定于任务的捷径。这些捷径虽然在训练环境中表现良好,但在面对新的、未知的环境时,泛化能力较差。因此,如何提升Agentic RL智能体的泛化能力是一个重要的研究问题。
核心思路:论文的核心思路是,如果智能体的成功轨迹能够被压缩成少量可复用的抽象模式(即技能),那么智能体就能更好地泛化。这是因为可复用的技能代表了更通用的知识,而不是特定于某个环境的捷径。因此,论文的目标是鼓励智能体学习和复用这些技能。
技术框架:ReuseRL的技术框架主要包含以下几个步骤:1) 从智能体的成功轨迹中提取共享的技能字典。2) 使用这个技能字典来分割智能体的轨迹,将轨迹分解成一系列技能的组合。3) 在强化学习目标中增加一个分割代价,用于惩罚那些难以用技能字典表示的特殊行为。这个分割代价基于最小描述长度(MDL)原则,鼓励智能体学习更简洁、更可压缩的轨迹。整体上,ReuseRL是在标准的强化学习框架上增加了一个正则化项,引导智能体学习更具泛化性的策略。
关键创新:ReuseRL的关键创新在于将技能复用和压缩的思想引入到Agentic RL中,并将其形式化为最小描述长度(MDL)原则。通过显式地惩罚那些难以用技能字典表示的特殊行为,ReuseRL鼓励智能体学习更通用的、可复用的技能。此外,论文还证明了这种压缩惩罚的PAC-Bayes泛化界限,为该方法的有效性提供了理论支持。
关键设计:ReuseRL的关键设计包括:1) 技能字典的构建方式:论文使用聚类算法从成功轨迹中提取技能。2) 分割代价的计算方式:分割代价基于轨迹的描述长度,描述长度越短,代价越小。3) 强化学习目标的整合方式:分割代价被添加到标准的强化学习目标中,作为一个正则化项。具体的损失函数形式未知,需要查阅论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReuseRL在ALFWorld、TextWorld-Cooking和Countdown-Stepwise等任务上,显著提升了智能体的泛化能力。具体来说,ReuseRL在分布内和分布外的成功率方面均优于vanilla GRPO和强大的回合长度基线。这些结果表明,通过技能复用和压缩,可以有效地提升Agentic RL智能体的泛化能力。具体的性能提升数据未知,需要查阅论文原文。
🎯 应用场景
ReuseRL的潜在应用领域包括:机器人控制、游戏AI、自然语言处理等。通过提升智能体的泛化能力,ReuseRL可以使智能体在更复杂、更真实的环境中更好地工作。例如,在机器人控制领域,ReuseRL可以帮助机器人学习更通用的运动技能,从而适应不同的任务和环境。在游戏AI领域,ReuseRL可以帮助AI智能体学习更智能的策略,从而在游戏中取得更好的表现。未来,该方法可能被应用于开发更智能、更可靠的自主系统。
📄 摘要(原文)
Large language model agents trained with reinforcement learning (RL) often learn brittle, task-specific shortcuts. We hypothesize that agents generalize better when their successful trajectories are structurally compressible, decomposed into a small set of reusable abstract patterns. To formalize this, we introduce ReuseRL, which grounds agentic RL in the Minimum Description Length (MDL) principle. ReuseRL extracts a shared skill dictionary from successful trajectories and augments the RL objective with a segmentation cost, explicitly penalizing idiosyncratic behaviors that encode poorly. We prove a PAC-Bayes generalization bound for this compression penalty. Across ALFWorld, TextWorld-Cooking, and Countdown-Stepwise, ReuseRL improves in- and out-of-distribution success over vanilla GRPO and strong round-length baselines.