Skill Reuse as Compression in Agentic RL

作者: Zhikun Xu, Yu Feng, Jacob Dineen, Taiwei Shi, Jieyu Zhao, Ben Zhou

分类: cs.LG, cs.AI

发布日期: 2026-05-29

备注: Work in progress

💡 一句话要点

提出ReuseRL，通过技能复用压缩提升Agentic RL的泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 技能复用 泛化能力 最小描述长度 Agentic RL

📋 核心要点

现有Agentic RL智能体易学到特定任务捷径，泛化能力差。
ReuseRL通过技能复用压缩轨迹，鼓励智能体学习可复用的抽象模式。
实验表明，ReuseRL在多个任务中，提升了分布内和分布外的成功率。

📝 摘要（中文）

本文提出了一种名为ReuseRL的方法，旨在解决强化学习训练的大型语言模型智能体容易学习到脆弱的、特定于任务的捷径的问题。作者假设，当智能体的成功轨迹能够被结构化压缩，分解为少量可复用的抽象模式时，智能体能够更好地泛化。ReuseRL基于最小描述长度（MDL）原则，从成功轨迹中提取共享的技能字典，并通过分割代价增强强化学习目标，显式惩罚编码不良的特殊行为。作者证明了这种压缩惩罚的PAC-Bayes泛化界限。在ALFWorld、TextWorld-Cooking和Countdown-Stepwise等任务上的实验表明，ReuseRL在分布内和分布外成功率方面均优于vanilla GRPO和强大的回合长度基线。

🔬 方法详解

问题定义：现有的基于强化学习训练的大型语言模型智能体，通常会学习到一些脆弱的、特定于任务的捷径。这些捷径虽然在训练环境中表现良好，但在面对新的、未知的环境时，泛化能力较差。因此，如何提升Agentic RL智能体的泛化能力是一个重要的研究问题。

核心思路：论文的核心思路是，如果智能体的成功轨迹能够被压缩成少量可复用的抽象模式（即技能），那么智能体就能更好地泛化。这是因为可复用的技能代表了更通用的知识，而不是特定于某个环境的捷径。因此，论文的目标是鼓励智能体学习和复用这些技能。

技术框架：ReuseRL的技术框架主要包含以下几个步骤：1) 从智能体的成功轨迹中提取共享的技能字典。2) 使用这个技能字典来分割智能体的轨迹，将轨迹分解成一系列技能的组合。3) 在强化学习目标中增加一个分割代价，用于惩罚那些难以用技能字典表示的特殊行为。这个分割代价基于最小描述长度（MDL）原则，鼓励智能体学习更简洁、更可压缩的轨迹。整体上，ReuseRL是在标准的强化学习框架上增加了一个正则化项，引导智能体学习更具泛化性的策略。

关键创新：ReuseRL的关键创新在于将技能复用和压缩的思想引入到Agentic RL中，并将其形式化为最小描述长度（MDL）原则。通过显式地惩罚那些难以用技能字典表示的特殊行为，ReuseRL鼓励智能体学习更通用的、可复用的技能。此外，论文还证明了这种压缩惩罚的PAC-Bayes泛化界限，为该方法的有效性提供了理论支持。

关键设计：ReuseRL的关键设计包括：1) 技能字典的构建方式：论文使用聚类算法从成功轨迹中提取技能。2) 分割代价的计算方式：分割代价基于轨迹的描述长度，描述长度越短，代价越小。3) 强化学习目标的整合方式：分割代价被添加到标准的强化学习目标中，作为一个正则化项。具体的损失函数形式未知，需要查阅论文原文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReuseRL在ALFWorld、TextWorld-Cooking和Countdown-Stepwise等任务上，显著提升了智能体的泛化能力。具体来说，ReuseRL在分布内和分布外的成功率方面均优于vanilla GRPO和强大的回合长度基线。这些结果表明，通过技能复用和压缩，可以有效地提升Agentic RL智能体的泛化能力。具体的性能提升数据未知，需要查阅论文原文。

🎯 应用场景

ReuseRL的潜在应用领域包括：机器人控制、游戏AI、自然语言处理等。通过提升智能体的泛化能力，ReuseRL可以使智能体在更复杂、更真实的环境中更好地工作。例如，在机器人控制领域，ReuseRL可以帮助机器人学习更通用的运动技能，从而适应不同的任务和环境。在游戏AI领域，ReuseRL可以帮助AI智能体学习更智能的策略，从而在游戏中取得更好的表现。未来，该方法可能被应用于开发更智能、更可靠的自主系统。

📄 摘要（原文）

Large language model agents trained with reinforcement learning (RL) often learn brittle, task-specific shortcuts. We hypothesize that agents generalize better when their successful trajectories are structurally compressible, decomposed into a small set of reusable abstract patterns. To formalize this, we introduce ReuseRL, which grounds agentic RL in the Minimum Description Length (MDL) principle. ReuseRL extracts a shared skill dictionary from successful trajectories and augments the RL objective with a segmentation cost, explicitly penalizing idiosyncratic behaviors that encode poorly. We prove a PAC-Bayes generalization bound for this compression penalty. Across ALFWorld, TextWorld-Cooking, and Countdown-Stepwise, ReuseRL improves in- and out-of-distribution success over vanilla GRPO and strong round-length baselines.

Skill Reuse as Compression in Agentic RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理