Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
作者: Jiapeng Zhu, Jianxiang Yu, Yibo Zhao, Chengcheng Han, Qi Gu, Xunliang Cai, Xiang Li, Weining Qian
分类: cs.CL
发布日期: 2026-05-27
💡 一句话要点
Skill0.5:结合技能内化与利用,提升Agentic强化学习的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 技能学习 泛化能力 Agentic RL 技能内化 技能利用 难度感知 特权蒸馏
📋 核心要点
- 现有基于技能的强化学习方法面临技能完全外部化和完全内部化的两难选择,前者开销大,后者易过拟合。
- Skill0.5框架通过动态难度感知路由,区分通用技能内化和任务特定技能利用,优化技能处理方式。
- 实验表明,Skill0.5在ALFWorld和WebShop等任务上,显著提升了Agent在同分布和异分布场景下的性能。
📝 摘要(中文)
本文提出Skill0.5,一种新颖的Agentic强化学习框架,旨在通过结合通用技能内化和任务特定技能利用来显式区分技能处理方式,从而解决现有基于技能的强化学习方法在完全外部化(上下文开销大)和完全内部化(易过拟合和知识冲突)之间的两难选择。Skill0.5由一个动态的、难度感知的路由器驱动,将任务分流到不同的掌握层级,以应用定制的优化策略:通过特权蒸馏内化通用技能,为困难任务构建认知基础;在简单任务上使用诊断探测来惩罚捷径,并强制执行特定技能的利用。在ALFWorld和WebShop上的实验表明,Skill0.5优于基于记忆和基于技能的强化学习基线,在同分布和异分布场景下均实现了性能提升。
🔬 方法详解
问题定义:现有基于技能的强化学习方法,要么将所有技能完全外部化,导致上下文信息冗余,计算开销大;要么将所有技能完全内部化,容易导致过拟合,并且不同技能之间可能存在知识冲突。因此,如何有效地利用和管理技能,提升智能体在复杂任务中的泛化能力,是一个亟待解决的问题。
核心思路:Skill0.5的核心思路是将技能分为通用技能和任务特定技能,并采用不同的处理方式。对于通用技能,通过内化的方式,构建智能体的认知基础,提升其解决困难任务的能力。对于任务特定技能,则通过利用的方式,强制智能体学习和使用这些技能,避免走捷径。这种区分处理的方式,可以有效地平衡技能的利用效率和泛化能力。
技术框架:Skill0.5框架包含三个主要模块:难度感知路由器、技能内化模块和技能利用模块。难度感知路由器根据任务的难度,将任务分流到不同的掌握层级。对于困难任务,使用技能内化模块,通过特权蒸馏的方式,将通用技能内化到智能体中。对于简单任务,使用技能利用模块,通过诊断探测的方式,惩罚智能体走捷径的行为,并强制其利用特定的技能。
关键创新:Skill0.5的关键创新在于提出了一个动态的、难度感知的路由器,可以根据任务的难度,自适应地调整技能的处理方式。这种自适应的处理方式,可以有效地平衡技能的利用效率和泛化能力。此外,Skill0.5还采用了特权蒸馏和诊断探测等技术,进一步提升了技能内化和利用的效果。
关键设计:难度感知路由器使用一个分类器来预测任务的难度,分类器的输入是任务的描述和智能体的状态。技能内化模块使用一个教师网络来提供特权信息,指导学生网络学习通用技能。诊断探测模块通过添加额外的损失函数,惩罚智能体不使用特定技能的行为。具体的损失函数设计和网络结构选择,需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
在ALFWorld和WebShop等任务上的实验结果表明,Skill0.5显著优于现有的基于记忆和基于技能的强化学习基线。例如,在ALFWorld的异分布场景下,Skill0.5的性能提升了10%以上。这些实验结果证明了Skill0.5框架的有效性和优越性,表明其在提升智能体泛化能力方面具有显著优势。
🎯 应用场景
Skill0.5框架具有广泛的应用前景,可以应用于各种需要智能体具备复杂技能的任务中,例如机器人控制、游戏AI、自动驾驶等。通过有效地管理和利用技能,Skill0.5可以提升智能体在复杂环境中的适应性和泛化能力,从而实现更智能、更可靠的自动化系统。该研究对于推动通用人工智能的发展具有重要意义。
📄 摘要(原文)
Equipping large language models with explicit skills has emerged as a promising paradigm for enabling autonomous agents to solve complex tasks. Agent skills can be inherently divided into general skills for broad cognitive transfer and task-specific skills for dynamic execution. However, existing skill-based reinforcement learning (RL) methods typically force a rigid choice between full externalization, which incurs prohibitive context overhead, and full internalization, which risks overfitting and knowledge conflicts. To address this dilemma, we propose Skill0.5, a novel agentic RL framework that explicitly differentiates skill treatments by combining general skill internalization with task-specific skill utilization. Driven by a dynamic, difficulty-aware router, Skill0.5 streams tasks into distinct mastery tiers to apply tailored optimization strategies: it internalizes general skills via privileged distillation to build a cognitive foundation for hard tasks, while using diagnostic probing on easy tasks to penalize shortcuts and enforce specific skill utilization. Experiments on ALFWorld and WebShop demonstrate that Skill0.5 outperforms both memory-based and skill-based RL baselines, yielding performance improvements across both in-distribution and out-of-distribution scenarios.