CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

作者: Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully

分类: cs.AI

发布日期: 2026-02-10

备注: Preprint

💡 一句话要点

CODE-SHARP：利用分层奖励程序持续开放地发现和进化技能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放式技能发现 分层奖励程序 基础模型 强化学习 目标条件智能体

📋 核心要点

现有强化学习方法依赖于手工设计的奖励函数，这对于开放式技能发现是不可行的，因为有意义的技能集合事先未知。
CODE-SHARP框架利用基础模型，以开放式的方式扩展和改进分层技能库，该技能库以代码形式组织成可执行奖励函数的有向图。
实验表明，该方法在Craftax环境中，能够使智能体解决更长期的目标，并且在复杂任务上优于预训练智能体和专家策略。

📝 摘要（中文）

本文提出了Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs (CODE-SHARP)框架，旨在解决人工智能领域中智能体开放式发现和学习新技能的难题。该框架利用基础模型(FM)来开放式地扩展和改进分层技能库，该技能库被组织成代码中可执行奖励函数的有向图。实验结果表明，仅基于发现的SHARP技能生成的奖励训练的目标条件智能体，能够解决Craftax环境中越来越长期的目标。通过基于FM的高级规划器组合，发现的技能使单个目标条件智能体能够解决复杂的、长期的任务，平均优于预训练智能体和特定任务的专家策略超过134%。代码和视频将开源。

🔬 方法详解

问题定义：现有强化学习方法在开放式技能发现中面临挑战，因为无法预先定义所有有意义的技能，手工设计奖励函数变得不可行。现有的自动化奖励函数设计方法也仅限于改进预定义任务的奖励，无法实现技能的持续发现和进化。

核心思路：CODE-SHARP的核心思路是利用基础模型（FM）来自动生成和优化奖励函数，并将这些奖励函数组织成一个分层的技能库。通过这种方式，智能体可以不断发现新的技能，并利用这些技能来解决更复杂的任务。该方法将技能表示为代码，使得奖励函数具有可执行性和可组合性。

技术框架：CODE-SHARP框架包含以下几个主要模块：1) 基于基础模型的奖励函数生成器：用于生成新的奖励函数，这些奖励函数以代码的形式表示。2) 技能库：一个有向图，用于存储和组织生成的奖励函数。图中的节点表示奖励函数，边表示技能之间的依赖关系。3) 目标条件智能体：一个强化学习智能体，用于学习如何利用技能库中的奖励函数来解决任务。4) 高级规划器：基于基础模型，用于将复杂任务分解为一系列子目标，并选择合适的技能来完成这些子目标。

关键创新：CODE-SHARP的关键创新在于它能够持续开放地发现和进化技能。与现有方法相比，CODE-SHARP不需要预先定义技能集合，而是通过基础模型自动生成和优化奖励函数。此外，CODE-SHARP将技能表示为代码，使得奖励函数具有可执行性和可组合性，从而可以构建更复杂的技能。

关键设计：论文中使用了Craftax环境进行实验。奖励函数生成器可能使用了某种形式的提示工程或微调，以生成有效的奖励函数。目标条件智能体可能使用了某种形式的深度强化学习算法，例如PPO或DQN。高级规划器可能使用了某种形式的搜索算法或规划算法，例如A*或蒙特卡洛树搜索。具体的参数设置、损失函数和网络结构等技术细节未知，需要参考开源代码。

📊 实验亮点

实验结果表明，CODE-SHARP框架在Craftax环境中能够使智能体解决越来越长期的目标。与预训练智能体和特定任务的专家策略相比，CODE-SHARP框架在解决复杂、长期的任务时，性能平均提高了超过134%。这些结果表明，CODE-SHARP框架能够有效地发现和利用技能，从而提高智能体的性能。

🎯 应用场景

CODE-SHARP框架具有广泛的应用前景，例如机器人自主探索、游戏AI、自动化任务规划等。它可以帮助智能体在复杂环境中自主学习和发现新的技能，从而提高智能体的适应性和解决问题的能力。该研究的潜在价值在于降低了对人工设计的依赖，使得智能体能够更好地适应未知的环境和任务。

📄 摘要（原文）

Developing agents capable of open-endedly discovering and learning novel skills is a grand challenge in Artificial Intelligence. While reinforcement learning offers a powerful framework for training agents to master complex skills, it typically relies on hand-designed reward functions. This is infeasible for open-ended skill discovery, where the set of meaningful skills is not known a priori. While recent methods have shown promising results towards automating reward function design, they remain limited to refining rewards for pre-defined tasks. To address this limitation, we introduce Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs (CODE-SHARP), a novel framework leveraging Foundation Models (FM) to open-endedly expand and refine a hierarchical skill archive, structured as a directed graph of executable reward functions in code. We show that a goal-conditioned agent trained exclusively on the rewards generated by the discovered SHARP skills learns to solve increasingly long-horizon goals in the Craftax environment. When composed by a high-level FM-based planner, the discovered skills enable a single goal-conditioned agent to solve complex, long-horizon tasks, outperforming both pretrained agents and task-specific expert policies by over $134$% on average. We will open-source our code and provide additional videos $\href{https://sites.google.com/view/code-sharp/homepage}{here}$.

CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理