Evolving Programmatic Skill Networks

作者: Haochen Shi, Xingdi Yuan, Bang Liu

分类: cs.AI, cs.NE

发布日期: 2026-01-07

💡 一句话要点

提出程序化技能网络PSN，用于开放环境下的持续技能学习

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 持续学习 技能网络 程序化技能 大型语言模型

📋 核心要点

现有具身智能体在开放环境中持续学习技能时，难以有效构建、优化和复用技能库。
提出程序化技能网络（PSN），利用可执行的符号程序构建技能，并通过经验演化组合网络。
实验表明，PSN在MineDojo和Crafter等环境中表现出强大的技能重用、快速适应和泛化能力。

📝 摘要（中文）

本文研究了开放式具身环境中持续技能获取的问题，其中智能体必须构建、改进和重用不断扩展的可执行技能库。我们引入了程序化技能网络（PSN），这是一个框架，其中技能是可执行的符号程序，形成一个通过经验演化的组合网络。PSN定义了三个通过大型语言模型实例化的核心机制：（1）REFLECT，用于技能组合的结构化故障定位；（2）具有成熟度感知更新门控的渐进式优化，稳定可靠的技能，同时保持不确定技能的可塑性；（3）回滚验证下的规范结构重构，保持网络紧凑性。我们进一步表明，PSN的学习动态表现出与神经网络训练的结构相似性。在MineDojo和Crafter上的实验证明了强大的技能重用、快速适应和跨开放式任务分布的强大泛化能力。

🔬 方法详解

问题定义：现有具身智能体在开放式环境中进行持续技能学习时，面临着技能构建、优化和重用等方面的挑战。传统的强化学习方法难以有效地探索和利用复杂的技能组合，并且缺乏对技能可靠性的评估和维护机制。此外，如何保持技能网络的紧凑性，避免冗余和无效技能的积累也是一个重要问题。

核心思路：PSN的核心思路是将技能表示为可执行的符号程序，并构建一个由这些程序组成的组合网络。通过经验驱动的演化过程，智能体可以不断地构建、改进和重用技能。利用大型语言模型（LLM）的强大能力，PSN能够实现对技能的结构化故障定位、渐进式优化和规范结构重构，从而提高技能的可靠性、适应性和泛化能力。

技术框架：PSN框架包含三个主要模块：REFLECT、渐进式优化和规范结构重构。REFLECT模块负责对技能组合进行结构化故障定位，识别导致失败的技能或技能组合方式。渐进式优化模块根据技能的成熟度（可靠性）进行更新门控，稳定可靠的技能，同时保持不确定技能的可塑性。规范结构重构模块在回滚验证下进行结构重构，保持网络的紧凑性。整个框架通过经验驱动的迭代过程，不断地演化和优化技能网络。

关键创新：PSN的关键创新在于将技能表示为可执行的符号程序，并利用大型语言模型实现对技能的结构化推理和优化。与传统的基于神经网络的技能表示方法相比，符号程序具有更强的可解释性和可操作性，更容易进行故障定位和结构重构。此外，PSN提出的成熟度感知更新门控机制能够有效地平衡技能的稳定性和可塑性，避免灾难性遗忘。

关键设计：PSN使用大型语言模型（LLM）来实例化REFLECT、渐进式优化和规范结构重构等核心机制。具体来说，LLM被用于生成和解析符号程序，进行故障诊断和修复，以及评估技能的成熟度。成熟度感知更新门控机制通过一个可学习的参数来控制技能的更新速率，该参数与技能的可靠性成正比。回滚验证机制通过模拟执行技能并评估其性能来验证结构重构的有效性。

📊 实验亮点

实验结果表明，PSN在MineDojo和Crafter等开放式环境中表现出强大的技能重用、快速适应和泛化能力。与基线方法相比，PSN能够更快地学习新的技能，并且能够更好地适应不同的任务分布。例如，在MineDojo环境中，PSN能够成功地学习一系列复杂的技能，如挖掘矿石、制作工具和建造房屋。

🎯 应用场景

PSN具有广泛的应用前景，例如机器人控制、游戏AI、自动化任务规划等领域。它可以帮助智能体在复杂和动态的环境中自主学习和执行任务，提高其适应性和鲁棒性。此外，PSN的模块化设计和可解释性使得它更容易进行调试和维护，从而降低了开发成本。

📄 摘要（原文）

We study continual skill acquisition in open-ended embodied environments where an agent must construct, refine, and reuse an expanding library of executable skills. We introduce the Programmatic Skill Network (PSN), a framework in which skills are executable symbolic programs forming a compositional network that evolves through experience. PSN defines three core mechanisms instantiated via large language models: (1)REFLECT for structured fault localization over skill compositions, (2) progressive optimization with maturity-aware update gating that stabilizes reliable skills while maintaining plasticity for uncertain ones, and (3) canonical structural refactoring under rollback validation that maintains network compactness. We further show that PSN's learning dynamics exhibit structural parallels to neural network training. Experiments on MineDojo and Crafter demonstrate robust skill reuse, rapid adaptation, and strong generalization across open-ended task distributions.\footnote{We plan to open-source the code.

Evolving Programmatic Skill Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册