Generalizable Hierarchical Skill Learning via Object-Centric Representation

作者: Haibo Zhao, Yu Qi, Boce Hu, Yizhe Zhu, Ziyan Chen, Heng Tian, Xupeng Zhu, Owen Howell, Haojie Huang, Robin Walters, Dian Wang, Robert Platt

分类: cs.RO, cs.AI

发布日期: 2025-10-24

💡 一句话要点

提出基于对象中心表示的通用分层技能学习框架，提升机器人操作泛化性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 分层强化学习 机器人操作 对象中心表示 技能学习 泛化能力 样本效率 基础模型

📋 核心要点

现有机器人操作策略泛化性差，样本效率低，难以适应新的环境和任务。
GSL利用对象中心技能作为桥梁，连接高层视觉语言模型和低层视觉运动策略，实现技能的解耦和复用。
实验表明，GSL在模拟和真实环境中均显著提升了泛化性和样本效率，超越了使用更多数据训练的基线方法。

📝 摘要（中文）

本文提出了一种名为通用分层技能学习（GSL）的新框架，用于分层策略学习，该框架显著提高了机器人操作中的策略泛化性和样本效率。GSL 的核心思想是使用对象中心技能作为连接高层视觉-语言模型和低层视觉-运动策略的接口。具体而言，GSL 使用基础模型将演示分解为可转移的、对象规范化的技能原语，从而确保在对象坐标系中进行高效的低层技能学习。在测试时，高层智能体预测的技能-对象对被输入到低层模块，推断出的规范动作被映射回世界坐标系以供执行。这种结构化但灵活的设计显著提高了我们方法在未见过的空间排列、对象外观和任务组合中的样本效率和泛化能力。在模拟环境中，GSL 仅用每个任务 3 个演示进行训练，在未见过的任务上优于使用 30 倍数据训练的基线 15.5%。在真实世界的实验中，GSL 也超过了使用 10 倍数据训练的基线。

🔬 方法详解

问题定义：现有机器人操作策略在面对新的空间排列、对象外观和任务组合时，泛化能力不足，需要大量的训练数据才能达到较好的性能。这限制了机器人在实际场景中的应用，因为收集大量真实世界的机器人操作数据成本高昂。因此，如何提高机器人操作策略的泛化能力和样本效率是一个关键问题。

核心思路：GSL的核心思路是将复杂的机器人操作任务分解为一系列可复用的、对象中心化的技能原语。通过将技能定义在对象坐标系下，可以消除对象姿态变化带来的影响，从而提高技能的泛化能力。同时，利用高层视觉-语言模型来指导技能的选择和组合，可以实现任务的灵活适应。

技术框架：GSL框架包含三个主要模块：1) 技能分解模块：利用基础模型将演示数据分解为一系列对象中心化的技能原语。2) 高层策略模块：学习一个高层策略，根据当前环境状态选择合适的技能和对象。3) 低层控制模块：将高层策略选择的技能和对象映射到具体的机器人动作，并在世界坐标系中执行。整个流程是，首先通过技能分解模块将训练数据处理成技能原语，然后训练高层策略和低层控制模块，最后在测试时，高层策略选择技能和对象，低层控制模块执行动作。

关键创新：GSL的关键创新在于使用对象中心化的技能表示，以及利用基础模型进行技能分解。对象中心化的技能表示可以提高技能的泛化能力，使其能够适应不同的对象姿态和环境布局。利用基础模型进行技能分解可以从少量演示数据中提取出有效的技能原语，从而提高样本效率。

关键设计：GSL的关键设计包括：1) 使用Transformer网络作为高层策略模型，学习环境状态到技能和对象的映射关系。2) 使用运动基元（Dynamic Movement Primitives, DMPs）作为低层控制器的表示，实现平滑的机器人动作控制。3) 设计合适的损失函数，鼓励高层策略选择正确的技能和对象，并保证低层控制器能够准确执行技能。

🖼️ 关键图片

📊 实验亮点

GSL在模拟环境中仅使用每个任务3个演示进行训练，在未见过的任务上优于使用30倍数据训练的基线15.5%。在真实世界的实验中，GSL也超过了使用10倍数据训练的基线。这些结果表明GSL在泛化性和样本效率方面具有显著优势。

🎯 应用场景

GSL框架可应用于各种机器人操作任务，例如装配、抓取、放置等。该方法能够提高机器人在复杂环境中的适应性和灵活性，降低对大量训练数据的依赖，加速机器人在工业自动化、家庭服务等领域的应用。

📄 摘要（原文）

We present Generalizable Hierarchical Skill Learning (GSL), a novel framework for hierarchical policy learning that significantly improves policy generalization and sample efficiency in robot manipulation. One core idea of GSL is to use object-centric skills as an interface that bridges the high-level vision-language model and the low-level visual-motor policy. Specifically, GSL decomposes demonstrations into transferable and object-canonicalized skill primitives using foundation models, ensuring efficient low-level skill learning in the object frame. At test time, the skill-object pairs predicted by the high-level agent are fed to the low-level module, where the inferred canonical actions are mapped back to the world frame for execution. This structured yet flexible design leads to substantial improvements in sample efficiency and generalization of our method across unseen spatial arrangements, object appearances, and task compositions. In simulation, GSL trained with only 3 demonstrations per task outperforms baselines trained with 30 times more data by 15.5 percent on unseen tasks. In real-world experiments, GSL also surpasses the baseline trained with 10 times more data.

Generalizable Hierarchical Skill Learning via Object-Centric Representation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理