Generalizable Hierarchical Skill Learning via Object-Centric Representation

📄 arXiv: 2510.21121v1 📥 PDF

作者: Haibo Zhao, Yu Qi, Boce Hu, Yizhe Zhu, Ziyan Chen, Heng Tian, Xupeng Zhu, Owen Howell, Haojie Huang, Robin Walters, Dian Wang, Robert Platt

分类: cs.RO, cs.AI

发布日期: 2025-10-24


💡 一句话要点

提出基于对象中心表示的通用分层技能学习框架,提升机器人操作泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分层强化学习 机器人操作 对象中心表示 技能学习 泛化能力

📋 核心要点

  1. 现有机器人操作方法在泛化性和样本效率方面存在不足,难以适应新的环境和任务。
  2. GSL利用对象中心技能作为桥梁,连接高层视觉-语言模型和低层视觉-运动策略,实现技能的解耦和泛化。
  3. 实验表明,GSL在模拟和真实环境中均显著优于现有方法,仅需少量样本即可实现良好的泛化性能。

📝 摘要(中文)

本文提出了一种名为通用分层技能学习(GSL)的新框架,用于分层策略学习,显著提高了机器人操作中的策略泛化性和样本效率。GSL的核心思想是使用对象中心技能作为连接高层视觉-语言模型和低层视觉-运动策略的接口。具体而言,GSL利用基础模型将演示分解为可转移的、对象规范化的技能原语,从而确保在对象坐标系中进行高效的低层技能学习。在测试时,高层智能体预测的技能-对象对被输入到低层模块,推断出的规范动作被映射回世界坐标系以供执行。这种结构化但灵活的设计显著提高了我们方法在未见过的空间排列、对象外观和任务组合中的样本效率和泛化能力。在模拟环境中,GSL仅用每个任务3个演示进行训练,在未见过的任务上优于使用30倍数据训练的基线15.5%。在真实世界的实验中,GSL也超过了使用10倍数据训练的基线。

🔬 方法详解

问题定义:现有机器人操作方法在面对新的空间排列、对象外观和任务组合时,泛化能力较弱,且通常需要大量的训练数据。如何提高机器人操作策略的泛化性和样本效率是一个关键问题。

核心思路:本文的核心思路是将复杂的机器人操作任务分解为一系列可复用的、对象中心化的技能原语。通过在对象坐标系下学习这些技能,可以使其具有更强的泛化能力,从而适应不同的环境和任务。同时,利用高层视觉-语言模型来指导技能的选择和组合,可以进一步提高策略的灵活性和适应性。

技术框架:GSL框架包含两个主要模块:高层策略和低层策略。高层策略负责根据当前环境和任务目标,选择合适的技能和对象。低层策略则负责执行选定的技能,将对象坐标系下的动作映射回世界坐标系,并控制机器人完成相应的操作。整个框架通过对象中心技能作为接口,连接高层和低层策略,实现分层控制。

关键创新:GSL的关键创新在于使用对象中心表示来学习技能。通过将技能定义在对象坐标系下,可以消除对象姿态和环境变化的影响,从而提高技能的泛化能力。此外,GSL还利用基础模型来分解演示数据,提取可转移的技能原语,进一步提高了样本效率。

关键设计:GSL使用Transformer网络作为高层策略,预测技能和对象。低层策略使用神经网络学习对象坐标系下的动作。损失函数包括技能分类损失、动作回归损失和模仿学习损失。具体参数设置和网络结构细节在论文中有详细描述(未知)。

📊 实验亮点

在模拟实验中,GSL仅使用每个任务3个演示进行训练,在未见过的任务上优于使用30倍数据训练的基线15.5%。在真实世界的实验中,GSL也超过了使用10倍数据训练的基线。这些结果表明,GSL在泛化性和样本效率方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人、医疗机器人等。通过提高机器人的泛化能力和样本效率,可以降低机器人的部署成本,使其能够更好地适应复杂多变的环境,完成各种任务。未来,该方法有望扩展到更复杂的任务和场景,例如多机器人协作、人机协作等。

📄 摘要(原文)

We present Generalizable Hierarchical Skill Learning (GSL), a novel framework for hierarchical policy learning that significantly improves policy generalization and sample efficiency in robot manipulation. One core idea of GSL is to use object-centric skills as an interface that bridges the high-level vision-language model and the low-level visual-motor policy. Specifically, GSL decomposes demonstrations into transferable and object-canonicalized skill primitives using foundation models, ensuring efficient low-level skill learning in the object frame. At test time, the skill-object pairs predicted by the high-level agent are fed to the low-level module, where the inferred canonical actions are mapped back to the world frame for execution. This structured yet flexible design leads to substantial improvements in sample efficiency and generalization of our method across unseen spatial arrangements, object appearances, and task compositions. In simulation, GSL trained with only 3 demonstrations per task outperforms baselines trained with 30 times more data by 15.5 percent on unseen tasks. In real-world experiments, GSL also surpasses the baseline trained with 10 times more data.