GAP: Geometric Anchor Pre-training for Data-Efficient Visuomotor Learning of Manipulation Tasks

📄 arXiv: 2605.15836v1 📥 PDF

作者: Davide Buoso, Andrea Protopapa, Stefano Di Carlo, Francesca Pistilli, Giuseppe Averta

分类: cs.RO, cs.AI

发布日期: 2026-05-15

备注: Project webpage at https://lambdavi.github.io/gap


💡 一句话要点

GAP:用于操作任务数据高效视觉运动学习的几何锚点预训练

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉运动学习 机器人操作 几何锚点 预训练 数据高效 模仿学习 领域自适应

📋 核心要点

  1. 现有视觉运动学习方法在数据稀缺时易过拟合,难以从高维RGB图像中提取控制相关的几何信息。
  2. GAP通过在模拟环境中预训练空间适配器,使其学习生成稳定的几何锚点,从而提供可靠的坐标接口。
  3. 实验表明,GAP在数据稀缺和领域转移情况下,显著提升了RoboMimic和ManiSkill等任务的成功率。

📝 摘要(中文)

从稀缺的专家演示中学习视觉运动策略仍然是机器人操作的核心挑战。主要的障碍在于将高维RGB表示提炼成与控制相关的几何信息,同时避免过拟合。虽然使用冻结的预训练视觉基础模型(VFMs)提高了数据效率,但也将大部分任务适应转移到小型空间池化模块上,这可能导致其抓住与任务无关的捷径,并在少量数据样本的微调中失去几何基础。更广泛地说,用于策略学习的预训练视觉表示即使在轻微的场景扰动下也表现不佳,突出了对面向鲁棒性的归纳偏置的需求。我们提出了几何锚点预训练(GAP),这是一个简单的、无动作的预热阶段,可以在下游模仿学习之前对空间适配器进行正则化。GAP在一个轻量级的模拟代理任务上预训练池化层,在该任务中,对象掩码可以免费获得,从而鼓励适配器生成位于对象上、覆盖其空间范围并在时间上保持清晰和可重复的关键点。这产生了稳定的几何锚点,为少样本策略学习提供了一个可靠的坐标接口,同时保持VFM冻结。我们在RoboMimic和ManiSkill上,在严重的数据稀缺(15-50个演示)和领域转移下评估GAP。一个用GAP正则化的简单适配器始终优于更强的基于注意力的池化器和端到端微调,在15个演示的RoboMimic Can上实现了62%的成功率(比AFA高+16%),在50个演示的长时程高精度Tool Hang任务上实现了63%的成功率,在30个演示的ManiSkill StackCube上实现了61%的成功率(比完全微调高+11%)。代理阶段是轻量级的,并且与下游任务完全分离,使其可以在环境和操作技能中重复使用。

🔬 方法详解

问题定义:论文旨在解决在数据稀缺情况下,机器人操作任务中视觉运动策略学习的过拟合问题。现有方法,特别是依赖预训练视觉基础模型(VFM)的方法,在微调时容易抓住与任务无关的捷径,失去几何基础,导致泛化能力差。即使是轻微的场景扰动也会导致性能下降。

核心思路:论文的核心思路是引入一个几何锚点预训练(GAP)阶段,在下游模仿学习之前,对空间适配器进行正则化。通过在模拟环境中学习生成稳定的、位于对象上的几何锚点,为策略学习提供一个可靠的坐标接口,从而提高数据效率和鲁棒性。

技术框架:GAP方法包含两个主要阶段:1) 几何锚点预训练阶段:使用轻量级的模拟环境,其中对象掩码是已知的,预训练空间适配器,使其学习生成位于对象上的关键点。2) 下游模仿学习阶段:使用预训练的适配器,结合冻结的VFM,进行模仿学习,训练机器人策略。整体流程是先通过GAP进行预热,再进行下游任务的微调。

关键创新:GAP的关键创新在于引入了一个与下游任务解耦的、无动作的预训练阶段,专注于学习几何表示。与直接微调整个网络或使用复杂的注意力机制相比,GAP通过简单的正则化方法,有效地提高了数据效率和鲁棒性。这种方法避免了过拟合,并确保了学习到的表示具有良好的几何基础。

关键设计:GAP的关键设计包括:1) 使用模拟环境进行预训练,利用对象掩码作为监督信号。2) 设计损失函数,鼓励适配器生成位于对象上、覆盖其空间范围并在时间上保持清晰和可重复的关键点。3) 保持VFM冻结,只训练空间适配器,减少了需要学习的参数量,提高了数据效率。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAP方法在数据稀缺的情况下显著优于其他方法。例如,在RoboMimic Can任务中,仅使用15个演示,GAP就实现了62%的成功率,比AFA高出16%。在ManiSkill StackCube任务中,使用30个演示,GAP实现了61%的成功率,比完全微调高出11%。这些结果表明GAP在数据效率和泛化能力方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,尤其是在数据收集成本高昂或难以获取大量真实数据的场景下。例如,在医疗机器人、家庭服务机器人和工业自动化等领域,可以利用GAP方法提高机器人的学习效率和适应能力,使其能够更好地完成复杂的操作任务。

📄 摘要(原文)

Learning visuomotor policies from scarce expert demonstrations remains a core challenge in robotic manipulation. A primary hurdle lies in distilling high-dimensional RGB representations into control-relevant geometry without overfitting. While using frozen pre-trained Vision Foundation Models (VFMs) improves data efficiency, it also shifts most task adaptation onto a small spatial pooling module, which can latch onto task-irrelevant shortcuts and lose geometric grounding when finetuned with few data samples. More broadly, pre-trained visual representations used for policy learning have been observed to struggle under even minor scene perturbations, highlighting the need for robustness-oriented inductive biases. We propose Geometric Anchor Pre-training (GAP), a simple, action-free warm-up stage that regularizes the spatial adapter before downstream imitation learning. GAP pre-trains the pooling layer on a lightweight simulated proxy task where object masks are available at no cost, encouraging the adapter to produce keypoints that lie on the object, cover its spatial extent, and remain sharp and repeatable over time. This yields stable geometric anchors that provide a reliable coordinate interface for few-shot policy learning, while keeping the VFM frozen. We evaluate GAP on RoboMimic and ManiSkill under severe data scarcity (15-50 demonstrations) and domain shift. A simple adapter regularized with GAP consistently outperforms stronger attention-based poolers and end-to-end fine-tuning, achieving 62% success on RoboMimic Can with 15 demonstrations (+16% over AFA), 63% on the long-horizon high-precision Tool Hang task with 50 demonstrations, and 61% on ManiSkill StackCube with 30 demonstrations (+11% over full fine-tuning). The proxy stage is lightweight and fully decoupled from downstream tasks, making it practical to reuse across environments and manipulation skills.