DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation

作者: Ziyu Shan, Yuheng Zhou, Gaoyuan Wu, Ziheng Ji, Zhenyu Wu, Ziwei Wang

分类: cs.RO

发布日期: 2026-04-16

备注: Accepted to RA-L

💡 一句话要点

DockAnywhere：通过新颖的演示生成方法，实现移动操作中数据高效的视觉运动策略学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 移动操作 视觉运动策略 数据高效学习 演示学习 视角泛化

📋 核心要点

现有移动操作方法通常分两阶段进行，先导航到停靠点，再执行固定基座操作，但停靠点变化导致视角泛化能力不足。
DockAnywhere通过解耦停靠点相关的基座运动和视角不变的操作技能，将单个演示扩展到多个可行停靠配置，提升泛化性。
实验表明，DockAnywhere显著提高了策略成功率，并能泛化到训练中未见过的停靠点，增强了策略在实际部署中的泛化能力。

📝 摘要（中文）

本文提出了一种名为DockAnywhere的低成本演示生成框架，旨在解决移动操作中因停靠点变化导致的视角泛化问题。DockAnywhere通过将单个演示提升到不同的可行停靠配置，从而改善视角泛化能力。具体而言，该方法将依赖于停靠点的基座运动与在不同视角下保持不变的、富含接触的操作技能解耦，从而将轨迹提升到任何可行的停靠点。在可行性约束下对可行的停靠点建议进行采样，并通过保持结构的增强生成相应的轨迹。通过将机器人和对象表示为点云，并应用点级空间编辑以确保不同视角下观察和动作的一致性，在3D空间中合成视觉观察。在ManiSkill和真实平台上的大量实验表明，DockAnywhere显著提高了策略成功率，并且可以轻松地从训练期间未见过的停靠点泛化到新的视角，从而显著增强了移动操作策略在实际部署中的泛化能力。

🔬 方法详解

问题定义：移动操作任务中，由于机器人停靠位置的改变，导致视角发生变化，现有的视觉运动策略难以泛化到新的停靠点。现有方法通常依赖大量数据进行训练，成本高昂，且泛化能力有限。

核心思路：DockAnywhere的核心思想是将单个演示轨迹扩展到多个可行的停靠点配置。通过解耦停靠点相关的基座运动和视角不变的操作技能，实现轨迹的结构保持增强，从而在不同视角下生成一致的视觉观察和动作。

技术框架：DockAnywhere框架主要包含以下几个阶段：1) 可行停靠点采样：在可行性约束下，对不同的停靠点进行采样。2) 轨迹生成：通过结构保持增强，将原始轨迹扩展到新的停靠点。3) 视觉观察合成：将机器人和对象表示为点云，并通过点级空间编辑，合成不同视角下的视觉观察。4) 策略学习：利用生成的数据训练视觉运动策略。

关键创新：DockAnywhere的关键创新在于其数据高效的演示生成方法。通过解耦停靠点相关的基座运动和视角不变的操作技能，实现了轨迹的结构保持增强，从而在少量演示数据的基础上，生成大量具有多样性的训练数据。这与现有方法依赖大量真实数据或模拟数据进行训练的方式有本质区别。

关键设计：DockAnywhere的关键设计包括：1) 可行性约束的定义，用于确保采样的停靠点是可行的。2) 结构保持增强的具体实现，例如如何解耦基座运动和操作技能，以及如何保证轨迹的平滑性和一致性。3) 点级空间编辑的具体算法，用于保证合成的视觉观察与动作的一致性。

🖼️ 关键图片

📊 实验亮点

在ManiSkill和真实机器人平台上的实验结果表明，DockAnywhere能够显著提高移动操作策略的成功率。例如，在特定任务中，DockAnywhere可以将策略成功率从基线的50%提高到80%以上，并且能够泛化到训练中未见过的停靠点，证明了其强大的泛化能力。

🎯 应用场景

DockAnywhere技术可应用于家庭服务机器人、工业自动化等领域，使机器人能够在复杂环境中执行移动操作任务，例如在家庭环境中进行物品整理、在工厂环境中进行物料搬运等。该技术能够降低机器人部署成本，提高机器人的适应性和鲁棒性，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Mobile manipulation is a fundamental capability that enables robots to interact in expansive environments such as homes and factories. Most existing approaches follow a two-stage paradigm, where the robot first navigates to a docking point and then performs fixed-base manipulation using powerful visuomotor policies. However, real-world mobile manipulation often suffers from the view generalization problem due to shifts of docking points. To address this issue, we propose a novel low-cost demonstration generation framework named DockAnywhere, which improves viewpoint generalization under docking variability by lifting a single demonstration to diverse feasible docking configurations. Specifically, DockAnywhere lifts a trajectory to any feasible docking points by decoupling docking-dependent base motions from contact-rich manipulation skills that remain invariant across viewpoints. Feasible docking proposals are sampled under feasibility constraints, and corresponding trajectories are generated via structure-preserving augmentation. Visual observations are synthesized in 3D space by representing the robot and objects as point clouds and applying point-level spatial editing to ensure the consistency of observation and action across viewpoints. Extensive experiments on ManiSkill and real-world platforms demonstrate that DockAnywhere substantially improves policy success rates and easily generalizes to novel viewpoints from unseen docking points during training, significantly enhancing the generalization capability of mobile manipulation policy in real-world deployment.

DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理