MoTo: A Zero-shot Plug-in Interaction-aware Navigation for General Mobile Manipulation

作者: Zhenyu Wu, Angyuan Ma, Xiuwei Xu, Hang Yin, Yinan Liang, Ziwei Wang, Jiwen Lu, Haibin Yan

分类: cs.RO

发布日期: 2025-09-01

备注: Accepted to CoRL 2025. Project Page: https://gary3410.github.io/MoTo/

💡 一句话要点

MoTo：一种零样本即插即用的交互感知导航方法，用于通用移动操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动操作 零样本学习 视觉语言模型 交互感知导航 机器人运动规划

📋 核心要点

现有移动操作方法泛化性差，缺乏大规模训练，难以适应不同任务和环境。
MoTo是一个即插即用模块，结合操作基础模型，通过交互感知导航实现零样本移动操作。
实验表明，MoTo在OVMM和真实世界中，成功率显著高于现有方法，无需额外训练数据。

📝 摘要（中文）

移动操作是机器人领域的核心挑战，它使机器人能够在各种任务和动态日常环境中协助人类。传统的移动操作方法由于缺乏大规模训练，通常难以在不同的任务和环境中泛化。然而，最近操作基础模型的进展展示了在各种固定基座操作任务上的出色泛化能力，但仍局限于固定设置。因此，我们设计了一个名为MoTo的即插即用模块，它可以与任何现成的操作基础模型相结合，从而赋予它们移动操作能力。具体来说，我们提出了一种交互感知导航策略，用于为通用移动操作生成机器人停靠点。为了实现零样本能力，我们提出了一个交互关键点框架，通过视觉-语言模型（VLM）在多视角一致性下，同时跟踪目标对象和机械臂的指令，从而可以使用固定基座操作基础模型。我们进一步提出了移动底座和机械臂的运动规划目标，以最小化两个关键点之间的距离，并保持轨迹的物理可行性。通过这种方式，MoTo引导机器人移动到可以成功执行固定基座操作的停靠点，并利用VLM生成和轨迹优化来实现零样本的移动操作，而无需任何移动操作专家数据。在OVMM和真实世界的广泛实验结果表明，MoTo的成功率分别比最先进的移动操作方法高2.68%和16.67%，而无需额外的训练数据。

🔬 方法详解

问题定义：论文旨在解决移动操作任务中，现有方法泛化能力不足的问题。现有方法依赖大量特定任务的训练数据，难以适应新的环境和任务。此外，如何有效地利用现有的、在固定基座操作上表现良好的操作基础模型，是另一个挑战。

核心思路：论文的核心思路是利用视觉-语言模型（VLM）的强大泛化能力，结合交互感知导航策略，将移动操作任务分解为导航到合适的停靠点和执行固定基座操作两个步骤。通过这种分解，可以充分利用现有的操作基础模型，并实现零样本的移动操作。

技术框架：MoTo的整体框架包含三个主要模块：1) 交互感知导航：利用VLM生成目标对象和机械臂的交互关键点，并规划移动底座的路径，使其到达合适的停靠点。2) 固定基座操作：在停靠点，利用现有的操作基础模型执行操作任务。3) 运动规划：优化移动底座和机械臂的运动轨迹，以最小化交互关键点之间的距离，并保证轨迹的物理可行性。

关键创新：MoTo的关键创新在于其零样本的即插即用特性。它不需要任何移动操作的专家数据，而是通过VLM和交互感知导航策略，将移动操作任务分解为已解决的子问题。此外，交互关键点框架和运动规划目标的设计，保证了移动操作的成功率和轨迹的物理可行性。

关键设计：交互关键点通过VLM在多视角下生成，保证了一致性。运动规划目标包括最小化交互关键点距离和保持轨迹物理可行性。具体而言，损失函数可能包含关键点距离损失、碰撞避免损失、关节力矩限制等。移动底座的导航策略可能采用强化学习或基于优化的方法。

🖼️ 关键图片

📊 实验亮点

MoTo在OVMM和真实世界实验中取得了显著的成果。在OVMM上，MoTo的成功率比最先进的移动操作方法高2.68%。在真实世界中，MoTo的成功率比最先进的方法高16.67%。这些结果表明，MoTo能够有效地利用现有的操作基础模型，并实现零样本的移动操作。

🎯 应用场景

MoTo具有广泛的应用前景，例如家庭服务机器人、仓库自动化、医疗辅助机器人等。它可以使机器人在各种动态环境中执行复杂的任务，例如取放物品、清洁、组装等。MoTo的零样本特性使其能够快速部署到新的环境和任务中，降低了机器人应用的成本和难度。

📄 摘要（原文）

Mobile manipulation stands as a core challenge in robotics, enabling robots to assist humans across varied tasks and dynamic daily environments. Conventional mobile manipulation approaches often struggle to generalize across different tasks and environments due to the lack of large-scale training. However, recent advances in manipulation foundation models demonstrate impressive generalization capability on a wide range of fixed-base manipulation tasks, which are still limited to a fixed setting. Therefore, we devise a plug-in module named MoTo, which can be combined with any off-the-shelf manipulation foundation model to empower them with mobile manipulation ability. Specifically, we propose an interaction-aware navigation policy to generate robot docking points for generalized mobile manipulation. To enable zero-shot ability, we propose an interaction keypoints framework via vision-language models (VLM) under multi-view consistency for both target object and robotic arm following instructions, where fixed-base manipulation foundation models can be employed. We further propose motion planning objectives for the mobile base and robot arm, which minimize the distance between the two keypoints and maintain the physical feasibility of trajectories. In this way, MoTo guides the robot to move to the docking points where fixed-base manipulation can be successfully performed, and leverages VLM generation and trajectory optimization to achieve mobile manipulation in a zero-shot manner, without any requirement on mobile manipulation expert data. Extensive experimental results on OVMM and real-world demonstrate that MoTo achieves success rates of 2.68% and 16.67% higher than the state-of-the-art mobile manipulation methods, respectively, without requiring additional training data.

MoTo: A Zero-shot Plug-in Interaction-aware Navigation for General Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理