VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

作者: Mateo Guaman Castro, Sidharth Rajagopal, Daniel Gorbatov, Matt Schmittle, Rohan Baijal, Octi Zhang, Rosario Scalise, Sidharth Talia, Emma Romig, Celso de Melo, Byron Boots, Abhishek Gupta

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-23

💡 一句话要点

VAMOS：用于能力调节和可操纵导航的分层视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人导航 视觉语言动作模型 分层学习 具身智能 Affordance学习

📋 核心要点

现有机器人导航方法难以兼顾环境泛化性和特定机器人的物理约束与能力。
VAMOS通过分层VLA模型解耦语义规划和具身接地，利用通用规划器和专业affordance模型。
实验表明VAMOS在真实世界导航中优于现有方法，并支持跨具身导航和自然语言操纵。

📝 摘要（中文）

机器人导航的一个根本挑战在于学习能够泛化到不同环境的策略，同时符合特定机器人的物理约束和能力（例如，四足机器人可以爬楼梯，但漫游车不行）。我们提出了VAMOS，一个分层的视觉-语言-动作模型，它将语义规划与机器人具体实现解耦：一个通用规划器从多样化的开放世界数据中学习，而一个专业的affordance模型在安全、低成本的仿真环境中学习机器人的物理约束和能力。我们通过精心设计一个接口来实现这种分离，该接口允许高级规划器直接在图像空间中提出候选路径，然后由affordance模型评估和重新排序。我们的真实世界实验表明，VAMOS在室内和复杂的室外导航中都比最先进的基于模型和端到端学习方法实现了更高的成功率。我们还表明，我们的分层设计能够实现跨腿式和轮式机器人的跨具身导航，并且可以使用自然语言轻松操纵。真实世界的消融实验证实，专业模型是具身接地的关键，使单个高级规划器能够部署在物理上不同的轮式和腿式机器人上。最后，该模型显著提高了单机器人可靠性，通过拒绝物理上不可行的计划，实现了3倍更高的成功率。

🔬 方法详解

问题定义：机器人导航需要学习在不同环境中泛化的策略，同时考虑特定机器人的物理限制（例如，轮式机器人不能爬楼梯）。现有方法要么难以泛化，要么难以适应不同类型的机器人。

核心思路：VAMOS的核心思想是将导航任务分解为两个层次：一个通用的语义规划器和一个专业的affordance模型。规划器负责生成高层次的导航路径，而affordance模型负责评估这些路径对于特定机器人的可行性。这种解耦使得模型可以同时学习环境的语义信息和机器人的物理约束。

技术框架：VAMOS包含两个主要模块：1) 通用规划器：该模块从大量的开放世界数据中学习，生成候选导航路径。这些路径以图像空间的形式表示，与具体的机器人无关。2) 专业affordance模型：该模块在仿真环境中学习特定机器人的物理约束和能力。它接收规划器生成的候选路径，并评估这些路径对于该机器人的可行性。然后，affordance模型对候选路径进行重新排序，选择最可行的路径。

关键创新：VAMOS的关键创新在于其分层结构和解耦设计。通过将语义规划和具身接地分离，VAMOS可以同时学习环境的语义信息和机器人的物理约束。此外，VAMOS使用图像空间作为规划器和affordance模型之间的接口，使得模型可以轻松地应用于不同类型的机器人。

关键设计：VAMOS的关键设计包括：1) 使用视觉语言模型（VLM）作为通用规划器，使其能够理解自然语言指令并生成相应的导航路径。2) 使用深度神经网络作为affordance模型，使其能够学习复杂的物理约束和能力。3) 使用强化学习来训练affordance模型，使其能够有效地评估候选路径的可行性。具体的损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

VAMOS在真实世界导航实验中取得了显著的成果。在室内和复杂的室外环境中，VAMOS的成功率高于最先进的基于模型和端到端学习方法。此外，VAMOS还展示了跨具身导航的能力，可以轻松地应用于轮式和腿式机器人。消融实验表明，专业affordance模型是具身接地的关键，可以显著提高单机器人可靠性，实现3倍更高的成功率。

🎯 应用场景

VAMOS具有广泛的应用前景，包括家庭服务机器人、物流机器人、自动驾驶汽车等。它可以帮助机器人在复杂环境中安全、高效地导航，并能够适应不同类型的机器人和环境。此外，VAMOS还可以通过自然语言指令进行控制，使得用户可以更加方便地与机器人进行交互。

📄 摘要（原文）

A fundamental challenge in robot navigation lies in learning policies that generalize across diverse environments while conforming to the unique physical constraints and capabilities of a specific embodiment (e.g., quadrupeds can walk up stairs, but rovers cannot). We propose VAMOS, a hierarchical VLA that decouples semantic planning from embodiment grounding: a generalist planner learns from diverse, open-world data, while a specialist affordance model learns the robot's physical constraints and capabilities in safe, low-cost simulation. We enabled this separation by carefully designing an interface that lets a high-level planner propose candidate paths directly in image space that the affordance model then evaluates and re-ranks. Our real-world experiments show that VAMOS achieves higher success rates in both indoor and complex outdoor navigation than state-of-the-art model-based and end-to-end learning methods. We also show that our hierarchical design enables cross-embodied navigation across legged and wheeled robots and is easily steerable using natural language. Real-world ablations confirm that the specialist model is key to embodiment grounding, enabling a single high-level planner to be deployed across physically distinct wheeled and legged robots. Finally, this model significantly enhances single-robot reliability, achieving 3X higher success rates by rejecting physically infeasible plans. Website: https://vamos-vla.github.io/

VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理