Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
作者: Hao-Tien Lewis Chiang, Zhuo Xu, Zipeng Fu, Mithun George Jacob, Tingnan Zhang, Tsang-Wei Edward Lee, Wenhao Yu, Connor Schenck, David Rendleman, Dhruv Shah, Fei Xia, Jasmine Hsu, Jonathan Hoech, Pete Florence, Sean Kirmani, Sumeet Singh, Vikas Sindhwani, Carolina Parada, Chelsea Finn, Peng Xu, Sergey Levine, Jie Tan
分类: cs.RO, cs.AI
发布日期: 2024-07-10 (更新: 2024-07-12)
💡 一句话要点
提出 Mobility VLA,结合长文本 VLM 和拓扑图解决多模态指令导航问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态指令导航 长文本 VLM 拓扑图 分层导航 机器人 视觉语言模型 环境理解
📋 核心要点
- 现有导航方法难以理解多模态指令,尤其是在复杂环境中利用环境先验知识方面存在挑战。
- Mobility VLA 结合长文本 VLM 和拓扑图,利用 VLM 理解指令和环境,拓扑图实现稳健的低层导航。
- 在真实环境中,Mobility VLA 在多模态指令导航任务上取得了显著成功,验证了其有效性。
📝 摘要(中文)
本文研究了多模态指令导航任务(MINT),该任务利用预先录制的演示视频提供环境先验知识。为了解决该问题,我们提出了 Mobility VLA,一种分层的视觉-语言-动作(VLA)导航策略,它结合了长文本 VLM 的环境理解和常识推理能力,以及基于拓扑图的鲁棒的低级导航策略。高级策略使用长文本 VLM,以演示视频和多模态用户指令作为输入,在演示视频中找到目标帧。然后,低级策略使用目标帧和离线构建的拓扑图来生成机器人动作。在 836 平方米的真实环境中评估了 Mobility VLA,结果表明,Mobility VLA 在以前未解决的多模态指令(例如“我应该把这个放回哪里?”同时拿着一个塑料箱)上具有很高的端到端成功率。
🔬 方法详解
问题定义:论文旨在解决多模态指令导航(MINT)问题,即智能体需要理解包含自然语言和图像的多模态指令,并在已知环境(通过演示视频提供)中执行导航任务。现有方法通常难以有效地利用长上下文信息和多模态输入,导致导航性能受限。
核心思路:论文的核心思路是将导航任务分解为高级规划和低级控制两个层次。高级规划利用长文本 VLM 理解多模态指令,并在演示视频中找到与目标相关的帧。低级控制则利用拓扑图进行路径规划和动作生成,确保导航的鲁棒性。这种分层结构能够有效利用 VLM 的推理能力和拓扑图的导航能力。
技术框架:Mobility VLA 的整体架构包含两个主要模块:1) 高级策略模块:使用长文本 VLM,输入包括演示视频和多模态用户指令,输出为演示视频中的目标帧。VLM 通过注意力机制处理长上下文信息,并预测与指令相关的视觉目标。2) 低级策略模块:使用离线构建的拓扑图,输入为目标帧和当前智能体的位置,输出为机器人动作。该模块利用拓扑图进行路径规划,并生成相应的控制指令。
关键创新:论文的关键创新在于将长文本 VLM 应用于多模态指令导航任务,并结合拓扑图实现了鲁棒的导航。与现有方法相比,Mobility VLA 能够更好地理解复杂指令,并有效地利用环境先验知识。此外,分层结构的设计使得系统更易于训练和部署。
关键设计:长文本 VLM 采用 Transformer 架构,并使用大量的视觉-语言数据进行预训练。拓扑图通过离线方式构建,节点表示环境中的关键位置,边表示可通行的路径。低级策略使用强化学习进行训练,目标是最小化导航时间和碰撞风险。具体参数设置和损失函数细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Mobility VLA 在 836 平方米的真实环境中进行了评估,结果表明,该方法在多模态指令导航任务上取得了显著成功。例如,对于“我应该把这个放回哪里?”这类复杂指令,Mobility VLA 能够以较高的成功率完成导航任务。具体的性能数据和对比基线在论文中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于家庭服务机器人、物流机器人、自动驾驶等领域。例如,家庭服务机器人可以根据用户的语音和图像指令,在室内环境中完成物品取放、清洁等任务。物流机器人可以在仓库中根据指令进行货物分拣和搬运。自动驾驶汽车可以根据导航指令,在复杂道路环境中安全行驶。该研究具有重要的实际应用价值和广阔的市场前景。
📄 摘要(原文)
An elusive goal in navigation research is to build an intelligent agent that can understand multimodal instructions including natural language and image, and perform useful navigation. To achieve this, we study a widely useful category of navigation tasks we call Multimodal Instruction Navigation with demonstration Tours (MINT), in which the environment prior is provided through a previously recorded demonstration video. Recent advances in Vision Language Models (VLMs) have shown a promising path in achieving this goal as it demonstrates capabilities in perceiving and reasoning about multimodal inputs. However, VLMs are typically trained to predict textual output and it is an open research question about how to best utilize them in navigation. To solve MINT, we present Mobility VLA, a hierarchical Vision-Language-Action (VLA) navigation policy that combines the environment understanding and common sense reasoning power of long-context VLMs and a robust low-level navigation policy based on topological graphs. The high-level policy consists of a long-context VLM that takes the demonstration tour video and the multimodal user instruction as input to find the goal frame in the tour video. Next, a low-level policy uses the goal frame and an offline constructed topological graph to generate robot actions at every timestep. We evaluated Mobility VLA in a 836m^2 real world environment and show that Mobility VLA has a high end-to-end success rates on previously unsolved multimodal instructions such as "Where should I return this?" while holding a plastic bin. A video demonstrating Mobility VLA can be found here: https://youtu.be/-Tof__Q8_5s