Zero-Shot Vision-and-Language Navigation with Collision Mitigation in Continuous Environment

📄 arXiv: 2410.17267v1 📥 PDF

作者: Seongjun Jeong, Gi-Cheon Kang, Joochan Kim, Byoung-Tak Zhang

分类: cs.CV, cs.AI

发布日期: 2024-10-07


💡 一句话要点

提出VLN-CM零样本视觉语言导航方法,解决连续环境中的碰撞问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 碰撞缓解 大型语言模型 深度学习

📋 核心要点

  1. 现有视觉语言导航方法在连续环境中易发生碰撞,且缺乏零样本泛化能力。
  2. VLN-CM利用大型语言模型和视觉模型,通过注意力点预测和开放地图预测实现导航和避障。
  3. 实验表明,VLN-CM在VLN-CE数据集上优于基线方法,并有效降低了智能体的碰撞。

📝 摘要(中文)

本文提出了一种零样本视觉语言导航与碰撞缓解方法(VLN-CM)。VLN-CM由四个模块组成,用于预测每一步的移动方向和距离。我们为每个模块都使用了大型基础模型。在方向选择上,我们使用注意力点预测器(ASP)、视图选择器(VS)和进度监控器(PM)。ASP采用大型语言模型(如ChatGPT)将导航指令分解为注意力点,这些注意力点是要移动到的位置的对象或场景(例如,一扇黄色的门)。VS使用CLIP相似度从以30度间隔提供的全景图像中选择包含注意力点的图像。然后,我们选择所选图像的角度作为移动方向。PM使用基于规则的方法来决定接下来关注哪个注意力点。如果当前注意力点与视觉观察之间的相似度在每一步连续降低,PM将确定智能体已经通过了当前点,并移动到下一个点。在距离选择上,我们采用了开放地图预测器(OMP)。OMP使用全景深度信息来预测占据掩码。然后,我们根据占据掩码在预测的方向上选择无碰撞距离。我们使用VLN-CE的验证数据评估了我们的方法。我们的方法显示出比几种基线方法更好的性能,并且OPM有效地缓解了智能体的碰撞。

🔬 方法详解

问题定义:现有的视觉语言导航(VLN)方法在连续环境中,尤其是在零样本设置下,容易发生碰撞,并且难以有效地利用语言指令进行导航。这些方法通常依赖于大量的训练数据,并且在面对新的环境时泛化能力较差。因此,需要一种能够在连续环境中安全导航,并且能够利用语言指令进行有效引导的零样本VLN方法。

核心思路:本文的核心思路是利用大型语言模型(LLM)理解导航指令,并将其分解为一系列的“注意力点”(Attention Spots),这些注意力点是环境中agent需要关注的关键对象或场景。然后,通过视觉模型识别这些注意力点,并结合深度信息预测可安全移动的距离,从而实现导航和避障。这种方法的核心在于将复杂的导航任务分解为一系列更简单的子任务,并利用预训练模型的强大能力来解决这些子任务。

技术框架:VLN-CM由四个主要模块组成:注意力点预测器(ASP)、视图选择器(VS)、进度监控器(PM)和开放地图预测器(OMP)。ASP使用LLM(如ChatGPT)将导航指令分解为注意力点。VS使用CLIP模型从全景图像中选择包含注意力点的视图。PM使用规则来决定下一步要关注哪个注意力点。OMP使用深度信息预测占据掩码,并选择无碰撞的移动距离。整体流程是:首先,ASP根据指令生成注意力点;然后,VS选择包含注意力点的视图,确定移动方向;接着,OMP预测可安全移动的距离;最后,PM监控导航进度,决定是否切换到下一个注意力点。

关键创新:该方法的主要创新点在于:1) 利用LLM将导航指令分解为注意力点,从而更好地利用语言信息进行导航。2) 提出开放地图预测器(OMP),利用深度信息预测占据掩码,从而实现碰撞缓解。3) 结合注意力点和深度信息,实现了一种零样本的连续环境导航方法。与现有方法相比,该方法不需要大量的训练数据,并且能够更好地泛化到新的环境。

关键设计:ASP使用ChatGPT等LLM,通过prompt工程将导航指令分解为注意力点。VS使用CLIP模型计算全景图像和注意力点之间的相似度,选择相似度最高的视图。PM使用基于规则的方法,例如,如果当前注意力点与视觉观察之间的相似度连续降低,则切换到下一个注意力点。OMP使用全景深度信息训练一个神经网络,预测占据掩码。在选择移动距离时,OMP会选择在预测方向上,占据掩码显示为空闲空间的最远距离。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,VLN-CM在VLN-CE数据集的验证集上取得了比基线方法更好的性能。具体来说,VLN-CM在导航成功率和路径长度方面均优于基线方法。此外,OMP模块有效地降低了智能体的碰撞次数,提高了导航的安全性。这些结果表明,VLN-CM是一种有效的零样本视觉语言导航方法。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,可以用于开发智能家居机器人,使其能够根据用户的语音指令在室内环境中自主导航;也可以用于开发自动驾驶系统,使其能够根据导航指令和环境感知信息安全地行驶。此外,该方法还可以应用于虚拟现实游戏中,为玩家提供更加真实的导航体验。

📄 摘要(原文)

We propose the zero-shot Vision-and-Language Navigation with Collision Mitigation (VLN-CM), which takes these considerations. VLN-CM is composed of four modules and predicts the direction and distance of the next movement at each step. We utilize large foundation models for each modules. To select the direction, we use the Attention Spot Predictor (ASP), View Selector (VS), and Progress Monitor (PM). The ASP employs a Large Language Model (e.g. ChatGPT) to split navigation instructions into attention spots, which are objects or scenes at the location to move to (e.g. a yellow door). The VS selects from panorama images provided at 30-degree intervals the one that includes the attention spot, using CLIP similarity. We then choose the angle of the selected image as the direction to move in. The PM uses a rule-based approach to decide which attention spot to focus on next, among multiple spots derived from the instructions. If the similarity between the current attention spot and the visual observations decreases consecutively at each step, the PM determines that the agent has passed the current spot and moves on to the next one. For selecting the distance to move, we employed the Open Map Predictor (OMP). The OMP uses panorama depth information to predict an occupancy mask. We then selected a collision-free distance in the predicted direction based on the occupancy mask. We evaluated our method using the validation data of VLN-CE. Our approach showed better performance than several baseline methods, and the OPM was effective in mitigating collisions for the agent.