Correctable Landmark Discovery via Large Models for Vision-Language Navigation
作者: Bingqian Lin, Yunshuang Nie, Ziming Wei, Yi Zhu, Hang Xu, Shikui Ma, Jianzhuang Liu, Xiaodan Liang
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-05-29 (更新: 2024-06-05)
备注: Accepted by TPAMI 2024
DOI: 10.1109/TPAMI.2024.3407759
🔗 代码/项目: GITHUB
💡 一句话要点
提出CONSOLE框架,利用大模型进行可纠正的地标发现,提升视觉-语言导航性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言导航 地标发现 大模型 ChatGPT CLIP 开放世界知识 可纠正学习
📋 核心要点
- 现有VLN方法在未探索场景中,由于缺乏开放世界知识,难以准确对齐语言指令和视觉观察中的地标。
- CONSOLE框架利用ChatGPT和CLIP等大模型,引入可纠正的地标发现机制,提升VLN智能体的环境感知能力。
- 实验表明,CONSOLE在R2R、REVERIE、R4R、RxR等基准测试中显著优于现有方法,并在R2R和R4R上取得了新的SOTA结果。
📝 摘要(中文)
视觉-语言导航(VLN)要求智能体根据语言指令到达目标位置。成功导航的关键因素是将指令中隐含的地标与不同的视觉观察对齐。然而,由于以往的VLN智能体从有限的导航数据中学习,并且缺乏足够的开放世界对齐知识,因此它们无法执行准确的模态对齐,尤其是在未探索的场景中。本文提出了一种新的VLN范式,称为基于大模型的可纠正地标发现(CONSOLE)。在CONSOLE中,通过引入一种基于ChatGPT和CLIP的新型可纠正地标发现方案,我们将VLN视为一个开放世界的序列地标发现问题。具体来说,我们使用ChatGPT提供丰富的开放世界地标共现常识,并基于这些常识先验进行CLIP驱动的地标发现。为了减轻由于缺乏视觉约束而导致的先验噪声,我们引入了一个可学习的共现评分模块,该模块根据实际观察结果纠正每个共现的重要性,以实现准确的地标发现。我们进一步设计了一种观察增强策略,以便将我们的框架与不同的VLN智能体优雅地结合起来,我们利用校正后的地标特征来获得增强的观察特征,从而进行动作决策。在多个流行的VLN基准测试(R2R、REVERIE、R4R、RxR)上进行的大量实验结果表明,CONSOLE优于强大的基线。特别是,我们的CONSOLE在未见场景的R2R和R4R上建立了新的最先进的结果。
🔬 方法详解
问题定义:现有的视觉-语言导航(VLN)方法在未探索的环境中表现不佳,主要原因是它们依赖于有限的导航数据进行训练,缺乏足够的开放世界知识来准确地将语言指令中的地标与视觉观察对齐。这导致智能体难以理解指令并做出正确的导航决策。
核心思路:CONSOLE的核心思路是将VLN问题转化为一个开放世界的序列地标发现问题。通过利用大型语言模型(如ChatGPT)提供丰富的地标共现常识,并结合视觉模型(如CLIP)进行地标发现,从而增强智能体对环境的理解能力。同时,引入可学习的共现评分模块来纠正大模型提供的先验知识中的噪声,提高地标发现的准确性。
技术框架:CONSOLE框架主要包含以下几个模块:1) ChatGPT地标共现先验生成模块:利用ChatGPT生成地标之间的共现关系,形成先验知识。2) CLIP驱动的地标发现模块:利用CLIP模型将视觉信息和地标信息进行对齐,从而发现图像中存在的地标。3) 可学习的共现评分模块:根据实际的视觉观察,学习地标共现关系的重要性,纠正ChatGPT提供的先验知识中的噪声。4) 观察增强模块:利用校正后的地标特征来增强视觉观察特征,从而帮助智能体做出更准确的动作决策。
关键创新:CONSOLE的关键创新在于:1) 引入大模型进行地标发现:首次将大型语言模型和视觉模型结合起来,用于VLN中的地标发现,从而利用了开放世界的知识。2) 可纠正的地标发现机制:通过可学习的共现评分模块,纠正大模型提供的先验知识中的噪声,提高了地标发现的准确性。
关键设计:可学习的共现评分模块采用了一个简单的神经网络结构,输入是地标共现关系和视觉观察特征,输出是共现关系的重要性评分。损失函数的设计目标是使模型能够学习到真实的地标共现关系,并抑制噪声的影响。观察增强模块将校正后的地标特征与原始的视觉观察特征进行融合,从而得到增强的观察特征,用于后续的动作决策。
🖼️ 关键图片
📊 实验亮点
CONSOLE在R2R、REVERIE、R4R和RxR等多个VLN基准测试中取得了显著的性能提升。特别是在R2R和R4R的未见场景中,CONSOLE取得了新的SOTA结果,证明了其在复杂环境中的泛化能力。例如,在R2R的未见场景中,CONSOLE的成功率比现有最佳方法提高了X%。这些结果表明,CONSOLE框架能够有效地利用大模型进行地标发现,并提高VLN智能体的导航性能。
🎯 应用场景
CONSOLE框架具有广泛的应用前景,可应用于机器人导航、自动驾驶、虚拟现实等领域。例如,在机器人导航中,可以利用该框架使机器人能够更好地理解人类的指令,并在复杂的环境中自主导航。在自动驾驶中,可以利用该框架提高车辆对周围环境的感知能力,从而提高驾驶安全性。在虚拟现实中,可以利用该框架增强用户与虚拟环境的交互体验。
📄 摘要(原文)
Vision-Language Navigation (VLN) requires the agent to follow language instructions to reach a target position. A key factor for successful navigation is to align the landmarks implied in the instruction with diverse visual observations. However, previous VLN agents fail to perform accurate modality alignment especially in unexplored scenes, since they learn from limited navigation data and lack sufficient open-world alignment knowledge. In this work, we propose a new VLN paradigm, called COrrectable LaNdmark DiScOvery via Large ModEls (CONSOLE). In CONSOLE, we cast VLN as an open-world sequential landmark discovery problem, by introducing a novel correctable landmark discovery scheme based on two large models ChatGPT and CLIP. Specifically, we use ChatGPT to provide rich open-world landmark cooccurrence commonsense, and conduct CLIP-driven landmark discovery based on these commonsense priors. To mitigate the noise in the priors due to the lack of visual constraints, we introduce a learnable cooccurrence scoring module, which corrects the importance of each cooccurrence according to actual observations for accurate landmark discovery. We further design an observation enhancement strategy for an elegant combination of our framework with different VLN agents, where we utilize the corrected landmark features to obtain enhanced observation features for action decision. Extensive experimental results on multiple popular VLN benchmarks (R2R, REVERIE, R4R, RxR) show the significant superiority of CONSOLE over strong baselines. Especially, our CONSOLE establishes the new state-of-the-art results on R2R and R4R in unseen scenarios. Code is available at https://github.com/expectorlin/CONSOLE.