Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation

📄 arXiv: 2503.18065v3 📥 PDF

作者: Ziming Wei, Bingqian Lin, Yunshuang Nie, Jiaqi Chen, Shikui Ma, Hang Xu, Xiaodan Liang

分类: cs.CV, cs.AI, cs.CL, cs.RO

发布日期: 2025-03-23 (更新: 2025-11-04)

备注: Accepted by IEEE Transactions on Neural Networks and Learning Systems

DOI: 10.1109/TNNLS.2025.3624691

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于重写的RAM框架,利用基础模型增强视觉-语言导航的泛化性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 数据增强 基础模型 大型语言模型 文本到图像生成 泛化能力 重写驱动增强

📋 核心要点

  1. 现有VLN方法受限于模拟器数据多样性不足和网络数据噪声过大,导致智能体泛化能力受限。
  2. 提出RAM框架,通过重写现有标注数据生成新的观察-指令对,无需额外模拟器或网络数据。
  3. 实验结果表明,RAM在离散和连续VLN环境中均表现出优越的性能和泛化能力。

📝 摘要(中文)

视觉-语言导航(VLN)领域长期面临数据稀缺的挑战,这严重阻碍了智能体在未见环境中的泛化能力。以往的工作主要依赖额外的模拟器数据或网络收集的图像/视频来提高泛化能力。然而,模拟器环境仍然面临多样性有限的问题,并且网络收集的数据通常需要大量的人工来去除噪声。在本文中,我们提出了一种用于VLN的重写驱动增强(RAM)范式,该范式通过重写人工标注的训练数据来直接创建未见过的观察-指令对。受益于我们的重写机制,可以在无模拟器和节省人工的方式下获得新的观察-指令对,从而促进泛化。具体来说,我们首先引入对象丰富的观察重写,其中我们结合视觉-语言模型(VLM)和大型语言模型(LLM)来导出重写的对象丰富的场景描述,从而通过文本到图像生成模型(T2IM)实现具有多样对象和空间布局的观察合成。然后,我们提出观察对比指令重写,通过要求LLM推理原始观察和新观察之间的差异来生成与观察对齐的重写指令。我们进一步开发了一种混合-聚焦训练策略,并结合随机观察裁剪方案,有效地增强了数据分布的多样性,同时抑制了训练期间增强数据的噪声。在离散环境(R2R、REVERIE和R4R数据集)和连续环境(R2R-CE数据集)上的实验表明,我们的方法具有卓越的性能和令人印象深刻的泛化能力。

🔬 方法详解

问题定义:VLN任务旨在让智能体根据自然语言指令在真实或模拟环境中导航到目标位置。现有方法的痛点在于,训练数据有限,导致智能体难以泛化到未见过的环境。模拟器数据多样性不足,而网络数据又存在噪声,需要大量人工清洗。

核心思路:论文的核心思路是通过重写现有的标注数据,生成新的、未见过的观察-指令对,从而扩充训练数据,提高智能体的泛化能力。这种方法避免了对额外模拟器或网络数据的依赖,并且节省了人工标注的成本。

技术框架:RAM框架包含两个主要模块:对象丰富的观察重写和观察对比指令重写。首先,利用视觉-语言模型(VLM)和大型语言模型(LLM)生成对象丰富的场景描述,然后使用文本到图像生成模型(T2IM)合成新的观察图像。接着,利用LLM推理原始观察和新观察之间的差异,生成与新观察对齐的指令。最后,采用混合-聚焦训练策略,结合随机观察裁剪,训练VLN智能体。

关键创新:RAM框架的关键创新在于:1) 提出了一种新的数据增强范式,通过重写现有数据生成新的观察-指令对,无需额外数据源。2) 结合VLM、LLM和T2IM,实现了对观察和指令的协同重写,保证了数据的一致性和多样性。3) 提出了混合-聚焦训练策略,有效抑制了增强数据的噪声。

关键设计:在对象丰富的观察重写中,使用LLM生成包含更多对象和空间布局信息的场景描述。在观察对比指令重写中,使用LLM根据原始观察和新观察的差异,生成更精确的导航指令。混合-聚焦训练策略通过控制原始数据和增强数据的比例,平衡了模型的学习效率和泛化能力。随机观察裁剪则进一步增强了数据多样性,并抑制了噪声。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在R2R、REVERIE、R4R和R2R-CE数据集上的实验结果表明,RAM框架显著提高了VLN智能体的性能和泛化能力。具体提升数据未知,但摘要强调了“卓越的性能和令人印象深刻的泛化能力”。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过增强智能体在未知环境中的导航能力,可以提高机器人在复杂环境中的自主性和适应性,例如在家庭服务、物流配送、灾难救援等场景中。

📄 摘要(原文)

Data scarcity is a long-standing challenge in the Vision-Language Navigation (VLN) field, which extremely hinders the generalization of agents to unseen environments. Previous works primarily rely on additional simulator data or web-collected images/videos to improve the generalization. However, the simulator environments still face limited diversity, and the web-collected data often requires extensive labor to remove the noise. In this paper, we propose a Rewriting-driven AugMentation (RAM) paradigm for VLN, which directly creates the unseen observation-instruction pairs via rewriting human-annotated training data. Benefiting from our rewriting mechanism, new observation-instruction pairs can be obtained in both simulator-free and labor-saving manners to promote generalization. Specifically, we first introduce Object-Enriched Observation Rewriting, where we combine Vision-Language Models (VLMs) and Large Language Models (LLMs) to derive rewritten object-enriched scene descriptions, enabling observation synthesis with diverse objects and spatial layouts via Text-to-Image Generation Models (T2IMs). Then, we propose Observation-Contrast Instruction Rewriting, which generates observation-aligned rewritten instructions by requiring LLMs to reason the difference between original and new observations. We further develop a mixing-then-focusing training strategy with a random observation cropping scheme, effectively enhancing data distribution diversity while suppressing augmentation data noise during training. Experiments on both the discrete environments (R2R, REVERIE, and R4R datasets) and continuous environments (R2R-CE dataset) show the superior performance and impressive generalization ability of our method. Code is available at https://github.com/SaDil13/VLN-RAM.