FiLM-Nav: Efficient and Generalizable Navigation via VLM Fine-tuning

📄 arXiv: 2509.16445v1 📥 PDF

作者: Naoki Yokoyama, Sehoon Ha

分类: cs.RO

发布日期: 2025-09-19


💡 一句话要点

FiLM-Nav:通过VLM微调实现高效且可泛化的导航

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 具身导航 迁移学习 机器人 深度学习

📋 核心要点

  1. 现有方法难以有效利用视觉-语言模型(VLM)的强大语义理解能力,将其适应于具身决策任务,尤其是在复杂环境中的导航。
  2. FiLM-Nav的核心思想是直接微调预训练的VLM作为导航策略,使其能够根据视觉轨迹历史和导航目标选择最佳探索前沿。
  3. 实验结果表明,FiLM-Nav在HM3D ObjectNav和HM3D-OVON基准测试中均取得了领先的性能,展示了强大的泛化能力。

📝 摘要(中文)

本文提出FiLM-Nav,一种直接微调预训练视觉-语言模型(VLM)作为导航策略的方法,旨在使机器人助手能够在复杂环境中导航并定位自由形式语言描述的物体。与主要以零样本方式或用于地图标注使用基础模型的方法不同,FiLM-Nav通过直接调节原始视觉轨迹历史和导航目标来学习选择最佳探索前沿。通过利用有针对性的模拟具身经验,VLM能够将其强大的预训练表示与目标驱动导航相关的特定动态和视觉模式相结合。关键在于,结合ObjectNav、OVON、ImageNav和辅助空间推理任务的多元数据混合进行微调,对于实现鲁棒性和广泛的泛化至关重要。FiLM-Nav在开放词汇方法中,于HM3D ObjectNav上实现了SPL和成功率的新SOTA,并在具有挑战性的HM3D-OVON基准测试中实现了SOTA SPL,展示了对未见过的物体类别的强大泛化能力。这项工作验证了直接在多样化的模拟具身数据上微调VLM是实现可泛化和高效的语义导航能力的一种非常有效的途径。

🔬 方法详解

问题定义:论文旨在解决机器人如何在复杂环境中,根据自由形式的语言指令导航到特定物体的问题。现有方法通常依赖于零样本学习或将VLM用于地图标注,无法充分利用VLM的预训练知识,且泛化能力有限。这些方法难以适应新的环境和物体类别,需要大量的特定领域数据进行训练。

核心思路:FiLM-Nav的核心思路是直接将预训练的VLM微调为导航策略。通过在模拟环境中进行有监督学习,VLM可以学习到视觉输入、语言指令和导航动作之间的映射关系。这种方法能够有效地将VLM的通用知识迁移到具身导航任务中,提高导航的效率和泛化能力。

技术框架:FiLM-Nav的整体框架包括以下几个主要模块:1) 视觉输入模块:用于处理来自机器人的视觉传感器数据,例如RGB图像或深度图像。2) 语言输入模块:用于处理用户的语言指令,例如“找到桌子上的苹果”。3) VLM导航策略模块:这是FiLM-Nav的核心模块,它是一个经过微调的预训练VLM,用于根据视觉输入和语言指令选择下一步的导航动作。4) 动作执行模块:用于将导航策略输出的动作转化为机器人的实际运动。

关键创新:FiLM-Nav的关键创新在于直接微调VLM作为导航策略。与现有方法相比,FiLM-Nav能够更有效地利用VLM的预训练知识,避免了复杂的中间表示学习过程。此外,FiLM-Nav通过在多样化的模拟环境中进行训练,提高了导航策略的泛化能力。

关键设计:FiLM-Nav的关键设计包括:1) 使用Transformer架构的VLM作为导航策略的基础模型。2) 使用交叉熵损失函数来训练导航策略,目标是最大化正确导航动作的概率。3) 在包含ObjectNav、OVON、ImageNav和辅助空间推理任务的混合数据集上进行微调,以提高模型的鲁棒性和泛化能力。4) 使用数据增强技术,例如随机裁剪和颜色抖动,来增加训练数据的多样性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

FiLM-Nav在HM3D ObjectNav上实现了新的SOTA,SPL和成功率均优于现有方法。在更具挑战性的HM3D-OVON基准测试中,FiLM-Nav也取得了SOTA SPL,展示了其在开放词汇导航任务中的强大泛化能力。这些结果表明,直接微调VLM是一种有效的语义导航方法。

🎯 应用场景

FiLM-Nav具有广泛的应用前景,例如家庭服务机器人、仓库自动化、搜索救援等。它可以帮助机器人在复杂环境中自主导航,完成各种任务,例如递送物品、清洁房间、寻找目标等。该研究的成果有助于提高机器人的智能化水平,使其能够更好地服务于人类。

📄 摘要(原文)

Enabling robotic assistants to navigate complex environments and locate objects described in free-form language is a critical capability for real-world deployment. While foundation models, particularly Vision-Language Models (VLMs), offer powerful semantic understanding, effectively adapting their web-scale knowledge for embodied decision-making remains a key challenge. We present FiLM-Nav (Fine-tuned Language Model for Navigation), an approach that directly fine-tunes pre-trained VLM as the navigation policy. In contrast to methods that use foundation models primarily in a zero-shot manner or for map annotation, FiLM-Nav learns to select the next best exploration frontier by conditioning directly on raw visual trajectory history and the navigation goal. Leveraging targeted simulated embodied experience allows the VLM to ground its powerful pre-trained representations in the specific dynamics and visual patterns relevant to goal-driven navigation. Critically, fine-tuning on a diverse data mixture combining ObjectNav, OVON, ImageNav, and an auxiliary spatial reasoning task proves essential for achieving robustness and broad generalization. FiLM-Nav sets a new state-of-the-art in both SPL and success rate on HM3D ObjectNav among open-vocabulary methods, and sets a state-of-the-art SPL on the challenging HM3D-OVON benchmark, demonstrating strong generalization to unseen object categories. Our work validates that directly fine-tuning VLMs on diverse simulated embodied data is a highly effective pathway towards generalizable and efficient semantic navigation capabilities.