Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features

📄 arXiv: 2410.13002v2 📥 PDF

作者: Makram Chahine, Alex Quach, Alaa Maalouf, Tsun-Hsuan Wang, Daniela Rus

分类: cs.RO, cs.AI

发布日期: 2024-10-16 (更新: 2025-05-16)


💡 一句话要点

Flex:基于预训练视觉语言模型特征的端到端文本指令视觉导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉导航 文本指令 预训练模型 端到端学习 行为克隆 四旋翼 机器人

📋 核心要点

  1. 现有端到端视觉导航模型泛化能力弱,难以适应新环境和文本指令,限制了其应用范围。
  2. Flex框架利用预训练视觉语言模型提取视觉和语义特征,生成空间感知的嵌入,提升泛化能力。
  3. 实验表明,Flex在小型模拟数据集上训练后,能成功泛化到真实场景,完成四旋翼飞行到目标任务。

📝 摘要(中文)

端到端学习直接将感知输入映射到动作,为复杂的机器人任务创建高度集成和高效的策略。然而,这种模型通常难以泛化到其训练场景之外,限制了对新环境、任务和概念的适应性。本文研究了在未见过的文本指令和视觉分布偏移下,利用基于视觉控制策略实现鲁棒闭环性能所需的最小数据量和架构调整。我们的研究结果被综合到Flex (Fly lexically) 框架中,该框架使用预训练的视觉语言模型 (VLM) 作为冻结的patch-wise特征提取器,生成空间感知的嵌入,整合语义和视觉信息。我们通过四旋翼飞行到目标任务,证明了该方法的有效性,其中通过行为克隆在小型模拟数据集上训练的智能体成功泛化到具有各种新目标和命令公式的真实场景。

🔬 方法详解

问题定义:论文旨在解决视觉导航任务中,端到端模型在新环境和文本指令下的泛化能力不足的问题。现有方法通常需要大量数据进行训练,且难以适应视觉分布偏移和新的文本指令,导致在真实场景中的性能下降。

核心思路:论文的核心思路是利用预训练的视觉语言模型(VLM)作为特征提取器,将视觉和语义信息融合到空间感知的嵌入中。通过冻结VLM的参数,可以减少训练所需的数据量,并利用VLM强大的泛化能力,提升模型在新环境和文本指令下的适应性。

技术框架:Flex框架主要包含以下几个模块:1) 预训练VLM:用于提取视觉和文本特征,并生成patch-wise的嵌入表示。2) 特征融合模块:将视觉和文本特征进行融合,生成空间感知的嵌入。3) 控制策略模块:基于融合后的特征,输出控制指令,驱动四旋翼飞行器。整个流程是端到端的,从接收文本指令和视觉输入开始,最终输出控制指令。

关键创新:论文的关键创新在于利用预训练VLM作为冻结的特征提取器,并将其与控制策略模块进行端到端训练。这种方法可以有效利用VLM的泛化能力,减少训练所需的数据量,并提升模型在新环境和文本指令下的适应性。与现有方法相比,Flex不需要从头开始训练特征提取器,而是直接利用预训练模型的知识,从而实现更好的泛化性能。

关键设计:Flex框架的关键设计包括:1) 使用预训练的视觉语言模型(如CLIP)作为特征提取器。2) 将视觉和文本特征进行patch-wise的融合,以保留空间信息。3) 使用行为克隆(Behavior Cloning)方法训练控制策略模块。4) 在小型模拟数据集上进行训练,并在真实场景中进行测试,以评估模型的泛化能力。损失函数主要采用行为克隆的损失函数,即最小化模型输出的动作与专家动作之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Flex在小型模拟数据集上训练后,能够成功泛化到真实场景,完成四旋翼飞行到目标任务。与从头开始训练的模型相比,Flex在泛化性能方面有显著提升。即使在具有不同目标和命令公式的真实场景中,Flex也能保持较高的成功率,证明了其强大的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要视觉导航和文本指令控制的机器人任务,例如无人机巡检、室内导航、物流配送等。通过结合预训练模型和端到端学习,可以降低机器人部署的成本和难度,并提升其在复杂环境中的适应性。未来,该方法有望扩展到更复杂的机器人任务,例如人机协作和自主探索。

📄 摘要(原文)

End-to-end learning directly maps sensory inputs to actions, creating highly integrated and efficient policies for complex robotics tasks. However, such models often struggle to generalize beyond their training scenarios, limiting adaptability to new environments, tasks, and concepts. In this work, we investigate the minimal data requirements and architectural adaptations necessary to achieve robust closed-loop performance with vision-based control policies under unseen text instructions and visual distribution shifts. Our findings are synthesized in Flex (Fly lexically), a framework that uses pre-trained Vision Language Models (VLMs) as frozen patch-wise feature extractors, generating spatially aware embeddings that integrate semantic and visual information. We demonstrate the effectiveness of this approach on a quadrotor fly-to-target task, where agents trained via behavior cloning on a small simulated dataset successfully generalize to real-world scenes with diverse novel goals and command formulations.