Efficient-VLN: A Training-Efficient Vision-Language Navigation Model

作者: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang

分类: cs.CV

发布日期: 2025-12-11

💡 一句话要点

Efficient-VLN：一种训练高效的视觉-语言导航模型，显著降低训练开销。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 多模态学习 高效训练 记忆机制 动态混合策略

📋 核心要点

现有VLN方法面临长序列token处理的二次计算负担和DAgger中探索效率的权衡问题，导致训练开销巨大。
Efficient-VLN通过渐进式记忆、可学习递归记忆和动态混合策略，在保证性能的同时显著降低训练开销。
实验表明，Efficient-VLN在R2R-CE和RxR-CE上取得了SOTA性能，且训练时间大幅缩短，仅需282 H800 GPU小时。

📝 摘要（中文）

多模态大型语言模型(MLLM)在视觉-语言导航(VLN)中展现出巨大的潜力。然而，其巨大的训练开销严重阻碍了实际发展。我们发现导致开销的两个关键问题：(1)处理长时程历史观测作为大量token序列带来的二次计算负担，以及(2)DAgger中探索效率的权衡，即收集agent探索轨迹的数据聚合过程。更多的探索虽然能产生有效的错误恢复轨迹以处理测试时分布偏移，但代价是训练和推理的轨迹长度更长。为了解决这些挑战，我们提出了Efficient-VLN，一种训练高效的VLN模型。具体来说，为了减轻token处理负担，我们设计了两种高效的记忆机制：一种渐进式记忆，动态地为最近的观测分配更多的token；以及一种可学习的递归记忆，它利用可学习token的键值缓存作为记忆状态。此外，我们引入了一种动态混合策略来平衡探索效率的权衡。大量实验表明，Efficient-VLN在R2R-CE (64.2% SR)和RxR-CE (67.0% SR)上取得了最先进的性能。关键的是，我们的模型仅消耗282 H800 GPU小时，与最先进的方法相比，训练开销大幅降低。

🔬 方法详解

问题定义：论文旨在解决视觉-语言导航（VLN）任务中，使用多模态大型语言模型（MLLM）时训练开销过大的问题。现有方法在处理长序列历史观测时，计算复杂度呈二次方增长，并且在DAgger训练过程中，探索更多轨迹虽然能提升模型鲁棒性，但会增加训练和推理的轨迹长度，进一步加剧计算负担。

核心思路：论文的核心思路是通过设计高效的记忆机制和动态混合策略，在保证导航性能的同时，显著降低训练所需的计算资源。具体来说，通过渐进式记忆和可学习递归记忆来减少token处理的负担，并通过动态混合策略来平衡探索效率的权衡。

技术框架：Efficient-VLN模型主要包含以下几个模块：视觉编码器（用于提取图像特征）、语言编码器（用于处理指令文本）、渐进式记忆模块（动态分配token给不同时间步的观测）、可学习递归记忆模块（利用键值缓存存储历史信息）和动态混合策略模块（平衡探索策略和专家策略）。整体流程是：首先，视觉和语言信息分别编码，然后通过记忆模块融合历史信息，最后通过动态混合策略选择下一步动作。

关键创新：论文的关键创新在于提出了两种高效的记忆机制和一种动态混合策略。渐进式记忆能够动态地为最近的观测分配更多的token，从而更好地捕捉当前环境信息。可学习递归记忆利用可学习的token作为记忆状态，减少了需要处理的token数量。动态混合策略则能够在训练过程中自适应地调整探索策略的比例，从而平衡探索效率的权衡。

关键设计：渐进式记忆模块根据时间步动态调整分配给每个观测的token数量，最近的观测分配更多token。可学习递归记忆模块使用可学习的token作为键值缓存，并通过注意力机制更新记忆状态。动态混合策略使用一个可学习的权重来平衡探索策略和专家策略，该权重根据训练进度动态调整。

🖼️ 关键图片

📊 实验亮点

Efficient-VLN在R2R-CE上取得了64.2%的SR，在RxR-CE上取得了67.0%的SR，达到了SOTA性能。更重要的是，该模型仅消耗282 H800 GPU小时，与现有SOTA方法相比，训练开销大幅降低，体现了其高效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过降低VLN模型的训练成本，可以加速相关技术的落地和应用，例如在复杂环境中实现更智能、更高效的机器人导航，或为视障人士提供更可靠的导航辅助。

📄 摘要（原文）

Multimodal large language models (MLLMs) have shown promising potential in Vision-Language Navigation (VLN). However, their practical development is severely hindered by the substantial training overhead. We recognize two key issues that contribute to the overhead: (1) the quadratic computational burden from processing long-horizon historical observations as massive sequences of tokens, and (2) the exploration-efficiency trade-off in DAgger, i.e., a data aggregation process of collecting agent-explored trajectories. While more exploration yields effective error-recovery trajectories for handling test-time distribution shifts, it comes at the cost of longer trajectory lengths for both training and inference. To address these challenges, we propose Efficient-VLN, a training-efficient VLN model. Specifically, to mitigate the token processing burden, we design two efficient memory mechanisms: a progressive memory that dynamically allocates more tokens to recent observations, and a learnable recursive memory that utilizes the key-value cache of learnable tokens as the memory state. Moreover, we introduce a dynamic mixed policy to balance the exploration-efficiency trade-off. Extensive experiments show that Efficient-VLN achieves state-of-the-art performance on R2R-CE (64.2% SR) and RxR-CE (67.0% SR). Critically, our model consumes merely 282 H800 GPU hours, demonstrating a dramatic reduction in training overhead compared to state-of-the-art methods.

Efficient-VLN: A Training-Efficient Vision-Language Navigation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理