Walk and Read Less: Improving the Efficiency of Vision-and-Language Navigation via Tuning-Free Multimodal Token Pruning

作者: Wenda Qin, Andrea Burns, Bryan A. Plummer, Margrit Betke

分类: cs.CV, cs.AI

发布日期: 2025-09-18 (更新: 2025-09-22)

备注: Accepted to EMNLP 2025. Data and code to be released at https://github.com/wdqin/VLN-NAP

💡 一句话要点

提出导航感知剪枝(NAP)，通过无监督多模态token剪枝提升视觉语言导航效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 Token剪枝 模型压缩 导航感知 大型语言模型

📋 核心要点

现有VLN模型计算成本高，token剪枝方法忽略了导航任务的特殊性，易造成信息损失和导航路径增加。
提出导航感知剪枝(NAP)，通过预过滤token区分前景和背景，并利用LLM提取导航相关指令，减少信息损失。
实验表明，NAP在标准VLN基准上显著优于现有方法，在节省超过50% FLOPS的同时，保持了更高的成功率。

📝 摘要（中文）

大型模型在视觉语言导航(VLN)任务上表现出色，但在资源受限的环境中运行成本高昂。Token剪枝通过减少模型输入大小，在最小化性能损失的同时，为效率提供了有吸引力的折衷方案，但先前的工作忽略了VLN特有的挑战。例如，剪枝造成的信息丢失实际上会因更长的行走路径而增加计算成本。因此，无法识别无信息token会破坏剪枝本应带来的效率提升。为了解决这个问题，我们提出了导航感知剪枝(NAP)，它利用导航特定的特征，通过将token预过滤到前景和背景中来简化剪枝过程。例如，图像视图根据智能体是否可以在该方向上导航进行过滤。我们还使用大型语言模型提取导航相关的指令。过滤后，我们专注于背景token的剪枝，从而最大限度地减少信息丢失。为了进一步避免导航长度的增加，我们通过移除低重要性的导航节点来阻止回溯。在标准VLN基准上的实验表明，NAP显著优于先前的工作，在节省超过50% FLOPS的同时，保持了更高的成功率。

🔬 方法详解

问题定义：视觉语言导航（VLN）任务旨在让智能体根据自然语言指令在真实环境中导航。现有的大型模型虽然性能优异，但计算成本高昂，难以在资源受限的环境中部署。Token剪枝是一种降低计算成本的有效方法，但现有方法没有充分考虑VLN任务的特殊性，例如，不加选择的剪枝可能导致信息丢失，迫使智能体走更长的弯路，反而增加了计算成本。因此，如何高效地识别并去除VLN任务中不重要的token，同时避免导航路径的增加，是本文要解决的关键问题。

核心思路：本文的核心思路是利用导航任务的固有特性，对token进行预过滤，区分前景（导航相关）和背景（导航不相关）token，然后主要对背景token进行剪枝，从而最大限度地减少信息损失。此外，为了避免智能体回溯，本文还提出了一种阻止回溯的机制，即移除低重要性的导航节点。通过这种方式，可以在保证导航成功率的同时，显著降低计算成本。

技术框架：NAP方法的整体框架包括以下几个主要步骤：1) 使用大型语言模型（LLM）提取导航相关的指令信息；2) 根据智能体是否可以在该方向上导航，对图像视图进行过滤，区分前景和背景区域；3) 对背景区域的token进行剪枝；4) 移除低重要性的导航节点，以阻止回溯。该框架旨在通过导航感知的预处理和剪枝策略，提高VLN任务的效率。

关键创新：NAP方法的关键创新在于其导航感知的token预过滤策略。与以往的token剪枝方法不同，NAP不是盲目地对所有token进行剪枝，而是首先利用导航任务的特性，将token分为前景和背景，然后主要对背景token进行剪枝。这种策略可以有效地减少信息损失，避免智能体走弯路，从而提高导航效率。此外，利用LLM提取导航相关指令也是一个创新点，可以帮助模型更好地理解指令，提高导航的准确性。

关键设计：NAP的关键设计包括：1) 使用LLM（具体模型未知）提取导航指令，提取方式未知；2) 基于导航可行性的图像视图过滤机制，具体实现方式未知；3) 基于token重要性的剪枝策略，具体重要性评估方法未知；4) 移除低重要性导航节点的具体算法未知。论文中未明确给出这些关键设计的具体参数设置、损失函数或网络结构等技术细节，属于未知信息。

📊 实验亮点

NAP方法在标准VLN基准上取得了显著的性能提升。实验结果表明，NAP在保持较高成功率的同时，能够节省超过50%的FLOPS。与现有token剪枝方法相比，NAP能够更有效地平衡性能和效率，为VLN任务的实际应用提供了有力的支持。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过降低计算成本，可以使VLN模型在资源受限的设备上运行，例如移动机器人和嵌入式系统。此外，该方法还可以提高导航的效率和可靠性，为用户提供更好的导航体验。未来，该研究有望推动VLN技术在更广泛的实际场景中应用。

📄 摘要（原文）

Large models achieve strong performance on Vision-and-Language Navigation (VLN) tasks, but are costly to run in resource-limited environments. Token pruning offers appealing tradeoffs for efficiency with minimal performance loss by reducing model input size, but prior work overlooks VLN-specific challenges. For example, information loss from pruning can effectively increase computational cost due to longer walks. Thus, the inability to identify uninformative tokens undermines the supposed efficiency gains from pruning. To address this, we propose Navigation-Aware Pruning (NAP), which uses navigation-specific traits to simplify the pruning process by pre-filtering tokens into foreground and background. For example, image views are filtered based on whether the agent can navigate in that direction. We also extract navigation-relevant instructions using a Large Language Model. After filtering, we focus pruning on background tokens, minimizing information loss. To further help avoid increases in navigation length, we discourage backtracking by removing low-importance navigation nodes. Experiments on standard VLN benchmarks show NAP significantly outperforms prior work, preserving higher success rates while saving more than 50% FLOPS.

Walk and Read Less: Improving the Efficiency of Vision-and-Language Navigation via Tuning-Free Multimodal Token Pruning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册