DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

作者: Zihao Xin, Wentong Li, Yixuan Jiang, Bin Wang, Runming Cong, Jie Qin, Shengjun Huang

分类: cs.RO

发布日期: 2026-03-13

备注: 16 pages, 8 figures, CVPR2026

💡 一句话要点

DecoVLN：解耦观察、推理和纠正，用于视觉语言导航

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 长程导航 长期记忆 误差校正 强化学习

📋 核心要点

现有VLN方法难以构建有效的长期记忆，且存在累积误差问题，影响导航性能。
DecoVLN通过优化框架构建长期记忆，并采用状态-动作对级别的纠正微调策略缓解误差。
实验表明，DecoVLN有效提升了VLN任务的性能，并在真实环境中成功部署。

📝 摘要（中文）

视觉语言导航（VLN）要求智能体遵循长程指令并在复杂的3D环境中导航。然而，现有方法面临两个主要挑战：构建有效的长期记忆库和克服累积误差问题。为了解决这些问题，我们提出了DecoVLN，一个为长程导航中鲁棒的流式感知和闭环控制而设计的有效框架。首先，我们将长期记忆构建形式化为一个优化问题，并引入自适应细化机制，通过迭代优化统一的评分函数，从历史候选池中选择帧。该函数联合平衡三个关键标准：与指令的语义相关性、与所选记忆的视觉多样性以及历史轨迹的时间覆盖率。其次，为了缓解累积误差，我们引入了一种状态-动作对级别的纠正微调策略。通过利用状态之间的测地距离来精确量化与专家轨迹的偏差，智能体在可信区域中收集高质量的状态-动作对，同时过滤掉低相关性的污染数据。这提高了误差校正的效率和稳定性。大量的实验证明了DecoVLN的有效性，并且我们已将其部署在真实环境中。

🔬 方法详解

问题定义：现有的视觉语言导航（VLN）方法在长程导航中面临两个主要问题。一是难以构建有效的长期记忆库，导致智能体难以记住历史信息，从而影响导航决策。二是累积误差问题，即智能体在每一步决策中产生的误差会随着时间的推移而累积，最终导致导航失败。

核心思路：DecoVLN的核心思路是将观察、推理和纠正三个过程解耦，分别进行优化。通过优化长期记忆的构建，提高智能体的观察能力；通过状态-动作对级别的纠正微调，提高智能体的推理能力和纠正误差的能力。这种解耦的设计使得每个过程都可以独立地进行优化，从而提高整体性能。

技术框架：DecoVLN框架主要包含两个模块：长期记忆构建模块和纠正微调模块。长期记忆构建模块负责从历史轨迹中选择关键帧，构建长期记忆库。该模块通过优化一个统一的评分函数，平衡语义相关性、视觉多样性和时间覆盖率三个标准。纠正微调模块负责通过状态-动作对级别的纠正微调，提高智能体的推理能力和纠正误差的能力。该模块利用测地距离来量化与专家轨迹的偏差，从而选择高质量的状态-动作对进行训练。

关键创新：DecoVLN的关键创新在于：1) 将长期记忆构建形式化为一个优化问题，并提出了一种自适应细化机制，能够有效地选择关键帧，构建长期记忆库。2) 提出了一种状态-动作对级别的纠正微调策略，能够有效地缓解累积误差问题。

关键设计：在长期记忆构建模块中，评分函数的设计至关重要。该函数需要平衡语义相关性、视觉多样性和时间覆盖率三个标准。论文中具体使用了余弦相似度来衡量语义相关性，使用视觉特征的差异来衡量视觉多样性，并使用时间间隔来衡量时间覆盖率。在纠正微调模块中，测地距离的计算方式以及状态-动作对的选择策略是关键。论文中使用了Dijkstra算法来计算测地距离，并选择与专家轨迹偏差较小的状态-动作对进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DecoVLN在VLN任务上取得了显著的性能提升。例如，在R2R数据集上，DecoVLN的SPL指标提升了超过5个百分点，显著优于现有的基线方法。此外，DecoVLN在真实环境中也表现出了良好的鲁棒性，证明了其在实际应用中的潜力。

🎯 应用场景

DecoVLN技术可应用于机器人导航、自动驾驶、虚拟现实等领域。例如，在机器人导航中，DecoVLN可以帮助机器人更好地理解人类指令，并在复杂的环境中自主导航。在自动驾驶中，DecoVLN可以提高自动驾驶系统的鲁棒性和安全性。在虚拟现实中，DecoVLN可以为用户提供更自然、更真实的导航体验。

📄 摘要（原文）

Vision-and-Language Navigation (VLN) requires agents to follow long-horizon instructions and navigate complex 3D environments. However, existing approaches face two major challenges: constructing an effective long-term memory bank and overcoming the compounding errors problem. To address these issues, we propose DecoVLN, an effective framework designed for robust streaming perception and closed-loop control in long-horizon navigation. First, we formulate long-term memory construction as an optimization problem and introduce adaptive refinement mechanism that selects frames from a historical candidate pool by iteratively optimizing a unified scoring function. This function jointly balances three key criteria: semantic relevance to the instruction, visual diversity from the selected memory, and temporal coverage of the historical trajectory. Second, to alleviate compounding errors, we introduce a state-action pair-level corrective finetuning strategy. By leveraging geodesic distance between states to precisely quantify deviation from the expert trajectory, the agent collects high-quality state-action pairs in the trusted region while filtering out the polluted data with low relevance. This improves both the efficiency and stability of error correction. Extensive experiments demonstrate the effectiveness of DecoVLN, and we have deployed it in real-world environments.

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理