SpaAct: Spatially-Activated Transition Learning with Curriculum Adaptation for Vision-Language Navigation
作者: Pengna Li, Kangyi Wu, Shaoqing Xu, Fang Li, Hanbing Li, Lin Zhao, Kailin Lyu, Long Chen, Zhi-Xin Yang, Nanning Zheng
分类: cs.CV
发布日期: 2026-04-30
备注: Submmited to ACM MM 2026
💡 一句话要点
SpaAct:通过空间激活的迁移学习和课程自适应提升视觉-语言导航性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 空间推理 迁移学习 课程学习 视觉语言模型 机器人导航
📋 核心要点
- 现有VLN方法在利用视觉语言模型时,缺乏对后向动作推理和前向状态转移预测的有效建模。
- SpaAct框架通过引入动作回顾和未来帧选择两个空间激活任务,轻量级地监督模型学习动态空间感知能力。
- TriPA课程学习方法通过渐进式地组织训练样本,稳定了VLM在VLN任务上的适应过程,提升了导航性能。
📝 摘要(中文)
本文提出了一种名为SpaAct的训练框架,旨在提升视觉-语言导航(VLN)中视觉语言模型(VLM)的性能。作者认为,VLM适应VLN需要具备两种互补能力:后向动作推理(为什么)和前向状态转移预测(如何)。SpaAct通过引入两个空间激活任务来激活VLM中的动态空间感知能力:动作回顾,即从视觉转换中推断执行的动作序列;未来帧选择,即根据历史和动作预测视觉转换。此外,为了稳定适应过程,设计了TriPA,一种三因素渐进自适应课程学习方法,将训练样本从易到难排序,使模型能够逐步掌握导航技能。在标准VLN-CE基准测试上的实验表明,SpaAct能够持续改进基于VLM的导航,并达到最先进的性能。代码和模型将开源。
🔬 方法详解
问题定义:视觉-语言导航(VLN)旨在使智能体能够根据自然语言指令在未见过的3D环境中导航到目标位置。现有方法通常难以有效地利用预训练的视觉语言模型(VLM)来学习导航所需的空间推理能力,尤其是在后向动作推理(理解为什么执行某个动作)和前向状态转移预测(预测执行动作后的视觉变化)方面存在不足。
核心思路:论文的核心思路是通过引入空间激活任务,显式地引导VLM学习动态空间感知能力。具体来说,通过后向动作推理和前向状态转移预测这两个互补的任务,使模型能够更好地理解动作与环境之间的关系,从而提升导航性能。同时,采用课程学习策略,逐步提升模型的学习难度,稳定训练过程。
技术框架:SpaAct框架包含两个主要的空间激活任务和一个课程学习策略。首先,动作回顾任务要求模型根据视觉转换推断出执行的动作序列,从而学习后向动作推理能力。其次,未来帧选择任务要求模型根据历史信息和当前动作预测未来的视觉状态,从而学习前向状态转移预测能力。最后,TriPA课程学习方法根据三个因素(难度、多样性和进展)自适应地调整训练样本的顺序,从易到难地训练模型。
关键创新:论文的关键创新在于提出了空间激活任务,通过轻量级的监督信号,有效地引导VLM学习动态空间感知能力。与现有方法相比,SpaAct不需要复杂的网络结构或大量的额外数据,而是通过精心设计的任务来激活VLM中已有的知识。此外,TriPA课程学习方法能够自适应地调整训练难度,进一步提升了模型的学习效率和稳定性。
关键设计:动作回顾任务使用交叉熵损失函数来衡量预测动作序列与真实动作序列之间的差异。未来帧选择任务使用对比学习损失函数,鼓励模型选择与历史信息和当前动作最匹配的未来帧。TriPA课程学习方法根据导航路径的长度、指令的复杂度和模型的预测准确率等因素来评估样本的难度,并动态地调整训练样本的顺序。
🖼️ 关键图片
📊 实验亮点
SpaAct在VLN-CE基准测试上取得了显著的性能提升,达到了state-of-the-art水平。具体来说,在Seen和Unseen环境下的指标均优于现有方法,证明了该方法在提升VLM导航能力方面的有效性。实验结果表明,空间激活任务和TriPA课程学习方法能够有效地提升模型的空间推理能力和泛化能力。
🎯 应用场景
该研究成果可应用于机器人导航、虚拟现实、自动驾驶等领域。例如,可以帮助服务型机器人在复杂环境中根据人类指令进行导航,或者为虚拟现实游戏中的智能体提供更自然的导航能力。此外,该方法还可以扩展到其他需要空间推理能力的视觉-语言任务中,例如视觉问答、图像描述等。
📄 摘要(原文)
Vision-and-Language Navigation (VLN) aims to enable an embodied agent to follow natural-language instructions and navigate to a target location in unseen 3D environments. We argue that adapting VLMs to VLN requires endowing them with two complementary capabilities for acquiring such awareness, namely backward action reasoning (why) and forward transition prediction~(how). Based on this insight, we propose SpaAct, a simple yet effective training framework that activates the dynamic spatial awareness in VLMs. Specifically, SpaAct introduces two spatial activation tasks: Action Retrospection, which asks the model to infer the executed action sequence from visual transitions, and Future Frame Selection, which forces the model to predict the visual transitions conditioned on history and action. These two objectives provide lightweight supervision on both backward action reasoning and forward transition prediction, encouraging the model to build dynamic spatial awareness in a VLM-friendly way. To further stabilize adaptation, we design TriPA, a Tri-factor Progressive Adaptive curriculum learning method that organizes training samples from easy to hard, allowing the model to gradually acquire navigation skills from basic locomotion to long-horizon reasoning. Experiments on standard VLN-CE benchmarks show that SpaAct consistently improves VLM-based navigation and achieves state-of-the-art performance. We will release the code and models to support future research.