AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

📄 arXiv: 2605.17933v1 📥 PDF

作者: Pan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

分类: cs.CV

发布日期: 2026-05-18

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AtlasVA:面向免教师VLM代理的自进化视觉技能记忆框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 强化学习 视觉技能记忆 自进化图谱 机器人导航

📋 核心要点

  1. 现有VLM代理依赖文本记忆和教师模型,导致空间信息损失,且依赖稀疏文本反馈。
  2. AtlasVA提出视觉技能记忆框架,包含空间热图、视觉范例和符号文本技能三层结构。
  3. 实验表明,AtlasVA在空间任务上显著优于文本记忆基线和VLM代理,无需外部LLM监督。

📝 摘要(中文)

视觉-语言模型(VLM)代理越来越多地依赖于记忆增强强化学习,以复用长时程任务中的经验。然而,现有框架大多将记忆存储为文本,并依赖专有的教师模型来总结或提炼记忆。这种设计与空间决策不太匹配:几何先验被压缩成有损的语言,稀疏交互通常通过延迟的文本反馈而非密集的视觉信号进行监督。我们认为,VLM代理的可复用经验应该保持视觉基础。基于此,我们提出了AtlasVA,一个免教师的视觉技能记忆框架,它将记忆组织成三个互补的层:空间热图、视觉范例和符号文本技能。AtlasVA进一步直接从轨迹统计和轻量级网格启发式方法中演化出危险和亲和力图谱,并将这些自进化图谱作为基于势函数的塑造奖励用于强化学习。这统一了感知、记忆和优化,无需外部LLM监督。在Sokoban、FrozenLake、3D具身导航和3D机器人操作基准测试中,实验表明AtlasVA始终优于以文本为中心的记忆基线和有竞争力的VLM代理,尤其是在空间密集型任务上表现出强大的优势。

🔬 方法详解

问题定义:现有VLM代理在长时程任务中复用经验时,主要依赖于文本形式的记忆,并使用教师模型进行提炼。这种方法存在两个主要问题:一是将视觉和几何信息压缩成文本会导致信息损失,尤其是在空间决策任务中;二是依赖稀疏的文本反馈进行监督,而非密集的视觉信号,不利于学习。

核心思路:AtlasVA的核心思路是保持VLM代理的可复用经验的视觉基础。通过构建一个视觉技能记忆框架,将经验存储为空间热图、视觉范例和符号文本技能的组合,从而保留了原始的视觉和几何信息。此外,通过自进化危险和亲和力图谱,为强化学习提供基于势函数的塑造奖励,无需外部LLM监督。

技术框架:AtlasVA框架包含三个主要模块:视觉技能记忆、自进化图谱和强化学习。视觉技能记忆模块负责存储和组织经验,包括空间热图、视觉范例和符号文本技能。自进化图谱模块通过分析轨迹统计和使用网格启发式方法,自动生成危险和亲和力图谱。强化学习模块利用这些图谱作为塑造奖励,引导代理学习最优策略。

关键创新:AtlasVA的关键创新在于其免教师的视觉技能记忆框架。与现有方法相比,AtlasVA不需要外部LLM进行监督,而是通过自进化图谱和视觉信息来指导学习。这种方法更适合空间决策任务,并且能够更好地利用视觉信息。

关键设计:AtlasVA的关键设计包括:1) 使用空间热图来表示空间信息,例如危险区域和目标区域;2) 使用视觉范例来存储关键的视觉经验,例如成功的操作序列;3) 使用符号文本技能来表示高级的动作策略;4) 通过轨迹统计和网格启发式方法自动生成危险和亲和力图谱,并将其作为基于势函数的塑造奖励用于强化学习。具体参数设置和网络结构在论文中有详细描述(未知)。

📊 实验亮点

AtlasVA在Sokoban、FrozenLake、3D具身导航和3D机器人操作等多个基准测试中取得了显著的性能提升。尤其是在空间密集型任务上,AtlasVA的表现明显优于以文本为中心的记忆基线和有竞争力的VLM代理。具体提升幅度在论文中有详细数据(未知)。

🎯 应用场景

AtlasVA具有广泛的应用前景,例如机器人导航、物体操作、游戏AI等。该框架可以帮助机器人更好地理解和利用视觉信息,从而在复杂环境中完成各种任务。此外,AtlasVA的免教师特性使其更易于部署和应用,降低了对人工标注数据的依赖。

📄 摘要(原文)

Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose \textbf{AtlasVA}, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on \textsc{Sokoban}, \textsc{FrozenLake}, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb