AnchorVLA4D: an Anchor-Based Spatial-Temporal Vision-Language-Action Model for Robotic Manipulation

📄 arXiv: 2603.12730v1 📥 PDF

作者: Juan Zhu, Zhanying Shao, Xiaoqi Li, Ethan Morgan, Jiadong Xu, Hongwei Fan, Hao Dong

分类: cs.RO

发布日期: 2026-03-13


💡 一句话要点

AnchorVLA4D:基于锚点的时空视觉-语言-动作机器人操作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作 时空推理 锚点图像 空间编码

📋 核心要点

  1. 现有VLA系统缺乏足够的空间感知能力,难以处理遮挡和空间迷失问题。
  2. AnchorVLA4D通过引入锚点图像和空间编码器,增强了VLA的时空推理能力。
  3. 实验表明,AnchorVLA4D在模拟和真实机器人操作任务中均取得了显著的性能提升。

📝 摘要(中文)

现有的视觉-语言-动作(VLA)系统在空间感知和操作过程中的记忆方面存在局限性。本文研究了视觉锚点,旨在增强VLA策略在机器人操作中的时空推理能力。传统的VLA通过单个当前帧和语言指令来生成动作。然而,由于帧被编码为2D图像,它不包含详细的空间信息,并且VLA同样缺乏整合过去上下文的手段。因此,它经常忘记被遮挡的物体,并在操作过程中失去空间方向感。为此,我们提出了AnchorVLA4D,一个简单的时空VLA,它使用锚点图像来增强视觉输入,以在整个执行过程中保留初始场景上下文,并添加一个轻量级的空间编码器,该编码器联合处理锚点帧和当前帧,以揭示episode中的几何关系。AnchorVLA4D基于Qwen2.5-VL骨干网络和基于扩散的动作头,不需要额外的传感模态(例如,深度或点云),并且引入的推理开销可以忽略不计。将锚定与冻结的预训练空间编码器相结合,可以进一步提高性能,在Simpler WidowX基准测试中实现了13.6%的改进,并在真实世界的任务中证实了该方法,实现了平均80%的成功率。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人操作任务中,主要依赖于当前帧的视觉信息和语言指令来生成动作。这种方法忽略了场景的初始状态和操作过程中的历史信息,导致模型在面对遮挡、视角变化等情况时,容易出现空间感知错误和操作失败。因此,需要解决VLA模型在机器人操作中缺乏时空推理能力的问题。

核心思路:AnchorVLA4D的核心思路是利用“锚点”图像来保留初始场景的上下文信息,并结合轻量级的空间编码器来提取当前帧和锚点帧之间的几何关系。通过这种方式,模型可以更好地理解场景的空间结构,并根据历史信息进行推理,从而提高操作的成功率。

技术框架:AnchorVLA4D的整体架构包括以下几个主要模块:1) 视觉输入模块:接收当前帧和锚点帧作为输入。2) 空间编码器:联合处理当前帧和锚点帧,提取空间特征。3) 语言编码器:编码语言指令。4) 多模态融合模块:融合视觉特征和语言特征。5) 动作生成模块:基于融合后的特征生成动作。该模型基于Qwen2.5-VL骨干网络,并使用基于扩散的动作头。

关键创新:AnchorVLA4D的关键创新在于引入了锚点图像和空间编码器,从而增强了VLA模型的时空推理能力。与传统的VLA模型相比,AnchorVLA4D能够更好地利用历史信息,从而提高操作的鲁棒性和成功率。此外,该模型不需要额外的传感模态(如深度信息),降低了硬件成本。

关键设计:AnchorVLA4D的关键设计包括:1) 锚点图像的选择:通常选择操作开始时的第一帧作为锚点图像。2) 空间编码器的结构:使用轻量级的卷积神经网络来提取空间特征。3) 损失函数的设计:使用标准的交叉熵损失函数来训练模型。4) 冻结预训练的空间编码器:为了进一步提高性能,可以冻结预训练的空间编码器,只训练其他模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnchorVLA4D在Simpler WidowX基准测试中实现了13.6%的性能提升,证明了该方法在模拟环境中的有效性。在真实世界的机器人操作任务中,AnchorVLA4D也取得了平均80%的成功率,表明该方法具有良好的泛化能力。这些实验结果表明,AnchorVLA4D能够显著提高机器人的操作性能。

🎯 应用场景

AnchorVLA4D具有广泛的应用前景,可应用于各种机器人操作任务,例如:家庭服务机器人、工业机器人、医疗机器人等。该模型可以帮助机器人更好地理解人类指令,并在复杂环境中完成各种操作任务。未来,AnchorVLA4D还可以与其他技术相结合,例如:强化学习、模仿学习等,从而进一步提高机器人的智能化水平。

📄 摘要(原文)

Since current Vision-Language-Action (VLA) systems suffer from limited spatial perception and the absence of memory throughout manipulation, we investigate visual anchors as a means to enhance spatial and temporal reasoning within VLA policies for robotic manipulation. Conventional VLAs generate actions by conditioning on a single current frame together with a language instruction. However, since the frame is encoded as a 2D image, it does not contain detailed spatial information, and the VLA similarly lacks any means to incorporate past context. As a result, it frequently forgets objects under occlusion and becomes spatially disoriented during the manipulation process. Thus, we propose AnchorVLA4D, a simple spatial-temporal VLA that augments the visual input with an anchor image to preserve the initial scene context throughout execution, and adds a lightweight spatial encoder that jointly processes the anchor and current frames to expose geometric relationships within an episode. Built on a Qwen2.5-VL backbone with a diffusion-based action head, AnchorVLA4D requires no additional sensing modalities (e.g., depth or point clouds) and introduces negligible inference overhead. Combining anchoring with a frozen pretrained spatial encoder yields further gains, realizing a 13.6% improvement on the Simpler WidowX benchmark and confirming the approach on real-world tasks, where it achieved an average success rate of 80%.