AnchorVLA4D: an Anchor-Based Spatial-Temporal Vision-Language-Action Model for Robotic Manipulation

作者: Juan Zhu, Zhanying Shao, Xiaoqi Li, Ethan Morgan, Jiadong Xu, Hongwei Fan, Hao Dong

分类: cs.RO

发布日期: 2026-03-13

💡 一句话要点

AnchorVLA4D：基于锚点的时空视觉-语言-动作机器人操作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作 时空推理 锚点图像 空间编码

📋 核心要点

现有VLA系统缺乏足够的空间感知能力，难以处理遮挡和空间迷失问题。
AnchorVLA4D通过引入锚点图像和空间编码器，增强了VLA的时空推理能力。
实验表明，AnchorVLA4D在模拟和真实机器人操作任务中均取得了显著的性能提升。

📝 摘要（中文）

现有的视觉-语言-动作(VLA)系统在空间感知和操作过程中的记忆方面存在局限性。本文研究了视觉锚点，旨在增强VLA策略在机器人操作中的时空推理能力。传统的VLA通过单个当前帧和语言指令来生成动作。然而，由于帧被编码为2D图像，它不包含详细的空间信息，并且VLA同样缺乏整合过去上下文的手段。因此，它经常忘记被遮挡的物体，并在操作过程中失去空间方向感。为此，我们提出了AnchorVLA4D，一个简单的时空VLA，它使用锚点图像来增强视觉输入，以在整个执行过程中保留初始场景上下文，并添加一个轻量级的空间编码器，该编码器联合处理锚点帧和当前帧，以揭示episode中的几何关系。AnchorVLA4D基于Qwen2.5-VL骨干网络和基于扩散的动作头，不需要额外的传感模态（例如，深度或点云），并且引入的推理开销可以忽略不计。将锚定与冻结的预训练空间编码器相结合，可以进一步提高性能，在Simpler WidowX基准测试中实现了13.6%的改进，并在真实世界的任务中证实了该方法，实现了平均80%的成功率。

🔬 方法详解

问题定义：现有的视觉-语言-动作(VLA)模型在机器人操作任务中，主要依赖于当前帧的视觉信息和语言指令来生成动作。这种方法忽略了场景的初始状态和操作过程中的历史信息，导致模型在面对遮挡、视角变化等情况时，容易出现空间感知错误和操作失败。因此，需要解决VLA模型在机器人操作中缺乏时空推理能力的问题。

核心思路：AnchorVLA4D的核心思路是利用“锚点”图像来保留初始场景的上下文信息，并结合轻量级的空间编码器来提取当前帧和锚点帧之间的几何关系。通过这种方式，模型可以更好地理解场景的空间结构，并根据历史信息进行推理，从而提高操作的成功率。

技术框架：AnchorVLA4D的整体架构包括以下几个主要模块：1) 视觉输入模块：接收当前帧和锚点帧作为输入。2) 空间编码器：联合处理当前帧和锚点帧，提取空间特征。3) 语言编码器：编码语言指令。4) 多模态融合模块：融合视觉特征和语言特征。5) 动作生成模块：基于融合后的特征生成动作。该模型基于Qwen2.5-VL骨干网络，并使用基于扩散的动作头。

关键创新：AnchorVLA4D的关键创新在于引入了锚点图像和空间编码器，从而增强了VLA模型的时空推理能力。与传统的VLA模型相比，AnchorVLA4D能够更好地利用历史信息，从而提高操作的鲁棒性和成功率。此外，该模型不需要额外的传感模态（如深度信息），降低了硬件成本。

关键设计：AnchorVLA4D的关键设计包括：1) 锚点图像的选择：通常选择操作开始时的第一帧作为锚点图像。2) 空间编码器的结构：使用轻量级的卷积神经网络来提取空间特征。3) 损失函数的设计：使用标准的交叉熵损失函数来训练模型。4) 冻结预训练的空间编码器：为了进一步提高性能，可以冻结预训练的空间编码器，只训练其他模块。

🖼️ 关键图片

📊 实验亮点

AnchorVLA4D在Simpler WidowX基准测试中实现了13.6%的性能提升，证明了该方法在模拟环境中的有效性。在真实世界的机器人操作任务中，AnchorVLA4D也取得了平均80%的成功率，表明该方法具有良好的泛化能力。这些实验结果表明，AnchorVLA4D能够显著提高机器人的操作性能。

🎯 应用场景

AnchorVLA4D具有广泛的应用前景，可应用于各种机器人操作任务，例如：家庭服务机器人、工业机器人、医疗机器人等。该模型可以帮助机器人更好地理解人类指令，并在复杂环境中完成各种操作任务。未来，AnchorVLA4D还可以与其他技术相结合，例如：强化学习、模仿学习等，从而进一步提高机器人的智能化水平。

📄 摘要（原文）

Since current Vision-Language-Action (VLA) systems suffer from limited spatial perception and the absence of memory throughout manipulation, we investigate visual anchors as a means to enhance spatial and temporal reasoning within VLA policies for robotic manipulation. Conventional VLAs generate actions by conditioning on a single current frame together with a language instruction. However, since the frame is encoded as a 2D image, it does not contain detailed spatial information, and the VLA similarly lacks any means to incorporate past context. As a result, it frequently forgets objects under occlusion and becomes spatially disoriented during the manipulation process. Thus, we propose AnchorVLA4D, a simple spatial-temporal VLA that augments the visual input with an anchor image to preserve the initial scene context throughout execution, and adds a lightweight spatial encoder that jointly processes the anchor and current frames to expose geometric relationships within an episode. Built on a Qwen2.5-VL backbone with a diffusion-based action head, AnchorVLA4D requires no additional sensing modalities (e.g., depth or point clouds) and introduces negligible inference overhead. Combining anchoring with a frozen pretrained spatial encoder yields further gains, realizing a 13.6% improvement on the Simpler WidowX benchmark and confirming the approach on real-world tasks, where it achieved an average success rate of 80%.

AnchorVLA4D: an Anchor-Based Spatial-Temporal Vision-Language-Action Model for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理