VAT: Vision Action Transformer by Unlocking Full Representation of ViT

📄 arXiv: 2512.06013v1 📥 PDF

作者: Wenhao Li, Chengwei Ma, Weixin Mao

分类: cs.CV, cs.RO

发布日期: 2025-12-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出Vision Action Transformer (VAT),充分利用ViT各层特征进行机器人动作学习。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人学习 Vision Transformer 模仿学习 视觉动作融合 分层特征表示

📋 核心要点

  1. 现有机器人学习方法通常仅利用ViT最后一层特征,忽略了ViT中间层所包含的丰富视觉信息。
  2. VAT通过在ViT的每一层融合视觉特征和动作tokens,实现了感知和动作生成的深度融合。
  3. 实验表明,VAT在模拟操作任务中取得了显著的性能提升,超越了现有方法,达到了新的SOTA。

📝 摘要(中文)

在机器人学习中,Vision Transformers (ViTs) 已成为视觉感知的标准,但大多数方法仅使用最后一层的特征,从而丢弃了宝贵的信息。我们认为这提供了不充分的表示,并提出了 Vision Action Transformer (VAT),这是一种从 ViT 扩展而来的新型架构,可解锁 ViT 的完整特征层次结构。VAT 使用跨所有 Transformer 层的视觉特征处理专门的动作 tokens,从而实现感知和动作生成的深度和渐进式融合。在一套模拟操作任务中,VAT 在四个 LIBERO 基准测试中实现了 98.15% 的平均成功率,通过优于 OpenVLA-OFT 等先前方法,建立了新的最先进水平。我们的工作不仅提出了一个强大的模仿学习模型,还证明了利用视觉模型的完整“表示轨迹”对于推进机器人策略至关重要。

🔬 方法详解

问题定义:现有基于ViT的机器人学习方法通常只使用ViT最后一层的特征,这导致了信息瓶颈,无法充分利用ViT的全部表征能力。这种做法忽略了ViT中间层所包含的丰富的视觉信息,限制了模型对环境的理解和对动作的规划能力。因此,如何有效利用ViT的完整特征层级结构成为了一个关键问题。

核心思路:VAT的核心思路是充分利用ViT的每一层特征,通过将视觉特征和动作tokens在每一层进行融合,实现感知和动作生成的深度融合。这种渐进式的融合方式允许模型在不同的抽象层次上理解环境,并生成更精确的动作。通过解锁ViT的完整特征层级结构,VAT能够获得更丰富的环境表征,从而提高机器人策略的性能。

技术框架:VAT的整体架构基于ViT,并引入了专门的动作tokens。首先,输入图像通过ViT进行编码,得到每一层的视觉特征。然后,动作tokens与每一层的视觉特征进行融合,融合后的特征被传递到下一层。在每一层,动作tokens都会根据视觉特征进行更新,从而实现感知和动作的渐进式融合。最终,融合后的特征被用于生成机器人的动作。

关键创新:VAT最重要的技术创新点在于其能够充分利用ViT的完整特征层级结构。与现有方法只使用ViT最后一层特征不同,VAT在每一层都融合了视觉特征和动作tokens,从而实现了感知和动作的深度融合。这种渐进式的融合方式允许模型在不同的抽象层次上理解环境,并生成更精确的动作。

关键设计:VAT的关键设计包括动作tokens的初始化方式、视觉特征和动作tokens的融合方式以及损失函数的设计。动作tokens的初始化方式会影响模型的学习效率和性能。视觉特征和动作tokens的融合方式决定了模型如何将感知信息和动作信息结合起来。损失函数的设计则决定了模型的学习目标。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

VAT在LIBERO基准测试中取得了显著的性能提升,平均成功率达到了98.15%,超越了现有方法,例如OpenVLA-OFT。这一结果表明,VAT能够有效利用ViT的完整特征层级结构,从而提高机器人策略的性能。实验结果充分证明了VAT的有效性和优越性。

🎯 应用场景

VAT在机器人操作、自动驾驶、智能制造等领域具有广泛的应用前景。它可以用于训练机器人完成各种复杂的任务,例如物体抓取、装配、导航等。通过利用视觉模型的完整表示轨迹,VAT可以提高机器人策略的性能和鲁棒性,从而实现更智能、更高效的自动化。

📄 摘要(原文)

In robot learning, Vision Transformers (ViTs) are standard for visual perception, yet most methods discard valuable information by using only the final layer's features. We argue this provides an insufficient representation and propose the Vision Action Transformer (VAT), a novel architecture that is extended from ViT and unlocks the full feature hierarchy of ViT. VAT processes specialized action tokens with visual features across all transformer layers, enabling a deep and progressive fusion of perception and action generation. On a suite of simulated manipulation tasks, VAT achieves a 98.15\% average success rate across four LIBERO benchmarks, establishing a new state-of-the-art by outperforming prior methods like OpenVLA-OFT. Our work presents not only a powerful model for imitation learning but also demonstrates the critical importance of leveraging the complete ''representation trajectory'' of vision models to advance robotic policy. The GitHub URL for the project code is https://github.com/sellerbubble/VAT.