VAT: Vision Action Transformer by Unlocking Full Representation of ViT
作者: Wenhao Li, Chengwei Ma, Weixin Mao
分类: cs.CV, cs.RO
发布日期: 2025-12-03 (更新: 2026-01-30)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Vision Action Transformer (VAT),充分利用ViT各层特征进行机器人动作学习。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人学习 视觉Transformer 模仿学习 动作生成 跨层融合
📋 核心要点
- 现有机器人学习方法通常仅利用ViT最后一层特征,忽略了ViT中间层包含的丰富视觉信息。
- VAT通过在ViT的每一层融合视觉特征和动作tokens,实现感知和动作生成的深度融合。
- VAT在模拟操作任务中取得了98.15%的平均成功率,超越了现有方法,证明了其有效性。
📝 摘要(中文)
在机器人学习中,Vision Transformers (ViTs) 已成为视觉感知的标准,但大多数方法仅使用最后一层的特征,从而丢弃了宝贵的信息。我们认为这提供了不充分的表示,并提出了 Vision Action Transformer (VAT),这是一种从 ViT 扩展而来的新型架构,可解锁 ViT 的完整特征层次结构。VAT 在所有 Transformer 层中处理具有视觉特征的专用动作 tokens,从而实现感知和动作生成的深度和渐进式融合。在一套模拟操作任务中,VAT 在四个 LIBERO 基准测试中实现了 98.15% 的平均成功率,通过优于 OpenVLA-OFT 等先前方法,建立了新的最先进水平。我们的工作不仅提出了一个强大的模仿学习模型,而且证明了利用视觉模型的完整“表示轨迹”对于推进机器人策略至关重要。
🔬 方法详解
问题定义:现有基于ViT的机器人学习方法,通常只使用ViT最后一层的特征进行策略学习,忽略了ViT网络中间层所包含的丰富的、不同抽象层次的视觉信息。这种做法导致策略学习的信息不足,限制了模型的性能。因此,如何充分利用ViT的完整特征表示,是本文要解决的关键问题。
核心思路:本文的核心思路是设计一种新的架构,能够有效地融合ViT每一层的视觉特征和动作信息。通过在ViT的每一层都引入专门的动作tokens,并将其与视觉特征进行交互,从而实现感知和动作生成的深度融合。这样,模型就可以利用ViT的完整特征层次结构,学习到更有效的机器人策略。
技术框架:VAT (Vision Action Transformer) 的整体架构基于标准的ViT,并对其进行了扩展。主要包含以下几个模块:1) ViT编码器:用于提取输入图像的视觉特征。2) 动作Token:一组可学习的向量,用于表示动作信息。3) 跨层融合模块:在ViT的每一层,将视觉特征和动作tokens进行融合,例如通过交叉注意力机制。4) 策略头:基于融合后的特征,预测机器人的动作。整个流程是:输入图像经过ViT编码器提取视觉特征,动作tokens与视觉特征在每一层进行融合,最终融合后的特征被送入策略头,预测机器人的动作。
关键创新:VAT最重要的技术创新点在于其跨层融合机制。与现有方法只使用ViT最后一层特征不同,VAT充分利用了ViT的完整特征层次结构,通过在每一层融合视觉特征和动作tokens,实现了感知和动作生成的深度融合。这种跨层融合机制使得模型能够学习到更有效的机器人策略。
关键设计:VAT的关键设计包括:1) 动作tokens的数量和维度:需要根据具体的任务进行调整。2) 跨层融合的方式:可以使用交叉注意力机制、拼接等方式。3) 损失函数:可以使用模仿学习常用的行为克隆损失函数,也可以结合强化学习的奖励信号进行训练。4) ViT的预训练:可以使用ImageNet等数据集进行预训练,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
VAT在LIBERO基准测试中取得了显著的成果,平均成功率达到了98.15%,超越了现有方法,例如OpenVLA-OFT。这一结果表明,VAT能够有效地利用ViT的完整特征表示,学习到更有效的机器人策略。代码已开源在https://github.com/sellerbubble/VAT。
🎯 应用场景
VAT具有广泛的应用前景,可以应用于各种机器人操作任务,例如物体抓取、装配、导航等。该研究的实际价值在于提高了机器人策略学习的效率和性能,使得机器人能够更好地理解环境并执行复杂的任务。未来,VAT可以进一步扩展到其他领域,例如自动驾驶、医疗机器人等。
📄 摘要(原文)
In robot learning, Vision Transformers (ViTs) are standard for visual perception, yet most methods discard valuable information by using only the final layer's features. We argue this provides an insufficient representation and propose the Vision Action Transformer (VAT), a novel architecture that is extended from ViT and unlocks the full feature hierarchy of ViT. VAT processes specialized action tokens with visual features across all transformer layers, enabling a deep and progressive fusion of perception and action generation. On a suite of simulated manipulation tasks, VAT achieves a 98.15\% average success rate across four LIBERO benchmarks, establishing a new state-of-the-art by outperforming prior methods like OpenVLA-OFT. Our work presents not only a powerful model for imitation learning but also demonstrates the critical importance of leveraging the complete ''representation trajectory'' of vision models to advance robotic policy. The GitHub URL for the project code is https://github.com/sellerbubble/VAT.