Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

📄 arXiv: 2603.15618v1 📥 PDF

作者: Yulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

DeepVision-VLA:增强视觉基础表示,提升视觉-语言-动作模型的操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 视觉基础模型 Transformer 注意力机制 视觉剪枝 多模态融合

📋 核心要点

  1. 现有VLA模型对视觉信息的利用不足,尤其是在深层网络中,视觉token的敏感性降低,限制了复杂操作的性能。
  2. DeepVision-VLA通过VL-MoT框架,在视觉基础模型和VLA骨干网络之间建立共享注意力,将多层次视觉特征注入到VLA骨干网络的深层。
  3. DeepVision-VLA引入AGVP,利用浅层注意力剪除不相关视觉token,保留关键视觉线索,并在模拟和真实世界任务中取得了显著的性能提升。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为机器人操作领域中一种有前景的范例,其中可靠的动作预测关键在于准确地解释和整合基于语言指令的视觉观察。尽管最近的工作试图增强VLA模型的视觉能力,但大多数方法将LLM骨干网络视为黑盒,对视觉信息如何融入动作生成过程的理解有限。因此,我们对不同动作生成范例的多个VLA模型进行了系统分析,发现视觉token的敏感性在动作生成过程中随着网络深度的增加而逐渐降低。受此启发,我们提出了DeepVision-VLA,它建立在视觉-语言混合Transformer(VL-MoT)框架之上。该框架实现了视觉基础模型和VLA骨干网络之间的共享注意力,将来自视觉专家的多层次视觉特征注入到VLA骨干网络的更深层,从而增强视觉表示,以实现精确和复杂的操作。此外,我们引入了动作引导的视觉剪枝(AGVP),它利用浅层注意力来剪除不相关的视觉token,同时保留与任务相关的token,以最小的计算开销加强操作的关键视觉线索。DeepVision-VLA在模拟和真实世界任务中分别优于现有最先进的方法9.0%和7.5%,为视觉增强型VLA模型的设计提供了新的见解。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人操作任务中,对视觉信息的利用存在瓶颈。尽管已经有一些工作致力于提升VLA模型的视觉能力,但它们通常将大型语言模型(LLM)骨干网络视为黑盒,缺乏对视觉信息如何有效融入动作生成过程的深入理解。尤其是在VLA模型的深层网络中,视觉token的敏感性逐渐降低,导致模型难以准确理解复杂的视觉场景,从而影响了其在精确操作任务中的表现。

核心思路:DeepVision-VLA的核心思路是通过增强VLA模型深层网络的视觉表示能力,从而提升其在复杂操作任务中的性能。该方法通过一个视觉-语言混合Transformer(VL-MoT)框架,在视觉基础模型和VLA骨干网络之间建立共享注意力机制,使得视觉信息能够更有效地传递到VLA骨干网络的深层。此外,还引入了动作引导的视觉剪枝(AGVP)策略,用于过滤掉不相关的视觉信息,突出关键的视觉线索。

技术框架:DeepVision-VLA的整体框架包含以下几个主要模块:1) 视觉基础模型:用于提取输入图像的视觉特征。2) VL-MoT框架:该框架是DeepVision-VLA的核心,它通过共享注意力机制,将视觉基础模型提取的视觉特征注入到VLA骨干网络的深层。3) VLA骨干网络:负责接收视觉和语言信息,并生成相应的动作指令。4) AGVP模块:用于剪除不相关的视觉token,保留关键的视觉线索。整个流程是,首先通过视觉基础模型提取视觉特征,然后通过VL-MoT框架将视觉特征注入到VLA骨干网络中,同时利用AGVP模块过滤掉不相关的视觉信息,最后由VLA骨干网络生成动作指令。

关键创新:DeepVision-VLA的关键创新在于以下两点:1) VL-MoT框架:通过共享注意力机制,实现了视觉基础模型和VLA骨干网络之间的深度融合,使得视觉信息能够更有效地传递到VLA骨干网络的深层。这与现有方法将LLM骨干网络视为黑盒的做法不同,能够更充分地利用视觉信息。2) AGVP模块:通过动作引导的视觉剪枝,能够有效地过滤掉不相关的视觉信息,突出关键的视觉线索,从而提高模型的性能和效率。

关键设计:在VL-MoT框架中,使用了多层Transformer结构,每一层都包含一个自注意力模块和一个交叉注意力模块。自注意力模块用于处理视觉特征或语言特征,交叉注意力模块用于实现视觉特征和语言特征之间的交互。AGVP模块利用浅层注意力权重来评估每个视觉token的重要性,并根据重要性得分来决定是否剪除该token。具体的剪枝策略是,保留得分最高的top-k个token,其余的token则被剪除。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepVision-VLA在模拟和真实世界的机器人操作任务中均取得了显著的性能提升。在模拟环境中,DeepVision-VLA的性能比现有最先进的方法提高了9.0%。在真实世界环境中,DeepVision-VLA的性能比现有最先进的方法提高了7.5%。这些结果表明,DeepVision-VLA能够有效地增强VLA模型的视觉表示能力,从而提升其在复杂操作任务中的性能。

🎯 应用场景

DeepVision-VLA在机器人操作领域具有广泛的应用前景,例如工业自动化、家庭服务机器人、医疗机器人等。它可以帮助机器人更好地理解人类的指令,并根据视觉信息执行复杂的任务,从而提高机器人的智能化水平和工作效率。未来,该技术还可以应用于自动驾驶、智能监控等领域。

📄 摘要(原文)

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose \textbf{DeepVision-VLA}, built on a \textbf{Vision-Language Mixture-of-Transformers (VL-MoT)} framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce \textbf{Action-Guided Visual Pruning (AGVP)}, which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.