Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

📄 arXiv: 2603.24941v1 📥 PDF

作者: Peiju Liu, Jinming Liu, Xipeng Qiu, Xuanjing Huang

分类: cs.CV, cs.CL

发布日期: 2026-03-26

备注: 10 pages, 7 figures, preprint


💡 一句话要点

提出TIES框架,利用层间排序一致性提升VLA模型效率并超越注意力幅度选择。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 token缩减 注意力机制 层间一致性 机器人操作

📋 核心要点

  1. VLA模型推理延迟高,现有token缩减方法依赖静态注意力幅度,忽略了其任务依赖性和潜在的性能退化。
  2. TIES框架利用层间token排序一致性动态选择token,自适应平衡注意力幅度和排序一致性,无需额外训练。
  3. 实验表明,TIES在降低token使用量的同时,显著提升了VLA模型的平均成功率,并具有良好的泛化性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作中表现出色,但由于处理密集视觉token而导致推理延迟显著。现有的token缩减方法主要依赖于注意力幅度作为静态选择。本文挑战了这一假设,揭示了高注意力token具有任务依赖性,甚至会降低策略性能。为此,我们引入了TIES(Tau引导的层间高效选择),这是一个由层间token排序一致性引导的动态框架。通过自适应地平衡注意力幅度和排序一致性,TIES确保了鲁棒的token选择,而无需额外的训练。在CogACT + SIMPLER基准测试中,TIES将平均成功率提高了6%,同时减少了78%的token使用量,并展示了在各种解码器和基准测试中的强大泛化能力。

🔬 方法详解

问题定义:VLA模型在机器人操作等任务中表现出色,但由于需要处理大量的视觉token,导致推理延迟较高,难以满足实时性要求。现有的token缩减方法通常依赖于注意力机制的幅度大小来选择重要的token,这种方法是静态的,忽略了不同任务对token重要性的影响,甚至可能选择到对当前任务不利的token,从而降低模型性能。

核心思路:论文的核心思路是利用不同Transformer层之间token排序的一致性来动态选择token。作者观察到,虽然不同层对token的注意力幅度可能不同,但token的重要性排序在不同层之间具有一定的相关性。因此,通过衡量token在不同层之间的排序一致性,可以更鲁棒地选择对模型性能有益的token。同时,结合注意力幅度信息,可以进一步提升token选择的准确性。

技术框架:TIES框架主要包含以下几个步骤:1. 计算注意力幅度:对于每一层Transformer,计算每个token的注意力幅度。2. 计算排序一致性:计算每个token在不同层之间的排序一致性,可以使用Kendall's Tau相关系数等指标。3. 自适应平衡:根据一个可学习的参数Tau,自适应地平衡注意力幅度和排序一致性,得到每个token的最终得分。4. Token选择:根据token的最终得分,选择top-K个token作为输入,进行后续的计算。

关键创新:TIES框架的关键创新在于提出了利用层间token排序一致性进行token选择的方法。与现有方法相比,TIES框架是动态的,可以根据不同的任务自适应地选择token,避免了静态选择带来的问题。此外,TIES框架不需要额外的训练,可以直接应用于现有的VLA模型中。

关键设计:TIES框架的关键设计包括:1. 排序一致性度量:论文使用了Kendall's Tau相关系数来衡量token在不同层之间的排序一致性。2. 自适应平衡参数Tau:Tau是一个可学习的参数,用于平衡注意力幅度和排序一致性。论文使用了一个简单的线性层来预测Tau的值。3. Token选择策略:论文选择了top-K个token作为输入,K是一个超参数,可以根据不同的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TIES在CogACT + SIMPLER基准测试中,将平均成功率提高了6%,同时减少了78%的token使用量。实验还表明,TIES具有良好的泛化能力,可以应用于不同的解码器和基准测试,而无需进行额外的训练。

🎯 应用场景

TIES框架可广泛应用于需要高效视觉信息处理的机器人操作、自动驾驶、视频理解等领域。通过降低计算复杂度,TIES能够提升VLA模型在资源受限设备上的部署能力,并加速模型的推理速度,从而实现更快速、更可靠的决策。

📄 摘要(原文)

Vision-Language-Action (VLA) models excel in robotic manipulation but suffer from significant inference latency due to processing dense visual tokens. Existing token reduction methods predominantly rely on attention magnitude as a static selection. In this work, we challenge this assumption, revealing that high-attention tokens are task-dependent and can even degrade policy performance. To address this, we introduce \textbf{TIES} (\textbf{T}au-guided \textbf{I}nter-layer \textbf{E}fficient \textbf{S}election), a dynamic framework guided by inter-layer token ranking consistency. By adaptively balancing attention magnitude with ranking consistency, TIES ensures robust token selection without requiring additional training. On the CogACT + SIMPLER benchmark, TIES improves average success rates by 6\% while reducing token usage by 78\%, and demonstrate strong generalization across diverse decoders and benchmarks.