Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

作者: Peiju Liu, Jinming Liu, Xipeng Qiu, Xuanjing Huang

分类: cs.CV, cs.CL

发布日期: 2026-03-26

备注: 10 pages, 7 figures, preprint

💡 一句话要点

提出TIES框架，利用层间排序一致性提升VLA模型效率并超越注意力幅度选择。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 token缩减 注意力机制 层间一致性 机器人操作

📋 核心要点

VLA模型推理延迟高，现有token缩减方法依赖静态注意力幅度，忽略了其任务依赖性和潜在的性能退化。
TIES框架利用层间token排序一致性动态选择token，自适应平衡注意力幅度和排序一致性，无需额外训练。
实验表明，TIES在降低token使用量的同时，显著提升了VLA模型的平均成功率，并具有良好的泛化性。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在机器人操作中表现出色，但由于处理密集视觉token而导致推理延迟显著。现有的token缩减方法主要依赖于注意力幅度作为静态选择。本文挑战了这一假设，揭示了高注意力token具有任务依赖性，甚至会降低策略性能。为此，我们引入了TIES（Tau引导的层间高效选择），这是一个由层间token排序一致性引导的动态框架。通过自适应地平衡注意力幅度和排序一致性，TIES确保了鲁棒的token选择，而无需额外的训练。在CogACT + SIMPLER基准测试中，TIES将平均成功率提高了6％，同时减少了78％的token使用量，并展示了在各种解码器和基准测试中的强大泛化能力。

🔬 方法详解

问题定义：VLA模型在机器人操作等任务中表现出色，但由于需要处理大量的视觉token，导致推理延迟较高，难以满足实时性要求。现有的token缩减方法通常依赖于注意力机制的幅度大小来选择重要的token，这种方法是静态的，忽略了不同任务对token重要性的影响，甚至可能选择到对当前任务不利的token，从而降低模型性能。

核心思路：论文的核心思路是利用不同Transformer层之间token排序的一致性来动态选择token。作者观察到，虽然不同层对token的注意力幅度可能不同，但token的重要性排序在不同层之间具有一定的相关性。因此，通过衡量token在不同层之间的排序一致性，可以更鲁棒地选择对模型性能有益的token。同时，结合注意力幅度信息，可以进一步提升token选择的准确性。

技术框架：TIES框架主要包含以下几个步骤：1. 计算注意力幅度：对于每一层Transformer，计算每个token的注意力幅度。2. 计算排序一致性：计算每个token在不同层之间的排序一致性，可以使用Kendall's Tau相关系数等指标。3. 自适应平衡：根据一个可学习的参数Tau，自适应地平衡注意力幅度和排序一致性，得到每个token的最终得分。4. Token选择：根据token的最终得分，选择top-K个token作为输入，进行后续的计算。

关键创新：TIES框架的关键创新在于提出了利用层间token排序一致性进行token选择的方法。与现有方法相比，TIES框架是动态的，可以根据不同的任务自适应地选择token，避免了静态选择带来的问题。此外，TIES框架不需要额外的训练，可以直接应用于现有的VLA模型中。

关键设计：TIES框架的关键设计包括：1. 排序一致性度量：论文使用了Kendall's Tau相关系数来衡量token在不同层之间的排序一致性。2. 自适应平衡参数Tau：Tau是一个可学习的参数，用于平衡注意力幅度和排序一致性。论文使用了一个简单的线性层来预测Tau的值。3. Token选择策略：论文选择了top-K个token作为输入，K是一个超参数，可以根据不同的任务进行调整。

🖼️ 关键图片

📊 实验亮点

TIES在CogACT + SIMPLER基准测试中，将平均成功率提高了6％，同时减少了78％的token使用量。实验还表明，TIES具有良好的泛化能力，可以应用于不同的解码器和基准测试，而无需进行额外的训练。

🎯 应用场景

TIES框架可广泛应用于需要高效视觉信息处理的机器人操作、自动驾驶、视频理解等领域。通过降低计算复杂度，TIES能够提升VLA模型在资源受限设备上的部署能力，并加速模型的推理速度，从而实现更快速、更可靠的决策。

📄 摘要（原文）

Vision-Language-Action (VLA) models excel in robotic manipulation but suffer from significant inference latency due to processing dense visual tokens. Existing token reduction methods predominantly rely on attention magnitude as a static selection. In this work, we challenge this assumption, revealing that high-attention tokens are task-dependent and can even degrade policy performance. To address this, we introduce \textbf{TIES} (\textbf{T}au-guided \textbf{I}nter-layer \textbf{E}fficient \textbf{S}election), a dynamic framework guided by inter-layer token ranking consistency. By adaptively balancing attention magnitude with ranking consistency, TIES ensures robust token selection without requiring additional training. On the CogACT + SIMPLER benchmark, TIES improves average success rates by 6\% while reducing token usage by 78\%, and demonstrate strong generalization across diverse decoders and benchmarks.

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理