AttenA+: Rectifying Action Inequality in Robotic Foundation Models

📄 arXiv: 2605.13548v1 📥 PDF

作者: Daojie Peng, Fulong Ma, Jiahang Cao, Qiang Zhang, Xupeng Xie, Jian Guo, Ping Luo, Andrew F. Luo, Boyu Zhou, Jun Ma

分类: cs.RO, cs.AI

发布日期: 2026-05-13


💡 一句话要点

AttenA+:通过速度驱动的动作注意力,纠正机器人基础模型中的动作不平等性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人基础模型 动作注意力 速度驱动 物理先验 机器人控制 视觉-语言-动作模型 世界-动作模型

📋 核心要点

  1. 现有机器人基础模型在训练时平等对待所有动作,忽略了动作在物理层级上的重要性差异,导致性能受限。
  2. AttenA+通过速度驱动的动作注意力机制,根据动作速度调整训练权重,使模型更关注关键的低速动作。
  3. 实验表明,AttenA+能显著提升现有模型的性能,例如在Libero和RoboTwin 2.0基准上分别提升了1.5%和0.6%。

📝 摘要(中文)

现有的机器人基础模型虽然强大,但隐含地假设了时间同质性,即在优化过程中将所有动作视为同等重要。这种源于语言建模的“扁平”训练范式,对操作的底层物理层级结构漠不关心。实际上,机器人轨迹本质上是异构的,其中低速段通常通过需要精度的交互来决定任务成功,而高速运动则作为容错的过渡。这种均匀损失权重与物理关键性之间的不一致,从根本上限制了当前视觉-语言-动作(VLA)模型和世界-动作模型(WAM)在复杂、长时程任务中的性能。为了纠正这一点,我们引入了AttenA+,一个架构无关的框架,通过速度驱动的动作注意力来优先考虑运动学上关键的片段。通过基于逆速度场重新加权训练目标,AttenA+自然地将模型的学习能力与操作的物理需求对齐。作为一个即插即用的增强,AttenA+可以集成到现有的骨干网络中,而无需结构修改或额外的参数。大量的实验表明,AttenA+显著提高了当前最先进模型的上限。具体来说,它将Libero基准上的OpenVLA-OFT提高到98.6%(+1.5%),并将RoboTwin 2.0上的FastWAM提高到92.4%(+0.6%)。在Franka机械臂上的真实世界验证进一步展示了其鲁棒性和跨任务泛化能力。我们的工作表明,挖掘动作序列的内在结构先验,为标准缩放定律提供了一种高效的、物理感知的补充,为通用机器人控制开辟了一条新道路。

🔬 方法详解

问题定义:现有机器人基础模型在训练过程中,对所有动作赋予相同的权重,忽略了不同动作在任务中的重要性差异。例如,低速、精细的动作往往对任务成功至关重要,而高速的过渡动作则相对不重要。这种“扁平”的训练方式无法充分利用数据的物理结构信息,限制了模型的性能。

核心思路:AttenA+的核心思路是根据动作的速度来调整训练权重,即速度越低的动作,权重越高,反之亦然。这样,模型就能更加关注那些对任务成功至关重要的低速、精细动作,从而提高整体性能。这种方法模拟了人类在学习操作任务时,对关键动作的关注程度更高的现象。

技术框架:AttenA+是一个即插即用的框架,可以集成到现有的视觉-语言-动作(VLA)模型和世界-动作模型(WAM)中。它不需要修改模型的结构或增加额外的参数。其主要流程是:首先,计算机器人轨迹中每个动作的速度;然后,根据速度计算一个权重,速度越低,权重越高;最后,使用这个权重来调整训练损失,使得模型更加关注重要的低速动作。

关键创新:AttenA+的关键创新在于它利用了动作的速度作为一种先验知识,来指导模型的学习。与传统的平等对待所有动作的训练方式不同,AttenA+能够根据动作的物理特性,自适应地调整训练权重,从而提高模型的性能。这种方法不需要额外的标注或人工干预,能够自动地挖掘数据中的结构信息。

关键设计:AttenA+的关键设计在于如何计算动作的权重。论文中使用逆速度场来计算权重,即权重与速度成反比。具体来说,权重可以表示为 w = 1 / (v + ε),其中 v 是动作的速度,ε 是一个小的常数,用于防止除以零。此外,论文还探索了不同的速度计算方法和权重归一化方法,以进一步提高性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AttenA+在多个基准测试中取得了显著的性能提升。在Libero基准上,AttenA+将OpenVLA-OFT的性能提高到98.6%(+1.5%)。在RoboTwin 2.0基准上,AttenA+将FastWAM的性能提高到92.4%(+0.6%)。此外,在Franka机械臂上的真实世界验证也表明,AttenA+具有良好的鲁棒性和跨任务泛化能力。这些实验结果充分证明了AttenA+的有效性和优越性。

🎯 应用场景

AttenA+具有广泛的应用前景,可以应用于各种需要机器人进行复杂操作的场景,例如工业自动化、医疗手术、家庭服务等。通过提高机器人基础模型的性能,AttenA+可以使机器人更加智能、灵活和可靠,从而更好地完成各种任务。此外,AttenA+还可以促进机器人技术的进一步发展,为通用机器人控制开辟新的道路。

📄 摘要(原文)

Existing robotic foundation models, while powerful, are predicated on an implicit assumption of temporal homogeneity: treating all actions as equally informative during optimization. This "flat" training paradigm, inherited from language modeling, remains indifferent to the underlying physical hierarchy of manipulation. In reality, robot trajectories are fundamentally heterogeneous, where low-velocity segments often dictate task success through precision-demanding interactions, while high-velocity motions serve as error-tolerant transitions. Such a misalignment between uniform loss weighting and physical criticality fundamentally limits the performance of current Vision-Language-Action (VLA) models and World-Action Models (WAM) in complex, long-horizon tasks. To rectify this, we introduce AttenA+, an architecture-agnostic framework that prioritizes kinematically critical segments via velocity-driven action attention. By reweighting the training objective based on the inverse velocity field, AttenA+ naturally aligns the model's learning capacity with the physical demands of manipulation. As a plug-and-play enhancement, AttenA+ can be integrated into existing backbones without structural modifications or additional parameters. Extensive experiments demonstrate that AttenA+ significantly elevates the ceilings of current state-of-the-art models. Specifically, it improves OpenVLA-OFT to 98.6% (+1.5%) on the Libero benchmark and pushes FastWAM to 92.4% (+0.6%) on RoboTwin 2.0. Real-world validation on a Franka manipulator further showcases its robustness and cross-task generalization. Our work suggests that mining the intrinsic structural priors of action sequences offers a highly efficient, physics-aware complement to standard scaling laws, paving a new path for general-purpose robotic control.