TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

📄 arXiv: 2603.24584v1 📥 PDF

作者: Jiaying Zhou, Zhihao Zhan, Ruifeng Zhai, Qinhan Lyu, Hao Liu, Keze Wang, Liang Lin, Guangrun Wang

分类: cs.CV, cs.RO

发布日期: 2026-03-25


💡 一句话要点

提出TAG,通过目标无关引导提升VLA模型在复杂场景下的目标定位稳定性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 目标定位 干扰物抑制 推理时引导

📋 核心要点

  1. VLA模型在复杂场景中易受干扰物影响,导致目标定位失败,而非运动规划问题。
  2. TAG通过对比原始观察和擦除目标后的观察,利用差异作为引导信号,增强目标对象的影响。
  3. TAG无需修改模型结构,易于集成,并在LIBERO等基准测试中显著提升了鲁棒性。

📝 摘要(中文)

视觉-语言-动作(VLA)策略在将语言指令和视觉观察映射到机器人动作方面取得了显著进展,但其在具有干扰物的复杂场景中的可靠性会降低。通过分析失败案例,我们发现许多错误并非源于不可行的运动,而是源于实例级别的 grounding 失败:策略通常会产生看似合理的抓取轨迹,但最终会略微偏离目标,甚至落在错误的对象实例上。为了解决这个问题,我们提出了一种简单的推理时引导机制TAG(目标无关引导),它显式地减少了VLA策略中由干扰物和外观引起的偏差。受到无分类器引导(CFG)的启发,TAG对比了原始观察和对象擦除观察下的策略预测,并将其差异用作残差 steering 信号,从而增强了对象证据在决策过程中的影响。TAG不需要修改策略架构,并且可以通过最小的训练和推理更改与现有的VLA策略集成。我们在标准操作基准LIBERO、LIBERO-Plus和VLABench上评估了TAG,结果表明,TAG能够持续提高在复杂环境下的鲁棒性,并减少近失和错误对象执行。

🔬 方法详解

问题定义:VLA模型在复杂场景中,容易受到干扰物的影响,导致抓取目标错误,或者抓取位置偏移。现有的VLA模型在实例级别的grounding方面存在不足,无法准确区分目标物体和干扰物体,导致策略产生看似合理但实际上错误的动作序列。

核心思路:TAG的核心思路是借鉴classifier-free guidance的思想,通过对比原始场景和擦除目标场景的策略输出,得到一个残差信号,用于引导策略更加关注目标物体的信息。这样可以减少干扰物和外观对策略的影响,提高目标定位的准确性。

技术框架:TAG是一个推理时的引导机制,不需要修改VLA模型的训练过程。其主要流程如下:1. 输入原始视觉观察和语言指令到VLA策略中,得到一个动作预测。2. 对原始视觉观察进行处理,擦除目标物体的信息,得到一个修改后的视觉观察。3. 将修改后的视觉观察和语言指令输入到VLA策略中,得到另一个动作预测。4. 计算两个动作预测的差异,得到一个残差信号。5. 将残差信号添加到原始动作预测中,得到最终的动作预测。

关键创新:TAG最重要的创新点在于其目标无关性。它不需要预先知道目标物体的具体信息,而是通过对比原始场景和擦除目标场景的策略输出来学习目标物体的信息。这种方法可以适用于各种不同的目标物体,具有很强的泛化能力。此外,TAG是一种推理时的引导机制,不需要修改VLA模型的训练过程,易于集成到现有的VLA模型中。

关键设计:TAG的关键设计在于如何擦除目标物体的信息。论文中采用了一种简单有效的方法,即使用背景像素填充目标物体所在的区域。这种方法可以有效地消除目标物体对策略的影响,同时保持场景的整体结构。此外,残差信号的权重也是一个重要的参数,需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TAG在LIBERO、LIBERO-Plus和VLABench等标准操作基准测试中取得了显著的性能提升。实验结果表明,TAG能够有效减少近失和错误对象执行,提高机器人在复杂环境下的鲁棒性。具体而言,TAG在各个基准测试中均取得了超过5%的绝对性能提升,证明了其有效性和泛化能力。

🎯 应用场景

TAG技术可应用于各种机器人操作任务,尤其是在复杂、拥挤的环境中,例如家庭服务机器人、工业自动化和仓储物流等领域。通过提高机器人抓取和操作的准确性和鲁棒性,可以显著提升工作效率和安全性,并降低人工干预的需求。未来,该技术有望扩展到更复杂的任务,如多目标操作和动态环境下的操作。

📄 摘要(原文)

Vision--Language--Action (VLA) policies have shown strong progress in mapping language instructions and visual observations to robotic actions, yet their reliability degrades in cluttered scenes with distractors. By analyzing failure cases, we find that many errors do not arise from infeasible motions, but from instance-level grounding failures: the policy often produces a plausible grasp trajectory that lands slightly off-target or even on the wrong object instance. To address this issue, we propose TAG (Target-Agnostic Guidance), a simple inference-time guidance mechanism that explicitly reduces distractor- and appearance-induced bias in VLA policies. Inspired by classifier-free guidance (CFG), TAG contrasts policy predictions under the original observation and an object-erased observation, and uses their difference as a residual steering signal that strengthens the influence of object evidence in the decision process. TAG does not require modifying the policy architecture and can be integrated with existing VLA policies with minimal training and inference changes. We evaluate TAG on standard manipulation benchmarks, including LIBERO, LIBERO-Plus, and VLABench, where it consistently improves robustness under clutter and reduces near-miss and wrong-object executions.