Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking

📄 arXiv: 2602.24143v1 📥 PDF

作者: David Emukpere, Romain Deffayet, Jean-Michel Renders

分类: cs.RO

发布日期: 2026-02-27


💡 一句话要点

多物体抓取诊断视觉-语言动作策略中受限的泛化能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言动作策略 机器人操作 泛化能力 多物体抓取 指令遵循

📋 核心要点

  1. 现有的视觉-语言动作策略可能过度依赖对象-位置相关性,导致泛化能力受限。
  2. 通过控制多物体抓取任务中的物体位置,评估策略在打破对象-位置关联时的性能。
  3. 实验表明,操作技能的掌握与指令遵循解耦,需要更细粒度的评估指标。

📝 摘要(中文)

视觉-语言动作(VLA)策略通常在操作基准测试中表现出强大的性能,只需相对较少的演示。然而,这是否反映了稳健的语言到对象的基础,或者依赖于在训练分布之外无法转移的对象-位置相关性,仍然不清楚。我们提出了一个受控的多物体抓取研究,逐步增加物体放置的可变性,直至完全的工作空间随机化,并评估保留的对象-位置配对,这些配对打破了熟悉的关联,而没有增加空间难度。在这些压力测试和数据缩放中,我们发现,对于代表性的VLA策略,包括SmolVLA和$π_{0.5}$,操作原语的执行在更困难的机制中仍然比指令条件下的任务成功更可靠,这表明操作技能的获取与指令遵循是分离的。我们建议使用任务阶梯和分解的指标来增强操作基准测试,这些指标分别测量原语执行和指令条件下的成功,以更好地诊断指令基础的泛化。

🔬 方法详解

问题定义:现有的视觉-语言动作(VLA)策略在操作任务中表现良好,但其泛化能力受到质疑。它们可能过度依赖训练数据中的对象-位置相关性,导致在新的、未见过的场景中表现不佳。因此,需要一种方法来诊断VLA策略在指令基础上的泛化能力,并区分操作技能和指令遵循能力。

核心思路:核心思路是通过设计一个受控的多物体抓取任务,逐步增加物体位置的随机性,打破训练数据中存在的对象-位置相关性。通过评估VLA策略在不同随机程度下的性能,可以衡量其对指令的真正理解和泛化能力,而不是仅仅依赖于记忆训练数据中的模式。

技术框架:该研究设计了一个多物体抓取环境,其中包含多个物体,并逐步增加物体位置的随机性。VLA策略需要根据指令选择并抓取指定的物体。研究使用不同的VLA策略,例如SmolVLA和$π_{0.5}$,作为基线进行评估。评估指标包括操作原语的执行成功率和指令条件下的任务成功率,以便区分操作技能和指令遵循能力。

关键创新:关键创新在于设计了一种受控的实验环境,可以系统地评估VLA策略在打破对象-位置相关性时的泛化能力。通过逐步增加物体位置的随机性,可以更清晰地诊断VLA策略的弱点,并区分操作技能和指令遵循能力。此外,提出了使用任务阶梯和分解的指标来增强操作基准测试,以更好地诊断指令基础的泛化。

关键设计:实验中,物体位置的随机性通过逐步增加物体放置的变异性来实现,直至完全的工作空间随机化。评估指标包括操作原语的执行成功率(例如,成功抓取物体)和指令条件下的任务成功率(例如,抓取正确的物体)。通过比较这两个指标,可以评估VLA策略的操作技能和指令遵循能力之间的差距。数据缩放实验也被用于评估数据量对泛化能力的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在物体位置完全随机化的情况下,VLA策略的操作原语执行成功率仍然较高,但指令条件下的任务成功率显著下降。这表明VLA策略的操作技能与指令遵循能力是解耦的。研究还发现,增加训练数据量并不能显著提高VLA策略的泛化能力,这进一步强调了对象-位置相关性对VLA策略性能的影响。

🎯 应用场景

该研究成果可应用于机器人操作、自动化装配、智能家居等领域。通过诊断VLA策略的泛化能力,可以开发更鲁棒、更可靠的机器人系统,使其能够适应各种复杂环境和任务需求。未来的研究可以进一步探索如何提高VLA策略的指令理解能力和泛化能力,例如通过引入更强的语言模型或使用更有效的训练方法。

📄 摘要(原文)

Vision-language action (VLA) policies often report strong manipulation benchmark performance with relatively few demonstrations, but it remains unclear whether this reflects robust language-to-object grounding or reliance on object--location correlations that do not transfer beyond the training distribution. We present a controlled multi-object picking study that progressively increases object placement variability up to full workspace randomization and evaluates held-out object--location pairings that break familiar associations without increasing spatial difficulty. Across these stress tests and data scaling, we find that for representative VLA policies, including SmolVLA and $π_{0.5}$, execution of the manipulation primitive remains substantially more reliable than instruction-conditioned task success in harder regimes, suggesting that manipulation skill acquisition is decoupled from instruction following. We recommend augmenting manipulation benchmarks with task ladders and decomposed metrics that separately measure primitive execution and instruction-conditioned success to better diagnose instruction-grounded generalization.