Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models

📄 arXiv: 2604.18000v1 📥 PDF

作者: Haiweng Xu, Sipeng Zheng, Hao Luo, Wanpeng Zhang, Ziheng Xi, Zongqing Lu

分类: cs.RO

发布日期: 2026-04-20


💡 一句话要点

提出BeTTER基准,揭示VLA模型在具身推理中存在的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身推理 视觉-语言-动作模型 机器人 基准测试 因果干预

📋 核心要点

  1. 现有VLA模型在静态机器人基准上表现出色,但缺乏对动态环境的真正具身推理能力。
  2. 提出BeTTER基准,通过因果干预和运动学隔离,区分高层推理和低层执行的失败。
  3. 实验表明,现有VLA模型在BeTTER基准上表现出严重的语义表征崩溃,揭示了架构瓶颈。

📝 摘要(中文)

近年来,视觉-语言-动作(VLA)模型在机器人基准测试中取得了显著成果,引发了人们对通用物理智能的乐观情绪。然而,最新证据表明,标准基准的成功与真正的具身推理之间存在系统性错位,这引发了人们对这些高分是否反映了真正的认知能力的质疑。为了解决这一问题,我们引入了BeTTER,这是一个用于测试机器人策略中真正具身推理的诊断基准。BeTTER应用有针对性的因果干预(例如,空间布局变化、时间外推),同时强制执行运动学隔离,以明确地将高层推理失败与低层执行限制分离。通过系统评估,我们发现最先进的VLA在动态场景中彻底失败,表现出严重的词汇-运动学捷径、行为惯性和语义特征崩溃。至关重要的是,我们的机制分析将这些症状追溯到基本的架构瓶颈——例如容量压缩和短视下采样——这些瓶颈系统地降低了模型的基础语义表示。我们证明,高度静态的评估协议通过允许优化过度拟合到感觉运动先验来有效地掩盖了这种退化。在真实机器人验证的支持下,我们的研究结果证实,这种表征崩溃不是模拟伪影,突出了未来VLA范式解决高频控制和高层推理之间结构性张力的关键需求。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在静态环境下的机器人任务中表现良好,但当环境变得动态或需要更复杂的推理时,它们的性能会显著下降。现有基准测试无法有效区分模型是真正具备了具身推理能力,还是仅仅利用了数据集中的捷径或先验知识。因此,需要一种新的基准来更准确地评估VLA模型的具身推理能力。

核心思路:BeTTER基准的核心思路是通过引入有针对性的因果干预来挑战VLA模型的推理能力。这些干预包括空间布局的变化和时间外推,旨在打破模型对静态环境的依赖,并迫使其进行更深层次的理解和推理。同时,通过运动学隔离,确保高层推理的失败不会被低层执行的限制所掩盖。

技术框架:BeTTER基准的整体框架包括以下几个关键模块:1) 环境设计:设计包含动态元素和需要复杂推理的任务环境。2) 因果干预:实施空间布局变化和时间外推等干预措施,改变环境的动态特性。3) 运动学隔离:确保机器人的运动学限制不会影响高层推理的评估。4) 评估指标:设计能够反映模型推理能力的评估指标,例如成功率、推理时间等。

关键创新:BeTTER基准的关键创新在于其采用的因果干预方法,这种方法能够有效地揭示VLA模型在动态环境下的推理缺陷。与传统的静态基准测试相比,BeTTER能够更准确地评估模型的真正具身推理能力。此外,BeTTER的运动学隔离设计确保了评估结果的可靠性。

关键设计:BeTTER基准的关键设计包括:1) 空间布局变化:例如,改变物体的位置或大小,迫使模型重新规划动作。2) 时间外推:例如,改变事件发生的顺序或时间间隔,迫使模型进行预测和适应。3) 运动学隔离:通过模拟或约束机器人的运动,确保高层推理的失败不会被低层执行的限制所掩盖。4) 评估指标:设计能够反映模型推理能力的评估指标,例如成功率、推理时间等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,最先进的VLA模型在BeTTER基准上表现出严重的性能下降,例如在动态场景中的成功率大幅降低。研究揭示了这些模型存在词汇-运动学捷径、行为惯性和语义特征崩溃等问题。通过机制分析,发现这些问题与模型的容量压缩和短视下采样等架构瓶颈有关。

🎯 应用场景

该研究成果可应用于机器人导航、智能制造、自动驾驶等领域,帮助开发更智能、更可靠的机器人系统。通过BeTTER基准,可以更好地评估和改进VLA模型的具身推理能力,从而推动机器人技术的发展,使其能够更好地适应复杂多变的现实环境,实现更高级别的自主性。

📄 摘要(原文)

Recent Vision-Language-Action (VLA) models report impressive success rates on standard robotic benchmarks, fueling optimism about general-purpose physical intelligence. However, recent evidence suggests a systematic misalignment between standard benchmark success and true embodied reasoning, raising the question of whether these high scores reflect genuine cognitive capability. To address this gap, we introduce BeTTER, a diagnostic Benchmark for Testing True Embodied Reasoning in robotic policies. BeTTER applies targeted causal interventions (e.g., spatial layout shifts, temporal extrapolation) while enforcing kinematic isolation to explicitly decouple high-level reasoning failures from low-level execution limits. Through systematic evaluation, we reveal that state-of-the-art VLAs catastrophically fail in dynamic scenarios, exhibiting severe lexical-kinematic shortcuts, behavioral inertia, and semantic feature collapse. Crucially, our mechanistic analysis traces these symptoms to fundamental architectural bottlenecks - such as capacity compression and myopic downsampling - which systematically degrade the model's foundational semantic representation. We demonstrate that highly static evaluation protocols effectively mask this degradation by allowing optimization to overfit to sensorimotor priors. Supported by real-world robotic validation, our findings confirm that this representational breakdown is not a simulation artifact, highlighting the critical need for future VLA paradigms to resolve the structural tension between high-frequency control and high-level reasoning.