EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control

📄 arXiv: 2605.21862v1 📥 PDF

作者: Chushan Zhang, Ruihan Lu, Jinguang Tong, Xuesong Li, Yikai Wang, Hongdong Li

分类: cs.RO, cs.AI

发布日期: 2026-05-21


💡 一句话要点

EvoScene-VLA:在动作解码器内演化场景信念,实现分块机器人控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 视觉语言动作 场景理解 分块策略 循环神经网络

📋 核心要点

  1. 现有分块VLA策略忽略了机器人动作对场景几何的影响,导致控制性能受限。
  2. EvoScene-VLA通过循环场景前缀,在动作解码器中维护和更新场景状态,从而实现跨块的场景理解。
  3. 实验表明,EvoScene-VLA在RoboTwin模拟和Galaxea R1-Lite真实机器人上均取得了显著的性能提升。

📝 摘要(中文)

分块视觉-语言-动作(VLA)策略预测多步机器人控制,每次更新仅以当前视觉观察为条件。然而,机器人动作会导致接触、遮挡和物体运动,后续决策所依赖的几何结构可能在下一次视觉更新到达之前发生变化。空间VLA改进了当前帧的几何结构,时间VLA聚合了过去的帧,但两者都无法在块之间维持一个动作更新的场景先验。我们提出了EvoScene-VLA,它在控制调用之间保持一个持久的、动作更新的场景状态。其循环场景前缀在块之间传递一个几何感知的场景状态。在每次视觉-语言模型(VLM)调用时,VLM将来自当前观察的场景信息与来自前一个块的动作更新的先验相结合;动作解码器输出下一个动作块和一个紧凑的场景更新。这个更新成为下一个先验,VLM在下一次调用到达时根据新的观察对其进行校正。因此,每个控制调用都从一个反映最近动作和新鲜视觉证据的场景先验开始。在训练期间, extbf{场景预测器}提供未来的场景token目标,几何锚点将场景槽与冻结的深度和3D教师对齐。我们在部署时丢弃这两个模块。在31个RoboTwin任务中,EvoScene-VLA在固定评估中将平均成功率从87.2%提高到89.1%,在随机评估中从86.1%提高到88.5%。在Galaxea R1-Lite真实机器人上,EvoScene-VLA优于所有基线。

🔬 方法详解

问题定义:现有的分块视觉-语言-动作(VLA)策略在预测机器人控制时,主要依赖于当前时刻的视觉信息,忽略了机器人动作对环境造成的改变,例如物体移动、遮挡等。这些改变会影响后续控制决策的准确性,尤其是在需要长期规划的任务中。因此,如何有效地利用历史动作信息,维护和更新场景状态,是提升分块VLA策略性能的关键挑战。

核心思路:EvoScene-VLA的核心思路是在动作解码器内部维护一个可演化的场景信念。通过引入循环场景前缀,将前一个动作块更新后的场景状态传递到下一个控制块。这样,每个控制块在进行决策时,不仅可以利用当前的视觉信息,还可以参考历史动作对场景的影响,从而做出更准确的控制决策。

技术框架:EvoScene-VLA的整体框架包括视觉-语言模型(VLM)和动作解码器。VLM负责从当前视觉观察中提取场景信息,动作解码器则结合VLM提取的场景信息和来自前一个块的动作更新的场景先验,输出下一个动作块和一个紧凑的场景更新。这个场景更新会成为下一个控制块的场景先验,形成一个循环更新的过程。在训练阶段,还包括场景预测器和几何锚点两个辅助模块,用于提升场景表示的质量。

关键创新:EvoScene-VLA的关键创新在于其循环场景前缀的设计,它允许在分块VLA策略中维护和更新场景状态。与传统的空间或时间VLA方法不同,EvoScene-VLA能够显式地建模动作对场景的影响,并在控制过程中不断地修正和完善场景信念。这种方法使得机器人能够更好地理解和适应动态变化的环境。

关键设计:在训练阶段,EvoScene-VLA使用了场景预测器和几何锚点两个辅助模块。场景预测器通过预测未来的场景token来提升场景表示的质量。几何锚点则利用冻结的深度和3D教师信息,将场景槽与真实的几何信息对齐。在部署阶段,这两个模块会被移除,以保证模型的效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoScene-VLA在RoboTwin模拟环境中进行了广泛的实验,结果表明,在固定评估中,EvoScene-VLA将平均成功率从87.2%提高到89.1%,在随机评估中从86.1%提高到88.5%。此外,在Galaxea R1-Lite真实机器人上的实验也证明了EvoScene-VLA的有效性,其性能优于所有基线方法,验证了该方法在真实环境中的泛化能力。

🎯 应用场景

EvoScene-VLA具有广泛的应用前景,例如家庭服务机器人、工业自动化机器人、以及其他需要在复杂动态环境中进行操作的机器人。通过提升机器人对场景的理解和预测能力,EvoScene-VLA可以帮助机器人更好地完成各种任务,例如物体抓取、装配、导航等,从而提高生产效率和服务质量。未来,该技术有望应用于更复杂的机器人系统,例如自动驾驶汽车和无人机。

📄 摘要(原文)

Chunked vision-language-action (VLA) policies predict multi-step robot controls, conditioning each update on the current visual observation alone. Yet robot actions cause contact, occlusion, and object motion, and the geometry that later decisions depend on can change before the next visual update arrives. Spatial VLAs improve current-frame geometry. Temporal VLAs aggregate past frames. Neither maintains an action-updated scene prior across chunks. We argue for a persistent action-updated scene state across control calls, and introduce EvoScene-VLA. Its recurrent scene prefix carries a geometry-aware scene state across chunks. At each vision-language model (VLM) call, the VLM combines scene information from the current observation with the action-updated prior from the previous chunk; the action decoder outputs both the next action chunk and a compact scene update. This update becomes the next prior, which the VLM corrects against the new observation when the next call arrives. Each control call therefore starts from a scene prior that reflects both recent actions and fresh visual evidence. During training, \textbf{Scene Predictor} supplies future scene-token targets, and Geometric Anchor aligns scene slots with frozen depth and 3D teachers. We discard both modules at deployment. On 31 RoboTwin tasks, EvoScene-VLA raises average success from 87.2% to 89.1% in fixed evaluation and from 86.1% to 88.5% in randomized evaluation. On the Galaxea R1-Lite real robot, EvoScene-VLA outperforms all baselines.