ELAN4D: Embodiment-Centric 4D Supervision for Vision-Language-Action Models via Plug-and-Play Adaptation
作者: Zeyuan He, Bowen Yang, Zhirui Fang, Keru Zhou, Lei Jiang, Jingjing Qian, Fan Mo, Junchi Yan, Philip Torr, Xiu Li, Li Jiang, Jialin Yu
分类: cs.RO
发布日期: 2026-05-28
💡 一句话要点
ELAN4D:通过即插即用适配,实现以具身认知为中心的VLA模型4D监督
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 视觉-语言-动作模型 4D监督 具身认知 轨迹预测 分布外泛化 正向运动学
📋 核心要点
- 现有VLA模型缺乏对未来动态的显式建模,导致在分布外扰动下泛化能力不足。
- ELAN4D通过引入未来机器人关键点轨迹作为时空监督,增强VLA策略的鲁棒性。
- 实验表明,ELAN4D在多个数据集和真实场景中,显著提升了VLA模型在分布外扰动下的性能。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作方面展现了潜力,但现有策略大多通过直接从当前观察回归动作来进行反应式操作,而没有显式地建模未来动态,这限制了它们在分布外扰动下的泛化能力。为了解决这个问题,我们提出了ELAN4D,一个以具身认知为中心的4D感知训练框架,该框架通过将未来的机器人关键点轨迹作为预测时空监督来增强VLA策略。仅使用来自本体感受状态的正向运动学,我们就能以可忽略的预处理成本推导出机器人关键点(如关节和末端执行器)的3D位移轨迹。这些轨迹提供了度量和紧凑的监督,而无需外部跟踪器或重建。一个带有轻量级轨迹解码器的即插即用辅助分支将这种4D信号注入到动作专家中,同时通过梯度隔离保留预训练的视觉-语言骨干网络。轨迹解码器在推理过程中被丢弃,保持基本策略接口不变。在LIBERO、LIBERO-Plus、RoboTwin2.0和真实世界操作任务上的大量实验表明,ELAN4D始终优于强大的VLA基线,在分布外扰动(包括相机、背景和布局变化)下实现了最佳的整体性能和显著的提升。这些结果突出了以具身认知为中心的4D监督在构建更鲁棒和更具泛化能力的操作策略方面的有效性。
🔬 方法详解
问题定义:现有VLA模型主要依赖于当前观测直接回归动作,缺乏对未来状态的预测和规划能力。这种反应式策略在面对分布外扰动(例如,相机视角变化、背景干扰、场景布局改变)时,泛化性能显著下降。因此,如何提升VLA模型在复杂环境下的鲁棒性和泛化能力是一个关键问题。
核心思路:ELAN4D的核心思路是利用机器人自身的运动学信息,预测未来关键点的轨迹,并将这些轨迹作为额外的时空监督信号注入到VLA模型中。通过这种方式,模型可以学习到更丰富的动态信息,从而提升其对环境变化的适应能力。这种方法无需额外的外部传感器或复杂的环境重建,降低了部署成本。
技术框架:ELAN4D采用即插即用的架构,包含一个预训练的视觉-语言骨干网络和一个轻量级的轨迹解码器。首先,利用机器人本体感受信息和正向运动学计算未来关键点的3D位移轨迹。然后,将这些轨迹信息输入到轨迹解码器中,解码器将4D信号注入到动作专家中。为了避免影响预训练的视觉-语言骨干网络,采用了梯度隔离技术。在推理阶段,轨迹解码器被移除,只保留原始的VLA模型接口。
关键创新:ELAN4D的关键创新在于提出了以具身认知为中心的4D监督方法。与传统的监督学习方法不同,ELAN4D利用机器人自身的运动学信息生成未来轨迹作为监督信号,无需外部传感器或复杂的环境建模。此外,即插即用的架构设计使得ELAN4D可以方便地集成到现有的VLA模型中,而无需重新训练整个模型。
关键设计:轨迹解码器采用轻量级网络结构,以减少计算负担。损失函数包括轨迹预测损失和动作回归损失。梯度隔离通过停止梯度传播来实现,防止轨迹解码器的训练影响预训练的视觉-语言骨干网络。关键点轨迹的生成依赖于精确的机器人运动学模型和本体感受数据。
🖼️ 关键图片
📊 实验亮点
ELAN4D在LIBERO、LIBERO-Plus、RoboTwin2.0和真实世界操作任务上进行了广泛的实验验证。实验结果表明,ELAN4D consistently优于现有的VLA基线模型,尤其是在分布外扰动下,性能提升显著。例如,在相机视角变化、背景干扰和场景布局改变等情况下,ELAN4D的成功率提升了10%-20%。
🎯 应用场景
ELAN4D技术可广泛应用于各种机器人操作任务,尤其是在复杂、动态和未知的环境中。例如,在家庭服务机器人、工业自动化、医疗机器人等领域,该技术可以提升机器人的操作精度、鲁棒性和泛化能力。此外,该技术还可以应用于虚拟现实和增强现实等领域,提升虚拟角色的交互能力和真实感。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown promise for robotic manipulation, yet most existing policies operate reactively by directly regressing actions from current observations, without explicitly modeling future dynamics. This limits their ability to generalize under out-of-distribution perturbations. To address this issue, we propose ELAN4D, an embodiment-centric, 4D-aware training framework that enhances VLA policies with future robot keypoint tracks as predictive spatio-temporal supervision. Using only forward kinematics from proprioceptive states, we derive 3D displacement tracks of robot keypoints, such as joints and the end-effector, with negligible preprocess cost. These tracks provide metric and compact supervision without requiring external trackers or reconstruction. A plug-and-play auxiliary branch with a lightweight track decoder injects this 4D signal into the action expert while preserving the pretrained vision-language backbone through gradient isolation. The track decoder is discarded during inference, leaving the base policy interface unchanged. Extensive experiments on LIBERO, LIBERO-Plus, RoboTwin2.0 and real-world manipulation tasks demonstrate that ELAN4D consistently improves over strong VLA baselines, achieving the best overall performance and substantial gains under out-of-distribution perturbations, including camera, background, and layout shifts. These results highlight the effectiveness of embodiment-centric 4D supervision for building more robust and generalizable manipulation policies.