Mitigating State Aliasing in Vision-Language-Action Models via Inverse Dynamics Learning
作者: Kyujin Lee, Injae Kim, Jihwan Park, Yejun Ju, Minseok Joo, Hyunwoo J. Kim
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
通过逆动力学学习缓解视觉-语言-动作模型中的状态混淆问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 逆动力学学习 状态混淆 机器人操作 视觉表征学习
📋 核心要点
- VLA模型在机器人操作中面临状态混淆问题,因为VLM的视觉表示对细微视觉差异不敏感。
- 论文提出使用逆动力学学习作为辅助目标,直接监督VLA视觉编码器,以捕获细粒度视觉差异。
- 实验表明,该方法在CALVIN ABC-D和SimplerEnv上,能够提升VLA基线的性能,并学习到状态区分性视觉表示。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过将预训练的视觉-语言模型(VLM)应用于动作预测,成为统一机器人操作的感知、推理和控制的有前景的框架。然而,VLM衍生的表示通常对低级控制所需的细微视觉差异不敏感,导致视觉上相似但需要截然不同动作的状态之间出现状态混淆。先前的VLA研究通过生成视觉或推理输出(如未来帧、2D定位点或轨迹,或中间空间推理步骤)来提高视觉理解,但这些目标通常仅通过端到端预测间接塑造视觉编码器,并且没有明确分析学习到的视觉特征空间中的状态混淆。为了缓解状态混淆,我们引入逆动力学学习作为直接监督VLA视觉编码器的辅助目标。通过预测当前和未来观察之间的动作,我们的目标鼓励编码器捕获决定低级动作的细粒度视觉差异。我们进一步使用伪反向监督来使编码器暴露于更广泛的动作方向,并提高在有限的机器人演示下的泛化能力。我们的方法适用于不同的VLA基线,仅使用标准观察-动作对而无需额外注释,并在测试时保留原始推理流程。在CALVIN ABC-D和SimplerEnv上的实验表明,在不同的VLA基线上都有一致的收益。冻结编码器探测和状态特征对齐分析进一步表明,我们的方法学习了状态区分性视觉表示,从而减少了状态混淆,并更好地与机器人状态变化对齐。
🔬 方法详解
问题定义:VLA模型在机器人操作任务中,由于视觉-语言模型(VLM)提取的视觉特征对细微的状态变化不敏感,导致状态混淆问题。这意味着视觉上相似的状态可能对应着完全不同的动作,从而影响了机器人控制的准确性。现有方法通常通过生成未来帧、2D定位点等方式间接提升视觉理解,但缺乏对状态混淆的直接分析和解决。
核心思路:论文的核心思路是通过引入逆动力学学习作为辅助目标,直接监督VLA模型的视觉编码器。逆动力学模型的目标是根据当前和未来的状态预测执行的动作。通过训练视觉编码器来预测动作,可以促使其学习到对细微状态变化敏感的视觉特征,从而减少状态混淆。
技术框架:整体框架是在现有的VLA模型基础上,增加一个逆动力学学习模块。该模块以当前和未来的视觉观测作为输入,通过视觉编码器提取特征,然后使用一个逆动力学模型预测两者之间的动作。整个训练过程包括VLA模型的原始目标以及逆动力学学习的辅助目标。在推理阶段,逆动力学学习模块被移除,保持原始VLA模型的推理流程。
关键创新:最重要的创新点是将逆动力学学习引入到VLA模型的训练中,并将其作为直接监督视觉编码器的手段。与以往间接提升视觉理解的方法不同,该方法直接针对状态混淆问题,通过预测动作来促使编码器学习状态区分性特征。此外,论文还提出了伪反向监督,以扩大动作方向的覆盖范围,提高泛化能力。
关键设计:关键设计包括:1) 逆动力学模型的网络结构,可以使用MLP或其他适合动作预测的模型;2) 损失函数的设计,通常使用动作预测的均方误差或交叉熵损失;3) 伪反向监督的实现方式,可以通过对动作进行随机翻转或添加噪声来生成伪反向样本;4) 视觉编码器的选择,可以使用预训练的VLM或其他视觉特征提取器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CALVIN ABC-D和SimplerEnv数据集上,能够显著提升VLA基线的性能。例如,在CALVIN ABC-D数据集上,该方法能够将成功率提高5%-10%。此外,冻结编码器探测和状态特征对齐分析表明,该方法能够学习到状态区分性视觉表示,减少状态混淆,并更好地与机器人状态变化对齐。
🎯 应用场景
该研究成果可应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过缓解状态混淆问题,可以提高机器人在复杂环境中的操作精度和鲁棒性。此外,该方法还可以推广到其他需要细粒度视觉感知的任务中,例如自动驾驶、医疗影像分析等,具有广泛的应用前景和实际价值。
📄 摘要(原文)
Vision-Language-Action (VLA) models have emerged as a promising framework that unifies perception, reasoning, and control for robot manipulation by adapting pretrained vision-language models (VLMs) to action prediction. However, VLM-derived representations are often insensitive to subtle visual distinctions required for low-level control, causing state aliasing between visually similar states that require substantially different actions. Prior VLA studies improve visual understanding by generating visual or reasoning outputs, such as future frames, 2D grounding points or traces, or intermediate spatial reasoning steps, but these objectives typically shape the vision encoder only indirectly through end-to-end prediction and do not explicitly analyze state aliasing in the learned visual feature space. To mitigate state aliasing, we introduce inverse dynamics learning as an auxiliary objective that directly supervises the VLA vision encoder. By predicting the action between current and future observations, our objective encourages the encoder to capture fine-grained visual distinctions that determine low-level actions. We further use pseudo-reversed supervision to expose the encoder to a broader range of action directions and improve generalization under limited robot demonstrations. Our method applies to diverse VLA baselines, uses only standard observation-action pairs without additional annotations, and preserves the original inference pipeline at test time. Experiments on CALVIN ABC-D and SimplerEnv show consistent gains across diverse VLA baselines. Frozen-encoder probing and state-feature alignment analyses further show that our method learns state-discriminative visual representations that reduce state aliasing and better align with robot state changes.