IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

📄 arXiv: 2605.14712v1 📥 PDF

作者: Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2026-05-14

备注: Code can be found in https://github.com/ZGC-EmbodyAI/IntentVLA


💡 一句话要点

IntentVLA:面向混淆机器人操作的短时程意图建模

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 视觉-语言动作策略 意图建模 历史条件建模

📋 核心要点

  1. 现有VLA策略在部分可观测性下易对意图重采样,导致动作序列冲突和执行不稳定。
  2. IntentVLA通过历史条件建模,将近期视觉观测编码为短时程意图表示,调节动作生成。
  3. AliasBench基准测试验证了IntentVLA在提高rollout稳定性和性能方面的有效性。

📝 摘要(中文)

机器人模仿学习数据通常是多模态的:相似的视觉-语言观测可能对应不同的动作序列,因为人类演示者具有不同的短时程意图、任务阶段或最近上下文。现有的基于帧条件视觉-语言动作策略(VLA)仅从当前观测和指令推断每个动作序列,在部分可观测情况下,可能在相邻的重规划步骤中对不同的意图进行重采样,导致序列间冲突和不稳定的执行。我们提出了IntentVLA,一个历史条件VLA框架,它将最近的视觉观测编码成一个紧凑的短时程意图表示,并使用它来调节动作序列的生成。此外,我们还在RoboTwin2上引入了AliasBench,一个包含12个任务的、感知歧义的基准测试,具有匹配的训练数据和评估环境,可以隔离短时程观测混淆。在AliasBench、SimplerEnv、LIBERO和RoboCasa上,IntentVLA提高了rollout的稳定性,并优于强大的VLA基线。

🔬 方法详解

问题定义:现有的视觉-语言动作策略(VLA)在机器人模仿学习中,尤其是在部分可观测的环境下,容易出现动作序列不稳定的问题。这是因为这些策略通常只依赖于当前的视觉观测和语言指令来生成动作,而忽略了历史信息和潜在的短时程意图。当相似的视觉-语言观测可能对应不同的动作序列时,策略可能会在相邻的重规划步骤中对不同的意图进行重采样,导致动作序列之间的冲突和不稳定的执行。

核心思路:IntentVLA的核心思路是通过引入历史条件建模,将最近的视觉观测编码成一个紧凑的短时程意图表示,并使用这个意图表示来调节动作序列的生成。这样,策略不仅可以考虑当前的观测和指令,还可以利用历史信息来推断潜在的意图,从而避免在相邻步骤中对不同的意图进行重采样,提高动作序列的稳定性和一致性。

技术框架:IntentVLA的整体框架是一个历史条件VLA框架,它主要包含以下几个模块:1) 视觉编码器:用于将视觉观测编码成视觉特征向量。2) 历史编码器:用于将最近的视觉特征向量序列编码成一个紧凑的短时程意图表示。3) 动作生成器:用于根据当前的视觉观测、语言指令和短时程意图表示来生成动作序列。框架的流程是:首先,视觉编码器将当前的视觉观测编码成视觉特征向量;然后,历史编码器将最近的视觉特征向量序列编码成短时程意图表示;最后,动作生成器根据当前的视觉观测、语言指令和短时程意图表示来生成动作序列。

关键创新:IntentVLA最重要的技术创新点在于引入了短时程意图表示,并将其用于调节动作序列的生成。与现有的VLA策略相比,IntentVLA不仅考虑了当前的观测和指令,还利用了历史信息来推断潜在的意图,从而提高了动作序列的稳定性和一致性。此外,AliasBench基准测试的提出也为评估和比较不同VLA策略在处理观测混淆方面的能力提供了一个标准化的平台。

关键设计:IntentVLA的关键设计包括:1) 历史编码器的选择:可以使用循环神经网络(RNN)或Transformer等模型来编码历史视觉特征向量序列。2) 短时程意图表示的维度:需要根据任务的复杂度和历史信息的长度来选择合适的维度。3) 动作生成器的设计:可以使用自回归模型或非自回归模型来生成动作序列。4) 损失函数的设计:可以使用模仿学习损失、强化学习损失或两者结合来训练模型。具体的参数设置、网络结构等技术细节需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IntentVLA在AliasBench、SimplerEnv、LIBERO和RoboCasa等多个基准测试中都取得了显著的性能提升。在AliasBench上,IntentVLA显著提高了rollout的稳定性,并优于强大的VLA基线。这些实验结果表明,IntentVLA能够有效地解决观测混淆问题,提高机器人操作的稳定性和可靠性。

🎯 应用场景

IntentVLA具有广泛的应用前景,例如在家庭服务机器人、工业机器人、自动驾驶等领域。它可以帮助机器人更好地理解人类的意图,从而更安全、更有效地完成各种任务。通过提高机器人操作的稳定性和可靠性,IntentVLA有望加速机器人技术在实际生活中的应用。

📄 摘要(原文)

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines