CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors
作者: Dachong Li, ZhuangZhuang Chen, Jin Zhang, Jianqiang Li
分类: cs.RO, cs.AI
发布日期: 2026-04-23
💡 一句话要点
CorridorVLA:通过稀疏锚点显式空间约束生成动作头,提升VLA模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: VLA模型 空间约束 动作生成 稀疏锚点 流匹配 机器人操作 LIBERO-Plus
📋 核心要点
- VLA模型缺乏对动作生成的显式空间约束,导致控制精度不足,难以应对复杂任务。
- CorridorVLA通过预测稀疏空间锚点,定义动作执行的容差区域,显式地约束动作生成过程。
- 在LIBERO-Plus基准测试中,CorridorVLA显著提升了SmolVLA和GR00T的成功率,最高提升达12.4%。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通常使用中间表示来连接多模态输入和连续控制,但空间引导通常通过潜在特征隐式注入。我们提出了$CorridorVLA$,它预测稀疏空间锚点作为增量物理变化(例如,$Δ$-位置),并使用它们在训练目标中为动作生成施加显式的容差区域。这些锚点定义了一个走廊,引导一个流匹配动作头:轨迹的隐含空间演化超出走廊范围会收到修正梯度,而与接触和执行噪声的微小偏差是被允许的。在更具挑战性的LIBERO-Plus基准测试中,CorridorVLA在SmolVLA和GR00T上都产生了持续的增益,相对于相应的基线,成功率提高了$3.4\%$--$12.4\%$;值得注意的是,我们的GR00T-Corr变体的成功率达到了$83.21\%$。这些结果表明,与动作对齐的物理线索可以为生成动作策略提供直接且可解释的约束,补充了视觉或潜在形式编码的空间引导。
🔬 方法详解
问题定义:VLA模型在连接多模态输入与连续控制时,通常依赖隐式的空间引导,缺乏对动作执行过程的显式空间约束。这导致模型在复杂任务中难以生成精确的控制动作,容易偏离目标轨迹。现有方法难以有效处理执行噪声和环境变化带来的影响。
核心思路:CorridorVLA的核心思想是通过预测稀疏的空间锚点,定义一个“走廊”,约束动作的生成过程。这些锚点代表了期望的物理变化(例如位置增量),模型生成的动作轨迹必须位于该走廊内。这种显式的空间约束能够提高动作的精确性和鲁棒性。
技术框架:CorridorVLA的整体框架包括以下几个主要模块:1) 视觉和语言输入编码器:用于提取视觉和语言特征。2) 稀疏锚点预测器:预测一系列稀疏的空间锚点,代表期望的物理变化。3) 流匹配动作头:基于视觉、语言特征和空间锚点,生成连续的控制动作。4) 走廊约束:定义一个基于锚点的容差区域,对超出该区域的动作轨迹施加惩罚。
关键创新:CorridorVLA的关键创新在于引入了显式的空间约束,通过稀疏锚点定义动作执行的容差区域。与以往依赖隐式空间引导的方法不同,CorridorVLA直接对动作轨迹的空间演化进行约束,提高了动作的精确性和可解释性。这种方法允许模型在一定程度上容忍执行噪声和环境变化,提高了鲁棒性。
关键设计:CorridorVLA的关键设计包括:1) 稀疏锚点的数量和位置:需要根据任务的复杂程度进行调整。2) 容差区域的定义:可以使用高斯分布或其他概率模型来定义。3) 损失函数:包括动作生成损失和走廊约束损失,后者用于惩罚超出容差区域的动作轨迹。4) 流匹配动作头:可以使用不同的网络结构,例如Transformer或循环神经网络。
🖼️ 关键图片
📊 实验亮点
CorridorVLA在LIBERO-Plus基准测试中取得了显著的性能提升。与SmolVLA和GR00T相比,CorridorVLA的成功率分别提高了3.4%和12.4%。值得注意的是,GR00T-Corr变体的成功率达到了83.21%,表明该方法能够有效地提高VLA模型的性能。
🎯 应用场景
CorridorVLA具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。它可以用于提高机器人在复杂环境中的控制精度和鲁棒性,使其能够更好地完成各种任务。此外,该方法还可以用于生成更自然、更可控的虚拟角色动作,提升用户体验。
📄 摘要(原文)
Vision--Language--Action (VLA) models often use intermediate representations to connect multimodal inputs with continuous control, yet spatial guidance is often injected implicitly through latent features. We propose $CorridorVLA$, which predicts sparse spatial anchors as incremental physical changes (e.g., $Δ$-positions) and uses them to impose an explicit tolerance region in the training objective for action generation. The anchors define a corridor that guides a flow-matching action head: trajectories whose implied spatial evolution falls outside it receive corrective gradients, while minor deviations from contacts and execution noise are permitted. On the more challenging LIBERO-Plus benchmark, CorridorVLA yields consistent gains across both SmolVLA and GR00T, improving success rate by $3.4\%$--$12.4\%$ over the corresponding baselines; notably, our GR00T-Corr variant reaches a success rate of $83.21\%$. These results indicate that action-aligned physical cues can provide direct and interpretable constraints for generative action policies, complementing spatial guidance encoded in visual or latent forms. Code is available at https://github.com/corridorVLA.