LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

📄 arXiv: 2603.25399v1 📥 PDF

作者: Xinkai Wang, Chenyi Wang, Yifu Xu, Mingzhe Ye, Fu-Cheng Zhang, Jialin Tian, Xinyu Zhan, Lifeng Zhu, Cewu Lu, Lixin Yang

分类: cs.CV, cs.RO

发布日期: 2026-03-26

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LaMP:利用3D场景流作为潜在运动先验,学习视觉-语言-动作策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 机器人操作 3D场景流 运动先验 深度学习

📋 核心要点

  1. 现有VLA模型在学习复杂3D物理交互时存在隐式学习的局限性,导致在不熟悉的空间动力学下性能下降。
  2. LaMP通过引入运动专家,利用3D场景流作为潜在运动先验,显式地建模物理交互,提升了模型的泛化能力。
  3. 实验结果表明,LaMP在多个基准测试中优于现有VLA模型,并在OOD扰动下表现出更强的鲁棒性,成功率提升显著。

📝 摘要(中文)

本文提出了一种双专家视觉-语言-动作框架LaMP,它嵌入了密集的3D场景流作为机器人操作的潜在运动先验。现有的VLA模型直接从2D语义视觉特征回归动作,迫使它们隐式地学习复杂的3D物理交互。这种隐式学习策略在不熟悉的空间动力学下会退化。LaMP通过门控交叉注意力将流匹配的运动专家与策略预测的动作专家对齐来解决此限制。具体来说,运动专家生成一步部分去噪的3D场景流,并且其隐藏状态调节动作专家,而无需完全的多步重建。我们在LIBERO、LIBERO-Plus和SimplerEnv-WidowX模拟基准以及真实世界的实验中评估了LaMP。LaMP在LIBERO、LIBERO-Plus和SimplerEnv-WidowX基准测试中始终优于评估的VLA基线,在相同的训练预算下实现了最高的平均成功率。在LIBERO-Plus OOD扰动下,LaMP表现出更高的鲁棒性,比最强的先前基线平均提高了9.7%。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型通常直接从2D视觉特征回归动作,这使得模型需要隐式地学习复杂的3D物理交互。这种隐式学习方式在面对新的、不熟悉的空间动力学时,泛化能力较差,难以适应真实世界的复杂环境。因此,如何让VLA模型更好地理解和利用3D空间信息,从而提升其在复杂环境下的操作能力,是本文要解决的核心问题。

核心思路:LaMP的核心思路是引入一个“运动专家”(Motion Expert),利用3D场景流作为潜在的运动先验知识,显式地建模物理交互。通过将运动专家的输出与“动作专家”(Action Expert)对齐,LaMP能够更好地理解场景中的运动信息,从而更准确地预测动作。这种显式建模的方式能够提高模型对空间动力学的理解,从而提升其泛化能力和鲁棒性。

技术框架:LaMP框架包含两个主要模块:运动专家和动作专家。运动专家负责从视觉输入中预测3D场景流,即场景中每个像素点的运动矢量。动作专家则负责根据视觉输入和运动专家的输出,预测机器人需要执行的动作。这两个模块通过门控交叉注意力机制进行连接,使得动作专家能够有选择地利用运动专家的信息。整个框架的训练过程包括两个阶段:首先训练运动专家,使其能够准确地预测3D场景流;然后训练动作专家,使其能够根据视觉输入和运动专家的输出,预测正确的动作。

关键创新:LaMP的关键创新在于将3D场景流作为潜在的运动先验知识,并将其融入到VLA框架中。与以往直接从2D视觉特征回归动作的方法不同,LaMP通过显式地建模场景中的运动信息,提高了模型对空间动力学的理解。此外,LaMP还采用了门控交叉注意力机制,使得动作专家能够有选择地利用运动专家的信息,从而提高了模型的效率和准确性。

关键设计:在运动专家方面,LaMP采用了FlowNet3D网络结构,用于预测3D场景流。在动作专家方面,LaMP采用了Transformer网络结构,用于根据视觉输入和运动专家的输出,预测机器人需要执行的动作。损失函数包括场景流预测损失和动作预测损失。场景流预测损失用于衡量运动专家预测的3D场景流与真实场景流之间的差异。动作预测损失用于衡量动作专家预测的动作与真实动作之间的差异。门控交叉注意力机制的设计允许动作专家根据输入动态地选择性关注运动专家的输出,从而提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaMP在LIBERO、LIBERO-Plus和SimplerEnv-WidowX等多个模拟基准测试中取得了显著的性能提升,在相同的训练预算下实现了最高的平均成功率。特别是在LIBERO-Plus OOD扰动下,LaMP表现出更强的鲁棒性,比最强的先前基线平均提高了9.7%。这些实验结果表明,LaMP能够有效地利用3D场景流作为运动先验,从而提升机器人的操作能力。

🎯 应用场景

LaMP的研究成果可广泛应用于机器人操作领域,例如家庭服务机器人、工业自动化机器人和医疗机器人等。通过利用3D场景流作为运动先验,LaMP能够提升机器人在复杂环境下的操作能力,使其能够更好地理解和适应真实世界的物理交互。未来,LaMP有望推动机器人技术的发展,使其能够更好地服务于人类社会。

📄 摘要(原文)

We introduce \textbf{LaMP}, a dual-expert Vision-Language-Action framework that embeds dense 3D scene flow as a latent motion prior for robotic manipulation. Existing VLA models regress actions directly from 2D semantic visual features, forcing them to learn complex 3D physical interactions implicitly. This implicit learning strategy degrades under unfamiliar spatial dynamics. LaMP addresses this limitation by aligning a flow-matching \emph{Motion Expert} with a policy-predicting \emph{Action Expert} through gated cross-attention. Specifically, the Motion Expert generates a one-step partially denoised 3D scene flow, and its hidden states condition the Action Expert without full multi-step reconstruction. We evaluate LaMP on the LIBERO, LIBERO-Plus, and SimplerEnv-WidowX simulation benchmarks as well as real-world experiments. LaMP consistently outperforms evaluated VLA baselines across LIBERO, LIBERO-Plus, and SimplerEnv-WidowX benchmarks, achieving the highest reported average success rates under the same training budgets. On LIBERO-Plus OOD perturbations, LaMP shows improved robustness with an average 9.7% gain over the strongest prior baseline. Our project page is available at https://summerwxk.github.io/lamp-project-page/.