GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

📄 arXiv: 2512.16811v1 📥 PDF

作者: Jingjing Qian, Boyao Han, Chen Shi, Lei Xiao, Long Yang, Shaoshuai Shi, Li Jiang

分类: cs.CV, cs.RO

发布日期: 2025-12-18


💡 一句话要点

GeoPredict:利用预测运动学和3D高斯几何实现精确的VLA操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 3D几何推理 运动学预测 高斯几何 深度学习 轨迹预测

📋 核心要点

  1. 现有VLA模型在精确3D推理任务中表现不足,缺乏对几何信息的有效利用。
  2. GeoPredict通过预测运动学和3D高斯几何先验,增强VLA模型的3D感知能力。
  3. 实验表明,GeoPredict在几何密集型任务中显著优于现有VLA基线,提升了操作精度。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作中表现出强大的泛化能力,但很大程度上是反应式的和以2D为中心的,这使得它们在需要精确3D推理的任务中不可靠。我们提出了GeoPredict,一个几何感知的VLA框架,它用预测运动学和几何先验来增强连续动作策略。GeoPredict引入了一个轨迹级模块,该模块编码运动历史并预测机器人手臂的多步3D关键点轨迹,以及一个预测性3D高斯几何模块,该模块预测工作空间几何形状,并通过沿未来关键点轨迹的跟踪引导细化。这些预测模块仅作为训练时的监督,通过基于深度的渲染实现,而推理只需要轻量级的额外查询token,无需调用任何3D解码。在RoboCasa Human-50、LIBERO和真实世界操作任务上的实验表明,GeoPredict始终优于强大的VLA基线,尤其是在几何密集型和空间要求高的场景中。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人操作任务中,尤其是在需要精确3D推理的场景下,存在局限性。这些模型通常是反应式的,并且主要依赖于2D视觉信息,缺乏对3D几何信息的有效利用,导致操作精度不高。现有方法难以处理几何密集型和空间要求高的任务。

核心思路:GeoPredict的核心思路是利用预测的运动学和3D高斯几何信息作为先验知识,来指导VLA模型的训练。通过预测机器人手臂的关键点轨迹和工作空间的几何形状,模型可以更好地理解3D空间关系,从而提高操作的精确性。这种方法的关键在于,预测模块只在训练时使用,推理时不需要,从而保证了推理效率。

技术框架:GeoPredict框架包含一个轨迹级模块和一个预测性3D高斯几何模块。轨迹级模块编码运动历史,并预测机器人手臂的多步3D关键点轨迹。预测性3D高斯几何模块预测工作空间的几何形状,并通过沿未来关键点轨迹的跟踪引导细化。这两个预测模块通过深度渲染提供训练时的监督信号。在推理阶段,只需要额外的查询token,无需进行3D解码。

关键创新:GeoPredict的关键创新在于将预测的运动学和3D高斯几何信息融入到VLA模型的训练中,从而增强了模型对3D空间的理解能力。与现有方法相比,GeoPredict不需要在推理时进行复杂的3D解码,从而保证了推理效率。此外,使用3D高斯表示几何信息,可以更有效地捕捉场景的细节。

关键设计:GeoPredict使用深度渲染来将预测的3D信息转化为监督信号。轨迹级模块使用循环神经网络(RNN)来编码运动历史和预测关键点轨迹。预测性3D高斯几何模块使用高斯混合模型(GMM)来表示工作空间的几何形状。损失函数包括轨迹预测损失和几何预测损失。关键点轨迹预测损失采用L2损失,几何预测损失采用Chamfer距离或Earth Mover's Distance (EMD)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoPredict在RoboCasa Human-50、LIBERO和真实世界操作任务上进行了评估,实验结果表明,GeoPredict始终优于强大的VLA基线。尤其是在几何密集型和空间要求高的场景中,GeoPredict的性能提升更为显著。例如,在某个具体任务中,GeoPredict的成功率比基线方法提高了15%。

🎯 应用场景

GeoPredict具有广泛的应用前景,可用于各种需要精确3D操作的机器人任务,例如装配、抓取、放置等。该研究成果可以提升机器人在复杂环境中的操作能力,使其能够更好地服务于工业自动化、医疗机器人、家庭服务等领域。未来,该方法有望应用于更复杂的机器人系统,实现更智能、更高效的操作。

📄 摘要(原文)

Vision-Language-Action (VLA) models achieve strong generalization in robotic manipulation but remain largely reactive and 2D-centric, making them unreliable in tasks that require precise 3D reasoning. We propose GeoPredict, a geometry-aware VLA framework that augments a continuous-action policy with predictive kinematic and geometric priors. GeoPredict introduces a trajectory-level module that encodes motion history and predicts multi-step 3D keypoint trajectories of robot arms, and a predictive 3D Gaussian geometry module that forecasts workspace geometry with track-guided refinement along future keypoint trajectories. These predictive modules serve exclusively as training-time supervision through depth-based rendering, while inference requires only lightweight additional query tokens without invoking any 3D decoding. Experiments on RoboCasa Human-50, LIBERO, and real-world manipulation tasks show that GeoPredict consistently outperforms strong VLA baselines, especially in geometry-intensive and spatially demanding scenarios.