GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

作者: Jingjing Qian, Boyao Han, Chen Shi, Lei Xiao, Long Yang, Shaoshuai Shi, Li Jiang

分类: cs.CV, cs.RO

发布日期: 2025-12-18

💡 一句话要点

GeoPredict：利用预测运动学和3D高斯几何实现精确的VLA操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 3D几何推理 运动学预测 高斯混合模型

📋 核心要点

现有VLA模型在精确3D推理任务中表现不足，主要原因是其反应式和2D中心的设计。
GeoPredict通过预测运动学和几何先验增强VLA模型，提升其在复杂3D环境中的操作能力。
实验表明，GeoPredict在多个数据集和真实场景中显著优于现有VLA基线，尤其是在几何相关的任务中。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在机器人操作中表现出强大的泛化能力，但很大程度上仍然是反应式的和以2D为中心的，这使得它们在需要精确3D推理的任务中不可靠。我们提出了GeoPredict，一个几何感知的VLA框架，它用预测运动学和几何先验来增强连续动作策略。GeoPredict引入了一个轨迹级模块，该模块编码运动历史并预测机器人手臂的多步3D关键点轨迹，以及一个预测性3D高斯几何模块，该模块预测工作空间几何形状，并通过沿未来关键点轨迹的跟踪引导细化。这些预测模块仅作为训练时的监督，通过基于深度的渲染实现，而推理只需要轻量级的额外查询token，无需调用任何3D解码。在RoboCasa Human-50、LIBERO和真实世界操作任务上的实验表明，GeoPredict始终优于强大的VLA基线，尤其是在几何密集型和空间要求高的场景中。

🔬 方法详解

问题定义：现有的视觉-语言-动作(VLA)模型在机器人操作任务中，尤其是在需要精确3D推理的场景下，表现出局限性。这些模型通常是反应式的，依赖于当前观察到的图像信息来生成动作，缺乏对未来状态的预测能力，并且主要以2D为中心，难以准确理解和利用3D几何信息。这导致它们在几何密集型和空间要求高的任务中表现不佳。

核心思路：GeoPredict的核心思路是通过引入预测性的运动学和几何先验来增强VLA模型。具体来说，它预测机器人手臂未来多个步骤的3D关键点轨迹，并预测工作空间的3D几何形状。这些预测信息作为训练时的监督信号，引导模型学习更有效的3D表示和推理能力。在推理阶段，模型只需要轻量级的额外查询token，无需进行复杂的3D解码，从而保持了高效性。

技术框架：GeoPredict的整体框架包括一个连续动作策略网络，以及两个关键的预测模块：轨迹级模块和预测性3D高斯几何模块。轨迹级模块编码运动历史，并预测机器人手臂的多步3D关键点轨迹。预测性3D高斯几何模块预测工作空间的几何形状，并通过跟踪引导细化。这两个预测模块在训练时通过深度渲染提供监督信号，而在推理时仅需少量额外查询token。

关键创新：GeoPredict的关键创新在于将预测性的运动学和几何先验融入到VLA框架中。与传统的反应式VLA模型不同，GeoPredict能够预测未来的状态，从而更好地规划动作。此外，GeoPredict使用3D高斯几何来表示工作空间，并利用跟踪引导细化，从而提高了几何预测的准确性。最重要的是，这些预测模块只在训练时使用，推理时只需要轻量级的额外查询token，保证了推理效率。

关键设计：轨迹级模块使用Transformer网络来编码运动历史并预测3D关键点轨迹。预测性3D高斯几何模块使用3D高斯混合模型来表示工作空间的几何形状，并使用卡尔曼滤波等跟踪算法来引导几何预测的细化。损失函数包括轨迹预测损失和几何预测损失，通过深度渲染将预测的3D信息与真实深度图像进行比较，从而提供监督信号。推理时，通过额外的查询token将预测的运动学和几何信息融入到连续动作策略网络中。

🖼️ 关键图片

📊 实验亮点

GeoPredict在RoboCasa Human-50、LIBERO和真实世界操作任务上进行了评估，实验结果表明，GeoPredict始终优于强大的VLA基线。例如，在几何密集型和空间要求高的场景中，GeoPredict的性能提升显著。具体数据提升幅度在不同数据集和任务上有所不同，但总体上表明GeoPredict在精确3D操作方面具有显著优势。

🎯 应用场景

GeoPredict在机器人操作领域具有广泛的应用前景，例如在复杂环境下的物体抓取、装配、以及需要精确3D定位的任务中。该方法可以提升机器人在工业自动化、家庭服务、医疗辅助等领域的应用能力，使其能够更好地理解和操作周围环境，完成更加复杂和精细的任务。未来，该研究可以进一步扩展到更复杂的机器人系统和更广泛的应用场景。

📄 摘要（原文）

Vision-Language-Action (VLA) models achieve strong generalization in robotic manipulation but remain largely reactive and 2D-centric, making them unreliable in tasks that require precise 3D reasoning. We propose GeoPredict, a geometry-aware VLA framework that augments a continuous-action policy with predictive kinematic and geometric priors. GeoPredict introduces a trajectory-level module that encodes motion history and predicts multi-step 3D keypoint trajectories of robot arms, and a predictive 3D Gaussian geometry module that forecasts workspace geometry with track-guided refinement along future keypoint trajectories. These predictive modules serve exclusively as training-time supervision through depth-based rendering, while inference requires only lightweight additional query tokens without invoking any 3D decoding. Experiments on RoboCasa Human-50, LIBERO, and real-world manipulation tasks show that GeoPredict consistently outperforms strong VLA baselines, especially in geometry-intensive and spatially demanding scenarios.

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册