Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

📄 arXiv: 2602.23814v1 📥 PDF

作者: Chongyang Xu, Haipeng Li, Shen Cheng, Jingyu Hu, Haoqiang Fan, Ziliang Feng, Shuaicheng Liu

分类: cs.CV

发布日期: 2026-02-27

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于3D几何先验的动作-几何预测方法,用于双臂操作任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双臂操作 3D几何先验 动作预测 几何预测 扩散模型 机器人操作 RGB图像 RoboTwin

📋 核心要点

  1. 现有双臂操作方法依赖2D特征或点云,缺乏空间感知或难以获取可靠点云。
  2. 提出利用预训练3D几何基础模型,融合几何、语义和本体感受信息进行动作预测。
  3. 实验表明,该方法在模拟和真实环境中均优于现有方法,提升操作成功率。

📝 摘要(中文)

双臂操作需要策略能够推理3D几何结构,预测其在动作下的演变,并生成平滑、协调的运动。然而,现有方法通常依赖于空间感知有限的2D特征,或者需要难以在真实环境中可靠获取的显式点云。与此同时,最新的3D几何基础模型表明,可以快速、稳健地直接从RGB图像重建准确且多样的3D结构。我们利用这一机会,提出了一个直接构建在预训练3D几何基础模型之上的双臂操作框架。我们的策略将几何感知的潜在变量、2D语义特征和本体感受融合到统一的状态表示中,并使用扩散模型联合预测未来的动作块和未来的3D潜在变量,该变量解码为密集的点图。通过显式地预测3D场景将如何与动作序列一起演变,该策略仅使用RGB观测即可获得强大的空间理解和预测能力。我们在RoboTwin基准测试的模拟和真实机器人执行中评估了我们的方法。我们的方法始终优于基于2D和基于点云的基线,在操作成功率、臂间协调和3D空间预测精度方面实现了最先进的性能。

🔬 方法详解

问题定义:现有双臂操作方法在理解和预测3D场景几何变化方面存在局限性。基于2D特征的方法缺乏空间感知能力,而依赖点云的方法在真实场景中难以稳定获取高质量的点云数据。这限制了策略的泛化能力和操作的鲁棒性。

核心思路:论文的核心思路是利用预训练的3D几何基础模型,从RGB图像中提取丰富的3D几何信息,并将其融入到双臂操作策略中。通过显式地预测未来动作序列和未来3D场景几何结构,策略能够更好地理解和预测场景的变化,从而生成更协调、更有效的双臂操作。

技术框架:该框架包含以下主要模块:1) 3D几何编码器:利用预训练的3D几何基础模型从RGB图像中提取3D几何潜在表示。2) 状态融合模块:将3D几何潜在表示、2D语义特征和本体感受信息融合为统一的状态表示。3) 动作-几何预测模块:使用扩散模型联合预测未来的动作块和未来的3D几何潜在表示。4) 3D几何解码器:将预测的3D几何潜在表示解码为密集的点图,用于可视化和评估。

关键创新:最重要的技术创新点在于将预训练的3D几何基础模型引入到双臂操作策略中,并显式地预测未来3D场景的几何变化。与现有方法相比,该方法能够更好地利用RGB图像中的3D几何信息,提高策略的空间感知能力和预测精度。

关键设计:该方法使用扩散模型进行动作-几何联合预测,通过学习动作和几何之间的条件概率分布,提高预测的准确性和多样性。此外,该方法还设计了一种几何感知的损失函数,用于约束预测的3D几何结构与真实场景的几何结构一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RoboTwin基准测试中,该方法在模拟和真实机器人执行中均优于基于2D和基于点云的基线方法。在操作成功率方面,该方法取得了显著提升,同时在臂间协调和3D空间预测精度方面也达到了最先进的水平。具体数据未在摘要中给出,需参考原文。

🎯 应用场景

该研究成果可应用于各种需要精确双臂操作的场景,如机器人装配、医疗手术、家庭服务等。通过提高机器人对3D环境的理解和预测能力,可以实现更安全、更高效、更智能的机器人操作。

📄 摘要(原文)

Bimanual manipulation requires policies that can reason about 3D geometry, anticipate how it evolves under action, and generate smooth, coordinated motions. However, existing methods typically rely on 2D features with limited spatial awareness, or require explicit point clouds that are difficult to obtain reliably in real-world settings. At the same time, recent 3D geometric foundation models show that accurate and diverse 3D structure can be reconstructed directly from RGB images in a fast and robust manner. We leverage this opportunity and propose a framework that builds bimanual manipulation directly on a pre-trained 3D geometric foundation model. Our policy fuses geometry-aware latents, 2D semantic features, and proprioception into a unified state representation, and uses diffusion model to jointly predict a future action chunk and a future 3D latent that decodes into a dense pointmap. By explicitly predicting how the 3D scene will evolve together with the action sequence, the policy gains strong spatial understanding and predictive capability using only RGB observations. We evaluate our method both in simulation on the RoboTwin benchmark and in real-world robot executions. Our approach consistently outperforms 2D-based and point-cloud-based baselines, achieving state-of-the-art performance in manipulation success, inter-arm coordination, and 3D spatial prediction accuracy. Code is available at https://github.com/Chongyang-99/GAP.git.