Bi-Manual Joint Camera Calibration and Scene Representation

📄 arXiv: 2505.24819v1 📥 PDF

作者: Haozhan Tang, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-05-30


💡 一句话要点

提出Bi-JCR框架,解决双臂机器人联合相机标定与场景重建问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双臂机器人 相机标定 场景重建 多视角几何 3D基础模型

📋 核心要点

  1. 传统机器人相机标定依赖标定板,流程繁琐,限制了双臂机器人的灵活性和易用性。
  2. Bi-JCR利用3D基础模型进行多视角对应,无需标定板即可联合估计相机外参、臂间位姿和统一的3D场景表征。
  3. 实验表明,Bi-JCR在不同桌面环境下具有鲁棒性,并能有效支持双臂协调等下游任务。

📝 摘要(中文)

本文提出双臂联合标定与表征框架(Bi-JCR),旨在解决多机器人臂上相机标定问题。Bi-JCR无需标定板,利用3D基础模型实现稠密、无标记的多视角对应。该框架从RGB图像集中联合估计:(i)每个相机到其末端执行器的外参变换,(ii)机械臂间的相对位姿,以及(iii)共享工作空间的统一、尺度一致的3D表征。该表征由双臂相机图像联合构建,位于通用坐标系中,支持碰撞检测和语义分割,从而促进下游双臂协调任务。实验结果表明Bi-JCR在各种桌面环境中具有鲁棒性,并展示了其在各种下游任务中的适用性。

🔬 方法详解

问题定义:现有机器人操作,特别是双臂操作,通常需要在多个机器人臂上安装多个相机。在使用之前,需要对这些相机进行标定,确定相机相对于机器人末端执行器的位姿。传统的相机标定方法需要使用标定板,拍摄一系列包含预定义标记的图像,过程繁琐且耗时。这限制了双臂机器人的部署效率和灵活性。

核心思路:Bi-JCR的核心思路是利用3D基础模型,从多视角图像中提取稠密的对应关系,从而无需标定板即可实现相机标定和场景重建。通过联合优化相机外参、臂间位姿和3D场景表征,Bi-JCR能够构建一个统一的、尺度一致的场景模型,为下游任务提供支持。这种方法避免了对特定标定物的依赖,提高了标定的自动化程度和鲁棒性。

技术框架:Bi-JCR框架主要包含以下几个阶段:1) 数据采集:使用安装在双臂机器人上的相机采集多视角RGB图像。2) 特征提取与匹配:利用3D基础模型(具体模型未知)提取图像特征,并建立多视角之间的稠密对应关系。3) 联合优化:使用非线性优化方法,联合估计相机外参、臂间位姿和3D场景表征。优化目标是最小化重投影误差和几何一致性误差。4) 场景表征构建:利用优化后的相机参数和多视角图像,构建统一的、尺度一致的3D场景表征。

关键创新:Bi-JCR的关键创新在于:1) 无标定板标定:利用3D基础模型进行多视角对应,避免了对特定标定物的依赖。2) 联合优化:同时优化相机外参、臂间位姿和3D场景表征,提高了标定精度和场景重建质量。3) 统一场景表征:构建了一个统一的、尺度一致的场景模型,为下游任务提供支持。与现有方法相比,Bi-JCR更加自动化、鲁棒,且能够构建更丰富的场景信息。

关键设计:论文中未明确给出关键参数设置、损失函数和网络结构的具体细节。但可以推测,损失函数可能包含重投影误差项(用于约束相机参数)和几何一致性误差项(用于约束场景结构)。3D基础模型的选择和参数设置对最终结果有重要影响,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Bi-JCR框架的有效性和鲁棒性。虽然论文中没有给出具体的性能数据和对比基线,但实验结果表明,Bi-JCR能够在各种桌面环境中准确地标定相机参数,并构建高质量的3D场景表征。此外,实验还展示了Bi-JCR在双臂协调等下游任务中的应用潜力。

🎯 应用场景

Bi-JCR框架可应用于各种需要双臂机器人协同操作的场景,如装配、抓取、操作等。该框架能够提高机器人系统的自动化程度和鲁棒性,降低部署成本,并为下游任务提供更丰富的场景信息。未来,该技术有望应用于智能制造、医疗机器人、家庭服务等领域。

📄 摘要(原文)

Robot manipulation, especially bimanual manipulation, often requires setting up multiple cameras on multiple robot manipulators. Before robot manipulators can generate motion or even build representations of their environments, the cameras rigidly mounted to the robot need to be calibrated. Camera calibration is a cumbersome process involving collecting a set of images, with each capturing a pre-determined marker. In this work, we introduce the Bi-Manual Joint Calibration and Representation Framework (Bi-JCR). Bi-JCR enables multiple robot manipulators, each with cameras mounted, to circumvent taking images of calibration markers. By leveraging 3D foundation models for dense, marker-free multi-view correspondence, Bi-JCR jointly estimates: (i) the extrinsic transformation from each camera to its end-effector, (ii) the inter-arm relative poses between manipulators, and (iii) a unified, scale-consistent 3D representation of the shared workspace, all from the same captured RGB image sets. The representation, jointly constructed from images captured by cameras on both manipulators, lives in a common coordinate frame and supports collision checking and semantic segmentation to facilitate downstream bimanual coordination tasks. We empirically evaluate the robustness of Bi-JCR on a variety of tabletop environments, and demonstrate its applicability on a variety of downstream tasks.