Calib3R: A 3D Foundation Model for Multi-Camera to Robot Calibration and 3D Metric-Scaled Scene Reconstruction

📄 arXiv: 2509.08813v1 📥 PDF

作者: Davide Allegro, Matteo Terreran, Stefano Ghidoni

分类: cs.RO

发布日期: 2025-09-10


💡 一句话要点

Calib3R:基于3D基础模型的多相机-机器人联合标定与尺度重建

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 相机标定 机器人标定 3D重建 基础模型 多相机系统

📋 核心要点

  1. 现有相机-机器人标定和3D重建方法通常独立处理,且依赖标定板或产生尺度未知的重建结果,限制了机器人与环境的可靠交互。
  2. Calib3R利用3D基础模型提取图像点云,结合机器人位姿,通过统一优化实现无需标定板的相机-机器人联合标定和真实尺度3D重建。
  3. 实验表明,Calib3R仅需少量图像即可实现精确标定,性能优于传统方法,适用于单/多相机和机器人手臂/移动机器人等多种场景。

📝 摘要(中文)

机器人通常依赖RGB图像进行操作和导航等任务。然而,可靠的交互通常需要一个与机器人参考系对齐的、具有真实尺度的3D场景表示。这依赖于精确的相机-机器人标定和稠密3D重建,而这两项任务通常被独立处理,尽管它们都依赖于RGB图像中的几何对应关系。传统的标定需要标定板,而基于RGB的重建会产生一个尺度未知、位于任意坐标系下的几何结构。多相机设置增加了复杂性,因为数据必须在共享参考系中表达。我们提出了Calib3R,一种无需标定板的方法,通过统一优化联合执行相机-机器人标定和具有真实尺度的3D重建。Calib3R可以处理机器人手臂或移动机器人上的单相机和多相机设置。它基于3D基础模型MASt3R从RGB图像中提取点云,这些点云与机器人姿态相结合,以重建与机器人对齐的、具有真实尺度的3D场景。在各种数据集上的实验表明,Calib3R仅用不到10张图像即可实现精确标定,优于无目标和基于标记的方法。

🔬 方法详解

问题定义:论文旨在解决机器人应用中相机-机器人标定和3D场景重建问题。现有方法要么需要特定的标定板,操作繁琐;要么重建的3D场景尺度未知,无法直接用于机器人控制。多相机系统的标定和重建更加复杂,需要统一的参考坐标系。这些痛点限制了机器人与环境的可靠交互。

核心思路:Calib3R的核心思路是利用3D基础模型MASt3R提取RGB图像中的点云特征,并将这些点云与机器人运动过程中的位姿信息相结合,通过统一优化框架同时求解相机内外参数和场景的3D结构。这样既避免了对标定板的依赖,又能够直接获得具有真实尺度的、与机器人坐标系对齐的3D场景。

技术框架:Calib3R的整体框架包括以下几个主要步骤:1) 数据采集:通过机器人运动,从多个视角采集RGB图像和对应的机器人位姿信息。2) 特征提取:利用预训练的3D基础模型MASt3R从RGB图像中提取点云特征。3) 联合优化:构建一个能量函数,该函数同时考虑相机内外参数、3D场景结构和机器人位姿的约束,通过优化算法求解最优参数。4) 结果输出:输出标定后的相机内外参数和具有真实尺度的3D场景模型。

关键创新:Calib3R的关键创新在于:1) 提出了一种无需标定板的相机-机器人联合标定和3D重建方法,简化了标定流程。2) 利用3D基础模型MASt3R提取图像特征,提高了特征提取的鲁棒性和准确性。3) 构建了一个统一的优化框架,同时求解相机参数和3D场景结构,保证了结果的一致性和准确性。与现有方法相比,Calib3R无需标定板,能够直接获得具有真实尺度的3D场景,更适用于实际机器人应用。

关键设计:Calib3R的关键设计包括:1) 使用预训练的MASt3R模型,该模型能够有效地提取图像中的3D几何信息。2) 构建能量函数时,考虑了点云之间的对应关系、机器人位姿的约束以及相机模型的约束。3) 采用非线性优化算法(如Levenberg-Marquardt算法)求解能量函数的最小值,得到最优的相机参数和3D场景结构。具体损失函数的设计和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Calib3R在多个数据集上取得了优异的性能。与传统的基于标定板的方法相比,Calib3R在标定精度上具有可比性,且无需繁琐的标定过程。与无目标标定方法相比,Calib3R能够获得具有真实尺度的3D场景,更适用于实际应用。实验还表明,Calib3R仅需不到10张图像即可实现精确标定,具有较高的效率。

🎯 应用场景

Calib3R在机器人操作、自主导航、场景理解等领域具有广泛的应用前景。它可以帮助机器人更准确地感知周围环境,从而实现更安全、更高效的交互。例如,在工业自动化中,Calib3R可以用于机器人抓取、装配等任务;在服务机器人领域,它可以用于室内导航、物体识别等任务。该研究的成果有助于推动机器人技术的进一步发展。

📄 摘要(原文)

Robots often rely on RGB images for tasks like manipulation and navigation. However, reliable interaction typically requires a 3D scene representation that is metric-scaled and aligned with the robot reference frame. This depends on accurate camera-to-robot calibration and dense 3D reconstruction, tasks usually treated separately, despite both relying on geometric correspondences from RGB data. Traditional calibration needs patterns, while RGB-based reconstruction yields geometry with an unknown scale in an arbitrary frame. Multi-camera setups add further complexity, as data must be expressed in a shared reference frame. We present Calib3R, a patternless method that jointly performs camera-to-robot calibration and metric-scaled 3D reconstruction via unified optimization. Calib3R handles single- and multi-camera setups on robot arms or mobile robots. It builds on the 3D foundation model MASt3R to extract pointmaps from RGB images, which are combined with robot poses to reconstruct a scaled 3D scene aligned with the robot. Experiments on diverse datasets show that Calib3R achieves accurate calibration with less than 10 images, outperforming target-less and marker-based methods.