Calib3R: A 3D Foundation Model for Multi-Camera to Robot Calibration and 3D Metric-Scaled Scene Reconstruction

作者: Davide Allegro, Matteo Terreran, Stefano Ghidoni

分类: cs.RO

发布日期: 2025-09-10

💡 一句话要点

Calib3R：基于3D基础模型的多相机-机器人联合标定与尺度重建

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 相机标定 机器人标定 3D重建 基础模型 多相机系统

📋 核心要点

现有相机-机器人标定和3D重建方法通常独立处理，且依赖标定板或产生尺度未知的重建结果，限制了机器人与环境的可靠交互。
Calib3R利用3D基础模型提取图像点云，结合机器人位姿，通过统一优化实现无需标定板的相机-机器人联合标定和真实尺度3D重建。
实验表明，Calib3R仅需少量图像即可实现精确标定，性能优于传统方法，适用于单/多相机和机器人手臂/移动机器人等多种场景。

📝 摘要（中文）

机器人通常依赖RGB图像进行操作和导航等任务。然而，可靠的交互通常需要一个与机器人参考系对齐的、具有真实尺度的3D场景表示。这依赖于精确的相机-机器人标定和稠密3D重建，而这两项任务通常被独立处理，尽管它们都依赖于RGB图像中的几何对应关系。传统的标定需要标定板，而基于RGB的重建会产生一个尺度未知、位于任意坐标系下的几何结构。多相机设置增加了复杂性，因为数据必须在共享参考系中表达。我们提出了Calib3R，一种无需标定板的方法，通过统一优化联合执行相机-机器人标定和具有真实尺度的3D重建。Calib3R可以处理机器人手臂或移动机器人上的单相机和多相机设置。它基于3D基础模型MASt3R从RGB图像中提取点云，这些点云与机器人姿态相结合，以重建与机器人对齐的、具有真实尺度的3D场景。在各种数据集上的实验表明，Calib3R仅用不到10张图像即可实现精确标定，优于无目标和基于标记的方法。

🔬 方法详解

问题定义：论文旨在解决机器人应用中相机-机器人标定和3D场景重建问题。现有方法要么需要特定的标定板，操作繁琐；要么重建的3D场景尺度未知，无法直接用于机器人控制。多相机系统的标定和重建更加复杂，需要统一的参考坐标系。这些痛点限制了机器人与环境的可靠交互。

核心思路：Calib3R的核心思路是利用3D基础模型MASt3R提取RGB图像中的点云特征，并将这些点云与机器人运动过程中的位姿信息相结合，通过统一优化框架同时求解相机内外参数和场景的3D结构。这样既避免了对标定板的依赖，又能够直接获得具有真实尺度的、与机器人坐标系对齐的3D场景。

技术框架：Calib3R的整体框架包括以下几个主要步骤：1) 数据采集：通过机器人运动，从多个视角采集RGB图像和对应的机器人位姿信息。2) 特征提取：利用预训练的3D基础模型MASt3R从RGB图像中提取点云特征。3) 联合优化：构建一个能量函数，该函数同时考虑相机内外参数、3D场景结构和机器人位姿的约束，通过优化算法求解最优参数。4) 结果输出：输出标定后的相机内外参数和具有真实尺度的3D场景模型。

关键创新：Calib3R的关键创新在于：1) 提出了一种无需标定板的相机-机器人联合标定和3D重建方法，简化了标定流程。2) 利用3D基础模型MASt3R提取图像特征，提高了特征提取的鲁棒性和准确性。3) 构建了一个统一的优化框架，同时求解相机参数和3D场景结构，保证了结果的一致性和准确性。与现有方法相比，Calib3R无需标定板，能够直接获得具有真实尺度的3D场景，更适用于实际机器人应用。

关键设计：Calib3R的关键设计包括：1) 使用预训练的MASt3R模型，该模型能够有效地提取图像中的3D几何信息。2) 构建能量函数时，考虑了点云之间的对应关系、机器人位姿的约束以及相机模型的约束。3) 采用非线性优化算法（如Levenberg-Marquardt算法）求解能量函数的最小值，得到最优的相机参数和3D场景结构。具体损失函数的设计和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Calib3R在多个数据集上取得了优异的性能。与传统的基于标定板的方法相比，Calib3R在标定精度上具有可比性，且无需繁琐的标定过程。与无目标标定方法相比，Calib3R能够获得具有真实尺度的3D场景，更适用于实际应用。实验还表明，Calib3R仅需不到10张图像即可实现精确标定，具有较高的效率。

🎯 应用场景

Calib3R在机器人操作、自主导航、场景理解等领域具有广泛的应用前景。它可以帮助机器人更准确地感知周围环境，从而实现更安全、更高效的交互。例如，在工业自动化中，Calib3R可以用于机器人抓取、装配等任务；在服务机器人领域，它可以用于室内导航、物体识别等任务。该研究的成果有助于推动机器人技术的进一步发展。

📄 摘要（原文）

Robots often rely on RGB images for tasks like manipulation and navigation. However, reliable interaction typically requires a 3D scene representation that is metric-scaled and aligned with the robot reference frame. This depends on accurate camera-to-robot calibration and dense 3D reconstruction, tasks usually treated separately, despite both relying on geometric correspondences from RGB data. Traditional calibration needs patterns, while RGB-based reconstruction yields geometry with an unknown scale in an arbitrary frame. Multi-camera setups add further complexity, as data must be expressed in a shared reference frame. We present Calib3R, a patternless method that jointly performs camera-to-robot calibration and metric-scaled 3D reconstruction via unified optimization. Calib3R handles single- and multi-camera setups on robot arms or mobile robots. It builds on the 3D foundation model MASt3R to extract pointmaps from RGB images, which are combined with robot poses to reconstruct a scaled 3D scene aligned with the robot. Experiments on diverse datasets show that Calib3R achieves accurate calibration with less than 10 images, outperforming target-less and marker-based methods.

Calib3R: A 3D Foundation Model for Multi-Camera to Robot Calibration and 3D Metric-Scaled Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理