Stable Offline Hand-Eye Calibration for any Robot with Just One Mark

📄 arXiv: 2511.17001v1 📥 PDF

作者: Sicheng Xie, Lingchen Meng, Zhiying Du, Shuyuan Tu, Haidong Cao, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang

分类: cs.RO

发布日期: 2025-11-21


💡 一句话要点

提出CalibAll,仅用单标记实现任意机器人离线手眼标定的稳定方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手眼标定 相机外参估计 机器人学习 视觉基础模型 单标记 免训练 渲染优化

📋 核心要点

  1. 现有手眼标定方法对外参估计精度低、易陷入局部最优,限制了模仿学习等机器人任务的性能。
  2. CalibAll仅需在末端执行器上标注单标记,利用视觉基础模型和粗到精的标定流程实现稳定外参估计。
  3. 实验表明,CalibAll在多个机器人平台优于现有方法,并生成深度图等辅助信息,提升下游任务性能。

📝 摘要(中文)

模仿学习在机器人任务中取得了显著成功,它学习从相机空间观测到机器人空间动作的映射函数。最近的研究表明,利用机器人到相机的变换信息(即相机外参)有利于学习过程并产生更好的结果。然而,相机外参通常不可用,并且估计方法通常会受到局部最小值和泛化能力差的影响。本文提出CalibAll,一种简单而有效的方法,仅需要单个标记,并通过粗到精的标定流程,在不同的机器人和数据集上执行免训练、稳定和准确的相机外参估计。具体来说,我们在末端执行器(EEF)上标注一个标记,并利用视觉基础模型(VFM)中出现的对应能力来自动定位不同机器人数据集中相应的标记。使用该标记,以及点跟踪和3D EEF轨迹,我们通过时间Perspective-n-Point(PnP)获得粗略的相机外参。通过基于渲染的优化进一步细化该估计,该优化对齐渲染的和真实的掩码,从而产生准确和稳定的相机外参。实验结果表明,我们的方法优于最先进的方法,在三个机器人平台上显示出强大的鲁棒性和通用有效性。它还产生有用的辅助注释,例如深度图、链接式掩码和末端执行器2D轨迹,这些可以进一步支持下游任务。

🔬 方法详解

问题定义:论文旨在解决机器人手眼标定中,相机外参估计不准确、鲁棒性差的问题。现有方法通常依赖于复杂的标定物或需要大量的训练数据,容易陷入局部最优,并且泛化能力较弱,难以适应不同的机器人平台和数据集。

核心思路:论文的核心思路是利用视觉基础模型(VFM)强大的对应能力,结合单标记点跟踪和基于渲染的优化,实现免训练、稳定且准确的相机外参估计。通过粗到精的标定流程,逐步提升外参估计的精度和鲁棒性。

技术框架:CalibAll的整体流程分为两个主要阶段:粗略标定和精细标定。首先,在末端执行器上标注一个标记,利用VFM自动定位该标记在不同机器人数据集中的对应位置。然后,结合点跟踪和3D EEF轨迹,通过时间Perspective-n-Point(PnP)算法获得粗略的相机外参。最后,通过基于渲染的优化,对齐渲染的和真实的掩码,进一步细化外参估计。

关键创新:CalibAll的关键创新在于:1) 仅需单标记即可实现手眼标定,降低了标定成本和复杂度;2) 利用VFM的对应能力,实现了跨机器人平台的泛化;3) 采用粗到精的标定流程,结合时间PnP和基于渲染的优化,提高了外参估计的精度和鲁棒性。

关键设计:在粗略标定阶段,采用时间PnP算法,利用多个时间步的标记点位置和对应的EEF位姿,估计相机外参。在精细标定阶段,通过渲染EEF的3D模型,并与真实图像中的EEF掩码进行对齐,优化相机外参。损失函数的设计至关重要,通常采用掩码的IoU损失或像素级别的交叉熵损失。此外,EEF的3D模型精度也会影响最终的标定结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CalibAll在三个不同的机器人平台上,均优于现有的手眼标定方法。具体而言,CalibAll能够显著降低相机外参的估计误差,提高标定的稳定性和鲁棒性。此外,CalibAll还能够生成有用的辅助信息,例如深度图、链接式掩码和末端执行器2D轨迹,这些信息可以进一步提升下游任务的性能。

🎯 应用场景

CalibAll可广泛应用于机器人模仿学习、视觉伺服、机器人抓取等领域。精确的手眼标定能够提升机器人感知和控制的精度,从而提高机器人任务的成功率和效率。该方法尤其适用于需要快速部署和灵活适应不同机器人平台的场景,例如自动化生产线、仓储物流等。

📄 摘要(原文)

Imitation learning has achieved remarkable success in a variety of robotic tasks by learning a mapping function from camera-space observations to robot-space actions. Recent work indicates that the use of robot-to-camera transformation information ({\ie}, camera extrinsics) benefits the learning process and produces better results. However, camera extrinsics are oftentimes unavailable and estimation methods usually suffer from local minima and poor generalizations. In this paper, we present CalibAll, a simple yet effective method that \textbf{requires only a single mark} and performs training-free, stable, and accurate camera extrinsic estimation across diverse robots and datasets through a coarse-to-fine calibration pipeline. In particular, we annotate a single mark on an end-effector (EEF), and leverage the correspondence ability emerged from vision foundation models (VFM) to automatically localize the corresponding mark across robots in diverse datasets. Using this mark, together with point tracking and the 3D EEF trajectory, we obtain a coarse camera extrinsic via temporal Perspective-n-Point (PnP). This estimate is further refined through a rendering-based optimization that aligns rendered and ground-true masks, yielding accurate and stable camera extrinsic. Experimental results demonstrate that our method outperforms state-of-the-art approaches, showing strong robustness and general effectiveness across three robot platforms. It also produces useful auxiliary annotations such as depth maps, link-wise masks, and end-effector 2D trajectories, which can further support downstream tasks.