Kalib: Easy Hand-Eye Calibration with Reference Point Tracking

📄 arXiv: 2408.10562v2 📥 PDF

作者: Tutian Tang, Minghao Liu, Wenqiang Xu, Cewu Lu

分类: cs.RO, cs.CV

发布日期: 2024-08-20 (更新: 2025-03-24)

备注: The code, data, and supplementary materials are available at https://sites.google.com/view/hand-eye-kalib

DOI: 10.1109/IROS60139.2025.11247188


💡 一句话要点

提出Kalib以解决手眼标定中的繁琐设置问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手眼标定 机器人视觉 深度学习 自动化 运动学 PnP求解器 无标记技术

📋 核心要点

  1. 现有手眼标定方法依赖于识别标记,设置繁琐且需大量手动工作,限制了其应用。
  2. Kalib通过跟踪机器人上的参考点,利用前向运动学推导3D坐标,简化了标定过程。
  3. 实验表明,Kalib在准确性和手动工作量上优于现有基线方法,适用于多种机器人臂和夹具。

📝 摘要(中文)

手眼标定旨在估计相机与机器人之间的变换。传统方法依赖于识别标记,需大量手动工作和精确设置。虽然近年来深度学习推动了无标记技术的发展,但仍需重新训练网络和获取准确的网格模型。本文提出Kalib,一种自动化且易于设置的手眼标定方法,利用视觉基础模型的泛化能力,克服这些挑战。只需机器人的运动链和预定义的参考点,Kalib通过前向运动学推导其在机器人坐标系中的3D坐标,使用PnP求解器直接估计相机与机器人之间的变换。评估结果显示,Kalib在模拟和现实世界基准测试中表现出良好的准确性,并显著降低了手动工作量。

🔬 方法详解

问题定义:手眼标定的核心问题是如何准确估计相机与机器人之间的变换。现有方法依赖于识别标记,设置复杂且需大量手动干预,限制了其在动态和非结构化环境中的应用。

核心思路:Kalib提出了一种基于参考点跟踪的自动化标定方法。通过利用机器人的运动学链和预定义的参考点,Kalib能够在不需要重新训练网络或获取网格模型的情况下,直接进行标定。

技术框架:Kalib的整体架构包括两个主要模块:首先,跟踪机器人上的参考点并在相机空间中获取其位置;其次,利用前向运动学推导出该点在机器人坐标系中的3D坐标,最后通过PnP求解器估计相机与机器人之间的变换。

关键创新:Kalib的主要创新在于其简化的设置要求和自动化过程,显著降低了手动工作量,并提高了标定的准确性。与传统方法相比,Kalib不再依赖于复杂的标记和手动调整。

关键设计:Kalib的设计中,关键参数包括机器人的运动链和参考点的选择。损失函数和网络结构方面,Kalib避免了复杂的深度学习模型,而是直接利用几何方法进行变换估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Kalib在模拟和真实世界的基准测试中表现出良好的准确性,手动工作量显著低于最新的基线方法。具体而言,Kalib在标定精度上达到了较高水平,且在多种机器人臂和夹具的应用中均表现出色。

🎯 应用场景

Kalib的研究成果在多个实际场景中具有广泛的应用潜力,尤其是在机器人操作、自动化生产线和服务机器人等领域。其用户友好的设计和简化的设置要求,使其能够在动态和非结构化环境中实现持续操作,提升了机器人系统的灵活性和适应性。

📄 摘要(原文)

Hand-eye calibration aims to estimate the transformation between a camera and a robot. Traditional methods rely on fiducial markers, which require considerable manual effort and precise setup. Recent advances in deep learning have introduced markerless techniques but come with more prerequisites, such as retraining networks for each robot, and accessing accurate mesh models for data generation. In this paper, we propose Kalib, an automatic and easy-to-setup hand-eye calibration method that leverages the generalizability of visual foundation models to overcome these challenges. It features only two basic prerequisites, the robot's kinematic chain and a predefined reference point on the robot. During calibration, the reference point is tracked in the camera space. Its corresponding 3D coordinates in the robot coordinate can be inferred by forward kinematics. Then, a PnP solver directly estimates the transformation between the camera and the robot without training new networks or accessing mesh models. Evaluations in simulated and real-world benchmarks show that Kalib achieves good accuracy with a lower manual workload compared with recent baseline methods. We also demonstrate its application in multiple real-world settings with various robot arms and grippers. Kalib's user-friendly design and minimal setup requirements make it a possible solution for continuous operation in unstructured environments.