Self-supervised Learning Of Visual Pose Estimation Without Pose Labels By Classifying LED States

📄 arXiv: 2509.10405v1 📥 PDF

作者: Nicholas Carlotti, Mirko Nava, Alessandro Giusti

分类: cs.RO

发布日期: 2025-09-12

备注: accepted at CoRL 2025


💡 一句话要点

提出一种基于LED状态分类的自监督视觉位姿估计方法,无需位姿标签。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自监督学习 位姿估计 单目视觉 机器人导航 LED状态分类

📋 核心要点

  1. 现有位姿估计方法依赖于大量的位姿标签或精确的机器人CAD模型,限制了其在实际场景中的应用。
  2. 该方法利用机器人上LED的状态作为监督信号,通过预测LED状态来学习位姿,无需人工标注位姿信息。
  3. 实验结果表明,该方法在性能上与有监督方法相当,并且具有良好的泛化能力和多机器人位姿估计能力。

📝 摘要(中文)

本文提出了一种用于地面机器人单目RGB相对位姿估计的模型,该模型从头开始训练,无需位姿标签,也无需关于机器人形状或外观的先验知识。训练时,我们假设:(i)机器人装有多个LED,其状态独立且在每一帧已知;(ii)已知每个LED的大致观察方向;(iii)提供具有已知目标距离的校准图像,以解决单目深度估计的模糊性。训练数据由一对随机移动的机器人收集,无需外部基础设施或人工监督。我们的模型训练的任务是从图像中预测机器人上每个LED的状态。通过这样做,它学会了预测机器人在图像中的位置、距离和相对方位。在推理时,LED的状态是未知的,可以是任意的,并且不影响位姿估计性能。定量实验表明,我们的方法:与需要位姿标签或机器人CAD模型监督的SoA方法相比具有竞争力;可以推广到不同的领域;并且可以处理多机器人位姿估计。

🔬 方法详解

问题定义:论文旨在解决地面机器人在单目视觉下的相对位姿估计问题。现有方法通常需要大量的位姿标签或精确的机器人CAD模型进行训练,这在实际应用中成本高昂且难以获取。此外,这些方法在面对不同环境或多个机器人时,泛化能力可能不足。

核心思路:论文的核心思想是利用机器人自身携带的LED灯的状态作为自监督信号。通过训练模型预测图像中每个LED灯的状态,模型可以隐式地学习到机器人的位姿信息。这种方法避免了对位姿标签的依赖,降低了数据标注成本,并提高了模型的泛化能力。

技术框架:整体框架包含数据采集和模型训练两个阶段。在数据采集阶段,两个机器人随机移动,并记录每个LED灯的状态。在模型训练阶段,模型以单目RGB图像作为输入,预测每个LED灯的状态。模型通过最小化预测状态与真实状态之间的差异来学习位姿信息。为了解决单目深度估计的模糊性,使用一张带有已知目标距离的校准图像。

关键创新:该方法最重要的创新点在于利用LED灯的状态作为自监督信号,实现了无需位姿标签的位姿估计。与传统的有监督方法相比,该方法降低了数据标注成本,并提高了模型的泛化能力。此外,该方法还可以处理多机器人位姿估计问题。

关键设计:模型采用卷积神经网络(CNN)作为主干网络,用于提取图像特征。在网络末端,使用多个并行的分类器,每个分类器对应一个LED灯。损失函数采用交叉熵损失,用于衡量预测状态与真实状态之间的差异。校准图像用于确定单目深度估计的尺度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在位姿估计精度上与需要位姿标签或机器人CAD模型的SoA方法具有竞争力。此外,该方法在不同领域和多机器人场景下表现出良好的泛化能力。具体而言,该方法在特定数据集上达到了与有监督方法相当的性能,并且在跨数据集测试中表现出更强的鲁棒性。

🎯 应用场景

该研究成果可应用于机器人导航、自主探索、多机器人协同等领域。例如,在仓库物流场景中,机器人可以通过该方法实现自主定位和导航,无需预先构建地图或安装外部传感器。此外,该方法还可以应用于无人机、自动驾驶等领域,具有广泛的应用前景。

📄 摘要(原文)

We introduce a model for monocular RGB relative pose estimation of a ground robot that trains from scratch without pose labels nor prior knowledge about the robot's shape or appearance. At training time, we assume: (i) a robot fitted with multiple LEDs, whose states are independent and known at each frame; (ii) knowledge of the approximate viewing direction of each LED; and (iii) availability of a calibration image with a known target distance, to address the ambiguity of monocular depth estimation. Training data is collected by a pair of robots moving randomly without needing external infrastructure or human supervision. Our model trains on the task of predicting from an image the state of each LED on the robot. In doing so, it learns to predict the position of the robot in the image, its distance, and its relative bearing. At inference time, the state of the LEDs is unknown, can be arbitrary, and does not affect the pose estimation performance. Quantitative experiments indicate that our approach: is competitive with SoA approaches that require supervision from pose labels or a CAD model of the robot; generalizes to different domains; and handles multi-robot pose estimation.