MamV2XCalib: V2X-based Target-less Infrastructure Camera Calibration with State Space Model

📄 arXiv: 2507.23595v1 📥 PDF

作者: Yaoye Zhu, Zhe Wang, Yan Wang

分类: cs.CV

发布日期: 2025-07-31

备注: ICCV25 poster

🔗 代码/项目: GITHUB


💡 一句话要点

提出MamV2XCalib,一种基于V2X和状态空间模型的无目标基础设施相机标定方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: V2X 相机标定 激光雷达 状态空间模型 Mamba 自动驾驶 智能交通

📋 核心要点

  1. 传统基础设施相机标定依赖人工,耗时费力且需封路,难以满足大规模部署需求。
  2. MamV2XCalib利用V2X通信,仅需配备激光雷达的车辆行驶即可完成标定,无需人工干预和特定标定物。
  3. 实验表明,该方法在真实数据集上表现出良好的有效性和鲁棒性,且参数量更少,性能更稳定。

📝 摘要(中文)

随着利用路侧摄像头辅助自动驾驶车辆感知的协同系统日益普及,大规模、精确的基础设施相机标定已成为一个关键问题。传统的手动标定方法通常耗时、费力,并且可能需要封闭道路。本文提出了MamV2XCalib,这是第一个基于V2X的基础设施相机标定方法,它借助了车辆侧的激光雷达。MamV2XCalib仅需配备激光雷达的自动驾驶车辆在待标定的基础设施摄像头附近行驶,而无需特定的参考对象或人工干预。我们还引入了一种新的无目标激光雷达-相机标定方法,该方法结合了多尺度特征和4D相关体积,以估计车辆侧点云和路侧图像之间的相关性。我们使用Mamba对时间信息进行建模并估计旋转角度,有效地解决了V2X场景中由于车辆侧数据缺陷(例如遮挡)和视点差异大而导致的标定失败问题。我们在V2X-Seq和TUMTraf-V2X真实世界数据集上评估了MamV2XCalib,证明了我们基于V2X的自动标定方法的有效性和鲁棒性。与之前为单车标定设计的激光雷达-相机方法相比,我们的方法在V2X场景中以更少的参数实现了更好、更稳定的标定性能。

🔬 方法详解

问题定义:论文旨在解决大规模基础设施相机标定的问题。现有方法,如人工标定,存在耗时、费力、成本高昂,以及需要道路封闭等缺点,难以满足日益增长的智能交通系统需求。此外,车辆侧数据可能存在遮挡和视点差异大的问题,导致标定失败。

核心思路:论文的核心思路是利用V2X通信,通过配备激光雷达的车辆在基础设施摄像头附近行驶,获取车辆侧点云和路侧图像之间的对应关系,从而实现无目标的自动标定。通过引入Mamba模型,对时间信息进行建模,从而解决车辆侧数据缺陷和视点差异带来的问题。

技术框架:MamV2XCalib的整体框架包括以下几个主要模块:1) 多尺度特征提取模块,用于提取车辆侧点云和路侧图像的多尺度特征;2) 4D相关体积构建模块,用于计算车辆侧点云和路侧图像之间的相关性;3) 基于Mamba的状态空间模型,用于对时间信息进行建模,并估计旋转角度;4) 优化模块,用于最小化重投影误差,从而获得最终的标定参数。

关键创新:该方法的主要创新点在于:1) 提出了一种基于V2X的无目标基础设施相机标定方法,无需人工干预和特定标定物;2) 引入了多尺度特征和4D相关体积,提高了点云和图像之间相关性估计的准确性;3) 使用Mamba模型对时间信息进行建模,有效地解决了车辆侧数据缺陷和视点差异带来的问题。

关键设计:在多尺度特征提取模块中,使用了不同的卷积核大小来提取不同尺度的特征。在4D相关体积构建模块中,使用了互相关操作来计算点云和图像之间的相关性。在Mamba模型中,使用了状态空间模型来对时间信息进行建模,并使用Adam优化器进行训练。损失函数为重投影误差,通过最小化重投影误差来优化标定参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MamV2XCalib在V2X-Seq和TUMTraf-V2X真实世界数据集上进行了评估,实验结果表明,该方法在V2X场景中实现了更好、更稳定的标定性能,且参数量更少。相较于之前的单车标定方法,MamV2XCalib在旋转误差和平移误差上均有显著提升,验证了其有效性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于智能交通系统、自动驾驶、智慧城市等领域。通过自动标定基础设施摄像头,可以提高交通监控的准确性和效率,为自动驾驶车辆提供更可靠的环境感知信息,并为城市管理提供更全面的数据支持。未来,该技术有望进一步推广到更多类型的传感器和场景中。

📄 摘要(原文)

As cooperative systems that leverage roadside cameras to assist autonomous vehicle perception become increasingly widespread, large-scale precise calibration of infrastructure cameras has become a critical issue. Traditional manual calibration methods are often time-consuming, labor-intensive, and may require road closures. This paper proposes MamV2XCalib, the first V2X-based infrastructure camera calibration method with the assistance of vehicle-side LiDAR. MamV2XCalib only requires autonomous vehicles equipped with LiDAR to drive near the cameras to be calibrated in the infrastructure, without the need for specific reference objects or manual intervention. We also introduce a new targetless LiDAR-camera calibration method, which combines multi-scale features and a 4D correlation volume to estimate the correlation between vehicle-side point clouds and roadside images. We model the temporal information and estimate the rotation angles with Mamba, effectively addressing calibration failures in V2X scenarios caused by defects in the vehicle-side data (such as occlusions) and large differences in viewpoint. We evaluate MamV2XCalib on the V2X-Seq and TUMTraf-V2X real-world datasets, demonstrating the effectiveness and robustness of our V2X-based automatic calibration approach. Compared to previous LiDAR-camera methods designed for calibration on one car, our approach achieves better and more stable calibration performance in V2X scenarios with fewer parameters. The code is available at https://github.com/zhuyaoye/MamV2XCalib.