A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion

📄 arXiv: 2601.20847v1 📥 PDF

作者: Willams de Lima Costa, Thifany Ketuli Silva de Souza, Jonas Ferreira Silva, Carlos Gabriel Bezerra Pereira, Bruno Reis Vila Nova, Leonardo Silvino Brito, Rafael Raider Leoni, Juliano Silva, Valter Ferreira, Sibele Miguel Soares Neto, Samantha Uehara, Daniel Giacomo, João Marcelo Teixeira, Veronica Teichrieb, Cristiano Coelho de Araújo

分类: cs.CV, cs.AI

发布日期: 2026-01-28


💡 一句话要点

提出基于相机-IMU融合的道路表面稳健分类框架与数据集ROAD

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 道路表面分类 多模态融合 相机-IMU融合 交叉注意力机制 自适应门控 数据集ROAD 鲁棒性 环境感知

📋 核心要点

  1. 现有道路表面分类方法泛化能力弱,缺乏环境多样性数据是主要瓶颈。
  2. 提出一种多模态融合框架,利用双向交叉注意力和自适应门控机制,提升模型在不同环境下的鲁棒性。
  3. 构建包含真实、视觉和合成数据的ROAD数据集,实验证明该方法在多个基准上显著提升性能。

📝 摘要(中文)

道路表面分类(RSC)是环境感知预测性维护系统的关键。然而,由于传感方式有限以及缺乏环境多样性的数据集,现有的RSC技术通常难以推广到狭窄的操作条件之外。本研究通过引入一个多模态框架来解决这些限制,该框架融合了图像和惯性测量,使用轻量级的双向交叉注意力模块,然后是一个自适应门控层,用于调整领域偏移下的模态贡献。鉴于当前基准测试的局限性,特别是缺乏可变性,我们引入了ROAD,这是一个由三个互补子集组成的新数据集:(i)真实世界的多模态记录,包含使用黄金标准工业数据记录器同步的RGB-IMU流,在不同的光照、天气和表面条件下捕获;(ii)一个大型的仅视觉子集,旨在评估在不利光照和异构捕获设置下的鲁棒性;(iii)一个合成子集,用于研究在实践中难以获得的场景中的分布外泛化。实验表明,我们的方法在PVS基准测试上比之前的最先进水平提高了+1.4个百分点,在我们的多模态ROAD子集上提高了+11.6个百分点,并且在少数类上的F1分数始终较高。该框架还在具有挑战性的视觉条件下(包括夜间、大雨和混合表面过渡)表现出稳定的性能。这些发现表明,将经济实惠的相机和IMU传感器与多模态注意力机制相结合,为道路表面理解提供了一个可扩展、稳健的基础,这对于环境可变性和成本约束限制高端传感套件采用的地区尤其重要。

🔬 方法详解

问题定义:论文旨在解决道路表面分类任务中,现有方法在复杂多变的环境下泛化能力不足的问题。现有方法通常依赖单一模态数据,且缺乏足够多样性的训练数据,导致模型在实际应用中表现不佳,尤其是在光照条件差、天气恶劣或路面条件复杂的情况下。

核心思路:论文的核心思路是利用多模态融合,结合相机提供的视觉信息和IMU提供的惯性测量信息,以提高道路表面分类的鲁棒性。通过注意力机制学习不同模态之间的关联,并使用自适应门控层动态调整各模态的贡献,从而适应不同的环境条件。

技术框架:整体框架包含以下几个主要模块:1) 数据采集:使用相机和IMU传感器同步采集道路数据,构建包含真实、视觉和合成数据的ROAD数据集。2) 特征提取:分别从图像和IMU数据中提取特征。3) 多模态融合:使用双向交叉注意力模块融合图像和IMU特征,学习模态间的关联。4) 自适应门控:使用自适应门控层动态调整各模态的贡献。5) 分类器:使用分类器对融合后的特征进行道路表面分类。

关键创新:论文的关键创新在于:1) 提出了轻量级的双向交叉注意力模块,能够有效地融合图像和IMU特征。2) 引入了自适应门控层,可以根据环境条件动态调整各模态的贡献,提高模型的鲁棒性。3) 构建了包含真实、视觉和合成数据的ROAD数据集,为道路表面分类研究提供了新的基准。

关键设计:双向交叉注意力模块采用轻量级设计,减少了计算复杂度。自适应门控层使用sigmoid函数生成门控权重,动态调整各模态的贡献。ROAD数据集包含多种光照、天气和路面条件,以及合成数据,以增强模型的泛化能力。损失函数采用交叉熵损失函数,优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在PVS基准测试上比之前的最先进水平提高了+1.4个百分点,在多模态ROAD子集上提高了+11.6个百分点,并且在少数类上的F1分数始终较高。该框架在夜间、大雨和混合表面过渡等具有挑战性的视觉条件下表现出稳定的性能,验证了其鲁棒性和有效性。

🎯 应用场景

该研究成果可应用于环境感知预测性维护系统,例如智能车辆、自动驾驶、道路检测等领域。通过准确识别道路表面类型,可以优化车辆控制策略,提高行驶安全性,并为道路维护提供决策支持。该方法尤其适用于环境多变且成本受限的地区,具有广阔的应用前景。

📄 摘要(原文)

Road surface classification (RSC) is a key enabler for environment-aware predictive maintenance systems. However, existing RSC techniques often fail to generalize beyond narrow operational conditions due to limited sensing modalities and datasets that lack environmental diversity. This work addresses these limitations by introducing a multimodal framework that fuses images and inertial measurements using a lightweight bidirectional cross-attention module followed by an adaptive gating layer that adjusts modality contributions under domain shifts. Given the limitations of current benchmarks, especially regarding lack of variability, we introduce ROAD, a new dataset composed of three complementary subsets: (i) real-world multimodal recordings with RGB-IMU streams synchronized using a gold-standard industry datalogger, captured across diverse lighting, weather, and surface conditions; (ii) a large vision-only subset designed to assess robustness under adverse illumination and heterogeneous capture setups; and (iii) a synthetic subset generated to study out-of-distribution generalization in scenarios difficult to obtain in practice. Experiments show that our method achieves a +1.4 pp improvement over the previous state-of-the-art on the PVS benchmark and an +11.6 pp improvement on our multimodal ROAD subset, with consistently higher F1-scores on minority classes. The framework also demonstrates stable performance across challenging visual conditions, including nighttime, heavy rain, and mixed-surface transitions. These findings indicate that combining affordable camera and IMU sensors with multimodal attention mechanisms provides a scalable, robust foundation for road surface understanding, particularly relevant for regions where environmental variability and cost constraints limit the adoption of high-end sensing suites.