Multi-Modal Camera-Based Detection of Vulnerable Road Users

作者: Penelope Brown, Julie Stephany Berrio Perez, Mao Shan, Stewart Worrall

分类: cs.CV, cs.RO

发布日期: 2025-09-08

💡 一句话要点

提出一种多模态相机融合的弱势道路使用者检测框架，提升恶劣环境下的检测性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 目标检测 弱势道路使用者 YOLOv8 热红外成像 数据增强 类别重加权

📋 核心要点

现有方法在弱光、恶劣天气等复杂环境下，对行人、自行车等弱势道路使用者（VRU）的检测精度较低，存在挑战。
该论文提出一种多模态检测框架，融合RGB和热红外图像，并结合YOLOv8模型，以提升VRU的检测性能。
实验结果表明，该方法通过类别重加权和数据增强，提高了少数类别的召回率，并验证了多模态检测在VRU安全方面的潜力。

📝 摘要（中文）

弱势道路使用者（VRU），如行人、自行车和摩托车驾驶员，占全球交通死亡人数的一半以上，但在光线不足、恶劣天气和不平衡数据集中的检测仍然具有挑战性。本文提出了一种多模态检测框架，该框架集成了RGB和热红外成像，并结合了微调的YOLOv8模型。训练利用了KITTI、BDD100K和Teledyne FLIR数据集，采用类别重加权和轻量级数据增强来提高少数类别的性能和鲁棒性。实验表明，640像素分辨率和部分骨干网络冻结优化了精度和效率，而类别加权损失提高了稀有VRU的召回率。结果表明，热红外模型实现了最高的精度，RGB到热红外的增强提高了召回率，证明了多模态检测在提高交叉路口VRU安全性方面的潜力。

🔬 方法详解

问题定义：论文旨在解决在恶劣天气、光照不足等复杂环境下，弱势道路使用者（VRU）检测精度低的问题。现有方法在这些场景下鲁棒性较差，容易出现漏检和误检，严重影响自动驾驶和辅助驾驶系统的安全性。

核心思路：论文的核心思路是利用RGB图像和热红外图像的信息互补性，通过多模态融合来提升VRU的检测性能。RGB图像提供丰富的颜色和纹理信息，而热红外图像对温度敏感，可以在光照不足或遮挡情况下提供有效的目标信息。

技术框架：该框架主要包含数据采集、数据预处理、模型训练和目标检测四个阶段。首先，利用RGB相机和热红外相机同步采集图像数据，并进行配准和校正。然后，对数据进行预处理，包括图像增强、尺寸调整等。接着，使用YOLOv8模型进行训练，并采用类别重加权和数据增强等策略来提高模型的性能。最后，利用训练好的模型进行目标检测，输出VRU的位置和类别信息。

关键创新：该论文的关键创新在于多模态融合策略和针对VRU检测的优化方法。通过融合RGB和热红外图像，可以有效提高在复杂环境下的检测精度。此外，论文还采用了类别重加权和数据增强等策略，来解决VRU数据集中存在的类别不平衡问题。

关键设计：在模型训练方面，论文采用了YOLOv8模型，并对其进行了微调。为了提高模型的效率，论文还采用了部分骨干网络冻结的策略。在损失函数方面，论文采用了类别加权损失，以提高稀有VRU的召回率。此外，论文还探索了不同的图像分辨率对检测性能的影响，最终选择了640像素的分辨率。

📊 实验亮点

实验结果表明，热红外模型实现了最高的检测精度，而RGB到热红外的图像增强策略显著提高了召回率。通过多模态融合，该方法在VRU检测任务上取得了显著的性能提升，尤其是在光照不足和恶劣天气等复杂环境下，证明了多模态检测在提高VRU安全方面的潜力。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统（ADAS）、智能交通监控等领域。通过提高弱势道路使用者的检测精度，可以有效降低交通事故的发生率，提升道路交通的安全性。未来，该技术还可以扩展到其他类型的目标检测任务中，例如行人属性识别、行为预测等。

📄 摘要（原文）

Vulnerable road users (VRUs) such as pedestrians, cyclists, and motorcyclists represent more than half of global traffic deaths, yet their detection remains challenging in poor lighting, adverse weather, and unbalanced data sets. This paper presents a multimodal detection framework that integrates RGB and thermal infrared imaging with a fine-tuned YOLOv8 model. Training leveraged KITTI, BDD100K, and Teledyne FLIR datasets, with class re-weighting and light augmentations to improve minority-class performance and robustness, experiments show that 640-pixel resolution and partial backbone freezing optimise accuracy and efficiency, while class-weighted losses enhance recall for rare VRUs. Results highlight that thermal models achieve the highest precision, and RGB-to-thermal augmentation boosts recall, demonstrating the potential of multimodal detection to improve VRU safety at intersections.

Multi-Modal Camera-Based Detection of Vulnerable Road Users

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册