Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios
作者: Zhanwen Liu, Yujing Sun, Yang Wang, Nan Yang, Shengbo Eben Li, Xiangmo Zhao
分类: cs.CV
发布日期: 2025-08-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出MCFNet,融合RGB图像与事件相机数据,提升动态交通场景下目标检测的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: RGB-事件融合 目标检测 动态交通场景 事件相机 跨模态融合
📋 核心要点
- 传统RGB相机在动态交通场景中受限于动态范围,导致目标检测性能下降,尤其是在弱光或高动态范围环境下。
- MCFNet通过融合RGB图像和事件相机数据,利用事件相机的高动态范围特性,提升在复杂光照条件下的目标检测能力。
- 实验结果表明,MCFNet在DSEC-Det数据集上,mAP50和mAP分别提升了7.4%和1.7%,显著优于现有方法。
📝 摘要(中文)
传统RGB相机在复杂交通环境(如夜间驾驶、隧道)中存在动态范围限制,导致全局对比度降低,纹理和边缘等高频细节丢失,阻碍了判别性特征提取,降低了基于帧的目标检测性能。为了解决这个问题,本文将仿生事件相机与RGB相机集成,以提供高动态范围信息,并提出了运动线索融合网络(MCFNet),该网络在具有挑战性的光照条件下实现了最佳的时空对齐和自适应跨模态特征融合。具体而言,事件校正模块(ECM)通过基于光流的扭曲将异步事件流与图像帧进行时间对齐,并与检测网络联合优化以学习任务感知的事件表示。事件动态上采样模块(EDUM)增强了事件帧的空间分辨率以匹配图像结构,确保精确的时空对齐。跨模态Mamba融合模块(CMM)使用具有新型交错扫描机制的自适应特征融合,有效地集成了互补信息以实现鲁棒的检测。在DSEC-Det和PKU-DAVIS-SOD数据集上进行的实验表明,MCFNet在各种弱光和快速移动的交通场景中显着优于现有方法。值得注意的是,在DSEC-Det数据集上,MCFNet取得了显着改进,分别超过了现有最佳方法7.4%的mAP50和1.7%的mAP。
🔬 方法详解
问题定义:论文旨在解决传统RGB相机在动态交通场景中,由于动态范围限制导致的目标检测性能下降问题。现有方法在弱光、高动态范围或快速运动场景下,难以提取有效的特征,导致检测精度降低。
核心思路:论文的核心思路是融合RGB图像和事件相机数据,利用事件相机的高动态范围和高时间分辨率特性,弥补RGB相机在复杂光照条件下的不足。通过时空对齐和特征融合,提取更鲁棒的特征表示,从而提升目标检测的性能。
技术框架:MCFNet包含三个主要模块:事件校正模块(ECM)、事件动态上采样模块(EDUM)和跨模态Mamba融合模块(CMM)。ECM负责将异步事件流与图像帧进行时间对齐;EDUM增强事件帧的空间分辨率,使其与图像结构匹配;CMM则利用Mamba架构进行自适应跨模态特征融合。整个网络以端到端的方式进行训练,共同优化事件表示和目标检测。
关键创新:论文的关键创新在于:1) 提出了一种基于光流的事件校正模块(ECM),用于实现事件流与图像帧的时空对齐。2) 设计了事件动态上采样模块(EDUM),增强事件帧的空间分辨率。3) 引入了跨模态Mamba融合模块(CMM),利用Mamba架构进行自适应特征融合,有效整合了RGB图像和事件相机数据的互补信息。
关键设计:ECM模块使用光流估计来实现事件流的时间对齐,并与检测网络联合优化,学习任务感知的事件表示。EDUM模块采用动态上采样策略,根据图像结构自适应地调整事件帧的分辨率。CMM模块使用交错扫描机制,将RGB图像和事件数据的特征进行融合。损失函数包括检测损失和光流损失,共同优化网络参数。
🖼️ 关键图片
📊 实验亮点
MCFNet在DSEC-Det数据集上取得了显著的性能提升,mAP50指标达到75.2%,相比现有最佳方法提升了7.4%;mAP指标达到54.9%,提升了1.7%。此外,在PKU-DAVIS-SOD数据集上也取得了有竞争力的结果,验证了MCFNet在不同数据集和场景下的泛化能力和有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、智能交通监控、机器人导航等领域。通过提升在复杂光照和动态环境下的目标检测能力,可以提高自动驾驶系统的安全性和可靠性,增强交通监控系统的智能化水平,并为机器人在复杂环境中的自主导航提供更准确的环境感知。
📄 摘要(原文)
The dynamic range limitation of conventional RGB cameras reduces global contrast and causes loss of high-frequency details such as textures and edges in complex traffic environments (e.g., nighttime driving, tunnels), hindering discriminative feature extraction and degrading frame-based object detection. To address this, we integrate a bio-inspired event camera with an RGB camera to provide high dynamic range information and propose a motion cue fusion network (MCFNet), which achieves optimal spatiotemporal alignment and adaptive cross-modal feature fusion under challenging lighting. Specifically, an event correction module (ECM) temporally aligns asynchronous event streams with image frames via optical-flow-based warping, jointly optimized with the detection network to learn task-aware event representations. The event dynamic upsampling module (EDUM) enhances spatial resolution of event frames to match image structures, ensuring precise spatiotemporal alignment. The cross-modal mamba fusion module (CMM) uses adaptive feature fusion with a novel interlaced scanning mechanism, effectively integrating complementary information for robust detection. Experiments conducted on the DSEC-Det and PKU-DAVIS-SOD datasets demonstrate that MCFNet significantly outperforms existing methods in various poor lighting and fast moving traffic scenarios. Notably, on the DSEC-Det dataset, MCFNet achieves a remarkable improvement, surpassing the best existing methods by 7.4% in mAP50 and 1.7% in mAP metrics, respectively. The code is available at https://github.com/Charm11492/MCFNet.