First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024

📄 arXiv: 2410.23077v1 📥 PDF

作者: Tengfei Zhang, Heng Zhang, Ruyang Li, Qi Deng, Yaqian Zhao, Rengang Li

分类: cs.CV

发布日期: 2024-10-30


💡 一句话要点

针对ROAD++时空Agent检测挑战赛,提出多分支双流模型,显著提升小目标和低光照场景下的检测性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 时空Agent检测 多分支网络 双流模型 低光照增强 目标检测 类别不平衡 数据增强

📋 核心要点

  1. 现有方法在处理ROAD++挑战赛中的极端尺寸目标、低光照场景以及类别不平衡问题时存在不足。
  2. 论文提出一种多分支双流检测模型,结合低光照增强和特征融合,并采用预训练和微调策略优化模型。
  3. 该方案在ROAD++挑战赛Track 1测试集中获得第一名,平均视频mAP达到30.82%,验证了方法的有效性。

📝 摘要(中文)

本报告介绍了我们的团队在2024年ECCV ROAD++挑战赛Track 1中的解决方案。Track 1的任务是时空Agent检测,旨在为连续视频帧中的道路Agent构建“Agent Tube”。我们的解决方案侧重于解决该任务中的挑战,包括极端尺寸目标、低光照场景、类别不平衡和细粒度分类。首先,引入了极端尺寸目标检测头,以提高对大尺寸和小尺寸目标的检测性能。其次,我们设计了一个具有低光照增强流的双流检测模型,以提高在低光照场景中时空Agent检测的性能,并使用特征融合模块来整合来自不同分支的特征。随后,我们开发了一个多分支检测框架,以缓解类别不平衡和细粒度分类的问题,并设计了一种预训练和微调方法来优化上述多分支框架。此外,我们采用了一些常见的数据增强技术,并改进了损失函数和上采样操作。我们在2024年ROAD++挑战赛Track 1的测试集中排名第一,并实现了30.82%的平均视频mAP。

🔬 方法详解

问题定义:ROAD++挑战赛Track 1的时空Agent检测任务,旨在连续视频帧中检测道路Agent并构建“Agent Tube”。现有方法在处理极端尺寸目标(过大或过小)、低光照场景、类别不平衡以及细粒度分类等问题时,性能会显著下降,难以满足实际应用需求。

核心思路:针对上述问题,论文的核心思路是构建一个多分支双流检测模型。双流结构分别处理正常光照和低光照场景,增强模型对不同光照条件的适应性。多分支结构则用于缓解类别不平衡和细粒度分类问题,提升模型对不同类别Agent的区分能力。预训练和微调策略用于优化多分支框架,提升模型的泛化能力。

技术框架:整体框架是一个双流检测模型,包含一个正常光照流和一个低光照增强流。低光照增强流首先对输入图像进行低光照增强处理,然后与正常光照流并行进行特征提取。两个流提取的特征通过特征融合模块进行融合,得到包含丰富信息的特征表示。融合后的特征输入到多分支检测头中,每个分支负责检测特定类别的Agent。最后,通过后处理模块对检测结果进行优化,得到最终的Agent Tube。

关键创新:论文的关键创新在于以下几点:1) 提出了极端尺寸目标检测头,专门用于提升对过大和过小目标的检测性能。2) 设计了双流检测模型,有效提升了模型在低光照场景下的检测性能。3) 采用了多分支检测框架,缓解了类别不平衡和细粒度分类问题。4) 提出了预训练和微调方法,优化了多分支框架,提升了模型的泛化能力。

关键设计:在网络结构方面,采用了ResNet等常用骨干网络进行特征提取。低光照增强流采用了Retinex-Net等低光照增强算法。特征融合模块采用了注意力机制,自适应地融合来自不同流的特征。损失函数方面,采用了Focal Loss等解决类别不平衡问题的损失函数。在数据增强方面,采用了MixUp、CutMix等常见的数据增强技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方案在ROAD++挑战赛Track 1测试集中取得了第一名的成绩,平均视频mAP达到了30.82%。相较于其他参赛队伍,该方案在极端尺寸目标和低光照场景下的检测性能有显著提升,证明了所提出的多分支双流模型的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通监控、机器人导航等领域。通过提升在复杂光照条件和不同尺寸目标下的Agent检测精度,可以提高自动驾驶系统的安全性和可靠性,增强交通监控系统的智能化水平,并为机器人提供更准确的环境感知能力,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

This report presents our team's solutions for the Track 1 of the 2024 ECCV ROAD++ Challenge. The task of Track 1 is spatiotemporal agent detection, which aims to construct an "agent tube" for road agents in consecutive video frames. Our solutions focus on the challenges in this task, including extreme-size objects, low-light scenarios, class imbalance, and fine-grained classification. Firstly, the extreme-size object detection heads are introduced to improve the detection performance of large and small objects. Secondly, we design a dual-stream detection model with a low-light enhancement stream to improve the performance of spatiotemporal agent detection in low-light scenes, and the feature fusion module to integrate features from different branches. Subsequently, we develop a multi-branch detection framework to mitigate the issues of class imbalance and fine-grained classification, and we design a pre-training and fine-tuning approach to optimize the above multi-branch framework. Besides, we employ some common data augmentation techniques, and improve the loss function and upsampling operation. We rank first in the test set of Track 1 for the ROAD++ Challenge 2024, and achieve 30.82% average video-mAP.