First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024

作者: Tengfei Zhang, Heng Zhang, Ruyang Li, Qi Deng, Yaqian Zhao, Rengang Li

分类: cs.CV

发布日期: 2024-10-30

💡 一句话要点

针对ROAD++时空Agent检测挑战赛，提出多分支双流模型，显著提升小目标和低光照场景下的检测性能。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 时空Agent检测 多分支网络 双流模型 低光照增强 目标检测 类别不平衡 数据增强

📋 核心要点

现有方法在处理ROAD++挑战赛中的极端尺寸目标、低光照场景以及类别不平衡问题时存在不足。
论文提出一种多分支双流检测模型，结合低光照增强和特征融合，并采用预训练和微调策略优化模型。
该方案在ROAD++挑战赛Track 1测试集中获得第一名，平均视频mAP达到30.82%，验证了方法的有效性。

📝 摘要（中文）

本报告介绍了我们的团队在2024年ECCV ROAD++挑战赛Track 1中的解决方案。Track 1的任务是时空Agent检测，旨在为连续视频帧中的道路Agent构建“Agent Tube”。我们的解决方案侧重于解决该任务中的挑战，包括极端尺寸目标、低光照场景、类别不平衡和细粒度分类。首先，引入了极端尺寸目标检测头，以提高对大尺寸和小尺寸目标的检测性能。其次，我们设计了一个具有低光照增强流的双流检测模型，以提高在低光照场景中时空Agent检测的性能，并使用特征融合模块来整合来自不同分支的特征。随后，我们开发了一个多分支检测框架，以缓解类别不平衡和细粒度分类的问题，并设计了一种预训练和微调方法来优化上述多分支框架。此外，我们采用了一些常见的数据增强技术，并改进了损失函数和上采样操作。我们在2024年ROAD++挑战赛Track 1的测试集中排名第一，并实现了30.82%的平均视频mAP。

🔬 方法详解

问题定义：ROAD++挑战赛Track 1的时空Agent检测任务，旨在连续视频帧中检测道路Agent并构建“Agent Tube”。现有方法在处理极端尺寸目标（过大或过小）、低光照场景、类别不平衡以及细粒度分类等问题时，性能会显著下降，难以满足实际应用需求。

核心思路：针对上述问题，论文的核心思路是构建一个多分支双流检测模型。双流结构分别处理正常光照和低光照场景，增强模型对不同光照条件的适应性。多分支结构则用于缓解类别不平衡和细粒度分类问题，提升模型对不同类别Agent的区分能力。预训练和微调策略用于优化多分支框架，提升模型的泛化能力。

技术框架：整体框架是一个双流检测模型，包含一个正常光照流和一个低光照增强流。低光照增强流首先对输入图像进行低光照增强处理，然后与正常光照流并行进行特征提取。两个流提取的特征通过特征融合模块进行融合，得到包含丰富信息的特征表示。融合后的特征输入到多分支检测头中，每个分支负责检测特定类别的Agent。最后，通过后处理模块对检测结果进行优化，得到最终的Agent Tube。

关键创新：论文的关键创新在于以下几点：1) 提出了极端尺寸目标检测头，专门用于提升对过大和过小目标的检测性能。2) 设计了双流检测模型，有效提升了模型在低光照场景下的检测性能。3) 采用了多分支检测框架，缓解了类别不平衡和细粒度分类问题。4) 提出了预训练和微调方法，优化了多分支框架，提升了模型的泛化能力。

关键设计：在网络结构方面，采用了ResNet等常用骨干网络进行特征提取。低光照增强流采用了Retinex-Net等低光照增强算法。特征融合模块采用了注意力机制，自适应地融合来自不同流的特征。损失函数方面，采用了Focal Loss等解决类别不平衡问题的损失函数。在数据增强方面，采用了MixUp、CutMix等常见的数据增强技术。

🖼️ 关键图片

📊 实验亮点

该方案在ROAD++挑战赛Track 1测试集中取得了第一名的成绩，平均视频mAP达到了30.82%。相较于其他参赛队伍，该方案在极端尺寸目标和低光照场景下的检测性能有显著提升，证明了所提出的多分支双流模型的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通监控、机器人导航等领域。通过提升在复杂光照条件和不同尺寸目标下的Agent检测精度，可以提高自动驾驶系统的安全性和可靠性，增强交通监控系统的智能化水平，并为机器人提供更准确的环境感知能力，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

This report presents our team's solutions for the Track 1 of the 2024 ECCV ROAD++ Challenge. The task of Track 1 is spatiotemporal agent detection, which aims to construct an "agent tube" for road agents in consecutive video frames. Our solutions focus on the challenges in this task, including extreme-size objects, low-light scenarios, class imbalance, and fine-grained classification. Firstly, the extreme-size object detection heads are introduced to improve the detection performance of large and small objects. Secondly, we design a dual-stream detection model with a low-light enhancement stream to improve the performance of spatiotemporal agent detection in low-light scenes, and the feature fusion module to integrate features from different branches. Subsequently, we develop a multi-branch detection framework to mitigate the issues of class imbalance and fine-grained classification, and we design a pre-training and fine-tuning approach to optimize the above multi-branch framework. Besides, we employ some common data augmentation techniques, and improve the loss function and upsampling operation. We rank first in the test set of Track 1 for the ROAD++ Challenge 2024, and achieve 30.82% average video-mAP.

First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理