ROADWork: A Dataset and Benchmark for Learning to Recognize, Observe, Analyze and Drive Through Work Zones

📄 arXiv: 2406.07661v3 📥 PDF

作者: Anurag Ghosh, Shen Zheng, Robert Tamburo, Khiem Vuong, Juan Alvarez-Padilla, Hailiang Zhu, Michael Cardei, Nicholas Dunn, Christoph Mertz, Srinivasa G. Narasimhan

分类: cs.CV, cs.RO

发布日期: 2024-06-11 (更新: 2025-11-04)

备注: ICCV 2025 Accepted Paper


💡 一句话要点

ROADWork:用于学习识别、观察、分析和驾驶通过施工区域的数据集与基准

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 道路施工区域 自动驾驶 数据集 目标检测 视觉-语言模型 路径规划 长尾场景

📋 核心要点

  1. 现有方法难以有效识别和导航通过道路施工区域,缺乏针对性数据集是主要瓶颈。
  2. ROADWork数据集旨在通过提供丰富的施工区域数据,促进模型学习识别、分析和导航通过这些区域。
  3. 实验表明,在ROADWork上微调模型能显著提升感知和导航性能,并验证了简单技术如标签传播的有效性。

📝 摘要(中文)

感知并自主导航通过施工区域是一个具有挑战性且未被充分探索的问题。针对这种长尾场景的开放数据集非常稀缺。我们提出了ROADWork数据集,用于学习识别、观察、分析和驾驶通过施工区域。最先进的基础模型在应用于施工区域时会失效。在我们的数据集上微调模型可以显著提高在施工区域的感知和导航能力。借助ROADWork数据集,我们以更高的精度(+32.5%)和更高的速率(12.8倍)在全球范围内发现新的施工区域图像。开放词汇方法也失败了,而微调的检测器提高了性能(+32.2 AP)。视觉-语言模型(VLMs)难以描述施工区域,但微调可以显著提高性能(+36.7 SPICE)。除了微调之外,我们还展示了简单技术的价值。视频标签传播为实例分割提供了额外的增益(+2.6 AP)。在读取施工区域标志时,通过裁剪缩放组合检测器和文本识别器可提高性能(+14.2% 1-NED)。组合施工区域检测以提供上下文可以进一步减少VLMs中的幻觉(+3.9 SPICE)。我们预测导航目标并从施工区域视频中计算可行驶路径。结合道路施工语义确保53.6%的目标具有小于0.5的角度误差(AE)(+9.9%),并且75.3%的路径具有小于0.5的AE(+8.1%)。

🔬 方法详解

问题定义:论文旨在解决自动驾驶车辆在道路施工区域的感知和导航问题。现有方法,特别是通用的基础模型,在处理这种长尾、特殊场景时表现不佳,主要痛点在于缺乏针对性训练数据,导致模型泛化能力不足。

核心思路:论文的核心思路是构建一个大规模、高质量的道路施工区域数据集(ROADWork),并在此基础上微调现有模型,使其能够更好地理解和处理施工区域的视觉信息,从而提升感知和导航性能。同时,探索简单有效的技术手段,如视频标签传播和上下文信息融合,进一步提升模型效果。

技术框架:ROADWork数据集的构建是整个技术框架的基础。论文还探索了以下技术:1) 使用ROADWork数据集微调目标检测器和视觉-语言模型;2) 利用视频标签传播技术提升实例分割性能;3) 通过组合检测器和文本识别器来提高施工区域标志的识别精度;4) 融合施工区域检测结果的上下文信息,减少视觉-语言模型中的幻觉;5) 基于道路施工语义预测导航目标和计算可行驶路径。

关键创新:论文的关键创新在于:1) 构建了首个大规模、专门针对道路施工区域的数据集ROADWork,填补了该领域的空白;2) 验证了在ROADWork数据集上微调现有模型能够显著提升在施工区域的感知和导航性能;3) 探索了多种简单有效的技术手段,如视频标签传播和上下文信息融合,进一步提升模型效果。

关键设计:论文中涉及的关键设计包括:1) 数据集的标注规范,确保标注质量和一致性;2) 针对不同任务(目标检测、实例分割、视觉-语言描述、路径规划)的模型微调策略;3) 视频标签传播的具体实现方式,例如如何选择关键帧和传播标签;4) 上下文信息融合的方法,例如如何将检测到的施工区域元素(如锥桶、标志)的信息融入到视觉-语言模型的输入中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROADWork数据集的引入显著提升了模型在道路施工区域的性能。例如,目标检测精度提升了32.2% AP,视觉-语言模型的SPICE评分提升了36.7%。此外,结合道路施工语义的路径规划,使得导航目标和路径的角度误差分别降低了9.9%和8.1%。

🎯 应用场景

该研究成果可应用于自动驾驶、辅助驾驶系统,提升车辆在道路施工区域的安全性与可靠性。通过更精确的感知和导航,减少事故风险,提高交通效率。未来可扩展到其他特殊场景,如灾害现场、矿区等,具有广泛的应用前景。

📄 摘要(原文)

Perceiving and autonomously navigating through work zones is a challenging and underexplored problem. Open datasets for this long-tailed scenario are scarce. We propose the ROADWork dataset to learn to recognize, observe, analyze, and drive through work zones. State-of-the-art foundation models fail when applied to work zones. Fine-tuning models on our dataset significantly improves perception and navigation in work zones. With ROADWork dataset, we discover new work zone images with higher precision (+32.5%) at a much higher rate (12.8$\times$) around the world. Open-vocabulary methods fail too, whereas fine-tuned detectors improve performance (+32.2 AP). Vision-Language Models (VLMs) struggle to describe work zones, but fine-tuning substantially improves performance (+36.7 SPICE). Beyond fine-tuning, we show the value of simple techniques. Video label propagation provides additional gains (+2.6 AP) for instance segmentation. While reading work zone signs, composing a detector and text spotter via crop-scaling improves performance +14.2% 1-NED). Composing work zone detections to provide context further reduces hallucinations (+3.9 SPICE) in VLMs. We predict navigational goals and compute drivable paths from work zone videos. Incorporating road work semantics ensures 53.6% goals have angular error (AE) < 0.5 (+9.9 %) and 75.3% pathways have AE < 0.5 (+8.1 %).