Robust Video-Based Pothole Detection and Area Estimation for Intelligent Vehicles with Depth Map and Kalman Smoothing

作者: Dehao Wang, Haohang Zhu, Yiwen Xu, Kaiqi Liu

分类: cs.CV

发布日期: 2025-05-27

💡 一句话要点

提出ACSH-YOLOv8与CDKF，用于智能车辆在视频中稳健检测坑洼并估计面积

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 坑洼检测 面积估计 深度估计 目标检测 卡尔曼滤波

📋 核心要点

现有基于视觉的坑洼检测方法依赖距离先验，易受相机角度和路面平坦假设影响，导致真实环境误差。
提出ACSH-YOLOv8增强小坑洼检测，结合BoT-SORT跟踪和DepthAnything V2深度估计，使用MBTP方法估计面积。
实验表明，ACSH-YOLOv8的AP(50)比YOLOv8提高了7.6%，CDKF优化提升了连续帧预测的鲁棒性。

📝 摘要（中文）

道路坑洼严重威胁驾驶安全和舒适性，因此对其进行检测和评估在自动驾驶等领域至关重要。驾驶员通常会避开较大的坑洼，并以较低的速度接近较小的坑洼以确保安全。因此，准确估计坑洼面积至关重要。现有的大多数基于视觉的方法依赖于距离先验来构建几何模型，但其性能容易受到相机角度变化的影响，并且通常依赖于平坦路面的假设，可能导致复杂真实环境中的重大误差。为了解决这些问题，本文提出了一种稳健的坑洼面积估计框架，该框架集成了对象检测和视频流中的单目深度估计。首先，为了增强坑洼特征提取并提高小坑洼的检测，提出了带有ACmix模块和小目标检测头的ACSH-YOLOv8。然后，利用BoT-SORT算法进行坑洼跟踪，同时DepthAnything V2生成每帧的深度图。利用获得的深度图和坑洼标签，提出了一种新的最小边界三角像素（MBTP）方法用于坑洼面积估计。最后，开发了基于置信度和距离的卡尔曼滤波器（CDKF），以保持连续帧之间估计结果的一致性。结果表明，ACSH-YOLOv8模型的AP(50)达到76.6%，比YOLOv8提高了7.6%。通过CDKF对连续帧的优化，坑洼预测变得更加稳健，从而增强了该方法的实际适用性。

🔬 方法详解

问题定义：论文旨在解决道路坑洼检测和面积估计问题，现有方法依赖距离先验和路面平坦假设，在复杂真实环境中精度不足，尤其对小坑洼的检测效果不佳。此外，连续帧之间的估计结果缺乏一致性，影响了方法的鲁棒性和实用性。

核心思路：论文的核心思路是结合改进的对象检测模型、单目深度估计和卡尔曼滤波，构建一个稳健的坑洼面积估计框架。通过改进YOLOv8，增强对小坑洼的检测能力；利用深度估计获取环境深度信息，摆脱对路面平坦假设的依赖；使用卡尔曼滤波平滑连续帧的估计结果，提高鲁棒性。

技术框架：整体框架包括以下几个主要阶段：1) 使用ACSH-YOLOv8进行坑洼检测，输出坑洼的边界框；2) 使用BoT-SORT算法对检测到的坑洼进行跟踪；3) 使用DepthAnything V2生成每帧的深度图；4) 使用MBTP方法，结合边界框和深度图，估计坑洼的面积；5) 使用CDKF对连续帧的面积估计结果进行平滑和优化。

关键创新：论文的关键创新点包括：1) 提出了ACSH-YOLOv8，通过引入ACmix模块和小目标检测头，提高了对小坑洼的检测精度；2) 提出了MBTP方法，利用深度图信息进行面积估计，避免了对路面平坦假设的依赖；3) 提出了CDKF，利用置信度和距离信息，对连续帧的估计结果进行平滑，提高了鲁棒性。

关键设计：ACSH-YOLOv8的关键设计在于ACmix模块的引入，用于增强特征提取能力，以及小目标检测头的加入，专门用于提升小坑洼的检测性能。MBTP方法利用边界框内的像素点进行三角化，并结合深度信息计算面积。CDKF的关键在于状态转移矩阵和观测矩阵的设计，以及置信度和距离信息的融合，用于更好地预测和更新坑洼的面积估计值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ACSH-YOLOv8模型在坑洼检测任务中取得了显著的性能提升，AP(50)达到76.6%，相比于原始YOLOv8模型提高了7.6%。此外，通过CDKF对连续帧的优化，坑洼预测结果更加稳定和鲁棒，验证了该方法在实际应用中的有效性。这些结果表明该方法在坑洼检测和面积估计方面具有较高的精度和鲁棒性。

🎯 应用场景

该研究成果可应用于智能车辆、自动驾驶系统和道路维护等领域。通过实时检测和评估道路坑洼，可以提高驾驶安全性，减少车辆损伤，并为道路维护提供数据支持，从而降低维护成本，提升道路使用寿命。未来，该技术可进一步扩展到其他道路病害的检测和评估，构建更全面的道路健康监测系统。

📄 摘要（原文）

Road potholes pose a serious threat to driving safety and comfort, making their detection and assessment a critical task in fields such as autonomous driving. When driving vehicles, the operators usually avoid large potholes and approach smaller ones at reduced speeds to ensure safety. Therefore, accurately estimating pothole area is of vital importance. Most existing vision-based methods rely on distance priors to construct geometric models. However, their performance is susceptible to variations in camera angles and typically relies on the assumption of a flat road surface, potentially leading to significant errors in complex real-world environments. To address these problems, a robust pothole area estimation framework that integrates object detection and monocular depth estimation in a video stream is proposed in this paper. First, to enhance pothole feature extraction and improve the detection of small potholes, ACSH-YOLOv8 is proposed with ACmix module and the small object detection head. Then, the BoT-SORT algorithm is utilized for pothole tracking, while DepthAnything V2 generates depth maps for each frame. With the obtained depth maps and potholes labels, a novel Minimum Bounding Triangulated Pixel (MBTP) method is proposed for pothole area estimation. Finally, Kalman Filter based on Confidence and Distance (CDKF) is developed to maintain consistency of estimation results across consecutive frames. The results show that ACSH-YOLOv8 model achieves an AP(50) of 76.6%, representing a 7.6% improvement over YOLOv8. Through CDKF optimization across consecutive frames, pothole predictions become more robust, thereby enhancing the method's practical applicability.

Robust Video-Based Pothole Detection and Area Estimation for Intelligent Vehicles with Depth Map and Kalman Smoothing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理