Vision-based Perception for Autonomous Vehicles in Obstacle Avoidance Scenarios

作者: Van-Hoang-Anh Phan, Chi-Tam Nguyen, Doan-Trung Au, Thanh-Danh Phan, Minh-Thien Duong, My-Ha Le

分类: cs.CV

发布日期: 2025-07-16

备注: 7 pages, 6 figures, 4 tables, HSI 2025

💡 一句话要点

提出基于视觉的自动驾驶避障方案，融合YOLOv11和单目深度估计

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 避障 视觉感知 目标检测 深度估计 YOLOv11 单目视觉

📋 核心要点

自动驾驶车辆在复杂环境中安全导航的关键在于精确的感知和运动规划，现有方法在鲁棒性和效率上存在挑战。
该方案融合YOLOv11目标检测和先进的单目深度估计模型，构建纯视觉感知模块，为车辆提供环境理解能力。
在大学校园的多种场景下进行实验，验证了该系统在避障方面的有效性，并对不同深度估计模型进行了对比分析。

📝 摘要（中文）

本文提出了一种高效的自动驾驶避障方案，该方案利用纯视觉感知模块和基于Frenet-Pure Pursuit的规划策略。通过集成计算机视觉领域的最新进展，该系统采用YOLOv11进行目标检测，并利用最先进的单目深度估计模型（如Depth Anything V2）来估计目标距离。对这些模型进行了比较分析，从而深入了解它们在真实环境中的准确性、效率和鲁棒性。该系统在大学校园的各种场景中进行了评估，证明了其在处理各种障碍物和增强自主导航方面的有效性。避障实验结果的视频可在以下网址观看：https://www.youtube.com/watch?v=FoXiO5S_tA8

🔬 方法详解

问题定义：自动驾驶车辆在复杂环境中需要准确感知周围环境，特别是障碍物的位置和距离，以避免碰撞。现有方法可能依赖激光雷达等昂贵传感器，或者在纯视觉方案中，深度估计的准确性和效率仍然是挑战。论文旨在解决在仅使用摄像头的情况下，如何高效、准确地进行障碍物感知和避障的问题。

核心思路：论文的核心思路是利用先进的计算机视觉技术，特别是目标检测和单目深度估计，构建一个纯视觉的感知系统。通过YOLOv11进行快速准确的目标检测，然后利用Depth Anything V2等单目深度估计模型估计目标的距离。结合Frenet-Pure Pursuit规划算法，实现安全有效的避障。这样设计的目的是降低成本，提高系统的灵活性和可扩展性。

技术框架：整个系统包含以下几个主要模块：1) 图像采集：通过车载摄像头获取周围环境的图像。2) 目标检测：使用YOLOv11检测图像中的障碍物，例如行人、车辆等。3) 深度估计：使用单目深度估计模型（如Depth Anything V2）估计每个障碍物的距离。4) 路径规划：基于Frenet坐标系和Pure Pursuit算法，生成安全可行的行驶路径，避开检测到的障碍物。5) 车辆控制：根据规划的路径，控制车辆的转向和速度。

关键创新：该论文的关键创新在于将YOLOv11目标检测和先进的单目深度估计模型（如Depth Anything V2）集成到一个自动驾驶避障系统中。与传统的依赖激光雷达的方案相比，该方案成本更低，更易于部署。此外，论文还对不同的单目深度估计模型进行了比较分析，为实际应用提供了有价值的参考。

关键设计：论文中使用了YOLOv11作为目标检测器，该模型具有较高的检测精度和速度。在深度估计方面，采用了Depth Anything V2等先进的单目深度估计模型，这些模型能够从单张图像中推断出场景的深度信息。路径规划采用了Frenet坐标系和Pure Pursuit算法，Frenet坐标系能够将路径规划问题转化为纵向和横向的解耦问题，Pure Pursuit算法则能够根据车辆的当前状态和目标点，计算出合适的转向角。

🖼️ 关键图片

📊 实验亮点

该系统在大学校园的各种场景中进行了评估，展示了其在处理不同类型障碍物方面的有效性。论文对YOLOv11和Depth Anything V2等模型的性能进行了详细分析，并与其他单目深度估计模型进行了对比，为实际应用提供了参考依据。实验结果表明，该系统能够实现安全有效的避障，提升了自动驾驶车辆的自主导航能力。

🎯 应用场景

该研究成果可应用于低速自动驾驶车辆，例如校园无人车、园区物流车等。通过降低对昂贵传感器的依赖，可以有效降低自动驾驶系统的成本，加速其商业化进程。此外，该研究对于提升自动驾驶车辆在复杂环境下的安全性和可靠性具有重要意义，有助于推动自动驾驶技术的广泛应用。

📄 摘要（原文）

Obstacle avoidance is essential for ensuring the safety of autonomous vehicles. Accurate perception and motion planning are crucial to enabling vehicles to navigate complex environments while avoiding collisions. In this paper, we propose an efficient obstacle avoidance pipeline that leverages a camera-only perception module and a Frenet-Pure Pursuit-based planning strategy. By integrating advancements in computer vision, the system utilizes YOLOv11 for object detection and state-of-the-art monocular depth estimation models, such as Depth Anything V2, to estimate object distances. A comparative analysis of these models provides valuable insights into their accuracy, efficiency, and robustness in real-world conditions. The system is evaluated in diverse scenarios on a university campus, demonstrating its effectiveness in handling various obstacles and enhancing autonomous navigation. The video presenting the results of the obstacle avoidance experiments is available at: https://www.youtube.com/watch?v=FoXiO5S_tA8

Vision-based Perception for Autonomous Vehicles in Obstacle Avoidance Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理