Monocular Event-Based Vision for Obstacle Avoidance with a Quadrotor

作者: Anish Bhattacharya, Marco Cannici, Nishanth Rao, Yuezhan Tao, Vijay Kumar, Nikolai Matni, Davide Scaramuzza

分类: cs.RO

发布日期: 2024-11-05

备注: 18 pages with supplementary

期刊: Conference on Robot Learning (CoRL), Munich, Germany, 2024

💡 一句话要点

提出一种基于单目事件相机的四旋翼无人机避障方法。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 事件相机 无人机 障碍物避障 深度预测 自主导航

📋 核心要点

传统相机在无人机快速运动时易受运动模糊影响，限制了其在复杂环境中的自主飞行能力。
利用事件相机的高动态范围和低延迟特性，结合深度预测预训练和真实数据微调，实现稳健的避障。
实验表明，高速飞行反而有助于提升基于事件相机的深度估计和避障性能，室外场景表现更佳。

📝 摘要（中文）

本文提出了一种仅使用单目事件相机的四旋翼无人机静态障碍物避障方法。四旋翼无人机在人工操控下能够在复杂环境中进行快速灵活的飞行，但由于传统机载相机的传感器限制，在未知环境中基于视觉的自主飞行仍然困难。事件相机具有几乎零运动模糊和高动态范围的优点，但在显著的自运动下会产生大量的事件，并且在仿真中缺乏连续时间传感器模型，使得直接的sim-to-real迁移成为不可能。通过在学习框架中利用深度预测作为预训练任务，我们可以使用近似的模拟事件来预训练一个反应式避障事件到控制策略，然后使用有限的事件和深度真实世界数据来微调感知组件，从而在室内和室外环境中实现避障。我们在多个场景中的两个四旋翼无人机-事件相机平台上验证了该方法，并发现与传统的基于视觉的方法相反，低速（1米/秒）使任务更难且更容易发生碰撞，而高速（5米/秒）会产生更好的基于事件的深度估计和避障效果。我们还发现，室外场景的成功率可能明显高于某些室内场景。

🔬 方法详解

问题定义：论文旨在解决四旋翼无人机在未知环境中，仅使用单目事件相机进行静态障碍物避障的问题。现有方法依赖传统相机，在无人机快速运动时易受运动模糊影响，限制了其在复杂环境中的自主飞行能力。事件相机虽然具有高动态范围和低延迟的优点，但其输出的事件流数据量大，且缺乏连续时间传感器模型，难以直接应用于无人机控制。

核心思路：论文的核心思路是利用深度预测作为预训练任务，结合模拟事件数据和少量真实世界数据，训练一个反应式避障策略。通过预训练，模型可以学习到事件数据与深度信息之间的关联，从而在真实环境中仅依赖事件相机实现避障。这种方法避免了直接从零开始训练，降低了对大量真实数据的需求。

技术框架：整体框架包含两个主要阶段：预训练阶段和微调阶段。在预训练阶段，使用模拟事件数据训练一个事件到深度的预测模型，以及一个基于预测深度的避障控制策略。在微调阶段，使用少量真实世界的事件和深度数据，对感知组件（事件到深度预测模型）进行微调，以适应真实环境的特性。最终，将微调后的感知组件与控制策略结合，实现无人机的自主避障。

关键创新：论文的关键创新在于利用深度预测作为预训练任务，克服了事件相机数据量大和缺乏连续时间传感器模型的难题。通过预训练，模型可以学习到事件数据与深度信息之间的关联，从而在真实环境中仅依赖事件相机实现避障。此外，论文还发现高速飞行反而有助于提升基于事件相机的深度估计和避障性能，这与传统基于视觉的方法不同。

关键设计：论文使用了一种基于神经网络的事件到深度预测模型，该模型以事件流作为输入，输出场景的深度图。损失函数包括深度预测误差和控制策略的奖励函数。在控制策略方面，采用了一种反应式控制方法，根据预测的深度信息直接生成无人机的控制指令。具体的网络结构和参数设置在论文中有详细描述，但此处未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够在室内和室外环境中实现有效的静态障碍物避障。与传统视觉方法不同，高速飞行（5m/s）反而能够提升避障性能。在某些室外场景中，成功率显著高于室内场景。这些结果验证了该方法在实际应用中的可行性和潜力。

🎯 应用场景

该研究成果可应用于无人机自主导航、机器人避障、增强现实等领域。尤其在光照条件差、运动速度快的场景下，基于事件相机的避障方法具有显著优势。未来可进一步扩展到动态障碍物避障、复杂环境探索等任务，提升无人机和机器人的智能化水平。

📄 摘要（原文）

We present the first static-obstacle avoidance method for quadrotors using just an onboard, monocular event camera. Quadrotors are capable of fast and agile flight in cluttered environments when piloted manually, but vision-based autonomous flight in unknown environments is difficult in part due to the sensor limitations of traditional onboard cameras. Event cameras, however, promise nearly zero motion blur and high dynamic range, but produce a very large volume of events under significant ego-motion and further lack a continuous-time sensor model in simulation, making direct sim-to-real transfer not possible. By leveraging depth prediction as a pretext task in our learning framework, we can pre-train a reactive obstacle avoidance events-to-control policy with approximated, simulated events and then fine-tune the perception component with limited events-and-depth real-world data to achieve obstacle avoidance in indoor and outdoor settings. We demonstrate this across two quadrotor-event camera platforms in multiple settings and find, contrary to traditional vision-based works, that low speeds (1m/s) make the task harder and more prone to collisions, while high speeds (5m/s) result in better event-based depth estimation and avoidance. We also find that success rates in outdoor scenes can be significantly higher than in certain indoor scenes.

Monocular Event-Based Vision for Obstacle Avoidance with a Quadrotor

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理