Seeing Through Pixel Motion: Learning Obstacle Avoidance from Optical Flow with One Camera

📄 arXiv: 2411.04413v2 📥 PDF

作者: Yu Hu, Yuang Zhang, Yunlong Song, Yang Deng, Feng Yu, Linzuo Zhang, Weiyao Lin, Danping Zou, Wenxian Yu

分类: cs.RO

发布日期: 2024-11-07 (更新: 2025-04-19)


💡 一句话要点

提出基于单目光流的四旋翼避障端到端系统,提升复杂环境下的飞行敏捷性和鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光流 无人机 避障 端到端学习 强化学习 注意力机制 主动感知

📋 核心要点

  1. 现有自主飞行器难以充分利用光流信息实现昆虫级别的敏捷性和鲁棒性,面临高速光流提取、噪声处理和复杂环境适应等挑战。
  2. 论文提出端到端系统,通过可微模拟器训练策略,并引入中心流注意力机制和主动感知策略,提升对关键光流信息的关注。
  3. 实验结果表明,该系统在真实复杂环境中,即使在简单模拟环境中训练,也能实现高达6m/s的敏捷鲁棒飞行。

📝 摘要(中文)

本文提出了一种新颖的端到端系统,用于四旋翼飞行器利用单目光流进行避障。该系统旨在解决从光流中进行控制所面临的挑战,包括高速精确光流提取、噪声处理以及复杂环境中的鲁棒性。为此,作者开发了一个高效的可微模拟器,并结合简化的四旋翼模型,使策略能够通过一阶梯度优化直接训练。此外,引入了中心流注意力机制和动作引导的主动感知策略,增强策略对任务相关光流观测的关注,从而在飞行过程中实现更灵敏的决策。该系统在模拟和真实世界中使用FPV竞速无人机进行了验证,即使在模拟的简单环境中训练,也能在各种未知的复杂环境中以高达6m/s的速度展示出敏捷和鲁棒的飞行能力。

🔬 方法详解

问题定义:现有方法难以有效利用单目视觉光流信息,在复杂环境中实现四旋翼飞行器的高速、鲁棒避障。主要痛点在于光流估计的精度和速度难以兼顾,噪声干扰严重,以及缺乏有效的策略来处理复杂环境中的光流信息,导致飞行器难以做出快速准确的决策。

核心思路:论文的核心思路是通过端到端的方式,直接从光流信息学习控制策略,避免传统方法中复杂的光流处理和特征提取过程。通过可微模拟器进行训练,可以方便地进行梯度优化,提高训练效率。同时,引入注意力机制和主动感知策略,使策略能够更加关注与任务相关的光流信息,从而提高决策的准确性和鲁棒性。

技术框架:该系统主要包含三个部分:光流估计模块、控制策略网络和模拟环境。光流估计模块负责从单目图像序列中提取光流信息。控制策略网络以光流信息作为输入,输出四旋翼的控制指令。模拟环境用于训练控制策略网络,采用可微模拟器,可以方便地进行梯度优化。整体流程是:模拟器生成图像序列,光流估计模块提取光流,控制策略网络根据光流输出控制指令,模拟器根据控制指令更新四旋翼状态,并计算损失函数,通过梯度优化更新控制策略网络。

关键创新:论文的关键创新在于以下几点:1) 提出了一种端到端的学习框架,直接从光流信息学习控制策略,避免了传统方法中复杂的光流处理和特征提取过程。2) 引入了中心流注意力机制,使策略能够更加关注与任务相关的光流信息。3) 提出了动作引导的主动感知策略,通过控制飞行器的运动,主动获取更有利于避障的光流信息。

关键设计:在模拟器方面,采用了简化的四旋翼模型,以提高训练效率。损失函数包括位置损失、速度损失和碰撞损失。控制策略网络采用卷积神经网络,输入为光流图像,输出为四旋翼的控制指令。中心流注意力机制通过一个注意力网络实现,该网络以光流图像作为输入,输出一个注意力权重,用于加权光流图像。动作引导的主动感知策略通过一个强化学习网络实现,该网络以当前状态和光流信息作为输入,输出一个动作,用于控制飞行器的运动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在真实世界的复杂环境中进行了验证,即使在模拟的简单环境中训练,也能以高达6m/s的速度实现敏捷和鲁棒的飞行。实验结果表明,该系统能够有效地利用单目光流信息进行避障,并且具有良好的泛化能力,能够在未知的环境中安全飞行。与传统的基于视觉的避障方法相比,该系统具有更高的速度和鲁棒性。

🎯 应用场景

该研究成果可应用于无人机自主导航、机器人避障、自动驾驶等领域。尤其在复杂、动态环境中,例如室内导航、灾难救援、物流配送等场景,具有重要的应用价值。未来,该技术有望进一步提升无人系统的智能化水平,使其能够在更广泛的场景中安全可靠地运行。

📄 摘要(原文)

Optical flow captures the motion of pixels in an image sequence over time, providing information about movement, depth, and environmental structure. Flying insects utilize this information to navigate and avoid obstacles, allowing them to execute highly agile maneuvers even in complex environments. Despite its potential, autonomous flying robots have yet to fully leverage this motion information to achieve comparable levels of agility and robustness. Challenges of control from optical flow include extracting accurate optical flow at high speeds, handling noisy estimation, and ensuring robust performance in complex environments. To address these challenges, we propose a novel end-to-end system for quadrotor obstacle avoidance using monocular optical flow. We develop an efficient differentiable simulator coupled with a simplified quadrotor model, allowing our policy to be trained directly through first-order gradient optimization. Additionally, we introduce a central flow attention mechanism and an action-guided active sensing strategy that enhances the policy's focus on task-relevant optical flow observations to enable more responsive decision-making during flight. Our system is validated both in simulation and the real world using an FPV racing drone. Despite being trained in a simple environment in simulation, our system is validated both in simulation and the real world using an FPV racing drone. Despite being trained in a simple environment in simulation, our system demonstrates agile and robust flight in various unknown, cluttered environments in the real world at speeds of up to 6m/s.