Precise Aggressive Aerial Maneuvers with Sensorimotor Policies

📄 arXiv: 2604.05828v1 📥 PDF

作者: Tianyue Wu, Guangtong Xu, Zihan Wang, Junxiao Lin, Tianyang Chen, Yuze Wu, Zhichao Han, Zhiyang Liu, Fei Gao

分类: cs.RO

发布日期: 2026-04-07

备注: The paper was submitted on June, 2025; The first revision was submitted on November, 2025; The second revision was submitted on February, 2026; The first two authors contributed equally to this work


💡 一句话要点

提出基于强化学习的传感器运动策略,实现无人机在未知环境下高精度、高难度穿越

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机 强化学习 传感器运动策略 端到端学习 狭窄空间穿越

📋 核心要点

  1. 现有方法难以使无人机仅依靠轻量级机载传感器,在复杂环境中进行精确且高难度的飞行动作,限制了无人机的应用场景。
  2. 论文提出一种基于强化学习的传感器运动策略,直接将机载视觉和本体感受映射到低层控制命令,实现端到端的学习和控制。
  3. 实验结果表明,该方法能够使无人机在未知位置和方向的狭窄缝隙中,以低间隙和高重复性地进行穿越,甚至能穿越动态缝隙。

📝 摘要(中文)

本文提出了一种基于传感器运动策略的方法,旨在解决无人机利用轻量级机载传感器进行精确、高难度飞行动作的关键瓶颈问题。这种飞行动作对于扩展无人机的可达区域至关重要,例如通过环境中的狭窄缝隙。一个典型的例子是四旋翼飞行器在SE(3)约束下,以倾斜姿态和利用机身不对称性穿越狭窄缝隙。本文通过开发直接将机载视觉和本体感受映射到低层控制命令的传感器运动策略来实现这一目标。这些策略通过强化学习在模拟环境中进行端到端策略蒸馏训练。通过利用基于模型的规划器生成的轨迹进行初始化,缓解了无模型强化学习在受限解空间中探索的根本困难。精心的模拟到真实转换设计使得该策略能够控制四旋翼飞行器以低间隙和高重复性穿越狭窄缝隙。例如,该方法使四旋翼飞行器能够在5厘米间隙、高达90度倾斜角度的矩形缝隙中导航,而无需了解缝隙的位置或方向。即使没有在动态缝隙上进行训练,该策略也能反应性地控制四旋翼飞行器穿越移动的缝隙。该方法还通过在具有挑战性的狭窄缝隙赛道上训练和部署策略进行了验证。策略学习方法的灵活性通过开发用于几何形状多样的缝隙的策略来证明,而无需依赖手动定义的穿越姿势和视觉特征。

🔬 方法详解

问题定义:论文旨在解决四旋翼无人机在SE(3)约束下,如何仅利用机载视觉和本体感受信息,在未知环境中精确且高难度地穿越狭窄缝隙的问题。现有方法通常依赖于复杂的模型或手动设计的特征,泛化能力和鲁棒性较差。

核心思路:论文的核心思路是利用强化学习直接学习一个传感器运动策略,将原始的传感器数据映射到低层控制命令。通过端到端的学习方式,避免了手动特征工程和模型推导的复杂性,提高了策略的适应性和泛化能力。

技术框架:整体框架包括以下几个主要阶段:1) 在模拟环境中,利用基于模型的规划器生成初始轨迹,用于初始化强化学习策略;2) 使用强化学习算法(具体算法未知)训练传感器运动策略,该策略以机载视觉和本体感受作为输入,输出低层控制命令;3) 通过策略蒸馏,将复杂的策略提炼成更紧凑、更易于部署的策略;4) 通过精心的sim-to-real设计,将训练好的策略部署到真实无人机上。

关键创新:论文的关键创新在于:1) 提出了一种端到端的传感器运动策略学习方法,无需手动特征工程和模型推导;2) 利用基于模型的规划器生成的轨迹初始化强化学习策略,加速了策略的收敛速度;3) 通过策略蒸馏,提高了策略的泛化能力和鲁棒性。

关键设计:论文的关键设计包括:1) 使用强化学习算法(具体算法未知)训练策略,奖励函数的设计至关重要,需要引导无人机完成穿越任务,并保证飞行过程的平稳性;2) sim-to-real的设计,需要考虑真实环境和模拟环境的差异,例如光照、噪声等,并采取相应的措施进行补偿;3) 网络结构的设计,需要平衡策略的表达能力和计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够使四旋翼无人机在5厘米间隙、高达90度倾斜角度的矩形缝隙中导航,而无需了解缝隙的位置或方向。即使没有在动态缝隙上进行训练,该策略也能反应性地控制四旋翼飞行器穿越移动的缝隙。此外,该方法还在具有挑战性的狭窄缝隙赛道上进行了验证,证明了其在复杂环境下的适应性和鲁棒性。

🎯 应用场景

该研究成果可应用于无人机在复杂环境下的自主导航,例如灾难救援、桥梁检测、室内巡检等场景。通过学习到的传感器运动策略,无人机能够在狭窄、拥挤或动态的环境中安全、高效地完成任务,扩展了无人机的应用范围和能力。未来,该方法还可以推广到其他类型的机器人,例如地面机器人和水下机器人。

📄 摘要(原文)

Precise aggressive maneuvers with lightweight onboard sensors remains a key bottleneck in fully exploiting the maneuverability of drones. Such maneuvers are critical for expanding the systems' accessible area by navigating through narrow openings in the environment. Among the most relevant problems, a representative one is aggressive traversal through narrow gaps with quadrotors under SE(3) constraints, which require the quadrotors to leverage a momentary tilted attitude and the asymmetry of the airframe to navigate through gaps. In this paper, we achieve such maneuvers by developing sensorimotor policies directly mapping onboard vision and proprioception into low-level control commands. The policies are trained using reinforcement learning (RL) with end-to-end policy distillation in simulation. We mitigate the fundamental hardness of model-free RL's exploration on the restricted solution space with an initialization strategy leveraging trajectories generated by a model-based planner. Careful sim-to-real design allows the policy to control a quadrotor through narrow gaps with low clearances and high repeatability. For instance, the proposed method enables a quadrotor to navigate a rectangular gap at a 5 cm clearance, tilted at up to 90-degree orientation, without knowledge of the gap's position or orientation. Without training on dynamic gaps, the policy can reactively servo the quadrotor to traverse through a moving gap. The proposed method is also validated by training and deploying policies on challenging tracks of narrow gaps placed closely. The flexibility of the policy learning method is demonstrated by developing policies for geometrically diverse gaps, without relying on manually defined traversal poses and visual features.