Whole-Body Control Through Narrow Gaps From Pixels To Action

📄 arXiv: 2409.00895v1 📥 PDF

作者: Tianyue Wu, Yeke Chen, Tianyang Chen, Guangyu Zhao, Fei Gao

分类: cs.RO

发布日期: 2024-09-02

备注: 9 pages, 8 figures, 2 tables


💡 一句话要点

提出一种基于像素到动作的端到端强化学习方法,实现无人机通过狭窄缝隙的全机身控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机 强化学习 狭窄缝隙 全机身控制 像素到动作 观测空间提炼 轨迹优化 端到端学习

📋 核心要点

  1. 现有方法难以使无人机通过狭窄缝隙,尤其是在需要大幅度姿态调整的情况下,探索空间受限导致学习困难。
  2. 该方法利用强化学习直接从像素和本体感受学习控制策略,通过在线观测空间提炼将点云信息迁移到像素空间。
  3. 通过基于模型的轨迹优化器重置智能体状态,缓解了探索空间受限的问题,并进行了消融实验验证关键要素。

📝 摘要(中文)

本文探索了一种纯数据驱动的方法,用于掌握欠驱动多旋翼飞行器在环境中通过机身大小的狭窄缝隙这一极具挑战性的飞行技能。该方法使用神经网络直接将像素和本体感受映射到连续的低层控制指令。所学习的策略能够实现通过具有不同几何形状的缝隙的全机身控制,这需要急剧的姿态变化(例如,接近垂直的横滚角)。该策略通过连续的无模型强化学习(RL)和在线观测空间提炼来实现。强化学习策略接收缝隙边缘的(虚拟)点云,以实现可扩展的仿真,然后将其提炼到高维像素空间。然而,由于可行的解空间受限,这种飞行技能本质上很难通过探索来学习。因此,我们提出通过基于模型的轨迹优化器将智能体重置为轨迹上的状态,以缓解这个问题。我们将提出的训练流程与基线方法进行了比较,并进行了消融研究,以确定我们方法的关键要素。下一步是扩大缝隙尺寸和几何形状的变化,以期出现涌现策略,并展示从仿真到现实的转换。

🔬 方法详解

问题定义:论文旨在解决欠驱动多旋翼飞行器在复杂环境中,如何仅通过视觉信息(像素)和自身状态感知(本体感受)实现精确、稳定的通过狭窄缝隙的问题。现有方法通常依赖于复杂的几何建模、精确的状态估计或人为设计的控制策略,难以应对真实环境中缝隙几何形状的多样性和不确定性,且泛化能力较差。此外,通过狭窄缝隙需要无人机进行大幅度的姿态调整,探索空间受限,导致强化学习训练效率低下。

核心思路:论文的核心思路是利用深度强化学习,直接学习从像素和本体感受输入到低层控制指令的映射关系,实现端到端的全机身控制。为了解决探索空间受限的问题,采用基于模型的轨迹优化器进行状态重置,引导智能体探索更有希望的区域。同时,通过观测空间提炼,将易于仿真的点云信息迁移到更接近真实环境的像素空间。

技术框架:整体框架包含三个主要阶段:1) 基于点云的强化学习:使用强化学习算法训练一个策略,该策略接收缝隙边缘的点云信息作为输入,输出控制指令。2) 观测空间提炼:将训练好的策略提炼到一个新的策略网络中,该网络接收像素信息作为输入。3) 基于模型的轨迹优化器:使用轨迹优化器生成通过缝隙的轨迹,并将智能体重置到这些轨迹上的状态,以加速强化学习的训练。

关键创新:论文的关键创新在于:1) 提出了一种端到端的强化学习框架,直接从像素学习通过狭窄缝隙的控制策略,避免了复杂的几何建模和状态估计。2) 引入了基于模型的轨迹优化器进行状态重置,有效解决了探索空间受限的问题,显著提高了强化学习的训练效率。3) 采用观测空间提炼,将易于仿真的点云信息迁移到更接近真实环境的像素空间,为sim-to-real迁移奠定了基础。

关键设计:在强化学习方面,使用了无模型的强化学习算法(具体算法未知)。在观测空间提炼方面,使用了蒸馏学习的方法,将点云策略的知识迁移到像素策略。在基于模型的轨迹优化器方面,使用了(具体优化算法未知)来生成通过缝隙的轨迹。损失函数的设计目标是使无人机能够成功通过缝隙,并尽可能保持平稳的飞行姿态。具体的网络结构和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法在仿真环境中取得了显著的成果。通过与基线方法进行比较,证明了该方法的有效性。消融实验表明,基于模型的轨迹优化器和观测空间提炼是该方法的关键组成部分,能够显著提高训练效率和策略性能。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于无人机在复杂环境下的自主导航、搜索救援、工业巡检等领域。例如,在灾后救援中,无人机可以通过狭窄的建筑物缝隙进入内部进行搜索;在工业巡检中,无人机可以通过复杂的管道结构进行检测。该技术有望提升无人机在复杂环境下的适应性和自主性,具有重要的实际应用价值。

📄 摘要(原文)

Flying through body-size narrow gaps in the environment is one of the most challenging moments for an underactuated multirotor. We explore a purely data-driven method to master this flight skill in simulation, where a neural network directly maps pixels and proprioception to continuous low-level control commands. This learned policy enables whole-body control through gaps with different geometries demanding sharp attitude changes (e.g., near-vertical roll angle). The policy is achieved by successive model-free reinforcement learning (RL) and online observation space distillation. The RL policy receives (virtual) point clouds of the gaps' edges for scalable simulation and is then distilled into the high-dimensional pixel space. However, this flight skill is fundamentally expensive to learn by exploring due to restricted feasible solution space. We propose to reset the agent as states on the trajectories by a model-based trajectory optimizer to alleviate this problem. The presented training pipeline is compared with baseline methods, and ablation studies are conducted to identify the key ingredients of our method. The immediate next step is to scale up the variation of gap sizes and geometries in anticipation of emergent policies and demonstrate the sim-to-real transformation.