SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum
作者: JunEn Low, Maximilian Adang, Javier Yu, Keiko Nagami, Mac Schwager
分类: cs.RO, cs.CV, cs.LG, eess.SY
发布日期: 2024-12-20 (更新: 2025-03-21)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SOUS VIDE,利用高斯溅射真空环境烹饪视觉无人机导航策略,实现零样本迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无人机导航 视觉伺服 高斯溅射 模拟到真实 数据蒸馏 鲁棒控制 端到端学习
📋 核心要点
- 现有视觉无人机导航方法在sim-to-real迁移中面临挑战,真实环境复杂性导致性能下降。
- SOUS VIDE利用高斯溅射重建场景构建模拟器FiGS,结合专家MPC数据蒸馏,训练鲁棒的视觉运动策略。
- 实验表明,SOUS VIDE策略在真实环境中对质量变化、风速、亮度变化等具有很强的鲁棒性。
📝 摘要(中文)
本文提出了一种新的模拟器、训练方法和策略架构,统称为SOUS VIDE,用于端到端视觉无人机导航。训练后的策略仅使用机载感知和计算,即可实现零样本的sim-to-real迁移,并具有强大的真实世界性能。模拟器FiGS将计算简单的无人机动力学模型与高视觉保真度的高斯溅射场景重建相结合,能够快速模拟无人机飞行,并以高达130 fps的速度生成照片级图像。使用FiGS,从具有特权状态和动力学信息的专家MPC中收集10万-30万个图像/状态-动作对,并在动力学参数和空间扰动上进行随机化。然后,将该专家MPC提炼成具有轻量级神经架构SV-Net的端到端视觉运动策略。SV-Net将彩色图像、光流和IMU数据流处理成无人机上20 Hz的低级推力和机身速率命令。至关重要的是,SV-Net包含一个学习到的低级控制模块,可以在运行时适应无人机动力学的变化。在105次硬件实验中,SOUS VIDE策略对30%的质量变化、40 m/s的风速、60%的环境亮度变化、场景中物体的移动或移除以及人们在无人机视野中积极移动都具有鲁棒性。
🔬 方法详解
问题定义:现有视觉无人机导航方法在从模拟环境迁移到真实环境时,性能往往会显著下降。这是由于模拟环境难以完全捕捉真实世界的复杂性和不确定性,例如光照变化、物体移动、动力学参数扰动等。因此,如何训练出能够在真实环境中稳定可靠运行的视觉导航策略是一个关键问题。
核心思路:SOUS VIDE的核心思路是利用高斯溅射技术构建高保真度的模拟环境,并结合专家策略的数据蒸馏,训练出对环境变化具有鲁棒性的视觉运动策略。通过高斯溅射,可以快速生成照片级真实感的图像,从而弥补模拟环境与真实环境之间的视觉差距。同时,利用专家策略的数据进行训练,可以使模型学习到更优的控制策略。
技术框架:SOUS VIDE的整体框架包括三个主要部分:1) 模拟器FiGS:用于生成高保真度的模拟环境,并模拟无人机的飞行过程。2) 专家MPC:利用特权状态信息和动力学信息,生成高质量的训练数据。3) SV-Net:一个轻量级的神经网络,用于将视觉信息(彩色图像、光流)和IMU数据转换为无人机的控制指令(推力和机身速率)。SV-Net包含一个可学习的低级控制模块,用于适应无人机动力学的变化。
关键创新:SOUS VIDE的关键创新在于以下几个方面:1) FiGS模拟器:利用高斯溅射技术,实现了快速且高保真度的场景重建,从而能够生成更逼真的模拟环境。2) SV-Net架构:设计了一个轻量级的神经网络,能够高效地处理视觉信息和IMU数据,并生成精确的控制指令。3) 可学习的低级控制模块:该模块能够根据无人机的动力学参数进行自适应调整,从而提高策略的鲁棒性。
关键设计:FiGS模拟器使用高斯溅射技术进行场景重建,并采用计算简单的无人机动力学模型,以实现快速模拟。专家MPC利用特权状态信息和动力学信息,生成高质量的训练数据,并在动力学参数和空间扰动上进行随机化。SV-Net采用轻量级的卷积神经网络结构,用于提取图像特征,并使用循环神经网络处理IMU数据。可学习的低级控制模块使用一个小型神经网络,根据当前状态估计无人机的动力学参数,并调整控制指令。
🖼️ 关键图片
📊 实验亮点
在105次硬件实验中,SOUS VIDE策略表现出强大的鲁棒性,能够应对30%的质量变化、40 m/s的风速、60%的环境亮度变化、场景中物体的移动或移除以及人们在无人机视野中积极移动等挑战。这些结果表明,SOUS VIDE策略具有很强的sim-to-real迁移能力和真实世界适应性。
🎯 应用场景
SOUS VIDE技术可应用于各种无人机自主导航场景,例如物流配送、环境监测、灾害救援等。通过在模拟环境中训练,可以降低无人机在真实环境中部署的风险和成本,并提高其在复杂环境中的适应能力。该技术还有潜力扩展到其他机器人平台,例如自动驾驶汽车和移动机器人。
📄 摘要(原文)
We propose a new simulator, training approach, and policy architecture, collectively called SOUS VIDE, for end-to-end visual drone navigation. Our trained policies exhibit zero-shot sim-to-real transfer with robust real-world performance using only onboard perception and computation. Our simulator, called FiGS, couples a computationally simple drone dynamics model with a high visual fidelity Gaussian Splatting scene reconstruction. FiGS can quickly simulate drone flights producing photorealistic images at up to 130 fps. We use FiGS to collect 100k-300k image/state-action pairs from an expert MPC with privileged state and dynamics information, randomized over dynamics parameters and spatial disturbances. We then distill this expert MPC into an end-to-end visuomotor policy with a lightweight neural architecture, called SV-Net. SV-Net processes color image, optical flow and IMU data streams into low-level thrust and body rate commands at 20 Hz onboard a drone. Crucially, SV-Net includes a learned module for low-level control that adapts at runtime to variations in drone dynamics. In a campaign of 105 hardware experiments, we show SOUS VIDE policies to be robust to 30% mass variations, 40 m/s wind gusts, 60% changes in ambient brightness, shifting or removing objects from the scene, and people moving aggressively through the drone's visual field. Code, data, and experiment videos can be found on our project page: https://stanfordmsl.github.io/SousVide/.