ASMA: An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions
作者: Sourav Sanyal, Kaushik Roy
分类: cs.RO, cs.AI, eess.IV, eess.SY
发布日期: 2024-09-16 (更新: 2025-07-19)
备注: Accepted for publication in IEEE Robotics and Automation Letters (RA-L)
💡 一句话要点
提出ASMA算法,通过场景感知控制屏障函数提升视觉语言无人机导航安全性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 无人机 控制屏障函数 模型预测控制 安全裕度 场景感知 自主导航
📋 核心要点
- 现有视觉语言导航系统难以保证物理代理(如无人机)在复杂环境中的安全性,尤其是在动态障碍物存在的情况下。
- 提出自适应安全裕度算法(ASMA),结合场景感知控制屏障函数,实时评估风险并调整控制策略,确保无人机安全导航。
- 实验表明,ASMA在Gazebo模拟环境中部署于Parrot Bebop2无人机上,成功率提升64%-67%,轨迹长度增加仅1.4%-5.8%。
📝 摘要(中文)
在快速发展的视觉语言导航(VLN)领域,确保物理代理的安全性仍然是一个开放的挑战。为了使人机回路中由语言操作的无人机安全导航,它必须理解自然语言命令,感知环境,并同时实时避开危险。控制屏障函数(CBF)是强制执行安全操作条件的正式方法。模型预测控制(MPC)是一种优化框架,用于规划预测范围内的未来行动序列,确保平稳的轨迹跟踪,同时遵守约束。在这项工作中,我们考虑一个VLN操作的无人机平台,并通过制定一种新颖的场景感知CBF来增强其安全性,该CBF利用来自具有红-绿-蓝以及深度(RGB-D)通道的相机的自我中心观察。一个无CBF的基线系统使用具有跨模态注意力的视觉-语言编码器将命令转换为有序的地标序列。对象检测模型识别并验证捕获图像中的这些地标,以生成计划的路径。为了进一步提高安全性,提出了一种自适应安全裕度算法(ASMA)。ASMA跟踪移动物体并即时执行场景感知CBF评估,这充当MPC框架内的附加约束。通过不断识别潜在的风险观察,系统实时执行关于不安全条件的预测,并主动调整其控制动作,以在整个轨迹中保持安全导航。在Gazebo环境中使用机器人操作系统(ROS)部署在Parrot Bebop2四旋翼飞行器上,与无CBF的VLN基线相比,ASMA的成功率提高了64%-67%,而轨迹长度仅略有增加(1.4%-5.8%)。
🔬 方法详解
问题定义:论文旨在解决视觉语言导航(VLN)中无人机安全导航的问题。现有方法主要关注路径规划和指令理解,但在动态环境中,缺乏对潜在危险的实时感知和规避能力,容易发生碰撞等安全事故。
核心思路:论文的核心思路是利用场景感知的控制屏障函数(CBF)来保证无人机的安全。通过RGB-D相机获取环境信息,检测移动物体,并使用自适应安全裕度算法(ASMA)动态调整安全裕度,从而在模型预测控制(MPC)框架下实现安全导航。
技术框架:整体框架包含以下几个主要模块:1) 视觉-语言编码器:将自然语言指令转换为有序的地标序列。2) 对象检测模型:识别并验证图像中的地标和移动物体。3) 场景感知CBF:基于RGB-D图像和对象检测结果,评估当前状态的安全性。4) 自适应安全裕度算法(ASMA):根据环境动态调整安全裕度。5) 模型预测控制(MPC):在满足CBF约束的条件下,规划无人机的最优轨迹。
关键创新:论文的关键创新在于提出了自适应安全裕度算法(ASMA),它能够根据场景中的动态障碍物,实时调整控制屏障函数的安全裕度。与传统的固定安全裕度方法相比,ASMA能够更灵活地应对复杂环境,提高导航的安全性。
关键设计:ASMA的关键设计包括:1) 使用RGB-D相机获取环境深度信息,从而能够检测到障碍物。2) 使用对象检测模型识别移动物体,并预测其未来轨迹。3) 基于预测轨迹,动态调整CBF的安全裕度,确保无人机在任何时刻都处于安全状态。4) 将CBF作为约束条件加入到MPC优化问题中,从而保证规划的轨迹是安全的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与无CBF的基线系统相比,ASMA算法在Gazebo模拟环境中部署于Parrot Bebop2无人机上,成功率提高了64%-67%,而轨迹长度仅略有增加(1.4%-5.8%)。这表明ASMA能够在显著提高安全性的同时,保持良好的导航效率。
🎯 应用场景
该研究成果可应用于物流配送、安防巡检、灾害救援等领域,尤其是在复杂动态环境中,能够显著提高无人机作业的安全性。通过结合视觉语言理解和安全控制,可以实现更智能、更可靠的无人机自主导航。
📄 摘要(原文)
In the rapidly evolving field of vision-language navigation (VLN), ensuring safety for physical agents remains an open challenge. For a human-in-the-loop language-operated drone to navigate safely, it must understand natural language commands, perceive the environment, and simultaneously avoid hazards in real time. Control Barrier Functions (CBFs) are formal methods that enforce safe operating conditions. Model Predictive Control (MPC) is an optimization framework that plans a sequence of future actions over a prediction horizon, ensuring smooth trajectory tracking while obeying constraints. In this work, we consider a VLN-operated drone platform and enhance its safety by formulating a novel scene-aware CBF that leverages ego-centric observations from a camera which has both Red-Green-Blue as well as Depth (RGB-D) channels. A CBF-less baseline system uses a Vision-Language Encoder with cross-modal attention to convert commands into an ordered sequence of landmarks. An object detection model identifies and verifies these landmarks in the captured images to generate a planned path. To further enhance safety, an Adaptive Safety Margin Algorithm (ASMA) is proposed. ASMA tracks moving objects and performs scene-aware CBF evaluation on-the-fly, which serves as an additional constraint within the MPC framework. By continuously identifying potentially risky observations, the system performs prediction in real time about unsafe conditions and proactively adjusts its control actions to maintain safe navigation throughout the trajectory. Deployed on a Parrot Bebop2 quadrotor in the Gazebo environment using the Robot Operating System (ROS), ASMA achieves 64%-67% increase in success rates with only a slight increase (1.4%-5.8%) in trajectory lengths compared to the baseline CBF-less VLN.