RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour

作者: Valerii Serpiva, Artem Lykov, Artyom Myshlyaev, Muhammad Haris Khan, Ali Alridha Abdulkarim, Oleg Sautenkov, Dzmitry Tsetserukou

分类: cs.RO, cs.AI

发布日期: 2025-03-04

备注: 6 pages, 6 figures. Submitted to IROS 2025

💡 一句话要点

RaceVLA：基于VLA的类人行为竞速无人机导航

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言-动作模型 自主竞速 类人行为 深度学习

📋 核心要点

现有无人机导航方法难以模拟人类飞行员的决策过程，在复杂动态环境中表现不足。
RaceVLA通过视觉-语言-动作模型，使无人机能够根据实时环境反馈调整导航策略，模仿人类飞行员。
实验表明，RaceVLA在运动和语义泛化方面优于OpenVLA，并在所有方面超越RT-2，展现了其鲁棒性。

📝 摘要（中文）

RaceVLA提出了一种创新的自主竞速无人机导航方法，它利用视觉-语言-动作（VLA）模型来模拟类人行为。该研究探索了先进算法的集成，使无人机能够根据实时环境反馈调整其导航策略，从而模仿人类飞行员的决策过程。该模型在一个收集的竞速无人机数据集上进行了微调，并在复杂的无人机竞速环境中表现出强大的泛化能力。RaceVLA在运动泛化（75.0 vs 60.0）和语义泛化（45.5 vs 36.3）方面优于OpenVLA，这得益于动态相机和简化的运动任务。然而，由于在具有不同物体大小的动态环境中进行机动的挑战，视觉泛化（79.6 vs 87.0）和物理泛化（50.0 vs 76.7）略有降低。RaceVLA在所有方面也优于RT-2——视觉（79.6 vs 52.0）、运动（75.0 vs 55.0）、物理（50.0 vs 26.7）和语义（45.5 vs 38.8），证明了其在复杂环境中进行实时调整的鲁棒性。实验显示平均速度为1.04米/秒，最大速度为2.02米/秒，以及一致的机动性，证明了RaceVLA有效处理高速场景的能力。这些发现突出了RaceVLA在竞争性竞速环境中实现高性能导航的潜力。RaceVLA的代码库、预训练权重和数据集可在https://racevla.github.io/ 获得。

🔬 方法详解

问题定义：论文旨在解决无人机在复杂竞速环境中自主导航的问题。现有方法通常难以适应动态变化的环境，缺乏人类飞行员的直觉和决策能力，导致导航效率和安全性降低。

核心思路：论文的核心思路是利用视觉-语言-动作（VLA）模型，赋予无人机类似人类的感知和决策能力。通过学习人类飞行员的驾驶行为，无人机可以根据视觉输入和语言指令，自主规划并执行导航动作。

技术框架：RaceVLA的整体框架包含以下几个主要模块：1) 视觉感知模块，负责从无人机摄像头获取图像信息；2) 语言理解模块，用于解析人类指令或环境描述；3) 动作规划模块，根据感知信息和语言指令，生成无人机的运动轨迹；4) 运动控制模块，负责控制无人机的电机，使其按照规划的轨迹飞行。整个流程是一个端到端的学习过程，通过大量数据进行训练，使无人机能够自主完成导航任务。

关键创新：RaceVLA的关键创新在于将视觉、语言和动作信息融合到一个统一的模型中，实现了无人机对环境的综合理解和自主决策。与传统的基于规则或优化的导航方法相比，RaceVLA具有更强的适应性和泛化能力，能够应对复杂多变的竞速环境。

关键设计：RaceVLA使用了Transformer架构作为其VLA模型的基础。损失函数包括动作预测损失和轨迹回归损失，用于优化模型的性能。数据集包含大量的无人机飞行数据，包括图像、语言指令和动作序列。通过数据增强等技术，提高了模型的鲁棒性和泛化能力。

🖼️ 关键图片

📊 实验亮点

RaceVLA在运动泛化（75.0 vs 60.0）和语义泛化（45.5 vs 36.3）方面优于OpenVLA，并在视觉（79.6 vs 52.0）、运动（75.0 vs 55.0）、物理（50.0 vs 26.7）和语义（45.5 vs 38.8）等所有方面超越RT-2。实验中，RaceVLA实现了平均1.04 m/s的速度，最高速度达到2.02 m/s，展现了其在高速环境下的稳定性和机动性。

🎯 应用场景

RaceVLA技术可应用于无人机竞速、自主巡检、物流配送等领域。该研究有助于提升无人机在复杂环境下的自主导航能力，降低对人工干预的依赖，提高工作效率和安全性。未来，该技术有望应用于更广泛的机器人领域，例如自动驾驶、智能制造等。

📄 摘要（原文）

RaceVLA presents an innovative approach for autonomous racing drone navigation by leveraging Visual-Language-Action (VLA) to emulate human-like behavior. This research explores the integration of advanced algorithms that enable drones to adapt their navigation strategies based on real-time environmental feedback, mimicking the decision-making processes of human pilots. The model, fine-tuned on a collected racing drone dataset, demonstrates strong generalization despite the complexity of drone racing environments. RaceVLA outperforms OpenVLA in motion (75.0 vs 60.0) and semantic generalization (45.5 vs 36.3), benefiting from the dynamic camera and simplified motion tasks. However, visual (79.6 vs 87.0) and physical (50.0 vs 76.7) generalization were slightly reduced due to the challenges of maneuvering in dynamic environments with varying object sizes. RaceVLA also outperforms RT-2 across all axes - visual (79.6 vs 52.0), motion (75.0 vs 55.0), physical (50.0 vs 26.7), and semantic (45.5 vs 38.8), demonstrating its robustness for real-time adjustments in complex environments. Experiments revealed an average velocity of 1.04 m/s, with a maximum speed of 2.02 m/s, and consistent maneuverability, demonstrating RaceVLA's ability to handle high-speed scenarios effectively. These findings highlight the potential of RaceVLA for high-performance navigation in competitive racing contexts. The RaceVLA codebase, pretrained weights, and dataset are available at this http URL: https://racevla.github.io/

RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理