VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments

作者: Yuze Wu, Mo Zhu, Xingxing Li, Yuheng Du, Yuxin Fan, Wenjun Li, Zhichao Han, Xin Zhou, Fei Gao

分类: cs.RO, cs.AI

发布日期: 2025-12-17 (更新: 2025-12-19)

💡 一句话要点

VLA-AN：用于复杂环境无人机自主导航的高效、端侧视觉-语言-动作框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 视觉-语言-动作 端侧部署 3D高斯溅射 自主导航

📋 核心要点

现有空中导航模型存在数据域差距、缺乏时序推理、动作策略安全性不足以及难以端侧部署等问题。
VLA-AN通过3D-GS构建高保真数据集，采用渐进式三阶段训练，并设计轻量级安全校正动作模块来解决上述问题。
实验表明，VLA-AN显著提升了空间定位、场景推理和长时程导航能力，并在端侧实现了8.3倍的推理加速。

📝 摘要（中文）

本文提出了VLA-AN，一个高效的端侧视觉-语言-动作（VLA）框架，专为复杂环境中的无人机自主导航设计。VLA-AN解决了现有大型空中导航模型的四个主要限制：数据域差距、缺乏带推理的时序导航、生成式动作策略的安全问题以及端侧部署约束。首先，我们构建了一个高保真数据集，利用3D高斯溅射（3D-GS）有效地弥合了域差距。其次，我们引入了一个渐进式三阶段训练框架，依次强化场景理解、核心飞行技能和复杂导航能力。第三，我们设计了一个轻量级的实时动作模块，并结合了几何安全校正。该模块确保快速、无碰撞和稳定的指令生成，从而减轻了随机生成策略中固有的安全风险。最后，通过对端侧部署流程的深度优化，VLA-AN在资源受限的无人机上实现了强大的实时推理，吞吐量提高了8.3倍。大量实验表明，VLA-AN显著提高了空间定位、场景推理和长时程导航能力，单任务成功率最高达到98.1%，为轻型空中机器人实现全链闭环自主提供了一种高效、实用的解决方案。

🔬 方法详解

问题定义：现有的大型空中导航模型在实际应用中面临诸多挑战。首先，仿真数据与真实环境存在显著的域差距，导致模型泛化能力不足。其次，模型缺乏对环境的时序理解和推理能力，难以应对复杂导航任务。此外，基于生成式动作策略的模型存在安全隐患，容易产生不稳定的飞行指令。最后，大型模型难以在资源受限的无人机平台上进行端侧部署。

核心思路：VLA-AN的核心思路是构建一个高效、安全且易于部署的视觉-语言-动作框架，以解决复杂环境下的无人机自主导航问题。该框架通过高保真数据生成、渐进式训练和轻量级安全校正动作模块，实现了对环境的准确理解、稳定的飞行控制和高效的端侧推理。

技术框架：VLA-AN框架包含三个主要阶段：数据生成、模型训练和端侧部署。数据生成阶段利用3D高斯溅射（3D-GS）技术构建高保真数据集，弥合了仿真数据与真实环境之间的域差距。模型训练阶段采用渐进式三阶段训练策略，依次强化场景理解、核心飞行技能和复杂导航能力。端侧部署阶段通过深度优化，实现了在资源受限的无人机平台上进行实时推理。

关键创新：VLA-AN的关键创新在于以下几个方面：1) 利用3D-GS技术构建高保真数据集，有效弥合了域差距；2) 提出渐进式三阶段训练框架，提升了模型的导航能力；3) 设计轻量级安全校正动作模块，确保了飞行安全；4) 优化端侧部署流程，实现了实时推理。

关键设计：在数据生成阶段，使用了高质量的3D-GS模型来渲染逼真的场景图像。在模型训练阶段，损失函数包括场景理解损失、飞行技能损失和导航损失。轻量级安全校正动作模块采用几何方法进行碰撞检测和轨迹优化，确保飞行安全。端侧部署阶段使用了模型量化、剪枝等技术来降低模型大小和计算复杂度。

🖼️ 关键图片

📊 实验亮点

VLA-AN在多个导航任务中取得了显著的性能提升，单任务成功率最高达到98.1%。与现有方法相比，VLA-AN在空间定位、场景推理和长时程导航方面均表现出更强的能力。此外，VLA-AN在端侧实现了8.3倍的推理加速，使其能够在资源受限的无人机平台上进行实时部署。

🎯 应用场景

VLA-AN可应用于多种场景，如物流配送、环境监测、灾害救援和农业巡检等。该框架能够提高无人机在复杂环境下的自主导航能力，降低人工干预的需求，从而提高工作效率和安全性。未来，VLA-AN有望成为轻型空中机器人实现全链闭环自主的关键技术。

📄 摘要（原文）

This paper proposes VLA-AN, an efficient and onboard Vision-Language-Action (VLA) framework dedicated to autonomous drone navigation in complex environments. VLA-AN addresses four major limitations of existing large aerial navigation models: the data domain gap, insufficient temporal navigation with reasoning, safety issues with generative action policies, and onboard deployment constraints. First, we construct a high-fidelity dataset utilizing 3D Gaussian Splatting (3D-GS) to effectively bridge the domain gap. Second, we introduce a progressive three-stage training framework that sequentially reinforces scene comprehension, core flight skills, and complex navigation capabilities. Third, we design a lightweight, real-time action module coupled with geometric safety correction. This module ensures fast, collision-free, and stable command generation, mitigating the safety risks inherent in stochastic generative policies. Finally, through deep optimization of the onboard deployment pipeline, VLA-AN achieves a robust real-time 8.3x improvement in inference throughput on resource-constrained UAVs. Extensive experiments demonstrate that VLA-AN significantly improves spatial grounding, scene reasoning, and long-horizon navigation, achieving a maximum single-task success rate of 98.1%, and providing an efficient, practical solution for realizing full-chain closed-loop autonomy in lightweight aerial robots.

VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理