General-Purpose Aerial Intelligent Agents Empowered by Large Language Models

📄 arXiv: 2503.08302v1 📥 PDF

作者: Ji Zhao, Xiao Lin

分类: cs.RO, cs.AI

发布日期: 2025-03-11


💡 一句话要点

提出基于大语言模型的通用无人机智能体,实现开放环境任务执行

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机智能体 大语言模型 边缘计算 任务规划 机器人自主 具身智能 开放环境 软硬件协同

📋 核心要点

  1. 现有无人机系统受限于软硬件协同设计,难以执行预定义之外的任务,缺乏通用性和开放性。
  2. 该论文提出一种基于大语言模型的无人机智能体,通过软硬件协同设计,实现开放环境下的任务执行。
  3. 原型系统验证了在通信受限场景下的任务规划和场景理解能力,例如甘蔗监测和电网巡检等。

📝 摘要(中文)

本文提出了一种新型的无人机智能体,它能够通过大语言模型(LLM)的推理能力和机器人自主性的紧密结合,执行开放世界的任务。该系统通过软硬件协同设计解决了两个根本性限制:(1)通过边缘优化的计算平台实现板载LLM操作,对于140亿参数的模型,达到5-6 tokens/秒的推理速度,峰值功耗为220W;(2)双向认知架构,协同慢速的审议规划(LLM任务规划)和快速的反应控制(状态估计、地图构建、避障和运动规划)。通过原型验证的初步结果表明,该系统在通信受限的环境中,如甘蔗监测、电网巡检、矿井隧道勘探和生物观测等应用中,表现出可靠的任务规划和场景理解能力。这项工作为具身空中人工智能建立了一个新的框架,弥合了开放环境中任务规划和机器人自主性之间的差距。

🔬 方法详解

问题定义:现有无人机系统通常针对特定任务设计,缺乏通用性和适应性,难以在开放环境中执行复杂任务。主要痛点在于算力限制导致无法板载大型语言模型,以及缺乏有效的任务规划和执行框架,无法将高级指令转化为具体的机器人动作。

核心思路:论文的核心思路是将大型语言模型的推理能力与无人机的自主控制能力相结合,构建一个通用的无人机智能体。通过边缘计算平台实现LLM的板载运行,并设计双向认知架构,协同LLM的任务规划和无人机的快速反应控制。这样既能利用LLM的强大推理能力进行高级任务规划,又能保证无人机在复杂环境中的稳定运行。

技术框架:该系统的整体架构包含以下几个主要模块:1) LLM任务规划模块:负责接收用户指令,利用LLM进行任务分解和规划。2) 状态估计模块:利用传感器数据估计无人机的当前状态。3) 地图构建模块:构建周围环境的地图。4) 避障模块:检测障碍物并规划避障路径。5) 运动规划模块:根据任务规划和环境信息,生成无人机的运动轨迹。6) 边缘计算平台:提供LLM运行所需的算力支持。这些模块通过双向认知架构进行协同,LLM的任务规划指导无人机的运动控制,而无人机的状态信息又反馈给LLM,用于进一步的任务调整。

关键创新:该论文最重要的技术创新点在于:1) 软硬件协同设计:通过边缘优化的计算平台,实现了大型语言模型在无人机上的板载运行,突破了算力限制。2) 双向认知架构:将LLM的任务规划与无人机的自主控制紧密结合,实现了高级指令到具体动作的转化,提高了无人机的通用性和适应性。

关键设计:边缘计算平台选择了低功耗高性能的处理器,并对LLM进行了优化,以降低计算量和内存占用。双向认知架构中,LLM的任务规划结果被转化为一系列的中间指令,这些指令被传递给运动规划模块,用于生成无人机的运动轨迹。同时,无人机的状态信息被编码成自然语言,反馈给LLM,用于任务调整和异常处理。具体的参数设置和网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

该论文通过原型系统验证了所提出方法的有效性。实验结果表明,该系统能够在通信受限的环境中,可靠地执行任务规划和场景理解,例如在甘蔗监测、电网巡检、矿井隧道勘探和生物观测等应用中。该系统能够以5-6 tokens/秒的速度运行140亿参数的LLM,峰值功耗为220W,证明了边缘计算平台的可行性。

🎯 应用场景

该研究成果可广泛应用于各种需要无人机自主执行任务的场景,例如:灾害救援、环境监测、农业巡检、电力巡检、物流配送、安防巡逻等。通过赋予无人机更强的智能和自主性,可以降低人力成本,提高工作效率,并拓展无人机的应用范围。未来,随着LLM的不断发展和边缘计算能力的提升,无人机智能体将在更多领域发挥重要作用。

📄 摘要(原文)

The emergence of large language models (LLMs) opens new frontiers for unmanned aerial vehicle (UAVs), yet existing systems remain confined to predefined tasks due to hardware-software co-design challenges. This paper presents the first aerial intelligent agent capable of open-world task execution through tight integration of LLM-based reasoning and robotic autonomy. Our hardware-software co-designed system addresses two fundamental limitations: (1) Onboard LLM operation via an edge-optimized computing platform, achieving 5-6 tokens/sec inference for 14B-parameter models at 220W peak power; (2) A bidirectional cognitive architecture that synergizes slow deliberative planning (LLM task planning) with fast reactive control (state estimation, mapping, obstacle avoidance, and motion planning). Validated through preliminary results using our prototype, the system demonstrates reliable task planning and scene understanding in communication-constrained environments, such as sugarcane monitoring, power grid inspection, mine tunnel exploration, and biological observation applications. This work establishes a novel framework for embodied aerial artificial intelligence, bridging the gap between task planning and robotic autonomy in open environments.