LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

📄 arXiv: 2505.03460v1 📥 PDF

作者: Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang

分类: cs.RO

发布日期: 2025-05-06


💡 一句话要点

提出LogisticsVLN,基于智能无人机实现低空终端配送的视觉-语言导航

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 无人机配送 多模态大语言模型 终端配送 智能物流

📋 核心要点

  1. 现有末端配送研究多依赖地面机器人,而无人机VLN任务侧重粗粒度长距离导航,无法满足精细化终端配送需求。
  2. LogisticsVLN利用多模态大语言模型,构建模块化流程,实现请求理解、楼层定位、目标检测和动作决策。
  3. 在CARLA模拟器中构建VLD数据集,实验验证了LogisticsVLN系统的可行性,并进行了模块级评估。

📝 摘要(中文)

针对智能物流中日益增长的精细化终端配送需求,本文提出了一种基于智能无人机(UAV)的自主配送系统LogisticsVLN。现有研究大多依赖地面机器人进行末端配送,而现有的基于无人机的视觉-语言导航(VLN)任务主要关注粗粒度的长距离目标,不适用于精确的终端配送。为了弥补这一差距,我们提出了LogisticsVLN,这是一个基于多模态大型语言模型(MLLM)的可扩展空中配送系统,用于自主终端配送。LogisticsVLN在一个模块化的流程中集成了轻量级的LLM和VLM,用于请求理解、楼层定位、目标检测和动作决策。为了支持这一新场景下的研究和评估,我们在CARLA模拟器中构建了视觉-语言配送(VLD)数据集。VLD数据集上的实验结果展示了LogisticsVLN系统的可行性。此外,我们还对系统的每个模块进行了子任务级别的评估,为改进基于基础模型的视觉-语言配送系统的鲁棒性和实际部署提供了有价值的见解。

🔬 方法详解

问题定义:论文旨在解决无人机在低空环境下进行精确终端配送的视觉-语言导航问题。现有方法主要集中在地面机器人或粗粒度的无人机导航,缺乏针对复杂室内环境和精细化配送目标的能力。痛点在于如何让无人机理解自然语言指令,并在复杂的环境中自主定位、识别目标并执行配送任务。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)的强大能力,构建一个模块化的系统,将复杂的配送任务分解为多个子任务,并分别使用轻量级的LLM和VLM来解决。通过这种方式,可以降低计算成本,并提高系统的鲁棒性和可扩展性。

技术框架:LogisticsVLN系统包含以下主要模块:1) 请求理解模块,使用LLM解析用户指令;2) 楼层定位模块,确定无人机所在的楼层;3) 目标检测模块,识别配送目标;4) 动作决策模块,根据环境信息和目标位置,生成无人机的控制指令。这些模块通过一个模块化的流程连接在一起,实现端到端的自主配送。

关键创新:论文的关键创新在于将MLLM应用于低空终端配送的视觉-语言导航任务,并提出了一个模块化的系统架构。这种架构可以灵活地适应不同的环境和任务需求,并方便进行模块级别的优化和改进。此外,论文还构建了一个新的视觉-语言配送(VLD)数据集,为该领域的研究提供了基准。

关键设计:论文中使用了轻量级的LLM和VLM,以降低计算成本。具体来说,LLM用于解析用户指令和生成中间表示,VLM用于楼层定位和目标检测。动作决策模块使用了强化学习算法,根据环境信息和目标位置,生成无人机的控制指令。损失函数的设计考虑了导航的精度和效率,以及避障的需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LogisticsVLN系统在VLD数据集上取得了良好的性能,验证了其可行性。此外,对系统各模块的子任务级评估,为进一步提升系统鲁棒性和实际部署提供了宝贵经验。虽然论文中没有给出具体的性能数据和提升幅度,但是模块化的设计和MLLM的应用为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于智能物流、电商配送、应急救援等领域。通过无人机实现低空终端配送,可以提高配送效率,降低人工成本,并解决偏远地区或交通不便地区的配送难题。未来,该技术有望与物联网、云计算等技术相结合,构建更加智能化的物流配送网络。

📄 摘要(原文)

The growing demand for intelligent logistics, particularly fine-grained terminal delivery, underscores the need for autonomous UAV (Unmanned Aerial Vehicle)-based delivery systems. However, most existing last-mile delivery studies rely on ground robots, while current UAV-based Vision-Language Navigation (VLN) tasks primarily focus on coarse-grained, long-range goals, making them unsuitable for precise terminal delivery. To bridge this gap, we propose LogisticsVLN, a scalable aerial delivery system built on multimodal large language models (MLLMs) for autonomous terminal delivery. LogisticsVLN integrates lightweight Large Language Models (LLMs) and Visual-Language Models (VLMs) in a modular pipeline for request understanding, floor localization, object detection, and action-decision making. To support research and evaluation in this new setting, we construct the Vision-Language Delivery (VLD) dataset within the CARLA simulator. Experimental results on the VLD dataset showcase the feasibility of the LogisticsVLN system. In addition, we conduct subtask-level evaluations of each module of our system, offering valuable insights for improving the robustness and real-world deployment of foundation model-based vision-language delivery systems.