LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

作者: Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang

分类: cs.RO

发布日期: 2025-05-06

💡 一句话要点

提出LogisticsVLN，基于智能无人机实现低空终端配送的视觉-语言导航

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言导航 无人机配送 多模态大语言模型 终端配送 智能物流

📋 核心要点

现有末端配送研究多依赖地面机器人，而无人机VLN任务侧重粗粒度长距离导航，无法满足精细化终端配送需求。
LogisticsVLN利用多模态大语言模型，构建模块化流程，实现请求理解、楼层定位、目标检测和动作决策。
在CARLA模拟器中构建VLD数据集，实验验证了LogisticsVLN系统的可行性，并进行了模块级评估。

📝 摘要（中文）

针对智能物流中日益增长的精细化终端配送需求，本文提出了一种基于智能无人机（UAV）的自主配送系统LogisticsVLN。现有研究大多依赖地面机器人进行末端配送，而现有的基于无人机的视觉-语言导航（VLN）任务主要关注粗粒度的长距离目标，不适用于精确的终端配送。为了弥补这一差距，我们提出了LogisticsVLN，这是一个基于多模态大型语言模型（MLLM）的可扩展空中配送系统，用于自主终端配送。LogisticsVLN在一个模块化的流程中集成了轻量级的LLM和VLM，用于请求理解、楼层定位、目标检测和动作决策。为了支持这一新场景下的研究和评估，我们在CARLA模拟器中构建了视觉-语言配送（VLD）数据集。VLD数据集上的实验结果展示了LogisticsVLN系统的可行性。此外，我们还对系统的每个模块进行了子任务级别的评估，为改进基于基础模型的视觉-语言配送系统的鲁棒性和实际部署提供了有价值的见解。

🔬 方法详解

问题定义：论文旨在解决无人机在低空环境下进行精确终端配送的视觉-语言导航问题。现有方法主要集中在地面机器人或粗粒度的无人机导航，缺乏针对复杂室内环境和精细化配送目标的能力。痛点在于如何让无人机理解自然语言指令，并在复杂的环境中自主定位、识别目标并执行配送任务。

核心思路：论文的核心思路是利用多模态大型语言模型（MLLM）的强大能力，构建一个模块化的系统，将复杂的配送任务分解为多个子任务，并分别使用轻量级的LLM和VLM来解决。通过这种方式，可以降低计算成本，并提高系统的鲁棒性和可扩展性。

技术框架：LogisticsVLN系统包含以下主要模块：1) 请求理解模块，使用LLM解析用户指令；2) 楼层定位模块，确定无人机所在的楼层；3) 目标检测模块，识别配送目标；4) 动作决策模块，根据环境信息和目标位置，生成无人机的控制指令。这些模块通过一个模块化的流程连接在一起，实现端到端的自主配送。

关键创新：论文的关键创新在于将MLLM应用于低空终端配送的视觉-语言导航任务，并提出了一个模块化的系统架构。这种架构可以灵活地适应不同的环境和任务需求，并方便进行模块级别的优化和改进。此外，论文还构建了一个新的视觉-语言配送（VLD）数据集，为该领域的研究提供了基准。

关键设计：论文中使用了轻量级的LLM和VLM，以降低计算成本。具体来说，LLM用于解析用户指令和生成中间表示，VLM用于楼层定位和目标检测。动作决策模块使用了强化学习算法，根据环境信息和目标位置，生成无人机的控制指令。损失函数的设计考虑了导航的精度和效率，以及避障的需求。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LogisticsVLN系统在VLD数据集上取得了良好的性能，验证了其可行性。此外，对系统各模块的子任务级评估，为进一步提升系统鲁棒性和实际部署提供了宝贵经验。虽然论文中没有给出具体的性能数据和提升幅度，但是模块化的设计和MLLM的应用为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于智能物流、电商配送、应急救援等领域。通过无人机实现低空终端配送，可以提高配送效率，降低人工成本，并解决偏远地区或交通不便地区的配送难题。未来，该技术有望与物联网、云计算等技术相结合，构建更加智能化的物流配送网络。

📄 摘要（原文）

The growing demand for intelligent logistics, particularly fine-grained terminal delivery, underscores the need for autonomous UAV (Unmanned Aerial Vehicle)-based delivery systems. However, most existing last-mile delivery studies rely on ground robots, while current UAV-based Vision-Language Navigation (VLN) tasks primarily focus on coarse-grained, long-range goals, making them unsuitable for precise terminal delivery. To bridge this gap, we propose LogisticsVLN, a scalable aerial delivery system built on multimodal large language models (MLLMs) for autonomous terminal delivery. LogisticsVLN integrates lightweight Large Language Models (LLMs) and Visual-Language Models (VLMs) in a modular pipeline for request understanding, floor localization, object detection, and action-decision making. To support research and evaluation in this new setting, we construct the Vision-Language Delivery (VLD) dataset within the CARLA simulator. Experimental results on the VLD dataset showcase the feasibility of the LogisticsVLN system. In addition, we conduct subtask-level evaluations of each module of our system, offering valuable insights for improving the robustness and real-world deployment of foundation model-based vision-language delivery systems.

LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理