An Agentic AI Framework with Large Language Models and Chain-of-Thought for UAV-Assisted Logistics Scheduling with Mobile Edge Computing

作者: Hanwen Zhang, Dusit Niyato, Wei Zhang, Xin Lou, Malcolm Yoke Hean Low

分类: cs.AI, cs.LG

发布日期: 2026-05-13

备注: 15 pages

💡 一句话要点

提出基于Agentic AI和分层强化学习的无人机辅助物流调度框架，解决物理物流与计算任务耦合难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机调度 移动边缘计算 强化学习 大型语言模型 智能物流 云制造 分层强化学习

📋 核心要点

现有方法难以有效解决无人机物流调度中物理物流决策与计算任务调度耦合的复杂性。
提出Agentic AI辅助的优化框架，利用大语言模型和分层强化学习解耦复杂决策。
实验结果表明，该框架能有效提高产品收集率和截止时间满足率，性能优于现有方法。

📝 摘要（中文）

在云制造中，无人机(UAV)可以支持产品收集和移动边缘计算(MEC)。这种联合操作形成了一个混合调度问题，其中物理物流决策与计算任务调度相耦合。本文中，无人机从制造站收集成品，并将它们运回中央仓库。同时，这些站点上的工业传感器设备生成的计算任务可以在本地、无人机上处理，或者通过无人机卸载到云端。这种耦合使得问题具有挑战性。无人机只能在其在站点上的服务窗口期间提供MEC服务，因此路由决策直接决定了无人机辅助卸载的可用时间。路由决策还会影响无人机的能量预算以及在任务截止时间约束下用于计算任务执行的机载计算和通信资源的可用性。为了解决这个问题，我们提出了一个由Agentic AI辅助的优化框架，该框架包含两个组件。首先，我们开发了一个Agentic AI，它结合了大型语言模型、检索增强生成和思维链推理，将用户输入转换为混合调度问题的可解释的数学公式。其次，我们设计了一种基于近端策略优化(PPO)的分层深度强化学习方法，其中上层学习无人机路由，下层优化每个时隙的任务执行和资源分配。仿真结果表明，所提出的框架产生了更一致的公式，而分层PPO在最后500个episode中实现了99.6%的完整产品收集率，并保持了100%的截止时间满足率，并且比优势actor-critic方法具有更稳定的性能。

🔬 方法详解

问题定义：论文旨在解决无人机辅助物流调度中的一个复杂问题，即如何同时优化无人机的物理路径规划和计算任务调度。传统的物流调度方法通常只关注货物运输，而忽略了无人机作为移动边缘计算(MEC)节点的能力。现有方法难以处理物理物流决策（如无人机路由）与计算任务调度（如任务卸载和资源分配）之间的耦合关系，导致效率低下和资源浪费。

核心思路：论文的核心思路是将问题分解为两个层次：上层负责无人机路由规划，下层负责每个时隙的任务执行和资源分配。通过分层强化学习，可以有效地解耦复杂的决策过程，并利用Agentic AI将用户输入转化为可解释的数学公式，从而更好地指导优化过程。这种分而治之的策略能够更好地应对问题的复杂性和动态性。

技术框架：该框架包含两个主要组件：Agentic AI和分层深度强化学习。Agentic AI负责将用户输入转化为混合调度问题的数学公式，它结合了大型语言模型、检索增强生成和思维链推理。分层深度强化学习基于近端策略优化(PPO)，上层PPO代理学习无人机路由策略，下层PPO代理优化每个时隙的任务执行和资源分配。两个层次的代理协同工作，共同优化整体性能。

关键创新：该论文的关键创新在于将Agentic AI与分层强化学习相结合，用于解决无人机辅助物流调度问题。Agentic AI能够理解用户意图并生成可解释的数学模型，这使得优化过程更加透明和可控。分层强化学习能够有效地解耦复杂的决策过程，并提高学习效率。这种结合使得该框架能够更好地应对问题的复杂性和动态性，并取得更好的性能。

关键设计：Agentic AI部分，使用了大型语言模型进行用户意图理解和数学公式生成，并结合检索增强生成和思维链推理来提高生成质量。分层强化学习部分，上层PPO代理使用无人机的位置、能量等信息作为状态，下层PPO代理使用任务队列、资源利用率等信息作为状态。奖励函数的设计考虑了产品收集率、截止时间满足率和资源利用率等因素。具体网络结构和参数设置未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的框架在产品收集率和截止时间满足率方面均优于现有方法。分层PPO在最后500个episode中实现了99.6%的完整产品收集率，并保持了100%的截止时间满足率，并且比优势actor-critic方法具有更稳定的性能。这表明该框架能够有效地解决无人机辅助物流调度问题，并取得显著的性能提升。

🎯 应用场景

该研究成果可应用于智慧物流、智能制造、应急救援等领域。通过优化无人机调度，可以提高物流效率、降低运营成本，并为用户提供更快速、更可靠的服务。在智能制造中，可以实现生产过程的自动化和智能化，提高生产效率和产品质量。在应急救援中，可以利用无人机进行物资运输和信息收集，提高救援效率和安全性。

📄 摘要（原文）

In cloud manufacturing, unmanned aerial vehicles (UAVs) can support both product collection and mobile edge computing (MEC). This joint operation forms a hybrid scheduling problem, where physical logistics decisions are coupled with computational task scheduling. In this paper, UAVs collect finished products from manufacturing stations and transport them back to a central depot. Meanwhile, computational tasks generated by industrial sensor devices at these stations are processed locally, at UAVs, or offloaded via UAVs to the cloud. This coupling makes the problem challenging. A UAV can provide MEC services only during its service window at a station, so routing decisions directly determine when UAV-assisted offloading is available. Routing decisions also affect the UAV energy budget and the availability of onboard computing and communication resources for computational task execution under task deadline constraints. To address this, we propose an agentic-AI-assisted optimization framework with two components. First, we develop an agentic AI that combines large language models, retrieval-augmented generation, and chain-of-thought reasoning to translate user input into an interpretable mathematical formulation for the hybrid scheduling problem. Second, we design a hierarchical deep reinforcement learning approach based on proximal policy optimization (PPO), where the upper layer learns UAV routing and the lower layer optimizes per-slot task execution and resource allocation. Simulation results show that the proposed framework yields more consistent formulations, while the hierarchical PPO achieves full product collection in 99.6% of the last 500 episodes and maintains a 100% deadline satisfaction rate, with more stable performance than the advantage actor-critic approach.

An Agentic AI Framework with Large Language Models and Chain-of-Thought for UAV-Assisted Logistics Scheduling with Mobile Edge Computing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理