Heterogeneous AAV Logistics Task Allocation: A Reinforcement Learning Enhanced Overlapping Coalition Formation Game Approach

📄 arXiv: 2605.26471v1 📥 PDF

作者: Yuze Zhou, Jingliang Sun, Junzhi Li, Jianxin Zhong, Zihan Wang, Teng Long

分类: cs.RO

发布日期: 2026-05-26

备注: 12 pages


💡 一句话要点

提出基于强化学习的重叠联盟形成博弈方法,解决异构AAV物流任务动态分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 无人机物流 任务分配 强化学习 重叠联盟形成博弈 Transformer网络

📋 核心要点

  1. 现有方法难以有效应对动态城市物流中时敏任务随机出现带来的优化挑战。
  2. 利用Transformer编码物流状态,通过强化学习自适应指导联盟更新,提升联盟形成效率。
  3. 实验结果表明,该算法在成本降低方面优于启发式基线,并在室内飞行实验中验证了可行性。

📝 摘要(中文)

针对动态城市物流中时敏任务随机出现给异构无人机(AAV)物流任务分配带来的优化挑战,本文提出了一种基于强化学习增强的重叠联盟形成博弈方法。建立了一个动态任务分配模型,其中全局最优性通过广义物流成本(耦合服务质量和资源消耗)进行数学量化。为了处理由随机订单到达引起的时变任务集,设计了一个基于Transformer的软Actor-Critic网络。通过利用多头自注意力来编码变长物流状态并捕获任务级的时空依赖性,学习到的策略自适应地指导联盟更新,从而取代了重叠联盟形成博弈中的启发式规则。在此基础上,异构AAV可以为动态物流任务形成更有效的重叠联盟。由此产生的联盟形成过程被证明构成了一个精确的势博弈,保证了在有限次迭代内收敛到纳什稳定均衡。数值模拟表明,所提出的算法有效地提高了广义物流成本准则下的任务分配优化程度。在32架AAV和80个任务的场景中,与启发式OCF基线相比,我们的算法实现了39.76%的成本降低。室内飞行实验进一步验证了其可行性。

🔬 方法详解

问题定义:论文旨在解决动态城市物流中,异构无人机(AAV)如何高效分配时敏任务的问题。现有方法,特别是启发式规则,难以适应任务的随机到达和变化,导致全局物流成本较高,无法保证服务质量和资源消耗之间的平衡。

核心思路:核心思路是将任务分配问题建模为重叠联盟形成博弈,并利用强化学习来优化联盟的形成过程。通过学习一个策略,使AAV能够自适应地形成更有效的联盟,从而降低整体物流成本。这种方法旨在克服传统启发式规则的局限性,提高任务分配的灵活性和效率。

技术框架:整体框架包含以下几个主要模块:1) 动态任务分配模型,用于量化全局物流成本;2) 基于Transformer的软Actor-Critic网络,用于学习联盟更新策略;3) 重叠联盟形成博弈,用于实现任务的分配和AAV的协作。流程上,首先通过Transformer网络对物流状态进行编码,然后利用Actor网络输出的策略指导联盟更新,最终通过博弈过程达到纳什均衡。

关键创新:最重要的创新点在于使用强化学习来指导重叠联盟的形成。与传统的启发式规则相比,强化学习能够学习到更优的联盟更新策略,从而提高任务分配的效率和全局优化程度。Transformer网络的引入使得模型能够有效地处理变长的物流状态和捕获任务间的时空依赖性。

关键设计:Transformer网络采用多头自注意力机制,用于编码变长的物流状态,捕捉任务间的时空依赖性。软Actor-Critic网络用于学习联盟更新策略,其目标是最小化广义物流成本,该成本耦合了服务质量和资源消耗。奖励函数的设计至关重要,需要能够有效地引导Agent学习到最优策略。具体参数设置和损失函数细节在论文中应该有更详细的描述(未知)。

📊 实验亮点

数值模拟结果表明,在32架AAV和80个任务的场景中,所提出的算法与启发式OCF基线相比,实现了39.76%的成本降低。这一显著的性能提升验证了该算法在动态任务分配方面的有效性。此外,室内飞行实验也验证了该算法的实际可行性。

🎯 应用场景

该研究成果可应用于城市物流、应急救援、灾后重建等领域,通过优化无人机任务分配,提高物流效率,降低运营成本,并提升服务质量。未来,该方法有望扩展到更大规模、更复杂的物流场景,例如多式联运、智能仓储等,为构建智能物流系统提供技术支撑。

📄 摘要(原文)

In dynamic urban logistics, the stochastic emergence of time-sensitive tasks poses a significant optimality challenge for heterogeneous AAVs logistics task allocation. To address this problem, a reinforcement learning enhanced overlapping coalition formation game approach is proposed. A dynamic task allocation model is established, where global optimality is mathematically quantified by a generalized logistics cost coupling service quality and resource consumption. To deal with the time-varying task sets induced by stochastic order arrivals, a transformer-based soft actor-critic network is designed. By leveraging multi-head self-attention to encode variable-length logistics states and capture task-wise spatiotemporal dependencies, the learned policy adaptively guides coalition updates, replacing heuristic rules in the overlapping coalition formation game. On this basis, heterogeneous AAVs can form more efficient overlapping coalitions for dynamic logistics tasks. The resulting coalition formation process is proven to constitute an exact potential game, which guarantees convergence to a Nash-stable equilibrium within a finite number of iterations. Numerical simulations demonstrate that the proposed algorithm effectively improves the optimality of task allocation under the generalized logistics cost criterion. In a scenario with 32 AAVs and 80 tasks, our algorithm achieves a 39.76% cost reduction compared with the heuristic OCF baseline. Indoor flight experiments further validate its practicality.