Priority-Driven Control and Communication in Decentralized Multi-Agent Systems via Reinforcement Learning
作者: Qingyun Guo, Junyi Shi, Tomasz Piotr Kucner, Dominik Baumann
分类: eess.SY, cs.LG, cs.RO
发布日期: 2026-05-11
备注: Accepted to the 23rd IFAC World Congress
💡 一句话要点
提出一种基于优先级的无模型强化学习算法,以解决去中心化多智能体系统中的通信与控制协同优化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体系统 强化学习 事件触发控制 通信受限 去中心化控制 优先级调度
📋 核心要点
- 现有事件触发控制方法高度依赖精确的系统动力学模型,在复杂或未知的动态环境中难以直接应用。
- 提出一种联合学习通信优先级与控制策略的无模型强化学习框架,有效处理去中心化多智能体协同任务。
- 通过将通信决策转化为优先级学习,成功规避了传统方法中处理混合动作空间的复杂性,并在基准测试中展现出优于现有基准的性能。
📝 摘要(中文)
事件触发控制为网络化多智能体系统提供了一种避免过度使用受限通信带宽的机制。然而,现有大多数方法依赖于精确的系统模型,这在实际应用中往往难以获取。本文提出了一种无模型的、基于优先级的强化学习算法,能够在去中心化多智能体系统中从数据中联合学习通信优先级和控制策略。通过学习通信优先级,我们规避了事件触发控制中常见的涉及二进制通信决策的混合动作空间问题。我们在基准任务上评估了该算法,结果表明其性能优于基准方法。
🔬 方法详解
问题定义:论文旨在解决资源受限环境下多智能体系统的通信带宽优化问题。现有方法多依赖于精确的系统模型(Model-based),在模型未知或环境复杂时难以实现有效的事件触发控制,且二进制通信决策导致了难以优化的混合动作空间。
核心思路:论文引入了“优先级驱动”的机制,将离散的通信决策转化为连续的优先级评估。通过强化学习智能体学习何时通信以及如何控制,从而在通信开销与控制性能之间实现动态平衡。
技术框架:该框架采用去中心化架构,每个智能体包含一个策略网络,该网络同时输出控制动作和通信优先级。系统根据优先级阈值决定是否触发通信,并利用强化学习算法(如MADDPG或类似架构)进行端到端的策略更新。
关键创新:最大的创新在于将通信决策从显式的二进制触发机制转变为基于优先级的学习任务。这种设计不仅简化了动作空间,还使得通信策略能够随着环境变化自适应地调整,无需预先定义触发规则。
关键设计:算法通过引入优先级得分(Priority Score)作为通信触发的依据,结合强化学习的奖励函数设计,惩罚过度的通信开销,同时奖励控制任务的完成质量,从而在训练过程中自动收敛到最优的通信-控制策略平衡点。
🖼️ 关键图片
📊 实验亮点
实验在多个多智能体基准任务上进行了验证。结果显示,该算法在保持甚至提升控制性能的同时,显著降低了通信频率。与传统的固定阈值或启发式事件触发基准相比,该方法在处理高维状态空间和复杂协作任务时表现出更强的适应性,证明了其在通信受限环境下的优越性。
🎯 应用场景
该研究适用于带宽受限的分布式机器人集群、无人机编队协同、工业物联网传感器网络以及自动驾驶车辆协同感知等领域。其无模型特性使其在环境动力学复杂、难以建模的实际场景中具有极高的应用价值,能够显著降低通信开销并提升系统整体鲁棒性。
📄 摘要(原文)
Event-triggered control provides a mechanism for avoiding excessive use of constrained communication bandwidth in networked multi-agent systems. However, most existing methods rely on accurate system models, which may be unavailable in practice. In this work, we propose a model-free, priority-driven reinforcement learning algorithm that learns communication priorities and control policies jointly from data in decentralized multi-agent systems. By learning communication priorities, we circumvent the hybrid action space typical in event-triggered control with binary communication decisions. We evaluate our algorithm on benchmark tasks and demonstrate that it outperforms the baseline method.