Randomness is sometimes necessary for coordination
作者: Rohan Patil, Jai Malegaonkar, Henrik I. Christensen
分类: cs.AI, cs.RO
发布日期: 2026-05-07
💡 一句话要点
提出Diamond Attention机制,通过引入结构化随机性解决多智能体强化学习中的角色分化难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体强化学习 注意力机制 对称性破缺 零样本迁移 协作协调 结构化随机性
📋 核心要点
- 现有MARL方法在全参数共享下,因对称性导致智能体无法产生差异化行为,难以完成需要角色分工的任务。
- 提出Diamond Attention架构,通过引入结构化随机数诱导瞬态排序,在注意力机制中实现对称性破缺与角色协调。
- 实验证明该方法在XOR博弈中达到100%成功率,并具备出色的零样本跨规模迁移能力,优于传统确定性基线。
📝 摘要(中文)
在同质智能体的协作多智能体强化学习(MARL)中,全参数共享是标准做法。然而,在置换对称的观测环境下,共享的确定性策略会为所有智能体输出相同的动作分布,导致无法实现角色分化。这种失效在理论上可以通过匿名同质处理器间的对称性破缺来解决,而这需要随机性的介入。本文提出了Diamond Attention,这是一种交叉注意力架构,每个智能体在每个时间步采样一个标量随机数,诱导产生瞬态排序,从而在保留任务注意力的同时屏蔽低秩同伴。该方法在单次广播轮次中实现了随机位协调协议,且基于集合的注意力机制支持零样本部署至不同规模的团队。实验表明,该方法在XOR博弈、控制协调及SMACLite跨场景迁移中表现优异,证明了协议空间结构而非随机噪声是实现协作的关键。
🔬 方法详解
问题定义:在多智能体强化学习中,当智能体完全同质且观测具有置换对称性时,共享的确定性策略会产生完全一致的动作分布,导致智能体无法进行角色分化,从而无法解决需要协作分工的任务。
核心思路:引入结构化随机性以打破对称性。通过为每个智能体分配一个瞬态随机标量,建立智能体间的临时排序,从而在注意力机制中实现选择性屏蔽,使智能体能够根据排序执行不同的协作角色。
技术框架:Diamond Attention架构在交叉注意力层中嵌入了随机掩码机制。每个智能体在每个时间步采样一个随机数,根据该数值对智能体进行排序,并利用该排序生成掩码,屏蔽低秩同伴的注意力输入,同时保持对任务相关信息的全注意力。
关键创新:将随机性从单纯的噪声注入转变为协议空间的结构化掩码。这种设计不仅解决了对称性破缺问题,还通过集合注意力机制实现了对不同智能体数量的零样本泛化能力。
关键设计:该方法利用随机位协调协议,在单次广播中完成排序。对比实验显示,使用结构化掩码而非简单的Dropout随机噪声,是该方法能够成功实现协作并达到高胜率的核心技术细节。
🖼️ 关键图片
📊 实验亮点
在完全对称的XOR博弈中,该方法实现了1.0的成功率,而确定性基线仅维持在0.5左右。在控制协调任务中,模型在N=4规模下训练后,可零样本泛化至N=2至8的团队。此外,实验证实使用结构化掩码而非标准Dropout是成功的关键,后者在测试中胜率为0%,凸显了协议结构设计的必要性。
🎯 应用场景
该研究适用于需要大规模同质智能体协作的场景,如无人机集群编队、自动化仓储机器人调度及分布式传感器网络。其零样本泛化能力使其在面对动态变化的团队规模时具有极高的实际部署价值,为解决复杂多智能体系统中的角色分配与协同控制提供了新范式。
📄 摘要(原文)
Full parameter sharing is standard in cooperative multi-agent reinforcement learning (MARL) for homogeneous agents. Under permutation-symmetric observations, however, a shared deterministic policy outputs identical action distributions for every agent, making role differentiation impossible. This failure can theoretically be resolved using symmetry breaking among anonymous identical processors, which requires randomness. We propose Diamond Attention, a cross-attention architecture in which each agent samples a scalar random number per timestep, inducing a transient rank ordering that masks lower-ranked peers from agent-to-agent attention while leaving task attention fully unmasked. This realizes a random-bit coordination protocol in a single broadcast round, and the set-based attention enables zero-shot deployment to teams of different sizes. We evaluate across three regimes that isolate when structured randomness matters. On the perfectly symmetric XOR game, our method achieves $1.0$ success while all deterministic baselines plateau near $0.5$. On control coordination tasks, a policy trained on $N=4$ generalizes zero-shot to $N \in [2,8]$. On SMACLite cross-scenario transfer, we achieve zero-shot transfer where standard baselines cannot transfer due to structural limitations. Furthermore, replacing the structured mask with standard dropout-based randomness results in a 0\% win rate, confirming that protocol-space structure, not stochastic noise, is the operative ingredient. https://anonymous.4open.science/r/randomness-137A/