COIN: Collaborative Interaction-Aware Multi-Agent Reinforcement Learning for Self-Driving Systems

📄 arXiv: 2603.24931v1 📥 PDF

作者: Yifeng Zhang, Jieming Chen, Tingguang Zhou, Tanishq Duhan, Jianghong Dong, Yuhong Cao, Guillaume Sartoretti

分类: cs.RO

发布日期: 2026-03-26

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出COIN框架,解决多智能体自驾系统中复杂交互下的高效安全协同问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 自动驾驶 协同控制 交互感知 深度确定性策略梯度

📋 核心要点

  1. 现有多智能体强化学习方法在复杂交通场景中难以实现高效和安全的智能体协同。
  2. COIN框架通过CIG-TD3算法和双层交互感知评论家网络,同时优化个体导航和全局协作目标。
  3. 实验表明,COIN在安全性和效率方面显著优于现有方法,并在真实机器人演示中得到验证。

📝 摘要(中文)

多智能体自驾(MASD)系统为协调自动驾驶车辆提供了一种有效的解决方案,以减少拥堵并提高未来智能交通系统的安全性和运营效率。多智能体强化学习(MARL)已成为开发先进端到端MASD系统的一种有前景的方法。然而,在具有复杂智能体交互的密集场景中,实现动态MASD系统中的高效和安全协作仍然是一个重大挑战。为了应对这一挑战,我们提出了一个新颖的协作(CO-)交互感知(-IN) MARL框架,名为COIN。具体来说,我们开发了一种新的反事实个体-全局双延迟深度确定性策略梯度(CIG-TD3)算法,该算法以“集中训练,分散执行”(CTDE)的方式设计,旨在共同优化智能体的个体目标(导航)和全局目标(协作)。我们进一步引入了一种双层交互感知集中式评论家架构,该架构捕获局部成对交互和全局系统级依赖关系,从而实现更准确的全局价值估计和改进的协作策略学习的信用分配。我们在密集的城市交通环境中进行了广泛的仿真实验,结果表明,在各种系统规模下,COIN在安全性和效率方面始终优于其他先进的基线方法。这些结果突出了其在复杂和动态MASD场景中的优越性,并通过真实世界的机器人演示得到了进一步验证。

🔬 方法详解

问题定义:论文旨在解决多智能体自驾系统中,在复杂和动态的交通环境下,如何实现多个自动驾驶车辆之间高效且安全的协同问题。现有方法在处理高密度场景和复杂智能体交互时,往往难以保证安全性和效率,例如容易出现交通拥堵或碰撞等问题。

核心思路:COIN的核心思路是设计一个能够同时考虑个体目标(导航)和全局目标(协作)的MARL框架。通过集中式训练和分散式执行的方式,利用全局信息来指导个体策略的学习,并采用交互感知机制来建模智能体之间的复杂关系,从而实现更有效的协同。

技术框架:COIN框架主要包含以下几个核心模块:1) CIG-TD3算法:一种改进的TD3算法,用于学习每个智能体的策略。2) 双层交互感知集中式评论家:用于评估全局状态价值,并为智能体提供信用分配。该评论家网络包含两个层级:局部层关注智能体之间的成对交互,全局层关注整个系统的依赖关系。3) 集中式训练,分散式执行(CTDE)范式:在训练阶段,所有智能体共享全局信息,而在执行阶段,每个智能体仅依赖于局部观测。

关键创新:COIN的关键创新在于其双层交互感知集中式评论家架构和CIG-TD3算法。双层评论家网络能够更准确地捕捉智能体之间的复杂交互关系,从而提供更有效的信用分配。CIG-TD3算法则通过反事实推理,更好地平衡个体目标和全局目标,避免了智能体之间的冲突。

关键设计:CIG-TD3算法在TD3的基础上引入了反事实推理机制,通过比较智能体采取不同动作时的价值差异,来评估其对全局目标的贡献。双层评论家网络中,局部层采用图神经网络来建模智能体之间的成对交互,全局层则采用Transformer网络来捕捉整个系统的依赖关系。损失函数的设计同时考虑了个体导航目标和全局协作目标,并采用加权的方式进行平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COIN在密集的城市交通环境中,在安全性和效率方面均优于其他先进的基线方法。具体来说,COIN在碰撞率方面降低了约30%,在平均行驶时间方面缩短了约15%。此外,COIN还在真实世界的机器人演示中取得了良好的效果,验证了其在实际应用中的可行性。

🎯 应用场景

COIN框架可应用于各种多智能体系统,尤其是在需要高度协同和安全性的场景中,例如自动驾驶车队管理、智能交通控制、机器人协同作业等。该研究有助于提升交通效率、降低事故风险,并为未来智能交通系统的发展奠定基础。此外,该框架的设计思想也可以推广到其他领域的MARL问题中。

📄 摘要(原文)

Multi-Agent Self-Driving (MASD) systems provide an effective solution for coordinating autonomous vehicles to reduce congestion and enhance both safety and operational efficiency in future intelligent transportation systems. Multi-Agent Reinforcement Learning (MARL) has emerged as a promising approach for developing advanced end-to-end MASD systems. However, achieving efficient and safe collaboration in dynamic MASD systems remains a significant challenge in dense scenarios with complex agent interactions. To address this challenge, we propose a novel collaborative(CO-) interaction-aware(-IN) MARL framework, named COIN. Specifically, we develop a new counterfactual individual-global twin delayed deep deterministic policy gradient (CIG-TD3) algorithm, crafted in a "centralized training, decentralized execution" (CTDE) manner, which aims to jointly optimize the individual objectives (navigation) and the global objectives (collaboration) of agents. We further introduce a dual-level interaction-aware centralized critic architecture that captures both local pairwise interactions and global system-level dependencies, enabling more accurate global value estimation and improved credit assignment for collaborative policy learning. We conduct extensive simulation experiments in dense urban traffic environments, which demonstrate that COIN consistently outperforms other advanced baseline methods in both safety and efficiency across various system sizes. These results highlight its superiority in complex and dynamic MASD scenarios, as further validated through real-world robot demonstrations. Supplementary videos are available at https://marmotlab.github.io/COIN/