DecompGAIL: Learning Realistic Traffic Behaviors with Decomposed Multi-Agent Generative Adversarial Imitation Learning

📄 arXiv: 2510.06913v2 📥 PDF

作者: Ke Guo, Haochen Liu, Xiaojun Wu, Chen Lv

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-10-08 (更新: 2026-01-26)

备注: accepted by ICLR


💡 一句话要点

提出DecompGAIL,通过分解多智能体交互解决交通仿真中GAIL训练不稳定的问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体 模仿学习 生成对抗网络 交通仿真 自动驾驶 强化学习 PPO 分解学习

📋 核心要点

  1. 现有模仿学习方法在多智能体交通仿真中存在不足,行为克隆易受协变量偏移影响,GAIL训练不稳定。
  2. DecompGAIL将真实性分解为自我地图和自我邻居组件,过滤掉不相关的邻居交互,避免误导。
  3. 引入社会PPO目标,通过邻域奖励增强自我奖励,鼓励所有智能体的整体真实性,并在WOMD Sim Agents 2025上取得SOTA。

📝 摘要(中文)

逼真的交通仿真对于自动驾驶系统开发和城市交通规划至关重要,但现有的模仿学习方法通常无法模拟真实的交通行为。行为克隆存在协变量偏移问题,而生成对抗模仿学习(GAIL)在多智能体环境中非常不稳定。我们发现这种不稳定性的一个关键来源:无关交互误导,即判别器会因为邻居之间不真实的交互而惩罚自我车辆的真实行为。为了解决这个问题,我们提出了分解多智能体GAIL(DecompGAIL),它将真实性显式地分解为自我地图和自我邻居组件,过滤掉误导性的邻居:邻居和邻居:地图交互。我们进一步引入了一个社会PPO目标,通过距离加权的邻域奖励来增强自我奖励,鼓励所有智能体的整体真实性。DecompGAIL集成到基于SMART的轻量级骨干网络中,在WOMD Sim Agents 2025基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决多智能体交通仿真中,使用生成对抗模仿学习(GAIL)时训练不稳定的问题。现有GAIL方法在多智能体场景下,判别器容易受到不相关邻居交互的误导,导致对智能体真实行为的错误惩罚,进而影响学习效果。这种“无关交互误导”是GAIL不稳定的主要原因。

核心思路:论文的核心思路是将交通场景的真实性分解为两个部分:自我地图(ego-map)和自我邻居(ego-neighbor)。通过这种分解,可以显式地过滤掉那些与自我车辆无关的邻居之间的交互信息,从而避免判别器受到误导。同时,引入社会PPO目标,鼓励智能体在考虑邻居行为的情况下做出更合理的决策。

技术框架:DecompGAIL的整体框架包括一个生成器(策略网络)和一个判别器。生成器负责学习智能体的驾驶策略,判别器负责区分生成器产生的行为和真实的行为。关键在于判别器的设计,它接收分解后的自我地图和自我邻居信息,并分别进行评估。此外,还引入了社会PPO目标,通过距离加权的方式将邻居的奖励纳入自我奖励中,鼓励智能体之间的协作。

关键创新:论文最重要的创新点在于提出了分解真实性的思想,将交通场景的真实性分解为自我地图和自我邻居两个部分。这种分解能够有效地过滤掉不相关的邻居交互,从而避免判别器受到误导,提高GAIL训练的稳定性。此外,社会PPO目标的引入也进一步提升了智能体之间的协作能力。

关键设计:判别器是DecompGAIL的关键组成部分,它接收自我地图和自我邻居信息,并分别进行评估。具体来说,可以使用卷积神经网络(CNN)来处理自我地图信息,使用图神经网络(GNN)来处理自我邻居信息。损失函数包括对抗损失和社会PPO损失。对抗损失用于训练生成器,使其产生的行为更接近真实行为。社会PPO损失用于鼓励智能体之间的协作。距离加权邻域奖励的具体权重计算方式也是一个重要的设计细节,需要根据实际场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DecompGAIL在WOMD Sim Agents 2025基准测试中取得了state-of-the-art的性能,证明了其在多智能体交通仿真中的有效性。通过分解真实性并引入社会PPO目标,DecompGAIL能够学习到更真实的交通行为,并提高智能体之间的协作能力。具体的性能提升数据需要在论文中查找。

🎯 应用场景

DecompGAIL可应用于自动驾驶系统的仿真测试、城市交通规划和交通流优化等领域。通过模拟真实的交通环境,可以更有效地评估自动驾驶算法的性能,并为城市交通规划提供数据支持。此外,该方法还可以用于训练更智能的交通信号控制系统,从而提高交通效率。

📄 摘要(原文)

Realistic traffic simulation is critical for the development of autonomous driving systems and urban mobility planning, yet existing imitation learning approaches often fail to model realistic traffic behaviors. Behavior cloning suffers from covariate shift, while Generative Adversarial Imitation Learning (GAIL) is notoriously unstable in multi-agent settings. We identify a key source of this instability: irrelevant interaction misguidance, where a discriminator penalizes an ego vehicle's realistic behavior due to unrealistic interactions among its neighbors. To address this, we propose Decomposed Multi-agent GAIL (DecompGAIL), which explicitly decomposes realism into ego-map and ego-neighbor components, filtering out misleading neighbor: neighbor and neighbor: map interactions. We further introduce a social PPO objective that augments ego rewards with distance-weighted neighborhood rewards, encouraging overall realism across agents. Integrated into a lightweight SMART-based backbone, DecompGAIL achieves state-of-the-art performance on the WOMD Sim Agents 2025 benchmark.