DecompGAIL: Learning Realistic Traffic Behaviors with Decomposed Multi-Agent Generative Adversarial Imitation Learning

📄 arXiv: 2510.06913v1 📥 PDF

作者: Ke Guo, Haochen Liu, Xiaojun Wu, Chen Lv

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-10-08


💡 一句话要点

提出DecompGAIL,通过分解交互关系提升多智能体模仿学习的交通行为真实性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体 模仿学习 生成对抗网络 交通仿真 自动驾驶 强化学习 行为建模

📋 核心要点

  1. 现有模仿学习方法难以在多智能体交通环境中生成逼真的交通行为,GAIL训练不稳定,易受邻居智能体不真实行为的误导。
  2. DecompGAIL将真实性分解为自车地图和自车邻居两部分,过滤掉邻居间的无关交互,避免判别器误判自车行为。
  3. 引入社交PPO目标,通过邻域奖励鼓励所有智能体生成更真实的交通行为,并在WOMD Sim Agents 2025基准上取得SOTA性能。

📝 摘要(中文)

逼真的交通仿真对于自动驾驶系统开发和城市交通规划至关重要,但现有的模仿学习方法通常无法模拟真实的交通行为。行为克隆存在协变量偏移问题,而生成对抗模仿学习(GAIL)在多智能体环境中非常不稳定。我们发现这种不稳定性的一个关键来源:无关交互误导,即判别器由于邻居之间不真实的交互而惩罚了自车真实的驾驶行为。为了解决这个问题,我们提出了分解多智能体GAIL(DecompGAIL),它将真实性显式地分解为自车地图和自车邻居组件,过滤掉误导性的邻居:邻居和邻居:地图交互。我们进一步引入了一个社交PPO目标,通过距离加权的邻域奖励来增强自车奖励,从而鼓励所有智能体的整体真实性。集成到基于SMART的轻量级骨干网络中,DecompGAIL在WOMD Sim Agents 2025基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决多智能体交通仿真中,现有模仿学习方法(尤其是GAIL)难以生成逼真交通行为的问题。GAIL在多智能体环境下的训练不稳定,一个主要原因是“无关交互误导”,即判别器会因为邻居智能体之间不真实的交互而错误地惩罚自车真实的驾驶行为。这种误导导致学习到的策略无法准确模仿真实交通数据。

核心思路:论文的核心思路是将交通环境的真实性分解为两个部分:自车与环境地图的交互(ego-map)和自车与邻居智能体的交互(ego-neighbor)。通过显式地分解这两个部分,可以过滤掉邻居之间以及邻居与地图之间的不相关交互,从而避免判别器受到这些不相关交互的误导。这样,判别器可以更准确地评估自车行为的真实性。

技术框架:DecompGAIL的整体框架基于生成对抗模仿学习(GAIL)。它包含一个生成器(策略网络)和一个判别器。生成器的目标是学习一个策略,使得生成的交通行为尽可能接近真实交通数据。判别器的目标是区分生成的交通行为和真实交通行为。DecompGAIL的关键在于判别器的设计,它将输入分解为ego-map和ego-neighbor两部分,分别进行评估。此外,论文还引入了一个社交PPO目标,用于进一步提升整体的交通行为真实性。

关键创新:DecompGAIL最关键的创新点在于对真实性的分解。通过将真实性分解为ego-map和ego-neighbor两部分,并过滤掉不相关的邻居间交互,DecompGAIL能够更准确地评估自车行为的真实性,从而避免了传统GAIL在多智能体环境下的训练不稳定问题。此外,社交PPO目标的引入也进一步提升了整体的交通行为真实性。

关键设计:DecompGAIL的关键设计包括:1) 分解的判别器结构,它分别评估ego-map和ego-neighbor的真实性;2) 过滤邻居间交互的机制,确保判别器只关注与自车相关的交互;3) 社交PPO目标,通过距离加权的邻域奖励来鼓励所有智能体生成更真实的交通行为。具体损失函数的设计和网络结构的细节在论文中有详细描述,例如距离加权的具体函数形式等。

📊 实验亮点

DecompGAIL在WOMD Sim Agents 2025基准测试中取得了state-of-the-art的性能,证明了其在多智能体交通仿真中的有效性。具体性能数据和对比基线在论文中有详细展示,表明DecompGAIL能够显著提升交通行为的真实性。

🎯 应用场景

DecompGAIL可应用于自动驾驶系统的仿真测试、城市交通规划和交通行为分析等领域。通过生成逼真的交通场景,可以更有效地评估自动驾驶算法的性能和安全性。此外,DecompGAIL还可以用于预测交通流量、优化交通信号控制,以及研究不同驾驶行为对交通流的影响。

📄 摘要(原文)

Realistic traffic simulation is critical for the development of autonomous driving systems and urban mobility planning, yet existing imitation learning approaches often fail to model realistic traffic behaviors. Behavior cloning suffers from covariate shift, while Generative Adversarial Imitation Learning (GAIL) is notoriously unstable in multi-agent settings. We identify a key source of this instability: irrelevant interaction misguidance, where a discriminator penalizes an ego vehicle's realistic behavior due to unrealistic interactions among its neighbors. To address this, we propose Decomposed Multi-agent GAIL (DecompGAIL), which explicitly decomposes realism into ego-map and ego-neighbor components, filtering out misleading neighbor: neighbor and neighbor: map interactions. We further introduce a social PPO objective that augments ego rewards with distance-weighted neighborhood rewards, encouraging overall realism across agents. Integrated into a lightweight SMART-based backbone, DecompGAIL achieves state-of-the-art performance on the WOMD Sim Agents 2025 benchmark.