BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction
作者: Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue
分类: cs.AI, cs.LG, cs.RO
发布日期: 2024-05-27 (更新: 2024-11-11)
备注: NeurIPS 2024
💡 一句话要点
BehaviorGPT:基于下一块预测的智能体行为模拟,用于自动驾驶
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 自动驾驶 行为模拟 Transformer 自回归模型 轨迹预测
📋 核心要点
- 现有数据驱动的自动驾驶模拟器依赖异构的编码器-解码器结构,导致模型复杂且数据利用率低。
- BehaviorGPT采用同构自回归Transformer,将每个时间步视为当前步,简化模型并提高数据利用率。
- 引入下一块预测范式(NP3)以捕获长程时空交互,BehaviorGPT在Waymo挑战赛中取得领先。
📝 摘要(中文)
逼真地模拟交通智能体的行为对于有效验证自动驾驶系统的安全性至关重要。现有的数据驱动模拟器主要采用编码器-解码器架构来编码历史轨迹,然后解码未来轨迹。然而,编码器和解码器之间的异构性使模型复杂化,并且手动分离历史和未来轨迹导致数据利用率低。鉴于这些限制,我们提出了BehaviorGPT,一种同构且完全自回归的Transformer,旨在模拟多个智能体的顺序行为。关键在于,我们的方法通过将每个时间步建模为运动生成的“当前”时间步,从而摒弃了传统的“历史”和“未来”之间的分离,从而产生了一种更简单、参数和数据效率更高的智能体模拟器。我们进一步引入了下一块预测范式(NP3),以减轻自回归建模的负面影响,其中模型被训练以在轨迹的块级别进行推理并捕获长程时空交互。尽管只有300万个模型参数,BehaviorGPT在2024年Waymo Open Sim Agents Challenge中获得了第一名,其真实度得分为0.7473,minADE得分为1.4147,证明了其在交通智能体模拟方面的卓越性能。
🔬 方法详解
问题定义:论文旨在解决自动驾驶仿真中交通智能体行为模拟不真实、数据利用率低的问题。现有方法通常采用编码器-解码器结构,将历史轨迹编码后预测未来轨迹,但这种结构复杂且割裂了历史和未来信息,导致数据利用率不高。
核心思路:BehaviorGPT的核心思路是使用一个同构的、完全自回归的Transformer模型来模拟智能体的行为。通过将每个时间步都视为“当前”时间步,模型可以更有效地利用数据,并避免了编码器-解码器结构带来的复杂性。
技术框架:BehaviorGPT的整体架构是一个标准的Transformer解码器结构。模型接收智能体的历史轨迹作为输入,并自回归地预测未来的轨迹。为了提高模型的性能,论文还引入了下一块预测范式(NP3),将轨迹分割成小的块,并训练模型预测下一个块的位置。
关键创新:BehaviorGPT的关键创新在于其同构自回归的Transformer结构和下一块预测范式(NP3)。同构结构简化了模型,提高了数据利用率;NP3则帮助模型更好地捕捉长程时空依赖关系,从而提高预测的准确性。
关键设计:BehaviorGPT使用标准的Transformer解码器结构,并采用交叉熵损失函数进行训练。NP3将轨迹分割成固定大小的块,并使用一个额外的线性层来预测下一个块的位置。模型的参数量仅为300万,相对较小。
📊 实验亮点
BehaviorGPT在2024年Waymo Open Sim Agents Challenge中获得了第一名,其真实度得分为0.7473,minADE得分为1.4147。该模型仅有300万个参数,表明其具有很高的参数效率。实验结果证明了BehaviorGPT在交通智能体行为模拟方面的卓越性能。
🎯 应用场景
BehaviorGPT可应用于自动驾驶系统的仿真测试与验证,帮助开发者更高效地评估自动驾驶算法的安全性与可靠性。通过模拟更真实的交通场景,可以发现潜在的安全隐患,并为自动驾驶系统的改进提供数据支持。此外,该方法还可用于交通规划与管理,预测交通流量,优化交通信号灯配时等。
📄 摘要(原文)
Simulating realistic behaviors of traffic agents is pivotal for efficiently validating the safety of autonomous driving systems. Existing data-driven simulators primarily use an encoder-decoder architecture to encode the historical trajectories before decoding the future. However, the heterogeneity between encoders and decoders complicates the models, and the manual separation of historical and future trajectories leads to low data utilization. Given these limitations, we propose BehaviorGPT, a homogeneous and fully autoregressive Transformer designed to simulate the sequential behavior of multiple agents. Crucially, our approach discards the traditional separation between "history" and "future" by modeling each time step as the "current" one for motion generation, leading to a simpler, more parameter- and data-efficient agent simulator. We further introduce the Next-Patch Prediction Paradigm (NP3) to mitigate the negative effects of autoregressive modeling, in which models are trained to reason at the patch level of trajectories and capture long-range spatial-temporal interactions. Despite having merely 3M model parameters, BehaviorGPT won first place in the 2024 Waymo Open Sim Agents Challenge with a realism score of 0.7473 and a minADE score of 1.4147, demonstrating its exceptional performance in traffic agent simulation.