SceneDiffuser: Efficient and Controllable Driving Simulation Initialization and Rollout

作者: Chiyu Max Jiang, Yijing Bai, Andre Cornman, Christopher Davis, Xiukun Huang, Hong Jeon, Sakshum Kulshrestha, John Lambert, Shuangyu Li, Xuanyu Zhou, Carlos Fuertes, Chang Yuan, Mingxing Tan, Yin Zhou, Dragomir Anguelov

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-12-05

备注: Accepted to NeurIPS 2024

💡 一句话要点

SceneDiffuser：高效可控的自动驾驶仿真初始化与推演

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶仿真 扩散模型 场景生成 闭环仿真 摊销扩散 可控生成 交通场景

📋 核心要点

现有自动驾驶仿真方法在可控性、闭环真实感和推理效率方面存在挑战，限制了其应用。
SceneDiffuser采用摊销扩散，将去噪成本分摊到未来步骤，降低计算成本并减轻闭环误差。
通过广义硬约束和LLM少样本提示，增强了场景生成的可控性，并在Waymo挑战赛中取得领先。

📝 摘要（中文）

本文提出SceneDiffuser，一种用于交通仿真的场景级扩散先验。它提供了一个统一的框架，解决了仿真的两个关键阶段：场景初始化（生成初始交通布局）和场景推演（智能体行为的闭环仿真）。虽然扩散模型已被证明在学习逼真和多模态的智能体分布方面有效，但仍然存在一些挑战，包括可控性、在闭环仿真中保持真实感以及确保推理效率。为了解决这些问题，我们引入了用于仿真的摊销扩散，这种新的扩散去噪范式将去噪的计算成本分摊到未来的仿真步骤中，从而显著降低了每个推演步骤的成本（减少16倍的推理步骤），同时也减轻了闭环误差。我们通过引入广义硬约束（一种简单而有效的推理时约束机制）以及通过大型语言模型（LLM）的少样本提示进行基于语言的约束场景生成，进一步增强了可控性。我们对模型缩放的研究表明，增加计算资源可以显著提高整体仿真真实感。我们在Waymo Open Sim Agents Challenge上证明了我们方法的有效性，在开放循环性能方面取得了领先，并在扩散模型中取得了最佳的闭环性能。

🔬 方法详解

问题定义：自动驾驶仿真需要生成逼真的交通场景并模拟智能体的行为。现有方法在生成初始场景时缺乏足够的控制，难以满足特定场景需求。在闭环仿真中，由于误差累积，真实感会逐渐降低。此外，扩散模型的推理成本较高，限制了仿真效率。

核心思路：SceneDiffuser的核心思路是利用扩散模型学习交通场景的先验分布，并通过摊销扩散降低推理成本，同时引入约束机制增强可控性。通过将去噪过程的计算成本分摊到未来的仿真步骤中，显著提高了仿真效率，并减轻了闭环误差。

技术框架：SceneDiffuser包含两个主要阶段：场景初始化和场景推演。在场景初始化阶段，利用扩散模型生成初始交通布局，并可以通过语言提示或硬约束进行控制。在场景推演阶段，使用摊销扩散模型模拟智能体的行为，并进行闭环仿真。整体框架利用扩散模型强大的生成能力，结合高效的推理策略和灵活的控制机制，实现逼真且可控的自动驾驶仿真。

关键创新：SceneDiffuser的关键创新在于摊销扩散，它通过将去噪过程的计算成本分摊到未来的仿真步骤中，显著降低了每个推演步骤的计算成本。此外，广义硬约束和基于LLM的语言约束也增强了场景生成的可控性。与传统的扩散模型相比，SceneDiffuser在保证生成质量的同时，显著提高了仿真效率和可控性。

关键设计：SceneDiffuser使用了标准的扩散模型架构，并针对仿真任务进行了优化。摊销扩散的具体实现方式未知，但其核心思想是将去噪过程的计算量分摊到多个仿真步骤中。广义硬约束的具体形式也未知，但其作用是在推理时强制满足某些约束条件。基于LLM的语言约束通过少样本提示，引导扩散模型生成符合语言描述的场景。

🖼️ 关键图片

📊 实验亮点

SceneDiffuser在Waymo Open Sim Agents Challenge中取得了优异的成绩，在开放循环性能方面取得了领先，并在扩散模型中取得了最佳的闭环性能。具体性能数据未知，但结果表明SceneDiffuser在仿真真实感和闭环稳定性方面具有显著优势。摊销扩散的使用使得推理速度提升了16倍，极大地提高了仿真效率。

🎯 应用场景

SceneDiffuser可应用于自动驾驶算法的开发与测试，通过生成大量逼真且可控的交通场景，加速算法的迭代和验证。此外，它还可以用于自动驾驶安全评估，通过模拟极端或危险场景，评估自动驾驶系统的鲁棒性。该研究的未来影响在于降低自动驾驶开发的成本和周期，并提高自动驾驶系统的安全性和可靠性。

📄 摘要（原文）

Realistic and interactive scene simulation is a key prerequisite for autonomous vehicle (AV) development. In this work, we present SceneDiffuser, a scene-level diffusion prior designed for traffic simulation. It offers a unified framework that addresses two key stages of simulation: scene initialization, which involves generating initial traffic layouts, and scene rollout, which encompasses the closed-loop simulation of agent behaviors. While diffusion models have been proven effective in learning realistic and multimodal agent distributions, several challenges remain, including controllability, maintaining realism in closed-loop simulations, and ensuring inference efficiency. To address these issues, we introduce amortized diffusion for simulation. This novel diffusion denoising paradigm amortizes the computational cost of denoising over future simulation steps, significantly reducing the cost per rollout step (16x less inference steps) while also mitigating closed-loop errors. We further enhance controllability through the introduction of generalized hard constraints, a simple yet effective inference-time constraint mechanism, as well as language-based constrained scene generation via few-shot prompting of a large language model (LLM). Our investigations into model scaling reveal that increased computational resources significantly improve overall simulation realism. We demonstrate the effectiveness of our approach on the Waymo Open Sim Agents Challenge, achieving top open-loop performance and the best closed-loop performance among diffusion models.

SceneDiffuser: Efficient and Controllable Driving Simulation Initialization and Rollout

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理