Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments
作者: Luke Rowe, Roger Girgis, Anthony Gosselin, Liam Paull, Christopher Pal, Felix Heide
分类: cs.RO, cs.CV
发布日期: 2025-03-28
备注: CVPR 2025
💡 一句话要点
Scenario Dreamer:提出一种向量化潜在扩散模型,用于生成自动驾驶仿真环境。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 生成式模拟器 向量化表示 潜在扩散模型 Transformer 场景生成 智能体行为
📋 核心要点
- 现有方法将驾驶场景栅格化,导致计算冗余且参数量大;基于规则的智能体行为缺乏真实感和多样性。
- Scenario Dreamer采用向量化潜在扩散模型直接处理向量化场景元素,并使用自回归Transformer模拟智能体行为。
- 实验表明,Scenario Dreamer在生成质量、效率和真实性方面优于现有方法,并能有效提升强化学习规划智能体的挑战性。
📝 摘要(中文)
本文介绍Scenario Dreamer,一种完全数据驱动的生成式模拟器,用于自动驾驶车辆规划,它可以生成初始交通场景(包括车道图和智能体边界框)和闭环智能体行为。现有的驾驶模拟环境生成方法将初始交通场景编码为栅格化图像,因此需要参数繁重的网络,并且由于栅格化场景中存在大量空像素而导致不必要的计算。此外,我们发现现有的采用基于规则的智能体行为的方法缺乏多样性和真实感。Scenario Dreamer采用了一种新颖的向量化潜在扩散模型用于初始场景生成,该模型直接作用于向量化的场景元素,并采用自回归Transformer用于数据驱动的智能体行为模拟。Scenario Dreamer还支持通过扩散修复进行场景外推,从而能够生成无界的模拟环境。大量实验表明,Scenario Dreamer在真实性和效率方面优于现有的生成式模拟器:向量化场景生成基础模型以大约2倍更少的参数、6倍更低的生成延迟和10倍更少的GPU训练时间实现了优越的生成质量。我们通过展示强化学习规划智能体在Scenario Dreamer环境中比在传统的非生成式模拟环境中面临更大的挑战(尤其是在长期的对抗性驾驶环境中)来证实了它的实际效用。
🔬 方法详解
问题定义:现有驾驶模拟环境生成方法主要存在两个痛点:一是依赖栅格化图像表示,导致计算冗余和模型参数量大;二是智能体行为通常基于规则,缺乏真实性和多样性,难以充分测试自动驾驶系统的鲁棒性。
核心思路:Scenario Dreamer的核心思路是直接在向量化的场景元素上进行生成,避免栅格化带来的问题。同时,利用数据驱动的方法学习智能体的行为,提高真实性和多样性。通过潜在扩散模型和自回归Transformer的结合,实现场景和智能体行为的协同生成。
技术框架:Scenario Dreamer包含两个主要模块:向量化场景生成模块和智能体行为模拟模块。向量化场景生成模块采用向量化潜在扩散模型,直接生成车道图和智能体边界框等向量化表示的场景元素。智能体行为模拟模块采用自回归Transformer,根据生成的场景信息预测智能体的行为轨迹。此外,该框架还支持通过扩散修复进行场景外推,生成更大的模拟环境。
关键创新:Scenario Dreamer的关键创新在于使用向量化潜在扩散模型直接生成向量化的场景表示,避免了栅格化带来的计算冗余和信息损失。此外,使用数据驱动的自回归Transformer模拟智能体行为,提高了行为的真实性和多样性。
关键设计:向量化潜在扩散模型使用扩散过程将场景元素编码到潜在空间,然后通过逆扩散过程生成新的场景。自回归Transformer使用场景信息作为输入,预测智能体在未来时间步的行为。损失函数包括场景生成的重构损失和智能体行为预测的交叉熵损失。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
Scenario Dreamer在生成质量上优于现有方法,参数量减少约2倍,生成延迟降低约6倍,GPU训练时间减少约10倍。强化学习智能体在Scenario Dreamer生成的环境中面临更大的挑战,表明该方法生成的环境更具真实性和对抗性。
🎯 应用场景
Scenario Dreamer可用于自动驾驶系统的开发和测试,通过生成更真实、更具挑战性的模拟环境,可以提高自动驾驶系统的鲁棒性和安全性。此外,该方法还可以应用于交通规划、城市设计等领域,用于生成各种交通场景,辅助决策。
📄 摘要(原文)
We introduce Scenario Dreamer, a fully data-driven generative simulator for autonomous vehicle planning that generates both the initial traffic scene - comprising a lane graph and agent bounding boxes - and closed-loop agent behaviours. Existing methods for generating driving simulation environments encode the initial traffic scene as a rasterized image and, as such, require parameter-heavy networks that perform unnecessary computation due to many empty pixels in the rasterized scene. Moreover, we find that existing methods that employ rule-based agent behaviours lack diversity and realism. Scenario Dreamer instead employs a novel vectorized latent diffusion model for initial scene generation that directly operates on the vectorized scene elements and an autoregressive Transformer for data-driven agent behaviour simulation. Scenario Dreamer additionally supports scene extrapolation via diffusion inpainting, enabling the generation of unbounded simulation environments. Extensive experiments show that Scenario Dreamer outperforms existing generative simulators in realism and efficiency: the vectorized scene-generation base model achieves superior generation quality with around 2x fewer parameters, 6x lower generation latency, and 10x fewer GPU training hours compared to the strongest baseline. We confirm its practical utility by showing that reinforcement learning planning agents are more challenged in Scenario Dreamer environments than traditional non-generative simulation environments, especially on long and adversarial driving environments.