Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation

📄 arXiv: 2502.12178v1 📥 PDF

作者: Seungjun Yu, Kisung Kim, Daejung Kim, Haewook Han, Jinhan Lee

分类: cs.LG, cs.MA

发布日期: 2025-02-14


💡 一句话要点

提出DPO增强的多引导扩散模型,用于生成逼真可控的交通场景

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 交通场景生成 扩散模型 引导采样 直接偏好优化 多任务学习

📋 核心要点

  1. 基于扩散模型的交通场景生成方法依赖引导采样来提升真实性,但易偏离真实交通先验。
  2. 提出多引导扩散模型,通过多任务学习和DPO微调,在多种引导下仍能保持交通先验。
  3. 在nuScenes数据集上验证,该模型在真实性、多样性和可控性之间取得了良好的平衡。

📝 摘要(中文)

本文提出了一种基于扩散模型的方法,用于生成逼真且多样化的交通场景。该模型利用引导采样来融入特定的交通偏好,从而增强场景的真实性。为了解决引导采样可能导致偏离真实交通先验的问题,本文引入了一种多引导扩散模型,该模型采用新颖的训练策略,即使在使用各种引导组合时也能紧密遵循交通先验。该模型采用多任务学习框架,使单个扩散模型能够处理各种引导输入。为了提高引导采样的精度,该模型使用直接偏好优化(DPO)算法进行微调,从而有效地应对了引导采样微调过程中昂贵且通常不可微的梯度计算所带来的复杂性和挑战。在nuScenes数据集上的评估表明,该模型为平衡交通场景生成中的真实性、多样性和可控性提供了一个强大的基线。

🔬 方法详解

问题定义:现有基于扩散模型的交通场景生成方法,虽然可以通过引导采样融入交通规则和偏好,但容易导致生成的场景偏离真实的交通先验知识,产生不真实的交通行为。现有的引导采样微调过程通常计算代价高昂,且梯度不可微,增加了优化难度。

核心思路:本文的核心思路是设计一个多引导扩散模型,使其在多种引导信息下,仍然能够保持对真实交通先验的遵循。通过多任务学习框架,使单个扩散模型能够同时处理多种引导输入。并采用直接偏好优化(DPO)算法,避免了复杂的梯度计算,从而更有效地优化引导采样过程。

技术框架:该模型基于扩散模型,整体框架包含以下几个主要模块:1) 扩散过程:将真实交通场景逐步加入噪声,直至完全噪声化。2) 逆扩散过程:从噪声中逐步恢复出交通场景。3) 多引导模块:接收多种引导信息(例如交通规则、驾驶偏好等),并将其融入逆扩散过程。4) DPO微调模块:使用DPO算法对模型进行微调,优化引导采样过程,使其更好地符合用户偏好。

关键创新:该论文的关键创新在于:1) 提出了多引导扩散模型,能够同时处理多种引导信息,从而更好地控制生成场景。2) 引入了DPO算法进行微调,避免了传统梯度计算的复杂性,提高了引导采样的精度和效率。3) 提出了一种新的训练策略,即使在使用各种引导组合时也能紧密遵循交通先验。

关键设计:DPO微调模块是关键设计之一。具体来说,DPO算法通过优化一个奖励函数来学习用户偏好,该奖励函数基于引导分数。模型的损失函数包括扩散模型的标准损失函数和DPO损失函数。网络结构方面,扩散模型采用常见的U-Net结构,多引导模块的设计需要根据具体的引导信息进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在nuScenes数据集上取得了良好的性能。与现有方法相比,该模型生成的交通场景在真实性、多样性和可控性方面均有显著提升。通过DPO微调,模型能够更好地符合用户偏好,生成更符合实际交通情况的场景。具体性能数据未知,但摘要表明该模型为平衡真实性、多样性和可控性提供了一个强大的基线。

🎯 应用场景

该研究成果可应用于自动驾驶仿真测试、交通规划和交通行为预测等领域。通过生成逼真且可控的交通场景,可以更有效地评估自动驾驶系统的性能,并为交通规划提供数据支持。此外,该模型还可以用于生成各种交通异常场景,从而提高自动驾驶系统应对复杂交通环境的能力。

📄 摘要(原文)

Diffusion-based models are recognized for their effectiveness in using real-world driving data to generate realistic and diverse traffic scenarios. These models employ guided sampling to incorporate specific traffic preferences and enhance scenario realism. However, guiding the sampling process to conform to traffic rules and preferences can result in deviations from real-world traffic priors and potentially leading to unrealistic behaviors. To address this challenge, we introduce a multi-guided diffusion model that utilizes a novel training strategy to closely adhere to traffic priors, even when employing various combinations of guides. This model adopts a multi-task learning framework, enabling a single diffusion model to process various guide inputs. For increased guided sampling precision, our model is fine-tuned using the Direct Preference Optimization (DPO) algorithm. This algorithm optimizes preferences based on guide scores, effectively navigating the complexities and challenges associated with the expensive and often non-differentiable gradient calculations during the guided sampling fine-tuning process. Evaluated using the nuScenes dataset our model provides a strong baseline for balancing realism, diversity and controllability in the traffic scenario generation.