Risk-Controllable Multi-View Diffusion for Driving Scenario Generation

📄 arXiv: 2603.11534v1 📥 PDF

作者: Hongyi Lin, Wenxiu Shi, Heye Huang, Dingyi Zhuang, Song Zhang, Yang Liu, Xiaobo Qu, Jinhua Zhao

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

提出RiskMV-DPO,实现风险可控的多视角驾驶场景生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 驾驶场景生成 风险建模 扩散模型 多视角 几何一致性 自动驾驶 长尾场景

📋 核心要点

  1. 现有驾驶场景生成方法难以生成长尾风险场景,且难以保证多视角几何一致性。
  2. RiskMV-DPO通过结合物理风险建模和扩散模型,生成风险可控且几何一致的驾驶场景。
  3. 实验表明,RiskMV-DPO能生成多样长尾场景,显著提升3D检测mAP并降低FID。

📝 摘要(中文)

生成安全关键的驾驶场景对于评估和改进自动驾驶系统至关重要,但现实世界数据中很少观察到长尾风险情况,并且难以通过手动场景设计来指定。现有的生成方法通常将风险视为事后标签,并且难以维持多视角驾驶场景中的几何一致性。我们提出了RiskMV-DPO,这是一个通用且系统的流程,用于物理信息驱动的、风险可控的多视角场景生成。通过将目标风险水平与物理基础的风险建模相结合,我们自主地合成多样且高风险的动态轨迹,这些轨迹作为基于扩散的视频生成器的显式几何锚点。为了确保时空连贯性和几何保真度,我们引入了几何-外观对齐模块和区域感知直接偏好优化(RA-DPO)策略,该策略具有运动感知掩码,可将学习重点放在局部动态区域。在nuScenes数据集上的实验表明,RiskMV-DPO可以自由生成各种长尾场景,同时保持最先进的视觉质量,将3D检测mAP从18.17提高到30.50,并将FID降低到15.70。我们的工作将世界模型的作用从被动环境预测转变为主动的、风险可控的合成,为具身智能的安全导向开发提供了一个可扩展的工具链。

🔬 方法详解

问题定义:现有自动驾驶场景生成方法主要面临两个挑战:一是难以生成现实数据中稀缺的长尾风险场景,二是难以保证生成的多视角场景在几何上的一致性。现有的方法通常将风险作为一个事后标签来处理,缺乏对风险的有效控制和建模。

核心思路:RiskMV-DPO的核心思路是将风险建模融入到场景生成过程中,通过物理信息驱动的风险建模来引导扩散模型生成具有特定风险水平的驾驶场景。同时,通过几何-外观对齐和区域感知偏好优化,确保生成场景的时空连贯性和几何保真度。

技术框架:RiskMV-DPO的整体框架包含以下几个主要模块:1) 风险建模模块:基于物理信息对驾驶场景的风险进行建模,并生成具有特定风险水平的动态轨迹。2) 扩散模型:以动态轨迹作为几何锚点,生成多视角的驾驶场景视频。3) 几何-外观对齐模块:用于确保生成场景的几何一致性。4) 区域感知直接偏好优化(RA-DPO)模块:通过运动感知掩码,将学习重点放在局部动态区域,从而提高生成场景的质量。

关键创新:RiskMV-DPO的关键创新在于:1) 将风险建模与扩散模型相结合,实现了风险可控的场景生成。2) 提出了几何-外观对齐模块和区域感知直接偏好优化策略,提高了生成场景的时空连贯性和几何保真度。3) 将世界模型从被动环境预测转变为主动的、风险可控的合成。

关键设计:RA-DPO 使用 motion-aware masking 来聚焦学习在局部动态区域。具体来说,通过光流估计等方法识别图像中的运动区域,并对这些区域进行加权,使得模型更加关注这些区域的学习。此外,损失函数的设计也至关重要,需要平衡视觉质量、几何一致性和风险水平之间的关系。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RiskMV-DPO在nuScenes数据集上取得了显著的性能提升。3D检测mAP从18.17提高到30.50,FID降低到15.70。这些结果表明,RiskMV-DPO能够生成高质量、高风险且几何一致的驾驶场景,优于现有的生成方法。

🎯 应用场景

RiskMV-DPO可用于自动驾驶系统的安全测试和验证,通过生成各种高风险场景,帮助评估和改进自动驾驶系统的鲁棒性和安全性。此外,该方法还可以用于驾驶员行为分析、交通仿真和智能交通系统设计等领域,具有广泛的应用前景。

📄 摘要(原文)

Generating safety-critical driving scenarios is crucial for evaluating and improving autonomous driving systems, but long-tail risky situations are rarely observed in real-world data and difficult to specify through manual scenario design. Existing generative approaches typically treat risk as an after-the-fact label and struggle to maintain geometric consistency in multi-view driving scenes. We present RiskMV-DPO, a general and systematic pipeline for physically-informed, risk-controllable multi-view scenario generation. By integrating target risk levels with physically-grounded risk modeling, we autonomously synthesize diverse and high-stakes dynamic trajectories that serve as explicit geometric anchors for a diffusion-based video generator. To ensure spatial-temporal coherence and geometric fidelity, we introduce a geometry-appearance alignment module and a region-aware direct preference optimization (RA-DPO) strategy with motion-aware masking to focus learning on localized dynamic regions.Experiments on the nuScenes dataset show that RiskMV-DPO can freely generate a wide spectrum of diverse long-tail scenarios while maintaining state-of-the-art visual quality, improving 3D detection mAP from 18.17 to 30.50 and reducing FID to 15.70. Our work shifts the role of world models from passive environment prediction to proactive, risk-controllable synthesis, providing a scalable toolchain for the safety-oriented development of embodied intelligence.