DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer
作者: Junpeng Jiang, Gangyi Hong, Miao Zhang, Hengtong Hu, Kun Zhan, Rui Shao, Liqiang Nie
分类: cs.CV
发布日期: 2025-04-28
💡 一句话要点
DiVE:基于视频扩散Transformer的高效多视角驾驶场景生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视角视频生成 扩散Transformer 自动驾驶 跨视角一致性 多模态融合 模型加速 nuScenes数据集
📋 核心要点
- 现有方法在驾驶场景下生成视频质量差、时空一致性不足,限制了其在感知任务中的应用。
- DiVE利用扩散Transformer,结合交叉注意力、SketchFormer和视角膨胀注意力,实现高质量多视角视频生成。
- 通过多控制辅助分支蒸馏和分辨率渐进采样,DiVE显著提升了生成速度,并在nuScenes数据集上取得了SOTA性能。
📝 摘要(中文)
为了解决3D视觉感知任务中多视角驾驶场景视频数据收集困难且成本高昂的问题,本文提出DiVE,一个基于扩散Transformer的生成框架,旨在生成高保真、时序连贯、视角一致的多视角视频,并与鸟瞰图布局和文本描述对齐。DiVE利用统一的交叉注意力和SketchFormer精确控制多模态数据,并引入视角膨胀注意力机制,无需额外参数即可保证视角一致性。针对多模态约束下高分辨率视频合成的挑战,提出了多控制辅助分支蒸馏,简化多条件CFG选择并避免高计算开销,以及分辨率渐进采样,一种无需训练的加速策略,通过错开分辨率缩放来降低高分辨率带来的延迟。这些创新共同实现了2.62倍的加速,且质量损失极小。在nuScenes数据集上的评估表明,DiVE在多视角视频生成方面取得了SOTA性能,生成了具有卓越时序和跨视角连贯性的逼真输出。
🔬 方法详解
问题定义:现有的多视角驾驶场景视频生成方法难以兼顾生成视频的真实性、时序一致性和跨视角一致性,导致生成的数据难以有效提升3D视觉感知任务的性能。此外,在高分辨率下进行多模态条件视频生成面临计算量大和推理速度慢的问题。
核心思路:DiVE的核心思路是利用扩散Transformer强大的生成能力,并结合专门设计的注意力机制和训练策略,以实现高质量、高效率的多视角驾驶场景视频生成。通过统一的交叉注意力和SketchFormer来融合多模态信息,并利用视角膨胀注意力保证跨视角一致性。
技术框架:DiVE的整体框架基于扩散Transformer,包含以下主要模块:1) 视频扩散模型:负责从噪声中逐步生成视频帧。2) 统一交叉注意力模块:融合文本描述、鸟瞰图布局等多模态信息。3) SketchFormer:用于学习场景的结构化表示。4) 视角膨胀注意力:在不增加额外参数的情况下,增强跨视角一致性。5) 多控制辅助分支蒸馏:加速多条件分类器自由引导(CFG)的选择。6) 分辨率渐进采样:通过逐步提升分辨率来加速推理过程。
关键创新:DiVE的关键创新在于:1) 视角膨胀注意力机制,有效提升了跨视角一致性,且无需引入额外参数。2) 多控制辅助分支蒸馏,解决了多条件CFG选择的计算瓶颈。3) 分辨率渐进采样,显著降低了高分辨率视频生成的延迟。
关键设计:视角膨胀注意力通过在注意力计算中考虑不同视角的特征,从而增强跨视角一致性。多控制辅助分支蒸馏通过训练一个辅助分支来预测最优的CFG权重,从而避免了对所有可能的CFG权重组合进行评估。分辨率渐进采样通过在不同的扩散步骤中使用不同的分辨率,从而降低了计算复杂度。
🖼️ 关键图片
📊 实验亮点
DiVE在nuScenes数据集上取得了SOTA性能,证明了其在多视角视频生成方面的优越性。通过多控制辅助分支蒸馏和分辨率渐进采样,DiVE实现了2.62倍的推理加速,且质量损失极小。这些结果表明,DiVE在保证生成质量的同时,显著提升了生成效率,使其更具实用价值。
🎯 应用场景
DiVE生成的逼真多视角驾驶场景视频可用于训练和评估自动驾驶系统的感知模块,例如3D目标检测、语义分割等。此外,该技术还可应用于虚拟现实、游戏开发等领域,用于创建沉浸式的驾驶模拟体验。未来,DiVE有望进一步扩展到更复杂的交通场景和天气条件,为自动驾驶技术的发展提供更强大的数据支持。
📄 摘要(原文)
Collecting multi-view driving scenario videos to enhance the performance of 3D visual perception tasks presents significant challenges and incurs substantial costs, making generative models for realistic data an appealing alternative. Yet, the videos generated by recent works suffer from poor quality and spatiotemporal consistency, undermining their utility in advancing perception tasks under driving scenarios. To address this gap, we propose DiVE, a diffusion transformer-based generative framework meticulously engineered to produce high-fidelity, temporally coherent, and cross-view consistent multi-view videos, aligning seamlessly with bird's-eye view layouts and textual descriptions. DiVE leverages a unified cross-attention and a SketchFormer to exert precise control over multimodal data, while incorporating a view-inflated attention mechanism that adds no extra parameters, thereby guaranteeing consistency across views. Despite these advancements, synthesizing high-resolution videos under multimodal constraints introduces dual challenges: investigating the optimal classifier-free guidance coniguration under intricate multi-condition inputs and mitigating excessive computational latency in high-resolution rendering--both of which remain underexplored in prior researches. To resolve these limitations, we introduce two innovations: Multi-Control Auxiliary Branch Distillation, which streamlines multi-condition CFG selection while circumventing high computational overhead, and Resolution Progressive Sampling, a training-free acceleration strategy that staggers resolution scaling to reduce high latency due to high resolution. These innovations collectively achieve a 2.62x speedup with minimal quality degradation. Evaluated on the nuScenes dataset, DiVE achieves SOTA performance in multi-view video generation, yielding photorealistic outputs with exceptional temporal and cross-view coherence.