DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance
作者: Zhao Yang, Zezhong Qian, Xiaofan Li, Weixiang Xu, Gongpeng Zhao, Ruohong Yu, Lingsi Zhu, Longjun Liu
分类: cs.CV
发布日期: 2025-03-05
🔗 代码/项目: GITHUB
💡 一句话要点
DualDiff:基于奖励引导的双分支扩散模型,用于高保真驾驶场景视频生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 驾驶场景生成 扩散模型 条件生成 多模态融合 Occupancy Ray-shape Sampling
📋 核心要点
- 现有驾驶场景重建方法难以充分利用场景信息,无法有效整合多模态数据,导致生成质量受限。
- DualDiff通过引入Occupancy Ray-shape Sampling、前景感知掩码和语义融合注意力机制,提升场景理解和生成控制。
- 实验表明,DualDiff在NuScenes等数据集上显著提升了生成质量,并在BEV分割和3D目标检测等下游任务中表现出色。
📝 摘要(中文)
本文提出DualDiff,一种双分支条件扩散模型,旨在提升多视角和视频序列中驾驶场景的生成质量。该模型利用Occupancy Ray-shape Sampling (ORS)作为条件输入,提供丰富的场景语义和3D空间几何信息,从而精确控制前景和背景元素的生成。为了改善精细前景对象(特别是复杂和远距离对象)的合成,提出了前景感知掩码(FGM)去噪损失函数。此外,开发了语义融合注意力(SFA)机制,以动态地优先考虑相关信息并抑制噪声,从而实现更有效的多模态融合。最后,为了确保高质量的图像到视频生成,引入了奖励引导扩散(RGD)框架,该框架保持生成视频中的全局一致性和语义连贯性。大量实验表明,DualDiff在多个数据集上实现了最先进的(SOTA)性能。在NuScenes数据集上,DualDiff相比最佳基线降低了4.09%的FID分数。在下游任务中,例如BEV分割,我们的方法将车辆mIoU提高了4.50%,道路mIoU提高了1.70%,而在BEV 3D目标检测中,前景mAP提高了1.46%。
🔬 方法详解
问题定义:现有驾驶场景重建方法主要依赖3D bounding boxes和BEV路面地图进行前景和背景控制,但这些方法无法捕捉驾驶场景的完整复杂性,并且不能充分整合多模态信息,导致生成图像的真实度和细节不足。尤其是在生成复杂和远距离的前景对象时,效果不佳。
核心思路:DualDiff的核心思路是利用双分支扩散模型,结合Occupancy Ray-shape Sampling (ORS)作为条件输入,提供更丰富的场景语义和3D空间几何信息,从而更精确地控制前景和背景元素的生成。通过引入Foreground-Aware Mask (FGM)去噪损失函数和Semantic Fusion Attention (SFA)机制,进一步提升前景对象的合成质量和多模态信息的融合效果。最后,利用Reward-Guided Diffusion (RGD)框架,保证生成视频的全局一致性和语义连贯性。
技术框架:DualDiff采用双分支扩散模型架构。一个分支负责处理背景信息,另一个分支负责处理前景信息。ORS作为条件输入被送入两个分支。FGM用于优化前景分支的训练。SFA用于融合来自不同模态的信息。RGD框架在扩散过程中引入奖励信号,以保持视频帧之间的一致性。整体流程包括:1) 使用ORS提取场景信息;2) 将ORS信息输入双分支扩散模型;3) 使用FGM优化前景生成;4) 使用SFA融合多模态信息;5) 使用RGD保证视频一致性。
关键创新:DualDiff的关键创新点在于:1) 引入了Occupancy Ray-shape Sampling (ORS)作为条件输入,相比于传统的3D bounding boxes和BEV路面地图,ORS能够提供更丰富的场景语义和3D空间几何信息;2) 提出了Foreground-Aware Mask (FGM)去噪损失函数,专门用于提升前景对象的合成质量;3) 开发了Semantic Fusion Attention (SFA)机制,能够动态地优先考虑相关信息并抑制噪声,从而实现更有效的多模态融合;4) 引入了Reward-Guided Diffusion (RGD)框架,保证生成视频的全局一致性和语义连贯性。
关键设计:ORS的具体实现方式未知,但推测是基于射线采样的占据栅格表示。FGM的设计是根据前景区域生成mask,并在计算loss时,增加前景区域的权重。SFA的具体实现方式未知,但推测是基于transformer的注意力机制,并引入了语义信息作为query、key和value。RGD的具体实现方式未知,但推测是使用预训练的奖励模型,对生成的视频帧进行评估,并根据奖励信号调整扩散过程。
🖼️ 关键图片
📊 实验亮点
DualDiff在NuScenes数据集上取得了显著的性能提升,FID分数相比最佳基线降低了4.09%。在下游任务中,车辆mIoU提高了4.50%,道路mIoU提高了1.70%,前景mAP提高了1.46%。这些结果表明,DualDiff能够生成更高质量、更真实的驾驶场景,并在下游任务中具有更好的泛化能力。
🎯 应用场景
DualDiff在自动驾驶、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于生成逼真的驾驶场景视频,用于自动驾驶算法的训练和验证。在虚拟现实和游戏开发中,可以用于快速生成高质量的场景内容,提升用户体验。此外,该技术还可以应用于城市规划、交通仿真等领域。
📄 摘要(原文)
Accurate and high-fidelity driving scene reconstruction demands the effective utilization of comprehensive scene information as conditional inputs. Existing methods predominantly rely on 3D bounding boxes and BEV road maps for foreground and background control, which fail to capture the full complexity of driving scenes and adequately integrate multimodal information. In this work, we present DualDiff, a dual-branch conditional diffusion model designed to enhance driving scene generation across multiple views and video sequences. Specifically, we introduce Occupancy Ray-shape Sampling (ORS) as a conditional input, offering rich foreground and background semantics alongside 3D spatial geometry to precisely control the generation of both elements. To improve the synthesis of fine-grained foreground objects, particularly complex and distant ones, we propose a Foreground-Aware Mask (FGM) denoising loss function. Additionally, we develop the Semantic Fusion Attention (SFA) mechanism to dynamically prioritize relevant information and suppress noise, enabling more effective multimodal fusion. Finally, to ensure high-quality image-to-video generation, we introduce the Reward-Guided Diffusion (RGD) framework, which maintains global consistency and semantic coherence in generated videos. Extensive experiments demonstrate that DualDiff achieves state-of-the-art (SOTA) performance across multiple datasets. On the NuScenes dataset, DualDiff reduces the FID score by 4.09% compared to the best baseline. In downstream tasks, such as BEV segmentation, our method improves vehicle mIoU by 4.50% and road mIoU by 1.70%, while in BEV 3D object detection, the foreground mAP increases by 1.46%. Code will be made available at https://github.com/yangzhaojason/DualDiff.