DriveCtrl: Conditioned Sim-to-Real Driving Video Generation

📄 arXiv: 2605.15116v1 📥 PDF

作者: Haonan Zhao, Yiting Wang, Jingkun Chen, Valentina Donzella, Thomas Bashford-Rogers, Kurt Debattista

分类: cs.CV

发布日期: 2026-05-14


💡 一句话要点

DriveCtrl:提出深度条件控制的Sim-to-Real驾驶视频生成框架,提升真实感和下游任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Sim-to-Real 视频生成 自动驾驶 深度条件控制 领域自适应

📋 核心要点

  1. 现有视频生成方法难以兼顾驾驶场景的结构、动态、时序一致性和真实感,导致标注信息失效,限制了仿真数据在自动驾驶中的应用。
  2. DriveCtrl通过深度条件控制和结构感知适配器,在预训练视频模型基础上,实现了对仿真驾驶视频到真实风格视频的转换,并保留了原始场景的结构和运动模式。
  3. 实验表明,DriveCtrl在视频真实感、时间质量和下游感知任务性能上均优于现有方法,有效缩小了仿真和真实数据之间的差距。

📝 摘要(中文)

大规模带标签的驾驶视频数据对于训练自动驾驶系统至关重要。虽然仿真提供了可扩展且完全标注的数据,但合成视频和真实驾驶视频之间的领域差距严重限制了其在下游部署中的效用。现有的视频生成方法不适用于此任务,因为它们无法同时保持场景结构、对象动态、时间一致性和视觉真实感,而这些对于保持生成数据的标注有效性至关重要。本文提出了DriveCtrl,一个深度条件控制的sim-to-real视频生成框架,用于逼真的驾驶视频合成。DriveCtrl建立在预训练的视频基础模型之上,引入了一个结构感知适配器,该适配器支持深度引导的生成,同时保留源仿真的场景布局和运动模式,从而生成与原始模拟序列对齐的时间一致的驾驶视频。我们进一步引入了一个可扩展的数据生成管道,将模拟器视频转换为与目标真实世界数据集的视觉风格相匹配的逼真驾驶视频。该管道支持三种条件信号:结构深度、参考数据集风格和文本提示,同时保留帧级标注以用于下游感知任务。为了更好地评估此任务,我们提出了一种驾驶领域特定的知识驱动的评估指标,称为驾驶视频真实感评分(DVRS),用于评估生成视频的真实感。实验表明,DriveCtrl在真实感、时间质量和感知任务性能方面始终优于基础模型和竞争对手,从而大大缩小了驾驶视频生成的sim-to-real差距。

🔬 方法详解

问题定义:论文旨在解决仿真驾驶视频与真实驾驶视频之间存在的显著领域差距问题。现有视频生成方法无法同时保证生成视频的场景结构、物体运动、时间一致性和视觉真实感,导致生成的视频无法有效应用于自动驾驶感知模型的训练,因为其标注信息与真实场景不匹配。

核心思路:论文的核心思路是利用深度信息作为结构引导,结合预训练的视频基础模型,通过结构感知适配器将仿真视频转换为具有真实风格的视频,同时保持原始场景的结构和运动模式。这种方法旨在缩小仿真和真实数据之间的领域差距,提高生成视频的可用性。

技术框架:DriveCtrl框架主要包含以下几个模块:1) 预训练的视频基础模型:作为生成视频的基础。2) 结构感知适配器:利用深度信息引导视频生成,保持场景结构。3) 数据生成管道:将仿真视频转换为真实风格的视频,支持深度、风格和文本提示等条件信号。4) 驾驶视频真实感评分(DVRS):用于评估生成视频的真实感。整体流程是从仿真视频输入,经过数据生成管道和结构感知适配器,生成具有真实风格和保持原始结构的视频。

关键创新:论文的关键创新在于提出了结构感知适配器,该适配器能够利用深度信息作为结构引导,在视频生成过程中保持场景的结构和运动模式。此外,论文还提出了驾驶视频真实感评分(DVRS)这一新的评估指标,更准确地评估生成驾驶视频的真实感。

关键设计:结构感知适配器的具体实现细节未知,但可以推测其可能采用某种注意力机制或卷积神经网络结构,将深度信息融入到视频生成过程中。数据生成管道的具体实现细节也未知,但可以推测其可能采用风格迁移或图像翻译等技术,将仿真视频转换为真实风格的视频。损失函数的设计可能包括对抗损失、内容损失和风格损失等,以保证生成视频的真实感和结构一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DriveCtrl在视频真实感、时间质量和感知任务性能方面均优于现有方法。具体性能数据未知,但摘要强调DriveCtrl能够显著缩小sim-to-real差距,表明其在生成逼真驾驶视频方面具有显著优势。提出的DVRS指标也为评估驾驶视频生成质量提供了一种新的方法。

🎯 应用场景

DriveCtrl可应用于自动驾驶系统的训练数据生成,通过生成大量逼真的、带有精确标注的驾驶视频,降低对真实世界数据的依赖,加速自动驾驶算法的开发和验证。此外,该技术还可用于游戏开发、虚拟现实等领域,生成高质量的驾驶场景视频。

📄 摘要(原文)

Large-scale labelled driving video data is essential for training autonomous driving systems. Although simulation offers scalable and fully annotated data, the domain gap between synthetic and real-world driving videos significantly limits its utility for downstream deployment. Existing video generation methods are not well-suited for this task, as they fail to simultaneously preserve scene structure, object dynamics, temporal consistency, and visual realism, all of which are critical for maintaining annotation validity in generated data. In this paper, we present DriveCtrl, a depth-conditioned controllable sim-to-real video generation framework for realistic driving video synthesis. Built upon a pretrained video foundation model, DriveCtrl introduces a structure-aware adapter that enables depth-guided generation while preserving the scene layout and motion patterns of the source simulation, producing temporally coherent driving videos that remain aligned with the original simulated sequences. We further introduce a scalable data generation pipeline that transforms simulator videos into realistic driving footage matching the visual style of a target real-world dataset. The pipeline supports three conditioning signals: structural depth, reference-dataset style, and text prompts, while preserving frame-level annotations for downstream perception tasks. To better assess this task, we propose a driving-domain-specific knowledge-informed evaluation metric called Driving Video Realism Score (DVRS) that assesses the realism of generated videos. Experiments demonstrate that DriveCtrl consistently outperforms the base model and competing alternatives in realism, temporal quality, and perception task performance, substantially narrowing the sim-to-real gap for driving video generation.