Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
作者: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
分类: cs.CV, cs.GR
发布日期: 2025-09-23
备注: Project Page: https://research.nvidia.com/labs/toronto-ai/lyra/
💡 一句话要点
Lyra:通过视频扩散模型自蒸馏实现生成式3D场景重建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景重建 视频扩散模型 自蒸馏 3D高斯溅射 生成模型 单目视觉 动态场景生成
📋 核心要点
- 现有基于学习的3D重建方法依赖于真实世界的多视角数据,而这些数据并非总是容易获得,限制了其应用。
- Lyra通过自蒸馏框架,将视频扩散模型中的3D知识提炼到3DGS表示中,从而摆脱了对多视角训练数据的依赖。
- 实验结果表明,Lyra在静态和动态3D场景生成任务上均取得了领先的性能,验证了其有效性。
📝 摘要(中文)
本文提出了一种自蒸馏框架Lyra,旨在将视频扩散模型中蕴含的隐式3D知识提炼成显式的3D高斯溅射(3DGS)表示,从而无需多视角训练数据。该方法使用3DGS解码器增强了典型的RGB解码器,并使用RGB解码器的输出对其进行监督。通过这种方式,3DGS解码器可以完全使用视频扩散模型生成的合成数据进行训练。在推理时,该模型可以从文本提示或单个图像合成3D场景,以进行实时渲染。该框架进一步扩展到从单目输入视频生成动态3D场景。实验结果表明,该框架在静态和动态3D场景生成方面均实现了最先进的性能。
🔬 方法详解
问题定义:现有的3D场景重建方法通常依赖于多视角图像或视频数据,这限制了它们在数据难以获取或成本高昂的场景中的应用。此外,如何有效地利用预训练的2D视频扩散模型中蕴含的3D先验知识也是一个挑战。
核心思路:Lyra的核心思路是通过自蒸馏的方式,将2D视频扩散模型中学习到的隐式3D知识迁移到显式的3D高斯溅射(3DGS)表示中。这样,就可以利用2D扩散模型强大的生成能力,生成用于训练3DGS模型的合成数据,从而避免对真实世界多视角数据的依赖。
技术框架:Lyra框架包含一个预训练的视频扩散模型和一个3DGS解码器。首先,使用视频扩散模型生成RGB图像。然后,使用3DGS解码器将这些图像重建为3D场景。3DGS解码器的训练过程通过RGB解码器的输出进行监督,形成自蒸馏的训练方式。在推理阶段,Lyra可以从文本提示或单张图像生成3D场景,并支持实时渲染。对于动态场景,则可以从单目视频输入生成动态3D场景。
关键创新:Lyra的关键创新在于利用自蒸馏框架,将2D视频扩散模型的知识迁移到3D表示中,从而实现了仅使用合成数据训练3D场景重建模型。这种方法摆脱了对真实世界多视角数据的依赖,降低了数据获取的成本。此外,将3DGS作为显式表示,实现了高效的实时渲染。
关键设计:Lyra的关键设计包括:1) 使用预训练的视频扩散模型作为知识来源;2) 使用3DGS作为显式的3D场景表示,以便于实时渲染;3) 使用RGB解码器的输出作为3DGS解码器的监督信号,形成自蒸馏的训练方式;4) 针对动态场景,设计了相应的训练策略,以保证生成动态3D场景的质量。具体的损失函数包括RGB重建损失和正则化损失,用于约束3DGS的形状和外观。
🖼️ 关键图片
📊 实验亮点
Lyra在静态和动态3D场景生成任务上均取得了最先进的性能。与现有方法相比,Lyra无需多视角训练数据,仅使用视频扩散模型生成的合成数据即可训练。实验结果表明,Lyra生成的3D场景在视觉质量和几何精度上均优于现有方法,并且支持实时渲染。具体的性能提升数据未知。
🎯 应用场景
Lyra具有广泛的应用前景,包括游戏开发、机器人导航、自动驾驶、工业AI等领域。它可以用于生成虚拟环境,为游戏提供丰富的场景资源;可以为机器人和自动驾驶系统提供训练数据和仿真环境;还可以用于工业AI中的虚拟装配和虚拟维护等任务。Lyra的出现降低了3D场景重建的成本,加速了相关领域的发展。
📄 摘要(原文)
The ability to generate virtual environments is crucial for applications ranging from gaming to physical AI domains such as robotics, autonomous driving, and industrial AI. Current learning-based 3D reconstruction methods rely on the availability of captured real-world multi-view data, which is not always readily available. Recent advancements in video diffusion models have shown remarkable imagination capabilities, yet their 2D nature limits the applications to simulation where a robot needs to navigate and interact with the environment. In this paper, we propose a self-distillation framework that aims to distill the implicit 3D knowledge in the video diffusion models into an explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for multi-view training data. Specifically, we augment the typical RGB decoder with a 3DGS decoder, which is supervised by the output of the RGB decoder. In this approach, the 3DGS decoder can be purely trained with synthetic data generated by video diffusion models. At inference time, our model can synthesize 3D scenes from either a text prompt or a single image for real-time rendering. Our framework further extends to dynamic 3D scene generation from a monocular input video. Experimental results show that our framework achieves state-of-the-art performance in static and dynamic 3D scene generation.