VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
作者: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
分类: cs.CV, cs.AI
发布日期: 2025-03-20
备注: Project page: https://gohyojun15.github.io/VideoRFSplat/
💡 一句话要点
VideoRFSplat:利用视频生成模型直接生成具有灵活姿态和多视角联合建模的场景级文本到3D高斯溅射
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 文本到3D生成 高斯溅射 视频生成模型 多视角建模 相机姿态估计
📋 核心要点
- 现有文本到3D方法在扩展2D生成模型以联合建模相机姿态和多视角图像时,存在模态差距导致的不稳定性问题。
- VideoRFSplat提出双流架构和异步采样策略,分别生成多视角图像和相机姿态,减少模态间干扰,提升跨模态一致性。
- 实验表明,VideoRFSplat在多个数据集上优于现有文本到3D直接生成方法,无需依赖事后细化即可获得更好效果。
📝 摘要(中文)
本文提出VideoRFSplat,一种直接的文本到3D模型,它利用视频生成模型为无界真实世界场景生成逼真的3D高斯溅射(3DGS)。为了生成多样化的相机姿态和无界真实世界场景的空间范围,同时确保对任意文本提示的泛化,先前的方法微调2D生成模型以联合建模相机姿态和多视角图像。然而,由于模态差距,这些方法在将2D生成模型扩展到联合建模时会遇到不稳定性,这需要额外的模型来稳定训练和推理。在这项工作中,我们提出了一种架构和一种采样策略,用于在微调视频生成模型时联合建模多视角图像和相机姿态。我们的核心思想是一种双流架构,它通过通信块将一个专用的姿态生成模型附加到一个预训练的视频生成模型旁边,通过单独的流生成多视角图像和相机姿态。这种设计减少了姿态和图像模态之间的干扰。此外,我们提出了一种异步采样策略,该策略以比多视角图像更快的速度去噪相机姿态,从而允许快速去噪的姿态来调节多视角生成,减少相互歧义并增强跨模态一致性。VideoRFSplat在多个大规模真实世界数据集(RealEstate10K、MVImgNet、DL3DV-10K、ACID)上进行训练,优于现有的文本到3D直接生成方法,这些方法严重依赖于通过分数蒸馏采样的事后细化,无需此类细化即可获得卓越的结果。
🔬 方法详解
问题定义:现有文本到3D方法,特别是那些依赖于微调2D生成模型来联合建模相机姿态和多视角图像的方法,在处理无界真实世界场景时面临挑战。由于2D图像和相机姿态之间存在模态差距,直接扩展2D模型会导致训练不稳定,需要额外的模型或后处理步骤(如分数蒸馏采样)来稳定训练和生成高质量的3D表示。
核心思路:VideoRFSplat的核心思路是通过解耦姿态生成和图像生成,减少模态之间的干扰。它采用双流架构,分别处理姿态和图像,并引入异步采样策略,优先去噪姿态信息,从而引导图像生成。这种设计旨在提高跨模态一致性,并避免对后处理步骤的依赖。
技术框架:VideoRFSplat的整体架构包含两个主要流:一个预训练的视频生成模型和一个专用的姿态生成模型。这两个流通过通信块进行信息交互。异步采样策略用于控制两个流的去噪速度,确保姿态信息先于图像信息被充分利用。整个流程可以概括为:1) 输入文本提示;2) 姿态生成模型生成相机姿态;3) 视频生成模型基于文本提示和相机姿态生成多视角图像;4) 使用生成的图像和姿态训练3D高斯溅射模型。
关键创新:VideoRFSplat的关键创新在于其双流架构和异步采样策略。双流架构通过解耦姿态和图像生成,降低了模态间的干扰。异步采样策略则通过优先去噪姿态信息,提高了跨模态一致性。与现有方法相比,VideoRFSplat避免了对后处理步骤的依赖,实现了更直接、更稳定的文本到3D生成。
关键设计:VideoRFSplat的关键设计包括:1) 双流架构中通信块的具体实现方式,例如使用交叉注意力机制;2) 异步采样策略的实现细节,例如如何控制姿态和图像的去噪速度;3) 损失函数的设计,例如如何鼓励生成的图像与文本提示和相机姿态保持一致;4) 3D高斯溅射模型的训练方式,例如使用哪些正则化项来提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
VideoRFSplat在RealEstate10K、MVImgNet、DL3DV-10K和ACID等多个大规模真实世界数据集上进行了评估,实验结果表明,该方法优于现有的文本到3D直接生成方法。值得注意的是,VideoRFSplat无需依赖于分数蒸馏采样等后处理步骤,即可获得卓越的性能,这表明其具有更高的效率和稳定性。具体的性能数据(如FID、PSNR等)未知,但摘要强调了其优于现有方法的结论。
🎯 应用场景
VideoRFSplat具有广泛的应用前景,包括虚拟现实/增强现实内容生成、游戏开发、电影制作、以及机器人导航和场景理解等领域。该技术可以根据文本描述快速生成逼真的3D场景,极大地降低了3D内容创作的门槛,并为各种应用提供高质量的3D环境。
📄 摘要(原文)
We propose VideoRFSplat, a direct text-to-3D model leveraging a video generation model to generate realistic 3D Gaussian Splatting (3DGS) for unbounded real-world scenes. To generate diverse camera poses and unbounded spatial extent of real-world scenes, while ensuring generalization to arbitrary text prompts, previous methods fine-tune 2D generative models to jointly model camera poses and multi-view images. However, these methods suffer from instability when extending 2D generative models to joint modeling due to the modality gap, which necessitates additional models to stabilize training and inference. In this work, we propose an architecture and a sampling strategy to jointly model multi-view images and camera poses when fine-tuning a video generation model. Our core idea is a dual-stream architecture that attaches a dedicated pose generation model alongside a pre-trained video generation model via communication blocks, generating multi-view images and camera poses through separate streams. This design reduces interference between the pose and image modalities. Additionally, we propose an asynchronous sampling strategy that denoises camera poses faster than multi-view images, allowing rapidly denoised poses to condition multi-view generation, reducing mutual ambiguity and enhancing cross-modal consistency. Trained on multiple large-scale real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms existing text-to-3D direct generation methods that heavily depend on post-hoc refinement via score distillation sampling, achieving superior results without such refinement.