GenFusion: Closing the Loop between Reconstruction and Generation via Videos
作者: Sibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger, Anpei Chen
分类: cs.CV, cs.AI
发布日期: 2025-03-27 (更新: 2025-03-29)
备注: CVPR 2025, project page: https://genfusion.sibowu.com
💡 一句话要点
GenFusion:通过视频闭环重建与生成,弥合3D重建与生成之间的差距
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 3D生成 视频扩散模型 Novel View Synthesis 循环融合 稀疏视图 RGB-D渲染
📋 核心要点
- 现有3D重建需要密集视图,而3D生成依赖稀疏视图,两者条件差异大,限制了应用。
- 提出重建驱动的视频扩散模型,以带伪影的RGB-D渲染为条件生成视频帧,弥合差距。
- 循环融合流程迭代添加生成模型的恢复帧到训练集,解决视点饱和问题,提升性能。
📝 摘要(中文)
近年来,3D重建和生成在 novel view synthesis 任务上表现出令人印象深刻的结果,实现了高保真度和高效率。然而,这两个领域之间存在显著的条件差异,例如,可扩展的3D场景重建通常需要密集捕获的视图,而3D生成通常依赖于单个或没有输入视图,这极大地限制了它们的应用。我们发现这种现象的根源在于3D约束和生成先验之间的不一致。为了解决这个问题,我们提出了一种重建驱动的视频扩散模型,该模型学习以容易产生伪影的RGB-D渲染为条件来生成视频帧。此外,我们提出了一种循环融合流程,该流程迭代地将来自生成模型的恢复帧添加到训练集中,从而实现渐进式扩展,并解决先前重建和生成流程中出现的视点饱和限制。我们的评估,包括来自稀疏视图和masked input的视图合成,验证了我们方法的有效性。
🔬 方法详解
问题定义:现有的3D重建方法通常需要密集的视图输入才能获得高质量的重建结果,而3D生成方法则通常只需要单个或少量视图,甚至不需要任何输入。这种输入条件上的巨大差异导致了3D重建和3D生成之间存在着明显的鸿沟,限制了它们在实际应用中的结合和相互促进。现有的方法难以在稀疏视图条件下实现高质量的3D重建和生成。
核心思路:论文的核心思路是通过一个重建驱动的视频扩散模型来弥合3D重建和3D生成之间的差距。该模型以带有伪影的RGB-D渲染作为条件,学习生成高质量的视频帧。通过这种方式,模型能够学习到从低质量重建结果到高质量图像的映射关系,从而在稀疏视图条件下也能生成逼真的图像。
技术框架:GenFusion包含两个主要模块:重建驱动的视频扩散模型和循环融合流程。首先,利用现有的3D重建方法从输入视图中重建出带有伪影的RGB-D表示。然后,将该RGB-D表示作为条件输入到视频扩散模型中,生成高质量的视频帧。循环融合流程则将生成的视频帧反向添加到训练集中,以迭代地改进重建和生成模型的性能。该流程通过不断地扩充训练数据,解决视点饱和问题。
关键创新:GenFusion的关键创新在于提出了重建驱动的视频扩散模型和循环融合流程。重建驱动的视频扩散模型能够学习到从低质量重建结果到高质量图像的映射关系,从而在稀疏视图条件下也能生成逼真的图像。循环融合流程则通过迭代地扩充训练数据,解决了视点饱和问题,进一步提升了重建和生成模型的性能。这种循环反馈机制是现有方法所不具备的。
关键设计:视频扩散模型采用标准的扩散模型架构,并以RGB-D渲染作为条件输入。循环融合流程的关键在于如何选择添加到训练集中的帧。论文采用了一种基于图像质量的筛选策略,选择质量较高的生成帧添加到训练集中。损失函数包括重建损失和对抗损失,以保证生成图像的质量和逼真度。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
GenFusion在稀疏视图和masked input条件下的 novel view synthesis 任务上取得了显著的性能提升。实验结果表明,GenFusion能够生成比现有方法更逼真、更清晰的图像,有效地解决了视点饱和问题。具体的性能数据和对比基线未知。
🎯 应用场景
GenFusion在 novel view synthesis、3D内容创作、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于从少量图像或视频中生成逼真的3D场景,从而降低3D内容创作的成本和难度。此外,GenFusion还可以用于改进虚拟现实和增强现实应用的沉浸感和真实感。
📄 摘要(原文)
Recently, 3D reconstruction and generation have demonstrated impressive novel view synthesis results, achieving high fidelity and efficiency. However, a notable conditioning gap can be observed between these two fields, e.g., scalable 3D scene reconstruction often requires densely captured views, whereas 3D generation typically relies on a single or no input view, which significantly limits their applications. We found that the source of this phenomenon lies in the misalignment between 3D constraints and generative priors. To address this problem, we propose a reconstruction-driven video diffusion model that learns to condition video frames on artifact-prone RGB-D renderings. Moreover, we propose a cyclical fusion pipeline that iteratively adds restoration frames from the generative model to the training set, enabling progressive expansion and addressing the viewpoint saturation limitations seen in previous reconstruction and generation pipelines. Our evaluation, including view synthesis from sparse view and masked input, validates the effectiveness of our approach. More details at https://genfusion.sibowu.com.