LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors
作者: Yabo Chen, Chen Yang, Jiemin Fang, Xiaopeng Zhang, Lingxi Xie, Wei Shen, Wenrui Dai, Hongkai Xiong, Qi Tian
分类: cs.CV, cs.GR
发布日期: 2024-12-12
备注: Project page: https://liftimage3d.github.io/
💡 一句话要点
LiftImage3D:利用视频生成先验将单张图像提升为3D高斯模型,解决单图3D重建难题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单图3D重建 视频扩散模型 3D高斯溅射 神经匹配 相机姿态估计
📋 核心要点
- 单图3D重建面临几何歧义和视角信息不足的挑战,现有方法难以有效利用视频扩散模型中的3D先验。
- LiftImage3D通过铰接轨迹生成可控小运动视频帧,利用神经匹配校准相机姿态,并采用失真感知的3D高斯表示。
- 实验表明,LiftImage3D在多个数据集上取得了SOTA性能,并能泛化到各种真实场景,包括卡通和复杂环境。
📝 摘要(中文)
单图3D重建由于固有的几何歧义和有限的视角信息,仍然是计算机视觉领域的一个根本性挑战。最近,潜在视频扩散模型(LVDMs)在大规模视频数据中学习到的3D先验展现出潜力。然而,有效利用这些先验面临三个关键挑战:(1)大相机运动下的质量下降,(2)难以实现精确的相机控制,以及(3)扩散过程固有的几何失真,会破坏3D一致性。我们通过提出LiftImage3D框架来解决这些挑战,该框架有效地释放LVDMs的生成先验,同时确保3D一致性。具体来说,我们设计了一种铰接轨迹策略来生成视频帧,该策略将具有大相机运动的视频序列分解为具有可控小运动的序列。然后,我们使用鲁棒的神经匹配模型(即MASt3R)来校准生成帧的相机姿态,并生成相应的点云。最后,我们提出了一种失真感知的3D高斯溅射表示,它可以学习帧之间的独立失真,并输出未失真的规范高斯模型。大量的实验表明,LiftImage3D在两个具有挑战性的数据集(即LLFF、DL3DV和Tanks and Temples)上实现了最先进的性能,并且可以很好地推广到各种各样的真实图像,从卡通插图到复杂的真实场景。
🔬 方法详解
问题定义:单张图像的3D重建是一个长期存在的难题,其主要痛点在于缺乏足够的几何信息和视角变化。虽然潜在视频扩散模型(LVDMs)蕴含丰富的3D先验知识,但直接应用时会受到大相机运动导致的质量下降、相机控制不精确以及扩散过程引入的几何失真等问题的困扰。
核心思路:LiftImage3D的核心思路是巧妙地利用LVDMs的生成能力,同时克服其固有的缺陷,从而实现高质量的单图3D重建。通过将复杂的相机运动分解为一系列可控的小运动,并结合鲁棒的相机姿态估计和失真校正,确保重建结果的3D一致性和几何准确性。
技术框架:LiftImage3D框架主要包含三个阶段:1) 铰接轨迹视频生成:设计一种铰接轨迹策略,将大相机运动分解为一系列可控的小运动,生成多帧视频。2) 相机姿态校准:使用神经匹配模型(MASt3R)对生成的视频帧进行相机姿态估计和校准,生成点云。3) 失真感知3D高斯溅射:提出一种失真感知的3D高斯溅射表示,学习帧间的独立失真,并输出未失真的规范高斯模型。
关键创新:LiftImage3D的关键创新在于:1) 铰接轨迹视频生成策略,有效控制了相机运动,避免了LVDMs在大运动下的质量下降问题。2) 失真感知的3D高斯溅射表示,能够学习和校正扩散过程引入的几何失真,保证了重建结果的3D一致性。
关键设计:铰接轨迹策略的具体实现方式(例如,运动轨迹的参数化、运动速度的控制等),MASt3R模型的选择和训练细节,以及失真感知3D高斯溅射表示中失真模型的具体形式和损失函数的设计,都是影响最终重建效果的关键因素。此外,如何平衡LVDMs的生成能力和3D一致性约束,也是一个重要的设计考量。
🖼️ 关键图片
📊 实验亮点
LiftImage3D在LLFF、DL3DV和Tanks and Temples等数据集上取得了state-of-the-art的性能。实验结果表明,该方法不仅能够处理真实世界的复杂场景,还能很好地泛化到卡通插图等不同类型的图像。与现有方法相比,LiftImage3D在3D重建的质量、一致性和泛化能力方面均有显著提升。
🎯 应用场景
LiftImage3D在游戏开发、虚拟现实、增强现实、机器人导航、三维地图重建等领域具有广泛的应用前景。它可以从单张图像快速生成高质量的3D模型,降低了3D内容创作的门槛,并为各种需要3D场景理解和交互的应用提供了强大的技术支持。未来,该技术有望进一步推动3D视觉和人工智能的发展。
📄 摘要(原文)
Single-image 3D reconstruction remains a fundamental challenge in computer vision due to inherent geometric ambiguities and limited viewpoint information. Recent advances in Latent Video Diffusion Models (LVDMs) offer promising 3D priors learned from large-scale video data. However, leveraging these priors effectively faces three key challenges: (1) degradation in quality across large camera motions, (2) difficulties in achieving precise camera control, and (3) geometric distortions inherent to the diffusion process that damage 3D consistency. We address these challenges by proposing LiftImage3D, a framework that effectively releases LVDMs' generative priors while ensuring 3D consistency. Specifically, we design an articulated trajectory strategy to generate video frames, which decomposes video sequences with large camera motions into ones with controllable small motions. Then we use robust neural matching models, i.e. MASt3R, to calibrate the camera poses of generated frames and produce corresponding point clouds. Finally, we propose a distortion-aware 3D Gaussian splatting representation, which can learn independent distortions between frames and output undistorted canonical Gaussians. Extensive experiments demonstrate that LiftImage3D achieves state-of-the-art performance on two challenging datasets, i.e. LLFF, DL3DV, and Tanks and Temples, and generalizes well to diverse in-the-wild images, from cartoon illustrations to complex real-world scenes.