L4GM: Large 4D Gaussian Reconstruction Model
作者: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
分类: cs.CV, cs.LG
发布日期: 2024-06-14
备注: Project page: https://research.nvidia.com/labs/toronto-ai/l4gm
💡 一句话要点
L4GM:首个大型4D高斯重建模型,从单视角视频生成动画物体。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 4D重建 高斯溅射 动画生成 单视角视频 时间自注意力
📋 核心要点
- 现有方法难以从单视角视频快速生成高质量的动画3D模型,尤其是在泛化到真实场景时。
- L4GM利用预训练的3D高斯模型LGM,并引入时间自注意力和插值上采样,实现快速且高质量的动画重建。
- 实验表明,L4GM在合成数据上训练后,能够很好地泛化到真实世界的视频,生成高质量的动画3D资产。
📝 摘要(中文)
本文提出了L4GM,首个4D大型重建模型,能够从单视角视频输入生成动画物体,且仅需一次前向传播,耗时仅一秒。成功的关键在于一个新颖的多视角视频数据集,该数据集包含来自Objaverse的精选渲染动画物体。该数据集描绘了4.4万个不同的物体,具有11万个动画,在48个视点中渲染,产生了1200万个视频,总计3亿帧。为了可扩展性,L4GM保持简单,并直接构建在LGM(一个预训练的3D大型重建模型,可以从多视角图像输入输出3D高斯椭球)之上。L4GM从低fps采样的视频帧中输出每帧的3D高斯溅射表示,然后将该表示上采样到更高的fps以实现时间平滑性。我们在基础LGM中添加了时间自注意力层,以帮助其学习跨时间的一致性,并利用每个时间步的多视角渲染损失来训练模型。通过训练一个插值模型来生成中间3D高斯表示,从而将表示上采样到更高的帧率。我们展示了仅在合成数据上训练的L4GM可以很好地泛化到真实视频,从而生成高质量的动画3D资产。
🔬 方法详解
问题定义:论文旨在解决从单视角视频中快速、高质量地重建动画3D模型的问题。现有方法通常计算量大,难以实时生成,并且在真实场景中的泛化能力有限。
核心思路:论文的核心思路是利用预训练的3D高斯模型LGM作为基础,通过引入时间信息和插值上采样,实现从低帧率视频到高帧率动画3D模型的重建。这种方法利用了预训练模型的先验知识,减少了训练所需的计算资源,并提高了重建质量。
技术框架:L4GM的整体框架包括以下几个主要阶段:1) 从输入视频中采样低帧率的视频帧;2) 使用LGM生成每帧的3D高斯溅射表示;3) 使用时间自注意力层学习跨时间的一致性;4) 使用插值模型将表示上采样到更高的帧率;5) 使用多视角渲染损失训练整个模型。
关键创新:L4GM的关键创新在于:1) 提出了一个端到端的4D高斯重建模型,可以直接从单视角视频生成动画3D模型;2) 引入了时间自注意力机制,增强了模型对时间一致性的建模能力;3) 使用插值模型进行帧率上采样,提高了动画的流畅度。与现有方法相比,L4GM在速度和质量上都取得了显著的提升。
关键设计:L4GM的关键设计包括:1) 时间自注意力层的具体结构和参数设置,用于学习视频帧之间的时间依赖关系;2) 插值模型的网络结构和损失函数,用于生成中间帧的高斯表示;3) 多视角渲染损失的具体形式和权重,用于优化重建的几何和外观质量;4) 数据集的构建方式,包括动画物体的选择、视点的设置和渲染参数的调整。
🖼️ 关键图片
📊 实验亮点
L4GM在合成数据集上训练后,能够很好地泛化到真实世界的视频,生成高质量的动画3D资产。虽然论文中没有给出具体的量化指标,但定性结果表明,L4GM在重建质量和时间一致性方面都优于现有方法。该模型仅需一次前向传播,耗时仅一秒,实现了快速的动画3D模型重建。
🎯 应用场景
L4GM具有广泛的应用前景,包括:游戏开发(快速生成游戏中的动画角色和物体)、电影制作(创建高质量的3D动画特效)、虚拟现实/增强现实(提供沉浸式的3D体验)、以及机器人技术(为机器人提供环境感知和交互能力)。该研究有望降低3D动画制作的门槛,并促进相关领域的发展。
📄 摘要(原文)
We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.