L4GM: Large 4D Gaussian Reconstruction Model

作者: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

分类: cs.CV, cs.LG

发布日期: 2024-06-14

备注: Project page: https://research.nvidia.com/labs/toronto-ai/l4gm

💡 一句话要点

L4GM：首个大型4D高斯重建模型，从单视角视频生成动画物体。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 4D重建 高斯溅射 动画生成 单视角视频 时间自注意力

📋 核心要点

现有方法难以从单视角视频快速生成高质量的动画3D模型，尤其是在泛化到真实场景时。
L4GM利用预训练的3D高斯模型LGM，并引入时间自注意力和插值上采样，实现快速且高质量的动画重建。
实验表明，L4GM在合成数据上训练后，能够很好地泛化到真实世界的视频，生成高质量的动画3D资产。

📝 摘要（中文）

本文提出了L4GM，首个4D大型重建模型，能够从单视角视频输入生成动画物体，且仅需一次前向传播，耗时仅一秒。成功的关键在于一个新颖的多视角视频数据集，该数据集包含来自Objaverse的精选渲染动画物体。该数据集描绘了4.4万个不同的物体，具有11万个动画，在48个视点中渲染，产生了1200万个视频，总计3亿帧。为了可扩展性，L4GM保持简单，并直接构建在LGM（一个预训练的3D大型重建模型，可以从多视角图像输入输出3D高斯椭球）之上。L4GM从低fps采样的视频帧中输出每帧的3D高斯溅射表示，然后将该表示上采样到更高的fps以实现时间平滑性。我们在基础LGM中添加了时间自注意力层，以帮助其学习跨时间的一致性，并利用每个时间步的多视角渲染损失来训练模型。通过训练一个插值模型来生成中间3D高斯表示，从而将表示上采样到更高的帧率。我们展示了仅在合成数据上训练的L4GM可以很好地泛化到真实视频，从而生成高质量的动画3D资产。

🔬 方法详解

问题定义：论文旨在解决从单视角视频中快速、高质量地重建动画3D模型的问题。现有方法通常计算量大，难以实时生成，并且在真实场景中的泛化能力有限。

核心思路：论文的核心思路是利用预训练的3D高斯模型LGM作为基础，通过引入时间信息和插值上采样，实现从低帧率视频到高帧率动画3D模型的重建。这种方法利用了预训练模型的先验知识，减少了训练所需的计算资源，并提高了重建质量。

技术框架：L4GM的整体框架包括以下几个主要阶段：1) 从输入视频中采样低帧率的视频帧；2) 使用LGM生成每帧的3D高斯溅射表示；3) 使用时间自注意力层学习跨时间的一致性；4) 使用插值模型将表示上采样到更高的帧率；5) 使用多视角渲染损失训练整个模型。

关键创新：L4GM的关键创新在于：1) 提出了一个端到端的4D高斯重建模型，可以直接从单视角视频生成动画3D模型；2) 引入了时间自注意力机制，增强了模型对时间一致性的建模能力；3) 使用插值模型进行帧率上采样，提高了动画的流畅度。与现有方法相比，L4GM在速度和质量上都取得了显著的提升。

关键设计：L4GM的关键设计包括：1) 时间自注意力层的具体结构和参数设置，用于学习视频帧之间的时间依赖关系；2) 插值模型的网络结构和损失函数，用于生成中间帧的高斯表示；3) 多视角渲染损失的具体形式和权重，用于优化重建的几何和外观质量；4) 数据集的构建方式，包括动画物体的选择、视点的设置和渲染参数的调整。

🖼️ 关键图片

📊 实验亮点

L4GM在合成数据集上训练后，能够很好地泛化到真实世界的视频，生成高质量的动画3D资产。虽然论文中没有给出具体的量化指标，但定性结果表明，L4GM在重建质量和时间一致性方面都优于现有方法。该模型仅需一次前向传播，耗时仅一秒，实现了快速的动画3D模型重建。

🎯 应用场景

L4GM具有广泛的应用前景，包括：游戏开发（快速生成游戏中的动画角色和物体）、电影制作（创建高质量的3D动画特效）、虚拟现实/增强现实（提供沉浸式的3D体验）、以及机器人技术（为机器人提供环境感知和交互能力）。该研究有望降低3D动画制作的门槛，并促进相关领域的发展。

📄 摘要（原文）

We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.

L4GM: Large 4D Gaussian Reconstruction Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理