RelitLRM: Generative Relightable Radiance for Large Reconstruction Models

📄 arXiv: 2410.06231v2 📥 PDF

作者: Tianyuan Zhang, Zhengfei Kuang, Haian Jin, Zexiang Xu, Sai Bi, Hao Tan, He Zhang, Yiwei Hu, Milos Hasan, William T. Freeman, Kai Zhang, Fujun Luan

分类: cs.CV, cs.GR, cs.LG

发布日期: 2024-10-08 (更新: 2024-10-10)

备注: webpage: https://relit-lrm.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RelitLRM:用于大规模重建模型的可重新光照辐射场生成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光照重定向 逆渲染 高斯溅射 扩散模型 Transformer 三维重建 稀疏视角

📋 核心要点

  1. 现有逆渲染方法依赖密集图像,优化缓慢,易产生阴影烘焙等伪影,难以处理材质光照的模糊性。
  2. RelitLRM采用Transformer架构,结合几何重建器和基于扩散的可重光照外观生成器,实现几何与外观的有效分解。
  3. 实验表明,RelitLRM在稀疏视角下,能以更快的速度实现与密集视角优化方法相当的重光照效果。

📝 摘要(中文)

我们提出了RelitLRM,一个大型重建模型(LRM),用于从在未知静态光照下捕获的稀疏(4-8张)姿态图像中,生成高质量的高斯溅射表示,以实现3D物体在新光照条件下的渲染。与需要密集捕获和缓慢优化,并经常导致伪影(如不正确的亮点或阴影烘焙)的现有逆渲染方法不同,RelitLRM采用基于Transformer的前馈模型,该模型创新性地结合了几何重建器和基于扩散的可重新光照外观生成器。该模型在已知光照下物体的合成多视角渲染上进行端到端训练。这种架构设计能够有效地分解几何和外观,解决材质和光照之间的模糊性,并捕获重新光照外观中阴影和镜面反射的多模态分布。我们展示了我们的稀疏视角前馈RelitLRM提供了与最先进的基于密集视角优化的基线方法具有竞争力的重新光照结果,同时速度明显更快。

🔬 方法详解

问题定义:论文旨在解决从少量(4-8张)图像中重建3D物体,并实现真实感的光照重定向问题。现有方法通常需要大量的输入图像,并且优化过程耗时,容易产生不准确的阴影和高光,难以区分材质和光照的影响。

核心思路:论文的核心思路是将几何重建和外观生成解耦,利用Transformer架构学习几何信息,并使用基于扩散的模型生成可重光照的外观。通过在大量合成数据上进行端到端训练,模型能够学习到材质、光照和阴影之间的复杂关系,从而实现高质量的重光照效果。

技术框架:RelitLRM的整体架构包含两个主要模块:几何重建器和可重光照外观生成器。几何重建器负责从输入图像中估计3D几何形状,外观生成器则基于几何信息和输入图像生成可重光照的高斯溅射表示。整个模型采用Transformer架构,能够有效地处理多视角信息。

关键创新:该方法最重要的创新点在于将几何重建和外观生成解耦,并使用基于扩散的模型来生成可重光照的外观。这种方法能够有效地解决材质和光照之间的模糊性,并捕获阴影和镜面反射的多模态分布。此外,使用Transformer架构能够有效地处理稀疏视角信息。

关键设计:几何重建器可能采用类似Structure-from-Motion或SLAM的技术,输出点云或网格。外观生成器使用扩散模型,以几何信息和输入图像为条件,生成高斯溅射的颜色和不透明度。损失函数可能包括重建损失、光度一致性损失和对抗损失等,以保证重建的几何形状和外观的质量。具体的网络结构和参数设置在论文中应该有详细描述(未知)。

📊 实验亮点

RelitLRM在稀疏视角下实现了与最先进的基于密集视角优化的基线方法具有竞争力的重光照结果,同时速度明显更快。这意味着该方法能够在保证渲染质量的同时,显著降低计算成本,提高效率。具体的性能数据和对比基线需要在论文中查找(未知)。

🎯 应用场景

RelitLRM在游戏开发、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于快速创建具有真实感光照效果的3D模型,提高渲染效率,并为用户提供更逼真的交互体验。此外,该技术还可以应用于产品设计、文物数字化等领域。

📄 摘要(原文)

We propose RelitLRM, a Large Reconstruction Model (LRM) for generating high-quality Gaussian splatting representations of 3D objects under novel illuminations from sparse (4-8) posed images captured under unknown static lighting. Unlike prior inverse rendering methods requiring dense captures and slow optimization, often causing artifacts like incorrect highlights or shadow baking, RelitLRM adopts a feed-forward transformer-based model with a novel combination of a geometry reconstructor and a relightable appearance generator based on diffusion. The model is trained end-to-end on synthetic multi-view renderings of objects under varying known illuminations. This architecture design enables to effectively decompose geometry and appearance, resolve the ambiguity between material and lighting, and capture the multi-modal distribution of shadows and specularity in the relit appearance. We show our sparse-view feed-forward RelitLRM offers competitive relighting results to state-of-the-art dense-view optimization-based baselines while being significantly faster. Our project page is available at: https://relit-lrm.github.io/.