SpectralSplat: Appearance-Disentangled Feed-Forward Gaussian Splatting for Driving Scenes

📄 arXiv: 2604.03462 📥 PDF

作者: Quentin Herau, Tianshuo Xu, Depu Meng, Jiezhi Yang, Chensheng Peng, Spencer Sherk, Yihan Hu, Wei Zhan

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-04-07


💡 一句话要点

SpectralSplat:解耦外观的驾驶场景前馈高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 外观解耦 自动驾驶 场景重建 重新光照

📋 核心要点

  1. 现有前馈高斯溅射方法难以分离场景几何与光照、天气等外观因素,限制了外观编辑能力。
  2. SpectralSplat将颜色预测分解为外观无关的基础流和外观条件自适应流,实现外观解耦。
  3. 通过混合重光照和多种损失函数训练,SpectralSplat实现了可控的外观迁移和时间一致的重光照。

📝 摘要(中文)

前馈3D高斯溅射方法在自动驾驶场景重建方面取得了显著成果,但其将场景几何结构与瞬态外观属性(如光照、天气和时间)耦合在一起。这种耦合阻碍了重新光照、外观迁移以及在不同环境条件下捕获的多遍历数据之间的一致渲染。我们提出了SpectralSplat,一种在前馈高斯溅射框架内解耦外观与几何结构的方法。我们的核心思想是将颜色预测分解为外观无关的基础流和外观条件自适应流,两者都由一个共享的MLP产生,该MLP以从DINOv2特征导出的全局外观嵌入为条件。为了强制解耦,我们使用混合重新光照管道生成的配对观测进行训练,该管道结合了基于物理的内在分解和基于扩散的生成细化,并使用互补的一致性、重建、跨外观和基础颜色损失进行监督。我们进一步引入了一种外观可适应的时间历史,用于存储外观无关的特征,从而使累积的高斯能够在任意目标外观下重新渲染。实验表明,SpectralSplat在保持底层骨干网络重建质量的同时,实现了可控的外观迁移和驾驶序列中时间一致的重新光照。

🔬 方法详解

问题定义:现有基于前馈高斯溅射的驾驶场景重建方法,虽然在重建质量上表现出色,但存在一个关键问题:场景的几何结构与外观(如光照、天气、时间等)紧密耦合。这种耦合使得对场景进行重新光照、外观迁移等操作变得困难,并且无法保证在不同环境条件下采集的数据渲染结果的一致性。现有方法缺乏对外观因素的显式建模和控制,导致外观编辑能力受限。

核心思路:SpectralSplat的核心思路是将颜色预测过程解耦为两个独立的流:一个外观无关的基础流和一个外观条件自适应流。基础流负责预测与场景几何结构相关的颜色信息,而自适应流则根据全局外观嵌入来调整颜色,从而实现对外观的控制。通过这种解耦,可以独立地修改场景的外观,而不会影响其几何结构。

技术框架:SpectralSplat的整体框架基于前馈高斯溅射。它包含以下主要模块:1) 特征提取模块:使用DINOv2提取全局外观特征,作为外观嵌入。2) 共享MLP:一个多层感知机,以高斯特征和外观嵌入为输入,输出基础流和自适应流的颜色信息。3) 混合重光照管道:用于生成训练所需的配对观测,结合了基于物理的内在分解和基于扩散的生成细化。4) 时间历史模块:存储外观无关的特征,用于实现时间一致的渲染。

关键创新:SpectralSplat最重要的创新点在于其外观解耦的颜色预测方法。通过将颜色预测分解为外观无关的基础流和外观条件自适应流,实现了对外观的显式建模和控制。与现有方法相比,SpectralSplat能够更好地分离场景的几何结构和外观,从而实现更灵活的外观编辑和渲染。

关键设计:SpectralSplat的关键设计包括:1) 使用DINOv2提取全局外观特征,以捕捉场景的整体外观信息。2) 使用共享MLP来预测基础流和自适应流的颜色信息,以减少参数量和提高效率。3) 设计了混合重光照管道,用于生成训练所需的配对观测,以提高模型的泛化能力。4) 使用多种损失函数(一致性损失、重建损失、跨外观损失和基础颜色损失)来监督模型的训练,以保证重建质量和外观解耦的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpectralSplat在保持底层高斯溅射重建质量的同时,实现了可控的外观迁移和时间一致的重光照。与现有方法相比,SpectralSplat能够生成更逼真、更灵活的场景渲染效果。具体性能数据未知,但论文强调了其在外观控制和时间一致性方面的优势。

🎯 应用场景

SpectralSplat在自动驾驶、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于实现逼真的场景渲染、灵活的外观编辑、以及在不同环境条件下的数据融合。例如,可以利用SpectralSplat将同一场景渲染成不同天气、光照条件下的效果,或者将不同时间段采集的数据进行融合,生成一个时间一致的场景模型。该研究有助于提升自动驾驶系统的感知能力和安全性,以及增强虚拟现实和游戏的用户体验。

📄 摘要(原文)

Feed-forward 3D Gaussian Splatting methods have achieved impressive reconstruction quality for autonomous driving scenes, yet they entangle scene geometry with transient appearance properties such as lighting, weather, and time of day. This coupling prevents relighting, appearance transfer, and consistent rendering across multi-traversal data captured under varying environmental conditions. We present SpectralSplat, a method that disentangles appearance from geometry within a feed-forward Gaussian Splatting framework. Our key insight is to factor color prediction into an appearance-agnostic base stream and and appearance-conditioned adapted stream, both produced by a shared MLP conditioned on a global appearance embedding derived from DINOv2 features. To enforce disentanglement, we train with paired observations generated by a hybrid relighting pipeline that combines physics-based intrinsic decomposition with diffusion based generative refinement, and supervise with complementary consistency, reconstruction, cross-appearance, and base color losses. We further introduce an appearance-adaptable temporal history that stores appearance-agnostic features, enabling accumulated Gaussians to be re-rendered under arbitrary target appearances. Experiments demonstrate that SpectralSplat preserves the reconstruction quality of the underlying backbone while enabling controllable appearance transfer and temporally consistent relighting across driving sequences.