SpectralSplats: Robust Differentiable Tracking via Spectral Moment Supervision

📄 arXiv: 2603.24036v1 📥 PDF

作者: Avigail Cohen Rimon, Amir Mann, Mirela Ben Chen, Or Litany

分类: cs.CV

发布日期: 2026-03-25

备注: Project page: https://avigailco.github.io/SpectralSplats/


💡 一句话要点

SpectralSplats:通过频谱矩监督实现鲁棒可微的3D高斯溅射跟踪

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 视频跟踪 频谱矩 梯度消失 频率退火

📋 核心要点

  1. 现有3DGS跟踪方法依赖空间重叠,相机未对准时易出现梯度消失问题,导致跟踪失败。
  2. SpectralSplats将优化目标转移到频域,通过频谱矩监督构建全局吸引盆,解决梯度消失问题。
  3. 实验表明,SpectralSplats能有效应对严重的相机未对准和复杂形变,优于传统基于外观的跟踪方法。

📝 摘要(中文)

3D高斯溅射(3DGS)能够实现实时的、照片般逼真的新视角合成,使其成为基于模型的视频跟踪极具吸引力的表示方法。然而,在实际应用中利用3DGS渲染器的可微性仍然非常脆弱。一个根本性的瓶颈在于高斯基元的紧凑局部支持。标准的光度目标隐式地依赖于空间重叠;如果严重的相机未对准将渲染对象置于目标局部足迹之外,梯度会严格消失,使优化器停滞不前。我们引入了SpectralSplats,这是一个鲁棒的跟踪框架,通过将优化目标从空间域转移到频域来解决这个“梯度消失”问题。通过一组全局复正弦特征(频谱矩)来监督渲染图像,我们构建了一个全局吸引盆,确保即使在像素重叠完全不存在的情况下,也存在指向目标的有效定向梯度。为了利用这个全局吸引盆,同时避免与高频相关的周期性局部最小值,我们从第一性原理推导出一个有原则的频率退火计划,优雅地将优化器从全局凸性过渡到精确的空间对齐。我们证明了SpectralSplats可以作为空间损失的无缝替代品,适用于各种变形参数化(从MLP到稀疏控制点),即使从严重未对准的初始化中也能成功恢复复杂的变形,而标准的基于外观的跟踪会彻底失败。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射(3DGS)在视频跟踪中,由于相机未对准或剧烈形变导致的空间重叠不足,进而引发梯度消失的问题。现有的基于外观的跟踪方法依赖于像素级别的光度损失,当渲染的物体与目标区域没有足够的像素重叠时,梯度会变得非常小甚至消失,使得优化器无法找到正确的方向,导致跟踪失败。

核心思路:论文的核心思路是将优化目标从空间域转移到频域。具体来说,通过监督渲染图像的频谱矩(Spectral Moments),构建一个全局的吸引盆。即使在空间域上像素重叠很小甚至没有重叠的情况下,频域的监督信号仍然可以提供有效的梯度信息,引导优化器朝着正确的方向移动。这种方法利用了图像的全局信息,从而克服了局部梯度消失的问题。

技术框架:SpectralSplats的整体框架可以概括为以下几个步骤:1) 使用3DGS渲染目标对象的图像。2) 计算渲染图像的频谱矩。3) 将计算得到的频谱矩与目标频谱矩进行比较,构建损失函数。4) 使用优化器更新3DGS的参数,例如高斯分布的位置、形状和颜色等。5) 为了避免高频分量引入的局部最小值,采用频率退火(Frequency Annealing)策略,逐渐增加高频分量的权重。

关键创新:该论文最重要的创新点在于将频谱矩引入到3DGS的跟踪优化中。与传统的基于像素的光度损失不同,频谱矩是一种全局特征,对图像的整体结构和内容进行编码。通过监督频谱矩,可以建立一个全局的吸引盆,即使在空间域上像素重叠很小的情况下,也能提供有效的梯度信息。此外,频率退火策略也是一个重要的创新,它能够有效地避免高频分量引入的局部最小值,保证优化过程的稳定性和收敛性。

关键设计:论文的关键设计包括:1) 频谱矩的计算方式,选择了合适的频率范围和矩的阶数,以保证能够有效地捕捉图像的全局结构信息。2) 损失函数的设计,采用了合适的距离度量方式来比较渲染图像和目标图像的频谱矩。3) 频率退火策略,设计了一个合理的退火 schedule,从低频到高频逐渐增加频率分量的权重,以避免局部最小值的影响。4) 变形参数化的选择,论文验证了SpectralSplats在不同的变形参数化方法下的有效性,包括MLP和稀疏控制点等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpectralSplats在各种复杂的变形参数化下,即使从严重未对准的初始化状态开始,也能成功恢复复杂的变形。与传统的基于外观的跟踪方法相比,SpectralSplats在跟踪精度和鲁棒性方面都有显著提升。在某些情况下,传统的基于外观的跟踪方法完全失效,而SpectralSplats仍然能够稳定地跟踪目标。

🎯 应用场景

SpectralSplats具有广泛的应用前景,例如在增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶等领域。它可以用于鲁棒地跟踪和重建动态场景中的物体,即使在光照变化、遮挡和剧烈形变等复杂环境下也能保持良好的性能。该方法还可以应用于视频编辑和特效制作,例如将虚拟物体无缝地插入到真实视频中。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) enables real-time, photorealistic novel view synthesis, making it a highly attractive representation for model-based video tracking. However, leveraging the differentiability of the 3DGS renderer "in the wild" remains notoriously fragile. A fundamental bottleneck lies in the compact, local support of the Gaussian primitives. Standard photometric objectives implicitly rely on spatial overlap; if severe camera misalignment places the rendered object outside the target's local footprint, gradients strictly vanish, leaving the optimizer stranded. We introduce SpectralSplats, a robust tracking framework that resolves this "vanishing gradient" problem by shifting the optimization objective from the spatial to the frequency domain. By supervising the rendered image via a set of global complex sinusoidal features (Spectral Moments), we construct a global basin of attraction, ensuring that a valid, directional gradient toward the target exists across the entire image domain, even when pixel overlap is completely nonexistent. To harness this global basin without introducing periodic local minima associated with high frequencies, we derive a principled Frequency Annealing schedule from first principles, gracefully transitioning the optimizer from global convexity to precise spatial alignment. We demonstrate that SpectralSplats acts as a seamless, drop-in replacement for spatial losses across diverse deformation parameterizations (from MLPs to sparse control points), successfully recovering complex deformations even from severely misaligned initializations where standard appearance-based tracking catastrophically fails.