ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling

📄 arXiv: 2601.15897v1 📥 PDF

作者: Zhaoqi Su, Shihai Chen, Xinyan Lin, Liqin Huang, Zhipeng Su, Xiaoqiang Lu

分类: cs.CV

发布日期: 2026-01-22


💡 一句话要点

ThermoSplat:基于特征调制和几何解耦的跨模态3D高斯溅射重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 多模态融合 热红外 RGB-T 场景重建 特征调制 几何解耦

📋 核心要点

  1. 现有方法难以充分利用多模态数据的互补信息,忽略跨模态相关性或无法适应光谱间的复杂结构相关性和物理差异。
  2. ThermoSplat通过跨模态FiLM调制和模态自适应几何解耦,实现深度光谱感知重建,有效融合RGB和热红外数据。
  3. 在RGBT-Scenes数据集上的实验表明,ThermoSplat在可见光谱和热光谱上均取得了优于现有技术的渲染效果。

📝 摘要(中文)

本文提出ThermoSplat,一个新颖的框架,通过主动特征调制和自适应几何解耦实现深度光谱感知重建,旨在解决RGB和热红外数据融合的多模态场景重建难题。该方法首先引入跨模态FiLM调制机制,利用热结构先验动态调节共享潜在特征,有效指导可见纹理合成。其次,为了适应模态特定的几何不一致性,提出了模态自适应几何解耦方案,学习独立的透明度偏移,并为热分支执行独立的栅格化过程。此外,采用混合渲染管线,将显式球谐函数与隐式神经解码相结合,确保语义一致性和高频细节保留。在RGBT-Scenes数据集上的大量实验表明,ThermoSplat在可见光谱和热光谱上均实现了最先进的渲染质量。

🔬 方法详解

问题定义:论文旨在解决RGB和热红外多模态数据融合的3D场景重建问题。现有方法在利用多模态数据的互补信息方面存在不足,要么忽略跨模态相关性,要么使用共享表示而无法适应不同光谱之间的复杂结构相关性和物理差异,导致重建质量受限。

核心思路:ThermoSplat的核心思路是通过主动特征调制和自适应几何解耦,实现对不同模态数据的有效融合和处理。利用热红外数据的结构先验指导可见光纹理的合成,并针对不同模态的几何不一致性进行解耦处理,从而提升重建质量。

技术框架:ThermoSplat的整体框架包含以下几个主要模块:1)跨模态FiLM调制:利用热红外数据的结构先验,动态调节共享的潜在特征,指导可见光纹理合成。2)模态自适应几何解耦:针对不同模态的几何不一致性,学习独立的透明度偏移,并为热分支执行独立的栅格化过程。3)混合渲染管线:结合显式球谐函数和隐式神经解码,确保语义一致性和高频细节保留。

关键创新:ThermoSplat的关键创新在于:1)提出了跨模态FiLM调制机制,能够有效利用热红外数据的结构信息指导可见光纹理合成。2)提出了模态自适应几何解耦方案,能够处理不同模态之间的几何不一致性。3)采用了混合渲染管线,兼顾了语义一致性和高频细节的保留。与现有方法相比,ThermoSplat能够更好地融合多模态数据,提升重建质量。

关键设计:跨模态FiLM调制机制的具体实现方式未知,但可以推测其利用热红外特征作为条件信息,对共享的潜在特征进行仿射变换。模态自适应几何解耦方案通过学习独立的透明度偏移来实现,具体的损失函数设计未知。混合渲染管线中,球谐函数的阶数和隐式神经解码器的网络结构等参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ThermoSplat在RGBT-Scenes数据集上进行了广泛的实验,结果表明,该方法在可见光谱和热光谱上均实现了最先进的渲染质量。具体的性能数据和对比基线未知,但摘要中明确指出其达到了state-of-the-art的水平,证明了该方法的有效性。

🎯 应用场景

ThermoSplat在自动驾驶、机器人导航、安防监控等领域具有广泛的应用前景。在这些场景中,RGB和热红外数据的融合能够提供更鲁棒的环境感知能力,尤其是在光照条件不佳或恶劣天气条件下。该研究的成果有助于提升相关系统的可靠性和性能,并为未来的多模态场景理解研究提供借鉴。

📄 摘要(原文)

Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting and weather conditions. However, extending 3D Gaussian Splatting (3DGS) to multi-spectral scenarios remains challenging. Current approaches often struggle to fully leverage the complementary information of multi-modal data, typically relying on mechanisms that either tend to neglect cross-modal correlations or leverage shared representations that fail to adaptively handle the complex structural correlations and physical discrepancies between spectrums. To address these limitations, we propose ThermoSplat, a novel framework that enables deep spectral-aware reconstruction through active feature modulation and adaptive geometry decoupling. First, we introduce a Cross-Modal FiLM Modulation mechanism that dynamically conditions shared latent features on thermal structural priors, effectively guiding visible texture synthesis with reliable cross-modal geometric cues. Second, to accommodate modality-specific geometric inconsistencies, we propose a Modality-Adaptive Geometric Decoupling scheme that learns independent opacity offsets and executes an independent rasterization pass for the thermal branch. Additionally, a hybrid rendering pipeline is employed to integrate explicit Spherical Harmonics with implicit neural decoding, ensuring both semantic consistency and high-frequency detail preservation. Extensive experiments on the RGBT-Scenes dataset demonstrate that ThermoSplat achieves state-of-the-art rendering quality across both visible and thermal spectrums.