Supercharging Thermal Gaussian Splatting with Depth Estimation
作者: Manoj Biswanath, Chenxin Cai, Hannah Schieber, Daniel Roth, Benjamin Busam
分类: cs.CV
发布日期: 2026-05-28
备注: 8 pages, 4 figures. Accepted and will be published in ISPRS proceedings (ISPRS Congress 2026)
💡 一句话要点
提出基于热红外图像和深度估计的TDg方法,加速并提升3D高斯溅射性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D高斯溅射 热红外图像 深度估计 新视角合成 辐射场 单模态 场景重建
📋 核心要点
- 现有3D高斯溅射方法依赖多模态数据融合,导致处理速度降低和额外挑战。
- TDg方法仅使用热红外图像和深度估计,避免多模态融合,加速辐射场推导。
- 实验表明,TDg在渲染质量上优于MSMG基线,且训练时间显著减少55%。
📝 摘要(中文)
高效且鲁棒的3D场景表示在自动驾驶、机器人等领域至关重要。RGB图像为3D重建提供了有价值的内容,而热红外或深度等其他模态可以提供关于环境的额外信息。近来,像3D高斯溅射这样的新视角合成方法开始使用多种模态来进一步提高性能。但是,融合或组合多模态数据会降低处理速度,并带来额外的挑战。因此,本项目旨在尽可能消除对可见光的依赖,使用基于热红外领域的单一模态。这种单一模态有望更快,因为它不依赖于多模态数据。我们提出了一种热红外到深度高斯溅射(TDg)方法,该方法仅使用热红外图像和深度估计来导出辐射场。在我们的测试数据集RGBT-Scenes和ThermalMix上,TDg方法在大多数情况下优于MSMG(多单模态高斯)基线。平均而言,TDg的渲染质量指标,如学习的感知图像块相似度(LPIPS)、结构相似性指数度量(SSIM)和峰值信噪比(PSNR)比基线MSMG值分别好1.12%,0.034%和0.01%。它还显着减少了训练时间,减少了12分47秒(提高了55%)。总而言之,我们的方法成功地导出了这些热辐射场,最终可以有多种应用,例如识别在监视、搜索或救援行动中至关重要的热源,以及广泛使用温度来监视机器的工业检查。
🔬 方法详解
问题定义:现有3D高斯溅射方法通常依赖RGB图像以及深度信息等多模态数据融合进行场景重建,然而,多模态数据的融合过程复杂,计算成本高昂,限制了其在实时性要求高的场景下的应用。此外,对可见光的依赖性也限制了其在光照条件不佳环境下的使用。因此,如何仅利用单一模态数据,实现高效且高质量的3D场景重建是一个亟待解决的问题。
核心思路:TDg方法的核心思路是利用热红外图像和深度估计作为单一模态输入,直接推导辐射场,从而避免了多模态数据融合的复杂性。通过热红外图像,可以获取场景中物体的温度信息,结合深度估计,可以获得场景的几何结构信息。将这两种信息结合起来,可以有效地重建3D场景,并生成高质量的新视角图像。
技术框架:TDg方法主要包含以下几个阶段:1. 热红外图像采集:使用热红外相机获取场景的热红外图像。2. 深度估计:使用深度估计网络从热红外图像中估计场景的深度信息。3. 高斯溅射初始化:利用热红外图像和深度信息初始化3D高斯溅射模型。4. 辐射场优化:通过优化3D高斯溅射模型的参数,使得渲染出的图像与真实热红外图像尽可能一致。5. 新视角合成:利用优化后的3D高斯溅射模型,生成任意视角下的热红外图像。
关键创新:TDg方法最重要的技术创新点在于其仅使用热红外图像和深度估计作为输入,避免了多模态数据融合。这使得该方法在计算效率上具有显著优势,并且可以应用于光照条件不佳的环境。此外,该方法还针对热红外图像的特点,设计了特定的损失函数和优化策略,从而提高了渲染质量。
关键设计:TDg方法的关键设计包括:1. 深度估计网络的选择:选择合适的深度估计网络,以保证深度信息的准确性。2. 损失函数的设计:设计合适的损失函数,以保证渲染出的图像与真实热红外图像尽可能一致。常用的损失函数包括L1损失、L2损失、SSIM损失和LPIPS损失等。3. 优化策略的选择:选择合适的优化策略,以保证模型能够快速收敛。常用的优化策略包括Adam优化器和SGD优化器等。4. 高斯分布参数的初始化:合理初始化高斯分布的参数,例如位置、方差和颜色等,可以加速模型的收敛。
🖼️ 关键图片
📊 实验亮点
TDg方法在RGBT-Scenes和ThermalMix数据集上进行了评估,实验结果表明,TDg方法在渲染质量上优于MSMG基线。具体而言,TDg的LPIPS、SSIM和PSNR指标分别比MSMG提高了1.12%,0.034%和0.01%。此外,TDg的训练时间也显著减少,减少了12分47秒,提高了55%。
🎯 应用场景
TDg方法在多个领域具有广泛的应用前景,例如:1. 监视和安防:利用热红外图像识别潜在的热源,例如火灾或入侵者。2. 搜索和救援:在恶劣环境下,利用热红外图像定位受困人员。3. 工业检测:利用热红外图像检测机器设备的故障,例如过热或泄漏。4. 自动驾驶:在夜间或雾天等光照条件不佳的环境下,利用热红外图像感知周围环境。
📄 摘要(原文)
Efficient and robust 3D scene representation is crucial in autonomous driving, robotics, and related fields. While RGB images provide valuable content for 3D reconstruction, other modalities like thermal or depth can enable additional information on the environment. Lately, novel view synthesis methods like 3D Gaussian Splatting have started using multiple modalities to further boost their performance. But fusing or combining multimodal data can make the process slower and can bring in additional challenges. Therefore, our project aims to use single modality based on thermal infrared domain, by removing the reliance on visible light as much as possible. This single modality can be expected to be faster as it does not rely on multimodal data. We propose a method, Thermal-to-Depth Gaussian Splatting (TDg), that uses only thermal images and depth estimation in its architecture to derive the radiance fields. Our TDg method outperforms the MSMG (Multiple Single-Modal Gaussians) baseline in most cases on our test datasets, RGBT-Scenes and ThermalMix. On average, the rendering quality metrics such as learned perceptual image patch similarity (LPIPS), structural similarity index measure (SSIM), and peak signal-to-noise ratio (PSNR) of TDg are 1.12%, 0.034%, and 0.01% better than the baseline MSMG values. It also reduces the training time significantly, by 12 mins 47 secs (55% improvement). Overall, our method is successful in deriving these thermal radiance fields, which can ultimately have several applications, such as identifying heat sources critical in surveillance, search or rescue operations, and industrial inspections where temperature is widely used to monitor machines.