SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction

📄 arXiv: 2603.18774v1 📥 PDF

作者: Vsevolod Skorokhodov, Chenghao Xu, Shuo Sun, Olga Fink, Malcolm Mielle

分类: cs.CV

发布日期: 2026-03-19


💡 一句话要点

SEAR:一种简单高效的视觉几何Transformer自适应方法,用于RGB+热成像3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGB-T重建 多模态融合 视觉几何Transformer 自适应学习 相机姿态估计

📋 核心要点

  1. 现有视觉几何模型在RGB数据上表现出色,但在RGB-T等多模态场景中,RGB和热成像模态的对齐成为挑战。
  2. SEAR通过简单高效的微调策略,将预训练的几何Transformer自适应于多模态RGB-T输入,实现模态对齐。
  3. 实验表明,SEAR在3D重建和相机姿态估计方面显著优于现有方法,并在低光照和浓烟等恶劣条件下表现出色。

📝 摘要(中文)

基础的前馈视觉几何模型通过从海量的RGB数据集中学习强大的场景先验,实现了精确高效的相机姿态估计和场景重建。然而,当应用于混合传感模态(如RGB-热成像(RGB-T)图像)时,它们的有效性会下降。我们观察到,虽然在RGB数据上预训练的视觉几何Transformer可以很好地泛化到仅热成像重建,但在联合处理RGB和热成像模态时,它难以对齐这两种模态。为了解决这个问题,我们提出了一种简单而高效的微调策略SEAR,该策略将预训练的几何Transformer自适应于多模态RGB-T输入。尽管SEAR是在相对较小的RGB-T数据集上训练的,但我们的方法在3D重建和相机姿态估计方面显著优于最先进的方法,在所有指标上都取得了显著的改进(例如,AUC@30超过29%),并且与原始预训练模型相比,在推理时间上的开销可以忽略不计,同时提供了更高的细节和模态之间的一致性。值得注意的是,SEAR即使在低光照和浓烟等具有挑战性的条件下,也能实现可靠的多模态姿态估计和重建。我们通过广泛的消融研究验证了我们的架构,证明了该模型如何对齐两种模态。此外,我们还引入了一个新的数据集,该数据集包含在不同时间、视点和光照条件下捕获的RGB和热成像序列,为未来多模态3D场景重建工作提供了一个强大的基准。

🔬 方法详解

问题定义:论文旨在解决RGB-T图像3D重建中,现有视觉几何模型难以有效对齐RGB和热成像模态的问题。现有方法在RGB数据集上预训练的模型,直接应用于RGB-T数据时,性能显著下降,尤其是在模态对齐方面存在困难。

核心思路:论文的核心思路是通过微调预训练的视觉几何Transformer,使其能够更好地处理RGB-T数据,从而实现更准确的3D重建和相机姿态估计。这种方法利用了预训练模型在RGB数据上学习到的通用几何先验,并通过少量RGB-T数据进行微调,以适应多模态输入。

技术框架:SEAR方法主要包括以下几个阶段:1) 使用在大型RGB数据集上预训练的视觉几何Transformer作为基础模型。2) 构建包含RGB和热成像图像对的RGB-T数据集。3) 使用RGB-T数据集对预训练模型进行微调,使其能够同时处理RGB和热成像数据。4) 使用微调后的模型进行3D重建和相机姿态估计。

关键创新:SEAR的关键创新在于提出了一种简单而高效的微调策略,能够有效地将预训练的视觉几何Transformer自适应于多模态RGB-T输入。与从头开始训练模型相比,微调方法能够更快地收敛,并且能够更好地利用预训练模型学习到的通用几何先验。此外,SEAR在推理时间上的开销可以忽略不计,使其具有很强的实用性。

关键设计:SEAR的关键设计包括:1) 使用Transformer架构作为基础模型,Transformer具有强大的特征提取和建模能力。2) 设计合适的损失函数,以促进RGB和热成像模态的对齐。3) 采用数据增强技术,以提高模型的泛化能力。4) 精心选择微调的学习率和训练轮数,以避免过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SEAR在RGB-T 3D重建任务中取得了显著的性能提升,AUC@30指标提升超过29%。在低光照和浓烟等恶劣条件下,SEAR依然能够实现可靠的多模态姿态估计和重建。消融实验验证了SEAR模型对齐RGB和热成像模态的有效性。此外,论文还发布了一个新的RGB-T数据集,为后续研究提供了基准。

🎯 应用场景

SEAR在机器人导航、自动驾驶、安防监控、消防救援等领域具有广泛的应用前景。尤其是在光照条件不佳或存在烟雾等遮挡物的情况下,RGB-T图像能够提供更丰富的信息,从而提高3D重建和相机姿态估计的准确性。该研究成果有助于提升相关系统的鲁棒性和可靠性。

📄 摘要(原文)

Foundational feed-forward visual geometry models enable accurate and efficient camera pose estimation and scene reconstruction by learning strong scene priors from massive RGB datasets. However, their effectiveness drops when applied to mixed sensing modalities, such as RGB-thermal (RGB-T) images. We observe that while a visual geometry grounded transformer pretrained on RGB data generalizes well to thermal-only reconstruction, it struggles to align RGB and thermal modalities when processed jointly. To address this, we propose SEAR, a simple yet efficient fine-tuning strategy that adapts a pretrained geometry transformer to multimodal RGB-T inputs. Despite being trained on a relatively small RGB-T dataset, our approach significantly outperforms state-of-the-art methods for 3D reconstruction and camera pose estimation, achieving significant improvements over all metrics (e.g., over 29\% in AUC@30) and delivering higher detail and consistency between modalities with negligible overhead in inference time compared to the original pretrained model. Notably, SEAR enables reliable multimodal pose estimation and reconstruction even under challenging conditions, such as low lighting and dense smoke. We validate our architecture through extensive ablation studies, demonstrating how the model aligns both modalities. Additionally, we introduce a new dataset featuring RGB and thermal sequences captured at different times, viewpoints, and illumination conditions, providing a robust benchmark for future work in multimodal 3D scene reconstruction. Code and models are publicly available at https://www.github.com/Schindler-EPFL-Lab/SEAR.