Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3
作者: Hürkan Şahin, Huy Xuan Pham, Van Huyen Dang, Alper Yegenoglu, Erdal Kayacan
分类: cs.CV, cs.RO
发布日期: 2026-03-16
备注: 8 pages, 8 figures, 2 table
💡 一句话要点
提出基于循环网络的深度估计方法,用于单目热成像ORB-SLAM3在弱光环境下的定位。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 热成像 深度估计 SLAM 循环神经网络 无人机导航
📋 核心要点
- 在无GPS和视觉退化环境中,无人机自主导航面临挑战,现有方法难以有效利用热成像进行定位。
- 提出一种基于循环网络的轻量级深度估计方法,通过T-RefNet细化热图像,增强特征可见性,并集成到ORB-SLAM3中。
- 实验结果表明,该方法在弱光条件下具有竞争力的深度精度和鲁棒的SLAM性能,且无需昂贵的辐射热像仪。
📝 摘要(中文)
本文研究了在无GPS和视觉退化环境中,无人机(UAV)使用单目热像仪作为独立传感器进行实时深度估计和同步定位与建图(SLAM)的问题。为此,我们提出了一种新颖的流水线,采用轻量级监督网络,并集成循环块(RB)以捕获时间依赖性,从而实现更鲁棒的预测。该网络将轻量级卷积骨干网络与热图像细化网络(T-RefNet)相结合,以细化原始热图像输入并增强特征可见性。细化后的热图像和预测的深度图被集成到ORB-SLAM3中,从而实现纯热成像定位。与以往的方法不同,该网络在定制的非辐射数据集上进行训练,无需昂贵的辐射热像仪。在数据集和无人机飞行上的实验结果表明,该方法在弱光条件下具有竞争力的深度精度和鲁棒的SLAM性能。在辐射VIVID++(室内-黑暗)数据集上,我们的方法实现了约0.06的绝对相对误差,而基线方法超过0.11。在我们非辐射室内数据集中,基线误差保持在0.24以上,而我们的方法保持在0.10以下。纯热成像ORB-SLAM3保持低于0.4米的平均轨迹误差。
🔬 方法详解
问题定义:论文旨在解决在GPS拒止和视觉退化环境中,无人机利用单目热像仪进行实时深度估计和SLAM的问题。现有方法通常依赖昂贵的辐射热像仪或在非辐射热像仪上表现不佳,且难以有效利用热图像的时间信息,导致深度估计精度和SLAM鲁棒性不足。
核心思路:论文的核心思路是设计一个轻量级的、基于循环神经网络的深度估计框架,该框架能够从非辐射热图像中提取有效的深度信息,并利用时间依赖性提高深度估计的鲁棒性。通过热图像细化网络(T-RefNet)增强特征可见性,从而提升整体性能。
技术框架:整体框架包含以下几个主要阶段:1) 热图像输入:接收来自单目热像仪的原始热图像。2) 热图像细化:利用T-RefNet对原始热图像进行细化,增强特征可见性。3) 深度估计:使用基于循环块(RB)的轻量级网络预测深度图。4) SLAM集成:将细化后的热图像和预测的深度图集成到ORB-SLAM3中,实现纯热成像定位。
关键创新:论文的关键创新在于:1) 提出了T-RefNet,用于细化原始热图像,增强特征可见性,从而提高深度估计的准确性。2) 将循环块(RB)集成到深度估计网络中,以捕获时间依赖性,提高深度估计的鲁棒性。3) 提出了一种在非辐射数据集上训练深度估计网络的方法,避免了对昂贵辐射热像仪的依赖。
关键设计:T-RefNet的具体结构未知,但其目标是增强热图像的特征可见性。深度估计网络采用轻量级卷积骨干网络,并集成循环块(RB)以捕获时间依赖性。损失函数未知,但推测可能包含深度预测的均方误差或类似的度量。网络在定制的非辐射数据集上进行训练,数据集的具体细节未知。
🖼️ 关键图片
📊 实验亮点
在辐射VIVID++(室内-黑暗)数据集上,该方法实现了约0.06的绝对相对误差,相比于基线方法(超过0.11)有显著提升。在非辐射室内数据集中,基线误差保持在0.24以上,而该方法保持在0.10以下。纯热成像ORB-SLAM3保持低于0.4米的平均轨迹误差,表明了其在实际应用中的可行性。
🎯 应用场景
该研究成果可应用于无人机在弱光、烟雾、黑暗等视觉受限环境下的自主导航、搜索救援、安防巡检等领域。通过降低对昂贵辐射热像仪的依赖,有望推动热成像技术在更广泛的无人系统应用中普及,提升其在复杂环境下的适应性和可靠性。
📄 摘要(原文)
Autonomous navigation in GPS-denied and visually degraded environments remains challenging for unmanned aerial vehicles (UAVs). To this end, we investigate the use of a monocular thermal camera as a standalone sensor on a UAV platform for real-time depth estimation and simultaneous localization and mapping (SLAM). To extract depth information from thermal images, we propose a novel pipeline employing a lightweight supervised network with recurrent blocks (RBs) integrated to capture temporal dependencies, enabling more robust predictions. The network combines lightweight convolutional backbones with a thermal refinement network (T-RefNet) to refine raw thermal inputs and enhance feature visibility. The refined thermal images and predicted depth maps are integrated into ORB-SLAM3, enabling thermal-only localization. Unlike previous methods, the network is trained on a custom non-radiometric dataset, obviating the need for high-cost radiometric thermal cameras. Experimental results on datasets and UAV flights demonstrate competitive depth accuracy and robust SLAM performance under low-light conditions. On the radiometric VIVID++ (indoor-dark) dataset, our method achieves an absolute relative error of approximately 0.06, compared to baselines exceeding 0.11. In our non-radiometric indoor set, baseline errors remain above 0.24, whereas our approach remains below 0.10. Thermal-only ORB-SLAM3 maintains a mean trajectory error under 0.4 m.