Seeing Heat with Color -- RGB-Only Wildfire Temperature Inference from SAM-Guided Multimodal Distillation using Radiometric Ground Truth

📄 arXiv: 2505.01638v1 📥 PDF

作者: Michael Marinaccio, Fatemeh Afghah

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-05-03

备注: 7 pages, 4 figures, 4 tables


💡 一句话要点

提出SAM-TIFF框架,仅用RGB图像实现野火温度预测与分割,降低无人机火灾监测成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 野火监测 无人机 RGB图像 温度预测 语义分割 知识蒸馏 多模态学习

📋 核心要点

  1. 现有无人机野火监测依赖RGB和热成像等多模态传感器,增加了硬件成本和功耗。
  2. SAM-TIFF框架利用多模态教师网络将知识蒸馏到单模态RGB学生网络,实现仅用RGB图像进行温度预测。
  3. 实验表明,该方法在FLAME 3数据集上表现出强大的泛化能力,为低成本无人机监测奠定基础。

📝 摘要(中文)

本文提出了一种名为SAM-TIFF的师生蒸馏框架,用于仅使用RGB图像进行像素级野火温度预测和分割。该框架利用多模态教师网络(RGB-Thermal图像对和辐射度TIFF真值训练)将知识提炼到单模态RGB学生网络,从而实现无需热传感器的温度推断。分割监督通过一种混合方法生成,该方法结合了基于Segment Anything (SAM)的掩码生成和TOPSIS选择,以及Canny边缘检测和Otsu阈值处理流水线以实现自动点提示选择。该方法首次从RGB无人机数据执行逐像素温度回归,并在最新的FLAME 3数据集上表现出强大的泛化能力。这项工作为轻量级、低成本的无人机野火监测系统奠定了基础,无需热传感器。

🔬 方法详解

问题定义:现有无人机野火监测系统依赖于RGB和热成像等多模态传感器,这显著增加了系统的硬件成本、重量和功耗,限制了其在资源受限环境中的应用。因此,如何在仅使用RGB图像的情况下,实现高精度的野火温度预测和分割是一个关键问题。

核心思路:论文的核心思路是通过知识蒸馏,将从RGB-Thermal图像对中学习到的知识迁移到仅使用RGB图像的学生网络。这样,学生网络就可以在没有热传感器的情况下,预测野火的温度和分割区域。这种方法旨在降低硬件成本和功耗,同时保持较高的预测精度。

技术框架:SAM-TIFF框架包含以下主要模块:1) 多模态教师网络:使用配对的RGB-Thermal图像和辐射度TIFF真值进行训练,学习RGB和Thermal信息之间的映射关系。2) 单模态RGB学生网络:接收RGB图像作为输入,目标是预测像素级的温度和分割结果。3) 分割监督模块:利用SAM生成候选分割掩码,并通过TOPSIS选择最优掩码,结合Canny边缘检测和Otsu阈值处理,生成精确的分割监督信号。4) 知识蒸馏模块:利用教师网络的输出作为指导,训练学生网络,使其能够从RGB图像中学习到温度预测和分割的能力。

关键创新:该论文最重要的技术创新点在于提出了一个基于SAM引导的多模态蒸馏框架,用于仅使用RGB图像进行野火温度预测和分割。该方法是首次尝试从RGB无人机数据执行逐像素温度回归,并取得了良好的效果。此外,混合分割监督方法结合了SAM的强大分割能力和传统图像处理技术的精确性,提高了分割质量。

关键设计:在分割监督模块中,使用了Segment Anything Model (SAM) 生成候选分割掩码,并通过TOPSIS方法选择最优掩码。TOPSIS方法基于多个指标(例如,掩码面积、边缘对齐度等)对候选掩码进行排序,选择最符合ground truth的掩码。此外,Canny边缘检测和Otsu阈值处理用于自动生成点提示,引导SAM生成更精确的分割结果。损失函数包括温度回归损失(例如,L1损失或L2损失)和分割损失(例如,Dice损失或交叉熵损失),用于优化学生网络的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在FLAME 3数据集上进行了评估,实验结果表明,仅使用RGB图像的学生网络能够实现与使用RGB-Thermal图像的教师网络相媲美的温度预测和分割性能。具体性能数据未知,但摘要强调了其强大的泛化能力,表明该方法具有实际应用潜力。

🎯 应用场景

该研究成果可应用于低成本、轻量化的无人机野火监测系统。这些系统可以部署在资源有限的地区,用于早期火灾预警、火势蔓延监测和灾后评估。通过降低硬件成本和功耗,该方法有望提高野火监测的覆盖范围和频率,从而更有效地保护森林资源和人民生命财产安全。

📄 摘要(原文)

High-fidelity wildfire monitoring using Unmanned Aerial Vehicles (UAVs) typically requires multimodal sensing - especially RGB and thermal imagery - which increases hardware cost and power consumption. This paper introduces SAM-TIFF, a novel teacher-student distillation framework for pixel-level wildfire temperature prediction and segmentation using RGB input only. A multimodal teacher network trained on paired RGB-Thermal imagery and radiometric TIFF ground truth distills knowledge to a unimodal RGB student network, enabling thermal-sensor-free inference. Segmentation supervision is generated using a hybrid approach of segment anything (SAM)-guided mask generation, and selection via TOPSIS, along with Canny edge detection and Otsu's thresholding pipeline for automatic point prompt selection. Our method is the first to perform per-pixel temperature regression from RGB UAV data, demonstrating strong generalization on the recent FLAME 3 dataset. This work lays the foundation for lightweight, cost-effective UAV-based wildfire monitoring systems without thermal sensors.