WildFireVQA: A Large-Scale Radiometric Thermal VQA Benchmark for Aerial Wildfire Monitoring

📄 arXiv: 2604.20190v1 📥 PDF

作者: Mobin Habibpour, Niloufar Alipour Talemi, John Spodnik, Camren J. Khoury, Fatemeh Afghah

分类: cs.CV, cs.LG

发布日期: 2026-04-22

期刊: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR-W 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

提出WildFireVQA,一个大规模的用于空中野火监测的辐射热VQA基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 野火监测 视觉问答 多模态学习 热辐射数据 空中遥感

📋 核心要点

  1. 现有空中VQA基准缺乏对野火场景下,特别是基于热数据的多模态推理能力的评估。
  2. WildFireVQA通过集成RGB图像和辐射热数据,构建大规模VQA数据集,促进野火监测的智能化。
  3. 实验表明,RGB模态在现有模型中表现最佳,但检索增强的热数据能提升更强MLLM的性能。

📝 摘要(中文)

野火监测需要来自空中平台的及时、可操作的态势感知,但现有的空中视觉问答(VQA)基准不评估基于热测量的野火特定多模态推理。我们引入WildFireVQA,这是一个用于空中野火监测的大规模VQA基准,它集成了RGB图像与辐射热数据。WildFireVQA包含6,097个RGB-热样本,每个样本包括一个RGB图像、一个彩色映射的热可视化和一个辐射热TIFF,并与34个问题配对,总共产生207,298个多项选择题,涵盖存在和检测、分类、分布和分割、定位和方向、跨模态推理以及用于作战野火情报的飞行计划。为了提高标注可靠性,我们结合了基于多模态大型语言模型(MLLM)的答案生成与传感器驱动的确定性标记、人工验证以及帧内和帧间一致性检查。我们进一步建立了针对代表性MLLM在RGB、热和检索增强设置下使用辐射热统计的综合评估协议。实验表明,在所有任务类别中,RGB仍然是当前模型最强的模态,而检索到的热上下文为更强的MLLM带来了增益,突出了基于温度推理的价值以及现有MLLM在安全关键型野火场景中的局限性。数据集和基准代码在https://github.com/mobiiin/WildFire_VQA开源。

🔬 方法详解

问题定义:现有空中视觉问答(VQA)基准数据集无法有效评估模型在野火监测场景下,特别是利用热辐射数据进行多模态推理的能力。这限制了人工智能技术在野火态势感知和决策支持方面的应用。

核心思路:论文的核心思路是构建一个大规模的、包含RGB图像和辐射热数据的VQA数据集,即WildFireVQA。通过提供丰富的多模态数据和多样化的问答对,促进模型学习野火场景下的复杂推理能力,特别是利用热数据进行目标检测、分类、定位和跨模态推理的能力。

技术框架:WildFireVQA数据集构建流程主要包括以下几个阶段:1) 数据采集:收集包含RGB图像、彩色映射的热可视化图像和辐射热TIFF图像的野火场景数据。2) 问题生成:利用多模态大型语言模型(MLLM)生成候选答案。3) 答案标注:结合传感器驱动的确定性标记、人工验证以及帧内和帧间一致性检查,确保标注的可靠性。4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。

关键创新:该论文的关键创新在于构建了一个大规模的、专门针对空中野火监测的RGB-热VQA数据集。该数据集不仅包含RGB图像,还包含了辐射热数据,这使得模型能够学习利用热数据进行推理,从而更好地理解野火场景。此外,论文还提出了一种结合MLLM和人工验证的答案标注方法,提高了标注的可靠性。

关键设计:数据集包含6,097个RGB-热样本,每个样本包含RGB图像、彩色映射的热可视化图像和辐射热TIFF图像,并配有34个问题,总共产生207,298个多项选择题。问题涵盖存在和检测、分类、分布和分割、定位和方向、跨模态推理以及用于作战野火情报的飞行计划等多个方面。评估协议包括RGB、热和检索增强设置,并使用辐射热统计信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在当前模型中,RGB模态仍然是最强的模态。然而,通过检索增强的热上下文可以提高更强大的MLLM的性能。这表明基于温度的推理具有重要价值,同时也突出了现有MLLM在安全关键的野火场景中的局限性。该数据集的发布将促进相关领域的研究。

🎯 应用场景

WildFireVQA数据集可用于训练和评估人工智能模型在野火监测中的应用,例如火灾检测、火势蔓延预测、人员疏散规划和资源调度优化。该研究成果有助于提高野火监测的效率和准确性,减少火灾造成的损失,并为消防人员提供更有效的决策支持。

📄 摘要(原文)

Wildfire monitoring requires timely, actionable situational awareness from airborne platforms, yet existing aerial visual question answering (VQA) benchmarks do not evaluate wildfire-specific multimodal reasoning grounded in thermal measurements. We introduce WildFireVQA, a large-scale VQA benchmark for aerial wildfire monitoring that integrates RGB imagery with radiometric thermal data. WildFireVQA contains 6,097 RGB-thermal samples, where each sample includes an RGB image, a color-mapped thermal visualization, and a radiometric thermal TIFF, and is paired with 34 questions, yielding a total of 207,298 multiple-choice questions spanning presence and detection, classification, distribution and segmentation, localization and direction, cross-modal reasoning, and flight planning for operational wildfire intelligence. To improve annotation reliability, we combine multimodal large language model (MLLM)-based answer generation with sensor-driven deterministic labeling, manual verification, and intra-frame and inter-frame consistency checks. We further establish a comprehensive evaluation protocol for representative MLLMs under RGB, Thermal, and retrieval-augmented settings using radiometric thermal statistics. Experiments show that across task categories, RGB remains the strongest modality for current models, while retrieved thermal context yields gains for stronger MLLMs, highlighting both the value of temperature-grounded reasoning and the limitations of existing MLLMs in safety-critical wildfire scenarios. The dataset and benchmark code are open-source at https://github.com/mobiiin/WildFire_VQA.