SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection

📄 arXiv: 2512.11215v1 📥 PDF

作者: Tianye Qi, Weihao Li, Nick Barnes

分类: cs.CV

发布日期: 2025-12-12

备注: Accepted to WACV 2026


💡 一句话要点

SmokeBench:评估多模态大语言模型在野火烟雾检测中的性能

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 多模态大语言模型 野火烟雾检测 基准数据集 目标定位 计算机视觉

📋 核心要点

  1. 早期野火烟雾检测面临透明、形态不定且易与云混淆的挑战,现有方法难以有效应对。
  2. SmokeBench基准旨在评估多模态大语言模型在野火烟雾识别和定位方面的能力,包含分类和定位等任务。
  3. 实验结果表明,现有MLLMs在烟雾分类上表现尚可,但在早期烟雾精确定位方面存在明显不足。

📝 摘要(中文)

野火烟雾具有透明、不定形且视觉上容易与云混淆的特点,这使得早期阶段的检测极具挑战性。本文提出了一个名为SmokeBench的基准,用于评估多模态大语言模型(MLLMs)在图像中识别和定位野火烟雾的能力。该基准包含四个任务:(1)烟雾分类,(2)基于瓦片的烟雾定位,(3)基于网格的烟雾定位,以及(4)烟雾检测。我们评估了多个MLLMs,包括Idefics2、Qwen2.5-VL、InternVL3、Unified-IO 2、Grounding DINO、GPT-4o和Gemini-2.5 Pro。结果表明,虽然一些模型可以在烟雾覆盖大面积时分类烟雾的存在,但所有模型在精确定位方面都存在困难,尤其是在早期阶段。进一步的分析表明,烟雾体积与模型性能密切相关,而对比度起到的作用相对较小。这些发现突出了当前MLLMs在安全关键的野火监测方面的关键局限性,并强调了改进早期烟雾定位方法的需求。

🔬 方法详解

问题定义:论文旨在解决野火烟雾的早期检测问题,特别是烟雾透明、不定形且容易与云混淆导致的定位困难。现有方法在早期烟雾检测中精度不足,无法满足安全关键的野火监测需求。

核心思路:论文的核心思路是利用多模态大语言模型(MLLMs)的视觉理解和推理能力,通过图像输入来识别和定位野火烟雾。通过构建包含分类和定位任务的SmokeBench基准,系统性地评估现有MLLMs的性能。

技术框架:SmokeBench基准包含四个任务:烟雾分类(判断图像中是否存在烟雾)、基于瓦片的烟雾定位(在图像瓦片中定位烟雾)、基于网格的烟雾定位(在图像网格中定位烟雾)和烟雾检测(检测烟雾的边界框)。研究者使用这些任务来评估MLLMs在不同粒度上的烟雾识别和定位能力。

关键创新:该研究的关键创新在于构建了一个专门用于评估MLLMs在野火烟雾检测任务上的性能的基准数据集SmokeBench。该基准包含多种定位任务,能够更全面地评估模型的定位能力,并揭示了现有MLLMs在早期烟雾定位方面的局限性。

关键设计:SmokeBench基准的设计考虑了野火烟雾的特点,例如烟雾的透明度和不定形。评估过程中,研究者分析了烟雾体积和图像对比度等因素对模型性能的影响,发现烟雾体积与模型性能有较强的相关性,而对比度影响较小。此外,研究者还探索了不同MLLMs在不同任务上的表现差异。

📊 实验亮点

实验结果表明,现有MLLMs在烟雾分类任务上表现相对较好,但在烟雾定位任务上表现不佳,尤其是在早期烟雾检测中。烟雾体积与模型性能呈正相关,而对比度影响较小。例如,一些模型可以识别大面积烟雾,但在精确定位小范围烟雾时表现较差。GPT-4o和Gemini-2.5 Pro等模型在分类任务上表现相对较好,但在定位任务上仍然存在明显的局限性。

🎯 应用场景

该研究成果可应用于野火早期预警系统,通过分析无人机、卫星或地面摄像头拍摄的图像,辅助人工进行烟雾检测和火情判断。提升野火监测的效率和准确性,降低火灾风险,保护生态环境和人民生命财产安全。未来的研究可以集中在改进早期烟雾定位算法,提高模型对小体积、低对比度烟雾的检测能力。

📄 摘要(原文)

Wildfire smoke is transparent, amorphous, and often visually confounded with clouds, making early-stage detection particularly challenging. In this work, we introduce a benchmark, called SmokeBench, to evaluate the ability of multimodal large language models (MLLMs) to recognize and localize wildfire smoke in images. The benchmark consists of four tasks: (1) smoke classification, (2) tile-based smoke localization, (3) grid-based smoke localization, and (4) smoke detection. We evaluate several MLLMs, including Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, and Gemini-2.5 Pro. Our results show that while some models can classify the presence of smoke when it covers a large area, all models struggle with accurate localization, especially in the early stages. Further analysis reveals that smoke volume is strongly correlated with model performance, whereas contrast plays a comparatively minor role. These findings highlight critical limitations of current MLLMs for safety-critical wildfire monitoring and underscore the need for methods that improve early-stage smoke localization.