SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection
作者: Tianye Qi, Weihao Li, Nick Barnes
分类: cs.CV
发布日期: 2025-12-12
备注: Accepted to WACV 2026
💡 一句话要点
SmokeBench:评估多模态大语言模型在野火烟雾检测中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 野火烟雾检测 基准数据集 目标定位 计算机视觉
📋 核心要点
- 现有方法难以有效检测早期野火烟雾,因其透明、不定形且易与云混淆,造成了安全隐患。
- SmokeBench基准旨在评估多模态大语言模型识别和定位图像中野火烟雾的能力,包含分类和定位等任务。
- 实验结果表明,现有MLLM在烟雾分类上表现尚可,但在精确定位,特别是早期阶段的烟雾定位上存在明显不足。
📝 摘要(中文)
野火烟雾具有透明、不定形且视觉上常与云混淆的特点,使得早期检测极具挑战性。本文提出了一个名为SmokeBench的基准,用于评估多模态大语言模型(MLLMs)在图像中识别和定位野火烟雾的能力。该基准包含四个任务:(1)烟雾分类,(2)基于瓦片的烟雾定位,(3)基于网格的烟雾定位,以及(4)烟雾检测。我们评估了多个MLLM,包括Idefics2、Qwen2.5-VL、InternVL3、Unified-IO 2、Grounding DINO、GPT-4o和Gemini-2.5 Pro。结果表明,虽然一些模型可以分类大面积覆盖的烟雾,但所有模型在精确定位方面都存在困难,尤其是在早期阶段。进一步分析表明,烟雾体积与模型性能密切相关,而对比度起的作用相对较小。这些发现突出了当前MLLM在安全关键的野火监测方面的关键局限性,并强调了改进早期烟雾定位方法的需求。
🔬 方法详解
问题定义:论文旨在解决野火烟雾早期检测的难题,现有方法难以有效定位透明、不定形且易与云混淆的早期烟雾,导致监测滞后。现有方法在精确定位早期烟雾方面存在明显不足,无法满足安全关键的野火监测需求。
核心思路:论文的核心思路是构建一个专门用于评估多模态大语言模型(MLLMs)在野火烟雾检测任务中性能的基准数据集和评估体系。通过系统性的评估,揭示现有MLLMs在烟雾识别和定位方面的优势与不足,从而指导未来模型的发展方向。
技术框架:SmokeBench基准包含四个任务:烟雾分类、基于瓦片的烟雾定位、基于网格的烟雾定位和烟雾检测。研究者使用该基准评估了多个MLLM模型,包括Idefics2、Qwen2.5-VL、InternVL3、Unified-IO 2、Grounding DINO、GPT-4o和Gemini-2.5 Pro。评估过程涉及将图像输入到MLLM中,并根据模型的输出结果与真实标签进行比较,从而评估模型的性能。
关键创新:该论文的关键创新在于构建了一个专门针对野火烟雾检测的基准数据集SmokeBench。该基准涵盖了多种烟雾场景和定位任务,能够全面评估MLLMs在烟雾检测方面的能力。此外,论文还深入分析了影响模型性能的关键因素,例如烟雾体积和对比度,为未来的研究提供了有价值的参考。
关键设计:SmokeBench基准的设计考虑了不同粒度的烟雾定位任务,包括瓦片级别和网格级别,以评估模型在不同尺度下的定位能力。评估指标的选择也充分考虑了烟雾检测的特殊性,例如,针对早期烟雾的检测,可能需要更关注召回率而非精确率。论文还分析了烟雾体积和对比度等因素对模型性能的影响,为未来的模型设计提供了指导。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在烟雾分类任务上表现尚可,但在精确定位烟雾方面存在明显不足,尤其是在早期阶段。研究发现,烟雾体积与模型性能呈正相关,而对比度影响较小。例如,当烟雾覆盖较大面积时,模型分类准确率较高,但对于小范围或低对比度的烟雾,模型难以准确定位。
🎯 应用场景
该研究成果可应用于野火监测预警系统,通过多模态大语言模型分析卫星图像或无人机拍摄的图像,实现对野火烟雾的早期检测和定位,从而为火灾防控争取宝贵时间,减少人员伤亡和财产损失。未来可结合气象数据和地理信息,提升预警的准确性和可靠性。
📄 摘要(原文)
Wildfire smoke is transparent, amorphous, and often visually confounded with clouds, making early-stage detection particularly challenging. In this work, we introduce a benchmark, called SmokeBench, to evaluate the ability of multimodal large language models (MLLMs) to recognize and localize wildfire smoke in images. The benchmark consists of four tasks: (1) smoke classification, (2) tile-based smoke localization, (3) grid-based smoke localization, and (4) smoke detection. We evaluate several MLLMs, including Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, and Gemini-2.5 Pro. Our results show that while some models can classify the presence of smoke when it covers a large area, all models struggle with accurate localization, especially in the early stages. Further analysis reveals that smoke volume is strongly correlated with model performance, whereas contrast plays a comparatively minor role. These findings highlight critical limitations of current MLLMs for safety-critical wildfire monitoring and underscore the need for methods that improve early-stage smoke localization.