SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection

作者: Tianye Qi, Weihao Li, Nick Barnes

分类: cs.CV

发布日期: 2025-12-12

备注: Accepted to WACV 2026

💡 一句话要点

SmokeBench：评估多模态大语言模型在野火烟雾检测中的性能

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 多模态大语言模型 野火烟雾检测 基准数据集 目标定位 计算机视觉

📋 核心要点

早期野火烟雾检测面临透明、形态不定且易与云混淆的挑战，现有方法难以有效应对。
SmokeBench基准旨在评估多模态大语言模型在野火烟雾识别和定位方面的能力，包含分类和定位等任务。
实验结果表明，现有MLLMs在烟雾分类上表现尚可，但在早期烟雾精确定位方面存在明显不足。

📝 摘要（中文）

野火烟雾具有透明、不定形且视觉上容易与云混淆的特点，这使得早期阶段的检测极具挑战性。本文提出了一个名为SmokeBench的基准，用于评估多模态大语言模型（MLLMs）在图像中识别和定位野火烟雾的能力。该基准包含四个任务：（1）烟雾分类，（2）基于瓦片的烟雾定位，（3）基于网格的烟雾定位，以及（4）烟雾检测。我们评估了多个MLLMs，包括Idefics2、Qwen2.5-VL、InternVL3、Unified-IO 2、Grounding DINO、GPT-4o和Gemini-2.5 Pro。结果表明，虽然一些模型可以在烟雾覆盖大面积时分类烟雾的存在，但所有模型在精确定位方面都存在困难，尤其是在早期阶段。进一步的分析表明，烟雾体积与模型性能密切相关，而对比度起到的作用相对较小。这些发现突出了当前MLLMs在安全关键的野火监测方面的关键局限性，并强调了改进早期烟雾定位方法的需求。

🔬 方法详解

问题定义：论文旨在解决野火烟雾的早期检测问题，特别是烟雾透明、不定形且容易与云混淆导致的定位困难。现有方法在早期烟雾检测中精度不足，无法满足安全关键的野火监测需求。

核心思路：论文的核心思路是利用多模态大语言模型（MLLMs）的视觉理解和推理能力，通过图像输入来识别和定位野火烟雾。通过构建包含分类和定位任务的SmokeBench基准，系统性地评估现有MLLMs的性能。

技术框架：SmokeBench基准包含四个任务：烟雾分类（判断图像中是否存在烟雾）、基于瓦片的烟雾定位（在图像瓦片中定位烟雾）、基于网格的烟雾定位（在图像网格中定位烟雾）和烟雾检测（检测烟雾的边界框）。研究者使用这些任务来评估MLLMs在不同粒度上的烟雾识别和定位能力。

关键创新：该研究的关键创新在于构建了一个专门用于评估MLLMs在野火烟雾检测任务上的性能的基准数据集SmokeBench。该基准包含多种定位任务，能够更全面地评估模型的定位能力，并揭示了现有MLLMs在早期烟雾定位方面的局限性。

关键设计：SmokeBench基准的设计考虑了野火烟雾的特点，例如烟雾的透明度和不定形。评估过程中，研究者分析了烟雾体积和图像对比度等因素对模型性能的影响，发现烟雾体积与模型性能有较强的相关性，而对比度影响较小。此外，研究者还探索了不同MLLMs在不同任务上的表现差异。

📊 实验亮点

实验结果表明，现有MLLMs在烟雾分类任务上表现相对较好，但在烟雾定位任务上表现不佳，尤其是在早期烟雾检测中。烟雾体积与模型性能呈正相关，而对比度影响较小。例如，一些模型可以识别大面积烟雾，但在精确定位小范围烟雾时表现较差。GPT-4o和Gemini-2.5 Pro等模型在分类任务上表现相对较好，但在定位任务上仍然存在明显的局限性。

🎯 应用场景

该研究成果可应用于野火早期预警系统，通过分析无人机、卫星或地面摄像头拍摄的图像，辅助人工进行烟雾检测和火情判断。提升野火监测的效率和准确性，降低火灾风险，保护生态环境和人民生命财产安全。未来的研究可以集中在改进早期烟雾定位算法，提高模型对小体积、低对比度烟雾的检测能力。

📄 摘要（原文）

Wildfire smoke is transparent, amorphous, and often visually confounded with clouds, making early-stage detection particularly challenging. In this work, we introduce a benchmark, called SmokeBench, to evaluate the ability of multimodal large language models (MLLMs) to recognize and localize wildfire smoke in images. The benchmark consists of four tasks: (1) smoke classification, (2) tile-based smoke localization, (3) grid-based smoke localization, and (4) smoke detection. We evaluate several MLLMs, including Idefics2, Qwen2.5-VL, InternVL3, Unified-IO 2, Grounding DINO, GPT-4o, and Gemini-2.5 Pro. Our results show that while some models can classify the presence of smoke when it covers a large area, all models struggle with accurate localization, especially in the early stages. Further analysis reveals that smoke volume is strongly correlated with model performance, whereas contrast plays a comparatively minor role. These findings highlight critical limitations of current MLLMs for safety-critical wildfire monitoring and underscore the need for methods that improve early-stage smoke localization.

SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册