DamageArbiter: A CLIP-Enhanced Multimodal Arbitration Framework for Hurricane Damage Assessment from Street-View Imagery

📄 arXiv: 2603.14837v1 📥 PDF

作者: Yifan Yang, Lei Zou, Wenjing Gong, Kani Fu, Zongrong Li, Siqin Wang, Bing Zhou, Heng Cai, Hao Tian

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

DamageArbiter:一种CLIP增强的多模态仲裁框架,用于街景图像的飓风灾害评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灾害评估 街景图像 多模态学习 CLIP模型 仲裁框架

📋 核心要点

  1. 传统灾害评估模型缺乏可解释性和可靠性,如同黑盒,难以信任其预测结果。
  2. DamageArbiter利用CLIP模型,通过单模态和多模态预测的仲裁,提升灾害评估的准确性和鲁棒性。
  3. 实验表明,DamageArbiter的准确率提升至82.79%,显著优于其他基线模型,并降低了过度自信的错误预测。

📝 摘要(中文)

本研究提出了一种基于对比语言-图像预训练(CLIP)模型的多模态不一致驱动仲裁框架DamageArbiter,旨在提高街景图像灾害评估的准确性、可解释性和鲁棒性。DamageArbiter利用单模态和多模态模型的互补优势,采用轻量级的逻辑回归元分类器来仲裁不一致的情况。使用2556张灾后街景图像,以及人工生成和大型语言模型(LLM)生成的文本描述,系统地比较了单模态模型(包括图像模型和文本模型)、基于CLIP的多模态模型和DamageArbiter的性能。结果表明,DamageArbiter将准确率从74.33%(ViT-B/32,仅图像)提高到82.79%,超过了80%的准确率阈值,并且比最强的基线模型提高了8.46%。DamageArbiter通过仲裁单模态和多模态预测之间的差异,缓解了视觉模型中常见的过度自信错误,尤其是在灾害视觉线索模糊或受到干扰的情况下,从而减少了过度自信但错误的预测。此外,还对地理参考预测和错误分类进行了映射和分析,以比较模型在不同位置的性能。总而言之,这项工作将基于街景的灾害评估从粗略的严重程度分类推进到更可靠和可解释的框架。

🔬 方法详解

问题定义:现有基于街景图像的灾害评估模型,尤其是纯视觉模型,常常缺乏可解释性,并且在视觉信息模糊或存在干扰时容易产生过度自信的错误预测。这些模型难以区分细微的灾害程度差异,并且容易受到光照、遮挡等因素的影响,导致评估结果的可靠性降低。

核心思路:DamageArbiter的核心思路是融合单模态(图像和文本)和多模态信息,利用CLIP模型强大的跨模态理解能力,通过仲裁不同模态之间的预测差异来提高整体评估的准确性和鲁棒性。通过引入文本信息,可以弥补图像信息的不足,减少视觉模型中的过度自信错误。

技术框架:DamageArbiter框架包含以下几个主要模块:1) 单模态模型:包括图像模型(如ViT)和文本模型(如BERT),分别对街景图像和对应的文本描述进行特征提取和灾害等级预测。2) 多模态CLIP模型:利用CLIP模型将图像和文本映射到同一特征空间,进行多模态特征融合和灾害等级预测。3) 仲裁模块:使用一个轻量级的逻辑回归元分类器,根据单模态和多模态模型的预测结果,以及它们之间的差异,来决定最终的灾害等级预测。

关键创新:DamageArbiter的关键创新在于其多模态仲裁机制,它不是简单地将不同模态的预测结果进行平均或加权,而是通过学习不同模态之间的预测差异,来判断哪些预测结果更可靠,从而做出更准确的决策。这种仲裁机制可以有效地缓解视觉模型中的过度自信错误,提高模型在复杂环境下的鲁棒性。

关键设计:DamageArbiter的关键设计包括:1) 使用CLIP模型进行多模态特征融合,利用其强大的跨模态理解能力。2) 使用逻辑回归元分类器作为仲裁器,其参数可以通过训练数据进行优化,以学习最佳的仲裁策略。3) 采用不一致性驱动的仲裁策略,重点关注单模态和多模态预测结果存在差异的情况,并根据差异的大小和方向来调整最终的预测结果。

📊 实验亮点

DamageArbiter在2556张灾后街景图像数据集上进行了评估,结果表明,其准确率达到了82.79%,相比于最强的基线模型ViT-B/32(准确率74.33%)提升了8.46%。此外,DamageArbiter还显著降低了视觉模型中的过度自信错误,提高了模型在复杂环境下的鲁棒性。通过地理参考预测和错误分类分析,进一步验证了DamageArbiter在不同地理位置的有效性。

🎯 应用场景

DamageArbiter可应用于飓风、地震等自然灾害后的快速灾害评估,为应急响应和灾后重建提供决策支持。该框架能够分析街景图像,自动评估建筑物受损程度,帮助政府和救援组织快速了解灾情分布,合理分配资源,提高救援效率。未来,该技术还可扩展到其他类型的灾害评估,例如火灾、洪水等。

📄 摘要(原文)

Analyzing street-view imagery with computer vision models for rapid, hyperlocal damage assessment is becoming popular and valuable in emergency response and recovery, but traditional models often act like black boxes, lacking interpretability and reliability. This study proposes a multimodal disagreement-driven Arbitration framework powered by Contrastive Language-Image Pre-training (CLIP) models, DamageArbiter, to improve the accuracy, interpretability, and robustness of damage estimation from street-view imagery. DamageArbiter leverages the complementary strengths of unimodal and multimodal models, employing a lightweight logistic regression meta-classifier to arbitrate cases of disagreement. Using 2,556 post-disaster street-view images, paired with both manually generated and large language model (LLM)-generated text descriptions, we systematically compared the performance of unimodal models (including image-only and text-only models), multimodal CLIP-based models, and DamageArbiter. Notably, DamageArbiter improved the accuracy from 74.33% (ViT-B/32, image-only) to 82.79%, surpassing the 80% accuracy threshold and achieving an absolute improvement of 8.46% compared to the strongest baseline model. Beyond improvements in overall accuracy, compared to visual models relying solely on images, DamageArbiter, through arbitration of discrepancies between unimodal and multimodal predictions, mitigates common overconfidence errors in visual models, especially in situations where disaster visual cues are ambiguous or subject to interference, reducing overconfidence but incorrect predictions. We further mapped and analyzed geo-referenced predictions and misclassifications to compare model performance across locations. Overall, this work advances street-view-based disaster assessment from coarse severity classification toward a more reliable and interpretable framework.