MCANet: A Multi-Scale Class-Specific Attention Network for Multi-Label Post-Hurricane Damage Assessment using UAV Imagery
作者: Zhangding Liu, Neda Mohammadi, John E. Taylor
分类: cs.CV, cs.AI
发布日期: 2025-09-05
备注: 34 pages, 7 figures
💡 一句话要点
提出MCANet,利用多尺度类特定注意力网络进行无人机图像的飓风灾后多标签评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多标签分类 灾后评估 无人机图像 多尺度特征 注意力机制 Res2Net 类特定注意力
📋 核心要点
- 现有基于CNN的灾后评估方法难以有效捕捉多尺度空间特征,且难以区分视觉相似的灾害类型。
- MCANet通过Res2Net骨干网络提取多尺度特征,并使用多头类特定残差注意力模块自适应关注相关区域。
- 实验表明,MCANet在RescueNet数据集上取得了91.75%的mAP,优于多种主流模型,并能有效定位灾害区域。
📝 摘要(中文)
快速且准确的飓风灾后评估对于灾害响应和恢复至关重要。然而,现有的基于CNN的方法难以捕捉多尺度空间特征,并且难以区分视觉上相似或共现的灾害类型。为了解决这些问题,我们提出了MCANet,一个多标签分类框架,它学习多尺度表示,并自适应地关注每个灾害类别在空间上相关的区域。MCANet采用基于Res2Net的分层骨干网络来丰富跨尺度的空间上下文,并采用多头类特定残差注意力模块来增强判别能力。每个注意力分支侧重于不同的空间粒度,平衡局部细节和全局上下文。我们在飓风迈克尔之后收集的4494张无人机图像的RescueNet数据集上评估了MCANet。MCANet实现了91.75%的平均精度均值(mAP),优于ResNet、Res2Net、VGG、MobileNet、EfficientNet和ViT。使用八个注意力头时,性能进一步提高到92.35%,将“道路阻塞”等具有挑战性的类别的平均精度提高了6%以上。类激活图证实了MCANet定位灾害相关区域的能力,支持了可解释性。MCANet的输出可以为灾后风险图、紧急路线规划和基于数字孪生的灾害响应提供信息。未来的工作可以整合特定于灾害的知识图谱和多模态大型语言模型,以提高对未见灾害的适应性,并丰富对现实世界决策的语义理解。
🔬 方法详解
问题定义:论文旨在解决飓风灾后评估中,利用无人机图像进行多标签分类时,现有方法无法有效提取多尺度空间特征,且难以区分视觉相似或共现的灾害类型的问题。现有方法的痛点在于对不同尺度信息的融合不足,以及缺乏对不同灾害类别针对性关注的能力。
核心思路:论文的核心思路是设计一个能够学习多尺度表示,并自适应地关注每个灾害类别在空间上相关区域的网络。通过多尺度特征提取和类特定注意力机制,提升模型对不同灾害类型的识别精度和定位能力。这样设计的目的是为了更准确地评估灾后损失,为灾害响应提供更可靠的信息。
技术框架:MCANet的整体架构包含一个基于Res2Net的分层骨干网络和一个多头类特定残差注意力模块。首先,Res2Net骨干网络用于提取多尺度的空间特征。然后,多头类特定残差注意力模块对提取的特征进行处理,每个注意力头关注不同的空间粒度,并为每个灾害类别生成特定的注意力图。最后,通过这些注意力图来增强模型对灾害相关区域的关注,从而提高分类精度。
关键创新:论文最重要的技术创新点在于提出了多头类特定残差注意力模块。该模块能够为每个灾害类别学习独立的注意力图,从而使模型能够自适应地关注与该类别相关的空间区域。与传统的注意力机制不同,该模块针对每个类别进行优化,能够更好地捕捉不同灾害类型的特征。
关键设计:Res2Net作为骨干网络,通过分层残差连接增强了多尺度特征的提取能力。多头注意力模块使用了8个注意力头,以捕捉不同空间粒度的信息。损失函数使用了标准的二元交叉熵损失函数,用于多标签分类任务。残差连接被用于注意力模块中,以避免梯度消失问题。
📊 实验亮点
MCANet在RescueNet数据集上取得了显著的性能提升,mAP达到了91.75%,优于ResNet、Res2Net、VGG、MobileNet、EfficientNet和ViT等基线模型。通过增加注意力头的数量到8个,mAP进一步提升至92.35%,并且对于“道路阻塞”等具有挑战性的类别,平均精度提升超过6%。类激活图可视化结果表明,MCANet能够有效定位灾害相关区域。
🎯 应用场景
该研究成果可应用于灾后风险评估、紧急路线规划和基于数字孪生的灾害响应。通过快速准确地评估灾害损失,可以为救援队伍提供更有效的信息,优化资源分配,并加速灾后重建。未来,该技术还可以扩展到其他类型的自然灾害评估中,具有广阔的应用前景。
📄 摘要(原文)
Rapid and accurate post-hurricane damage assessment is vital for disaster response and recovery. Yet existing CNN-based methods struggle to capture multi-scale spatial features and to distinguish visually similar or co-occurring damage types. To address these issues, we propose MCANet, a multi-label classification framework that learns multi-scale representations and adaptively attends to spatially relevant regions for each damage category. MCANet employs a Res2Net-based hierarchical backbone to enrich spatial context across scales and a multi-head class-specific residual attention module to enhance discrimination. Each attention branch focuses on different spatial granularities, balancing local detail with global context. We evaluate MCANet on the RescueNet dataset of 4,494 UAV images collected after Hurricane Michael. MCANet achieves a mean average precision (mAP) of 91.75%, outperforming ResNet, Res2Net, VGG, MobileNet, EfficientNet, and ViT. With eight attention heads, performance further improves to 92.35%, boosting average precision for challenging classes such as Road Blocked by over 6%. Class activation mapping confirms MCANet's ability to localize damage-relevant regions, supporting interpretability. Outputs from MCANet can inform post-disaster risk mapping, emergency routing, and digital twin-based disaster response. Future work could integrate disaster-specific knowledge graphs and multimodal large language models to improve adaptability to unseen disasters and enrich semantic understanding for real-world decision-making.