Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media

📄 arXiv: 2603.18611v1 📥 PDF

作者: Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl

分类: cs.CL, cs.CV

发布日期: 2026-03-19

备注: Accepted at WWW 2026

DOI: 10.1145/3774904.3792991


💡 一句话要点

提出跨模态推理迁移方法,用于社交媒体人道主义分类的可解释性研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 可解释性AI 跨模态迁移 人道主义分类 社交媒体分析

📋 核心要点

  1. 现有方法在人道主义分类中缺乏透明度,影响了实际部署,尤其是在危机相关的图像理解方面。
  2. 该方法通过跨模态理由迁移,利用文本理由来指导图像理由的提取,降低了图像标注成本。
  3. 实验表明,该方法在CrisisMMD数据集上显著提升了分类性能,并具有良好的零样本迁移能力。

📝 摘要(中文)

本文提出了一种可解释的多模态分类框架,用于解决危机事件中社交媒体数据的人道主义分类问题。该方法利用视觉语言Transformer模型学习文本和图像的联合表示,并提取文本理由。然后,通过与文本理由的映射提取图像理由,实现了跨模态理由迁移,从而减少了标注工作量。最后,基于提取的理由对推文进行分类。在CrisisMMD基准数据集上的实验表明,该方法在提取准确的文本token和图像块作为理由的同时,将分类Macro-F1提高了2-35%。人工评估也支持了该方法能够检索更好的图像理由块(12%),有助于识别各类人道主义需求。该方法在零样本模式下也能很好地适应新的、未见过的数据集,准确率达到80%。

🔬 方法详解

问题定义:论文旨在解决社交媒体上人道主义危机信息分类的可解释性问题。现有方法主要集中在文本分类,且决策过程不透明,难以解释。对于图像,缺乏有效的理由提取方法,导致模型难以理解和信任。

核心思路:论文的核心思路是利用文本模态的理由信息来指导图像模态的理由提取,实现跨模态的理由迁移。通过这种方式,可以避免对图像进行大量的标注工作,同时提高图像理由的准确性和可解释性。

技术框架:整体框架包含以下几个主要阶段:1) 使用视觉语言Transformer模型学习文本和图像的联合表示;2) 从文本中提取文本理由;3) 通过文本理由与图像的映射,提取图像理由;4) 基于提取的文本和图像理由进行最终的分类。

关键创新:最重要的创新点在于跨模态理由迁移。传统方法通常独立处理不同模态的数据,而该方法通过文本理由来指导图像理由的提取,实现了模态之间的信息共享和互补。这种方法不仅提高了图像理由的质量,还降低了标注成本。

关键设计:论文使用视觉语言Transformer模型(具体模型未明确说明,但应为类似ViLT或CLIP的模型)来学习文本和图像的联合表示。文本理由的提取可能使用了注意力机制或其他可解释性方法。图像理由的提取通过与文本理由的映射实现,具体映射方法未知。损失函数的设计可能包括分类损失和理由提取的损失,以保证分类的准确性和理由的合理性。具体的网络结构和参数设置在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在CrisisMMD数据集上将分类Macro-F1提高了2-35%,同时能够提取准确的文本token和图像块作为理由。人工评估显示,该方法能够检索更好的图像理由块(12%),有助于识别各类人道主义需求。此外,该方法在零样本模式下也能很好地适应新的数据集,准确率达到80%。

🎯 应用场景

该研究成果可应用于灾害救援、人道主义援助等领域,帮助快速准确地识别社交媒体上的危机信息,例如基础设施损坏、人员失踪等。通过提供可解释的分类结果,可以提高决策者对AI系统的信任度,从而更好地利用社交媒体数据进行危机管理和响应。未来,该方法可以扩展到其他多模态任务中,例如医疗诊断、金融风险评估等。

📄 摘要(原文)

Advances in social media data dissemination enable the provision of real-time information during a crisis. The information comes from different classes, such as infrastructure damages, persons missing or stranded in the affected zone, etc. Existing methods attempted to classify text and images into various humanitarian categories, but their decision-making process remains largely opaque, which affects their deployment in real-life applications. Recent work has sought to improve transparency by extracting textual rationales from tweets to explain predicted classes. However, such explainable classification methods have mostly focused on text, rather than crisis-related images. In this paper, we propose an interpretable-by-design multimodal classification framework. Our method first learns the joint representation of text and image using a visual language transformer model and extracts text rationales. Next, it extracts the image rationales via the mapping with text rationales. Our approach demonstrates how to learn rationales in one modality from another through cross-modal rationale transfer, which saves annotation effort. Finally, tweets are classified based on extracted rationales. Experiments are conducted over CrisisMMD benchmark dataset, and results show that our proposed method boosts the classification Macro-F1 by 2-35% while extracting accurate text tokens and image patches as rationales. Human evaluation also supports the claim that our proposed method is able to retrieve better image rationale patches (12%) that help to identify humanitarian classes. Our method adapts well to new, unseen datasets in zero-shot mode, achieving an accuracy of 80%.