MultiClimate: Multimodal Stance Detection on Climate Change Videos

📄 arXiv: 2409.18346v1 📥 PDF

作者: Jiawen Wang, Longfei Zuo, Siyao Peng, Barbara Plank

分类: cs.CL, cs.CV

发布日期: 2024-09-26

备注: 5 pages, 1 figure

🔗 代码/项目: GITHUB


💡 一句话要点

提出MultiClimate数据集,用于气候变化视频的多模态立场检测研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 气候变化 立场检测 多模态学习 视频分析 自然语言处理

📋 核心要点

  1. 现有多模态气候变化立场检测研究缺乏可靠数据集,限制了对公众意见和沟通策略的深入理解。
  2. 论文构建了包含100个YouTube视频和4209个帧-文本对的MultiClimate数据集,用于多模态立场检测。
  3. 实验表明,多模态融合模型优于单模态模型,且在小规模数据集上优于大型语言模型。

📝 摘要(中文)

气候变化(CC)近年来在自然语言处理领域受到越来越多的关注。然而,由于缺乏可靠的数据集,对多模态数据中气候变化立场的检测研究不足,并且仍然具有挑战性。为了提高对公众意见和沟通策略的理解,本文提出了MultiClimate,这是第一个开源的手动标注的立场检测数据集,包含100个与气候变化相关的YouTube视频和4,209个帧-文本对。我们部署了最先进的视觉和语言模型,以及多模态模型用于MultiClimate立场检测。结果表明,仅文本的BERT明显优于仅图像的ResNet50和ViT。结合两种模态实现了最先进的性能,准确率/F1分别为0.747/0.749。我们100M大小的融合模型也优于CLIP和BLIP,以及更大的9B大小的多模态IDEFICS和仅文本的Llama3和Gemma2,表明多模态立场检测对于大型语言模型仍然具有挑战性。我们的代码、数据集以及补充材料可在https://github.com/werywjw/MultiClimate获得。

🔬 方法详解

问题定义:论文旨在解决气候变化视频中立场检测的问题。现有方法主要集中在文本数据上,忽略了视频中视觉信息的重要性。缺乏高质量的多模态数据集阻碍了相关研究的进展,使得现有模型难以有效捕捉视频中的立场信息。

核心思路:论文的核心思路是构建一个高质量的多模态数据集,并利用现有的视觉和语言模型进行融合,从而提升气候变化视频立场检测的性能。通过结合视频帧和文本信息,模型可以更全面地理解视频内容,从而更准确地判断立场。

技术框架:整体框架包括数据收集与标注、特征提取和模型训练三个主要阶段。首先,从YouTube收集与气候变化相关的视频,并进行人工标注,构建MultiClimate数据集。然后,使用预训练的视觉模型(如ResNet50、ViT)和语言模型(如BERT)分别提取视频帧和文本的特征。最后,将提取的特征进行融合,并训练多模态立场检测模型。

关键创新:论文的关键创新在于构建了首个开源的手动标注的多模态气候变化立场检测数据集MultiClimate。该数据集的发布填补了该领域的数据空白,为后续研究提供了基础。此外,实验结果表明,在小规模数据集上,专门训练的多模态融合模型优于大型语言模型,这表明针对特定任务进行模型训练仍然具有重要意义。

关键设计:论文使用了预训练的BERT模型提取文本特征,ResNet50和ViT模型提取图像特征。在多模态融合方面,探索了不同的融合策略,例如简单的特征拼接和更复杂的注意力机制。损失函数方面,使用了交叉熵损失函数进行模型训练。具体参数设置未在摘要中详细说明,需要参考原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,文本模型BERT优于图像模型ResNet50和ViT,多模态融合模型取得了最佳性能,准确率和F1值分别达到0.747和0.749。更重要的是,在MultiClimate数据集上训练的100M大小的多模态融合模型优于CLIP、BLIP以及9B大小的IDEFICS、Llama3和Gemma2等大型模型,突显了小规模数据集上针对性训练的优势。

🎯 应用场景

该研究成果可应用于舆情分析、社交媒体监控、公共政策制定等领域。通过自动检测气候变化视频的立场,可以帮助政府和组织更好地了解公众对气候变化的态度,从而制定更有效的沟通策略和政策措施。此外,该数据集的发布也有助于推动多模态立场检测领域的研究进展。

📄 摘要(原文)

Climate change (CC) has attracted increasing attention in NLP in recent years. However, detecting the stance on CC in multimodal data is understudied and remains challenging due to a lack of reliable datasets. To improve the understanding of public opinions and communication strategies, this paper presents MultiClimate, the first open-source manually-annotated stance detection dataset with $100$ CC-related YouTube videos and $4,209$ frame-transcript pairs. We deploy state-of-the-art vision and language models, as well as multimodal models for MultiClimate stance detection. Results show that text-only BERT significantly outperforms image-only ResNet50 and ViT. Combining both modalities achieves state-of-the-art, $0.747$/$0.749$ in accuracy/F1. Our 100M-sized fusion models also beat CLIP and BLIP, as well as the much larger 9B-sized multimodal IDEFICS and text-only Llama3 and Gemma2, indicating that multimodal stance detection remains challenging for large language models. Our code, dataset, as well as supplementary materials, are available at https://github.com/werywjw/MultiClimate.