From Codebooks to VLMs: Evaluating Automated Visual Discourse Analysis for Climate Change on Social Media

📄 arXiv: 2604.21786v1 📥 PDF

作者: Katharina Prasse, Steffen Jung, Isaac Bravo, Stefanie Walter, Patrick Knab, Christian Bartelt, Margret Keuper

分类: cs.CV

发布日期: 2026-04-23

🔗 代码/项目: GITHUB


💡 一句话要点

评估视觉语言模型在社交媒体气候变化讨论分析中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 气候变化 社交媒体分析 计算机视觉 提示工程

📋 核心要点

  1. 现有气候传播研究缺乏对社交媒体图像内容的大规模自动化分析方法,难以有效评估不同传播策略的影响。
  2. 本文提出利用视觉语言模型(VLM)进行社交媒体图像的话语分析,通过提示工程和模型选择优化性能。
  3. 实验表明,即使单张图像精度不高,VLM仍能可靠地恢复群体层面的趋势,为大规模话语分析提供可行方案。

📝 摘要(中文)

社交媒体平台已成为气候传播的主要场所,产生了数百万的图像和帖子。系统地分析这些内容,可以揭示哪些传播策略能够调动公众的关注,哪些策略效果不佳。本文旨在通过分析计算机视觉方法如何用于社交媒体话语分析来促进此类研究。该分析包括基于应用的分类设计、模型选择、提示工程和验证。我们在来自X(前身为Twitter)的两个数据集上,对六个可提示的视觉语言模型和15个零样本CLIP类模型进行了基准测试。数据集包括一个包含1,038张图像的专家注释集和一个包含超过120万张图像的大型语料库,其中50,000个标签经过手动验证,涵盖五个注释维度:动物内容、气候变化后果、气候行动、图像设置和图像类型。在基准测试的模型中,Gemini-3.1-flash-lite在所有超类别和两个数据集上均优于所有其他模型,而与中等规模的开放权重模型之间的差距仍然相对较小。除了实例级别的指标外,我们提倡分布评估:即使每个图像的准确率适中,VLM预测也可以可靠地恢复群体层面的趋势,使其成为大规模话语分析的可行起点。我们发现,思维链推理降低而非提高了性能,并且特定于注释维度的提示设计提高了性能。我们在https://github.com/KathPra/Codebooks2VLMs.git上发布了推文ID和标签以及我们的代码。

🔬 方法详解

问题定义:论文旨在解决社交媒体上气候变化相关图像内容的大规模自动化分析问题。现有方法要么依赖人工标注,成本高昂且难以扩展;要么使用传统计算机视觉方法,难以理解图像中的复杂语义信息。因此,需要一种能够高效、准确地分析海量社交媒体图像,并提取相关话语信息的自动化方法。

核心思路:论文的核心思路是利用视觉语言模型(VLM)的强大图像理解能力,通过提示工程(Prompt Engineering)引导模型识别图像中的气候变化相关信息。VLM能够将图像内容与文本描述联系起来,从而实现对图像语义的理解和分类。通过精心设计的提示,可以提高VLM在特定任务上的性能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 数据集构建:收集并标注包含气候变化相关图像的社交媒体数据集。2) 模型选择:选择合适的视觉语言模型,例如CLIP和Gemini-3.1-flash-lite。3) 提示工程:设计针对不同注释维度的提示,例如“这张图片显示了什么动物?”或“这张图片展示了气候变化的哪些后果?”。4) 模型评估:使用实例级别和分布级别的指标评估模型的性能。5) 结果分析:分析模型的预测结果,提取社交媒体上气候变化相关话语的趋势和模式。

关键创新:论文的关键创新在于将视觉语言模型应用于社交媒体气候变化话语分析,并提出了分布评估的概念。传统的实例级别评估关注单个图像的预测准确率,而分布评估则关注模型在整个数据集上的预测分布是否与真实分布一致。这种评估方法更适合于大规模话语分析,因为即使单个图像的预测不准确,只要整体分布正确,仍然可以提取有价值的信息。

关键设计:论文的关键设计包括:1) 针对不同注释维度(动物内容、气候变化后果、气候行动、图像设置、图像类型)设计不同的提示。2) 比较了思维链推理(Chain-of-Thought Reasoning)和直接提示的效果,发现思维链推理降低了性能。3) 使用了实例级别指标(例如准确率、精确率、召回率)和分布级别指标评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Gemini-3.1-flash-lite模型在所有超类别和两个数据集上均优于其他模型。研究发现,即使单张图像的准确率适中,VLM预测也能可靠地恢复群体层面的趋势,表明其在大规模话语分析中的可行性。此外,特定于注释维度的提示设计能够提高模型性能,而思维链推理反而降低了性能。

🎯 应用场景

该研究成果可应用于社交媒体舆情分析、气候传播效果评估、环境政策制定等领域。通过自动化分析社交媒体图像,可以了解公众对气候变化的认知和态度,评估不同传播策略的效果,为政府和企业制定更有效的气候传播策略提供数据支持。此外,该方法还可以扩展到其他社会议题的分析,例如公共卫生、社会公平等。

📄 摘要(原文)

Social media platforms have become primary arenas for climate communication, generating millions of images and posts that - if systematically analysed - can reveal which communication strategies mobilise public concern and which fall flat. We aim to facilitate such research by analysing how computer vision methods can be used for social media discourse analysis. This analysis includes application-based taxonomy design, model selection, prompt engineering, and validation. We benchmark six promptable vision-language models and 15 zero-shot CLIP-like models on two datasets from X (formerly Twitter) - a 1,038-image expert-annotated set and a larger corpus of over 1.2 million images, with 50,000 labels manually validated - spanning five annotation dimensions: animal content, climate change consequences, climate action, image setting, and image type. Among the models benchmarked, Gemini-3.1-flash-lite outperforms all others across all super-categories and both datasets, while the gap to open-weight models of moderate size remains relatively small. Beyond instance-level metrics, we advocate for distributional evaluation: VLM predictions can reliably recover population level trends even when per-image accuracy is moderate, making them a viable starting point for discourse analysis at scale. We find that chain-of-thought reasoning reduces rather than improves performance, and that annotation dimension specific prompt design improves performance. We release tweet IDs and labels along with our code at https://github.com/KathPra/Codebooks2VLMs.git.