CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ)
作者: Abhilekh Borah, Hasnat Md Abdullah, Kangda Wei, Ruihong Huang
分类: cs.CL
发布日期: 2025-04-04
备注: 16 pages, 9 figures
💡 一句话要点
提出CliME多模态气候数据集与CAQ评估指标,用于评估LLM在气候讨论中的表现。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 气候变化 多模态数据 大型语言模型 评估指标 社交媒体
📋 核心要点
- 现有方法缺乏对社交媒体上气候变化多模态表达的有效分析,无法判断LLM是否促进了可信的气候解决方案。
- 论文提出CliME数据集和CAQ评估指标,旨在系统评估LLM在理解和生成气候相关讨论方面的能力。
- 实验结果表明,现有LLM在行动性方面表现不足,Claude 3.7 Sonnet模型在整体性能上表现最佳。
📝 摘要(中文)
大型语言模型(LLM)在理解气候相关语境方面的能力备受关注。虽然气候变化在社交媒体上占据主导地位,但对其多模态表达的分析尚不充分,现有工具也未能确定LLM是放大可信的解决方案还是传播未经证实的说法。为了解决这个问题,我们推出了CliME(气候变化多模态评估),这是一个首创的多模态数据集,包含2579条Twitter和Reddit帖子。该基准测试集包含各种幽默的表情包和怀疑论者的帖子,捕捉了这些形式如何将复杂的问题提炼成病毒式传播的叙事,从而影响公众舆论和政策讨论。为了系统地评估LLM的性能,我们提出了气候一致性商(CAQ),这是一种包含五个不同维度的新型指标:表达、证据、共鸣、转变和特异性。此外,我们提出了三个分析视角:行动性、批判性和公正性,以指导使用CAQ评估LLM生成的气候讨论。基于CAQ指标,我们的研究结果表明,虽然大多数被评估的LLM在批判性和公正性方面表现相对较好,但它们在行动性方面始终表现不佳。在评估的模型中,Claude 3.7 Sonnet取得了最高的整体性能。我们公开发布了CliME数据集和代码,以促进该领域的进一步研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在理解和生成气候变化相关讨论时,缺乏有效评估方法的问题。现有方法无法充分分析社交媒体上气候变化的多模态表达,也难以判断LLM是否在传播可信的气候解决方案,还是在放大未经证实的说法。
核心思路:论文的核心思路是构建一个包含多样化气候相关社交媒体帖子的多模态数据集(CliME),并设计一套综合性的评估指标(CAQ),用于系统地评估LLM在气候讨论中的表现。通过分析LLM在不同维度上的表现,可以更全面地了解其在气候变化领域的理解和生成能力。
技术框架:该研究的技术框架主要包含两个部分:CliME数据集的构建和CAQ评估指标的设计。CliME数据集包含来自Twitter和Reddit的2579条帖子,涵盖幽默表情包和怀疑论者帖子等多种形式。CAQ评估指标包含五个维度:表达(Articulation)、证据(Evidence)、共鸣(Resonance)、转变(Transition)和特异性(Specificity)。此外,还提出了三个分析视角:行动性(Actionability)、批判性(Criticality)和公正性(Justice),用于指导使用CAQ评估LLM生成的气候讨论。
关键创新:该论文的关键创新在于:1) 提出了首个多模态气候变化数据集CliME,包含多样化的社交媒体帖子;2) 设计了综合性的评估指标CAQ,用于系统评估LLM在气候讨论中的表现,涵盖多个维度和分析视角。
关键设计:CAQ评估指标的五个维度(表达、证据、共鸣、转变和特异性)分别衡量了LLM生成文本的清晰度、论据支持、情感连接、观点转变和具体程度。三个分析视角(行动性、批判性和公正性)则用于指导对LLM生成文本的更深入分析,例如是否提出了可行的解决方案、是否进行了批判性思考以及是否考虑了社会公正。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在批判性和公正性方面表现相对较好,但在行动性方面表现不足。Claude 3.7 Sonnet模型在整体性能上表现最佳,表明其在气候讨论方面具有较强的理解和生成能力。CliME数据集和CAQ评估指标的发布,为后续研究提供了重要的资源和工具。
🎯 应用场景
该研究成果可应用于评估和改进LLM在气候变化领域的应用,例如自动生成气候新闻摘要、辅助气候政策制定、识别和纠正气候虚假信息等。通过提高LLM对气候相关信息的理解和生成能力,可以促进公众对气候变化的认知,并推动更有效的气候行动。
📄 摘要(原文)
The rise of Large Language Models (LLMs) has raised questions about their ability to understand climate-related contexts. Though climate change dominates social media, analyzing its multimodal expressions is understudied, and current tools have failed to determine whether LLMs amplify credible solutions or spread unsubstantiated claims. To address this, we introduce CliME (Climate Change Multimodal Evaluation), a first-of-its-kind multimodal dataset, comprising 2579 Twitter and Reddit posts. The benchmark features a diverse collection of humorous memes and skeptical posts, capturing how these formats distill complex issues into viral narratives that shape public opinion and policy discussions. To systematically evaluate LLM performance, we present the Climate Alignment Quotient (CAQ), a novel metric comprising five distinct dimensions: Articulation, Evidence, Resonance, Transition, and Specificity. Additionally, we propose three analytical lenses: Actionability, Criticality, and Justice, to guide the assessment of LLM-generated climate discourse using CAQ. Our findings, based on the CAQ metric, indicate that while most evaluated LLMs perform relatively well in Criticality and Justice, they consistently underperform on the Actionability axis. Among the models evaluated, Claude 3.7 Sonnet achieves the highest overall performance. We publicly release our CliME dataset and code to foster further research in this domain.