ConspirED: A Dataset for Cognitive Traits of Conspiracy Theories and Large Language Model Safety
作者: Luke Bates, Max Glockner, Preslav Nakov, Iryna Gurevych
分类: cs.CL
发布日期: 2025-08-28
💡 一句话要点
ConspirED:构建阴谋论认知特征数据集,评估大型语言模型安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阴谋论 认知特征 数据集 大型语言模型 安全性
📋 核心要点
- 现有方法难以有效识别和应对日益复杂的AI生成的阴谋论信息,这会对社会信任和机构造成威胁。
- 论文构建了ConspirED数据集,该数据集标注了阴谋论文本的认知特征,用于训练模型识别阴谋论模式。
- 实验表明,大型语言模型容易受到阴谋论内容的影响,即使能识别传统虚假信息,也可能产生与阴谋论一致的输出。
📝 摘要(中文)
阴谋论会削弱公众对科学和机构的信任,并且通过不断演变和吸收反驳证据来抵制辟谣。随着人工智能生成虚假信息变得越来越复杂,理解阴谋论内容中的修辞模式对于开发有针对性的预先辟谣等干预措施以及评估人工智能的脆弱性至关重要。我们介绍了ConspirED(CONSPIR评估数据集),它捕捉了在线阴谋论文章中多句摘录(80-120字)中阴谋论思想的认知特征,并使用CONSPIR认知框架(Lewandowsky and Cook,2020)进行注释。ConspirED是第一个针对一般认知特征进行注释的阴谋论内容数据集。使用ConspirED,我们(i)开发计算模型来识别阴谋论特征并确定文本摘录中的主要特征,以及(ii)评估大型语言/推理模型(LLM/LRM)对阴谋论输入的鲁棒性。我们发现两者都被阴谋论内容所误导,产生反映输入推理模式的输出,即使在成功转移可比较的事实验证的虚假信息时也是如此。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在面对阴谋论内容时存在的安全问题。现有方法难以有效识别和应对阴谋论,因为阴谋论具有独特的认知模式和修辞特征,并且能够不断演变和吸收反驳证据。这使得LLM容易被阴谋论内容误导,产生与其一致的输出,从而加剧虚假信息的传播。
核心思路:论文的核心思路是构建一个专门标注了阴谋论认知特征的数据集(ConspirED),并利用该数据集训练模型来识别阴谋论文本中的特定模式。通过分析这些模式,可以更好地理解阴谋论的运作方式,并开发相应的干预措施,例如预先辟谣和提高LLM的鲁棒性。
技术框架:论文的技术框架主要包括两个部分:数据集构建和模型评估。首先,从在线阴谋论文章中提取文本片段,并使用CONSPIR认知框架进行标注,构建ConspirED数据集。然后,利用ConspirED数据集训练计算模型,用于识别阴谋论特征和确定文本片段中的主要特征。最后,使用这些模型评估大型语言模型(LLM)对阴谋论输入的鲁棒性。
关键创新:论文的关键创新在于构建了ConspirED数据集,这是第一个针对一般认知特征进行注释的阴谋论内容数据集。该数据集为研究阴谋论的认知机制和开发相应的干预措施提供了宝贵的资源。此外,论文还首次评估了大型语言模型对阴谋论输入的鲁棒性,并揭示了LLM在面对阴谋论内容时存在的安全漏洞。
关键设计:ConspirED数据集的构建基于CONSPIR认知框架,该框架定义了一系列与阴谋论相关的认知特征,例如矛盾信息、不信任、恶意归因等。标注过程由人工完成,以确保标注的准确性和一致性。在模型评估方面,论文使用了多种大型语言模型,并设计了特定的评估指标来衡量LLM对阴谋论输入的反应。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用ConspirED数据集训练的模型能够有效识别阴谋论文本中的认知特征。更重要的是,实验揭示了大型语言模型容易受到阴谋论内容的影响,即使在能够成功识别传统虚假信息的情况下,也可能产生与阴谋论一致的输出。这表明,需要进一步研究和改进LLM的安全性,以防止其被用于传播阴谋论。
🎯 应用场景
该研究成果可应用于多个领域,包括:开发自动化的阴谋论检测工具,用于识别和过滤在线阴谋论内容;改进大型语言模型的安全性,使其能够更好地抵御阴谋论的影响;设计有针对性的预先辟谣策略,以提高公众对阴谋论的免疫力。此外,该研究还可以帮助研究人员更深入地理解阴谋论的认知机制。
📄 摘要(原文)
Conspiracy theories erode public trust in science and institutions while resisting debunking by evolving and absorbing counter-evidence. As AI-generated misinformation becomes increasingly sophisticated, understanding rhetorical patterns in conspiratorial content is important for developing interventions such as targeted prebunking and assessing AI vulnerabilities. We introduce ConspirED (CONSPIR Evaluation Dataset), which captures the cognitive traits of conspiratorial ideation in multi-sentence excerpts (80--120 words) from online conspiracy articles, annotated using the CONSPIR cognitive framework (Lewandowsky and Cook, 2020). ConspirED is the first dataset of conspiratorial content annotated for general cognitive traits. Using ConspirED, we (i) develop computational models that identify conspiratorial traits and determine dominant traits in text excerpts, and (ii) evaluate large language/reasoning model (LLM/LRM) robustness to conspiratorial inputs. We find that both are misaligned by conspiratorial content, producing output that mirrors input reasoning patterns, even when successfully deflecting comparable fact-checked misinformation.