ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories
作者: Zhiwei Liu, Paul Thompson, Jiaqi Rong, Sophia Ananiadou
分类: cs.CL
发布日期: 2025-05-20
备注: work in progress
DOI: 10.3233/FAIA251468
🔗 代码/项目: GITHUB
💡 一句话要点
ConspEmoLLM-v2:提出一种鲁棒稳定的模型,用于检测情感转换后的阴谋论。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阴谋论检测 情感分析 大型语言模型 数据集增强 鲁棒性 虚假信息检测
📋 核心要点
- 现有阴谋论检测方法主要基于人工撰写文本训练,难以有效识别LLM生成或伪装的阴谋论,尤其是在情感被刻意转换的情况下。
- 论文提出ConspEmoLLM-v2,通过在包含情感转换阴谋论的增强数据集ConDID-v2上训练,提高模型对伪装阴谋论的检测能力。
- 实验结果表明,ConspEmoLLM-v2在原始人工撰写内容上保持了原有性能,并在情感转换后的推文检测上显著优于其他基线模型。
📝 摘要(中文)
大型语言模型(LLM)在带来诸多益处的同时,也可能造成危害,例如自动生成包括阴谋论在内的虚假信息。此外,LLM还可以通过改变文本特征来“伪装”阴谋论,例如将通常强烈的负面情绪转化为更积极的语调。尽管已有研究提出了自动阴谋论检测方法,但它们通常使用人工撰写的文本进行训练,其特征可能与LLM生成的文本不同。此外,包括先前提出的ConspEmoLLM在内的几种阴谋论检测模型,严重依赖于人工撰写阴谋论内容的典型情感特征。因此,有意伪装的内容可能会逃避检测。为了解决这些问题,我们首先开发了ConDID阴谋论检测数据集的增强版本ConDID-v2,该版本用LLM重写的版本补充了人工撰写的阴谋论推文,以降低其原始情感的负面性。通过结合人工和基于LLM的评估,验证了重写推文的质量。随后,我们使用ConDID-v2训练了ConspEmoLLM-v2,这是ConspEmoLLM的增强版本。实验结果表明,ConspEmoLLM-v2在ConDID中原始人工撰写内容上的性能保持或超过了ConspEmoLLM,并且在应用于ConDID-v2中情感转换后的推文时,明显优于ConspEmoLLM和其他几个基线模型。该项目将在https://github.com/lzw108/ConspEmoLLM上提供。
🔬 方法详解
问题定义:论文旨在解决现有阴谋论检测模型在面对LLM生成或情感转换后的阴谋论时,检测性能显著下降的问题。现有模型过度依赖人工撰写文本的情感特征,无法有效识别经过伪装的阴谋论。
核心思路:核心思路是通过构建一个包含情感转换阴谋论的增强数据集,并在此数据集上训练模型,从而使模型能够学习到更鲁棒的特征表示,提高对伪装阴谋论的检测能力。通过让模型接触更多样化的数据,使其不再过度依赖于传统阴谋论的情感特征。
技术框架:整体框架包括以下几个主要步骤:1) 构建增强数据集ConDID-v2,该数据集包含人工撰写的阴谋论推文以及由LLM重写的情感转换版本;2) 使用ConDID-v2训练ConspEmoLLM-v2模型;3) 使用ConDID和ConDID-v2数据集评估ConspEmoLLM-v2的性能,并与其他基线模型进行比较。评估过程包括人工评估和LLM评估,以确保重写推文的质量。
关键创新:最重要的创新点在于构建了包含情感转换阴谋论的增强数据集ConDID-v2,并在此基础上训练了ConspEmoLLM-v2模型。与现有方法相比,该方法不再仅仅依赖于人工撰写文本的情感特征,而是能够学习到更鲁棒的特征表示,从而提高对伪装阴谋论的检测能力。
关键设计:ConDID-v2数据集的构建过程中,使用了LLM来重写人工撰写的阴谋论推文,以降低其原始情感的负面性。重写后的推文经过人工和LLM评估,以确保其质量。ConspEmoLLM-v2模型是ConspEmoLLM的增强版本,具体网络结构和损失函数等技术细节未知。
🖼️ 关键图片
📊 实验亮点
ConspEmoLLM-v2在ConDID数据集上保持了与ConspEmoLLM相当的性能,在ConDID-v2数据集上,显著优于ConspEmoLLM和其他基线模型。这表明ConspEmoLLM-v2在检测情感转换后的阴谋论方面具有更强的鲁棒性和稳定性。具体的性能提升幅度未知。
🎯 应用场景
该研究成果可应用于社交媒体平台、新闻聚合网站等,用于自动检测和过滤阴谋论内容,尤其是有意伪装的情感转换版本。有助于减少虚假信息的传播,维护网络空间的健康生态。未来可扩展到其他类型的虚假信息检测,例如政治宣传、谣言等。
📄 摘要(原文)
Despite the many benefits of large language models (LLMs), they can also cause harm, e.g., through automatic generation of misinformation, including conspiracy theories. Moreover, LLMs can also ''disguise'' conspiracy theories by altering characteristic textual features, e.g., by transforming their typically strong negative emotions into a more positive tone. Although several studies have proposed automated conspiracy theory detection methods, they are usually trained using human-authored text, whose features can vary from LLM-generated text. Furthermore, several conspiracy detection models, including the previously proposed ConspEmoLLM, rely heavily on the typical emotional features of human-authored conspiracy content. As such, intentionally disguised content may evade detection. To combat such issues, we firstly developed an augmented version of the ConDID conspiracy detection dataset, ConDID-v2, which supplements human-authored conspiracy tweets with versions rewritten by an LLM to reduce the negativity of their original sentiment. The quality of the rewritten tweets was verified by combining human and LLM-based assessment. We subsequently used ConDID-v2 to train ConspEmoLLM-v2, an enhanced version of ConspEmoLLM. Experimental results demonstrate that ConspEmoLLM-v2 retains or exceeds the performance of ConspEmoLLM on the original human-authored content in ConDID, and considerably outperforms both ConspEmoLLM and several other baselines when applied to sentiment-transformed tweets in ConDID-v2. The project will be available at https://github.com/lzw108/ConspEmoLLM.