Limited Effectiveness of LLM-based Data Augmentation for COVID-19 Misinformation Stance Detection

📄 arXiv: 2503.02328v1 📥 PDF

作者: Eun Cheol Choi, Ashwin Balasubramanian, Jinhu Qi, Emilio Ferrara

分类: cs.CL, cs.CY, cs.HC, cs.SI

发布日期: 2025-03-04

DOI: 10.1145/3701716.3715521


💡 一句话要点

评估LLM数据增强在COVID-19虚假信息立场检测中的有效性,发现其增益有限

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚假信息检测 立场检测 数据增强 大型语言模型 COVID-19

📋 核心要点

  1. 针对COVID-19等疫情的虚假信息泛滥,现有立场检测方法在数据量不足的情况下表现受限。
  2. 论文探索使用大型语言模型(LLM)生成可控的虚假信息,以增强训练数据集,提升立场检测模型的鲁棒性。
  3. 实验结果表明,由于LLM的内置安全机制,基于LLM的数据增强方法在性能提升方面效果有限且不稳定。

📝 摘要(中文)

针对新兴疫情的虚假信息构成严重的社会威胁,因此需要强有力的应对措施。立场检测(SD)是一种有前景的方法,它可以识别社交媒体帖子是否支持或反对误导性主张。本文通过在包含声明和相应推文的COVID-19虚假信息SD数据集上微调分类器来进行研究。具体来说,我们测试了使用大型语言模型(LLM)的可控虚假信息生成(CMG)作为数据增强的一种方法。虽然CMG展示了扩展训练数据集的潜力,但我们的实验表明,相对于传统的增强方法,性能提升通常是最小且不一致的,这主要是由于LLM中内置的安全措施。我们发布了我们的代码和数据集,以促进对虚假信息检测和生成方面的进一步研究。

🔬 方法详解

问题定义:论文旨在解决COVID-19相关虚假信息立场检测任务中,由于训练数据不足导致模型泛化能力差的问题。现有方法依赖人工标注数据,成本高昂且难以覆盖所有类型的虚假信息。因此,需要一种自动化的数据增强方法来扩充训练集,提升模型的鲁棒性。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成与COVID-19相关的虚假信息,并将其作为数据增强的一部分,以提高立场检测模型的性能。通过控制LLM生成虚假信息的方式,可以增加训练数据的多样性,从而提升模型的泛化能力。

技术框架:整体框架包括以下几个主要步骤:1) 收集COVID-19相关的声明和推文数据;2) 使用LLM生成与这些声明相关的虚假信息;3) 将生成的虚假信息与原始数据结合,构建增强后的训练数据集;4) 在增强后的数据集上微调立场检测分类器;5) 评估分类器在测试集上的性能。

关键创新:论文的关键创新在于探索了使用LLM进行可控虚假信息生成(CMG)作为数据增强的方法。虽然之前也有研究使用LLM进行数据增强,但本文特别关注了LLM在生成虚假信息方面的能力,并分析了其局限性。与传统的数据增强方法相比,CMG具有生成多样化、语义连贯的虚假信息的潜力。

关键设计:论文使用了微调的BERT模型作为立场检测分类器。在数据增强方面,使用了不同的提示工程(prompt engineering)方法来控制LLM生成虚假信息的内容和风格。同时,论文还分析了LLM内置的安全机制对生成虚假信息的影响,并探讨了如何缓解这些限制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然使用LLM生成的数据可以扩充训练集,但与传统的数据增强方法相比,性能提升并不显著且不稳定。这主要是由于LLM内置的安全机制限制了其生成虚假信息的能力。在某些情况下,使用LLM增强的数据甚至会导致性能下降。因此,需要进一步研究如何克服LLM的限制,以实现更有效的数据增强。

🎯 应用场景

该研究成果可应用于在线社交媒体平台,用于自动检测和过滤COVID-19等公共卫生事件相关的虚假信息。通过提升立场检测模型的准确性和鲁棒性,可以有效减少虚假信息的传播,维护社会稳定和公众健康。未来的研究可以探索更有效的LLM控制方法,以生成更高质量的虚假信息数据增强。

📄 摘要(原文)

Misinformation surrounding emerging outbreaks poses a serious societal threat, making robust countermeasures essential. One promising approach is stance detection (SD), which identifies whether social media posts support or oppose misleading claims. In this work, we finetune classifiers on COVID-19 misinformation SD datasets consisting of claims and corresponding tweets. Specifically, we test controllable misinformation generation (CMG) using large language models (LLMs) as a method for data augmentation. While CMG demonstrates the potential for expanding training datasets, our experiments reveal that performance gains over traditional augmentation methods are often minimal and inconsistent, primarily due to built-in safeguards within LLMs. We release our code and datasets to facilitate further research on misinformation detection and generation.