Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Against LLM-Generated Threats
作者: Sadat Shahriar, Navid Ayoobi, Arjun Mukherjee, Mostafa Musharrat, Sai Vishnu Vamsi
分类: cs.CL, cs.LG
发布日期: 2025-12-05
备注: Published in RANLP 2025
💡 一句话要点
针对LLM生成的新型粉红泥新闻,提出一种鲁棒的检测框架,提升检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 粉红泥新闻检测 大型语言模型 对抗攻击 鲁棒学习 自然语言处理
📋 核心要点
- 现有粉红泥新闻检测方法容易受到大型语言模型(LLM)对抗攻击的影响,导致检测性能显著下降。
- 提出一种鲁棒的学习框架,旨在抵抗LLM生成的对抗样本,从而提高检测系统的稳定性和适应性。
- 实验结果表明,该框架能够有效应对LLM对抗攻击,并将检测性能提升高达27%。
📝 摘要(中文)
本地新闻是2800万美国人获取可靠信息的重要来源,但面临着“粉红泥新闻”日益严重的威胁,这是一种模仿合法本地报道的低质量、自动生成的文章。检测这些欺骗性文章需要对其语言、文体和词汇特征进行细致的分析。本文对粉红泥内容的显著模式进行了全面研究,并提出了基于这些见解的检测策略。除了传统的生成方法,我们还强调了一种新的对抗向量:通过大型语言模型(LLM)进行的修改。研究结果表明,即使是消费者可以访问的LLM也可以显著破坏现有的检测系统,使其F1分数降低高达40%。为了应对这种威胁,我们引入了一种鲁棒的学习框架,专门用于抵抗基于LLM的对抗性攻击,并适应自动化粉红泥新闻不断变化的格局,并显示出高达27%的改进。
🔬 方法详解
问题定义:论文旨在解决粉红泥新闻检测问题,特别是针对现有检测方法容易受到大型语言模型(LLM)生成对抗样本攻击的脆弱性。现有方法在面对LLM润色或改写后的粉红泥新闻时,检测准确率会显著下降,无法有效识别这些经过伪装的低质量内容。
核心思路:论文的核心思路是设计一种鲁棒的学习框架,使其能够抵抗LLM的对抗攻击。该框架通过学习更具判别性的特征表示,并采用对抗训练等技术,提高模型对LLM生成变体的泛化能力。通过使模型对LLM的微小扰动不敏感,从而提升检测的稳定性。
技术框架:整体框架包含以下几个主要模块:1) 特征提取模块:用于提取新闻文本的语言、文体和词汇特征。2) 对抗样本生成模块:利用LLM生成对抗样本,模拟真实的攻击场景。3) 鲁棒学习模块:采用对抗训练等技术,提高模型对对抗样本的抵抗能力。4) 分类模块:基于学习到的特征表示,对新闻文本进行分类,判断其是否为粉红泥新闻。
关键创新:最重要的技术创新点在于提出了一种针对LLM对抗攻击的鲁棒学习框架。与现有方法相比,该框架能够有效应对LLM生成的对抗样本,显著提高检测系统的稳定性和适应性。该框架的设计思路可以推广到其他文本分类任务中,提高模型在对抗环境下的鲁棒性。
关键设计:具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细说明,属于未知信息。对抗训练的具体实现方式(例如,对抗样本的生成策略、对抗损失函数的权重等)是影响模型性能的关键因素。此外,特征提取模块所使用的特征类型和表示方法也会对最终的检测效果产生影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该论文提出的鲁棒学习框架能够有效应对LLM生成的对抗攻击,将粉红泥新闻检测的F1分数提升高达27%。即使在面对经过LLM修改的新闻文本时,该框架仍然能够保持较高的检测准确率,显著优于现有的检测方法。这表明该框架具有较强的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于新闻媒体平台,用于自动检测和过滤粉红泥新闻,提高新闻内容的质量和可信度。此外,该方法还可以推广到其他文本分类任务中,例如垃圾邮件过滤、虚假信息检测等,提高模型在对抗环境下的鲁棒性。未来,该研究可以进一步探索更有效的对抗训练方法和更具判别性的特征表示,以应对不断演变的对抗攻击。
📄 摘要(原文)
The local news landscape, a vital source of reliable information for 28 million Americans, faces a growing threat from Pink Slime Journalism, a low-quality, auto-generated articles that mimic legitimate local reporting. Detecting these deceptive articles requires a fine-grained analysis of their linguistic, stylistic, and lexical characteristics. In this work, we conduct a comprehensive study to uncover the distinguishing patterns of Pink Slime content and propose detection strategies based on these insights. Beyond traditional generation methods, we highlight a new adversarial vector: modifications through large language models (LLMs). Our findings reveal that even consumer-accessible LLMs can significantly undermine existing detection systems, reducing their performance by up to 40% in F1-score. To counter this threat, we introduce a robust learning framework specifically designed to resist LLM-based adversarial attacks and adapt to the evolving landscape of automated pink slime journalism, and showed and improvement by up to 27%.