Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
作者: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
分类: cs.CL, cs.AI
发布日期: 2025-05-30
备注: Accepted at Findings of ACL 2025
💡 一句话要点
提出一种基于风格迁移的对抗攻击方法,用于评估和提升机器生成文本检测器的鲁棒性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器生成文本检测 对抗攻击 风格迁移 直接偏好优化 语言模型微调
📋 核心要点
- 现有的机器生成文本检测器缺乏在真实场景中的泛化能力,容易受到对抗攻击的影响。
- 通过微调语言模型,使其生成更接近人类写作风格的文本,从而欺骗检测器。
- 实验表明,该方法能够显著降低现有检测器的性能,揭示了其脆弱性。
📝 摘要(中文)
近年来,生成式人工智能和大型语言模型(LLMs)的快速发展使得生成高度逼真的合成内容成为可能,但也引发了对恶意使用的担忧,例如传播虚假信息和进行操纵。检测机器生成文本(MGT)仍然具有挑战性,因为缺乏能够评估其在真实场景中泛化能力的可靠基准。本文提出了一种pipeline,用于测试最先进的MGT检测器(例如,Mage、Radar、LLM-DetectAIve)在语言学上的对抗攻击下的鲁棒性。为了挑战这些检测器,我们使用直接偏好优化(DPO)对语言模型进行微调,使其将MGT的风格向人类书写文本(HWT)的风格转变。这利用了检测器对文体线索的依赖性,使得新的生成文本更难被检测。此外,我们分析了对齐所引起的语言学上的转变,以及检测器用于检测MGT文本的特征。结果表明,检测器很容易被相对较少的例子所欺骗,导致检测性能显著下降。这突出了改进检测方法并使其对未见过的领域内文本具有鲁棒性的重要性。
🔬 方法详解
问题定义:论文旨在解决机器生成文本(MGT)检测器在面对风格变化时的鲁棒性问题。现有的MGT检测器往往依赖于特定的文体特征,当MGT的风格发生变化时,检测性能会显著下降。因此,如何评估和提升MGT检测器在真实场景下的泛化能力是一个关键挑战。
核心思路:论文的核心思路是通过对抗攻击的方式,评估MGT检测器的鲁棒性。具体来说,通过微调语言模型,使其生成的MGT文本在风格上更接近人类书写文本(HWT),从而欺骗检测器。这种方法模拟了真实场景中MGT可能发生的风格变化,能够更有效地评估检测器的性能。
技术框架:该研究的技术框架主要包含以下几个步骤:1) 选择一组MGT检测器作为评估对象;2) 使用直接偏好优化(DPO)对语言模型进行微调,使其生成更接近HWT风格的MGT文本;3) 使用微调后的语言模型生成新的MGT文本;4) 使用选定的MGT检测器对新的MGT文本进行检测,并评估检测性能的下降程度;5) 分析语言模型微调后,MGT文本在语言学上的变化,以及检测器所依赖的特征。
关键创新:该论文的关键创新在于提出了一种基于风格迁移的对抗攻击方法,用于评估MGT检测器的鲁棒性。与传统的对抗攻击方法不同,该方法不是通过添加噪声或修改文本内容来欺骗检测器,而是通过改变MGT的风格,使其更接近HWT,从而更有效地模拟了真实场景中的攻击。
关键设计:论文的关键设计包括:1) 使用直接偏好优化(DPO)作为微调语言模型的方法。DPO是一种基于偏好学习的微调方法,能够有效地将语言模型的输出风格向目标风格对齐。2) 选择合适的语言模型作为生成MGT文本的基础模型。3) 精心设计实验,评估不同MGT检测器在对抗攻击下的性能下降程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过相对较少的微调样本,即可显著降低现有MGT检测器的性能。例如,某些检测器的检测准确率下降幅度超过50%。这表明现有检测器容易受到风格迁移攻击的影响,需要进一步改进其鲁棒性。
🎯 应用场景
该研究成果可应用于评估和提升MGT检测器的鲁棒性,从而更好地应对恶意使用生成式AI的风险,例如识别虚假信息、检测自动化内容生成等。此外,该方法也可用于指导语言模型的风格控制,使其生成更自然、更符合人类写作习惯的文本。
📄 摘要(原文)
Recent advancements in Generative AI and Large Language Models (LLMs) have enabled the creation of highly realistic synthetic content, raising concerns about the potential for malicious use, such as misinformation and manipulation. Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the lack of robust benchmarks that assess generalization to real-world scenarios. In this work, we present a pipeline to test the resilience of state-of-the-art MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed adversarial attacks. To challenge the detectors, we fine-tune language models using Direct Preference Optimization (DPO) to shift the MGT style toward human-written text (HWT). This exploits the detectors' reliance on stylistic clues, making new generations more challenging to detect. Additionally, we analyze the linguistic shifts induced by the alignment and which features are used by detectors to detect MGT texts. Our results show that detectors can be easily fooled with relatively few examples, resulting in a significant drop in detection performance. This highlights the importance of improving detection methods and making them robust to unseen in-domain texts.