RAFT: Realistic Attacks to Fool Text Detectors

📄 arXiv: 2410.03658v1 📥 PDF

作者: James Wang, Ran Li, Junfeng Yang, Chengzhi Mao

分类: cs.CL, cs.LG

发布日期: 2024-10-04

备注: Accepted by EMNLP 2024


💡 一句话要点

RAFT:提出一种针对LLM检测器的逼真黑盒攻击方法,提升攻击的隐蔽性和有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗攻击 黑盒攻击 文本检测 鲁棒性 LLM嵌入 对抗样本 信息安全

📋 核心要点

  1. 现有LLM检测方法的鲁棒性和可靠性不足,容易受到对抗性攻击,导致检测性能大幅下降。
  2. RAFT利用词级别LLM嵌入的可迁移性,在保持文本质量的同时,通过贪婪算法选择扰动词,实现对检测器的攻击。
  3. 实验表明,RAFT攻击能有效降低多种检测器的性能,最高可达99%,且生成的对抗样本具有高度的逼真性。

📝 摘要(中文)

大型语言模型(LLM)在各种任务中表现出卓越的流畅性。然而,其不道德的应用,例如传播虚假信息,已成为日益严重的问题。尽管最近的工作提出了一些LLM检测方法,但它们的鲁棒性和可靠性仍不清楚。本文提出了RAFT:一种针对现有LLM检测器的无语法错误的黑盒攻击。与以往针对语言模型的攻击不同,我们的方法利用了词级别的LLM嵌入的可迁移性,同时保留了原始文本的质量。我们利用辅助嵌入贪婪地选择候选词来扰乱目标检测器。实验表明,我们的攻击有效地破坏了研究中所有检测器在各种领域中的性能,高达99%,并且可以在源模型之间转移。人工评估研究表明,我们的攻击是逼真的,并且与原始人类编写的文本无法区分。我们还表明,RAFT生成的示例可用于训练对抗性鲁棒的检测器。我们的工作表明,当前的LLM检测器不具备对抗性鲁棒性,突显了对更具弹性的检测机制的迫切需求。

🔬 方法详解

问题定义:现有的LLM检测器容易受到对抗性攻击的影响,攻击者可以通过修改LLM生成的文本来绕过检测器,从而传播虚假信息。现有的攻击方法通常会引入语法错误或显著改变文本语义,容易被人类识别,隐蔽性较差。因此,需要一种更逼真、更有效的攻击方法来评估和提升LLM检测器的鲁棒性。

核心思路:RAFT的核心思路是在不破坏文本语法和语义的前提下,利用LLM嵌入空间的可迁移性,找到能够最大程度降低目标检测器置信度的词语替换。通过在词级别进行细微的扰动,使得对抗样本与原始文本在表面上难以区分,从而提高攻击的隐蔽性。

技术框架:RAFT攻击框架主要包含以下几个步骤:1) 选择需要攻击的文本;2) 利用辅助LLM模型获取文本中每个词的嵌入向量;3) 对于每个词,在词汇表中选择与原始词嵌入向量距离最近的候选词;4) 使用目标检测器评估替换每个候选词后的文本,选择能够最大程度降低检测器置信度的词语替换;5) 重复步骤3和4,直到达到预设的扰动比例或检测器置信度低于阈值。

关键创新:RAFT的关键创新在于:1) 利用LLM嵌入空间的可迁移性,在词级别进行扰动,保证了对抗样本的语法正确性和语义一致性;2) 采用贪婪算法选择最优的词语替换,提高了攻击的效率和成功率;3) 是一种黑盒攻击方法,不需要访问目标检测器的内部结构和参数,适用性更广。

关键设计:RAFT的关键设计包括:1) 使用余弦相似度作为衡量词嵌入向量距离的指标;2) 设置扰动比例上限,防止过度修改文本;3) 使用辅助LLM模型(例如,与目标检测器训练数据不同的模型)来提高攻击的泛化能力;4) 可以通过调整扰动比例和候选词数量来控制攻击强度和隐蔽性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAFT攻击能够有效降低多种LLM检测器的性能,最高可达99%。人工评估结果显示,RAFT生成的对抗样本与原始文本在可读性和流畅性上没有显著差异,难以被人类识别。此外,使用RAFT生成的对抗样本训练的检测器,在对抗攻击下的鲁棒性得到了显著提升。

🎯 应用场景

RAFT的研究成果可应用于评估和提升LLM检测器的鲁棒性,帮助开发者构建更可靠的检测系统,从而减少虚假信息传播。此外,RAFT生成的对抗样本可用于训练对抗性鲁棒的检测模型,提高其在实际应用中的抗攻击能力。该研究对于维护网络信息安全和社会稳定具有重要意义。

📄 摘要(原文)

Large language models (LLMs) have exhibited remarkable fluency across various tasks. However, their unethical applications, such as disseminating disinformation, have become a growing concern. Although recent works have proposed a number of LLM detection methods, their robustness and reliability remain unclear. In this paper, we present RAFT: a grammar error-free black-box attack against existing LLM detectors. In contrast to previous attacks for language models, our method exploits the transferability of LLM embeddings at the word-level while preserving the original text quality. We leverage an auxiliary embedding to greedily select candidate words to perturb against the target detector. Experiments reveal that our attack effectively compromises all detectors in the study across various domains by up to 99%, and are transferable across source models. Manual human evaluation studies show our attacks are realistic and indistinguishable from original human-written text. We also show that examples generated by RAFT can be used to train adversarially robust detectors. Our work shows that current LLM detectors are not adversarially robust, underscoring the urgent need for more resilient detection mechanisms.