Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors

📄 arXiv: 2410.19230v2 📥 PDF

作者: Tianchun Wang, Yuanzhou Chen, Zichuan Liu, Zhanwen Chen, Haifeng Chen, Xiang Zhang, Wei Cheng

分类: cs.LG, cs.CL, cs.CR

发布日期: 2024-10-25 (更新: 2025-02-22)

备注: 29 pages


💡 一句话要点

提出基于强化学习的代理攻击方法,有效欺骗LLM检测器,同时保持生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM检测器 对抗攻击 强化学习 文本生成 代理攻击

📋 核心要点

  1. 现有LLM检测器在对抗恶意生成文本方面存在鲁棒性问题,容易被对抗性攻击绕过。
  2. 提出一种基于强化学习的代理攻击策略,通过微调小型语言模型,在解码阶段诱导LLM生成更像人类的文本。
  3. 实验表明,该策略能有效欺骗主流检测器,平均AUROC下降70.4%,最高达90.3%,且生成质量基本保持。

📝 摘要(中文)

大型语言模型(LLM)的出现彻底改变了文本生成领域,其输出结果与人类写作非常相似。为了防止恶意使用LLM生成的文本,学术界和工业界开发了检测器。然而,其他研究对这些系统的鲁棒性提出了质疑。为了测试这些检测器,我们提出了一种代理攻击策略,该策略可以轻松地攻击LLM,使其产生与人类写作文本一致的输出,从而误导检测系统。我们的方法通过在解码阶段利用强化学习(RL)微调的人性化小型语言模型(SLM)来攻击源模型。通过深入分析,我们证明了我们的攻击策略能够生成检测器无法区分的响应,从而阻止它们区分机器生成文本和人类书写文本。我们使用代理攻击的开源模型(包括Llama2-13B、Llama3-70B和Mixtral-8*7B)在白盒和黑盒设置下对大量数据集进行了系统评估。我们的研究结果表明,代理攻击策略有效地欺骗了领先的检测器,导致多个数据集的平均AUROC下降了70.4%,单个数据集的最大降幅为90.3%。此外,在跨学科场景中,我们的策略也绕过了这些检测器,导致高达90.9%的显著相对下降,而在跨语言场景中,降幅达到91.3%。尽管我们的代理攻击策略成功地绕过了检测器,但我们发现,与原始未受攻击的源模型生成的文本相比,受攻击模型的生成质量仍然得以保留,即使在适度的效用预算内也是如此。

🔬 方法详解

问题定义:论文旨在解决LLM检测器容易被对抗性攻击绕过的问题。现有的检测器在面对精心设计的攻击时,难以区分机器生成和人类撰写的文本,这给恶意使用LLM带来了潜在风险。

核心思路:论文的核心思路是利用一个经过强化学习微调的小型语言模型(SLM)作为代理,在LLM的解码阶段引导其生成更接近人类写作风格的文本。通过这种方式,攻击不是直接修改LLM的参数,而是通过影响其生成过程来欺骗检测器。

技术框架:整体框架包含以下几个主要阶段:1) 选择一个目标LLM(例如Llama2-13B)。2) 使用人类写作数据微调一个小型语言模型(SLM),使其具有人类写作风格。3) 在LLM的解码阶段,SLM作为代理,根据LLM的输出概率分布,调整下一个token的选择,使得最终生成的文本更符合人类写作习惯。4) 使用攻击后的LLM生成文本,并评估其在各种LLM检测器上的表现。

关键创新:最重要的技术创新点在于使用强化学习微调的SLM作为代理,在解码阶段对LLM的生成过程进行干预。与直接修改LLM参数的攻击方法不同,这种方法更加隐蔽,且更容易实现。此外,该方法能够在欺骗检测器的同时,保持生成文本的质量。

关键设计:关键设计包括:1) 使用合适的奖励函数来训练SLM,使其能够生成更像人类的文本。奖励函数可以包括流畅度、多样性等指标。2) 在解码阶段,需要平衡SLM的引导作用和LLM自身的生成能力,避免过度干预导致生成质量下降。3) 针对不同的LLM检测器,可能需要调整SLM的训练策略,以达到最佳的攻击效果。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该代理攻击策略能够有效欺骗主流LLM检测器,在多个数据集上实现了平均70.4%的AUROC下降,最高降幅达到90.3%。即使在跨学科和跨语言场景下,该策略也能显著降低检测器的性能,降幅分别达到90.9%和91.3%。更重要的是,该攻击策略在欺骗检测器的同时,能够保持生成文本的质量,避免了生成质量的显著下降。

🎯 应用场景

该研究成果可应用于评估和提升LLM检测器的鲁棒性,帮助开发者更好地防御对抗性攻击。同时,该研究也提醒人们需要关注LLM可能被恶意利用的风险,并开发更可靠的检测和防御机制。此外,该技术可以用于生成更自然、更人性化的机器文本,例如在聊天机器人、内容创作等领域。

📄 摘要(原文)

The advent of large language models (LLMs) has revolutionized the field of text generation, producing outputs that closely mimic human-like writing. Although academic and industrial institutions have developed detectors to prevent the malicious usage of LLM-generated texts, other research has doubt about the robustness of these systems. To stress test these detectors, we introduce a proxy-attack strategy that effortlessly compromises LLMs, causing them to produce outputs that align with human-written text and mislead detection systems. Our method attacks the source model by leveraging a reinforcement learning (RL) fine-tuned humanized small language model (SLM) in the decoding phase. Through an in-depth analysis, we demonstrate that our attack strategy is capable of generating responses that are indistinguishable to detectors, preventing them from differentiating between machine-generated and human-written text. We conduct systematic evaluations on extensive datasets using proxy-attacked open-source models, including Llama2-13B, Llama3-70B, and Mixtral-8*7B in both white- and black-box settings. Our findings show that the proxy-attack strategy effectively deceives the leading detectors, resulting in an average AUROC drop of 70.4% across multiple datasets, with a maximum drop of 90.3% on a single dataset. Furthermore, in cross-discipline scenarios, our strategy also bypasses these detectors, leading to a significant relative decrease of up to 90.9%, while in cross-language scenario, the drop reaches 91.3%. Despite our proxy-attack strategy successfully bypassing the detectors with such significant relative drops, we find that the generation quality of the attacked models remains preserved, even within a modest utility budget, when compared to the text produced by the original, unattacked source model.