Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors

📄 arXiv: 2505.15337v3 📥 PDF

作者: Hao Fang, Jiawei Kong, Tianqu Zhuang, Yixiang Qiu, Kuofeng Gao, Bin Chen, Shu-Tao Xia, Yaowei Wang, Min Zhang

分类: cs.CL, cs.AI

发布日期: 2025-05-21 (更新: 2025-09-10)

备注: Accepted by EMNLP-2025


💡 一句话要点

提出对比释义攻击CoPA,无需训练即可有效欺骗LLM文本检测器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本检测 释义攻击 对比学习 对抗攻击

📋 核心要点

  1. 现有释义攻击方法依赖大量数据和算力训练,且面对高级检测算法时效果下降。
  2. CoPA通过构建对比分布,在解码时减去机器特征,生成更具迷惑性的文本。
  3. 实验表明,CoPA能有效欺骗多种文本检测器,无需训练即可实现优越的攻击性能。

📝 摘要(中文)

大型语言模型(LLMs)的滥用,如学术剽窃,推动了用于识别LLM生成文本的检测器的发展。为了绕过这些检测器,释义攻击应运而生,其有目的地重写这些文本以逃避检测。尽管取得了成功,但现有方法需要大量数据和计算预算来训练专门的释义器,并且当面对高级检测算法时,它们的攻击效果会大大降低。为了解决这个问题,我们提出了一种无需训练的方法——对比释义攻击(CoPA),该方法使用现成的LLM有效地欺骗文本检测器。第一步是精心设计指令,鼓励LLM生成更像人类的文本。尽管如此,我们观察到LLM固有的统计偏差仍然会导致一些生成的文本带有某些机器般的属性,这些属性可以被检测器捕获。为了克服这一点,CoPA构建了一个辅助的机器式词分布,作为与LLM生成的人类式分布的对比。通过在解码过程中从人类式分布中减去机器式模式,CoPA能够生成更不易被文本检测器识别的句子。我们的理论分析表明了所提出的攻击的优越性。广泛的实验验证了CoPA在各种场景中欺骗文本检测器的有效性。

🔬 方法详解

问题定义:论文旨在解决现有释义攻击方法在欺骗LLM生成文本检测器时面临的挑战。现有方法通常需要训练专门的释义模型,这需要大量的数据和计算资源。此外,这些方法在面对更先进的检测算法时,攻击效果会显著下降。因此,如何设计一种更有效、更高效的攻击方法,以绕过LLM文本检测器,是本文要解决的核心问题。

核心思路:CoPA的核心思路是利用现成的LLM生成更像人类的文本,并通过对比学习的方式,消除LLM固有的机器式统计偏差。具体来说,CoPA首先通过精心设计的指令引导LLM生成看似自然的文本。然后,它构建一个辅助的机器式词分布,作为与人类式分布的对比。在解码过程中,通过从人类式分布中减去机器式模式,从而生成更难以被检测器识别的文本。

技术框架:CoPA的整体流程包括以下几个主要阶段:1) 指令设计:设计特定的指令,引导LLM生成更像人类写作风格的文本。2) 文本生成:使用LLM根据设计的指令生成初始的释义文本。3) 机器式分布构建:构建一个辅助的机器式词分布,用于捕捉LLM生成文本中固有的机器式特征。4) 对比解码:在解码过程中,从人类式分布中减去机器式模式,生成最终的释义文本。

关键创新:CoPA的关键创新在于其无需训练的对比释义攻击方法。与现有方法需要训练专门的释义模型不同,CoPA直接利用现成的LLM,并通过对比学习的方式,消除LLM固有的机器式偏差。这种方法不仅降低了计算成本,而且提高了攻击的有效性。

关键设计:CoPA的关键设计包括:1) 精心设计的指令,用于引导LLM生成更像人类的文本。2) 机器式词分布的构建方法,用于捕捉LLM生成文本中固有的机器式特征。3) 对比解码过程,通过从人类式分布中减去机器式模式,生成最终的释义文本。具体的技术细节包括如何量化机器式特征,以及如何在解码过程中有效地减去这些特征。论文中可能涉及KL散度等方法来衡量分布差异,并调整生成概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoPA在欺骗文本检测器方面表现出色,无需训练即可有效降低检测器的准确率。具体而言,CoPA在各种场景下均优于现有的释义攻击方法,并且能够有效应对高级检测算法。论文中可能包含具体的性能指标,例如攻击成功率、检测器准确率下降幅度等,以量化CoPA的优越性。

🎯 应用场景

CoPA的研究成果可应用于评估和提升LLM文本检测器的鲁棒性,帮助开发者更好地理解和防御针对LLM生成内容的恶意攻击。此外,该方法也可用于生成更自然、更具人类风格的文本,从而提高LLM在各种应用场景中的可用性和可信度。该研究对于防范LLM被用于生成虚假信息、恶意内容等方面具有重要意义。

📄 摘要(原文)

The misuse of large language models (LLMs), such as academic plagiarism, has driven the development of detectors to identify LLM-generated texts. To bypass these detectors, paraphrase attacks have emerged to purposely rewrite these texts to evade detection. Despite the success, existing methods require substantial data and computational budgets to train a specialized paraphraser, and their attack efficacy greatly reduces when faced with advanced detection algorithms. To address this, we propose \textbf{Co}ntrastive \textbf{P}araphrase \textbf{A}ttack (CoPA), a training-free method that effectively deceives text detectors using off-the-shelf LLMs. The first step is to carefully craft instructions that encourage LLMs to produce more human-like texts. Nonetheless, we observe that the inherent statistical biases of LLMs can still result in some generated texts carrying certain machine-like attributes that can be captured by detectors. To overcome this, CoPA constructs an auxiliary machine-like word distribution as a contrast to the human-like distribution generated by the LLM. By subtracting the machine-like patterns from the human-like distribution during the decoding process, CoPA is able to produce sentences that are less discernible by text detectors. Our theoretical analysis suggests the superiority of the proposed attack. Extensive experiments validate the effectiveness of CoPA in fooling text detectors across various scenarios.