Learning to Rewrite: Generalized LLM-Generated Text Detection
作者: Ran Li, Wei Hao, Weiliang Zhao, Junfeng Yang, Chengzhi Mao
分类: cs.CL
发布日期: 2024-08-08 (更新: 2025-02-15)
💡 一句话要点
提出Learning2Rewrite框架,提升LLM生成文本检测在开放域的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成文本检测 大型语言模型 泛化能力 重写机制 对抗攻击
📋 核心要点
- 现有AI生成文本检测器在开放域泛化能力不足,难以应对真实场景中的复杂文本分布。
- Learning2Rewrite通过训练LLM最小化对AI生成文本的修改,放大AI生成文本与人类文本在重写上的差异。
- 实验表明,该方法在多个数据集和LLM上显著优于现有方法,尤其在异分布和对抗攻击下提升明显。
📝 摘要(中文)
大型语言模型(LLMs)在生成虚假内容和大规模传播虚假信息方面存在重大风险。检测此类LLM生成的内容至关重要,但目前的检测器通常难以在开放世界环境中泛化。我们引入了Learning2Rewrite,这是一个用于检测AI生成文本的新颖框架,它对未见过的领域具有出色的泛化能力。我们的方法利用了这样一个洞察:当被要求重写时,LLM对AI生成内容的修改程度低于对人类撰写文本的修改程度。通过训练LLM来最小化对AI生成输入的修改,我们放大了这种差异,从而在不同的文本分布中产生更可区分和更具泛化性的编辑距离。在来自21个独立领域和四个主要LLM(GPT-3.5、GPT-4、Gemini和Llama-3)的数据上进行的大量实验表明,我们的检测器在同分布测试中的AUROC比最先进的检测方法高出23.04%,在异分布测试中高出37.26%,在对抗攻击下高出48.66%。我们独特的训练目标确保了比直接训练分类更好的泛化能力,同时利用相同数量的参数。我们的研究结果表明,强化LLM固有的重写倾向为检测AI生成文本提供了一种稳健且可扩展的解决方案。
🔬 方法详解
问题定义:当前AI生成文本检测方法在面对开放域场景时,泛化能力不足。这些方法往往依赖于特定数据集或LLM的特征,难以适应新的文本分布和对抗攻击。因此,如何提升AI生成文本检测器在开放域的泛化能力是一个亟待解决的问题。
核心思路:论文的核心思路是利用LLM在重写AI生成文本和人类文本时表现出的不同行为。具体来说,LLM在重写AI生成文本时,倾向于进行较少的修改,而对人类文本则会进行更多的改动。Learning2Rewrite通过训练LLM来强化这种差异,使得AI生成文本和人类文本在重写后的编辑距离更加明显,从而更容易区分。
技术框架:Learning2Rewrite框架主要包含以下几个步骤:1) 使用LLM生成AI文本;2) 使用另一个LLM(或同一个LLM)对AI生成文本和人类文本进行重写;3) 计算原始文本和重写后文本之间的编辑距离;4) 使用编辑距离作为特征,训练分类器来区分AI生成文本和人类文本。关键在于训练重写LLM,使其尽可能少地修改AI生成文本,从而放大差异。
关键创新:该方法最重要的创新点在于其训练目标不是直接训练分类器来区分AI生成文本和人类文本,而是训练LLM来最小化对AI生成文本的修改。这种间接的训练方式能够更好地利用LLM的内在特性,从而获得更好的泛化能力。与直接分类相比,该方法更关注文本的生成过程,而非仅仅是文本的表面特征。
关键设计:在训练重写LLM时,论文使用了一种特殊的损失函数,该损失函数鼓励LLM在重写AI生成文本时保持尽可能少的修改。具体来说,损失函数可以设计为原始文本和重写后文本之间的编辑距离。此外,论文还探索了不同的LLM架构和参数设置,以找到最佳的重写模型。对抗训练也被用于提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Learning2Rewrite在21个独立领域的数据集上显著优于现有方法。在同分布测试中,AUROC提升高达23.04%,在异分布测试中提升高达37.26%,在对抗攻击下提升高达48.66%。这些结果表明,该方法具有很强的泛化能力和鲁棒性,能够有效应对各种复杂的场景。
🎯 应用场景
该研究成果可应用于内容安全、虚假信息检测、学术诚信等领域。通过有效检测AI生成文本,可以帮助识别和过滤不实信息,维护网络空间的健康秩序。在教育领域,可以辅助检测学生作业中的AI生成内容,保障学术诚信。未来,该技术有望集成到各类内容审核系统中,提升自动化审核的效率和准确性。
📄 摘要(原文)
Large language models (LLMs) present significant risks when used to generate non-factual content and spread disinformation at scale. Detecting such LLM-generated content is crucial, yet current detectors often struggle to generalize in open-world contexts. We introduce Learning2Rewrite, a novel framework for detecting AI-generated text with exceptional generalization to unseen domains. Our method leverages the insight that LLMs inherently modify AI-generated content less than human-written text when tasked with rewriting. By training LLMs to minimize alterations on AI-generated inputs, we amplify this disparity, yielding a more distinguishable and generalizable edit distance across diverse text distributions. Extensive experiments on data from 21 independent domains and four major LLMs (GPT-3.5, GPT-4, Gemini, and Llama-3) demonstrate that our detector outperforms state-of-the-art detection methods by up to 23.04% in AUROC for in-distribution tests, 37.26% for out-of-distribution tests, and 48.66% under adversarial attacks. Our unique training objective ensures better generalizability compared to directly training for classification, when leveraging the same amount of parameters. Our findings suggest that reinforcing LLMs' inherent rewriting tendencies offers a robust and scalable solution for detecting AI-generated text.