Breaking the Generator Barrier: Disentangled Representation for Generalizable AI-Text Detection

📄 arXiv: 2604.13692v1 📥 PDF

作者: Xiao Pu, Zepeng Cheng, Lin Yuan, Yu Wu, Xiuli Bi

分类: cs.CL

发布日期: 2026-04-15

🔗 代码/项目: GITHUB


💡 一句话要点

提出解耦表征框架DRGD,提升AI文本检测在未知生成器上的泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI文本检测 解耦表征 泛化能力 大型语言模型 对抗训练

📋 核心要点

  1. 现有AI文本检测方法依赖于特定生成器的特征,在新模型涌现时鲁棒性不足,泛化能力差。
  2. 论文提出解耦表征框架DRGD,通过潜在编码、扰动正则化和判别适应,分离AI检测语义和生成器特征。
  3. 实验表明,DRGD在MAGE基准测试中显著优于现有方法,准确率提升高达24.2%,F1提升高达26.2%。

📝 摘要(中文)

随着大型语言模型(LLMs)生成的文本越来越像人类写作,区分AI生成内容和人类写作内容的细微线索变得越来越具有挑战性。依赖于特定生成器的特征本质上是不稳定的,因为新的模型迅速出现,降低了这种捷径的鲁棒性。这使得泛化到未见过的生成器成为AI文本检测的一个核心且具有挑战性的问题。为了应对这一挑战,我们提出了一个渐进结构化的框架,将AI检测语义与生成器相关的特征解耦。这是通过鼓励语义最小化的紧凑潜在编码实现的,然后通过基于扰动的正则化来减少残余的纠缠,最后通过判别适应阶段将表示与任务目标对齐。在MAGE基准测试上的实验,涵盖了7个类别的20个代表性LLM,证明了相对于最先进方法的持续改进,实现了高达24.2%的准确率提升和26.2%的F1提升。值得注意的是,随着训练生成器多样性的增加,性能持续提高,证实了在开放场景中强大的可扩展性和泛化能力。我们的源代码将在https://github.com/PuXiao06/DRGD上公开。

🔬 方法详解

问题定义:现有AI文本检测方法严重依赖于特定生成器的伪影(artifacts),例如特定模型的token分布或生成模式。当面对未知的、新的生成器时,这些方法的性能会显著下降,因为它们无法泛化到新的生成模式。因此,如何提升AI文本检测模型在面对未知生成器时的泛化能力是一个关键问题。

核心思路:论文的核心思路是将AI文本检测的语义信息(例如,文本的流畅性、一致性等)与生成器相关的特征(例如,特定模型的生成风格)解耦。通过学习一个与生成器无关的、更通用的AI文本表示,模型可以更好地泛化到未知的生成器。这种解耦是通过一系列的正则化和适应技术来实现的。

技术框架:DRGD框架包含三个主要阶段:1) 紧凑潜在编码:将输入文本编码到一个低维的潜在空间中,鼓励语义最小化,去除冗余信息。2) 扰动正则化:通过对潜在编码进行扰动,进一步减少残余的生成器相关特征的纠缠。3) 判别适应:将解耦后的表示与AI文本检测的任务目标对齐,优化分类性能。

关键创新:该论文的关键创新在于提出了一个渐进结构化的解耦框架,能够有效地分离AI文本检测的语义信息和生成器相关的特征。通过这种解耦,模型可以学习到更通用的AI文本表示,从而提升在未知生成器上的泛化能力。与现有方法相比,DRGD不是直接学习生成器的伪影,而是学习更本质的AI文本特征。

关键设计:在紧凑潜在编码阶段,使用了自编码器结构,并添加了L1正则化来鼓励潜在编码的稀疏性。在扰动正则化阶段,使用了对抗训练的方法,通过生成对抗样本来增强模型的鲁棒性。在判别适应阶段,使用了交叉熵损失函数来优化分类性能。具体的扰动方式和对抗训练的参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRGD在MAGE基准测试中取得了显著的性能提升。在面对20个不同的LLM时,DRGD的准确率提升高达24.2%,F1值提升高达26.2%。更重要的是,随着训练数据中生成器多样性的增加,DRGD的性能持续提升,这表明该方法具有很强的可扩展性和泛化能力。这些结果表明DRGD在解决AI文本检测的泛化问题上具有显著优势。

🎯 应用场景

该研究成果可应用于内容安全、信息真实性验证等领域。例如,可以用于检测社交媒体上由AI生成的虚假信息,防止恶意传播。此外,该技术还可以用于评估大型语言模型的生成质量,促进AI技术的健康发展。未来,该技术有望集成到自动化内容审核系统中,提高审核效率和准确性。

📄 摘要(原文)

As large language models (LLMs) generate text that increasingly resembles human writing, the subtle cues that distinguish AI-generated content from human-written content become increasingly challenging to capture. Reliance on generator-specific artifacts is inherently unstable, since new models emerge rapidly and reduce the robustness of such shortcuts. This generalizes unseen generators as a central and challenging problem for AI-text detection. To tackle this challenge, we propose a progressively structured framework that disentangles AI-detection semantics from generator-aware artifacts. This is achieved through a compact latent encoding that encourages semantic minimality, followed by perturbation-based regularization to reduce residual entanglement, and finally a discriminative adaptation stage that aligns representations with task objectives. Experiments on MAGE benchmark, covering 20 representative LLMs across 7 categories, demonstrate consistent improvements over state-of-the-art methods, achieving up to 24.2% accuracy gain and 26.2% F1 improvement. Notably, performance continues to improve as the diversity of training generators increases, confirming strong scalability and generalization in open-set scenarios. Our source code will be publicly available at https://github.com/PuXiao06/DRGD.