Breaking the Generator Barrier: Disentangled Representation for Generalizable AI-Text Detection

作者: Xiao Pu, Zepeng Cheng, Lin Yuan, Yu Wu, Xiuli Bi

分类: cs.CL

发布日期: 2026-04-15

🔗 代码/项目: GITHUB

💡 一句话要点

提出解耦表征框架DRGD，提升AI文本检测在未知生成器上的泛化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI文本检测 解耦表征 泛化能力 大型语言模型 对抗训练

📋 核心要点

现有AI文本检测方法依赖于特定生成器的特征，在新模型涌现时鲁棒性不足，泛化能力差。
论文提出解耦表征框架DRGD，通过潜在编码、扰动正则化和判别适应，分离AI检测语义和生成器特征。
实验表明，DRGD在MAGE基准测试中显著优于现有方法，准确率提升高达24.2%，F1提升高达26.2%。

📝 摘要（中文）

随着大型语言模型(LLMs)生成的文本越来越像人类写作，区分AI生成内容和人类写作内容的细微线索变得越来越具有挑战性。依赖于特定生成器的特征本质上是不稳定的，因为新的模型迅速出现，降低了这种捷径的鲁棒性。这使得泛化到未见过的生成器成为AI文本检测的一个核心且具有挑战性的问题。为了应对这一挑战，我们提出了一个渐进结构化的框架，将AI检测语义与生成器相关的特征解耦。这是通过鼓励语义最小化的紧凑潜在编码实现的，然后通过基于扰动的正则化来减少残余的纠缠，最后通过判别适应阶段将表示与任务目标对齐。在MAGE基准测试上的实验，涵盖了7个类别的20个代表性LLM，证明了相对于最先进方法的持续改进，实现了高达24.2%的准确率提升和26.2%的F1提升。值得注意的是，随着训练生成器多样性的增加，性能持续提高，证实了在开放场景中强大的可扩展性和泛化能力。我们的源代码将在https://github.com/PuXiao06/DRGD上公开。

🔬 方法详解

问题定义：现有AI文本检测方法严重依赖于特定生成器的伪影（artifacts），例如特定模型的token分布或生成模式。当面对未知的、新的生成器时，这些方法的性能会显著下降，因为它们无法泛化到新的生成模式。因此，如何提升AI文本检测模型在面对未知生成器时的泛化能力是一个关键问题。

核心思路：论文的核心思路是将AI文本检测的语义信息（例如，文本的流畅性、一致性等）与生成器相关的特征（例如，特定模型的生成风格）解耦。通过学习一个与生成器无关的、更通用的AI文本表示，模型可以更好地泛化到未知的生成器。这种解耦是通过一系列的正则化和适应技术来实现的。

技术框架：DRGD框架包含三个主要阶段：1) 紧凑潜在编码：将输入文本编码到一个低维的潜在空间中，鼓励语义最小化，去除冗余信息。2) 扰动正则化：通过对潜在编码进行扰动，进一步减少残余的生成器相关特征的纠缠。3) 判别适应：将解耦后的表示与AI文本检测的任务目标对齐，优化分类性能。

关键创新：该论文的关键创新在于提出了一个渐进结构化的解耦框架，能够有效地分离AI文本检测的语义信息和生成器相关的特征。通过这种解耦，模型可以学习到更通用的AI文本表示，从而提升在未知生成器上的泛化能力。与现有方法相比，DRGD不是直接学习生成器的伪影，而是学习更本质的AI文本特征。

关键设计：在紧凑潜在编码阶段，使用了自编码器结构，并添加了L1正则化来鼓励潜在编码的稀疏性。在扰动正则化阶段，使用了对抗训练的方法，通过生成对抗样本来增强模型的鲁棒性。在判别适应阶段，使用了交叉熵损失函数来优化分类性能。具体的扰动方式和对抗训练的参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DRGD在MAGE基准测试中取得了显著的性能提升。在面对20个不同的LLM时，DRGD的准确率提升高达24.2%，F1值提升高达26.2%。更重要的是，随着训练数据中生成器多样性的增加，DRGD的性能持续提升，这表明该方法具有很强的可扩展性和泛化能力。这些结果表明DRGD在解决AI文本检测的泛化问题上具有显著优势。

🎯 应用场景

该研究成果可应用于内容安全、信息真实性验证等领域。例如，可以用于检测社交媒体上由AI生成的虚假信息，防止恶意传播。此外，该技术还可以用于评估大型语言模型的生成质量，促进AI技术的健康发展。未来，该技术有望集成到自动化内容审核系统中，提高审核效率和准确性。

📄 摘要（原文）

As large language models (LLMs) generate text that increasingly resembles human writing, the subtle cues that distinguish AI-generated content from human-written content become increasingly challenging to capture. Reliance on generator-specific artifacts is inherently unstable, since new models emerge rapidly and reduce the robustness of such shortcuts. This generalizes unseen generators as a central and challenging problem for AI-text detection. To tackle this challenge, we propose a progressively structured framework that disentangles AI-detection semantics from generator-aware artifacts. This is achieved through a compact latent encoding that encourages semantic minimality, followed by perturbation-based regularization to reduce residual entanglement, and finally a discriminative adaptation stage that aligns representations with task objectives. Experiments on MAGE benchmark, covering 20 representative LLMs across 7 categories, demonstrate consistent improvements over state-of-the-art methods, achieving up to 24.2% accuracy gain and 26.2% F1 improvement. Notably, performance continues to improve as the diversity of training generators increases, confirming strong scalability and generalization in open-set scenarios. Our source code will be publicly available at https://github.com/PuXiao06/DRGD.

Breaking the Generator Barrier: Disentangled Representation for Generalizable AI-Text Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理