DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm
作者: Xiaowei Zhu, Yubing Ren, Fang Fang, Qingfeng Tan, Shi Wang, Yanan Cao
分类: cs.CL
发布日期: 2025-09-19 (更新: 2025-10-09)
备注: NeurIPS 2025 Spotlight
🔗 代码/项目: GITHUB
💡 一句话要点
提出DNA-DetectLLM以解决AI生成文本检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成文本 文本检测 深度学习 特征提取 鲁棒性 对抗攻击 信息真实性
📋 核心要点
- 现有的AI生成文本检测方法面临着人类文本与AI文本特征分布重叠的问题,导致分类边界模糊,检测准确性降低。
- 本文提出DNA-DetectLLM,通过DNA启发的修复过程,迭代修复文本中的非最优标记,从而有效捕捉文本之间的内在差异。
- 实验结果显示,DNA-DetectLLM在多个公共基准数据集上相较于现有方法,AUROC提升5.55%,F1分数提升2.08%。
📝 摘要(中文)
随着大型语言模型的快速发展,AI生成文本与人类撰写文本之间的界限变得模糊,带来了虚假信息、著作权不明等社会风险,急需可靠的检测方法。为此,本文提出了一种DNA启发的修复过程,直接捕捉人类文本与AI文本之间的内在差异,进而提出DNA-DetectLLM,一种零样本检测方法。该方法通过构建理想的AI生成序列,迭代修复非最优标记,并将累积修复努力量化为可解释的检测信号。实验证明,该方法在多个公共基准数据集上实现了最先进的检测性能,并在对抗攻击和输入长度变化方面表现出强大的鲁棒性。
🔬 方法详解
问题定义:本文旨在解决AI生成文本与人类撰写文本之间的检测难题,现有方法由于特征重叠,导致准确性下降,难以有效区分两者。
核心思路:通过DNA启发的修复过程,构建理想的AI生成序列,迭代修复文本中的非最优标记,从而捕捉文本的内在差异,形成可解释的检测信号。
技术框架:整体流程包括输入文本的理想序列构建、非最优标记的迭代修复、以及累积修复努力的量化,最终输出检测结果。
关键创新:最重要的创新在于引入DNA启发的修复机制,使得检测过程不仅高效且具有可解释性,与传统方法相比,提供了更深层次的文本分析。
关键设计:在参数设置上,采用了适应性修复策略,损失函数设计为累积修复努力的量化,网络结构则结合了深度学习与文本特征提取的最佳实践。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DNA-DetectLLM在多个公共基准数据集上实现了最先进的检测性能,AUROC相较于基线提升5.55%,F1分数提升2.08%。该方法在面对不同输入长度和对抗攻击时展现出强大的鲁棒性,验证了其有效性。
🎯 应用场景
该研究的潜在应用领域包括社交媒体内容审核、新闻报道的真实性验证以及学术论文的原创性检测等。通过提高AI生成文本的检测能力,可以有效降低虚假信息传播的风险,维护信息的真实性和可靠性,具有重要的社会价值和实际意义。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) has blurred the line between AI-generated and human-written text. This progress brings societal risks such as misinformation, authorship ambiguity, and intellectual property concerns, highlighting the urgent need for reliable AI-generated text detection methods. However, recent advances in generative language modeling have resulted in significant overlap between the feature distributions of human-written and AI-generated text, blurring classification boundaries and making accurate detection increasingly challenging. To address the above challenges, we propose a DNA-inspired perspective, leveraging a repair-based process to directly and interpretably capture the intrinsic differences between human-written and AI-generated text. Building on this perspective, we introduce DNA-DetectLLM, a zero-shot detection method for distinguishing AI-generated and human-written text. The method constructs an ideal AI-generated sequence for each input, iteratively repairs non-optimal tokens, and quantifies the cumulative repair effort as an interpretable detection signal. Empirical evaluations demonstrate that our method achieves state-of-the-art detection performance and exhibits strong robustness against various adversarial attacks and input lengths. Specifically, DNA-DetectLLM achieves relative improvements of 5.55% in AUROC and 2.08% in F1 score across multiple public benchmark datasets. Code and data are available at https://github.com/Xiaoweizhu57/DNA-DetectLLM.