DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm

作者: Xiaowei Zhu, Yubing Ren, Fang Fang, Qingfeng Tan, Shi Wang, Yanan Cao

分类: cs.CL

发布日期: 2025-09-19 (更新: 2025-10-09)

备注: NeurIPS 2025 Spotlight

🔗 代码/项目: GITHUB

💡 一句话要点

提出DNA-DetectLLM以解决AI生成文本检测问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成文本 文本检测 深度学习 特征提取 鲁棒性 对抗攻击 信息真实性

📋 核心要点

现有的AI生成文本检测方法面临着人类文本与AI文本特征分布重叠的问题，导致分类边界模糊，检测准确性降低。
本文提出DNA-DetectLLM，通过DNA启发的修复过程，迭代修复文本中的非最优标记，从而有效捕捉文本之间的内在差异。
实验结果显示，DNA-DetectLLM在多个公共基准数据集上相较于现有方法，AUROC提升5.55%，F1分数提升2.08%。

📝 摘要（中文）

随着大型语言模型的快速发展，AI生成文本与人类撰写文本之间的界限变得模糊，带来了虚假信息、著作权不明等社会风险，急需可靠的检测方法。为此，本文提出了一种DNA启发的修复过程，直接捕捉人类文本与AI文本之间的内在差异，进而提出DNA-DetectLLM，一种零样本检测方法。该方法通过构建理想的AI生成序列，迭代修复非最优标记，并将累积修复努力量化为可解释的检测信号。实验证明，该方法在多个公共基准数据集上实现了最先进的检测性能，并在对抗攻击和输入长度变化方面表现出强大的鲁棒性。

🔬 方法详解

问题定义：本文旨在解决AI生成文本与人类撰写文本之间的检测难题，现有方法由于特征重叠，导致准确性下降，难以有效区分两者。

核心思路：通过DNA启发的修复过程，构建理想的AI生成序列，迭代修复文本中的非最优标记，从而捕捉文本的内在差异，形成可解释的检测信号。

技术框架：整体流程包括输入文本的理想序列构建、非最优标记的迭代修复、以及累积修复努力的量化，最终输出检测结果。

关键创新：最重要的创新在于引入DNA启发的修复机制，使得检测过程不仅高效且具有可解释性，与传统方法相比，提供了更深层次的文本分析。

关键设计：在参数设置上，采用了适应性修复策略，损失函数设计为累积修复努力的量化，网络结构则结合了深度学习与文本特征提取的最佳实践。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DNA-DetectLLM在多个公共基准数据集上实现了最先进的检测性能，AUROC相较于基线提升5.55%，F1分数提升2.08%。该方法在面对不同输入长度和对抗攻击时展现出强大的鲁棒性，验证了其有效性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容审核、新闻报道的真实性验证以及学术论文的原创性检测等。通过提高AI生成文本的检测能力，可以有效降低虚假信息传播的风险，维护信息的真实性和可靠性，具有重要的社会价值和实际意义。

📄 摘要（原文）

The rapid advancement of large language models (LLMs) has blurred the line between AI-generated and human-written text. This progress brings societal risks such as misinformation, authorship ambiguity, and intellectual property concerns, highlighting the urgent need for reliable AI-generated text detection methods. However, recent advances in generative language modeling have resulted in significant overlap between the feature distributions of human-written and AI-generated text, blurring classification boundaries and making accurate detection increasingly challenging. To address the above challenges, we propose a DNA-inspired perspective, leveraging a repair-based process to directly and interpretably capture the intrinsic differences between human-written and AI-generated text. Building on this perspective, we introduce DNA-DetectLLM, a zero-shot detection method for distinguishing AI-generated and human-written text. The method constructs an ideal AI-generated sequence for each input, iteratively repairs non-optimal tokens, and quantifies the cumulative repair effort as an interpretable detection signal. Empirical evaluations demonstrate that our method achieves state-of-the-art detection performance and exhibits strong robustness against various adversarial attacks and input lengths. Specifically, DNA-DetectLLM achieves relative improvements of 5.55% in AUROC and 2.08% in F1 score across multiple public benchmark datasets. Code and data are available at https://github.com/Xiaoweizhu57/DNA-DetectLLM.

DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理