Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

📄 arXiv: 2603.17522v1 📥 PDF

作者: Madhav S. Baidya, S. S. Baidya, Chirag Chawla

分类: cs.CL, cs.AI

发布日期: 2026-03-18

备注: ~30 pages, 10+ figures. Code available at: https://github.com/MadsDoodle/Human-and-LLM-Generated-Text-Detectability-under-Adversarial-Humanization


💡 一句话要点

构建AI生成文本检测的综合基准,评估多种架构、领域和对抗条件下的检测器性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 大型语言模型 基准测试 领域泛化 对抗鲁棒性 Transformer模型 XGBoost 困惑度

📋 核心要点

  1. 现有AI生成文本检测基准缺乏跨领域、跨LLM的泛化能力和对抗鲁棒性评估。
  2. 构建综合基准,涵盖多种检测方法和数据集,评估不同条件下的检测器性能。
  3. 实验表明Transformer模型在同分布数据上表现良好,但在领域转移下性能下降,XGBoost文体模型表现稳健。

📝 摘要(中文)

大型语言模型(LLM)的快速普及对稳健且通用的机器生成文本检测器提出了迫切需求。现有的基准测试通常在理想条件下评估单个数据集上的单个检测器,对跨领域迁移、跨LLM泛化和对抗鲁棒性提出了开放性问题。本文提出了一个综合基准,评估了两种语料库上的各种检测方法:HC3(23,363个人工-ChatGPT对)和ELI5(15,000个人工-Mistral-7B对)。方法包括经典分类器、微调的Transformer编码器(BERT、RoBERTa、ELECTRA、DistilBERT、DeBERTa-v3)、CNN、XGBoost文体模型、基于困惑度的检测器以及LLM作为检测器的提示。结果表明,Transformer模型在同分布数据上实现了近乎完美的性能,但在领域转移下性能下降。XGBoost文体模型在保持可解释性的同时匹配了性能。基于LLM的检测器表现不佳,并受到生成器-检测器身份偏差的影响。基于困惑度的方法表现出极性反转,现代LLM的输出显示出比人工文本更低的困惑度,但在校正后仍然有效。没有一种方法能够在跨领域和LLM来源上稳健地泛化。

🔬 方法详解

问题定义:论文旨在解决AI生成文本检测器在跨领域、跨LLM以及对抗攻击下的泛化能力不足的问题。现有方法通常只在单一数据集和理想条件下评估,无法反映真实应用场景的复杂性,存在领域偏移和模型偏见等问题。

核心思路:论文的核心思路是通过构建一个综合性的基准测试,系统地评估各种检测方法在不同领域、不同LLM生成文本以及对抗条件下的性能。通过对比不同方法的优缺点,揭示现有检测器的局限性,并为未来研究提供指导。

技术框架:该基准测试包含两个主要语料库:HC3(人工-ChatGPT对)和ELI5(人工-Mistral-7B对)。评估的检测方法包括:1) 经典分类器;2) 微调的Transformer编码器(BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3);3) CNN;4) XGBoost文体模型;5) 基于困惑度的检测器;6) LLM作为检测器的提示。

关键创新:该研究的关键创新在于构建了一个全面的AI生成文本检测基准,涵盖了多种检测方法、数据集和评估指标。通过系统性的实验,揭示了现有检测器在跨领域泛化、跨LLM泛化和对抗鲁棒性方面的不足。此外,研究还发现了基于困惑度的方法存在极性反转的问题,并提出了相应的校正方法。

关键设计:在实验设计方面,论文考虑了多种因素,包括数据集的选择、检测方法的选取、评估指标的设定以及对抗攻击的实施。例如,为了评估跨领域泛化能力,论文使用了两个不同的数据集HC3和ELI5。为了评估对抗鲁棒性,论文使用了不同的对抗攻击方法。在模型训练方面,论文对Transformer编码器进行了微调,并使用了交叉验证等技术来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Transformer模型在同分布数据上表现出色,但领域转移时性能显著下降。XGBoost文体模型在保持可解释性的同时,性能与Transformer模型相当。LLM作为检测器表现不佳,且受生成器-检测器身份偏差影响。基于困惑度的方法存在极性反转问题,但校正后仍然有效。总体而言,没有一种方法能在所有领域和LLM来源上实现稳健的泛化。

🎯 应用场景

该研究成果可应用于内容审核、学术诚信检测、虚假信息识别等领域。通过提高AI生成文本检测器的准确性和鲁棒性,可以有效防止恶意利用LLM生成虚假信息、进行欺诈活动等行为,维护网络安全和社会稳定。未来的研究可以进一步探索更有效的检测方法,提高检测器的泛化能力和对抗鲁棒性。

📄 摘要(原文)

The rapid proliferation of large language models (LLMs) has created an urgent need for robust and generalizable detectors of machine-generated text. Existing benchmarks typically evaluate a single detector on a single dataset under ideal conditions, leaving open questions about cross-domain transfer, cross-LLM generalization, and adversarial robustness. We present a comprehensive benchmark evaluating diverse detection approaches across two corpora: HC3 (23,363 human-ChatGPT pairs) and ELI5 (15,000 human-Mistral-7B pairs). Methods include classical classifiers, fine-tuned transformer encoders (BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3), a CNN, an XGBoost stylometric model, perplexity-based detectors, and LLM-as-detector prompting. Results show that transformer models achieve near-perfect in-distribution performance but degrade under domain shift. The XGBoost stylometric model matches performance while remaining interpretable. LLM-based detectors underperform and are affected by generator-detector identity bias. Perplexity-based methods exhibit polarity inversion, with modern LLM outputs showing lower perplexity than human text, but remain effective when corrected. No method generalizes robustly across domains and LLM sources.