Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

作者: Madhav S. Baidya, S. S. Baidya, Chirag Chawla

分类: cs.CL, cs.AI

发布日期: 2026-03-18

备注: ~30 pages, 10+ figures. Code available at: https://github.com/MadsDoodle/Human-and-LLM-Generated-Text-Detectability-under-Adversarial-Humanization

💡 一句话要点

构建AI生成文本检测的综合基准，评估多种架构、领域和对抗条件下的检测器性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 大型语言模型 基准测试 领域泛化 对抗鲁棒性 Transformer模型 XGBoost 困惑度

📋 核心要点

现有AI生成文本检测基准缺乏跨领域、跨LLM的泛化能力和对抗鲁棒性评估。
构建综合基准，涵盖多种检测方法和数据集，评估不同条件下的检测器性能。
实验表明Transformer模型在同分布数据上表现良好，但在领域转移下性能下降，XGBoost文体模型表现稳健。

📝 摘要（中文）

大型语言模型（LLM）的快速普及对稳健且通用的机器生成文本检测器提出了迫切需求。现有的基准测试通常在理想条件下评估单个数据集上的单个检测器，对跨领域迁移、跨LLM泛化和对抗鲁棒性提出了开放性问题。本文提出了一个综合基准，评估了两种语料库上的各种检测方法：HC3（23,363个人工-ChatGPT对）和ELI5（15,000个人工-Mistral-7B对）。方法包括经典分类器、微调的Transformer编码器（BERT、RoBERTa、ELECTRA、DistilBERT、DeBERTa-v3）、CNN、XGBoost文体模型、基于困惑度的检测器以及LLM作为检测器的提示。结果表明，Transformer模型在同分布数据上实现了近乎完美的性能，但在领域转移下性能下降。XGBoost文体模型在保持可解释性的同时匹配了性能。基于LLM的检测器表现不佳，并受到生成器-检测器身份偏差的影响。基于困惑度的方法表现出极性反转，现代LLM的输出显示出比人工文本更低的困惑度，但在校正后仍然有效。没有一种方法能够在跨领域和LLM来源上稳健地泛化。

🔬 方法详解

问题定义：论文旨在解决AI生成文本检测器在跨领域、跨LLM以及对抗攻击下的泛化能力不足的问题。现有方法通常只在单一数据集和理想条件下评估，无法反映真实应用场景的复杂性，存在领域偏移和模型偏见等问题。

核心思路：论文的核心思路是通过构建一个综合性的基准测试，系统地评估各种检测方法在不同领域、不同LLM生成文本以及对抗条件下的性能。通过对比不同方法的优缺点，揭示现有检测器的局限性，并为未来研究提供指导。

技术框架：该基准测试包含两个主要语料库：HC3（人工-ChatGPT对）和ELI5（人工-Mistral-7B对）。评估的检测方法包括：1) 经典分类器；2) 微调的Transformer编码器（BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3）；3) CNN；4) XGBoost文体模型；5) 基于困惑度的检测器；6) LLM作为检测器的提示。

关键创新：该研究的关键创新在于构建了一个全面的AI生成文本检测基准，涵盖了多种检测方法、数据集和评估指标。通过系统性的实验，揭示了现有检测器在跨领域泛化、跨LLM泛化和对抗鲁棒性方面的不足。此外，研究还发现了基于困惑度的方法存在极性反转的问题，并提出了相应的校正方法。

关键设计：在实验设计方面，论文考虑了多种因素，包括数据集的选择、检测方法的选取、评估指标的设定以及对抗攻击的实施。例如，为了评估跨领域泛化能力，论文使用了两个不同的数据集HC3和ELI5。为了评估对抗鲁棒性，论文使用了不同的对抗攻击方法。在模型训练方面，论文对Transformer编码器进行了微调，并使用了交叉验证等技术来提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Transformer模型在同分布数据上表现出色，但领域转移时性能显著下降。XGBoost文体模型在保持可解释性的同时，性能与Transformer模型相当。LLM作为检测器表现不佳，且受生成器-检测器身份偏差影响。基于困惑度的方法存在极性反转问题，但校正后仍然有效。总体而言，没有一种方法能在所有领域和LLM来源上实现稳健的泛化。

🎯 应用场景

该研究成果可应用于内容审核、学术诚信检测、虚假信息识别等领域。通过提高AI生成文本检测器的准确性和鲁棒性，可以有效防止恶意利用LLM生成虚假信息、进行欺诈活动等行为，维护网络安全和社会稳定。未来的研究可以进一步探索更有效的检测方法，提高检测器的泛化能力和对抗鲁棒性。

📄 摘要（原文）

The rapid proliferation of large language models (LLMs) has created an urgent need for robust and generalizable detectors of machine-generated text. Existing benchmarks typically evaluate a single detector on a single dataset under ideal conditions, leaving open questions about cross-domain transfer, cross-LLM generalization, and adversarial robustness. We present a comprehensive benchmark evaluating diverse detection approaches across two corpora: HC3 (23,363 human-ChatGPT pairs) and ELI5 (15,000 human-Mistral-7B pairs). Methods include classical classifiers, fine-tuned transformer encoders (BERT, RoBERTa, ELECTRA, DistilBERT, DeBERTa-v3), a CNN, an XGBoost stylometric model, perplexity-based detectors, and LLM-as-detector prompting. Results show that transformer models achieve near-perfect in-distribution performance but degrade under domain shift. The XGBoost stylometric model matches performance while remaining interpretable. LLM-based detectors underperform and are affected by generator-detector identity bias. Perplexity-based methods exhibit polarity inversion, with modern LLM outputs showing lower perplexity than human text, but remain effective when corrected. No method generalizes robustly across domains and LLM sources.

Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理