Why AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy

📄 arXiv: 2603.23146v1 📥 PDF

作者: Shushanta Pudasaini, Luis Miralles-Pechuán, David Lillis, Marisa Llorens Salvador

分类: cs.CL, cs.AI

发布日期: 2026-03-24


💡 一句话要点

提出基于可解释AI的框架,揭示AI生成文本检测器在跨域泛化上的缺陷

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 可解释AI 领域泛化 语言特征工程 SHAP 机器学习

📋 核心要点

  1. 现有AI生成文本检测器在基准测试中表现良好,但在实际应用中泛化能力不足,依赖数据集特有特征。
  2. 提出结合语言特征工程、机器学习和可解释AI的检测框架,以识别更通用的机器写作模式。
  3. 实验表明,该框架在跨域和跨生成器评估中存在泛化失败,揭示了检测器对数据集特定线索的依赖。

📝 摘要(中文)

大型语言模型(LLMs)的广泛应用使得AI生成文本的检测成为一个紧迫而复杂的挑战。尽管许多检测系统报告了很高的基准准确率,但它们在实际环境中的可靠性仍然不确定,并且它们的可解释性通常未被探索。本文研究了当前的检测器是否真正识别了机器作者身份,或者仅仅利用了数据集特定的伪影。我们提出了一个可解释的检测框架,该框架集成了语言特征工程、机器学习和可解释AI技术。在两个著名的基准语料库PAN CLEF 2025和COLING 2025上进行评估时,我们基于30个语言特征训练的模型获得了领先的性能,F1得分为0.9734。然而,系统的跨域和跨生成器评估揭示了显著的泛化失败:在域内表现出色的分类器在分布偏移下会显著下降。使用基于SHAP的解释,我们表明不同数据集之间最具影响力的特征差异显著,表明检测器通常依赖于数据集特定的风格线索,而不是机器作者身份的稳定信号。通过深入的错误分析,进一步的研究揭示了基于语言特征的AI文本检测中的一个根本矛盾:在域内数据上最具区分性的特征也是最容易受到域偏移、格式变化和文本长度影响的特征。我们相信,这些知识有助于构建在不同设置中都具有鲁棒性的AI检测器。为了支持复制和实际使用,我们发布了一个开源Python包,该包返回单个文本的预测和实例级别的解释。

🔬 方法详解

问题定义:当前AI生成文本检测器虽然在特定数据集上表现出色,但其泛化能力不足,无法有效应对真实场景中存在的领域偏移、格式变化和文本长度差异等问题。现有方法过度依赖数据集特定的伪影,而非真正识别机器写作的本质特征。

核心思路:本文的核心思路是构建一个可解释的AI文本检测框架,通过结合语言特征工程、机器学习和可解释AI技术,深入分析检测器所依赖的特征,从而识别出那些真正反映机器写作风格的稳定信号,并避免过度拟合数据集特定的伪影。

技术框架:该框架包含以下主要模块:1) 语言特征工程:提取文本的多种语言特征,例如词汇、语法、句法等。2) 机器学习模型训练:使用提取的语言特征训练分类器,用于区分AI生成文本和人类撰写文本。3) 可解释AI分析:利用SHAP等可解释AI技术,分析模型预测结果中各个特征的重要性,从而揭示模型所依赖的关键特征。4) 跨域和跨生成器评估:在不同数据集和不同AI生成器上评估模型的泛化能力。

关键创新:该研究的关键创新在于利用可解释AI技术深入分析AI文本检测器,揭示了现有检测器过度依赖数据集特定伪影的问题,并提出了构建更具泛化能力的AI文本检测器的方向。与现有方法相比,该研究不仅关注检测器的准确率,更关注其可解释性和鲁棒性。

关键设计:论文中使用了30种语言特征,并采用F1 score作为评估指标。SHAP值被用于解释模型预测结果中各个特征的重要性。此外,论文还进行了详细的错误分析,以识别模型在不同场景下的失败模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在PAN CLEF 2025和COLING 2025数据集上取得了领先的F1分数0.9734。然而,更重要的是,通过跨域和跨生成器评估,揭示了现有检测器在分布偏移下性能显著下降的问题。SHAP分析表明,不同数据集之间最具影响力的特征差异显著,表明检测器依赖于数据集特定的风格线索。

🎯 应用场景

该研究成果可应用于内容审核、学术诚信检测、虚假信息识别等领域。通过构建更具鲁棒性和可解释性的AI文本检测器,可以有效应对AI生成内容带来的挑战,维护网络信息安全和学术研究的公正性。未来的研究可以进一步探索更通用的机器写作特征,并开发更强大的跨域泛化方法。

📄 摘要(原文)

The widespread adoption of Large Language Models (LLMs) has made the detection of AI-Generated text a pressing and complex challenge. Although many detection systems report high benchmark accuracy, their reliability in real-world settings remains uncertain, and their interpretability is often unexplored. In this work, we investigate whether contemporary detectors genuinely identify machine authorship or merely exploit dataset-specific artefacts. We propose an interpretable detection framework that integrates linguistic feature engineering, machine learning, and explainable AI techniques. When evaluated on two prominent benchmark corpora, namely PAN CLEF 2025 and COLING 2025, our model trained on 30 linguistic features achieves leaderboard-competitive performance, attaining an F1 score of 0.9734. However, systematic cross-domain and cross-generator evaluation reveals substantial generalisation failure: classifiers that excel in-domain degrade significantly under distribution shift. Using SHAP- based explanations, we show that the most influential features differ markedly between datasets, indicating that detectors often rely on dataset-specific stylistic cues rather than stable signals of machine authorship. Further investigation with in-depth error analysis exposes a fundamental tension in linguistic-feature-based AI text detection: the features that are most discriminative on in-domain data are also the features most susceptible to domain shift, formatting variation, and text-length effects. We believe that this knowledge helps build AI detectors that are robust across different settings. To support replication and practical use, we release an open-source Python package that returns both predictions and instance-level explanations for individual texts.