Automatic detection of Gen-AI texts: A comparative framework of neural models

📄 arXiv: 2603.18750v1 📥 PDF

作者: Cristian Buttaro, Irene Amerini

分类: cs.CL

发布日期: 2026-03-19


💡 一句话要点

提出并比较多种神经模型,用于自动检测生成式AI文本,解决学术、编辑和社会领域难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 神经模型 监督学习 文本分类 自然语言处理

📋 核心要点

  1. 现有方法难以区分人工撰写和AI生成的文本,给学术诚信和社会信任带来挑战。
  2. 设计并比较多种神经模型,包括MLP、CNN、MobileNet和Transformer,用于AI生成文本的检测。
  3. 实验结果表明,有监督模型在跨语言和跨领域检测中优于商业工具,但仍存在局限性。

📝 摘要(中文)

大型语言模型的快速普及显著增加了区分人工撰写文本和AI生成文本的难度,这在学术、编辑和社会领域引发了关键问题。本文研究了AI生成文本检测问题,通过设计、实现和比较评估多种基于机器学习的检测器。开发并分析了四种神经架构:多层感知器、一维卷积神经网络、基于MobileNet的CNN和Transformer模型。将提出的模型与广泛使用的在线检测器(包括ZeroGPT、GPTZero、QuillBot、Originality.AI、Sapling、IsGen、Rephrase和Writer)进行基准测试。实验在COLING多语言数据集(考虑英语和意大利语配置)以及关注艺术和心理健康的原始主题数据集上进行。结果表明,有监督检测器在不同语言和领域中比商业工具实现了更稳定和鲁棒的性能,突出了当前检测策略的关键优势和局限性。

🔬 方法详解

问题定义:论文旨在解决自动检测AI生成文本的问题。现有方法,特别是商业在线检测工具,在跨语言、跨领域场景下的稳定性和鲁棒性不足,容易出现误判或漏判,无法满足学术、编辑等领域对检测准确性的需求。

核心思路:论文的核心思路是利用监督学习方法,训练一系列基于深度学习的文本分类器,通过学习人工撰写和AI生成文本的特征差异,实现更准确的AI生成文本检测。通过比较不同架构的神经模型,分析其在检测任务中的优劣,为实际应用提供参考。

技术框架:整体框架包括数据收集与预处理、模型构建、模型训练与评估三个主要阶段。首先,收集人工撰写和AI生成的文本数据,构建训练集和测试集。然后,构建四种不同的神经模型:多层感知器(MLP)、一维卷积神经网络(CNN)、基于MobileNet的CNN和Transformer模型。最后,使用训练集训练模型,并在测试集上评估模型的性能,与商业在线检测工具进行比较。

关键创新:论文的关键创新在于系统性地比较了多种神经模型在AI生成文本检测任务中的性能,并针对特定领域(艺术和心理健康)构建了数据集。通过实验分析,揭示了不同模型在跨语言、跨领域场景下的优劣,为选择合适的检测模型提供了依据。

关键设计:论文中,MLP模型采用全连接层进行文本特征提取和分类;CNN模型使用一维卷积核提取文本的局部特征;MobileNet-based CNN模型利用深度可分离卷积减少参数量,提高计算效率;Transformer模型则利用自注意力机制捕捉文本的全局依赖关系。损失函数采用交叉熵损失,优化器采用Adam。数据集包括COLING多语言数据集和作者构建的艺术与心理健康主题数据集。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,有监督的神经模型在COLING多语言数据集和艺术与心理健康主题数据集上,均优于商业在线检测工具,尤其是在跨语言和跨领域场景下,表现出更强的稳定性和鲁棒性。例如,在特定数据集上,有监督模型的准确率比商业工具高出约10%-20%。

🎯 应用场景

该研究成果可应用于学术诚信检测、新闻内容审核、社交媒体内容过滤等领域,帮助识别和过滤AI生成的虚假信息、抄袭内容等,维护健康的学术环境和网络生态。未来可进一步研究对抗攻击,提高检测器的鲁棒性,并探索更高效的检测方法。

📄 摘要(原文)

The rapid proliferation of Large Language Models has significantly increased the difficulty of distinguishing between human-written and AI generated texts, raising critical issues across academic, editorial, and social domains. This paper investigates the problem of AI generated text detection through the design, implementation, and comparative evaluation of multiple machine learning based detectors. Four neural architectures are developed and analyzed: a Multilayer Perceptron, a one-dimensional Convolutional Neural Network, a MobileNet-based CNN, and a Transformer model. The proposed models are benchmarked against widely used online detectors, including ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase, and Writer. Experiments are conducted on the COLING Multilingual Dataset, considering both English and Italian configurations, as well as on an original thematic dataset focused on Art and Mental Health. Results show that supervised detectors achieve more stable and robust performance than commercial tools across different languages and domains, highlighting key strengths and limitations of current detection strategies.