Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text

📄 arXiv: 2507.17944v1 📥 PDF

作者: Hulayyil Alshammari, Praveen Rao

分类: cs.CL, cs.AI

发布日期: 2025-07-23


💡 一句话要点

评估AI文本检测器对DeepSeek生成文本的检测性能,考察少样本和思维链提示的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI文本检测 DeepSeek 对抗性攻击 少样本学习 思维链提示 LLM 文本生成 模型评估

📋 核心要点

  1. 现有AI文本检测器在面对对抗性攻击(如释义和人工化)时,检测机器生成文本的能力受到挑战,尤其是在新兴LLM上。
  2. 该研究通过评估六种常用AI检测工具对DeepSeek生成文本的检测性能,并探索少样本和思维链提示在DeepSeek作为检测器时的有效性,填补了相关研究空白。
  3. 实验结果表明,QuillBot和Copyleaks在原始和释义文本上表现良好,但人工化攻击显著降低了检测准确率,而少样本和思维链提示则表现出高准确率。

📝 摘要(中文)

大型语言模型(LLMs)迅速改变了书面材料的创作方式。LLMs引发了对写作诚信的质疑,从而推动了人工智能(AI)检测技术的产生。对抗性攻击,如标准和人工释义,会抑制检测器检测机器生成文本的能力。之前的研究主要集中在ChatGPT和其他知名的LLMs上,并且显示了检测器之间不同的准确性。然而,关于最近发布的LLM DeepSeek,文献中存在明显的空白。因此,在这项工作中,我们研究了六种普遍可访问的AI检测工具——AI Text Classifier、Content Detector AI、Copyleaks、QuillBot、GPT-2和GPTZero——是否能够始终如一地识别DeepSeek生成的文本。检测器暴露于上述对抗性攻击。我们还通过执行少样本提示和思维链推理(CoT)来将DeepSeek视为检测器,以对AI和人类编写的文本进行分类。我们从LLM时代之前收集了49个人工编写的问答对,并使用DeepSeek-v3生成了匹配的回复,从而产生了49个AI生成的样本。然后,我们应用了释义和人工化等对抗技术,以添加196个更多样本。这些被用来挑战检测器的鲁棒性并评估准确性影响。虽然QuillBot和Copyleaks在原始和释义的DeepSeek文本上表现出接近完美的性能,但其他检测器——特别是AI Text Classifier和GPT-2——显示出不一致的结果。最有效的攻击是人工化,将Copyleaks的准确率降低到71%,QuillBot的准确率降低到58%,GPTZero的准确率降低到52%。少样本和CoT提示显示出很高的准确性,最佳的五样本结果仅错误分类了49个样本中的一个(AI召回率96%,人类召回率100%)。

🔬 方法详解

问题定义:论文旨在评估现有AI文本检测器在检测由DeepSeek生成文本时的性能,并研究对抗性攻击(如释义和人工化)对检测准确率的影响。现有方法主要针对ChatGPT等知名LLM,缺乏对新兴LLM(如DeepSeek)的评估,并且在对抗性攻击下的鲁棒性有待提高。

核心思路:论文的核心思路是通过构建包含DeepSeek生成文本及其对抗样本的数据集,然后使用多种AI文本检测器进行检测,并分析检测结果。同时,探索使用DeepSeek自身作为检测器,通过少样本学习和思维链提示来提高检测准确率。

技术框架:整体流程包括以下几个阶段:1) 使用DeepSeek生成文本;2) 对生成的文本进行对抗性攻击(释义和人工化);3) 使用六种AI文本检测器(AI Text Classifier、Content Detector AI、Copyleaks、QuillBot、GPT-2和GPTZero)进行检测;4) 使用DeepSeek自身作为检测器,通过少样本学习和思维链提示进行检测;5) 分析检测结果,评估检测器的性能和鲁棒性。

关键创新:该研究的关键创新在于:1) 首次系统性地评估了现有AI文本检测器对DeepSeek生成文本的检测性能;2) 探索了使用DeepSeek自身作为检测器,通过少样本学习和思维链提示来提高检测准确率;3) 构建了一个包含DeepSeek生成文本及其对抗样本的数据集,为后续研究提供了benchmark。

关键设计:论文的关键设计包括:1) 选择了具有代表性的六种AI文本检测器;2) 采用了释义和人工化两种常见的对抗性攻击方法;3) 使用了49个人工编写的问答对作为prompt,生成了49个AI生成的样本,并通过对抗攻击扩充到245个样本;4) 在少样本学习中,尝试了不同数量的样本(few-shot),并使用了思维链提示(CoT)来提高检测准确率。具体的参数设置和网络结构等细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

实验结果表明,QuillBot和Copyleaks在原始和释义的DeepSeek文本上表现出接近完美的性能,但人工化攻击显著降低了检测准确率(Copyleaks降至71%,QuillBot降至58%,GPTZero降至52%)。使用DeepSeek自身作为检测器,通过五样本学习和思维链提示,可以达到很高的准确率(AI召回率96%,人类召回率100%)。

🎯 应用场景

该研究成果可应用于内容安全、学术诚信、新闻真实性等领域。通过提高AI文本检测器的准确性和鲁棒性,可以有效识别机器生成的虚假信息、抄袭内容等,维护网络空间的健康和安全。未来的研究可以进一步探索更有效的对抗性攻击方法和更鲁棒的AI文本检测技术。

📄 摘要(原文)

Large language models (LLMs) have rapidly transformed the creation of written materials. LLMs have led to questions about writing integrity, thereby driving the creation of artificial intelligence (AI) detection technologies. Adversarial attacks, such as standard and humanized paraphrasing, inhibit detectors' ability to detect machine-generated text. Previous studies have mainly focused on ChatGPT and other well-known LLMs and have shown varying accuracy across detectors. However, there is a clear gap in the literature about DeepSeek, a recently published LLM. Therefore, in this work, we investigate whether six generally accessible AI detection tools -- AI Text Classifier, Content Detector AI, Copyleaks, QuillBot, GPT-2, and GPTZero -- can consistently recognize text generated by DeepSeek. The detectors were exposed to the aforementioned adversarial attacks. We also considered DeepSeek as a detector by performing few-shot prompting and chain-of-thought reasoning (CoT) for classifying AI and human-written text. We collected 49 human-authored question-answer pairs from before the LLM era and generated matching responses using DeepSeek-v3, producing 49 AI-generated samples. Then, we applied adversarial techniques such as paraphrasing and humanizing to add 196 more samples. These were used to challenge detector robustness and assess accuracy impact. While QuillBot and Copyleaks showed near-perfect performance on original and paraphrased DeepSeek text, others -- particularly AI Text Classifier and GPT-2 -- showed inconsistent results. The most effective attack was humanization, reducing accuracy to 71% for Copyleaks, 58% for QuillBot, and 52% for GPTZero. Few-shot and CoT prompting showed high accuracy, with the best five-shot result misclassifying only one of 49 samples (AI recall 96%, human recall 100%).