'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews

📄 arXiv: 2410.09770v1 📥 PDF

作者: Sandeep Kumar, Mohit Sahu, Vardhan Gacche, Tirthankar Ghosal, Asif Ekbal

分类: cs.CL, cs.AI, cs.DL, cs.LG

发布日期: 2024-10-13

备注: EMNLP Main, 17 pages, 5 figures, 9 tables


💡 一句话要点

提出TF和RR模型,检测AI生成的同行评审,保障学术诚信。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI文本检测 同行评审 大型语言模型 ChatGPT 词频分析 文本生成 学术诚信

📋 核心要点

  1. 现有AI文本检测方法泛化性不足,难以有效识别学术评审中AI生成内容,对学术诚信构成威胁。
  2. 提出基于词频(TF)和评审再生(RR)的模型,利用AI文本的重复性和重新生成相似性进行检测。
  3. 实验表明,所提出的方法优于其他AI文本检测器,并提出了防御释义攻击的有效策略。

📝 摘要(中文)

同行评审的完整性对于维护学术界的科学严谨性和信任至关重要。随着ChatGPT等大型语言模型(LLM)在学术写作中的使用稳步增加,人们越来越担心AI生成的文本可能会损害科学出版,包括同行评审。先前的工作主要集中在通用AI生成文本检测或提出一种估计可以由AI生成的同行评审比例的方法。本文的重点是通过协助编辑或主席确定评审是否由ChatGPT撰写来解决实际问题。为此,我们引入了词频(TF)模型,该模型假设AI经常重复token;以及评审再生(RR)模型,该模型基于ChatGPT在重新提示时生成相似输出的想法。我们对这些检测器进行了token攻击和释义的压力测试。最后,我们提出了一种有效的防御策略,以减少释义对我们模型的影响。我们的研究结果表明,我们提出的两种方法都优于其他AI文本检测器。我们的RR模型更鲁棒,尽管在没有任何攻击的情况下,我们的TF模型表现优于RR模型。我们公开了我们的代码、数据集和模型。

🔬 方法详解

问题定义:论文旨在解决如何检测AI(特别是ChatGPT)生成的同行评审的问题。现有方法要么是通用的AI文本检测器,无法针对同行评审的特定领域进行优化,要么只是估计AI生成评审的比例,而不能直接帮助编辑识别具体的AI生成评审。现有方法缺乏对对抗性攻击(如token攻击和释义)的鲁棒性。

核心思路:论文的核心思路是利用AI生成文本的两个特性:一是AI倾向于重复使用某些token(词频特性),二是对于相同的prompt,AI会生成相似的输出(评审再生特性)。基于这两个特性,论文设计了两个检测模型。

技术框架:整体框架包含两个主要模型: 1. 词频(TF)模型:统计评审文本中token的频率,并与正常评审的token频率分布进行比较,判断是否为AI生成。 2. 评审再生(RR)模型:对评审文本进行重新prompt,让ChatGPT重新生成评审,然后比较原始评审和重新生成的评审的相似度,判断是否为AI生成。如果原始评审也是由ChatGPT生成的,那么相似度会很高。 此外,论文还提出了防御释义攻击的策略,以提高模型的鲁棒性。

关键创新:论文的关键创新在于针对同行评审的特定领域,提出了基于词频和评审再生的检测方法。与通用的AI文本检测器相比,这些方法更能有效地识别AI生成的同行评审。此外,论文还考虑了对抗性攻击,并提出了相应的防御策略。

关键设计: * TF模型:使用TF-IDF加权,并计算与正常评审的token频率分布的差异。 * RR模型:使用余弦相似度来衡量原始评审和重新生成的评审之间的相似度。 * 防御策略:使用数据增强技术,通过对训练数据进行释义,来提高模型对释义攻击的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的TF和RR模型在检测AI生成的同行评审方面优于其他AI文本检测器。RR模型在对抗token攻击和释义攻击时表现出更强的鲁棒性。在没有攻击的情况下,TF模型表现最佳。论文还提出了一种有效的防御策略,可以显著降低释义攻击对模型性能的影响。

🎯 应用场景

该研究成果可应用于学术出版领域,帮助期刊编辑和评审委员会识别AI生成的同行评审,维护学术诚信。该技术还可扩展到其他需要高质量文本内容的领域,例如新闻报道和法律文件,以检测和防止AI生成的不准确或虚假信息。

📄 摘要(原文)

The integrity of the peer-review process is vital for maintaining scientific rigor and trust within the academic community. With the steady increase in the usage of large language models (LLMs) like ChatGPT in academic writing, there is a growing concern that AI-generated texts could compromise scientific publishing, including peer-reviews. Previous works have focused on generic AI-generated text detection or have presented an approach for estimating the fraction of peer-reviews that can be AI-generated. Our focus here is to solve a real-world problem by assisting the editor or chair in determining whether a review is written by ChatGPT or not. To address this, we introduce the Term Frequency (TF) model, which posits that AI often repeats tokens, and the Review Regeneration (RR) model, which is based on the idea that ChatGPT generates similar outputs upon re-prompting. We stress test these detectors against token attack and paraphrasing. Finally, we propose an effective defensive strategy to reduce the effect of paraphrasing on our models. Our findings suggest both our proposed methods perform better than the other AI text detectors. Our RR model is more robust, although our TF model performs better than the RR model without any attacks. We make our code, dataset, and model public.