Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review
作者: Sungduk Yu, Man Luo, Avinash Madusu, Vasudev Lal, Phillip Howard
分类: cs.CL, cs.AI
发布日期: 2025-02-26 (更新: 2025-05-23)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
构建AI同行评审检测基准,揭示现有AI文本检测算法在评审场景下的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI文本检测 同行评审 大型语言模型 数据集构建 上下文感知
📋 核心要点
- 同行评审面临LLM滥用风险,审稿人可能使用AI生成评审,但缺乏针对评审文本的AI检测基准。
- 论文构建了包含大量人工和AI生成评审的数据集,并提出上下文感知的Anchor检测方法,利用稿件内容辅助检测。
- 实验表明现有AI文本检测算法在同行评审文本上的表现不佳,强调了开发更有效检测工具的必要性。
📝 摘要(中文)
同行评审是确保已发表科学研究完整性的关键过程。该过程的信心基于相关领域专家认真审阅稿件的优点。随着大型语言模型(LLM)的快速发展,同行评审过程面临新的风险,即疏忽的审稿人可能依赖LLM来执行耗时的论文评审过程。然而,目前缺乏用于评估AI文本在同行评审领域的可检测性的资源。为了解决这个问题,我们引入了一个全面的数据集,其中包含总共788,984个AI撰写的同行评审以及相应的人工评审,涵盖了提交给两个领先的AI研究会议(ICLR和NeurIPS)的8年论文。我们使用这个新资源来评估18种现有AI文本检测算法区分完全由人类撰写的同行评审和不同最先进LLM的能力。此外,我们探索了一种名为Anchor的上下文感知检测方法,该方法利用稿件内容来检测AI生成的评审,并分析检测模型对LLM辅助编辑的人工撰写文本的敏感性。我们的工作揭示了在单个同行评审级别识别AI生成文本的难度,突出了对新工具和方法来检测这种不道德的生成AI使用的迫切需求。我们的数据集可在https://huggingface.co/datasets/IntelLabs/AI-Peer-Review-Detection-Benchmark公开获取。
🔬 方法详解
问题定义:论文旨在解决同行评审过程中,审稿人可能使用大型语言模型(LLM)生成评审意见,从而损害评审质量和公正性的问题。现有的AI文本检测方法在通用文本上的表现尚可,但在同行评审这种专业性强、篇幅较短的文本上效果不佳,缺乏针对该场景的benchmark。
核心思路:论文的核心思路是构建一个大规模的、专门针对同行评审场景的AI文本检测数据集,并基于此数据集评估现有AI文本检测算法的性能。此外,论文还提出了一种上下文感知的检测方法,利用被评审的稿件内容来辅助判断评审意见是否由AI生成。这样做的目的是提高检测的准确性和鲁棒性,因为评审意见通常与稿件内容密切相关。
技术框架:整体框架包含数据收集与构建、现有AI文本检测算法评估、上下文感知检测方法Anchor的提出与实验三个主要阶段。首先,收集ICLR和NeurIPS会议的论文评审数据,包括人工评审和AI生成的评审。然后,使用18种现有的AI文本检测算法在数据集上进行评估。最后,提出Anchor方法,并与现有方法进行比较。
关键创新:论文的关键创新在于构建了一个大规模的、高质量的同行评审AI文本检测数据集,填补了该领域的空白。此外,提出的上下文感知检测方法Anchor,利用稿件内容作为辅助信息,提高了检测的准确性。这种方法考虑了评审意见与稿件内容之间的关联性,更符合实际评审场景。
关键设计:Anchor方法的关键设计在于如何有效地利用稿件内容。具体实现细节未知,但推测可能使用了某种形式的注意力机制或相似度计算,将评审意见与稿件内容进行关联,从而判断评审意见是否与稿件内容相符,以此来辅助判断是否为AI生成。
🖼️ 关键图片
📊 实验亮点
论文构建了包含近80万条评审意见的大规模数据集,涵盖ICLR和NeurIPS两个顶级会议的8年数据。实验表明,现有AI文本检测算法在同行评审文本上的检测效果远低于预期,凸显了该领域研究的紧迫性。Anchor方法在一定程度上提高了检测准确率,但仍有提升空间。
🎯 应用场景
该研究成果可应用于学术出版领域,帮助期刊和会议识别AI生成的评审意见,维护同行评审的公正性和质量。同时,该数据集可作为AI文本检测算法研究的基准,促进相关技术的发展。未来,该技术还可扩展到其他专业领域的文本检测,例如法律、金融等。
📄 摘要(原文)
Peer review is a critical process for ensuring the integrity of published scientific research. Confidence in this process is predicated on the assumption that experts in the relevant domain give careful consideration to the merits of manuscripts which are submitted for publication. With the recent rapid advancements in large language models (LLMs), a new risk to the peer review process is that negligent reviewers will rely on LLMs to perform the often time consuming process of reviewing a paper. However, there is a lack of existing resources for benchmarking the detectability of AI text in the domain of peer review. To address this deficiency, we introduce a comprehensive dataset containing a total of 788,984 AI-written peer reviews paired with corresponding human reviews, covering 8 years of papers submitted to each of two leading AI research conferences (ICLR and NeurIPS). We use this new resource to evaluate the ability of 18 existing AI text detection algorithms to distinguish between peer reviews fully written by humans and different state-of-the-art LLMs. Additionally, we explore a context-aware detection method called Anchor, which leverages manuscript content to detect AI-generated reviews, and analyze the sensitivity of detection models to LLM-assisted editing of human-written text. Our work reveals the difficulty of identifying AI-generated text at the individual peer review level, highlighting the urgent need for new tools and methods to detect this unethical use of generative AI. Our dataset is publicly available at: https://huggingface.co/datasets/IntelLabs/AI-Peer-Review-Detection-Benchmark.