PeerPrism: Peer Evaluation Expertise vs Review-writing AI

作者: Soroush Sadeghian, Alireza Daqiq, Radin Cheraghi, Sajad Ebrahimi, Negar Arabzadeh, Ebrahim Bagheri

分类: cs.CL

发布日期: 2026-04-16

DOI: 10.1145/3805712.3808602

🔗 代码/项目: GITHUB

💡 一句话要点

提出PeerPrism基准，用于评估同行评审中人类专家与AI写作的贡献区分。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 同行评审 LLM检测 人机协作 文本生成 基准数据集

📋 核心要点

现有LLM检测方法在同行评审中将作者身份简化为二元问题，忽略了人机协作的复杂性。
PeerPrism通过构建混合生成机制，区分想法来源和文本来源，从而评估检测器的真正能力。
实验表明，现有方法在混合场景下表现不佳，混淆了表面文本和智力贡献，无法准确识别作者身份。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于科学同行评审，辅助草拟、重写、扩展和润色。然而，现有的同行评审LLM检测方法大多将作者身份视为一个二元问题——人类 vs. AI，而没有考虑到现代评审工作流程的混合性质。在实践中，评估性想法和表面实现可能来自不同的来源，从而形成人机协作的谱系。本文提出了PeerPrism，一个大规模的同行评审基准，包含20690篇评审，专门用于区分想法来源和文本来源。我们构建了受控的生成机制，涵盖完全人工、完全合成和多种混合转换。这种设计能够系统地评估检测器识别的是表面文本的来源还是评估推理的来源。我们在PeerPrism上对最先进的LLM文本检测方法进行了基准测试。虽然几种方法在标准的二元任务（人类 vs. 完全合成）上取得了很高的准确率，但它们在混合机制下的预测差异很大。特别是，当想法来源于人类但表面文本是AI生成时，检测器经常出现分歧并产生矛盾的分类。伴随着文体和语义分析，我们的结果表明，当前的检测方法混淆了表面实现与智力贡献。总的来说，我们证明了同行评审中的LLM检测不能简化为一个二元归属问题。相反，作者身份必须被建模为一个多维结构，涵盖语义推理和文体实现。PeerPrism是第一个评估这些设置中人机协作的基准。我们发布了所有代码、数据、提示和评估脚本，以促进可重复的研究。

🔬 方法详解

问题定义：现有LLM检测方法在同行评审场景中，将作者身份简单地划分为“人类”或“AI”，忽略了实际评审过程中人机协作的复杂性。这种二元划分无法准确反映评审意见的来源，尤其是在人类提供想法、AI负责润色文本的情况下。现有方法的痛点在于无法区分表面文本的来源和深层语义的贡献者。

核心思路：PeerPrism的核心思路是构建一个包含多种人机协作模式的同行评审数据集，从而能够系统地评估LLM检测方法在区分想法来源和文本来源方面的能力。通过控制生成过程，可以创建完全人工、完全AI生成以及各种混合模式的评审文本，从而模拟真实的评审场景。

技术框架：PeerPrism基准包含20690篇同行评审，构建过程包括以下几个阶段：1）收集真实的同行评审数据；2）设计不同的生成机制，包括完全人工、完全AI生成以及多种混合模式（例如，人类提供想法，AI生成文本；AI提供想法，人类润色文本）；3）使用这些生成机制生成评审文本；4）使用现有的LLM检测方法对生成的评审文本进行分类；5）分析分类结果，评估检测方法在不同生成机制下的表现。

关键创新：PeerPrism最重要的技术创新点在于其混合生成机制，能够模拟真实评审场景中人机协作的复杂性。与以往只关注二元分类的数据集不同，PeerPrism能够区分想法来源和文本来源，从而更全面地评估LLM检测方法的性能。此外，PeerPrism还提供了文体和语义分析工具，帮助研究人员深入理解检测方法的行为。

关键设计：PeerPrism的关键设计包括：1）多种混合生成机制，例如，人类提供关键论点，AI负责润色语言；AI生成初步评论，人类进行修改和补充；2）使用不同的LLM进行文本生成，以增加数据的多样性；3）提供详细的元数据，包括想法来源、文本来源、生成方式等，方便研究人员进行分析；4）提供评估脚本，方便研究人员复现实验结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM检测方法在标准的二元分类任务（人类 vs. 完全AI生成）上表现良好，但在混合场景下性能显著下降。当想法来源于人类但文本由AI生成时，检测器的预测结果经常出现矛盾，表明现有方法无法有效区分想法来源和文本来源。文体和语义分析进一步证实，现有方法主要依赖于表面文本特征，而忽略了深层语义信息。

🎯 应用场景

PeerPrism的研究成果可应用于开发更可靠的AI检测工具，用于识别学术论文、新闻报道等文本中AI参与的程度。这有助于维护学术诚信，防止AI生成的不实信息传播，并促进人机协作在内容创作领域的健康发展。此外，该基准可以促进对人机协作模式的深入研究，为设计更有效的人机协作系统提供指导。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly used in scientific peer review, assisting with drafting, rewriting, expansion, and refinement. However, existing peer-review LLM detection methods largely treat authorship as a binary problem-human vs. AI-without accounting for the hybrid nature of modern review workflows. In practice, evaluative ideas and surface realization may originate from different sources, creating a spectrum of human-AI collaboration. In this work, we introduce PeerPrism, a large-scale benchmark of 20,690 peer reviews explicitly designed to disentangle idea provenance from text provenance. We construct controlled generation regimes spanning fully human, fully synthetic, and multiple hybrid transformations. This design enables systematic evaluation of whether detectors identify the origin of the surface text or the origin of the evaluative reasoning. We benchmark state-of-the-art LLM text detection methods on PeerPrism. While several methods achieve high accuracy on the standard binary task (human vs. fully synthetic), their predictions diverge sharply under hybrid regimes. In particular, when ideas originate from humans but the surface text is AI-generated, detectors frequently disagree and produce contradictory classifications. Accompanied by stylometric and semantic analyses, our results show that current detection methods conflate surface realization with intellectual contribution. Overall, we demonstrate that LLM detection in peer review cannot be reduced to a binary attribution problem. Instead, authorship must be modeled as a multidimensional construct spanning semantic reasoning and stylistic realization. PeerPrism is the first benchmark evaluating human-AI collaboration in these settings. We release all code, data, prompts, and evaluation scripts to facilitate reproducible research at https://github.com/Reviewerly-Inc/PeerPrism.

PeerPrism: Peer Evaluation Expertise vs Review-writing AI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理