LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers

📄 arXiv: 2605.25415v1 📥 PDF

作者: Lingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu

分类: cs.CL, cs.CY, cs.ET

发布日期: 2026-05-25


💡 一句话要点

评估LLM作为审稿人的能力:偏差、差异性与提示注入抵抗力基准研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同行评审 提示注入 基准测试 对抗攻击

📋 核心要点

  1. 现有同行评审流程耗时且成本高昂,LLM作为潜在的辅助工具,其可靠性和公正性面临挑战。
  2. 该研究通过系统性基准测试,评估LLM在评分校准、与人类审稿差异以及对抗性攻击抵抗力方面的表现。
  3. 实验揭示了LLM在评分偏差、主题侧重差异以及易受提示注入攻击等方面的弱点,强调了安全措施的重要性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于学术同行评审,但其可靠性、与人类判断的一致性以及对对抗性攻击的鲁棒性仍然知之甚少。本文对来自NeurIPS和ICLR的898篇论文进行了系统性基准测试,评估了12个LLM作为审稿人的能力,主要从三个方面进行评估:评分校准、与人类审稿人的差异以及通过不可见字体映射攻击嵌入的提示注入抵抗力。研究发现,LLM系统性地高估了较弱的投稿,并在主题重点上与人类存在差异,低估了清晰度并高估了可重复性,同时生成的评论长度是人类的两到三倍,但词汇多样性较低,词汇更加标准化。提示注入仍然非常有效。简单的隐藏指令可以在很大一部分情况下将低分论文提升到可接受的评分水平,其有效性在不同模型系列之间差异很大。虽然LLM在构建评估方面具有实用性,但将其整合到同行评审中需要防范内在偏见和对抗性风险。

🔬 方法详解

问题定义:当前学术同行评审过程面临效率低、成本高的问题,同时人类评审员的主观性也可能引入偏差。大型语言模型(LLM)被视为潜在的辅助工具,但其在评审任务中的可靠性、与人类判断的一致性以及对恶意攻击的抵抗能力尚不明确。现有方法缺乏对LLM作为审稿人进行全面、系统性评估的基准。

核心思路:本文的核心思路是构建一个全面的基准测试,通过模拟真实的同行评审场景,评估LLM在评分、内容理解和安全性方面的表现。通过对比LLM与人类评审员的差异,以及测试LLM对提示注入攻击的抵抗力,揭示LLM在评审任务中的优势与不足,为未来LLM在同行评审中的应用提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 数据收集:从NeurIPS和ICLR会议中抽取898篇论文,构建评审数据集。 2. LLM选择:选择12个具有代表性的LLM,涵盖不同架构和规模。 3. 评审模拟:使用LLM对论文进行评审,生成评审报告和评分。 4. 评估指标:设计评分校准、与人类审稿差异、提示注入抵抗力等评估指标。 5. 实验分析:分析LLM的评审结果,与人类评审结果进行对比,评估LLM的性能。

关键创新:该研究的关键创新在于: 1. 系统性基准:构建了一个全面的基准测试,对LLM作为审稿人的能力进行了系统性评估。 2. 多维度评估:从评分校准、内容理解和安全性等多个维度评估LLM的性能。 3. 提示注入攻击:设计了一种基于不可见字体映射的提示注入攻击,评估LLM对对抗性攻击的抵抗力。

关键设计: 1. 评分校准:使用均方误差(MSE)等指标评估LLM评分与人类评分之间的差异。 2. 主题侧重差异:使用主题模型(Topic Modeling)分析LLM和人类评审报告中的主题分布,评估其侧重点差异。 3. 提示注入攻击:通过在论文中嵌入隐藏的指令,诱导LLM给出更高的评分,评估LLM的安全性。具体实现上,使用了不可见字符的字体映射技术,将指令隐藏在论文文本中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在评分上存在偏差,倾向于高估较弱的论文。在主题侧重上,LLM与人类评审员存在差异,低估了清晰度,高估了可重复性。提示注入攻击对LLM具有较高的成功率,简单指令即可显著提升低分论文的评分。不同模型家族对提示注入的抵抗力差异显著。

🎯 应用场景

该研究成果可应用于改进学术同行评审流程,辅助人类评审员进行初步筛选和评估,提高评审效率和质量。同时,研究结果也为开发更安全、更可靠的LLM评审系统提供了指导,有助于推动人工智能在学术领域的应用。此外,该研究也为其他需要LLM进行内容审核和评估的场景提供了参考。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in academic peer review, yet their reliability, alignment with human judgment, and robustness to adversarial attacks remain poorly understood. We present a systematic benchmark of LLM-as-a-Reviewer on 898 papers stratified from NeurIPS and ICLR, evaluating 12 LLMs along three axes: rating calibration, divergence from human reviewers, and resistance to prompt injection embedded via an invisible font-mapping attack. We find that LLMs systematically overrate weaker submissions and diverge from humans in topical emphasis, under-flagging Clarity and over-flagging Reproducibility, while producing reviews two to three times longer with lower lexical diversity and a more standardized vocabulary. Prompt injection remains highly effective. Simple hidden instructions can promote low-scoring papers to acceptance-level ratings in a substantial fraction of cases, with effectiveness varying sharply across model families. While LLMs offer utility in structuring evaluations, their integration into peer review requires safeguards against both intrinsic biases and adversarial risks.